(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025162971
(43)【公開日】2025-10-28
(54)【発明の名称】対話型時系列分析システムおよびその方法
(51)【国際特許分類】
G06F 16/732 20190101AFI20251021BHJP
【FI】
G06F16/732
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2025036203
(22)【出願日】2025-03-07
(31)【優先権主張番号】18/636919
(32)【優先日】2024-04-16
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.VISUAL BASIC
2.PYTHON
3.JAVASCRIPT
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】平井 理宇
(72)【発明者】
【氏名】スダンシュ ガウア
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA04
(57)【要約】 (修正有)
【課題】時間の経過とともに刻々と変化するイベントの意味を動的に解釈したり、時間に関する抽象的で曖昧さのないクエリのための会話インタフェースを利用する対話型時系列分析のためのシステムおよび方法を提供する。
【解決手段】対話型時系列分析システムは、複数のビデオを管理する大容量データストレージ300と、クエリを受信すると、クエリに関連する複数のビデオからのビデオの各フレーム上の少なくとも1つのオブジェクトの確率情報を計算し、過去から指定時刻までの確率情報に基づいて指定時刻の少なくとも1つのオブジェクトの状態を計算し、クエリに応答する自然言語出力で分析と予測を出力する大規模言語モデル(LLM)に指定時刻の状態を入力する時系列解析コンポーネント100と、を含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
複数のビデオを管理するデータベースと、
問い合わせを受信するように構成された処理部と、を有し、
前記処理部は、
複数のビデオからクエリに関連するビデオの各フレームの少なくとも1つのオブジェクトの確率情報を計算し、
過去から指定された時間までの確率情報に基づいて、指定された時間における少なくとも1つのオブジェクトの状態を計算し、
クエリに応答する自然言語出力で分析と予測を出力するように構成された大規模言語モデル(LLM)に、指定された時間の状態を入力する
対話型時系列分析システム。
【請求項2】
請求項1に記載の対話型時系列分析システムにおいて、
前記処理部は、過去および現在の確率情報を統合することにより、指定された時刻における前記少なくとも1つの物体の状態を計算するように構成されている、
対話型時系列分析システム。
【請求項3】
請求項1に記載の対話型時系列分析システムにおいて、
前記LLMは、前記確率情報の入力と、前記指定された時間における前記少なくとも1つのオブジェクトの状態とに基づいて、対話応答を生成する
対話型時系列分析システム。
【請求項4】
請求項1に記載の対話型時系列分析システムにおいて、
前記処理部は、
前記少なくとも1つの物体の動的変化を組み込んだ確率モデルを用いて、前記指定された時間の状態を計算するように構成されている
対話型時系列分析システム。
【請求項5】
請求項1に記載の対話型時系列分析システムにおいて、
前記処理部は、
将来の確率情報を予測することにより、指定された時間の状態を計算し、将来の確率情報をLLMへの入力として使用することから、将来の事象の分析および予測を容易にするように構成されている
対話型時系列分析システム。
【請求項6】
請求項1に記載の対話型時系列分析システムにおいて、
前記LLMは、
生成された対話応答とユーザからの追加情報要求のコンテキストに応じて、応答を動的に調整するように構成されている
対話型時系列分析システム。
【請求項7】
請求項1に記載の対話型時系列分析システムにおいて、
前記LLMは、
将来の確率情報に基づく自然言語出力における予測を、警告、提案、または行動指示のうちの1つ以上として出力するように構成されている
対話型時系列分析システム。
【請求項8】
請求項1に記載の対話型時系列分析システムにおいて、
前記処理部は、
前記確率情報を計算する前に、前処理手順によりラベル情報を最適化するように構成されている
対話型時系列分析システム。
【請求項9】
請求項1に記載の対話型時系列分析システムにおいて、
前記LLMは、
外部知識ベースからの文脈情報を統合するために、入力に応答してRAG(Retriever-Augmented Generation)ベースのアプローチを実行するように構成されている
対話型時系列分析システム。
【請求項10】
請求項1に記載の対話型時系列分析システムにおいて、
前記処理部は、
ユーザとの対話から指定された時間の確率情報および少なくとも1つのオブジェクトの状態の計算に使用されるモデルを改良するためのフィードバック機構を実行する
対話型時系列分析システム。
【請求項11】
複数のビデオを管理するデータベースと、問い合わせを受信するように構成された処理部とを有する対話型時系列分析システムの解析のための対話型時系列分析方法であって、
前記処理部により実行される、
クエリに関連する複数の動画から、動画の各フレーム上の少なくとも1つのオブジェクトの確率情報を計算するステップと、
過去から指定された時間までの確率情報に基づいて、指定された時間における少なくとも1つの物体の状態を計算するステップと、
前記クエリに応答する自然言語出力で分析と予測を出力するように構成された大規模言語モデル(LLM)に、指定された時間に状態を入力するステップと、を有する
対話型時系列分析方法。
【請求項12】
請求項11に記載の対話型時系列分析方法において、
前記処理部は、
指定された時間における少なくとも1つの物体の状態を計算することは、過去および現在の確率情報を統合する
対話型時系列分析方法。
【請求項13】
請求項11に記載の対話型時系列分析方法において、
前記LLMは、
前記確率情報の入力と、前記指定された時間における前記少なくとも1つのオブジェクトの状態とに基づいて、対話応答を生成する
対話型時系列分析方法。
【請求項14】
請求項11に記載の対話型時系列分析方法において、
前記指定された時間の状態を計算することは、前記少なくとも1つの物体の動的変化を組み込んだ確率モデルを使用する
対話型時系列分析方法。
【請求項15】
請求項11に記載の対話型時系列分析方法において、
前記処理部による前記指定された時間の状態の算出は、将来の確率情報の予測に基づいて行われ、前記LLMへの入力として将来の確率情報を使用することから、将来の事象の分析および予測を容易にする
対話型時系列分析方法。
【請求項16】
請求項11に記載の対話型時系列分析方法において、
前記LLMは、
生成された対話応答および追加情報を求めるユーザ要求のコンテキストに従って、応答を動的に調整するように構成される
対話型時系列分析方法。
【請求項17】
請求項11に記載の対話型時系列分析方法において、
前記LLMは、
将来の確率情報に基づいて、前記自然言語出力における予測を、警告、提案、または行動指示のうちの1つ以上として出力するように構成されている
対話型時系列分析方法。
【請求項18】
請求項11に記載の対話型時系列分析方法において、
前記処理部は、
確率情報を算出する前に、前処理手順によりラベル情報を最適化する
対話型時系列分析方法。
【請求項19】
請求項11に記載の対話型時系列分析方法において、
前記LLMは、
前記入力に応答して、外部の知識ベースからの文脈情報を統合するために、RAG(Retriever-Augmented Generation)ベースのアプローチを実行するように構成されている
対話型時系列分析方法。
【請求項20】
請求項11に記載の対話型時系列分析方法において、
前記処理部は、
ユーザとの対話から指定された時間の確率情報および少なくとも1つのオブジェクトの状態の計算に使用されるモデルを改良するフィードバック機構を実行する
対話型時系列分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般的に工場システム、より具体的には、大規模言語モデル(LLM)の使用によるビデオコンテンツの解釈およびテキストコンテキストに基づく拡張検索に向けられている。特に、本開示はゼロショット推論とテキストコンテキストに基づく拡張検索による映像コンテンツ解釈のための対話型時系列分析システムおよびその方法に向けられている。
【背景技術】
【0002】
製造業では、ヒューマンエラーによる生産停止が頻発し、大きな課題となっている。歴史的に、個々の作業員の行動やパターンの記録は紙で保管され、デジタル化されてこなかったため、このようなヒューマンエラーを効率的に理解し、防止するにはギャップが残っている。
【0003】
製造現場における人間の行動パターンのデジタル化に対する期待は、工場の停止を緩和し、業務効率を向上させることを目的として高まっている。人工知能(AI)の最近の進歩、特にビデオ解析のための機械学習モデルは、このニーズに対応し始めている。これらの進歩は、単一の画像の分析にとどまらず、ビデオフレームのコンテキスト分析を可能にし、リアルタイムでビジュアルデータのニュアンスに富んだ正確な解釈を提供する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
古くから研究されてきた教師あり学習AIの応用は、こうしたパターンのデジタル化に一定の効果を示し、生産ボトルネックの分析や生産性最大化の可能性につながっている。しかし、このアプローチには、AIモデルの最適化に多大な労力を要することや、異なる拠点間での水平展開の難しさなどの課題がある。
【0005】
さらに、大規模言語モデル(LLM)、対照言語画像事前学習(CLIP)などの基礎モデルは、ゼロショット学習のためのエキサイティングな機会を提供し、特定の訓練なしで新しいデータに使用することができる。これらは、分類、物体認識、画像キャプション付けにおいて有望な応用を実証している。これにより、モデルの訓練と展開に必要な時間とリソースを大幅に削減することができる。とはいえ、入力データの品質に依存するため、出力には無関係な情報や不正確な情報が含まれる可能性があり、精度と信頼性に課題がある。特に、検出対象外の物体が含まれるような複雑な背景を持つ映像の解析などでは、精度は高くない。
【0006】
このような背景から、製造業は変革期を迎えており、最適化されたAIモデルを通じて人間の行動パターンをデジタル化することで、新たなレベルの生産性と業務上の洞察力を引き出すことができる。現場に最適化されたAIの精度の高さと、基礎的なモデルの適用範囲は広いが精度は低いことのバランスは、極めて重要な開発分野である。
【0007】
基礎モデルを使用する既存の技術は、主にオブジェクトの検出と画像の分類に重点を置いており、コンテキストや時間的分析を深く統合していない。例えば、従来の機械学習モデルは、1つのフレーム内のオブジェクトや異常を識別することはできても、シーケンスや経時的な変化の重要性を理解することに苦労している。関連技術の実装には、ビデオ解析や異常検出に対する様々なアプローチが含まれるが、文脈の理解とインタラクティブ性を強化するための自然言語処理(NLP)の統合が欠けていることが多い。市場に出回っている製品やサービスは、基本的なビデオ解析を提供しているかもしれないが、ビジュアルデータの解釈と自然言語理解の間の相乗効果を十分に活用していない。
【0008】
関連技術の実施態様では、ビデオデータを照会する方法がある。映像データを、画像フレーム、音声データ、同一キャプションに関連するキャプションデータに基づいて、ショット毎に分割し、各ショットの特徴量をベクトル情報として抽出する。各ショットのベクトル情報を多層ニューラルネットワークでまとめて処理することで、映像データ全体の特徴ベクトルを生成する。比較特徴ベクトルとの類似度に基づいて、映像ストレージから最適な映像データが選択される。このような関連技術の実装では、フレーム単位での時系列分析は行われない。
【0009】
別の関連技術の実装では、ラベル付けされたデータの必要性を回避して、テキスト記述から直接学習するコンピュータビジョンシステムがある。ウェブ上で収集された4億の画像とテキストのペアで事前学習することにより、このような関連技術モデルは、自然言語を使用して視覚的概念を識別および記述し、タスク固有の訓練なしで多様なタスクにわたるゼロショット分類を可能にする。この関連アート手法は、ImageNetにおけるResNet-50のような従来の完全教師ありモデルの性能に匹敵し、大幅な適応性と効率性を示している。しかし、このアプローチは時系列情報処理を伴わず、代わりに視覚認識のための自然言語の活用に焦点を当てている。
【0010】
本明細書で説明する実装例は、このような課題を解決するものであり、ヒューマンエラーを最小化し、製造効率を向上させるために、両方のアプローチの長所を活用した新規のソリューションを提供するものである。本明細書で説明する実施例は、人間の行動のデジタル化だけでなく、他の装置、材料、自律走行車(AGV)などのデジタル化にも適用することができる。理解を容易にするため、本明細書で説明する実施例は、人間の行動のデジタル化に関して説明するが、これに限定されるものではない。
【0011】
関連技術によって解決されていない主要な課題は、ビデオデータ内のイベントのシーケンスの詳細なコンテキストを意識した分析を実行する能力が、限られていることである。既存のソリューションは、ビデオの包括的な意味抽出とシーン分類を行うことはできるが、時間の経過とともに刻々と変化するイベントの意味を動的に解釈したり、時間に関する抽象的で曖昧さのないクエリのための会話インタフェースを提供したりすることはできない。本書で説明する実装例は、ビジュアルデータ解釈のためのCLIPとコンテキストリッチな自然言語対話のためのLLMを統合することにより、ビデオデータの時系列分析を提供することで、このギャップを埋めることを目的としている。つまり、時間の経過とともに刻々と変化するイベントの意味を動的に解釈したり、時間に関する抽象的で曖昧さのないクエリのための会話インタフェースを利用した対話型時系列分析システムおよびその方法を提供することを目的とする。
【発明の効果】
【0012】
本発明によれば、ヒューマンエラーを最小化し、製造効率を向上させることが可能となる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、実施例による、対話型時系列分析システムの動作の概略の一例を示す図である。
【
図2】
図2は、実施例に従って、指定されたプロセスの平均検出時間(MTTD)を分析するために調整された対話型時系列分析システムを示す。
【
図3A】
図3Aは、実施例に従って、本明細書で説明するシステムに関連するシーケンス図を示す。
【
図3B】
図3Bは、実施例に従って、関連情報を取得するための質問と回答のツリーの例を示している。
【
図4】
図4は、実施例による前処理の一例を示す図である。
【
図5】
図5は、実施例に従って、クエリされるMTTD測定を示す。
【
図6】
図6は、実施例による対話型時系列分析システムのユーザインタフェースの一例を示す図である。
【
図7A】
図7Aは、実施例による文脈情報算出部の実行例を示す図である。
【
図7B】
図7Bは、実施例に従い、このシーンを各イベント確率算出部がテキスト化した場合の確率欄を示す。
【
図7C】
図7Cは、実施例による、文脈情報計算ユニットによる計算の例を示す。
【
図7D】
図7Dは、実施例による、文脈情報計算ユニットによる計算の例を示す。
【
図8】
図8は、XYZプロセス内の在庫管理のために設計された対話型時系列システムの別の実施例を示している。
【
図9】
図9は、対話型時系列分析のためのシステムの例示的な実装において、例示的なコンピュータデバイスを有する例示的なコンピューティング環境を示す。
【発明を実施するための形態】
【0014】
以下の詳細な説明は、本出願の図および実施例の詳細を提供する。図間の参照数字および冗長な要素の説明は、明確化のするために省略されている。本明細書を通して使用される用語は、例として提供され、限定することを意図していない。例えば、「自動」という用語の使用は、本願発明の実施態様を実践する当業者の所望の実施態様に応じて、実施態様の特定の側面に対するユーザまたは管理者の制御を伴う完全自動または半自動実施態様を含むことができる。選択は、ユーザインタフェースまたは他の入力手段を通じてユーザによって実施することができ、または所望のアルゴリズムを通じて実施することができる。本明細書で説明する例示的な実装は、単独または組み合わせのいずれかで利用することができ、例示的な実装の機能は、所望の実装に従って任意の方法で実装することができる。
【0015】
図1は、実施例による、対話型時系列解析のための例示的なシステム(対話型時系列分析システム)を示し、対話型時系列分析システムの処理部による動作の概略の一例を示す図である。
本明細書で説明する実施例では、高度な画像解析のためのCLIP(各イベント確率計算部103)と大規模言語モデル(LLM:LLM-based Analysis LLMベース分析部107)とを組み合わせて、対話型時系列解析のためのRAG(Retriever-Augmented Generation)ベースのチャットシステムを提供する革新的なシステムを含む。例えば、文脈(コンテキスト)情報計算部105でビデオフレーム間のイベントの確率のピークと谷を識別し、これらの洞察を製造業の文脈情報で豊かにすることにより、システムは、ユーザが自然言語を使用して対話的にシステムに問い合わせることを可能にする。この二重のアプローチにより、ビデオデータのイベント検出と分類の精度が向上するだけでなく、ユーザが解析と対話し理解する方法が革新され、「機器に問題がある可能性のあるフレームを表示してください」や「部品が存在しなかったのはいつですか」といったクエリに、包括的かつ会話形式で回答できるようになる。
【0016】
図1に示すように、実施例では、映像データの各フレーム上のオブジェクトの確率情報を算出するステップと、過去から現在までの確率情報に基づいて指定時刻のオブジェクトの状態を算出するステップと、指定時刻の状態を自然言語モデル(LLM)に入力するステップとを含む対話型時系列分析システムにより、自然言語に基づく分析・予測を可能としている。
【0017】
希望する実装によっては、指定された時間における状態の計算に、過去と現在の確率情報を統合する関数を含めることができる。対話型時系列分析システムの処理部は、過去および現在の確率情報を統合することにより、指定された時刻における前記少なくとも1つの物体の状態を計算するように構成されている。
【0018】
希望する実装に応じて、LLMは、入力された確率情報と状態情報に基づいて対話応答を生成するように構成することができる。つまり、LLMは、確率情報の入力と、指定された時間における前記少なくとも1つのオブジェクトの状態とに基づいて、対話応答を生成する。
【0019】
希望する実装に応じて、指定された時間における状態を計算するステップでは、オブジェクトの動的な変化を考慮した確率モデルを使用する。対話型時系列分析システムの処理部は、少なくとも1つの物体の動的変化を組み込んだ確率モデルを用いて、指定された時間の状態を計算するように構成されている。
【0020】
所望の実装に応じて、指定された時刻における状態の計算は、将来の確率情報の計算/予測を含むことができ、この将来の確率情報に基づいて、LLMを使用することにより、将来のイベントまたは状態の分析および予測を容易にする。対話型時系列分析システムの処理部は、将来の確率情報を予測することにより、指定された時間の状態を計算し、将来の確率情報をLLMへの入力として使用することから、将来の事象の分析および予測を容易にするように構成されている。
【0021】
希望する実装に応じて、LLMは、生成されたダイアログ応答のコンテキスト(以下、文脈ともいう)と追加情報を求めるユーザの要求に応じて、応答を動的に調整するように構成することができる。
【0022】
所望の実装に応じて、LLMは、将来の確率情報に基づく予測情報を、警告、提案、または行動指示としてユーザに提示するように構成される。
【0023】
所望の実装によっては、物体確率情報を計算する前にラベル情報を最適化する前処理モジュールが存在し、それによってその後の分析と予測の精度を向上させることができる。対話型時系列分析システムの処理部は、確率情報を計算する前に、前処理手順によりラベル情報を最適化するように構成されている。
【0024】
希望する実装によっては、LLMは複雑なクエリを処理するためにRAG(Retriever-Augmented Generation)アプローチを利用することができ、外部知識ベースからの文脈情報を統合して対話応答を豊かにすることができる。
【0025】
希望する実装によっては、システムがユーザとのインタラクションから学習し、時間の経過とともに予測モデルを改良し、それによって出力の関連性と精度を高めることを可能にするフィードバック機構を設けることもできる。
【0026】
画像処理とコンピュータビジョンの文脈では、画像フレーム内のオブジェクトは、分析や分類の対象となる明確なアイテム、図形、または領域を指す。これらのオブジェクトは、人、乗り物、動物から、形状やテキストのようなより抽象的な概念まで、何でもあり得る。一方、ラベルは、これらのオブジェクトが特定のカテゴリやクラスに属することを識別するために割り当てられたタグや名前である。例えば、街頭シーンでは、車、歩行者、信号機などのオブジェクトは、画像内の外観や特徴に基づいてラベル付けされる。
【0027】
分類問題において確率情報とは、与えられたオブジェクトやインスタンスが特定のクラスやカテゴリに属する可能性や確信度のことである。この情報は通常、ニューラルネットワークなどの分類モデルによって出力され、入力データ(画像や特徴のセットなど)を処理し、各オブジェクトのクラスメンバーシップを予測する。確率は0と1の間の値で表されることが多く、値が大きいほど分類に対する信頼度が高いことを示す。例えば、あるモデルは、猫の画像が「猫」カテゴリに属する確率は95%で、「犬」カテゴリに属する確率は5%であると予測するかもしれない。
【0028】
時系列データから得られる状態情報には、過去のデータや現在のデータに基づく、異なる時点におけるシステムやプロセスの状態や属性が含まれる。ビデオ解析や逐次データ処理の文脈では、物体の属性(位置、動き、外観など)が時間とともにどのように変化するかを理解することが含まれる。これらの動的な変化を分析することで、システムの現在の状態を推測し、将来の状態を予測することができる。例えば、映像の連続するフレームにわたって車両の動きを追跡することで、その速度や方向を計算し、将来の位置を予測することができる。AGV搭載カメラのような移動カメラを使用する場合、AGVから抽出した位置を確率的情報と同期させることで、カメラと車両の間のカメラと被写体の関係を補正することもできる。
【0029】
RAG(Retriever-Augmented Generation)とは、自然言語処理(NLP)の手法の一つで、大規模なテキストコーパスから関連情報を検索し(検索部分)、検索された情報に基づいて人間のようなテキストを生成できる生成モデル(生成部分)を組み合わせるものである。このアプローチにより、モデルは現在のコンテキストやクエリに関連する外部の知識を取り込むことができ、それによって生成される応答の品質と関連性を高めることができる。実用的なアプリケーションでは、RAGは複雑な質問に答えたり、詳細な説明を生成したり、あるいは多様なソースからの情報にアクセスして合成することによってコンテンツを作成するために使用することができる。例えば、特定の質問をされた場合、RAGシステムは文書のデータベースを検索して関連情報を見つけ、その情報を使って首尾一貫した有益な回答を構築することができる。
【0030】
図2は、実施例に従って、指定されたプロセスの平均検出時間(MTTD)を分析するために調整された対話型時系列分析システムを示す。
図2の例は、「ABC」プロセスとして参照される指定プロセスを有し、特に5月の間である。システムは、時系列解析コンポーネント100、データ通信コンポーネント200、および大容量データストレージ300の3つの主要コンポーネントで構成される。
【0031】
ユーザプロンプト(1)の入力が出発点である。最初のデータ入力が不十分な場合、システムはLLMベースのユーザインタフェース(UI)101を介して追加情報を要求することができる。この対話型Q&A(必要な場合)により、システムは分析を進めるために必要なすべての情報を確実に入手する。UI101は、ABCプロセスに関連する関連ビデオデータ(3)を大容量データストレージ300に問い合わせる。大容量データストレージ300複数のビデオを格納し、管理する。クエリ(2)は、データ通信コンポーネント200を介してビデオデータストレージ301に入力され、大容量データストレージ300から解析コンポーネント100へのあらゆるデータの転送を容易にする。
【0032】
ビデオフレーム抽出部102は、ビデオデータを個々の画像フレーム(4)に分割する。これらのフレームは、MTTDのラベル(5)とともに、各イベントの確率計算部103に入る。ここで、各イベント(事象)の確率(6)が決定される。つまり、各フレームの少なくとも1つのオブジェクトの確率が決定される。MTTD分析の場合、MTTD用のラベル(5)は、赤(または緑)の信号と、問題に応答する作業員である可能性がある。
【0033】
システムはさらに、過去から現在までの時系列確率文字列を記憶する時系列確率記憶部104を組み込んでいる。この時系列確率記憶部104に記憶された時系列確率文字列は、文脈文字列(7)と組み合わされ、文脈情報計算部105で処理され、確率と文脈のニュアンスの両方を包含する包括的な情報を作成する。例えば、イベント確率の急激なピークや谷のような重要な瞬間を特定したり、作業員の応答時間を特定したりすることができ、MTTD評価に不可欠な文脈データである。この情報は、文脈情報計算・記憶部106に格納される。
【0034】
次に、LLMベース分析部107は、文脈情報計算部・記憶部106に格納された、この豊富なコンテキスト情報(8)と、関連情報を含む最初のユーザプロンプト(9)を利用して、詳細な時系列分析を行う。この分析により、MTTD関連の洞察(10)のような分析データが生成される可能性がある。
【0035】
最終的に、LLMベースのUI101は、解析結果を採用して可視し、ユーザに対する動的対話応答(11)を生成する。これには、運用コンテキストにおける信号色の重要性を明確にしたり、システム内のMTTDメトリックを説明したりするような対話型フィードバックが含まれ得る。さらに、このシステムのユーザフレンドリーなインタフェースは、複雑な時系列データを容易に入力し解釈することを可能にし、それによってABCプロセスに関連する意思決定プロセスの最適化を支援する。説明では省略したが、確率情報に加えて、プログラマブルロジックコントローラ(PLC)などの外部データをシステムの入力として使用することもできる。
【0036】
図3Aは、例示的な実装に従った、本明細書で説明するシステムに関連するシーケンス図を示す。外部から参照されるセクション(「ref」)は、曖昧な表現であるユーザプロンプトに、処理の後段で必要とされる情報を追加するための前処理を記述する。
【0037】
図3Aのフロー例では、まず、ユーザがユーザプロンプト(1)をUI101に提供する。UI101は、提供されたプロンプトに関する情報をさらに収集するために、Q&A(質疑応答)セッションを実行し、クエリを生成することができる。クエリ(2)は、この例ではABCプロセスに関連するビデオであり、ビデオデータストレージ301に送られる。関連ビデオ(3)は、ビデオデータストレージ301から取得され、ビデオフレーム抽出部102によって処理され、フレーム(4)が抽出される。抽出された各フレーム(4)は、イベント確率計算部103によって処理され、各フレームの少なくとも1つのオブジェクトの確率情報が計算される。また、イベント確率計算部103には、UI101によって生成されたMTTD(5)用のラベルが入力される。フレームとラベルは、イベント確率計算部103によって処理され、各イベントの確率を決定する。このプロセスは、各フレームについて繰り返される。
【0038】
各イベントの確率は、時系列イベントのインデックス付き確率を決定するように構成された文脈情報計算部105に提供される(7)。インデックス化された時系列イベントの確率は、文脈情報計算部105によって処理され、文脈情報を生成し、このような文脈情報は文脈情報計算・記憶部106に記憶され、LLMベース分析部107によって処理されるために入力される(8)。
【0039】
LLMベース分析部107は、ユーザプロンプトと同様にUI101から関連情報(9)を、文脈情報計算・記憶部106からコンテキスト情報(8)を取り込み、解析されたデータ(10)を返すように構成されている。
この例では、ユーザプロンプトに含まれる関連情報(9)は、「緑色の光は正常な動作を示し、赤色の光は異常な事象を示す。MTTDは、作業者が問題を発見するまでに要した平均時間を示す」。LLMベース分析部107は、分析されたデータ(10)をUI101に返し、このデータはUI101からユーザに見えるように可視化(11)されて提供される。
【0040】
図3Bは、実施例に従って、関連情報を取得するための質問と回答のツリーの例を示す図である。
図4は、実施例による前処理の例を示す図である。
図4の例では、LLMベースのUIのユーザプロンプトに含まれる情報に対して、後段の各処理単位に必要な情報を追加するために、複数の質問が行われる。この例では、
図3Bの第4列に示すような関連情報を実現するために、RAGシステムを強化するための
図3Bに記載のような質問#1~5が実施される。UIは、予期しないプロンプトがあった場合に、予め固定されたフォーマットでユーザに再質問することができるが、本開示はこれに限定されず、所望の実装を容易にするために他の実装を利用してもよい。
【0041】
図4に示すように、ユーザプロンプト(ステップ400、以降ステップを単にSと表記する)が提供され、この例では「5月中のABCプロセスのMTTDを分析してください」である。S401では、
図3Bの前処理が、「ユーザプロンプトに「分析」が含まれていますか」という質問#1から開始されて実行される。もしそうであれば(YES)、質問♯2はスキップされ、そうでなければ(NO)、フローは2番目の質問をするためにS402に進む。S402では、質問#2が尋ねられる。「ユーザプロンプトには「取得」が含まれていますか?」である。そうであれば(YES)、フローはS403に進み、そうでなければ(NO)、フローはS406に進む。
【0042】
S403では、質問#3が尋ねられる。「ユーザプロンプトは「MTTD」を含むか?」である。そうであれば(YES)、フローはS405に進み、そうでなければ(NO)、フローはS404に進む。S404では、質問#4が尋ねられ、それは「ユーザプロンプトは『SOP』を含むか?」である。もしそうであれば(YES)、フローはS405に進み、そうでなければ(NO)、フローはS406に進む。
【0043】
S405で、質問#5が尋ねられる。「ユーザプロンプトには、特定のプロセスと特定の月が含むか?」である。そうであれば(YES)、フローは終了し、そうでなければ(NO)、フローはS406に進む。S406で、フローはLLMベースのUI上で「次のように再質問してください」「(1)AZプロセスのSOP準拠を分析する(2)NMプロセスに関連するビデオを取得する)を生成する。
【0044】
図5は、実施例に従って、MTTD測定が照会される様子を示す図である。具体的には、
図5は、文脈情報計算・記憶部106において、所定の閾値を超える過去から現在までの確率情報の変化を検出することによって、ユーザによって照会されるMTTD測定を示す。
【0045】
図6は、実施例による、対話型時系列解析のためのシステムのユーザインタフェース(UI)の例を示す図である。
図6に示されるように、UIは、LLMベースのUI101がユーザのプロンプト(1)を取り込み、関連するビデオデータ(3)、各イベントの確率(7)、および対話型応答(11)を表示することもできる。
【0046】
図7Aは、実施例に係る文脈情報計算部105の実行例を示す図である。
図7Aの例は、MTTDの場合の実行例であり、Frame-k-1、Frame-k、Frame-k+1の丁度中心時刻kで赤信号が点灯し、Frame-m-1、Frame-m、Frame-m+1の中心時刻mで赤信号が点灯したことを作業者が確認し、Frame-n-1、Frame-n、Frame-n+1の中心時刻nで赤信号が消灯して緑信号に変化する。
図7Bは、この場面を各イベント確率計算部103でテキスト化した場合の確率欄を示し、
図7C及び
図7Dは、文脈情報計算部105による算出例を示す。
図7Cは、確率の変化が大きいフレームのみを抽出した場合を示し、
図7Dは、直前のフレームからの確率の変化を算出して表示した場合を示す。
【0047】
図8は、XYZプロセス内の在庫管理のために設計された対話型時系列分析システムの別の実施例を示している。この使用例は、システムが、分類ラベル「部品」で識別される部品の確率情報をどのように検出し、将来的な在庫切れの警告だけでなく、所望の実装に従った他の提案またはアクション指令と同様に、材料納入タイミングに関するガイダンスを提供できることを示している。
【0048】
このユースケースにおける各コンポーネントの役割の詳細は以下の通りである。
【0049】
ユーザプロンプト(1):ユーザはシステムに、「いつまでにXYZステーションに部品を提供すべきか?」と質問する。この入力により、分析プロセスが開始される。
【0050】
LLMベースのUI101:大規模言語モデル(LLM)によって駆動されるシステムのユーザインタフェースは、ユーザのプロンプトを解釈し、追加情報が必要かどうかを判断する。必要に応じてQ&Aを行い、ユーザの要求を明確にしたり、拡大したりすることができる。
【0051】
関連動画のクエリ(2):UIは、大容量データストレージ300から当該パートに関連するビデオデータを取得するためのクエリをビデオフレーム抽出部102に送信する。
【0052】
大容量データストレージ300:大容量データストレージ300は、XYZプロセスの経時的な映像を含む広範な映像データなどを保存する。
【0053】
ビデオフレーム抽出部102:関連ビデオデータストレージ301が特定されると、ビデオフレーム抽出部102は分析のためにビデオからフレームを抽出する。
【0054】
フレームとイベントの確率計算と時系列確率記憶部:各イベントの確率計算部103は、個々のフレーム(4)と、UIから提供される部品のラベル(5)とに基づいて、各イベントの確率を決定し、時系列確率ストリング(6)を時系列確率記憶部104に入力する。時系列確率ストリング(6)は、時系列確率記憶部104により、各イベントの確率(7)と時系列イベントの確率(時系列確率)を計算するために処理される。
【0055】
文脈情報計算部105と文脈情報記憶部106:計算された確率とラベルは、文脈情報文字列と組み合わされて出力され(8)、その運用文脈の中で事象を包括的に理解する。
【0056】
LLMベース分析部107:LLMは上記のすべての情報を処理し、詳細な分析(9)を実行する。この分析には、グラフに可視化された、時間経過に伴う確率の観点からの部品の近似式を含めることができる。
【0057】
インタラクティブな応答(10と11):分析結果に基づいて、LLMベースのUIはユーザに対してインタラクティブな応答を提供する。例えば、「あなたはフレーム10よりも遅く部品を提供することを目指すべきです」。
【0058】
各部(コンポーネント)は、システムが現在の在庫状況を検出するだけでなく、将来のニーズを予測し、XYZプロセスにおける効果的な在庫管理と最適化を可能にするために協調して動作する。フレーム抽出、イベント確率計算、文脈解析の統合を通じてビデオデータを処理・分析し、LLMベースの予測応答へと結実させるシステムの能力は、産業環境における部品や材料の管理に対する最先端のアプローチを例示している。
【0059】
本明細書で説明する実装例は、説明したように、対話型ビデオ解析のためのCLIPとLLM技術のシームレスな統合を基礎としている。関連するオブジェクトやイベントを特定することによってCLIPでビデオデータを分析するシステムの能力と、文脈に富んだ対話応答を生成するためにLLMに情報を渡す詳細なプロセスは、強固な基盤を提供する。ビジュアルデータ解析と自然言語処理および検索補強との革新的な統合に重点を置くことで、本発明が提供するユニークな対話的で洞察に満ちた解析ツールが強調される。データ品質向上のための前処理、複雑なクエリ処理のためのRAG、およびモデル改良のためのフィードバック機構の追加により、リアルタイムモニタリング、予知保全、SOP遵守、および欠陥検出のためのシステムの機能がさらに拡張される。
【0060】
実装例としては、CLIPからのデータ(キーワード検索または類似画像検索)と、PLCからのデータなど、複数のデータセットに基づく予測ユースケースも考えられる。これは、画像情報だけでは解決できない事象に有効である。
【0061】
ラベルの選択には、CLIPでは単語ではなく長い文章を用いることができるため、RAGシステムを用いることで、画像の中で荷物を整理している「作業員」を「荷物を整理している作業員」とラベル付けすることができる。
図4のフローチャートを工夫することで、半自動的にラベリングを最適化することができる。工程名からPLMに登録されている作業手順を参照し、作業手順に書かれている作業手順をベースにラベリングすることが可能である。
【0062】
図9は、対話型時系列分析のためのシステム、複数のビデオを管理するデータベースなどのいくつかの例示的な実装において使用するのに適した例示的なコンピュータデバイスを有する例示的なコンピューティング環境を示す。コンピューティング環境900のコンピュータ装置905は、1つまたは複数の処理ユニット、コア、またはプロセッサ(処理部)910、メモリ915(例えば、RAM、ROM、および/または同類)、内部ストレージ920(例えば、磁気、光学、ソリッドステートストレージ、および/または有機)、および/またはI/Oインタフェース925を含むことができ、これらのいずれかは、情報を通信するための通信機構またはバス930上に結合されるか、またはコンピュータ装置905に埋め込まれることができる。I/Oインタフェース925はまた、所望の実装に応じて、カメラから画像を受信するか、またはプロジェクタまたはディスプレイに画像を提供するように構成される。
【0063】
コンピュータ装置905は、入力/ユーザインタフェース935および出力装置/インタフェース940に通信可能に結合することができる。入力/ユーザインタフェース935および出力デバイス/インタフェース940のいずれか一方または両方は、有線または無線インタフェースとすることができ、着脱可能とすることができる。入力/ユーザインタフェース935は、物理的または仮想的な、入力を提供するために使用することができる任意のデバイス、コンポーネント、センサー、またはインタフェース(例えば、ボタン、タッチスクリーンインタフェース、キーボード、ポインティング/カーソル制御、マイクロフォン、カメラ、点字、モーションセンサー、光学リーダー、および/またはこれらに類するもの)を含むことができる。出力デバイス/インタフェース940は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含み得る。いくつかの例示的な実装では、入力/ユーザインタフェース935および出力デバイス/インタフェース940は、コンピュータ装置905に埋め込まれるか、またはコンピュータ装置905に物理的に結合され得る。他の例示的な実装では、他のコンピュータデバイスは、コンピュータ装置905の入力/ユーザインタフェース935および出力デバイス/インタフェース940の機能として機能するか、またはその機能を提供することができる。
【0064】
コンピュータ装置905の例としては、高度に移動可能なデバイス(例えば、スマートフォン、車両および他の機械に搭載されたデバイス、人間および動物によって運ばれるデバイスなど)、移動可能なデバイス(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、および移動用に設計されていないデバイス(例えば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、そこに埋め込まれたおよび/またはそれに結合された1つまたは複数のプロセッサを有するテレビ、ラジオなど)を挙げることができるが、これらに限定されない。
【0065】
コンピュータ装置905は、同じ構成または異なる構成の1つまたは複数のコンピュータデバイスを含む、任意の数のネットワーク接続されたコンポーネント、デバイス、およびシステムと通信するために、外部ストレージ945およびネットワーク950に(例えば、I/Oインタフェース925を介して)通信可能に結合され得る。コンピュータ装置905または任意の接続されたコンピュータデバイスは、サーバ、クライアント、シンサーバ、一般マシン、特殊目的マシン、または別のラベルとして機能する、サービスを提供する、または参照されることができる。
【0066】
I/Oインタフェース925は、コンピューティング環境900内の少なくともすべての接続されたコンポーネント、デバイス、およびネットワークとの間で情報を通信するための任意の通信またはI/Oプロトコルまたは標準(例えば、イーサネット、802.11x、ユニバーサルシステムバス、WiMAX、モデム、セルラーネットワークプロトコルなど)を使用する有線および/または無線インタフェースを含むことができるが、これらに限定されない。ネットワーク950は、任意のネットワークまたはネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど)であり得る。
【0067】
コンピュータ装置905は、一過性媒体および非一過性媒体を含む、コンピュータ使用可能媒体またはコンピュータ読み取り可能媒体を使用および/または通信することができる。一過性の媒体には、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波などが含まれる。非一過性媒体には、磁気媒体(ディスク、テープなど)、光媒体(CD ROM、デジタルビデオディスク、ブルーレイディスクなど)、ソリッドステート媒体(RAM、ROM、フラッシュメモリ、ソリッドステートストレージなど)、その他の不揮発性ストレージまたはメモリが含まれる。
【0068】
コンピュータ装置905は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、またはコンピュータ実行可能命令を実装するために使用することができる。コンピュータ実行可能命令は、一過性の媒体から取り出すことができ、非一過性の媒体に格納し、そこから取り出すことができる。実行可能な命令は、プログラミング言語、スクリプト言語、および機械言語(例えば、C、C++、C#、Java、Visual Basic、Python、Perl、JavaScriptなど (Javaは登録商標))の1つまたは複数から発信することができる。
【0069】
プロセッサ(単数または複数)910は、ネイティブ環境または仮想環境において、任意のオペレーティングシステム(OS)(図示せず)の下で実行することができる。論理ユニット960、アプリケーションプログラミングインタフェース(API)ユニット965、入力ユニット970、出力ユニット975、および異なるユニットが互いに、OSと、および他のアプリケーション(図示せず)と通信するためのユニット間通信メカニズム995を含む1つまたは複数のアプリケーションを展開することができる。説明されたユニットおよび要素は、設計、機能、構成、または実装において様々であり得、提供された説明に限定されない。プロセッサ(複数可)910は、中央処理装置(CPU)のようなハードウェア・プロセッサの形態、またはハードウェア・ユニットとソフトウェア・ユニットの組み合わせの形態とすることができる。
【0070】
いくつかの例示的な実装において、情報または実行命令がAPIユニット965によって受信されると、それは1つまたは複数の他のユニット(例えば、論理ユニット960、入力ユニット970、出力ユニット975)に伝達されてもよい。いくつかの実施例では、論理ユニット960は、上述のいくつかの例示的な実装において、ユニット間の情報の流れを制御し、APIユニット965、入力ユニット970、出力ユニット975によって提供されるサービスを指示するように構成され得る。例えば、1つ以上のプロセスまたは実装の流れは、論理ユニット960単独で、またはAPIユニット965と連携して制御されてもよい。入力ユニット970は、例示的な実施態様において説明された計算のための入力を得るように構成されてもよく、出力ユニット975は、例示的な実施態様において説明された計算に基づいて出力を提供するように構成されてもよい。
【0071】
プロセッサ(複数可)910は、問い合わせを受信するように構成されており、(2)に示すようなクエリを受信した場合、(3)~(6)に示すように、クエリに関連する複数の動画から動画の各フレーム上の少なくとも1つのオブジェクトの確率情報を計算するように構成することができる。(7)に示すように、過去から指定された時間までの確率情報に基づいて、指定された時間における少なくとも1つのオブジェクトの状態を計算し、(8)から(10)に示すように、クエリに応答する自然言語出力で分析および予測を出力するように構成された大規模言語モデル(LLM)に、指定された時間における状態を入力する。
【0072】
プロセッサ(複数可)910は、
図1および
図2に関して説明したように、過去および現在の確率情報を統合することによって、指定された時間における少なくとも1つの物体の状態を計算するように構成され得る。
【0073】
所望の実装に応じて、LLMは、確率情報と指定された時間の少なくとも1つのオブジェクトの状態の入力に基づいて、対話応答を生成するように構成することができる(11)。
【0074】
プロセッサ(複数可)910は、少なくとも1つのオブジェクトの動的変化を組み込んだ確率モデルを使用して、指定された時間の状態を計算するように構成することができる。
【0075】
プロセッサ(複数可)910は、
図5に示すように、将来の確率情報の予測によって指定された時間の状態を計算し、将来の確率情報をLLMへの入力として使用することから将来の事象の分析および予測を容易にするように構成することができる。
【0076】
所望の実装に応じて、LLMは、(9)から(11)に示すように、生成された対話応答と加情報を求めるユーザ要求のコンテキストに従って、応答を動的に調整するように構成することができる。
【0077】
所望の実装に応じて、LLMは、将来の確率情報に基づく自然言語出力における予測を、
図8に示すように、警告、提案、または行動指示の1つ以上として出力するように構成することができる。
【0078】
プロセッサ(複数可)910は、(5)に示すように、確率情報を計算する前に、前処理手順を通じてラベル情報を最適化するように構成することができ、それにより、その後の分析および予測の精度を向上させることができる。
【0079】
所望の実装に応じて、LLMは、本明細書で説明するように、外部知識ベースからの文脈情報を統合するために、入力に応答してレトリーバ-拡張生成(RAG)ベースのアプローチを実行するように構成することができる。
【0080】
プロセッサ(単数または複数)910は、(10)および(11)に示すように、ユーザとの対話から指定された時間の確率情報および少なくとも1つのオブジェクトの状態の計算に使用されるモデルを改良するためのフィードバック機構を実行するように構成することができる。
【0081】
詳細な説明のいくつかの部分は、アルゴリズムおよびコンピュータ内の操作の記号的表現の観点から提示されている。これらのアルゴリズム記述および記号表現は、データ処理技術の当業者が、その技術革新のエッセンスを当業者に伝えるために使用する手段である。アルゴリズムとは、所望の最終状態または結果を導く一連の定義されたステップのことである。実施例では、実行されるステップは、目に見える結果を達成するために、目に見える量の物理的操作を必要とする。
【0082】
特に別段の記載がない限り、議論から明らかなように、本明細書全体を通して、「処理」、「計算」、「計算」、「決定」、「表示」などの用語を使用する議論には、コンピュータシステムのレジスタおよびメモリ内の物理的(電子的)量として表されるデータを、コンピュータシステムのメモリまたはレジスタまたは他の情報記憶、送信または表示デバイス内の物理的量として同様に表される他のデータに操作および変換する、コンピュータシステムまたは他の情報処理デバイスの動作およびプロセスが含まれ得ることが理解される。
【0083】
例示的な実施態様は、本明細書における操作を実行するための装置に関するものでもある。この装置は、必要な目的のために特別に構成されていてもよいし、1つまたは複数のコンピュータプログラムによって選択的に起動または再構成される1つまたは複数の汎用コンピュータを含んでいてもよい。このようなコンピュータプログラムは、コンピュータ可読記憶媒体やコンピュータ可読信号媒体などのコンピュータ可読媒体に格納することができる。コンピュータ可読記憶媒体は、光ディスク、磁気ディスク、読み取り専用メモリ、ランダムアクセスメモリ、ソリッドステートデバイスおよびドライブなどの有形媒体を含むことができるが、これらに限定されない。コンピュータ可読信号媒体は、搬送波などの媒体を含むことができる。本明細書で提示されるアルゴリズムおよび表示は、特定のコンピュータまたは他の装置とは本質的に関係しない。コンピュータプログラムは、所望の実装の動作を実行する命令を含む純粋なソフトウェア実装を含むことができる。
【0084】
様々な汎用システムが、本明細書の実施例に従ったプログラムおよびモジュールと共に使用されてもよいし、所望の方法ステップを実行するためのより特殊な装置を構築することが便利であることが判明してもよい。さらに、実施例は特定のプログラミング言語を参照して説明されていない。様々なプログラミング言語が、本明細書に記載される実施例の教示を実施するために使用され得ることが理解されるであろう。プログラミング言語の命令は、1つまたは複数の処理装置、例えば、中央処理装置(CPU)、プロセッサ、またはコントローラによって実行されてもよい。
【0085】
当技術分野で知られているように、上述の動作は、ハードウェア、ソフトウェア、またはソフトウェアとハードウェアの何らかの組み合わせによって実行することができる。例示的な実装の様々な態様は、回路および論理デバイス(ハードウェア)を使用して実装されてもよく、一方、他の態様は、プロセッサによって実行された場合、プロセッサに本出願の実装を実行する方法を実行させるためのソフトウェアを格納した機械可読媒体に記憶された命令を使用して実装されてもよい。さらに、本出願のいくつかの例示的な実装は、ハードウェアのみで実行され得るが、他の例示的な実装は、ソフトウェアのみで実行され得る。さらに、説明した様々な機能は、単一のユニットで実行することもできるし、任意の数の方法で多数の構成要素にまたがることもできる。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体上に記憶された命令に基づいて、汎用コンピュータなどのプロセッサによって実行され得る。所望により、命令は、圧縮および/または暗号化されたフォーマットで媒体に格納することができる。
【0086】
さらに、本願の他の実施態様は、本願明細書の考察および本願の教示の実践から当業者には明らかであろう。記載された例示的な実施態様の様々な態様及び/又は構成要素は、単独で又は任意の組み合わせで使用することができる。本明細書および例示的な実施態様は、例示としてのみ考慮されることが意図され、本願の真の範囲および精神は、以下の特許請求の範囲によって示される。
【符号の説明】
【0087】
100 時系列解析コンポーネント
101 ユーザインタフェース(UI)
102 ビデオフレーム抽出部
103 CLIP(各イベント確率計算部)
104 時系列確率記憶部
105 文脈情報計算部
106 文脈情報計算・記憶部
107 LLMベース分析部
200 データ通信コンポーネント
300 大容量データストレージ
301 ビデオデータストレージ