(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024175615
(43)【公開日】2024-12-18
(54)【発明の名称】情報処理システム、コンピュータが実行する方法、プログラム
(51)【国際特許分類】
G06N 3/0455 20230101AFI20241211BHJP
G06F 16/903 20190101ALI20241211BHJP
【FI】
G06N3/0455
G06F16/903
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023093554
(22)【出願日】2023-06-06
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】グエン コン カー
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA10
5B175HB03
(57)【要約】
【課題】 問題に対する原因を推論するためのコストを削減することを本開示の目的の1つとする。
【解決手段】 本開示の情報処理システム100は、コンテキストフィルタリングモデル101が示す機能と回答モデル102が示す機能を実現するものである。情報処理システム100は、問題を示すクエリ103と、問題と原因の因果関係に関する情報を含む文書の情報104に応じて、コンテキストフィルタリングモデル101が示す機能に基づいて、文書の情報104から、問題に関連するコンテキスト105を選択するものである。情報処理システム100は、問題を示すクエリ103と、問題に関連するコンテキスト105に応じて、回答モデル102が示す機能に基づいて、問題の原因を指定するものである。
【選択図】
図1
【特許請求の範囲】
【請求項1】
情報処理システムであって、
前記情報処理システムは、コンテキストフィルタリングモデルが示す機能と回答モデルが示す機能を実現するものであり、
前記情報処理システムは、問題を示すクエリと、前記問題と原因の因果関係に関する情報を含む文書の情報に応じて、前記コンテキストフィルタリングモデルが示す機能に基づいて、前記文書の情報から、前記問題に関連するコンテキストを選択するものであり、
前記情報処理システムは、前記問題を示すクエリと、前記文書の情報のうち前記問題に関連するコンテキストに応じて、前記回答モデルが示す機能に基づいて、前記問題の原因を指定するものである、情報処理システム。
【請求項2】
請求項1に記載の情報処理システムであって、
前記文書の情報は、前記文書に含まれる領域毎に、前記文書の当該領域をテキストデータとして表現するテキスト的なコンテキストと、前記文書の当該領域を画像データとして表現する視覚的なコンテキストの一方または両方を含むものである、情報処理システム。
【請求項3】
請求項2に記載の情報処理システムであって、
前記コンテキストフィルタリングモデルの機能を実現する際に、前記情報処理システムは、第1のテキスト的なコンテキストエンコーダ、第1の視覚的なコンテキストエンコーダ、第1のクロスドメイン特徴エンコーダ、第1のクエリエンコーダ、スコア算出器、または、コンテキスト選択器として機能するものであり、
前記第1のテキスト的なコンテキストエンコーダは、トランスフォーマのエンコーダであって、前記テキスト的なコンテキストの特徴を生成するものであり、
前記第1の視覚的なコンテキストエンコーダは、画像データ用のトランスフォーマのエンコーダであって、前記視覚的なコンテキストの特徴を生成するものであり、
前記第1のクロスドメイン特徴エンコーダは、前記第1のテキスト的なコンテキストエンコーダが生成した前記特徴に基づく情報と、前記第1の視覚的なコンテキストエンコーダが生成した前記特徴に基づく情報に対して、クロスアテンション演算を行うものであり、
前記第1のクエリエンコーダは、トランスフォーマのエンコーダであって、前記クエリの特徴を生成するものであり、
前記スコア算出器は、前記第1のクロスドメイン特徴エンコーダによる前記クロスアテンション演算の結果に基づく情報と、前記第1のクエリエンコーダが生成した前記クエリの前記特徴に基づく情報を用いて、前記クエリが示す前記問題に対する関連の強さを示すスコアを、前記文書に含まれる前記領域毎に算出するものであり、
前記コンテキスト選択器は、前記文書に含まれる前記領域のそれぞれに対応する前記スコアに基づいて、前記問題に対する関連が強い前記領域を認識し、認識した前記領域に関する、前記テキスト的なコンテキストと前記視覚的なコンテキストを、前記問題に関連するコンテキストとして選択するものである、情報処理システム。
【請求項4】
請求項2に記載の情報処理システムであって、
前記回答モデルの機能を実現する際に、前記情報処理システムは、第2のテキスト的なコンテキストエンコーダ、第2の視覚的なコンテキストエンコーダ、第2のクロスドメイン特徴エンコーダ、第2のクエリエンコーダ、アテンションデコーダ、または、多層パーセプトロンとして機能するものであり、
前記第2のテキスト的なコンテキストエンコーダは、トランスフォーマのエンコーダであって、前記問題に関連するコンテキストのうちの前記テキスト的なコンテキストの特徴を生成するものであり、
前記第2の視覚的なコンテキストエンコーダは、画像データ用のトランスフォーマのエンコーダであって、前記問題に関連するコンテキストのうちの前記視覚的なコンテキストの特徴を生成するものであり、
前記第2のクロスドメイン特徴エンコーダは、前記第2のテキスト的なコンテキストエンコーダが生成した前記特徴に基づく情報と、前記第2の視覚的なコンテキストエンコーダが生成した前記特徴に基づく情報に対して、クロスアテンション演算を行うものであり、
前記第2のクエリエンコーダは、トランスフォーマのエンコーダであって、前記クエリの特徴を生成するものであり、
前記アテンションデコーダは、トランスフォーマのデコーダであって、前記第2のクロスドメイン特徴エンコーダによる前記クロスアテンション演算の結果に基づく情報と、前記第2のクエリエンコーダが生成した前記クエリの前記特徴に基づく情報を用いて、クロスアテンション演算を含む演算を行うものであり、
前記多層パーセプトロンは、前記アテンションデコーダの演算の結果を入力として、前記問題の原因を指定する情報を出力するものである、情報処理システム。
【請求項5】
請求項1に記載の情報処理システムであって、
前記クエリが示す前記問題は、ある変数の状況を示すものであり、
前記文書の情報のうち、前記問題に関連するコンテキストは、複数の変数の間の関係を示す数式の情報と、前記変数の説明の情報を含むものであり、
前記問題と原因の因果関係は、前記問題に関連するコンテキストに含まれる前記数式の情報により規定されるものである、情報処理システム。
【請求項6】
請求項2記載の情報処理システムであって、
前記コンテキストフィルタリングモデルと前記回答モデルのいずれのモデルパラメータも教師有り機械学習により訓練されるものであり、
前記教師有り機械学習に用いられる注釈付きファイルのそれぞれは、前記教師有り機械学習に用いられる文書の1つまたは複数の領域を特定する領域特定情報と、当該1つまたは複数の領域に記述される問題と原因の因果関係を示す因果関係ツリーに関する情報と、当該1つまたは複数の領域に対応する前記テキスト的なコンテキストを特定する情報と、当該1つまたは複数の領域に対応する前記視覚的なコンテキストを特定する情報を含むことが出来るものであり、
前記コンテキストフィルタリングモデルのモデルパラメータの前記教師有り機械学習においては、前記コンテキストフィルタリングモデルへの入力となる前記クエリは、前記注釈付きファイルが有する前記因果関係ツリーの根ノードの情報に基づくものであり、前記コンテキストフィルタリングモデルへの入力となる前記テキスト的なコンテキスト及び前記視覚的なコンテキストは、前記教師有り機械学習に用いられる文書における領域のそれぞれの前記テキスト的なコンテキスト及び前記視覚的なコンテキストであり、前記コンテキストフィルタリングモデルからの出力と比較される教師データは、前記注釈付きファイルが有する前記領域特定情報により特定される、前記教師有り機械学習に用いられる文書のうちいずれの領域が当該注釈付きファイルに関連付けられているかという情報であり、
前記回答モデルのモデルパラメータの前記教師有り機械学習においては、前記回答モデルへの入力となる前記クエリは、前記注釈付きファイルが有する前記因果関係ツリーの根ノードの情報に基づくものであり、前記回答モデルへの入力となる前記テキスト的なコンテキストは、前記注釈付きファイルが有する前記テキスト的なコンテキストを特定する情報に基づくものであり、前記回答モデルへの入力となる前記視覚的なコンテキストは、前記注釈付きファイルが有する前記視覚的なコンテキストを特定する情報に基づくものであり、前記回答モデルからの出力と比較される教師データは、前記注釈付きファイルが有する前記因果関係ツリーの中間ノードまたは葉ノードの情報に基づくものである、情報処理システム。
【請求項7】
請求項2記載の情報処理システムであって、
前記コンテキストフィルタリングモデルは教師有り機械学習により訓練されるものであり、
前記教師有り機械学習に用いられる注釈付きファイルのそれぞれは、前記教師有り機械学習に用いられる文書の1つまたは複数の領域を特定する領域特定情報と、当該1つまたは複数の領域に記述される問題と原因の因果関係を示す因果関係ツリーに関する情報を含むことが出来るものであり、
前記コンテキストフィルタリングモデルのモデルパラメータの前記教師有り機械学習においては、前記コンテキストフィルタリングモデルへの入力となる前記クエリは、前記注釈付きファイルが有する前記因果関係ツリーの根ノードの情報に基づくものであり、前記コンテキストフィルタリングモデルへの入力となる前記テキスト的なコンテキスト及び前記視覚的なコンテキストは、前記教師有り機械学習に用いられる文書における領域のそれぞれの前記テキスト的なコンテキスト及び前記視覚的なコンテキストであり、前記コンテキストフィルタリングモデルからの出力と比較される教師データは、前記注釈付きファイルが有する前記領域特定情報により特定される、前記教師有り機械学習に用いられる文書のうちいずれの領域が当該注釈付きファイルに関連付けられているかという情報である、情報処理システム。
【請求項8】
請求項2記載の情報処理システムであって、
前記回答モデルのいずれのモデルパラメータは教師有り機械学習により訓練されるものであり、
前記教師有り機械学習に用いられる注釈付きファイルのそれぞれは、前記教師有り機械学習に用いられる文書の1つまたは複数の領域について、当該1つまたは複数の領域に記述される問題と原因の因果関係を示す因果関係ツリーに関する情報と、当該1つまたは複数の領域に対応する前記テキスト的なコンテキストを特定する情報と、当該1つまたは複数の領域に対応する前記視覚的なコンテキストを特定する情報を含むことが出来るものであり、
前記回答モデルのモデルパラメータの前記教師有り機械学習においては、前記回答モデルへの入力となる前記クエリは、前記注釈付きファイルが有する前記因果関係ツリーの根ノードの情報に基づくものであり、前記回答モデルへの入力となる前記テキスト的なコンテキストは、前記注釈付きファイルが有する前記テキスト的なコンテキストを特定する情報に基づくものであり、前記回答モデルへの入力となる前記視覚的なコンテキストは、前記注釈付きファイルが有する前記視覚的なコンテキストを特定する情報に基づくものであり、前記回答モデルからの出力と比較される教師データは、前記注釈付きファイルが有する前記因果関係ツリーの中間ノードまたは葉ノードの情報に基づくものである、情報処理システム。
【請求項9】
請求項6のいずれかに記載の情報処理システムであって、
前記教師有り機械学習における前記クエリが示す前記問題は、ある変数の状況を示すものであり、
前記教師有り機械学習に用いられる前記文書の情報のうち、前記問題に関連するコンテキストは、複数の変数の間の関係を示す数式の情報と、前記変数の説明の情報を含むものであり、
前記教師有り機械学習における前記問題と原因の因果関係は、前記教師有り機械学習に用いられる前記文書の情報のうちの、前記問題に関連するコンテキストに含まれる前記数式の情報により規定されるものであり、
前記因果関係ツリーは、前記数式から導かれるものである、情報処理システム。
【請求項10】
請求項6に記載の情報処理システムであって、
前記教師有り機械学習においては、前記教師有り機械学習に用いられる文書における領域のそれぞれについて、前記テキスト的なコンテキストが、コンテキストの内容が無い状態とされることか、または、前記視覚的なコンテキストが、画像データの内容が無い状態とされることの多くとも1つが為された上で、前記テキスト的なコンテキストと前記視覚的なコンテキストは、前記コンテキストフィルタリングモデルまたは前記回答モデルへの入力とされることが可能である、情報処理システム。
【請求項11】
請求項6に記載の情報処理システムであって、
前記注釈付きファイルは、XML形式のファイルであり、
前記視覚的なコンテキストを特定する情報は、前記視覚的なコンテキストを特定するパス名の情報である、情報処理システム。
【請求項12】
請求項2に記載の情報処理システムであって、
前記文書に含まれる領域のそれぞれについて、前記テキスト的なコンテキストが、コンテキストの内容が無い状態であることか、または、前記視覚的なコンテキストが、画像データの内容が無い状態であることの多くとも1つが成立したまま、前記テキスト的なコンテキストと前記視覚的なコンテキストは、前記コンテキストフィルタリングモデルまたは前記回答モデルへの入力とされることが可能である、情報処理システム。
【請求項13】
コンピュータに、請求項1乃至12のいずれかに記載の情報処理システムとして機能させるためのプログラム。
【請求項14】
コンピュータが実行する方法であって、
前記方法は、コンテキストフィルタリングモデルが示す機能を実行するステップと回答モデルが示す機能を実行するステップを備えるものであり、
前記コンテキストフィルタリングモデルが示す機能を実行するステップは、問題を示すクエリと、前記問題と原因の因果関係に関する情報を含む文書の情報に応じて、前記文書の情報から、前記問題に関連するコンテキストを選択するステップを含み、
前記回答モデルが示す機能を実行するステップは、前記問題を示すクエリと、前記文書の情報のうち前記問題に関連するコンテキストに応じて、前記問題の原因を指定するステップを含む、方法。
【請求項15】
プログラムであって、
前記プログラムは、コンピュータに、コンテキストフィルタリングモデルが示す機能を実行するステップと回答モデルが示す機能を実行するステップを実行させるためのものであり、
前記コンテキストフィルタリングモデルが示す機能を実行するステップは、問題を示すクエリと、前記問題と原因の因果関係に関する情報を含む文書の情報に応じて、前記文書の情報から、前記問題に関連するコンテキストを選択するステップを含み、
前記回答モデルが示す機能を実行するステップは、前記問題を示すクエリと、前記文書の情報のうち前記問題に関連するコンテキストに応じて、前記問題の原因を指定するステップを含む、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、問題の原因を推論する技術に関するものである。
【背景技術】
【0002】
問題を早期に解決することや、問題に伴う不具合の発生を回避することや、将来に同様の問題の発生を防ぐことのためには、産業システムにおける問題の原因を突き止めることは、最も重要なステップの一つである。従来、原因を突き止めることはシステムのオペレータ等が行っている。そして、原因を突き止めるに際しては、オペレータ等は多大な労力と時間を必要としていた。例えば、オペレータ等は、仕様書やマニュアルから、問題に対する原因を探していた。
問題に対する原因を突き止める際のコストを削減するために、因果関係モデル(Causal model)または因果関係ツリー(Causal tree)を構築することが知られている。因果関係ツリーは、問題を表す根ノードと、問題の原因を表す他のノード(中間ノードや葉ノード)を含む。因果関係ツリーにおいて、あるノードと別のノードが接続されていることは、当該あるノードが表す問題と、当該別のノードが表す原因の間の因果関係を示すか、または、当該有るノードが表す原因と、当該別のノードが表す”原因の原因”の間の因果関係を示す。
非特許文献1には、障害情報データベース(Fault information DB)またはトラブル情報(Trouble information)から、因果関係モデルを自動抽出する技術が開示されている。非特許文献1に開示された先行技術は、事前に構築された部品及び現象辞書(Part,phenomenon dictionary)を用いつつ、ルールベースの手法または経験則的な(ヒューリスティックな)手法により、因果関係モデル(因果関係ツリー)を構築する。因果関係モデル(因果関係ツリー)の構築後に、オペレータ等が、問題を因果関係モデルを実現する情報処理システムに与えると、当該情報処理システムは、因果関係モデルを用いた原因の推論を行う。推論により得られた原因の情報は、オペレータ等が問題に関する診断を行うために用いられる。
なお、非特許文献2には、画像に関するテキストによる質問に対して、テキストにて回答することに関するVisual Question Answering(VQA)の技術が開示されている。VQAは、画像の視覚的特徴と、テキストによる質問の言語的またはテキスト的特徴の両方を一つのモデルで表現して、画像に関する質問に直接回答するものである。VQAの手法は、非特許文献3に開示されているトランスフォーマの技術を活用することにより、効果的になっている。ただし、画像内の回答のコンテキストに制約がある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】清水勇喜,”不具合情報からの因果モデル自動抽出技術の開発”,第29回設計工学・システム部門講演会講演論文集,一般社団法人日本機械学会,2019年9月25日,全9頁(セッションID:3203)
【非特許文献2】Stanislaw Antol, et al., "VQA : Visual Question Answering", Proceedings of the International Conference on Computer Vision(ICCV) 2015, IEEE, 7 December 2015, pp. 2425-2433
【非特許文献3】Ashish Vaswani, et al., "Attention Is All You Need", Proceedings of 31st Conference on Neural Information Processing Systems(NIPS 2017), arXiv, 12 Jun 2017 Submitted, 6 Dec 2017 Last revised, all 15 pages
【非特許文献4】Ze Liu, et al., "Swin Transformer : Hierarchical Vision Transformer using Shifted Windows", Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV) 2021, IEEE, 10 October 2021, pp. 10012-10022
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1に開示された先行技術は、因果関係ツリーを構築する際に、ルールベースの手法または経験則的な(ヒューリスティックな)手法を用いている。そのため、非特許文献1に開示された先行技術は、ルール等を構築するためのコストが依然として大きい上に、構築されたルール等を適用出来る対象(例えば、問題と原因の因果関係に関する情報を有する文書)の範囲が限定される恐れがある。
そこで、機械学習(例えばディープラーニング)により構築された学習済みモデルを実現することにより、因果関係ツリーを構築することが検討されうる。機械学習によるモデルを用いた因果関係ツリーの構築が実現されるならば、因果関係ツリーを構築するためのコストを削減出来るとともに、因果関係ツリーを構築するために用いる情報源(例えば、問題と原因の因果関係に関する情報を有する文書)として幅広い種類のものが取り扱い可能となることが期待出来る。
ここで、文書において、問題と原因の因果関係に関する情報が、文章以外にも含まれているケースを想定する。例えば、文書に記載された数式は、数式に含まれる変数の間の因果関係を表現出来る。また、数式以外にも、文書に記載された図表も、図表に含まれる情報の間の因果関係を表現しうる。
このような文書の情報から因果関係ツリーを構築した上で、問題から原因を推定するに至るまでの工程としては、以下のステップが含まれうる。まずは、文書の情報が、テキスト情報を編集出来ないタイプのPDFファイルのような画像データである場合は、以下の5つのステップが想定出来る。
(1)レイアウト認識(Layout recognition)。画像データにおける、テキスト部分のレイアウト、数学的表現(数式)のレイアウト、図表のレイアウトが認識されるステップである。
(2)光学的な手段(文字に関しては光学的文字認識OCR)による、レイアウト毎の情報の読み取り。上記(1)で認識されたレイアウトを踏まえつつ、光学的な手段により、文書から情報が読み取られるステップである。例えば、上記(1)と(2)の一部については、何らかのテキスト画像認識モデルを構築することが想定される。
(3)因果関係を表現するもの(例えば、数式)の抽出と、因果関係ツリーのノードに対応付けられるもの(例えば、数式に含まれる変数)に関する定義情報の抽出。上記(2)により読み取られた情報のうち、因果関係を表現するもの(例えば、数式)が抽出されるとともに、因果関係ツリーのノードに対応付けられるもの(例えば、数式に含まれる変数)のそれぞれを説明(定義)する情報(この情報は、文章のなかにあることが多い)が抽出されるステップである。上記(3)の一部については、何らかの自然言語処理モデルを構築することが想定される。
(4)因果関係を表現するもの(例えば、数式)の構文解析(Syntactic analysis)。構文解析により、因果関係ツリーのノードに対応付けられるもの(例えば、数式に含まれる変数)どうしの関係が認識されるステップである。つまりは、因果関係ツリーが構築されるステップである。このステップには因果関係ツリーデータベース(DB)の作成処理も含まれうる。
(5)因果関係ツリーを用いた原因推論。上記の(4)により構築された因果関係ツリー(DB)を用いることにより、問題に対する原因が推論されるステップである。
また、文書の情報が、テキストデータ(文字コードを編集可能なデータ)である場合は、以上のステップのうち(3)(4)(5)からなる3つのステップが想定出来る。
ここで、上記のステップのそれぞれについて、機械学習(例えば、ディープラーニング)により構築された学習済みモデルを実現しようとする場合には、上記のステップのそれぞれについて、機械学習用のデータを用意する必要と機械学習を実行する必要がある。上記のステップに基づいて、5つのモデルまたは3つのモデルを想定するならば、機械学習用のデータも膨大なものとなりかねない。機械学習用のデータを収集することも、収集したデータに注釈を付けることも、作業負担を増大させうる。
また、上記のステップのそれぞれについて、機械学習(例えば、ディープラーニング)により構築された学習済みモデルを実現しようとする場合には、モデル毎に生じる誤差(エラー)が蓄積されて、問題に対する原因を推論するための情報処理システム全体として、問題に対する原因の推論の結果に、許容できない誤差(エラー)が生じる恐れがある。
【0005】
以上を踏まえて、問題に対する原因を推論するためのコストを削減することを、本開示の目的の1つとしてよい。または、問題に対する原因を推論することが適用出来る範囲を広げることを、本開示の目的の1つとしてよい。または、問題に対する原因を推論する際における誤差(エラー)の低減を図ることを、本開示の目的の1つとしてよい。
【課題を解決するための手段】
【0006】
上記目的のうちの少なくとも一つを達成するために、本開示が備えうる特徴は、例えば次のとおりである。
本開示の1つは、コンテキストフィルタリングモデルが示す機能と回答モデルが示す機能を実現する情報処理システムである。前記情報処理システムは、問題を示すクエリと、前記問題と原因の因果関係に関する情報を含む文書の情報に応じて、前記コンテキストフィルタリングモデルが示す機能に基づいて、前記文書の情報から、前記問題に関連するコンテキストを選択するものである。前記情報処理システムは、前記問題を示すクエリと、前記文書の情報のうち前記問題に関連するコンテキストに応じて、前記回答モデルが示す機能に基づいて、前記問題の原因を指定するものである。
【発明の効果】
【0007】
以上のように、本開示は、モデルを用いて問題に対する原因を推論(指定)する。そのため、ルールベースの手法などを用いる先行技術よりも、本開示は、問題に対する原因を推論するためのコストを削減することが出来る。また、このコスト削減に伴って、ルールベースの手法などを用いる先行技術よりも、本開示は、問題に対する原因を推論することが適用出来る範囲を広げることが出来る。
また、以上のように、本開示は、問題に対する原因を推論(指定)するために、コンテキストフィルタリングモデルと回答モデルを用いる。このように、本開示は、用いるモデルの数が2つであるので、問題と原因の因果関係に関する情報を有する文書の情報から因果関係ツリーを構築した上で、問題から原因を推定するに至るまでの工程として想定しうるステップのそれぞれをそのまま個々のモデルとした場合に比べて、本開示は、問題に対する原因を推論するためのコストを削減することが出来る。また、このモデルの数の削減に伴って誤差(エラー)の蓄積が少なくなるゆえ、上記した工程として想定しうるステップのそれぞれをそのまま個々のモデルとした場合に比べて、本開示は、問題に対する原因を推論する際における誤差(エラー)の低減を図ることが出来る。
【0008】
上記の情報処理システムが実現する処理と同様のことを実現するコンピュータが実行する方法やプログラムも、上記の情報処理システムと同様の作用効果を得ることが出来る。更に、プログラムの態様であれば、多くの場合で費用は削減される。プログラムでは、処理に関する設計変更も行われやすい。
上記以外の本開示が備えうる特徴、及び、当該特徴に対応する作用効果は、この明細書、特許請求の範囲または図面に開示される。
【図面の簡単な説明】
【0009】
【
図2】本開示の実施形態で扱う問題と原因の例を示す。
【
図3】問題に関連するコンテキストに含まれる情報の例を示す。
【
図5】本開示の実施形態を実現するコンピュータアーキテクチャを示す。
【
図6】コンテキストフィルタリングモデルの内部構成を示す。
【
図7】文書の領域(頁)ごとの各種のコンテキストを示す。
【
図10】コンテキストフィルタリングモデルを構築するための機械学習を示す。
【
図11】機械学習に用いる注釈付きファイル(XML)の例を示す。
【
図12】回答モデルを構築するための機械学習を示す。
【
図13】注釈付きファイルの編集を行うための情報処理システムを示す。
【発明を実施するための形態】
【0010】
以下、図面を参照して本開示(本開示を実現するためのものであって、機械学習処理に関するものと、注釈付きファイルの編集に関するものも含む。以下、この段落[0010]において同じ。)の実施形態を詳細に説明する。尚、以下に説明する実施形態は特許請求の範囲にかかる開示を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが本開示の解決手段に必須であるとは限らない。以下の記載及び図面は、本開示を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。本開示は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本開示は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
本開示のシステム、装置、モデル、各種エンコーダ、算出器、選択器、デコーダ、パーセプトロン、または、部のそれぞれは、ハードウェア的に一つにまとまったものでもよいし、複数の部分に分かれていて当該部分どうしが連携して役割を果たすものでもよい。幾つかのシステム、装置、モデル、各種エンコーダ、算出器、選択器、デコーダ、パーセプトロン、または、部がハードウェア的に統合されてもよい。システム、装置、モデル、各種エンコーダ、算出器、選択器、デコーダ、パーセプトロン、または、部のそれぞれは、(
図5のように)コンピュータにソフトウェア(プログラム)を実行させることにより実現されてよい。システム、装置、モデル、各種エンコーダ、算出器、選択器、デコーダ、パーセプトロン、または、部の機能の一部は、ハードウェア(例えば、ハードワイヤードロジックやFPGA)で実現され、残りの機能は、ソフトウェア(プログラム)が実行されることにより実現されてもよい。システム、装置、モデル、各種エンコーダ、算出器、選択器、デコーダ、パーセプトロン、または、部のそれぞれの機能の全てはハードウェア的に実現されてもよい。本開示にて説明される処理のステップの一部または全部は、ハードウェア的に実現されてもよい。
本開示のプログラムは、ソフトウェアとハードウェア資源とが協働することによって、使用目的に応じた特有の情報処理装置またはその動作方法が構築されるような、当該ソフトウェアに該当するもの一般を包含する概念に含まれるものであればよい。つまり、本開示のプログラムは、特定の種類や態様のプログラムに限定されない。また、プログラムは当初は圧縮形式で記録されるものでもよい。
複数の図面で同じ参照番号を用いているものは、同様のものであることを示す。また、以下で説明する図面において示される画面の態様は一例であり、これらに限定されない。
【0011】
1.本開示の実施形態の機能構成
図1は、本開示の実施形態の機能構成を示す。尚、
図1に示す全ての機能構成が必須というわけではない。
図1において、情報処理システム100はコンテキストフィルタリングモデル101の機能と回答モデル102の機能を実現するものである。例えば、後述の
図5に示すコンピュータアーキテクチャを有するハードウェアが、モデルの機能を記述したプログラムを実行し、モデルパラメータを用いることにより、モデルのそれぞれの機能が実現されてよい。または、モデルの一部または全部の機能が、よりハードウェア的に実現されてもよい。
コンテキストフィルタリングモデル101は、問題を示すクエリ103と、問題と原因の因果関係に関する情報を含む文書の情報104に応じて、文書の情報104から、問題に関連するコンテキスト105を選択するためのものである。
図1では、コンテキストフィルタリングモデル101により選択された、問題に関連するコンテキスト105を識別する情報を、問題に関連するコンテキストの選択情報106としている。
回答モデル102は、問題を示すクエリ103と、問題に関連するコンテキスト105に応じて、問題の原因を指定する(推論する)ためのものである。
図1では、回答モデル102により指定(推論)された、問題の原因を識別する情報を、問題の原因を指定する情報107としている。
【0012】
図1の機能構成を具体的な事例を用いて説明する。ここでは、問題と原因の因果関係に関する情報が数式により与えられる事例を取り上げるが、本開示は数式の取り扱いのみに限定されるものではない。例えば、本開示は図表の取り扱いにも用いることが出来る。
図2は、問題と原因に関する情報が数式により与えられる事例における、モデルのそれぞれの機能を実現する情報処理システム100への入力と出力の例を示す。
図2では、文書の情報104、問題に関連するコンテキスト105、問題に関連するコンテキストの選択情報106の図示は省略されているが、
図1と同様にこれらの情報も、モデルのそれぞれに入出力されている。
コンテキストフィルタリングモデル101と回答モデル102の両方への入力となるクエリ103は、原因を推論したい問題を示す。問題と原因に関する情報が数式により与えられる事例の場合は、クエリ103が示す問題は、例えば、数式に含まれる変数を特定する情報(
図2では、問題に含まれる変数201としている。)と、当該変数の状況を特定する情報の組み合わせとしてよい。(さらに、クエリ103は、問題に含まれる変数201の説明(定義)を特定する情報も含んでよい。)
図2に示される例では、「T(t)」という変数を特定する情報と、「高い」という変数の状況を特定する情報の組み合わせにより、クエリ103は「T(t)が高い」と表現される。
回答モデルからの出力となる問題の原因を指定する情報107は、クエリ103が示す問題(
図2では「T(t)が高い」という問題)に対する原因の候補を示す。問題と原因に関する情報が数式により与えられる事例の場合は、問題の原因を指定する情報107に含まれる原因の候補のそれぞれは、例えば、数式に含まれる変数を特定する情報(
図2では、原因に含まれる変数202としている。)と、当該変数の状況を特定する情報の組み合わせとしてよい。(さらに、問題の原因を指定する情報107は、原因に含まれる変数202の説明(定義)を特定する情報も含んでよい。)
図2に示される例では、例えば「A」という変数を特定する情報と、「大きい」という変数の状況を特定する情報の組み合わせにより、問題の原因を指定する情報107は、原因の候補として「Aが大きい」と表現されるものを有する。なお、問題に対する原因の候補は複数存在しうるものであるから、問題の原因を指定する情報107も、原因の候補として複数のものを有してよい。ここで、問題の原因を指定する情報107は、原因の候補の全てを網羅して有するものであってもよいし、原因の候補となりうるものの一部を有するものであってもよい。
【0013】
図3は、問題と原因の因果関係に関する情報が数式により与えられる事例における、問題に関するコンテキスト105に含まれる情報の例を示す。この例は、
図2に示す問題と原因の例に対応している。
問題と原因の因果関係に関する情報が数式により与えられる事例においては、問題に関するコンテキスト105には、例えば、数式の情報と、数式に含まれる変数のそれぞれを説明(または定義)する情報が含まれてよい。
図2における「T(t)が高い」という問題に対する原因を推論することに利用できる数式の情報として、
図3に示すT(t)を求める数式の情報301が、問題に関連するコンテキスト105に含まれうる。
図3の例では、T(t)を求める数式の情報301は、変数T(t)を求めるために、変数T
infと変数T
0と変数Aと変数Cと変数kと変数tを含む数式が用いられることを示す。さらには、T(t)を求める数式の情報301で示される変数の1つであるkについて、kを求める数式の情報302が、問題に関連するコンテキスト105に含まれうる。
図3の例では、変数kを求める数式の情報302は、変数kを求めるために、変数Lと変数λ(lambda)と変数h
oを含む数式が用いられることを示す。
そして、問題に関連するコンテキスト105には、T(t)を求める数式の情報301に含まれる変数のそれぞれ(T(t)とT
infとT
0とAとCとkとt)を説明(定義)する情報303と、kを求める数式の情報302に含まれる変数のそれぞれ(kとLとλ(lambda)とh
o)を説明(定義)する情報304が含まれてよい。変数のそれぞれを説明(定義)する情報である303や304は、問題に関連するコンテキスト105において、文章中に示される情報からもたらされてもよいし、数式に添付された箇条書きの定義情報からもたらされてもよい。
図3の例では、T(t)の定義は時刻tにおける保冷容器内の温度とされ、T
infの定義は外気温とされ、T
0の定義は保冷容器内の初期温度とされ、Aの定義は保冷容器の表面積とされ、Cの定義は保冷容器と食品を合わせた熱容量とされ、kの定義は保冷容器の熱貫流率とされ、tの定義は時刻とされ、Lの定義は保冷容器の厚みとされ、λ(lambda)の定義は保冷容器の熱伝導率とされ、h
oの定義は自然熱伝達率とされる。
【0014】
図4は、数式と因果関係ツリーの関係の例を示す。この例は、
図2に示す問題と原因の例に対応し、
図3に示す数式の例に対応する。
T(t)を求める数式の情報301は、T(t)が、T
infとT
0とAとCとkとtを含む数式で求められるものであることを示す。このことを因果関係ツリー401で表現するために、因果関係ツリー401は、根ノード402に変数T(t)を含み、当該根ノード402に直接接続されるノードとして、変数T
infを含むノードと、T
0を含むノードと、Aを含むノードと、Cを含むノードと、kを含むノードと、tを含むノードを備えてよい。
kを求める数式の情報302は、kが、Lとλ(lambda)とh
oを含む数式で求められるものであることを示す。このことを因果関係ツリー401で表現するために、因果関係ツリー401は、kを含むノードに直接接続されるノードとして、変数Lを含むノードと、変数λ(lambda)を含むノードと、変数h
oを含むノードを備えてよい。
因果関係ツリー401において、根ノード402以外のノードは、他のノードとの接続関係次第で、中間ノード403または葉ノード404として扱われてよい。
図4の例では、根ノード402であるT(t)を含むノード以外のノードのうち、kを含むノードは中間ノード403として扱われてよく、その他のノードは葉ノード404として扱われてよい。
数式は、当該数式に含まれるある変数の値がどのように変化すると、当該数式に含まれる別の変数の値がどのように変化するのかを示していることがある。例えば、
図3及び
図4に示されている、T(t)を求める数式の情報301は、(保冷容器が取り扱われることが想定される通常の環境を前提にすれば、)変数T
infの値が高いほど、変数T(t)の値が高くなることを示す。そのため、因果関係ツリー401のノードのそれぞれは、単に変数を特定する情報を含むのみではなく、当該変数の状況を特定する情報も含んでよい。例えば、因果関係ツリー401の根ノード402には、「T(t)」を示す変数を特定する情報とともに、「高い」を示す変数の状況(の1つ)を特定する情報を含ませてよい。また、因果関係ツリー401の葉ノード404の1つには、「T
inf」を示す変数を特定するとともに、「高い」を示す変数の状況(の1つ)を特定する情報を含ませてよい。このようにすれば、因果関係ツリー401は、「T(t)が高い」ことと「T
infが高い」ことを関連付けることが出来る。
【0015】
さて、
図2のごとく、クエリ103が「T(t)が高い」という問題を示す際に、当該問題に対応する原因が特定されるためには、
図3のような内容の情報を有するコンテキスト、つまり、「T(t)が高い」という問題に関連するコンテキスト105が、文書のなかで特定されてよい。文書の情報104に対応する文書の分量は膨大であることが多い。その場合に、クエリ103にて問題が示された場合に、情報処理システム100は、まず、膨大な分量を有する文書の情報104から、当該問題に対応する原因を特定するために用いることが出来る情報を有する、問題に関連するコンテキスト105を選択して(絞り込んで)よい。このような、文書の情報104のうち問題に関連するコンテキスト105を選択する(絞り込む)ためのものが、コンテキストフィルタリングモデル101である。
その一方で、コンテキストフィルタリングモデル101により選択した(絞り込んだ)問題に関するコンテキスト105から、
図3や
図4で示した変数間の因果関係に関する情報を抽出して、抽出した因果関係に関する情報を用いて、クエリ103が示す問題に対する原因を指定(推論)するためのものが、回答モデル102である。
【0016】
本開示における情報処理システム100は、上記のような機能構成を有するので、前述の[発明の効果]で示した効果を備えることが出来る。
【0017】
また、本開示は、文書の情報104から、問題に関連するコンテキスト105を選択する(絞り込む)処理と、問題に関連するコンテキスト105を用いて、問題の原因を指定(推論)する処理を、別々のモデルを用いて実行する。そのため、本開示は、たとえ文書の情報104が膨大な分量であっても、モデルのそれぞれが実用に耐えうる性能を有するようにすることが可能である。
仮に、情報処理システムが全ての処理を1つのモデルで実現しようとしても、文書の情報104の分量が膨大であるケースにおいても実用に耐えうる性能を、当該単一のモデルで実現することは、かなりの試行錯誤を要すると考えられる。
また、本開示が、変数と当該変数の状況を問題として扱うものであり、問題に関連するコンテキスト105に含まれる数式の情報から、問題と原因の因果関係に関する情報を得て、因果関係ツリー401を導き出す場合は、本開示により、変数に関する問題を取り扱えるようになるとともに、文書に含まれる数式の情報を適切に活用出来るようになる。
【0018】
2.本開示の実施形態を実現するためのコンピュータアーキテクチャ
図5は、本開示の実施形態を実現するためのコンピュータアーキテクチャを示す。
情報処理システム100を実現するために、情報処理装置(例えばCPU)501と、記憶装置(例えばメモリ)502と、不揮発性記録媒体(例えば、不揮発性メモリ、不揮発性ディスク装置)503と、外付け記録媒体用ドライブ(例えばディスクドライブ)504と、表示または出力装置(例えば、ディスプレイ、印刷機)506と、入力装置(例えば、マウス、キーボード、撮像装置、センサ)507と、通信装置(例えば、有線通信用通信装置、無線通信用通信装置。所定のプロトコルに従って他のシステム、装置またはサーバとの通信を制御するネットワークインターフェース装置(NIC)でよい。)508と、外部入出力用ポート509の一部または全部が、相互接続部(例えば、バス、クロスバスイッチ)510にて相互接続されていてよい。
不揮発性記録媒体503にはプログラム520a(例えば本開示におけるコンテキストフィルタリングモデル101または回答モデル102を実現するためのプログラム)及び様々な情報が記録されてよい。様々な情報として、不揮発性記録媒体503には、例えば、各種データベース(DB)521または各種情報522が記録されてよい。以上に代えて、上記したプログラムまたは様々な情報の一部または全部を、
図5の外部から取得(アクセス)する態様でもよい。外付け記録媒体用ドライブ504は外付け記録媒体(例えば、可搬性記録ディスク(DVD等)、ICカード、SDカード)505を接続することが出来る。尚、この外付け記録媒体505から不揮発性記録媒体503や記憶装置502に、プログラム520a(例えば本開示におけるコンテキストフィルタリングモデル101または回答モデル102を実現するためのプログラム)や上記した様々な情報を転送し記憶する態様でもよい。また、プログラム520a(例えば本開示におけるコンテキストフィルタリングモデル101または回答モデル102を実現するためのプログラム)や上記した様々な情報が、通信装置508、外部入出力用ポート509または入力装置507経由でもたらされて、不揮発性記録媒体503や記憶装置502に記憶されてもよい。
図5のアーキテクチャが、情報処理システム100、情報処理システム100内のモデル、エンコーダ、算出器、選択器、デコーダ、パーセプトロン、各部といった機能部または各機能部の部分として機能する(一つまたは一連の処理(ステップ)を実行する)ために、プログラム520aは、(例えば不揮発性記録媒体503から)記憶装置502にローディングされてよい。ローディング後のプログラムは
図5では520bで示される。そして情報処理システム100が、(必要に応じて不揮発性記録媒体503等に存在する様々な情報も用いて、)プログラム520bを実行してよい。プログラム520bの実行により、情報処理システム100、情報処理システム100内のモデル、エンコーダ、算出器、選択器、デコーダ、パーセプトロン、各部といった機能部または各機能部の部分の機能が実現される(一つまたは一連の処理(ステップ)が実行される)。この際に記憶装置502に一時的に形成される各種バッファ523も適宜用いてよい。
なお、後述の機械学習処理を実行する情報処理システム1000、機械学習処理を実行する情報処理システム1200、及び、編集用情報処理システム1300のそれぞれの実施形態を実現するコンピュータアーキテクチャも、
図5で説明した上記のものと同様であってよい。機械学習処理を実現するためのプログラムや、注釈付きファイル1001の編集処理を実現するためのプログラムも、
図5を用いて説明したコンピュータアーキテクチャと同様のもので実行されてよい。また、その際に、機能の一部または全部が、よりハードウェア的に実行されてよい。
【0019】
3.本開示の実施形態における問題に対する原因の指定(推論)処理
ここでは、本開示の実施形態における問題に対する原因の指定(推論)処理を説明する。まず、コンテキストフィルタリングモデル101により実現される処理に関して説明し、その後で、回答モデル102により実現される処理について説明する。
尚、以下で説明する処理の全てを行うことが必須というわけではなく、以下で説明する処理の一部を行うための情報処理システム、コンピュータが実行する方法、または、プログラムであってもよい。
【0020】
3の1.コンテキストフィルタリングモデルにより実現される処理
既に指摘したように、コンテキストフィルタリングモデル101の機能を実現することにより、情報処理システム100は、クエリ103にて問題が示された場合に、文書の情報104から、当該問題に対応する原因を特定するために用いることが出来る情報を有する、問題に関連するコンテキスト105を選択する(絞り込む)。
以下では、コンテキストフィルタリングモデル101の実施形態の一例を説明する。当該説明にあわせて、文書の情報104の態様の一例も説明する。
【0021】
3の1の1.コンテキストフィルタリングモデルに含まれる機能部の概要
図6は、コンテキストフィルタリングモデル101の実施形態の一例を示す。
図6は、コンテキストフィルタリングモデル101に対する入出力を示すとともに、コンテキストフィルタリングモデル101の内部にある機能部のそれぞれを示す。
図5で説明したように、情報処理システム100がプログラムを実行することによりこれらの機能部を実現してよい。これらの機能部の一部または全部が、よりハードウェア的に実現されてもよい。
コンテキストフィルタリングモデル101は、第1のテキスト的なコンテキストエンコーダ601と、第1の視覚的なコンテキストエンコーダ602と、第1のクロスドメイン特徴エンコーダ603と、第1のクエリエンコーダ604と、スコア算出器605と、コンテキスト選択器606という機能部のそれぞれを有してよい。なお、ここで「第1の」という表現を用いているのは、後述の回答モデル102に含まれる機能部と区別するためのものであるので、数字自体には格別の意味は無い。
コンテキストフィルタリングモデル101は、以上で示す機能部のそれぞれを有しており、以下で説明するような処理を実現することが出来るので、コンテキストフィルタリングモデル101の機能を実現する情報処理システム100は、コンテキストの種類に適したコンテキストの特徴量の抽出処理を行うことと、文書の同じ領域(例えば、同じ頁)についての異なる種類のコンテキストどうしの特徴量間の演算により、その領域(例えば、頁)についての特徴量としてより妥当なものを得ることと、問題に関連するコンテキスト105を選択する(絞り込む)に際して、妥当な選択結果を得ることが出来る。
【0022】
3の1の2.文書の領域(頁)毎の2つのコンテキスト
図6に示すコンテキストフィルタリングモデル101の実施形態の一例(、及び、後述の
図9の回答モデル102の実施形態の一例)は、文書の領域(例えば、頁)のそれぞれについて、文書の情報104に含まれるテキスト的なコンテキスト611と、文書の情報104に含まれる視覚的なコンテキスト612を取り扱いうる。
図7は、文書の情報104の内部構成の一例を示す。例えば、文書がn個の領域(例えば、頁)からなるとして、領域毎に、テキスト的なコンテキスト611と、視覚的なコンテキスト612の一方または両方が存在してよい。
図7では、領域(頁)番号701で示される領域(例えば、頁)のいずれについても、テキスト的なコンテキスト611と視覚的なコンテキスト612の両方が存在するかのように表現しているが、実際には、この二種類のコンテキストの一方が存在しなくてもよく、また、この二種類のコンテキストの両方が存在するものの一方が実質的に白紙の状態であってもよい。
図8は、テキスト的なコンテキスト611と視覚的なコンテキスト612の一例を示す。
図8は、文書の領域(例えば、頁)のいずれかについて、テキスト的なコンテキスト611と、視覚的なコンテキスト612の両方が存在するケースを示している。また、
図8は、
図3に示される数式の情報と数式に含まれる変数の説明(定義)の情報が含まれるコンテキストの一例である。
テキスト的なコンテキスト611は、文書の領域(例えば、頁)に含まれる情報を、文字コードの列により表現したものである。
図8の例では、テキスト的なコンテキスト611は、T(t)を求める数式の情報301のテキスト801と、kを求める数式の情報302のテキスト802を含む。数式を文字コードの列にて表現するに際しては、オリジナルの文書のとおりに表現出来ない部分がありうる。そのため、例えば、テキスト的なコンテキスト611は、分数を「\frac{分子}{分母}」の形式で表現することや、下付きの添え字を「_添え字」の形式で表現することや、ギリシャ文字を「\ギリシャ文字の英語表記」で表現することがある。また、テキスト的なコンテキスト611は、オリジナルの文書における、図形そのものや、文字を含むオブジェクトの大きさの情報は、必ずしも情報として保持しているとは限らない。
視覚的なコンテキスト612は、文書の領域(例えば、頁)に含まれる情報を、画像データにより表現したものである。例えば、視覚的なコンテキスト611は、文書の領域(例えば、頁)のオリジナルの画像データであってよい。
図8の例では、視覚的なコンテキスト612は、T(t)を求める数式の情報301の画像803と、kを求める数式の情報302の画像804を含む。
以上のように、本開示は、文書の領域(例えば、頁)のそれぞれについて、テキスト的なコンテキスト611と視覚的なコンテキスト612を取り扱うことが出来るので、文書に含まれる情報を多面的に取得することが出来る。また、本開示は、文書の情報104として、テキスト的なコンテキスト611と視覚的なコンテキスト612のうちの一方のみが利用可能なケースにも柔軟に対応することが出来る。
【0023】
3の1の3.第1のテキスト的なコンテキストエンコーダ
図6における第1のテキスト的なコンテキストエンコーダ601は、文書の領域(例えば、頁)のそれぞれについて、テキスト的なコンテキスト611が有する特徴を抽出して、文書の領域(例えば、頁)毎の特徴を第1のテキスト的特徴613として出力する。第1のテキスト的なコンテキストエンコーダ601は、非特許文献3に示されるトランスフォーマのエンコーダの技術を用いて構成されてよい。
トランスフォーマのエンコーダの技術を用いる場合においては、第1のテキスト的なコンテキストエンコーダ601は、埋め込み(Embedding)層と、セルフアテンション(Self Attention)演算を行うマルチヘッドアテンション機構と、フィードフォワード層を含んでよい。なお、埋め込み層は、第1のテキスト的なコンテキストエンコーダ601から分離されてもよい。埋め込み層は、テキスト的なコンテキスト611を特徴ベクトルに変換する。そして、テキスト的なコンテキスト611におけるそれぞれの文字の位置情報もエンコードされて、エンコードされた位置情報は、当該特徴ベクトルに付け加えられる。第1のテキスト的なコンテキストエンコーダ601は、セルフアテンション(Self Attention)演算を行うマルチヘッドアテンション機構とフィードフォワード層の組み合わせを複数組有していてよい。または、第1のテキスト的なコンテキストエンコーダ601は、セルフアテンション(Self Attention)演算を行うマルチヘッドアテンション機構により実現される機能とフィードフォワード層により実現される機能を複数回繰り返して実行するものであってもよい。最初の組(最初の繰り返し)に含まれるセルフアテンション(Self Attention)演算を行うマルチヘッドアテンション機構は、前述の位置情報が付け加えられた特徴ベクトルを入力してよい。最後の組(最後の繰り返し)に含まれるフィードフォワード層(または、後続する層正規化処理層)は、文書の領域(例えば、頁)毎の特徴として、第1のテキスト的特徴613を出力してよい。
【0024】
3の1の4.第1の視覚的なコンテキストエンコーダ
図6における第1の視覚的なコンテキストエンコーダ602は、文書の領域(例えば、頁)のそれぞれについて、視覚的なコンテキスト612が有する特徴を抽出して、文書の領域(例えば、頁)毎の特徴を第1の視覚的特徴614として出力する。第1の視覚的なコンテキストエンコーダ602は、画像データ用のトランスフォーマのエンコーダであってよい。第1の視覚的なコンテキストエンコーダ602は、例えば、ビジョントランスフォーマ(Vision Transformer、ViT)と呼ばれる分類に含まれるものであってよいし、画像データを扱えるのであれば各種の畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)であってもよい。第1の視覚的なコンテキストエンコーダ602は、例えば、非特許文献4に示される(ViTの一種である)Swin Transformerのエンコーダであってよい。
Swin Transformerのエンコーダの技術を用いる場合においては、第1の視覚的なコンテキストエンコーダ602は、パッチ分割(Patch Partion)層と、リニア埋め込み(Linear Embedding)層といくつか(例えば2つ)のSwin Transformerブロック層の組み合わせからなる第1のステージと、パッチマージ(Patch Merging)層といくつか(例えば2つ)のSwin Transformerブロック層の組み合わせからなる第2のステージと、第2のステージと同様の構造を有する第3以降のステージ群を含んでよい。パッチ分割層は、例えば、幅H画素で高さW画素で画素ごとのチャネル数が3である視覚的なコンテキスト612(画像データ)を、幅4画素で高さ4画素のパッチ(トークン)単位で分割してよい。第1のステージのリニア埋め込み層は、幅4画素で高さ4画素のパッチ(トークン)毎の特徴量を求めてよい。各ステージのSwin Transformerブロック層は、近傍のパッチ群から形成されるローカルウィンドウ内にて、パッチ群の特徴量に対するセルフアテンション(Self Attention)演算を行うことにより、ローカルウィンドウ内のパッチ間の相互関係を算出してよい。ここで、前後するSwin Transformerブロック層の間で、ローカルウィンドウの位置がずれている(シフトしている)。このような手法はシフトウィンドウアプローチと呼ばれる。第2以降のステージのパッチマージ層は、前のステージにおけるパッチ(トークン)を近傍の幅2パッチ分で高さ2パッチ分(合計4パッチ分)を結合して、パッチ(トークン)の数を削減し、結合後の大きなパッチの特徴量を求めてよい。
以上で示すような、Swin Transformerの内部構成を利用することにより、第1の視覚的なコンテキストエンコーダ602は、ステージ毎に様々なサイズのパッチを利用出来るので、視覚的なコンテキスト612(画像データ)に含まれる様々な大きさの(文字も含む)オブジェクトの特徴を、第1の視覚的特徴614に的確に反映させることが出来る。また、第1の視覚的なコンテキストエンコーダ602は、シフトウィンドウアプローチによりローカルウィンドウ間の相互関係を的確に把握出来るので、視覚的なコンテキスト612(画像データ)におけるいずれの位置の特徴も、第1の視覚的特徴614に的確に反映させることが出来る。さらに、第1の視覚的なコンテキストエンコーダ602は、ローカルウィンドウ内でセルフアテンション(Self Attention)演算を行うので、演算量を抑えることが出来る。同じ画像データのサイズに対して非特許文献3に示されるトランスフォーマのエンコーダを用いた場合に比べれば、Swin Transformerの内部構成を利用した第1の視覚的なコンテキストエンコーダ602は、演算量を低く出来る。
【0025】
3の1の5.第1のクロスドメイン特徴エンコーダ
図6における第1のクロスドメイン特徴エンコーダ603は、文書の領域(例えば、頁)毎に、テキスト的なコンテキスト611の特徴を示す第1のテキスト的特徴613と、視覚的なコンテキスト612の特徴を示す第1の視覚的特徴614の間で演算を行うことにより、文書の領域(例えば、頁)毎の特徴を示す文書の特徴615を出力する。第1のクロスドメイン特徴エンコーダ603が、第1のテキスト的特徴613と第1の視覚的特徴614の間で演算を行って、文書の特徴615を得ることによって、文書の領域(例えば、頁)毎の特徴を、より正確に算出することが出来る。
例えば、トランスフォーマのエンコーダにより、第1のテキスト的なコンテキストエンコーダ601を実現し、画像データ用のトランスフォーマ(例えば、Swin Transformer)のエンコーダにより、第1の視覚的なコンテキストエンコーダ602を実現するケースでは、第1のクロスドメイン特徴エンコーダ603は、クロスアテンション(Cross Attention)演算を含む演算を行ってよい。第1のテキスト的特徴613をF
cfとすると、F
cfをリニア層のそれぞれに入力することにより、リニア層のそれぞれの出力として、それぞれd次元であるクエリQ
cfとキーK
cfとバリューV
cfが得られる。第1の視覚的特徴614をF
vfとすると、F
vfをリニア層のそれぞれに入力することにより、リニア層のそれぞれの出力として、それぞれd次元であるクエリQ
vfとキーK
vfとバリューV
vfが得られる。(なお、ここでいう「クエリQ」は、「クエリ103」とは異なる概念である点に注意されたい。)そして、第1のクロスドメイン特徴エンコーダ603は、クエリQ
vfとキーK
cfとバリューV
cfを用いたクロスアテンション演算と、クエリQ
cfとキーK
vfとバリューV
vfを用いたクロスアテンション演算を行ってよい。つまり、第1のクロスドメイン特徴エンコーダ603は、双方向なクロスアテンション演算を行ってよい。クエリQ
vfとキーK
cfとバリューV
cfを用いたクロスアテンション演算は以下の数1の数式により表現されるものである。(このクロスアテンション演算は、ドットプロダクト演算を含むとも言われる。)
【0026】
【数1】
また、クエリQ
cfとキーK
vfとバリューV
vfを用いたクロスアテンション演算は以下の数2の数式により表現されるものである。
【0027】
【0028】
第1のクロスドメイン特徴エンコーダ603は、上記の数1と数2で示されるクロスアテンション演算を行って得た結果に対して、連結(Concatenate)演算などを行って、文書の領域(頁)毎の特徴を示す文書の特徴615を得る。
【0029】
3の1の6.第1のクエリエンコーダ
図6における第1のクエリエンコーダ604は、問題を示すクエリ103の特徴を生成して、第1のクエリの特徴616として出力する。第1のクエリエンコーダ604は、非特許文献3に示されるトランスフォーマのエンコーダの技術を用いて構成されてよい。
トランスフォーマのエンコーダの技術を用いる場合における、第1のクエリエンコーダ604の内部構造や行う処理は、(入力されるデータを除けば)前述の第1のテキスト的なコンテキストエンコーダ601と同様である。それゆえ、ここでは説明を省略する。
【0030】
3の1の7.スコア算出器
図6におけるスコア算出器605は、文書の領域(例えば、頁)毎に、クエリ103が示す問題に対する関連の強さを示すスコアを算出する。このために、スコア算出器605は、第1のクロスドメイン特徴エンコーダ603が出力する文書の特徴615と、第1のクエリエンコーダ604が出力する第1のクエリの特徴616を用いる。スコア算出器605は、文書の特徴615が示す、文書の領域(例えば、頁)毎の特徴を示す情報と、第1のクエリの特徴が示す情報の間で、内積演算を行うことにより、文書の領域(例えば、頁)に対応するスコアを求めてよい。
後述の「4の1の6.コンテキストフィルタリングモデルのモデルパラメータの訓練(学習)」の項で示されるように、コンテキストフィルタリングモデル101を構築するための機械学習処理(教師有り機械学習処理)が実行される際に、スコア算出器605の出力である文書の領域(例えば、頁)毎のスコア617(617L)を、教師データ1002と比較される対象としてもよい。このような機械学習処理が実行されると、スコア算出器605は、クエリ103が示す問題に関連するコンテキスト105として選択されるべきコンテキストに対応する領域(例えば、頁)に対するスコアを高くし、選択されるべきでないコンテキストに対応する領域(例えば、頁)に対するスコアを低くするようになることが期待出来る。つまり、機械学習処理によるスコア算出器605の訓練(学習)により、上記した内積演算による結果と同等または類似した結果を、スコア算出器605が実現出来るようになるものであってよい。
【0031】
3の1の8.コンテキスト選択器
図6におけるコンテキスト選択器606は、スコア算出器605が算出した、文書の領域(例えば、頁)毎のスコアに基づいて、クエリ103が示す問題に関連するコンテキスト105を選択する。
例えば、(1)コンテキスト選択器606は、文書の情報104に対応する文書の領域(例えば、頁)の集合から、スコアの高い(問題との関連が強い)順にk個の領域(例えば、頁)を選択して、選択した領域(例えば、頁)に対応するテキスト的なコンテキスト611と視覚的なコンテキスト612を指定する情報を、問題に関連するコンテキストの選択情報106として出力してよい。ここで、kの値は任意に定めることが出来る。例えば、数式を取り扱う場合には、ある変数に関連する数式や、数式に含まれる変数の説明(定義)は、連続する3頁に含まれていることが多いので、kの値を3に定めてもよい。
または、(2)kの値を固定せずに、コンテキスト選択器606は、文書の情報104に対応する文書の領域(例えば、頁)の集合から、スコアが所定の閾値よりも高い(問題との関連度が閾値よりも高い)領域(例えば、頁)の全てを選択して、選択した領域(例えば、頁)に対応するテキスト的なコンテキスト611と視覚的なコンテキスト612を指定する情報を、問題に関連するコンテキストの選択情報106として出力してよい。
後述の「4の1の6.コンテキストフィルタリングモデルのモデルパラメータの訓練(学習)」の項で示されるように、コンテキストフィルタリングモデル101を構築するための機械学習処理(教師有り機械学習処理)が実行される際に、(コンテキスト選択器606の出力ではなく、)スコア算出器605の出力である文書の領域(例えば、頁)毎のスコア617(617L)を、教師データ1002と比較される対象としてもよい。このような機械学習処理が実行される場合には、コンテキストフィルタリングモデル101内の機能部のうち、コンテキスト選択器606は、機械学習処理の対象としなくてもよい。コンテキスト選択器606は、上記の(1)や(2)で示したようなルールを実現するためのルールベースに基づく機能部としてもよい。
【0032】
3の2.回答モデルにより実現される処理
既に指摘したように、回答モデル102の機能を実現することにより、情報処理システム100は、クエリ103にて問題が示された場合に、当該問題に関連するコンテキスト105から、当該問題の原因を指定(推論)する。ここで、問題に関連するコンテキスト105は、コンテキストフィルタリングモデル101の機能が実現されることにより得られた、問題に関連するコンテキストの選択情報106により、文書の情報104のなかから選択されたものであってよい。
以下では、回答モデル102の実施形態の一例を説明する。
【0033】
3の2の1.回答モデルに含まれる機能部の概要
図9は、回答モデル102の実施形態の一例を示す。
図9は、回答モデル102に対する入出力を示すとともに、回答モデル102の内部にある機能部のそれぞれを示す。
図5で説明したように、情報処理システム100がプログラムを実行することによりこれらの機能部を実現してよい。また、これらの機能部の一部または全部が、よりハードウェア的に実現されてもよい。
回答モデル102は、第2のテキスト的なコンテキストエンコーダ901と、第2の視覚的なコンテキストエンコーダ902と、第2のクロスドメイン特徴エンコーダ903と、第2のクエリエンコーダ904と、アテンションデコーダ905と、多層パーセプトロン906という機能部のそれぞれを有してよい。なお、ここで「第2の」という表現を用いているのは、前述のコンテキストフィルタリングモデル101に含まれる機能部と区別するためのものであるので、数字自体には格別の意味は無い。
回答モデル102は、以上で示す機能部のそれぞれを有しており、以下で説明するような処理を実現することが出来るので、回答モデル102の機能を実現する情報処理システム100は、コンテキストの種類に適したコンテキストの特徴量の抽出処理を行うことと、問題に関連するコンテキスト105についての異なる種類のコンテキストどうしの特徴量間の演算により、問題に関連するコンテキスト105についての特徴量としてより妥当なものを得ることと、問題の原因を指定(推論)するに際して、妥当な指定(推論)結果を得ることが出来る。
【0034】
3の2の2.第2のテキスト的なコンテキストエンコーダ
図9における第2のテキスト的なコンテキストエンコーダ901は、問題に関連するコンテキスト105に含まれる、テキスト的なコンテキスト611が有する特徴を抽出して、抽出した特徴を第2のテキスト的特徴913として出力する。第2のテキスト的なコンテキストエンコーダ901は、非特許文献3に示されるトランスフォーマのエンコーダの技術を用いて構成されてよい。
トランスフォーマのエンコーダの技術を用いる場合における、第2のテキスト的なコンテキストエンコーダ901の内部構成は、前述の第1のテキスト的なコンテキストエンコーダ601に関する説明で示したものと同様である。ただし、この回答モデル102の最終的な出力は、問題の原因を指定する情報107であるのに対し、前述のコンテキストフィルタリングモデル101の最終的な出力は、問題に関連するコンテキストの選択情報106(または文書の領域(例えば、頁)毎のスコア617)であり、モデルの最終的な出力が違いに異なっているので、この第2のテキスト的なコンテキストエンコーダ901と前述の第1のテキスト的なコンテキストエンコーダ601では、モデルパラメータの値が一般には異なる。
【0035】
3の2の3.第2の視覚的なコンテキストエンコーダ
図9における第2の視覚的なコンテキストエンコーダ902は、問題に関連するコンテキスト105に含まれる、視覚的なコンテキスト612が有する特徴を抽出して、抽出した特徴を第2の視覚的特徴914として出力する。第2の視覚的なコンテキストエンコーダ902は、画像データ用のトランスフォーマのエンコーダであってよい。第2の視覚的なコンテキストエンコーダ902は、例えば、ビジョントランスフォーマ(Vision Transformer、ViT)と呼ばれる分類に含まれるものであってよいし、画像データを扱えるのであれば各種の畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)であってもよい。第2の視覚的なコンテキストエンコーダ902は、例えば、非特許文献4に示される(ViTの一種である)Swin Transformerのエンコーダであってよい。
Swin Transformerのエンコーダの技術を用いる場合における、第2の視覚的なコンテキストエンコーダ902の内部構成は、前述の第1の視覚的なコンテキストエンコーダ602に関する説明で示したものと同様である。ただし、前述の第2のテキスト的なコンテキストエンコーダ901の説明で示した理由と同様の理由で、この第2の視覚的なコンテキストエンコーダ902と前述の第1の視覚的なコンテキストエンコーダ602では、モデルパラメータの値が一般には異なる。
【0036】
3の2の4.第2のクロスドメイン特徴エンコーダ
図9における第2のクロスドメイン特徴エンコーダ903は、問題に関連するコンテキスト105についての、テキスト的なコンテキスト611の特徴を示す第2のテキスト的特徴913と、視覚的なコンテキスト612の特徴を示す第2の視覚的特徴914の間で演算を行うことにより、問題に関連するコンテキスト105の特徴915を出力する。第2のクロスドメイン特徴エンコーダ903が、第2のテキスト的特徴913と第2の視覚的特徴914の間で演算を行って、問題に関連するコンテキストの特徴915を得ることによって、問題に関連するコンテキスト105の特徴を、より正確に算出することが出来る。
例えば、トランスフォーマのエンコーダにより、第2のテキスト的なコンテキストエンコーダ901を実現し、画像データ用のトランスフォーマ(例えば、Swin Transformer)のエンコーダにより、第2の視覚的なコンテキストエンコーダ902を実現するケースでは、第2のクロスドメイン特徴エンコーダ903は、クロスアテンション(Cross Attention)演算を含む演算を行ってよい。その際に、第2のクロスドメイン特徴エンコーダ903が行う演算等については、前述の第1のクロスドメイン特徴エンコーダ603に関する説明で示したものと同様である。ただし、前述の第2のテキスト的なコンテキストエンコーダ901の説明で示した理由と同様の理由で、この第2のクロスドメイン特徴エンコーダ903と前述の第1のクロスドメイン特徴エンコーダ603では、モデルパラメータの値が一般には異なる。なお、第2のクロスドメイン特徴エンコーダ903も、前述の第1のクロスドメイン特徴エンコーダ603におけるような、連結(Concatenate)演算などを行って、問題に関連するコンテキストの特徴915を得るものであってよい。
【0037】
3の2の5.第2のクエリエンコーダ
図9における第2のクエリエンコーダ904は、問題を示すクエリ103の特徴を生成して、第2のクエリの特徴916として出力する。第2のクエリエンコーダ904は、非特許文献3に示されるトランスフォーマのエンコーダの技術を用いて構成されてよい。
トランスフォーマのエンコーダの技術を用いる場合における、第2のクエリエンコーダ904の内部構造は、前述の第1のクエリエンコーダ604と同様である。ただし、前述の第2のテキスト的なコンテキストエンコーダ901の説明で示した理由と同様の理由で、この第2のクエリエンコーダ904と前述の第1のクエリエンコーダ604では、モデルパラメータの値が一般には異なる。
【0038】
3の2の6.アテンションデコーダ
図9におけるアテンションデコーダ905は、第2のクロスドメイン特徴エンコーダ903が出力する、問題に関連するコンテキストの特徴915と、第2のクエリエンコーダが出力する第2のクエリの特徴916に基づいて、問題の原因に関連する情報を出力する。アテンションデコーダ905は、非特許文献3に示されるトランスフォーマのデコーダの技術を用いて構成されてよい。
トランスフォーマのデコーダの技術を用いる場合において、アテンションデコーダ905は、セルフアテンション(Self Attention)演算を行うマルチヘッドアテンション機構と、クロスアテンション(Cross Attention)演算を行うマルチヘッドアテンション機構と、フィードフォワード層の組み合わせを含むステージを複数有してよい。第2のクエリの特徴916をF
qfとすると、F
qfから、それぞれd次元であるクエリQ
qfとキーK
qfとバリューV
qfが得られる。問題に関連するコンテキストの特徴915をF
xfとすると、F
xfから、リニア層のそれぞれの出力として、それぞれd次元であるクエリQ
xfとキーK
xfとバリューV
xfが得られる。(なお、ここでいう「クエリQ」は、「クエリ103」とは異なる概念である点に注意されたい。)そして、アテンションデコーダ905は、クエリQ
qfとキーK
xfとバリューV
xfを用いたクロスアテンション演算を行って良い。アテンションデコーダ905は、当該クロスアテンション演算の結果を用いて、問題の原因に関連する情報を算出して出力する。
【0039】
3の2の7.多層パーセプトロン
図9における多層パーセプトロン906は、アテンションデコーダ905から問題の原因に関連する情報を受け取り、問題の原因を指定(推論)する情報107を出力する。多層パーセプトロン906は、全結合(Fully Connected)層を有してよい。
【0040】
4.2つのモデルを構築するための機械学習処理
ここでは、上記で説明した本開示の実施形態におけるコンテキストフィルタリングモデル101と回答モデル102を構築するための機械学習処理について説明する。まず、コンテキストフィルタリングモデル101を構築するための機械学習処理に関して説明し、その後で、回答モデル102を構築するための機械学習処理に関して説明する。
尚、以下で説明する処理の全てを行うことが必須というわけではなく、以下で説明する処理の一部を行うための機械学習用の情報処理システム、コンピュータが実行する方法、または、機械学習用のプログラムであってもよい。
【0041】
4の1.コンテキストフィルタリングモデルのための機械学習処理
図10は、コンテキストフィルタリングモデル101を構築するための機械学習処理を示す。
図10で示す機械学習処理の例は、教師有り機械学習に分類される。
当該機械学習処理により、コンテキストフィルタリングモデル101で用いるモデルパラメータ1031に関する訓練(学習)が行われる。当該機械学習処理を実行する情報処理システム1000は、コンテキストフィルタリングモデル101の機能を実現するためのプログラムを実行出来るか、何らかの手法(当該手法に基づいて、よりハードウェア的に実現される機能部があってもよい)によりコンテキストフィルタリングモデル101の機能を実現出来ればよい。(例えば機械学習処理のプログラムの実行中にモデルの機能を実現するためのプログラムが呼び出される。)つまり、モデルパラメータ1031に関する訓練(学習)を実施した後で、実際に問題に対する原因の指定(推論)処理を実行する情報処理システム100と、
図10で示される機械学習処理を実行する情報処理システム1000は、同じものでも、別のものでもよい。この点は、後述の回答モデル102を構築するための機械学習処理を実行する情報処理システム1200についても同様である。
また、当該機械学習処理で用いる学習用文書の情報104Lは、モデルパラメータ1031に関する訓練(学習)が実施された後で、実際に問題に対する原因の指定(推論)処理が実行される際の文書の情報104と、同じものでも、別のものでもよい。
【0042】
4の1の1.コンテキストフィルタリングモデルのための機械学習処理の概要
コンテキストフィルタリングモデル101のための機械学習処理において、機械学習処理を実行する情報処理システム1000は、問題を示すクエリ103Lと、学習用文書の情報104Lを、コンテキストフィルタリングモデル101に入力して、問題に関連するコンテキストの選択情報106Lを得る。機械学習処理を実行する情報処理システム1000は、コンテキストフィルタリングモデル101から出力された問題に関連するコンテキストの選択情報106Lと、文書の情報104Lのうち、問題に関連するコンテキスト105Lがいずれであるかを特定する教師データ1002を比較して、誤差(Loss関数)1003を得る。機械学習処理を実行する情報処理システム1000は、誤差(Loss関数)1003の絶対値が小さくなるように、モデルパラメータ1031の調整を行う、モデルパラメータの訓練(学習)1004を実施する。以上の一連の処理が繰り返される。
【0043】
4の1の2.機械学習処理に用いる注釈付きファイル
コンテキストフィルタリングモデル101のための機械学習処理においては、機械学習の繰り返し毎に、問題を示すクエリ103Lを提供するための情報源と、文書の情報104Lのうち、問題に関連するコンテキスト105Lがいずれであるかを特定する教師データ1002を提供するための情報源が必要となりうる。
また、後述の回答モデル102のための機械学習処理においては、問題を示すクエリ103Lを提供するための情報源と、問題に関連するコンテキスト105L(テキスト的なコンテキスト611Lと視覚的なコンテキスト612L)を提供するための情報源と、問題の原因が何であるかを特定する教師データ1202を提供するための情報源が必要となりうる。
上記の実施形態におけるモデルのそれぞれの機械学習処理を実行するに先立って、
図10(または、後述の
図12)の1001で示されるような、注釈付きファイルが用意されてよい。注釈付きファイル1001は、領域特定情報1010(例えば、頁特定情報)と、テキスト的なコンテキスト情報1011と、視覚的なコンテキスト情報1012と、因果関係ツリー情報1013を備えてよい。
図11は注釈付きファイル1001の一例を示す。
図11では注釈付きファイル1001がXMLファイル1101とされているが、ファイル形式は限定されるものではない。
領域特定情報1010(例えば、頁特定情報)は、文書の情報104Lに対応する文書に含まれる領域(例えば、頁)のうち、当該注釈付きファイル1001に関連付けられている領域(例えば、頁)を特定する。1つの注釈付きファイル1001に関連付けられる領域(例えば、頁)の数は任意である。
図11では、頁番号1である1つの頁が注釈付きファイル1001に関連付けられている例を示している。
テキスト的なコンテキスト情報1011は、領域特定情報1010(例えば、頁特定情報)により特定される文書の領域(例えば、頁)に関するテキスト的なコンテキスト611Lを提供するための情報である。
図11では、テキスト的なコンテキスト情報1011は、頁番号1である1つの頁に関する、テキスト的なコンテキスト611Lの文字コードそのものである。なお、テキスト的なコンテキスト情報1011の形式は文字コードそのものに限定されるわけではなく、例えば、テキスト的なコンテキスト611Lを格納しているテキストファイルを特定するパス名であってもよい。
視覚的なコンテキスト情報1012は、領域特定情報1010(例えば、頁特定情報)により特定される文書の領域(例えば、頁)に関する視覚的なコンテキスト612Lを提供するための情報である。
図11では、視覚的なコンテキスト情報1012は、頁番号1である1つの頁に関する、視覚的なコンテキスト612Lを示す画像データファイルを特定するパス名である。このようなパス名が用いられる場合は、画像データファイルは、注釈付きファイル1001に関連付けやすいものとなる。なお、視覚的なコンテキスト情報1012の形式はパス名に限定されるわけではなく、例えば、視覚的なコンテキスト612Lを示す画像データそのものであってもよい。
因果関係ツリー情報1013は、領域特定情報1010(例えば、頁特定情報)により特定される文書の領域(例えば、頁)に含まれる情報から得られる因果関係ツリーの正解情報を示す。
図11の例では、因果関係ツリー情報1013は、
図3で示される数式の情報301及び302から得られる因果関係ツリー401を表現するものとなっている。
注釈付きファイル1001がXML形式である場合は、注釈付きファイル1001は、
図11の上部に示されるように、ファイルを一意に特定するIDフィールド、タイトル、作成日、最終更新日の情報を含んでよい。
機械学習処理を実行する情報処理システム1000(、または、後述の機械学習処理を実行する情報処理システム1200)は、以上のような注釈付きファイル1001に記憶される情報を用いて、機械学習処理に要する情報を取得または生成することが出来るので、機械学習処理を実施することが出来る。
また、以上のような注釈付きファイル1001が作成されれば、当該注釈付きファイル1001は、コンテキストフィルタリングモデル101を構築するための機械学習処理にも、回答モデル102を構築するための機械学習処理にも、活用されることが出来る。つまり、機械学習処理のための学習用データの用意の負担を軽減することが出来る。
注釈付きファイル1001がXML形式である場合は、注釈付きファイル1001の作成は比較的行いやすいものとなる。
なお、以上のような注釈付きファイル1001は、例えば、後述の
図14のような編集画面1301により、作成されることが出来る。
【0044】
4の1の3.コンテキストフィルタリングモデルのための機械学習に用いるクエリ
コンテキストフィルタリングモデル101を構築するための機械学習処理が実行される際に、機械学習を実行する情報処理システム1000は、注釈付きファイル1001が有する情報を用いて、コンテキストフィルタリングモデル101に入力するクエリ103Lを得る。具体的には、機械学習を実行する情報処理システム1000は、注釈付きファイル1001内の因果関係ツリー情報1013を参照して、因果関係ツリー401の根ノード402の情報を抽出する。根ノード402には、問題に含まれる変数201を特定する情報と、当該変数の状況を示す情報が含まれている。例えば
図2、
図3及び
図4の例に沿って言えば、根ノード402には、問題に含まれる変数201が「T(t)」であり、当該変数の状況が「高い」というものであることを示す情報が含まれている。なお、根ノード402には、変数の説明(定義)の情報も含まれてよい。例えば
図2、
図3及び
図4の例に沿って言えば、根ノード402には、「時刻tにおける保冷容器内の温度」という情報も含まれてよい。機械学習を実行する情報処理システム1000は、根ノード402に含まれる、問題に含まれる変数201を特定する情報と、当該変数の状況を示す情報を用いて、問題を特定して、問題を示すクエリ103を得る。例えば
図2、
図3及び
図4の例に沿って言えば、クエリ103Lが示す問題は「T(t)が高い」ということになる。このように、機械学習を実行する情報処理システム1000は、注釈付きファイル1001に基づいてクエリ103Lを得ることが出来る。
【0045】
4の1の4.学習用文書の情報の取り扱い(マスク処理を含む)
コンテキストフィルタリングモデル101を構築するための機械学習処理に用いる学習用文書の情報104Lは、前述の文書の情報104と同様の内部構成を有する。つまり、学習用文書の情報104Lは、文書の領域(例えば、頁)毎に、テキスト的なコンテキスト611Lと視覚的なコンテキスト612Lを有してよい。
機械学習を実行する情報処理システム1000は、学習用文書の情報104Lをコンテキストフィルタリングモデル101に入力するに際して、文書の領域(例えば、頁毎)のそれぞれについて、テキスト的なコンテキスト611Lや視覚的なコンテキスト612Lの一方にマスク処理を行ってから、これらのコンテキストをコンテキストフィルタリングモデル101に入力してもよい。機械学習を実行する情報処理システム1000が、テキスト的なコンテキスト611Lにテキストのマスク処理1041を行うと、テキスト的なコンテキスト611Lは、意味のある文字コードを有さないテキスト(例えば、”テキストコンテキスト無し”)とされて、コンテキストフィルタリングモデル101に入力される。機械学習を実行する情報処理システム1000が、視覚的なコンテキスト612Lに画像のマスク処理1042を行うと、視覚的なコンテキスト612Lは、実質的には何ら画像を含まない(いわば白紙)の画像データとされて、コンテキストフィルタリングモデル101に入力される。
コンテキストフィルタリングモデル101を構築するための機械学習処理が実行された後で、情報処理システム100が、実際の問題に対する原因を指定(推論)する際には、文書の情報104として、テキスト的なコンテキスト611と視覚的なコンテキスト612の一方のみをコンテキストフィルタリングモデル101に入力するケースは充分あり得る。そのため、コンテキストフィルタリングモデル101を構築するための機械学習処理においては、学習用文書の情報104Lが、テキスト的なコンテキスト611Lと視覚的なコンテキスト612Lの両方を有するケースと、一方のみを有するケースのそれぞれを想定して、機械学習処理が実行されれば、実際の問題に対する原因を指定(推論)する際の推論正解率も向上することが期待出来る。このように、実際の問題に対する原因を指定(推論)する際に、問題と原因の因果関係に関する情報を有する文書のバリエーション(例えば、テキスト的なコンテキストのみ存在する文書、視覚的なコンテキストのみ存在する文書、両方のコンテキストが存在する文書などのバリエーション)に柔軟に対応出来る、情報処理システム100を得ることが出来る。
または、コンテキストフィルタリングモデル101を構築するための機械学習処理が実行される際に、機械学習を実行する情報処理システム1000は、テキストのマスク処理1041や画像のマスク処理1042を、(0より大きく1より小さい)所定の確率で実行するものであってもよい。
【0046】
4の1の5.コンテキストフィルタリングモデルのための機械学習に用いる教師データ
コンテキストフィルタリングモデル101を構築するための機械学習処理が実行される際に、機械学習を実行する情報処理システム1000は、注釈付きファイル1001が有する情報を用いて、教師データ1002を得てよい。コンテキストフィルタリングモデル101を構築するための機械学習処理における教師データ1002は、学習用文書の情報104Lにおいて、クエリ103Lが示す問題に関連するコンテキスト105Lがいずれであるか(文書の領域(例えば、頁)のいずれが問題に関連するものであるか)を示す正解情報であり、
図10では、領域特定情報1020(例えば、頁特定情報)と示される。
機械学習を実行する情報処理システム1000は、注釈付きファイル1001が有する領域特定情報1010(例えば、頁特定情報)を、そのまま、領域特定情報1020(例えば、頁特定情報)としてよい。なぜならば、領域特定情報1010(例えば、頁特定情報)は、注釈付きファイル1001に関連付けられている学習用文書の領域(例えば、頁)を特定する情報である一方で、注釈付きファイル1001が有する因果関係ツリー情報1013が示す根ノード402の情報から、注釈付きファイル1001に関連付けられている学習用文書の領域(例えば、頁)の情報から導かれるものである、問題を示すクエリ103Lが得られるためである。または、機械学習を実行する情報処理システム1000は、注釈付きファイル1001が有する領域特定情報1010(例えば、頁特定情報)に対して若干の加工を行って(例えば、領域(例えば、頁)を特定する情報であったものを、各種コンテキストを特定する情報に変換して)、領域特定情報1020(例えば、頁特定情報)としてもよい。
【0047】
4の1の6.コンテキストフィルタリングモデルのモデルパラメータの訓練(学習)
コンテキストフィルタリングモデル101を構築するための機械学習処理が実行される際に、機械学習を実行する情報処理システム1000は、コンテキストフィルタリングモデル101からの出力である、問題に関連するコンテキストの選択情報106Lと教師データ1002の間の誤差(Loss関数)1003を算出し、当該誤差(Loss関数)1003の絶対値が小さくなるように、モデルパラメータ1031を調整する訓練(学習)処理1004を行う。前述のように、教師データを領域特定情報1020(例えば、頁特定情報)とし、問題に関連するコンテキストの選択情報106Lを領域選択情報1006(例えば、頁選択情報)とすると、機械学習を実行する情報処理システム1000は、領域特定情報1020(例えば、頁特定情報)と領域選択情報1006(例えば、頁選択情報)の間で誤差(Loss関数)1003を検討することになる。なお、モデルパラメータの訓練(学習)処理1004は、誤差逆伝播法等の手法で行われてよい。
なお、コンテキストフィルタリングモデル101を構築するための機械学習処理が実行される際に、機械学習処理を実行する情報処理システム1000は、コンテキストフィルタリングモデル101からの出力として、コンテキスト選択器606の出力ではなくて、スコア算出器605の出力を用いてもよい。つまり、領域選択情報1006(例えば、頁選択情報)は、学習用文書の領域(例えば、頁)毎のスコア617Lとして定義されるとしてもよい。例えば、スコアのそれぞれは0以上1以下の値の実数であってもよい。この場合は、教師データ1002である領域特定情報1020(例えば、頁特定情報)は、注釈付きファイル1001内の領域特定情報1010(例えば、頁特定情報)が指し示す領域(例えば、頁)の正解スコアを最高値(例えば1.0)とし、それ以外の領域(例えば、頁)の正解スコアを最低値(例えば、0.0)としてもよい。
【0048】
4の2.回答モデルのための機械学習処理
図12は、回答モデル102を構築するための機械学習処理を示す。
図12で示す機械学習処理の例は、教師有り機械学習に分類される。
当該機械学習処理により、回答モデル102で用いるモデルパラメータ1232に関する訓練(学習)が行われる。当該機械学習処理を実行する情報処理システム1200は、回答モデル102の機能を実現するためのプログラムを実行出来るか、何らかの手法(当該手法に基づいて、よりハードウェア的に実現される機能部があってもよい)により回答モデル102の機能を実現出来ればよい。(例えば機械学習処理のプログラムの実行中にモデルの機能を実現するためのプログラムが呼び出される。)
また、当該機械学習処理で用いる問題に関連するコンテキスト105Lは、モデルパラメータ1232に関する訓練(学習)が実施された後で、実際に問題に対する原因の指定(推論)処理が実行される際の問題に関連するコンテキスト105と、同じものでも、別のものでもよい。
【0049】
4の2の1.回答モデルのための機械学習処理の概要
回答モデル102のための機械学習処理において、機械学習処理を実行する情報処理システム1200は、問題を示すクエリ103Lと、問題に関連するコンテキスト105Lを、回答モデル102に入力して、問題の原因を指定する情報107Lを得る。機械学習処理を実行する情報処理システム1200は、回答モデル102から出力された問題の原因を指定する情報107Lと、問題の原因を特定する正解情報である教師データ1202を比較して、誤差(Loss関数)1203を得る。機械学習処理を実行する情報処理システム1200は、誤差(Loss関数)1203の絶対値が小さくなるように、モデルパラメータ1232の調整を行う、モデルパラメータの訓練(学習)1204を実施する。以上の一連の処理が繰り返される。
【0050】
4の2の2.回答モデルのための機械学習に用いるクエリ
回答モデル102を構築するための機械学習処理を実行する際に、機械学習を実行する情報処理システム1200は、注釈付きファイル1001が有する情報を用いて、回答モデル102に入力するクエリ103Lを得る。クエリ103Lを得る手法は、コンテキストフィルタリングモデル101を構築するための機械学習処理において行われる手法と同様であってよい。
【0051】
4の2の3.学習用の問題に関連するコンテキストの取り扱い(マスク処理を含む)
回答モデル102を構築するための機械学習処理に用いる、問題に関連するコンテキスト105Lは、前述の問題に関連するコンテキスト105と同様の内部構成を有する。つまり、問題に関連するコンテキスト105Lは、問題に関連するとされた文書の領域(例えば、頁)毎に、テキスト的なコンテキスト611Lと視覚的なコンテキスト612Lを有してよい。
機械学習を実行する情報処理システム1200は、問題に関連するコンテキスト105Lを回答モデル102に入力するに際して、問題に関連するとされた文書の領域(例えば、頁毎)のそれぞれについて、テキスト的なコンテキスト611Lや視覚的なコンテキスト612Lの一方にマスク処理を行ってから、これらのコンテキストを回答モデル102に入力してもよい。マスク処理の態様については、コンテキストフィルタリングモデル101を構築するための機械学習処理で行われるマスク処理と同様であってよい。
なお、機械学習処理を実行する情報処理システム1200は、注釈付きファイル1001が有するテキスト的なコンテキスト情報1011を用いて、学習用のテキスト的なコンテキスト611Lを得るとともに、注釈付きファイル1001が有する視覚的なコンテキスト情報1012を用いて、学習用の視覚的なコンテキスト612Lを得てよい。
【0052】
4の2の4.回答モデルのための機械学習に用いる教師データ
回答モデル102を構築するための機械学習処理が実行される際に、機械学習を実行する情報処理システム1200は、注釈付きファイル1001が有する情報を用いて、教師データ1202を得てよい。回答モデル102を構築するための機械学習処理における教師データ1202は、クエリ103Lが示す問題の原因(の候補)が何であるかを示す正解情報であり、
図12では、原因特定情報1220と示される。
機械学習を実行する情報処理システム1200は、注釈付きファイル1001が有する因果関係ツリー情報1013を参照して、因果関係ツリー401の中間ノード403の情報と葉ノード404の情報を抽出する。中間ノード403や葉ノード404には、原因に含まれる変数202を特定する情報と、当該変数の状況を示す情報が含まれている。例えば
図2、
図3及び
図4の例に沿って言えば、葉ノード404の1つには、原因に含まれる変数202が「A」であり、当該変数の状況が「大きい」というものであることを示す情報が含まれている。なお、中間ノード403や葉ノード404には、変数の説明(定義)の情報も含まれてよい。例えば
図2、
図3及び
図4の例に沿って言えば、葉ノード404の1つには、「保冷容器の表面積」という情報も含まれてよい。機械学習を実行する情報処理システム1200は、中間ノード403や葉ノード404に含まれる、原因に含まれる変数202を特定する情報と当該変数の状況を示す情報を用いて原因を特定して、問題の原因(の候補)の正解情報を得る。例えば
図2、
図3及び
図4の例に沿って言えば、クエリ103Lが示す問題の原因(の候補)の1つは「Aが大きい」ということになる。このように、機械学習を実行する情報処理システム1200は、注釈付きファイル1001に基づいて問題の原因(の候補)の正解情報を得ることが出来る。
【0053】
4の2の5.回答モデルのモデルパラメータの訓練(学習)
回答モデル102を構築するための機械学習処理が実行される際に、機械学習を実行する情報処理システム1200は、回答モデル102からの出力である、問題の原因を指定(推論)する情報107Lと教師データ1202の間の誤差(Loss関数)1203を算出し、当該誤差(Loss関数)1203の絶対値が小さくなるように、モデルパラメータ1232を調整する訓練(学習)処理1204を行う。前述のように、教師データを原因特定情報1220とし、問題の原因を指定する情報107Lを原因指定情報1207とすると、機械学習を実行する情報処理システム1200は、原因特定情報1220と原因指定情報1207の間で誤差(Loss関数)1203を検討することになる。なお、モデルパラメータの訓練(学習)処理1204は、誤差逆伝播法等の手法で行われてよい。
【0054】
5.2つのモデルを構築するための機械学習処理に用いる注釈付きファイルの編集処理
ここでは、上記で説明したコンテキストフィルタリングモデル101と回答モデル102を構築するための機械学習処理に用いる注釈付きファイル1001を編集する処理を説明する。
尚、以下で説明する処理の全てを行うことが必須というわけではなく、以下で説明する処理の一部を行うための編集処理用の情報処理システム、コンピュータが実行する方法、または、プログラムであってもよい。
【0055】
5の1.編集用情報処理システムの概要
図13は、注釈付きファイル1001を編集するための編集用情報処理システム1300を示す。この編集用情報処理システム1300は、前述の情報処理システム100、機械学習処理を実行する情報処理システム1000や1200と、同じであっても、別のものであってもよい。なお、
図13においては「インターフェース」という語を「I/F」と略記している。
編集用情報処理システム1300は、編集画面表示制御部1302と、情報入力受付制御部1303と、注釈付きファイル作成部1304を有してよい。これらの部は、編集用情報処理システム1300に編集用プログラムを実行させることにより、実現されるものであってよい。または、これらの部のそれぞれや、部のなかの一部の機能は、よりハードウェア的に実装されるものであってもよい。編集画面表示制御部1302は、注釈付きファイル1001を編集するために用いる編集画面1301を表示するように制御する。情報入力受付制御部1303は、編集画面1301を利用して行われた、注釈付きファイル1001に含める情報の入力を受け付けるように制御する。注釈付きファイル作成部1304は、情報入力受付制御部1303の制御により受け付けられた情報を用いて、注釈付きファイル1001を作成する。
【0056】
5の2.編集画面
編集画面1301は、領域(例えば、頁)特定インターフェース1310と、テキスト入力インターフェース1311と、画像入力インターフェース1312と、因果関係ツリー入力インターフェース1313を有してよい。領域(例えば、頁)特定インターフェース1310は、注釈付きファイル1001に含まれる領域特定情報1010(例えば、頁特定情報)についての入力を受け付けるためのものである。テキスト入力インターフェース1311は、注釈付きファイル1001に含まれるテキスト的なコンテキスト情報1011についての入力を受け付けるためのものである。画像入力インターフェース1312は、注釈付きファイル1001に含まれる視覚的なコンテキスト情報1012についての入力を受け付けるためのものである。因果関係ツリー入力インターフェース1313は、注釈付きファイル1001に含まれる因果関係ツリー情報1013についての入力を受け付けるためのものである。
図14は、編集画面1301の一例を示す。
図14の編集画面1301は、注釈付きファイル1001を作成するために、オペレータ等がマウス、キーボード、タッチパネル等の入力装置を用いて情報を入力する助けとなるものを表示する。
編集画面1301は、領域(例えば、頁)特定インターフェース1310の一例としてのページタブ1408を備えてよい。
図14では「ページ1」というページタブ1408が存在するので、
図14の例では、領域(例えば、頁)番号701が「1」である文書の領域(例えば、頁)に、この編集画面1301で作成される注釈付きファイル1001が関連付けられることを示す。
図14に示す「新規ページ」というページタブ1408をオペレータ等がマウス等を用いて選択し、選択したページタブ1408に、オペレータ等がキーボード等を用いて、新たに「ページ2」または「2」などと入力すると、この編集画面1301で作成される注釈付きファイル1001は、さらに、領域(例えば、頁)番号701が「2」である文書の領域(例えば、頁)にも関連付けられることになる。
編集画面1301は、テキスト入力インターフェース1311の一例としてのテキストデータ用テキストボックス1409を備えてよい。オペレータ等がマウス等で1つのページタブ1408をアクティブにした上で、テキストデータ用テキストボックス1409に、テキスト的なコンテキスト611Lを文字コードにて入力すれば(例えば、オペレータ等が、コピーアンドペーストの動作で、テキストデータ用テキストボックス1409に、テキスト的なコンテキスト611Lを転記すれば)、アクティブになっているページタブ1408が示す領域(例えば、頁)番号701の領域(例えば、頁)のテキスト的なコンテキスト611Lが、注釈付きファイル1001に(保存アイコン1405がクリックされたタイミングで)書き込まれる。なお、編集画面1301では、テキスト的なコンテキスト611Lは文字コードを直接入力する形式となっているが、これには限定されない。例えば、編集画面を用いて、オペレータ等が、テキスト的なコンテキスト611Lが格納されているテキストファイルのパス名を、注釈付きファイル1001に書き込むようなものであってもよい。
編集画面1301は、画像入力インターフェース1312の一例としてのパス名入力欄1410を備えてよい。オペレータ等がマウス等で1つのページタブ1408をアクティブにした上で、オペレータ等がキーボード等で、パス名入力欄1410に、視覚的なコンテキスト612Lである画像データファイルのパス名を入力すれば、アクティブになっているページタブ1408が示す領域(例えば、頁)番号701の領域(例えば、頁)の視覚的なコンテキスト612Lのパス名の情報が、注釈付きファイル1001に(保存アイコン1405がクリックされたタイミングで)書き込まれる。
または、オペレータ等がマウス等で1つのページタブ1408をアクティブにした上で、オペレータ等がマウス等で参照アイコン1411をクリックして、編集用情報処理システム1300に、当該システム1300からアクセス可能なドライブにおけるフォルダやファイルの一覧を別ウィンドウなどに表示させてもよい。オペレータ等がマウス等で、表示された一覧からファイルを選択してもよい。ここで選択されたファイルのパス名は、アクティブになっているページタブ1408が示す領域(例えば、頁)番号701の領域(例えば、頁)の視覚的なコンテキスト612Lのパス名の情報として、注釈付きファイル1001に(保存アイコン1405がクリックされたタイミングで)書き込まれる。
編集画面1301は、因果関係ツリー入力インターフェース1313としてのツリーパネル1412とプロパティパネル1413を備えてよい。オペレータ等がマウス等でノード追加アイコン1403をクリックすると、ツリーパネル1412上に新たなノード1414が表示される。オペレータ等はマウス等でツリーパネル1412上のノード1414を移動させることが出来る。また、オペレータ等はマウス等でツリーパネル1412上のノード1414間の関係性を示す矢印を追記することや消去することが出来る。オペレータ等がマウス等でツリーパネル1412上の1つのノード1414をクリックしてアクティブにすると、オペレータ等はマウス等及びキーボード等を用いてプロパティパネル1413に情報を書き込むことにより、アクティブとなっているノード1414に含める情報(ノードが有するプロパティ)を編集することが出来る。ここで、ノード1414に含める情報としては、変数201または202、変数の状況、変数の説明(定義)が存在してよい。(なお、変数の説明(定義)は、ノードが有するプロパティを抽出する際に、検索対象として用いられることも出来る。)オペレータ等は、ツリーパネル1412とプロパティパネル1413を用いて、この注釈付きファイル1001に関連付けられる文書の領域(例えば、頁)の1つまたは複数に含まれる情報から導き出される、問題と原因の因果関係を示す因果関係ツリー401の正解情報を作成する。そして、この因果関係ツリー401の正解情報は、オペレータ等による保存アイコン1405のクリック時に、因果関係ツリー情報1013として、注釈付きファイル1001に書き込まれる。
編集画面1301は、ノード削除アイコン1404を備えてよい。オペレータ等がマウス等でツリーパネル1412上の1つのノード1414をアクティブにした上で、オペレータ等がマウス等でノード削除アイコン1404をクリックすると、アクティブにされていたノード1414はツリーパネル1412上から削除される。
編集画面1301は、オペレータ等がキーボード等を用いて、編集中の注釈付きファイル1001のタイトルを入力するための、タイトル用テキストボックス1407を備えてよい。
編集画面1301は、新規作成アイコン1401、ロードアイコン1402、保存アイコン1405、終了アイコン1406のそれぞれを備えてよい。オペレータ等がマウス等で新規作成アイコン1401をクリックすると、編集用情報処理システム1300は、新たな注釈付きファイル1001を作成するために、まだ何も入力されていない(または、一部または全部の項目にディフォルトの値が入力されている)編集画面1301を表示する。オペレータ等がマウス等でロードアイコン1402をクリックすると、編集用情報処理システム1300は、ロードする候補となる(過去に保存された)注釈付きファイル1001の一覧を表示する。オペレータ等がマウス等で、当該一覧から1つの注釈付きファイル1001を選択すると、編集用情報処理システム1300は、選択された(多くのケースでは編集作業が完了していない)注釈付きファイル1001の編集作業が可能な編集画面1301を表示する。オペレータ等がマウス等で保存アイコン1405をクリックすると、編集用情報処理システム1300は、その時点で編集画面1301を用いて入力されていた情報を用いて、注釈付きファイル1001を作成し保存するか、注釈付きファイル1001を更新し保存する。その際に、保存される注釈付きファイル1001のファイル名をオペレータ等からキーボード等にて入力可能としてもよい。保存形式は、例えば、XML形式であってよい。オペレータ等がマウス等で終了アイコン1406をクリックすると、編集用情報処理システム1300は、編集画面1301の表示を終了する(編集用プログラムを終了する)。この終了の際に、編集用情報処理システム1300は、注釈付きファイル1001を保存するか否かをオペレータ等に問い合わせるポップアップウインドウを表示してもよいし、オペレータ等に問い合わせずに、保存アイコン1405をクリックされた時と同様に、注釈付きファイル1001の保存処理を行ってもよい。
以上のような編集画面1301により、領域特定情報1010(例えば、頁特定情報)、テキスト的なコンテキスト情報1011、視覚的なコンテキスト情報1012、または、因果関係ツリー情報1013のそれぞれの特性に応じた情報の入力を実現することが出来る。
【0057】
6.その他(変形例)
本開示は、上記の実施形態(実施形態を実現するための機械学習処理の形態や、注釈付きファイル1001の編集処理の形態も含む。以下同じ。)に限定されるものではなく様々な変形例を含む。実施形態の構成や処理の一部は、他に想定しうる実施形態の構成や処理に置換されてもよい。実施形態の構成や処理に、他に想定しうる実施形態の構成や処理が加えられてもよい。
【0058】
例えば、本開示では、以下のような実施形態の変形例がありうる。
【0059】
(A)既存の因果関係ツリーデータベースの流用
上記の
図14の編集画面1301では、注釈付きファイル1001に関連付けられる文書の領域(例えば、頁)の1つまたは複数から導き出される、問題と原因の因果関係を示す因果関係ツリー401の正解情報を、ツリーパネル1412とプロパティパネル1413を用いて、オペレータ等が手動で入力していた。
しかしながら、学習用文書の情報104Lのあるものについては因果関係ツリーデータベース(DB)が利用出来る場合には、編集用情報処理システム1300は、当該学習用文書の情報104Lに関しては、ツリーパネル1412とプロパティパネル1413による因果関係ツリー401の正解情報の入力に代えて、因果関係ツリーデータベースが有する因果関係ツリー401の正解情報を、注釈付きファイル1001に追記してもよい。
このようにすれば、因果関係ツリーデータベース(DB)等の情報資産があれば、本開示を実現するための注釈付きファイル1001の作成作業において、情報資産が有効に活用されることが出来る。
【0060】
(B)注釈付きファイルの変形例
上記の実施形態を実現するための機械学習処理では、コンテキストフィルタリングモデル101を構築するための機械学習処理と、回答モデル102を構築するための機械学習処理とで、同じ注釈付きファイル1001が用意される。
しかしながら、これらのモデル毎に、異なる注釈付きファイル(、または、学習用データ)が用意されてもよい。例えば、コンテキストフィルタリングモデル101を構築するための機械学習処理のために、領域特定情報1010(例えば、頁特定情報)と因果関係ツリー情報1013を備える注釈付きファイル(、または、学習用データ)が用意されてもよい。また、回答モデル102を構築するための機械学習処理のために、テキスト的なコンテキスト情報1011と視覚的なコンテキスト情報1012と因果関係ツリー情報1013を備える注釈付きファイル(、または、学習用データ)が用意されてもよい。
例えば、上記の2つのモデルの一方のみの機械学習処理を行いたい場合には、上記の変形例によって、用意する注釈付きファイル(、または、学習用データ)の簡素化を実現することが出来る。
【0061】
(C)問題や原因における変数の表現手法の変形例
上記の実施形態の説明では、
図2に示されるように、クエリ103が示す問題は「T(t)が高い」と表現され、問題の原因を指定(推論)する情報107に含まれる原因(の候補)は「Aが大きい」などと表現されている。
しかしながら、問題や原因における変数の表現手法は、数式上で使用する変数名を用いたものに限られるものではなく、変数を説明する自然言語を用いたものであってもよい。例えば、
図2の例であれば、クエリ103が示す問題は「(時刻tにおける)保冷容器内の温度が高い」と表現され、問題の原因を指定(推論)する情報107に含まれる原因(の候補)は「保冷容器の表面積が大きい」などと表現されてよい。問題や原因における変数の表現手法を自然言語を用いるものとすることにしても、因果関係ツリーにおけるノードのそれぞれに変数の説明の情報を含ませるのであれば、本開示による対応は可能である。
このようにすれば、本開示に基づく情報処理システム等を利用する者は、自然言語を用いやすくなり、本開示の利便性が向上する。
【0062】
上記で示した、本開示の実施形態や、実施形態の変形例のそれぞれに示される技術的事項は、技術的な矛盾が生じない限り、適宜組み合わせることが出来る。