(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023121156
(43)【公開日】2023-08-30
(54)【発明の名称】ナレッジベースに数量ファクトを追加するための装置及びコンピュータ実装された方法
(51)【国際特許分類】
G06N 5/02 20230101AFI20230823BHJP
G06F 16/90 20190101ALI20230823BHJP
【FI】
G06N5/02
G06F16/90 100
【審査請求】未請求
【請求項の数】12
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023023630
(22)【出願日】2023-02-17
(31)【優先権主張番号】10 2022 201 732.3
(32)【優先日】2022-02-18
(33)【優先権主張国・地域又は機関】DE
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ダリア ステパノヴァ
(72)【発明者】
【氏名】ドラガン ミルヘヴスキ
(72)【発明者】
【氏名】ゲアハート ヴァイクム
(72)【発明者】
【氏名】ヤニク シュトレートゲン
(72)【発明者】
【氏名】ヴィン ティン ホー
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
(57)【要約】
【課題】ナレッジベース(106)、特にナレッジグラフに数量ファクトを追加するための装置(100)及びコンピュータ実装された方法に関する。
【解決手段】本方法は、ナレッジベース(106)を用意すること(202)と、テキストリソース(108)を用意すること(204)と、ナレッジベース(106)からエンティティを提供すること(206)と、ナレッジベース(106)から関係を提供すること(208)と、それぞれ異なる単位の集合を提供すること(210)と、エンティティ、関係及びそれぞれ異なる単位の集合に依存して、テキストリソース(108)内にあるそれぞれ異なる単位の集合内の単位を含む数量を決定すること(212)と、エンティティ、関係、数量及び単位を含む数量ファクトを決定すること(214)と、数量ファクトをナレッジベース(106)に追加すること(216)と、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ナレッジベース(106)、特にナレッジグラフに数量ファクトを追加するためのコンピュータ実装された方法であって、
ナレッジベース(106)を用意すること(202)と、
テキストリソース(108)を用意すること(204)と、
前記ナレッジベース(106)からエンティティを提供すること(206)と、
前記ナレッジベース(106)から関係を提供すること(208)と、
それぞれ異なる単位の集合を提供すること(210)と、
前記エンティティ、前記関係及び前記それぞれ異なる単位の集合に依存して、前記テキストリソース(108)内にある前記それぞれ異なる単位の集合内の単位を含む数量を決定すること(212)と、
前記エンティティ、前記関係、前記数量及び前記単位を含む数量ファクトを決定すること(214)と、
前記数量ファクトを前記ナレッジベース(106)に追加すること(216)と、
を含むことを特徴とする方法。
【請求項2】
前記数量を決定すること(212)は、
前記単位に依存して、少なくとも1つの数量を含む前記テキストリソースのセクションを決定すること(212-1)と、
前記セクション内の前記単位のコンテキストを決定すること(212-2)と、
それぞれが前記エンティティ、前記少なくとも1つの数量のうちの1つの数量、前記単位及び前記コンテキストを含む、複数のタプルを決定すること(212-3)と、
前記コンテキストに依存して、前記複数のタプルのうちの1つのタプルから前記数量を選択すること(212-7)と、
を含む、請求項1に記載の方法。
【請求項3】
前記複数のタプルの各タプルに対する参照を提供すること(212-4)と、
前記複数のタプルのうちの少なくとも1つのタプルの、当該タプルに対する参照への類似度を決定すること(212-5)と、
前記複数のタプルから、前記複数のタプルのうちの少なくとも1つの他のタプルのコンテキストの参照への類似度よりも自身の参照により類似しているコンテキストを含むタプルを選択すること(212-7)と、
を含む、請求項2に記載の方法。
【請求項4】
前記各タプルに対する参照を提供すること(212-4)は、
前記ナレッジベース(106)に対する参照述部ドメインを提供することと、
前記ナレッジベース(106)から参照エンティティを提供することと、
前記単位の集合から参照単位の集合を提供することと、
を含む、請求項3に記載の方法。
【請求項5】
前記類似度を決定すること(212-5)は、
前記少なくとも1つのタプルのエンティティの数値表現が、参照述部の数値表現によって、前記参照エンティティの数値表現までの予め定められた距離内にある数値表現へとマッピングされているか否かを決定することと、
前記少なくとも1つのタプルの単位が参照単位の集合内にあるか否かを決定することと、
前記少なくとも1つのタプルのエンティティの数値表現が、前記参照述部の数値表現によって、前記参照エンティティの数値表現までの予め定められた距離内にある数値表現へとマッピングされていることに対して、及び、前記少なくとも1つのタプルの単位が前記参照単位の集合内にあることに対して、前記複数のタプルのうちの少なくとも1つのタプルからのコンテキストの、前記複数のタプルのうちの少なくとも1つのタプルに対する参照への類似度を決定することと、
を含む、請求項4に記載の方法。
【請求項6】
前記各タプルに対する参照を提供すること(212-4)は、前記複数のタプルのうちの1つのタプルに対して、前記複数のタプルのうちの少なくとも1つの他のタプルのコンテキストに対する参照よりも当該タプルのコンテキストにより類似した参照を決定することを含む、請求項3乃至5のいずれか一項に記載の方法。
【請求項7】
前記方法は、
前記複数のタプルのうちの少なくとも1つのタプルに対する、その参照への類似度に依存した第1のスコアを決定することであって、前記第1のスコアは、当該少なくとも1つのタプルに対する、数量ファクトを決定するために選択可能な信頼度を示す、こと(212-6)と、
前記第1のスコアが、当該少なくとも1つのタプルに対する、前記数量ファクトを決定するために選択可能な信頼度が第1の閾値よりも大きいことを示す場合(212-7)、当該少なくとも1つのタプルをタプル群に追加すること(212-8)と、
を含み、
前記数量ファクトを決定すること(214)は、前記タプル群から1つのタプルを選択することを含む、
請求項3乃至6のいずれか一項に記載の方法。
【請求項8】
前記方法は、
前記タプル群における1つのタプルに対する、当該タプル内の数量に依存した第2のスコアを決定することであって、前記第2のスコアは、前記数量ファクトを決定するために選択可能なタプルの尤度を示す、こと(212-10)と、
前記数量ファクトを決定するために選択可能なタプルの尤度が第3の閾値より大きいことを前記第2のスコアが示す場合には、当該タプルを候補ファクトの集合へ追加し、又は、前記数量ファクトを決定するために選択可能なタプルの尤度が第3の閾値以下であることを前記第2のスコアが示す場合には、当該タプルを候補ファクトの集合へ追加しないこと(212-11)と、
を含み、
前記ファクトを決定すること(214)は、候補ファクトの集合からタプルを選択することを含む、
請求項7に記載の方法。
【請求項9】
前記第1のスコアが選択可能な少なくとも1つのタプルの信頼度を第2の閾値を下回るファクトとして示す場合(212-7)、前記方法は、
候補ファクトの集合内に含まれずかつ候補ファクトの集合のタプルと同一のエンティティを有する前記複数のタプルのうちの1つのタプルを決定することと、
前記複数のタプルのうちの当該タプル内の数量と、候補ファクトの集合の当該タプル内の数量とに依存して、類似度を決定することと、
前記類似度が第4の閾値より大きい場合に、前記複数のタプルのうちの当該タプル内のコンテキストを別の参照の候補として選択することと
を含む(212-13)、請求項8に記載の方法。
【請求項10】
前記方法は、
前記タプルのうちの少なくとも1つのタプル内の数量の正規化に依存して類似度を決定することであって、前記正規化は、これらのタプルのうちの一方のタプルの単位及び/又はこれらのタプルの両方のタプルの単位に依存して決定される、こと
を含む、請求項3乃至9のいずれか一項に記載の方法。
【請求項11】
ナレッジベース、特にナレッジグラフを充填するための装置(100)において、
前記装置(100)は、少なくとも1つのプロセッサ(102)と、少なくとも1つのメモリ(104)と、を備え、
前記少なくとも1つのメモリ(104)は、ナレッジベース(106)及びテキストリソース(108)の埋め込みを記憶し得るものであり、前記少なくとも1つのプロセッサ(102)によって実行されるときに、請求項1乃至10のいずれか一項に記載のコンピュータ実装された方法を用いて、前記装置(100)にファクトを前記ナレッジベース(106)へ追加させるための命令を含む、
ことを特徴とする装置(100)。
【請求項12】
コンピュータプログラムであって、当該コンピュータプログラムがコンピュータによって実行されるときに、請求項1乃至10のいずれか一項に記載の方法を前記コンピュータに実施させるためのコンピュータ可読命令を含むことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
従来技術
本発明は、ナレッジベースに数量ファクトを追加するための装置及びコンピュータ実装された方法に関する。
【背景技術】
【0002】
Ho, V. T., Ibrahim, Y., Pal, K., Berberich, K., Weikum, G.著、「Qsearch: Answering quantity queries from text」(In: The Semantic Web‐ISWC 2019‐18th International Semantic Web Conference, Auckland,New Zealand, 2019年10月26-30日、Proceedings, Part I, Lecture Notes in Computer Science, vol.11778, Springer (2019))には、テキストデータ内の単位を有する数値表現を検出することが開示されている。
【0003】
Qsearchは、“Buildings higher than 100 m(100mを超える高さの建物)”のような数量フィルタクエリに応答する方法を提供しており、大量の文書の集合体から数量ファクトを抽出するように調整可能である。しかし、Qsearchによって数量フィルタクエリへの応答として形成されたファクトのうち最高ランクのものしか高い精度を有さない。最高ランクのファクト以外は、設計によってその精度が低下する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Ho, V. T., Ibrahim, Y., Pal, K., Berberich, K., Weikum, G.著、「Qsearch: Answering quantity queries from text」、In: The Semantic Web‐ISWC 2019‐18th International Semantic Web Conference, Auckland,New Zealand, 2019年10月26-30日、Proceedings, Part I, Lecture Notes in Computer Science, vol.11778, Springer (2019)
【発明の概要】
【発明が解決しようとする課題】
【0005】
発明の説明
独立請求項1に記載のコンピュータ実装された方法により、高品質のナレッジベース内の特定のギャップを数量ファクトで充填するために、高精度かつ高再現率の両方により数量ファクトを抽出することが達成される。
【課題を解決するための手段】
【0006】
ナレッジベース、特にナレッジグラフに数量ファクトを追加するためのコンピュータ実装された方法は、ナレッジベースを用意することと、テキストリソースを用意することと、ナレッジベースからエンティティを提供することと、ナレッジベースから関係を提供することと、それぞれ異なる単位の集合を提供することと、エンティティ、関係及びそれぞれ異なる単位の集合に依存して、テキストリソース内にあるそれぞれ異なる単位の集合内の単位を含む数量を決定することと、エンティティ、関係、数量及び単位を含む数量ファクトを決定することと、数量ファクトをナレッジベースに追加することと、を含む。
【0007】
ファクトの数量の数値表現を決定することは、単位に依存して、少なくとも1つの数量を含むテキストリソースのセクションを見つけ出すことと、セクション内の単位のコンテキストを決定することと、それぞれがエンティティ、少なくとも1つの数量のうちの1つの数量、単位及びコンテキストを含む複数のタプルを決定することと、コンテキストに依存して、複数のタプルのうちの1つのタプルから数量を選択することと、を含む。コンテキストにより、例えば相互に対してタプルをランク付けするための付加的な情報が得られる。
【0008】
本方法は、複数のタプルの各タプルに対する参照を提供することと、複数のタプルのうちの少なくとも1つのタプルの、当該タプルに対する参照への類似度を決定することと、複数のタプルから、複数のタプルのうちの少なくとも1つの他のタプルのコンテキスト内のコンテキストよりも自身の参照により類似しているコンテキストを含むタプルを選択することとを含み得る。ここでの参照は、目標クエリを表現している。コンテキストが参照に類似しているほど、クエリに対する数量ファクトの決定のために使用されるタプルの一致が良好となる。
【0009】
各タプルに対する参照を提供することは、ナレッジベースに対する参照述部ドメインを提供することと、ナレッジベースから参照エンティティを提供することと、単位の集合から参照単位の集合を提供することと、を含む。これらの参照によって、クエリが改善される。
【0010】
類似度を決定することは、少なくとも1つのタプルのエンティティの数値表現が、参照述部の数値表現によって、参照エンティティの数値表現までの予め定められた距離内にある数値表現へとマッピングされているか否かを決定することと、少なくとも1つのタプルの単位が参照単位の集合内にあるか否かを決定することと、少なくとも1つのタプルのエンティティの数値表現が、参照述部の数値表現によって、参照エンティティの数値表現までの予め定められた距離内にある数値表現へとマッピングされていることに対して、及び、少なくとも1つのタプルの単位が参照単位の集合内にあることに対して、複数のタプルのうちの少なくとも1つのタプルからのコンテキストの、複数のタプルのうちの少なくとも1つのタプルに対する参照への類似度を決定することと、を含む。ここでの数値表現は、埋め込み空間内のエンティティと参照とを表現している。これにより、埋め込み空間内のクエリからの距離が遠過ぎる場合にはタプルが考慮されないため、ナレッジベースの充填に要求される計算リソースが低減される。
【0011】
各タプルに対する参照を提供することは、複数のタプルのうちの1つのタプルに対して、複数のタプルのうちの少なくとも1つの他のタプルのコンテキストに対する参照よりも当該タプルのコンテキストにより類似した参照を決定することを含み得る。ここでのコンテキストは、ワードバッグ(a bag of words)であるものとしてよい。ここでのクエリは、それぞれ1つの述部を表現するそれぞれ異なる複数のワードバッグを表現することができる。最も類似した述部を表現しているワードバッグが参照として選択される。
【0012】
本方法は、複数のタプルのうちの少なくとも1つのタプルに対して、その参照への類似度に依存した第1のスコアを決定することであって、第1のスコアは、当該少なくとも1つのタプルに対する、数量ファクトを決定するために選択可能な信頼度を示す、ことと、第1のスコアが、当該少なくとも1つのタプルに対する、数量ファクトを決定するために選択可能な信頼度が第1の閾値よりも大きいことを示す場合に、当該少なくとも1つのタプルをタプル群に追加することと、を含み、ここで、数量ファクトを決定することは、タプル群からタプルを選択することを含み得る。これにより、信頼度が過度に低い場合にはタプルは考慮されないため、ナレッジベースの充填に要求される計算リソースが低減される。
【0013】
本方法は、第1のスコアが、選択可能な少なくとも1つのタプルの信頼度を、第2の閾値を下回るファクトとして示す場合に、候補ファクトの数値表現の集合内に含まれずかつ当該候補ファクトの集合のタプルと同一のエンティティを有する複数のタプルのうちの1つのタプルを決定することと、複数のタプルのうちの当該タプルの数量と、候補ファクトの数値表現の集合の当該タプル内の数量とに依存して、類似度を決定することと、類似度が第4の閾値より大きい場合に、複数のタプルのうちの当該タプルのコンテキストを別の参照の候補として選択することと、を含み得る。これにより、尤度が過度に低い場合にはタプルは考慮されないため、ナレッジベースの充填に要求される計算リソースが低減される。
【0014】
本方法は、第1のスコアが、選択可能な少なくとも1つのタプルの信頼度を、第2の閾値を下回るファクトとして示す場合に、候補ファクトの数値表現の集合内に含まれずかつ候補ファクトの数値表現の集合のタプルと同一のエンティティの数値表現を有する複数のタプルのうちの1つのタプルの数量を決定することと、複数のタプルのうちの当該タプルの数量と、候補ファクトの数値表現の集合の当該タプル内の数量の数値表現とに依存して、類似度を決定することと、類似度が第4の閾値より大きい場合に、複数のタプルのうちの当該タプルのコンテキストを別の参照候補の候補として選択することと、を含み得る。
【0015】
本方法は、タプルのうちの少なくとも1つのタプル内の数量の正規化に依存して類似度を決定することであって、ここで、正規化は、これらのタプルのうちの一方のタプルの単位及び/又はこれらのタプルの両方のタプルの単位に依存して決定される、ことを含み得る。このようにすることで、同等の数量のそれぞれ異なる単位が同等となる。これにより、数量ファクトをナレッジベースにより効率的に追加することができる。
【0016】
別の独立請求項に記載された装置は、高品質のナレッジベースにおける特定のギャップを数量ファクトで充填するために高精度かつ高再現率の両方により数量ファクトを抽出することを可能とする。ナレッジベース、特にナレッジグラフを充填するための装置は、少なくとも1つのプロセッサ及び少なくとも1つのメモリを備え、少なくとも1つのメモリは、ナレッジベース及びテキストリソースの数値表現の埋め込みを記憶することができ、さらに、少なくとも1つのプロセッサによって実行されるときに、コンピュータ実装された方法を用いて、装置に、ファクトをナレッジベースの埋め込みへ追加させるための命令を含む。
【0017】
上述した目的のためのコンピュータプログラムは、コンピュータによって実行されるときに、上述した方法をコンピュータに実施させるためのコンピュータ可読命令を含む。
【0018】
さらなる実施形態は、以下の説明と図面とから得られる。
【図面の簡単な説明】
【0019】
【
図1】ナレッジベースを充填するための装置を概略的に示す図である。
【
図2】ナレッジベースを充填するための方法の各ステップを示す図である。
【
図3】ナレッジベースを充填するための方法のさらなるステップを示す図である。
【発明を実施するための形態】
【0020】
図1は、ナレッジベースを充填するための装置100を概略的に示している。ナレッジベースは、例えばナレッジグラフを含む。
【0021】
装置100は、少なくとも1つのプロセッサ102と、少なくとも1つのメモリ104とを含む。
【0022】
この例の少なくとも1つのメモリ104は、ナレッジベースを表現するナレッジベース106とテキストリソース108とを記憶している。
【0023】
少なくとも1つのメモリ104は、少なくとも1つのプロセッサ102によって実行されるときに、装置100に対し、以下において説明するコンピュータ実装された方法を用いて数量ファクトをナレッジベース106へ追加させるための命令110を含む。この例における命令110は、少なくとも1つのプロセッサ102によって実行されるときに、装置100にナレッジグラフを決定させるためのものである。
【0024】
ナレッジグラフは、ファクトに関する情報を相互リンクさせた集合体、即ち、ファクトを表現している。この例においては、ファクトは、トリプルとして符号化されている。この例におけるトリプルは、複数の要素を含む。
【0025】
この例におけるナレッジグラフは、エンティティ、関係及びオブジェクトを含むファクトを含むように構成されている。これらのファクトは、例えば<主部;述部;目的部>のトリプル又はリストである。
【0026】
この例では、ファクトにおいて、主部及び目的部は、ナレッジグラフのエンティティであり、述部は、ナレッジグラフにおけるこれらの間の関係である。
【0027】
この例におけるナレッジグラフは、エンティティ、関係、数量及び単位を含む数量ファクトを含むように構成されている。一例においては、数量ファクトは<主部;述部;数量:単位>の形式を取っている。この例においては、数量ファクトにおいて、主部は、ナレッジグラフのエンティティであり、述部は、エンティティと数量及び単位との間の関係である。
【0028】
数量ファクトは、一例においては、エンティティ、関係及び数量から成るトリプル又はリストであり、数量は、値及び単位を有する。数量ファクトは、例えば<主部;述部;目的部>のトリプルであり、その目的部に数量及び単位を含む。数量ファクトは、一例においては、エンティティ、関係、値及び単位から成るタプル又はリストである。
【0029】
以下に、ナレッジベース106を充填するためのコンピュータ実装された方法を、
図2を参照して説明する。
【0030】
本方法の説明では、本方法の基本方式を説明するためのいくつかの例において、ワード、数及び単位の省略形が使用される。本方法においては、これらのワード、数及び/又は省略形は、そのアルファベット表現又はその数値表現によって、例えば、埋め込み空間への埋め込み又は一意の識別子によって表現される。
【0031】
本方法への入力は、この例においては所与のナレッジベース106である。この例は、所与のナレッジグラフ、即ち、テキストリソース108から抽出される数量ファクトの主部として機能するエンティティの集合と、ナレッジベース106からサンプリング可能な又はユーザによる入力として与えられ得る関心関係と、関連する単位の集合とに則して説明される。
【0032】
本方法により、テキストから数量ファクトを大規模に抽出し、その出力をナレッジベース106に直接に追加することができる。
【0033】
例えば、本方法は、材料名の集合、例えば水、塩素と、関心関係、例えばhas_viscosityと、関心単位、例えばmPa/sとが与えられると、学術文献及び/又は刊行物の大量の集合体から、材料の粘度特性を記述するファクトを抽出する。例えば、本方法の出力は、トリプル<water;has_viscosity;1:0016:mlpsi>である。
【0034】
以下においては、主部としての建物を表現するエンティティに関しており、目的部としてのタイプ“building”を表現するエンティティに対するトリプルの述部としての“type”の関係と、地理的位置を表現する目的部に対する述部としての“located_in”の関係を有する、建物を表現するエンティティの地理的位置とを有する情報を提供するトリプルを含むナレッジグラフに則して、本方法を説明する。即ち、
<Eiffel_Tower;located_in;Paris>
<Eiffel_Tower;type;building>
<Sydney_Tower;located_in;Sidney>
<Sydney_Tower;type;building>
<Burj_Khalifa;located_in;Paris>
<Burj_Khalifa;type;building>
である。これらは、トリプルにおいて数値的に表現されるナレッジグラフのファクトである。
【0035】
本方法の態様は、主部としての建物を表現するエンティティを、ファクトを決定するために使用可能な関心関係である“height”、即ち、建物の高さの数量及びこの高さの単位を含む目的部に関連付ける関係に則して説明される。本方法の態様は、ファクトを決定するために使用可能な関心関係である“cost”に則して、即ち、主部としての建物を表現するエンティティを、建物の費用の数量及びこの費用が提供される際の通貨単位を含む目的部に関連付けるトリプルに則して説明される。この例においては、述部がナレッジベース106のファクト内にあるので、関心関係は、同一の次元のテンソル、特にベクトルとして数値的に表現される。
【0036】
本方法を、建物に関するナレッジを表現するテキストリソース108の数値表現を用いて説明する。
【0037】
説明している本方法の出力は、例えば、ファクト<Eiffel_Tower;height;1063:feet>又はファクト<Eiffel_Tower;cost;1500000:$>の数値表現である。
【0038】
本方法は、反復して実施される。
【0039】
本方法は、ステップ202を含む。
【0040】
ステップ202は、ナレッジベース106を用意することを含む。この例においては、ナレッジベース106は、ナレッジグラフの特定のファクト内のファクトを含む。
【0041】
最初の反復において、ファクトは、ナレッジベース106の所与のファクトである。次の反復においては、ナレッジベース106は、以下に説明するように、本方法によって決定される数量ファクトを含む。
【0042】
本方法は、ステップ204を含む。
【0043】
ステップ204は、テキストリソース108を用意することを含む。テキストリソース108は、建物に関する情報を含む大規模なテキスト、例えばテキストコーパスである。各反復において、同一のテキストリソース108を使用することができる。また、それぞれ異なる反復において、それぞれ異なるテキストリソースを使用するものとしてもよい。
【0044】
本方法は、ステップ206を含む。
【0045】
ステップ206は、ナレッジベース106からエンティティを提供することを含む。反復において、同一のエンティティを選択することができる。また、それぞれ異なる反復において、それぞれ異なるエンティティを選択するものとしてもよい。
【0046】
この例のエンティティは、主部を表現するエンティティであり、例えば、Eiffel_Tower、Sydney_Tower、Burj_Khalifaである。
【0047】
本方法は、ステップ208を含む。
【0048】
ステップ208は、ナレッジベース106から関心関係を提供することを含む。反復において、同一の関心関係を選択することができる。また、それぞれ異なる反復において、それぞれ異なる関心関係を選択するものとしてもよい。
【0049】
一例においては、関心関係は“height”である。一例においては、関心関係は“cost”である。これに代えて、ナレッジベース106内の利用可能な他の任意の関心関係を使用することもできる。
【0050】
本方法は、ステップ210を含む。
【0051】
ステップ210は、それぞれ異なる単位の集合を提供することを含む。
【0052】
一例においては、それぞれ異なる高さの単位が、集合、例えば{meter,feet}又は{m,ft}によって表現される。一例においては、それぞれ異なる費用に対する通貨単位が、集合、例えば{Dollar,Euro}又は{$,
【数1】
}によって表現される。
【0053】
これに代えて、ナレッジベース106において利用可能な関心関係の他の任意の単位を使用することもできる。
【0054】
本方法は、ステップ212を含む。
【0055】
ステップ212は、テキストリソース108内にあるそれぞれ異なる単位の集合内の単位を含む数量を決定することを含む。これらは、エンティティ、関係及びそれぞれ異なる単位の集合に依存して決定される。
【0056】
ステップ212において、本方法は、テキストリソース108から少なくとも1つの数量を抽出する。
【0057】
数量を決定することであるステップ212は、一例においては、
図3を参照して後述するさらなるステップ212-1,…,212-13を含む。
【0058】
その後、ステップ214が実施される。
【0059】
ステップ214は、エンティティ、関係、数量及び単位を含む数量ファクトを決定することを含む。
【0060】
ステップ214において、本方法は、ナレッジベース106に追加するための数量ファクトを決定する。
【0061】
数量ファクトを決定することは、一例においては、タプル群から1つのタプルを選択することを含む。タプル群の決定については、後述する。
【0062】
数量ファクトを決定することは、一例においては、候補ファクトの集合からタプルを選択することを含む。候補ファクトの決定については後述する。
【0063】
一例においては、本方法は、タプル群内又は候補ファクトの集合内のタプルの順位において最高ランクを有するタプルを選択することを含む。
【0064】
その後、ステップ216が実施される。
【0065】
ステップ216は、数量ファクトをナレッジベースに追加することを含む。
【0066】
その後、本方法は、ステップ202又は終了へと続くものとしてよい。
【0067】
さらなる各ステップについては、
図3を参照して説明する。
【0068】
これらのさらなるステップも、反復して実施することができる。
【0069】
ステップ212-1は、テキストリソース108のうち、当該数量を含む少なくとも1つのセクションを見出すことを含む。当該セクションは、例えば単位に基づいて検索され見出される。一例においては、当該単位はテキストリソース108において検索され、見出されたセクションは、当該単位を含み、又は、当該数量に関する単位を含む。
【0070】
一例においては、ステップ212-1は、テキストリソース108を、次のように前処理することによって、即ち、
テキストリソース108、例えばテキストコーパスを、OpenIEを用いて、例えば、Saha, S., Mausam著、「Open information extraction from conjunctive sentences.」、In: Bender,E.M., Derczynski, L., Isabelle, P. (eds.) Proceedings of the 27th International Conference on Computational Linguistics, COLING 2018, Santa Fe,New Mexico, USA, 2018年8月20-26日、第2288-2299頁、Association for Computational Linguistics (2018), https://www.aclweb.org/anthology/C18-1194/;、Saha, S., Pal, H.,Mausam著、「Bootstrapping for numerical open IE.」、In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017年、Vancouver, Canada, 7月30日-8月4日、Volume 2: Short Papers (2017)に説明されているように処理し、
エンティティリンクのために、名前付きエンティティを、例えば、Hoffart, J., Yosef, M.A., Bordino, I., Fuerstenau, H., Pinkal., M., Spaniol,M., Taneva,B., Thater, S., Weikum,G.著、「Robust disambiguation of named entities in text」、In: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,EMNLP 2011, 2011年7月27-31日、John McIntyre Conference Centre, Edinburgh, UK, A meeting of SIGDAT, a Special Interest Group of the ACL (2011)に説明されているように認識して曖昧性解消し、
共参照解決のために、名前付きエンティティを、例えば、Lee, K., He, L., Zettlemoyer, L.著、「Higher-order coreference resolution with coarse-to-fine inference.」、In: Walker, M.A., Ji, H., Stent, A., (eds.) Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT, New Orleans, Louisiana, USA, 2018年6月1-6日、Volume 2 (Short Papers). 第687-692頁、Association for Computational Linguistics (2018), https://doi.org/10.18653/v1/N18-2108に説明されているように認識して曖昧性解消する
ように前処理することによって、テキストリソース108の前処理された埋め込みを決定することを含む。
【0071】
数量を含むテキストリソース108の少なくとも1つのセクションは、この例においては、テキストリソース108の前処理された埋め込みにおいて見出される。
【0072】
その後、ステップ212-2が実施される。
【0073】
ステップ212-2は、単位の数値表現に依存して、セクションの数値表現内の単位のコンテキストXを決定することを含む。
【0074】
その後、ステップ212-3が実施される。
【0075】
ステップ212-3は、それぞれエンティティ、数量、単位及びコンテキストXを含む複数のタプルを決定することを含む。
【0076】
一例においては、ステップ212-1の出力は、ステップ212-2及びステップ212-3において、Qsearchに従うQファクトを表現するタプル内へとキャストされる。
【0077】
Qファクトは、F=(e,q,X)の形式のタプルであり、ここで、eは、ナレッジベース106のエンティティであり、qは、数量即ち数値とナレッジベース106からの当該数量の単位とを含む。コンテキストXは、エンティティeと数量qとの間の関係を理解するための情報を提供するキューワードの集合の形態のコンテキストを捕捉している。本方法においては、エンティティe、数量q即ち値及び単位、並びに、コンテキストXを含む、Qファクトの数値表現が処理される。
【0078】
例1:
“The Eiffel Tower is 1,063ft high and costs about $1.5 million to construct.(エッフェル塔は高さ1063フィートであり、建設に約150万ドルを要する)”というテキストスニペットが、曖昧なエンティティ“Eiffel Tower”→<Eiffel_Tower>並びに数量“1,063ft”→<1063,feet>及び“$1.5 million”→<1500000,$>と共に与えられたとする。OpenIEは、2つのタプル<The Eiffel Tower;is;1063ft high>及び<The Eiffel Tower;costs;about $1.5 millon;to construct>を生成する。これらのタプルをエンティティ及び数量でマッピングし、全てのストップワードをドロップさせることで、本方法は、
F1:e=<Eiffel_Tower>;q=(1062,feet);X=“high”
F2:e=<Eiffel_Tower>;q=(1500000,$);X=“costs construct”
を取得する。
【0079】
一例においては、本方法は、複数のタプルから、候補Qファクトと称される候補タプルの集合を収集する。これらの候補タプルは、任意選択手段としてフィルタリングされ、後述する述部目標クエリによってランク付けされる。述部目標クエリは、一例においては、ナレッジベース106のスキーマに依存して、述部としての関心関係、例えば“height”に対して生成される。
【0080】
例えば、述部目標クエリpは、タプルT(p)=(pd,pu,pX)であり、ここで、
pdは、ナレッジベース106のスキーマからの述部ドメイン、例えば建物であり、
puは、述部値の可能な単位の集合、例えばmeter、feetであり、
pX={pX0,pX1,…}は、クエリコンテキスト、この例においては多重集合であり、ここで、各pXiは、1つの述部pに対するコンテキストを表すワードバッグ、例えば“height”、“stands tall”である。
【0081】
本方法においては、述部ドメインpdと、可能な単位の集合puと、多重集合pXとを含む、述部目標クエリが処理される。
【0082】
このために、本方法は、任意選択手段としてのステップ212-4を含み得る。
【0083】
ステップ212-4は、複数のタプルのうちの少なくとも1つのタプルに対する参照を提供することを含む。
【0084】
少なくとも1つのタプルに対する参照pXiを提供することは、ナレッジベース106のための参照述部ドメインpdを提供することを含み得る。
【0085】
少なくとも1つのタプルに対する参照pXiを提供することは、ナレッジベース106からの参照エンティティeを提供することを含み得る。
【0086】
少なくとも1つのタプルに対する参照pXiを提供することは、単位の集合から参照単位の集合puを提供することを含み得る。
【0087】
参照pXiを提供することは、複数のタプルのうちの少なくとも1つのタプルに対して、複数のタプルのうちの少なくとも1つの他のタプルのコンテキストに比較して、そのコンテキストXがより類似している参照pXiを決定することを含み得る。
【0088】
この例においては、参照pXiは、ワードバッグである。
【0089】
初期の反復i=0においては、初期の目標クエリT0(p)は、固定されたドメインpd、ナレッジベース106のスキーマから取得された単位pu、及び、pX={pX0}のみを含むコンテキストによって構成可能であり、ここで、pX0は、例えば述部のナレッジベース106におけるラベル、例えば関心関係を表現する“height”である。さらなる反復においては、後述するように、目標クエリTi(p)を決定することができる。
【0090】
その後、ステップ212-5が実施される。
【0091】
ステップ212-5は、複数のタプルのうちの少なくとも1つのタプルに対して、この複数のタプルのうちの少なくとも1つのタプルの、参照pXiへの類似度を決定することを含む。これは、候補Qファクトの集合内の少なくとも1つのQファクトの、参照への類似性を決定することを意味する。
【0092】
類似度を決定することは、複数のタプルのうちの少なくとも1つのタプルにおけるコンテキストの、参照pXiへの類似度を決定することを含み得る。当該類似度は、Qファクトとその参照とのセマンティクス関係を表現する。
【0093】
類似度は、複数のタプル内のタプルについて決定され得る。類似度は、この例におけるように、複数のタプルのうちの少なくとも1つのタプルに対して、参照述部の数値表現により、少なくとも1つのタプルのエンティティの数値表現が参照エンティティの数値表現までの所定の距離内にある数値表現へとマッピングされ、かつ、少なくとも1つのタプルの単位が参照単位の集合内にある場合にのみ決定可能となる。これらの数値表現は、埋め込み空間内にあり得る。例えば、コンテキスト化されたBERT埋め込みに基づくコンテキスト埋め込み距離は、QSearchについて説明したようにして決定することができる。
【0094】
その後、ステップ212-6が実施される。
【0095】
ステップ212-6は、複数のタプルのうちの少なくとも1つのタプルに対する、その参照pXiまでの距離に依存した第1のスコアを決定することを含み、このスコアは、数量ファクトを決定するために選択可能な当該タプルの信頼度を示す。
【0096】
一例における第1のスコアは、目標クエリTi(p)=(pd,pu,pX)に関するQファクトF=(e,q,X)から、
【数2】
として決定される。ここで、
simは、2つのワードバッグ間におけるセマンティクス類似度を示しており、simの選択のための様々な任意選択手段が存在するが、この例においては、Qsearchによるコンテキスト埋め込み距離が、コンテキスト化されたBERT埋め込みに基づいて使用され、
relは、全てのQファクトをランク付けする関連性スコアを記述しており、そのエンティティ及び数量が目標述部のドメイン及び単位に一致し、即ち、それぞれのコンテキストXとクエリpX
iにおける最良一致のコンテキストとの間のセマンティクス埋め込み距離に基づいて、関心関係を表現する述部である。
【0097】
ステップ212-6の出力は、一例においては、タプルのランク付けされたリストである。このことは、Qファクトのランク付けされたリストが決定されることを意味する。目標クエリTi(p)は、一例においては、複数のタプルのうちの1つのタプルをそのセマンティクス関係の観点からランク付けするために使用される。これは、候補Qファクトが、そのセマンティクス関係に関してランク付けされていることを意味する。
【0098】
一例においては、ステップ212-7において、タプルのランク付けされたリスト内の少なくとも1つのタプルの第1のスコアにより、数量ファクトを決定するために選択可能なタプルの信頼度が第1の閾値よりも高いことが示されるか否かの判定が行われる。
【0099】
数量ファクトとして選択可能な当該タプルの信頼度が第1の閾値より高いことを示す第1のスコアを有するタプルに対して、ステップ212-8が実施される。
【0100】
ステップ212-7においては、タプルのランク付けされたリストにおける少なくとも1つのタプルの第1のスコアにより、数量ファクトを決定するために選択可能な当該タプルの信頼度が第2の閾値を下回ることが示されるか否かの判定が行われる。
【0101】
数量ファクトとして選択可能なタプルの信頼度が第2の閾値未満であることを示す第1のスコアを有するタプルに対して、ステップ212-9が実施される。
【0102】
第1の閾値は、例えば信頼度-閾値パラメータγである。一例においては、Qファクトのランク付けされたリストにおいて高信頼度群Hが決定される。高信頼度群Hは、rel(F,T(p))≧γのスコアを有するQファクトを含む。一例においては、低信頼度群Lは、Qファクトのランク付けされたリストにおいて決定される。低信頼度群Lは、rel(F,T(p))<γのスコアを有するQファクトを含む。
【0103】
基本的な手法によりγを設定するために、本方法は、Wikidataから抽出された目標述部のグラウンドトゥルースファクトの集合からDistantSupervisionを使用して、Shu, L., Xu, H., Liu, B.著、「DOC: deep open classification of text documents.」、In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, EMNLP 2017, Copenhagen, Denmark, 2017年9月9-11日、第2911-2916頁、(2017)に従い、ガウシアンフィッティングを用いたディープオープン分類(DOC)法を利用することができる。
【0104】
ステップ212-8は、数量ファクトを決定するために選択可能なタプルの信頼度が第1の閾値以上であることを示している第1のスコアを有する少なくとも1つのタプルをタプル群に追加することを含む。タプル群は、高信頼度群HにおけるQファクトを表現している。
【0105】
その後、任意選択手段としてのステップ212-10が実施される。
【0106】
ステップ212-10は、タプル群内の少なくとも1つのタプルに対する、当該タプルの数量に依存した第2のスコアを決定することを含み、ここで、第2のスコアは、選択可能な当該タプルの尤度をファクトとして示すものである。
【0107】
高信頼度群HにおけるQファクトの大部分は、正しい確率が高い、即ち、目標述部が捕捉されておりかつ合理的な数量値を有していると仮定される。しかしながら、小さい部分は、依然としてスプリアスである可能性がある。当該スプリアスをフィルタリング除去するために、本方法は、高信頼度群Hの値分布の特徴付けに基づいてノイズ除去技術を考察することができる。ノイズ除去技術及び第2のスコアについては、後述する。構想は、高さ1m又は5kmの建物などといった誤りの可能性が高い外れ値を見出すことである。このようにして、本方法により、多くの偽陽性が排除される。
【0108】
その後、ステップ212-11が実施される。
【0109】
ステップ212-11は、エンティティ、数量、単位及びコンテキストXを含む、集合の候補ファクトに対する少なくとも1つのタプルを決定することを含む。候補ファクトは、数量ファクトを決定するためのQファクト候補を表現している。
【0110】
ステップ212-11は、例えば、タプル群から1つのタプルを選択し、当該タプルを候補ファクトの集合に追加すること又は当該タプルを候補ファクトの集合に追加しないことのいずれかを含む。
【0111】
ステップ212-11は、タプルの群から選択されたタプルに対する第2のスコアにより、ファクトとして選択可能な尤度が第3の閾値より高いことを当該タプルが示しているか否かの判定を含み得る。
【0112】
ステップ212-11は、第2のスコアによって、数量ファクトを決定するために選択可能な当該タプルの尤度が第3の閾値を上回ることが示された場合には、当該タプルを集合の候補ファクトに追加し、示されない場合には、当該タプルを選択しないことを含み得る。
【0113】
少なくとも1つのタプルが追加されるまで、又は、タプル群内のタプルが処理されるまで、ステップ212-11を繰り返すことができる。
【0114】
その後、ステップ212-12が実施される。
【0115】
ステップ212-12は、そのコンテキストXに依存して、候補ファクトの集合内の少なくとも1つのタプルからファクトの数量に対する候補として数量を選択すること又は選択しないことのいずれかを含む。
【0116】
先行のステップは、例えば、次のそれぞれ、即ち、
1)同一のエンティティに対して、それぞれ異なる数量(例えば、302m、約300m、300m超)が、それぞれ異なる精度レベルで示されている可能性があること;
2)それぞれ異なる単位が、変換後に偏差(例えば1063ft→320m)を生じさせている可能性があること;
3)テキストリソース108における元のテキストの偽のステートメント;
4)時間的に変動する値、又は、それ以外の値におけるコンテキスト依存性の差異、例えば、特定の年期若しくは四半期における企業収益又は特定の販売地域における企業収益など
に起因して、いくつかの不正確な又は厳密でないQファクト候補を残している可能性がある。
【0117】
これらの種類のノイズ及び矛盾を解消するために、本方法は、テキストリソース108のテキスト部分から又は利用可能である場合には文書タイムスタンプから、例えばニュース記事について取得された時間範囲によって、同一のエンティティ-述部ペアに対するQファクトを群としてまとめることを含み得る。これらの各群において、本方法は、最も頻度の高い値を選択することができる。得られたQファクトは、数量ファクトを決定するための候補である。
【0118】
ステップ212-12は、複数のタプルから少なくとも1つのタプルを選択することを含み得るものであり、このタプルは、複数のタプルのうちの第2のタプルのコンテキストがその参照pXiに類似していることに比較して、その参照pXiにより類似しているコンテキストを含む。この例においては、参照pXiに最も類似したコンテキストを有するタプルが選択される。この例においては、当該タプルは候補ファクトの集合から選択される。
【0119】
ステップ212-9において、本方法は、Qファクト候補の低信頼度群Lを再考慮する。当該群は、いくつかの別の関連するステートメントを含み得る。
【0120】
一例におけるステップ212-9は、高信頼度群Hからの少なくとも1つのタプルと同一のエンティティを有する、複数のタプルのうちの1つのタプルを決定することを含む。
【0121】
ステップ212-9は、低信頼度群LからのQファクトを表現する少なくとも1つのタプル内の数量と高信頼度群HのQファクトを表現する少なくとも1つのタプル内の数量とに依存して類似度を決定することを含み得る。
【0122】
当該プロシージャは、高信頼度群HからのQファクトを表現する少なくとも1つのタプルへの類似度に基づいて、低信頼度群L内の陽性のインスタンスを検出する。
【0123】
ステップ212-9は、少なくとも1つのタプル内の数量の正規化に依存して類似度を決定することを含み得る。正規化は、一例においては、複数のタプルのうちの一方のタプルの単位に依存して決定される。正規化は、一例においては、これらのタプルの両方における単位に依存して決定される。
【0124】
ステップ212-9は、例えばRoy, S., Vieira, T.,Roth, D.著、「Reasoning about quantities in natural language」、Transactions of the Association for Computational Linguistics 3 (2015)に記載されているように、正規化数量を含み得る。
【0125】
その後、ステップ212-13が実施される。
【0126】
ステップ212-13は、類似度が第4の閾値よりも大きい場合に、コンテキストXを別の参照pXiのための候補として選択することを含む。
【0127】
これにより、述部コンテキストpXが付加的な関連するフレーズとともに自動的に拡張される。付加的な関連するフレーズを用いて述部コンテキストpXを自動的に拡張することについては、後述する。
【0128】
例2
本方法により、(Eiffel_Tower,height,324m)がナレッジベース106に追加され、かつ、(Eiffel_Tower,324m,“stand tall”)が低信頼度群LからのQファクトである場合、上述したクエリ拡張メカニズムが、目標述部“height”のパラフレーズとしてのトークン“stand tall”を収集する。初期の目標クエリT0(p)が、pXをpX∪{“stand tall”}へ設定することによって拡張され、その結果、当該更新されたコンテキストを有するT1(p)が得られる。
【0129】
これらのステップ209及びステップ212-13は、例えば停止基準が満たされるまで繰り返される。停止基準は、クエリをそれ以上拡張することができないことを意味し得る。停止基準は、最大反復回数kに達したことであるものとしてよい。一例においては、k=10の反復が使用される。
【0130】
ノイズ除去のために、ノイズ除去技術は、例えばステップ212-10において、特に全ての数量値を正規化することを含む。例えば、正規化は、数量値を同一の標準単位へ、例えば高さを表すmeterへ変換することを含む。正規化は、例えば、閾値よりも小さい正規化値間の差を有するQファクトを結合することを含む。
【0131】
ここでの閾値は、例えば5%である。当該差は、例えば、同一の対象についての数量のメジアン値に対する数量の相対差として、例えば、エッフェル塔を表現する主部については、300m、302m及び310mのようなメジアン値を採用することによって決定される。
【0132】
一例においては、正規化数量値は、Qファクトの高信頼度群Hから選択される。この場合のノイズ除去は、数量値の分布に基づいて高信頼度群Hからのノイズ値をフィルタリング除去するという目標を有する。当該態様においては、本方法は、ある数量値が高信頼度群Hから除去された場合に、分布における変化を決定することを含み得る。
【0133】
本方法は、それぞれの値ν∈Hに対して、2つの尤度スコア、即ち、オリジナル尤度スコアo_score及びコンシステンシ尤度スコアc_scoreを決定することを含み得る。
【0134】
o_scoreは、値νを含む高信頼度群Hにおける数量値の完全な集合から構築された分布から生成された値νの尤度である。
【0135】
c_scoreは、値νを除いた高信頼度群Hのランダム部分集合から構築された複数の分布から決定される。
【0136】
c_scoreは、例えば、コンシステンシ学習技術に基づいて決定される。コンシステンシ学習は、例えば、J. Yagnik and A. Islam.著、「Learning people annotation from the web via consistency learning.」、In: Proceedings of the 9th ACM SIGMM International Workshop on Multimedia, Information Retrieval, MIR 2007, Augsburg, Bavaria, Germany, 2007年9月24-29日、2007に記載されている。
【0137】
この例においては、値νに対するnoise_scoreが閾値μより大きい量だけ異なる場合に、値νがノイズとみなされる。この例においては、noise_scoreは、o_scoreとc_scoreとの間の差分に依存して、例えば、
【数3】
のように決定される。
【0138】
この例においては、高信頼度群Hのうちμよりも小さいnoise_scoreを有する全てのQファクトがフィルタリング除去される。当該コンテキストにおけるフィルタリング除去は、候補ファクトの集合においてこれらのQファクトをタプルとして考慮しないことを指す。
【0139】
o_scoreは、例えば、高信頼度群Hからの分布fに依存して、例えばカーネル密度推定を使用して決定され、ここで、fは、帯域幅パラメータbを有する確率密度関数
【数4】
であり、Φは、カーネル関数である。この例においては、ガウスカーネルが使用される。ガウスカーネルは、例えば、
【数5】
として定義されている。
【0140】
帯域幅bは、例えば、最適な帯域幅の自動選択のためのImproved Sheather Jones法によって決定される。当該帯域幅は、Z. I. Botev, J. F. Grotowski, D. P. Kroese等著、「Kernel density estimation via diffusion.」、In: The annals of Statistics, 38(5):2916-2957, 2010に記載されているようにして決定可能である。
【0141】
値ν∈Ηのo_scoreは、一例においては、
【数6】
である。
【0142】
これは、密度がf(ν)以下である全ての値に対するfの積分としての値νの尤度を意味する。一例においては、カーネル密度推定は複数の局所的極値を有し得るので、本方法は、当該積分をSimpsonの規則によりセグメンテーションによって近似することを含む。
【0143】
一例におけるc_scoreの決定は、高信頼度群Hからの値の小さいプローブ集合、例えば高信頼度群Hの10%をランダムサンプリングし、高信頼度群Hの残余の値を分布の構築に使用することを含む。次いで、構築された分布が、プローブ集合内の値の尤度スコアを測定するために使用される。こうしたサンプリング及び交差検証プロセスは、多数のサンプリング反復において繰り返される。値νのc_scoreは、例えば、プローブ集合にνが含まれていた全てのケースにわたって集約された平均予測尤度として計算される。
【0144】
サンプリング反復のたびに、o_scoreについて説明したように、c_scoreについての分布の構築及び値尤度の推論が決定される。唯一の相違点は、o_scoreを計算する際には、最適な帯域幅値bがHから構築され、これが高信頼度群Hのサンプル部分集合から分布を構築するためにも使用されるということである。
【0145】
当該付加されたノイズは、サンプルによって定義される分布の形状を変化させるのみであって、帯域幅bによって定義される平滑性は変化させない。
【0146】
一例におけるノイズ除去により、陽性結果H+が出力される。陽性結果H+は、高信頼度群Hからノイズを有する全てのQファクトを除去することによって、即ち、noise_score≧μの高いノイズスコアを有する全てのQファクトを除去することによって決定される。一例においては、μは0.3である。一例においては、陽性結果H+は、ナレッジベースへ追加されるタプル群とみなされ、続いて上述したように処理される。
【0147】
一例におけるノイズ除去は、陽性結果H+から分布fの推定を出力する。分布fの推定は、次のセクションで説明するように、付加的な関連するフレーズ、即ち、クエリ拡張による述部コンテキストpXの自動的な拡張に使用することができる。
【0148】
付加的な関連するフレーズによる述部コンテキストpXの自動的な拡張への入力は、関連性スコアrel(F,T(p))において低くランク付けされた低信頼度群Lにおける陽性結果H+及びQファクトを含む。
【0149】
ここでの自動的な拡張の目標は、上述したファクト抽出プロセスのより良好なカバレッジを達成することである。具体的には、反復iにおける現在の述部目標クエリがTi(p)=(pd,pu,pX={pX0,…,pXi})であるとき、本方法は、候補コンテキストpX’を学習することを含む。本方法はさらに、候補コンテキストpX’に依存して次の反復i+1のクエリコンテキストを拡張することを含む。
【0150】
当該クエリ拡張技術は、データにおける冗長性、即ち、同一のエンティティが存在することと、陽性結果H+及び低信頼度群Lの両方におおよそ同様の数量とが存在することとに依拠している。
【0151】
このことについて、台を有するQファクト(supported Qfacts)を用いて説明する。低信頼度群Lから与えられたQファクトであるF=(e,q,X)は、陽性結果H+において、
【数7】
のようなQファクトであるF’=(e,q’,X’)が存在する場合に、台を有するQファクトである。即ち、QファクトF’は、Fと同一の標準単位に変換された後、Fと同一のエンティティを有し、Fとほぼ等しい数量を有する。
【0152】
台を有する集合supp_set(L,H+)は、低信頼度群L内の全ての台を有するQファクトの集合である。
【0153】
一例においては、高信頼度群Hは、陽性結果H+={Eiffel_Tower,324m,“height”),(Burj_Khalifa,2712ft,“reached height”)}を含む。この例においては、次の各Qファクト、即ち、
F1:e=<Eiffel_Tower>;q=(1062,feet);X=“high”
F1:e=<Eiffel_Tower>;q=(324,m);X=“stand tall”
F2:e=<Eiffel_Tower>;q=(1062,ft);X=“rise”
F3:e=<Burj_Khalifa>;q=(2722,ft);X=“originally tall”
F4:e=<Burj_Khalifa>;q=(828,m);X=“rise height”
が台を有する。
【0154】
この例において台を有さない(not supported)ものは、例えば、
F5:e=<The_Shard>;q=(1017,ft);X=“tall”
F6:e=<Sydney_Tower>;q=(309,m);X=“stand high”
F7:e=<Eiffel_Tower>;q=(328,ft);X=“base wide”
である。
【0155】
F5及びF6のエンティティeは、陽性結果H+には現れないが、F7の数量は、偏差が大き過ぎ、即ち、閾値を上回っている。上からL={F1,…,F7}を得ると、その台を有する集合は、supp-set(L,H+)={F1,F2,F3,F4}となる。
【0156】
本方法は、低信頼度群Lにおいて現れる各候補コンテキストpX’に対して、高信頼度群H内の陽性結果H+からファクトをリフレーズして、低信頼度群L内の複数のステートメントを決定することを含み得る。
【0157】
所与の候補コンテキストpX’に対して、その台(support)は、コンテキストがpX’を含む、台を有するLの集合における複数のQファクトであり、
【数8】
である。
【0158】
一例においては、上述したF1,…,F7と高信頼度群及び低信頼度群Lにおける陽性結果H+とに対し、本方法は、例えば、
supp(“stand”,L,H+)=|{F1}|=1
supp(“tall”,L,H+)=|{F1,F3}|=2
supp(“rise”,L,H+)=|{F2,F4}|=2
を決定する。
【0159】
候補コンテキストpX’は、単一のトークン、例えばワードに限定されているわけではない。候補コンテキストpX’が2つ以上のトークンを有することもある。例えば、2つのトークン“rise height”を含む候補コンテキストpX’に関しては、supp(“rise height”,L,H+)=|{F4}|=1を保持する。
【0160】
一例においては、台は、例えば、本方法によって処理された候補コンテキストpX’’のうち最も高い台値によって正規化される。候補コンテキストpX’の対応する相対的台は、
【数9】
となる。
【0161】
一例においては、高い台は、候補コンテキストpX’を元の述部pのパラフレーズ又はリファインメントとすることができる程度に十分ではない。
【0162】
一例においては、例えば“about”、“during”、“up”のような高い台を有する非情報ワードが逆文書頻度を決定し、それぞれの逆文書頻度を閾値と比較することによってフィルタリング除去される。各閾値は、例えば、非情報ワードの逆文書頻度より大きい値に設定される。
【0163】
クエリ拡張にとって有望な候補コンテキストpX’をより効果的に選択するために、本方法は、それぞれのステートメントの数量を追加的に考慮することを含み得る。一例においては、コンテキストがpX’を含む低信頼度群L内のQファクトを含む候補コンテキストpX’の拡張集合exp_set(pX’,L)が
【数10】
として決定される。
【0164】
上述した低信頼度群Lに対して、これにより、
exp_set(“stand”,L)={F1,F6}
exp_set(“tall”,L)={F1,F3,F5}
exp_set(“rise”,L)={F2,F4}
が得られる。
【0165】
拡張集合は、高信頼度群Hのファクトのいずれかによって台を有するか否かにかかわらず、pX’を含む低信頼度群のQファクトを含む。これらのQファクトは、クエリを拡張するためにpX’が選択されている場合、高信頼度群Hに追加可能なステートメントである。
【0166】
一例においては、拡張集合の品質は、値分布fに対するそのQファクトの数量値を決定することによって決定される。
【0167】
分布信頼度は、例えば、高信頼度群Hの陽性結果H+から構築された分布fにより生成された、拡張集合内の数量値の平均尤度として、
【数11】
として決定され、ここで、P(f→q)は、上述した積分関数である。
【0168】
したがって、元の述部pをパラフレーズ又はリファイニングするための良好な候補コンテキストは、参照分布に一致する数量を有する拡張集合を有するべきである。
【0169】
拡張集合の適合性をスコア化するための第2の信号として、本方法は、Qファクトの元の関連性スコアを使用することができる。
【0170】
クエリ信頼度q_conf(pX’,L)は、例えば、所与の反復iにおける述部目標クエリT
i(p)に対する拡張集合内のQファクトの平均関連性スコアとして決定され、
【数12】
となる。
【0171】
候補コンテキストpX’は、相対的台、クエリ信頼度及び分布信頼度のうちの任意の単一のものに従ってランク付け可能である。
【0172】
一例においては、候補コンテキストpX’の適合性、例えばexpansion_score(pX’,L,H+)について、本方法は、相対的台、クエリ信頼度及び分布信頼度の重み付け和を決定すること、即ち、
【数13】
を含み、ここで、重みw
1,…,w
3は、選択され又は与えられる。候補コンテキストpX’は、その適合性に従って、例えば、このケースにおいてはexpansion_score(pX’,L,H+)に従ってランク付けされ得る。
【0173】
例示的な本方法においては、第2のスコアは、相対的台、クエリ信頼度、及び、分布信頼度のうちの任意の単一のものであってよく、又は、これらの重み付け和expansion_scoreであってよい。
【外国語明細書】