(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023009024
(43)【公開日】2023-01-19
(54)【発明の名称】知識グラフの知識グラフ埋込みをトレーニングするための負のサンプルを決定するためのデバイス、コンピュータプログラム及びコンピュータ実装された方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20230112BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】9
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022108359
(22)【出願日】2022-07-05
(31)【優先権主張番号】21184012
(32)【優先日】2021-07-06
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ダリア ステパノワ
(72)【発明者】
【氏名】モハメド ガド-エルラブ
(72)【発明者】
【氏名】ニティーシャ ヤイン
(72)【発明者】
【氏名】チュン キエン チャン
(57)【要約】 (修正有)
【課題】知識グラフの知識グラフ埋込みをトレーニングするための負のサンプルを決定する、方法、プログラム及びデバイスを提供する。
【解決手段】方法は、知識グラフ埋込み308を用いて予測トリプル310を決定するステップと、知識グラフ302のトリプルと、オントロジ304に関して矛盾する予測トリプル310とを含むトリプルのセット312を決定するステップと、トリプルのセット312から予測トリプル310のトリプルにおける目的語エンティティのための置換エンティティを決定し、関係、主語エンティティ及び置換エンティティを含むように負のサンプル306-1を決定するステップ、又は、サブセット312から、予測トリプル310における主語エンティティのための置換エンティティを決定し、関係、目的語エンティティ及び置換エンティティを含むように負のサンプル306-1を決定するステップと、を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
知識グラフ(302)の知識グラフ埋込み(308)をトレーニングするための負のサンプル(306-1)を決定するためのコンピュータ実装された方法であって、
前記知識グラフ(302)は、オントロジ(304)によって拡張され、前記オントロジ(304)は、前記知識グラフ(302)のファクトを偽のファクトから区別するための少なくとも1つの制約を含む、方法において、
知識グラフ埋込み(308)を用いて、予測トリプル(310)を決定するステップ(3)と、
前記知識グラフ(302)の少なくとも1つのトリプルと、前記オントロジ(304)に関して矛盾する予測トリプル(310)の少なくとも1つとを含むトリプルのセット(312)を決定するステップ(4)であって、前記予測トリプル(310)の少なくとも1つのトリプルは、前記知識グラフ(302)からの主語エンティティ、関係及び目的語エンティティを含む、ステップ(4)と、
前記トリプルのセット(312)から、前記予測トリプル(310)の少なくとも1つのトリプルにおける前記目的語エンティティのための置換エンティティを決定し、前記関係、前記主語エンティティ及び前記置換エンティティを含むように前記負のサンプル(306-1)を決定するステップ(5)、又は、
サブセット(312)から、前記予測トリプル(310)の少なくとも1つのトリプルにおける前記主語エンティティのための置換エンティティを決定し、前記関係、前記目的語エンティティ及び前記置換エンティティを含むように前記負のサンプル(306-1)を決定するステップ(5)と、
を含むことを特徴とする、コンピュータ実装された方法。
【請求項2】
前記方法は、前記目的語エンティティを前記置換エンティティにより置き換えることから生じるトリプルが、前記少なくとも1つの予測トリプル及び前記知識グラフ(302)のトリプルとは異なるように、前記目的語エンティティのための前記置換エンティティを決定するステップ(5)、又は、前記主語エンティティを前記置換エンティティにより置き換えることから生じるトリプルが、前記少なくとも1つの予測トリプル及び前記知識グラフ(302)のトリプルとは異なるように、前記主語エンティティのための前記置換エンティティを決定するステップ(5)を含む、請求項1に記載の方法。
【請求項3】
前記主語エンティティのための前記置換エンティティを決定するステップ(5)は、前記トリプルのセット(312)内で前記主語エンティティの局所タイプを決定するステップと、前記主語エンティティの前記局所タイプから予め定められた順序内で局所タイプを有する前記置換エンティティを選択するステップとを含む、請求項1又は2に記載の方法。
【請求項4】
前記目的語エンティティのための前記置換エンティティを決定するステップ(5)は、前記トリプルのセット(312)内で前記目的語エンティティの局所タイプを決定するステップと、前記目的語エンティティの前記局所タイプから予め定められた順序内で局所タイプを有する前記置換エンティティを選択するステップとを含む、請求項1又は2に記載の方法。
【請求項5】
前記トリプルのセット(312)内で複数の置換エンティティを決定するステップと、前記複数の置換エンティティ内で置換エンティティごとに負のサンプル(306-1)を決定するステップとを含む、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
少なくとも1つの負のサンプル(306-1)を含むトレーニングデータを決定するステップ及び/又は格納するステップを含む、請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
先行する反復の少なくとも1つの負のサンプル(306-1)を用いて、反復内で前記知識グラフを埋込み(308)をトレーニングするステップ(2)を含む、請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
知識グラフ(302)の知識グラフ埋込み(308)をトレーニングするための負のサンプル(306-1)を決定するためのデバイス(200)であって、
前記知識グラフ(302)は、オントロジ(304)によって拡張され、前記オントロジ(304)は、前記知識グラフ(302)のファクトを偽のファクトから区別するための少なくとも1つの制約を含む、デバイス(200)において、
請求項1乃至7のいずれか一項に記載の方法を実施するように構成されていることを特徴とするデバイス(200)。
【請求項9】
コンピュータによって実行されるときに前記コンピュータに請求項1乃至7のいずれか一項に記載の方法を実施させるためのコンピュータ可読命令を含むことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、知識グラフKGの知識グラフ埋込みをトレーニングするための負のサンプルを決定するためのコンピュータ実装された方法に関する。
【背景技術】
【0002】
KGは、正のトリプル又は負のトリプルを用いてトレーニングすることができる。KGは、正のトリプルのみをKGのファクトとして明示的に格納するため、適当な負のトリプルの生成は、非常に困難な問題であると認識されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
実際には不適正なファクトである負のサンプルを提供する体系的な手法を有する方法を提供することが望まれる。
【課題を解決するための手段】
【0004】
発明の開示
知識グラフの知識グラフ埋込みをトレーニングするための負のサンプルを決定するためのコンピュータ実装された方法であって、知識グラフは、オントロジによって拡張され、オントロジは、知識グラフのファクトを偽のファクトから区別するための少なくとも1つの制約を含む、方法において、本方法は、以下のステップ、即ち、知識グラフ埋込みを用いて、予測トリプルを決定するステップと、知識グラフの少なくとも1つのトリプルと、オントロジに関して矛盾する予測トリプルの少なくとも1つとを含むトリプルのセットを決定するステップであって、予測トリプルの少なくとも1つのトリプルは、知識グラフからの主語エンティティ、関係及び目的語エンティティを含む、ステップと、トリプルのセットから、予測トリプルの少なくとも1つのトリプルにおける目的語エンティティのための置換エンティティを決定し、関係、主語エンティティ及び置換エンティティを含むように負のサンプルを決定するステップ、又は、サブセットから、予測トリプルの少なくとも1つのトリプルにおける主語エンティティのための置換エンティティを決定し、関係、目的語エンティティ及び置換エンティティを含むように負のサンプルを決定するステップと、を含む。入力された知識グラフからのトリプルと、埋込みによって作成された予測トリプルとを含むトリプルのセットは、矛盾のための説明を表す。この説明により、意味論的に類似したさらなる矛盾トリプルが推論される。このさらなる矛盾トリプルは、埋込みモデルによって推論された矛盾トリプルの汎化を介して決定される。この方法が生成するトリプルは、知識グラフ及びそれに付随するオントロジと矛盾する負のサンプルである。
【0005】
本方法は、目的語エンティティを置換エンティティにより置き換えることから生じるトリプルが、少なくとも1つの予測トリプル及び知識グラフのトリプルとは異なるように、目的語エンティティのための置換エンティティを決定するステップ、又は、主語エンティティを置換エンティティにより置き換えることから生じるトリプルが、少なくとも1つの予測トリプル及び知識グラフのトリプルとは異なるように、主語エンティティのための置換エンティティを決定するステップを含み得る。
【0006】
主語エンティティのための置換エンティティを決定するステップは、トリプルのセット内で主語エンティティの局所タイプを決定するステップと、主語エンティティの局所タイプから予め定められた順序内で局所タイプを有する置換エンティティを選択するステップとを含み得る。このことは、知識グラフの近傍にあるエンティティが、主語エンティティの代わりとして検出されることを意味する。
【0007】
目的語エンティティのための置換エンティティを決定するステップは、トリプルのセット内で目的語エンティティの局所タイプを決定するステップと、目的語エンティティの局所タイプから予め定められた順序内で局所タイプを有する置換エンティティを選択するステップとを含み得る。このことは、知識グラフの近傍にあるエンティティが、目的語エンティティの代わりとして検出されることを意味する。
【0008】
好適には、本方法は、トリプルのセット内で複数の置換エンティティを決定するステップと、複数の置換エンティティ内で置換エンティティごとに負のサンプルを決定するステップとを含む。
【0009】
負のサンプルをさらなるトレーニング用に利用可能にさせるために、本方法は、少なくとも1つの負のサンプルを含むトレーニングデータを決定するステップ及び/又は格納するステップを含む。
【0010】
本方法は、先行の反復からの少なくとも1つの負のサンプルを用いて、反復内で知識グラフ埋込みをトレーニングするステップを含み得る。
【0011】
知識グラフの知識グラフ埋込みをトレーニングするための負のサンプルを決定するためのデバイスであって、ここで、知識グラフは、オントロジによって拡張され、ここで、オントロジは、知識グラフのファクトを偽のファクトから区別するための少なくとも1つの制約を含む本デバイスは、本方法を実行するように構成されている。
【0012】
コンピュータプログラムは、コンピュータによって実行されるときにコンピュータに本方法を実施させるためのコンピュータ可読命令を含む。
【0013】
さらなる好適な実施形態は、以下の説明及び図面から導出可能である。
【図面の簡単な説明】
【0014】
【
図2】知識グラフの知識グラフ埋込みをトレーニングするための負のサンプルを決定するためのデバイスを概略的に示した図である。
【
図3】知識グラフの知識グラフ埋込みをトレーニングするための負のサンプルを決定するための方法の一部を示した図である。
【発明を実施するための形態】
【0015】
知識グラフ(KG)は、エンティティのセット及び関係のセットを含む。KGは、エンティティのセットの少なくとも1つのエンティティを用いてファクトを表現することによって、所定の関心定義域についてのファクトを記述し、これは、関係のセットの少なくとも1つの関係を介して、エンティティのセットの少なくとも1つの他のエンティティに相互接続されている。
【0016】
KG表現においては、エンティティは、KGのノードによって表され、2つのエンティティ間の関係は、これらのノード間のKGのエッジによって表される。
【0017】
ファクトは、主語、述語及び目的語のトリプルである。KGにおいては、主語はエンティティ、目的語もエンティティ、述語は関係を表す。
【0018】
KGの知識グラフ埋込みKGEにおいて、エンティティは、埋込みによって表現される。KGEにおいて、関係は、埋込みによって表現される。あるファクトの主語の埋込み、述語の埋込み、目的語の埋込みのトリプルは、KGEにおいてファクトを表す。
【0019】
KGは、第1の所与のエンティティと第2の所与のエンティティとの間の関係を予測するために使用されるものとしてもよい。関係は、スコアに依存して関係のセットから選択されるものとしてもよい。スコアは、KGEにおける第1のエンティティの埋込み、KGEにおける第2のエンティティの埋込み、及び、KGEにおける関係の埋込みをスコアにマッピングするスコア関数を用いて決定されるものとしてもよい。
【0020】
KGは、所与の第2のエンティティに対する所与の関係を有する第1のエンティティを予測するために使用されるものとしてもよい。第1のエンティティは、スコアに依存してエンティティのセットから選択されるものとしてもよい。スコアは、KGEにおける第1のエンティティの埋込み、KGEにおける所与の第2のエンティティの埋込み、及び、KGEにおける所与の関係の埋込みをスコアにマッピングするスコア関数を用いて決定されるものとしてもよい。
【0021】
埋込みは、ベクトル空間におけるベクトルであるものとしてもよい。スコア関数を用いてスコアを決定するステップは、ベクトル和又はベクトル乗算を決定するステップを含み得る。異なる式が、同様にスコアを決定するために使用されるものとしてもよい。ベクトル和を決定するステップは、関係を表すベクトルを、第1のエンティティを表すベクトルに加算するステップを含むものとしてもよい。スコアを決定するステップは、第2のエンティティを表すベクトルに対するベクトル和の距離を決定するステップを含むものとしてもよい。この距離は、同様に、ベクトル乗算又は異なる式から決定されるものとしてもよい。
【0022】
エンティティの埋込みは、第1のベクトル空間におけるベクトルであるものとしてもよい。関係の埋込みは、第1のベクトル空間又は第2のベクトル空間におけるベクトルであるものとしてもよい。スコアを決定するステップは、第1のベクトル空間における第1のエンティティを表す第1のベクトルと、第2のベクトル空間における第1のベクトルとのマッピングを決定するステップを含み得る。スコアを決定するステップは、第1のベクトル空間における第2のエンティティを表す第2のベクトルと、第2のベクトル空間における第2のベクトルとのマッピングを決定するステップを含むものとしてもよい。スコア関数を用いてスコアを決定するステップは、ベクトル和を決定するステップを含み得る。ベクトル和を決定するステップは、第2のベクトル空間における関係を表すベクトルを第1のベクトルに加算するステップを含み得る。スコアを決定するステップは、第2のベクトルに対するベクトル和の距離を決定することを含み得る。
【0023】
一例においては、この距離は、ユークリッド距離である。
【0024】
KGとの関係を予測するために、2つの所与のエンティティを含む入力は、関係を含む出力にマッピングされるものとしてもよい。関係は、関係のセットから選択されるものとしてもよい。一例においては、選択された関係は、関係のセットの少なくとも他の関係よりも高いスコアとなる。好適には、この関係には、関係のセットの中で最も高いスコアの関係となるものが選択される。
【0025】
KGを用いてエンティティを予測するために、所与のエンティティ及び所定の関係を含む入力が、エンティティを含む出力にマッピングされるものとしてもよい。エンティティは、エンティティのセットから選択されるものとしてもよい。一例においては、選択されたエンティティは、エンティティのセットの少なくとも他のエンティティよりも高いスコアとなる。好適には、このエンティティには、エンティティのセットの中で最も高いスコアのエンティティとなるものが選択される。
【0026】
ニューラルネットワークは、KGEを表現するためにトレーニングされるものとしてもよい。ニューラルネットワークは、埋込みのトリプルを含むトレーニングデータによってトレーニングされるものとしてもよい。トレーニングデータは、KGの真のファクトを表すトリプルを含み得る。トレーニングデータは、KGの真のファクトではないトリプルを表すトリプルも含み得る。
【0027】
ニューラルネットワークは、エンティティのセットの所与の第1のエンティティの第1の埋込みと、所与の第2のエンティティの第2の埋込みとを、関係のセットの関係ごとのスコアにマッピングするようにトレーニングされるものとしてもよい。関係のスコアは、この関係が、所与の第1のエンティティと所与の第2のエンティティとの間の関係であるという関係についての確率を表す。
【0028】
ニューラルネットワークは、所与のエンティティの埋込みと、関係のセットの所与の関係の埋込みとを、エンティティのセットのエンティティごとのスコアにマッピングするようにトレーニングされるものとしてもよい。エンティティのスコアは、このエンティティが、所与のエンティティに対する所与の関係を有するエンティティであるというエンティティについての確率を表す。
【0029】
KGは、自然な質疑応答、ウェブ検索、モノのインターネット、及び、データ分析に広く使用されている。KGは何百万ものファクトに関する情報を格納している。
【0030】
KGは、自動的又は半自動的に構築されるものとしてもよいし、例えば、クラウドソーシング手法の使用によって少なくとも部分的に手動により構築されるものとしてもよい。
【0031】
トレーニングにおいては、KG又はKGE、特にニューラルネットワークは、利用可能な知識を表すために、トレーニングデータを用いてトレーニングすることができる。このトレーニングデータは、真のファクトを表す正のトリプルと、不適正なファクトを表す負のトリプルとを含み得る。
【0032】
KG又はKGE、特にニューラルネットワークは、正のトリプル又は負のトリプルを用いてトレーニングされるものとしてもよい。
【0033】
以下に説明する方法は、不適正なファクトである負のトリプルを提供する体系的な手法を提供する。
【0034】
本方法は、適正なトリプル即ち正のトリプルと、不適正なトリプル即ち負のトリプルとを認識する。
【0035】
KGは、ファクト情報の相互リンクされたコレクションを表す。KGは、トリプル(主語;述語;目的語)のセット、例えば、(john;worksAt;bosch)などとして符号化されるものとしてもよい。そのようなトリプルの主語又は目的語は、エンティティと称され、述語は、関係と称される。KGのトリプルのセットは、頂点及び辺がラベル付けされた有向グラフとして表すことができる。KGのトリプルは、ファクトと称される。KGファクトは、以下のように
man(john),worksAt(john;bosch)
単項又は二項の基底述語として表すことができる。
【0036】
図1は、知識グラフ100を概略的に示す。この知識グラフ100は、複数のエンティティ及び複数の関係を含む。この知識グラフ100からは、以下のような知識グラフファクト、即ち、
(102,120,104)
(110,122,104)
(106,124,102)
(106,128,108)
(110,126,106)
(110,130,108)
(112,132,114)
が利用可能である。本例における知識グラフファクトは、トリプル(X,Y,Z)によって定義され、ここで、Xは主語エンティティを示し、Yは関係を示し、Zは目的語エンティティを示している。
【0037】
本例においては、エンティティ102は「hpi」、エンティティ104は「germany」、エンティティ106は「bob」、エンティティ108は「person」、エンティティ110は「john」、エンティティ112は「bosch」、エンティティ114は「company」である。本例においては、関係120は「locatedIn」、関係122は「livesIn」、関係124は「worksAt」、関係126は「friendOf」、関係128は「type」、関係130は「type」、関係132は「type」、及び、関係134は「locatedIn」である。他のエンティティや他の関係も存在し得る。
【0038】
本例においては、関係134は、偽の予測ファクトである。本例においては、関係120,122,124,126,128,130及び132は真のファクトである。
【0039】
KGは、オントロジを用いて拡張される。オントロジは、それぞれの議論の定義域を実体化する個体、クラス及びプロパティの表現、正式命名、定義を包含する。オントロジは、クラス及び/又はプロパティの正式な明示的記述と、前記クラス及び/又はプロパティに関する公理とを含む。
【0040】
オントロジは、KGにおける不整合を検出又は回避するために提供されるものとしてもよい。不整合とは、例えば、第1のデータセットにおける1つ又は複数のファクトと、オントロジにおける1つ又は複数の公理との間に矛盾が存在することを意味する。
【0041】
図1のKGは、例えば、以下の内容、
【数1】
を含むオントロジOを用いて拡張される。
【0042】
本開示の文脈においては、タイプのセットをクラス名のセットNCと称し、関係のセットをプロパティ名のセットNpと称し、エンティティのセットを個体のセットNIと称する。
【0043】
プロパティ名のセットNpは、関係rdf:typeを含み、これをタイプと称する。
【0044】
KGGは、〈s,o,p〉の形式のトリプルのセットであり、ここで、s∈NI、p∈Np、p≠typeである場合にはo∈NI、そうでない場合にはo∈NCである。
【0045】
KGは、オープンワールド仮定に従っており、即ち、正のファクトの部分のみが格納され得ることを意味する。例えば、
図1のKGが与えられたとき、〈john,type,person〉及び〈john,livesIn,germany〉は、真のKGファクトである。ただし、〈john,worksAt,bosch〉がどちらであるかは、未知である。
【0046】
トリプルαが与えられたとき、Ent(α)は、αに出現するすべてのエンティティのセットを示す。トリプルのセットについては、これは、Ent(G)=Uα∈GEnt(α)のように拡張される。
【0047】
本例におけるオントロジOは、
【数2】
に従って、即ち、DL-Liteの拡張として記述論理により表現された公理のセットである。他の記述論理が同様に使用されるものとしてもよい。記述論理の態様は、Baader,F.,Horrocks,I.,Sattler,U.らによる文献「Description logics.In:Hb.on Ontol.,pp.21-43(2009)」を参照することができる。
【0048】
エンティティのセットを示すクラスC、及び、エンティティ間の二項関係を示す役割Rは、以下の構文
【数3】
に従う。
【0049】
ここで、A,B∈N
Cは原子クラス、P∈N
Pは原子プロパティ、即ち二項関係である。オントロジOは、関係Rの推移性を反映した
【数4】
の形態の公理の有限セットである。
【数5】
においての構文とOWL21への変換の概要は、以下に呈示する。OWL21は、例えば「https://www.w3.org/TR/owl2-overview/」から入手可能である。
【0050】
【0051】
上記において、A;Rはそれぞれクラス名、プロパティ名であり、C及びDはクラス表現であり、P;Sはプロパティ表現であり、a;bはエンティティである。
【0052】
オントロジOで拡張された
図1に示された例示的なKGは、人々とその働く場所に関するドメイン知識を反映している。このオントロジは、(1)「worksAt」関係のドメインは「person」であり、(2)「locatedIn」の範囲は「location」であり、(3)「person」は「location」と非接合であることを明示している。
【0053】
知識グラフ及びオントロジのセマンティクスは、KGにおける矛盾を検出し、これらの説明を提供するために使用されるものとしてもよい。KG及びオントロジのセマンティクスは、解釈I=(ΔI,・I)を介した直接的なモデル理論セマンティクスを使用して定義されており、この解釈I=(ΔI,・I)には、非空集合ΔIと、Iの定義域と、各A∈NCにサブセットAI⊆△Iを割り当て、各R∈NRに二項関係RI⊆△I×△Iを割り当て、各a∈NIに要素aI∈△Iを割り当てる解釈関数・Iとが含まれている。
【0054】
特に複雑なクラス及び役割について、解釈Iは、対応する条件が成立する場合、即ち、
【数6】
の場合、公理αを満たす。
【0055】
KGG及びオントロジOについて、IはG∪Oのモデルであり、即ち、すべての公理α∈G∪Oに対して
【数7】
である場合には、
【数8】
である。G∪Oは、G∪Oのすべてのモデルがαを満たす場合、公理αを内包する、即ち、
【数9】
である。
【0056】
KGGは、G∪Oのモデルが存在しない場合、オントロジOに関して矛盾している。例えば、GのいくつかのファクトがOのいくつかの公理と矛盾する場合、G∪Oは矛盾している。
【0057】
考慮されたオントロジ言語のもとでは、KGの矛盾性は、局所的プロパティを有する。即ち、オントロジOに関するKGについての矛盾性の検査の問題は、Oに関して別個のKGモジュールについての矛盾性を検査することによって還元することができる。
【0058】
KGG及びエンティティe∈Ent(G)が与えられたとき、Gに関するeのモジュールは、M(e;G)={α|α∈Gかつeがαに出現}として定義されるものとしてもよい。Gに出現する個体についてのモジュールのセットは、MG={M(e,G)|e∈Ent(G)}と表す。
【0059】
G∪Oは、M(a,G)∪Oがすべてのa∈Ent(G)に対して整合的であるとき、整合的である。
【0060】
G∪Oの矛盾性についての説明は、εG⊆G及びεO⊆Oを用いたε=εG∪εOによって示される。この説明εは、本例においては、G∪Oの最小の矛盾サブセットである。
【0061】
例えば、関係134を有するファクトを含む
図1のファクトは、オントロジOと矛盾している。これについて考えられる説明は、ε
G={〈bosch,locatedIn,john〉,〈john,type,person〉}及び
【数10】
を用いたε=ε
G∪ε
Oである。
【0062】
本例のKGEは、連続ベクトル空間におけるエンティティ及び関係を埋込みとして、即ちベクトル又は行列により表している。これらの埋込みは、本例においては、スコアリング関数、即ち、f:NI×NP×NIを介して真であるべきトリプルの尤度を推定するために使用される。
【0063】
具体的なスコアリング関数は、種々のベクトル空間の仮定に基づいて定義される。埋込み方法の各仮定が成立する尤度は、KG内のトリプルについての方が、KG外の負のサンプルについてよりも高くなるはずである。学習プロセスは、それぞれの損失関数によって与えられる仮定から誘発される誤差を最小化することによって行われるものとしてもよい。
【0064】
TransEは、Bordes,A.,Usunier,N., Garcia-Duran,A.,Weston,J.,Yakhnenko,O.らによる文献「Translating embedding for modeling multi-relational data. In: NeurIPS. pp. 2787-2795 (2013)」によれば、エンティティ及び関係をベクトルとして埋込み、真のトリプルに対して
【数11】
を想定している。ここで、v
S,v
P,v
Oは、それぞれ主語s、述語p及び目的語oについてのベクトル埋込みである。TransEは、KGEを最適化するために、以下の損失関数
【数12】
を使用する。ここで、f(s,p,o)=-||v
S+v
P-v
O||1並びにS
+及びS
-は、それぞれ正及び負のトレーニングトリプルのセットに対応する。S
+及びS
-は、本例においては、互いに素である。
【0065】
ComplExは、Trouillon,T.,Welbl,J.,Riedel,S.,Gaussier,E.,Bouchard,G.らによる文献「Complex embedding for simple link prediction.In:ICML.pp.2071-2080(2016)」によれば、エンティティをベクトルとして埋込み、関係を行列として埋込み、真のトリプルに対して、主語埋込みv
Sの線形マッピングM
Pが、目的語埋込みv
O:
【数13】
に近いことを想定している。ComplExにおいては、KGEを最適化するために、以下の損失関数
【数14】
を使用し、ここで、f(s,p,o)=v
SM
Pv
O及びl(α,β)=log(1-exp(-αβ))である。
【0066】
KGEは、これらの損失関数のいずれかを用いてトレーニングされるものとしてもよいし、他の損失関数を用いて同様にトレーニングされるものとしてもよい。
【0067】
KGEをトレーニングするための負のサンプルを決定するためのデバイス200は、
図2に概略的に示されている。このデバイス200は、少なくとも1つのストレージと少なくとも1つのプロセッサとを含む。
【0068】
本例においては、ストレージ202は、KG、KGE、オントロジ、正のサンプル及び負のサンプルを格納するように構成されている。
【0069】
本例においては、プロセッサ204は、KGEをトレーニングするための負のサンプルを決定するための方法を実行するように構成されている。この方法は、以下において、
図3を参照しながら説明される。ストレージ202は、プロセッサ204によって実行されるときに、プロセッサ204に当該方法を実行させるコンピュータ可読命令を格納することができる。
【0070】
本方法への入力は、KG302及びオントロジ304である。KG302は、Gであるものとしてもよく、オントロジ304は、Oであるものとしてもよい。本方法の出力は、負のサンプル306-1のセットである。本方法は、同様にKG302から正のサンプル306-2を提供するステップも含む。これらの負のサンプル306-1及び正のサンプル306-2は、少なくとも1つの反復においてKGE308の反復トレーニング及びチューニング中に組み込まれる。
【0071】
KGE308は、任意の埋込み手法、例えば、TransE又はComplExに従って定義されるものとしてもよい。本方法は、KG302及びオントロジ304と整合するトリプルを予測するためにトレーニングされる、拡張されたKGE308を生成することを目的としている。
【0072】
負のサンプル306-1は、少なくとも1つの予測トリプル310に基づき、並びに、KG302及びオントロジ304に関してその矛盾についての説明を表す少なくとも1つのトリプルのセット312に基づき、取得される。
【0073】
本方法は、第1のトレーニング反復において、ステップ1で開始される。このステップ1においては、KGE308のモデルが初期化される。
【0074】
ステップ1においては、負のサンプル306-1が、例えばBordes,A., Usunier,N., Garcia-Duran,A., Weston,J., Yakhnenko,O.らによる文献「Translating embedding for modeling multi-relational data. In: NeurIPS.pp.2787-2795(2013)」によれば、負のサンプリング手法を用いてKG302から決定される。
【0075】
その後、ステップ2が実行される。
【0076】
ステップ2においては、本方法は、KGE308のためのモデルを構築するために、負のサンプル306-1及び正のサンプル306-2を用いた埋込みトレーニングを実行するステップを含む。
【0077】
このKGE308のモデルは、予測を取得し、次のトレーニング反復のための負のサンプルのセットを計算するために使用される。
【0078】
その後、ステップ3が実行される。
【0079】
ステップ3は、KGE308を用いて少なくとも1つの予測トリプル310を決定するステップを含む。
【0080】
少なくとも1つのトリプル310は、知識グラフ302からの主語エンティティ及び目的語エンティティと、知識グラフ302について定義されている関係とを含む。
【0081】
少なくとも1つのトリプル310を予測するステップは、目的語予測及び/又は主語予測を含み得る。本方法は、そのような予測を、トレーニングデータ内のトリプルごとに、又は、トレーニングデータ内の選択されるトリプルのために含み得る。トレーニングデータは、負のサンプル306-1及び正のサンプル306-2を含む。
【0082】
目的語予測においては、目的語oは、トレーニングセット内のトリプルに対して、このトリプルの主語sと述語pとを用いて決定される。好適には、複数の候補目的語が、一貫したトリプルをもたらす目的語であるそれぞれの尤度に従って予測及びランク付けされ、トップにランク付けされた目的語oが複数の目的語から選択される。
【0083】
これらにより、予測トリプル〈s,p,o〉が、KGE308のモデルのそれぞれの予測値として取り出される。
【0084】
主語予測においては、主語sは、トレーニングセット内のトリプルに対して、このトリプルの目的語oと述語pとを用いて決定される。好適には、複数の候補主語が、一貫したトリプルをもたらす主語であるそれぞれの尤度に従って予測及びランク付けされ、トップにランク付けされた主語sが複数の主語から選択される。
【0085】
これらにより、予測トリプル〈s,p,o〉が、KGE308のモデルのそれぞれの予測値として取り出される。
【0086】
本例においては、トレーニングセット内にないトリプルを予測値として考慮する。本例においては、トレーニングセット内にあるトリプルは、予測値ではない。
【0087】
その後、ステップ4が実行される。
【0088】
ステップ4は、知識グラフ302の少なくとも1つのトリプルと、オントロジ304に関して矛盾する少なくとも1つの予測トリプル310とを含ませるようにトリプルのセット312を決定するステップを含む。
【0089】
ステップ4は、矛盾に対する説明のセットを決定し、このセットから説明を選択するステップを含み得る。K個の数の説明が選択されるものとしてもよい。
【0090】
その後、ステップ5が実行される。
【0091】
ステップ5は、目的語予測について、トリプルのセットから、少なくとも1つの予測トリプル310における目的語エンティティのための置換エンティティを決定し、関係、主語エンティティ及び置換エンティティを含むように負のサンプル306-1を決定するステップを含む。
【0092】
目的語エンティティのための置換エンティティを決定するステップは、トリプルのセット312内で目的語エンティティの局所タイプを決定するステップと、目的語エンティティの局所タイプから予め定められた順序内で局所タイプを有する置換エンティティを選択するステップとを含み得る。
【0093】
好適には、目的語エンティティのための置換エンティティは、目的語エンティティを置換エンティティにより置き換えることから生じるトリプルが、少なくとも1つの予測トリプル及び知識グラフ302のトリプルとは異なるように決定される。
【0094】
ステップ5は、主語予測について、トリプル312のセットから、予測トリプル310の少なくとも1つのトリプルにおける主語エンティティのための置換エンティティを決定し、関係、目的語エンティティ及び置換エンティティを含むように、負のサンプル306-1を決定するステップ5を含む。
【0095】
主語エンティティのための置換エンティティを決定するステップは、トリプルのセット312内で主語エンティティの局所タイプを決定するステップと、主語エンティティの局所タイプから予め定められた順序内で局所タイプを有する置換エンティティを選択するステップとを含み得る。
【0096】
あるエンティティの局所タイプは、タイプ-関係を介した他のエンティティ、及び、そのエンティティへの/からの入出力関係も含むタプルとして定義されている。エンティティの局所タイプは、何らかの基準、例えばサブセット-関係に基づいて順序付けることができる。
【0097】
好適には、主語エンティティのための置換エンティティは、主語エンティティを置換エンティティにより置き換えることから生じるトリプルが、少なくとも1つの予測トリプル及び知識グラフ内のトリプルと異なるように決定される。
【0098】
これは、少なくとも1つの予測トリプル310が、意味論的に類似した他のトリプルのための汎化されたトリプルに汎化されることを意味する。この汎化されたトリプルを用いて、負のサンプルの拡張セット306-1が取得される。
【0099】
その後、計算された負のサンプル306-1は、トレーニングに対する入力としてフィードバックされる。好適には、主語予測及び目的語予測のための負のサンプルは、トレーニングのための入力としてフィードバックされる。
【0100】
その後、ステップ2が実行される。
【0101】
ステップ4及び5は、少なくとも1つの予測トリプル310について記載されている。1つよりも多い予測トリプル310は、KG302及びオントロジ304に関して矛盾していることが判明した場合には、これらのトリプルは、同様に処理されるものとしてもよい。
【0102】
好適には、矛盾したトリプルのセットは、トレーニングにおいて予測される。それゆえ、一度、トリプルのための矛盾した予測が識別されると、ステップ5は、その予測から矛盾性パターンを検出し、他の類似の不適正なトリプルを形成するための置換エンティティとして使用されるものとしてもよいKG302のエンティティを取得するために矛盾性パターンを汎化させるステップを含み得る。類似の不適正なトリプルは、実際に検出された矛盾したトリプルに関して汎化されたトリプルである。
【0103】
このようにして、十分な数の負のサンプル306-1が、KGE308のモデルの再トレーニングのために計算される。負のサンプル306-1は、間違って学習されたパターンに関するヒントをKGE308のモデルに与える。これにより、次の反復において同様の不適正なトリプルの予測が回避される。
【0104】
例えば、目的語予測が矛盾した予測トリプル
【数15】
を予測した場合、目的語
【数16】
は、他のエンティティoが目的語
【数17】
と同様のKG近傍を有するような入力KGの他のエンティティoによって置き換えられる。
【0105】
しかしながら、目的語
【数18】
を含むトリプルのサブセットのみにオントロジに関して矛盾が生じる可能性がある。それゆえ、そのサブセットと同様のトリプルを有しているようなエンティティoを発見すれば十分である。これにより、汎化されたトリプルの数が増加する。
【0106】
オントロジに関して矛盾が生じる目的語
【数19】
のトリプルのサブセットを計算するために、ステップ5は、
【数20】
の矛盾に対する説明を決定するステップを含み得る。
【0107】
図1のような例示的なKGG及びオントロジOの場合、予測トリプルはα=〈bosch,locatedIn,john〉であるものとしてもよい。これは、KGEモデル310が、与えられた主語「bosch」と関係「locatedIn」に対して、「john」を目的語エンティティとして予測したことを意味する。Relv(α,G,G)∪Oの矛盾性についての説明は、ε=ε
G∪ε
Oであり、これはε
G={〈bosch,locatedIn,john〉,〈john,type,person〉}及び
【数21】
を成り立たせる。Gには、「john」と同様のトリプルを有する他のエンティティは存在しないことに留意されたい。ただし、Relv(α,G,G)∪Oの矛盾についての説明におけるトリプルに制約されると、「bob」は、「john」と同様の近傍のトリプル〈bob,type,person〉を有することになる。予測トリプルは、この場合無視される。従って、トリプル〈bob,type,person〉は、他の負のサンプルであり、そこにはKGとともにオントロジOに関して矛盾が生じる。
【0108】
汎化されたトリプルを正式に取得するためには、Glimm,B., Kazakov,Y., Liebig,T., Tran,T.K., Vialard,V.らによる文献「ISWC. pp. 180-195 (2014)」、Glimm,B., Kazakov,Y., Tran,T.らによる文献「Ontology materialization by abstraction refinement in horn SHOIF. In: AAAI. pp. 1114-1120 (2017)」、又は、Tran,T., Gad-Elrab,M.H., Stepanova,D., Kharlamov,E., Stroetgen,J.らによる文献「Fast computation of explanations for inconsistency in large-scale kgs. In: WWW 2020. pp. 2613-2619 (2020)」による、エンティティの局所タイプという概念が、例えば、以下のように使用されるものとしてもよい。
【0109】
局所タイプ:Tをトリプルのセットとし、eをT内に出現するエンティティとする。次いで、Tが、コンテキストから明らかな場合、τ(e;T)又はτ(e)として記述されるTに関するeの局所タイプは、タプルτ(e)=〈τ
i(e),τ
c(e),τ
o(e)〉として定義される。ここで、τ
i(e)={p|〈s,p,e〉∈G},τ
c(e)={t|〈e,type,t〉∈G}及びτ
o(e)={p’|〈e,p’,o〉∈G}である。
【数22】
は、局所タイプt=〈t
i,t
c,t
o〉が局所タイプt’=〈t’
i,t’
c,t’
o〉以下であることを示している。
【数23】
は、t
i⊆t’
i,tc⊆t’
c及びt
o⊆t’
oの場合に成立する。
【0110】
エンティティの局所タイプは、タイプのセットτc、並びに、トリプルのセット内のそのエンティティについての入力関係τi及び出力関係τoを表す。
【0111】
図1の例示的なKGの場合、Gに関する「bob」の局所タイプは、τ(bob)=〈{friendOF},{person},{worksAt}〉である。説明ε
G\αに関する「john」の局所タイプは
【数24】
であり、ここでは
【数25】
であることが成立する。
【0112】
汎化されたトリプルは、与えられた矛盾する予測トリプルの汎化されたサンプルとして決定されるものとしてもよい。
【0113】
汎化されたサンプル:以下においては、KG302をGと称し、オントロジ304をOと称し、トリプル310を
【数26】
と称する。ここで、予測目的語
【数27】
は、主語エンティティsと関係pとが与えられたKGE308のモデルによって予測され、矛盾性312の説明は、Relv(α,G)∪Oと称する。予測目的語
【数28】
、説明ε、及び、KGGに関するαの汎化されたサンプルのセットは、GeneralizedSamples
【数29】
として定義される。同様に、予測主語
【数30】
がKGE308のモデルによって予測されているGeneralizedSamples
【数31】
は、
【数32】
として定義される。コンテキストから、いずれのエンティティ、即ち、いずれの主語エンティティ又は目的語エンティティに、汎化されたサンプルが適用されるかが明らかな場合は、対応するエンティティ(例えば{α}∪{bosch,LocatedIn,bob}としてGeneralizedSamples(α))は言及されない。
【0114】
KGGの場合、オントロジOとそのRelv(α,G)∪Oのトリプルαは、説明εG∪εOと矛盾する。GeneralizedSamples(α)は、ε,Gに関するαの汎化されたトリプルのセットであり、α,Relv(β,G)∪Oにおいて出現する一部のエンティティは、β∈GeneralizedSamples(α)に対して矛盾する。
【0115】
反復の汎化されたトリプルは、次の1つ以上の反復においてKGEモデル308を再トレーニングするための負のサンプル306-1として使用されるものとしてもよい。
【0116】
予測トリプルは、マシンの状態、デジタル画像内の目的語のプロパティ、又は、質問に対する回答に関係する場合がある。
【0117】
前述のトリプルは、マシンの状態、デジタル画像内の目的語のプロパティ、又は、質問に対する回答を示す場合がある。
【0118】
知識グラフは、マシンのステータスメッセージのマシン状態へのマッピングに関する知識を表す場合がある。本方法は、ステータスメッセージを受信し、ステータスメッセージに応じてマシン状態を出力することを含み得る。状態は、ステータスを表す主語エンティティとマシン状態を表す目的語エンティティとを含むトリプルが存在するかどうかを、知識グラフ埋込みモデルで予測することによって決定されるものとしてもよい。本方法は、マシン状態を出力することを含み得る。
【0119】
デジタル画像処理の場合、知識グラフは、画像に対する目的語認識において認識された目的語の記述であるものとしてもよい。知識グラフにおけるエンティティは、目的語及び/又はそのプロパティを表すことができる。本方法は、目的語を受信し、目的語に応じた記述を出力することを含み得る。
【0120】
ストリートビューにおいては、目的語は、車、人、家、又は、インフラストラクチャの他の部分であるものとしてもよい。ストリートビューにおいては、知識グラフトリプルは、目的語及び/又は目的語と他の目的語との関係を、特にデジタル画像において記述することができる。本方法は、目的語を受信し、目的語に応じた記述を出力することを含み得る。
【外国語明細書】