(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181196
(43)【公開日】2022-12-07
(54)【発明の名称】ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための装置及びコンピュータ実装された方法
(51)【国際特許分類】
G06N 5/04 20060101AFI20221130BHJP
G06N 20/00 20190101ALI20221130BHJP
G06F 16/901 20190101ALI20221130BHJP
【FI】
G06N5/04
G06N20/00 130
G06F16/901
【審査請求】未請求
【請求項の数】14
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022084323
(22)【出願日】2022-05-24
(31)【優先権主張番号】21175758
(32)【優先日】2021-05-25
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ニティーシャ ヤイン
(72)【発明者】
【氏名】ダリア ステパノワ
(72)【発明者】
【氏名】チュン キエン チャン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175KA12
(57)【要約】 (修正有)
【課題】ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成する。
【解決手段】方法は、ナレッジグラフ100の真のトリプルである少なくとも1つの第1のトリプル212と少なくとも1つの第2のトリプル214を提供し、第1のトリプル及び第2のトリプルを含むトリプルのセット216に応じてナレッジグラフのトリプルを予測するようにナレッジグラフ埋込モデル208を訓練し、ナレッジグラフ埋込モデルによってエンティティ及びリレーションのベクトル表現218を決定し、エンティティ及びリレーションのベクトル表現によって複数のトリプル228を決定し、正しいトリプルを特徴付ける制約を含むオントロジ222を提供して、制約のうちの少なくとも1つの制約に違反するか又は制約のうちの少なくともいくつかの組合せに違反する複数のトリプルのうちの少なくとも1つのトリプル224を、オントロジによって決定する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ナレッジグラフ埋込モデル(208)を訓練するための負のサンプルを自動的に生成するための方法、特にコンピュータ実装された方法において、
ナレッジグラフ(100)の真のトリプルである少なくとも1つの第1のトリプル(212)を提供すること(302)と、
少なくとも1つの第2のトリプル(214)を提供すること(304)と、
前記少なくとも1つの第1のトリプル(212)及び前記少なくとも1つの第2のトリプル(214)を含むトリプルのセット(216)に応じて前記ナレッジグラフ(100)のトリプルを予測するようにナレッジグラフ埋込モデル(208)を訓練すること(306)と、
前記ナレッジグラフ埋込モデル(208)によってエンティティ及びリレーションのベクトル表現(218)を決定すること(308)と、
前記エンティティ及びリレーションのベクトル表現(218)によって複数のトリプル(228)を決定すること(312)と、
正しいトリプルを特徴付ける制約を含むオントロジ(222)を提供すること(310)と、
前記制約のうちの少なくとも1つの制約に違反する又は前記制約のうちの少なくともいくつかの組合せに違反する、前記複数のトリプル(228)のうちの少なくとも1つのトリプル(224)を、前記オントロジによって決定すること(312)と、
を含むことを特徴とする方法。
【請求項2】
前記少なくとも1つのトリプル(224)を決定すること(312)は、前記複数のトリプル(228)のうちの他のトリプルよりも前記ナレッジグラフの事実である尤度が高い、前記複数のトリプル(228)のうちのいくつかのトリプルを選択することを含む、
請求項1に記載の方法。
【請求項3】
特に前記ナレッジグラフ埋込モデル(208)により、前記複数のトリプル(228)のうちの少なくとも1つのトリプルが前記ナレッジグラフ(100)の事実である尤度を決定すること(308)を含む、
請求項2に記載の方法。
【請求項4】
前記少なくとも1つのトリプルを決定すること(312)は、
前記ナレッジグラフからのナレッジグラフの事実であって、第1のエンティティと、参照タイプである参照リレーション又はその表現とを含むナレッジグラフの事実を提供することと、
前記第1のエンティティ及びリレーションを含む、前記複数のトリプルのうちのトリプルを決定することと、
前記リレーションが前記制約に従って許容可能なタイプであるか否かを決定することと、
前記タイプが許容可能でない場合に、前記トリプルが前記制約に違反すると決定することと、
を含む、
請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記少なくとも1つのトリプルを決定すること(312)は、
前記制約に違反するトリプルを含むトリプルのセットを前記複数のトリプルから決定することと、
前記トリプルのセットのうちの前記トリプルとは異なる少なくとも1つのトリプルを前記複数のトリプルから選択することと、
を含む、
請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記ナレッジグラフ埋込モデルを自動的に訓練するために、前記方法は、
第1の反復において、前記少なくとも1つのトリプル(224)を決定する(312)ことと、
前記少なくとも1つのトリプル(224)を第2の反復のための前記トリプルのセット(216)に追加することと、
前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記ナレッジグラフ埋込モデル(208)を訓練すること、及び/又は、前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記少なくとも1つのトリプル(224)を決定することと、
をさらに含む、
請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
ナレッジグラフ埋込モデル(208)を訓練するための負のサンプルを自動的に生成するための装置(200)において、
ナレッジグラフ(100)及び/又は正しいトリプルを特徴付ける制約を含むオントロジ(222)を提供するように構成されたストレージ(220)と、
前記ナレッジグラフ(100)の真のトリプルである少なくとも1つの第1のトリプル(212)を提供し、少なくとも1つの第2のトリプル(214)を提供し、前記少なくとも1つの第1のトリプル(212)及び前記少なくとも1つの第2のトリプル(214)を含むトリプルのセット(216)に応じて前記ナレッジグラフ(100)のトリプルを予測するように前記ナレッジグラフ埋込モデル(208)を訓練し、前記ナレッジグラフ埋込モデル(208)によってエンティティ及びリレーションのベクトル表現(218)を決定する(308)ように構成された機械学習システム(202)と、
前記エンティティ及びリレーションのベクトル表現(218)によって複数のトリプル(228)を決定する(308)ように構成された生成器(204)と、
を備え、
前記生成器(204)は、前記制約のうちの少なくとも1つの制約に違反する又は前記制約のうちの少なくともいくつかの組合せに違反する、前記複数のトリプル(228)のうちの少なくとも1つのトリプル(224)を、前記オントロジ(222)によって決定するように構成されている、
ことを特徴とする装置(200)。
【請求項8】
前記生成器(204)は、前記複数のトリプル(228)のうちの他のトリプルよりも前記ナレッジグラフ(100)の事実である尤度が高い、前記複数のトリプル(228)のうちのいくつかのトリプルを選択するように構成されている、
請求項7に記載の装置(200)。
【請求項9】
特に前記ナレッジグラフ埋込モデル(208)により、前記複数のトリプル(228)のうちの少なくとも1つのトリプルが前記ナレッジグラフ(100)の事実である尤度を決定するように構成された機械学習システム(202)を備えている、
請求項8に記載の装置(200)。
【請求項10】
前記装置は、前記ナレッジグラフ(100)からのナレッジグラフの事実を提供するように構成されたストレージ(206)を備え、
前記ナレッジグラフの事実は、第1のエンティティと、参照タイプである参照リレーション又はその表現とを含み、
前記生成器(204)は、
前記第1のエンティティ及びリレーションを含む、前記複数のトリプルのうちのトリプルを決定し、
前記リレーションが前記制約に従って許容可能なタイプであるか否かを決定し、
前記タイプが許容可能でない場合に、前記トリプルが前記制約に違反すると決定する
ように構成されている、
請求項7乃至9のいずれか一項に記載の装置(200)。
【請求項11】
前記少なくとも1つのトリプル(224)を決定するために、前記生成器(204)は、
前記制約に違反するトリプルを含むトリプルのセットを前記複数のトリプルから決定し、
前記トリプルのセット(216)のうちのトリプルとは異なる少なくとも1つのトリプルを前記複数のトリプル(228)から選択する
ように構成されている、
請求項7乃至10のいずれか一項に記載の装置(200)。
【請求項12】
前記ナレッジグラフ埋込モデル(208)を自動的に訓練するために、前記機械学習システム(202)は、
第1の反復において、前記少なくとも1つのトリプル(224)を決定し、
前記少なくとも1つのトリプル(224)を第2の反復のための前記トリプルのセット(216)に追加し、
前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記ナレッジグラフ埋込モデル(208)を訓練し、及び/又は、前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記少なくとも1つのトリプル(224)を決定する
ようにさらに構成されている、
請求項7乃至11のいずれか一項に記載の装置(200)。
【請求項13】
コンピュータによって実行されるときに、請求項1乃至6のいずれか一項に記載の方法のステップを前記コンピュータに実施させるための命令を含むことを特徴とするコンピュータプログラム。
【請求項14】
請求項13に記載のコンピュータプログラムを記憶している非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
背景
本発明は、ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための装置及び方法に関する。
【背景技術】
【0002】
ナレッジグラフKGを埋め込むための埋込方法は、ナレッジグラフKGの構造を保持しながら、ナレッジグラフKGのエンティティ及びリレーションを低次元ベクトル空間へ埋め込むことを含む。
【0003】
『Wang, Q., Mao, Z., Wang, B., Guo, L.著、「Knowledge graph embedding: A survey of approaches and applications」、IEEE Trans. Knowl. Data Eng. 29 (12), 2724-2743 (2017)』には、このような方法が開示されている。
【0004】
これらの方法は、欠損した(主語、述語、目的語)トリプルを予測することによってナレッジグラフを拡張するKG補完などの種々のKGキュレーションタスクに有用であることが判明している。典型的には、KG埋込モデルの訓練は、正しい(正の)トリプルと正しくない(負の)トリプルとを識別することを目的とする。しかし、ナレッジグラフKGは、欠損したトリプルが偽ではなく未知として扱われるオープンワールド仮定に従っているため、負のトリプルの生成は困難である。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Wang, Q., Mao, Z., Wang, B., Guo, L.著、「Knowledge graph embedding: A survey of approaches and applications」、IEEE Trans. Knowl. Data Eng. 29 (12), 2724-2743 (2017)
【発明の概要】
【発明が解決しようとする課題】
【0006】
発明の開示
負のサンプルは、多くのナレッジグラフ埋込モデルの構築に必要であり、それらが高品質であることの保証が決定的に重要である。即ち、負のサンプルがドメインナレッジを考慮し、利用可能なナレッジ即ちナレッジグラフ及びオントロジに整合する事実の予測へと埋込モデルをガイドすることが重要である。
【課題を解決するための手段】
【0007】
ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための、特にコンピュータ実装された方法は、ナレッジグラフの真のトリプルである少なくとも1つの第1のトリプルを提供することと、少なくとも1つの第2のトリプルを提供することと、少なくとも1つの第1のトリプル及び少なくとも1つの第2のトリプルを含むトリプルのセットに応じてナレッジグラフのトリプルを予測するようにナレッジグラフ埋込モデルを訓練することと、ナレッジグラフ埋込モデルによってエンティティ及びリレーションのベクトル表現を決定することと、エンティティ及びリレーションのベクトル表現によって複数のトリプルを決定することと、正しいトリプルを特徴付ける制約を含むオントロジを提供することと、制約のうちの少なくとも1つの制約に違反する又は制約のうちの少なくともいくつかの組合せに違反する、複数のトリプルのうちの少なくとも1つのトリプルを、オントロジによって決定することと、を含む。1つ以上のこのようなトリプルは、埋込モデルを訓練するための負のサンプルとして使用される。負のサンプルは、ナレッジグラフのエンティティ間の欠損したリレーションの予測に関してナレッジグラフ埋込モデルの精度を向上させるために使用可能である。
【0008】
少なくとも1つのトリプルを決定することは、複数のトリプルのうちの他のトリプルよりもナレッジグラフの事実である尤度が高い、複数のトリプルのうちのいくつかのトリプルを選択することを含み得る。このようにして、可能性のある事実であると機械学習システムによって誤ってみなされる事実が、負のサンプルとして特定される。これらの負のサンプルは、訓練をさらに向上させるために使用可能である。
【0009】
方法は、特にナレッジグラフ埋込モデルにより、複数のトリプルのうちの少なくとも1つのトリプルがナレッジグラフの事実である尤度を決定することを含み得る。このようにして、可能性のある事実を尤度に従ってランク付けすることができる。
【0010】
少なくとも1つのトリプルを決定することは、ナレッジグラフからのナレッジグラフの事実であって、第1のエンティティと、参照タイプである参照リレーション又はその表現とを含むナレッジグラフの事実を提供することと、第1のエンティティ及びリレーションを含む、複数のトリプルのうちのトリプルを決定することと、リレーションが制約に従って許容可能なタイプであるか否かを決定することと、タイプが許容可能でない場合に、トリプルが制約に違反すると決定することと、を含み得る。
【0011】
少なくとも1つのトリプルを決定することは、制約に違反するトリプルを含むトリプルのセットを複数のトリプルから決定することと、トリプルのセットのうちのトリプルとは異なる少なくとも1つのトリプルを複数のトリプルから選択することとを含み得る。よって、新たに作成された負のサンプルは、既に利用可能となっている負のサンプルとは異なる。
【0012】
ナレッジグラフ埋込モデルを自動的に訓練するために、方法は、第1の反復において、少なくとも1つのトリプルを決定することと、少なくとも1つのトリプルを第2の反復のためのトリプルのセットに追加することと、第2の反復において、第2の反復のためのトリプルのセットによってナレッジグラフ埋込モデルを訓練すること、及び/又は、第2の反復において、第2の反復のためのトリプルのセットによって少なくとも1つのトリプルを決定することとをさらに含み得る。生成された負のサンプルの品質が、例えば、負のサンプルの標準的なランダムサンプリングから開始し、これに関してナレッジグラフ埋込モデルを訓練し、次いで、方法の次の反復のための負のサンプル、即ち、少なくとも1つのトリプルを選択するために、ナレッジグラフ埋込モデルによる収斂する予測を利用することにより、反復的に向上する。よって、モデルは、反復的に向上する。
【0013】
ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための装置は、ナレッジグラフ及び/又は正しいトリプルを特徴付ける制約を含むオントロジを提供するように構成されたストレージ(記憶装置)と、ナレッジグラフの真のトリプルである少なくとも1つの第1のトリプルを提供し、少なくとも1つの第2のトリプルを提供し、少なくとも1つの第1のトリプル及び少なくとも1つの第2のトリプルを含むトリプルのセットに応じてナレッジグラフのトリプルを予測するようにナレッジグラフ埋込モデルを訓練し、ナレッジグラフ埋込モデルによってエンティティ及びリレーションのベクトル表現を決定するように構成された機械学習システムと、エンティティ及びリレーションのベクトル表現によって複数のトリプルを決定するように構成された生成器と、を備え、生成器は、制約のうちの少なくとも1つの制約に違反する又は制約のうちの少なくともいくつかの組合せに違反する、複数のトリプルのうちの少なくとも1つのトリプルを、オントロジによって決定するように構成されている。この装置は、ナレッジグラフ及びナレッジグラフに付随するオントロジに依拠して導出される負のサンプルにより、訓練システムを向上させる。
【0014】
生成器は、複数のトリプルのうちの他のトリプルよりもナレッジグラフの事実である尤度が高い、複数のトリプルのうちのいくつかのトリプルを選択するように構成され得る。よって、生成器は、ナレッジグラフ埋込モデルによってナレッジグラフの事実である可能性があると誤ってみなされる負のサンプルを見つける。
【0015】
装置は、特にナレッジグラフ埋込モデルにより、複数のトリプルのうちの少なくとも1つのトリプルがナレッジグラフの事実である尤度を決定するように構成された機械学習システムを備え得る。尤度により、生成器による処理のためにトリプルを自動的にランク付けすることができる。
【0016】
装置は、ナレッジグラフからのナレッジグラフの事実を提供するように構成されたストレージを備え、ナレッジグラフの事実は、第1のエンティティと、参照タイプである参照リレーション又はその表現とを含み、生成器は、第1のエンティティ及びリレーションを含む、複数のトリプルのうちのトリプルを決定し、リレーションが制約に従って許容可能なタイプであるか否かを決定し、タイプが許容可能でない場合に、トリプルが制約に違反すると決定するように構成されている。よって、参照リレーションは、自動的に生成され、トリプルは、参照のタイプに応じて評価される。
【0017】
少なくとも1つのトリプルを決定するために、生成器は、制約に違反するトリプルを含むトリプルのセットを複数のトリプルから決定し、トリプルのセットのうちのトリプルとは異なる少なくとも1つのトリプルを複数のトリプルから選択するように構成され得る。よって、負のサンプルの重複が回避される。
【0018】
ナレッジグラフ埋込モデルを自動的に訓練するために、機械学習システムは、第1の反復において、少なくとも1つのトリプルを決定し、少なくとも1つのトリプルを第2の反復のためのトリプルのセットに追加し、第2の反復において、第2の反復のためのトリプルのセットによってナレッジグラフ埋込モデルを訓練し、及び/又は、第2の反復において、第2の反復のためのトリプルのセットによって少なくとも1つのトリプルを決定するように、さらに構成され得る。よって、ナレッジグラフ埋込モデルは、自動的に生成される。
【0019】
コンピュータプログラムは、コンピュータによって実行されるときに、コンピュータに方法のステップを実施させるための命令を含み得る。非一時的なコンピュータ可読記憶媒体が、当該コンピュータプログラムを記憶しているものとするとよい。
【0020】
さらなる有利な実施形態を、添付の説明及び図面から導出することができる。
【図面の簡単な説明】
【0021】
【発明を実施するための形態】
【0022】
以下の説明は、ナレッジグラフKGに備えられたオントロジを使用し得る、負のトリプルの生成に関する。
【0023】
オントロジは、対象ドメインの概念化であり、ナレッジグラフKGにおいて保持すべき一般的な図式化された制約を記述するものである。
【0024】
オントロジは、負のサンプルの生成、即ち、負のトリプルの生成に際して使用される。
【0025】
埋込モデルを訓練するための例示的な反復法は、以下のように進行する。
【0026】
まず、負のサンプルを生成するための既存の方針を使用して埋込モデルが訓練される。次いで、訓練された埋込モデルがトリプルの予測に使用され、このトリプルにつき、さらに、ナレッジグラフKG及びオントロジの既存データとの整合性が検査される。真又は正しいとみなされる予測されたトリプルを事実として使用することができる。真又は正しいとみなされるナレッジグラフKGのトリプルは、真のトリプル、正しいトリプル又は事実と称される。
【0027】
予測されたトリプルを1つずつ取り出してナレッジグラフKGに追加することができ、オントロジ的な推論を適用して、追加されたトリプルが不整合を生じさせたかどうかを検出することができる。不整合を生じさせた場合、予測されたトリプルは、埋込訓練の次の反復のための負のサンプルとして追加される。
【0028】
説明した手順に従って、最初の反復において埋込モデルによって予測され、ナレッジグラフKG及びそのオントロジに追加される際に不整合をもたらしたトリプルは、次のラウンドの埋込訓練のための負のサンプルとして記憶される。
【0029】
このプロセスは、モデルの訓練が成功して整合する事実のみが予測されるようになるまで、数回の反復にわたって繰り返すことができる。
【0030】
オントロジの形態で形式化されたドメインナレッジは、負のサンプルとして使用可能な予測を自動的に検出するために使用される。
【0031】
ナレッジグラフKG及びオントロジにおける不整合は、例えば、『Tran, T., Gad-Elrab, M. H., Stepanova, D., Kharlamov, E., Stroetgen, J.著、「Fast computation of explanations for inconsistency in large-scale knowledge graphs」 In: WWW’20: The Web Conference 2020, Taipei, Taiwan, April 20-24, 2020, pp.2613-2619 (2020)』に記述されているように決定される。
【0032】
ナレッジグラフKGは、相互にリンクされた事実情報の集合を表現している。ナレッジグラフKGは、例えば、(john;worksAt;bosch)のような、(主語;述語;目的語)トリプルのセットとして符号化することができる。このようなトリプルの主語又は目的語は、エンティティと称され、述語は、リレーションと称される。ナレッジグラフKGのトリプルのセットは、頂点及び辺にラベルを付された有向グラフとして表現することができる。ナレッジグラフKGのトリプルは、事実と称される。ナレッジグラフKGの事実は、man(john),worksAt(john;bosch)のような単項又は二項の基底述語(ground predicate)として表現することができる。
【0033】
ナレッジグラフの埋込KGEは、ナレッジグラフKGのエンティティ及びリレーションを、ユーザが指定した次元nを有する連続ベクトル空間に埋め込むことに関する。より具体的には、KGEモデルは、KGトリプルのセットを入力として受け取り、KG構造を反映するいくつかの特徴が保持されるように、エンティティ及びリレーションをn次元ベクトル空間にマッピングすることを目的とする。これらの特徴は、個別の埋込モデルの目的関数によって取り込まれる。このようにして、関係データから数値ベクトルのセットが得られる。
【0034】
オントロジは、例えば、公理及び/又は公理を含むステートメントを含む、制約のセットとして表現される対象ドメインの概念化である。オントロジは、ナレッジグラフKGが従うべきスキーマを反映する。例えば、
【数1】
である。
【0035】
トリプルは、そのトリプルと制約又は制約の組合せとの和集合が整合しない場合、例えば、制約又は制約の組合せに違反する。
【0036】
例えば、<bosch gmbh,type,Person>、制約「CompanyとPersonとは互いに素である」の場合、<bosch gmbh,type,Company>がナレッジグラフの真のトリプルであると仮定すると、<bosch gmbh,type,Person>は制約に違反する。
【0037】
第1の公理によれば、どこかで働くのは人である。第2の公理は、第1のエンティティが第2のエンティティとlocatedInのリレーションを有する場合、第2のエンティティは、locationのタイプでなければならないことを示す。最後に、最後の公理によれば、locationとpersonとは互いに素である。
【0038】
ナレッジグラフKG及びオントロジのためのモデルが存在しない場合、言い換えれば、オントロジの用語との矛盾、例えば、公理又はステートメントとの矛盾がナレッジグラフKGに存在する場合、ナレッジグラフKGは、オントロジに整合しない。例えば、上述したオントロジOは、事実(john,type,person);(bosch,locatedIn,john)に整合しない。実際に、johnは人であることが既知であり、オントロジの第2の公理により、またオントロジの最後の公理によっても、locationは禁止される。
【0039】
不整合の検査は、ナレッジグラフKG及びオントロジの矛盾を検出する処理である。
【0040】
図1は、ナレッジグラフ100を模式的に示している。ナレッジグラフ100は、複数のエンティティ及び複数のリレーションを含む。以下のようなナレッジグラフの事実が、ナレッジグラフ100から利用可能である。例のナレッジグラフの事実は、Xが主語エンティティ、Yがリレーション、Zが目的語エンティティを示す、トリプル(X,Y,Z)によって定義される。即ち、
(102,120,104)
(110,122,104)
(106,124,102)
(106,128,108)
(110,126,106)
(110,130,108)
(112,132,114)
である。
【0041】
エンティティは、エンティティタイプのセットからのタイプであり得る。このエンティティタイプのセットは、例においては、ナレッジグラフ100の少なくとも1つのエンティティによって表現されている。例においては、エンティティ102は、第1のエンティティタイプであり、エンティティ104及びエンティティ112は、第2のエンティティタイプであり、エンティティ106及びエンティティ110は、第3のエンティティタイプであり、エンティティ108は、第4のエンティティタイプである。第1のエンティティタイプは、例においては“company name”である。第2のエンティティタイプは、例においては“country”である。第3のエンティティタイプは、例においては“first name”である。第4のエンティティタイプは、例においては“type”である。他のエンティティタイプが存在するものとしてもよい。オントロジは、ナレッジグラフKGに存在するエンティティタイプを含み得る。オントロジは、ナレッジグラフKGのエンティティタイプとは異なるエンティティタイプを含むものとしてもよい。
【0042】
リレーションのラベルは、リレーションラベルのセットから選択可能であり得る。このリレーションラベルのセットは、例においては、type、worksAt、friendOf、livesIn、locatedInのラベルを含む。例においては、ラベル“type”は、第4のエンティティタイプである目的語エンティティに主語エンティティを結び付けるためのものである。リレーション128、リレーション130及びリレーション132は、例においては、“type”のラベルを付されている。
【0043】
リーション120には、例においては“locatedIn”のラベルが付されている。リレーション122には、例においては“livesIn”のラベルが付されている。リレーション124には、例においては“worksAt”のラベルが付されている。リレーション126には、例においては“friendOf”のラベルが付されている。他のリレーションタイプ又はラベルを使用するものとしてもよい。オントロジは、ナレッジグラフKGに存在するリレーションタイプ又はそのラベルを含み得る。オントロジは、ナレッジグラフKGのものとは異なるリレーションタイプ又はそのラベルを含むものとしてもよい。
【0044】
ナレッジグラフ100のオントロジは、正しいトリプルを特徴付ける制約を定義し得る。一例においては、負のサンプルは、制約に違反する。オントロジは、正しいトリプルを特徴付ける複数の制約を定義し得る。一例においては、負のサンプルは、複数の制約のうちの1つの制約、複数の制約のうちの複数の制約、又は、複数の制約のうちの全ての制約に違反する。一例においては、負のサンプルは、正しいトリプルを特徴付ける制約のうちの少なくともいくつかの組合せに違反する。正しいトリプルは、例においては、ナレッジグラフ100において許容可能であるトリプルである。例においては、負のサンプルは、ナレッジグラフ100において許容可能でないトリプルであるサンプルである。これは、オントロジが、負のサンプルについて、負のサンプルが満たさない少なくとも1つの制約を定義することを意味する。
【0045】
これは、オントロジが、どのトリプルが許容され、どのトリプルが許容されないかを指定する制約を含むことを意味する。1つの制約又は複数の制約に違反するトリプルが、間違ったトリプルである。
【0046】
例によれば、オントロジは、リレーション“type”によって目的語エンティティに結び付く主語エンティティが、リレーション“type”によって他の目的語エンティティに結び付いてはならないことを定義する。
【0047】
例によれば、リレーション“type”によって目的語エンティティ“company”タイプに結び付く主語エンティティは、リレーション“locatedIn”によって目的語エンティティ“first name”に結び付いてはならない。
【0048】
例えば、トリプル<bosch,locatedIn,thomas>は、“locatedIn”リレーションの目標又は目的語がLocationでなければならないという制約に違反することになる。これは、例えば、ナレッジグラフの他の正しいトリプルによって指定されているように、“thomas”がPersonであるため、制約に違反する。
【0049】
例においては、エンティティ112からエンティティ110へのリレーション134“locatedIn”は、オントロジによれば誤りである。これは、リレーション134を含むトリプル(112,134,110)が負のサンプルであることを意味する。
【0050】
【0051】
装置200は、機械学習システム202と、生成器204と、ストレージ(記憶装置)206と、を備える。
【0052】
装置200は、ナレッジグラフ100に基づいてナレッジグラフ埋込モデル208を訓練するための負のサンプルを自動的に生成するように構成されている。装置200は、ナレッジグラフ埋込モデル208を自動的に訓練するように構成されるものとしてよい。
【0053】
以下の説明においては、事実又はナレッジグラフの事実は、2つのエンティティとリレーションとのトリプル又は特にその数値表現を指す。
【0054】
ストレージ206は、ナレッジグラフ100の少なくとも1つの第1のトリプル212を提供するように構成されている。少なくとも1つの第1のトリプル212は、ナレッジグラフ100に記憶されており、及び/又は、ナレッジグラフ100から導出される。例においては、複数の第1のトリプル212が決定される。
【0055】
生成器204は、少なくとも1つの第2のトリプル214を提供するように構成されている。
【0056】
機械学習システム202は、少なくとも1つの第1のトリプル212及び少なくとも1つの第2のトリプル214を含むトリプルのセット216に応じてナレッジグラフ100の事実を予測すべくナレッジグラフ埋込モデル208を訓練するように構成されている。
【0057】
機械学習システム202は、ナレッジグラフ埋込モデル208によってエンティティ及びリレーションの複数のベクトル表現218を決定するように構成されている。
【0058】
装置200は、負のサンプルを特徴付ける複数の制約を含むオントロジ222を提供するように構成されたストレージ(記憶装置)220を備える。
【0059】
生成器204は、正しいトリプルを特徴付ける少なくとも1つの制約に違反する少なくとも1つのトリプル224を決定するように構成され得る。
【0060】
生成器204は、正しいトリプルを特徴付ける制約のうちの少なくともいくつかの組合せに違反する少なくとも1つのトリプル224のために構成されるものとしてもよい。
【0061】
例の機械学習システム202は、第1の反復において、事実のセット216によって少なくとも1つのトリプル224を決定するように構成されている。例の機械学習システム202は、少なくとも1つのトリプル224を第2の反復のための事実のセット216に追加するように構成されている。
【0062】
例の機械学習システム202は、第2の反復において、ナレッジグラフ埋込モデル208を訓練するように構成されている。
【0063】
例の機械学習システム202は、第2の反復において、第2の反復のための事実のセット216によって少なくとも1つのトリプル224を決定するように構成されている。
【0064】
生成器204は、セレクタ226により、エンティティ及びリレーションのベクトル表現218から得られた他のトリプルよりもナレッジグラフ100の事実である尤度が高い、エンティティ及びリレーションのベクトル表現218から得られたいくつかのトリプル228を選択するように構成され得る。
【0065】
機械学習システム202は、特にナレッジグラフ埋込モデル208により、エンティティ及びリレーションの複数のベクトル表現218における少なくとも1つのトリプルがナレッジグラフ100の事実である尤度を決定するように構成され得る。
【0066】
生成器204は、推論器230により、いくつかのトリプル228から少なくとも1つの第3のトリプル224を決定するように構成され得る。例えば、推論器230は、いくつかのトリプルから少なくとも1つの第3のトリプル224を選択するためにオントロジの用語を処理するように構成されている。
【0067】
少なくとも1つの第2のトリプル214を決定するために、生成器204は、少なくとも1つの第2のトリプル214の2つのエンティティをエンティティからサンプリングするように、及び/又は、2つのエンティティ間のリレーションをナレッジグラフ100のリレーションからサンプリングするように構成されるものとしてよい。
【0068】
少なくとも1つの第2のトリプル214を決定するために、生成器204は、少なくとも1つの第2のトリプル214の2つのエンティティの表現をナレッジグラフ100のエンティティの表現からサンプリングするように、及び/又は、2つのエンティティ間のリレーションをナレッジグラフ100のリレーションの表現からサンプリングするように構成されるものとしてもよい。
【0069】
装置200は、ナレッジグラフ100及びオントロジ222を使用して、負のサンプルを識別するように構成され得る。
【0070】
ストレージ206は、一例においては、ナレッジグラフ100からのナレッジグラフの事実を提供するように構成され得る。このナレッジグラフの事実は、第1のエンティティと参照リレーション又はその表現とを含む。参照リレーションは、参照タイプである。生成器204は、第1のエンティティ及びリレーションを含む、複数のトリプルのうちのトリプルを決定するように構成され得る。生成器204は、リレーションが制約に従って許容可能なタイプであるか否かを決定するように構成され得る。生成器204は、タイプが許容可能でない場合、トリプルが制約又は制約のうちの少なくともいくつかの組合せに違反すると決定するように構成され得る。これは、トリプルが、ナレッジグラフの事実と同じ第1のエンティティを含むことを意味する。これは、トリプルが、オントロジによれば、参照リレーションのリレーションタイプと互換性のないリレーションタイプを含むことを意味する。従って、トリプルは、負のサンプルとなる。
【0071】
ナレッジグラフ埋込モデル208を訓練するための負のサンプルを自動的に生成するための方法、特にコンピュータ実装された方法について、
図3を参照しながら、以下に説明する。負のサンプルによって反復的に訓練するために、方法は、任意選択手段としてのステップを含む。
【0072】
方法においては、ステップ302が実行される。
【0073】
ステップ302においては、ナレッジグラフ100の少なくとも1つの第1のトリプル212が提供される。例においては、複数の第1のトリプル212が提供される。
【0074】
その後、ステップ304が実行される。
【0075】
ステップ304においては、少なくとも1つの第2のトリプル214が提供される。
【0076】
少なくとも1つの第2のトリプル214は、ナレッジグラフ100から最初のステップで決定されるものとしてもよい。
【0077】
一例においては、2つのエンティティがエンティティから特にランダムにサンプリングされ、リレーションがナレッジグラフのリレーションからサンプリングされる。少なくとも1つの第2のトリプル214は、この例においては、第1のエンティティとリレーションと第2のエンティティとを含む。
【0078】
その後、ステップ306が実行される。
【0079】
ステップ306においては、ナレッジグラフ埋込モデル208が、少なくとも1つの第1のトリプル212及び少なくとも1つの第2のトリプル214を含むトリプルのセット216に応じて、ナレッジグラフ100の事実を予測するように訓練される。
【0080】
ナレッジグラフ埋込モデル208は、主語エンティティの埋込、例えばベクトルを、リレーションの埋込、例えばベクトル又は行列により、ベクトル空間内の他の埋込に対して線形にマッピングするように構成され得る。既存のナレッジグラフのトリプルの場合、主語エンティティの埋込がマッチング関数に一致する埋込は、予測された目的語エンティティを表現する。マッチング関数は、トリプルが真であるか否かを認定する手段を提供する。マッチング関数は、例えば、ベクトル加算又はベクトル乗算を含み得る。訓練の目標は、リレーションの埋込により、主語エンティティの埋込を、ナレッジグラフのトリプルからの目的語エンティティの埋込に可能な限り近い予測された目的語エンティティの埋込に一致させることであるものとし得る。対応する損失関数は、予測された目的語とナレッジグラフの事実の目的語との間の距離に関する距離メトリックを含み得る。方法は、このタイプの訓練に限定されるものではない。
【0081】
その後、ステップ308が実行される。
【0082】
ステップ308においては、エンティティ及びリレーションの複数のベクトル表現218が、特にトリプルのセット216に応じて、ナレッジグラフ埋込モデル208によって決定される。
【0083】
その後、ステップ310が実行される。
【0084】
ステップ310においては、ナレッジグラフ100の負のサンプルを特徴付ける複数の制約を含むオントロジが提供され、例えば、ストレージ220から読み出される。
【0085】
その後、ステップ312が実行される。
【0086】
ステップ312においては、少なくとも1つのトリプル224が、エンティティ及びリレーションの複数のベクトル表現218によって決定される。
【0087】
例においては、正しいトリプルのための制約のうちの少なくとも1つの制約に違反する、又は、制約のうちの少なくともいくつかの組合せに違反する、複数のトリプル228のうちのトリプルが、負のサンプルである。
【0088】
一例においては、正しいトリプルのための少なくとも1つの制約に違反する少なくとも1つのトリプル224が決定される。一例においては、制約のうちの少なくともいくつかの組合せに違反する少なくとも1つのトリプル224が決定される。
【0089】
少なくとも1つのトリプル224を決定することは、例においては、エンティティ及びリレーションの複数のベクトル表現218における少なくとも1つのトリプルがナレッジグラフ100の事実である尤度を決定することを含む。この尤度は、一例においては、ナレッジグラフ埋込モデル208によって決定されるスコアである。例においては、ナレッジグラフ埋込モデル208は、各予測のスコアと共に予測を提供する。トリプルは、例においては、スコアによってランク付けされる。
【0090】
少なくとも1つのトリプル224を決定することは、例においては、エンティティ及びリレーションの複数のベクトル表現218における他のトリプルよりもナレッジグラフ100の事実である尤度が高い、エンティティ及びリレーションの複数のベクトル表現218におけるいくつかのトリプルを選択することを含む。
【0091】
トリプルのランク付けは、尤度によってソートされたm個のトリプルから、最も高い尤度を有するk個の事実を選択することを含み得る。
【0092】
少なくとも1つのトリプルを決定することは、エンティティ及びリレーションの複数のベクトル表現218から、事実のセット216のトリプルとは異なる少なくとも1つのトリプルを選択することを含み得る。これにより、訓練における負のサンプルの重複が回避される。
【0093】
少なくとも1つのトリプル224は、選択されたトリプルから決定され得る。
【0094】
少なくとも1つのトリプル224は、後述するようにナレッジグラフ100から決定されるナレッジグラフのトリプルに基づいて決定されるものとしてもよい。
【0095】
一例においては、エンティティから2つのエンティティが特にランダムにサンプリングされ、ナレッジグラフのリレーションからリレーションがサンプリングされる。結果として得られるナレッジグラフのトリプルは、第1のエンティティとリレーションと第2のエンティティとを含む。
【0096】
方法は、第1のエンティティに応じて、特に、第1のエンティティのベクトル表現に基づいて、エンティティ及びリレーションの複数のベクトル表現218における候補トリプルを見つけることを含み得る。候補トリプルは、例えば、エンティティ及びリレーションの複数のベクトル表現218からサンプリングされる。
【0097】
方法は、ナレッジグラフのトリプルに基づいて、候補トリプルが正しいトリプルのための少なくとも1つの制約に違反するか否かを決定することを含み得る。リレーションは、参照リレーションとして使用することもできる。
【0098】
方法は、リレーションが制約に従って許容可能でない場合に、候補トリプルが正しいトリプルのための制約に違反すると決定することを含み得る。
【0099】
少なくとも1つのトリプル224は、この例においては、正しいトリプルのための少なくとも1つの制約に違反する候補トリプルである。
【0100】
少なくとも1つのトリプル224は、制約のうちの少なくともいくつかの組合せに違反する候補トリプルであるものとしてよい。
【0101】
任意選択手段として、ステップ302乃至312は、さらなる負のサンプルを決定するために訓練なしで繰り返される。
【0102】
任意選択手段として、ナレッジグラフ埋込モデル208を反復的に自動的に訓練するために、その後、ステップ314が実行される。
【0103】
ステップ314においては、少なくとも1つのトリプル224がトリプルのセット216に追加される。
【0104】
その後、ステップ302が実行される。
【0105】
これは、ナレッジグラフ埋込モデル208が、このように修正されたセットによって再び訓練されることを意味する。これは、このようにして再び訓練されたナレッジグラフ埋込モデル208に基づいて、少なくとも1つのトリプル224が決定されることを意味する。
【0106】
ステップ312で少なくとも1つのトリプル224を決定することは、ナレッジグラフ100からナレッジグラフのトリプルを提供することを含み得る。
【0107】
ナレッジグラフのトリプルは、第1のエンティティと、参照リレーション又はその表現とを含み得る。
【0108】
方法は、例えば、ナレッジグラフ埋込モデル208によって予測された複数のトリプルが、ナレッジグラフ及びオントロジに関する不整合をもはやもたらさなくなるまで繰り返される。
【0109】
予測されたトリプルは、マシンの状態、デジタル画像中のオブジェクトの特性、又は、質問に対する回答に関するものであってよい。
【0110】
前述のトリプルは、マシンの状態、デジタル画像中のオブジェクトの特性、又は、質問に対する回答を示すことができる。
【0111】
ナレッジグラフは、マシン状態に対するマシン状態メッセージのマッピングに関するナレッジを表現することもできる。方法は、状態メッセージを受信することと、状態メッセージに応じてマシン状態を出力することとを含み得る。状態を表現する主語エンティティ及びマシン状態を表す目的語エンティティを含むトリプルが存在するか否かをナレッジグラフ埋込モデルにより予測することによって、状態が決定され得る。方法は、マシン状態を出力することを含み得る。
【0112】
デジタル画像処理の場合、ナレッジグラフは、画像のためのオブジェクト認識により認識されたオブジェクトの記述であるものとしてよい。ナレッジグラフのエンティティは、オブジェクト及び/又はその特性を表現するものであり得る。方法は、オブジェクトを受信することと、オブジェクトに応じて記述を出力することとを含み得る。
【0113】
ストリートビューの場合、オブジェクトは、車、人、家、又は、インフラストラクチャの他の部分であるものとしてよい。ストリートビューの場合、ナレッジグラフのトリプルは、特にデジタル画像中の、オブジェクト及び/又は他のオブジェクトとのオブジェクトのリレーションを記述することができる。方法は、オブジェクトを受信することと、オブジェクトに応じて記述を出力することとを含み得る。
【手続補正書】
【提出日】2022-08-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ナレッジグラフ埋込モデル(208)を訓練するための負のサンプルを自動的に生成するための方法、特にコンピュータ実装された方法において、
ナレッジグラフ(100)の真のトリプルである少なくとも1つの第1のトリプル(212)を提供すること(302)と、
少なくとも1つの第2のトリプル(214)を提供すること(304)と、
前記少なくとも1つの第1のトリプル(212)及び前記少なくとも1つの第2のトリプル(214)を含むトリプルのセット(216)に応じて前記ナレッジグラフ(100)のトリプルを予測するようにナレッジグラフ埋込モデル(208)を訓練すること(306)と、
前記ナレッジグラフ埋込モデル(208)によってエンティティ及びリレーションのベクトル表現(218)を決定すること(308)と、
前記エンティティ及びリレーションのベクトル表現(218)によって複数のトリプル(228)を決定すること(312)と、
正しいトリプルを特徴付ける制約を含むオントロジ(222)を提供すること(310)と、
前記制約のうちの少なくとも1つの制約に違反する又は前記制約のうちの少なくともいくつかの組合せに違反する、前記複数のトリプル(228)のうちの少なくとも1つのトリプル(224)を、前記オントロジによって決定すること(312)と、
を含むことを特徴とする方法。
【請求項2】
前記少なくとも1つのトリプル(224)を決定すること(312)は、前記複数のトリプル(228)のうちの他のトリプルよりも前記ナレッジグラフの事実である尤度が高い、前記複数のトリプル(228)のうちのいくつかのトリプルを選択することを含む、
請求項1に記載の方法。
【請求項3】
特に前記ナレッジグラフ埋込モデル(208)により、前記複数のトリプル(228)のうちの少なくとも1つのトリプルが前記ナレッジグラフ(100)の事実である尤度を決定すること(308)を含む、
請求項2に記載の方法。
【請求項4】
前記少なくとも1つのトリプルを決定すること(312)は、
前記ナレッジグラフからのナレッジグラフの事実であって、第1のエンティティと、参照タイプである参照リレーション又はその表現とを含むナレッジグラフの事実を提供することと、
前記第1のエンティティ及びリレーションを含む、前記複数のトリプルのうちのトリプルを決定することと、
前記リレーションが前記制約に従って許容可能なタイプであるか否かを決定することと、
前記タイプが許容可能でない場合に、前記トリプルが前記制約に違反すると決定することと、
を含む、
請求項1に記載の方法。
【請求項5】
前記少なくとも1つのトリプルを決定すること(312)は、
前記制約に違反するトリプルを含むトリプルのセットを前記複数のトリプルから決定することと、
前記トリプルのセットのうちの前記トリプルとは異なる少なくとも1つのトリプルを前記複数のトリプルから選択することと、
を含む、
請求項1に記載の方法。
【請求項6】
前記ナレッジグラフ埋込モデルを自動的に訓練するために、前記方法は、
第1の反復において、前記少なくとも1つのトリプル(224)を決定する(312)ことと、
前記少なくとも1つのトリプル(224)を第2の反復のための前記トリプルのセット(216)に追加することと、
前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記ナレッジグラフ埋込モデル(208)を訓練すること、及び/又は、前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記少なくとも1つのトリプル(224)を決定することと、
をさらに含む、
請求項1に記載の方法。
【請求項7】
ナレッジグラフ埋込モデル(208)を訓練するための負のサンプルを自動的に生成するための装置(200)において、
ナレッジグラフ(100)及び/又は正しいトリプルを特徴付ける制約を含むオントロジ(222)を提供するように構成されたストレージ(220)と、
前記ナレッジグラフ(100)の真のトリプルである少なくとも1つの第1のトリプル(212)を提供し、少なくとも1つの第2のトリプル(214)を提供し、前記少なくとも1つの第1のトリプル(212)及び前記少なくとも1つの第2のトリプル(214)を含むトリプルのセット(216)に応じて前記ナレッジグラフ(100)のトリプルを予測するように前記ナレッジグラフ埋込モデル(208)を訓練し、前記ナレッジグラフ埋込モデル(208)によってエンティティ及びリレーションのベクトル表現(218)を決定する(308)ように構成された機械学習システム(202)と、
前記エンティティ及びリレーションのベクトル表現(218)によって複数のトリプル(228)を決定する(308)ように構成された生成器(204)と、
を備え、
前記生成器(204)は、前記制約のうちの少なくとも1つの制約に違反する又は前記制約のうちの少なくともいくつかの組合せに違反する、前記複数のトリプル(228)のうちの少なくとも1つのトリプル(224)を、前記オントロジ(222)によって決定するように構成されている、
ことを特徴とする装置(200)。
【請求項8】
前記生成器(204)は、前記複数のトリプル(228)のうちの他のトリプルよりも前記ナレッジグラフ(100)の事実である尤度が高い、前記複数のトリプル(228)のうちのいくつかのトリプルを選択するように構成されている、
請求項7に記載の装置(200)。
【請求項9】
特に前記ナレッジグラフ埋込モデル(208)により、前記複数のトリプル(228)のうちの少なくとも1つのトリプルが前記ナレッジグラフ(100)の事実である尤度を決定するように構成された機械学習システム(202)を備えている、
請求項8に記載の装置(200)。
【請求項10】
前記装置は、前記ナレッジグラフ(100)からのナレッジグラフの事実を提供するように構成されたストレージ(206)を備え、
前記ナレッジグラフの事実は、第1のエンティティと、参照タイプである参照リレーション又はその表現とを含み、
前記生成器(204)は、
前記第1のエンティティ及びリレーションを含む、前記複数のトリプルのうちのトリプルを決定し、
前記リレーションが前記制約に従って許容可能なタイプであるか否かを決定し、
前記タイプが許容可能でない場合に、前記トリプルが前記制約に違反すると決定する
ように構成されている、
請求項7に記載の装置(200)。
【請求項11】
前記少なくとも1つのトリプル(224)を決定するために、前記生成器(204)は、
前記制約に違反するトリプルを含むトリプルのセットを前記複数のトリプルから決定し、
前記トリプルのセット(216)のうちのトリプルとは異なる少なくとも1つのトリプルを前記複数のトリプル(228)から選択する
ように構成されている、
請求項7に記載の装置(200)。
【請求項12】
前記ナレッジグラフ埋込モデル(208)を自動的に訓練するために、前記機械学習システム(202)は、
第1の反復において、前記少なくとも1つのトリプル(224)を決定し、
前記少なくとも1つのトリプル(224)を第2の反復のための前記トリプルのセット(216)に追加し、
前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記ナレッジグラフ埋込モデル(208)を訓練し、及び/又は、前記第2の反復において、前記第2の反復のための前記トリプルのセット(216)によって前記少なくとも1つのトリプル(224)を決定する
ようにさらに構成されている、
請求項7に記載の装置(200)。
【請求項13】
コンピュータによって実行されるときに、請求項1に記載の方法のステップを前記コンピュータに実施させるための命令を含むことを特徴とするコンピュータプログラム。
【請求項14】
請求項13に記載のコンピュータプログラムを記憶している非一時的なコンピュータ可読記憶媒体。
【外国語明細書】