特開2022-181196 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト　ボツシユ　ゲゼルシヤフト　ミツト　ベシユレンクテル　ハフツングの特許一覧

特開2022-181196ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための装置及びコンピュータ実装された方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022181196

(43)【公開日】2022-12-07

(54)【発明の名称】ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための装置及びコンピュータ実装された方法

(51)【国際特許分類】

G06N 5/04 20060101AFI20221130BHJP

G06N 20/00 20190101ALI20221130BHJP

G06F 16/901 20190101ALI20221130BHJP

【ＦＩ】

G06N5/04

G06N20/00 130

G06F16/901

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022084323

(22)【出願日】2022-05-24

(31)【優先権主張番号】21175758

(32)【優先日】2021-05-25

(33)【優先権主張国・地域又は機関】EP

(71)【出願人】

【識別番号】390023711

【氏名又は名称】ローベルトボツシユゲゼルシヤフトミツトベシユレンクテルハフツング

【氏名又は名称原語表記】ＲＯＢＥＲＴＢＯＳＣＨＧＭＢＨ

【住所又は居所原語表記】Ｓｔｕｔｔｇａｒｔ，Ｇｅｒｍａｎｙ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ニティーシャヤイン

(72)【発明者】

【氏名】ダリアステパノワ

(72)【発明者】

【氏名】チュンキエンチャン

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175KA12

(57)【要約】（修正有）

【課題】ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成する。
【解決手段】方法は、ナレッジグラフ１００の真のトリプルである少なくとも１つの第１のトリプル２１２と少なくとも１つの第２のトリプル２１４を提供し、第１のトリプル及び第２のトリプルを含むトリプルのセット２１６に応じてナレッジグラフのトリプルを予測するようにナレッジグラフ埋込モデル２０８を訓練し、ナレッジグラフ埋込モデルによってエンティティ及びリレーションのベクトル表現２１８を決定し、エンティティ及びリレーションのベクトル表現によって複数のトリプル２２８を決定し、正しいトリプルを特徴付ける制約を含むオントロジ２２２を提供して、制約のうちの少なくとも１つの制約に違反するか又は制約のうちの少なくともいくつかの組合せに違反する複数のトリプルのうちの少なくとも１つのトリプル２２４を、オントロジによって決定する。
【選択図】図２

【特許請求の範囲】

【請求項1】

ナレッジグラフ埋込モデル（２０８）を訓練するための負のサンプルを自動的に生成するための方法、特にコンピュータ実装された方法において、
ナレッジグラフ（１００）の真のトリプルである少なくとも１つの第１のトリプル（２１２）を提供すること（３０２）と、
少なくとも１つの第２のトリプル（２１４）を提供すること（３０４）と、
前記少なくとも１つの第１のトリプル（２１２）及び前記少なくとも１つの第２のトリプル（２１４）を含むトリプルのセット（２１６）に応じて前記ナレッジグラフ（１００）のトリプルを予測するようにナレッジグラフ埋込モデル（２０８）を訓練すること（３０６）と、
前記ナレッジグラフ埋込モデル（２０８）によってエンティティ及びリレーションのベクトル表現（２１８）を決定すること（３０８）と、
前記エンティティ及びリレーションのベクトル表現（２１８）によって複数のトリプル（２２８）を決定すること（３１２）と、
正しいトリプルを特徴付ける制約を含むオントロジ（２２２）を提供すること（３１０）と、
前記制約のうちの少なくとも１つの制約に違反する又は前記制約のうちの少なくともいくつかの組合せに違反する、前記複数のトリプル（２２８）のうちの少なくとも１つのトリプル（２２４）を、前記オントロジによって決定すること（３１２）と、
を含むことを特徴とする方法。

【請求項2】

前記少なくとも１つのトリプル（２２４）を決定すること（３１２）は、前記複数のトリプル（２２８）のうちの他のトリプルよりも前記ナレッジグラフの事実である尤度が高い、前記複数のトリプル（２２８）のうちのいくつかのトリプルを選択することを含む、
請求項１に記載の方法。

【請求項3】

特に前記ナレッジグラフ埋込モデル（２０８）により、前記複数のトリプル（２２８）のうちの少なくとも１つのトリプルが前記ナレッジグラフ（１００）の事実である尤度を決定すること（３０８）を含む、
請求項２に記載の方法。

【請求項4】

前記少なくとも１つのトリプルを決定すること（３１２）は、
前記ナレッジグラフからのナレッジグラフの事実であって、第１のエンティティと、参照タイプである参照リレーション又はその表現とを含むナレッジグラフの事実を提供することと、
前記第１のエンティティ及びリレーションを含む、前記複数のトリプルのうちのトリプルを決定することと、
前記リレーションが前記制約に従って許容可能なタイプであるか否かを決定することと、
前記タイプが許容可能でない場合に、前記トリプルが前記制約に違反すると決定することと、
を含む、
請求項１乃至３のいずれか一項に記載の方法。

【請求項5】

前記少なくとも１つのトリプルを決定すること（３１２）は、
前記制約に違反するトリプルを含むトリプルのセットを前記複数のトリプルから決定することと、
前記トリプルのセットのうちの前記トリプルとは異なる少なくとも１つのトリプルを前記複数のトリプルから選択することと、
を含む、
請求項１乃至４のいずれか一項に記載の方法。

【請求項6】

前記ナレッジグラフ埋込モデルを自動的に訓練するために、前記方法は、
第１の反復において、前記少なくとも１つのトリプル（２２４）を決定する（３１２）ことと、
前記少なくとも１つのトリプル（２２４）を第２の反復のための前記トリプルのセット（２１６）に追加することと、
前記第２の反復において、前記第２の反復のための前記トリプルのセット（２１６）によって前記ナレッジグラフ埋込モデル（２０８）を訓練すること、及び／又は、前記第２の反復において、前記第２の反復のための前記トリプルのセット（２１６）によって前記少なくとも１つのトリプル（２２４）を決定することと、
をさらに含む、
請求項１乃至５のいずれか一項に記載の方法。

【請求項7】

ナレッジグラフ埋込モデル（２０８）を訓練するための負のサンプルを自動的に生成するための装置（２００）において、
ナレッジグラフ（１００）及び／又は正しいトリプルを特徴付ける制約を含むオントロジ（２２２）を提供するように構成されたストレージ（２２０）と、
前記ナレッジグラフ（１００）の真のトリプルである少なくとも１つの第１のトリプル（２１２）を提供し、少なくとも１つの第２のトリプル（２１４）を提供し、前記少なくとも１つの第１のトリプル（２１２）及び前記少なくとも１つの第２のトリプル（２１４）を含むトリプルのセット（２１６）に応じて前記ナレッジグラフ（１００）のトリプルを予測するように前記ナレッジグラフ埋込モデル（２０８）を訓練し、前記ナレッジグラフ埋込モデル（２０８）によってエンティティ及びリレーションのベクトル表現（２１８）を決定する（３０８）ように構成された機械学習システム（２０２）と、
前記エンティティ及びリレーションのベクトル表現（２１８）によって複数のトリプル（２２８）を決定する（３０８）ように構成された生成器（２０４）と、
を備え、
前記生成器（２０４）は、前記制約のうちの少なくとも１つの制約に違反する又は前記制約のうちの少なくともいくつかの組合せに違反する、前記複数のトリプル（２２８）のうちの少なくとも１つのトリプル（２２４）を、前記オントロジ（２２２）によって決定するように構成されている、
ことを特徴とする装置（２００）。

【請求項8】

前記生成器（２０４）は、前記複数のトリプル（２２８）のうちの他のトリプルよりも前記ナレッジグラフ（１００）の事実である尤度が高い、前記複数のトリプル（２２８）のうちのいくつかのトリプルを選択するように構成されている、
請求項７に記載の装置（２００）。

【請求項9】

特に前記ナレッジグラフ埋込モデル（２０８）により、前記複数のトリプル（２２８）のうちの少なくとも１つのトリプルが前記ナレッジグラフ（１００）の事実である尤度を決定するように構成された機械学習システム（２０２）を備えている、
請求項８に記載の装置（２００）。

【請求項10】

前記装置は、前記ナレッジグラフ（１００）からのナレッジグラフの事実を提供するように構成されたストレージ（２０６）を備え、
前記ナレッジグラフの事実は、第１のエンティティと、参照タイプである参照リレーション又はその表現とを含み、
前記生成器（２０４）は、
前記第１のエンティティ及びリレーションを含む、前記複数のトリプルのうちのトリプルを決定し、
前記リレーションが前記制約に従って許容可能なタイプであるか否かを決定し、
前記タイプが許容可能でない場合に、前記トリプルが前記制約に違反すると決定する
ように構成されている、
請求項７乃至９のいずれか一項に記載の装置（２００）。

【請求項11】

前記少なくとも１つのトリプル（２２４）を決定するために、前記生成器（２０４）は、
前記制約に違反するトリプルを含むトリプルのセットを前記複数のトリプルから決定し、
前記トリプルのセット（２１６）のうちのトリプルとは異なる少なくとも１つのトリプルを前記複数のトリプル（２２８）から選択する
ように構成されている、
請求項７乃至１０のいずれか一項に記載の装置（２００）。

【請求項12】

前記ナレッジグラフ埋込モデル（２０８）を自動的に訓練するために、前記機械学習システム（２０２）は、
第１の反復において、前記少なくとも１つのトリプル（２２４）を決定し、
前記少なくとも１つのトリプル（２２４）を第２の反復のための前記トリプルのセット（２１６）に追加し、
前記第２の反復において、前記第２の反復のための前記トリプルのセット（２１６）によって前記ナレッジグラフ埋込モデル（２０８）を訓練し、及び／又は、前記第２の反復において、前記第２の反復のための前記トリプルのセット（２１６）によって前記少なくとも１つのトリプル（２２４）を決定する
ようにさらに構成されている、
請求項７乃至１１のいずれか一項に記載の装置（２００）。

【請求項13】

コンピュータによって実行されるときに、請求項１乃至６のいずれか一項に記載の方法のステップを前記コンピュータに実施させるための命令を含むことを特徴とするコンピュータプログラム。

【請求項14】

請求項１３に記載のコンピュータプログラムを記憶している非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

背景
本発明は、ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための装置及び方法に関する。

【背景技術】

【0002】

ナレッジグラフＫＧを埋め込むための埋込方法は、ナレッジグラフＫＧの構造を保持しながら、ナレッジグラフＫＧのエンティティ及びリレーションを低次元ベクトル空間へ埋め込むことを含む。

【0003】

『Wang, Q., Mao, Z., Wang, B., Guo, L.著、「Knowledge graph embedding: A survey of approaches and applications」、IEEE Trans. Knowl. Data Eng. 29 (12), 2724-2743 (2017)』には、このような方法が開示されている。

【0004】

これらの方法は、欠損した（主語、述語、目的語）トリプルを予測することによってナレッジグラフを拡張するＫＧ補完などの種々のＫＧキュレーションタスクに有用であることが判明している。典型的には、ＫＧ埋込モデルの訓練は、正しい（正の）トリプルと正しくない（負の）トリプルとを識別することを目的とする。しかし、ナレッジグラフＫＧは、欠損したトリプルが偽ではなく未知として扱われるオープンワールド仮定に従っているため、負のトリプルの生成は困難である。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Wang, Q., Mao, Z., Wang, B., Guo, L.著、「Knowledge graph embedding: A survey of approaches and applications」、IEEE Trans. Knowl. Data Eng. 29 (12), 2724-2743 (2017)

【発明の概要】

【発明が解決しようとする課題】

【0006】

発明の開示
負のサンプルは、多くのナレッジグラフ埋込モデルの構築に必要であり、それらが高品質であることの保証が決定的に重要である。即ち、負のサンプルがドメインナレッジを考慮し、利用可能なナレッジ即ちナレッジグラフ及びオントロジに整合する事実の予測へと埋込モデルをガイドすることが重要である。

【課題を解決するための手段】

【0007】

ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための、特にコンピュータ実装された方法は、ナレッジグラフの真のトリプルである少なくとも１つの第１のトリプルを提供することと、少なくとも１つの第２のトリプルを提供することと、少なくとも１つの第１のトリプル及び少なくとも１つの第２のトリプルを含むトリプルのセットに応じてナレッジグラフのトリプルを予測するようにナレッジグラフ埋込モデルを訓練することと、ナレッジグラフ埋込モデルによってエンティティ及びリレーションのベクトル表現を決定することと、エンティティ及びリレーションのベクトル表現によって複数のトリプルを決定することと、正しいトリプルを特徴付ける制約を含むオントロジを提供することと、制約のうちの少なくとも１つの制約に違反する又は制約のうちの少なくともいくつかの組合せに違反する、複数のトリプルのうちの少なくとも１つのトリプルを、オントロジによって決定することと、を含む。１つ以上のこのようなトリプルは、埋込モデルを訓練するための負のサンプルとして使用される。負のサンプルは、ナレッジグラフのエンティティ間の欠損したリレーションの予測に関してナレッジグラフ埋込モデルの精度を向上させるために使用可能である。

【0008】

少なくとも１つのトリプルを決定することは、複数のトリプルのうちの他のトリプルよりもナレッジグラフの事実である尤度が高い、複数のトリプルのうちのいくつかのトリプルを選択することを含み得る。このようにして、可能性のある事実であると機械学習システムによって誤ってみなされる事実が、負のサンプルとして特定される。これらの負のサンプルは、訓練をさらに向上させるために使用可能である。

【0009】

方法は、特にナレッジグラフ埋込モデルにより、複数のトリプルのうちの少なくとも１つのトリプルがナレッジグラフの事実である尤度を決定することを含み得る。このようにして、可能性のある事実を尤度に従ってランク付けすることができる。

【0010】

少なくとも１つのトリプルを決定することは、ナレッジグラフからのナレッジグラフの事実であって、第１のエンティティと、参照タイプである参照リレーション又はその表現とを含むナレッジグラフの事実を提供することと、第１のエンティティ及びリレーションを含む、複数のトリプルのうちのトリプルを決定することと、リレーションが制約に従って許容可能なタイプであるか否かを決定することと、タイプが許容可能でない場合に、トリプルが制約に違反すると決定することと、を含み得る。

【0011】

少なくとも１つのトリプルを決定することは、制約に違反するトリプルを含むトリプルのセットを複数のトリプルから決定することと、トリプルのセットのうちのトリプルとは異なる少なくとも１つのトリプルを複数のトリプルから選択することとを含み得る。よって、新たに作成された負のサンプルは、既に利用可能となっている負のサンプルとは異なる。

【0012】

ナレッジグラフ埋込モデルを自動的に訓練するために、方法は、第１の反復において、少なくとも１つのトリプルを決定することと、少なくとも１つのトリプルを第２の反復のためのトリプルのセットに追加することと、第２の反復において、第２の反復のためのトリプルのセットによってナレッジグラフ埋込モデルを訓練すること、及び／又は、第２の反復において、第２の反復のためのトリプルのセットによって少なくとも１つのトリプルを決定することとをさらに含み得る。生成された負のサンプルの品質が、例えば、負のサンプルの標準的なランダムサンプリングから開始し、これに関してナレッジグラフ埋込モデルを訓練し、次いで、方法の次の反復のための負のサンプル、即ち、少なくとも１つのトリプルを選択するために、ナレッジグラフ埋込モデルによる収斂する予測を利用することにより、反復的に向上する。よって、モデルは、反復的に向上する。

【0013】

ナレッジグラフ埋込モデルを訓練するための負のサンプルを自動的に生成するための装置は、ナレッジグラフ及び／又は正しいトリプルを特徴付ける制約を含むオントロジを提供するように構成されたストレージ（記憶装置）と、ナレッジグラフの真のトリプルである少なくとも１つの第１のトリプルを提供し、少なくとも１つの第２のトリプルを提供し、少なくとも１つの第１のトリプル及び少なくとも１つの第２のトリプルを含むトリプルのセットに応じてナレッジグラフのトリプルを予測するようにナレッジグラフ埋込モデルを訓練し、ナレッジグラフ埋込モデルによってエンティティ及びリレーションのベクトル表現を決定するように構成された機械学習システムと、エンティティ及びリレーションのベクトル表現によって複数のトリプルを決定するように構成された生成器と、を備え、生成器は、制約のうちの少なくとも１つの制約に違反する又は制約のうちの少なくともいくつかの組合せに違反する、複数のトリプルのうちの少なくとも１つのトリプルを、オントロジによって決定するように構成されている。この装置は、ナレッジグラフ及びナレッジグラフに付随するオントロジに依拠して導出される負のサンプルにより、訓練システムを向上させる。

【0014】

生成器は、複数のトリプルのうちの他のトリプルよりもナレッジグラフの事実である尤度が高い、複数のトリプルのうちのいくつかのトリプルを選択するように構成され得る。よって、生成器は、ナレッジグラフ埋込モデルによってナレッジグラフの事実である可能性があると誤ってみなされる負のサンプルを見つける。

【0015】

装置は、特にナレッジグラフ埋込モデルにより、複数のトリプルのうちの少なくとも１つのトリプルがナレッジグラフの事実である尤度を決定するように構成された機械学習システムを備え得る。尤度により、生成器による処理のためにトリプルを自動的にランク付けすることができる。

【0016】

装置は、ナレッジグラフからのナレッジグラフの事実を提供するように構成されたストレージを備え、ナレッジグラフの事実は、第１のエンティティと、参照タイプである参照リレーション又はその表現とを含み、生成器は、第１のエンティティ及びリレーションを含む、複数のトリプルのうちのトリプルを決定し、リレーションが制約に従って許容可能なタイプであるか否かを決定し、タイプが許容可能でない場合に、トリプルが制約に違反すると決定するように構成されている。よって、参照リレーションは、自動的に生成され、トリプルは、参照のタイプに応じて評価される。

【0017】

少なくとも１つのトリプルを決定するために、生成器は、制約に違反するトリプルを含むトリプルのセットを複数のトリプルから決定し、トリプルのセットのうちのトリプルとは異なる少なくとも１つのトリプルを複数のトリプルから選択するように構成され得る。よって、負のサンプルの重複が回避される。

【0018】

ナレッジグラフ埋込モデルを自動的に訓練するために、機械学習システムは、第１の反復において、少なくとも１つのトリプルを決定し、少なくとも１つのトリプルを第２の反復のためのトリプルのセットに追加し、第２の反復において、第２の反復のためのトリプルのセットによってナレッジグラフ埋込モデルを訓練し、及び／又は、第２の反復において、第２の反復のためのトリプルのセットによって少なくとも１つのトリプルを決定するように、さらに構成され得る。よって、ナレッジグラフ埋込モデルは、自動的に生成される。

【0019】

コンピュータプログラムは、コンピュータによって実行されるときに、コンピュータに方法のステップを実施させるための命令を含み得る。非一時的なコンピュータ可読記憶媒体が、当該コンピュータプログラムを記憶しているものとするとよい。

【0020】

さらなる有利な実施形態を、添付の説明及び図面から導出することができる。

【図面の簡単な説明】

【0021】

【図1】ナレッジグラフを模式的に示す図である。

【図2】装置を模式的に示す図である。

【図3】方法を模式的に示す図である。

【発明を実施するための形態】

【0022】

以下の説明は、ナレッジグラフＫＧに備えられたオントロジを使用し得る、負のトリプルの生成に関する。

【0023】

オントロジは、対象ドメインの概念化であり、ナレッジグラフＫＧにおいて保持すべき一般的な図式化された制約を記述するものである。

【0024】

オントロジは、負のサンプルの生成、即ち、負のトリプルの生成に際して使用される。

【0025】

埋込モデルを訓練するための例示的な反復法は、以下のように進行する。

【0026】

まず、負のサンプルを生成するための既存の方針を使用して埋込モデルが訓練される。次いで、訓練された埋込モデルがトリプルの予測に使用され、このトリプルにつき、さらに、ナレッジグラフＫＧ及びオントロジの既存データとの整合性が検査される。真又は正しいとみなされる予測されたトリプルを事実として使用することができる。真又は正しいとみなされるナレッジグラフＫＧのトリプルは、真のトリプル、正しいトリプル又は事実と称される。

【0027】

予測されたトリプルを１つずつ取り出してナレッジグラフＫＧに追加することができ、オントロジ的な推論を適用して、追加されたトリプルが不整合を生じさせたかどうかを検出することができる。不整合を生じさせた場合、予測されたトリプルは、埋込訓練の次の反復のための負のサンプルとして追加される。

【0028】

説明した手順に従って、最初の反復において埋込モデルによって予測され、ナレッジグラフＫＧ及びそのオントロジに追加される際に不整合をもたらしたトリプルは、次のラウンドの埋込訓練のための負のサンプルとして記憶される。

【0029】

このプロセスは、モデルの訓練が成功して整合する事実のみが予測されるようになるまで、数回の反復にわたって繰り返すことができる。

【0030】

オントロジの形態で形式化されたドメインナレッジは、負のサンプルとして使用可能な予測を自動的に検出するために使用される。

【0031】

ナレッジグラフＫＧ及びオントロジにおける不整合は、例えば、『Tran, T., Gad-Elrab, M. H., Stepanova, D., Kharlamov, E., Stroetgen, J.著、「Fast computation of explanations for inconsistency in large-scale knowledge graphs」 In: WWW’20: The Web Conference 2020, Taipei, Taiwan, April 20-24, 2020, pp.2613-2619 (2020)』に記述されているように決定される。

【0032】

ナレッジグラフＫＧは、相互にリンクされた事実情報の集合を表現している。ナレッジグラフＫＧは、例えば、（ｊｏｈｎ；ｗｏｒｋｓＡｔ；ｂｏｓｃｈ）のような、（主語；述語；目的語）トリプルのセットとして符号化することができる。このようなトリプルの主語又は目的語は、エンティティと称され、述語は、リレーションと称される。ナレッジグラフＫＧのトリプルのセットは、頂点及び辺にラベルを付された有向グラフとして表現することができる。ナレッジグラフＫＧのトリプルは、事実と称される。ナレッジグラフＫＧの事実は、ｍａｎ（ｊｏｈｎ），ｗｏｒｋｓＡｔ（ｊｏｈｎ；ｂｏｓｃｈ）のような単項又は二項の基底述語（ground predicate）として表現することができる。

【0033】

ナレッジグラフの埋込ＫＧＥは、ナレッジグラフＫＧのエンティティ及びリレーションを、ユーザが指定した次元ｎを有する連続ベクトル空間に埋め込むことに関する。より具体的には、ＫＧＥモデルは、ＫＧトリプルのセットを入力として受け取り、ＫＧ構造を反映するいくつかの特徴が保持されるように、エンティティ及びリレーションをｎ次元ベクトル空間にマッピングすることを目的とする。これらの特徴は、個別の埋込モデルの目的関数によって取り込まれる。このようにして、関係データから数値ベクトルのセットが得られる。

【0034】

オントロジは、例えば、公理及び／又は公理を含むステートメントを含む、制約のセットとして表現される対象ドメインの概念化である。オントロジは、ナレッジグラフＫＧが従うべきスキーマを反映する。例えば、

【数1】

である。

【0035】

トリプルは、そのトリプルと制約又は制約の組合せとの和集合が整合しない場合、例えば、制約又は制約の組合せに違反する。

【0036】

例えば、＜ｂｏｓｃｈｇｍｂｈ，ｔｙｐｅ，Ｐｅｒｓｏｎ＞、制約「ＣｏｍｐａｎｙとＰｅｒｓｏｎとは互いに素である」の場合、＜ｂｏｓｃｈｇｍｂｈ，ｔｙｐｅ，Ｃｏｍｐａｎｙ＞がナレッジグラフの真のトリプルであると仮定すると、＜ｂｏｓｃｈｇｍｂｈ，ｔｙｐｅ，Ｐｅｒｓｏｎ＞は制約に違反する。

【0037】

第１の公理によれば、どこかで働くのは人である。第２の公理は、第１のエンティティが第２のエンティティとｌｏｃａｔｅｄＩｎのリレーションを有する場合、第２のエンティティは、ｌｏｃａｔｉｏｎのタイプでなければならないことを示す。最後に、最後の公理によれば、ｌｏｃａｔｉｏｎとｐｅｒｓｏｎとは互いに素である。

【0038】

ナレッジグラフＫＧ及びオントロジのためのモデルが存在しない場合、言い換えれば、オントロジの用語との矛盾、例えば、公理又はステートメントとの矛盾がナレッジグラフＫＧに存在する場合、ナレッジグラフＫＧは、オントロジに整合しない。例えば、上述したオントロジＯは、事実（ｊｏｈｎ，ｔｙｐｅ，ｐｅｒｓｏｎ）；（ｂｏｓｃｈ，ｌｏｃａｔｅｄＩｎ，ｊｏｈｎ）に整合しない。実際に、ｊｏｈｎは人であることが既知であり、オントロジの第２の公理により、またオントロジの最後の公理によっても、ｌｏｃａｔｉｏｎは禁止される。

【0039】

不整合の検査は、ナレッジグラフＫＧ及びオントロジの矛盾を検出する処理である。

【0040】

図１は、ナレッジグラフ１００を模式的に示している。ナレッジグラフ１００は、複数のエンティティ及び複数のリレーションを含む。以下のようなナレッジグラフの事実が、ナレッジグラフ１００から利用可能である。例のナレッジグラフの事実は、Ｘが主語エンティティ、Ｙがリレーション、Ｚが目的語エンティティを示す、トリプル（Ｘ，Ｙ，Ｚ）によって定義される。即ち、
（１０２，１２０，１０４）
（１１０，１２２，１０４）
（１０６，１２４，１０２）
（１０６，１２８，１０８）
（１１０，１２６，１０６）
（１１０，１３０，１０８）
（１１２，１３２，１１４）
である。

【0041】

エンティティは、エンティティタイプのセットからのタイプであり得る。このエンティティタイプのセットは、例においては、ナレッジグラフ１００の少なくとも１つのエンティティによって表現されている。例においては、エンティティ１０２は、第１のエンティティタイプであり、エンティティ１０４及びエンティティ１１２は、第２のエンティティタイプであり、エンティティ１０６及びエンティティ１１０は、第３のエンティティタイプであり、エンティティ１０８は、第４のエンティティタイプである。第１のエンティティタイプは、例においては“ｃｏｍｐａｎｙｎａｍｅ”である。第２のエンティティタイプは、例においては“ｃｏｕｎｔｒｙ”である。第３のエンティティタイプは、例においては“ｆｉｒｓｔｎａｍｅ”である。第４のエンティティタイプは、例においては“ｔｙｐｅ”である。他のエンティティタイプが存在するものとしてもよい。オントロジは、ナレッジグラフＫＧに存在するエンティティタイプを含み得る。オントロジは、ナレッジグラフＫＧのエンティティタイプとは異なるエンティティタイプを含むものとしてもよい。

【0042】

リレーションのラベルは、リレーションラベルのセットから選択可能であり得る。このリレーションラベルのセットは、例においては、ｔｙｐｅ、ｗｏｒｋｓＡｔ、ｆｒｉｅｎｄＯｆ、ｌｉｖｅｓＩｎ、ｌｏｃａｔｅｄＩｎのラベルを含む。例においては、ラベル“ｔｙｐｅ”は、第４のエンティティタイプである目的語エンティティに主語エンティティを結び付けるためのものである。リレーション１２８、リレーション１３０及びリレーション１３２は、例においては、“ｔｙｐｅ”のラベルを付されている。

【0043】

リーション１２０には、例においては“ｌｏｃａｔｅｄＩｎ”のラベルが付されている。リレーション１２２には、例においては“ｌｉｖｅｓＩｎ”のラベルが付されている。リレーション１２４には、例においては“ｗｏｒｋｓＡｔ”のラベルが付されている。リレーション１２６には、例においては“ｆｒｉｅｎｄＯｆ”のラベルが付されている。他のリレーションタイプ又はラベルを使用するものとしてもよい。オントロジは、ナレッジグラフＫＧに存在するリレーションタイプ又はそのラベルを含み得る。オントロジは、ナレッジグラフＫＧのものとは異なるリレーションタイプ又はそのラベルを含むものとしてもよい。

【0044】

ナレッジグラフ１００のオントロジは、正しいトリプルを特徴付ける制約を定義し得る。一例においては、負のサンプルは、制約に違反する。オントロジは、正しいトリプルを特徴付ける複数の制約を定義し得る。一例においては、負のサンプルは、複数の制約のうちの１つの制約、複数の制約のうちの複数の制約、又は、複数の制約のうちの全ての制約に違反する。一例においては、負のサンプルは、正しいトリプルを特徴付ける制約のうちの少なくともいくつかの組合せに違反する。正しいトリプルは、例においては、ナレッジグラフ１００において許容可能であるトリプルである。例においては、負のサンプルは、ナレッジグラフ１００において許容可能でないトリプルであるサンプルである。これは、オントロジが、負のサンプルについて、負のサンプルが満たさない少なくとも１つの制約を定義することを意味する。

【0045】

これは、オントロジが、どのトリプルが許容され、どのトリプルが許容されないかを指定する制約を含むことを意味する。１つの制約又は複数の制約に違反するトリプルが、間違ったトリプルである。

【0046】

例によれば、オントロジは、リレーション“ｔｙｐｅ”によって目的語エンティティに結び付く主語エンティティが、リレーション“ｔｙｐｅ”によって他の目的語エンティティに結び付いてはならないことを定義する。

【0047】

例によれば、リレーション“ｔｙｐｅ”によって目的語エンティティ“ｃｏｍｐａｎｙ”タイプに結び付く主語エンティティは、リレーション“ｌｏｃａｔｅｄＩｎ”によって目的語エンティティ“ｆｉｒｓｔｎａｍｅ”に結び付いてはならない。

【0048】

例えば、トリプル＜ｂｏｓｃｈ，ｌｏｃａｔｅｄＩｎ，ｔｈｏｍａｓ＞は、“ｌｏｃａｔｅｄＩｎ”リレーションの目標又は目的語がＬｏｃａｔｉｏｎでなければならないという制約に違反することになる。これは、例えば、ナレッジグラフの他の正しいトリプルによって指定されているように、“ｔｈｏｍａｓ”がＰｅｒｓｏｎであるため、制約に違反する。

【0049】

例においては、エンティティ１１２からエンティティ１１０へのリレーション１３４“ｌｏｃａｔｅｄＩｎ”は、オントロジによれば誤りである。これは、リレーション１３４を含むトリプル（１１２，１３４，１１０）が負のサンプルであることを意味する。

【0050】

図２は、装置２００を模式的に示している。

【0051】

装置２００は、機械学習システム２０２と、生成器２０４と、ストレージ（記憶装置）２０６と、を備える。

【0052】

装置２００は、ナレッジグラフ１００に基づいてナレッジグラフ埋込モデル２０８を訓練するための負のサンプルを自動的に生成するように構成されている。装置２００は、ナレッジグラフ埋込モデル２０８を自動的に訓練するように構成されるものとしてよい。

【0053】

以下の説明においては、事実又はナレッジグラフの事実は、２つのエンティティとリレーションとのトリプル又は特にその数値表現を指す。

【0054】

ストレージ２０６は、ナレッジグラフ１００の少なくとも１つの第１のトリプル２１２を提供するように構成されている。少なくとも１つの第１のトリプル２１２は、ナレッジグラフ１００に記憶されており、及び／又は、ナレッジグラフ１００から導出される。例においては、複数の第１のトリプル２１２が決定される。

【0055】

生成器２０４は、少なくとも１つの第２のトリプル２１４を提供するように構成されている。

【0056】

機械学習システム２０２は、少なくとも１つの第１のトリプル２１２及び少なくとも１つの第２のトリプル２１４を含むトリプルのセット２１６に応じてナレッジグラフ１００の事実を予測すべくナレッジグラフ埋込モデル２０８を訓練するように構成されている。

【0057】

機械学習システム２０２は、ナレッジグラフ埋込モデル２０８によってエンティティ及びリレーションの複数のベクトル表現２１８を決定するように構成されている。

【0058】

装置２００は、負のサンプルを特徴付ける複数の制約を含むオントロジ２２２を提供するように構成されたストレージ（記憶装置）２２０を備える。

【0059】

生成器２０４は、正しいトリプルを特徴付ける少なくとも１つの制約に違反する少なくとも１つのトリプル２２４を決定するように構成され得る。

【0060】

生成器２０４は、正しいトリプルを特徴付ける制約のうちの少なくともいくつかの組合せに違反する少なくとも１つのトリプル２２４のために構成されるものとしてもよい。

【0061】

例の機械学習システム２０２は、第１の反復において、事実のセット２１６によって少なくとも１つのトリプル２２４を決定するように構成されている。例の機械学習システム２０２は、少なくとも１つのトリプル２２４を第２の反復のための事実のセット２１６に追加するように構成されている。

【0062】

例の機械学習システム２０２は、第２の反復において、ナレッジグラフ埋込モデル２０８を訓練するように構成されている。

【0063】

例の機械学習システム２０２は、第２の反復において、第２の反復のための事実のセット２１６によって少なくとも１つのトリプル２２４を決定するように構成されている。

【0064】

生成器２０４は、セレクタ２２６により、エンティティ及びリレーションのベクトル表現２１８から得られた他のトリプルよりもナレッジグラフ１００の事実である尤度が高い、エンティティ及びリレーションのベクトル表現２１８から得られたいくつかのトリプル２２８を選択するように構成され得る。

【0065】

機械学習システム２０２は、特にナレッジグラフ埋込モデル２０８により、エンティティ及びリレーションの複数のベクトル表現２１８における少なくとも１つのトリプルがナレッジグラフ１００の事実である尤度を決定するように構成され得る。

【0066】

生成器２０４は、推論器２３０により、いくつかのトリプル２２８から少なくとも１つの第３のトリプル２２４を決定するように構成され得る。例えば、推論器２３０は、いくつかのトリプルから少なくとも１つの第３のトリプル２２４を選択するためにオントロジの用語を処理するように構成されている。

【0067】

少なくとも１つの第２のトリプル２１４を決定するために、生成器２０４は、少なくとも１つの第２のトリプル２１４の２つのエンティティをエンティティからサンプリングするように、及び／又は、２つのエンティティ間のリレーションをナレッジグラフ１００のリレーションからサンプリングするように構成されるものとしてよい。

【0068】

少なくとも１つの第２のトリプル２１４を決定するために、生成器２０４は、少なくとも１つの第２のトリプル２１４の２つのエンティティの表現をナレッジグラフ１００のエンティティの表現からサンプリングするように、及び／又は、２つのエンティティ間のリレーションをナレッジグラフ１００のリレーションの表現からサンプリングするように構成されるものとしてもよい。

【0069】

装置２００は、ナレッジグラフ１００及びオントロジ２２２を使用して、負のサンプルを識別するように構成され得る。

【0070】

ストレージ２０６は、一例においては、ナレッジグラフ１００からのナレッジグラフの事実を提供するように構成され得る。このナレッジグラフの事実は、第１のエンティティと参照リレーション又はその表現とを含む。参照リレーションは、参照タイプである。生成器２０４は、第１のエンティティ及びリレーションを含む、複数のトリプルのうちのトリプルを決定するように構成され得る。生成器２０４は、リレーションが制約に従って許容可能なタイプであるか否かを決定するように構成され得る。生成器２０４は、タイプが許容可能でない場合、トリプルが制約又は制約のうちの少なくともいくつかの組合せに違反すると決定するように構成され得る。これは、トリプルが、ナレッジグラフの事実と同じ第１のエンティティを含むことを意味する。これは、トリプルが、オントロジによれば、参照リレーションのリレーションタイプと互換性のないリレーションタイプを含むことを意味する。従って、トリプルは、負のサンプルとなる。

【0071】

ナレッジグラフ埋込モデル２０８を訓練するための負のサンプルを自動的に生成するための方法、特にコンピュータ実装された方法について、図３を参照しながら、以下に説明する。負のサンプルによって反復的に訓練するために、方法は、任意選択手段としてのステップを含む。

【0072】

方法においては、ステップ３０２が実行される。

【0073】

ステップ３０２においては、ナレッジグラフ１００の少なくとも１つの第１のトリプル２１２が提供される。例においては、複数の第１のトリプル２１２が提供される。

【0074】

その後、ステップ３０４が実行される。

【0075】

ステップ３０４においては、少なくとも１つの第２のトリプル２１４が提供される。

【0076】

少なくとも１つの第２のトリプル２１４は、ナレッジグラフ１００から最初のステップで決定されるものとしてもよい。

【0077】

一例においては、２つのエンティティがエンティティから特にランダムにサンプリングされ、リレーションがナレッジグラフのリレーションからサンプリングされる。少なくとも１つの第２のトリプル２１４は、この例においては、第１のエンティティとリレーションと第２のエンティティとを含む。

【0078】

その後、ステップ３０６が実行される。

【0079】

ステップ３０６においては、ナレッジグラフ埋込モデル２０８が、少なくとも１つの第１のトリプル２１２及び少なくとも１つの第２のトリプル２１４を含むトリプルのセット２１６に応じて、ナレッジグラフ１００の事実を予測するように訓練される。

【0080】

ナレッジグラフ埋込モデル２０８は、主語エンティティの埋込、例えばベクトルを、リレーションの埋込、例えばベクトル又は行列により、ベクトル空間内の他の埋込に対して線形にマッピングするように構成され得る。既存のナレッジグラフのトリプルの場合、主語エンティティの埋込がマッチング関数に一致する埋込は、予測された目的語エンティティを表現する。マッチング関数は、トリプルが真であるか否かを認定する手段を提供する。マッチング関数は、例えば、ベクトル加算又はベクトル乗算を含み得る。訓練の目標は、リレーションの埋込により、主語エンティティの埋込を、ナレッジグラフのトリプルからの目的語エンティティの埋込に可能な限り近い予測された目的語エンティティの埋込に一致させることであるものとし得る。対応する損失関数は、予測された目的語とナレッジグラフの事実の目的語との間の距離に関する距離メトリックを含み得る。方法は、このタイプの訓練に限定されるものではない。

【0081】

その後、ステップ３０８が実行される。

【0082】

ステップ３０８においては、エンティティ及びリレーションの複数のベクトル表現２１８が、特にトリプルのセット２１６に応じて、ナレッジグラフ埋込モデル２０８によって決定される。

【0083】

その後、ステップ３１０が実行される。

【0084】

ステップ３１０においては、ナレッジグラフ１００の負のサンプルを特徴付ける複数の制約を含むオントロジが提供され、例えば、ストレージ２２０から読み出される。

【0085】

その後、ステップ３１２が実行される。

【0086】

ステップ３１２においては、少なくとも１つのトリプル２２４が、エンティティ及びリレーションの複数のベクトル表現２１８によって決定される。

【0087】

例においては、正しいトリプルのための制約のうちの少なくとも１つの制約に違反する、又は、制約のうちの少なくともいくつかの組合せに違反する、複数のトリプル２２８のうちのトリプルが、負のサンプルである。

【0088】

一例においては、正しいトリプルのための少なくとも１つの制約に違反する少なくとも１つのトリプル２２４が決定される。一例においては、制約のうちの少なくともいくつかの組合せに違反する少なくとも１つのトリプル２２４が決定される。

【0089】

少なくとも１つのトリプル２２４を決定することは、例においては、エンティティ及びリレーションの複数のベクトル表現２１８における少なくとも１つのトリプルがナレッジグラフ１００の事実である尤度を決定することを含む。この尤度は、一例においては、ナレッジグラフ埋込モデル２０８によって決定されるスコアである。例においては、ナレッジグラフ埋込モデル２０８は、各予測のスコアと共に予測を提供する。トリプルは、例においては、スコアによってランク付けされる。

【0090】

少なくとも１つのトリプル２２４を決定することは、例においては、エンティティ及びリレーションの複数のベクトル表現２１８における他のトリプルよりもナレッジグラフ１００の事実である尤度が高い、エンティティ及びリレーションの複数のベクトル表現２１８におけるいくつかのトリプルを選択することを含む。

【0091】

トリプルのランク付けは、尤度によってソートされたｍ個のトリプルから、最も高い尤度を有するｋ個の事実を選択することを含み得る。

【0092】

少なくとも１つのトリプルを決定することは、エンティティ及びリレーションの複数のベクトル表現２１８から、事実のセット２１６のトリプルとは異なる少なくとも１つのトリプルを選択することを含み得る。これにより、訓練における負のサンプルの重複が回避される。

【0093】

少なくとも１つのトリプル２２４は、選択されたトリプルから決定され得る。

【0094】

少なくとも１つのトリプル２２４は、後述するようにナレッジグラフ１００から決定されるナレッジグラフのトリプルに基づいて決定されるものとしてもよい。

【0095】

一例においては、エンティティから２つのエンティティが特にランダムにサンプリングされ、ナレッジグラフのリレーションからリレーションがサンプリングされる。結果として得られるナレッジグラフのトリプルは、第１のエンティティとリレーションと第２のエンティティとを含む。

【0096】

方法は、第１のエンティティに応じて、特に、第１のエンティティのベクトル表現に基づいて、エンティティ及びリレーションの複数のベクトル表現２１８における候補トリプルを見つけることを含み得る。候補トリプルは、例えば、エンティティ及びリレーションの複数のベクトル表現２１８からサンプリングされる。

【0097】

方法は、ナレッジグラフのトリプルに基づいて、候補トリプルが正しいトリプルのための少なくとも１つの制約に違反するか否かを決定することを含み得る。リレーションは、参照リレーションとして使用することもできる。

【0098】

方法は、リレーションが制約に従って許容可能でない場合に、候補トリプルが正しいトリプルのための制約に違反すると決定することを含み得る。

【0099】

少なくとも１つのトリプル２２４は、この例においては、正しいトリプルのための少なくとも１つの制約に違反する候補トリプルである。

【0100】

少なくとも１つのトリプル２２４は、制約のうちの少なくともいくつかの組合せに違反する候補トリプルであるものとしてよい。

【0101】

任意選択手段として、ステップ３０２乃至３１２は、さらなる負のサンプルを決定するために訓練なしで繰り返される。

【0102】

任意選択手段として、ナレッジグラフ埋込モデル２０８を反復的に自動的に訓練するために、その後、ステップ３１４が実行される。

【0103】

ステップ３１４においては、少なくとも１つのトリプル２２４がトリプルのセット２１６に追加される。

【0104】

その後、ステップ３０２が実行される。

【0105】

これは、ナレッジグラフ埋込モデル２０８が、このように修正されたセットによって再び訓練されることを意味する。これは、このようにして再び訓練されたナレッジグラフ埋込モデル２０８に基づいて、少なくとも１つのトリプル２２４が決定されることを意味する。

【0106】

ステップ３１２で少なくとも１つのトリプル２２４を決定することは、ナレッジグラフ１００からナレッジグラフのトリプルを提供することを含み得る。

【0107】

ナレッジグラフのトリプルは、第１のエンティティと、参照リレーション又はその表現とを含み得る。

【0108】

方法は、例えば、ナレッジグラフ埋込モデル２０８によって予測された複数のトリプルが、ナレッジグラフ及びオントロジに関する不整合をもはやもたらさなくなるまで繰り返される。

【0109】

予測されたトリプルは、マシンの状態、デジタル画像中のオブジェクトの特性、又は、質問に対する回答に関するものであってよい。

【0110】

前述のトリプルは、マシンの状態、デジタル画像中のオブジェクトの特性、又は、質問に対する回答を示すことができる。

【0111】

ナレッジグラフは、マシン状態に対するマシン状態メッセージのマッピングに関するナレッジを表現することもできる。方法は、状態メッセージを受信することと、状態メッセージに応じてマシン状態を出力することとを含み得る。状態を表現する主語エンティティ及びマシン状態を表す目的語エンティティを含むトリプルが存在するか否かをナレッジグラフ埋込モデルにより予測することによって、状態が決定され得る。方法は、マシン状態を出力することを含み得る。

【0112】

デジタル画像処理の場合、ナレッジグラフは、画像のためのオブジェクト認識により認識されたオブジェクトの記述であるものとしてよい。ナレッジグラフのエンティティは、オブジェクト及び／又はその特性を表現するものであり得る。方法は、オブジェクトを受信することと、オブジェクトに応じて記述を出力することとを含み得る。

【0113】

ストリートビューの場合、オブジェクトは、車、人、家、又は、インフラストラクチャの他の部分であるものとしてよい。ストリートビューの場合、ナレッジグラフのトリプルは、特にデジタル画像中の、オブジェクト及び／又は他のオブジェクトとのオブジェクトのリレーションを記述することができる。方法は、オブジェクトを受信することと、オブジェクトに応じて記述を出力することとを含み得る。

【図1】