特開2024-67152 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-67152予測プログラム、情報処理装置および予測方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
8C
9
10
11A
11B
11C
11D
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024067152

(43)【公開日】2024-05-17

(54)【発明の名称】予測プログラム、情報処理装置および予測方法

(51)【国際特許分類】

G06N 5/04 20230101AFI20240510BHJP

G06N 5/022 20230101ALI20240510BHJP

【ＦＩ】

G06N5/04

G06N5/02 120

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022176995

(22)【出願日】2022-11-04

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】鵜飼孝典

(57)【要約】

【課題】新規のデータについて、特定の項目についてＴｒｕｅかＦａｌｓｅかを予測する際の予測コストを下げる。
【解決手段】情報処理装置１は、予測対象のグラフデータが、ナレッジグラフの埋め込みの訓練に用いられた訓練データに含まれないノード間の関係を示すノードリンクを含むデータであるか否かを判定し、前記予測対象のグラフデータが前記訓練データに含まれないノードリンクを含むデータであると判定した場合、前記予測対象のグラフデータに含まれるノードのラベルについての埋め込み予測の結果に基づいて、前記訓練データの中から、予測対象のグラフデータに類似するグラフデータを特定し、特定した前記類似するグラフデータに基づいて、前記予測対象のグラフデータに対する予測結果を決定する。かかる情報処理装置１の処理は、例えば、新規医薬品に対する副作用の予測に適用できる。
【選択図】図５

【特許請求の範囲】

【請求項1】

ナレッジグラフの埋め込みを用いた予測プログラムであって、
予測対象のグラフデータが、ナレッジグラフの埋め込みの訓練に用いられた訓練データに含まれないノード間の関係を示すノードリンクを含むデータであるか否かを判定し、
前記予測対象のグラフデータが前記訓練データに含まれないノードリンクを含むデータであると判定した場合、前記予測対象のグラフデータに含まれるノードのラベルについての埋め込み予測の結果に基づいて、前記訓練データの中から、予測対象のグラフデータに類似するグラフデータを特定し、
特定した前記類似するグラフデータに基づいて、前記予測対象のグラフデータに対する予測結果を決定する
処理をコンピュータに実行させる予測プログラム。

【請求項2】

前記特定する処理は、前記予測対象のグラフデータに含まれるノードのラベルに、既に訓練されたノードのラベルの埋め込みベクトルを用いて、前記訓練データに含まれる複数のグラフデータとのリンク予測を行うことで、前記ノードのラベルと各グラフデータとの類似性を計算し、前記複数のグラフデータの中から最も類似するグラフデータを前記予測対象のグラフデータに類似するグラフデータとして特定する
ことを特徴とする請求項１に記載の予測プログラム。

【請求項3】

前記ノードのラベルと前記グラフデータとの類似性は、前記ノードのラベルと前記グラフデータとの距離であり、
前記予測対象のグラフデータに含まれるノードのラベルは、前記訓練データに含まれる既に訓練されたノードのラベルと同一のラベルであり、
前記特定する処理は、前記予測対象のグラフデータに含まれるノードのラベルが複数存在する場合には、複数のノードそれぞれのラベルに対する前記複数のグラフデータそれぞれとの距離を用いて、前記複数のグラフデータの中から距離が最も小さいグラフデータを特定する
ことを特徴とする請求項２に記載の予測プログラム。

【請求項4】

前記特定する処理は、前記複数のグラフデータそれぞれについて、複数のノードそれぞれのラベルとの距離の合計値を用いて、前記複数のグラフデータの中から距離の合計値が最も小さいグラフデータを特定する
ことを特徴とする請求項３に記載の予測プログラム。

【請求項5】

前記決定する処理は、前記類似するグラフデータに含まれる特定のノードのラベルに応じた値を、前記予測対象のグラフデータに対する予測結果として決定する
ことを特徴とする請求項１に記載の予測プログラム。

【請求項6】

予測対象のグラフデータが、ナレッジグラフの埋め込みの訓練に用いられた訓練データに含まれないノード間の関係を示すノードリンクを含むデータであるか否かを判定する判定部と、
前記予測対象のグラフデータが前記訓練データに含まれないノードリンクを含むデータであると判定した場合、前記予測対象のグラフデータに含まれるノードのラベルについての埋め込み予測の結果に基づいて、前記訓練データの中から、予測対象のグラフデータに類似するグラフデータを特定する特定部と、
特定した前記類似するグラフデータに基づいて、前記予測対象のグラフデータに対する予測結果を決定する決定部と、
を有することを特徴とする情報処理装置。

【請求項7】

ナレッジグラフの埋め込みを用いた予測方法であって、
予測対象のグラフデータが、ナレッジグラフの埋め込みの訓練に用いられた訓練データに含まれないノード間の関係を示すノードリンクを含むデータであるか否かを判定し、
前記予測対象のグラフデータが前記訓練データに含まれないノードリンクを含むデータであると判定した場合、前記予測対象のグラフデータに含まれるノードのラベルについての埋め込み予測の結果に基づいて、前記訓練データの中から、予測対象のグラフデータに類似するグラフデータを特定し、
特定した前記類似するグラフデータに基づいて、前記予測対象のグラフデータに対する予測結果を決定する
処理をコンピュータが実行する予測方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、予測プログラムなどに関する。

【背景技術】

【0002】

ナレッジグラフのリンク予測をするために、３つ（トリプル）のデータからなる関係情報をナレッジグラフに埋め込む技術（「ＴｒａｎｓＥ」という）が開示されている（例えば、非特許文献１を参照）。関係情報として、ＲＤＦ（Resource Description Framework）が挙げられる。ＲＤＦは、ウェブ上の情報のメタデータを記述するためのデータ構造を示し、エンティティ、プロパティ、エンティティの３つのデータを１組としている。ここで、エンティティ、プロパティ、エンティティは、主語（subject）、述語（predicate）、目的語（object）の３つの要素を関係情報として表現される。主語（subject）、述語（predicate）、目的語（object）は、「主語の述語は目的語である」という関係性を持つ関係情報である。

【0003】

ＴｒａｎｓＥは、２つのエンティティｈ，ｔがＥ（エンティティの集合）に属し、且つプロパティｒがＲ（プロパティの集合）に属するようなトリプルのデータ（ｈ，ｒ，ｔ）の集合Ｓをもとに、エンティティおよびプロパティのベクトルの埋め込みを学習する。すなわち、ＴｒａｎｓＥは、（ｈ，ｒ，ｔ）の３つのデータを組（トリプル）としたナレッジグラフの集合をベクトル空間上に埋め込み、機械学習の技術により、ベクトルを変換して、データ構造を得る技術である。ここでいうデータ構造は、トリプルのデータ（ｈ，ｒ，ｔ）のそれぞれのベクトル表現Ｖ_ｈ、Ｖ_ｒ、Ｖ_ｔについて、Ｖ_ｈ＋Ｖ_ｒができるだけＶ_ｔと等しくなるようなデータ構造のことをいう。

【0004】

これにより、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｈ＋Ｖ_ｒ≒Ｖ_ｔのような計算ができるようになるので、Ｖ_ｈ＋Ｖ_ｒに対応するｔを予測することができる。また、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｔ－Ｖ_ｒに対応するｈ、Ｖ_ｔ－Ｖ_ｈに対応するｒを予測することができる。

【0005】

また、埋め込みベクトルを使って、特定の項目（エンティティのラベル）についてＴｒｕｅかＦａｌｓｅかを予測する手法には、例えば、Ｋ近傍法が挙げられる。Ｋ近傍法（ｋ-nearest neighbor algorithm）は、特徴空間における最も近い多次元ベクトルに基づいた分類の手法である。例えば、Ｋ近傍法のアルゴリズムは、＜１＞Ｋを予め定め、＜２＞予測対象の新規のベクトルに最も近いベクトルをＫ個選択し、＜３＞Ｋ個のベクトルに対応する特定の項目についてのＴｒｕｅまたはＦａｌｓｅを多数決する。これにより、予測対象の新規のベクトルを使って、特定の項目（エンティティのラベル）についてＴｒｕｅかＦａｌｓｅかが予測できる。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０１９－０４９９８０号公報

【非特許文献】

【0007】

【非特許文献1】Antonine Bordes et al ”Translating Embeddings for Modeling Multi-relational Data”

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、ナレッジグラフの埋め込みを用いる場合、新規のデータについて、特定の項目の真偽を予測するためには、新規のデータを含めた全体のデータを再度学習し直して、新規のデータのベクトルを求めなければならない。すなわち、新規のデータについて、特定の項目の真偽を予測する際、全体のデータを学習し直すコストがかかるという問題がある。

【0009】

本発明は、１つの側面では、ナレッジグラフの埋め込みを用いて新規のデータについて特定の項目の真偽を予測する際に、予測コストを下げることを目的とする。

【課題を解決するための手段】

【0010】

１つの態様では、予測プログラムが、ナレッジグラフの埋め込みを用いた予測プログラムであって、予測対象のグラフデータが、ナレッジグラフの埋め込みの訓練に用いられた訓練データに含まれないノード間の関係を示すノードリンクを含むデータであるか否かを判定し、前記予測対象のグラフデータが前記訓練データに含まれないノードリンクを含むデータであると判定した場合、前記予測対象のグラフデータに含まれるノードのラベルについての埋め込み予測の結果に基づいて、前記訓練データの中から、予測対象のグラフデータに類似するグラフデータを特定し、特定した前記類似するグラフデータに基づいて、前記予測対象のグラフデータに対する予測結果を決定する、処理をコンピュータに実行させる。

【発明の効果】

【0011】

１実施態様によれば、ナレッジグラフの埋め込みを用いて新規のデータについて特定の項目の真偽を予測する際に、予測コストを下げることができる。

【図面の簡単な説明】

【0012】

【図1】図１は、実施例に係る情報処理装置の構成を示す機能ブロック図である。

【図2】図２は、学習対象データの一例を示す図である。

【図3】図３は、新規データの一例を示す図である。

【図4】図４は、学習対象データのナレッジグラフの一例を示す図である。

【図5】図５は、新規データのナレッジグラフの一例を示す図である。

【図6】図６は、実施例に係る学習結果データの一例を示す図である。

【図7】図７は、実施例に係る学習対象の範囲を示す図である。

【図8A】図８Ａは、実施例に係る予測処理を説明する図（１）である。

【図8B】図８Ｂは、実施例に係る予測処理を説明する図（２）である。

【図8C】図８Ｃは、実施例に係る予測処理を説明する図（３）である。

【図9】図９は、実施例に係る予測処理のフローチャートの一例を示す図である。

【図10】図１０は、予測プログラムを実行するコンピュータの一例を示す図である。

【図11A】図１１Ａは、ナレッジグラフ埋め込みの学習の一例を示す参考図（１）である。

【図11B】図１１Ｂは、ナレッジグラフ埋め込みの学習の一例を示す参考図（２）である。

【図11C】図１１Ｃは、ナレッジグラフ埋め込みの学習の一例を示す参考図（３）である。

【図11D】図１１Ｄは、ナレッジグラフ埋め込みの学習の一例を示す参考図（４）である。

【図12】図１２は、新規データの副作用を予測する場合の学習対象の範囲の参考図である。

【図13】図１３は、新規データの副作用の予測を説明する参考図である。

【発明を実施するための形態】

【0013】

以下に、本願の開示する予測プログラム、情報処理装置および予測方法の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

【0014】

まず、ナレッジグラフのリンク予測をするために、複数のデータからなる関係情報をナレッジグラフに埋め込む「ＴｒａｎｓＥ」について説明する。「ＴｒａｎｓＥ」は、３つのデータを１組としたナレッジグラフの集合をベクトル空間上に埋め込み、機械学習の技術により、ベクトルを変換して所定のデータ構造を得る技術である。所定のデータ構造とは、１組のデータが（ｈ，ｒ，ｔ）（ｈ：主語、ｒ：述語、ｔ：目的語）である場合に、ｈ、ｒ、ｔそれぞれのベクトルＶについて、Ｖ_ｈ＋Ｖ_ｒができるだけＶ_ｔと等しくなるようなデータ構造のことをいう。これにより、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｈ＋Ｖ_ｒ≒Ｖ_ｔのような計算ができるようになるので、Ｖ_ｈ＋Ｖ_ｒに対応するｔを予測することができる。また、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｔ－Ｖ_ｒに対応するｈ、Ｖ_ｔ－Ｖ_ｈに対応するｒを予測することができる。

【0015】

なお、（ｈ，ｒ，ｔ）のような３つのデータを１組として、「主語の述語は目的語である」という関係性を記述するデータ形式のデータをＲＤＦ（Resource Description Framework）データという。また、ＲＤＦデータは、主語、述語、目的語の３つのデータを１組としたデータ構造であると説明したが、適宜、主語および目的語のことを「エンティティ」、述語のことを「プロパティ」と呼ぶことがある。

【0016】

ここで、図１１Ａ～図１１Ｄを参照して、ナレッジグラフ埋め込みの学習の一例について説明する。図１１Ａ～図１１Ｄは、ナレッジグラフ埋め込みの学習の一例を示す参考図である。ここでは、ナレッジグラフ埋め込みとしてＴｒａｎｓＥを適用する。なお、ＲＤＦデータのサンプルデータとして、（Ａ，ｒ１，Ｂ）、（Ｃ，ｒ１，Ｂ）、（Ｃ，ｒ１，Ｄ）が存在する場合とする。

【0017】

図１１Ａで示すグラフは、ナレッジグラフ埋め込みの学習で用いられるＲＤＦデータ内のデータの接続性を表現したナレッジグラフである。ナレッジグラフ埋め込みは、「Ａ」，「Ｂ」，「Ｃ」，「ｒ１」をｎ次元のベクトルに写像する技術である。すなわち、ナレッジグラフ埋め込みは、「Ａ」＋「ｒ１」が「Ｂ」に、「Ｃ」＋「ｒ１」が「Ｂ」に、「Ｃ」＋「ｒ１」が「Ｄ」に近くなるように写像する。一方、「Ｄ」は「Ｃ」＋「ｒ１」に近く、「Ａ」＋「ｒ１」から離れるように写像する。なお、以降では、便宜上、かかる写像の学習を２次元で説明するものとする。

【0018】

図１１Ｂに示すように、ナレッジグラフ埋め込みは、「Ａ」のベクトルＶ_Ａ、「ｒ１」のベクトルＶ_ｒ１、「Ｂ」のベクトルＶ_Ｂ、「Ｃ」のベクトルＶ_Ｃを乱数で初期化して２次元空間に配置する。なお、ナレッジグラフ埋め込みは、図示していないが、「Ｄ」のベクトルＶ_Ｄについても乱数で初期化して２次元空間に配置する。

【0019】

次に、図１１Ｃに示すように、ナレッジグラフ埋め込みは、学習により、Ｖ_Ａ＋Ｖ_ｒ１がＶ_Ｂに、Ｖ_Ｃ＋Ｖ_ｒ１がＶ_Ｂに近くなるようにそれぞれのベクトルを最適化する。この結果、Ｂの位置が、学習により最適化される。すなわち、Ｖ_Ａ＋Ｖ_ｒ１が指す位置とＶ_Ｂが指す位置との距離が所定の範囲（スコア）内になるように、Ｖ_Ｃ＋Ｖ_ｒ１が指す位置とＶ_Ｂが指す位置との距離が所定の範囲（スコア）内になるように、学習される。

【0020】

一方、図１１Ｄに示すように、ナレッジグラフ埋め込みは、「Ｄ」のベクトルＶ_Ｄについては、学習により、Ｖ_Ｃ＋Ｖ_ｒ１がＶ_Ｄに近くなるように、Ｖ_Ａ＋Ｖ_ｒ１がＶ_Ｄから離れるように最適化する。

【0021】

次に、患者属性、疾病、使用している医薬品を１つのデータ（事例）としたナレッジグラフについてナレッジグラフ埋め込みの学習を適用し、適用して得られたベクトルデータを用いて新規データの副作用を予測することを考える。まず、既存データについては、予め、ナレッジグラフ埋め込みの学習を適用し、各ＲＤＦデータのエンティティおよびプロパティをｎ次元のベクトルに写像する。そして、既存データについては、事例ごとに、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）かがわかっている。

【0022】

ここで、患者属性、疾病、使用している医薬品を１つのデータ（事例）とした新規データが入力されると、学習処理は、新規データおよび既存データを含む全体のデータのナレッジグラフについてナレッジグラフ埋め込みの学習を適用する。そして、既存データについては、事例ごとに、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）かがわかっている。そこで、予測処理は、新規データの「事例」および既存データの「事例」に対応する埋め込みベクトルに、例えばＫ近傍法を用いて、新規データの「事例」について、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）か、ない（Ｆａｌｓｅ）か、を予測する。

【0023】

図１２は、新規データの副作用を予測する場合の学習対象の範囲の参考図である。図１２の左図には、既存データのナレッジグラフが表現されている。既存データには、病気、医薬品、患者属性を１つの事例とした、「事例１」，「事例２」，「事例３」についてのナレッジグラフが表されている。「事例１」，「事例２」ついては、「副作用」としてそれぞれ「副作用ａ」，「副作用ｂ」が接続されている。図１２の右図には、新規データのナレッジグラフが表現されている。新規データには、病気、医薬品、患者属性を１つの事例とした、「事例４」についてのナレッジグラフが表されている。「事例４」については、「副作用」が起こる可能性があるかわからない。そこで、「事例４」の副作用を予測する場合には、学習処理は、「事例４」および「事例１」～「事例３」のナレッジグラフについてナレッジグラフ埋め込みの学習を適用する。すなわち、図１２の実線で囲まれた部分が学習対象の範囲となる。

【0024】

学習の結果、各ＲＤＦデータのエンティティおよびプロパティのｎ次元の埋め込みベクトルが学習データとして計算される。

【0025】

図１３は、新規データの副作用の予測を示す参考図である。図１３に示すように、「事例１」，「事例２」，「事例３」，「事例４」の各エンティティは、５次元の埋め込みベクトルとして計算される。そして、「事例１」，「事例２」，「事例３」については、副作用としての「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）かがわかっている。

【0026】

予測処理は、「事例１」～「事例４」における埋め込みベクトルに、例えばＫ近傍法を用いて、新規データとしての「事例４」について、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）か、を予測する。例えば、予測処理は、＜１＞Ｋを予め決定する。ここでは、Ｋは「３」に決定されたとする。そして、予測処理は、＜２＞「事例４」のベクトルに最も近いベクトルをＫ個選択する。ここでは、Ｋは「３」であるので、「事例１」～「事例３」のベクトルが選択される。そして、予測処理は、＜３＞Ｋ個の「事例１」～「事例３」で副作用としての「静脈閉塞」のＴｒｕｅ、Ｆａｌｓｅを多数決する。ここでは、Ｔｒｕｅとなる事例は、「事例１」の１個であり、Ｆａｌｓｅとなる事例は、「事例２」，「事例３」の２個である。したがって、「事例４」の副作用としての「静脈閉塞」が起こる可能性は、多数決の結果、ない（Ｆａｌｓｅ）と予測される。

【0027】

ところが、新規データについて、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）かを予測するためには、新規データを含めた全体のデータを再度学習しなければならない。すなわち、新規データの副作用を予測するためには、新規データを含めて全体を学習し直す必要がある。この結果、新規のデータについて、特定の項目の真偽を予測する際、全体のデータを学習し直すコストがかかってしまうという問題がある。

【0028】

そこで、以降の実施例では、ナレッジグラフの埋め込みを用いて新規データについて特定の項目の真偽を予測する際に、予測コストを下げる情報処理装置について説明する。

【実施例0029】

［情報処理装置の構成］
図１は、実施例に係る情報処理装置の構成を示す機能ブロック図である。情報処理装置１は、予測対象のグラフデータに含まれるノードのラベルについて、既に学習した埋め込み予測の結果を用いてリンク予測を行い、学習結果データ（訓練データ）の中から、予測対象のグラフデータに類似するグラフデータを特定する。そして、情報処理装置１は、特定したグラフデータに基づいて、予測対象のグラフデータに対する予測結果を決定する。なお、実施例では、情報処理装置１は、副作用がわかっている患者属性、疾病、使用している医薬品を１つのデータ（事例）とした既存のナレッジグラフのグラフデータについてナレッジグラフ埋め込みの学習を適用する。そして、情報処理装置１は、適用して得られたベクトルデータ（埋め込みベクトル）を用いて、新規データの副作用が「静脈閉塞」の可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）か、を予測する。

【0030】

情報処理装置１は、制御部１０と、記憶部２０とを有する。制御部１０は、学習部１１、判定部１２および予測部１３を有する。記憶部２０は、学習対象データ２１、新規データ２２、ナレッジグラフ２３、学習結果データ２４および予測結果データ２５を有する。

【0031】

学習対象データ２１は、学習対象を示す既存データである。学習対象データ２１は、例えば、患者属性、疾病、使用している医薬品および副作用を対応付けたデータ（事例）である。

【0032】

ここで、学習対象データ２１の一例を、図２を参照して説明する。図２は、学習対象データの一例を示す図である。図２に示すように、学習対象データ２１は、ｂ＿ｎａｍｅ，ｃ＿ｇｅｎｄｅｒ，ｃ＿ｗｅｉｇｈｔ，ｃ＿ａｇｅ，ｃ＿ｈｅｉｇｈｔ，ｄｄ＿ｇｎａｍｅおよびｎｎ＿ｎａｍｅを１レコードとして対応付けた情報である。１レコードは、１つの事例に対応する。ｂ＿ｎａｍｅは、病気の名称を示す。ｃ＿ｇｅｎｄｅｒは、患者の性別である。ｃ＿ｗｅｉｇｈｔは、患者の体重である。ｃ＿ａｇｅは、患者の年齢である。ｃ＿ｈｅｉｇｈｔは、患者の身長である。ｃ＿ｇｅｎｄｅｒ、ｃ＿ｗｅｉｇｈｔ、ｃ＿ａｇｅおよびｃ＿ｈｅｉｇｈｔは、例えば、患者属性である。ｄｄ＿ｇｎａｍｅは、使用している医薬品の名称を示す。ｎｎ＿ｎａｍｅは、副作用の内容を示す。

【0033】

一例として、３レコード目の事例の場合には、ｂ＿ｎａｍｅとして「アルコール摂取」、ｃ＿ｇｅｎｄｅｒとして「男性」、ｃ＿ｗｅｉｇｈｔとして「７０ｋｇ台」、ｃ＿ａｇｅとして「６０歳台」、ｃ＿ｈｅｉｇｈｔとして「１７０ｃｍ台」を記憶している。さらに、ｄｄ＿ｇｎａｍｅとして「リラグルチド（遺伝子組換え）」、副作用として「静脈閉塞」を記憶している。

【0034】

図１に戻って、新規データ２２は、予測対象の新たなデータである。新規データ２２は、例えば、患者属性、疾病および使用している医薬品を対応付けたデータ（事例）である。すなわち、新規データ２２は、副作用が「静脈閉塞」の可能性があるか否かを予測対象としたデータである。

【0035】

ここで、新規データ２２の一例を、図３を参照して説明する。図３は、新規データの一例を示す図である。図３に示すように、新規データ２２は、ｂ＿ｎａｍｅ，ｃ＿ｇｅｎｄｅｒ，ｃ＿ｗｅｉｇｈｔ，ｃ＿ａｇｅ，ｃ＿ｈｅｉｇｈｔ，ｄｄ＿ｇｎａｍｅおよびｎｎ＿ｎａｍｅを１レコードとして対応付けた情報である。１レコードは、１つの事例に対応する。各項目は、図２の学習対象データ２１と同じであるので、その説明を省略する。新規データ２２には、副作用の名称を示すｎｎ＿ｎａｍｅの内容が空白である。このｎｎ＿ｎａｍｅの内容が予測したい項目である。

【0036】

図１に戻って、ナレッジグラフ２３は、予め定められたＥＲ図に沿って、学習対象データ２１および新規データ２２それぞれをグラフデータに変換した情報である。グラフデータは、事例ごとに、変換される。そして、グラフデータは、１つの事例について、エンティティ、プロパティ、エンティティの３つのデータを１組とした複数のＲＤＦデータから構成される。なお、ＥＲ図は、エンティティ（Ｅｎｔｉｔｙ）とエンティティとの関係（Ｒｅｌａｔｉｏｎｓｈｉｐ）を設計した図である。

【0037】

ここで、学習対象データ２１および新規データ２２のそれぞれのナレッジグラフの一例を、図４および図５を参照して説明する。

【0038】

図４は、学習対象データのナレッジグラフの一例を示す図である。図４に示すように、ナレッジグラフ２３ａに含まれる各グラフデータは、学習対象データ２１の各レコード（事例）を変換したものである。例えば、「事例１」については、例えば、「事例１→医薬品→医薬品Ａ」、「事例１→患者→患者１」、「事例１→病気→Ｘ病」、「事例１→副作用→副作用ａ」のように、３つのデータを１組とした複数のＲＤＦデータから構成されている。例えば、「事例１→医薬品→医薬品Ａ」では、「事例１」および「医薬品Ａ」がエンティティであり、「医薬品」がプロパティであり、「事例１の医薬品は医薬品Ａである」という関係性を持っている。「事例１→副作用→副作用ａ」では、「事例１」および「副作用ａ」がエンティティであり、「副作用」がプロパティであり、「事例１の副作用は副作用ａである」という関係性を持っている。なお、「事例３」については、患者属性のＲＤＦデータおよび副作用のＲＤＦデータが含まれていないが、かかる事例もナレッジグラフとして変換される。

【0039】

図５は、新規データのナレッジグラフの一例を示す図である。図５に示すように、ナレッジグラフ２３ｂが示すグラフデータは、新規データ２２のレコード（事例）を変換したものである。例えば、新規データ２２としての「事例４」についても、例えば、「事例４→医薬品→医薬品Ａ」、「事例４→患者→患者２」、「事例４→病気→Ｘ病」のように、３つのデータを１組とした複数のＲＤＦデータから構成されている。但し、「事例４」については、「事例４」の「副作用」がわかっていない。

【0040】

図１に戻って、学習結果データ２４は、学習対象データ２１から変換された複数のグラフデータに含まれるＲＤＦデータを用いて、ナレッジグラフ埋め込みの学習を適用した結果を示す情報である。学習結果データ２４は、学習対象データ２１から変換された複数のグラフデータを構成するエンティティ、プロパティそれぞれに対して、ナレッジグラフ埋め込みの学習で数学的に表現されたｎ次元の埋め込みベクトルを紐づけた情報である。なお、複数のグラフデータの中でエンティティのラベルが同一の場合があるが、その場合には、エンティティのラベルは同じベクトルの値となる。同様に、複数のグラフデータの中でプロパティのラベルが同一の場合があるが、その場合には、プロパティのラベルは同じベクトルの値となる。

【0041】

加えて、学習結果データ２４には、各グラフデータに、副作用に関する情報が紐づけられる。副作用に関する情報は、例えば、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）かを示す情報である。なお、学習結果データ２４は、後述する学習部１１によって生成される。学習結果データ２４の一例については、後述する。

【0042】

予測結果データ２５は、新規データ２２から変換されたグラフデータについて、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）か、ない（Ｆａｌｓｅ）かを予測した結果を示す情報である。なお、予測結果データ２５は、後述する予測部１３によって生成される。

【0043】

学習部１１は、学習対象データ２１から変換された複数のグラフデータに含まれるＲＤＦデータを用いてナレッジグラフ埋め込みの学習を適用する。言い換えれば、学習部１１は、学習対象データ２１から変換された複数のグラフデータを構成するエンティティ、プロパティそれぞれに対して、ナレッジグラフ埋め込みの学習を適用して、ｎ次元の埋め込みベクトルを生成する。そして、学習部１１は、学習結果を学習結果データ２４に格納する。すなわち、学習部１１は、学習対象の複数のグラフデータを構成するエンティティ、プロパティそれぞれに対して、学習した結果を示すｎ次元の埋め込みベクトルを学習結果データ２４に格納する。加えて、学習部１１は、学習対象のグラフデータの先頭のノード（エンティティ）に副作用に関する情報を対応付けて、学習結果データ２４に格納する。副作用に関する情報は、例えば、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）かを示す情報である。副作用に関する情報は、学習対象データ２１の中の事例ごとのｎｎ＿ｎａｍｅの内容を対応付ければ良い。なお、ナレッジグラフ埋め込みの学習の方法は、図１１Ａ～図１１Ｄを参照して説明したので、その説明を省略する。また、学習は、訓練の一例である。

【0044】

ここで、学習結果データ２４の一例について、図６を参照して説明する。図６は、実施例に係る学習結果データの一例を示す図である。図６に示すように、学習結果データ２４は、ＩＤ、学習結果および静脈閉塞を対応付けて記憶する。ＩＤは、学習対象のグラフデータを構成するエンティティおよびプロパティのラベルを示す。学習結果に対する内容は、５次元の埋め込みベクトルを示す。なお、学習結果に対する内容は、５次元の埋め込みベクトルに限定されず、ｎ次元の埋め込みベクトル（ｎは２以上）であれば良い。

【0045】

また、静脈閉塞に対する内容は、グラフデータの先頭のノード（エンティティ）を示す「事例」に対応付けられ、副作用として「静脈閉塞」が起こる可能性がある（Ｔｒｕｅ）かない（Ｆａｌｓｅ）かを示したものである。静脈閉塞に対する内容は、学習対象データ２１に記憶された事例ごとの副作用の内容（ｎｎ＿ｎａｍｅ）から対応付けられれば良い。

【0046】

一例として、ＩＤが「事例１」である場合には、学習結果として（０．２，０．３，０．１，０．５，０．８）、静脈閉塞として「ＴＲＵＥ」を記憶している。また、ＩＤが「医薬品Ａ」である場合には、学習結果として５次元の埋め込みベクトルを記憶している。

【0047】

判定部１２は、予測対象のグラフデータが、ナレッジグラフの埋め込みの学習に用いられた学習対象データ２１に含まれないノード間の関係を示すノードリンクを含むデータであるか否かを判定する。判定部１２は、予測対象のグラフデータが、学習対象データ２１に含まれないノード間の関係を示すノードリンクを含むデータである場合には、予測対象のグラフデータを新規データとする。

【0048】

ここで、新規データについて説明する。新規データとは、学習対象データ２１に含まれていない新しい事例を示すデータのことをいう。但し、新規データは、学習データに含まれていない新しい事例を示すデータであるが、完全に新しい事例を示すデータではない。例えば、新規データは、同じ病気の同じ患者に今までとは異なる医薬品を投与するような場合であったり、同じ病気であるが患者属性が異なる患者に既存の医薬品を投与するような場合であったりする。つまり、新規データは、病気、患者属性および医薬品がすべて新しいデータを除外し、病気、患者属性および医薬品のいずれかが新しいデータを意味する。

【0049】

具体的には、図４で示す学習対象データ２１のグラフデータがある場合に、図５で示すグラフデータは、学習対象データ２１に含まれていない新しい事例を示すデータである。つまり、図５で示すグラフデータの「事例４」は、年齢が「５０歳」および体重が「７０ｋｇ」の患者属性を持つ「患者２」について、病気が「Ｘ病」で医薬品として「医薬品Ａ」を投与する場合である。学習対象データ２１には、「患者２」について、「Ｙ病」で「医薬品Ａ」を投与した場合は「事例２」にあるが、「Ｘ病」で「医薬品Ａ」を投与した事例はない。また、学習対象データ２１には、「Ｘ病」で「医薬品Ａ」を投与した場合は「事例１」にあるが、「事例１」は「事例４」の患者属性と異なる。すなわち、「事例１」の「患者１」は年齢が「５０歳」および体重が「６０ｋｇ」の患者属性を持つ患者であるが、「事例４」の「患者２」の患者属性（年齢→「５０歳」，体重→「６０ｋｇ」）と異なる。したがって、「事例４」のグラフデータは、学習対象データ２１に含まれていない新しい事例であるので、新規データである。

【0050】

図１に戻って、例えば、判定部１２は、予測対象のグラフデータが、学習対象データ２１（既存データ）のいずれかのグラフデータに含まれるか否かを判定する。一例として、判定部１２は、予測対象のグラフデータの先頭のノード以外のノードのラベルが完全一致するようなグラフデータが既存データのグラフデータに存在するか否かを判定する。具体的には、予測対象であるグラフデータが図５で示すグラフデータである場合であり、既存データであるグラフデータが図４で示すグラフデータである場合について説明する。予測対象のグラフデータは、医薬品が「医薬品Ａ」、患者について年齢が「５０歳」、体重が「７０ｋｇ」、病気が「Ｘ病」であるが、判定部１２は、これらに完全一致するようなグラフデータが既存データのグラフデータに存在するか否かを判定する。ここでは、判定部１２は、これらに完全一致するようなグラフデータが既存データの３つのグラフデータに存在しないので、予測対象のグラフデータを新規データとする。

【0051】

予測部１３は、予測対象のグラフデータが新規データであると判定された場合、予測対象のグラフデータに含まれるノードのラベルについての埋め込み予測の結果に基づいて、学習対象データ２１の中から、予測対象のグラフデータに類似するグラフデータを特定する。

【0052】

例えば、予測部１３は、学習対象データ２１のナレッジグラフを参照して、予測対象のグラフデータに含まれる既知のエンティティのラベルおよびプロパティのラベルを探索する。そして、予測部１３は、探索できた既知のエンティティおよびプロパティのラベルについての既に学習された埋め込みベクトルを用いて、学習対象データ２１に含まれる複数のグラフデータ（事例）とのリンク予測を行うことでスコア（距離）を計算する。既に学習された埋め込みベクトルは、学習結果データ２４から取得されれば良い。なお、予測対象のグラフデータに含まれる既知のエンティティのラベルが複数存在する場合には、予測部１３は、複数の既知のエンティティのラベルについて、学習対象データ２１に含まれる複数のグラフデータとのスコア（距離）を計算するようにすれば良い。

【0053】

一例として、予測対象のグラフデータ「４」に、既知のエンティティのラベルとして「医薬品Ａ」、既知のプロパティのラベルとして「医薬品」が含まれている場合のスコアの計算方法について説明する。学習対象データ２１のナレッジグラフに含まれるグラフデータについては、構成されるエンティティおよびプロパティのラベルに埋め込みベクトルが対応付けられ、学習結果データ２４に格納されている。そして、既知の「医薬品Ａ」および「医薬品」については、既に学習された埋め込みベクトルが学習結果データ２４に格納されている。そこで、予測部１３は、既知のエンティティのラベル「医薬品Ａ」と既知のグラフデータの先頭のノードのラベルとのリンク予測を行うことでスコア（距離）を計算する。既知のグラフデータの先頭のノードラベルが「事例１」である場合には、スコア（距離）は、｜「医薬品Ａ」－「医薬品」－「事例１」｜の計算式で計算される。ナレッジグラフ埋め込みの学習は、ＲＤＦデータが（Ａ，ｒ１，Ｂ）である場合には、「Ａ」＋「ｒ１」が「Ｂ」に近くなるように写像する。そこで、予測部１３は、（「医薬品Ａ」－「医薬品」－「事例１」）の絶対値を計算することで、「医薬品Ａ」と「事例１」とのスコア（距離）を計算できる。

【0054】

そして、予測部１３は、既知のエンティティのラベルに対して、複数のグラフデータごとに、スコア（距離）の小さい順に順位を付ける。そして、予測部１３は、複数のグラフデータごとに、順位とスコアとを乗算して、順位スコアを付ける。順位スコアを付けるのは、距離が近い（スコアが小さい）グラフデータをより近く（小さく）なるようにメリハリをつけるためである。そして、予測部１３は、複数のグラフデータの中から、順位スコアの最も小さいグラフデータを、予測対象のグラフデータに類似するグラフデータとして特定する。

【0055】

なお、既知のエンティティのラベルが複数存在する場合には、予測部１３は、それぞれの既知のエンティティのラベルに対して、複数のグラフデータごとに、順位スコアを付ける。そして、予測部１３は、複数のグラフデータごとに、順位スコアの合計を計算して、トータルスコアを付ける。そして、予測部１３は、複数のグラフデータの中から、トータルスコアの最も小さいグラフデータを、予測対象のグラフデータに類似するグラフデータとして特定すれば良い。

【0056】

そして、予測部１３は、特定した類似するグラフデータに基づいて、予測対象のグラフデータに対する予測結果を決定する。一例として、予測部１３は、学習対象データ２１を参照して、特定した類似するグラフデータに対応するレコード（事例）の副作用の内容（ｎｎ＿ｎａｍｅ）を取得する。そして、予測部１３は、取得した副作用の内容が「静脈閉塞」であれば、「静脈閉塞」が起こる可能性があるとして「Ｔｒｕｅ」を、予測対象のグラフデータに対する予測結果として決定する。また、予測部１３は、取得した副作用の内容が「静脈閉塞」でなければ、「静脈閉塞」が起こる可能性がないとして「Ｆａｌｓｅ」を、予測対象のグラフデータに対する予測結果として決定する。

【0057】

別の例として、予測部１３は、学習結果データ２４を参照して、特定した類似するグラフデータに対して「静脈閉塞」を予測した結果を取得する。そして、予測部１３は、取得した「静脈閉塞」を予測した結果（ＴｒｕｅまたはＦａｌｓｅ）を、予測対象のグラフデータに対する予測結果として決定する。

【0058】

図７は、実施例に係る学習対象の範囲を示す図である。図７には、既存データ（学習対象データ２１）および新規データのナレッジグラフ２３が表現されている。図７の左図には、既存データ（学習対象データ２１）のナレッジグラフ２３ａが表現されている。既存データには、病気、医薬品、患者属性を１つの事例とした、「事例１」，「事例２」，「事例３」についてのナレッジグラフが表されている。「事例１」，「事例２」ついては、「副作用」としてそれぞれ「副作用ａ」，「副作用ｂ」が接続されている。図７の右図には、新規データのナレッジグラフ２３ｂが表現されている。新規データには、病気、医薬品、患者属性を１つの事例とした、「事例４」についてのナレッジグラフが表されている。「事例４」については、「副作用」が起こる可能性があるかわからない。

【0059】

このような状況の下、実施例では、学習部１１は、既存データを示す事例「１」～事例「３」のナレッジグラフ２３ａについてナレッジグラフ埋め込みの学習を適用する。すなわち、実施例に係る学習対象の範囲は、新規データを対象とせず、図７の実線で囲まれた既存データだけを対象とする。これにより、学習部１１は、新規データについて、特定の項目についてＴｒｕｅかＦａｌｓｅかを予測する際に、新規データを含めて学習し直さなくても良いので、予測コストを下げることができる。

【0060】

図８Ａ～図８Ｃは、実施例に係る予測処理を説明する図である。

【0061】

図８Ａには、新規データのナレッジグラフ２３ｂが表されている。ここで使用する新規データのグラフデータは、図７の右図に示すグラフデータと同じものである。また、図示しないが、ここで使用する既存データの複数のグラフデータは、図７の左図に示すグラフデータと同じものとする。

【0062】

このような状況の下、予測部１３は、学習対象データ２１のナレッジグラフを参照して、予測対象のグラフデータに含まれる既知のエンティティのラベルおよびプロパティのラベルを探索する。ここでは、既知のエンティティのラベルとして「医薬品Ａ」、既知のプロパティのラベルとして「医薬品」が探索される（符号ｃ１）。また、既知のエンティティのラベルとして「患者２」、既知のプロパティのラベルとして「患者」が探索される（符号ｃ２）。また、既知のエンティティのラベルとして「Ｘ病」、既知のプロパティのラベルとして「病気」が探索される（符号ｃ３）。そこで、予測部１３は、「医薬品」が「医薬品Ａ」、「患者」が「患者２」、「病気」が「Ｘ病」について、既存データに含まれる各事例とのスコア（距離）を予測する。

【0063】

図８Ｂに示すように、予測部１３は、予測対象のグラフデータに含まれる既知のエンティティおよびプロパティのラベルについての既に学習された埋め込みベクトルを用いる。そして、予測部１３は、リンク予測を行うことで、既知のエンティティのラベルと既存データに含まれる複数の事例とのスコア（距離）を計算する。

【0064】

ここでは、予測部１３は、既知のエンティティのラベル「医薬品Ａ」と「事例１」とのスコア（距離）を計算する。「医薬品Ａ」と「事例１」とのスコア（距離）は、｜「医薬品Ａ」－「医薬品」－「事例１」｜の計算式で計算される。同様に、「医薬品Ａ」と「事例２」とのスコア（距離）は、｜「医薬品Ａ」－「医薬品」－「事例２」｜の計算式で計算される。「医薬品Ａ」と「事例３」とのスコア（距離）は、｜「医薬品Ａ」－「医薬品」－「事例３」｜の計算式で計算される。「医薬品Ａ」については、事例ごとに、スコアが図８Ｂの左表のように表される。事例が「事例１」の場合に、スコアとして「０．１」、事例が「事例２」の場合に、スコアとして「０．２」、事例が「事例３」の場合に、スコアとして「０．３」と計算される。したがって、「事例１」、「事例２」、「事例３」の順番で順位が決定される。さらに、順位スコアは、順位とスコアとを乗算して得られる。したがって、事例が「事例１」の場合に、順位スコアとして「０．１」、事例が「事例２」の場合に、順位スコアとして「０．４」、事例が「事例３」の場合に、順位スコアとして「０．９」と計算される。

【0065】

同様に、予測部１３は、既知のエンティティのラベル「患者２」と「事例１」とのスコア（距離）を計算する。「患者２」と「事例１」とのスコア（距離）は、｜「患者２」－「患者」－「事例１」｜の計算式で計算される。同様に、「患者２」と「事例２」とのスコア（距離）は、｜「患者２」－「患者」－「事例２」｜の計算式で計算される。「患者２」と「事例３」とのスコア（距離）は、｜「患者２」－「患者」－「事例３」｜の計算式で計算される。「患者２」については、事例ごとに、スコアが図８Ｂの中表のように表される。事例が「事例１」の場合に、スコアとして「０．３」、事例が「事例２」の場合に、スコアとして「０．２」、事例が「事例３」の場合に、スコアとして「０．４」と計算される。したがって、「事例２」、「事例１」、「事例３」の順番で順位が決定される。さらに、順位スコアは、順位とスコアとを乗算して得られる。したがって、事例が「事例１」の場合に、順位スコアとして「０．６」、事例が「事例２」の場合に、順位スコアとして「０．２」、事例が「事例３」の場合に、順位スコアとして「１．２」と計算される。

【0066】

同様に、予測部１３は、既知のエンティティのラベル「Ｘ病」と「事例１」とのスコア（距離）を計算する。「Ｘ病」と「事例１」とのスコア（距離）は、｜「Ｘ病」－「病気」－「事例１」｜の計算式で計算される。同様に、「Ｘ病」と「事例２」とのスコア（距離）は、｜「Ｘ病」－「病気」－「事例２」｜の計算式で計算される。「Ｘ病」と「事例３」とのスコア（距離）は、｜「Ｘ病」－「病気」－「事例３」｜の計算式で計算される。「Ｘ病」については、事例ごとに、スコアが図８Ｂの右表のように表される。事例が「事例１」の場合に、スコアとして「０．４」、事例が「事例２」の場合に、スコアとして「０．６」、事例が「事例３」の場合に、スコアとして「０．２」と計算される。したがって、「事例３」、「事例１」、「事例２」の順番で順位が決定される。さらに、順位スコアは、順位とスコアとを乗算して得られる。したがって、事例が「事例１」の場合に、順位スコアとして「０．８」、事例が「事例２」の場合に、順位スコアとして「０．２」、事例が「事例３」の場合に、順位スコアとして「１．８」と計算される。

【0067】

図８Ｃに示すように、予測部１３は、複数のグラフデータ（事例）ごとに、順位スコアの合計を計算して、トータルスコアを付ける。ここでは、「事例１」について、予測部１３は、「医薬品Ａ」との順位スコア「０．１」と、「患者２」との順位スコア「０．６」と、「Ｘ病」との順位スコア「０．８」とを合計して、トータルスコア「１．５」を算出する。「事例２」について、予測部１３は、「医薬品Ａ」との順位スコア「０．４」と、「患者２」との順位スコア「０．２」と、「Ｘ病」との順位スコア「１．８」とを合計して、トータルスコア「２．４」を算出する。「事例３」について、予測部１３は、「医薬品Ａ」との順位スコア「０．９」と、「患者２」との順位スコア「１．２」と、「Ｘ病」との順位スコア「０．２」とを合計して、トータルスコア「２．３」を算出する。

【0068】

そして、予測部１３は、複数のグラフデータ（事例）の中から、トータルスコアの最も小さいグラフデータ（事例）を、予測対象のグラフデータ（事例４）に類似するグラフデータ（事例）として特定する。ここでは、トータルスコアの最も小さい事例は、「事例１」である。したがって、予測部１３は、「事例１」を予測対象の「事例４」に類似する事例として特定する（符号ｇ１）。

【0069】

そして、予測部１３は、学習結果データ２４を参照して、特定した類似するグラフデータ（事例）に対して「静脈閉塞」を予測した結果を取得する。ここでは、特定した類似する事例は、「事例１」である。そこで、予測部１３は、「事例１」に対して「静脈閉塞」を予測した結果「ＴＲＵＥ」を取得する（符号ｇ２）。

【0070】

そして、予測部１３は、取得した「静脈閉塞」を予測した結果を示す「ＴＲＵＥ」を、予測対象の「事例４」に対する予測結果として決定し、予測結果データ２５に格納する（符号ｇ３）。これにより、予測部１３は、新規データ（事例４）について、既に学習した項目の埋め込みベクトルを用いて「事例４」に類似する既存の「事例」を特定し、「静脈閉塞」の発生の可能性を予測する。この結果、予測部１３は、新規データ（事例４）について、「静脈閉塞」の発生の可能性を予測する際に、予測コストを下げることができる。

【0071】

図９は、実施例に係る予測処理のフローチャートの一例を示す図である。なお、学習部１１は、学習対象データ２１から変換された複数のグラフデータに含まれるＲＤＦデータを用いてナレッジグラフ埋め込みの学習を適用し、学習結果を学習結果データ２４に格納したとする。そして、予測対象のグラフデータを示す入力データが受け付けられたとする。

【0072】

図９に示すように、判定部１２は、受け付けられた入力データが既存のデータに含まれるか否かを判定する（ステップＳ１１）。例えば、判定部１２は、予測対象のグラフデータが、学習対象データ２１（既存データ）のいずれかのグラフデータに含まれるか否かを判定する。一例として、判定部１２は、予測対象のグラフデータの先頭のノード以外のノードのラベルが完全一致するようなグラフデータが既存データのグラフデータに存在するか否かを判定する。

【0073】

入力データが既存のデータに含まれていると判定した場合には（ステップＳ１１；Ｙｅｓ）、判定部１２は、既存のデータから合致するデータを得て目的変数の値を取得する（ステップＳ１２）。ここでいう目的変数とは、例えば「静脈閉塞」のことをいい、目的変数の値とは、例えば「Ｆａｌｓｅ」または「Ｔｒｕｅ」のことをいう。例えば、判定部１２は、学習結果データ２４を参照して、完全一致するようなグラフデータが示す事例に対応する「静脈閉塞」の内容を取得する。そして、判定部１２は、予測処理を終了する。

【0074】

一方、入力データが既存のデータに含まれていないと判定した場合には（ステップＳ１１；Ｎｏ）、予測部１３は、既知の項目のデータを用いて、リンク予測を実施する（ステップＳ１３）。例えば、予測部１３は、学習対象データ２１のナレッジグラフを参照して、予測対象のグラフデータに含まれる既知のエンティティのラベルおよびプロパティのラベルを探索する。そして、予測部１３は、探索できた既知のエンティティおよびプロパティのラベルについての既に学習された埋め込みベクトルを用いて、学習対象データ２１に含まれる複数のグラフデータ（事例）とのリンク予測を行うことでスコア（距離）を計算する。

【0075】

そして、予測部１３は、既知の項目について、既存のデータごとに、スコア、順位を取得する（ステップＳ１４）。例えば、予測部１３は、既知のエンティティのラベルと、学習対象データ２１のナレッジグラフに含まれる各グラフデータ（事例）とのスコア（距離）および順位を取得する。なお、予測部１３は、既知のエンティティのラベルが複数存在する場合には、各ラベルについて、各グラフデータ（事例）とのスコア（距離）および順位を取得する。

【0076】

そして、予測部１３は、既知の項目について、既知のデータごとに、スコアと順位を掛けて順位スコアを計算する（ステップＳ１５）。そして、予測部１３は、既知のデータごとに、すべての既知の項目の順位スコアの合計値を全体予測のスコア（トータルスコア）に設定する（ステップＳ１６）。

【0077】

そして、予測部１３は、全体予測のスコア（トータルスコア）の値が最も小さい既知のデータを、入力データの類似データとして、目的変数の値を取得する（ステップＳ１７）。すなわち、予測部１３は、複数のグラフデータの中から、トータルスコアの最も小さいグラフデータを、予測対象のグラフデータに類似するグラフデータとして特定する。そして、予測部１３は、学習結果データ２４を参照して、特定した類似するグラフデータに対して「静脈閉塞」を予測した結果を取得する。そして、予測部１３は、取得した「静脈閉塞」を予測した結果（ＴｒｕｅまたはＦａｌｓｅ）を、予測対象のグラフデータに対する予測結果として決定する。そして、判定部１２は、予測処理を終了する。

【0078】

［実施例の効果］
上記実施例によれば、情報処理装置１は、予測対象のグラフデータが、ナレッジグラフの埋め込みの訓練に用いられた訓練データに含まれないノード間の関係を示すノードリンクを含むデータであるか否かを判定する。情報処理装置１は、予測対象のグラフデータが訓練データに含まれないノードリンクを含むデータであると判定した場合、予測対象のグラフデータに含まれるノードのラベルについての埋め込み予測の結果に基づいて、訓練データの中から、予測対象のグラフデータに類似するグラフデータを特定する。そして、情報処理装置１は、特定した類似するグラフデータに基づいて、予測対象のグラフデータに対する予測結果を決定する。かかる構成によれば、情報処理装置１は、ナレッジグラフの埋め込みにおいて、予測対象のグラフデータについて特定の項目のＴｒｕｅかＦａｌｓｅかの真偽を予測する際に、予測コストを下げることができる。すなわち、情報処理装置１は、予測対象のグラフデータを含んで再学習しなくても、予測結果を予測することができるので、予測コストを下げることができる。

【0079】

また、上記実施例によれば、情報処理装置１は、予測対象のグラフデータに含まれるノードのラベルに、既に訓練されたノードのラベルの埋め込みベクトルを用いて、訓練データに含まれる複数のグラフデータとのリンク予測を行うことでノードのラベルと各グラフデータとの類似性を計算する。そして、情報処理装置１は、複数のグラフデータの中から最も類似するグラフデータを予測対象のグラフデータに類似するグラフデータとして特定する。かかる構成によれば、情報処理装置１は、リンク予測を用いて、予測対象のグラフデータに含まれるノードのラベルと訓練データに含まれる複数のグラフデータとの類似性を計算し、予測対象のグラフデータに類似するグラフデータを特定する。この結果、情報処理装置１は、リンク予測を用いることで、訓練された複数のグラフデータの中から予測対象のグラフデータに類似するグラフデータを特定し、特定したグラフデータを予測に用いることで予測コストを下げることができる。

【0080】

また、上記実施例によれば、ノードのラベルとグラフデータとの類似性は、ノードのラベルとグラフデータとの距離である。予測対象のグラフデータに含まれるノードのラベルは、訓練データに含まれる既に訓練されたノードのラベルと同一のラベルである。情報処理装置１は、予測対象のグラフデータに含まれるノードのラベルが複数存在する場合には、複数のノードそれぞれのラベルに対する複数のグラフデータそれぞれとの距離を用いて、複数のグラフデータの中から距離が最も小さいグラフデータを特定する。かかる構成によれば、情報処理装置１は、予測対象のグラフデータに含まれるノードのラベルを複数用いることで、予測対象のグラフデータに類似するグラフデータを精度良く特定することができる。

【0081】

また、上記実施例によれば、情報処理装置１は、複数のグラフデータそれぞれについて、複数のノードそれぞれのラベルとの距離の合計値を用いて、複数のグラフデータの中から距離の合計値が最も小さいグラフデータを特定する。かかる構成によれば、情報処理装置１は、予測対象のグラフデータに含まれるノードのラベルを複数用いることで、予測対象のグラフデータと類似するグラフデータを精度良く特定することができる。

【0082】

また、上記実施例によれば、情報処理装置１は、類似するグラフデータに含まれる特定のノードのラベルに応じた値を、予測対象のグラフデータに対する予測結果として決定する。かかる構成によれば、情報処理装置１は、例えば、類似するグラフデータに含まれる特定のノードのラベルが副作用を示す「静脈閉塞」である場合、副作用として「静脈閉塞」が起こる可能性があるか、ないかを示す値を予測結果として決定することができる。

【0083】

［その他］
なお、図示した情報処理装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、情報処理装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、判定部１２と、予測部１３とを１つの部として統合しても良い。また、記憶部２０を情報処理装置１の外部装置としてネットワーク経由で接続するようにしても良い。

【0084】

また、上記実施例では、情報処理装置が、学習処理と予測処理とを含む構成で説明した。しかしながら、学習処理を行う学習装置と予測処理を行う予測装置とに分離する構成としても良い。

【0085】

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示した情報処理装置１の予測処理と同様の機能を実現する予測プログラムを実行するコンピュータの一例を説明する。図１０は、予測プログラムを実行するコンピュータの一例を示す図である。

【0086】

図１０に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９を制御する表示制御部２０７とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、ドライブ装置２１３、入力装置２１５、通信制御部２１７は、バス２１９で接続されている。

【0087】

ドライブ装置２１３は、例えばリムーバブルディスク２１１用の装置である。ＨＤＤ２０５は、予測プログラム２０５ａおよび予測処理関連情報２０５ｂを記憶する。

【0088】

ＣＰＵ２０３は、予測プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは、情報処理装置１の各機能部に対応する。予測処理関連情報２０５ｂは、学習対象データ２１、新規データ２２、ナレッジグラフ２３、学習結果データ２４および予測結果データ２５に対応する。そして、例えばリムーバブルディスク２１１が、予測プログラム２０５ａなどの各情報を記憶する。

【0089】

なお、予測プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、光磁気ディスク、ＩＣ（Integrated Circuit）カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから予測プログラム２０５ａを読み出して実行するようにしても良い。

【符号の説明】

【0090】

１情報処理装置
１０制御部
１１学習部
１２判定部
１３予測部
２０記憶部
２１学習対象データ
２２新規データ
２３ナレッジグラフ
２４学習結果データ
２５予測結果データ

【図1】