特許7416082 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7416082学習方法、学習装置、学習プログラム、予測方法、予測装置および予測プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5A
5B
5C
5D
5E
5F
5G
5H
6
7A
7B
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-09

(45)【発行日】2024-01-17

(54)【発明の名称】学習方法、学習装置、学習プログラム、予測方法、予測装置および予測プログラム

(51)【国際特許分類】

G06F 16/28 20190101AFI20240110BHJP

【ＦＩ】

G06F16/28

【請求項の数】 12

(21)【出願番号】P 2021550826

(86)(22)【出願日】2019-10-01

(86)【国際出願番号】 JP2019038822

(87)【国際公開番号】W WO2021064879

(87)【国際公開日】2021-04-08

【審査請求日】2022-03-23

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】鵜飼孝典

(72)【発明者】

【氏名】岡嶋成司

【審査官】吉田誠

(56)【参考文献】

【文献】特開２０１８－１５６３３２（ＪＰ，Ａ）

【文献】蛭子琢磨ほか，知識グラフの補完におけるＴｒａｎｓｌａｔｉｏｎ－ｂａｓｅｄＭｏｄｅｌｓの発展と課題，一般社団法人人工知能学会研究会ＳＷＯ：セマンティックウェブとオントロジー研究会，日本，一般社団法人人工知能学会，2018年03月18日，03-1～03-6ページ

【文献】大貫陽平，ＤＮＮによるＲＤＦ上の単語間の関係の予測，一般社団法人人工知能学会研究会ＳＷＯ：セマンティックウェブとオントロジー研究会ＳＩＧ－ＳＷＯ－，日本，一般社団法人人工知能学会，2017年02月26日，02-01～02-08ページ

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

第１の集合に属する主語および目的語の文字列と、第２の集合に属する述語の文字列とをベクトル表現してベクトル空間に埋め込む学習を行う学習方法において、
主語、述語および目的語を１組とする、複数組のＲＤＦ（Resource Description Framework）データを取得し、
前記複数組のＲＤＦデータに含まれる第１の組の主語または目的語の文字列と、前記複数組のＲＤＦデータに含まれる第２の組の述語の文字列が同一である場合に、前記第１の組の主語の文字列をベクトル表現した主語ベクトルまたは目的語の文字列をベクトル表現した目的語ベクトルと、前記第２の組の述語の文字列をベクトル表現した述語ベクトルとが同一になるように、かつ、前記複数組のＲＤＦデータそれぞれについて、ＲＤＦデータに含まれる主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、ＲＤＦデータに含まれる目的語の文字列をベクトル表現した目的語のベクトルとの前記ベクトル空間における距離が所定値より小さくなるように、前記複数組のＲＤＦデータに含まれる文字列ごとにベクトル表現したベクトルを学習する
処理をコンピュータが実行する学習方法。

【請求項2】

該学習する処理は、前記複数組のＲＤＦデータに含まれる第１の組の主語または目的語の文字列と、前記複数組のＲＤＦデータに含まれる第２の組の述語の文字列が同一である場合に、前記第１の組の主語の文字列をベクトル表現した主語ベクトルまたは目的語の文字列をベクトル表現した目的語ベクトルと、前記第２の組の述語の文字列をベクトル表現した述語ベクトルとが同一になるように対応付けた教師データを生成する処理を含み、
該生成した教師データを用いて、前記複数組のＲＤＦデータそれぞれについて、ＲＤＦデータに含まれる主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、ＲＤＦデータに含まれる目的語の文字列をベクトル表現した目的語のベクトルとの前記距離が所定値より小さくなるように、前記複数組のＲＤＦデータに含まれる文字列ごとにベクトル表現したベクトルを学習する
ことを特徴とする請求項１に記載の学習方法。

【請求項3】

該学習する処理は、前記複数組のＲＤＦデータに含まれるそれぞれの組の主語、述語および目的語の文字列を入力し、該生成した教師データを用いて、前記主語の文字列をベクトル表現した主語のベクトルと前記述語の文字列をベクトル表現した述語のベクトルとの和と、前記目的語の文字列をベクトル表現した目的語のベクトルとの前記距離が所定値より小さくなるように学習し、入力した主語、述語および目的語の文字列の接続関係の有無を出力する学習モデルを生成する
ことを特徴とする請求項２に記載の学習方法。

【請求項4】

主語、述語または目的語のいずれかを予測対象とする組を入力すると、学習した結果に基づいて、前記予測対象の文字列を予測する
ことを特徴とする請求項１に記載の学習方法。

【請求項5】

該予測する処理は、
前記学習した結果に含まれる学習済みのベクトルの中から前記予測対象以外の所定語の文字列をベクトル表現したベクトルを取得し、
前記学習した結果に含まれる学習済みのベクトルの中から一つずつベクトルを選択し、
該選択したベクトルと、前記予測対象以外の所定語の文字列をベクトル表現したベクトルとを用いて、主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、目的語の文字列をベクトル表現した目的語のベクトルとの前記距離が所定値より小さいか否かを判定し、
小さいと判定した、選択したベクトルに対応する文字列を前記予測対象の文字列とする
ことを特徴とする請求項４に記載の学習方法。

【請求項6】

該予測する処理は、入力された組から予測対象以外の所定語の文字列を取得し、
前記学習した結果に含まれる学習済みの文字列の中から一つずつ文字列を選択し、
該選択した文字列と、前記予測対象以外の所定語の文字列とを用いて、前記学習した結果に含まれる学習モデルに、主語の文字列、述語の文字列、目的語の文字列として入力し、前記学習モデルから接続関係が有るか否かを出力し、接続関係が有ると出力された、選択した文字列を前記予測対象の文字列とする
ことを特徴とする請求項４に記載の学習方法。

【請求項7】

副作用報告事例に関する主語と、患者、疾患または医薬品に関する述語と、患者属性、病名、医薬品名または既知の副作用に関する目的語を１組として含む医療に関するＲＤＦデータであって、
該予測する処理は、前記学習した結果に基づいて、医薬品名を入力として、副作用を予測する
ことを特徴とする請求項４から請求項６のいずれか１つに記載の学習方法。

【請求項8】

第１の集合に属する主語および目的語の文字列と、第２の集合に属する述語の文字列とをベクトル表現してベクトル空間に埋め込む学習を行う学習装置において、
主語、述語および目的語を１組とする、複数組のＲＤＦ（Resource Description Framework）データを取得する取得部と、
前記複数組のＲＤＦデータに含まれる第１の組の主語または目的語の文字列と、前記複数組のＲＤＦデータに含まれる第２の組の述語の文字列が同一である場合に、前記第１の組の主語の文字列をベクトル表現した主語ベクトルまたは目的語の文字列をベクトル表現した目的語ベクトルと、前記第２の組の述語の文字列をベクトル表現した述語ベクトルとが同一になるように、かつ、前記複数組のＲＤＦデータそれぞれについて、ＲＤＦデータに含まれる主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、ＲＤＦデータに含まれる目的語の文字列をベクトル表現した目的語のベクトルとの前記ベクトル空間における距離が所定値より小さくなるように、前記複数組のＲＤＦデータに含まれる文字列ごとにベクトル表現したベクトルを学習する学習部と、
を有することを特徴とする学習装置。

【請求項9】

第１の集合に属する主語および目的語の文字列と、第２の集合に属する述語の文字列とをベクトル表現してベクトル空間に埋め込む学習を行う学習プログラムにおいて、
主語、述語および目的語を１組とする、複数組のＲＤＦ（Resource Description Framework）データを取得し、
前記複数組のＲＤＦデータに含まれる第１の組の主語または目的語の文字列と、前記複数組のＲＤＦデータに含まれる第２の組の述語の文字列が同一である場合に、前記第１の組の主語の文字列をベクトル表現した主語ベクトルまたは目的語の文字列をベクトル表現した目的語ベクトルと、前記第２の組の述語の文字列をベクトル表現した述語ベクトルとが同一になるように、かつ、前記複数組のＲＤＦデータそれぞれについて、ＲＤＦデータに含まれる主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、ＲＤＦデータに含まれる目的語の文字列をベクトル表現した目的語のベクトルとの前記ベクトル空間における距離が所定値より小さくなるように、前記複数組のＲＤＦデータに含まれる文字列ごとにベクトル表現したベクトルを学習する
処理をコンピュータに実行させることを特徴とする学習プログラム。

【請求項10】

第１の集合に属する主語および目的語の文字列と、第２の集合に属する述語の文字列とをベクトル表現してベクトル空間に埋め込んで学習を行った結果に基づいて、予測を行う予測方法において、
主語、述語または目的語のいずれかを予測対象とする主語、述語および目的語の入力データを取得し、
主語、述語および目的語を１組とする、複数組のＲＤＦ（Resource Description Framework）データに含まれる第１の組の主語または目的語の文字列と、前記複数組のＲＤＦデータに含まれる第２の組の述語の文字列が同一である場合に、前記第１の組の主語の文字列をベクトル表現した主語ベクトルまたは目的語の文字列をベクトル表現した目的語ベクトルと、前記第２の組の述語の文字列をベクトル表現した述語ベクトルとが同一になるように、かつ、前記複数組のＲＤＦデータについて、ＲＤＦデータに含まれる主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、ＲＤＦデータに含まれる目的語の文字列をベクトル表現した目的語のベクトルとの前記ベクトル空間における距離が所定値より小さくなるように、前記複数組のＲＤＦデータに含まれる文字列ごとにベクトル表現したベクトルを学習した結果に基づいて、前記予測対象以外の前記入力データに含まれる文字列をベクトル表現したベクトルを取得し、
前記学習した結果に含まれる学習済みの文字列をベクトル表現したベクトルの中から一つずつベクトルを選択し、
該選択したベクトルと、前記予測対象以外の前記入力データに含まれる文字列をベクトル表現したベクトルとを用いて、主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、目的語の文字列をベクトル表現した目的語のベクトルとの前記距離が所定値より小さいか否かを判定し、
小さいと判定した、選択したベクトルに対応する文字列を前記予測対象の文字列として予測する
処理をコンピュータが実行することを特徴とする予測方法。

【請求項11】

第１の集合に属する主語および目的語の文字列と、第２の集合に属する述語の文字列とをベクトル表現してベクトル空間に埋め込んで学習を行った結果に基づいて、予測を行う予測装置において、
主語、述語または目的語のいずれかを予測対象とする主語、述語および目的語の入力データを取得する第１の取得部と、
主語、述語および目的語を１組とする、複数組のＲＤＦ（Resource Description Framework）データに含まれる第１の組の主語または目的語の文字列と、前記複数組のＲＤＦデータに含まれる第２の組の述語の文字列が同一である場合に、前記第１の組の主語の文字列をベクトル表現した主語ベクトルまたは目的語の文字列をベクトル表現した目的語ベクトルと、前記第２の組の述語の文字列をベクトル表現した述語ベクトルとが同一になるように、かつ、前記複数組のＲＤＦデータについて、ＲＤＦデータに含まれる主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、ＲＤＦデータに含まれる目的語の文字列をベクトル表現した目的語のベクトルとの前記ベクトル空間における距離が所定値より小さくなるように、前記複数組のＲＤＦデータに含まれる文字列ごとにベクトル表現したベクトルを学習した結果に基づいて、前記予測対象以外の前記入力データに含まれる文字列をベクトル表現したベクトルを取得する第２の取得部と、
前記学習した結果に含まれる学習済みの文字列をベクトル表現したベクトルの中から一つずつベクトルを選択する選択部と、
前記選択部によって選択されたベクトルと、前記予測対象以外の前記入力データに含まれる文字列をベクトル表現したベクトルとを用いて、主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、目的語の文字列をベクトル表現した目的語のベクトルとの前記距離が所定値より小さいか否かを判定する判定部と、
前記判定部によって小さいと判定された、選択されたベクトルに対応する文字列を前記予測対象の文字列として予測する予測部と、
を有することを特徴とする予測装置。

【請求項12】

第１の集合に属する主語および目的語の文字列と、第２の集合に属する述語の文字列とをベクトル表現してベクトル空間に埋め込んで学習を行った結果に基づいて、予測を行う予測プログラムにおいて、
主語、述語または目的語のいずれかを予測対象とする主語、述語および目的語の入力データを取得し、
主語、述語および目的語を１組とする、複数組のＲＤＦ（Resource Description Framework）データに含まれる第１の組の主語または目的語の文字列と、前記複数組のＲＤＦデータに含まれる第２の組の述語の文字列が同一である場合に、前記第１の組の主語の文字列をベクトル表現した主語ベクトルまたは目的語の文字列をベクトル表現した目的語ベクトルと、前記第２の組の述語の文字列をベクトル表現した述語ベクトルとが同一になるように、かつ、前記複数組のＲＤＦデータについて、ＲＤＦデータに含まれる主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、ＲＤＦデータに含まれる目的語の文字列をベクトル表現した目的語のベクトルとの前記ベクトル空間における距離が所定値より小さくなるように、前記複数組のＲＤＦデータに含まれる文字列ごとにベクトル表現したベクトルを学習した結果に基づいて、前記予測対象以外の前記入力データに含まれる文字列をベクトル表現したベクトルを取得し、
前記学習した結果に含まれる学習済みの文字列をベクトル表現したベクトルの中から一つずつベクトルを選択し、
該選択したベクトルと、前記予測対象以外の前記入力データに含まれる文字列をベクトル表現したベクトルとを用いて、主語の文字列をベクトル表現した主語のベクトルと述語の文字列をベクトル表現した述語のベクトルとの和と、目的語の文字列をベクトル表現した目的語のベクトルとの前記距離が所定値より小さいか否かを判定し、
小さいと判定した、選択したベクトルに対応する文字列を前記予測対象の文字列として予測する
処理をコンピュータに実行させることを特徴とする予測プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習方法などに関する。

【背景技術】

【0002】

ナレッジグラフのリンク予測をするために、３つ（トリプル）のデータからなる関係情報をナレッジグラフに埋め込む技術（「ＴｒａｎｓＥ」という）が開示されている（例えば、非特許文献１を参照）。関係情報として、ＲＤＦ（Resource Description Framework）が挙げられる。ＲＤＦは、ウェブ上の情報のメタデータを記述するためのデータ構造を示し、エンティティ、プロパティ、エンティティの３つのデータを１組としている。ここで、エンティティ、プロパティ、エンティティは、主語（subject）、述語（predicate）、目的語（object）の３つの要素を関係情報として表現される。主語（subject）、述語（predicate）、目的語（object）は、「主語の述語は目的語である」という関係性を持つ関係情報である。

【0003】

ＴｒａｎｓＥは、２つのエンティティｈ，ｔがＥ（エンティティの集合）に属し、且つプロパティｒがＲ（プロパティの集合）に属するようなトリプルのデータ（ｈ，ｒ，ｔ）の集合Ｓをもとに、エンティティおよびプロパティのベクトルの埋め込みを学習する。すなわち、ＴｒａｎｓＥは、（ｈ，ｒ，ｔ）の３つのデータを組（トリプル）としたナレッジグラフの集合をベクトル空間上に埋め込み、機械学習の技術により、ベクトルを変換して、データ構造を得る技術である。ここでいうデータ構造は、トリプルのデータ（ｈ，ｒ，ｔ）のそれぞれのベクトル表現Ｖ_ｈ、Ｖ_ｒ、Ｖ_ｔについて、Ｖ_ｈ＋Ｖ_ｒができるだけＶ_ｔと等しくなるようなデータ構造のことをいう。

【0004】

これにより、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｈ＋Ｖ_ｒ≒Ｖ_ｔのような計算ができるようになるので、Ｖ_ｈ＋Ｖ_ｒに対応するｔを予測することができる。また、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｔ－Ｖ_ｒに対応するｈ、Ｖ_ｔ－Ｖ_ｈに対応するｒを予測することができる。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１９－３２７０４号公報

【文献】特開２０１６－９９７０５号公報

【文献】特開２０１８－１９４９４４号公報

【文献】特開２０１７－７６４０３号公報

【非特許文献】

【0006】

【文献】Antonine Bordes et al ”Translating Embeddings for Modeling Multi-relational Data”

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、ＲＤＦでは、述語で使用される文字列が主語や目的語で使用される場合がある。また、主語や目的語で使用される文字列が述語で使用される場合がある。

【0008】

かかる場合には、ＴｒａｎｓＥでは、主語と目的語を示すエンティティの集合Ｅと述語を示すプロパティの集合Ｒとが独立しているので、同じ文字列であっても、主語と目的語で使用される場合と述語で使用される場合とでベクトルが異なる。したがって、ＴｒａｎｓＥでは、ＲＤＦのデータ構造の性質上、述語を主語または目的語として扱うことができないため、ＲＤＦのデータのうち欠落した部分を予測することが難しい。すなわち、ＴｒａｎｓＥでは、学習済みのデータ構造を有するＲＤＦを用いても、データの予測精度を向上させることが難しいという問題がある。

【0009】

特に、ＲＤＦのデータには、欠落した部分が多いことが知られているので、簡便に検索漏れを減らすために、検索の予測精度を向上させることが望まれる。

【0010】

本発明は、１つの側面では、ＲＤＦのデータにおいて、検索の予測精度を向上させることを目的とする。

【課題を解決するための手段】

【0011】

１つの態様では、教師データの学習方法が、第一ノード、プロパティおよび第二ノードから構成されるＲＤＦ（Resource Description Framework）データを取得し、該取得したＲＤＦデータのうち、第一のレコードの第一ノードまたは第二ノードと文字列が同じ第二のレコードのプロパティを特定し、前記第一のレコードの第一ノードまたは第二ノードと、該特定した前記第二のレコードのプロパティとを対応付けたＲＤＦデータから成る教師データを生成し、該生成した教師データについて、前記ＲＤＦデータと対応付けられた第一ノードのベクトルにプロパティのベクトルを加えたベクトルが、前記ＲＤＦデータと対応付けられた第二ノードのベクトルに近づくように学習する、処理をコンピュータが実行する。

【発明の効果】

【0012】

１つの態様によれば、ＲＤＦのデータにおいて、検索の予測精度を向上させることができる。

【図面の簡単な説明】

【0013】

【図1】図１は、実施例に係る学習システムの構成を示す機能ブロック図である。

【図2】図２は、実施例に係るＲＤＦデータの一例を示す図である。

【図3】図３は、実施例に係るナレッジグラフを示す図である。

【図4A】図４Ａは、実施例に係る初期化処理の一例を示す図である。

【図4B】図４Ｂは、実施例に係る初期化処理の一例を示す図である。

【図5A】図５Ａは、実施例に係る学習処理の一例を示す図である。

【図5B】図５Ｂは、実施例に係る学習処理の一例を示す図である。

【図5C】図５Ｃは、実施例に係る学習処理の一例を示す図である。

【図5D】図５Ｄは、実施例に係る学習処理の一例を示す図である。

【図5E】図５Ｅは、実施例に係る学習処理の一例を示す図である。

【図5F】図５Ｆは、実施例に係る学習処理の一例を示す図である。

【図5G】図５Ｇは、実施例に係る学習処理の一例を示す図である。

【図5H】図５Ｈは、実施例に係る学習処理の一例を示す図である。

【図6】図６は、実施例に係る予測処理の一例を示す図である。

【図7A】図７Ａは、実施例に係る学習処理のフローチャートの一例を示す図である。

【図7B】図７Ｂは、実施例に係る学習処理のフローチャートの別の例を示す図である。

【図8】図８は、実施例に係る初期化処理のフローチャートの一例を示す図である。

【図9】図９は、実施例に係る予測処理のフローチャートの一例を示す図である。

【図10】図１０は、実施例に係るＲＤＦデータの別の例を示す図である。

【図11】図１１は、ＲＤＦデータの別の例を利用した予測処理を示す図である。

【図12】図１２は、実施例に係る出力画面の一例を示す図である。

【図13】図１３は、実施例に係る学習処理においてニューラルネットワークを用いて学習することを説明する図である。

【図14】図１４は、学習プログラムを実行するコンピュータの一例を示す図である。

【図15】図１５は、ＴｒａｎｓＥの学習の一例を示す参考図である。

【図16】図１６は、ＴｒａｎｓＥの学習の一例を示す参考図である。

【図17】図１７は、ＴｒａｎｓＥの学習の一例を示す参考図である。

【図18】図１８は、ＴｒａｎｓＥを用いた場合に予測がうまくいかない一例を示す参考図である。

【図19】図１９は、ＴｒａｎｓＥを用いた場合に予測がうまくいかない一例を示す参考図である。

【図20】図２０は、ＴｒａｎｓＥを用いた場合に予測がうまくいかない一例を示す参考図である。

【発明を実施するための形態】

【0014】

以下に、本願の開示する学習方法、学習装置、学習プログラム、予測方法、予測装置および予測プログラムの実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

【0015】

まず、ナレッジグラフのリンク予測をするために、複数のデータからなる関係情報をナレッジグラフに埋め込む「ＴｒａｎｓＥ」について説明する。「ＴｒａｎｓＥ」は、３つのデータを１組としたナレッジグラフの集合をベクトル空間上に埋め込み、機械学習の技術により、ベクトルを変換して所定のデータ構造を得る技術である。所定のデータ構造とは、１組のデータが（ｈ，ｒ，ｔ）（ｈ：主語、ｒ：述語、ｔ：目的語）である場合に、ｈ、ｒ、ｔそれぞれのベクトルＶについて、Ｖ_ｈ＋Ｖ_ｒができるだけＶ_ｔと等しくなるようなデータ構造のことをいう。これにより、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｈ＋Ｖ_ｒ≒Ｖ_ｔのような計算ができるようになるので、Ｖ_ｈ＋Ｖ_ｒに対応するｔを予測することができる。また、ＴｒａｎｓＥにより学習されたデータ構造を用いると、Ｖ_ｔ－Ｖ_ｒに対応するｈ、Ｖ_ｔ－Ｖ_ｈに対応するｒを予測することができる。

【0016】

なお、（ｈ，ｒ，ｔ）のような３つのデータを１組として、「主語の述語は目的語である」という関係性を記述するデータ形式のデータをＲＤＦ（Resource Description Framework）データというものとする。また、ＲＤＦデータは、主語、述語、目的語の３つのデータを１組としたデータ構造であると説明したが、適宜、主語および目的語のことを「エンティティ」、述語のことを「プロパティ」と呼ぶ場合がある。

【0017】

ここで、図１５～図１７を参照して、ＴｒａｎｓＥの学習の一例について説明する。図１５～図１７は、ＴｒａｎｓＥの学習の一例を示す参考図である。なお、ＲＤＦデータには、（Ａ，ｒ１，Ｂ）、（Ｃ，ｒ１，Ｂ）が存在する場合とする。

【0018】

図１５で示すグラフは、ＴｒａｎｓＥの学習で用いられるＲＤＦデータ内のデータの接続性を、ナレッジグラフで表現したものである。すなわち、ＴｒａｎｓＥは、「Ａ」＋「ｒ１」が「Ｂ」に、「Ｃ」＋「ｒ１」が「Ｂ」に近くなるように写像する。以降では、かかる写像の学習を２次元で説明する。

【0019】

図１６に示すように、「Ａ」のベクトルＶ_Ａ、「ｒ１」のベクトルＶ_ｒ１、「Ｂ」のベクトルＶ_Ｂ、「Ｃ」のベクトルＶ_Ｃを乱数で初期化して２次元空間に配置する。

【0020】

次に、図１７に示すように、学習により、Ｖ_Ａ＋Ｖ_ｒ１がＶ_Ｂに、Ｖ_Ｃ＋Ｖ_ｒ１がＶ_Ｂに近くなるようにそれぞれのベクトルを最適化する。この結果、学習により、Ｂの位置が最適化される。すなわち、Ｖ_Ａ＋Ｖ_ｒ１が指す位置とＶ_Ｂが指す位置との距離が所定の範囲（スコア）内になるように、Ｖ_Ｃ＋Ｖ_ｒ１が指す位置とＶ_Ｂが指す位置との距離が所定の範囲（スコア）内になるように、学習される。

【0021】

次に、ＴｒａｎｓＥにより学習された学習済みのＲＤＦデータを用いた場合に予測がうまくいかない一例を、図１８～図２０を参照して説明する。図１８～図２０は、ＴｒａｎｓＥを用いた場合に予測がうまくいかない一例を示す参考図である。なお、ＲＤＦデータには、（Ａ，ｂｉｒｔｈｐｌａｃｅ，Ｓｐａｉｎ）、（Ｂ，出身，スペイン）、（ｂｉｒｔｈｐｌａｃｅ，翻訳，出身）が存在する場合とする。

【0022】

図１８に示すように、ＴｒａｎｓＥにより学習されたＲＤＦデータ内のデータの接続性を、ナレッジグラフで表現したものである。

【0023】

図１９に示すように、ＴｒａｎｓＥより学習された（Ａ，ｂｉｒｔｈｐｌａｃｅ，Ｓｐａｉｎ）、（Ｂ，出身，スペイン）、（ｂｉｒｔｈｐｌａｃｅ，翻訳，出身）のそれぞれのベクトルが２次元空間に表わされている。ＴｒａｎｓＥでは、主語と目的語を示すエンティティの集合と、述語を示すプロパティの集合とが独立している。したがって、プロパティで示される「ｂｉｒｔｈｐｌａｃｅ」とエンティティで示される「ｂｉｒｔｈｐｌａｃｅ」は、文字列が同じであるが、全く異なるベクトルで表わされる。プロパティで示される「出身」とエンティティで示される「出身」は、文字列が同じであるが、全く異なるベクトルで表わされる。

【0024】

すると、ＴｒａｎｓＥでは、「Ａ」と「Ｓｐａｉｎ」に関係があることは学習されるが、「Ａ」と「スペイン」に関係があることが学習されない。また、「Ｂ」と「スペイン」に関係があることは学習されるが、「Ｂ」と「Ｓｐａｉｎ」に関係があることが学習されない。

【0025】

すなわち、図２０に示すように、例えば、「Ｂ」の「出身」が「Ｓｐａｉｎ」であることを予測できない。また、図示されていないが、「Ａ」の「出身」が「スペイン」であることを予測できない。つまり、「Ａ」と「Ｂ」は同じ「出身」であり、「Ｓｐａｉｎ」と「スペイン」は「翻訳」関係なので、「Ｂ」と「Ｓｐａｉｎ」は近い関係になってほしいところ、遠い関係となってしまい、「Ｂ」の「出身」が「Ｓｐａｉｎ」であることを予測できない。同様に、「Ａ」と「Ｂ」は同じ「出身」であり、「Ｓｐａｉｎ」と「スペイン」は「翻訳」関係なので、「Ａ」と「スペイン」は近い関係になってほしいところ、遠い関係となってしまい、「Ａ」の「出身」が「スペイン」であることを予測できない。すなわち、ＴｒａｎｓＥでは、学習済みのデータ構造を有するＲＤＦデータを用いても、データの予測精度を向上させることが難しいという問題がある。

【0026】

そこで、以降の実施例では、学習済みのデータ構造を有するＲＤＦデータを用いて、データの予測精度を向上させる学習システムについて説明する。

【実施例】

【0027】

［学習システムの構成］
図１は、実施例に係る学習システムの構成を示す機能ブロック図である。学習システム９は、学習装置１と予測装置３とを含む。学習装置１は、主語、述語および目的語から構成されるＲＤＦデータにおいて、主語のベクトルに述語のベクトルを加えたベクトルが、目的語のベクトルに近づくように学習する。この学習の際に、学習装置１は、述語の文字列が主語または目的語として使われる場合も、同じベクトルとして使うようにして学習する。また、予測装置３は、主語、述語または目的語のいずれかを予測対象とする主語、述語および目的語の入力データを入力すると、ＲＤＦデータを学習した結果に基づいて、予測対象を予測する。なお、ＲＤＦデータは、主語、述語、目的語の３つのデータからなるデータ構造であると説明したが、以降、適宜、主語や目的語のことを「エンティティ」、述語のことを「プロパティ」と呼ぶ場合がある。

【0028】

学習装置１は、制御部１０と、記憶部２０とを有する。

【0029】

制御部１０は、ＣＰＵ（Central Processing Unit）などの電子回路に対応する。そして、制御部１０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部１０は、初期化部１１および学習部１２を有する。なお、初期化部１１は、取得部、特定部および生成部の一例である。

【0030】

記憶部２０は、例えば、ＲＡＭ、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部２０は、ＲＤＦデータ２１および学習データ２２を有する。

【0031】

ＲＤＦデータ２１は、ウェブ上の情報のメタデータを記述するためのデータ構造を示し、主語、述語、目的語の３つのデータを１組としている。すなわち、ＲＤＦデータ２１は、エンティティ、プロパティ、エンティティの３つのデータを１組としている。そして、ＲＤＦデータ２１のそれぞれの組は、「主語の述語は目的語である」という関係性を持つ。ＲＤＦデータ２１では、この関係性を有向ラベル付きのナレッジグラフで表現できる。なお、主語、述語、目的語の１組の３つのデータは、「トリプル」と呼ばれる。

【0032】

ここで、ＲＤＦデータ２１の一例を、図２を参照して説明する。図２は、実施例に係るＲＤＦデータの一例を示す図である。図２に示すように、エンティティ（主語）、プロパティ（述語）、エンティティ（目的語）の３つのデータを１組としたＲＤＦデータ２１が表わされている。それぞれの組は、「主語の述語は目的語である」という関係性を持っている。

【0033】

一例として、ＲＤＦデータ２１には、（主語、述語、目的語）として（Ａ,ｐｒｏｆｅｓｓｉｏｎ，Ａｃｔｏｒ）が記憶されている。（Ａ,ｐｒｏｆｅｓｓｉｏｎ，Ａｃｔｏｒ）は、「“Ａ”の“ｐｒｏｆｅｓｓｉｏｎ”は“Ａｃｔｏｒ”である」という関係性を持つ。また、（主語、述語、目的語）として（Ａ,ｇｅｎｄｅｒ，Ｍａｌｅ）が記憶されている。（Ａ,ｇｅｎｄｅｒ，Ｍａｌｅ）は、「“Ａ”の“ｇｅｎｄｅｒ”は“Ｍａｌｅ”である」という関係性を持つ。

【0034】

図２で示すＲＤＦデータ２１をナレッジグラフで表現したものが図３である。図３は、実施例に係るナレッジグラフを示す図である。（主語、述語、目的語）の主語、目的語は、ノードで示され、主語を始点とし、目的語を終点としている。（主語、述語、目的語）の述語は、矢印の下にラベルで示されている。

【0035】

一例として、（主語、述語、目的語）が（Ａ,ｐｒｏｆｅｓｓｉｏｎ，Ａｃｔｏｒ）である場合には、「Ａ」のノードを始点とし、「Ａｃｔｏｒ」のノードを終点として、「ｐｒｏｆｅｓｓｉｏｎ」をラベルとしている。（主語、述語、目的語）が（Ａ,ｇｅｎｄｅｒ，Ｍａｌｅ）である場合には、「Ａ」のノードを始点とし、「Ｍａｌｅ」のノードを終点として、「ｇｅｎｄｅｒ」をラベルとしている。

【0036】

図１に戻って、学習データ２２は、ＲＤＦデータ２１を学習した結果のデータである。例えば、学習データ２２には、ＲＤＦデータ２１に含まれる主語、述語および目的語に含まれる文字列ごとの学習済みのベクトルの集合が含まれる。

【0037】

初期化部１１は、ＲＤＦデータ２１に含まれるそれぞれの組の３つのデータについて、ベクトルの初期化を行う。例えば、初期化部１１は、ＲＤＦデータ２１に含まれる組を順番に読み込む。初期化部１１は、読み込んだ組の３つのデータのそれぞれのベクトルを、乱数で初期化する。このとき、初期化部１１は、主語または目的語を示すエンティティの文字列と述語を示すプロパティの文字列とが同じである場合には、エンティティの文字列とプロパティの文字列とを対応付け、同じベクトルを指すようにする。初期化部１１は、ＲＤＦデータ２１に含まれる全ての組の初期化処理が終了するまで繰り返す。なお、組に含まれるエンティティのベクトルと、プロパティのベクトルとは、次元を同じにする。また、初期化部に１１によって生成された対応付けは、教師データの一例である。

【0038】

学習部１２は、ＲＤＦデータ２１に含まれる全ての組について、主語を示すエンティティのベクトルに述語を示すプロパティのベクトルを加えたベクトルが、目的語を示すエンティティのベクトルに近づくように学習する。例えば、学習部１２は、ある組の述語を示すプロパティの文字列が別の組の主語を示すエンティティの文字列と対応付けられている場合には、対応付けられている文字列のプロパティとエンティティとを同じベクトルとして計算する。一例として、学習部１２は、ある組の主語を示すエンティティのベクトルに、ある組のプロパティと文字列が同じである別の組のエンティティの共通するベクトルを加えたベクトルが、ある組の目的語を示すエンティティのベクトルに近づくように学習する。すなわち、学習部１２は、エンティティの集合Ｅ１がＥ（全体の集合）に属し、且つプロパティの集合Ｅ２がＥ１（エンティティの集合）に属するようなトリプルのデータ（ｈ，ｒ，ｔ）の集合をもとに、エンティティおよびプロパティのベクトルの埋め込みを学習する。そして、学習部１２は、学習した結果を学習データ２２に保存する。学習データ２２に保存する学習した結果には、ＲＤＦデータ２１に含まれる主語、述語および目的語に含まれる文字列ごとの学習済みのベクトルの集合が含まれる。

【0039】

予測装置３は、ユーザ端末５と接続し、制御部３０と、記憶部４０とを有する。

【0040】

制御部３０は、ＣＰＵ（Central Processing Unit）などの電子回路に対応する。そして、制御部３０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部３０は、入力部３１、予測部３２および出力部３３を有する。

【0041】

記憶部４０は、例えば、ＲＡＭ、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部４０は、学習データ４１を有する。なお、学習データ４１は、学習装置１の学習データ２２と同じであるので、その説明を省略する。

【0042】

入力部３１は、ユーザ端末５から、主語、述語または目的語のいずれかを予測対象とするＲＤＦデータ２１における組を入力する。

【0043】

予測部３２は、学習済みのベクトルを用いて、入力された組の予測対象を予測する。例えば、予測部３２は、学習データ２２の文字列ごとの学習済みのベクトルの集合を用いて、入力された組の予測対象を、以下のように予測する。予測部３２は、学習済みのベクトルの集合から、入力された組の予測対象以外の２つの文字列に対応するベクトルを取得する。そして、予測部３２は、学習済みのベクトルの集合から１つずつベクトルを選択する。そして、予測部３２は、予測対象以外の文字列のベクトルおよび選択したベクトルを用いて、主語のベクトルに述語のベクトルを加えたベクトルから目的語のベクトルを引いたベクトルが予め定められたスコアより小さいベクトルを検索する。予測部３２は、検索できたベクトルに対応する文字列を予測対象として予測する。一例として、「“Ａ”の“出身”が何であるかを予測する場合には、（ｈ，ｒ，ｔ）が（“Ａ”，“出身”，ｔ）であり、目的語が予測対象となる。そこで、予測部３２は、“Ａ”のベクトルＶ_ｈに“出身”のベクトルＶ_ｒを加えたベクトルから選択したベクトルＶ_ｔを引いたベクトルがスコアより小さくなるような選択したベクトルＶ_ｔを検索する。そして、予測部３２は、検索できた、選択したベクトルＶ_ｔに対応する文字列ｔを予測対象として予測する。

【0044】

出力部３３は、ユーザ端末５に対して、予測部３２によって予測された予測対象を出力する。

【0045】

［初期化処理の一例］
ここで、実施例に係る初期化処理の一例を、図４Ａおよび図４Ｂを参照して説明する。図４Ａおよび図４Ｂは、実施例に係る初期化処理の一例を示す図である。なお、図４Ａおよび図４Ｂでは、ＲＤＦデータ２１に含まれる（主語，述語，目的語）が（Ａ，ｂｉｒｔｈｐｌａｃｅ，Ｓｐａｉｎ）、（Ｂ，出身，スペイン）、（ｂｉｒｔｈｐｌａｃｅ，翻訳，出身）の場合について説明する。ＲＤＦデータ２１のいずれの項目のベクトルもまだ初期化されていないものとする。主語、述語、目的語のベクトルは、全てｎ次元とする。

【0046】

図４Ａに示すように、初期化部１１は、ＲＤＦデータ２１から１行目の組の３つの項目を読み込む。初期化部１１は、１項目の項目「Ａ」（ノード（Ａ））のベクトルはまだ初期化されていないので、ｎ次元のベクトルを乱数で初期化する。初期化部１１は、３項目の項目「Ｓｐａｉｎ」（ノード（Ｂ））のベクトルはまだ初期化されていないので、ｎ次元のベクトルを乱数で初期化する。初期化部１１は、２項目の項目「ｂｉｒｔｈｐｌａｃｅ」（プロパティ（ｂｉｒｔｈｐｌａｃｅ））のベクトルはまだ初期化されていないので、ｎ次元のベクトルを乱数で初期化する。

【0047】

次に、初期化部１１は、ＲＤＦデータ２１から２行目の組の３つの項目を読み込み、１行目と同様に、「Ｂ」（ノード（Ｂ））、「スペイン」（ノード（スペイン））、「出身」（プロパティ（出身））のそれぞれのベクトルを初期化する。

【0048】

次に、初期化部１１は、ＲＤＦデータ２１から３行目の組の３つの項目を読み込む。初期化部１１は、１項目の項目「ｂｉｒｔｈｐｌａｃｅ」（ノード（ｂｉｒｔｈｐｌａｃｅ））のベクトルは既に初期化されているので、ノード（ｂｉｒｔｈｐｌａｃｅ）がプロパティ（ｂｉｒｔｈｐｌａｃｅ）のベクトルを指すようにする。すなわち、初期化部１１は、３行目のノードの文字列と１行目のプロパティの文字列とを対応付け、同じベクトルを指すようにする。また、初期化部１１は、３項目の項目「出身」（ノード（出身））のベクトルは既に初期化されているので、ノード（出身）がプロパティ（出身）のベクトルを指すようにする。すなわち、初期化部１１は、３行目のノードの文字列と２行目のプロパティの文字列とを対応付け、同じベクトルを指すようにする。また、初期化部１１は、２項目の項目「翻訳」（プロパティ（翻訳））のベクトルはまだ初期化されていないので、ｎ次元のベクトルを乱数で初期化する。

【0049】

図４Ｂに示すように、この一例では、７つのベクトルが生成される。なお、このように生成された対応付けは、教師データの一例である。

【0050】

［学習処理の一例］
ここで、実施例に係る学習処理の一例を、図５Ａ～図５Ｈを参照して説明する。図５Ａ～図５Ｈは、実施例に係る学習処理の一例を示す図である。なお、図５Ａ～図５Ｈでは、ＲＤＦデータ２１に含まれる（主語，述語，目的語）が（Ａ，ｂｉｒｔｈｐｌａｃｅ，Ｓｐａｉｎ）、（Ｂ，出身，スペイン）、（ｂｉｒｔｈｐｌａｃｅ，翻訳，出身）の場合について説明する。ＲＤＦデータ２１の全ての項目が既にｎ次元で初期化されているものとする。ここでは、便宜的に２次元で説明する。

【0051】

図５Ａに示すように、学習部１２は、初期化部１１によって初期化されたベクトルを配置する。

【0052】

次に、学習部１２は、ＲＤＦデータ２１に含まれる全ての組について、主語を示すエンティティ（ノードと同義）のベクトルに述語を示すプロパティのベクトルを加えたベクトルが、目的語を示すエンティティ（ノードと同義）のベクトルに近づくように学習する。図５Ｂに示すように、学習部１２は、エンティティ「Ａ」のベクトルにプロパティ「ｂｉｒｔｈｐｌａｃｅ」のベクトルを加えたベクトルと、エンティティ「Ｓｐａｉｎ」のベクトルとを近寄せる。

【0053】

次に、図５Ｃに示すように、学習部１２は、エンティティ「Ｂ」のベクトルにプロパティ「出身」のベクトルを加えたベクトルと、エンティティ「スペイン」のベクトルとを近寄せる。

【0054】

図５Ｄに示すように、エンティティ「Ｂ」のベクトルにプロパティ「出身」のベクトルを加えたベクトルと、エンティティ「スペイン」のベクトルとを近寄せた結果が、表わされている。

【0055】

次に、図５Ｅに示すように、学習部１２は、エンティティ「ｂｉｒｔｈｐｌａｃｅ」のベクトルにプロパティ「翻訳」のベクトルを加えたベクトルと、エンティティ「出身」のベクトルとを近寄せる。

【0056】

図５Ｆに示すように、エンティティ「ｂｉｒｔｈｐｌａｃｅ」のベクトルにプロパティ「翻訳」のベクトルを加えたベクトルと、エンティティ「出身」のベクトルとを近寄せた結果が、表わされている。この結果、例えば、エンティティ「Ｂ」のベクトルにプロパティ「出身」のベクトルを加えたベクトルがエンティティ「スペイン」のベクトルから遠くなる。

【0057】

そこで、図５Ｇに示すように、学習部１２は、それぞれの距離が十分縮まるまで繰り返す。繰り返す回数は、ハイパーパラメータの１つとして予め定められる。

【0058】

この結果、図５Ｈに示すように、学習部１２は、学習結果としてそれぞれの距離が十分縮まったベクトルを生成する。学習部１２は、学習結果を学習データ２２に保存する。学習結果は、学習済みのベクトルの集合である。

【0059】

［予測処理の一例］
ここで、実施例に係る予測処理の一例を、図６を参照して説明する。図６は、実施例に係る予測処理の一例を示す図である。なお、図６では、図５Ｈに示した学習済みのベクトルの集合を保存した学習データ２２が利用されるものとする。

【0060】

ここでは、「Ａ」の「出身」が何であるかの問い合わせ（Ａ，出身，？ｐ（０．１））について説明する。「？」は、予測対象を示す予測変数を意味する。予測変数の後の値「０．１」は、ベクトルの許容誤差を示すスコアを意味する。一例として、スコアは、図６で示す円内を示す情報のことをいう。

【0061】

図６に示すように、予測部３２は、学習済みのベクトルの集合から、入力された組の予測対象以外の２つの文字列に対応するベクトルを取得する。ここでは、「Ａ」および「出身」に対応するそれぞれのベクトルが取得される。

【0062】

続いて、予測部３２は、学習済みのベクトルの集合から１つずつベクトルを選択する。そして、予測部３２は、予測対象以外の文字列のベクトルおよび選択したベクトルを用いて、主語のベクトルに述語のベクトルを加えたベクトルから目的語のベクトルを引いたベクトルがスコアより小さいベクトルを検索する。ここでは、予測部３２は、選択したベクトルごとに、主語を示す「Ａ」のベクトルに述語を示す「出身」のベクトルを加えたベクトルから、選択したベクトルを引いたベクトルがスコアより小さいベクトルになるかどうかを判定する。

【0063】

そして、予測部３２は、検索できたベクトルに対応する文字列を予測対象として予測する。ここでは、「Ｓｐａｉｎ」と「スペイン」が予測対象として予測される。

【0064】

これにより、予測部３２は、検索の予測精度を向上させることができる。すなわち、エンティティとしての「ｂｉｒｔｈｐｌａｃｅ」とエンティティとしての「出身」は、「翻訳」関係である。プロパティとしての「出身」は、エンティティ「出身」として使われるとき、プロパティ「出身」を表現するベクトルがエンティティ「出身」を表現するベクトルと同じベクトルで表現される。プロパティとしての「ｂｉｒｔｈｐｌａｃｅ」は、エンティティ「ｂｉｒｔｈｐａｌａｃｅ」として使われるとき、プロパティ「ｂｉｒｔｈｐｌａｃｅ」を表現するベクトルがエンティティ「ｂｉｒｔｈｐｌａｃｅ」を表現するベクトルと同じベクトルで表現される。したがって、プロパティ「ｂｉｒｔｈｐｌａｃｅ」を含むＡ組「ＡｂｉｒｔｈｐｌａｃｅＳｐａｉｎ」とエンティティ「ｂｉｒｔｈｐｌａｃｅ」を含むＣ組「ｂｉｒｔｈｐｌａｃｅ翻訳出身」が近くに配置されるようになる。加えて、プロパティ「出身」を含むＢ組「Ｂ出身スペイン」とエンティティ「出身」を含むＣ組が近くに配置されるようになる。よって、プロパティ「ｂｉｒｔｈｐｌａｃｅ」を含むＡ組とプロパティ「出身」を含むＢ組とは近くに配置されるようになり、今回の場合では、「Ａ」の「出身」として翻訳関係の「Ｓｐａｉｎ」と「スペイン」が予測される。

【0065】

言い換えれば、プロパティがエンティティとして使われるとき、プロパティを表現するベクトルがエンティティの計算で用いられる。このため、プロパティ間の関係、プロパティとエンティティの関係がプロパティのベクトルに反映される。プロパティの組の構造が予測に利用され、検索の予測精度が上がる。

【0066】

［学習処理のフローチャート］
ここで、実施例に係る学習処理のフローチャートについて、図７Ａおよび図７Ｂを参照して説明する。なお、図７Ａおよび図７Ｂでは、最大の繰り返し回数を示すハイパーパラメータをＮとする。スコアを示すハイパーパラメータを「margin」とする。ベクトルを補正する補正率を示すハイパーパラメータを「rate」とする。

【0067】

図７Ａは、実施例に係る学習処理のフローチャートの一例を示す図である。図７Ａに示すように、初期化部１１は、ＲＤＦデータ２１に含まれる文字列に対応するすべてのベクトルを乱数で初期化する（ステップＳ１１）。なお、初期化部１１のフローチャートは、後述する。

【0068】

そして、学習部１２は、最大の繰り返し回数を示すＮ回繰り返したか否かを判定する（ステップＳ１２）。Ｎ回繰り返したと判定した場合には（ステップＳ１２；Ｙｅｓ）、学習部１２は、学習処理を終了する。

【0069】

一方、Ｎ回繰り返していないと判定した場合には（ステップＳ１２；Ｎｏ）、学習部１２は、ＲＤＦデータ２１から３つ組（ｈ，ｒ，ｔ）を１つ取り出す（ステップＳ１３）。ここでいうｈはエンティティ（主語）、ｒはプロパティ（述語）、ｔはエンティティ（目的語）である。

【0070】

そして、学習部１２は、Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔがmarginより小さいか否かを判定する（ステップＳ１４）。すなわち、学習部１２は、取り出した組および既に取り出した組について、主語を示すエンティティｈのベクトルＶ_ｈに、述語を示すプロパティｒのベクトルＶ_ｒを加えたベクトルが、目的語を示すエンティティｔのベクトルＶ_ｔに近づくか否かを判定する。

【0071】

いずれかの組について、Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔがmarginより小さくないと判定した場合には（ステップＳ１４；Ｎｏ）、学習部１２は、Ｖ_ｈ＋Ｖ_ｒをＶ_ｔに近づける（ステップＳ１５）。そして、学習部１２は、次の繰り返しを行うべく、ステップＳ１２に移行する。

【0072】

一方、いずれの組もＶ_ｈ＋Ｖ_ｒ－Ｖ_ｔがmargin以下であると判定した場合には（ステップＳ１４；Ｙｅｓ）、学習部１２は、次の繰り返しを行うべく、ステップＳ１２に移行する。

【0073】

なお、Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔがマイナスになる場合を考慮して、Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔを｜Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ｜としても良い。図７Ｂでは、Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔがマイナスになることを考慮した場合について説明する。図７Ｂは、実施例に係る学習処理のフローチャートの別の例を示す図である。

【0074】

図７Ｂに示すように、初期化部１１は、ＲＤＦデータ２１に含まれる文字列に対応するすべてのベクトルを乱数で初期化する（ステップＳ２１）。なお、初期化部１１のフローチャートは、後述する。

【0075】

そして、学習部１２は、最大の繰り返し回数を示すＮ回繰り返したか否かを判定する（ステップＳ２２）。Ｎ回繰り返したと判定した場合には（ステップＳ２２；Ｙｅｓ）、学習部１２は、学習処理を終了する。

【0076】

一方、Ｎ回繰り返していないと判定した場合には（ステップＳ２２；Ｎｏ）、学習部１２は、ＲＤＦデータ２１から３つ組（ｈ，ｒ，ｔ）を１つ取り出す（ステップＳ２３）。ここでいうｈはエンティティ（主語）、ｒはプロパティ（述語）、ｔはエンティティ（目的語）である。

【0077】

そして、学習部１２は、｜Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ｜がmarginより小さいか否かを判定する（ステップＳ２４）。すなわち、学習部１２は、取り出した組および既に取り出した組について、主語を示すエンティティｈのベクトルＶ_ｈに、述語を示すプロパティｒのベクトルＶ_ｒを加えたベクトルが、目的語を示すエンティティｔのベクトルＶ_ｔに近づくか否かを判定する。

【0078】

いずれかの組について、｜Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ｜がmarginより小さくないと判定した場合には（ステップＳ２４；Ｎｏ）、学習部１２は、Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔが０より小さいか否かを判定する（ステップＳ２５）。Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔが０より小さいと判定した場合には（ステップＳ２５；Ｙｅｓ）、学習部１２は、Ｖ_ｈに（Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ）×rateを加算したベクトルをＶ_ｈとする（ステップＳ２６）。すなわち、学習部１２は、ベクトルを補正して、Ｖ_ｈ＋Ｖ_ｒをＶ_ｔに近づける。そして、学習部１２は、次の繰り返しを行うべく、ステップＳ２２に移行する。

【0079】

一方、｜Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ｜が０以上であると判定した場合には（ステップＳ２５；Ｎｏ）、学習部１２は、Ｖ_ｈから（Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ）×rateを減算したベクトルをＶ_ｈとする（ステップＳ２７）。すなわち、学習部１２は、ベクトルを補正して、Ｖ_ｈ＋Ｖ_ｒをＶ_ｔに近づける。そして、学習部１２は、次の繰り返しを行うべく、ステップＳ２２に移行する。

【0080】

ステップＳ２４において、いずれかの組について、｜Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ｜がmarginより小さいと判定した場合には（ステップＳ２４；Ｙｅｓ）、学習部１２は、次の繰り返しを行うべく、ステップＳ２２に移行する。

【0081】

［初期化処理のフローチャート］
図８は、実施例に係る初期化処理のフローチャートの一例を示す図である。なお、図８で示すフローチャートでは、ＲＤＦデータ２１に含まれる行が示す３つ組のｈ，ｒ，ｔはそれぞれＮｏｄｅ、Ｐｒｏｐｅｒｔｙ、Ｎｏｄｅと記述しているが、エンティティ、プロパティ、エンティティ、または、主語、述語、目的語と置き換えても良い。

【0082】

初期化部１１は、ＲＤＦデータ２１から入力となるＲＤＦを１行読み込む（ステップＳ３１）。初期化部１１は、全ての行を読み込んだか否かを判定する（ステップＳ３２）。全ての行を読み込んだと判定した場合には（ステップＳ３２；Ｙｅｓ）、初期化部１１は、初期化処理を終了する。

【0083】

一方、全ての行を読み込んでいないと判定した場合には（ステップＳ３２；Ｎｏ）、初期化部１１は、読み込んだ行を、３つのデータを組とした（ｈ，ｒ，ｔ）に分解する（ステップＳ３３）。

【0084】

そして、初期化部１１は、以下のステップのＸに、ｈ，ｔを順に代入する（ステップＳ３４）。すなわち、初期化部１１は、ｈ，ｔのどちらもＮｏｄｅ（Ｘ）のベクトルが存在するか否かを判定する（ステップＳ３５）。ｈ，ｔのどちらもＮｏｄｅ（Ｘ）のベクトルが存在すると判定した場合には（ステップＳ３５；Ｙｅｓ）、初期化部１１は、ｒのベクトルについて判定すべく、ステップＳ３９に移行する。

【0085】

一方、ｈ，ｔのどちらもまたはどちらか一方について、Ｎｏｄｅ（Ｘ）のベクトルが存在しないと判定した場合には（ステップＳ３５；Ｎｏ）、初期化部１１は、Ｐｒｏｐｅｒｔｙ（Ｘ）のベクトルが存在するか否かを判定する（ステップＳ３６）。Ｐｒｏｐｅｒｔｙ（Ｘ）のベクトルが存在しないと判定した場合には（ステップＳ３６；Ｎｏ）、初期化部１１は、ＸのラベルのベクトルＮｏｄｅ（Ｘ）を作成し、乱数で初期化する（ステップＳ３７）。そして、初期化部１１は、さらに、ｒのベクトルについて判定すべく、ステップＳ３９に移行する。

【0086】

一方、Ｐｒｏｐｅｒｔｙ（Ｘ）のベクトルが存在すると判定した場合には（ステップＳ３６；Ｙｅｓ）、初期化部１１は、Ｎｏｄｅ（Ｘ）とＰｒｏｐｅｒｔｙ（Ｘ）が同じベクトルを指すようにする（ステップＳ３８）。そして、初期化部１１は、さらに、ｒのベクトルについて判定すべく、ステップＳ３９に移行する。

【0087】

ステップＳ３９において、初期化部１１は、Ｐｒｏｐｅｒｔｙ（ｒ）のベクトルが存在するか否かを判定する（ステップＳ３９）。Ｐｒｏｐｅｒｔｙ（ｒ）のベクトルが存在すると判定した場合には（ステップＳ３９；Ｙｅｓ）、初期化部１１は、次の行を処理すべく、ステップＳ３１に移行する。

【0088】

一方、Ｐｒｏｐｅｒｔｙ（ｒ）のベクトルが存在しないと判定した場合には（ステップＳ３９；Ｎｏ）、初期化部１１は、Ｎｏｄｅ（ｒ）のベクトルが存在するか否かを判定する（ステップＳ４０）。Ｎｏｄｅ（ｒ）のベクトルが存在しないと判定した場合には（ステップＳ４０；Ｎｏ）、初期化部１１は、ＸのラベルのベクトルＰｒｏｐｅｒｔｙ（ｒ）を作成し、乱数で初期化する（ステップＳ４１）。そして、初期化部１１は、次の行を処理すべく、ステップＳ３１に移行する。

【0089】

一方、Ｎｏｄｅ（ｒ）のベクトルが存在すると判定した場合には（ステップＳ４０；Ｙｅｓ）、初期化部１１は、Ｐｒｏｐｅｒｔｙ（ｒ）とＮｏｄｅ（ｒ）が同じベクトルを指すようにする（ステップＳ４２）。そして、初期化部１１は、次の行を処理すべく、ステップＳ３１に移行する。

【0090】

［予測処理のフローチャート］
図９は、実施例に係る予測処理のフローチャートの一例を示す図である。なお、図９では、スコアを示すハイパーパラメータを「score」とする。また、学習部１２によって学習された学習データ２２が生成されている。学習データ２２には、学習済みのベクトルの集合Ｖが含まれている。

【0091】

図９に示すように、入力部３１は、予測する予測対象を含む３つ組（ｈ，ｒ，ｔ）を入力する（ステップＳ５１）。予測部３２は、予測対象がｈであるか否かを判定する（ステップＳ５２）。予測対象がｈであると判定した場合には（ステップＳ５２；Ｙｅｓ）、予測部３２は、学習済みのベクトルの集合ＶからベクトルＶ_ｒとＶ_ｔを取り出す（ステップＳ５３）。予測部３２は、Ｖからベクトルを１つ取り出す（ステップＳ５３Ａ）。そして、予測部３２は、Ｖから全てのベクトルを取り出したか否かを判定する（ステップＳ５４）。

【0092】

全てのベクトルを取り出していないと判定した場合には（ステップＳ５４；Ｎｏ）、予測部３２は、Ｖから取り出したベクトルをＶ_ｈとして、｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscoreより小さいか否かを判定する（ステップＳ５５）。なお、｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜は、｜Ｖ_ｈ＋Ｖ_ｒ－Ｖ_ｔ｜と同義である。｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscore以上であると判定した場合には（ステップＳ５５；Ｎｏ）、予測部３２は、次のベクトルを取り出すべく、ステップＳ５３Ａに移行する。

【0093】

一方、｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscoreより小さいと判定した場合には（ステップＳ５５；Ｙｅｓ）、出力部３３は、Ｖ_ｈを予測対象として出力する（ステップＳ５６）。そして、予測部３２は、次のベクトルを取り出すべく、ステップＳ５３Ａに移行する。

【0094】

ステップＳ５４において、全てのベクトルを取り出したと判定した場合には（ステップＳ５４；Ｙｅｓ）、予測部３２は、予測処理を終了する。

【0095】

ステップＳ５２において、予測対象がｈでないと判定した場合には（ステップＳ５２；Ｎｏ）、予測部３２は、ステップＳ５７に移行する。

【0096】

ステップＳ５７において、予測部３２は、予測対象がｒであるか否かを判定する（ステップＳ５７）。予測対象がｒであると判定した場合には（ステップＳ５７；Ｙｅｓ）、予測部３２は、学習済みのベクトルの集合ＶからベクトルＶ_ｈとＶ_ｔを取り出す（ステップＳ５８）。予測部３２は、Ｖからベクトルを１つ取り出す（ステップＳ５８Ａ）。そして、予測部３２は、Ｖから全てのベクトルを取り出したか否かを判定する（ステップＳ５９）。

【0097】

全てのベクトルを取り出していないと判定した場合には（ステップＳ５９；Ｎｏ）、予測部３２は、Ｖから取り出したベクトルをＶ_ｒとして、｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscoreより小さいか否かを判定する（ステップＳ６０）。｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscore以上であると判定した場合には（ステップＳ６０；Ｎｏ）、予測部３２は、次のベクトルを取り出すべく、ステップＳ５８Ａに移行する。

【0098】

一方、｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscoreより小さいと判定した場合には（ステップＳ６０；Ｙｅｓ）、出力部３３は、Ｖ_ｒを予測対象として出力する（ステップＳ６１）。そして、予測部３２は、次のベクトルを取り出すべく、ステップＳ５８Ａに移行する。

【0099】

ステップＳ５９において、全てのベクトルを取り出したと判定した場合には（ステップＳ５９；Ｙｅｓ）、予測部３２は、予測処理を終了する。

【0100】

ステップＳ５７において、予測対象がｒでないと判定した場合には（ステップＳ５７；Ｎｏ）、予測部３２は、ステップＳ６２に移行する。

【0101】

ステップＳ６２において、予測部３２は、予測対象がｔであると判断し、学習済みのベクトルの集合ＶからベクトルＶ_ｈとＶ_ｒを取り出す（ステップＳ６２）。予測部３２は、Ｖからベクトルを１つ取り出す（ステップＳ６２Ａ）。そして、予測部３２は、Ｖから全てのベクトルを取り出したか否かを判定する（ステップＳ６３）。

【0102】

全てのベクトルを取り出していないと判定した場合には（ステップＳ６３；Ｎｏ）、予測部３２は、Ｖから取り出したベクトルをＶ_ｔとして、｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscoreより小さいか否かを判定する（ステップＳ６４）。｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscore以上であると判定した場合には（ステップＳ６４；Ｎｏ）、予測部３２は、次のベクトルを取り出すべく、ステップＳ６２Ａに移行する。

【0103】

一方、｜Ｖ_ｔ－Ｖ_ｒ－Ｖ_ｈ｜がscoreより小さいと判定した場合には（ステップＳ６４；Ｙｅｓ）、出力部３３は、Ｖ_ｔを予測対象として出力する（ステップＳ６５）。そして、予測部３２は、次のベクトルを取り出すべく、ステップＳ６２Ａに移行する。

【0104】

ステップＳ６３において、全てのベクトルを取り出したと判定した場合には（ステップＳ６３；Ｙｅｓ）、予測部３２は、予測処理を終了する。

【0105】

［ＲＤＦデータの別の例］
ここで、実施例に係るＲＤＦデータを医薬分野に適用した場合の予測処理について、図１０～図１２を参照して説明する。図１０は、実施例に係るＲＤＦデータの別の例を示す図である。図１０に示すように、エンティティ（主語）、プロパティ（述語）、エンティティ（目的語）の３つのデータを１組としたＲＤＦデータ２１が表わされている。それぞれの組は、「主語の述語は目的語である」という関係性を持っている。

【0106】

一例として、ＲＤＦデータ２１には、（主語，述語、目的語）として（Ａ，注射，ＤＡ）が記憶されている。（Ａ，注射，ＤＡ）は、「“Ａ”の“注射”は“ＤＡ”である」という関係性を持つ。（主語，述語、目的語）として（Ａ，副作用．ＲＡ）が記憶されている。（Ａ，副作用．ＲＡ）は、「“Ａ”の“副作用”は“ＲＡ”である」という関係性を持つ。（主語，述語、目的語）として（Ｂ，服薬，ＤＡ）が記憶されている。（Ｂ，服薬，ＤＡ）は、「“Ｂ”の“服薬”は“ＤＡ”である」という関係性を持つ。（主語，述語、目的語）として（注射，種類，投薬方法）が記憶されている。（注射，種類，投薬方法）は、「“注射”の“種類”は“投薬方法”である」という関係性を持つ。（主語，述語、目的語）として（投薬，種類，投薬方法）が記憶されている。（投薬，種類，投薬方法）は、「“投薬”の“種類”は“投薬方法”である」という関係性を持つ。

【0107】

このようなＲＤＦデータ２１に含まれる全ての組について、学習部１２は、主語を示すエンティティのベクトルに述語を示すプロパティのベクトルを加えたベクトルが、目的語を示すエンティティのベクトルに近づくように学習する。そして、学習部１２は、学習した結果を学習データ２２に保存する。学習データ２２に保存する学習した結果には、ＲＤＦデータ２１に含まれる主語、述語および目的語に含まれる文字列ごとの学習済みのベクトルの集合が含まれる。

【0108】

予測部３２は、かかる学習データ２２を利用して、問い合わせに対する答えを予測する。図１１は、ＲＤＦデータの別の例を利用した予測処理を示す図である。

【0109】

ここでは、「Ｂ」の「副作用」が何であるかの問い合わせ（Ｂ，副作用，？Ｄ）について説明する。「？」は、予測対象を示す予測変数を意味する。

【0110】

図１１に示すように、予測部３２は、学習済みのベクトルの集合から、入力された組の予測対象以外の２つの文字列に対応するベクトルを取得する。ここでは、「Ｂ」および「副作用」に対応するそれぞれのベクトルが取得される。

【0111】

続いて、予測部３２は、学習済みのベクトルの集合から１つずつベクトルを選択する。そして、予測部３２は、予測対象以外の文字列のベクトルおよび選択したベクトルを用いて、主語のベクトルに述語のベクトルを加えたベクトルから目的語のベクトルを引いたベクトルがスコアより小さいベクトルを検索する。ここでは、予測部３２は、選択したベクトルごとに、主語を示す「Ｂ」のベクトルに述語を示す「副作用」のベクトルを加えたベクトルから選択したベクトルを引いたベクトルがスコアより小さいベクトルになるかどうかを判定する。

【0112】

そして、予測部３２は、検索できたベクトルに対応する文字列を予測対象として予測する。ここでは、「ＲＡ」が予測対象として予測される。

【0113】

これにより、予測部３２は、検索の予測精度を向上させることができる。すなわち、エンティティとしての「服薬」とエンティティとしての「投薬方法」は、プロパティとしての「種類」の関係である。加えて、エンティティとしての「注射」とエンティティとしての「投薬方法」は、プロパティとしての「種類」の関係である。したがって、エンティティとしての「注射」とエンティティとしての「服薬」とは、述語の「種類」と目的語の「投薬方法」が共通しているので近似のベクトルとなる。そして、エンティティとしての「注射」とプロパティとしての「注射」は、同じベクトルで表現され、エンティティとしての「服薬」とプロパティとしての「服薬」は、同じベクトルで表現されるので、プロパティとしての「注射」とプロパティとしての「投薬」とは、近似のベクトルとなる。よって、プロパティとしての「服薬」を含む「Ｂ服薬ＤＡ」とプロパティとしての「注射」を含む「Ａ注射ＤＡ」とが近くに配置されるようになる。そうすると、今回の場合では、「Ａ」の「副作用」は「ＲＡ」であるので、「Ｂ」の「副作用」として「ＲＡ」が予測される。

【0114】

そして、出力部３３は、ユーザ端末５に対して、予測部３２によって予測された予測対象を出力する。図１２は、実施例に係る出力画面の一例を示す図である。

【0115】

出力画面には、学習データを出力する欄、問い合わせを入力する欄、答えを出力する欄が表示されている。学習データを出力する欄には、ＲＤＦデータ２１のそれぞれの組が表示されている。

【0116】

例えば、問い合わせを入力する欄に、ユーザが「Ｂ，副作用，？Ｄ」を問い合わせとして入力すると、答えを出力する欄に「Ｄ＝ＲＡ（ｓｃｏｒｅ：０．７）」と出力される。なお、「０．７」は、ベクトルの許容誤差を示すスコアを意味する。

【0117】

［学習モデルの一例］
なお、上記では、学習部１２は、ＲＤＦデータ２１に含まれる全ての組について、主語を示すエンティティのベクトルに述語を示すプロパティのベクトルを加えたベクトルが、目的語を示すエンティティのベクトルに近づくように学習すると説明した。このとき、学習部１２は、ある組の述語を示すプロパティの文字列が別の組の主語や目的語を示すエンティティの文字列と対応付けられている場合には、ベクトルの学習の際に、対応付けられている文字列のプロパティとエンティティとを同じベクトルとして計算するようにした。学習部１２は、ニューラルネットワークを用いて、このような学習処理を実行しても良い。すなわち、学習部１２は、ニューラルネットワークを用いて、ＲＤＦデータ２１に含まれる全ての組について、主語を示すエンティティのベクトルに述語を示すプロパティのベクトルを加えたベクトルが、目的語を示すエンティティのベクトルに近づくように学習しても良い。このとき、学習部１２は、ある組の述語を示すプロパティの文字列が別の組の主語や目的語を示すエンティティの文字列と対応付けられている場合には、ベクトルの学習の際に、対応付けられている文字列のプロパティとエンティティとを同じベクトルとして計算する。

【0118】

図１３は、実施例に係る学習処理においてニューラルネットワークを用いて学習することを説明する図である。図１３には、ニューラルネットワークの学習モデルが示されている。学習モデルは、ＲＤＦデータ２１に含まれる組の主語、述語、目的語を入力として、入力した主語、述語、目的語の接続関係の有無を出力としたモデルである。学習モデルのレイヤーのそれぞれのノードがｎ次元のベクトルに対応する。

【0119】

例えば、ＲＤＦデータ２１に含まれる組（主語，述語，目的語）が（Ａ，ｂｉｒｔｈｐｌａｃｅ，Ｓｐａｉｎ）、（ｂｉｒｔｈｐｌａｃｅ，翻訳，出身）である場合とする。学習部１２は、（Ａ，ｂｉｒｔｈｐｌａｃｅ，Ｓｐａｉｎ）を学習モデルに入力して、接続関係が有るようにベクトルを生成すべく、学習モデルをトレーニングする。すなわち、学習部１２は、主語を示す「Ａ」のベクトルに述語を示す「ｂｉｒｔｈｐｌａｃｅ」のベクトルを加えたベクトルが、目的語を示す「Ｓｐａｉｎ」のベクトルに近づくように学習モデルをトレーニングする。また、学習部１２は、（ｂｉｒｔｈｐｌａｃｅ，翻訳，出身）を学習モデルに入力して、接続関係が有るようにベクトルを生成すべく、学習モデルをトレーニングする。すなわち、学習部１２は、主語を示す「ｂｉｒｔｈｐｌａｃｅ」のベクトルに述語を示す「翻訳」のベクトルを加えたベクトルが、目的語を示す「出身」のベクトルに近づくように学習モデルをトレーニングする。学習モデルのトレーニングの際に、学習部１２は、プロパティの「ｂｉｒｔｈｐｌａｃｅ」が別の組のエンティティの「ｂｉｒｔｈｐｌａｃｅ」と文字列が同じであるので、文字列「ｂｉｒｔｈｐｌａｃｅ」のプロパティとエンティティとを同じベクトルとして計算する。

【0120】

このように学習された学習済みの学習モデルを用いて、予測部３２は、入力された組の予測対象を予測すれば良い。すなわち、予測部３２は、入力された組から、予測対象以外の２つの文字列を取得する。そして、予測部３２は、ＲＤＦデータ２１の文字列の集合から１つずつ文字列を選択する。そして、予測部３２は、取得した２つの文字列および選択した文字列を用いて、学習済みの学習モデルに、主語の文字列、述語の文字列、目的語の文字列として入力し、接続関係の有無を出力する。予測部３２は、接続関係が有ると出力された、選択した文字列を予測対象として予測すれば良い。

【0121】

［実施例の効果］
上記実施例によれば、学習装置１は、主語、述語および目的語から構成されるＲＤＦデータを取得する。学習装置１は、取得したＲＤＦデータのうち、第一のレコードの主語、述語および目的語を入力する。学習装置１は、第一のレコードの主語または目的語と文字列が同じである既に入力した第二のレコードの述語を特定する。学習装置１は、第一のレコードの主語または目的語と、該特定した前記第二のレコードの述語とを対応付けたＲＤＦデータから成る教師データを生成する。学習装置１は、生成した教師データについて、ＲＤＦデータと対応付けられた主語のベクトルに述語のベクトルを加えたベクトルが、ＲＤＦデータと対応付けられた目的語のベクトルに近づくように学習する。かかる構成によれば、学習装置１は、ＴｒａｎｓＥの学習に、ＲＤＦデータの第一のレコードの主語または目的語と、該特定した前記第二のレコードの述語とを対応付けたＲＤＦデータから成る教師データを用いることで、ＲＤＦデータにおいて、検索の予測精度を向上させることができる。例えば、（Ａ、birthplace、Spain）（Ｂ、出身、スペイン）（birthplace、翻訳、出身）のＲＤＦデータについての３つのレコードがある場合に、述語の「birthplace」と主語の「birthplace」とを対応付けて同じベクトルとし、述語の「出身」と目的語の「出身」とを対応付けて同じベクトルとすることで、３つのレコードを近くに配置することができ、「Ａ」の「出身」は、「Spain」と「スペイン」と予測することが可能となる。

【0122】

また、上記実施例によれば、学習装置１は、文字列が同じ第一のレコードの主語または目的語と、該特定した第二のレコードの述語とが同じベクトルとなるように対応付けたＲＤＦデータから成る教師データを生成する。かかる構成によれば、学習装置１は、ＴｒａｎｓＥの学習に、ＲＤＦデータの第一のレコードの主語または目的語と、該特定した前記第二のレコードの述語とが同じベクトルとなるように対応付けたＲＤＦデータから成る教師データを用いることができる。このため、学習装置１は、ＲＤＦデータにおいて、検索の予測精度を向上させることができる。

【0123】

また、上記実施例によれば、学習装置１は、ＲＤＦデータと対応付けられた主語、述語および目的語を入力し、該生成した教師データについて、ＲＤＦデータと対応付けられた主語のベクトルに述語のベクトルを加えたベクトルが、ＲＤＦデータと対応付けられた目的語のベクトルに近づくように学習し、近づく関係の有無を出力する学習モデルを生成する。かかる構成によれば、学習装置１は、学習モデルを用いることで、近づく関係が有る主語、述語および目的語を予測することができる。

【0124】

また、上記実施例によれば、予測装置３は、いずれかを予測対象とする主語、述語および目的語を入力すると、ＲＤＦデータを学習した結果に基づいて、学習結果未知の予測対象を予測する。かかる構成によれば、予測装置３は、ＲＤＦデータを学習した結果を用いることで、ＲＤＦデータにおいて、検索の予測精度を向上させることができる。

【0125】

また、上記実施例によれば、予測装置３は、ＲＤＦデータを学習した結果に含まれる学習済みのベクトルの中から一つずつベクトルを選択する。予測装置３は、該選択したベクトルと、予測対象以外の所定語のベクトルとを用いて、主語に対応するベクトルに述語に対応するベクトルを加えたベクトルから、目的語に対応するベクトルを引いたベクトルが所定のスコアより小さいか否かを判定する。予測装置３は、小さいと判定した、選択したベクトルに対応する文字列を予測対象とする。かかる構成によれば、予測装置３は、ＲＤＦデータを学習した結果に含まれる学習済みのベクトルを用いることで、ＲＤＦデータにおいて、検索の予測精度を向上させることができる。

【0126】

また、上記実施例によれば、予測装置３は、ＲＤＦデータを学習した結果に含まれる学習モデルを用いて、入力した主語、述語および目的語のうち予測対象以外の主語、述語または目的語と、前記ＲＤＦデータに含まれる複数の主語、述語または目的語の文字列とから、近づく関係が有るか否かを予測し、近づく関係が有ると予測された文字列を予測対象とする。かかる構成によれば、予測装置３は、ＲＤＦデータを学習した結果に含まれる学習モデルを用いることで、ＲＤＦデータにおいて、検索の予測精度を向上させることができる。

【0127】

また、上記実施例によれば、予測装置３は、副作用報告事例に関する主語と、患者または疾患または医薬品に関する述語と、患者属性、病名、医薬品名または既知の副作用に関する目的語から構成される医療に関するＲＤＦデータであって、ＲＤＦデータを学習した結果に基づいて、医薬品名を入力として、学習結果未知の副作用を予測する。かかる構成によれば、予測装置３は、ＲＤＦデータを学習した結果を用いることで、医療に関するＲＤＦデータにおいて、医薬品名から副作用を検索する予測精度を向上させることができる。

【0128】

［その他］
なお、図示した学習装置１や予測装置３の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、学習装置１、予測装置３の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、初期化部１１と学習部１２とを１つの部として統合しても良い。また、記憶部２０を学習装置１の外部装置としてネットワーク経由で接続するようにしても良い。記憶部４０を予測装置３の外部装置としてネットワーク経由で接続するようにしても良い。

【0129】

また、上記実施例では、学習処理を行う学習装置１と予測処理を行う予測装置３とに分離する構成で説明した。しかしながら、情報処理装置が、学習処理と予測処理とを含むような構成としても良い。

【0130】

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示した学習装置１と同様の機能を実現する学習プログラムや予測装置３と同様の機能を実現する予測処理プログラムを実行するコンピュータの一例を説明する。ここでは、学習装置１と同様の機能を実現する学習プログラムを一例として説明する。図１４は、学習プログラムを実行するコンピュータの一例を示す図である。

【0131】

図１４に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０３と、ユーザからのデータの入力を受け付ける入力装置２１５と、表示装置２０９を制御する表示制御部２０７とを有する。また、コンピュータ２００は、記憶媒体からプログラムなどを読取るドライブ装置２１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部２１７とを有する。また、コンピュータ２００は、各種情報を一時記憶するメモリ２０１と、ＨＤＤ（Hard Disk Drive）２０５を有する。そして、メモリ２０１、ＣＰＵ２０３、ＨＤＤ２０５、表示制御部２０７、ドライブ装置２１３、入力装置２１５、通信制御部２１７は、バス２１９で接続されている。

【0132】

ドライブ装置２１３は、例えばリムーバブルディスク２１０用の装置である。ＨＤＤ２０５は、学習プログラム２０５ａおよび学習処理関連情報２０５ｂを記憶する。

【0133】

ＣＰＵ２０３は、学習プログラム２０５ａを読み出して、メモリ２０１に展開し、プロセスとして実行する。かかるプロセスは、学習装置１の各機能部に対応する。学習処理関連情報２０５ｂは、ＲＤＦデータ２１および学習データ２２に対応する。そして、例えばリムーバブルディスク２１０が、学習プログラム２０５ａなどの各情報を記憶する。

【0134】

なお、学習プログラム２０５ａについては、必ずしも最初からＨＤＤ２０５に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、光磁気ディスク、ＩＣ（Integrated Circuit）カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ２００がこれらから学習プログラム２０５ａを読み出して実行するようにしても良い。

【符号の説明】

【0135】

１学習装置
１０制御部
１１初期化部
１２学習部
２０記憶部
２１ＲＤＦデータ
２２学習データ
３予測装置
３０制御部
３１入力部
３２予測部
３３出力部
４０記憶部
４１学習データ
５ユーザ端末
９学習システム

【図1】