特開2023-128160 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-128160エンティティリンキングの制御プログラム、制御方法、及び制御装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023128160

(43)【公開日】2023-09-14

(54)【発明の名称】エンティティリンキングの制御プログラム、制御方法、及び制御装置

(51)【国際特許分類】

G06F 40/279 20200101AFI20230907BHJP

G06F 16/54 20190101ALI20230907BHJP

【ＦＩ】

G06F40/279

G06F16/54

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022032320

(22)【出願日】2022-03-03

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100087480

【弁理士】

【氏名又は名称】片山修平

(72)【発明者】

【氏名】馬春鵬

(72)【発明者】

【氏名】岩倉友哉

(72)【発明者】

【氏名】金澤裕治

(72)【発明者】

【氏名】高橋哲朗

【テーマコード（参考）】

5B091

5B175

【Ｆターム（参考）】

5B091AA15

5B091AB06

5B091CA01

5B091CC04

5B175DA02

5B175FA03

(57)【要約】

【課題】エンティティリンキングの精度を向上するエンティティリンキングの制御プログラム、制御方法、及び制御装置を提供する。
【解決手段】エンティティリンキングの制御プログラムは、テキスト中の単語と、ナレッジグラフのエンティティとを対応付けるエンティティリンキングの制御プログラムであって、前記単語に基づいて、前記エンティティの複数の候補を抽出し、抽出した前記候補に関連する関連画像を収集し、収集した前記関連画像の前記候補ごとの画像クラスターを生成し、生成した前記画像クラスター間の類似度を算出し、より高い類似度を示す前記画像クラスターの前記候補を前記エンティティとする、処理をコンピュータに実行させる。
【選択図】図１２

【特許請求の範囲】

【請求項1】

テキスト中の単語と、ナレッジグラフのエンティティとを対応付けるエンティティリンキングの制御プログラムであって、
前記単語に基づいて、前記エンティティの複数の候補を抽出し、
抽出した前記候補に関連する関連画像を収集し、
収集した前記関連画像の前記候補ごとの画像クラスターを生成し、
生成した前記画像クラスター間の類似度を算出し、
より高い類似度を示す前記画像クラスターの前記候補を前記エンティティとする、
処理をコンピュータに実行させるための制御プログラム。

【請求項2】

前記収集する処理は、収集した前記関連画像に関連する関連語に基づいて、前記関連画像に関連する画像を再帰的に収集する、
ことを特徴とする請求項１に記載の制御プログラム。

【請求項3】

前記収集する処理は、前記テキストに対応付けられた所定画像から独立した前記関連画像をデータベースから収集する、
ことを特徴とする請求項１又は２に記載の制御プログラム。

【請求項4】

抽出した前記候補に点数を付与する処理と、
算出した前記類似度の中からどの前記類似度よりも大きな所定類似度を特定する処理と、を含み、
前記エンティティとする処理は、前記点数と前記所定類似度に基づいて、より高い類似度を示す前記画像クラスターの前記候補を前記エンティティとする、
ことを特徴とする請求項１から３のいずれか１項に記載の制御プログラム。

【請求項5】

前記点数と前記所定類似度のそれぞれに重みを付与する処理を含み、
前記エンティティとする処理は、前記重みを付与した前記点数と前記重みを付与した前記所定類似度の合算値に基づいて、より高い類似度を示す前記画像クラスターの前記候補を前記エンティティとする、
ことを特徴とする請求項４に記載の制御プログラム。

【請求項6】

テキスト中の単語と、ナレッジグラフのエンティティとを対応付けるエンティティリンキングの制御方法であって、
前記単語に基づいて、前記エンティティの複数の候補を抽出し、
抽出した前記候補に関連する関連画像を収集し、
収集した前記関連画像の前記候補ごとの画像クラスターを生成し、
生成した前記画像クラスター間の類似度を算出し、
より高い類似度を示す前記画像クラスターの前記候補を前記エンティティとする、
処理をコンピュータが実行する制御方法。

【請求項7】

テキスト中の単語と、ナレッジグラフのエンティティとを対応付けるエンティティリンキングの制御装置であって、
前記単語に基づいて、前記エンティティの複数の候補を抽出する抽出部と、
抽出した前記候補に関連する関連画像を収集する収集部と、
収集した前記関連画像の前記候補ごとの画像クラスターを生成する生成部と、
生成した前記画像クラスター間の類似度を算出する算出部と、
より高い類似度を示す前記画像クラスターの前記候補を前記エンティティとする決定部と、
を有する制御装置。

【発明の詳細な説明】

【技術分野】

【0001】

本件は、エンティティリンキングの制御プログラム、制御方法、及び制御装置に関する。

【背景技術】

【0002】

テキストの中の単語と、知識ベースであるナレッジグラフの中のエンティティ（実体）とを対応付けるエンティティリンキングと呼ばれる技術が知られている。また、単語だけでなく、インスタグラム（登録商標）やツイッター（登録商標）、映画の口コミサイトなどに含まれる画像情報も併せてエンティティと対応付けるマルチモーダルエンティティリンキングも知られている（例えば非特許文献１乃至３参照）。

【0003】

なお、各カメラで撮像された人物が同一人物であるか否かの判定において、人物画像間の対応付けの誤りを効率的に修正する技術は知られている（例えば特許文献１参照）。また、歩行者や自転車、車両、配送ロボットといった、交通における対象物を表す交通エンティティと自動運転車との相互作用を予測するための機械学習モデルを視覚化する技術も知られている（例えば特許文献２参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１７－０２１７５３号公報

【特許文献2】米国特許出願公開第２０２１／０１１０２０３号明細書

【非特許文献】

【0005】

【非特許文献1】Seungwhan Moon、外２名、「Zeroshot Multimodal Named Entity Disambiguation for Noisy Social Media Posts」、（豪）、Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers) (Long Papers)）、２０１８年、ｐ．２０００－２００８

【非特許文献2】Omar Adjali、外４名、「Building a Multimodal Entity Linking Dataset From Tweets」、（仏）、Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)、２０２０年、ｐ．４２８５－４２９２

【非特許文献3】Jingru Gan、外５名、「Multimodal Entity Linking: A New Dataset and A Baseline」、（中）、MM'21: Proceedings of the 29th ACM International Conference on Multimedia、２０２１年、ｐ．９９３－１００１

【発明の概要】

【発明が解決しようとする課題】

【0006】

ところで、上述したエンティティリンキングの精度は必ずしも高くはなく、エンティティリンキングのモデルによっては単語に対して誤ったエンティティが対応付けられることがある。このため、エンティティリンキングの精度には改善の余地がある。

【0007】

エンティティリンキングの精度を改善する場合、単語に対して抽象的ではあるが検索ヒット数が比較的多いテキスト情報と、単語に対して検索ヒット数が比較的少ないもののテキスト情報と比べて具体的である画像情報を併用することが想定される。例えば、上述したマルチモーダルエンティティリンキングはインスタグラム（登録商標）や映画の口コミサイトなど特定の分野に限定された画像情報がニューラルネットワークに入力されている。しかしながら、特定の分野に特化したニューラルネットワークが設計されているため、エンティティリンキングに汎用性がないという別の問題がある。

【0008】

そこで、１つの側面では、エンティティリンキングの精度を向上するエンティティリンキングの制御プログラム、制御方法、及び制御装置を提供することを目的とする。

【課題を解決するための手段】

【0009】

１つの実施態様では、エンティティリンキングの制御プログラムは、テキスト中の単語と、ナレッジグラフのエンティティとを対応付けるエンティティリンキングの制御プログラムであって、前記単語に基づいて、前記エンティティの複数の候補を抽出し、抽出した前記候補に関連する関連画像を収集し、収集した前記関連画像の前記候補ごとの画像クラスターを生成し、生成した前記画像クラスター間の類似度を算出し、より高い類似度を示す前記画像クラスターの前記候補を前記エンティティとする、処理をコンピュータに実行させる。

【発明の効果】

【0010】

エンティティリンキングの精度を向上することができる。

【図面の簡単な説明】

【0011】

【図1】図１はエンティティリンキングの一例を説明する図である。

【図2】図２はＥＬ制御装置のハードウェア構成の一例を示すブロック図である。

【図3】図３はＥＬ制御装置の機能構成の一例を示すブロック図である。

【図4】図４は画像ＤＢの一例である。

【図5】図５はＥＬ制御装置が実行する処理の一例を示すフローチャートである。

【図6】図６（ａ）は入力テキストの一例である。図６（ｂ）は入力テキストのＥＬモデルへの入力とＥＬモデルからの出力例を説明する図である。図６（ｃ）は入力テキスト中の単語とエンティティ候補の対応付けの一例を説明する図である。

【図7】図７は関連画像の収集及び副関連画像の再帰的収集と画像クラスターの生成の一例を説明する図である。

【図8】図８（ａ）及び（ｂ）はエンティティ候補に関連する画像クラスターの一例を説明する図である。

【図9】図９（ａ）及び（ｂ）はエンティティ候補に関連する画像クラスターの他の一例を説明する図である。

【図10】図１０（ａ）は類似度を算出する画像クラスターの一例である。図１０（ｂ）は画像間スコアの一例を説明する図である。

【図11】図１１（ａ）は画像クラスター間の類似度の一例を説明する図である。図１１（ｂ）は最大類似度の特定例を説明する図である。

【図12】図１２（ａ）は画像クラスター間の類似度とエンティティ候補の関係の一例を説明する図である。図１２（ｂ）は最終スコアとエンティティの決定例を説明する図である。

【図13】図１３は入力テキスト中の単語とエンティティの最終的な対応付けの一例を説明する図である。

【発明を実施するための形態】

【0012】

以下、本件を実施するための形態について図面を参照して説明する。

【0013】

まず、図１を参照して、知識ベースを利用したエンティティリンキングの概念を説明する。図１では、入力テキストと知識ベースが示されている。知識ベースはナレッジグラフで示されている。ナレッジグラフは各エンティティをノードとし、エンティティ間のスコアをエッジの重みとして持つグラフのことをいう。つまり、エンティティリンキングでは、入力テキストの中のメンションと呼ばれる単語と、知識ベースであるナレッジグラフのエンティティ（ノード）とを、エッジの重みを利用して対応（又は結び）付ける。

【0014】

ここで、知識ベースでは、１つの情報は、主語、述語、目的語の３つの組で表現される。例えば、符号Ｇ０（ゼロ）で示すように、主語として「武蔵中原」、述語として「locatedIn」、目的語として「川崎市」が１つの情報として表現される。そして、それぞれの情報は、グラフとして可視化される。なお、主語と目的語はノードで表わされ、述語はエッジで表わされる。

【0015】

そして、エンティティリンキングでは、入力テキストが、例えば「友達と東横線で小杉に行って、グランツリー（登録商標）で買い物した」の場合には、入力テキストの中の「東横線」と、知識ベースの「東急東横線」のノードとがスコアを利用して対応付けられる。入力テキストの中の「小杉」と、知識ベースの「武蔵小杉」のノードとがスコアを利用して対応付けられる。入力文の中の「グランツリー」と、知識ベースの「グランツリー」のノードとがスコアを利用して対応付けられる。

【0016】

次に、図２を参照して、エンティティリンキングの制御方法を実行するＥＬ（Entity Linking）制御装置１００のハードウェア構成について説明する。

【0017】

ＥＬ制御装置１００は、プロセッサとしてのＣＰＵ（Central Processing Unit）１００Ａと、メモリとしてのＲＡＭ（Random Access Memory）１００Ｂ及びＲＯＭ（Read Only Memory）１００Ｃを含んでいる。ＥＬ制御装置１００は、ネットワークＩ／Ｆ（インタフェース）１００Ｄ及びＨＤＤ（Hard Disk Drive）１００Ｅを含んでいる。ＨＤＤ（Hard Disk Drive）１００Ｅに代えて、ＳＳＤ（Solid State Drive）を採用してもよい。

【0018】

ＥＬ制御装置１００は、必要に応じて、入力Ｉ／Ｆ１００Ｆ、出力Ｉ／Ｆ１００Ｇ、入出力Ｉ／Ｆ１００Ｈ、ドライブ装置１００Ｉの少なくとも１つを含んでいてもよい。ＣＰＵ１００Ａからドライブ装置１００Ｉまでは、内部バス１００Ｊによって互いに接続されている。すなわち、ＥＬ制御装置１００はコンピュータによって実現することができる。なお、コンピュータは、ＰＣ（Personal Computer）やスマートフォン、タブレット端末などであればよい。

【0019】

入力Ｉ／Ｆ１００Ｆには入力装置７１０が接続される。入力装置７１０としては例えばキーボードやマウス、タッチパネルなどがある。出力Ｉ／Ｆ１００Ｇには表示装置７２０が接続される。表示装置７２０としては例えば液晶ディスプレイなどがある。入出力Ｉ／Ｆ１００Ｈには半導体メモリ７３０が接続される。半導体メモリ７３０としては、例えばＵＳＢ（Universal Serial Bus）メモリやフラッシュメモリなどがある。入出力Ｉ／Ｆ１００Ｈは半導体メモリ７３０に記憶されたエンティティリンキングの制御プログラムを読み取る。入力Ｉ／Ｆ１００Ｆ及び入出力Ｉ／Ｆ１００Ｈは例えばＵＳＢポートを備えている。出力Ｉ／Ｆ１００Ｇは例えばディスプレイポートを備えている。

【0020】

ドライブ装置１００Ｉには可搬型記録媒体７４０が挿入される。可搬型記録媒体７４０としては、例えばＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）といったリムーバブルディスクがある。ドライブ装置１００Ｉは可搬型記録媒体７４０に記録されたエンティティリンキングの制御プログラムを読み込む。ネットワークＩ／Ｆ１００Ｄは例えばＬＡＮ（Local Area Network）ポートや通信回路などを備えている。通信回路は有線通信回路と無線通信回路のいずれか一方又は両方を含んでいる。ネットワークＩ／Ｆ１００Ｄは通信ネットワークＮＷと接続されている。通信ネットワークＮＷはＬＡＮとインターネットのいずれか一方又は両方を含んでいる。

【0021】

ＲＡＭ１００ＢにはＲＯＭ１００Ｃ、ＨＤＤ１００Ｅ、半導体メモリ７３０の少なくとも１つに記憶されたエンティティリンキングの制御プログラムがＣＰＵ１００Ａによって一時的に格納される。ＲＡＭ１００Ｂには可搬型記録媒体７４０に記録されたエンティティリンキングの制御プログラムがＣＰＵ１００Ａによって一時的に格納される。格納されたエンティティリンキングの制御プログラムをＣＰＵ１００Ａが実行することにより、ＣＰＵ１００Ａは後述する各種の機能を実現し、また、後述する各種の処理を実行する。なお、エンティティリンキングの制御プログラムは後述するフローチャートに応じたものとすればよい。

【0022】

図３及び図４を参照して、ＥＬ制御装置１００の機能構成について説明する。なお、図３ではＥＬ制御装置１００の機能の要部が示されている。また、ＥＬ制御装置１００の機能の詳細については、必要に応じて、ＥＬ制御装置１００の動作を説明する際に説明する。

【0023】

ＥＬ制御装置１００は記憶部１１０、処理部１２０、入力部１３０、出力部１４０、及び通信部１５０を備えている。記憶部１１０は上述したＲＡＭ１００ＢとＨＤＤ１００Ｅのいずれか一方又は両方によって実現することができる。処理部１２０は上述したＣＰＵ１００Ａによって実現することができる。入力部１３０は入力Ｉ／Ｆ１００Ｆによって実現することができる。出力部１４０は出力Ｉ／Ｆ１００Ｇによって実現することができる。通信部１５０は上述したネットワークＩ／Ｆ１００Ｄによって実現することができる。

【0024】

記憶部１１０、処理部１２０、入力部１３０、出力部１４０、及び通信部１５０は互いに接続されている。記憶部１１０は画像ＤＢ（Database）１１１を含んでいる。処理部１２０は、抽出部１２１、収集部１２２、及び生成部１２３を含んでいる。また、処理部１２０は、算出部１２４、特定部１２５、及び決定部１２６を含んでいる。

【0025】

抽出部１２１は入力装置７１０から入力されたテキストを、入力部１３０を介して受け付けると、テキストに含まれる単語に基づいて通信ネットワークＮＷを検索し、エンティティの候補を表す複数のエンティティ候補を抽出する。より詳しくは、抽出部１２１はエンティティ候補のリストを生成するＥＬモデルを備え、ＥＬモデルが固有表現に相当する単語を抽出し、エンティティリンキングの精度に応じたスコアをエンティティ候補に付与する。このようなＥＬモデルとしては、例えばclassification headやclassifier、entity-context scoresなどがある。なお、固有表現は人名や地名、組織名といった名前や、時刻表現や曜日表現といった時間表現、金額表現や年齢といった数値表現などに関する総称である。

【0026】

抽出部１２１はエンティティ候補を抽出すると、エンティティ候補を画像ＤＢ１１１に格納する。これにより、図４に示すように、画像ＤＢ１１１は複数のエンティティ候補１１，１２，１３，・・・を記憶する。エンティティ候補１１はエンティティに関連する関連文１１Ａとエンティティに関連する関連画像１１Ｂを含んでいる。例えば、関連文１１Ａはエンティティの詳細を説明する説明文であり、関連画像１１Ｂはエンティティの代表的な静止画である。また、関連文１１Ａは関連画像１１Ｂに関連する関連語も含んでいる。例えば、関連文１１Ａは関連画像１１Ｂに関連する関連語「芝」や関連語「六本木」などを含んでいる。なお、エンティティ候補１２，１３，・・・についてはエンティティ候補１１と基本的に同様であるため、詳細な説明は省略する。

【0027】

収集部１２２は画像ＤＢ１１１からエンティティ候補に含まれる関連画像をエンティティ候補ごとに収集する。また、収集部１２２は関連画像を収集すると、収集した関連画像に関連する関連語に基づいて、関連画像に関連する関連画像を再帰的に収集する。関連画像を再帰的に収集することにより、収集部１２２はエンティティ候補に関連する様々な関連画像をエンティティ候補ごとに収集することができる。

【0028】

生成部１２３は収集部１２２が収集した関連画像のエンティティ候補ごとの画像クラスターを生成する。関連画像のエンティティ候補ごとの画像クラスターを生成するため、生成部１２３は複数の画像クラスターを生成する。算出部１２４は、画像クラスターの類似度を算出する所定の算出手法に基づいて、生成部１２３が生成した画像クラスター間の類似度を算出する。なお、類似度を算出する所定の算出手法の詳細については後述する。

【0029】

特定部１２５は算出部１２４が算出した類似度の中からどの類似度よりも大きな所定類似度を特定する。すなわち、特定部１２５は算出部１２４が算出した類似度の中から最大類似度を特定する。決定部１２６は特定部１２５が特定した所定類似度に基づいて、エンティティ候補の中から所定類似度に応じたエンティティを決定する。すなわち、決定部１２６はより高い類似度を示す画像クラスターの候補を最終的なエンティティとする。これらの構成により、単語とエンティティを一意かつ高精度に対応付けることができる。

【0030】

続いて、図５乃至図１３を参照して、ＥＬ制御装置１００が実行する処理について説明する。

【0031】

まず、図５に示すように、抽出部１２１は入力テキストを受け付ける（ステップＳ１）。例えば、図６（ａ）に示すように、入力テキスト「電波塔は港区にある」が入力装置７１０からＥＬ制御装置１００に入力されると、抽出部１２１はこの入力テキストを受け付ける。

【0032】

入力テキストを受け付けると、抽出部１２１はエンティティ候補を抽出する（ステップＳ２）。より詳しくは、図６（ｂ）に示すように、入力テキストを受け付けると、抽出部１２１はＥＬモデルを備えているため、入力テキストから固有表現に相当する単語を特定する。本実施形態では、一例として抽出部１２１は固有表現に相当する単語「電波塔」及び単語「港区」を特定する。単語を特定すると、図６（ｃ）に示すように、抽出部１２１は、これらの単語に基づいて、複数のエンティティ候補を抽出する。

【0033】

例えば単語「港区」に基づいて、抽出部１２１はエンティティ候補「https:ja.xyzpedia.org/xyz/港区_(大阪市)」及びエンティティ候補「https:ja.xyzpedia.org/xyz/港区_(東京都)」を抽出する。同様に、単語「電波塔」に基づいて、抽出部１２１はエンティティ候補「https:ja.xyzpedia.org/xyz/東京タワー（登録商標）」及びエンティティ候補「https:ja.xyzpedia.org/xyz/東京スカイツリー（登録商標）」を抽出する。なお、図示しないが、上述したように、各エンティティ候補はエンティティに関連する関連文とエンティティに関連する関連画像を含んでいる。

【0034】

また、各エンティティ候補にはエンティティリンキングの精度に応じたスコアが付与されている。例えば単語「港区」であれば、エンティティ候補「https:ja.xyzpedia.org/xyz/港区_(東京都)」よりエンティティ候補「https:ja.xyzpedia.org/xyz/港区_(大阪市)」の方が高精度であることが示されている。また、単語「電波塔」であれば、エンティティ候補「https:ja.xyzpedia.org/xyz/東京スカイツリー」よりエンティティ候補「https:ja.xyzpedia.org/xyz/東京タワー」の方が高精度であることが示されている。

【0035】

しかしながら、入力テキスト「電波塔は港区にある」に照らした場合、大阪市の港区には電波塔はない。このため、この入力テキストに対しエンティティ候補「https:ja.xyzpedia.org/xyz/港区_(大阪市)」とエンティティ候補「https:ja.xyzpedia.org/xyz/東京タワー」を対応付けることは適切でない。また、仮に入力テキスト「電波塔は港区にある」に照らした場合、東京スカイツリーは東京都の墨田区にあり、港区にはない。本実施形態の場合、この入力テキストに対しエンティティ候補「https:ja.xyzpedia.org/xyz/港区_(東京都)」とエンティティ候補「https:ja.xyzpedia.org/xyz/東京タワー」を対応付けることが適切である。

【0036】

このため、抽出部１２１がエンティティ候補を抽出すると、抽出したエンティティ候補を画像ＤＢ１１１に格納し、収集部１２２などがエンティティリンキングの精度を高める後続の処理を実行する。

【0037】

具体的には、抽出部１２１がエンティティ候補を画像ＤＢ１１１に格納すると、収集部１２２は関連画像を収集する（ステップＳ３）。より詳しくは、収集部１２２は、抽出部１２１が抽出したエンティティ候補に基づいて、画像ＤＢ１１１からエンティティ候補に関連する関連画像をエンティティ候補ごとに収集する。例えば、図７に示すように、抽出部１２１がエンティティ候補１１を抽出した場合、エンティティ候補１１に含まれる関連画像１１Ｂを収集する。

【0038】

また、収集部１２２が関連画像を収集すると、抽出部１２１は収集部１２２が収集した関連画像に関連する関連語に基づいて複数のエンティティ候補を抽出し、複数のエンティティ候補を画像ＤＢ１１１に格納する。そして、抽出部１２１が複数のエンティティ候補を画像ＤＢ１１１に格納すると、収集部１２２は画像ＤＢ１１１の複数のエンティティ候補からさらに画像を収集する。すなわち、収集部１２２は収集した関連画像に関連する関連語に基づいて、関連画像に副次的に関連する副関連画像を追加の関連画像として再帰的に収集する。

【0039】

例えば、図７に示すように、収集部１２２が関連画像１１Ｂを収集すると、抽出部１２１はこの関連画像１１Ｂに関連する関連語１１Ｃ（例えば「芝」）や関連語１１Ｄ（例えば「六本木」）などを特定する。そして、抽出部１２１は特定した関連語１１Ｃ，１１Ｄに基づいて、関連語１１Ｃ，１１Ｄに応じた複数のエンティティ候補１２，１３などを抽出して画像ＤＢ１１１に格納する。抽出部１２１が複数のエンティティ候補１２，１３を格納すると、収集部１２２は画像ＤＢ１１１の複数のエンティティ候補１２，１３から副関連画像１２Ｂ，１３Ｂを追加の関連画像として収集する。このように、収集部１２２は一次的な関連画像１１Ｂを収集し、さらに、副関連画像１２Ｂ，１３Ｂなどを追加の二次的な関連画像として再帰的に収集する。

【0040】

収集部１２２は関連画像を収集すると、生成部１２３は画像クラスターを生成する（ステップＳ４）。より詳しくは、生成部１２３は収集部１２２が収集した関連画像のエンティティ候補ごとの画像クラスターを生成する。例えば、図７に示すように、エンティティ候補１１であれば、エンティティ候補１１に関連する関連画像１１Ｂや副関連画像１２Ｂ，１３Ｂなどを関連画像として含む画像クラスターＣ１を生成する。したがって、図８（ａ）に示すように、エンティティ候補１１であれば、エンティティ候補１１と画像クラスターＣ１を関連付けることができる。

【0041】

同様に、図８（ｂ）に示すように、エンティティ候補２１であれば、エンティティ候補２１と画像クラスターＣ２を関連付けることができる。図９（ａ）に示すように、エンティティ候補３１であれば、エンティティ候補３１と画像クラスターＣ３を関連付けることができる。図９（ｂ）に示すように、エンティティ候補４１であれば、エンティティ候補４１と画像クラスターＣ４を関連付けることができる。

【0042】

生成部１２３が画像クラスターを生成すると、算出部１２４は生成部１２３が生成した画像クラスター間の類似度を算出する（ステップＳ５）。例えば、図１０（ａ）に示すように、画像クラスターＣ１，Ｃ３間の類似度を算出する場合、図１０（ｂ）に示すように、まず、算出部１２４は画像クラスターＣ１を比較元画像クラスターに指定し、画像クラスターＣ３を比較先画像クラスターに指定する。

【0043】

次に、算出部１２４は比較元画像クラスターに含まれる各関連画像と比較先画像クラスターに含まれる各関連画像を関連画像ごとに比較して画像間スコアを算出する。例えば、比較元画像クラスターに含まれる関連画像「港区（１）の写真」と比較先画像クラスターに含まれる関連画像「東京タワーの写真」の画像間スコアを算出する場合、算出部１２４はこれらの関連画像と所定の類似度算出手法とに基づいて、画像間スコア「０．２」を算出する。残りの関連画像についても同様に算出部１２４は画像間スコアを算出する。この所定の類似度算出手法としては、例えばFaster R-CNNで画像の分散表現を計算し、画像間の分散表現のコサイン類似度を計算する手法などが挙げられる。

【0044】

画像間スコアを算出すると、図１１（ａ）に示すように、算出部１２４は全ての画像間スコアの中から上位数個の画像間スコアを抽出し、画像間スコアの平均値を算出する。画像間スコアを抽出個数は十数個、数十個、数百個などであってもよい。本実施形態では、算出部１２４は上位５個の画像間スコア「１．０，１．０，０．９，０．９，０．６」を抽出し、画像間スコアの平均値「０．８８」を算出する。画像間スコアの平均値を算出すると、算出部１２４は算出した平均値を画像クラスター間の類似度として決定する。このような手法により、算出部１２４は画像クラスターＣ１，Ｃ３間の類似度「０．８８」を算出する。

【0045】

このように、画像クラスターＣ１，Ｃ３間の類似度「０．８８」を算出すると、算出部１２４は、画像クラスターＣ１を基準に、図１１（ｂ）に示すように、同様の手法を用いて画像クラスターＣ１，Ｃ２間の類似度「０．３２」を算出する。また、算出部１２４は画像クラスターＣ１，Ｃ４間の類似度「０．７５」を算出する。

【0046】

算出部１２４がいずれか１つの画像クラスターを基準とする残り全ての画像クラスターとの類似度を算出すると、特定部１２５は複数の類似度の中から最大類似度を特定する（ステップＳ６）。本実施形態であれば、図１１（ｂ）に示すように、特定部１２５は最大類似度「０．８８」を特定する。最大類似度を特定すると、特定部１２５は特定した最大類似度をその画像クラスターと関連するエンティティ候補の最終スコア（ｓｃｏｒｅ＿ｉｍｇ）として決定する。本実施形態であれば、特定部１２５は最大類似度「０．８８」を画像クラスターＣ１と関連するエンティティ候補１１の最終スコアとして決定する。これにより、図１２（ａ）に示すように、エンティティ候補１１，２１，３１，４１のそれぞれに、エンティティリンキングの精度に応じたスコア（ｓｃｏｒｅ）に加え、最終スコア（ｓｃｏｒｅ＿ｉｍｇ）が関連付けられる。

【0047】

特定部１２５が最大類似度を特定して、エンティティ候補に最終スコアを関連付けると、決定部１２６は特定した最大類似度に基づいて、エンティティ候補の中から最終的なエンティティを決定する（ステップＳ７）。具体的には、図１２（ｂ）に示すように、決定部１２６はエンティティリンキングの精度に応じたスコアと最終スコアのそれぞれに所定の重みを付与する。本実施形態では、決定部１２６はエンティティリンキングの精度に応じたスコアに重み「０．５」（５０％）を付与する。また、決定部１２６は最終スコアに重み「０．５」（５０％）を付与する。

【0048】

決定部１２６は重みを付与すると、重みを付与した上記スコアと上記最終スコアの合算値（ｔｏｔａｌ＿ｓｃｏｒｅ）に基づいて、エンティティ候補のいずれかを最終的なエンティティとして決定する。すなわち、決定部１２６は重みを付与した上記スコアと上記最終スコアとの線形結合に基づいて、エンティティ候補のいずれかを最終的なエンティティとして決定する。例えば、エンティティ候補１１であれば、決定部１２６は合算値「０．７４」を算出する。同様に、エンティティ候補２１であれば、決定部１２６は合算値「０．４９」を算出する。エンティティ候補３１であれば、決定部１２６は合算値「０．８８」を算出する。エンティティ候補４１であれば、決定部１２６は合算値「０．４３」を算出する。決定部１２６は合算値を算出すると、算出した合算値が最大になるエンティティ候補を最終的なエンティティとして単語ごとに決定する。

【0049】

本実施形態であれば、図１２（ｂ）に示すように、決定部１２６はエンティティ候補３１に対し合算値「０．８８」を算出し、エンティティ候補４１に対し合算値「０．４３」を算出した。このため、単語「電波塔」に対し、決定部１２６はエンティティ候補３１を最終的なエンティティとして決定する。同様に、決定部１２６はエンティティ候補１１に対し合算値「０．７４」を算出し、エンティティ候補２１に対し合算値「０．４９」を算出した。このため、単語「港区」に対し、決定部１２６はエンティティ候補１１を最終的なエンティティとして決定する。

【0050】

決定部１２６はエンティティを決定すると、表示装置７２０に最終結果を表示し（ステップＳ８）、処理を終了する。これにより、図１３に示すように、入力テキストに含まれる単語「電波塔」及び単語「港区」のそれぞれに対し適切なエンティティが対応付けられて表示装置７２０に表示される。このように、本実施形態によれば、インスタグラム（登録商標）や映画の口コミサイトといった特定の分野に限定された所定画像ではなく、インターネットなどの通信ネットワークＮＷを検索して収集可能な画像が関連画像として利用されている。すなわち、所定画像から独立した関連画像が画像ＤＢ１１１から収集されて利用されている。このような関連画像の収集は容易であるため、特定の分野に特化したニューラルネットワークを設計する場合に比べて、エンティティリンキングの汎用性が向上するという利点がある。また、本実施形態によれば、画像を利用してエンティティリンキングの精度の向上を図っているため、日本語や英語など特定に言語に依存せずに、エンティティリンキングの精度を向上することができる。

【0051】

以上、本発明の好ましい実施形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。例えば、上述した実施形態では、画像クラスターを生成したが、画像クラスターに加えて関連語のクラスターを生成してエンティティリンキングの精度向上に利用してもよい。

【0052】

また、本実施形態では、重み「０．５」を採用したが、設計や運用、設定等に応じて、同じ重みを異なる重みに変更するようにしてもよい。例えば、決定部１２６はエンティティリンキングの精度に応じたスコアに重み「０．７」（７０％）を付与し、最終スコアに重み「０．３」（３０％）を付与してもよいし、これらの重みを逆にしてもよい。

【符号の説明】

【0053】

１００ＥＬ制御装置
１１０記憶部
１１１画像ＤＢ
１２０処理部
１２１抽出部
１２２収集部
１２３生成部
１２４算出部
１２５特定部
１２６決定部

【図1】