【文献】
石川裕貴, 外2名,ウェブ検索ログとWikipedia内部リンクを用いたエンティティの曖昧性解消,言語処理学会第21回年次大会 発表論文集 [online],言語処理学会,2015年03月09日,p.644〜647
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。
【0012】
エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。
【0013】
<実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML(HyperText Markup Language)文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
【0014】
端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供する。
【0015】
ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、ナレッジグラフD1と、コンテンツ情報D2とが記憶される。
【0016】
図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
【0017】
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。
【0018】
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。
【0019】
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。
【0020】
ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。
【0021】
図2に示されるナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所在地」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、「エンティティ識別情報EID」という)と、エンティティ名と、エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、エンティティの関連データが記載されている。
【0022】
図2に示されるナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「東京タワー」と、エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/東京タワー」及び「http://地域情報ウェブページ/東京タワー」というURLとが関連付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「東京都」と、このエンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/東京都」というURLとが関連付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。
【0023】
図3は、本実施形態に係る「東京タワー」のウェブページの一例を示す図である。「東京タワー」のウェブページには、「東京タワー」の関連データが記載されている。
【0024】
図4は、本実施形態に係るコンテンツ情報D2の一例を示す図である。コンテンツ情報D2とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報D2は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報D2は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報D2は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。
図4に示される一例のコンテンツ情報D2において、「東京タワー」というエンティティには、「日本電波塔」というテキストデータが関連付けられ、「東京都」というエンティティには、「日本の首都」というテキストデータが関連付けられる。
【0025】
<1−2.検索結果ウェブページ>
図5は、本実施形態に係る検索結果ウェブページの一例を示す図である。
図5に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
【0026】
ウェブサーバ300は、端末装置200から受信したクエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、コンテンツ情報D2に基づいて、受信したクエリ(テキストデータ)に関連付けられたエンティティを判定する。また、ナレッジデータサーバ100は、ナレッジグラフD1に基づいて、判定したエンティティに関連付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含めた検索結果ウェブページ(例えば、
図5)を生成する。
【0027】
図5に示される例においては、クエリとして「日本電波塔」が入力され、ナレッジパネル220には「日本電波塔」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「日本電波塔」を示す「東京タワー」の画像222や、「東京タワー」の高さや所在地等の関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。
【0028】
上記のようなナレッジパネル220を提供するためには、ナレッジグラフD1及びコンテンツ情報D2に含まれる情報量を充実化させておき、多様なクエリに対応可能であり且つ適切なエンティティの情報を提供できるようにしておく必要がある。そこで、本実施形態のナレッジデータサーバ100は、エンティティに関連付けられるテキストデータが適切であるかを示す指標(以下、「得点」)を複数のサービスの利用状況に関する情報等に基づいて導出する。以下、ナレッジデータサーバ100の詳細な構成について説明する。
【0029】
<1−3.ナレッジデータサーバ100の構成>
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、収集部112と、得点算出部113と、所在情報取得部114と、通信I/F(Interface)115を備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F115は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
【0030】
選択部111は、コンテンツ情報D2から得点算出対象の任意のテキストデータ(以下、「対象テキストデータ」)を選択する。収集部112は、選択部111によって選択された対象テキストデータに関連するウェブページ(以下、「関連ウェブページ」)を、ネットワークNWを介して収集する。収集部112は、例えば、利用者によって編集可能な百科事典のウェブページ、対象テキストデータをクエリとした場合の検索結果ウェブページ、この検索結果のウェブページに含まれるリンクのクリックログなどの利用状況に関する情報を収集する。以下、利用者によって編集可能な百科事典のウェブページを、百科事典ウェブページと記載する。
【0031】
ここで、百科事典ウェブページは、第1のサービス(以下、百科事典提供サービス)によって提供されるページである。百科事典ウェブページは、第2種類の関連ウェブページの一例である。また、検索結果ウェブページとは、第1種類の関連ウェブページの一例である。検索結果ウェブページに含まれるリンクには、第1のサービスによって提供される百科事典ウェブページへのリンクの他、第1のサービスとは異なる第2のサービスによって提供されるウェブページへのリンク等が含まれる。第2のサービスは、例えば、ランドマーク情報等の地域情報、店舗情報、観光地情報、宿泊施設情報、映画館情報、病院・診療所情報、美容院情報、駐車場情報、レンタカー情報を提供するサービスや、ユーザに書籍などの商品またはサービスを販売するサービスである。以下においては、第2のサービスが、ランドマーク情報等の地域情報を提供する地域情報提供サービスである例を説明する。また、地域情報提供サービスにより提供されるウェブページを、地域情報ウェブページと記載する。
【0032】
図6は、収集部112により収集された百科事典ウェブページの一例を示す図である。
図6に示される例においては、収集部112は、百科事典ウェブページのうち、コンテンツ情報D2が示す「東京タワー」のエンティティに関連付けられる「日本電波塔」という対象テキストデータが記載された関連ウェブページを収集する。収集部112は、例えば、百科事典ウェブページのHTMLデータを含む収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。収集部112は、いわゆるクローラプログラムにより実現される。ここで、収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTMLのソースを示すテキストデータを含む関連ウェブページである。収集部112は、百科事典ウェブページのうち、対象テキストデータが記載された関連ウェブページが存在する場合、そのすべてを収集する。
【0033】
また、
図7は、収集部112により収集された検索結果ウェブページの一例を示す図である。
図7に示される例においては、検索結果ウェブページは、コンテンツ情報D2が示すエンティティ「東京タワー」が検索結果として表示される、「日本電波塔」というクエリ(図示するテキストTX21)が入力された場合の検索結果を示している。クエリは、対象テキストデータの一例である。
【0034】
図1に戻り、得点算出部113は、収集部112により収集された関連ウェブページに基づいて、対象テキストデータとエンティティとの組の得点(評価結果)を算出する。収集部112は、例えば、式(1)が示すP(e|s)の値を得点として算出する。式(1)における各種要素については、後述する式(2)、(3)並びに関連ウェブページの種類ごとに説明する。
【0036】
以下、得点算出部113による得点算出処理の詳細について説明する。
【0037】
<1−4.第1のサービス(百科事典提供サービス)に関する得点算出>
<関連ウェブページが百科事典ウェブページの場合>
得点算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(アンカーテキスト)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「日本電波塔」(
図6に示されるテキストTX11)と関連付けられたエンティティ(この一例では、「東京タワー」)を示すテキストデータ(
図6に示されるテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。
【0038】
ここで、得点算出部113は、以下の式(2)によって、対象テキストデータを含むすべての百科事典ウェブページにおける対象テキスト
データに関連付けられたエンティティを示すテキストデータの数に対して、アンカーテキストである
エンティティを示すテキストデータの数によって求められる確率(以下、「アンカーテキスト確率」)を算出する。式(2)におけるa
sは、アンカーテキスト確率を示している。ここで、アンカーテキスト確率とは、第3確率の一例である。
【0040】
また、得点算出部113は、以下の式(3)によって、当該アンカーテキストのリンク先が、ナレッジグラフD1において対象テキストデータと関連付けられた所在情報に対応するエンティティのウェブページ(以下、「特定のウェブページ」)である確率(以下、「第1エンティティ確率」)を算出する。式(3)におけるeとは、第1エンティティ確率を示している。ここで、第1エンティティ確率とは、第4確率の一例である。
【0042】
収集部112により収集された関連ウェブページが
図6に示すウェブページのみである場合、得点算出部113は、すべての関連ウェブページに含まれる対象テキストデータのうち、当該対象テキストデータがアンカーテキストである確率(つまり、アンカーテキスト確率)を「1/3」と算出する。図示する対象テキストデータの中で、リンクが付与されるのは一つだからである。また、得点算出部113は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率(第1エンティティ確率)を「1」と算出する。
【0043】
<関連ウェブページが検索結果ウェブページの場合>
得点算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「日本電波塔」(図示するテキストTX21)であり、対象テキストデータと関連付けられたエンティティは、「東京タワー」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。
図7の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。ここで、テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
【0044】
得点算出部113は、式(2)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含む百科事典ウェブページに関するリンク先がクリックされた回数の比として求められる確率(以下、エンティティテキストクリック確率)を算出する。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様で選択されてもよい。以下の説明では代表してクリックと称する。式(2)におけるa
sは、エンティティテキストクリック確率を示している。ここで、エンティティテキストクリック確率とは、第1確率の一例である。
【0045】
また、得点算出部113は、式(3)によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率(以下、「第2エンティティ確率」)を算出する。式(3)におけるeは、第2エンティティ確率を示している。ここで、第2エンティティ確率とは、第4確率の他の一例である。
【0046】
<関連ウェブページ毎の重み付け>
また、得点算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、得点算出部113は、例えば、両者を加算して対数を求めることで、得点(第1スコア)を算出する。
【0048】
式(4)は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数と、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数との割合を示す。
【0049】
得点算出部113は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、アンカーテキスト確率と、第1エンティティ確率とを乗じた値に更に乗じ、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、エンティティテキストクリック確率と、第2エンティティ確率とを乗じた値に更に乗じ、両者を加算することで、得点に重み付けを行う。
【0050】
<1−5.第2のサービス(地域情報提供サービス)に関する得点算出>
<関連ウェブページが検索結果ウェブページの場合>
得点算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「日本電波塔」(図示するテキストTX21)であり、対象テキストデータと関連付けられたエンティティは、「東京タワー」である。
図7の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、地域情報提供サービスに関する対象エンティティテキストデータ(この一例では、「東京タワー」)が含まれるのは、テキストTX24である。テキストTX24に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。つまり、テキストTX24が有する他のウェブページのリンクは、特定のウェブページであり、一例として地域情報ウェブページである。
【0051】
得点算出部113は、上記の式(2)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含む地域情報提供サービスに関するリンク先がクリックされた回数の比として求められる確率(以下、「エンティティテキストクリック確率」)を算出する。ここで、エンティティテキストクリック確率とは、
第2確率の一例である。
【0052】
また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に基づいて得点(第2スコア)を算出する。
【0053】
<1−6.総合得点算出>
得点算出部113は、第1のサービス(百科事典提供サービス)に関して算出した第1スコアと、第2のサービス(地域情報提供サービス)に関して算出した第2スコアと、を加算することで総合得点を算出し、算出した総合得点をコンテンツ情報D2に関連付けて記憶させる。
図8は、本実施形態に係るコンテンツ情報D2及び得点の一例を示す図である。
【0054】
図1に戻り、所在情報取得部114は、記憶部120に記憶されたコンテンツ情報D2を参照して、ウェブサーバ300から受信したクエリに対応するエンティティを取得する。所在情報取得部114は、受信したクエリと合致するテキストデータに所定の閾値以上の得点が関連付けられている場合、当該テキストデータに関連付けられているエンティティを、当該クエリに対応するエンティティとして判定する。所在情報取得部114は、ナレッジグラフD1に基づいて、判定したエンティティに関連付けられている所在情報を取得する。その後、所在情報取得部114は、取得した所在情報をウェブサーバ300に送信する。所在情報取得部114は、判定部の一例である。
【0055】
このように、所在情報取得部114は、ウェブサーバ300からクエリを受信した場合、クエリに対応するテキストデータを特定する。このとき、クエリとテキストデータとが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するテキストデータとみなしてよい。
【0056】
<1−7.ナレッジデータサーバ100の動作>
以下、ナレッジデータサーバ100の動作について説明する。
図9は、本実施形態のナレッジデータサーバ100の総合得点を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、得点算出対象の対象テキストデータを選択する(S100)。次に、収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S102)。次に、得点算出部113は、第1のサービス(百科事典提供サービス)に関する第1スコアを算出する(S104)。
【0057】
次に、得点算出部113は、第2のサービス(地域情報提供サービス)に関する第2スコアを算出する(S106)。次に、得点算出部113は、算出した第1スコアと、第2スコアとを加算することで総合得点を算出し(S108)、算出した総合得点をコンテンツ情報D2に関連付けて記憶部120に記憶させる。以上により、本フローチャートの処理が終了する。
【0058】
図10は、本実施形態のナレッジデータサーバ100の得点に基づく動作の一例を示す流れ図である。所在情報取得部114は、ウェブサーバ300からクエリを受信する(S200)。次に、所在情報取得部114は、コンテンツ情報D2のうち、クエリと合致するテキストデータに関連付けられている総合得点を読み出す(S202)。次に、所在情報取得部114は、総合得点が所定の閾値以上であるかを判定する(S204)。所在情報取得部114は、総合得点が所定の閾値以上である場合、ナレッジグラフD1においてテキストデータに関連付けられているエンティティの所在情報をウェブサーバ300に送信(出力)する(S206)。また、所在情報取得部114は、総合得点が所定の閾値未満である場合、ウェブサーバ300に所在情報を送信(出力)しない(S208)。以上により、本フローチャートの処理が終了する。
【0059】
以上、説明したように、本実施形態のナレッジデータサーバ100は、エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、対象テキストデータを選択する選択部111と、選択部111によって選択された対象テキストデータに関連する第1種類の関連ウェブページを収集する収集部112と、第1種類の関連ウェブページにおいて、コンテンツ情報における対象テキストデータと関連付けられたエンティティをテキストとして含む第1サービスへのリンク先が選択された第1確率と、コンテンツ情報における対象テキストデータと関連付けられたエンティティをテキストとして含む第2サービスへのリンク先が選択された第2確率とに基づいて、対象テキストデータに関連付けられるエンティティの評価を行う評価部(得点算出部113)と、を備える。これによって、本実施形態のナレッジデータサーバ100は、エンティティとキーワードとの関係を適切に評価することができる。
【0060】
本実施形態においては、複数のサービスの利用情報に関する情報に基づいて、エンティティとキーワードとの関係を評価する。このため、例えば、エンティティに関する情報が第1のサービス(百科事典情報提供サービス)に掲載されておらず、この第1のサービスの利用情報に関する情報が取得できない場合であっても、第2のサービス(地域情報提供サービス)の利用情報に関する情報が取得できれば、エンティティとキーワードとの関係を適切に評価することができる。
【0061】
尚、上記の実施形態においては、第1のサービス(百科事典情報提供サービス)と、第2のサービス(地域情報提供サービス)との2つのサービスの利用情報に関する情報に基づいて、エンティティとキーワードとの関係を評価する例について説明した。しかしながら、3つ以上のサービスの利用情報に関する情報に基づいてエンティティとキーワードとの関係を評価してもよい。
【0062】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。