特許7351627 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許7351627情報処理装置、情報処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-09-19

(45)【発行日】2023-09-27

(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム

(51)【国際特許分類】

G06F 16/35 20190101AFI20230920BHJP

G06F 16/28 20190101ALI20230920BHJP

【ＦＩ】

G06F16/35

G06F16/28

【請求項の数】 7

(21)【出願番号】P 2019051425

(22)【出願日】2019-03-19

(65)【公開番号】P2020154583

(43)【公開日】2020-09-24

【審査請求日】2020-12-11

【審判番号】

【審判請求日】2022-10-26

(73)【特許権者】

【識別番号】319013263

【氏名又は名称】ヤフー株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100181124

【弁理士】

【氏名又は名称】沖田壮男

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】山崎朋哉

【合議体】

【審判長】吉田美彦

【審判官】林毅

【審判官】稲垣良一

(56)【参考文献】

【文献】小町守、外３名、ウェブ検索ログを用いたラベル伝播による意味カテゴリ獲得、情報処理学会研究報告、社団法人情報処理学会、２００９年６月１５日、Ｖｏｌ．２００９－ＳＬＰ－７６、Ｎｏ．９、ｐｐ．１－６

(58)【調査した分野】(Int.Cl.，ＤＢ名)

G06F16/28

G06F16/35

(57)【特許請求の範囲】

【請求項1】

クラスが決定済みの第１エンティティに関連したコンテンツの検索ログと、前記クラスが未決定の第２エンティティに関連したコンテンツの検索ログとのそれぞれから、一つ以上のコンテキストタームを抽出する抽出部と、
前記抽出部によって抽出された前記一つ以上のコンテキストタームのクラスと、前記第１エンティティのクラスとに基づいて、前記第２エンティティのクラスを決定する決定部と、を備え、
前記決定部は、
ラベルスプレッディング法を利用して、前記一つ以上のコンテキストタームのクラスと、前記第１エンティティのクラスとに基づき、前記第２エンティティのクラスを決定するとともに、前記コンテキストタームのクラスを決定し、
前記ラベルスプレッディング法を利用して前記第２エンティティのクラスを決定する際に、前記第２エンティティのクラスと前記コンテキストタームのクラスとを初期化し、
初期化後にクラスが決定された前記第２エンティティである既存第２エンティティと異なる新たな前記第２エンティティである新規第２エンティティが抽出された場合、前記ラベルスプレッディング法を利用して前記新規第２エンティティのクラスを決定する際に、前記コンテキストタームのクラスを初期化しない、
情報処理装置。

【請求項2】

前記第１エンティティおよび前記第２エンティティが互いに独立したノードとして含まれる第１の部分集合と、前記一つ以上のコンテキストタームが互いに独立したノードとして含まれる第２の部分集合とに基づいて、二部グラフを生成する生成部を更に備え、
前記決定部は、前記生成部によって生成された前記二部グラフに基づいて、前記第２エンティティのクラスを決定する、
請求項１に記載の情報処理装置。

【請求項3】

前記決定部は、前記第１の部分集合および前記第２の部分集合に含まれる複数のノードのそれぞれの前記クラスを示す値を要素とした第１行列と、前記第１の部分集合に含まれるノードと前記第２の部分集合に含まれるノードとを接続するエッジの重み係数を要素とした第２行列との積で前記第１行列を更新することで、前記第２エンティティのクラスを決定する、
請求項２に記載の情報処理装置。

【請求項4】

前記決定部は、
前記第１行列が収束するまで、前記第１行列と前記第２行列との積で前記第１行列を更新することを繰り返し、
前記第１行列を更新することを繰り返す過程で、前記第１エンティティのクラスを再決定する、
請求項３に記載の情報処理装置。

【請求項5】

前記重み係数は、前記コンテンツの検索結果から得られる統計的指標値に基づいて決定される、
請求項３または４に記載の情報処理装置。

【請求項6】

コンピュータが、
クラスが決定済みの第１エンティティに関連したコンテンツの検索ログと、前記クラスが未決定の第２エンティティに関連したコンテンツの検索ログとのそれぞれから、一つ以上のコンテキストタームを抽出し、
前記抽出した前記一つ以上のコンテキストタームのクラスと、前記第１エンティティのクラスとに基づいて、前記第２エンティティのクラスを決定し、
ラベルスプレッディング法を利用して、前記一つ以上のコンテキストタームのクラスと、前記第１エンティティのクラスとに基づき、前記第２エンティティのクラスを決定するとともに、前記コンテキストタームのクラスを決定し、
前記ラベルスプレッディング法を利用して前記第２エンティティのクラスを決定する際に、前記第２エンティティのクラスと前記コンテキストタームのクラスとを初期化し、
初期化後にクラスが決定された前記第２エンティティである既存第２エンティティと異なる新たな前記第２エンティティである新規第２エンティティが抽出された場合、前記ラベルスプレッディング法を利用して前記新規第２エンティティのクラスを決定する際に、前記コンテキストタームのクラスを初期化しない、
情報処理方法。

【請求項7】

コンピュータに、
クラスが決定済みの第１エンティティに関連したコンテンツの検索ログと、前記クラスが未決定の第２エンティティに関連したコンテンツの検索ログとのそれぞれから、一つ以上のコンテキストタームを抽出する処理と、
前記抽出した前記一つ以上のコンテキストタームのクラスと、前記第１エンティティのクラスとに基づいて、前記第２エンティティのクラスを決定する処理と、
ラベルスプレッディング法を利用して、前記一つ以上のコンテキストタームのクラスと、前記第１エンティティのクラスとに基づき、前記第２エンティティのクラスを決定するとともに、前記コンテキストタームのクラスを決定する処理と、
前記ラベルスプレッディング法を利用して前記第２エンティティのクラスを決定する際に、前記第２エンティティのクラスと前記コンテキストタームのクラスとを初期化する処理と、
初期化後にクラスが決定された前記第２エンティティである既存第２エンティティと異なる新たな前記第２エンティティである新規第２エンティティが抽出された場合、前記ラベルスプレッディング法を利用して前記新規第２エンティティのクラスを決定する際に、前記コンテキストタームのクラスを初期化しない処理と、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

【背景技術】

【0002】

エンティティ間の関係性を適切に示すデータベースを構築する技術が知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１７－２０８０１５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

例えば、インターネット上で新しいディジタルコンテンツが公開された場合、そのコンテンツに関する新規のエンティティを既存のデータベースに登録することが望まれている。しかしながら、従来の技術では、データベースに新規に登録されたエンティティには、専らクラスと呼ばれる情報を付与できておらず、データベースを十分に有効活用することができていない場合があった。

【0005】

本発明は、上記の課題に鑑みてなされたものであり、データベースをより有効活用することができる情報処理装置、情報処理方法、およびプログラムを提供することを目的としている。

【課題を解決するための手段】

【0006】

本発明の一態様は、クラスが決定済みの第１エンティティに関連したコンテンツの検索ログと、前記クラスが未決定の第２エンティティに関連したコンテンツの検索ログとのそれぞれから、一つ以上のコンテキストタームを抽出する抽出部と、前記抽出部によって抽出された前記一つ以上のコンテキストタームと、前記第１エンティティのクラスとに基づいて、前記第２エンティティのクラスを決定する決定部と、を備える情報処理装置である。

【発明の効果】

【0007】

本発明の一態様によれば、データベースをより有効活用することができる情報処理装置、情報処理方法、およびプログラムを提供することができる。

【図面の簡単な説明】

【0008】

【図1】第１実施形態における情報処理装置１００を含む情報処理システム１の一例を示す図である。

【図2】エンティティパネルの一例を示す図である。

【図3】第１実施形態における情報処理装置１００の構成の一例を示す図である。

【図4】ナレッジベース１３２の一例を示す図である。

【図5】検索ログ１３４の一例を示す図である。

【図6】第１実施形態における制御部１１０による一連の処理の流れを示すフローチャートである。

【図7】コンテキストタームの抽出方法を説明するための図である。

【図8】二部グラフの一例を示す図である。

【図9】ラベルスプレッディング法の一連の処理の流れを示すフローチャートである。

【図10】二部グラフの初期化の様子を模式的に示す図である。

【図11】クラス行列Ｆが収束したときの二部グラフを模式的に示す図である。

【図12】二部グラフの初期化の様子を模式的に示す図である。

【図13】実施形態の情報処理装置１００のハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0009】

以下、本発明を適用した情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。

【0010】

［概要］
情報処理装置は、一以上のプロセッサによって実現される。情報処理装置は、オントロジーと呼ばれる所定の概念体系（または語彙体系）によってエンティティの概念が形式化されたデータベース上において、未だクラスが決定されていないエンティティのクラスを自動的に決定する。

【0011】

データベースは、エンティティに関する情報と、エンティティ同士の意味的関係に関する情報とがグラフとして記述されたナレッジ型のデータベース（以下、ナレッジベースと称する）として表現される。ナレッジベースにおけるエンティティは、例えば、あるエンティティの実体（実世界で存在している物体）や、あるエンティティの概念（実世界または仮想世界の中で定義された概念）を表した情報である。より具体的には、エンティティは、例えば、「人間」、「機械」、「建物」、「組織」、「美」、「学問」、「旅行」といった抽象的な概念を表すエンティティあってもよいし、「○○タワー」のように「建物」という概念の実体や、「検索太郎（人名）」のように「人間」という概念の実体を表すエンティティであってもよい。

【0012】

このようなナレッジベースは、プロセッサ（コンピュータ）による処理を可能とするため、オントロジーによって定められたクラスとプロパティを用いて記述される。オントロジーとは、エンティティのクラスおよびプロパティを定義したものであると共に、クラスとプロパティとの間に成り立つ制約を集めたものである。

【0013】

クラスとは、後述するプロパティと呼ばれる性質が同じエンティティ同士を一つのグループにしたものである。例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質（プロパティ）を持つエンティティは、「鳥」というクラスあるいはその下位のクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つエンティティは、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造をなし、上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名自体は必ずしもクラスの意味を表している必要はないが、以下の説明では簡単のためにクラスの意味を表すクラス名が与えられていることとする。

【0014】

プロパティとは、エンティティの性質（または特徴）や、クラス間の関係を記述する属性である。例えば、プロパティは、「～を体の構成要素としてもつ」という性質や、「～に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名自体は必ずしもプロパティの意味を表している必要はないが、以下の説明では簡単のためにプロパティの意味を表すプロパティ名が与えられていることとする。

【0015】

ナレッジベースの基本的な単位は、ノード間を、ノード間の関係を表すラベル付きの方向性をもつエッジでつないだ３つ組であり、上述したエンティティはノードであり、プロパティはエッジであり、プロパティを用いて記述したエンティティの情報の値もノードで表現する。このような、ノード、エッジ、およびノードの値の３つを組み合わせたグラフにより、エンティティに関する情報やエンティティ間の関係が明確に表現される。

【0016】

例えば、現実世界で新しく映画やドラマといったコンテンツが制作され、インターネット上で、それらコンテンツを話題にしたブログや公式サイトなどが公開されたとする。この場合、新規公開されたコンテンツのタイトルや、公式サイトのＵＲＬ（Uniform Resource Locator）などが新規エンティティとして既存のナレッジベースに登録される。既存のナレッジベースに登録された時点では、新規エンティティのクラスは定まっておらず、専ら人間が手動で決定したり、コンピュータがエンティティの抽出元であるコンテンツの文脈を解釈した上で、その文脈の意味に応じて自動的に決定したりする。しかしながら、ナレッジベース上では、依然としてクラスが定まっていない新規エンティティの数が多く、速やかにクラスを決定することが望まれている。

【0017】

そこで、情報処理装置は、ナレッジベースにおいて、既にクラスが決定されたエンティティ（以下、クラス定義済みエンティティと称する）に関連したコンテンツの検索ログと、未だクラスが決定されていないエンティティ（以下、クラス未定義エンティティと称する）とに関連したコンテンツの検索ログとのそれぞれから、一つ以上のコンテキストタームを抽出する。クラス定義済みエンティティは、「第１エンティティ」の一例であり、クラス未定義エンティティは、「第２エンティティ」の一例である。

【0018】

コンテキストタームとは、コンテンツを検索する際にユーザによって入力されるクエリに含まれ得るワード或いは表現である。例えば、「〇〇物語」というタイトルの書籍を検索する際に、ユーザが「〇〇物語＿漫画」という文字列をクエリとして入力したとする。アンダーバーはスペースを表している。このような場合に、ナレッジベース上に、「〇〇物語」という名称のエンティティが存在する場合、「〇〇物語」の後にスペースを挟んで続く「漫画」という文字列がコンテキスタームとなる。

【0019】

情報処理装置は、一つ以上のコンテキストタームを抽出すると、そのコンテキストタームと、クラス定義済みエンティティのクラスとに基づいて、クラス未定義エンティティのクラスを決定する。これによって、ナレッジベースの情報量が充実するため、ナレッジベースをより有効活用することができる。

【0020】

＜第１実施形態＞
［全体構成］
図１は、第１実施形態における情報処理装置１００を含む情報処理システム１の一例を示す図である。第１実施形態における情報処理システム１は、例えば、一つ以上の端末装置１０と、サービス提供装置２０と、情報処理装置１００とを備える。これらの装置のうち一部または全部は、ネットワークＮＷを介して互いに接続される。なお、これらの装置のうち一部は、仮想的な装置として他の装置に包含されてもよく、例えば、サービス提供装置２０の機能の一部または全部が、情報処理装置１００の機能によって実現される仮想マシンであってもよいし、これとは反対に、情報処理装置１００の機能の一部または全部が、サービス提供装置２０の機能によって実現される仮想マシンであってもよい。

【0021】

図１に示す各装置は、ネットワークＮＷを介して種々の情報を送受信する。ネットワークＮＷは、例えば、無線基地局、Ｗｉ‐Ｆｉアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図１に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークＮＷは、一部にローカルなネットワークを含んでもよい。

【0022】

端末装置１０は、例えば、スマートフォンなどの携帯電話、タブレット端末、各種パーソナルコンピュータなどの、入力装置、表示装置、通信装置、記憶装置、および演算装置を備える端末装置である。通信装置は、ＮＩＣ（Network Interface Card）などのネットワークカード、無線通信モジュールなどを含む。端末装置１０では、ウェブブラウザやアプリケーションプログラムなどのＵＡ（User Agent）が起動し、ユーザの入力に応じたリクエストをサービス提供装置２０に送信する。また、ＵＡが起動された端末装置１０は、サービス提供装置２０から取得した情報に基づいて、表示装置に各種画像を表示させる。

【0023】

サービス提供装置２０は、例えば、ＵＡとして起動されたウェブブラウザからのリクエストに応じてウェブページを端末装置１０に提供するウェブサーバである。ウェブページは、例えば、インターネット上において商品を販売するショッピングサイトやオークションサイト、フリーマーケットサイトといった各種ウェブサイトを構成するウェブページであってよい。また、サービス提供装置２０は、検索サイトやＳＮＳ（Social Networking Service）、メールサービスなどの各種サービスを提供するウェブページを端末装置１０に提供してもよい。また、サービス提供装置２０は、ＵＡとして起動されたアプリケーションからのリクエストに応じてコンテンツを端末装置１０に提供することで、販売サイトなどの各種ウェブサイトと同様のサービスを提供するアプリケーションサーバであってもよい。

【0024】

例えば、サービス提供装置２０は、端末装置１０からクエリを取得した場合、クエリによる検索結果を端末装置１０に提供する。この際、サービス提供装置２０は、クエリの検索結果の一覧を表示させるページの所定領域に、クエリとして入力された単語や語句の実体或いは概念がどういったものであるのかを表す文字列や画像を表示させる。以下、所定領域をエンティティパネルと称して説明する。

【0025】

図２は、エンティティパネルの一例を示す図である。例えば、現実世界において、「〇〇物語」というタイトルの漫画が存在しており、「検索太郎」という漫画家がその漫画を制作していたとする。この場合に、ユーザが端末装置１０を利用して、検索サイトなどのクエリの入力欄に「〇〇物語」という文字列を入力した場合、サービス提供装置２０は、ナレッジベースを参照し、「〇〇物語」という漫画の概要や漫画家名、他の漫画作品をエンティティパネルに表示させたり、「〇〇物語」に関する他の映画作品などをエンティティパネルに表示させたりする。なお、エンティティパネルは、検索サイトなどに限られず、ショッピングサイトや動画配信サイトなどにも表示されてよい。また、エンティティパネルを表示させることは、入力されたクエリに対応した検索結果を出力するものであれば、「検索」や「販売」といったサービスに限定されず、如何なるサービスにも適用されてよい。

【0026】

情報処理装置１００は、オントロジーによってエンティティの概念が形式化されたナレッジベースにおいて、クラス未定義エンティティのクラスを決定する。ナレッジベースは、予め情報処理装置１００に記憶されていてもよいし、情報処理装置１００がウェブサイトを定期的にクロールすることで、ウェブサイトごとに生成してもよい。

【0027】

［情報処理装置の構成］
図３は、第１実施形態における情報処理装置１００の構成の一例を示す図である。図示のように、情報処理装置１００は、例えば、通信部１０２と、制御部１１０と、記憶部１３０とを備える。

【0028】

通信部１０２は、例えば、ＮＩＣ（Network Interface Card）等の通信インターフェースやＤＭＡ（Direct Memory Access）コントローラを含む。通信部１０２は、ネットワークＮＷを介して、サービス提供装置２０や他のウェブサーバと通信する。

【0029】

制御部１１０は、例えば、抽出部１１２と、グラフ生成部１１４と、クラス決定部１１６とを備える。制御部１１０の構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などのプロセッサが記憶部１３０に格納されたプログラムを実行することにより実現される。また、制御部１１０の構成要素の一部または全部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などのハードウェア（回路部；circuitry）により実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

【0030】

記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などにより実現される。記憶部１３０には、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、ナレッジベース１３２と、検索ログ１３４とが格納される。

【0031】

図４は、ナレッジベース１３２の一例を示す図である。ナレッジベース１３２は、例えば、ウェブサイトやアプリケーションを媒体として提供される百科事典を基にして生成されたナレッジベースであり、図示の例では、エンティティＥ０を最上位のクラスとし、矢印で表されたエッジを介してエンティティＥ０に接続された矢印先のエンティティＥ１～Ｅ６が下位クラスとして定義されている。

【0032】

エンティティＥ０には、「○○物語」という文字列がそのエンティティＥ０の名称を表すプロパティとして付与されており、そのエンティティＥ０に対して、「漫画家」というプロパティＰ１（エッジ）を介して、エンティティＥ１が接続されている。エンティティＥ１には、「検索太郎」という文字列がそのエンティティＥ１の名称を表すプロパティとして付与されている。従って、ナレッジベース１３２は、「○○大冒険」というエンティティＥ０の属性の一つである「漫画家」が、「検索太郎」であることを表現している。また、エンティティＥ０に対し、「掲載誌」というプロパティＰ２を介して「○○週刊誌」という名称のエンティティＥ２が接続されており、「出版日」というプロパティＰ３を介して「２０１３年」という名称のエンティティＥ３が接続されており、「ＵＲＬ」というプロパティＰ４を介して「ｈｔｔｐｓ：／／＊＊＊＊」という名称のエンティティＥ４が接続されており、「ジャンル」というプロパティＰ５を介して「漫画」という名称のエンティティＥ５が接続されており、「ジャンル」というプロパティＰ６を介して「映画」という名称のエンティティＥ６が接続されている。従って、図示のナレッジベース１３２は、「○○物語」について、「掲載誌」が「○○週刊誌」であり、「出版日」が「２０１３年」であり、「ＵＲＬ」が「ｈｔｔｐｓ：／／＊＊＊＊」であり、「ジャンル」が「漫画」と「映画」であることを有向グラフによって表している。なお、図４に例示するナレッジベース１３２は、あくまでも一例であり、適宜変更されてよい。

【0033】

図５は、検索ログ１３４の一例を示す図である。図示の例のように、検索ログ１３４は、クエリとして入力した文字列に対して、そのクエリの検索結果として提示された一以上のＵＲＬのうち、ユーザが実際にクリックしたＵＲＬや、そのＵＲＬのクリック回数などが対応付けられたデータである。

【0034】

［処理フロー］
以下、第１実施形態における制御部１１０による一連の処理の流れをフローチャートに即して説明する。図６は、第１実施形態における制御部１１０による一連の処理の流れを示すフローチャートである。本フローチャートの処理は、所定の周期で繰り返し行われてよい。

【0035】

まず、抽出部１１２は、ナレッジベース１３２に登録された複数のエンティティの中に、クラス未定義エンティティが存在するか否かを判定する（Ｓ１００）。例えば、抽出部１１２は、ナレッジベース１３２に登録されてから間もないエンティティが存在する場合、クラス未定義エンティティが存在すると判定する。

【0036】

抽出部１１２は、クラス未定義エンティティが存在すると判定すると、検索ログ１３４から、コンテキストタームを抽出する（Ｓ１０２）。例えば、抽出部１１２は、クラス未定義エンティティに関連したコンテンツが検索される際にクエリとして入力された文字列の中からコンテキストタームを抽出する。

【0037】

図７は、コンテキストタームの抽出方法を説明するための図である。図中Ｅ１は、あるＵＲＬのエンティティを表しており、Ｅ２は、Ｅ１とは異なるＵＲＬのエンティティを表している。具体的には、エンティティＥ１は、映画関係のウェブサイトのＵＲＬを表し、エンティティＥ２は、漫画関係のウェブサイトのＵＲＬを表している。また、Ｅ３は、エンティティＥ１およびＥ２に対してエッジを介して接続されたエンティティを表しており、「〇〇物語」という文字列のエンティティを表している。エンティティＥ３にはプロパティが付与されておらず、そのクラスが未だ決定されていない。すなわち、エンティティＥ３は、クラス未定義エンティティであることを表している。そのため、エンティティＥ３は、「〇〇物語」というタイトルの映画を表しているのか、「〇〇物語」というタイトルの漫画を表しているのか、或いはその他の概念を表しているのか確定できない状態にある。

【0038】

図示の例では、エンティティＥ１のＵＲＬは、「〇〇物語＿映画」というクエリを入力した一人または複数のユーザによってａ回クリックされ、「〇〇物語＿漫画」というクエリを入力した一人または複数のユーザによってｂ回クリックされていることを表している。また、エンティティＥ２のＵＲＬは、「〇〇物語＿映画」というクエリを入力した一人または複数のユーザによってｃ回クリックされ、「〇〇物語＿出演」というクエリを入力した一人または複数のユーザによってｄ回クリックされていることを表している。

【0039】

このような場合、抽出部１１２は、クラス未定義エンティティＥ３のコンテキストタームとして、「漫画」というコンテキストタームＣ１と、「映画」というコンテキストタームＣ２と、「出演」というコンテキストタームＣ３とを検索ログ１３４から抽出する。

【0040】

同様に、抽出部１１２は、クラス定義済みエンティティに関連したコンテンツが検索される際にクエリとして入力された文字列の中からコンテキストタームを抽出する。

【0041】

図６のフローチャートの説明に戻る。次に、グラフ生成部１１４は、抽出部１１２によって抽出された一つ以上のコンテキストタームと、クラス定義済みエンティティと、クラス未定義エンティティとを用いて、二部グラフ（Bipartite graph）を生成する（Ｓ１０４）。

【0042】

二部グラフとは、互いに独立したノード（頂点）を含む第１の部分集合と、同じく互いに独立したノードを含む第２の部分集合とが存在したときに、各部分集合内のノード同士の間にはエッジ（辺）が無く、第１の部分集合のノードと第２の部分集合のノードとの間にはエッジが存在し得るグラフである。本実施形態では、第１の部分集合には、クラス定義済みエンティティおよびクラス未定義エンティティが互いに独立したノードとして含まれ、第２の部分集合には、一つ以上のコンテキストタームが互いに独立したノードとして含まれる。

【0043】

図８は、二部グラフの一例を示す図である。図示の例では、第１の部分集合に、「〇〇物語」という文字列のエンティティＥ３と、「◇◇体験記」という文字列のエンティティＥ４と、「△△日記」という文字列のエンティティＥ５とが互いに独立したノードとして含まれている。また、第２の部分集合に、「漫画」という文字列のコンテキストタームＣ１と、「映画」という文字列のコンテキストタームＣ２と、「出演」という文字列のコンテキストタームＣ３とが互いに独立したノードとして含まれている。

【0044】

上述した例では、ナレッジベース１３２上で「〇〇物語」のエンティティＥ３に接続されたエンティティＥ１およびＥ２のＵＲＬに対応付けられたクエリから、コンテキストタームＣ１、Ｃ２、Ｃ３が抽出されている。従って、グラフ生成部１１４は、第１の部分集合にノードとして含まれるエンティティＥ３を、第２の部分集合のノードであるコンテキストタームＣ１、Ｃ２、Ｃ３のそれぞれにエッジを介して接続する。

【0045】

エンティティＥ４およびＥ５は、エンティティＥ３とコンテキストタームとが共通している。すなわち、グラフ生成部１１４は、クラス未定義エンティティのコンテキストタームと、クラス定義済みエンティティのコンテキストタームとが共通するように、ナレッジベース１３２に含まれる複数のクラス定義済みエンティティの中から第１の部分集合に含めるクラス定義済みエンティティを選出する。これによって、第１の部分集合内で、クラス定義済みエンティティとクラス未定義エンティティとがエッジを介して互いに接続されなくとも、第２の部分集合のコンテキストタームを介して間接的にこれらのエンティティ同士を接続することができる。

【0046】

グラフ生成部１１４は、第１の部分集合のノードと第２の部分集合のノードとをエッジを介して接続する際に、検索ログ１３４を参照し、各コンテキストタームの抽出元のクエリによって検索されたＵＲＬのクリック回数に応じて、各エッジを重みづける。

【0047】

例えば、グラフ生成部１１４は、クリック回数そのものをエッジの重み係数ｗとしてもよいし、クリック回数に何らかの係数を乗算したり、バイアス成分を加えたりした値をエッジの重み係数ｗとしてもよい。以下、一例として、エッジの重み係数ｗがクリック回数であるものとして説明する。なお、グラフ生成部１１４は、クリック回数に代えて、或いは加えて、インプレッション回数やコンバージョン回数、コンバージョン率、クリック率といった他の統計的指標値に基づいて各エッジを重み付けてもよい。

【0048】

上述した例では、ナレッジベース１３２上において、エンティティＥ３に接続されたエンティティＥ１およびＥ２のうち、エンティティＥ１のＵＲＬは、「漫画」というコンテキストタームＣ１を含むクエリを入力したユーザによってｂ回クリックされ、エンティティＥ２のＵＲＬは、「漫画」というコンテキストタームＣ１を含むクエリを入力したユーザによって一度もクリックされていない。

【0049】

そのため、グラフ生成部１１４は、二部グラフにおいて、第１の部分集合に含まれるエンティティＥ３と、第２の部分集合に含まれるコンテキストタームＣ１とを互いに接続するエッジの重み係数ｗを「ｂ」に決定する。

【0050】

また、上述した例では、ナレッジベース１３２上において、エンティティＥ３に接続されたエンティティＥ１およびＥ２のうち、エンティティＥ１のＵＲＬは、「映画」というコンテキストタームＣ２を含むクエリを入力したユーザによってａ回クリックされ、エンティティＥ２のＵＲＬは、「映画」というコンテキストタームＣ２を含むクエリを入力したユーザによってｃ回クリックされている。

【0051】

そのため、グラフ生成部１１４は、二部グラフにおいて、第１の部分集合に含まれるエンティティＥ３と、第２の部分集合に含まれるコンテキストタームＣ２とを互いに接続するエッジの重み係数ｗを「ａ＋ｃ」に決定する。

【0052】

また、上述した例では、ナレッジベース１３２上において、エンティティＥ３に接続されたエンティティＥ１およびＥ２のうち、エンティティＥ１のＵＲＬは、「出演」というコンテキストタームＣ３を含むクエリを入力したユーザによって一度もクリックされておらず、エンティティＥ２のＵＲＬは、「出演」というコンテキストタームＣ３を含むクエリを入力したユーザによってｄ回クリックされている。

【0053】

そのため、グラフ生成部１１４は、二部グラフにおいて、第１の部分集合に含まれるエンティティＥ３と、第２の部分集合に含まれるコンテキストタームＣ３とを互いに接続するエッジの重み係数ｗを「ｄ」に決定する。

【0054】

グラフ生成部１１４は、各エッジの重み係数ｗを決定すると、数式（１）に基づいて、各エッジの重み係数ｗを正規化する。

【0055】

【数1】

【0056】

例えば、第１の部分集合に含まれるｉ番目のノードと、第２の部分集合に含まれるｊ番目のノードとの間に接続されるエッジの重み係数ｗ_ｉｊは、その重み係数ｗ_ｉｊを、ｉ番目のノードに接続される全エッジの重み係数の合計値で除算することで正規化される。

【0057】

例えば、エンティティＥ３に着目した場合、エンティティＥ３は、コンテキストタームＣ１、Ｃ２、Ｃ３のそれぞれにエッジを介して接続されている。従って、グラフ生成部１１４は、エンティティＥ３とコンテキストタームＣ１との間のエッジの重み係数ｗを、「ｂ／（ａ＋ｂ＋ｃ＋ｄ）」とし、エンティティＥ３とコンテキストタームＣ２との間のエッジの重み係数ｗを、「（ａ＋ｃ）／（ａ＋ｂ＋ｃ＋ｄ）」とし、エンティティＥ３とコンテキストタームＣ３との間のエッジの重み係数ｗを、「ｄ／（ａ＋ｂ＋ｃ＋ｄ）」とする。

【0058】

このように、各エッジの重み係数ｗを正規化することで、第１の部分集合のノードと第２の部分集合のノードとの間を状態遷移確率によって表すことができる。

【0059】

図６のフローチャートの説明に戻る。次に、クラス決定部１１６は、ラベルスプレッディング法と呼ばれる半教師あり学習を利用して、クラス未定義エンティティのクラスを決定する（Ｓ１０６）。これによって本フローチャートの処理が終了する。

【0060】

［ラベルスプレッディング法］
図９は、ラベルスプレッディング法の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、上述したＳ１０６の処理に相当する。

【0061】

まず、クラス決定部１１６は、グラフ生成部１１４によって生成された二部グラフの各ノードにクラスを割り当て、そのクラスを初期化する（Ｓ２００）。

【0062】

図１０は、二部グラフの初期化の様子を模式的に示す図である。図中Ｘは、二部グラフの各ノードを表している。また、図示の例では、説明を簡略化するために、第１の部分集合に含まれるノード数を３とし、第２の部分集合に含まれるノード数を１としている。これらの複数のノードＸのうち、ノードＸ_１およびＸ_３は、クラス定義済みエンティティを表し、ノードＸ_４は、クラス未定義エンティティを表すものとする。更に、クラス定義済みエンティティであるノードＸ_１のクラスはαであり、クラス定義済みエンティティであるノードＸ_３のクラスはβであるものとする。

【0063】

例えば、既存のナレッジベース１３２のオントロジーにおいて、α、β、γの計３種類のクラスが定められている場合、クラス決定部１１６は、二部グラフの各ノードに３種類のクラスをラベルとして割り当てる。そして、クラス決定部１１６は、クラス定義済みエンティティを除いた全ノードＸのクラスを初期化する。

【0064】

例えば、α、β、γの各クラスを数値で表した場合、クラス値が１．０であれば、そのノードＸはそのクラスに属し、クラス値が０．０であれば、そのノードＸはそのクラスに属さないということを意味する。クラス定義済みエンティティであるノードＸ_１については、クラスαであることが既に定められているため、αのクラス値を１．０とし、他のクラス値を０．０とする。同様に、クラス定義済みエンティティであるノードＸ_３については、クラスβであることが既に定められているため、βのクラス値を１．０とし、他のクラス値を０．０とする。クラス未定義エンティティであるノードＸ_４については、未だクラスが定められていないため、全てのクラス値を０．０とする。また、コンテキストタームであるノードＸ_２については、ナレッジベース１３２に含まれるエンティティではないものの、全てのクラス値が０．０であるクラスをラベルとして付与する。

【0065】

図９のフローチャートの説明に戻る。次に、クラス決定部１１６は、数式（２）に基づいて、クラス行列Ｆと重み行列Ｗとの積を計算し、クラス行列Ｆを更新する（Ｓ２０２）。式中Ｆ_ｔ－１は、更新前のクラス行列を表し、Ｆ_ｔは、更新後のクラス行列を表している。

【0066】

【数2】

【0067】

数式（３）は、図１０に例示する二部グラフのクラス行列Ｆを表している。クラス行列Ｆは、「第１行列」の一例である。

【0068】

【数3】

【0069】

クラス行列Ｆは、各ノードＸのクラス値を行とした行列である。第１行は、ノードＸ_１のクラス値を［α_１ β_１ γ_１］＝［１．００．００．０］というベクトルで表しており、第２行は、ノードＸ_２のクラス値を［α_２ β_２ γ_２］＝［０．００．００．０］というベクトルで表しており、第３行は、ノードＸ_３のクラス値を［α_３ β_３ γ_３］＝［０．０１．００．０］というベクトルで表しており、第４行は、ノードＸ_４のクラス値を［α_４ β_４ γ_４］＝［０．００．００．０］というベクトルで表している。

【0070】

数式（４）は、図１０に例示する二部グラフの重み行列Ｗを表している。重み行列Ｗは、「第２行列」の一例である。

【0071】

【数4】

【0072】

重み行列Ｗは、各エッジの正規化された重み係数ｗ_ｉｊを要素とした行列である。図１０に例示する二部グラフでは、ノードＸ_１およびノードＸ_２間と、ノードＸ_３およびノードＸ_２間と、ノードＸ_４およびノードＸ_２間とに重み係数ｗ付きエッジが接続されている。そのため、重み行列Ｗは、要素ｗ_１２、ｗ_２１、ｗ_２３、ｗ_２４、ｗ_３２、ｗ_４２を除いて、その他の全要素が０の行列となる。

【0073】

このように、クラス決定部１１６は、クラス行列Ｆ_ｔ－１と重み行列Ｗとの積を計算すると、その積である行列を、新たなクラス行列Ｆ_ｔとする。これによって、クラス値が初期化されたノードＸ_２、Ｘ_４だけでなく、既にクラス値が決定されているノードＸ_１、Ｘ_３についても、そのクラス値が更新される。

【0074】

次に、クラス決定部１１６は、更新後のクラス行列Ｆ_ｔと更新前のクラス行列Ｆ_ｔ－１とを比較し、更新後のクラス行列Ｆ_ｔが収束したか否かを判定する（Ｓ２０４）。ラベルスプレッディング法では、対象とするグラフが二部グラフであれば、ラベル（本実施形態ではクラス）の伝搬の繰り返すことで、ある一つの値に収束することが知られている。従って、クラス決定部１１６は、更新後のクラス行列Ｆ_ｔが収束していなければ、Ｓ２０２に処理を戻し、クラス行列Ｆ_ｔが収束するまで、クラス行列Ｆ_ｔを更新することを繰り返す。

【0075】

一方、クラス決定部１１６は、更新後のクラス行列Ｆ_ｔが収束した場合、そのクラス行列Ｆ_ｔの要素であるクラス値に基づいて、クラス定義済みエンティティのクラスを再決定するとともに、未定義エンティティのクラスを決定する（Ｓ２０６）。

【0076】

図１１は、クラス行列Ｆが収束したときの二部グラフを模式的に示す図である。図示の例では、クラス定義済みエンティティを表すノードＸ_１のクラス値は、αが０．８であり、βが０．２であり、γが０．０である。また、クラス定義済みエンティティを表すノードＸ_３のクラス値は、αが０．３であり、βが０．７であり、γが０．０である。

【0077】

ラベルスプレッディング法の適用前では、ノードＸ_１としたクラス定義済みエンティティは、αが唯一のクラスであり、ノードＸ_３としたクラス定義済みエンティティは、βが唯一のクラスであった。

【0078】

一方、ラベルスプレッディング法の適用後では、ノードＸ_１としたクラス定義済みエンティティのクラスは、αであることの尤度が最も大きく、βであることの尤度が次点で大きい。また、ノードＸ_３としたクラス定義済みエンティティのクラスは、βであることの尤度が最も大きく、αであることの尤度が次点で大きい。従って、クラス決定部１１６は、ノードＸ_１としたクラス定義済みエンティティのクラスがαおよびβであり、ノードＸ_３としたクラス定義済みエンティティのクラスがαおよびβであると再決定する。

【0079】

また、ラベルスプレッディング法の適用前では、ノードＸ_４としたクラス未定義エンティティは、いずれかのクラスであるのか決まっていなかった。

【0080】

一方、ラベルスプレッディング法の適用後では、ノードＸ_４としたクラス未定義エンティティのクラスは、αであることの尤度が最も大きく、βおよびγであることの尤度が次点で大きい。従って、クラス決定部１１６は、ノードＸ_４としたクラス定義済みエンティティのクラスがα、β、およびγであると決定する。

【0081】

また、クラス決定部１１６は、ラベルスプレッディング法を適用して収束したクラス値に基づいてクラスを決定する際に、そのクラス値に閾値を設定し、クラス値が閾値以上となったクラスのみを各エンティティのクラスとしてもよい。

【0082】

なお、第２の部分集合のノードＸ_２であるコンテキストタームにもクラスをラベルとして割り振っているため、コンテキストタームのクラスも付随的に決定される。図示の例では、ノードＸ_２としたコンテキストタームのクラスは、β、α、γの順に尤度が大きい。従って、クラス決定部１１６は、ノードＸ_２としたコンテキストタームのクラスがα、β、およびγであると決定する。

【0083】

以上説明した第１実施形態によれば、情報処理装置１００は、クラス定義済みエンティティに関連したコンテンツの検索ログから一つ以上のコンテキストタームを抽出するとともに、クラス未定義エンティティに関連したコンテンツの検索ログから一つ以上のコンテキストタームを抽出する。情報処理装置１００は、クラス未定義エンティティと共通するコンテキストタームを抽出したクラス定義済みエンティティと、クラス未定義エンティティとを第１の部分集合とし、それらエンティティで共通するコンテキストタームを第２の部分集合とした二部グラフを生成する。そして、情報処理装置１００は、二部グラフにラベルスプレッディング法を適用することで、少なくともクラス未定義エンティティのクラスを決定する。

【0084】

これによって、例えば、現実世界で新しい言葉が流行したり、新作のコンテンツが公開されたりした場合であっても、既にクラスが決定されているナレッジベース１３２上のエンティティと、そのエンティティに関連付けられたコンテンツにアクセスするためにユーザが入力したクエリとに基づいて、流行語のエンティティや新作コンテンツのエンティティのクラスを速やかに決定することができる。この結果、ナレッジベースの情報量が充実するため、ナレッジベースをより有効活用することができる。

【0085】

＜第１実施形態の変形例＞
以下、第１実施形態の変形例について説明する。上述した第１実施形態では、二部グラフにラベルスプレッディング法を適用して、クラス未定義エンティティのクラスを決定し、更には、クラス定義済みエンティティのクラスも再決定するものとして説明したがこれに限られない。例えば、クラス決定部１１６は、二部グラフにラベルスプレッディング法を適用する代わりに、ラベルプロパゲーティング法を適用してクラス未定義エンティティのクラスを決定してもよい。ラベルプロパゲーティング法とは、ラベルスプレッディング法とは異なり、クラス行列Ｆにおいて、クラス定義済みエンティティのクラス値は初期値から変更しない手法である。このような手法を利用することでも、クラス未定義エンティティのクラスを決定することができる。

【0086】

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態では、クラス未定義エンティティのクラスを新たに決定する際に、二部グラフの第２の部分集合に含めるコンテキストタームのクラスを初期化しない点で上述した第１実施形態と相違する。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

【0087】

図１２は、二部グラフの初期化の様子を模式的に示す図である。図に例示する二部グラフでは、クラス未定義エンティティを表すノードＸ_４のクラスがα、β、およびγに決定された後に、新たなクラス未定義エンティティを表すノードＸ_５が第１の部分集合に追加されている。図示の例では、ノードＸ_５のコンテキストタームは、ノードＸ_１、Ｘ_３、Ｘ_４のコンテキストタームと同じであり、ノードＸ_２に対して、ノードＸ_１、Ｘ_３、Ｘ_４、Ｘ_５が重み付きエッジを介して接続されている。

【0088】

このような場合、クラス決定部１１６は、ノードＸ_５にクラスを割り当て、そのクラス値を例えば０．０といった数値で初期化する。この際、クラス決定部１１６は、第１の部分集合に含まれるノードＸ_１、Ｘ_３、Ｘ_４だけでなく、第２の部分集合に含まれるノードＸ_２についても初期化せず、前回の処理結果であるクラス値を保持する。例えば、前回の処理でコンテキストタームを表すノードＸ_２のクラス値が（α，β，γ）＝（０．２，０．７，０．１）に決定されていた場合、クラス決定部１１６は、新たなクラス未定義エンティティを表すノードＸ_５のクラス値を決定する際に、ノードＸ_２のクラス値として（０．２，０．７，０．１）を利用する。このように、コンテキストタームのクラス値を次回以降も引き続き利用することで、クラス行列Ｆが収束までの処理回数を少なくすることができる。

【0089】

以上説明した第２実施形態によれば、情報処理装置１００は、クラス未定義エンティティのクラスを新たに決定する際に、二部グラフの第２の部分集合に含めるコンテキストタームのクラスを初期化せず、前回のクラスを引き続き利用することで、クラス行列Ｆが収束までの処理回数を少なくすることができる。

【0090】

＜ハードウェア構成＞
上述した実施形態の情報処理装置１００は、例えば、図１３に示すようなハードウェア構成により実現される。図１３は、実施形態の情報処理装置１００のハードウェア構成の一例を示す図である。

【0091】

情報処理装置１００は、ＮＩＣ１００－１、ＣＰＵ１００－２、ＲＡＭ１００－３、ＲＯＭ１００－４、フラッシュメモリやＨＤＤなどの二次記憶装置１００－５、およびドライブ装置１００－６が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置１００－６には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置１００－５、またはドライブ装置１００－６に装着された可搬型記憶媒体に格納されたプログラムがＤＭＡコントローラ（不図示）などによってＲＡＭ１００－３に展開され、ＣＰＵ１００－２によって実行されることで、制御部１１０が実現される。制御部１１０が参照するプログラムは、ネットワークＮＷを介して他の装置からダウンロードされてもよい。

【0092】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

【符号の説明】

【0093】

１…情報処理システム、１０…端末装置、２０…サービス提供装置、１００…情報処理装置、１０２…通信部、１１０…制御部、１１２…抽出部、１１４…グラフ生成部、１１６…クラス決定部、１３０…記憶部

【図1】