(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022191487
(43)【公開日】2022-12-27
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法、およびプログラム
(51)【国際特許分類】
G06F 16/951 20190101AFI20221220BHJP
G06F 16/955 20190101ALI20221220BHJP
【FI】
G06F16/951
G06F16/955
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022170801
(22)【出願日】2022-10-25
(62)【分割の表示】P 2021093524の分割
【原出願日】2018-09-19
(71)【出願人】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100181124
【弁理士】
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】西 賢太郎
(72)【発明者】
【氏名】俵 雄貴
(72)【発明者】
【氏名】川崎 将平
(72)【発明者】
【氏名】門脇 拓也
(72)【発明者】
【氏名】田中 康之
(57)【要約】
【課題】より効率的に有用な情報を取得することができる。
【解決手段】情報処理装置は、ナレッジデータベースを参照し、対象の第1主エンティティを特定し、前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、前記対象の第1主エンティティがウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、列挙した主エンティティにおいて前記対象の第1主エンティティに合致するエンティティが含まれる場合、前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定する決定部とを備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ウエブページの情報を取得する取得部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第1主エンティティを特定し、
前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、
前記対象の第1主エンティティが前記ウエブページに含まれるか否かを判定し、
前記対象の前記第1主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、
列挙した主エンティティにおいて前記対象の第1主エンティティに合致するエンティティが含まれる場合、前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定する決定部と、
を備える情報処理装置。
【請求項2】
所定のホストが提供するウエブページの情報を取得する取得部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出し、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第1主エンティティであって前記従属エンティティと同種の第1従属エンティティであり前記第1主エンティティに対して関連付けられるべき前記第1従属エンティティの抽出対象に決定し、
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定する決定部と、
を備える情報処理装置。
【請求項3】
前記決定部は、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数と、前記ウエブページにおける前記ナレッジデータベースに含まれない前記組み合わせの個数とに基づいて、前記スコアを導出する、
請求項2に記載の情報処理装置。
【請求項4】
前記抽出対象として決定されたホストが有する情報を、前記抽出対象であると決定されていないホストが有する情報よりも優先して情報を収集する収集部を備える、
請求項1から3のうちいずれか1項に記載の情報処理装置。
【請求項5】
前記収集部により収集された情報に基づいて、ナレッジデータベースを拡充する処理部を備える、
請求項4に記載の情報処理装置。
【請求項6】
前記処理部は、前記収集部により収集された情報に基づいて、ナレッジデータベースに含まれる主エンティティであって前記主エンティティに関連付けられるべき従属エンティティが関連付けられていない従属エンティティを用いて前記ナレッジデータベースを拡充する、
請求項5に記載の情報処理装置。
【請求項7】
請求項1から6のうちいずれか1項に記載の情報処理装置と、
ユーザの端末装置のリクエストに応じて前記主エンティティと前記情報処理装置により拡充された従属エンティティとが関連付けた情報を前記ユーザの端末装置に提供するナレッジデータベース装置と、
を備える情報処理システム。
【請求項8】
コンピュータが、
ウエブページの情報を取得し、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第1主エンティティを特定し、
前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、
前記対象の第1主エンティティが前記ウエブページに含まれるか否かを判定し、
前記対象の前記第1主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、
列挙した主エンティティにおいて前記対象の第1主エンティティに合致するエンティティが含まれる場合、前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定する、
情報処理方法。
【請求項9】
コンピュータに、
ウエブページの情報を取得させ、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第1主エンティティを特定させ、
前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、
前記対象の第1主エンティティが前記ウエブページに含まれるか否かを判定させ、
前記対象の前記第1主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙させ、
列挙させた主エンティティにおいて前記対象の第1主エンティティに合致するエンティティが含まれる場合、前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定させる、
プログラム。
【請求項10】
コンピュータが、
所定のホストが提供するウエブページの情報を取得し、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出し、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第1主エンティティであって前記従属エンティティと同種の第1従属エンティティであり前記第1主エンティティに対して関連付けられるべき前記第1従属エンティティの抽出対象に決定し
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定する、
情報処理方法。
【請求項11】
コンピュータに、
所定のホストが提供するウエブページの情報を取得させ、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出させ、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第1主エンティティであって前記従属エンティティと同種の第1従属エンティティであり前記第1主エンティティに対して関連付けられるべき前記第1従属エンティティの抽出対象に決定させ
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
従来、ウエブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。このクローラは、ウエブページ中のリンクを辿って、様々なIPアドレスのウエブページからデータを収集する。クローラによって収集されたデータは、ウエブ情報データベースに蓄積される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来の技術では、効率的に有用な情報を取得することができない場合があった。
【0005】
本発明は、このような事情を考慮してなされたものであり、より効率的に有用な情報を取得することができる情報処理装置、情報処理システム、情報処理方法、およびプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明の一態様は、ウエブページの情報を取得する取得部と、複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第1主エンティティを特定し、前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、前記対象の第1主エンティティが前記ウエブページに含まれるか否かを判定し、前記対象の前記第1主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、列挙した主エンティティにおいて前記対象の第1主エンティティに合致するエンティティが含まれる場合、前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定する決定部とを備える情報処理装置である。
【発明の効果】
【0007】
本発明の一態様によれば、より効率的に有用な情報を取得することができる。
【図面の簡単な説明】
【0008】
【
図1】情報処理システム1の機能構成の一例を示す図である。
【
図2】ナレッジデータベース42の一部を模式的に示す図である。
【
図3】ナレッジデータベース装置30が端末装置10に提供するナレッジパネルの一例を示す図である。
【
図4】収集装置100の決定部106により実行される処理の流れの一例を示すフローチャートである。
【
図5】S10で選択されたサンプリングウエブページの情報の一例を示す図である。
【
図6】エンティティ情報134に含まれるエンティティの組み合わせの一例を示す図である。
【
図7】判定情報136の内容の一例を示す図である。
【
図8】収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。
【
図9】認識部110が記述パターンを認識する処理について説明するための図(その1)である。
【
図10】認識部110が記述パターンを認識する処理について説明するための図(その2)である。
【
図12】更新前のナレッジデータベース42の内容の一例を示す図である。
【
図13】更新後のナレッジデータベース42の内容の一例を示す図である。
【
図14】更新前のナレッジデータベース42に基づいて生成されたナレッジパネルNP1の一例を示す図である。
【
図15】更新後のナレッジデータベース42に基づいて生成されたナレッジパネルの一例を示す図である。
【
図16】第2実施形態の情報処理システム1Aの収集装置100Aの機能構成の一例を示す図である。
【
図17】信頼度付抽出情報140の内容の一例を示す図である。
【
図18】既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照し、本発明の情報処理装置、情報処理システム、情報処理方法、およびプログラムの実施形態について説明する。
【0010】
[概要(その1)]
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、ウエブページの情報を取得し、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースを参照し、取得部により取得されたウエブページにおいて、ナレッジデータベースに含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する。そして、情報処理装置は、ウエブページにおいて、ナレッジデータベースに含まれ、関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンを抽出し、ナレッジデータベースを拡充するために第2表現パターンに基づく情報をナレッジデータベースに提供する。「表現パターン」とは、例えば、ウエブページの生成に用いられる言語の記述パターンである。
【0011】
ナレッジデータベースは、エンティティに関する情報と、エンティティ同士の意味的関係に関する情報とが記述されたものである。エンティティとは、対象事物の実体または概念を表すものである。例えば、あるクエリが入力された場合において、そのクエリがエンティティに該当するものであれば、単なるキーワード検索よりも豊富な情報をユーザに返すことができる。
【0012】
ナレッジデータベースにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
【0013】
クラスは、エンティティの属性を示す情報である。クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。
【0014】
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。
【0015】
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「~を体の構成要素としてもつ」という性質や、「~に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。
【0016】
[概要(その2)]
情報処理装置は、ウエブページの情報を取得し、ナレッジデータベースを参照し、取得されたウエブページにおける主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページに関して、ナレッジデータベースにおいて、第4主エンティティに対して関連付けられるべき従属エンティティと同種の第4従属エンティティの抽出対象とするか否かを決定する。
【0017】
<第1実施形態>
[構成]
図1は、情報処理システム1の機能構成の一例を示す図である。情報処理システム1は、例えば、端末装置10、一以上のホスト20(図では20-1~20-3)と、ナレッジデータベース装置30と、検索装置50と、収集装置100とを備える。端末装置10、ホスト20、および検索装置50は、ネットワークNWを介して互いに通信する。また、ナレッジデータベース装置30、検索装置50、および収集装置100は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えばWAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
【0018】
端末装置10は、ユーザが利用する端末装置10である。端末装置10は、デスクトップ型端末装置や、ノートパソコンなどの可搬型端末装置、スマートフォン、タブレット型端末装置などである。ホスト20は、いわゆるウエブページを提供しているウエブサーバである。
【0019】
ナレッジデータベース装置30は、例えば、所定のデータ(例えば、画像やテキストデータ)に基づいてナレッジデータベース42を生成したり、後述するナレッジパネルを提供したりするサーバである。
【0020】
ナレッジデータベース装置30の記憶部40には、ナレッジデータベース42が記憶されている。
図2は、ナレッジデータベース42の一部を模式的に示す図である。
図2に示すように、エンティティには、エンティティ識別情報(例えば「E1~E7」)と、エンティティ名(例えば「A水族館」など)と、クラス(例えば「CL01」)と、不図示の当該エンティティに関連する情報とが関連付けられている。また、エンティティ間の関係を示すエッジには、プロパティが関連付けられている。
図2の例では、例えばプロパティとして、公式サイトや、住所、営業時間などが関連付けられている。
【0021】
なお、本実施形態では、
図2のE2~E7をエンティティとして表現しているが、これらの情報は、単にエンティティE1に関連付けられた情報であってもよい。
【0022】
図3は、ナレッジデータベース装置30が端末装置10に提供するナレッジパネルの一例を示す図である。例えば、ユーザが端末装置10を操作して、ポータルサイトなどの検索窓にクエリを入力し、検索装置50にクエリに関する情報の検索を依頼すると、検索装置50は、検索対象の情報を参照して、クエリに応じた情報を検索する。また、検索装置50は、ナレッジデータベース装置30に、クエリに関連するナレッジパネルの提供を依頼する。
【0023】
ナレッジデータベース装置30は、ナレッジデータベース42を参照して、クエリに応じた情報を取得し、取得した情報に基づいてナレッジパネルを生成し、生成したナレッジパネルを検索装置50に提供する。検索装置50は、検索結果とナレッジパネルとを含む画像の元データを生成し、生成した情報を端末装置10に提供する。例えば、クエリ「A水族館」が検索クエリである場合、
図3に示すように、A水族館に関するウエブページの一覧と、A水族館のナレッジパネルNPとを含む画像が、ユーザの端末装置10の表示部に表示される。
【0024】
なお、以下の説明では、エンティティE1「A水族館」などのようにナレッジパネルにおいて主題となるようなエンティティを「主エンティティ」と称し、エンティティE2~E7のように主題を補足する情報や主題に付随する情報(営業時間や住所、公式サイト等)のエンティティを「従属エンティティ」と称する場合がある。
【0025】
図1の説明に戻る。ナレッジデータベース装置30は、例えば、通信部22と、情報管理部24と、情報処理部26と、記憶部40を備える。通信部22は、ネットワークインターフェースカード(Network Interface Card)等の通信インターフェースを含む。情報管理部24は、ナレッジデータベース装置30で生成された情報を他装置に提供したり、他装置から提供された情報を管理したりする。情報処理部26は、検索装置50の依頼に応じてナレッジパネルを生成したり、収集装置100により提供された情報を用いてナレッジデータベース42を更新したりする。
【0026】
[収集装置]
収集装置100は、例えば、通信部102と、収集部104と、決定部106と、対象情報取得部108と、認識部110と、抽出部112と、特定部114と、提供部116と、記憶部130を備える。収集部104、決定部106、対象情報取得部108、認識部110、抽出部112、特定部114、および提供部116は、CPU(Central Processing Unit)等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置100のドライブ装置に装着されることで記憶装置にインストールされてもよい。
【0027】
記憶部130は、例えば、ROM(Read Only Memory)、フラッシュメモリ、SDカード、RAM(Random Access Memory)、HDD(Hard Disc Drive)、レジスタ等によって実現される。また、記憶部130の一部または全部は、NAS(Network Attached Storage)や外部ストレージサーバ装置等であってもよい。記憶部130には、例えば、収集情報132、エンティティ情報134、判定情報136、および抽出情報138が記憶されている。これらの情報の詳細については後述する。
【0028】
通信部102は、ネットワークNWを介して、ホスト20、ナレッジデータベース装置30または検索装置50と通信する。通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースを含む。
【0029】
収集部104は、所定のプロトコルに従って、ホスト20から情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。また、例えば、収集部104は、各ホスト20から少量のページ(以下、サンプリングウエブページ)を収集し、収集したサンプリングウエブページを収集情報132として記憶部130に記憶させる。
【0030】
決定部106は、ナレッジデータベース42を参照し、収集部104により取得されたウエブページ(例えばサンプリングウエブページ)において主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、当該ウエブページの提供元のホスト20を、サンプリングウエブページ以外の未収集のウエブページを優先的に収集する対象とするか否かを決定する。
【0031】
対象情報取得部108は、収集情報132からウエブページの情報を取得する。
【0032】
認識部110は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベース42を参照し、対象情報取得部108により取得されたウエブページにおいて、ナレッジデータベース42に含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する。
【0033】
抽出部112は、ウエブページにおいて、ナレッジデータベース42に含まれ、関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンを抽出する。
【0034】
特定部114は、第1表現パターンにおける第1主エンティティと第1従属エンティティとの相対関係に基づいて、抽出部112により抽出された第2表現パターンにおいて、第2従属エンティティを特定する。
【0035】
提供部116は、ナレッジデータベース42を拡充するために第2表現パターンに基づく情報をナレッジデータベース装置30に提供する。
【0036】
以下、ナレッジパネルで提供する情報を拡充するための処理について説明する。
【0037】
[フローチャート(その1)]
図4は、収集装置100の決定部106により実行される処理の流れの一例を示すフローチャートである。処理の詳細については、後述する
図5~
図7を参照して説明する。
【0038】
まず、決定部106が、収集情報132のうち、同一のホストにより提供される一以上のサンプリングウエブページを選択する(S10)。次に、決定部106は、エンティティ情報134を参照し、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択する(S12)。エンティティ情報134は、ナレッジデータベース42と同様の情報、或いは前述した
図2で示したようなナレッジデータベース42の一部の情報である。
【0039】
次に、決定部106は、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定する(S14)。次に、決定部106は、判定結果を判定情報136として記憶部130に記憶させる(S16)。
【0040】
次に、決定部106は、すべての、エンティティとエンティティとの組み合わせを選択したか否かを判定する(S18)。すべての組み合わせを選択していない場合、ステップS12の処理に戻る。
【0041】
すべての組み合わせを選択した場合、決定部106は、すべてのサンプリングウエブページの情報を選択したか否かを判定する(S20)。すべてのサンプリングウエブページの情報を選択していない場合、ステップS10の処理に戻る。
【0042】
すべてのサンプリングウエブページの情報を選択した場合、決定部106は、判定結果である判定情報136に基づいて、深堀対象のホスト20を決定する(S22)。次に、収集部104が、決定された深堀対象であるホスト20において、収集していないウエブページ(サンプリングウエブページ以外のウエブページ)を収集し、収集した情報を収集情報132として記憶部130に記憶させる(S24)。すなわち、収集部104は、少量の収集結果から決定した有用なホスト(深堀対象のホスト)を深堀する深堀処理を行う。これにより本フローチャートの処理は終了する。
【0043】
なお、収集部104は、所定のタイミングで、深堀対象とされなかったホスト20からも、このホスト20が有し、且つ未収集の情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。
【0044】
また、上述したフローチャートの例では、決定部106が、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択し(S12)、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定するものとしたが、これに代えて、以下のように処理が行われてもよい。
(1)決定部106が、抽出対象のエンティティ(例えば、後述する
図5、6のC美術館)を列挙する。
(2)決定部106が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
(3)抽出対象のエンティティが含まれている場合、決定部106は、ナレッジデータベース42に含まれる、ウエブページに含まれていたエンティティ(例えば、
図5、6のAミュージアム、B博物館)と抽出対象のプロパティ(例えば、
図5、6の公式サイト)で関連付けられていたエンティティ(例えば、
図5、6のAミュージアム、B博物館の公式サイト)を列挙する。
(4)決定部106が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、決定部106は、判定結果に基づいて、当該ウエブページの提供元のホスト20を深堀対象とするか否かを決定する。
【0045】
図5は、S10で選択されたサンプリングウエブページの情報の一例を示す図である。例えば、サンプリングウエブページにおいて、観光地の名称と、観光地のURLとが含まれているものとする。例えば、サンプリングウエブページにおいて「Aミュージアム」、「URL001」、「B博物館」、「URL002」、「C美術館」、および「URL003」が含まれている。
【0046】
図6は、エンティティ情報134に含まれるエンティティの組み合わせの一例を示す図である。例えば、「Aミュージアム」と「URL001」とがプロパティ「公式サイト」で関連付けられ、「B博物館」と「URL002」とがプロパティ「公式サイト」で関連付けられている。そして、エンティティ情報134には、エンティティ「C美術館」が含まれるが、「C美術館」には「URL003」は関連付けられていない。施設のURL(プロパティ)という関係に基づいて、施設の名称「Aミュージアム(第1主エンティティ))が「URL001(第1従属エンティティ)」に関連付けられている場合、施設のURL(プロパティ)という関係に基づいて、「URL002(第2従属エンティティ)」が関連付けられていない施設の名称「C美術館」は、「第2主エンティティ」の一例である。
【0047】
図7は、判定情報136の内容の一例を示す図である。判定情報136は、ホストIDに対して、エンティティの組み合わせ、スコア、および深堀対象とするか否かの判定結果を示す情報が互いに関連付けられた情報である。前述した
図3のフローチャートのS12~S18の処理において、「Aミュージアム」と「URL001」との組み合わせ、および「B博物館」と「URL002」との組み合わせは、選択されたサンプリングウエブページの情報に含まれていると判定される。決定部106は、例えば、上述したように2つの組み合わせがサンプリングウエブページの情報に含まれる場合、スコア「2」と決定する。例えば、決定部106は、スコア「2」以上のサンプリングウエブページを提供したホスト20を深堀対象のホストとして決定する。
【0048】
上述したように、深堀対象のホスト20が決定され、深堀対象のホスト20に対して優先的に深堀処理が行われる。これにより、有用なホスト20が有する情報が優先的に収集される。
【0049】
[フローチャート(その2)]
図8は、収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ(第2従属エンティティ)が関連付けられていないエンティティ(第2主エンティティ)である。上述した例では、C美術館が特定エンティティに該当する。C美術館に対して、関連付けられるべきエンティティ「URL***」が関連付けられていないためである。処理の詳細については、後述する
図9~
図11を参照して説明する。
【0050】
まず、収集装置100の対象情報取得部108が、収集情報132に含まれるウエブページを取得する(S100)。
【0051】
次に、認識部110が、取得したウエブページ(以下、対象ウエブページ)において、プロパティで関連付けられたエンティティとエンティティとの組み合わせを含む第1記述パターン(第1表現パターン)を認識する(S102)。エンティティとエンティティとの組み合わせは、例えば、特定エンティティと同一のクラスのエンティティ(例えば施設)と、特定エンティティに対して関連付けられるべきエンティティのクラスを有するエンティティ(例えば施設のURL)との組み合わせである。
【0052】
次に、認識部110は、認識した第1記述パターンに基づいて、エンティティの組み合わせの相対位置を特定する(S104)。次に、認識部110は、S100で取得した対象ウエブページから、特定エンティティを含み、且つ認識した第1記述パターンに合致する第2記述パターン(第2表現パターン)を抽出する(S106)。
【0053】
次に、特定部114が、第2記述パターンにおいて、S104で特定した第1記述パターンの相対位置に対応する相対位置を特定する(S108)。次に、特定部114が、特定した相対位置に関連付けられた情報のうち、特定エンティティが記述された位置(第1位置)とは異なる位置(第2位置)に関連付けられた情報を抽出し、抽出した情報を抽出情報138として記憶部130に記憶させる(S110)。抽出情報138は、特定エンティティと、本処理により抽出された特定エンティティに対して、所定のプロパティによって関連付けられるエンティティとが互いに関連付けられた情報である。
【0054】
次に、認識部110は、すべての処理対象のウエブページの情報を選択したか否かを判定する(S112)。すべての処理対象のウエブページの情報を選択していない場合、S100の処理に戻る。すべての処理対象のウエブページ情報を選択した場合、提供部116が、抽出情報138をナレッジデータベース装置30に送信する(S114)。これにより本フローチャートの1ルーチンの処理は終了する。
【0055】
なお、処理対象のウエブページは、上述したように収集情報132に含まれるすべてのウエブページであってもよいし、設定されたウエブページであってもよい。また、処理対象のウエブページは、深堀対象のホスト20から取得されたウエブページであってもよい。また、決定部106が、ナレッジデータベース42を参照し、収集部104により取得されたウエブページにおいて主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページ(またはホスト20)を抽出部112の処理対象とするか否かを決定してもよい。
【0056】
図9は、認識部110が記述パターンを認識する処理について説明するための図(その1)である。
図10は、認識部110が記述パターンを認識する処理について説明するための図(その2)である。例えば、
図9に示すように、認識部110は、対象ウエブページのHTML(Hyper Text Markup Language)などのソースコードを認識する。そして、
図10に示すように、認識部110は、ナレッジデータベース42に含まれるエンティティの組み合わせを含むソースコードの記述パターンAを認識する。
【0057】
図示する例では、ソースコードは、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にエンティティ「Aミュージアム」が関連付けられ、「a」に対してエンティティ「URL」が関連付けられている。エンティティ「Aミュージアム」とエンティティ「URL001」とは、ナレッジデータベース42おいて関連付けられたエンティティの組み合わせである。また、エンティティ「B博物館」についても同様である。
【0058】
この場合において、認識部110は、「span」の後にエンティティ「施設名」が関連付けられ、「a」に対してエンティティ「施設名のURL」が関連付けられていることを認識する。これにより、記述パターンにおける、エンティティの組み合わせの相対位置を特定される。「施設名」が付与されている位置は、「第1位置」の一例であり、「施設名のURL」が付与されている位置は、「第2位置」の一例である。
【0059】
認識部110は、上記のような記述パターンAに合致する記述パターンを抽出する。合致する記述パターンは、ソースコードが、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にナレッジデータベース42に含まれる施設のエンティティが関連付けられているパターンである。例えば、認識部110は、「span」の後にエンティティ「C美術館」が関連付けられた記述パターンAを認識する。そして、特定部114が、エンティティの組み合わせの相対位置に基づいて、「a」に対してエンティティ「C美術館のURL003」が関連付けられていることを特定する。
【0060】
上記処理をまとめると、
図11に示すように表すことができる。収集装置100は、記述パターン「dt」、「span」、「dd」、「a」を認識し、「span」の後にエンティティ「施設名」が関連付けられ、「a」にエンティティ「施設名のURL」が関連付けられていることを認識する。そして、収集装置100は、ナレッジデータベース42において、エンティティ「URL」が関連付けられていないエンティティである施設名「C美術館」のURLは、記述パターンAの「a」に関連付けられていると認識する。
【0061】
このように、収集装置100は、エンティティの組み合わせを含む言語の階層構造である記述パターンに基づいて、未知の情報である特定エンティティに対して関連付けられる情報を特定することができる。換言すると、特定部114は、第1表現パターンにおける所定の位置(例えば、第1主エンティティまたは「dt」)から第1従属エンティティに至るまでの階層構造における特定経路(「dt」→「span」→「dd」→「a」)を特定し、第2表現パターンにおいて、特定経路を辿って第2従属エンティティを特定する
ことができる。
【0062】
図12は、更新前のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース42において、「C美術館」のURLは、エンティティ「C美術館」に対して関連付けられていない。
【0063】
図13は、更新後のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース装置30が、「C美術館」の「URL」を収集装置100から取得すると、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、収集装置100から送信されたURLを関連付ける。
【0064】
図14は、更新前のナレッジデータベース42に基づいて生成されたナレッジパネルNP1の一例を示す図である。ユーザが、検索クエリ「C美術館」を入力した場合、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられていないため、ナレッジパネルにおいて、URLを含めることができない。
【0065】
これに対して、更新後のナレッジデータベース42に基づいてナレッジパネルが生成された場合、
図15に示すようにナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられているため、ナレッジパネルNP2において、URLを含めることができる。
【0066】
このように、ナレッジデータベース装置30が、更新されたナレッジデータベース42を用いることにより、より有益な情報をユーザに提供することができる。
【0067】
なお、上述した例は、ソースコードの表現パターンに基づいて、処理が行われるものとして説明したが、これに代えて(或いは加えて)、画像のパターンに基づいて、特定エンティティに対して関連付けられるべき情報が特定されてもよい。例えば、特定部114は、画像における施設名が表示された位置とURLが表示された位置に基づいて、ナレッジデータベース42においてURLの情報が関連付けられていない施設のURLを特定してもよい。
【0068】
以上説明した第1実施形態によれば、収集装置100が、対象ウエブページにおいて、ナレッジデータベース42に含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識し、対象ウエブページにおいて、ナレッジデータベース42に含まれ、関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンに基づく情報を、ナレッジデータベース42を拡充するためにナレッジデータベース装置30に提供することにより、より効率的に有用な情報を取得することができる。
【0069】
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、収集装置100Aが、抽出したエンティティに対する信頼度を導出し、導出した信頼度が閾値以上のエンティティをナレッジデータベース装置30に提供する。以下、第1実施形態との相違点について説明する。
【0070】
図16は、第2実施形態の情報処理システム1Aの収集装置100Aの機能構成の一例を示す図である。収集装置100Aは、収集装置100の機能構成に加え、信頼度導出部115を備える。また、収集装置100Aは、記憶部130に代えて、記憶部130Aを備える。記憶部130Aには、記憶部130に記憶される情報に加え、更に信頼度付抽出情報140が記憶されている。
【0071】
信頼度導出部115は、例えば、複数の対象ウエブページから同じファクトが得られた場合、複数の対象ウエブページの情報に基づいて、フォクトの信頼度を導出する。ファクトとは、ナレッジデータベース42のエンティティの組み合わせが含まれているという事実である。例えば、信頼度導出部115は、ウエブページにおける既知のエンティティの組み合わせの割合に基づいて、信頼度である統合スコアを導出し、導出した統合スコアと抽出情報138とを合わせて信頼度付抽出情報140を生成する。そして、信頼度導出部115は、統合スコアが閾値以上のエンティティの組み合わせをナレッジデータベース装置30に提供することを決定する。
【0072】
図17は、信頼度付抽出情報140の内容の一例を示す図である。信頼度付抽出情報140は、対象ウエブページに含まれるエンティティの組み合わせと、その組み合わせがナレッジデータベース42において既知であるか、未知であるかを示す情報と、対象ウエブページにおいてエンティティの組み合わせが既知の割合、および統合スコアが互いに関連付けられた情報である。例えば、信頼度導出部115は、対象ウエブページに含まれるエンティティの組み合わせがナレッジデータベース42において既知であるか、未知あるかを判定し、判定結果に基づいて、エンティティの組み合わせに対する既知のエンティティの組み合わせの割合を導出する。
【0073】
そして、信頼度導出部115は、所定のモデルに、対象ウエブページごとに導出した既知の割合を適用して、統合スコアを導出する。所定のモデルとは、例えば、式(1)である。式(1)の「x」は、ホストID「001」のホスト20から収集された第1対象ウエブページにおける既知の割合であり、「y」は、ホストID「002」のホスト20から収集された第2対象ウエブページにおける既知の割合である。「α」は、任意に設定されるパラメータ(例えば「0.1」)である。
【0074】
【0075】
図18は、既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。
図18に示すように式(1)は、「x」、「y」の両方の既知の割合が高い場合、統合スコアは高い傾向に導出され、「x」、「y」の両方の既知の割合が低い場合、統合スコアは高い傾向に導出される関数である。
【0076】
このように、信頼度導出部115が、第1ウエブページと第2ウエブページとの既知の割合に基づいて、統合スコアを導出することにより、より精度よく統合スコアを導出することができる。
【0077】
以上説明した第2実施形態によれば、収集装置100が、第1ウエブページにおいて、ナレッジデータベース42に含まれる、主エンティティと主エンティティに従属する従属エンティティとが特定の相対関係を有するように表現された表現パターンと、ナレッジデータベース42に含まれる主エンティティと、ナレッジデータベース42において主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率、および、第2ウエブページにおいて、ナレッジデータベース42に含まれる、主エンティティと主エンティティに従属する従属エンティティとが特定の相対関係を有するように表現された表現パターンと、ナレッジデータベースに含まれる主エンティティと、ナレッジデータベースにおいて主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率に基づいて、非従属エンティティをナレッジデータベース42の拡充するための情報とするか否かを判定することにより、より精度よくナレッジデータベースを拡充するための情報を分別することができる。
【0078】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0079】
1‥情報処理システム、10‥端末装置、20‥ホスト、30‥ナレッジデータベース装置、42‥ナレッジデータベース、100,100A‥収集装置、102‥通信部、104‥収集部、106‥決定部、108‥対象情報取得部、110‥認識部、112‥抽出部、114‥特定部、115‥信頼度導出部、116‥提供部、130、130A‥記憶部、134‥エンティティ情報、136‥判定情報、138‥抽出情報、140‥信頼度付抽出情報