特許6985189 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許6985189データ収集装置、データ収集方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6985189

(24)【登録日】2021年11月29日

(45)【発行日】2021年12月22日

(54)【発明の名称】データ収集装置、データ収集方法、およびプログラム

(51)【国際特許分類】

G06F 16/951 20190101AFI20211213BHJP

G06F 16/50 20190101ALI20211213BHJP

【ＦＩ】

G06F16/951

G06F16/50

【請求項の数】11

【全頁数】15

(21)【出願番号】特願2018-51322(P2018-51322)

(22)【出願日】2018年3月19日

(65)【公開番号】特開2019-164500(P2019-164500A)

(43)【公開日】2019年9月26日

【審査請求日】2020年3月12日

(73)【特許権者】

【識別番号】319013263

【氏名又は名称】ヤフー株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100181124

【弁理士】

【氏名又は名称】沖田壮男

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】タウフィックラチマン

(72)【発明者】

【氏名】俵雄貴

(72)【発明者】

【氏名】川崎将平

(72)【発明者】

【氏名】田中康之

【審査官】早川学

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０３０２０９３（ＵＳ，Ａ１）

【文献】特開２０１３−２５４４２０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００−１６／９５８

(57)【特許請求の範囲】

【請求項1】

ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第１収集部と、
前記第１収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部と、
前記評価部による評価結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応するコンテンツを収集する第２収集部と、
前記第２収集部により収集されたコンテンツと関連付けられた画像データを収集する第３収集部と
を備え、
前記評価部は、前記第１収集部により収集されたコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行う、
データ収集装置。

【請求項2】

前記評価部は、前記画像データの総数に対する前記互いに異なる画像データの数の割合が大きくなるにつれて評価が高くなるように、前記評価対象のホストの評価を行う、
請求項１に記載のデータ収集装置。

【請求項3】

前記評価部は、前記第１収集部により収集されたコンテンツの総数と、前記コンテンツに含まれる所定の言語で記載されている所定言語コンテンツの数との比に基づいて、前記評価対象のホストの評価を行う、
請求項１または２に記載のデータ収集装置。

【請求項4】

前記評価部は、前記第１収集部により収集されたコンテンツの総数に対する前記所定言語コンテンツの割合が大きくなるにつれて評価が高くなるように、前記評価対象のホストの評価を行う、
請求項３に記載のデータ収集装置。

【請求項5】

前記評価部は、前記評価対象のホストに所属する参照情報のパス構造に基づいて前記参照情報を組分けし、前記参照情報の組ごとに前記評価対象のホストの評価を行う、
請求項１から４のいずれか一項に記載のデータ収集装置。

【請求項6】

前記第３収集部により収集された画像データは、前記第２収集部により収集された前記コンテンツのヘッダ部に含まれるメタ情報に記載された画像データである、
請求項１から５のいずれか一項に記載のデータ収集装置。

【請求項7】

前記第３収集部は、前記第２収集部により収集された前記コンテンツのヘッダ部に含まれるメタ情報に記載された前記画像データの名前情報を収集する、
請求項６に記載のデータ収集装置。

【請求項8】

前記第２収集部により収集されたコンテンツに含まれる所定の文字列に基づいて、前記画像データの対象事物の公式コンテンツの情報を収集する第４収集部をさらに備える、
請求項１から７のいずれか一項に記載のデータ収集装置。

【請求項9】

前記第２収集部は、収集済みのコンテンツが更新されていると判定した場合、該コンテンツを再度収集する、
請求項１から８のいずれか一項に記載のデータ収集装置。

【請求項10】

コンピュータが、
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第１のコンテンツを収集し、
収集された前記第１のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行い、
前記評価の結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応する第２のコンテンツを収集し、
収集された前記第２のコンテンツと関連付けられた画像データを収集する、
データ収集方法であって、
前記評価対象のホストの評価を行うことは、収集された前記第１のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行うことを含む、
データ収集方法。

【請求項11】

コンピュータに、
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第１のコンテンツを収集させ、
収集された前記第１のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行わせ、
前記評価の結果に基づいて収集対象のホストを決定させ、決定された前記ホストに所属する参照情報と対応する第２のコンテンツを収集させ、
収集された前記第２のコンテンツと関連付けられた画像データを収集させる、
プログラムであって、
前記評価対象のホストの評価を行わせることは、収集された前記第１のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行わせることを含む、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ収集装置、データ収集方法、およびプログラムに関する。

【背景技術】

【0002】

従来、ウェブから文章や画像等のデータを収集し、収集したデータを自動的にデータベース化するクローラが知られている（例えば、特許文献１参照）。クローラは、ウェブページ中のリンクを辿って、様々なホストのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。ウェブ情報データベースに蓄積されたデータは、ウェブページの検索サービス等に利用される。

【0003】

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報（例えば、ＵＲＬ：Uniform Resource Locator）をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１５−１６７０３９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワードに関連するテキストデータや画像データを検索結果とともに出力するように運用されている場合がある。このような機能を実現するために、エンティティと、該エンティティに関連するテキストデータや画像データとを互いに関連付けて記憶したデータベースが用いられる場合がある。

【0006】

上記のようなデータベースの拡充のため、特に、エンティティの画像データを効率的に収集する手法が求められている。また、日本語コンテンツの拡充のため、日本語のページの割合が高いホストを優先的にクロールする手法が求められている。

【0007】

本発明は、このような事情を考慮してなされたものであり、データ収集の効率を向上させることが可能なデータ収集装置、データ収集方法、およびプログラムを提供することを目的の一つとする。

【課題を解決するための手段】

【0008】

本発明の一態様は、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第１収集部と、前記第１収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備える、データ収集装置である。

【発明の効果】

【0009】

本発明の一態様によれば、データ収集の効率を向上させることが可能である。

【図面の簡単な説明】

【0010】

【図1】実施形態に係るクロールサーバ１の使用環境を示す図である。

【図2】実施形態に係るナレッジグラフの一例を示す図である。

【図3】実施形態に係るクロールサーバ１の構成を示す機能ブロック図である。

【図4】実施形態に係るクロールサーバ１のホスト評価処理の流れの一例を示すフローチャートである。

【図5】実施形態に係るＵＲＬリスト情報Ｄ１の一例を示す図である。

【図6】実施形態に係るコンテンツ情報Ｄ２の一例を示す図である。

【図7】実施形態に係るホスト情報Ｄ３の一例を示す図である。

【図8】実施形態に係るパス構造を考慮してホスト評価を行った場合のホスト情報Ｄ３ａの一例を示す図である。

【図9】実施形態に係るクロールサーバ１の画像収集処理の流れの一例を示すフローチャートである。

【図10】実施形態に係る画像情報Ｄ４の一例を示す図である。

【発明を実施するための形態】

【0011】

［概要］
以下、図面を参照して、データ収集装置、データ収集方法、およびプログラムの実施形態について説明する。本実施形態では、データ収集装置がクロールサーバであるものとして説明する。クロールサーバとは、インターネット等のネットワークを介してアクセス可能な複数の装置からデータを自動的に収集するサーバである。本実施形態のクロールサーバは、エンティティの代表画像の収集に関してホストの評価を行い、評価の高い優良なホストに集中してクロールを行う。

【0012】

クロールサーバは、１つのプロセッサによって実現されてもよく、複数のプロセッサが分散処理することで実現されてもよい。本実施形態において、ホストとは、ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報（例えば、ＵＲＬ）の一部を構成して複数の参照情報の群を特定する所属情報をいう。以下、実施形態について説明する。

【0013】

［全体構成］
図１は、本実施形態のクロールサーバ１（データ収集装置）の使用環境を示す図である。クロールサーバ１は、画像データおよびＨＴＭＬ（HyperText Markup Language）データの少なくとも一方を含むページデータ（コンテンツ）を、ネットワークＮＷを介してアクセス可能な複数の外部サーバＳ１（装置）から収集する。コンテンツは、外部サーバＳ１に格納されており、ブラウザによって閲覧可能なページ単位のデータである。ただし、コンテンツは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータでもよい。ネットワークＮＷは、インターネットやＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）等を含む。

【0014】

［ナレッジグラフの構成］
本実施形態において、クロールサーバ１により収集されたデータは、例えば、ナレッジグラフを生成するために用いられる。ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。エンティティとは、例えば、ある対象事物の実体（例えば、実世界で存在している物体）を表していてもよいし、ある対象事物の概念（例えば、実世界または仮想世界の中で定義された概念）を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。

【0015】

図２は、本実施形態に係るナレッジグラフの一例を示す図である。ナレッジグラフにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

【0016】

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

【0017】

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報１」や「Ｃ１」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

【0018】

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

【0019】

ナレッジグラフは、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

【0020】

図２において示される例のナレッジグラフは、野球選手Ａである「エンティティＥ１」と、野球チームＢである「エンティティＥ２」とが、「所属チーム」というプロパティ名のクラスに属する。また、野球選手Ａである「エンティティＥ１」と、「野球選手ＡＮ１」とが、「名前」というプロパティ名のクラスに属する。また、野球選手Ａである「エンティティＥ１」と、野球選手Ａの「画像Ｐ１」とが、「代表画像」というプロパティ名のクラスに属する。また、野球チームＢである「エンティティＥ２」と、「野球リームＢＮ２」とが、「名前」というプロパティ名のクラスに属する。クロールサーバ１により収集されたデータは、例えば、上記のようなナレッジグラフにおけるエンティティの代表画像として利用される。

【0021】

［クロールサーバの構成］
以下、クロールサーバ１の構成について説明する。図３は、クロールサーバ１の構成を示す機能ブロック図である。クロールサーバ１は、例えば、データ収集部１０（第１収集部）と、ホスト評価部２０と、画像収集処理部３０と、記憶部４０とを備える。記憶部４０には、例えば、ＵＲＬリスト情報Ｄ１と、コンテンツ情報Ｄ２と、ホスト情報Ｄ３と、画像情報Ｄ４とが記憶されている。

【0022】

ＵＲＬリスト情報Ｄ１には、クロールの対象となる多数のＵＲＬのリストが格納されている。ＵＲＬリスト情報Ｄ１は、クロールにより収集されたコンテンツのテキストデータから抽出されたＵＲＬがリスト化されたものであってよい。或いは、ＵＲＬリスト情報Ｄ１は、例えば、クロールサーバ１の管理者により手動で設定されるものであってよい。コンテンツ情報Ｄ２には、クロールにより収集されたコンテンツの情報が格納されている。ホスト情報Ｄ３には、評価対象となるホストの評価結果が格納されている。画像情報Ｄ４には、クロールにより収集されたエンティティの代表画像が格納されている。

【0023】

データ収集部１０（フェッチャー）は、複数の外部サーバＳ１からコンテンツを収集（フェッチ）する。収集されるコンテンツには、例えば、ＨＴＭＬデータおよび画像データが含まれる。データ収集部１０は、収集したコンテンツを記憶部４０のコンテンツ情報Ｄ２に格納する。

【0024】

ホスト評価部２０は、コンテンツにおいて特定の情報として設定された特定のタグの有無に基づいてホストの評価を行う。「特定のタグ」は、例えば、ＯＧＰ（Open Graph Protocol）タグのようなコンテンツの内容を示すテキストを含むタグである。ＯＧＰタグは、リンク先のコンテンツのタイトル（以下、ＯＧＰタイトル）、リンク先のコンテンツに関する画像データ（以下、ＯＧＰ画像）のＵＲＬ、リンク先のコンテンツの概要を示すテキストデータ等がひと纏まりになった情報である。ホスト評価部２０は、例えば、このＯＧＰタグに含まれるＯＧＰ画像の有無に基づいてホストの評価を行う。

【0025】

ＯＧＰ画像とは、リンクの代表画像として設定された画像である。このため、ＯＧＰ画像は、エンティティの代表画像として利用可能な画像に相当しうる。ＯＧＰ画像は、各コンテンツのメタ情報としてその参照情報（例えば、ＵＲＬ）により指定される。ＯＧＰ画像は、ＯＧＰタグ「＜meta property=”og:image” content=”URL”/>により指定される。

【0026】

また、ＯＧＰ画像は、各コンテンツページのメタ情報として指定されたＯＧＰタグに含まれるＯＧＰタイトルと関連性が高い。このため、このＯＧＰタイトルは、エンティティ名（名前情報）として利用可能な文字列に相当しうる。ＯＧＰタイトルは、ＯＧＰタグ「＜meta property=”og:title” content=”タイトル”/>により指定される。

【0027】

ホスト評価部２０は、例えば、サンプリング部２１（第１収集部）と、ユニークＯＧＰ率算出部２３（評価部）と、日本語判定部２５（評価部）とを備える。サンプリング部２１は、評価対象とするホストに所属するＵＲＬを、ＵＲＬリスト情報Ｄ１から抽出する。抽出するＵＲＬの数は、任意である。サンプリング部２１は、抽出したＵＲＬを、データ収集部１０に入力する。これにより、データ収集部１０は、サンプリング部２１から入力されたＵＲＬに基づいて、複数の外部サーバＳ１からコンテンツを収集する。

【0028】

ユニークＯＧＰ率算出部２３は、データ収集部１０により収集されて記憶部４０に記憶されたコンテンツを解析する。ユニークＯＧＰ率算出部２３は、収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、ホストの評価を行う。例えば、ユニークＯＧＰ率算出部２３は、コンテンツであるＨＴＭＬデータの各々のヘッダ部分にＯＧＰタグ（ＯＧＰ画像）が含まれているか否かを判定する。ユニークＯＧＰ率算出部２３は、評価対象とするホストごとに、ユニークＯＧＰ率を算出する。ユニークＯＧＰ率とは、収集されたコンテンツに含まれるＯＧＰ画像の多種性をホストごとに評価する指標値である。数多くのＯＧＰ画像が収集された場合であっても、ＯＧＰ画像が互いに重複していると、エンティティ代表画像として利用可能な画像を効率的に増やすことはできない。例えば、ホストを代表する同一のロゴ画像が収集された全てのコンテンツにＯＧＰ画像として設定されている場合、エンティティ代表画像として利用可能な画像は１つのみである。このため、本実施形態では、ＯＧＰ画像の多種性を判断することが可能なユニークＯＧＰ率に基づいてホスト評価を行う。ユニークＯＧＰ率は、例えば、以下の式（１）により表される。

【0029】

ユニークＯＧＰ率
＝収集されたＯＧＰ画像のユニーク数／収集されたＯＧＰ画像の総数・・・式（１）

【0030】

例えば、評価対象とするホストに関して収集されたＯＧＰ画像の総数（重複あり）が１０であり、このうち、重複を除いたＯＧＰ画像のユニーク数が５である場合、ユニークＯＧＰ率は０．５（＝５／１０）となる。ユニークＯＧＰ率は、値が大きいほど多種性が高く、ホストの評価が高いことを示し、値が小さいほど多種性が低く、ホストの評価が低いことを示す。

【0031】

収集されたＯＧＰ画像が重複しているか否かの判定は、例えば、ＯＧＰタグに含まれるＯＧＰ画像のリンク先のＵＲＬに基づいて行われる。ユニークＯＧＰ率算出部２３は、このＯＧＰタグに含まれるＯＧＰ画像のリンク先のＵＲＬの文字列が同一であるＯＧＰ画像は、互いに重複していると判定する。ユニークＯＧＰ率算出部２３は、算出したユニークＯＧＰ率を、記憶部４０に記憶されたホスト情報Ｄ３に、評価対象のホストと関連付けて格納する。

【0032】

すなわち、ユニークＯＧＰ率算出部２３は、収集されたコンテンツと関連付けられた画像データの総数と、互いに異なる画像データの数との比に基づいて、ホストの評価を行う。また、ユニークＯＧＰ率算出部２３は、画像データの総数に対する互いに異なる画像データの数の割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。

【0033】

日本語判定部２５は、収集されたコンテンツの各々が日本語のコンテンツ（特定言語コンテンツ）であるか否かを判定する。さらに、日本語判定部２５は、評価対象とするホストごとに、日本語コンテンツ率を算出する。日本語コンテンツ率とは、収集されたコンテンツに含まれる日本語コンテンツの割合を示す指標値である。日本語コンテンツ率は、例えば、以下の式（２）により表される。

【0034】

日本語コンテンツ率
＝収集された日本語コンテンツの数／収集されたコンテンツの総数・・・式（２）

【0035】

例えば、評価対象とするホストに関して収集されたコンテンツの総数が１０であり、このうち、日本語のコンテンツの数が９である場合、日本語コンテンツ率は０．９（＝９／１０）となる。日本語コンテンツ率は、値が大きいほど日本語コンテンツの割合が高く、ホストの評価が高いことを示し、値が小さいほど日本語コンテンツの割合が低く、ホストの評価が低いことを示す。

【0036】

収集されたコンテンツが日本語コンテンツであるか否かの判定は、例えば、文字コードや、言語ごとの辞書データ等に基づいて行われる。日本語判定部２５は、算出した日本語コンテンツ率を、記憶部４０に記憶されたホスト情報Ｄ３に、評価対象のホストと関連付けて格納する。

【0037】

すなわち、日本語判定部２５は、収集されたコンテンツの総数と、コンテンツに含まれる所定の言語で記載されている所定言語コンテンツの数との比に基づいて、ホストの評価を行う。また、日本語判定部２５は、収集されたコンテンツの総数に対する所定言語コンテンツの割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。

【0038】

画像収集処理部３０は、ホスト評価部２０による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホストを選択し、選択したホストに所属するＵＲＬを集中的にクロールして、エンティティ代表画像となりうる画像を収集する。すなわち、画像収集処理部３０は、数多くの種類のＯＧＰ画像を収集することが期待されるホストを集中的にクロールする。画像収集処理部３０は、例えば、ホスト選択部３１（第２収集部）と、画像ＵＲＬ選択部３３（第３収集部）とを備える。

【0039】

ホスト選択部３１は、ホスト評価部２０による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホスト（以下、優良ホスト）を選択する。例えば、ホスト選択部３１は、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークＯＧＰ率が所定の閾値以上であるホストを優良ホストとして選択する。例えば、ホスト選択部３１は、日本語コンテンツ率が「０．９」以上であり、且つ、ユニークＯＧＰ率が「０．９５」以上であるホストを優良ホストとして選択する。

【0040】

ホスト選択部３１は、ＵＲＬリスト情報Ｄ１から優良ホストに所属するＵＲＬを抽出し、データ収集部１０に入力する。これにより、データ収集部１０は、ホスト選択部３１から入力されたＵＲＬに基づいて、複数の外部サーバＳ１からコンテンツを収集し、コンテンツを記憶部４０のコンテンツ情報Ｄ２に記憶させる。ホスト選択部３１により抽出されるＵＲＬの数は任意である。

【0041】

画像ＵＲＬ選択部３３は、ホスト選択部３１により抽出されたＵＲＬに基づいて収集されたコンテンツの各々のヘッダ部分にＯＧＰタグ（ＯＧＰ画像）が含まれているか否かを判定する。画像ＵＲＬ選択部３３は、ＯＧＰ画像が含まれていると判定した場合、該ＯＧＰ画像のリンク先のＵＲＬを収集対象のＵＲＬとして選択し、データ収集部１０に入力する。これにより、データ収集部１０は、画像ＵＲＬ選択部３３から入力されたＵＲＬに基づいて、外部サーバＳ１から画像であるコンテンツを収集する。

【0042】

画像ＵＲＬ選択部３３は、ＯＧＰタグに含まれているＯＧＰタイトルと、該ＯＧＰタグに含まれているＯＧＰ画像のリンク先のＵＲＬに基づいて収集された画像との組を、記憶部４０に記憶された画像情報Ｄ４に格納する。画像情報Ｄ４に格納されたＯＧＰタイトルは、エンティティ名として利用可能なものである。また、画像情報Ｄ４に格納された画像は、エンティティの代表画像として利用可能なものである。

【0043】

クロールサーバ１の各機能部は、例えば、コンピュータにおいて、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

【0044】

クロールサーバ１の記憶部４０は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置等により実現される。また、記憶部４０の一部または全部は、ＮＡＳや外部のストレージサーバ等、クロールサーバ１がアクセス可能な外部装置であってもよい。

【0045】

［ホスト評価処理］
以下、クロールサーバ１のホスト評価処理について説明する。図４は、クロールサーバ１のホスト評価処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。

【0046】

以下の例では、ＵＲＬリスト情報Ｄ１が予め記憶部４０に記憶されているものとする。図５は、記憶部４０に記憶されたＵＲＬリスト情報Ｄ１の一例を示す図である。図５に示されるように、ＵＲＬリスト情報Ｄ１には、複数のホストに関するＵＲＬの情報が含まれている。

【0047】

まず、サンプリング部２１は、評価対象とするホストを選択する（Ｓ１０１）。例えば、サンプリング部２１は、ＵＲＬリスト情報Ｄ１に含まれるＵＲＬを参照して、評価対象とするホストを選択する。或いは、サンプリング部２１は、管理者等による入力を受け付ける受付部（不図示）を介して指定されたホストを、評価対象とするホストとして選択してもよい。選択するホストの数は、任意である。

【0048】

次に、サンプリング部２１は、評価対象としたホストのうち１つのホストを選択し、該ホストに所属するＵＲＬを、ＵＲＬリスト情報Ｄ１から抽出する（Ｓ１０３）。抽出するＵＲＬの数は、任意である。次に、サンプリング部２１は、抽出したＵＲＬをデータ収集部１０に入力する。データ収集部１０は、サンプリング部２１から入力されたＵＲＬに基づいて、複数の外部サーバＳ１からコンテンツを収集する（Ｓ１０５）。データ収集部１０は、収集したコンテンツを記憶部４０のコンテンツ情報Ｄ２に格納する。

【0049】

図６は、データ収集部１０により収集されたコンテンツ情報Ｄ２の一例を示す図である。図６に示されるように、コンテンツ情報Ｄ２には、ＵＲＬと、該ＵＲＬに基づいて収集されたコンテンツとが関連付けられて格納されている。コンテンツ情報Ｄ２には、例えば、ＵＲＬ「ホスト１/ディレクトリ１/ファイル１」と、コンテンツ「ＨＴＭＬデータ１」とが関連付けられて格納されている。

【0050】

次に、ユニークＯＧＰ率算出部２３は、ユニークＯＧＰ率を算出する（Ｓ１０７）。ユニークＯＧＰ率算出部２３は、算出したユニークＯＧＰ率を、記憶部４０に記憶されたホスト情報Ｄ３に、評価対象のホストと関連付けて格納する。

【0051】

次に、日本語判定部２５は、コンテンツの各々が日本語コンテンツであるか否かを判定し、日本語コンテンツ率を算出する（Ｓ１０９）。日本語判定部２５は、算出した日本語コンテンツ率を、記憶部４０に記憶されたホスト情報Ｄ３に、評価対象のホストと関連付けて格納する。

【0052】

図７は、ホスト情報Ｄ３の一例を示す図である。図７に示されるように、ホスト情報Ｄ３には、評価対象のホストと、ユニークＯＧＰ率算出部２３により算出されたユニークＯＧＰ率と、日本語判定部２５により算出された日本語コンテンツ率とが関連付けられて格納されている。ホスト情報Ｄ３には、例えば、ホスト「ホスト１」と、ユニークＯＧＰ率「０．７」と、日本語コンテンツ率「１．０」とが関連付けられて格納されている。

【0053】

尚、ユニークＯＧＰ率算出部２３は、評価対象のホストに属するＵＲＬのパス構造を考慮して、ユニークＯＧＰ率を算出してもよい。また、日本語判定部２５は、評価対象のホストに属するＵＲＬのパス構造を考慮して、日本語コンテンツ率を算出してもよい。このような評価対象のホストに属するＵＲＬのパス構造を考慮した評価を行うことで、ホスト評価の精度を向上させることができる。

【0054】

図８は、評価対象のホストに属するＵＲＬのパス構造を考慮してホスト評価を行った場合のホスト情報Ｄ３ａの一例を示す図である。図８に示されるように、ホスト情報Ｄ３ａには、パス構造と、ユニークＯＧＰ率と、日本語コンテンツ率とが関連付けられて格納されている。ホスト情報Ｄ３ａには、例えば、パス構造「ホスト１／ディレクトリ１／」直下に配置されたコンテンツのユニークＯＧＰ率が「０．８」であり、日本語コンテンツ率が「１．０」であるデータが格納されている。また、ホスト情報Ｄ３ａには、例えば、パス構造「ホスト１／ディレクトリ３／」直下に配置されたコンテンツのユニークＯＧＰ率が「０．５」であり、日本語コンテンツ率が「０．９」であるデータが格納されている。このように、同一のホストであっても、パス構造に応じて評価結果に優劣をつけることができる。ホスト情報Ｄ３ａの例では、「ホスト１／ディレクトリ３／」直下に配置されたコンテンツよりも、「ホスト１／ディレクトリ１／」直下に配置されたコンテンツのユニークＯＧＰ率が高いことがわかる。このように、ユニークＯＧＰ率算出部２３は、ホストに所属する参照情報のパス構造に基づいて参照情報を組分けし、参照情報の組ごとにホストの評価を行う。

【0055】

次に、サンプリング部２１は、評価対象とする全てのホストに対する評価が完了したか否かを判定する（Ｓ１１１）。サンプリング部２１は、評価対象とする全てのホストに対する評価が完了していないと判定した場合、評価対象とする１つのホストを選択し、Ｓ１０３以降の処理を繰り返す。一方、サンプリング部２１は、評価対象とする全てのホストに対する評価が完了したと判定した場合、本フローチャートの処理を終了する。

【0056】

［画像収集処理］
以下、クロールサーバ１の画像収集処理について説明する。図９は、クロールサーバ１の画像収集処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。

【0057】

まず、ホスト選択部３１は、ホスト評価部２０による評価結果に基づいて、エンティティ代表画像の収集に適した優良ホストを選択する（Ｓ２０１）。例えば、ホスト選択部３１は、記憶部４０に記憶されたホスト情報Ｄ３を参照し、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークＯＧＰ率が所定の閾値以上であるホストを優良ホストとして選択する。

【0058】

次に、ホスト選択部３１は、選択した優良ホストのうち１つのホストを選択し、該ホストに所属するＵＲＬを、ＵＲＬリスト情報Ｄ１から抽出する（Ｓ２０３）。抽出するＵＲＬの数は、任意である。尚、図９に示されるように、パス構造を考慮したホスト評価の結果が得られている場合には、評価の高い特定のパス構造を持つＵＲＬを優先的に抽出するようにしてもよい。

【0059】

次に、ホスト選択部３１は、抽出したＵＲＬをデータ収集部１０に入力する。データ収集部１０は、ホスト選択部３１から入力されたＵＲＬに基づいて、複数の外部サーバＳ１からコンテンツを収集する（Ｓ２０５）。

【0060】

次に、画像ＵＲＬ選択部３３は、収集されたコンテンツの各々のヘッダ部分にＯＧＰ画像が含まれているか否かを判定する（Ｓ２０７）。画像ＵＲＬ選択部３３は、ＯＧＰ画像が含まれていると判定した場合、該ＯＧＰ画像のリンク先のＵＲＬを収集対象のＵＲＬとして選択し、データ収集部１０に入力する。これにより、データ収集部１０は、画像ＵＲＬ選択部３３から入力されたＵＲＬに基づいて、外部サーバＳ１からコンテンツ（画像）を収集する（Ｓ２０９）。一方、画像ＵＲＬ選択部３３は、ＯＧＰ画像が含まれていないと判定した場合、上記の画像の収集は行わない。

【0061】

次に、画像ＵＲＬ選択部３３は、ＯＧＰタグに含まれているＯＧＰタイトルと、該ＯＧＰタグに含まれているＯＧＰ画像のリンク先のＵＲＬに基づいて収集された画像との組を、記憶部４０に記憶された画像情報Ｄ４に格納する（Ｓ２１１）。図１０は、画像情報Ｄ４の一例を示す図である。図１０に示されるように、画像情報Ｄ４には、ＯＧＰタグのＯＧＰタイトルに含まれる文字列から取得されたタイトル（エンティティ名）と、ＯＧＰタグのＯＧＰ画像のリンク先のＵＲＬに基づいて収集された画像とが関連付けられて格納されている。画像情報Ｄ４には、例えば、タイトル「エンティティ１」と、画像「画像データ１０」とが関連付けられて格納されている。

【0062】

次に、ホスト選択部３１は、優良ホストとして選択した全てのホストに対する処理が完了したか否かを判定する（Ｓ２１３）。ホスト選択部３１は、優良ホストとして選択した全てのホストに対する処理が完了していないと判定した場合、未処理の１つのホストを選択し、Ｓ２０３以降の処理を繰り返す。一方、ホスト選択部３１は、優良ホストとして選択した全てのホストに対する処理が完了したと判定した場合、本フローチャートの処理を終了する。

【0063】

以上において説明した実施形態によれば、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第１収集部と、前記第１収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備えることで、データ収集の効率を向上させることができる。

【0064】

尚、上記の実施形態では、エンティティ代表画像を収集する例について説明したが、エンティティの公式ページ（公式コンテンツ）の情報を収集するようにしてもよい。例えば、クロールサーバ１に、データ収集部１０により収集されたコンテンツから公式ページの情報を収集する収集部（第４収集部、不図示）を設けるようにしてもよい。例えば、クロールサーバ１は、収集されたコンテンツのＨＴＭＬデータに、リンク名に「公式ページ」、「オフィシャルページ」等の所定の文字列を含むリンクが存在する場合、このリンクのリンク先のＵＲＬを、エンティティの所在情報として収集する。尚、さらに、クロールサーバ１は、このリンク先の公式ページからエンティティの情報をさらに収集するようにしてもよい。

【0065】

また、クロールサーバ１は、過去に収集した収集済みのコンテンツが更新されている場合には、再度収集するようにしてもよい。例えば、クロールサーバ１は、過去に収取したコンテンツと、最新のコンテンツとを比較して差異がある場合には、最新のコンテンツを記憶部４０に格納するようにしてもよい。差異の有無の判定は、例えば、ファイルサイズの違いや、テキスト比較の結果に基づいて行なわれてよい。また、クロール対象のサイトのサイトマップに更新頻度の情報が含まれている場合には、クロールサーバ１は、この更新頻度の情報に基づいて、コンテンツの再収集を行うようにしてもよい。

【0066】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

【符号の説明】

【0067】

１…クロールサーバ、１０…データ収集部、２０…ホスト評価部、２１…サンプリング部、２３…ユニークＯＧＰ率算出部、２５…日本語判定部、３０…画像収集処理部、３１…ホスト選択部、３３…画像ＵＲＬ選択部、４０…記憶部

【図1】