特許第6985189号(P6985189)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許6985189データ収集装置、データ収集方法、およびプログラム
<>
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000002
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000003
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000004
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000005
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000006
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000007
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000008
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000009
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000010
  • 特許6985189-データ収集装置、データ収集方法、およびプログラム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6985189
(24)【登録日】2021年11月29日
(45)【発行日】2021年12月22日
(54)【発明の名称】データ収集装置、データ収集方法、およびプログラム
(51)【国際特許分類】
   G06F 16/951 20190101AFI20211213BHJP
   G06F 16/50 20190101ALI20211213BHJP
【FI】
   G06F16/951
   G06F16/50
【請求項の数】11
【全頁数】15
(21)【出願番号】特願2018-51322(P2018-51322)
(22)【出願日】2018年3月19日
(65)【公開番号】特開2019-164500(P2019-164500A)
(43)【公開日】2019年9月26日
【審査請求日】2020年3月12日
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100181124
【弁理士】
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】タウフィック ラチマン
(72)【発明者】
【氏名】俵 雄貴
(72)【発明者】
【氏名】川崎 将平
(72)【発明者】
【氏名】田中 康之
【審査官】 早川 学
(56)【参考文献】
【文献】 米国特許出願公開第2015/0302093(US,A1)
【文献】 特開2013−254420(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、
前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部と
前記評価部による評価結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応するコンテンツを収集する第2収集部と、
前記第2収集部により収集されたコンテンツと関連付けられた画像データを収集する第3収集部と
備え、
前記評価部は、前記第1収集部により収集されたコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行う、
データ収集装置。
【請求項2】
前記評価部は、前記画像データの総数に対する前記互いに異なる画像データの数の割合が大きくなるにつれて評価が高くなるように、前記評価対象のホストの評価を行う、
請求項1に記載のデータ収集装置。
【請求項3】
前記評価部は、前記第1収集部により収集されたコンテンツの総数と、前記コンテンツに含まれる所定の言語で記載されている所定言語コンテンツの数との比に基づいて、前記評価対象のホストの評価を行う、
請求項1または2に記載のデータ収集装置。
【請求項4】
前記評価部は、前記第1収集部により収集されたコンテンツの総数に対する前記所定言語コンテンツの割合が大きくなるにつれて評価が高くなるように、前記評価対象のホストの評価を行う、
請求項3に記載のデータ収集装置。
【請求項5】
前記評価部は、前記評価対象のホストに所属する参照情報のパス構造に基づいて前記参照情報を組分けし、前記参照情報の組ごとに前記評価対象のホストの評価を行う、
請求項1から4のいずれか一項に記載のデータ収集装置。
【請求項6】
前記第3収集部により収集された画像データは、前記第2収集部により収集された前記コンテンツのヘッダ部に含まれるメタ情報に記載された画像データである、
請求項1から5のいずれか一項に記載のデータ収集装置。
【請求項7】
前記第3収集部は、前記第2収集部により収集された前記コンテンツのヘッダ部に含まれるメタ情報に記載された前記画像データの名前情報を収集する、
請求項6に記載のデータ収集装置。
【請求項8】
前記第2収集部により収集されたコンテンツに含まれる所定の文字列に基づいて、前記画像データの対象事物の公式コンテンツの情報を収集する第4収集部をさらに備える、
請求項1から7のいずれか一項に記載のデータ収集装置。
【請求項9】
前記第2収集部は、収集済みのコンテンツが更新されていると判定した場合、該コンテンツを再度収集する、
請求項1から8のいずれか一項に記載のデータ収集装置。
【請求項10】
コンピュータが、
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第1のコンテンツを収集し、
収集された前記第1のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行い、
前記評価の結果に基づいて収集対象のホストを決定し、決定した前記ホストに所属する参照情報と対応する第2のコンテンツを収集し、
収集された前記第2のコンテンツと関連付けられた画像データを収集する、
データ収集方法であって、
前記評価対象のホストの評価を行うことは、収集された前記第1のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行うことを含む、
データ収集方法。
【請求項11】
コンピュータに、
ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応する第1のコンテンツを収集させ、
収集された前記第1のコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行わせ、
前記評価の結果に基づいて収集対象のホストを決定させ、決定された前記ホストに所属する参照情報と対応する第2のコンテンツを収集させ、
収集された前記第2のコンテンツと関連付けられた画像データを収集させる、
プログラムであって、
前記評価対象のホストの評価を行わせることは、収集された前記第1のコンテンツと関連付けられた画像データの総数と、前記互いに異なる画像データの数との比に基づいて、前記評価対象のホストの評価を行わせることを含む、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ収集装置、データ収集方法、およびプログラムに関する。
【背景技術】
【0002】
従来、ウェブから文章や画像等のデータを収集し、収集したデータを自動的にデータベース化するクローラが知られている(例えば、特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なホストのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。ウェブ情報データベースに蓄積されたデータは、ウェブページの検索サービス等に利用される。
【0003】
一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015−167039号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワードに関連するテキストデータや画像データを検索結果とともに出力するように運用されている場合がある。このような機能を実現するために、エンティティと、該エンティティに関連するテキストデータや画像データとを互いに関連付けて記憶したデータベースが用いられる場合がある。
【0006】
上記のようなデータベースの拡充のため、特に、エンティティの画像データを効率的に収集する手法が求められている。また、日本語コンテンツの拡充のため、日本語のページの割合が高いホストを優先的にクロールする手法が求められている。
【0007】
本発明は、このような事情を考慮してなされたものであり、データ収集の効率を向上させることが可能なデータ収集装置、データ収集方法、およびプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0008】
本発明の一態様は、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備える、データ収集装置である。
【発明の効果】
【0009】
本発明の一態様によれば、データ収集の効率を向上させることが可能である。
【図面の簡単な説明】
【0010】
図1】実施形態に係るクロールサーバ1の使用環境を示す図である。
図2】実施形態に係るナレッジグラフの一例を示す図である。
図3】実施形態に係るクロールサーバ1の構成を示す機能ブロック図である。
図4】実施形態に係るクロールサーバ1のホスト評価処理の流れの一例を示すフローチャートである。
図5】実施形態に係るURLリスト情報D1の一例を示す図である。
図6】実施形態に係るコンテンツ情報D2の一例を示す図である。
図7】実施形態に係るホスト情報D3の一例を示す図である。
図8】実施形態に係るパス構造を考慮してホスト評価を行った場合のホスト情報D3aの一例を示す図である。
図9】実施形態に係るクロールサーバ1の画像収集処理の流れの一例を示すフローチャートである。
図10】実施形態に係る画像情報D4の一例を示す図である。
【発明を実施するための形態】
【0011】
[概要]
以下、図面を参照して、データ収集装置、データ収集方法、およびプログラムの実施形態について説明する。本実施形態では、データ収集装置がクロールサーバであるものとして説明する。クロールサーバとは、インターネット等のネットワークを介してアクセス可能な複数の装置からデータを自動的に収集するサーバである。本実施形態のクロールサーバは、エンティティの代表画像の収集に関してホストの評価を行い、評価の高い優良なホストに集中してクロールを行う。
【0012】
クロールサーバは、1つのプロセッサによって実現されてもよく、複数のプロセッサが分散処理することで実現されてもよい。本実施形態において、ホストとは、ネットワークを介してアクセス可能な装置に格納されたデータを参照するための参照情報(例えば、URL)の一部を構成して複数の参照情報の群を特定する所属情報をいう。以下、実施形態について説明する。
【0013】
[全体構成]
図1は、本実施形態のクロールサーバ1(データ収集装置)の使用環境を示す図である。クロールサーバ1は、画像データおよびHTML(HyperText Markup Language)データの少なくとも一方を含むページデータ(コンテンツ)を、ネットワークNWを介してアクセス可能な複数の外部サーバS1(装置)から収集する。コンテンツは、外部サーバS1に格納されており、ブラウザによって閲覧可能なページ単位のデータである。ただし、コンテンツは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータでもよい。ネットワークNWは、インターネットやWAN(Wide Area Network)、LAN(Local Area Network)等を含む。
【0014】
[ナレッジグラフの構成]
本実施形態において、クロールサーバ1により収集されたデータは、例えば、ナレッジグラフを生成するために用いられる。ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。
【0015】
図2は、本実施形態に係るナレッジグラフの一例を示す図である。ナレッジグラフにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
【0016】
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。
【0017】
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。
【0018】
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。
【0019】
ナレッジグラフは、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。
【0020】
図2において示される例のナレッジグラフは、野球選手Aである「エンティティE1」と、野球チームBである「エンティティE2」とが、「所属チーム」というプロパティ名のクラスに属する。また、野球選手Aである「エンティティE1」と、「野球選手AN1」とが、「名前」というプロパティ名のクラスに属する。また、野球選手Aである「エンティティE1」と、野球選手Aの「画像P1」とが、「代表画像」というプロパティ名のクラスに属する。また、野球チームBである「エンティティE2」と、「野球リームBN2」とが、「名前」というプロパティ名のクラスに属する。クロールサーバ1により収集されたデータは、例えば、上記のようなナレッジグラフにおけるエンティティの代表画像として利用される。
【0021】
[クロールサーバの構成]
以下、クロールサーバ1の構成について説明する。図3は、クロールサーバ1の構成を示す機能ブロック図である。クロールサーバ1は、例えば、データ収集部10(第1収集部)と、ホスト評価部20と、画像収集処理部30と、記憶部40とを備える。記憶部40には、例えば、URLリスト情報D1と、コンテンツ情報D2と、ホスト情報D3と、画像情報D4とが記憶されている。
【0022】
URLリスト情報D1には、クロールの対象となる多数のURLのリストが格納されている。URLリスト情報D1は、クロールにより収集されたコンテンツのテキストデータから抽出されたURLがリスト化されたものであってよい。或いは、URLリスト情報D1は、例えば、クロールサーバ1の管理者により手動で設定されるものであってよい。コンテンツ情報D2には、クロールにより収集されたコンテンツの情報が格納されている。ホスト情報D3には、評価対象となるホストの評価結果が格納されている。画像情報D4には、クロールにより収集されたエンティティの代表画像が格納されている。
【0023】
データ収集部10(フェッチャー)は、複数の外部サーバS1からコンテンツを収集(フェッチ)する。収集されるコンテンツには、例えば、HTMLデータおよび画像データが含まれる。データ収集部10は、収集したコンテンツを記憶部40のコンテンツ情報D2に格納する。
【0024】
ホスト評価部20は、コンテンツにおいて特定の情報として設定された特定のタグの有無に基づいてホストの評価を行う。「特定のタグ」は、例えば、OGP(Open Graph Protocol)タグのようなコンテンツの内容を示すテキストを含むタグである。OGPタグは、リンク先のコンテンツのタイトル(以下、OGPタイトル)、リンク先のコンテンツに関する画像データ(以下、OGP画像)のURL、リンク先のコンテンツの概要を示すテキストデータ等がひと纏まりになった情報である。ホスト評価部20は、例えば、このOGPタグに含まれるOGP画像の有無に基づいてホストの評価を行う。
【0025】
OGP画像とは、リンクの代表画像として設定された画像である。このため、OGP画像は、エンティティの代表画像として利用可能な画像に相当しうる。OGP画像は、各コンテンツのメタ情報としてその参照情報(例えば、URL)により指定される。OGP画像は、OGPタグ「<meta property=”og:image” content=”URL”/>により指定される。
【0026】
また、OGP画像は、各コンテンツページのメタ情報として指定されたOGPタグに含まれるOGPタイトルと関連性が高い。このため、このOGPタイトルは、エンティティ名(名前情報)として利用可能な文字列に相当しうる。OGPタイトルは、OGPタグ「<meta property=”og:title” content=”タイトル”/>により指定される。
【0027】
ホスト評価部20は、例えば、サンプリング部21(第1収集部)と、ユニークOGP率算出部23(評価部)と、日本語判定部25(評価部)とを備える。サンプリング部21は、評価対象とするホストに所属するURLを、URLリスト情報D1から抽出する。抽出するURLの数は、任意である。サンプリング部21は、抽出したURLを、データ収集部10に入力する。これにより、データ収集部10は、サンプリング部21から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する。
【0028】
ユニークOGP率算出部23は、データ収集部10により収集されて記憶部40に記憶されたコンテンツを解析する。ユニークOGP率算出部23は、収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、ホストの評価を行う。例えば、ユニークOGP率算出部23は、コンテンツであるHTMLデータの各々のヘッダ部分にOGPタグ(OGP画像)が含まれているか否かを判定する。ユニークOGP率算出部23は、評価対象とするホストごとに、ユニークOGP率を算出する。ユニークOGP率とは、収集されたコンテンツに含まれるOGP画像の多種性をホストごとに評価する指標値である。数多くのOGP画像が収集された場合であっても、OGP画像が互いに重複していると、エンティティ代表画像として利用可能な画像を効率的に増やすことはできない。例えば、ホストを代表する同一のロゴ画像が収集された全てのコンテンツにOGP画像として設定されている場合、エンティティ代表画像として利用可能な画像は1つのみである。このため、本実施形態では、OGP画像の多種性を判断することが可能なユニークOGP率に基づいてホスト評価を行う。ユニークOGP率は、例えば、以下の式(1)により表される。
【0029】
ユニークOGP率
=収集されたOGP画像のユニーク数/収集されたOGP画像の総数・・・式(1)
【0030】
例えば、評価対象とするホストに関して収集されたOGP画像の総数(重複あり)が10であり、このうち、重複を除いたOGP画像のユニーク数が5である場合、ユニークOGP率は0.5(=5/10)となる。ユニークOGP率は、値が大きいほど多種性が高く、ホストの評価が高いことを示し、値が小さいほど多種性が低く、ホストの評価が低いことを示す。
【0031】
収集されたOGP画像が重複しているか否かの判定は、例えば、OGPタグに含まれるOGP画像のリンク先のURLに基づいて行われる。ユニークOGP率算出部23は、このOGPタグに含まれるOGP画像のリンク先のURLの文字列が同一であるOGP画像は、互いに重複していると判定する。ユニークOGP率算出部23は、算出したユニークOGP率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
【0032】
すなわち、ユニークOGP率算出部23は、収集されたコンテンツと関連付けられた画像データの総数と、互いに異なる画像データの数との比に基づいて、ホストの評価を行う。また、ユニークOGP率算出部23は、画像データの総数に対する互いに異なる画像データの数の割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。
【0033】
日本語判定部25は、収集されたコンテンツの各々が日本語のコンテンツ(特定言語コンテンツ)であるか否かを判定する。さらに、日本語判定部25は、評価対象とするホストごとに、日本語コンテンツ率を算出する。日本語コンテンツ率とは、収集されたコンテンツに含まれる日本語コンテンツの割合を示す指標値である。日本語コンテンツ率は、例えば、以下の式(2)により表される。
【0034】
日本語コンテンツ率
=収集された日本語コンテンツの数/収集されたコンテンツの総数・・・式(2)
【0035】
例えば、評価対象とするホストに関して収集されたコンテンツの総数が10であり、このうち、日本語のコンテンツの数が9である場合、日本語コンテンツ率は0.9(=9/10)となる。日本語コンテンツ率は、値が大きいほど日本語コンテンツの割合が高く、ホストの評価が高いことを示し、値が小さいほど日本語コンテンツの割合が低く、ホストの評価が低いことを示す。
【0036】
収集されたコンテンツが日本語コンテンツであるか否かの判定は、例えば、文字コードや、言語ごとの辞書データ等に基づいて行われる。日本語判定部25は、算出した日本語コンテンツ率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
【0037】
すなわち、日本語判定部25は、収集されたコンテンツの総数と、コンテンツに含まれる所定の言語で記載されている所定言語コンテンツの数との比に基づいて、ホストの評価を行う。また、日本語判定部25は、収集されたコンテンツの総数に対する所定言語コンテンツの割合が大きくなるにつれて評価が高くなるように、ホストの評価を行う。
【0038】
画像収集処理部30は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホストを選択し、選択したホストに所属するURLを集中的にクロールして、エンティティ代表画像となりうる画像を収集する。すなわち、画像収集処理部30は、数多くの種類のOGP画像を収集することが期待されるホストを集中的にクロールする。画像収集処理部30は、例えば、ホスト選択部31(第2収集部)と、画像URL選択部33(第3収集部)とを備える。
【0039】
ホスト選択部31は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良なホスト(以下、優良ホスト)を選択する。例えば、ホスト選択部31は、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークOGP率が所定の閾値以上であるホストを優良ホストとして選択する。例えば、ホスト選択部31は、日本語コンテンツ率が「0.9」以上であり、且つ、ユニークOGP率が「0.95」以上であるホストを優良ホストとして選択する。
【0040】
ホスト選択部31は、URLリスト情報D1から優良ホストに所属するURLを抽出し、データ収集部10に入力する。これにより、データ収集部10は、ホスト選択部31から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集し、コンテンツを記憶部40のコンテンツ情報D2に記憶させる。ホスト選択部31により抽出されるURLの数は任意である。
【0041】
画像URL選択部33は、ホスト選択部31により抽出されたURLに基づいて収集されたコンテンツの各々のヘッダ部分にOGPタグ(OGP画像)が含まれているか否かを判定する。画像URL選択部33は、OGP画像が含まれていると判定した場合、該OGP画像のリンク先のURLを収集対象のURLとして選択し、データ収集部10に入力する。これにより、データ収集部10は、画像URL選択部33から入力されたURLに基づいて、外部サーバS1から画像であるコンテンツを収集する。
【0042】
画像URL選択部33は、OGPタグに含まれているOGPタイトルと、該OGPタグに含まれているOGP画像のリンク先のURLに基づいて収集された画像との組を、記憶部40に記憶された画像情報D4に格納する。画像情報D4に格納されたOGPタイトルは、エンティティ名として利用可能なものである。また、画像情報D4に格納された画像は、エンティティの代表画像として利用可能なものである。
【0043】
クロールサーバ1の各機能部は、例えば、コンピュータにおいて、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
【0044】
クロールサーバ1の記憶部40は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置等により実現される。また、記憶部40の一部または全部は、NASや外部のストレージサーバ等、クロールサーバ1がアクセス可能な外部装置であってもよい。
【0045】
[ホスト評価処理]
以下、クロールサーバ1のホスト評価処理について説明する。図4は、クロールサーバ1のホスト評価処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。
【0046】
以下の例では、URLリスト情報D1が予め記憶部40に記憶されているものとする。図5は、記憶部40に記憶されたURLリスト情報D1の一例を示す図である。図5に示されるように、URLリスト情報D1には、複数のホストに関するURLの情報が含まれている。
【0047】
まず、サンプリング部21は、評価対象とするホストを選択する(S101)。例えば、サンプリング部21は、URLリスト情報D1に含まれるURLを参照して、評価対象とするホストを選択する。或いは、サンプリング部21は、管理者等による入力を受け付ける受付部(不図示)を介して指定されたホストを、評価対象とするホストとして選択してもよい。選択するホストの数は、任意である。
【0048】
次に、サンプリング部21は、評価対象としたホストのうち1つのホストを選択し、該ホストに所属するURLを、URLリスト情報D1から抽出する(S103)。抽出するURLの数は、任意である。次に、サンプリング部21は、抽出したURLをデータ収集部10に入力する。データ収集部10は、サンプリング部21から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する(S105)。データ収集部10は、収集したコンテンツを記憶部40のコンテンツ情報D2に格納する。
【0049】
図6は、データ収集部10により収集されたコンテンツ情報D2の一例を示す図である。図6に示されるように、コンテンツ情報D2には、URLと、該URLに基づいて収集されたコンテンツとが関連付けられて格納されている。コンテンツ情報D2には、例えば、URL「ホスト1/ディレクトリ1/ファイル1」と、コンテンツ「HTMLデータ1」とが関連付けられて格納されている。
【0050】
次に、ユニークOGP率算出部23は、ユニークOGP率を算出する(S107)。ユニークOGP率算出部23は、算出したユニークOGP率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
【0051】
次に、日本語判定部25は、コンテンツの各々が日本語コンテンツであるか否かを判定し、日本語コンテンツ率を算出する(S109)。日本語判定部25は、算出した日本語コンテンツ率を、記憶部40に記憶されたホスト情報D3に、評価対象のホストと関連付けて格納する。
【0052】
図7は、ホスト情報D3の一例を示す図である。図7に示されるように、ホスト情報D3には、評価対象のホストと、ユニークOGP率算出部23により算出されたユニークOGP率と、日本語判定部25により算出された日本語コンテンツ率とが関連付けられて格納されている。ホスト情報D3には、例えば、ホスト「ホスト1」と、ユニークOGP率「0.7」と、日本語コンテンツ率「1.0」とが関連付けられて格納されている。
【0053】
尚、ユニークOGP率算出部23は、評価対象のホストに属するURLのパス構造を考慮して、ユニークOGP率を算出してもよい。また、日本語判定部25は、評価対象のホストに属するURLのパス構造を考慮して、日本語コンテンツ率を算出してもよい。このような評価対象のホストに属するURLのパス構造を考慮した評価を行うことで、ホスト評価の精度を向上させることができる。
【0054】
図8は、評価対象のホストに属するURLのパス構造を考慮してホスト評価を行った場合のホスト情報D3aの一例を示す図である。図8に示されるように、ホスト情報D3aには、パス構造と、ユニークOGP率と、日本語コンテンツ率とが関連付けられて格納されている。ホスト情報D3aには、例えば、パス構造「ホスト1/ディレクトリ1/」直下に配置されたコンテンツのユニークOGP率が「0.8」であり、日本語コンテンツ率が「1.0」であるデータが格納されている。また、ホスト情報D3aには、例えば、パス構造「ホスト1/ディレクトリ3/」直下に配置されたコンテンツのユニークOGP率が「0.5」であり、日本語コンテンツ率が「0.9」であるデータが格納されている。このように、同一のホストであっても、パス構造に応じて評価結果に優劣をつけることができる。ホスト情報D3aの例では、「ホスト1/ディレクトリ3/」直下に配置されたコンテンツよりも、「ホスト1/ディレクトリ1/」直下に配置されたコンテンツのユニークOGP率が高いことがわかる。このように、ユニークOGP率算出部23は、ホストに所属する参照情報のパス構造に基づいて参照情報を組分けし、参照情報の組ごとにホストの評価を行う。
【0055】
次に、サンプリング部21は、評価対象とする全てのホストに対する評価が完了したか否かを判定する(S111)。サンプリング部21は、評価対象とする全てのホストに対する評価が完了していないと判定した場合、評価対象とする1つのホストを選択し、S103以降の処理を繰り返す。一方、サンプリング部21は、評価対象とする全てのホストに対する評価が完了したと判定した場合、本フローチャートの処理を終了する。
【0056】
[画像収集処理]
以下、クロールサーバ1の画像収集処理について説明する。図9は、クロールサーバ1の画像収集処理の流れの一例を示すフローチャートである。本フローチャートによる処理は、日次、週次等、所定のタイミングで実施されるバッチ処理により実行されてよい。
【0057】
まず、ホスト選択部31は、ホスト評価部20による評価結果に基づいて、エンティティ代表画像の収集に適した優良ホストを選択する(S201)。例えば、ホスト選択部31は、記憶部40に記憶されたホスト情報D3を参照し、日本語コンテンツ率が所定の閾値以上であり、且つ、ユニークOGP率が所定の閾値以上であるホストを優良ホストとして選択する。
【0058】
次に、ホスト選択部31は、選択した優良ホストのうち1つのホストを選択し、該ホストに所属するURLを、URLリスト情報D1から抽出する(S203)。抽出するURLの数は、任意である。尚、図9に示されるように、パス構造を考慮したホスト評価の結果が得られている場合には、評価の高い特定のパス構造を持つURLを優先的に抽出するようにしてもよい。
【0059】
次に、ホスト選択部31は、抽出したURLをデータ収集部10に入力する。データ収集部10は、ホスト選択部31から入力されたURLに基づいて、複数の外部サーバS1からコンテンツを収集する(S205)。
【0060】
次に、画像URL選択部33は、収集されたコンテンツの各々のヘッダ部分にOGP画像が含まれているか否かを判定する(S207)。画像URL選択部33は、OGP画像が含まれていると判定した場合、該OGP画像のリンク先のURLを収集対象のURLとして選択し、データ収集部10に入力する。これにより、データ収集部10は、画像URL選択部33から入力されたURLに基づいて、外部サーバS1からコンテンツ(画像)を収集する(S209)。一方、画像URL選択部33は、OGP画像が含まれていないと判定した場合、上記の画像の収集は行わない。
【0061】
次に、画像URL選択部33は、OGPタグに含まれているOGPタイトルと、該OGPタグに含まれているOGP画像のリンク先のURLに基づいて収集された画像との組を、記憶部40に記憶された画像情報D4に格納する(S211)。図10は、画像情報D4の一例を示す図である。図10に示されるように、画像情報D4には、OGPタグのOGPタイトルに含まれる文字列から取得されたタイトル(エンティティ名)と、OGPタグのOGP画像のリンク先のURLに基づいて収集された画像とが関連付けられて格納されている。画像情報D4には、例えば、タイトル「エンティティ1」と、画像「画像データ10」とが関連付けられて格納されている。
【0062】
次に、ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了したか否かを判定する(S213)。ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了していないと判定した場合、未処理の1つのホストを選択し、S203以降の処理を繰り返す。一方、ホスト選択部31は、優良ホストとして選択した全てのホストに対する処理が完了したと判定した場合、本フローチャートの処理を終了する。
【0063】
以上において説明した実施形態によれば、ネットワークを介してアクセス可能な装置から、評価対象のホストに所属する参照情報と対応するコンテンツを収集する第1収集部と、前記第1収集部により収集されたコンテンツと関連付けられた互いに異なる画像データの数に基づいて、前記評価対象のホストの評価を行う評価部とを備えることで、データ収集の効率を向上させることができる。
【0064】
尚、上記の実施形態では、エンティティ代表画像を収集する例について説明したが、エンティティの公式ページ(公式コンテンツ)の情報を収集するようにしてもよい。例えば、クロールサーバ1に、データ収集部10により収集されたコンテンツから公式ページの情報を収集する収集部(第4収集部、不図示)を設けるようにしてもよい。例えば、クロールサーバ1は、収集されたコンテンツのHTMLデータに、リンク名に「公式ページ」、「オフィシャルページ」等の所定の文字列を含むリンクが存在する場合、このリンクのリンク先のURLを、エンティティの所在情報として収集する。尚、さらに、クロールサーバ1は、このリンク先の公式ページからエンティティの情報をさらに収集するようにしてもよい。
【0065】
また、クロールサーバ1は、過去に収集した収集済みのコンテンツが更新されている場合には、再度収集するようにしてもよい。例えば、クロールサーバ1は、過去に収取したコンテンツと、最新のコンテンツとを比較して差異がある場合には、最新のコンテンツを記憶部40に格納するようにしてもよい。差異の有無の判定は、例えば、ファイルサイズの違いや、テキスト比較の結果に基づいて行なわれてよい。また、クロール対象のサイトのサイトマップに更新頻度の情報が含まれている場合には、クロールサーバ1は、この更新頻度の情報に基づいて、コンテンツの再収集を行うようにしてもよい。
【0066】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0067】
1…クロールサーバ、10…データ収集部、20…ホスト評価部、21…サンプリング部、23…ユニークOGP率算出部、25…日本語判定部、30…画像収集処理部、31…ホスト選択部、33…画像URL選択部、40…記憶部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10