特許第6850270号(P6850270)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許6850270情報収集装置、情報収集方法、およびプログラム
<>
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000002
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000003
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000004
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000005
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000006
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000007
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000008
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000009
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000010
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000011
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000012
  • 特許6850270-情報収集装置、情報収集方法、およびプログラム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6850270
(24)【登録日】2021年3月9日
(45)【発行日】2021年3月31日
(54)【発明の名称】情報収集装置、情報収集方法、およびプログラム
(51)【国際特許分類】
   G06F 16/951 20190101AFI20210322BHJP
   G06F 16/182 20190101ALI20210322BHJP
【FI】
   G06F16/951
   G06F16/182
【請求項の数】10
【全頁数】15
(21)【出願番号】特願2018-29480(P2018-29480)
(22)【出願日】2018年2月22日
(65)【公開番号】特開2019-144924(P2019-144924A)
(43)【公開日】2019年8月29日
【審査請求日】2020年3月6日
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100181124
【弁理士】
【氏名又は名称】沖田 壮男
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】森本 浩介
(72)【発明者】
【氏名】永井 隆広
(72)【発明者】
【氏名】川村 佳史
(72)【発明者】
【氏名】内田 直樹
【審査官】 鹿野 博嗣
(56)【参考文献】
【文献】 特開2002−073639(JP,A)
【文献】 特開2002−007257(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/951
G06F 16/182
(57)【特許請求の範囲】
【請求項1】
複数の依頼元から、指定したアクセス先からネットワークを介して情報を取得することを求めるリクエストを取得する取得部と、
前記取得部により取得されたリクエストに基づいて前記複数の依頼元ごとの情報の収集を行う処理度合を、前記複数の依頼元に関して平滑化する制御部と、
前記制御部により平滑化された処理度合で、前記複数の依頼元に指定されたアクセス先から情報を収集する収集部と、
を備える情報収集装置。
【請求項2】
前記制御部は、前記指定したアクセス先が同一または同一のグループに属するリクエストを処理する処理度合を、前記複数の依頼元に関して平滑化する、
請求項1に記載の情報収集装置。
【請求項3】
前記制御部は、前記アクセス先にアクセスする頻度を均一にすること、所定時間において前記アクセス先にアクセスする回数を均一にすること、または前記頻度と前記回数とのうち一方または双方を前記複数の依頼元について所定の範囲内に収めること、で前記処理度合を平滑化する、
請求項2に記載の情報収集装置。
【請求項4】
前記制御部は、前記取得部により取得されたリクエストと前記リクエストを依頼した依頼元とを対応付けた情報を第1記憶領域に記憶させ、前記第1記憶領域に記憶させた前記リクエストのうちから、前記複数の依頼元ごとの情報の収集を行う処理度合が、前記複数の依頼元に関して平滑化されるように前記リクエストを抽出し、抽出した前記リクエストを第2記憶領域に記憶させ、
前記収集部は、第2記憶領域に記憶された前記リクエストに基づいて情報を収集する、
請求項1から3のうちいずれか1項に記載の情報収集装置。
【請求項5】
前記収集部は、前記収集した情報を識別する識別情報を識別情報記憶領域に記憶させ、前記収集した情報と前記識別情報とを対応付けたコンテンツ情報をコンテンツ記憶領域に記憶させ、
前記識別情報を前記リクエストに対応付けて利用者に提供する提供部を更に備える、
請求項1から4のうちいずれか1項に記憶の情報収集装置。
【請求項6】
前記制御部は、更に前記アクセス先に対応付けられたアクセス制限に関する情報を参照し、前記リクエストに応じてアクセス先にアクセスするタイミングを調整する、
請求項1から5のうちいずれか1項に記載の情報収集装置。
【請求項7】
前記収集部は、前記リクエストに応じてアクセス先にアクセスしたことを示す第1情報、または前記リクエストに対応する情報をアクセス先から収集したことを示す第2情報を前記アクセス制限に関する情報に反映させ、
前記制御部は、更に前記アクセス制限に関する情報を参照し、前記リクエストに応じてアクセス先にアクセスするタイミングを調整する、
請求項6に記載の情報収集装置。
【請求項8】
依頼元はサービスである、
請求項1から7のうちいずれか1項に記載の情報収集装置。
【請求項9】
コンピュータが、
複数の依頼元から、指定したアクセス先からネットワークを介して情報を取得することを求めるリクエストを取得し、
前記取得されたリクエストに基づいて前記複数の依頼元ごとの情報の収集を行う処理度合を、前記複数の依頼元に関して平滑化し、
前記平滑化された処理度合で、前記複数の依頼元に指定されたアクセス先から情報を収集する、
情報収集方法。
【請求項10】
コンピュータに、
複数の依頼元から、指定したアクセス先からネットワークを介して情報を取得することを求めるリクエストを取得させ、
前記取得されたリクエストに基づいて前記複数の依頼元ごとの情報の収集を行う処理度合を、前記複数の依頼元に関して平滑化させ、
前記平滑化された処理度合で、前記複数の依頼元に指定されたアクセス先から情報を収集させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報収集装置、情報収集方法、およびプログラムに関する。
【背景技術】
【0002】
従来、ウェブから文章や画像等の情報を収集するクローラが知られている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2012−69171号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来の技術では、リクエストを受け付けた順に収集が行われる場合があり、特定の依頼元のリクエストに対する情報を収集する場合があった。
【0005】
本発明は、このような事情を考慮してなされたものであり、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる情報収集装置、情報収集方法、およびプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本発明の一態様は、複数の依頼元から、指定したアクセス先からネットワークを介して情報を取得することを求めるリクエストを取得する取得部と、前記取得部により取得されたリクエストに基づいて前記複数の依頼元ごとの情報の収集を行う処理度合を、前記複数の依頼元に関して平滑化する制御部と、前記制御部により平滑化された処理度合で、前記複数の依頼元に指定されたアクセス先から情報を収集する収集部とを備える情報収集装置である。
【発明の効果】
【0007】
本発明の一態様によれば、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【図面の簡単な説明】
【0008】
図1】情報収集システム1の構成の一例を示す図である。
図2】情報収集装置30の機能構成の一例を示す図である。
図3】第1収集対象情報52の内容の一例を示す図である。
図4】アクセス制限情報60の内容の一例を示す図である。
図5】メタ情報群の内容の一例を示す図である。
図6】情報収集装置30により実行される処理の流れの一例を示すフローチャートである。
図7】アクセス制限情報60の内容の他の一例を示す図である。
図8】第2収集対象情報56の内容の一例を示す図である。
図9】情報収集装置30により実行される処理の流れの一例を示すフローチャートである。
図10】制御部34および収集部36により実行されるアクセス制限情報60の更新処理等の流れの一例を示すフローチャートである。
図11】比較例の情報収集装置の処理内容の一例を示す図である。
図12】本実施形態の情報収集装置30の処理内容の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照し、本発明の情報収集装置、情報収集方法、およびプログラムの実施形態について説明する。情報収集装置は、一以上のプロセッサによって実現される。情報収集装置は、複数の依頼元から、指定したアクセス先からネットワークを介して情報を取得することを求めるリクエストを取得し、指定されたアクセス先から情報(コンテンツ)を収集する。一つの依頼元(サービス)は、一群のサービスを提供している提供者である。物理的な側面で言えば、依頼元は、サービス提供者の運営するサーバ装置である。一つのサービスに対応するサーバ装置は、一つであってもよいし、複数であってもよい。
【0010】
情報収集装置は、取得されたリクエストに基づいて複数の依頼元ごとの情報の収集を行う処理度合を、複数の依頼元に関して平滑化する。そして、情報収集装置は、平滑化された処理度合で、複数の依頼元に指定されたアクセス先から情報(コンテンツ)を収集する。これにより、特定の依頼のリクエストを集中的に処理することを抑制でき、複数の依頼元のリクエストに対する情報を均一に収集することができる。この結果、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【0011】
<第1実施形態>
[構成]
図1は、情報収集システム1の構成の一例を示す図である。情報収集システム1は、例えば、一以上のサーバ装置10(図示する例では10−1〜10−N)と、一以上のアクセス先サーバ装置20(図示する例では20−1〜20−n)と、情報収集装置30とを備える。上記の「N」および「n」は任意の自然数である。なお、サーバ装置10は、仮想サーバであってもよい(例えば複数のサーバ装置10が、1台のサーバ装置で構築されていてもよい。)。また、サーバ装置10は、ウェブサーバ(あるいはアプリサーバ)としても機能することができる。また、アクセス先サーバ装置20は、ウェブサーバ(あるいはアプリサーバ)である。サーバ装置10は、「依頼元」の一例である。アクセス先サーバ装置20は、「アクセス先」の一例である。
【0012】
上記のサーバ装置10、アクセス先サーバ装置20、および情報収集装置30は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
【0013】
サーバ装置10は、情報収集装置30に収集させたい情報を示す収集リクエストを情報収集装置30に送信する。収集リクエストは、例えば、HTTP(Hypertext Transfer Protocol(ハイパーテキスト・トランスファー・プロトコル)などのプロトコルで生成され、URL(Uniform Resource Locator)などの参照情報を含む。情報収集装置30が、サーバ装置10から取得した収集リクエストに応じた情報を収集するために、アクセス先サーバ装置20に送信するリクエストを、以下、「提供リクエスト」と称する場合がある。
【0014】
アクセス先サーバ装置20は、情報収集装置30により送信された提供リクエストに応じて、その提供リクエストに応じたコンテンツを情報収集装置30に提供する。上記のコンテンツは、特定のテキストを示す情報や画像、動画等である。
【0015】
図2は、情報収集装置30の機能構成の一例を示す図である。情報収集装置30は、例えば、取得部32と、制御部34と、収集部36と、提供部38と、ゲートウェイ40とを備える。取得部32、制御部34、収集部36、および提供部38は、例えば、CPU等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が情報収集装置30のドライブ装置に装着されることで記憶装置にインストールされてもよい。
【0016】
また、情報収集装置30は、例えば、第1記憶部50と、第2記憶部54と、第3記憶部58と、第4記憶部62と、第5記憶部66と、第6記憶部70とを備える。これらの記憶部は、例えば、ROM(Read Only Memory)、フラッシュメモリ、SDカード、RAM(Random Access Memory)、HDD(Hard Disc Drive)、レジスタ等によって実現される。なお、第1記憶部50〜第6記憶部70のうち任意の記憶部(記憶領域)は、統合されてもよい。例えば、第4記憶部64〜第6記憶部70は、統合され、一つの記憶装置に含まれてもよい。また、第1記憶部50、第2記憶部54、第3記憶部58、第4記憶部62、第5記憶部66、第6記憶部70には、それぞれ、第1収集対象情報52、第2収集対象情報56、アクセス制限情報60、メタ情報群64、メタ情報群68、コンテンツ情報72が記憶されている。これらの各情報の詳細については後述する。
【0017】
取得部32は、サーバ装置10により送信された収集リクエストを取得し、取得した収集リクエストを第1収集対象情報52として第1記憶部50に記憶させる。また、取得部32は、収集リクエストを取得した場合、収集リクエストを取得したことを示すレスポンスを、依頼元の(収集リクエストを送信した)サーバ装置10に送信する。なお、情報処理装置30は、サーバ装置10の収集リクエストに依らずに能動的にアクセス先サーバ装置20からコンテンツを収集し、収集したコンテンツをサーバ装置10に提供してもよい。
【0018】
図3は、第1収集対象情報52の内容の一例を示す図である。第1収集対象情報52は、各サーバ装置10から送信された収集リクエストを含む。例えば、収集リクエストは、サービスごと列を分けて管理される。1つの収集リクエストは、例えば、収集リクエストの識別情報、アクセス先、およびサービス(依頼元のサーバ装置)の識別情報が対応付けられた情報である。アクセス先とは、例えば、IP(Internet Protocol)アドレスや、ドメインを示す情報などである。図3の例では、サービスA(サーバ装置10−1)、サービスB(サーバ装置10−2)、およびサービスC(サーバ装置10−3)の収集リクエストが管理されている。
【0019】
また、図3の例では、最初に、サービスAが、アクセス先「aaa.aaa」から情報を取得することを求める収集リクエストを連続して情報収集装置30に送信し、次に、サービスBが、他のアクセス先から情報を取得することに優先して、アクセス先「aaa.aaa」から情報を取得することを求める収集リクエストを単発で情報収集装置30に送信し、次に、サービスBが、アクセス先「aaa.aaa」の次に優先してアクセス先「bbb.bbb」から情報を取得することを求める収集リクエストを単発で情報収集装置30に送信し、次に、サービスCが、サービスBと同じように収集リクエストを情報収集装置30に送信したものとする(図中、(1)〜(9)は、取集リクエストが送信された順である)。
【0020】
制御部34は、アクセス制限情報60を参照し、第1収集対象情報52を用いて第2収集対象情報56を生成する。生成された第2収集対象情報56は、第2記憶部54に記憶される。例えば、制御部34は、処理する対象の収集リクエストについて、サービス間で処理度合が均等になるように収集リクエストを選択して、第2収集対象情56を生成する。すなわち、制御部34は、収集リクエストに基づいて複数の依頼元ごとの情報の収集を行う処理度合を、複数の依頼元に関して平滑化する。
【0021】
図4は、アクセス制限情報60の内容の一例を示す図である。アクセス制限情報60には、アクセス先の情報、提供リクエストが最後に送信された時刻(または提供リクエストに応じてコンテンツが最後に収集された時刻)、および処理の状態が互いに対応付けられて記憶されている。処理の状態とは、提供リクエストが送信され、その提供リクエストに基づいてコンテンツを収集する処理が完了している状態、処理中の状態、或いは処理を開始するのを待機している状態(提供リクエストを送信することを待機している情報)である。なお、処理の状態は、複数の提供リクエストが送信されている場合、提供リクエストごとに規定されている。
【0022】
上記の提供リクエストが最後に送信された時刻、および処理の状態は、収集部36により送信された情報に基づいて生成される。収集部36は、例えば、提供リクエストを送信した時刻、または提供リクエストをアクセス先サーバ装置20に送信し、その送信によってコンテンツを収集した時刻を示す情報を第3記憶部58に提供する。これにより、上述した提供リクエストが最後に送信された時刻、および処理の状態を示す情報が生成される。
【0023】
また、制御部34は、第3記憶部60のアクセス制限情報60を参照して、取得した収集リクエストのアクセス先に提供リクエストを送信している情報(処理中)であるか否かを判定する。制御部34は、処理中でない場合に、収集リクエストを第2収集対象情報56に含め、第2収取対象情報56を更新する。また、例えば、制御部34は、アクセス制限情報60を参照して、アクセス先サーバ装置20(例えばアクセス先「aaa.aaa〜ddd.ddd」)に送信される予定の提供リクエスト(待機中の提供リクエスト)の数が所定数以上存在する場合、待機中の提供リクエストを第2収集対象情報56から第1収集対象情報52に戻す処理を実行してもよい。
【0024】
収集部36は、第2収集対象情報56から収集リクエストを取得し、取得した収集リクエストに対応する提供リクエストを、ネットワークを介してアクセス先サーバ装置20に送信し、アクセス先サーバ装置20からから情報を収集する。収集部36は、収集した情報をコンテンツ情報72として第6記憶部70に記憶させる。コンテンツ情報72は、収集されたコンテンツの内容、コンテンツの内容を識別するためのメタ情報、および収集リクエストが互いに対応付けられた情報である。
【0025】
また、収集部36は、収集した情報のうち、メタ情報と収集リクエストの識別情報等とを互いに対応付けたメタ情報群64を第4記憶部62に記憶させる。また、収集部36は、メタ情報群68を第5記憶部66に記憶させる。メタ情報群68は、メタ情報群64と同様の情報である。以下、メタ情報群64とメタ情報群68とを、特段区別しない場合は、単に「メタ情報群」と称する場合がある。
【0026】
図5は、メタ情報群の内容の一例を示す図である。メタ情報群には、収集リクエストの識別情報に対して、アクセス先の情報、メタ情報、収集リクエストの取得時刻、および収集リクエストに対するコンテンツの収集時刻が互いに対応付けられた情報である。また、メタ情報群には、上記の情報の他に、コンテンツに含まれる文字コードや、コンテンツの解析結果等が含まれる。コンテンツの解析結果とは、例えば、OGP(Open Graph Protocol)が設定されているかを示す情報等である。
【0027】
提供部38は、例えば、サーバ装置10の要求に応じて、メタ情報群64を、リクエストを送信したサーバ装置10に送信する。
【0028】
メタ情報群68は、そのメタ情報群の取得を要求する収集リクエストを送信したサーバ装置10に送信される。すなわちメタ情報群68は、サーバ装置10の要求がない場合であっても、収集リクエストを送信したサーバ装置10に送信される。メタ情報群68が提供されるサーバ装置10は、予めメタ情報群68が送信されることが設定されたサーバ装置10である。
【0029】
ゲートウェイ40は、収集部36の指示に基づいて、アクセス先サーバ装置20からコンテンツ情報を取得する。情報収集システム1において、ゲートウェイ40は省略されてもよい。
【0030】
[フローチャート(コンテンツの収集処理「その1」)]
図6は、情報収集装置30により実行される処理の流れの一例を示すフローチャートである。なお、本フローチャートでは、収集リクエストのアクセス先が同一であるものとして説明する。
【0031】
まず、取得部32が、収集リクエストを取得したか否かを判定する(S1)。収集リクエストを取得した場合、制御部34が、取得した収集リクエストを第1収集対象情報52に追加する(S2)。次に、制御部34は、第1収集対象情報52から収集リクエストを取得する(S3)。次に、第3記憶部60のアクセス制限情報60を参照して、取得した収集リクエストのアクセス先に提供リクエストを送信している状態(処理中)であるか否かを判定する(S4)。処理中である場合、上記のS2の処理に戻る。この場合、S2では、前回取得した収集リクエストを取得してもよいし、前回とは異なる収集リクエストを取得してもよい。異なる収集リクエストとは、例えば、アクセス先が異なる収集リクエストや、前回とは異なるサーバ装置10の収集リクエストである。
【0032】
処理中でない場合、制御部34は、S3で取得した収集リクエストを用いて第2収集対象情報56を生成する(S5)。次に、収集部36が、生成された第2収集対象情報56から収集リクエストを取得し、取得した収集リクエストに対応する提供リクエストをアクセス先サーバ装置20に送信する(S6)。
【0033】
次に、収集部36は、提供リクエストを送信したアクセス先サーバ装置20から提供リクエストに対応するコンテンツ情報を取得し、取得したコンテンツ情報とメタ情報とを対応付けた情報を生成する(S7)。そして、収集部36は、コンテンツ情報を第6記憶部70にコンテンツ情報として記憶させ、メタ情報を第4記憶部62および第5記憶部66にメタ情報64、68として記憶させる(S8)。これにより本フローチャートの1ルーチンの処理が終了する。
【0034】
なお、次のルーチンでは、制御部34は、サービスの収集リクエストが均等に処理されるように、前回取得した収集リクエストを送信したサービス(例えばサービスA)とは異なるサービス(例えばサービスB)により送信された収集リクエストを取得する。
【0035】
以上説明した第1実施形態によれば、制御部34が、処理する対象の収集リクエストについて、サービス間で処理度合が均等になるように収集リクエストを選択して、第2収集対象情56を生成することにより、各サーバ装置10の収集リクエストに対してコンテンツが偏って収集されることを抑制し、各サーバ装置10の収集リクエストに対してコンテンツが均一に収集される。この結果、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【0036】
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、第1実施形態のアクセス制御情報60とは異なるアクセス制御情報60Aを有する。第2実施形態の制御部34は、アクセス制御情報60Aを参照して、処理を行う。
【0037】
図7は、アクセス制限情報60Aの内容の他の一例を示す図である。アクセス制限情報60Aには、アクセス先の情報、アクセス先にアクセスする際の制限を示すアクセス基準情報、提供リクエストが最後に送信された時刻(または提供リクエストに応じてコンテンツが最後に収集された時刻)、および処理の状態が互いに対応付けられて記憶されている。
【0038】
アクセス基準情報は、例えば、単位時間あたりにアクセス先がアクセスを許容できると推定される回数や、アクセス可能またはアクセスを避けるべきであると推定される時間帯等が規定された情報である。アクセス基準情報は、上記の他、任意の規定でよく、例えば、処理の完了した時刻から所定時間が経過していることであってもよい。
【0039】
また、例えば、制御部34は、アクセス制限情報60Aの提供リクエストが最後に送信された時刻、および処理の状態を示す情報が収集部36により更新された場合、更新結果に基づいて、第1収集対象情報52を用いて第2収集対象情報56を生成したり、修正したりする(詳細は図8参照)。
【0040】
図8は、第2収集対象情報56の内容の一例を示す図である。第2収集対象情報56は、第1収集対象情報52の収集リクエストが、複数の依頼元に関して平滑して処理されるように規定された情報である。すなわち、制御部34は、複数の依頼元ごとの情報の収集を行う処理度合を、複数の依頼元に関して平滑化するために、第2収集対象情報56を生成する。また、上記の複数の依頼元のリクエストは、指定されたアクセス先が同一または同一のグループに属するリクエストである。同一のグループに属するとは、アクセス先が厳密には異なるが、予め設定された基準を満たすアクセス先であることや、アクセスする装置が同一であること等である。例えば、アクセス先を示す情報のうち末尾部分のみが異なる場合、それらのアクセス先は同一のグループに属すると決定されてもよい。
【0041】
処理度合を平滑化するとは、複数の依頼元が送信したリクエストについて、アクセス先にアクセスする頻度を均一にすることや、所定時間においてアクセス先にアクセスする回数を均一にすること、頻度と回数とのうち一方または双方を複数の依頼元について所定の範囲内に収めること等である。
【0042】
また、第2収集対象情報56は、アクセス制限情報60Aの制限の範囲内で処理が実行されるように規定された情報である。例えば、制御部34は、アクセス制限情報60Aの制限の範囲内において、収集部36の処理対象とする収集リクエストを第1収集対象情報56の中から抽出し、抽出した収集リクエストを第2収集対象情報56として第2記憶部54に記憶させる。すなわち、制御部34は、アクセス制限情報60Aを参照して、収集リクエストに応じてアクセス先にアクセスするタイミングを調整する。
【0043】
例えば、各時刻(t+1〜t+3)において、アクセス先「aaa.aaa」に送信が許容される提供リクエストは1つであるものとする。この場合、例えば、時刻t+1において、サービスAのアクセス先「aaa.aaa」に対する収集リクエスト、時刻t+2において、サービスBのアクセス先「aaa.aaa」に対する収集リクエスト、時刻t+3において、サービスCのアクセス先「aaa.aaa」に対する収集リクエストが第2収集対象情報56として規定される。
【0044】
また、例えば、一つの時刻おきに、アクセス先「bbb.bbb」に一つの提供リクエストの送信が許容されるものとする。この場合、例えば、時刻t+1において、サービスBのアクセス先「bbb.bbb」に対する収集リクエスト、時刻t+3において、サービスCのアクセス先「bbb.bbb」に対する収集リクエストが第2収集対象情報56として規定される。
【0045】
このように、収集リクエストが、依頼元に関して平滑して処理され、且つ後述するアクセス制限情報60Aの制限の範囲内で処理が実行されるように規定される。
【0046】
収集部36は、第2収集対象情報56に規定された収集のスケジュールに従って、ネットワークを介して指定されたアクセス先から情報を収集する。
【0047】
[フローチャート(コンテンツの収集処理)]
図9は、情報収集装置30により実行される処理の流れの一例を示すフローチャートである。まず、取得部32が、収集リクエストを取得したか否かを判定する(S10)。収集リクエストを取得した場合、制御部34が、取得した収集リクエストを第1収集対象情報52に追加する(S12)。次に、制御部34は、第1収集対象情報52、およびアクセス制限情報60Aに基づいて、第2収集対象情報56を生成する(S14)。
【0048】
次に、収集部36が、生成された第2収集対象情報56に従ってコンテンツを収集する(S16)。次に、収集部36は、一つの収集リクエストに応じたコンテンツを収集したか否かを判定する(S18)。コンテンツを収集した場合、収集部36は、メタ情報群、およびコンテンツ情報72を生成し、生成した情報を各記憶部に記憶させる(S20)。
【0049】
次に、収集部36は、収集リクエストがサーバ装置10のリクエストに依らずにメタ情報群(メタ情報群68)を提供するサーバ装置10により送信されたものであったか否かを判定する(S22)。リクエストに依らずにメタ情報群を提供するサーバ装置10により送信されたものである場合、提供部38が、収集リクエストにより収集されたコンテンツ情報72のメタ情報群68を、収集リクエストを送信したサーバ装置10に提供する(S24)。
【0050】
リクエストに依らずにメタ情報群を提供するサーバ装置10により送信されたものでない場合、収集部36は、収集リクエストにより収集されたコンテンツ情報72のメタ情報群を、メタ情報群64として第4記憶部62に記憶させる(S26)。そして、情報収集装置30は、提供元からの要求に応じて、メタ情報群64を依頼元に提供する。なお、S24またはS26の処理後、収集部36は、第2収集対象情報56を参照し、収集リクエストが存在する場合、コンテンツを収集する処理を継続する。これにより本フローチャートの1ルーチンの処理が終了する。
【0051】
上述したように、収集部36が、第2収集対象情報56に従ってコンテンツを収集することにより、各サーバ装置10の収集リクエストに対してコンテンツが偏って収集されることを抑制し、各サーバ装置10の収集リクエストに対してコンテンツが均一に収集される。この結果、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【0052】
[フローチャート(アクセス制限情報の更新)]
図10は、制御部34および収集部36により実行されるアクセス制限情報60Aの更新処理等の流れの一例を示すフローチャートである。まず、収集部36が、提供リクエストをアクセス先サーバ装置20に送信、またはリクエストに応じてアクセス先サーバ装置20からコンテンツを収集したか否かを判定する(S30)。提供リクエストをアクセス先サーバ装置20に送信、またはリクエストに応じてアクセス先サーバ装置20からコンテンツを収集した場合、収集部36は、アクセス制限情報60Aにおいて、提供リクエストが最後に送信された時刻(または提供リクエストに応じてコンテンツが最後に収集された時刻)、または処理の状態を更新する(S32)。
【0053】
次に、制御部34は、S32の更新結果に基づいて、第2収集対象情報56を生成する(S34)。例えば、制御部34は、アクセス制限情報60Aの処理の状態や提供リクエストの送信時刻と、アクセス基準情報の内容とを比較して、次の提供リクエストをアクセス先サーバ装置20に送信可能であると判定した場合、次の提供リクエストに対応する収集リクエストを第2収集対象情報56に含める。これにより、本フローチャートの1ルーチンの処理が終了する。
【0054】
以上説明した第2実施形態によれば、制御部34が、収集部36により更新されたアクセス制限情報60Aに基づいて、第2収集対象情報56を生成することにより、より効率的に各サーバ装置10の収集リクエストに対するコンテンツが均一に収集される。この結果、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【0055】
[処理結果]
図11は、比較例の情報収集装置の処理内容の一例を示す図である。図12は、本実施形態(第1実施形態および第2実施形態)の情報収集装置30の処理内容の一例を示す図である。図11および図12の上図および下図の横軸は時間を示している。図11および図12の下図の縦軸は収集された情報量を示している。なお、図11および図12の例では、前述した図3で説明したように収集リクエストを送信したものとする。
【0056】
図11の上図に示すように、比較例の情報収集装置は、収集リクエストを収集した順で、収集リクエストに対応する提供リクエストをアクセス先のサーバ装置に送信し、コンテンツを収集する。このため、比較例の情報収集装置は、サーバ装置10−1の収集リクエストに対する提供リクエスト、およびサーバ装置10−2の収集リクエストに対する提供リクエストをアクセス先「aaa.aaa」に送信し、最後にサーバ装置10−3の収集リクエストに対する提供リクエストをアクセス先「aaa.aaa」に送信する。このように、収集リクエストを取得した順に処理が行われると、他の収集リクエストよりも後に収集リクエストを送信したサーバ装置は、図11の下図に示すように他の収集リクエストの処理が終了するまで情報を取得できない場合があった。
【0057】
これに対して、本実施形態(第1および第2実施形態)の情報収集装置30は、収集リクエストに対する処理度合をサーバ装置10−1〜10−3に関して平滑化した処理度合でコンテンツを収集する。例えば、情報収集装置30は、各サーバ装置10から収集した収集リクエストを、各サーバ装置10の収集リクエストが偏って処理されないように、収集リクエストに応じたコンテンツを収集する。
【0058】
例えば、図12の上図に示すように、情報収集装置30は、サーバ装置10−1の収集リクエストに対する提供リクエスト、サーバ装置10−2の収集リクエストに対する提供リクエスト、サーバ装置10−3の収集リクエストに対する提供リクエストを、この順で送信する。この結果、図12の下図に示すように所定の時間Tにおいて、各サーバ装置10の収集リクエストに対して収集されるコンテンツが均一になり、所定のサーバ装置10の収集リクエストに対して集中してコンテンツが収集されることが抑制される。この結果、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【0059】
また、比較例の情報収集装置は、アクセス基準情報に規定されているようなアクセスの制限を考慮せずに収集リクエストを処理するため、特定のアクセス先サーバ装置に許容範囲を超えたアクセスを行う場合があった。
【0060】
これに対して、第2実施形態の情報収集装置30は、アクセス基準情報に規定されているようなアクセスの制限内で収集リクエストを処理するため、特定のアクセス先サーバ装置20に、許容範囲を超えるようなアクセスを行うことをせずに、制限内において効率的にコンテンツを収集することができる。この結果、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【0061】
[その他]
例えば、第1収集対象情報56においてアクセス先が同様の複数の収集リクエストが存在する場合、情報収集装置30(例えば取得部32または制御部34)は、収集リクエストが、収集リクエストに付随する第1所定条件を互いに満たす場合、これらの収集リクエストを一つのリクエストに統合してもよい。統合とは、提供リクエストを共通にすることである。第1所定条件とは、収集リクエストが情報収集装置30により取得された時刻が所定時間以内であることや、収集リクエストに応じてコンテンツが取得される予定の時刻が収集リクエストにおいて規定された時間内であること等である。
【0062】
また、情報収集装置30は、収集リクエストを取得した場合において、その収集リクエストに応じて取得される情報が、既に他の収集リクエストによって収集されている場合、既に他の収集リクエストによって収集されたコンテンツのメタ情報群を通知してもよい。ただし、既に収集されたコンテンツが、取得した収集リクエストに付随する第2所定条件を満たす場合に、上記処理が行われてもよい。第2所定条件とは、既に収集されたコンテンツの収集時刻が所定の時間以内であることである。
【0063】
また、収集リクエストに付随する情報には、優先度が設けられていてもよい。この優先度は、同一のサービスにより送信された収集リクエスト間における優先度である。この場合、情報収集装置30は、同一のサービスにより、他の収集リクエスト(第1収集対象情報56に含まれる収集リクエスト)よりも優先度が高い収集リクエストが送信された場合、優先度が低い収集リクエストよりも優先して、優先度の高い収集リクエストに対するコンテンツを収集部36に収集させる。
【0064】
また、優先度は、複数のサービスにより送信された収集リクエスト間における優先度であってもよい。この場合、情報収集装置30は、優先度が高い収集リクエストが送信された場合、複数のサービスにより送信され、既に取得されている優先度が低い収集リクエストよりも、優先して収集部36にコンテンツを収集させる。
【0065】
また、情報収集装置30が、特定のサービスにより送信された収集リクエスト、または特定のアクセス先にアクセスする収集リクエストを優先的に処理することを決定してもよい。
【0066】
以上説明した実施形態の情報収集装置30によれば、複数の依頼元から、指定したアクセス先からネットワークを介して情報を取得することを求めるリクエストを取得する取得部32と、取得部32により取得されたリクエストに基づいて複数の依頼元ごとの情報の収集を行う処理度合を、複数の依頼元に関して平滑化する制御部34と、制御部34により平滑化された処理度合で、複数の依頼元に指定されたアクセス先から情報を収集する収集部36とを備えることにより、一元管理される複数の依頼元の間で使用感に不公平が生じるのを防止することができる。
【0067】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0068】
1‥情報収集システム、10‥サーバ装置、20‥アクセス先サーバ装置、30‥情報収集装置、32‥取得部、34‥制御部、36‥収集部、38‥提供部、52‥第1収集対象情報、56‥第2収集対象情報、60、60A‥アクセス制限情報、64、68‥メタ情報群、72‥コンテンツ情報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12