(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0014】
−−−システム構成・機能構成例−−−
図1は、本実施形態における情報収集支援装置1000を含むネットワーク構成例を示す図である。
図1に示す情報収集支援装置1000は、ユーザにとって未知の情報を、当
該ユーザにおける情報収集先の知見有無に係わらず、効率的に収集可能とするコンピュータ装置である。
【0015】
本実施形態における情報収集支援装置1000は、情報収集先となるインターネット1500と接続され、また、適宜な回線1510(例:LANなど)を介してクライアント端末1400と通信可能に結ばれている。クライアント端末1400は、情報収集支援装置1000に対して、既知の情報収集先であるインターネット1500上のURLを指定する端末である。このURLは、インターネット1500上で公開されているウェブサイトのURLとなる。
【0016】
こうした情報収集支援装置1000は、
図1にて例示するように、情報収集機能1001、情報分析機能1100、収集先探索機能1200、および、収集先更新機能1300の各機能を実装している。これら各機能は、例えば、
図2に関して後述するプログラム1031がCPU101により実行されることで実装されるものとする。
【0017】
このうち情報収集機能1001は、インターネット1500において情報収集を行う機能に該当する。この情報収集機能1001を構成する収集先登録部1002は、クライアント端末1400から、ユーザ所望の情報が存在する既知のウェブサイトのURLを受け付ける機能を有する。なお、本機能を実現する形態としては、例えば、情報を入力する画面を設置することや設定ファイルを受け付ける形式でもよい。詳細な例は
図3を用いて後述する。
【0018】
また、情報収集機能1001を構成する収集先記憶部1003は、上述の収集先登録部1002から入力されたウェブサイトのURLを記憶する機能を有する。詳細な例は
図3を用いて後述する。
【0019】
また、情報収集部1004は、上述の収集先記憶部1003に記憶されたウェブサイトのURLにアクセスして情報を収集するウェブクローラなどの適宜な機能を有する。
【0020】
また、収集情報記憶部1005は、上述の情報収集部1004が収集した情報を、本システム内部に記憶する機能を有する。
【0021】
続いて、上述の情報分析機能1100は、情報収集機能1001により収集した情報を分析する機能に該当する。この機能の詳細は、
図7の分析処理の例において後述するものとする。
【0022】
情報分析機能1100は、固有表現探索手段登録部1101、情報分解部1102、固有表現探索手段記憶部1103、固有表現探索部1104、意味分類部1105、辞書記憶部1106、文字分解部1107、および、画像分解部1108から構成される。
【0023】
このうち固有表現探索手段登録部1101は、クライアント端末1400から、固有表現を探索する手段の登録を受け付けるものとなる。ここで固有表現とは、所定の意味を持つ品詞のことを指すが、その詳細な例については
図5を用いて後述する。なお、本機能を実現する形態としては、たとえば、情報を入力する画面を設置することや設定ファイルを受け付ける形式でもよい。
【0024】
また、情報分解部1102は、上述の収集情報記憶部1005に記憶されている情報をファイルの形式ごとに分類するものとなる。この情報分解部1102は、情報をファイルの形式ごとに分類するため、例えば、ファイル拡張子の判別による分類を行うものとする。
【0025】
また、固有表現探索手段記憶部1103は、上述の固有表現探索手段登録部1101で受け付けた探索手段を記憶するものとなる。この固有表現探索手段記憶部1103の詳細な例については
図5を用いて後述する。
【0026】
また、固有表現探索部1104は、上述の情報分解部1102により分類されたファイル形式をキーとして、固有表現探索手段記憶部1103に記憶されたファイル形式に基づく探索手段を用いて、情報収集機能1001で収集した情報を入力し、固有表現を探索するものとなる。なお、ファイル形式をキーとして、固有表現探索手段記憶部1103を呼び出すと、複数の手段が呼び出せることがある。この時、固有表現が発見できた段階で次の処理へ進んでも、すべての手段を実行してから次の処理へ進んでもよい。これら処理の詳細な例については
図5を用いて後述するものとする。
【0027】
また、意味分類部1105は、上述の固有表現探索部1104で発見した固有表現を、その固有表現の意味ごとに分類するものとなる。この意味分類部1105は、固有表現を意味ごとに分類するため、後述の辞書記憶部1106に記憶された情報を活用する。
【0028】
また、辞書記憶部1106は、上述の固有表現分類部1105において固有表現を意味ごとに分類するための情報、すなわち辞書情報を記憶するものとなる。当該辞書情報に含まれる情報として、例えば、人名、地名等の固有表現の属性と、当該属性に応じた固有表現に含まれる固有名称例とが対応付けされたものとなる(詳細後述)。こうした辞書記憶部1106にて保持する辞書としては、適宜な外部サービスが提供する辞書ファイルや利用者が用意する辞書ファイルを活用すればよい。
【0029】
また、文字分解部1107は、文字情報から固有表現を抽出するものとなる。この文字分解部1107は、上述の固有表現探索手段記憶部1103から呼び出された際、実行される。また、文字分解部1107は、情報収集機能1001で収集した文字情報から固有表現を抽出するため、例えば、形態素解析などの単語単位で文章、文節等を分解する機能とこうして分解で得た単語を固有表現か否か判定するための辞書情報(上述)が必要となる。なお、この文字分解部1107は、本実施形態において必須の機能ではないが、固有表現に関して詳細な探索が可能となるものである。
【0030】
また、画像分解部1108は、情報収集機能1001で収集した画像情報から固有表現を抽出するものである。この画像分解部1108は、固有表現探索手段記憶部1103から呼び出された際、実行される。また、画像分解部1108は、画像情報から固有表現を抽出するため、例えば、画像ファイルに付随する緯度・経度情報を抽出する機能と、ここで抽出した緯度・経度情報を基に地名を抽出するための地図情報を有している。なお、この画像分解部1108は、本発明にとって必須の機能ではないが、固有表現に関して詳細な探索が可能となるものである。
【0031】
また、収集先探索機能1200は、上述の情報分析機能1100が抽出した固有表現に基づいて、当該固有表現の掲載元たる既知の情報収集先での掲載情報と類似する情報が存在するウェブサイトを探索するものである。この収集先探索機能1200の詳細は、
図9に例示する探索処理例に基づき後述する。
【0032】
この収集先探索機能1200における収集先探索手段登録部1201は、クライアント端末1400から、固有表現の分類ごとに新しい収集先を探索する手段の登録を受け付けるものとなる。なお、この収集先探索手段登録部1201を実現する形態としては、例えば、情報を入力する画面を設置することや設定ファイルを受け付ける形式でもよい。
【0033】
また、収集先探索機能1200における収集先探索手段記憶部1202は、上述の収集先探索手段登録部1201で受け付けた探索手段を記憶するものとなる。この収集先探索手段記憶部1202の詳細は
図7を用いて後述する。
【0034】
また、収集先探索機能1200における収集先探索部1203は、上述の固有表現抽出部1101により抽出された固有表現を検索キーワードとして、その固有表現の分類から収集先探索手段記憶部1202に記憶された分類別の手段を呼び出し、新しい情報収集先たるウェブサイトを探索するものとなる。
【0035】
また、収集先更新機能1300は、上述の収集先探索機能1200にて探索したウェブサイトを、収集先記憶部1003における新たな情報収集先として登録するものとなる。この収集先更新機能1300の詳細は、
図10に例示する探索処理例において後述する。
上述の収集先更新機能1300における関連性判定部1301は、上述の情報先探索部1203により探索したウェブサイトに存在する情報と、収集情報記憶部1005に存在する情報とを比較し、その関連度合いとして一致度を計算するものとなる。
【0036】
また、収集先更新機能1300における収集先更新部1301は、上述の関連性判定部1301により計算した一致度が所定の閾値以上であった場合に、当該ウェブサイトのURLを収集先記憶部1003に登録するものとなる。
【0037】
−−−ハードウェア構成−−−
続いて、本実施形態における情報収集支援装置1000のハードウェア構成例について説明する。
図2は、本実施形態の情報収集支援装置1000のハードウェア構成例を示す図である。
【0038】
情報収集支援装置1000は、演算装置たるCPU101と、揮発性記憶素子で構成あされるメモリ102と、不揮発性記憶素子で構成されるハードディスク等の外部記憶装置103と、インターネット1500やLANなどのネットワーク1600を介して他の装置と通信を行うための通信装置104と、キーボードやマウス等の入力装置105と、モニタやプリンタ等の出力装置106と、読取装置107とが、BUSなどのインターフェイス108を介して接続されている。
【0039】
なお、上述の読取装置107は、ICカードやUSBメモリのような、可搬性を有する記憶媒体120をセットすることで、その格納情報の読み取り動作を行うことができる。
【0040】
本実施形態における情報収集支援装置1000では、
図1で例示した情報収集機能1001、情報分析機能1100、収集先探索機能1200、および、収集先更新機能1300、の各機能を実現するプログラム1031が外部記憶装置103からメモリ102上にロードされ、これをCPU101が実行する。こうしたプログラム1031の実行により、各機能1001〜1300が具現化される。
【0041】
なお、プログラム1031は、上述のように予め外部記憶装置103に格納されている形態であっても良いが、他の形態も想定可能である。例えば、情報収集支援装置1000が、必要に応じて読取装置107を介して記憶媒体120から読み取って利用する形態や、通信装置104を介してネットワーク1600上(インターネット1500やLANなどの適宜なネットワーク)の他の装置から取得する形態を適宜に採用しもよい。
【0042】
−−−データ構造例−−−
続いて、本実施形態の情報収集支援装置1000が用いるテーブル類について説明する。
図3に、本実施形態における収集先テーブル3000のデータ構成例を示す。
図3に例
示する収集先テーブル3000は、収集先記憶部1003が保持するテーブルであり、既知の情報収集先に関する登録情報のリストを示している。本実施形態における情報収集支援装置1000は、この収集先テーブル3000における登録情報を活用して情報を収集することとなる。
【0043】
こうした収集先テーブル3000は、IDをキーとして、収集先、収集頻度、最終収集日、親ID、既出人名、および、既出地名、といった値を対応付けたレコードの集合体となっている。
【0044】
このうち「ID」3001は、情報収集先それぞれを一意に識別するための識別子である。また、「収集先」3002は、対応する情報収集先のURLを示している。従って、情報収集支援装置1000は、当該URLのウェブサイトから情報を収集する。
【0045】
また、「収集頻度」3003は、当該情報収集先から情報収集を行う頻度を示している。後述する最終更新日3004と現在の日時とを比較したときの差が、当該頻度以上ならば、情報収集支援装置1000は、収集先3002から情報を収集する。
【0046】
また、「最終収集日」3004は、当該情報収集先から最後に情報収集した日付を示している。情報収集支援装置1000は、この最終収集日と上述の収集頻度3003とを比較して、情報収集を実行する。
【0047】
また、「親ID」3005は、当該情報収集先を登録する起因となった情報元のID(この情報収集先テーブル3000における他レコードのID)を示している。この親IDが「0」の場合、当該情報収集先は、クライアント端末1400から登録された情報収集先であることを示している。また、親IDは、後述する関連度判定s104の処理で活用される。
【0048】
また、「既出人名」は、当該情報収集先から収集した情報を基に発見した固有表現のうち、属性の分類結果が「人名」に当たる固有表現を示している。この既出人名は、後述する情報分析s102の処理で活用する。
【0049】
また、「既出地名」は、当該情報収集先から収集した情報を基に発見した固有表現のうち、属性の分類結果が「地名」に当たる固有表現を示している。この既出地名は、後述する情報分析s102の処理で活用する。
【0050】
続いて、
図4に本実施形態における固有表現辞書4000のデータ構成例を示す。この固有表現辞書4000は、辞書記憶部1106で保持する辞書データである。
【0051】
この固有表現辞書4000は、情報分析機能1100の固有表現探索部1104が情報収集先のウェブサイトの情報から固有表現を抽出するに際し、所定属性の事物各々に関して存在しうる固有名称を定めた辞書となる。
【0052】
そのデータ構成は、例えば、レコードを一意に特定する「ID」4001をキーに、固有表現に対応した人名、地名等の「事物」4002、および、当該事物に関して存在する固有名称である「固有名称」4003の各値を対応付けたレコードの集合体となっている。
【0053】
図4の例では、例えば、事物「人名」に関して、「田中」、「佐藤」といった固有名称が、規定され、また、事物「地名」に関して、「東京」、「横浜」、「千葉」、「埼玉」といった固有名称が規定され、また、事物「建築物名」に関して、「東京タワー」、「ス
カイツリー」といった固有名称が規定されている。
【0054】
続いて、
図5に本実施形態における固有表現探索手段テーブル5000のデータ構成例を示す。
図5に示す固有表現探索手段テーブル5000は、固有表現探索手段記憶部1103が保持するテーブルである。本実施形態の情報収集支援装置1000は、この固有表現探索手段テーブル5000の登録情報を活用して固有表現を探索する。
【0055】
本実施形態の固有表現探索手段テーブル5000は、「ID」5001をキーに、「ファイル形式」5002、「探索固有表現」5003、「入力値」5004、および、「入力先」の各値を対応付けたレコードの集合体となっている。
【0056】
このうち「ID」5001は、各探索手段を一意に識別するための識別子である。また、
「ファイル形式」5002は、「入力先」5005に対する入力情報のファイル形式を示している。本実施形態の情報収集支援装置1000の固有表現探索部1104は、本項目をキーとして探索手段を呼び出す。
【0057】
また、「探索固有表現」5003は、探索手段により発見する固有表現の属性ごとの分類を示している。なお、この「探索固有表現」が「全般」である場合、固有表現の属性が未特定の情報に対する固有表現探索手段が規定されており、例えば、ファイル形式「文字」で、探索固有表現「全般」である場合、固有表現の探索手段すなわち「入力先」は、文字分解部1107となる。文字分解部1107は、入力たる文字情報から固有表現を抽出するものであり、形態素解析などの単語単位で文章、文節等を分解し、これで得た各単語を固有表現辞書4000に照合することで、固有表現に該当する単語を特定することとなる。
【0058】
他方、「探索固有表現」が「人名」や「地名」である場合、固有表現の属性が特定済みの情報に対する固有表現探索手段が規定されており、例えば、ファイル形式「文字」で、探索固有表現「人名」である場合、固有表現の探索手段すなわち「入力先」は、例えば、SNSのURLとなる。
【0059】
また、上述の「入力値」5004は、上述の入力先5005へ入力する値を示している。また、「入力先」5005は、入力値5004の入力先として、探索手段が実行される場所を示している。なお、探索手段として外部のサービスを活用する場合はそのURL情報を記載している。
【0060】
続いて、
図6に本実施形態における収集先探索手段テーブル6000のデータ構成例を示す。この収集先探索手段テーブル6000は、収集先探索手段記憶部1202で保持するテーブルである。本実施形態の情報出力装置支援装置1000は、この収集先探索手段テーブル6000の登録情報を活用して新しい情報収集先を探索する。
【0061】
本実施形態の収集先探索手段テーブル6000は、「ID」6001をキーに、「固有表現分類」6002、「外部リソース」6003、「入力」6004、「条件」6005、および、「nextID」6006、の各値を対応付けたレコードの集合体となっている。
【0062】
このうち「ID」6001は、各探索手段を一意に識別するための識別子である。また、
「固有表現分類」6002は、固有表現の属性に関する分類を示している。収集先探索部1203は、本項目をキーとして探索手段を呼び出すこととなる。
【0063】
また、「外部リソース」6003は、探索に活用する外部リソースのURLを示している。この「外部リソース」6003の値は、上述の固有表現探索手段テーブル5000における「入力先」5005のうち、値がURLであるもののいずれかに対応している。
【0064】
また、「入力」6004は、上述の外部リソース6003に送信する値を示している。固有表現探索手段テーブル5000を利用した固有表現探索により発見した固有表現を「入力」6004の値である場合、情報分析機能1100(の文字分解部1107や画像分解部1108等)で発見した固有表現が送信値となる。他方、この「入力」6004に数値が設定されている場合、該当するID6001の探索手段(外部リソース6003で規定されたURL)の出力結果を送信する。
【0065】
また、「条件」6005は、探索して得られた結果を制限する条件を示している。例えば、「条件」6005が、「3ユーザ」である場合、「外部リソース」6003から得られた人名に関する固有表現のうち「3ユーザ」分のみ収集する制限を示している。また、「条件」6005が、「別ドメインURL」である場合、「外部リソース」6003から得られた人名に関する固有表現のうち当該「外部リソース」が示すURL以外のURL(例:該当人物のSNSページで紹介されている当該人物の勤務先ウェブサイト等)からのみ収集する制限を示している。また、「条件」6005が、「100m」である場合、例えば、「外部リソース」6003から得られた地名に関する固有表現(例:緯度・経度情報)から「100m」以内の「地名」のみ収集する制限を示している。
【0066】
また、「nextID」6006は、当該探索により得られた結果の出力を別途の探索手段の入力として利用する場合、入力する先のID6001を示している。
図6で示す例の場合、ID「1」の収集先たる外部リソースから得た情報は、ID「2」の入力として規定されている。また、同様に、ID「3」の収集先たる外部リソースから得た情報は、ID「4」の入力として規定されている。
【0067】
−−−フロー例1−−−
以下、本実施形態における情報収集支援方法の実際手順について図に基づき説明する。以下で説明する情報収集支援方法に対応する各種動作は、情報収集支援装置1000がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
【0068】
図7は、本実施形態における情報収集支援方法のフロー例1を示す図である。情報出力装置支援装置1000の情報収集部10004は、まず情報収集(s101)において、収集先記憶部1003の収集先テーブル3000の「収集先」3002に登録されたウェブサイトにアクセスして情報を収集し、収集した情報を収集情報記憶部1005に格納する。なお、情報収集支援装置1000の利用者は、クライアント端末1400を操作し、情報収集機能1001の収集先登録部1002を利用して、収集先記憶部1003の収集先テーブル3000に情報収集先を登録する必要がある。
【0069】
次に、情報収集支援装置1000は、情報分析(s102)において、上述の情報収集(s101)で収集した情報を分析し、当該情報が示す固有表現を探索する。なお、情報収集支援装置1000の利用者は、クライアント端末1400を操作して固有表現探索手段登録部1101を利用し、固有表現探索手段記憶部1103の固有表現探索手段テーブル5000に探索手段を登録する必要がある。
【0070】
続いて、上述の探索の結果、固有表現が見つかった場合(s102:y)、情報収集支援装置1000は、収集先探索(s103)の処理へ進む。他方、上述の探索の結果、固
有表現が見つからなかった場合(s102:n)、情報収集支援装置1000は、フローを終了する。
【0071】
なお、上述した情報分析(s102)の詳細な説明は
図8に基づき後述する。
【0072】
次に、情報収集支援装置1000は、収集先探索(s103)において、上述の情報分析(s102)で発見した固有表現に関連する、未知のウェブサイトを探索する。この探索の結果、固有表現に関連する未知のウェブサイトが見つかった場合(s103:y)、情報収集支援装置1000は、関連度判定(s104)の処理へ進む。
【0073】
なお、情報収集支援装置1000の利用者は、クライアント端末1400を操作して収集先探索手段登録部1201を利用し、予め収集先探索手段記憶部1202の収集先探索手段テーブル6000に探索手段を登録する必要がある。
【0074】
他方、上述の探索の結果、固有表現に関連する未知のウェブサイトが見つからなかった場合(s103:n)、情報収集支援装置1000は、フローを終了する。
【0075】
なお、上述した収集先探索(s103)の詳細な説明は
図9に基づき後述する。
【0076】
最後に、情報収集支援装置1000は、関連度判定(s104)において、上述の収集先探索(s103)で発見したウェブサイトでの掲載情報が含む固有表現と、情報分析(s102)で発見した固有表現との一致度を計算する。この計算の結果、一致度すなわち関連度が所定の閾値を超えていれば(s104:y)、情報収集支援装置1000は、収集先テーブル3000に対応するレコードを登録してテーブル更新する。他方、一致度すなわち関連度が所定の閾値を超えていなければ(s104:n)、情報収集支援装置1000は、当該収集先を収集先テーブル3000に追加せず、フローを終了する。この関連度判定(s104)の詳細な説明は
図10に基づき後述する。
【0077】
−−−フロー例2−−−
図8は、情報分析機能1100で実施される上述の情報分析(s102)の詳細フロー例を示す図である。情報収集支援装置1000は、本フローにより、情報収集(s101)で収集した情報から、新たな情報収集先を探索する鍵となる情報を発見する。
【0078】
この場合、情報収集支援装置1000は、先の情報収集(s101)で既知の情報収集先たるウェブサイトから収集した情報を、その形式(例:文字、画像)ごとに分ける(s1021)。本処理により、形式ごとに異なる処理が実現できる。
【0079】
続いて、情報収集支援装置1000は、固有表現探索手段記憶部1103の固有表現探索手段テーブル5000を呼び出し、上述のステップs1021での分類ごとに異なる処理を実施する。なお、ひとつの入力に対し、複数の探索処理を実施することもできる。本処理により、入力された情報から固有表現を発見する。
【0080】
図5に例示した固有表現探索手段テーブル5000の例を想定すれば、上述のステップs1021で分類した形式が「文字」で固有表現の属性を限定していない情報が対象すなわち「全般」の場合、レコードID「2」の「入力先」たる文字分解部1107に該当文字情報を入力することで、属性が「人名」の固有表現を探索し、この「人名」に該当する文字情報をレコードID「2」の入力先「http:sns.co.jp/find/」に入力することで、該当人名に該当する情報、すなわち固有表現をSNSのウェブサイトから発見することとなる。
【0081】
また、情報収集支援装置1000は、s1022で得た固有表現を、収集先記憶部1003の収集先テーブル3000に記憶された既出の固有表現(既出人名3006、既出地名3007の各値)と比較し、既出の固有表現と重複するものに関しては排除する(s1023)。本処理により、新規の固有表現のみを収集先の探索に利用できる。
【0082】
次に、情報収集支援装置1000は、上述のs1022の処理により、新たな固有表現がひとつも発見できなければ(s1024:N)、フローを終了する。
【0083】
他方、上述のs1022の処理により、新たな固有表現を発見できた場合(s1204:Y)、情報収集支援装置1000は、発見できた当該固有表現を、辞書記憶部1106の固有表現辞書4000に照合し、人名、地名などの意味(属性)ごとに分類する(s1025)。
【0084】
また、情報収集支援装置1000は、上述のs1025の処理において、固有表現の分類ができなければ(s1026:N)、フローを終了する。他方、上述のs1025の処理において固有表現の分類が出来たならば(s1026:Y)、情報収集支援装置1000は、処理をメインフローのs103に遷移させる。本結果を以って、収集した情報から固有表現を発見したこととする。
【0085】
−−−フロー例3−−−
図9は、収集先探索機能1200で実行する収集先探索(s103)の処理フローの例を示した図である。本処理では、上述の情報分析(s102)で発見した固有表現に基づいて、未知の情報収集先たるウェブサイトを発見する。
【0086】
この場合、情報収集支援装置1000は、収集先探索手段記憶部1202の収集先探索手段テーブル6000を呼び出し、上述の情報分析(s102)で発見した「人名」や「地名」など固有表現の分類ごとに異なる処理を呼び出す(s1031)。例えば、s102で発見した固有表現の分類が「人名」であった場合、レコードID「1」の情報を読み取り、収集先探索手段たる「外部リリース」6003の値を呼び出すこととなる。
【0087】
続いて、情報収集支援装置1000は、上述のs1031の処理で呼び出した探索手段すなわち外部リソース6003の値(が示すURL)に、情報分析(s102)で発見した固有表現の値(例:“佐藤”などの固有名称)を入力する(s1032)。この外部リソースでの固有表現たる該当人名に関する探索の結果として、その固有表現たる該当人名に関係するウェブサイトを発見する。
【0088】
次に情報収集支援装置1000は、上述のs1032の処理で発見したウェブサイトのURLと、収集先記憶部1003の収集先テーブル3000に記憶された既知のウェブサイトのURLとを比較し、s1032で発見したウェブサイトが既知であれば該当ウェブサイトのURLを探索結果から排除する(s1033)。
【0089】
また、情報収集支援装置1000は、上述のs1032の処理によりウェブサイトが発見できない、もしくは発見できてもs1033の処理によりウェブサイトがひとつも存在しなくなれば(s1034:N)、フローを終了する。他方、上述のs1033の処理を経て新たなウェブサイトを特定できた場合(s1034:Y)、情報収集支援装置1000は、処理をメインフローのs104へ遷移させる。本結果を以って、固有表現から未知の情報収集先たるウェブサイトを発見したこととする。
【0090】
−−−フロー例4−−−
図10は、収集先更新機能1300が実行する関連性判定(s104)の処理フローの
例を示した図である。本処理では、先の収集先探索(s103)で発見した未知のウェブサイトを情報収集先として登録するか否か判定する。
【0091】
この場合、情報収集支援装置1000は、先の収集先探索(s103)で発見した未知のウェブサイトから、例えば情報収集部1004によって情報を取得する(s1041)。
【0092】
また、情報収集支援装置1000は、上述のs1041の処理で取得した情報の中に、当該ウェブサイトを発見する起因となった固有表現(すなわち既知のウェブサイトで掲載されている固有表現)が含まれているか判定する(s1042)。
【0093】
上述の判定の結果、上述のs1041の処理で取得した情報の中に、当該ウェブサイトを発見する起因となった固有表現が含まれている場合(s1042:Y)、情報収集支援装置1000は、処理をs1043に遷移させる。
【0094】
他方、上述の判定の結果、上述のs1041の処理で取得した情報の中に、当該ウェブサイトを発見する起因となった固有表現(すなわち既知のウェブサイトで掲載されている固有表現)が含まれていない場合(s1042:N)、情報収集支援装置1000は、フローを終了する。
【0095】
次に、情報収集支援装置1000は、発見した未知のウェブサイトから収集した情報における頻出文字と、上述の起因となった固有表現を含む既知のウェブサイトでの掲載情報の頻出文字を、それぞれ分析する(s1043)。
【0096】
続いて、情報収集支援装置1000は、s1043の分析でそれぞれ特定した、未知のウェブサイトと既知のウェブサイトとの間について、その頻出文字の一致率が所定の閾値(最低基準値:以降、関連性判定閾値)以上か判定する(s1044:N)フローを終了する。
【0097】
上述の判定の結果、頻出文字の一致率が関連性判定閾値以上でない場合(s1044:N)、情報収集支援装置1000は、フローを終了する。
【0098】
他方、上述の判定の結果、一致率が関連性判定閾値以上である場合(s1044:Y)、情報収集支援装置1000は、処理をs1045に遷移させる。
【0099】
また、情報収集支援装置1000は、上述の頻出文字の一致率が同一情報閾値(最高基準値)以下であるか判定する(s1045)。
【0100】
上述の判定の結果、上述の頻出文字の一致率が同一情報閾値以下でなければ(s1045:N)、情報収集支援装置1000は、フローを終了する。
【0101】
他方、上述の判定の結果、上述の頻出文字の一致率が同一情報閾値以下であれば(s1045:Y)、情報収集支援装置1000は、処理をs1046に遷移させる。
【0102】
次に、情報収集支援装置1000は、上述のs1045までの処理を経て、新たな情報収集先として特定したウェブサイトの情報を、収集先記憶部1003の収集先テーブル3000に追加する(s1046)。ここで、新たな情報収集先として収集先テーブル3000に追加される際、上述の起因となった固有表現を含む既知のウェブサイトのレコードで親IDが「0」のレコードのレコードIDを、「親ID」欄に設定した新レコードを生成し、当該新レコードに上述の新たな情報収集先たるウェブサイトの情報を登録すること
となる。
【0103】
また、情報収集支援装置1000は、新たな情報収集先とした特定したウェブサイトから収集した情報の頻出文字と、本フローの起因となった固有表現を含む既知のウェブサイトでの掲載情報の頻出文字との一致率が、所定の閾値(中間基準値:以降、フロー継続閾値)以下か判定する(s1047)。
【0104】
上述の判定の結果、新たな情報収集先とした特定したウェブサイトから収集した情報の頻出文字と、本フローの起因となった固有表現を含む既知のウェブサイトでの掲載情報の頻出文字との一致率が、フロー継続閾値以下であれば(s1047:Y)、情報収集支援装置1000は、フローを終了する。
【0105】
他方、上述の判定の結果、新たな情報収集先とした特定したウェブサイトから収集した情報の頻出文字と、本フローの起因となった固有表現を含む既知のウェブサイトでの掲載情報の頻出文字との一致率が、フロー継続閾値以下でなければ(s1047:N)、情報収集支援装置1000は、処理をs101へ遷移させる。
【0106】
ここで、s101の新たな処理対象となった新たな情報収集先については、収集先テーブル3000の該当レコードにおける親IDを「0」とする。つまり、新たな情報収集先の起点とみなしうる重要なウェブサイトとして収集先テーブル3000に登録するものとする。
【0107】
本結果を以って、発見したウェブサイトと固有表現の間に関連性があると判定したこととする。
【0108】
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
【0109】
こうした本実施形態によれば、人的な知見に依存していた収集先の更新を機械的に更新することが可能になる。これにより、例えば、新規に出現したウェブサイトから有用な情報が発信された場合、利用者が当該ウェブサイトに関する知見がなくとも収集先として登録できる効果がある。
【0110】
すなわち、ユーザにとって未知の情報を、当該ユーザにおける情報収集先の知見有無に係わらず、効率的に収集可能となる。
【0111】
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の情報収集支援装置において、前記演算装置は、前記固有表現を抽出するに際し、所定属性の事物各々に関して存在しうる固有名称の辞書情報に基づき、前記収集した情報から固有表現を抽出するものである、としてもよい。
【0112】
これによれば、ウェブサイト等の情報収集先から得た情報が、どのような固有表現を含んでいるか、迅速かつ効率的に特定可能となる。ひいては、ユーザにとって未知の情報を、当該ユーザにおける情報収集先の知見有無に係わらず、更に効率的に収集可能となる。
【0113】
また、本実施形態の情報収集支援装置において、前記演算装置は、前記未知の情報収集先を探索するに際し、前記探索した未知の情報収集先と、前記既知の情報収集先とを比較して、前記未知の情報収集先のうち前記既知の情報収集先と重複しないものを未知の情報収集先とするものである、としてもよい。
【0114】
これによれば、既知および未知の各ウェブサイト等の情報収集先の間で、重複するもの、すなわち既知の情報収集先を排除して、未知の情報収集先を迅速かつ効率的に特定可能となる。ひいては、ユーザにとって未知の情報を、当該ユーザにおける情報収集先の知見有無に係わらず、更に効率的に収集可能となる。
【0115】
また、本実施形態の情報収集支援装置において、前記演算装置は、前記一致度が予め定めた所定範囲にあるかについて、前記一致度が最低基準値以上かつ最高基準値以下の範囲内にあるか判定し、当該範囲内に前記一致度がある場合、前記未知の情報収集先のアドレスを前記既知の情報収集先のアドレスとして追加し、前記追加の対象となった前記未知の情報収集先のうち、当該一致度が、前記最高基準値と前記最低基準値との間の中間基準値以上で前記最高基準値以下の範囲にあるものについては、前記固有表現の抽出から以降の各処理を更に実行するものである、としてもよい。
【0116】
これによれば、既知の情報収集先と、或る程度以上は関連している未知の情報収集先であるが、掲載情報が完全一致している情報収集先については排除することで、新たな情報収集先として着目に値する情報を提供しうるウェブサイト等を効率的かつ精度よく特定できる。また、既知の情報収集先と、或る程度以上は関連している未知の情報収集先であるが、掲載情報が完全一致していることもない情報収集先であって、かつ、その中でも関連度が高い情報収集先を、新たに起点とすべき情報収集先として特定することで、新たな情報収集先の起点としうる重要なウェブサイト等を効率的かつ精度よく特定できる。ひいては、ユーザにとって未知の情報を、当該ユーザにおける情報収集先の知見有無に係わらず、更に効率的に収集可能となる。
【0117】
また、本実施形態の情報収集支援方法において、前記情報処理装置が、前記固有表現を抽出するに際し、所定属性の事物各々に関して存在しうる固有名称の辞書情報に基づき、前記収集した情報から固有表現を抽出する、としてもよい。
【0118】
また、本実施形態の情報収集支援方法において、前記情報処理装置が、前記未知の情報収集先を探索するに際し、前記探索した未知の情報収集先と、前記既知の情報収集先とを比較して、前記未知の情報収集先のうち前記既知の情報収集先と重複しないものを未知の情報収集先とする、としてもよい。
【0119】
また、本実施形態の情報収集支援方法において、前記情報処理装置が、前記一致度が予め定めた所定範囲にあるかについて、前記一致度が最低基準値以上かつ最高基準値以下の範囲内にあるか判定し、当該範囲内に前記一致度がある場合、前記未知の情報収集先のアドレスを前記既知の情報収集先のアドレスとして追加し、前記追加の対象となった前記未知の情報収集先のうち、当該一致度が、前記最高基準値と前記最低基準値との間の中間基準値以上で前記最高基準値以下の範囲にあるものについては、前記固有表現の抽出から以降の各処理を更に実行する、としてもよい。