IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7173331情報抽出装置、情報抽出方法、及び情報抽出プログラム
<>
  • 特許-情報抽出装置、情報抽出方法、及び情報抽出プログラム 図1
  • 特許-情報抽出装置、情報抽出方法、及び情報抽出プログラム 図2
  • 特許-情報抽出装置、情報抽出方法、及び情報抽出プログラム 図3
  • 特許-情報抽出装置、情報抽出方法、及び情報抽出プログラム 図4
  • 特許-情報抽出装置、情報抽出方法、及び情報抽出プログラム 図5
  • 特許-情報抽出装置、情報抽出方法、及び情報抽出プログラム 図6
  • 特許-情報抽出装置、情報抽出方法、及び情報抽出プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】情報抽出装置、情報抽出方法、及び情報抽出プログラム
(51)【国際特許分類】
   G06F 16/29 20190101AFI20221109BHJP
   G06F 16/906 20190101ALI20221109BHJP
   G06F 16/909 20190101ALI20221109BHJP
【FI】
G06F16/29
G06F16/906
G06F16/909
【請求項の数】 6
(21)【出願番号】P 2021525891
(86)(22)【出願日】2019-06-14
(86)【国際出願番号】 JP2019023768
(87)【国際公開番号】W WO2020250448
(87)【国際公開日】2020-12-17
【審査請求日】2021-11-01
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】阿部 直人
(72)【発明者】
【氏名】瀬下 仁志
(72)【発明者】
【氏名】小西 宏志
【審査官】早川 学
(56)【参考文献】
【文献】米国特許出願公開第2018/0113880(US,A1)
【文献】米国特許出願公開第2016/0189186(US,A1)
【文献】特開2018-72968(JP,A)
【文献】特表2013-543167(JP,A)
【文献】山本千尋、外4名,バリアフリーマップをソーシャルにつくる技術の開発,NTT技術ジャーナル,一般社団法人電気通信協会,2016年05月01日,第28巻,第5号,pp.21~24
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得する取得部と、
前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成する生成部と、
前記単語ベクトル間の距離を算出する距離算出部と、
前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類する分類部と、
前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する抽出部と、
を含む情報抽出装置。
【請求項2】
前記日時に基づく重みは、処理時の現在の日時及び前記日時の差に基づく重みとし、前記単語ベクトルにおける前記内容に関する成分は、前記内容の出現頻度と前記日時に基づく重みとの積とする請求項1に記載の情報抽出装置。
【請求項3】
前記抽出部は、前記分類ごとに、前記分類に含まれる前記データの内容の種別ごとの分類であるサブ分類の各々について信頼度を算出し、前記サブ分類の各々の信頼度に基づいて、前記データ群からデータを抽出する請求項1又は請求項2に記載の情報抽出装置。
【請求項4】
前記抽出部は、前記分類ごとに、前記サブ分類における前記内容の出現頻度と、前記サブ分類における前記情報源のデータについて定められた重みの平均とに基づいて、前記サブ分類の各々について信頼度を算出し、閾値以上の前記信頼度に対応する前記内容を示すラベルを抽出し、前記ラベルと共に、前記ラベルの前記内容を含む前記データ群のデータを抽出して出力する請求項3に記載の情報抽出装置。
【請求項5】
情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得し、
前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成し、
前記単語ベクトル間の距離を算出し、
前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類し、
前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する、
ことを含む処理をコンピュータが実行することを特徴とする情報抽出方法。
【請求項6】
情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得し、
前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成し、
前記単語ベクトル間の距離を算出し、
前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類し、
前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する、
ことをコンピュータに実行させる情報抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、情報抽出装置、情報抽出方法、及び情報抽出プログラムに関する。
【背景技術】
【0002】
ある対象に対するデータを収集する技術がある。例えば、交通上の路面の状況に関する路面状況のデータを抽出する技術がある。
【0003】
例えば、路面推定に必要なセンサデータが不足している地理的な範囲を適切に抽出する技術がある(例えば、特許文献1を参照)。この技術では、推定された移動状態の推定結果と、予め求められた推定器の正解率とに基づいて、地理範囲ごとに、移動状態に対応する路面状況を、路面状況の確率と共に推定している。また、推定された路面状況の確率が、予め定められた閾値に満たない地理範囲を、センサデータが不足している地理範囲として抽出している。
【0004】
また、データを評価する手法に関して、SNSのユーザに関する情報から信頼度等を算出してデータを評価する技術がある(例えば、非特許文献1~3を参照)。
【先行技術文献】
【非特許文献】
【0005】
【文献】佐藤 澪、「ソーシャルメディアから発信された情報の信頼度について」、[online]、会津大学短期大学部産業情報学科経営情報コース、2011年度卒業研究論文要旨集、[平成 30 年 8 月 13 日検索]、インターネット〈URL:http://www.jc.u-aizu.ac.jp/department/management/youshi/2011/09.pdf〉
【文献】大塚 孝信 他2名、「ユーザー間実距離を用いたSNSユーザー評価手法とパラメータ評価」、人工知能学会第11回知識流通ネットワーク研究会、インターネット〈URL:http://sigksn.html.xdomain.jp/conf11/SIG-KSN-011-06.pdf〉
【文献】石垣 藍睦、沼尾 雅之、「Twitter 特有のネットワーク構造を用いたユーザ重要度評価法の提案」、DEIM Forum 2016 B7-4、インターネット〈URL:http://db-event.jpn.org/deim2016/papers/302.pdf〉
【特許文献】
【0006】
【文献】特開2018-195118号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、上記特許文献1に記載の手法では、ある場所における抽出に必要なデータを十分に確保できない場合がある。そのため、そもそもデータを抽出できない、データを抽出したとしても抽出結果の精度が低い、又はデータを抽出したとしても抽出結果が正しいか否かを判断できない等の場合がある。
【0008】
また、従来、信頼度が閾値以上のデータを抽出する手法では、複数のデータが閾値を超える場合もある。閾値を超えるデータが複数あった場合に、いずれの内容のデータを抽出結果として採用するかを人手で判断していた。
【0009】
開示の技術は、上記の点に鑑みてなされたものであり、適切な情報を効率よく抽出することができる情報抽出装置、情報抽出方法、及び情報抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本開示の第1態様は、情報抽出装置であって、情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得する取得部と、前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成する生成部と、前記単語ベクトル間の距離を算出する距離算出部と、前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類する分類部と、前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する抽出部と、を含む。
【0011】
本開示の第2態様は、情報抽出方法であって、情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得し、前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成し、前記単語ベクトル間の距離を算出し、前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類し、前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する、ことを含む処理をコンピュータが実行することを特徴とする。
【0012】
本開示の第3態様は、情報抽出プログラムであって、情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得し、前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成し、前記単語ベクトル間の距離を算出し、前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類し、前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する、ことをコンピュータに実行させる。
【発明の効果】
【0013】
開示の技術によれば、適切な情報を効率よく抽出することができる。
【図面の簡単な説明】
【0014】
図1】本開示の技術の全体の処理の流れを示すイメージ図である。
図2】本実施形態の情報抽出システムの構成の一例を示すブロック図である。
図3】情報抽出装置のハードウェア構成を示すブロック図である。
図4】単語ベクトル間の距離の関係を表で表した場合の一例を示す図である。
図5】階層的クラスタリングにより、距離に対する閾値でデータをクラスタに分類する場合の例である。
図6】クラスタについてサブ分類ごとの単語列、出現頻度、重み平均、及び信頼度を表にした場合の例である。
図7】情報抽出装置による情報抽出処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0016】
本開示の技術は、データを抽出したい対象物について、日時、場所、及び内容等の複数の項目を考慮することで、確からしいデータを抽出する手法を提案する。図1は、本開示の技術の全体の処理の流れを示すイメージ図である。図1に示すように、本手法では、情報源の日時、場所、及び内容を含むデータを取得し、単語ベクトル化を行い、単語ベクトルを生成する。また、本手法では、単語ベクトルをクラスタリングし、クラスタの信頼度を判定して、データの内容を示すラベルを抽出する。内容は、Li,jで表される単語であり、本実施形態では、Li,jは路面状況の種別である。Li,jは、Li,j=(w1,w2,...,wNi,j)のNi,j個の単語リストで表される。なお、日時は、図1中では日時の項目について日付までを表示しているが時間を用いてもよい。以下で説明する図面においても同様である。
【0017】
以下では、対象を路面状況として、ユーザ端末の各々を1つの情報源として、ユーザ端末から路面状況の内容を含むデータを取得して抽出する場合を例に説明するが、他の対象であってもよい。例えば、対象を店舗とした店舗に関する店舗情報、対象を設備とした設備に関する設備情報等のデータを抽出する場合にも適用できる。
【0018】
以下、本実施形態の構成について説明する。
【0019】
図2は、本実施形態の情報抽出システム10の構成の一例を示すブロック図である。図2に示すように、本実施形態に係る情報抽出システム10は、複数のユーザ端末20と、情報抽出装置22とを備えている。複数のユーザ端末20と情報抽出装置22とは、所定のネットワークN(例えば、インターネット回線等)によって接続されている。
【0020】
図2に示すように、情報抽出装置22は、取得部120と、生成部122と、距離算出部124と、分類部126と、抽出部128とを含んで構成されている。
【0021】
図3は、情報抽出装置22のハードウェア構成を示すブロック図である。
【0022】
図3に示すように、情報抽出装置22は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
【0023】
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、情報抽出プログラムが格納されている。
【0024】
ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
【0025】
入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
【0026】
表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能してもよい。
【0027】
通信インタフェース17は、端末等の他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
【0028】
なお、ユーザ端末20も情報抽出装置22と同様のハードウェア構成によって構成できる。
【0029】
次に、情報抽出システム10のユーザ端末20及び情報抽出装置22の各機能構成について説明する。情報抽出装置22の各機能構成は、CPU11がROM12又はストレージ14に記憶された情報抽出プログラムを読み出し、RAM13に展開して実行することにより実現される。
【0030】
ユーザ端末20は、任意のユーザが保有する端末である。ユーザ端末20は、端末自体に備えられたセンサによって、対象に関する内容として、路面状況を計測する。路面状況の種別は、例えば、平坦、段差等である。ユーザ端末20は、計測された路面状況の内容、路面状況が記録された場所、及び路面状況が記録された日時を含むデータからなるデータ群を情報抽出装置22に送信する。データ群を送信するタイミングは、情報抽出システム10でユーザ端末20について定めた所定の間隔でよい。場所は、緯度であるlat及び経度であるlonを位置情報から取得する。日時は、日付及び時刻であり、例えば「YYYY/MM/DD/hh」の形式で取得する。
【0031】
次に、情報抽出装置22の各部について説明する。
【0032】
取得部120は、ユーザ端末20の各々を情報源として、情報源ごとのデータ群を取得する。
【0033】
生成部122は、データ群のデータの各々について、日時、場所、日時に基づく重みを用いた内容、及び内容の種別のそれぞれを成分とする単語ベクトルを生成する。日時に基づく重みを用いた内容に関する成分については、内容の出現頻度(0は無し、1はあり)と日時に基づく重みとの積を用いる。日時に基づく重みは、生成部122における処理時の現在の日時T及びデータにおける日時Ti,jの差ti,j(ti,j=T-Ti,j)に基づく重みe-λt(t=ti,j)を用いる。また、後述する信頼度の算出において用いる情報源の重みは、重みe-λtと、情報源のデータについて定められた重みwi,jとの積とする。重みwi,jは、情報源ごとに手動で設定した重みを用いる。例えば、情報源として信頼性が高いと想定される情報源には高い値をwi,jに設定し、信頼性が低い情報源には低い値を重みwi,jに設定する。場所は緯度、経度に対して閾値Cに応じて小数点第C位よりも小さい値を削除した値を成分とする。
【0034】
距離算出部124は、生成部122でデータの各々について生成した単語ベクトルを用いて、単語ベクトル間の距離を算出する。距離算出部124は、単語ベクトル間の距離を、コサイン距離によって算出し、単語ベクトル間の近さを求める。単語ベクトル間の距離は、データの各々の単語ベクトルを、基準の単語ベクトルとして選び、基準の単語ベクトルと基準の単語ベクトル以外の単語ベクトルとの組み合わせの各々について、コサイン距離を算出して求めればよい。
【0035】
図4は、単語ベクトル間の距離の関係を表で表した場合の一例を示す図である。図4の例では、1行目を基準の単語ベクトルとして、2行目以降の単語ベクトルの各々とのコサイン距離を求めている。単語ベクトルは、日時、場所、重みe-λtと内容との積、及び路面状況を要素としている。コサイン距離が1に近いほど、単語ベクトル同士が近いといえる。ここで、2行目のデータについては、2018年のデータであり、現在の日時Tとデータにおける日時Ti,jの差が大きく、重みe-λtが低く設定される。そのため、例えばT=2019年2月21日、λ=0.01とした場合、内容に関する成分の値が0.026と低い値になっている。
【0036】
分類部126は、単語ベクトル間の距離に基づいて、データ群のデータの各々を分類する。分類部126は、階層的クラスタリングの手法を用いて、データの各々をクラスタの何れかに分類する。
【0037】
クラスタリング手法について説明する。クラスタリング手法は、階層的クラスタリング及び非階層的クラスタリングが知られている。階層的クラスタリングにおいては、デンドログラム(樹形図)が生成され、クラスタ数を予め決める必要はない。階層的クラスタリングとしては、ウォード法及び群平均法等がある。一方、非階層的クラスタリングにおいては、クラスタ数を予め決める必要がある。非階層的クラスタリングとしては、k-means及びfuzzy c-means等が知られている。なお、クラスタリングを行う前においては、一般的にクラスタ数は不明であることが多い。
【0038】
そこで、本実施形態では、階層的クラスタリングを用いてクラスタリングを行う。階層的クラスタリングでは、少なくとも1つのクラスタが複数のクラスタを含む。また、階層的クラスタリングでは、単語ベクトル間の距離の類似度合いに基づいてクラスタリングが行われる。
【0039】
図5は、階層的クラスタリングにより、コサイン距離に対する閾値でデータをクラスタに分類する場合の例である。図5の左は単語ベクトルに対応する単語列、図5の右はデータのIDごとの単語ベクトル間の距離による類似度合いを示す樹形図を示している。図5の縦軸(距離)は距離=1-(コサイン距離)を示しており、二つの単語ベクトル同士が似ているほど0に近い値となる。図5の樹形図には距離の類似度合いを判定するための閾値として、閾値0.2及び閾値0.4が定められている。ここでは閾値0.4を類似するクラスタとして扱う。図5に示すように、樹形図において、ID1、2、7、及び9の単語ベクトル間の距離が近く、類似している。また、ID1、2、7、及び9に対して、ID6も閾値0.2未満で類似している。閾値0.4でみれば、ID4、及び8も類似している。よって、図5の左に示す太枠の囲ったID1、2、4、6、7、8、及び9の単語ベクトルを同一のクラスタとして判別して、分類する。
【0040】
以上のように、分類部126は、階層的クラスタリングの手法により、データの各々を、単語ベクトル間の距離の閾値により同一のクラスタとされるデータを判別し、当該クラスタに分類する。
【0041】
抽出部128は、分類についての信頼度を算出し、信頼度に基づいてデータ群からデータを抽出する。具体的には、抽出部128は、クラスタの分類ごとに、分類に含まれるデータの内容の種別(路面状況)ごとの分類であるサブ分類の各々の信頼度を算出する。サブ分類の信頼度は、当該サブ分類における内容の出現頻度と、当該サブ分類における情報源のデータについて定められた重みwi,jの平均とに基づいて算出する。抽出部128は、閾値以上の信頼度に対応する路面状況の内容を示すラベルを抽出し、ラベルと共に、ラベルの内容を含むデータ群のデータを抽出して出力する。ここで、サブ分類とは、クラスタの分類に含まれる内容の種類を指し、例えば、「階段」及び「平坦」である。
【0042】
信頼度の算出手法について説明する。本実施形態では、確率統計を用いて信頼度を算出する。例えば、事象Aを「a:バリアθがある」、事象Bを「b:バリアθがない」とする。任意の地点において事象Aである確率P、任意の地点において事象Bである確率をPとする。また、事象A,Bが発生する地点において内容a,bがあり、データにa,bが表れる確率を、それぞれp(a),p(b),p(a),p(b)とする。なお、事象A,Bに関する情報は、オープンデータ等の情報から設定される。また、ユーザ数nは計測により得られる。また、p(a),p(b),p(a),p(b)は、トライアル等の情報抽出の精度に応じて予め設定される。
【0043】
上記の条件下で、ある地点でn人中、あるクラスタCについて、事象Aと識別したユーザがr人のとき、その地点が実際にAである確率Q(C)を考える。この場合、ベイズの定理により、以下の式(1)によって確率Q(C)を算出できる。
【0044】
【数1】

・・・(1)
【0045】
ただし、P+P=1,p(a)+p(b)=1,p(a)+p(b)=1とする。上記(1)式で確率Q(C)を求め、サブ分類の信頼度とする。
【0046】
次に、信頼度の算出の例を説明する。図6は、クラスタについてサブ分類ごとの単語列、出現頻度、情報源の重み平均、及び信頼度を表にした場合の例である。図6に示す例では、クラスタのクラスタIDであるCIDが1~3ある。このうち、CID:1について、サブ分類として「階段」及び「平坦」で表にまとめる。CID:1のクラスタについてサブ分類「階段」及び「平均」のそれぞれについて、当該クラスタにおける出現頻度、情報源の重み平均、及び信頼度を算出する。出現頻度は、クラスタの全データ中のサブ分類の出現頻度である。重み平均は、クラスタの全データ中のサブ分類の情報源の重み平均である。信頼度は、クラスタの全データ中のサブ分類の信頼度である。ここで、上記(1)式でサブ分類の信頼度を計算するため確率値を説明する。サブ分類「階段」の重み平均が0.561、サブ分類「平坦」の重み平均が0.600であるとする。この場合、サブ分類「階段」について、p(a)=p(b)=0.561,p(b)=p(a)=0.439とし、上記(1)式で信頼度を算出する。つまり、重み平均をp(a)の値とする。nはデータの総数7、rは出現頻度5として算出する。また、サブ分類「平坦」について、p(a)=p(b)=0.6,p(b)=p(a)=0.4とし、上記(1)式で信頼度を算出する。nはデータの総数7、rは出現頻度2として算出する。以上の条件でサブ分類「階段」の信頼度は0.676、サブ分類「平坦」の信頼度は0.228と算出できる。
【0047】
次に、情報抽出システム10の情報抽出装置22の作用について説明する。
【0048】
図7は、情報抽出装置22による情報抽出処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から情報抽出プログラムを読み出して、RAM13に展開して実行することにより、情報抽出処理が行なわれる。ここで、ユーザ端末20は、計測された路面状況の内容、路面状況が記録された場所、及び路面状況が記録された日時を含むデータからなるデータ群を情報抽出装置22に所定の間隔で送信している。
【0049】
ステップS100において、CPU11は、ユーザ端末20の各々を情報源として、情報源ごとのデータ群を取得する。
【0050】
ステップS102において、CPU11は、データ群のデータの各々について、日時、場所、日時に基づく重みを用いた内容、及び内容の種別のそれぞれを成分とする単語ベクトルを生成する。日時に基づく重みを用いた内容に関する成分については、内容の出現頻度(0は無し、1はあり)と日時に基づく重みとの積を用いる。日時に基づく重みは、処理時の現在の日時T及びデータにおける日時Ti,jの差ti,j(ti,j=T-Ti,j)に基づく重みe-λt(t=ti,j)を用いる。
【0051】
ステップS104において、CPU11は、データの各々について生成した単語ベクトルを用いて、単語ベクトル間の距離を算出する。
【0052】
ステップS106において、CPU11は、単語ベクトル間の距離に基づいて、階層的クラスタリングの手法を用いて、データ群のデータの各々をクラスタの何れかに分類する。
【0053】
ステップS108において、CPU11は、クラスタの分類ごとに、分類に含まれるデータの内容の種別(路面状況)ごとの分類であるサブ分類の各々について信頼度を算出する。サブ分類の信頼度は、上記(1)式に従って、当該サブ分類における内容の出現頻度と、当該サブ分類における情報源のデータについて定められた重みwi,jの平均とに基づいて算出する。
【0054】
ステップS110において、CPU11は、閾値以上の信頼度に対応する路面状況の内容を示すラベルを抽出する。
【0055】
ステップS112において、CPU11は、抽出したラベルと共に、ラベルの内容を含むデータ群のデータを抽出して出力する。
【0056】
以上説明したように本実施形態の情報抽出装置22によれば、適切な情報を効率よく抽出することができる。
【0057】
また、従来の手法では文字列と数値とを同時に扱うことは難しかったが、本手法によって、日時、場所、及び内容をまとめて考慮したクラスタリングが可能となる。また、情報源について定めた重み及び出現頻度に基づく信頼度を利用するためで、複数の情報源から確からしい情報の抽出が可能となる。
【0058】
また、上述した実施形態では、サブ分類ごとに信頼度を算出してデータを抽出する場合について説明したが、これに限定されるものではない。例えば、クラスタの分類について、サブ分類の信頼度を統合して、閾値以上のクラスタの分類に含まれるデータの内容の内訳、及びサブ分類の信頼度を抽出するようにしてもよい。
【0059】
なお、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した情報抽出処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、情報抽出処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0060】
また、上記各実施形態では、情報抽出プログラムがストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0061】
以上の実施形態に関し、更に以下の付記を開示する。
【0062】
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得し、
前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成し、
前記単語ベクトル間の距離を算出し、
前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類し、
前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する、
ように構成されている情報抽出装置。
【0063】
(付記項2)
情報源ごとの、対象に関する内容、前記内容が記録された場所、及び前記内容が記録された日時を含むデータからなるデータ群を取得し、
前記データ群の前記データの各々について、前記日時、前記場所、前記日時に基づく重みを用いた内容、及び前記内容の種別のそれぞれを成分とする単語ベクトルを生成し、
前記単語ベクトル間の距離を算出し、
前記単語ベクトル間の距離に基づいて前記データ群のデータの各々を分類し、
前記分類についての信頼度を算出し、前記信頼度に基づいて前記データ群からデータを抽出する、
ことをコンピュータに実行させる情報抽出プログラムを記憶した非一時的記憶媒体。
【符号の説明】
【0064】
10 情報抽出システム
20 ユーザ端末
22 情報抽出装置
120 取得部
122 生成部
124 距離算出部
126 分類部
128 抽出部
図1
図2
図3
図4
図5
図6
図7