特許第6018545号(P6018545)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許6018545イベント情報抽出装置、その動作方法およびコンピュータプログラム
<>
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000017
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000018
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000019
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000020
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000021
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000022
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000023
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000024
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000025
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000026
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000027
  • 特許6018545-イベント情報抽出装置、その動作方法およびコンピュータプログラム 図000028
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6018545
(24)【登録日】2016年10月7日
(45)【発行日】2016年11月2日
(54)【発明の名称】イベント情報抽出装置、その動作方法およびコンピュータプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20161020BHJP
【FI】
   G06F17/30 220B
   G06F17/30 170A
   G06F17/30 210D
【請求項の数】7
【全頁数】17
(21)【出願番号】特願2013-107703(P2013-107703)
(22)【出願日】2013年5月22日
(65)【公開番号】特開2014-229047(P2014-229047A)
(43)【公開日】2014年12月8日
【審査請求日】2015年9月28日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100129230
【弁理士】
【氏名又は名称】工藤 理恵
(72)【発明者】
【氏名】数原 良彦
(72)【発明者】
【氏名】戸田 浩之
(72)【発明者】
【氏名】西岡 秀一
(72)【発明者】
【氏名】鷲崎 誠司
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2005−092253(JP,A)
【文献】 特開2007−219880(JP,A)
【文献】 特開2013−097723(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、
前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置であって、
前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
前記テキスト情報および候補を提示する改善データ選択部とを備え、
前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
当該各予測確信度からなる予測確信度ベクトルを生成し、
前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、
前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
前記改善データ選択部は、
前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
ことを特徴とするイベント情報抽出装置。
【請求項2】
前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
ことを特徴とする請求項1記載のイベント情報抽出装置。
【請求項3】
前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
ことを特徴とする請求項1記載のイベント情報抽出装置。
【請求項4】
文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置の動作方法であって、
前記イベント情報抽出装置は、
前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、
複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、
前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、
前記テキスト情報および候補を提示する改善データ選択部とを備え、
前記動作方法は、
前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、
当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、
前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、
当該各予測確信度からなる予測確信度ベクトルを生成し、
前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、
前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、
前記改善データ選択部が、
前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する
ことを特徴とするイベント情報抽出装置の動作方法。
【請求項5】
前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする
ことを特徴とする請求項4記載のイベント情報抽出装置の動作方法。
【請求項6】
前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする
ことを特徴とする請求項4記載のイベント情報抽出装置の動作方法。
【請求項7】
請求項1ないし3のいずれかに記載のイベント情報抽出装置としてコンピュータを機能させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、イベント情報抽出装置、その動作方法およびコンピュータプログラムに関するものである。
【背景技術】
【0002】
ウェブ上において、ローカルなイベント開催情報について記述されているウェブページやブログ記事からイベント情報を自動的に抽出することにより、人手をかけずにイベント情報DBを構築でき、イベント推薦サービスなどに活用することができる。イベント名、場所、日時を抽出できれば、場所や日時に基づいたイベント推薦が可能となる。ウェブ文書などテキストからイベント情報を抽出する技術としては、例えば非特許文献1、非特許文献2、非特許文献3に記載のものがあり、これら技術を用いて各カテゴリに対する候補、すなわちイベント名候補、場所候補、日時候補を抽出できる。また、それぞれのカテゴリについて人手によってタグ付けされた正解データがあれば、教師あり機械学習の枠組みを用いて、イベント名、場所、日時に対して自動的に判別を行う判別器を構築でき、判別器を用いて、ウェブ文書などから自動的にイベント名、場所、日時を抽出できる。また、個別に判別器を適用するのではなく、予測に構造を持たせ、抽出された候補の中から正しい組み合わせを選択するモデルを構築する構造出力学習を用いる方法が考えられる。その場合には、例えば非特許文献5の技術を用いて予測モデルの構築が可能である。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】山田寛康, 工藤拓, 松本裕治, "Support Vector Machine を用いた日本語固有表現抽出", 情報処理学会論文誌43(1), 44-53, 2002-01-15
【非特許文献2】平野徹, 松尾義博, 菊井玄一郎, "地理的距離を用いた地名の曖昧性解消",第70 回情報処理学会全国大会, 2008.
【非特許文献3】廣嶋伸章, 別所克人, 小池義昌, 片岡良治, "記述された日時の有効範囲を考慮した日時指定検索", 第3 回Web とデータベースに関するフォーラム(WebDBForum2010), 2010.
【非特許文献4】平博順, 永田昌明, "構造学習を用いた述語項構造解析", 第14 回言語処理学会年次大会, 2008.
【非特許文献5】Crammer, K., Dekel, O., Keshet, J., Shalev-Shwartz, S. and Singer,Y., "Online Passive-Aggressive Algorithm", Journal of Machine Learning, Vol.7,pp.551585, 2006.
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来技術を利用して高精度なモデルを構築するためには、大量の正解データが必要となる。正解データ作成はコストが高いため、十分な正解データを用意できない、という状況が起こりうる。従来手法では、正解データを選択する基準がないため、ランダムに正解付与対象のデータを選択せざるを得ず、効率よくモデル精度を向上することが困難という課題があった。
【0005】
本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、正解データの作成支援を可能とするイベント情報抽出装置、その動作方法およびコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、第1の本発明は、文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置であって、前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、前記テキスト情報および候補を提示する改善データ選択部とを備え、前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、当該各予測確信度からなる予測確信度ベクトルを生成し、前記改善データ選択部は、前記予測対象文書データベースのテキスト情報毎に、前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、前記改善データ選択部は、前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示することを特徴とする。
【0007】
例えば、前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする。
【0008】
例えば、前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする。
【0009】
第2の本発明は、文書毎に該文書のテキスト情報を備える予測対象文書データベースおよび前記文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベースを備え、前記予測対象文書データベースから1つの文書のテキスト情報を読み出し、前記予測対象抽出候補データベースから当該文書の各カテゴリの全ての候補を読み出し、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示するイベント情報抽出装置の動作方法であって、前記イベント情報抽出装置は、前記予測対象文書データベースおよび前記予測対象抽出候補データベースと、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベースと、前記カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベースと、前記テキスト情報および候補を提示する改善データ選択部とを備え、前記動作方法は、前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、前記予測対象抽出候補データベースにおける当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成し、当該各特徴ベクトルについて、前記重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成し、前記各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算し、当該各予測確信度からなる予測確信度ベクトルを生成し、前記改善データ選択部が、前記予測対象文書データベースのテキスト情報毎に、前記カテゴリ重要度からなるベクトルと前記予測確信度ベクトルとの内積である重みつき予測確信度を計算し、前記改善データ選択部が、前記予測対象文書データベースおよび予測対象抽出候補データベースから、前記重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示することを特徴とする。
【0010】
例えば、前記改善データ選択部は、前記選択された各予測スコアの中の最大値から当該最大値を除いた予測スコアの中の最大値を減算した値を予測確信度とする。
【0011】
例えば、前記改善データ選択部は、前記選択された各予測スコアからなる予測スコアベクトルに対する負のエントロピーを予測確信度とする。
【発明の効果】
【0012】
本発明によれば、正解データの作成を支援することで、効率よくモデル精度を向上することができる。
【図面の簡単な説明】
【0013】
図1】本実施の形態に係るイベント情報抽出装置の構成を示す図である。
図2】文書DB1のデータ構造の例を示す図である。
図3】抽出候補DB2のデータ構造の例を示す図である。
図4】正解DB3のデータ構造の例を示す図である。
図5】イベント抽出モデルDB5のデータ構造の例を示す図である。
図6】イベント抽出モデル学習部4による処理の流れを示す図である。
図7】予測対象文書DB7のデータ構造の例を示す図である。
図8】予測対象抽出候補DB8のデータ構造の例を示す図である。
図9】イベントDB9のデータ構造の例を示す図である。
図10】イベント抽出部6による処理の流れを示す図である。
図11】カテゴリ重要度DB11 のデータ構造の例を示す図である。
図12】改善データ選択部10による処理の流れを示す図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について図面を参照して説明する。
【0015】
図1に示すように、本実施の形態に係るイベント情報抽出装置は、文書データベース(以下、データベースをDBと略す)1と、抽出候補DB2と、正解DB3と、イベント抽出モデル学習部4と、イベント抽出モデルDB5と、イベント抽出部6と、予測対象文書DB7と、予測対象抽出候補DB8と、イベントDB9と、改善データ選択部10と、カテゴリ重要度DB11とを備える。改善データ選択部10は、アノテータに対し、表示装置など(図示せず)を用いて選択候補等を提示し、入力装置(図示せず)を介して、選択結果(アノテーション)を受信する機能を有している。
【0016】
本実施の形態では説明のため,文書を分類するための項目であるカテゴリとして、イベント名,場所,日時を用いるが、それ以外のカテゴリ(例えば料金,主催団体など)を用いてもよい。
【0017】
(イベント抽出モデル学習部4)
イベント抽出モデル学習部4は、文書DB1、抽出候補DB2、正解DB3、試行回数Tを入力とし、イベント抽出モデルDB5を出力する。
【0018】
(文書DB1)
図2に示すように、文書DB1は、文書の本文(以下、テキスト情報)に対して、文書IDを付与したレコードを予め格納したDBである。テキスト情報は、イベントの抽出対象である。
【0019】
(抽出候補DB2)
図3に示すように、抽出候補DB2は、文書の文書ID、イベント名候補、場所候補、日時候補から構成される。つまり、それぞれ抽出対象のイベント情報の各カテゴリ(この場合、イベント名、場所、日時の3カテゴリのそれぞれ)における抽出候補がカンマ区切りで格納されている。例えば文書ID「1」のイベント名候補としては、「イベント」と「小樽ロングクリスマス2012 Final」の2つが格納されている。記述の簡略化のため、抽出候補DB2には記載していないものの、イベント名候補、場所候補、日時候補については文書中のどの位置に出現されたか、という位置情報も同時に付与されている。すなわち、文書DB1における同一文書IDの位置情報を保持している。
【0020】
イベント名候補の抽出には、非特許文献1を、場所候補の抽出には非特許文献2を、日時候補の抽出には非特許文献3を用いることで、文書DB1から抽出候補DB2を生成可能である。
【0021】
(正解DB3)
図4に示すように、正解DB3には、各文書に対する正解データ、つまり、正解イベント名、正解場所、正解日時が格納されている。正解DB3は、抽出候補DB2と同様に、それぞれの表現が文書のどの位置に出現したかという位置情報を内部的に保持しているものとする。
【0022】
(イベント抽出モデルDB5)
図5に示すように、イベント抽出モデルDB5は、イベント抽出モデルを記憶し、イベント抽出モデルはM次元の特徴に対する重みパラメータからなる重みベクトルw=(w1,w2,…,wが格納されるものである。
【0023】
(イベント抽出モデル学習部4)
図6に示すように、
(S1-1)イベント抽出モデル学習部4は、重みベクトルをw=(0,0,…,0)と初期化する。ここでwの次元数は後述する特徴ベクトルの要素数と同じであり、M次元とする。また、試行回数を表す変数tを1に初期化する。
【0024】
(S1-2)イベント抽出モデル学習部4は、正解DB3から未処理の文書IDをランダムに選択する。以下、これをdという。
【0025】
(S1-3)イベント抽出モデル学習部4は、文書DB1、抽出候補DB2から、文書IDがdのレコードを選択し、全てのカテゴリにおける可能な候補の組み合わせについて、特徴ベクトルを作成する。
【0026】
ここで全ての可能な候補の組み合わせとは、図3における文書ID「2」の例では、
<イベント名> <場所> <日時>
第20回横須賀祭り - 神奈川県横須賀市 - 2012年10月20日
第20回横須賀祭り - 神奈川県横須賀市 - 2012年12月20日
. . .
お祭り - 東京都 - 2013年1月1日
のように、イベント名、場所、日時について全ての可能な候補の組み合わせ集合であり、以下、カテゴリ組み合わせ集合という。カテゴリ組み合わせ集合はYで表す。
【0027】
また、カテゴリ組み合わせ集合の要素をカテゴリ組み合わせ、またはカテゴリ組み合わせベクトルと呼び、yで表す。
【0028】
この例では、カテゴリ組み合わせ集合は、2・2・3=12通りのカテゴリ組み合わせからなる。
【0029】
イベント抽出モデル学習部4は、このようなカテゴリ組み合わせ集合と文書DB1から取得したテキスト情報xをもとに、各カテゴリ組み合わせについて、特徴を表す特徴ベクトルΦ(y,x)を作成する。ここでxは該当文書IDのテキスト情報のベクトル表現である。Φ(y,x)はM次元ベクトルであり、yとxを入力とするM個の特徴関数φ(y,x)の出力から構成される。特徴ベクトルΦ(y,x)を構成する特徴関数φ(y,x)の例としては、例えば「yの3つの候補が文書内の近い位置に出現する」という特徴を捉えるため、3つの表現が50文字以内に出現する場合に1、そうでない場合に0を出力する特徴関数が挙げられる。また「イベント名に含まれる文字列が本文内の他の場所で出現する」場合に1、そうでない場合に0を出力する特徴関数を利用することもできる。このように、ここでは、イベント情報らしさを捉えるための特徴関数を利用することができる。その他の文字列に基づく基本的な特徴関数としては、例えば、非特許文献4に記載のものを用いることができる。
【0030】
(S1-4)イベント抽出モデル学習部4は、重みベクトルと特徴ベクトルの内積、つまり、t番目の試行回において選択された文書におけるカテゴリ組み合わせ集合をYtとし、そのうち正解のカテゴリ組み合わせをytとし、当該文書のテキスト情報をxtで表現した場合の
【数1】
【0031】
を計算する。すなわち、イベント抽出モデル学習部4は、
【数2】
【0032】
であるような
【数3】
【0033】
を選択する。
【0034】
(S1-5)イベント抽出モデル学習部4は、重みベクトルにおいてコストを考慮した損失の計算を行う。t番目の試行回における損失ltは、
【数4】
【0035】
によって計算される。
【0036】
イベント抽出モデル学習部4は、損失lt>0の場合、損失ltに応じて重みベクトルwを更新する。この重みベクトルwの更新には、例えば非特許文献5の方法を用いることができる。
【0037】
(S1-6)tをt+1とする。
【0038】
(S1-7)t≦Tである場合には(S1-2)に戻り、そうでない場合には(S1-8)に進む。
【0039】
(S1-8)イベント抽出モデル学習部4は、全ての試行が終わったら、重みベクトルwをイベント抽出モデルDB5に出力する。
【0040】
(イベント抽出部6)
イベント抽出部6は、イベント抽出モデルDB5、予測対象文書DB7、予測対象抽出候補DB8を入力として、イベントDB9を出力する。
【0041】
(予測対象文書DB7)
図7に示すように、予測対象文書DB7は、文書DB1と同様に、文書のテキスト情報に対して、文書IDを付与したレコードを予め格納したDBである。テキスト情報は、イベントの抽出対象である。
【0042】
(予測対象抽出候補DB8)
図8に示すように、予測対象抽出候補DB8には、抽出候補DB2と同様に、イベント名候補、場所候補、日時候補が格納されている。
【0043】
(イベントDB9)
図9に示すように、イベントDB9には、抽出されたイベントのイベントID、イベント名、場所、日時からなるイベント情報が格納される。
【0044】
(イベント抽出部6)
図10に示すように、
(S2-1)イベント抽出部6は、予測対象文書DB7から未処理の文書IDを選択する。以下、これをd0という。
【0045】
(S2-2)イベント抽出部6は、予測対象抽出候補DB8から、文書IDがd0のレコードを選択し、イベント抽出モデル学習部4における(S1-3)と同様に、カテゴリ組み合わせ集合における各カテゴリ組み合わせについて、特徴ベクトルΦ(y,x)を作成する。
【0046】
カテゴリ組み合わせは、
【数5】
【0047】
と表現される。
【0048】
(S2-3)イベント抽出部6は、イベント抽出モデルDB5に格納された重みベクトルと(S2-2)で作成された特徴ベクトルの内積を計算し、内積を最大とするカテゴリ組み合わせ
【数6】
【0049】
を選択する。すなわち、
【数7】
【0050】
を計算する。
【0051】
(S2-4)イベント抽出部6は、取得したカテゴリ組み合わせ
【数8】
【0052】
のうち、イベント名候補、場所候補、日時候補をそれぞれイベント名、場所、日時としてイベントDB9に出力し、イベントIDを付与する。
【0053】
(S2-5)イベント抽出部6は、予測対象文書DB7に未処理の文書IDがある場合には(S2-1)に戻り、そうでない場合には処理を終了する。
【0054】
(改善データ選択部10)
改善データ選択部10は、予測対象文書DB7、予測対象抽出候補DB8、イベント抽出モデルDB5、カテゴリ重要度DB11を入力として受け取る。
【0055】
(カテゴリ重要度DB11)
図11に示すように、カテゴリ重要度DB11には、各カテゴリつまり、イベント名、場所、日時に対するカテゴリ重要度が格納されている。カテゴリ重要度は、例えば現在のモデルによる各カテゴリに対する個別の正解率に基づいて設定でき、予め作成されているものとする。ここでカテゴリ重要度は、その値が大きいほど高いとする。各カテゴリ重要度は[0,1]の値域で、かつ総和が1になるよう正規化されているものとする。
【0056】
(改善データ選択部10)
図12に示すように、
(S3-1)改善データ選択部10は、予測対象文書DB7から未処理の文書IDを選択する。以下、これをd00という。
【0057】
(S3-2)改善データ選択部10は、予測対象抽出候補DB8から、文書IDがd00のレコードを選択し、イベント抽出モデル学習部4における(S1-3)と同様に、カテゴリ組み合わせ集合における各カテゴリ組み合わせについて、特徴ベクトルΦ(y,x)を作成する。
【0058】
カテゴリ組み合わせは、
【数9】
【0059】
と表現される。
【0060】
(S3-3)改善データ選択部10は、イベント抽出モデルDB5に格納された重みベクトルと(S3-2)で作成された特徴ベクトルとの内積を計算し、各内積(スコア)からなるスコアベクトル、すなわち
【数10】
【0061】
を取得する。
【0062】
ここでwは、イベント抽出モデルDB5に格納された重みベクトルである。
【0063】
(S3-4)改善データ選択部10は、予測スコアを計算し、これを基に、予測確信度ベクトルを計算する。予測確信度ベクトルは、文書に対して各カテゴリつまり、イベント名、場所、日時のそれぞれに対する予測確信度によって構成される。すなわち、1文書に対して与えられる予測確信度ベクトルはc=(cevent, cgeo, ctime)Tの3次元ベクトルであり、この予測確信度ベクトルが文書の総数だけ計算される。基本的にcevent、cgeo、ctimeの計算方法は同じであるため、以下、ceventの計算方法の例を説明する。
【0064】
改善データ選択部10は、例えば、当該文書に対して「第20回横須賀祭り」「お祭り」「横須賀引っ越し」という3つのイベント名候補が存在する場合には、2つのイベント名候補からなる組が3組得られる。
【0065】
改善データ選択部10は、イベント名候補「第20回横須賀祭り」についてはこれ1つだけを使用し、場所候補、日時候補については全ての候補を使用し、こうして上記のようにスコアベクトルを計算し、各スコアベクトル内のイベント名候補に対応する値(内積)から最大の値を選択し、これを「第20回横須賀祭り」に対する予測スコアとする。
【0066】
改善データ選択部10は、イベント名候補「お祭り」、「横須賀引っ越し」についても同様に予測スコアを計算する。
【0067】
これにより、改善データ選択部10は、3つのイベント名候補に対応する予測スコアからなる予測スコアベクトルs=(s1, s2, s3)Tを得る。説明の都合上、s1 ≧ s2 ≧ s3 と降順に並び替えているものとする.
改善データ選択部10は、ここでs1が他の値に比べて顕著に大きい場合、本予測モデルは確信を持って判別していると解釈し、cevent(予測確信度)を高い値に設定する。
【0068】
改善データ選択部10は、例えば、s1 - s2を計算し、これをcevent(予測確信度)とするる。
【0069】
または、予測スコアベクトルsの全ての予測スコアを用いて予測確信度を計算する方法も考えられる。具体的にはエントロピーを用いて計算する方法がある。全ての確率変数に対する確率が同じような値を持つ確率分布に対してはエントロピーが高くなり、一部の確率変数に対する確率のみ高い分布の場合にエントロピーの値が低くなるという性質を利用し、予測スコアを確率に変換した上で、予測スコアベクトルsに対する負のエントロピーを
【数11】
【0070】
によって計算し、これを予測確信度とする。なお、
【数12】
【0071】
は、siを確率に変換するための項である.
改善データ選択部10は、場所候補、日時候補についても同様の方法で予測確信度を計算する。これにより、改善データ選択部10は、イベント名、場所、日時に対する予測確信度からなる予測確信度ベクトルcを得る。
【0072】
改善データ選択部10は、この予測確信度ベクトルcを予測確信度行列Cに追加する。予測確信度行列Cは、各文書に対応する予測確信度ベクトルを有し、
【数13】
【0073】
によって表現される。すなわちN行3列の行列である。なおここでNは予測対象文書DB7に格納される文書数である。
【0074】
(S3-5)改善データ選択部10は、予測対象文書DB7に未処理の文書IDがある場合にはS3-1)に戻り、そうでない場合、(S3-6)に進む。
【0075】
(S3-6)改善データ選択部10は、予測確信度行列Cとカテゴリ重要度DB11のカテゴリ重要度を基に、重みつき予測確信度からなる重みつき予測確信度ベクトルを計算する。
【0076】
図11の例によれば、カテゴリ重要度は
【数14】
【0077】
であり、改善データ選択部10は、重みつき予測確信度を、
【数15】
【0078】
によって計算する。つまり、重みつき予測確信度は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である。
【0079】
これにより、カテゴリ重要度が高いカテゴリについては、予測確信度が低い場合には、重みつき予測確信度をより低くできる。
【0080】
重みつき予測確信度ベクトルuはN 行1 列のベクトルであり、各要素がそれぞれの文書に対応する重みつき予測確信度である。
【0081】
改善データ選択部10は、この中から最小の重みつき予測確信度を選択し、対応する文書IDを取得する。
【0082】
(S3-7)改善データ選択部10は、予測対象文書DB7から、当該文書IDに対応するテキスト情報を読み出し、予測対象抽出候補DB8から、当該文書IDに対応するイベント名候補、場所候補、日時候補を読み出し、アノテータに提示する。
【0083】
アノテータは、テキスト情報を読み、その内容に対応する、つまり正解と思われるイベント名候補、場所候補、日時候補を1つづつ選択する。
【0084】
改善データ選択部10は、選択されたイベント名候補、場所候補、日時候補を受信する。
【0085】
(S3-8)改善データ選択部10は、イベント名候補、場所候補、日時候補を正解イベント名、正解場所、正解日時として、正解DB3に出力する。
【0086】
また、改善データ選択部10は、提示したテキスト情報を予測対象文書DB7から文書DB1へ移動し、提示したイベント名候補、場所候補、日時候補を予測対象抽出候補DB8から抽出候補DB2に移動し、処理を終える。
【0087】
以上のように、本実施の形態によれば、重みつき予測確信度の計算し、最小の重みつき予測確信度に対応するイベント名候補等をアノテータに提示し、選択された正しいイベント名候補等、つまり正解イベント名等を獲得するので、予測対象抽出候補DB8に記憶させるデータ数が少なくても、効率的に正解DB3を構築できる。換言すれば、カテゴリ重要度が高く、予測確信度が低いような文書について、正解データを学習させることができる。すなわち、正解データ(正解DB3)の作成支援を可能とすることができる。
【0088】
具体的には、イベント情報抽出装置は、文書毎に該文書のテキスト情報を備える予測対象文書データベース7およびその文書毎に2以上のカテゴリのそれぞれについて候補を備える予測対象抽出候補データベース8を備え、予測対象文書データベース7から1つの文書のテキスト情報を読み出し(S3-6)、予測対象抽出候補データベース8から当該文書の各カテゴリの全ての候補を読み出し(S3-6)、当該テキスト情報の内容に対応する候補を選択させるべく、当該テキスト情報および全ての候補を提示する(S3-7)イベント情報抽出装置であって、予測対象文書データベース7および予測対象抽出候補データベース8と、複数の重みパラメータを有する重みベクトルを備えるイベント抽出モデルデータベース(5)と、カテゴリ毎のカテゴリ重要度を有するカテゴリ重要度データベース11と、テキスト情報および候補を提示する改善データ選択部10とを備える。
【0089】
そして、改善データ選択部10は、まず、予測対象文書データベース7のテキスト情報毎に以下の処理を行う。
【0090】
最初に、改善データ選択部10は、予測対象抽出候補データベース8における当該テキスト情報に対応する各カテゴリで1づつの候補からなるカテゴリ組み合わせのそれぞれついて特徴ベクトルを作成する(S3-2)。
【0091】
次に、改善データ選択部10は、当該各特徴ベクトルについて、重みベクトルとの内積の値を計算し、当該各値からなるスコアベクトルを作成する(S3-3)。
【0092】
次に、改善データ選択部10は、各カテゴリについて、当該カテゴリについては1つの候補を使用し、他のカテゴリについては全ての候補を使用してスコアベクトルを作成し、該各スコアベクトルに含まれる値であり且つ当該1つの候補を使用したカテゴリの値であり且つ最大の値を予測スコアとして選択し、当該カテゴリの他の候補についても予測スコアを選択し(S3-3)、当該選択された各予測スコアのバラツキの大きさに対応する予測確信度を計算する(S3-4)。
【0093】
次に、改善データ選択部10は、当該各予測確信度からなる予測確信度ベクトルを生成する(S3-4)。
【0094】
改善データ選択部10は、続いて、予測対象文書データベース7のテキスト情報毎に以下の処理を行う。
【0095】
つまり、改善データ選択部10は、カテゴリ重要度からなるベクトルと予測確信度ベクトルとの内積である重みつき予測確信度を計算する(S3-6)。
【0096】
そして、改善データ選択部10は、予測対象文書データベース7および予測対象抽出候補データベース8から、重みつき予測確信度が最小の文書に対応するテキスト情報および候補を読み出し提示する(S3-7)。
【0097】
なお、本実施の形態に係るイベント情報抽出装置またはその一部(例えば、改善データ選択部10)としてコンピュータを機能させるためのコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録でき、また、インターネットなどの通信網を介して伝送させて、広く流通させることができる。
【符号の説明】
【0098】
1…文書DB
2…抽出候補DB
3…正解DB
4…イベント抽出モデル学習部
5…イベント抽出モデルDB
6…イベント抽出部
7…予測対象文書DB
8…予測対象抽出候補DB
9…イベントDB
10…改善データ選択部
11…カテゴリ重要度DB
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12