特許第5939587号(P5939587)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許5939587アノテーションの相関を計算する装置及び方法
<>
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000008
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000009
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000010
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000011
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000012
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000013
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000014
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000015
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000016
  • 特許5939587-アノテーションの相関を計算する装置及び方法 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5939587
(24)【登録日】2016年5月27日
(45)【発行日】2016年6月22日
(54)【発明の名称】アノテーションの相関を計算する装置及び方法
(51)【国際特許分類】
   G06F 17/30 20060101AFI20160609BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 220B
【請求項の数】13
【全頁数】18
(21)【出願番号】特願2014-66947(P2014-66947)
(22)【出願日】2014年3月27日
(65)【公開番号】特開2015-191348(P2015-191348A)
(43)【公開日】2015年11月2日
【審査請求日】2016年1月5日
【早期審査対象出願】
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
(74)【代理人】
【識別番号】100108501
【弁理士】
【氏名又は名称】上野 剛史
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】宅間 大介
(72)【発明者】
【氏名】村上 拓真
(72)【発明者】
【氏名】牧野 祐己
【審査官】 樋口 龍弥
(56)【参考文献】
【文献】 国際公開第2013/147304(WO,A1)
【文献】 特表2013−536491(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
アノテーションの相関を計算する装置であって、
データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、当該第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得する第1の取得部と、
前記複数のアノテーションの相関の計算に用いる第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得する第2の取得部と、
前記複数の第1の確信度と前記複数の第2の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出する算出部と
を含む、装置。
【請求項2】
前記第1の取得部は、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、前記複数の第1の確信度を取得し、
前記算出部は、前記複数の第1の確信度のそれぞれの前記第1のデータ群における第1の代表値を求める処理を当該複数の第1の確信度について行うことにより複数の第1の代表値を算出し、当該複数の第1の代表値と前記複数の第2の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出する、請求項1の装置。
【請求項3】
前記算出部は、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出する、請求項2の装置。
【請求項4】
前記算出部は、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくする、請求項3の装置。
【請求項5】
前記算出部は、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出する、請求項2の装置。
【請求項6】
前記第1の取得部は、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、当該第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得し、
前記第2の取得部は、前記2つのアノテーションの相関の計算に用いる前記第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得し、
前記算出部は、前記2つの第1の確信度のそれぞれの前記第1のデータ群における平均値を求める処理を当該2つの第1の確信度について行うことにより2つの平均値μa0,μb0を算出し、前記2つの第2の確信度のそれぞれの前記第2のデータ群における平均値を求める処理を当該2つの第2の確信度について行うことにより2つの平均値E,Eを算出し、前記2つの第2の確信度の積の前記第2のデータ群における平均値Eabを算出し、下記の算出式により、前記2つのアノテーションの相関の推定値cを算出する、請求項1の装置。
【数1】
【請求項7】
コンピュータがアノテーションの相関を計算する方法であって、
前記コンピュータが、データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、当該第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得するステップと、
前記コンピュータが、前記複数のアノテーションの相関の計算に用いる第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得するステップと、
前記コンピュータが、前記複数の第1の確信度と前記複数の第2の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出するステップと
を含む、方法。
【請求項8】
前記複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、前記複数の第1の確信度を取得することを含み、
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の確信度のそれぞれの前記第1のデータ群における第1の代表値を求める処理を当該複数の第1の確信度について行うことにより複数の第1の代表値を算出し、当該複数の第1の代表値と前記複数の第2の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出することを含む、請求項7の方法。
【請求項9】
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
【請求項10】
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくすることを含む、請求項9の方法。
【請求項11】
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
【請求項12】
前記複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、当該第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得することを含み、
前記複数の第2の確信度を取得するステップは、前記2つのアノテーションの相関の計算に用いる前記第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得することを含み、
前記複数のアノテーションの相関の推定値を算出するステップは、前記2つの第1の確信度のそれぞれの前記第1のデータ群における平均値を求める処理を当該2つの第1の確信度について行うことにより2つの平均値μa0,μb0を算出し、前記2つの第2の確信度のそれぞれの前記第2のデータ群における平均値を求める処理を当該2つの第2の確信度について行うことにより2つの平均値E,Eを算出し、前記2つの第2の確信度の積の前記第2のデータ群における平均値Eabを算出し、下記の算出式により、前記2つのアノテーションの相関の推定値cを算出することを含む、請求項7の方法。
【数2】
【請求項13】
アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、
前記コンピュータに、請求項7乃至12の何れかに記載の方法を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アノテーションの相関を計算する装置及び方法に関する。
【背景技術】
【0002】
テキスト等のデータに対しパターンマッチや自然言語処理等によって付与される情報をアノテーションと呼ぶ。例えば、文字列のパターンマッチにより抽出され付与された製品名や価格等のアノテーション、「煙が出た」、「においがした」といった表現を解釈することで付与された「熱の問題」というアノテーション等が考えられる。
【0003】
このようなアノテーションについて、その相関を知りたい場合がある。例えば、商品aでは一般の商品に比べて問題bが起こり易いかどうかを調べるために、アノテーションa,bの相関を知りたい、といった場合である。
【0004】
ここで、テキストに対するアノテーションの付与に関する技術は知られている(特許文献1参照)。特許文献1は、学習データ生成装置が、アノテーションのクラスを示すラベルが付与された複数の学習データ候補を、それぞれの文脈情報を含む特徴量に基づいて、クラスタリングする、学習データ候補クラスタリング部と、クラスタリング結果で得られた各クラスタを参照して、各クラスタ内の学習データ候補のラベルの分布を求め、求めた分布に基づいて、設定された条件を満たす学習データ候補を特定し、特定した学習データ候補を用いて学習データを生成する、学習データ生成部とを備えていることを開示する。
【0005】
また、2つのファジィ集合の相関を計算する技術も知られている(例えば、非特許文献1参照)。非特許文献1は、スピアマンの順位相関係数を使って、2つのファジィ集合の相関を計算することを開示する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】WO2010/119615号公報
【非特許文献】
【0007】
【非特許文献1】B.B.Chaudhuri,A.Bhattacharya,“On correlation between two fuzzy sets”,Fuzzy Sets and Systems 118 (2001) 447-456
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、アノテーションの相関の推定値は、データにアノテーションを付与するアノテータの性能によって変化する。アノテータの性能が低いと、真のアノテーションの相関に近い推定値を求めることができないという問題がある。
【0009】
尚、特許文献1及び非特許文献1の技術は、このような問題を解決する手法を提示するものではない。
【0010】
本発明の目的は、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようにすることにある。
【課題を解決するための手段】
【0011】
かかる目的のもと、本発明は、アノテーションの相関を計算する装置であって、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得する第1の取得部と、複数のアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得する第2の取得部と、複数の第1の確信度と複数の第2の確信度とに基づいて、複数のアノテーションの相関の推定値を算出する算出部とを含む、装置を提供する。
【0012】
この装置において、第1の取得部は、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、複数の第1の確信度を取得し、算出部は、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより複数の第1の代表値を算出し、複数の第1の代表値と複数の第2の確信度とを用いて、複数のアノテーションの相関の推定値を算出する、ものであってよい。
【0013】
その場合、算出部は、複数の第1の代表値の何れかが大きくなると複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。そして、算出部は、複数の第2の確信度の何れかの第2のデータ群における第2の代表値から複数の第1の代表値の何れかを減ずる式で除する項を含む算出式により、複数のアノテーションの相関の推定値を算出するに当たり、式の値を大きくする、ものであってよい。
【0014】
また、算出部は、複数の第2の確信度の積の第2のデータ群における第3の代表値を、複数の第2の確信度のそれぞれの第2のデータ群における第2の代表値を求める処理を複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、複数の第1の代表値を用いて補正する算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。
【0015】
また、この装置において、第1の取得部は、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得し、第2の取得部は、2つのアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得し、算出部は、2つの第1の確信度のそれぞれの第1のデータ群における平均値を求める処理を2つの第1の確信度について行うことにより2つの平均値μa0,μb0を算出し、2つの第2の確信度のそれぞれの第2のデータ群における平均値を求める処理を2つの第2の確信度について行うことにより2つの平均値E,Eを算出し、2つの第2の確信度の積の第2のデータ群における平均値Eabを算出し、下記の算出式により、2つのアノテーションの相関の推定値cを算出する、ものであってよい。
【数1】
【0016】
更に、本発明は、コンピュータがアノテーションの相関を計算する方法であって、コンピュータが、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得するステップと、コンピュータが、複数のアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得するステップと、コンピュータが、複数の第1の確信度と複数の第2の確信度とに基づいて、複数のアノテーションの相関の推定値を算出するステップとを含む、方法も提供する。
【0017】
この方法において、複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、複数の第1の確信度を取得することを含み、複数のアノテーションの相関の推定値を算出するステップは、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより複数の第1の代表値を算出し、複数の第1の代表値と複数の第2の確信度とを用いて、複数のアノテーションの相関の推定値を算出することを含む、ものであってよい。
【0018】
更にまた、本発明は、アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、コンピュータに、上記の何れかの方法を実行させる、プログラムも提供する。
【発明の効果】
【0019】
本発明によれば、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになる。
【図面の簡単な説明】
【0020】
図1】本発明の実施の形態における相関計算システムの全体構成例を示した図である。
図2】アノテータが完璧でない場合に密度比が低めに算出される問題について説明するための図である。
図3】本発明の実施の形態における相関計算装置の機能構成例を示したブロック図である。
図4】本発明の実施の形態における相関計算装置のテスト情報記憶部に記憶されたテスト情報の一例を示した図である。
図5】本発明の実施の形態における相関計算装置の計算対象情報記憶部に記憶された計算対象情報の一例を示した図である。
図6】本発明の実施の形態における相関計算装置の密度比算出部の動作例を示したフローチャートである。
図7】(a)はX=1の文書におけるスコアYの分布を示したグラフであり、(b)はX=0の文書におけるスコアYの分布を示したグラフである。
図8】文書iにおけるアノテーションa,bの有無の4つのパターンのうち、各パターンに該当する場合のみ1となり,その他の場合に0となる確率変数を示した図である。
図9】本発明の実施の形態の効果をファジィ集合で既存式を計算した場合と比較して示したグラフである。
図10】本発明の実施の形態における相関計算装置のハードウェア構成例を示した図である。
【発明を実施するための形態】
【0021】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0022】
[本実施の形態の相関計算システムの構成]
図1は、本実施の形態における相関計算システム1の全体構成例を示した図である。図示するように、この相関計算システム1は、アノテータ10と、相関計算装置20とを含む。
【0023】
アノテータ10は、与えられたデータに対してアノテーション及びそのアノテーションの確からしさを示す確信度の一例としてのスコアを付与する装置である。
【0024】
相関計算装置20は、アノテータ10がデータに付与した複数のアノテーションの相関を計算する装置である。
【0025】
[本実施の形態の背景]
近年、アノテータ10のように、統計ベースの手法によりスコア付きのアノテーションをデータに付与する装置が増えてきたため、スコア付きのアノテーションどうしの相関を一般ユーザに分かり易い指標で提示したいというニーズがある。その際、アノテーションの相関を示す指標としては、如何なる指標を用いてもよいが、ユーザ受けのよい密度比(density ratio)の拡張として定義できるのが望ましい。
【0026】
従って、アノテーションの相関を示す指標として、本実施の形態では、密度比を用いる。ここで、密度比とは、複数のアノテーションの全てが付与されたデータの密度の、複数のアノテーションのそれぞれが付与されたデータの密度の積に対する比率である、例えば、アノテーションa,bの相関を表す密度比をcとし、全データの集合をD、アノテーションaが付与されたデータを含むデータ集合をA、アノテーションbが付与されたデータを含むデータ集合をBとすると、密度比cは「c=#(A∩B)#D/(#A#B)」によって算出される(本明細書において「#S」は集合Sの要素数を表す)。これにより、「商品aでは一般の商品に比べて問題bがc倍起こりやすい」といった解釈が可能になり、ここ数年では機械学習の中での利用も多くなっている。
【0027】
本実施の形態では、アノテータ10が完璧でない場合に、このような密度比が低めに算出される問題に着目する。
【0028】
図2は、この問題について説明するための図である。この図でも、Dは全データの集合を表し、Aは真にアノテーションaを含むデータの集合を表し、Bは真にアノテーションbを含むデータの集合を表すものとする。すると、アノテーションa,bの真の密度比は、上述したように、#(A∩B)#D/(#A#B)である。このような状態で、アノテータ10のアノテーションbに関する適合率(precision)が低い場合には、アノテーションbが付与されたデータの集合はB’のようになる。このとき、アノテーションa,bの密度比として算出される値は、#(A∩B’)#D/(#A#B’)である。ここで、A,B,B’はDに比べて小さいので、#(A∩B)と#(A∩B’)とは大きく異ならない。しかしながら、分母において#Bよりも#B’が大きいことは無視できないので、アノテータ10のアノテーションbに関する適合率が低い場合に算出された密度比は、真の密度比よりも小さくなってしまうという問題がある。
【0029】
そこで、本実施の形態では、アノテータ10のテスト段階で、負例データ(アノテーションを付けるべきでないデータ)に付与されたアノテーションのスコアの平均値が分かれば、それを用いて、真の密度比の推定値を計算する。
【0030】
尚、以下では、アノテーションを付与するデータとして、文書を例にとり説明する。また、相関を計算する対象のデータに付与されるアノテーションとしては、2つのアノテーションa,bを例にとり説明する。
【0031】
[本実施の形態の相関計算装置の構成]
図3は、本実施の形態における相関計算システムの特に相関計算装置20の機能構成例を示したブロック図である。図示するように、この相関計算装置20は、テスト情報取得部21と、テスト情報記憶部22と、計算対象情報取得部23と、計算対象情報記憶部24と、密度比算出部25とを備える。
【0032】
テスト情報取得部21は、アノテータ10をテストするために用いるテスト文書群にアノテーションa,bのそれぞれを付与すべきかどうかを示す2つの正解情報と、テスト文書群にアノテータ10が付与したアノテーションa,bのそれぞれの確からしさを示す2つのスコアとからなるテスト情報を取得する。ここで、正解情報とは、教師あり学習では、テスト文書群の各テスト文書に既に設定されたアノテーションa,bを付与すべきかどうかの情報であり、教師なし学習では、テスト文書群の各テスト文書を評価することで得られるアノテーションa,bを付与すべきかどうかの情報である。即ち、テスト文書群は、正解情報がアノテーションa,bを付与すべきでないことを示す負例文書からなる負例文書群を含む。また、スコアは、0以上1以下の数値である。本実施の形態では、アノテーションを付与すべきかどうかを評価可能な第1のデータ群の一例として、テスト文書群を用いており、アノテーションを付与すべきでないと評価される第1のデータ群の一例として、負例文書群を用いており、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度の一例として、2つのスコアを用いている。また、複数の第1の確信度を取得する第1の取得部の一例として、テスト情報取得部21を設けている。
【0033】
テスト情報記憶部22は、テスト情報取得部21が取得したテスト情報を記憶する。テスト情報の具体例については後述する。
【0034】
計算対象情報取得部23は、アノテーションa,bの相関を計算するために用いる計算対象文書群にアノテータ10が付与したアノテーションa,bのそれぞれの確からしさを示す2つのスコアからなる計算対象情報を取得する。ここで、スコアは、0以上1以下の数値であり、アノテーションa,bで検索した際にインデクスから取得する情報である。本実施の形態では、複数のアノテーションの相関の計算に用いる第2のデータ群の一例として、計算対象文書群を用いており、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度の一例として、2つのスコアを用いている。また、複数の第2の確信度を取得する第2の取得部の一例として、計算対象情報取得部23を設けている。
【0035】
計算対象情報記憶部24は、計算対象情報取得部23が取得した計算対象情報を記憶する。計算対象情報の具体例については後述する。
【0036】
密度比算出部25は、テスト情報記憶部22に記憶されたテスト情報と、計算対象情報記憶部24に記憶された計算対象情報とを用いて、密度比の推定値を算出する。そして、この密度比の推定値を磁気ディスク装置20g(図10参照)等の記憶装置に記憶したり、表示機構20d(図10参照)に表示したりする。本実施の形態では、複数のアノテーションの相関の推定値の一例として、密度比の推定値を用いており、相関の推定値を算出する算出部の一例として、密度比算出部25を設けている。
【0037】
図4は、テスト情報記憶部22に記憶されたテスト情報の一例を示した図である。図示するように、テスト情報は、文書IDと、アノテーションaに関する正解情報及びスコアと、アノテーションbに関する正解情報及びスコアとを対応付けたものである。例えば、文書ID「L1」の文書について、アノテーションaは付与すべきであり、実際に付与されたアノテーションaのスコアは0.8であり、アノテーションbは付与すべきでなく、実際に付与されたアノテーションbのスコアは0.1であることが示されている。
【0038】
尚、本実施の形態では、テスト情報を正解情報とスコアとからなる情報として説明するが、アノテーションのスコアを0又は1で付けるアノテータ10で適合率が分かっている場合は、アノテーションを付加すべき文書の数をテスト情報としてもよい。密度比算出部25でアノテーションのスコアの平均値を算出するが、これは、「アノテーションを付与すべき文書の密度×(1−適合率)」により算出できるからである。
【0039】
図5は、計算対象情報記憶部24に記憶された計算対象情報の一例を示した図である。図示するように、計算対象情報は、文書IDと、アノテーションaのスコアと、アノテーションbのスコアとを対応付けたものである。例えば、文書ID「D1」の文書について、実際に付与されたアノテーションaのスコアは0であり、実際に付与されたアノテーションbのスコアは0.2であることが示されている。
【0040】
[本実施の形態の相関計算装置の動作]
本実施の形態における相関計算装置20では、上述したように、まず、テスト情報取得部21がテスト情報を取得してテスト情報記憶部22に記憶し、計算対象情報取得部23が計算対象情報を取得して計算対象情報記憶部24に記憶する。
【0041】
その後、密度比算出部25が、テスト情報記憶部22に記憶されたテスト情報と、計算対象情報記憶部24に記憶された計算対象情報とを用いて、密度比の推定値を算出する。図6は、このときの密度比算出部25の動作例を示したフローチャートである。
【0042】
図示するように、まず、密度比算出部25は、アノテーションaにとっての負例文書(アノテーションaを付けるべきでない文書)でのアノテーションaのスコアの平均値μa0を算出する(ステップ201)。具体的には、テスト情報記憶部22に記憶されたテスト情報から、アノテーションaにとっての負例文書に関するテスト情報、つまり、アノテーションaに関する正解情報が「false」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションaのスコアの平均値をμa0とする。
【0043】
また、密度比算出部25は、アノテーションbにとっての負例文書(アノテーションbを付けるべきでない文書)でのスコアの平均値μb0を算出する(ステップ202)。具体的には、テスト情報記憶部22に記憶されたテスト情報から、アノテーションbにとっての負例文書に関するテスト情報、つまり、アノテーションbに関する正解情報が「false」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションbのスコアの平均値をμb0とする。
【0044】
次に、密度比算出部25は、計算対象文書でのアノテーションaのスコアの平均値Eを算出する(ステップ203)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれるアノテーションaのスコアの平均値をEとする。
【0045】
また、密度比算出部25は、計算対象文書でのアノテーションbのスコアの平均値Eを算出する(ステップ204)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれるアノテーションbのスコアの平均値をEとする。
【0046】
更に、密度比算出部25は、計算対象文書でのアノテーションa,bのスコアの積の平均値Eabを算出する(ステップ205)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれる文書ごとのアノテーションaのスコアとアノテーションbのスコアとの積の全文書における平均値をEabとする。
【0047】
次いで、密度比算出部25は、密度比の推定値cを、ステップ201で算出したμa0と、ステップ202で算出したμb0と、ステップ203で算出したEと、ステップ204で算出したEと、ステップ205で算出したEabとを用いて算出する(ステップ206)。具体的には、次の算出式により、密度比の推定値cを算出する。
【数2】
【0048】
ここで、μa0,μb0は、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより得られた複数の第1の代表値の一例である。E,Eは、複数の第2の確信度のそれぞれの第2のデータ群における第2の代表値を求める処理を複数の第2の確信度について行うことにより得られた複数の第2の代表値の一例である。Eabは、複数の第2の確信度の積の第2のデータ群における第3の代表値の一例である。即ち、本実施の形態では、μa0,μb0,E,E,Eabを全て平均値としているが、これらは中央値等の他の代表値であってもよい。
【0049】
尚、この算出式は、一般化して、μa0又はμb0が大きくなるとアノテーションa,bの相関の基準値からの乖離が大きくなるような算出式と捉えることができる。
【0050】
但し、この算出式を用いると、(E−μa0)又は(E−μb0)が小さい場合、つまり、アノテータ10の精度が悪く、正例文書でのスコアと負例文書でのスコアとに差が出ない場合に、問題が生じる。それは、このような場合に、既存手法では無相関になるが、本実施の形態では、算出式が0÷0の不定形に近付き、値が不安定になるという問題である。この問題が生じることは、分母及び分子が小さいことにより判定できるので、(E−μa0)及び(E−μb0)の小さくなる方を区間推定等により大きめの値に変更することで、無相関(c=1)に近付くようにするとよい。この処理は、一般化して、E,Eの何れかからμa0,μb0の何れかを減ずる式で除する項を含む算出式により、アノテーションa,bの相関の推定値を算出するに当たり、式の値を大きくする処理と捉えることができる。
【0051】
[密度比算出式の導出]
以下、この密度比の推定値cを算出する式の導出方法について詳細に説明する。
【0052】
まず、あるアノテーションを確率pで含む無限個の文書からなる文書集合を考える。この文書集合からN個の文書を取り出すとき、文書i(i=0,1,…,N)に対して、真のアノテーションの有無を表す確率変数Xを定義する。具体的には、文書iにアノテーションが存在する場合にX=1、文書iにアノテーションが存在しない場合にX=0と定義する。これにより、確率変数Xがi.i.d(independent and identically distributed)、つまり、互いに独立で同じ分布に従うとすると、E(Xi) = pとなる。
【0053】
ここで、アノテータ10によって実際に文書に付与されるアノテーションのスコアを、X=1の文書についてはYと定義し、X=0の文書についてはYと定義する。すると、真のアノテーションを知らずに無作為に抽出した文書でのアノテーションのスコアは、以下のように表すことができる。
Xi Y1 + (1 − Xi) Y0
【0054】
尚、上記の式で、X=0のときのY及びX=1のときのYはスコアには影響しないため、便宜上、Y及びYはXによらず同じ分布に従う、即ち、Xと独立である、と定義している。
【0055】
図7(a)はX=1の文書におけるスコアYの分布を示したグラフである。アノテータ10の精度が高ければ、グラフはY=1である確率が突出した形状になるであろうが、一般的には、図示するような、Y=1である確率が高く、Y=0に近付くに従って確率が低くなる形状を有する。グラフには、スコアYの平均値μ(μ1 = E(Y1))も示している。また、図7(b)はX=0の文書におけるスコアYの分布を示したグラフである。アノテータ10の精度が高ければ、グラフはY=0である確率が突出した形状になるであろうが、一般的には、図示するような、Y=0である確率が高く、Y=1に近付くに従って確率が低くなる形状を有する。グラフには、スコアYの平均値μ(μ0 = E(Y0))も示している。
【0056】
次に、2種のアノテーションa,bのそれぞれについて、これまでの説明と同様に、真のアノテーションの存在確率をp,pで表し、真のアノテーションの有無を表す確率変数をXai,Xbiで表し、正例文書でのアノテーションのスコアを表す確率変数をYa1,Yb1で表し、負例文書でのアノテーションのスコアを表す確率変数をYa0,Yb0で表す。そして、スコアの平均値は以下のように定義する。
Ea := E(Xai Ya1+ (1 − Xai) Ya0),μa1:=E(Ya1),μa0:=E(Ya0)
Eb := E(Xbi Yb1+ (1 − Xbi) Yb0),μb1:=E(Yb1),μb0:=E(Yb0)
【0057】
この状態で、アノテーションa,bが真に同一文書に付与される度合いを示す密度比をcとすると、アノテーションa,bが同一文書に付与される確率はcpとなる。そこで、Xabiを、文書iがアノテーションa,bの両方を含む場合は1となり、その他の場合は0となる確率変数とすると、以下のようになる。
E(Xabi) = c pa pb
【0058】
図8は、文書iにおけるアノテーションa,bの有無の4つのパターンのうち、各パターンに該当する場合のみ1となり、その他の場合に0となる確率変数を示したものである。これを用いて、各文書におけるアノテーションa,bのスコアの積を表す以下の確率変数を考える。
Xabi Ya1 Yb1+ (Xai− Xabi) Ya1 Yb0 + (Xbi − Xabi) Ya0Yb1 + (1+Xabi− Xai − Xbi) Ya0 Yb0
= Xabi (Ya1 − Ya0) (Yb1− Yb0) + Xai(Ya1 − Ya0) Yb0 + Xbi (Yb1 − Yb0) Ya0 + Ya0 Yb0
【0059】
尚、Ya1とYb1、及び、Ya0とYb0は、アノテーション自体が競合関係にある状況や、a=bである状況等の特殊な状況以外では独立とみなせる。
【0060】
ここで、E(Xai) = pa,E(Xbi) = pb,E(Xab) = c pa pb,E(Ya1) = μa1,E(Ya0) = μa0,E(Yb1) = μb1,E(Yb0) = μb0を用いて、上記確率変数の期待値Eabを計算すると以下のようになる。
Eab = c pa pba1 − μa0) (μb1 − μb0)
+ paa1 − μa0) μb0 + pbb1 − μb0) μa0 + μa0 μb0
= c pa pba1 − μa0) (μb1 − μb0)
− pa pba1 − μa0) (μb1 − μb0)
+ pa pba1 − μa0) (μb1 − μb0)
+ paa1 − μa0) μb0 + pbb1 − μb0) μa0 + μa0 μb0
= (c − 1) pa pba1 − μa0) (μb1 − μb0)
+ (paa1 − μa0) +μa0) ( pbb1 − μb0) + μb0)
【0061】
これを直接推定可能なE,E,Eab及びμa0,μb0で表すと、以下のようになる。
Eab = (c − 1) (Ea − μa0) (Eb − μb0) + Ea Eb
【0062】
これにより、以下の式が得られる。
【数3】
【0063】
ここで、E,E,μa0,μb0はE,E,μa0,μb0から推定でき、Eabは各文書におけるアノテーションa,bのスコアの積の全文書についての和を全文書数で割って得られたEabから推定できる。従って、cの推定値であるcは、観測可能な値のみから推定できることとなる。この推定値cは、一致推定量E,E,Eab,μa0,μb0の連続関数なので、一致推定量である。
【0064】
尚、正例文書に対するアノテーションのスコアを1とし、負例文書に対するアノテーションのスコアを0とする完全なアノテータ10では、通常の密度比を表す式に一致する。
【0065】
[本実施の形態の効果]
ところで、このようなアノテーションの相関を表す密度比は、ファジィ集合の演算で計算することも考えられる。従って、ここでは、本実施の形態の効果を、ファジィ集合で既存式を計算した場合と比較して説明する。
【0066】
効果を測定するに当たっては、以下の条件を採用した。即ち、全文書数は100万とした。アノテーションa,bを含む文書の文書密度をそれぞれ2%、5%とした。また、真の密度比を2.5とした。μa0,μb0を計算するためのテスト文書の数を1万とした。
【0067】
図9は、このような条件で効果を測定した結果を示したグラフである。グラフにおいて、縦軸は、密度比の推定値と真の密度比との差分の100回の測定における平均値を表す。また、横軸は、アノテータ10のスコアのモデルを表す。01-error(p, r)は、1又は0を適合率がp、再現率がrとなるように付与するモデルである。また、Beta(α, β) & Beta(β, α)は、ベータ分布に従うモデルであって、正例をBeta(α, β)で表し、負例をBeta(β, α)で表したモデルである。そして、黒塗りの系列が、ファジィ集合で既存式を計算した場合であり、斜線ハッチングの系列が本実施の形態の手法を用いた場合である。
【0068】
このグラフから、ファジィ集合で既存式を計算した場合は、アノテータ10の性能の影響を受け、適合度が低いと密度比の推定値が真の密度比から乖離し易くなることが分かる。
【0069】
[3つ以上のアノテーションの相関]
ここまでは、2つのアノテーションの相関を算出する場合について述べたが、n個のアノテーションa,a,…,aの相関についても、同様に以下のようにして得たものを用いて計算すればよい(n≧3)。
【0070】
第1段階として、各文書におけるアノテーションa,a,…,aのスコアの積を表す確率変数を考え、その期待値を以下の値で表す。
・密度比
・負例文書におけるアノテーションa,a,…,aのスコアの期待値
・各文書におけるアノテーションa,a,…,aのうちの1個乃至(n−1)個のアノテーションのスコアの積の期待値(アノテーションaのスコアの期待値、アノテーションa,aのスコアの積の期待値、アノテーションa,a,aのスコアの積の期待値等)
【0071】
第2段階として、第1段階で立てた式を密度比について解く。
【0072】
以下に、一例として、n=3の場合の密度比の推定値cの算出式を記す。
【数4】
【0073】
尚、ここでは、3つのアノテーションをアノテーションu,v,wとする。また、E,E,Eはそれぞれ計算対象文書におけるアノテーションu,v,wのスコアの平均値とし、Euv,Euw,Evw,Euvwはそれぞれ計算対象文書におけるアノテーションu,v、アノテーションu,w、アノテーションv,w、及び、アノテーションu,v,wのスコアの積の平均値とし、μu0,μv0,μw0はそれぞれ負例文書におけるアノテーションu,v,wのスコアの平均値とする。
【0074】
以上述べたように、本実施の形態では、n個のアノテーションのそれぞれのスコアの負例文書群における平均値と、n個のアノテーションのそれぞれのスコアの計算対象文書群における平均値と、各計算対象文書におけるn個のアノテーションのスコアの積の計算対象文書群における平均値とを算出し、これらの平均値に基づいて、n個のアノテーションの相関の推定値を算出するようにした。これにより、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになった。
【0075】
[本実施の形態の相関計算装置20のハードウェア構成]
図10は、本実施の形態における相関計算装置20のハードウェア構成例を示した図である。図示するように、相関計算装置20は、演算手段であるCPU(Central Processing Unit)20aと、M/B(マザーボード)チップセット20bを介してCPU20aに接続されたメインメモリ20cと、同じくM/Bチップセット20bを介してCPU20aに接続された表示機構20dとを備える。また、M/Bチップセット20bには、ブリッジ回路20eを介して、ネットワークインターフェイス20fと、磁気ディスク装置(HDD)20gと、音声機構20hと、キーボード/マウス20iと、光学ドライブ20jとが接続されている。
【0076】
尚、図10において、各構成要素は、バスを介して接続される。例えば、CPU20aとM/Bチップセット20bの間や、M/Bチップセット20bとメインメモリ20cの間は、CPUバスを介して接続される。また、M/Bチップセット20bと表示機構20dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構20dがPCI Express対応のビデオカードを含む場合、M/Bチップセット20bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路20eと接続する場合、ネットワークインターフェイス20fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置20gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス20i、及び、光学ドライブ20jについては、USB(Universal Serial Bus)を用いることができる。
【0077】
ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
【0078】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。
【符号の説明】
【0079】
10…アノテータ、20…相関計算装置、21…テスト情報取得部、22…テスト情報記憶部、23…計算対象情報取得部、24…計算対象情報記憶部、25…密度比算出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10