(58)【調査した分野】(Int.Cl.,DB名)
前記算出部は、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出する、請求項2の装置。
前記算出部は、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくする、請求項3の装置。
前記算出部は、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出する、請求項2の装置。
前記複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、前記複数の第1の確信度を取得することを含み、
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の確信度のそれぞれの前記第1のデータ群における第1の代表値を求める処理を当該複数の第1の確信度について行うことにより複数の第1の代表値を算出し、当該複数の第1の代表値と前記複数の第2の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出することを含む、請求項7の方法。
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくすることを含む、請求項9の方法。
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、アノテーションの相関の推定値は、データにアノテーションを付与するアノテータの性能によって変化する。アノテータの性能が低いと、真のアノテーションの相関に近い推定値を求めることができないという問題がある。
【0009】
尚、特許文献1及び非特許文献1の技術は、このような問題を解決する手法を提示するものではない。
【0010】
本発明の目的は、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようにすることにある。
【課題を解決するための手段】
【0011】
かかる目的のもと、本発明は、アノテーションの相関を計算する装置であって、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得する第1の取得部と、複数のアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得する第2の取得部と、複数の第1の確信度と複数の第2の確信度とに基づいて、複数のアノテーションの相関の推定値を算出する算出部とを含む、装置を提供する。
【0012】
この装置において、第1の取得部は、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、複数の第1の確信度を取得し、算出部は、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより複数の第1の代表値を算出し、複数の第1の代表値と複数の第2の確信度とを用いて、複数のアノテーションの相関の推定値を算出する、ものであってよい。
【0013】
その場合、算出部は、複数の第1の代表値の何れかが大きくなると複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。そして、算出部は、複数の第2の確信度の何れかの第2のデータ群における第2の代表値から複数の第1の代表値の何れかを減ずる式で除する項を含む算出式により、複数のアノテーションの相関の推定値を算出するに当たり、式の値を大きくする、ものであってよい。
【0014】
また、算出部は、複数の第2の確信度の積の第2のデータ群における第3の代表値を、複数の第2の確信度のそれぞれの第2のデータ群における第2の代表値を求める処理を複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、複数の第1の代表値を用いて補正する算出式により、複数のアノテーションの相関の推定値を算出する、ものであってよい。
【0015】
また、この装置において、第1の取得部は、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得し、第2の取得部は、2つのアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得し、算出部は、2つの第1の確信度のそれぞれの第1のデータ群における平均値を求める処理を2つの第1の確信度について行うことにより2つの平均値μ
*a0,μ
*b0を算出し、2つの第2の確信度のそれぞれの第2のデータ群における平均値を求める処理を2つの第2の確信度について行うことにより2つの平均値E
*a,E
*bを算出し、2つの第2の確信度の積の第2のデータ群における平均値E
*abを算出し、下記の算出式により、2つのアノテーションの相関の推定値c
*を算出する、ものであってよい。
【数1】
【0016】
更に、本発明は、コンピュータがアノテーションの相関を計算する方法であって、コンピュータが、データが与えられるとデータに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得するステップと、コンピュータが、複数のアノテーションの相関の計算に用いる第2のデータ群をアノテータに与えることにより、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得するステップと、コンピュータが、複数の第1の確信度と複数の第2の確信度とに基づいて、複数のアノテーションの相関の推定値を算出するステップとを含む、方法も提供する。
【0017】
この方法において、複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される第1のデータ群をアノテータに与えることにより、複数の第1の確信度を取得することを含み、複数のアノテーションの相関の推定値を算出するステップは、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより複数の第1の代表値を算出し、複数の第1の代表値と複数の第2の確信度とを用いて、複数のアノテーションの相関の推定値を算出することを含む、ものであってよい。
【0018】
更にまた、本発明は、アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、コンピュータに、上記の何れかの方法を実行させる、プログラムも提供する。
【発明の効果】
【0019】
本発明によれば、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになる。
【発明を実施するための形態】
【0021】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0022】
[本実施の形態の相関計算システムの構成]
図1は、本実施の形態における相関計算システム1の全体構成例を示した図である。図示するように、この相関計算システム1は、アノテータ10と、相関計算装置20とを含む。
【0023】
アノテータ10は、与えられたデータに対してアノテーション及びそのアノテーションの確からしさを示す確信度の一例としてのスコアを付与する装置である。
【0024】
相関計算装置20は、アノテータ10がデータに付与した複数のアノテーションの相関を計算する装置である。
【0025】
[本実施の形態の背景]
近年、アノテータ10のように、統計ベースの手法によりスコア付きのアノテーションをデータに付与する装置が増えてきたため、スコア付きのアノテーションどうしの相関を一般ユーザに分かり易い指標で提示したいというニーズがある。その際、アノテーションの相関を示す指標としては、如何なる指標を用いてもよいが、ユーザ受けのよい密度比(density ratio)の拡張として定義できるのが望ましい。
【0026】
従って、アノテーションの相関を示す指標として、本実施の形態では、密度比を用いる。ここで、密度比とは、複数のアノテーションの全てが付与されたデータの密度の、複数のアノテーションのそれぞれが付与されたデータの密度の積に対する比率である、例えば、アノテーションa,bの相関を表す密度比をcとし、全データの集合をD、アノテーションaが付与されたデータを含むデータ集合をA、アノテーションbが付与されたデータを含むデータ集合をBとすると、密度比cは「c=#(A∩B)#D/(#A#B)」によって算出される(本明細書において「#S」は集合Sの要素数を表す)。これにより、「商品aでは一般の商品に比べて問題bがc倍起こりやすい」といった解釈が可能になり、ここ数年では機械学習の中での利用も多くなっている。
【0027】
本実施の形態では、アノテータ10が完璧でない場合に、このような密度比が低めに算出される問題に着目する。
【0028】
図2は、この問題について説明するための図である。この図でも、Dは全データの集合を表し、Aは真にアノテーションaを含むデータの集合を表し、Bは真にアノテーションbを含むデータの集合を表すものとする。すると、アノテーションa,bの真の密度比は、上述したように、#(A∩B)#D/(#A#B)である。このような状態で、アノテータ10のアノテーションbに関する適合率(precision)が低い場合には、アノテーションbが付与されたデータの集合はB’のようになる。このとき、アノテーションa,bの密度比として算出される値は、#(A∩B’)#D/(#A#B’)である。ここで、A,B,B’はDに比べて小さいので、#(A∩B)と#(A∩B’)とは大きく異ならない。しかしながら、分母において#Bよりも#B’が大きいことは無視できないので、アノテータ10のアノテーションbに関する適合率が低い場合に算出された密度比は、真の密度比よりも小さくなってしまうという問題がある。
【0029】
そこで、本実施の形態では、アノテータ10のテスト段階で、負例データ(アノテーションを付けるべきでないデータ)に付与されたアノテーションのスコアの平均値が分かれば、それを用いて、真の密度比の推定値を計算する。
【0030】
尚、以下では、アノテーションを付与するデータとして、文書を例にとり説明する。また、相関を計算する対象のデータに付与されるアノテーションとしては、2つのアノテーションa,bを例にとり説明する。
【0031】
[本実施の形態の相関計算装置の構成]
図3は、本実施の形態における相関計算システムの特に相関計算装置20の機能構成例を示したブロック図である。図示するように、この相関計算装置20は、テスト情報取得部21と、テスト情報記憶部22と、計算対象情報取得部23と、計算対象情報記憶部24と、密度比算出部25とを備える。
【0032】
テスト情報取得部21は、アノテータ10をテストするために用いるテスト文書群にアノテーションa,bのそれぞれを付与すべきかどうかを示す2つの正解情報と、テスト文書群にアノテータ10が付与したアノテーションa,bのそれぞれの確からしさを示す2つのスコアとからなるテスト情報を取得する。ここで、正解情報とは、教師あり学習では、テスト文書群の各テスト文書に既に設定されたアノテーションa,bを付与すべきかどうかの情報であり、教師なし学習では、テスト文書群の各テスト文書を評価することで得られるアノテーションa,bを付与すべきかどうかの情報である。即ち、テスト文書群は、正解情報がアノテーションa,bを付与すべきでないことを示す負例文書からなる負例文書群を含む。また、スコアは、0以上1以下の数値である。本実施の形態では、アノテーションを付与すべきかどうかを評価可能な第1のデータ群の一例として、テスト文書群を用いており、アノテーションを付与すべきでないと評価される第1のデータ群の一例として、負例文書群を用いており、第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度の一例として、2つのスコアを用いている。また、複数の第1の確信度を取得する第1の取得部の一例として、テスト情報取得部21を設けている。
【0033】
テスト情報記憶部22は、テスト情報取得部21が取得したテスト情報を記憶する。テスト情報の具体例については後述する。
【0034】
計算対象情報取得部23は、アノテーションa,bの相関を計算するために用いる計算対象文書群にアノテータ10が付与したアノテーションa,bのそれぞれの確からしさを示す2つのスコアからなる計算対象情報を取得する。ここで、スコアは、0以上1以下の数値であり、アノテーションa,bで検索した際にインデクスから取得する情報である。本実施の形態では、複数のアノテーションの相関の計算に用いる第2のデータ群の一例として、計算対象文書群を用いており、第2のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度の一例として、2つのスコアを用いている。また、複数の第2の確信度を取得する第2の取得部の一例として、計算対象情報取得部23を設けている。
【0035】
計算対象情報記憶部24は、計算対象情報取得部23が取得した計算対象情報を記憶する。計算対象情報の具体例については後述する。
【0036】
密度比算出部25は、テスト情報記憶部22に記憶されたテスト情報と、計算対象情報記憶部24に記憶された計算対象情報とを用いて、密度比の推定値を算出する。そして、この密度比の推定値を磁気ディスク装置20g(
図10参照)等の記憶装置に記憶したり、表示機構20d(
図10参照)に表示したりする。本実施の形態では、複数のアノテーションの相関の推定値の一例として、密度比の推定値を用いており、相関の推定値を算出する算出部の一例として、密度比算出部25を設けている。
【0037】
図4は、テスト情報記憶部22に記憶されたテスト情報の一例を示した図である。図示するように、テスト情報は、文書IDと、アノテーションaに関する正解情報及びスコアと、アノテーションbに関する正解情報及びスコアとを対応付けたものである。例えば、文書ID「L1」の文書について、アノテーションaは付与すべきであり、実際に付与されたアノテーションaのスコアは0.8であり、アノテーションbは付与すべきでなく、実際に付与されたアノテーションbのスコアは0.1であることが示されている。
【0038】
尚、本実施の形態では、テスト情報を正解情報とスコアとからなる情報として説明するが、アノテーションのスコアを0又は1で付けるアノテータ10で適合率が分かっている場合は、アノテーションを付加すべき文書の数をテスト情報としてもよい。密度比算出部25でアノテーションのスコアの平均値を算出するが、これは、「アノテーションを付与すべき文書の密度×(1−適合率)」により算出できるからである。
【0039】
図5は、計算対象情報記憶部24に記憶された計算対象情報の一例を示した図である。図示するように、計算対象情報は、文書IDと、アノテーションaのスコアと、アノテーションbのスコアとを対応付けたものである。例えば、文書ID「D1」の文書について、実際に付与されたアノテーションaのスコアは0であり、実際に付与されたアノテーションbのスコアは0.2であることが示されている。
【0040】
[本実施の形態の相関計算装置の動作]
本実施の形態における相関計算装置20では、上述したように、まず、テスト情報取得部21がテスト情報を取得してテスト情報記憶部22に記憶し、計算対象情報取得部23が計算対象情報を取得して計算対象情報記憶部24に記憶する。
【0041】
その後、密度比算出部25が、テスト情報記憶部22に記憶されたテスト情報と、計算対象情報記憶部24に記憶された計算対象情報とを用いて、密度比の推定値を算出する。
図6は、このときの密度比算出部25の動作例を示したフローチャートである。
【0042】
図示するように、まず、密度比算出部25は、アノテーションaにとっての負例文書(アノテーションaを付けるべきでない文書)でのアノテーションaのスコアの平均値μ
*a0を算出する(ステップ201)。具体的には、テスト情報記憶部22に記憶されたテスト情報から、アノテーションaにとっての負例文書に関するテスト情報、つまり、アノテーションaに関する正解情報が「false」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションaのスコアの平均値をμ
*a0とする。
【0043】
また、密度比算出部25は、アノテーションbにとっての負例文書(アノテーションbを付けるべきでない文書)でのスコアの平均値μ
*b0を算出する(ステップ202)。具体的には、テスト情報記憶部22に記憶されたテスト情報から、アノテーションbにとっての負例文書に関するテスト情報、つまり、アノテーションbに関する正解情報が「false」となっているテスト情報を抽出する。そして、このテスト情報に含まれるアノテーションbのスコアの平均値をμ
*b0とする。
【0044】
次に、密度比算出部25は、計算対象文書でのアノテーションaのスコアの平均値E
*aを算出する(ステップ203)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれるアノテーションaのスコアの平均値をE
*aとする。
【0045】
また、密度比算出部25は、計算対象文書でのアノテーションbのスコアの平均値E
*bを算出する(ステップ204)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれるアノテーションbのスコアの平均値をE
*bとする。
【0046】
更に、密度比算出部25は、計算対象文書でのアノテーションa,bのスコアの積の平均値E
*abを算出する(ステップ205)。具体的には、計算対象情報記憶部24に記憶された計算対象情報に含まれる文書ごとのアノテーションaのスコアとアノテーションbのスコアとの積の全文書における平均値をE
*abとする。
【0047】
次いで、密度比算出部25は、密度比の推定値c
*を、ステップ201で算出したμ
*a0と、ステップ202で算出したμ
*b0と、ステップ203で算出したE
*aと、ステップ204で算出したE
*bと、ステップ205で算出したE
*abとを用いて算出する(ステップ206)。具体的には、次の算出式により、密度比の推定値c
*を算出する。
【数2】
【0048】
ここで、μ
*a0,μ
*b0は、複数の第1の確信度のそれぞれの第1のデータ群における第1の代表値を求める処理を複数の第1の確信度について行うことにより得られた複数の第1の代表値の一例である。E
*a,E
*bは、複数の第2の確信度のそれぞれの第2のデータ群における第2の代表値を求める処理を複数の第2の確信度について行うことにより得られた複数の第2の代表値の一例である。E
*abは、複数の第2の確信度の積の第2のデータ群における第3の代表値の一例である。即ち、本実施の形態では、μ
*a0,μ
*b0,E
*a,E
*b,E
*abを全て平均値としているが、これらは中央値等の他の代表値であってもよい。
【0049】
尚、この算出式は、一般化して、μ
*a0又はμ
*b0が大きくなるとアノテーションa,bの相関の基準値からの乖離が大きくなるような算出式と捉えることができる。
【0050】
但し、この算出式を用いると、(E
*a−μ
*a0)又は(E
*b−μ
*b0)が小さい場合、つまり、アノテータ10の精度が悪く、正例文書でのスコアと負例文書でのスコアとに差が出ない場合に、問題が生じる。それは、このような場合に、既存手法では無相関になるが、本実施の形態では、算出式が0÷0の不定形に近付き、値が不安定になるという問題である。この問題が生じることは、分母及び分子が小さいことにより判定できるので、(E
*a−μ
*a0)及び(E
*b−μ
*b0)の小さくなる方を区間推定等により大きめの値に変更することで、無相関(c
*=1)に近付くようにするとよい。この処理は、一般化して、E
*a,E
*bの何れかからμ
*a0,μ
*b0の何れかを減ずる式で除する項を含む算出式により、アノテーションa,bの相関の推定値を算出するに当たり、式の値を大きくする処理と捉えることができる。
【0051】
[密度比算出式の導出]
以下、この密度比の推定値c
*を算出する式の導出方法について詳細に説明する。
【0052】
まず、あるアノテーションを確率pで含む無限個の文書からなる文書集合を考える。この文書集合からN個の文書を取り出すとき、文書i(i=0,1,…,N)に対して、真のアノテーションの有無を表す確率変数X
iを定義する。具体的には、文書iにアノテーションが存在する場合にX
i=1、文書iにアノテーションが存在しない場合にX
i=0と定義する。これにより、確率変数X
iがi.i.d(independent and identically distributed)、つまり、互いに独立で同じ分布に従うとすると、E(X
i) = pとなる。
【0053】
ここで、アノテータ10によって実際に文書に付与されるアノテーションのスコアを、X
i=1の文書についてはY
1と定義し、X
i=0の文書についてはY
0と定義する。すると、真のアノテーションを知らずに無作為に抽出した文書でのアノテーションのスコアは、以下のように表すことができる。
X
i Y
1 + (1 − X
i) Y
0
【0054】
尚、上記の式で、X
i=0のときのY
1及びX
i=1のときのY
0はスコアには影響しないため、便宜上、Y
1及びY
0はX
iによらず同じ分布に従う、即ち、X
iと独立である、と定義している。
【0055】
図7(a)はX
i=1の文書におけるスコアY
1の分布を示したグラフである。アノテータ10の精度が高ければ、グラフはY
1=1である確率が突出した形状になるであろうが、一般的には、図示するような、Y
1=1である確率が高く、Y
1=0に近付くに従って確率が低くなる形状を有する。グラフには、スコアY
1の平均値μ
1(μ
1 = E(Y
1))も示している。また、
図7(b)はX
i=0の文書におけるスコアY
0の分布を示したグラフである。アノテータ10の精度が高ければ、グラフはY
0=0である確率が突出した形状になるであろうが、一般的には、図示するような、Y
0=0である確率が高く、Y
0=1に近付くに従って確率が低くなる形状を有する。グラフには、スコアY
0の平均値μ
0(μ
0 = E(Y
0))も示している。
【0056】
次に、2種のアノテーションa,bのそれぞれについて、これまでの説明と同様に、真のアノテーションの存在確率をp
a,p
bで表し、真のアノテーションの有無を表す確率変数をX
ai,X
biで表し、正例文書でのアノテーションのスコアを表す確率変数をY
a1,Y
b1で表し、負例文書でのアノテーションのスコアを表す確率変数をY
a0,Y
b0で表す。そして、スコアの平均値は以下のように定義する。
E
a := E(X
ai Y
a1+ (1 − X
ai) Y
a0),μ
a1:=E(Y
a1),μ
a0:=E(Y
a0)
E
b := E(X
bi Y
b1+ (1 − X
bi) Y
b0),μ
b1:=E(Y
b1),μ
b0:=E(Y
b0)
【0057】
この状態で、アノテーションa,bが真に同一文書に付与される度合いを示す密度比をcとすると、アノテーションa,bが同一文書に付与される確率はcp
ap
bとなる。そこで、X
abiを、文書iがアノテーションa,bの両方を含む場合は1となり、その他の場合は0となる確率変数とすると、以下のようになる。
E(X
abi) = c p
a p
b
【0058】
図8は、文書iにおけるアノテーションa,bの有無の4つのパターンのうち、各パターンに該当する場合のみ1となり、その他の場合に0となる確率変数を示したものである。これを用いて、各文書におけるアノテーションa,bのスコアの積を表す以下の確率変数を考える。
X
abi Y
a1 Y
b1+ (X
ai− X
abi) Y
a1 Y
b0 + (X
bi − X
abi) Y
a0Y
b1 + (1+X
abi− X
ai − X
bi) Y
a0 Y
b0
= X
abi (Y
a1 − Y
a0) (Y
b1− Y
b0) + X
ai(Y
a1 − Y
a0) Y
b0 + X
bi (Y
b1 − Y
b0) Y
a0 + Y
a0 Y
b0
【0059】
尚、Y
a1とY
b1、及び、Y
a0とY
b0は、アノテーション自体が競合関係にある状況や、a=bである状況等の特殊な状況以外では独立とみなせる。
【0060】
ここで、E(X
ai) = p
a,E(X
bi) = p
b,E(X
ab) = c p
a p
b,E(Y
a1) = μ
a1,E(Y
a0) = μ
a0,E(Y
b1) = μ
b1,E(Y
b0) = μ
b0を用いて、上記確率変数の期待値E
abを計算すると以下のようになる。
E
ab = c p
a p
b(μ
a1 − μ
a0) (μ
b1 − μ
b0)
+ p
a (μ
a1 − μ
a0) μ
b0 + p
b(μ
b1 − μ
b0) μ
a0 + μ
a0 μ
b0
= c p
a p
b (μ
a1 − μ
a0) (μ
b1 − μ
b0)
− p
a p
b (μ
a1 − μ
a0) (μ
b1 − μ
b0)
+ p
a p
b (μ
a1 − μ
a0) (μ
b1 − μ
b0)
+ p
a (μ
a1 − μ
a0) μ
b0 + p
b(μ
b1 − μ
b0) μ
a0 + μ
a0 μ
b0
= (c − 1) p
a p
b (μ
a1 − μ
a0) (μ
b1 − μ
b0)
+ (p
a (μ
a1 − μ
a0) +μ
a0) ( p
b (μ
b1 − μ
b0) + μ
b0)
【0061】
これを直接推定可能なE
a,E
b,E
ab及びμ
a0,μ
b0で表すと、以下のようになる。
E
ab = (c − 1) (E
a − μ
a0) (E
b − μ
b0) + E
a E
b
【0062】
これにより、以下の式が得られる。
【数3】
【0063】
ここで、E
a,E
b,μ
a0,μ
b0はE
*a,E
*b,μ
*a0,μ
*b0から推定でき、E
abは各文書におけるアノテーションa,bのスコアの積の全文書についての和を全文書数で割って得られたE
*abから推定できる。従って、cの推定値であるc
*は、観測可能な値のみから推定できることとなる。この推定値c
*は、一致推定量E
a,E
b,E
ab,μ
a0,μ
b0の連続関数なので、一致推定量である。
【0064】
尚、正例文書に対するアノテーションのスコアを1とし、負例文書に対するアノテーションのスコアを0とする完全なアノテータ10では、通常の密度比を表す式に一致する。
【0065】
[本実施の形態の効果]
ところで、このようなアノテーションの相関を表す密度比は、ファジィ集合の演算で計算することも考えられる。従って、ここでは、本実施の形態の効果を、ファジィ集合で既存式を計算した場合と比較して説明する。
【0066】
効果を測定するに当たっては、以下の条件を採用した。即ち、全文書数は100万とした。アノテーションa,bを含む文書の文書密度をそれぞれ2%、5%とした。また、真の密度比を2.5とした。μ
*a0,μ
*b0を計算するためのテスト文書の数を1万とした。
【0067】
図9は、このような条件で効果を測定した結果を示したグラフである。グラフにおいて、縦軸は、密度比の推定値と真の密度比との差分の100回の測定における平均値を表す。また、横軸は、アノテータ10のスコアのモデルを表す。01-error(p, r)は、1又は0を適合率がp、再現率がrとなるように付与するモデルである。また、Beta(α, β) & Beta(β, α)は、ベータ分布に従うモデルであって、正例をBeta(α, β)で表し、負例をBeta(β, α)で表したモデルである。そして、黒塗りの系列が、ファジィ集合で既存式を計算した場合であり、斜線ハッチングの系列が本実施の形態の手法を用いた場合である。
【0068】
このグラフから、ファジィ集合で既存式を計算した場合は、アノテータ10の性能の影響を受け、適合度が低いと密度比の推定値が真の密度比から乖離し易くなることが分かる。
【0069】
[3つ以上のアノテーションの相関]
ここまでは、2つのアノテーションの相関を算出する場合について述べたが、n個のアノテーションa
1,a
2,…,a
nの相関についても、同様に以下のようにして得たものを用いて計算すればよい(n≧3)。
【0070】
第1段階として、各文書におけるアノテーションa
1,a
2,…,a
nのスコアの積を表す確率変数を考え、その期待値を以下の値で表す。
・密度比
・負例文書におけるアノテーションa
1,a
2,…,a
nのスコアの期待値
・各文書におけるアノテーションa
1,a
2,…,a
nのうちの1個乃至(n−1)個のアノテーションのスコアの積の期待値(アノテーションa
1のスコアの期待値、アノテーションa
1,a
2のスコアの積の期待値、アノテーションa
1,a
2,a
3のスコアの積の期待値等)
【0071】
第2段階として、第1段階で立てた式を密度比について解く。
【0072】
以下に、一例として、n=3の場合の密度比の推定値c
*の算出式を記す。
【数4】
【0073】
尚、ここでは、3つのアノテーションをアノテーションu,v,wとする。また、E
*u,E
*v,E
*wはそれぞれ計算対象文書におけるアノテーションu,v,wのスコアの平均値とし、E
*uv,E
*uw,E
*vw,E
*uvwはそれぞれ計算対象文書におけるアノテーションu,v、アノテーションu,w、アノテーションv,w、及び、アノテーションu,v,wのスコアの積の平均値とし、μ
*u0,μ
*v0,μ
*w0はそれぞれ負例文書におけるアノテーションu,v,wのスコアの平均値とする。
【0074】
以上述べたように、本実施の形態では、n個のアノテーションのそれぞれのスコアの負例文書群における平均値と、n個のアノテーションのそれぞれのスコアの計算対象文書群における平均値と、各計算対象文書におけるn個のアノテーションのスコアの積の計算対象文書群における平均値とを算出し、これらの平均値に基づいて、n個のアノテーションの相関の推定値を算出するようにした。これにより、アノテータの性能に関わらず、真のアノテーションの相関に近い推定値を計算できるようになった。
【0075】
[本実施の形態の相関計算装置20のハードウェア構成]
図10は、本実施の形態における相関計算装置20のハードウェア構成例を示した図である。図示するように、相関計算装置20は、演算手段であるCPU(Central Processing Unit)20aと、M/B(マザーボード)チップセット20bを介してCPU20aに接続されたメインメモリ20cと、同じくM/Bチップセット20bを介してCPU20aに接続された表示機構20dとを備える。また、M/Bチップセット20bには、ブリッジ回路20eを介して、ネットワークインターフェイス20fと、磁気ディスク装置(HDD)20gと、音声機構20hと、キーボード/マウス20iと、光学ドライブ20jとが接続されている。
【0076】
尚、
図10において、各構成要素は、バスを介して接続される。例えば、CPU20aとM/Bチップセット20bの間や、M/Bチップセット20bとメインメモリ20cの間は、CPUバスを介して接続される。また、M/Bチップセット20bと表示機構20dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構20dがPCI Express対応のビデオカードを含む場合、M/Bチップセット20bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路20eと接続する場合、ネットワークインターフェイス20fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置20gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス20i、及び、光学ドライブ20jについては、USB(Universal Serial Bus)を用いることができる。
【0077】
ここで、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
【0078】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。