IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大日本印刷株式会社の特許一覧

特開2022-181714情報処理装置、情報処理方法、プログラム
<>
  • 特開-情報処理装置、情報処理方法、プログラム 図1
  • 特開-情報処理装置、情報処理方法、プログラム 図2
  • 特開-情報処理装置、情報処理方法、プログラム 図3
  • 特開-情報処理装置、情報処理方法、プログラム 図4
  • 特開-情報処理装置、情報処理方法、プログラム 図5
  • 特開-情報処理装置、情報処理方法、プログラム 図6
  • 特開-情報処理装置、情報処理方法、プログラム 図7
  • 特開-情報処理装置、情報処理方法、プログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181714
(43)【公開日】2022-12-08
(54)【発明の名称】情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
   G06F 16/28 20190101AFI20221201BHJP
【FI】
G06F16/28
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2021088805
(22)【出願日】2021-05-26
(71)【出願人】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】100122529
【弁理士】
【氏名又は名称】藤枡 裕実
(74)【代理人】
【識別番号】100135954
【弁理士】
【氏名又は名称】深町 圭子
(74)【代理人】
【識別番号】100119057
【弁理士】
【氏名又は名称】伊藤 英生
(74)【代理人】
【識別番号】100131369
【弁理士】
【氏名又は名称】後藤 直樹
(74)【代理人】
【識別番号】100171859
【弁理士】
【氏名又は名称】立石 英之
(72)【発明者】
【氏名】小林 秀章
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB04
(57)【要約】
【課題】 関心対象とするカテゴリに属する各アイテム間の関係性を提示することが可能な情報処理装置、情報処理方法、プログラムを提供する。
【解決手段】 関心対象カテゴリに属する各アイテムに関連する集合を用いて、各アイテムをk次元空間に布置する座標値を算出する情報処理装置100であって、関心対象カテゴリに属する各アイテムについて、2つのアイテムの間において、2つのアイテムに関連する集合間の関係性の指標値を算出することにより関係性行列を生成する関係性行列生成手段22と、関係性行列における三角行列の成分の平均μを用いて単調変化する調整関数を生成し、調整関数を前記関係性行列の各成分に作用させることにより被調整行列を生成する被調整行列生成手段23と、被調整行列に対して所定の変換を施して、各アイテムをk次元空間に布置する座標値を算出する座標値算出手段24を有する。
【選択図】 図2
【特許請求の範囲】
【請求項1】
関心対象カテゴリに属する各アイテムに関連する集合を用いて、各アイテムをk次元空間に布置する座標値を算出する情報処理装置であって、
前記関心対象カテゴリに属する各アイテムについて、2つのアイテムの間において、当該2つのアイテムに関連する集合間の関係性の指標値を算出することにより関係性行列を生成する関係性行列生成手段と、
前記関係性行列における三角行列の成分の平均μを用いて単調変化する調整関数を生成し、前記調整関数を前記関係性行列の各成分に作用させることにより被調整行列を生成する被調整行列生成手段と、
被調整行列に対して所定の変換を施して、各アイテムをk次元空間に布置する座標値を算出する座標値算出手段と、
を有する情報処理装置。
【請求項2】
前記調整関数は、単調増加する関数であって、前記関係性行列S内の三角行列の成分の平均μを用いて構成される式(1)に示すシグモイド関数である、請求項1に記載の情報処理装置。
【数13】
・・・(1)
【請求項3】
前記調整関数は、単調減少する関数であって、前記関係性行列S内の三角行列の成分の平均μを用いて構成される式(2)に示すシグモイド関数である、請求項1に記載の情報処理装置。
【数14】
・・・(2)
【請求項4】
前記調整関数は、単調増加する関数であって、前記関係性行列S内の三角行列の成分の平均μと標準偏差σを用いて構成される、式(3)に示す正規分布N(μ、σ2)の累積確率密度関数である、請求項1に記載の情報処理装置。
【数15】
・・・(3)
【請求項5】
前記調整関数は、単調減少する関数であって、前記関係性行列S内の三角行列の成分の平均μと標準偏差σを用いて構成される、式(4)に示す正規分布N(μ、σ2)の累積確率密度関数である、請求項1に記載の情報処理装置。
【数16】
・・・(4)
【請求項6】
前記調整関数は、r≧1を満たす係数r、0≦s≦1を満たす縮小係数sを用いて、以下の式(5)により得られる係数a´、μ´を、前記係数a、前記係数μに代えて用いる、請求項2または請求項3に記載の情報処理装置。
【数17】
・・・(5)
【請求項7】
前記調整関数は、r≧1を満たす係数r、0≦s≦1を満たす縮小係数sを用いて、以下の式(6)により得られる係数σ´、μ´を、前記係数σ、前記係数μに代えて用いる、請求項4または請求項5に記載の情報処理装置。
【数18】
・・・(6)
【請求項8】
前記関係性行列生成手段は、前記関係性の指標値として、2つのアイテムに関連する集合を包含する全体集合の要素の個数、一方のアイテムに関連する集合の要素の個数、他方のアイテムに関連する集合の要素の個数、および一方のアイテムに関連する集合と他方のアイテムに関連する集合の積集合の要素の個数に基づいて生成される2変数の同時確率分布の正規化自己情報量を算出する、請求項1から請求項7のいずれか一項に記載の情報処理装置。
【請求項9】
前記関係性行列生成手段は、前記関係性の指標値として、2つのアイテムに関連する集合を包含する全体集合の要素の個数、一方のアイテムに関連する集合の要素の個数、他方のアイテムに関連する集合の要素の個数、および一方のアイテムに関連する集合と他方のアイテムに関連する集合の積集合の要素の個数に基づいて生成される2変数の同時確率分布の正規化相互情報量を算出する、請求項1から請求項7のいずれか一項に記載の情報処理装置。
【請求項10】
前記関心対象カテゴリに属する各アイテムに自然言語で記述された文章が関連付けられている場合に、前記文章に対して形態素解析を行って形態素を抽出する形態素解析手段をさらに有し、
前記関係性行列生成手段は、前記抽出された形態素の集合を用いて、前記関係性行列を生成する、請求項1から請求項9のいずれか一項に情報処理装置。
【請求項11】
前記関心対象カテゴリに属する各アイテムが画像である場合に、前記画像に対して画像解析を行って単語を特定する画像解析手段をさらに有し、
前記関係性行列生成手段は、前記特定された単語の集合を用いて、前記関係性行列を生成する、請求項1から請求項9のいずれか一項に情報処理装置。
【請求項12】
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータが、各アイテムをk次元空間に布置する座標値を算出する情報処理方法であって、
コンピュータが、
前記関心対象カテゴリに属する各アイテムについて、2つのアイテムの間において、当該2つのアイテムに関連する集合間の関係性の指標値を算出することにより関係性行列を生成し、
前記関係性行列における三角行列の成分の平均μを用いて単調変化する調整関数を生成し、前記調整関数を前記関係性行列の各成分に作用させることにより被調整行列を生成し、
被調整行列に対して所定の変換を施して、各アイテムをk次元空間に布置する座標値を算出する、情報処理方法。
【請求項13】
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータに、各アイテムをk次元空間に布置する座標値を算出させるプログラムであって、
コンピュータを、
前記関心対象カテゴリに属する各アイテムについて、2つのアイテムの間において、当該2つのアイテムに関連する集合間の関係性の指標値を算出することにより関係性行列を生成する関係性行列生成手段、
前記関係性行列における三角行列の成分の平均μを用いて単調変化する調整関数を生成し、前記調整関数を前記関係性行列の各成分に作用させることにより被調整行列を生成する被調整行列生成手段、
被調整行列に対して所定の変換を施して、各アイテムをk次元空間に布置する座標値を算出する座標値算出手段、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、関心対象とするカテゴリに属する各アイテムに対して、それに関連するデータに基づいてアイテム間の関係性を抽出し、カテゴリ全体の構造を可視化する技術に関する。
【背景技術】
【0002】
近年、コンピュータネットワーク技術の発展により、膨大なデータが流通するようになってきた。これらのデータは、何らかのアイテムに関連しており、これらのデータを分析することにより、アイテム間の何らかの関係性、意味合いが導き出されることが期待される。
【0003】
このような技術の一例として、アイテムとして文書を用い、これらの文書において重要な単語を提示する技術が開発されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2018-195108号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の技術では、文書を構成する単語を提示することはできるが、文書を構成する単語を用いて、文書どうしの関係性を分析することが難しいという問題がある。また、文書に限らず、複数のアイテム間の関係性を分析することも難しい。
【0006】
そこで、本開示は、関心対象とするカテゴリに属する各アイテム間の関係性を提示することが可能な情報処理装置、情報処理方法、プログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
上記課題を解決するため、本開示は、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、各アイテムをk次元空間に布置する座標値を算出する情報処理装置であって、
前記関心対象カテゴリに属する各アイテムについて、2つのアイテムの間において、当該2つのアイテムに関連する集合間の関係性の指標値を算出することにより関係性行列を生成する関係性行列生成手段と、
前記関係性行列における三角行列の成分の平均μを用いて単調変化する調整関数を生成し、前記調整関数を前記関係性行列の各成分に作用させることにより被調整行列を生成する被調整行列生成手段と、
被調整行列に対して所定の変換を施して、各アイテムをk次元空間に布置する座標値を算出する座標値算出手段と、
を有する情報処理装置を提供する。
【0008】
また、本開示に係る情報処理装置は、
前記調整関数は、単調増加する関数であって、前記関係性行列S内の三角行列の成分の平均μを用いて構成される式(1)に示すシグモイド関数であってもよい。
【数1】
・・・(1)
【0009】
また、本開示に係る情報処理装置は、
前記調整関数は、単調減少する関数であって、前記関係性行列S内の三角行列の成分の平均μを用いて構成される式(2)に示すシグモイド関数であってもよい。
【数2】
・・・(2)
【0010】
また、本開示に係る情報処理装置は、
前記調整関数は、単調増加する関数であって、前記関係性行列S内の三角行列の成分の平均μと標準偏差σを用いて構成される、式(3)に示す正規分布N(μ、σ2)の累積確率密度関数であってもよい。
【数3】
・・・(3)
【0011】
また、本開示に係る情報処理装置は、
前記調整関数は、単調減少する関数であって、前記関係性行列S内の三角行列の成分の平均μと標準偏差σを用いて構成される、式(4)に示す正規分布N(μ、σ2)の累積確率密度関数であってもよい。
【数4】
・・・(4)
【0012】
また、本開示に係る情報処理装置は、
前記調整関数は、r≧1を満たす係数r、0≦s≦1を満たす縮小係数sを用いて、以下の式(5)により得られる係数a´、μ´を、前記係数a、前記係数μに代えて用いてもよい。
【数5】
・・・(5)
【0013】
また、本開示に係る情報処理装置は、
前記調整関数は、r≧1を満たす係数r、0≦s≦1を満たす縮小係数sを用いて、以下の式(6)により得られる係数σ´、μ´を、前記係数σ、前記係数μに代えて用いてもよい。
【数6】
・・・(6)
【0014】
また、本開示に係る情報処理装置は、
前記関係性行列生成手段は、前記関係性の指標値として、2つのアイテムに関連する集合を包含する全体集合の要素の個数、一方のアイテムに関連する集合の要素の個数、他方のアイテムに関連する集合の要素の個数、および一方のアイテムに関連する集合と他方のアイテムに関連する集合の積集合の要素の個数に基づいて生成される2変数の同時確率分布の正規化自己情報量を算出してもよい。
【0015】
また、本開示に係る情報処理装置は、
前記関係性行列生成手段は、前記関係性の指標値として、2つのアイテムに関連する集合を包含する全体集合の要素の個数、一方のアイテムに関連する集合の要素の個数、他方のアイテムに関連する集合の要素の個数、および一方のアイテムに関連する集合と他方のアイテムに関連する集合の積集合の要素の個数に基づいて生成される2変数の同時確率分布の正規化相互情報量を算出してもよい。
【0016】
また、本開示に係る情報処理装置は、
前記関心対象カテゴリに属する各アイテムに自然言語で記述された文章が関連付けられている場合に、前記文章に対して形態素解析を行って形態素を抽出する形態素解析手段をさらに有し、
前記関係性行列生成手段は、前記抽出された形態素の集合を用いて、前記関係性行列を生成してもよい。
【0017】
また、本開示に係る情報処理装置は、
前記関心対象カテゴリに属する各アイテムが画像である場合に、前記画像に対して画像解析を行って単語を特定する画像解析手段をさらに有し、
前記関係性行列生成手段は、前記特定された単語の集合を用いて、前記関係性行列を生成してもよい。
【0018】
また、本開示は、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータが、各アイテムをk次元空間に布置する座標値を算出する情報処理方法であって、
コンピュータが、
前記関心対象カテゴリに属する各アイテムについて、2つのアイテムの間において、当該2つのアイテムに関連する集合間の関係性の指標値を算出することにより関係性行列を生成し、
前記関係性行列における三角行列の成分の平均μを用いて単調変化する調整関数を生成し、前記調整関数を前記関係性行列の各成分に作用させることにより被調整行列を生成し、
被調整行列に対して所定の変換を施して、各アイテムをk次元空間に布置する座標値を算出する、情報処理方法を提供する。
【0019】
また、本開示は、
関心対象カテゴリに属する各アイテムに関連する集合を用いて、コンピュータに、各アイテムをk次元空間に布置する座標値を算出させるプログラムであって、
コンピュータを、
前記関心対象カテゴリに属する各アイテムについて、2つのアイテムの間において、当該2つのアイテムに関連する集合間の関係性の指標値を算出することにより関係性行列を生成する関係性行列生成手段、
前記関係性行列における三角行列の成分の平均μを用いて単調変化する調整関数を生成し、前記調整関数を前記関係性行列の各成分に作用させることにより被調整行列を生成する被調整行列生成手段、
被調整行列に対して所定の変換を施して、各アイテムをk次元空間に布置する座標値を算出する座標値算出手段、
として機能させるプログラムを提供する。
【発明の効果】
【0020】
本開示によれば、関心対象とするカテゴリに属する各アイテム間の関係性を可視化することが可能となる。
【図面の簡単な説明】
【0021】
図1】本開示の一実施形態に係る情報処理装置のハードウェア構成図である。
図2】本開示の一実施形態に係る情報処理装置の構成を示す機能ブロック図である。
図3】本開示の一実施形態で用いる文書データベースに記憶された情報の一例を示す図である。
図4】本開示の一実施形態で用いる単語データベースに記憶された情報の一例を示す図である。
図5】本開示の一実施形態に係る情報処理装置の処理動作を示すフローチャートである。
図6】関係性行列S内の三角行列の成分のヒストグラムと、調整関数f(x)との関係を示す図である。
図7】縮小係数sと調整関数f(x)との関係を示す図である。
図8】散布図を説明するための図である。
【発明を実施するための形態】
【0022】
以下、本開示の好適な実施形態について図面を参照して詳細に説明する。
<1.装置構成>
図1は、本開示の一実施形態に係る情報処理装置100のハードウェア構成図である。本実施形態に係る情報処理装置100は、汎用のコンピュータで実現することができ、図1に示すように、CPU(Central Processing Unit)1と、コンピュータのメインメモリであるRAM(Random Access Memory)2と、CPU1が実行するプログラムやデータを記憶するためのハードディスク、SSD(Solid State Drive)、フラッシュメモリ等の大容量の記憶装置3と、キーボード、マウス等の指示入力I/F(インターフェース)4と、データ記憶媒体等の外部装置とデータ通信するためのデータ入出力I/F(インターフェース)5と、液晶ディスプレイ等の表示デバイスである表示部6と、グラフィックスに特化した演算処理部であるGPU(Graphics Processing Unit)7と、表示部6に表示する画像を保持するフレームメモリ8と、を備え、互いにバスを介して接続されている。GPU7による演算結果はフレームメモリ8に書き込まれるため、GPU7とフレームメモリ8は、表示部6へのインタフェースを備えたビデオカードに搭載されて汎用のコンピュータにバス経由で装着されていることが多い。
【0023】
本実施形態において、CPU1は、マルチコアCPUであってもよい。この場合、CPU1は、複数のCPUコアを有し、並列処理が可能となっている。図1の例では、RAM2が1つだけ示されているが、CPU1の各CPUコアが、1つのRAM2にアクセスするように構成されている。なお、CPU1は複数であってもよい。またマルチコアCPUは、論理的に複数のCPUコアを有するCPUであってもよい。
【0024】
図2は、本実施形態に係る情報処理装置の構成を示す機能ブロック図である。図2において、10は単語データベース、11は文書データベース、20は演算処理部、21は共通要素数行列生成手段、22は関係性行列生成手段、23は被調整距離行列生成手段、24は座標値算出手段、27はアイテム配置手段、25は形態素解析手段、30は出力手段である。
【0025】
共通要素数行列生成手段21は、文書をアイテムとしたとき、任意の2つの文書の組合せについて、それぞれの文書に含まれる単語を要素とする2つの集合に基づいて共通要素数行列Mを求める手段である。共通要素数行列Mの各成分は2つの集合の共通要素数である。関係性行列生成手段22は、共通要素数行列Mから関係性行列Sを求める手段である。被調整行列生成手段23は、関係性行列Sに調整関数を作用させて、被調整行列Wを求める手段である。座標値算出手段24は、被調整行列Wに基づいて、各アイテムの座標値を算出する手段である。アイテム配置手段27は、算出された各アイテムの座標値に基づいて、アイテムを配置する手段である。形態素解析手段25は、文書データベース11から各文書を読み込み、各文書に含まれる単語を抽出する手段である。共通要素数行列生成手段21、関係性行列生成手段22、被調整行列生成手段23、座標値算出手段24、アイテム配置手段27、形態素解析手段25は、演算処理部20に含まれており、CPU1がプログラムを実行することにより実現される。
【0026】
出力手段30は、アイテム配置手段27により空間内の座標値に配置されたアイテムをグラフィカルに出力する手段であり、データ入出力I/F5を介したプリンタや、表示デバイス等の表示部6により実現される。
【0027】
単語データベース10は、単語を識別する単語IDと単語を対応付けて記憶したデータベースであり、記憶装置3により実現される。文書データベース11は、テキスト情報からなる文書を、文書を識別する文書IDと対応付けて記憶したデータベースであり、記憶装置3により実現される。
【0028】
図3は文書データベース11に記憶された情報の一例を示す図である。本実施形態では、関心対象カテゴリ(単語データベース10、文書データベース11等で管理される所定の文書群)に属する各アイテム(文書)に関連する集合(単語の集合)を入力データとして用いて、各アイテムをノードとする有向グラフを表示する処理を行う。ここで、文書データベース11に記憶された情報、すなわち、文書の集合が関心対象カテゴリとなり、各文書が各アイテムとなる。そして、各文書に含まれる単語の集合が、各文書に関連する集合となる。各アイテムに関連する集合とは、各アイテムに関連付け(対応付け、ひも付け)されている集合を意味し、各アイテムに含まれる集合や、各アイテムに付随する集合を含む。各アイテムに含まれる集合とは、例えば、各アイテムが文書である場合に、その文書に含まれる単語の集合である。通常、文書は自然言語で記述された文章により構成されている。このため、各アイテムが文書である場合、各アイテムに自然言語で記述された文章が関連付けられていることになる。また、各アイテムに付随する集合とは、例えば、各アイテムが何らかのグループである場合に、そのグループに含まれる要素(通常は何らかの単語として表現可能)の集合である。
【0029】
例えば、関心対象カテゴリが映画であったとして、関心対象カテゴリに属する各アイテムが個々の映画作品であるとき、各アイテムに付随する集合として、その映画作品に出演した俳優の集合を採用することができる。また、例えば、関心対象カテゴリが俳優であったとして、関心対象カテゴリに属する各アイテムが個々の俳優であるとき、各アイテムに付随する集合として、その俳優が出演した映画作品の集合を採用することができる。この2例において、映画と俳優の関係は、一方が関心対象で、他方が付随集合であるというデータ構造から、その逆のデータ構造へと変換することが可能である。また、同じ変換をもう一度かけることにより、元の関係に戻すことができる。このような関係性を一般に双対(dual) という。文書と単語との関係性についても、双対な関係に変換することが可能である。すなわち、単語を関心対象とみなし、それぞれの単語を含む文書の集合を付随集合とみなすのである。
【0030】
また、関心対象カテゴリが画像群であったとして、関心対象カテゴリに属する各アイテムが個々の画像であるとき、各アイテムに付随する集合として、その画像に表現されている内容を示す語句の集合を採用することができる。
【0031】
図3に示すように、文書データベース11には、文書を識別する文書識別情報である文書IDに対応付けて、文書名、作者名、文書データが対応付けて記憶されている。文書データについては、文書IDの特定により文書データを取得可能なように、文書データの格納アドレスが記録されていればよい。図3の例では、例えば、作者「A氏」の「〇〇〇〇〇」という文書(作品)が、文書ID「B001」として登録されていることを示している。
【0032】
図4は単語データベース10に記憶された情報の一例を示す図である。図4に示すように、単語データベース10には、単語を識別する単語識別情報である単語IDに対応付けて、単語、その単語が出現する文書の文書IDが記憶されている。図4の例では、1行目の単語ID「T0001」として登録されている単語が、文書ID「B001」で特定される文書に5回出現しており、文書ID「B002」で特定される文書に3回出現することを意味している。また、2行目の単語ID「T0002」として登録されている単語が、文書ID「B001」で特定される文書に3回出現しており、文書ID「B002」で特定される文書に8回出現することを意味している。
【0033】
単語データベース10に登録された各単語は、文書IDと対応付けられているため、関心対象カテゴリである文書群(文書データベース11に登録されたもの)に属する各文書に関連する集合(単語の集合)を記憶していることになる。本実施形態では、この単語データベース10に記録された単語の情報を入力として、各文書をノードとする有向グラフを作成することになる。単語データベース10は、図4に示したような構成であるため、逆に文書IDで参照することにより、その文書に出現する全ての単語の単語IDを特定することもできる。図4の例では、単語ID「T0001」として登録されている単語、単語ID「T0002」として登録されている単語のいずれも、文書ID「B001」に関連する集合にも、文書ID「B002」に関連する集合にも含まれることになる。
【0034】
図2に示した各構成手段は、現実には図1に示したように、コンピュータおよびその周辺機器等のハードウェアに専用のプログラムを搭載することにより実現される。すなわち、コンピュータが、専用のプログラムに従って各手段の内容を実行することになる。本実施形態においては、CPUがマルチコアCPUであることが好ましい。なお、本明細書において、コンピュータとは、CPU、GPU等の演算処理部を有し、データ処理が可能な装置を意味し、パーソナルコンピュータなどの汎用コンピュータだけでなく、CPUを搭載するタブレットなどの携帯端末や様々な装置に組み込まれたコンピュータも含む。
【0035】
<2.処理動作>
本実施形態における情報処理装置は、所定の情報処理を実行することにより各アイテムを配置した散布図を生成する。次に、本実施形態に係る情報処理方法とともに、図1図2に示した情報処理装置の処理動作について説明する。図5は、本実施形態に係る情報処理装置の処理動作を示すフローチャートである。まず、形態素解析手段25が文書データベース11から、各文書を読み込み、各文書に含まれる単語を抽出する(ステップS10)。具体的には、形態素解析手段25は、抽出した文書に対して形態素解析を実行し、特定の品詞の単語を抽出する。特定の品詞としては、事前に指定されたものが用いられる。例えば、品詞を「名詞」と指定すれば、名詞の単語のみを抽出する。抽出した単語は、その文書に出現した回数とともに、図4に示したように単語データベース10に登録される。
【0036】
ここで、文書データベース11に登録されている各文書の集合をV、各文書をvjとする。文書の集合Vの要素数をnとする。文書の集合が関心対象カテゴリであり、文書vjがアイテムとなる。そして、各文書vj∈V、すなわち各文書vjが集合Vの要素である。各文書vjから、形態素解析により抽出された特定の品詞の単語の集合をTjとする。
【0037】
j={tj1, tj2, tj3,・・・ } , j=1,2,3,・・・,n
【0038】
各単語tji(単語データベース10では、単語IDで管理)には、それぞれに付随して、その単語が 文書vj(単語データベース10では、文書IDで管理) の中で出現した回数の値が取得できている(図4参照)。
【0039】
次に、関心対象カテゴリとして文書データベース11に登録されている文書の集合のうち、任意の2つの文書の組合せについて、それぞれの文書に含まれる単語からなる2つの集合を用いて共通要素数行列Mを求める(ステップS20)。共通要素数行列Mの各成分は2つの集合の共通要素数である。この共通要素数行列Mは、n行n列からなる正方行列である。また、この共通要素数行列Mは、対称行列、すなわち自身の転置行列と一致する行列である。共通要素数とは、2つの文書に関連する集合に共通して出現する要素(ここでは単語)の数である。文書vj、文書viの2つの文書に関連する集合に共通して出現する共通要素数はmjiと表現される。ステップS20における具体的な処理としては、まず、n個の文書の中からj=1,2,3,・・・,nの各文書vjとi=1,2,3,・・・,nの各文書viのすべての組合せについて、 共通要素数mjiの値を求める。共通要素数mjiは、以下の(数式 11)により表現される。
【0040】
ji=n(Tj∩Ti)(j=1,2,3,・・・,n;i=1,2,3,・・・,n)…… (数式 11)
ただし、n()は は集合の要素数を表す。
【0041】
(数式 11)に示した処理は、単語データベース10を用いた場合は、2つの文書IDを特定し、両者に対応付けて記録された単語IDの数をカウントすることにより取得される。
【0042】
共通要素数行列Mとは、以下の(数式 12)に示すように、共通要素数mjiを第j行 第i列成分とする行列であるとする。
【0043】
M=[mji](j=1,2,3,・・・,n;i=1,2,3,・・・,n)…… (数式 12)
【0044】
このような条件においては、共通要素数mjiと共通要素数mijは等しいため、共通要素数行列Mは、対称行列である。
【0045】
次に、共通要素数行列Mから関係性行列Sを求める(ステップS30)。ここで、関係性とは、両者の関係性を示す情報であり、様々な指標で表現することができる。例えば、両者が類似している程度である類似度や、両者が離れている程度である距離を用いることができる。類似度は両者が近いほど大きくなり、距離は両者が遠いほど大きくなる。このため、類似度と距離は、所定の変換式により互いに変換することができる。関係性行列Sを求める処理として、具体的には、まず、各j,iに対し、文書vjに出現する単語の集合である集合Tj、文書viに出現する単語の集合である集合Tiとの関係性を表す指標値sjiを算出する。指標値sjiは、以下の(数式 13)に示したような関数f(mjj,ii,ji)を用いて、mjj,ii,jiの3つの共通要素数の数値から算出する。
【0046】
ji=f(mjj,ii,ji)…… (数式 13)
【0047】
(数式 13)に示したsjiは非対称な関係性の指標値である。指標値sjiを算出する関数f(mjj,ii,ji)の具体的な形については、非常に多くの選択肢がありうる。本実施形態では、後述するように、2変数の同時確率分布の非対称正規化自己情報量、2変数の同時確率分布の非対称正規化相互情報量、2変数の同時確率分布の回帰係数などを主として採用している。
【0048】
指標値sjiを算出するための共通要素数の数値のうち、共通要素数mjjは、文書vjにおける特定の品詞の単語の数、共通要素数miiは文書viにおける特定の単語の数となる。共通要素数mji、共通要素数mijは、いずれも文書viと文書vjに共通して出現する数であるので、mji=mijである。
【0049】
関係性行列Sとは、以下の(数式 14)に示すように、関係性の指標値sjiを第j行 第i列成分とする行列であるとする。
【0050】
S=[sji](j=1,2,3,・・・,n;i=1,2,3,・・・,n)…… (数式 14)
【0051】
関係性行列Sの行成分、列成分の数は、共通要素数行列Mと同じであり、文書数nに対応した非対称なn次正方行列である。本実施形態では、自分同士の距離が0となるように調整する。すなわち、sii、sjj等の関係性行列Sの対角成分は全て0となる。このステップS30の処理の詳細については後述する。
【0052】
ステップS30における処理により関係性行列Sが得られたら、次に、関係性行列Sに基づいて単調変化する調整関数を生成し、調整関数を作用させて、被調整行列Wを求める(ステップS40)。具体的には、被調整行列生成手段23が、関係性行列Sを構成する関係性の指標値sjiを用いて、対応する成分wjiを求めることにより、被調整行列Wを生成する。被調整行列Wの各成分wjiは、単調変化する調整関数として、単調増加する調整関数、単調減少する調整関数のいずれかを用いて求めることができる。単調変化する調整関数は、関係性行列生成手段22により得られた関係性行列に基づいて生成する。
【0053】
ステップS30において得られた関係性行列の成分の特性をそのまま活用する場合は、ステップS40において単調増加する調整関数f(x)を用いる。一方、ステップS30において得られた関係性行列の成分の特性を逆転させる場合は、ステップS40において単調減少する調整関数g(x)を用いる。単調増加する調整関数f(x)としては、例えば、以下の(数式 15)、(数式 16)に示したものを用いることができる。また、単調減少する調整関数g(x)としては、例えば、以下の(数式 17)、(数式 18)に示したものを用いることができる。次の(数式 15)は単調増加する調整関数f(x)の一例である。
【0054】
(数式 15)
【数7】
【0055】
(数式 15)において、xとして関係性の指標値sjiを代入し、f(x)として成分wjiを得る。(数式 15)において、σは関係性行列S内の三角行列の成分の標準偏差であり、σ2は関係性行列S内の三角行列の成分の分散であり、μは関係性行列S内の三角行列の成分の平均である。ここで、三角行列とは、関係性行列Sのうち、対角成分を除いた上三角行列または下三角行列を示す。本実施形態では、関係性行列S内の上三角行列、下三角行列の分散σ2は、平均μの値はともに等しいため、三角行列として、上三角行列と下三角行列のどちらを用いてもよい。このように、(数式 15)に示す単調増加する調整関数f(x)は、関係性行列Sに基づいて生成される関数である。exp()は、ネイピア数を底とする指数関数であり、expに続く()内は指数である。(数式 15)は、正規分布N(μ、σ2)の確率密度関数をマイナス無限大からxまで積分して得られる関数、すなわち累積確率密度関数である。現実にはマイナス無限大を設定することができないため、被調整行列生成手段23は、十分に小さい負の値を設定して成分wjiを算出する。
【0056】
図6は、関係性行列S内の三角行列の成分のヒストグラムと、調整関数f(x)との関係を示す図である。図6の例では、0付近に三角行列の成分が集中している。このような場合、関係性行列S内の各成分sjiに調整関数f(x)を施すことにより、被調整行列Wの各成分wjiの値が正規分布に近付く。このようにして調整関数f(x)を施して、被調整行列Wを得ることにより、クラスタ分離性を強調することが可能となる。
【0057】
また、被調整行列生成手段23は、上記(数式 15)に示した調整関数f(x)に代えて、以下の(数式 16)に従った処理を実行して、被調整行列Wの各成分wjiを算出してもよい。
【0058】
(数式 16)
【数8】
【0059】
(数式 16)において、xとして関係性の指標値sjiを代入し、f(x)として成分wjiを得る。(数式 16)においても、μは関係性行列S内の三角行列の成分の平均である。関係性行列S内の三角行列の成分の分散σ2は用いていない。このように、(数式 16)に示す単調増加する調整関数f(x)は、関係性行列Sに基づいて生成される関数である。aは、2を標準偏差σで除算して得られる係数であり、a=2/σである。(数式 16)は、シグモイド関数である。
【0060】
(数式 15) に示した累積確率密度関数を用いた場合と(数式 16)に示したシグモイド関数を用いた場合を比較すると、(数式 15) に示した累積確率密度関数では積分演算により演算量が増えるため、 (数式 16)に示したシグモイド関数の方が、演算量が少ない。そのため、(数式 16)に示したシグモイド関数を用いて算出した方が高速に被調整行列Wを得ることができる。
【0061】
また、次の(数式 17)は単調減少する調整関数g(x)の一例である。
【0062】
(数式 17)
【数9】
【0063】
(数式 17)において、xとして関係性の指標値sjiを代入し、g(x)として成分wjiを得る。(数式 15)と (数式 17)を比較すると明らかなように、調整関数g(x)は1から、(数式 15)に示した単調増加する調整関数f(x)を減じたものである。(数式 15)と同様、(数式 17)において、σは関係性行列S内の三角行列の成分の標準偏差であり、σ2は関係性行列S内の三角行列の成分の分散であり、μは関係性行列S内の三角行列の成分の平均である。ここで、三角行列とは、関係性行列Sのうち、対角成分を除いた上三角行列または下三角行列を示す。本実施形態では、関係性行列S内の上三角行列、下三角行列の分散σ2は、平均μの値はともに等しいため、三角行列として、上三角行列と下三角行列のどちらを用いてもよい。このように、(数式 17)に示す単調減少する調整関数g(x)は、関係性行列Sに基づいて生成される関数である。
【0064】
図示は省略するが、単調減少する調整関数g(x)を用いた場合も、図6に示した例と同様に、関係性行列S内の各成分sjiに調整関数g(x)を施すことにより、被調整行列Wの各成分wjiの値が正規分布に近付く。このようにして調整関数g(x)を施して、被調整行列Wを得ることにより、クラスタ分離性を強調することが可能となる。
【0065】
また、被調整行列生成手段23は、上記(数式 17)に示した調整関数g(x)に代えて、以下の(数式 18)に示した調整関数g(x)に従った処理を実行して、被調整行列Wの各成分wjiを算出してもよい。
【0066】
(数式 18)
【数10】
【0067】
(数式 18)において、a=2/σである。(数式 18)において、xとして関係性の指標値sjiを代入し、f(x)として成分wjiを得る。(数式 16)と (数式 18)を比較すると明らかなように、調整関数g(x)は1から、(数式 16)に示した単調増加する調整関数f(x)を減じたものである。(数式 18)においても、μは、関係性行列S内の三角行列の成分の平均である。関係性行列S内の三角行列の成分の分散σ2は用いていない。このように、(数式 18)に示す単調減少する調整関数g(x)は、関係性行列Sに基づいて生成される関数である。aは、2を標準偏差σで除算して得られる係数であり、a=2/σである。(数式 18)は、シグモイド関数である。
【0068】
(数式 15) 、(数式 16)の単調増加する調整関数f(x)、(数式 17) 、(数式 18)の単調減少する調整関数g(x)を用いることにより、関係性行列S内の関係性成分sjiを調整して調整後の関係性成分wjiを得ることができる。(数式 15) 、(数式 16) (数式 17) 、(数式 18) に示した調整関数は、いずれも関係性行列S内の三角行列の成分の標準偏差σと、関係性行列S内の三角行列の成分の平均μを用いている。
このようにして関係性成分の値を調整関数により調整することにより、各アイテムのクラスタ分離性を強調することができる。
【0069】
本実施形態では、さらにクラスタ分離性を強調するため、被調整行列生成手段23は、以下の(数式 19)に従った処理を実行して、変数を算出し直す。
【0070】
(数式 19)
【数11】
【0071】
(数式 19)において、rはr≧1を満たす係数であり、はs0≦s≦1を満たす縮小係数である。r、sはいずれも実数値である。
【0072】
(数式 19)に従った処理を実行して、算出し直した変数σ´、μ´を変数σ、μに代えて(数式 15) 、(数式 17)にそれぞれ代入して、被調整行列Wの各成分wjiを算出する。また、算出し直した変数a´、μ´を変数a、μに代えて(数式 16) 、(数式 18)に代入して、被調整行列Wの各成分wjiを算出する。このようにして、変数を算出し直すことにより、一層クラスタの分離性を強調することができる。
【0073】
図7は、縮小係数sと調整関数f(x)との関係を示す図である。図7においては、縮小係数sのみを変化させた場合に、対応する調整関数f(x)を示している。図7の例では、s=1、1/2、1/4の3種類における調整関数f(x)を示している。縮小係数sを1未満の数とすることにより、クラスタ分離性を一層強調することが可能となる。
【0074】
関係性行列Sの成分として距離を用いた場合、単調増加する調整関数f(x)を作用させることにより被調整行列Wの各成分wjiも距離となる。すなわち、この場合、被調整行列Wは被調整距離行列である。関係性行列Sの成分として類似度を用いた場合、単調増加する調整関数f(x)を作用させることにより被調整行列Wの各成分wjiも類似度となる。すなわち、この場合、被調整行列Wは被調整類似度行列である。
【0075】
関係性行列Sの成分として距離を用いた場合、単調減少する調整関数g(x)を作用させることにより被調整行列Wの各成分wjiは類似度となる。すなわち、この場合、被調整行列Wは被調整類似度行列である。関係性行列Sの成分として類似度を用いた場合、単調減少する調整関数g(x)を作用させることにより被調整行列Wの各成分wjiは距離となる。すなわち、この場合、被調整行列Wは被調整距離行列である。
【0076】
次に、被調整行列Wに基づいて、座標値を算出する(ステップS50)。具体的には、座標値算出手段24が、被調整行列Wに基づいて、各アイテムをk次元空間に布置するための座標値を算出する。具体的な処理手法は、被調整行列Wの各成分wjiが距離であるか類似度であるか、すなわち被調整行列Wが被調整距離行列であるか被調整類似度行列であるかにより異なる。
【0077】
まず、被調整行列Wの各成分wjiが距離、すなわち被調整行列Wが被調整距離行列である場合について説明する。被調整行列Wが被調整距離行列である場合、座標値算出手段24は、被調整距離行列である被調整行列WにYoung-Householder変換を施して行列Yを得た後、行列YをY=XTXの形に分解する多次元尺度構成法を適用した演算を行う。これにより、各アイテムをk次元空間に布置するための座標値を算出する。
【0078】
この際、まず、座標値算出手段24は、被調整距離行列である被調整行列WにYoung-Householder変換を施す。Young-Householder変換とは、n行n列の平方行列に中心化行列Cnを用いて、以下の(数式 20)に従って行列Yを得る変換である。
【0079】
(数式 20)
Y=-1/2・CnDCn
【0080】
Cnは、n=3の場合、以下の(数式 21)のようになる。
【0081】
(数式 21)
【数12】
【0082】
次に、行列YをY=XTXの形に分解して、行列Xを得る。この行列Xはk行n列の座標列であり、n個のアイテムのk次元座標が得られる。
【0083】
次に、被調整行列Wの各成分wjiが類似度、すなわち被調整行列Wが被調整類似度行列である場合について説明する。
【0084】
被調整行列Wが被調整類似度行列である場合、ステップS50において、座標値算出手段24が、被調整類似度行列である被調整行列Wからグラフ・ラプラシアン行列Pを生成した後、グラフ・ラプラシアン行列Pに基づいて、各アイテムをk次元空間に布置する座標値を算出する。n行n列の平方行列からk行n列のグラフ・ラプラシアン行列Pを生成し、n個のアイテムのk次元座標が得られる。
【0085】
上記説明のようにステップS30で得られる関係性行列Sの成分が距離である場合、ステップS40において単調増加する調整関数f(x)を用いると、被調整行列Wの成分は距離となる。逆に、関係性行列Sの成分が距離である場合に、ステップS40において単調減少する調整関数g(x)を用いると、被調整行列Wの成分は類似度となる。一方、ステップS30で得られる関係性行列Sの成分が類似度である場合、ステップS40において単調増加する調整関数f(x)を用いると、被調整行列Wの成分は類似度となる。逆に、関係性行列Sの成分が類似度である場合に、ステップS40において単調減少する調整関数g(x)を用いると、被調整行列Wの成分は距離となる。
【0086】
そしてステップS50においては、被調整行列Wの各成分wjiが距離の場合、被調整距離行列である被調整行列WにYoung-Householder変換を施して行列Yを得た後、行列YをY=XTXの形に分解する多次元尺度構成法を適用した演算を行って各アイテムをk次元空間に布置する座標値を算出する。一方、被調整行列Wの各成分wjiが類似度の場合、被調整類似度行列である被調整行列Wからグラフ・ラプラシアン行列Pを生成した後、グラフ・ラプラシアン行列Pに基づいて、各アイテムをk次元空間に布置する座標値を算出する。
【0087】
ステップS30において算出する関係性行列の成分を距離、類似度のいずれにするか、ステップS40において用いる調整関数を、単純増加する調整関数f(x)、単純減少する調整関数g(x)のいずれにするかは、扱うデータの種類や可視化する目的等に応じて適宜設定することができる。また、ステップS50においてYoung-Householder変換、グラフ・ラプラシアン行列のいずれを用いるかについては、ステップS40において得られた被調整行列Wの成分の種別に応じて設定される。
【0088】
<3.ステップS30の詳細>
上述のように、本実施形態では、ステップS30において共通要素数mjiと共通要素数mijから関係性の指標値sjiを算出する関数f(mjj,ii,ji)として、2変数の同時確率分布の非対称正規化自己情報量、2変数の同時確率分布の非対称正規化相互情報量、2変数の同時確率分布の回帰係数などを主として採用している。これらのうち、非対称正規化自己情報量、非対称正規化相互情報量を用いて、共通要素数mjiと共通要素数mijから関係性の指標値sjiを求める考え方について、以下説明していく。
【0089】
本明細書では、2つの対象が似ているか似ていないかを示す性質を「関係性」と定義し、2つの対象が相互に似ている度合いを「類似度」と定義する。したがって、互いに逆の概念である「距離」と「類似度」は、2つの対象が似ているか似ていないかを示す性質を表す「関係性」の下位概念となる。まず、一般論として、与えられた 2つの有限集合A,B の間の距離の指標と類似度の指標をいくつか挙げる。また、それらがどのように 導出できるかについても述べる。指標は、それが距離 (非類似度) であるか 類似度であるか、また、対称であるか 非対称であるかによって、次の6種類に分類できる。
【0090】
(A1)距離の指標、対称
(A2)類似度の指標、対称
(A3)距離の指標、非対称 (集合Aから集合Bへ)
(A4)距離の指標、非対称 (集合Bから集合Aへ)
(A5)類似度の指標、非対称 (集合Aから集合Bへ)
(A6)類似度の指標、非対称 (集合Bから集合Aへ)
【0091】
ただし、(A4)は(A3)に対して集合Aと集合Bを入れ替えることによって機械的に得られ、(A6)は(A5)から同様に得られるので、実質的に4種類とみることもできる。
【0092】
それぞれのカテゴリについて、指標は、いろいろ考えることができ、 決定版が1種類だけあるというものではない。
【0093】
(B1)自己情報量から導出される指標
(B2)相互情報量から導出される指標
(B3)その他の様々な指標
【0094】
ここから、(B1)「自己情報量から導出される指標」および(B2)「相互情報量から導出される指標」の導出の手法について述べるが、そのための準備として、(B1)の前提となる「自己情報量」および(B2)の前提となる「エントロピー」について、それぞれ定義を述べる。両者について、それぞれ、確率変数の数が1変数のものと2変数のものについて述べる。
【0095】
全体集合U(例えば、単語データベース10に記録された全単語) を有限集合とし、 Uの2つの部分集合A(一方の文書に出現する単語),B(他方の文書に出現する単語)が 与えられているとする。集合U, A, B, A∩B(2つの文書に共通して出現する単語)それぞれの要素数に基づいて、 確率変数 X, Y の同時確率分布を定義することができるので、それの 自己情報量から生成した正規化指標をもって、Aと Bとの距離および類似度の指標とすることができる。(B2)相互情報量について、(B1)における「自己情報量」に代えて「相互情報量」を用いることで、ほぼ同様の導出過程を経て、2つの集合間の6種類の指標を作ることができる。
【0096】
ここで、集合A, Bそれぞれに対応して、確率変数 X, Y を導入する。ある αが集合Aの要素であるとき、確率変数 X は値1をとり、そうでないとき値 0をとることにする。すなわち、
α ∈A → X =1
α ∈Aでない場合 → X =0
集合Bに対しても同様に確率変数 Y を導入する。それぞれ、とる値は0または1の二値でよいが、以下では、一般性をもたせて、それぞれm個、q個の値をとるものとする。
自己情報量および相互情報量に基づいて それぞれ6種類ずつ作ることができるので、計12種類の指標(後述の(指標1)~(指標12))ができる。これら12種類の指標は、集合間の関係性の指標となる。
【0097】
まず、自己情報量とエントロピー(1変数)について説明する。このため、以下のように設定する。
【0098】
・有限集合Xがあり、その要素は x1, x2, x3,・・・,xm であるとする。 X={x1, x2, x3,・・・,xm}
・確率変数 X は、その値として、Xの要素をとるものとする。
・Xのひとつの要素を代表してxと表記する。x∈X
・確率変数 X の値がxとなる確率をP(X=x)と表記する。
【0099】
「確率変数 X が値xをとる事象が起きた」という情報がもつ、ある種の情報量h(X=x) を下記で定義する。 h(X=x)=-log(P(X=x))
【0100】
・このh(X=x)を「自己情報量 (self-information)」(あるいは 「選択情報量」、「自己エントロピー」) という。
・対数の底は2を用いるのが通例である。
・h(X=x)は無名数だが、対数の底として2を用いる場合は、 [bit] という単位をつけてもよい。ここでは、単位を省略する。
・例えば「確率1/8の事象が起きた」という情報の自己情報量は3である。
【0101】
自己情報量h(X=x)のあらゆるx∈Xにわたる平均値 (あるいは期待値) をH(X) とすると、 H(X)= Σx∈XP(X=x)h(X=x)である。平均をとる際、それぞれの事象が起きる確率で重みづけしている。h(X=x)を展開して表記すると、以下の通りとなる。
【0102】
H(X)=-Σx∈XP(X=x)log(P(X=x))
【0103】
H(X) を X の「平均情報量」(あるいは「シャノン情報量」、 「情報量のエントロピー」) と呼ぶ。 ここまで、1変数の場合の自己情報量とエントロピーについて定義を述べた。次に、2変数の場合について述べる。
【0104】
2つの集合X,Yがあり、X={x1, x2, x3,・・・,xm}、Y={y1, y2, y3,・・・,yq;}であるとき、下記で示す集合Zを、集合Xと集合Yとの「直積」と呼び、以下のように表す。
【0105】
Z=X×Y
Z=[(x,y);x∈X,y∈Y]
【0106】
集合Xと集合Yとの直積集合Zにおいて、 確率変数 X が値x(∈X) をとり、なおかつ、 確率変数 Y が値y( ∈Y) をとる確率をP(X=x,Y=y)と表記することにする。これを同時確率 (simultaneous probability)、あるいは 結合確率(joint probability) という。 もし、あらゆるx(∈X)とy( ∈Y)に対してP(X=x,Y=y)=P(X=x)P(Y=y)が成り立てば、確率変数 X と Y とは互いに独立であると言うが、 以下では独立性を仮定しない。
【0107】
ここで、下記の(数式 22-1) (数式 22-2)が言える。これを「周辺化」と呼ぶ。
【0108】
P(X=x)=Σy∈YP(X=x,Y=y)…… (数式 22-1)
P(Y=y)=Σx∈XP(X=x,Y=y)…… (数式 22-2)
【0109】
周辺化において、総和をとる各項は非負の値をとるので、「周辺化にまつわる不等式」として、以下の(数式 22-3) (数式 22-4)が成り立つ。
【0110】
0≦P(X=x,Y=y)≦P(X=x)…… (数式 22-3)
0≦P(X=x,Y=y)≦P(Y=y)…… (数式 22-4)
【0111】
集合Xと集合Yとの直積集合Z=X×Yをm×q個の要素をもつ1次元的な集合だとみれば、自己情報量や平均情報量は自然に 定義することができる。 確率変数 X が値x∈Xをとり、なおかつ、 確率変数 Y が値y∈Yをとるとき、 自己情報量h(X=x,Y=y) は、h(X=x,Y=y)=-log(P(X=x,Y=y))と定義できる。
【0112】
自己情報量h(X=x,Y=y)の、あらゆるx(∈X)と y(∈Y)に わたる平均値を H(X, Y) とすると、H(X, Y)=Σx∈XΣy∈Y P(X=x,Y=y)h(X=x,Y=y)である。総和をひとまとめにして書けば、H(X, Y)=Σ(x, y)∈X×YP(X=x,Y=y)h(X=x,Y=y)とも書ける。H(X=x,Y=y) を展開して書けば、H(X, Y)=-Σ(x, y)∈X×YP(X=x,Y=y) log(P(X=x,Y=y))である。これを「結合エントロピー (joint entropy)」と呼ぶ。
【0113】
ここまでで、自己情報量とエントロピーについて、それぞれ、1変数の場合と2変数の場合とについて、定義を述べた。ここから、前記(B1)~(B3)のうち(B1)にあたる、自己情報量から導出される指標について述べる。そのための準備として、まず、非負相関性仮定を導入し、その下で成り立つ、自己情報量に関する3つの不等式の導出のしかたについて述べる。
【0114】
まず、自己情報量の性質について説明する。以下の(数式 23-1) (数式 23-2)が、「自己情報量に関する第1の不等式」として成り立つ。
【0115】
h(X=x,Y=y)≧h(X=x)…… (数式 23-1)
h(X=x,Y=y)≧h(Y=y)…… (数式 23-2)
【0116】
「自己情報量に関する第1の不等式」について証明する。上記のように、周辺化にまつわる以下の不当式が成り立つ。
【0117】
0≦P(X=x,Y=y)≦P(X=x) …… (数式 22-3)
0≦P(X=x,Y=y)≦P(Y=y)…… (数式 22-4)
【0118】
対数関数の単調増加性から、辺々の対数をとっても、以下のように、同じ不等号が成り立つ。
【0119】
log(P(X=x,Y=y))≦log(P(X=x))
log(P(X=x,Y=y))≦log(P(Y=y))
【0120】
両辺に(-1)を掛けると不等号が反転し、以下のようになる。
【0121】
-log(P(X=x,Y=y))≧-log(P(X=x))
-log(P(X=x,Y=y))≧-log(P(Y=y))
【0122】
証明終わり。したがって、以下のような式が成り立つ。
【0123】
h(X=x,Y=y)≧h(X=x)
h(X=x,Y=y)≧h(Y=y)
【0124】
ここで、事象 X =xと事象 Y =yとの間に 非負の相関性がある場合に限定して考える(非負相関性仮定)。
P(X=x,Y=y)≧P(X=x)P(Y=y)…… (数式 23-3)
【0125】
非負相関性仮定 (数式 23-3) の下で、 辺々、対数をとり、(-1)を掛けることによって、 不等号が逆転し、以下の(数式 23-4)が、「自己情報量に関する第2の不等式」として成り立つ。
【0126】
h(X=x,Y=y)≦h(X=x)+h(Y=y)…… (数式 23-4)
【0127】
自己情報量に関する関係性をまとめる。(数式 23-1)、(数式 23-2)、(数式 23-4) を再掲すると、
h(X=x,Y=y)≧h(X=x)…… (数式 23-1)
h(X=x,Y=y)≧h(Y=y)…… (数式 23-2)
h(X=x,Y=y)≦h(X=x)+h(Y=y)…… (数式 23-4)
である。ただし、(数式 23-4) は、 非負相関性仮定 (数式 23-3)
P(X=x,Y=y)≧P(X=x)P(Y=y)≧0の下で成り立つ。
【0128】
ここまでで、非負相関性仮定の下での自己情報量に関する3つの不等式を導出した。これらを用いることによって、対称および非対称な正規化自己情報量を導出することができるが、まず、対称なものの導出のしかたについて述べる。上記の自己情報量に関する関係性 (数式 23-1)、(数式 23-2)、(数式 23-4)は、自己情報量 h(X=x, Y=y) のとりうる値の 下限と上限とを示している。 ひとつにまとめて、次のように記載できる。
【0129】
max(h(X=x,Y=y))≦h(X=x,Y=y)≦h(X=x)+h(Y=y)
【0130】
1つにまとめるに際して、次のようなまとめ方もできる。
【0131】
min(h(X=x,Y=y))≦h(X=x,Y=y)≦h(X=x)+h(Y=y)
【0132】
しかし、min(h(X=x,Y=y))のまとめ方は、下限値に余裕を持たせすぎた「幅の広過ぎる」不等式である。以下では、max(h(X=x,Y=y))のほうを採用する。ただし、後者を用いると、下記の非特許文献に述べられているGoogle Distance を導出することができる。言い換えると、これから述べる(B1)自己情報量から導出される指標は、それとは別物である。
【0133】
非特許文献:
Rudi L. Cilibrasi and Paul M. B. Vitanyi.
"The google similarity distance."
IEEE Transactions on Knowledge and Data Engineering,
Vol. 19, pp.370-383, 2007.
【0134】
h(X=x,Y=y)は、下限と上限とを r: 1-rに 内分する点であるとみることにより、rを定義する ことができる。あるいは、内分比を逆にみて、h(X=x,Y=y)は、下限と上限とを1-r´:r´ に 内分する点であるとみることにより、r´を定義する ことができる。 すると、明らかに、rとr´は以下の式を満たす。
【0135】
0≦r≦1,0≦r′≦1,r+r´=1
【0136】
上記の式を書き替えると、以下のようになる。
【0137】
r=(h(X=x,Y=y)-max(h(X=x,Y=y)))/min(h(X=x,Y=y))
r´=(h(X=x)+h(Y=y)-h(X=x,Y=y))/min(h(X=x,Y=y))
【0138】
rは距離を、r´は類似度を表す。
非負相関性仮定の下で、rもr´も0以上1以下の値をとるが、 負の相関性があるときは、r´>1、 r´<0となる。同時確率を限りなく0に近づけていけば、 いくらでも大きく、又は、 小さくなりうる。rおよび r´をここでは「正規化自己情報量 (normalized self-information)」と呼ぶことにして、それぞれ、dNSI(X=x,Y=y)、simNSI(X=x,Y=y)と表すことにする。
【0139】
正規化自己情報量 (対称)について、まとめると、d NSI(X=x,Y=y)、sim NSI(X=x,Y=y)は、それぞれ、以下のように表現できる。
【0140】
NSI(X=x,Y=y)=(h(X=x,Y=y)-max(h(X=x,Y=y)))/min(h(X=x),h(Y=y))
simNSI(X=x,Y=y)=(h(X=x)+h(Y=y)-h(X=x,Y=y))/min(h(X=x,Y=y))
【0141】
ここで、dNSIは距離を、simNSIは類似度を表す。 上記非負相関性仮定 (数式 23-3)
P(X=x,Y=y)≧P(X=x)P(Y=y)≧0の下で、以下のようになる。
【0142】
0≦dNSI(X=x,Y=y)≦1
0≦simNSI(X=x,Y=y)≦1
【0143】
負の相関性があるときは、以下のようになる。
【0144】
NSI(X=x,Y=y)>1
simNSI(X=x,Y=y)<0
【0145】
ここまでで、(B1)自己情報量から導出される指標のうちでも対称なものについて述べた。次に、非対称なものについて述べる。上記(数式 23-1)、(数式 23-2)、(数式 23-4)における自己情報量に関する関係性は、h(X=x,Y=y)のとりうる値の下限と上限とを 示している。上記の例ではmax()を用いてひとつにまとめることで、 対称性が保たれていたが、ここでは、別々に扱う。
【0146】
h(X=x)≦h(X=x,Y=y)≦h(X=x)+h(Y=y)
h(Y=y)≦h(X=x,Y=y)≦h(X=x)+h(Y=y)
【0147】
ここから、対称な場合と同様に、内分比によって正規化指標を作ると、非対称な正規化自己情報量として、以下のような非対称な式が得られる。
【0148】
NSI(X=x→Y=y)=h(X=x,Y=y)-h(X=x)/h(Y=y)
NSI(Y=y→X=x)=h(X=x,Y=y)-h(Y=y)/h(X=x)
simNSI(X=x→Y=y)=(h(X=x)+h(Y=y)-h(X=x,Y=y))/h(Y=y)
simNSI(Y=y→X=x)=(h(X=x)+h(Y=y)-h(X=x,Y=y))/h(X=x)
【0149】
ここで、dNSI は距離を、simNSI は類似度を表す。 上記非負相関性仮定 (数式 23-3) P(X=x,Y=y)≧P(X=x)P(Y=y)≧0の下で、以下が成り立つ。
【0150】
0≦dNSI(X=x→Y=y)≦1
0≦dNSI(Y=y→X=x)≦
0≦simNSI(X=x→Y=y)≦1
0≦simNSI(Y=y→X=x)≦1
【0151】
ここまでで、前述した(B1)~(B3)の(B1)にあたる、自己情報量から導出される指標について、その導出のしかたを述べた。次に、(B2)にあたる、相互情報量から導出される指標について、その導出のしかたを述べる。これは、(B1)における自己情報量に代えて、エントロピーを用いることで、ほぼ同等の道筋をとることができる。準備として、まず、エントロピーに関する3つの不等式の導出のしかたについて述べる。結合エントロピーについて、(数式24-1) (数式24-2)に示す「結合エントロピーに関する第1の不等式」が成り立つ。
【0152】
H(X, Y)≧ H(X)…… (数式24-1)
H(X, Y)≧ H(Y)…… (数式24-2)
【0153】
「結合エントロピーに関する第 1 の不等式」について証明する。(数式24-1) において、左辺から右辺を引いた値が非負であることを証明する。
【0154】
H(X, Y)-H(X)=-Σ(x,y)∈X×YP(X=x,Y=y)log(P(X=x,Y=y))+Σx∈XP(X=x)log(X=x)
【0155】
ここで周辺化 (数式 22-1) より、P(X=x)=Σy∈YP(X=x,Y=y)であるから、以下の式が成り立つ。
【0156】
H(X, Y)-H(X)
=-Σ(x,y)∈X×YP(X=x,Y=y)log(P(X=x,Y=y))+Σx∈Xy∈YP(X=x,Y=y)]log(P(X=x))
=-Σ(x,y)∈X×YP(X=x,Y=y)log(P(X=x,Y=y))+Σ(x,y)∈X×YP(X=x,Y=y)log(P(X=x))
=-Σ(x,y)∈X×YP(X=x,Y=y)log(P(X=x,Y=y)/P(X=x))+Σx∈Xy∈YP(X=x,Y=y)]log(P(X=x))
【0157】
ここで、周辺化 (数式 22-3) より、0≦P(X=x,Y=y)≦P(X=x)である。よって全項が非負値をとる。よって、以下の式が成り立つ。
【0158】
H(X, Y)-H(X)≧0
【0159】
(数式24-2) についても、X と Y とを入れ替えて同様である。以上で証明は終わりである。結合エントロピーについて、(数式24-3)に示す「結合エントロピーに関する第 2 の不等式」が成り立つ。
【0160】
H(X, Y)≦H(X)+H(Y)…… (数式24-3)
【0161】
等号が成り立つのは、X と Y とが互いに独立な 確率変数である場合、すなわち、P(X=x,Y=y)=P(X=x)P(Y=y)である場合であって、かつ、そのときに限る。 次にこれを証明する。
【0162】
周辺化 (数式 22-1)、(数式 22-2) より、
P(X=x)=Σy∈YP(X=x,Y=y)…… (数式 22-1)
P(Y=y)=Σx∈XP(X=x,Y=y)…… (数式 22-2)
であるから、以下の式が成り立つ。
【0163】
H(X)=-Σ(x,y)∈X×YP(X=x,Y=y)log(P(X=x))
H(Y)=-Σ(x,y)∈X×YP(X=x,Y=y)log(P(Y=y))
【0164】
したがって、さらに以下の式が成り立つ。
【0165】
H(X)+H(Y)-H(X, Y)=-Σ(x,y)∈X×YP(X=x,Y=y)log((P(X=x)P(Y=y)/P(X=x,Y=y))
【0166】
ここで、任意のu>0に対して、log(u)≦u-1すなわち、-log(u)≧1-uであるから、以下の式が成り立つ。
【0167】
H(X)+H(Y)-H(X, Y)≧
Σ(x,y)∈X×YP(X=x,Y=y)(1-P(X=x)P(Y=y)/P(X=x,Y=y))=0
【0168】
以上で証明は終わりである。「相互情報量」について説明する。確率変数 X と Y とが互いに独立でない場合、 H(X, Y)とH(X)+H(Y)とは一致しない。上記 (数式24-3)に示したように、H(X, Y)≦H(X)+H(Y)…… (数式24-3) である。 (数式24-3)の両者の情報量の差 ((右辺) - (左辺)) を 「相互情報量」と呼び、以下のように表す。相互情報量は常に非負の値になる。
【0169】
I(X, Y)=H(X)+H(Y)-H(X, Y) …… (数式24-4)
【0170】
「条件つきエントロピー」について説明する。事象Bが生じているという条件下における、 事象Aの条件つき自己情報量 h(A|B) を以下のように定める。
【0171】
h(A|B)=-log(P(A|B))
【0172】
確率変数 X が与えられたとき、事象Bの下での 事象 X = x の条件つき自己情報量h(X =x|B)=-log(P(X =x|B))の xに関する期待値を「条件つきエントロピー」と呼び、以下のように表す。
【0173】
H(X |B)=-Σx∈XP(X =x|B)log(P(X =x|B))
【0174】
さらに、確率変数 Y が与えられたとき、事象 Y = yが 生じているという条件下における、事象 X =xの条件つきエントロピー H(X | Y=y)のyに関する期待値は、以下のように表現できる。これもやはり「条件つきエントロピー」と呼ぶ。
【0175】
H(X | Y)=Σy∈YP(Y=y) H(X | Y=y)
【0176】
以下の(数式24-5) (数式24-6)が、条件つきエントロピーについて成り立つ等式として、成り立つ。
【0177】
H(X | Y)=H(X,Y)-H(Y)…… (数式24-5)
H(Y | X)=H(X,Y)-H(X)…… (数式24-6)
【0178】
ここまでの平均情報量H、相互情報量Iの関係性をまとめると以下のようになる。
【0179】
H(X,Y) ≧H(Y) …… (数式24-1)
H(X,Y) ≧H(Y) …… (数式24-2)
H(X,Y) ≦ H(X)+H(Y) …… (数式24-3)
I(X,Y) =H(X) +H(Y)-H(X,Y) …… (数式24-4)
H(X|Y) =H(X,Y) -H(Y) …… (数式24-5)
H(Y|X) =H(X,Y) -H(X) …… (数式24-6)
【0180】
ここまでで、エントロピーに関する3つの不等式を導出した。これらを用いることによって、対称および非対称な正規化相互情報量を導出することができるが、まず、対称なものの導出のしかたについて述べる。 (数式24-1) ~ (数式24-3) を再掲する。
H(X, Y)≧H(X) …… (数式24-1)
H(X, Y)≧H(Y) …… (数式24-2)
H(X, Y)≦H(X)+H(Y) …… (数式24-3)
【0181】
(数式24-1) ~ (数式24-3)は、H(X, Y) のとりうる値の下限と上限とを示している。ひとつにまとめて、次のように書ける。
【0182】
max(H(X), H(Y))≦H(X, Y)≦H(X)+H(Y)
【0183】
H(X, Y)は、下限と上限とを r:1-rに 内分する点であるとみることにより、rを定義する ことができる。 あるいは、内分比をひっくり返しにみて、H(X, Y)は、下限と上限とを1-r´:r´に 内分する点であるとみることにより、r´ を定義する ことができる。すると、明らかに、0≦r≦1、0≦r´≦1、r+r´=1である。 上記の式を書き換えると、以下のようになる。
【0184】
r=[H(X, Y)-max(H(X), H(Y))]/min(H(X),H(Y))
r´=[H(X)+H(Y)-H(X, Y)]/min(H(X),H(Y))
【0185】
r´の分子は相互情報量 I(X, Y )であるが、分母があることによって、正規化できている。 ここで、rは距離を、r´は類似度を表す。 自己情報量の正規化指標とよく似ているが、相互情報量の場合は、 非負相関性仮定が要らない。rおよび r´を一般的に「正規化相互情報量 (normalized mutual information)」と呼び、それぞれ、 dNMI(X, Y)、simNMI(X, Y) と表す。
【0186】
対称な正規化相互情報量についてまとめると、「正規化相互情報量 (normalized mutual information)」dNMI(X, Y)、simNMI(X, Y) は、それぞれ、以下のように表現できる。この場合、非負相関性仮定は必要としない。
【0187】
NMI=[H(X, Y)-max(H(X), H(Y))/min(H(X), H(Y))
simNMI=(H(X)+H(Y )-H(X, Y))/min(H(X), H(Y))
【0188】
上記のdNMI(X, Y)、simNMI(X, Y)については、0≦dNMI(X, Y)≦1、0≦simNMI(X, Y)≦1が成り立つ。 ここで、dNMIは距離を、simNMIは類似度を表す。 ただし、X と Y とが無相関のときに、 dNMIは最大値 1 をとり、simNMIは最小値 0 をとり、 負の相関があるときは、再び下降および上昇に転じる。 つまり、dNMIおよびsimNMIは、X の情報がいかによく Y に 伝達されたかを表しており、無相関なときにまったく伝達されておらず、負の相関のときには伝達されているとみている。ここまでで、(B2)エントロピー(相互情報量)から導出される指標のうちでも対称なものについて述べた。次に、非対称なものについて述べる。
【0189】
(数式24-1) ~ (数式24-3) を再掲する。
H(X, Y)≧H(X) …… (数式24-1)
H(X, Y)≧H(Y) …… (数式24-2)
H(X, Y)≦H(X)+H(Y) …… (数式24-3)
【0190】
これは、H(X, Y)のとりうる値の下限と上限とを 示している。上記の例ではmax()を用いてひとつにまとめることで、 対称性が保たれていたが、ここでは、別々に扱う。
【0191】
H(X)≦H(X, Y)≦H(X)+H(Y)
H(Y)≦H(X, Y)≦H(X)+H(Y)
【0192】
ここから、上記の例と同様に、内分比によって正規化指標を作ると、非対称な正規化相互情報量として、以下の非対称な式が得られる。
【0193】
NMI(X→Y)=(H(X, Y)-H(X))/H(Y)
NMI(Y→X)=(H(X, Y)-H(Y))/H(X)
simNMI(X→Y)=(H(X)+H(Y)-H(X, Y))/H(Y)
simNMI(Y→X)=(H(X)+H(Y)-H(X, Y))/H(X)
【0194】
ここで、非負相関性仮定は必要としないため、以下が成り立つ。dNMIは距離を、simNMIは類似度を表す。
【0195】
0≦dNMI(X→Y)≦1
0≦dNMI(Y→X)≦1
0≦simNMI(X→Y)≦1
0≦simNMI(Y→X)≦1
【0196】
ここまでで、前述した(B1)~(B3)の(B2)にあたる、エントロピーから導出される指標について、その導出のしかたを述べた。ここまでで、前述した(B1)~(B3)の(B1)と(B2)について、一般の確率変数 X, Y を用いて定義したが、最終的に2つの集合間の指標に落とし込むためには、次のようにする。
【0197】
全体集合Uは有限集合で、その2つの部分集合として、 集合Aと集合Bとがあるものとする(A⊂U、B⊂U )。ここで、集合にまつわる確率分布を定義する。集合Xおよび集合Yを以下のように定義する。
【0198】
X={0,1}
Y={0,1}
【0199】
確率変数 X のとりうる値 x の集合がXであり、 確率変数 Y のとりうる値 y の集合がYであるとする。
【0200】
X=x(x∈X)
Y=y(y∈Y)
【0201】
いま、確率へ変数 X, Y の同時確率分布が下記のようであるとする。
【0202】
P(X=0,Y=0)=[n(U)-n(A)-n(B)+n(A∩B)]/n(U)
P(X=1,Y=0)=[n(A)-n(A∩B)]/n(U)
P(X=0,Y=1)=[n(B)-n(A∩B)]/n(U)
P(X=1,Y=1)=n(A∩B]/n(U)
【0203】
これで、集合A, Bから確率変数 X, Y の同時分布P(X, Y) が 自然に定義できたことになる。集合Aと集合Bとの間の距離および類似度を、確率変数 X, Y の同時確率分布P(X, Y)から導出された X と Y との間の距離および類似度をもって、以下の(指標1)~(指標12)として定義することができる。
【0204】
(指標1) dNSI(A,B)=dNSI(X=1,Y=1)
(指標2) simNSI(A,B)=simNSI(X=1,Y=1)
(指標3) dNSI(A→B)=dNSI(X=1→Y=1)
(指標4) dNSI(B→A)=dNSI(Y=1→X=1)
(指標5) simNSI(A→B)=simNSI(X=1→Y=1)
(指標6) simNSI(B→A)=simNSI(Y=1→X=1)
(指標7) dNMI(A,B)=dNMI(X,Y)
(指標8) simNMI(A,B)=simNMI(X,Y)
(指標9) dNMI(A→B)=dNMI(X→Y)
(指標10) dNMI(B→A)=dNMI(Y→X)
(指標11) simNMI(A→B)=simNMI(X→Y)
(指標12) simNMI(B→A)=simNMI(Y→X)
【0205】
上述のように、dNSI 、dNMIは距離を、simNSI、simNMIは類似度を表す。したがって、上記(指標1) ~(指標12)のうち、 (指標1) (指標3) (指標4) (指標7) (指標9) (指標10)は、2つの集合間の距離の指標であり、(指標2) (指標5) (指標6) (指標8) (指標11) (指標12)は、2つの集合間の類似度の指標である。距離の指標は、その値が大きくなる程、相違が大きく、その値が小さくなる程、相違が小さいことを示し、類似度の指標は、その値が大きくなる程、相違が小さく、その値が小さくなる程、相違が大きいことを示す。すなわち、距離の指標も類似度の指標も、大きな概念としての関係性の指標となる。例えば、距離の指標の値が小さい場合、類似度が高いと判断することもできるため、距離の指標も関係性の指標として用いることができる。ここで、(指標1) (指標2)について書き換えを行い、その詳細を示す。(指標1)については、以下のように書き換えることができる。
【0206】
(指標1)
NSI(A,B)=dNSI(X=1,Y=1)
=((h(X=1,Y=1)-max(h(X=1,Y=1)))/min(h(X=1),h(Y=1))
=(-log(P(X=1,Y=1))-max(-log(P(X=1)),-log(P(Y=1)))/min(-log(P(X=1)),-log(P(Y=1)))=(-log(n(A∩B))+log(min(n(A),n(B))))/(-log(max(n(A),n(B)))+log(n(U)))
【0207】
また、(指標2) については、以下のように書き換えることができる。
【0208】
(指標2)
simNSI(A,B)=simNSI(X=1,Y=1)
=((h(X=1+h(Y=1)-h(X=1,Y=1))/min(h(X=1),h(Y=1))
=(-log(P(X=1)-log(P(Y=1))+log(P(X=1,Y=1)))/min(-log(P(X=1)),-log(P(Y=1)))
=(-log(n(A))-log(n(B))+log(n(A∩B))+log(n(U)))/(-log(max(n(A),n(B)))+log(n(U)))
【0209】
結果として、(指標1)~(指標6)については、以下のように導き出すことができる。
【0210】
(指標1) dNSI(A,B)
=(-log(n(A∩B))+log(min(n(A),n(B))))/(-log(max(n(A),n(B)))+log(n(U)))
(指標2) simNSI(A,B)
=(-log(n(A))-log(n(B))+log(n(A∩B))+log(n(U)))/(-log(max(n(A),n(B)))+log(n(U)))
(指標3) dNSI(A→B)
=(-log(n(A∩B))+log(n(A)))/(-log(n(B)))+log(n(U)))
(指標4) dNSI(B→A)
=(-log(n(A∩B))+log(n(B)))/(-log(n(A)))+log(n(U)))
(指標5) simNSI(A→B)
=(-log(n(A))-log(n(B))+log(n(A∩B))+log(n(U)))/(-log(n(B))+log(n(U)))
(指標6) simNSI(B→A)
=(-log(n(A))-log(n(B))+log(n(A∩B))+log(n(U)))/(-log(n(A))+log(n(U)))
【0211】
上記(指標1)~(指標6)は、2変数の同時確率分布の正規化自己情報量である。このうち、(指標1)、(指標2)は、対称な関係性の指標であり、(指標3)~(指標6)は、非対称な関係性の指標である。したがって、2変数の同時確率分布の非対称正規化自己情報量である(指標3)~(指標6)のいずれかを2つの集合間の非対称な関係性の指標として用いることができる。
【0212】
(指標7)~(指標12)については、複雑になるため、間接的に表記する。まず、確率について、以下のように定義する。なおA´はAの補集合であり、B´はBの補集合である。
【0213】
P(A)=n(A)/n(U)
P(B)=n(B)/n(U)
P(A´)=(n(U)-n(A))/n(U)
P(B´)=(n(U)-n(B))/n(U)
P(A´∩B´)=(n(U)-n(A)-n(B)+n(A∩B))/n(U)
P(A∩B´)=(n(A)-n(A∩B))/n(U)
P(A´∩B)=(n(B)-n(A∩B))/n(U)
P(A∩B)=n(A∩B)/n(U)
【0214】
また、エントロピーについて、以下のように定義する。
H(A)=-P(A´)log(P(A´))-P(A)log(P(A))
H(B)=-P(B´)log(P(B´))-P(B)log(P(B))
H(A,B)=-P(A´∩B´)log(P(A´∩B´))-P(A∩B´)log(P(A∩B´))-P(A´∩B)log(P(A´∩B))-P(A∩B)log(P(A∩B))
【0215】
(指標7)~(指標12)については、平均情報量を用いて以下のように定義することができる。
【0216】
(指標7) dNSI(A,B)
=(H(A,B)-max(H(A),(H(B)))/min(H(A),(H(B))
(指標8) simNMI(A,B)
=(H(A)+H(B)-H(A,B))/min(H(A),(H(B))
(指標9) dNMI(A→B)
=(H(A,B)-H(A))/H(B)
(指標10) dNMI(B→A)
=(H(A,B)-H(B))/H(A)
(指標11) simNMI(A→B)
=(H(A)+H(B)-H(A,B))/H(B)
(指標12) simNMI(B→A)
=(H(A)+H(B)-H(A,B))/H(A)
【0217】
上記(指標7)~(指標12)は、2変数の同時確率分布の正規化相互情報量である。このうち、(指標7)、(指標8)は、対称な関係性の指標であり、(指標9)~(指標12)は、非対称な関係性の指標である。したがって、2変数の同時確率分布の非対称正規化相互情報量である(指標9)~(指標12)のいずれかを2つの集合間の非対称な関係性の指標として用いることができる。
【0218】
ここまでで、前述した (B1)~(B3)の (B1)と(B2)について、集合A,Bを用いて定義した。次に、(B3)その他の様々な指標の1つとして、Pearson 係数と回帰係数について述べる。
【0219】
関係性
simP(A,B)=(n(A∩B)n(U)-n(A)n(B))/(n(A)(n(U)-n(A))n(B)(n(U)-n(B)))1/2
【0220】
Pearson 係数は、全体集合Uの要素の個数n(U)を用いている。また、Pearson 係数は、確率変数 X, Y の直積の確率分布の相関係数 ρ である。また、Pearson 係数は、-1以上1以下の実数値をとる。また、Pearson 係数は、無相関 (独立) のときに値0をとる。Pearson 係数には非対称版がある。非対称版は、回帰係数(Regression Coefficient) であり、以下のように定義される。
【0221】
(指標13) simRC(A→B)
=(n(A∩B)n(U)-n(A)n(B))/(n(A)(n(U)-n(A))
(指標14) simRC(B→A)
=(n(A∩B)n(U)-n(A)n(B))/(n(B)(n(U)-n(B))
【0222】
Pearson 係数の非対称版である上記(指標13)、(指標14)は、2変数の同時確率分布の正規化相互情報量である。したがって、2変数の同時確率分布の回帰係数であるPearson 係数の非対称版を2つの集合間の非対称な関係性の指標として用いることができる。
【0223】
以上のように、2つの集合間の非対称な関係性の指標について説明してきたが、本実施形態では、2変数の同時確率分布の非対称正規化自己情報量である(指標3)~(指標6)、2変数の同時確率分布の非対称正規化相互情報量である(指標9)~(指標12)、2変数の同時確率分布の正規化相互情報量である(指標13)、(指標14)のうちのいずれかを、2つの集合間の非対称な関係性の指標として用いることができる。特に、(A→B)(B→A)の各集合の向きを逆にしたものをペアとして用いると、2つのアイテムの相互の依存関係が明確になる。
【0224】
2つの集合間の非対称な関係性の指標としては、上記のようにして求められる指標はもちろんのこと、その他の指標も用いることができる。本実施形態では、すべてのアイテムに関連する集合を包含する全体集合の要素の個数をn(U)、一方のアイテムに関連する集合の要素の個数をn(A)、他方のアイテムに関連する集合の要素の個数をn(B)、これらの 2つの集合の積集合の要素の個数をn(A∩B)としたときに、生成される3つのタイプの指標を用いている。
【0225】
1つ目のタイプは、(指標3)~(指標6)のような、集合の要素の個数n(U)、n(A)、n(B)、n(A∩B)により生成される 2変数の同時確率分布の非対称正規化自己情報量である。2つ目のタイプは、(指標9)~(指標12)のような、集合の要素の個数n(U)、n(A)、n(B)、n(A∩B)により生成される2変数の同時確率分布の非対称正規化相互情報量である。3つ目のタイプは、(指標13)(指標14)のような、集合の要素の個数n(U)、n(A)、n(B)、n(A∩B)により生成される2変数の同時確率分布の回帰係数である。
【0226】
1つ目のタイプの同時確率分布の非対称正規化自己情報量としては、 (指標5) (指標6)(または(指標3) (指標4))を用いることができる。例えば、(指標5) (指標6)を用いる場合、関係性行列生成手段22が、ステップS30において上記(指標5) (指標6)に従った処理を実行する。具体的には、単語データベース10から抽出した単語に基づいて、共通要素数mjjをn(A)、共通要素数miiをn(B)、共通要素数mji(=mij)をn(A∩B)とし、単語データベース10において設定されている全単語数をn(U)として、上記(指標5) (指標6)に従った処理を実行する。そして、(指標5) (指標6)に従って算出されたsimNSI(A→B)、simNSI(B→A)を関係性の指標値sji、sijとして求める。これにより、関係性行列S=[sji](j=1,2,3,・・・,n;i=1,2,3,・・・,n)が算出される。
【0227】
2つ目のタイプの同時確率分布の非対称正規化相互情報量としては、 (指標11) (指標12)(または(指標9) (指標10))を用いることができる。例えば、(指標11) (指標12)を用いる場合、関係性行列生成手段22が、ステップS30において上記(指標11) (指標12)に従った処理を実行する。具体的には、単語データベース10から抽出した単語に基づいて、共通要素数mjjをn(A)、共通要素数miiをn(B)、共通要素数mji(=mij)をn(A∩B)とし、単語データベース10において設定されている全単語数をn(U)として、上記(指標11) (指標12)に従った処理を実行する。ただし、(指標11) (指標12)は、実際は、平均情報量H(A)、H(B)H(A,B)を用いた式であるので、前ページの確率定義の式、エントロピー定義の式を用いて、要素の個数n(U)、n(A)、n(B)、n(A∩B)を用いた式を用いる。すなわち、関係性行列生成手段22は、要素の個数n(U)、n(A)、n(B)、n(A∩B)を用いた同時確率分布の非対称正規化相互情報量算出のための式に従った処理を実行して、算出されたsimNMI(A→B)、simNMI(B→A)を関係性の指標値sji、sijとして求める。これにより、類似度行列S=[sji](j=1,2,3,・・・,n;i=1,2,3,・・・,n)が算出される。
【0228】
3つ目のタイプの同時確率分布の回帰係数としては、(指標13)(指標14)を用いることができる。この場合、関係性行列生成手段22が、ステップS30において上記、(指標13)(指標14)に従った処理を実行する。具体的には、単語データベース10から抽出した単語に基づいて、共通要素数mjjをn(A)、共通要素数miiをn(B)、共通要素数mji(=mij)をn(A∩B)とし、単語データベース10において設定されている全単語数をn(U)として、上記、(指標13)(指標14)に従った処理を実行する。そして、(指標13)(指標14)に従って算出されたsimRC(A→B)、simRC(B→A)を関係性の指標値sji、sijとして求める。これにより、関係性行列S=[sji](j=1,2,3,・・・,n;i=1,2,3,・・・,n)が生成される。
【0229】
ステップS30にて関係性行列生成手段22が関係性行列Sを生成した後、ステップS40にて被調整行列生成手段23が被調整行列Wを生成し、ステップS50にて、被調整行列Wに基づいて、座標値算出手段24が座標値を算出する。そして、ステップS60にて、アイテム配置手段27が、算出された座標値に対応するアイテムを配置する。実際には、アイテムの名称等を含むノードを所定の座標値に割り当てて、表示デバイス等の出力手段用のデータを生成して、表示部6等の出力手段30から出力した。
【0230】
<4.具体的な例>
次に、具体的なデータを用いた例で説明する。文書として、36編の小説を用いた。このような36編の文書を、文書を識別する文書IDと対応付けて文書データベース11に登録しておく。ステップS10において、形態素解析手段25は、形態素解析を実行し、単語を抽出する。この状態で、抽出した単語を、単語を識別する単語IDと出現した文書の文書IDと対応付けて単語データベース10に登録する。
【0231】
この単語データベース10が記憶する情報から、文書IDを特定することにより、その文書IDの文書に出現する単語を特定することができる。ステップS20において、関係性行列生成手段22は、36の文書の中から2つの文書を抽出し、2つの文書が共通に有する単語の数を共通要素数として算出する。これは、単語データベース10を、2つの文書IDで参照し、2つの文書IDに共通に対応付けて記憶されている単語IDの数を特定することにより算出される。36の文書の中から全ての2つの文書の組み合わせについて算出することにより、共通要素数を成分とする36×36の共通要素数行列が得られる。
【0232】
そして、ステップS30にて関係性行列生成手段22が関係性行列Sを生成した後、ステップS40にて被調整行列生成手段23が被調整行列Wを生成し、ステップS50にて、被調整行列Wに基づいて、座標値算出手段24が座標値を算出する。
【0233】
ステップS60において、アイテム配置手段27は、3次元空間を2次元平面に投影した空間斜視図と、3次元のうち、全ての2次元の組み合わせを投影した3つの2次元投影図を、散布図の形態で生成する。空間斜視図においては、省スペース化のため、各アイテムを小さな円で表示し、2次元投影図では、アイテムに作者名と作品名を表示する。このような散布図の様子を図8に示す。
【0234】
図8に示すような散布図を作成することにより、作品間の関係性を示す位置関係が一目瞭然となる。どの作品がどの作品に近いか、また全作品の関係性を示す全体構造の把握が可能となる。
【0235】
図8に示したように、関心対象カテゴリに属する各アイテムに対して、それに関連するデータに基づいてアイテム間の関係性を抽出し、各アイテムをノードとする散布図を表示することで、関心対象カテゴリに属するアイテムの分布の全体像を俯瞰的に眺めることができ、そのカテゴリの構造を把握することができる。類似したアイテムに対応するグラフ上のノードどうしは、それらが互いに近い位置に配置される。
【0236】
1つのアイテムに注目すれば、それの近くに配置された単数または複数の他のアイテムを抽出することで、概念的に近いアイテムを見つけることができる。また、全体像を眺めることで、カテゴリにおいて中心的なアイテム群と周辺的なアイテム群とを判別することができる。また、全体構造が複数のクラスタからなる場合、クラスタの構成が視覚的に把握できるという利点もある。
【0237】
以上、本開示の好適な実施形態について説明したが、本開示は上記実施形態に限定されず、種々の変形が可能である。例えば、2つのアイテムに関連する集合間の関係性の指標として、2変数の同時確率分布の非対称正規化自己情報量、2変数の同時確率分布の非対称正規化相互情報量、2変数の同時確率分布の回帰係数を用いたが、関係性の指標であれば、様々な指標を用いることができる。
【0238】
また、上記実施形態では、関心対象カテゴリに属する各アイテムとして自然言語で記述された文書を用い、この文書を入力データとして、各アイテムである文書を形態素解析することによって、形態素を抽出し、抽出された形態素からなる集合をもって、各アイテムに関連する集合としたが、事前に、各アイテムに関連する集合を用意しておいてもよい。例えば、上記実施形態において、文書データベース11を用いずに、予め単語データベース10だけを用意しておき、単語データベース10に記録された情報だけを用いて、散布図等の作成に用いて有効な座標値を算出することも可能である。
【0239】
また、上記実施形態では、関心対象カテゴリを複数の文書群、各アイテムとして自然言語で記述された文書、入力データとして文書に含まれる単語の集合を用いたが、これ以外にも様々な用途を用いることができる。例えば、複数の会社に関する記事群を収集し、これらの記事群を関心対称カテゴリとして、各会社の月別の記事をアイテムとし、各記事に含まれる単語の集合を入力データとし、異なる会社の記事間の関係性を表示することもできる。また、例えば、複数の商品に関する説明文を収集し、これらの説明文群を関心対称カテゴリとして、各商品をアイテムとし、各商品の説明文に含まれる単語の集合を入力データとし、異なる商品間の関係性を表示することもできる。
【0240】
また、関心対象カテゴリに属する各アイテムとして絵画作品等を撮影して得た画像を用い、この画像を入力データとして、各アイテムである画像を画像解析することによって、画像の内容を表現する単語を特定し、特定された単語からなる集合をもって、各アイテムに関連する集合としてもよい。この場合、情報処理装置は、文書データベース11に代えて画像データベースを備え、形態素解析手段25に代えて画像解析手段を備えた構成とする。
【0241】
画像解析手段は、形態素解析手段25と同様、演算処理部20に含まれ、CPU1が、プログラムを実行することにより実現される。そして、画像解析手段は、各画像に対して画像解析を実行し、画像を表現する内容としてタグ付けする単語を特定する。画像解析手段が実行する画像解析手法としては、公知の様々な手法を用いることができる。例えば、画像解析ソフトウェアとして米国 Clarifai 社の「Clarifai」という画像タグづけソフトウェアを用いることができる。特定された単語は、その画像の画像IDと対応付けて、単語データベースに登録される。この単語データベースは、単語を識別する単語識別情報である単語IDに対応付けて、単語、その単語が内容を表現するタグとして付与された画像の画像IDが記憶されたものとなっている。この単語データベースは、上記実施形態における単語データベース10と同様に扱われる。そして、情報処理装置は、単語データベースに登録された情報に基づいて、各アイテム(画像)に対応する座標値を算出して散布図を作成する。
【符号の説明】
【0242】
1・・・CPU(Central Processing Unit)
2・・・RAM(Random Access Memory)
3・・・記憶装置
4・・・指示入力I/F
5・・・データ入出力I/F
6・・・表示部
7・・・GPU
8・・・フレームメモリ
10・・・単語データベース
11・・・文書データベース
20・・・演算処理部
21・・・共通要素数行列生成手段
22・・・関係性行列生成手段
23・・・被調整行列生成手段
24・・・座標値算出手段
25・・・形態素解析手段
27・・・アイテム配置手段
30・・・出力手段
100・・・情報処理装置
図1
図2
図3
図4
図5
図6
図7
図8