(58)【調査した分野】(Int.Cl.,DB名)
前記生成部は、前記複数のクラスタのうちの一のクラスタに対する前記第1の確率と、当該一のクラスタに対する前記第2の確率との積の、当該複数のクラスタの全てのクラスタについての総和を算出することにより、当該総和を前記第3の情報として生成する、請求項3の装置。
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、このような技術に対する要求としては、よく使われる用語が意外な文脈で使われている文書を発見したいというものがある。例えば、自動車関連のニュースに関し、用語「電気自動車」はよく記事に登場し、また、地名「A国」も度々話題になるが、「電気自動車」を「A国」で発売、といったニュースは今までになかったとする。このような場合に、「電気自動車」と「A国」の組み合わせが出現する文書はニュースとして価値が高いので、これを自動的に検出したいという要求である。
【0009】
かかる要求に応えるには、特異な文書を見つけ出すだけでなく、ある文書でその文書における特異な単語が使われていることを見つけ出すことが必要になる。
【0010】
尚、特許文献1〜4の技術には、特異な文書を見つけ出すものはあるが、ある文書でその文書における特異な単語が使われていることを見つけ出すものはない。
【0011】
本発明の目的は、ある文書でその文書における特異な単語が使われていることを見つけ出すことにある。
【課題を解決するための手段】
【0012】
かかる目的のもと、本発明は、複数の単語を含む文書からの情報の取得を支援する装置であって、文書が文書に含まれる概念に基づいて複数のクラスタの各々に属する度合いを示す第1の情報と、複数の単語のうちの一の単語が一の単語の概念に基づいて複数のクラスタの各々に出現する度合いを示す第2の情報とを取得する取得部と、第1の情報と第2の情報とに基づいて、文書に含まれる概念と一の単語の概念との重なりの度合いを示す第3の情報を生成する生成部と、第3の情報が予め定められた基準よりも低い重なりの度合いを示すかどうかを判定する判定部と、第3の情報が基準よりも低い重なりの度合いを示すと判定された場合に、一の単語が文書において特異な単語である旨の情報を出力する出力部とを含む、装置を提供する。
【0013】
ここで、取得部は、文書を含む複数の文書に対してクラスタリングを行うことにより、第1の情報と第2の情報とを取得する、ものであってよい。
【0014】
また、この装置は、複数の文書の各文書から単語を抽出する抽出部を更に備え、取得部は、複数の文書に対して、各文書から抽出された単語を用いて、LDA(Latent Dirichlet Allocation)によるクラスタリングを行うことにより、文書が複数のクラスタの各々に属する確率である第1の確率を第1の情報として取得し、一の単語が複数のクラスタの各々に属する確率である第2の確率を第2の情報として取得する、ものであってよい。
【0015】
更に、生成部は、複数のクラスタのうちの一のクラスタに対する第1の確率と、一のクラスタに対する第2の確率との積の、複数のクラスタの全てのクラスタについての総和を算出することにより、総和を第3の情報として生成する、ものであってよい。
【0016】
更にまた、判定部は、総和が基準である予め定められた閾値よりも小さいかどうかを判定し、出力部は、総和が閾値よりも小さいと判定された場合に、一の単語が文書において特異な単語である旨の情報を出力する、ものであってよい。
【0017】
また、本発明は、複数の単語を含む文書からの情報の取得を支援する方法であって、文書が文書に含まれる概念に基づいて複数のクラスタの各々に属する度合いを示す第1の情報と、複数の単語のうちの一の単語が一の単語の概念に基づいて複数のクラスタの各々に出現する度合いを示す第2の情報とを取得するステップと、第1の情報と第2の情報とに基づいて、文書に含まれる概念と一の単語の概念との重なりの度合いを示す第3の情報を生成するステップと、第3の情報が予め定められた基準よりも低い重なりの度合いを示すかどうかを判定するステップと、第3の情報が基準よりも低い重なりの度合いを示すと判定された場合に、一の単語が文書において特異な単語である旨の情報を出力するステップとを含む、方法も提供する。
【0018】
更に、本発明は、複数の単語を含む文書からの情報の取得を支援する装置として、コンピュータを機能させるプログラムであって、コンピュータを、文書が文書に含まれる概念に基づいて複数のクラスタの各々に属する度合いを示す第1の情報と、複数の単語のうちの一の単語が一の単語の概念に基づいて複数のクラスタの各々に出現する度合いを示す第2の情報とを取得する取得部と、第1の情報と第2の情報とに基づいて、文書に含まれる概念と一の単語の概念との重なりの度合いを示す第3の情報を生成する生成部と、第3の情報が予め定められた基準よりも低い重なりの度合いを示すかどうかを判定する判定部と、第3の情報が基準よりも低い重なりの度合いを示すと判定された場合に、一の単語が文書において特異な単語である旨の情報を出力する出力部として機能させる、プログラムも提供する。
【発明の効果】
【0019】
本発明によれば、ある文書でその文書における特異な単語が使われていることを見つけ出すことができる。
【発明を実施するための形態】
【0021】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0022】
まず、本実施の形態の概略動作を述べる。本実施の形態は、単語の背後に潜在する概念を抽出し、それに基づいて、単語が一般的なコンテキストから離れて特異な使われ方をしている文書を発見するものである。
【0023】
そのために、本実施の形態では、まず、解析対象文書を含む文書集合を、クラスタリング技術を用いて分類する。ここで、クラスタリング技術としては、例えばLDA(Latent Dirichlet Allocation)を用いるとよい。LDAによるクラスタリングは、各解析対象文書から単語を抽出した後に、文書での単語の出現が、文書に含まれる概念に起因して発生する、という仮定に基づき、解析対象文書を含む文書集合に対して行われるものである。
【0024】
その結果、ある文書がある概念を含む確率と、ある単語がある概念に出現する確率とが得られる。このうち、前者の確率は、文書Dがその文書に含まれる概念に基づいてクラスタCに属する確率と言うことができ、以下では、これをp(C;D)と表記する。また、後者の確率は、単語Wがその概念に基づいてクラスタCに出現する確率と言うことができ、以下では、これをp(W;C)と表記する。
【0025】
最後に、確率p(C;D)及び確率p(W;C)を用いて、文書に含まれる概念(文書が属するクラスタ)を求め、その概念において出現し難い単語(そのクラスタに出現し難い単語)を特定し、その単語をその文書における特異な単語(特異単語)とする。
【0026】
尚、本明細書では、「単語」という文言を用いるが、これは文法上の「単語」のみを意味するものではない。例えば、単語を組み合わせた句(フレーズ)等も含めて「単語」としている。
【0027】
次に、このような概略動作を行う文書解析装置について説明する。
【0028】
図1は、本実施の形態における文書解析装置10の機能構成例を示したブロック図である。図示するように、文書解析装置10は、文書集合記憶部11と、単語抽出部12と、単語リスト記憶部13とを含む。また、クラスタリング部14と、第1確率記憶部15と、第2確率記憶部16とを含む。更に、重なり度数算出部17と、重なり度数比較部18と、特異単語記録部19とを含む。
【0029】
文書集合記憶部11は、解析対象文書を含む文書集合を記憶する。
【0030】
単語抽出部12は、文書集合記憶部11に記憶された文書集合に含まれる解析対象文書の各々から単語を抽出し、各文書と各文書から抽出された単語とを対応付けた単語リストを生成する。本実施の形態では、複数の文書の各文書から単語を抽出する抽出部の一例として、単語抽出部12を設けている。
【0031】
ここで、単語抽出部12は、単語を抽出する際に、不要な単語を除外するフィルタリング処理として、以下の第1乃至第4のフィルタリング処理の何れかを行ってもよい。第1のフィルタリング処理は、文書集合における各単語の出現頻度を確認し、出現頻度が閾値(例えば20%)以上の単語や、逆に出現頻度が閾値以下の極端に少ない単語を除外する処理である。第2のフィルタリング処理は、クラスタに出現する確率が何れのクラスタにおいても閾値以下である単語、つまり、どのクラスタにも属さないとみなせる単語を除外する処理である。第3のフィルタリング処理は、クラスタに出現する確率が複数のクラスタにおいて閾値以上である単語を除外する処理である。第4のフィルタリング処理は、条件を満たす単語を除外する処理である。条件が、品詞に関する条件であり、品詞が名詞以外であるという条件であるとすると、この処理は名詞のみを残す処理になる。
【0032】
尚、これらのフィルタリング処理で用いられる閾値や条件はパラメータとし、これを文書集合に応じて調節できるようにしてもよい。但し、閾値については、文書集合をサンプリングして得られた文書群について出現頻度又は確率の平均値を算出し、それに対する比率をパラメータとして自動的に決定してもよい。こうすることにより、文書集合ごとに手動で調節することを回避できる。
【0033】
単語リスト記憶部13は、単語抽出部12が生成した単語リストを記憶する。
【0034】
クラスタリング部14は、単語リスト記憶部13に記憶された単語リストに含まれる解析対象文書の全体に対し、単語リスト記憶部13に記憶された単語リストに含まれる単語を用いて、LDAによるクラスタリングを行う。これにより、確率p(C;D)及び確率p(W;C)が得られる。尚、本明細書では、クラスタリング部14が、LDAによるクラスタリングを行い、確率であるp(C;D)及びp(W;C)を算出するものとして説明するが、クラスタリング部14が、他のクラスタリングを行い、確率p(C;D)の代わりに、文書Dがその文書に含まれる概念に基づいてクラスタCに属する度合いを示す情報を取得し、確率p(W;C)の代わりに、単語Wがその概念に基づいてクラスタCに出現する度合いを示す情報を取得するものとしてもよい。即ち、本実施の形態では、文書がその文書に含まれる概念に基づいて複数のクラスタの各々に属する度合いを示す第1の情報の一例として、確率p(C;D)を用いており、単語がその単語の概念に基づいて複数のクラスタの各々に出現する度合いを示す第2の情報の一例として、確率p(W;C)を用いており、第1の情報と第2の情報とを取得する取得部の一例として、クラスタリング部14を設けている。
【0035】
第1確率記憶部15は、クラスタリング部14がLDAによるクラスタリングを行うことによって得られた確率p(C;D)を記憶する。
【0036】
第2確率記憶部16は、クラスタリング部14がLDAによるクラスタリングを行うことによって得られた確率p(W;C)を記憶する。
【0037】
重なり度数算出部17は、第1確率記憶部15に記憶された確率p(C;D)と、第2確率記憶部16に記憶された確率p(W;C)とを用いて、文書Dに含まれる概念と単語Wの概念との重なりの度合いを示す重なり度数Aを算出する。具体的には、式「A=Σp(C;D)p(W;C)(Σは全てのCに対する総和を示す)」により、重なり度数Aを算出する。尚、本明細書では、重なり度数算出部17が、数値化された重なり度数Aを算出するものとして説明するが、必ずしも数値化された度数を算出する必要はなく、文書Dに含まれる概念と単語Wの概念との重なりの度合いを示す情報を生成するものとしてもよい。即ち、本実施の形態では、文書に含まれる概念と単語の概念との重なりの度合いを示す第3の情報の一例として、重なり度数Aを用いており、第3の情報を生成する生成部の一例として、重なり度数算出部17を設けている。
【0038】
重なり度数比較部18は、重なり度数算出部17が算出した重なり度数Aと、予め定められた閾値Tとを比較する。ここで、閾値Tは、予め定めた値としてもよいが、文書集合記憶部11に記憶された文書集合をサンプリングして得られた文書群について重なり度数Aの平均値を算出し、その平均値に基づいて閾値Tを決定してもよい。例えば、閾値Tを、文書群についての重なり度数Aの平均値の0.2倍の値とすることが考えられる。そして、重なり度数Aが閾値Tよりも小さかった場合は、その旨の情報を特異単語記録部19に伝え、重なり度数Aが閾値Tよりも小さくなかった場合は、その旨の情報を重なり度数算出部17に返す。尚、本明細書では、重なり度数比較部18が、重なり度数Aが数値化された閾値Tよりも小さいかどうかを判定するものとして説明するが、必ずしも数値化された閾値よりも小さいかどうかを判定する必要はなく、重なりの度合いを示す情報が予め定められた基準よりも低い重なりの度合いを示すかどうかを判定するものとしてもよい。即ち、本実施の形態では、予め定められた基準の一例として、閾値Tを用いており、第3の情報がその基準よりも低い重なりの度合いを示すかどうかを判定する判定部の一例として、重なり度数比較部18を設けている。
【0039】
特異単語記録部19は、重なり度数Aが閾値Tよりも小さかった旨の情報が重なり度数比較部18から伝えられると、そのときの単語を、そのときの文書における特異単語として記録する。本実施の形態では、単語が文書において特異な単語である旨の情報を出力する出力部の一例として、特異単語記録部19を設けている。
【0040】
尚、これらの処理部は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、CPU90a(
図8参照)が、単語抽出部12、クラスタリング部14、重なり度数算出部17、重なり度数比較部18、特異単語記録部19を実現するプログラムを例えば磁気ディスク装置90g(
図8参照)からメインメモリ90c(
図8参照)に読み込んで実行することにより、これらの処理部は実現される。また、文書集合記憶部11、単語リスト記憶部13、第1確率記憶部15、第2確率記憶部16は、例えば磁気ディスク装置90g(
図8参照)により実現される。
【0041】
次に、本実施の形態における文書解析装置10の動作について説明する。
【0042】
まず、文書解析装置10は、解析対象文書の全体に対してLDAによるクラスタリングを行うことにより、確率p(C;D)及び確率p(W;C)を得る。
【0043】
図2は、このときの文書解析装置10の動作例を示したフローチャートである。
【0044】
図示するように、文書解析装置10では、まず、単語抽出部12が、文書集合記憶部11に記憶された文書集合から1つの文書を取り出す(ステップ101)。
【0045】
次に、単語抽出部12は、その取り出した文書から1つの単語を抽出する(ステップ102)。そして、その抽出した単語が除外すべき単語であるかどうかを判定する(ステップ103)。この判定の1つの例としては、事前に文書集合における各単語の出現頻度を求めておき、出現頻度が閾値より高いかどうか、又は、出現頻度が閾値より低いかどうかを判定するというものがある。これは、上述した第1のフィルタリング処理に相当する。また、この判定の別の例としては、単語が予め定めた条件(例えば品詞に関する条件)を満たすかどうかを判定するというものがある。これは、上述した第4のフィルタリング処理に相当する。
【0046】
その結果、その抽出した単語が除外すべき単語であると判定されれば、ステップ102に戻る。
【0047】
一方、その抽出した単語が除外すべき単語でないと判定されれば、単語抽出部12は、単語リスト記憶部13に記憶された単語リストにその単語及びその単語の出現頻度を含める(ステップ104)。但し、単語リスト記憶部13に記憶された単語リストに既にその単語が含まれている場合は、単語リストに含まれたその単語の出現頻度に1を加算することにより出現頻度を更新する。
【0048】
その後、単語抽出部12は、全ての単語を抽出したかどうかを判定する(ステップ105)。全ての単語を抽出していないと判定すれば、ステップ102に戻り、全ての単語を抽出したと判定すれば、ステップ106へ進む。
【0049】
そして、単語抽出部12は、全ての文書の処理を終了したかどうかを判定する(ステップ106)。全ての文書の処理を終了していないと判定すれば、ステップ101に戻り、全ての文書の処理を終了したと判定すれば、ステップ107へ進む。
【0050】
次いで、クラスタリング部14は、単語リスト記憶部13に記憶された単語リストに含まれる各文書と各文書から抽出された単語との対応を用いて、LDAによるクラスタリングを行う(ステップ107)。そして、このクラスタリングによって得られた確率p(C;D)及び確率p(W;C)を、それぞれ、第1確率記憶部15及び第2確率記憶部16に記憶する(ステップ108)。但し、確率p(W;C)が全てのクラスタにおいて閾値より低い場合に、これを記憶しないようにしてもよい。これは、上述した第2のフィルタリング処理に相当する。また、確率p(W;C)が複数のクラスタにおいて閾値より高い場合に、これを記憶しないようにしてもよい。これは、上述した第3のフィルタリング処理に相当する。
【0051】
このようにして確率p(C;D)及び確率p(W;C)が記憶されると、文書解析装置10は、ある文書でその文書における特異単語が使われていることを検出する。
【0052】
図3は、このときの文書解析装置10の動作例を示したフローチャートである。
【0053】
図示するように、文書解析装置10では、まず、重なり度数算出部17が、単語リスト記憶部13に記憶された単語リストに含まれる1つの文書を取り出す(ステップ151)。尚、ここで取り出した文書を文書Dとする。
【0054】
次に、重なり度数算出部17は、単語リスト記憶部13に記憶された単語リストにおいて文書Dに対応付けられた1つの単語に着目する(ステップ152)。尚、ここで着目した単語を単語Wとする。そして、文書Dが各クラスタに属する確率p(C;D)を第1確率記憶部15から読み出すと共に、単語Wが各クラスタに出現する確率p(W;C)を第2確率記憶部16から読み出し、式「A=Σp(C;D)p(W;C)(Σは全てのCに対する総和を示す)」により、重なり度数Aを算出する(ステップ153)。
【0055】
すると、重なり度数比較部18が、ステップ153で算出された重なり度数Aが予め定めた閾値Tよりも小さいかどうかを判定する(ステップ154)。
【0056】
その結果、重なり度数Aが閾値Tよりも小さくないと判定されれば、単語Wは文書Dの特異単語ではないので、重なり度数比較部18は、その旨の情報を重なり度数算出部17に返し、次の単語についてステップ152以降の処理が行われる。
【0057】
一方、重なり度数Aが閾値Tよりも小さいと判定されれば、単語Wは文書Dの特異単語であるので、重なり度数比較部18は、その旨の情報を特異単語記録部19に伝え、特異単語記録部19が、単語Wを文書Dの特異単語として記録する(ステップ155)。
【0058】
その後、単語Wが文書Dの特異単語として記録された旨の情報は特異単語記録部19から重なり度数算出部17へと伝えられ、重なり度数算出部17は、全ての単語に着目したかどうかを判定する(ステップ156)。全ての単語に着目していないと判定すれば、ステップ152に戻り、全ての単語に着目したと判定すれば、ステップ157へ進む。
【0059】
そして、重なり度数算出部17は、全ての文書の処理を終了したかどうかを判定する(ステップ157)。全ての文書の処理を終了していないと判定すれば、ステップ151に戻り、全ての文書の処理を終了したと判定すれば、処理を終了する。
【0060】
以下、具体例を用いて、本実施の形態における文書解析装置10の動作について説明する。尚、この説明で単語及びクラスタの例として用いる「IBM」は、IBM社の登録商標である。
【0061】
図4は、文書集合記憶部11に記憶された文書集合に含まれる解析対象文書の一例を示したものである。
【0062】
図では、解析対象文書として、文書IDが「Doc1」、「Doc2」、「Doc3」、「Doc4」、「Doc5」の5つの文書を示している。尚、以下では、文書IDが「Doc1」、「Doc2」、「Doc3」、「Doc4」、「Doc5」の文書を、それぞれ、文書Doc1、文書Doc2、文書Doc3、文書Doc4、文書Doc5と表記する。また、文書Doc1、文書Doc2、文書Doc3、文書Doc4、文書Doc5として実際に想定される文書は、それぞれ、複数の文からなる文書であるが、ここでは説明を簡略化するために、文書Doc1、文書Doc2、文書Doc3、文書Doc4、文書Doc5として、それぞれ、1つの文からなる文書を示している。
【0063】
図5は、
図4に示した解析対象文書について
図2のステップ101〜106の処理を実行した結果、単語リスト記憶部13に記憶される単語リストの一例を示した図である。
【0064】
ここでは、各文書から単語として名詞を抽出し、各文書の文書IDと抽出した単語とを対応付けて単語リストとしている。例えば、文書Doc1からは、単語「IBM」、単語「大型」、単語「サーバ」、単語「発表」を抽出し、文書ID「Doc1」とこれらを対応付けている。また、文書Doc2からは、単語「IBM」、単語「リサーチ」、単語「研究」、単語「成果」、単語「次世代」、単語「半導体」、単語「技術」、単語「公開」を抽出し、文書ID「Doc2」とこれらを対応付けている。
【0065】
図6は、
図5に示した単語リストについて
図2のステップ107の処理を実行した結果、ステップ108で第1確率記憶部15に記憶される確率p(C;D)の一例を示したものである。
【0066】
ここでは、クラスタとして、「IBM」、「農業」という2つのクラスタを想定している。即ち、文書Doc1、文書Doc2、文書Doc3、文書Doc4、文書Doc5の何れかを文書Dとし、クラスタ「IBM」、クラスタ「農業」の何れかをクラスタCとした場合に文書DがクラスタCに属する確率p(C;D)を示している。
【0067】
例えば、文書Doc1、文書Doc2及び文書Doc3は、IBMを主題とする文書である可能性が極めて高いと判断されたため、これらの文書を文書Dとし、クラスタ「IBM」をクラスタCとした場合の確率p(C;D)は「1.0」となっているが、文書Doc4及び文書Doc5は、IBMを主題とする文書である可能性はそれよりも低いと判断されたため、これらの文書を文書Dとし、クラスタ「IBM」をクラスタCとした場合の確率p(C;D)は、それぞれ、「0.7」、「0.9」となっている。
【0068】
また、文書Doc1、文書Doc2及び文書Doc3は、農業を主題とする文書である可能性が極めて低いと判断されたため、これらの文書を文書Dとし、クラスタ「農業」をクラスタCとした場合の確率p(C;D)は「0.0」となっているが、文書Doc4及び文書Doc5は、農業を主題とする文書である可能性はそれよりも高いと判断されたため、これらの文書を文書Dとし、クラスタ「農業」をクラスタCとした場合の確率p(C;D)は、それぞれ、「0.3」、「0.1」となっている。
【0069】
図7は、
図5に示した単語リストについて
図2のステップ107の処理を実行した結果、ステップ108で第2確率記憶部16に記憶される確率p(W;C)の一例を示したものである。
【0070】
ここでも、クラスタとして、「IBM」、「農業」という2つのクラスタを想定している。即ち、
図5に示した単語リストに含まれる単語の何れかを単語Wとし、クラスタ「IBM」、クラスタ「農業」の何れかをクラスタCとした場合に単語WがクラスタCに出現する確率p(W;C)を示している。但し、図には、単語リストに含まれる単語のうち、以降の説明で必要な単語のみを示し、それ以外の単語は省略している。
【0071】
例えば、単語「IBM」、単語「サーバ」、単語「半導体」、単語「データベース」、単語「IT」は、IBMに関連する単語である可能性が極めて高いと判断されたため、これらの単語を単語Wとし、クラスタ「IBM」をクラスタCとした場合の確率p(W;C)は「1.0」となっているが、単語「決算」は、IBMに関連する単語である可能性はそれよりも低いと判断されたため、単語「決算」を単語Wとし、クラスタ「IBM」をクラスタCとした場合の確率p(W;C)は「0.8」となっている。一方、単語「農業」は、IBMに関連する単語である可能性が極めて低いと判断されたため、単語「農業」を単語Wとし、クラスタ「IBM」をクラスタCとした場合の確率p(W;C)は「0.0」となっている。
【0072】
また、単語「農業」は、農業に関連する単語である可能性が極めて高いと判断されたため、単語「農業」を単語Wとし、クラスタ「農業」をクラスタCとした場合の確率p(W;C)は「1.0」となっているが、単語「決算」は、農業に関連する単語である可能性はそれよりも低いと判断されたため、単語「決算」を単語Wとし、クラスタ「農業」をクラスタCとした場合の確率p(W;C)は「0.2」となっている。一方、単語「IBM」、単語「サーバ」、単語「半導体」、単語「データベース」、単語「IT」は、農業に関連する単語である可能性が極めて低いと判断されたため、これらの単語を単語Wとし、クラスタ「農業」をクラスタCとした場合の確率p(W;C)は「0.0」となっている。
【0073】
その後、
図3のステップ151〜153の処理が実行されることにより、重なり度数Aが算出される。
【0074】
まず、文書Doc1を文書Dとし、単語「IBM」、単語「サーバ」の何れかを単語Wとした場合を考える。この場合、クラスタ「IBM」に対して、確率p(C;D)、確率p(W;C)は何れも「1.0」となり、クラスタ「農業」に対して、確率p(C;D)、確率p(W;C)は何れも「0.0」となり、重なり度数Aは「1.0(=1.0×1.0+0.0×0.0)」となる。
【0075】
また、文書Doc2を文書Dとし、単語「IBM」、単語「半導体」の何れかを単語Wとした場合を考える。この場合、クラスタ「IBM」に対して、確率p(C;D)、確率p(W;C)は何れも「1.0」となり、クラスタ「農業」に対して、確率p(C;D)、確率p(W;C)は何れも「0.0」となり、重なり度数Aは「1.0(=1.0×1.0+0.0×0.0)」となる。
【0076】
更に、文書Doc3を文書Dとし、単語「IBM」、単語「データベース」の何れかを単語Wとした場合を考える。この場合、クラスタ「IBM」に対して、確率p(C;D)、確率p(W;C)は何れも「1.0」となり、クラスタ「農業」に対して、確率p(C;D)、確率p(W;C)は何れも「0.0」となり、重なり度数Aは「1.0(=1.0×1.0+0.0×0.0)」となる。
【0077】
次に、文書Doc4を文書Dとし、単語「IBM」を単語Wとした場合を考える。この場合、クラスタ「IBM」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.7」、「1.0」となり、クラスタ「農業」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.3」、「0.0」となり、重なり度数Aは「0.7(=0.7×1.0+0.3×0.0)」となる。
【0078】
一方、文書Doc4を文書Dとし、単語「農業」を単語Wとした場合を考える。この場合、クラスタ「IBM」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.7」、「0.0」となり、クラスタ「農業」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.3」、「1.0」となり、重なり度数Aは「0.3(=0.7×0.0+0.3×1.0)」となる。
【0079】
次いで、文書Doc5を文書Dとし、単語「IBM」を単語Wとした場合を考える。この場合、クラスタ「IBM」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.9」、「1.0」となり、クラスタ「農業」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.1」、「0.0」となり、重なり度数Aは「0.9(=0.9×1.0+0.1×0.0)」となる。
【0080】
また、文書Doc5を文書Dとし、単語「決算」を単語Wとした場合を考える。この場合、クラスタ「IBM」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.9」、「0.8」となり、クラスタ「農業」に対して、確率p(C;D)、確率p(W;C)はそれぞれ「0.1」、「0.2」となり、重なり度数Aは「0.74(=0.9×0.8+0.1×0.2)」となる。
【0081】
このようにして重なり度数Aが算出されると、
図3のステップ154〜155が実行されることにより、特異単語が記録される。
【0082】
上記の例において、閾値Tが「0.4」であるとする。この場合、文書Doc4を文書Dとし、単語「農業」を単語Wとした場合のみ、重なり度数Aが閾値Tよりも小さくなるので、単語「農業」が文書Doc4の特異単語として記録されることになる。
【0083】
以上述べたように、本実施の形態では、解析対象文書の全体に対してLDAによるクラスタリングを行うことにより、文書DがクラスタCに属する確率p(C;D)と、単語WがクラスタCに出現する確率p(W;C)とを取得し、これらの確率に基づいて、文書Dに含まれる概念と単語Wの概念との重なり具合を示す重なり度数Aを算出し、この重なり度数Aが閾値Tより小さい場合に、単語Wを文書Dの特異単語として記録するようにした。これにより、文書Dでその文書における特異な単語Wが使われていることを見つけ出すことができるようになった。
【0084】
尚、本実施の形態では、解析対象文書の全体に対してクラスタリングを行うことにより確率p(C;D)及び確率p(W;C)を取得するようにしたが、これには限らない。即ち、クラスタリングを行うことなく、別の方法により、確率p(C;D)及び確率p(W;C)に相当する情報を取得するようにしてもよい。
【0085】
最後に、本実施の形態を適用するのに好適なコンピュータのハードウェア構成について説明する。
【0086】
図8は、このようなコンピュータのハードウェア構成例を示した図である。図示するように、コンピュータは、演算手段であるCPU(Central Processing Unit)90aと、M/B(マザーボード)チップセット90bを介してCPU90aに接続されたメインメモリ90cと、同じくM/Bチップセット90bを介してCPU90aに接続された表示機構90dとを備える。また、M/Bチップセット90bには、ブリッジ回路90eを介して、ネットワークインターフェイス90fと、磁気ディスク装置(HDD)90gと、音声機構90hと、キーボード/マウス90iと、フレキシブルディスクドライブ90jとが接続されている。
【0087】
尚、
図8において、各構成要素は、バスを介して接続される。例えば、CPU90aとM/Bチップセット90bの間や、M/Bチップセット90bとメインメモリ90cの間は、CPUバスを介して接続される。また、M/Bチップセット90bと表示機構90dとの間は、AGP(Accelerated Graphics Port)を介して接続されてもよいが、表示機構90dがPCI Express対応のビデオカードを含む場合、M/Bチップセット90bとこのビデオカードの間は、PCI Express(PCIe)バスを介して接続される。また、ブリッジ回路90eと接続する場合、ネットワークインターフェイス90fについては、例えば、PCI Expressを用いることができる。また、磁気ディスク装置90gについては、例えば、シリアルATA(AT Attachment)、パラレル転送のATA、PCI(Peripheral Components Interconnect)を用いることができる。更に、キーボード/マウス90i、及び、フレキシブルディスクドライブ90jについては、USB(Universal Serial Bus)を用いることができる。
【0088】
即ち、本発明は、全てハードウェアで実現してもよいし、全てソフトウェアで実現してもよい。また、ハードウェア及びソフトウェアの両方により実現することも可能である。また、本発明は、コンピュータ、データ処理システム、コンピュータプログラムとして実現することができる。このコンピュータプログラムは、コンピュータにより読取り可能な媒体に記憶され、提供され得る。ここで、媒体としては、電子的、磁気的、光学的、電磁的、赤外線又は半導体システム(装置又は機器)、或いは、伝搬媒体が考えられる。また、コンピュータにより読取り可能な媒体としては、半導体、ソリッドステート記憶装置、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク、及び光ディスクが例示される。現時点における光ディスクの例には、コンパクトディスク−リードオンリーメモリ(CD−ROM)、コンパクトディスク−リード/ライト(CD−R/W)及びDVDが含まれる。
【0089】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神及び範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。