(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0015】
[実施の形態]
(情報処理装置の構成)
図1は、情報処理装置1の構成の一例を示すブロック図である。
【0016】
この情報処理装置1は、複数の文を有する大規模データから抽出される形態素又は文字列(以下、「トークン」という。)について、当該トークンの共起語(関連語)に基づいてトークンの意味を表す意味情報を生成し、当該意味情報の共起語に基づいて意味が類似する意味情報を同一クラスタに分類し、さらに用法によっては意味が異なり互いに置換できないトークンの意味情報をクラスタから削除し、他のクラスタに所属していても互いに置換できるトークンの意味情報をクラスタに追加して分類するものである。
【0017】
情報処理装置1は、CPU(Central Processing Unit)等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記録媒体から構成され情報を記憶する記憶装置の一例としての記憶部11と、外部のデータベース等と図示しないネットワークを介して接続される通信部12とを備える。
【0018】
制御部10は、後述する意味情報分類プログラム110を実行することで、形態素解析手段100、ラベル推定手段101、意味情報生成手段102、意味クラスタ生成手段103及び意味クラスタ更新手段104等として機能する。
【0019】
形態素解析手段100は、大規模データ111に含まれるデータを、例えば、文を単位としてそれぞれ形態素解析して、文をトークンの組み合わせに置き換える。
【0020】
ラベル推定手段101は、それぞれの文に含まれるトークンに基づいてそれぞれの文にラベルを付与し、各ラベルを多値分類する。
【0021】
意味情報生成手段102は、ラベル推定手段101の多値分類の結果に基づいて各ラベルに対して共起するスコアの高いトークンを関連語とし、ラベルと関連語の組み合わせである意味情報データ112を生成する。
【0022】
意味クラスタ生成手段103は、意味情報データ112に基づいて関連語が類似するラベル同士を、意味の類似するラベルの集合としてクラスタリングして意味クラスタ113を生成する。
【0023】
意味クラスタ更新手段104は、同じクラスタに属するラベルであっても、用法によって置換できないラベルを削除するとともに、異なるクラスタに属するが用法によって置換できるラベルを追加して意味クラスタ113を更新する。
【0024】
記憶部11は、意味情報分類プログラム110、大規模データ111、意味情報データ112及び意味クラスタ113等を格納する。
【0025】
意味情報分類プログラム110は、制御部10で実行することにより制御部10を上記した各手段100〜104として機能させるプログラムである。
【0026】
大規模データ111は、一例として、日本語であって文又は文書の集合である。文は、電子メールでやりとりされるテキスト情報や、複数の利用者によって文字情報が投稿されるマイクロブログ(Microblog)、音声をテキスト化した情報や、印刷された紙面を光学走査して得られる情報等である。なお、大規模データ111は、日本語に限らず他の言語を用いてもよい。なお、大規模データ111は、外部から取得する構成であってもよい。
【0027】
なお、情報処理装置1は、例えば、サーバ装置やパーソナルコンピュータであり、携帯電話等や携帯情報処理端末を用いることができる。
【0028】
(情報処理装置の動作)
次に、本実施の形態の作用を、(1)動作の概要、(2)意味クラスタ更新動作に分けて説明する。
【0029】
(1)動作の概要
図21は、情報処理装置1の動作の概要を説明するためのフローチャートである。
図2(a)及び(b)は、形態素解析手段100の動作例を説明するための図である。
【0030】
まず、形態素解析手段100は、大規模データ111から文を順次取得する(S1)。
図2(a)に示すように、「プログラムを走らせる」という文111aを取得した場合について説明する。
【0031】
次に、取得した文111aをそれぞれ形態素解析して文をトークンの組み合わせに置き換える(S2)。
図2(b)に示すように、「プログラム」というトークン100a
1、「を」というトークン100a
2、「走る」というトークン100a
3、「せる」というトークン100a
4の組み合わせ100aに置き換える。
【0032】
図3は、ラベル推定手段101の動作例を説明するための図である。
【0033】
次に、ラベル推定手段101は、それぞれの文に含まれるトークンに基づいてそれぞれのトークンの組み合わせにラベルを付与する(S3)。
図3に示す例では、組み合わせ100aに含まれるトークン100a
1に基づいてラベル101a
11、101a
12…が付与され、トークン100a
2に基づいてラベル101a
21が付与され、トークン100a
3に基づいてラベル101a
31、101a
32…が付与され、トークン100a
4に基づいてラベル101a
41が付与される。ここで、特定の品詞(動詞、名詞、形容詞、副詞等)にはラベルを5つ付け、それ以外(助詞、助動詞等)にはラベルを1つ付けている。なお、以下においてラベル101a
11、101a
12…、ラベル101a
21、ラベル101a
31、101a
32…等を「ラベル101a」と総称する場合もある。
【0034】
なお、ラベル推定手段101は、特定の品詞(動詞、名詞、形容詞、副詞等)にのみラベル101aを付与して、その他には付与しないようにしてもよい。
【0035】
図4Aは、ラベル推定手段101の多値分類の動作例を説明するための図である。
【0036】
次に、ラベル推定手段101は、各ラベル101aを多値分類する(S4)。その結果として、
図4Aに示すように各ラベル101aのそれぞれが文100a、100b…に関連付けられる。つまり、例えば「走る−1」というラベル101a
31であれば、同様の意味で用いられていると考えられる文100a及び100bに関連付けられる。言い換えれば、ラベルはトークンが複数の意味を持つ場合に、その意味の1つの側面を示すものである。
【0037】
なお、多値分類のモデルとして、PLSI(Probabilistic Latent Semantic Indexing)、LDA(Latent Dirichlet Allocation)、LLDA(Labeled Latent Dirichlet Allocation)、PLDA(Partially Labeled Latent Dirichlet Allocation)等を用いることができ、以降ではLLDAを採用した場合について説明する。また、クラスタリング手法や機械学習手法を用いてもよい。
【0038】
図4Bは、ラベル推定手段101の多値分類の動作の変形例を説明するための図である。
【0039】
ラベル推定手段101は、ラベル101aの多値分類の変形例として、すべての文に関連付けられる「BG−1」というラベル101a
BGを設定してもよい。これにより、後述する意味情報生成手段102の動作の変形例において、すべての文において用いられる助詞、助動詞、代名詞等のノイズとなりうるトークンをラベル101aの関連語から排除できる(
図5B参照)。
【0040】
図5Aは、意味情報生成手段102の動作例を説明するための図である。
【0041】
次に、意味情報生成手段102は、ラベル推定手段101の多値分類の結果に基づいて各ラベル101aに共起するスコアの高いトークンを関連語とし、ラベル101aと関連語の組み合わせである意味情報データ112を生成する(S5)。
図5Aに示す意味情報データ102a
3は、意味情報データ112のうちラベル101a
31〜101a
35についての意味情報データである。例えば、「走る」というトークンが、「走る−1」というラベル101a
31の意味で用いられる場合、当該ラベル101a
31が関連づけられている文において出現するトークンを関連語の集合101b
31とし、各関連語の出現頻度に基づいて「[]」で示されるスコアが算出される。
【0042】
なお、「走る」というトークンのラベル101a
31〜101a
35において「走る」というトークンがスコア最上位で含まれるのは当然の結果であるため、関連語の集合101b
31〜101b
35から削除してもよい。
【0043】
図5Bは、意味情報生成手段102の動作の変形例を説明するための図である。
【0044】
なお、意味情報生成手段102は、意味情報データ112の生成の変形例として、
図4Bで説明したラベル101a
BGを用いることで、助詞、助動詞、代名詞等のすべての文で頻繁に用いられるトークン(例えば、「に」、「が」、「を」等)がスコア上位に現れるが、これらはノイズであるため、他のラベル101a
31〜101a
35の関連語から削除してもよい。
【0045】
図6(a)及び(b)は、意味クラスタ生成手段103の動作例を説明するための図である。
【0046】
次に、意味クラスタ生成手段103は、同義語や上位・下位語、反意語等の意味的に似ているトークンは同じような文脈で用いられることが多いため、意味情報データ112に基づいて関連語が類似するラベル101a同士を、意味の類似するラベルの集合としてクラスタリングして意味クラスタ113を生成する(S6)。クラスタリング手法は、関連語をベクトルに見立てることで行うことができるが、ユークリッド距離等と閾値とを用いて行ってもよいし、k−meansやウォード法を用いてもよい。
【0047】
例えば、
図6(a)に示すように、「プログラム−1」というラベル101a
11、「カリキュラム−2」というラベル101a
62、…は、関連語101b
11、101b
62、…が類似するため、「プログラム−i」という意味クラスタ103a
1が生成される。なお、意味クラスタ103a
1の関連語103b
1は、関連語101b
11と101b
62のスコアを単純に加算したもの又は加算平均をとったものの上位を選択してもよいし、ウォード法を用いてクラスタの距離に基づいて選択してもよい。
【0048】
また、
図6(b)に示すように、「プログラム−3」というラベル101a
13、「スクリプト−4」というラベル101a
74、「アップデート−1」というラベル101a
81、…は、関連語101b
13、101b
74、101b
81…が類似するため、「プログラム−iii」という意味クラスタ103a
3が生成される。なお、以下において意味クラスタ103a
1、103a
2…等を「意味クラスタ103a」と総称する場合もある。
【0049】
なお、上記したようにラベルの集合全体でクラスタリングする前に、同じトークンのラベルでクラスタリングしてもよい。例えば、「プログラム」というトークン100a
1のラベル101a
11〜101a
15である「プログラム−1」〜「プログラム−5」でクラスタリングしてもよい。これは過剰に分割された同じトークンのラベル101aを統合することを目的とするものである。
【0050】
図7は、意味クラスタ113の具体例を示す図である。
【0051】
上記した意味クラスタ生成手段103の動作により、意味クラスタ103aと、ラベル101aとを関連付けた意味クラスタ113aが生成される。
【0052】
図8は、意味クラスタ更新手段104の動作例を説明するための図である。
【0053】
次に、意味クラスタ更新手段104は、同じクラスタに属するラベルであっても、用法によって意味が異なり置換できないラベルを削除し、異なるクラスタに属するが意味が同じで用法によって置換できるラベルを正しいクラスタに追加して意味クラスタ113を更新する(S7)。
【0054】
例えば、
図8に示す例では、関連語101b
13、101b
74、101b
81、101b
104は類似するものの、ラベル101a
13の「プログラム−3」やラベル101a
74の「スクリプト−4」はコンピュータに様々な命令を与えるという意味を持つものであるのに対し、ラベル101a
81の「アップデート−1」はコンピュータに特定の命令のみを与えるという意味を持つものであって意味が異なる。
【0055】
また、ラベル101a
104の「コンピュータ−4」は「コンピュータプログラム」という複合語で用いられる場合はラベル101a
13の「プログラム−3」やラベル101a
74の「スクリプト−4」と意味的に類似するが、「コンピュータを実行する」という用いられ方はしないため、用法として置換できないものである。意味クラスタ更新手段104は、ラベル101a
81の「アップデート−1」やラベル101a
104の「コンピュータ−4」のようなラベル101aを意味クラスタ103a
3から削除して更新する。なお、削除したラベル101a
81及びラベル101a
104は他の意味クラスタ103aに追加してもよい。
【0056】
以下に、意味クラスタ113を更新する動作について詳細に説明する。
【0057】
(2)意味クラスタ更新動作
(2−1)更新判定動作
意味クラスタ更新動作では、後述する「(2−2)ラベル削除動作」又は「(2−3)ラベル追加動作」を実行するが、意味クラスタ更新手段104はいずれを実行するべきか、まず判定する。
【0058】
図22は、意味クラスタ更新手段104の動作例を示すフローチャートである。
【0059】
まず、意味クラスタ更新手段104は、大規模データ111から文を取得し(S10)、それぞれの文を形態素解析手段100によって形態素解析して、当該文に含まれるトークンのラベルをラベル推定手段101によって推定する(S11)。なお、大規模データ111から複数の文を取得するものとし、大規模データ111のすべての文を取得してもよいし、一部を取得するものであってもよい。
【0060】
以降、意味クラスタ更新動作において推定されるラベルを特に「推定ラベル」と呼ぶ。また、「(1)動作の概要」において作成された意味情報データ112のラベルはトークンの意味の1つの側面を表すものであり、以降においても単純に「ラベル」と呼ぶ。
【0061】
図9(a)及び(b)は、意味クラスタ更新動作を説明するための図である。
【0062】
図9(a)に示すように、取得した複数の文に含まれる一の文として、例えば、文100cを取得した場合、当該文には「プログラム」、「を」、「走る」、「せる」が含まれ、「プログラム」というトークン100c
1に着目すると、文100cに含まれる他のトークンとの関係から当該トークン100c
1には「プログラム−3」という推定ラベル101a
11、「コンピュータ−4」という推定ラベル101a
104、…が推定される。
【0063】
意味クラスタ更新手段104は、
図9(a)に示す推定ラベルのうち確信度が高い推定ラベル101a
11の所属する意味クラスタ103a
3である「プログラム−iii」と、トークン100c
1のラベル101a
11〜101a
15つまり「プログラム−1」〜「プログラム−5」のいずれかが所属する意味クラスタとが一致するか判定する(S12)。
【0064】
なお、確信度が高い推定ラベルとは、確信度が最も高いものであってもよいし、予め定めた閾値(例えば、0.30)を超えるものであってもよい。また、例えば、確信度が閾値を超えないものであっても、上位複数の推定ラベルの確信度を加算して閾値を超える場合は、上位複数の推定ラベルが同じ意味クラスタに所属するラベルであればこれらをマージして意味クラスタに置き換えて用いてもよい。
【0065】
図9(b)に示すように、ラベル101a
13の所属する意味クラスタは「プログラム−iii」の意味クラスタ103a
3であり、一致する(S12;Yes)。この場合、「(2−2)ラベル削除動作」(ステップS13−S15)へと進む。
【0066】
これは、トークンの共起語が共通であるために同じクラスタに所属するものの集合であることを示しており、共起語が共通であっても他の用法では互いに置換可能ではない場合があり、そのよう場合に後述する(2−2)ラベル削除動作」において当該ラベルを削除するためである。
【0067】
なお、「プログラムを走らせる」という文100cにおいて「プログラム」というトークン100c
1について考えたとき、共起するトークンの意味の変化を考慮してもよい。例えば、「プログラム」というトークン100c
1を「スクリプト」、「アップデート」、「コンピュータ」に置換した場合に「走る」というトークンの推定ラベルに変化がある場合は意味が異なるとして置換したトークンのラベルを意味クラスタから削除してもよい。これは、「プログラム」、「スクリプト」、「アップデート」について「走る」は「実行する」という意味であるが、「コンピュータ」について「走る」は「実行する」という意味以外の意味となることを利用している。
【0068】
図10(a)及び(b)は、意味クラスタ更新動作を説明するための図である。
【0069】
また同様に、
図10(a)に示すように、取得した複数の文に含まれる一の文として、例えば、文100dを取得した場合、当該文には「スクリプト」、「を」、「走る」、「せる」が含まれ、「スクリプト」というトークン100d
1に着目すると、当該トークン100d
1には「プログラム−3」という推定ラベル101a
11、「スクリプト−4」という推定ラベル101a
74、…が推定される。
【0070】
意味クラスタ更新手段104は、
図10(a)に示す推定ラベルのうち確信度が高い推定ラベル101a
11の所属する意味クラスタ103a
3である「プログラム−iii」と、トークン100d
1のラベル101a
71〜101a
75つまり「スクリプト−1」〜「スクリプト−5」のいずれかが所属する意味クラスタとが一致するか判定する(S12)。
【0071】
図10(b)に示すように、ラベル101a
74の所属する意味クラスタは「プログラム−iii」の意味クラスタ103a
3であり、一致する(S12;Yes)。この場合、「(2−2)ラベル削除動作」(ステップS13−S15)へと進む。
【0072】
図11(a)及び(b)は意味クラスタ更新動作を説明するための図である。
【0073】
一方、
図11(a)に示すように、取得した複数の文に含まれる一の文として、例えば、文100eを取得した場合、当該文には「Java」(登録商標)、「を」、「書く」が含まれ、「Java」というトークン100e
1に着目すると、当該トークン100e
1には「プログラム−3」という推定ラベル101a
11、「Java−1」という推定ラベル101a
111、…が推定される。
【0074】
意味クラスタ更新手段104は、
図11(a)に示す推定ラベルのうち確信度が高い推定ラベル101a
11の所属する意味クラスタ103a
3である「プログラム−iii」と、トークン100e
1のラベル101a
111〜101a
115つまり「Java−1」〜「Java−5」のいずれかが所属する意味クラスタとが一致するか判定する(S12)。
【0075】
図11(b)に示すように、「プログラム−iii」の意味クラスタ103a
3にはラベル101a
111は含まれておらず、一致しない(S12;No)。この場合、「(2−3)ラベル追加動作」(ステップS16−S19)へと進む。
【0076】
これは、「Java」というトークンが自己の「Java−1」〜「Java−5」というラベルの意味ではなく「プログラム−3」というラベルの意味において使用されることが多い可能性があることを示しており、仮にそうであれば「プログラム−3」というラベルを「Java」というトークンから派生するクラスタに追加するべきであるからである。
【0077】
なお、「プログラムを走らせる」という文100cにおいて「プログラム」というトークン100c
1について考えたとき、共起するトークンの意味の変化を考慮してもよい。例えば、「プログラム」というトークン100c
1を「Java」に置換した場合に「走る」というトークンの推定ラベルに変化がない場合は意味が同一又は類似するとして置換したトークンのラベルを意味クラスタに追加してもよい。
【0078】
(2−2)ラベル削除動作
以下、
図9(a)に示した文100cを取得した例について説明する。
【0079】
図12(a)及び(b)は、ラベル削除動作の一例を説明するための図である。
【0080】
意味クラスタ更新手段104は、
図12(a)に示すように、取得した複数の文に含まれる一の文としての文100cにおいて、「プログラム」のトークン101c
1が所属する意味クラスタ103a
3のラベル101a
13、101a
74、101a
81、101a
104(
図12(b))の元のトークン100c
1、100d
1、100f
1、100g
1で文100cのトークン101c
1を置き換える(S13)。
【0081】
図13(a)−(c)は、ラベル削除動作の一例を説明するための図である。
【0082】
図13(a)は、意味クラスタ103a
3のラベル101a
13「プログラム−3」のトークン101c
1を用いて置換した場合であり、当該置換した文100c’についてトークン101c
1のラベル推定を行った結果、
図13(b)に示すように、確信度の高い推定ラベルは「プログラム−3」のラベル101a
13であって、意味クラスタ103a
3に所属するものである(S14;Yes)。この場合、
図13(c)に示すように、1回目の試行であるため試行回数を「1」に、所属したため所属回数を「1」とする。所属率は試行回数に対する所属回数の割合である。
【0083】
図14(a)−(c)は、ラベル削除動作の他の例を説明するための図である。
【0084】
図14(a)は、意味クラスタ103a
3のラベル101a
74「スクリプト−4」のトークン101d
1を用いて置換した場合であり、当該置換した文100c”についてトークン101d
1のラベル推定を行った結果、
図14(b)に示すように、確信度の高い推定ラベルは「スクリプト−4」のラベル101a
74であって、意味クラスタ103a
3に所属するものである(S14;Yes)。この場合、
図14(c)に示すように、所属したため所属回数を「1」とする。
【0085】
図15(a)−(c)は、ラベル削除動作の他の例を説明するための図である。
【0086】
図15(a)は、意味クラスタ103a
3のラベル101a
104「コンピュータ−4」のトークン101g
1を用いて置換した場合であり、当該置換した文100c’”についてトークン101g
1のラベル推定を行った結果、
図15(b)に示すように、確信度の高い推定ラベルは「コンピュータ−2」のラベル101a
102であって、意味クラスタ103a
2に所属するものであって、意味クラスタ103a
3に所属するものではない(S14;No)。この場合、
図15(c)に示すように、所属しないため所属回数を「0」とする。
【0087】
以上に説明した動作を取得した複数の文に含まれる他の文においても試行し、以下に示す情報が得られる。
【0088】
図16は、ラベル削除動作の試行結果を示す概略図である。
【0089】
図16に示すように、上記動作を複数回試行することで各ラベル101a
13、101a
74、101a
81、101a
104の意味クラスタ103a
3に対する所属度が算出され、所属度が予め定めた閾値(例えば、0.8)以上である場合に意味クラスタ103a
3に所属するものとし(S14;Yes)、閾値より小さい場合に所属しないものとする(S14;No)。
【0090】
次に、意味クラスタ更新手段104は、所属しないと判断されたラベル101a
81、101a
104を意味クラスタ103a
3から削除する(S15)。
【0091】
(2−3)ラベル追加動作
以下、
図11(a)に示した文100eを取得した例について説明する。
【0092】
図17(a)及び(b)は、ラベル追加動作の一例を説明するための図である。
【0093】
まず、意味クラスタ更新手段104は、
図17(a)に示すように、トークン100e
1のラベル101a
111−101a
115について、
図17(b)に示すラベル101a
111−101a
115が所属する意味クラスタ103e
1、103h
2、103e
3、103e
4のそれぞれからラベル101a
111−101a
115を除く1以上のラベルを無造作に取得する(S16)。ただし、取得するラベルは互いに異なるトークンのラベルとする。つまり、例えば意味クラスタ103h
2(「HTML−ii」)のラベル101a
151と101a
153(「Javascript−1」と「Javascript−3」)を同時に取得しないようにする。
【0094】
図18(a)−(c)は、ラベル追加動作の一例を説明するための図である。
【0095】
次に、意味クラスタ更新手段104は、上記ステップS16において意味クラスタ103e
1からラベル101a
121と101a
142を取得した場合と、意味クラスタ103h
2からラベル101a
162と101a
153を取得した場合のそれぞれについて、
図18(a)に示す取得した複数の文に含まれる一の文として、文100eのトークン100e
1を、取得したラベル101a
121と101a
142及びラベル101a
162と101a
153の元のトークン100i
1と100j
1及びトークン100k
1と100l
1で置換して(S17)、
図18(b)及び(c)のようにする。つまり、「Javaを書く」という文100eを「Pythonを書く」、「Rubyを書く」、「HTMLを書く」、「Javascriptを書く」という文にする。
【0096】
次に、意味クラスタ更新手段104は、置換後の文のそれぞれのトークン100i
1と100j
1及びトークン100k
1と100l
1についてラベル推定を行い、推定されたラベルと
図18(a)に示す元のラベル101a
13である「プログラム−3」とが一致するか確認する(S18)。
【0097】
図19(a)及び(b)は、ラベル追加動作の一例を説明するための図である。
【0098】
図19(a)は
図18(b)に対応するものであり、トークン100i
1と100j
1についてラベル推定を行った結果であり、推定ラベルはそれぞれ101a
13の「プログラム−3」であって、元のトークン100e
1「Java」の推定ラベル101a
13「プログラム−3」と一致している。なお、一致した際の確信度が予め定めた閾値(例えば0.2)以上である場合に一致すると判定するものとし、
図19(a)に示す例では採用したトークン100i
1と100j
1の2つであるため「サンプル数」を「2」とし、推定ラベルが一致しているため「一致数」を「2」とする。「一致割合」はサンプル数に対する一致数の割合であり「1.00」となる。
【0099】
一致数が予め定めた閾値(例えば0.80)以上である場合(S18;Yes)、意味クラスタ103e
1にトークン100e
1「Java」の推定ラベル101a
13「プログラム−3」を追加する(S19)。
【0100】
図20は、ラベル追加動作の他の例を説明するための図である。
【0101】
図20は
図18(c)に対応するものであり、トークン100k
1と100l
1についてラベル推定を行った結果であり、推定ラベルはそれぞれ101a
13の「プログラム−3」であって、元のトークン100e
1「Java」の推定ラベル101a
13「プログラム−3」と一致している。しかし、一致した際の確信度がトークン100k
1「HTML」については「0.051」であって予め定めた閾値(例えば0.2)より小さいため、推定ラベルの一致が1であって「一致数」を「1」とする。「一致割合」はサンプル数に対する一致数であり「0.50」となる。
【0102】
従って、一致数が予め定めた閾値(例えば0.80)より小さい場合(S18;No)、意味クラスタ103e
1にトークン100e
1「Java」の推定ラベル101a
13「プログラム−3」を追加しない。
【0103】
(実施の形態の効果)
上記した実施の形態によると、意味クラスタ113に所属するラベルの元となるトークンが用法によって置換できない場合は意味クラスタ113からラベルを削除し、他の意味クラスタに所属するラベルであっても当該ラベルの元となるトークンが用法によって置換できる場合は意味クラスタ113にラベルを追加したため、トークンの共起語が類似するが、用法によっては意味が類似しないトークンの意味情報を分類することができる。つまり、意味的に類似した単語を適切にまとめることができる。
【0104】
また、意味情報データ112及び意味クラスタ113を用いて、機械学習を用いた自然言語処理モジュールの精度を改善してもよい。
【0105】
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
【0106】
上記実施の形態では制御部10内の各手段100−104の機能をプログラムで実現したが、各手段の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。