【文献】
後藤 功雄 外1名,同時通訳支援に有用な用語集についての検討,言語処理学会第11回年次大会発表論文集,日本,言語処理学会,2005年 3月15日,p.169-172
【文献】
後藤 功雄 外3名,自動通訳に向けた用語自動収集,情報処理学会研究報告,日本,社団法人情報処理学会,2006年 5月19日,第2006巻第53号,p.41-46
【文献】
橋本 力 外1名,基本語ドメイン情報の構築,言語処理学会第13回年次大会発表論文集,日本,言語処理学会,2007年 3月19日,p.1105-1108
(58)【調査した分野】(Int.Cl.,DB名)
前記頻度データ作成部は、さらに、前記基本語候補データそれぞれについて文書属性別の前記文書データにおける前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込み、
前記基本語彙度算出部は、さらに、前記頻度データ記憶部から読み出した前記基本語候補データの前記文書属性別の頻度と前記文書頻度とに基づいて前記文書属性における重要度を算出し、前記基本語候補データそれぞれについて各文書属性別に、前記第一基本語彙度が高いほど値が大きくなり、かつ、前記文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により前記文書属性において前記基本語彙に含まれる度合いを表す第二基本語彙度を算出し、
前記基本語彙認定部は、前記文書属性毎に、前記基本語彙度算出部が算出した前記第二基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する、
ことを特徴とする請求項1に記載の基本語彙抽出装置。
前記複合語認定部は、前記文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列のうちC−Value法により複合語として判定された形態素列を複合語候補データとして出力するとともに、前記表現パターンと合致しない形態素データ及びC−Value法により複合語として判断されなかった形態素列を形態素に戻した形態素データとを出力する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の基本語彙抽出装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
既存の基本語彙抽出法には、専門家による主観的な抽出法の他、文書集合中の単語の頻度や分布度などの基準を用いた統計的手法が提案されている。しかし、主観的な手法の場合、人手で基本語彙を抽出するために莫大なコストと時間がかかる。例えば、基本語彙の数が変更になったときなどには、抽出作業をやり直さなければならないこともある。
【0006】
他方の統計的手法は頻度のみを用いるものが多く、文書全体を幅広くカバーする手法について十分な言及をしているものはない。出現頻度のみを用い、文書集合中の出現頻度の偏りについて考慮しないと、例えば、1つの文書に何度も出現するが、出現する文書が限定されている用語が抽出されてしまう。また、複数の単語(形態素)からなる複合語が基本語彙となることも十分考えられるが、複合語を考慮した手法についても提案されていない。
【0007】
上述した特許文献1では、複合語を抽出することができるが、抽出対象は専門用語である。専門用語は基本語彙とは性質が異なるため、特許文献1の技術をそのまま基本語彙の抽出に利用することはできない。例えば、特許文献1では、専門用語には複合名詞が多いという特徴から、複合名詞に特化して構成要素の長い用語を優先的に抽出するような手法を用いている。しかし、基本語彙は複合名詞に限定されるものではない。また、専門用語だけを基本語彙としても、例えば、文書に使用されている言語を学習しはじめたばかりの人が、そのような基本語彙から文書の内容を理解するのは困難である。
【0008】
本発明は、このような事情を考慮してなされたもので、任意の文書集合から基本語彙とすべき語を抽出することができる基本語彙抽出装置、及びプログラムを提供する。
【課題を解決するための手段】
【0009】
[1] 本発明の一態様は、複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部と、文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部と、基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部と、前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部と、前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部と、前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部と、を具備することを特徴とする基本語彙抽出装置である。
この態様によれば、基本語彙抽出装置の複合語認定部は、基本語彙抽出対象のコーパスである複数の文書データに含まれる文章についての形態素解析結果の入力を受ける。複合語認定部は、入力された形態素解析結果を、複合語の候補となる形態素列の表現パターンと照合して、合致する形態素列を複合語候補データとして出力し、合致しない形態素をそのまま形態素データとして出力する。頻度データ作成部は、文書データ全体の集合を参照し、複合語認定部から出力される複合語候補データと形態素データそれぞれの頻度及び文書頻度を算出して頻度データ記憶部に書き込む。基本語彙度算出部は、頻度データテーブルから読み出した複合語データと形態素データそれぞれの頻度及び文書頻度とを用い、基本語彙計算式により基本語彙度を算出する。基本語彙認定部は、算出された基本語彙度が所定基準よりも高い複合語データと形態素データを基本語彙データとして出力する。
これにより、任意の文書データの集合から基本語彙を抽出することができる。また、目的に応じて基準を変えることによって、抽出すべき基本語彙データの数を簡易に変えることができる。
【0010】
[2] 本発明の一態様は、上述した基本語彙抽出装置であって、前記頻度データ作成部は、さらに、前記基本語候補データそれぞれについて文書属性別の前記文書データにおける前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込み、前記基本語彙度算出部は、さらに、前記頻度データ記憶部から読み出した前記基本語候補データの前記文書属性別の頻度と前記文書頻度とに基づいて前記文書属性における重要度を算出し、前記基本語候補データそれぞれについて各文書属性別に、前記第一基本語彙度が高いほど値が大きくなり、かつ、前記文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により前記文書属性において前記基本語彙に含まれる度合いを表す第二基本語彙度を算出し、前記基本語彙認定部は、前記文書属性毎に、前記基本語彙度算出部が算出した前記第二基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する、ことを特徴とする。
この態様によれば、基本語彙度算出部は、基本語候補データそれぞれについて、第一基本語彙計算式により第一基本語彙度を算出するとともに、文書属性における重要度を算出する。さらに、基本語彙度算出部は、各文書属性別に、第一基本語彙度が高いほど値が大きくなり、かつ、文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により、各文書属性において基本語彙に含まれる度合いを表す第二基本語彙度を算出する。基本語彙認定部は、文書属性別に、第二基本語彙度が所定基準よりも高い基本語候補データを基本語彙データとして出力する。
これにより、基本語彙抽出装置は、コーパスに含まれる文書のジャンルや期間などの文書属性別に基本語彙を抽出することができる。
【0011】
[3] 本発明の一態様は、上述した基本語彙抽出装置であって、基本語彙から除外する表現の情報を記憶する除外リスト記憶部をさらに具備し、前記基本語彙認定部は、前記除外リスト記憶部に記憶されている前記情報が示す表現と一致する前記基本語候補データを前記基本語彙データから除外する、ことを特徴とする。
この態様によれば、基本語彙認定部は、予め基本語彙にはふさわしくないと決められた表現の形態素データまたは複合語データについては、基本語彙データから除外する。
これにより、基本語彙抽出装置は、記号や助詞、数、固有名詞など、基本語彙としてふさわしくないと予めわかっている形態素または複合語を基本語として抽出しないようにすることができる。
【0012】
[4] 本発明の一態様は、上述した基本語彙抽出装置であって、前記複合語認定部は、前記文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列のうちC−Value法により複合語として判定された形態素列を複合語候補データとして出力するとともに、前記表現パターンと合致しない形態素データ及びC−Value法により複合語として判断されなかった形態素列を形態素に戻した形態素データとを出力する、ことを特徴とする。
この態様によれば、複合語認定部は、文書データに含まれる文の形態素列が、複合語候補の表現パターンに合致する場合、さらにC−Value法により複合語であるかを判定する。
これにより、基本語彙抽出装置は、表現パターンに合致する形態素列が、実際に複合語であるかを簡易に判断することができる。
【0013】
[5] 本発明の一態様は、基本語彙抽出装置に用いられるコンピュータを、複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部、文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部、基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部、前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部、前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部、前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部、として機能させるプログラムである。
【発明の効果】
【0014】
本発明によれば、任意の文書集合から基本語彙とすべき語を抽出することができる。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0017】
図1は、本発明の一実施形態による基本語彙抽出装置1の構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。基本語彙抽出装置1は、例えば、1台または複数台のサーバコンピュータ等のコンピュータ装置により実現することができる。同図に示すように、基本語彙抽出装置1は、文書集合記憶部11、複合語候補規則記憶部12、頻度データ記憶部13、基本語彙計算式記憶部14、除外リスト記憶部15、形態素解析部21、複合語認定部22、頻度データ作成部23、基本語彙度算出部24、及び基本語彙認定部25を備えて構成される。
【0018】
文書集合記憶部11、複合語候補規則記憶部12、頻度データ記憶部13、基本語彙計算式記憶部14、及び除外リスト記憶部15は、ハードディスク装置や半導体メモリなどで実現される。
文書集合記憶部11は、基本語彙抽出装置1に入力された文書集合データを記憶する。文書集合データには、1以上の文を示す文書データが複数含まれる。各文書データは、ジャンルデータや作成日時データなどの文書属性データと対応づけられている。複合語候補規則記憶部12は、複合語候補規則テーブルを記憶する。複合語候補規則テーブルは、複合語候補となる形態素列の表現パターンのリストを示すデータである。頻度データ記憶部13は、頻度データテーブルを記憶する。頻度データテーブルは、形態素データ、あるいは、形態素列からなる複合語データが文書集合データに出現する頻度を示すデータである。基本語彙計算式記憶部14は、形態素データ、あるいは、複合語データを基本語彙とすべきか否かの判断基準となる指標値である基本語彙度を算出するための基本語彙計算式を複数種類記憶する。除外リスト記憶部15は、除外リストテーブルを記憶する。除外リストテーブルは、基本語彙から除外すべき単語や品詞などの表現のパターンを示すデータである。
【0019】
形態素解析部21は、文書データを形態素解析する。形態素解析部21は、例えば、「MeCab」などの公知の技術を用いた形態素解析器を用いて実現することができる。
複合語認定部22は、複合語候補検出部221、複合語判定部222、及び基本語候補出力部223を備える。複合語候補検出部221は、複合語候補規則テーブルに登録されている形態素列の表現パターンと、形態素解析部21において得られた形態素解析結果の形態素列データとをマッチングし、マッチする形態素列データを複合語候補として判定する。複合語判定部222は、複合語候補として判定した形態素列データが複合語であるか否かを、単語間の結合度に基づいて判定する。基本語候補出力部223は、複合語として判定された形態素列データを複合語データとして頻度データ作成部23に出力し、複合語と判定されなかった形態素データをそのまま頻度データ作成部23に出力する。基本語候補出力部223が頻度データ作成部23に出力した複合語データ及び形態素データのそれぞれを基本語候補データとする。
【0020】
頻度データ作成部23は、文書集合記憶部11に記憶されている文書集合データを参照して、複合語認定部22から出力された基本語候補データである形態素データ、及び複合語データのそれぞれの頻度データ作成し、作成した頻度データのリストである頻度データテーブルを頻度データ記憶部13に登録する。
基本語彙度算出部24は、基本語彙計算式記憶部14から読み出した基本語彙計算式に、頻度データテーブルに登録されている各基本語候補データで示される頻度を代入して基本語彙度を算出する。基本語彙度算出部24は、算出された基本語彙度に基づいて基本語候補データの順位付けを行う。
基本語彙認定部25は、基本語彙度に基づく順位が、基本語彙であると判断するための所定の基準よりも高い基本語候補データである形態素データ及び複合語データを基本語彙と認定する。所定の基準は、例えば、100位以上のような所定の順位、ランキングの上位5%のような全体に対する割合などとすることができる。基準は、基本語彙を抽出する目的に応じてユーザにより可変に設定可能である。
【0021】
図2は、文書集合データのデータ例を示す図である。
同図に示すように、文書集合データは、文書データと、文書属性データであるジャンルデータ及び日時データとを対応づけた複数のデータからなる。ジャンルデータは、文書データが属するジャンルを示し、日時データは、文書データが作成された日時を示す。例えば、基本語彙抽出対象のコーパスがニュースである場合、文書データは、例えば、ニュース番組などで使用された1つのニュース原稿とすることができ、1以上の文のデータが含まれる。また、ジャンルは「政治」、「経済」、「スポーツ」、「暮らし」、…などとすることができる。
【0022】
図3は、複合語候補規則テーブルのデータ例を示す図である。
同図に示すように、複合語候補規則テーブルには、複合語候補と判定すべき表現パターンのリストが登録されている。1行目に登録されている表現パターンは「名詞 名詞+」であり、「+」は直前に記述されている品詞の1以上の繰り返しを示す。つまり、「名詞 名詞+」は、2以上の名詞の結合を意味し、例えば、「記者会見」、「総理大臣」、「官房長官」などがこの表現パターンに一致する。また、2行目に登録されているパターンは「(名詞+の)+ 名詞+」であり、「航空基地の移設問題」、「意識不明の重態」、「米国野球球団の山田太郎選手」などがこの表現パターンに一致する。
【0023】
図4は、除外リストテーブルのデータ例を示す図である。
同図に示すように、除外リストテーブルは、基本語彙から除外すべきと判断する場合に判断対象とすべき項目と、その項目の条件を示す。1行目は「品詞」が「記号」であること、2行目は「品詞」が「助詞」であること、3行目は「品詞」が「数」を表す「名詞」であること、4行目は「品詞」が「人名」を表す「固有名詞」であって「名詞」であることを示している。
【0024】
図5は、頻度データテーブルのデータ例を示す図である。
頻度データテーブルは、基本語候補データである複合語データ及び形態素データそれぞれの頻度データのリストであり、この頻度データは、基本語彙計算式で用いられる。そのため、選択される基本語彙計算式によって使用する頻度データは異なるが、基本的な頻度データには、例えば、文書集合データにおける出現回数である「頻度」、出現した文書データ(記事)の数である「文書頻度」、出現した文の数である「文頻度」がある。同図では、頻度データとして、文書集合データ全体の頻度、文書頻度、文頻度と、文書属性別の文書頻度とを用いている。文書属性は、例えば、ジャンルや、期間などとすることができる。期間は、ユーザが任意に設定することができ、10年単位、3年単位、1年単位、3ヶ月単位、1ヶ月単位、1週単位などのほか、季節に対応した期間などとすることもできる。
【0025】
続いて、基本語彙抽出装置1の動作について説明する。
【0026】
図6は、基本語彙抽出装置1における基本語彙抽出フローを示す図である。
まず、基本語彙抽出装置1に、基本語彙抽出対象のコーパスである文書集合データが入力される。文書集合データのコーパスの例としては、ニュース、英語試験、教科書などがある。基本語彙抽出装置1の形態素解析部21は、入力された文書集合データを文書集合記憶部11に書き込む(ステップS10)。続いて、形態素解析部21は、入力された文書データを形態素解析して形態素に分割すると、その分割された形態素を示す形態素解析結果データを、形態素列の順序を保持したままま複合語認定部22に出力する(ステップS20)。
【0027】
複合語認定部22は、複合語候補規則記憶部12に記憶されている複合語候補規則テーブルから表現パターンを読み出す。複合語認定部22は、形態素解析部21から入力された形態素解析結果データが示す形態素列と、読み出した表現パターンとがマッチするかを判断する。複合語認定部22は、表現パターンとマッチした形態素列を複合語候補として判定すると、この複合語候補として判定した形態素列が複合語であるか否かを判断する。ここでは、複合語の判定を、単語間の結合度を算出することができるC-Value法を用いて行うが、他の既存の手法を用いてもよい。C-Value法を用いた複合語判定の詳細については、後述する。複合語認定部22は、複合語と判定された形態素列を1つの複合語データとして、複合語候補と判定されなかった形態素列及び形態素はそのまま形態素データとして、頻度データ作成部23に出力する(ステップS30)。
【0028】
頻度データ作成部23は、複合語認定部22から入力された各複合語データ及び各形態素データである基本語候補データのそれぞれについて、文書集合記憶部11に記憶されている文書データを参照し、文書集合データ全体への出現頻度、文書頻度、文頻度、文書属性別の文書頻度をカウントする。頻度データ作成部23は、各基本語候補データについてのカウント結果を示す頻度データから頻度データテーブルを作成し、頻度データ記憶部13に書き込む(ステップS40)。なお、頻度データの作成対象となる文書属性は、予め基本語彙抽出装置1に入力されており、ジャンルや期間などで示される。また、基本語彙抽出装置1は、文書集合記憶部11に文書データと対応付けて記憶されているジャンルデータを読み出し、それらを文書属性として使用してもよい。
【0029】
続いて、基本語彙度算出部24は、頻度データ記憶部13に記憶されている頻度データテーブルから、各基本語候補データの頻度データ(出現頻度、文書頻度、文頻度、文書属性別の文書頻度)を読み出す。さらに、基本語彙度算出部24は、基本語彙計算式記憶部14から基本語彙計算式を読み出す。なお、読み出す基本語彙計算式は、例えば、予めユーザにより基本語彙抽出装置1に入力されている。基本語彙度算出部24は、基本語候補データである複合語データ及び形態素データのそれぞれについて、読み出した基本語彙計算式に頻度データで示される値を代入して基本語彙度を算出する。基本語彙度算出部24は、各基本語候補データに、基本語彙度を高いものから並べたときの順位を対応づけて基本語彙認定部25に出力する(ステップS50)。ここでは、基本語彙度算出部24は、基本語彙度が高い順に並び変えた基本語候補データを基本語彙認定部25に出力する。つまり、基本語候補データである複合語データ及び形態素データの並び順が、基本語彙度を高いものから並べたときの順位を表している。
【0030】
基本語彙認定部25は、基本語彙度算出部24から入力された基本語候補データである複合語データ及び形態素データのうち、所定の閾値以上の順位の複合語データ及び形態素データを抽出する。この閾値は、予めユーザにより基本語彙抽出装置1に入力されている。基本語彙認定部25は、除外リスト記憶部15に記憶されている除外リストテーブルから除外すべき表現のパターンを読み出し、抽出した基本語候補データがいずれかの除外リストのパターンとマッチするかを判断する(ステップS60)。基本語彙認定部25は、抽出した基本語候補データから、除外リストが示すパターンとマッチする複合語データ及び形態素データを除き、基本語彙データとして出力する(ステップS70)。
【0031】
次に、基本語彙抽出装置1の具体的な動作例について説明する。
ここでは、ステップS10において入力されたニュースの文書集合データがニュースであり、文書集合データに「山田総理大臣は、国連総会に出席する」という文が記述された文書データが含まれている場合を例に説明する。
【0032】
ステップS20において、形態素解析部21は、文書集合データから読み出した文書データが示すニュース文を形態素解析する。これにより、「山田総理大臣は、国連総会に出席する」という文は、以下の例1のように形態素ごとに分割される。なお、本実施形態では、固有名詞も名詞と分類するようにしているが、固有名詞と名詞を分類するなど、品詞を細分類した形態素解析結果を用いてもよい。形態素解析部21は、例1を含む形態素解析結果データを複合語認定部22に出力する。
【0033】
例1:「山田(名詞)」「総理(名詞)」「大臣(名詞)」「は(助詞)」「、(記号)」「国連(名詞)」「総会(名詞)」「に(助詞)」「出席(名詞)」「する(動詞)」
【0034】
ステップS30において、複合語認定部22は、形態素解析結果データの入力を受けると、複合語候補規則記憶部12から複合語候補規則テーブルを読み出す。
【0035】
図7は、ステップS30の詳細な処理を示すフローチャートである。
複合語認定部22の複合語候補検出部221は、形態素解析結果データの中から複合語候補規則テーブルの表現パターンと合致した形態素列を複合語候補データとし、合致しなかった形態素をそのまま形態素データとする(ステップS310)。上記の例1の場合、「山田(名詞)」「総理(名詞)」、「山田(名詞)」「総理(名詞)」「大臣(名詞)」、「総理(名詞)」「大臣(名詞)」、「国連(名詞)」「総会(名詞)」が、複合語候補規則テーブルの「名詞 名詞+」に合致する。よって、複合語候補検出部221は、以下の例2のように、複合語候補データ及び形態素データを複合語判定部222に出力する。
【0036】
例2:{「山田|総理(複合語候補)」「大臣(名詞)」;「山田|総理|大臣(複合語候補)」;「山田(名詞)」「総理|大臣(複合語候補)」}「は(助詞)」「、(記号)」「国連|総会(複合語候補)」「に(助詞)」「出席(名詞)」「する(動詞)」
【0037】
複合語判定部222は、各複合語候補データについて、C−Value法を用いて評価値を算出し、算出した評価値が閾値以上となった複合語候補データを複合語データと判定する。
【0038】
C−Value法は、連続した形態素データである形態素列データW(=形態素データw1,形態素データw2,形態素データw3,・・・)の重要度を算出する式である。このC−Value法によって算出された評価値C−value(W)は、形態素列データWが単独の複合語として使われやすいかどうかの判定基準としても利用することができ、式(1)のように定義される。なお、C-Value法の詳細は、(文献1)「Automatic Recognition of Multi-word Terms : C-value/NC-value Method” (Katerina T.Frantzi and Sophia Ananiadou , International Journal on Digital Libraries,Vol.3,No.2,pp.115-130,2000)」を参照のこと。
【0040】
だたし、Wは形態素データが連続した形態素列データ、|W|は形態素データWを構成している形態素データの数、F(W)は形態素列データWの頻度、T(W)は形態素列データWを含み、かつ、形態素列データWよりも長い形態素列データの頻度、C(W)は形態素列データWを含み、かつ、形態素列データWよりも長い形態素列データの異なり数(種類の数)である。
【0041】
評価値C−value(W)は、形態素列データWを構成している形態素データの数が多いほど、また、形態素列データWの頻度が高いほど高スコアとなる。また、形態素列データWを含み、かつ、形態素列データWよりも長い形態素列データの頻度が高いほどスコアが低くなるが、形態素列データWを含み、かつ、形態素列データWよりも長い形態素列データの種類が多いほどスコアが低くなる割合が抑えられる。つまり、形態素列データWが単独で使われていることが多いかを加味している。上記のように、C−value法は、計算が簡易であるため使用しやすい。但し、複合語と判定するための他の既存の算出法を用いてもよい。
【0042】
複合語判定部222は、複合語候補データを形態素列データWとし、各複合語候補データの評価値を式(1)により算出する。ただし、複合語判定部222は、文書集合記憶部11に記憶されている文書データを参照して形態素列データWの頻度F(W)をカウントする。また、複合語判定部222は、形態素列データWを含み、かつ、形態素列データWよりも長い形態素列データを複合語候補データから抽出してC(W)をカウントし、さらに、文書集合記憶部11に記憶されている文書データを参照して、抽出した形態素列データの頻度T(W)をカウントする。つまり、形態素列データWを含み、かつ、形態素列データWよりも長い形態素列データは、複合語候補規則テーブルに登録されている表現パターンに従って抽出された形態素列データである。
【0043】
複合語判定部222は、上記により求めた評価値C−value(W)が所定の閾値よりも大きい複合語候補データ、例えば、例2の場合は複合語候補データ「総理|大臣」を、複合語データとして判定する。複合語判定部222は、複合語候補データ、及び形態素データと、複合語データとからなる判定結果データを、基本語候補出力部223に出力する(ステップS320)。
【0044】
基本語候補出力部223は、判定結果データを参照し、複合語データと判定されなかった複合語候補データを形態素データに戻す。基本語候補出力部223は、複合語データ、と、複合語データまたは複合語候補データと判定されなかった形態素データを頻度データ作成部23に出力する(ステップS330)。
【0045】
例えば、例2における形態素列データ「山田(名詞)」「総理(名詞)」「大臣(名詞)」の部分は、(1)「山田|総理(複合語候補)」「大臣(名詞)」、(2)「山田|総理|大臣(複合語候補)」、(3)「山田(名詞)」「総理|大臣(複合語候補)」の3つの複合語の分け方がある。複合語判定部222により、これらの複合語候補のうち「総理|大臣」のみが複合語と判断された場合、(3)のように、「総理|大臣」を複合語データとし、他は形態素データとする。また、「国連|総会(複合語候補)」は、複合語と認定されなかったため、形態素データ「国連(名詞)」「総会(名詞)」に戻す。よって、基本語候補出力部223からは、以下の例3を含む複合語データ、及び形態素データが基本語候補データとして出力される。
【0046】
例3:「山田(名詞)」「総理|大臣(複合語)」「は(助詞)」「、(記号)」「国連(名詞)」「総会(名詞)」「に(助詞)」「出席(名詞)」「する(動詞)」
【0047】
なお、複合語判定部222により、「山田|総理」と「総理|大臣」の2つが複合語として判断された場合、基本語候補出力部223は、これら両方を複合語データとして出力する。
【0048】
ステップS40において、頻度データ作成部23は、基本語候補データである複合語データ、及び形態素データそれぞれの頻度データを作成し、作成した頻度データをリストにした頻度データテーブル(
図5)を頻度データ記憶部13に書き込む。使用する基本語彙計算式によって用いる頻度データは異なるため、予めユーザに指定された基本語彙計算式で使用する頻度データのみを作成するようにしてもよい。
【0049】
ステップS50において、基本語彙度算出部24は、頻度データ作成部23からの指示を受け、頻度データ記憶部13から頻度データテーブルを読み出す。さらに、ステップS60において、基本語彙度算出部24は、基本語彙計算式記憶部14から基本語彙計算式テーブルを読み出し、ユーザにより指定された基本語彙計算式を選択する。基本語彙度算出部24は、頻度データテーブルが示す頻度データと、選択した基本語彙計算式とを用いて、基本語彙計算式テーブルに登録されている基本語候補データである複合語データ、及び形態素データそれぞれの基本語彙度を算出し、基本語彙度の高い順に並べて基本語彙ランキングを作成する。
【0050】
基本語彙計算式テーブルには、幾つかの基本語彙計算式が記憶されるが、本実施形態では、基礎となる基本語彙計算式を式(2)のように定義し、TFDF法と呼ぶ。
【0052】
ただし、Wは複合語データ、あるいは形態素データである基本語候補データ、TF(W)は、基本語候補データWの頻度、DF(W)は、基本語候補データWの文書頻度である。TFDF法では、単語の頻度が高いほど、また、文書頻度が高く、多くの文書(すなわち、多くのジャンル)に幅広く出現するほど、基本語彙度を表すTFDF(W)(第一基本語彙度)が高スコアとなる。
基本語彙度算出部24は、各基本語候補データについて、上記の式(2)を用いてTFDF(W)を算出する。なお、基本語彙度算出部24は、各基本語候補データWと、各基本語候補データWの頻度TF(W)及び文書頻度DF(W)を頻度データテーブルから読み出す。
【0053】
表1は、文書中で出現した単語を出現頻度順に並べたものと、TFDF法による算出結果を高スコア順に並べ変えたものとを表している。「完成」、「地方」、「朝」などの形態素データ(単語)は、頻度が高いだけでなく、多くの文書に出現しており、基本語彙としての重要度が高いことが分かる。また、形態素データ「秘書」は、頻度は高いが、限られた文書にのみ出現しており、基本語彙としての重要度は低いことが分かる。
【0055】
また、本実施形態では、TFDF法に文書間の類似度を計測する尺度を組み込み、特定の文書集合の重要度を反映させるM_TFDF法を、以下の式(3)のように定義する。M_TFDF法に組み込む特定の文書集合の重要度の算出法としては、χ二乗値、対数尤度比、自己相互情報量、コサイン類似度値、ダイス係数値など、公知の技術が多く存在しており、目的に応じて任意のものを適用しうる。重要度の算出法は、(文献2)「英語教育のための分野特徴単語の選定尺度の比較, Journal of natural language processing,Vol.11,No.3,pp.165-197,2004-07-10」を参照のこと。
【0057】
なお、Wは、複合語データ、或は形態素データである基本語候補データ、Gはジャンルや年月など、文書に割り当てられた特徴(文書属性)、R(W,G)は特徴Gを持つ文書集合中における、基本語候補データWの重要度である。
【0058】
上記の式(3)におけるR(W,G)の算出に用いることができるχ二乗値の算出式を以下の式(4)に示す。
【0060】
基本語彙度算出部24は、各基本語候補データについて、上記の式(3)及び式(4)を用いて、文書属性毎の基本語彙度を表すM_TFDF(W,G)(第二基本語彙度)を算出する。なお、基本語彙度算出部24は、式(4)において用いる各頻度を、頻度データテーブルから読み出す。
【0061】
表2は、TFDF法の結果と、スポーツジャンルの文書集合のχ二乗値と、χ二乗値を用いたM_TFDF法の結果の一部を重要度の高い順に表している。TFDF法では、スポーツジャンルの文書集合中に多く出現するデータの重要度は低いが、M_TFDF法を用いることでスポーツジャンルの文書集合中の重要度が反映されている。また、χ二乗値のみを用いると、スポーツジャンル以外の文書集合の重要度が反映されず、不適切であるといえる。
【0063】
基本語彙度算出部24は、ユーザが予め基本語彙計算式として指定したように、TFDF法のみにより、あるいは、χ二乗値、対数尤度比、自己相互情報量、コサイン類似度値、またはダイス係数値を用いたM_TFDF法により、基本語彙度を算出する。例えば、ジャンルによらず、入力された文書集合データのコーパスに共通した基本語彙を抽出したい場合、基本語彙計算式をTFDF法のみとすると効果的である。また、例えば、コサイン類似度値、ダイス係数値などは基本語彙が重要と判断されやすい傾向がある。そのため、ジャンル毎に初級者用の基本語彙を抽出したい場合、コサイン類似度値やダイス係数値を用いたM_TFDF法とすると効果的である。
【0064】
基本語彙度算出部24は、TFDF法のみを用いた場合は全複合語データ、及び形態素データについて、M_TFDF法を用いた場合ジャンルや日付などの文書属性別に、算出した基本語彙度が高い順に基本語候補データである複合語データ、及び形態素データを並べて基本語彙ランキング結果データとする。これにより、基本語彙度算出部24は、例えば、以下の例4に示すような基本語彙ランキングを作成する。
【0065】
例4:「1:、 記号」「2:の 助詞」・・・「79:警察 名詞」・・・「324:国連 名詞」・・・「1078:総会 名詞」・・・
【0066】
基本語彙度算出部24は、作成した基本語彙ランキング結果データを基本語彙認定部25に出力する。
【0067】
ステップS60において、基本語彙認定部25は、基本語彙ランキング結果データの入力を受けると、除外リスト記憶部15から除外リストテーブル(
図4)を読み出す。
【0068】
基本語彙認定部25は、基本語彙ランキング結果データから、除外リストデータに該当するデータを除き、コーパス(文書集合データ)全体について、あるいは、各ジャンル別に、閾値以上の順位の複合語データ、及び形態素データを基本語彙として出力する。例えば、閾値を300位以上とした場合、例5に示すように、300位以上の順位の複合語データ、及び形態素データを選択する(ステップS60)。
【0069】
例5:「1:こと 名詞」・・・「34:警察 名詞」・・・「47:総理|大臣 複合語」・・・「227:国連 名詞」・・・「274:出席 名詞」・・・
【0070】
なお、基本語彙認定部25は、例6に示すように、300位を下回った複合語データ、及び形態素データは、基本語彙として選択しない。
【0071】
例6:「300:原因 名詞」・・・「945:総会 名詞」・・・「3746:山田 名詞」・・・
【0072】
基本語彙認定部25は、ステップS60において選択された基本語候補データである複合語データ、及び形態素データを基本語彙データとして出力する(ステップS70)。
【0073】
以上のように、本実施形態によれば、任意の文書集合における基本語彙を抽出することが可能である。また、文書に付与されているジャンルデータや時系列データなどの特徴を使用することで、特定の特徴を持った文書集合の重要度を用いた、より適切な基本語彙の抽出が可能である。
また、ステップS60に用いる閾値を変えることによって、目的に応じた基本語彙の抽出が可能である。
【0074】
上述した基本語彙抽出装置1は、内部にコンピュータシステムを有している。そして、基本語彙抽出装置1の形態素解析部21、複合語認定部22、頻度データ作成部23、基本語彙度算出部24、及び基本語彙認定部25の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0075】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。