IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立公共システムの特許一覧

特許7064871テキストマイニング装置およびテキストマイニング方法
<>
  • 特許-テキストマイニング装置およびテキストマイニング方法 図1
  • 特許-テキストマイニング装置およびテキストマイニング方法 図2
  • 特許-テキストマイニング装置およびテキストマイニング方法 図3
  • 特許-テキストマイニング装置およびテキストマイニング方法 図4
  • 特許-テキストマイニング装置およびテキストマイニング方法 図5
  • 特許-テキストマイニング装置およびテキストマイニング方法 図6
  • 特許-テキストマイニング装置およびテキストマイニング方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-27
(45)【発行日】2022-05-11
(54)【発明の名称】テキストマイニング装置およびテキストマイニング方法
(51)【国際特許分類】
   G06F 16/20 20190101AFI20220428BHJP
   G06F 16/28 20190101ALI20220428BHJP
   G06F 16/383 20190101ALI20220428BHJP
   G06F 16/908 20190101ALI20220428BHJP
【FI】
G06F16/20
G06F16/28
G06F16/383
G06F16/908
【請求項の数】 4
(21)【出願番号】P 2017250513
(22)【出願日】2017-12-27
(65)【公開番号】P2019117484
(43)【公開日】2019-07-18
【審査請求日】2020-12-22
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)平成29年7月4日に“http://conferences.computer.org/compsacwp/2017/papers/0367b619.pdf”のウェブサイトにて公開された「2017 IEEE 41st Annual Computer Software and Applications Conference」の講演予稿集にて公開 (2)平成29年7月4日~8日に開催された「2017 IEEE 41st Annual Computer Software and Applications Conference」にて公開 (3)平成29年10月10日に「日立GPジャーナル 2017年 第18号」にて公開 (4)平成29年11月14日に“http://www.itpro.titech.ac.jp/exp4/material/IEEE_COMPSAC2017_Ja_.pdf”のウェブサイトにて公開
(73)【特許権者】
【識別番号】596127554
【氏名又は名称】株式会社日立社会情報サービス
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】田中 公司
【審査官】白石 圭吾
(56)【参考文献】
【文献】特開2011-170615(JP,A)
【文献】特開2011-164791(JP,A)
【文献】特開2016-218512(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
G06F 40/20 - 40/58
(57)【特許請求の範囲】
【請求項1】
文書群のテキストマイニングを行うテキストマイニング装置であって、
前記文書群のテキストデータの形態素解析をする形態素解析部と、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出部と、を備える、
ことを特徴とするテキストマイニング装置。
【請求項2】
前記クラスタを象徴する話題を設定する設定部、をさらに備える、
ことを特徴とする請求項1に記載のテキストマイニング装置。
【請求項3】
文書群のテキストマイニングを行うテキストマイニング装置におけるテキストマイニング方法であって、
前記テキストマイニング装置が、
前記文書群のテキストデータの形態素解析をする形態素解析ステップと、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析ステップと、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成ステップと、
前記作成されたグラフのクラスタリングを行うクラスタリングステップと、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出ステップと、を実行する、
ことを特徴とするテキストマイニング方法。
【請求項4】
前記テキストマイニング装置が、
前記クラスタを象徴する話題を設定する設定ステップ、をさらに実行する、
ことを特徴とする請求項3に記載のテキストマイニング方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストマイニング装置およびテキストマイニング方法に関する。
【背景技術】
【0002】
特許文献1には、「コンピュータがテキストマイニング処理を行うテキストマイニング方法であって、複数のデキストデータをメモリに記憶するテキスト記憶ステップと、前記テキスト記憶ステップで記憶されたテキストデータから、複数の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップで抽出した文字列を所定のカテゴリー毎にまとめ、カテゴリー毎の出現頻度を算出する出現頻度算出ステップと、前記文字列抽出ステップで抽出した文字列に対応するカテゴリーが、前記テキスト記憶ステップで記憶されたテキストデータそれぞれにおいて同時に使用されている比率である同時利用率を算出する同時使用率算出ステップと、前記出現頻度算出ステップで算出した前記出現頻度と、前記同時使用率算出ステップで算出された前記同時利用率を利用して、因子分析対象とするカテゴリーを選択する分析対象選択ステップと、前記分析対象選択ステップで選択された前記カテゴリーについて、前記カテゴリー別出現間の相関係数を算出する相関係数算出ステップと、前記相関係数算出ステップで算出した前記相関係数に対して因子分析を行い、少なくとも1つの因子とその因子に対応する前記カテゴリー別出現の因子付加量とを算出する因子分析ステップとを備えるテキストマイニング方法」、および、「前記出現頻度算出ステップは、予め記憶したシソーラスを参照して前記カテゴリー毎の出現頻度を算出する」ことについて開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2009-271772号公報(請求項1,2)
【発明の概要】
【発明が解決しようとする課題】
【0004】
膨大な量の文書群に対してテキストマイニングを行う際、従来は、特許文献1のようにシソーラスを用いてテキストマイニングの精度を高めていた。具体的には、同じ意味であるが表現揺れ程度の互いに異なる語に対しては、シソーラスに基づいて1つの特徴語を割り当てることで表現揺れの影響を取り除き、特徴語の抽出の精度を高めていた。しかし、類義語や同義語の定義など、シソーラスの構築コストが非常に大きいという問題がある。また、最新の概念や一般的でない語彙への対応など、シソーラスの運用(更新)コストが非常に大きいという問題もある。その結果、シソーラスを用いたテキストマイニングは、テキストマイニングの精度を保証するために多大なコストを要するという問題がある。
【0005】
本発明は、このような事情に鑑みて、シソーラスを用いない高精度なテキストマイニングを実現することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するために、本発明は、
文書群のテキストマイニングを行うテキストマイニング装置であって、
前記文書群のテキストデータの形態素解析をする形態素解析部と、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出部と、を備える、
ことを特徴とする。
その他の発明については、後記する。
【発明の効果】
【0007】
本発明によれば、シソーラスを用いない高精度なテキストマイニングを実現することができる。
【図面の簡単な説明】
【0008】
図1】本実施形態のテキストマイニング装置の機能構成図である。
図2】本実施形態のテキストマイニング処理を示すフローチャートである。
図3】文書1~3における係り受け構造を表現したグラフである。
図4】グラフのマージ(その1)の説明図である。
図5】グラフのマージ(その2)の説明図である。
図6】マージしたグラフのクラスタリング結果の説明図である。
図7】クラスタごとに抽出された特徴語、および、想定される話題との対応関係を示す表である。
【発明を実施するための形態】
【0009】
続いて、本発明の実施形態について、図面を参照して説明する。本実施形態のテキストマイニング装置は、入力部、出力部、制御部、および記憶部といったハードウェアを含むコンピュータである。例えば、制御部がCPU(Central Processing Unit)から構成される場合、その制御部を含むコンピュータによる情報処理は、CPUによるプログラム実行処理で実現される。また、そのコンピュータが含む記憶部は、CPUの指令により、そのコンピュータの機能を実現するためのさまざまなプログラムを記憶する。これによりソフトウェアとハードウェアの協働が実現される。前記プログラムは、記録媒体に記録したり、ネットワークを経由したりすることで提供することができる。
【0010】
≪構成≫
図1に示すように、本実施形態のテキストマイニング装置100は、読込部1と、前処理部2と、形態素解析部3と、係り受け解析部4と、グラフ作成部5と、クラスタリング部6と、抽出部7と、設定部8と、を備える。
【0011】
図1中の文書群Gは、例えば、1または複数の項目ごとに入力されたテキストデータを含む文書の集合である。例えば、顧客の宿泊レビューに関する文書であれば、項目としてレビュー対象施設名、および、感想コメントを用意し、レビュー対象施設名を表すテキストデータ、および、感想コメントを表すテキストデータを対応付けた文書となる。そして、顧客ごとに作成された文書の集合体が文書群Gとなる。なお、本実施形態が対象にする文書は、項目を有しない文書であってもよい。
また、本実施形態では、テキストデータは、日本語の文字列であるとするが、これに限定されず、他の言語の文字列であってもよい。
【0012】
読込部1は、文書群Gからテキストデータを読み込む。
前処理部2は、テキストデータの前処理を行う。テキストデータの前処理とは、形態素解析で正しい結果を得るための予備処理である。例えば、同じ意味となる語の全角文字と半角文字が存在する場合にいずれか一方に統一すること、長音記号「ー」とマイナス記号「-」のような、字形が類似することに起因する誤用に対して正しい記号に修正すること、などがある。
なお、テキストデータの前処理は、必須ではない。
【0013】
形態素解析部3は、テキストデータの形態素解析を行う。本実施形態の形態素解析は、既存の形態素解析、および、既存の形態素辞書を用いる。形態素解析によって、形態素群および各形態素の品詞が特定される。
【0014】
係り受け解析部4は、テキストデータの係り受け解析を行う。本実施形態の係り受け解析は、既存の係り受け解析を用いる。係り受け解析部4によって、テキストデータの係り受け構造、つまり、どの形態素が「係り」に該当し、どの形態素が「受け」に該当するかを特定することができる。
【0015】
グラフ作成部5は、係り受け解析部4が特定した係り受け構造に基づくグラフを作成する。本実施形態では、グラフの作成には既存の技術を用いる。グラフは、単語単位のノードと、ノード同士を結ぶエッジとから構成される。グラフ作成部5は、文書ごとにグラフを作成することができる。また、グラフ作成部5は、文書ごとに作成された複数のグラフをマージすることで、複数の文書に対応する1つのグラフを作成することができる。
クラスタリング部6は、グラフ作成部5が作成したグラフのクラスタリングを行う。クラスタリング部6は、複数の文書に対応する1つのグラフのクラスタリングを行うことができる。その結果、1または複数のクラスタが生成される。クラスタリングによって、グラフ上の各ノードの配置は、例えば、ばねモデルに従うようにすることができる。
【0016】
抽出部7は、クラスタリング部6によって生成された各クラスタから、1または複数の特徴語を抽出する。各クラスタから抽出された特徴語は、各クラスタ内で出現回数(TF:Term Frequency)が高い語である。
設定部8は、クラスタリング部6によって生成された各クラスタを象徴する話題を設定する。クラスタごとの話題は、例えば、各クラスタに含まれる語から推測することができる。また、話題は、テキストマイニング装置100のオペレータが設定することができる。
【0017】
≪処理≫
次に、本実施形態のテキストマイニング装置100が実行するテキストマイニング処理について、図2を参照して説明する。説明の際、図1も適宜参照する。テキストマイニング装置100は、テキストマイニング処理の対象となる文書群Gを予め記憶している。
【0018】
まず、テキストマイニング装置100は、読込部1によって、文書群Gからテキストデータを読み込む(ステップS1)。レビュー対象施設名、および、感想コメントを含む、顧客の宿泊レビューに関する文書であれば、読込部1は、感想コメント中のテキストデータを読み込むことができる。
【0019】
次に、テキストマイニング装置100は、前処理部2によって、読み込まれたテキストデータの前処理を行う(ステップS2)。次に、テキストマイニング装置100は、形態素解析部3および係り受け解析部4によって、テキストデータの形態素解析および係り受け解析を行う(ステップS3)。
【0020】
次に、テキストマイニング装置100は、グラフ作成部5によって、係り受け解析によって特定された係り受け構造に基づくグラフを文書ごとに作成する(ステップS4)。また、テキストマイニング装置100は、グラフ作成部5によって、文書ごとに作成したグラフをマージし、複数の文書に対応する1つのグラフを作成する。
【0021】
次に、テキストマイニング装置100は、クラスタリング部6によって、マージしたグラフのクラスタリングを行う(ステップS5)。その結果、マージしたグラフに関する1または複数のクラスタが生成される。次に、テキストマイニング装置100は、抽出部7によって、生成された各クラスタから、1または複数の特徴語を抽出する(ステップS6)。
【0022】
最後に、テキストマイニング装置100は、設定部8によって、生成された各クラスタに対して話題が設定される(ステップS7)。
テキストマイニング装置100は、図2のテキストマイニング処理による結果を、既存のビジュアライズ技術によって、例えば、グラフ構造に従って配置された、文書群G中の語の集合の画面表示として出力することができる。
【0023】
≪ホテルの宿泊レビューのテキストマイニング≫
次に、本実施形態の具体例として、顧客が利用したホテルに関する宿泊レビューのテキストマイニングを行った場合について説明する。文書群G(図1)は、レビュー対象施設名、および、感想コメントを項目として含み、顧客ごとに作成された文書の集合体であるとする。図3に示すように、本具体例では、文書群Gとして文書1~3を採り上げる。文書1~3はいずれも、Aホテルに宿泊した顧客のレビュー(クチコミ)の文書であるとする。つまり、レビュー対象施設名は、Aホテルである。しかし、レビュー対象施設名が異なる文書群であってもよく、以下の説明を適用することができる。
【0024】
文書1~3の感想コメントは、以下の通りである。
文書1:安い料金プランで予約。駅にもコンビニにも近く便利だった。部屋は綺麗で広く、ベッドも広くて快適。
文書2:ベッドは広かったが、料金が高い
文書3:価格が安い
【0025】
まず、テキストマイニング装置100は、読込部1によって、文書1~3から感想コメントのテキストデータを読み込む(図2のステップS1に対応)。次に、テキストマイニング装置100は、前処理部2によって、文書1~3の感想コメントのテキストデータの前処理を行う(図2のステップS2に対応)。本具体例では、文書1~3について、前処理によって、修正された文言は無かったとする。
【0026】
次に、テキストマイニング装置100は、形態素解析部3および係り受け解析部4によって、文書1~3の感想コメントのテキストデータの形態素解析および係り受け解析を行う(図2のステップS3に対応)。形態素解析によって、文書1~3の感想コメントの形態素群および各形態素の品詞が特定される。
【0027】
また、本具体例では、“何が(〈属性〉)どうなのか(〈評価〉)”を知りたいため、係り受け解析部4は、名詞および形容詞の形態素を選択する。図3では、文書1~3の感想コメントにおいて、選択された名詞および形容詞は強調表示(太字+下線)されている。係り受け解析によって、選択された名詞および形容詞の各々が、「係り」または「受け」のいずれに該当するかが判定され、係り受け構造が特定される。
【0028】
ところで、例えば、形容詞“広い”は、“部屋”や“風呂”など空間・場所を示す名詞を修飾する。このように、語の係り受け関係には意味的な制限があることが知られており、このような制限は「共起制限」と呼ばれる。係り受け解析部4が特定する係り受け構造には、共起制限が強く反映される。
【0029】
次に、テキストマイニング装置100は、グラフ作成部5によって、文書1~3それぞれについて、係り受け構造に基づくグラフを作成する(図2のステップS4に対応)。グラフ作成部5は、選択された語(名詞および形容詞)の原型をノード(単語ノード)とし、係り受け関係をエッジとする。図3では、ノードを○で示し、エッジを実直線で示す。係り受け関係が成立している語のノード同士がエッジによって連結されている。
【0030】
また、文書1~3について、係り受け関係に参加しない端点ノードと、端点ノードと連結するエッジとを便宜上用意する。端点ノードは、例えば、図3に示すように各文書の番号である「文書1」、「文書2」、「文書3」と示すことができる(図3中符号n1-0~n3-0)。また、端点ノードは、例えば、文書1~3内のレビュー対象施設名、つまり、「Aホテル」と示すこともできる(図示なし)。グラフ作成部5は、端点ノードが同じ文書内のいずれかのノードに連結したグラフを作成する。
【0031】
また、グラフ作成部5は、選択された語(名詞および形容詞)の出現回数(TF値)を、単語ノードのアトリビュートとして設定する。図3では、各ノード(端点ノード除く)の右肩にTF値を示してある(TF:k(k=1,2,・・・))。図3中文書1において、2回出現している「広く」を原型の「広い」として扱うため、「広い」ノード(図3中符号n1-1)のTF値は2となっている(TF:2)。
【0032】
また、グラフ作成部5は、ある2単語間の係り受け関係が出現した回数を、その2単語ノード間のエッジの重み(weight)として設定する。図3では、各エッジを象徴する実直線の近傍に重みの数値を示してある。
【0033】
また、グラフ作成部5は、文書1~3ごとに作成したグラフをマージする。図4には、文書1,2のグラフをマージしたグラフを示す。マージするグラフ間で、同一の単語ノード、および、同一のエッジが存在する場合、それらのノードおよびエッジは共有されるとともに、TF値および重みは加算される。図4では、文書1,2の両方に含まれる「ベッド」ノード、「料金」ノード、「広い」ノードの各々(図4中符号n12-1~n12-3)のTF値が加算され、TF:2、TF:2、TF:3、と示されている。なお、図4中文書2の「広かった」は原型の「広い」として扱う。また、図4では、文書1,2の両方に含まれる「ベッド」ノード-「広い」ノード間のエッジの重み(図4中符号w1)が加算され、「2」と示されている。
【0034】
図5には、マージ済の文書1,2のグラフにさらに文書3のグラフをマージしたグラフを示す。その結果、図5では、文書1,3の両方に含まれる「安い」ノードの(図5中符号n13-1)のTF値が加算され、TF:2と示されている。
上記のように、各ノードにTF値、および各エッジに重みが設定された、マージ後の1つのグラフが作成される。
【0035】
次に、テキストマイニング装置100は、クラスタリング部6によって、文書1~3について、マージしたグラフのクラスタリングを行う(図2のステップS5に対応)。このクラスタリングは、エッジの重みを考慮したクラスタリングとなる。クラスタリングによって、1または複数のクラスタが生成される。
【0036】
クラスタリング部6は、クラスタリングの結果として、例えば、図6に示すように、グラフ中の各ノードを、ばねモデルを用いて配置することで俯瞰的に表示することができる。なお、クラスタリングの結果の俯瞰的な表示は必須ではない。図6に示すように、文書1~3に対して、3種類のクラスタ1~3(図6中破線表示)が生成される。マージしたグラフ中の各ノードは、クラスタ1~3のいずれかに属する。同じクラスタを構成するノード群は、同じエリア内に配置される傾向にある。
【0037】
図6の俯瞰的な表示において、クラスタリング部6は、クラスタごとに、ノードを色分け表示することができる。また、図6の俯瞰的な表示において、クラスタリング部6は、相対的に大きなTF値が設定されたノードを、TF値に比例した大きさで表示することができる(図示なし)。また、図6の俯瞰的な表示において、クラスタリング部6は、相対的に大きな重みが設定されたエッジを象徴する実直線を、重みに比例した太さで表示することができる。図6では、重みが「2」である、「ベッド」ノード-「広い」ノード間のエッジ(図5参照)を象徴する実直線がより太く表示されている(図6中符号w2)。
【0038】
次に、テキストマイニング装置100は、抽出部7によって、クラスタ1~3の各々から、1または複数の特徴語を抽出する(図2のステップS6に対応)。具体的には、TF値が所定値以上に大きな値となるノードの語を特徴語として抽出する。例えば、TF:2である「安い」、「料金」、「ベッド」、および、TF:3である「広い」が特徴語として抽出される(図5参照)。
【0039】
説明の便宜上、図6に示すクラスタリング結果よりも大規模なクラスタリング結果の一例を図7に示す。図7のクラスタリング結果は、レビュー対象施設の数が50であり、感想コメント数が4,986件である、ホテルの宿泊レビューの文書群Gについての結果である。グラフ作成部5によって、ノード数が8,302であり、エッジ数が56,071であるグラフが生成され(図2のステップS4に対応)、クラスタリング部6によって、13種類のクラスタ(#0~#12)が生成された(図2のステップS5に対応)。また、抽出部7によって、#0~#12のクラスタの各々について、特徴語が抽出されるが(図2のステップS6に対応)、図7では、抽出された特徴語の上位20個(Top 20 terms)を、TF値の大きい順に列挙して示す。
【0040】
次に、テキストマイニング装置100は、設定部8によって、生成されたクラスタ(#0~#12)に対して話題が設定される(図2のステップS7に対応)。設定部8は、#0~#12のクラスタの各々について、上位20個の特徴語から想定される話題となる語を定義する。しかし、上位20個に限定する必要はなく、上位19個以下から定義してもよいし、上位21個以上から定義してもよいし、上位に該当しない同じクラスタ内の任意個数の特徴語から定義してもよい。#0~#12のクラスタの各々に対して、設定部8が設定した話題の各々を、図7の右欄に示す。
【0041】
図7おいて、例えば、#5のクラスタに注目すると、「値段」、「料金」、「価格」という語が特徴語として抽出されている。「値段」、「料金」、「価格」という語は互いに同義語の関係にある。つまり、同義語の関係にある複数種類の語は、同じクラスタに分類されるといえる。
【0042】
また、図7において、例えば、#11のクラスタに注目すると、「対応」、「接客」という語が特徴語として抽出されている。「対応」、「接客」という語は互いに類義語の関係にある。つまり、類義語の関係にある複数種類の語は、同じクラスタに分類されるといえる。
【0043】
また、図7において、例えば、#1のクラスタに注目すると、「アメニティ」、「アメニティー」という語が特徴語として抽出されている。「アメニティ」、「アメニティー」という語は互いに表記揺れの関係にある。つまり、表記揺れの関係にある複数種類の語は、同じクラスタに分類されるといえる。なお、表記揺れには、漢字表記とひらがな表記の関係も含まれる(例えば、#12のクラスタ内の「ない」と「無い」の関係)。
【0044】
上記の各種分類が可能になるのは、クラスタリングの対象となる文書群のグラフが、係り受け構造、具体的には、共起制限に基づいて作成されたことに起因する。本実施形態によれば、クラスタリングによって生成されたクラスタから、同義語、類義語、表記揺れの関係にある複数種類の語を容易に特定することができ、同義語、類義語、表記揺れを定義する役割を果たすシソーラスを不要とすることができる(クラスタ自身が実質的にシソーラスを構築している)。
したがって、本実施形態によれば、シソーラスを用いない高精度なテキストマイニング(シソーラスを用いた従来のテキストマイニングと同程度の精度のテキストマイニング)を実現することができる。
【0045】
また、従来のテキストマイニングは、“何が(〈属性〉)どうなのか(〈評価〉)”を知るために、〈評価対象〉を定義する必要があった。換言すれば、〈評価対象〉を定義しなければ、〈属性〉を決定しても〈評価〉を抽出することができず、テキストマイニングを実現することができなかった。しかし、従来における〈評価対象〉の定義は、主にテキストマイニングを行うユーザが手動で行うものであったため、〈評価対象〉の定義漏れを確実に回避することはできなかった。このため、テキストマイニングの精度の低下を招くおそれがあった。
【0046】
本実施形態によれば、設定部8が設定する話題が、〈評価対象〉の役割を果たす。クラスタリング部6は、テキストマイニングの対象となる文書群Gに対してクラスタを漏れなく生成することができる。よって、設定部8によって、生成されたクラスタごとに話題を漏れなく設定することができ、〈評価対象〉の定義漏れを確実に回避することができる。換言すれば、クラスタリング部6は、新たな〈評価対象〉を発見するためのきっかけを提供することができる。
したがって、本実施形態によれば、〈評価対象〉の定義漏れに起因するテキストマイニングの精度の低下を防ぐことができる。
【0047】
≪変形例≫
以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜変更可能である。(a)例えば、本実施形態では、係り受け解析の際、係り受け解析部4が名詞および形容詞の形態素を選択した。しかし、選択される品詞は、名詞および形容詞に限らず、例えば副詞の形態素も選択してもよい。また、“何が(〈属性〉)どうなのか(〈評価〉)”ではなく、“何が(〈属性〉)どうした(〈評価〉)”を知りたい場合には、係り受け解析部4が名詞および動詞の形態素を選択することもできる。係り受けの種類に応じて、選択する形態素の品詞を適宜変更することができる。
【0048】
(b)また、本実施形態では、グラフ作成部5が作成するグラフは、いわゆる無向グラフであった。しかし、グラフ作成部5が作成するグラフは、有向グラフでもよい。有向グラフの場合、「係り」に該当するノードから「受け」に該当するノードに向かうエッジとしてもよいし、「受け」に該当するノードから「係り」に該当するノードに向かうエッジとしてもよいし、「係り」に該当するノードにも「受け」に該当するノードにも向かうエッジとしてもよいし、これらが混在してもよい。
【0049】
(c)また、本実施形態では、クラスタリング部6によるクラスタリンク結果を、クラスタごとの特徴語の列挙として出力した(図7)。しかし、クラスタリンク結果の出力形式として、特徴語ごとに、〈属性〉と〈評価〉との関係性や、TF値を明示した出力形式とすることができる。この出力形式は、名詞ノード(〈属性〉)と連結している形容詞ノード(〈評価〉)を抽出することで実現することができる。
【0050】
出力形式の一例としては、「[〈属性〉の語](TF値)-[第1の〈評価〉の語](TF値)/[第2の〈評価〉の語](TF値)/・・・」とすることができる。例えば、図7の#3のクラスタ内の部屋,広い,お部屋,風呂,ベッド,綺麗,狭い,快適,・・・と列挙されている特徴語に対して、「部屋(128)-広い(34)/綺麗(20)・・・」という出力形式をとることができる。
【0051】
(d)設定部8が設定する話題は、例えば、対応のクラスタに属するノードの中心性の指標にもとづいて設定してもよい。
【0052】
本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、フローチャートなどについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【符号の説明】
【0053】
100 テキストマイニング装置
1 読込部
2 前処理部
3 形態素解析部
4 係り受け解析部
5 グラフ作成部
6 クラスタリング部
7 抽出部
8 設定部
図1
図2
図3
図4
図5
図6
図7