(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-04
(45)【発行日】2024-09-12
(54)【発明の名称】テキストマイニング装置およびテキストマイニング方法
(51)【国際特許分類】
G06F 16/35 20190101AFI20240905BHJP
G06F 40/211 20200101ALI20240905BHJP
G06F 16/34 20190101ALI20240905BHJP
G06F 3/0481 20220101ALI20240905BHJP
【FI】
G06F16/35
G06F40/211
G06F16/34
G06F3/0481
(21)【出願番号】P 2020101990
(22)【出願日】2020-06-12
【審査請求日】2023-04-28
(73)【特許権者】
【識別番号】596127554
【氏名又は名称】株式会社日立社会情報サービス
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】木村 稔
(72)【発明者】
【氏名】田中 公司
(72)【発明者】
【氏名】三浦 信治
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2019-117484(JP,A)
【文献】特開2004-348768(JP,A)
【文献】特開2007-328714(JP,A)
【文献】特開2007-293685(JP,A)
【文献】特開2009-075881(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
G06F 3/0481
(57)【特許請求の範囲】
【請求項1】
テキストデータの係り受け解析によって特定される係り受け構造に基づくグラフを作成することで、対象文書を含む文書群に対応するベースグラフを作成するグラフ作成部と、
前記作成されたベースグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングされたベースグラフを表示する際、前記対象文書に対応するグラフ部分を強調表示する表示処理部と、を備え
、
前記グラフ作成部は、文書を分類するカテゴリ情報を、前記ベースグラフを構成するノードおよびエッジに付加し、
前記表示処理部は、入力部で指定されたカテゴリ情報が付加された前記ノードおよび前記エッジを強調表示することを特徴とするテキストマイニング装置。
【請求項2】
前記対象文書が複数存在し、
前記表示処理部は、複数の前記対象文書ごとに前記グラフ部分の強調表示を違えることを特徴とする請求項1に記載のテキストマイニング装置。
【請求項3】
テキストマイニング装置が、
テキストデータの係り受け解析によって特定される係り受け構造に基づくグラフを作成することで、対象文書を含む文書群に対応するベースグラフを作成する第1のステップと、
前記作成されたベースグラフのクラスタリングを行う第2のステップと、
前記クラスタリングされたベースグラフを表示する際、前記対象文書に対応するグラフ部分を強調表示する第3のステップと、を実行
し、
前記第1のステップにて、文書を分類するカテゴリ情報を、前記ベースグラフを構成するノードおよびエッジに付加し、
前記第3のステップにて、入力部で指定されたカテゴリ情報が付加された前記ノードおよび前記エッジを強調表示することを特徴とするテキストマイニング方法。
【請求項4】
前記対象文書が複数存在し、
前記テキストマイニング装置が、
前記第3のステップにて、複数の前記対象文書ごとに前記グラフ部分の強調表示を違えることを特徴とする請求項
3に記載のテキストマイニング方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストマイニング装置およびテキストマイニング方法に関する。
【背景技術】
【0002】
近年、テキストマイニングに関する技術開発が盛んである。例えば、特許文献1には、3単語以上の単語間の係り受け関係ネットワーク構造を表示する技術について開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
膨大な量の文書群に対してテキストマイニングを行う際、対象文書において内容の傾向の把握することを求められる場合がある。具体的には、対象文書がどのような話題を主体的に述べているかを、当該文書を読まずに把握することを求められる場合がある。一般的には、他の文書と比較しながら当該傾向を把握することが多いが、複雑な処理を必要とし、実用レベルに及ばない。特許文献1の発明は、複数の分析対象(文書に相当)の単語間の係り受け関係を特定するにとどまり、分析対象の内容の傾向を把握することの視点が欠けている。このため、特許文献1の発明は、単語間の係り受けの関係の特定が不十分であり、改善の余地がある。
【0005】
本発明は、このような事情に鑑みて、対象文書において内容の傾向の把握を容易にすることを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するために、本発明は、
テキストデータの係り受け解析によって特定される係り受け構造に基づくグラフを作成することで、対象文書を含む文書群に対応するベースグラフを作成するグラフ作成部と、
前記作成されたベースグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングされたベースグラフを表示する際、前記対象文書に対応するグラフ部分を強調表示する表示処理部と、を備え、
前記グラフ作成部は、文書を分類するカテゴリ情報を、前記ベースグラフを構成するノードおよびエッジに付加し、
前記表示処理部は、入力部で指定されたカテゴリ情報が付加された前記ノードおよび前記エッジを強調表示することを特徴とするテキストマイニング装置である。
その他の発明については、後記する。
【発明の効果】
【0007】
本発明によれば、対象文書において内容の傾向の把握を容易にすることができる。
【図面の簡単な説明】
【0008】
【
図1】本実施形態におけるテキストマイニング装置の機能構成図の例である。
【
図2】本実施形態における可視化処理を示すフローチャートの例である。
【
図3】対象文書の係り受け構造を表現したグラフである。
【
図7】複数の文書をマッピングした場合の説明図である。
【
図8】カテゴリによるマッピングをした場合の説明図である。
【発明を実施するための形態】
【0009】
続いて、本発明の実施形態について、図面を参照して説明する。
【0010】
[構成]
図1に示す本実施形態のテキストマイニング装置100は、入力部、出力部、制御部、および、記憶部といったハードウェアを含むコンピュータである。例えば、制御部がCPU(Central Processing Unit)から構成される場合、その制御部を含むコンピュータによる情報処理は、CPUによるプログラム実行処理で実現される。また、そのコンピュータが含む記憶部は、CPUの指令により、そのコンピュータの機能を実現するためのさまざまなプログラムを記憶する。これによりソフトウェアとハードウェアの協働が実現される。前記プログラムは、記録媒体に記録したり、ネットワークを経由したりすることで提供することができる。
【0011】
また、
図1に示すように、本実施形態のテキストマイニング装置100は、読込部1と、前処理部2と、形態素解析部3と、係り受け解析部4と、グラフ作成部5と、クラスタリング部6と、抽出部7と、表示処理部8を備える。また、テキストマイニング装置100は、文書群Gと、ベースグラフBを記憶する。
【0012】
文書群Gは、テキストデータを含む文書の集合である。文書は、1または複数種類の項目を有し、項目ごとにテキストデータが入力されたものとすることができる。例えば、顧客の宿泊レビューに関する文書であれば、項目は、レビュー対象施設名(ホテル名)や、感想コメントなどとすることができるが、これらに限定されない。また、文書には、1または複数種類のカテゴリ情報を付加することができる。カテゴリ情報は、文書を分類するための情報である。カテゴリ情報は、例えば、文書のID(Identifier)とすることができる。また、例えば、顧客の宿泊レビューに関する文書であれば、カテゴリ情報は、宿泊の期間、顧客の性別、顧客の年代、宿泊の場所(地域)とすることができる。しかし、カテゴリ情報の種類は、これらに限定されない。
また、本実施形態では、テキストデータは、日本語の文字列であるとするが、これに限定されず、他の言語の文字列であってもよい。
【0013】
読込部1は、テキストマイニング装置100のユーザから指定された文書のテキストデータを読み込む。文書の指定は、例えば、テキストマイニング装置100の入力部からの入力によって実現することができるが、これに限定されない。読込部1は、文書群Gの文書からテキストデータを読み込むことができる。
【0014】
前処理部2は、テキストデータの前処理を行う。テキストデータの前処理とは、形態素解析で正しい結果を得るための予備処理である。例えば、同じ意味となる語の全角文字と半角文字が存在する場合にいずれか一方に統一すること、長音記号「ー」とマイナス記号「-」のような、字形が類似することに起因する誤用に対して正しい記号に修正すること、などがある。
なお、テキストデータの前処理は、必須ではない。
【0015】
形態素解析部3は、テキストデータの形態素解析を行う。本実施形態の形態素解析は、既存の形態素解析、および、既存の形態素辞書を用いる。形態素解析によって、形態素群および各形態素の品詞が特定される。
【0016】
係り受け解析部4は、テキストデータの係り受け解析を行う。本実施形態の係り受け解析は、既存の係り受け解析を用いる。係り受け解析部4によって、テキストデータの係り受け構造、つまり、どの形態素が「係り」に該当し、どの形態素が「受け」に該当するかを特定することができる。
【0017】
グラフ作成部5は、係り受け解析部4が特定した係り受け構造に基づくグラフを作成する。本実施形態では、グラフの作成には既存の技術を用いる。グラフは、単語単位のノードと、ノード同士を結ぶエッジとから構成される。グラフ作成部5は、文書ごとにグラフを作成することができる。また、グラフ作成部5は、文書ごとに作成された複数のグラフをマージすることで、複数の文書に対応する1つのグラフを作成することができる。また、グラフ作成部5は、作成したグラフを構成するノードおよびエッジにカテゴリ情報を付加することができる。
【0018】
クラスタリング部6は、グラフ作成部5が作成したグラフのクラスタリングを行う。クラスタリング部6は、複数の文書に対応する1つのグラフのクラスタリングを行うことができる。その結果、1または複数のクラスタが生成される。クラスタリングによって、グラフ上の各ノードの配置は、例えば、ばねモデルに従うようにすることができる。なお、テキストマイニング装置100は、生成されたクラスタを象徴する話題を設定することができる。クラスタごとの話題は、例えば、各クラスタに含まれる語から推測することができる。また、話題は、テキストマイニング装置100のユーザが設定することができる。
【0019】
抽出部7は、クラスタリング部6によって生成された各クラスタから、1または複数の特徴語を抽出する。各クラスタから抽出された特徴語は、各クラスタ内で出現回数(TF:Term Frequency)が高い語である。
【0020】
表示処理部8は、クラスタリングされたグラフをテキストマイニング装置100の表示部に表示する表示処理をする。
ベースグラフBは、グラフ作成部5が文書群Gを対象にして作成したグラフである。クラスタリング部6がクラスタリングしたベースグラフBを「ベースマップ」という。表示処理部8は、ベースマップを可視化して表示部に表示することができる。テキストマイニング装置100は、ベースマップを予め記憶していてもよい。
【0021】
[処理]
次に、テキストマイニング装置100が実行する可視化処理について、
図2を参照して説明する。説明の際、
図1も適宜参照する。
【0022】
まず、読込部1は、ユーザが指定した文書(指定文書)のテキストデータを読み込む(ステップS1)。次に、前処理部2は、読み込まれたテキストデータの前処理を行う(ステップS2)。次に、形態素解析部3および係り受け解析部4は、テキストデータの形態素解析および係り受け解析を行う(ステップS3)。
【0023】
次に、グラフ作成部5は、係り受け解析によって特定された係り受け構造に基づく指定文書のグラフを作成する(ステップS4)。このとき、グラフ作成部5は、作成したグラフを構成するノードおよびエッジにカテゴリ情報を付加することができる。次に、グラフ作成部5は、指定文書のグラフをベースグラフBにマージし、ベースグラフBを更新する(ステップS5)。
【0024】
次に、クラスタリング部6は、更新されたベースグラフBのクラスタリングをする(ステップS6)。その結果、更新されたベースグラフBに関する1または複数のクラスタが生成される。なお、抽出部7は、生成された各クラスタから、1または複数の特徴語を抽出することができる。また、生成された各クラスタに対して話題を適宜設定することができる。
【0025】
最後に、表示処理部8は、更新されたベースグラフBのクラスタリング結果を更新されたベースマップとして表示部に表示する(ステップS7:表示処理)。具体的には、指定文書に対応するグラフ部分を構成する、ノードおよびエッジを強調表示する。なお、指定文書によるベースマップの更新を「対象文書のマッピング」と呼ぶ場合がある。
【0026】
また、例えば、参考文献(特開2019-117484号公報)に倣って、表示処理部8は、TFに比例した大きさでノードを表示したり、設定された重みに比例した太さでエッジを表示したりすることができる。
【0027】
図2の処理によれば、ユーザは、ベースグラフBと比較して強調表示されたグラフ部分を確認することができる。よって、文書群Gと比較しながら指定文書の内容の傾向を容易に把握することができる。
【0028】
[具体例]
次に、本実施形態の具体例として、顧客が利用したホテルに関する宿泊レビューのテキストマイニングにおいてベースマップの可視化を行った場合について説明する。文書群G(
図1)は、レビュー対象施設名、および、感想コメントを項目として含み、顧客ごとに作成された文書の集合体であるとする。本具体例では、文書群Gとして以下の文書1~3を採り上げる。
【0029】
文書1:安い料金プランで予約。駅にもコンビニにも近く便利だった。部屋は綺麗で広く、ベッドも広くて快適。
文書2:ベッドは広かったが、料金が高い
文書3:価格が安い
【0030】
文書1~3はいずれも、Aホテルに宿泊した顧客のレビュー(クチコミ)の文書であるとする。つまり、レビュー対象施設名は、Aホテルである。また、文書1~3には、所定のカテゴリ情報が付加されている。所定のカテゴリ情報は、各文書を識別するID(レビューID)、および、レビュー対象施設名(ホテルA)である。また、テキストマイニング装置1は、文書1~文書3からなる文書群Gに対応するベースグラフBを記憶している。
【0031】
まず、読込部1は、指定文書の感想コメントのテキストデータを読み込む(
図2のステップS1に対応)。ここで、指定文書の形式は、文書1~3と同じである。また、指定文書の内容(感想コメント)は、「部屋は広いが価格は安い」である。また、指定文書に付加されたカテゴリ情報は、当該指定文書を識別するID(レビューID:A001)、および、レビュー対象施設名(ホテルA)である。
【0032】
次に、前処理部2は、指定文書の感想コメントのテキストデータの前処理を行う(
図2のステップS2に対応)。本具体例では、指定文書について、前処理によって、修正された文言は無かったとする。次に、形態素解析部3および係り受け解析部4は、指定文書の感想コメントのテキストデータの形態素解析および係り受け解析を行う(
図2のステップS3に対応)。形態素解析によって、指定文書の感想コメントの形態素群および各形態素の品詞が特定される。
【0033】
次に、グラフ作成部5は、指定文書について、係り受け構造に基づくグラフを作成する(
図2のステップS4に対応)。グラフ作成部5は、選択された語(本具体例では、名詞および形容詞)の原型をノード(単語ノード)とし、係り受け関係をエッジとする。
図3では、ノードを○で示し、エッジを実直線で示す。係り受け関係が成立している語のノード同士がエッジによって連結されている。
【0034】
また、指定文書について、係り受け関係に参加しない端点ノードと、端点ノードと連結するエッジとを便宜上用意する。端点ノードは、例えば、
図3に示すように指定文書のレビューIDである「A001」と示すことができる(
図3中符号11)(文書ノードと呼ぶ場合がある)。また、端点ノードは、例えば、指定文書内のレビュー対象施設名、つまり、「Aホテル」と示すこともできる(図示なし)(カテゴリノードと呼ぶ場合がある)。
図3に示すように、グラフ作成部5は、端点ノードを含む5つのノード11~15を4本のエッジ21~24で連結したグラフを作成することができる。
【0035】
また、グラフ作成部5は、指定文書について、選択された語(名詞および形容詞)の出現回数(TF値)を、単語ノードのアトリビュートとして設定する。
図3では、各ノード12~15の近傍にTF値を示してある(TF:k(k=1,2,・・・))
【0036】
また、グラフ作成部5は、指定文書について、ある2単語間の係り受け関係が出現した回数を、その2単語ノード間のエッジの重み(weight)として設定する。
図3では、各エッジ21~24を象徴する実直線の近傍に重みの数値を示してある。
【0037】
また、グラフ作成部5は、指定文書について、ノードの各々およびエッジの各々にカテゴリ情報を付加する。
図3では、各ノード11~15の近傍、および、各エッジ21~24の近傍に、レビューID:A001およびホテル名:ホテルAを、カテゴリ情報として示してある。
【0038】
また、グラフ作成部5は、指定文書のグラフを、文書1~3からなるベースグラフBにマージし、ベースグラフBを更新する(
図2のステップS5に対応)。マージによって、同一の単語ノード、および、同一のエッジが存在する場合、それらのノードおよびエッジは共有されるとともに、TF値および重みは加算される。
【0039】
次に、クラスタリング部6は、更新されたベースグラフBのクラスタリングをする(
図2のステップS6に対応)。その結果、更新されたベースグラフBに関する1または複数のクラスタが生成される。また、抽出部7は、生成された各クラスタから特徴語を抽出する(
図2のステップS6に対応)。
【0040】
次に、表示処理部8は、クラスタリングされたグラフの表示処理をする(
図2のステップS7に対応)。比較例として、文書1~3からなる更新前のベースグラフBのベースマップを
図4に示す。
図4に示すように、クラスタリング部6によって、クラスタ1~3が生成されている。
【0041】
また、指定文書によって更新されたベースグラフBをクラスタリングしたとき、つまり、指定文書をマッピングしたときの表示処理の結果を
図5に示す。
図5に示すように、クラスタリング部6によって、クラスタ1~3が生成されている。
【0042】
また、表示処理部8は、指定文書に起因するグラフ部分を構成するノードおよびエッジを強調表示することができる。
図5では、指定文書に起因するグラフ部分を構成するノード、「A001」、「部屋」、「広い」、「価格」、「安い」の文字についてサイズを大きくしたり太字にしたりしている。また、指定文書に起因するグラフ部分を構成するエッジを太くしている。
【0043】
表示処理部8による強調表示はさまざまとすることができ、上記に限定されない。例えば、該当ノードの文字について、色、フォント、形状(斜体、下線付き)、丸や四角で囲むなどができる。また、該当エッジを示す線を、曲線にしたり、破線にしたりするなどができる。また、表示処理部8は、所定条件を満たしたノードおよびエッジを非表示にすることができる(フィルタリング)。所定条件は適宜決めることができ、例えば、TF値が所定値以下となる文字であること、表示が社会通念上不適切な文字であること、カテゴリ情報が示す特定のカテゴリに該当するノードの文字であることがあるが、これらに限定されない。また、表示処理部8は、係り受け関係に参加しない文書ノードやカテゴリノードを表示したり非表示したりすることができる。
【0044】
本具体例によれば、ユーザは、更新されたベースマップ(
図5)を視認して、強調表示された指定文書のグラフ部分を確認することができる。したがって、文書1~3と比較しながら指定文書の内容の傾向を容易に確認することができる。例えば、「部屋」、「広い」、「価格」、「安い」といった語を含む指定文書には、「部屋」に関する情報がどの程度多く含まれているか、指定文書を読まなくても把握できる。また、「部屋」に関する情報が他の文書(文書1~3)と比較してどの程度多く含まれているかを把握できる。また、「部屋」ノードに連結するエッジをたどることにより、すべての文書(指定文書および文書1~3)において、「部屋」とある程度関係している(一緒に語られる)語がどのように、かつ、どの程度顧客が関心を持って記述されているかを把握することができる。また、指定文書については、「部屋-広い」、「価格-安い」という関係性を有して単語の各々がつながっていることを把握できる。また、他の文書(文書1~3)と比較することで、当該関係性について顧客がどの程度の関心を持っているかを把握できる。
【0045】
(カテゴリの更新)
なお、ベースグラフBに指定文書のグラフをマージする際、グラフ作成部5は、ノードに付加されたカテゴリ情報を所定のルールに従って更新することができる。
図6に示すように、共に「風呂」の語を持つノード31,32について説明する。ノード31のカテゴリ情報は、レビューID:A001、ホテル名:ホテルAである。ノード32のカテゴリ情報は、レビューID:A002、ホテル名:ホテルAである。
【0046】
マージによって、同じ語を持つノード31,32は1つのノード33になる。このとき、ノード33のカテゴリ情報を、ノード31,32のカテゴリ情報を用いて表現することができる。具体的には、「/」を用いて、ノード33のレビューIDをA001/A002としマージ元のカテゴリ情報を連結した表現にすることができる。一方、ノード31,32のカテゴリ情報のホテル名は同じであるため、ノード33のカテゴリ情報のホテル名は、ホテルAのままにすることができる。このように、グラフのマージを行ったとしても、マージ元のノードのカテゴリ情報を参照可能にすることが好ましい。なお、マージによって、ノード33のTF値は増大する(TF値:1+1=2)。
【0047】
ノードに関する上記のカテゴリの更新に関する説明は、エッジについても適用することができる。
【0048】
(応用例1:複数の文書のマッピング)
図2の処理を繰り返すことで、複数指定した文書のマッピングを実現することができる。例えば、先述の具体例に対して、文書1~3からなる文書群Gに対応するベースマップBと、第1の指定文書と、第2の指定文書とを用意する。文書1~3は先述の通りである。第1の指定文書の内容は、「部屋は広いが価格は安い」である。また、第1の指定文書に付加されたカテゴリ情報は、当該第1の指定文書を識別するID(レビューID:A001)、および、レビュー対象施設名(ホテルA)である。第2の指定文書の内容は、「駅に近いが料金が高い」である。また、第2の指定文書に付加されたカテゴリ情報は、当該第2の指定文書を識別するID(レビューID:B001)、および、レビュー対象施設名(ホテルA)である。
【0049】
まず、テキストマイニング装置100は、第1の指定文書に対して、
図2のステップS1~S6を実行する。すると、第1の指定文書のグラフをマージして更新されたベースグラフBがクラスタリングされる。次に、テキストマイニング装置100は、第2の指定文書に対して、
図2のステップS1~S6を実行する。すると、第2の指定文書のグラフをマージして再更新されたベースグラフBがクラスタリングされる。
【0050】
次に、表示処理部8は、クラスタリングされたグラフの表示処理をする(
図2のステップS7に対応)。指定文書によって更新されたベースグラフBをクラスタリングしたとき、つまり、第1の指定文書および第2の指定文書をマッピングしたときの表示処理の結果を
図7に示す。
図7に示すように、クラスタリング部6によって、クラスタ1~3が生成されている。また、第1の指定文書に起因するグラフ部分を構成するノード(「部屋」、「広い」、「価格」、「安い」)およびエッジに対する強調表示と、第2の指定文書に起因するグラフ部分を構成するノード(「駅」、「近い」、「料金」、「高い」)およびエッジに対する強調表示とがなされている。このとき、両方の強調表示を違えることが好ましい。
【0051】
応用例1によれば、指定文書間の内容の傾向の把握を容易にすることができる。
【0052】
(応用例2:カテゴリによるマッピング)
ベースマップにおいて、カテゴリ情報に基づく強調表示を実現することができる。例えば、先述の具体例に対して、文書1~3と、第3の指定文書と、第4の指定文書とを用意する。文書1~3は先述の通りである。第3の指定文書の内容は、「部屋は広いが価格は安い」である。また、第3の指定文書に付加されたカテゴリ情報は、当該第3の指定文書を識別するID(レビューID:A001)、および、レビュー対象施設名(ホテルB)である。第4の指定文書の内容は、「駅に近いが料金が高い」である。また、第4の指定文書に付加されたカテゴリ情報は、当該第4の指定文書を識別するID(レビューID:B002)、および、レビュー対象施設名(ホテルB)である。
【0053】
まず、テキストマイニング装置100は、文書1~3と、第3の指定文書と、第4の指定文書をまとめたものを1つの文書とみなして、
図2のステップS1~S6を実行する。すると、文書1~3、第3の指定文書、および、第4の指定文書の各々のグラフをマージして作成されたベースグラフBがクラスタリングされる。なお、
図2のステップS1~S6を実行したときの結果は、文書1~3、第3の指定文書、および、第4の指定文書の選択順序に依存しない。つまり、いずれの文書から
図2のステップS1~S6を実行しても、すべての文書のグラフをマージした後のクラスタリングの結果は同じになる。
【0054】
次に、表示処理部8は、クラスタリングされたグラフの表示処理をする(
図2のステップS7に対応)。このとき、表示処理部8は、例えば入力部からの要求により指定されたカテゴリ情報に基づく強調表示の処理をすることができる。指定されたカテゴリ情報が「ホテルB」であったとする。すると、グラフ作成部5は、「ホテルB」を表すカテゴリノードを1つ用意し、当該カテゴリノードからなるグラフをカテゴリグラフとして便宜上作成する。また、グラフ作成部5は、カテゴリグラフをベースグラフBにマージし、ベースグラフBを更新する。クラスタリング部6は、更新されたベースグラフBのクラスタリングをする(
図2のステップS6)。
【0055】
表示処理部8は、クラスタリングされたグラフの表示処理をする。カテゴリの指定によって更新されたベースグラフBをクラスタリングしたとき、つまり、カテゴリによるマッピングをしたときの表示処理の結果を
図8に示す。
図8に示すように、「ホテルB」のカテゴリを有する第3の文書に起因するグラフ部分を構成するノード(「部屋」、「広い」、「価格」、「安い」)およびエッジに対する強調表示がなされている。また、「ホテルB」のカテゴリを有する第4の指定文書に起因するグラフ部分を構成するノード(「駅」、「近い」、「料金」、「高い」)およびエッジに対する強調表示がなされている。また、「ホテルB」のカテゴリノード(
図8で「ホテルB」と表記)および当該カテゴリノードに連結するエッジに対しても強調表示がなされている。なお、
図8では、図示の便宜上、文書ノード「A001」、「B002」の図示は省略しているが、表示処理部8は、当該文書ノードを表示してもよいし非表示にしてもよい。
【0056】
応用例2によれば、カテゴリごとに、指定文書の内容の傾向の把握を容易にすることができる。
【0057】
[まとめ]
本実施形態によれば、クラスタリングされたベースグラフにおいて、対象文書のグラフ部分を強調表示することで、文書群に含まれる対象文書のテキストデータの係り受け構造の視認性を向上させることができ、他の文書との比較が容易になる。したがって、対象文書において内容の傾向の把握を容易にすることができる。
【0058】
[その他]
(a):本実施形態では、文書群Gに対応するベースマップに、指定文書に対応するグラフをマージしてベースマップを更新した場合の表示処理について説明した。しかし、すでに文書群Gに含まれている1つの文書に対応するグラフ部分を強調表示するように表示処理をしてもよい。具体的には、
図2の処理において、文書群Gに含まれている1つの文書を入力部から選択する。選択した文書については、すでに、グラフが作成されておりベースグラフにマージ済みであるため、
図2のステップS2~S6は省略可能である。表示処理部8は、選択した文書のグラフ部分を構成するノードおよびエッジを強調表示する表示処理をする(
図2のステップS7)。このような表示処理によれば、ベースグラフにすでに組み込まれている対象文書のテキストデータの係り受け構造の視認性を向上させることができ、他の文書との比較が容易になる。したがって、対象文書において内容の傾向の把握を容易にすることができる。
【0059】
(b):本実施形態で説明した種々の技術を適宜組み合わせた技術を実現することもできる。
(c):本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
(d):その他、ハードウェア、ソフトウェア、フローチャートなどについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【符号の説明】
【0060】
100 テキストマイニング装置
1 読込部
2 前処理部
3 形態素解析部
4 係り受け解析部
5 グラフ作成部
6 クラスタリング部
7 抽出部
8 表示処理部
G 文書群
B ベースマップ