(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6987003
(24)【登録日】2021年12月2日
(45)【発行日】2021年12月22日
(54)【発明の名称】テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
(51)【国際特許分類】
G06F 16/36 20190101AFI20211213BHJP
【FI】
G06F16/36
【請求項の数】20
【全頁数】23
(21)【出願番号】特願2018-52074(P2018-52074)
(22)【出願日】2018年3月20日
(65)【公開番号】特開2019-164593(P2019-164593A)
(43)【公開日】2019年9月26日
【審査請求日】2020年12月18日
(73)【特許権者】
【識別番号】000207551
【氏名又は名称】株式会社SCREENホールディングス
(74)【代理人】
【識別番号】100104695
【弁理士】
【氏名又は名称】島田 明宏
(74)【代理人】
【識別番号】100121348
【弁理士】
【氏名又は名称】川原 健児
(74)【代理人】
【識別番号】100114247
【弁理士】
【氏名又は名称】奥田 邦廣
(74)【代理人】
【識別番号】100148459
【弁理士】
【氏名又は名称】河本 悟
(72)【発明者】
【氏名】柿ノ木 未希
【審査官】
原 秀人
(56)【参考文献】
【文献】
米国特許出願公開第2017/0270223(US,A1)
【文献】
特開2016−099751(JP,A)
【文献】
特開2015−125594(JP,A)
【文献】
特開2006−215936(JP,A)
【文献】
特開2007−193380(JP,A)
【文献】
特表2013−537329(JP,A)
【文献】
特開平10−283367(JP,A)
【文献】
特開2005−122321(JP,A)
【文献】
特開2011−128748(JP,A)
【文献】
特開2014−115911(JP,A)
【文献】
国際公開第2017/061253(WO,A1)
【文献】
特開2014−85992(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G06F 40/20−40/35
(57)【特許請求の範囲】
【請求項1】
テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
テキストデータから単語を抽出するステップと、
前記単語について共起行列を生成するステップと、
前記共起行列に基づき共起ネットワークを生成するステップと、
前記共起ネットワークを含む画面を表示するステップとを備え、
指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、前記単語を抽出するステップは前記指定されたテキストデータのうち前記注目語を含む部分からなる限定テキストデータから前記単語を抽出し、前記共起行列を生成するステップは前記単語について前記限定テキストデータを用いて第2共起行列を生成し、前記共起ネットワークを生成するステップは前記第2共起行列に基づき第2共起ネットワークを生成し、前記画面を表示するステップは前記第2共起ネットワークを含む第2画面を表示することを特徴とする、テキストマイニング方法。
【請求項2】
前記第1画面内で前記第1共起ネットワークに含まれる1個または複数のノードを選択し、分析開始を選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項1に記載のテキストマイニング方法。
【請求項3】
前記第1画面内で前記第1共起ネットワークに含まれる1個のノードを続けて選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項1に記載のテキストマイニング方法。
【請求項4】
前記第1画面内で前記第1共起ネットワークに含まれる1本のエッジを続けて選択することにより、前記エッジに接続された2個のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項1に記載のテキストマイニング方法。
【請求項5】
前記第1画面内で前記第1共起ネットワークに含まれる1本または複数のエッジを選択し、分析開始を選択することにより、前記エッジに接続された複数のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項1に記載のテキストマイニング方法。
【請求項6】
複数の第2共起ネットワークを含む第2画面内で併合指示が入力されたときに、前記画面を表示するステップは、前記複数の第2共起ネットワークをタブ形式で表示することを特徴とする、請求項1に記載のテキストマイニング方法。
【請求項7】
前記第2画面内で一の第2共起ネットワークを掴んで他の第2共起ネットワーク内で離すことにより、前記併合指示が入力されることを特徴とする、請求項6に記載のテキストマイニング方法。
【請求項8】
前記限定テキストデータは、前記指定されたテキストデータのうち前記注目語を含む文からなることを特徴とする、請求項1に記載のテキストマイニング方法。
【請求項9】
複数の注目語が指定されたときの前記限定テキストデータは、前記指定されたテキストデータのうち前記複数の注目語のすべてを含む文からなることを特徴とする、請求項8に記載のテキストマイニング方法。
【請求項10】
複数の注目語が指定されたときの前記限定テキストデータは、前記指定されたテキストデータのうち前記複数の注目語のいずれかを含む文からなることを特徴とする、請求項8に記載のテキストマイニング方法。
【請求項11】
前記共起行列を生成するステップは、Jaccard係数を要素とする共起行列を生成することを特徴とする、請求項1に記載のテキストマイニング方法。
【請求項12】
テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
テキストデータから単語を抽出するステップと、
前記単語について共起行列を生成するステップと、
前記共起行列に基づき共起ネットワークを生成するステップと、
前記共起ネットワークを含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、前記単語を抽出するステップは前記指定されたテキストデータのうち前記注目語を含む部分からなる限定テキストデータから前記単語を抽出し、前記共起行列を生成するステップは前記単語について前記限定テキストデータを用いて第2共起行列を生成し、前記共起ネットワークを生成するステップは前記第2共起行列に基づき第2共起ネットワークを生成し、前記画面を表示するステップは前記第2共起ネットワークを含む第2画面を表示することを特徴とする、テキストマイニングプログラム。
【請求項13】
前記第1画面内で前記第1共起ネットワークに含まれる1個または複数のノードを選択し、分析開始を選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項12に記載のテキストマイニングプログラム。
【請求項14】
前記第1画面内で前記第1共起ネットワークに含まれる1個のノードを続けて選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項12に記載のテキストマイニングプログラム。
【請求項15】
前記第1画面内で前記第1共起ネットワークに含まれる1本のエッジを続けて選択することにより、前記エッジに接続された2個のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項12に記載のテキストマイニングプログラム。
【請求項16】
前記第1画面内で前記第1共起ネットワークに含まれる1本または複数のエッジを選択し、分析開始を選択することにより、前記エッジに接続された複数のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする、請求項12に記載のテキストマイニングプログラム。
【請求項17】
複数の第2共起ネットワークを含む第2画面内で併合指示が入力されたときに、前記画面を表示するステップは、前記複数の第2共起ネットワークをタブ形式で表示することを特徴とする、請求項12に記載のテキストマイニングプログラム。
【請求項18】
前記第2画面内で一の第2共起ネットワークを掴んで他の第2共起ネットワーク内で離すことにより、前記併合指示が入力されることを特徴とする、請求項17に記載のテキストマイニングプログラム。
【請求項19】
テキストデータの分析結果を含む画面を表示するテキストマイニング装置であって、
テキストデータから単語を抽出する単語抽出部と、
前記単語について共起行列を生成する共起行列生成部と、
前記共起行列に基づき共起ネットワークを生成する共起ネットワーク生成部と、
前記共起ネットワークを含む画面を表示する画面表示部とを備え、
指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、前記単語抽出部は前記指定されたテキストデータのうち前記注目語を含む部分からなる限定テキストデータから前記単語を抽出し、前記共起行列生成部は前記単語について前記限定テキストデータを用いて第2共起行列を生成し、前記共起ネットワーク生成部は前記第2共起行列に基づき第2共起ネットワークを生成し、前記画面表示部は前記第2共起ネットワークを含む第2画面を表示することを特徴とする、テキストマイニング装置。
【請求項20】
複数の第2共起ネットワークを含む第2画面内で併合指示が入力されたときに、前記画面表示部は、前記複数の第2共起ネットワークをタブ形式で表示することを特徴とする、請求項19に記載のテキストマイニング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストマイニングに関し、特に、単語の共起ネットワークを含む画面を表示するテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置に関する。
【背景技術】
【0002】
近年、自由記述されたテキストデータを分析し、分析結果から有用な情報を求めるテキストマイニングが注目されている。テキストマイニングでは、例えば、分析対象のテキストデータから単語を抽出し、単語の出現頻度や出現傾向などを解析することにより、情報を求める。
【0003】
自由記述されたテキストデータを分析するときには、分析者は、初期段階では対象を主観的に選択するのではなく、テキストデータの全体像を把握する必要がある。このため、分析者は、テキストデータに含まれる単語の共起ネットワークを用いることがある。
【0004】
図19は、共起ネットワークの例を示す図である。共起ネットワークは、テキストデータから同じ文に含まれることが多い単語のペアを抽出し、その結果を無向グラフで表現したものである。分析対象のテキストデータにおいて単語Waと単語Wbが同じ文に含まれることが多い場合、共起ネットワークには、単語Waに対応するノード、単語Wbに対応するノード、および、両者を接続するエッジが含まれる。
図19に示す共起ネットワークは、「スタッフ」に対応するノード、「対応」に対応するノード、および、両者を接続するエッジを含んでいる。
図19に示す共起ネットワークを見れば、分析対象のテキストデータでは「スタッフ」と「対応」が同じ文に含まれることが多いことが分かる。
【0005】
一般に、共起ネットワークは、指定されたテキストデータの全体に基づき生成される。以下、このような共起ネットワークを「全体共起ネットワーク」という。分析者は、自分が立てた仮説や分析目的に応じて全体共起ネットワークから注目すべき単語(以下、注目語という)を複数個選択し、注目語を考慮して以降の分析を行う。
【0006】
分析者は、注目語を選択するときに、選択した注目語が分析目的などに適しているか否かを判断するために、注目語を含む文の中で注目語がどのように使われているかを考察する。このため、分析者は、指定されたテキストデータのうち注目語を含む文からなるテキストデータ(以下、限定テキストデータという)に基づく共起ネットワークを用いることがある。なお、ここで言う「注目語を含む文」は、注目語を含む単一の文を意味する場合だけでなく、注目語を含む文を包含する段落など、ブロック単位に分割された複数の文(文の集合)を意味する場合がある。以下、このような共起ネットワークを「限定共起ネットワーク」という。分析者は、限定共起ネットワークを用いることにより、限定テキストデータの内容を把握することができる。分析者は、すべての注目語を選択するまで、全体共起ネットワークと限定共起ネットワークを繰り返し参照する。
【0007】
以下、テキストデータに含まれる単語の共起ネットワークを生成し、生成した共起ネットワークを含む画面を表示するテキストマイニング装置について考える。特許文献1には、複数の文書のそれぞれについて全体共起ネットワークを生成し、生成した複数の全体共起ネットワークを含む画面を表示するドキュメントデータベース表示装置が記載されている。この表示装置は、複数の全体共起ネットワークの中から利用者が入力した単語を検索し、検索した単語を画面内で強調表示する。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開平8−314980号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
従来のテキストマイニング装置は、指定されたテキストデータの全体に基づき共起ネットワークを生成する。したがって、従来のテキストマイニング装置によれば、全体共起ネットワークを含む画面を容易に表示することができる。
【0010】
一方、従来のテキストマイニング装置を用いて限定共起ネットワークを含む画面を表示するときには、分析者は煩雑な操作を行う必要がある。具体的には、分析者は、全体共起ネットワークの中から1個の注目語を選択するたびに、指定されたテキストデータに基づき限定テキストデータを生成し、生成した限定テキストデータをテキストマイニング装置に与える必要がある。また、分析者は、注目語を選択するときに、全体共起ネットワークと限定共起ネットワークの両方を参照する。このため、テキストマイニング装置は、全体共起ネットワークの画像データと限定共起ネットワークの画像データの両方を保存する必要がある。しかし、多くの共起ネットワークを生成した場合、画像データの保存と管理が困難になる。
【0011】
それ故に、本発明は、注目語を指定したときの共起ネットワークを含む画面を簡単な操作で表示できるテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明の第1の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
テキストデータから単語を抽出するステップと、
前記単語について共起行列を生成するステップと、
前記共起行列に基づき共起ネットワークを生成するステップと、
前記共起ネットワークを含む画面を表示するステップとを備え、
指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、前記単語を抽出するステップは前記指定されたテキストデータのうち前記注目語を含む部分からなる限定テキストデータから前記単語を抽出し、前記共起行列を生成するステップは前記単語について前記限定テキストデータを用いて第2共起行列を生成し、前記共起ネットワークを生成するステップは前記第2共起行列に基づき第2共起ネットワークを生成し、前記画面を表示するステップは前記第2共起ネットワークを含む第2画面を表示することを特徴とする。
【0013】
本発明の第2の局面は、本発明の第1の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1個または複数のノードを選択し、分析開始を選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0014】
本発明の第3の局面は、本発明の第1の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1個のノードを続けて選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0015】
本発明の第4の局面は、本発明の第1の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1本のエッジを続けて選択することにより、前記エッジに接続された2個のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0016】
本発明の第5の局面は、本発明の第1の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1本または複数のエッジを選択し、分析開始を選択することにより、前記エッジに接続された複数のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0017】
本発明の第6の局面は、本発明の第1の局面において、
複数の第2共起ネットワークを含む第2画面内で併合指示が入力されたときに、前記画面を表示するステップは、前記複数の第2共起ネットワークをタブ形式で表示することを特徴とする。
【0018】
本発明の第7の局面は、本発明の第6の局面において、
前記第2画面内で一の第2共起ネットワークを掴んで他の第2共起ネットワーク内で離すことにより、前記併合指示が入力されることを特徴とする。
【0019】
本発明の第8の局面は、本発明の第1の局面において、
前記限定テキストデータは、前記指定されたテキストデータのうち前記注目語を含む文からなることを特徴とする。
【0020】
本発明の第9の局面は、本発明の第8の局面において、
複数の注目語が指定されたときの前記限定テキストデータは、前記指定されたテキストデータのうち前記複数の注目語のすべてを含む文からなることを特徴とする。
【0021】
本発明の第10の局面は、本発明の第8の局面において、
複数の注目語が指定されたときの前記限定テキストデータは、前記指定されたテキストデータのうち前記複数の注目語のいずれかを含む文からなることを特徴とする。
【0022】
本発明の第11の局面は、本発明の第1の局面において、
前記共起行列を生成するステップは、Jaccard係数を要素とする共起行列を生成することを特徴とする。
【0023】
本発明の第12の局面は、テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
テキストデータから単語を抽出するステップと、
前記単語について共起行列を生成するステップと、
前記共起行列に基づき共起ネットワークを生成するステップと、
前記共起ネットワークを含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、前記単語を抽出するステップは前記指定されたテキストデータのうち前記注目語を含む部分からなる限定テキストデータから前記単語を抽出し、前記共起行列を生成するステップは前記単語について前記限定テキストデータを用いて第2共起行列を生成し、前記共起ネットワークを生成するステップは前記第2共起行列に基づき第2共起ネットワークを生成し、前記画面を表示するステップは前記第2共起ネットワークを含む第2画面を表示することを特徴とする。
【0024】
本発明の第13の局面は、本発明の第12の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1個または複数のノードを選択し、分析開始を選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0025】
本発明の第14の局面は、本発明の第12の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1個のノードを続けて選択することにより、前記ノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0026】
本発明の第15の局面は、本発明の第12の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1本のエッジを続けて選択することにより、前記エッジに接続された2個のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0027】
本発明の第16の局面は、本発明の第12の局面において、
前記第1画面内で前記第1共起ネットワークに含まれる1本または複数のエッジを選択し、分析開始を選択することにより、前記エッジに接続された複数のノードに対応する単語を前記注目語として指定する指示が入力されることを特徴とする。
【0028】
本発明の第17の局面は、本発明の第12の局面において、
複数の第2共起ネットワークを含む第2画面内で併合指示が入力されたときに、前記画面を表示するステップは、前記複数の第2共起ネットワークをタブ形式で表示することを特徴とする。
【0029】
本発明の第18の局面は、本発明の第17の局面において、
前記第2画面内で一の第2共起ネットワークを掴んで他の第2共起ネットワーク内で離すことにより、前記併合指示が入力されることを特徴とする。
【0030】
本発明の第19の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング装置であって、
テキストデータから単語を抽出する単語抽出部と、
前記単語について共起行列を生成する共起行列生成部と、
前記共起行列に基づき共起ネットワークを生成する共起ネットワーク生成部と、
前記共起ネットワークを含む画面を表示する画面表示部とを備え、
指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、前記単語抽出部は前記指定されたテキストデータのうち前記注目語を含む部分からなる限定テキストデータから前記単語を抽出し、前記共起行列生成部は前記単語について前記限定テキストデータを用いて第2共起行列を生成し、前記共起ネットワーク生成部は前記第2共起行列に基づき第2共起ネットワークを生成し、前記画面表示部は前記第2共起ネットワークを含む第2画面を表示することを特徴とする。
【0031】
本発明の第20の局面は、本発明の第19の局面において、
複数の第2共起ネットワークを含む第2画面内で併合指示が入力されたときに、前記画面表示部は、前記複数の第2共起ネットワークをタブ形式で表示することを特徴とする。
【発明の効果】
【0032】
上記第1、第12または第19の局面によれば、指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、指定されたテキストデータのうち注目語を含む部分に基づく第2共起ネットワークを含む第2画面が表示される。したがって、注目語を指定したときの共起ネットワークを含む画面を簡単な操作で表示することができる。
【0033】
上記第2または第13の局面によれば、第1画面内で1個または複数のノードと分析開始を選択することにより、1個または複数の注目語を指定する指示を簡単な操作で入力し、1個または複数の注目語を指定したときの共起ネットワークを含む画面を表示することができる。
【0034】
上記第3または第14の局面によれば、第1画面内で1個のノード
を続けて選択することにより、1個の注目語を指定する指示を簡単な操作で入力し、1個の注目語を指定したときの共起ネットワークを含む画面を表示することができる。
【0035】
上記第4または第15の局面によれば、第1画面内で1本のエッジを続けて選択することにより、2個の注目語を指定する指示を簡単な操作で入力し、2個の注目語を指定したときの共起ネットワークを含む画面を表示することができる。
【0036】
上記第5または第16の局面によれば、第1画面内で1本または複数のエッジと分析開始を選択することにより、複数の注目語を指定する指示を簡単な操作で入力し、複数の注目語を指定したときの共起ネットワークを含む画面を表示することができる。
【0037】
上記第6、第17または第20の局面によれば、併合指示が入力されたときに複数の第2共起ネットワークをタブ形式で表示することにより、複数の第2共起ネットワークをコンパクトに表示することができる。
【0038】
上記第7または第18の局面によれば、第2画面内で第2共起ネットワークを掴んで離すことにより、併合指示を簡単な操作で入力し、複数の第2共起ネットワークをコンパクトに表示することができる。
【0039】
上記第8の局面によれば、注目語を指定する指示が入力されたときに、指定されたテキストデータを文単位で分けて限定テキストデータを求め、求めた限定テキストデータに基づく第2共起ネットワークを含む画面を表示することができる。
【0040】
上記第9または第10の局面によれば、複数の注目語についてAND処理またはOR処理を行ったときの第2共起ネットワークを含む画面を表示することができる。
【0041】
上記第11の局面によれば、Jaccard係数を要素とする共起行列を生成することにより、テキストデータに含まれる単語の共起性を好適に分析することができる。
【図面の簡単な説明】
【0042】
【
図1】本発明の実施形態に係るテキストマイニング装置の構成を示すブロック図である。
【
図2】
図1に示すテキストマイニング装置として機能するコンピュータの構成を示すブロック図である。
【
図3】
図1に示すテキストマイニング装置の動作を示すフローチャートである。
【
図4】
図1に示すテキストマイニング装置で生成される共起行列の例を示す図である。
【
図5】
図1に示すテキストマイニング装置が表示する全体共起ネットワークを含むウインドウの例を示す図である。
【
図6】
図5に示すウインドウ内で注目語を指定する第1の操作を示す図である。
【
図7】
図5に示すウインドウ内で注目語を指定する第2の操作を示す図である。
【
図8】
図5に示すウインドウ内で注目語を指定する第3の操作を示す図である。
【
図9】
図5に示すウインドウ内で注目語を指定する第4の操作を示す図である。
【
図10】
図5に示すウインドウ内で注目語を指定する第5の操作を示す図である。
【
図11】
図5に示すウインドウ内で注目語を指定する第6の操作を示す図である。
【
図12】
図1に示すテキストマイニング装置が表示する限定共起ネットワークを含むウインドウの例を示す図である。
【
図13】
図1に示すテキストマイニング装置が表示する限定共起ネットワークを含むウインドウの例を示す図である。
【
図14】
図1に示すテキストマイニング装置の表示画面の例を示す図である。
【
図15】
図1に示すテキストマイニング装置の表示画面の例を示す図である。
【
図16】
図1に示すテキストマイニング装置の表示画面の例を示す図である。
【
図17】
図1に示すテキストマイニング装置におけるウインドウを併合する操作を示す図である。
【
図18】
図17に示す操作を行った後の表示画面を示す図である。
【発明を実施するための形態】
【0043】
以下、図面を参照して、本発明の実施形態に係るテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置について説明する。本実施形態に係るテキストマイニング方法は、典型的にはコンピュータを用いて実行される。本実施形態に係るテキストマイニングプログラムは、コンピュータを用いてテキストマイニング方法を実施するためのプログラムである。本実施形態に係るテキストマイニング装置は、典型的にはコンピュータを用いて構成される。テキストマイニングプログラムを実行するコンピュータは、テキストマイニング装置として機能する。
【0044】
図1は、本発明の実施形態に係るテキストマイニング装置の構成を示すブロック図である。
図1に示すテキストマイニング装置10は、指示入力部11、テキストデータ記憶部12、単語抽出部13、共起行列生成部14、共起ネットワーク生成部15、および、画面表示部16を備えている。テキストマイニング装置10は、テキストデータ記憶部12に記憶されたテキストデータに基づきテキストデータの分析結果として共起ネットワークを生成し、生成した共起ネットワークを含む画面を表示する。
【0045】
テキストマイニング装置10の動作の概要は、以下のとおりである。指示入力部11には、利用者(テキストデータの分析者)からの指示が入力される。テキストデータ記憶部12は、自由記述された1以上のテキストデータを記憶している。単語抽出部13は、テキストデータ記憶部12から指定されたテキストデータを読み出し、読み出したテキストデータに対して形態素解析を行うことにより、テキストデータから単語を抽出する。共起行列生成部14は、単語抽出部13で抽出された単語について共起行列を生成する。共起ネットワーク生成部15は、共起行列生成部14で生成された共起行列に基づき共起ネットワークを生成する。画面表示部16は、共起ネットワーク生成部15で生成された共起ネットワークを含む画面を表示する。
【0046】
利用者は、指示入力部11を用いて、分析対象のテキストデータを指定する指示、注目語を指定する指示などを入力する。単語抽出部13、共起ネットワーク生成部15、および、画面表示部16は、利用者からの指示に従い、共起ネットワークを含む画面を表示するための動作を行う。テキストデータを指定する指示が入力されたときには、指定されたテキストデータの全体に基づく全体共起ネットワークが生成され、全体共起ネットワークを含む画面が表示される。全体共起ネットワークを含む画面内で注目語を指定する指示が入力されたときには、指定されたテキストデータのうち注目語を含む文に基づく限定共起ネットワークが生成され、限定共起ネットワークを含む画面が表示される。
【0047】
図2は、テキストマイニング装置10として機能するコンピュータの構成を示すブロック図である。
図2に示すコンピュータ20は、CPU21、メインメモリ22、記憶部23、入力部24、表示部25、通信部26、および、記録媒体読み取り部27を備えている。メインメモリ22には、例えば、DRAMが使用される。記憶部23には、例えば、ハードディスクやソリッドステートドライブが使用される。入力部24には、例えば、キーボード28やマウス29が含まれる。表示部25には、例えば、液晶ディスプレイが使用される。通信部26は、有線通信または無線通信のインターフェイス回路である。記録媒体読み取り部27は、プログラムなどを記憶した記録媒体30のインターフェイス回路である。記録媒体30には、例えば、CD−ROM、DVD−ROM、USBメモリなどの非一過性の記録媒体が使用される。
【0048】
コンピュータ20がテキストマイニングプログラム31を実行する場合、記憶部23は、テキストマイニングプログラム31とテキストデータ32を記憶する。テキストマイニングプログラム31とテキストデータ32は、例えば、サーバや他のコンピュータから通信部26を用いて受信したものでもよく、記録媒体30から記録媒体読み取り部27を用いて読み出したものでもよい。
【0049】
テキストマイニングプログラム31を実行するときには、テキストマイニングプログラム31とテキストデータ32はメインメモリ22に複写転送される。CPU21は、メインメモリ22を作業用メモリとして利用して、メインメモリ22に記憶されたテキストマイニングプログラム31を実行することにより、テキストデータ32から単語を抽出する処理、抽出した単語について共起行列を生成する処理、生成した共起行列に基づき共起ネットワークを生成する処理、生成した共起ネットワークを含む画面を表示する処理などを行う。このときコンピュータ20は、テキストマイニング装置10として機能する。なお、以上に述べたコンピュータ20の構成は一例に過ぎず、任意のコンピュータを用いてテキストマイニング装置10を構成することができる。
【0050】
図3は、テキストマイニング装置10の動作を示すフローチャートである。
図3に示す動作を行う前に、テキストデータ記憶部12は自由記述された1以上のテキストデータを記憶している。各テキストデータは、複数の文を含んでいる。テキストマイニング装置10は、テキストデータ記憶部12に記憶されたテキストデータのうちで利用者が指定したテキストデータに対して処理を行う。
【0051】
図3において、指示入力部11は、まず利用者からテキストデータを指定する指示を受け取る(ステップS101)。このとき、指示入力部11は、テキストデータを指定する指示に加えて、共起行列の基準値(詳細は後述)を設定する指示、AND処理とOR処理(詳細は後述)を切り替える指示、共起ネットワークの表示態様の詳細を設定する指示などを受け取ってもよい。受け取った指示は、テキストマイニング装置10の各部に対して出力される。
【0052】
次に、単語抽出部13は、テキストデータ記憶部12から指定されたテキストデータを読み出す(ステップS102)。次に、単語抽出部13は、ステップS102で読み出したテキストデータに対して形態素解析を行うことにより、読み出したテキストデータから単語を抽出する(ステップS103)。このとき、単語抽出部13は、読み出したテキストデータから、後の分析で必要となる単語だけを抽出する。次に、共起行列生成部14は、ステップS103で抽出された単語について、ステップS102で読み出されたテキストデータを用いて共起行列を生成する(ステップS104)。
【0053】
図4は、共起行列生成部14で生成された共起行列の例を示す図である。共起行列の要素は、単語のペアについて求めたJaccard係数である。分析対象のテキストデータについて、単語Waを含む文の集合をA、単語Wbを含む文の集合をBとする。単語のペア(Wa,Wb)についてのJaccard係数K(Wa,Wb)は、次式(1)で与えられる。
K(Wa,Wb)=|A∩B|/|A∪B| …(1)
ただし、式(1)において、記号∩は積集合を求める演算を表し、記号∪は和集合を求める演算を表し、|S|は集合Sに含まれる要素の個数を表す。
【0054】
共起行列生成部14は、ステップS104において、ステップS102で読み出されたテキストデータの全体から抽出された単語のペアのすべてについてJaccard係数を求め、求めたJaccard係数を要素とする共起行列を生成する。共起行列の行および列は、ステップS102で読み出されたテキストデータの全体から抽出された単語の種類に対応する。読み出されたテキストデータの全体からn種類の単語が抽出されたとき、ステップS104で生成される共起行列は、対角要素がすべて1であるn行n列の対称行列である。
【0055】
なお、共起行列生成部14は、テキストデータを文以外の単位で分けてJaccard係数を求めてもよい。例えば、共起行列生成部14は、単語Waを含む段落の集合をA、単語Wbを含む段落の集合をBとして、式(1)に従いJaccard係数を求めてもよい。また、テキストデータに含まれる文が日付を有する場合には、共起行列生成部14は、テキストデータを同じ日付を有する文からなる複数の部分に分け、単語Waを含む部分の集合をA、単語Wbを含む部分の集合をBとして、式(1)に従いJaccard係数を求めてもよい。また、共起行列生成部14は、単語の共起性を示す他の値(例えば、Simpson係数やコサイン距離など)を要素として含む共起行列を生成してもよい。
【0056】
次に、共起ネットワーク生成部15は、ステップS104で生成された共起行列に基づき、全体共起ネットワークを生成する(ステップS105)。次に、画面表示部16は、ステップS105で生成された全体共起ネットワークを含む画面を表示する(ステップS106)。
図5は、ステップS106で表示される、全体共起ネットワークを含むウインドウの例を示す図である。
図5に示すウインドウ41は、全体共起ネットワーク51と分析ボタン61を含んでいる。分析ボタン61は、分析開始を指示するために設けられる。
【0057】
共起ネットワーク生成部15は、共起行列の基準値(以下、Vとする)を有している。基準値Vは、予め決定された値でもよく、指示入力部11を用いて利用者から設定された値でもよい。ステップS104で生成された共起行列において、単語Waに対応する行に含まれるJaccard係数K(Wa,*)の最大値が基準値V以上である場合、共起ネットワーク生成部15は単語Waに対応するノード(単語Waと記載したノード)を全体共起ネットワークに含める。また、ステップS104で生成された共起行列において、単語のペア(Wa,Wb)に係るJaccard係数K(Wa,Wb)が基準値V以上である場合、共起ネットワーク生成部15は単語Waに対応するノードと単語Wbに対応するノードとを接続するエッジを全体共起ネットワークに含める。
【0058】
図5に示す全体共起ネットワーク51では、出現頻度が大きい単語に対応するノードは大きく表示されている。共起ネットワークを含む画面を表示するときに、Jaccard係数K(Wa,Wb)が大きいときに、単語Waに対応するノードと単語Wbに対応するノードとを接続するエッジを太く表示してもよい。また、Jaccard係数に応じて、エッジの色を切り替えてもよく、エッジの太さと色の両方を切り替えてもよい。共起ネットワークは、エッジを介して到達可能な複数の部分に分けられる。共起ネットワークを含む画面を表示するときに、各部分に含まれる複数のノードを各部分に割り当てた色で表示してもよい。なお、共起ネットワークに含まれるノードとエッジの位置に意味はない。
【0059】
次に、指示入力部11は、利用者から注目語を指定する指示を受け取る(ステップS111)。ステップS111を実行するときには、全体共起ネットワークを含む画面が表示されている。利用者は、マウス29を操作して、全体共起ネットワークの要素を選択することにより、注目語を指定する指示を入力する。なお、利用者は、指示を入力するときに、マウス29に代えてキーボード28を用いてもよく、表示画面に直接触れるなどの操作を行ってもよい。以下、ステップS111を実行するときに、
図5に示すウインドウ41を含む画面が表示されているとする。
【0060】
図6〜
図11は、それぞれ、ウインドウ41内で注目語を指定する第1〜第6の操作を示す図である。
図6〜
図11において、吹き出しは操作の手順を示し、白い矢印はマウスカーソル62の移動を示す。吹き出しおよび矢印は、実際の画面には表示されない。以下、マウスカーソル62が表示画面内のある要素の上にあるときにマウス29のボタンをクリック(ダブルクリック)することを「要素をクリック(ダブルクリック)する」という。
【0061】
図6に示すように、利用者は、ウインドウ41内でまず注目語として指定する単語(ここでは「露天風呂」)に対応するノードをクリックし(1回目のクリック)、次に分析ボタン61をクリックする(2回目のクリック)。この操作により、1回目にクリックされたノードに対応する単語が注目語として指定される。このように全体共起ネットワークを含む画面内で全体共起ネットワークに含まれる1個のノードを選択し、分析開始を選択することにより、1個の注目語を指定する指示が入力される。
【0062】
図7に示すように、利用者は、ウインドウ41内で注目語として指定する単語(ここでは「露天風呂」)に対応するノードをダブルクリックする。この操作により、ダブルクリックされたノードに対応する単語が注目語として指定される。このように全体共起ネットワークを含む画面内で全体共起ネットワークに含まれる1個のノードを続けて選択することにより、1個の注目語を指定する指示が入力される。
【0063】
図8に示すように、利用者は、ウインドウ41内でまず注目語として指定する単語(ここでは「露天風呂」)に対応するノードをクリックし(1回目のクリック)、次に注目語として指定する別の単語(ここでは「値段」)に対応するノードをクリックし(2回目のクリック)、最後に分析ボタン61をクリックする(最後のクリック)。この操作により、1回目と2回目にクリックされたノードに対応する2個の単語が注目語として指定される。利用者は、ウインドウ41内でp個(pは3以上の整数)のノードを順にクリックし、最後に分析ボタン61をクリックしてもよい。この操作により、p個のノードに対応するp個の単語が注目語として指定される。このように全体共起ネットワークを含む画面内で全体共起ネットワークに含まれる複数のノードを選択し、分析開始を選択することにより、複数の注目語を指定する指示が入力される。
【0064】
図9に示すように、利用者は、ウインドウ41内で注目語として指定する2個の単語(ここでは「露天風呂」と「階段」)に対応する2個のノードを接続するエッジをダブルクリックする。これにより、ダブルクリックされたエッジに接続された2個のノードに対応する2個の単語が注目語として指定される。このように全体共起ネットワークを含む画面内で全体共起ネットワークに含まれる1個のエッジを続けて選択することにより、2個の注目語を指定する指示が入力される。
【0065】
図10に示すように、利用者は、ウインドウ41内でまず注目語として指定する2個の単語(ここでは「露天風呂」と「階段」)に対応する2個のノードを接続するエッジをクリックし(1回目のクリック)、次に分析ボタン61をクリックする(2回目のクリック)。これにより、1回目にクリックされたエッジに接続された2個のノードに対応する2個の単語が注目語として指定される。このように全体共起ネットワークを含む画面内で全体共起ネットワークに含まれる1個のエッジを選択し、分析開始を選択することにより、2個の注目語を指定する指示が入力される。
【0066】
図11に示すように、利用者は、ウインドウ41内でまず注目語として指定する2個の単語(ここでは「露天風呂」と「階段」)に対応する2個のノードを接続するエッジをクリックし(1回目のクリック)、次に注目語として指定する別の2個の単語(ここでは「値段」と「考える」)に対応する2個のノードを接続するエッジをクリックし(2回目のクリック)、最後に分析ボタン61をクリックする(最後のクリック)。この操作により、1回目と2回目にクリックされた2個のエッジに接続された4個のノードに対応する4個の単語が注目語として指定される。利用者は、ウインドウ41内でq本(qは3以上の整数)のエッジを順にクリックし、最後に分析ボタン61をクリックしてもよい。この操作により、q本のエッジに接続された2q個のノードに対応する2q個の単語が注目語として指定される。このように全体共起ネットワークを含む画面内で全体共起ネットワークに含まれる複数のエッジを選択し、分析開始を選択することにより、複数の注目語を指定する指示が入力される。
【0067】
指示入力部11は、ステップS111において、注目語を指定する指示に加えて、共起行列の基準値を設定する指示、AND処理とOR処理を切り替える指示、共起ネットワークの表示態様の詳細を設定する指示などを受け取ってもよい。受け取った指示は、テキストマイニング装置10の各部に対して出力される。
【0068】
次に、単語抽出部13は、ステップS102で読み出したテキストデータからステップS111で指定された注目語を含む文を抽出することにより、注目語を含む文からなる限定テキストデータを求める(ステップS112)。
【0069】
単語抽出部13は、複数の注目語が指定された場合にAND処理とOR処理のうちいずれを行うかを示すフラグを有している。フラグの値は、予め決定された値でもよく、指示入力部11を用いて利用者から設定された値でもよい。フラグがAND処理を示す場合、単語抽出部13は、読み出したテキストデータから指定された複数の注目語のすべてを含む文を抽出することにより、限定テキストデータを求める。フラグがOR処理を示す場合、単語抽出部13は、読み出したテキストデータから指定されたいずれかの注目語を含む文を抽出することにより、限定テキストデータを求める。
【0070】
次に、単語抽出部13は、ステップS112で求めた限定テキストデータに対して形態素解析を行うことにより、限定テキストデータから単語を抽出する(ステップS113)。次に、共起行列生成部14は、ステップS113で抽出された単語について、ステップS112で求められた限定テキストデータを用いて共起行列を生成する(ステップS114)。次に、共起ネットワーク生成部15は、ステップS114で生成された共起行列に基づき、限定共起ネットワークを生成する(ステップS115)。なお、ステップS103〜S105とステップS113〜S115の間では、処理対象は異なるが、処理内容は同じである。
【0071】
一般に、ステップS112で求められた限定テキストデータから抽出される単語の種類は、ステップS102で読み出されたテキストデータから抽出される単語の種類よりも少ない。ステップS114で生成された共起行列は、ステップS104で生成された共起行列とは異なる。ステップS115で生成された限定共起ネットワークは、ステップS105で生成された全体共起ネットワークとは異なる。
【0072】
次に、画面表示部16は、ステップS115で生成された限定共起ネットワークを含む画面を表示する(ステップS116)。
図12および
図13は、ステップS116で表示される、限定共起ネットワークを含むウインドウの例を示す図である。
図12に示すウインドウ42は、1個の注目語(ここでは「露天風呂」)を指定したときの限定共起ネットワーク52を含んでいる。
図13に示すウインドウ43は、2個の注目語(ここでは「露天風呂」と「浴場」)を指定したときの限定共起ネットワーク53を含んでいる。
【0073】
図14および
図15は、テキストマイニング装置10の表示画面の例を示す図である。画面表示部16は、全体共起ネットワークを含むウインドウと限定共起ネットワークを含むウインドウとを重ねずに並べて表示してもよく、両者を重ねて表示してもよい。
図14に示す画面71では、全体共起ネットワーク51を含むウインドウ41と限定共起ネットワーク52を含むウインドウ42とは、重ねずに並べて表示されている。利用者は、画面71において、全体共起ネットワーク51と限定共起ネットワーク52を同時に見ることができる。
図15に示す画面72では、限定共起ネットワーク52を含むウインドウ42は、全体共起ネットワーク51を含むウインドウ41に重ねて表示されている。利用者は、画面72において、全体共起ネットワーク51と限定共起ネットワーク52を切り替えて見ることができる。
【0074】
次に、指示入力部11は、利用者から指示を受け取る(ステップS121)。次に、テキストマイニング装置10は、ステップS121で受け取った指示が注目語を指定する指示か否かを判断する(ステップS122)。ステップS122でYesの場合、テキストマイニング装置10の制御はステップS112へ進む。この場合、ステップS121で指定された注目語についてステップS112〜S116が実行され、ステップS121で指定された注目語を含む文からなる限定テキストデータに基づく限定共起ネットワークを含む画面が表示される。
【0075】
図16は、テキストマイニング装置10の表示画面の例を示す図である。
図16に示す画面73では、全体共起ネットワーク51を含むウインドウ41と限定共起ネットワーク52を含むウインドウ42とに重ねて、注目語として「浴場」を指定したときの限定共起ネットワーク54を含むウインドウ44が表示されている。画面73は、ステップS111で「露天風呂」を注目語として指定し、ステップS121で「浴場」を注目語として指定したときに表示される。利用者は、画面73において、全体共起ネットワーク51と限定共起ネットワーク52、54を切り替えて見ることができる。
【0076】
ステップS122でNoの場合、テキストマイニング装置10の制御はステップS123へ進む。この場合、ステップS121で受け取った指示は、例えば、ウインドウを移動させる指示、ウインドウを非表示にする指示、ウインドウを閉じる指示、ウインドウを併合する指示などである。利用者は、全体共起ネットワークと限定共起ネットワークを含む画面が表示されているときに指示入力部11を操作することにより、これらの指示を入力する。画面表示部16は、ステップS121で受け取った指示に従い、更新後の画面を表示する(ステップS123)。その後、テキストマイニング装置10の制御は、ステップS121へ進む。
【0077】
図17は、ウインドウを併合する操作を示す図である。
図17に示す画面74には、「露天風呂」を注目語として指定したときの限定共起ネットワーク52を含むウインドウ42と、「浴場」を注目語として指定したときの限定共起ネットワーク54を含むウインドウ44とが表示されている。利用者は、画面74において、2個の限定共起ネットワーク52、54を同時に見ることができる。
【0078】
図17に示すハッチング付き矢印は、マウス29のボタンが押された状態でマウスカーソル62が移動したことを示す。この矢印は、実際の画面には表示されない。利用者は、画面74内で限定共起ネットワーク52を掴んで限定共起ネットワーク54内で離す操作(ドロップ操作)を行う。より詳細には、利用者は、マウスカーソル62がウインドウ42内にあるときにマウス29のボタンを押し、マウス29のボタンを押したままでマウスカーソル62をウインドウ44内まで移動させて、マウスカーソル62がウインドウ44内にあるときにマウス29のボタンを離す。この操作により、ウインドウを併合する指示が入力される。
【0079】
図18は、
図17に示す操作を行った後の表示画面を示す図である。
図18に示す画面75には、複数の限定共起ネットワークをタブ形式で表示するウインドウ45が表示されている。
図18では、「露天風呂」と記載したタブ64が選択され、ウインドウ45には「露天風呂」を注目語として指定したときの限定共起ネットワーク52が表示されている。「浴場」と記載したタブ63が選択されたときには、ウインドウ45には
図17に示す限定共起ネットワーク54が表示される。
【0080】
利用者がウインドウ45内の閉じるボタン(×印)をクリックしたときに、ウインドウ45は閉じる。利用者がタブ63内の閉じるボタンをクリックしたときには、タブ63は表示されなくなる。利用者がタブ64内の閉じるボタンをクリックしたときには、タブ64は表示されなくなり、ウインドウ45には限定共起ネットワーク54が表示される。
【0081】
以上に示すように、本実施形態に係るテキストマイニング方法は、テキストデータから単語を抽出するステップ(ステップS102、S103、S112、S113)と、抽出した単語について共起行列を生成するステップ(ステップS104、S114)と、生成した共起行列に基づき共起ネットワークを生成するステップ(ステップS105、S115)と、共起ネットワークを含む画面を表示するステップ(ステップS106、S116)とを備えている。指定されたテキストデータの全体に基づく第1共起ネットワーク(全体共起ネットワーク51)を含む第1画面(ウインドウ41を含む画面)内で注目語を指定する指示が入力されたときに、単語を抽出するステップ(ステップS112、S113)は指定されたテキストデータのうち注目語を含む部分(注目語を含む文)からなる限定テキストデータから単語を抽出し、共起行列を生成するステップ(ステップS114)は抽出した単語について限定テキストデータを用いて第2共起行列を生成し、共起ネットワークを生成するステップ(ステップS115)は第2共起行列に基づき第2共起ネットワーク(限定共起ネットワーク52〜54)を生成し、画面を表示するステップ(ステップS116)は第2共起ネットワークを含む第2画面(ウインドウ42〜45を含む画面)を表示する。このように本実施形態に係るテキストマイニング方法では、指定されたテキストデータの全体に基づく第1共起ネットワークを含む第1画面内で注目語を指定する指示が入力されたときに、指定されたテキストデータのうち注目語を含む部分に基づく第2共起ネットワークを含む第2画面が表示される。したがって、注目語を指定したときの共起ネットワークを含む画面を簡単な操作で表示することができる。
【0082】
また、第1画面内で第1共起ネットワークに含まれる1個または複数のノードを選択し、分析開始を選択することにより、ノードに対応する単語を注目語として指定する指示が入力される(
図6、
図8)。このように第1画面内で1個または複数のノードと分析開始を選択することにより、1個または複数の注目語を指定する指示を簡単な操作で入力し、1個または複数の注目語を指定したときの共起ネットワークを含む画面を表示することができる。また、第1画面内で第1共起ネットワークに含まれる1個のノードを続けて選択することにより、ノードに対応する単語を注目語として指定する指示が入力される(
図7)。このように第1画面内で1個のノード
を続けて選択することにより、1個の注目語を指定する指示を簡単な操作で入力し、1個の注目語を指定したときの共起ネットワークを含む画面を表示することができる。
【0083】
また、第1画面内で第1共起ネットワークに含まれる1本のエッジを
続けて選択することにより、エッジに接続された2個のノードに対応する単語を注目語として指定する指示が入力される(
図9)。このように第1画面内で1本のエッジを続けて選択することにより、2個の注目語を指定する指示を簡単な操作で入力し、2個の注目語を指定したときの共起ネットワークを含む画面を表示することができる。また、第1画面内で第1共起ネットワークに含まれる1本または複数のエッジを選択し、分析開始を選択することにより、エッジに接続された複数のノードに対応する単語を注目語として指定する指示が入力される(
図10、
図11)。このように第1画面内で1本または複数のエッジと分析開始を選択することにより、複数の注目語を指定する指示を簡単な操作で入力し、複数の注目語を指定したときの共起ネットワークを含む画面を表示することができる。
【0084】
また、複数の第2共起ネットワーク(限定共起ネットワーク52、54)を含む第2画面(画面74)内で併合指示が入力されたときに(
図17)、画面を表示するステップは、複数の第2共起ネットワークをタブ形式で表示する(
図18)。これにより、複数の第2共起ネットワークをコンパクトに表示することができる。また、第2画面内で一の第2共起ネットワーク(限定共起ネットワーク52)を掴んで他の第2共起ネットワーク(限定共起ネットワーク54)内で離すことにより、併合指示が入力される。したがって、併合指示を簡単な操作で入力し、複数の第2共起ネットワークをコンパクトに表示することができる。
【0085】
限定テキストデータは、指定されたテキストデータのうち注目語を含む文から構成されていてもよい。この場合、注目語を指定する指示が入力されたときに、指定されたテキストデータを文単位で分けて限定テキストデータを求め、求めた限定テキストデータに基づく第2共起ネットワークを含む画面を表示することができる。複数の注目語が指定されたときの限定テキストデータは、指定されたテキストデータのうち複数の注目語のすべてを含む文から構成されていてもよい。この場合、複数の注目語についてAND処理を行ったときの第2共起ネットワークを含む画面を表示することができる。複数の注目語が指定されたときの限定テキストデータは、指定されたテキストデータのうち複数の注目語のいずれかを含む文から構成されていてもよい。この場合、複数の注目語についてOR処理を行ったときの第2共起ネットワークを含む画面を表示することができる。また、共起行列を生成するステップは、Jaccard係数を要素とする共起行列を生成する。したがって、テキストデータに含まれる単語の共起性を好適に分析することができる。
【0086】
本実施形態に係るテキストマイニング装置10およびテキストマイニングプログラム31は、上記のテキストマイニング方法と同様の特徴を有し、同様の効果を奏する。本実施形態に係るテキストマイニング方法、テキストマイニング装置10、および、テキストマイニングプログラム31によれば、注目語を指定したときの共起ネットワークを含む画面を簡単な操作で表示することができる。
【符号の説明】
【0087】
10…テキストマイニング装置
11…指示入力部
12…テキストデータ記憶部
13…単語抽出部
14…共起行列生成部
15…共起ネットワーク生成部
16…画面表示部
20…コンピュータ
21…CPU
22…メインメモリ
29…マウス
30…記録媒体
31…テキストマイニングプログラム
32…テキストデータ
41〜45…ウインドウ
51…全体共起ネットワーク
52〜54…限定共起ネットワーク
61…分析ボタン
62…マウスカーソル
63〜64…タブ
71〜75…画面