特許第5772599号(P5772599)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許5772599テキストマイニングシステム、テキストマイニング方法および記録媒体
<>
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000006
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000007
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000008
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000009
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000010
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000011
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000012
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000013
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000014
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000015
  • 特許5772599-テキストマイニングシステム、テキストマイニング方法および記録媒体 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5772599
(24)【登録日】2015年7月10日
(45)【発行日】2015年9月2日
(54)【発明の名称】テキストマイニングシステム、テキストマイニング方法および記録媒体
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150813BHJP
【FI】
   G06F17/30 210D
   G06F17/30 170A
   G06F17/30 220Z
【請求項の数】10
【全頁数】18
(21)【出願番号】特願2011-547583(P2011-547583)
(86)(22)【出願日】2010年12月15日
(86)【国際出願番号】JP2010073059
(87)【国際公開番号】WO2011078194
(87)【国際公開日】20110630
【審査請求日】2013年11月14日
(31)【優先権主張番号】特願2009-294763(P2009-294763)
(32)【優先日】2009年12月25日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100124154
【弁理士】
【氏名又は名称】下坂 直樹
(72)【発明者】
【氏名】石川 開
(72)【発明者】
【氏名】安藤 真一
(72)【発明者】
【氏名】田村 晃裕
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2006−323443(JP,A)
【文献】 特開2005−326922(JP,A)
【文献】 国際公開第2008/062822(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 19/00
G06Q 50/00
(57)【特許請求の範囲】
【請求項1】
テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する分析対象データ対探索部と、
共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する分析観点生成部と、
生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する正例集合特定部と、
分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する特徴量計算部と、
計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する特徴表現順位生成部とを備え、
前記分析対象データ対探索部は、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する
テキストマイニングシステム。
【請求項2】
分析対象データ対探索部は、三つ以上の分析対象データを入力し、該分析対象データの中から、表現に共通性のある二つの分析対象データを分析対象データ対として探索し、各分析対象データ対に対して、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する
請求項1記載のテキストマイニングシステム。
【請求項3】
各分析対象データは、各テキストデータ中の表現の属性を示す属性情報が、属性値として当該表現に対応付けられて付与されている、又は、該テキストデータから抽出される、
請求項1又は請求項2記載のテキストマイニングシステム。
【請求項4】
分析対象データ対探索部は、前記複数の分析対象データから抽出される特徴表現リスト中に共通の各表現の特徴表現順位の差の平均値が所定の閾値より大きい場合に、当該複数の分析対象データの間での差異が所定の閾値以上であると判定する
請求項1から請求項3のうちのいずれか1項に記載のテキストマイニングシステム。
【請求項5】
分析観点生成部は、各々の分析対象データの分析の観点のうち、複数の分析対象データで同一の分析の観点、又は、該複数の分析対象データの間で所定の関係がある分析の観点を当該複数の分析対象データに共通の分析の観点と特定する
請求項1から請求項4のうちのいずれか1項に記載のテキストマイニングシステム。
【請求項6】
正例集合特定部は、前記複数の分析対象データの各々から分析の観点に合致する正例集合を特定した後、特定した正例集合の数が所定数以上となる場合に前記正例集合を出力する
請求項1から請求項5のうちのいずれか1項に記載のテキストマイニングシステム。
【請求項7】
分析観点生成部は、分析の観点として、各分析対象データ中のテキストデータに付与されている、又は、該テキストデータから抽出される、属性情報に対して、該属性情報が示す属性が取りうる値の範囲の条件として記述される情報を生成する
請求項1から請求項6のうちのいずれか1項に記載のテキストマイニングシステム。
【請求項8】
分析対象データ対探索部は、複数の分析対象データの表現の共通性について、当該複数の分析対象データ中のテキストデータに含まれる各表現の重複の度合いが所定の閾値よりも大きい場合に、該複数の分析対象データの表現には共通性があると判定する
請求項1から請求項7のうちのいずれか1項に記載のテキストマイニングシステム。
【請求項9】
コンピュータに具備された分析対象データ対探索手段が、テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別し、
前記コンピュータに具備された分析観点生成手段が、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成し、
前記コンピュータに具備された正例集合特定手段が、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定し、
前記コンピュータに具備された特徴量計算手段が、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算し、
前記コンピュータに具備された特徴表現順位生成手段が、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与し、
前記分析対象データ対探索手段は、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する
テキストマイニング方法。
【請求項10】
コンピュータに、
テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する処理と、
共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する処理と、
生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する処理と、
分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する処理と、
計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する処理と
各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する処理とを
実行させるためのテキストマイニング用プログラ

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストマイニングシステム、テキストマイニング方法および記録媒体に関する。
【背景技術】
【0002】
複数の分析対象データを対象とする分析を目的とした、テキストマイニングシステムの一例が、特許文献1に記載されている。
このテキストマイニングシステムが分析の対象とするデータとは、具体的には、以下に挙げるデータを含んでいる。そのデータとは、“2000年から2009年までの4月のデータ”などといった、異なる期間に取得された複数の分析対象データである。また例えばそのデータとは、コールセンターの通話テキスト、応対履歴、電子メール、Web(World Wide Web)上の様々な電子掲示板(以下、掲示板とも記される)、アンケートなど、様々な異なる手段によって取得された複数の分析対象データである。
このテキストマイニングシステムは、図1に示すように、入力装置10と、出力装置20と、データ処理装置30と、記憶装置40とから構成されている。
また、記憶装置40は、分析対象データ記憶手段41と、特徴表現リスト記憶手段42とから構成される。分析対象データ記憶手段41は、二つ以上のテキストデータ集合を分析対象データとして記憶する。特徴表現リスト記憶手段42は、特徴表現抽出手段によって得られた特徴表現及びその特徴度の集合を特徴表現リストとして記憶する。
また、データ処理装置30は、特徴表現抽出手段31と、比較設定手段32と、比較一覧表示手段33と、比較特徴抽出手段34とから構成される。特徴表現抽出手段31は、各分析対象データから特徴表現及びその特徴度の集合を特徴表現リストとして抽出する。比較設定手段32は、分析者の入力情報に基づき比較条件を設定する。比較一覧表示手段33は、比較分析の対象とする分析対象データの特徴表現リストを比較一覧として表示する。比較特徴抽出手段34は、設定された比較条件にしたがって比較一覧から比較分析を実行し、比較特徴を抽出する。
このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、特徴表現抽出手段31は、二つ以上の分析対象データから特徴表現を抽出する処理を実行し、抽出した特徴表現及びその特徴度の集合を特徴表現リストとして特徴表現リスト記憶手段42に記憶させる。次に、比較設定手段32が分析者の入力情報に基づき比較条件を設定すると、比較一覧表示手段33は、分析対象とする分析対象データの特徴表現リストを比較一覧として表示するように制御する。また、比較特徴抽出手段34は、比較条件にしたがって同比較一覧から比較分析を行い、比較特徴を抽出して出力するように動作する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−165754号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記の各システムの問題点は、以下のとおりである。複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析することがある。この場合に上記の各システムは分析者の分析にかかる時間や手間など(以下、分析コストとも記される)が著しく大きくなるという問題がある。
その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データ間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析するためには、異なる二つの分析対象データから構成されるすべての分析対象データ対について比較分析を行なう必要があることである。さらに、各分析対象データ対の比較分析においては、対を成す両分析対象データに対して、あらゆる共通の分析の観点を設定し、いずれかで差異を生じるかどうかを網羅的に分析する必要がある。第二の理由は、分析対象データ対と分析の観点との組み合わせにより分析コストが著しく増加することである。
そこで、本発明は、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく、かつ分析者の分析コストを抑えて分析を行うことができるテキストマイニングシステム、テキストマイニング方法および記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明の一態様によるテキストマイニングシステムは、テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する分析対象データ対探索部と、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する分析観点生成部と、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する正例集合特定部と、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する特徴量計算部と、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する特徴表現順位生成部とを備え、前記分析対象データ対探索部は、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する。
本発明の一態様におけるテキストマイニング方法は、テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別し、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成し、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定し、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算し、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与し、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する。
本発明の一態様における記録媒体は、コンピュータに、テキストデータを含む複数の分析対象データの当該テキストデータ中の表現に共通性があるか否かを判別する処理と、共通性があると判別した複数の分析対象データに対して、当該複数の分析対象データが含むテキストデータのうち所定の条件を満たす表現である特徴表現の集合である特徴表現リストが当該分析対象データ間で異なるように、表現を抽出する条件である分析の観点を生成する処理と、生成した分析の観点に合致する表現を含む集合である正例集合を分析対象データから特定する処理と、分析対象データ中の各表現が前記正例集合に対して特徴的な表現である度合いを示す特徴量を計算する処理と、計算した特徴量が所定の閾値以上である表現を特徴表現として抽出し、抽出した特徴表現に対して当該特徴量の大きい順に順位を付与する処理と、各特徴表現にそれぞれ付与されている順位の当該複数の分析対象データの間での差異が所定の閾値以上である分析の観点を抽出する処理とを実行させるためのプログラムを記録する。
【発明の効果】
【0006】
本発明によれば、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく、かつ分析者の分析コストを抑えて分析を行うことができる。
【図面の簡単な説明】
【0007】
図1図1は、テキストマイニングシステムの構成例を示すブロック図である。
図2図2は、テキストマイニングシステムの構成例を示すブロック図である。
図3図3は、本発明によるテキストマイニングシステムの構成例を示すブロック図である。
図4図4は、テキストマイニングシステムが実行する動作例を示す流れ図である。
図5図5は、分析対象データ「板A」の具体例を示す説明図である。
図6図6は、分析対象データ対の具体例を示す説明図である。
図7図7は、分析対象データ「板A」に対する分析の観点の具体例を示す説明図である。
図8図8は、分析対象データ「板B」に対する分析の観点の具体例を示す説明図である。
図9図9は、二つの分析対象データ「板A」と「板B」との分析の観点の間に定められた対応関係の具体例を示す説明図である。
図10図10は、分析対象データ「板A」と分析の観点「評価=[1,2,3]&年齢=[30−39]」とから得られた特徴語リストの具体例を示す説明図である。
図11図11は、テキストマイニングシステムの最小の機能構成例を示す機能ブロック図である。
【発明を実施するための形態】
【0008】
次に、本発明によるテキストマイニングシステムの実施形態について図面を参照して説明する。図3は、本実施形態におけるテキストマイニングシステムの構成の一例を示すブロック図である。
図3を参照すると、本実施形態におけるテキストマイニングシステムは、プログラム制御により動作するコンピュータ100(例えば、中央処理装置やプロセッサ、データ処理装置によって実現される)と、入力部110と、出力部120とを含む。
コンピュータ100は、分析対象データ対探索部101と、分析観点生成部102と、正例集合特定部103と、特徴量計算部104と、特徴表現順位生成部105と、特徴表現順位変動量評価部106とを含む。これらの各部はそれぞれつぎのように動作する。
分析対象データ対探索部101は、具体的には、プログラムに従って動作する情報処理装置のCPU(Central Processing Unit)によって実現される。分析対象データ対探索部101は、入力部110から、複数の分析対象データを入力し、同複数の分析対象データから、二つの分析対象データを含む分析対象データ対を複数生成する機能を備えている。分析対象データ対探索部101は、生成した複数の分析対象データ対を分析観点生成部102に出力する機能を備えている。分析対象データ対探索部101は、分析観点生成部102から特徴表現順位変動量の大きな分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に複数入力する機能を備えている。分析対象データ対探索部101は、分析観点生成部102から入力した分析対象データ対を、差異を有する分析対象データ対と判断する機能を備えている。そして分析対象データ対探索部101は、その分析対象データ対の各分析対象データから抽出される特徴表現リストをマイニング結果として、出力部120に出力する機能を備えている。
分析観点生成部102は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。分析観点生成部102は、分析対象データ対探索部101から、複数の分析対象データ対を入力し、同複数の分析対象データ対の両分析対象データに対して設定可能な共通の分析の観点を探索する機能を備えている。そして分析観点生成部102は、この機能により、探索した分析対象データ対と分析の観点との組を複数生成する機能を備えている。分析観点生成部102は、生成した複数の分析対象データ対と分析の観点との組を正例集合特定部103に出力する機能を備えている。分析観点生成部102は、特徴表現順位変動量評価部106から複数の分析対象データ対と分析の観点との組を、分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に入力する機能を備えている。分析観点生成部102は、特徴表現順位変動量評価部106から入力した特徴表現順位変動量の値が大きな分析対象データ対と分析の観点との組に対して、以下の処理を行う機能を備えている。すなわち、分析観点生成部102は、その分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に分析対象データ対探索部101に出力する機能を備えている。
正例集合特定部103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。正例集合特定部103は、分析観点生成部102から、分析対象データ対と分析の観点との組を複数入力する機能を備えている。正例集合特定部103は、分析観点生成部102から入力される各分析対象データ対と分析の観点との組に対して、以下の処理を実行する機能を備えている。すなわち、正例集合特定部103は、その分析対象データ対に含まれる両分析対象データの分析の観点に対する正例のテキスト集合(以下、正例集合とも記される)を特定する機能を備えている。正例集合特定部103は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と特定した正例のテキスト集合と共に特徴量計算部104に出力する機能を備えている。なお、正例のテキスト集合とは、分析の観点に合致するテキストの集合である。
特徴量計算部104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴量計算部104は、正例集合特定部103から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と正例のテキスト集合と共に入力する機能を備えている。特徴量計算部104は、各分析対象データのテキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する機能を備えている。特徴量計算部104は、分析対象データごとに表現と計算した特徴量との対を複数抽出する機能を備えている。そして特徴量計算部104は、分析対象データごとに抽出した表現と計算した特徴量との複数の対を特徴表現リストとして、各分析対象データ対と分析の観点との組と共に、特徴表現順位生成部105に出力する機能を備えている。
特徴表現順位生成部105は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴表現順位生成部105は、特徴量計算部104から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に入力する機能を備えている。特徴表現順位生成部105は、各特徴表現リスト中のすべての特徴表現に対して、特徴量の値の高い順に順序付けられた順位である特徴表現順位を付与する機能を備えている。特徴表現順位生成部105は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に、特徴表現順位変動量評価部106に出力する機能を備えている。
特徴表現順位変動量評価部106は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。特徴表現順位変動量評価部106は、特徴表現順位生成部105から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に入力する機能を備えている。特徴表現順位変動量評価部106は、両分析対象データの特徴表現リストと特徴表現順位とから、両分析対象データに対して、各表現の特徴表現順位が統計的に変動する度合いである特徴表現順位変動量を求める機能を備えている。特徴表現順位変動量評価部106は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に、分析観点生成部102に出力する機能を備えている。
入力部110は、具体的には、キーボードやマウス等の入力装置によって実現される。入力部110は、分析者の操作に従って分析対象データ等を入力する機能を備えている。
出力部120は、具体的には、ディスプレイ装置等の表示装置によって実現される。出力部120は、分析対象データ対探索部101が出力したデータを表示部に表示する機能を備えている。なお、本実施形態では、出力部120は、データを表示部に表示するが、例えば、データをファイル出力するものであってもよい。
次に、図3及び図4を参照して本発明の実施形態の全体の動作について説明する。図4は、本実施形態におけるテキストマイニングシステムが実行する処理例を示すフローチャートである。
複数のデータを分析するために、分析者が入力部110を用いて入力操作をすると、入力部110は、分析者の操作に従って、複数の分析対象データを入力する。分析対象データ対探索部101は、入力部110から、複数の分析対象データを入力する。分析対象データ対探索部101は、入力部110から入力した複数の分析対象データから、二つの分析対象データを含む分析対象データ対を複数生成する。そして、分析対象データ対探索部101は、生成した複数の分析対象データ対を分析観点生成部102に出力する(図4のステップA1)。
次に、分析観点生成部102は、分析対象データ対探索部101から、複数の分析対象データ対を入力する。分析観点生成部102は分析対象データ対探索部101から入力した複数の分析対象データ対の両分析対象データに対して設定可能な共通の分析の観点を探索することにより、分析対象データ対と分析の観点との組を複数生成する。そして、分析観点生成部102は、生成した複数の分析対象データ対と分析の観点との組を正例集合特定部103に出力する(ステップA2)。
次に、正例集合特定部103は、分析観点生成部102から、分析対象データ対と分析の観点との組を複数入力する。正例集合特定部103は、各分析対象データ対と分析の観点との組に対して、分析対象データ対に含まれる両分析対象データの分析の観点に対する正例集合を特定する。そして、正例集合特定部103は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と特定した正例のテキスト集合と共に特徴量計算部104に出力する(ステップA3)。
次に、特徴量計算部104は、正例集合特定部103から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と正例のテキスト集合と共に入力する。次に、特徴量計算部104は、各分析対象データのテキスト中の各表現に対して、全テキスト集合と正例のテキスト集合とでの出現の統計的差異から、表現に対する特徴量を計算する。そして、特徴量計算部104は、分析対象データごとに表現と特徴量との対を複数抽出する。そして特徴量計算部104は、分析対象データごとに抽出した表現と計算した特徴量との複数の対を特徴表現リストとして、各分析対象データ対と分析の観点との組と共に、特徴表現順位生成部105に出力する(ステップA4)。
次に、特徴表現順位生成部105は、特徴量計算部104から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に入力する。次に、特徴表現順位生成部105は、各特徴表現リスト中のすべての特徴表現に対して、特徴量の値の高い順に順序付けられた順位である特徴表現順位を付与する。そして、特徴表現順位生成部105は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に、特徴表現順位変動量評価部106に出力する(ステップA5)。
次に、特徴表現順位変動量評価部106は、特徴表現順位生成部105から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に入力する。次に、特徴表現順位変動量評価部106は、同両分析対象データの特徴表現リストと特徴表現順位とから、両分析対象データに対して、各表現の特徴表現順位が統計的に変動する度合いである特徴表現順位変動量を求める。そして、特徴表現順位変動量評価部106は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に、分析観点生成部102に出力する(ステップA6)。
次に、分析観点生成部102は、特徴表現順位変動量評価部106から複数の分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に入力する。そして、分析観点生成部102は、同特徴表現順位変動量の値が大きな分析対象データ対と分析の観点との組を抽出する。分析観点生成部102は、抽出した分析対象データ対と分析の観点との組を、分析対象データ対に含まれる両分析対象データの特徴表現リストと共に分析対象データ対探索部101に出力する(ステップA7)。
最後に、分析対象データ対探索部101は、分析観点生成部102から特徴表現順位変動量の大きな分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に複数入力する。そして、分析対象データ対探索部101は、これらの分析対象データ対を、差異を有する分析対象データ対と判断する。そして分析対象データ対探索部101は、その差異を有する分析対象データ対の各分析対象データから抽出される特徴表現リストをマイニング結果として、出力部120に出力する(ステップA8)。その後出力部120は、例えば、分析対象データセット探索部101が出力したマイニング結果を表示部に表示する。
次に、具体的な例を用いて本実施形態におけるテキストマイニングシステムの動作を説明する。なお、以下の説明で用いられる閾値や分析の観点、その対応関係を示すデータは、例えば、予め分析者によって設定されているものとする。まず、図4のステップA1における動作を説明する。
分析対象データ対探索部101は、入力部110から、複数の分析対象データを入力する。具体的に、コールセンターの通話、応対履歴、電子メール、Web上の口コミサイト、掲示板、アンケートといった複数の手段で取得された全10の分析対象データが分析対象データ対探索部101に入力される場合を仮定する。これらの分析対象データは、以降では「通話」、「履歴」、「mail」、「サイト」、「板A」、「板B」、「板C」、「板D」、「板E」、「板F」のように記述される。なお、板Aは掲示板Aを意味する。板B、板C、板D、板E、および、板Fについても同様に、掲示板B、掲示板C、掲示板D、掲示板E、および、掲示板Fをそれぞれ意味する。ここで、例えば分析対象データ「板A」は、具体的には、図5に示すような属性値の付与されたテキストの集合である。すると、分析対象データ対探索部101は、入力した複数の分析対象データから、図6に示すような、複数の分析対象データ対を生成する。
ここで、分析対象データ対探索部101は、これらの複数の分析対象データ対の各々について、分析対象データに含まれる二つの分析対象データが、内容に共通性のあるものであるかどうかを判別しても良い。具体的には、二つの分析対象データがD、Dであるとき、式(1)に示すような両者の表現の重なりの値が与えられた閾値を超える場合には、分析対象データ対探索部101は、両者の内容には共通性が有ると判断する。そして、分析対象データ対探索部101は、そのように判断した二つの分析対象データを含む分析対象データ対のみを生成する。なお、異なり数とは、単語が何種類あるかを表すものである。
【数1】
分析対象データ対探索部101は、前述の方法によって生成した複数の分析対象データ対を分析観点生成部102に出力する。
次に、ステップA2における動作を説明する。分析観点生成部102は、分析対象データ対探索部101から、複数の分析対象データ対を入力する。ここで、分析対象データ対探索部101から入力された分析対象データ対が、分析対象データ「板A」と分析対象データ「板B」とを含む場合、分析観点生成部102は、両分析対象データに対して設定可能な共通の分析の観点を探索する。
ここで、分析の観点は、具体的には、分析対象データの属性の値の範囲に関する条件式で与えられるものとする。なお、分析対象データにあらかじめ属性値が付与されていない場合でも、テキストマイニングシステムは、テキストから属性値を生成することにより、分析の観点の設定が可能である。
例えば、分析対象データ「板A」に対して与えられる分析の観点の例を、図7に示す。ここで、ID=1の分析の観点は、属性「評価」に対する値が1,2,または3の値であって、かつ、属性「年齢」に対する値が10から19までの値のいずれかであることを示している。
ここで、分析対象データ「板B」に対しても、同様に、図8に示すような分析の観点が与えられ、さらに、両分析の観点の間に図9に示すような対応関係が与えられている場合を仮定する。すると、例えば、分析対象データ「板A」と分析対象データ「板B」とにおいては、分析観点生成部102は、分析の観点「評価=[1,2,3]&年齢=[10−19]」と「評価=[D,E]&年齢=[10−19]」とが共通の分析の観点であると判断する。
分析観点生成部102は、前述の方法によって、各々の分析対象データ対に対して、共通の分析の観点を複数探索し、得られた分析対象データ対と分析の観点との組を正例集合特定部103に出力する。
ここで、ある分析対象データ対に対して、共通の分析の観点を探索した結果、分析の観点が一つも得られない場合について仮定する。この場合、分析観点生成部102は、同分析対象データ対を正例集合特定部103に出力しないように制御する。この制御により、正例集合特定部103は、共通の分析の観点を少なくとも一つ以上有する分析対象データ対から、優先的に比較分析すべき二つの分析対象データを判断することができる。
次に、ステップA3における動作を説明する。正例集合特定部103は、分析観点生成部102から、分析対象データ対と分析の観点との組を複数入力する。
ここで、入力された分析対象データ対と分析の観点との組の一つが、分析対象データ「板A」および分析対象データ「板B」を含む分析対象データ対と、それぞれに対する分析の観点「評価=[1,2,3]&年齢=[30−39]」、「評価=[D,E]&年齢=[30−39]」との組であった場合について仮定する。この場合、正例集合特定部103は、分析対象データ「板A」において、同分析の観点に対する正例集合を満たす事例を抽出することによって正例のテキスト集合を得ることができる。
具体的には、正例集合特定部103は、属性「評価」の属性値が1,2,および3のいずれかで、かつ、属性「年齢」の属性値が30から39までの値のいずれかであるような条件を満たすような事例を抽出する。図5に示した事例の中では、正例集合特定部103は、条件を満たすID=3を正例として抽出する。
正例集合特定部103は、前述の方法によって、各分析対象データ対の分析対象データごとに、正例集合を抽出する。そして、正例集合特定部103は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と抽出した正例のテキスト集合と共に特徴量計算部104に出力する。
ここで、各分析対象データと分析の観点との組から抽出された正例集合の数が、所定の値を超えなかった場合について仮定する。この場合、正例集合特定部103は、同分析対象データおよび分析の観点を含む分析対象データ対と共通の分析の観点との組を、特徴量計算部104に出力しないように制御する。この制御により、特徴量計算部104は、共通の分析の観点が各々の分析対象データにおいて所定の数以上の正例を有する分析対象データ対から、優先的に比較分析すべき二つの分析対象データを判断することができる。
次に、ステップA4における動作を説明する。特徴量計算部104は、正例集合特定部103から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの全テキスト集合と正例のテキスト集合と共に入力する。特徴量計算部104は、各分析対象データのテキスト中から表現を抽出する。
具体的には、特徴量計算部104は、形態素解析結果から得られる自立語を表現として抽出することができる。例えば、特徴量計算部104は、分析対象データ「板A」のテキスト中から表現を抽出する場合、「香さえ良ければ使っていたかな。」という文からは、「香」、「良い」、「使う」を表現として抽出する。
「板A」の分析対象データが1,452件のテキスト集合から構成され、表現「香」が合計51回出現し、分析の観点「評価=[1,2,3]&年齢=[30−39]」に対する正例集合が305件で、この正例集合中に、表現「香」が34回出現する場合について仮定する。この場合、特徴量計算部104は、特徴量をこれらの出現の統計的差異から計算する。
例えば、特徴量としてカイ2乗分布が用いられる場合、特徴量計算部104は、以下に示す式(2)〜(4)を用いて特徴量を計算することができる。なお、特徴量計算部104は、特徴量として、カイ2乗分布の他に、Stochastic Complexity(確率的コンプレキシティ)、Extended Stochastic Complexity(拡張型確率的コンプレキシティ)など、相関性に関する様々な尺度を用いても計算することができる。
【数2】
上記の、掲示板Aから取得された分析対象データ中の表現「香」の例では、N=1452、O11=34、O12=51−34=17、O21=305−34=271、O22=1452−305−51+34=1130となるので、特徴量計算部104は、カイ2乗の値を、式(5)〜(7)に示すように計算する。
【数3】
特徴量計算部104は、同様に、各々の分析対象データにおいて、テキスト集合から抽出されるすべての表現に対して特徴量を求める。そして、特徴量計算部104は、分析対象データごとの表現と特徴量との組を複数抽出する。そして特徴量計算部104は、分析対象データごとに抽出した表現と計算した特徴量との複数の対を特徴表現リストとして、各分析対象データ対と分析の観点との組と共に、特徴表現順位生成部105に出力する。
次に、ステップA5における動作を説明する。特徴表現順位生成部105は、特徴量計算部104から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に入力する。そして、特徴表現順位生成部105は、各特徴表現リスト中のすべての特徴表現に対して、特徴量の値の高い順に順序付けられた順位である特徴表現順位を付与する。
その結果、特徴表現順位生成部105は、例えば、分析対象データ「板A」と分析の観点「評価=[1,2,3]&年齢=[30−39]」とから得られた特徴表現リストから、図10に示すような、特徴表現順位を付与した特徴表現リストを生成する。
特徴表現順位生成部105は、前述の方法によって特徴表現リストを生成した後、特徴表現順位生成部105は、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に、特徴表現順位変動量評価部106に出力する。
次に、ステップA6における動作を説明する。特徴表現順位変動量評価部106は、特徴表現順位生成部105から、各分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位と共に入力する。そして、特徴表現順位変動量評価部106は、同両分析対象データの特徴表現リストと特徴表現順位とから、両分析対象データに対して、各表現の特徴表現順位が統計的に変動する度合いである特徴表現順位変動量を求める。
ここで、特徴表現順位変動量評価部106は、特徴表現順位変動量を、分析対象データ対に含まれる両分析対象データの各々の特徴表現リストにおける各特徴表現の特徴表現順位の差の平均値として求めることができる。
具体的には、特徴表現順位変動量評価部106は、ある表現xの分析対象データDにおける相対的な特徴表現順位を、式(8)を用いて求める。この場合、特徴表現順位変動量評価部106は、ある表現xの分析対象データDとDにおける特徴表現順位の差を、ΔSi,j(x)=S(x)−S(x)として求めることができる。そして、特徴表現順位変動評価部106は、その2乗の表現{x}に関する平均の平方(root mean square)(式(9))として特徴表現順位変動量を計算することができる。ただし、特徴表現順位変動量評価部106は、表現xが分析対象データDに無い場合、S(x)=0とする。
【数4】
特徴表現順位変動量評価部106は、前述の方法によって計算される同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量とを、各分析対象データ対と分析の観点との組と共に、分析観点生成部102に出力する。
次に、ステップA7における動作を説明する。分析観点生成部102は、特徴表現順位変動量評価部106から複数の分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと特徴表現順位変動量と共に入力する。
ここで、分析観点生成部102は、分析対象データ対と分析の観点との組のうち、特徴表現順位変動量が与えられた値を超えるものを抽出する。そして、分析観点生成部102は、抽出した分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に分析対象データ対探索部101に出力する。
最後に、ステップA8における動作を説明する。分析対象データ対探索部101は、分析観点生成部102から特徴表現順位変動量の大きな分析対象データ対と分析の観点との組を、同分析対象データ対に含まれる両分析対象データの特徴表現リストと共に複数入力する。
分析対象データ対探索部101は、これらの分析対象データ対を、優先的に比較分析すべき二つの分析対象データを含む分析対象データ対と判断する。分析対象データ対探索部101は、その分析対象データ対の各分析対象データから抽出される特徴表現リストをマイニング結果として、出力部120に出力する。その後出力部120は、例えば、分析対象データセット探索部104が出力したマイニング結果を表示部に表示する。
以上のことから、本発明は、以下のような課題を解決するための手段を備えているといえる。本発明によるテキストマイニングシステムは、データ処理装置(コンピュータ100)と、出力装置(出力部120)と、入力装置(入力部110)とを備えている。また、データ処理装置(コンピュータ100)は、分析対象データ探索部と、分析観点生成部と、正例集合特定部と、特徴量計算部と、特徴表現順位生成部と、特徴表現順位変動量評価部とを備えている。データ処理装置(コンピュータ100)は、異なる手段で取得された複数の分析対象データの中で、特徴表現順位間の特徴表現の順位変動量が大きい分析対象データ対と分析の観点との組み合わせを探索し、分析対象データ対の特徴表現リストをマイニング結果として出力する。
テキストマイニングシステムは、以上のような構成を採用し、特徴表現順位変動量が大きい分析対象データ対と分析の観点との組を、優先的に比較分析すべき差異を有する分析対象データ対と分析の観点として探索する。そして、テキストマイニングシステムは、同分析対象データ対と分析の観点とから抽出される特徴表現リストをマイニング結果として出力することにより本発明の目的を達成することができる。
本発明の効果は、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析する場合でも、分析者の分析コストの増大を抑えることができるということである。
その理由は、以下のとおりである。テキストマイニングシステムは、特徴表現リスト間の表現の順位変動量が大きい分析対象データ対と分析の観点との組を、優先的に比較分析すべき差異を有する分析対象データ対と分析の観点との組として探索する。そしてテキストマイニングシステムは、同分析対象データ対と分析の観点から抽出される特徴表現をマイニング結果として出力する。よってテキストマイニングシステムは、差異を有する分析対象データ対を漏らすことなく、分析コストを削減することができる。
関連技術において、テキストマイニングを行う場合に、最初にテキスト集合から分析の観点に対する正例集合を特定して、その特定した正例集合を用いてテキストマイニングを行うように構成されたシステムが用いられる場合があった。以下、正例集合を特定してテキストマイニングを行うテキストマイニングシステムの一例について説明する。図2に示すように、このテキストマイニングシステムは、入力手段11と、出力手段12と、正例集合特定手段13と、特徴量計算手段14と、特徴表現抽出手段15とから構成されている。
このような構成を有するテキストマイニングシステムは、次のように動作する。すなわち、入力手段11があるチャネルから取得されたテキスト集合と、分析の観点とを入力すると、正例集合特定手段13は、テキスト集合の中で、分析の観点に対する正例集合を特定する。次に、特徴量計算手段14は、テキスト中の各表現に対して、テキスト集合全体と正例集合とでの出現の統計的差異から、表現に対する特徴量を計算する。次に、特徴表現抽出手段15は、特徴量の大きい表現を特徴表現として抽出する。そして、出力手段は、特徴表現抽出手段が抽出した特徴表現を出力する。
上記の図2で示したシステムの問題点は、以下のとおりである。複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析することがある。この場合に上記の各システムは分析者の分析にかかる時間や手間など(分析コスト)が著しく大きくなるという問題がある。
その理由は、以下のとおりである。第一の理由は、分析者が複数の分析対象データ間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析するためには、異なる二つの分析対象データから構成されるすべての分析対象データ対について比較分析を行なう必要があることである。さらに、各分析対象データ対の比較分析においては、対を成す両分析対象データに対して、あらゆる共通の分析の観点を設定し、いずれかで差異を生じるかどうかを網羅的に分析する必要がある。第二の理由は、分析対象データ対と分析の観点との組み合わせにより分析コストが著しく増加することである。
一方、本発明によれば、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく、かつ分析者の分析コストを抑えて分析を行うことができる。
次に、本発明によるテキストマイニングシステムの最小構成について説明する。図11は、テキストマイニングシステムの最小の構成例を示すブロック図である。図11に示すように、テキストマイニングシステムは、最小の構成要素として、分析対象データ対探索部101と、分析観点生成部102と、正例集合特定部103と、特徴量計算部104と、特徴表現順位生成部105とを含む。
図11に示す最小構成のテキストマイニングシステムでは、分析対象データ対探索部101は、入力された二つの分析対象データが内容に共通性があるかどうかを判別する。次に、分析観点生成部102は、共通性のあると判別した二つの分析対象データを比較分析する際、両分析対象データから異なった特徴表現集合が得られるような共通の分析の観点を生成する。次に、正例集合特定部103は、生成した分析の観点に基づいて、正例集合を分析対象データから特定する。次に、特徴量計算部104は、分析対象データ中の各表現が同正例集合に特徴的な表現である度合いを示す特徴量を計算する。次に、特徴表現順位生成部105は、計算した特徴量に基づいて、特徴量が大きな表現を特徴表現として抽出し、抽出した特徴量の大きい順に特徴表現に順位を特徴表現順位として付与する。そして、分析対象データ対探索部101は、分析対象データの間で特徴表現の順位に大きな差異を生じる分析の観点を優先的に比較分析すべき分析の観点として出力する。
従って、最小構成のテキストマイニングシステムは、複数の分析対象データを分析する場合に、これらの分析対象データの間の優先的に比較分析すべき差異を有する部分を漏らすことなく分析する場合でも、分析者の分析コストの増大を抑えることができる。
なお、本実施形態では、以下の(1)〜(8)に示すようなテキストマイニングシステムの特徴的構成が示されている。
(1)テキストマイニングシステムは、入力された二つの分析対象データが内容に共通性があるかどうかを判別する分析対象データ対探索部(例えば、分析対象データ対探索部101によって実現される。)と、分析対象データ対探索部が内容に共通性のあると判別した二つの分析対象データを比較分析する際、両分析対象データから異なった特徴表現集合が得られるような共通の分析の観点を生成する分析観点生成部(例えば、分析観点生成部102によって実現される)と、分析観点生成部が生成した分析の観点に基づいて、正例集合を分析対象データから特定する正例集合特定部(例えば、正例集合特定部103によって実現される)と、分析対象データ中の各表現が正例集合に特徴的な表現である度合いを示す特徴量を計算する特徴量計算部(例えば、特徴量計算部104によって実現される)と、特徴量計算部が計算した特徴量に基づいて、特徴量が大きな表現を特徴表現として抽出し、特徴量の大きい順に特徴表現に特徴表現順位として順位を付与する特徴表現順位生成部(例えば、特徴表現順位生成部105によって実現される)とを含み、分析対象データ対探索部は、分析対象データの間で特徴表現の順位に大きな差異を生じる分析の観点を優先的に比較分析すべき分析の観点として出力することを特徴とする。
(2)テキストマイニングシステムにおいて、分析対象データ対探索部は、三つ以上の分析対象データを入力し、分析対象データの中から、内容に共通性のある二つの分析対象データを分析対象データ対として探索し、各分析対象データ対に対して、特徴表現の順位に大きな差異を生じる分析の観点を優先的に比較分析すべき分析の観点として出力するように構成されていてもよい。
(3)テキストマイニングシステムにおいて、各分析対象データは、異なる手段(例えば、通話音声、コールセンターの応対履歴、電子メール、Web上の掲示板、アンケートなど)で収集されたテキストの集合であって、テキスト集合の各テキストに、属性情報(例えば、回答日時、回答者の情報など)が、属性値として付与されている、又は、テキスト自体から抽出されるように構成されていてもよい。
(4)テキストマイニングシステムにおいて、分析対象データ対探索部は、分析対象データから抽出される二つの特徴表現リストに共通の各表現の特徴表現順位の差の平均値(例えば、特徴表現順位変動量評価部106によって算出される)が与えられた値より大きい場合に、分析対象データの間で特徴表現の順位に大きな差異を生じると判定するように構成されていてもよい。
(5)テキストマイニングシステムにおいて、分析観点生成部は、各々の分析対象データの分析の観点のうち、両分析対象データで同一の分析の観点、又は、二つの分析対象データの間で対応関係(例えば、図9に示す対応関係)の定められた所定の分析の観点を二つの分析対象データに共通の分析の観点とするように構成されていてもよい。
(6)テキストマイニングシステムにおいて、正例集合特定部は、二つの分析対象データの各々から共通の分析の観点に該当する正例集合を特定した後、特定した正例集合の数が所定の量以上となる場合に正例集合を出力するように構成されていてもよい。
(7)テキストマイニングシステムにおいて、分析観点生成部は、分析の観点として、各分析対象データ中のテキスト集合の各テキストに付与されている、又は、テキスト自体から抽出される、属性(例えば、回答日時、回答者の情報など)に対して、属性が取りうる値の範囲に関する条件として記述される情報を生成するように構成されていてもよい。
(8)テキストマイニングシステムにおいて、分析対象データ対探索部は、二つの分析対象データの内容の共通性について、両分析対象データ中のテキスト集合に含まれる表現集合の重複の度合い(例えば、式(1)で求める値)が与えられた値よりも大きい場合に、二つの分析対象データの内容には共通性があると判定するように構成されていてもよい。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年12月25日に出願された日本出願特願2009−294763を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
【産業上の利用可能性】
【0009】
本発明は、企業のコンタクトセンターにおける通話、電子メールや、製品サービスに関する消費者の掲示板サイト(Web)、アンケートなどの異なる手段によって取得された複数の分析対象データを対象に、テキストマイニングを用いて分析対象データの間の差異を網羅的に分析することにより、顧客要求や製品サービスの問題等の分析を行うといった用途に適用できる。
【符号の説明】
【0010】
100 コンピュータ
101 分析対象データ対探索部
102 分析観点生成部
103 正例集合特定部
104 特徴量計算部
105 特徴表現順位生成部
106 特徴表現順位変動量評価部
110 入力部
120 出力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11