【文献】
田村晃裕 他,コールセンターのコールメモと通話を対象とした差分マイニング,FIT2008第7回情報科学フォーラム講演論文集,社団法人電子情報通信学会,2008年 8月20日,第2分冊,pp. 295-298
(58)【調査した分野】(Int.Cl.,DB名)
前記第1結果取得手段及び前記第2結果取得手段は、前記マイニング分析手段によってマイニング分析された結果のうち単語の出現頻度についての結果を、それぞれ第1のマイニング結果及び第2のマイニング結果として取得する、請求項1から3のいずれかに記載のマイニング分析装置。
前記第1結果取得手段及び前記第2結果取得手段は、前記マイニング分析手段によってマイニング分析された結果のうちネガポジ判定についての結果を、それぞれ第1のマイニング結果及び第2のマイニング結果として取得する、請求項1から4のいずれかに記載のマイニング分析装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示された技術では、適切な解析を行うために、マイニング分析前のテキストデータに対して辞書を用いて用語の補正処理を行い、用語の統一を図ったテキストデータに対してマイニング分析を行う。このような用語の統一を図ってマイニング分析を行う技術を、オペレータとユーザとの通話内容(音声認識したテキストデータ)と、その通話を記録した記録メモとに利用すると、話し言葉と書き言葉とで異なる用語の統一をその都度図ったテキストデータに対してマイニング分析を行うことになり、処理に時間を要してしまう。
【0006】
また、マイニング分析の結果を時系列的に分析する際には、用語の整合性をとるために、過去にマイニング分析済みのテキストデータについても、再度マイニング分析する必要があり、その処理に多大な時間を要してしまう。
さらに、辞書を更新して、マイニング結果を試しに得たい場合であっても、長い遅延時間が発生してしまう。
【0007】
そこで、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することが望まれる。
【0008】
本発明は、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成するマイニング分析装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
具体的には、以下のような解決手段を提供する。
(1) 複数のソースからテキストデータを取得するテキスト取得手段と、前記テキスト取得手段によって取得されたテキストデータをマイニング分析するマイニング分析手段と、前記マイニング分析手段によってマイニング分析されるテキストデータに用いられる用語と、その用語に関連する単語とを対応付けて記憶する用語対応辞書と、前記テキスト取得手段によって取得された第1のテキストデータについて前記マイニング分析手段によってマイニング分析された結果である第1のマイニング結果を取得する第1結果取得手段と、前記テキスト取得手段によって取得された第2のテキストデータについて前記マイニング分析手段によってマイニング分析された結果である第2のマイニング結果を取得する第2結果取得手段と、前記第1のマイニング結果として抽出された単語と、前記第2のマイニング結果として抽出された単語とが対応するか否かを、前記用語対応辞書に基づいて判断する用語判断手段と、前記用語判断手段によって対応すると判断された単語についてのマイニング結果同士を、前記ソースの組み合わせに基づいて集約するマイニング結果集約手段と、を備えるマイニング分析装置。
【0010】
(1)の構成によれば、(1)に係るマイニング分析装置は、複数のソースから取得したテキストデータをそれぞれマイニング分析し、第1のマイニング結果と第2のマイニング結果とをそれぞれ取得し、第1のマイニング結果として抽出された単語と、第2のマイニング結果として抽出された単語とが対応するか否かを用語対応辞書に基づいて判断し、対応すると判断した単語についてのマイニング結果同士を、ソースの組み合わせに基づいて集約する。
【0011】
したがって、(1)に係るマイニング分析装置は、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0012】
(2) 前記テキスト取得手段は、音声を記録した音声データから音声認識によってテキストデータに変換された音声テキストを取得する音声テキスト取得手段と、前記音声データの内容がテキストデータとして入力された記録テキストを取得する記録テキスト取得手段と、を備え、前記第1結果取得手段は、前記音声テキスト取得手段によって取得された前記音声テキストを前記第1のテキストデータとし、前記第1のマイニング結果として音声マイニング結果を取得し、前記第2結果取得手段は、前記記録テキスト取得手段によって取得された前記記録テキストを前記第2のテキストデータとし、前記第2のマイニング結果として記録マイニング結果を取得し、前記マイニング結果集約手段は、前記用語判断手段によって対応すると判断された単語についてのマイニング結果同士を比較し、集約する、(1)に記載のマイニング分析装置。
【0013】
すなわち、(2)に係るマイニング分析装置は、音声を記録した音声データからテキストデータに変換された音声テキストをマイニング分析した音声マイニング結果と、その音声データについて記録として入力された記録テキストをマイニング分析した記録マイニング結果とから、対応すると判断した単語についてのマイニング結果同士を比較し、集約する。
したがって、(2)に係るマイニング分析装置は、音声テキストと、入力された記録テキストとして互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0014】
(3) 前記テキスト取得手段は、ネットワークからテキストデータを取得するネットワークテキスト取得手段をさらに備え、前記第1結果取得手段は、前記ネットワークテキスト取得手段によって取得された第1のネットワークテキストデータを前記第1のテキストデータとし、前記第1のマイニング結果として第1ネットワークマイニング結果を取得し、前記第2結果取得手段は、前記ネットワークテキスト取得手段によって取得された第2のネットワークテキストデータを前記第2のテキストデータとし、前記第2のマイニング結果として第2ネットワークマイニング結果を取得し、前記マイニング結果集約手段は、前記用語判断手段によって対応すると判断された単語についてのマイニング結果同士を統合して集約する、(1)又は(2)に記載のマイニング分析装置。
【0015】
すなわち、(3)に係るマイニング分析装置は、第1ネットワークマイニング結果と、第2ネットワークマイニング結果とから、対応すると判断した単語についてのマイニング結果を互いに統合して集約する。
したがって、(3)に係るマイニング分析装置は、ネットワークから取得した別々に作成されたテキストデータとして互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0016】
(4) 前記第1結果取得手段及び前記第2結果取得手段は、前記マイニング分析手段によってマイニング分析された結果のうち単語の出現頻度についての結果を、それぞれ第1のマイニング結果及び第2のマイニング結果として取得する、(1)から(3)のいずれかに記載のマイニング分析装置。
【0017】
したがって、(4)に係るマイニング分析装置は、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、単語の出現頻度についての統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0018】
(5) 前記第1結果取得手段及び前記第2結果取得手段は、前記マイニング分析手段によってマイニング分析された結果のうちネガポジ判定についての結果を、それぞれ第1のマイニング結果及び第2のマイニング結果として取得する、(1)から(4)のいずれかに記載のマイニング分析装置。
【0019】
したがって、(5)に係るマイニング分析装置は、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、ネガポジ判定についての統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0020】
(6) (1)に記載のマイニング分析装置が実行する方法であって、前記テキスト取得手段が、複数のソースからテキストデータを取得するテキスト取得ステップと、前記マイニング分析手段が、前記テキスト取得ステップによって取得されたテキストデータをマイニング分析するマイニング分析ステップと、前記第1結果取得手段が、前記テキスト取得ステップによって取得された第1のテキストデータについて前記マイニング分析ステップによってマイニング分析された結果である第1のマイニング結果を取得する第1結果取得ステップと、前記第2結果取得手段が、前記テキスト取得ステップによって取得された第2のテキストデータについて前記マイニング分析ステップによってマイニング分析された結果である第2のマイニング結果を取得する第2結果取得ステップと、前記用語判断手段が、前記第1のマイニング結果として抽出された単語と、前記第2のマイニング結果として抽出された単語とが対応するか否かを、前記用語対応辞書に基づいて判断する用語判断ステップと、前記マイニング結果集約手段が、前記用語判断ステップによって対応すると判断された単語についてのマイニング結果同士を、前記ソースの組み合わせに基づいて集約するマイニング結果集約ステップと、を備える方法。
【0021】
したがって、(6)に係る方法は、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0022】
(7) コンピュータに、(6)に記載の方法の各ステップを実行させるためのプログラム。
【0023】
したがって、(7)に係るプログラムは、コンピュータに、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成させることができる。
【発明の効果】
【0024】
本発明によれば、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
さらに、本発明によれば、音声テキストと、入力された記録テキストとして互いに関連し合うテキストデータ(例えば、コールセンター等の通話内容から音声認識によって作成されたテキストデータと、その通話内容を記録テキストとして入力されたテキストデータと)についてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
また、本発明によれば、ネットワークから取得した別々に作成された情報として互いに関連し合うテキストデータ(例えば、同じ話題について、あるネットワークメディアにおける通信内容であるテキストデータと、別のネットワークメディアにおける通信内容であるテキストデータと)についてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【発明を実施するための形態】
【0026】
[実施形態1]
以下、本発明の実施形態について、図を参照しながら説明する。
図1は、本発明の一実施形態に係るマイニング分析装置10の構成を示す図である。マイニング分析装置10は、テキスト取得手段11と、マイニング分析手段12と、用語対応辞書DB31と、第1結果取得手段13と、第2結果取得手段14と、用語判断手段15と、マイニング結果集約手段16と、を備える。以下、各手段ごとに詳述する。
【0027】
テキスト取得手段11は、複数のソースからテキストデータを取得する。具体的には、テキスト取得手段11は、音声テキスト取得手段111と、記録テキスト取得手段112と、ネットワークテキスト取得手段113とを備え、音声入力、テキスト入力、ネットワークからテキストデータを取得する。
【0028】
音声テキスト取得手段111は、音声を記録した音声データから音声認識によってテキストデータに変換された音声テキストを取得する。具体的には、音声テキスト取得手段111は、コールセンター等での通話内容(例えば、オペレータとユーザとの声)を音声入力手段(例えば、マイクやヘッドホンマイク等)から入力し、入力した音声データを音声認識手段により認識処理することによってテキストデータに変換し、変換した音声テキストを取得する。音声テキストには、音声データの入力時刻や識別情報が付加される。
【0029】
記録テキスト取得手段112は、音声データの内容がテキストデータとして入力された記録テキストを取得する。具体的には、記録テキスト取得手段112は、コールセンター等での通話内容をオペレータ等が報告文書としてまとめたテキストデータであって、テキスト入力手段(例えば、テキストを入力するキーボード等)によって入力されたテキストデータである記録テキストを取得する。記録テキストには、識別情報と、対応する音声データの識別情報とが付加される。
【0030】
この音声テキストと、記録テキストとは、それぞれ特有の情報を含む。また、それぞれで用いられる用語は、互いに同様の意味で用いられながら、話し言葉と書き言葉として異なる単語として出現する。
例えば、音声テキストでは、エンドユーザとオペレータとの間で、「操作中に勝手に再起動されてしまう・・・」という会話が音声としてそのまま記録されて音声認識され、その会話を報告する記録テキストでは、「操作中に自動で再起動される不具合・・・」と入力されることが多い。この例では、「勝手」と「自動」とが同じ用語として処理される必要がある。
【0031】
ネットワークテキスト取得手段113は、ネットワークからテキストデータを取得する。具体的には、ネットワークテキスト取得手段113は、インターネットをクローリングすることによって得られたテキストデータを取得する。ネットワークからのテキストデータには、ネットワークメディアの種類(例えば、ブログや掲示板の種類等)や、取得時刻、識別情報等が付加される。
【0032】
マイニング分析手段12は、テキスト取得手段11によって取得されたテキストデータをマイニング分析する。具体的には、マイニング分析手段12は、テキストデータについて、形態素解析と構文解析との自然言語処理を行い、例えば、急増、急減キーワードを抽出したり、トピック分類をしたり、ネガポジ判定等のマイニング分析を行う。
【0033】
用語対応辞書DB31は、マイニング分析手段12によってマイニング分析されるテキストデータに用いられる用語と、その用語に関連する単語とを対応付けて記憶するデータベースである。具体的には、用語対応辞書DB31は、ある特定の用語とその同義語である対応語の組み合わせをリスト化したものである。用語対応辞書DB31は、用語に対応付けて、用語を含むテキストである用語元情報を記憶し、対応語に対応付けて、対応語を含むテキストである対応語元情報を記憶してもよい。用語元情報及び対応語元情報には、音声認識結果(例えば、音声テキストに含まれる用語)、入力データ(例えば、記録テキストに含まれる用語)、ネットワークデータ(例えば、ネットワークテキストデータに含まれる用語)等がある。
例えば、用語対応辞書DB31は、用語として「自動」(用語元情報として入力データ)に対応する対応語として「勝手」(対応元情報として音声認識結果)を記憶している。
用語対応辞書DB31の作成方法は、予め音声を書き起こしたテキストと、その音声に対応する記録テキストとを大量に用意し、予め手作業で対応語を抽出し、抽出した対応語を登録する方法であってもよい。
【0034】
第1結果取得手段13は、テキスト取得手段11によって取得された第1のテキストデータ、例えば、音声テキストや第1ネットワークテキスト、についてマイニング分析手段12によってマイニング分析された結果である第1のマイニング結果を、例えば、音声マイニング結果や第1ネットワークマイニング結果、を取得して第1マイニング結果記憶部41に記憶する。
第2結果取得手段14は、テキスト取得手段11によって取得された第2のテキストデータ、例えば、記録テキストや第2ネットワークテキスト、についてマイニング分析手段12によってマイニング分析された結果である第2のマイニング結果を、例えば、記録マイニング結果や第2ネットワークマイニング結果、を取得して第2マイニング結果記憶部42に記憶する。
【0035】
用語判断手段15は、第1のマイニング結果として抽出された単語と、第2のマイニング結果として抽出された単語とが対応するか否かを、用語対応辞書DB31に基づいて判断する。具体的には、用語判断手段15は、音声テキストから抽出された単語と、記録テキストから抽出された単語とについて、用語対応辞書DB31を検索して、用語元情報又は対応語元情報が音声認識結果として登録された用語と、用語元情報又は対応語元情報が入力データとして登録された対応語とに対応するか否かを判断する。用語判断手段15は、ネットワークテキストデータについても、用語元情報又は対応語元情報がネットワークデータとして登録された対応語に対応するか否かを、同様に判断する。
【0036】
マイニング結果集約手段16は、用語判断手段15によって対応すると判断された単語についてのマイニング結果同士を、ソースの組み合わせに基づいて集約する。
ソースの組み合わせとして、例えば、音声認識結果からの音声テキストとテキスト入力手段からの記録テキストとの組み合わせ、ネットワークからの入力であって異なるネットワークメディアからの入力の組み合わせ等が存在する。
【0037】
具体的には、ソースの組み合わせとして音声テキストと記録テキストとの組み合わせの場合、マイニング結果集約手段16は、音声テキストを第1のテキストデータとしてマイニング分析した第1のマイニング結果である音声マイニング結果と、記録テキストを第2のテキストデータとしてマイニング分析した第2のマイニング結果である記録マイニング結果とを比較して、集約する。すなわち、マイニング結果集約手段16は、用語判断手段15によって対応すると判断された単語についてのマイニング結果同士を比較し、例えば、頻度を比較し頻度の高い方のマイニング結果に統合するように、集約し、集約結果記憶部43に記憶する。
【0038】
例えば、音声マイニング結果において単語「B」の出現頻度が82であり、記録マイニング結果において単語「BB」の出現頻度が99であり、用語対応辞書DB31において「B」と「BB」とが対応語として対応付けられている場合、マイニング結果集約手段16は、単語「B」について、出現頻度が高い方の99として集約し、統合的なマイニング結果とする。
【0039】
ソースの組み合わせとしてネットワークからテキストデータを取得した場合、マイニング結果集約手段16は、第1のネットワークテキストデータを第1のテキストデータとしてマイニング分析した第1のマイニング結果である第1ネットワークマイニング結果と、第2のネットワークテキストデータを第2のテキストデータとしてマイニング分析した第2のマイニング結果である第2ネットワークマイニング結果とを集約する。すなわち、マイニング結果集約手段16は、用語判断手段15によって対応すると判断された単語についてのマイニング結果同士を統合して集約し、集約結果記憶部43に記憶する。
【0040】
例えば、第1のマイニング結果において単語「B」の出現頻度が82であり、第2のマイニング結果において単語「BB」の出現頻度が99であり、用語対応辞書DB31において「B」と「BB」とが対応語として対応付けられている場合、マイニング結果集約手段16は、単語「B」について、出現頻度が181(82+99)として集約し、統合的なマイニング結果とする。
【0041】
マイニング分析装置10は、マイニング結果集約手段16により集約される対象のマイニング結果や、集約方法の指定を受け付ける集約制御手段を備えるとしてもよい。また、マイニング分析装置10は、マイニング結果を表示制御し、表示されたマイニング結果を見たユーザからの操作入力手段(例えば、マウスやキーボード等)による操作を受け付け、マイニング結果を見ながら、用語対応辞書DB31の修正や、集約されたマイニング結果の表示制御を行う表示制御手段を備えるとしてもよい。
【0042】
図2は、本発明の一実施形態に係るマイニング分析装置10が備える用語対応辞書DB31の例を示す図である。
図2が示すように、用語対応辞書DB31は、話し言葉における「壊れた」という用語に対し、同義語の書き言葉である「破損」という対応語を、記憶している。また、「電池」という用語に対し、「バッテリー」や、表記ゆれの表現である「バッテリー電池」、上位概念である「電源」という対応語を記憶している。さらに、用語対応辞書DB31は、用語を含むテキストである用語元情報として「音声認識結果」や「入力データ」を記憶し、対応語に対応付けて、対応語を含むテキストである対応語元情報として「入力データ」や「ネットワークデータ」等を記憶している。用語元情報及び対応語元情報は、複数の情報を記憶してもよい。
なお、用語対応辞書DB31は、テキスト入力手段から入力されることによって、登録や編集されてもよいし、表示されたマイニング結果上でのマウス操作等により、登録や編集されてもよい。
【0043】
図3は、本発明の一実施形態に係るマイニング分析装置10が音声マイニング結果と記録マイニング結果とを集約する例を示す図である。なお、
図3から
図8において、マイニング結果から集約結果への矢印は、マイニング結果を集約したことを示している。
マイニング分析装置10は、音声マイニング結果と記録マイニング結果とについて、抽出した単語が同一又は対応語である単語については、マイニング結果同士を比較して集約結果記憶部43に集約し、同一又は対応語でない単語については、集約結果記憶部43にマージするように集約する。
具体的には、マイニング分析装置10は、マイニング結果同士の比較において、用語対応辞書DB31を参照し、抽出された単語同士の対応を判断し、対応すると判断した単語についてのマイニング結果(例えば、頻度)を比較して、集約し、集約結果記憶部43に記憶する。マイニング分析装置10は、対応しないと判断した単語についてのマイニング結果を、集約結果記憶部43にマージして記憶する。
集約する方法は、(a)頻度を高い方の値にする、(b)頻度を低い方の値にする、(c)頻度を平均する、又は(d)頻度を重み付け加算する、としてもよい。なお、マイニング分析装置10は、(c)頻度を平均する、又は(d)頻度を重み付け加算するように集約する場合、マイニング結果(例えば、頻度)を比較して、比較結果が所定の範囲内の場合に(c)頻度を平均する、又は(d)頻度を重み付け加算し、所定の範囲外の場合に所定の方法(例えば、予め定められた、高い方の値にする方法又は低い方の値にする方法)で集約するとしてもよい。
図3の例は、「B」、「BB」、及び「BBB」が対応語であり、(a)頻度を高い方の値に集約する例である。
なお、マイニング分析装置10は、各マイニング結果において、抽出した単語を用語対応辞書DB31に基づいて同じ用語に統一した後に、集約するとしてもよい。すなわち、マイニング分析装置10は、各マイニング結果において、抽出した単語同士が対応語である場合、例えばマイニング結果を加算して、同じ用語のマイニング結果として統一し(対応語を同じ用語に置換し、マイニング結果を統一する)、統一したマイニング結果同士を比較して、上述のように集約してもよい。
【0044】
図4は、本発明の一実施形態に係るマイニング分析装置10が、関連語情報を含む音声マイニング結果と記録マイニング結果とを集約する例を示す図である。
マイニング分析装置10は、関連語情報を含む音声マイニング結果と記録マイニング結果とを、(1)から(3)のように集約する。
(1)各マイニング結果において、抽出した単語と抽出した関連語とが対応語である(用語対応辞書DB31に対応語として登録されている)場合には、各マイニング結果から削除する。
(2)各マイニング結果において、抽出した単語が同じで、関連語同士が対応語である場合、又は関連語が同じで抽出した単語同士が対応語である場合に、抽出した単語のマイニング結果(例えば、頻度情報)を加算する(対応語を同じ用語に置換し、マイニング結果を統一する)。
(3)マイニング結果同士を比較して、抽出した単語が同じで、関連語が同じである場合、(a)頻度を高い方の値にする、(b)頻度を低い方の値にする、(c)頻度を平均する、又は(d)頻度を重み付け加算する、のように集約する。なお、マイニング分析装置10は、(c)頻度を平均する、又は(d)頻度を重み付け加算するように集約する場合、
図3において説明した方法と同様の方法で集約する。
図4の例は、「A」と「α」とが対応語、「B」、「BB」、及び「BBB」と、「β」及び「ββ」とが対応語であり、(a)頻度を高い方の値に集約する例である。
図4の例において、抽出単語「A」及び関連語「α」のマイニング結果と、抽出単語「B」及び関連語「β」のマイニング結果とは、(1)の対応語の条件により集約されない。
なお、(1)から(3)のいずれでもない(例えば、抽出した単語がユニークで対応語がない)場合、マイニング結果を集約結果記憶部43にマージして記憶する。
【0045】
図5は、本発明の一実施形態に係るマイニング分析装置10が、ネガポジ判定情報を含む音声マイニング結果と記録マイニング結果とを集約する例を示す図である。
マイニング分析装置10は、ネガポジ判定情報を含む音声マイニング結果と記録マイニング結果とを、(1)から(3)のように集約する。
(1)各マイニング結果において、抽出した単語同士が対応語である(用語対応辞書DB31に用語と、対応語として登録されている)場合には、各マイニング結果においてマージする。
(2)(1)の場合において、各マイニング結果において抽出した単語同士のマイニング結果(ネガティブ頻度、ポジティブ頻度、頻度総数)を加算する(すなわち、対応語を同じ用語に置換し、マイニング結果を統一する)。
(3)マイニング結果同士を比較して、用語対応辞書DB31を参照し、抽出された単語同士の対応を判断し、対応すると判断した単語についてのマイニング結果(ネガティブ頻度、ポジティブ頻度、頻度総数)を、頻度総数を基準にして比較して、集約し、集約結果記憶部43に記憶する。マイニング分析装置10は、対応しないと判断した単語についてのマイニング結果を、集約結果記憶部43にマージして記憶する。
集約する方法は、(a)頻度を高い方の値にする、(b)頻度を低い方の値にする、(c)頻度を平均する、又は(d)頻度を重み付け加算する、としてもよい。なお、マイニング分析装置10は、(c)頻度を平均する、又は(d)頻度を重み付け加算するように集約する場合、
図3において説明した方法と同様の方法で集約する。
図5の例は、「A」、「AA」、及び「AAA」が対応語、「B」、「BB」、及び「BBB」が対応語であり、頻度総数を基準にして(a)頻度を高い方の値に集約する例である。
【0046】
図6は、本発明の一実施形態に係るマイニング分析装置10が第1ネットワークマイニング結果と第2ネットワークマイニング結果とを集約する例を示す図である。
マイニング分析装置10は、第1ネットワークマイニング結果と第2ネットワークマイニング結果とについて、抽出した単語が同一又は対応語である単語については、マイニング結果同士を集約結果記憶部43に集約し、同一又は対応語でない単語については、集約結果記憶部43にマージするように集約する。
具体的には、マイニング分析装置10は、マイニング結果同士の比較において、用語対応辞書DB31を参照し、抽出された単語同士の対応を判断し、対応すると判断した単語について、時刻情報が同一のもの(時刻情報の差が所定の時間範囲内のものを同一のものとしてよい)に対して、マイニング結果(例えば、頻度)を集約して集約結果記憶部43に記憶する。マイニング分析装置10は、対応しないと判断した単語についてのマイニング結果を、集約結果記憶部43にマージして記憶する。
集約する方法は、(a)頻度を加算する、又は(b)頻度を重み付け加算する、としてもよい。
図6の例は、「B」、「BB」、及び「BBB」が対応語であり、(a)頻度を加算して、集約する例である。
なお、マイニング分析装置10は、各マイニング結果において、抽出した単語を用語対応辞書DB31に基づいて同じ用語に統一した後に、集約するとしてもよい。すなわち、マイニング分析装置10は、各マイニング結果において、抽出した単語同士が対応語であり、時刻情報が同一のもの(時刻情報の差が所定の時間範囲内のものを同一のものとしてよい)に対して、例えばマイニング結果を加算して、同じ用語のマイニング結果として統一し(対応語を同じ用語に置換し、マイニング結果を統一する)、統一したマイニング結果同士を、上述のように集約してもよい。
【0047】
図7は、本発明の一実施形態に係るマイニング分析装置10が、関連語情報を含む第1ネットワークマイニング結果と第2ネットワークマイニング結果とを集約する例を示す図である。
マイニング分析装置10は、関連情報を含む第1ネットワークマイニング結果と第2ネットワークマイニング結果とを、(1)から(3)のように集約する。
(1)各マイニング結果において、抽出した単語と抽出した関連語とが対応語である(用語対応辞書DB31に対応語として登録されている)場合には、各マイニング結果から削除する。
(2)各マイニング結果において、抽出した単語が同じで、関連語同士が対応語である場合、又は関連語が同じで抽出した単語同士が対応語である場合に、抽出した単語のマイニング結果(例えば、頻度情報)を加算する(対応語を同じ用語に置換し、マイニング結果を統一する)。
(3)マイニング結果同士を比較して、抽出した単語が同じで、関連語が同じである場合、時刻情報が同一のもの(時刻情報の差が所定の時間範囲内のものを同一のものとしてよい)に対して、頻度情報を加算する。
図7の例は、「A」と「α」とが対応語、「B」、「BB」、及び「BBB」と、「β」及び「ββ」とが対応語であり、頻度情報を加算して集約する例である。
図7の例において、抽出単語「A」及び関連語「α」のマイニング結果と、抽出単語「B」及び関連語「β」のマイニング結果とは、(1)の対応語の条件により集約されない。
なお、(1)から(3)のいずれでもない(例えば、抽出した単語がユニークで対応語がない)場合、マイニング結果を集約結果記憶部43にマージして記憶する。
【0048】
図8は、本発明の一実施形態に係るマイニング分析装置10が、ネガポジ判定情報を含む第1ネットワークマイニング結果と第2ネットワークマイニング結果とを集約する例を示す図である。
マイニング分析装置10は、ネガポジ判定情報を含む第1ネットワークマイニング結果と第2ネットワークマイニング結果とを、(1)から(3)のように集約する。
(1)各マイニング結果において、抽出した単語同士が対応語であり(用語対応辞書DB31に用語と、対応語として登録されている)、時刻情報が同一のもの(時刻情報の差が所定の時間範囲内のものを同一のものとしてよい)である場合には、各マイニング結果においてマージする。
(2)(1)の場合において、各マイニング結果において抽出した単語同士のマイニング結果(ネガティブ頻度、ポジティブ頻度、頻度総数)を加算する(すなわち、対応語を同じ用語に置換し、マイニング結果を統一する)。
(3)マイニング結果同士を比較して、用語対応辞書DB31を参照し、抽出された単語同士の対応を判断し、対応すると判断した単語について、時刻情報が同一のもの(時刻情報の差が所定の時間範囲内のものを同一のものとしてよい)に対して、マイニング結果(ネガティブ頻度、ポジティブ頻度、頻度総数)を集約して集約結果記憶部43に記憶する。マイニング分析装置10は、対応しないと判断した単語についてのマイニング結果を、集約結果記憶部43にマージして記憶する。
集約する方法は、ネガティブ頻度、ポジティブ頻度、又は頻度総数のそれぞれについて、(a)加算する、(b)平均する、又は(c)重み付け加算する、としてもよい。
図8の例は、「A」、「AA」、及び「AAA」が対応語、「B」、「BB」、及び「BBB」が対応語であり、(a)加算して、集約する例である。
【0049】
図9は、本発明の一実施形態に係るマイニング分析装置10のマイニング分析処理を示すフローチャートである。マイニング分析装置10は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成され、以下の処理は、制御部(例えば、CPU)が所定のソフトウェアに従い実行する処理である。
【0050】
ステップS101において、CPU(テキスト取得手段11、音声テキスト取得手段111、記録テキスト取得手段112、ネットワークテキスト取得手段113)は、テキストデータを取得する。より具体的には、CPUは、音声を記録した音声データから音声認識によってテキストデータに変換された音声テキスト、その音声データの内容がテキストデータとして入力された記録テキスト、インターネットをクローリングすることによって得られたネットワークテキストデータを取得する。
【0051】
ステップS102において、CPU(マイニング分析手段12)は、取得したテキストデータをマイニング分析する。より具体的には、CPUは、ステップS101において入力したテキストデータについて、形態素解析と構文解析との自然言語処理を行い、マイニング分析する。
【0052】
ステップS103において、CPU(マイニング分析手段12)は、マイニング結果を格納する。より具体的には、CPUは、音声テキストをマイニング分析した音声マイニング結果、記録テキストをマイニング分析した記録マイニング結果、及びネットワークテキストをマイニング分析したネットワークマイニング結果を、それぞれ記憶部(図示せず)に格納する。
【0053】
図10は、本発明の一実施形態に係るマイニング分析装置10のマイニング結果集約処理を示すフローチャートである。マイニング分析装置10は、ステップS103において格納したマイニング結果について処理する。
【0054】
ステップS201において、CPUは、集約する対象のマイニング結果と集約方法とを受け付ける。より具体的には、CPUは、音声テキストの識別情報(記録テキストの識別情報でもよい)や、ネットワークテキストの識別情報を受け付ける。また、CPUは、集約方法についてのルールを受け付ける。
【0055】
ステップS202において、CPU(第1結果取得手段13)は、第1のマイニング結果を取得する。より具体的には、CPUは、ステップS201で受け付けた識別情報により第1のマイニング結果(例えば、音声マイニング結果)を取得し、第1マイニング結果記憶部41に記憶する。
【0056】
ステップS203において、CPU(第2結果取得手段14)は、第2のマイニング結果を取得する。より具体的には、CPUは、ステップS201で受け付けた識別情報により第2のマイニング結果(例えば、ステップS201で音声テキストを受け付けた場合、その識別情報に基づいて検索した記録テキストの記録マイニング結果)を取得し、第2マイニング結果記憶部42に記憶する。
【0057】
ステップS204において、CPU(用語判断手段15、マイニング結果集約手段16)は、用語対応辞書DB31に基づいてマイニング結果を集約する。より具体的には、CPUは、ステップS202で取得した第1のマイニング結果と、ステップS203で取得した第2のマイニング結果とについて、用語判断手段15によって対応すると判断された単語についてのマイニング結果同士について、ステップS201で受け付けた集約方法により、例えば、頻度を比較し頻度の高い方のマイニング結果に統合するように、集約し、集約結果記憶部43に記憶する。
【0058】
ステップS205において、CPUは、集約結果を出力する。より具体的には、CPUは、ステップS204で集約結果記憶部43に記憶した集約結果を表示装置に表示する。
【0059】
本実施形態1によれば、マイニング分析装置10は、音声を記録した音声データから音声認識によってテキストデータに変換された音声テキストを取得し、その音声データの内容がテキストデータとして入力された記録テキストを取得し、取得した音声テキストをマイニング分析した結果として音声マイニング結果を取得し、取得した記録テキストをマイニング分析した結果として記録マイニング結果を取得し、音声マイニング結果と記録マイニング結果とにおいて、用語対応辞書DB31に基づいて対応すると判断した単語についてのマイニング結果同士の頻度を比較し、例えば、頻度の高い方のマイニング結果に、集約する。
また、マイニング分析装置10は、ネットワークからテキストデータを取得し、取得した第1のネットワークテキストデータをマイニング分析した結果として第1ネットワークマイニング結果を取得し、取得した第2のネットワークテキストデータをマイニング分析した結果である第2ネットワークマイニング結果を取得し、第1ネットワークマイニング結果と第2ネットワークマイニング結果とにおいて、用語対応辞書DB31に基づいて対応すると判断した単語についてのマイニング結果同士を統合して集約する。
したがって、マイニング分析装置10は、互いに関連し合うテキストデータについてのそれぞれのマイニング結果から、統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0060】
[実施形態2]
図11は、本発明の実施形態2に係るマイニング分析装置10の構成を示す図である。マイニング分析装置10は、
図1の構成に加えて、統合設定管理テーブル32をさらに備える。
図12は、本発明の実施形態2に係るマイニング分析装置10が備える統合設定管理テーブル32の例を示す図である。
図12に示すように、統合設定管理テーブル32は、集約の対象としての第1マイニング結果及び第2マイニング結果を指定するための統合元分析結果及び統合先分析結果に対応付けて、集約方法の方式を指定する統合方式を記憶している。マイニング分析装置10は、表示されたマイニング結果を見たユーザからの操作入力手段(例えば、マウスやキーボード等)による操作を受け付け、統合設定管理テーブル32を、適宜更新するとしてもよい。各手段ごとに、統合設定管理テーブル32の機能について説明する。
【0061】
第1結果取得手段13及び第2結果取得手段14は、統合設定管理テーブル32に基づいて集約する対象を取得する。
用語判断手段15は、第1結果取得手段13によって取得された第1のマイニング結果の単語と、第2結果取得手段14によって取得された第2のマイニング結果の単語とが対応するか否かを、用語対応辞書DB31に基づいて判断する。
マイニング結果集約手段16は、用語判断手段15によって対応すると判断された単語についてのマイニング結果同士を、統合設定管理テーブル32の統合方式における集約方法の指定に基づいて集約し、統合設定管理テーブル32の統合先分析結果における指定に基づいて、集約結果を記憶させる。
【0062】
例えば、第1結果取得手段13及び第2結果取得手段14は、実施形態1のフローチャート(
図10)のステップS201のように、指示入力手段(例えば、キーボード)から、集約する対象と集約方法とを受け付けることに替えて、統合設定管理テーブル32の統合元分析結果及び統合先分析結果における指定(例えば、
図12の番号1で示すような指定)に基づいて、音声テキストAのマイニング結果と、音声テキストAに対応する記録テキストAのマイニング結果とを、第1のマイニング結果及び第2のマイニング結果として取得する。
マイニング結果集約手段16は、統合設定管理テーブル32の統合方式における集約方法の指定(例えば、
図12の番号1で示すような「最大値」の指定)に基づいて、用語判断手段15によって対応すると判断された単語についてのマイニング結果同士の頻度を比較し、頻度の高い方のマイニング結果に統合するように集約する。そして、マイニング結果集約手段16は、例えば、
図12で示すような結合先分析結果が記録テキストAであることに基づいて、記録テキストAのマイニング結果を集約結果に更新する。
【0063】
次に、第1結果取得手段13及び第2結果取得手段14は、統合設定管理テーブル32の統合元分析結果及び統合先分析結果における指定(例えば、
図12の番号2で示すような指定)に基づいて、ネットワークテキストCのマイニング結果と、記録テキストAの更新されたマイニング結果(
図12の番号1の指定に基づいて集約した集約結果)とを、第1のマイニング結果及び第2のマイニング結果として取得する。
マイニング結果集約手段16は、統合設定管理テーブル32の統合方式における集約方法の指定(例えば、
図12の番号2で示すような「加算」の指定)に基づいて、用語判断手段15によって対応すると判断された単語についてのマイニング結果同士の頻度を加算して集約し、記録テキストAのマイニング結果を集約結果にさらに更新する。
【0064】
本実施形態2によれば、マイニング分析装置10は、統合設定管理テーブル32によって指定されたマイニング結果の任意の組み合わせ及び集約方法に基づいて、マイニング結果の集約結果を作成し、更新する。すなわち、マイニング分析装置10は、3つ以上のマイニング結果をも統合することができる。
したがって、マイニング分析装置10は、互いに関連し合うテキストデータ(例えば、コールセンター等の通話内容から音声認識によって作成されたテキストデータと、その通話内容を記録テキストとして入力されたテキストデータと)についてのそれぞれのマイニング結果を集約した集約結果と、インターネットから取得したテキストデータ(例えば、コールセンター等の通話内容と同じ話題についての、ネットワークメディアにおける通信内容であるテキストデータ)についてのマイニング結果とを集約することにより、コールセンター等の通話内容における社会的な特徴を、効率よく、かつ、迅速に作成することができる。
【0065】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。