(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に開示された技術では、適切な解析を行うために、マイニング分析前のテキストデータに対して辞書を用いて用語の補正処理を行い、用語の統一を図ったテキストデータに対してマイニング分析を行う。このような用語の統一をその都度図ってマイニング分析を行うと、処理に時間を要してしまう。
【0006】
さらに、マイニング分析の結果を複数ユーザが利用する場合には、個々のユーザにより分析目的が異なるために、定義する用語対応辞書を別々に持つ必要があり、ユーザが分析結果の表示指示をしてから表記ゆれを補正することになるため、分析結果の表示に時間がかかってしまう。
【0007】
そこで、テキストデータについてのマイニング分析の結果に基づいて、マイニング分析の結果を利用するユーザごとの統合的なマイニング結果を効率よく、かつ、迅速に作成する装置が求められている。
【0008】
本発明は、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するユーザごとの統合的なマイニング結果を効率よく、かつ、迅速に作成するマイニング分析装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、テキストデータをマイニング分析した結果に対して、複数のユーザが別々に持つ用語対応辞書に登録された表記ゆれ情報を用いて表記ゆれを補正する処理を迅速に行う。すなわち、本発明は、各ユーザごとに持つ用語対応辞書のうち全ユーザに共通する同義語の定義に基づく表記ゆれ補正を、ユーザからの分析結果の表示指示に先だって行い、該当ユーザ独自の同義語の定義による表記ゆれ補正は、ユーザの分析結果の表示指示の後に処理する。
具体的には、以下のような解決手段を提供する。
【0010】
(1) テキストデータを取得するテキスト取得手段と、前記テキスト取得手段によって取得されたテキストデータをマイニング分析するマイニング分析手段と、前記マイニング分析手段によってマイニング分析された結果であるマイニング結果をマイニング結果記憶手段に記憶させるマイニング結果記憶制御手段と、前記マイニング分析手段によってマイニング分析されるテキストデータに用いられる用語と、その用語に関連する語句と、前記マイニング結果を利用するユーザの識別情報とを対応付けて記憶する用語対応辞書と、前記用語対応辞書に記憶された前記用語であって全ての前記ユーザの識別情報に対応付けられている共通の前記用語に基づいて、前記マイニング結果において抽出された単語について、互いに対応するか否かを判断する用語共通判断手段と、前記用語共通判断手段によって互いに対応すると判断された単語についてのそれぞれのマイニング結果を統合するマイニング結果共通統合手段と、前記用語対応辞書に記憶された前記用語であって前記ユーザの識別情報に対応付けられている個別の前記用語に基づいて、前記マイニング結果共通統合手段によって統合された結果における前記用語について、互いに対応するか否かを判断する用語個別判断手段と、前記用語個別判断手段によって互いに対応すると判断された単語についてのそれぞれのマイニング結果をさらに統合するマイニング結果個別統合手段と、を備えるマイニング分析装置。
【0011】
(1)の構成によれば、(1)に係るマイニング分析装置は、テキストデータを取得し、取得したテキストデータをマイニング分析し、マイニング分析した結果であるマイニング結果をマイニング結果記憶手段に記憶させる。そして、マイニング分析装置は、用語対応辞書に記憶された用語であって全てのユーザの識別情報に対応付けられている共通の用語に基づいて、マイニング結果において抽出された単語について、互いに対応するか否かを判断し、互いに対応すると判断した単語についてのそれぞれのマイニング結果を統合する。さらに、マイニング分析装置10は、用語対応辞書に記憶された用語であってユーザの識別情報に対応付けられている個別の用語に基づいて、統合された結果における用語について、互いに対応するか否かを判断し、互いに対応すると判断した単語についてのそれぞれのマイニング結果をさらに統合する。
【0012】
すなわち、(1)に係るマイニング分析装置は、全てのユーザに共通の用語に基づいてマイニング結果を統合し、統合した共通の統合結果を、ユーザごとの個別の用語に基づいてさらに統合する。
したがって、(1)に係るマイニング分析装置は、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するユーザごとの統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0013】
(2) 前記共通の前記用語を記憶する共通テーブルと、前記ユーザの識別情報を記憶するユーザテーブルと、前記用語対応辞書を作成するための入力を受け付ける辞書入力受付手段と、前記辞書入力受付手段によって受け付けられた入力に基づいて、前記用語対応辞書を作成する辞書作成手段と、をさらに備え、前記辞書作成手段は、前記辞書入力受付手段によって前記入力が受け付けられるごとに、前記ユーザテーブルに基づいて、前記共通テーブルを作成し、前記用語共通判断手段は、前記共通テーブルに基づいて、前記マイニング結果において抽出された単語について、互いに対応するか否かを判断する、(1)に記載のマイニング分析装置。
【0014】
したがって、(2)に係るマイニング分析装置は、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するユーザごとの統合的なマイニング結果をさらに効率よく、かつ、迅速に作成することができる。
【0015】
(3) 前記ユーザテーブルは、前記ユーザの識別情報として、ユーザ個人の識別情報に対応付けて、前記ユーザ個人が所属するグループの識別情報を記憶する、(2)に記載のマイニング分析装置。
【0016】
したがって、(3)に係るマイニング分析装置は、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するグループごとの統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0017】
(4) 前記用語対応辞書は、用語を具体的な対応語に対応付けるための条件を、対応語に対応付けてさらに記憶する、(1)又は(2)に記載のマイニング分析装置。
【0018】
したがって、(4)に係るマイニング分析装置は、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するユーザごとの統合的なマイニング結果を効率よく詳細に作成することができる。
【0019】
(5) (1)に記載のマイニング分析装置が実行する方法であって、前記テキスト取得手段が、テキストデータを取得するテキスト取得ステップと、前記マイニング分析手段が、前記テキスト取得ステップによって取得されたテキストデータをマイニング分析するマイニング分析ステップと、前記マイニング結果記憶制御手段が、前記マイニング分析ステップによってマイニング分析された結果であるマイニング結果をマイニング結果記憶手段に記憶させるマイニング結果記憶制御ステップと、前記用語共通判断手段が、前記用語対応辞書に記憶された前記用語であって全ての前記ユーザの識別情報に対応付けられている共通の前記用語に基づいて、前記マイニング結果において抽出された単語について、互いに対応するか否かを判断する用語共通判断ステップと、前記マイニング結果共通統合手段が、前記用語共通判断ステップによって互いに対応すると判断された単語についてのそれぞれのマイニング結果を統合するマイニング結果共通統合ステップと、前記用語個別判断手段が、前記用語対応辞書に記憶された前記用語であって前記ユーザの識別情報に対応付けられている個別の前記用語に基づいて、前記マイニング結果共通統合ステップによって統合された結果における前記用語について、互いに対応するか否かを判断する用語個別判断ステップと、前記マイニング結果個別統合手段が、前記用語個別判断ステップによって互いに対応すると判断された単語についてのそれぞれのマイニング結果をさらに統合するマイニング結果個別統合ステップと、を備える方法。
【0020】
したがって、(5)に係る方法は、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するユーザごとの統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0021】
(6) コンピュータに、(5)に記載の方法の各ステップを実行させるためのプログラム。
【0022】
したがって、(6)に係るプログラムは、コンピュータに、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するユーザごとの統合的なマイニング結果を効率よく、かつ、迅速に作成させることができる。
【発明の効果】
【0023】
本発明によれば、テキストデータについてのマイニング分析の結果に基づいて、結果を利用するユーザごとの統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
さらに、各ユーザが持つ用語対応辞書のうち、共通する同義語に基づく表記ゆれの補正を予めマイニング分析結果に対して行うことで、分析結果の表示にかかるタイムラグを低減することができる。また、共通テーブルを持つことで、全ユーザに対応する用語を一括で登録し、統合的なマイニング結果を迅速に作成することができる。
【発明を実施するための形態】
【0025】
以下、本発明の実施形態について、図を参照しながら説明する。
図1は、本発明の一実施形態に係るマイニング分析装置10の構成を示す図である。
マイニング分析装置10は、テキスト取得手段11と、マイニング分析手段12と、用語対応辞書DB31と、マイニング結果記憶制御手段13と、用語共通判断手段14と、マイニング結果共通統合手段15と、用語個別判断手段16と、マイニング結果個別統合手段17とを備える。
マイニング分析装置10は、用語対応辞書DB31に基づいて、マイニング結果を利用するユーザの全てにとって共通の用語及び対応語について、マイニング結果を統合する。その後、マイニング分析装置10は、マイニング結果を利用するユーザごとの用語及び対応語について、統合したマイニング結果をさらに統合する。
【0026】
テキスト取得手段11は、テキストデータを取得する。具体的には、テキスト取得手段11は、キーボード等からテキスト入力されたテキストデータ、音声入力された音声データをテキストデータに変換した音声テキスト、ネットワークから取得した(例えば、インターネットをクローリングすることによって得られた)ネットワークテキストを取得する。
【0027】
マイニング分析手段12は、テキスト取得手段11によって取得されたテキストデータをマイニング分析する。具体的には、マイニング分析手段12は、テキストデータについて、形態素解析と構文解析との自然言語処理を行い、例えば、急増、急減キーワードを抽出したり、トピック分類をしたり、ネガポジ判定等のマイニング分析を行う。
【0028】
マイニング結果記憶制御手段13は、マイニング分析手段12によってマイニング分析された結果であるマイニング結果をマイニング結果記憶部41に記憶させる。
【0029】
用語対応辞書DB31は、マイニング分析手段12によってマイニング分析されるテキストデータに用いられる用語と、その用語に関連する語句と、マイニング結果を利用するユーザの識別情報とを対応付けて記憶するデータベースである。具体的には、用語対応辞書DB31は、ある特定の用語とその同義語である対応語の組み合わせをリスト化したものである。
用語は、単語やフレーズを含む。その用語に関連する語句は、その用語と同義語の単語やフレーズを含む。
マイニング結果を利用するユーザの識別情報は、用語と関連する語句との対応関係を用語対応辞書DB31に登録させたユーザの識別情報である。ユーザの識別情報は、ユーザ個人の識別情報であっても、ユーザ個人が属するグループの識別情報であってもよい。
後述する
図2のように、例として、用語対応辞書DB31には、「バッテリー」、「電源」等が用語として記憶されている。この場合、用語に対応付けて、「電池」が対応語として記憶され、登録させたユーザの識別情報(例えば、グループの識別情報であるグループ名)が対応付けて記憶されている。
用語対応辞書DB31は、予め手作業で用語と対応語とユーザの識別情報とを対応付けて記憶させてもよい。
【0030】
用語共通判断手段14は、用語対応辞書DB31に記憶された用語であって全てのユーザの識別情報に対応付けられている共通の用語に基づいて、マイニング結果において抽出された単語について、互いに対応するか否かを判断する。
具体的には、用語共通判断手段14は、全てのユーザの識別情報に対応付けられている共通の用語、例えば、後述する
図2に示すように、グループαとグループβとグループγ(全てのユーザが、グループαとグループβとグループγとの場合)に対応付けられている用語に基づいて、マイニング分析によって抽出された単語(例えば、「ディスプレイ」)と、抽出された単語に関連して抽出された単語(例えば、「画面」)とが対応するか否かを判断する。すなわち、用語共通判断手段14は、抽出された単語について、用語対応辞書DB31を検索して、用語と対応語とに対応し、かつ、全てのユーザによって登録されているか否かを判断する。
【0031】
マイニング結果共通統合手段15は、用語共通判断手段14によって互いに対応すると判断された単語についてのそれぞれのマイニング結果を統合する。
例えば、後述する
図6で示すように、マイニング結果において単語「A」及び抽出された関連語「β」の出現頻度が82であり、単語「A」及び抽出された関連語「ββ」の出現頻度が35である場合であって、用語対応辞書DB31において「β」と「ββ」とが対応語として対応付けられ、かつ、その対応関係を全てのユーザが用語対応辞書DB31に登録している場合、マイニング結果共通統合手段15は、単語「A」について、出現頻度が117(82+35)として統合し、統合的なマイニング結果とする。
【0032】
マイニング結果共通統合手段15は、統合したマイニング結果を統合結果共通記憶部42に記憶する。
【0033】
用語個別判断手段16は、用語対応辞書DB31に記憶された用語であってユーザの識別情報に対応付けられている個別の用語に基づいて、マイニング結果共通統合手段15によって統合された結果における用語について、互いに対応するか否かを判断する。
【0034】
マイニング結果個別統合手段17は、用語個別判断手段16によって互いに対応すると判断された単語についてのそれぞれのマイニング結果をさらに統合する。
例えば、後述する
図7で示すように、統合結果共通記憶部42に記憶された結果について、用語対応辞書DB31のユーザの識別情報に対応付けられている個別の用語に基づいて、統合された結果における用語について、それぞれのマイニング結果をさらに統合する。マイニング結果個別統合手段17は、統合した結果を統合結果個別記憶部43に記憶させるとしてもよい。
【0035】
次に、マイニング分析装置10が、ユーザテーブル32と、共通テーブル33と、辞書入力受付手段18と、辞書作成手段19とをさらに備える場合について、詳述する。
【0036】
ユーザテーブル32は、ユーザの識別情報を記憶する。ユーザテーブル32は、後述する
図3で示すように、ユーザの識別情報を記憶し、全てのユーザの識別情報か否かを判断するときに参照される。ユーザテーブル32は、ユーザの識別情報として、ユーザ個人の識別情報に、ユーザ個人が所属するグループの識別情報であるグループ名を対応付けてもよい。
【0037】
共通テーブル33は、共通の用語を記憶する。共通テーブル33は、後述する
図4で示すように、用語対応辞書DB31における用語と対応語とのペアのうち、全てのユーザの識別情報に対応付けられている共通の用語と対応語とを記憶する。
【0038】
辞書入力受付手段18は、用語対応辞書を作成するための入力を受け付ける。具体的には、辞書入力受付手段18は、用語に対応する対応語を受け付けて、対応語を追加したり、新たな用語及び対応語を受け付けて、用語及び対応語を追加する。辞書入力受付手段18は、用語や対応語の削除を受け付けることもできる。
なお、辞書入力受付手段18は、表示されたマイニング結果上でのマウス操作等により、用語及び対応語の追加や削除を受け付けるとしてもよい。
【0039】
辞書作成手段19は、辞書入力受付手段18によって受け付けられた入力、例えば、用語及び対応語の追加や削除に基づいて、用語対応辞書を作成する。
すなわち、辞書作成手段19は、受け付けられた入力に基づいて、新たな用語対応辞書DB31を作成したり、既存の用語対応辞書DB31を更新したりする。
【0040】
辞書作成手段19は、辞書入力受付手段18によって入力が受け付けられるごとに、ユーザテーブル32に基づいて、共通テーブル33を作成し、用語共通判断手段14は、共通テーブル33に基づいて、マイニング結果において抽出された単語について、互いに対応するか否かを判断する。
具体的には、辞書作成手段19は、ユーザテーブル32に基づいて、用語対応辞書DB31に記憶された用語のうち同一の用語に全てのユーザの識別情報が対応付けられていると判断した場合、その同一の用語を共通テーブル33に記憶させる。同様に、辞書作成手段19は、ユーザによって登録されていた用語が用語対応辞書DB31から削除された場合、その用語が共通テーブル33に記憶されている場合に、その用語を共通テーブル33から削除する。
【0041】
マイニング分析装置10は、マイニング結果表示手段20をさらに備える。マイニング結果表示手段20は、マイニング結果の表示の要求に基づいて、マイニング結果記憶部41に記憶されたマイニング結果や、統合結果共通記憶部42に記憶された統合結果、統合結果個別記憶部43に記憶された統合結果をディスプレイに表示する。
【0042】
図2は、本発明の一実施形態に係るマイニング分析装置10が備える用語対応辞書DB31の例を示す図である。用語対応辞書DB31は、用語に対応語と登録ユーザとを対応付けている。登録ユーザに記憶されるユーザの識別情報は、ユーザ個人の識別情報だけでなく、ユーザ個人が含まれるグループの識別情報であってもよい。
さらに、用語対応辞書DB31は、用語に対応付けて付属情報を記憶するとしてもよい。例えば、付属情報は、全てのユーザによって用語が登録されている場合に、共通の用語であることを示すフラグ「all」を記憶するとしてもよい。
【0043】
図2が示すように、用語対応辞書DB31は、「電池」という対応語に対し、表記ゆれの表現である「バッテリー」、上位概念である「電源」という用語と、それぞれ「グループα」や「グループβ」とを対応付けて記憶している。また、例えば、「ディスプレイ」という用語に対し、同義語である「画面」という対応語を、「グループα」、「グループβ」、「グループγ」とに対応付けて記憶している。さらに、
図2の例は、「ディスプレイ」という用語が、全てのユーザ(例えば、全てのユーザがグループαとグループβとグループγとである場合)に共通の用語である場合なので、付属情報が、フラグ「all」を記憶していることを示す例である。
【0044】
図3は、本発明の一実施形態に係るマイニング分析装置10が備えるユーザテーブル32の例を示す図である。
図3(1)のユーザテーブル32は、ユーザの識別情報として、グループ名を記憶する例である。また、
図3(2)に示すように、ユーザテーブル32は、ユーザの識別情報として、ユーザ個人の個人名とユーザ個人が属するグループのグループ名とを対応付けて記憶してもよい。ユーザテーブル32は、グループがいくつ存在するか、ユーザ個人が何人存在するか、全てのユーザか否かを判断する場合に用いられる。ユーザテーブル32は、キーボード等の入力手段により登録されてもよいし、表示されるマイニング分析結果上でのマウス操作等により追加や編集されてもよい。
【0045】
図4は、本発明の一実施形態に係るマイニング分析装置10が備える共通テーブル33の例を示す図である。共通テーブル33は、用語と対応語とを対応付けて記憶する。共通テーブル33に記憶されている用語と対応語とのペアは、用語対応辞書DB31に記憶されている用語と対応語とのペアのうち、全てのユーザの識別情報に対応付けられている共通の用語と対応語とのペアを記憶する。
さらに、共通テーブル33は、共通情報を記憶するとしてもよい。例えば、共通情報は、全てのユーザによって用語が登録されている場合に、フラグ「all」を記憶するとしてもよい。
共通テーブル33は、用語対応辞書DB31に記憶されている用語のうち、共通する用語のみを記憶し、用語共通判断手段14は、共通テーブル33を参照することによって、迅速に判断することができる。
図4の例は、
図2の用語対応辞書DB31の例に対応して、全てのユーザに共通の用語として「ディスプレイ」を記憶する例である。この場合、例えば、グループα又はグループαに所属するユーザ個人(例えば、
図3の例ではユーザA、ユーザD、ユーザE)によってマイニング結果表示が要求されると、全ユーザに共通の処理において「ディスプレイ」について統合され、その後、ユーザごと(例えば、ユーザAの場合にユーザAが属するグループαごと)に個別に用語対応辞書DB31に登録した用語「バッテリー」及び「電源」等に基づいて統合された結果が表示される。
同様に、例えば、グループγ又はグループγに所属するユーザ個人(例えば、
図3の例ではユーザC)によってマイニング結果表示が要求されると、既に共通処理において「ディスプレイ」について統合された統合結果を利用して、さらに、ユーザごと(例えば、グループγごと)に個別に用語対応辞書DB31に登録した用語に基づいて統合された結果が表示される。なお、そのユーザの共通の統合結果が統合結果共通記憶部42に既に記憶されている場合、個別に用語対応辞書DB31に登録した用語に基づいての統合処理のみが実行されて、共通の統合結果がさらに統合されたマイニング結果が表示される。
【0046】
ここで、用語対応辞書DB31と、ユーザテーブル32と、共通テーブル33とについて、上述の内容をまとめる。
マイニング結果共通統合手段15が、全ユーザに共通の統合結果を作成し、マイニング結果個別統合手段17が、全ユーザに共通の統合結果をさらに個別に統合するためには、マイニング分析装置10は、少なくとも用語対応辞書DB31を備え、用語対応辞書DB31は、少なくとも、用語と対応語と登録ユーザとを備えていればよい。さらに、マイニング分析装置10は、ユーザの識別情報を記憶するユーザテーブル32と、共通テーブル33とを備えていれば、全ユーザに共通の統合結果を迅速に作成することができる。
マイニング結果共通統合手段15が、全ユーザに共通の統合結果を作成し、マイニング結果個別統合手段17が、全ユーザに共通の統合結果をさらに各ユーザ個人ごとに統合するためには、マイニング分析装置10は、少なくとも用語対応辞書DB31と、ユーザテーブル32とを備え、用語対応辞書DB31は、用語と対応語と登録ユーザとを備え、ユーザテーブルは、ユーザの識別情報としてユーザ個人名とグループ名とを対応付けていればよい。さらに、マイニング分析装置10は、共通テーブル33を備えていれば、グループ共通の統合結果を迅速に作成することができる。
【0047】
図5は、本発明の一実施形態に係るマイニング分析装置10が備える用語対応辞書DB31の別の例を示す図である。用語対応辞書DB31が、用語に、対応語と、条件1と、条件2と、登録ユーザとを対応付けている例である。
図5が示すように、用語対応辞書DB31は、同じ文章に含まれるキーワードを条件用語として記憶してもよい。これにより、用語対応辞書DB31は、同じ用語であっても異なる対応語を記憶することができる。例えば、テキストデータにキーワードとして「最新機種」という用語が用いられている場合であって、さらにテキストデータに「N社」という会社名が含まれる場合、「最新機種」は条件1に対応付けられた「機種N」及び「機種M」に対応し、「A社」という別の会社名が含まれている場合、「最新機種」は条件1に対応付けられた「機種A」に対応するように、記憶する。このような記憶をすることにより、マイニング分析装置10は、テキストデータに用いられている曖昧な用語を正確な用語に対応させて補正することにより、正確にマイニング分析することができる。
この条件用語は、マイニング結果の統合結果の中から、急増・急減したキーワードとしてユーザによって確認され、キーワードの関連用語として選択されることにより、用語対応辞書DB31に記憶されるとしてもよい。
さらに、用語対応辞書DB31は、用語の使われている期日を条件として記憶するとしてもよい。例えば、「最新機種」という用語は「N社」という会社名が含まれた場合、条件2で指定されている期日によって、「最新機種」を「機種M」と、「機種N」との異なる機種に対応付けることが可能となる。
また、用語対応辞書DB31は、「登録ユーザ」を記憶してもよい。登録ユーザは、ペア単語を登録したユーザ(ユーザ個人又はその所属チーム等)を表わし、そのペア情報を反映する対象ユーザを規定できる。例えば、用語対応辞書DB31は、ユーザ2にとっての「最新機種」を「機種B」に、ユーザ3にとっての「最新機種」を「機種C」に対応付けることができる。
【0048】
図6は、本発明の一実施形態に係るマイニング分析装置10が、マイニング結果について、共通に統合する例を示す図である。
マイニング分析装置10は、関連情報を含むマイニング結果を、(1)及び(2)のように統合する。
(1)各マイニング結果において、抽出した単語と抽出した関連語とが対応語である(用語対応辞書DB31に対応語として登録されている)場合には、各マイニング結果から削除する。
(2)各マイニング結果において、抽出した単語が同じで、関連語同士が対応語である場合、又は関連語が同じで抽出した単語同士が対応語である場合に、抽出した単語のマイニング結果(例えば、頻度情報)を加算する(対応語を同じ用語に置換し、マイニング結果を統合する)。なお、マイニング結果同士を比較して、抽出した単語が同じで、関連語が同じである場合、時刻情報が同一のもの(時刻情報の差が所定の時間範囲内のものを同一のものとしてよい)に対して、頻度情報を加算するとしてもよい。
図6の例は、「A」と「α」、「B」と「BB」、及び「β」と「ββ」がそれぞれ対応語である場合に、頻度情報を加算して統合する例である。
図6の例において、抽出単語「A」及び関連語「α」のマイニング結果と、抽出単語「B」及び関連語「β」のマイニング結果とは、(1)の対応語の条件により統合されない。
なお、(1)及び(2)のいずれでもない(例えば、抽出した単語がユニークで対応語がない)場合、マイニング結果を統合結果共通記憶部42にマージして記憶する。
【0049】
図7は、本発明の一実施形態に係るマイニング分析装置10が、共通に統合された統合結果について、個別に統合する例を示す図である。マイニング分析装置10は、統合結果共通記憶部42に記憶された、共通に統合された統合結果を、用語対応辞書DB31のユーザごとに登録された用語に基づいて、上述の統合の方法と同様の方法により、さらに統合する。
図7(1)の例は、用語対応辞書DB31において、「δ」と「δδ」とがグループαのみに対応付けられた対応語であり、「ε」と「εε」とは、グループβのみに対応付けられた対応語である場合であって、グループαによってマイニング結果の表示処理が実行された場合に、「δ」と「δδ」との頻度情報を加算して統合する例である。
図7(2)の例は、
図7(1)の用語対応辞書DB31において、グループβによってマイニング結果の表示処理が実行された場合に、「ε」と「εε」との頻度情報を加算して統合する例である。
【0050】
図8は、本発明の一実施形態に係るマイニング分析装置10が、ネガポジ判定情報を含むマイニング結果について、共通に統合する例を示す図である。
マイニング分析装置10は、ネガポジ判定情報を含むマイニング結果を、(1)及び(2)のように統合する。
(1)各マイニング結果において、抽出した単語同士が対応語であり(用語対応辞書DB31に用語と、対応語として登録されている)、時刻情報が同一のもの(時刻情報の差が所定の時間範囲内のものを同一のものとしてよい)である場合には、各マイニング結果を統合する。
(2)(1)の場合において、各マイニング結果において抽出した単語同士のマイニング結果(ネガティブ頻度、ポジティブ頻度、頻度総数)を加算する(すなわち、対応語を同じ用語に置換し、マイニング結果を統合する)。
マイニング分析装置10は、対応しないと判断した単語についてのマイニング結果を、統合結果共通記憶部42にマージして記憶する。
統合する方法は、ネガティブ頻度、ポジティブ頻度、又は頻度総数のそれぞれについて、(a)加算する、(b)平均する、又は(c)重み付け加算する、としてもよい。
図7の例は、「A」と「AA」、「B」と「BB」がそれぞれ対応語であり、(a)加算して、統合する例である。
【0051】
図9は、本発明の一実施形態に係るマイニング分析装置10が、ネガポジ判定情報を含み共通に統合された統合結果について、個別に統合する例を示す図である。
マイニング分析装置10は、統合結果共通記憶部42に記憶された、ネガポジ判定情報を含み共通に統合された統合結果を、用語対応辞書DB31のユーザごとに登録された用語に基づいて、上述の統合の方法と同様の方法により、さらに統合する。
図9(1)の例は、用語対応辞書DB31において、「C」と「CC」とがグループαのみに対応付けられた対応語であり、「D」と「DD」とは、グループβのみに対応付けられた対応語である場合、グループαによってマイニング結果の表示処理が実行された場合に、「C」と「CC」との頻度情報を加算して統合する例である。
図9(2)の例は、
図9(1)の用語対応辞書DB31において、グループβによってマイニング結果の表示処理が実行された場合に、「D」と「DD」との頻度情報を加算して統合する例である。
【0052】
図10は、本発明の一実施形態に係るマイニング分析装置10のマイニング分析処理を示すフローチャートである。マイニング分析装置10は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成され、以下の処理は、制御部(例えば、CPU)が所定のソフトウェアに従い実行する処理である。
【0053】
ステップS101において、CPU(テキスト取得手段11)は、テキストデータを取得する。より具体的には、CPUは、入力されたテキストデータや、インターネットをクローリングすることによって得られたテキストデータ等を取得する。
【0054】
ステップS102において、CPU(マイニング分析手段12)は、取得したテキストデータをマイニング分析する。より具体的には、CPUは、ステップS101において入力したテキストデータについて、形態素解析と構文解析との自然言語処理を行い、マイニング分析する。
【0055】
ステップS103において、CPU(マイニング結果記憶制御手段13)は、マイニング結果を格納する。より具体的には、CPUは、マイニング分析したマイニング結果をマイニング結果記憶部41に格納する。
【0056】
図11は、本発明の一実施形態に係るマイニング分析装置10のマイニング結果統合処理を示すフローチャートである。マイニング分析装置10は、ステップS103において格納したマイニング結果について処理する。
【0057】
ステップS201において、CPUは、統合する対象のマイニング結果の指定を受け付ける。より具体的には、CPUは、テキストデータの識別情報を受け付け、利用するユーザの識別情報を受け付ける。
【0058】
ステップS202において、CPU(用語共通判断手段14)は、全てのユーザに共通の統合結果が作成されているか否かを判断する。より具体的には、CPUは、統合結果共通記憶部42に記憶されている、全ユーザに共通の統合結果の作成された時刻が、共通テーブル33の作成された時刻よりも後か否かを判断する。この判断がYESの場合、CPUは処理をステップS204に移し、この判断がNOの場合、CPUは処理をステップS203に移す。
【0059】
ステップS203において、CPU(マイニング結果共通統合手段15)は、共通テーブル33の用語であって、全ユーザに共通する用語に基づいて、マイニング結果を統合する。より具体的には、CPUは、ステップS201で指定されたマイニング結果について、共通テーブル33に記憶された、全ユーザに共通する用語に基づいて、マイニング結果を統合し、統合結果共通記憶部42に記憶する。
【0060】
ステップS204において、CPU(用語個別判断手段16、マイニング結果個別統合手段17)は、用語対応辞書DB31に基づいて共通の統合結果をさらに統合する。より具体的には、CPUは、統合結果共通記憶部42に記憶された共通の統合結果を、用語対応辞書DB31に基づいて、ステップS201において統合を指定したユーザの識別情報に対応付けられた用語について、さらに統合する。
【0061】
ステップS205において、CPUは、統合結果を出力する。より具体的には、CPUは、ステップS204で統合した統合結果を表示装置に表示する。
【0062】
図12は、本発明の一実施形態に係るマイニング分析装置10の用語対応辞書DB31の更新処理を示すフローチャートである。
【0063】
ステップS301において、CPU(辞書入力受付手段18)は、用語対応辞書DB31の更新を受け付け、用語対応辞書DB31を更新する。
【0064】
ステップS302において、CPU(辞書作成手段19)は、共通の用語の登録が変更されたか否かを判断する。より具体的には、CPUは、用語対応辞書DB31の更新された用語について、全てのユーザによって登録されている状態から、一部のユーザによってのみ登録されている状態になったか否か、又は一部のユーザによってのみ登録されている状態から、全てのユーザによって登録されている状態になったか否か、を判断する。この判断がYESの場合、CPUは処理をステップS303に移し、この判断がNOの場合、CPUは処理を終了する。
【0065】
ステップS303において、CPU(辞書作成手段19)は、共通テーブル33を更新する。より具体的には、CPUは、用語対応辞書DB31における付属情報の状態が変化した用語について、共通テーブル33への追加や共通テーブル33からの削除を行う。この処理の後、CPUは、処理を終了する。
【0066】
本実施形態によれば、マイニング分析装置10は、テキストデータを取得し、取得したテキストデータをマイニング分析し、マイニング分析した結果であるマイニング結果をマイニング結果記憶部41に記憶させる。そして、マイニング分析装置10は、用語対応辞書DB31に記憶された用語であって全てのユーザの識別情報に対応付けられている共通の用語に基づいて、マイニング結果において抽出された単語について、互いに対応するか否かを判断し、互いに対応すると判断した単語についてのそれぞれのマイニング結果を統合する。さらに、マイニング分析装置10は、用語対応辞書DB31に記憶された用語であって、ユーザの識別情報に対応付けられている個別の用語に基づいて、統合された結果における用語について、互いに対応するか否かを判断し、互いに対応すると判断した単語についてのそれぞれのマイニング結果をさらに統合する。
さらに、マイニング分析装置10は、ユーザを記憶するユーザテーブル32と、全ユーザに共通の用語を記憶する共通テーブル33とを備え、用語対応辞書DB31が更新されると、共通テーブル33を作成し、共通テーブル33に基づいて、マイニング結果を共通に統合する。
したがって、マイニング分析装置10は、テキストデータについてのマイニング分析の結果に基づいて、その結果を利用するユーザごとの統合的なマイニング結果を効率よく、かつ、迅速に作成することができる。
【0067】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。