(58)【調査した分野】(Int.Cl.,DB名)
前記第2重み付け部は、前記第1重み付け部により前記第1データ要素に対して算出された重み付け値に対して、前記第1重み付け部により前記第2データ要素に対して算出された重み付け値に所定の係数を乗じた値を加算して、前記第1データ要素に対して算出された重み付け値を更新する
ことを特徴とする請求項1に記載のデータ分析システム。
前記第2重み付け部は、前記第1データ要素と前記第2データ要素が所定範囲内に存在する場合にのみ、前記第1重み付け部により前記第1データ要素に対して算出された重み付け値と前記第1重み付け部により前記第2データ要素に対して算出された重み付け値を用いて、前記第1データ要素の前記重み付け値を更新する
ことを特徴とする請求項2〜4のいずれか一項に記載のデータ分析システム。
前記第2重み付け部は、前記第1重み付け部により前記第1データ要素に対して算出された重み付け値が前記第1重み付け部により前記第2データ要素に対して算出された重み付け値よりも大きい場合にのみ、前記第2データ要素に対して算出された重み付け値を用いて、前記第1データ要素の前記重み付け値を更新する
ことを特徴とする請求項2〜5のいずれか一項に記載のデータ分析システム。
前記第2重み付け部は、前記第1データ要素に対する重み付け値を、前記データ中において、所定範囲内に含まれる複数のデータ要素各々の重み付け値の畳み込み積分により算出する
ことを特徴とする請求項2〜4のいずれか一項に記載のデータ分析システム。
【発明を実施するための形態】
【0016】
<実施の形態>
本発明に係るデータ分析システムの一実施態様について、図面を参照しながら説明する。
<概要>
【0017】
本実施の形態に係るデータ分析システムは、入力されたデータが所定の事案に関連するか否かをデータに含まれるデータ要素に基づいて判断する。そのためにデータ分析システムは、予め、所定の事案に関連するデータと、所定の事案に関連しないデータとを受け付けて、それぞれから、それぞれを構成するデータ要素を抽出し、そのデータ要素の重み値を算出して記憶する。データ分析システムは、算出した重み値を記憶しておく。そして、データ分析システムは、新たな所定の事案に関連するか否かが不明な未分類のデータを受け付けたときに、当該未分類のデータからデータ要素を抽出し、記憶されている当該データ要素の重み値を特定し、データの評価値(スコア、当該データと所定の事案との関連性を定量化した値)を算出する。
以下、データ分析システムの詳細について説明する。
【0018】
<構成>
図1は、データ分析システム100の機能構成を示すブロック図である。
図1に示すように、データ分析システム100は、通信部110と、入力部120と、制御部130と、記憶部140と、表示部150とを含む。
【0019】
通信部110は、ネットワークを介して他の機器にアクセスする機能を有する。また、通信部110は、ユーザ端末との通信が確立できる場合に、制御部130から伝達されたデータのスコアを、当該ユーザ端末に送信する機能も有する。
【0020】
入力部120は、分類情報として、何を基準として分類するか否かについての情報の入力を受け付ける。また、入力部120は、データが所定の事案に関連するか否かを示す情報をユーザから受け付けて制御部130に伝達する機能を有する。
【0021】
制御部130は、記憶部140に記憶されている各種データを参照しながら、データ分析システム100の各部を制御する機能を有するプロセッサである。制御部130は、データ分析システム100が有する各種機能を統括的に制御する。
【0022】
制御部130は、収集部131と、データ抽出部132と、分類情報受付部133と、データ分類部134と、要素抽出部135と、要素評価部136と、評価格納部137と、未分類データ評価部138と、提示部139とを含む。
【0023】
収集部131は、通信部110を介してネットワーク(例えば、インターネット、イントラネットなど)にアクセスし、当該ネットワーク上のデータを取得して、当該ウェブページ情報を記憶部140に記録する機能を有する。ここで、データ分析システム100が取り扱うデータは、文書データ(例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など、少なくとも一部にテキストを含むデータを主に指すが、画像データ、音声データ、映像データなど、任意のデータを広く含む。
【0024】
データ抽出部132は、記憶部140に記憶されているデータから必要に応じたデータを抽出する機能を有する。データ抽出部132は、データ要素の重み値を算出するために用いるデータ(以下、分類データと呼称する)をデータ分類部134に伝達する。また、データ抽出部132は、スコアが算出されていないデータ(以下、未分類データを呼称する)を記憶部140から抽出し、未分類データ評価部138に伝達する。
分類情報受付部133は、所定の事案に対する分類情報を、入力部120から受け付ける。
【0025】
ここで、例えば、所定の事案とは、「訴訟」であったり、「商品の評価」であったり、「ウェブページの記事の印象」等、様々な事象が該当し得る。また、分類情報は、例えば、「訴訟」の場合であれば、「訴訟に関連する」、「訴訟に関連しない」という分類情報を用いることが考えられ、「商品の評価」であれば、「とても良い」、「良い」、「普通」、「悪い」、「とても悪い」という分類情報を用いることが考えられ、「ウェブページの記事の印象」であれば、「好印象」、「普通」、「悪印象」という分類情報を用いることが考えられる。分類の内容、および、分類情報は、ユーザが定めることとする。また、上述の例に示したように分類情報は、2つ以上であれば、いくつあってもよい。
【0026】
データ分類部134は、分類情報受付部133において受け付けられた分類情報のうち、データ抽出部132から伝達されたデータがいずれに該当するかを、入力部120からの入力に基づいて、決定する。データ分類部134は、データ抽出部132から伝達されたデータにいずれの分類に該当するかを示す分類情報を対応付けることで、データを分類する。データ分類部134は、分類情報を対応付けたデータを要素抽出部135に伝達する。
【0027】
要素抽出部135は、データ分類部134により分類情報が対応付けられたウェブページから、データ要素を抽出する機能を有する。ここで、要素抽出部135は、例えば、(1)データが文書データの場合、当該文書データに含まれるキーワード(いわゆる、形態素)、センテンス、段落などをデータ要素として抽出し、(2)データが音声データの場合、当該音声データに含まれる部分音声をデータ要素として抽出し、(3)データが画像データの場合、当該画像データに含まれる部分画像をデータ要素として抽出し、(4)データが映像データの場合、当該映像データに含まれるフレーム画像(または、複数のフレーム画像の組み合わせ)をデータ要素として抽出することができる。
【0028】
要素抽出部135が抽出するデータ要素は、所定の選定基準に従ってデータ分析システム100により選定される。ここでデータ要素を選定する手法としては、分類情報で示される分類に該当する分類データに頻出するデータ要素を用いるとよい。例えば、データ要素は、分類情報が所定の事案に「関連する」または「関連しない」の2値で管理するとした場合に、所定の事案に関連する分類データから抽出されたキーワードから、所定の事案に関連しない分類データから抽出されたキーワードを除去した残りのキーワードをデータ要素として選定することとしてもよい。また、データ要素は、データ分析システム100に対してユーザが入力部120を用いて指定することとしてもよい。
【0029】
要素評価部136は、要素抽出部135が抽出した各データ要素を予め定められた所定の評価基準に従って評価する機能を有する。要素評価部136は、所定の評価基準として、データ要素について分類情報との依存関係を示す伝達情報量を用いて評価することができる。例えば、要素抽出部135が、ウェブページに含まれる文書情報(テキスト)からデータ要素としてキーワードを抽出した場合に、当該キーワードの重み(weight)値を算出することによって当該キーワードを評価する。
要素評価部136は、第1重み付け部161と、第2重み付け部162とを含む。
第1重み付け部161は、各データ要素の重みの初期値を算出する。以下、その手法を説明する。
【0030】
要素評価部136は、要素抽出部135が抽出した各データ要素の重みを所定のアルゴリズムに従って算出する。ここでは、話を簡単にするために、分類情報は、所定の事案に「関連する」と「関連しない」の2値で処理を行うものとする。
【0031】
第1重み付け部161は、算出したデータのスコアについて、ユーザが所定の事案に関連すると判断した分類データのスコアが、ユーザが所定の事案に関連しないと判断した分類データのスコアよりも上位に位置するようになるまで、各データ要素の評価値を繰り返し再評価し、その重みを算出しなおすことができる。具体的には、まず、第1重み付け部161は、一度算出した重みに基づいて、分類データのスコアを算出する。第1重み付け部161は、スコアに従って、分類データを並べる。このとき、データ分析システム100による評価においては、所定の事案に関連する分類データが上位に、所定の事案に関連しない分類データが下位に並ぶようになっていることが望ましい。そこで、第1重み付け部161は、例えば、所定の事案に関連する分類データのスコアが上位に並ぶように、そして、所定の事案に関連しない分類データのスコアがその下位に並ぶようになるまで、当該算出を実行する。
第1重み付け部161は、データ要素の重み値wgtについて、例えば、以下の式(1)を用いて算出する。
【0033】
ここで、wgtは、学習前のi番目の選定キーワードの重み値の初期値を示す。また、wgtは、L回目学習後のi番目の選定キーワードの重みを示す。γはL回目の学習における学習パラメータを意味し、θは学習効果の閾値を意味する。第1重み付け部161は、最終的に参集された重み値を第1重み付け値として、第2重み付け部162に伝達する。
【0034】
第2重み付け部162は、第1重み付け部161が算出したデータ要素の第1重み付け値を用いて、第2重み付け値を算出する。第2重み付け部162は、所定のデータ要素(以下、第1データ要素と呼称する)について、他のデータ要素との関連性も考慮した重み値である第2重み付け値を算出する。
例えば、第2重み付け部162は、以下の式(2)を用いて、第2重み付け値w
iBを算出することができる。
【0036】
上記式(2)において、w
iは、i番目の第1重み付け値であり、w
jは、j番目の第1重み付け値である。また、N
Sは、分類データのs番目のセンテンスに含まれるデータ要素の個数を示す。
【0037】
δ
ij,Sは、i番目のデータ要素と、j番目のデータ要素とが、分類データのs番目のセンテンスに共起するか否か(共に出現しているか否か)を示す指標である。当該指標は、i番目のデータ要素とj番目のデータ要素とがデータ中(例えば、同一のセンテンス中、同一の段落中など)に共起する場合に、1となり、共起しない場合には、0となる。
【0038】
Cmp(w
i,w
j,d
ij)は、比較関数(コンパレータ)である。Cmp(w
i,w
j,d
ij)は、i番目のデータ要素の重み値とj番目のデータ要素の重み値とを比較し、w
i>w
jである場合に、w
jF(d
ij)となり、w
i≦w
jである場合に、0となる関数である。F(d
ij)は、i番目のデータ要素と、j番目のデータ要素との間の距離に応じた値を示す関数である。当該関数F(d
ij)は、データ要素間の距離が大きくなるにつれ、小さくなる関数であることがのぞましく、ここでは、0〜1の間の値をとる。これにより、ただ、共起しているだけで、データ要素とデータ要素とが互いに関連していると評価されることを防止できる。データ要素とデータ要素とが互いに関連性が高いと考えられるのは、互いに近接して出現する場合であると考えられるからである。なお、当該コンパレータは、第2重み付け値の算出にあたって、必須の構成ではない。
【0039】
上記式(2)によれば、i番目のデータ要素とj番目のデータ要素が、所定範囲内(データのセンテンス中)に共起する場合であって、i番目のデータ要素の第1重み付け値が、j番目のデータ要素の第1重み付け値よりも大きい場合に、i番目のデータ要素の第2重み付け値は、i番目のデータ要素の第1重み付け値に、j番目のデータ要素の重み値を所定範囲内に含まれるデータ要素数で除した値を、加算した値になる。
【0040】
要素評価部136は、算出した各データ要素に対応付けてそれぞれの第2重み付け値を評価格納部137に伝達する。なお、第2重み付け値は、第1重み付け値と同値になる場合もある。
評価格納部137は、要素評価部136から伝達された各データ要素とその第2重み付け値を対応付けて記憶部140に格納する機能を有する。
【0041】
未分類データ評価部138は、データ抽出部132から伝達された未分類データを、記憶部140に記憶されているデータ要素の第2重み付け値を用いて、所定の事案に関連するか否かを評価する機能を有する。
【0042】
具体的には、未分類データ評価部138は、データ抽出部132から未分類データに含まれるデータ要素を特定する。そして、当該データ要素の評価値を、記憶部140に格納されている各データ要素の第2重み付け値を参照して特定する。そして、未分類データ評価部138は、未分類データに含まれるデータ要素各々の第2重み付け値を統合して、予め定められた範囲内の値(例えば、0〜10000の間)をとるように、スケーリングして当該未分類データのスコアとして算出する。
【0043】
より具体的には、例えば、未分類データ評価部138は、未分類データから抽出されたデータ要素についてのデータ要素ベクトルを生成する。データ要素ベクトルは、記憶部140に評価付けされているデータ要素が未分類データに含まれるか否かに基づくベクトル(bag of words)である。
【0044】
未分類データ評価部138は、記憶部140に未分類データに第2重み付け値が対応付けられているデータ要素が含まれている場合に、データ要素ベクトルの対応するベクトル値を「0」から「1」に変更する。そして、こうして未分類データから抽出されたデータ要素に基づいて、その未分類データについてのデータ要素ベクトルを生成する。未分類データ評価部138は、生成したデータ要素ベクトルと、各データ要素の評価値(重み)との内積を計算することにより、未分類データのスコアSを算出する(下記式(3)参照)。
【0046】
ここで、sはキーワードベクトルを表し、wは重みベクトルを表す。なお、Tは転置を意味する。なお、未分類データ評価部138は、上記のように、未分類データごとに1つのスコアを算出することもできるし、未分類データを所定の区切り(例えば、センテンス、段落、所定の長さで分割された部分音声、所定数のフレームを含む部分動画など)で分けた単位ごとに1つのスコアを算出することもできる(詳細については後述する)。
【0047】
提示部139は、未分類データ評価部138により算出された未分類データのスコアを提示する機能を有する。なお、提示部139は、未分類データのスコアに関する情報をユーザに提示すると記載したが、これは一例であり、その他にも例えば、スコアの高いものから降順でウェブページを提示することとしてもよいし、所定のスコア以上の未分類データを提示することとしてもよい。提示部139は、必要に応じて、未分類データとそのスコアを含む提示情報を、通信部110または表示部150に伝達する。例えば、提示部139は、通信部110がユーザの通信端末と通信可能に接続されている場合には、提示情報を通信部110に伝達し、それ以外の場合には表示部150に伝達する。
【0048】
記憶部140は、データ分析システム100が、データ分析のために用いるために必要とするプログラムおよび各種データを記憶する機能を有する記録媒体である。記憶部140は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、半導体メモリ、フラッシュメモリなどにより実現される。なお、
図1では、データ分析システム100が記憶部140を備える構成を示しているが、記憶部140は、データ分析システム100外部のものであって、データ分析システム100と通信可能に接続された記憶装置であってもよい。記憶部140は、データ要素の第2重み付け値を対応付けて記憶する。
【0049】
表示部150は、制御部130から出力された表示データに基づく画像を表示する機能を有するモニターである。表示部150は、例えば、LCD(Liquid Crystal Display)や、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)ディスプレイなどにより実現されてよい。本実施の形態においては、表示部150は、提示部139から伝達されたユーザに未分類データのスコアを表示する。
<動作>
図2は、データ分析システム100の、分類データを分析し、データ要素の評価を算出する際の動作を示すフローチャートである。
【0050】
図2に示すように、データ分析システムのデータ抽出部132は分類データをデータ分類部134に伝達する(ステップS201)。一方で、分類情報受付部133は、分類データに対する分類の指定(例えば、所定の事案に関連する、関連しないなど)を受け付ける(ステップS202)。
【0051】
データ分類部134は、入力部120からユーザの指定による分類情報を分類データに対応付けることにより分類する(ステップS203)。例えば、データ分類部134は、分類データが所定の事案に関連するとの指定を、入力部120を介して受け付けていた場合に、分類データに対して所定の事案に関連するという分類情報を対応付ける。
要素抽出部135は、分類データ(例えば、訴訟関連文書、ユーザがアクセスしたウェブページなど)からデータ要素を抽出する(ステップS204)。
【0052】
要素評価部136の第1重み付け部161は、要素抽出部135が抽出したデータ要素各々を評価し、その第1重み付け値を算出する(ステップS205)。第1重み付け部161は、算出した第1重み付け値を第2重み付け部162に伝達する。
【0053】
第2重み付け部162は、データ要素の第1重み付け値に、他のデータ要素に対して算出された第1重み付け値を加味した第2重み付け値を、上記式(2)を用いて、算出する(ステップS206)。第2重み付け部162は、算出した第2重み付け値と対応するデータ要素を評価格納部137に伝達する。
評価格納部137は、伝達された第2重み付け値と対応するデータ要素を示す情報とを対応付けて記憶部140に格納する(ステップS207)。
【0054】
図2に示す処理を実行することにより、データ分析システム100は、未分類データを評価するための前段階としてデータ要素の重み値を算出し、記憶することができる。
【0055】
以上が、データ要素の各評価を決定するまでのデータ分析システム100の動作である。
図2に示す処理は、未分類のデータを分類するために、ユーザが指定した分類された分類データを教師データ(訓練データ)として取得し、当該教師データに含まれるパターン(例えば、キーワード、概念的には、当該キーワードの分布、当該教師データによって表される意味・概念など)を抽出する処理でもある。
図2に示す処理により、未分類データを所定の事案に関連するか否かを特定するための前処理が完了する。
図3は、データ分析システム100の未分類データのスコアを算出する際の動作を示すフローチャートである。
図3に示すように、データ分析システム100の未分類データ評価部138は、データ抽出部132から未分類データを受け付ける(ステップS301)。
【0056】
未分類データ評価部138は、データ抽出部132から伝達された未分類データからデータ要素を抽出する(ステップS302)。未分類データ評価部138は、記憶部140において抽出したデータ要素に対応付けられている第2重み付け値を特定し、当該第2重み付け値を記憶部140から取得する(ステップS303)。
【0057】
そして、未分類データ評価部138は、取得した各データ要素の評価に基づいて(例えば、前述した式(3)を用いて)、当該データ要素を抽出したウェブページのスコアを算出する(ステップS304)。未分類データ評価部138は、算出したウェブページのスコアと対応するウェブページ情報とを提示部139に伝達する。
【0058】
提示部139は、伝達された未分類データのスコアを結果情報としてユーザに提示する(ステップS305)。結果情報は、提示部139から通信部110または表示部150に伝達され、ユーザに提示される。
【0059】
図3に示す処理は、未分類のデータを、所定の事案に関連するか否かを評価するためのスコアを算出する処理であると言える。言い換えれば、教師データから抽出されたパターンが、未知データ(未分類データ)に含まれるか否かを分析することによって、当該未知データと所定の事案(例えば、訴訟に関連するか、あるいは、ウェブページがユーザの嗜好に合致しているかなど)との関連性を評価する処理でもあると言える。
<まとめ>
【0060】
上述の処理により、未分類データを評価するにあたっては、すでに他のデータ要素の関連性が評価済みの重み値を用いて、未分類データを評価することになるので、未分類データのスコアを算出する際のデータ分析システムの処理負荷を軽減することができる。
<変形例>
【0061】
上記実施の形態に係る発明の一実施態様を説明したが、本発明に係る思想がこれに限られないことは言うまでもない。以下、本発明に係る思想として含まれる各種変形例について説明する。
【0062】
(1)上記実施の形態においては、データ要素の重み値に他のデータ要素の重み値を加味するにあたって、式(2)を用いることとしたが、これはその限りではない。他のデータ要素の重み値を加味できる式であれば、その他の式を用いてもよい。
他の式としては、例えば、下記式(4)を用いることとしてもよい。
【0064】
式(4)は、いわゆる、畳み込み積分を示す式であり、所定範囲内に含まれるデータ要素のうち、当該所定範囲の中心となるデータ要素の第2重み付け値を算出するために、当該所定範囲に含まれるデータ要素の第1重み付け値を対象に畳み込み積分を行って算出することを示している。上記式において、f、gはいずれも上記所定範囲を定める関数であり、窓関数と呼称されることもある。一方の関数を他方の関数に対してずらしながら、両者が重複する部分の値を合算することにより、第1データ要素に対して算出された重み付け値に、第2データ要素に対して算出された重み付け値を反省させることができる。
【0065】
(2)上記実施の形態においては、未分類データ評価部138は、データ要素ベクトルと各データ要素の重みの内積をとることで、未分類データのスコアを算出することとしたが、当該算出方法は一例に過ぎない。未分類データ評価部138は、その他の算出方法を用いて未分類データのスコアを算出することとしてもよい。例えば、未分類データ評価部138は、上記式(3)に換えて、以下の式(5)を用いて、未分類データのスコアSを算出してもよい。
【0067】
ここで、m
jは、j番目のキーワードの出現頻度を表し、w
iは、i番目のキーワードの重みを表す。
【0068】
(3)上記実施の形態においては、データ要素間の共起に基づく第2重み付け値を算出することとしているが、未分類データを評価する段階において、更に、共起に基づくスコア算出を行ってもよい。その手法の詳細をここに説明する。
【0069】
例えば、評価対象の未分類データにおいて、データ要素として、第1キーワードと第2キーワードとが出現するとする。このとき、未分類データ評価部138は、第1キーワードが未分類データに出現する際に、当該未分類データにおいて、第2キーワードが出現する頻度(第1キーワードと第2キーワードとの間の相関。共起ともいう)を考慮したスコアリングを実行してもよい。
【0070】
この場合、未分類データ評価部138は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、上記式(3)に換えて、以下の式(6)にしたがってスコアを算出することとしてもよい。
【0072】
なお、上記相関行列Cは、所定のテキストを所定数だけ含む学習用データを用いて、予め最適化されているものとする。例えば、あるテキストにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(最尤推定値ともいう)が、上記相関行列Cの要素に格納される。
式(6)を用いることにより、キーワード間の相関関係を考慮したスコアを算出できるため、より高い精度で未分類データのスコアを算出することができる。
【0073】
(4)上記実施の形態においては、詳細に説明していないが、未分類データ評価部138は、未分類データに含まれる部分データ(例えば、センテンス、段落、所定の長さで分割した部分音声、所定数のフレームを含む部分動画など)ごとにスコアを算出し、そのスコアに基づいてウェブページのスコアを算出することとしてもよい。その手法の詳細をここに説明する。
【0074】
未分類データ評価部138は、部分データごとに所定のデータ要素(例えば、キーワード)が含まれるか否かを示すベクトルを、当該部分データごとに生成する。そして、未分類データ評価部138は、下記式(7)にしたがってウェブページのスコアリングを実行する。
【0076】
ここで、s
iは、i番目の部分データに対応するベクトルである。なお、式(7)においては、共起も考慮した数式(共起行列Cを用いている)であることに注意されたい。当該、共起行列は、含まなくともよい。
上記式(7)におけるTFnormは、以下の式(8)のように算出することができる。
【0078】
ここで、上記式(8)において、TF
iは、i番目のデータ要素(キーワード)の出現頻度(Term Frequency)を表し、s
jiは上記i番目のキーワードベクトルのj番目の要素を表し、c
jiは相関行列Cのj行i列の要素を表す。
【0079】
上記式(7)、(8)を統合すると、未分類データ評価部138は、以下の式(9)を計算することにより、部分データスコアベースで、ウェブページごとにスコアを算出することができる。
【0081】
上記式(9)において、w
iは、重みベクトルwのi番目の要素である。
以上のように、データ分析システム100は、データの一部に含まれる意味(例えば、センテンスの文意)を反映したスコアリングを実行できるので、より高い精度で未分類データのスコアを提示することができる。
【0082】
(5)上記実施の形態においては、提示部139は算出したスコアを提示するのみであるが、所定の事案に関連する可能性の高い未分類データを提示することとしてもよい。
【0083】
そのために、提示部139は、未分類データを仕分けるための閾値を記憶しておき、未分類データに対して算出されたスコアが当該閾値を超えるか否かに応じて、所定の事案に関連する可能性が高いか否かを判定し、当該閾値を超えた未分類データをユーザに提示することとしてもよい。
【0084】
(6)上記実施の形態においては、特に記載していないが、要素評価部の評価対象として、未分類データを作成したユーザ(例えば、ウェブページの記事を記載したユーザや訴訟関連書類を作成したユーザなど)の感情を対象としてもよい。具体的には、未分類データ上でいわゆる感情を表す単語(形容詞、形容動詞)に重きをおいた評価を実行してもよい。
この場合には、キーワードとして、予め、形容詞や形容動詞を指定しておくとよい。
当該評価方法についての一具体例を説明する。
【0085】
まず、データ分析システム100の要素評価部136は、分類データに含まれるデータ要素(ユーザの感情表現を含むデータ要素、例えば、「楽しい」、「悲しい」などの形態素)に対する感情評価を対応付けて記憶する。例えば、分類データに含まれるテキストについて、予め定められたキーワード(当該キーワードは、テキストの場合では、感情に関する文言)が当該テキストに含まれるか否かを探索する。含まれていた場合に、当該キーワードを所定の基準に従って算出した感情スコアを当該キーワードに対応付けて記憶部140に記憶しておく。
【0086】
そして、未分類データ評価部138は、未分類データから、予め定められた感情に係るキーワードを抽出する。そして、抽出したキーワードに対して、記憶部140において対応付けられている感情スコアを参照する。未分類データ評価部138は、未分類データから抽出されたキーワード各々の感情スコアを統合して、未分類データの感情スコアとする。
【0087】
例えば、テキストに、「この映画は面白かった。もう一度見たい。」という文章が含まれていたとする。そして、キーワードとして、予め、「面白い」「見たい」が記憶部140に格納され、それぞれ、「+1.4」、「+0.9」という感情スコアが対応付けられているとする。この場合、未分類データ評価部138は、当該テキストに対する感情スコアとしては、例えば、両者を加算して、「+2.3」という感情スコアを算出する。
提示部139は、このようにして算出された感情スコアを、未分類データのスコアとして提示してもよい。
【0088】
なお、データ分析システム100は、上記構成を実現するために、キーワードに対する感情スコアを格納する感情格納部、未分類データからデータ要素を抽出し、そのデータ要素として感情に係るキーワードを抽出する感情抽出部を備えてもよい。
(7)上記実施の形態においては、文書情報(テキスト)を分析する例を説明したが、上述したように、音声や画像、映像に対する分析を行ってもよい。
例えば、音声の場合であれば、音声そのものを分析の対象としてもよいし、音声認識により音声を文書に変換したうえでの分析を実行してもよい。
【0089】
音声そのものを分析する場合には、音声を所定の長さの部分音声に分割して、部分音声を分析の対象とする。例えば、「この映画が面白い」という音声が得られた場合、データ分析システム100は、「映画」および「面白い」という部分音声を当該音声から抽出し、当該部分音声を評価した結果に基づいて、未分類の音声と分類情報との関連性を評価することができる。このような場合、データ分析システム100は、時系列データの分類アルゴリズム(例えば、マルコフモデル、カルマンフィルタなど)を利用して音声を分類できる。
【0090】
音声をテキストに変換する場合には、上記実施の形態に示した場合と同様に分類すればよい。音声のテキストへの変換には、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いればよい。
【0091】
あるいは、データ分析システム100は、動画を分析することもできる。この場合にはデータ分析システム100は、動画に含まれるフレーム画像を抽出し、任意のパターンマッチングにより、動画のフレーム内に、あらかじめ定められたデータ要素としての画像(事物や人物など)が含まれるか否かにより、動画を解析し、分類情報との関連性を評価することとしてもよい。
【0092】
(8)上記実施の形態に示したデータ分析システム100は、様々なシステムに適用することができる。
例えば、ディスカバリー支援システム、フォレンジックシステム、メール監査システム、インターネット応用システム、知財調査システム、医療応用システム、実績評価システム(プロジェクト評価システム)、ドライビング支援システム、ポータルサイト運営システム、取引管理システム、コールセンターエスカレーションシステム、マーケティングシステムなど、少なくとも一部において、構造定義が不完全なデータ(非構造化データ、例えば、自然言語を含む文書データ)を扱う任意のシステムに適用できる。
【0093】
例えば、メール監査システムを例に挙げて説明すると、不正に関するメールを特定したい場合に、予め、不正に関係するメールと不正に関係しないメールとを教師データとして、データ要素を抽出して、その第2重み付け値を算出する。当該第2重み付け値は、不正に関係するメールに多く出現したデータ要素ほど高い値になるとする。そして、未知のメールを入力として、未分類データ評価部138は、記憶部140に記憶されている第2重み付け値を用いて、未知のメールのスコアを算出する。当該スコアが高いほど不正に関係する可能性が高いメールとして検出することができる。
【0094】
また、ディスカバリー支援システムでは訴訟関連書類の分類、フォレンジックシステムでは捜査書類の分類、インターネット応用システムでは、ウェブページの分類、知財調査システムでは特許明細書の分類、医療応用システムでは、カルテの分類などに適用することができる。
【0095】
(9)データ分析システム100(情報処理装置)の各機能部は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよい。データ分析システム100の各機能部は、1又は複数の集積回路により実現されても良いし、複数の機能部が1の集積回路により実現されてもよい。
【0096】
あるいは、データ分析システム100の各機能部により実現される機能は、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。この場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するCPU、上記ゲームプログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記データ分析プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該ゲームプログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0097】
なお、上記データ分析プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ分析プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバとを含む分散型のデータ分析システムも、本発明の範疇に入る。
【0098】
(10)本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップ等に含まれる機能等は再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
(11)上記実施の形態および各種変形例に示す構成を適宜組み合わせることとしてもよい。
<補足>
ここに本発明に係るデータ分析システムの一実施態様とその効果について述べる。
【0099】
(a)本発明に係るデータ分析システムは、データを取得する取得部(131)と、前記取得したデータから複数のデータ要素を抽出する抽出部(132)と、前記複数のデータ要素各々に重み付け値を算出する第1重み付け部(161)と、前記複数のデータ要素のうちの一つである第1データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第2データ要素に対して算出された重み付け値を反映させるように前記第1データ要素に対して算出された重み付け値を更新する第2重み付け部(162)と、前記更新された重み付け値を前記第1データ要素に対応付けて、前記第1データ要素の重み付け値として、記憶する記憶部(137、140)とを備える。
【0100】
また、本発明に係るデータ分析方法は、コンピュータが実行するデータ分析方法であって、データを取得する取得ステップと、前記取得したデータから複数のデータ要素を抽出する抽出ステップと、前記複数のデータ要素各々に重み付け値を算出する第1重み付けステップと、前記複数のデータ要素のうちの一つである第1データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第2データ要素に対して算出された重み付け値を反映させるように前記第1データ要素に対して算出された重み付け値を更新する第2重み付けステップと、前記更新された重み付け値を前記第1データ要素に対応付けて、前記第1データ要素の重み付け値として、記憶部に記憶する記憶ステップとを含む。
【0101】
また、本発明に係るデータ分析プログラムは、コンピュータに、データを取得する取得機能と、前記取得したデータから複数のデータ要素を抽出する抽出機能と、前記複数のデータ要素各々に重み付け値を算出する第1重み付け機能と、前記複数のデータ要素のうちの一つである第1データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第2データ要素に対して算出された重み付け値を反映させるように前記第1データ要素に対して算出された重み付け値を更新する第2重み付け機能と、前記更新された重み付け値を前記第1データ要素に対応付けて、前記第1データ要素の重み付け値として、記憶部に記憶する記憶機能とを実現させる。
【0102】
これにより、データ分析システムは、予めデータ要素の重み値として、他のデータ要素との関連性を加味した重み値を算出することにより、未分類データのスコアを算出する際に、他のデータ要素の重み値を考慮したスコア算出をする必要がないので、データ分析システムの処理負荷を軽減することができる。
【0103】
(b)上記(a)に係るデータ分析システムにおいて、前記第2重み付け部は、前記第1重み付け部により前記第1データ要素に対して算出された重み付け値に対して、前記第1重み付け部により前記第2データ要素に対して算出された重み付け値に所定の係数を乗じた値を加算して、前記第1データ要素に対して算出された重み付け値を更新することとしてもよい。
【0104】
これにより、データ分析システムは、第2重み付け値を算出する際に、例えば、選択的に第1重み付け値を加味することができる。したがって、例えば、対象のデータ要素の第2重み付け値を算出するにあたって、関連性の高いデータ要素の第1重み付け値を用いて、算出することができる。
(c)上記(b)に係るデータ分析システムにおいて、前記所定の係数は、前記データに含まれるデータ要素の個数の逆数であることとしてもよい。
これにより、データ中のデータ要素の重要度の濃淡に応じて、第2重み付け値を算出することができる。
【0105】
(d)上記(b)または(c)に係るデータ分析システムにおいて、前記所定の係数は、前記第1データ要素と前記第2データ要素との間の距離に応じた係数であることとしてもよい。
これにより、データ要素の第2重み付け値を算出するにあたって、データ要素間の距離を考慮して、実行することができる。
【0106】
(e)上記(b)〜(d)のいずれかに係るデータ分析システムにおいて、前記第2重み付け部は、前記第1データ要素と前記第2データ要素が所定範囲内に存在する場合にのみ、前記第1重み付け部により前記第1データ要素に対して算出された重み付け値と前記第1重み付け部により前記第2データ要素に対して算出された重み付け値を用いて、前記第1データ要素の前記重み付け値を更新することとしてもよい。
【0107】
これにより、データ要素の第2重み付け値を算出するにあたって、データ要素間の距離を考慮して、実行することができる。データ要素とデータ要素との間の距離が近いほど、データ要素間の関連性が高いと考慮することができるので、当該考慮に応じた第2重み付け値を算出することができる。
【0108】
(f)上記(b)〜(e)のいずれかに係るデータ分析システムにおいて、前記第2重み付け部は、前記第1重み付け部により前記第1データ要素に対して算出された重み付け値が前記第1重み付け部により前記第2データ要素に対して算出された重み付け値よりも大きい場合にのみ、前記第2データ要素に対して算出された重み付け値を用いて、前記第1データ要素の前記重み付け値を更新することとしてもよい。
これにより、
【0109】
(g)上記(b)〜(d)のいずれかに係るデータ分析システムにおいて、前記第2重み付け部は、前記第1データ要素に対する重み付け値を、前記データ中において、所定範囲内に含まれる複数のデータ要素各々の重み付け値の畳み込み積分により算出することとしてもよい。
これにより、従来からある計算手法を用いて、他のデータ要素の第1重み付け値を用いて、第2重み付け値を算出することができる。
【0110】
(h)上記(b)〜(g)のいずれかに係るデータ分析システムにおいて、前記取得部は、前記データとは異なるデータを取得し、前記データ分析システムは、さらに、前記異なるデータを、当該異なるデータに含まれるデータ要素を抽出し、前記記憶部において抽出したデータ要素に対応付けられている重み付け値を用いて、評価する評価部を備えることとしてもよい。
【0111】
これにより、データ分析システムは、新たなデータを受け付けて、その評価を、他のデータ要素との関連性を加味して算出しておいた第2重み付け値を用いて実行することができる。