(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0024】
図1〜
図4に基づいて、本発明の実施の形態を説明する。
【0025】
〔データ分析システム100の概要〕
図2は、データ分析システム100によって実行される処理の過程を示す模式図である。
図2に例示されるように、データ群としてのソーシャルネットワークサービス(Social Network Service、以下「SNS」と略記する)に各ユーザが小説の書評(データ)を投稿している例を用いて、上記処理の過程を概説する。
【0026】
ユーザは、他のユーザが投稿した書評のうち、自身の嗜好に合った書評(分類データ2a)に対して、ユーザの嗜好に合っているか否かの分類を示す分類情報1a(例えば、「いいね!」(Like)ボタンを押すなど)を与えることによって、「嗜好に合った書評」と「嗜好に合わない書評」とを分類することができる。データ分析システム100は、上記分類情報1aを未だ与えていない他の書評(未分類データ2b)と分類情報1aとの関連性を、上記の分類結果に基づいて評価する(例えば、上記関連性の高低を示すスコアを算出する)。
【0027】
図3は、データ分析システム100によって実行された処理の結果を示す模式図である。
図3に例示されるように、データ分析システム100は、ユーザによる分類傾向に則した他の書評を、上記の評価結果に応じてSNSから選択・抽出し、選択した他の書評を投稿した他のユーザを一覧表示する。すなわち、データ分析システム100は、SNSに投稿された膨大な書評を分析し、当該書評に表現された意味を捕捉することによって、ユーザが上記分類情報1aを与えた書評と類似の書評(高いスコアを有する書評)を抽出し、当該類似の書評を投稿した他のユーザを特定することができる。
【0028】
このように、データ分析システム100は、データ群(例えば、SNSなどのウェブページ)に含まれる任意のデータ(テキスト、画像、音声、動画など)を分析することによって、ユーザと属性(嗜好、関心、価値観、趣味、職業、経歴など)が共通する可能性が高い潜在的な他のユーザを特定し、当該ユーザに提示することができる。
【0029】
〔データ分析システム100の構成〕
図1は、データ分析システム100の要部構成の一例を示すブロック図である。データ分析システム100は、以下で説明する複数の処理を含むデータ分析プログラムを実行可能な情報処理装置(例えば、パーソナルコンピュータ、サーバ装置、メインフレームなどのコンピュータ)を、少なくとも1つ含む情報処理システムである。
【0030】
本実施の形態においては、データ分析システム100が1つの情報処理装置(コンピュータ)によって実現される例を説明するが、例えば、以下で説明する複数の処理を任意に分散して実行する複数の情報処理装置を含むシステムであってもよい。また、データ分析システム100は、ディスプレイ(表示部)と、入力デバイスと、メモリと、当該メモリに格納された1つ又は複数のプログラムを実行可能な、1つ又は複数のプロセッサとを備えた、マルチファンクションデバイス(例えば、コンピュータなど)によって、特に好適に実現され得る。
【0031】
図1に例示されるように、データ分析システム100は、制御部10(分類情報受付部11、データ分類部12、要素抽出部13、要素評価部14、未分類データ評価部15、評価格納部16、傾向データ選択部17、ユーザ提示部18、感情格納部19、感情抽出部20、勧誘情報受付部21、所属情報生成部22)、記憶部30、入力部40、および表示部50を備えている。
【0032】
制御部10は、データ分析システム100が有する各種機能を統括的に制御する。制御部10は、分類情報受付部11、データ分類部12、要素抽出部13、要素評価部14、未分類データ評価部15、評価格納部16、傾向データ選択部17、ユーザ提示部18、感情格納部19、感情抽出部20、勧誘情報受付部21、および所属情報生成部22を含む。
【0033】
分類情報受付部11は、データ2の分類を示す分類情報1aを、所定の入力装置(例えば、入力部40)を介してユーザから受け付ける。すなわち、分類情報受付部11は、入力部40から分類情報1aを取得し、当該取得した分類情報1aをデータ分類部12に出力する。なお、以下では、分類データ2aおよび未分類データ2bを総称して、単に「データ2」と称する。
【0034】
ここで、上記分類情報1aは、例えば、ユーザの嗜好に合っているか否かの分類を示す情報である。特に、データ2が、SNSを利用するユーザによって投稿されたテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータである場合、上記分類情報1aは、当該データ2に対して「いいね!」(ユーザの嗜好に合っている)という意思を示したか否かを表わす情報であってよい。なお、分類情報1aは、「ユーザの嗜好に合っているか否か」という二値(バイナリ)フラグでなく、例えば、「合っている」、「やや合っている」、「やや合っていない」、「合っていない」など、当該嗜好の程度を多段階で分類する情報(多値フラグ)であってもよい。
【0035】
データ分類部12は、データ群に含まれる分類データ2aに分類情報1aを対応付けることによって、当該分類データ2aを分類する。ここで、上記データ群は、例えば、SNSなどを提供するウェブページであってよい。また、上記分類データ2aは、例えば、上記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータであってよい。データ分類部12は、分類データ2aと分類情報1aとを対応付けた分類結果3aを要素抽出部13に出力する。
【0036】
要素抽出部13は、分類情報1aに基づいて分類データ2aからデータ要素4aを抽出する。ここで、上記データ要素4aは、上記テキストに含まれるキーワード(例えば、形態素)、画像の一部として含まれる部分画像、音声の一部を構成する部分音声、動画を構成するフレーム画像などであってよい。要素抽出部13は、分類データ2aから抽出したデータ要素4aを要素評価部14に出力する。
【0037】
要素評価部14は、データ要素4aを所定の基準にしたがって評価する。要素評価部14は、例えば、データ要素4aと当該データ要素4aを含む分類データ2aに対応付けられた分類情報1aとの依存関係を表わす伝達情報量を、上記所定の基準の1つとして用いることによって、当該データ要素4aを評価することができる。例えば、分類データ2aがウェブページに含まれるテキストであり、要素抽出部13が当該テキストに含まれるキーワードを当該テキストから抽出した場合、要素評価部14は、上記伝達情報量を用いて当該キーワードの重み(weight)を算出することによって、各キーワードを評価する。要素評価部14は、当該評価した結果(評価結果4b)を未分類データ評価部15および評価格納部16に出力する。
【0038】
未分類データ評価部15は、データ群に含まれる未分類データ2bと分類情報1aとの関連性を、データ分類部12による分類結果3aに基づいて評価する。例えば、未分類データ評価部15は、要素評価部14によって評価されたデータ要素4aを分類結果3aの1つとして用いることによって、上記関連性を評価することができる。
【0039】
また、未分類データ評価部15は、上記未分類データ2bと分類情報1aとの結びつきの強さを示すスコア(例えば、0〜10000の値をとるようにスケーリングされており、値が大きいほど上記結びつきが強いことを示す)を分類結果3aに基づいて算出することによって、両者の関係性を評価することができる。
【0040】
例えば、未分類データ2bがウェブページに含まれるテキストである場合、未分類データ評価部15は、最初に所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、例えば、当該キーワードベクトルのそれぞれの要素が「0」または「1」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記テキストに含まれるか否かを示すベクトル(bag of words)である。例えば、上記テキストに「価格」というキーワードが含まれている場合、未分類データ評価部15は、上記キーワードベクトルの上記「価格」に対応する要素を「0」から「1」に変更する。そして、未分類データ評価部15は、以下の式のように、上記キーワードベクトル(縦ベクトル)と重みベクトル(各キーワードに対する重みを要素にした縦ベクトル)との内積を計算することにより、上記テキストのスコアSを計算する。
【0042】
ここで、sはキーワードベクトルを表し、Wは重みベクトルを表す。なお、Tは行列・ベクトルを転置する(行と列とを入れ替える)ことを表す。
【0043】
または、未分類データ評価部15は、以下の式にしたがってスコアSを算出してもよい。
【0045】
ここで、m
jは、j番目のキーワードの出現頻度を表し、w
iは、i番目のキーワードの重みを表す。なお、未分類データ評価部15は、上記未分類データ2bに含まれる第1データ要素(第1キーワード)が評価された結果(第1キーワードの重み)と、当該未分類データ2bに含まれる第2データ要素(第2キーワード)が評価された結果(第2キーワードの重み)とに基づいて(すなわち、キーワードの共起を考慮して)、上記スコアを算出してよい。また、未分類データ評価部15は、上記テキストにそれぞれ含まれるセンテンスごとにセンテンススコアを算出し、当該センテンススコアに基づいて上記スコアを算出してよい(いずれも後で詳細に説明する)。
【0046】
なお、上記未分類データ2bは、上記分類データ2aと同様に、例えば、上記ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータであってよい。未分類データ評価部15は、評価した結果(評価結果4c)を傾向データ選択部17に出力する。
【0047】
評価格納部16は、要素評価部14による評価結果4bを所定の記憶装置(例えば、記憶部30)に格納する。例えば、分類データ2aがウェブページに含まれるテキストであり、要素抽出部13が当該テキストに含まれるキーワードを当該テキストから抽出した場合、評価格納部16は、要素抽出部13によって抽出された上記キーワードと、要素評価部14によって算出された当該キーワードの重みとを対応付けて、記憶部30に格納する。
【0048】
傾向データ選択部17は、ユーザによる分類傾向に則した未分類データ2bを、未分類データ評価部15による評価結果4cに応じて、データ群から傾向データ2cとして選択する。例えば、未分類データ2bがSNSを利用するユーザによって投稿されたテキストであり、未分類データ評価部15によって各テキストに対して上記スコアが評価結果4cとして算出された場合、傾向データ選択部17は、(1)所定の閾値を超過したスコアを有するテキスト、または(2)スコアが高い順から所定数(例えば、100)のテキストを、ユーザによる分類傾向に則した未分類データ2bとして選択し、当該未分類データ2bを傾向データ2cとしてユーザ提示部18に出力する。なお、傾向データ選択部17は、未分類データ2bの全部を傾向データ2cとして選択してもよい。
【0049】
ユーザ提示部18は、傾向データ2cに関連する他のユーザを、表示部50を介してユーザに提示する。例えば、傾向データ選択部17から入力された傾向データ2cが、SNSを利用するユーザによって投稿されたテキストである場合、ユーザ提示部18は、当該テキストを投稿したユーザ(上記他のユーザ)が一覧可能となるように、当該他のユーザを表示部50に表示させる表示情報1bを当該表示部50に出力する。
【0050】
感情格納部19は、未分類データ2bに含まれるデータ要素4aと当該データ要素4aに対する感情評価4dとを対応付けて、所定の記憶装置(例えば、記憶部30)に格納する。例えば、データ2がウェブページに含まれるテキストである場合、感情格納部19は、予め定められたキーワードが当該テキストに含まれているか否かを探索する。含まれている場合、感情格納部19は、当該キーワードを抽出し、所定の基準にしたがって算出した感情スコアを感情評価4dとして当該キーワードに対応付けて記憶部30に格納する。
【0051】
感情抽出部20は、未分類データ2bが事象(ユーザの評価対象となる出来事を広く指す)に対するユーザの評価を少なくとも含むデータである場合に、当該未分類データ2bを生成したユーザの感情であって、上記評価に基づいて生じた上記事象に対する感情を、当該未分類データ2bから抽出する。ここで、ユーザが「ある小説を読んだ」という事象に対して「おもしろかった」という評価をし、当該評価に基づいて(作者の作風などが)「好き」というポジティブな感情を抱いた場合に、当該小説のレビューとして「とてもおもしろかったです。家族に勧めようと思います」というテキスト(未分類データ2b)を所定のウェブページ(例えば、SNSを提供するページなど)に投稿した例を考える(
図2、
図3参照)。
【0052】
まず、感情抽出部20は、上記テキストに含まれるキーワードがデータ要素4aとして記憶部30に格納されているか否かを判定する。上記例において、「おもしろかった」というデータ要素4aに「+1.2」という正値(感情評価4d)が対応付けられて、感情格納部19によって記憶部30に予め格納されている場合、感情抽出部20は、「+1.2」を当該テキストの抽出結果3bとする。また、「勧めよう」(「勧める」の活用形)というデータ要素4aに「+0.8」という正値(感情評価4d)が対応付けられて、感情格納部19によって記憶部30にさらに格納されている場合、感情抽出部20は、「+2.0(=+1.2+0.8)」を当該テキストの抽出結果3bとする。感情抽出部20は、当該抽出結果3bを傾向データ選択部17に出力する。
【0053】
感情抽出部20から上記抽出結果3bが傾向データ選択部17に入力された場合、傾向データ選択部17は、未分類データ評価部15による評価結果4cと当該抽出結果3bとに応じて、傾向データ2cを選択することができる。例えば、傾向データ選択部17は、所定の閾値を超過したスコアを有し、かつ、ポジティブな感情が抽出された(抽出結果3bが正の値となる)未分類データ2bを傾向データ2cとして選択してよい。
【0054】
勧誘情報受付部21は、ユーザが所属するコミュニティに所属するように他のユーザを促す勧誘情報1cを、所定の入力装置(例えば、入力部40)を介して当該ユーザから受け付ける。すなわち、勧誘情報受付部21は、入力部40から勧誘情報1cを取得し、当該取得した勧誘情報1cを所属情報生成部22に出力する。
【0055】
所属情報生成部22は、上記コミュニティへの所属について上記他のユーザから承諾を得られた場合、当該他のユーザを当該コミュニティに所属させる所属情報3cを生成し、当該所属情報3cを記憶部30に格納することによって、当該他のユーザが所属するコミュニティを追加・変更する。
【0056】
入力部(所定の入力装置)40は、ユーザからの入力を受け付ける。本実施の形態において、入力部40は、例えば、マウス、キーボード、タッチパネル、音声入力用マイクなどであってよい。なお、
図1は、データ分析システム100が入力部40を備える構成を例示しているが、入力部40は、当該データ分析システム100と通信可能に接続された任意の入力装置(例えば、携帯端末の入力インターフェース)であってよい。
【0057】
表示部(所定の出力装置)50は、ユーザ提示部18から入力された表示情報1bに基づいて、制御部10による処理結果を表示するデバイスである。本実施の形態において、表示部50は、液晶ディスプレイであってよい。なお、
図1は、データ分析システム100が表示部50を備える構成を例示しているが、表示部50は、当該データ分析システム100と通信可能に接続された任意の出力装置(例えば、携帯端末のディスプレイ)であってよい。
【0058】
記憶部(所定の記憶装置)30は、例えば、ハードディスク、SSD(silicon state drive)、半導体メモリ、DVDなど、任意の記録媒体によって構成される記憶機器であり、データ分析システム100を制御可能なデータ分析プログラム、および当該データ分析システム100が利用する任意の情報を記憶する。なお、
図1は、データ分析システム100が記憶部30を備える構成を例示しているが、記憶部30は、当該データ分析システム100と通信可能に接続された任意の記憶装置であってよい。
【0059】
〔データ分析システム100において実行される処理〕
図4は、データ分析システム100において実行される処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、データ分析方法に含まれる各ステップを表す。
【0060】
まず、分類情報受付部11は、データの分類を示す分類情報1aを、所定の入力装置(例えば、入力部40)を介してユーザから受け付ける(ステップ1、以下「ステップ」を「S」と略記する、分類情報受付ステップ)。次に、データ分類部12は、データ群(例えば、ウェブページなど)に含まれる分類データ2a(例えば、当該ウェブページに記載されているテキストなど)に上記分類情報1aを対応付けることによって、当該分類データ2aを分類する(S2、データ分類ステップ)。次に、要素抽出部13は、上記分類情報1aに基づいて上記分類データ2aからデータ要素4aを抽出し(S3)、要素評価部14は、当該データ要素4aを所定の基準(例えば、伝達情報量)にしたがって評価する(S4)。そして、評価格納部16は、要素評価部14による評価結果4bを所定の記憶装置(例えば、記憶部30)に格納する。
【0061】
未分類データ評価部15は、データ群に含まれる未分類データ2bと分類情報1aとの関連性を、データ分類部12による分類結果3aに基づいて評価する(S6、未分類データ評価ステップ)。次に、傾向データ選択部17は、ユーザによる分類傾向に則した未分類データ2bを、未分類データ評価部15による評価結果4cに応じて、データ群から傾向データ2cとして選択する(S7、傾向データ選択ステップ)。最後に、ユーザ提示部18は、傾向データ2cに関連する他のユーザを、所定の出力装置(例えば、表示部50)を介してユーザに提示する(S8、ユーザ提示ステップ)。
【0062】
なお、上記データ分析方法は、
図4を参照して前述した上記処理だけでなく、制御部10に含まれる各部において実行される処理を任意に含んでよい。
【0063】
〔共起に基づくスコア計算〕
前述したように、未分類データ評価部15は、未分類データ2bに含まれる第1データ要素が評価された結果と、当該未分類データ2bに含まれる第2データ要素が評価された結果とに基づいてスコアを算出できる。例えば、未分類データ評価部15は、第1キーワードがテキストに出現した場合、当該テキストにおいて第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、当該テキストのスコアを計算できる。
【0064】
この場合、未分類データ評価部15は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、(上記〔数1〕ではなく)以下の式にしたがってスコアSを計算できる。
【0066】
なお、上記相関行列Cは、所定のテキストを所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、あるテキストにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
【0067】
以上のように、データ分析システム100は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度でユーザと属性が共通する可能性が高い潜在的な他のユーザを特定することができる。
【0068】
〔センテンスごとに算出したセンテンススコアに基づくスコア計算〕
前述したように、未分類データ評価部15は、テキストにそれぞれ含まれるセンテンスごとにセンテンススコアを算出し、当該センテンススコアに基づいて当該テキストのスコアを算出できる。この場合、未分類データ評価部15は、当該テキストに含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、未分類データ評価部15は、下記の式にしたがってスコアをテキストごとに算出する。
【0070】
ここで、s
sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数4〕にしたがうスコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
【0071】
TFnormは、下記の〔数5〕に示されるように計算できる。
【0073】
ここで、上記〔数5〕において、TF
iはi番目のキーワードの出現頻度(Term Frequency)を表し、s
jiは上記i番目のキーワードベクトルのj番目の要素を表し、c
jiは相関行列Cのj行i列の要素を表す。
【0074】
上記〔数4〕および〔数5〕をまとめると、未分類データ評価部15は、以下の〔数6〕を計算することによってテキストごとに上記スコアを算出する。
【0076】
ここで、上記〔数6〕において、w
iは上記重みベクトルwのi番目の要素である。
【0077】
以上のように、データ分析システム100は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度でユーザと属性が共通する可能性が高い潜在的な他のユーザを特定することができる。
【0078】
〔閾値の設定〕
前述のように、データ分析システム100は、ユーザの嗜好に合っているか否かの分類を示す分類情報1aに基づいて、未分類データ2bに含まれるデータ要素4aを所定の基準に基づいてそれぞれ評価する。そして、データ分析システム100は、当該評価結果4bに基づいて、上記未分類データ2bと上記分類情報1aとの結びつきの強さを示すスコアを算出し、適合率(「ユーザの嗜好に合っている」として選択された傾向データ2cがデータ群に占める割合)に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値として特定することができる。
【0079】
すなわち、データ分析システム100は、ユーザから与えられた分類情報1a(過去のデータに対して人間が判断した結果)に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するスコアを有する未分類データ2bのみを、当該ユーザの嗜好に合っている可能性が高いデータ(傾向データ2c)として選択し、当該傾向データ2cに関連する他のユーザを当該ユーザに提示することができる。言い換えれば、データ分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、未分類データ2bを分別できる。これにより、データ分析システム100は、例えば、ユーザの嗜好をリアルタイムに分析できる(分析対象となるデータが、あらかじめ用意されている必要はない)。
【0080】
より具体的には、分類情報1aが与えられた分類データ2aについてスコアがそれぞれ算出された場合、データ分析システム100は、当該スコアを降順に並べ替える。次に、データ分析システム100は、最大のスコア(当該スコアのランクが1位)を有する分類データ2aから順番に当該分類データ2aに付与された分類情報1aを走査し、「嗜好に合っている」という分類情報1aが付与されたデータの数が、現時点において走査が終了したデータの数に占める割合(適合率)を、順次計算する。
【0081】
例えば、分類情報1aが付与された分類データ2aの数が100である場合に、スコアのランクが1位から20位までのデータについて走査を終了したところ、「嗜好に合っている」という分類情報1aが付与されたデータの数が18であった場合、データ分析システム100は、適合率を0.9(18/20)と計算する。または、スコアのランクが1位から40位までのデータについて走査を終了したところ、「嗜好に合っている」というレ分類情報1aが付与されたデータの数が35であった場合、データ分析システム100は、適合率を0.875(35/40)と計算する。
【0082】
データ分析システム100は、分類データ2aに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、データ分析システム100は、最小のスコア(スコアのランクが100位)を有する分類データ2aから順番に当該分類データ2aに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するスコアを、上記目標適合率を維持可能な最小スコア(適合しきい値)として特定する。
【0083】
そして、データ分析システム100は、ユーザの嗜好に合っているか否かが未だ判断されていない未分類データ2bについて算出されたスコアが、上記適合しきい値を超過しているか否かを判定し、超過していると判定した未分類データ2bを傾向データ2cとして選択できる。これにより、データ分析システム100は、ユーザの嗜好をリアルタイムに分析できる。
【0084】
〔SNS以外のデータ群に適用する例〕
説明を理解容易とするために、データ分析システム100がSNSに含まれるデータ(当該SNSを利用する他のユーザが投稿したテキスト)を分析する例を主に説明したが、当該データ分析システム100は、SNS以外をデータ群とし、当該データ群に含まれるデータを分析することもできる。例えば、上記データ群は、米国民事訴訟におけるディスカバリの準備段階において収集されたドキュメント群であってよい。
【0085】
この場合、上記データ分析システム100は、上記ドキュメント群(分別文書群)に含まれるドキュメント(文書)に対して、ユーザ(レビュア)がそれぞれ付与した、当該ドキュメントを分類するために用いられる識別子である分別符号(タグ)を、分類情報1aとして受け付け、当該ドキュメント群に含まれるドキュメント(分類データ)に分類情報1aを対応付けることによって、当該ドキュメントを分類する。
【0086】
そして、上記データ分析システム100は、ドキュメント群に含まれる他のドキュメント(未分類データ)と分類情報1aとの関連性を分類結果に基づいて(例えば、スコアを計算することによって)評価し、上記レビュアによる分類傾向に則したドキュメントを、評価結果に応じて傾向データ2cとして選択・抽出する。最後に、上記データ分析システム100は、上記傾向データ2cに関連する人物(他のユーザ、例えば、当該訴訟における関係者(カストディアン))を一覧表示する。これにより、上記データ分析システム100は、上記ディスカバリの準備段階において収集されたドキュメントを分別するレビュアの負担を軽減できる。
【0087】
〔文書以外のデータに適用する例〕
説明を簡略化するために、データ分析システム100がテキストを分析する例を主に説明したが、当該データ分析システム100は、テキスト以外のデータを分析することもできる。例えば、データ分析システム100が音声を分析する場合、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(テキスト)に変換し、当該テキストを分析してもよいし、(2)音声データをそのまま分析してもよい。
【0088】
上記(1)の場合、上記データ分析システム100は、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声をテキストに変換し、上記で説明した処理と同様の処理を、当該テキストに対して実行する。これにより、上記データ分析システム100は、音声を分析することができる。
【0089】
上記(2)の場合、上記データ分析システム100は、音声に含まれる部分音声(データ要素)を抽出する。例えば、「価格を調整する」という音声が得られた場合、データ分析システム100は「価格」および「調整」という部分音声を当該音声から抽出し、当該部分音声を評価した結果に基づいて、未分類の音声(未分類データ2b)と分類情報1aとの関連性を評価することができる。この場合、データ分析システム100は、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声を分別できる。これにより、上記データ分析システム100は、音声を分析することができる。
【0090】
または、データ分析システム100は、映像(動画)を分析することもできる。この場合、データ分析システム100は、映像に含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、データ分析システム100は、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像に含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、データ分析システム100は、上記人物および/またはモーションに基づいて、未分類の映像(未分類データ2b)と分類情報1aとの関連性を評価することができる。これにより、上記データ分析システム100は、映像を分析することができる。
【0091】
〔ソフトウェアによる実現例〕
データ分析システム100の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するCPU、上記データ分析プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記データ分析プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該データ分析プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0092】
具体的には、本発明の実施の形態に係るデータ分析プログラムは、分類情報受付機能、データ分類機能、未分類データ評価機能、傾向データ選択機能、およびユーザ提示機能をコンピュータに実現させる。上記分類情報受付機能、データ分類機能、未分類データ評価機能、傾向データ選択機能、およびユーザ提示機能は、上述した分類情報受付部11、データ分類部12、未分類データ評価部15、傾向データ選択部17、およびユーザ提示部18によってそれぞれ実現され得る。詳細については上述した通りである。
【0093】
なお、上記データ分析プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ分析プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、当該各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分散型のデータ分析システムも、本発明の範疇に入る。
【0094】
〔サーバ装置が機能の一部または全部を提供する構成〕
データを分析する機能を提供可能なデータ分析プログラムの一部または全部が、データ分析システム100としてのサーバ装置において実行され、当該実行された処理の結果が任意の情報処理端末に返される構成であってもよい。すなわち、本発明のデータ分析システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。
【0095】
例えば、所定の入力装置を備え、ユーザによって利用されるユーザ端末(例えば、スマートフォン、パーソナルコンピュータなど)に分類情報受付部11が実現され、当該コンピュータによって受け付けられた分類情報1aが、データ分類部12、要素抽出部13、要素評価部14、未分類データ評価部15、評価格納部16、傾向データ選択部17、ユーザ提示部18、感情格納部19、感情抽出部20、勧誘情報受付部21、および所属情報生成部22が実現された上記サーバ装置に、上記ネットワークを介して送信される。そして、当該サーバ装置は、上記分類情報1aを受信し、上記で説明した各種の処理を実行し、実行結果(表示情報1b)を上記ユーザ端末に送信する。
【0096】
これにより、上記サーバ装置およびユーザ端末を含むシステムとして、本発明のデータ分析システムが実現される。
【0097】
〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
【0098】
なお、
既述のデータ分析システムは、データの分類を示す分類情報を、所定の入力装置を介してユーザから受け付ける分類情報受付部と、データ群に含まれる分類データに前記分類情報を対応付けることによって、当該分類データを分類するデータ分類部と、前記データ群に含まれる未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に基づいて評価する未分類データ評価部と、前記ユーザによる分類傾向に則した未分類データに関連する他のユーザを、前記未分類データ評価部による評価結果に応じて特定し、所定の出力装置を介して当該特定した他のユーザを前記ユーザに提示するユーザ提示部とを備えたデータ分析システムとも表現できる。
また、実施態様に係るデータ分析システムは、例えば、分類情報に基づいて分類データからデータ要素を抽出する要素抽出部と、データ要素を所定の基準にしたがって評価する要素評価部とをさらに備え、未分類データ評価部は、要素評価部によって評価されたデータ要素を分類結果の1つとして用いることによって、関連性を評価することができる。
また、実施態様に係るデータ分析システムにおいて、要素評価部は、例えば、データ要素と当該データ要素を含む分類データに対応付けられた分類情報との依存関係を表わす伝達情報量を、所定の基準の1つとして用いることによって、当該データ要素を評価することができる。
また、実施態様に係るデータ分析システムは、例えば、要素評価部による評価結果を所定の記憶装置に格納する評価格納部をさらに備えてよい。
また、実施態様に係るデータ分析システムにおいて、未分類データは、例えば、事象に対するユーザの評価を少なくとも含むデータであり、未分類データを生成したユーザの感情であって、評価に基づいて生じた事象に対する感情を、当該未分類データから抽出する感情抽出部をさらに備え、傾向データ選択部は、感情抽出部による抽出結果にさらに応じて、傾向データを選択することができる。
また、実施態様に係るデータ分析システムは、例えば、未分類データに含まれるデータ要素と当該データ要素に対する感情評価とを対応付けて、所定の記憶装置に格納する感情格納部をさらに備え、感情抽出部は、データ要素に対応付けられた感情評価を用いて未分類データを評価することによって、感情を当該未分類データから抽出することができる。
また、実施態様に係るデータ分析システムは、例えば、ユーザが所属するコミュニティに所属するように他のユーザを促す勧誘情報を、所定の入力装置を介して当該ユーザから受け付ける勧誘情報受付部と、所属について他のユーザから承諾を得られた場合、当該他のユーザをコミュニティに所属させる所属情報を生成する所属情報生成部とをさらに備えてよい。
また、実施態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データと分類情報との結びつきの強さを示すスコアを分類結果に基づいて算出することによって、関係性を評価することができる。
また、実施態様に係るデータ分析システムにおいて、未分類データ評価部は、例えば、未分類データに含まれる第1データ要素と第2データ要素との相関に基づいてスコアを算出することができる。
また、本発明の実施態様に係るデータ分析システムにおいて、例えば、未分類データは、テキストに関するデータを少なくとも含み、未分類データ評価部は、テキストに含まれるセンテンスと分類情報との関連性を、分類結果に基づいて評価し、当該評価結果に基づいて、未分類データと当該分類情報との関連性を評価することができる。
また、本発明の実施態様に係るデータ分析システムにおいて、分類情報は、例えば、ユーザの嗜好に合っているか否かの分類を示す情報であってよい。
また、本発明の実施態様に係るデータ分析システムにおいて、データ群は、例えば、ウェブページを含み、データ、分類データ、および/または未分類データは、例えば、ウェブページに含まれるテキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータを含んでよい。
また、本発明の実施態様に係るデータ分析システムにおいて、ウェブページは、例えば、ソーシャルネットワークサービスを提供するページであり、テキスト、画像、音声、もしくは動画、またはこれらの組み合わせを示すデータは、例えば、ソーシャルネットワークサービスを利用するユーザによって投稿されたデータであってよい。
【0099】
また、
実施形態に係るデータ分析システムは、文書情報から所定数の文書を含む分別文書群を、ユーザによる分別対象として抽出する抽出部と、分別文書群に含まれる文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、分別文書群に含まれる文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部とを備えたデータ分析システムとも表現できる。
【0100】
また、
実施形態に係るデータ分析システムは、車両の周囲から取得された複数のデータから所定の事案と関係するデータを抽出可能なデータ分析システムであって、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合、車両を運転するドライバによって当該所定の事案と関係するか否かが判断された既判断データに基づいて、当該未判断データと当該所定の事案との関係性を評価する関係性評価部と、関係性評価部によって評価された関係性に応じて、未判断データをドライバに報知するデータ報知部とを備えたデータ分析システムとも表現できる。