(58)【調査した分野】(Int.Cl.,DB名)
前記コントローラは、前記指標と所定の閾値とを比較し、当該比較した結果に基づいて、前記複数の対象データ夫々に前記所定の事案に関連する分類情報を設定する、請求項1記載のデータ分析システム。
【発明を実施するための形態】
【0015】
本発明の実施形態を図面に基づいて説明する。
【0016】
〔データ分析システムの構成〕
図1は、データ分析システムのハードウェア構成の一例を示すブロック図である。
図1に例示するように、データ分析システムは、例えば、データ分析の主要処理を実行可能な業務サーバ14と、当該データ分析の関連処理を実行可能な一つ、又は、複数のクライアント装置10と、データ分析の対象となる対象データ、及び、当該対象データに対する評価・分類の結果を記録するデータベース22を備えるストレージシステム18と、クライアント装置10、及び、業務サーバ14に対して、データ分析のための管理機能を提供する管理計算機12とを備えている。
【0017】
なお、本実施の形態において、「データ」は、データ分析システムによって処理可能となる形式で表現された任意のデータであってよい。このとき、上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイル・ヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書など)、音声データ(例えば、会話・音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む。このとき、データの「構成要素」は、上記データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素、キーワード、センテンス、および/または段落であったり、音声を構成する部分音声、ボリューム(ゲイン)情報、および/または音色情報であったり、画像を構成する部分画像、部分画素、および/または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および/または3次元情報であったりしてよい。
【0018】
クライアント装置10は、データを評価・分類する権限があるユーザ(評価権限ユーザ)に参照データを提供する。上記評価権限ユーザは、クライアント装置10を介して当該参照データを評価・分類するための入力を行うことができる。なお、本実施の形態において、上記「参照データ」は、例えば、ユーザによって分類情報が対応付けられたデータ(分類済みのデータ)であってよい。一方、「対象データ」は、当該分類情報が対応付けられていないデータ(参照データとしてユーザに提示されておらず、ユーザにとっては分類がなされていない未分類のデータ)であってよい。ここで、上記「分類情報」は、参照データを分類するために用いる識別ラベルであってよい。分類情報は、例えば、参照データが全体として所定の事案に関係することを示す「Related」ラベル、両者が特に関係することを示す「High」ラベル、および、両者が関係しないことを示す「Non-Related」ラベルのように、当該参照データを3つに分類する情報であったり、「良い」、「やや良い」、「普通」、「やや悪い」、および、「悪い」のように、当該参照データを5つなど複数のタイプに分類する情報であったりしてよい。
【0019】
また、上記「所定の事案」は、データ分析システムがデータとの関連性を評価する対象を広く含み、その範囲は制限されない。例えば、所定の事案は、データ分析システムがディスカバリ支援システムとして実現される場合、ディスカバリ手続きが要求される本件訴訟であってよいし、犯罪捜査支援(フォレンジック)システムとして実現される場合、捜査対象となる犯罪であってよいし、電子メール監視システムとして実現される場合、不正行為(例えば、情報漏えい、談合など)であってよいし、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)として実現される場合、医薬に関する事例・事案であってよいし、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)として実現される場合、インターネットに関する事例・事案であってよいし、プロジェクト評価システムとして実現される場合、過去に遂行したプロジェクトであってよいし、マーケティング支援システムとして実現される場合、マーケティング対象となる商品・サービスであってよいし、知財評価システムとして実現される場合、評価対象となる知的財産であってよいし、不正取引監視システムとして実現される場合、不正な金融取引であってよいし、コールセンターエスカレーションシステムとして実現される場合、過去の対応事例であってよいし、信用調査システムとして実現される場合、信用調査する対象であってよいし、ドライビング支援システムとして実現される場合、車両の運転に関することであってよいし、営業支援システムとして実現される場合、営業成績であってよい。
【0020】
クライアント装置10は、公知のコンピュータハードウェア資源を備えており、例えば、メモリ(例えば、ハードディスク、フラッシュメモリ等)と、コントローラ(CPU;Central Processing Unit)と、バスと、入出力インターフェース(例えば、キーバード、ディスプレイ等)と、通信インターフェースとを備えてよい。クライアント装置10は、LAN等の通信手段20によって、業務サーバ14および管理計算機12と上記通信インターフェースを介して通信可能に接続されている。また、上記メモリには、クライアント装置10を機能させるアプリケーションプログラムなどが記憶されており、上記コントローラは、当該アプリケーションプログラムを実行することにより、分類・評価の処理に必要な入出力を評価権限ユーザに対して可能にする。
【0021】
業務サーバ14は、参照データに対する分類の結果に基づいて、当該参照データからパターン(データに含まれる抽象的な規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない)を学習し、当該パターンに基づいて対象データを評価する。すなわち、業務サーバ14は、ユーザに参照データを提示し、当該ユーザに当該参照データに対する分類情報の入力を許容し、ユーザの入力結果に基づいてパターンを学習し、学習結果に基づいて対象データに対する評価を可能にすることによって、ユーザが所望するデータを、多数の対象データから分別し得るようにしたものである。業務サーバ14は、クライアント装置10と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。また、上記メモリには、業務サーバ14を機能させるアプリケーションプログラムが記憶されており、上記コントローラは、当該アプリケーションプログラムに基づいて、データ分析のための処理を実行する。
【0022】
管理計算機12は、クライアント装置10、ストレージシステム18、及び、業務サーバ14に対して、所定の管理処理を実行する。管理計算機12は、クライアント装置10と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。また、管理計算機12のメモリには、例えば、上記コントローラが管理処理を実行するためのアプリケーションプログラムが記憶されている。
【0023】
ストレージシステム18は、例えば、ディスクアレイシステムから構成され、対象データと当該対象データに対する評価・分類の結果とを記録するデータベース22を備えてよい。業務サーバ14とストレージシステム18とは、DAS(Direct Attached Storage)方式、又は、SAN(Storage Area Network)によって接続(16)されている。
【0024】
なお、
図1に示されるハードウェア構成は、あくまで例示に過ぎず、データ分析システムは、他のハードウェア構成によっても実現され得る。例えば、業務サーバ14において実行される処理の一部または全部がクライアント装置10において実行される構成であってもよいし、ストレージシステム18が業務サーバ14に内蔵される構成であってもよい。データ分析システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、いずれか(例えば、
図1に例示されるような構成)に限定されない。
【0025】
〔データ分析システムの機能〕
図2は、業務サーバ14の機能構成の一例を示す機能ブロック図である。
図2に例示するように、業務サーバ14は、例えば、データベース22に保存された対象データから、所定の基準(例えば、ランダム)にしたがって、一部の対象データを複数サンプリングし、これを参照データとして提供する参照データ提供部102と、参照データに対する分類や、参照データ以外のデータに対する序列化や分類のための情報等をクライアント装置10の表示手段に出力させる表示処理部103と、参照データに対して、評価者権限を持ったユーザからの分類情報の設定(ラベル付け)を受け付ける分類情報受付部104と、分類情報に基づいて、複数の参照データを分類情報ごとに分類し、分類情報ごとの参照データに含まれるパターンを学習する学習部105とを備えてよい。
【0026】
業務サーバ14は、例えば、データの構成要素および当該構成要素の評価値をデータベース22に記憶させる記憶実行部201と、データベース22に対する検索処理を行って、パターンを参照データ以外の対象データから探索する探索部106と、対象データと所定の事案との関連性の高低を示す指標を対象データごとに算出し、当該指標に基づいて複数の対象データを序列化する演算部107と、対象データを序列化した結果に基づいて、当該対象データに対して分類情報を付与する分類部108と、をさらに備えてよい。
【0027】
なお、上記において、****部と表記した構成は、業務サーバ14が備えたコントローラが、プログラム(データ分析プログラム)を実行することによって実現する機能構成であるため、****部を、****処理または****機能と言い換えてもよい。また、****部をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
【0028】
〔データ分析システムの動作〕
図3は、データ分析システムの動作例を示すフローチャートである。管理者権限を有する管理ユーザは、参照データを抽出(サンプリング)するリクエスト(抽出リクエスト300)を、管理計算機12に与える。抽出リクエスト300は、例えば、データベース22に記録されているデータの中から所定数のデータを、参照データとしてランダムにサンプリングするリクエストであったり、所定範囲のデータ(例えば、データの更新日時が3日以内のもの)から所定数のデータを、参照データとしてサンプリングするリクエストであったりしてよい。なお、参照データとして抽出されるデータの割合または数は、管理ユーザが適宜設定することができる。
【0029】
管理計算機12は、抽出リクエスト300に基づいて抽出コマンド302を生成し、当該抽出コマンド302を業務サーバ14に送信する。業務サーバ14が備えた参照データ提供部102は、管理計算機12からの抽出コマンド302に基づいて、データベース22から所定数の参照データを抽出する(304)。
【0030】
業務サーバ14の参照データ提供部102は、抽出された参照データを特定のクライアント装置10(抽出コマンド302で特定されたクライアント装置)に送る(312)。当該特定のクライアント装置10は、評価分類入力インターフェースを起動させ、評価分類入力画面を評価権限ユーザに提示する。
図4は、当該評価分類入力画面の一例である。評価分類入力画面は、例えば、参照データのリスト500と、対象データごとの分類情報を示すチェックボックス502とを含んでよい。
【0031】
評価権限ユーザが、複数の参照データを一覧可能にするリストから1つの参照データを選択すると、
図5に示されるように、例えば、当該選択された対象データの詳細506が表示されるようになっている。参照データの詳細506は、例えば、データのID510と、データの名称512と、対象データの内容(文書データのテキスト等)506とから構成されてよい。
【0032】
評価権限ユーザは、参照データの詳細506を参照して参照データの内容を把握した後、参照データごとのラベルを示すチェックボックスにチェックを入れることにより、当該参照データを分類することができる。例えば、データが所定の事案に関係すると評価権限ユーザが考える場合、「Related」を示すチェックボックスにチェックを入れ、特に関係すると考える場合、「High」を示すチェックボックスにチェックを入れ、関係しないと考える場合、「Non-Related」を示すチェックボックスにチェックを入れる。チェックボックスにチェックを入れると、その情報が業務サーバに送られ(314)、業務サーバ14は、分類情報と参照データの組み合わせをデータベース22に記録する。
【0033】
業務サーバ14が備えた学習部105は、データベース22に記録された上記組み合わせを参照し、分類情報ごとに参照データの集合から構成要素を抽出する(316)。学習部105は、例えば、同じ分類情報が付された複数の参照データに所定の頻度以上で出現する形態素(キーワード)を、構成要素として抽出することができる。
【0034】
また、学習部105は、所定の評価基準(例えば、伝達情報量)に基づいて、抽出した構成要素を評価することができる(318)。例えば、学習部105が文書データ(テキストデータ)から構成要素としてキーワードを抽出した場合、上記所定の評価基準に基づいて、当該キーワードの評価値を算出することにより当該キーワードを評価する。ここで、上記「評価値」は、例えば、当該キーワードが参照データと分類情報との組み合わせに寄与する度合い(構成要素が各データに出現する分布・頻度の、分類情報に応じた偏り)を示す特徴量であってよい。これにより、学習部105は、参照データに対するユーザの入力に基づいて、パターンを学習の結果として当該参照データから取得することができる。
【0035】
業務サーバ14が備えた記憶実行部201は、学習部105が抽出した構成要素と、当該構成要素の評価値と、閾値とをデータベース22に記憶させる。次に、業務サーバ14は、構成要素と対象データとを比較して、対象データと所定の事案との関連性の高低を評価し、対象データを序列化する。具体的には、探索部106が、データベース22から複数の対象データを順番に取り込み、当該対象データに含まれる複数の構成要素を順番に読み込み、当該対象データに各構成要素が出現しているか否かを探索する(320)。当該構成要素が対象データに出現している場合、演算部107が、当該構成要素の評価値に基づいて対象データの指標を算出することによって、複数の対象データを当該指標の大小に基づいて序列化する(322)。ここで、序列化とは、例えば、対象データと当該対象データに対して算出された指標とを対応付けることであってよい。
【0036】
当該処理において、演算部107は、対象データに含まれる構成要素の有無を表現したベクトル(いわゆる「Bag-of-words」)を生成する。例えば、対象データに「価格」というキーワードが含まれている場合、演算部107は、「価格」に対応する当該ベクトルの次元に「1」をセットする。演算部107は、当該ベクトルと各構成要素の評価値(評価値)との内積を計算する(次式)ことにより、上記指標を算出する。
【0037】
【数1】
ここで、sは上記ベクトルを表し、wは評価値ベクトルを表し、Tは転置を表す。
【0038】
なお、演算部107は、上記のように、対象データごとに1つの指標を算出することもできるし、対象データを所定の区切り(例えば、センテンス、段落、所定の長さで分割された部分音声、所定数のフレームを含む部分動画など)で分けた単位ごとに1つの指標を算出することもできる(詳細については後述する)。また、演算部107は、例えば、対象データのうち、データベース22に事前に登録されたキーワード、関連用語、または学習部105において選定された構成要素を含まない対象データを、指標算出の対象から事前に排除することができる。
【0039】
分類部108は、対象データと所定の事案との関連性を示す指標(当該関連性に基づいて複数の対象データを序列化可能とする指標)に基づいて、対象データに対して分類情報を設定する。例えば、分類部108は、対象データの指標が所定の閾値以上である場合、当該対象データに対して分類情報を設定することができる。
【0040】
分類部108は、例えば、序列化された複数の対象データをユーザにそれぞれ提示し、当該ユーザが当該複数の対象データに分類情報をそれぞれ設定する入力を許容したり、ユーザが自動分類された分類情報を確認し、これを変更できるようにしたりしてもよい。指標が上位であるほど、対象データが所定の事案に関連する期待度は高く、対象データに「Related」、または「High」のラベル(分類情報)が設定される可能は高くなるが、例えば、対象データの内容にそれを妨げる情報(例えば、特定の単語)がある場合には、対象データに「Related」のラベルを設定すべきでない場合もあるからである。
【0041】
業務サーバ14は、対象データの管理テーブルをデータベース22に登録する。
図6は、対象データを格納する管理テーブルの一例である。対象データの夫々(データ1,2,3・・・・)について、例えば、対象データID、対象データの名称、指標、分類情報などが記録されている。業務サーバ14における対象データに対する評価とは、例えば、対象データの指標を計算したり、指標に基づいて複数の対象データの夫々にラベルを設定したり、複数の対象データを指標の大小に基づいて識別できるようにさせたり等、複数の対象データと所定の事案との関連性の高低に関する所定の演算処理を含むものである。
【0042】
業務サーバ14は、データベース22に格納された管理テーブルをクライアント装置10に送信する。クライアント装置10は、指標が大きい順に、対象データをソートして表示する。クライアント装置10は、例えば、対象データに対する分類情報の付与を、自動で行うか、手動で行うかの入力欄を提示することができる。ユーザが手動付与を選択すると、評価権限ユーザは、各対象データについて、「Related」、「High」、又は、「Non-Related」のラベルが入力可能となる。管理者は、例えば、序列化された全対象データの上位所定数、あるいは、所定パーセントの対象データに対して分類のためのラベルを設定することもできる。
【0043】
〔学習の実行パターン〕
管理者は、学習部105に、学習の実行パターンを予め設定することができる。当該実行パターンには、例えば、(1)参照データ提供部102によって抽出された参照データの全てに分類情報が入力された後、業務サーバ14が参照データのパターンを学習し、当該パターンに基づいて全ての対象データに対して指標を算出する第1の態様、(2)業務サーバ14が、複数の参照データの夫々に分類情報が入力されるたびに学習を行い、当該学習のたびに対象データの指標を算出する(すなわち、参照データ一つ一つの分類に基づいて上記パターンを逐次更新しながら、対象データの指標を算出する)第2の態様、(3)クライアント装置10が、参照データ提供部102によって抽出された参照データ以外のデータと分類情報との組み合わせを学習部105に供給し、業務サーバ14が、上記パターンを逐次更新しながら対象データの指標を算出する(例えば、評価権限ユーザが対象データに分類情報を設定した場合、当該対象データと分類情報との組み合わせを学習部105にフィードバックして上記パターンを更新する)第3の態様など、複数の態様がある。上記第2の態様においては、参照データ一つ一つへの分類情報の付与が行われる都度、対象データの序列が変更されるため、分類権限を有するユーザは、対象データの序列の変動推移を確認することができる。上記第3の態様においては、対象データを分類した結果が学習部105で得られるパターンに逐次反映されるため、データを評価する精度を逐次向上させることができるという付加的な効果をさらに奏する。
【0044】
〔構成要素の再評価〕
前述したように、学習部105は、参照データの少なくとも一部を構成する複数の構成要素が、参照データセット(参照データと当該参照データを分類する分類情報との組み合わせを複数含むデータセット)における当該組み合わせに寄与する度合いを、所定の基準(例えば、伝達情報量)に基づいて、上記評価値として評価する。
【0045】
このとき、学習部105は、「Related」または「High」のラベルが設定されたデータの指標が、これらのラベルが設定されないデータの指標よりも大きくなるまで、構成要素を選定するとともに、当該構成要素の評価値を繰り返し評価し、当該構成要素の評価値を修正することができる。これによって、データ分析システムは、「Related」または「High」の分類情報が付された複数のデータに出現し、データとラベルとの組み合わせに影響がある構成要素を見つけ出すことができる。なお、伝達情報量は、例えば、所定の単語の出現確率と、所定の分類情報の出現確率とを用い、所定の定義式から算出される。具体的には、学習部105は、例えば、以下の式を用いて構成要素の評価値wgtを算出する。
【0046】
【数2】
ここで、wgtは、学習前のi番目の選定キーワードの評価値の初期値を示す。また、wgtは、L回目学習後のi番目の選定キーワードの評価値を示す。γはL回目の学習における学習パラメータを意味し、θは学習効果の閾値を意味する。これにより、学習部105は、例えば、算出した伝達情報量の値が大きいほど、構成要素が所定の分類情報の特徴を表すものとして評価することができる。
【0047】
また、学習部105は、「Related」が設定された参照データの指標の最低値と、「Non-Related」が設定された参照データの指標の最高値との中間値を、対象データに対して「Related」の設定の有無を自動判定する際の閾値(所定の基準値)とすることができる。
【0048】
学習部105は、例えば、再現率が所定の目標値になるまで、評価値の再評価を継続するようにしてもよい。ここで、再現率とは、所定数のデータに対して発見すべきデータが占める割合(網羅性)を示す指標であり、例えば、全データの30%に対して再現率が80%である場合、発見すべきデータ(例えば、訴訟関連資料)の80%が、指標上位30%のデータの中に含まれていることを示す。データ分析システムを用いず、人がデータに総当たり(リニアレビュー)した場合、発見すべきデータの量は人がレビューした量に比例するため、この比例からの乖離が大きいほどシステムのデータ分析性能が良いことになる。演算部107は、データの指標に基づいて、データと所定の事案との関連性の判断に関する再現率を算出する再現率算出機能と、参照データから構成要素を再選定する再選定機能とを有することができる。
【0049】
学習部105は、序列化された対象データの再現率が目標値を下回っていた場合、再現率が目標値を上回るまで、構成要素を参照データから再選定し、演算部107は、再選定された構成要素に基づいて対象データの序列化を再度実行することを繰り返す。構成要素を再選定する場合、前回選定した構成要素を除いた構成要素を選定するようにしてもよいし、前回選定した構成要素の一部を新たな構成要素に置き換えてもよい。また、演算部107が、再選定された構成要素で対象データの指標を計算する場合、一つ又は複数の構成要素の評価値を変更するようにしてもよい。また、演算部107は、再選定した構成要素とその評価値とを用いて各データの指標(第2指標)を算出し、構成要素の再選定前に得られた第1指標と第2の指標とから、再現率を計算し直してもよい。
【0050】
次に、再現率を再計算する処理の具体例について説明する。まず、参照データ提供部102が、データベース22の対象データからレビュア(評価権限ユーザ)に提示するための参照データをランダムにサンプリングする。次に、表示処理部103が抽出された参照データをクライアント装置10の画面表示部に出力させる。レビュアは、画面表示部に表示された参照データをレビューし、参照データに対して分類情報を付与する。学習部105は、参照データを解析し、構成要素を選定する。具体的には、学習部105は、共通の分類情報が付与された参照データに共通して出現する構成要素をN個抽出し、抽出した構成要素のそれぞれについて評価値を算出する。例えば、1番目に抽出した構成要素の評価値をWgt1、2番目をWgt2、N番目をWgtnとする。学習部105は、このWgt1からWgtnの評価値を用いて、形態素を選定する。構成要素を評価値の降順に並び替え、以下の式を満たし、その総和が目標値(Kとする:Kは任意の定数)に到達するまで評価値の上位から順番にm個の形態素(構成要素)を選択する。
【数3】
【0051】
次に、演算部107が、選定されたm個の構成要素を含むデータを対象データから抽出し、当該対象データに含まれる構成要素の評価値に基づいて、各対象データの指標を算出する。演算部107は、指標の降順にデータを序列化し、全データの指標上位A%(Aは任意の定数)のデータを決定する。演算部107は、A%に含まれるデータのうち、所定の基準値以上の指標を有し、参照データと同じ「Related」または「High」のラベル(分類情報)が設定されたデータを特定し、A%に含まれるデータ数とラベルが設定されたデータ数との比から再現率X1(Xn:n回目に算出した再現率)を算出する。
【0052】
次に、演算部107は、目標値K以上に再現率X1が計算されたか否かを判定する。計算されたと判定する場合、処理を終了する。そうでない場合、学習部105は構成要素を再選定する。具体的には、先に選定したN個の構成要素から、前記m個の構成要素を除いた構成要素から、以下の式を満たし、その総和が目標値に到達するまで評価値の上位から順番にi個の構成要素を選択する。
【数4】
【0053】
演算部107は、再選定された構成要素を含むデータを抽出し、各データの第2の指標S1rを計算し、初回に計算した指標S1と第2の指標S1rとの残差Δ1(Δ1=S1r−S1)を用いて、以下の式から各文書の合成指標S2を算出する。
【数5】
【0054】
合成指標S2を用いて、演算部107は再現率を再度算出し、目標値Kを上回るまで、再現率の再計算を繰り返す。これにより、目標再現率まで、データ序列化における精度を向上させることが可能となる。
【0055】
なお、上記において「再現率」として説明した箇所は、適合率であってもよい。ここで、「適合率」(Precision Rate)は、データ分析システムによって発見されたデータに対して、真に発見すべきデータが占める割合(正確性)を示す指標である。例えば、「全データを30%処理した時点で、適合率が80%」と表現した場合、指標上位30%のデータに対して、発見すべきデータの占める割合が80%であることを示す。また、データ分析システムは、例えば、対象データに対して算出された再現率と指標の順位(例えば、データ数によって当該順位を除算した規格化順位であってもよい)との関係に基づいて、ユーザが当該対象データを確認する際に必要なデータ数を算出することができる。
【0056】
〔構成要素間の相関を考慮した指標算出〕
演算部107は、対象データに含まれる第1構成要素の評価値(第1構成要素の評価値)と、当該対象データに含まれる第2構成要素の評価値(第2構成要素の評価値)との相関(共起)を考慮して、対象データの指標を決定してもよい。例えば、第1の構成要素と第2の構成要素との結び付きが強い場合、演算部107は、第1構成要素が対象データに出現した場合、当該対象データにおいて第2構成要素が出現する頻度を考慮して、指標を計算できる。このような相関関係として、例えば、談合・カルテル等の不正検証を所定の事案として想定した場合、入札、価格、調整という各キーワードが同じ通信記録データに出現し易い事が経験上分かっているため、各キーワード夫々の評価値を加算した値に、これらデータの組み合わせに基づく所定値を加算するなどして、対象データの指標を増加させればよい。これにより、データ分析システムは、複数の構成要素間の相関関係をも考慮して指標を算出できるため、より高い精度で所定の事案に関連する対象データを抽出することができる。
【0057】
演算部107は、構成要素の出現情報に、当該構成要素と他の構成要素との相関(共起等)を反映させることによって、対象データの指標を算出することができる。演算部107は、例えば、構成要素の出現管理ベクトルに他の構成要素との相関を示す相関マトリクスを乗じる。相関マトリクスは、例えば、「価格」というキーワードが対象データに出現した場合、「価格」に対して他のキーワード(例えば「調整」)の出現しやすさ(すなわち、相関)を、相関マトリクスの情報で表す正方行列である。
【0058】
相関マトリクスは、参照データに基づいて最適化されてよい。例えば、対象データに「価格」というキーワードが出現する場合、他のキーワード(「調整」)の出現数を0〜1の間に正規化した値(すなわち、最尤推定値)が、相関マトリクスに格納されている。したがって、データ分析システムは、複数の構成要素の相関をデータの指標に反映させるための相関ベクトルを得ることができる。
【0059】
演算部107は、例えば、下記の式に示されるように、全ての相関ベクトルについて合算した値に基づいて、データの指標を算出する。より具体的には、演算部107は、前述の式に代えて、下記の式に示されるように、相関ベクトルの合算値とキーワードに対する評価値のベクトルWとの内積を算出することによって、対象データの指標を算出することができる。
【0061】
ここで、Cは相関マトリクスを表し、s
sはs番目のキーワードベクトルを表す。また、TFnorm(合算した値)は、下記の式に示されるように計算する。
【0063】
ここで、TF
iはi番目のキーワードの出現頻度(Term Frequency)を表し、s
jsはs番目のキーワードベクトルのj番目の要素を表す。
【0064】
上記式をまとめると、演算部107は、以下の式を計算することによって対象データごとに指標を算出する。
【数8】
ここで、w
iは評価値ベクトルWのi番目の要素である。
【0065】
〔部分分割した各部分データに対する指標算出〕
演算部107は、対象データ全体の指標を算出することによってデータを序列化するだけでなく、例えば、対象データを複数のパーツ(例えば、データに含まれるセンテンスまたは段落(部分対象データ))に分割し、学習したパターンに基づいて各部分データを評価(すなわち、部分対象データの指標を算出)することによって、当該部分対象データを序列化する。そして、演算部107は、複数の部分対象データの指標を統合(例えば、複数の部分対象データの指標の中から最大値を抽出して全体データの指標としたり、複数の部分対象データの指標の平均を全体データの指標としたり、複数の部分対象データの指標を大きい順から所定数選択して合算して全体データの指標としたり等)し、当該統合された指標を対象データの評価結果とすることもできる。これにより、データ分析システムは、活用目的に適した有用データを対象データの中からより的確に選択することができる。
【0066】
〔フェーズ分析〕
データ分析システムは、所定の事案が進展する各段階を示すフェーズを分析することができる。例えば、所定の事案が談合行為である場合、当該談合行為は、関係構築フェーズ(競合他社と関係を構築する段階)、準備フェーズ(競合他社と競合に関する情報を交換する段階)、競合フェーズ(顧客へ価格を提示し、フィードバックを得て、競合他社とコミュニケーションを取る段階)の順に進むことが通常である(経験的・理論的に既知である)ため、上記フェーズには上記3つのフェーズが設定されてよい。データ分析システムは、予め設定された複数のフェーズに対してそれぞれ準備される複数種類の参照データから、当該複数のフェーズに対応する複数のパターンをそれぞれ学習し、当該複数のフェーズにそれぞれ基づいて対象データを分析することによって、例えば「分析対象である組織が、現在どのフェーズにあるか」を特定することができる。
【0067】
データ分析システムが、フェーズを特定する流れを詳細に説明する。まず、データ分析システムは、予め設定された複数のフェーズに対してそれぞれ準備される複数種類の参照データを参照し、当該複数種類の参照データにそれぞれ含まれる構成要素を評価し、当該構成要素と当該構成要素を評価した結果(例えば、評価値)とを対応付けて、フェーズごとにデータベース22に格納する(すなわち、当該複数のフェーズに対応する複数のパターンをそれぞれ学習する)。したがって、例えば、「関係構築フェーズ」(フェーズ1)では、「日程」、「調整」などのキーワード評価値が「実行フェーズ」(フェーズ3)よりも大きかったり、「準備フェーズ」(フェーズ2)では、「競合製品」、「調査」などのキーワード評価値が「関係構築フェーズ」(フェーズ1)よりも大きかったりする。また、ステージごとに異なるキーワードが設定される場合もある。
【0068】
次に、データ分析システムは、上記フェーズごとに学習されたパターンに基づいて対象データを分析することにより、複数のフェーズに対してそれぞれ指標を算出する。そして、データ分析システムは、当該指標が各フェーズに対して予め設定された所定の判定基準(例えば、閾値)を満たしているか否か(例えば、当該指標が当該閾値を超過しているか否か)を判定し、満たしていると判定する場合、当該フェーズに対応するカウント値を増加させる。最後に、データ分析システムは、当該カウント値に基づいて現在のフェーズを特定する(例えば、最大のカウント値を有するフェーズを、現在のフェーズとする)。または、フェーズごとに算出された指標が、当該フェーズに設定された所定の判定基準を満たしていると判定した場合、データ分析システムは、当該フェーズを現在のフェーズとして特定することもできる。
【0069】
データ分析システムは、予め設定された所定の判定基準(例えば、閾値)を、データ適応的に再設定することができる。このとき、演算部107は、複数の対象データを序列化した結果を利用する。演算部107は、例えば、対象データの指標と当該指標のランキング(すなわち、指標を昇順で並べた場合における順位)との関係に対して回帰分析を行い、当該回帰分析の結果に基づいて閾値を決定することができる。
【0070】
演算部107は、例えば、指数型分布族に属する関数(y=e
αx+β(eは自然対数の底、α及びβは実数である))を用いて、上記回帰分析を行うことができる。演算部107は、複数の対象データに対して算出した指標と当該指標のランキングとに基づいて、(例えば、最小二乗法により)上記αおよびβの値を決定する。なお、出願人は、この上記関数を用いたモデルについて、決定係数、F検定、及びt検定を用いた検証を行い、当該モデルの妥当性・最適性を確認している。
【0071】
図7は、指標とランキングとに基づいて回帰分析することにより得られた、指数関数モデルの特性例を示すグラフである。
図8は、指数関数モデルを再評価して得られた、上記指数関数モデルの特性例を示すグラフである。
図7および
図8において、横軸は指標を示し、縦軸はランキングを対数スケールで示す。したがって、指数関数を用いたフィッティングカーブ(回帰曲線)は、
図7および
図8において直線で示されており、縦軸の下ほどランキングが高く、上ほどランキングが低い。
【0072】
管理者は、ランキングに対して予め閾値を設定しておく。例えば、
図7において、管理者は、演算部107に当該閾値として1.E−03(=0.001=0.1%)を設定しておく。演算部107は、この閾値に対応する、指数関数によって示される指標を特定し、当該指標をあるフェーズにおける閾値(所定の判定基準)として設定することにより、当該フェーズに対して予め設定されていた閾値を変更することができる。このように、データ分析システムは、序列化された対象データを回帰分析によって再評価することにより、フェーズごとに算出される指標に対する閾値(所定の判定基準)を、学習によって得られたパターンに基づいて対象データを評価した結果に適合するように、動的に変更することができる。また、データ分析システムは、対象データのデータイメージを継続的にモニタすることによって、フェーズの進行を継続的に監視することもできる。
【0073】
さらに、データ分析システムは、対象データを評価した結果が評価権限ユーザによって検証された場合、当該検証結果に基づいて、学習部105が実行する学習処理を調整することできる。例えば、評価権限ユーザが、データ分析システムによって高い指標が与えられた対象データを検証したところ、当該対象データには高い指標が与えられるべきではない判断した場合、当該評価権限ユーザは、当該対象データに「Non-Related」のラベルを付与する。学習部105は、当該対象データを参照データとしてフィードバックし、例えば、当該参照データに含まれる構成要素の評価値を増減させたり、構成要素の追加・削除を行ったりして再学習を実行し、パターンを更新する。
【0074】
そして、学習部105は、更新したパターンに基づいて対象データの指標とランキングを再度算出し、当該算出結果に対して再度回帰分析を行う(
図8)。学習部105は、新たな回帰分析の結果に基づいて、
図7における説明と同様の処理を実行することにより、フェーズごとに修正した閾値を設定する。
【0075】
〔時系列情報を利用した分析〕
(1)予測モデルに基づくフェーズ進展予測
データ分析システムは、所定の事案に関係する所定の行為の進展を予測可能なモデルに基づいて、複数の対象データを評価することによって決定した指標から、次の行為を予測・提示することができる。データ分析システムは、例えば、第1フェーズ(例えば、関係構築フェーズ)に対して算出された指標と、第2フェーズ(例えば、準備フェーズ)に対して算出された指標とを変数とする回帰モデルを仮定し、予め最適化した回帰係数に基づいて、第3フェーズ(例えば、競合フェーズ)に進む可能性(例えば、確率)を予測することができる。
【0076】
(2)所定時間ごとの学習
時間の経過とともにその性質が変化するデータ(例えば、時間の経過とともに進行する病状を記録した電子カルテなど)を分析する場合、データ分析システムは、所定時間ごとに区切られた参照データ(例えば、第1区間の対象データ、第2区間の対象データ・・・)からそれぞれパターンを学習し(すなわち、当該所定時間ごとに構成要素と当該構成要素を評価した結果とを取得し)、当該パターンにそれぞれ基づいて、対象データを分析することができる。
【0077】
〔データ構造に基づく分析〕
演算部107は、対象データの構造を解析し、当該解析した結果を対象データの評価に反映させることができる。例えば、対象データが少なくとも一部に文書データを含む場合、演算部107は、文書データのセンテンスの表現形態(例えば、当該センテンスが肯定形であるか、否定形であるか、消極形であるかなど)を解析して解析結果を対象データの指標に反映させることができる。ここで、肯定形とは、例えば、センテンスの述語が「美味しい」であり、否定形とは、「不味い」または「美味しくない」であり、消極形とは、「美味しいとはいえなかった」または「不味いとはいえかった」などである。
【0078】
演算部107は、例えば、肯定形に「+α」を設定し、否定形に「−β」を設定し、消極形に「+θ」を設定し(α、β、θ:同一又は異なる数値であってよい)、これらのパラメータを用いて、対象データに対してそれぞれ算出した指標を調整することができる。または、演算部107は、対象データに含まれるセンテンスが否定型であることを検知した場合、例えば、当該センテンスをキャンセルすることにより、当該センテンスに含まれる構成要素を指標算出の基礎にしない(当該構成要素を考慮しない)ことができる。これによって、データ分析システムは、データの構造解析結果を指標に反映させることができるため、より高い精度でデータを評価することができる。
【0079】
演算部107は、対象データの構造として、センテンスの構文を解析して、その解析結果を対象データの指標に反映させることができる。演算部107は、例えば、形態素(構成要素)がセンテンスの主語、目的語、述語のどこに位置するかによって、当該形態素の評価値に優劣を設けてもよい。形態素の構文中の位置はベクトルによって制御されればよく、主語であるか、目的語であるか、述語であるかに応じて、形態素の評価値に優劣を付ける。演算部107は、形態素の出現ベクトルと評価値とから対象データの指標を算出する際、形態素の構文中の位置の制御ベクトルを合わせて、対象データの指標を求めることができる。
【0080】
〔感情分析〕
データ分析システムは、対象データからユーザの感情を抽出することができる。一般に、オンライン商品サイトや、レストランガイドなどでは、ユーザのコメントとともに、商品・サービスに対する当該ユーザの評価が記載されていることが多い。そこで、データ分析システムは、コメントと評価とに基づいて参照データを作成し、当該参照データに基づいて対象データを評価することによって、商品・サービスに対してユーザが好印象を抱いたか否かを推測することができる。概念的には、当該評価が高い商品・サービスに対するコメントには、好感情の単語(例えば、「良かった」、「楽しかった」など)が用いられることが多く、当該評価が低い商品・サービスに対するコメントには、悪感情の単語(例えば、「悪かった」、「つまらなった」など)が用いられることが多いため、データ分析システムは、コメントと評価との組み合わせから成る参照データからパターンを学習し、当該パターンに基づいて、コメントのみから成る対象データから当該コメントを生成したユーザの感情を、感情指標として抽出することができる。
【0081】
まず、分類部108は、参照データを感情の優劣に基づいて分類する。例えば、分類部108は、消費者の評価が5段階に行われている場合、段階評価に応じて、参照データに分類情報(例えば、「好印象」または「悪印象」を示す2分類のラベルであったり、「良い」、「やや良い」、「普通」、「やや悪い」、「悪い」を示す5分類のラベルであったりしてよい)を設定する。次に、学習部105は、分類情報が設定された参照データから構成要素を抽出する。特に、学習部105は、感情表現を示す構成要素(例えば、形容詞、形容動詞、副詞などに対応する形態素)を抽出することができる。
【0082】
そして、学習部105は、感情表現を示す構成要素についての感情マーカー(感情評価情報、ユーザが好印象を抱くか、悪印象を抱くかを示す指標)を下記のようにして生成する。すなわち、学習部105は、好印象と分類された1以上の参照データにおいて、感情表現を示す構成要素(構成要素A)が出現する回数A
Fをカウントする。そして、学習部105は、この参照データにおいて構成要素Aが出現する頻度RF
Pを算出する。
【数9】
ここで、N
Pは、好印象に分類された参照データに含まれる全構成要素数である。
【0083】
次に学習部105は、悪印象に分類された参照データにおいて、構成要素Aが出現する回数A
Nをカウントし、参照データにおいて構成要素Aが出現する頻度RF
Nを算出する。
【数10】
ここで、N
Nは、悪印象に分類された参照データに含まれる全構成要素数である。
【0084】
そして、学習部105は、上記二つの式を用いて算出された頻度を用いて構成要素Aの感情マーカー(感情判定指標値P(A))を次のように算出する。
【数11】
【0085】
さらに、学習部105は、感情判定指標値P(A)が1よりも大きい場合に、構成要素Aを好印象を抱くデータに用いられることが多い構成要素として、その感情マーカーとして「+1」を指定し、感情判定指標値P(A)が1よりも小さい場合に、構成要素Aを、悪印象を抱くデータに用いられることが多い構成要素として、その感情マーカーとして「−1」を指定してデータベース22に格納する。例えば、「良い」、「きれい」、「おいしい」というような語には「+1」がつきやすく、「悪い」、「汚い」、「まずい」というような語には「−1」が設定される傾向となる。
【0086】
演算部107は、対象データから感情マーカーが設定されている構成要素を抽出し、抽出した構成要素それぞれの感情マーカー値を取得する。演算部107は、構成要素が対象データに出現する回数だけ、感情マーカー値を加算する。例えば、「良い」という構成要素に対して設定されている感情マーカーが「+1」で、未分類データに5回出現する場合に、未分類データの「良い」という構成要素に基づく感情指標を「5」とする。また、例えば、「悪い」という構成要素に対して設定されている感情マーカーが「−1」で、未分類データに3回出現する場合に、未分類データの「悪い」という構成要素に基づく感情指標を「−3」とする。
【0087】
演算部107は、否定表現または誇張表現が構成要素に存在するか否かを判定しながら感情指標を算出する。否定表現とは、構成要素を否定する表現であり、例えば、「良くない」、「おいしくない」というような表現である。このような表現がある場合には、これらは逆の表現として扱い、例えば、「良くない」であれば「悪い」とし、「おいしくない」であれば「まずい」として扱う。なお、ここでは、逆の表現として扱うこととしたが、これは、例えば、「良い」という表現に対して、「+1」の感情マーカーが設定されている場合に、これを負の値にすることとしてもよい。あるいは、感情マーカーとして設定されている値を所定量(例えば、1.5)だけ減少させることとしてもよい。また、更には、否定を否定する、すなわち、二重否定表現があるか否かを検出し、二重否定表現がある場合には、構成要素を肯定的に判定することとしてもよい。
【0088】
また、誇張表現とは、構成要素をより誇張(強調)する表現であり、例えば、「とても」、「すごく」、「大変」というような表現のことを指す。このような誇張表現が構成要素にかかっている場合には、その感情マーカー値を所定倍(例えば、2倍)にして感情指標を算出する。例えば、「とてもおいしい」という表現がある場合であって、「おいしい」の感情マーカー値が「+1」であるときには、この表現に対する感情指標を「+2」とする(増大させる)。なお、所定倍にする構成要素は、誇張表現がかかっている構成要素のみである。
【0089】
このようにして、演算部107は、下記式に示すように、全ての構成要素に基づく感情指標を算出し、合算して対象データの指標Sを算出する。
【数12】
ここで、s
iは、i番目の構成要素の感情マーカーである。
【0090】
演算部107は、感情指標に基づいて、対象データを序列化する。指標が、0よりも大きい場合には、対象データは好印象を抱かれやすい判定され、指標が0未満である場合に、対象データは悪印象が抱かれやすいと判定される。序列化された複数の対象データは、ユーザに提示される。
【0091】
〔ヒートマップの表示〕
データ分析システムは、所定の管理機能を備えている。当該管理機能は、管理計算機12の管理プログラムによって実行される。管理機能の一例として、評価権限ユーザが複数いる場合、各人の分類の精度を管理画面によって表示する形態がある。
【0092】
図9は、データ分析システムの管理画面の一例を示す模式図である。当該管理画面は、演算部107のデータの指標から表示処理部103によって作成される。表示処理部103は管理計算機12のモニタに表示画面260を出力する。表示画面260は、例えば、指標の予め定められた各範囲のそれぞれに対応づけられた複数の区画、及び、比率を表示する表示領域262を有する。比率とは、指標の範囲に含まれる対象データの総数と、対象データの総数のうち、所定の事案と関係するとして、「Related」のラベルが評価権限ユーザによって設定された対象データの数との比である。
【0093】
区画は、例えば、指標が0〜999、1000〜1999のように、1000ずつ分かれて設定され、各区画は、例えば、指標は200ごとに細分化されている。各細分化された小区画ごとに、比率が色調等の付加情報の形態の変化(グラデーション)によって表現される。例えば、色調が寒色系であるほど、比率が低い、すなわち、対象データに「Related」のラベルがレビュアによって設定された率が低く(Non-Relatedである率が高く)、暖色系であるほど「Related」のラベルがレビュアによって設定された率が高いことを示している。例えば、表示領域262の縦方向に評価権限ユーザの識別欄266があり、関連性指標欄268は、評価権限ユーザごとに区別されている。データ分析システムは、所定の分類情報(ラベル)が対応付けられたデータが、すべてのデータに対して占める割合に応じたグラデーションを用いて、複数のデータをそれぞれ評価した結果に対する当該割合の分布を視認可能に表示することができる。
【0094】
管理権限ユーザは、表示画面260に表示される各小区画の色を参照することで、各評価権限ユーザの分類精度の適否を把握し易くなる。例えば、ある評価権限ユーザは指標が小さい領域にも拘らず「Related」のフラグを設定する割合が高く、一方、ある評価権限ユーザは指標が高い領域にも拘らず「Non-Related」のフラグを設定する割合が高く、これら評価権限ユーザによる分類は精度が低いことを示している。
【0095】
〔ネットワーク分析〕
データ分析システムは、複数のノード(人、組織、コンピュータ)間の相互関係(データの送受信や交換等)を可視化することができる。この場合、表示処理部103は、例えば、演算部107によるデータの序列化の結果に基づいて、所定の事案に関連する複数の人物の関係性を、当該関連性の程度が分かるように、クライアント装置10に表示させることができる。
【0096】
図10に示すように、表示処理部103は、各ノードを円形に表示すると共に、一つノードと他のノードとの間に関係性がある場合、当該ノードと当該他ノードとの間を矢印で結合して表示する。各ノードの大きさは、ノード間の関係性の大小を示す。すなわち、ノードの大きさが大きいほど、ノード30との関係性が高いことを示す。
図10の例においては、ノード31、ノード36、ノード35、ノード32、ノード33、ノード34の順にノードの小さくなっている。したがって、
図10の例においては、ノード31、ノード36、ノード35、ノード32、ノード33、ノード34の順にノード30との関係性が高いことを示す。関係性の大小、データの指標の大小、又は、ラベルの優劣に基づいて決定される。ノードの大小に代えて、或いは、これと共に、ノード間を結合する矢印若しくは線分の太さや色等を変化させることもできる。
【0097】
ノードはURLやEメールアドレスによって特定されてもよい。
図10はノード30を中心にした相関関係表示であるが、表示処理部103は、中心ノードを変更することも出来る。また、表示処理部は一つの画面に複数のノードを中心ノードとして設定することもできる。また、データのタイムスタンプ、送信時刻、着信時刻、更新時刻などの時間情報をノード間の相関関係に分かるように表示することもできる。ノード間の相関関係の発生が現在時刻に近いほど、ノード間の連結表示の形態(色調)を変えればよい。
【0098】
また、データ分析システムは、所定の動作を表す第1の構成要素がデータに含まれるか否かを判定し、含まれると判定する場合、当該所定の動作の対象を表す第2の構成要素を特定する。例えば、「仕様を確定する」という文章が上記データに含まれる場合、当該文章から「仕様」および「確定する」という構成要素(単語)を抽出し、「確定する」という所定の動作を表す第1の構成要素(動詞)の対象である「仕様」という第2の構成要素(目的語)を特定する。次に、上記データ分析システムは、上記第1の構成要素および第2の構成要素を含むデータの属性(性質・特徴)を示すメタ情報(属性情報)と、当該第1の構成要素および第2の構成要素とを関連付ける。ここで、上記メタ情報は、データが有する所定の属性を示す情報であり、例えば、上記データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。そして、データ分析システムは、2つの構成要素とメタ情報とを対応付けて、クライアント装置10に表示させる。
【0099】
例えば、「技術を交流する」という文章が電子メール(データ、通信情報)に含まれており、「技術」(第2の構成要素)および「交流する」(第1の構成要素)という単語が抽出された場合、データ分析システムは、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前(例えば、「人物A」および「人物B」)とを関連付けて表示する。これにより、「人物A」と「人物B」とが、ある「技術」についての「交流」を企図していることが推測できる。さらに、例えば、「仕様を確定する」という文章が、上記電子メールに添付されたプレゼンテーション資料に含まれており、「仕様」(第2の構成要素)および「確定する」(第1の構成要素)という単語が抽出された場合、データ分析システムは、上記「仕様」および「確定する」と、上記プレゼンテーション資料が作成された日時(例えば、2015年3月30日16時30分)とを関連付けて表示する。これにより、「人物A」と「人物B」とが、ある「技術」についての「交流」を企図する中で、2015年3月30日16時30分の時点において、当該「技術」の「仕様」を「確定」しようとしていることが推測できる。
【0100】
本発明のデータ分析システムによって、複数の対象データが序列化されるものの、全ての対象データの内容に目を通すことは時間を要することになり、そもそも容易いことにはならない。そこで、データ分析システムは、ユーザに対象データの内容を短時間で把握できるようにするための支援機能を実現することができる。
【0101】
〔概念の抽出〕
演算部107はトピック(コンテキスト)検出機能を実行する。演算部107は、
図11(A)に示すように、対象データの中から予め選定された概念の下位概念の構成要素を含むデータを抽出し、抽出した各対象データ(電子メール等)の内容の要約を適度な抽象度でそれぞれ作成し、作成した要約に基づいて対象データの内容を確認できるようにするために対象データをクラスタリングし、対象データのクラスタリングの結果を例えば
図11(B)のような形式でユーザに提示する。
【0102】
このようなトピック検出機能は、準備フェーズ及び適用フェーズの2段階のフェーズにより実現される。準備フェーズは、予めユーザにより設定された各対象概念の下位概念のキーワードだけを抽出し、抽出したキーワードをそれぞれ対応する対象概念に対応付けた上述の対象概念抽出用データベースを作成するためのフェーズである。また適用フェーズは、準備フェーズで作成した対象概念抽出用データベースを利用して該当する対象データの内容を上位概念で表現した要約を作成し、作成した要約に基づいて該当する対象データをクラスタリングして結果をユーザからの要求に応じて表示するフェーズである。
【0103】
準備フェーズでは、まず、ユーザが、対象データから検出したい話題(トピック)に応じた幾つかの対象概念を選定し、選定した対象概念を予めデータ分析システムに登録する。例えば、検出したいトピックが「不正」及び「不満」である場合、
図12に示すように、概念のカテゴリを「行動」、「感情」、「性質や状態」、「リスク」及び「金銭」の5つに分けて、例えば「行動」については「復讐する」及び「軽蔑する」など、「感情」については「苦しむこと」及び「腹を立てること」など、「性質や状態」については「鈍重だ」及び「心や態度が悪い」など、「リスク」については「脅す」及び「だます」など、「金銭」については「人の労働に対して支払われるお金」などの概念を対象概念としてそれぞれ設定する。
【0104】
演算部107は、このようにして対象概念が設定されると、登録された対象概念ごとに、その下位概念を表すキーワードをデータベース22の辞書上で検索し、当該検索により検出した個々のキーワードをそれぞれ対応する対象概念に対応付けた上述の対象概念抽出用データベースを作成する。
【0105】
一方、適用フェーズでは、演算部107は、上述のようにして作成した対象概念抽出用データベースを利用して、対象データの中から、対象概念抽出用データベースに登録されたキーワードをテキスト内に含む対象データを抽出する。また、演算部107は、このようにして抽出した対象データについて、そのテキストの内容をそのとき検出したキーワードの上位概念を用いて表した要約を作成する。
【0106】
例えば
図11の場合、(A)に示すように、「e-mail_1」については、「監視システム受注」という箇所から「システム」、「販売」及び「する」という対象概念が抽出され、「e-mail_2」については、「会計システム導入」という箇所から「システム」、「販売」及び「する」という上位概念が抽出されるため、これら「e-mail_1」及び「e-mail_2」については、いずれも「システム 販売 する」という要約が作成されることになる。
【0107】
そして、表示処理部103は、この後、ユーザからの要求があった場合に、このようにして作成した該当する対象データの要約に基づいて、対象データをクラスタリングしてその結果をユーザに提示する。
【0108】
例えば、
図11の場合、上述のように「e-mail_1」及び「e-mail_2」について「システム 販売 する」という同じ要約が作成されるため、これら「e-mail_1」及び「e-mail_2」が同一のグループに分類される。そして、この分類結果が例えば(B)のように要約を「内容」とする形式で表示される。このようにして、ユーザは、対象データの内容を把握することができる。
【0109】
〔その他の構成〕
分類情報受付部104によって、複数の分類情報の夫々について、参照データと分類情報との組み合わせが設定される。すなわち、分類情報と参照データとの組み合わせが複数設定される。また、学習部105は、例えば、同一の分類情報が付された複数の参照データに共通して出現する構成要素を、参照データと分類情報との組み合わせに寄与する度合いを考慮して評価し、評価結果(評価値)が所定以上の構成要素を、複数の参照データに共通するパターンの一つとして選定する。なお、参照データに対する評価・分類の方針・基準は、評価者ごとに異なる場合があるため、データ分析システムは、参照データに対する評価・分類に複数の評価者の参加を許容するようにしてもよい。
【0110】
データ分析システムは、ユーザによる入力に基づいて、序列化された対象データに分類情報を設定してよい。または、データ分析システムは、対象データに対する評価結果に応じて(例えば、対象データの指標が当該所定の評価基準(例えば、指標が所定の閾値を超過しているか否か)を満足する場合)、ユーザの入力を要することなく、当該対象データに分類情報を与えてもよい。上記評価基準は、管理権限を有するユーザによって設定されてもよいし、参照データ又は対象データの測定結果を回帰分析して結果に基づいて、データ分析システムによって設定されてもよい。また、データ分析システムは、例えば、所定の分類情報にしたがって分類され、同じ分類情報が付された複数の対象データから有用な構成要素を抽出し、当該構成要素に基づいて対象データを参照データと同じように分類できるか否かを解析することができる。構成要素の抽出は、例えば、複数の分類情報の夫々でグルーピングされた対象データごとに行われてよい。
【0111】
既述のとおり、学習部105で選定された、形態素を始めとする構成要素は、データベース22に記録される。また、業務サーバ14は、過去の分類処理の結果から、所定の事案の優劣との関連性が高く、対象データに含まれていれば、「関係あり」と分類され得る構成要素を、事前に、データベース22に登録することもできる。
【0112】
また、過去の分類処理の結果から、所定の事案との関連性に係る符号が付与された対象データと関連性が高い構成要素をデータベース22に登録しておくことも可能である。一度データベース22に登録された形態素は、データ分析システムが行う学習の結果によって増減される他、手動によっても追加登録及び削除が可能である。
【0113】
データ分析システムは、複数のパターン(データの構成要素と当該構成要素を評価した結果との組み合わせ)を学習し、データベース22に保持することができる。例えば、データ分析システムは、所定の事案の種類ごとに上記組み合わせを保持することができる。これにより、例えば、データ分析システムが犯罪捜査支援システムとして実現され、犯罪の証拠となり得るデータを分析する場合と、データ分析システムがインターネット応用システムとして実現され、ウェブページを分析する場合とでは、データ分析システムは、互いに異なる複数のパターンを保持することになる。このとき、ユーザが当該所定の事案の種類を入力し、データ分析システムが当該種類に応じたパターンに基づいて対象データを処理することができる。
【0114】
データ分析システムは、参照データに含まれる構成要素の評価値を算出する際に、全ての構成要素の仮の評価値を算出し、その後に、評価値を算出する対象の構成要素の仮の評価値に、当該構成要素以外の構成要素の仮の評価値を加味して、最終的な評価値を算出することができる。具体的には、データ分析システムは、複数の構成要素各々に評価値を算出し(すなわち、当該複数の構成要素をそれぞれ評価し)、当該複数の構成要素のうちの一つである第1構成要素に対して算出された評価値に対して、当該複数の構成要素のうちの他の一つである第2構成要素に対して算出された評価値を反映させるように、当該第1構成要素に対して算出された評価値を更新し、当該更新された評価値を当該第1構成要素に対応付けて、当該第1構成要素の評価値としてデータベース22に格納する。これにより、データ分析システムは、データを評価するための構成要素の評価値を、他の構成要素との関連性も考慮した上で算出することができるため、より高い精度でデータを分析することができる。
【0115】
データ分析システムは、参照データに含まれる構成要素を所定の基準(例えば、伝達情報量)に基づいてそれぞれ評価し、当該評価された結果に基づいて、対象データに対して、所定の事案との関連性の高低を示すポジティブ指標(主指標)をそれぞれ算出する。次に、データ分析システムは、上記ポジティブ指標が低い対象データ(例えば、当該ポジティブ指標がほとんどゼロとなるデータ)の中から所定数のデータを(例えば、ランダムに)部分データとして選出し、当該選出されたデータに含まれる構成要素を上記所定の基準に基づいてそれぞれ評価する。そして、データ分析システムは、当該評価された結果に基づいて、対象データと上記所定の事案との関連性の弱さを示すネガティブ指標(副指標)を、当該対象データに対して算出する。最後に、データ分析システムは、上記ポジティブ指標およびネガティブ指標にしたがって、対象データを抽出する(例えば、ポジティブ指標が高く、ネガティブ指標が低いデータから順に並ぶように、データ全体を序列化する)。
【0116】
以上のように、データ分析システムは、所定の事案と関連することを示す指標(ポジティブ指標)を導出するだけでなく、当該ポジティブ指標にしたがって、当該所定の事案と関連しない(当該所定の事案との関連性が低い)ことを示す指標(ネガティブ指標)も導出する。これにより、データ分析システムは、より高い精度でデータを分析することができる。
【0117】
〔データ分析システムのアプリケーション例〕
データ分析システムは、例えば、情報資産活用システム(プロジェクト評価システム)として実現され得る。すなわち、このデータ分析システムは、企業・熟練者が有する情報資産(データ)を、状況に応じて(動的に)抽出することによって、当該情報資産を活用可能なシステムとして実現され得る。これにより、例えば、(1)開発期間の短縮化が望まれる開発現場を効率化するために、過去に開発した製品に関する情報を当該開発の要件に応じて再利用したり、(2)熟練技術者が有する専門知識に基づいて、有用な情報資産を特定したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報(過去の情報資産)を効率的に発見することができる。
【0118】
データ分析システムは、例えば、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)として実現され得る。この場合、当該データ分析システムは、データ(例えば、ユーザがSNSに投稿したメッセージ、ウェブサイトに掲載されたお勧め情報、ユーザまたは団体のプロフィールなど)を所定の評価基準(例えば、当該ユーザの嗜好と他のユーザの嗜好とが類似しているか否か、当該ユーザの嗜好とレストランの属性とが一致しているか否かなど)に基づいて評価することによって、例えば、当該ユーザと気の合いそうな他のユーザを一覧表示させたり、当該ユーザの嗜好に合ったレストランの情報を提示したり、当該ユーザに危害を与えかねない団体を警告したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0119】
また、データ分析システムは、例えば、ドライビング支援システムとして実現され得る。この場合、当該データ分析システムは、データ(例えば、車載センサ・カメラ・マイクなどから取得されるデータ)を所定の評価基準(例えば、熟練ドライバによる運転中に、当該熟練ドライバが着目した情報か否かなど)に基づいて評価することによって、例えば、運転を安全・快適にし得る有用な情報を自動的に抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0120】
また、データ分析システムは、例えば、金融システム(例えば、不正取引監視システム、株価予測システムなど)として実現され得る。この場合、当該データ分析システムは、データ(例えば、銀行に対する届け出書類、株価の時価など)を所定の評価基準(例えば、不正目的のおそれがあるか否か、株価が上昇するか否かなど)に基づいて評価することによって、例えば、不正目的を有する届け出を摘発したり、将来の株価を予測したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0121】
また、データ分析システムは、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)として実現され得る。この場合、当該データ分析システムは、データ(例えば、電子カルテ、看護記録、患者の日記など)を所定の評価基準(例えば、患者の特定の危険行動を取るか否か、ある薬剤が病気に対して効能を発揮したか否かなど)に基づいて評価することによって、例えば、患者が危険な状態(例えば、転倒するなど)に陥ることを予測したり、薬剤の効能を客観的に評価したりすることができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0122】
また、データ分析システムは、例えば、メール制御システム(スマートメールシステム)として実現され得る。この場合、当該データ分析システムは、データ(例えば、電子メール、添付ファイルなど)を所定の評価基準(例えば、当該電子メールに返信する必要があるか否かなど)に基づいて評価することによって、例えば、大量のメールの中から重要なメール(アクションを要するメール)を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0123】
また、データ分析システムは、例えば、ディスカバリ支援システムとして実現され得る。この場合、当該データ分析システムは、データ(例えば、ドキュメント、電子メール、表計算データなど)を所定の評価基準(例えば、本件訴訟におけるディスカバリ手続きにおいて当該データを提出すべきか否かなど)に基づいて評価することによって、例えば、本件訴訟に関連する文書のみを法廷に提出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0124】
また、データ分析システムは、例えば、フォレンジック支援システムとして実現され得る。この場合、当該データ分析システムは、データ(例えば、ドキュメント、電子メール、表計算データなど)を所定の評価基準(例えば、当該データが犯罪行為を立証可能な証拠であるか否かなど)に基づいて評価することによって、例えば、当該犯罪行為を立証する証拠を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0125】
また、データ分析システムは、例えば、メール監視システム(メール監査支援システム)として実現され得る。この場合、当該データ分析システムは、データ(例えば、電子メール、添付ファイルなど)を所定の評価基準(例えば、当該電子メールを送受信したユーザが不正行為を行おうとしているか否かなど)に基づいて評価することによって、例えば、情報漏洩・談合などの不正行為の予兆を発見することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0126】
また、データ分析システムは、例えば、知財評価システムとして実現され得る。この場合、当該データ分析システムは、データ(例えば、特許公報、発明を要約した文書、学術論文など)を所定の評価基準(例えば、当該特許公報は所与の特許を拒絶・無効にする証拠となり得るか否かなど)に基づいて評価することによって、例えば、多数の文献(例えば、特許公報、学術論文、インターネットに掲載された文章)の中から無効資料を抽出することができる。このとき、データ分析システムは、例えば、無効対象となる特許の各請求項と「Related」ラベル(分類情報)との組み合わせ、および、当該特許とは異なる無関係な特許の各請求項と「Non-Related」ラベル(分類情報)との組み合わせを参照データとして取得し、当該参照データからパターンを学習し、多数の文献(対象データ)に対して指標を算出する(例えば、特許公報の段落ごとに指標を算出し、当該指標の上位から所定数分を合算することによって、当該特許公報の指標とする)ことによって、当該対象データを評価することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0127】
また、データ分析システムは、例えば、コールセンターエスカレーションシステムとして実現され得る。この場合、当該データ分析システムは、データ(例えば、電話の通話履歴、録音された音声など)を所定の評価基準(例えば、過去の対応事例と類似するか否かなど)に基づいて評価することによって、例えば、過去の対応事例の中から現在の状況に最適な対応方法を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0128】
また、データ分析システムは、例えば、マーケティング支援システムとして実現され得る。この場合、当該データ分析システムは、データ(例えば、企業・個人のプロフィール、製品情報など)を所定の評価基準(例えば、当該個人は男性か女性か、消費者は製品に対して好感を抱いているか否かなど)に基づいて評価することによって、例えば、ある製品に対する市場の評価を抽出することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0129】
また、データ分析システムは、例えば、信用調査システムとして実現され得る。この場合、当該データ分析システムは、データ(例えば、企業のプロフィール、企業の業績に関する情報、株価に関する情報、プレスリリースなど)を所定の評価基準(例えば、当該企業が倒産するか否か、当該企業が成長するか否かなど)に基づいて評価することによって、例えば、企業の成長・倒産を予測することができる。すなわち、データ分析システムは、ユーザにとって必要な情報を効率的に発見することができる。
【0130】
このように、本発明のデータ分析システムは、ディスカバリ支援システム、犯罪捜査支援システム、電子メール監視システム、医療応用システム、インターネット応用システム、情報資産活用システム、マーケティング支援システム、知財評価システム、コールセンターエスカレーションシステム、信用調査システム、営業支援システム、ドライビング支援システムなど、データを所定の評価基準(所定の事案に関連するか否か)に基づいて評価することによって、ユーザにとって必要な情報を効率的に発見する任意のシステムとして実現され得る。特に、本発明のデータ分析システムは、複数のデータを含むデータ群を、「人間の思考および行動の結果によるデータの集合体」として捉え、例えば、人間の行動に関連する分析、人間の行動を予測する分析、人間の特定の行動を検知する分析、人間の特定の行動を抑制する分析などを行うことによって、データからパターンを抽出し、当該パターンと所定の事案との関連性を評価することによって、ユーザにとって必要な情報を効率的に発見することができる。
【0131】
なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
【0132】
〔データ分析システムが文書データ以外のデータを処理する例〕
上記した実施の形態においては、データ分析システムが文書データを分析する例を主に説明したが、当該データ分析システムは、文書データ以外のデータ(例えば、音声データ、画像データ、映像データなど)を分析することもできる。
【0133】
例えば、音声データを分析する場合、データ分析システムは、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、データ分析システムは、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法(例えば、隠れマルコフモデル、カルマンフィルタなど)を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いて音声を認識し、認識後のデータに対して、実施の形態において説明した手順と同様の手順で分析できる。
【0134】
また、画像データを分析する場合、データ分析システムは、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該画像データを分析できる。
【0135】
さらに、映像データを分析する場合、データ分析システムは、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該映像データを分析できる。
【0136】
〔ソフトウェア・ハードウェアによる実現例〕
データ分析システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、データ分析システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能であり、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装され得る。また、上記プログラムを記録した任意の記録媒体(コンピュータ読み取り可能な記録媒体)も、本発明の範疇に入る。
【0137】
〔まとめ〕
本発明の第1の態様に係るデータ分析システムは、対象データを評価するデータ分析システムであって、前記システムは、メモリと、入力制御装置と、コントローラとを備え、前記コントローラは、複数の対象データを評価し、当該評価は、各対象データと所定の事案との関連性に対応するものであり、前記複数の対象データの序列化を可能とする指標を、前記評価により生成し、ユーザが前記入力制御装置を介して与えた入力に基づいて前記指標を変化させることができ、前記メモリは、前記コントローラが評価する前記複数の対象データを少なくとも一時的に記憶し、前記入力制御装置は、前記コントローラが前記複数の対象データを序列化するための入力を前記ユーザに許容し、当該複数の対象データの序列は、前記入力に基づいて変化する前記指標に応じて変化するものであり、前記入力は、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類するものであり、当該分類は、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも1つは、前記入力によって前記参照データに付与されるものであり、前記参照データを前記ユーザに提示し、前記ユーザの入力により、前記提示された参照データに対して与えられた前記少なくとも1つの分類情報と当該参照データとの組み合わせを、前記コントローラに提供し、前記コントローラは、前記参照データに含まれる複数の構成要素が、前記入力制御装置から提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力により付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出し、前記抽出したパターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定し、前記決定した指標を前記対象データに設定し、前記指標に応じて前記複数の対象データを序列化し、前記序列化した複数の対象データをユーザに報知する。
【0138】
また、本発明の第2の態様に係るデータ分析システムは、上記第1の態様において、前記コントローラは、前記指標と所定の閾値とを比較し、当該比較した結果に基づいて、前記複数の対象データ夫々に前記所定の事案に関連する分類情報を設定する。
【0139】
また、本発明の第3の態様に係るデータ分析システムは、上記第1〜2の態様において、前記コントローラは、前記複数の対象データが所定の判定基準を満たしているか否かを判定し、前記所定の判定基準を満たしていると判定された複数の対象データから、所定数の対象データを選出し、前記パターンに基づいて前記所定数の対象データをそれぞれ再評価し、前記再評価した結果に基づいて、前記所定の判定基準を変更する。
【0140】
また、本発明の第4の態様に係るデータ分析システムは、上記第1〜3の態様において、前記コントローラは、新たな参照データと当該新たな参照データに付与される前記分類情報との組み合わせをさらに取得し、前記新たな参照データの少なくとも一部の構成要素が、当該新たな参照データと分類情報との組み合わせに寄与する度合い評価することによって、前記パターンを更新し、前記更新したパターンに基づいて前記対象データと前記所定の事案との関連性を評価し、前記指標を決定する。
【0141】
また、本発明の第5の態様に係るデータ分析システムは、上記第1〜4の態様において、前記コントローラは、前記複数の対象データを評価した結果に基づいて再現率を算出し、前記再現率が上昇するように、前記参照データから繰り返し前記パターンを抽出する。
【0142】
また、本発明の第6の態様に係るデータ分析システムは、上記第1〜5の態様において、前記コントローラは、前記入力制御装置から前記組み合わせが提供されるたびに、前記分類情報に対応する前記参照データの少なくとも一部の構成要素が、当該組み合わせに寄与する度合いを評価することによって、前記パターンを逐次更新する。
【0143】
また、本発明の第7の態様に係るデータ分析システムは、上記第1〜6の態様において、前記コントローラは、前記対象データの少なくとも一部の構成要素に対応する概念を、当該構成要素と当該概念とを対応付けたデータベースを参照することによって抽出し、前記抽出した概念に基づいて前記複数の対象データの要約を出力する。
【0144】
また、本発明の第8の態様に係るデータ分析システムは、上記第1〜7の態様において、前記コントローラは、前記複数の対象データに共通して含まれる主題ごとに、当該複数の対象データをクラスタリングする。
【0145】
また、本発明の第9の態様に係るデータ分析システムは、上記第1〜8の態様において、前記対象データは、前記所定の事案に対するユーザの評価情報を少なくとも含み、前記コントローラは、前記対象データを生成したユーザの感情であって、前記評価情報に基づいて生じた前記所定の事案に対する感情を、当該対象データから抽出する。
【0146】
また、本発明の第10の態様に係るデータ分析システムは、上記第1〜9の態様において、前記コントローラは、前記分類情報が対応付けられた対象データの、全ての対象データに対する割合に応じたグラデーションを用いて、前記複数の対象データを夫々評価した結果に対する前記割合の分布を視認可能に表示する。
【0147】
また、本発明の第11の態様に係るデータ分析システムは、上記第1〜10の態様において、前記複数の対象データは、複数の計算機間で送受信される情報であり、前記コントローラは、前記送受信される情報を分析した結果に基づいて、前記複数の計算機間の緊密度を可視化する。
【0148】
また、本発明の第12の態様に係るデータ分析システムは、上記第1〜11の態様において、前記パターンは、時間の経過に応じて変化し得るものであり、前記コントローラは、前記参照データを所定時間ごとに取得し、前記所定時間ごとに取得した複数の参照データ夫々から前記パターンを抽出し、前記パターンに基づいて、前記所定時間ごとに前記複数の対象データ夫々を評価して前記指標を決定する。
【0149】
また、本発明の第13の態様に係るデータ分析システムは、上記第1〜12の態様において、前記コントローラは、前記対象データの少なくとも一部を構成する部分対象データを、当該対象データを分割することによって複数生成し、前記抽出したパターンに基づいて前記複数の部分対象データを夫々評価し、前記複数の部分対象データを評価して得られた前記指標を統合し、前記統合した指標を用いて前記複数の対象データを夫々評価する。
【0150】
また、本発明の第14の態様に係るデータ分析システムは、上記第1〜13の態様において、前記コントローラは、前記構成要素と、当該構成要素を含む参照データを分類する前記分類情報との関係の強さに基づいて、当該構成要素に対する評価値を、前記度合いを評価した結果として算出し、前記対象データの少なくとも一部の構成要素に対して算出された評価値に基づいて、当該対象データと前記所定の事案との関連性の高低を示すように前記指標を決定することによって、前記複数の対象データを評価する。
【0151】
また、本発明の第15の態様に係るデータ分析システムは、上記第1〜14の態様において、前記コントローラは、前記構成要素と、当該構成要素とは異なる他の構成要素とが、同一の参照データの少なくとも一部に出現する頻度に基づいて、当該構成要素と当該他の構成要素との相関を評価し、前記相関にさらに基づいて前記複数の対象データを夫々評価する。
【0152】
また、本発明の第16の態様に係るデータ分析システムは、上記第1〜15の態様において、前記コントローラは、前記所定の事案に関係する所定行為の進展を予測可能なモデルに基づいて、前記複数の対象データを評価することによって決定した指標から、次の行為を提示する。
【0153】
また、本発明の第17の態様に係るデータ分析システムは、上記第1〜16の態様において、前記コントローラは、所定の行為が進展する各段階を示す指標であるフェーズごとに、前記複数の対象データを評価し、前記複数の対象データを評価することによって前記フェーズごとに決定された指標から、現在のフェーズを特定する。
【0154】
また、本発明の第18の態様に係るデータ分析システムは、上記第1〜17の態様において、前記対象データは、1以上のセンテンスを少なくとも一部に含む文書データであり、前記コントローラは、前記センテンスが有する構造を解析し、当該解析した結果に基づいて前記対象データに前記指標を決定する。
【0155】
また、本発明の第19の態様に係るデータ分析システムは、上記第18の態様において、前記コントローラは、前記センテンスが有する構造を解析した結果に基づいて、当該センテンスの表現形態を判定し、当該判定した結果に基づいて前記対象データを評価する。
【0156】
また、本発明の第1の態様に係るデータ分析方法は、対象データを評価するデータ分析方法であって、複数の対象データを評価基準に基づいてそれぞれ評価し、前記評価基準は、各対象データと所定の事案との関連性に対応する第1のステップと、前記評価によって、前記複数の対象データの序列化を可能とする指標を生成し、当該指標を、ユーザが与えた入力に応じて変化させることができる第2のステップと、前記第1のステップで評価される前記複数の対象データを少なくとも一時的に記憶する第3のステップと、前記複数の対象データを序列化するための入力を前記ユーザに許容し、当該複数の対象データの序列は、前記入力に応じて変化する前記指標に応じて変化するものであり、前記入力は、前記複数の対象データとは異なる参照データを、当該参照データと前記所定の事案との関連性に基づいて分類するものであり、当該分類は、前記参照データの内容に応じて複数の分類情報に分けられたものであり、前記複数の分類情報のうちの少なくとも1つは、前記入力によって前記参照データに付与される第4のステップと、前記参照データを前記ユーザに提示する第5のステップと、前記ユーザの入力により、前記提示された参照データに対して与えられた前記少なくとも1つの分類情報と当該参照データとの組み合わせを提供するス第6のステップと、当該参照データに含まれる複数の構成要素が前記提供された組み合わせにそれぞれ寄与する度合いを評価することによって、前記入力によって付与された分類情報に応じて当該参照データが特徴付けられるパターンを当該参照データから抽出する第7のステップと、当該抽出したパターンを前記評価基準とし、当該パターンに基づいて、前記対象データと前記所定の事案との関連性を評価して前記指標を決定する第8のステップと、当該決定された指標を当該対象データに設定する第9のステップと、前記指標に応じた、前記複数の対象データの序列化を実行する第10のステップと、前記序列化した複数の対象データをユーザに報知する第11のステップとを含む。
【0157】
また、本発明の第1の態様に係るデータ分析プログラムは、コンピュータに上記第1の態様に係るデータ分析方法の各ステップを実行させる。
【0158】
また、本発明の第1の態様に係る記録媒体は、上記第1の態様に係るデータ分析プログラムを記録する。
【0159】
また、本発明の別態様に係るデータ分析システムは、メモリと当該メモリに格納された1以上のプログラムを実行可能な1以上のコントローラとを備え、当該メモリに記憶されたデータセットに含まれる複数のデータをそれぞれ評価するデータ分析システムであって、前記コントローラは、参照データと当該参照データを分類する分類情報との組み合わせを複数含むデータセットを、参照データセットとして取得し、前記参照データの少なくとも一部を構成する複数の構成要素が、前記取得した参照データセットに含まれる複数の組み合わせに寄与する度合いをそれぞれ評価することによって、当該参照データに含まれるパターンを学習し、前記学習したパターンに基づいて複数の対象データを序列化することによって、当該複数の対象データをそれぞれ評価し、前記複数の対象データをそれぞれ評価した結果に基づいて、当該複数の対象データを所定の表示インターフェースを介してユーザに提示する。