(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0017】
本発明に係るデータ分析システムの一実施態様について、図面を参照しながら説明する。
<実施の形態>
<構成>
図1は、データ分析システム100の機能構成を示すブロック図である。
図1に示すように、データ分析システム100は、受付部110と、表示部120と、入力部130と、記憶部140と、制御部150とを含む。
【0018】
受付部110は、解析対象のデータの入力を受け付けて、制御部150に伝達する機能を有する。受付部110は、データ通信によりネットワークを介してデータを受け付けることとしてもよいし、データを記憶した記録媒体からデータを読み出すことにより受け付けることとしてもよい。ここで、データは、文書データ(例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など、少なくとも一部にテキストを含むデータを主に指すが、画像データ、音声データ、映像データなど、任意のデータ(主に、少なくとも一部において構造定義が不完全な非構造化データ)を広く含む。
【0019】
表示部120は、制御部150により生成された情報を表示する機能を有し、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)ディスプレイなどにより実現される。本実施の形態においては、表示部120は、提示部153から伝達される結合すべきデータ要素に関する情報を表示する。
【0020】
入力部130は、ユーザからの入力を受け付けて、制御部150に伝達する機能を有する。入力部130は、例えば、キーボードやポインティングデバイス、音声入力装置などにより実現される。本実施の形態においては、入力部130は、ユーザから結合すべきデータ要素の指定を受け付けて、制御部150に当該データ要素の情報を伝達する。
【0021】
記憶部140は、データ分析システム100が動作上必要とする各種プログラム、データを記憶する機能を有する。記憶部140は、例えば、記憶部140は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、半導体メモリ、フラッシュメモリなどにより実現される。なお、
図1では、データ分析システム100が記憶部140を備える構成を示しているが、記憶部140は、データ分析システム100外部のものであって、データ分析システム100と通信可能に接続された記憶装置であってもよい。
【0022】
制御部150は、記憶部140に記憶されている各種データを参照しながら、データ分析システム100の各部を制御する機能を有するプロセッサである。制御部150は、データ分析システム100が有する各種機能を統括的に制御する。
制御部150は、データ要素抽出部151と、指標算出部152と、提示部153と、結合部154とを含む。
【0023】
データ要素抽出部151は、受付部110から伝達されたデータから、所定のアルゴリズムに従ってデータ要素を抽出する機能を有する。ここで、データ要素抽出部151は、例えば、(1)データが文書データの場合、当該文書データに含まれるキーワード(いわゆる、形態素)、センテンス、段落などをデータ要素として抽出し、(2)データが音声データの場合、当該音声データに含まれる部分音声をデータ要素として抽出し、(3)データが画像データの場合、当該画像データに含まれる部分画像をデータ要素として抽出し、(4)データが映像データの場合、当該映像データに含まれるフレーム画像(または、複数のフレーム画像の組み合わせ)をデータ要素として抽出することができる。
【0024】
指標算出部152は、データ要素抽出部151が抽出したデータ要素について、他の連続するデータ要素と結合すべきか否かを判定するための指標を算出する機能を有する。指標算出部152は、以下のように当該指標となる結合率を算出する。
【0025】
まず、指標算出部152は、データ要素のうちの一つである第1データ要素Xが、受け付けたデータ中に出現する頻度である第1頻度を、第1データ要素Xがデータ中に出現する回数をカウントすることにより決定する。当該第1頻度をDF
Xとする。
【0026】
次に、指標算出部152は、データ要素のうちの一つである第2データ要素Yが、受け付けたデータ中に出現する頻度である第2頻度を、第2データ要素Yがデータ中に出現する回数をカウントすることにより決定する。当該第2頻度をDF
Yとする。
【0027】
そして、指標算出部152は、第1データ要素Xと第2データ要素Yとが連続して出現する頻度である第3頻度、すなわち、データ要素XYとしてデータ中に出現する頻度を、データ要素XYが出現する回数をカウントすることにより決定する。当該第3頻度をDF
XYとする。当該第3頻度DF
XYは、データ要素Xとデータ要素Yが同じデータ(この場合、データの単位は、どのようなものであってもよく、一つの文書単位であっても、文書の中の一段落あるいは一センテンス単位などであってもよい)に共起する頻度である共起頻度と呼称することもできる。
【0028】
指標算出部152は、算出した第1頻度と第2頻度と第3頻度とを用いて、第1データ要素と第2データ要素とを結合すべきか否かの指標となる結合率Cを以下の数式(1)を用いて算出する。
【0030】
指標算出部152は、算出した第1頻度DF
Xと、第2頻度DF
Yと、第3頻度DF
XYと、結合率Cと、対応する第1データ要素、第2データ要素の情報を、提示部153および結合部154に伝達する。
【0031】
提示部153は、指標算出部152から伝達された第1データ要素と、第2データ要素と、第1頻度と、第2頻度と、第3頻度と、結合率に基づく結果情報を生成する機能を有する。そして、提示部153は、生成した結果情報を表示部120に提示する。結果情報(指標)は、結合率そのものであってもよいし、結合率の数値に応じて、「高」、「中」、「低」のように第1データ要素と第2データ要素の対に対して予め定めた評価をラベリングしたものであってもよい。後者の場合であれば、例えば、「高」は、0.7〜1.0、「中」は、0.4〜0.7、「低」が0〜0.4と予めその範囲を定めておき、これによりラベリングを実行するとよい。
結合部154は、入力部130から伝達された第1データ要素と第2データ要素とを結合して、記憶部140に記憶する機能を有する。
【0032】
<データ>
図2は、データ分析システム100の提示部153が提示する結果情報200の一例を示すデータ概念図である。結果情報200は、データ要素とデータ要素とを結合して一つのデータ要素として扱うべきか否かの指標を提示する情報である。
【0033】
図2に示すように、結果情報200は、第1データ要素201と、第2データ要素202とが対応付けられた情報である。また、結果情報200は、第1頻度203と、第2頻度204と、第3頻度205と、結合率206とがさらに対応付けられていてもよい。なお、
図2に示す結果情報200の出力結果は、あくまで一例である。すなわち、結果情報200は、結合され得る候補(第1データ要素201と第2データ要素202とのペア)を提示可能な情報でありさえすればよく、当該結果情報200に基づいて当該候補をどのように提示するかは
図2の例に限定されない。
第1データ要素201は、データ中に出現するデータ要素であって、結合の候補となるデータ要素を示す情報である。
第2データ要素202は、データ中に出現するデータ要素であって、結合の候補であり、第1データ要素201に連続するデータ要素を示す情報である。
【0034】
第1頻度203は、第1データ要素201がデータ中に出現する頻度を示す情報である。ここでは、第1頻度203は、第1データ要素201がデータ中に出現する回数である。
【0035】
第2頻度204は、第2データ要素202がデータ中に出現する頻度を示す情報である。ここでは、第2頻度204は、第2データ要素202がデータ中に出現する回数である。
【0036】
第3頻度205は、第1データ要素201と第2データ要素202とが連続して、データ中に出現する頻度を示す情報である。ここでは、第3頻度205は、第1データ要素201と第2データ要素202とが連続してデータに出現する回数である。
【0037】
結合率206は、第1データ要素201と第2データ要素202とを結合すべきか否かの指標を示す情報である。ここでは、結合率206は、0〜1の値をとり、1に近いほど、結合されるべき可能性が高いことを示す。
【0038】
図2の結果情報200において、例えば、第1データ要素201として「課題」というデータ要素と、第2データ要素202として「解決」というデータ要素に着目する。
図2によれば、第1データ要素「課題」の出現頻度である第1頻度203は、「21」であり、第2データ要素「解決」の出現頻度である第2頻度204は、「21」であり、その結合されたデータ要素「課題解決」の出現頻度である第3頻度205は、「21」となっている。これらの第1頻度、第2頻度、第3頻度から算出される結合率206は、「1.000」となる。この結合率206が高いということは、結果情報200を見たユーザは、受付部110が受け付けたデータでは、第1データ要素「課題」と第2データ要素「解決」は、一つのデータ要素として扱うべきであると判断することができる。なお、結合率206が所定の基準値を超過する場合(例えば、当該結合率206が「1.000」(すなわち、すべての「課題」と「解決」とが常に共起している)となる場合)、データ分析システム100は、結果を提示することなく両者を結合することとしてもよい。これにより、データ分析システム100は、結果を確認するユーザの手間を省くことができる。
【0039】
また、例えば、第1データ要素201として「詳細」というデータ要素と、第2データ要素202として「説明」というデータ要素に着目する。
図2によれば、第1データ要素「詳細」の出現頻度である第1頻度203は、「3」であり、第2データ要素「説明」の出現頻度である第2頻度204は、「2」であり、その結合されたデータ要素「詳細説明」の出現頻度である第3頻度205は、「1」となっている。これらの第1頻度、第2頻度、第3頻度から算出される結合率は、「0.250」となる。この結合率が低いということは、結果情報200を見たユーザは、受付部110が受け付けたデータでは、第1データ要素「詳細」と第2データ要素「説明」は、一つのデータ要素として扱うべきではないと判断することができる。なお、結合率が所定の閾値(例えば、0.4)を下回る場合には、提示部153は、結合すべき第1データ要素と第2データ要素の候補として提示しない構成をとることとしてもよい。
結果情報200が提示されることによりデータ分析システム100のユーザは、データ要素を結合すべきか否かを容易に判定することができる。
【0040】
<動作>
図3は、データ分析システム100の動作を示すフローチャートである。
図3に示すように、データ分析システム100の受付部110は、分析対象のデータの入力を受け付ける(ステップS301)。受付部110は、受け付けたデータを、データ要素抽出部151に伝達する。
【0041】
データ要素抽出部151は、伝達されたデータから、予め定められた所定のアルゴリズムに従ってデータ要素を抽出する(ステップS302)。データ要素抽出部151は、抽出したデータ要素を指標算出部152に伝達する。
指標算出部152は、伝達されたデータ要素について、他のデータ要素と結合すべきか否かを判定するための指標を算出する。
【0042】
具体的には、指標算出部152は、データから抽出された所定の第1データ要素がデータ中に出現する第1頻度を算出する(ステップS303)。すなわち、指標算出部152は、データに出現する第1データ要素の回数をカウントする。
【0043】
次に、指標算出部152は、データから抽出された第2データ要素がデータ中に出現する第2頻度を算出する(ステップS304)。すなわち、指標算出部152は、データに出現する第2データ要素の回数をカウントする。
【0044】
続いて、指標算出部152は、第1データ要素に第2データ要素が連続して出現する第3頻度を算出する(ステップS305)。すなわち、指標算出部152は、データに第1データ要素と第2データ要素とがセットで出現する回数をカウントする。
【0045】
そして、指標算出部152は、第1頻度と第2頻度と第3頻度とを用いて、第1データ要素と第2データ要素とを結合すべきか否かの指標となる結合率を算出する(ステップS306)。指標算出部152は、算出した第1頻度、第2頻度、第3頻度、結合率、および算出に用いた第1データ要素と第2データ要素の情報を、提示部153と結合部154に伝達する。
【0046】
提示部153は、伝達された情報に基づいて、
図2に示した結果情報を作成し、表示部120に伝達する。そして、表示部120は伝達された結果情報を表示する(ステップS307)。
【0047】
入力部130は、表示された結果情報を見たユーザが指定した結合すべき第1データ要素と第2データ要素との指定を受け付ける。入力部130は指定された第1データ要素と第2データ要素を特定する情報を結合部154に伝達する。
【0048】
結合部154は、伝達された第1データ要素と第2データ要素とを一つのデータ要素として扱うべく、第1データ要素と第2データ要素とを結合して、一つのデータ要素として記憶部140に記憶する。
【0049】
これにより、データ分析システム100は、必要以上に細分化されたデータ要素を、結合することができる。そして、その結合後のデータ要素を評価することでデータマイニングに応用することができる。
<変形例>
【0050】
上記実施の形態に本発明に係る発明の一実施態様を説明したが、本発明に係る思想がこれに限られないことは言うまでもない。以下、本発明に係る思想として含まれる各種変形例について説明する。
【0051】
(1)上記実施の形態においては、結合部154は、ユーザが指定した第1データ要素と第2データ要素とを結合させる構成を例示したが、これはその限りではない。ユーザの指定以外の手法を用いてもよい。
【0052】
すなわち、結合部154が第1データ要素と第2データ要素とを結合すべきか判断してもよい。判断の手法としては、結合部154は、伝達された結合率が所定値以上(予め定められた閾値以上。例えば、0.7以上)の第1データ要素と第2データ要素とを結合することとしてもよい。
【0053】
(2)上記実施の形態においては、データからデータ要素を抽出する手法のみを開示しているが、データ分析システム100は、さらに、データマイニングのために記憶部140に記憶されたデータ要素の重み付け値を算出する重み付け部、および、データ要素に対して算出された重み付け値を用いて受付部110が受け付けるデータを評価する評価部を備えてもよい。
以下、重み付け部および評価部における処理を簡単に説明する。
【0054】
重み付け部は、記憶部140に格納されたデータ要素に対して重み付けを実行する。重み付け部は、データ要素を含むデータが所定の事象に関連するか否かに基づいて重み付け値を算出するものであり、例えば、所定の事象との関連度合を、伝達情報量を用いて算出する。
【0055】
また、重み付け部は、所定の事象に関連する複数のデータと、所定の事象に関連しない複数のデータとについて、それぞれのスコアを、算出した重み付け値を用いて算出する。このとき、重み付け部は、算出したスコアに基づいて、データを並べた場合に、所定の事象に関連する複数のデータのスコアが、所定の事象に関連しない複数のデータのスコアよりも高くなっていない場合には、所定の事象に関連する複数のデータのスコアが、所定の事象に関連しない複数のデータのスコアよりも高くなるように補正してもよい。重み付け部は、算出した各データ要素の重み付け値を記憶部140に格納する。
【0056】
評価部は、受付部110が受け付けた新たなデータに対する評価値を算出する。評価部は、新たなデータからデータ要素抽出部151が抽出したデータ要素各々について、記憶部140に格納された重み付け値を用いて、データのスコアSを算出する。評価部は、例えば、以下の数式を用いてスコアSを算出する。
【0058】
上記式(2)において、w
iは、i番目のデータ要素の重み付け値を意味する。また、Nはデータから抽出されたデータ要素数を意味する。
【0059】
データ分析システム100は、算出されたスコアを、データの評価として提示する。このスコアSが高いと懸案事項との関連性が高いデータであると判定することができる。
【0060】
(3)上記実施の形態に係るデータ分析システム100は、各種のデータに対する応用が可能である。以下に、その事例について説明する。
上記実施の形態に係るデータ分析システム100は、例えば、ディスカバリー支援システムとして活用することができる。
ディスカバリー支援システムは、受け付けるデータとして、例えば、訴訟関連のメールデータ、書籍などの文書データを受け付け、そこから必要な関連データを検索するにあたって、データからデータ要素として関連する用語を適切に抽出することができる。
【0061】
また、データ分析システム100は、例えば、フォレンジックシステムとして活用することができる。
フォレンジックシステムは、受け付けるデータとして、例えば、容疑者がやり取りしている電子メールを受け付け、犯罪に関わりがある可能性が高い電子メールを選定し、犯罪捜査に役立てることができる。その際に、電子メールを評価するために、電子メールからデータ要素を抽出する際に活用することができる。
【0062】
また、データ分析システム100は、例えば、メール監査システムとして活用することができる。
メール監査システムにおいても、ディスカバリー支援システムやフォレンジックシステムと同様に電子メールからデータ要素を適切に抽出することに活用することができる。
【0063】
また、データ分析システム100は、例えば、インターネット応用システムとして活用することができる。
インターネット応用システムとしては、インターネット上に公開されている各種の記事を分析する際に、適切にデータ要素を抽出するシステムとして活用することができる。
【0064】
また、データ分析システム100は、例えば、知財調査システムとして活用することができる。
知財調査システムとしては、例えば、特許文献の内容分析を行うにあたって、適切にデータ要素を抽出するシステムとして活用することができる。
【0065】
また、データ分析システム100は、例えば、医療応用システムとして活用することができる。
医療応用システムとしては、例えば、データとして、診療情報(カルテ)を受け付けて、患者の状態分析を行うにあたって、データ要素を抽出するシステムとして活用することができる。
また、データ分析システム100は、その他にも、例えば、実績評価システム、ドライビング支援システム、プロジェクト評価システム、ポータルサイト運営システム、取引管理システム、コールセンターエスカレーションシステム、マーケティングシステムなど、任意のシステムに活用することができる。すなわち、データ分析システム100は、データを受け付け、当該データからデータ要素を抽出し、第1データ要素と第2データ要素とが当該データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出し、当該指標を提示するシステムに広く用いることができる。
【0066】
(4)上記実施の形態に示した指標の算出方法は一例にしか過ぎない。連続するデータ要素が一つのデータ要素として扱うべきか否かの指標として適切と思われるものを算出する方法であれば、その他の手法を用いてもよい。
【0067】
例えば、第1データ要素と、第2データ要素とについて、その連続する組み合わせが、受け付けたデータに登場する回数を指標として用いてもよい。そして、当該回数が所定回数を超える場合に、第1データ要素と第2データ要素とを結合すべきであると判定することとしてもよい。
【0068】
また、あるいは、第1データ要素と、第2データ要素とについて、その連続する組み合わせだけが、受け付けたデータに登場すると検出された場合に、第1データ要素と第2データ要素とを結合すべきであるとの情報を生成して、当該情報を指標とすることとしてもよい。
【0069】
(5)上記実施の形態に示した第1データ要素と第2データ要素の例は、所謂複合語と呼称される語を一つのデータ要素として扱う例を示している。しかし、これは、その限りではない。複合語以外の例、例えば、慣用句や固有名詞(例えば、氏名、企業名など)なども、一つのデータ要素として扱うべきであるとの指標を算出し得る。
【0070】
(6)データ分析システム100(情報処理装置)の各機能部は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよい。データ分析システム100の各機能部は、1又は複数の集積回路により実現されても良いし、複数の機能部が1の集積回路により実現されてもよい。
【0071】
あるいは、データ分析システム100の各機能部により実現される機能は、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。この場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ評価プログラムの命令を実行するCPU、上記ゲームプログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記データ評価プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記データ評価プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ評価プログラムは、当該ゲームプログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ評価プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0072】
なお、上記データ評価プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ評価プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバとを含む分散型のデータ分析システムも、本発明の範疇に入る。
【0073】
(7)本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップ等に含まれる機能等は再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
(8)上記実施の形態および各種変形例に示す構成を適宜組み合わせることとしてもよい。
【0074】
<補足>
ここに本発明に係るデータ分析システムの一実施態様とその効果について述べる。
(a)本発明に係るデータ分析システムは、データから、当該データの一部であるデータ要素を抽出するデータ分析システムであって、前記データを受け付ける受付部(110)と、前記受付部により受け付けたデータから、データ要素を抽出する抽出部(151)と、前記抽出部により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出部(152)と、前記指標を提示する提示部(153)とを備える。
【0075】
また、本発明に係るデータ分析方法は、コンピュータが実行するデータ分析方法であって、データを受け付ける受付ステップと、前記受付ステップにおいて受け付けたデータから、データ要素を抽出する抽出ステップと、前記抽出ステップにおいて抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出ステップと、前記指標を提示する提示ステップとを含む。
【0076】
また、本発明に係るデータ分析プログラムは、コンピュータに、データを受け付ける受付機能と、前記受付機能により受け付けたデータから、データ要素を抽出する抽出機能と、前記抽出機能により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出機能と、前記指標を提示する提示機能とを実現させる。
【0077】
これにより、データから抽出したデータ要素について、複数のデータ要素を結合すべきか否かを判断するための指標を提示することができる。したがって、不要にデータが細分化された場合に、提示された指標に基づいてデータ要素を結合するか否かを判断することができる。
【0078】
(b)上記(a)に係るデータ分析システムにおいて、前記算出部は、更に、前記第1データ要素が前記データに出現する第1頻度と、前記第2データ要素が前記データに出現する第2頻度と、前記第1データ要素と前記第2データ要素とが前記データに共起する第3頻度とに基づいて、前記指標を算出することとしてもよい。
これにより、第1データ要素と第2データ要素との各々が出現する頻度と、双方が共起する頻度に応じて指標を算出することができる。
【0079】
(c)上記(a)に係るデータ分析システムにおいて、前記第3頻度は、前記第1データ要素と前記第2データ要素とが連続して前記データに出現した頻度であり、前記算出部は、前記第3頻度を、前記第1頻度と前記第2頻度とを合算した値から前記第3頻度を減算した値で除した値を前記指標として算出することとしてもよい。
これにより、データ分析システムは、指標を算出することができる。
【0080】
(d)上記(a)に係るデータ分析システムにおいて、前記データ分析システムは、さらに、前記指標に基づいて、前記第1データ要素と前記第2データ要素とを結合すべきか否かを判定する判定部を備える。
これにより、データ分析システムは、ユーザの手によらずに、データ要素を結合すべきか否かを判断することができる。
【0081】
(e)上記(a)に係るデータ分析システムにおいて、前記判定部は、前記指標が、所定の基準を満たしている場合に、前記第1データ要素と前記第2データ要素とを結合すべきであると判定することとしてもよい。
これにより、データ分析システムは、データ要素同士を結合させることができる。