(58)【調査した分野】(Int.Cl.,DB名)
前記データ設定部によって設定されたデータが前記所定の事案と関係するか否かが、前記ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得する結果取得部をさらに備え、
前記要素評価部は、前記結果取得部によって取得された結果に基づいて、前記データ設定部によって設定されたデータに含まれるデータ要素をそれぞれ評価することを特徴とする請求項1または2に記載のデータ分析装置。
前記要素評価部によって評価されたデータ要素と、当該データ要素が評価された結果とを対応付けて、所定の記憶部に格納する格納部をさらに備えたことを特徴とする請求項1から3のいずれか一項に記載のデータ分析装置。
前記データ設定部によって設定されたデータに、当該データが前記所定の事案と関係することを示す関係性情報を付与する関係付与部をさらに備えたことを特徴とする請求項1から6のいずれか一項に記載のデータ分析装置。
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示された従来のシステムは、例えば、ネットワーク上を日々流通する電子メールから上記のような不正行為の予兆を検知することはできない。当該システムは、当該不正行為が起こった後に提起された訴訟において提出すべき関連文書を分析するものであるため、当該分析の対象となるすべての文書が事前に存在することを前提としているからである。
【0006】
進行中の不正行為を捕捉する方法として、例えば、特許文献2に開示された表示方法のようにユーザのビヘイビアを記録し、問題視される所定のビヘイビア(「不正行為」として定義したビヘイビア)が発見された場合、管理者に警告を出す方法が考えられる。しかし、上記方法では、(a)上記所定のビヘイビアが発見された時点では、すでに不正行為が生じた後であることが多い、および(b)不正行為を事前に検知するために警告の要件を緩めるほど警告が頻発し、監視が実効的でなくなるという問題が生じる。
【0007】
また、特許文献1または2に開示された従来技術は、特定の不正行為に特化したものに過ぎず、汎用的でないため、特定の不正行為以外の事案に適用可能なものではない。
【0008】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出可能なデータ分析装置等を提供することである。
【課題を解決するための手段】
【0009】
上記課題を解決するために、本発明の一態様に係るデータ分析装置は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置であって、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、閾値特定部によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えている。
【0010】
また、本発明の一態様に係るデータ分析装置において、閾値特定部は、既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能なスコアを、閾値として特定することができる。
【0011】
また、本発明の一態様に係るデータ分析装置は、未判断データについて算出されたスコアと、閾値特定部によって特定された閾値とを比較することによって、当該スコアが当該閾値を超過しているか否かを判定する超過判定部をさらに備え、データ設定部は、超過判定部によって超過していると判定された場合、未判断データをユーザに報告すべきデータとして設定することができる。
【0012】
また、本発明の一態様に係るデータ分析装置は、既判断データに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、要素評価部によって評価された結果に基づいて、スコアを算出するスコア算出部とをさらに備えてよい。
【0013】
また、本発明の一態様に係るデータ分析装置において、要素評価部は、データ要素と当該データ要素を含む既判断データに対してユーザが判断した結果との依存関係を表す伝達情報量を、所定の基準の1つとして、当該データ要素を評価することができる。
【0014】
また、本発明の一態様に係るデータ分析装置は、データ設定部によって設定されたデータが所定の事案と関係するか否かが、ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得する結果取得部をさらに備え、要素評価部は、結果取得部によって取得された結果に基づいて、データ設定部によって設定されたデータに含まれるデータ要素をそれぞれ評価することができる。
【0015】
また、本発明の一態様に係るデータ分析装置は、要素評価部によって評価されたデータ要素と、当該データ要素が評価された結果とを対応付けて、所定の記憶部に格納する格納部をさらに備えてよい。
【0016】
また、本発明の一態様に係るデータ分析装置において、未判断データは、複数の人物または組織をそれぞれ特定可能な固有データ要素をそれぞれ含み、データ設定部は、未判断データから固有データ要素をそれぞれ抽出し、第1固有データ要素と、当該第1固有データ要素とは異なる第2固有データ要素との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
【0017】
また、本発明の一態様に係るデータ分析装置は、所定のデータ群から抽出したデータが、所定の事案と関係するか否かがユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得することによって、既判断データを取得する既判断データ取得部をさらに備えてよい。
【0018】
また、本発明の一態様に係るデータ分析装置は、データ設定部によって設定されたデータに、当該データが所定の事案と関係することを示す関係性情報を付与する関係付与部をさらに備えてよい。
【0019】
また、本発明の一態様に係るデータ分析装置において、データは、コンピュータで処理可能となるようにデジタル化された文書であり、データ要素は、文書に含まれるキーワードであってよい。
【0020】
また、本発明の一態様に係るデータ分析装置において、データは、コンピュータで処理可能となるようにデジタル化された音声であり、データ要素は、音声に含まれる部分音声であってよい。
【0021】
上記課題を解決するために、本発明の一態様に係るデータ分析装置の制御方法は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御方法であって、所定の事案と関係するか否かが判断されていない未判断データを新たに取得した場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出したスコアから特定する閾値特定ステップと、閾値特定ステップにおいて特定した閾値と、未判断データについて算出したスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定ステップとを含んでいる。
【0022】
上記課題を解決するために、本発明の一態様に係るデータ分析装置の制御プログラムは、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御プログラムであって、コンピュータに、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定機能と、閾値特定機能によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定機能とを実現させる。
【発明の効果】
【0023】
本発明の一態様によれば、データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラムは、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定し、当該閾値と未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定する。
【0024】
上記構成により、上記データ分析装置等は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できるという効果を奏する。
【発明を実施するための形態】
【0026】
図1〜
図4に基づいて、本発明の実施の形態を説明する。
【0027】
〔文書分析システム100の概要〕
文書分析システム(データ分析装置)100は、デジタル文書を分析することによって、新たに取得された文書から所定の事案と関係する文書を抽出可能な情報処理システムである。文書分析システム100は、以下で説明する処理を実行可能なコンピュータを含んでいればよく、例えば、サーバ装置、パーソナルコンピュータ、メインフレーム、ワークステーション、その他の電子機器などを用いて実現され得る。
【0028】
図2は、文書分析システム100の一例を概略的に示す模式図である。
図2に示されるように、レビュア(ユーザ)は、文書が所定の事案と関係するか否かを判断し、当該判断した結果(レビュー結果5a)を文書分析システム100に入力する。
【0029】
ここで、上記「文書」は、コンピュータによって処理可能となるようにデジタル化されたデータであり、例えば、電子メール、技術文書、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、契約書、組織図、事業計画書などが広く含まれ得る。
図2は、文書分析システム100がネットワーク上を日々流通する電子メールを取り込み、当該電子メールに含まれる文書を分析する例を示している。
【0030】
また、上記「所定の事案」は、組織において上記文書を利用する一般ユーザが、不正行為、および/またはその予備的行為をとることによって生じる事件を含み、例えば、機密情報が外部に漏えいする事件、他社と談合した事件、決算を粉飾した事件、取引企業に架空請求して代金を着服した事件、その他企業にとって好ましくない事件など、当該組織が発生を未然に防止したいと考える事案を広く含む。ただし、上記所定の事案は上記の例に限定されず、関連するデータ(例えば、文書、音声、映像など)を生成し得る事案一般を広く含んでよい。
【0031】
文書分析システム100は、上記レビュー結果5aに基づいて、上記文書(既判断データ)に含まれるキーワード(データ要素)を所定の基準(例えば、伝達情報量)に基づいてそれぞれ評価する。そして、文書分析システム100は、当該評価された結果に基づいて、上記所定の事案との関係性の強さを示すスコアを上記文書についてそれぞれ算出し、適合率(上記所定の事案に関係すると判断された文書が、所定数の文書を含む文書群に占める割合)に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値として特定する。
【0032】
すなわち、文書分析システム100は、レビュアから与えられたレビュー結果5a(過去のデータに対して人間が判断した結果)に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するスコアを有する文書のみを、上記所定の事案と関係する可能性が高い文書として、レビュアに一覧結果5b(当該文書を一覧してレビュアに提示可能な情報)を返すことができる。言い換えれば、文書分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、所定の事案と関係するデータを抽出できる。これにより、文書分析システム100は、例えば、不正行為が生じる予兆を検知できる。
【0033】
〔文書分析システム100の構成〕
図1は、文書分析システム100の要部構成を示すブロック図である。
図1に示されるように、文書分析システム100は、制御部10(データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、スコア特定部15、超過判定部16、データ設定部17、関係付与部18、格納部19)、受信部20、入力部40、表示部50、および記憶部30を備えている。
【0034】
制御部10は、文書分析システム100が有する各種の機能を統括的に制御する。制御部10は、データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、スコア特定部15、超過判定部16、データ設定部17、関係付与部18、および格納部19を含む。
【0035】
データ抽出部(既判断データ取得部)11は、所定の事案と関係するか否かがレビュアによって判断されるべき文書1aを、所定の文書群(データ群)から所定数だけ抽出する。当該文書群は、ネットワーク上を流通するデータであってもよいし、記憶部30にあらかじめ格納されたデータであってもよい。
【0036】
データ抽出部11は、抽出した文書1aを表示部50に出力することによって、当該文書1aをレビュアに提示することができる。これにより、レビュアは、例えば、文書1aが「所定の事案と関係する」または「所定の事案と関係しない」を示すレビュー結果5aを当該文書1aにそれぞれ付与できる。また、データ抽出部11は、当該文書1aを結果取得部12および要素評価部13に出力する。
【0037】
結果取得部(既判断データ取得部)12は、文書1aがデータ抽出部11から入力された場合、当該文書1aが所定の事案と関係するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して取得し、当該レビュー結果5aを要素評価部13およびスコア特定部15に出力する。
【0038】
要素評価部13は、所定の事案と関係するか否かがレビュアによって判断された文書1aに含まれるキーワード(データ要素)を、所定の基準に基づいてそれぞれ評価する。要素評価部13は、例えば、上記キーワードと当該キーワードを含む文書1aに対してレビュアが判断した結果(レビュー結果5a)との依存関係を表す伝達情報量を、上記所定の基準の1つとして当該キーワードの重みを算出することによって、当該キーワードを評価することができる。これにより、文書分析システム100は、キーワードを正確に評価することができるため、所定の事案と関係するデータを正確に抽出できる。
【0039】
または、要素評価部13は、上記キーワードに所定の重みを割り当てることにより、当該キーワードを評価してもよい。この場合、要素評価部13は、例えば、上記キーワードに「1」の重みを割り当てることができる。
【0040】
なお、上記「キーワード」は、意味を有する文字列(形態素)である。例えば、「文書を分別する」という文章には、「文書」および「分別」というキーワードが含まれる。要素評価部13は、上記キーワードと当該キーワードの重みとのペアであるキーワード情報5cを、スコア算出部14および格納部19に出力する。
【0041】
スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、所定の事案との関係性の強さを示すスコア5dを文書1aについてそれぞれ算出し、当該スコア5dをスコア特定部15に出力する。また、受信部20から文書1b(所定の事案と関係するか否かが未だ判断されていないデータ)が新たに取得された場合、スコア算出部14は、当該文書1bについてスコア5eを算出し、当該スコア5eを超過判定部16に出力する。
【0042】
スコア算出部14は、文書に出現するキーワードの重みを合算することによって、当該文書のスコアを計算できる。例えば、文書に「価格を調整する」という文章が含まれていることにより、「価格」および「調整」というキーワードが要素評価部13によってそれぞれ評価された結果、「1.2」および「2.2」という重みが設定された場合、スコア算出部14は、当該文書のスコアを「3.4」(1.2+2.2)と計算できる。
【0043】
具体的には、スコア算出部14は、所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、当該キーワードベクトルのそれぞれの要素が「0」または「1」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記文書に含まれるか否かを示すベクトルである。例えば、上記文書に「価格」というキーワードが含まれている場合、スコア算出部14は、上記キーワードベクトルの上記「価格」に対応する要素を「0」から「1」に変更する。そして、スコア算出部14は、以下の式のように、上記キーワードベクトル(縦ベクトル)と重みベクトル(各キーワードに対する重みを要素にした縦ベクトル)との内積を計算することにより、上記文書のスコアSを計算する。
【0044】
【数1】
ここで、sはキーワードベクトルを表し、Wは重みベクトルを表す。なお、Tは行列・ベクトルを転置する(行と列とを入れ替える)ことを表す。
【0045】
または、スコア算出部14は、以下の式にしたがってスコアSを算出してもよい。
【0046】
【数2】
ここで、m
jは、j番目のキーワードの出現頻度を表し、w
iは、i番目のキーワードの重みを表す。なお、スコア算出部14は、文書1aおよび/または文書1bに含まれる第1キーワードが評価された結果(第1キーワードの重み)と、当該文書1aおよび/または文書1bに含まれる第2キーワードが評価された結果(第2キーワードの重み)とに基づいて、スコア5dおよび/またはスコア5eを算出してよい。また、スコア算出部14は、文書1aおよび/または文書1bにそれぞれ含まれるセンテンスごとに、スコア5dおよび/または5eを算出してよい(いずれも後で詳細に説明する)。
【0047】
スコア特定部(閾値特定部)15は、所定の事案に関係すると判断された文書1aが、所定数の文書を含む文書群に占める割合を示す適合率に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値6として特定する。具体的には、スコア算出部14からスコア5dが入力された場合、スコア特定部15は、当該スコア5dを降順に並べ替える。次に、スコア特定部15は、最大のスコア5d(スコアのランクが1位)を有する文書1aから順番に当該文書1aに付与されたレビュー結果5aを走査し、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が、現時点において走査が終了した文書の数に占める割合(適合率)を、順次計算する。
【0048】
例えば、レビュー結果5aが付与された文書1aの数が100である場合に、スコアのランクが1位から20位までの文書について走査を終了したところ、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が18であった場合、スコア特定部15は、適合率を0.9(18/20)と計算する。または、スコアのランクが1位から40位までの文書について走査を終了したところ、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が35であった場合、スコア特定部15は、適合率を0.875(35/40)と計算する。
【0049】
スコア特定部15は、文書1aに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、スコア特定部15は、最小のスコア5d(スコアのランクが100位)を有する文書1aから順番に当該文書1aに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するスコアを、上記目標適合率を維持可能な最小スコア(適合しきい値6)として超過判定部16および格納部19に出力する。
【0050】
超過判定部16は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、所定の事案と関係するか否かが未だ判断されていない文書1bについて算出されたスコア5eが、適合しきい値6を超過しているか否かを判定し、当該判定した結果(判定結果5f)をデータ設定部17に出力する。
【0051】
データ設定部17は、超過判定部16によって超過していると判定された場合、当該文書1bをレビュアに報告すべき文書として設定する。データ設定部17は、例えば、上記適合しきい値6を超過した文書1bにフラグを立てることによって、当該文書1bをレビュアに報告すべき文書に設定する。データ設定部17は、設定した文書を特定可能な設定情報5gを関係付与部18に出力する。
【0052】
関係付与部18は、データ設定部17によって設定された文書1bに、当該文書1bが所定の事案と関係することを示す関係性情報(文書分析システム100によるレビュー結果)を付与する。関係付与部(表示処理部)18は、一覧結果5bを表示部50に出力することにより、データ設定部17によって設定された文書1b(所定の事案と関係すると文書分析システム100によって判断された文書)を一覧可能に表示できる。
【0053】
格納部19は、要素評価部13からキーワード情報5cが入力された場合、当該キーワード情報5cに含まれるキーワードと、当該キーワードが評価された結果(重み)とを対応付けて、記憶部30に格納する。これにより、文書分析システム100は、過去のデータを分析した結果(キーワードが評価された結果としての重み)に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる。また、格納部19は、スコア特定部15から適合しきい値6が入力された場合、当該適合しきい値6を記憶部30に格納する。
【0054】
入力部(所定の入力部)40は、レビュアから入力(レビュー結果5a)を受け付ける。
図1は、文書分析システム100が入力部40を備えた構成(例えば、入力部40としてキーボード、マウスなどが接続された構成)を示すが、当該入力部40は、当該文書分析システム100と通信可能に接続された外部の入力装置(例えば、クライアント端末)であってもよい。
【0055】
受信部20は、所定の通信方式にしたがう通信網を介して、ネットワークから文書1aおよび/または文書1bを受信する。外部の機器(例えば、一般ユーザが使用する端末)との通信を実現する本質的な機能が受信部20に備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。受信部20は、例えばイーサネット(登録商標)アダプタなどの機器で構成できる。また、受信部20は、例えばIEEE802.11無線通信、Bluetooth(登録商標)などの通信方式や通信媒体を利用できる。
【0056】
表示部50は、レビュアが操作可能なインターフェース画面を表示するデバイスである。
図1は、文書分析システム100が表示部50を備えた構成(例えば、表示部50として液晶ディスプレイなどが接続された構成)を示すが、当該表示部50は、当該文書分析システム100と通信可能に接続された外部の表示装置(例えば、クライアント端末)であってもよい。
【0057】
記憶部(所定の記憶部)30は、例えば、ハードディスク、SSD(silicon state drive)、半導体メモリ、DVDなど、任意の記録媒体によって構成される記憶機器であり、文書1a、キーワード情報5c、適合しきい値6、および/または文書分析システム100を制御可能な制御プログラムを記憶する。なお、
図1は、文書分析システム100が記憶部30を内蔵する構成を示すが、当該記憶部30は、当該文書分析システム100と通信可能に接続された外部の記憶装置であってもよい。
【0058】
〔文書分析システム100の性能検証〕
図3は、レビュー結果5aが付与された文書の数に対応する最小スコアを示す表であり、(a)は、目標適合率を100%とした場合を示し、(b)は、目標適合率を90%とした場合を示す。
【0059】
図3の(a)に例示されるように、所定の事案と関係するか否かがレビュアによって判断された文書の数が100である場合(同図の表において「サンプル数」が「100」である行を参照)、目標適合率100%を達成可能な最下位のランクは11位であり、当該ランクに対応するスコア(適合率100%を達成可能な最小スコア)は、0.110である。文書分析システム100は、上記最小スコアを適合しきい値として設定し、当該適合しきい値を超過するスコアを有する文書1bは、適合率100%を維持可能な文書(すなわち、所定の事案と関係する文書)とみなす。
【0060】
上記適合しきい値の妥当性を検証するために、レビュアによってレビュー結果5aが付与された7994の文書から、上記適合しきい値を超過するスコアを有する文書を取り出した。なお、上記文書は、文書分析システム100の性能を検証するために用意された特別な文書であり、当該文書分析システム100が分析の目的とする文書は、あくまでも、所定の事案と関係するか否かが未だ判断されていない文書1bであることに注意する。
【0061】
上記の結果、766の文書が上記適合しきい値を超過し、このうちの605の文書に「所定の事案と関係する」というレビュー結果5aが付与されていた。すなわち、わずか100の文書に対してレビュー結果5aを与えさえすれば、文書分析システム100は、約8000の文書に対して79%(605/766=0.790)の精度(適合率)で所定の事案と関係する文書を抽出できることが定量的に証明された。
【0062】
図3の(a)に示されるように、所定の事案と関係するか否かがレビュアによって判断された文書の数が増えるほど、文書分析システム100の精度(適合率)が上昇し、目標適合率に近づくことが分かる(同図の「全体サンプル」に含まれる「適合率」の列を参照)。
図3の(b)に示されるように、目標適合率を90%に下げた場合も、上記傾向は成立する。
【0063】
以上のように、文書分析システム100は、全体のサンプル数を確定できない任意の文書の一部に、レビュアによって判断された結果(レビュー結果5a)を与えさえすれば、残りの大部分の文書を高い精度で分別できる。すなわち、文書分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる。これにより、文書分析システム100は、例えば、機密情報を外部に漏えいさせたり、他社に談合を持ちかけたりするなどの法的リスクが高まる予兆を、人手をかけることなく検知できる。
【0064】
〔文書分析システム100が実行する処理〕
図4は、文書分析システム100が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、データ分析装置の制御方法に含まれる各ステップを表す。
【0065】
まず、データ抽出部11は、所定の事案と関係するか否かがレビュアによって判断されるべき文書1aを、所定の文書群から所定数だけ抽出する(ステップ1、以下「ステップ」を「S」と略記する)。次に、結果取得部12は、文書1aが所定の事案と関係するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して取得する(S2)。次に、要素評価部13は、上記所定の事案と関係するか否かがレビュアによって判断された文書に含まれるキーワードを、所定の基準に基づいてそれぞれ評価する(S3)。そして、スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案との関係性の強さを示すスコア5dを文書1aについてそれぞれ算出し(S4)、スコア特定部15は、上記所定の事案に関係すると判断された文書1aが、所定数の文書を含む文書群に占める割合を示す適合率に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値6として特定する(S5、閾値特定ステップ)。
【0066】
次に、スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案との関係性の強さを示すスコア5eを文書1bについてそれぞれ算出する(S6)。超過判定部16は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案と関係するか否かが未だ判断されていない文書1bについて算出されたスコア5eが、適合しきい値6を超過しているか否かを判定し(S7)、超過していると判定される場合(S7においてYES)、データ設定部17は、当該文書1bをレビュアに報告すべき文書として設定する(S8、データ設定ステップ)。最後に、関係付与部18は、データ設定部17によって設定された文書1bに、当該文書1bが所定の事案と関係することを示す関係性情報(文書分析システム100によるレビュー結果)を付与する(S9)。
【0067】
なお、上記制御方法は、
図4を参照して前述した上記処理だけでなく、制御部10に含まれる各部において実行される処理を任意に含んでよい。
【0068】
〔共起に基づくスコア計算〕
前述したように、スコア算出部14は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部14は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
【0069】
この場合、スコア算出部14は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、(上記〔数1〕ではなく)以下の式にしたがってスコアSを計算できる。
【0071】
なお、上記相関行列Cは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
【0072】
以上のように、文書分析システム100は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
【0073】
〔センテンスごとのスコア計算〕
前述したように、スコア算出部14は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部14は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
【0074】
【数4】
ここで、s
sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数4〕にしたがうスコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
【0075】
TFnormは、下記の〔数5〕に示されるように計算できる。
【0076】
【数5】
ここで、上記〔数5〕において、TF
iはi番目のキーワードの出現頻度(Term Frequency)を表し、s
jiは上記i番目のキーワードベクトルのj番目の要素を表し、c
jiは相関行列Cのj行i列の要素を表す。
【0077】
上記〔数4〕および〔数5〕をまとめると、スコア算出部14は、以下の〔数6〕を計算することによって文書ごとに上記スコアを算出する。
【0078】
【数6】
ここで、上記〔数6〕において、w
iは上記重みベクトルwのi番目の要素である。
【0079】
以上のように、文書分析システム100は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
【0080】
〔フェーズ分析〕
文書分析システム100は、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
【0081】
例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分析システム100は、ネットワーク上を日々流通する電子メールが当該不正行為事件に関係するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。
【0082】
また、時系列情報および生成過程情報が記憶部30に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。
【0083】
結果取得部12は、文書1aが所定の事案と関係するか否かについてレビュアが判断した結果と、当該文書1aが上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果5aとして取得し、要素評価部13は、文書1aに含まれるキーワードを上記フェーズごとにそれぞれ評価する(各キーワードの重みを決定する)。
【0084】
スコア算出部14は、文書1bに対してスコア5eを算出する場合、上記生成過程情報に基づいて当該文書1bがいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書1bのフェーズとして推定する。そして、スコア算出部14は、推定したフェーズに対応する重みを用いて、文書1bのスコアをそれぞれ算出する。このとき、スコア算出部14は、当該フェーズに対応する相関行列Cを用いてもよい。
【0085】
関係付与部18は、データ設定部17によって設定された文書1bを一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関係付与部18は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。
【0086】
以上のように、文書分析システム100は、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
【0087】
〔重みの再計算〕
データ設定部17によって設定された文書1b(所定の事案と関係すると文書分析システム100によって判断された文書)が、関係付与部18によって一覧可能に表示された後、結果取得部12は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分析システム100によって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部13は、上記フィードバックに基づいて各キーワードを再評価できる。
【0088】
言い換えれば、要素評価部13は、文書分析システム100の判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分析システム100は、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
【0089】
〔人物・組織相関の表示〕
データ設定部17は、文書1bに出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
【0090】
例えば、人物Aから人物Bに送信された電子メールを文書1bとして分析した結果、当該文書1bに「私からCさんに連絡しておきます」という文章が含まれていた場合、データ設定部17は、「人物A」、「人物B」、および「人物C」を抽出し、「人物A」を示すノードから「人物B」を示すノード、および「人物C」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部17は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。
【0091】
以上のように、文書分析システム100は、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。
【0092】
〔サーバ装置が機能の一部または全部を提供する構成〕
以上では、データを分析する機能を提供可能な制御プログラム(データ分析装置の制御プログラム)が、主に文書分析システム100(データ分析装置)において実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分析システム100(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明のデータ分析装置は、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分析システム100が機能を提供する場合に、当該文書分析システム100が奏する効果と同じ効果を奏する。
【0093】
〔ソフトウェアによる実現例〕
文書分析システム100の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0094】
なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置(例えば、文書分析システム100)と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。
【0095】
〔文書以外のデータに適用する例〕
本発明のデータ分析装置を実施する一形態として、文書を分析する文書分析システム100を説明したが、当該データ分析装置は、文書以外のデータも分析可能である。
【0096】
例えば、本発明のデータ分析装置は、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(文書データ)に変換し、上記文書分析システム100と同様に当該文書データを処理してもよいし、(2)音声データをそのまま処理してもよい。
【0097】
上記(1)の場合、上記音声分析システムは、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分析システム100が実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
【0098】
上記(2)の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関係するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
【0099】
または、本発明のデータ分析装置は、映像(動画)を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像データに含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、上記映像分析システムは、上記人物および/またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分析システム100と同様の効果を奏する。
【0100】
すなわち、本発明のデータ分析装置は、時系列で情報が展開するデジタルデータ(文書、音声、映像など)を分析することができる。これにより、上記データ分析装置は、過去のデータ(文書、音声、映像など)を分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる(例えば、不正行為が生じる予兆を検知できる)という効果を奏する。
【0101】
〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
【0102】
例えば、本発明は以下のようにも表現できる。すなわち、所定の事案と関係するか否かがユーザによって判断されたデータに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、要素評価部によって評価された結果に基づいて、所定の事案との関係性の強さを示すスコアを、データについてそれぞれ算出するスコア算出部と、所定の事案に関係すると判断されたデータが、所定数のデータを含むデータ群に占める割合を示す適合率に対して設定された目標値を超過可能な最小のスコアを、適合しきい値として特定するスコア特定部と、要素評価部によって評価された結果に基づいて、所定の事案と関係するか否かが未だ判断されていないデータについて算出されたスコアが、適合しきい値を超過しているか否かを判定する超過判定部と、超過判定部によって超過していると判定された場合、当該データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
【0103】
または、本発明は以下のようにも表現できる。すなわち、所定の事案との関係性の強さを示す指標として、当該所定の事案と関係するか否かがユーザによって判断された既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能な最小のスコアを特定するスコア特定部と、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合、当該未判断データについて算出されたスコアが、スコア特定部によって特定された最小のスコアを超過しているか否かを判定する超過判定部と、超過判定部によって超過していると判定された場合、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
【0104】
または、本発明は以下のようにも表現できる。すなわち、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる基礎情報を、当該所定の事案と関係するか否かがユーザによって判断された既判断データから特定する情報特定部と、情報特定部によって特定された基礎情報に基づいて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
【0105】
また、上記データ分析装置において、スコア算出部は、要素評価部によって評価された結果に基づいて、所定の事案との関係性の強さを示すスコアを、当該所定の事案と関係するか否かがユーザによって判断された文書にそれぞれ含まれるセンテンスごとに算出し、超過判定部は、要素評価部によって評価された結果に基づいて、所定の事案と関係するか否かが未だ判断されていない文書にそれぞれ含まれるセンテンスについて算出されたスコアが、適合しきい値を超過しているか否かを判定することができる。