特許第5986687号(P5986687)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社UBICの特許一覧

特許5986687データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
<>
  • 特許5986687-データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 図000010
  • 特許5986687-データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 図000011
  • 特許5986687-データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 図000012
  • 特許5986687-データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 図000013
  • 特許5986687-データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5986687
(24)【登録日】2016年8月12日
(45)【発行日】2016年9月6日
(54)【発明の名称】データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
(51)【国際特許分類】
   G06F 17/30 20060101AFI20160823BHJP
【FI】
   G06F17/30 210D
   G06F17/30 210A
   G06F17/30 170A
【請求項の数】8
【全頁数】17
(21)【出願番号】特願2015-534284(P2015-534284)
(86)(22)【出願日】2014年8月28日
(86)【国際出願番号】JP2014072566
(87)【国際公開番号】WO2015030112
(87)【国際公開日】20150305
【審査請求日】2016年2月25日
(31)【優先権主張番号】特願2013-178529(P2013-178529)
(32)【優先日】2013年8月29日
(33)【優先権主張国】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】304063864
【氏名又は名称】株式会社UBIC
(74)【代理人】
【識別番号】100093861
【弁理士】
【氏名又は名称】大賀 眞司
(74)【代理人】
【識別番号】100129218
【弁理士】
【氏名又は名称】百本 宏之
(72)【発明者】
【氏名】守本 正宏
(72)【発明者】
【氏名】白井 喜勝
(72)【発明者】
【氏名】武田 秀樹
(72)【発明者】
【氏名】蓮子 和巳
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2011−191834(JP,A)
【文献】 特開平06−075995(JP,A)
【文献】 特開2002−007433(JP,A)
【文献】 特開2002−288088(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
データ群を記憶する記憶装置と、
前記データ群に含まれるデータを分析する処理装置と、
を備えるデータ分別システムであって、
前記処理装置は、
前記データ群からユーザによって分別されるべき複数のデータを抽出し、
前記複数のデータの夫々に対して前記ユーザによって与えられた、複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから取得し、当該分別符号は、当該複数のデータの夫々を分別するための識別子であり、
前記取得した分別符号を前記複数のデータの夫々に付与することにより、当該複数のデータの夫々を分別し、
前記分別符号が付与されたデータに出現するデータ要素と、当該データ要素の重みと、に基づいて、前記複数のデータの夫々について、当該複数のデータの夫々に付与された前記分別符号との結びつきの強さを評価し、
前記評価された複数のデータの中から、前記評価に基づいて、所定数のデータを再度抽出し、
前記再度抽出された所定数のデータの夫々に対して前記ユーザによって与えられた、前記複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから再度取得し、
前記再度取得した分別符号を前記所定数のデータの夫々に付与することにより、当該所定数のデータの夫々を分別し、
前記分別符号が再度付与されたデータに出現するデータ要素と当該データ要素重みとに基づいて、前記所定数のデータの夫々について、前記分別符号との結びつきの強さを再度評価し、
前記ユーザによって分別符号が付与されていない対象データを、前記分別符号が再度付与されたデータのデータ要素の重みに基づいて評価する
データ分別システム。
【請求項2】
前記処理装置は、
前記所定数のデータ再抽出することと、前記分別符号再度付与することと、及び、前記所定数のデータを再度評価することを、所定回数繰り返す
請求項1記載のデータ分別システム。
【請求項3】
前記処理装置は、
前記評価の高い順に前記所定数のデータを再度抽出する
請求項1または2に記載のデータ分別システム。
【請求項4】
前記処理装置は、
前記データとしての文書中に出現する、前記データ要素としての複数のキーワード、及び、当該複数のキーワード夫々の持つ重みづけにより、前記評価としてのスコアを算出する
請求項1から3のいずれか一項に記載のデータ分別システム。
【請求項5】
前記処理装置は、
前記分別符号が再度付与されたデータを再評価するごとに、前記データ要素について、その種類及び個数の少なくとも一方を変更する請求項1から4のいずれか一項に記載のデータ分別システム。
【請求項6】
記憶装置に記憶されたデータ群に含まれるデータを処理装置が分析するデータ分別方法であって、
前記処理装置は、
前記データ群からユーザによって分別されるべき複数のデータを抽出するステップと、
前記複数のデータの夫々に対して前記ユーザによって与えられた、複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから取得するステップと、当該分別符号は、当該複数のデータの夫々を分別するための識別子であり、
前記取得した分別符号を前記複数のデータの夫々に付与することにより、当該複数のデータの夫々を分別するステップと、
前記分別符号が付与されたデータに出現するデータ要素と、当該データ要素の重みと、に基づいて、前記複数のデータの夫々について、当該複数のデータ夫々に付与された前記分別符号との結びつきの強さを評価するステップと、
前記評価された複数のデータの中から、前記評価に基づいて、所定数のデータを再度抽出するステップと、
前記再度抽出された所定数のデータの夫々に対して前記ユーザによって与えられた、前記複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから再度取得するステップと、
前記再度取得した分別符号を前記所定数のデータの夫々に付与することにより、当該所定数のデータの夫々を分別するステップと、
前記分別符号が再度付与されたデータに出現するデータ要素と当該データ要素重みとに基づいて、前記所定数のデータの夫々について、前記分別符号との結びつきの強さを再度評価するステップと、
前記ユーザによって分別符号が付与されていない対象データを、前記分別符号が再度付与されたデータのデータ要素の重みに基づいて評価するステップと、
を実行する
データ分別方法。
【請求項7】
記憶装置に記憶されたデータ群に含まれるデータを分析するためのプログラムであって、
前記データ群からユーザによって分別されるべき複数のデータを抽出する機能と、
前記複数のデータの夫々に対して前記ユーザによって与えられた、複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから取得する機能と、当該分別符号は、当該複数のデータの夫々を分別するための識別子であり、
前記取得した分別符号を前記複数のデータの夫々に付与することにより、当該複数のデータの夫々を分別する機能と、
前記分別符号が付与されたデータに出現するデータ要素と、当該データ要素の重みと、に基づいて、前記複数のデータの夫々について、当該複数のデータ夫々に付与された前記分別符号との結びつきの強さを評価する機能と、
前記評価された複数のデータの中から、前記評価に基づいて、所定数のデータを再度抽出する機能と、
前記再度抽出された所定数のデータの夫々に対して前記ユーザによって与えられた、前記複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから再度取得する機能と、
前記再度取得した分別符号を前記所定数のデータの夫々に付与することにより、当該所定数のデータの夫々を分別する機能と、
前記分別符号が再度付与されたデータに出現するデータ要素と当該データ要素重みとに基づいて、前記所定数のデータの夫々について、前記分別符号との結びつきの強さを再度評価する機能と、
前記ユーザによって分別符号が付与されていない対象データを、前記分別符号が再度付与されたデータのデータ要素の重みに基づいて評価する機能と、
をコンピュータに実現させるためのプログラム。
【請求項8】
請求項7に記載の前記プログラムが記録されたコンピュータ読取可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。
【背景技術】
【0002】
従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
【0003】
特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
【0004】
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
【0005】
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
【0006】
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
【0007】
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
【0008】
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2011−209930号公報
【特許文献2】特開2011−209931号公報
【特許文献3】特開2012−32859号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、引用文献1乃至3に開示されるようなフォレンジックシステムにおいては、文書の分別結果の適合率や再現率をさらに向上させたいという要望がある。
【0011】
本発明は、上記事情に鑑み、文書等のデータの分別結果の適合率及び再現率の少なくとも一方を向上できるデータ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明は、データ群を記憶する記憶装置と、前記データ群に含まれるデータを分析する処理装置と、を備えるデータ分別システムであって、前記処理装置は、前記データ群からユーザによって分別されるべき複数のデータを抽出し、前記複数のデータの夫々に対して前記ユーザによって与えられた、複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから取得し、当該分別符号は、当該複数のデータの夫々を分別するための識別子であり、前記取得した分別符号を前記複数のデータの夫々に付与することにより、当該複数のデータの夫々を分別し、前記分別符号が付与されたデータに出現するデータ要素と、当該データ要素の重みと、に基づいて、前記複数のデータの夫々について、当該複数のデータ夫々に付与された前記分別符号との結びつきの強さを評価し、前記評価された複数のデータの中から、前記評価に基づいて、所定数のデータを再度抽出し、前記再度抽出された所定数のデータの夫々に対して前記ユーザによって与えられた、前記複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから再度取得し、前記再度取得した分別符号を前記所定数のデータの夫々に付与することにより、当該所定数のデータの夫々を分別し、前記分別符号が再度付与されたデータに出現するデータ要素と当該データ要素重みとに基づいて、前記所定数のデータの夫々について、前記分別符号との結びつきの強さを再度評価し、前記ユーザによって分別符号が付与されていない対象データを、前記分別符号が再度付与されたデータのデータ要素の重みに基づいて評価するデータ分別システムに係る。さらに、本発明は、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体に係る。
【発明の効果】
【0020】
本発明によれば、文書等のデータの分別結果の適合率及び再現率の少なくとも一方を向上できるデータ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体を提供することができる。
【図面の簡単な説明】
【0021】
図1】本発明の実施形態に係る文書判別システムの構成図
図2】本発明の実施形態における文書表示画面
図3】本発明の実施形態における選定部での解析結果を示したグラフ
図4】本発明の実施形態における文書判別システムの動作を示したフローチャート
図5】実施例にかかる処理結果を示したグラフ
【発明を実施するための形態】
【0022】
[実施形態]
以下、本発明の実施の形態を添付の図により説明する。図1に実施形態に係る文書判別システムの構成図を示す。
【0023】
実施形態は、特許侵害訴訟における文書提出命令に対応する際に、被疑製品である製品Aに関する文書を分別処理する場合の実施例である。
【0024】
[文書分別システムの構成]
実施形態において、該文書分別システムは、文書分別装置100、データベース200及びレビュワーが利用するクライアント装置300から構成される。文書分別装置100は、抽出部101、表示制御部102、分別符号受付部103、選定部104、探索部105、スコア算出部106、判定部107及び自動分別部108を備える。クライアント装置300は1つの文書判別システム内に複数備えることも可能である。
【0025】
文書分別装置100及びクライアント装置300は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。
【0026】
分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、証拠として提出する必要があることを表す「関係あり」、及び製品Aととりわけ関わりがある文書であることを表す「重要」の3つの符号を備えており、このうち「重要」符号が付与される文書を分別するものである。
【0027】
ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、1つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にOCR(Optical Character Recognition)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や探索が可能になる。
【0028】
例えば、実施形態においては、製品Aに関する打ち合わせについての内容が記載された議事録や電子メール等に「関係あり」符号が付与され、製品Aの開発計画書や設計書等に「重要」符号が付与され、製品Aとは無関係の定例会等の資料に「無関係」符号が付与される。
【0029】
また、キーワードは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。
【0030】
本実施形態においては、キーワードには、形態素が含まれるものとする。
【0031】
データベース200は、電子媒体にデータを記録する記録装置であり、文書分別装置100の内部にあってもよいし、例えばストレージ装置として外部に設置してもよい。
【0032】
文書分別装置100、データベース200及びクライアント装置300は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
【0033】
データベース200は、各分別符号についてのキーワードを記録しているものである。また、過去の分別処理の結果から、製品Aと関連性が高く文書中に含まれれば直ちに「重要」符号を付与すると、判断できるキーワードを事前に登録することができる。例えば製品Aの主要機能名や、「訴訟」、「警告」、「特許公報」のようなキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し、関連用語として登録しておくことも可能である。一度データベース200に登録されたキーワード及び関連用語は、手動によって追加登録・及び削除が可能である。
【0034】
抽出部101は、文書情報からデータセットである文書群を抽出する。抽出部101は、この抽出の際に、ランダムにサンプリングを行うことが可能である。実施形態では、全文書情報から所定数の文書をランダムに抽出し、レビュワーによる分別対象とする。
【0035】
また、抽出部101は、スコア算出部106により算出されたスコアに基づいて、算出したスコアに関する所定の順序で所定数の文書を抽出する。実施形態においては、スコアに関する所定の順序はスコアの高い順としているが、低い順等でもあってもよい。ここで所定数とは、文書情報に含まれる文書のうちスコアの高い順に上位10%から50%の範囲内であることが好ましく、25%であることがより好ましい。抽出する文書数が少なすぎると、文書の分別結果の適合率及び再現率の向上を期待することができない。また、抽出する文書数が多いと、分別に必要な費用(コスト)が増大するためである。なお、文書情報から抽出する文書を%(割合)ではなく、文書の数(例えば、1000)で規定するようにしてもよい。なお、抽出部101が全文書情報から抽出する文書の割合及び件数は、マニュアル(手動)で変更することも可能である。
【0036】
表示制御部102は、クライアント装置300に対して、図2に示されるような文書表示画面11を提示する。文書表示画面11は、図2のように中央に分別対象となる文書が表示し、左側に分別符号が表示するような画面構造で1画面内に分別対象の文書と付与する分別符号を表示することができるものである。文書を表示する箇所と分別符号を表示する箇所がそれぞれ別画面となる画面構造であってもよい。
【0037】
実施形態において、文書表示画面11中の分別符号1は「無関係」符号、分別符号2は「関係あり」符号及び分別符号3は「重要」符号を意味する。また、「関係あり」符号を付与された文書のうち、小分類1は製品Aの価格と関係がある文書に対して付与され、小分類2は製品Aの開発スケジュールと関係がある文書に対して付与されるものである。小分類は1つの分別符号に複数備えてもよいし、備えない場合があってもよい。
【0038】
分別符号受付部103は、表示制御部102が表示した文書情報のうち、レビュワーが目視により確認し、ひとつひとつ分別符号を決定した文書に対して、該決定に基づいて付与した分別符号を受け付ける。文書の分類は付与された分別符号によって行うことが可能である。
【0039】
選定部104は、分別符号受付部103が受け付けた分別結果に基づいて文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する。
【0040】
図3は選定部104の「重要」符号が付与された文書を解析した結果を示したグラフである。図3において、縦軸R_hotは、レビュワーによって「重要」符号が付与された全文書のうち、「重要」符号に紐づくキーワードとして選定されたキーワードを含み、かつ「重要」符号が付与された文書の割合を示している。横軸は、レビュワーが分別処理を実施した全文書のうち、選定部104によって選定されたキーワードを含む文書の割合を示している。
【0041】
実施形態において、選定部104では、直線R_hot=R_allよりも上部にプロットされるようなキーワードをその分別符号におけるキーワードとして選定することが可能である。また、システムリソースが許される限りにおいて、抽出されたキーワード(形態素を含む)を全て利用してもよい。
【0042】
探索部105は、対象となる文書中から特定のキーワードを探索する機能を備える。探索部105は、選定部104で選定されたキーワードあるいはデータベース200で抽出された関連用語を含む文書を、探索する際において、分別符号受付部103によって分別符号の付与を受け付けなかった文書から構成される文書群を対象として探索するものである。
【0043】
スコア算出部106は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより以下の式からスコアを算出する。スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。
:i番目のキーワード又は関連用語の出現頻度
【0044】
なお、上記スコア算出のための(1)式は、一例であり、他の式でスコアを算出するようにしてもよい。
【0045】
判定部107は、予め記憶されているスコア算出の回数に達したかどうかを判定する。なお、スコア算出の回数は、マニュアル(手動)で変更することも可能である。
【0046】
自動分別部108は、算出されたスコアに基づいて文書情報に自動で分別符号を付与する。また、分別符号を付与する際に、分別符号受付部103において分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。
【0047】
クライアント装置300は、レビュワーが操作し、文書情報を確認し付与する分別符号を決定するのに利用する装置である。
【0048】
[文書分別システムの動作]
図4は、実施形態に係る文書分別システムの動作を示すフローチャートである。初めに、抽出部101は、分別対象である文書情報からデータセットである文書群を抽出する(ステップS101)。
【0049】
表示制御部102は、クライアント装置300に対して、抽出部101により抽出された文書の文書表示画面を提示する(ステップS102)。
【0050】
分別符号受付部103は、表示制御部102が表示した文書情報のうち、レビュワーが目視により確認して各文書に付与した分別符号を受け付ける(ステップS103)。
【0051】
選定部104は、分別符号受付部103が分類した文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する(ステップS104)。
【0052】
探索部105は、対象となる文書中から特定のキーワードを探索する(ステップS105)。
【0053】
スコア算出部106は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより前述の(1)式から、各文書のスコアを算出する(ステップS106)。
【0054】
判定部107は、ユーザが設定もしくは予め記憶されているスコア算出の回数に達したかどうか(N=n)を判定する(ステップS107)。
【0055】
スコア算出の回数が予め決定されている回数に達していない場合(ステップS107のNo)、抽出部101は、スコア算出部106により算出されたスコアに基づいて、算出したスコアの高い順に所定数(例えば、上位25%)の文書を抽出し(ステップS107)、該抽出した文書に対して、ステップS102〜S107の動作を繰り返す。
【0056】
スコア算出の回数が予め決定されている回数に達している場合(ステップS107のYes)、自動分別部108は、算出されたスコアに基づいて文書情報(すべての文書)に自動で分別符号を付与する(ステップS109)。
【0057】
以上のように、本実施形態では、文書情報に含まれる各文書に対して算出されたスコアに基づいて所定数(例えば、上位25%)の文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、自動分別部108による文書の分別結果の適合率及び再現率を向上することができる。
【0058】
なお、上記実施形態では、探索部105により探索されたキーワードに基づいて文書情報のスコアを算出しているが、予めデータベース200に登録されているキーワードを用いて、文書情報のスコアを算出するようにしてもよい。また、複数のキーワード(キーワードセット)を用いて文書情報のスコアを算出してもよい。さらに、文書情報のスコアを算出するたびに異なるキーワードもしくはキーワードセットを用いて文書情報のスコアを算出するように構成してもよい。
【0059】
[その他の実施形態]
また、文書分別装置100に、文書排除部及び学習部を備えるようにしてもよい。文書排除部は、分別対象となる文情報のうち、データベース200で事前に登録されたキーワード及び関連用語、並びに選定部104において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除することが可能である。
【0060】
また、学習部は、分別処理の結果をもとに、各キーワードの重みづけを学習し、該学習結果をもとにデータベース200に登録されているキーワード及び関連用語の増減を行う。各キーワードがもつ重みづけは、該キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。該重みづけは以下の式より、分別処理を重ねるごとに学習し、精度を向上させることが可能である。
Wgti,0:学習前のi番目の選定キーワードの重み(初期値)
Wgti,L:L回目学習後のi番目の選定キーワードの重み
γL:L回目学習における学習パラメータ
【0061】
また、学習部では、ニューラルネットを用いて分別結果を重みづけに反映させる学習方法をとることも可能である。
【0062】
実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、eDiscovery(電子証拠開示)制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。
【0063】
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、各文書に対して算出されたスコアに基づいて所定数の文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、文書の分別結果の適合率及び再現率を向上することができる。
【0064】
また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
【0065】
また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
【0066】
[実施例]
図5は、実施例に係る分別処理の結果を示したグラフである。図5において、縦軸は再現率(Recall)、横軸はランク(Rank)である。ここで、「再現率(recall)」とは、文書情報に含まれる訴訟に関連するすべての文書のうち、どれだけの文書が自動分別部108により分別されているかを示す網羅性の指標である。例えば、文書情報に含まれる訴訟に関連するすべての文書数が100とし、自動分別部108により訴訟に関連すると分別された文書数が80とすると、再現率は80%となる。また、「ランク(Rank)」とは、スコア算出部106により算出されたスコアによる各文書のランク(順位)である。
【0067】
図5に示すように、スコアの算出を1回だけ行った場合(図5の実線)に比べ、スコアの算出を2回行った場合(図5の破線)、再現率(Recall)が大幅に向上していることがわかる。つまり、文書情報の分別結果の精度が大幅に向上していることがわかる。なお、この実施例では、1回目(First Stage)のスコア算出に基づいて、上位25%の文書を抽出し、該抽出した文書の分別結果に基づいて2回目(Second Stage)のスコア算出を行っている。
【0068】
[その他の実施例]
〔共起に基づくスコア計算〕
スコア算出部は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
【0069】
この場合、スコア算出部は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、以下の式にしたがってスコアSを計算できる。
【0070】
【0071】
なお、上記相関行列Cは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
【0072】
以上のように、文書分別システムは、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案(例えば、訴訟など)と関係するデータを抽出できる。
【0073】
〔センテンスごとのスコア計算〕
スコア算出部は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
【0074】
ここで、sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記スコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
【0075】
TFnormは、下記に示されるように計算できる。
【0076】
ここで、TFはi番目のキーワードの出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
【0077】
上記をまとめると、スコア算出部は、以下を計算することによって文書ごとに上記スコアを算出する。
【0078】
ここで、wは上記重みベクトルwのi番目の要素である。
【0079】
以上のように、文書分別システムは、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
【0080】
〔フェーズ分析〕
文書分別システムは、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
【0081】
例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分別システムは、ネットワーク上を日々流通する電子メールが当該不正行為事件に関係するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。
【0082】
また、時系列情報および生成過程情報が記憶部(データベース)に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。
【0083】
結果取得部は、文書が所定の事案と関係するか否かについてレビュアが判断した結果と、当該文書が上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果として取得し、要素評価部は、文書に含まれるキーワードを上記フェーズごとにそれぞれ評価する(各キーワードの重みを決定する)。
【0084】
スコア算出部は、未分別の文書に対してスコアを算出する場合、上記生成過程情報に基づいて当該文書がいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書のフェーズとして推定する。そして、スコア算出部は、推定したフェーズに対応する重みを用いて、文書のスコアをそれぞれ算出する。このとき、スコア算出部は、当該フェーズに対応する相関行列Cを用いてもよい。
【0085】
関係付与部(自動分別部)は、データ設定部によって設定された文書を一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関係付与部は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。
【0086】
以上のように、文書分別システムは、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
【0087】
〔重みの再計算〕
データ設定部によって設定された文書(所定の事案と関係すると文書分別システムによって判断された文書)が、関係付与部によって一覧可能に表示された後、結果取得部は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分別システムによって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部は、上記フィードバックに基づいて各キーワードを再評価できる。
【0088】
言い換えれば、要素評価部は、文書分別システムの判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分別システムは、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
【0089】
〔人物・組織相関の表示〕
データ設定部は、文書に出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
【0090】
例えば、人物Aから人物Bに送信された電子メールを文書として分析した結果、当該文書に「私からCさんに連絡しておきます」という文章が含まれていた場合、データ設定部は、「人物A」、「人物B」、および「人物C」を抽出し、「人物A」を示すノードから「人物B」を示すノード、および「人物C」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。
【0091】
以上のように、文書分別システムは、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。
【0092】
〔サーバ装置が機能の一部または全部を提供する構成〕
以上では、データを分析する機能を提供可能な制御プログラム(文書分析システムの制御プログラム)が、主に文書分別システムにおいて実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分別システム(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明の文書分別システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分別システムが機能を提供する場合に、当該文書分別システムが奏する効果と同じ効果を奏する。
【0093】
〔ソフトウェアによる実現例〕
文書分別システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分別システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0094】
なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置(例えば、文書分別システム100)と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。
【0095】
〔文書以外のデータに適用する例〕
本発明の文書分別システムを実施する一形態として、文書を分析する文書分別システムを説明したが、当該文書分別システムは、文書以外のデータも分析可能である。
【0096】
例えば、本発明の文書分別システムは、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(文書データ)に変換し、上記文書分別システムと同様に当該文書データを処理してもよいし、(2)音声データをそのまま処理してもよい。
【0097】
上記(1)の場合、上記音声分析システムは、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分別システムが実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分別システムと同様の効果を奏する。
【0098】
上記(2)の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関係するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分別システムと同様の効果を奏する。
【0099】
または、本発明の文書分別システムは、映像(動画)を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像データに含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、上記映像分析システムは、上記人物および/またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分別システムと同様の効果を奏する。
【0100】
すなわち、本発明の文書分別システムは、時系列で情報が展開するデジタルデータ(文書、音声、映像など)を分析することができる。これにより、上記文書分別システムは、過去のデータ(文書、音声、映像など)を分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる(例えば、不正行為が生じる予兆を検知できる)という効果を奏する。
【0101】
〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
【符号の説明】
【0102】
100 文書分別装置
101 抽出部
102 表示制御部
103 分別符号受付部
104 選定部
105 探索部
106 スコア算出部
107 判定部
108 自動分別部
200 データベース
300 クライアント装置
図1
図2
図3
図4
図5