【文献】
John Tredennick,Predictive Coding Helps Companies Reduce Discovery Costs,[online],2013年 2月 6日,URL,http://www.wwpi.com/index.php?option=com_content&view=article&id=15617
(58)【調査した分野】(Int.Cl.,DB名)
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査システムにおいて、
案件毎の分別及び調査結果に関連する情報を登録する調査結果データベースを格納するデータ格納部を備え、
訴訟又は不正調査案件に関して、案件毎の案件種別、調査種別、言語種別、分別作業結果、予測分別作業結果を含む案件調査結果関連情報を収集及び解析し、前記案件調査結果関連情報からプレディクティブコーディングによる解析結果に基づいて、調査モデルパラメータと調査モデルを作成又は更新し、前記調査モデルパラメータと前記調査モデルを前記調査結果データベースに登録する調査結果解析部と、
新たな調査案件の調査内容を特定する入力情報を受け付けると、前記調査結果データベースを検索して、前記入力情報に関連して前記調査結果データベースから調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成し、提供する事前情報構成部とを備える事前情報を提供する文書調査システム。
前記調査結果解析部が、収集した案件調査結果関連情報と登録されている案件調査結果関連情報との関連性を調査し、収集した案件調査結果関連情報と登録されている案件調査結果関連情報とにおける共通の情報要素を抽出し、前記共通の情報要素に関連し、案件の形態要素の重み付けパラメータを含む共通情報要素関連情報を追加、削除、又は更新することにより前記案件調査結果関連情報を解析する請求項1又は2記載の事前情報を提供する文書調査システム。
前記調査結果解析部が、前記共通情報要素関連情報を処理し、前記調査モデルパラメータに関連する情報を生成又は更新する請求項3記載の事前情報を提供する文書調査システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査方法において、
案件毎の分別及び調査結果に関連する情報を登録する調査結果データベースを格納するデータ格納機能を備えるコンピュータが、
訴訟又は不正調査案件に関して、案件毎の案件種別、調査種別、言語種別、分別作業結果、予測分別作業結果を含む案件調査結果関連情報を収集及び解析し、前記案件調査結果関連情報からプレディクティブコーディングによる解析結果に基づいて、調査モデルパラメータと調査モデルを作成又は更新し、前記調査モデルパラメータと前記調査モデルを前記調査結果データベースに登録し、
新たな調査案件の調査内容を特定する入力情報を受け付けると、前記調査結果データベースを検索して、前記入力情報に関連して前記調査結果データベースから調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成する事前情報を提供する文書調査方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査プログラムにおいて、
案件毎の分別及び調査結果に関連する情報を登録する調査結果データベースを格納するデータ格納機能を備えるコンピュータであって、該コンピュータに、
訴訟又は不正調査案件に関して、案件毎の案件種別、調査種別、言語種別、分別作業結果、予測分別作業結果を含む案件調査結果関連情報を収集及び解析し、前記案件調査結果関連情報からプレディクティブコーディングによる解析結果に基づいて、調査モデルパラメータと調査モデルを作成又は更新し、前記調査モデルパラメータと前記調査モデルを前記調査結果データベースに登録する調査結果解析機能と、
新たな調査案件の調査内容を特定する入力情報を受け付けると、前記調査結果データベースを検索して、前記入力情報に関連して前記調査結果データベースから調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成し、提供する事前情報構成機能とを実現する事前情報を提供する文書調査プログラム。
【発明を実施するための形態】
【0021】
[本発明の実施形態]
本発明の実施形態に係る文書調査システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするものである。
図1は、本発明の本発明の実施形態に係る文書調査システムの構成を示す。
図1を参照して、本発明の実施形態に係る文書調査システムの構成について以下に記載する。
【0022】
実施形態に係る文書調査システム1は、情報及びデータを格納するデータ格納部100を有する。該データ格納部100は、訴訟又は不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報をデジタル情報格納領域101に格納する。
そして、データ格納部100は、案件毎の分別及び調査結果に関連する案件調査結果関連情報及び解析結果を格納する調査結果データベース103と、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース104と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース105と、文書と分別符号との結びつきの強さを示すスコアを算出するために該文書に含まれるワードの重みづけを登録するスコア算出データベース106とを格納する。更に、データ格納部100は、案件毎に作成されるプレディクティブコーディングに関する情報を登録する事前情報構成データベース107を格納する。このデータ格納部100は、
図1に示されるように、文書調査システム1内に設置されても良く、別個のストレージ装置として文書調査システム1の外部に設置されても良い。
【0023】
本発明の実施形態に係る文書調査システム1は、調査結果データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び事前情報構成データベース107のデータ内容の更新を管理するデータベース管理部109を備える。情報格納装置902に記憶されるデータの内容を、専用接続線又はインターネット回線901を経由してデジタル情報格納領域101に転送し取り込んでも良い。そして、データベース管理部109は、情報格納装置902からデジタル情報格納領域101に転送された情報に基づいて、調査結果データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び事前情報構成データベース107のデータ内容を更新しても良い。
【0024】
本発明の実施形態に係る文書調査システム1は、文書情報から複数の文書を抽出する文書抽出部112と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部114と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部116とを備える。
【0025】
本発明の実施形態に係る文書調査システム1は、ワード検索部114により前記キーワードデータベース104に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部201と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部301を有する。
【0026】
更に、実施形態に係る文書調査システム1は、文書情報から抽出された複数の文書を画面上に表示する文書表示部130と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部131と、分別符号受付付与部131により分別符号を付与された文書を解析する文書解析部118と、文書情報から抽出された複数の文書に対して、前記分別符号受付付与部131により分別符号を付与された文書を文書解析部118により解析した解析結果に基づいて、分別符号を自動的に付与する第3自動分別部401を備える。
【0027】
また、本発明の実施形態に係る文書調査システム1は、訴訟又は不正調査案件に関連する情報を収集及び解析する調査結果解析部801と、案件調査結果関連情報の解析結果から事前情報を構成する事前情報構成部120を備える。
【0028】
調査結果解析部801は、訴訟又は不正調査案件に関して、案件毎に案件種別、調査種別、言語種別、分別作業結果、予測分別作業結果を含む案件調査結果関連情報を収集及び解析する。次に、調査結果解析部801は、調査結果関連情報の解析結果に基づいて、訴訟又は不正調査案件に関して調査するための調査モデルと調査モデルパラメータを作成又は更新する。そして、調査結果解析部801は、案件調査結果関連情報、前記案件調査結果関連情報の解析結果、前記調査モデル、及び前記調査モデルパラメータを調査結果データベース103に登録する。
【0029】
事前情報構成部120は、新たな調査案件の調査内容を特定する入力情報を受け付けると、調査結果データベース103を検索して、入力情報に関連して調査結果データベース103から調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成する。事前情報構成部120は、新たな調査案件、調査モデルモデルパラメータ、調査モデル出力結果、及び事前情報を事前情報構成データベース107に登録しても良い。
【0030】
実施形態に係る文書調査システム1では、事前情報構成部120から事前情報が発行及び出力されると、事前情報により設定された分別及び調査条件に従って、第1自動分別部201、第2自動分別部301、及び第3自動分別部401が抽出文書情報を分別する。
【0031】
また、本発明の実施形態に係る文書調査システム1は、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部122を備えても良い。翻訳部122は、1文多言語の複合言語にも対応できるように、言語の区切りを1文より小さくしても良い。また、言語の判定に、言語判定のためのプレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、HTMLのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。
【0032】
また、本発明の実施形態に係る文書調査システム1は、文書解析部118による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部124を備えても良い。
【0033】
また、本発明の実施形態に係る文書調査システム1は、分別符号受付付与部131が受け付けた分別符号と文書解析部118において傾向情報により付与された分別符号を比較し、分別符号受付付与部131が受け付けた分別符号の妥当性を検証する品質検査部501を備えても良い。
更に、本発明の実施形態に係る文書調査システムは、文書分別処理又は予測文書分別処理の結果をもとに、各キーワード又は関連用語の重みづけを学習する学習部601を備えても良い。
【0034】
本発明の実施形態に係る文書調査システム1は、文書分別処理の結果をもとに、訴訟案件又は不正調査の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備える。訴訟案件には、 例えば、反トラスト(カルテル)、特許、海外賄賂禁止(FCPA)、又は製造物責任(PL)が含まれる。また、不正調査には、例えば、情報漏洩、架空請求が含まれる。
【0035】
本発明の実施形態に係る文書調査システム1は、分別調査と報告の質を向上し、分別調査と報告の責任を明確にするために、主任弁護士又は主任弁理士のレビューを受け付ける弁護士レビュー受付部133を備える。
【0036】
本発明の実施形態に係る文書調査システムの理解を容易とするために、実施形態に特有な用語について以下に記載する。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
【0037】
「文書」とは、1つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
【0038】
「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
【0039】
「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。実施形態においては、「侵害」や「訴訟」、「特許公報〇〇号」といったキーワードが重点的に選定される。
本実施形態においては、キーワードには形態素が含まれるものとする。
【0040】
また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。
【0041】
「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。
【0042】
また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。
【0043】
「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品A」という分別符号が製品Aの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。
【0044】
「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
【0045】
また、本発明の文書調査システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部131により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。
【0046】
ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
【0047】
図2は、本発明の実施形態に係る文書調査方法のフローチャートを示す。
図2を参照して、本発明の実施形態に係る文書調査方法について以下に記載する。
案件調査結果関連情報を解析し、案件調査結果関連情報と案件調査結果関連情報の解析結果をデータベースに登録する(STEP1)。
モデルとモデルパラメータを作成、追加、削除、及び更新し、当該モデルとモデルパラメータをデータベースに登録する(STEP2)。
案件種別・調査種別等、案件や調査内容を特定する入力情報に関連して、データベースを検索して、調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、モデル出力を行い、モデル出力結果から事前情報を構成する(STEP3)。構成された事前情報をデータベースに登録して利用しても良い。
事前情報に基づいて検索ワードを含む調査条件を設定し、抽出デジタル文書情報を分別及び調査する(STEP4)。
分別及び調査結果に関連する案件調査結果関連情報を収集する(STEP5)
そして、新規案件について案件調査結果関連情報を解析し、予測分別を行う場合には案件毎にSTEP1からSTEP5の処理を繰り返す。
【0048】
本発明の実施形態に係る文書調査方法では、種々の案件に関する案件調査結果関連情報等の分析結果を事前情報構成データベースに蓄積する。蓄積された案件調査結果関連情報等の分析結果から、新規案件に対して様々な事前情報を提供することができる。
すなわち、本発明の実施形態に係る文書調査方法では、蓄積した案件の分別及び調査の解析結果を情報源として、特定の調査モデルに基づき、事前予測情報を構成して出力することにより、提供された事前情報に基づいて文書の分別及び調査を可能とする。
なお、蓄積した分別及び調査の解析結果を情報源として、特定の調査モデルを規定する調査モデルパラメータを更新、修正することもできる。
【0049】
本発明の実施形態に係る文書調査方法の基本的な処理について以下に要約して記載する。
すなわち、本発明の実施形態に係る文書調査方法では、案件調査結果関連情報を収集し、データベースに登録する。
案件調査結果関連情報をデータベースから読み出して、調査モデルと調査モデルのパラメータを適宜更新、修正する。
新規案件の調査内容を特定する入力情報に対し、調査モデルを構成し、調査モデルに基づいて事前情報を提供する。これにより、新規案件に対して分別及び調査処理を的確に行い、分別及び調査に対する信頼性を向上する利益を得ることができる。
【0050】
案件調査結果関連情報の解析処理(
図2のSTEP1)を、以下のSTEP11からSTEP15の処理に分解してより詳細に記載する。
案件調査結果関連情報を収集する(STEP11)。
案件調査結果関連情報には、例えば、案件種別、調査種別、言語種別、調査対象ドキュメントの書誌情報、統計情報、レビュー関連情報(プロトコル等)、レビュー結果情報、プレディクティブコーディング(PC)パラメータ・結果情報、フィードバック情報が含まれる。
【0051】
案件調査結果関連情報をカテゴライズ、すなわち分類する(STEP12)。
案件調査結果関連情報は案件種別、調査種別等に基づいて分類される。プレディクティブコーディング(PC)の結果情報(形態素分析等の分析結果情報)等については階層化されて分類される。
既存情報(当該装置が既に格納している諸情報)との関連性を調べる(STEP13)。
関連性は、例えば、同一・類似の案件種別、調査種別の情報間でチェックされる。
【0052】
関連性がチェックされた後に、チェックされた関連性に従って、既存情報と関連情報とにおける共通の情報要素を抽出する(STEP14)。
共通の情報要素には、例えば、共通する形態素、メタデータが含まれる。
上述の共通情報要素に関連する諸情報を追加、削除、又は更新する(STEP15)。
共通情報要素に関連する諸情報には例えば、形態素の重みパラメータ等が含まれる。
【0053】
調査モデルと調査モデルパラメータを作成、追加、削除、及び更新し、並びに登録する処理(
図2のSTEP2)を、以下のSTEP21からSTEP23の処理に分解してより詳細に記載する。
共通情報要素に関連する諸情報を読み出す(STEP21)。
上述の諸情報を処理し、モデルパラメータに関連する情報を生成する(STEP22)。
上述の調査モデルパラメータに関連する情報に基づいて、調査モデルパラメータを追加、削除、更新する(STEP23)。
上述の調査モデルと調査モデルパラメータに関する情報は、データベースに登録する。
【0054】
事前情報を構成する処理(
図2のSTEP3)を、以下のSTEP31からSTEP35の処理に分解してより詳細に記載する。
入力情報を収集する(STEP31)。
入力情報とは、案件種別・調査種別等、案件や調査内容を具体的に特定する情報である。また、入力情報は具体的な案件の識別情報等でも良い。
【0055】
入力情報に関連する既存情報(当該装置が既に格納している諸情報)を抽出する(STEP32)。
上述のSTEP32の処理は、案件調査結果関連情報の解析処理のステップSTEP13やSTEP14に準じて行っても良く、又は別の関連性に基づいて行っても良い。
【0056】
上述の既存情報に関連する調査モデルパラメータを抽出する(STEP33)。
例えば、特定の調査種別に関する調査モデルの適切なパラメータを決定しても良い。調査モデルは複数あって、調査種別等に応じて適宜選択されてもよい。
【0057】
上述の調査モデルパラメータを用いて、モデルに基づいてモデル出力結果を計算する(STEP34)。
例えば、特定の種別に関して、データベースDBが蓄積した情報から、典型的な特徴的行為(不正行為、準不正行為、危険行為)を示す内容を調査モデルから導出する。
【0058】
上述の調査モデル出力結果に基づいて、事前情報を構成する(STEP35)。
事前情報とは、入力情報に対応した予測情報(不正行為等のパターン等)である。
事前情報を構成した後に、事前情報に基づいて分別及び調査を進める。
【0059】
本発明の実施形態において、事前情報に関する情報はプレディクティブコーディングにおいて使用するので、事前情報構成データベースに格納しても良い。
【0060】
本発明の実施形態では、
図3に示すフローチャートに従い、第1段階〜第5段階で、登録処理、分別処理、及び検査処理を行う。
【0061】
第1段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。
【0062】
第2段階では、第1段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第1分別処理を行う(STEP200)。
【0063】
第3段階では、第1段階で更新登録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第2分別処理を行う(STEP300)。
【0064】
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第3分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
【0065】
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。また、必要に応じて、文書分別処理の結果に基づいて学習処理を行っても良い。
【0066】
第4段階及び第5段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
【0067】
第1段階から第5段階の各段階における詳細な処理フローを以下で説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース104の詳細な処理フローを
図4を用いて説明する。
【0068】
キーワードデータベース104は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(STEP111)。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
【0069】
本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する(STEP112)。そして、特定されたキーワードをキーワードデータベース104に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース104の分別符号「重要」の管理テーブルに記録する(STEP113)。
【0070】
次に、関連用語データベース105の詳細な処理フローを
図5を用いて説明する。関連用語データベース105は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する(STEP121)。本発明の実施形態においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を登録する。
【0071】
登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、各管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
【0072】
実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する(STEP113、STEP123)。
【0073】
<第2段階(STEP200)>
第2段階における第1自動分別部201の詳細な処理フローを、
図6を用いて説明する。本発明の実施形態において、第2段階では、第1自動分別部201によって、分別符号「重要」を文書に付与する処理を行う。
【0074】
第1自動分別部201では、第1段階(STEP100)でキーワードデータベース104に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(STEP211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、(STEP212)、「重要」という分別符号を付与する(STEP213)。
【0075】
<第3段階(STEP300>
第3段階における第2自動分別部301の詳細な処理フローを、
図7を用いて説明する。
本発明の実施形態において、第2自動分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
【0076】
第2自動分別部301は、該文書情報から、第1段階で関連用語データベース105に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(STEP311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)を用いて、スコア算出部116によりスコアを算出する(STEP312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
【0077】
該スコアが閾値を超過した場合、関連用語対応情報を参照し(STEP313)、適切な分別符号を付与する(STEP314)。
【0078】
例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
【0079】
このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
【0080】
第2自動分別部301では、第4段階のSTEP432において算出されるスコアを用いて以下に示す式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う(STEP315)。
【0081】
例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
【0082】
<第4段階(STEP400)>
第4段階では、
図8に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、
図9に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
【0083】
第4段階における分別符号受付付与部131の詳細な処理フローを、
図8を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部112が、ランダムに文書をサンプリングし、文書表示部130上で表示する。本発明の実施形態では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
【0084】
ユーザは文書表示部130上に表示される
図14に示す表示用画面11を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部131は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
【0085】
次に、文書解析部118の詳細な処理フローを、
図9を用いて説明する。文書解析部118では、分別符号受付付与部131で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析し(STEP422)、該共通の単語の文書中の出現頻度を解析する(STEP423)。
【0086】
さらに、STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
図10は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
【0087】
図10において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部131によってSTEP421で抽出された単語を含む文書の割合を示している。
【0088】
本発明の実施形態において、分別符号受付付与部131では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
【0089】
STEP421乃至STEP424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
【0090】
次に、第3自動分別部401の詳細な処理フローを、
図11を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第3自動分別部401では、このような文書から、STEP424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP431)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP432)。また、STEP431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP433)。
【0091】
第3自動分別部401では、さらに、STEP432で算出したスコアを用いて、分別結果を各データベースに反映する(STEP434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。
【0092】
更に、第3自動分別部401の詳細な処理フローの1例を、
図12を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第3自動分別部401では、引数が与えられなかった場合には(STEP441:なし)、該文書から、STEP424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP443)。また、STEP442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP444)。
【0093】
第3自動分別部401では、さらに、STEP443で算出したスコアを用いて、分別結果を各データベースに反映する(STEP445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
【0094】
上述のように第2自動分別部301と第3自動分別部401の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース106に一括して格納しても良い。
【0095】
<第5段階(STEP500)>
第5段階における品質検査部501の詳細な処理フローを
図13を用いて説明する。品質検査部501では、分別符号受付付与部131が、STEP411で受け付けた文書に対して、文書解析部118がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付付与部131が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
【0096】
本発明の実施形態に係る文書調査システム1は、学習部601を備えても良い。学習部601では、第1から第4の処理結果をもとに、各キーワード又は関連用語の重みづけを式(2)により学習する。該学習結果をキーワードデータベース104、関連用語データベース105、又はスコア算出データベース106に反映しても良い。
【0097】
本発明の実施形態に係る文書調査システム1は、文書分別処理の結果をもとに、訴訟案件( 例えば、訴訟であればカルテル・特許・FCPA・PLなど)、又は不正調査(例えば、情報漏洩、架空請求など) の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備える。
調査種類によって、調査する内容は異なる。
例えば、カルテル案件であれば、
1.競合の担当者がカルテルに関連する意思疎通(価格の調整)を、いつ・どのように取ったか?
2.関係者はどの組織の誰か?がポイントになる。
また、特許侵害であれば、
1.侵害の対象になっている技術と内容が同じか?
2.誰が、いつ、どのような意図をもって(持たずに)侵害したか、もしくはしていないか?といったことがポイントになる。
このように、調査の種類又はカテゴリーにより調査する内容に相違が生じる。
本発明の実施形態では、調査種別と調査内容に相違があっても、調査種別と調査内容に応じて報告を自動的に作成する。
【0098】
本発明の実施形態の他の実施例について以下に記載する。
本発明の実施形態の他の実施例では、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する方法を用いる。
類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。
本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。
本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。これにより、本発明の実施形態の他の実施例では、これにより、迅速で的確な分別符号の付与を可能とすると共に、分別作業に伴う負担を軽減することができる。
【0099】
[本発明の実施形態の効果]
本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにおいて、訴訟案件又は不正調査案件に応じて、過去の訴訟案件又は不正調査案件により蓄積して得られた情報を事前情報として収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより訴訟案件又は不正調査案件に応じて的確で信頼性を有する分別及び調査を実施することができる。
また、本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにおいて、訴訟案件又は不正調査案件に応じて、過去の訴訟案件又は不正調査案件により蓄積して得られた情報を事前情報として収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより、当該文書情報の分別作業及び調査作業の負担を軽減することが可能となる。
【課題】訴訟案件に応じて的確で信頼性のある調査を行うとともに、当該文書情報の調査作業の負担を軽減する事前情報を提供する文書調査システム、方法、及びプログラムを提供する。
【解決手段】コンピュータが、訴訟案件毎に案件調査結果関連情報を解析し、訴訟案件に関して調査するための調査モデルパラメータを作成又は更新、及び登録をし、登録された調査モデルパラメータから、新たな調査案件の調査内容を特定する入力情報に関連して調査モデルパラメータを抽出し、抽出したモデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成し、提供する。