【文献】
加藤 武文,レビュア特性の見える化によるドキュメントレビュー支援システムの開発,情報処理学会 研究報告 ソフトウェア工学(SE) 2015−SE−190,日本,情報処理学会,2015年12月 9日
(58)【調査した分野】(Int.Cl.,DB名)
電子データの予測レビュー時間と、査定対象レビューアが前記電子データを実際にレビューするために要した実レビュー時間とに応じて、前記査定対象レビューアのレビュー効率を評価する効率評価処理と、
前記査定対象レビューアがレビューすることにより得たレビュー結果を検証することによって、前記査定対象レビューアのレビュー精度を評価する精度評価処理と、
前記レビュー効率と前記レビュー精度とに応じて、前記査定対象レビューアのレビュー能力を査定する査定処理とを実行するコンピュータ。
前記効率評価処理は、前記予測レビュー時間を基準として、前記実レビュー時間から前記査定対象レビューアの前記レビュー効率を評価する請求項1に記載のコンピュータ。
レビュー済みのデータセットを用いて予め構築された予測モデルに従って、前記予測レビュー時間を算出する予測処理を更に実行する請求項1または2に記載のコンピュータ。
前記精度評価処理は、前記査定対象レビューアによる前記レビュー結果と、前記査定対象レビューア以外のレビューアがレビューすることにより得たレビュー結果とを比較することによって、前記査定対象レビューアの前記レビュー精度を評価する請求項1〜4の何れか1項に記載のコンピュータ。
前記査定処理は、前記査定対象レビューアの前記レビュー効率及び前記レビュー精度を入力とし、前記査定対象レビューアの前記レビュー能力を出力とする予め定められたアルゴリズムを用いて、前記査定対象レビューアの前記レビュー能力を査定する請求項1〜5の何れか1項に記載のコンピュータ。
電子データの予測レビュー時間と、査定対象レビューアが前記電子データを実際にレビューするために要した実レビュー時間とに応じて、前記査定対象レビューアのレビュー効率を評価する効率評価ステップと、
前記査定対象レビューアがレビューすることにより得たレビュー結果を検証することによって、前記査定対象レビューアのレビュー精度を評価する精度評価ステップと、
前記レビュー効率と前記レビュー精度とに応じて、前記査定対象レビューアのレビュー能力を査定する査定ステップとを含むコンピュータの制御方法。
【発明を実施するための形態】
【0011】
〔コンピュータの構成〕
本発明の一実施形態に係るコンピュータ1の構成について、
図1を参照して説明する。
図1は、コンピュータ1の構成を示すブロック図である。
【0012】
コンピュータ1は、
図1に示したように、バス10と、主メモリ11と、コントローラ12と、補助メモリ13と、入出力インターフェース14と、を備えている。コントローラ12、補助メモリ13、及び入出力インターフェース14は、バス10を介して互いに接続されている。主メモリ11としては、例えば、1又は複数の半導体RAM(random access memory)が用いられる。コントローラ12としては、例えば、1又は複数のCPU(Central Processing Unit)が用いられる。補助メモリ13としては、例えば、HDD(Hard Disk Drive)が用いられる。入出力インターフェース14としては、例えば、USB(Universal Serial Bus)インターフェースが用いられる。
【0013】
入出力インターフェース14には、例えば、入力装置2及び出力装置3が接続される。入力装置2としては、例えば、キーボード及びマウスが用いられる。出力装置3としては、例えば、ディスプレイ及びプリンタが用いられる。なお、コンピュータ1は、ラップトップ型コンピュータのように、入力装置2として機能するキーボート及び出力装置3として機能するディスプレイを内蔵していてもよい。また、コンピュータ1は、スマートフォン又はタブレット型コンピュータのように、入力装置2及び出力装置3として機能するタッチパネルを内蔵していてもよい。
【0014】
補助メモリ13には、後述する査定方法S0および報酬設定方法S1をコンピュータ1に実施させるためのプログラムPが格納されている。コントローラ12は、補助メモリ13に格納されたプログラムPを主メモリ11上に展開し、主メモリ11上に展開されたプログラムPに含まれる各命令を実行することによって、後述する報酬設定方法S1に含まれる各ステップを実行する。また、補助メモリ13には、後述する報酬設定方法S1においてコンピュータ1が参照するデータセットDSが格納されている。データセットDSは、少なくとも1つの電子データD1,D2,…,Dn(nは1以上の任意の自然数)の集合である。各電子データDiは、テキストTiをコンテンツとして含む。このような電子データとしては、例えば、TXTデータ(プレインテキストデータ)、RTFデータ(リッチテキストデータ)、HTMLデータ、XMLデータ、PDFデータ、DOCデータ、又はEMLデータが挙げられる。コントローラ12は、補助メモリ13に格納された各電子データDi(i=1,2,…,n)を主メモリ11上に展開し、これを後述する報酬設定方法S1に含まれる各ステップにおいて参照する。
【0015】
なお、コンピュータ1が内部記憶媒体である補助メモリ13に格納されているプログラムPを用いて後述する報酬設定方法S1を実施する形態について説明したが、これに限定されない。すなわち、コンピュータ1が外部記録媒体に格納されているプログラムPを用いて後述する報酬設定方法S1を実施する形態を採用してもよい。この場合、外部記録媒体としては、コンピュータ1が読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブル論理回路などを用いることができる。あるいは、コンピュータ1が通信ネットワークを介して取得したプログラムPを用いて後述する報酬設定方法S1を実施する形態を採用してもよい。この場合、通信ネットワークとしては、例えば、インターネット、又はLANなどを用いることができる。
【0016】
〔報酬設定方法〕
本発明の一実施形態に係る査定対象レビューアの報酬設定方法S1について、
図2を参照して説明する。
図2は、査定対象レビューアの報酬設定方法S1の流れを示すフローチャートである。
【0017】
報酬設定方法S1は、コンピュータ1を用いて、データセットDSをレビューする査定対象レビューアに対する報酬を設定する方法である。報酬設定方法S1は、
図2に示すように、計測処理S11と、抽出処理S12と、予測処理S13と、効率評価処理S14と、精度評価処理S15と、査定処理S16と、算定処理S17と、を含んでいる。計測処理S11は、例えば、査定対象レビューアがレビュー作業を行っているときに実施される処理である。抽出処理S12、予測処理S13、効率評価処理S14、精度評価処理S15、査定処理S16、及び算定処理S17は、査定対象レビューアがレビュー作業を行った後に実施される一連の処理である。なお、査定対象レビューアに課されるレビュー作業として、ここでは、データセットDSに含まれる各電子データDiが予め定められた抽出条件を満たすか否かを判断する(例えば、特定の事案に関係するか否か)作業を想定する。
【0018】
なお、上記特定の事案は、各電子データDiに対して上記判断を要する対象を全て含む。当該特定の事案は、例えば「訴訟」であってよい。このとき、上記レビュー作業は、例えば、米国の民事訴訟におけるディスカバリに伴って生じる証拠の選別・収集作業である。すなわち、当該レビュー作業は、訴訟関係者(カストディアン)が保有する各電子データDiをレビューアが確認し、各電子データDiと訴訟(特定の事案)との関連性を評価し、法廷に提出する証拠として採用するか否かを判断する作業である。あるいは、当該特定の事案は、例えば「病気」であってよい。このとき、上記レビュー作業は、例えば、医師がレントゲン画像(各電子データDi)を確認し、各電子データDiと病気(特定の事案)との関連性(例えば、病気の有無)を判断する作業である。すなわち、当該特定の事案は、各電子データDiとの関連性を評価する対象でありさえすれば何でもよく、その範囲は限定されない。
【0019】
計測処理S11は、査定対象レビューアが各電子データDiを実際にレビューするのに要した時間(以下、「実レビュー時間」と記載する)τiを計測する処理である。計測処理S11は、コンピュータ1のコントローラ12によって実行される。
【0020】
抽出処理S12は、データセットDSに含まれる各電子データDiについて、電子データDiに含まれるテキストTiの予め選択された属性(例えば、文字数)の属性値(例えば、100文字)を、メモリ(主メモリ11又は補助メモリ13)に記憶された電子データDiから抽出する処理である。抽出処理S12は、コンピュータ1のコントローラ12によって実行される。
【0021】
以下、抽出処理S12にて抽出される属性値を、特徴量と呼び、抽出処理S12にて抽出される属性値の集合を、特徴量群GCと呼ぶ。この特徴量群GCには、(1)テキストTの複雑さを表す第1の特徴量C1と、(2)テキストTのサイズを表す第2の特徴量C2と、(3)テキストTの感情傾向を表す第3の特徴量C3と、が含まれ得る。
【0022】
第1の特徴量C1として利用可能なテキストTの属性値としては、例えば、異語数、品詞数、TTR(Type Token Ratio)、CTTR(Corrected Type Token Ratio)、ユールK特性値、係り受け回数、数値比率などが挙げられる。テキストTの複雑さを表すこれらの属性値の一部又は全部の組み合わせを、第1の特徴量C1として利用することもできる。なお、これらの属性値の定義については、後述する。
【0023】
第2の特徴量C2として利用可能なテキストTの属性値としては、例えば、文字数、語数、文数、段落数などが挙げられる。テキストTのサイズを表すこれらの属性値の一部又は全部の組み合わせを、第2の特徴量C2として利用することもできる。なお、これらの属性値の定義については、後述する。
【0024】
第3の特徴量C3として利用可能なテキストTの属性値としては、例えば、ポジティブ数、ネガティブ数などが挙げられる。ここで、ポジティブ数は、テキストTのポジティブさを表し、例えば、ポジティブ語として予め定め定められた語のテキストTにおける出現回数によって定義される。また、ネガティブ数は、テキストTのネガティブさを表し、例えば、ネガティブ語として予め定められた語のテキストTにおける出現回数によって定義される。
【0025】
なお、特徴量群GCには、各品詞のテキストTにおける出現回数を含めてもよい。例えば、テキストTに含まれる各語を、英文字、未知語、名詞、動詞、形容詞、副詞、感動詞、接頭辞、助動詞、接続詞、フィラー、連体詞、助詞、記号、数字、その他に分類し、各品詞のテキストTにおける出現回数を特徴量群GCに含めてもよい。
【0026】
予測処理S13は、データセットDSに含まれる各電子データDiについて、抽出処理S12にて抽出された特徴量群GCに基づいて、電子データDiの予測レビュー時間tiを予測する処理である。予測処理S13は、抽出処理S12を実行した後に、コンピュータ1のコントローラ12によって実行される。
【0027】
予測処理S13を実行するために、コントローラ12は、例えば、予め構築された予測モデルに従って、抽出処理S12にて抽出された特徴量群GCから電子データDiの予測レビュー時間tiを算出する。予測処理S13に利用する予測モデルは、電子データDiに含まれるテキストTiの特徴量群GCを入力とし、予測レビュー時間tiを出力とする、機械学習により構築された予測モデルであり、例えば、ELM(Extreme Learning Machine)、SVR(Support Vector Machine)、回帰木、XGBoost、ランダムフォレスト、DNN(Deep Neural Network)などである。なお、予測処理S13にて利用される予測モデルの構築方法S2については、参照する図面を代えて後述する。
【0028】
効率評価処理S14は、計測処理S11にて計測された実レビュー時間τ1,τ2,…,τn、及び、予測処理S13にて予測された予測レビュー時間t1,t2,…,tnに応じて、査定対象レビューアのレビュー効率aを評価する処理である。効率評価処理S14は、予測処理S13を実行した後に、コンピュータ1のコントローラ12によって実行される。
【0029】
効率評価処理S14を実行するために、コントローラ12は、例えば、(1)各電子データDiについて、予測レビュー時間tiを基準として、実レビュー時間τiからレビュー効率aiを算出し、(2)算出した各電子データDiについてのレビュー効率aiを代表するレビュー効率aを算出する。ここで、各電子データDiについてのレビュー効率aiは、例えば、実レビュー時間τiと予測レビュー時間tiとの差τi−tiであってもよいし、実レビュー時間τiと予測レビュー時間tiとの比τi/tiであってもよい。また、レビュー効率aは、例えば、レビュー効率a1,a2,…,anの最大値であってもよいし、最小値であってもよいし、平均値であってもよいし、中央値であってもよいし、最頻値であってもよい。
【0030】
精度評価処理S15は、査定対象レビューアがデータセットDSをレビューすることにより得たレビュー結果を検証することによって、査定対象レビューアのレビュー精度bを評価する処理である。精度評価処理S15は、コンピュータ1のコントローラ12によって実行される。精度評価処理S15は、抽出処理S12、予測処理S13、及び効率評価処理S14を実行した後に実行されてもよいし、抽出処理S12、予測処理S13、及び効率評価処理S14を実行する前に実行されてもよい。
【0031】
精度評価処理S15を実行するために、コントローラ12は、例えば、査定対象レビューアによるレビュー作業における判断結果を、査定対象レビューア以外のレビューアによるレビュー作業における判断結果と比較する。精度評価処理S15の具体例については、参照する図面を代えて後述する。
【0032】
査定処理S16は、効率評価処理S14にて評価されたレビュー効率a、及び、精度評価処理S15にて評価されたレビュー精度bに応じて、査定対象レビューアのレビュー能力cを査定する処理である。査定処理S16は、効率評価処理S14及び精度評価処理S15を実行した後に、コンピュータ1のコントローラ12によって実行される。コントローラ12は、例えば、レビュー効率aが高いほどレビュー能力cが高くなるように、かつ、レビュー精度bが高いほどレビュー能力cが高くなるように、レビュー能力cを査定する。査定処理S16の具体例については、参照する図面を代えて後述する。
【0033】
算定処理S17は、査定処理S16にて査定されたレビュー能力cに応じて、査定対象レビューアに対する報酬dを設定する処理である。算定処理S17は、査定処理S16を実行した後に、コンピュータ1のコントローラ12によって実行される。コントローラ12は、例えば、第1のレビューアのレビュー能力c1が第2のレビューアのレビュー能力c2よりも高いとき、第1のレビューアに支払う報酬d1が第2のレビューアに支払う報酬d2より多くなる(すなわち、d1>d2になる)ように、報酬dを設定する。算定処理S17の具体例については、参照する図面を代えて後述する。
【0034】
以上のように、本実施形態に係る報酬設定方法S1は、査定対象レビューアのレビュー効率a及びレビュー精度bに基づいて、査定対象レビューアのレビュー能力cを査定する査定処理S16と、査定処理S16にて査定された査定対象レビューアのレビュー能力cに応じて、査定対象レビューアに対する報酬dを設定する算定処理S17と、を含んでいる。したがって、本実施形態に係る報酬設定方法S1によれば、査定対象レビューアのレビュー能力cを適切に評価すると共に、そのレビュー能力cに応じて適切に設定された報酬dを査定対象レビューアに支払うことが可能になる。
【0035】
なお、本実施形態に係る報酬設定方法S1には、計測処理S11、抽出処理S12、予測処理S13、効率評価処理S14、精度評価処理S15、及び査定処理S16により構成される査定方法S0が含まれている。この査定方法S0は、査定対象レビューアの能力を査定する査定方法として、算定処理S17とは独立に(算定処理S17を実施するか否かに依らず)実施することが可能である。
【0036】
この査定方法S0は、各電子データDiの予測レビュー時間ti及び実レビュー時間τiに基づいて、査定対象レビューアのレビュー効率aを評価する効率評価処理S14と、査定対象レビューアがデータセットDSをレビューすることにより得たレビュー結果に基づいて、査定対象レビューアのレビュー精度bを評価する精度評価処理S15と、効率評価処理S14にて評価されたレビュー効率a、及び、精度評価処理S15にて評価されたレビュー精度bに基づいて、査定対象レビューアのレビュー能力cを査定する査定処理S16と、を含んでいる。したがって、この査定方法S0によれば、査定対象レビューアのレビュー能力cを、その査定対象レビューアのレビュー効率a及びレビュー精度bに応じて適切に査定することができる。
【0037】
〔精度評価処理の具体例1〕
図2に示す報酬設定方法S1に含まれる精度評価処理S15の第1の具体例について説明する。
【0038】
本具体例に係る精度評価処理S15において、コンピュータ1のコントローラ12は、データセットDSから抜き取られた電子データからなる部分データセットDS’において、査定対象レビューア(例えば、1次レビューア)が抽出条件を満たすと判断した電子データとチェッカ(例えば、弁護士等の二次レビューア)が抽出条件を満たすと判断した電子データとを比較することによって、査定対象レビューアのレビュー精度bを評価する。本具体例に係る精度評価処理S15にて評価されるレビュー精度bは、例えば、部分データセットDS’において、査定対象レビューアが抽出条件を満たすと判断した電子データとチェッカが抽出条件を満たすと判断した電子データとの一致率であり得る。
【0039】
以下、データセットDSが10個の電子データD1〜D10からなり、部分データセットDS’が5個の電子データD1〜D5からなる場合を例に、本具体例に係る精度評価処理S15の一実施例について、
図3を参照して説明する。
図3は、本具体例に係る精度評価処理S15の一実施例を示す表である。
【0040】
図3に示す実施例において、査定対象レビューアは、データセットDSに含まれる10個の電子データD1〜D10の各々について抽出条件を満たすか否かを判断し、満たすと判断した6個の電子データD1、D2、D4、D7、D9、D10にタグを付けている。同様に、チェッカは、部分データセットDS’に含まれる5個の電子データD1〜D5の各々について抽出条件を満たすか否かを判断し、満たすと判断した4個の電子データD1,D2,D3,D4にタグを付けている。4つの電子データD1、D2、D4、D5については、査定対象レビューアのレビュー結果とチェッカのレビュー結果とが一致している。しかしながら、電子データD3については、査定対象レビューアが抽出条件を満たさないと判断しているのに対して、チェッカが抽出条件を満たしていないと判断しているため、レビュー結果が一致していない。それゆえ、査定対象レビューアのレビュー精度bを算出すると、c=4/5となる。
【0041】
〔精度評価処理の具体例2〕
図2に示す報酬設定方法S1に含まれる精度評価処理S15の第2の具体例について、
図4の(a)を参照して説明する。
図4の(a)は、本具体例に係る精度評価処理S15の流れを示すフローチャートである。
【0042】
本具体例に係る精度評価処理S15において、コンピュータ1のコントローラ12は、
図4の(a)に示すように、スコア付与ステップS151と、精度評価ステップ152と、を実行する。
【0043】
スコア付与ステップS151は、データセットDSを包含する全体データセットDS”に含まれる各電子データDiについて、その電子データDiが抽出条件を満たす割合(度合い)を表すスコアを付与するステップである。なお、スコア付与ステップS151においてスコアを付与するアルゴリズムは、特に限定されず、公知のアルゴリズムを用いることができる。一例として、KIBIT(登録商標)において用いられているアルゴリズム、すなわち、抽出条件を満たすことが確認された電子データとの語彙の共通性に応じたスコアを付与するアルゴリズムを用いることができる。
【0044】
精度評価ステップS152は、(1)全体データセットDS”に含まれる電子データについて、電子データが抽出条件を満たすとレビューア(査定対象レビューアかそれ以外のレビューアかを問わず)が判断する割合のスコアに対する分布(以下、「第1のスコア分布」とも記載)と、(2)データセットDSに含まれる電子データについて、電子データが抽出条件を満たすと査定対象レビューアが判断する割合のスコアに対する分布(以下、「第2のスコア分布」とも記載)と、を比較することによって、査定対象レビューアのレビュー精度bを評価するステップである。本精度評価ステップS152にて評価されるレビュー精度bは、例えば、第1のスコア分布と第2のスコア分布との類似度であり得る。第1のスコア分布と第2のスコア分布との類似度は、例えば、第1のスコア分布と第2のスコア分布との間の相関として、或いは、第1のスコア分布と第2のスコア分布との間の内積として、算出することが可能である。
【0045】
以下、5人のレビューアによってレビューされる全体データセットDS”が500個の電子データからなり、査定対象レビューアによってレビューされるデータセットDSが100個の電子データからなる場合を例に、本具体例に係る精度評価処理S15の一実施例について、
図4の(b)及び(c)を参照して説明する。
図4の(b)及び(c)は、本具体例に係る精度評価処理S15の一実施例を示す表である。
【0046】
まず、コントローラ12は、
図4の(b)に示すように、全体データセットDS”に含まれる500個の電子データを、スコアの階級に応じて分類する。ここでは、(1)スコアが0以上20以下の階級に属する電子データと、(2)スコアが21以上40以下の階級に属する電子データと、(3)スコアが41以上60以下の階級に属する電子データと、(4)スコアが61以上80以下の階級に属する電子データと、(5)スコアが81以上100以下の階級に属する電子データとに分類している。次に、コントローラ12は、各階級に属する電子データについて、レビューアにより抽出条件を満たすと判断される割合(
図4の(b)における「タグ付与率」)を算出する。その結果、コントローラ12は、上述した第1のスコア分布として、(0.08,0.12,0.25,0.68,0.95)というスコア分布を得る。
【0047】
次に、コントローラ12は、
図4の(c)に示すように、データセットDSに含まれる100個の電子データを、全体データセットDS”に含まれる500個の電子データと同様に分類する。次に、コントローラ12は、各階級に属する電子データについて、査定対象レビューアにより抽出条件を満たすと判断される割合(
図4の(c)における「タグ付与率」)を算出する。その結果、コントローラ12は、上述した第2のスコア分布として、(0.12,0.13,0.27,0.50,1.00)というスコア分布を得る。
【0048】
最後に、コントローラ12は、レビュー精度bとして、第1のスコア分布(0.08,0.12,0.25,0.68,0.95)と第2のスコア分布(0.12,0.13,0.27,0.50,1.00)との類似度を算出する。例えば、類似度を内積として評価する場合、レビュー精度bは、c=0.08×0.12+0.12×0.13+0.25×0.27+0.68×0.5+0.95×1.0となる。
【0049】
〔査定処理の具体例〕
図2に示す報酬設定方法S1に含まれる査定処理S16の具体例について、
図5を参照して説明する。
【0050】
本具体例に係る査定処理S16において、コンピュータ1のコントローラ12は、レビュー効率a及びレビュー精度bを入力とし、レビュー能力cを出力とする予め定められた関数f(a,b)を用いて、レビュー能力c=f(a,c)を算出する。
【0051】
関数f(a,b)としては、例えば、
図5の(a)に示すような線形関数f(a,b)=a+bを用いてもよいし、
図5の(b)に示すような非線形関数f(a,b)={a
2+b
2}
1/2を用いてもよい。レビュー効率aが高く、レビュー精度bが高いほど、レビュー能力cが高くなり、レビュー効率aが低く、レビュー精度bが低いほど、レビュー能力cが低くなる関数であれば、特に限定されない。
【0052】
〔算定処理の具体例〕
図2に示す報酬設定方法S1に含まれる算定処理S17の具体例について、
図6を参照して説明する。
【0053】
本具体例に関する算定処理S17において、コンピュータ1のコントローラ12は、レビュー能力cを入力とし、報酬dを出力とする予め定められた関数g(c)を用いて、報酬d=g(c)を算出する。
【0054】
関数g(c)としては、例えば、
図6に示すような上限値dmaxと下限値dminを有する線形関数g(c)=αc+β(ただし、c<cminのときは、g(c)=dmin、c>cmaxのときは、g(c)=gmax)を用いることができる。これにより、予め定められた範囲(dmin以上dmax以下)内の報酬を、レビュー能力cに応じて設定することが可能になる。
【0055】
なお、報酬dの下限値dmin及び上限値dmaxは、以下のように設定することが好ましい。(1)全体データセットDS”のレビューに要する総工数を推定し、推定した総工数に応じた総費用を見積もる。(2)推定した総工数に基づいて必要なレビューアの人数を算出すると共に、見積もった総費用に基づいてレビューアに支払う総報酬を算出する。(3)算出した総報酬を算出した人数で除算することによって、レビューア一人あたりの標準報酬を算出する。(4)標準報酬に予め定められた金額(例えば、10万円)を加算した額を報酬dの上限値dmaxとし、標準報酬から当該金額を減算した額を報酬dの下限値dminに設定する。
【0056】
〔応用例〕
レビューアが、電子データDiが予め定められた抽出条件を満たす(例えば、特定の事案との関連性がある)と判断して電子データDiに対して第1のタグを付与した場合、レビューアは、電子データDiのジャンルを示す第2のタグを更に付与してもよい。第2のタグを付与する基準は、適宜設定することが可能である。査定処理S16において、コンピュータ1のコントローラ12は、レビューアのレビュー能力を、ジャンル毎に査定してもよい。これにより、各レビューアの得意なジャンル及び不得意なジャンルを評価することができる。それゆえ、レビュー作業を請け負った請負人(事業者)又は弁護士等のチェック作業者が、各レビューアに対して、そのレビューアが得意とするジャンルに属する電子データDiのレビュー作業を割り当てることができるため、全体のレビュー作業の効率を更に高めることができる。
【0057】
また、レビューアは、レビュー作業において疑義が生じた場合、チェッカにチャット等を用いて質問をすることができる。査定処理S16において、コンピュータ1のコントローラ12は、査定対象レビューアのレビュー作業に関する質問履歴をテキスト解析することにより、査定対象レビューアがレビュー精度の向上に努力しているか否かを判定し、判定の結果に応じて査定してもよい。これにより、コントローラ12は、査定対象レビューアを査定する精度を高めることができる。
【0058】
コンピュータ1のコントローラ12は、各レビューアのレビュー能力に応じて、各レビューアに割り当てる電子データDiを決定してもよい。例えば、「レビュー効率は低いが、レビュー精度は高いレビューア」に対しては、抽出条件を満たす可能性の高い(例えば、上述したスコアの高い)電子データDiを割り当て、「レビュー効率は高いが、レビュー精度は低いレビューア」に対しては、抽出条件を満たす可能性の低い(例えば、上述したスコアの低い)電子データDiを割り当てることができる。これにより、全体のレビュー作業のレビュー精度を高めつつ、全体のレビュー作業のレビュー効率を高めることができる。
【0059】
〔各特徴量の定義〕
テキストTの属性値のうち、第1の特徴量C1として利用可能な属性値には、例えば、異語数、品詞数、TTR、CTTR、ユールK特性値、係り受け回数、数値比率などがある。これらの属性値は、例えば、以下のように定義することができる。
【0060】
テキストTの異語数(語彙数)は、例えば、テキストTに出現する異語の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、テキストTに出現する異語は”すもも”、”も”、”もも”、”の”、”うち”の5つなので、テキストTの異語数は5となる。ここでは、2回出現する語”もも”を個別にカウントしていない(2回出現する形態素”も”についても同様)点に留意されたい。
【0061】
テキストTの品詞数は、例えば、テキストTに出現する品詞の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも(名詞)/も(助詞)/もも(名詞)/も(助詞)/もも(名詞)/の(助詞)/うち(名詞)”と形態素分析でき、テキストTに出現する品詞は名詞、助詞の2つなので、テキストTの品詞数は2となる。
【0062】
テキストTのTTRは、例えば、テキストTの語数をN、テキストTの異語数をVとして、下記の式(1)により定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、語数は7であり、異語数は5であるので、テキストTのTTRは5/7≒0.714となる。
【0064】
テキストTのCTTRは、例えば、テキストTの語数をN、テキストTの異語数をVとして、下記の式(2)により定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、語数は7であり、異語数は5であるので、テキストTのCTTRは5/(2×7)
1/2≒1.34となる。
【0066】
テキストTのユールK特性値は、例えば、テキストTの語数をN、テキストTにm回出現する語の個数をV(m)として、下記の式(3)により定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析でき、語数は7であり、テキストTに1回出現する語は”すもも”、”の”、”うち”の3つであり、テキストTに2回出現する語は”もも”、”も”の2つであるので、テキストTのユールK値特性は、10
4×(3×1
2+2×2
2−7)/7
2≒816となる。
【0068】
テキストTの係り受け回数は、例えば、テキストTに含まれる各文の意味係り受けグラフが有するエッジ(アーク)の個数の合計として定義することができる。例えば、テキストTが”私は東京にラーメンを食べに行く。東京のラーメンは美味しい。”である場合、第1文の意味係受けグラフが有するエッジは”私は⇒行く”、”東京に⇒行く”、”ラーメンを⇒食べに”、”食べに⇒行く”の4つ、第2文の意味係り受けグラフが有するエッジは”東京の⇒ラーメン”、”ラーメンは⇒美味しい”の2つなので、テキストTの係り受け回数は6となる。
【0069】
テキストTの数値比率は、例えば、テキストTの文字数に対するテキストTの数字数(テキストTに含まれる数字の個数)の比の値、又は、テキストTの語数に対するテキストTの数値数(テキストTに含まれる数値の個数。連続する数字は1つの数値とカウント)の比の値として定義することができる。例えば、テキストTが”ラーメンは650円です”の場合、テキストTの数値比率は3/11≒0.272(前者の定義)、又は、1/5=0.2(後者の定義)となる。
【0070】
テキストTの属性のうち、第2の特徴量C2として利用可能な属性には、例えば、文字数、語数、文数、段落数などがある。これらの属性の定義は、例えば、以下のように定義することができる。
【0071】
テキストTの文字数は、例えば、テキストTに含まれている文字の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTの文字数は12となる。ここでは、6回出現する文字”も”を個別にカウントしている点に留意されたい。
【0072】
テキストTの語数は、例えば、テキストTに含まれている語(形態素)の個数として定義することができる。例えば、テキストTが”すもももももももものうち”である場合、テキストTは”すもも/も/もも/も/もも/の/うち”と形態素分析できるので、テキストTの語数は7となる。ここでは、2回出現する語”もも”を個別にカウントしている(2回出現する語”も”についても同様)点に留意されたい。
【0073】
テキストTの文数は、例えば、テキストTに含まれている文(センテンス)の個数として定義することができる。テキストTの文数は、例えば、テキストTに含まれる文のセパレータ(例えば、句点)の個数をカウントすることによって特定できる。
【0074】
テキストTの段落数は、例えば、テキストTに含まれている段落の個数として定義することができる。テキストTの段落数は、例えば、テキストTに含まれる段落のセパレータ(例えば、改行コード)の個数をカウントすることによって特定できる。
【0075】
なお、テキストのTの各属性値(特徴量)の上述した定義は、報酬設定方法S1の一実装例を与える一具体例に過ぎず、適宜変更することが可能である。すなわち、テキストTの各属性値は、その概念と矛盾しない範囲で、上述した定義とは異なる定義により規定することができる。例えば、テキストTのTTRは、「語彙の豊富さ」という概念を定量的に表現したものであり、上述した定義(TTR=V/N)により規定してもよいし、上述した定義とは異なる定義(例えば、TTR=Log(V)/Log(N)など)により規定してもよい。
【0076】
〔予測モデルの構築方法〕
予測モデルの構築方法S2について、
図7を参照して説明する。
図7は、予測モデルの構築方法S2の流れを示すフローチャートである。
【0077】
構築方法S2は、コンピュータ1を用いて前述した予測処理S13にて利用する予測モデルを構築する方法であり、前述した報酬設定方法S1の一部として前述した抽出処理S12に先行して実施される。構築方法S2は、
図7に示すように、設定処理S21と、選択処理S22と、学習処理S23と、評価処理S24と、を含んでいる。
【0078】
設定処理S21は、サンプルデータ群の一部又は全部を参照して、予め定められた属性群GAに含まれる各属性の重要度を設定する処理である。設定処理S21においては、レビュー時間に対する影響が大きい属性の重要度が高く設定され、レビュー時間に対する影響が小さい属性の重要度が低く設定される。設定処理S21は、コンピュータ1のコントローラ12によって実行される。
【0079】
ここで、サンプルデータ群とは、予めレビュー時間が実測されたテキストを含むサンプルデータの集合のことを指す。サンプルデータ群は、例えば、コンピュータ1に内蔵された補助メモリ13、又は、コンピュータ1に接続された外部ストレージ(
図1において不図示)に格納されている。また、属性群GAとは、予め定められたテキストの属性の集合である。属性群GAの要素とし得るテキストの属性としては、異語数、品詞数、TTR、CTTR、ユールK特性値、係り受け回数、数値比率(以上、属性値が第1の特徴量C1となり得る属性)、文字数、語数、文数、段落数(以上、属性値が第2の特徴量C2となり得る属性)、ポジティブ数、ネガティブ数(以上、属性値が第3の特徴量C3となり得る属性)などが挙げられる。なお、設定処理S21の具体例については、参照する図面を代えて後述する。
【0080】
選択処理S22は、属性値を特徴量群GCに含める属性を属性群GAから選択する処理である。選択処理S22においては、設定処理S21にてより高い重要度が設定された属性がより優先的に選択される。例えば、設定処理S21にて設定された重要度の降順に予め定められた個数の属性が選択される。選択処理S22は、設定処理S21を実行した後、コンピュータ1のコントローラ12によって実行される。
【0081】
学習処理S23は、サンプルデータ群に含まれる一部又は全部のサンプルデータを参照して、選択処理S22にて選択された属性を入力(説明変数)とし、レビュー時間を出力(目的変数)とする予測モデルに、その予測精度が向上するように機械学習をさせる処理である。学習処理S23は、選択処理S22を実行した後、コンピュータ1のコントローラ12によって実行される。なお、学習処理S23は、参照可能なサンプルデータの全てを参照して実施されてもよいし、参照可能なサンプルデータの一部を参照して実施されてもよい。また、学習処理S23は、設定処理S21にて参照されたものと同じサンプルデータを参照して実施されてもよいし、設定処理S21にて参照されたものと異なるサンプルデータを参照して実施されてもよい。
【0082】
なお、学習処理S23を効率化するために、学習処理S23を実行する前にチューニング処理を実行してもよい。ここで、チューニング処理とは、予測モデルが持つハイパーパラメータをチューニングする処理のことを指す。パラメータチューニング(パラメータ探索)の方法としては、例えば、グリッドサーチ、ランダムサーチ、ベイズ最適化、メタヒューリスティックサーチなどが挙げられる。何れの方法を利用するかは、ベンチマークテストを行い、モデルの学習速度を考慮したうえで決定すればよい。
【0083】
また、予め定められた精度の予測モデルを得るために、学習処理S23を実行した後に評価処理を実行してもよい。ここで、評価処理とは、サンプルデータ群に含まれるサンプルデータのうち、学習処理S23で利用しなかったサンプルデータを用いて、予測モデルの予測精度(例えば、予測モデルが予測したレビュー時間と実測したレビュー時間との差)を評価する処理のことを指す。また、学習処理S23と評価処理とを効率的に実施するために、公知のK−Fold Cross Validation法を用いてもよい。
【0084】
構築方法S2によれば、選択処理S22にて選択された、レビュー時間に対する影響が大きい属性を入力とする予測モデルを構築することができる。このため、全ての属性を入力とする予測モデルと比べて計算コストが低く、かつ、無作為に選択された属性を入力とする予測モデルと比べて予測精度が高い予測モデルを構築することができる。
【0085】
〔設定処理の第1の具体例〕
設定処理S21の第1の具体例(以下、「設定処理S21A」と記載)について、
図8を参照して説明する。
図8の(a)は、設定処理S21Aの流れを示すフローチャートである。
【0086】
設定処理S21Aは、
図8の(a)に示すように、算出ステップS21A1と、設定ステップS21A2と、を含んでいる。
【0087】
算出ステップS21A1は、サンプルデータ群の一部又は全部を参照して、属性群GAに含まれる各属性と実測されたレビュー時間との相関係数を算出するステップである。算出ステップS21A1は、コンピュータ1のコントローラ12によって実行される。
【0088】
設定ステップS21A2は、属性群GAに含まれる各属性の重要度を、算出ステップS21A1にて算出された、その属性に対応する相関係数に応じた値に設定するステップである。なお、設定ステップS21A2は、算出ステップS21A1を実行した後、コンピュータ1のコントローラ12によって実行される。
【0089】
なお、設定ステップS21A2において設定される各属性の重要度は、例えば、その属性に対応する相関係数そのものであってもよいし、その属性に対応する相関係数から算出された別の数値であってもよい。ただし、設定ステップS21A2において設定される各属性の重要度は、その属性に対応する相関係数が大きくなるほど高くなり、その属性に対応する相関係数が小さくなるほど低くなるものであることが好ましい。
【0090】
また、設定ステップS21A2において設定される各属性の重要度は、その属性とレビュー時間との相関係数のみならず、その属性と他の属性との相関係数を考慮して設定してもよい。この場合、
図8の(b)に示すような相関行列を作成する。そして、2つの属性の間の相関係数が予め定められた閾値よりも大きい場合、選択処理S22にて一方の属性が選択されないように、その属性の重要度を低く設定する。これにより、予測モデルの多重共線性を低下させることができる。
【0091】
〔設定処理の第2の具体例〕
設定処理S21の第2の具体例(以下、「設定処理S21B」と記載)について、
図9を参照して説明する。
図9の(a)は、設定処理S21Bの流れを示すフローチャートである。
【0092】
設定処理S21Bは、
図9の(a)に示すように、作成ステップS21B1と、設定ステップS21B2と、を含んでいる。
【0093】
作成ステップS21B1は、サンプルデータ群を参照して、属性群GAに含まれる各属性を説明変数とし、レビュー時間を目的変数とする重回帰式を作成するステップである。作成ステップS21B1にて作成される重回帰式の例を、
図9の(b)に示す。
図9の(b)に示す重回帰式は、属性群GAに含まれる属性x
1,x
2,…,x
kを説明変数、レビュー時間yを目的変数とする重回帰式である。
図9の(b)に示す重回帰式において、b
1,b
2,…,b
kは偏回帰変数であり、eは誤差である。作成ステップS21B1は、コンピュータ1のコントローラ12によって実行される。
【0094】
設定ステップS21B2は、属性群GAに含まれる各属性の重要度を、作成ステップS21B1にて作成された重回帰式において、その属性に対応する偏回帰係数の大きさに応じた値に設定するステップである。設定ステップS21B2は、作成ステップS21B1を実行した後、コンピュータ1のコントローラ12によって実行される。
【0095】
なお、設定ステップS21B2において設定される各属性の重要度は、例えば、その属性に対応する偏回帰係数の大きさそのものであってもよいし、その属性に対応する偏回帰係数の大きさから算出された別の数値であってもよい。ただし、設定ステップS21B2において設定される各属性の重要度は、その属性に対応する偏回帰係数の大きさが大きくなるほど高くなり、その属性に対応する偏回帰係数の大きさが小さくなるほど低くなるものであることが好ましい。
【0096】
本具体例によれば、作成ステップS21B1にて作成された重回帰式から、選択処理S22にて選択された属性に対応する項を除いた重回帰式を、予測処理S13に用いる予測モデルとして利用することができる。したがって、構築方法S2の実施に際して、学習処理S23を省略することができる。このため、構築方法S2の実施に要する計算コストを低く抑えることができる。
【0097】
〔設定処理の第3の具体例〕
設定処理S21の第3の具体例(以下、「設定処理S21C」と記載)について、
図10を参照して説明する。
図10の(a)は、設定処理S21Cの流れを示すフローチャートである。
【0098】
設定処理S21Cは、
図10の(a)に示すように、作成ステップS21C1と、設定ステップS21C2と、を含んでいる。
【0099】
作成ステップS21C1は、前述したサンプルデータを参照して、属性群GAに含まれる各属性を説明変数とし、レビュー時間を目的変数とする回帰木を作成するステップである。作成ステップS21C1にて作成される回帰木の例を
図10の(b)に示す。作成ステップS21C1は、コンピュータ1のコントローラ12によって実行される。なお、回帰木を作成する方法としては、例えば、XGBoostを用いることができる。
【0100】
設定ステップS21C2は、属性群GAに含まれる各属性の重要度を、作成ステップS21C1にて作成された回帰木において、その属性に対応する分岐条件を変化させたことにより生じる回帰木の出力の変化の大きさに応じた値に設定するステップである。設定ステップS21C2は、作成ステップS21C1を実行した後、コンピュータ1のコントローラ12によって実行される。
【0101】
なお、設定ステップS21C2において設定される各属性の重要度は、例えば、その属性に対応する出力の変化の大きさそのものであってもよいし、その属性に対応する出力の変化の大きさから算出された別の数値であってもよい。ただし、設定ステップS21C2において設定される各属性の重要度は、その属性に対応する出力の変化の大きさが大きくなるほど高くなり、その属性に対応する出力の変化の大きさが小さくなるほど低くなるものであることが好ましい。
【0102】
本具体例によれば、作成ステップS21C1にて作成された回帰木から、選択処理S22にて選択された属性に対応する分岐条件を除いた回帰木を、予測処理S13に用いる予測モデルとして利用することができる。したがって、構築方法S2の実施に際して、学習処理S23を省略することができる。このため、構築方法S2の実施に要する計算コストを低く抑えることができる。
【0103】
〔レビュー効率の可視化〕
コンピュータ1は、効率評価処理S14にて評価された査定対象レビューアのレビュー効率を可視化して、出力装置3(例えば、ディスプレイ、或いは、プリンタ)を用いて出力する(例えば、表示する、或いは、印刷する)処理を更に実行してもよい。
【0104】
図11は、出力装置3を用いて出力された出力画像の一例である。この出力画像には、複数の査定対象レビューアのレビュー効率を一覧表示するテーブルが含まれている。このテーブルは、複数の査定対象レビューアの各々について、(1)当該レビューアの氏名、(2)当該レビューアの平均レビュー効率(単位時間あたりにレビューした電子データ数の平均)、(3)当該レビューアがレビューに費やした総時間、(4)当該テーブルの表示日において当該レビューアがレビューした電子データ数、(5)当該レビューアがレビューした総電子データ数、(6)当該レビューアの直近5日のレビュー効率(各日において当該レビューアが単位時間あたりにレビューした電子データ数)を示している。
【0105】
なお、
図11に示されたテーブルはあくまで一例に過ぎず、表示されるテーブルは、レビューアのレビュー効率に関連する他の指標を含んでいてもよい。また、
図11に例示されたテーブルにおいて、レビュー効率は、「単位時間あたりにレビューした電子データ数」として数値で示されているが、他の態様(例えば、A〜Eのランク付けや優・良・可の成績評価)で示されてもよい。
【0106】
コンピュータ1は、任意の出力装置3(例えば、ディスプレイやプリンタなど)を用いて上記テーブルを出力することができる。このとき、コンピュータ1は、例えば、レビュー効率に応じたグラデーション(色彩の連続的な変化)を用いて、当該レビュー効率を示すセル(当該表の要素)を着色することができる。例えば、コンピュータ1は、色が薄くなるほどレビュー効率が高いことを示し、色が濃くなるほどレビュー効率が低いことを示すように、各セルを着色することができる。これにより、コンピュータ1は、各レビューアのレビュー効率を視認容易とすることができる。
【0107】
なお、グラデーションにより当該レビュー効率を視認容易とする方法は一例に過ぎず、コンピュータ1は、レビュー効率の視認性を向上させる他の方法を採ることもできる。例えば、レビュー効率に応じて当該レビュー効率を示す数字のフォントの態様を変化させる(例えば、レビュー効率が高くなるほど、フォントを大きくする、又は、太くするなど)ことによって当該視認性を向上させることもできる。
【0108】
〔レビューアの能力変化の可視化〕
コンピュータ1は、査定処理S16にて査定された査定対象レビューアのレビュー能力の変化を可視化して、出力装置3(例えば、ディスプレイ、或いは、プリンタ)を用いて出力する(例えば、表示する、或いは、印刷する)処理を更に実行してもよい。
【0109】
図12は、出力装置3を用いて出力された出力画像の一例である。この出力画像には、
レビューア1のレビュー効率を横軸、レビューア1のレビュー精度を縦軸として、レビューア1の能力変化を可視化したグラフが含まれている。このグラフは、査定対象レビューア(
図12において「レビューア1」と記載)のレビュー能力を示す楕円が、時間の経過とともにグラフの左下から右上に移動していることを示している。これにより、査定対象レビューアが3日間でレビュー能力を向上させていることが容易に把握できる。
【0110】
逆に、レビュー能力を示す楕円が右上から左下に移動している場合は、査定対象レビューアがレビュー能力を低下させていることが容易に把握できる。したがって、レビューアのレビュー作業を監督するレビュー監督者は、当該把握に基づいて相応の措置を採ることができる(例えば、レビューアを交代させる、当該レビューアに割り当てるドキュメントの種類を変更するなど)。
【0111】
なお、レビュー効率軸と直交する直線(点線で示されている)は、レビュー効率に対する損益分岐点を示す。すなわち、当該直線よりも左側に位置するレビューア(所定のレビュー効率を下回るレビュー効率でしかレビューできないレビューア)に対して1人あたりの人件費(レビュー作業に予定される人件費の総額をレビューアの人数で割った額)を報酬として支払った場合、採算割れを起こすおそれがある基準を、当該直線は示している。また、レビュー精度軸に直交する直線(点線で示されている)は、レビューアに期待されるレビュー精度の基準を示している。すなわち、当該直線よりも下側に位置するレビューア(期待されるレビュー精度を下回るレビュー精度でしかレビューできないレビューア)にレビューさせた場合、当該レビューが完了した後の検証作業の負荷が高まるであろう基準を、当該直線は示している。
【0112】
また、出力画像に含まれる円弧状の曲線は、レビューアに期待されているレビュー能力に対する閾値を示している。すなわち、レビューアの能力がこの曲線より右上に位置することが、各レビューアに期待されている。このように、レビューアに期待されるレビュー能力と実際のレビュー能力とを可視化することにより、レビューアの管理を容易にするとともに、レビュー作業全体の効率を向上させることができる。
【0113】
〔データの種類〕
本実施形態においては、電子データを主に「テキストデータ」として説明したが、「電子データ」は、上記コンピュータ1によって処理可能となる形式で表現された任意の電子データを全て含んでよい。上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイル・ヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど)、音声データ(例えば、会話・音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む。
【0114】
〔まとめ〕
本発明の第1の態様に係る査定方法は、少なくとも1つの電子データを含むデータセットを格納したメモリとコントローラとを備えたコンピュータを用いて、該データセットをレビューする査定対象レビューアのレビュー能力を査定する査定方法であって、前記コントローラが、各電子データの予測レビュー時間、及び、前記査定対象レビューアが該電子データに対する実際のレビュー作業に要した実レビュー時間に応じて、前記査定対象レビューアのレビュー効率を評価する効率評価処理と、前記コントローラが、前記査定対象レビューアが前記データセットをレビューすることにより得たレビュー結果を検証することによって、前記査定対象レビューアのレビュー精度を評価する精度評価処理と、前記コントローラが、前記効率評価処理にて評価されたレビュー効率、及び、前記精度評価処理にて評価されたレビュー精度に応じて、前記査定対象レビューアのレビュー能力を査定する査定処理と、を含んでいる、方法である。
【0115】
本発明の第2の態様に係る査定方法は、本発明の第1の態様に係る査定方法において、前記査定方法は、前記コントローラが、レビュー済みのデータセットを用いて予め構築された予測モデルに従って、前記予測レビュー時間を算出する予測処理と、前記コントローラが、前記実レビュー時間を計測する計測処理と、を更に含んでおり、前記効率評価処理は、前記予測処理にて得られた予測レビュー時間を基準として、前記計測処理にて得られた実レビュー時間から前記査定対象レビューアのレビュー効率を評価する処理である、方法としてもよい。
【0116】
本発明の第3の態様に係る査定方法は、本発明の第1又は第2の態様に係る査定方法において、前記予測モデルは、各電子データのコンテンツの特徴量を入力とし、該電子データの予測レビュー時間を出力とする予測モデルであって、レビュー済みのデータセットを学習データとする機械学習によって構築された予測モデルである、方法としてもよい。
【0117】
本発明の第4の態様に係る査定方法は、本発明の第1〜第3の態様に係る査定方法において、前記レビュー作業は、電子データが予め定められた抽出条件を満たすか否かを判断する作業であり、前記精度評価処理は、前記査定対象レビューアによる前記レビュー作業における判断結果を、前記査定対象レビューア以外のレビューアによる前記レビュー作業における判断結果と比較することによって、前記査定対象レビューアのレビュー精度を評価する処理である、方法としてもよい。
【0118】
本発明の第4−1の態様に係る査定方法は、本発明の第1〜第4の態様に係る査定方法において、前記精度評価処理は、前記データセットから抜き出された電子データからなる部分データセットにおいて、前記査定対象レビューアが予め定められた抽出条件を満たすと判断した電子データとチェッカが当該抽出条件を満たすと判断した電子データとを比較することによって、前記査定対象レビューアのレビュー精度を評価する処理である、方法としてもよい。
【0119】
本発明の第4−2の態様に係る査定方法は、本発明の第1〜第4の態様に係る査定方法おいて、前記精度評価処理は、前記データセットを包含する全体データセットに含まれる各電子データについて、該電子データが予め定められた抽出条件を満たす割合を表すスコアを付与するスコア付与ステップと、前記全体データセットに含まれる電子データについて、前記抽出条件を満たすと前記査定対象レビューアを含むレビューア群が判断する割合の前記スコアに対する分布と、前記データセットに含まれる電子データについて、前記抽出条件を満たすと前記査定対象レビューアが判断する割合の前記スコアに対する分布と、を比較することによって、前記レビュー精度を評価する精度評価ステップと、を含んでいる、方法としてもよい。
【0120】
本発明の第5の態様に係る査定方法は、本発明の第1〜第4の態様に係る査定方法において、前記査定対象レビューアのレビュー効率及びレビュー精度を入力とし、前記査定対象レビューアのレビュー能力を出力とする予め定められたアルゴリズムを用いて、前記査定対象レビューアのレビュー能力を査定する処理である、方法としてもよい。
【0121】
本発明の第6の態様に係る査定方法は、本発明の第1〜第5の態様に係る査定方法において、前記コントローラが、前記レビュー効率を可視化して出力する効率出力処理を更に含んでいる、方法としてもよい。
【0122】
本発明の第6−1の態様に係る査定方法は、本発明の第1〜第6の態様に係る査定方法において、前記効率出力処理は、前記レビュー効率に応じた、前記レビュー効率を示す色彩の連続的な変化、又は、前記レビュー効率を示すフォントの態様の変化によって、前記レビュー効率を可視化して出力する処理である、方法としてもよい。
【0123】
本発明の第7の態様に係る査定方法は、本発明の第1〜第6の態様に係る査定方法において、前記コントローラが、前記レビュー能力を可視化して出力する能力出力処理を更に含んでいる、方法としてもよい。
【0124】
本発明の第7−1の態様に係る査定方法は、本発明の第1〜第7の態様に係る査定方法において、前記能力出力処理は、所定の期間における、前記レビュー効率と、前記レビュー精度との関係を示すグラフを作成することによって、前記レビュー能力を可視化して出力する処理である、方法としてもよい。
【0125】
本発明の第8の態様に係る報酬設定方法は、本発明の第1〜第7の態様に係る査定方法によって査定されたレビューアの能力に応じて該レビューアに支払う報酬を設定する報酬設定方法であって、前記査定方法によって査定される第1のレビューアのレビュー能力が、前記査定方法によって査定される第2のレビューアのレビュー能力よりも高いとき、第1のレビューアに支払う報酬が、第2のレビューアに支払う報酬より多くなるように、前記報酬を算定する算定処理を含んでいる、方法としてもよい。
【0126】
本発明の第9の態様に係る報酬設定方法は、本発明の第8の態様に係る報酬設定方法において、前記算定処理は、予め定められた前記報酬の下限値を下回らないように、かつ、予め定められた前記報酬の上限値を上回らないように、前記報酬を算定する処理である、方法としてもよい。
【0127】
本発明の第10の態様に係るコンピュータは、少なくとも1つの電子データを含むデータセットを格納したメモリとコントローラとを備え、該データセットをレビューする査定対象レビューアのレビュー能力を査定するコンピュータであって、前記コントローラは、各電子データの予測レビュー時間、及び、前記査定対象レビューアが該電子データに対する実際のレビュー作業に要した実レビュー時間に応じて、前記査定対象レビューアのレビュー効率を評価する効率評価処理と、前記査定対象レビューアが前記データセットをレビューすることにより得たレビュー結果を検証することによって、前記査定対象レビューアのレビュー精度を評価する精度評価処理と、前記効率評価処理にて評価されたレビュー効率、及び、前記精度評価処理にて評価されたレビュー精度に応じて、前記査定対象レビューアのレビュー能力を査定する査定処理と、を実行する、構成である。
【0128】
本発明の第11の態様に係るプログラムは、本発明の第1〜第7の態様に係る査定方法を前記コンピュータに実施させるためのプログラムであって、前記各処理を前記コンピュータに実行させるためのプログラムである。
【0129】
本発明の第12の態様に係るプログラムは、本発明の第8又は第9の態様に係る報酬設定方法を前記コンピュータに実施させるためのプログラムであって、前記各処理を前記コンピュータに実行させるためのプログラムである。
【0130】
なお、本発明の各態様は、例えば、ディスカバリにおいて米国裁判所に提出するデータを選択するためのレビュー作業に好適に適用することができる。ただし、本発明の各態様が適用可能なレビュー作業は、ディスカバリのためのレビュー作業に限定されない。大量の電子データから所望の電子データを抽出するために、人手によるレビュー作業を要する任意の状況において広く適用可能である。
【0131】
〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
【解決手段】コンピュータ(1)は、メモリ(11、13)とコントローラ(12)とを備え、コントローラ(12)は、各電子データ(Di)の予測レビュー時間及び実レビュー時間に応じて、査定対象レビューアのレビュー効率を評価する効率評価処理と、査定対象レビューアによるレビュー結果を検証することによって、査定対象レビューアのレビュー精度を評価する精度評価処理と、効率評価処理にて評価されたレビュー効率、及び、精度評価処理にて評価されたレビュー精度に応じて、査定対象レビューアのレビュー能力を査定する査定処理と、を実行する。