(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130813
(43)【公開日】2024-09-30
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240920BHJP
G06F 16/383 20190101ALI20240920BHJP
G06Q 10/10 20230101ALI20240920BHJP
【FI】
G06N20/00
G06F16/383
G06Q10/10
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023040722
(22)【出願日】2023-03-15
(11)【特許番号】
(45)【特許公報発行日】2023-12-05
(71)【出願人】
【識別番号】316014906
【氏名又は名称】株式会社FRONTEO
(74)【代理人】
【識別番号】110002848
【氏名又は名称】弁理士法人NIP&SBPJ国際特許事務所
(72)【発明者】
【氏名】伊藤 貴章
(72)【発明者】
【氏名】グエン ヒューナム
(72)【発明者】
【氏名】富安 啓輔
(72)【発明者】
【氏名】清政 貴文
【テーマコード(参考)】
5B175
5L010
5L049
【Fターム(参考)】
5B175DA01
5B175FA01
5B175FB04
5B175GC03
5B175HA01
5L010AA20
5L049AA20
(57)【要約】
【課題】文書データの監査において、多様な形態素を対象とした処理を高速に実行する情報処理装置及び情報処理方法等の提供。
【解決手段】 情報処理装置は、学習用の文書データの形態素解析の結果から決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、重みが所与の閾値以下と判定された形態素に対応する特徴量をモデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得するモデル取得部と、被監査者の電子メールを含む文書データを取得する取得部と、当該文書データの特徴量を決定する特徴量決定部と、決定された特徴量を学習済モデルに入力することによって、文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、スコアに基づく表示制御を行う表示制御部と、を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得するモデル取得部と、
被監査者によって送受信された電子メールを含む文書データを取得する取得部と、
前記取得部によって取得された前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定する特徴量決定部と、
前記特徴量決定部によって決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、
前記文書データの前記スコアに基づく表示制御を行う表示制御部と、
を含む情報処理装置。
【請求項2】
請求項1において、
前記学習用データの前記形態素解析の結果に基づいて決定された前記特徴量に基づいて、前記線形モデルまたは前記一般化線形モデルにおける前記形態素の前記重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する前記機械学習を行う学習処理部をさらに含み、
前記モデル取得部は、
前記学習処理部によって作成された前記学習済モデルを取得する情報処理装置。
【請求項3】
請求項2において、
前記学習処理部は、
前記モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習のオン/オフを変更可能であり、
前記モデルの評価処理を行い、前記モデルの性能が所定以下であると判定された場合、前記アンサンブル学習をオフにした上で、前記機械学習を継続する情報処理装置。
【請求項4】
請求項2または3において、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。
【請求項5】
請求項1乃至3の何れか一項において、
前記推論処理部は、
前記文書データを、任意の長さの複数のブロックに分割し、前記複数のブロックのそれぞれについて、前記所与の事案と関連する確率を表す確率データを前記スコアとして出力する処理を行う情報処理装置。
【請求項6】
請求項5において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記文書データのジャンルによらない閾値とを比較し、
前記表示制御部は、
前記推論処理部における比較結果に基づいて、前記ブロックの表示態様を制御する情報処理装置。
【請求項7】
請求項1乃至3の何れか一項において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部のみを含むリストを表示する制御を行う情報処理装置。
【請求項8】
請求項7において、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い前記一部が、前記スコアの順にソートされた前記リストを表示する制御を行う情報処理装置。
【請求項9】
請求項7において、
前記表示制御部は、
前記リストのうちの何れかの前記文書データが選択された場合、選択された前記文書データの詳細を、前記リストを表示するウィンドウとは別ウィンドウにおいて表示する制御を行う情報処理装置。
【請求項10】
情報処理装置が、
学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得し、
被監査者によって送受信された電子メールを含む文書データを取得し、
取得した前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定し、
決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出し、
前記文書データの前記スコアに基づく表示制御を行う、
処理を行う情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法等に関する。
【背景技術】
【0002】
従来、機械学習を用いて文書データの処理を行う手法が知られている。例えば特許文献1には、モデルの特徴量を決定する際に、評価対象特徴量の作用種別または重みに基づいてパラメータを更新する文書情報抽出システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の手法は、類似辞書等に基づく類似関係等を考慮して特徴量を評価するものであって、メール監査において処理の高速化や入力となる形態素の多様性を考慮するものではない。
【0005】
本開示のいくつかの態様によれば、文書データの監査において、多様な形態素を対象とした処理を高速に実行する情報処理装置及び情報処理方法等を提供できる。
【課題を解決するための手段】
【0006】
本開示の一態様は、学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得するモデル取得部と、被監査者によって送受信された電子メールを含む文書データを取得する取得部と、前記取得部によって取得された前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定する特徴量決定部と、前記特徴量決定部によって決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、前記文書データの前記スコアに基づく表示制御を行う表示制御部と、を含む情報処理装置に関係する。
【0007】
本開示の他の態様は、情報処理装置が、学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得し、被監査者によって送受信された電子メールを含む文書データを取得し、前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定し、決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出し、前記文書データの前記スコアに基づく表示制御を行う、処理を行う情報処理方法に関係する。
【図面の簡単な説明】
【0008】
【
図1】情報処理装置を含むメール監査システムの構成例である。
【
図3】情報処理装置(スコア管理部)の構成例である。
【
図4】情報処理装置(スコア管理部)の他の構成例である。
【
図5】メール受信処理を説明するフローチャートである。
【
図7】学習済モデル(教師モデル)の作成処理を説明するフローチャートである。
【
図8】学習済モデルの作成設定を行う画面例である。
【
図9】学習済モデルを用いたスコアリング処理を説明するフローチャートである。
【
図10】スコアリング処理の実行設定を行う画面例である。
【
図11A】フィルタリング設定を行う画面例である。
【
図11B】フィルタリング設定を行う画面例である。
【
図11C】フィルタリング設定を行う画面例である。
【
図11D】フィルタリング設定を行う画面例である。
【
図11E】フィルタリング設定を行う画面例である。
【
図11F】フィルタリング設定を行う画面例である。
【
図11G】フィルタリング設定を行う画面例である。
【
図12A】スコアリング処理の結果を表示するレビュー画面例である。
【
図12B】スコアリング処理の結果を表示するレビュー画面例である。
【
図13】学習処理を説明するフローチャートである。
【
図14】スコアを確率データに補正する処理の説明図である。
【
図15B】第1ノルムに基づくメタデータ特徴量の補正処理の説明図である。
【
図15C】第2ノルムに基づくメタデータ特徴量の補正処理の説明図である。
【
図16A】ブロック毎のスコアに基づくハイライト処理の説明図である。
【
図17】予測線、予測曲線、信頼区間の説明図である。
【
図18】複数の評価データを取得する処理の説明図である。
【発明を実施するための形態】
【0009】
以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0010】
1.システム構成例
図1は、本実施形態に係る情報処理装置10を含むメール監査システム1の構成例を示す図である。メール監査システム1は、情報処理装置10、端末装置20、第2端末装置21、監査用メールサーバ40、SMTP(Simple Mail Transfer Protocol)サーバ50、POP(Post Office Protocol)サーバ60を含む。ただし、メール監査システム1の構成は
図1に限定されず、一部の構成を省略する、あるいは他の構成を追加する等、種々の変形実施が可能である。
【0011】
本実施形態に係るメール監査システム1は、被監査人によって送受信された電子メールが、所定の事案に関連するか否かに関する監査を行うシステムである。以下、本明細書では電子メールを単にメールとも表記する。ここでの事案には、カルテルの形成、情報漏洩、パワーハラスメント、セクシャルハラスメント等、種々の事案が含まれる。
【0012】
図1において、端末装置20は、監査を行う監査人によって使用される装置である。第2端末装置21は、監査の対象となる被監査人によって使用される装置である。端末装置20及び第2端末装置21は、例えばPC(Personal Computer)である。ただし端末装置20及び第2端末装置21は、スマートフォン、タブレット端末等であってもよく、具体的な態様は種々の変形実施が可能である。
【0013】
SMTPサーバ50は、SMTPと呼ばれるプロトコルまたはその派生プロトコルに従ってメールを送信するサーバである。POPサーバ60は、POPと呼ばれるプロトコルまたはその派生プロトコルに従ってメールを受信するサーバである。SMTPサーバ50及びPOPサーバ60は、例えば被監査人が所属する組織に設けられるサーバであってもよいし、メールサービスを提供するサービス業者(例えばISP:Internet Service Provider)のサーバであってもよい。被監査人は、SMTPサーバ50及びPOPサーバ60を介して、第2端末装置21からメールの送受信を行う。
【0014】
監査用メールサーバ40は、被監査人によって送受信されたメールを定期的に取得する。例えば、SMTPサーバ50及びPOPサーバ60では、監査用メールサーバ40を宛先として、定期的にメールを転送するジャーナル転送機能が設定される。これにより、SMTPサーバ50は、被監査人が送信したメールを定期的に監査用メールサーバ40に送信する。POPサーバ60は、被監査人が受信したメールを定期的に監査用メールサーバ40に送信する。監査用メールサーバ40は、SMTPサーバ50及びPOPサーバ60から転送されたメールを蓄積する。
【0015】
情報処理装置10は、具体的なメール監査に係る処理を実行する装置である。情報処理装置10は、例えばサーバシステムによって実現されてもよい。ここでのサーバシステムは、1つのサーバであってもよいし、複数のサーバを含んで構成されていてもよい。例えば、サーバシステムは、データベースサーバとアプリケーションサーバとを含んで構成されていてもよい。データベースサーバは、後述する学習済モデル等を含む種々のデータを記憶する。アプリケーションサーバは、
図5、
図7、
図9等を用いて後述する処理を実行する。なお、ここでの複数のサーバは、物理サーバであってもよいし、仮想サーバであってもよい。また、仮想サーバが用いられる場合、当該仮想サーバは、1つの物理サーバに設けられてもよいし、複数の物理サーバに分散して配置されてもよい。このように、本実施形態におけるサーバシステムの具体的な構成は、種々の変形実施が可能である。換言すれば、本実施形態に係る情報処理装置10は、単一の装置によって実現されてもよいし、複数の装置の分散処理によって実現されてもよい。
【0016】
情報処理装置10は、監査用メールサーバ40から、定期的に監査対象となるメールを受信する。例えば情報処理装置10は、POPプロトコルまたはその派生プロトコルに従った通信を行うことによって、監査用メールサーバ40からメールを受信してもよい。
【0017】
情報処理装置10は、機械学習によって生成された学習済モデル(教師モデル)を取得し、当該学習済モデルに基づいて被監査人が送受信したメールに対する分類処理(監査処理)を実行する。具体的には情報処理装置10は、被監査人によって送受信されたメールが、情報漏洩等の事案に関連するか否かを判定する処理を行う。処理の詳細については後述する。
【0018】
ここでの学習済モデルは、例えば情報処理装置10において生成されてもよい。例えば
図4を用いて後述するように、情報処理装置10は学習処理部140を含み、当該学習処理部140が機械学習を行うことによって学習済モデルを生成する。ただし本実施形態の手法はこれに限定されず、情報処理装置10は、外部の学習装置によって生成された学習済モデルを取得してもよい。
【0019】
端末装置20は、上述したとおり監査人によって使用される装置である。ここでの監査人は、例えば被監査人と同じ組織に属する人物であってもよいし、当該組織外の人物であってもよい。端末装置20は、インターネットブラウザ等を用いてWebアプリケーションを実行してもよい。例えば、情報処理装置10はWebアプリケーションサーバを含み、端末装置20のブラウザは当該Webアプリケーションサーバにアクセスする。
【0020】
例えば監査人は、端末装置20の操作インターフェイスを用いて、学習済モデルの選択、監査対象となる人物の選択等の操作を行う。操作に用いられる具体的な表示画面例については、
図8、
図10、
図11A~
図11G等を用いて後述する。監査人による操作結果は、ブラウザを介して情報処理装置10に送信される。情報処理装置10は、監査人の操作に従って、監査対象となるメールを特定し、当該メールが所与の事案に関連するか否かを学習済モデルを用いて判定する。監査人は、ブラウザの画面に表示される判定結果に基づいて、実際に所与の事案に関連するメールが存在するか否かの判断を行う。監査人の判断(レビュー)に用いられる表示画面例等については、
図12A、
図12B等を用いて後述する。
【0021】
図2は、情報処理装置10の構成例を示す図である。
図2に示すように、情報処理装置10は、処理部300、記憶部200、通信部400を含んでもよい。ただし、情報処理装置10の構成は
図2に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。
【0022】
通信部400は、監査用メールサーバ40との通信を行う通信インターフェイスを含む。ここでの通信インターフェイスは、IEEE802.11に準拠した通信を行うインターフェイスであってもよいし、他の方式の通信を行うインターフェイスであってもよい。通信インターフェイスは、例えばアンテナ、RF(Radio Frequency)回路、ベースバンド回路等を含んでもよい。通信部400は、例えば上述したようにPOPプロトコルまたはその派生プロトコルに従った通信を行うことによって、監査用メールサーバ40からメールを受信する。
【0023】
受信されたメールは、記憶部200の文書データベース220に記憶される。なお、本実施形態における監査対象は電子メールに限定されず、チャットアプリケーションで投稿された文書や、SNS(Social networking service)に投稿された文書等を含んでもよい。従って、以下では電子メール及びこれらの文書を文書データと表記する。つまり
図2に示した文書データベース220は、電子メール、及び電子メール以外の文書データを含んでもよい。
【0024】
処理部300は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子によって構成できる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシタ等である。
【0025】
また処理部300は、下記のプロセッサによって実現されてもよい。本実施形態の情報処理装置10は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プログラムは、情報処理装置10に、本明細書で説明する処理を実行させるものを含んでよい。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置(HDD:Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサが実行することによって、処理部300の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
【0026】
処理部300は、システム制御部310、スコア管理部100、監査データ管理部320、アカウント管理部330、表示制御部170を含む。システム制御部310は、処理部300の各部と接続され、各部の動作を制御する。
【0027】
スコア管理部100は、監査対象である文書データに対して、学習済モデルに基づく処理を行うことによって、当該文書データが所与の事案に関連する度合いを表すスコアを出力する。例えば、スコア管理部100は、記憶部200のモデルデータベース210から学習済モデルを読み出し、文書データベース220から監査対象の文書データを読み出す。そしてスコア管理部100は、学習済モデルと文書データに基づいて、当該文書データと所与の事案の関連度合いを表すスコアを算出する。
【0028】
監査データ管理部320は、スコア管理部100による処理結果を、監査条件に従って割り振ったID、及び、元の文書データ等と対応付けて記憶部200の監査結果データベース230に記憶する。監査条件は、文書データの監査処理を行う条件であり、記憶部200に記憶される監査条件データベース240により決定される。
【0029】
アカウント管理部330は、監査者のログインアカウント情報の管理、及び、当該監査者が監査可能な被監査者の管理等を行う。ログイン情報や監査可能な被監査者の情報は、アカウントデータベース250に記憶される。アカウント管理部330は、アカウントデータベースの読み込みや更新を行うことによってアカウント管理を実行する。
【0030】
表示制御部170は、スコア管理部100での処理結果を表示する制御を行う。例えば表示制御部170は、処理結果を、端末装置20の表示部に表示させる表示制御を行う。ここでの表示制御とは、スコア管理部100での処理結果を含む画面を端末装置20の表示部に表示させるためのマークアップ言語の送信処理であってもよい。ただし、表示制御部170は、処理結果をユーザが閲覧可能な態様で提示できればよく、具体的な表示制御はこれに限定されない。
【0031】
図3は、スコア管理部100の構成例を示す図である。スコア管理部100は、取得部110、解析処理部120、特徴量決定部130、モデル取得部150、推論処理部160を含む。ただしスコア管理部100の構成は
図3に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。
【0032】
取得部110は、文書データを取得する。例えば取得部110は、記憶部200に記憶された文書データベース220から、監査条件に合致する文書データを監査対象のデータとして取得する。取得部110は、例えば監査データ管理部320を介して、文書データベース220から文書データを取得してもよい。
【0033】
解析処理部120は、取得部110から文書データを取得し、当該文書データの形態素解析を行う。形態素解析については自然言語処理の分野において広く用いられる手法であるため詳細な説明は省略する。形態素解析によって、1つの文書データから、当該文書データに含まれる複数の形態素が抽出される。
【0034】
特徴量決定部130は、形態素解析の結果に基づいて、文書データを表す特徴量を決定する。特徴量の詳細については後述する。
【0035】
モデル取得部150は、学習済モデルを取得する。ここでの学習済モデルは、学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、重みが所与の閾値以下と判定された形態素に対応する特徴量をモデルの入力データから削除する機械学習を行うことによって作成された学習済モデルであってもよい。このようにすれば、モデルを用いて自動的に形態素の取捨選択が可能になる。そのため、前処理において形態素を制限する必要性が低く、多様な形態素を対象としたメール監査処理を高速で実行することが可能になる。本実施形態における学習済モデルの詳細については、
図13~
図18を用いて後述する。
【0036】
例えばモデル取得部150は、記憶部200のモデルデータベース210から所望の学習済モデルを読み出す処理を行う。例えばモデルデータベース210は複数の学習済モデルの集合であってもよい。例えばモデルデータベース210は、監査すべき所与の事案が互いに異なる複数の学習済モデルを含む。具体的にはモデルデータベース210は、所与の事案がカルテルである場合の学習済モデルと、情報漏洩である場合の学習済モデルとを含んでもよい。このような場合に、モデル取得部150は、監査条件にあわせた学習済モデルを選択する処理を行ってもよい。
【0037】
推論処理部160は、モデル取得部150が取得した学習済モデルを用いた推論処理(分類処理)を行う。具体的には、推論処理部160は、分類処理の対象となる文書データの特徴量を学習済モデルに入力することによって、当該文書データのスコアを取得してもよい。上述したように、当該スコアは、文書データと所与の事案の関連度合いを表す。
【0038】
表示制御部170は、推論処理部160での処理結果を含む画面を、端末装置20の表示部に表示させる制御を行う。
【0039】
また情報処理装置10は学習済モデルを用いた推論処理に加えて、当該学習済モデルを生成する学習処理を実行してもよい。
図4は、スコア管理部100の他の構成例を示す図である。スコア管理部100は、取得部110、解析処理部120、特徴量決定部130、モデル取得部150、推論処理部160に加えて、学習処理部140を含んでもよい。
【0040】
取得部110は、学習用の文書データを取得する。例えば取得部110は、文書データに対して分類結果が正解データとして付与されている学習用データを取得してもよい。正解データを付与する処理(アノテーション)は、例えば後述するように、学習済モデルを用いたスコアリング結果をユーザがレビューした際のフィードバックとして実行されてもよい。正解データは、具体的には
図8を用いて後述するように、事案を表す「タグ名」と、関連性のあり/なしを表す「タグ要素」から構成されるデータであってもよい。ただし、アノテーションが行われる装置や、アノテーションの実行タイミングはこれに限定されず、種々の変形実施が可能である。
【0041】
解析処理部120は、取得部110から文書データを取得し、当該文書データの形態素解析を行う。特徴量決定部130は、形態素解析の結果に基づいて、文書データを表す特徴量を決定する。形態素解析及び特徴量の決定については、推論処理を行う場合と同様である。
【0042】
学習処理部140は、特徴量に基づいて、形態素解析によって取得された複数の形態素のそれぞれについて、モデルにおける重みを決定する機械学習を行う。本実施形態におけるモデルは、線形モデルまたは一般化線形モデルである。線形モデルとは、例えば下式(1)で表されるモデルであってもよい。
【数1】
【0043】
例えば、本実施形態における文書データの特徴量は、複数の形態素の各形態素の特徴量の集合であってもよい。上式(1)において、x1~xnは、形態素のそれぞれに対応する特徴量を表す。w1~wnは、各形態素の重みである。上式(1)では、モデルの目的変数は文書のスコアであり、例えば対象の文書データが所与の事案と関連する度合いを表すスコアである。以下では、スコアが大きいほど、文書データと所与の事案の関連度合いが高いことを表す例について説明する。
【0044】
また一般化線形モデルとは、線形モデルを一般化したモデルであり、例えば下式(2)で表されるモデルであってもよい。なお一般化線形モデルは下式(2)に限定されず、線形モデルf(x)に基づいて表現される他のモデルであってもよい。
【数2】
【0045】
本実施形態の手法では、線形モデルまたは一般化線形モデルが用いられるため、学習の処理負荷を抑制することや、学習用の文書データに過剰に適応してしまう過学習を抑制することが可能である。学習処理部140における処理の詳細については、
図13以降を用いて後述する。
【0046】
学習処理部140は、学習処理によって重みが決定された線形モデルまたは一般化線形モデルを学習済モデルとして出力する。例えば学習処理部140は、生成した学習済モデルを記憶部200のモデルデータベース210に追加する処理を行う。
【0047】
モデル取得部150は、学習処理部140によって作成された学習済モデルをモデルデータベース210から取得する。推論処理部160は、モデル取得部150が取得した学習済モデルに基づいて、監査対象となる文書データの監査を行う。
【0048】
なお取得部110、解析処理部120及び特徴量決定部130は、学習処理と推論処理で共通であってもよい。即ち、取得部110は、学習用の文書データの取得と、監査対象の文書データの取得の両方を行う。解析処理部120は、学習用文書データの形態素解析と、監査対象の文書データの形態素解析の両方を行う。特徴量決定部130は、学習用文書データの特徴量を求める処理と、監査対象の文書データの特徴量を求める処理の両方を行う。このようにすれば、情報処理装置10(スコア管理部100)の構成をシンプルにすることが可能になる。ただし、学習処理と推論処理でそれぞれ異なる取得部、解析処理部、特徴量決定部が設けられてもよい。
【0049】
2.処理の詳細
次に情報処理装置10の処理について、端末装置20の表示部に表示される画面例と合わせて説明する。
【0050】
2.1 メール受信
図5は、取得部110が文書データを取得する処理を説明するフローチャートである。以下では、文書データが電子メールである例について説明するが、文書データが他のデータを含んでもよい点は上述したとおりである。
【0051】
ステップS11において、情報処理装置10(取得部110)は、前回のメール受信成功から所定時間が経過しているかを判定する。ここでのメール受信とは、例えば上述したように、POPプロトコルまたはその派生プロトコルを用いて監査用メールサーバ40からメールを受信する処理を表す。ここで、所定時間等のパラメータは、メール受信に関する設定(以下、メール設定と表記)を行うメール設定画面を用いて入力されてもよい。
【0052】
図6は、メール設定画面の例である。メール設定画面は、監査者が用いる端末装置20の表示部に表示されてもよい。例えば監査者は、端末装置20のブラウザを用いて情報処理装置10のアプリケーションサーバにアクセスすることによって、メール監査サービスの利用画面を閲覧する。監査者は、ホーム画面(不図示)において、アカウントIDとパスワードを入力することによって、メール監査サービスにログインする。アカウントIDは、例えば監査者のメールアドレス等である。
図6に示すメール設定画面は、例えば監査者によるログイン操作後、ログイン済みユーザの設定を変更するユーザ設定画面の1つとして表示されてもよい。ただし、複数の監査者を管理するシステム管理者が、各監査者のユーザ設定を行ってもよく、その場合には
図6の画面はシステム管理者が使用する端末の表示部に表示されてもよい。
【0053】
図6に示すように、メール設定画面は、受信メールフォルダ、受信済みメール削除設定、受信間隔、アカウント設定等の項目を含んでもよい。
【0054】
受信メールフォルダは、監査用メールサーバ40から受信したメールを、記憶部200のどの記憶領域(フォルダ)に保存するかを設定する項目である。受信済みメール削除設定は、取得部110が受信したメールを監査用メールサーバ40から削除するか否かを決定する項目である。受信間隔は、ステップS11における「所定時間」を決定する項目である。
【0055】
アカウント設定は、メール受信に使用するアカウントを選択する項目である。例えばアカウント設定として、予めメール受信に用いるメールアドレス、接続先、ポート番号、受信プロトコル等が設定済みであるとする。接続先は、監査用メールサーバ40を特定する情報であり、例えば
図6に示すようにIPアドレスを指定しているが、POPサーバ名等の他の情報が用いられてもよい。ポートは、通信に用いられるポート番号を表す。プロトコルは、メール受信に用いられるプロトコルを表す。
図6では、アカウント設定の項目において1つアカウントのみが表示される例を示しているが、登録済みの全アカウントが表示されてもよい。アカウント設定では、いずれか1つのアカウントを選択するためのラジオボタン等が表示される。
【0056】
図6に示す例では、受信メールフォルダ、受信済みメール削除設定、受信間隔、アカウント設定の各項目値を入力あるいは選択した上で、追加ボタンを選択する操作を行うことによって、当該項目値の集合であるメール設定情報が記憶部200に記憶される。メール設定情報は、例えば監査条件データベース240に記憶されてもよいし、アカウントデータベース250に記憶されてもよい。
【0057】
図5に戻って説明を続ける。前回のメール受信成功から所定時間が経過していない場合(ステップS11:No)、再度、ステップS11に戻って処理が継続される。即ち、取得部110は、所定時間が経過するまで、メール受信を待機する。
【0058】
前回のメール受信成功から所定時間が経過している場合(ステップS11:Yes)、ステップS12において、取得部110は監査用メールサーバ40へログインする。具体的には、取得部110は、
図6のメール設定画面で入力されたメール設定情報に従って接続先である監査用メールサーバ40にアクセスすることによって、メールを受信する。
【0059】
ステップS13において、取得部110は、取得したメールを、文書データベース220に記憶する。文書データベース220は複数のフォルダを含んでもよく、取得部110は、当該複数のフォルダのうち、メール設定情報で指定されたフォルダに受信したメールを記憶させる。
【0060】
ステップS14において、取得部110は監査用メールサーバ40からログアウトし、ステップS11に戻る。取得部110は、
図5に示す処理を繰り返し実行することによって、監査用メールサーバ40から定期的にメールを受信し、受信したメールを文書データベース220に追加する処理を行う。
【0061】
2.2 学習済モデルの作成処理
図7は、情報処理装置10が学習処理部140を含む場合において、学習処理部140での学習済モデルの作成処理、及びそれに付随する処理を説明するフローチャートである。まずステップS21において、処理部300(例えば取得部110)は、学習用データとなるメールを読み出す。例えば処理部300は、文書データベース220から1または複数のメールを読み出す処理を行う。ここでのメールは、正解データが付与されていないデータであってもよい。
【0062】
ステップS22において、処理部300は、タグの入力設定を受け付ける処理を行う。ここでのタグは正解データに対応し、1つのタグは、所与の事案を表す「タグ名」と、当該所与の事案との関連性のあり/なしを表す「タグ要素」から構成されてもよい。例えばカルテルを監査するための学習済モデルを作成したい場合、監査者は、カルテルに関連するタグである(タグ名,タグ要素)=(カルテル,関連性あり)または(カルテル、関連性なし)を選択することによって、ステップS21で読み出した電子メールに付与するタグを決定する。
【0063】
なおユーザによるタグ設定は、監査結果の表示に対するフィードバックとして実行されてもよい。例えば、推論処理部160は、監査対象の文書データに対して、既存の学習済モデルを用いてスコアを求めることによって、当該文書データとカルテルに関連性があると判定したとする。これに対して、監査者は、例えば
図12Aや
図12Bを用いて後述する画面において実際に文書データの内容を確認(レビュー)する。レビューの結果、監査者は、推論処理部160の提示通り、当該文書データとカルテルに関係性があると判定する場合もあれば、推論処理部160の提示は誤っており、当該文書データとカルテルに関係性がないと判定する場合もある。
【0064】
本実施形態におけるタグとは、当該監査者の判断結果を表してもよい。上記の例であれば、監査者が推論処理部160の提示通り、文書データとカルテルに関係性があると判定した場合、(カルテル,関連性あり)を肯定しているため、(カルテル,関連性あり)というRelevantタグが付与される。一方、推論処理部160の提示は誤っており、当該文書データとカルテルに関係性がないと監査者が判定した場合、(カルテル,関連性あり)を否定しているため、(カルテル,関連性なし)というNot Relevantタグが付与される。従って本実施形態のタグは、タグ名、タグ要素に加えて、Relevant/Not Relevantという属性を有してもよい。
【0065】
ステップS23において、処理部300は、ステップ21で読み出した電子メールに、ステップS22で入力されたタグを正解データとして対応付ける処理を行う。これにより、文書データに正解データが付与されるため、教師あり学習を行うことが可能になる。なお、ステップS23の処理は、例えば監査データ管理部320によって実行されるが、スコア管理部100等が実行することも妨げられない。
【0066】
ステップS24において、学習処理部140は、正解データが付与された文書データを用いた機械学習を行う。ステップS24の処理の詳細については、
図13を用いて後述する。
【0067】
なお端末装置20を使用する監査者は、学習設定画面を用いて機械学習に関する設定(以下、学習設定)を行ってもよい。例えば表示制御部170は、学習設定画面を端末装置20の表示部に表示させる制御を行う。
【0068】
図8は、学習設定画面の例である。学習設定画面は、教師モデル名、教師モデルのターゲット、タグ指定の各項目を含んでもよい。教師モデルとは学習済モデルを表す。教師モデル名は、作成する学習済モデルの名称を入力する項目である。
【0069】
教師モデルのターゲットとは、学習に用いる文書データの集合を表す。ターゲットは、ターゲット名、作成種別、ファイル種別、作成ユーザ、作成日時等の項目を含む。ターゲット名は、対象のターゲットを表す名称である。作成ユーザは、対象のターゲットを作成したユーザを特定する情報である。作成日時は、対象のターゲットが作成された日時を特定する情報である。
【0070】
作成種別は、ターゲットのデータ種別を表し、例えば監査データ、フォルダ、教師データを含んでもよい。監査データとは、監査対象となったデータであり、例えば特定の期間(2月分、3月分)で監査されたデータを表す。監査データは文書データの集合であるため、例えば上記のフィードバックによってタグが付与されれば、学習済モデルの作成に利用が可能である。またフォルダは、特定のフォルダに保存されたメールをターゲットとすることを表す種別である。教師データとは、特定の学習済モデルの作成を意図してまとめられた文書データの集合であり、例えばタグが付与済みである文書データの集合であってもよい。
【0071】
ファイル種別は、文書データの種別を表す。文書データは、メールファイル(例えば拡張子がmsg)であってもよいし、テキストファイル(例えば拡張子がtxt)であってもよい。また文書データは、ドキュメントファイル(拡張子がdocx)等の他の種別のデータを含んでもよい。
【0072】
タグ指定は、機械学習に用いられるタグを指定する項目である。例えば監査者がカルテルに関する監査を行う場合、当該監査者は学習設定画面において、(タグ名,タグ要素)=(カルテル,関連性あり)及び(カルテル、関連性なし)を選択し、これ以外を非選択としてもよい。またカルテルとパワーハラスメントの両方をまとめて監査したい場合、監査者は学習設定画面において、上記2つのタグに加えて(パワハラ,関連性あり)及び(パワハラ、関連性なし)を選択してもよい。即ち、タグ指定においてタグの選択/非選択を適切に決定することによって、所望の監査を行うための学習済モデルを生成することが可能になる。なお、上述したように、本実施形態におけるタグは、監査結果に対する監査者のフィードバックを表してもよい。従って、タグにはRelevantタグとNot Relevantタグがあり、それぞれについて選択/非選択が決定可能であってもよい。
【0073】
2.3 スコアリング処理
図9は、スコア管理部100における処理であって、学習済モデルを用いたスコアリング処理(推論処理、分類処理)を説明するフローチャートである。
図10は、
図9に示すスコアリング処理の実行タイミング等を設定する実行設定画面の例である。実行設定画面は、例えば端末装置20の表示部に表示され、監査者による選択操作を受け付ける。
【0074】
図10に示すように、実行設定画面は、スコアリング処理の実行間隔及び開始時刻の項目を含む。
図10の例では、1日間隔で4:00に開始する設定が行われているため、毎日AM4:00にスコアリング処理が開始される。例えば、企業の従業員のメール監査を行う場合、監査対象となる文書データの数が非常に多くなるため、学習済モデルを用いたスコアリング処理に数時間を要する場合も考えられる。その点、スコアリング処理の開始タイミングをスケジューリングすることによって、例えば監査者の業務効率化が可能になる。具体的には、監査者の業務開始時に前日分のメールに対するスコアリングを完了させておくこと等が可能になる。
【0075】
スコア管理部100は、実行設定画面で設定されたタイミングにおいて
図9の処理を開始する。まずステップS31において、取得部110は、文書データベース220から監査対象となる文書データの集合を取得する。
【0076】
ステップS32において、解析処理部120は監査対象の文書データの形態素解析を行う。特徴量決定部130は、形態素解析の結果に基づいて特徴量を決定する。
【0077】
ステップS33において、スコア管理部100は、学習済モデルに基づくスコアリングを行う。具体的には、モデル取得部150は、モデルデータベース210から学習済モデルを読み出す。推論処理部160は、特徴量決定部130によって決定された特徴量を学習済モデルに入力することによってスコアを求める。
【0078】
ステップS34において、推論処理部160は、監査条件に基づいて監査結果のフィルタリングを行う。例えば推論処理部160は、監査条件データベース240から監査条件を読み出し、当該監査条件に従って監査結果の一部を抽出するフィルタリング処理を実行する。ステップS35において、推論処理部160は、フィルタリング処理の結果を、監査結果として記憶部200の監査結果データベース230に追加する。
【0079】
図11A-
図11Gは、監査条件を設定する監査設定画面の例である。監査設定画面は、例えば端末装置20の表示部に表示され、監査者による選択操作を受け付ける。監査者は、
図9に示す処理の前に監査設定画面を用いて監査設定を行い、その結果が監査条件データベース240に記憶される。監査条件とは、監査対象となる文書データや被監査者を絞り込むフィルタを特定する条件であってもよい。従って、
図11A-
図11Gに示す監査設定画面は、フィルタ設定画面と言い換えてもよい。
【0080】
図11Aは、フィルタを設定する基本設定画面の例である。基本設定画面では、フィルタ名(監査条件名)、フィルタグループ、タグセット等を設定できる。フィルタグループは、既存のフィルタ(監査条件)をグルーピングする機能であり、例えば監査対象となる事案毎、あるいは、被監査者の属性毎等、種々のグループを設定することによってフィルタの管理が容易になる。タグセットとは、例えば
図8を用いて上述したタグが、1または複数組み合わされたセットを表す。例えば、タグの組み合わせが予めタグセットとして設定されており、タグセットを選択することによって、当該タグセットに含まれるタグをフィルタリングの条件として用いることが可能になる。振り分け対象は、文書データの種類をフィルタリングする項目であり、メールは電子メールを表し、コミュニケーションツールはチャットツールやSNS等のデータを表す。
【0081】
図11Bは、アカウントグループによるフィルタを設定する画面例である。アカウントグループは、複数のアカウントの集合であり、
図11Bに示すように、営業部、総務部、開発部等、企業の部署を単位とするアカウントの集合であってもよい。ただし、アカウントグループは、職位や職能を基準とした集合、あるいは年齢や性別を基準とした集合であってもよく、具体的なアカウントグループは種々の変形実施が可能である。
図11Bの例では、4つの既存のアカウントグループが左側の枠に表示されており、そこから選択されたアカウントグループが右側の枠に追加される。何れかのアカウントグループが選択された場合、当該アカウントグループに属するアカウントから送受信された文書データのみが監査対象として選択される。
【0082】
図11Cは、アカウント単位でのフィルタを設定する画面例である。この画面を用いることによって、監査者は、個別のアカウント毎に監査の対象とするか否かを決定できる。
図11Cの例では、5つの既存アカウントが左側の枠に表示されており、そこから選択されたアカウントが右側の枠に追加される。何れかのアカウントが選択された場合、当該アカウントから送受信された文書データのみが監査対象として選択される。
【0083】
図11Dは、メールアドレスのドメイン単位でのフィルタを設定する画面例である。この画面を用いることによって、監査者は、ドメイン毎に監査の対象とするか否かを決定できる。
図11Dの例では、2つのドメインが左側の枠に表示されており、そこから選択されたドメインが右側の枠に追加される。何れかのドメインが選択された場合、当該ドメインのメールアドレスから送受信された文書データのみが監査対象として選択される。また
図11Dに示すようにドメインに関する監査設定画面は、ドメインでのフィルタリング(ドメイン指定)を行うか否かを入力する領域を含んでもよい。
【0084】
図11Eは、詳細な監査条件を設定する画面例である。
図11Eに示す画面では、抽出対象とする学習済モデルや、抽出対象となるスコアの下限値または上限値またはその両方を設定する項目が表示される。これにより、特定の学習済モデルによるスコアリング結果のみを抽出することや、スコアリング結果のうち、特定範囲のスコアが得られた結果のみを抽出することが可能になる。なお、本実施形態で設定される監査条件は条件式として記憶されてもよい。監査者は、
図11Eに示す画面を用いて、条件式で記載された既存の監査条件を読み出して利用することや、複数の監査条件を優先順位を付けた上で併用する設定入力を行ってもよい。
【0085】
図11Fは、担当者によるフィルタを設定する画面例である。ここでの担当者とは、監査者を表してもよい。例えば、学習済モデルや受信メールが監査者に対応付けられている場合、
図11Fにおける監査設定に基づいて、スコア管理部100は特定の監査者に対応付けられたデータを抽出する処理を行ってもよい。
【0086】
図11Gは、通知設定のフィルタを設定する画面例である。
図11Gに示す画面は、通知設定のオンオフ、通知先メールアドレスの設定、通知条件であるスコア閾値の項目を含んでもよい。例えばスコア管理部100は、監査結果からスコア閾値の条件を満たすスコアを取得した文書データを抽出し、抽出された文書データが存在した場合に、その旨を表す情報を通知先メールアドレスに送信してもよい。ここで送信される情報は、抽出された文書データの数、概要(メールタイトル、差出人、受取人等)等を含んでもよい。あるいは、通知先メールアドレスに送信される情報は、詳細なレビューが必要である旨の情報であり、具体的な文書データの内容は、監査者が端末装置20のブラウザを用いて情報処理装置10にアクセスした場合に表示されてもよい。
【0087】
以上のように、本実施形態では種々の監査条件を設定することによって、監査対象となる人物や事案を適切に設定することや、監査者が望む情報を適切に表示すること等が可能になる。
【0088】
2.4 スコア表示
図9に示す処理を行うことによって、監査結果データベース230には監査結果を表すデータが蓄積される。例えば端末装置20から監査結果の閲覧要求があった場合、表示制御部170は、監査結果データベース230から対象の監査者に応じた監査結果を読み出し、当該監査結果を端末装置20の表示部に表示させる制御を行う。上述したように、監査結果データベース230に記憶される監査結果は、
図11A-
図11Gの各画面を用いて設定されたフィルタを用いてフィルタリングが行われた結果であってもよく(ステップS34-S35)、表示制御部170はフィルタリング後の情報を表示してもよい。
【0089】
図12A及び
図12Bは、監査結果を監査者に提示するレビュー画面の例である。例えば、推論処理部160は、推論対象の文書データとして、複数の推論対象データが取得された場合に、複数の推論対象データのそれぞれについて、スコアを算出してもよい。そして表示制御部170は、複数の推論対象データのうち、相対的にスコアが高い一部のみを含むリストを表示する制御を行う。ここで相対的にスコアが高い文書データとは、スコアが所与の閾値以上である文書データであってもよいし、監査対象の文書データのうち、スコアが高い順から所定数の文書データであってもよい。
【0090】
このようにすれば、スコアが高い、即ち所与の事案に関連する度合いが高いと推定された文書データを優先的に監査者に提示することが可能になる。監査者は、スコアが高い文書データを優先的にレビューできるため、レビュー効率が向上する。結果として、本実施形態の手法では、監査者の負担を軽減することが可能になる。
【0091】
さらに表示制御部170は、複数の推論対象データのうち、相対的にスコアが高い一部が、スコアの順にソートされたリストを表示する制御を行ってもよい。このようにすれば、所与の事案に関連する度合いが高いと推定された順に文書データが表示されるため、監査者のレビュー効率をさらに向上させることが可能になる。
【0092】
図12Aは、スコアが高い文書データのリストを表示するレビュー画面の例である。
図12Aでは、9件の文書データを含むリストが表示される例を示している。リストは、各文書データについて、番号、既読/未読、ファミリ、スレッド、スコア、メール送信時刻、メールタイトル、メール送信者、メール受信者の各項目に関する情報を含んでもよい。
【0093】
番号はリストに含まれる文書データに一意に割り振られる番号である。番号は、スコアが高い順にソートされた場合の順位を表してもよい。既読/未読は、対象の電子メールが既読であるか未読であるかを表す。ファミリの項目には、複数のメールを関連付けてファミリ(グループ)を作成する場合に、対象のメールが属するファミリに関する情報へのリンク情報が表示される。スレッドの項目には、対象のメールのスレッドに関する情報が表示される。ここでのスレッドとは、あるメールに対する返信や転送等の履歴に基づいて、関連するメールをまとめた集合である。
【0094】
メール送信時刻は、対象のメールが送信された時刻を表す。メールタイトルは、対象となる文書データに付けられたタイトルを表す。メール送信者は、対象のメールを送信したユーザ名、及びメールアドレスを特定する情報を表す。メール受信者は、対象のメールを受信したユーザ名、及びメールアドレスを特定する情報を表す。なお
図12Aには不図示であるが、リストはCc及びBccの欄を含んでもよい。Ccはカーボンコピー、Bccはブラインドカーボンコピーを表し、対象のメールが共有されたユーザ名、及びメールアドレスを特定する情報を表す。なおCcに記載された情報はメール受信者全体に共有される情報であり、Bccに記載された情報はメール送信者以外には公開されない情報である。
【0095】
図12Aのレビュー画面を閲覧した監査者は、スコアや、付随して表示される他の情報を参照することによって、リストに含まれる複数の文書データから実際にレビュー対象とする文書データを選択する処理を行う。
【0096】
図12Bは、リストから何れかの文書データが選択された場合に表示される画面例であって、選択された文書データの詳細を表示する詳細画面例である。表示制御部170は、リストのうちの何れかの文書データが選択された場合、選択された文書データの詳細を、リストを表示するウィンドウとは別ウィンドウにおいて表示する制御を行ってもよい。例えば
図12Aに示す画面と、
図12Bに示す画面は別ウィンドウで表示される。
【0097】
図12Bに示すように、詳細レビューでは、対象の文書データの具体的な内容(テキスト)が表示される。その際、テキストの一部が他の領域と異なる態様で表示されてもよい。
図12Bの例では、1つの行の背景色が変更される例を示している。この処理は、例えば文書データ単位のスコアではなく、当該文書データを複数のブロックに分割した場合のブロック単位のスコアに基づいて実行される。ブロック単位の処理の詳細については、
図16Aを用いて後述する。
【0098】
図12Bに示すように、詳細画面では表示される情報量が多い。そのため、テキストの内容を監査者に把握させやすくするためには、詳細画面はある程度広い領域を用いて表示されることが望ましい。一方で、
図12Aに示すリストには、多数の文書データが含まれる可能性もある。そのため、
図12Aの画面もある程度広い領域を用いて表示されなければ、所与の事案との関連が疑われる文書データの概要を把握することが難しくなってしまう。その点、
図12Aに示す画面と
図12Bに示す画面のウィンドウを分けることによって、情報が閲覧しやすい態様で表示されるため、監査者の負担を軽減することが可能になる。
【0099】
また表示制御部170は、
図12Bの詳細画面を開いた状態において、
図12Aの画面において他の文書データを選択する操作が行われた場合、新たなウィンドウを開くことなく、詳細画面を更新する処理を行ってもよい。例えば、
図12Bの詳細画面でNo.1のメールが表示されていた状態において、
図12AのリストからNo.2のメールが選択された例を考える。この場合、表示制御部170は、詳細画面での表示対象となるメールを、No.1からNo.2に変更する制御を行う。このようにすれば、No.1用の詳細画面を表示するウィンドウとNo.2用に詳細画面を表示するウィンドウが同時に開かれることが抑制されるため、監査者の操作を容易にできる。ただし、監査者の明示の操作指示があった場合、詳細画面を表示されるためのウィンドウが複数同時に開かれることも妨げられない。
【0100】
また
図12Aに示すように、レビュー画面には監査者によるフィードバックを入力する項目が設けられてもよい。
図12Aの例では、所与の事案がパワーハラスメントであることが表示されるとともに、関連性ありと関連性なしの何れかの選択入力に用いられるラジオボタンが表示される。監査者は、リスト上のチェックボックスで1または複数の文書データを選択し、且つ、関連性のあり/なしを選択した状態で保存ボタンを押す操作を行う。例えば監査者は、
図12Bの詳細情報を閲覧することによって文書データと事案の関連性を判断し、当該判断結果に基づいて
図12Aにおける入力操作を実行する。これにより、対象の文書データにタグが関連付けられる。なお
図12Aに示すように、監査者はフィードバックの際にコメントを入力可能であってもよい。
【0101】
3.スコア管理部
次にスコア管理部100の処理の詳細について説明する。
【0102】
3.1 学習処理の流れ
図13は、本実施形態に係る処理を説明するフローチャートであり、特に学習用の文書データに基づいて機械学習を行う学習処理を説明するフローチャートである。この処理は、例えば
図7のステップS24に対応するが、
図13に示す処理がタグ付け等(ステップS21-S23)とは異なるタイミングで実行されることも妨げられない。
【0103】
まずステップS101において、取得部110は、学習用の文書データを取得する。例えば取得部110は、監査者によるフィードバックであるタグが正解データとして対応付けられた文書データを取得してもよい。
【0104】
ステップS102において、解析処理部120は、学習用の文書データに対する形態素解析処理を行う。ここでの形態素とは、文を言語上で意味を持つ最小単位を表す。形態素解析とは、文書データを複数の形態素に分解する処理を含む。解析処理部120は、形態素解析の結果として、当該文書データに含まれる形態素の集合を取得する。なお解析処理部120では、形態素の品詞等を判定してもよく、それらの判定結果が形態素解析の結果に含まれてもよい。形態素解析については自然言語処理の分野において広く用いられる手法であるため、詳細な説明は省略する。
【0105】
ステップS103において、特徴量決定部130は、文書データに対応する特徴量を決定する。例えば、特徴量決定部130は、対象の文書データにおける所与の形態素の出現状態に基づいて、当該所与の形態素に対応する値を決定する処理を行ってもよい。そして特徴量決定部130は、各形態素について求められた値を並べたテンソル(狭義にはベクトル)を対象の文書データを表す特徴量としてもよい。
【0106】
例えば特徴量決定部130は、所与の形態素に対応する値として、当該形態素が文書データに含まれるか否かを表すバイナリデータを用いてもよい。バイナリデータとは、形態素が文書データに含まれる場合に第1の値(例えば1)となり、形態素が文書データに含まれない場合に第2の値(例えば0)となるデータであってもよい。例えば “Impossible is nothing”という3つの形態素からなる文書データを対象とした場合、当該文書データの特徴量は、Impossible, is, 及びnothingに対応する要素の値が1となり、他の全ての要素の値が0となるベクトルである。
【0107】
あるいは特徴量決定部130は、所与の形態素に対応する値として、当該形態素の出現頻度であるtf(Term Frequency)に基づく値を用いてもよい。また特徴量決定部130は、所与の形態素に対応する値として、tf及び逆文書頻度であるidf(Inverse Document Frequency)に基づいて決定される値を用いてもよい。
【0108】
ステップS104において、学習処理部140は、モデルの入力データとして特徴量を用いた学習処理を行う。具体的には、式(1)や(2)におけるx1~xnがステップS103で決定された特徴量(ベクトルの各要素)に対応し、文書データのスコアが正解データに対応する。学習処理部140は、多数の学習用の文書データから取得された(x1,x2,…,xn,スコア)の組に基づいて、最も確からしい重みw1~wnを決定する処理を行う。線形モデルにおける重みの決定処理では、最急降下法やニュートン法、主双対内点法等の種々の線形最適化手法が知られており、本実施形態ではそれらの手法を広く適用可能である。
【0109】
ステップS105において、学習処理部140は、複数の形態素のうち、対応する重みの値が所定閾値以下の形態素を、これ以降の学習処理から除外する処理を実行する。例えば、学習処理部140は、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う。より具体的には、所与の形態素に対応する重みwi(iは1以上n以下の整数)が所定閾値以下であると判定された場合、学習処理部140は、上式(1)や(2)等によって表されるモデルからwi×xiに対応する項を削除してもよい。結果として、xiに対応するi番目の形態素が、学習処理の対象から除外される。
【0110】
本実施形態の手法によれば、所与の形態素を処理に用いるか否かを、学習処理部140が自動的に判定することが可能になる。そのため、例えば最初にステップS104の学習処理を行う段階において、形態素の一部を予めフィルタリングする等の負荷軽減処理を行う必要性を低くできる。狭義には学習処理部140は、学習用の文書データから抽出された全ての形態素を学習処理に利用してもよい。あるいは学習処理部140は、対象の自然言語において想定される全ての形態素に対応する特徴量を学習処理に利用してもよい。
【0111】
このようにすれば、一部の形態素を予め除外する必要がないため、学習処理の前処理における負荷を軽減できる。例えば、従来手法では、形態素解析の誤りによって形態素が誤検出された場合、不適切な形態素を除外する処理が実行されていた。これに対して本実施形態では、そのような不適切な形態素を自動的に除外することが可能である。不適切な形態素が、文書データと所与の事案との関連度合いに与える影響は低いことが想定されるため、ステップS104の処理において自然と低い重みが設定されると考えられるためである。例えば1つの形態素が非常に少ない文字数から構成される可能性がある中国語、日本語、韓国語等では、他の言語(例えば英語)に比べて形態素解析が難しい。本実施形態の手法であれば、このような言語を対象とする場合であっても、学習処理において形態素解析の誤りを自動的に除外できるという利点がある。
【0112】
また、本実施形態の文書データは音声データを対象として音声認識処理によって取得されたデータであってもよい。この場合、音声認識処理のエラーにより不適切な形態素が取得されることもあるが、本実施形態ではそのような不適切な形態素も自動的に除去される。エラー要因が音声認識処理であったとしても、文書データと所与の事案との関連度合いにおいて、不適切な形態素が与える影響が低いと考えられる点は同様のためである。即ち、本実施形態の手法では、音声認識処理や形態素解析等、学習処理の前段階の処理で生じうるエラーを、学習処理のモデルを用いて自動的に除去できる。
【0113】
なお本実施形態の手法では、モデルが線形モデルまたは一般化線形モデルであることも重要である。なぜなら、
図13を用いて上述したように、本実施形態ではまず多数の(狭義には全ての)形態素を対象として重みを決定する処理を実行し(ステップS104)、その結果を用いて一部の形態素を自動的に除外する(ステップS105)。そのため、多数の形態素を対象とした処理が1回は必須となる。処理負荷が相対的に大きいモデル(例えば多層の中間層を有するニューラルネットワーク等)を用いた場合、形態素の数、即ち入力データの数が大きければ、最初に重みを決定する処理負荷が大きくなってしまい、モデルを用いて一部の形態素を自動的に除外することによる負荷軽減効果が損なわれる可能性もある。その点、上記の通り、数学的に解析が容易な線形モデルまたは一般化線形モデルを用いることによって、形態素の数が大きい場合にも効率的に重みを決定できるため、学習処理における負荷を適切に軽減することが可能になる。
【0114】
重みが所定以下の形態素を削除した後、ステップS106において、学習処理部140は、学習処理を終了するか否かを判定する。例えば学習処理部140は、交差検証を行うことによって学習精度を表す指標値を求め、当該指標値に基づいて学習を終了するか否かを判定してもよい。交差検証とは、複数の学習データをN(Nは2以上の整数)単位に分割し、そのうちのN-1単位を訓練データとして重みの更新を行い、残りの1単位をテストデータ(バリデーションデータ)として、上記指標値を求める処理を行う手法である。交差検証については公知の手法であるため詳細な説明は省略する。またここでの指標値は、再現率、正解率、適合率、AUC(Area Under the Curve)等、種々の指標値を用いることが可能である。
【0115】
学習を終了しないと判定された場合(ステップS106:No)、学習処理部140は、例えばステップS103に戻って処理を行う。この場合、形態素に対応する特徴量を再計算し、再計算後の特徴量に基づいて、各形態素の重みを決定する処理が行われる。この際、ステップS105において削除された形態素は特徴量算出の対象から除外されてもよい。またステップS104において、学習に用いられる制御パラメータの一部が変更されてもよい。
【0116】
あるいは学習を終了しないと判定された場合(ステップS106:No)、学習処理部140は、例えばステップS104に戻って処理を行ってもよい。この場合、学習処理部140は、特徴量については決定済みの値を用い、特徴量とは異なる制御パラメータの一部を変更した上で再度、重みを決定する処理を実行する。
【0117】
学習を終了すると判定された場合(ステップS106:No)、学習処理部140は、その時点での重みが設定された線形モデルまたは一般化線形モデルを、学習済モデルとして出力し、学習処理を終了する。
【0118】
3.2 確率データ出力
上述したように、本実施形態におけるスコアとは、モデルの出力値に基づいて決定される値であってもよい。ここでのスコアは、例えば上述したように文書データと所与の事案の関連度合いを表す情報であり、文書データと所与の事案が関連する確からしさを表す数値データであってもよい。例えばスコアは、値が大きいほど、文書データと所与の事案の関連度合いが高いことを示す情報である。
【0119】
図14は、モデルの出力値と、文書データが所与の事案と関連する割合を表す情報である。
図14の横軸はモデルの出力値である。
図14の縦軸は、例えばモデルの出力値が所与の値であった文書データの総数に対する、実際に所与の事案と関連していた文書データの数の比率を表す。
図14の縦軸の値は、例えば交差検証におけるテストデータに基づいて決定されてもよい。例えばテストデータに含まれる複数の文書データを学習済モデルに入力した結果、スコアがSとなる文書データがNs件取得されたとする。そして、当該Ns件の文書データの正解データを参照したところ、そのうちのx件が所与の事案に関係し、残りの(Ns-x)件は所与の事案に関係していなかったとする。この場合、横軸の値がSの場合の縦軸の値PsはPs=(x/Ns)で表される。以下、縦軸の値を、「文書データが所与の事案と関連する割合」と表記し、さらに簡略化して単に「割合」とも表記する。
【0120】
この際、スコアと割合とは線形の関係にない場合がある。例えば
図14の破線に示すように、割合がスコアに関する非線形関数となる場合が考えられる。なお
図14では、スコアを0以上1以下の値に正規化しているが、これには限定されない。
【0121】
例えばスコアが最大値の20%(例えば0.2)である場合、当該スコアを閲覧したユーザは、20%の確率で文書データが所与の事案に関連していると判断する可能性がある。しかし、
図14の例ではスコアが0.2である場合、縦軸の割合の値は0.2よりも小さい値となる。つまり、スコアが0.2である文書データが所与の事案に関連する確率は20%よりも低くなる。同様に、
図14の例ではスコアが0.8である場合、縦軸の割合の値は0.8よりも大きい値となる。つまり、スコアが0.8である文書データが所与の事案に関連する確率は80%よりも高くなる。従って、スコアと割合が非線形の関係にある場合、スコアの値からユーザが感じる印象と、実際の割合とに乖離が生じてしまう。
【0122】
またスコアと割合がどのような関係にあるかは、学習用の文書データによって異なる可能性がある。例えば、本実施形態の情報処理装置10がディスカバリ支援システムに用いられる場合と、メール監査システムに用いられる場合とでは、学習用の文書データが異なる。そのため、2つのシステムではスコアと割合の関係が異なることになるため、スコアの持つ意味がそれぞれのシステムで異なってしまう。またメール監査システムの中でも、所与の事案がパワーハラスメントである場合と、セクシャルハラスメントである場合とでスコアと割合の関係が異なる可能性もある。
【0123】
よって本実施形態では、スコアと割合の乖離を抑制するように、スコアの補正処理が行われてもよい。具体的には、情報処理装置10は、割合がスコアの線形関数に近づくような補正処理を行う。ここでの補正処理は、例えばスコアの値を実際の割合の値に近づける補正処理であってもよい。例えば、モデルの出力である補正前スコアの値がSであり、当該補正前スコアに対応する割合の値がPsであった場合、補正後スコアの値はSからPsに近づくように補正される。このようにすれば、補正後スコアの値と、当該補正後スコアに対応する割合の値を一致させることが可能になる。
図14の例であれば、スコアと割合の関係が、破線から実線に補正される。
【0124】
例えば情報処理装置10は、上述したように交差検証におけるテストデータを用いて、スコアと割合の対応関係を表す関係データを求めておく。ここでの関係データは割合=F(スコア)となる関数Fであってもよいし、スコアの値と割合の値とを対応付けたテーブルデータであってもよい。関係データが既知であれば、補正前スコアの値がSである場合の割合の値Psを決定できるため、上記補正を適切に実行可能である。
【0125】
補正処理の結果として、例えば補正後スコアが最大値の20%である場合、対象の文書データが所与の事案に関連する確率が20%程度となることが期待される。つまり推論処理部160は、推論対象データと、所与の事案と関連する確率を表す確率データをスコア(上記補正後のスコア)として出力してもよい。これにより、スコアを閲覧したユーザが抱く印象と、割合を対応付けることが可能になる。さらに本実施形態の手法では、所与の事案の種類によらず、補正後スコアを確率データとすることが可能になる。つまり、情報処理装置10が適用されるシステムや、当該システム内で対象とする事案の差異によらず、スコアの持つ意味が一定となるため、ユーザによる判断を容易にすることが可能になる。また表示制御部170での表示制御において、スコアを用いてフィルタリングを行う場合にも、当該フィルタリングにおける判断基準をシステムや所与の事案によらず統一することが可能になる。
【0126】
なお、以上ではモデルの出力を補正前スコアとして求めた後、当該補正前スコアに対して関係データに基づく補正処理を行う例を示した。当該補正処理は、例えば学習処理部140が補正前スコアと割合の関係データを学習段階で取得しておき、推論処理部160が当該関係データに基づく補正処理を推論段階において実行することによって実現される。ただし本実施形態の補正処理はこれに限定されない。例えば情報処理装置10は、モデルの出力が補正後スコアとなるように、重みw1~wnを補正する処理を行ってもよい。つまり学習処理部140による学習処理において、上記補正処理が実行されることも妨げられない。
【0127】
3.3 パラメータの自動設定
図13を用いて上述したように、学習処理部140は、学習処理を終了するか否かを指標値に基づいて判定し(ステップS106)、終了しないと判定した場合、学習処理を継続する。学習処理を継続する際、学習処理部140は、学習処理に関連する何らかの設定変更を行った後で再度、形態素の重みを決定する処理を行ってもよい。
【0128】
学習処理部140は、モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習を実行可能であってもよい。具体的には学習処理部140は、アンサンブル学習を実行するか否か(アンサンブル学習のオン/オフ)を切り替え可能であってもよい。例えばアンサンブル学習においては、ブートストラップ手法により、多様性を持たせた複数の訓練データを取得し、当該複数の訓練データから複数のモデルを取得し、当該複数のモデルを用いて推定を行うバギングという手法が知られている。その他、アンサンブル学習についてはブースティング、スタッキング、ニューラルネットワーク等の種々の手法が知られており、本実施形態ではこれらの手法を広く適用可能である。
【0129】
例えば学習処理部140は、学習処理によって取得されたモデルの評価処理を行い(ステップS106)、モデルの性能が所定以下であると判定された場合(ステップS106:No)、アンサンブル学習におけるアンサンブルを解除した(アンサンブル学習をオフにした)上で、機械学習を継続してもよい。換言すれば、本実施形態の学習処理部140は、アンサンブル学習のオン/オフを決定する制御パラメータを自動的に変更してもよい。
【0130】
アンサンブル学習は単一のモデルを用いた学習処理に比べて精度が高いと言われているが、学習用のデータを十分な量だけ取得できなかった場合等には、アンサンブル学習を行うことでかえって推定精度が低下する可能性もある。例えば、ディスカバリ支援システムやメール監査システム等、本実施形態で想定するシステムでは、収集される文書データのうち、所与の事案に関連する文書データの割合が非常に低いことも想定される。そのため、全体としての文書データ数が多かったとしても、一方側に分類されるデータ量(所与の事案に関連する文書データの数)が不足することも考えられる。この場合も、アンサンブル学習を行うことで精度が低下する可能性がある。その点、本実施形態では作成されたモデルを評価しながら自動的にアンサンブル学習のオン/オフを切り替えることができる。結果として、学習用の文書データの収集状況等に合わせて適切な学習処理を実行することが可能になる。
【0131】
あるいは、学習処理部140は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、特徴量決定部130において特徴量の決定に用いられる特徴量モデルを変更した上で、機械学習を継続してもよい。ここでの特徴量モデルとは、例えば、各形態素の文書データ中での出現状況に基づいて、当該形態素に対応する値を決定するためのモデルである。上述したように、特徴量モデルとは、各形態素にバイナリデータを割り当てるモデルであってもよいし、tfに対応する値を割り当てるモデルであってもよいし、tf-idfに対応する値を割り当てるモデルであってもよいし、これ以外のモデルであってもよい。
【0132】
あるいは、学習処理部140は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、機械学習に用いられるモデル(関数モデル)を変更した上で、機械学習を継続してもよい。例えば学習処理部140は、上式(1)に示した線形モデルを用いて取得された学習済モデルの性能が所定以下と判定された場合に、上式(2)に示した一般化線形モデルにモデルを変更した上で機械学習を行ってもよい。また学習処理部140は、一般化線形モデルから線形モデルへの変更を行ってもよい。また一般化線形モデルの態様が上式(2)に限定されないことは上述した通りである。例えば記憶部200は、互いに異なる複数の一般化線形モデルを記憶してもよい。学習処理部140は、評価処理においてモデルの性能が所定以下であると判定された場合、線形モデル及び当該複数の一般化線形モデルのうち、未選択である何れか1つに、関数モデルを変更する処理を行ってもよい。その他、モデル(関数モデル)の変更手法は種々の変形実施が可能である。
【0133】
例えば、対象の文書データが所定ワード数以上の長文である場合や、短文であっても文語調の表現が用いられている場合、tfを用いた方がバイナリデータを用いる場合に比べて精度が高くなりやすい。一方、短文且つ口語調の表現が用いられる文書データでは、バイナリデータを用いたシンプルな特徴量モデルの方がtf等を用いる場合に比べて精度が高くなりやすいことが分かってきた。本実施形態の手法では、特徴量モデルを自動的に変更することによって、文書データの長さや使用される表現等に応じて適切な学習処理を実行することが可能になる。
【0134】
3.4 メタデータ
また本実施形態では、文書データに対してメタデータが付与されてもよい。ここでのメタデータは、例えば文書データの文字数、行数、これらの分布や統計量(平均値、中心値、標準偏差等)を含む。また本実施形態における文書データは、複数の人物の会話を書き起こしたデータであってもよい。例えば取得部110は、会話を録音した音声データを取得し、当該音声データに対する音声認識処理を行うことによって文書データを取得してもよい。この場合、文書データのメタデータには、人物毎の発話文字数、発話行数、発話時間等が含まれる。例えば文書データが、顧客と従業員の会話に対応する場合、顧客の発話文字数、従業員の発話文字数、時間分布等がメタデータとして用いられる。また、全発話文字数に対する、顧客の発話文字数の割合や従業員の発話文字数の割合等がメタデータとして用いられてもよい。例えば文書データの保管されていたファイルパス名やメールのやり取りの日時を含めてもよい。
【0135】
これらのメタデータは、学習処理に用いられてもよい。例えば特徴量決定部130は、文書データに付与されたメタデータに基づいて、当該メタデータに関する特徴量であるメタデータ特徴量を決定してもよい。学習処理部140は、形態素に対応する特徴量、及び、メタデータ特徴量に基づいて、機械学習を行う。このようにすれば、形態素とは異なるメタデータを特徴量に含めることができるため、学習精度の向上が可能になる。
【0136】
なお学習処理部140は、学習処理において、メタデータに対応する重みを求め、対応する重みの値が所定閾値以下のメタデータを、モデルの入力データから削除してもよい。このようにすれば、形態素だけでなくメタデータについても、その取捨選択を人が事前に経験等に基づいて行わずとも、モデルを用いて自動的に実行することが可能になる。
【0137】
ただしメタデータは、その値がデータ毎に大きく異なる可能性がある。例えば、発話文字数は発話行数に比べて値が大きくなりやすい。また発話時間は、単位として秒を用いるか分を用いるかで値が変化しうる。そのため、メタデータの値をそのまま特徴量として用いた場合、値の大きな特徴量に学習モデルが強く影響され、全特徴量をまんべんなく学習できない可能性もある。また決定木方式やランダムフォレストを用いた場合、単位やスケールの差異に無関係に学習が可能であるが、これらの手法は非線形性が強いため、上述したとおり、本実施形態では用いられない。
【0138】
例えば、メタデータに対応する補正前特徴量として、第1~第P補正前特徴量が取得され、文書データとして、第1~第Q文書が取得された場合を考える。メタデータに対応する特徴量の種類数がPであり、文書データの数がQである。ここで、P、Qはそれぞれ1以上の整数である。ただし実際にはメタデータの種類数、及び文書データの数はともに複数であることが想定されるため、P、Qはそれぞれ2以上の整数であってもよい。
【0139】
特徴量決定部130は、補正前特徴量の個数P、文書データの数Q、第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、第1~第P補正前特徴量を補正することによって、メタデータ特徴量を決定してもよい。このようにすれば、メタデータ特徴量を適切に正規化することが可能になる。具体的には第1ノルムに基づく補正により、メタデータ間の値の差異を抑制できるため、線形モデルまたは一般化線形モデルを用いる場合にも適切な学習が可能である。さらに第2ノルムに基づく補正も行うことで、文書ごとの特徴量の総和に対応する情報(例えば二乗和)を揃えることが可能になる。結果として、求められる特徴量の形式が言語情報(形態素)のみを対象とした場合と同様になるため、メタデータを用いる場合にも言語情報と同様の処理により学習を実行可能である。
【0140】
図15A~
図15Cは、メタデータ特徴量の補正処理(正規化処理)を具体的に説明する図である。
図15は、補正前のメタデータ特徴量を表す。ここでは4種類のメタデータ特徴量及び、3つの文書データである文書1~文書3を対象とした例を説明する。即ちP=4、Q=3の例を考える。
【0141】
図15Aに示すように、メタデータ特徴量1の値は、文書1~文書3においてそれぞれ100、300、500である。メタデータ特徴量2の値は、文書1~文書3においてそれぞれ3、2、1である。メタデータ特徴量3の値は、文書1~文書3においてそれぞれ5000、300、1である。メタデータ特徴量4の値は、文書1~文書3においてそれぞれ0、1、0である。この例では、メタデータ特徴量1及び3の影響が相対的に強くなってしまう。
図15Aにおける||L2||は、二乗和の平方根であるL2ノルムを表す。縦方向のL2ノルムは、第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められるノルムであるため、第1ノルムに対応する。
【0142】
図15Bは、P,Q及び第1ノルムを用いた補正処理を説明する図である。
図15Bは、
図15Aの各要素について、下式(3)によって表される補正処理を行った結果を表す図である。例えばメタデータ特徴量1については、(1/591)×√(3/4)を乗じた結果である。
図15Bに示す補正処理を行うことによって、縦方向のL2ノルムの二乗の値が全てのメタデータ特徴量について0.75で統一される。これにより、メタデータ特徴量ごとのスケールによる影響を抑制することが可能になる。
【数3】
【0143】
また
図15Bにおける横方向のL2ノルムは、第j(jは1以上Q以下の整数)文書に現れる第1~第P補正前特徴量によって求められるノルムであるため、第2ノルムに対応する。
図15Bから明らかな通り、文書1はメタデータ特徴量の値が全体的に大きく、文書3はメタデータ特徴量の値が全体的に小さいというばらつきがある。本実施形態では、第2ノルムを用いた補正処理を行うことによって、当該ばらつきが抑制されてもよい。
【0144】
図15Cは、第2ノルムを用いた補正処理を説明する図である。
図15Cは、
図15Bの各要素について、1/(第2ノルム)を乗算する補正処理を行った結果を表す図である。例えば文書1については、各要素に(1/√1.25)を乗じた結果である。
図15Cに示す補正処理を行うことによって、横方向のL2ノルムの二乗の値が全ての文書について1で統一される。これにより、特徴量の形式を言語情報のみを対象とした場合と同等にすることが可能になる。なお、メタデータ特徴量に対する補正処理をまとめると、下式(4)となる。
【数4】
【0145】
3.5 ブロック単位でのハイライト
本実施形態の推論処理部160は、推論対象データを、任意の長さの複数のブロックに分割し、当該複数のブロックのそれぞれについて、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行ってもよい。なおここでの確率データは、
図14を用いて上述した手法によって求められる。またスコアは、0以上1以下(0%以上100%以下)である確率データそのものであってもよいし、確率データに対して所与の定数を乗じた値であってもよい。例えばスコアは0点以上10000点以下の数値データであってもよい。
【0146】
本実施形態の手法によれば、文書データ全体としての確率データだけでなく、当該文書データの一部であるブロックを対象とした確率データを算出できる。そのため、文書データの中で特に重要と考えられる部分を適切に特定することが可能である。なおブロックは、例えば段落であってもよいがこれには限定されず、複数の段落を含むブロックが設定されてもよいし、1つの段落が複数のブロックに分割されてもよい。またブロックとブロックが重複することも妨げられない。換言すれば、文書データの所与の一部が、第1ブロックに含まれ、且つ、当該第1ブロックとは異なる第2ブロックに含まれてもよい。またブロックは自動で設定されてもよいし、ユーザ入力に基づいて設定されてもよい。
【0147】
例えば特徴量決定部130はブロック毎に当該ブロックを表す特徴量を求め、推論処理部160は、当該特徴量を学習済モデルに入力することによって確率データを求めてもよい。あるいは推論処理部160は、対象のブロックに含まれる形態素を特定し、当該形態素に対応する重み(w1~wnのいずれか)を用いて、ブロックのスコアを求めてもよい。
【0148】
決定木方式やランダムフォレストでは、各二分木での分岐先を決定する際にある特徴量を用いた判定が行われる。そのため、入力となる文書データが短く、当該文書データに含まれる形態素の種類数が所定以下となる場合、判定基準となる特徴量を取得できないことで分岐判定を適切に行えない二分木が多くなる。結果として決定木方式等では、短いブロックを対象とした場合に、処理精度が非常に低くなる可能性がある。その点、本実施形態の手法では線形モデルまたは一般化線形モデルが用いられるため、各形態素の重みが学習処理において算出される。そのため、分類処理の対象となる文書データが短かったとしても、当該重みを用いてスコアを求める処理を適切に実行できるため、ブロック単位でも精度の高い推定が可能になる。
【0149】
例えば推論処理部160は、複数のブロックのそれぞれについて、スコアと、推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、ブロックの表示態様を決定してもよい。上述したとおり、スコアを確率データに補正することによって、ジャンル(具体的には関連度合いの判定対象となる所与の事案の種類)の差異が吸収され、スコアの持つ意味を統一できる。従って、所与の事案が何であるかにかかわらず、判定基準を揃えることが可能である。例えば推論処理部160は、スコア範囲を0点以上10000点以下とした場合に、1000~2499点を第1色、2500~3999点を第2色、4000~10000点を第3色で表示すると判定してもよい。表示制御部170は、推論処理部160で決定された表示態様を用いて各ブロックを表示するための制御を実行する。例えば表示制御部170は、各ブロックの文字色または背景色が、スコアに応じて基本色(黒色文字、白色背景)または第1色~第3色のいずれかとなる表示制御を行ってもよい。なお第1色~第3色は、互いに識別が可能であればよく、具体的な色は問わない。
【0150】
図16Aは、表示制御部170による表示制御結果の例を示す図である。
図16Aの例では文書データが5つのブロックに分割され、そのうちの1,4,5番目のブロックのスコアが高かったため、背景色が変更される表示制御が実行される。ただし、表示制御の例はこれに限定されず、文字のサイズを変更する、注釈を追加する、ブロックを囲む枠線を追加する等、種々の変形実施が可能である。
【0151】
また
図16Bに示すように、表示制御部170は、文書データの各ブロックに関する判定結果を表示する際に、各形態素について求められた重み(w1~wn)を表示する制御を行ってもよい。
図16Bに示す例では、「弁護士」、「賠償」等の各形態素について、重みの値が表示されている。
図16Aの画面とともに
図16Bの画面を表示することによって、どの形態素が要因となって表示態様が決定されているかをユーザに分かりやすく知らせることが可能になる。なお、
図16Aの画面と
図16Bの画面は、1つのウィンドウの中で並べて表示されてもよいし、異なるウィンドウを用いて表示されてもよい。
【0152】
また推論処理部160は、推論対象の文書データとして複数の推論対象データが取得された場合に、複数の推論対象データのそれぞれについて、文書データ単位のスコアを算出し、複数の推論対象データのうち、相対的にスコアが高い一部を対象として、複数のブロックのそれぞれについてブロック単位のスコアを出力する処理を行ってもよい。
【0153】
上述したように、1つの文書データに対してブロックは複数設定されることが想定されるため、全文書データを対象として、ブロック単位のスコアを算出した場合、処理負荷が大きくなる。しかし、文書単位でのスコアを基準として、ブロック単位のスコア算出対象となる文書データを絞り込むことによって、処理負荷の軽減が可能である。例えば推論処理部160は、文書データ単位のスコアが所定閾値以上の文書データを対象としてブロック単位のスコアを求める処理を行ってもよい。あるいは推論処理部160は、文書データ単位のスコアが高い方から所定数の文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。あるいはユーザの知りたい文書と同程度のスコア帯や類似ワードを含む文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。
【0154】
3.6 交差検証と予測曲線
上述したように、表示制御部170は分類処理の対象となる複数の文書データについてそれぞれスコアを算出し、当該スコアに基づいた表示制御を行う。具体的には、表示制御部170は、スコアが高い順にソートされた文書データのリストを、端末装置20の表示部に表示させる制御を行ってもよい。端末装置20のユーザは、例えばリスト表示された文書データの何れかを選択することによって、当該文書データの内容を確認し、当該文書データが実際に所与の事案に関連しているかの判定等を行う。以下、文書データが所与の事案と関連するか否かの判定処理をレビューとも表記する。
【0155】
端末装置20のユーザがスコアの高い順に複数の文書データをレビューしていっても、所与の事案に関連する文書データが全く発見されないというケースが考えられる。この場合、当該ユーザは、当該複数の文書データに所与の事案に関連する文書データが本当に含まれていないと考えるか、あるいはシステムの精度に問題があることを疑うか、判断に迷う可能性も出てくる。
【0156】
そこで本実施形態の学習処理部140は、交差検証の結果に基づいて、予測曲線を求める処理を行ってもよい。ここでの予測曲線とは、レビューを進めた場合に、所与の事案に関連すると判定される文書データの発見数がどのように推移するかを表す情報である。予測曲線により、想定されるレビュー結果をユーザに提示できる。例えば、レビューにより所与の事案に関連する文書データが発見されないことが妥当であるか否かを、ユーザに判断させること等が可能になる。
【0157】
図17は、予測曲線の一例を示す図である。
図17の横軸はレビューの進捗率を表す。即ち、処理対象の文書データのうち、レビューが行われた文書データの割合を表す。縦軸は、再現率(予測再現率)を表す。即ち
図17の縦軸は、所与の事案に関連する文書データのうち、レビューによって発見された(発見すると予測される)文書データの割合を表す。
【0158】
例えば、学習用の文書データが1200件であり、そのうちの800件が機械学習に用いられる訓練データに設定され、残りの400件が学習済モデルの検証に用いられるテストデータに設定された場合を考える。さらに、ここでは400件のテストデータのうち、20件が所与の事案に関連し、残りの380件は所与の事案に関連しない例を考える。
【0159】
この場合、800件の訓練データに基づいて生成された学習済モデルに対して、400件のテストデータのそれぞれを入力することによって各テストデータのスコアが算出される。そして400件のテストデータのうち、スコアが高い順にレビューが行われる。ここでは各テストデータに正解データが付与されているため、レビューとは当該正解データに基づいて、各テストデータが所与の事案に関連するか否かを判定する処理となる。例えば1件のレビューを行うことによって横軸の値は1/400だけ増加する。そして当該1件の文書データが所与の事案に関連するのであれば縦軸の値が1/20だけ増加し、所与の事案に関連しないのであれば、縦軸の値は維持される。これを全400件のレビューが完了するまで繰り返すことによって、
図17の座標系において1つのグラフ(予測線)が描かれる。例えば
図17のA1が予測線に対応する。
【0160】
例えば予測線上に(0.2,0.9)という座標が存在したとする。横軸の値が0.2とは、400件のテストデータのうち、スコアの上位20%、即ち上位80件までの文書データのレビューが行われたことを表す。縦軸の値が約0.9とは、上位80件のレビューによって、所与の事案に関連する文書データが、20×0.9=18件だけ発見されたことを表す。
【0161】
ただし、
図17のA1に示したように、予測線はなめらかな曲線になるとは限らない。例えば、所与の事案に関連する文書数(例えば上記の例では400件中の20件)が少ない場合、予測線が階段状に変化してしまう。この階段状の変化は、対象の訓練データ、テストデータの組み合わせに起因して発生したと考えられるため、異なる文書データを対象とする分類処理の段階では発生しない可能性がある。従って、当該階段状の変化を含む予測線を、予測曲線としてユーザにて提示することは好ましくない。
【0162】
そこで本実施形態では、訓練データとテストデータの組み合わせを複数用意し、それらから求められる複数の予測線を平均することによって予測曲線を求めてもよい。なお、交差検証では学習用のデータをN分割し、そのうちのN-1個を訓練データ、残りの1個をテストデータとして用いる。そのため、通常のN分割交差検証でも、N通りの予測線を取得することが可能である。ただし、本実施形態では、さらにデータの組み合わせパターンを増やすことによって、より適切な予測曲線を求める処理が行われてもよい。
【0163】
例えば学習処理部140は、文書データとして、複数の学習用文書データが取得された場合に、複数の学習用文書データの並び順を変更することによって、互いに異なる第1~第M(Mは2以上の整数)学習用データを生成してもよい。そして学習処理部140は、第1~第M学習用データのそれぞれについて、N分割交差検証を行うことによって、M×N通りの評価データを取得する。
【0164】
図18は、本実施形態の処理におけるデータのパターン例を示す図である。ここで横方向に3つ並ぶブロックは、N分割交差検証における分割結果を表す。即ち
図18では、3分割交差検証を行う例を示している。
図18のうち、斜線が引かれたブロックがテストデータに設定され、それ以外の2つのブロックが訓練データに設定される。各ブロックには複数の文書データが含まれる。例えば上述したように学習用データが1200件の文書データを含む場合、各ブロックは400件の文書データから構成される。
【0165】
この場合、1200件の文書データがパターン1で定義される順序で並んでいる場合に、当該1200個の文書データを、1-400番目、401-800番目、801-1200番目の3つのブロックに分割することによって、3つの学習用データが取得される。これは例えば、
図18におけるパターン1の(1)~(3)に対応する。
【0166】
さらに、1200件の文書データをパターン1とは異なるパターン2で定義される順序に並び替えた上で、当該1200個の文書データを、1-400番目、401-800番目、801-1200番目の3つのブロックに分割することによって、3つの学習用データが取得される。これは例えば、
図18におけるパターン2の(4)~(6)に対応する。ここで、同じ1-400番目のブロックであっても、パターン1とパターン2では文書データの並び順が異なるため、(1)のテストデータに含まれる文書データと、(4)のテストデータに含まれる文書データは異なるものとなる。同様に、(1)の訓練データに含まれる文書データと、(4)の訓練データに含まれる文書データは異なる。即ち、元となる学習用データが同じであったとしても、複数の順序パターンで並べ替えを行い、それぞれについて交差検証を行うことによって、多様なデータを用いた機械学習が可能になる。
【0167】
上述したように、パターン1~パターンMのM通りの順序パターンで並び替えを行い、それぞれについてN分割交差検証を行うことによって、M×N通りの機械学習が可能になる。そのため、それぞれの機械学習の結果について、テストデータを用いた評価データをM×N通りだけ取得できる。ここでの評価データは、例えば、
図17に示した予測線であってもよい。ただし評価データはこれに限定されず、テストデータを用いて取得できる再現率、正解率、適合率、AUC等、他の情報を含んでもよい。
【0168】
例えば多数の予測線を取得することによって、これらに基づいた統計処理が可能になる。例えば学習処理部140は、学習段階において、上記M×N通りの評価データを標本とする統計量に基づく予測情報を生成してもよい。ここでの予測情報とは、学習済モデルが出力するスコアに基づいてユーザが文書データのレビューを行った際のレビュー結果を予測する情報である。予測情報は狭義には上述した予測曲線であるが、他の情報であってもよい。
【0169】
このようにすれば、学習処理部140は、例えばM×N本の予測線の平均値等に基づいて、なめらかであり、且つ、精度の高い予測曲線を求めることが可能になる。例えば
図17のA2が、複数の予測線の平均値から求められた予測曲線を表す。
【0170】
なお、通常のN分割交差検証でも、Nの値を増やすことによって予測線の数を増やすことが可能であるが、テストデータの数が減るため、テストデータを用いる処理の精度低下の可能性がある。予測線の本数はN本であり、テストデータの数は全体データ数の1/Nである。一方、Nの値を小さくした場合、予測線の本数が減ってしまうし、そもそも訓練データの数が少なくなることで学習済モデルの精度が低下する可能性がある。訓練データの数は、全体データ数の(N-1)/Nである。その点、本実施形態の手法によれば、文書データの順序パターンの数Mを増やすことによって評価データ数を増やせるため、Nの値を極端な値に設定する必要がない。例えばNとして、テストの精度、及び、学習済モデルの精度を考慮した中庸的な値(例えば3-5程度)を設定することが可能になる。例えばM=20とした場合、N=3であっても、評価データとして20×3=60通りのデータを取得できる。
【0171】
なお学習処理部140は、予測情報を求める際に、M×N通りの評価データの全てを用いる必要はない。例えば、
図18に示したようにN=3である場合、訓練データの数は全体の2/3となるため、学習済モデルの精度低下による影響を考慮した処理が実行されてもよい。例えば、学習処理部140は、M×N通りの評価データのうち、学習済モデルの精度が相対的に高いと評価された一部の評価データに基づいて予測情報を求めることによって、上記精度低下を補正してもよい。上記のように評価データが60通りである場合、学習処理部140は、精度がX位であるデータを中心に、±Y位までの評価データ(X-Y位からX+Y位までの2Y+1通り)に基づいて予測情報を求める。この際、Xは中央値(30または31)よりも小さい値であり、狭義には上記1/4以上(X≦15)であってもよい。またYの値は種々の変形実施が可能であるが、例えば処理に用いる最下位(X+Y位)が中央値以上となるようにYの値が設定されてもよい。
【0172】
また学習処理部140は、複数の予測線から分散や標準偏差を算出してもよい。例えば学習処理部140は、標準偏差をσとした場合、平均値として求められた予測曲線の±1.96σを、95%信頼区間として求めてもよい。
図17の例では、A3が+1.96σ、A4が-1.96σを表す曲線であり、A3とA4の間が95%信頼区間を表す。例えば学習処理部140は、
図17のA2~A4に示すグラフを表す情報を、記憶部200に記憶させる処理を行う。
【0173】
また学習処理部140は、±3σの範囲外のデータを外れ値として処理から除外してもよい。このように外れ値を除外することによって処理精度の向上が可能になる。
【0174】
推論処理部160は、推論処理の結果予測を表す情報として、予測情報を出力する処理を行ってもよい。例えば推論処理部160は、
図17に示すグラフを記憶部200から読み出し、表示制御部170に対して当該グラフを表示させる指示を行う。このようにすれば、端末装置20のユーザに対して、予測曲線及び信頼区間を提示できるため、例えば所与の事案に関連する文書データが発見されない場合に、それが妥当な結果であるか否かを判定させることが可能になる。
【0175】
また表示制御部170は、上位スコア帯を閲覧しても所与の事案に関連する文書データが1件も見つからない場合に、統計処理に基づく情報を提示する処理を行ってもよい。例えば、推論処理部160は、下式(5)に基づいてMoE(Margin of Error)を求める処理を行ってもよい。下式(5)において、pは想定濃度、即ち、対象となる文書データのうち、所与の事案に関連する文書データの予測比率を表す。pは、例えば学習処理部140が、学習処理の段階で推定してもよい。閲覧文書数は、ユーザによるレビューが行われた文書データの数を表し、例えば端末装置20におけるユーザのレビュー操作(例えばリストから文書データを選択する操作)の履歴から求められてもよい。
【数5】
【0176】
例えば表示制御部170は、検出限界以下であること(上位スコア帯を閲覧しても所与の事案に関連する文書データが1件も見つからないこと)の基準として、上式(5)に基づいて「信頼水準95%で誤差Z%の濃度で存在しない」との情報を提示する処理を行ってもよい。ここでのZは、上式(5)のMoEを表す。例えば想定濃度が0.01%であり、ユーザが1000件レビューを行ったときに1件も所与の事案に関連する文書データが発見されなかった場合、上式(5)によって求められるMoEは0.1となる。この場合、表示制御部170は、「検出限界以下=信頼度95%で誤差0.1%の濃度で存在しない」との表示を行う。このようにすれば、所与の事案に関連する文書データが発見されないことについて、統計学的な処理に基づいて客観的なデータをユーザに提示することが可能になる。
【0177】
なお本実施形態の手法は情報処理装置10に適用されるものに限定されず、以下の各ステップを実行する情報処理方法に適用されてもよい。情報処理方法は、情報処理装置10が、学習用の文書データである学習用データの形態素解析の結果から決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、重みが所与の閾値以下と判定された形態素に対応する特徴量をモデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得し、被監査者によって送受信された電子メールを含む文書データを取得し、当該文書データの形態素解析の結果に基づいて、学習済モデルに入力する特徴量を決定し、決定された特徴量を学習済モデルに入力することによって、文書データと所与の事案の関連度合いを表すスコアを算出し、文書データのスコアに基づく表示制御を行う、ステップを含む。
【0178】
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理装置、端末装置、メール監査システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
【符号の説明】
【0179】
1…メール監査システム、10…情報処理装置、20…端末装置、21…第2端末装置、40…監査用メールサーバ、50…SMTPサーバ、60…POPサーバ、100…スコア管理部、110…取得部、120…解析処理部、130…特徴量決定部、140…学習処理部、150…モデル取得部、160…推論処理部、170…表示制御部、200…記憶部、210…モデルデータベース、220…文書データベース、230…監査結果データベース、240…監査条件データベース、250…アカウントデータベース、300…処理部、310…システム制御部、320…監査データ管理部、330…アカウント管理部、400…通信部
【手続補正書】
【提出日】2023-07-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行う学習処理部と、
前記学習処理部によって作成された学習済モデルを取得するモデル取得部と、
被監査者によって送受信された電子メールを含む文書データを取得する取得部と、
前記取得部によって取得された前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定する特徴量決定部と、
前記特徴量決定部によって決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、
前記文書データの前記スコアに基づく表示制御を行う表示制御部と、
を含み、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第1~第P(Pは1以上の整数)補正前特徴量が取得され、前記文書データとして、第1~第Q(Qは1以上の整数)文書が取得された場合に、
前記補正前特徴量の個数P、前記文書データの数Q、前記第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる前記第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、前記第1~第P補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。
【請求項2】
請求項1において、
前記学習処理部は、
前記モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習のオン/オフを変更可能であり、
前記モデルの評価処理を行い、前記モデルの性能が所定以下であると判定された場合、前記アンサンブル学習をオフにした上で、前記機械学習を継続する情報処理装置。
【請求項3】
請求項1または2において、
前記推論処理部は、
前記文書データを、任意の長さの複数のブロックに分割し、前記複数のブロックのそれぞれについて、前記所与の事案と関連する確率を表す確率データを前記スコアとして出力する処理を行う情報処理装置。
【請求項4】
請求項3において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記文書データのジャンルによらない閾値とを比較し、
前記表示制御部は、
前記推論処理部における比較結果に基づいて、前記ブロックの表示態様を制御する情報処理装置。
【請求項5】
請求項1または2において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部のみを含むリストを表示する制御を行う情報処理装置。
【請求項6】
請求項5において、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い前記一部が、前記スコアの順にソートされた前記リストを表示する制御を行う情報処理装置。
【請求項7】
請求項5において、
前記表示制御部は、
前記リストのうちの何れかの前記文書データが選択された場合、選択された前記文書データの詳細を、前記リストを表示するウィンドウとは別ウィンドウにおいて表示する制御を行う情報処理装置。
【請求項8】
情報処理装置が、
学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行い、
前記機械学習によって作成された学習済モデルを取得し、
被監査者によって送受信された電子メールを含む文書データを取得し、
取得した前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定し、
決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出し、
前記文書データの前記スコアに基づく表示制御を行う、
処理を行い、
前記特徴量の決定において、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第1~第P(Pは1以上の整数)補正前特徴量が取得され、前記文書データとして、第1~第Q(Qは1以上の整数)文書が取得された場合に、
前記補正前特徴量の個数P、前記文書データの数Q、前記第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる前記第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、前記第1~第P補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記機械学習において、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理方法。