特開2024-130813 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＦＲＯＮＴＥＯの特許一覧

特開2024-130813情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11A
11B
11C
11D
11E
11F
11G
12A
12B
13
14
15A
15B
15C
16A
16B
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024130813

(43)【公開日】2024-09-30

(54)【発明の名称】情報処理装置及び情報処理方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240920BHJP

G06F 16/383 20190101ALI20240920BHJP

G06Q 10/10 20230101ALI20240920BHJP

【ＦＩ】

G06N20/00

G06F16/383

G06Q10/10

【審査請求】有

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023040722

(22)【出願日】2023-03-15

(11)【特許番号】

(45)【特許公報発行日】2023-12-05

(71)【出願人】

【識別番号】316014906

【氏名又は名称】株式会社ＦＲＯＮＴＥＯ

(74)【代理人】

【識別番号】110002848

【氏名又は名称】弁理士法人ＮＩＰ＆ＳＢＰＪ国際特許事務所

(72)【発明者】

【氏名】伊藤貴章

(72)【発明者】

【氏名】グエンヒューナム

(72)【発明者】

【氏名】富安啓輔

(72)【発明者】

【氏名】清政貴文

【テーマコード（参考）】

5B175

5L010

5L049

【Ｆターム（参考）】

5B175DA01

5B175FA01

5B175FB04

5B175GC03

5B175HA01

5L010AA20

5L049AA20

(57)【要約】

【課題】文書データの監査において、多様な形態素を対象とした処理を高速に実行する情報処理装置及び情報処理方法等の提供。
【解決手段】情報処理装置は、学習用の文書データの形態素解析の結果から決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、重みが所与の閾値以下と判定された形態素に対応する特徴量をモデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得するモデル取得部と、被監査者の電子メールを含む文書データを取得する取得部と、当該文書データの特徴量を決定する特徴量決定部と、決定された特徴量を学習済モデルに入力することによって、文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、スコアに基づく表示制御を行う表示制御部と、を含む。
【選択図】図３

【特許請求の範囲】

【請求項1】

学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得するモデル取得部と、
被監査者によって送受信された電子メールを含む文書データを取得する取得部と、
前記取得部によって取得された前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定する特徴量決定部と、
前記特徴量決定部によって決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、
前記文書データの前記スコアに基づく表示制御を行う表示制御部と、
を含む情報処理装置。

【請求項2】

請求項１において、
前記学習用データの前記形態素解析の結果に基づいて決定された前記特徴量に基づいて、前記線形モデルまたは前記一般化線形モデルにおける前記形態素の前記重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する前記機械学習を行う学習処理部をさらに含み、
前記モデル取得部は、
前記学習処理部によって作成された前記学習済モデルを取得する情報処理装置。

【請求項3】

請求項２において、
前記学習処理部は、
前記モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習のオン／オフを変更可能であり、
前記モデルの評価処理を行い、前記モデルの性能が所定以下であると判定された場合、前記アンサンブル学習をオフにした上で、前記機械学習を継続する情報処理装置。

【請求項4】

請求項２または３において、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。

【請求項5】

請求項１乃至３の何れか一項において、
前記推論処理部は、
前記文書データを、任意の長さの複数のブロックに分割し、前記複数のブロックのそれぞれについて、前記所与の事案と関連する確率を表す確率データを前記スコアとして出力する処理を行う情報処理装置。

【請求項6】

請求項５において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記文書データのジャンルによらない閾値とを比較し、
前記表示制御部は、
前記推論処理部における比較結果に基づいて、前記ブロックの表示態様を制御する情報処理装置。

【請求項7】

請求項１乃至３の何れか一項において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部のみを含むリストを表示する制御を行う情報処理装置。

【請求項8】

請求項７において、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い前記一部が、前記スコアの順にソートされた前記リストを表示する制御を行う情報処理装置。

【請求項9】

請求項７において、
前記表示制御部は、
前記リストのうちの何れかの前記文書データが選択された場合、選択された前記文書データの詳細を、前記リストを表示するウィンドウとは別ウィンドウにおいて表示する制御を行う情報処理装置。

【請求項10】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及び情報処理方法等に関する。

【背景技術】

【0002】

従来、機械学習を用いて文書データの処理を行う手法が知られている。例えば特許文献１には、モデルの特徴量を決定する際に、評価対象特徴量の作用種別または重みに基づいてパラメータを更新する文書情報抽出システムが開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－１４８４３０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１の手法は、類似辞書等に基づく類似関係等を考慮して特徴量を評価するものであって、メール監査において処理の高速化や入力となる形態素の多様性を考慮するものではない。

【0005】

本開示のいくつかの態様によれば、文書データの監査において、多様な形態素を対象とした処理を高速に実行する情報処理装置及び情報処理方法等を提供できる。

【課題を解決するための手段】

【0006】

本開示の一態様は、学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得するモデル取得部と、被監査者によって送受信された電子メールを含む文書データを取得する取得部と、前記取得部によって取得された前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定する特徴量決定部と、前記特徴量決定部によって決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、前記文書データの前記スコアに基づく表示制御を行う表示制御部と、を含む情報処理装置に関係する。

【0007】

本開示の他の態様は、情報処理装置が、学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得し、被監査者によって送受信された電子メールを含む文書データを取得し、前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定し、決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出し、前記文書データの前記スコアに基づく表示制御を行う、処理を行う情報処理方法に関係する。

【図面の簡単な説明】

【0008】

【図1】情報処理装置を含むメール監査システムの構成例である。

【図2】情報処理装置の構成例である。

【図3】情報処理装置（スコア管理部）の構成例である。

【図4】情報処理装置（スコア管理部）の他の構成例である。

【図5】メール受信処理を説明するフローチャートである。

【図6】メールの受信設定を行う画面例である。

【図7】学習済モデル（教師モデル）の作成処理を説明するフローチャートである。

【図8】学習済モデルの作成設定を行う画面例である。

【図9】学習済モデルを用いたスコアリング処理を説明するフローチャートである。

【図10】スコアリング処理の実行設定を行う画面例である。

【図11A】フィルタリング設定を行う画面例である。

【図11B】フィルタリング設定を行う画面例である。

【図11C】フィルタリング設定を行う画面例である。

【図11D】フィルタリング設定を行う画面例である。

【図11E】フィルタリング設定を行う画面例である。

【図11F】フィルタリング設定を行う画面例である。

【図11G】フィルタリング設定を行う画面例である。

【図12A】スコアリング処理の結果を表示するレビュー画面例である。

【図12B】スコアリング処理の結果を表示するレビュー画面例である。

【図13】学習処理を説明するフローチャートである。

【図14】スコアを確率データに補正する処理の説明図である。

【図15A】メタデータ特徴量の例である。

【図15B】第１ノルムに基づくメタデータ特徴量の補正処理の説明図である。

【図15C】第２ノルムに基づくメタデータ特徴量の補正処理の説明図である。

【図16A】ブロック毎のスコアに基づくハイライト処理の説明図である。

【図16B】各形態素の重みを表す情報の例である。

【図17】予測線、予測曲線、信頼区間の説明図である。

【図18】複数の評価データを取得する処理の説明図である。

【発明を実施するための形態】

【0009】

以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

【0010】

１．システム構成例
図１は、本実施形態に係る情報処理装置１０を含むメール監査システム１の構成例を示す図である。メール監査システム１は、情報処理装置１０、端末装置２０、第２端末装置２１、監査用メールサーバ４０、ＳＭＴＰ（Simple Mail Transfer Protocol）サーバ５０、ＰＯＰ（Post Office Protocol）サーバ６０を含む。ただし、メール監査システム１の構成は図１に限定されず、一部の構成を省略する、あるいは他の構成を追加する等、種々の変形実施が可能である。

【0011】

本実施形態に係るメール監査システム１は、被監査人によって送受信された電子メールが、所定の事案に関連するか否かに関する監査を行うシステムである。以下、本明細書では電子メールを単にメールとも表記する。ここでの事案には、カルテルの形成、情報漏洩、パワーハラスメント、セクシャルハラスメント等、種々の事案が含まれる。

【0012】

図１において、端末装置２０は、監査を行う監査人によって使用される装置である。第２端末装置２１は、監査の対象となる被監査人によって使用される装置である。端末装置２０及び第２端末装置２１は、例えばＰＣ（Personal Computer）である。ただし端末装置２０及び第２端末装置２１は、スマートフォン、タブレット端末等であってもよく、具体的な態様は種々の変形実施が可能である。

【0013】

ＳＭＴＰサーバ５０は、ＳＭＴＰと呼ばれるプロトコルまたはその派生プロトコルに従ってメールを送信するサーバである。ＰＯＰサーバ６０は、ＰＯＰと呼ばれるプロトコルまたはその派生プロトコルに従ってメールを受信するサーバである。ＳＭＴＰサーバ５０及びＰＯＰサーバ６０は、例えば被監査人が所属する組織に設けられるサーバであってもよいし、メールサービスを提供するサービス業者（例えばＩＳＰ：Internet Service Provider）のサーバであってもよい。被監査人は、ＳＭＴＰサーバ５０及びＰＯＰサーバ６０を介して、第２端末装置２１からメールの送受信を行う。

【0014】

監査用メールサーバ４０は、被監査人によって送受信されたメールを定期的に取得する。例えば、ＳＭＴＰサーバ５０及びＰＯＰサーバ６０では、監査用メールサーバ４０を宛先として、定期的にメールを転送するジャーナル転送機能が設定される。これにより、ＳＭＴＰサーバ５０は、被監査人が送信したメールを定期的に監査用メールサーバ４０に送信する。ＰＯＰサーバ６０は、被監査人が受信したメールを定期的に監査用メールサーバ４０に送信する。監査用メールサーバ４０は、ＳＭＴＰサーバ５０及びＰＯＰサーバ６０から転送されたメールを蓄積する。

【0015】

情報処理装置１０は、具体的なメール監査に係る処理を実行する装置である。情報処理装置１０は、例えばサーバシステムによって実現されてもよい。ここでのサーバシステムは、１つのサーバであってもよいし、複数のサーバを含んで構成されていてもよい。例えば、サーバシステムは、データベースサーバとアプリケーションサーバとを含んで構成されていてもよい。データベースサーバは、後述する学習済モデル等を含む種々のデータを記憶する。アプリケーションサーバは、図５、図７、図９等を用いて後述する処理を実行する。なお、ここでの複数のサーバは、物理サーバであってもよいし、仮想サーバであってもよい。また、仮想サーバが用いられる場合、当該仮想サーバは、１つの物理サーバに設けられてもよいし、複数の物理サーバに分散して配置されてもよい。このように、本実施形態におけるサーバシステムの具体的な構成は、種々の変形実施が可能である。換言すれば、本実施形態に係る情報処理装置１０は、単一の装置によって実現されてもよいし、複数の装置の分散処理によって実現されてもよい。

【0016】

情報処理装置１０は、監査用メールサーバ４０から、定期的に監査対象となるメールを受信する。例えば情報処理装置１０は、ＰＯＰプロトコルまたはその派生プロトコルに従った通信を行うことによって、監査用メールサーバ４０からメールを受信してもよい。

【0017】

情報処理装置１０は、機械学習によって生成された学習済モデル（教師モデル）を取得し、当該学習済モデルに基づいて被監査人が送受信したメールに対する分類処理（監査処理）を実行する。具体的には情報処理装置１０は、被監査人によって送受信されたメールが、情報漏洩等の事案に関連するか否かを判定する処理を行う。処理の詳細については後述する。

【0018】

ここでの学習済モデルは、例えば情報処理装置１０において生成されてもよい。例えば図４を用いて後述するように、情報処理装置１０は学習処理部１４０を含み、当該学習処理部１４０が機械学習を行うことによって学習済モデルを生成する。ただし本実施形態の手法はこれに限定されず、情報処理装置１０は、外部の学習装置によって生成された学習済モデルを取得してもよい。

【0019】

端末装置２０は、上述したとおり監査人によって使用される装置である。ここでの監査人は、例えば被監査人と同じ組織に属する人物であってもよいし、当該組織外の人物であってもよい。端末装置２０は、インターネットブラウザ等を用いてＷｅｂアプリケーションを実行してもよい。例えば、情報処理装置１０はＷｅｂアプリケーションサーバを含み、端末装置２０のブラウザは当該Ｗｅｂアプリケーションサーバにアクセスする。

【0020】

例えば監査人は、端末装置２０の操作インターフェイスを用いて、学習済モデルの選択、監査対象となる人物の選択等の操作を行う。操作に用いられる具体的な表示画面例については、図８、図１０、図１１Ａ～図１１Ｇ等を用いて後述する。監査人による操作結果は、ブラウザを介して情報処理装置１０に送信される。情報処理装置１０は、監査人の操作に従って、監査対象となるメールを特定し、当該メールが所与の事案に関連するか否かを学習済モデルを用いて判定する。監査人は、ブラウザの画面に表示される判定結果に基づいて、実際に所与の事案に関連するメールが存在するか否かの判断を行う。監査人の判断（レビュー）に用いられる表示画面例等については、図１２Ａ、図１２Ｂ等を用いて後述する。

【0021】

図２は、情報処理装置１０の構成例を示す図である。図２に示すように、情報処理装置１０は、処理部３００、記憶部２００、通信部４００を含んでもよい。ただし、情報処理装置１０の構成は図２に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。

【0022】

通信部４００は、監査用メールサーバ４０との通信を行う通信インターフェイスを含む。ここでの通信インターフェイスは、ＩＥＥＥ８０２．１１に準拠した通信を行うインターフェイスであってもよいし、他の方式の通信を行うインターフェイスであってもよい。通信インターフェイスは、例えばアンテナ、ＲＦ（Radio Frequency）回路、ベースバンド回路等を含んでもよい。通信部４００は、例えば上述したようにＰＯＰプロトコルまたはその派生プロトコルに従った通信を行うことによって、監査用メールサーバ４０からメールを受信する。

【0023】

受信されたメールは、記憶部２００の文書データベース２２０に記憶される。なお、本実施形態における監査対象は電子メールに限定されず、チャットアプリケーションで投稿された文書や、ＳＮＳ（Social networking service）に投稿された文書等を含んでもよい。従って、以下では電子メール及びこれらの文書を文書データと表記する。つまり図２に示した文書データベース２２０は、電子メール、及び電子メール以外の文書データを含んでもよい。

【0024】

処理部３００は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子によって構成できる。１又は複数の回路装置は例えばＩＣ（Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）等である。１又は複数の回路素子は例えば抵抗、キャパシタ等である。

【0025】

また処理部３００は、下記のプロセッサによって実現されてもよい。本実施形態の情報処理装置１０は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プログラムは、情報処理装置１０に、本明細書で説明する処理を実行させるものを含んでよい。プロセッサは、ハードウェアを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。メモリは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置（ＨＤＤ：Hard Disk Drive）等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサが実行することによって、処理部３００の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。

【0026】

処理部３００は、システム制御部３１０、スコア管理部１００、監査データ管理部３２０、アカウント管理部３３０、表示制御部１７０を含む。システム制御部３１０は、処理部３００の各部と接続され、各部の動作を制御する。

【0027】

スコア管理部１００は、監査対象である文書データに対して、学習済モデルに基づく処理を行うことによって、当該文書データが所与の事案に関連する度合いを表すスコアを出力する。例えば、スコア管理部１００は、記憶部２００のモデルデータベース２１０から学習済モデルを読み出し、文書データベース２２０から監査対象の文書データを読み出す。そしてスコア管理部１００は、学習済モデルと文書データに基づいて、当該文書データと所与の事案の関連度合いを表すスコアを算出する。

【0028】

監査データ管理部３２０は、スコア管理部１００による処理結果を、監査条件に従って割り振ったＩＤ、及び、元の文書データ等と対応付けて記憶部２００の監査結果データベース２３０に記憶する。監査条件は、文書データの監査処理を行う条件であり、記憶部２００に記憶される監査条件データベース２４０により決定される。

【0029】

アカウント管理部３３０は、監査者のログインアカウント情報の管理、及び、当該監査者が監査可能な被監査者の管理等を行う。ログイン情報や監査可能な被監査者の情報は、アカウントデータベース２５０に記憶される。アカウント管理部３３０は、アカウントデータベースの読み込みや更新を行うことによってアカウント管理を実行する。

【0030】

表示制御部１７０は、スコア管理部１００での処理結果を表示する制御を行う。例えば表示制御部１７０は、処理結果を、端末装置２０の表示部に表示させる表示制御を行う。ここでの表示制御とは、スコア管理部１００での処理結果を含む画面を端末装置２０の表示部に表示させるためのマークアップ言語の送信処理であってもよい。ただし、表示制御部１７０は、処理結果をユーザが閲覧可能な態様で提示できればよく、具体的な表示制御はこれに限定されない。

【0031】

図３は、スコア管理部１００の構成例を示す図である。スコア管理部１００は、取得部１１０、解析処理部１２０、特徴量決定部１３０、モデル取得部１５０、推論処理部１６０を含む。ただしスコア管理部１００の構成は図３に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。

【0032】

取得部１１０は、文書データを取得する。例えば取得部１１０は、記憶部２００に記憶された文書データベース２２０から、監査条件に合致する文書データを監査対象のデータとして取得する。取得部１１０は、例えば監査データ管理部３２０を介して、文書データベース２２０から文書データを取得してもよい。

【0033】

解析処理部１２０は、取得部１１０から文書データを取得し、当該文書データの形態素解析を行う。形態素解析については自然言語処理の分野において広く用いられる手法であるため詳細な説明は省略する。形態素解析によって、１つの文書データから、当該文書データに含まれる複数の形態素が抽出される。

【0034】

特徴量決定部１３０は、形態素解析の結果に基づいて、文書データを表す特徴量を決定する。特徴量の詳細については後述する。

【0035】

モデル取得部１５０は、学習済モデルを取得する。ここでの学習済モデルは、学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、重みが所与の閾値以下と判定された形態素に対応する特徴量をモデルの入力データから削除する機械学習を行うことによって作成された学習済モデルであってもよい。このようにすれば、モデルを用いて自動的に形態素の取捨選択が可能になる。そのため、前処理において形態素を制限する必要性が低く、多様な形態素を対象としたメール監査処理を高速で実行することが可能になる。本実施形態における学習済モデルの詳細については、図１３～図１８を用いて後述する。

【0036】

例えばモデル取得部１５０は、記憶部２００のモデルデータベース２１０から所望の学習済モデルを読み出す処理を行う。例えばモデルデータベース２１０は複数の学習済モデルの集合であってもよい。例えばモデルデータベース２１０は、監査すべき所与の事案が互いに異なる複数の学習済モデルを含む。具体的にはモデルデータベース２１０は、所与の事案がカルテルである場合の学習済モデルと、情報漏洩である場合の学習済モデルとを含んでもよい。このような場合に、モデル取得部１５０は、監査条件にあわせた学習済モデルを選択する処理を行ってもよい。

【0037】

推論処理部１６０は、モデル取得部１５０が取得した学習済モデルを用いた推論処理（分類処理）を行う。具体的には、推論処理部１６０は、分類処理の対象となる文書データの特徴量を学習済モデルに入力することによって、当該文書データのスコアを取得してもよい。上述したように、当該スコアは、文書データと所与の事案の関連度合いを表す。

【0038】

表示制御部１７０は、推論処理部１６０での処理結果を含む画面を、端末装置２０の表示部に表示させる制御を行う。

【0039】

また情報処理装置１０は学習済モデルを用いた推論処理に加えて、当該学習済モデルを生成する学習処理を実行してもよい。図４は、スコア管理部１００の他の構成例を示す図である。スコア管理部１００は、取得部１１０、解析処理部１２０、特徴量決定部１３０、モデル取得部１５０、推論処理部１６０に加えて、学習処理部１４０を含んでもよい。

【0040】

取得部１１０は、学習用の文書データを取得する。例えば取得部１１０は、文書データに対して分類結果が正解データとして付与されている学習用データを取得してもよい。正解データを付与する処理（アノテーション）は、例えば後述するように、学習済モデルを用いたスコアリング結果をユーザがレビューした際のフィードバックとして実行されてもよい。正解データは、具体的には図８を用いて後述するように、事案を表す「タグ名」と、関連性のあり／なしを表す「タグ要素」から構成されるデータであってもよい。ただし、アノテーションが行われる装置や、アノテーションの実行タイミングはこれに限定されず、種々の変形実施が可能である。

【0041】

解析処理部１２０は、取得部１１０から文書データを取得し、当該文書データの形態素解析を行う。特徴量決定部１３０は、形態素解析の結果に基づいて、文書データを表す特徴量を決定する。形態素解析及び特徴量の決定については、推論処理を行う場合と同様である。

【0042】

学習処理部１４０は、特徴量に基づいて、形態素解析によって取得された複数の形態素のそれぞれについて、モデルにおける重みを決定する機械学習を行う。本実施形態におけるモデルは、線形モデルまたは一般化線形モデルである。線形モデルとは、例えば下式（１）で表されるモデルであってもよい。

【数1】

【0043】

例えば、本実施形態における文書データの特徴量は、複数の形態素の各形態素の特徴量の集合であってもよい。上式（１）において、ｘ１～ｘｎは、形態素のそれぞれに対応する特徴量を表す。ｗ１～ｗｎは、各形態素の重みである。上式（１）では、モデルの目的変数は文書のスコアであり、例えば対象の文書データが所与の事案と関連する度合いを表すスコアである。以下では、スコアが大きいほど、文書データと所与の事案の関連度合いが高いことを表す例について説明する。

【0044】

また一般化線形モデルとは、線形モデルを一般化したモデルであり、例えば下式（２）で表されるモデルであってもよい。なお一般化線形モデルは下式（２）に限定されず、線形モデルｆ（ｘ）に基づいて表現される他のモデルであってもよい。

【数2】

【0045】

本実施形態の手法では、線形モデルまたは一般化線形モデルが用いられるため、学習の処理負荷を抑制することや、学習用の文書データに過剰に適応してしまう過学習を抑制することが可能である。学習処理部１４０における処理の詳細については、図１３以降を用いて後述する。

【0046】

学習処理部１４０は、学習処理によって重みが決定された線形モデルまたは一般化線形モデルを学習済モデルとして出力する。例えば学習処理部１４０は、生成した学習済モデルを記憶部２００のモデルデータベース２１０に追加する処理を行う。

【0047】

モデル取得部１５０は、学習処理部１４０によって作成された学習済モデルをモデルデータベース２１０から取得する。推論処理部１６０は、モデル取得部１５０が取得した学習済モデルに基づいて、監査対象となる文書データの監査を行う。

【0048】

なお取得部１１０、解析処理部１２０及び特徴量決定部１３０は、学習処理と推論処理で共通であってもよい。即ち、取得部１１０は、学習用の文書データの取得と、監査対象の文書データの取得の両方を行う。解析処理部１２０は、学習用文書データの形態素解析と、監査対象の文書データの形態素解析の両方を行う。特徴量決定部１３０は、学習用文書データの特徴量を求める処理と、監査対象の文書データの特徴量を求める処理の両方を行う。このようにすれば、情報処理装置１０（スコア管理部１００）の構成をシンプルにすることが可能になる。ただし、学習処理と推論処理でそれぞれ異なる取得部、解析処理部、特徴量決定部が設けられてもよい。

【0049】

２．処理の詳細
次に情報処理装置１０の処理について、端末装置２０の表示部に表示される画面例と合わせて説明する。

【0050】

２．１メール受信
図５は、取得部１１０が文書データを取得する処理を説明するフローチャートである。以下では、文書データが電子メールである例について説明するが、文書データが他のデータを含んでもよい点は上述したとおりである。

【0051】

ステップＳ１１において、情報処理装置１０（取得部１１０）は、前回のメール受信成功から所定時間が経過しているかを判定する。ここでのメール受信とは、例えば上述したように、ＰＯＰプロトコルまたはその派生プロトコルを用いて監査用メールサーバ４０からメールを受信する処理を表す。ここで、所定時間等のパラメータは、メール受信に関する設定（以下、メール設定と表記）を行うメール設定画面を用いて入力されてもよい。

【0052】

図６は、メール設定画面の例である。メール設定画面は、監査者が用いる端末装置２０の表示部に表示されてもよい。例えば監査者は、端末装置２０のブラウザを用いて情報処理装置１０のアプリケーションサーバにアクセスすることによって、メール監査サービスの利用画面を閲覧する。監査者は、ホーム画面（不図示）において、アカウントＩＤとパスワードを入力することによって、メール監査サービスにログインする。アカウントＩＤは、例えば監査者のメールアドレス等である。図６に示すメール設定画面は、例えば監査者によるログイン操作後、ログイン済みユーザの設定を変更するユーザ設定画面の１つとして表示されてもよい。ただし、複数の監査者を管理するシステム管理者が、各監査者のユーザ設定を行ってもよく、その場合には図６の画面はシステム管理者が使用する端末の表示部に表示されてもよい。

【0053】

図６に示すように、メール設定画面は、受信メールフォルダ、受信済みメール削除設定、受信間隔、アカウント設定等の項目を含んでもよい。

【0054】

受信メールフォルダは、監査用メールサーバ４０から受信したメールを、記憶部２００のどの記憶領域（フォルダ）に保存するかを設定する項目である。受信済みメール削除設定は、取得部１１０が受信したメールを監査用メールサーバ４０から削除するか否かを決定する項目である。受信間隔は、ステップＳ１１における「所定時間」を決定する項目である。

【0055】

アカウント設定は、メール受信に使用するアカウントを選択する項目である。例えばアカウント設定として、予めメール受信に用いるメールアドレス、接続先、ポート番号、受信プロトコル等が設定済みであるとする。接続先は、監査用メールサーバ４０を特定する情報であり、例えば図６に示すようにＩＰアドレスを指定しているが、ＰＯＰサーバ名等の他の情報が用いられてもよい。ポートは、通信に用いられるポート番号を表す。プロトコルは、メール受信に用いられるプロトコルを表す。図６では、アカウント設定の項目において１つアカウントのみが表示される例を示しているが、登録済みの全アカウントが表示されてもよい。アカウント設定では、いずれか１つのアカウントを選択するためのラジオボタン等が表示される。

【0056】

図６に示す例では、受信メールフォルダ、受信済みメール削除設定、受信間隔、アカウント設定の各項目値を入力あるいは選択した上で、追加ボタンを選択する操作を行うことによって、当該項目値の集合であるメール設定情報が記憶部２００に記憶される。メール設定情報は、例えば監査条件データベース２４０に記憶されてもよいし、アカウントデータベース２５０に記憶されてもよい。

【0057】

図５に戻って説明を続ける。前回のメール受信成功から所定時間が経過していない場合（ステップＳ１１：Ｎｏ）、再度、ステップＳ１１に戻って処理が継続される。即ち、取得部１１０は、所定時間が経過するまで、メール受信を待機する。

【0058】

前回のメール受信成功から所定時間が経過している場合（ステップＳ１１：Ｙｅｓ）、ステップＳ１２において、取得部１１０は監査用メールサーバ４０へログインする。具体的には、取得部１１０は、図６のメール設定画面で入力されたメール設定情報に従って接続先である監査用メールサーバ４０にアクセスすることによって、メールを受信する。

【0059】

ステップＳ１３において、取得部１１０は、取得したメールを、文書データベース２２０に記憶する。文書データベース２２０は複数のフォルダを含んでもよく、取得部１１０は、当該複数のフォルダのうち、メール設定情報で指定されたフォルダに受信したメールを記憶させる。

【0060】

ステップＳ１４において、取得部１１０は監査用メールサーバ４０からログアウトし、ステップＳ１１に戻る。取得部１１０は、図５に示す処理を繰り返し実行することによって、監査用メールサーバ４０から定期的にメールを受信し、受信したメールを文書データベース２２０に追加する処理を行う。

【0061】

２．２学習済モデルの作成処理
図７は、情報処理装置１０が学習処理部１４０を含む場合において、学習処理部１４０での学習済モデルの作成処理、及びそれに付随する処理を説明するフローチャートである。まずステップＳ２１において、処理部３００（例えば取得部１１０）は、学習用データとなるメールを読み出す。例えば処理部３００は、文書データベース２２０から１または複数のメールを読み出す処理を行う。ここでのメールは、正解データが付与されていないデータであってもよい。

【0062】

ステップＳ２２において、処理部３００は、タグの入力設定を受け付ける処理を行う。ここでのタグは正解データに対応し、１つのタグは、所与の事案を表す「タグ名」と、当該所与の事案との関連性のあり／なしを表す「タグ要素」から構成されてもよい。例えばカルテルを監査するための学習済モデルを作成したい場合、監査者は、カルテルに関連するタグである（タグ名，タグ要素）＝（カルテル，関連性あり）または（カルテル、関連性なし）を選択することによって、ステップＳ２１で読み出した電子メールに付与するタグを決定する。

【0063】

なおユーザによるタグ設定は、監査結果の表示に対するフィードバックとして実行されてもよい。例えば、推論処理部１６０は、監査対象の文書データに対して、既存の学習済モデルを用いてスコアを求めることによって、当該文書データとカルテルに関連性があると判定したとする。これに対して、監査者は、例えば図１２Ａや図１２Ｂを用いて後述する画面において実際に文書データの内容を確認（レビュー）する。レビューの結果、監査者は、推論処理部１６０の提示通り、当該文書データとカルテルに関係性があると判定する場合もあれば、推論処理部１６０の提示は誤っており、当該文書データとカルテルに関係性がないと判定する場合もある。

【0064】

本実施形態におけるタグとは、当該監査者の判断結果を表してもよい。上記の例であれば、監査者が推論処理部１６０の提示通り、文書データとカルテルに関係性があると判定した場合、（カルテル，関連性あり）を肯定しているため、（カルテル，関連性あり）というRelevantタグが付与される。一方、推論処理部１６０の提示は誤っており、当該文書データとカルテルに関係性がないと監査者が判定した場合、（カルテル，関連性あり）を否定しているため、（カルテル，関連性なし）というNot Relevantタグが付与される。従って本実施形態のタグは、タグ名、タグ要素に加えて、Relevant/Not Relevantという属性を有してもよい。

【0065】

ステップＳ２３において、処理部３００は、ステップ２１で読み出した電子メールに、ステップＳ２２で入力されたタグを正解データとして対応付ける処理を行う。これにより、文書データに正解データが付与されるため、教師あり学習を行うことが可能になる。なお、ステップＳ２３の処理は、例えば監査データ管理部３２０によって実行されるが、スコア管理部１００等が実行することも妨げられない。

【0066】

ステップＳ２４において、学習処理部１４０は、正解データが付与された文書データを用いた機械学習を行う。ステップＳ２４の処理の詳細については、図１３を用いて後述する。

【0067】

なお端末装置２０を使用する監査者は、学習設定画面を用いて機械学習に関する設定（以下、学習設定）を行ってもよい。例えば表示制御部１７０は、学習設定画面を端末装置２０の表示部に表示させる制御を行う。

【0068】

図８は、学習設定画面の例である。学習設定画面は、教師モデル名、教師モデルのターゲット、タグ指定の各項目を含んでもよい。教師モデルとは学習済モデルを表す。教師モデル名は、作成する学習済モデルの名称を入力する項目である。

【0069】

教師モデルのターゲットとは、学習に用いる文書データの集合を表す。ターゲットは、ターゲット名、作成種別、ファイル種別、作成ユーザ、作成日時等の項目を含む。ターゲット名は、対象のターゲットを表す名称である。作成ユーザは、対象のターゲットを作成したユーザを特定する情報である。作成日時は、対象のターゲットが作成された日時を特定する情報である。

【0070】

作成種別は、ターゲットのデータ種別を表し、例えば監査データ、フォルダ、教師データを含んでもよい。監査データとは、監査対象となったデータであり、例えば特定の期間（２月分、３月分）で監査されたデータを表す。監査データは文書データの集合であるため、例えば上記のフィードバックによってタグが付与されれば、学習済モデルの作成に利用が可能である。またフォルダは、特定のフォルダに保存されたメールをターゲットとすることを表す種別である。教師データとは、特定の学習済モデルの作成を意図してまとめられた文書データの集合であり、例えばタグが付与済みである文書データの集合であってもよい。

【0071】

ファイル種別は、文書データの種別を表す。文書データは、メールファイル（例えば拡張子がｍｓｇ）であってもよいし、テキストファイル（例えば拡張子がｔｘｔ）であってもよい。また文書データは、ドキュメントファイル（拡張子がｄｏｃｘ）等の他の種別のデータを含んでもよい。

【0072】

タグ指定は、機械学習に用いられるタグを指定する項目である。例えば監査者がカルテルに関する監査を行う場合、当該監査者は学習設定画面において、（タグ名，タグ要素）＝（カルテル，関連性あり）及び（カルテル、関連性なし）を選択し、これ以外を非選択としてもよい。またカルテルとパワーハラスメントの両方をまとめて監査したい場合、監査者は学習設定画面において、上記２つのタグに加えて（パワハラ，関連性あり）及び（パワハラ、関連性なし）を選択してもよい。即ち、タグ指定においてタグの選択／非選択を適切に決定することによって、所望の監査を行うための学習済モデルを生成することが可能になる。なお、上述したように、本実施形態におけるタグは、監査結果に対する監査者のフィードバックを表してもよい。従って、タグにはRelevantタグとNot Relevantタグがあり、それぞれについて選択／非選択が決定可能であってもよい。

【0073】

２．３スコアリング処理
図９は、スコア管理部１００における処理であって、学習済モデルを用いたスコアリング処理（推論処理、分類処理）を説明するフローチャートである。図１０は、図９に示すスコアリング処理の実行タイミング等を設定する実行設定画面の例である。実行設定画面は、例えば端末装置２０の表示部に表示され、監査者による選択操作を受け付ける。

【0074】

図１０に示すように、実行設定画面は、スコアリング処理の実行間隔及び開始時刻の項目を含む。図１０の例では、１日間隔で４：００に開始する設定が行われているため、毎日ＡＭ４：００にスコアリング処理が開始される。例えば、企業の従業員のメール監査を行う場合、監査対象となる文書データの数が非常に多くなるため、学習済モデルを用いたスコアリング処理に数時間を要する場合も考えられる。その点、スコアリング処理の開始タイミングをスケジューリングすることによって、例えば監査者の業務効率化が可能になる。具体的には、監査者の業務開始時に前日分のメールに対するスコアリングを完了させておくこと等が可能になる。

【0075】

スコア管理部１００は、実行設定画面で設定されたタイミングにおいて図９の処理を開始する。まずステップＳ３１において、取得部１１０は、文書データベース２２０から監査対象となる文書データの集合を取得する。

【0076】

ステップＳ３２において、解析処理部１２０は監査対象の文書データの形態素解析を行う。特徴量決定部１３０は、形態素解析の結果に基づいて特徴量を決定する。

【0077】

ステップＳ３３において、スコア管理部１００は、学習済モデルに基づくスコアリングを行う。具体的には、モデル取得部１５０は、モデルデータベース２１０から学習済モデルを読み出す。推論処理部１６０は、特徴量決定部１３０によって決定された特徴量を学習済モデルに入力することによってスコアを求める。

【0078】

ステップＳ３４において、推論処理部１６０は、監査条件に基づいて監査結果のフィルタリングを行う。例えば推論処理部１６０は、監査条件データベース２４０から監査条件を読み出し、当該監査条件に従って監査結果の一部を抽出するフィルタリング処理を実行する。ステップＳ３５において、推論処理部１６０は、フィルタリング処理の結果を、監査結果として記憶部２００の監査結果データベース２３０に追加する。

【0079】

図１１Ａ－図１１Ｇは、監査条件を設定する監査設定画面の例である。監査設定画面は、例えば端末装置２０の表示部に表示され、監査者による選択操作を受け付ける。監査者は、図９に示す処理の前に監査設定画面を用いて監査設定を行い、その結果が監査条件データベース２４０に記憶される。監査条件とは、監査対象となる文書データや被監査者を絞り込むフィルタを特定する条件であってもよい。従って、図１１Ａ－図１１Ｇに示す監査設定画面は、フィルタ設定画面と言い換えてもよい。

【0080】

図１１Ａは、フィルタを設定する基本設定画面の例である。基本設定画面では、フィルタ名（監査条件名）、フィルタグループ、タグセット等を設定できる。フィルタグループは、既存のフィルタ（監査条件）をグルーピングする機能であり、例えば監査対象となる事案毎、あるいは、被監査者の属性毎等、種々のグループを設定することによってフィルタの管理が容易になる。タグセットとは、例えば図８を用いて上述したタグが、１または複数組み合わされたセットを表す。例えば、タグの組み合わせが予めタグセットとして設定されており、タグセットを選択することによって、当該タグセットに含まれるタグをフィルタリングの条件として用いることが可能になる。振り分け対象は、文書データの種類をフィルタリングする項目であり、メールは電子メールを表し、コミュニケーションツールはチャットツールやＳＮＳ等のデータを表す。

【0081】

図１１Ｂは、アカウントグループによるフィルタを設定する画面例である。アカウントグループは、複数のアカウントの集合であり、図１１Ｂに示すように、営業部、総務部、開発部等、企業の部署を単位とするアカウントの集合であってもよい。ただし、アカウントグループは、職位や職能を基準とした集合、あるいは年齢や性別を基準とした集合であってもよく、具体的なアカウントグループは種々の変形実施が可能である。図１１Ｂの例では、４つの既存のアカウントグループが左側の枠に表示されており、そこから選択されたアカウントグループが右側の枠に追加される。何れかのアカウントグループが選択された場合、当該アカウントグループに属するアカウントから送受信された文書データのみが監査対象として選択される。

【0082】

図１１Ｃは、アカウント単位でのフィルタを設定する画面例である。この画面を用いることによって、監査者は、個別のアカウント毎に監査の対象とするか否かを決定できる。図１１Ｃの例では、５つの既存アカウントが左側の枠に表示されており、そこから選択されたアカウントが右側の枠に追加される。何れかのアカウントが選択された場合、当該アカウントから送受信された文書データのみが監査対象として選択される。

【0083】

図１１Ｄは、メールアドレスのドメイン単位でのフィルタを設定する画面例である。この画面を用いることによって、監査者は、ドメイン毎に監査の対象とするか否かを決定できる。図１１Ｄの例では、２つのドメインが左側の枠に表示されており、そこから選択されたドメインが右側の枠に追加される。何れかのドメインが選択された場合、当該ドメインのメールアドレスから送受信された文書データのみが監査対象として選択される。また図１１Ｄに示すようにドメインに関する監査設定画面は、ドメインでのフィルタリング（ドメイン指定）を行うか否かを入力する領域を含んでもよい。

【0084】

図１１Ｅは、詳細な監査条件を設定する画面例である。図１１Ｅに示す画面では、抽出対象とする学習済モデルや、抽出対象となるスコアの下限値または上限値またはその両方を設定する項目が表示される。これにより、特定の学習済モデルによるスコアリング結果のみを抽出することや、スコアリング結果のうち、特定範囲のスコアが得られた結果のみを抽出することが可能になる。なお、本実施形態で設定される監査条件は条件式として記憶されてもよい。監査者は、図１１Ｅに示す画面を用いて、条件式で記載された既存の監査条件を読み出して利用することや、複数の監査条件を優先順位を付けた上で併用する設定入力を行ってもよい。

【0085】

図１１Ｆは、担当者によるフィルタを設定する画面例である。ここでの担当者とは、監査者を表してもよい。例えば、学習済モデルや受信メールが監査者に対応付けられている場合、図１１Ｆにおける監査設定に基づいて、スコア管理部１００は特定の監査者に対応付けられたデータを抽出する処理を行ってもよい。

【0086】

図１１Ｇは、通知設定のフィルタを設定する画面例である。図１１Ｇに示す画面は、通知設定のオンオフ、通知先メールアドレスの設定、通知条件であるスコア閾値の項目を含んでもよい。例えばスコア管理部１００は、監査結果からスコア閾値の条件を満たすスコアを取得した文書データを抽出し、抽出された文書データが存在した場合に、その旨を表す情報を通知先メールアドレスに送信してもよい。ここで送信される情報は、抽出された文書データの数、概要（メールタイトル、差出人、受取人等）等を含んでもよい。あるいは、通知先メールアドレスに送信される情報は、詳細なレビューが必要である旨の情報であり、具体的な文書データの内容は、監査者が端末装置２０のブラウザを用いて情報処理装置１０にアクセスした場合に表示されてもよい。

【0087】

以上のように、本実施形態では種々の監査条件を設定することによって、監査対象となる人物や事案を適切に設定することや、監査者が望む情報を適切に表示すること等が可能になる。

【0088】

２．４スコア表示
図９に示す処理を行うことによって、監査結果データベース２３０には監査結果を表すデータが蓄積される。例えば端末装置２０から監査結果の閲覧要求があった場合、表示制御部１７０は、監査結果データベース２３０から対象の監査者に応じた監査結果を読み出し、当該監査結果を端末装置２０の表示部に表示させる制御を行う。上述したように、監査結果データベース２３０に記憶される監査結果は、図１１Ａ－図１１Ｇの各画面を用いて設定されたフィルタを用いてフィルタリングが行われた結果であってもよく（ステップＳ３４－Ｓ３５）、表示制御部１７０はフィルタリング後の情報を表示してもよい。

【0089】

図１２Ａ及び図１２Ｂは、監査結果を監査者に提示するレビュー画面の例である。例えば、推論処理部１６０は、推論対象の文書データとして、複数の推論対象データが取得された場合に、複数の推論対象データのそれぞれについて、スコアを算出してもよい。そして表示制御部１７０は、複数の推論対象データのうち、相対的にスコアが高い一部のみを含むリストを表示する制御を行う。ここで相対的にスコアが高い文書データとは、スコアが所与の閾値以上である文書データであってもよいし、監査対象の文書データのうち、スコアが高い順から所定数の文書データであってもよい。

【0090】

このようにすれば、スコアが高い、即ち所与の事案に関連する度合いが高いと推定された文書データを優先的に監査者に提示することが可能になる。監査者は、スコアが高い文書データを優先的にレビューできるため、レビュー効率が向上する。結果として、本実施形態の手法では、監査者の負担を軽減することが可能になる。

【0091】

さらに表示制御部１７０は、複数の推論対象データのうち、相対的にスコアが高い一部が、スコアの順にソートされたリストを表示する制御を行ってもよい。このようにすれば、所与の事案に関連する度合いが高いと推定された順に文書データが表示されるため、監査者のレビュー効率をさらに向上させることが可能になる。

【0092】

図１２Ａは、スコアが高い文書データのリストを表示するレビュー画面の例である。図１２Ａでは、９件の文書データを含むリストが表示される例を示している。リストは、各文書データについて、番号、既読／未読、ファミリ、スレッド、スコア、メール送信時刻、メールタイトル、メール送信者、メール受信者の各項目に関する情報を含んでもよい。

【0093】

番号はリストに含まれる文書データに一意に割り振られる番号である。番号は、スコアが高い順にソートされた場合の順位を表してもよい。既読／未読は、対象の電子メールが既読であるか未読であるかを表す。ファミリの項目には、複数のメールを関連付けてファミリ（グループ）を作成する場合に、対象のメールが属するファミリに関する情報へのリンク情報が表示される。スレッドの項目には、対象のメールのスレッドに関する情報が表示される。ここでのスレッドとは、あるメールに対する返信や転送等の履歴に基づいて、関連するメールをまとめた集合である。

【0094】

メール送信時刻は、対象のメールが送信された時刻を表す。メールタイトルは、対象となる文書データに付けられたタイトルを表す。メール送信者は、対象のメールを送信したユーザ名、及びメールアドレスを特定する情報を表す。メール受信者は、対象のメールを受信したユーザ名、及びメールアドレスを特定する情報を表す。なお図１２Ａには不図示であるが、リストはＣｃ及びＢｃｃの欄を含んでもよい。Ｃｃはカーボンコピー、Ｂｃｃはブラインドカーボンコピーを表し、対象のメールが共有されたユーザ名、及びメールアドレスを特定する情報を表す。なおＣｃに記載された情報はメール受信者全体に共有される情報であり、Ｂｃｃに記載された情報はメール送信者以外には公開されない情報である。

【0095】

図１２Ａのレビュー画面を閲覧した監査者は、スコアや、付随して表示される他の情報を参照することによって、リストに含まれる複数の文書データから実際にレビュー対象とする文書データを選択する処理を行う。

【0096】

図１２Ｂは、リストから何れかの文書データが選択された場合に表示される画面例であって、選択された文書データの詳細を表示する詳細画面例である。表示制御部１７０は、リストのうちの何れかの文書データが選択された場合、選択された文書データの詳細を、リストを表示するウィンドウとは別ウィンドウにおいて表示する制御を行ってもよい。例えば図１２Ａに示す画面と、図１２Ｂに示す画面は別ウィンドウで表示される。

【0097】

図１２Ｂに示すように、詳細レビューでは、対象の文書データの具体的な内容（テキスト）が表示される。その際、テキストの一部が他の領域と異なる態様で表示されてもよい。図１２Ｂの例では、１つの行の背景色が変更される例を示している。この処理は、例えば文書データ単位のスコアではなく、当該文書データを複数のブロックに分割した場合のブロック単位のスコアに基づいて実行される。ブロック単位の処理の詳細については、図１６Ａを用いて後述する。

【0098】

図１２Ｂに示すように、詳細画面では表示される情報量が多い。そのため、テキストの内容を監査者に把握させやすくするためには、詳細画面はある程度広い領域を用いて表示されることが望ましい。一方で、図１２Ａに示すリストには、多数の文書データが含まれる可能性もある。そのため、図１２Ａの画面もある程度広い領域を用いて表示されなければ、所与の事案との関連が疑われる文書データの概要を把握することが難しくなってしまう。その点、図１２Ａに示す画面と図１２Ｂに示す画面のウィンドウを分けることによって、情報が閲覧しやすい態様で表示されるため、監査者の負担を軽減することが可能になる。

【0099】

また表示制御部１７０は、図１２Ｂの詳細画面を開いた状態において、図１２Ａの画面において他の文書データを選択する操作が行われた場合、新たなウィンドウを開くことなく、詳細画面を更新する処理を行ってもよい。例えば、図１２Ｂの詳細画面でＮｏ．１のメールが表示されていた状態において、図１２ＡのリストからＮｏ．２のメールが選択された例を考える。この場合、表示制御部１７０は、詳細画面での表示対象となるメールを、Ｎｏ．１からＮｏ．２に変更する制御を行う。このようにすれば、Ｎｏ．１用の詳細画面を表示するウィンドウとＮｏ．２用に詳細画面を表示するウィンドウが同時に開かれることが抑制されるため、監査者の操作を容易にできる。ただし、監査者の明示の操作指示があった場合、詳細画面を表示されるためのウィンドウが複数同時に開かれることも妨げられない。

【0100】

また図１２Ａに示すように、レビュー画面には監査者によるフィードバックを入力する項目が設けられてもよい。図１２Ａの例では、所与の事案がパワーハラスメントであることが表示されるとともに、関連性ありと関連性なしの何れかの選択入力に用いられるラジオボタンが表示される。監査者は、リスト上のチェックボックスで１または複数の文書データを選択し、且つ、関連性のあり／なしを選択した状態で保存ボタンを押す操作を行う。例えば監査者は、図１２Ｂの詳細情報を閲覧することによって文書データと事案の関連性を判断し、当該判断結果に基づいて図１２Ａにおける入力操作を実行する。これにより、対象の文書データにタグが関連付けられる。なお図１２Ａに示すように、監査者はフィードバックの際にコメントを入力可能であってもよい。

【0101】

３．スコア管理部
次にスコア管理部１００の処理の詳細について説明する。

【0102】

３．１学習処理の流れ
図１３は、本実施形態に係る処理を説明するフローチャートであり、特に学習用の文書データに基づいて機械学習を行う学習処理を説明するフローチャートである。この処理は、例えば図７のステップＳ２４に対応するが、図１３に示す処理がタグ付け等（ステップＳ２１－Ｓ２３）とは異なるタイミングで実行されることも妨げられない。

【0103】

まずステップＳ１０１において、取得部１１０は、学習用の文書データを取得する。例えば取得部１１０は、監査者によるフィードバックであるタグが正解データとして対応付けられた文書データを取得してもよい。

【0104】

ステップＳ１０２において、解析処理部１２０は、学習用の文書データに対する形態素解析処理を行う。ここでの形態素とは、文を言語上で意味を持つ最小単位を表す。形態素解析とは、文書データを複数の形態素に分解する処理を含む。解析処理部１２０は、形態素解析の結果として、当該文書データに含まれる形態素の集合を取得する。なお解析処理部１２０では、形態素の品詞等を判定してもよく、それらの判定結果が形態素解析の結果に含まれてもよい。形態素解析については自然言語処理の分野において広く用いられる手法であるため、詳細な説明は省略する。

【0105】

ステップＳ１０３において、特徴量決定部１３０は、文書データに対応する特徴量を決定する。例えば、特徴量決定部１３０は、対象の文書データにおける所与の形態素の出現状態に基づいて、当該所与の形態素に対応する値を決定する処理を行ってもよい。そして特徴量決定部１３０は、各形態素について求められた値を並べたテンソル（狭義にはベクトル）を対象の文書データを表す特徴量としてもよい。

【0106】

例えば特徴量決定部１３０は、所与の形態素に対応する値として、当該形態素が文書データに含まれるか否かを表すバイナリデータを用いてもよい。バイナリデータとは、形態素が文書データに含まれる場合に第１の値（例えば１）となり、形態素が文書データに含まれない場合に第２の値（例えば０）となるデータであってもよい。例えば “Ｉｍｐｏｓｓｉｂｌｅｉｓｎｏｔｈｉｎｇ”という３つの形態素からなる文書データを対象とした場合、当該文書データの特徴量は、Impossible, is, 及びnothingに対応する要素の値が１となり、他の全ての要素の値が０となるベクトルである。

【0107】

あるいは特徴量決定部１３０は、所与の形態素に対応する値として、当該形態素の出現頻度であるｔｆ（Term Frequency）に基づく値を用いてもよい。また特徴量決定部１３０は、所与の形態素に対応する値として、ｔｆ及び逆文書頻度であるｉｄｆ（Inverse Document Frequency）に基づいて決定される値を用いてもよい。

【0108】

ステップＳ１０４において、学習処理部１４０は、モデルの入力データとして特徴量を用いた学習処理を行う。具体的には、式（１）や（２）におけるｘ１～ｘｎがステップＳ１０３で決定された特徴量（ベクトルの各要素）に対応し、文書データのスコアが正解データに対応する。学習処理部１４０は、多数の学習用の文書データから取得された（ｘ１，ｘ２，…，ｘｎ，スコア）の組に基づいて、最も確からしい重みｗ１～ｗｎを決定する処理を行う。線形モデルにおける重みの決定処理では、最急降下法やニュートン法、主双対内点法等の種々の線形最適化手法が知られており、本実施形態ではそれらの手法を広く適用可能である。

【0109】

ステップＳ１０５において、学習処理部１４０は、複数の形態素のうち、対応する重みの値が所定閾値以下の形態素を、これ以降の学習処理から除外する処理を実行する。例えば、学習処理部１４０は、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う。より具体的には、所与の形態素に対応する重みｗｉ（ｉは１以上ｎ以下の整数）が所定閾値以下であると判定された場合、学習処理部１４０は、上式（１）や（２）等によって表されるモデルからｗｉ×ｘｉに対応する項を削除してもよい。結果として、ｘｉに対応するｉ番目の形態素が、学習処理の対象から除外される。

【0110】

本実施形態の手法によれば、所与の形態素を処理に用いるか否かを、学習処理部１４０が自動的に判定することが可能になる。そのため、例えば最初にステップＳ１０４の学習処理を行う段階において、形態素の一部を予めフィルタリングする等の負荷軽減処理を行う必要性を低くできる。狭義には学習処理部１４０は、学習用の文書データから抽出された全ての形態素を学習処理に利用してもよい。あるいは学習処理部１４０は、対象の自然言語において想定される全ての形態素に対応する特徴量を学習処理に利用してもよい。

【0111】

このようにすれば、一部の形態素を予め除外する必要がないため、学習処理の前処理における負荷を軽減できる。例えば、従来手法では、形態素解析の誤りによって形態素が誤検出された場合、不適切な形態素を除外する処理が実行されていた。これに対して本実施形態では、そのような不適切な形態素を自動的に除外することが可能である。不適切な形態素が、文書データと所与の事案との関連度合いに与える影響は低いことが想定されるため、ステップＳ１０４の処理において自然と低い重みが設定されると考えられるためである。例えば１つの形態素が非常に少ない文字数から構成される可能性がある中国語、日本語、韓国語等では、他の言語（例えば英語）に比べて形態素解析が難しい。本実施形態の手法であれば、このような言語を対象とする場合であっても、学習処理において形態素解析の誤りを自動的に除外できるという利点がある。

【0112】

また、本実施形態の文書データは音声データを対象として音声認識処理によって取得されたデータであってもよい。この場合、音声認識処理のエラーにより不適切な形態素が取得されることもあるが、本実施形態ではそのような不適切な形態素も自動的に除去される。エラー要因が音声認識処理であったとしても、文書データと所与の事案との関連度合いにおいて、不適切な形態素が与える影響が低いと考えられる点は同様のためである。即ち、本実施形態の手法では、音声認識処理や形態素解析等、学習処理の前段階の処理で生じうるエラーを、学習処理のモデルを用いて自動的に除去できる。

【0113】

なお本実施形態の手法では、モデルが線形モデルまたは一般化線形モデルであることも重要である。なぜなら、図１３を用いて上述したように、本実施形態ではまず多数の（狭義には全ての）形態素を対象として重みを決定する処理を実行し（ステップＳ１０４）、その結果を用いて一部の形態素を自動的に除外する（ステップＳ１０５）。そのため、多数の形態素を対象とした処理が１回は必須となる。処理負荷が相対的に大きいモデル（例えば多層の中間層を有するニューラルネットワーク等）を用いた場合、形態素の数、即ち入力データの数が大きければ、最初に重みを決定する処理負荷が大きくなってしまい、モデルを用いて一部の形態素を自動的に除外することによる負荷軽減効果が損なわれる可能性もある。その点、上記の通り、数学的に解析が容易な線形モデルまたは一般化線形モデルを用いることによって、形態素の数が大きい場合にも効率的に重みを決定できるため、学習処理における負荷を適切に軽減することが可能になる。

【0114】

重みが所定以下の形態素を削除した後、ステップＳ１０６において、学習処理部１４０は、学習処理を終了するか否かを判定する。例えば学習処理部１４０は、交差検証を行うことによって学習精度を表す指標値を求め、当該指標値に基づいて学習を終了するか否かを判定してもよい。交差検証とは、複数の学習データをＮ（Ｎは２以上の整数）単位に分割し、そのうちのＮ－１単位を訓練データとして重みの更新を行い、残りの１単位をテストデータ（バリデーションデータ）として、上記指標値を求める処理を行う手法である。交差検証については公知の手法であるため詳細な説明は省略する。またここでの指標値は、再現率、正解率、適合率、ＡＵＣ（Area Under the Curve）等、種々の指標値を用いることが可能である。

【0115】

学習を終了しないと判定された場合（ステップＳ１０６：Ｎｏ）、学習処理部１４０は、例えばステップＳ１０３に戻って処理を行う。この場合、形態素に対応する特徴量を再計算し、再計算後の特徴量に基づいて、各形態素の重みを決定する処理が行われる。この際、ステップＳ１０５において削除された形態素は特徴量算出の対象から除外されてもよい。またステップＳ１０４において、学習に用いられる制御パラメータの一部が変更されてもよい。

【0116】

あるいは学習を終了しないと判定された場合（ステップＳ１０６：Ｎｏ）、学習処理部１４０は、例えばステップＳ１０４に戻って処理を行ってもよい。この場合、学習処理部１４０は、特徴量については決定済みの値を用い、特徴量とは異なる制御パラメータの一部を変更した上で再度、重みを決定する処理を実行する。

【0117】

学習を終了すると判定された場合（ステップＳ１０６：Ｎｏ）、学習処理部１４０は、その時点での重みが設定された線形モデルまたは一般化線形モデルを、学習済モデルとして出力し、学習処理を終了する。

【0118】

３．２確率データ出力
上述したように、本実施形態におけるスコアとは、モデルの出力値に基づいて決定される値であってもよい。ここでのスコアは、例えば上述したように文書データと所与の事案の関連度合いを表す情報であり、文書データと所与の事案が関連する確からしさを表す数値データであってもよい。例えばスコアは、値が大きいほど、文書データと所与の事案の関連度合いが高いことを示す情報である。

【0119】

図１４は、モデルの出力値と、文書データが所与の事案と関連する割合を表す情報である。図１４の横軸はモデルの出力値である。図１４の縦軸は、例えばモデルの出力値が所与の値であった文書データの総数に対する、実際に所与の事案と関連していた文書データの数の比率を表す。図１４の縦軸の値は、例えば交差検証におけるテストデータに基づいて決定されてもよい。例えばテストデータに含まれる複数の文書データを学習済モデルに入力した結果、スコアがＳとなる文書データがＮｓ件取得されたとする。そして、当該Ｎｓ件の文書データの正解データを参照したところ、そのうちのｘ件が所与の事案に関係し、残りの（Ｎｓ－ｘ）件は所与の事案に関係していなかったとする。この場合、横軸の値がＳの場合の縦軸の値ＰｓはＰｓ＝（ｘ／Ｎｓ）で表される。以下、縦軸の値を、「文書データが所与の事案と関連する割合」と表記し、さらに簡略化して単に「割合」とも表記する。

【0120】

この際、スコアと割合とは線形の関係にない場合がある。例えば図１４の破線に示すように、割合がスコアに関する非線形関数となる場合が考えられる。なお図１４では、スコアを０以上１以下の値に正規化しているが、これには限定されない。

【0121】

例えばスコアが最大値の２０％（例えば０．２）である場合、当該スコアを閲覧したユーザは、２０％の確率で文書データが所与の事案に関連していると判断する可能性がある。しかし、図１４の例ではスコアが０．２である場合、縦軸の割合の値は０．２よりも小さい値となる。つまり、スコアが０．２である文書データが所与の事案に関連する確率は２０％よりも低くなる。同様に、図１４の例ではスコアが０．８である場合、縦軸の割合の値は０．８よりも大きい値となる。つまり、スコアが０．８である文書データが所与の事案に関連する確率は８０％よりも高くなる。従って、スコアと割合が非線形の関係にある場合、スコアの値からユーザが感じる印象と、実際の割合とに乖離が生じてしまう。

【0122】

またスコアと割合がどのような関係にあるかは、学習用の文書データによって異なる可能性がある。例えば、本実施形態の情報処理装置１０がディスカバリ支援システムに用いられる場合と、メール監査システムに用いられる場合とでは、学習用の文書データが異なる。そのため、２つのシステムではスコアと割合の関係が異なることになるため、スコアの持つ意味がそれぞれのシステムで異なってしまう。またメール監査システムの中でも、所与の事案がパワーハラスメントである場合と、セクシャルハラスメントである場合とでスコアと割合の関係が異なる可能性もある。

【0123】

よって本実施形態では、スコアと割合の乖離を抑制するように、スコアの補正処理が行われてもよい。具体的には、情報処理装置１０は、割合がスコアの線形関数に近づくような補正処理を行う。ここでの補正処理は、例えばスコアの値を実際の割合の値に近づける補正処理であってもよい。例えば、モデルの出力である補正前スコアの値がＳであり、当該補正前スコアに対応する割合の値がＰｓであった場合、補正後スコアの値はＳからＰｓに近づくように補正される。このようにすれば、補正後スコアの値と、当該補正後スコアに対応する割合の値を一致させることが可能になる。図１４の例であれば、スコアと割合の関係が、破線から実線に補正される。

【0124】

例えば情報処理装置１０は、上述したように交差検証におけるテストデータを用いて、スコアと割合の対応関係を表す関係データを求めておく。ここでの関係データは割合＝Ｆ（スコア）となる関数Ｆであってもよいし、スコアの値と割合の値とを対応付けたテーブルデータであってもよい。関係データが既知であれば、補正前スコアの値がＳである場合の割合の値Ｐｓを決定できるため、上記補正を適切に実行可能である。

【0125】

補正処理の結果として、例えば補正後スコアが最大値の２０％である場合、対象の文書データが所与の事案に関連する確率が２０％程度となることが期待される。つまり推論処理部１６０は、推論対象データと、所与の事案と関連する確率を表す確率データをスコア（上記補正後のスコア）として出力してもよい。これにより、スコアを閲覧したユーザが抱く印象と、割合を対応付けることが可能になる。さらに本実施形態の手法では、所与の事案の種類によらず、補正後スコアを確率データとすることが可能になる。つまり、情報処理装置１０が適用されるシステムや、当該システム内で対象とする事案の差異によらず、スコアの持つ意味が一定となるため、ユーザによる判断を容易にすることが可能になる。また表示制御部１７０での表示制御において、スコアを用いてフィルタリングを行う場合にも、当該フィルタリングにおける判断基準をシステムや所与の事案によらず統一することが可能になる。

【0126】

なお、以上ではモデルの出力を補正前スコアとして求めた後、当該補正前スコアに対して関係データに基づく補正処理を行う例を示した。当該補正処理は、例えば学習処理部１４０が補正前スコアと割合の関係データを学習段階で取得しておき、推論処理部１６０が当該関係データに基づく補正処理を推論段階において実行することによって実現される。ただし本実施形態の補正処理はこれに限定されない。例えば情報処理装置１０は、モデルの出力が補正後スコアとなるように、重みｗ１～ｗｎを補正する処理を行ってもよい。つまり学習処理部１４０による学習処理において、上記補正処理が実行されることも妨げられない。

【0127】

３．３パラメータの自動設定
図１３を用いて上述したように、学習処理部１４０は、学習処理を終了するか否かを指標値に基づいて判定し（ステップＳ１０６）、終了しないと判定した場合、学習処理を継続する。学習処理を継続する際、学習処理部１４０は、学習処理に関連する何らかの設定変更を行った後で再度、形態素の重みを決定する処理を行ってもよい。

【0128】

学習処理部１４０は、モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習を実行可能であってもよい。具体的には学習処理部１４０は、アンサンブル学習を実行するか否か（アンサンブル学習のオン／オフ）を切り替え可能であってもよい。例えばアンサンブル学習においては、ブートストラップ手法により、多様性を持たせた複数の訓練データを取得し、当該複数の訓練データから複数のモデルを取得し、当該複数のモデルを用いて推定を行うバギングという手法が知られている。その他、アンサンブル学習についてはブースティング、スタッキング、ニューラルネットワーク等の種々の手法が知られており、本実施形態ではこれらの手法を広く適用可能である。

【0129】

例えば学習処理部１４０は、学習処理によって取得されたモデルの評価処理を行い（ステップＳ１０６）、モデルの性能が所定以下であると判定された場合（ステップＳ１０６：Ｎｏ）、アンサンブル学習におけるアンサンブルを解除した（アンサンブル学習をオフにした）上で、機械学習を継続してもよい。換言すれば、本実施形態の学習処理部１４０は、アンサンブル学習のオン／オフを決定する制御パラメータを自動的に変更してもよい。

【0130】

アンサンブル学習は単一のモデルを用いた学習処理に比べて精度が高いと言われているが、学習用のデータを十分な量だけ取得できなかった場合等には、アンサンブル学習を行うことでかえって推定精度が低下する可能性もある。例えば、ディスカバリ支援システムやメール監査システム等、本実施形態で想定するシステムでは、収集される文書データのうち、所与の事案に関連する文書データの割合が非常に低いことも想定される。そのため、全体としての文書データ数が多かったとしても、一方側に分類されるデータ量（所与の事案に関連する文書データの数）が不足することも考えられる。この場合も、アンサンブル学習を行うことで精度が低下する可能性がある。その点、本実施形態では作成されたモデルを評価しながら自動的にアンサンブル学習のオン／オフを切り替えることができる。結果として、学習用の文書データの収集状況等に合わせて適切な学習処理を実行することが可能になる。

【0131】

あるいは、学習処理部１４０は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、特徴量決定部１３０において特徴量の決定に用いられる特徴量モデルを変更した上で、機械学習を継続してもよい。ここでの特徴量モデルとは、例えば、各形態素の文書データ中での出現状況に基づいて、当該形態素に対応する値を決定するためのモデルである。上述したように、特徴量モデルとは、各形態素にバイナリデータを割り当てるモデルであってもよいし、ｔｆに対応する値を割り当てるモデルであってもよいし、ｔｆ－ｉｄｆに対応する値を割り当てるモデルであってもよいし、これ以外のモデルであってもよい。

【0132】

あるいは、学習処理部１４０は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、機械学習に用いられるモデル（関数モデル）を変更した上で、機械学習を継続してもよい。例えば学習処理部１４０は、上式（１）に示した線形モデルを用いて取得された学習済モデルの性能が所定以下と判定された場合に、上式（２）に示した一般化線形モデルにモデルを変更した上で機械学習を行ってもよい。また学習処理部１４０は、一般化線形モデルから線形モデルへの変更を行ってもよい。また一般化線形モデルの態様が上式（２）に限定されないことは上述した通りである。例えば記憶部２００は、互いに異なる複数の一般化線形モデルを記憶してもよい。学習処理部１４０は、評価処理においてモデルの性能が所定以下であると判定された場合、線形モデル及び当該複数の一般化線形モデルのうち、未選択である何れか１つに、関数モデルを変更する処理を行ってもよい。その他、モデル（関数モデル）の変更手法は種々の変形実施が可能である。

【0133】

例えば、対象の文書データが所定ワード数以上の長文である場合や、短文であっても文語調の表現が用いられている場合、ｔｆを用いた方がバイナリデータを用いる場合に比べて精度が高くなりやすい。一方、短文且つ口語調の表現が用いられる文書データでは、バイナリデータを用いたシンプルな特徴量モデルの方がｔｆ等を用いる場合に比べて精度が高くなりやすいことが分かってきた。本実施形態の手法では、特徴量モデルを自動的に変更することによって、文書データの長さや使用される表現等に応じて適切な学習処理を実行することが可能になる。

【0134】

３．４メタデータ
また本実施形態では、文書データに対してメタデータが付与されてもよい。ここでのメタデータは、例えば文書データの文字数、行数、これらの分布や統計量（平均値、中心値、標準偏差等）を含む。また本実施形態における文書データは、複数の人物の会話を書き起こしたデータであってもよい。例えば取得部１１０は、会話を録音した音声データを取得し、当該音声データに対する音声認識処理を行うことによって文書データを取得してもよい。この場合、文書データのメタデータには、人物毎の発話文字数、発話行数、発話時間等が含まれる。例えば文書データが、顧客と従業員の会話に対応する場合、顧客の発話文字数、従業員の発話文字数、時間分布等がメタデータとして用いられる。また、全発話文字数に対する、顧客の発話文字数の割合や従業員の発話文字数の割合等がメタデータとして用いられてもよい。例えば文書データの保管されていたファイルパス名やメールのやり取りの日時を含めてもよい。

【0135】

これらのメタデータは、学習処理に用いられてもよい。例えば特徴量決定部１３０は、文書データに付与されたメタデータに基づいて、当該メタデータに関する特徴量であるメタデータ特徴量を決定してもよい。学習処理部１４０は、形態素に対応する特徴量、及び、メタデータ特徴量に基づいて、機械学習を行う。このようにすれば、形態素とは異なるメタデータを特徴量に含めることができるため、学習精度の向上が可能になる。

【0136】

なお学習処理部１４０は、学習処理において、メタデータに対応する重みを求め、対応する重みの値が所定閾値以下のメタデータを、モデルの入力データから削除してもよい。このようにすれば、形態素だけでなくメタデータについても、その取捨選択を人が事前に経験等に基づいて行わずとも、モデルを用いて自動的に実行することが可能になる。

【0137】

ただしメタデータは、その値がデータ毎に大きく異なる可能性がある。例えば、発話文字数は発話行数に比べて値が大きくなりやすい。また発話時間は、単位として秒を用いるか分を用いるかで値が変化しうる。そのため、メタデータの値をそのまま特徴量として用いた場合、値の大きな特徴量に学習モデルが強く影響され、全特徴量をまんべんなく学習できない可能性もある。また決定木方式やランダムフォレストを用いた場合、単位やスケールの差異に無関係に学習が可能であるが、これらの手法は非線形性が強いため、上述したとおり、本実施形態では用いられない。

【0138】

例えば、メタデータに対応する補正前特徴量として、第１～第Ｐ補正前特徴量が取得され、文書データとして、第１～第Ｑ文書が取得された場合を考える。メタデータに対応する特徴量の種類数がＰであり、文書データの数がＱである。ここで、Ｐ、Ｑはそれぞれ１以上の整数である。ただし実際にはメタデータの種類数、及び文書データの数はともに複数であることが想定されるため、Ｐ、Ｑはそれぞれ２以上の整数であってもよい。

【0139】

特徴量決定部１３０は、補正前特徴量の個数Ｐ、文書データの数Ｑ、第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められる第１ノルム、及び、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる第１～第Ｐ補正前特徴量によって求められる第２ノルム、に基づいて、第１～第Ｐ補正前特徴量を補正することによって、メタデータ特徴量を決定してもよい。このようにすれば、メタデータ特徴量を適切に正規化することが可能になる。具体的には第１ノルムに基づく補正により、メタデータ間の値の差異を抑制できるため、線形モデルまたは一般化線形モデルを用いる場合にも適切な学習が可能である。さらに第２ノルムに基づく補正も行うことで、文書ごとの特徴量の総和に対応する情報（例えば二乗和）を揃えることが可能になる。結果として、求められる特徴量の形式が言語情報（形態素）のみを対象とした場合と同様になるため、メタデータを用いる場合にも言語情報と同様の処理により学習を実行可能である。

【0140】

図１５Ａ～図１５Ｃは、メタデータ特徴量の補正処理（正規化処理）を具体的に説明する図である。図１５は、補正前のメタデータ特徴量を表す。ここでは４種類のメタデータ特徴量及び、３つの文書データである文書１～文書３を対象とした例を説明する。即ちＰ＝４、Ｑ＝３の例を考える。

【0141】

図１５Ａに示すように、メタデータ特徴量１の値は、文書１～文書３においてそれぞれ１００、３００、５００である。メタデータ特徴量２の値は、文書１～文書３においてそれぞれ３、２、１である。メタデータ特徴量３の値は、文書１～文書３においてそれぞれ５０００、３００、１である。メタデータ特徴量４の値は、文書１～文書３においてそれぞれ０、１、０である。この例では、メタデータ特徴量１及び３の影響が相対的に強くなってしまう。図１５Ａにおける||L2||は、二乗和の平方根であるＬ２ノルムを表す。縦方向のＬ２ノルムは、第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められるノルムであるため、第１ノルムに対応する。

【0142】

図１５Ｂは、Ｐ，Ｑ及び第１ノルムを用いた補正処理を説明する図である。図１５Ｂは、図１５Ａの各要素について、下式（３）によって表される補正処理を行った結果を表す図である。例えばメタデータ特徴量１については、（１／５９１）×√（３／４）を乗じた結果である。図１５Ｂに示す補正処理を行うことによって、縦方向のＬ２ノルムの二乗の値が全てのメタデータ特徴量について０．７５で統一される。これにより、メタデータ特徴量ごとのスケールによる影響を抑制することが可能になる。

【数3】

【0143】

また図１５Ｂにおける横方向のＬ２ノルムは、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる第１～第Ｐ補正前特徴量によって求められるノルムであるため、第２ノルムに対応する。図１５Ｂから明らかな通り、文書１はメタデータ特徴量の値が全体的に大きく、文書３はメタデータ特徴量の値が全体的に小さいというばらつきがある。本実施形態では、第２ノルムを用いた補正処理を行うことによって、当該ばらつきが抑制されてもよい。

【0144】

図１５Ｃは、第２ノルムを用いた補正処理を説明する図である。図１５Ｃは、図１５Ｂの各要素について、１／（第２ノルム）を乗算する補正処理を行った結果を表す図である。例えば文書１については、各要素に（１／√１．２５）を乗じた結果である。図１５Ｃに示す補正処理を行うことによって、横方向のＬ２ノルムの二乗の値が全ての文書について１で統一される。これにより、特徴量の形式を言語情報のみを対象とした場合と同等にすることが可能になる。なお、メタデータ特徴量に対する補正処理をまとめると、下式（４）となる。

【数4】

【0145】

３．５ブロック単位でのハイライト
本実施形態の推論処理部１６０は、推論対象データを、任意の長さの複数のブロックに分割し、当該複数のブロックのそれぞれについて、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行ってもよい。なおここでの確率データは、図１４を用いて上述した手法によって求められる。またスコアは、０以上１以下（０％以上１００％以下）である確率データそのものであってもよいし、確率データに対して所与の定数を乗じた値であってもよい。例えばスコアは０点以上１００００点以下の数値データであってもよい。

【0146】

本実施形態の手法によれば、文書データ全体としての確率データだけでなく、当該文書データの一部であるブロックを対象とした確率データを算出できる。そのため、文書データの中で特に重要と考えられる部分を適切に特定することが可能である。なおブロックは、例えば段落であってもよいがこれには限定されず、複数の段落を含むブロックが設定されてもよいし、１つの段落が複数のブロックに分割されてもよい。またブロックとブロックが重複することも妨げられない。換言すれば、文書データの所与の一部が、第１ブロックに含まれ、且つ、当該第１ブロックとは異なる第２ブロックに含まれてもよい。またブロックは自動で設定されてもよいし、ユーザ入力に基づいて設定されてもよい。

【0147】

例えば特徴量決定部１３０はブロック毎に当該ブロックを表す特徴量を求め、推論処理部１６０は、当該特徴量を学習済モデルに入力することによって確率データを求めてもよい。あるいは推論処理部１６０は、対象のブロックに含まれる形態素を特定し、当該形態素に対応する重み（ｗ１～ｗｎのいずれか）を用いて、ブロックのスコアを求めてもよい。

【0148】

決定木方式やランダムフォレストでは、各二分木での分岐先を決定する際にある特徴量を用いた判定が行われる。そのため、入力となる文書データが短く、当該文書データに含まれる形態素の種類数が所定以下となる場合、判定基準となる特徴量を取得できないことで分岐判定を適切に行えない二分木が多くなる。結果として決定木方式等では、短いブロックを対象とした場合に、処理精度が非常に低くなる可能性がある。その点、本実施形態の手法では線形モデルまたは一般化線形モデルが用いられるため、各形態素の重みが学習処理において算出される。そのため、分類処理の対象となる文書データが短かったとしても、当該重みを用いてスコアを求める処理を適切に実行できるため、ブロック単位でも精度の高い推定が可能になる。

【0149】

例えば推論処理部１６０は、複数のブロックのそれぞれについて、スコアと、推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、ブロックの表示態様を決定してもよい。上述したとおり、スコアを確率データに補正することによって、ジャンル（具体的には関連度合いの判定対象となる所与の事案の種類）の差異が吸収され、スコアの持つ意味を統一できる。従って、所与の事案が何であるかにかかわらず、判定基準を揃えることが可能である。例えば推論処理部１６０は、スコア範囲を０点以上１００００点以下とした場合に、１０００～２４９９点を第１色、２５００～３９９９点を第２色、４０００～１００００点を第３色で表示すると判定してもよい。表示制御部１７０は、推論処理部１６０で決定された表示態様を用いて各ブロックを表示するための制御を実行する。例えば表示制御部１７０は、各ブロックの文字色または背景色が、スコアに応じて基本色（黒色文字、白色背景）または第１色～第３色のいずれかとなる表示制御を行ってもよい。なお第１色～第３色は、互いに識別が可能であればよく、具体的な色は問わない。

【0150】

図１６Ａは、表示制御部１７０による表示制御結果の例を示す図である。図１６Ａの例では文書データが５つのブロックに分割され、そのうちの１，４，５番目のブロックのスコアが高かったため、背景色が変更される表示制御が実行される。ただし、表示制御の例はこれに限定されず、文字のサイズを変更する、注釈を追加する、ブロックを囲む枠線を追加する等、種々の変形実施が可能である。

【0151】

また図１６Ｂに示すように、表示制御部１７０は、文書データの各ブロックに関する判定結果を表示する際に、各形態素について求められた重み（ｗ１～ｗｎ）を表示する制御を行ってもよい。図１６Ｂに示す例では、「弁護士」、「賠償」等の各形態素について、重みの値が表示されている。図１６Ａの画面とともに図１６Ｂの画面を表示することによって、どの形態素が要因となって表示態様が決定されているかをユーザに分かりやすく知らせることが可能になる。なお、図１６Ａの画面と図１６Ｂの画面は、１つのウィンドウの中で並べて表示されてもよいし、異なるウィンドウを用いて表示されてもよい。

【0152】

また推論処理部１６０は、推論対象の文書データとして複数の推論対象データが取得された場合に、複数の推論対象データのそれぞれについて、文書データ単位のスコアを算出し、複数の推論対象データのうち、相対的にスコアが高い一部を対象として、複数のブロックのそれぞれについてブロック単位のスコアを出力する処理を行ってもよい。

【0153】

上述したように、１つの文書データに対してブロックは複数設定されることが想定されるため、全文書データを対象として、ブロック単位のスコアを算出した場合、処理負荷が大きくなる。しかし、文書単位でのスコアを基準として、ブロック単位のスコア算出対象となる文書データを絞り込むことによって、処理負荷の軽減が可能である。例えば推論処理部１６０は、文書データ単位のスコアが所定閾値以上の文書データを対象としてブロック単位のスコアを求める処理を行ってもよい。あるいは推論処理部１６０は、文書データ単位のスコアが高い方から所定数の文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。あるいはユーザの知りたい文書と同程度のスコア帯や類似ワードを含む文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。

【0154】

３．６交差検証と予測曲線
上述したように、表示制御部１７０は分類処理の対象となる複数の文書データについてそれぞれスコアを算出し、当該スコアに基づいた表示制御を行う。具体的には、表示制御部１７０は、スコアが高い順にソートされた文書データのリストを、端末装置２０の表示部に表示させる制御を行ってもよい。端末装置２０のユーザは、例えばリスト表示された文書データの何れかを選択することによって、当該文書データの内容を確認し、当該文書データが実際に所与の事案に関連しているかの判定等を行う。以下、文書データが所与の事案と関連するか否かの判定処理をレビューとも表記する。

【0155】

端末装置２０のユーザがスコアの高い順に複数の文書データをレビューしていっても、所与の事案に関連する文書データが全く発見されないというケースが考えられる。この場合、当該ユーザは、当該複数の文書データに所与の事案に関連する文書データが本当に含まれていないと考えるか、あるいはシステムの精度に問題があることを疑うか、判断に迷う可能性も出てくる。

【0156】

そこで本実施形態の学習処理部１４０は、交差検証の結果に基づいて、予測曲線を求める処理を行ってもよい。ここでの予測曲線とは、レビューを進めた場合に、所与の事案に関連すると判定される文書データの発見数がどのように推移するかを表す情報である。予測曲線により、想定されるレビュー結果をユーザに提示できる。例えば、レビューにより所与の事案に関連する文書データが発見されないことが妥当であるか否かを、ユーザに判断させること等が可能になる。

【0157】

図１７は、予測曲線の一例を示す図である。図１７の横軸はレビューの進捗率を表す。即ち、処理対象の文書データのうち、レビューが行われた文書データの割合を表す。縦軸は、再現率（予測再現率）を表す。即ち図１７の縦軸は、所与の事案に関連する文書データのうち、レビューによって発見された（発見すると予測される）文書データの割合を表す。

【0158】

例えば、学習用の文書データが１２００件であり、そのうちの８００件が機械学習に用いられる訓練データに設定され、残りの４００件が学習済モデルの検証に用いられるテストデータに設定された場合を考える。さらに、ここでは４００件のテストデータのうち、２０件が所与の事案に関連し、残りの３８０件は所与の事案に関連しない例を考える。

【0159】

この場合、８００件の訓練データに基づいて生成された学習済モデルに対して、４００件のテストデータのそれぞれを入力することによって各テストデータのスコアが算出される。そして４００件のテストデータのうち、スコアが高い順にレビューが行われる。ここでは各テストデータに正解データが付与されているため、レビューとは当該正解データに基づいて、各テストデータが所与の事案に関連するか否かを判定する処理となる。例えば１件のレビューを行うことによって横軸の値は１／４００だけ増加する。そして当該１件の文書データが所与の事案に関連するのであれば縦軸の値が１／２０だけ増加し、所与の事案に関連しないのであれば、縦軸の値は維持される。これを全４００件のレビューが完了するまで繰り返すことによって、図１７の座標系において１つのグラフ（予測線）が描かれる。例えば図１７のＡ１が予測線に対応する。

【0160】

例えば予測線上に（０．２，０．９）という座標が存在したとする。横軸の値が０．２とは、４００件のテストデータのうち、スコアの上位２０％、即ち上位８０件までの文書データのレビューが行われたことを表す。縦軸の値が約０．９とは、上位８０件のレビューによって、所与の事案に関連する文書データが、２０×０．９＝１８件だけ発見されたことを表す。

【0161】

ただし、図１７のＡ１に示したように、予測線はなめらかな曲線になるとは限らない。例えば、所与の事案に関連する文書数（例えば上記の例では４００件中の２０件）が少ない場合、予測線が階段状に変化してしまう。この階段状の変化は、対象の訓練データ、テストデータの組み合わせに起因して発生したと考えられるため、異なる文書データを対象とする分類処理の段階では発生しない可能性がある。従って、当該階段状の変化を含む予測線を、予測曲線としてユーザにて提示することは好ましくない。

【0162】

そこで本実施形態では、訓練データとテストデータの組み合わせを複数用意し、それらから求められる複数の予測線を平均することによって予測曲線を求めてもよい。なお、交差検証では学習用のデータをＮ分割し、そのうちのＮ－１個を訓練データ、残りの１個をテストデータとして用いる。そのため、通常のＮ分割交差検証でも、Ｎ通りの予測線を取得することが可能である。ただし、本実施形態では、さらにデータの組み合わせパターンを増やすことによって、より適切な予測曲線を求める処理が行われてもよい。

【0163】

例えば学習処理部１４０は、文書データとして、複数の学習用文書データが取得された場合に、複数の学習用文書データの並び順を変更することによって、互いに異なる第１～第Ｍ（Ｍは２以上の整数）学習用データを生成してもよい。そして学習処理部１４０は、第１～第Ｍ学習用データのそれぞれについて、Ｎ分割交差検証を行うことによって、Ｍ×Ｎ通りの評価データを取得する。

【0164】

図１８は、本実施形態の処理におけるデータのパターン例を示す図である。ここで横方向に３つ並ぶブロックは、Ｎ分割交差検証における分割結果を表す。即ち図１８では、３分割交差検証を行う例を示している。図１８のうち、斜線が引かれたブロックがテストデータに設定され、それ以外の２つのブロックが訓練データに設定される。各ブロックには複数の文書データが含まれる。例えば上述したように学習用データが１２００件の文書データを含む場合、各ブロックは４００件の文書データから構成される。

【0165】

この場合、１２００件の文書データがパターン１で定義される順序で並んでいる場合に、当該１２００個の文書データを、１－４００番目、４０１－８００番目、８０１－１２００番目の３つのブロックに分割することによって、３つの学習用データが取得される。これは例えば、図１８におけるパターン１の（１）～（３）に対応する。

【0166】

さらに、１２００件の文書データをパターン１とは異なるパターン２で定義される順序に並び替えた上で、当該１２００個の文書データを、１－４００番目、４０１－８００番目、８０１－１２００番目の３つのブロックに分割することによって、３つの学習用データが取得される。これは例えば、図１８におけるパターン２の（４）～（６）に対応する。ここで、同じ１－４００番目のブロックであっても、パターン１とパターン２では文書データの並び順が異なるため、（１）のテストデータに含まれる文書データと、（４）のテストデータに含まれる文書データは異なるものとなる。同様に、（１）の訓練データに含まれる文書データと、（４）の訓練データに含まれる文書データは異なる。即ち、元となる学習用データが同じであったとしても、複数の順序パターンで並べ替えを行い、それぞれについて交差検証を行うことによって、多様なデータを用いた機械学習が可能になる。

【0167】

上述したように、パターン１～パターンＭのＭ通りの順序パターンで並び替えを行い、それぞれについてＮ分割交差検証を行うことによって、Ｍ×Ｎ通りの機械学習が可能になる。そのため、それぞれの機械学習の結果について、テストデータを用いた評価データをＭ×Ｎ通りだけ取得できる。ここでの評価データは、例えば、図１７に示した予測線であってもよい。ただし評価データはこれに限定されず、テストデータを用いて取得できる再現率、正解率、適合率、ＡＵＣ等、他の情報を含んでもよい。

【0168】

例えば多数の予測線を取得することによって、これらに基づいた統計処理が可能になる。例えば学習処理部１４０は、学習段階において、上記Ｍ×Ｎ通りの評価データを標本とする統計量に基づく予測情報を生成してもよい。ここでの予測情報とは、学習済モデルが出力するスコアに基づいてユーザが文書データのレビューを行った際のレビュー結果を予測する情報である。予測情報は狭義には上述した予測曲線であるが、他の情報であってもよい。

【0169】

このようにすれば、学習処理部１４０は、例えばＭ×Ｎ本の予測線の平均値等に基づいて、なめらかであり、且つ、精度の高い予測曲線を求めることが可能になる。例えば図１７のＡ２が、複数の予測線の平均値から求められた予測曲線を表す。

【0170】

なお、通常のＮ分割交差検証でも、Ｎの値を増やすことによって予測線の数を増やすことが可能であるが、テストデータの数が減るため、テストデータを用いる処理の精度低下の可能性がある。予測線の本数はＮ本であり、テストデータの数は全体データ数の１／Ｎである。一方、Ｎの値を小さくした場合、予測線の本数が減ってしまうし、そもそも訓練データの数が少なくなることで学習済モデルの精度が低下する可能性がある。訓練データの数は、全体データ数の（Ｎ－１）／Ｎである。その点、本実施形態の手法によれば、文書データの順序パターンの数Ｍを増やすことによって評価データ数を増やせるため、Ｎの値を極端な値に設定する必要がない。例えばＮとして、テストの精度、及び、学習済モデルの精度を考慮した中庸的な値（例えば３－５程度）を設定することが可能になる。例えばＭ＝２０とした場合、Ｎ＝３であっても、評価データとして２０×３＝６０通りのデータを取得できる。

【0171】

なお学習処理部１４０は、予測情報を求める際に、Ｍ×Ｎ通りの評価データの全てを用いる必要はない。例えば、図１８に示したようにＮ＝３である場合、訓練データの数は全体の２／３となるため、学習済モデルの精度低下による影響を考慮した処理が実行されてもよい。例えば、学習処理部１４０は、Ｍ×Ｎ通りの評価データのうち、学習済モデルの精度が相対的に高いと評価された一部の評価データに基づいて予測情報を求めることによって、上記精度低下を補正してもよい。上記のように評価データが６０通りである場合、学習処理部１４０は、精度がＸ位であるデータを中心に、±Ｙ位までの評価データ（Ｘ－Ｙ位からＸ＋Ｙ位までの２Ｙ＋１通り）に基づいて予測情報を求める。この際、Ｘは中央値（３０または３１）よりも小さい値であり、狭義には上記１／４以上（Ｘ≦１５）であってもよい。またＹの値は種々の変形実施が可能であるが、例えば処理に用いる最下位（Ｘ＋Ｙ位）が中央値以上となるようにＹの値が設定されてもよい。

【0172】

また学習処理部１４０は、複数の予測線から分散や標準偏差を算出してもよい。例えば学習処理部１４０は、標準偏差をσとした場合、平均値として求められた予測曲線の±１．９６σを、９５％信頼区間として求めてもよい。図１７の例では、Ａ３が＋１．９６σ、Ａ４が－１．９６σを表す曲線であり、Ａ３とＡ４の間が９５％信頼区間を表す。例えば学習処理部１４０は、図１７のＡ２～Ａ４に示すグラフを表す情報を、記憶部２００に記憶させる処理を行う。

【0173】

また学習処理部１４０は、±３σの範囲外のデータを外れ値として処理から除外してもよい。このように外れ値を除外することによって処理精度の向上が可能になる。

【0174】

推論処理部１６０は、推論処理の結果予測を表す情報として、予測情報を出力する処理を行ってもよい。例えば推論処理部１６０は、図１７に示すグラフを記憶部２００から読み出し、表示制御部１７０に対して当該グラフを表示させる指示を行う。このようにすれば、端末装置２０のユーザに対して、予測曲線及び信頼区間を提示できるため、例えば所与の事案に関連する文書データが発見されない場合に、それが妥当な結果であるか否かを判定させることが可能になる。

【0175】

また表示制御部１７０は、上位スコア帯を閲覧しても所与の事案に関連する文書データが１件も見つからない場合に、統計処理に基づく情報を提示する処理を行ってもよい。例えば、推論処理部１６０は、下式（５）に基づいてＭｏＥ（Margin of Error）を求める処理を行ってもよい。下式（５）において、ｐは想定濃度、即ち、対象となる文書データのうち、所与の事案に関連する文書データの予測比率を表す。ｐは、例えば学習処理部１４０が、学習処理の段階で推定してもよい。閲覧文書数は、ユーザによるレビューが行われた文書データの数を表し、例えば端末装置２０におけるユーザのレビュー操作（例えばリストから文書データを選択する操作）の履歴から求められてもよい。

【数5】

【0176】

例えば表示制御部１７０は、検出限界以下であること（上位スコア帯を閲覧しても所与の事案に関連する文書データが１件も見つからないこと）の基準として、上式（５）に基づいて「信頼水準９５%で誤差Ｚ%の濃度で存在しない」との情報を提示する処理を行ってもよい。ここでのＺは、上式（５）のＭｏＥを表す。例えば想定濃度が０．０１％であり、ユーザが１０００件レビューを行ったときに１件も所与の事案に関連する文書データが発見されなかった場合、上式（５）によって求められるＭｏＥは０．１となる。この場合、表示制御部１７０は、「検出限界以下＝信頼度９５%で誤差０．１%の濃度で存在しない」との表示を行う。このようにすれば、所与の事案に関連する文書データが発見されないことについて、統計学的な処理に基づいて客観的なデータをユーザに提示することが可能になる。

【0177】

なお本実施形態の手法は情報処理装置１０に適用されるものに限定されず、以下の各ステップを実行する情報処理方法に適用されてもよい。情報処理方法は、情報処理装置１０が、学習用の文書データである学習用データの形態素解析の結果から決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、重みが所与の閾値以下と判定された形態素に対応する特徴量をモデルの入力データから削除する機械学習を行うことによって作成された学習済モデルを取得し、被監査者によって送受信された電子メールを含む文書データを取得し、当該文書データの形態素解析の結果に基づいて、学習済モデルに入力する特徴量を決定し、決定された特徴量を学習済モデルに入力することによって、文書データと所与の事案の関連度合いを表すスコアを算出し、文書データのスコアに基づく表示制御を行う、ステップを含む。

【0178】

なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理装置、端末装置、メール監査システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。

【符号の説明】

【0179】

１…メール監査システム、１０…情報処理装置、２０…端末装置、２１…第２端末装置、４０…監査用メールサーバ、５０…ＳＭＴＰサーバ、６０…ＰＯＰサーバ、１００…スコア管理部、１１０…取得部、１２０…解析処理部、１３０…特徴量決定部、１４０…学習処理部、１５０…モデル取得部、１６０…推論処理部、１７０…表示制御部、２００…記憶部、２１０…モデルデータベース、２２０…文書データベース、２３０…監査結果データベース、２４０…監査条件データベース、２５０…アカウントデータベース、３００…処理部、３１０…システム制御部、３２０…監査データ管理部、３３０…アカウント管理部、４００…通信部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11A】

【図11B】

【図11C】

【図11D】

【図11E】

【図11F】

【図11G】

【図12A】

【図12B】

【図13】

【図14】

【図15A】

【図15B】

【図15C】

【図16A】

【図16B】

【図17】

【図18】

【手続補正書】

【提出日】2023-07-27

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行う学習処理部と、
前記学習処理部によって作成された学習済モデルを取得するモデル取得部と、
被監査者によって送受信された電子メールを含む文書データを取得する取得部と、
前記取得部によって取得された前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定する特徴量決定部と、
前記特徴量決定部によって決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出する推論処理部と、
前記文書データの前記スコアに基づく表示制御を行う表示制御部と、
を含み、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第１～第Ｐ（Ｐは１以上の整数）補正前特徴量が取得され、前記文書データとして、第１～第Ｑ（Ｑは１以上の整数）文書が取得された場合に、
前記補正前特徴量の個数Ｐ、前記文書データの数Ｑ、前記第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められる第１ノルム、及び、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる前記第１～第Ｐ補正前特徴量によって求められる第２ノルム、に基づいて、前記第１～第Ｐ補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。

【請求項2】

請求項１において、
前記学習処理部は、
前記モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習のオン／オフを変更可能であり、
前記モデルの評価処理を行い、前記モデルの性能が所定以下であると判定された場合、前記アンサンブル学習をオフにした上で、前記機械学習を継続する情報処理装置。

【請求項3】

請求項１または２において、
前記推論処理部は、
前記文書データを、任意の長さの複数のブロックに分割し、前記複数のブロックのそれぞれについて、前記所与の事案と関連する確率を表す確率データを前記スコアとして出力する処理を行う情報処理装置。

【請求項4】

請求項３において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記文書データのジャンルによらない閾値とを比較し、
前記表示制御部は、
前記推論処理部における比較結果に基づいて、前記ブロックの表示態様を制御する情報処理装置。

【請求項5】

請求項１または２において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部のみを含むリストを表示する制御を行う情報処理装置。

【請求項6】

請求項５において、
前記表示制御部は、
前記複数の推論対象データのうち、相対的に前記スコアが高い前記一部が、前記スコアの順にソートされた前記リストを表示する制御を行う情報処理装置。

【請求項7】

請求項５において、
前記表示制御部は、
前記リストのうちの何れかの前記文書データが選択された場合、選択された前記文書データの詳細を、前記リストを表示するウィンドウとは別ウィンドウにおいて表示する制御を行う情報処理装置。

【請求項8】

情報処理装置が、
学習用の文書データである学習用データの形態素解析の結果に基づいて決定された特徴量に基づいて、線形モデルまたは一般化線形モデルであるモデルにおける形態素の重みを決定するとともに、前記重みが所与の閾値以下と判定された前記形態素に対応する前記特徴量を前記モデルの入力データから削除する機械学習を行い、
前記機械学習によって作成された学習済モデルを取得し、
被監査者によって送受信された電子メールを含む文書データを取得し、
取得した前記文書データの前記形態素解析の結果に基づいて、前記学習済モデルに入力する特徴量を決定し、
決定された前記特徴量を前記学習済モデルに入力することによって、前記文書データと所与の事案の関連度合いを表すスコアを算出し、
前記文書データの前記スコアに基づく表示制御を行う、
処理を行い、
前記特徴量の決定において、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第１～第Ｐ（Ｐは１以上の整数）補正前特徴量が取得され、前記文書データとして、第１～第Ｑ（Ｑは１以上の整数）文書が取得された場合に、
前記補正前特徴量の個数Ｐ、前記文書データの数Ｑ、前記第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められる第１ノルム、及び、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる前記第１～第Ｐ補正前特徴量によって求められる第２ノルム、に基づいて、前記第１～第Ｐ補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記機械学習において、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理方法。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版