特開2024-130812 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＦＲＯＮＴＥＯの特許一覧

特開2024-130812情報処理装置及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
7C
8A
8B
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024130812

(43)【公開日】2024-09-30

(54)【発明の名称】情報処理装置及び情報処理方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20240920BHJP

G06F 16/383 20190101ALI20240920BHJP

【ＦＩ】

G06N20/00

G06F16/383

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023040721

(22)【出願日】2023-03-15

(11)【特許番号】

(45)【特許公報発行日】2023-11-08

(71)【出願人】

【識別番号】316014906

【氏名又は名称】株式会社ＦＲＯＮＴＥＯ

(74)【代理人】

【識別番号】110002848

【氏名又は名称】弁理士法人ＮＩＰ＆ＳＢＰＪ国際特許事務所

(72)【発明者】

【氏名】富安啓輔

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175FA01

5B175FB04

5B175GC03

5B175HA01

(57)【要約】

【課題】多様な形態素を対象とした機械学習を高速に実行する情報処理装置及び情報処理方法等等の提供。
【解決手段】情報処理装置は、文書データを取得する取得部と、文書データの形態素解析を行う解析処理部と、形態素解析の結果に基づいて特徴量を決定する特徴量決定部と、特徴量に基づいて、形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行う学習処理部と、を含み、学習処理部は、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う。
【選択図】図２

【特許請求の範囲】

【請求項1】

【請求項2】

請求項１において、
前記学習処理部は、
前記モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習のオン／オフを変更可能であり、
前記モデルの評価処理を行い、前記モデルの性能が所定以下であると判定された場合、前記アンサンブル学習をオフにした上で、前記機械学習を継続する情報処理装置。

【請求項3】

請求項１において、
前記学習処理部は、
前記モデルの評価処理を行い、前記評価処理において前記モデルの性能が所定以下であると判定された場合、前記特徴量決定部において前記特徴量の決定に用いられる特徴量モデルを変更した上で、前記機械学習を継続する情報処理装置。

【請求項4】

請求項１乃至３の何れか一項において、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。

【請求項5】

請求項４において、
前記特徴量決定部は、
前記メタデータに対応する補正前特徴量として、第１～第Ｐ（Ｐは１以上の整数）補正前特徴量が取得され、前記文書データとして、第１～第Ｑ（Ｑは１以上の整数）文書が取得された場合に、
前記補正前特徴量の個数Ｐ、前記文書データの数Ｑ、前記第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められる第１ノルム、及び、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる前記第１～第Ｐ補正前特徴量によって求められる第２ノルム、に基づいて、前記第１～第Ｐ補正前特徴量を補正することによって、前記メタデータ特徴量を決定する情報処理装置。

【請求項6】

請求項１乃至３の何れか一項において、
前記学習処理部による前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの処理を行う推論処理部をさらに含み、
前記推論処理部は、
前記推論対象データが、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行う情報処理装置。

【請求項7】

請求項１乃至３の何れか一項において、
前記学習処理部により前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの処理を行う推論処理部をさらに含み、
前記推論処理部は、
前記推論対象データを、任意の長さの複数のブロックに分割し、前記複数のブロックのそれぞれについて、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行う情報処理装置。

【請求項8】

請求項７において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、前記ブロックの表示態様を決定する情報処理装置。

【請求項9】

請求項７において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、
前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部を対象として、前記複数のブロックのそれぞれについて前記スコアを出力する処理を行う情報処理装置。

【請求項10】

請求項１乃至３の何れか一項において、
前記学習処理部は、
前記文書データとして、複数の学習用文書データが取得された場合に、
前記複数の学習用文書データの並び順を変更することによって、互いに異なる第１～第Ｍ（Ｍは２以上の整数）学習用データを生成し、
前記第１～第Ｍ学習用データのそれぞれについて、Ｎ（Ｎは２以上の整数）分割交差検証を行うことによって、Ｍ×Ｎ通りの評価データを取得する情報処理装置。

【請求項11】

請求項１０において、
前記学習処理部の前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの推論処理を行う推論処理部をさらに含み、
前記学習処理部は、
前記Ｍ×Ｎ通りの評価データを標本とする統計量に基づく予測情報を生成し、
前記推論処理部は、
前記推論処理の結果予測を表す情報として、前記予測情報を出力する情報処理装置。

【請求項12】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及び情報処理方法等に関する。

【背景技術】

【0002】

従来、機械学習を用いて文書データの処理を行う手法が知られている。例えば特許文献１には、モデルの特徴量を決定する際に、評価対象特徴量の作用種別または重みに基づいてパラメータを更新する文書情報抽出システムが開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２２－１４８４３０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１の手法は、類似辞書等に基づく類似関係等を考慮して特徴量を評価するものであって、処理の高速化や入力となる形態素の多様性を考慮していない。

【0005】

本開示のいくつかの態様によれば、多様な形態素を対象とした機械学習を高速に実行する情報処理装置及び情報処理方法等を提供できる。

【課題を解決するための手段】

【0006】

本開示の一態様は、文書データを取得する取得部と、前記文書データの形態素解析を行う解析処理部と、前記形態素解析の結果に基づいて特徴量を決定する特徴量決定部と、前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行う学習処理部と、を含み、前記学習処理部は、前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行う情報処理装置に関係する。

【0007】

本開示の他の態様は、情報処理装置が、文書データを取得し、前記文書データの形態素解析を行い、前記形態素解析の結果に基づいて特徴量を決定し、前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行い、前記機械学習において、前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行う情報処理方法に関係する。

【図面の簡単な説明】

【0008】

【図1】情報処理装置を含むシステムの構成例である。

【図2】情報処理装置の構成例である。

【図3】情報処理装置の他の構成例である。

【図4】学習処理を説明するフローチャートである。

【図5】推論処理を説明するフローチャートである。

【図6】スコアを確率データに補正する処理の説明図である。

【図7A】メタデータ特徴量の例である。

【図7B】第１ノルムに基づくメタデータ特徴量の補正処理の説明図である。

【図7C】第２ノルムに基づくメタデータ特徴量の補正処理の説明図である。

【図8A】ブロック毎のスコアに基づくハイライト処理の説明図である。

【図8B】各形態素の重みを表す情報の例である。

【図9】予測線、予測曲線、信頼区間の説明図である。

【図10】複数の評価データを取得する処理の説明図である。

【発明を実施するための形態】

【0009】

以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

【0010】

１．システム構成例
図１は、本実施形態に係る情報処理装置１０を含む情報処理システム１の構成例を示す図である。情報処理システム１は、情報処理装置１０、端末装置２０、第２情報処理装置３０を含む。ただし、情報処理システム１の構成は図１に限定されず、一部の構成を省略する、あるいは他の構成を追加する等、種々の変形実施が可能である。

【0011】

情報処理装置１０、端末装置２０及び第２情報処理装置３０は、例えばネットワークを介して接続される。ここでのネットワークは、例えばインターネット等の公衆通信網である。ただしネットワークは、ＬＡＮ（Local area network）等であってもよく、具体的な構成は限定されない。

【0012】

情報処理装置１０は、本実施形態に係る機械学習を行う装置である。例えば情報処理装置１０は、学習用の文書データに基づく機械学習を行うことによって、文書データの分類処理に用いられる学習済モデルを生成する。

【0013】

例えば文書データの分類処理とは、所定の事案と対象の文書データとの関係度合いを求める処理であってもよい。ここでの所定の事案は種々考えられる。例えば情報処理装置１０は、以下に示すディスカバリ支援システム等、種々のシステムに含まれてもよく、所定の事案とは以下に示す各種事案の何れかであってもよい。ただし、所定の事案は以下に列挙するものに限定されない。

【0014】

・ディスカバリ支援システムにおけるディスカバリ手続きが要求される本件訴訟
・犯罪捜査支援（フォレンジック）システムにおける捜査対象となる犯罪
・電子メール監視システムにおける不正行為（例えば、情報漏えい、談合など）
・医療応用システムにおける医薬に関する事例・事案
・インターネット応用システム等におけるインターネットに関する事例・事案
・プロジェクト評価システムにおける過去に遂行したプロジェクト
・マーケティング支援システムにおけるマーケティング対象となる商品、サービス
・知財評価システムにおける評価対象となる知的財産
・不正取引監視システムにおける不正な金融取引
・コールセンターエスカレーションシステムにおける過去の対応事例
・信用調査システムにおける信用調査する対象
・ドライビング支援システムにおける車両の運転に関すること
・営業支援システムにおける営業成績

【0015】

情報処理装置１０は、例えばサーバシステムによって実現されてもよい。ここでのサーバシステムは、１つのサーバであってもよいし、複数のサーバを含んで構成されていてもよい。例えば、サーバシステムは、データベースサーバとアプリケーションサーバとを含んで構成されていてもよい。データベースサーバは、後述する学習済モデル等を含む種々のデータを記憶する。アプリケーションサーバは、図４及び図５等を用いて後述する処理を実行する。なお、ここでの複数のサーバは、物理サーバであってもよいし、仮想サーバであってもよい。また、仮想サーバが用いられる場合、当該仮想サーバは、１つの物理サーバに設けられてもよいし、複数の物理サーバに分散して配置されてもよい。このように、本実施形態におけるサーバシステムの具体的な構成は、種々の変形実施が可能である。換言すれば、本実施形態に係る情報処理装置１０は、単一の装置によって実現されてもよいし、複数の装置の分散処理によって実現されてもよい。

【0016】

端末装置２０は、情報処理装置１０による学習結果を利用する装置である。例えば端末装置２０は、分類処理の対象となる文書データを情報処理装置１０に送信し、情報処理装置１０によって生成された学習済モデルによる当該文書データの分類結果を取得、表示する。

【0017】

端末装置２０は、例えば文書データの分類サービスを利用するユーザによって使用されるＰＣ（Personal Computer）である。ただし、端末装置２０は、スマートフォン、タブレット端末等であってもよく、具体的な態様は種々の変形実施が可能である。

【0018】

第２情報処理装置３０は、機械学習に利用される学習用の文書データを収集し、収集した文書データを情報処理装置１０に送信する装置である。例えば第２情報処理装置３０は、電子メール監査システムにおいて、学習用の電子メールを収集するメールサーバであってもよい。この場合、第２情報処理装置３０は電子メールの送受信処理を行うことによって電子メールを蓄積し、当該電子メールの一部または全部を学習用の文書データとして情報処理装置１０に送信する。また第２情報処理装置３０は、公開情報に基づいて学習用の文書データを収集してもよいし、端末装置２０から学習用の文書データを取得してもよい。その他、第２情報処理装置３０の具体的な装置構成や、学習用の文書データを収集する際のソースについては種々の変形実施が可能である。ただし、第２情報処理装置３０は必須の構成ではなく、情報処理システム１から省略されてもよい。例えば、情報処理装置１０または端末装置２０が学習用の文書データの収集を行うことも妨げられない。

【0019】

図２は、情報処理装置１０の構成例を示す図である。情報処理装置１０は、取得部１１０、解析処理部１２０、特徴量決定部１３０、学習処理部１４０を含む。ただし情報処理装置１０の構成は図２に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。

【0020】

取得部１１０は、文書データを取得する。例えば取得部１１０は、文書データに対して分類結果が正解データとして付与されている学習用データを取得してもよい。正解データを付与する処理（アノテーション）は、第２情報処理装置３０等において実行される。取得部１１０は、第２情報処理装置３０との通信を行う通信インターフェイスとして実現されてもよい。ここでの通信インターフェイスは、ＩＥＥＥ８０２．１１に準拠した通信を行うインターフェイスであってもよいし、他の方式の通信を行うインターフェイスであってもよい。通信インターフェイスは、例えばアンテナ、ＲＦ（Radio Frequency）回路、ベースバンド回路等を含んでもよい。なおアノテーションは、情報処理装置１０を用いて実行されてもよいし、端末装置２０を用いて実行されてもよい。

【0021】

解析処理部１２０は、取得部１１０から文書データを取得し、当該文書データの形態素解析を行う。形態素解析については自然言語処理の分野において広く用いられる手法であるため詳細な説明は省略する。形態素解析によって、１つの文書データから、当該文書データに含まれる複数の形態素が抽出される。

【0022】

特徴量決定部１３０は、形態素解析の結果に基づいて、文書データを表す特徴量を決定する。特徴量の詳細については後述する。

【0023】

学習処理部１４０は、特徴量に基づいて、形態素解析によって取得された形態素について、モデルにおける重みを決定する機械学習を行う。本実施形態におけるモデルは、線形モデルまたは一般化線形モデルである。線形モデルとは、例えば下式（１）で表されるモデルであってもよい。

【数1】

【0024】

例えば、本実施形態における文書データの特徴量は、複数の形態素の各形態素の特徴量の集合であってもよい。上式（１）において、ｘ１～ｘｎは、形態素のそれぞれに対応する特徴量を表す。ｗ１～ｗｎは、各形態素の重みである。上式（１）では、モデルの目的変数は文書のスコアであり、例えば対象の文書データが所与の事案と関連する度合いを表すスコアである。以下では、スコアが大きいほど、文書データと所与の事案の関連度合いが高いことを表す例について説明する。

【0025】

また一般化線形モデルとは、線形モデルを一般化したモデルであり、例えば下式（２）で表されるモデルであってもよい。なお一般化線形モデルは下式（２）に限定されず、線形モデルｆ（ｘ）に基づいて表現される他のモデルであってもよい。

【数2】

【0026】

本実施形態の手法では、線形モデルまたは一般化線形モデルが用いられるため、学習の処理負荷を抑制することや、学習用の文書データに過剰に適応してしまう過学習を抑制することが可能である。学習処理部１４０における処理の詳細については、図４以降を用いて後述する。

【0027】

学習処理部１４０は、学習処理によって重みが決定された線形モデルまたは一般化線形モデルを学習済モデルとして出力する。この学習済モデルを用いることによって、文書データの分類処理が可能になる。なお学習済モデルの出力とは、学習済モデルを情報処理装置１０のメモリ（例えば後述する記憶部２００）に記憶させる処理であってもよいし、学習済モデルを他の装置に送信する処理であってもよい。例えば情報処理装置１０は学習済モデルを端末装置２０に送信し、端末装置２０において、当該学習済モデルを用いた分類処理が実行されてもよい。

【0028】

本実施形態に係る情報処理装置１０の各部（狭義には取得部１１０、解析処理部１２０、特徴量決定部１３０、学習処理部１４０）は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子によって構成できる。１又は複数の回路装置は例えばＩＣ（Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）等である。１又は複数の回路素子は例えば抵抗、キャパシタ等である。

【0029】

また情報処理装置１０の各部は、下記のプロセッサによって実現されてもよい。本実施形態の情報処理装置１０は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プログラムは、情報処理装置１０に、本明細書で説明する処理を実行させるものを含んでよい。プロセッサは、ハードウェアを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。メモリは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置（ＨＤＤ：Hard Disk Drive）等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサが実行することによって、情報処理装置１０の各部の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。

【0030】

また情報処理装置１０は学習済モデルを生成する学習処理に加えて、当該学習済モデルを用いた推論処理（具体的には上述した分類処理）を実行してもよい。図３は、情報処理装置１０の他の構成例を示す図である。情報処理装置１０は、取得部１１０、解析処理部１２０、特徴量決定部１３０、学習処理部１４０に加えて、モデル取得部１５０、推論処理部１６０、表示制御部１７０、記憶部２００を含んでもよい。取得部１１０、解析処理部１２０、特徴量決定部１３０及び学習処理部１４０については、図２の例と同様であるため、詳細な説明は省略する。

【0031】

モデル取得部１５０、推論処理部１６０及び表示制御部１７０は、例えばＣＰＵ、ＧＰＵ、ＤＳＰ等、上述した各種のプロセッサにより実現される。記憶部２００は、プロセッサのワーク領域であって、種々の情報を記憶する。記憶部２００は、種々のメモリによって実現が可能であり、メモリは、ＳＲＡＭ、ＤＲＡＭ、ＲＯＭ（Read Only Memory）、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。

【0032】

モデル取得部１５０は、学習処理部１４０によって生成された学習済モデルを取得する。例えば学習処理部１４０は、生成した学習済モデルを記憶部２００に記憶する。モデル取得部１５０は、記憶部２００から所望の学習済モデルを読み出す処理を行う。例えば電子メール監査システムにおいて、監査すべき所与の事案がパワーハラスメントである場合の学習済モデルと、セクシャルハラスメントである場合の学習済モデルとが別々に作成されてもよい。あるいは、営業部に属する従業員を監査するための学習済モデルと、研究開発部に属する従業員を監査するための学習済モデルとが別々に作成されてもよい。このような場合に、モデル取得部１５０は、実行する監査の内容にあわせた学習済モデルを選択する処理を行ってもよい。

【0033】

推論処理部１６０は、モデル取得部１５０が取得した学習済モデルを用いた推論処理を行う。具体的には、推論処理部１６０は、分類処理の対象となる文書データを学習済モデルに入力することによって、当該文書データのスコアを取得してもよい。上述したように、当該スコアは、文書データと所与の事案の関連度合いを表す。

【0034】

なお文書データを学習済モデルに入力する際には、当該文書データの形態素解析及び特徴量の決定処理が行われる。例えば取得部１１０は、学習用の文書データだけでなく、分類対象となる文書データを取得してもよい。解析処理部１２０は、当該文書データの形態素解析を行う。特徴量決定部１３０は、形態素解析の結果に基づいて、分類対象となる文書データを表す特徴量を決定する。推論処理部１６０は、決定された特徴量を、学習済モデルに入力する。このようにすれば、取得部１１０、解析処理部１２０、特徴量決定部１３０を学習処理と推論処理で共有することが可能になる。ただし、取得部１１０、解析処理部１２０、特徴量決定部１３０とは別に、分類処理用の第２取得部、第２解析処理部、第２特徴量決定部（不図示）が設けられてもよく、具体的な構成については種々の変形実施が可能である。

【0035】

表示制御部１７０は、推論処理部１６０での処理結果を表示する制御を行う。例えば表示制御部１７０は、推論処理部１６０での処理結果を、端末装置２０の表示部に表示させる制御を行う。この場合、端末装置２０は、インターネットブラウザ等を用いてＷｅｂアプリケーションを実行してもよい。例えば、情報処理装置１０はＷｅｂアプリケーションサーバを含み、端末装置２０のブラウザは当該Ｗｅｂアプリケーションサーバにアクセスする。

【0036】

端末装置２０は、ユーザ操作に基づいて分類対象の文書データを決定し、当該文書データの分類処理を情報処理装置１０に依頼する。情報処理装置１０の推論処理部１６０は、上述したように分類処理を実行し、表示制御部１７０は当該分類処理の結果を端末装置２０の表示部に表示させる。ここでの表示制御とは、分類結果を含む画面を端末装置２０の表示部に表示させるためのマークアップ言語の送信処理であってもよい。ただし、表示制御部１７０は、分類処理結果をユーザが閲覧可能な態様で提示できればよく、具体的な表示制御はこれに限定されない。

【0037】

２．処理の流れ
２．１学習処理
図４は、本実施形態に係る処理を説明するフローチャートであり、特に学習用の文書データに基づいて機械学習を行う学習処理を説明するフローチャートである。

【0038】

まずステップＳ１０１において、取得部１１０は、学習用の文書データを取得する。例えば取得部１１０は、第２情報処理装置３０において正解データが対応付けられた文書データを学習用の文書データとして取得してもよい。また取得部１１０は、第２情報処理装置３０以外の機器から学習用の文書データを取得してもよい。あるいは取得部１１０は、正解データが対応付けられていない文書データを取得し、当該文書データに正解データを対応付けることによって学習用の文書データを取得してもよい。正解データは例えばユーザによって入力されるものであり、情報処理装置１０を用いて当該正解データの入力が行われてもよいし、端末装置２０等の他の機器を用いて当該正解データの入力が行われてもよい。

【0039】

ここでの正解データとは、例えば対象の文書データが所与の事案と関連するか否かを表す情報である。例えば情報処理装置１０がメール監査システムにおいて、パワーハラスメントに関連する文書データを検出する処理を行う場合を考える。この例における正解データとは、対象の文書データ（電子メール等）が、パワーハラスメントに関連するか否かを示す２値の情報である。例えば正解データを付与するユーザは、対象の文書データの内容を閲覧し、当該文書データがパワーハラスメントに関連するか否かの判定結果を表すデータを正解データとして入力する。なお、正解データは２値データに限定されず、所与の事案との関連の強さを表す３段階以上の数値データ等であってもよい。

【0040】

ステップＳ１０２において、解析処理部１２０は、学習用の文書データに対する形態素解析処理を行う。ここでの形態素とは、文を言語上で意味を持つ最小単位を表す。形態素解析とは、文書データを複数の形態素に分解する処理を含む。解析処理部１２０は、形態素解析の結果として、当該文書データに含まれる形態素の集合を取得する。なお解析処理部１２０では、形態素の品詞等を判定してもよく、それらの判定結果が形態素解析の結果に含まれてもよい。形態素解析については自然言語処理の分野において広く用いられる手法であるため、詳細な説明は省略する。

【0041】

ステップＳ１０３において、特徴量決定部１３０は、文書データに対応する特徴量を決定する。例えば、特徴量決定部１３０は、対象の文書データにおける所与の形態素の出現状態に基づいて、当該所与の形態素に対応する値を決定する処理を行ってもよい。そして特徴量決定部１３０は、各形態素について求められた値を並べたテンソル（狭義にはベクトル）を対象の文書データを表す特徴量としてもよい。

【0042】

例えば特徴量決定部１３０は、所与の形態素に対応する値として、当該形態素が文書データに含まれるか否かを表すバイナリデータを用いてもよい。バイナリデータとは、形態素が文書データに含まれる場合に第１の値（例えば１）となり、形態素が文書データに含まれない場合に第２の値（例えば０）となるデータであってもよい。例えば “Ｉｍｐｏｓｓｉｂｌｅｉｓｎｏｔｈｉｎｇ”という３つの形態素からなる文書データを対象とした場合、当該文書データの特徴量は、Impossible, is, 及びnothingに対応する要素の値が１となり、他の全ての要素の値が０となるベクトルである。

【0043】

あるいは特徴量決定部１３０は、所与の形態素に対応する値として、当該形態素の出現頻度であるｔｆ（Term Frequency）に基づく値を用いてもよい。また特徴量決定部１３０は、所与の形態素に対応する値として、ｔｆ及び逆文書頻度であるｉｄｆ（Inverse Document Frequency）に基づいて決定される値を用いてもよい。

【0044】

ステップＳ１０４において、学習処理部１４０は、モデルの入力データとして特徴量を用いた学習処理を行う。具体的には、式（１）や（２）におけるｘ１～ｘｎがステップＳ１０３で決定された特徴量（ベクトルの各要素）に対応し、文書データのスコアが正解データに対応する。学習処理部１４０は、多数の学習用の文書データから取得された（ｘ１，ｘ２，…，ｘｎ，スコア）の組に基づいて、最も確からしい重みｗ１～ｗｎを決定する処理を行う。線形モデルにおける重みの決定処理では、最急降下法やニュートン法、主双対内点法等の種々の線形最適化手法が知られており、本実施形態ではそれらの手法を広く適用可能である。

【0045】

ステップＳ１０５において、学習処理部１４０は、複数の形態素のうち、対応する重みの値が所定閾値以下の形態素を、これ以降の学習処理から除外する処理を実行する。例えば、学習処理部１４０は、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う。より具体的には、所与の形態素に対応する重みｗｉ（ｉは１以上ｎ以下の整数）が所定閾値以下であると判定された場合、学習処理部１４０は、上式（１）や（２）等によって表されるモデルからｗｉ×ｘｉに対応する項を削除してもよい。結果として、ｘｉに対応するｉ番目の形態素が、学習処理の対象から除外される。

【0046】

本実施形態の手法によれば、所与の形態素を処理に用いるか否かを、学習処理部１４０が自動的に判定することが可能になる。そのため、例えば最初にステップＳ１０４の学習処理を行う段階において、形態素の一部を予めフィルタリングする等の負荷軽減処理を行う必要性を低くできる。狭義には学習処理部１４０は、学習用の文書データから抽出された全ての形態素を学習処理に利用してもよい。あるいは学習処理部１４０は、対象の自然言語において想定される全ての形態素に対応する特徴量を学習処理に利用してもよい。

【0047】

このようにすれば、一部の形態素を予め除外する必要がないため、学習処理の前処理における負荷を軽減できる。例えば、従来手法では、形態素解析の誤りによって形態素が誤検出された場合、不適切な形態素を除外する処理が実行されていた。これに対して本実施形態では、そのような不適切な形態素を自動的に除外することが可能である。不適切な形態素が、文書データと所与の事案との関連度合いに与える影響は低いことが想定されるため、ステップＳ１０４の処理において自然と低い重みが設定されると考えられるためである。例えば１つの形態素が非常に少ない文字数から構成される可能性がある中国語、日本語、韓国語等では、他の言語（例えば英語）に比べて形態素解析が難しい。本実施形態の手法であれば、このような言語を対象とする場合であっても、学習処理において形態素解析の誤りを自動的に除外できるという利点がある。

【0048】

また、本実施形態の文書データは音声データを対象として音声認識処理によって取得されたデータであってもよい。この場合、音声認識処理のエラーにより不適切な形態素が取得されることもあるが、本実施形態ではそのような不適切な形態素も自動的に除去される。エラー要因が音声認識処理であったとしても、文書データと所与の事案との関連度合いにおいて、不適切な形態素が与える影響が低いと考えられる点は同様のためである。即ち、本実施形態の手法では、音声認識処理や形態素解析等、学習処理の前段階の処理で生じうるエラーを、学習処理のモデルを用いて自動的に除去できる。

【0049】

なお本実施形態の手法では、モデルが線形モデルまたは一般化線形モデルであることも重要である。なぜなら、図４を用いて上述したように、本実施形態ではまず多数の（狭義には全ての）形態素を対象として重みを決定する処理を実行し（ステップＳ１０４）、その結果を用いて一部の形態素を自動的に除外する（ステップＳ１０５）。そのため、多数の形態素を対象とした処理が１回は必須となる。処理負荷が相対的に大きいモデル（例えば多層の中間層を有するニューラルネットワーク等）を用いた場合、形態素の数、即ち入力データの数が大きければ、最初に重みを決定する処理負荷が大きくなってしまい、モデルを用いて一部の形態素を自動的に除外することによる負荷軽減効果が損なわれる可能性もある。その点、上記の通り、数学的に解析が容易な線形モデルまたは一般化線形モデルを用いることによって、形態素の数が大きい場合にも効率的に重みを決定できるため、学習処理における負荷を適切に軽減することが可能になる。

【0050】

重みが所定以下の形態素を削除した後、ステップＳ１０６において、学習処理部１４０は、学習処理を終了するか否かを判定する。例えば学習処理部１４０は、交差検証を行うことによって学習精度を表す指標値を求め、当該指標値に基づいて学習を終了するか否かを判定してもよい。交差検証とは、複数の学習データをＮ（Ｎは２以上の整数）単位に分割し、そのうちのＮ－１単位を訓練データとして重みの更新を行い、残りの１単位をテストデータ（バリデーションデータ）として、上記指標値を求める処理を行う手法である。交差検証については公知の手法であるため詳細な説明は省略する。またここでの指標値は、再現率、正解率、適合率、ＡＵＣ（Area Under the Curve）等、種々の指標値を用いることが可能である。

【0051】

学習を終了しないと判定された場合（ステップＳ１０６：Ｎｏ）、学習処理部１４０は、例えばステップＳ１０３に戻って処理を行う。この場合、形態素に対応する特徴量を再計算し、再計算後の特徴量に基づいて、各形態素の重みを決定する処理が行われる。この際、ステップＳ１０５において削除された形態素は特徴量算出の対象から除外されてもよい。またステップＳ１０４において、学習に用いられる制御パラメータの一部が変更されてもよい。

【0052】

あるいは学習を終了しないと判定された場合（ステップＳ１０６：Ｎｏ）、学習処理部１４０は、例えばステップＳ１０４に戻って処理を行ってもよい。この場合、学習処理部１４０は、特徴量については決定済みの値を用い、特徴量とは異なる制御パラメータの一部を変更した上で再度、重みを決定する処理を実行する。

【0053】

学習を終了すると判定された場合（ステップＳ１０６：Ｎｏ）、学習処理部１４０は、その時点での重みが設定された線形モデルまたは一般化線形モデルを、学習済モデルとして出力し、学習処理を終了する。

【0054】

２．２推論処理（文書データの分類処理）
図５は、本実施形態に係る処理を説明するフローチャートであり、特に学習済モデルに基づいて分類対象となる文書データを分類する処理を説明するフローチャートである。ここでの分類処理は、各文書データについて、所与の事案との関連度合いを表すスコアを求める処理を含む。

【0055】

まずステップＳ２０１において、取得部１１０は、分類用の文書データを取得する。例えば端末装置２０のユーザは、パワーハラスメントに関する監査対象となる１または複数のメールを選択し、取得部１１０は、選択されたメールを分類用の文書データとして取得する処理を行う。

【0056】

ステップＳ２０２において、解析処理部１２０は、文書データの形態素解析を行う。ステップＳ２０３において、特徴量決定部１３０は、形態素解析の結果に基づいて、文書データに対応する特徴量を決定する。ステップＳ２０２及びステップＳ２０３の処理は、図４のステップＳ１０２及びＳ１０３と同様である。なお特徴量決定部１３０は、学習済モデルの入力データから削除された形態素を、特徴量決定処理の対象から除外してもよい。

【0057】

ステップＳ２０４において、モデル取得部１５０は、学習済モデルを取得する。図３を用いて上述したように分類処理が情報処理装置１０において行われる場合、モデル取得部１５０は、記憶部２００から分類処理の内容に応じた学習済モデルを読み出す処理を行う。

【0058】

次に推論処理部１６０は、学習済モデルを用いた推論処理を行う。具体的には、ステップＳ２０５において、推論処理部１６０は、ステップＳ２０３で取得された特徴量を学習済モデルに入力する。そしてステップＳ２０６において、対象の文書データに対応するスコアを算出する。具体的には、推論処理部１６０は、特徴量を上式（１）または（２）のｘ１～ｘｎ（ただし図４のステップＳ１０５で削除されたものを除く）に入力し、学習処理によって取得された重みを乗算することによって文書データのスコアを求める。ここでのスコアは、対象の文書データが所与の事案に関連する度合いを表す情報である。

【0059】

ステップＳ２０７において、表示制御部１７０は、スコアの算出結果を端末装置２０に表示する処理を行う。例えば表示制御部１７０は、分類対象である複数の文書データのうち、スコアが所定以上であると判定された文書データのリストを、端末装置２０の表示部に表示させる処理を行ってもよい。

【0060】

３．情報処理装置における処理の具体例
以下、学習処理または推論処理におけるより詳細な処理の例について説明する。

【0061】

３．１確率データ出力
上述したように、本実施形態におけるスコアとは、モデルの出力値に基づいて決定される値であってもよい。ここでのスコアは、例えば上述したように文書データと所与の事案の関連度合いを表す情報であり、文書データと所与の事案が関連する確からしさを表す数値データであってもよい。例えばスコアは、値が大きいほど、文書データと所与の事案の関連度合いが高いことを示す情報である。

【0062】

図６は、モデルの出力値と、文書データが所与の事案と関連する割合を表す情報である。図６の横軸はモデルの出力値である。図６の縦軸は、例えばモデルの出力値が所与の値であった文書データの総数に対する、実際に所与の事案と関連していた文書データの数の比率を表す。図６の縦軸の値は、例えば交差検証におけるテストデータに基づいて決定されてもよい。例えばテストデータに含まれる複数の文書データを学習済モデルに入力した結果、スコアがＳとなる文書データがＮｓ件取得されたとする。そして、当該Ｎｓ件の文書データの正解データを参照したところ、そのうちのｘ件が所与の事案に関係し、残りの（Ｎｓ－ｘ）件は所与の事案に関係していなかったとする。この場合、横軸の値がＳの場合の縦軸の値ＰｓはＰｓ＝（ｘ／Ｎｓ）で表される。以下、縦軸の値を、「文書データが所与の事案と関連する割合」と表記し、さらに簡略化して単に「割合」とも表記する。

【0063】

この際、スコアと割合とは線形の関係にない場合がある。例えば図６の破線に示すように、割合がスコアに関する非線形関数となる場合が考えられる。なお図６では、スコアを０以上１以下の値に正規化しているが、これには限定されない。

【0064】

例えばスコアが最大値の２０％（例えば０．２）である場合、当該スコアを閲覧したユーザは、２０％の確率で文書データが所与の事案に関連していると判断する可能性がある。しかし、図６の例ではスコアが０．２である場合、縦軸の割合の値は０．２よりも小さい値となる。つまり、スコアが０．２である文書データが所与の事案に関連する確率は２０％よりも低くなる。同様に、図６の例ではスコアが０．８である場合、縦軸の割合の値は０．８よりも大きい値となる。つまり、スコアが０．８である文書データが所与の事案に関連する確率は８０％よりも高くなる。従って、スコアと割合が非線形の関係にある場合、スコアの値からユーザが感じる印象と、実際の割合とに乖離が生じてしまう。

【0065】

またスコアと割合がどのような関係にあるかは、学習用の文書データによって異なる可能性がある。例えば、本実施形態の情報処理装置１０がディスカバリ支援システムに用いられる場合と、メール監査システムに用いられる場合とでは、学習用の文書データが異なる。そのため、２つのシステムではスコアと割合の関係が異なることになるため、スコアの持つ意味がそれぞれのシステムで異なってしまう。またメール監査システムの中でも、所与の事案がパワーハラスメントである場合と、セクシャルハラスメントである場合とでスコアと割合の関係が異なる可能性もある。

【0066】

よって本実施形態では、スコアと割合の乖離を抑制するように、スコアの補正処理が行われてもよい。具体的には、情報処理装置１０は、割合がスコアの線形関数に近づくような補正処理を行う。ここでの補正処理は、例えばスコアの値を実際の割合の値に近づける補正処理であってもよい。例えば、モデルの出力である補正前スコアの値がＳであり、当該補正前スコアに対応する割合の値がＰｓであった場合、補正後スコアの値はＳからＰｓに近づくように補正される。このようにすれば、補正後スコアの値と、当該補正後スコアに対応する割合の値を一致させることが可能になる。図６の例であれば、スコアと割合の関係が、破線から実線に補正される。

【0067】

例えば情報処理装置１０は、上述したように交差検証におけるテストデータを用いて、スコアと割合の対応関係を表す関係データを求めておく。ここでの関係データは割合＝Ｆ（スコア）となる関数Ｆであってもよいし、スコアの値と割合の値とを対応付けたテーブルデータであってもよい。関係データが既知であれば、補正前スコアの値がＳである場合の割合の値Ｐｓを決定できるため、上記補正を適切に実行可能である。

【0068】

補正処理の結果として、例えば補正後スコアが最大値の２０％である場合、対象の文書データが所与の事案に関連する確率が２０％程度となることが期待される。つまり推論処理部１６０は、推論対象データと、所与の事案と関連する確率を表す確率データをスコア（上記補正後のスコア）として出力してもよい。これにより、スコアを閲覧したユーザが抱く印象と、割合を対応付けることが可能になる。さらに本実施形態の手法では、所与の事案の種類によらず、補正後スコアを確率データとすることが可能になる。つまり、情報処理装置１０が適用されるシステムや、当該システム内で対象とする事案の差異によらず、スコアの持つ意味が一定となるため、ユーザによる判断を容易にすることが可能になる。また表示制御部１７０での表示制御において、スコアを用いてフィルタリングを行う場合にも、当該フィルタリングにおける判断基準をシステムや所与の事案によらず統一することが可能になる。

【0069】

なお、以上ではモデルの出力を補正前スコアとして求めた後、当該補正前スコアに対して関係データに基づく補正処理を行う例を示した。当該補正処理は、例えば学習処理部１４０が補正前スコアと割合の関係データを学習段階で取得しておき、推論処理部１６０が当該関係データに基づく補正処理を推論段階において実行することによって実現される。ただし本実施形態の補正処理はこれに限定されない。例えば情報処理装置１０は、モデルの出力が補正後スコアとなるように、重みｗ１～ｗｎを補正する処理を行ってもよい。つまり学習処理部１４０による学習処理において、上記補正処理が実行されることも妨げられない。

【0070】

３．２パラメータの自動設定
図４を用いて上述したように、学習処理部１４０は、学習処理を終了するか否かを指標値に基づいて判定し（ステップＳ１０６）、終了しないと判定した場合、学習処理を継続する。学習処理を継続する際、学習処理部１４０は、学習処理に関連する何らかの設定変更を行った後で再度、形態素の重みを決定する処理を行ってもよい。

【0071】

学習処理部１４０は、モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習を実行可能であってもよい。具体的には学習処理部１４０は、アンサンブル学習を実行するか否か（アンサンブル学習のオン／オフ）を切り替え可能であってもよい。例えばアンサンブル学習においては、ブートストラップ手法により、多様性を持たせた複数の訓練データを取得し、当該複数の訓練データから複数のモデルを取得し、当該複数のモデルを用いて推定を行うバギングという手法が知られている。その他、アンサンブル学習についてはブースティング、スタッキング、ニューラルネットワーク等の種々の手法が知られており、本実施形態ではこれらの手法を広く適用可能である。

【0072】

例えば学習処理部１４０は、学習処理によって取得されたモデルの評価処理を行い（ステップＳ１０６）、モデルの性能が所定以下であると判定された場合（ステップＳ１０６：Ｎｏ）、アンサンブル学習におけるアンサンブルを解除した（アンサンブル学習をオフにした）上で、機械学習を継続してもよい。換言すれば、本実施形態の学習処理部１４０は、アンサンブル学習のオン／オフを決定する制御パラメータを自動的に変更してもよい。

【0073】

アンサンブル学習は単一のモデルを用いた学習処理に比べて精度が高いと言われているが、学習用のデータを十分な量だけ取得できなかった場合等には、アンサンブル学習を行うことでかえって推定精度が低下する可能性もある。例えば、ディスカバリ支援システムやメール監査システム等、本実施形態で想定するシステムでは、収集される文書データのうち、所与の事案に関連する文書データの割合が非常に低いことも想定される。そのため、全体としての文書データ数が多かったとしても、一方側に分類されるデータ量（所与の事案に関連する文書データの数）が不足することも考えられる。この場合も、アンサンブル学習を行うことで精度が低下する可能性がある。その点、本実施形態では作成されたモデルを評価しながら自動的にアンサンブル学習のオン／オフを切り替えることができる。結果として、学習用の文書データの収集状況等に合わせて適切な学習処理を実行することが可能になる。

【0074】

あるいは、学習処理部１４０は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、特徴量決定部１３０において特徴量の決定に用いられる特徴量モデルを変更した上で、機械学習を継続してもよい。ここでの特徴量モデルとは、例えば、各形態素の文書データ中での出現状況に基づいて、当該形態素に対応する値を決定するためのモデルである。上述したように、特徴量モデルとは、各形態素にバイナリデータを割り当てるモデルであってもよいし、ｔｆに対応する値を割り当てるモデルであってもよいし、ｔｆ－ｉｄｆに対応する値を割り当てるモデルであってもよいし、これ以外のモデルであってもよい。

【0075】

例えば、対象の文書データが所定ワード数以上の長文である場合や、短文であっても文語調の表現が用いられている場合、ｔｆを用いた方がバイナリデータを用いる場合に比べて精度が高くなりやすい。一方、短文且つ口語調の表現が用いられる文書データでは、バイナリデータを用いたシンプルな特徴量モデルの方がｔｆ等を用いる場合に比べて精度が高くなりやすいことが分かってきた。本実施形態の手法では、特徴量モデルを自動的に変更することによって、文書データの長さや使用される表現等に応じて適切な学習処理を実行することが可能になる。

【0076】

あるいは、学習処理部１４０は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、機械学習に用いられるモデル（関数モデル）を変更した上で、機械学習を継続してもよい。例えば学習処理部１４０は、上式（１）に示した線形モデルを用いて取得された学習済モデルの性能が所定以下と判定された場合に、上式（２）に示した一般化線形モデルにモデルを変更した上で機械学習を行ってもよい。また学習処理部１４０は、一般化線形モデルから線形モデルへの変更を行ってもよい。また一般化線形モデルの態様が上式（２）に限定されないことは上述した通りである。例えば記憶部２００は、互いに異なる複数の一般化線形モデルを記憶してもよい。学習処理部１４０は、評価処理においてモデルの性能が所定以下であると判定された場合、線形モデル及び当該複数の一般化線形モデルのうち、未選択である何れか１つに、関数モデルを変更する処理を行ってもよい。その他、モデル（関数モデル）の変更手法は種々の変形実施が可能である。

【0077】

３．３メタデータ
また本実施形態では、文書データに対してメタデータが付与されてもよい。ここでのメタデータは、例えば文書データの文字数、行数、これらの分布や統計量（平均値、中心値、標準偏差等）を含む。また本実施形態における文書データは、複数の人物の会話を書き起こしたデータであってもよい。例えば取得部１１０は、会話を録音した音声データを取得し、当該音声データに対する音声認識処理を行うことによって文書データを取得してもよい。この場合、文書データのメタデータには、人物毎の発話文字数、発話行数、発話時間等が含まれる。例えば文書データが、顧客と従業員の会話に対応する場合、顧客の発話文字数、従業員の発話文字数、時間分布等がメタデータとして用いられる。また、全発話文字数に対する、顧客の発話文字数の割合や従業員の発話文字数の割合等がメタデータとして用いられてもよい。例えば文書データの保管されていたファイルパス名やメールのやり取りの日時を含めてもよい。

【0078】

これらのメタデータは、学習処理に用いられてもよい。例えば特徴量決定部１３０は、文書データに付与されたメタデータに基づいて、当該メタデータに関する特徴量であるメタデータ特徴量を決定してもよい。学習処理部１４０は、形態素に対応する特徴量、及び、メタデータ特徴量に基づいて、機械学習を行う。このようにすれば、形態素とは異なるメタデータを特徴量に含めることができるため、学習精度の向上が可能になる。

【0079】

なお学習処理部１４０は、学習処理において、メタデータに対応する重みを求め、対応する重みの値が所定閾値以下のメタデータを、モデルの入力データから削除してもよい。このようにすれば、形態素だけでなくメタデータについても、その取捨選択を人が事前に経験等に基づいて行わずとも、モデルを用いて自動的に実行することが可能になる。

【0080】

ただしメタデータは、その値がデータ毎に大きく異なる可能性がある。例えば、発話文字数は発話行数に比べて値が大きくなりやすい。また発話時間は、単位として秒を用いるか分を用いるかで値が変化しうる。そのため、メタデータの値をそのまま特徴量として用いた場合、値の大きな特徴量に学習モデルが強く影響され、全特徴量をまんべんなく学習できない可能性もある。また決定木方式やランダムフォレストを用いた場合、単位やスケールの差異に無関係に学習が可能であるが、これらの手法は非線形性が強いため、上述したとおり、本実施形態では用いられない。

【0081】

例えば、メタデータに対応する補正前特徴量として、第１～第Ｐ補正前特徴量が取得され、文書データとして、第１～第Ｑ文書が取得された場合を考える。メタデータに対応する特徴量の種類数がＰであり、文書データの数がＱである。ここで、Ｐ、Ｑはそれぞれ１以上の整数である。ただし実際にはメタデータの種類数、及び文書データの数はともに複数であることが想定されるため、Ｐ、Ｑはそれぞれ２以上の整数であってもよい。

【0082】

特徴量決定部１３０は、補正前特徴量の個数Ｐ、文書データの数Ｑ、第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められる第１ノルム、及び、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる第１～第Ｐ補正前特徴量によって求められる第２ノルム、に基づいて、第１～第Ｐ補正前特徴量を補正することによって、メタデータ特徴量を決定してもよい。このようにすれば、メタデータ特徴量を適切に正規化することが可能になる。具体的には第１ノルムに基づく補正により、メタデータ間の値の差異を抑制できるため、線形モデルまたは一般化線形モデルを用いる場合にも適切な学習が可能である。さらに第２ノルムに基づく補正も行うことで、文書ごとの特徴量の総和に対応する情報（例えば二乗和）を揃えることが可能になる。結果として、求められる特徴量の形式が言語情報（形態素）のみを対象とした場合と同様になるため、メタデータを用いる場合にも言語情報と同様の処理により学習を実行可能である。

【0083】

図７Ａ～図７Ｃは、メタデータ特徴量の補正処理（正規化処理）を具体的に説明する図である。図７は、補正前のメタデータ特徴量を表す。ここでは４種類のメタデータ特徴量及び、３つの文書データである文書１～文書３を対象とした例を説明する。即ちＰ＝４、Ｑ＝３の例を考える。

【0084】

図７Ａに示すように、メタデータ特徴量１の値は、文書１～文書３においてそれぞれ１００、３００、５００である。メタデータ特徴量２の値は、文書１～文書３においてそれぞれ３、２、１である。メタデータ特徴量３の値は、文書１～文書３においてそれぞれ５０００、３００、１である。メタデータ特徴量４の値は、文書１～文書３においてそれぞれ０、１、０である。この例では、メタデータ特徴量１及び３の影響が相対的に強くなってしまう。図７Ａにおける||L2||は、二乗和の平方根であるＬ２ノルムを表す。縦方向のＬ２ノルムは、第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められるノルムであるため、第１ノルムに対応する。

【0085】

図７Ｂは、Ｐ，Ｑ及び第１ノルムを用いた補正処理を説明する図である。図７Ｂは、図７Ａの各要素について、下式（３）によって表される補正処理を行った結果を表す図である。例えばメタデータ特徴量１については、（１／５９１）×√（３／４）を乗じた結果である。図７Ｂに示す補正処理を行うことによって、縦方向のＬ２ノルムの二乗の値が全てのメタデータ特徴量について０．７５で統一される。これにより、メタデータ特徴量ごとのスケールによる影響を抑制することが可能になる。

【数3】

【0086】

また図７Ｂにおける横方向のＬ２ノルムは、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる第１～第Ｐ補正前特徴量によって求められるノルムであるため、第２ノルムに対応する。図７Ｂから明らかな通り、文書１はメタデータ特徴量の値が全体的に大きく、文書３はメタデータ特徴量の値が全体的に小さいというばらつきがある。本実施形態では、第２ノルムを用いた補正処理を行うことによって、当該ばらつきが抑制されてもよい。

【0087】

図７Ｃは、第２ノルムを用いた補正処理を説明する図である。図７Ｃは、図７Ｂの各要素について、１／（第２ノルム）を乗算する補正処理を行った結果を表す図である。例えば文書１については、各要素に（１／√１．２５）を乗じた結果である。図７Ｃに示す補正処理を行うことによって、横方向のＬ２ノルムの二乗の値が全ての文書について１で統一される。これにより、特徴量の形式を言語情報のみを対象とした場合と同等にすることが可能になる。なお、メタデータ特徴量に対する補正処理をまとめると、下式（４）となる。

【数4】

【0088】

３．４ブロック単位でのハイライト
本実施形態の推論処理部１６０は、推論対象データを、任意の長さの複数のブロックに分割し、当該複数のブロックのそれぞれについて、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行ってもよい。なおここでの確率データは、図６を用いて上述した手法によって求められる。またスコアは、０以上１以下（０％以上１００％以下）である確率データそのものであってもよいし、確率データに対して所与の定数を乗じた値であってもよい。例えばスコアは０点以上１００００点以下の数値データであってもよい。

【0089】

本実施形態の手法によれば、文書データ全体としての確率データだけでなく、当該文書データの一部であるブロックを対象とした確率データを算出できる。そのため、文書データの中で特に重要と考えられる部分を適切に特定することが可能である。なおブロックは、例えば段落であってもよいがこれには限定されず、複数の段落を含むブロックが設定されてもよいし、１つの段落が複数のブロックに分割されてもよい。またブロックとブロックが重複することも妨げられない。換言すれば、文書データの所与の一部が、第１ブロックに含まれ、且つ、当該第１ブロックとは異なる第２ブロックに含まれてもよい。またブロックは自動で設定されてもよいし、ユーザ入力に基づいて設定されてもよい。

【0090】

例えば特徴量決定部１３０はブロック毎に当該ブロックを表す特徴量を求め、推論処理部１６０は、当該特徴量を学習済モデルに入力することによって確率データを求めてもよい。あるいは推論処理部１６０は、対象のブロックに含まれる形態素を特定し、当該形態素に対応する重み（ｗ１～ｗｎのいずれか）を用いて、ブロックのスコアを求めてもよい。

【0091】

決定木方式やランダムフォレストでは、各二分木での分岐先を決定する際にある特徴量を用いた判定が行われる。そのため、入力となる文書データが短く、当該文書データに含まれる形態素の種類数が所定以下となる場合、判定基準となる特徴量を取得できないことで分岐判定を適切に行えない二分木が多くなる。結果として決定木方式等では、短いブロックを対象とした場合に、処理精度が非常に低くなる可能性がある。その点、本実施形態の手法では線形モデルまたは一般化線形モデルが用いられるため、各形態素の重みが学習処理において算出される。そのため、分類処理の対象となる文書データが短かったとしても、当該重みを用いてスコアを求める処理を適切に実行できるため、ブロック単位でも精度の高い推定が可能になる。

【0092】

例えば推論処理部１６０は、複数のブロックのそれぞれについて、スコアと、推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、ブロックの表示態様を決定してもよい。上述したとおり、スコアを確率データに補正することによって、ジャンル（具体的には関連度合いの判定対象となる所与の事案の種類）の差異が吸収され、スコアの持つ意味を統一できる。従って、所与の事案が何であるかにかかわらず、判定基準を揃えることが可能である。例えば推論処理部１６０は、スコア範囲を０点以上１００００点以下とした場合に、１０００～２４９９点を第１色、２５００～３９９９点を第２色、４０００～１００００点を第３色で表示すると判定してもよい。表示制御部１７０は、推論処理部１６０で決定された表示態様を用いて各ブロックを表示するための制御を実行する。例えば表示制御部１７０は、各ブロックの文字色または背景色が、スコアに応じて基本色（黒色文字、白色背景）または第１色～第３色のいずれかとなる表示制御を行ってもよい。なお第１色～第３色は、互いに識別が可能であればよく、具体的な色は問わない。

【0093】

図８Ａは、表示制御部１７０による表示制御結果の例を示す図である。図８Ａの例では文書データが５つのブロックに分割され、そのうちの１，４，５番目のブロックのスコアが高かったため、背景色が変更される表示制御が実行される。ただし、表示制御の例はこれに限定されず、文字のサイズを変更する、注釈を追加する、ブロックを囲む枠線を追加する等、種々の変形実施が可能である。

【0094】

また図８Ｂに示すように、表示制御部１７０は、文書データの各ブロックに関する判定結果を表示する際に、各形態素について求められた重み（ｗ１～ｗｎ）を表示する制御を行ってもよい。図８Ｂに示す例では、「弁護士」、「賠償」等の各形態素について、重みの値が表示されている。図８Ａの画面とともに図８Ｂの画面を表示することによって、どの形態素が要因となって表示態様が決定されているかをユーザに分かりやすく知らせることが可能になる。なお、図８Ａの画面と図８Ｂの画面は、１つのウィンドウの中で並べて表示されてもよいし、異なるウィンドウを用いて表示されてもよい。

【0095】

また推論処理部１６０は、推論対象の文書データとして複数の推論対象データが取得された場合に、複数の推論対象データのそれぞれについて、文書データ単位のスコアを算出し、複数の推論対象データのうち、相対的にスコアが高い一部を対象として、複数のブロックのそれぞれについてブロック単位のスコアを出力する処理を行ってもよい。

【0096】

上述したように、１つの文書データに対してブロックは複数設定されることが想定されるため、全文書データを対象として、ブロック単位のスコアを算出した場合、処理負荷が大きくなる。しかし、文書単位でのスコアを基準として、ブロック単位のスコア算出対象となる文書データを絞り込むことによって、処理負荷の軽減が可能である。例えば推論処理部１６０は、文書データ単位のスコアが所定閾値以上の文書データを対象としてブロック単位のスコアを求める処理を行ってもよい。あるいは推論処理部１６０は、文書データ単位のスコアが高い方から所定数の文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。あるいはユーザの知りたい文書と同程度のスコア帯や類似ワードを含む文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。

【0097】

３．５交差検証と予測曲線
上述したように、表示制御部１７０は分類処理の対象となる複数の文書データについてそれぞれスコアを算出し、当該スコアに基づいた表示制御を行う。具体的には、表示制御部１７０は、スコアが高い順にソートされた文書データのリストを、端末装置２０の表示部に表示させる制御を行ってもよい。端末装置２０のユーザは、例えばリスト表示された文書データの何れかを選択することによって、当該文書データの内容を確認し、当該文書データが実際に所与の事案に関連しているかの判定等を行う。以下、文書データが所与の事案と関連するか否かの判定処理をレビューとも表記する。

【0098】

端末装置２０のユーザがスコアの高い順に複数の文書データをレビューしていっても、所与の事案に関連する文書データが全く発見されないというケースが考えられる。この場合、当該ユーザは、当該複数の文書データに所与の事案に関連する文書データが本当に含まれていないと考えるか、あるいはシステムの精度に問題があることを疑うか、判断に迷う可能性も出てくる。

【0099】

そこで本実施形態の学習処理部１４０は、交差検証の結果に基づいて、予測曲線を求める処理を行ってもよい。ここでの予測曲線とは、レビューを進めた場合に、所与の事案に関連すると判定される文書データの発見数がどのように推移するかを表す情報である。予測曲線により、想定されるレビュー結果をユーザに提示できる。例えば、レビューにより所与の事案に関連する文書データが発見されないことが妥当であるか否かを、ユーザに判断させること等が可能になる。

【0100】

図９は、予測曲線の一例を示す図である。図９の横軸はレビューの進捗率を表す。即ち、処理対象の文書データのうち、レビューが行われた文書データの割合を表す。縦軸は、再現率（予測再現率）を表す。即ち図９の縦軸は、所与の事案に関連する文書データのうち、レビューによって発見された（発見すると予測される）文書データの割合を表す。

【0101】

例えば、学習用の文書データが１２００件であり、そのうちの８００件が機械学習に用いられる訓練データに設定され、残りの４００件が学習済モデルの検証に用いられるテストデータに設定された場合を考える。さらに、ここでは４００件のテストデータのうち、２０件が所与の事案に関連し、残りの３８０件は所与の事案に関連しない例を考える。

【0102】

この場合、８００件の訓練データに基づいて生成された学習済モデルに対して、４００件のテストデータのそれぞれを入力することによって各テストデータのスコアが算出される。そして４００件のテストデータのうち、スコアが高い順にレビューが行われる。ここでは各テストデータに正解データが付与されているため、レビューとは当該正解データに基づいて、各テストデータが所与の事案に関連するか否かを判定する処理となる。例えば１件のレビューを行うことによって横軸の値は１／４００だけ増加する。そして当該１件の文書データが所与の事案に関連するのであれば縦軸の値が１／２０だけ増加し、所与の事案に関連しないのであれば、縦軸の値は維持される。これを全４００件のレビューが完了するまで繰り返すことによって、図９の座標系において１つのグラフ（予測線）が描かれる。例えば図９のＡ１が予測線に対応する。

【0103】

例えば予測線上に（０．２，０．９）という座標が存在したとする。横軸の値が０．２とは、４００件のテストデータのうち、スコアの上位２０％、即ち上位８０件までの文書データのレビューが行われたことを表す。縦軸の値が約０．９とは、上位８０件のレビューによって、所与の事案に関連する文書データが、２０×０．９＝１８件だけ発見されたことを表す。

【0104】

ただし、図９のＡ１に示したように、予測線はなめらかな曲線になるとは限らない。例えば、所与の事案に関連する文書数（例えば上記の例では４００件中の２０件）が少ない場合、予測線が階段状に変化してしまう。この階段状の変化は、対象の訓練データ、テストデータの組み合わせに起因して発生したと考えられるため、異なる文書データを対象とする分類処理の段階では発生しない可能性がある。従って、当該階段状の変化を含む予測線を、予測曲線としてユーザにて提示することは好ましくない。

【0105】

そこで本実施形態では、訓練データとテストデータの組み合わせを複数用意し、それらから求められる複数の予測線を平均することによって予測曲線を求めてもよい。なお、交差検証では学習用のデータをＮ分割し、そのうちのＮ－１個を訓練データ、残りの１個をテストデータとして用いる。そのため、通常のＮ分割交差検証でも、Ｎ通りの予測線を取得することが可能である。ただし、本実施形態では、さらにデータの組み合わせパターンを増やすことによって、より適切な予測曲線を求める処理が行われてもよい。

【0106】

例えば学習処理部１４０は、文書データとして、複数の学習用文書データが取得された場合に、複数の学習用文書データの並び順を変更することによって、互いに異なる第１～第Ｍ（Ｍは２以上の整数）学習用データを生成してもよい。そして学習処理部１４０は、第１～第Ｍ学習用データのそれぞれについて、Ｎ分割交差検証を行うことによって、Ｍ×Ｎ通りの評価データを取得する。

【0107】

図１０は、本実施形態の処理におけるデータのパターン例を示す図である。ここで横方向に３つ並ぶブロックは、Ｎ分割交差検証における分割結果を表す。即ち図１０では、３分割交差検証を行う例を示している。図１０のうち、斜線が引かれたブロックがテストデータに設定され、それ以外の２つのブロックが訓練データに設定される。各ブロックには複数の文書データが含まれる。例えば上述したように学習用データが１２００件の文書データを含む場合、各ブロックは４００件の文書データから構成される。

【0108】

この場合、１２００件の文書データがパターン１で定義される順序で並んでいる場合に、当該１２００個の文書データを、１－４００番目、４０１－８００番目、８０１－１２００番目の３つのブロックに分割することによって、３つの学習用データが取得される。これは例えば、図１０におけるパターン１の（１）～（３）に対応する。

【0109】

さらに、１２００件の文書データをパターン１とは異なるパターン２で定義される順序に並び替えた上で、当該１２００個の文書データを、１－４００番目、４０１－８００番目、８０１－１２００番目の３つのブロックに分割することによって、３つの学習用データが取得される。これは例えば、図１０におけるパターン２の（４）～（６）に対応する。ここで、同じ１－４００番目のブロックであっても、パターン１とパターン２では文書データの並び順が異なるため、（１）のテストデータに含まれる文書データと、（４）のテストデータに含まれる文書データは異なるものとなる。同様に、（１）の訓練データに含まれる文書データと、（４）の訓練データに含まれる文書データは異なる。即ち、元となる学習用データが同じであったとしても、複数の順序パターンで並べ替えを行い、それぞれについて交差検証を行うことによって、多様なデータを用いた機械学習が可能になる。

【0110】

上述したように、パターン１～パターンＭのＭ通りの順序パターンで並び替えを行い、それぞれについてＮ分割交差検証を行うことによって、Ｍ×Ｎ通りの機械学習が可能になる。そのため、それぞれの機械学習の結果について、テストデータを用いた評価データをＭ×Ｎ通りだけ取得できる。ここでの評価データは、例えば、図９に示した予測線であってもよい。ただし評価データはこれに限定されず、テストデータを用いて取得できる再現率、正解率、適合率、ＡＵＣ等、他の情報を含んでもよい。

【0111】

例えば多数の予測線を取得することによって、これらに基づいた統計処理が可能になる。例えば学習処理部１４０は、学習段階において、上記Ｍ×Ｎ通りの評価データを標本とする統計量に基づく予測情報を生成してもよい。ここでの予測情報とは、学習済モデルが出力するスコアに基づいてユーザが文書データのレビューを行った際のレビュー結果を予測する情報である。予測情報は狭義には上述した予測曲線であるが、他の情報であってもよい。

【0112】

このようにすれば、学習処理部１４０は、例えばＭ×Ｎ本の予測線の平均値等に基づいて、なめらかであり、且つ、精度の高い予測曲線を求めることが可能になる。例えば図９のＡ２が、複数の予測線の平均値から求められた予測曲線を表す。

【0113】

なお、通常のＮ分割交差検証でも、Ｎの値を増やすことによって予測線の数を増やすことが可能であるが、テストデータの数が減るため、テストデータを用いる処理の精度低下の可能性がある。予測線の本数はＮ本であり、テストデータの数は全体データ数の１／Ｎである。一方、Ｎの値を小さくした場合、予測線の本数が減ってしまうし、そもそも訓練データの数が少なくなることで学習済モデルの精度が低下する可能性がある。訓練データの数は、全体データ数の（Ｎ－１）／Ｎである。その点、本実施形態の手法によれば、文書データの順序パターンの数Ｍを増やすことによって評価データ数を増やせるため、Ｎの値を極端な値に設定する必要がない。例えばＮとして、テストの精度、及び、学習済モデルの精度を考慮した中庸的な値（例えば３－５程度）を設定することが可能になる。例えばＭ＝２０とした場合、Ｎ＝３であっても、評価データとして２０×３＝６０通りのデータを取得できる。

【0114】

なお学習処理部１４０は、予測情報を求める際に、Ｍ×Ｎ通りの評価データの全てを用いる必要はない。例えば、図１０に示したようにＮ＝３である場合、訓練データの数は全体の２／３となるため、学習済モデルの精度低下による影響を考慮した処理が実行されてもよい。例えば、学習処理部１４０は、Ｍ×Ｎ通りの評価データのうち、学習済モデルの精度が相対的に高いと評価された一部の評価データに基づいて予測情報を求めることによって、上記精度低下を補正してもよい。上記のように評価データが６０通りである場合、学習処理部１４０は、精度がＸ位であるデータを中心に、±Ｙ位までの評価データ（Ｘ－Ｙ位からＸ＋Ｙ位までの２Ｙ＋１通り）に基づいて予測情報を求める。この際、Ｘは中央値（３０または３１）よりも小さい値であり、狭義には上記１／４以上（Ｘ≦１５）であってもよい。またＹの値は種々の変形実施が可能であるが、例えば処理に用いる最下位（Ｘ＋Ｙ位）が中央値以上となるようにＹの値が設定されてもよい。

【0115】

また学習処理部１４０は、複数の予測線から分散や標準偏差を算出してもよい。例えば学習処理部１４０は、標準偏差をσとした場合、平均値として求められた予測曲線の±１．９６σを、９５％信頼区間として求めてもよい。図９の例では、Ａ３が＋１．９６σ、Ａ４が－１．９６σを表す曲線であり、Ａ３とＡ４の間が９５％信頼区間を表す。例えば学習処理部１４０は、図９のＡ２～Ａ４に示すグラフを表す情報を、記憶部２００に記憶させる処理を行う。

【0116】

また学習処理部１４０は、±３σの範囲外のデータを外れ値として処理から除外してもよい。このように外れ値を除外することによって処理精度の向上が可能になる。

【0117】

推論処理部１６０は、推論処理の結果予測を表す情報として、予測情報を出力する処理を行ってもよい。例えば推論処理部１６０は、図９に示すグラフを記憶部２００から読み出し、表示制御部１７０に対して当該グラフを表示させる指示を行う。このようにすれば、端末装置２０のユーザに対して、予測曲線及び信頼区間を提示できるため、例えば所与の事案に関連する文書データが発見されない場合に、それが妥当な結果であるか否かを判定させることが可能になる。

【0118】

また表示制御部１７０は、上位スコア帯を閲覧しても所与の事案に関連する文書データが１件も見つからない場合に、統計処理に基づく情報を提示する処理を行ってもよい。例えば、推論処理部１６０は、下式（５）に基づいてＭｏＥ（Margin of Error）を求める処理を行ってもよい。下式（５）において、ｐは想定濃度、即ち、対象となる文書データのうち、所与の事案に関連する文書データの予測比率を表す。ｐは、例えば学習処理部１４０が、学習処理の段階で推定してもよい。閲覧文書数は、ユーザによるレビューが行われた文書データの数を表し、例えば端末装置２０におけるユーザのレビュー操作（例えばリストから文書データを選択する操作）の履歴から求められてもよい。

【数5】

【0119】

例えば表示制御部１７０は、検出限界以下であること（上位スコア帯を閲覧しても所与の事案に関連する文書データが１件も見つからないこと）の基準として、上式（５）に基づいて「信頼水準９５%で誤差Ｚ%の濃度で存在しない」との情報を提示する処理を行ってもよい。ここでのＺは、上式（５）のＭｏＥを表す。例えば想定濃度が０．０１％であり、ユーザが１０００件レビューを行ったときに１件も所与の事案に関連する文書データが発見されなかった場合、上式（５）によって求められるＭｏＥは０．１となる。この場合、表示制御部１７０は、「検出限界以下＝信頼度９５%で誤差０．１%の濃度で存在しない」との表示を行う。このようにすれば、所与の事案に関連する文書データが発見されないことについて、統計学的な処理に基づいて客観的なデータをユーザに提示することが可能になる。

【0120】

なお本実施形態の手法は情報処理装置１０に適用されるものに限定されず、以下の各ステップを実行する情報処理方法に適用されてもよい。情報処理方法は、情報処理装置１０が、文書データを取得し、文書データの形態素解析を行い、形態素解析の結果に基づいて特徴量を決定し、特徴量に基づいて、形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行い、機械学習において、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う、ステップを含む。

【0121】

また、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理装置、端末装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。

【符号の説明】

【0122】

１…情報処理システム、１０…情報処理装置、２０…端末装置、３０…第２情報処理装置、１１０…取得部、１２０…解析処理部、１３０…特徴量決定部、１４０…学習処理部、１５０…モデル取得部、１６０…推論処理部、１７０…表示制御部、２００…記憶部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7A】

【図7B】

【図7C】

【図8A】

【図8B】

【図9】

【図10】

【手続補正書】

【提出日】2023-07-27

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果に基づいて特徴量を決定する特徴量決定部と、
前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行う学習処理部と、
を含み、
前記学習処理部は、
前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行い、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第１～第Ｐ（Ｐは１以上の整数）補正前特徴量が取得され、前記文書データとして、第１～第Ｑ（Ｑは１以上の整数）文書が取得された場合に、
前記補正前特徴量の個数Ｐ、前記文書データの数Ｑ、前記第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められる第１ノルム、及び、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる前記第１～第Ｐ補正前特徴量によって求められる第２ノルム、に基づいて、前記第１～第Ｐ補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

請求項５において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、前記ブロックの表示態様を決定する情報処理装置。

【請求項7】

請求項５において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、
前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部を対象として、前記複数のブロックのそれぞれについて前記スコアを出力する処理を行う情報処理装置。

【請求項8】

【請求項9】

請求項８において、
前記学習処理部の前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの推論処理を行う推論処理部をさらに含み、
前記学習処理部は、
前記Ｍ×Ｎ通りの評価データを標本とする統計量に基づく予測情報を生成し、
前記推論処理部は、
前記推論処理の結果予測を表す情報として、前記予測情報を出力する情報処理装置。

【請求項10】

情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果に基づいて特徴量を決定し、
前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行い、
前記機械学習において、
前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行い、
前記特徴量の決定において、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第１～第Ｐ（Ｐは１以上の整数）補正前特徴量が取得され、前記文書データとして、第１～第Ｑ（Ｑは１以上の整数）文書が取得された場合に、
前記補正前特徴量の個数Ｐ、前記文書データの数Ｑ、前記第１～第Ｑ文書に現れる第ｉ補正前特徴量（ｉは１以上Ｐ以下の整数）によって求められる第１ノルム、及び、第ｊ（ｊは１以上Ｑ以下の整数）文書に現れる前記第１～第Ｐ補正前特徴量によって求められる第２ノルム、に基づいて、前記第１～第Ｐ補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記機械学習において、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理方法。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版