(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130812
(43)【公開日】2024-09-30
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240920BHJP
G06F 16/383 20190101ALI20240920BHJP
【FI】
G06N20/00
G06F16/383
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023040721
(22)【出願日】2023-03-15
(11)【特許番号】
(45)【特許公報発行日】2023-11-08
(71)【出願人】
【識別番号】316014906
【氏名又は名称】株式会社FRONTEO
(74)【代理人】
【識別番号】110002848
【氏名又は名称】弁理士法人NIP&SBPJ国際特許事務所
(72)【発明者】
【氏名】富安 啓輔
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175FB04
5B175GC03
5B175HA01
(57)【要約】
【課題】多様な形態素を対象とした機械学習を高速に実行する情報処理装置及び情報処理方法等等の提供。
【解決手段】 情報処理装置は、文書データを取得する取得部と、文書データの形態素解析を行う解析処理部と、形態素解析の結果に基づいて特徴量を決定する特徴量決定部と、特徴量に基づいて、形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行う学習処理部と、を含み、学習処理部は、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う。
【選択図】
図2
【特許請求の範囲】
【請求項1】
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果に基づいて特徴量を決定する特徴量決定部と、
前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行う学習処理部と、
を含み、
前記学習処理部は、
前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行う情報処理装置。
【請求項2】
請求項1において、
前記学習処理部は、
前記モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習のオン/オフを変更可能であり、
前記モデルの評価処理を行い、前記モデルの性能が所定以下であると判定された場合、前記アンサンブル学習をオフにした上で、前記機械学習を継続する情報処理装置。
【請求項3】
請求項1において、
前記学習処理部は、
前記モデルの評価処理を行い、前記評価処理において前記モデルの性能が所定以下であると判定された場合、前記特徴量決定部において前記特徴量の決定に用いられる特徴量モデルを変更した上で、前記機械学習を継続する情報処理装置。
【請求項4】
請求項1乃至3の何れか一項において、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する特徴量であるメタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。
【請求項5】
請求項4において、
前記特徴量決定部は、
前記メタデータに対応する補正前特徴量として、第1~第P(Pは1以上の整数)補正前特徴量が取得され、前記文書データとして、第1~第Q(Qは1以上の整数)文書が取得された場合に、
前記補正前特徴量の個数P、前記文書データの数Q、前記第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる前記第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、前記第1~第P補正前特徴量を補正することによって、前記メタデータ特徴量を決定する情報処理装置。
【請求項6】
請求項1乃至3の何れか一項において、
前記学習処理部による前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの処理を行う推論処理部をさらに含み、
前記推論処理部は、
前記推論対象データが、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行う情報処理装置。
【請求項7】
請求項1乃至3の何れか一項において、
前記学習処理部により前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの処理を行う推論処理部をさらに含み、
前記推論処理部は、
前記推論対象データを、任意の長さの複数のブロックに分割し、前記複数のブロックのそれぞれについて、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行う情報処理装置。
【請求項8】
請求項7において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、前記ブロックの表示態様を決定する情報処理装置。
【請求項9】
請求項7において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、
前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部を対象として、前記複数のブロックのそれぞれについて前記スコアを出力する処理を行う情報処理装置。
【請求項10】
請求項1乃至3の何れか一項において、
前記学習処理部は、
前記文書データとして、複数の学習用文書データが取得された場合に、
前記複数の学習用文書データの並び順を変更することによって、互いに異なる第1~第M(Mは2以上の整数)学習用データを生成し、
前記第1~第M学習用データのそれぞれについて、N(Nは2以上の整数)分割交差検証を行うことによって、M×N通りの評価データを取得する情報処理装置。
【請求項11】
請求項10において、
前記学習処理部の前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの推論処理を行う推論処理部をさらに含み、
前記学習処理部は、
前記M×N通りの評価データを標本とする統計量に基づく予測情報を生成し、
前記推論処理部は、
前記推論処理の結果予測を表す情報として、前記予測情報を出力する情報処理装置。
【請求項12】
情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果に基づいて特徴量を決定し、
前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行い、
前記機械学習において、
前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行う情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法等に関する。
【背景技術】
【0002】
従来、機械学習を用いて文書データの処理を行う手法が知られている。例えば特許文献1には、モデルの特徴量を決定する際に、評価対象特徴量の作用種別または重みに基づいてパラメータを更新する文書情報抽出システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の手法は、類似辞書等に基づく類似関係等を考慮して特徴量を評価するものであって、処理の高速化や入力となる形態素の多様性を考慮していない。
【0005】
本開示のいくつかの態様によれば、多様な形態素を対象とした機械学習を高速に実行する情報処理装置及び情報処理方法等を提供できる。
【課題を解決するための手段】
【0006】
本開示の一態様は、文書データを取得する取得部と、前記文書データの形態素解析を行う解析処理部と、前記形態素解析の結果に基づいて特徴量を決定する特徴量決定部と、前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行う学習処理部と、を含み、前記学習処理部は、前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行う情報処理装置に関係する。
【0007】
本開示の他の態様は、情報処理装置が、文書データを取得し、前記文書データの形態素解析を行い、前記形態素解析の結果に基づいて特徴量を決定し、前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行い、前記機械学習において、前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行う情報処理方法に関係する。
【図面の簡単な説明】
【0008】
【
図1】情報処理装置を含むシステムの構成例である。
【
図6】スコアを確率データに補正する処理の説明図である。
【
図7B】第1ノルムに基づくメタデータ特徴量の補正処理の説明図である。
【
図7C】第2ノルムに基づくメタデータ特徴量の補正処理の説明図である。
【
図8A】ブロック毎のスコアに基づくハイライト処理の説明図である。
【
図9】予測線、予測曲線、信頼区間の説明図である。
【
図10】複数の評価データを取得する処理の説明図である。
【発明を実施するための形態】
【0009】
以下、本実施形態について図面を参照しつつ説明する。図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0010】
1.システム構成例
図1は、本実施形態に係る情報処理装置10を含む情報処理システム1の構成例を示す図である。情報処理システム1は、情報処理装置10、端末装置20、第2情報処理装置30を含む。ただし、情報処理システム1の構成は
図1に限定されず、一部の構成を省略する、あるいは他の構成を追加する等、種々の変形実施が可能である。
【0011】
情報処理装置10、端末装置20及び第2情報処理装置30は、例えばネットワークを介して接続される。ここでのネットワークは、例えばインターネット等の公衆通信網である。ただしネットワークは、LAN(Local area network)等であってもよく、具体的な構成は限定されない。
【0012】
情報処理装置10は、本実施形態に係る機械学習を行う装置である。例えば情報処理装置10は、学習用の文書データに基づく機械学習を行うことによって、文書データの分類処理に用いられる学習済モデルを生成する。
【0013】
例えば文書データの分類処理とは、所定の事案と対象の文書データとの関係度合いを求める処理であってもよい。ここでの所定の事案は種々考えられる。例えば情報処理装置10は、以下に示すディスカバリ支援システム等、種々のシステムに含まれてもよく、所定の事案とは以下に示す各種事案の何れかであってもよい。ただし、所定の事案は以下に列挙するものに限定されない。
【0014】
・ディスカバリ支援システムにおけるディスカバリ手続きが要求される本件訴訟
・犯罪捜査支援(フォレンジック)システムにおける捜査対象となる犯罪
・電子メール監視システムにおける不正行為(例えば、情報漏えい、談合など)
・医療応用システムにおける医薬に関する事例・事案
・インターネット応用システム等におけるインターネットに関する事例・事案
・プロジェクト評価システムにおける過去に遂行したプロジェクト
・マーケティング支援システムにおけるマーケティング対象となる商品、サービス
・知財評価システムにおける評価対象となる知的財産
・不正取引監視システムにおける不正な金融取引
・コールセンターエスカレーションシステムにおける過去の対応事例
・信用調査システムにおける信用調査する対象
・ドライビング支援システムにおける車両の運転に関すること
・営業支援システムにおける営業成績
【0015】
情報処理装置10は、例えばサーバシステムによって実現されてもよい。ここでのサーバシステムは、1つのサーバであってもよいし、複数のサーバを含んで構成されていてもよい。例えば、サーバシステムは、データベースサーバとアプリケーションサーバとを含んで構成されていてもよい。データベースサーバは、後述する学習済モデル等を含む種々のデータを記憶する。アプリケーションサーバは、
図4及び
図5等を用いて後述する処理を実行する。なお、ここでの複数のサーバは、物理サーバであってもよいし、仮想サーバであってもよい。また、仮想サーバが用いられる場合、当該仮想サーバは、1つの物理サーバに設けられてもよいし、複数の物理サーバに分散して配置されてもよい。このように、本実施形態におけるサーバシステムの具体的な構成は、種々の変形実施が可能である。換言すれば、本実施形態に係る情報処理装置10は、単一の装置によって実現されてもよいし、複数の装置の分散処理によって実現されてもよい。
【0016】
端末装置20は、情報処理装置10による学習結果を利用する装置である。例えば端末装置20は、分類処理の対象となる文書データを情報処理装置10に送信し、情報処理装置10によって生成された学習済モデルによる当該文書データの分類結果を取得、表示する。
【0017】
端末装置20は、例えば文書データの分類サービスを利用するユーザによって使用されるPC(Personal Computer)である。ただし、端末装置20は、スマートフォン、タブレット端末等であってもよく、具体的な態様は種々の変形実施が可能である。
【0018】
第2情報処理装置30は、機械学習に利用される学習用の文書データを収集し、収集した文書データを情報処理装置10に送信する装置である。例えば第2情報処理装置30は、電子メール監査システムにおいて、学習用の電子メールを収集するメールサーバであってもよい。この場合、第2情報処理装置30は電子メールの送受信処理を行うことによって電子メールを蓄積し、当該電子メールの一部または全部を学習用の文書データとして情報処理装置10に送信する。また第2情報処理装置30は、公開情報に基づいて学習用の文書データを収集してもよいし、端末装置20から学習用の文書データを取得してもよい。その他、第2情報処理装置30の具体的な装置構成や、学習用の文書データを収集する際のソースについては種々の変形実施が可能である。ただし、第2情報処理装置30は必須の構成ではなく、情報処理システム1から省略されてもよい。例えば、情報処理装置10または端末装置20が学習用の文書データの収集を行うことも妨げられない。
【0019】
図2は、情報処理装置10の構成例を示す図である。情報処理装置10は、取得部110、解析処理部120、特徴量決定部130、学習処理部140を含む。ただし情報処理装置10の構成は
図2に限定されず、一部の構成を追加する、あるいは他の構成を追加する等の種々の変形実施が可能である。
【0020】
取得部110は、文書データを取得する。例えば取得部110は、文書データに対して分類結果が正解データとして付与されている学習用データを取得してもよい。正解データを付与する処理(アノテーション)は、第2情報処理装置30等において実行される。取得部110は、第2情報処理装置30との通信を行う通信インターフェイスとして実現されてもよい。ここでの通信インターフェイスは、IEEE802.11に準拠した通信を行うインターフェイスであってもよいし、他の方式の通信を行うインターフェイスであってもよい。通信インターフェイスは、例えばアンテナ、RF(Radio Frequency)回路、ベースバンド回路等を含んでもよい。なおアノテーションは、情報処理装置10を用いて実行されてもよいし、端末装置20を用いて実行されてもよい。
【0021】
解析処理部120は、取得部110から文書データを取得し、当該文書データの形態素解析を行う。形態素解析については自然言語処理の分野において広く用いられる手法であるため詳細な説明は省略する。形態素解析によって、1つの文書データから、当該文書データに含まれる複数の形態素が抽出される。
【0022】
特徴量決定部130は、形態素解析の結果に基づいて、文書データを表す特徴量を決定する。特徴量の詳細については後述する。
【0023】
学習処理部140は、特徴量に基づいて、形態素解析によって取得された形態素について、モデルにおける重みを決定する機械学習を行う。本実施形態におけるモデルは、線形モデルまたは一般化線形モデルである。線形モデルとは、例えば下式(1)で表されるモデルであってもよい。
【数1】
【0024】
例えば、本実施形態における文書データの特徴量は、複数の形態素の各形態素の特徴量の集合であってもよい。上式(1)において、x1~xnは、形態素のそれぞれに対応する特徴量を表す。w1~wnは、各形態素の重みである。上式(1)では、モデルの目的変数は文書のスコアであり、例えば対象の文書データが所与の事案と関連する度合いを表すスコアである。以下では、スコアが大きいほど、文書データと所与の事案の関連度合いが高いことを表す例について説明する。
【0025】
また一般化線形モデルとは、線形モデルを一般化したモデルであり、例えば下式(2)で表されるモデルであってもよい。なお一般化線形モデルは下式(2)に限定されず、線形モデルf(x)に基づいて表現される他のモデルであってもよい。
【数2】
【0026】
本実施形態の手法では、線形モデルまたは一般化線形モデルが用いられるため、学習の処理負荷を抑制することや、学習用の文書データに過剰に適応してしまう過学習を抑制することが可能である。学習処理部140における処理の詳細については、
図4以降を用いて後述する。
【0027】
学習処理部140は、学習処理によって重みが決定された線形モデルまたは一般化線形モデルを学習済モデルとして出力する。この学習済モデルを用いることによって、文書データの分類処理が可能になる。なお学習済モデルの出力とは、学習済モデルを情報処理装置10のメモリ(例えば後述する記憶部200)に記憶させる処理であってもよいし、学習済モデルを他の装置に送信する処理であってもよい。例えば情報処理装置10は学習済モデルを端末装置20に送信し、端末装置20において、当該学習済モデルを用いた分類処理が実行されてもよい。
【0028】
本実施形態に係る情報処理装置10の各部(狭義には取得部110、解析処理部120、特徴量決定部130、学習処理部140)は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子によって構成できる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシタ等である。
【0029】
また情報処理装置10の各部は、下記のプロセッサによって実現されてもよい。本実施形態の情報処理装置10は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プログラムは、情報処理装置10に、本明細書で説明する処理を実行させるものを含んでよい。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置(HDD:Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータによって読み取り可能な命令を格納しており、当該命令をプロセッサが実行することによって、情報処理装置10の各部の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
【0030】
また情報処理装置10は学習済モデルを生成する学習処理に加えて、当該学習済モデルを用いた推論処理(具体的には上述した分類処理)を実行してもよい。
図3は、情報処理装置10の他の構成例を示す図である。情報処理装置10は、取得部110、解析処理部120、特徴量決定部130、学習処理部140に加えて、モデル取得部150、推論処理部160、表示制御部170、記憶部200を含んでもよい。取得部110、解析処理部120、特徴量決定部130及び学習処理部140については、
図2の例と同様であるため、詳細な説明は省略する。
【0031】
モデル取得部150、推論処理部160及び表示制御部170は、例えばCPU、GPU、DSP等、上述した各種のプロセッサにより実現される。記憶部200は、プロセッサのワーク領域であって、種々の情報を記憶する。記憶部200は、種々のメモリによって実現が可能であり、メモリは、SRAM、DRAM、ROM(Read Only Memory)、フラッシュメモリなどの半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。
【0032】
モデル取得部150は、学習処理部140によって生成された学習済モデルを取得する。例えば学習処理部140は、生成した学習済モデルを記憶部200に記憶する。モデル取得部150は、記憶部200から所望の学習済モデルを読み出す処理を行う。例えば電子メール監査システムにおいて、監査すべき所与の事案がパワーハラスメントである場合の学習済モデルと、セクシャルハラスメントである場合の学習済モデルとが別々に作成されてもよい。あるいは、営業部に属する従業員を監査するための学習済モデルと、研究開発部に属する従業員を監査するための学習済モデルとが別々に作成されてもよい。このような場合に、モデル取得部150は、実行する監査の内容にあわせた学習済モデルを選択する処理を行ってもよい。
【0033】
推論処理部160は、モデル取得部150が取得した学習済モデルを用いた推論処理を行う。具体的には、推論処理部160は、分類処理の対象となる文書データを学習済モデルに入力することによって、当該文書データのスコアを取得してもよい。上述したように、当該スコアは、文書データと所与の事案の関連度合いを表す。
【0034】
なお文書データを学習済モデルに入力する際には、当該文書データの形態素解析及び特徴量の決定処理が行われる。例えば取得部110は、学習用の文書データだけでなく、分類対象となる文書データを取得してもよい。解析処理部120は、当該文書データの形態素解析を行う。特徴量決定部130は、形態素解析の結果に基づいて、分類対象となる文書データを表す特徴量を決定する。推論処理部160は、決定された特徴量を、学習済モデルに入力する。このようにすれば、取得部110、解析処理部120、特徴量決定部130を学習処理と推論処理で共有することが可能になる。ただし、取得部110、解析処理部120、特徴量決定部130とは別に、分類処理用の第2取得部、第2解析処理部、第2特徴量決定部(不図示)が設けられてもよく、具体的な構成については種々の変形実施が可能である。
【0035】
表示制御部170は、推論処理部160での処理結果を表示する制御を行う。例えば表示制御部170は、推論処理部160での処理結果を、端末装置20の表示部に表示させる制御を行う。この場合、端末装置20は、インターネットブラウザ等を用いてWebアプリケーションを実行してもよい。例えば、情報処理装置10はWebアプリケーションサーバを含み、端末装置20のブラウザは当該Webアプリケーションサーバにアクセスする。
【0036】
端末装置20は、ユーザ操作に基づいて分類対象の文書データを決定し、当該文書データの分類処理を情報処理装置10に依頼する。情報処理装置10の推論処理部160は、上述したように分類処理を実行し、表示制御部170は当該分類処理の結果を端末装置20の表示部に表示させる。ここでの表示制御とは、分類結果を含む画面を端末装置20の表示部に表示させるためのマークアップ言語の送信処理であってもよい。ただし、表示制御部170は、分類処理結果をユーザが閲覧可能な態様で提示できればよく、具体的な表示制御はこれに限定されない。
【0037】
2.処理の流れ
2.1 学習処理
図4は、本実施形態に係る処理を説明するフローチャートであり、特に学習用の文書データに基づいて機械学習を行う学習処理を説明するフローチャートである。
【0038】
まずステップS101において、取得部110は、学習用の文書データを取得する。例えば取得部110は、第2情報処理装置30において正解データが対応付けられた文書データを学習用の文書データとして取得してもよい。また取得部110は、第2情報処理装置30以外の機器から学習用の文書データを取得してもよい。あるいは取得部110は、正解データが対応付けられていない文書データを取得し、当該文書データに正解データを対応付けることによって学習用の文書データを取得してもよい。正解データは例えばユーザによって入力されるものであり、情報処理装置10を用いて当該正解データの入力が行われてもよいし、端末装置20等の他の機器を用いて当該正解データの入力が行われてもよい。
【0039】
ここでの正解データとは、例えば対象の文書データが所与の事案と関連するか否かを表す情報である。例えば情報処理装置10がメール監査システムにおいて、パワーハラスメントに関連する文書データを検出する処理を行う場合を考える。この例における正解データとは、対象の文書データ(電子メール等)が、パワーハラスメントに関連するか否かを示す2値の情報である。例えば正解データを付与するユーザは、対象の文書データの内容を閲覧し、当該文書データがパワーハラスメントに関連するか否かの判定結果を表すデータを正解データとして入力する。なお、正解データは2値データに限定されず、所与の事案との関連の強さを表す3段階以上の数値データ等であってもよい。
【0040】
ステップS102において、解析処理部120は、学習用の文書データに対する形態素解析処理を行う。ここでの形態素とは、文を言語上で意味を持つ最小単位を表す。形態素解析とは、文書データを複数の形態素に分解する処理を含む。解析処理部120は、形態素解析の結果として、当該文書データに含まれる形態素の集合を取得する。なお解析処理部120では、形態素の品詞等を判定してもよく、それらの判定結果が形態素解析の結果に含まれてもよい。形態素解析については自然言語処理の分野において広く用いられる手法であるため、詳細な説明は省略する。
【0041】
ステップS103において、特徴量決定部130は、文書データに対応する特徴量を決定する。例えば、特徴量決定部130は、対象の文書データにおける所与の形態素の出現状態に基づいて、当該所与の形態素に対応する値を決定する処理を行ってもよい。そして特徴量決定部130は、各形態素について求められた値を並べたテンソル(狭義にはベクトル)を対象の文書データを表す特徴量としてもよい。
【0042】
例えば特徴量決定部130は、所与の形態素に対応する値として、当該形態素が文書データに含まれるか否かを表すバイナリデータを用いてもよい。バイナリデータとは、形態素が文書データに含まれる場合に第1の値(例えば1)となり、形態素が文書データに含まれない場合に第2の値(例えば0)となるデータであってもよい。例えば “Impossible is nothing”という3つの形態素からなる文書データを対象とした場合、当該文書データの特徴量は、Impossible, is, 及びnothingに対応する要素の値が1となり、他の全ての要素の値が0となるベクトルである。
【0043】
あるいは特徴量決定部130は、所与の形態素に対応する値として、当該形態素の出現頻度であるtf(Term Frequency)に基づく値を用いてもよい。また特徴量決定部130は、所与の形態素に対応する値として、tf及び逆文書頻度であるidf(Inverse Document Frequency)に基づいて決定される値を用いてもよい。
【0044】
ステップS104において、学習処理部140は、モデルの入力データとして特徴量を用いた学習処理を行う。具体的には、式(1)や(2)におけるx1~xnがステップS103で決定された特徴量(ベクトルの各要素)に対応し、文書データのスコアが正解データに対応する。学習処理部140は、多数の学習用の文書データから取得された(x1,x2,…,xn,スコア)の組に基づいて、最も確からしい重みw1~wnを決定する処理を行う。線形モデルにおける重みの決定処理では、最急降下法やニュートン法、主双対内点法等の種々の線形最適化手法が知られており、本実施形態ではそれらの手法を広く適用可能である。
【0045】
ステップS105において、学習処理部140は、複数の形態素のうち、対応する重みの値が所定閾値以下の形態素を、これ以降の学習処理から除外する処理を実行する。例えば、学習処理部140は、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う。より具体的には、所与の形態素に対応する重みwi(iは1以上n以下の整数)が所定閾値以下であると判定された場合、学習処理部140は、上式(1)や(2)等によって表されるモデルからwi×xiに対応する項を削除してもよい。結果として、xiに対応するi番目の形態素が、学習処理の対象から除外される。
【0046】
本実施形態の手法によれば、所与の形態素を処理に用いるか否かを、学習処理部140が自動的に判定することが可能になる。そのため、例えば最初にステップS104の学習処理を行う段階において、形態素の一部を予めフィルタリングする等の負荷軽減処理を行う必要性を低くできる。狭義には学習処理部140は、学習用の文書データから抽出された全ての形態素を学習処理に利用してもよい。あるいは学習処理部140は、対象の自然言語において想定される全ての形態素に対応する特徴量を学習処理に利用してもよい。
【0047】
このようにすれば、一部の形態素を予め除外する必要がないため、学習処理の前処理における負荷を軽減できる。例えば、従来手法では、形態素解析の誤りによって形態素が誤検出された場合、不適切な形態素を除外する処理が実行されていた。これに対して本実施形態では、そのような不適切な形態素を自動的に除外することが可能である。不適切な形態素が、文書データと所与の事案との関連度合いに与える影響は低いことが想定されるため、ステップS104の処理において自然と低い重みが設定されると考えられるためである。例えば1つの形態素が非常に少ない文字数から構成される可能性がある中国語、日本語、韓国語等では、他の言語(例えば英語)に比べて形態素解析が難しい。本実施形態の手法であれば、このような言語を対象とする場合であっても、学習処理において形態素解析の誤りを自動的に除外できるという利点がある。
【0048】
また、本実施形態の文書データは音声データを対象として音声認識処理によって取得されたデータであってもよい。この場合、音声認識処理のエラーにより不適切な形態素が取得されることもあるが、本実施形態ではそのような不適切な形態素も自動的に除去される。エラー要因が音声認識処理であったとしても、文書データと所与の事案との関連度合いにおいて、不適切な形態素が与える影響が低いと考えられる点は同様のためである。即ち、本実施形態の手法では、音声認識処理や形態素解析等、学習処理の前段階の処理で生じうるエラーを、学習処理のモデルを用いて自動的に除去できる。
【0049】
なお本実施形態の手法では、モデルが線形モデルまたは一般化線形モデルであることも重要である。なぜなら、
図4を用いて上述したように、本実施形態ではまず多数の(狭義には全ての)形態素を対象として重みを決定する処理を実行し(ステップS104)、その結果を用いて一部の形態素を自動的に除外する(ステップS105)。そのため、多数の形態素を対象とした処理が1回は必須となる。処理負荷が相対的に大きいモデル(例えば多層の中間層を有するニューラルネットワーク等)を用いた場合、形態素の数、即ち入力データの数が大きければ、最初に重みを決定する処理負荷が大きくなってしまい、モデルを用いて一部の形態素を自動的に除外することによる負荷軽減効果が損なわれる可能性もある。その点、上記の通り、数学的に解析が容易な線形モデルまたは一般化線形モデルを用いることによって、形態素の数が大きい場合にも効率的に重みを決定できるため、学習処理における負荷を適切に軽減することが可能になる。
【0050】
重みが所定以下の形態素を削除した後、ステップS106において、学習処理部140は、学習処理を終了するか否かを判定する。例えば学習処理部140は、交差検証を行うことによって学習精度を表す指標値を求め、当該指標値に基づいて学習を終了するか否かを判定してもよい。交差検証とは、複数の学習データをN(Nは2以上の整数)単位に分割し、そのうちのN-1単位を訓練データとして重みの更新を行い、残りの1単位をテストデータ(バリデーションデータ)として、上記指標値を求める処理を行う手法である。交差検証については公知の手法であるため詳細な説明は省略する。またここでの指標値は、再現率、正解率、適合率、AUC(Area Under the Curve)等、種々の指標値を用いることが可能である。
【0051】
学習を終了しないと判定された場合(ステップS106:No)、学習処理部140は、例えばステップS103に戻って処理を行う。この場合、形態素に対応する特徴量を再計算し、再計算後の特徴量に基づいて、各形態素の重みを決定する処理が行われる。この際、ステップS105において削除された形態素は特徴量算出の対象から除外されてもよい。またステップS104において、学習に用いられる制御パラメータの一部が変更されてもよい。
【0052】
あるいは学習を終了しないと判定された場合(ステップS106:No)、学習処理部140は、例えばステップS104に戻って処理を行ってもよい。この場合、学習処理部140は、特徴量については決定済みの値を用い、特徴量とは異なる制御パラメータの一部を変更した上で再度、重みを決定する処理を実行する。
【0053】
学習を終了すると判定された場合(ステップS106:No)、学習処理部140は、その時点での重みが設定された線形モデルまたは一般化線形モデルを、学習済モデルとして出力し、学習処理を終了する。
【0054】
2.2 推論処理(文書データの分類処理)
図5は、本実施形態に係る処理を説明するフローチャートであり、特に学習済モデルに基づいて分類対象となる文書データを分類する処理を説明するフローチャートである。ここでの分類処理は、各文書データについて、所与の事案との関連度合いを表すスコアを求める処理を含む。
【0055】
まずステップS201において、取得部110は、分類用の文書データを取得する。例えば端末装置20のユーザは、パワーハラスメントに関する監査対象となる1または複数のメールを選択し、取得部110は、選択されたメールを分類用の文書データとして取得する処理を行う。
【0056】
ステップS202において、解析処理部120は、文書データの形態素解析を行う。ステップS203において、特徴量決定部130は、形態素解析の結果に基づいて、文書データに対応する特徴量を決定する。ステップS202及びステップS203の処理は、
図4のステップS102及びS103と同様である。なお特徴量決定部130は、学習済モデルの入力データから削除された形態素を、特徴量決定処理の対象から除外してもよい。
【0057】
ステップS204において、モデル取得部150は、学習済モデルを取得する。
図3を用いて上述したように分類処理が情報処理装置10において行われる場合、モデル取得部150は、記憶部200から分類処理の内容に応じた学習済モデルを読み出す処理を行う。
【0058】
次に推論処理部160は、学習済モデルを用いた推論処理を行う。具体的には、ステップS205において、推論処理部160は、ステップS203で取得された特徴量を学習済モデルに入力する。そしてステップS206において、対象の文書データに対応するスコアを算出する。具体的には、推論処理部160は、特徴量を上式(1)または(2)のx1~xn(ただし
図4のステップS105で削除されたものを除く)に入力し、学習処理によって取得された重みを乗算することによって文書データのスコアを求める。ここでのスコアは、対象の文書データが所与の事案に関連する度合いを表す情報である。
【0059】
ステップS207において、表示制御部170は、スコアの算出結果を端末装置20に表示する処理を行う。例えば表示制御部170は、分類対象である複数の文書データのうち、スコアが所定以上であると判定された文書データのリストを、端末装置20の表示部に表示させる処理を行ってもよい。
【0060】
3.情報処理装置における処理の具体例
以下、学習処理または推論処理におけるより詳細な処理の例について説明する。
【0061】
3.1 確率データ出力
上述したように、本実施形態におけるスコアとは、モデルの出力値に基づいて決定される値であってもよい。ここでのスコアは、例えば上述したように文書データと所与の事案の関連度合いを表す情報であり、文書データと所与の事案が関連する確からしさを表す数値データであってもよい。例えばスコアは、値が大きいほど、文書データと所与の事案の関連度合いが高いことを示す情報である。
【0062】
図6は、モデルの出力値と、文書データが所与の事案と関連する割合を表す情報である。
図6の横軸はモデルの出力値である。
図6の縦軸は、例えばモデルの出力値が所与の値であった文書データの総数に対する、実際に所与の事案と関連していた文書データの数の比率を表す。
図6の縦軸の値は、例えば交差検証におけるテストデータに基づいて決定されてもよい。例えばテストデータに含まれる複数の文書データを学習済モデルに入力した結果、スコアがSとなる文書データがNs件取得されたとする。そして、当該Ns件の文書データの正解データを参照したところ、そのうちのx件が所与の事案に関係し、残りの(Ns-x)件は所与の事案に関係していなかったとする。この場合、横軸の値がSの場合の縦軸の値PsはPs=(x/Ns)で表される。以下、縦軸の値を、「文書データが所与の事案と関連する割合」と表記し、さらに簡略化して単に「割合」とも表記する。
【0063】
この際、スコアと割合とは線形の関係にない場合がある。例えば
図6の破線に示すように、割合がスコアに関する非線形関数となる場合が考えられる。なお
図6では、スコアを0以上1以下の値に正規化しているが、これには限定されない。
【0064】
例えばスコアが最大値の20%(例えば0.2)である場合、当該スコアを閲覧したユーザは、20%の確率で文書データが所与の事案に関連していると判断する可能性がある。しかし、
図6の例ではスコアが0.2である場合、縦軸の割合の値は0.2よりも小さい値となる。つまり、スコアが0.2である文書データが所与の事案に関連する確率は20%よりも低くなる。同様に、
図6の例ではスコアが0.8である場合、縦軸の割合の値は0.8よりも大きい値となる。つまり、スコアが0.8である文書データが所与の事案に関連する確率は80%よりも高くなる。従って、スコアと割合が非線形の関係にある場合、スコアの値からユーザが感じる印象と、実際の割合とに乖離が生じてしまう。
【0065】
またスコアと割合がどのような関係にあるかは、学習用の文書データによって異なる可能性がある。例えば、本実施形態の情報処理装置10がディスカバリ支援システムに用いられる場合と、メール監査システムに用いられる場合とでは、学習用の文書データが異なる。そのため、2つのシステムではスコアと割合の関係が異なることになるため、スコアの持つ意味がそれぞれのシステムで異なってしまう。またメール監査システムの中でも、所与の事案がパワーハラスメントである場合と、セクシャルハラスメントである場合とでスコアと割合の関係が異なる可能性もある。
【0066】
よって本実施形態では、スコアと割合の乖離を抑制するように、スコアの補正処理が行われてもよい。具体的には、情報処理装置10は、割合がスコアの線形関数に近づくような補正処理を行う。ここでの補正処理は、例えばスコアの値を実際の割合の値に近づける補正処理であってもよい。例えば、モデルの出力である補正前スコアの値がSであり、当該補正前スコアに対応する割合の値がPsであった場合、補正後スコアの値はSからPsに近づくように補正される。このようにすれば、補正後スコアの値と、当該補正後スコアに対応する割合の値を一致させることが可能になる。
図6の例であれば、スコアと割合の関係が、破線から実線に補正される。
【0067】
例えば情報処理装置10は、上述したように交差検証におけるテストデータを用いて、スコアと割合の対応関係を表す関係データを求めておく。ここでの関係データは割合=F(スコア)となる関数Fであってもよいし、スコアの値と割合の値とを対応付けたテーブルデータであってもよい。関係データが既知であれば、補正前スコアの値がSである場合の割合の値Psを決定できるため、上記補正を適切に実行可能である。
【0068】
補正処理の結果として、例えば補正後スコアが最大値の20%である場合、対象の文書データが所与の事案に関連する確率が20%程度となることが期待される。つまり推論処理部160は、推論対象データと、所与の事案と関連する確率を表す確率データをスコア(上記補正後のスコア)として出力してもよい。これにより、スコアを閲覧したユーザが抱く印象と、割合を対応付けることが可能になる。さらに本実施形態の手法では、所与の事案の種類によらず、補正後スコアを確率データとすることが可能になる。つまり、情報処理装置10が適用されるシステムや、当該システム内で対象とする事案の差異によらず、スコアの持つ意味が一定となるため、ユーザによる判断を容易にすることが可能になる。また表示制御部170での表示制御において、スコアを用いてフィルタリングを行う場合にも、当該フィルタリングにおける判断基準をシステムや所与の事案によらず統一することが可能になる。
【0069】
なお、以上ではモデルの出力を補正前スコアとして求めた後、当該補正前スコアに対して関係データに基づく補正処理を行う例を示した。当該補正処理は、例えば学習処理部140が補正前スコアと割合の関係データを学習段階で取得しておき、推論処理部160が当該関係データに基づく補正処理を推論段階において実行することによって実現される。ただし本実施形態の補正処理はこれに限定されない。例えば情報処理装置10は、モデルの出力が補正後スコアとなるように、重みw1~wnを補正する処理を行ってもよい。つまり学習処理部140による学習処理において、上記補正処理が実行されることも妨げられない。
【0070】
3.2 パラメータの自動設定
図4を用いて上述したように、学習処理部140は、学習処理を終了するか否かを指標値に基づいて判定し(ステップS106)、終了しないと判定した場合、学習処理を継続する。学習処理を継続する際、学習処理部140は、学習処理に関連する何らかの設定変更を行った後で再度、形態素の重みを決定する処理を行ってもよい。
【0071】
学習処理部140は、モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習を実行可能であってもよい。具体的には学習処理部140は、アンサンブル学習を実行するか否か(アンサンブル学習のオン/オフ)を切り替え可能であってもよい。例えばアンサンブル学習においては、ブートストラップ手法により、多様性を持たせた複数の訓練データを取得し、当該複数の訓練データから複数のモデルを取得し、当該複数のモデルを用いて推定を行うバギングという手法が知られている。その他、アンサンブル学習についてはブースティング、スタッキング、ニューラルネットワーク等の種々の手法が知られており、本実施形態ではこれらの手法を広く適用可能である。
【0072】
例えば学習処理部140は、学習処理によって取得されたモデルの評価処理を行い(ステップS106)、モデルの性能が所定以下であると判定された場合(ステップS106:No)、アンサンブル学習におけるアンサンブルを解除した(アンサンブル学習をオフにした)上で、機械学習を継続してもよい。換言すれば、本実施形態の学習処理部140は、アンサンブル学習のオン/オフを決定する制御パラメータを自動的に変更してもよい。
【0073】
アンサンブル学習は単一のモデルを用いた学習処理に比べて精度が高いと言われているが、学習用のデータを十分な量だけ取得できなかった場合等には、アンサンブル学習を行うことでかえって推定精度が低下する可能性もある。例えば、ディスカバリ支援システムやメール監査システム等、本実施形態で想定するシステムでは、収集される文書データのうち、所与の事案に関連する文書データの割合が非常に低いことも想定される。そのため、全体としての文書データ数が多かったとしても、一方側に分類されるデータ量(所与の事案に関連する文書データの数)が不足することも考えられる。この場合も、アンサンブル学習を行うことで精度が低下する可能性がある。その点、本実施形態では作成されたモデルを評価しながら自動的にアンサンブル学習のオン/オフを切り替えることができる。結果として、学習用の文書データの収集状況等に合わせて適切な学習処理を実行することが可能になる。
【0074】
あるいは、学習処理部140は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、特徴量決定部130において特徴量の決定に用いられる特徴量モデルを変更した上で、機械学習を継続してもよい。ここでの特徴量モデルとは、例えば、各形態素の文書データ中での出現状況に基づいて、当該形態素に対応する値を決定するためのモデルである。上述したように、特徴量モデルとは、各形態素にバイナリデータを割り当てるモデルであってもよいし、tfに対応する値を割り当てるモデルであってもよいし、tf-idfに対応する値を割り当てるモデルであってもよいし、これ以外のモデルであってもよい。
【0075】
例えば、対象の文書データが所定ワード数以上の長文である場合や、短文であっても文語調の表現が用いられている場合、tfを用いた方がバイナリデータを用いる場合に比べて精度が高くなりやすい。一方、短文且つ口語調の表現が用いられる文書データでは、バイナリデータを用いたシンプルな特徴量モデルの方がtf等を用いる場合に比べて精度が高くなりやすいことが分かってきた。本実施形態の手法では、特徴量モデルを自動的に変更することによって、文書データの長さや使用される表現等に応じて適切な学習処理を実行することが可能になる。
【0076】
あるいは、学習処理部140は、モデルの評価処理を行い、評価処理においてモデルの性能が所定以下であると判定された場合、機械学習に用いられるモデル(関数モデル)を変更した上で、機械学習を継続してもよい。例えば学習処理部140は、上式(1)に示した線形モデルを用いて取得された学習済モデルの性能が所定以下と判定された場合に、上式(2)に示した一般化線形モデルにモデルを変更した上で機械学習を行ってもよい。また学習処理部140は、一般化線形モデルから線形モデルへの変更を行ってもよい。また一般化線形モデルの態様が上式(2)に限定されないことは上述した通りである。例えば記憶部200は、互いに異なる複数の一般化線形モデルを記憶してもよい。学習処理部140は、評価処理においてモデルの性能が所定以下であると判定された場合、線形モデル及び当該複数の一般化線形モデルのうち、未選択である何れか1つに、関数モデルを変更する処理を行ってもよい。その他、モデル(関数モデル)の変更手法は種々の変形実施が可能である。
【0077】
3.3 メタデータ
また本実施形態では、文書データに対してメタデータが付与されてもよい。ここでのメタデータは、例えば文書データの文字数、行数、これらの分布や統計量(平均値、中心値、標準偏差等)を含む。また本実施形態における文書データは、複数の人物の会話を書き起こしたデータであってもよい。例えば取得部110は、会話を録音した音声データを取得し、当該音声データに対する音声認識処理を行うことによって文書データを取得してもよい。この場合、文書データのメタデータには、人物毎の発話文字数、発話行数、発話時間等が含まれる。例えば文書データが、顧客と従業員の会話に対応する場合、顧客の発話文字数、従業員の発話文字数、時間分布等がメタデータとして用いられる。また、全発話文字数に対する、顧客の発話文字数の割合や従業員の発話文字数の割合等がメタデータとして用いられてもよい。例えば文書データの保管されていたファイルパス名やメールのやり取りの日時を含めてもよい。
【0078】
これらのメタデータは、学習処理に用いられてもよい。例えば特徴量決定部130は、文書データに付与されたメタデータに基づいて、当該メタデータに関する特徴量であるメタデータ特徴量を決定してもよい。学習処理部140は、形態素に対応する特徴量、及び、メタデータ特徴量に基づいて、機械学習を行う。このようにすれば、形態素とは異なるメタデータを特徴量に含めることができるため、学習精度の向上が可能になる。
【0079】
なお学習処理部140は、学習処理において、メタデータに対応する重みを求め、対応する重みの値が所定閾値以下のメタデータを、モデルの入力データから削除してもよい。このようにすれば、形態素だけでなくメタデータについても、その取捨選択を人が事前に経験等に基づいて行わずとも、モデルを用いて自動的に実行することが可能になる。
【0080】
ただしメタデータは、その値がデータ毎に大きく異なる可能性がある。例えば、発話文字数は発話行数に比べて値が大きくなりやすい。また発話時間は、単位として秒を用いるか分を用いるかで値が変化しうる。そのため、メタデータの値をそのまま特徴量として用いた場合、値の大きな特徴量に学習モデルが強く影響され、全特徴量をまんべんなく学習できない可能性もある。また決定木方式やランダムフォレストを用いた場合、単位やスケールの差異に無関係に学習が可能であるが、これらの手法は非線形性が強いため、上述したとおり、本実施形態では用いられない。
【0081】
例えば、メタデータに対応する補正前特徴量として、第1~第P補正前特徴量が取得され、文書データとして、第1~第Q文書が取得された場合を考える。メタデータに対応する特徴量の種類数がPであり、文書データの数がQである。ここで、P、Qはそれぞれ1以上の整数である。ただし実際にはメタデータの種類数、及び文書データの数はともに複数であることが想定されるため、P、Qはそれぞれ2以上の整数であってもよい。
【0082】
特徴量決定部130は、補正前特徴量の個数P、文書データの数Q、第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、第1~第P補正前特徴量を補正することによって、メタデータ特徴量を決定してもよい。このようにすれば、メタデータ特徴量を適切に正規化することが可能になる。具体的には第1ノルムに基づく補正により、メタデータ間の値の差異を抑制できるため、線形モデルまたは一般化線形モデルを用いる場合にも適切な学習が可能である。さらに第2ノルムに基づく補正も行うことで、文書ごとの特徴量の総和に対応する情報(例えば二乗和)を揃えることが可能になる。結果として、求められる特徴量の形式が言語情報(形態素)のみを対象とした場合と同様になるため、メタデータを用いる場合にも言語情報と同様の処理により学習を実行可能である。
【0083】
図7A~
図7Cは、メタデータ特徴量の補正処理(正規化処理)を具体的に説明する図である。
図7は、補正前のメタデータ特徴量を表す。ここでは4種類のメタデータ特徴量及び、3つの文書データである文書1~文書3を対象とした例を説明する。即ちP=4、Q=3の例を考える。
【0084】
図7Aに示すように、メタデータ特徴量1の値は、文書1~文書3においてそれぞれ100、300、500である。メタデータ特徴量2の値は、文書1~文書3においてそれぞれ3、2、1である。メタデータ特徴量3の値は、文書1~文書3においてそれぞれ5000、300、1である。メタデータ特徴量4の値は、文書1~文書3においてそれぞれ0、1、0である。この例では、メタデータ特徴量1及び3の影響が相対的に強くなってしまう。
図7Aにおける||L2||は、二乗和の平方根であるL2ノルムを表す。縦方向のL2ノルムは、第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められるノルムであるため、第1ノルムに対応する。
【0085】
図7Bは、P,Q及び第1ノルムを用いた補正処理を説明する図である。
図7Bは、
図7Aの各要素について、下式(3)によって表される補正処理を行った結果を表す図である。例えばメタデータ特徴量1については、(1/591)×√(3/4)を乗じた結果である。
図7Bに示す補正処理を行うことによって、縦方向のL2ノルムの二乗の値が全てのメタデータ特徴量について0.75で統一される。これにより、メタデータ特徴量ごとのスケールによる影響を抑制することが可能になる。
【数3】
【0086】
また
図7Bにおける横方向のL2ノルムは、第j(jは1以上Q以下の整数)文書に現れる第1~第P補正前特徴量によって求められるノルムであるため、第2ノルムに対応する。
図7Bから明らかな通り、文書1はメタデータ特徴量の値が全体的に大きく、文書3はメタデータ特徴量の値が全体的に小さいというばらつきがある。本実施形態では、第2ノルムを用いた補正処理を行うことによって、当該ばらつきが抑制されてもよい。
【0087】
図7Cは、第2ノルムを用いた補正処理を説明する図である。
図7Cは、
図7Bの各要素について、1/(第2ノルム)を乗算する補正処理を行った結果を表す図である。例えば文書1については、各要素に(1/√1.25)を乗じた結果である。
図7Cに示す補正処理を行うことによって、横方向のL2ノルムの二乗の値が全ての文書について1で統一される。これにより、特徴量の形式を言語情報のみを対象とした場合と同等にすることが可能になる。なお、メタデータ特徴量に対する補正処理をまとめると、下式(4)となる。
【数4】
【0088】
3.4 ブロック単位でのハイライト
本実施形態の推論処理部160は、推論対象データを、任意の長さの複数のブロックに分割し、当該複数のブロックのそれぞれについて、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行ってもよい。なおここでの確率データは、
図6を用いて上述した手法によって求められる。またスコアは、0以上1以下(0%以上100%以下)である確率データそのものであってもよいし、確率データに対して所与の定数を乗じた値であってもよい。例えばスコアは0点以上10000点以下の数値データであってもよい。
【0089】
本実施形態の手法によれば、文書データ全体としての確率データだけでなく、当該文書データの一部であるブロックを対象とした確率データを算出できる。そのため、文書データの中で特に重要と考えられる部分を適切に特定することが可能である。なおブロックは、例えば段落であってもよいがこれには限定されず、複数の段落を含むブロックが設定されてもよいし、1つの段落が複数のブロックに分割されてもよい。またブロックとブロックが重複することも妨げられない。換言すれば、文書データの所与の一部が、第1ブロックに含まれ、且つ、当該第1ブロックとは異なる第2ブロックに含まれてもよい。またブロックは自動で設定されてもよいし、ユーザ入力に基づいて設定されてもよい。
【0090】
例えば特徴量決定部130はブロック毎に当該ブロックを表す特徴量を求め、推論処理部160は、当該特徴量を学習済モデルに入力することによって確率データを求めてもよい。あるいは推論処理部160は、対象のブロックに含まれる形態素を特定し、当該形態素に対応する重み(w1~wnのいずれか)を用いて、ブロックのスコアを求めてもよい。
【0091】
決定木方式やランダムフォレストでは、各二分木での分岐先を決定する際にある特徴量を用いた判定が行われる。そのため、入力となる文書データが短く、当該文書データに含まれる形態素の種類数が所定以下となる場合、判定基準となる特徴量を取得できないことで分岐判定を適切に行えない二分木が多くなる。結果として決定木方式等では、短いブロックを対象とした場合に、処理精度が非常に低くなる可能性がある。その点、本実施形態の手法では線形モデルまたは一般化線形モデルが用いられるため、各形態素の重みが学習処理において算出される。そのため、分類処理の対象となる文書データが短かったとしても、当該重みを用いてスコアを求める処理を適切に実行できるため、ブロック単位でも精度の高い推定が可能になる。
【0092】
例えば推論処理部160は、複数のブロックのそれぞれについて、スコアと、推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、ブロックの表示態様を決定してもよい。上述したとおり、スコアを確率データに補正することによって、ジャンル(具体的には関連度合いの判定対象となる所与の事案の種類)の差異が吸収され、スコアの持つ意味を統一できる。従って、所与の事案が何であるかにかかわらず、判定基準を揃えることが可能である。例えば推論処理部160は、スコア範囲を0点以上10000点以下とした場合に、1000~2499点を第1色、2500~3999点を第2色、4000~10000点を第3色で表示すると判定してもよい。表示制御部170は、推論処理部160で決定された表示態様を用いて各ブロックを表示するための制御を実行する。例えば表示制御部170は、各ブロックの文字色または背景色が、スコアに応じて基本色(黒色文字、白色背景)または第1色~第3色のいずれかとなる表示制御を行ってもよい。なお第1色~第3色は、互いに識別が可能であればよく、具体的な色は問わない。
【0093】
図8Aは、表示制御部170による表示制御結果の例を示す図である。
図8Aの例では文書データが5つのブロックに分割され、そのうちの1,4,5番目のブロックのスコアが高かったため、背景色が変更される表示制御が実行される。ただし、表示制御の例はこれに限定されず、文字のサイズを変更する、注釈を追加する、ブロックを囲む枠線を追加する等、種々の変形実施が可能である。
【0094】
また
図8Bに示すように、表示制御部170は、文書データの各ブロックに関する判定結果を表示する際に、各形態素について求められた重み(w1~wn)を表示する制御を行ってもよい。
図8Bに示す例では、「弁護士」、「賠償」等の各形態素について、重みの値が表示されている。
図8Aの画面とともに
図8Bの画面を表示することによって、どの形態素が要因となって表示態様が決定されているかをユーザに分かりやすく知らせることが可能になる。なお、
図8Aの画面と
図8Bの画面は、1つのウィンドウの中で並べて表示されてもよいし、異なるウィンドウを用いて表示されてもよい。
【0095】
また推論処理部160は、推論対象の文書データとして複数の推論対象データが取得された場合に、複数の推論対象データのそれぞれについて、文書データ単位のスコアを算出し、複数の推論対象データのうち、相対的にスコアが高い一部を対象として、複数のブロックのそれぞれについてブロック単位のスコアを出力する処理を行ってもよい。
【0096】
上述したように、1つの文書データに対してブロックは複数設定されることが想定されるため、全文書データを対象として、ブロック単位のスコアを算出した場合、処理負荷が大きくなる。しかし、文書単位でのスコアを基準として、ブロック単位のスコア算出対象となる文書データを絞り込むことによって、処理負荷の軽減が可能である。例えば推論処理部160は、文書データ単位のスコアが所定閾値以上の文書データを対象としてブロック単位のスコアを求める処理を行ってもよい。あるいは推論処理部160は、文書データ単位のスコアが高い方から所定数の文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。あるいはユーザの知りたい文書と同程度のスコア帯や類似ワードを含む文書データを対象として、ブロック単位のスコアを求める処理を行ってもよい。
【0097】
3.5 交差検証と予測曲線
上述したように、表示制御部170は分類処理の対象となる複数の文書データについてそれぞれスコアを算出し、当該スコアに基づいた表示制御を行う。具体的には、表示制御部170は、スコアが高い順にソートされた文書データのリストを、端末装置20の表示部に表示させる制御を行ってもよい。端末装置20のユーザは、例えばリスト表示された文書データの何れかを選択することによって、当該文書データの内容を確認し、当該文書データが実際に所与の事案に関連しているかの判定等を行う。以下、文書データが所与の事案と関連するか否かの判定処理をレビューとも表記する。
【0098】
端末装置20のユーザがスコアの高い順に複数の文書データをレビューしていっても、所与の事案に関連する文書データが全く発見されないというケースが考えられる。この場合、当該ユーザは、当該複数の文書データに所与の事案に関連する文書データが本当に含まれていないと考えるか、あるいはシステムの精度に問題があることを疑うか、判断に迷う可能性も出てくる。
【0099】
そこで本実施形態の学習処理部140は、交差検証の結果に基づいて、予測曲線を求める処理を行ってもよい。ここでの予測曲線とは、レビューを進めた場合に、所与の事案に関連すると判定される文書データの発見数がどのように推移するかを表す情報である。予測曲線により、想定されるレビュー結果をユーザに提示できる。例えば、レビューにより所与の事案に関連する文書データが発見されないことが妥当であるか否かを、ユーザに判断させること等が可能になる。
【0100】
図9は、予測曲線の一例を示す図である。
図9の横軸はレビューの進捗率を表す。即ち、処理対象の文書データのうち、レビューが行われた文書データの割合を表す。縦軸は、再現率(予測再現率)を表す。即ち
図9の縦軸は、所与の事案に関連する文書データのうち、レビューによって発見された(発見すると予測される)文書データの割合を表す。
【0101】
例えば、学習用の文書データが1200件であり、そのうちの800件が機械学習に用いられる訓練データに設定され、残りの400件が学習済モデルの検証に用いられるテストデータに設定された場合を考える。さらに、ここでは400件のテストデータのうち、20件が所与の事案に関連し、残りの380件は所与の事案に関連しない例を考える。
【0102】
この場合、800件の訓練データに基づいて生成された学習済モデルに対して、400件のテストデータのそれぞれを入力することによって各テストデータのスコアが算出される。そして400件のテストデータのうち、スコアが高い順にレビューが行われる。ここでは各テストデータに正解データが付与されているため、レビューとは当該正解データに基づいて、各テストデータが所与の事案に関連するか否かを判定する処理となる。例えば1件のレビューを行うことによって横軸の値は1/400だけ増加する。そして当該1件の文書データが所与の事案に関連するのであれば縦軸の値が1/20だけ増加し、所与の事案に関連しないのであれば、縦軸の値は維持される。これを全400件のレビューが完了するまで繰り返すことによって、
図9の座標系において1つのグラフ(予測線)が描かれる。例えば
図9のA1が予測線に対応する。
【0103】
例えば予測線上に(0.2,0.9)という座標が存在したとする。横軸の値が0.2とは、400件のテストデータのうち、スコアの上位20%、即ち上位80件までの文書データのレビューが行われたことを表す。縦軸の値が約0.9とは、上位80件のレビューによって、所与の事案に関連する文書データが、20×0.9=18件だけ発見されたことを表す。
【0104】
ただし、
図9のA1に示したように、予測線はなめらかな曲線になるとは限らない。例えば、所与の事案に関連する文書数(例えば上記の例では400件中の20件)が少ない場合、予測線が階段状に変化してしまう。この階段状の変化は、対象の訓練データ、テストデータの組み合わせに起因して発生したと考えられるため、異なる文書データを対象とする分類処理の段階では発生しない可能性がある。従って、当該階段状の変化を含む予測線を、予測曲線としてユーザにて提示することは好ましくない。
【0105】
そこで本実施形態では、訓練データとテストデータの組み合わせを複数用意し、それらから求められる複数の予測線を平均することによって予測曲線を求めてもよい。なお、交差検証では学習用のデータをN分割し、そのうちのN-1個を訓練データ、残りの1個をテストデータとして用いる。そのため、通常のN分割交差検証でも、N通りの予測線を取得することが可能である。ただし、本実施形態では、さらにデータの組み合わせパターンを増やすことによって、より適切な予測曲線を求める処理が行われてもよい。
【0106】
例えば学習処理部140は、文書データとして、複数の学習用文書データが取得された場合に、複数の学習用文書データの並び順を変更することによって、互いに異なる第1~第M(Mは2以上の整数)学習用データを生成してもよい。そして学習処理部140は、第1~第M学習用データのそれぞれについて、N分割交差検証を行うことによって、M×N通りの評価データを取得する。
【0107】
図10は、本実施形態の処理におけるデータのパターン例を示す図である。ここで横方向に3つ並ぶブロックは、N分割交差検証における分割結果を表す。即ち
図10では、3分割交差検証を行う例を示している。
図10のうち、斜線が引かれたブロックがテストデータに設定され、それ以外の2つのブロックが訓練データに設定される。各ブロックには複数の文書データが含まれる。例えば上述したように学習用データが1200件の文書データを含む場合、各ブロックは400件の文書データから構成される。
【0108】
この場合、1200件の文書データがパターン1で定義される順序で並んでいる場合に、当該1200個の文書データを、1-400番目、401-800番目、801-1200番目の3つのブロックに分割することによって、3つの学習用データが取得される。これは例えば、
図10におけるパターン1の(1)~(3)に対応する。
【0109】
さらに、1200件の文書データをパターン1とは異なるパターン2で定義される順序に並び替えた上で、当該1200個の文書データを、1-400番目、401-800番目、801-1200番目の3つのブロックに分割することによって、3つの学習用データが取得される。これは例えば、
図10におけるパターン2の(4)~(6)に対応する。ここで、同じ1-400番目のブロックであっても、パターン1とパターン2では文書データの並び順が異なるため、(1)のテストデータに含まれる文書データと、(4)のテストデータに含まれる文書データは異なるものとなる。同様に、(1)の訓練データに含まれる文書データと、(4)の訓練データに含まれる文書データは異なる。即ち、元となる学習用データが同じであったとしても、複数の順序パターンで並べ替えを行い、それぞれについて交差検証を行うことによって、多様なデータを用いた機械学習が可能になる。
【0110】
上述したように、パターン1~パターンMのM通りの順序パターンで並び替えを行い、それぞれについてN分割交差検証を行うことによって、M×N通りの機械学習が可能になる。そのため、それぞれの機械学習の結果について、テストデータを用いた評価データをM×N通りだけ取得できる。ここでの評価データは、例えば、
図9に示した予測線であってもよい。ただし評価データはこれに限定されず、テストデータを用いて取得できる再現率、正解率、適合率、AUC等、他の情報を含んでもよい。
【0111】
例えば多数の予測線を取得することによって、これらに基づいた統計処理が可能になる。例えば学習処理部140は、学習段階において、上記M×N通りの評価データを標本とする統計量に基づく予測情報を生成してもよい。ここでの予測情報とは、学習済モデルが出力するスコアに基づいてユーザが文書データのレビューを行った際のレビュー結果を予測する情報である。予測情報は狭義には上述した予測曲線であるが、他の情報であってもよい。
【0112】
このようにすれば、学習処理部140は、例えばM×N本の予測線の平均値等に基づいて、なめらかであり、且つ、精度の高い予測曲線を求めることが可能になる。例えば
図9のA2が、複数の予測線の平均値から求められた予測曲線を表す。
【0113】
なお、通常のN分割交差検証でも、Nの値を増やすことによって予測線の数を増やすことが可能であるが、テストデータの数が減るため、テストデータを用いる処理の精度低下の可能性がある。予測線の本数はN本であり、テストデータの数は全体データ数の1/Nである。一方、Nの値を小さくした場合、予測線の本数が減ってしまうし、そもそも訓練データの数が少なくなることで学習済モデルの精度が低下する可能性がある。訓練データの数は、全体データ数の(N-1)/Nである。その点、本実施形態の手法によれば、文書データの順序パターンの数Mを増やすことによって評価データ数を増やせるため、Nの値を極端な値に設定する必要がない。例えばNとして、テストの精度、及び、学習済モデルの精度を考慮した中庸的な値(例えば3-5程度)を設定することが可能になる。例えばM=20とした場合、N=3であっても、評価データとして20×3=60通りのデータを取得できる。
【0114】
なお学習処理部140は、予測情報を求める際に、M×N通りの評価データの全てを用いる必要はない。例えば、
図10に示したようにN=3である場合、訓練データの数は全体の2/3となるため、学習済モデルの精度低下による影響を考慮した処理が実行されてもよい。例えば、学習処理部140は、M×N通りの評価データのうち、学習済モデルの精度が相対的に高いと評価された一部の評価データに基づいて予測情報を求めることによって、上記精度低下を補正してもよい。上記のように評価データが60通りである場合、学習処理部140は、精度がX位であるデータを中心に、±Y位までの評価データ(X-Y位からX+Y位までの2Y+1通り)に基づいて予測情報を求める。この際、Xは中央値(30または31)よりも小さい値であり、狭義には上記1/4以上(X≦15)であってもよい。またYの値は種々の変形実施が可能であるが、例えば処理に用いる最下位(X+Y位)が中央値以上となるようにYの値が設定されてもよい。
【0115】
また学習処理部140は、複数の予測線から分散や標準偏差を算出してもよい。例えば学習処理部140は、標準偏差をσとした場合、平均値として求められた予測曲線の±1.96σを、95%信頼区間として求めてもよい。
図9の例では、A3が+1.96σ、A4が-1.96σを表す曲線であり、A3とA4の間が95%信頼区間を表す。例えば学習処理部140は、
図9のA2~A4に示すグラフを表す情報を、記憶部200に記憶させる処理を行う。
【0116】
また学習処理部140は、±3σの範囲外のデータを外れ値として処理から除外してもよい。このように外れ値を除外することによって処理精度の向上が可能になる。
【0117】
推論処理部160は、推論処理の結果予測を表す情報として、予測情報を出力する処理を行ってもよい。例えば推論処理部160は、
図9に示すグラフを記憶部200から読み出し、表示制御部170に対して当該グラフを表示させる指示を行う。このようにすれば、端末装置20のユーザに対して、予測曲線及び信頼区間を提示できるため、例えば所与の事案に関連する文書データが発見されない場合に、それが妥当な結果であるか否かを判定させることが可能になる。
【0118】
また表示制御部170は、上位スコア帯を閲覧しても所与の事案に関連する文書データが1件も見つからない場合に、統計処理に基づく情報を提示する処理を行ってもよい。例えば、推論処理部160は、下式(5)に基づいてMoE(Margin of Error)を求める処理を行ってもよい。下式(5)において、pは想定濃度、即ち、対象となる文書データのうち、所与の事案に関連する文書データの予測比率を表す。pは、例えば学習処理部140が、学習処理の段階で推定してもよい。閲覧文書数は、ユーザによるレビューが行われた文書データの数を表し、例えば端末装置20におけるユーザのレビュー操作(例えばリストから文書データを選択する操作)の履歴から求められてもよい。
【数5】
【0119】
例えば表示制御部170は、検出限界以下であること(上位スコア帯を閲覧しても所与の事案に関連する文書データが1件も見つからないこと)の基準として、上式(5)に基づいて「信頼水準95%で誤差Z%の濃度で存在しない」との情報を提示する処理を行ってもよい。ここでのZは、上式(5)のMoEを表す。例えば想定濃度が0.01%であり、ユーザが1000件レビューを行ったときに1件も所与の事案に関連する文書データが発見されなかった場合、上式(5)によって求められるMoEは0.1となる。この場合、表示制御部170は、「検出限界以下=信頼度95%で誤差0.1%の濃度で存在しない」との表示を行う。このようにすれば、所与の事案に関連する文書データが発見されないことについて、統計学的な処理に基づいて客観的なデータをユーザに提示することが可能になる。
【0120】
なお本実施形態の手法は情報処理装置10に適用されるものに限定されず、以下の各ステップを実行する情報処理方法に適用されてもよい。情報処理方法は、情報処理装置10が、文書データを取得し、文書データの形態素解析を行い、形態素解析の結果に基づいて特徴量を決定し、特徴量に基づいて、形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行い、機械学習において、重みの値が所与の閾値以下と判定された形態素に対応する特徴量を、モデルの入力データから削除する処理を行う、ステップを含む。
【0121】
また、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理装置、端末装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
【符号の説明】
【0122】
1…情報処理システム、10…情報処理装置、20…端末装置、30…第2情報処理装置、110…取得部、120…解析処理部、130…特徴量決定部、140…学習処理部、150…モデル取得部、160…推論処理部、170…表示制御部、200…記憶部
【手続補正書】
【提出日】2023-07-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
文書データを取得する取得部と、
前記文書データの形態素解析を行う解析処理部と、
前記形態素解析の結果に基づいて特徴量を決定する特徴量決定部と、
前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行う学習処理部と、
を含み、
前記学習処理部は、
前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行い、
前記特徴量決定部は、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第1~第P(Pは1以上の整数)補正前特徴量が取得され、前記文書データとして、第1~第Q(Qは1以上の整数)文書が取得された場合に、
前記補正前特徴量の個数P、前記文書データの数Q、前記第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる前記第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、前記第1~第P補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記学習処理部は、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理装置。
【請求項2】
請求項1において、
前記学習処理部は、
前記モデルとして、推論処理において組み合わせて用いられる複数のモデルを求めるアンサンブル学習のオン/オフを変更可能であり、
前記モデルの評価処理を行い、前記モデルの性能が所定以下であると判定された場合、前記アンサンブル学習をオフにした上で、前記機械学習を継続する情報処理装置。
【請求項3】
請求項1において、
前記学習処理部は、
前記モデルの評価処理を行い、前記評価処理において前記モデルの性能が所定以下であると判定された場合、前記特徴量決定部において前記特徴量の決定に用いられる特徴量モデルを変更した上で、前記機械学習を継続する情報処理装置。
【請求項4】
請求項1乃至3の何れか一項において、
前記学習処理部による前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの処理を行う推論処理部をさらに含み、
前記推論処理部は、
前記推論対象データが、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行う情報処理装置。
【請求項5】
請求項1乃至3の何れか一項において、
前記学習処理部により前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの処理を行う推論処理部をさらに含み、
前記推論処理部は、
前記推論対象データを、任意の長さの複数のブロックに分割し、前記複数のブロックのそれぞれについて、所与の事案と関連する確率を表す確率データをスコアとして出力する処理を行う情報処理装置。
【請求項6】
請求項5において、
前記推論処理部は、
前記複数のブロックのそれぞれについて、前記スコアと、前記推論対象データのジャンルによらない閾値とを比較し、比較結果に基づいて、前記ブロックの表示態様を決定する情報処理装置。
【請求項7】
請求項5において、
前記推論処理部は、
推論対象の前記文書データとして、複数の推論対象データが取得された場合に、
前記複数の推論対象データのそれぞれについて、前記スコアを算出し、
前記複数の推論対象データのうち、相対的に前記スコアが高い一部を対象として、前記複数のブロックのそれぞれについて前記スコアを出力する処理を行う情報処理装置。
【請求項8】
請求項1乃至3の何れか一項において、
前記学習処理部は、
前記文書データとして、複数の学習用文書データが取得された場合に、
前記複数の学習用文書データの並び順を変更することによって、互いに異なる第1~第M(Mは2以上の整数)学習用データを生成し、
前記第1~第M学習用データのそれぞれについて、N(Nは2以上の整数)分割交差検証を行うことによって、M×N通りの評価データを取得する情報処理装置。
【請求項9】
請求項8において、
前記学習処理部の前記機械学習が行われた後の前記モデルである学習済モデルに基づいて、推論対象の前記文書データである推論対象データの推論処理を行う推論処理部をさらに含み、
前記学習処理部は、
前記M×N通りの評価データを標本とする統計量に基づく予測情報を生成し、
前記推論処理部は、
前記推論処理の結果予測を表す情報として、前記予測情報を出力する情報処理装置。
【請求項10】
情報処理装置が、
文書データを取得し、
前記文書データの形態素解析を行い、
前記形態素解析の結果に基づいて特徴量を決定し、
前記特徴量に基づいて、前記形態素解析によって取得された形態素について、線形モデルまたは一般化線形モデルであるモデルにおける重みを決定する機械学習を行い、
前記機械学習において、
前記重みの値が所与の閾値以下と判定された前記形態素に対応する前記特徴量を、前記モデルの入力データから削除する処理を行い、
前記特徴量の決定において、
前記文書データに付与されたメタデータに基づいて、前記メタデータに対応する補正前特徴量として、第1~第P(Pは1以上の整数)補正前特徴量が取得され、前記文書データとして、第1~第Q(Qは1以上の整数)文書が取得された場合に、
前記補正前特徴量の個数P、前記文書データの数Q、前記第1~第Q文書に現れる第i補正前特徴量(iは1以上P以下の整数)によって求められる第1ノルム、及び、第j(jは1以上Q以下の整数)文書に現れる前記第1~第P補正前特徴量によって求められる第2ノルム、に基づいて、前記第1~第P補正前特徴量を補正することによって、メタデータ特徴量を決定し、
前記機械学習において、
前記形態素に対応する前記特徴量、及び、前記メタデータ特徴量に基づいて、前記機械学習を行う情報処理方法。