(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172179
(43)【公開日】2024-12-12
(54)【発明の名称】文書分類装置並びに文書分類方法
(51)【国際特許分類】
G06F 16/35 20190101AFI20241205BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2023089732
(22)【出願日】2023-05-31
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000350
【氏名又は名称】ポレール弁理士法人
(72)【発明者】
【氏名】浅野 優
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】
【課題】テキスト間の類似度スコアを正しく求めることができる文書分類装置並びに文書分類方法を提供する。
【解決手段】類似度スコア算出モデルを備え、文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類装置であって、複数の分類基準の組み合わせから類似度スコア算出モデルをファインチューニングするための疑似データを生成する生成部と、生成された疑似データを用いて、類似度スコア算出モデルをファインチューニングする学習部とを有することを特徴とする文書分類装置。
【選択図】
図7
【特許請求の範囲】
【請求項1】
類似度スコア算出モデルを備え、文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類装置であって、
複数の前記分類基準の組み合わせから前記類似度スコア算出モデルをファインチューニングするための疑似データを生成する生成部と、前記生成された疑似データを用いて、前記類似度スコア算出モデルをファインチューニングする学習部とを有することを特徴とする文書分類装置。
【請求項2】
請求項1に記載の文書分類装置であって、
前記生成部は、前記分類基準と過去の文書と過去の分類結果からの疑似データ生成を行うことを特徴とする文書分類装置。
【請求項3】
請求項2に記載の文書分類装置であって、
前記生成部は、生成した疑似データについて、前記分類基準から生成した疑似データと類似している、基準と過去の文書と過去の分類結果から生成した疑似データは削除することを特徴とする文書分類装置。
【請求項4】
請求項1に記載の文書分類装置であって、
前記学習部は、生成した疑似データの内容、並びに複数組の疑似データの適用順序を考慮した複数回のファインチューニングを実施することを特徴とする文書分類装置。
【請求項5】
請求項4に記載の文書分類装置であって、
前記学習部は、複数回ファインチューニングされた、複数の前記類似度スコア算出モデルを保存することを特徴とする文書分類装置。
【請求項6】
請求項4に記載の文書分類装置であって、
前記学習部は、既存データと前記分類基準から生成した疑似データで前記類似度スコア算出モデルをファインチューニングし、
前記生成部は、学習後の前記類似度スコア算出モデルを使って前記分類基準と過去の文書、過去の分類結果からのデータ生成を行うことを特徴とする文書分類装置。
【請求項7】
請求項6に記載の文書分類装置であって、
前記生成部は、前記分類基準から類似度スコアの正解データを自動生成しておき、
前記学習部は、精度の高い疑似データ、並びに複数組の疑似データの適用順序を、前記類似度スコア算出モデルをファインチューニングするための疑似データとして採用することを特徴とする文書分類装置。
【請求項8】
請求項7に記載の文書分類装置であって、
前記学習部は、既存の類似データと、前記分類基準から生成した疑似データまたは基準と過去の文書と過去の分類結果から生成した疑似データによるファインチューニングを行うことを特徴とする文書分類装置。
【請求項9】
請求項7に記載の文書分類装置であって、
前記学習部は、既存の類似データと、前記分類基準から生成した疑似データと、基準と過去の文書と過去の分類結果から生成した疑似データによるファインチューニングを行うことを特徴とする文書分類装置。
【請求項10】
請求項1に記載の文書分類装置であって、
文書分類装置は表示手段を含み、
表示手段には、疑似データ生成画面、類似度スコア算出モデルの学習画面、類似度スコア算出画面、文書分類画面の少なくとも1つが表示されることを特徴とする文書分類装置。
【請求項11】
請求項10に記載の文書分類装置であって、
前記表示手段に表示された前記疑似データ生成画面は、ユーザが疑似データ生成を指令する場合に使用され、入力ファイルとして分類基準、過去事例、類似度スコア算出モデルが指定でき、類似と非類似の割合を指定できるように表示されていることを特徴とする文書分類装置。
【請求項12】
請求項10に記載の文書分類装置であって、
前記表示手段に表示された前記類似度スコア算出モデルの学習画面は、ユーザが類似度スコア算出モデルの学習を指令する場合に使用され、入力ファイルとして学習の対象とする類似度スコア算出モデル、類似非類似データ、類似と非類似の割合を指定できるように表示されていることを特徴とする文書分類装置。
【請求項13】
請求項10に記載の文書分類装置であって、
表示手段に表示された前記類似度スコア算出画面は、ユーザが類似度スコア算出を指令する場合に使用され、入力ファイルとして比較対象とされる文対を含んだファイル、類似度スコア算出で使用する類似度スコア算出モデルを指定できるように表示されていることを特徴とする文書分類装置。
【請求項14】
請求項10に記載の文書分類装置であって、
表示手段に表示された前記文書分類画面は、ユーザが文書分類を指令する場合に使用され、入力ファイルとして分類基準、過去事例、類似度スコア算出モデル、分類対象ファイルを指定できるように表示されていることを特徴とする文書分類装置。
【請求項15】
計算機の記憶部に類似度スコア算出モデルを備え、計算機の演算部において文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類方法であって、
計算機の演算部は、複数の前記分類基準の組み合わせから前記類似度スコア算出モデルをファインチューニングするための疑似データを生成し、前記生成された疑似データを用いて、前記類似度スコア算出モデルをファインチューニングすることを特徴とする文書分類方法。
【請求項16】
請求項15記載の文書分類方法であって、
前記分類基準と過去の文書と過去の分類結果からの疑似データ生成を行うことを特徴とする文書分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分類装置並びに文書分類方法に係り、特に、文書を予め定められたクラスごとに分類するのに適した文書分類装置並びに文書分類方法に関する。
【背景技術】
【0002】
自然言語処理の応用の一つである文書分類技術は記事の分類や申請書の審査などさまざまな用途に使われている。その一つの方法にテキスト間の類似性を使って文書分類する手法がある。あるいはテキストで書かれた基準に基づいて分類する場合がある。
【0003】
特許文献1では文献に含まれるテキスト間の類似性を用いた類似文献検索において、適合率の高い文献を発見しやすくするための教師データを収集することを目的として、「基準文献の特徴ベクトルを導出するとともに、母集団に属する各文献の特徴ベクトルを導出するベクトル生成部と、(a)前記特徴ベクトルの次元数を削減する次元削減処理を実行して、前記特徴ベクトルに対する前記次元削減処理で得られた次元の値を第1特徴量とし、(b)前記基準文献の特徴ベクトルと前記母集団に属する各文献の特徴ベクトルとのコサイン類似度を第2特徴量として導出する特徴量抽出部と、前記第1特徴量の特徴量空間において前記基準文献と前記母集団に属する文献との間の距離が最も短いものから所定数の文献を前記母集団から抽出して検索範囲を限定する検索範囲制御部と、抽出された前記文献のうち、前記コサイン類似度が最も低いものから所定数の文献を教師データとして抽出する教師データ抽出部と、を備えることを特徴とする教師データ収集システム。」を提案している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、母集団の文献とユーザにより入力された検索条件が指定する基準文献との類似度を算出し、その類似度に基づいて適合率が高くなるように母集団の文献から教師データを抽出する。この場合、テキストで書かれた基準のある文書分類に用いることを想定していないため、基準と分類対象の文書データの類似度スコアを正しく出力できないことがある。
【0006】
以上のことから本発明においては、テキスト間の類似度スコアを正しく求めることができる文書分類装置並びに文書分類方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
以上のことから本発明においては、「類似度スコア算出モデルを備え、文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類装置であって、複数の分類基準の組み合わせから類似度スコア算出モデルをファインチューニングするための疑似データを生成する生成部と、生成された疑似データを用いて、類似度スコア算出モデルをファインチューニングする学習部とを有することを特徴とする文書分類装置。」としたものである。
【0008】
また本発明においては、「計算機の記憶部に類似度スコア算出モデルを備え、計算機の演算部において文書を、テキストで書かれた分類基準を用いてスコアにより分類する文書分類方法であって、計算機の演算部は、複数の分類基準の組み合わせから類似度スコア算出モデルをファインチューニングするための疑似データを生成し、前記生成された疑似データを用いて、類似度スコア算出モデルをファインチューニングすることを特徴とする文書分類方法。」としたものである。
【発明の効果】
【0009】
本発明によれば、テキストで書かれた基準に基づく文書分類において、テキスト間の類似度スコアを正しく求めることができる。
【図面の簡単な説明】
【0010】
【
図2】文書分類システム10および端末装置20のハードウェア構成を示す図。
【
図3】文書分類システム10が実行する処理内容を機能的に表現した図。
【
図4】分類基準が与えられている場合の文書分類システム10における処理内容例を示した図。
【
図5】数値根拠に基づいて分類根拠を生成する機能部分である分類器20の構成例を示す図。
【
図6】類似度スコア算出における失敗事例と利用事例を例示した図。
【
図7】本発明の実施例1に係る文書分類装置の構成例を示す図。
【
図8a】類似度スコア算出モデルのファインチューニングによる効果を示す図。
【
図8b】類似度スコア算出モデルのファインチューニングによる効果を示す図。
【
図9】ユーザが疑似データ生成を指令する場合のモニタ画面構成例を示す図。
【
図10】ユーザが類似度スコア算出モデルの学習を指令する場合のモニタ画面構成例を示す図。
【
図11】ユーザが類似度スコア算出を指令する場合のモニタ画面構成例を示す図。
【
図12】ユーザが文書分類を指令する場合のモニタ画面構成例を示す図。
【発明を実施するための形態】
【0011】
以下,本発明の実施例について、図面を用いて説明する。
【実施例0012】
本発明の実施例にかかる文書分類装置を含む文書分類システムの全体構成例を
図1に示している。図示するように文書処理システム1は、文書を分類する文書分類システム10と、ユーザが文書の分類結果を閲覧する端末装置2a、2b、2cとがネットワーク3を介して接続されている。
【0013】
文書分類システム10は、文書処理システム1全体の管理をするサーバコンピュータである。文書分類システム10は、例えば、クラウド上で検索のサービスを提供するクラウドサーバとすることができる。詳しくは後述するが、文書分類システム10は、機械学習により文書分類モデルを生成する。そして、文書分類システム10は、この文書分類モデルを用いて文書を分類する。さらに、文書分類システム10は、文書の分類の根拠の説明を生成する。
【0014】
ここで「文書」とは、例えば、文字情報や画像情報を電子化した電子文書である。この文書は、文書分類システム10で扱うことができるものであれば、形式およびデータ構造等について特に限られるものではない。ただし、以下の説明では、文字情報を基に文書の分類を行う場合について説明する。
【0015】
また、図示する文書分類システム10は、1つであるが、複数のサーバコンピュータによりその機能を実現してもよい。例えば、文書分類モデルを生成するサーバコンピュータと、文書を分類し、文書の分類の根拠の説明を生成するサーバコンピュータとで、文書分類システム10を構成してもよい。
【0016】
端末装置2a、2b、2cは、文書分類システム10により文書を分類した結果である分類結果と分類の根拠を表示する。
【0017】
端末装置2a、2b、2cは、例えば、汎用のパーソナルコンピュータ(PC)、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のコンピュータ装置である。そして、端末装置2a、2b、2cは、OS(Operating System)による管理下において、各種アプリケーションソフトウェアを動作させる。なお以下、端末装置2a、2b、2cを区別しない場合は、単に「端末装置2」と言うことがある。また、
図1では、端末装置2は、3つ示しているが、その数は、1つ以上であればいくつであってもよい。
【0018】
ネットワーク3は、文書分類システム10および端末装置2の間の情報通信に用いられる通信手段であり、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)である。データ通信に用いられる通信回線は、有線か無線かを問わず、これらを併用してもよい。また、文書分類システム10および端末装置2は、ゲートウェイ装置やルータ等の中継装置を用い、複数のネットワークや通信回線を介して接続されてもよい。
【0019】
文書処理システム1では、まず、文書分類システム10が、機械学習により文書分類モデルを生成する。
【0020】
ユーザが文書の分類を行う場合、ユーザは、端末装置2を使用し、文書のデータの入力を行う。文書のデータは、文書分類システム10に送られ、文書分類システム10は、文書分類モデルを用いて文書の分類を行うとともに、文書の分類の根拠の説明を生成する。あるいは、文書分類システム10は、文書分類モデルを用いて文書の分類の予測を行うとともに、文書の分類の根拠の説明を生成する。そして、端末装置2では、文書の分類結果と、文書の分類の根拠の説明とが表示される。あるいは、端末装置2では、文書の分類の予測結果と、文書の分類の根拠の説明とが表示される。
【0021】
図2は、文書分類システム10および端末装置2のハードウェア構成について示した図である。なお、文書分類システム10および端末装置2のハードウェア構成は、同じであるので、文書分類システム10を例にとり、説明を行う。
【0022】
図示する文書分類システム10は、プログラムの実行を通じて各部を制御するCPU(Central Processing Unit)101と、画像その他の情報を表示するディスプレイ102と、文字などを入力するキーボード103と、ポインティングデバイスであるタッチパッド104と、外部装置との通信に用いられる通信モジュール105と、システムデータや内部データが記憶される内部メモリ106と、補助記憶装置としての外部メモリ107等を有している。
【0023】
CPU101は、プロセッサの一例であり、OS(基本ソフトウェア)やアプリケーションソフトウェア(応用ソフトウェア)等のプログラムを実行する。
【0024】
本実施の形態の場合、内部メモリ106は、半導体メモリである。内部メモリ106は、BIOS(Basic Input Output System)等が記憶されたROM(Read Only Memory)と、主記憶装置として用いられるRAM(Random Access Memory)とを有している。CPU101と内部メモリ106はコンピュータを構成する。CPU101は、RAMをプログラムの作業スペースとして使用する。外部メモリ107は、HDDやSSD等のストレージであり、ファームウェアやアプリケーションソフトウェア等が記憶される。
【0025】
ディスプレイ102は、例えば、液晶ディスプレイや有機EL(Electro Luminescent)ディスプレイで構成される。ディスプレイ102(すなわち表示面)には画像その他の情報が表示される。
【0026】
キーボード103は、ユーザが文字等を入力する際に使用する入力デバイスである。
【0027】
タッチパッド104も入力デバイスであり、ディスプレイ102に表示されるカーソルの移動や画面のスクロールなどの際に用いられる、なお、タッチパッド104の代わりにマウスやトラックボール等であってもよい。
【0028】
通信モジュール105は、外部との通信を行うための通信インタフェースである。
【0029】
図3は、文書分類システム10が実行する処理内容を機能的に表現したものであり、記憶装置に記憶されているプログラムの処理内容を機能的に表現したものである。これによれば文書分類システム10は、キーフレーズ抽出部11と、基準特徴量抽出部12と、文書分類モデル生成部13と、分類部14と、分類根拠生成部15とを備えるものということができる。
【0030】
このうちキーフレーズ抽出部11は、文書の分類を行う分類基準と教師データとから、キーフレーズを抽出する。
【0031】
「分類基準」は、文書の分類の基準であれば特に限られるものではない。例えば、文書が申請書であり、審査要と審査不要とに分類される場合、分類基準は、審査要や審査不要となることを判断する分類基準、審査基準である。具体的には、「〇〇の場合は、審査を要し、××の場合は、審査は不要である。」等が該当する。
【0032】
「キーフレーズ」は、任意の長さの文字列であり、単語、句、文章である。本実施の形態では、「キーフレーズ」は、文書中に出現する分類基準の希少性を表すパラメータに基づき選択される。また、キーフレーズには、対応する種別を付与する。「種別」は、キーフレーズが意味する内容に付与される属性である。例えば、キーフレーズが、「エージェント、アドバイザー、コンサルタントに該当する場合」の文章中の「エージェント」、「アドバイザー」、「コンサルタント」である場合、「取引先」という種別とする。また、キーフレーズが、「物品購入、物品提供する場合」の文章中の「物品購入」、「物品提供」である場合、「取引内容」という種別にする。上記のような表現を用いた方が根拠を提示する際に分かりやすいが、単に「種別1」、「種別2」のような分け方にしてもよい。種別は人手またはキーフレーズと種別が対応付けられた辞書等を用いて自動で付与されるものとする。
【0033】
基準特徴量抽出部12は、分類基準と教師データのそれぞれから抽出されたキーフレーズを基に、文書の特徴量である基準特徴量を抽出する。基準特徴量は、キーフレーズを種別ごとに分けたときに、種別ごとに抽出される。このとき、基準特徴量抽出部12は、種別ごとに類似度が最も高いものを基準特徴量として抽出する。なお、類似度は、キーフレーズと文書中のフレーズとをベクトル変換したときの、これらの類似度である。なお、基準特徴量抽出部12が基準特徴量を抽出する詳細な方法については、後述する。
【0034】
文書分類モデル生成部13は、基準特徴量を用いて文書分類モデルを生成する。
【0035】
分類部14は、文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類する。
【0036】
分類根拠生成部15は、キーフレーズを基に、分類対象文書の分類の根拠の説明を生成する。
【0037】
図4は、分類条件が与えられている場合の文書分類システム10における処理内容例を示した図である。
図4の(a)~(l)は、文書分類システム10が、キーフレーズを用いて基準特徴量を生成し、この基準特徴量を基に文書分類、および根拠の生成を行う手順を示している。
【0038】
図4の処理ではまず、文書(この場合、過去の申請書)として、レベル1、レベル2、レベル3の3つのクラスの文書を有する場合の教師データを用意する(
図4(a))。また、分類基準として、レベル1、レベル2、レベル3の3つのクラスの基準とを用意する(
図4(b))。次に、キーフレーズ抽出部11が、教師データおよび分類基準を用いて、キーフレーズを生成する(
図4(c))。また、キーフレーズ抽出部11は、各キーフレーズに対し、種別を付与する。そして、生成されたキーフレーズに対し、基準特徴量抽出部12Aが、基準特徴量を生成する(
図4(d))。
【0039】
さらに、文書分類モデル生成部13が、基準特徴量を用いて学習を行い(
図4(e))、文書分類モデルを作成する(
図4(f))。この文書分類モデルは、教師データ(この場合、過去の申請書)および分類基準のそれぞれのキーフレーズから生成された基準特徴量を用いた分類モデルである。
【0040】
そして、分類を行いたい文書である分類対象文書があると(
図4(g))、この分類対象文書について、基準特徴量抽出部12Bが、先に求められたキーフレーズと種別を用いて基準特徴量を生成する(
図4(h))。なお
図4(d)と
図4(h)は同じ処理を行う。
【0041】
分類部14は、文書分類モデル(
図4(f))を使用して、この基準特徴量を基に、分類対象文書の分類を行い、分類結果を出力する(
図4(i))。また、分類根拠生成部15が、分類基準に対応付けて分類根拠を生成して出力する(
図4(j))。この分類根拠は、キーフレーズと種別を用いて生成された基準特徴量を用いたものとなる。そして、分類結果と分類根拠は、ユーザに提示される(
図4(k))。
【0042】
図4に示す本発明の対象とする文書分類システム10の一例であり、キーフレーズを用いて基準特徴量を生成し、この基準特徴量を基に文書分類、および根拠の生成を行う。(c)キーフレーズ抽出を行わずに分類基準をキーフレーズとして使用することも考えられる。
【0043】
本発明は、基本的に
図4のように構成され、学習により作成されたモデルを用いて分類結果と、分類基準に対応付けて分類根拠を生成して出力する場合に、分類器20の処理に関与するものである。
【0044】
図5は、分類器20の構成例を示している。この分類器20の機能は、
図4における基準特徴量抽出部12Bと分類部14を含む部分に対応する。なお、分類器を主体として構成される機能を以下においては文書分類装置というものとする。
【0045】
図5における分類器20は、文書(
図4の分類対象文書)dn1が基準X,Y,Zを準拠しているかを、文書dn1と基準の間の類似性から判断し、一番類似している基準に分類する。図示の例では、テキスト形式で記述された分類基準として、文書dn1が基準Xの場合は分類1とし、文書dn1が基準Yの場合は分類2とし、文書dn1が基準Zの場合は分類3とするものを準備しておき、結果的に分類1と判断したことを示している。
【0046】
本発明では、類似性を表す類似度スコアの算出には、一例として文字列対の等価性が付与された既存データで事前学習した類似/非類似分類モデルを用いることができる。例えば、既存のデータには「二人の男性がジャンボジェット機を見ています」と「2人の男性が飛行機を眺めています」には類似、「ピッツァが置いてあります」と「ピッツァが飛んでいます」には非類似という等価性が付与されていることが考えられる。類似度スコアは0~1の値を取り、類似しているほど高い値を取るとした場合、類似の文字列対の類似度スコアを1,非類似の文字列対の類似度スコアを0としたデータで類似/非類似分類モデルを事前学習する。このモデルが、類似度スコア算出用モデルSimであり、分類器20は類似度スコア算出用モデルsimを主たる構成要素として構成されている。このモデルが、類似度スコア算出用モデルsimであり、分類器20は類似度スコア算出用モデルsimを主たる構成要素として構成されている。
【0047】
類似度スコアの関係が、sim(d,X)>sim(d,Y)>sim(d,Z)である場合は、「分類1」と分類する。なおsim(d,X)は、文書dn1と基準Xとの類似度を示す数値であり、この例ではYとの類似度はZとの類似度より大きく、かつXとの類似度はYとの類似度より大きいことをもって、「分類1」と分類したものである。
【0048】
しかしながら、既存データで学習した類似度スコア算出には課題もある。具体的には例えば、既存のデータのみで学習したモデルだと、既存データと、分類基準と文書の内容と異なるため、誤った類似度スコアが算出されてしまう場合がある。
【0049】
図6は、類似度スコア算出における失敗事例と利用事例を例示した図であり、右上の基準1、2、3と分類対象文書dn1の例「・・・A社は代理業者である・・・」を比較した場合に、失敗事例では回答文に類似するべき基準2の類似度スコアが0.7であり、類似すべきでない基準1のスコア0.8より低くなっている場合がある。これに対し、理想的には回答文に類似するべき基準2の類似度スコア(0.7)が類似すべきでない基準1のスコア(0.2)より高くなるべきである。
【0050】
図6の課題が存在することから本発明にかかる文書分類装置においては、分類器20で用いる類似度スコア算出用モデル(sim)を学習するために、疑似データを自動生成する。詳細には、実施例1では基準と過去文書と過去分類結果から疑似データを自動生成するものである。また既存データと組み合わせて類似度スコア算出モデルをファインチューニングするものである。
【0051】
図7は分類器学習部を追加した、本発明の実施例1に係る文書分類装置の構成例を示す図である。
図7の文書分類装置30は、分類器20に疑似データ生成部21が追加され、疑似データ生成部21で作成された疑似データが分類器20に与えられることで、分類器20の主たる構成要素である類似度スコア算出モデルの学習を実行する。
【0052】
図7によれば、疑似データ生成部21には基準と過去文書と過去分類結果が与えられて、これらから疑似データを自動生成する。一例では基準からの生成を行い、またほかの例では基準、過去文書、過去分類結果からの生成を行う。
【0053】
次に、基準からの疑似データの生成方法について説明する。類似度スコア算出モデルのファインチューニングを行うための疑似データの作成に際し、類似と非類似の文字列対を生成する。例えば、非類似を0、類似を1とする時、基準c1,c2,c3に対し、(c1,c2,0)(c1,c3,1)を生成することが考えらえる。この例では、基準c1とc2は非類似、基準c1とc3は類似とする関係を生成したことを表している。類似のものとしては、同一の文字列同士あるいは文字列とその部分文字列を作成し、非類似のものとしては、異なる基準同士あるいは基準とその否定文を作成する。例えば、基準に関して、基準1では「コンサルタントである場合は分類1」とし、基準2では「エージェントである場合は分類2」とする。この時、生成データとしては、類似に関して(コンサルタントである場合,コンサルタントである場合,1)、あるいは(エージェントである場合,エージェントである場合,1)とし、非類似に関して(コンサルタントである場合,エージェントである場合,0)、あるいは(エージェントである場合,コンサルタントである場合,0)とする。
【0054】
次に、基準、過去文書、過去分類結果からの疑似データを生成方法について説明する。ここでは、既存データと基準から生成した疑似データで学習した類似度スコア算出モデルを用いて、基準と過去文書のフレーズの全文字列対の類似度スコアを算出(例えば、フレーズを文区切りとする)する。
【0055】
類似度スコアの算出に際し、類似度スコアに応じて分類した結果を与える利用場面と、採点する利用場面とがある。このことから、分類の場合は、類似度スコアの1位の文字列対を類似、それ以外の文字列対を非類似とする。また採点の場合は、類似度スコアの上位から過去採点スコア分の文字列対を類似、それ以外の文字列対を非類似とする。なお採点の場合に、上位から設定件数までを類似とする場合と、上位から設定割合までを類似とする場合とがあり、本発明ではどちらとしてもよい。
【0056】
ただし、下記の場合は文書の複数個所に基準の内容が含まれることを考慮し、疑似データとしない。まずは、既に類似となった基準を含む文字列対は疑似データとしない。また、複数の基準c1,…,ci,…,cnのいずれかを満たしていれば1点(任意の分類)となっている場合に、基準ciを含む文字列対が類似の疑似データとなった場合は、基準c1, ・・・, cnを含む文字列対は疑似データとしないなどである。
【0057】
例えば各基準が独立している場合として、1.コンサルタントである場合は分類1とし、2.エージェントである場合は分類2とし、3.公的機関である場合は分類3とするという基準があるとする。
【0058】
過去文書について、「A社はIoT製品のコンサルテーションを提供している会社である。」と、「主な提供先には、官公庁、大手の民間企業がある。」で構成されるとき、過去分類結果では分類1としていた。この場合に基準と過去文書のフレーズの全文字列対を類似度スコア順に並べると、sim(A社はIoT製品のコンサルテーションを提供している会社である。,コンサルタントである)>sim(主な提供先には、官公庁、大手の民間企業がある。,公的機関である場合)>・・・となったとする。
【0059】
この時、類似の疑似データとして、(A社はIoT製品のコンサルテーションを提供している会社である。,コンサルタントである,1)が得られ、非類似の疑似データとして、(主な提供先には、官公庁、大手の民間企業がある。,公的機関である場合,0)のような類似以外の文字列対からなるデータが得られる。ただし、上記の説明の通り、(*,コンサルタントである)は疑似データとしない。この時、記号*は「A社はIoT製品のコンサルテーションを提供している会社である。」以外の文字列とする。
【0060】
図8a,
図8bは、類似度スコア算出モデルのファインチューニングによる効果を示す図である。
図8aでは,疑似データでの学習(モデル修正)に関して、正解は分類3であり、類似度スコアが正しく出力されていれば、sim((b),基準1)のスコアが低くなることを示している。
図8bは、
図8の疑似データで学習したモデルを用いることで、モデル修正前はsim((c),基準1)>sim((c),基準2)となり、正しく判断されなかったが、修正後にはsim((c),基準1)<sim((c),基準2)となり、正しく判断されることを表している。
【0061】
なお
図7における自動生成した疑似データを用いた類似度スコア算出モデルのファインチューニングは複数回に分けて追加学習することも考えられる。例えば、既存のデータと生成された疑似データ(基準から生成したデータ、基準と過去文書と過去分類結果から生成したデータ)を合わせてファインチューニングすることもできれば、既存のデータ、基準から生成した疑似データ、基準と過去文書と過去分類結果から生成した疑似データで順番に追加でファインチューニングしていくことも考えられる。複数のファインチューニング方法を実施し、評価用のデータを用いて評価することで最良の方法を選択する方法もある。
画面上部の入力ファイル等の選択入力部には、基準が登録されているファイル名を参照方式により選択する選択入力部と、過去事例が登録されているファイル名を参照方式により選択する選択入力と、複数の類似度スコア算出モデルを参照方式により選択する選択入力部と、さらに類似と非類似の割合を指定する割合設定部を備えており、これらを適宜選択することで得られた組み合わせでの疑似データが生成され、文1と文2とその文間の類似性が出力結果欄に表示される。過去事例には、過去に分類した文書と分類結果が含まれている。
なお類似度スコア算出モデルは、対象とする文書の種別ごとに、あるいは同種別であっても学習方法が相違する、あるいは学習途中段階における複数個を備えることがあるので、用途目的に応じて適宜選択可能とされている。
また出力結果の表示欄には、文字列対、文字列の出典、類似性のほかに、この判断結果をユーザが確認したことのチェックマークを付すことができるようにしている。これは単なる確認のほかに、不適合判断であるとユーザが考えるものについて、これを指摘し明確化することで、次回の判断に反映させることに利用可能である。
画面上部の入力ファイル等の選択入力部には、比較対象とされる文対を含んだファイルを参照方式により選択する選択入力部と、類似度スコア算出で使用する類似度スコア算出モデルを参照方式により選択する選択入力部とを備えており、これらを適宜選択することで得られた組み合わせでの類似度スコア算出モデルを用いた文章比較がスコア算出を含めて実行され、文1と文2の類似度スコアが出力結果欄に表示される。
画面上部の入力ファイル等の選択入力部には、基準が記載されているファイル名を参照方式により選択する選択入力部と、過去事例が記載されているファイル名を参照方式により選択する選択入力と、類似度スコア算出モデルを参照方式により選択する選択入力部と、
分類対象ファイルを参照方式により選択する選択入力部を備えており、これらを適宜選択することで得られた組み合わせでの文書分類が生成され、分類の予測値と根拠が表示される。