IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-122097文書分類システム、文書分類方法および文書処理システム
<>
  • 特開-文書分類システム、文書分類方法および文書処理システム 図1
  • 特開-文書分類システム、文書分類方法および文書処理システム 図2
  • 特開-文書分類システム、文書分類方法および文書処理システム 図3
  • 特開-文書分類システム、文書分類方法および文書処理システム 図4
  • 特開-文書分類システム、文書分類方法および文書処理システム 図5
  • 特開-文書分類システム、文書分類方法および文書処理システム 図6
  • 特開-文書分類システム、文書分類方法および文書処理システム 図7
  • 特開-文書分類システム、文書分類方法および文書処理システム 図8
  • 特開-文書分類システム、文書分類方法および文書処理システム 図9
  • 特開-文書分類システム、文書分類方法および文書処理システム 図10
  • 特開-文書分類システム、文書分類方法および文書処理システム 図11
  • 特開-文書分類システム、文書分類方法および文書処理システム 図12
  • 特開-文書分類システム、文書分類方法および文書処理システム 図13
  • 特開-文書分類システム、文書分類方法および文書処理システム 図14
  • 特開-文書分類システム、文書分類方法および文書処理システム 図15
  • 特開-文書分類システム、文書分類方法および文書処理システム 図16
  • 特開-文書分類システム、文書分類方法および文書処理システム 図17
  • 特開-文書分類システム、文書分類方法および文書処理システム 図18
  • 特開-文書分類システム、文書分類方法および文書処理システム 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024122097
(43)【公開日】2024-09-09
(54)【発明の名称】文書分類システム、文書分類方法および文書処理システム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240902BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023029441
(22)【出願日】2023-02-28
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】浅野 優
(72)【発明者】
【氏名】小野島 直子
(72)【発明者】
【氏名】岩城 博
(72)【発明者】
【氏名】西出 頼継
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB01
5B175HB03
(57)【要約】
【課題】文書分類の精度が高く、より納得性が高い根拠を提示することができる文書分類システム、文書分類方法、文書処理システムを提供する。
【解決手段】文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類する分類部14と、キーフレーズを基に、分類対象文書の分類の根拠の説明を生成する分類根拠生成部15と、を備える文書分類システム10。
【選択図】図7
【特許請求の範囲】
【請求項1】
文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類する分類部と、
前記キーフレーズを基に、前記分類対象文書の分類の根拠の説明を生成する分類根拠生成部と、
を備える文書分類システム。
【請求項2】
文書の分類を行う分類基準と学習データとから、前記キーフレーズを抽出するキーフレーズ抽出部をさらに備える請求項1に記載の文書分類システム。
【請求項3】
前記キーフレーズ抽出部は、前記分類基準からキーフレーズの候補である第1のフレーズ候補を抽出するとともに、前記学習データからキーフレーズの候補である第2のフレーズ候補を抽出し、前記第1のフレーズ候補と前記第2のフレーズ候補とを統合する請求項2に記載の文書分類システム。
【請求項4】
前記キーフレーズ抽出部は、前記第1のフレーズ候補と前記第2のフレーズ候補とが、文書の分類を行うクラスとして異なるクラスに属する場合に削除し統合する請求項3に記載の文書分類システム。
【請求項5】
前記キーフレーズ抽出部は、文書の分類を行うクラスごとに前記キーフレーズを作成する請求項2に記載の文書分類システム。
【請求項6】
前記キーフレーズ抽出部は、前記クラスを跨ぐ前記キーフレーズを作成する請求項5に記載の文書分類システム。
【請求項7】
前記キーフレーズ抽出部は、抽出された前記キーフレーズを基にさらに拡張したキーフレーズを作成する請求項2に記載の文書分類システム。
【請求項8】
前記分類基準と前記学習データのそれぞれから抽出された前記キーフレーズを基に、文書の特徴量である基準特徴量を抽出する基準特徴量抽出部をさらに備える請求項2に記載の文書分類システム。
【請求項9】
前記基準特徴量は、前記キーフレーズを種別ごとに分けたときに、前記種別ごとに抽出される請求項8に記載の文書分類システム。
【請求項10】
前記基準特徴量抽出部は、前記種別ごとに類似度が最も高いものを前記基準特徴量として抽出する請求項9に記載の文書分類システム。
【請求項11】
前記類似度は、前記キーフレーズと文書中のフレーズとをベクトル変換したときの、これらの類似度である請求項10に記載の文書分類システム。
【請求項12】
前記基準特徴量を用いて前記文書分類モデルを生成する文書分類モデル生成部をさらに備える請求項8に記載の文書分類システム。
【請求項13】
プロセッサがメモリに記録されたソフトウェアを実行することにより、
文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類し、
前記キーフレーズを基に、前記分類対象文書の分類の根拠の説明を生成する、
文書分類方法。
【請求項14】
文書を分類する文書分類システムと、
前記文書分類システムにより文書を分類した結果である分類結果と分類の根拠を表示する端末装置と、
を有し、
前記文書分類システムは、
文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類する分類部と、
前記キーフレーズを基に、前記分類対象文書の分類の根拠の説明を生成する分類根拠生成部と、
を備える文書処理システム。
【請求項15】
前記端末装置は、前記根拠として、前記分類基準、前記キーフレーズ、前記キーフレーズに対応する前記分類対象文書のフレーズを表示する請求項14に記載の文書処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分類システム、文書分類方法、文書処理システムに関する。本発明は、特に、文書を予め定められたクラスごとに分類するのに適した文書分類システムに関する。
【背景技術】
【0002】
自然言語処理の応用の一つとして文書分類がある。文書分類は、様々な用途に使用される。文書分類として、例えば、メールのスパム判定に例示される二値分類や、新聞記事の分類に例示される多値分類を行う場合がある。また、例えば、申請書類の判定に例示されるランク分類を行う場合がある。
【0003】
特許文献1では、属性情報が付随した情報を入力し、この情報に基づいて実世界で起きている特徴的事象を検出するイベント検出装置について開示されている。このイベント検出装置は、情報の属性情報を用いて情報を複数のセグメントに分割するセグメント化部と、情報に含まれる感情的傾向を分析し、分析結果に基づいて情報を分類する感情管理部と、セグメントに含まれる情報の分析結果および分類の結果に基づく定量的評価値を算出し、セグメントを定量的評価値にマッピングする感情強度バランス評価部と、定量的評価値に基づいてセグメントのうちの一部のセグメントを選出し、セグメントの特徴を抽出し、選出されたセグメント及び特徴を出力する情報整形部とを備える。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2013-257677号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ユーザが文書分類の結果を見たときに、分類結果の根拠を知りたいときがある。この場合、根拠として、分類に寄与した単語・句等の特徴量を提示することが一般的である。
しかしながら、従来は、特徴量の生成の上手くいかず、その結果、文書分類の精度が低下したり、誤った根拠を提示してしまう場合がある。
本発明は、文書分類の精度が高く、より納得性が高い根拠を提示することができる文書分類システム、文書分類方法、文書処理システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するため本発明は、文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類する分類部と、キーフレーズを基に、分類対象文書の分類の根拠の説明を生成する分類根拠生成部と、を備える文書分類システムを提供するものである。
【0007】
ここで、文書の分類を行う分類基準と学習データとから、キーフレーズを抽出するキーフレーズ抽出部をさらに備えることができる。この場合、文書の分類を行うのに適したキーフレーズを抽出できる。
また、キーフレーズ抽出部は、分類基準からキーフレーズの候補である第1のフレーズ候補を抽出するとともに、学習データからキーフレーズの候補である第2のフレーズ候補を抽出し、第1のフレーズ候補と第2のフレーズ候補とを統合することができる。この場合、文書の分類を行うのに適したキーフレーズをより容易に抽出できる。
さらに、キーフレーズ抽出部は、第1のフレーズ候補と第2のフレーズ候補とが、文書の分類を行うクラスとして異なるクラスに属する場合に削除し統合することができる。この場合、文書の分類を行うのに適さないキーフレーズ候補を排除することができる。
またさらに、キーフレーズ抽出部は、文書の分類を行うクラスごとにキーフレーズを作成することができる。この場合、文書の分類を行う各クラスに、より適したキーフレーズを作成することができる。
そして、キーフレーズ抽出部は、クラスを跨ぐキーフレーズを作成することができる。この場合、複数のクラスに出現するキーフレーズを作成することができる。
また、キーフレーズ抽出部は、抽出されたキーフレーズを基にさらに拡張したキーフレーズを作成することができる。この場合、文書分類の精度がさらに高くなりやすく、納得性が高い根拠をさらに作成しやすくなることが期待できる。
さらに、分類基準と学習データのそれぞれから抽出されたキーフレーズを基に、文書の特徴量である基準特徴量を抽出する基準特徴量抽出部をさらに備えることができる。この場合、文書の分類に適した、より精度の高い基準特徴量を作成できる。
またさらに、基準特徴量は、キーフレーズを種別ごとに分けたときに、種別ごとに抽出されるようにできる。この場合、キーフレーズが意味する内容に対し、より適したキーフレーズを作成できる。
そして、基準特徴量抽出部は、種別ごとに類似度が最も高いものを基準特徴量として抽出することができる。この場合、キーフレーズが意味する内容に対し、最も適したキーフレーズを作成できる。
また、類似度は、キーフレーズと文書中のフレーズとをベクトル変換したときの、これらの類似度にすることができる。この場合、類似度の判断が、より容易になる。
さらに、基準特徴量を用いて文書分類モデルを生成する文書分類モデル生成部をさらに備えることができる。この場合、より精度が高い分類モデルを生成することができる。
【0008】
また、本発明は、プロセッサがメモリに記録されたソフトウェアを実行することにより、文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類し、キーフレーズを基に、分類対象文書の分類の根拠の説明を生成する、文書分類方法を提供するものである。
【0009】
さらに、本発明は、文書を分類する文書分類システムと、文書分類システムにより文書を分類した結果である分類結果と分類の根拠を表示する端末装置と、を有し、文書分類システムは、文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類する分類部と、キーフレーズを基に、分類対象文書の分類の根拠の説明を生成する分類根拠生成部と、を備える文書処理システムを提供するものである。
【0010】
ここで、端末装置は、根拠として、分類基準、キーフレーズ、キーフレーズに対応する分類対象文書のフレーズを表示することができる。この場合、より納得性の高い根拠をユーザに提示することができる。
【発明の効果】
【0011】
文書分類の精度が高く、より納得性が高い根拠を提示することができる文書分類システム、文書分類方法、文書処理システムを提供することができる。
【図面の簡単な説明】
【0012】
図1】本実施の形態における文書処理システムの構成例を示す図である。
図2】文書分類システムおよび端末装置のハードウェア構成について示した図である。
図3】(a)~(c)は、文書を分類する処理について説明した図である。
図4】(a)~(b)は、文書の分類の根拠を知りたい場合について示した図である。
図5】従来の手法により根拠を提示した結果について示した図である。
図6】(a)~(k)は、分類基準をそのまま使用して基準特徴量を生成し、この基準特徴量を基に、文書の分類(判定)および根拠の生成を行う手順について示した図である。
図7】文書分類システムの機能構成例について示したブロック図である。
図8】(a)~(l)は、文書分類システムが、キーフレーズを用いて基準特徴量を生成し、この基準特徴量を基に文書の分類(判定)、および根拠の生成を行う手順について示した図である。
図9】(a)は、文書が申請書の場合に、文書分類システムの学習時の動作について示したフロー図である。(b)は、申請書の審査(分類、判定)時の動作について示したフロー図である。
図10】(a)~(b)は、図6の方法により算出される類似度と、図8の方法により算出される類似度とを比較した図である。
図11】(a)~(l)は、文書分類システムが、キーフレーズを用いて基準特徴量を生成し、この基準特徴量を基に文書分類、および根拠の生成を行う手順の他の例について示した図である。
図12】(a)~(b)は、キーフレーズ抽出部が判定基準、過去の申請書の中からキーフレーズを抽出する方法について説明した図である。
図13図12のStep1についてさらに詳しく説明した図である。
図14図12のStep2についてさらに詳しく説明した図である。
図15】抽出されたキーフレーズを基にさらに拡張したキーフレーズを作成した例を示した図である。
図16】統合したキーフレーズ候補を示したテーブルについて示した図である。
図17】(a)~(c)は、基準特徴量抽出部がキーフレーズを基に、文書の特徴量である基準特徴量を抽出する手順について示した図である。
図18】(a)~(d)は、分類根拠生成部15が、申請書の分類の根拠の説明を生成する方法を説明した図である。
図19】端末装置で申請書の分類の根拠の表示をするときの表示画面について示した図である。
【発明を実施するための形態】
【0013】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
<文書処理システム1全体の説明>
図1は、本実施の形態における文書処理システム1の構成例を示す図である。
図示するように本実施の形態の文書処理システム1は、文書を分類する文書分類システム10と、ユーザが文書の分類結果を閲覧する端末装置20a、20b、20cとがネットワーク30を介し接続されている。
【0014】
文書分類システム10は、文書処理システム1全体の管理をするサーバコンピュータである。文書分類システム10は、例えば、クラウド上で検索のサービスを提供するクラウドサーバとすることができる。詳しくは後述するが、文書分類システム10は、機械学習により文書分類モデルを生成する。そして、文書分類システム10は、この文書分類モデルを用いて文書を分類する。さらに、文書分類システム10は、文書の分類の根拠の説明を生成する。
ここで「文書」とは、例えば、文字情報や画像情報を電子化した電子文書である。この文書は、文書分類システム10で扱うことができるものであれば、形式およびデータ構造等について特に限られるものではない。ただし、以下の説明では、文字情報を基に文書の分類を行う場合について説明する。
また、図示する文書分類システム10は、1つであるが、複数のサーバコンピュータによりその機能を実現してもよい。例えば、文書分類モデルを生成するサーバコンピュータと、文書を分類し、文書の分類の根拠の説明を生成するサーバコンピュータとで、文書分類システム10を構成してもよい。
【0015】
端末装置20a、20b、20cは、文書分類システム10により文書を分類した結果である分類結果と分類の根拠を表示する。
端末装置20a、20b、20cは、例えば、汎用のパーソナルコンピュータ(PC)、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のコンピュータ装置である。そして、端末装置20a、20b、20cは、OS(Operating System)による管理下において、各種アプリケーションソフトウェアを動作させる。なお以下、端末装置20a、20b、20cを区別しない場合は、単に「端末装置20」と言うことがある。また、図1では、端末装置20は、3つ示しているが、その数は、1つ以上であればいくつであってもよい。
【0016】
ネットワーク30は、文書分類システム10および端末装置20の間の情報通信に用いられる通信手段であり、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)である。データ通信に用いられる通信回線は、有線か無線かを問わず、これらを併用してもよい。また、文書分類システム10および端末装置20は、ゲートウェイ装置やルータ等の中継装置を用い、複数のネットワークや通信回線を介して接続されてもよい。
【0017】
<文書処理システム1の動作の概略説明>
文書処理システム1では、まず、文書分類システム10が、機械学習により文書分類モデルを生成する。
ユーザが文書の分類を行う場合、ユーザは、端末装置20を使用し、文書のデータの入力を行う。文書のデータは、文書分類システム10に送られ、文書分類システム10は、文書分類モデルを用いて文書の分類を行うとともに、文書の分類の根拠の説明を生成する。あるいは、文書分類システム10は、文書分類モデルを用いて文書の分類の予測を行うとともに、文書の分類の根拠の説明を生成する。そして、端末装置20では、文書の分類結果と、文書の分類の根拠の説明とが表示される。あるいは、端末装置20では、文書の分類の予測結果と、文書の分類の根拠の説明とが表示される。
【0018】
<文書分類システム10および端末装置20の構成>
図2は、文書分類システム10および端末装置20のハードウェア構成について示した図である。なお、文書分類システム10および端末装置20のハードウェア構成は、同じであるので、文書分類システム10を例にとり、説明を行う。
図示する文書分類システム10は、プログラムの実行を通じて各部を制御するCPU(Central Processing Unit)101と、画像その他の情報を表示するディスプレイ102と、文字などを入力するキーボード103と、ポインティングデバイスであるタッチパッド104と、外部装置との通信に用いられる通信モジュール105と、システムデータや内部データが記憶される内部メモリ106と、補助記憶装置としての外部メモリ107等を有している。
【0019】
CPU101は、プロセッサの一例であり、OS(基本ソフトウェア)やアプリケーションソフトウェア(応用ソフトウェア)等のプログラムを実行する。
本実施の形態の場合、内部メモリ106は、半導体メモリである。内部メモリ106は、BIOS(Basic Input Output System)等が記憶されたROM(Read Only Memory)と、主記憶装置として用いられるRAM(Random Access Memory)とを有している。CPU101と内部メモリ106はコンピュータを構成する。CPU101は、RAMをプログラムの作業スペースとして使用する。外部メモリ107は、HDDやSSD等のストレージであり、ファームウェアやアプリケーションソフトウェア等が記憶される。
【0020】
ディスプレイ102は、例えば、液晶ディスプレイや有機EL(Electro Luminescent)ディスプレイで構成される。ディスプレイ102(すなわち表示面)には画像その他の情報が表示される。
【0021】
キーボード103は、ユーザが文字等を入力する際に使用する入力デバイスである。
タッチパッド104も入力デバイスであり、ディスプレイ102に表示されるカーソルの移動や画面のスクロールなどの際に用いられる、なお、タッチパッド104の代わりにマウスやトラックボール等であってもよい。
通信モジュール105は、外部との通信を行うための通信インタフェースである。
【0022】
<文書の分類の説明>
図3(a)~(c)は、文書を分類する処理について説明した図である。
このうち、図3(a)は、機械学習による分類モデル作成と分類について示した図であり、文書を分類する処理の概略について示した図である。図3(a)に示すように、学習データ(教師データ)を基に機械学習を行い、文書分類モデルを作成する。そして、分類対象となる文書である分類対象文書を、文書分類モデルを用いて分類し、分類結果として出力する。
図3(b)は、文書を分類する処理の例として、新聞記事の分類について示した図である。この場合、学習データは、過去の新聞記事と分類結果である。また、類対象文書は、新聞記事であり、この新聞記事を政治、経済、国際の3つのクラスに分類した場合を示している。
図3(c)は、文書を分類する処理の例として、介護認定の判定について示した図である。この場合、学習データは、介護認定を求めた過去の申請書と判定結果である。また、分類対象文書は、介護認定を求める申請書であり、この申請書をレベル1~3の3つのクラスに判定した場合を示している。レベル1~3は等級であり、レベル1は、最も介護の必要性が高く、レベル3は、最も介護の必要性が低い場合を示す。
【0023】
このとき、分類結果の根拠を知りたい場合がある。例えば、図4(a)に示すように、新聞記事を政治、経済、國際の3つのクラスに分類するときに、ある記事が経済のクラスに分類された場合、この記事は、どうして経済記事に分類されたのか、その根拠を知りたいときがある。また図4(b)に示すように、申請書をレベル1~3の3つのクラスに判定するときに、ある申請書がレベル2のクラスに判定された場合、この申請書は、どうしてレベル2に判定されたのか、その根拠を知りたいときがある。
【0024】
なお以下、文書の分類として、申請書の分類を行う場合について主に説明を行う。この場合、例えば、申請書に対し、審査を要する審査要であるのか、審査を要しない審査不要であるのかを判定する。また、例えば、上述したような介護認定の申請書に対し、レベル1、レベル2、レベル3の3つのクラスに判定する。
【0025】
図5は、従来の手法により根拠を提示した結果について示した図である。
従来は、例えば、BERTによるクラス分類手法を用いた場合に、最終層のattention weightに基づく根拠提示方法がある。しかしこの場合、根拠が分類基準と対応付いていないため、根拠の納得性が低い結果となる場合がある。
図5は、申請書を審査要、審査不要の2つのクラスに分類するときに、従来の手法による申請書の分類結果が「審査要」であり、その根拠を、申請書中の単語、句等により示したことを表している。図5では、根拠となった単語、句等を太字にて示している。この場合、「は」、「大」、「た」、「B」が、審査要になった根拠として示されている。しかし、この根拠の納得性は、低いと言わざるをえない。なおここで納得性が高いとは、なぜこうなったかが直感的に理解できることを言い、納得性が低いとは、なぜこうなったかが直感的に理解しにくいことを言う。
【0026】
これに対し、学習データおよび分類基準から、文書の特徴量である基準特徴量を生成し、この基準特徴量を基に、文書分類を行うとともに根拠を生成する手法が考えられる。この場合、基準特徴量は、文書の特徴量であり、学習データおよび分類基準の類似度を基に作成される。よってこの類似度が上手く算出できないと、基準特徴量も上手く生成できない。しかし、分類基準をそのまま使用した場合、類似度が上手く算出できず、その結果、基準特徴量が上手く生成できない。そのため、文書分類の予測結果の精度の低下が生じたり、誤った根拠を提示してしまうことがある。
【0027】
図6(a)~(k)は、分類基準をそのまま使用して基準特徴量を生成し、この基準特徴量を基に、文書の分類(判定)および根拠の生成を行う手順について示した図である。
まず、文書(この場合、過去の申請書)として、審査要となった場合と審査不要となった場合の学習データを用意する(図6(a))。また、判定基準(分類基準)として、審査要の基準と審査不要の基準とを用意する(図6(b))。そして、学習データおよび判定基準に対し、基準特徴量抽出部が、基準特徴量を生成する(図6(c))。さらに、基準特徴量を用いて学習を行い(図6(d))、文書分類モデルを作成する(図6(e))。この文書分類モデルは、学習データ(この場合、過去の申請書)および判定基準のそれぞれの基準特徴量を用いた分類モデルである。
【0028】
そして、分類を行いたい文書である分類対象文書があると(図6(f))、この分類対象文書について、基準特徴量抽出部が、基準特徴量を生成する(図6(g))。そして、文書分類モデルを使用して、この基準特徴量を基に、分類対象文書の分類や判定を行い、判定結果(分類結果)を出力する(図6(h))。また、分類根拠生成部が、判定基準に対応付けて分類根拠を生成して出力する(図6(i))。この分類根拠は、基準特徴量を用いたものとなる。そして、判定結果や分類根拠は、ユーザに提示される(図6(j))。ただし、この方法では、基準特徴量が上手く生成できず、文書分類の予測結果の精度の低下が生じたり、誤った根拠を提示してしまう場合がある(図6(k))。
この場合、図5で示した方法よりも納得性の高い根拠を示すことができるが、中には、納得性の低い根拠を提示する場合も生じる。
【0029】
この理由を図6(l)に示す。
例えば、審査要の基準が、「エージェント、アドバイザー、コンサルタント、業務委託先に該当する場合」であったとする。
そして、審査要になった文書である申請書Aに含まれる文章として、「・・・エージェント業者である・・・」が存在し、その結果、審査要の基準との類似度が、0.6になったとする。なおここで、類似度の算出方法は、特に限られるものではないが、例えば、コサイン類似度である。
対して、審査不要になった文書である申請書Bに含まれる文章として、「・・・私立大学である・・・」が存在し、その結果、審査要の基準との類似度が、0.7になったとする。
つまり、審査要の基準に対し、審査不要の申請書の方が類似度が高くなってしまう場合がある。その結果、基準特徴量が上手く生成できない。その原因としては、審査要の基準が複数の要素を含むことに起因することが考えられる。
【0030】
そこで本実施の形態では、判定基準(分類基準)をそのまま用いるのではなく、以下に説明する「キーフレーズ」を利用して基準特徴量を生成し、この基準特徴量を用いて、文書分類モデルを作成する。キーフレーズを用いると、例えば、審査要の基準に複数の要素が含まれていても単一の要素に分割することができる。そしてこのキーフレーズを用いることで、類似度が上手く算出でき、基準特徴量が想定通りに生成できる。さらに、この基準特徴量を学習させ、文書分類モデルを作成する。そして、この文書分類モデルを用いて文書の分類を行うとともに、分類の根拠の説明を提示する。これにより、文書分類の精度が高く、より納得性が高い根拠を提示することができる。以下、この処理を行う文書分類システム10について説明する。
【0031】
<文書分類システム10の機能構成の説明>
図7は、文書分類システム10の機能構成例について示したブロック図である。
なお、ここでは、文書分類システム10が有する種々の機能のうち、本実施の形態に関する機能について選択して図示している。
【0032】
文書分類システム10は、キーフレーズ抽出部11と、基準特徴量抽出部12と、文書分類モデル生成部13と、分類部14と、分類根拠生成部15とを備える。
キーフレーズ抽出部11は、文書の分類を行う分類基準と学習データとから、キーフレーズを抽出する。
【0033】
「分類基準」は、文書の分類の基準であれば特に限られるものではない。例えば、文書が申請書であり、審査要と審査不要とに分類される場合、分類基準は、審査要や審査不要となることを判断する判定基準、審査基準である。具体的には、「〇〇の場合は、審査を要し、××の場合は、審査は不要である。」等が該当する。
【0034】
「キーフレーズ」は、任意の長さの文字列であり、単語、句、文章である。本実施の形態では、「キーフレーズ」は、文書中に出現する分類基準の希少性を表すパラメータに基づき選択される。文書中からキーフレーズを選択する詳細な方法については、後述する。また、キーフレーズには、対応する種別を付与する。「種別」は、キーフレーズが意味する内容に付与される属性である。例えば、キーフレーズが、「エージェント、アドバイザー、コンサルタントに該当する場合」の文章中の「エージェント」、「アドバイザー」、「コンサルタント」である場合、「取引先」という種別とする。また、キーフレーズが、「物品購入、物品提供する場合」の文章中の「物品購入」、「物品提供」である場合、「取引内容」という種別にする。上記のような表現を用いた方が根拠を提示する際に分かりやすいが、単に「種別1」、「種別2」のような分け方にしてもよい。種別は人手またはキーフレーズと種別が対応付けられた辞書等を用いて自動で付与されるものとする。
【0035】
基準特徴量抽出部12は、分類基準と学習データのそれぞれから抽出されたキーフレーズを基に、文書の特徴量である基準特徴量を抽出する。基準特徴量は、キーフレーズを種別ごとに分けたときに、種別ごとに抽出される。このとき、基準特徴量抽出部12は、種別ごとに類似度が最も高いものを基準特徴量として抽出する。なお、類似度は、キーフレーズと文書中のフレーズとをベクトル変換したときの、これらの類似度である。なお、基準特徴量抽出部12が基準特徴量を抽出する詳細な方法については、後述する。
【0036】
文書分類モデル生成部13は、基準特徴量を用いて文書分類モデルを生成する。
分類部14は、文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類する。
分類根拠生成部15は、キーフレーズを基に、分類対象文書の分類の根拠の説明を生成する。
【0037】
図8(a)~(l)は、文書分類システム10が、キーフレーズを用いて基準特徴量を生成し、この基準特徴量を基に文書の分類(判定)、および根拠の生成を行う手順について示した図である。
まず、文書(この場合、過去の申請書)として、審査要となった場合と審査不要となった場合の学習データを用意する(図8(a))。また、判定基準(分類基準)として、審査要の基準と審査不要の基準とを用意する(図8(b))。次に、キーフレーズ抽出部11が、学習データおよび判定基準を用いて、キーフレーズを生成する(図8(c))。また、キーフレーズ抽出部11は、各キーフレーズに対し、種別を付与する。そして、生成されたキーフレーズに対し、基準特徴量抽出部12が、基準特徴量を生成する(図8(d))。図8(c)、(d)の処理は、図6の処理と相違する点である。さらに、文書分類モデル生成部13が、基準特徴量を用いて学習を行い(図8(e))、文書分類モデルを作成する(図8(f))。この文書分類モデルは、学習データ(この場合、過去の申請書)および判定基準のそれぞれのキーフレーズから生成された基準特徴量を用いた分類モデルである。
【0038】
そして、分類を行いたい文書である分類対象文書があると(図8(g))、この分類対象文書について、基準特徴量抽出部12が、キーフレーズと種別を用いて基準特徴量を生成する(図8(h))。図8(d)と図8(h)は同じ処理を行う。図8(h)の処理は、図6の処理と相違する点である。分類部14は、図6とほぼ同様であり、文書分類モデルを使用して、この基準特徴量を基に、分類対象文書の分類や判定を行い、判定結果(分類結果)を出力する(図8(i))。また、分類根拠生成部15が、判定基準に対応付けて分類根拠を生成して出力する(図8(j))。この分類根拠は、キーフレーズと種別を用いて生成された基準特徴量を用いたものとなるため、図6の処理と相違する。そして、判定結果と分類根拠は、ユーザに提示される(図8(k))。
【0039】
つまり、図8の処理と図6の処理とは、キーフレーズや種別を生成し(図8(c))、キーフレーズと種別を用いて、学習データ、分類対象文書の基準特徴量を生成する(図8(d)、(h))点、キーフレーズと種別に基づく基準特徴量を用いた分類根拠を生成する(図8(j))点が相違する。
本実施の形態では、基準特徴量が上手く生成でき、文書分類の予測結果の精度が向上し、より正しい分類根拠を提示できる(図8(l))。
【0040】
なお、図6および図8では、審査要の基準と審査不要の基準とを使用したが、審査要の基準だけでも足りる。即ち、審査要の基準はあるが、審査不要の基準はない場合があるためである。なお、逆に、審査不要の基準だけでも足りる。よって、審査要の基準と審査不要の基準との少なくとも一方があればよい。
【0041】
図9(a)は、文書が申請書の場合に、文書分類システム10の学習時の動作について示したフロー図である。また、図9(b)は、申請書の審査(分類、判定)時の動作について示したフロー図である。
図9(a)に示すように、文書分類システム10は、学習時は、過去の申請書901および過去の審査結果(審査要、審査不要)902を学習データとし、審査モデル学習903を行い、申請書の審査モデル(文書分類モデル)904を作成する。
このとき審査モデル学習903では、キーフレーズ抽出部11にて、審査基準(分類基準)905および過去の申請書901を用いて、キーフレーズ・種別906を作成する。そして、基準特徴量抽出部12が、過去の申請書901およびキーフレーズ・種別906に対してベクトル変換907を行い、ベクトル表現908(例えば、分散表現、埋め込み表現)を基準特徴量として生成する。次に、文書分類モデル生成部13が、過去の審査結果(審査要および審査不要)902と基準特徴量を入力として学習(機械学習)909を行う。その結果、文書の審査モデル(分類モデル)904が作成される。
【0042】
一方、図9(b)に示すように、文書分類システム10は、審査(分類、判定)時は、分類対象文書である申請書911に対し、申請書の審査モデル(文書分類モデル)904を使用して審査(分類、判定)912を行い、審査結果(分類結果、判定結果)、根拠913を示す。
このとき審査(分類、判定)912では、基準特徴量抽出部12が、申請書911およびキーフレーズ・種別906に対してベクトル変換914を行い、ベクトル表現915を基準特徴量として生成し、分類部14が、申請書の審査モデル(文書分類モデル)904を用いて、申請書911の識別(分類)916を行う。ベクトル変換907は、ベクトル変換914と同様のものである。その後、後処理917として、分類根拠生成部15が、審査モデル904とキーフレーズと種別と基準特徴量を基に、申請書の分類の根拠の説明を生成する。その結果、審査結果(分類結果、判定結果)、根拠913が示される。
【0043】
図10(a)~(b)は、図6の方法により算出される類似度と、図8の方法により算出される類似度とを比較した図である。
このうち、図10(a)は、図6の方法による類似度であり、審査基準(判定基準、分類基準)をそのまま使用した場合に、審査要の基準と申請書の類似度を示した図である。
この場合、審査要の基準は、「エージェント、アドバイザー、コンサルタント、業務委託先に該当する場合」である。
これに対し、審査要となった申請書Aには、「・・・コンサルタント業者である・・・」文章があり、審査要の基準との類似度が0.6であったことを示す。また、審査不要となった申請書Bには、「・・・私立大学である・・・」文章があり、審査要の基準との類似度が0.7であったことを示す。即ち、審査要となった申請書Aよりも審査不要となった申請書Bの方が、審査要の基準との類似性が高いことを示す。よって、想定とは異なり、審査要の基準に対し、審査不要の申請書Bの方が、類似度が高くなってしまう場合がある。
【0044】
一方、図10(b)は、図8の方法により算出された類似度であり、キーフレーズを使用した場合に、キーフレーズと申請書の類似度を示した図である。
この場合、キーフレーズは、「エージェントに該当する場合」である。即ち、図10(a)の審査基準より文章が短く、単一の内容のみになっている。
審査要となった申請書Aには、上述したように、「・・・コンサルタント業者である・・・」文章があり、審査要の基準との類似度が1.0であったことを示す。また、審査不要となった申請書Bには、上述したように、「・・・私立大学である・・・」文章があり、審査要の基準との類似度が0.8であったことを示す。即ち、審査不要となった申請書Bよりも審査要となった申請書Aの方が、審査要の基準との類似性が高いことを示す。つまり、想定通り、審査要の基準に対し、審査要の申請書Aの方が、類似度が高くなっている。
【0045】
図11(a)~(l)は、文書分類システム10が、キーフレーズを用いて基準特徴量を生成し、この基準特徴量を基に文書分類、および根拠の生成を行う手順の他の例について示した図である。
図8では、審査要が審査不要かの2つのクラスに分類する二値分類であったが、図11では、レベル1、レベル2、レベル3の3つのクラスに分類する多値分類の場合を示している。この場合、学習データ、判定基準、判定結果などのクラスが3つになること以外は、図8と同様である。
本実施の形態でも、基準特徴量が上手く生成でき、文書分類の予測結果の精度が向上し、より正しい分類根拠を提示できる(図11(l))。
【0046】
<キーフレーズの抽出方法の説明>
次に、キーフレーズ抽出部11が判定基準、学習データ、分類対象文書の中からキーフレーズを抽出する方法について詳述する。
ここでは、キーフレーズ抽出部11が、判定基準や学習データである過去の申請書の中からキーフレーズを抽出する場合について説明する。即ち、図8(c)の処理や図9のキーフレーズ・種別906の中のキーフレーズの作成を行う処理を詳細に説明する。
【0047】
図12(a)~(b)は、キーフレーズ抽出部11が判定基準、過去の申請書の中からキーフレーズを抽出する方法について説明した図である。
このうち、図12(a)は、キーフレーズの要件について示した図である。
キーフレーズは、上述したように、任意の長さの文字列であり、単語、句、文章である。そして、キーフレーズは、文書中に出現する判定基準の希少性を表すパラメータに基づき選択される。本実施の形態では、このパラメータとして、idf(Inverse Document Frequency:逆文書頻度)を使用する。適切なキーフレーズは、判定基準と過去の申請書で出現するクラスに偏りがあり(異なるクラスにおけるidfの値が大きい)、同一クラスの過去の申請書には広く出現すること(同一クラスにおけるidfの値が小さい)が望ましい。また、判定基準と過去の申請書との間で矛盾しないことが望ましい。しかし、判定基準1201と膨大な数の過去の申請書1204の両方から審査に適切なキーフレーズを人が抽出するのは限界があるため、本実施の形態では、キーフレーズ抽出部11が、以下の方法によりキーフレーズを抽出する。
【0048】
図12(b)は、キーフレーズ抽出部11における、キーフレーズを抽出する方法について説明した図である。
ここでは、キーフレーズ抽出部11は、Step1とStep2の2段階でキーフレーズを抽出する。
【0049】
Step1で、キーフレーズ抽出部11は、判定基準1201、過去の申請書1204のそれぞれから、キーフレーズ候補を抽出する。
まず、キーフレーズ抽出部11は、フレーズ候補抽出1202により、判定基準1201からキーフレーズの候補である第1のフレーズ候補1203を抽出する。具体的には、キーフレーズ抽出部11は、一般的な構文ルールに基づいて抽出した単語、句、文章に対し、出現クラスに偏りがあるものを第1のフレーズ候補1203として抽出を行う。即ち、あるクラスには多く出現するとともに、他のクラスにはあまり出現しない単語、句、文章を第1のフレーズ候補1203とする。出現クラスに偏りがあるか否かは、出現クラスにおけるフレーズのidfにより判断することができ、キーフレーズ抽出部11は、例えば、異なるクラスの判定基準におけるidfの値>1のものを、第1のフレーズ候補1203とする。
【0050】
一方、キーフレーズ抽出部11は、フレーズ候補抽出1205により、過去の申請書1204からキーフレーズの候補である第2のフレーズ候補1206を抽出する。具体的には、キーフレーズ抽出部11は、一般的な構文ルールに基づいて抽出した単語、句、文章に対し、出現クラスに偏りがあるものを第2のフレーズ候補1206として抽出を行う。この場合、キーフレーズ抽出部11は、例えば、異なるクラスの過去の申請書1204におけるidfの値>1のものを、第2のフレーズ候補1206とする。また、キーフレーズ抽出部11は、構文ルールに基づいて抽出した単語、句、文章に対し、同一クラスの過去の申請書1204において広く出現する単語、句、文章を第2のフレーズ候補1206として抽出を行う。この場合、キーフレーズ抽出部11は、例えば、同一クラスの過去の申請書1204におけるidfの値が小さいフレーズを、第2のフレーズ候補1206とする。
【0051】
Step2で、キーフレーズ抽出部11は、第1のフレーズ候補1203と第2のフレーズ候補1206とから最終的なキーフレーズを抽出する。
まず、キーフレーズ抽出部11は、第1のフレーズ候補1203と第2のフレーズ候補1206との統合1207を行う。具体的には、キーフレーズ抽出部11は、第1のフレーズ候補1203を基に第2のフレーズ候補1206の中から類似のものを紐づけする。この処理は、第1のフレーズ候補1203を基に第2のフレーズ候補1206を使用して、キーフレーズ候補のバリエーションを増やしたり、出現クラスが判定基準と過去の申請書1204で矛盾しているものを見つけ出したりする処理であると言うこともできる。また、キーフレーズ抽出部11は、第1のフレーズ候補1203と第2のフレーズ候補1206とが、文書の分類を行うクラスとして異なるクラスに属する場合に削除する。即ち、例えば、第1のフレーズ候補1203と第2のフレーズ候補1206とで同じものがあったとしても、異なるクラスの場合、キーフレーズとはしない。また、ここでは、これを検知するだけにとどめ、次に説明する、統合したキーフレーズ候補1208を選択し、最終的なキーフレーズ1209とするときに、削除候補(後述する図16参照)として提示し、採用するか否かを決定してもよい。
【0052】
統合したキーフレーズ候補1208は、適切な条件を満たしたものが選択され、最終的なキーフレーズ1209となる。この処理は、人が行ってもよく、キーフレーズ抽出部11が行ってもよい。
【0053】
図13は、図12のStep1についてさらに詳しく説明した図である。
キーフレーズ抽出部11が、フレーズ候補抽出1202により、判定基準1201からキーフレーズの候補である第1のフレーズ候補1203を抽出するとき、キーフレーズ抽出部11は、文書の分類を行うクラスごとに第1のフレーズ候補1203を作成する。ここでは、申請書を分類するクラスとしてレベル1~レベル3の3つがあり、それぞれのクラスについて第1のフレーズ候補1203を作成した場合を示している。これは、レベル1~3のそれぞれの判定基準1201を基に作成することができる。
【0054】
また、キーフレーズ抽出部11は、クラスを跨いだ第1のフレーズ候補1203を作成する。この場合、レベル1~2、レベル2~3、レベル1~3について第1のフレーズ候補1203を作成した場合を示している。例えば、レベル1~2についての第1のフレーズ候補1203は、レベル1とレベル2の双方に出現するキーフレーズ候補である。これは、レベル1~2、レベル2~3、レベル1~3のそれぞれの判定基準1201を基に作成することができる。またこの場合、レベル1、3など飛び飛びのクラスで第1のフレーズ候補1203を作成することもできる。これにより複数のクラスに出現するキーフレーズ候補も抽出できる。
【0055】
また、クラスに順序性がある場合は、レベル1、3の第1のフレーズ候補1203をレベル1~3の第1のフレーズ候補1203として扱い、クラスに順序性がない場合は、レベル1、3の第1のフレーズ候補1203をそのままレベル1、3の第1のフレーズ候補1203として扱う処理をすることもできる。ここで順序性とは、図3(c)に示したように、レベル1~3に等級があり、レベル1は、最も介護の必要性が高く、レベル3は、最も介護の必要性が低い場合を示すような場合である。
【0056】
一方、キーフレーズ抽出部11が、フレーズ候補抽出1205により、過去の申請書1204からキーフレーズの候補である第2のフレーズ候補1206を抽出するとき、キーフレーズ抽出部11は、文書の分類を行うクラスごとに第2のフレーズ候補1206を作成する。ここでは、申請書を分類するクラスとしてレベル1~レベル3の3つがあり、それぞれのクラスについて第2のフレーズ候補1206を作成した場合を示している。なお、ここでは、レベル1~レベル3のどれにも属さない対象外の過去の申請書1204についても第2のフレーズ候補1206を作成した場合を示している。これは、レベル1~3、対象外に分類された過去の申請書1204を基に作成することができる。
【0057】
また、キーフレーズ抽出部11は、クラスを跨いだ第2のフレーズ候補1206を作成する。この場合、レベル1~2、レベル2~3、レベル3~対象外、レベル1~3、レベル2~対象外、…、レベル1~対象外について第2のフレーズ候補1206を作成した場合を示している。これは、それぞれに分類された過去の申請書1204を基に作成することができる。また、この場合、レベル1、3など飛び飛びのクラスで第2のフレーズ候補1206を作成することもできる。これにより複数のクラスに出現するキーフレーズ候補も抽出できる。
【0058】
なお、クラスに順序性がある場合は、レベル1、3の第2のフレーズ候補1206をレベル1~3の第2のフレーズ候補1206として扱い、クラスに順序性がない場合は、レベル1、3の第2のフレーズ候補1206をそのままレベル1、3の第2のフレーズ候補1206として扱う処理をすることもできる。
【0059】
図14は、図12のStep2についてさらに詳しく説明した図である。
キーフレーズ抽出部11が、第1のフレーズ候補1203と第2のフレーズ候補1206とから最終的なキーフレーズを抽出するとき、キーフレーズ抽出部11は、文書の分類を行うクラスごとに最終的なキーフレーズを作成する。
ここでは、レベル1、レベル2、レベル3、対象外、レベル1~2、レベル2~3、レベル2~対象外、レベル1~3、レベル2~対象外、…、レベル1~対象外について統合を行い、統合したキーフレーズ候補1208が作成されたことを示している。
そして、適切な条件を満たしたものを最終的なキーフレーズ1209とする。なおここでは、この処理は、人が行い、「〇」のものが、最終的なキーフレーズ1209として採用され、「×」のものは、最終的なキーフレーズ1209として採用されなかったことを示している。
このように、キーフレーズ抽出部11は、文書の分類を行うクラスごとにキーフレーズを作成するとともに、クラスを跨ぐキーフレーズを作成する。
【0060】
また、キーフレーズ抽出部11は、抽出されたキーフレーズを基にさらに拡張したキーフレーズを作成することができる。
図15は、抽出されたキーフレーズを基にさらに拡張したキーフレーズを作成した例を示した図である。
ここでは、レベル1のキーフレーズとして、「Xに著しい制限がある」が抽出されたことを示している。また、レベル2のキーフレーズとして、「Xに制限がある」が抽出されたことを示している。そして、キーフレーズ抽出部11は、これらを基に、レベル3のキーフレーズとして、「Xに一部制限がある」と「Xに制限がない」を作成したことを示している。クラス間に階層構造がある場合(この場合、レベル1>レベル2>レベル3)、肯定/否定、程度の表現部分を変更することで拡張したキーフレーズを作成した場合を示している。
【0061】
図16は、統合したキーフレーズ候補1208を示したテーブルT1について示した図である。
テーブルT1は、項番、キーフレーズ候補、判定基準、過去の申請書、削除候補、統合スコア、確認欄の各項目からなる。また、判定基準、過去の申請書は、それぞれ出現クラス、異なるクラスにおけるidf、同一クラスにおけるidfの各項目を備える。
項番は、キーフレーズ候補に付される番号である。
キーフレーズ候補は、図12、14で説明した統合したキーフレーズ候補1208である。
【0062】
出現クラスは、キーフレーズ候補が出現するクラスである。ここでは、出現クラスが「1」の場合、審査要のクラスであり、「0」の場合、審査不要のクラスであることを示す。
異なるクラスにおけるidfは、キーフレーズ候補が出現する出現クラスに偏りがある場合にスコアが高い。クラス間で出現頻度に偏りがあるほど、キーフレーズ向きであるため、このスコアは、高いほどキーフレーズ向きである。
同一クラスにおけるidfは、同一クラス内で広く使われている場合にスコアが低い。同一クラス内で広く使われているほど、キーフレーズ向きであるため、このスコアは、低いほどキーフレーズ向きである。
なお、異なるクラスにおけるidf、同一クラスにおけるidfは、キーフレーズ候補が多い場合はソートして表示することも可能である。
【0063】
削除候補は、キーフレーズ候補として好ましくない場合に「〇」となる。例えば、記号のみ、数値のみなどの場合、キーフレーズ候補として好ましくないので「〇」となる。なお、ここでは、すべて「×」である。
総合スコアは、キーフレーズ候補に対し、付与される順位であり、総合スコアが小さいほど、キーフレーズ抽出部11がキーフレーズとして好ましいと判断したことを表す。総合スコアは、異なるクラスにおけるidf、同一クラスにおけるidfから算出することができる。
確認欄は、キーフレーズ抽出部11がキーフレーズとして採用すべきと判断したときに「〇」となり、採用すべきでないと判断したときは、「×」になる。また「〇」や「×」は、人が修正することもできる。さらに、人がキーフレーズとして採用すべきか否か判断する場合、人がこれを入力することもできる。
【0064】
テーブルT1では、項番1、3、5のキーフレーズ候補がキーフレーズとして採用され、項番2、4のキーフレーズ候補がキーフレーズとして不採用になったことを示す。
項番1のキーフレーズ候補である「政府」は、判定基準と過去の申請書とで、出現クラスが同一である。また、異なるクラスにおけるidfは、判定基準および過去の申請書の双方で、1.67と他に比べて高い。さらに、同一クラスにおけるidfは、判定基準および過去の申請書の双方で、1.67と他に比べて低い。
項番3のキーフレーズ候補である「コンサルタント」は、判定基準と過去の申請書とで、出現クラスが同一である。また、異なるクラスにおけるidfは、判定基準および過去の申請書の双方で、1.67と他に比べて高い。
項番5のキーフレーズ候補である「国立大学」は、判定基準では、出現しない。一方、過去の申請書では、異なるクラスにおけるidfが、判定基準および過去の申請書の双方で、1.67と他に比べて高い。
【0065】
項番2のキーフレーズ候補である「委託」は、判定基準と過去の申請書とで、出現クラスが異なる。
項番4のキーフレーズ候補である「大学」は、判定基準では、出現しない。そして、過去の申請書における出現クラスが全クラスである。
以上の検討結果から、項番1~5を比較したとき、ここでは、項番1、3、5のキーフレーズ候補がキーフレーズとして採用され、項番2、4のキーフレーズ候補がキーフレーズとして不採用となっている。この例では、判定基準にあるもの、また判定基準と過去申請書における出現クラスに矛盾がないものをキーフレーズ候補として採用したが、判定基準にないものも採用する等、利用者の意図によって採用方針を決めることができる。
【0066】
<基準特徴量の抽出方法の説明>
次に、基準特徴量抽出部12がキーフレーズを基に、文書の特徴量である基準特徴量を抽出する方法について詳述する。
図17(a)~(c)は、基準特徴量抽出部12がキーフレーズを基に、文書の特徴量である基準特徴量を抽出する手順について示した図である。
このうち、図17(a)は、分類対象文書である申請書の文章について示している。この場合、申請書には、「公立大学のA大学のB教授に、生体移植の今後について講演を依頼する。」の文章が含まれる。
【0067】
図17(b)は、基準特徴量抽出部12が、図17(a)の文章とキーフレーズとを比較し、類似度を算出したテーブルT2を示した図である。類似度は、キーフレーズと文書中のフレーズとをベクトル変換したときの、これらの類似度である。
テーブルT2は、種別、キーフレーズ、フレーズ、類似度の各項目からなる。そして、種別が「取引先」に属する複数のキーフレーズおよび種別が「取引内容」に属する複数のキーフレーズと、図17(a)の文章に含まれるフレーズとの類似度を求めたものである。フレーズ欄には、各キーフレーズと図17(a)の文章に含まれるフレーズの中で類似度が最大となるものを記載し、類似度欄にはその値を記載する。
【0068】
種別が「取引先」の場合、「公務員」のキーフレーズと「公立大学」のフレーズとの類似度が0.756であることを示している。また、「国立大学」のキーフレーズと「公立大学」のフレーズとの類似度を求めている。そして、それぞれの類似度が0.873であることを示している。
また、種別が「取引内容」の場合、「物品購入」のキーフレーズと「依頼」のフレーズとの類似度を求めている。また、「社外講演」のキーフレーズと「講演を依頼する」のフレーズとの類似度を求めている。そして、それぞれの類似度が0.54、0.9であったことを示している。
【0069】
そして、基準特徴量抽出部12は、種別ごとに類似度が最も高いものを基準特徴量として抽出する。その結果、基準特徴量は、種別ごとに抽出される。
図17(c)は、基準特徴量を含むテーブルT3を示した図である。
種別が「取引先」の場合の基準特徴量は、0.873であり、種別が「取引内容」の場合の基準特徴量は、0.9である。
【0070】
<分類の根拠の生成の説明>
次に、分類根拠生成部15が、分類対象文書である申請書の分類の根拠の説明を生成する方法について詳述する。
図18(a)~(d)は、分類根拠生成部15が、申請書の分類の根拠の説明を生成する方法を説明した図である。
このうち、図18(d)は、判定結果および分類の根拠の説明の表示である。この場合、判定結果が、「審査結果の予測値:審査要」であり、その根拠が、「根拠:「公立大学」が審査基準の「(1)公務員との関係がある場合」、「講演を依頼する」が審査基準の「審査が必要な取引内容」に該当しています。」であることを表示している。
【0071】
また、図18(a)~(c)は、判定結果が「審査要」となり、また根拠の説明の分類の根拠の説明を生成する過程を示している。図18(a)は、審査要であるか審査不要であるかを決定する分岐条件を示した決定木である。この場合、種別が取引先であるときの類似度(基準特徴量)が0.7を超えるとともに、種別が取引内容であるときの類似度(基準特徴量)が0.8を超えるときに審査要となることを示す。また、種別が取引先であるときの類似度(基準特徴量)が0.7以下であっても、種別が取引内容であるときの類似度(基準特徴量)が0.9を超えるときに審査要となることを示す。なお、他の場合は、審査不要となることを示す。
【0072】
そして、図18(b)は、図17(c)と同様の図であり、類似度(基準特徴量)について示したテーブルT3である。
また、図18(c)は、各キーフレーズについて、種別、出典、クラスを示したテーブルT4である。このうち、出典は、審査基準(判断基準)に該当し、審査基準の中のどの部分が根拠になるかが示されている。ここでは、図18(b)に示したキーフレーズが出典のどの部分に対応するかを示している。この場合、このキーフレーズは、図12(b)の第1のフレーズ候補1203から採用されたものとなる。なお、人が考えたキーフレーズのように出典がない場合は、「-」等の記号を用いて記載することができる。この場合、キーフレーズは、図12(b)の第2のフレーズ候補1206から採用されたものとなる。なお、図18(b)~(c)中の折れ線は、互いの関連を示している。
そして、分類根拠生成部15は、これらの関連から図18(d)の分類の根拠の説明が作成される。
【0073】
<根拠の説明の表示の説明>
図19は、端末装置20で申請書の分類の根拠の表示をするときの表示画面について示した図である。
図19は、図5で説明した例に対し、本実施の形態を適用した場合を示している。
この場合、申請書の判定結果が「審査要」であり、その根拠を、申請書中の単語、句等により示している。この場合、「公立大学である」、「講演を依頼する」が、審査要になった根拠として表示されている。さらに、図19では、分類基準として申請書の審査基準1901が表示される。
【0074】
そして、審査基準1901の中のどの部分が根拠になったかが吹き出し1902、1903により示されている。吹き出し1902では、「公立大学である」が、種別およびキーフレーズとして「取引先(国立大学)に対応。」し、審査基準1901の「基準(1)公務員との関係がある場合に該当する。」旨が表示されている。また、吹き出し1903では、「講演を依頼する」が、種別およびキーフレーズとして「取引内容(社外講演)に対応」し、審査基準1901の「基準(3)取引内容が社外講演である場合に該当する。」旨が表示されている。
【0075】
図19で示した例で、端末装置20は、根拠として、分類基準である審査基準、キーフレーズ、キーフレーズに対応する申請書のフレーズを表示する、と言うこともできる。
図19で示した例は、図5の例と比較して、審査要になる審査基準に対応した箇所を根拠として示すことができているため、根拠の納得性が高いと言うことができる。
以上詳述した形態によれば、キーフレーズを使用することで、文書分類の精度が高く、より納得性が高い根拠を提示することができる文書分類システム10を提供することができる。
【0076】
なお、以上説明した形態では、文字情報を基に文書の分類を行う場合について説明したが、文書が画像情報であっても、画像情報をテキスト化し、その文字情報を使用して、文書の分類を行う場合にも適用が可能である。
【0077】
<文書分類方法の説明>
以上説明を行った文書分類システム10が行う処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、文書分類システム10に設けられたコンピュータ内部のプロセッサが、上述した各機能を実現するソフトウェアをメモリにロードして実行し、これらの各機能を実現させる。
【0078】
よって、文書分類システム10が行う処理は、プロセッサがメモリに記録されたソフトウェアを実行することにより、文書中に出現する分類基準の希少性を表すパラメータに基づき選択されたキーフレーズを基に作成された文書分類モデルを用いて、分類の対象となる文書である分類対象文書を分類し、キーフレーズを基に、分類対象文書の分類の根拠の説明を生成する、文書分類方法として捉えることもできる。
【0079】
以上、本実施の形態について説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【符号の説明】
【0080】
1…文書処理システム、10…文書分類システム、11…キーフレーズ抽出部、12…基準特徴量抽出部、13…文書分類モデル生成部、14…分類部、15…分類根拠生成部、20、20a、20b、20c…端末装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19