(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023096460
(43)【公開日】2023-07-07
(54)【発明の名称】テキスト情報抽出システム、テキスト情報抽出方法、及びプログラム
(51)【国際特許分類】
G06F 40/279 20200101AFI20230630BHJP
G06Q 50/18 20120101ALI20230630BHJP
【FI】
G06F40/279
G06Q50/18
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021212252
(22)【出願日】2021-12-27
(71)【出願人】
【識別番号】518287076
【氏名又は名称】FRAIM株式会社
(74)【代理人】
【識別番号】100205659
【弁理士】
【氏名又は名称】齋藤 拓也
(74)【代理人】
【識別番号】100126000
【弁理士】
【氏名又は名称】岩池 満
(72)【発明者】
【氏名】堀口 圭
(72)【発明者】
【氏名】宮坂 豪
(72)【発明者】
【氏名】鈴木 大智
(72)【発明者】
【氏名】塚本 拓也
【テーマコード(参考)】
5B091
5L049
【Fターム(参考)】
5B091AA15
5B091CA01
5B091CB09
5B091CB12
5B091CB22
5B091CB28
5B091CD11
5L049CC32
(57)【要約】
【課題】情報抽出により作業性の向上を図ることが可能な、テキスト情報抽出システム、テキスト情報抽出方法、及びプログラムを提供すること。
【解決手段】サーバ1は、テキストファイルのテキストデータから、項目に合う項目情報を抽出する処理を実行する。項目情報が抽出されると、この項目情報を含んだ内容の抽出後データを生成する処理を実行する。その後、抽出後データを端末3へ送信する処理を実行する。端末3では、サーバ1から送信された抽出後データを受信した後、表示部36に表示させるための表示情報を生成し、その後、生成した表示情報を表示部36に表示させる処理を実行する。表示エリアDA2には、抽出位置が分かるようにしたドキュメントが表示され、表示エリアDA3には、自動抽出結果が表示される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキストデータから情報抽出が可能な情報処理装置と、前記情報処理装置に接続された一又は複数の端末とを備えるテキスト情報抽出システムであって、
前記情報処理装置は、前記端末から送信された送信ファイルを受信するファイル受信手段と、
前記送信ファイルがテキストファイルであるか否かを判断するテキストファイル判断手段と、
前記テキストファイル判断手段により前記否と判断された場合に前記送信ファイルをテキストファイル化するテキストファイル化手段と、
前記テキストファイル判断手段により判断された、又は、前記テキストファイル化手段により前記テキストファイル化された、前記テキストファイルの前記テキストデータの中から、少なくとも1つの項目に合う項目情報を前記情報抽出する項目情報抽出手段と、
前記項目情報抽出手段により前記情報抽出された前記項目情報を含む抽出後データを生成する抽出後データ生成手段と、
前記抽出後データ生成手段により生成された前記抽出後データを、前記送信ファイルを送信した前記端末に送信する抽出後データ送信手段と、を備える、テキスト情報抽出システム。
【請求項2】
前記情報処理装置は、前記テキストデータの一部または全部の内容に基づき、前記テキストデータがどのデータ種類のものであるかを特定するデータ種類特定手段と、
前記データ種類特定手段により特定された前記データ種類に対応する前記項目を項目記憶部に記憶された中から選択する項目選択手段と、を更に備える、
請求項1に記載のテキスト情報抽出システム。
【請求項3】
前記抽出後データ生成手段は、前記項目情報に関し、前記テキストデータにおける抽出位置に関する情報と、前記抽出位置からの文字長さに関する情報とを紐付けた上で前記抽出後データを生成する、
請求項1又は2に記載のテキスト情報抽出システム。
【請求項4】
前記端末は、前記抽出後データを受信する抽出後データ受信手段と、
前記抽出後データ受信手段により受信した前記抽出後データから前記端末の表示部に表示させる表示情報を生成する表示情報生成手段と、
前記表示情報生成手段により生成された前記表示情報を前記表示部に表示させる情報表示手段と、を備える、
請求項1乃至3のうち何れか1項に記載のテキスト情報抽出システム。
【請求項5】
前記端末は、前記抽出後データを受信する抽出後データ受信手段と、
前記抽出後データ受信手段により受信した前記抽出後データから前記端末の表示部に表示させる表示情報を生成する表示情報生成手段と、
前記表示情報生成手段により生成された前記表示情報を前記表示部に表示させる情報表示手段と、を備え、
前記表示情報生成手段は、前記抽出位置に関する情報及び前記文字長さに関する情報を利用した第1表示情報を生成すると共に、少なくとも前記項目情報を含む第2表示情報を生成し、
前記情報表示手段は、前記表示情報生成手段により生成された前記第1表示情報及び前記第2表示情報を前記表示部に分けて表示させる、
請求項3に記載のテキスト情報抽出システム。
【請求項6】
前記抽出後データ生成手段は、前記項目情報抽出手段により前記情報抽出された前記項目情報が整合性の取れた情報であるか否かを判断すると共に、前記項目情報が前記整合性の取れていない情報であると判断した場合に、前記端末において警告が出るよう前記抽出後データを生成する、
請求項1乃至5のうち何れか1項に記載のテキスト情報抽出システム。
【請求項7】
テキストデータから情報抽出が可能な情報処理装置と、前記情報処理装置に接続された一又は複数の端末とを備えるテキスト情報抽出システムが実行するテキスト情報抽出方法であって、
前記情報処理装置は、前記端末から送信された送信ファイルを受信するファイル受信ステップと、
前記送信ファイルがテキストファイルであるか否かを判断するテキストファイル判断ステップと、
前記テキストファイル判断ステップにより前記否と判断された場合に前記送信ファイルをテキストファイル化するテキストファイル化ステップと、
前記テキストファイル判断ステップにより判断された、又は、前記テキストファイル化ステップにより前記テキストファイル化された、前記テキストファイルの前記テキストデータの中から、少なくとも1つの項目に合う項目情報を前記情報抽出する項目情報抽出ステップと、
前記項目情報抽出ステップにより前記情報抽出された前記項目情報を含む抽出後データを生成する抽出後データ生成ステップと、
前記抽出後データ生成ステップにより生成された前記抽出後データを、前記送信ファイルを送信した前記端末に送信する抽出後データ送信ステップと、を含む、テキスト情報抽出方法。
【請求項8】
テキストデータから情報抽出が可能な情報処理装置と、前記情報処理装置に接続された一又は複数の端末とを備えるテキスト情報抽出システムを制御するコンピュータに、
前記情報処理装置は、前記端末から送信された送信ファイルを受信するファイル受信ステップと、
前記送信ファイルがテキストファイルであるか否かを判断するテキストファイル判断ステップと、
前記テキストファイル判断ステップにより前記否と判断された場合に前記送信ファイルをテキストファイル化するテキストファイル化ステップと、
前記テキストファイル判断ステップにより判断された、又は、前記テキストファイル化ステップにより前記テキストファイル化された、前記テキストファイルの前記テキストデータの中から、少なくとも1つの項目に合う項目情報を前記情報抽出する項目情報抽出ステップと、
前記項目情報抽出ステップにより前記情報抽出された前記項目情報を含む抽出後データを生成する抽出後データ生成ステップと、
前記抽出後データ生成ステップにより生成された前記抽出後データを、前記送信ファイルを送信した前記端末に送信する抽出後データ送信ステップと、を含む制御処理を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト情報抽出システム、テキスト情報抽出方法、及びプログラムに関する。
【背景技術】
【0002】
下記特許文献1には、企業同士や個人同士等で交わした契約書を、委託した管理会社の倉庫に保管する旨が記載されている。管理会社では、管理台帳を作成して、契約書に記載された、例えば、有効期限等の日付の管理や、金額等の管理が行われる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述の管理会社では、契約書に記載された日付や金額等の様々な項目を管理台帳に入力する作業が必要になるが、この作業は、多大な労力がいることになる。
【0005】
本発明は、このような状況に鑑みてなされたものであり、情報抽出により作業性の向上を図ることが可能な、テキスト情報抽出システム、テキスト情報抽出方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述の目的を達成するため、本発明の一態様のテキスト情報抽出システムは、
テキストデータから情報抽出が可能な情報処理装置と、前記情報処理装置に接続された一又は複数の端末とを備えるテキスト情報抽出システムであって、
前記情報処理装置は、前記端末から送信された送信ファイルを受信するファイル受信手段と、
前記送信ファイルがテキストファイルであるか否かを判断するテキストファイル判断手段と、
前記テキストファイル判断手段により前記否と判断された場合に前記送信ファイルをテキストファイル化するテキストファイル化手段と、
前記テキストファイル判断手段により判断された、又は、前記テキストファイル化手段により前記テキストファイル化された、前記テキストファイルの前記テキストデータの中から、少なくとも1つの項目に合う項目情報を前記情報抽出する項目情報抽出手段と、
前記項目情報抽出手段により前記情報抽出された前記項目情報を含む抽出後データを生成する抽出後データ生成手段と、
前記抽出後データ生成手段により生成された前記抽出後データを、前記送信ファイルを送信した前記端末に送信する抽出後データ送信手段と、を備える。
【0007】
本発明の一態様のテキスト情報抽出方法は、上述の本発明の一態様のテキスト情報抽出システムに対応する方法である。
【0008】
また、本発明の一態様のプログラムは、上述の本発明の一態様のテキスト情報抽出システムに対応するプログラムである。
【発明の効果】
【0009】
本発明によれば、情報抽出により作業性の向上を図ることができる。即ち、本発明は、テキストデータから情報抽出が可能な情報処理装置と、一又は複数の端末とを備えるシステムであることから、情報処理装置や、情報処理装置と端末との協働により、情報抽出をすることができ、以て作業性の向上を図ることができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態に係るテキスト情報抽出システムにより提供される本サービスの概要の一例を示す図である。
【
図2】テキスト情報抽出システムに関するシステム構成の一例を示すブロック図である。
【
図3】
図2のテキスト情報抽出システムのうち、サーバ及び端末のハードウェア構成の一例を示すブロック図である。
【
図4】
図2のテキスト情報抽出システムのうち、サーバの機能的構成の一例を示す機能ブロック図である。
【
図5】
図2のテキスト情報抽出システムのうち、端末の機能的構成の一例を示す機能ブロック図である。
【
図6】
図2のテキスト情報抽出システムのうち、サーバの処理動作の一例を示すフローチャートである。
【
図7】
図2のテキスト情報抽出システムのうち、端末の処理動作の一例を示すフローチャートである。
【
図13】ファイルインポート部の一例を示す図である。
【
図14】インポートに成功したドキュメントを表示部に表示させた一例を示す図である。
【
図15】抽出後データに基づく表示情報を表示部に表示させた一例(ドキュメント先頭部分、抽出結果も先頭部分)を示す図である。
【
図16】抽出後データに基づく表示情報を表示部に表示させた一例(ドキュメント後尾部分、抽出結果は先頭部分)を示す図である。
【
図17】抽出後データに基づく表示情報を表示部に表示させた一例(ドキュメント後尾部分、抽出結果は中間部分)を示す図である。
【
図18】抽出後データに基づく表示情報を表示部に表示させた一例(ドキュメント後尾部分、抽出結果も先頭部分)を示す図である。
【発明を実施するための形態】
【0011】
<本サービスの概要について>
図1は、本発明の一実施形態に係るテキスト情報抽出システムにより提供される本サービスの概要を示す図である。
【0012】
図1において、本サービスは、サービス提供者(図示省略)が管理するサーバ1(情報処理装置)により提供される。本一実施形態では、例えば、企業がサーバ1を管理する。サーバ1は、インターネット等の所定のネットワークN(
図2参照)に接続される。このネットワークNには、ユーザー2が操作する端末3も接続される。
なお、端末3は、図示のような1つに限らず、複数あってもよいものとする。ユーザー2は、個人や企業の従業員等の何れであってもよいものとする。或いは、ユーザー2は、サーバ1を管理する企業の従業員等であってもよいものとする。
【0013】
本サービスでは、
図1の左上側にある表示部36の表示エリアDA1に表示されるようなドキュメント(符号省略)をサーバ1へ送信し、そして、サーバ1で所定の処理を実行させ、その処理結果を端末3が受信すると、
図1の左下側に示すとおり、表示部36の表示エリアDA3に自動抽出結果(符号省略)を表示させることができる。また、表示エリアDA2には、自動抽出結果を反映させたドキュメント(符号省略)も表示させることができる。
【0014】
本サービスでは、表示エリアDA2のドキュメント(自動抽出結果を反映させたドキュメント)と、表示エリアDA3の自動抽出結果とを、左右に並んで表示させることができる。本サービスでは、ドキュメントと自動抽出結果とをユーザー2が確認し易くなるように表示することができる。
【0015】
本サービスにより、ユーザー2が、例えば、
図1の左上側のようなドキュメントから、一々手作業で様々な項目の情報抽出をする必要性をなくすことができる。従って、本サービスにより、作業性を従来と比べて格段に向上させることができる。
【0016】
以下、表示エリアDA1のドキュメント(符号省略)から、表示エリアDA2のドキュメント及び表示エリアDA3の自動抽出結果が得られるまでの流れを概略説明する。
【0017】
ユーザー2が操作する端末3の表示部36の表示エリアDA1には、例えば、ドキュメントの一部が表示される(画面をスクロールすればドキュメント全体を見ることができる)。ドキュメントは、ここでは契約書に関する文章であるものとする。なお、契約書は一例であるものとし、他の例については後述するものとする。
【0018】
表示エリアDA1に表示された部分のドキュメントに関し、ブロック分けをして、ブロックBL1~ブロックBL3で説明すると、ブロックBL1の範囲(位置)には、「研究開発委託契約書」の内容の表示がある。また、ブロックBL2の範囲には、「株式会社YYYY(以下「甲」という。)は、ZZZZ株式会社(以下「乙」という。)とは、以下のとおり、研究開発委託契約(以下「本契約」という。)を締結する。」の内容の表示がある。また、ブロックBL3の範囲には、「(目的) 第1条 甲は、乙に対し、・・・」の内容の表示がある。
【0019】
端末3では、上述のような内容のドキュメントに基づき、サーバ1へ送信するためのファイル(送信ファイル)を生成する処理を実行する。そして、端末3は、生成した送信ファイルをサーバ1に送信する処理を実行する。
【0020】
サーバ1では、端末3からの送信ファイルがあると、これを受信する処理を実行する。なお、受信したファイル(送信ファイル)は、ここではテキストファイルであるものとする(テキストファイルでない場合は、サーバ1がテキストファイル化の処理を実行する)。サーバ1は、受信したファイルであるテキストファイルのテキストデータから、予め記憶部に記憶させておいた項目に合う項目情報を抽出する処理を実行する。項目情報が抽出されると、この項目情報を含んだ内容の抽出後データを生成する処理をサーバ1は実行する。その後、サーバ1は、抽出後データを端末3へ送信する処理を実行する。
上述の抽出後データは、「データ」に限らず「ファイル」形式等、様々あり得るものとする。例えば、「ファイル」形式で生成する場合には、「抽出後データ」を「抽出後ファイル」と読み替えてもよいものとする。
【0021】
端末3では、サーバ1からの抽出後データの送信があると、これを受信する処理を実行する。抽出後データを受信した後は、表示部36に表示させる表示情報を生成する処理を端末3は実行する。その後、端末3は、表示情報を表示部36に表示させる処理を実行する。
【0022】
端末3は、表示情報を表示部36に表示させると、表示エリアDA2には、
図1の左下側に示すようなドキュメントが表示される。また、表示エリアDA3には、自動抽出結果が表示される。
【0023】
表示エリアDA2に表示された部分のドキュメントに関し、上述のようにブロックBL1~ブロックBL3で説明すると、ブロックBL1の範囲(位置)には、「研究開発委託契約書」の内容の表示がある。この「研究開発委託契約書」は、ここでは四角の枠囲みで示される。なお、四角の枠囲みは、ハイライトHL1であることを示す。ハイライトHL1で表示された「研究開発委託契約書」は、自動抽出がなされた箇所に該当する。ハイライトHL1は一例であるものとし、他の方法で抽出箇所を分らせるようにしてもよいものとする。ハイライトHL1は、少なくとも、上述の抽出後データに含まれた抽出位置に関する情報と、抽出位置からの文字長さに関する情報とによりライン状に引いて表示される。
【0024】
表示エリアDA2におけるブロックBL2の範囲には、「株式会社YYYY(以下「甲」という。)は、ZZZZ株式会社(以下「乙」という。)とは、以下のとおり、研究開発委託契約(以下「本契約」という。)を締結する。」の内容の表示がある。また、同じくブロックBL3の範囲には、「(目的) 第1条 甲は、乙に対し、・・・」の内容の表示がある。これら表示のうち、前者の「株式会社YYYY」と「ZZZZ株式会社」は、ハイライトHL2、ハイライトHL3で表示される。ハイライトHL2、ハイライトHL3は、上述のハイライトHL1と同じに四角の枠囲みで示され、自動抽出がなされた箇所に該当する。
【0025】
なお、ハイライトHL1~ハイライトHL3に関しては、次のような例を採用してもよいものとする。即ち、後述する「項目」に関する表示情報や「項目情報」に関する表示情報を、例えば、マウスでクリックすると、その際にハイライトHL1~ハイライトHL3が出現するようにしてもよいものとする。
【0026】
自動抽出結果として、表示エリアDA3には、「・契約書タイトル」、「研究開発委託契約書」、「・契約元会社名」、「株式会社YYYY」、「・契約先会社名」、「ZZZZ株式会社」の文字で表示される。これらのうち、「・契約書タイトル」、「・契約元会社名」、「・契約先会社名」の文字は、「項目」に関する表示情報である。また、「研究開発委託契約書」、「株式会社YYYY」、「ZZZZ株式会社」の文字は、「項目情報」に関する表示情報である。
「研究開発委託契約書」、「株式会社YYYY」、「ZZZZ株式会社」の文字は、サーバ1により、上述のテキストデータから自動で情報抽出された項目情報の結果である。この項目情報の結果が表示情報として表示エリアDA3に表示される。
【0027】
なお、特に図示しないが、サーバ1の記憶部に予め記憶させておいた「項目」としては、例えば、「契約日」があり、また、上述のテキストデータにも「契約日」の文字があるとすれば、表示エリアDA3には、「項目」に関する表示情報として「契約日」の文字が表示される。また、表示エリアDA3には、「項目情報」に関する表示情報として、「項目」に合うように抽出した「契約日」の文字も表示される。
【0028】
上述の「契約日」に関し、本サービスの一例としては、「契約日」の文字だけでなく、日付となる数字が表示される例を挙げることができる。日付となる数字は、テキストデータの中に含まれていれば抽出することが可能になる。
なお、テキストデータの中に契約日の有効期間として、例えば、「1年間」の文字が含まれていれば、上述の日付となる数字から、有効期間の最終日を求め、そして、これを項目情報にすることもできる(テキストデータの中に契約日の有効期間がなくても、「1年間」から求めて、ユーザー2に提供することができる)。
【0029】
以上、
図1を参照しながら本サービスの概要について説明してきたように、本サービスの提供を受けることにより、
図1の例では、契約書に合う内容の項目で情報抽出を自動で行うことができる。本サービスによれば、様々な項目の情報抽出をユーザー2が一々手作業でする必要性がなくなることから、従来と比べて作業性の向上を図ることができる。
【0030】
なお、
図1では、ドキュメントの種類(データ種類)として契約書の例を挙げたが、これに限らないものとする。即ち、契約書の他、約款や規定、規則等を挙げることができる。また、マニュアルや技術文書、注文書、請求書、領収書等も挙げることができる。後述する「項目」に合う情報を抽出することができれば、ドキュメントの種類(データ種類)等は、特に限定されないものとする。例えば、動画の音声を文字起こししたり、例えば、ICレコーダーに録音された音声を文字起こししたりすれば、動画や音声からでも情報抽出を行うことができる。
【0031】
<テキスト情報抽出システム100のシステム構成について>
図2は、テキスト情報抽出システム100に関するシステム構成の一例を示すブロック図である。
【0032】
テキスト情報抽出システム100は、サーバ1(情報処理装置)と、このサーバ1が接続されるネットワークNと、ネットワークNを介してサーバ1に接続される複数の端末3とを備えて構成される。
サーバ1は、端末3の動作と協働して各種処理を実行する装置である。複数の端末3は、ユーザー2により操作される装置である。複数の端末3は、端末3-1から端末3-nまで複数備えられる(nは1以上の整数であるものとする)。
【0033】
<サーバ1のハードウェア構成について>
図3は、
図2のテキスト情報抽出システム100のうち、サーバ1及び端末3のハードウェア構成を示すブロック図である。
【0034】
サーバ1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、表示部16(出力部)と、入力部17と、記憶部18と、通信部19と、ドライブ20とを備えて構成される。
【0035】
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【0036】
CPU11、ROM12及びRAM13は、バス14を介して相互に接続される。このバス14には、入出力インターフェース15が接続される。
入出力インターフェース15には、表示部16(出力部)、入力部17、記憶部18、通信部19及びドライブ20が接続される。
【0037】
表示部16(出力部)は、ディスプレイ(画面)により構成され、各種画像を表示する。入力部17は、各種ハードウェア等で構成され、各種情報を入力する。
記憶部18は、ハードディスクやDRAM(Dynamic Random Access Memory)等で構成され、各種データを記憶する。
通信部19は、所定のネットワークNを介して他の装置(
図2の場合、端末3)との間で行う通信を制御する。
【0038】
ドライブ20は、必要に応じて設けられる。ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア21が適宜装着される。
ドライブ20によってリムーバブルメディア21から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。また、リムーバブルメディア21は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
【0039】
以上のようなサーバ1と端末3とに関し、これらの各種ハードウェアと各種ソフトウェアとの協働により、後述する各種処理が実現されるようになるものとする。
【0040】
<端末3について>
図3において、端末3は、ユーザー2が操作する情報処理端末である。端末3は、例えば、パーソナルコンピュータ(PC)や、例えばスマートフォン、タブレット等の携帯端末であるものとする。パーソナルコンピュータ(PC)の場合は、所謂デスクトップパソコンやノートパソコンの何れであってもよいものとする。
端末3のハードウェア構成は、上述のサーバ1のハードウェア構成と基本的に同様であるものとする。即ち、CPU31と、ROM32と、RAM33と、バス34と、入出力インターフェース35と、表示部36と、入力部37と、記憶部38と、通信部39と、ドライブ40と、リムーバブルメディア41を備えて構成される。
【0041】
<サーバ1の機能的構成について>
図4は、
図2のテキスト情報抽出システム100のうち、サーバ1の機能的構成の一例を示す機能ブロック図である。
【0042】
図4において、サーバ1は、
図3を参照しながら上述したように、CPU11と、記憶部18と、通信部19と、その他機能(
図4での図示は省略)とを備えて構成される。
【0043】
CPU11は、項目登録処理部111と、ファイル受信処理部112(ファイル受信手段)と、テキストファイル判断処理部113(テキストファイル判断手段)と、テキストファイル化処理部114(テキストファイル化手段)と、データ種類特定処理部115(データ種類特定手段)と、項目選択処理部116(項目選択手段)と、項目情報抽出処理部117(項目情報抽出手段)と、抽出後データ生成処理部118(抽出後データ生成手段)と、抽出後データ送信処理部119(抽出後データ送信手段)とを備えて構成される。
【0044】
別な言い方をすれば、サーバ1のCPU11においては、動作する際に、項目登録処理部111と、ファイル受信処理部112と、テキストファイル判断処理部113と、テキストファイル化処理部114と、データ種類特定処理部115と、項目選択処理部116と、項目情報抽出処理部117と、抽出後データ生成処理部118と、抽出後データ送信処理部119とが機能する。
【0045】
記憶部18は、項目記憶部181と、受信ファイル記憶部182と、テキストファイル記憶部183と、項目情報記憶部184と、位置・長さ情報記憶部185と、抽出後データ記憶部186とを有する。
【0046】
CPU11の項目登録処理部111は、情報抽出の際に抽出対象となる「項目」を予め記憶部18の項目記憶部181に記憶させる処理を実行する。
【0047】
上述の「項目」は、端末3から送信されたファイル(送信ファイル)のデータ種類に対応するように集められる。また、ここでは全て例に挙げて説明しないが、端末3から送信され得るファイル(送信ファイル)のデータ種類に対応するように集められる。
具体的には、送信ファイルのデータ種類が、例えば、契約書のデータである場合に、契約書に一般的に記載されるような項目が予め「項目」として集められ、そして、記憶される。
ここでは、契約書に記載されるような項目として、例えば、「タイトル」、「契約元会社」、「請負業者」、「契約日」、「自動更新」、「自動更新のお知らせ」等が該当するものとする。例えば、「契約日」を例に挙げれば、「契約の日」のような意味が同じでかつ文字は類似する場合、この「契約の日」も予め「項目」として記憶されるものとする。
【0048】
なお、後述するが、「項目」に合う項目情報(後述する)を抽出するようにCPU11(項目情報抽出処理部117)は動作する。その際、例えば、「契約日」や「契約の日」に合う項目情報の抽出では、「契約日」や「契約の日」の文字だけでなく日付(例えば、「20××年××月××日」、「20XX/XX/XX」、「20XX.XX.XX」等)も抽出可能にするものとする。
日付等の表記に関し、例えば、日付であれば様々な表記方法があり得る。具体的には、和暦、西暦、XX年XX月末、等様々あり得る。ここでは、値を正規化することが可能であるものとする。例えば、日付は、「yyyy/mm/dd」に統一すること等が可能であるものとする。
【0049】
ファイル受信処理部112は、端末3から送信された送信ファイルを受信する処理を実行する。また、ファイル受信処理部112は、受信した送信ファイルを受信ファイル記憶部182に記憶させる処理も実行する。
【0050】
テキストファイル判断処理部113は、ファイル受信処理部112により受信したファイル(送信ファイル)がテキストファイルであるか否かを判断する処理を実行する。テキストファイル判断処理部113での判断が、テキストファイルである場合は、これをテキストファイル記憶部183に記憶させる処理を実行する。一方、テキストファイルでない(否)と判断された場合には、テキストファイル化処理部114が動作する。
【0051】
テキストファイル化処理部114は、テキストファイル判断処理部113により否と判断(テキストファイルでないと判断)された場合に、受信したファイル(送信ファイル)をテキストファイルに変換(テキストファイル化)する処理を実行する。また、テキストファイル化処理部114は、テキストファイル化した後のファイル(テキストファイル)をテキストファイル記憶部183に記憶させる処理も実行する。
【0052】
データ種類特定処理部115は、テキストファイル記憶部183に記憶させたテキストファイルにおける、テキストデータの一部または全部の内容に基づき、テキストデータがどのデータ種類のものであるかを特定する処理を実行する。もう少し詳しく説明すると、テキストデータが、例えば、契約書のデータであるか、約款のデータであるか、規定のデータであるか、規則のデータであるか、マニュアルのデータであるか、技術文書のデータであるか、注文書のデータであるか、請求書のデータであるか、領収書のデータであるか、等をデータ種類特定処理部115は特定する処理を実行する。
テキストデータがどのデータ種類のものであるかを特定することにより、データ種類(ドキュメントの種類)で項目を自動的に切り替えることができる。
【0053】
項目選択処理部116は、データ種類特定処理部115により特定されたデータ種類(例えば、契約書のデータ)に対応する「項目」を項目記憶部181に記憶させた中から選択する処理を実行する。「項目」は様々あることから、項目選択処理部116は、項目記憶部181の「項目群」の中から選択するように動作する。
【0054】
項目情報抽出処理部117は、テキストファイル記憶部183に記憶させたテキストファイルのテキストデータの中から、少なくとも1つの項目に合う項目情報を抽出する(情報抽出する)処理を実行する。もう少し詳しく説明すると、上述の契約書での例を挙げれば、契約書のテキストデータの中から、「タイトル」、「契約元会社」、「請負業者」、「契約日」、「自動更新」、「自動更新のお知らせ」等の「項目」に合う項目情報を抽出する処理を項目情報抽出処理部117は実行する。例えば、「タイトル」に合う情報抽出により、「研究開発委託契約」や「業務委託契約書」と言う内容の項目情報を抽出するように項目情報抽出処理部117は動作する。抽出に関しては、正規表現や、自然言語処理における固有表現抽出が採用される(特に限定するものではない)。
なお、「契約元会社」、「請負業者」の抽出方法については特に限定されないが、例えば、契約書のテキストデータの中から最初に抽出された会社(企業)を「契約元会社」、次に抽出された会社を「請負業者」とするとよい。
【0055】
項目情報抽出処理部117は、抽出した項目情報を項目情報記憶部184に記憶させる処理も実行する。また、項目情報抽出処理部117は、抽出した項目情報の、テキストデータにおける抽出位置に関する情報と、この抽出位置からの文字長さに関する情報とを項目情報に紐付けた上で位置・長さ情報記憶部185に記憶させる処理も実行する。
【0056】
上述のテキストデータにおける抽出位置は、例えば、テキストデータの先頭の文字を「0」として、この先頭の文字から何番目に項目情報が出現するかを求めることにより得られるものとする(一例であるものとする。例えば、テキストデータの何行目等の求め方であってもよいものとする)。また、抽出位置からの文字長さは、項目情報が、例えば、「業務委託契約書」であればこの文字数を求めることにより得られるものとする(一例であるものとする)。この場合、抽出位置からの文字長さは、「7」となる。
【0057】
抽出後データ生成処理部118は、項目情報抽出処理部117により抽出された(情報抽出された)上述の項目情報を含む抽出後データを生成する処理を実行する。また、抽出後データ生成処理部118は、生成した抽出後データを抽出後データ記憶部186に記憶させる処理も実行する。なお、抽出後データは、テキストファイルの形式やユーザー2の要求する形式で生成されるものとする(例えば、「ファイル」形式で生成されるのであれば、「抽出後データ」を「抽出ファイル」と読み替えてもよいものとする)。
抽出後データ生成処理部118は、ここでは項目情報抽出処理部117により抽出された(情報抽出された)項目情報が整合性の取れた情報であるか否かを判断すると共に、項目情報が整合性の取れていない情報(後述する)であると判断した場合に、端末3(送信ファイルを送信してきた端末3)において警告が出るよう抽出後データを生成する処理を実行する。
上述の整合性の取れていない情報に関しては、例えば、次の例が挙げられる。即ち、(1)「契約開始日」が「契約日」より前になっている場合であり、この時に警告を出す。(2)存在しない日付になっている(例えば、「2021年2月29日」)場合であり、この時に警告を出す。(3)同一の項目情報が複数箇所で取得され、その取得内容が異なっている場合であり、この時に警告を出す。(4)「契約元会社」が、例えば、冒頭部分と署名欄とで抽出できたケースにおいて、その会社名が異なっている場合であり、この時に警告を出す。
抽出後データ生成処理部118では、整合性が取れていない情報であれば、例えば、項目情報に対し所定の警告情報を紐付けるように処理を実行する。
【0058】
抽出後データ送信処理部119は、抽出後データ生成処理部118により生成された抽出後データを、送信ファイルを送信してきた端末3に送信する処理を実行する。
【0059】
記憶部18の項目記憶部181は、情報抽出の際に抽出対象となる「項目」を予め記憶しておく記憶領域である。項目記憶部181には、様々な「項目」が記憶される。様々な「項目」は、例えば、上述のデータ種類に分かれて「項目群」となるように記憶される。
【0060】
受信ファイル記憶部182は、端末3から送信されて受信したファイル(送信ファイル)を記憶しておく記憶領域である。
【0061】
テキストファイル記憶部183は、上述の受信したファイル(送信ファイル)がテキストファイルであった場合や、上述のテキストファイル化した後のファイル(テキストファイル)を記憶しておく記憶領域である。
【0062】
項目情報記憶部184は、項目情報抽出処理部117にて抽出した項目情報を記憶しておく記憶領域である。項目情報記憶部184には、例えば、「タイトル」という「項目」に合う情報抽出であれば、「研究開発委託契約」や「業務委託契約書」が項目情報として記憶される。なお、項目情報の例に関しては、
図9乃至
図12を参照しながら後述する。
【0063】
位置・長さ情報記憶部185は、抽出した項目情報の、テキストデータにおける抽出位置に関する情報と、この抽出位置からの文字長さに関する情報とを項目情報に紐付けた上で記憶しておく記憶領域である。
【0064】
抽出後データ記憶部186は、抽出後データ生成処理部118にて生成された抽出後データを記憶しておく記憶領域である。
【0065】
<端末3の機能的構成について>
図5は、
図2のテキスト情報抽出システム100のうち、端末3の機能的構成の一例を示す機能ブロック図である。
【0066】
図5において、端末3は、
図3を参照しながら上述したように、CPU31と、表示部36と、記憶部38と、通信部39と、その他機能(
図5での図示は省略)とを備えて構成される。
【0067】
CPU31は、送信ファイル生成処理部311と、ファイル送信処理部312と、抽出後データ受信処理部313(抽出後データ受信手段)と、表示情報生成処理部314(表示情報生成手段)と、情報表示処理部315(情報表示手段)とを備えて構成される。
【0068】
別な言い方をすれば、端末3のCPU31においては、動作する際に、送信ファイル生成処理部311と、ファイル送信処理部312と、抽出後データ受信処理部313と、表示情報生成処理部314と、情報表示処理部315とが機能する。
【0069】
記憶部38は、送信ファイル記憶部381と、抽出後データ記憶部382と、表示情報記憶部383とを有する。
【0070】
CPU31の送信ファイル生成処理部311は、サーバ1へ送信するための送信ファイルを生成する処理を実行する。また、送信ファイル生成処理部311は、生成した送信ファイルを送信ファイル記憶部381に記憶させる処理も実行する。
【0071】
ファイル送信処理部312は、送信ファイル生成処理部311にて生成した送信ファイルをサーバ1へ送信する処理を実行する。
【0072】
抽出後データ受信処理部313は、サーバ1から送信された抽出後データを受信する処理を実行する。また、抽出後データ受信処理部313は、受信した抽出後データを抽出後データ記憶部382に記憶させる処理も実行する。
【0073】
表示情報生成処理部314は、受信した抽出後データから端末3の表示部36に表示させる表示情報を生成する処理を実行する。また、表示情報生成処理部314は、生成した表示情報を表示情報記憶部383に記憶させる処理を実行する。
【0074】
尚、ここでは、抽出後データに含まれた上述の抽出位置に関する情報及び文字長さに関する情報を利用した第1表示情報と、上述の項目情報を含む第2表示情報とを生成し、そして、これら第1表示情報と第2表示情報とを表示情報記憶部383に記憶させる処理を表示情報生成処理部314は実行するものとする。
また、ここでは、抽出後データにおける項目情報に対し警告情報が紐付いている場合に、所定の警告が出るような処理を表示情報生成処理部314は実行するものとする。
【0075】
情報表示処理部315は、表示情報生成処理部314にて生成された表示情報を表示部36に表示させる処理を実行する。尚、ここでは、第1表示情報と第2表示情報とを表示部36の、例えば、左右に画面表示させる処理を情報表示処理部315が実行するものとする。
【0076】
記憶部38の送信ファイル記憶部381は、サーバ1へ送信するための送信ファイルを記憶しておく記憶領域である。
抽出後データ記憶部382は、サーバ1から送信された抽出後データを記憶しておく記憶領域である。
表示情報記憶部383は、表示情報生成処理部314にて生成された表示情報(第1表示情報と第2表示情報)を記憶しておく記憶領域である。
【0077】
<サーバ1の処理動作の一例について>
次に、サーバ1の処理動作の一例を説明する。
図6は、
図2のテキスト情報抽出システム100のうち、サーバ1の処理動作の一例を示すフローチャートである。
【0078】
サーバ1におけるCPU11の動作として、ステップS1では、端末3から送信された送信ファイルをファイル受信処理部112(ファイル受信手段)が受信する。送信ファイルの受信等が完了するとステップS2へ移行する。
【0079】
ステップS2では、受信したファイル(端末3からの送信ファイル)がテキストファイルなのか、それともテキストファイルでないのかをテキストファイル判断処理部113(テキストファイル判断手段)が判断する。テキストファイルでない(否)と判断(ステップS2でNo)した場合は、ステップS3へ移行する。一方、テキストファイルであると判断(ステップS2でYes)した場合は、ステップS4へ移行する。
【0080】
ステップS3では、受信したファイル(端末3からの送信ファイル)がステップS2でテキストファイルでない(否)と判断されたことから、テキストファイル化処理部114(テキストファイル化手段)がテキストファイルに変換(テキストファイル化)する。テキストファイルへの変換後は、ステップS4へ移行する。
【0081】
ステップS4では、テキストファイルのデータ種類をデータ種類特定処理部115(データ種類特定手段)が特定する。即ち、テキストファイルのテキストデータの一部又は全部を見て、例えば、これは契約書のデータである、と特定する。データ種類を特定したら、ステップS5へ移行する。
【0082】
ステップS5では、特定されたデータ種類(例えば、契約書のデータ)に対応する「項目」がどれであるかを項目選択処理部116(項目選択手段)が項目記憶部181の「項目群」の中から選択する。「項目」の選択が完了した後は、ステップS6へ移行する。なお、「項目」は、情報抽出の際に抽出対象となる。
【0083】
ステップS6では、テキストファイルのテキストデータの中からステップS5で選択した項目に合う項目情報を項目情報抽出処理部117(項目情報抽出手段)が抽出する。もう少し詳しく説明すると、上述の契約書での例を挙げれば、契約書のテキストデータの中から、「タイトル」、「契約元会社」、「請負業者」、「契約日」、「自動更新」、「自動更新のお知らせ」等の「項目」に合う項目情報を項目情報抽出処理部117が抽出する。抽出した項目情報には、テキストデータにおける抽出位置に関する情報と、この抽出位置からの文字長さに関する情報とが紐付けられる。項目情報の抽出後は、ステップS7へ移行する。
【0084】
ステップS7では、抽出した(情報抽出した)項目情報を含む抽出後データを抽出後データ生成処理部118(抽出後データ生成手段)が生成する。抽出後データの生成後は、ステップS8へ移行する。
ステップS7では、抽出した項目情報が、整合性の取れた情報であるか否かの判断を行い、不整合の場合には、項目情報に対し警告情報が紐付けられる。
【0085】
ステップS8では、生成した抽出後データを抽出後データ送信処理部119(抽出後データ送信手段)が端末3へ送信する。なお、抽出後データが送信され、これを端末3が受診すると、端末3は以下で説明するように動作する。
【0086】
<端末3の処理動作の一例について>
次に、端末3の処理動作の一例を説明する。
図7は、
図2のテキスト情報抽出システム100のうち、端末3の処理動作の一例を示すフローチャートである。
【0087】
端末3におけるCPU31の動作として、ステップS21では、サーバ1へ送信するためのファイル(送信ファイル)を送信ファイル生成処理部311が生成する。送信ファイルの生成後は、ステップS22へ移行する。
【0088】
ステップS22では、生成した送信ファイをファイル送信処理部312がサーバ1へ送信する。送信ファイルの送信後は、ステップS23へ移行する。
【0089】
ステップS23では、サーバ1から送信された抽出後データを受信したかどうかを抽出後データ受信処理部313(抽出後データ受信手段)が判断する。抽出後データがまだ受信されていないと判断(ステップS23でNo)した場合は、再びステップS23を繰り返す。一方、抽出後データが受信されたと判断(ステップS23でYes)した場合は、ステップS24へ移行する。
【0090】
ステップS24では、受信した抽出後データから端末3の表示部36に表示させる表示情報(第1表示情報及び第2表示情報)を表示情報生成処理部314(表示情報生成手段)が生成する。表示情報の生成後は、ステップS25へ移行する。
【0091】
ステップS25では、生成した表示情報を情報表示処理部315(情報表示手段)が表示部36の、例えば、左右に画面表示させる。なお、画面表示に関しては、
図15乃至
図18を参照しながら後述する。
【0092】
<テキストデータTD、項目情報EX1~EX10の例について>
図8は、テキストデータTDの一例を示す図である。
図9は、項目情報の1つ目の例(項目情報EX1~EX3)を示す図である。また、
図10は、項目情報の2つ目の例(項目情報EX4~EX5)を示す図である。また、
図11は、項目情報の3つ目の例(項目情報EX6~EX8)を示す図である。また、
図12は、項目情報の4つ目の例(項目情報EX8~EX10)を示す図である。
【0093】
図8において、テキストデータTDは、サーバ1の表示部16に、例えば、次のように表示される(図は後尾部分が含まれるように示した例である)。即ち、「~事者は、法令、規則、裁判所の決定・命令、行政庁の命令・指導等に基づき裁判所又は行政庁から開示を要求された場合には、相手方の機密情報を当該裁判所又は行政庁に開示、提供できるものとする。ただし、これらの事由が生じた場合、各当事者は相手方に対してすみやかに通知するものとする。¥n5. 各当事者は、相手方から開示された機密情報を本件委託業務以外の目的で使用してはならないとともに、機密情報を本件委託業務以外の目的で複製又は変更してはならない。¥n6. 各当事者は、善良なる管理者の注意をもって機密情報を厳重に管理するものとする。¥n7. 各当事者は、機密情報の漏えい、紛失、盗難、盗用等の事態が発生し、又はそのおそれがあることを知った場合は、直ちにその旨を相手方に書面をもって通知するものとする。¥n8. 各当事者は、次の各号のいずれかに該当する事由が生じたときは、相手方から受領した機密情報を当該相手方に返還、消去又は廃棄を行う。¥n(1) 本契約が終了したとき¥n(2) 相手方が返還を求めたとき¥n¥n第12条 (個人情報の取扱い)¥n甲及び乙は、乙の個人情報を乙の個人情報保護規程に基づき取り扱うものとする。¥n¥n第13条(解除)¥n1. 甲又は乙は、相手方が以下の各号のいずれかに該当した場合、何ら催告を要せず、直ちに本契約の全部又は一部を解除することができる。¥n(1) 本契約のいずれかの規定に違反し、相当の期間を定めて催告したにもかかわらず、是正されないとき¥n(2) 差押、仮差押、仮処分、公売処分その他公権力の処分を受け、又は破産、民事再生手続開始、会社更生手続開始、特別清算開始、特定調停申立、若しくはこれらのための保全手続の申立がなされ又は受けたとき¥n(3) 自己振出の手形又は小切手が不渡りとなったとき¥n(4) 公租公課の滞納処分を受けたとき¥n(5) その他、任意整理の通知を発する等、信用状態に重大な不安が生じたと判断される場合、若しくは将来において生じると判断されるとき¥n(6) ◎◎団、◎◎団員、◎◎団員でなくなった時から5年を経過しない者、◎◎団準構成員、◎◎団関係企業、総会屋等、社会運動等標ぼうゴロ又は特殊知能◎◎集団等、その他これらに準ずる者であるとき、又は、主要な株主に若しくは出資者に含まれるとき¥n(7) 自ら又は第三者を利用して、◎◎的な要求行為、法的責任を超えた不当な要求行為、取引に関する脅迫的な言動又は◎◎行為、及び風説の流布又は偽計・威力による信用毀損行為又は業務妨害行為、その他の違法行為を行ったとき¥n(8) 相手方の評判、名誉、信用を棄損したとき、又は、相手方との信頼関係を著しく破壊したとき¥n(9) その他本契約を継続しがたい重大な事由が発生したと甲が判断するとき¥n2. 甲は、前項にかかわらず、5営業日の予告期間をもって書面で乙に通知することにより、いつでも本契約を解約することができる。¥n3. 前2項の規定に従い、甲又は乙が本契約の全部又は一部を解除又は解約した場合でも、相手方に対して、損害賠償請求をすることを妨げない。¥n4. 第1項により本契約が解除された場合、契約の解除を受けた当事者は、当然に期限の利益を失い、相手方に対する一切の債務を直ちに履行するものとする。¥n¥n第14条 (損害賠償)¥n1. 甲及び乙は、本契約の履行に関し、相手方の責めに帰すべき事由により損害を被った場合、相手方に対して損害賠償を請求することができる。¥n2. 本契約の履行に関する損害賠償の累計総額は、債務不履行、不当利得、不法行為その他請求原因の如何にかかわらず、本契約に基づき甲が乙に対して実際に支払った委託料の合計金額を限度とする。¥n3. 前項は、損害が損害賠償義務者の故意又は重大な過失に基づくものである場合には適用しない。¥n¥n¥n第15条 (契約の変更)¥n甲及び乙は、本契約の変更又は修正を行う場合、甲乙双方の記名捺印した書面を交わすものとする。¥n¥n第16条 (協議)¥n本契約について甲乙間に疑義が生じたときは、甲乙協議の上、これを解決するものとする。¥n¥n第17条 (専属的合意管轄裁判所)¥n本契約について甲乙間に紛争が生じたときは、東京地方裁判所を第一審の専属的合意管轄裁判所とする。¥n¥n第18条 (準拠法)¥n本契約は、日本法に準じて解釈される。¥n¥n上記契約の証として本書2通を作成し、甲乙記名捺印の上、各自1通を保有する。¥n¥n2021年5月6日¥n¥n甲:¥n◎◎都◎区◎◎◎1丁目2番3号¥n株式会社YYYYYYYYYYY¥n代表取締役社長 AA A¥n¥n乙:¥n◎◎都◎◎区◎◎◎4-5-6¥nZZZZ株式会社¥n代表取締役 BB BB¥n¥n”」と表示部16に表示される(一例であるものとする)。
【0094】
上述のようなテキストデータTDから「項目」に合う項目情報(項目情報EX1~EX10)が抽出(情報抽出)されると、サーバ1の表示部16に、例えば、次のように表示される。即ち、
図9に示すように、項目情報EX1に関しては、「“label”:“title”」、「“value”:“業務委託契約書”」、「“index”:0」、「“length”:7」と表示される(これは、テキストデータTDの先頭部分から抽出されたものであり、ここでの図示は省略する)。
これらの表示は、次のように読むことができる。即ち、「項目」が「title」であり、これに合うように「業務委託契約書」が抽出され、そして、抽出された「業務委託契約書」は、テキストデータTDの先頭の文字を「0」とすると、先頭の「0」に位置し、この抽出位置からの文字長さは、「7」であると読むことができる(以下も同様に読むことができるので説明は省略する)。
【0095】
また、項目情報EX2に関しては、「“label”:“contract origin company”」、「“value”:“株式会社YYYYYYYYYYY”」、「“index”:10」、「“length”:15」と表示される。
【0096】
また、項目情報EX3に関しては、「“label”:“contractor company”」、「“value”:“ZZZZ株式会社”」、「“index”:38」、「“length”:8」と表示される。
【0097】
また、
図10に示すように、項目情報EX4に関しては、「“label”:“auto renew”」、「“value”:“、期間満了の1ヶ月前までに,甲及び乙による更新しない旨の書面による意思表示がない”」、「“index”:262」、「“length”:40」と表示される。
【0098】
また、項目情報EX5に関しては、「“label”:“auto renew announcement”」、「“value”:“期間満了の1ヶ月前”」、「“index”:263」、「“length”:9」と表示される。
【0099】
また、
図11に示すように、項目情報EX6に関しては、「“label”:“contract date”」、「“value”:“2021年5月6日”」、「“index”:3905」、「“length”:9」と表示される。
【0100】
また、項目情報EX7に関しては、「“label”:“contract origin company”」、「“value”:“株式会社YYYYYYYYYYY”」、「“index”:3936」、「“length”:15」と表示される。
【0101】
また、項目情報EX8に関しては、「“label”:“contract origin person”」、「“value”:“AA A”」、「“index”:3960」、「“length”:4」と表示される(
図12も参照)。
【0102】
また、
図12に示すように、項目情報EX9に関しては、「“label”:“contractor company”」、「“value”:“ZZZZ株式会社”」、「“index”:3988」、「“length”:8」と表示される。
【0103】
また、項目情報EX10に関しては、「“label”:“contractor person”」、「“value”:“BB BB”」、「“index”:4004」、「“length”:5」と表示される。
【0104】
以上のような項目情報(例えば、項目情報EX1~EX10)を含んで抽出後データが生成され、これが端末3へ送信される。
【0105】
<端末3でのファイル取り込み等について>
図13は、ファイルインポート部4の一例を示す図である。
端末3には、本サービスの利用に必要なアプリケーションプログラムが予めインストールされており、アプリケーションプログラムによってファイルインポート部4が表示部36に表示される。
【0106】
ファイルインポート部4には、新規作成のための新規作成部4aが設けられる。また、テンプレートから作成するためのテンプレート作成部4bも設けられる。また、ファイルをインポートして取り込むためのインポート部4cも設けられる。
【0107】
例えば、ドキュメントファイルをドラッグし、そして、インポート部4cの位置でドロップした場合、表示部36の表示エリアDA1aには、
図14に示すような5つのブロック(ブロックBL1~ブロックBL5)で文字や数字が表示される。なお、ブロックBL1~ブロックBLnのうち、
図14では、ブロックBL1~ブロックBL5で文字や数字が表示される。なお、表示エリアDA1bには、ここで(
図14で)特に説明するような表示はない。
【0108】
ブロックBL1での表示は、「研究開発委託契約書」である。
また、ブロックBL2での表示は、「株式会社YYYYYYYYYYY(以下「甲」という。)は、ZZZZZZZZ株式会社(以下「乙」という。)とは、以下のとおり、研究開発委託契約(以下「本契約」という。)を締結する。」である(なお、
図1では、図面スペースの都合上、「Y」や「Z」の文字数を少なくしてある)。
【0109】
また、ブロックBL3での表示は、「(目的)」、「第1条 甲は、乙に対し、別紙1(省略)記載の製品(以下「本製品」という。)の製造を事業化することを目的として、本製品の製造に関する研究開発(以下「本研究開発」という。)を乙に委託し、乙は、これを受託する。」である。
【0110】
また、ブロックBL4での表示は、「(委託業務)」、「第2条 前条に基づいて甲が乙に委託する本研究開発の内容は、以下のとおりとする。」、「(1) 研究題目 文章作成効率化を目的とするXXX手法の研究開発」、「(2) 研究目的 XXXに適したXXXを開発し商品化すること」、「(3) 研究内容 XXXXXXXXXXXX」、「(4) 研究担当者 CC CC」、「(5) 研究に要する費用 金5,000,000円」、「(6) 研究期間 2021年5月1日から2022年4月30日まで」、「(7) 研究場所 乙のオフィス内」である。
【0111】
また、ブロックBL5での表示は、「(委託料の支払い)」、「第3条 甲は、本研究開発の委託料として、金5,000,000円を乙に支払うものとする。」、「2. 前項で定める委託料は、以下の時期に、以下の金額を、乙の指定する口座に振り込むことにより支払うものとする。」である。
【0112】
以上のようなドキュメントファイルから、サーバ1へ送信するファイル(送信ファイル)を生成し、そして、これを送信すると、後にサーバ1から抽出後データが端末3に届く。この後、端末3の表示部36に表示させる表示情報(第1表示情報及び第2表示情報)を生成して、これを表示させると、
図15に示すように左右に並んだ状態の画面表示になる。
【0113】
<抽出後データに基づく表示情報について>
図15は、抽出後データに基づく表示情報を表示部36に表示させた一例(ドキュメント先頭部分、抽出結果も先頭部分)を示す図である。
【0114】
図15において、表示エリアDA2に示すブロックBL1では、「研究開発委託契約書」がハイライト表示される(以下、ハイライト表示を四角の枠囲みで表現する。なお、符号は省略する)。即ち、「研究開発委託契約書」が自動抽出されたことが分かる。
【0115】
また、ブロックBL2では、「株式会社YYYYYYYYYYY」、「ZZZZZZZZ株式会社」がハイライト表示される。即ち、「株式会社YYYYYYYYYYY」、「ZZZZZZZZ株式会社」が自動抽出されたことが分かる。
【0116】
また、ブロックBL3では、「別紙1(省略)記載の製品(以下「本製品」という。)の製造を事業化すること」がハイライト表示される。即ち、「別紙1(省略)記載の製品(以下「本製品」という。)の製造を事業化すること」が自動抽出されたことが分かる。
【0117】
なお、ブロックBL4、ブロックBL5では、ハイライト表示がないことから、抽出がなされてないことが分かる。
【0118】
表示エリアDA2の右隣にある表示エリアDA3には、所定の順序で、自動抽出結果が図の上下方向に並んで表示される。具体的には、項目として「契約書タイトル」が表示され、項目情報として「研究開発委託契約」が表示される。
また、項目として「契約目的」が表示され、項目情報として「別紙1(省略)記載の製品(以下「本製品」という。)の製造を事業化すること」が表示される。
【0119】
また、項目として「契約元 会社名」が表示され、項目情報として「株式会社YYYYYYYYYYY」が表示される。
また、項目として「契約元 住所」が表示され、項目情報として「◎◎都◎区◎◎◎1-2-3」が表示される。
また、項目として「契約元 契約者役職名」が表示され、項目情報として「代表取締役」が表示される。
また、項目として「契約元 契約者氏名」が表示され、項目情報として「AA A」が表示される。
【0120】
また、項目として「契約先 会社名」が表示され、項目情報として「ZZZZZZZZ株式会社」が表示される。
また、項目として「契約先 住所」が表示され、項目情報として「◎◎都◎◎区◎◎◎4-5-6」が表示される。
また、項目として「契約先 契約者役職名」が表示され、項目情報として「代表取締役」が表示される。
【0121】
図16は、抽出後データに基づく表示情報を表示部36に表示させた一例(ドキュメント後尾部分、抽出結果は先頭部分)を示す図である。
表示エリアDA2の画面をスクロールすると、
図16に示すような表示状態になる。
【0122】
表示エリアDA2に示すブロックBLn-3では、「(契約期間)」、「第31条 本契約の有効期間は、本契約締結日から1年間とする。但し、契約期間満了の2ヶ月前までに、一方当事者より別段の書面による意思表示がなされない場合で、かつ、甲乙間で取引が継続している場合は、新たな期間を1年間として自動更新されるものとし、以後も同様とする。」、「2. 本契約の有効期間が終了した場合でも、第7条、第14条ないし第25条、本状本項、第27条ないし第33条の規定については、本契約終了後も存続するものとする。」が表示され、そして、「本契約締結日」、「1年間」、「契約期間満了の2ヶ月前までに、一方当事者より別段の書面による意思表示がなされない場合で、かつ、甲乙間で取引が継続している場合」、「1年間」がハイライト表示される。即ち、「本契約締結日」、「1年間」、「契約期間満了の2ヶ月前までに、一方当事者より別段の書面による意思表示がなされない場合で、かつ、甲乙間で取引が継続している場合」、「1年間」が自動抽出されたことが分かる。
【0123】
表示エリアDA2に示すブロックBLn-2では、「(準拠法・合意管轄)」、「第32条 本契約は、日本法に従って解釈されるものとする。」、「2. 甲及び乙は、本契約に関して紛争が生じた場合は、東京地方裁判所を第一審の専属的管轄裁判所とすることを合意する。」が表示され、そして、「東京地方裁判所」がハイライト表示される。即ち、「東京地方裁判所」が自動抽出されたことが分かる。
【0124】
表示エリアDA2に示すブロックBLn-1では、「(協議)」、「第33条 本契約に定めのない事項又は本契約の条項の解釈について疑義を生じたときは、甲乙協議のうえ、誠意をもって解決するよう努めるものとする。」が表示される。なお、ハイライト表示がないことから、抽出がなされてないことが分かる。
【0125】
表示エリアDA2に示すブロックBLnでは、「本契約の成立の証として本書2通を作成し、甲乙両当事者記名押印のうえ、各1通を保有する。」、「2021年5月1日」、「甲:◎◎都◎区◎◎◎1-2-3」、「株式会社YYYYYYYYYYY」、「代表取締役 AA A」、「乙:◎◎都◎◎区◎◎◎4-5-6」、「ZZZZZZZZ株式会社」、「代表取締役 BB BB」が表示され、そして、「2021年5月1日」、「◎◎都◎区◎◎◎1-2-3」、「株式会社YYYYYYYYYYY」、「代表取締役」「AA A」、「◎◎都◎◎区◎◎◎4-5-6」、「代表取締役」「BB BB」がハイライト表示される。即ち、「2021年5月1日」、「◎◎都◎区◎◎◎1-2-3」、「株式会社YYYYYYYYYYY」、「代表取締役」「AA A」、「◎◎都◎◎区◎◎◎4-5-6」、「代表取締役」「BB BB」が自動抽出されたことが分かる。
【0126】
なお、表示エリアDA2の右隣にある表示エリアDA3は、スクロールしていないことから、
図15と同じ状態である。スクロールすることにより、
図17に示す表示状態になる。
図17は、抽出後データに基づく表示情報を表示部に表示させた一例(ドキュメント後尾部分、抽出結果は中間部分)を示す図である。
【0127】
図17において、
図16の状態からスクロールすることにより、表示エリアDA3には、項目として「契約先 契約者役職名」が表示され、項目情報として「代表取締役」が表示される。
また、項目として「契約先 契約者氏名」が表示され、項目情報として「BB BB」が表示される。
また、項目として「契約日」が表示され、項目情報として「2021年4月21日」が表示される。
また、項目として「契約期間開始日」が表示され、項目情報として「本契約締結日」が表示される。なお、「本契約締結日」は、ここでは「契約日」となる「2021年4月21日」のことであることから、項目情報として「2021年4月21日」が表示されてもよいものとする。
また、項目として「契約期間終了日」が表示され、項目情報として「2022年4月30日」が表示される。
また、項目として「契約期間」が表示され、項目情報として「1年間」が表示される。
また、項目として「契約更新の条件」が表示され、項目情報として「契約期間満了の2ヶ月前までに、一方当事者より別段の書面による意思表示がなされない場合で、かつ、甲乙間で取引が継続している場合」が表示される。
【0128】
図17の状態から更にスクロールすることにより、表示エリアDA3には、
図18に示すような項目や項目情報が表示される。
図18は、抽出後データに基づく表示情報を表示部に表示させた一例(ドキュメント後尾部分、抽出結果も先頭部分)を示す図である。
【0129】
項目として「更新の契約期間」が表示され、項目情報として「1年間」が表示される。
また、項目として「自動更新の通知時期」が表示され、項目情報として「-」が表示される。なお、「-」は、該当する項目情報がなかったことを意味するが、例えば、ここをクリックすることによりサンプル例が出てきたりするようにしてもよい。
また、項目として「契約解除の通知時期」が表示され、項目情報として「契約期間満了の2ヶ月前」が表示される。なお、例えば、ここをクリックすることにより、日付が出てきたりするようにしてもよい。また、カーソルを合わせることにより、「契約期間満了の2ヶ月前」があるブロックの内容がポップアップ表示されるようにしてもよい。
そして、最後の項目として「管轄裁判所」が表示され、項目情報として「東京地方裁判所」が表示される。
なお、特に図示しないが、項目情報に対し警告情報が紐付いていた場合には、警告の対象となる項目情報が、例えば、ハイライトされた状態で表示される(一例であり、警告が出ていることが分かれば限定されないものとする)。そして、ハイライトされた項目情報を、例えば、クリック等すると、警告の具体内容が更に表示される。
【0130】
<効果について>
以上、
図2乃至
図18を参照しながら説明してきたように、本サービスによれば、ユーザー2が端末3を用いて送信したファイル(送信ファイル)のデータ種類に合う項目で項目情報の抽出(情報抽出)を自動で行うことができる。本サービスによれば、様々な項目の項目情報の抽出をユーザー2が一々手作業でする必要性がなくなることから、従来と比べて作業性の向上を図ることができる。
【0131】
<まとめ>
以上、本発明のテキスト情報抽出システム100の一実施形態について説明したが、本発明は上述した本実施形態に限定されないものとする。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果の列挙に過ぎず、本発明による効果は、本実施形態に記載されたものに限定されないものとする。
【0132】
本実施形態では、例えば、上述のように契約書に合う内容の項目で項目情報の抽出を行ってきたが、本発明の仕組みを利用すれば、例えば、文章のチェックを行うための情報抽出をすることも可能である(具体例は省略するものとする)。
【0133】
図3に示すハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されないものとする。また、
図4及び
図5に示す機能的構成も例示に過ぎず、特に限定されないものとする。即ち、上述した一連の処理を全体として実行できる機能がテキスト情報抽出システム100(サーバ1や端末3)に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に
図4及び
図5の例に限定されないものとする。
【0134】
また、機能ブロックの存在場所も、
図4及び
図5に特に限定されず、任意でよいものとする。例えば、サーバ1の機能ブロックを端末3等に適宜移譲させてもよいものとする。また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよいものとする。
【0135】
また、例えば、一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされるものとする。また、コンピュータは、専用のハードウェアに組み込まれるコンピュータであってもよいものとする。
コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバ1の他、汎用のスマートフォンやパーソナルコンピュータであってもよいものとする。
【0136】
また、例えば、このようなプログラムを含む記録媒体は、利用者にプログラムを提供するために、装置本体とは別に配布される図示しないリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態で利用者に提供される記録媒体等で構成されるものであってもよいものとする。
【0137】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理は勿論、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものとする。また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
【0138】
このようなプログラムを含む記録媒体は、ユーザーにプログラムを提供するために装置本体とは別に配布される
図3のリムーバブルメディア21により構成されるだけでなく、装置本体に予め組み込まれた状態で利用者に提供される記録媒体等で構成される。
リムーバブルメディア21は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini-Disk)等により構成される。
装置本体に予め組み込まれた状態でユーザー2に提供される記録媒体は、例えば、プログラムが記録されている
図3のROM32や、
図3の記憶部38に含まれるハードディスク等で構成される。
【0139】
以上まとめると、本発明が適用されるテキスト情報抽出システムは、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
即ち、本発明が適用されるテキスト情報抽出システム(例えば、
図2のテキスト情報抽出システム100)は、
テキストデータ(例えば、
図8のテキストデータTD)から情報抽出が可能な情報処理装置(例えば、
図2のサーバ1)と、前記情報処理装置に接続された一又は複数の端末(例えば、
図2の端末3)とを備えるテキスト情報抽出システムであって、
前記情報処理装置は、前記端末から送信された送信ファイルを受信するファイル受信手段(例えば、
図4のファイル受信処理部112)と、
前記送信ファイルがテキストファイルであるか否かを判断するテキストファイル判断手段(例えば、
図4のテキストファイル判断処理部113)と、
前記テキストファイル判断手段により前記否と判断された場合に前記送信ファイルをテキストファイル化するテキストファイル化手段(例えば、
図4のテキストファイル化処理部114)と、
前記テキストファイル判断手段により判断された、又は、前記テキストファイル化手段により前記テキストファイル化された、前記テキストファイルの前記テキストデータの中から、少なくとも1つの項目(例えば、
図9の“label”:“title”)に合う項目情報(例えば、
図9の“value”:“業務委託契約書”)を前記情報抽出する項目情報抽出手段(例えば、
図4の項目情報抽出処理部117)と、
前記項目情報抽出手段により前記情報抽出された前記項目情報を含む抽出後データを生成する抽出後データ生成手段(例えば、
図4の抽出後データ生成処理部118)と、
前記抽出後データ生成手段により生成された前記抽出後データを、前記送信ファイルを送信した前記端末に送信する抽出後データ送信手段(例えば、
図4の抽出後データ送信処理部119)と、を備える。
【0140】
本発明によれば、情報抽出をすることができ、以て作業性の向上を図ることができる。即ち、本発明は、テキストデータから情報抽出が可能な情報処理装置と、一又は複数の端末とを備えるシステムであることから、情報処理装置や、情報処理装置と端末との協働により、情報抽出をすることができる。従って、作業性の向上を図ることができる。
例えば、
図8のテキストデータTDから、項目として、例えば、
図9の“title”に合う項目情報、即ち、例えば、
図9の“業務委託契約書”を抽出することができる。従って、従来と比べ作業性の向上を図ることができる。
【0141】
また、本発明が適用されるテキスト情報抽出システムは、
前記情報処理装置は、前記テキストデータの一部または全部の内容に基づき、前記テキストデータがどのデータ種類のものであるかを特定するデータ種類特定手段(例えば、
図4のデータ種類特定処理部115)と、
前記データ種類特定手段により特定された前記データ種類に対応する前記項目を項目記憶部(例えば、
図4の項目記憶部181)に記憶された中から選択する項目選択手段(例えば、
図4の項目選択処理部116)と、を更に備える。
【0142】
本発明によれば、テキストデータがどのデータ種類のものであるか特定することができ、このデータ種類の特定によって様々な項目の中から適した項目を選択することができる。従って、作業性の向上に寄与することができる。
【0143】
また、本発明が適用されるテキスト情報抽出システムは、
前記抽出後データ生成手段は、前記項目情報に関し、前記テキストデータにおける抽出位置に関する情報(例えば、
図9の“index”:0)と、前記抽出位置からの文字長さに関する情報(例えば、
図9の“length”:7)とを紐付けた上で前記抽出後データを生成する。
【0144】
本発明によれば、項目情報に関し、テキストデータにおける抽出位置に関する情報と、抽出位置からの文字長さに関する情報とを紐付けて抽出後データを生成することから、抽出後データを受け取る側の端末では、抽出位置に関する情報と、抽出位置からの文字長さに関する情報とを利用することができる。
【0145】
また、本発明が適用されるテキスト情報抽出システムは、
前記端末は、前記抽出後データを受信する抽出後データ受信手段(例えば、
図5の抽出後データ受信処理部313)と、
前記抽出後データ受信手段により受信した前記抽出後データから前記端末の表示部に表示させる表示情報を生成する表示情報生成手段(例えば、
図5の表示情報生成処理部314)と、
前記表示情報生成手段により生成された前記表示情報を前記表示部に表示させる情報表示手段(例えば、
図5の情報表示処理部315)と、を備える。
【0146】
本発明によれば、端末側では、受信した抽出後データから端末の表示部に表示させる表示情報を生成し、そして、この表示情報を表示部に表示させることかできる。ユーザーは、表示部に表示された表示情報から、抽出した項目や項目情報を確認することができる。
【0147】
また、本発明が適用されるテキスト情報抽出システムは、
前記端末は、前記抽出後データを受信する抽出後データ受信手段(例えば、
図5の抽出後データ受信処理部313)と、
前記抽出後データ受信手段により受信した前記抽出後データから前記端末の表示部に表示させる表示情報を生成する表示情報生成手段(例えば、
図5の表示情報生成処理部314)と、
前記表示情報生成手段により生成された前記表示情報を前記表示部に表示させる情報表示手段(例えば、
図5の情報表示処理部315)と、を備え、
前記表示情報生成手段は、前記抽出位置に関する情報及び前記文字長さに関する情報を利用した第1表示情報(例えば、
図15の表示エリアDA2に表示された情報)を生成すると共に、少なくとも前記項目情報を含む第2表示情報(例えば、
図15の表示エリアDA3に表示された情報)を生成し、
前記情報表示手段は、前記表示情報生成手段により生成された前記第1表示情報及び前記第2表示情報を前記表示部に分けて表示させる。
【0148】
本発明によれば、抽出位置に関する情報及び文字長さに関する情報を利用した第1表示情報と、項目情報を含む第2表示情報とを表示部に分けて表示させることができる。従って、ユーザーによる確認のし易さ向上に寄与することができる。
【0149】
また、本発明が適用されるテキスト情報抽出システムは、
前記抽出後データ生成手段は、前記項目情報抽出手段により前記情報抽出された前記項目情報が整合性の取れた情報であるか否かを判断すると共に、前記項目情報が前記整合性の取れていない情報であると判断した場合に、前記端末において警告が出るよう前記抽出後データを生成する。
【0150】
本発明によれば、抽出後データ生成手段は、項目情報の整合性を判断した上で、不整合であれば、送信先の端末で警告を出せるように抽出後データを生成することができる。本発明によれば、項目情報の不整合をチェックすることができる。
【0151】
本発明が適用されるテキスト情報抽出方法は、
テキストデータから情報抽出が可能な情報処理装置と、前記情報処理装置に接続された一又は複数の端末とを備えるテキスト情報抽出システムが実行するテキスト情報抽出方法であって、
前記情報処理装置は、前記端末から送信された送信ファイルを受信するファイル受信ステップと、
前記送信ファイルがテキストファイルであるか否かを判断するテキストファイル判断ステップと、
前記テキストファイル判断ステップにより前記否と判断された場合に前記送信ファイルをテキストファイル化するテキストファイル化ステップと、
前記テキストファイル判断ステップにより判断された、又は、前記テキストファイル化ステップにより前記テキストファイル化された、前記テキストファイルの前記テキストデータの中から、少なくとも1つの項目に合う項目情報を前記情報抽出する項目情報抽出ステップと、
前記項目情報抽出ステップにより前記情報抽出された前記項目情報を含む抽出後データを生成する抽出後データ生成ステップと、
前記抽出後データ生成ステップにより生成された前記抽出後データを、前記送信ファイルを送信した前記端末に送信する抽出後データ送信ステップと、を含む。
【0152】
本発明によれば、テキスト情報抽出システムが実行するテキスト情報抽出方法であることから、作業性の向上を図ることができる。
【0153】
本発明が適用されるプログラムは、
テキストデータから情報抽出が可能な情報処理装置と、前記情報処理装置に接続された一又は複数の端末とを備えるテキスト情報抽出システムを制御するコンピュータに、
前記情報処理装置は、前記端末から送信された送信ファイルを受信するファイル受信ステップと、
前記送信ファイルがテキストファイルであるか否かを判断するテキストファイル判断ステップと、
前記テキストファイル判断ステップにより前記否と判断された場合に前記送信ファイルをテキストファイル化するテキストファイル化ステップと、
前記テキストファイル判断ステップにより判断された、又は、前記テキストファイル化ステップにより前記テキストファイル化された、前記テキストファイルの前記テキストデータの中から、少なくとも1つの項目に合う項目情報を前記情報抽出する項目情報抽出ステップと、
前記項目情報抽出ステップにより前記情報抽出された前記項目情報を含む抽出後データを生成する抽出後データ生成ステップと、
前記抽出後データ生成ステップにより生成された前記抽出後データを、前記送信ファイルを送信した前記端末に送信する抽出後データ送信ステップと、を含む制御処理を実行させる。
【0154】
本発明によれば、テキスト情報抽出システムを制御するコンピュータに上述の制御処理を実行させることから、情報抽出をすることができ、以て作業性の向上を図ることができる。
【符号の説明】
【0155】
1・・・サーバ
2・・・ユーザー
3・・・端末
4・・・ファイルインポート部
11・・・CPU
112・・・ファイル受信処理部(ファイル受信手段)
113・・・テキストファイル判断処理部(テキストファイル判断手段)
114・・・テキストファイル化処理部(テキストファイル化手段)
115・・・データ種類特定処理部(データ種類特定手段)
116・・・項目選択処理部(項目選択手段)
117・・・項目情報抽出処理部(項目情報抽出手段)
118・・・抽出後データ生成処理部(抽出後データ生成手段)
119・・・抽出後データ送信処理部(抽出後データ送信手段)
31・・・CPU
313・・・抽出後データ受信処理部(抽出後データ受信手段)
314・・・表示情報生成処理部(表示情報生成手段)
315・・・情報表示処理部(情報表示手段)
N・・・ネットワーク