(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-07-11
(45)【発行日】2024-07-22
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06F 40/216 20200101AFI20240712BHJP
【FI】
G06F40/216
(21)【出願番号】P 2023553154
(86)(22)【出願日】2023-08-31
(86)【国際出願番号】 JP2023032009
【審査請求日】2023-08-31
【早期審査対象出願】
(73)【特許権者】
【識別番号】516380407
【氏名又は名称】ファーストアカウンティング株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】葛 鴻鵬
(72)【発明者】
【氏名】松田 顕
(72)【発明者】
【氏名】小俣 智
(72)【発明者】
【氏名】森 啓太郎
(72)【発明者】
【氏名】早川 将和
(72)【発明者】
【氏名】藤武 将人
【審査官】長 由紀子
(56)【参考文献】
【文献】特開2023-087840(JP,A)
【文献】特開2023-072561(JP,A)
【文献】藤井 亮宏,イマドキノ 基盤モデル 今後の潮流!?超強力な汎用事前学習モデル!,コンピュータビジョン最前線 Summer 2022 ,日本,共立出版株式会社,2022年06月10日,pp.9-32
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-58
(57)【特許請求の範囲】
【請求項1】
レイアウト構造を有する文書を電子化したデータである文書データのレイアウトに応じた特徴量であって、
該文書に含まれる各項目の配置に基づいて、該文書に含まれる各項目の内容を示す特徴量を出力するように機械学習された第1学習モデルと、
(1)前記文書データに含まれる内容の処理を要しない自然言語処理タスクである汎用タスクであることを示し、かつ、実行されるべき内容を含むタスクの内容に基づいて、当該タスクを実行可能に学習されるとともに、
(2)前記文書データに依存する自然言語処理タスクであって、取得した前記文書データに含まれる内容を処理するタスクであるドキュメントタスクであることを示し、かつ、実行されるべきタスクの内容と、前記特徴量と、に基づいて、当該タスクを実行可能に学習された、
第2学習モデルと、
を記憶する記憶部と、
前記第1学習モデルに入力する文書データを取得する第1取得部と、
前記第2学習モデルに実行させるタスクの内容を取得する第2取得部と、
(1)前記第1取得部が前記文書データを取得しない場合に前記特徴量を出力せず、(2)前記第1取得部が前記
文書データを取得した場合に前記文書データを前記第1学習モデルに入力し、前記第1学習モデルが出力した特徴量を出力する
、第1出力部と、
(1)前記第1取得部が前記文書データを取得しない場合に、前記第2取得部が取得した前記タスクの内容を前記第2学習モデルに入力し、前記第2学習モデルが出力した前記汎用タスクの実行結果を出力させ、(2)前記第1取得部が前記文書データを取得した場合に、前記第1出力部が出力した
前記文書データが示す文書に含まれる各項目の内容を示す特徴量と、前記第2取得部が取得した前記タスクの内容と、を前記第2学習モデルに入力し、前記第2学習モデルが出力した前記
ドキュメントタスクの実行結果を出力させる、
、第2出力部と、
を有する、
情報処理装置。
【請求項2】
前記第1出力部は、
(1)前記第1取得部が文書データを取得しない場合には、文書データが無いことを示す所定の特徴量を出力し、
(2)前記第1取得部が文書データを取得した場合には、前記第1学習モデルが出力した特徴量を出力する、
請求項
1に記載の情報処理装置。
【請求項3】
前記記憶部は、前記第2取得部が取得したタスクの内容を入力すると、前記タスクがドキュメントタスクであるか汎用タスクであるかを示す情報を出力する学習済みモデルである判定学習モデルをさらに記憶し、
前記第2取得部が取得したタスクの内容を前記判定学習モデルに入力し、前記タスクがドキュメントタスクであるか否かを判定するとともに、前記第1取得部が文書データを取得したか否かを判定する第3出力部であって、
(1)前記タスクの内容が文書データに依存する自然言語処理タスクであるドキュメントタスクであることを示し、かつ、
(2)前記第1取得部が文書データを取得しない場合に、
文書データが入力されないことを示す所定の情報を出力する
前記第3出力部をさらに有する、
請求項
1に記載の情報処理装置。
【請求項4】
前記記憶部は、
(1)
前記第2取得部が取得したタスクの内容を入力すると、前記タスクがドキュメントタスクであるか汎用タスクであるかを示す情報を出力する学習済みモデルである第1判定学習モデルと、
(2)前記第1出力部が出力した前記特徴量と、前記第2取得部が取得した前記タスクの内容と、を入力として、前記文書データと前記タスクの実行に必要な文書とが一致するか否かを出力するよう学習した学習済みモデルである第2判定学習モデルと、
を記憶し、
(1)前記第2取得部が取得したタスクの内容を前記第1判定学習モデルに入力し、前記タスクがドキュメントタスクであるか否かを判定するとともに、
(2)前記第1出力部が出力した前記特徴量と、前記第2取得部が取得した前記タスクの内容と、を前記第2判定学習モデルに入力し、前記第2判定学習モデルの出力に基づいて前記第1取得部が前記タスクの内容において必要な文書であるか否かを判定する第3出力部であって、
前記タスクの内容が文書データに依存する自然言語処理タスクであるドキュメントタスクであることを示し、かつ、前記第1取得部が取得した文書データが、前記タスクの内容において必要な文書と異なる場合に、必要な文書が取得されないことを示す所定の情報を出力する
前記第3出力部をさらに有する、
請求項1又は2に記載の情報処理装置。
【請求項5】
コンピュータが実行する、
レイアウト構造を有する文書を電子化したデータである文書データのレイアウトに応じた
特徴量であって、
該文書に含まれる各項目の配置に基づいて、該文書に含まれる各項目の内容を示す特徴量を出力するように機械学習された第1学習モデルに入力する文書データを取得する第1取得ステップと、
自然言語処理タスクを実行するように機械学習された第2学習モデルに実行させるタスクの内容を取得する第2取得ステップと、
(1)
前記第1取得ステップにおいて前記文書データを取得されない場合に前記特徴量を出力せず、(2)前記第1取得ステップにおいて前記文書データが取得された場合に前記文書データを記憶部が記憶する前記第1学習モデルに入力し、前記第1学習モデルが出力した
特徴量を出力する
、第1出力ステップと、
(1)
前記第1取得ステップにおいて前記文書データが取得されない場合に、前記第2取得ステップにおいて取得された前記タスクの内容を前記第2学習モデルに入力し、前記第2学習モデルが出力した汎用タスクの実行結果を出力させ、(2)前記第1取得ステップにおいて前記文書データが取得された場合に、前記第1出力ステップにおいて出力された
前記文書データが示す文書に含まれる各項目の内容を示す特徴量と、前記第2取得ステップにおいて取得された前記タスクの内容と、を記憶部が記憶する前記第2学習モデルに入力し、前記第2学習モデルが出力した
ドキュメントタスクの実行結果を出力させる、第2出力ステップと
、
を有し、
前記第2学習モデルは、
(1)
前記文書データに依存する自然言語処理タスクであって、取得した前記文書データに含まれる内容を処理するタスクであるドキュメントタスクであることを示し、かつ、実行されるべきタスクの内容と、前記特徴量と、に基づいて、当該タスクを実行可能に学習されるとともに、
(2)前記文書データに含まれる内容の処理を要しない自然言語処理タスクである汎用タスクであることを示し、かつ、実行されるべき内容を含むタスクの内容に基づいて、当該タスクを実行可能に学習された、
学習済みモデルである、
情報処理方法。
【請求項6】
コンピュータに、
レイアウト構造を有する文書を電子化したデータである文書データのレイアウトに応じた
特徴量であって、
該文書に含まれる各項目の配置に基づいて、該文書に含まれる各項目の内容を示す特徴量を出力するように機械学習された第1学習モデルに入力する文書データを取得する第1取得ステップと、
自然言語処理タスクを実行するように機械学習された第2学習モデルに実行させるタスクの内容を取得する第2取得ステップと、
(1)
前記第1取得ステップにおいて前記文書データを取得されない場合に前記特徴量を出力せず、(2)前記第1取得ステップにおいて前記文書データが取得された場合に前記文書データを記憶部が記憶する前記第1学習モデルに入力し、前記第1学習モデルが出力した
特徴量を出力する
、第1出力ステップと、
(1)
前記第1取得ステップにおいて前記文書データが取得されない場合に、前記第2取得ステップにおいて取得された前記タスクの内容を前記第2学習モデルに入力し、前記第2学習モデルが出力した汎用タスクの実行結果を出力させ、(2)前記第1取得ステップにおいて前記文書データが取得された場合に、前記第1出力ステップにおいて出力された
前記文書データが示す文書に含まれる各項目の内容を示す特徴量と、前記第2取得ステップにおいて取得された前記タスクの内容と、を記憶部が記憶する前記第2学習モデルに入力し、前記第2学習モデルが出力した
ドキュメントタスクの実行結果を出力させる、第2出力ステップと、
を有し、
前記第2学習モデルは、
(1)
前記文書データに依存する自然言語処理タスクであって、取得した前記文書データに含まれる内容を処理するタスクであるドキュメントタスクであることを示し、かつ、実行されるべきタスクの内容と、前記特徴量と、に基づいて、当該タスクを実行可能に学習されるとともに、
(2)前記文書データに含まれる内容の処理を要しない自然言語処理タスクである汎用タスクであることを示し、かつ、実行されるべき内容を含むタスクの内容に基づいて、当該タスクを実行可能に学習された、
学習済みモデルである、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
機械学習された学習済みモデルにより自然言語処理のタスクを実行するシステムが知られている(例えば特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
既存技術による自然言語処理システムにおいては、例えば請求書等のように文書のレイアウト構造があり情報が配置されている位置が意味を有している文書に記載された内容を処理するようなタスクについては精度が向上しにくい問題が生じていた。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、レイアウト構造を有する文書の意味の認識を要するタスクの精度を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の情報処理装置においては、文書を電子化したデータである文書データのレイアウトに応じた特徴量であって、該文書データの内容に対応する特徴を示す特徴量を出力するように機械学習された第1学習モデルと、自然言語処理タスクを実行するように機械学習された第2学習モデルと、を記憶する記憶部と、前記第1学習モデルに入力する文書データを取得する第1取得部と、前記第2学習モデルに実行させるタスクの内容を取得する第2取得部と、前記第1取得部が取得した文書データを前記第1学習モデルに入力し、前記第1学習モデルが出力した特徴量を出力させる第1出力部と、前記第1出力部が出力した特徴量と、前記第2取得部が取得した前記タスクの内容と、を前記第2学習モデルに入力し、前記第2学習モデルが出力した前記タスクの実行結果を出力させる第2出力部と、を有する。
【0007】
前記第2学習モデルは、(1)文書データに依存しない自然言語処理タスクである汎用タスクであることを示すタスクの内容に基づいて、当該タスクを実行可能に学習されるとともに、(2)文書データに依存する自然言語処理タスクであるドキュメントタスクであることを示すタスクの内容と、前記特徴量と、に基づいて、当該タスクを実行可能に学習されていてもよい。
【0008】
前記第1出力部は、(1)前記第1取得部が文書データを取得しない場合には、前記特徴量を出力せず、前記第2出力部は、前記第2取得部が取得した前記タスクの内容を前記第2学習モデルに入力し、前記第2学習モデルが出力した前記タスクの実行結果を出力させ、(2)前記第1取得部が文書データを取得した場合には、前記第1学習モデルが出力した特徴量を出力し、第2出力部は、前記第1出力部が出力した特徴量と、前記第2取得部が取得した前記タスクの内容と、を前記第2学習モデルに入力し、前記第2学習モデルが出力した前記タスクの実行結果を出力させてもよい。
【0009】
前記第1出力部は、(1)前記第1取得部が文書データを取得しない場合には、文書データが無いことを示す所定の特徴量を出力し(2)、前記第1取得部が文書データを取得した場合には、前記第1学習モデルが出力した特徴量を出力してもよい。
【0010】
(1)前記タスクの内容が文書データに依存する自然言語処理タスクであるドキュメントタスクであることを示し、かつ、(2)前記第1取得部が文書データを取得しない場合、文書データが入力されないことを示す所定の情報を出力する第3出力部をさらに有してもよい。
【0011】
(1)前記タスクの内容が文書データに依存する自然言語処理タスクであるドキュメントタスクであることを示し、かつ、(2)前記第1取得部が取得した文書データが、前記タスクの内容において必要な文書と異なる場合に、必要な文書が取得されないことを示す所定の情報を出力する第3出力部をさらに有してもよい。
【0012】
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、文書を電子化したデータである文書データのレイアウトに応じた、該文書データの内容に対応する特徴を示す特徴量を出力するように機械学習された第1学習モデルに入力する文書データを取得する第1取得ステップと、自然言語処理タスクを実行するように機械学習された第2学習モデルに実行させるタスクの内容を取得する第2取得ステップと、前記第1取得ステップにおいて取得された文書データを、記憶部が記憶する前記第1学習モデルに入力し、前記第1学習モデルが出力した、文書データの内容に対応する特徴量を出力させる第1出力ステップと、前記第1出力ステップにおいて出力された特徴量と、前記第2取得ステップにおいて取得されたタスクの内容と、を記憶部が記憶する前記第2学習モデルに入力し、前記第2学習モデルが出力した前記タスクの実行結果を出力させる第2出力ステップと、を有する。
【0013】
本発明の第3の態様のプログラムにおいては、コンピュータに、文書を電子化したデータである文書データのレイアウトに応じた、該文書データの内容に対応する特徴を示す特徴量を出力するように機械学習された第1学習モデルに入力する文書データを取得する第1取得ステップと、自然言語処理タスクを実行するように機械学習された第2学習モデルに実行させるタスクの内容を取得する第2取得ステップと、前記第1取得ステップにおいて取得された文書データを、記憶部が記憶する前記第1学習モデルに入力し、前記第1学習モデルが出力した、文書データの内容に対応する特徴量を出力させる第1出力ステップと、前記第1出力ステップにおいて出力された特徴量と、前記第2取得ステップにおいて取得されたタスクの内容と、を記憶部が記憶する前記第2学習モデルに入力し、前記第2学習モデルが出力した前記タスクの実行結果を出力させる第2出力ステップと、を実行させる。
【発明の効果】
【0014】
本発明によれば、レイアウト構造を有する文書の意味の認識を要するタスクの精度を向上させることができる。
【図面の簡単な説明】
【0015】
【
図1】情報システムSの概要を説明するための図である。
【
図2】情報処理装置1の構成を示すブロック図である。
【
図3】第1取得部131が取得する文書データの一例を示す図である。
【
図4】第2取得部133が表示させる受付画面の一例を示す図である。
【
図5】情報処理装置1における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0016】
[情報処理システムSの概要]
図1は、情報処理システムSの概要を説明する図である。情報処理システムSは、機械学習モデルを用いて自然言語を対象とした処理を実行するためのシステムである。情報処理システムSは、情報処理装置1及び情報端末2を有する。
【0017】
情報処理装置1は、AI(Artificial Intelligence)に自然言語処理タスクを実行させ、その結果を出力させる装置である。情報処理装置1は、例えばサーバである。
【0018】
情報端末2は、情報処理システムSのユーザが使用する端末装置である。情報端末2は、例えば、パーソナルコンピュータ、タブレット又はスマートフォンである。
【0019】
情報処理システムSにおける処理について説明する。情報処理装置1は、情報端末2から文書データD1を取得する。文書データD1は、文書の電子データである。文書データD1は、文書を画像化した画像データであってもよい。情報処理装置1は、タスクD2を取得する。タスクD2は、情報処理装置1に実行させるタスクの内容を示すテキストデータである。
【0020】
情報処理装置1は、文書データD1を第1学習モデルM1に入力し、特徴量D3を出力させる。第1学習モデルM1は、入力された文書データD1が示す文書内における文字列の配置を加味した文書データD1の内容を示す特徴量D3を出力するよう学習されている。第1学習モデルM1は、一例として、既知のLayout LM(Language Model)の手法により、文書データD1の内容を示す特徴量D3を抽出する。
【0021】
図2は、情報処理装置1が取得する文書データD1の一例を示す図である。
図2に示す文書データD1が入力された場合、一例として、第1学習モデルM1は、文書のレイアウトに基づいて、(1)項目I1に記載された「AAA株式会社 管理部」は請求書の宛先であること、(2)項目I2に記載された「S1000224」は請求書の番号であること、(3)項目I3に記載された「2023年1月31日」は請求書の発行日であること、(4)項目I4に記載された情報は請求書の発行者の名称、住所、電話番号、FAX番号であること、(5)項目I5に記載された情報は、当該請求書が対象とする取引内容を示すこと、(6)項目I6に記載された情報は振込先の情報であること、を含む特徴量D3を出力する。
【0022】
情報処理装置1は、特徴量D3と、タスクD2と、を第2学習モデルM2に入力する。第2学習モデルM2は、文章生成、翻訳、情報抽出、質問応答等の自然言語処理タスクを実行可能に学習された学習済みモデルである。情報処理装置1は、第2学習モデルM2が出力したタスクの実行結果を情報端末2に表示させる。
【0023】
このように構成されることで、情報処理システムSにおいては、レイアウト構造を有する文書の意味の認識を要するタスクの精度を向上させることができる。
【0024】
[情報処理装置1の構成]
図3は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、通信部11、記憶部12及び制御部13を有する。制御部13は、第1取得部131、第1出力部132、第2取得部133、第2出力部134及び第3出力部135を有する。
【0025】
通信部11は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)、ハードディスクドライブ等を含む記憶媒体である。記憶部12は、制御部13が実行するプログラムを予め記憶している。
【0026】
記憶部12は、第1学習モデルM1及び第2学習モデルM2を記憶する。第1学習モデルM1は、文書を電子化したデータである文書データD1のレイアウトに応じた特徴量であって、文書データD1の内容に対応する特徴を示す特徴量D3を出力するように機械学習された学習モデルである。
【0027】
第2学習モデルM2は、自然言語処理タスクを実行するように機械学習された学習モデルである。第2学習モデルM2は、既知のLLM(Large Language Models)により構成されていてもよい。第2学習モデルM2は、タスクの内容を示すテキストデータが入力されると、取得したテキストデータが示すタスクに対応するテキストを出力する。
【0028】
制御部13は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部13は、記憶部12に記憶されたプログラムを実行することにより、第1取得部131、第1出力部132、第2取得部133、第2出力部134及び第3出力部135として機能する。
【0029】
第1取得部131は、第1学習モデルM1に入力する文書データD1を取得する。第1取得部131は、情報端末2から文書データD1を取得する。後述するように、第1取得部131は、第2取得部133が情報端末2に表示した画面を介して文書データD1を取得してもよい。
【0030】
第1出力部132は、第1取得部131が取得した文書データD1を第1学習モデルM1に入力し、第1学習モデルM1が出力した特徴量D3を出力させる。第1出力部132は、第1学習済みモデルM1が出力した特徴量D3を第2出力部134に出力する。
【0031】
第2取得部133は、第2学習モデルM2に実行させるタスクの内容を取得する。第2取得部133は、自然言語で記述されたタスクの内容を示すテキストデータを取得する。一例として、第2取得部133は、情報端末2に入力データを受付けるための入力画面を表示させ、受付画面において入力されたタスクD2を取得する。
図4は、第2取得部133が表示させる受付画面の一例を示す図である。受付画面においては、文書データD1を入力するためのオブジェクトO1、情報処理装置1に実行させるタスクD2を入力するためのオブジェクトO2、入力したタスクの実行を指示するための実行ボタンO3及びタスクの実行結果を表示するためのオブジェクトO4が配置されている。
【0032】
オブジェクトO1は、ファイルを入力するためのドロップゾーンである。ユーザは、オブジェクトO1に入力する文書ファイルをドラッグすることで文書ファイルを選択する。オブジェクトO2は、テキストを入力するためのテキストエリアである。実行ボタンO3は、オブジェクトO1で選択した文書ファイル及びオブジェクトO2に入力したテキストを情報処理装置1に送信するためのボタンである。オブジェクトO4は、第2出力部134が出力した情報を表示するための表示欄である。
【0033】
第2出力部134は、第1出力部132が出力した特徴量D3と、第2取得部133が取得したタスクの内容と、を第2学習モデルM2に入力し、第2学習モデルM2が出力したタスクの実行結果を出力させる。一例として、第2出力部134は第2取得部133が取得したタスクを示すテキストデータを単語ごとに分解し、各単語を表現するベクトルデータ(特徴量)を、単語の出現順に格納した配列を生成する。そして、第2出力部134は、第1出力部132が出力した特徴量D3を先頭に格納し、次に、テキストデータから生成した配列に含まれるベクトルデータをその後に格納した配列を第2学習モデルM2に入力し、タスクの実行結果を出力させる。第2出力部134は、第2学習モデルM2が出力した情報を情報端末2に表示させる。より具体的には、第2出力部134は、第2学習モデルM2が出力したテキストを
図4に示す表示画面のオブジェクトO4に表示させる。
【0034】
情報処理装置1がこのように構成されることで、レイアウト構造を有する文書の意味の認識を要するタスクの精度を向上させることができる。また、第1学習済みモデルをレイアウトに依存する文書の読取を要するタスクごとに転移学習をさせる必要がないため、複数のタスクを実行させることができ、学習の負担・モデルの使用リソースを軽減することができる。
【0035】
情報処理装置1においては、文書データD1の入力を必要としないタスクを実行するよう構成されてもよい。以下では、文書データD1に依存しないタスクを「汎用タスク」と言い、文書データD1に依存するタスクを「ドキュメントタスク」と言う。汎用タスクは、例えば、入力された文書の要約や機械翻訳等である。汎用タスクの場合は、第2取得部133が取得するタスクD2に処理対象のテキストが含まれていてもよい。ドキュメントタスクは、例えば、文書ファイルに記載された情報の抽出やグラフの読取等である。
【0036】
第2学習モデルM2は、汎用タスクであることを示すタスクD2の内容に基づいて、当該タスクを実行可能に学習されている。また、第2学習モデルM2は、ドキュメントタスクであることを示すタスクD2の内容と、特徴量D3と、に基づいて、当該タスクを実行可能に学習される。
【0037】
第1出力部132は、第1取得部131が文書データD1を取得しない場合には、特徴量D3を出力せず、第2出力部134は、第2取得部133が取得したタスクD2の内容を第2学習モデルM2に入力し、第2学習モデルM2が出力したタスクD2の実行結果を出力させる。すなわち、
図4に示す画面において文書ファイルが選択されずにオブジェクトO3を押す操作がされた場合、第1取得部131は、文書データD1を取得せず、第2出力部134は、オブジェクトO2に入力されたタスクD2を示すテキストを第2学習モデルM2に入力する。この場合、第1出力部132は、特徴量D3を出力しないため、第2出力部134は、第1出力部132が出力する特徴量D3を第2学習モデルM2に入力しない。
【0038】
なお、前述したとおり、第1出力部132は、第1取得部131が文書データD1を取得した場合には、第1学習モデルM1が出力した特徴量D3を出力し、第2出力部134は、第1出力部132が出力した特徴量D3と、第2取得部133が取得したタスクD2の内容と、を第2学習モデルM2に入力し、第2学習モデルM2が出力したタスクD2の実行結果を出力させる。
【0039】
情報処理装置1がこのように構成されることにより、単一の学習モデルにより汎用タスク及びドキュメントタスクの両方が実行可能になり、学習用データの収集や学習処理の手間を低減させることが可能となる。
【0040】
実行対象のタスクが汎用タスクの場合には、予め取り決められた特徴量を第2学習モデルに入力するよう情報処理装置1が構成されてもよい。
【0041】
第1出力部132は、第1取得部131が文書データD1を取得しない場合には、所定の特徴量を出力する。所定の特徴量は、文書データD1が取得されない場合に第2学習モデルM2に入力することが予め取り決められた値を含む特徴量である。所定の特徴量は、例えば「0」である。
図4に示す画面において、文書データD1が選択されずに、実行ボタンO3が押され、第1取得部131が文書データD1を取得せずに第2取得部133がタスクD2を受付けた場合、第1出力部132は、所定の特徴量を出力する。また、この場合の第2学習モデルM2は、汎用タスクを示すタスクD2と、所定の特徴量と、を入力として、汎用タスクを示すタスクD2を実行するよう学習されている。なお、第1出力部132は、第1取得部131が文書データD1を取得した場合には、文書データに基づいて第1学習モデルM1が出力した特徴量D3を出力する。
【0042】
情報処理装置1がこのように構成されることで、単一の学習モデルにより汎用タスク及びドキュメントタスクの両方が実行可能になる。
【0043】
ドキュメントタスクであるタスクの実行が指示された場合であって入力された文書データがタスクの実行に必要な文書データと異なる場合、アラートを出力するよう情報処理装置1が構成されてもよい。
【0044】
第3出力部135は、下記の2つの条件を満たす場合に、文書データが入力されないことを示す所定の情報を出力する。第3出力部135は、後述する条件を満たす場合に、文書データD1が出力されないことの注意を促す画面を情報端末2に表示させる。
【0045】
第1の条件は、タスクD2の内容がドキュメントタスクであることを示すことである。第3出力部135は、ドキュメントタスクであるか汎用タスクであるかを判定する。一例として、記憶部12は、タスクD2を入力すると、入力されたタスクD2がドキュメントタスクであるか汎用タスクであるかを出力する学習済みモデルである判定学習モデルを記憶していてもよい。この場合、第3出力部135は、タスクD2を判定学習モデルに入力することで第2取得部133が取得したタスクD2がドキュメントタスクであるか汎用タスクであるかを判定する。
【0046】
第2の条件は、第1取得部131が文書データD1を取得しないことである。第1取得部131が文書データD1を取得しない場合は、一例として、
図4に示す画面において文書データD1が選択されずに実行ボタンO3が操作された場合である。すなわち、入力されたタスクD2がドキュメントタスクであると第3出力部135が判定した場合であり、かつ、第1取得部131が文書データD1を取得しない場合、情報端末2に所定の情報を出力する。
【0047】
情報処理装置1がこのように構成されることで、必要な情報が不足している場合にユーザに注意を促すことができる。
【0048】
入力された文書データが入力されたタスクの内容とマッチしない場合にアラートを出力するよう情報処理装置1が構成されてもよい。
【0049】
第3出力部135は、下記の2つの条件を満たす場合に必要な文書が取得されないことを示す所定の情報を出力する。第3出力部135は、後述する条件を満たす場合に、入力された文書データD1がタスクの実行に必要なファイルと異なるため確認するよう促す画面を情報端末2に表示させる。
【0050】
第1の条件は、タスクD2の内容がドキュメントタスクであることである。第2の条件は、第1取得部131が取得した文書データD1が、タスクD2を実行するために必要な文書と異なることである。一例として、第2取得部133が取得したタスクの内容が「請求書の請求額を抽出する」ことであることに対して、第1取得部131が取得した文書データが納品書である場合に第2の条件を満たす。一例として、記憶部12は、第1出力部132が出力した特徴量D3と、第2取得部133が取得したタスクD2と、を入力として、文書データD1とタスクD2の実行に必要な文書とが一致するか否かを出力するよう学習した学習済みモデルを記憶している。第3出力部135は、第1出力部132が出力した特徴量D3と、第2取得部133が取得したタスクD2と、を学習済みモデルに入力し、出力された情報に基づいて、文書データD1とタスクD2の実行に必要な文書とが一致するか否かを判定する。
【0051】
情報処理装置1がこのように構成されることで、入力された文書データがタスクと一致しない場合にユーザに注意を促すことができる。
【0052】
[情報処理装置1における処理の流れ]
図5は、情報処理装置1における処理の流れを示すフローチャートである。
図5に示す処理は、情報端末2から受付画面の表示要求を受け付けた時点から開始している。
【0053】
第2取得部133は、受付画面を表示させる(S01)。第1取得部131及び第2取得部133は、受付画面に入力された情報を取得する(S02)。第2取得部133は、受付画面において入力されたタスクD2を取得する。また、第1取得部131は、受付画面において文書ファイルD2が選択されている場合、入力された文書ファイルD1を取得する。第3出力部135は、取得したタスクD2の内容がドキュメントタスクであるか否かを判定する(S03)。
【0054】
取得したタスクD2がドキュメントタスクでない場合(S03におけるNO)、第2出力部134は、タスクD2を第2学習モデルM2に入力し、実行結果を出力させる(S04)。そして情報処理装置1は、処理をS09に進める。
【0055】
取得したタスクD2がドキュメントタスクである場合(S03におけるYES)、第1取得部131は、文書データD1を取得したか否かを判定する(S05)。
【0056】
文書データD1を取得しない場合(S05におけるNO)、文書データD1が入力されないことの注意を促すアラートを出力し(S06)、情報処理装置1は処理を終了する。
【0057】
文書データD1を取得した場合(S05におけるYES)、第1出力部132は、文書データD1を第1学習モデルM1に入力し、特徴量D3を出力させる(S07)。第1出力部132は、特徴量D3と、タスクD2と、を第2学習モデルM2に入力し、タスクの実行結果を出力させる(S08)。
【0058】
第2出力部134は、第2学習モデルM2が出力した実行結果を受付画面に表示させる(S09)。そして、情報処理装置1は、処理を終了する。
【0059】
以上、実施の形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0060】
1 情報処理装置
2 情報端末
11 通信部
12 記憶部
13 制御部
131 第1取得部
132 第1出力部
133 第2取得部
134 第2出力部
135 第3出力部
【要約】
文書を電子化したデータである文書データのレイアウトに応じた特徴量であって、該文書データの内容に対応する特徴を示す特徴量を出力するように機械学習された第1学習モデルと、自然言語処理タスクを実行するように機械学習された第2学習モデルと、を記憶する記憶部12と、第1学習モデルに入力する文書データを取得する第1取得部131と、第2学習モデルに実行させるタスクの内容を取得する第2取得部133と、第1取得部131が取得した文書データを第1学習モデルに入力し、第1学習モデルが出力した特徴量を出力させる第1出力部132と、第1出力部132が出力した特徴量と、第2取得部133が取得したタスクの内容と、を第2学習モデルに入力し、第2学習モデルが出力したタスクの実行結果を出力させる第2出力部134と、を有する、情報処理装置1である。