特開2024-36780 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特開2024-36780回答生成装置、機械学習方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024036780

(43)【公開日】2024-03-18

(54)【発明の名称】回答生成装置、機械学習方法、及びプログラム

(51)【国際特許分類】

G06F 16/90 20190101AFI20240311BHJP

【ＦＩ】

G06F16/90 100

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022141243

(22)【出願日】2022-09-06

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り２０２２年３月７日に言語処理学会第２８回年次大会（予稿集）にて公開２０２１年９月１７日にＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＵｎｄｅｒｓｔａｎｄｉｎｇ（ＩＣＤＡＲ２０２１）及びＹｏｕＴｕｂｅウェブサイトにて公開

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】田中涼太

(72)【発明者】

【氏名】西田京介

(72)【発明者】

【氏名】許俊杰

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175DA02

5B175EA01

(57)【要約】

【課題】本開示は、文書画像内に直接の数値情報に係る回答正解情報が含まれていない場合であっても、より正確な回答を生成することを目的とする。
【解決手段】本開示は、文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置３ａであって、前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード部と、前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報の算術演算過程の出力確率分布情報を出力するデコード部と、前記回答情報の出力確率分布情報及び前記算術演算過程の出力確率分布情報、並びに正解回答情報及び正解算術演算過程に基づいて、前記エンコード部及び前記デコード部の処理を行うためのニューラルネットワークのモデルパラメータの学習を行うパラメータ学習部と、を有する回答生成装置３ａである。
【選択図】図４

【特許請求の範囲】

【請求項1】

文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置であって、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード部と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報に対応する算術演算過程の出力確率分布情報を出力するデコード部と、
前記回答情報の出力確率分布情報及び前記算術演算過程の出力確率分布情報、並びに正解回答情報及び正解算術演算過程に基づいて、前記エンコード部及び前記デコード部の処理を行うためのニューラルネットワークのモデルパラメータの学習を行うパラメータ学習部と、
を有する回答生成装置。

【請求項2】

請求項１に記載の回答生成装置であって、
異なった算術演算過程を示す複数のテンプレートのうち、当該複数のテンプレートのそれぞれに対して前記テキスト情報における文書テキスト系列から抽出した数値データを代入した計算結果と前記正解回答情報が同様の値になるように所定のテンプレートを特定することで、前記正解回答情報に対応する前記正解算術演算過程を生成する所定の算術演算過程情報を生成するデータ拡張部を有する、回答生成装置。

【請求項3】

文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置であって、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード部と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報に対応する算術演算過程の出力確率分布情報を出力するデコード部と、
を有し、
前記エンコード部及び前記デコード部は、予め学習済みのモデルパラメータを用い、前記文書画像及び前記質問文に基づいて、前記回答情報の出力確率分布情報を出力する処理を含み、
前記回答情報の出力確率分布情報に基づいて、前記回答情報を生成するテキスト生成部、を有する回答生成装置。

【請求項4】

文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置が実行する械学習方法であって、
前記回答生成装置は、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード処理と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報に対応する算術演算過程の出力確率分布情報を出力するデコード処理と、
前記回答情報の出力確率分布情報及び前記算術演算過程の出力確率分布情報、並びに正解回答情報に基づいて、前記エンコード処理及び前記デコード処理を行うためのニューラルネットワークのモデルパラメータの学習を行うパラメータ学習処理と、
を実行する機械学習方法。

【請求項5】

コンピュータに、請求項１又は２に記載の回答生成装置を実現させるプログラム。

【請求項6】

コンピュータに、請求項３に記載の回答生成装置を実現させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答情報を生成する技術に関する。

【背景技術】

【0002】

質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答テキストを生成する質問応答技術がある（非特許文献１、非特許文献２）。これらの従来のシステムでは、学習データを{文書画像、質問文、正解回答情報}の３つ組とする。そして、従来のシステムは、まず、文書画像に対して、テキスト抽出および文書領域(Title, Paragraph, Captionなど)の抽出を行い、テキスト、文書におけるテキスト領域の座標、及びアイコン等の視覚情報を獲得する。次に、従来のシステムは、文書画像から獲得した情報および与えられた質問文を入力とし、回答の生成を行うように学習を行う。一方、このように学習したモデルは、文書画像に含まれる数値情報を理解して算術演算を行う能力が低い性能であることが指摘されている（非特許文献３）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Powalski Rafal, Borchmann Lukasz, Jurkiewicz Dawid, Dwojak Tomasz, Pietruszka Michal, Palka Gabriela: Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer. ICDAR21

【非特許文献2】Ryota Tanaka, Kyosuke Nishida, Sen Yoshida: VisualMRC: Machine Reading Comprehension on Document Images. AAAI21

【非特許文献3】Mathew Minesh, Bagal Viraj, Tito Ruben Perez, Karatzas Dimosthenis, Valveny Ernest, Jawahar, C. V: InfographicVQA. WACV22

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、文書画像に含まれる数値データを理解して算術演算を行う能力が低い性能であることが指摘されている（非特許文献３）。例えば、図７に示すように、文書画像内に円グラフの一領域として「60％」の数値情報が示されている場合、同じ円グラフの他領域として「40％」の数値情報は示されていない。そのため、正解回答情報が「40％」の場合、従来のシステムは文書画像から正解回答情報を出力することができない。

【0005】

本発明は、上述の点に鑑みてなされたものであって、文書画像内に直接の数値情報に係る回答正解情報が含まれていない場合であっても、回答情報を生成することを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するため、請求項１に係る発明は、文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置であって、前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード部と、前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報の算術演算過程の出力確率分布情報を出力するデコード部と、前記回答情報の出力確率分布情報及び前記算術演算過程の出力確率分布情報、並びに正解回答情報及び正解算術演算過程に基づいて、前記エンコード部及び前記デコード部の処理を行うためのニューラルネットワークのモデルパラメータの学習を行うパラメータ学習部と、を有する回答生成装置である。

【発明の効果】

【0007】

以上説明したように本発明によれば、文書画像内に直接の数値情報に係る回答正解情報が含まれていない場合であっても、より正確な回答情報を生成することができるという効果を奏する。

【図面の簡単な説明】

【0008】

【図1】本実施形態に係る通信システムの全体構成図である。

【図2】本実施形態に係る回答生成装置の電気的なハードウェア構成図である。

【図3】本実施形態に係る通信端末の電気的なハードウェア構成図である。

【図4】第１の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。

【図5】質問文、文書画像、及び正解回答情報の例を示す図である。

【図6】第１の実施形態に係り、系列変換部の詳細な構成図である。

【図7】第１の実施形態に係り、推論フェーズにおける回答生成装置の機能構成図である。

【図8】第１の実施形態に係り、学習フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。

【図9】第１の実施形態に係り、推論フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。

【図10】第２の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。

【図11】第２の実施形態に係り、正解配置関係導出部の処理の概念図である。

【図12】第２の実施形態に係り、系列変換部の詳細な構成図である。

【図13】第２の実施形態に係り、推論フェーズにおける回答生成装置の機能構成図である。

【図14】第２の実施形態に係り、学習フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。

【図15】第２の実施形態に係り、学習フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。

【図16】第１、第２の実施形態に係り、実験結果を示す表である。

【発明を実施するための形態】

【0009】

以下、図面に基づいて本発明の実施形態を説明する。

【0010】

●第１の実施形態
まずは、図１乃至図９を用いて、本発明の第１の実施形態について説明する。なお、第１の実施形態に係る回答生成装置３ａは、上述のように質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答情報を生成する従来技術に対して、特定の改善を提供するものであり、ニューラルネットワークを用いた回答情報の生成に係る技術分野の向上を示すものである。

【0011】

〔実施形態のシステム構成〕
まず、図１を用いて、本実施形態の通信システムの全体構成について説明する。図１は、本実施形態に係る通信システムの全体構成図である。

【0012】

図１に示されているように、本実施形態の通信システム１は、回答生成装置３、及び通信端末５によって構築されている。通信端末５は、ユーザによって管理及び使用される。ユーザは、回答生成装置の出力結果を参照して、その後の対応を判断する者である。

【0013】

また、回答生成装置３と通信端末５は、インターネット等の通信ネットワーク１００を介して通信することができる。通信ネットワーク１００の接続形態は、無線又は有線のいずれでも良い。

【0014】

回答生成装置３は、単数又は複数のコンピュータによって構成されている。回答生成装置３が複数のコンピュータによって構成されている場合には、「回答生成装置」と示しても良いし、「回答生成システム」と示しても良い。

【0015】

回答生成装置３は、図５に示すように、文章画像内に直接の数値情報(例えば「40％」)に係る回答正解情報が含まれていない場合であっても、「100％－＊％＝」（＊は変数）等のテンプレートを用いて、算術演算の過程を示す算術演算過程情報を自動で生成することで、数値情報の理解能力を向上させる。なお、例えば、文章画像から抽出された全ての数値がテンプレートの「＊」に代入される。

【0016】

通信端末５は、コンピュータであり、図１では、一例としてノート型パソコンが示されている。図１では、ユーザが、通信端末５を操作する。なお、通信端末５を用いずに、回答生成装置３単独で処理をしてもよい。

【0017】

〔ハードウェア構成〕
＜回答生成装置のハードウェア構成＞
次に、図２を用いて、回答生成装置３の電気的なハードウェア構成を説明する。図２は、回答生成装置の電気的なハードウェア構成図である。

【0018】

回答生成装置３は、コンピュータとして、図２に示されているように、プロセッサとしてのＣＰＵ(Central Processing Unit)３０１、ＲＯＭ(Read Only Memory)３０２、ＲＡＭ(Random Access Memory)３０３、ＳＳＤ(Solid State Drive)３０４、外部機器接続Ｉ／Ｆ(Interface)３０５、ネットワークＩ／Ｆ３０６、メディアＩ／Ｆ３０９、及びバスライン３１０を備えている。

【0019】

これらのうち、ＣＰＵ３０１は、回答生成装置３全体の動作を制御する。ＲＯＭ３０２は、ＩＰＬ(Initial Program Loader)等のＣＰＵ３０１の駆動に用いられるプログラムを記憶する。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。

【0020】

ＳＳＤ３０４は、ＣＰＵ３０１の制御に従って各種データの読み出し又は書き込みを行う。なお、ＳＳＤ３０４の代わりに、ＨＤＤ(Hard Disk Drive)を用いても良い。

【0021】

外部機器接続Ｉ／Ｆ３０５は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、ＵＳＢ(Universal Serial Bus)メモリ、及びプリンタ等である。

【0022】

ネットワークＩ／Ｆ３０６は、通信ネットワーク１００を介してデータ通信をするためのインターフェースである。

【0023】

メディアＩ／Ｆ３０９は、フラッシュメモリ等の記録メディア３０９ｍに対するデータの読み出し又は書き込み（記憶）を制御する。記録メディア３０９ｍには、ＤＶＤ(Digital Versatile Disc)やＢｌｕ-ｒａｙＤｉｓｃ（登録商標）等も含まれる。

【0024】

バスライン３１０は、図２に示されているＣＰＵ３０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

【0025】

＜通信端末のハードウェア構成＞
次に、図３を用いて、通信端末５の電気的なハードウェア構成を説明する。図３は、通信端末の電気的なハードウェア構成図である。

【0026】

通信端末５は、コンピュータとして、図３に示されているように、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、ＳＳＤ５０４、外部機器接続Ｉ／Ｆ(Interface)５０５、ネットワークＩ／Ｆ５０６、ディスプレイ５０７、ポインティングデバイス５０８、メディアＩ／Ｆ５０９、及びバスライン５１０を備えている。

【0027】

これらのうち、ＣＰＵ５０１は、通信端末５全体の動作を制御する。ＲＯＭ５０２は、ＩＰＬ等のＣＰＵ５０１の駆動に用いられるプログラムを記憶する。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。

【0028】

ＳＳＤ５０４は、ＣＰＵ５０１の制御に従って各種データの読み出し又は書き込みを行う。なお、ＳＳＤ５０４の代わりに、ＨＤＤ(Hard Disk Drive)を用いてもよい。

【0029】

外部機器接続Ｉ／Ｆ５０５は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、ＵＳＢメモリ、及びプリンタ等である。

【0030】

ネットワークＩ／Ｆ５０６は、通信ネットワーク１００を介してデータ通信をするためのインターフェースである。

【0031】

ディスプレイ５０７は、各種画像を表示する液晶や有機ＥＬ(Electro Luminescence)などの表示手段の一種である。

【0032】

ポインティングデバイス５０８は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。なお、ユーザがキーボードを使う場合は、ポインティングデバイス５０８の機能をＯＦＦにしてもよい。

【0033】

メディアＩ／Ｆ５０９は、フラッシュメモリ等の記録メディア５０９ｍに対するデータの読み出し又は書き込み（記憶）を制御する。記録メディア５０９ｍには、ＤＶＤやＢｌｕ-ｒａｙＤｉｓｃ（登録商標）等も含まれる。

【0034】

バスライン５１０は、図３に示されているＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

【0035】

〔回答生成装置の機能構成〕
本実施形態に係る回答生成装置３ａの学習フェーズ及び推論（予測）フェーズにおける機能構成について説明する。なお、図４に学習フェーズの機能構成、図７に推論フェーズの機能構成を示すが、回答生成装置３ａは、図４と図７の各部をまとめて有していてもよい。

【0036】

＜学習フェーズの機能構成＞
まず、図４を用いて、学習フェーズにおける回答生成装置３ａの各機能について説明する。図４は、第１の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。なお、回答生成装置３ａは、回答生成装置３の一例である。

【0037】

図４に示すように、回答生成装置３ａは、入力部３０、テキスト抽出部３１ａ、物体抽出部３２ａ、データ拡張部３３、エンコード部３５ａ、デコード部３６ａ、及びパラメータ学習部３８ａを有する。これら各部は、プログラムに基づき図２のＣＰＵ３０１による命令によって実現される機能である。また、ＲＡＭ３０３又はＳＳＤ３０４には、機械学習モデル４１ａが構築されている。なお、エンコード部とデコード部の処理は、ニューラルネットワークのモデルパラメータに基づいたものである。

【0038】

入力部３０は、通信端末７を介して、回答生成装置３ａに、学習データ（質問文、正解回答情報、及び文書画像の各データ）を入力する。または、入力部３０は、回答生成装置３ａに、直接、学習データを入力する。図５は、質問文、文書画像、及び正解回答情報の例を示す図である。例えば、図５に示すように、質問文は「糖尿病を防げた事例の割合は？」である。文書画像は、図５の右側の画像である。正解回答情報は「40％」である。

【0039】

テキスト抽出部３１ａは、入力部３０によって入力された文書画像を入力して、文書画像中のテキスト情報（文書テキスト系列、文書テキスト矩形領域の各情報）を出力する。

【0040】

そのため、テキスト抽出部３１ａは、文書画像に含まれるテキストの領域を検出し、検出された領域内のテキストをＯＣＲ(Optical Character Recognition)等で認識して、文書画像中のテキスト情報を出力する。文書画像中のテキスト情報には、文書テキスト系列及び文書テキスト矩形領域を少なくとも含む。ここで出力される文書テキスト系列は、テキストの座標に応じて、left-to-right，top-to-downの順番で並び替えられている。また、文書テキスト矩形領域は、例えば、「60％」を示す文書画像における矩形領域の左上座標及び右下座標によって表される。これらの処理は、文書画像からテキスト系列、及びテキストの矩形領域を出力できるものであれば何でもよい。本実施形態においては、処理の一例として参考文献１に示されるTesseractを用いる。
＜参考文献１＞Google: Tesseract Manual. 2018.(https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc)
物体抽出部３２ａは、入力部３０によって入力された文書画像を入力して、文書画像中の物体情報（物体領域特徴情報、物体領域意味ラベル、及び物体矩形領域情報）を出力する。

【0041】

そのため、物体抽出部３２ａは、文書画像に含まれる物体情報を抽出し、文書画像中の物体情報として出力する。文書画像中の物体情報には、物体（グラフやアイコンなど）の領域特徴v^obj、物体領域の意味を表すラベルである物体領域意味ラベル、物体領域の座標を表す物体矩形領域情報を少なくとも含む。これらの処理は、文書画像から、物体領域特徴情報、物体領域意味ラベル、及び物体矩形領域情報を獲得できれば、何を用いても良い。本実施形態においては、処理の一例として参考文献２のFaster-RCNNを用いる。
＜参考文献２＞Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS 2015: 91-99
ここで、本実施形態においては、領域特徴v^objは2048次元のベクトル系列、物体領域意味ラベルは参考文献３で定義された391種類の意味ラベル（graphやdogなど）、矩形領域情報は画像情報上の領域の左上座標と右下座標で表現される。
＜参考文献３＞Spandan Mada, Zoya Bylinskii, Mathew Tanik, Adria Recasens, Kimberli Zhong, Sami Alesheikh, Hanspeter Pfister, Aude Oliva, Fredo Durand: Synthetically Trained Icon Proposals for Parsing and Summarizing Inforgraphics. arXiv:1807.10441
データ拡張部３３は、入力部３０によって入力された正解回答情報、及びテキスト抽出部３１ａによって抽出された文書テキスト系列を入力して、算術演算過程を示す算術演算過程情報を出力する。

【0042】

そのため、データ拡張部３３は、正解回答情報及び文書画像内のテキストを用いて、算術演算過程(例えば、「100％－60％＝」)を出力する。

【0043】

データ拡張部３３の処理は以下の通りである。

【0044】

Ｓ１１１：データ拡張部３３は、文書テキスト系列から、所定の件数の数値データを抽出する。本実施形態においては、一例として7件抽出することとする。文字で書かれた数値(one, two等)に関しては、データ拡張部３３によって数値データに変換される。図５の例においては、数値データとして「1.7, 1, 10, 4.3, 3.6, 6, 60」が抽出される。

【0045】

Ｓ１１２：データ拡張部３３は、例えば、予め「A+B」、「A-B」、「100-A」の３種類の異なった算術演算過程を示すテンプレートを保持している。なお、これら以外の算術演算過程を示すテンプレートを用いることも可能である。データ拡張部３３は、Ｓ１１１で抽出した数値データの中から任意の数値をA、Bとし、算術演算過程を示すテンプレートに代入する。図５の例においては、A=60，B=6の場合、66、54、40が代入結果として出力される。

【0046】

Ｓ１１３：データ拡張部３３は、上記Ｓ１１２で代入した所定のテンプレートに対して計算を実施し、計算結果（代入結果）と正解回答情報とを比較する。比較の結果、計算結果と正解回答情報が同様のテキスト（値）の場合、上記Ｓ１１２で代入したテンプレートを算術演算過程と特定して、この算術演算過程を示す算術演算過程情報を生成して出力する。図５の例においては、上記Ｓ２の代入結果である「40％」が回答正解情報と一致するため、算術演算過程情報が「100％－60％」となる。

【0047】

また、エンコード部３５ａ及びデコード部３６ａは、系列変換部２０ａを構成する。図６は、第１の実施形態に係り、系列変換部の詳細な構成図である。系列変換部２０ａは、ニューラルネットワークのモデルパラメータを用いて、入力された情報に基づいて出力系列情報を生成する。モデルの構成は、系列を入力として系列を生成する、一般的なencoder-decoderモデル形式を採用する。

【0048】

図６に示すように、エンコード部３５ａは、文書画像中のテキスト情報受付部３５１、文書画像中の物体情報受付部３５２、及び質問文受付部３５３を有している。これらは、ニューラルネットワークの入力層を構築している。

【0049】

文書画像中のテキスト情報受付部３５１は、文書画像中のテキスト情報（テキスト系列、テキストの矩形領域情報）を受け付ける。文書画像中の物体情報受付部３５２は、文書画像中の物体情報（物体領域特徴、物体領域意味ラベル、物体領域の矩形領域情報）を受け付ける。質問文受付部３５３は、質問文を受け付ける。

【0050】

更に、エンコード部３５ａは、複数の変換部層１(Transformer)３５５_１乃至変換部層Ｌ(Transformer)３５５_Ｌを有している。複数の変換部層１(Transformer)３５５_１乃至変換部層Ｌ(Transformer)３５５_Ｌは、入力層から上記各情報を受け継ぎ、順次後述の計算を行う。

【0051】

また、デコード部３６ａは、複数の変換部層１(Transformer)３６５_１乃至変換部層Ｌ(Transformer)３６５_Ｌを有している。複数の変換部層１(Transformer)３６５_１乃至変換部層Ｌ(Transformer)３６５_Ｌは、エンコード部３５ａの変換部層Ｌ(Transformer)３５５_Ｌからエンコード特徴量を受け継ぎ、順次後述の計算を行う。エンコード特徴量は、エンコード部３５ａに入力された文書画像および質問文の情報を、ニューラルネットワークのモデルパラメータに基づいて変換された所定次元のベクトルを示す。

【0052】

なお、複数の変換部層１(Transformer)３５５_１乃至変換部層Ｌ(Transformer)３５５_Ｌ、及び、複数の変換部層１(Transformer)３６５_１乃至変換部層Ｌ(Transformer)３６５_Ｌは、ニューラルネットワークの中間層を構築している。

【0053】

更に、デコード部３６ａは、回答情報出力部３５７、及び算術演算過程情報出力部３５８を有している。これらは、ニューラルネットワークの出力層を構築している。回答情報出力部３５７は、中間層により得られた回答情報の出力確率分布情報を出力する。算術演算過程情報出力部３５８は、中間層により得られた算術演算過程の出力確率分布情報を出力する。

【0054】

以上により、系列変換部２０ａは、質問文、文書画像中のテキスト情報、文書画像中の物体情報、回答情報、及び算術演算過程情報を入力して、出力系列情報を出力することになる。回答情報は、学習フェーズには正解回答情報、推論フェーズにはテキスト生成部３９で推論された回答情報を用いる。算術演算過程情報は、学習フェーズにはデータ拡張部３３から出力された算術演算過程情報、推論フェーズにはテキスト生成部３９で推論された算術演算過程情報である。出力系列情報は、回答情報の出力確率分布情報、及び算術演算過程の出力確率分布情報を示す。以下、エンコード部３５ａ及びデコード部３６ａについて更に詳細に説明する。

【0055】

エンコード部３５ａは、質問文、テキスト抽出部３１ａによって抽出された文書画像中のテキスト情報、及び物体抽出部３２ａによって抽出された文書画像中の物体情報を入力して、エンコード特徴量を出力する。具体的には、エンコード部３５ａは、質問文、文書テキスト系列、文書テキスト矩形領域、物体矩形領域情報、物体領域意味ラベル、物体矩形領域情報を入力する。

【0056】

そのため、エンコード部３５ａは、文書画像内のテキスト、物体、及び質問文のエンコードを行う。この場合、画像と言語両方の特徴量を入力として、両方を合わせた特徴量を出力する際に一般的な処理を行えばよい。一例としての処理は以下の通りである。

【0057】

Ｓ１２１：エンコード部３５ａは、質問文、文書テキスト系列、及び物体領域意味ラベルをそれぞれ、所定の処理単位であるトークン系列w^ocr, w^q, w^objに分割する。本実施形態においては、トークナイズ処理の一例として、参考文献４に示されるByte-level BPEを用いる。なお、本ステップの代わりに、エンコード部３５ａは、エンコード部３５ａの外部、例えばテキスト抽出部３１ａ及び物体抽出部３２ａで予め生成されたトークン系列w^ocr, w^q, w^objを取得するようにしてもよい。

【0058】

また、処理単位（トークン）は、テキストを所定単位で分割（トークナイズ）したものであれば何でもよい。トークナイズの結果であるトークン系列は、1以上のトークンからなる系列である。所定単位（トークン）は、例えば単語であってもよいし、サブワードであってもよい。
＜参考文献４＞Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever: Language models are unsupervised multitask learners. Technical report, OpenAI, 2019.
Ｓ１２２：エンコード部３５ａは、サブワードトークン系列w^ocr，w^q，w^obj及び物体領域特徴v^objを用いて、以下の入力トークン系列を用意する。

【0059】

【数1】

ここで、[CLS]は開始記号を表す特殊トークン、[SEP]は中間記号を表す特殊トークンを表す。本実施形態において、xは系列長U=1024のトークン系列である。

【0060】

Ｓ１２３：エンコード部３５ａは、系列中のk番目の入力埋め込み系列を以下のように定義する。

【0061】

【数2】

ここで、LayerNormは、本実施形態では、参考文献４に示される正規化手法を用いる。

【0062】

【数3】

は、トークン系列

【0063】

【数4】

を、対応するD次元のベクトルに埋め込む変換である。本実施形態では、参考文献５により学習済みの埋め込みベクトル（D=1024）を初期値とし、学習パラメータとする。また、他の事前学習済み言語モデルのパラメータを用いても良い。
＜参考文献５＞Jacob Devlin, Ming-Wei Chang, Kanton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL19

【0064】

【数5】

は、物体又はテキストを区別する２種の埋め込みであり、D次元のベクトルの埋め込みである。

【0065】

【数6】

はトークン系列中の位置に応じてD次元のベクトルに変換する処理である。本実施形態では参考文献５で用いられる手法を用いる。

【0066】

【数7】

はトークン系列の文書テキスト矩形領域情報及び物体矩形領情報を表すD次元の埋め込みである。本実施形態では、非特許文献２で用いられる手法を用いる。ただし、質問文、物体領域ラベルに該当する矩形領域情報はD次元の0ベクトルとする。

【0067】

Ｓ１２４：エンコード部３５ａは、入力埋め込み系列

【0068】

【数8】

をL層のTransformerに入力し、エンコード特徴量

【0069】

【数9】

を出力する。本実施形態では、参考文献６で示す事前学習済みのTransformerを用いる。また、他の事前学習済み言語モデルのパラメータを用いても良い。ここで、本実施形態では、L=12を用いる。
＜参考文献６＞Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton: Layer Normalization. Arxiv, 2016.
デコード部３６ａは、エンコード部３５ａから出力されたエンコード特徴量、並びに、回答情報及び算術演算過程情報を入力して、出力系列情報を出力する。ここで、回答情報は、学習フェーズにはパラメータ学習部３８ａから出力されるトークナイズ処理済みの正解回答情報（トークナイズ後のトークン系列）、推論フェーズにはテキスト生成部３９で推論された回答情報のトークンである。算術演算過程情報は、学習フェーズにはパラメータ学習部３８ａから出力されるトークナイズ処理済み算術演算過程情報、推論フェーズにはテキスト生成部３９で推論された算術演算過程情報である。また、出力系列情報は、回答情報の出力確率分布情報、及び算術演算過程の出力確率分布である。

【0070】

そのため、デコード部３６ａは、エンコード部３５ａで得られたエンコード特徴量に基づいて、回答及び算術演算過程のそれぞれ確率分布を出力する。処理は以下の通りである。

【0071】

Ｓ１３１：デコード部３６ａは、学習フェーズにおいては、パラメータ学習部３８ａにより出力される正解回答情報および算術演算過程のトークン系列を出力ステップ毎に取得し、それぞれのトークン系列を結合することで出力系列を作成する。また、デコード部３６ａは、推論フェーズにおいては、テキスト生成部３９において、出力ステップ毎に再帰的に出力されるトークンを結合したものを出力系列とする。また、デコード部３６ａは、学習フェーズには、系列の開始記号と終端記号を付与し、推論フェーズには、系列の開始記号のみを付与する。本実施形態においては、一例として開始記号に[CLS]、終端記号に[EOS]記号を付与する。さらに、本実施形態においては、トークナイズ処理の一例として、参考文献４に示されるByte-level BPEを用いる。

【0072】

Ｓ１３２：デコード部３６ａは、出力系列をエンコード部３５ａと同様に、以下の埋め込みに変換する。

【0073】

【数10】

この埋め込みとエンコード特徴量をL層のTransformerに入力し、出力トークンの表現

【0074】

【数11】

を出力する。本実施形態においては、参考文献６で示す事前学習済みのTransformerを用いる。また、同様に、他の事前学習済み言語モデルのパラメータを用いても良い。なお、Tは、出力トークン系列の長さであり、本実施形態においては、T=24とした。

【0075】

ここで、

【0076】

【数12】

は、トークン系列

【0077】

【数13】

を、対応するD次元のベクトルに埋め込む変換である。本実施形態では、参考文献５により学習済みの埋め込みベクトル（D=1024）を初期値とし、これを学習パラメータとする。また、他の事前学習済み言語モデルのパラメータを用いても良い。

【0078】

【数14】

は物体又はテキストを区別する２種の埋め込みであり、D次元のベクトル埋め込みである。

【0079】

【数15】

はトークン系列中の位置に応じてD次元のベクトルに変換する処理である。本実施形態では参考文献５で示される手法を用いる。

【0080】

Ｓ１３３：デコード部３６ａは、出力トークンの表現を

【0081】

【数16】

を基に、線形変換とsoftmax関数を通すことで、t番目の単語の確率分布

【0082】

【数17】

（回答情報の出力確率分布情報及び算術演算過程の出力確率分布情報）を求める。tは、0 ≦ t ≦T を満たす。

【0083】

パラメータ学習部３８ａは、出力系列情報（回答情報の出力確率分布情報、算術演算過程の出力確率分布情報）、正解情報（正解回答情報、算術演算過程情報）を入力して、パラメータ更新情報、トークナイズ処理済み正解回答情報、トークナイズ処理済み算術演算過程情報を出力する。但し、正解情報としては、トークナイズ処理済みの情報であってもよい。

【0084】

そのため、パラメータ学習部３８ａは、正解情報（正解回答情報、算術演算過程情報）に対してトークナイズ処理を行う。但し、正解回答情報はトークナイズ処理済みの情報を入力としてもよい。また、算術演算過程情報は、別の処理部（例えばデータ拡張部３３）によってトークナイズ処理が行われた情報であってもよい。本実施形態においては、トークナイズ処理の一例として、参考文献４に示されるByte-level BPEを用いる。

【0085】

パラメータ学習部３８ａは、出力系列情報及び正解情報に基づいて、以下の損失を算出し、最小化するように、機械学習モデル４１ａのモデルパラメータの更新を行う。

【0086】

【数18】

は出力テキストにおいて、正解情報のトークンである。

【0087】

【数19】

また、パラメータ学習部３８ａは、トークナイズ処理を行った正解回答情報及び算術演算過程情報を出力する。

【0088】

以上により、学習フェーズの機能構成の説明は終了する。

【0089】

＜推論フェーズの機能構成＞
続いて、推論フェーズにおける回答生成装置３ａの各機能について説明する。図７は、推論フェーズにおける回答生成装置の機能構成図である。

【0090】

図７に示すように、回答生成装置３ａは、入力部３０、テキスト抽出部３１ａ、物体抽出部３２ａ、エンコード部３５ａ、デコード部３６ａ、テキスト生成部３９ｂ、及び出力部４０ａを有する。これら各部は、プログラムに基づき図２のＣＰＵ３０１による命令によって実現される機能である。また、ＲＡＭ３０３又はＳＳＤ３０４には、学習済み機械学習モデル４１ｂが記憶されている。なお、学習フェーズにおける機能構成と同様の機能構成については、同一の符号を付して説明を省略する。

【0091】

テキスト生成部３９は、デコード部３６ａからの出力系列情報を入力して、回答情報、及び算術演算過程情報を出力する。第１の実施形態の出力系列情報は、回答情報の出力確率分布情報、及び算術演算過程の出力確率分布情報である。

【0092】

そのため、テキスト生成部３９は、出力系列情報に含まれる回答情報の出力確率分布情報及び算術演算過程の出力確率分布情報を基に、回答情報及び算術演算過程情報を再帰的に生成する。テキスト生成部３９は、出力処理毎に確率分布の最大となる単語を選択、又は、確率分布に従ってサンプリングにより単語を生成し、文末トークン[EOS]が生成された場合に単語の生成を終了する。

【0093】

出力部４０ａは、テキスト生成部３９によって出力された回答情報及び算術演算過程情報に基づいて、回答生成装置３ａから推論結果を出力する。出力する例としては、図２の外部機器接続Ｉ／Ｆ３０５に接続されたディスプレイに表示させる場合、ネットワークＩ／Ｆ３０６を介して通信端末５等に送信する場合等が挙げられる。

【0094】

〔回答生成装置の処理又は動作〕
続いて、図８及び図９を用いて、回答生成装置３ａの学習フェーズ及び推論フェーズにおける処理又は動作について説明する。

【0095】

＜学習フェーズにおける処理又は動作＞
図８は、学習フェーズにおいて回答生成装置が実行する機械学習方法を示すフローチャートである。

【0096】

Ｓ１１：入力部３０は、通信端末７から又は直接的に、学習データ(正解回答情報、文書画像、質問文)を入力する。

【0097】

Ｓ１２：テキスト抽出部３１ａは文書画像からテキスト情報を抽出し、物体抽出部３２ａは文書情報から物体情報を抽出する。

【0098】

Ｓ１３：データ拡張部３３は算術演算過程情報を生成する。

【0099】

Ｓ１４：エンコード部３５ａはエンコード特徴量を生成する。

【0100】

Ｓ１５：デコード部３６ａは回答情報及び算術演算過程情報を生成する。

【0101】

Ｓ１６：パラメータ学習部３８ａは損失を計算してパラメータを更新する。

【0102】

Ｓ１７：パラメータ学習部３８ａは未処理データがあるかを判断する。そして、未処理データがある場合には（Ｓ１７；ＹＥＳ）、処理Ｓ１１に戻る。一方、未処理データがない場合には（Ｓ１７；ＮＯ）、学習フェーズの処理は終了する。

【0103】

以上により、学習フェーズの処理又は動作の説明は終了する。

【0104】

＜推論フェーズにおける処理又は動作＞
図９は、推論フェーズにおいて回答生成装置が実行する回答生成方法を示すフローチャートである。

【0105】

Ｓ２１：入力部３０ａは、通信端末７から又は直接的に、入力データ(文書画像、質問文)を入力する。

【0106】

Ｓ２２：テキスト抽出部３１ａは文書画像からテキスト情報を抽出し、物体抽出部３２ａは文書情報から物体情報を抽出する。

【0107】

Ｓ２３：エンコード部３５ａはエンコード特徴量を生成する。

【0108】

Ｓ２４：テキスト生成部３９は回答情報及び算術演算過程情報を生成する。

【0109】

Ｓ２５：テキスト生成部３９は文末記号が出力されたかを判断する。そして、文末記号が出力されない場合には（Ｓ２５；ＮＯ）、処理Ｓ２４に戻る。一方、文末記号が出力された場合には（Ｓ２５；ＹＥＳ）、処理Ｓ２６に進む。

【0110】

Ｓ２６：出力部４０は、回答情報及び算術演算過程情報を含む推論結果の情報を出力する。

【0111】

以上により、推論フェーズの処理又は動作の説明が終了する。

【0112】

〔第１の実施形態の実験条件及び実験結果〕
続いて、本実施形態の実験条件及び実験結果について説明する。

【0113】

＜実験条件＞
（実験設定）
事前学習とFine-tuningの両方でバッチサイズ64とし、回答生成装置３ａは、30エポック学習した。Adam（参考文献８）を用いて最適化し学習率は「3e-5」とした。v^obj，w^obj，w^ocr，w^taskの最大長をそれぞれ、36，20，430，40 とした。開発、テストデータにおける評価はBERT-{base,large}を事前学習時の重みの初期値とした。また、large は、baseの実験を基にハイパーパラメータを設定した。
＜参考文献８＞Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
（評価指標）
ICDAR 2021 Competition で採用されたANLS(参考文献９)(予測文と正解文集合との平均編集距離)を用いる。また、算術演算を必要とする例に絞った（開発データの17.4%）際のANLS をANUM と示す。
＜参考文献９＞Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomezi Bigorda, Marcal Rusinol, C. V. Jawahar, Ernest Valveny, and Dimosthenis Karatzas. Scene text visual question answering.In ICCV, pp. 4290-4300, 2019.
＜実験結果＞
図１９は、第１、第２の実施形態に係り、実験結果を示す表である。図１９に示すように、表の２行目「BERT w/o ADA」及び５行目の「IG-BERT w/o SRP + ADA」に示すように、算術演算過程の概念を用いることで、用いない従来に比べて、ANLS及びANUMの値が減少した。

【0114】

〔第１の実施形態の効果〕
以上説明したように第１の実施形態によれば、回答生成装置３ａが回答情報で必要な算術演算過程を生成するために、系列変換部２０ａが機械学習モデル４１ａを用いて、学習フェーズには回答情報で必要な算術演算過程を生成するよう学習を行う。これにより、回答生成装置３ａによって文書画像に含まれる数値データの理解能力が向上し、従来技術よりも高い性能で算術演算を伴う回答情報の生成が可能になる。

【0115】

また、データ拡張部は、複数のテンプレートを用意し、所定のテンプレートを用いることで、算術演算過程情報を自動で生成する。これにより、算術演算過程の正解回答情報を人手で作成する場合に比べて、学習データの作成のコストを下げることができる。

【0116】

また、文書画像に含まれる物体（アイコン、グラフなど）及びテキスト（60％など）の配置関係を理解することは、システムが文書画像を理解して質問応答を行う上で、非常に重要な要素の一つである。本実施形態の回答生成装置３ａは、実世界に多数存在する視覚的に表現された文書(インフォグラフィックやPDF文書、HTML文書など)を知識源として理解し、算術演算を伴う質問応答を行うことが可能となる。

【0117】

●第２の実施形態
続いて、図１０乃至図１５を用いて、本発明の第２の実施形態について説明する。なお、質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答情報を生成する従来技術に対して、本発明の第２の実施形態に係る回答生成装置３ｂは特定の改善を提供するものであり、ニューラルネットワークを用いた回答情報の生成に係る技術分野の向上を示すものである。また、本実施形態に係る通信システムの全体構成、及びハードウェア構成は、第１の実施形態と同様であるため、説明を省略する。更に、図１０に学習フェーズの機能構成、図１５に推論フェーズの機能構成を示すが、回答生成装置３ｂは、図１０と図１３の各部をまとめて有していてもよい。

【0118】

〔回答生成装置の機能構成〕
本実施形態に係る回答生成装置３ｂの学習フェーズ及び推論（予測）フェーズにおける機能構成について説明する。

【0119】

＜学習フェーズの機能構成＞
図１０を用いて、学習フェーズにおける回答生成装置３ｂの各機能について説明する。図１０は、第２の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。なお、回答生成装置３ｂは、回答生成装置３の一例である。

【0120】

図４に示すように、回答生成装置３ｂは、入力部３０、テキスト抽出部３１ｂ、物体抽出部３２ｂ、正解配置関係導出部３４、エンコード部３５ｂ、デコード部３６ｂ、配置関係予測部３７、及びパラメータ学習部３８ｂを有する。これら各部は、プログラムに基づき図２のＣＰＵ３０１による命令によって実現される機能である。また、ＲＡＭ３０３又はＳＳＤ３０４には、機械学習モデル４２ａ、及び機械学習済みの機械学習モデル（W^srp）４３が構築されている。なお、入力部３０、テキスト抽出部３１ｂ、物体抽出部３２ｂ、及びエンコード部３５ｂは、それぞれ第１の実施形態における、入力部３０、テキスト抽出部３１ａ、物体抽出部３２ａ、及びエンコード部３５ｂと同様の処理を実行するため、説明を省略する。

【0121】

入力部３０は、通信端末７を介して、回答生成装置３ｂに、学習データ（質問文、正解回答情報、及び文書画像の各データ）を入力する。または、入力部３０は、回答生成装置３ａに、直接、学習データを入力する。図１１は、第２の実施形態に係り、正解配置関係導出部の処理の概念図である。例えば、図１１に示すように、質問文は「女性のアイコンの上に書かれている数字は何か？」である。文書画像は、図５と同じである。正解回答情報は「3.6％」である。

【0122】

正解配置関係導出部３４は、テキスト抽出部３１ｂから出力された文書テキストの矩形領域情報、及び物体抽出部３２ｂから出力された物体の矩形領域情報を入力して、文書テキストの矩形選択領域情報（第１の矩形選択領域情報の一例）、物体の矩形選択領域情報（第２の矩形選択領域情報の一例）、及び正解配置関係情報を出力する。

【0123】

そのため、正解配置関係導出部３４は、物体の矩形領域情報及び文書テキストの矩形領域情報から、それぞれ１つずつランダム所定の物体の矩形領域情報及び所定の文書テキストの矩形領域情報を選択し、Mクラス(M=1以上であれば，何でも良い)からなる正解配置関係を定義して出力する。本実施形態においては、参考文献７で定義されたM=12の配置関係(図１１の右下を参照)を用いる。ここでは、実線の矩形領域に対する破線の矩形領域の配置関係に関して、11クラスの配置関係分類タスクと、矩形の領域同士が離れすぎている1クラスの配置関係分類タスクによる合計12クラスの配置関係分類タスクを解く例が示されている。
＜参考文献７＞Ting Yao, Yingwei Pan, Yehao Li, Tao Mei: Exploring visual relationship for image captioning. ECCV18
また、エンコード部３５ｂ及びデコード部３６ｂは、系列変換部２０ｂを構成する。図１２は、第２の実施形態に係り、系列変換部の詳細な構成図である。系列変換部２０ｂは、ニューラルネットワークのモデルパラメータを用いて、入力された情報に基づいて出力系列情報を生成する。モデルの構成は、系列を入力として系列を生成するための一般的なencoder-decoderモデル形式を採用する。

【0124】

系列変換部２０ｂは、第１の実施形態における系列変換部２０ａのうち算術演算過程情報出力部３５８を有しないで、その他は有するため、同じ部等には同一の符号を付して説明を省略する。

【0125】

デコード部３６ｂは、基本的にデコード部３６ａと同様の処理を行うが、第２の実施形態ではデータ拡張部３３がないため、算術演算過程情報の入力はなく、算術演算過程の出力確率分布情報の出力はない。

【0126】

配置関係予測部３７は、正解配置関係導出部３４によって導出された文書テキストの矩形選択領域情報及び物体の矩形選択領域情報、並びに、エンコード部３５ｂから出力されたエンコード特徴量を入力して、予測配置関係分布情報を出力する。

【0127】

そのため、配置関係予測部３７は、エンコード特徴量を基に、画像文書内の物体とテキストとの配置関係を予測することで、配置関係を考慮した回答生成が可能となる。配置関係予測部３７処理は以下の通りである。

【0128】

Ｓ２１１：配置関係予測部３７は、物体とテキストに対応するエンコード特徴量（エンコード部３５ａに入力された文書画像および質問文の情報を、ニューラルネットワークのモデルパラメータに基づいて変換された所定次元のベクトル）から、正解配置関係導出部３４によって出力された文書テキストの矩形選択領域情報及び物体の矩形選択領域情報に対応する特徴量e^obj及びe^textを獲得する。

【0129】

Ｓ２１２：配置関係予測部３７は、e^obj及びe^textを基に、予測配置関係分布情報を以下の通り算出して出力する。

【0130】

【数20】

パラメータ学習部３８ｂは、第２の実施形態ではデータ拡張部３３がないため、算術演算過程情報の入力はなく、算術演算過程の出力確率分布情報の出力はない。パラメータ学習部３８ｂは、入力部３０から出力された正解回答情報、デコード部３６ｂから出力された出力系列情報（回答情報の出力確率分布情報）、配置関係予測部３７から出力された予測配置関係分布情報、及び正解配置関係導出部から出力された正解配置関係情報を入力して、パラメータ更新情報、及びトークナイズ処理済み正解回答情報を出力する。但し、正解回答情報としては、トークナイズ処理済みの情報であってもよい。

【0131】

そのため、パラメータ学習部３８ｂは、正解回答情報に対してトークナイズ処理を行う。但し、正解回答情報はトークナイズ処理済みの情報を入力としてもよい。本実施形態においては、トークナイズ処理の一例として、参考文献４に示されるByte-level BPEを用いる。

【0132】

パラメータ学習部３８ｂは、出力系列情報及び正解情報に基づいて、以下の損失を算出し、最小化するように、機械学習モデル４２ａのモデルパラメータの更新を行う。

【0133】

【数21】

L^ansは以下の通りである。

【0134】

【数22】

は出力テキストにおいて、正解情報のトークンである。

【0135】

【数23】

L^srpは以下の通りである。q^srpは，正解配置関係のone-hotベクトルである。

【0136】

【数24】

また、パラメータ学習部３８ｂは、トークナイズ処理を行った正解回答情報を出力する。

【0137】

以上により、学習フェーズの機能構成の説明は終了する。

【0138】

＜推論フェーズの機能構成＞
続いて、推論フェーズにおける回答生成装置３ｂの各機能について説明する。図１３は、推論フェーズにおける回答生成装置の機能構成図である。

【0139】

図７に示すように、回答生成装置３ｂは、入力部３０、テキスト抽出部３１ｂ、物体抽出部３２ｂ、エンコード部３５ｂ、デコード部３６ｂ、テキスト生成部３９ｂ、及び出力部４０ｂを有する。これら各部は、プログラムに基づき図２のＣＰＵ３０１による命令によって実現される機能である。また、ＲＡＭ３０３又はＳＳＤ３０４には、学習済み機械学習モデル４２ｂが記憶されている。なお、学習フェーズにおける機能構成と同様の機能構成については、同一の符号を付して説明を省略する。

【0140】

テキスト生成部３９ｂは、デコード部３６ａからの出力系列情報を入力して、回答情報を出力する。第２の実施形態の出力系列情報は、回答情報の出力確率分布情報である。

【0141】

そのため、テキスト生成部３９ｂは、出力系列情報を基に、回答情報を再帰的に生成する。テキスト生成部３９ｂは、出力ステップ毎に確率分布の最大となる単語を選択、又は確率分布に従ってサンプリングにより単語を生成し、文末トークン[EOS]が生成された場合に単語の生成を終了する。

【0142】

出力部４０ｂは、テキスト生成部３９によって出力された回答情報に基づいて、回答生成装置３ｂから推論結果を出力する。出力する例としては、図２の外部機器接続Ｉ／Ｆ３０５に接続されたディスプレイに表示させる場合、ネットワークＩ／Ｆ３０６を介して通信端末５等に送信する場合等が挙げられる。

【0143】

〔回答生成装置の処理又は動作〕
続いて、図１４及び図１５を用いて、回答生成装置３ｂの学習フェーズ及び推論フェーズにおける処理又は動作について説明する。

【0144】

＜学習フェーズにおける処理又は動作＞
図１４は、学習フェーズにおいて回答生成装置が実行する機械学習方法を示すフローチャートである。

【0145】

Ｓ３１：入力部３０は、通信端末７から又は直接的に、学習データ(正解回答情報、文書画像、質問文)を入力する。

【0146】

Ｓ３２：テキスト抽出部３１ｂは文書画像からテキスト情報を抽出し、物体抽出部３２ｂは文書情報から物体情報を抽出する。

【0147】

Ｓ３３：正解配置関係導出部３４は正解配置関係を導出する。

【0148】

Ｓ３４：エンコード部３５ｂはエンコード特徴量を生成する。

【0149】

Ｓ３５：デコード部３６ｂは回答情報を予測して回答情報の出力確率分布情報を出力し、配置関係予測部３７は配置関係情を予測して予測配置関係分布情報を出力する。

【0150】

Ｓ３６：パラメータ学習部３８ｂは損失を計算してパラメータを更新する。

【0151】

Ｓ３７：パラメータ学習部３８ｂは未処理データがあるかを判断する。そして、未処理データがある場合には（Ｓ３７；ＹＥＳ）、処理Ｓ３１に戻る。一方、未処理データがない場合には（Ｓ３７；ＮＯ）、学習フェーズの処理は終了する。

【0152】

以上により、学習フェーズの処理又は動作の説明は終了する。

【0153】

＜推論フェーズにおける処理又は動作＞
図１５は、推論フェーズにおいて回答生成装置が実行する回答生成方法を示すフローチャートである。

【0154】

Ｓ４１：入力部３０は、通信端末７から又は直接的に、入力データ(文書画像、質問文)を入力する。

【0155】

Ｓ４２：テキスト抽出部３１ｂは文書画像からテキスト情報を抽出し、物体抽出部３２ａは文書情報から物体情報を抽出する。

【0156】

Ｓ４３：エンコード部３５ｂはエンコード特徴量を生成する。

【0157】

Ｓ４４：テキスト生成部３９は回答情報を生成する。

【0158】

Ｓ４５：テキスト生成部３９は文末記号が出力されたかを判断する。そして、文末記号が出力されない場合には（Ｓ４５；ＮＯ）、処理Ｓ４４に戻る。一方、文末記号が出力された場合には（Ｓ４５；ＹＥＳ）、処理Ｓ４６に進む。

【0159】

Ｓ４６：出力部４０ｂは、回答情報を含む推論結果の情報を出力する。

【0160】

以上により、推論フェーズの処理又は動作の説明が終了する。

【0161】

〔実験条件及び実験結果〕
続いて、第２の実施形態の実験条件及び実験結果について説明する。なお、第２の実施形態の実験条件は第１の実施形態と同様であるため省略する。

【0162】

＜実験結果＞
図１９に示すように、表の４行目「IG-BERT w/o SRP」に示すように、配置関係の概念を用いることで、用いない従来に比べて、ANLS及びANUMの値が減少した。

【0163】

〔第２の実施形態の効果〕
以上説明したように第２の実施形態によれば、回答生成装置３ｂでは、回答情報の生成の機械学習に加えて、配置関係予測部３７及びパラメータ学習部３８ｂによって、文書画像内の物体とテキストとの配置関係に関する学習を行う。これにより、配置関係を考慮した回答情報の生成が可能となる。よって、回答生成装置３ｂにおける物体とテキストとの配置関係を理解する性能が向上し、従来技術よりも高い性能で文書画像を理解して質問に対する応答が可能になる。

【0164】

以上により、回答生成装置３ｂは、実世界に多数存在する視覚的に表現された文書(インフォグラフィック、PDF文書、HTML文書など)を知識源として理解し、質問応答を行うことが可能となる。

【0165】

●補足
本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理（動作）であってもよい。

【0166】

（１）回答生成装置３ａ，３ｂはコンピュータとプログラムによっても実現できるが、このプログラムを（非一時的な）記録媒体に記録することも、通信ネットワーク１００を介して提供することも可能である。

【0167】

（２）上記実施形態では、通信端末５の一例としてノート型パソコンが示されているが、これに限るものではなく、例えば、デスクトップパソコン、タブレット端末、スマートフォン、スマートウォッチ、カーナビゲーション装置、冷蔵庫、電子レンジ等であってもよい。（３）各ＣＰＵ３０１，５０１は、単一だけでなく、複数であってもよい。

【0168】

●付記項
上述の実施形態には、以下に示す発明としても表すことができる。

【0169】

〔付記項１〕
文書画像の内容に基づいて質問文に対する回答情報を生成するプロセッサを有する回答生成装置であって、
前記プロセッサは、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、前記文書画像において前記質問文に対応する領域を示すベクトルであるエンコード特徴量を出力するエンコード処理と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報に対する算術演算過程の出力確率分布情報を出力するデコード処理と、
前記回答情報の出力確率分布情報及び前記算術演算過程の出力確率分布情報、並びに正解回答情報及び正解算術演算過程に基づいて（近くなるように）、前記エンコード処理及び前記デコード処理を行うためのニューラルネットワークのモデルパラメータの学習を行うパラメータ学習処理と、
を実行する回答生成装置。

【0170】

〔付記項２〕
付記項１に記載の回答生成装置であって、
前記プロセッサは、
異なった算術演算過程を示す複数のテンプレートのうち、当該複数のテンプレートのそれぞれに対して前記テキスト情報における文書テキスト系列から抽出した数値データを代入した計算結果と前記正解回答情報が同様の値になるように所定のテンプレートを特定することで、前記正解回答情報に対応する前記正解算術演算過程を生成する所定の算術演算過程情報を生成するデータ拡張処理を実行する回答生成装置。

【0171】

〔付記項３〕
文書画像の内容に基づいて質問文に対する回答情報を生成するプロセッサを有する回答生成装置であって、
前記プロセッサは、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、前記文書画像において前記質問文に対応する領域を示すベクトルであるエンコード特徴量を出力するエンコード処理と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報に対する算術演算過程の出力確率分布情報を出力するデコード処理と、
を実行し、
前記エンコード処理及び前記デコード処理は、予め学習済みのモデルパラメータを用い、前記文書画像及び前記質問文に基づいて、前記回答情報の出力確率分布情報を出力する処理を含み、
前記回答情報の出力確率分布情報に基づいて、前記回答情報を生成するテキスト生成処理を実行する、
回答生成装置。

【0172】

〔付記項４〕
文書画像の内容に基づいて質問文に対する回答情報を生成するプロセッサが実行する機械学習方法であって、
前記プロセッサは、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード処理と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報、及び前記回答情報に対する算術演算過程の出力確率分布情報を出力するデコード処理と、
前記回答情報の出力確率分布情報及び前記算術演算過程の出力確率分布情報、並びに正解回答情報に基づいて、前記エンコード処理及び前記デコード処理を行うためのニューラルネットワークのモデルパラメータの機械学習を行うパラメータ学習処理と、
を実行する機械学習方法。

【0173】

〔付記項５〕
コンピュータに、付記項１又は２に記載の回答生成装置を実現させるプログラムが記録された非一時的記録媒体。

【0174】

〔付記項６〕
コンピュータに、付記項３に記載の回答生成装置を実現させるプログラムが記録された非一時的記録媒体。

【符号の説明】

【0175】

１通信システム
３回答生成装置
３ａ回答生成装置
３ｂ回答生成装置
５通信端末
３０入力部
３１ａ，３１ｂテキスト抽出部
３２ａ，３２ｂ物体抽出部
３３データ拡張部
３４正解配置関係導出部
３５ａ，３５ｂエンコード部
３６ａ，３６ｂデコード部
３７配置関係予測部
３８ａ，３８ｂパラメータ学習部
３９ａ，３９ｂテキスト生成部
４０ａ，４４ｂ出力部
２０ａ系列変換部
２０ｂ系列変換部
４１ａ機械学習モデル
４１ｂ学習済み機械学習モデル
４２ａ機械学習モデル
４２ｂ学習済み機械学習モデル

【図1】