(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024036781
(43)【公開日】2024-03-18
(54)【発明の名称】回答生成装置、機械学習方法、及びプログラム
(51)【国際特許分類】
G06F 16/90 20190101AFI20240311BHJP
【FI】
G06F16/90 100
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022141244
(22)【出願日】2022-09-06
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 2022年3月7日に言語処理学会 第28回年次大会(予稿集)にて公開 2021年9月17日にInternational Conference on Document Understanding(ICDAR 2021)及びYouTubeウェブサイトにて公開
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】田中 涼太
(72)【発明者】
【氏名】西田 京介
(72)【発明者】
【氏名】許 俊杰
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175DA02
5B175EA01
(57)【要約】
【課題】本開示は、文書画像内の物体とテキストとの配置関係を考慮することで、より正確な回答情報を生成することを目的とする。
【解決手段】本開示は、文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置3bであって、回答生成装置3bでは、回答情報の生成の機械学習に加えて、配置関係予測部37及びパラメータ学習部38bによって、文書画像内の物体とテキストとの配置関係に関する学習を行う。これにより、配置関係を考慮した回答情報の生成が可能となる。
【選択図】
図10
【特許請求の範囲】
【請求項1】
文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置であって、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード部と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報を出力するデコード部と、
前記文書画像における複数の文書テキストの矩形領域を示す矩形領域情報から選択した所定の文書テキストの矩形領域を示す第1の矩形選択領域情報を導出し、前記文書画像における物体の矩形領域を示す矩形領域情報から選択した所定の物体の矩形領域を示す第2の矩形選択領域情報を導出すると共に、前記所定の物体に対する前記所定の文書テキストの配置関係を示す正解配置関係情報を導出する正解配置関係導出部と、
前記エンコード特徴量に基づいて、前記第1の矩形選択領域情報に係る前記所定の文書テキストと前記第2の矩形選択領域情報に係る前記所定の物体との配置関係を予測することで、予測配置関係分布情報を出力する配置関係予測部と、
前記回答情報の出力確率分布情報、及び正解回答情報、並びに、前記予測配置関係分布情報、及び前記正解配置関係情報に基づいて、ニューラルネットワークのモデルパラメータの学習を行うパラメータ学習部と、
を有する回答生成装置。
【請求項2】
前記正解配置関係導出部は、前記第1の矩形選択領域情報に係る前記所定の文書テキスト及び前記第2の矩形選択領域情報に係る前記所定の物体との配置関係が、所定の配置関係を表す複数のクラスのいずれに該当するかを予測することで前記正解配置関係情報を導出する、請求項1に記載の回答生成装置。
【請求項3】
請求項1又は2に記載の回答生成装置であって、
前記エンコード部及び前記デコード部は、前記パラメータ学習部による予め学習済みの前記モデルパラメータを用い、前記文書画像及び前記質問文に基づいて、前記回答情報の出力確率分布情報を出力する処理を含み、
前記回答情報の出力確率分布情報に基づいて、前記回答情報を生成するテキスト生成部を有する
回答生成装置。
【請求項4】
文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置が実行する機械学習方法であって、
前記回答生成装置は、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力し、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報を出力し、
前記文書画像における複数の文書テキストの矩形領域を示す矩形領域情報から選択した所定の文書テキストの矩形領域を示す第1の矩形選択領域情報を導出し、前記文書画像における物体の矩形領域を示す矩形領域情報から選択した所定の物体の矩形領域を示す第2の矩形選択領域情報を導出すると共に、前記所定の物体に対する前記所定の文書テキストの配置関係を示す正解配置関係情報を導出し、
前記エンコード特徴量に基づいて、前記第1の矩形選択領域情報に係る前記所定の文書テキストと前記第2の矩形選択領域情報に係る前記所定の物体との配置関係を予測することで、予測配置関係分布情報を出力し、
前記回答情報の出力確率分布情報、及び正解回答情報、並びに、前記予測配置関係分布情報、及び前記正解配置関係情報に基づいて、ニューラルネットワークのモデルパラメータの学習を行う、
機械学習方法。
【請求項5】
コンピュータに、請求項1に記載の回答生成装置を実現させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答情報を生成する技術に関する。
【背景技術】
【0002】
質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答テキストを生成する質問応答技術がある(非特許文献1、非特許文献2)。これらの従来のシステムでは、学習データを{文書画像、質問文、正解回答情報}の3つ組とする。そして、従来のシステムは、まず、文書画像に対して、テキスト抽出および文書領域(Title, Paragraph, Captionなど)の抽出を行い、テキスト、文書におけるテキスト領域の座標、及びアイコン等の視覚情報を獲得する。次に、従来のシステムは、文書画像から獲得した情報および与えられた質問文を入力とし、回答の生成を行うように学習を行う。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Powalski Rafal, Borchmann Lukasz, Jurkiewicz Dawid, Dwojak Tomasz, Pietruszka Michal, Palka Gabriela: Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer. ICDAR21
【非特許文献2】Ryota Tanaka, Kyosuke Nishida, Sen Yoshida: VisualMRC: Machine Reading Comprehension on Document Images. AAAI21
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、文書画像内において物体やテキストがどのように配置されているかの学習は行われておらず、テキストのみならず、物体を含めた文書画像の理解には課題が残っている。
【0005】
本発明は、上述の点に鑑みてなされたものであって、文書画像内の物体とテキストとの配置関係を考慮することで、より正確な回答情報を生成することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、請求項1に係る発明は、文書画像の内容に基づいて質問文に対する回答情報を生成する回答生成装置であって、前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード部と、前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報を出力するデコード部と、前記文書画像における複数の文書テキストの矩形領域を示す矩形領域情報から選択した所定の文書テキストの矩形領域を示す第1の矩形選択領域情報を導出し、前記文書画像における物体の矩形領域を示す矩形領域情報から選択した所定の物体の矩形領域を示す第2の矩形選択領域情報を導出すると共に、前記所定の物体に対する前記所定の文書テキストの配置関係を示す正解配置関係情報を導出する正解配置関係導出部と、前記エンコード特徴量に基づいて、前記第1の矩形選択領域情報に係る前記所定の文書テキストと前記第2の矩形選択領域情報に係る前記所定の物体との配置関係を予測することで、予測配置関係分布情報を出力する配置関係予測部と、前記回答情報の出力確率分布情報、及び正解回答情報、並びに、前記予測配置関係分布情報、及び前記正解配置関係情報に基づいて、ニューラルネットワークのモデルパラメータの学習を行うパラメータ学習部と、を有する回答生成装置である。
【発明の効果】
【0007】
以上説明したように本発明によれば、物体とテキストとの配置関係を理解する性能が向上し、より正確な回答情報を生成することができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】本実施形態に係る通信システムの全体構成図である。
【
図2】本実施形態に係る回答生成装置の電気的なハードウェア構成図である。
【
図3】本実施形態に係る通信端末の電気的なハードウェア構成図である。
【
図4】第1の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。
【
図5】質問文、文書画像、及び正解回答情報の例を示す図である。
【
図6】第1の実施形態に係り、系列変換部の詳細な構成図である。
【
図7】第1の実施形態に係り、推論フェーズにおける回答生成装置の機能構成図である。
【
図8】第1の実施形態に係り、学習フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。
【
図9】第1の実施形態に係り、推論フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。
【
図10】第2の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。
【
図11】第2の実施形態に係り、正解配置関係導出部の処理の概念図である。
【
図12】第2の実施形態に係り、系列変換部の詳細な構成図である。
【
図13】第2の実施形態に係り、推論フェーズにおける回答生成装置の機能構成図である。
【
図14】第2の実施形態に係り、学習フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。
【
図15】第2の実施形態に係り、学習フェーズにおいて回答生成装置が実行する処理又は動作を示すフローチャートである。
【
図16】第1、第2の実施形態に係り、実験結果を示す表である。
【発明を実施するための形態】
【0009】
以下、図面に基づいて本発明の実施形態を説明する。
【0010】
●第1の実施形態
まずは、
図1乃至
図9を用いて、本発明の第1の実施形態について説明する。なお、第1の実施形態に係る回答生成装置3aは、上述のように質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答情報を生成する従来技術に対して、特定の改善を提供するものであり、ニューラルネットワークを用いた回答情報の生成に係る技術分野の向上を示すものである。
【0011】
〔実施形態のシステム構成〕
まず、
図1を用いて、本実施形態の通信システムの全体構成について説明する。
図1は、本実施形態に係る通信システムの全体構成図である。
【0012】
図1に示されているように、本実施形態の通信システム1は、回答生成装置3、及び通信端末5によって構築されている。通信端末5は、ユーザによって管理及び使用される。ユーザは、回答生成装置の出力結果を参照して、その後の対応を判断する者である。
【0013】
また、回答生成装置3と通信端末5は、インターネット等の通信ネットワーク100を介して通信することができる。通信ネットワーク100の接続形態は、無線又は有線のいずれでも良い。
【0014】
回答生成装置3は、単数又は複数のコンピュータによって構成されている。回答生成装置3が複数のコンピュータによって構成されている場合には、「回答生成装置」と示しても良いし、「回答生成システム」と示しても良い。
【0015】
回答生成装置3は、
図5に示すように、文章画像内に直接の数値情報(例えば「40%」)に係る回答正解情報が含まれていない場合であっても、「100%-*%=」(*は変数)等のテンプレートを用いて、算術演算の過程を示す算術演算過程情報を自動で生成することで、数値情報の理解能力を向上させる。なお、例えば、文章画像から抽出された全ての数値がテンプレートの「*」に代入される。
【0016】
通信端末5は、コンピュータであり、
図1では、一例としてノート型パソコンが示されている。
図1では、ユーザが、通信端末5を操作する。なお、通信端末5を用いずに、回答生成装置3単独で処理をしてもよい。
【0017】
〔ハードウェア構成〕
<回答生成装置のハードウェア構成>
次に、
図2を用いて、回答生成装置3の電気的なハードウェア構成を説明する。
図2は、回答生成装置の電気的なハードウェア構成図である。
【0018】
回答生成装置3は、コンピュータとして、
図2に示されているように、プロセッサとしてのCPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303、SSD(Solid State Drive)304、外部機器接続I/F(Interface)305、ネットワークI/F306、メディアI/F309、及びバスライン310を備えている。
【0019】
これらのうち、CPU301は、回答生成装置3全体の動作を制御する。ROM302は、IPL(Initial Program Loader)等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。
【0020】
SSD304は、CPU301の制御に従って各種データの読み出し又は書き込みを行う。なお、SSD304の代わりに、HDD(Hard Disk Drive)を用いても良い。
【0021】
外部機器接続I/F305は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、USB(Universal Serial Bus)メモリ、及びプリンタ等である。
【0022】
ネットワークI/F306は、通信ネットワーク100を介してデータ通信をするためのインターフェースである。
【0023】
メディアI/F309は、フラッシュメモリ等の記録メディア309mに対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア309mには、DVD(Digital Versatile Disc)やBlu-ray Disc(登録商標)等も含まれる。
【0024】
バスライン310は、
図2に示されているCPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0025】
<通信端末のハードウェア構成>
次に、
図3を用いて、通信端末5の電気的なハードウェア構成を説明する。
図3は、通信端末の電気的なハードウェア構成図である。
【0026】
通信端末5は、コンピュータとして、
図3に示されているように、CPU501、ROM502、RAM503、SSD504、外部機器接続I/F(Interface)505、ネットワークI/F506、ディスプレイ507、ポインティングデバイス508、メディアI/F509、及びバスライン510を備えている。
【0027】
これらのうち、CPU501は、通信端末5全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。
【0028】
SSD504は、CPU501の制御に従って各種データの読み出し又は書き込みを行う。なお、SSD504の代わりに、HDD(Hard Disk Drive)を用いてもよい。
【0029】
外部機器接続I/F505は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、USBメモリ、及びプリンタ等である。
【0030】
ネットワークI/F506は、通信ネットワーク100を介してデータ通信をするためのインターフェースである。
【0031】
ディスプレイ507は、各種画像を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。
【0032】
ポインティングデバイス508は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。なお、ユーザがキーボードを使う場合は、ポインティングデバイス508の機能をOFFにしてもよい。
【0033】
メディアI/F509は、フラッシュメモリ等の記録メディア509mに対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア509mには、DVDやBlu-ray Disc(登録商標)等も含まれる。
【0034】
バスライン510は、
図3に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0035】
〔回答生成装置の機能構成〕
本実施形態に係る回答生成装置3aの学習フェーズ及び推論(予測)フェーズにおける機能構成について説明する。なお、
図4に学習フェーズの機能構成、
図7に推論フェーズの機能構成を示すが、回答生成装置3aは、
図4と
図7の各部をまとめて有していてもよい。
【0036】
<学習フェーズの機能構成>
まず、
図4を用いて、学習フェーズにおける回答生成装置3aの各機能について説明する。
図4は、第1の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。なお、回答生成装置3aは、回答生成装置3の一例である。
【0037】
図4に示すように、回答生成装置3aは、入力部30、テキスト抽出部31a、物体抽出部32a、データ拡張部33、エンコード部35a、デコード部36a、及びパラメータ学習部38aを有する。これら各部は、プログラムに基づき
図2のCPU301による命令によって実現される機能である。また、RAM303又はSSD304には、機械学習モデル41aが構築されている。なお、エンコード部とデコード部の処理は、ニューラルネットワークのモデルパラメータに基づいたものである。
【0038】
入力部30は、通信端末7を介して、回答生成装置3aに、学習データ(質問文、正解回答情報、及び文書画像の各データ)を入力する。または、入力部30は、回答生成装置3aに、直接、学習データを入力する。
図5は、質問文、文書画像、及び正解回答情報の例を示す図である。例えば、
図5に示すように、質問文は「糖尿病を防げた事例の割合は?」である。文書画像は、
図5の右側の画像である。正解回答情報は「40%」である。
【0039】
テキスト抽出部31aは、入力部30によって入力された文書画像を入力して、文書画像中のテキスト情報(文書テキスト系列、文書テキスト矩形領域の各情報)を出力する。
【0040】
そのため、テキスト抽出部31aは、文書画像に含まれるテキストの領域を検出し、検出された領域内のテキストをOCR(Optical Character Recognition)等で認識して、文書画像中のテキスト情報を出力する。文書画像中のテキスト情報には、文書テキスト系列及び文書テキスト矩形領域を少なくとも含む。ここで出力される文書テキスト系列は、テキストの座標に応じて、left-to-right,top-to-downの順番で並び替えられている。また、文書テキスト矩形領域は、例えば、「60%」を示す文書画像における矩形領域の左上座標及び右下座標によって表される。これらの処理は、文書画像からテキスト系列、及びテキストの矩形領域を出力できるものであれば何でもよい。本実施形態においては、処理の一例として参考文献1に示されるTesseractを用いる。
<参考文献1>Google: Tesseract Manual. 2018.(https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc)
物体抽出部32aは、入力部30によって入力された文書画像を入力して、文書画像中の物体情報(物体領域特徴情報、物体領域意味ラベル、及び物体矩形領域情報)を出力する。
【0041】
そのため、物体抽出部32aは、文書画像に含まれる物体情報を抽出し、文書画像中の物体情報として出力する。文書画像中の物体情報には、物体(グラフやアイコンなど)の領域特徴vobj、物体領域の意味を表すラベルである物体領域意味ラベル、物体領域の座標を表す物体矩形領域情報を少なくとも含む。これらの処理は、文書画像から、物体領域特徴情報、物体領域意味ラベル、及び物体矩形領域情報を獲得できれば、何を用いても良い。本実施形態においては、処理の一例として参考文献2のFaster-RCNNを用いる。
<参考文献2>Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS 2015: 91-99
ここで、本実施形態においては、領域特徴vobjは2048次元のベクトル系列、物体領域意味ラベルは参考文献3で定義された391種類の意味ラベル(graphやdogなど)、矩形領域情報は画像情報上の領域の左上座標と右下座標で表現される。
<参考文献3>Spandan Mada, Zoya Bylinskii, Mathew Tanik, Adria Recasens, Kimberli Zhong, Sami Alesheikh, Hanspeter Pfister, Aude Oliva, Fredo Durand: Synthetically Trained Icon Proposals for Parsing and Summarizing Inforgraphics. arXiv:1807.10441
データ拡張部33は、入力部30によって入力された正解回答情報、及びテキスト抽出部31aによって抽出された文書テキスト系列を入力して、算術演算過程を示す算術演算過程情報を出力する。
【0042】
そのため、データ拡張部33は、正解回答情報及び文書画像内のテキストを用いて、算術演算過程(例えば、「100%-60%=」)を出力する。
【0043】
データ拡張部33の処理は以下の通りである。
【0044】
S111:データ拡張部33は、文書テキスト系列から、所定の件数の数値データを抽出する。本実施形態においては、一例として7件抽出することとする。文字で書かれた数値(one, two等)に関しては、データ拡張部33によって数値データに変換される。
図5の例においては、数値データとして「1.7, 1, 10, 4.3, 3.6, 6, 60」が抽出される。
【0045】
S112:データ拡張部33は、例えば、予め「A+B」、「A-B」、「100-A」の3種類の異なった算術演算過程を示すテンプレートを保持している。なお、これら以外の算術演算過程を示すテンプレートを用いることも可能である。データ拡張部33は、S111で抽出した数値データの中から任意の数値をA、Bとし、算術演算過程を示すテンプレートに代入する。
図5の例においては、A=60,B=6の場合、66、54、40が代入結果として出力される。
【0046】
S113:データ拡張部33は、上記S112で代入した所定のテンプレートに対して計算を実施し、計算結果(代入結果)と正解回答情報とを比較する。比較の結果、計算結果と正解回答情報が同様のテキスト(値)の場合、上記S112で代入したテンプレートを算術演算過程と特定して、この算術演算過程を示す算術演算過程情報を生成して出力する。
図5の例においては、上記S2の代入結果である「40%」が回答正解情報と一致するため、算術演算過程情報が「100%-60%」となる。
【0047】
また、エンコード部35a及びデコード部36aは、系列変換部20aを構成する。
図6は、第1の実施形態に係り、系列変換部の詳細な構成図である。系列変換部20aは、ニューラルネットワークのモデルパラメータを用いて、入力された情報に基づいて出力系列情報を生成する。モデルの構成は、系列を入力として系列を生成する、一般的なencoder-decoderモデル形式を採用する。
【0048】
図6に示すように、エンコード部35aは、文書画像中のテキスト情報受付部351、文書画像中の物体情報受付部352、及び質問文受付部353を有している。これらは、ニューラルネットワークの入力層を構築している。
【0049】
文書画像中のテキスト情報受付部351は、文書画像中のテキスト情報(テキスト系列、テキストの矩形領域情報)を受け付ける。文書画像中の物体情報受付部352は、文書画像中の物体情報(物体領域特徴、物体領域意味ラベル、物体領域の矩形領域情報)を受け付ける。質問文受付部353は、質問文を受け付ける。
【0050】
更に、エンコード部35aは、複数の変換部層1(Transformer)3551乃至変換部層L(Transformer)355Lを有している。複数の変換部層1(Transformer)3551乃至変換部層L(Transformer)355Lは、入力層から上記各情報を受け継ぎ、順次後述の計算を行う。
【0051】
また、デコード部36aは、複数の変換部層1(Transformer)3651乃至変換部層L(Transformer)365Lを有している。複数の変換部層1(Transformer)3651乃至変換部層L(Transformer)365Lは、エンコード部35aの変換部層L(Transformer)355Lからエンコード特徴量を受け継ぎ、順次後述の計算を行う。エンコード特徴量は、エンコード部35aに入力された文書画像および質問文の情報を、ニューラルネットワークのモデルパラメータに基づいて変換された所定次元のベクトルを示す。
【0052】
なお、複数の変換部層1(Transformer)3551乃至変換部層L(Transformer)355L、及び、複数の変換部層1(Transformer)3651乃至変換部層L(Transformer)365Lは、ニューラルネットワークの中間層を構築している。
【0053】
更に、デコード部36aは、回答情報出力部357、及び算術演算過程情報出力部358を有している。これらは、ニューラルネットワークの出力層を構築している。回答情報出力部357は、中間層により得られた回答情報の出力確率分布情報を出力する。算術演算過程情報出力部358は、中間層により得られた算術演算過程の出力確率分布情報を出力する。
【0054】
以上により、系列変換部20aは、質問文、文書画像中のテキスト情報、文書画像中の物体情報、回答情報、及び算術演算過程情報を入力して、出力系列情報を出力することになる。回答情報は、学習フェーズには正解回答情報、推論フェーズにはテキスト生成部39で推論された回答情報を用いる。算術演算過程情報は、学習フェーズにはデータ拡張部33から出力された算術演算過程情報、推論フェーズにはテキスト生成部39で推論された算術演算過程情報である。出力系列情報は、回答情報の出力確率分布情報、及び算術演算過程の出力確率分布情報を示す。以下、エンコード部35a及びデコード部36aについて更に詳細に説明する。
【0055】
エンコード部35aは、質問文、テキスト抽出部31aによって抽出された文書画像中のテキスト情報、及び物体抽出部32aによって抽出された文書画像中の物体情報を入力して、エンコード特徴量を出力する。具体的には、エンコード部35aは、質問文、文書テキスト系列、文書テキスト矩形領域、物体矩形領域情報、物体領域意味ラベル、物体矩形領域情報を入力する。
【0056】
そのため、エンコード部35aは、文書画像内のテキスト、物体、及び質問文のエンコードを行う。この場合、画像と言語両方の特徴量を入力として、両方を合わせた特徴量を出力する際に一般的な処理を行えばよい。一例としての処理は以下の通りである。
【0057】
S121:エンコード部35aは、質問文、文書テキスト系列、及び物体領域意味ラベルをそれぞれ、所定の処理単位であるトークン系列wocr, wq, wobjに分割する。本実施形態においては、トークナイズ処理の一例として、参考文献4に示されるByte-level BPEを用いる。なお、本ステップの代わりに、エンコード部35aは、エンコード部35aの外部、例えばテキスト抽出部31a及び物体抽出部32aで予め生成されたトークン系列wocr, wq, wobjを取得するようにしてもよい。
【0058】
また、処理単位(トークン)は、テキストを所定単位で分割(トークナイズ)したものであれば何でもよい。トークナイズの結果であるトークン系列は、1以上のトークンからなる系列である。所定単位(トークン)は、例えば単語であってもよいし、サブワードであってもよい。
<参考文献4>Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever: Language models are unsupervised multitask learners. Technical report, OpenAI, 2019.
S122:エンコード部35aは、サブワードトークン系列wocr,wq,wobj及び物体領域特徴vobjを用いて、以下の入力トークン系列を用意する。
【0059】
【数1】
ここで、[CLS]は開始記号を表す特殊トークン、[SEP]は中間記号を表す特殊トークンを表す。本実施形態において、xは系列長U=1024のトークン系列である。
【0060】
S123:エンコード部35aは、系列中のk番目の入力埋め込み系列を以下のように定義する。
【0061】
【数2】
ここで、LayerNormは、本実施形態では、参考文献4に示される正規化手法を用いる。
【0062】
【0063】
【数4】
を、対応するD次元のベクトルに埋め込む変換である。本実施形態では、参考文献5により学習済みの埋め込みベクトル(D=1024)を初期値とし、学習パラメータとする。また、他の事前学習済み言語モデルのパラメータを用いても良い。
<参考文献5>Jacob Devlin, Ming-Wei Chang, Kanton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL19
【0064】
【数5】
は、物体又はテキストを区別する2種の埋め込みであり、D次元のベクトルの埋め込みである。
【0065】
【数6】
はトークン系列中の位置に応じてD次元のベクトルに変換する処理である。本実施形態では参考文献5で用いられる手法を用いる。
【0066】
【数7】
はトークン系列の文書テキスト矩形領域情報及び物体矩形領情報を表すD次元の埋め込みである。本実施形態では、非特許文献2で用いられる手法を用いる。ただし、質問文、物体領域ラベルに該当する矩形領域情報はD次元の0ベクトルとする。
【0067】
S124:エンコード部35aは、入力埋め込み系列
【0068】
【数8】
をL層のTransformerに入力し、エンコード特徴量
【0069】
【数9】
を出力する。本実施形態では、参考文献6で示す事前学習済みのTransformerを用いる。また、他の事前学習済み言語モデルのパラメータを用いても良い。ここで、本実施形態では、L=12を用いる。
<参考文献6>Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton: Layer Normalization. Arxiv, 2016.
デコード部36aは、エンコード部35aから出力されたエンコード特徴量、並びに、回答情報及び算術演算過程情報を入力して、出力系列情報を出力する。ここで、回答情報は、学習フェーズにはパラメータ学習部38aから出力されるトークナイズ処理済みの正解回答情報(トークナイズ後のトークン系列)、推論フェーズにはテキスト生成部39で推論された回答情報のトークンである。算術演算過程情報は、学習フェーズにはパラメータ学習部38aから出力されるトークナイズ処理済み算術演算過程情報、推論フェーズにはテキスト生成部39で推論された算術演算過程情報である。また、出力系列情報は、回答情報の出力確率分布情報、及び算術演算過程の出力確率分布である。
【0070】
そのため、デコード部36aは、エンコード部35aで得られたエンコード特徴量に基づいて、回答及び算術演算過程のそれぞれ確率分布を出力する。処理は以下の通りである。
【0071】
S131:デコード部36aは、学習フェーズにおいては、パラメータ学習部38aにより出力される正解回答情報および算術演算過程のトークン系列を出力ステップ毎に取得し、それぞれのトークン系列を結合することで出力系列を作成する。また、デコード部36aは、推論フェーズにおいては、テキスト生成部39において、出力ステップ毎に再帰的に出力されるトークンを結合したものを出力系列とする。また、デコード部36aは、学習フェーズには、系列の開始記号と終端記号を付与し、推論フェーズには、系列の開始記号のみを付与する。本実施形態においては、一例として開始記号に[CLS]、終端記号に[EOS]記号を付与する。さらに、本実施形態においては、トークナイズ処理の一例として、参考文献3に示されるByte-level BPEを用いる。
【0072】
S132:デコード部36aは、出力系列をエンコード部35aと同様に、以下の埋め込みに変換する。
【0073】
【数10】
この埋め込みとエンコード特徴量をL層のTransformerに入力し、出力トークンの表現
【0074】
【数11】
を出力する。本実施形態においては、参考文献6で示す事前学習済みのTransformerを用いる。また、同様に、他の事前学習済み言語モデルのパラメータを用いても良い。なお、Tは、出力トークン系列の長さであり、本実施形態においては、T=24とした。
【0075】
ここで、
【0076】
【0077】
【数13】
を、対応するD次元のベクトルに埋め込む変換である。本実施形態では、参考文献5により学習済みの埋め込みベクトル(D=1024)を初期値とし、これを学習パラメータとする。また、他の事前学習済み言語モデルのパラメータを用いても良い。
【0078】
【数14】
は物体又はテキストを区別する2種の埋め込みであり、D次元のベクトル埋め込みである。
【0079】
【数15】
はトークン系列中の位置に応じてD次元のベクトルに変換する処理である。本実施形態では参考文献5で示される手法を用いる。
【0080】
S133:デコード部36aは、出力トークンの表現を
【0081】
【数16】
を基に、線形変換とsoftmax関数を通すことで、t番目の単語の確率分布
【0082】
【数17】
(回答情報の出力確率分布情報及び算術演算過程の出力確率分布情報)を求める。tは、0 ≦ t ≦T を満たす。
【0083】
パラメータ学習部38aは、出力系列情報(回答情報の出力確率分布情報、算術演算過程の出力確率分布情報)、正解情報(正解回答情報、算術演算過程情報)を入力して、パラメータ更新情報、トークナイズ処理済み正解回答情報、トークナイズ処理済み算術演算過程情報を出力する。但し、正解情報としては、トークナイズ処理済みの情報であってもよい。
【0084】
そのため、パラメータ学習部38aは、正解情報(正解回答情報、算術演算過程情報)に対してトークナイズ処理を行う。但し、正解回答情報はトークナイズ処理済みの情報を入力としてもよい。また、算術演算過程情報は、別の処理部(例えばデータ拡張部33)によってトークナイズ処理が行われた情報であってもよい。本実施形態においては、トークナイズ処理の一例として、参考文献3に示されるByte-level BPEを用いる。
【0085】
パラメータ学習部38aは、出力系列情報及び正解情報に基づいて、以下の損失を算出し、最小化するように、機械学習モデル41aのモデルパラメータの更新を行う。
【0086】
【数18】
は出力テキストにおいて、正解情報のトークンである。
【0087】
【数19】
また、パラメータ学習部38aは、トークナイズ処理を行った正解回答情報及び算術演算過程情報を出力する。
【0088】
以上により、学習フェーズの機能構成の説明は終了する。
【0089】
<推論フェーズの機能構成>
続いて、推論フェーズにおける回答生成装置3aの各機能について説明する。
図7は、推論フェーズにおける回答生成装置の機能構成図である。
【0090】
図7に示すように、回答生成装置3aは、入力部30、テキスト抽出部31a、物体抽出部32a、エンコード部35a、デコード部36a、テキスト生成部39b、及び出力部40aを有する。これら各部は、プログラムに基づき
図2のCPU301による命令によって実現される機能である。また、RAM303又はSSD304には、学習済み機械学習モデル41bが記憶されている。なお、学習フェーズにおける機能構成と同様の機能構成については、同一の符号を付して説明を省略する。
【0091】
テキスト生成部39は、デコード部36aからの出力系列情報を入力して、回答情報、及び算術演算過程情報を出力する。第1の実施形態の出力系列情報は、回答情報の出力確率分布情報、及び算術演算過程の出力確率分布情報である。
【0092】
そのため、テキスト生成部39は、出力系列情報に含まれる回答情報の出力確率分布情報及び算術演算過程の出力確率分布情報を基に、回答情報及び算術演算過程情報を再帰的に生成する。テキスト生成部39は、出力処理毎に確率分布の最大となる単語を選択、又は、確率分布に従ってサンプリングにより単語を生成し、文末トークン[EOS]が生成された場合に単語の生成を終了する。
【0093】
出力部40aは、テキスト生成部39によって出力された回答情報及び算術演算過程情報に基づいて、回答生成装置3aから推論結果を出力する。出力する例としては、
図2の外部機器接続I/F305に接続されたディスプレイに表示させる場合、ネットワークI/F306を介して通信端末5等に送信する場合等が挙げられる。
【0094】
〔回答生成装置の処理又は動作〕
続いて、
図8及び
図9を用いて、回答生成装置3aの学習フェーズ及び推論フェーズにおける処理又は動作について説明する。
【0095】
<学習フェーズにおける処理又は動作>
図8は、学習フェーズにおいて回答生成装置が実行する機械学習方法を示すフローチャートである。
【0096】
S11:入力部30は、通信端末7から又は直接的に、学習データ(正解回答情報、文書画像、質問文)を入力する。
【0097】
S12:テキスト抽出部31aは文書画像からテキスト情報を抽出し、物体抽出部32aは文書情報から物体情報を抽出する。
【0098】
S13:データ拡張部33は算術演算過程情報を生成する。
【0099】
S14:エンコード部35aはエンコード特徴量を生成する。
【0100】
S15:デコード部36aは回答情報及び算術演算過程情報を生成する。
【0101】
S16:パラメータ学習部38aは損失を計算してパラメータを更新する。
【0102】
S17:パラメータ学習部38aは未処理データがあるかを判断する。そして、未処理データがある場合には(S17;YES)、処理S11に戻る。一方、未処理データがない場合には(S17;NO)、学習フェーズの処理は終了する。
【0103】
以上により、学習フェーズの処理又は動作の説明は終了する。
【0104】
<推論フェーズにおける処理又は動作>
図9は、推論フェーズにおいて回答生成装置が実行する回答生成方法を示すフローチャートである。
【0105】
S21:入力部30aは、通信端末7から又は直接的に、入力データ(文書画像、質問文)を入力する。
【0106】
S22:テキスト抽出部31aは文書画像からテキスト情報を抽出し、物体抽出部32aは文書情報から物体情報を抽出する。
【0107】
S23:エンコード部35aはエンコード特徴量を生成する。
【0108】
S24:テキスト生成部39は回答情報及び算術演算過程情報を生成する。
【0109】
S25:テキスト生成部39は文末記号が出力されたかを判断する。そして、文末記号が出力されない場合には(S25;NO)、処理S24に戻る。一方、文末記号が出力された場合には(S25;YES)、処理S26に進む。
【0110】
S26:出力部40は、回答情報及び算術演算過程情報を含む推論結果の情報を出力する。
【0111】
以上により、推論フェーズの処理又は動作の説明が終了する。
【0112】
〔第1の実施形態の実験条件及び実験結果〕
続いて、本実施形態の実験条件及び実験結果について説明する。
【0113】
<実験条件>
(実験設定)
事前学習とFine-tuningの両方でバッチサイズ64とし、回答生成装置3aは、30エポック学習した。Adam(参考文献8)を用いて最適化し学習率は「3e-5」とした。v
obj,w
obj,w
ocr,w
taskの最大長をそれぞれ、36,20,430,40 とした。開発、テストデータにおける評価はBERT-{base,large}を事前学習時の重みの初期値とした。また、large は、baseの実験を基にハイパーパラメータを設定した。
<参考文献8>Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
(評価指標)
ICDAR 2021 Competition で採用されたANLS(参考文献9)(予測文と正解文集合との平均編集距離)を用いる。また、算術演算を必要とする例に絞った(開発データの17.4%)際のANLS をANUM と示す。
<参考文献9>Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomezi Bigorda, Marcal Rusinol, C. V. Jawahar, Ernest Valveny, and Dimosthenis Karatzas. Scene text visual question answering.In ICCV, pp. 4290-4300, 2019.
<実験結果>
図19は、第1、第2の実施形態に係り、実験結果を示す表である。
図19に示すように、表の2行目「BERT w/o ADA」及び5行目の「IG-BERT w/o SRP + ADA」に示すように、算術演算過程の概念を用いることで、用いない従来に比べて、ANLS及びANUMの値が減少した。
【0114】
〔第1の実施形態の効果〕
以上説明したように第1の実施形態によれば、回答生成装置3aが回答情報で必要な算術演算過程を生成するために、系列変換部20aが機械学習モデル41aを用いて、学習フェーズには回答情報で必要な算術演算過程を生成するよう学習を行う。これにより、回答生成装置3aによって文書画像に含まれる数値データの理解能力が向上し、従来技術よりも高い性能で算術演算を伴う回答情報の生成が可能になる。
【0115】
また、データ拡張部は、複数のテンプレートを用意し、所定のテンプレートを用いることで、算術演算過程情報を自動で生成する。これにより、算術演算過程の正解回答情報を人手で作成する場合に比べて、学習データの作成のコストを下げることができる。
【0116】
また、文書画像に含まれる物体(アイコン、グラフなど)及びテキスト(60%など)の配置関係を理解することは、システムが文書画像を理解して質問応答を行う上で、非常に重要な要素の一つである。本実施形態の回答生成装置3aは、実世界に多数存在する視覚的に表現された文書(インフォグラフィックやPDF文書、HTML文書など)を知識源として理解し、算術演算を伴う質問応答を行うことが可能となる。
【0117】
●第2の実施形態
続いて、
図10乃至
図15を用いて、本発明の第2の実施形態について説明する。なお、質問文を示す質問テキスト及びテキストを含む文書画像を入力として、文書画像の内容に基づいて質問に対する回答情報を生成する従来技術に対して、本発明の第2の実施形態に係る回答生成装置3bは特定の改善を提供するものであり、ニューラルネットワークを用いた回答情報の生成に係る技術分野の向上を示すものである。また、本実施形態に係る通信システムの全体構成、及びハードウェア構成は、第1の実施形態と同様であるため、説明を省略する。更に、
図10に学習フェーズの機能構成、
図15に推論フェーズの機能構成を示すが、回答生成装置3bは、
図10と
図13の各部をまとめて有していてもよい。
【0118】
〔回答生成装置の機能構成〕
本実施形態に係る回答生成装置3bの学習フェーズ及び推論(予測)フェーズにおける機能構成について説明する。
【0119】
<学習フェーズの機能構成>
図10を用いて、学習フェーズにおける回答生成装置3bの各機能について説明する。
図10は、第2の実施形態に係り、学習フェーズにおける回答生成装置の機能構成図である。なお、回答生成装置3bは、回答生成装置3の一例である。
【0120】
図4に示すように、回答生成装置3bは、入力部30、テキスト抽出部31b、物体抽出部32b、正解配置関係導出部34、エンコード部35b、デコード部36b、配置関係予測部37、及びパラメータ学習部38bを有する。これら各部は、プログラムに基づき
図2のCPU301による命令によって実現される機能である。また、RAM303又はSSD304には、機械学習モデル42a、及び機械学習済みの機械学習モデル(W
srp)43が構築されている。なお、入力部30、テキスト抽出部31b、物体抽出部32b、及びエンコード部35bは、それぞれ第1の実施形態における、入力部30、テキスト抽出部31a、物体抽出部32a、及びエンコード部35bと同様の処理を実行するため、説明を省略する。
【0121】
入力部30は、通信端末7を介して、回答生成装置3bに、学習データ(質問文、正解回答情報、及び文書画像の各データ)を入力する。または、入力部30は、回答生成装置3aに、直接、学習データを入力する。
図11は、第2の実施形態に係り、正解配置関係導出部の処理の概念図である。例えば、
図11に示すように、質問文は「女性のアイコンの上に書かれている数字は何か?」である。文書画像は、
図5と同じである。正解回答情報は「3.6%」である。
【0122】
正解配置関係導出部34は、テキスト抽出部31bから出力された文書テキストの矩形領域情報、及び物体抽出部32bから出力された物体の矩形領域情報を入力して、文書テキストの矩形選択領域情報(第1の矩形選択領域情報の一例)、物体の矩形選択領域情報(第2の矩形選択領域情報の一例)、及び正解配置関係情報を出力する。
【0123】
そのため、正解配置関係導出部34は、物体の矩形領域情報及び文書テキストの矩形領域情報から、それぞれ1つずつランダム所定の物体の矩形領域情報及び所定の文書テキストの矩形領域情報を選択し、Mクラス(M=1以上であれば,何でも良い)からなる正解配置関係を定義して出力する。本実施形態においては、参考文献7で定義されたM=12の配置関係(
図11の右下を参照)を用いる。ここでは、実線の矩形領域に対する破線の矩形領域の配置関係に関して、11クラスの配置関係分類タスクと、矩形の領域同士が離れすぎている1クラスの配置関係分類タスクによる合計12クラスの配置関係分類タスクを解く例が示されている。
<参考文献7>Ting Yao, Yingwei Pan, Yehao Li, Tao Mei: Exploring visual relationship for image captioning. ECCV18
また、エンコード部35b及びデコード部36bは、系列変換部20bを構成する。
図12は、第2の実施形態に係り、系列変換部の詳細な構成図である。系列変換部20bは、ニューラルネットワークのモデルパラメータを用いて、入力された情報に基づいて出力系列情報を生成する。モデルの構成は、系列を入力として系列を生成するための一般的なencoder-decoderモデル形式を採用する。
【0124】
系列変換部20bは、第1の実施形態における系列変換部20aのうち算術演算過程情報出力部358を有しないで、その他は有するため、同じ部等には同一の符号を付して説明を省略する。
【0125】
デコード部36bは、基本的にデコード部36aと同様の処理を行うが、第2の実施形態ではデータ拡張部33がないため、算術演算過程情報の入力はなく、算術演算過程の出力確率分布情報の出力はない。
【0126】
配置関係予測部37は、正解配置関係導出部34によって導出された文書テキストの矩形選択領域情報及び物体の矩形選択領域情報、並びに、エンコード部35bから出力されたエンコード特徴量を入力して、予測配置関係分布情報を出力する。
【0127】
そのため、配置関係予測部37は、エンコード特徴量を基に、画像文書内の物体とテキストとの配置関係を予測することで、配置関係を考慮した回答生成が可能となる。配置関係予測部37処理は以下の通りである。
【0128】
S211:配置関係予測部37は、物体とテキストに対応するエンコード特徴量(エンコード部35aに入力された文書画像および質問文の情報を、ニューラルネットワークのモデルパラメータに基づいて変換された所定次元のベクトル)から、正解配置関係導出部34によって出力された文書テキストの矩形選択領域情報及び物体の矩形選択領域情報に対応する特徴量eobj及びetextを獲得する。
【0129】
S212:配置関係予測部37は、eobj及びetextを基に、予測配置関係分布情報を以下の通り算出して出力する。
【0130】
【数20】
パラメータ学習部38bは、第2の実施形態ではデータ拡張部33がないため、算術演算過程情報の入力はなく、算術演算過程の出力確率分布情報の出力はない。パラメータ学習部38bは、入力部30から出力された正解回答情報、デコード部36bから出力された出力系列情報(回答情報の出力確率分布情報)、配置関係予測部37から出力された予測配置関係分布情報、及び正解配置関係導出部から出力された正解配置関係情報を入力して、パラメータ更新情報、及びトークナイズ処理済み正解回答情報を出力する。但し、正解回答情報としては、トークナイズ処理済みの情報であってもよい。
【0131】
そのため、パラメータ学習部38bは、正解回答情報に対してトークナイズ処理を行う。但し、正解回答情報はトークナイズ処理済みの情報を入力としてもよい。本実施形態においては、トークナイズ処理の一例として、参考文献3に示されるByte-level BPEを用いる。
【0132】
パラメータ学習部38bは、出力系列情報及び正解情報に基づいて、以下の損失を算出し、最小化するように、機械学習モデル42aのモデルパラメータの更新を行う。
【0133】
【0134】
【数22】
は出力テキストにおいて、正解情報のトークンである。
【0135】
【数23】
L
srpは以下の通りである。q
srpは,正解配置関係のone-hotベクトルである。
【0136】
【数24】
また、パラメータ学習部38bは、トークナイズ処理を行った正解回答情報を出力する。
【0137】
以上により、学習フェーズの機能構成の説明は終了する。
【0138】
<推論フェーズの機能構成>
続いて、推論フェーズにおける回答生成装置3bの各機能について説明する。
図13は、推論フェーズにおける回答生成装置の機能構成図である。
【0139】
図7に示すように、回答生成装置3bは、入力部30、テキスト抽出部31b、物体抽出部32b、エンコード部35b、デコード部36b、テキスト生成部39b、及び出力部40bを有する。これら各部は、プログラムに基づき
図2のCPU301による命令によって実現される機能である。また、RAM303又はSSD304には、学習済み機械学習モデル42bが記憶されている。なお、学習フェーズにおける機能構成と同様の機能構成については、同一の符号を付して説明を省略する。
【0140】
テキスト生成部39bは、デコード部36aからの出力系列情報を入力して、回答情報を出力する。第2の実施形態の出力系列情報は、回答情報の出力確率分布情報である。
【0141】
そのため、テキスト生成部39bは、出力系列情報を基に、回答情報を再帰的に生成する。テキスト生成部39bは、出力ステップ毎に確率分布の最大となる単語を選択、又は確率分布に従ってサンプリングにより単語を生成し、文末トークン[EOS]が生成された場合に単語の生成を終了する。
【0142】
出力部40bは、テキスト生成部39によって出力された回答情報に基づいて、回答生成装置3bから推論結果を出力する。出力する例としては、
図2の外部機器接続I/F305に接続されたディスプレイに表示させる場合、ネットワークI/F306を介して通信端末5等に送信する場合等が挙げられる。
【0143】
〔回答生成装置の処理又は動作〕
続いて、
図14及び
図15を用いて、回答生成装置3bの学習フェーズ及び推論フェーズにおける処理又は動作について説明する。
【0144】
<学習フェーズにおける処理又は動作>
図14は、学習フェーズにおいて回答生成装置が実行する機械学習方法を示すフローチャートである。
【0145】
S31:入力部30は、通信端末7から又は直接的に、学習データ(正解回答情報、文書画像、質問文)を入力する。
【0146】
S32:テキスト抽出部31bは文書画像からテキスト情報を抽出し、物体抽出部32bは文書情報から物体情報を抽出する。
【0147】
S33:正解配置関係導出部34は正解配置関係を導出する。
【0148】
S34:エンコード部35bはエンコード特徴量を生成する。
【0149】
S35:デコード部36bは回答情報を予測して回答情報の出力確率分布情報を出力し、配置関係予測部37は配置関係情を予測して予測配置関係分布情報を出力する。
【0150】
S36:パラメータ学習部38bは損失を計算してパラメータを更新する。
【0151】
S37:パラメータ学習部38bは未処理データがあるかを判断する。そして、未処理データがある場合には(S37;YES)、処理S31に戻る。一方、未処理データがない場合には(S37;NO)、学習フェーズの処理は終了する。
【0152】
以上により、学習フェーズの処理又は動作の説明は終了する。
【0153】
<推論フェーズにおける処理又は動作>
図15は、推論フェーズにおいて回答生成装置が実行する回答生成方法を示すフローチャートである。
【0154】
S41:入力部30は、通信端末7から又は直接的に、入力データ(文書画像、質問文)を入力する。
【0155】
S42:テキスト抽出部31bは文書画像からテキスト情報を抽出し、物体抽出部32aは文書情報から物体情報を抽出する。
【0156】
S43:エンコード部35bはエンコード特徴量を生成する。
【0157】
S44:テキスト生成部39は回答情報を生成する。
【0158】
S45:テキスト生成部39は文末記号が出力されたかを判断する。そして、文末記号が出力されない場合には(S45;NO)、処理S44に戻る。一方、文末記号が出力された場合には(S45;YES)、処理S46に進む。
【0159】
S46:出力部40bは、回答情報を含む推論結果の情報を出力する。
【0160】
以上により、推論フェーズの処理又は動作の説明が終了する。
【0161】
〔実験条件及び実験結果〕
続いて、第2の実施形態の実験条件及び実験結果について説明する。なお、第2の実施形態の実験条件は第1の実施形態と同様であるため省略する。
【0162】
<実験結果>
図19に示すように、表の4行目「IG-BERT w/o SRP」に示すように、配置関係の概念を用いることで、用いない従来に比べて、ANLS及びANUMの値が減少した。
【0163】
〔第2の実施形態の効果〕
以上説明したように第2の実施形態によれば、回答生成装置3bでは、回答情報の生成の機械学習に加えて、配置関係予測部37及びパラメータ学習部38bによって、文書画像内の物体とテキストとの配置関係に関する学習を行う。これにより、配置関係を考慮した回答情報の生成が可能となる。よって、回答生成装置3bにおける物体とテキストとの配置関係を理解する性能が向上し、従来技術よりも高い性能で文書画像を理解して質問に対する応答が可能になる。
【0164】
以上により、回答生成装置3bは、実世界に多数存在する視覚的に表現された文書(インフォグラフィック、PDF文書、HTML文書など)を知識源として理解し、質問応答を行うことが可能となる。
【0165】
●補足
本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
【0166】
(1)回答生成装置3a,3bはコンピュータとプログラムによっても実現できるが、このプログラムを(非一時的な)記録媒体に記録することも、通信ネットワーク100を介して提供することも可能である。
【0167】
(2)上記実施形態では、通信端末5の一例としてノート型パソコンが示されているが、これに限るものではなく、例えば、デスクトップパソコン、タブレット端末、スマートフォン、スマートウォッチ、カーナビゲーション装置、冷蔵庫、電子レンジ等であってもよい。 (3)各CPU301,501は、単一だけでなく、複数であってもよい。
【0168】
●付記項
上述の実施形態には、以下に示す発明としても表すことができる。
【0169】
〔付記項1〕
文書画像の内容に基づいて質問文に対する回答情報を生成するプロセッサを有する回答生成装置であって、
前記プロセッサは、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、エンコード特徴量を出力するエンコード処理と、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報を出力するデコード処理と、
前記文書画像における複数の文書テキストの矩形領域を示す矩形領域情報から選択した所定の文書テキストの矩形領域を示す第1の矩形選択領域情報を導出し、前記文書画像における1以上の物体の矩形領域を示す矩形領域情報から選択した所定の物体の矩形領域を示す第2の矩形選択領域情報を導出すると共に、前記所定の物体に対する前記所定の文書テキストの配置関係を示す正解配置関係情報を導出する正解配置関係導出処理と、
前記エンコード特徴量に基づいて、前記第1の矩形選択領域情報に係る前記所定の文書テキストと前記第2の矩形選択領域情報に係る前記所定の物体との配置関係を予測することで、予測配置関係分布情報を出力する配置関係予測部と、
前記回答情報の出力確率分布情報、及び正解回答情報に基づいて(前記回答情報の出力確率分布情報が正解回答情報に近づくように)、並びに、前記予測配置関係分布情報、及び前記正解配置関係情報に基づいて(前記予測配置関係分布情報が前記正解配置関係情報に近づくように)、ニューラルネットワークのモデルパラメータの学習を行うパラメータ学習処理と、
を実行する回答生成装置。
【0170】
〔付記項2〕
前記正解配置関係導出処理は、前記第1の矩形選択領域情報に係る前記所定の文書テキスト及び前記第2の矩形選択領域情報に係る前記所定の物体との配置関係が、所定の配置関係を表す複数のクラスのいずれに該当するかを予測することで前記正解配置関係情報を導出する処理を含む、付記項1に記載の回答生成装置。
【0171】
〔付記項3〕
付記項1又は2に記載の回答生成装置であって、
前記エンコード処理及びデコード処理は、前記パラメータ学習部による予め学習済みの前記モデルパラメータを用い、前記文書画像及び前記質問文に基づいて、前記回答情報の出力確率分布情報を出力する処理を含み、
前記プロセッサは、前記回答情報の出力確率分布情報に基づいて、前記回答情報を生成するテキスト生成処理を実行する、
回答生成装置。
【0172】
〔付記項4〕
文書画像の内容に基づいて質問文に対する回答情報を生成するプロセッサが実行する機械学習方法であって、
前記プロセッサは、
前記文書画像中のテキスト情報及び前記文書画像中の物体を示す物体情報、並びに前記質問文に基づいて、前記文書画像において前記質問文に対応する領域を示すベクトルであるエンコード特徴量を出力し、
前記エンコード特徴量に基づいて、前記回答情報の出力確率分布情報を出力し、
前記文書画像における複数の文書テキストの矩形領域を示す矩形領域情報から選択した所定の文書テキストの矩形領域を示す第1の矩形選択領域情報を導出し、前記文書画像における1以上の物体の矩形領域を示す矩形領域情報から選択した所定の物体の矩形領域を示す第2の矩形選択領域情報を導出すると共に、前記所定の物体に対する前記所定の文書テキストの配置関係を示す正解配置関係情報を導出し、
前記エンコード特徴量に基づいて、前記第1の矩形選択領域情報に係る前記所定の文書テキストと前記第2の矩形選択領域情報に係る前記所定の物体との配置関係を予測することで、予測配置関係分布情報を出力し、
前記回答情報の出力確率分布情報、及び正解回答情報、並びに、前記予測配置関係分布情報、及び前記正解配置関係情報に基づいて、ニューラルネットワークのモデルパラメータの機械学習を行う、
機械学習方法。
【0173】
〔付記項5〕
コンピュータに、付記項1乃至3のいずれか一項に記載の回答生成装置を実現させるプログラムが記録された非一時的記録媒体。
【符号の説明】
【0174】
1 通信システム
3 回答生成装置
3a 回答生成装置
3b 回答生成装置
5 通信端末
30 入力部
31a,31b テキスト抽出部
32a,32b 物体抽出部
33 データ拡張部
34 正解配置関係導出部
35a,35b エンコード部
36a,36b デコード部
37 配置関係予測部
38a,38b パラメータ学習部
39a,39b テキスト生成部
40a,44b 出力部
20a 系列変換部
20b 系列変換部
41a 機械学習モデル
41b 学習済み機械学習モデル
42a 機械学習モデル
42b 学習済み機械学習モデル