IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7594571クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
<>
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図1
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図2
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図3
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図4
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図5
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図6
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図7
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図8
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図9
  • 特許-クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-26
(45)【発行日】2024-12-04
(54)【発明の名称】クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
(51)【国際特許分類】
   G06F 16/30 20190101AFI20241127BHJP
   G06F 40/56 20200101ALI20241127BHJP
   G06F 40/289 20200101ALI20241127BHJP
   G06F 40/216 20200101ALI20241127BHJP
【FI】
G06F16/30
G06F40/56
G06F40/289
G06F40/216
【請求項の数】 30
(21)【出願番号】P 2022176330
(22)【出願日】2022-11-02
(65)【公開番号】P2023012522
(43)【公開日】2023-01-25
【審査請求日】2022-11-02
(31)【優先権主張番号】202111618355.3
(32)【優先日】2021-12-27
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【弁理士】
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【弁理士】
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100201466
【弁理士】
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】リュ, シャンウェン
(72)【発明者】
【氏名】リ, ホンギュ
(72)【発明者】
【氏名】リウ, ジン
(72)【発明者】
【氏名】ウー, ファ
(72)【発明者】
【氏名】ワン, ハイフェン
【審査官】酒井 恭信
(56)【参考文献】
【文献】欧州特許出願公開第03816818(EP,A2)
【文献】国際公開第2021/171732(WO,A1)
【文献】米国特許出願公開第2021/0326524(US,A1)
【文献】特開2014-120053(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
G06F 40/20 - 40/58
(57)【特許請求の範囲】
【請求項1】
クロスモーダル情報に基づく文書読解モデルトレーニング装置によって実行されるクロスモーダル情報に基づく文書読解モデルトレーニング方法であって、
質問サンプルとリッチテキスト文書サンプルとを取得するステップであって、前記リッチテキスト文書サンプルには、前記質問サンプルの実回答が含まれるステップと、
前記リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、前記リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得するステップと、
前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップと、
前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするステップと、
を含み、
前記リッチテキスト文書サンプルは長いリッチテキスト文書サンプルであり、
前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップが、
前記長いリッチテキスト文書サンプルのテキスト情報を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問サンプルを各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得するステップと、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップと、
を含む、クロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項2】
前記読解モデルには、段落エンコーダー、文書エンコーダー、画像エンコーダー及び条件付きランダムフィールド(CRF)モジュールが備えられ、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力するステップと、
前記段落エンコーダーによって各前記段落スプライステキストと前記レイアウト情報とをエンコードして、各前記段落スプライステキストのテキストコードを取得するステップと、
前記文書エンコーダーによって各前記段落スプライステキストのテキストコードに対してスプライス処理を行って、前記長いリッチテキスト文書サンプルの文書コードを取得するステップと、
前記画像エンコーダーによって前記画像情報をエンコードして、前記長いリッチテキスト文書サンプルの視覚的特徴を取得するステップと、
前記長いリッチテキスト文書サンプルの文書コードと前記視覚的特徴とに対して融合処理を行って、前記長いリッチテキスト文書サンプルのマルチモーダル融合コードを取得し、前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問サンプルの予測回答を取得するステップと、
を含む請求項1に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項3】
前記読解モデルが分類器を備え、
前記クロスモーダル情報に基づく文書読解モデルトレーニング方法が、
前記マルチモーダル融合コードと前記質問サンプルのコードとをスプライスして、スプライスコードを取得するステップと、
前記スプライスコードを前記分類器に入力して、前記質問サンプルと前記長いリッチテキスト文書サンプルとの間の類似度の予測値を取得するステップと、
を含む請求項2に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項4】
前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするステップが、
前記実回答と前記予測回答とに基づいて、第1の損失値を生成するステップと、
前記類似度の予測値、及び前記質問サンプルと前記長いリッチテキスト文書サンプルとの間の類似度の真の値に基づいて、第2の損失値を生成するステップと、
前記第1の損失値と前記第2の損失値とに基づいて、前記読解モデルをトレーニングするステップと、
を含む請求項3に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項5】
前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問サンプルの予測回答を取得するステップが、
前記マルチモーダル融合コードを前記CRFモジュールに入力するステップと、
前記CRFモジュールから出力された回答シーケンスラベルを取得するステップであって、前記回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれるステップと、
前記回答シーケンスラベルに基づいて、前記長いリッチテキスト文書サンプルから、前記質問サンプルの予測回答を抽出するステップと、
を含む請求項2に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項6】
前記回答シーケンスラベルが、回答セグメント内の非回答テキストラベルを含む請求項5に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法。
【請求項7】
文書の視覚的質問応答装置によって実行される文書の視覚的質問応答方法であって、
受信された質問情報に応答して、前記質問情報に対応する候補リッチテキスト文書を取得するステップと、
前記候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、前記候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得するステップと、
前記候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問情報を各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得するステップと、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成するステップと、
を含み、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成するステップが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め確立された読解モデルに入力して、前記質問情報に対応する回答情報を取得するステップであって、前記予め確立された読解モデル、請求項1に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法によってトレーニングされて得られる前記読解モデルであるステップを含む、文書の視覚的質問応答方法。
【請求項8】
前記読解モデルには、段落エンコーダー、文書エンコーダー、画像エンコーダー及び条件付きランダムフィールド(CRF)モジュールが備えられ、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め確立された読解モデルに入力して、前記質問情報に対応する回答情報を取得するステップが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を前記読解モデルに入力するステップと、
前記段落エンコーダーによって各前記段落スプライステキストと前記レイアウト情報とをエンコードして、各前記段落スプライステキストのテキストコードを取得するステップと、
前記文書エンコーダーによって各前記段落スプライステキストのテキストコードに対してスプライス処理を行って、前記候補リッチテキスト文書の文書コードを取得するステップと、
前記画像エンコーダーによって前記画像情報をエンコードして、前記候補リッチテキスト文書の視覚的特徴を取得するステップと、
前記候補リッチテキスト文書の文書コードと前記視覚的特徴とに対して融合処理を行って、前記候補リッチテキスト文書のマルチモーダル融合コードを取得し、前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問情報に対応する回答情報を取得するステップと、
を含む請求項7に記載の文書の視覚的質問応答方法。
【請求項9】
前記読解モデルが分類器を備え、前記文書の視覚的質問応答方法が、
前記マルチモーダル融合コードと前記質問サンプルのコードとをスプライスして、スプライスコードを取得するステップと、
前記スプライスコードを前記分類器に入力して、前記質問情報と前記候補リッチテキスト文書との間の類似度の予測値を取得するステップと、
を含む請求項8に記載の文書の視覚的質問応答方法。
【請求項10】
前記類似度の予測値が閾値以上であることに応答して、前記回答情報を出力するステップを含む請求項9に記載の文書の視覚的質問応答方法。
【請求項11】
前記回答情報を出力するステップが、
前記レイアウト情報に基づいて、前記回答情報の各文字の座標情報を決定するステップと、
前記座標情報に基づいて、前記候補リッチテキスト文書において前記回答情報を強調表示するステップと、
を含む請求項10に記載の文書の視覚的質問応答方法。
【請求項12】
前記類似度の予測値が前記閾値よりも小さいことに応答して、前記回答情報を無視するステップを含む請求項10に記載の文書の視覚的質問応答方法。
【請求項13】
前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問情報に対応する回答情報を取得するステップが、
前記マルチモーダル融合コードを前記CRFモジュールに入力するステップと、
前記CRFモジュールから出力された回答シーケンスラベルを取得するステップであって、回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれるステップと、
前記回答シーケンスラベルに基づいて、前記候補リッチテキスト文書から前記質問情報に対応する回答情報を抽出するステップと、
を含む請求項8に記載の文書の視覚的質問応答方法。
【請求項14】
前記回答シーケンスラベルが、回答セグメント内の非回答テキストラベルを含む請求項13に記載の文書の視覚的質問応答方法。
【請求項15】
質問サンプルとリッチテキスト文書サンプルとを取得する取得モジュールであって、 前記リッチテキスト文書サンプルには、前記質問サンプルの実回答が含まれる取得モジュールと、
前記リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、前記リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得する第1の処理モジュールと、
前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得する第2の処理モジュールと、
前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするトレーニングモジュールと、
を備え、
前記リッチテキスト文書サンプルは長いリッチテキスト文書サンプルであり、
前記第2の処理モジュールが、
前記長いリッチテキスト文書サンプルのテキスト情報を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問サンプルを各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得し、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得する、クロスモーダル情報に基づく文書読解モデルトレーニング装置。
【請求項16】
前記読解モデルには、段落エンコーダー、文書エンコーダー、画像エンコーダー及び条件付きランダムフィールド(CRF)モジュールが備えられ、
前記第2の処理モジュールが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力し、
前記段落エンコーダーによって各前記段落スプライステキストと前記レイアウト情報とをエンコードして、各前記段落スプライステキストのテキストコードを取得し、
前記文書エンコーダーによって各前記段落スプライステキストのテキストコードに対してスプライス処理を行って、前記長いリッチテキスト文書サンプルの文書コードを取得し、
前記画像エンコーダーによって前記画像情報をエンコードして、前記長いリッチテキスト文書サンプルの視覚的特徴を取得し、
前記長いリッチテキスト文書サンプルの文書コードと前記視覚的特徴とに対して融合処理を行って、前記長いリッチテキスト文書サンプルのマルチモーダル融合コードを取得し、前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問サンプルの予測回答を取得する請求項15に記載のクロスモーダル情報に基づく文書読解モデルトレーニング装置。
【請求項17】
前記読解モデルが分類器を備え、
前記クロスモーダル情報に基づく文書読解モデルトレーニング装置が、
前記マルチモーダル融合コードと前記質問サンプルのコードとをスプライスして、スプライスコードを取得し、前記スプライスコードを前記分類器に入力して、前記質問サンプルと前記長いリッチテキスト文書サンプルとの間の類似度の予測値を取得する第3の処理モジュールを備える請求項16に記載のクロスモーダル情報に基づく文書読解モデルトレーニング装置。
【請求項18】
前記トレーニングモジュールが、
前記実回答と前記予測回答とに基づいて、第1の損失値を生成し、
前記類似度の予測値、及び前記質問サンプルと前記長いリッチテキスト文書サンプルとの間の類似度の真の値に基づいて、第2の損失値を生成し、
前記第1の損失値と前記第2の損失値とに基づいて、前記読解モデルをトレーニングする請求項17に記載のクロスモーダル情報に基づく文書読解モデルトレーニング装置。
【請求項19】
前記第2の処理モジュールが、
前記マルチモーダル融合コードを前記CRFモジュールに入力し、
前記CRFモジュールから出力された回答シーケンスラベルを取得し、前記回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれ、
前記回答シーケンスラベルに基づいて、前記長いリッチテキスト文書サンプルから、前記質問サンプルの予測回答を抽出する請求項16に記載のクロスモーダル情報に基づく文書読解モデルトレーニング装置。
【請求項20】
前記回答シーケンスラベルが、回答セグメント内の非回答テキストラベルを含む請求項19に記載のクロスモーダル情報に基づく文書読解モデルトレーニング装置。
【請求項21】
受信された質問情報に応答して、前記質問情報に対応する候補リッチテキスト文書を取得する取得モジュールと、
前記候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、前記候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得する第1の処理モジュールと、
前記候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問情報を各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得する第2の処理モジュールと、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成する生成モジュールと、
を備え、
前記生成モジュールが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を予め確立された読解モデルに入力して、前記質問情報に対応する回答情報を取得し、前記予め確立された読解モデル、請求項15から20のいずれか一項に記載のクロスモーダル情報に基づく文書読解モデルトレーニング装置によってトレーニングされて得られる前記読解モデルである、文書の視覚的質問応答装置。
【請求項22】
前記読解モデルには、段落エンコーダー、文書エンコーダー、画像エンコーダー及び条件付きランダムフィールド(CRF)モジュールが備えられ、
前記生成モジュールが、
前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報を前記読解モデルに入力し、
前記段落エンコーダーによって各前記段落スプライステキストと前記レイアウト情報とをエンコードして、各前記段落スプライステキストのテキストコードを取得し、
前記文書エンコーダーによって各前記段落スプライステキストのテキストコードに対してスプライス処理を行って、前記候補リッチテキスト文書の文書コードを取得し、
前記画像エンコーダーによって前記画像情報をエンコードして、前記候補リッチテキスト文書の視覚的特徴を取得し、
前記候補リッチテキスト文書の文書コードと前記視覚的特徴とに対して融合処理を行って、前記候補リッチテキスト文書のマルチモーダル融合コードを取得し、前記マルチモーダル融合コードを前記CRFモジュールに入力して、前記質問情報に対応する回答情報を取得する請求項21に記載の文書の視覚的質問応答装置。
【請求項23】
前記読解モデルが分類器を備え、
前記文書の視覚的質問応答装置が、
前記マルチモーダル融合コードと前記質問サンプルのコードとをスプライスして、スプライスコードを取得し、前記スプライスコードを前記分類器に入力して、前記質問情報と前記候補リッチテキスト文書との間の類似度の予測値を取得する第3の処理モジュールを備える請求項22に記載の文書の視覚的質問応答装置。
【請求項24】
前記類似度の予測値が閾値以上であることに応答して、前記回答情報を出力する表示モジュールを備える請求項23に記載の文書の視覚的質問応答装置。
【請求項25】
前記表示モジュールが、
前記レイアウト情報に基づいて、前記回答情報の各文字の座標情報を決定し、
前記座標情報に基づいて、前記候補リッチテキスト文書において前記回答情報を強調表示する請求項24に記載の文書の視覚的質問応答装置。
【請求項26】
前記生成モジュールが、
前記マルチモーダル融合コードを前記CRFモジュールに入力し、
前記CRFモジュールから出力された回答シーケンスラベルを取得し、回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれ、
前記回答シーケンスラベルに基づいて、前記候補リッチテキスト文書から前記質問情報に対応する回答情報を抽出する請求項22に記載の文書の視覚的質問応答装置。
【請求項27】
前記回答シーケンスラベルは、回答セグメント内の非回答テキストラベルを含む請求項26に記載の文書の視覚的質問応答装置。
【請求項28】
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサに請求項1から6のいずれか一項に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法、または請求項7から14のいずれか一項に記載の文書の視覚的質問応答方法を実行させるためのプログラムが記憶されている電子機器。
【請求項29】
非一時的なコンピュータ読み取り可能な記憶媒体であって、
コンピュータに請求項1から6のいずれか一項に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法、または請求項7から14のいずれか一項に記載の文書の視覚的質問応答方法を実行させるためのコンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項30】
プロセッサに、請求項1から6のいずれか一項に記載のクロスモーダル情報に基づく文書読解モデルトレーニング方法、または請求項7から14のいずれか一項に記載の文書の視覚的質問応答方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、データ処理の分野に関し、特に自然言語処理NLP及び深層学習技術に関し、特にクロスモーダル情報に基づく文書読解モデルトレーニング方法及び文書の視覚的質問応答方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
関連技術において、プレーンテキストに基づく読解技術は、文書からテキスト情報を取得するために、文書テキストに対して事前に情報抽出を実行する必要がある。ただし、文書のソースによって、異なる抽出スキームを設計する必要があるため、非常に時間と労力を要する。
【発明の概要】
【0003】
本願は、クロスモーダル情報に基づく文書読解モデルトレーニング方法、装置、電子機器及び記憶媒体を提供する。
【0004】
本願の第1の態様によれば、クロスモーダル情報に基づく文書読解モデルトレーニング方法を提供し、質問サンプルとリッチテキスト文書サンプルとを取得するステップであって、前記リッチテキスト文書サンプルには、前記質問サンプルの実回答が含まれるステップと、前記リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、前記リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得するステップと、前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得するステップと、前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするステップと、を含む。
【0005】
本願の第2の態様によれば、文書の視覚的質問応答方法を提供し、受信された質問情報に応答して、前記質問情報に対応する候補リッチテキスト文書を取得するステップと、前記候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、前記候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得するステップと、前記候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問情報を各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得するステップと、前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成するステップと、を含む。
【0006】
本願の第3の態様によれば、クロスモーダル情報に基づく文書読解モデルトレーニング装置を提供し、質問サンプルとリッチテキスト文書サンプルとを取得する取得モジュールであって、前記リッチテキスト文書サンプルには、前記質問サンプルの実回答が含まれる取得モジュールと、前記リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、前記リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得する第1の処理モジュールと、前記リッチテキスト文書サンプルのテキスト情報、前記レイアウト情報及び前記画像情報を予め設定された読解モデルに入力して、前記質問サンプルの予測回答を取得する第2の処理モジュールと、前記実回答と前記予測回答とに基づいて、前記読解モデルをトレーニングするトレーニングモジュールと、を備える。
【0007】
本願の第4の態様によれば、文書の視覚的質問応答装置を提供し、受信された質問情報に応答して、前記質問情報に対応する候補リッチテキスト文書を取得する取得モジュールと、前記候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、前記候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得する第1の処理モジュールと、前記候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、前記質問情報を各前記段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得する第2の処理モジュールと、前記複数の段落スプライステキスト、前記レイアウト情報及び前記画像情報に基づいて、前記質問情報に対応する回答情報を生成する生成モジュールと、を備える。
【0008】
本願の第5の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
【0009】
本願の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の態様又は第2の態様に記載の方法を実行させる。
【0010】
本願の第7の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、第1の態様又は第2の態様に記載の方法が実現される。
【発明の効果】
【0011】
本願の技術案によれば、クロスモーダル情報(テキスト、レイアウト、および視覚)を用いてモデリングすることができ、文書理解の能力を向上させることができる。リッチテキスト文書サンプルを用いてモデリングすることで、リッチテキスト文書を理解する読解モデルの能力を向上させることができる。また、本願は、情報抽出の代わりに、OCR認識技術を使用することで、文書のソースによって特定の情報抽出スキームを設計する必要がないため、プロセス全体がよりエンドツーエンドになり、人件費が節約される。
【0012】
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
【図面の簡単な説明】
【0013】
図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
図1】本願の第1の実施例による模式図である。
図2】本願の第2の実施例による模式図である。
図3】本願の第3の実施例による模式図である。
図4】本願の第4の実施例による模式図である。
図5】本願の実施例によるクロスモーダル情報に基づく文書読解モデルトレーニング装置の模式図である。
図6】本願の実施例による別のクロスモーダル情報に基づく文書読解モデルトレーニング装置の模式図である。
図7】本願の実施例による文書の視覚的質問応答装置の模式図である。
図8】本願の実施例による別の文書の視覚的質問応答装置の模式図である。
図9】本願の実施例によるさらに別の文書の視覚的質問応答装置の模式図である。
図10】本願の実施例のクロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0014】
以下、図面と組み合わせて本出願の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0015】
図1を参照し、図1は本願の第1の実施例によるクロスモーダル情報に基づく文書読解モデルトレーニング方法のフローチャートであり、この方法は、質問応答アプリケーションで必要な読解モデルをトレーニングするために適用可能である。図1に示すように、このクロスモーダル情報に基づく文書読解モデルトレーニング方法は以下のステップS101~S104を含むことができる。
【0016】
ステップS101では、質問サンプルとリッチテキスト文書サンプルとを取得する。
【0017】
ここで、長いリッチテキスト文書サンプルには、質問サンプルの実回答が含まれる。長いリッチテキスト文書とは、より多くの文字情報と複数のフォーマット(例えばフォントの色、画像、及び表など)を含む文書を指し、そのソースは、Webページ、PDF(Portable Document Format;ポータブルドキュメントフォーマット)、および紙の文書のスキャンされたコピーを含むが、これらに限定されない。
【0018】
例えば、質疑応答アプリケーションを使用するユーザが提起した質問に応答して、その質問を質問サンプルとして、その質問に対応する長いリッチテキスト文書を長いリッチテキスト文書サンプルとして取得することができ、この長いリッチテキスト文書サンプルには、この質問の回答内容が含まれている。
【0019】
ステップS102では、リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得する。
【0020】
例えば、画像取得装置によって、長いリッチテキスト文書サンプルの画像データを取得し、この画像データに対してOCR(Optical Character Recognition;光学式文字認識)処理を実行して、長いリッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得することができる。例えば、この長いリッチテキスト文書サンプルは文書画像と見なすことができ、OCR認識技術を用いて文書画像を解析して、そのテキスト情報とレイアウト情報とを取得することができる。
【0021】
ステップS103では、リッチテキスト文書サンプルのテキスト情報、レイアウト情報及び画像情報を予め設定された読解モデルに入力して、質問サンプルの予測回答を取得する。
【0022】
例えば、リッチテキスト文書サンプルのテキスト情報、レイアウト情報及び画像情報を入力データとして読解モデルに入力し、この読解モデルの出力を質問サンプルの予測回答とすることができる。
【0023】
ステップS104では、実回答と予測回答とに基づいて、読解モデルをトレーニングする。
【0024】
例えば、実回答と予測回答の差異に基づいて、実回答と予測回答との偏差を減らすように読解モデルの関連パラメーターを調整することにより、読解モデルをトレーニングすることができる。
【0025】
本願の実施例を実施することにより、クロスモーダル情報(テキスト、レイアウト、および視覚)を用いてモデリングすることができ、文書理解の能力を向上させることができる。リッチテキスト文書サンプルを用いてモデリングすることで、リッチテキスト文書を理解する読解モデルの能力を向上させることができる。また、本願は、情報抽出の代わりに、OCR認識技術を使用することで、文書のソースによって特定の情報抽出スキームを設計する必要がないため、プロセス全体がよりエンドツーエンドになり、人件費が節約される。
【0026】
図2を参照し、図2は、本願の第2の実施例によるクロスモーダル情報に基づく文書読解モデルトレーニング方法のフローチャートであり、本願の実施例では、リッチテキストは長いリッチテキストであり、長いリッチテキストを分割し処理することができる。このクロスモーダル情報に基づく文書読解モデルトレーニング方法は、以下のステップS201~S204を含む。
【0027】
ステップS201では、質問サンプルと長いリッチテキスト文書サンプルとを取得する。
【0028】
ここで、長いリッチテキスト文書サンプルには、質問サンプルの実回答が含まれる。
【0029】
本願の実施例では、ステップS201は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0030】
ステップS202では、長いリッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、長いリッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得する。
【0031】
本願の実施例では、ステップS202は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0032】
ステップS203では、長いリッチテキスト文書サンプルのテキスト情報を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、質問サンプルを各段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得する。
【0033】
例えば、得られた長いリッチテキスト文書サンプルのテキスト情報を複数の段落に順に分割し、各段落には、予め設定された同じ文字数が含まれる。例えば、予め設定されたステップサイズ512を例にとると、ステップサイズ512で長いリッチテキスト文書サンプルを複数の段落テキストに分割することができる。各段落をそれぞれ質問サンプルとスプライスして、段落スプライステキストを取得する。
【0034】
ステップS204では、複数の段落スプライステキスト、レイアウト情報及び画像情報を予め設定された読解モデルに入力して、質問サンプルの予測回答を取得する。
【0035】
例えば、複数の段落スプライステキスト、レイアウト情報及び画像情報を入力データとして読解モデルに入力し、この読解モデルの出力を質問サンプルの予測回答とすることができる。
【0036】
ステップS205では、実回答と予測回答とに基づいて、読解モデルをトレーニングする。
【0037】
本願の実施例では、ステップS205は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0038】
本願の実施例を実施することにより、長いリッチテキスト文書を分割し、分割された文書を用いてモデリングすることで、長いリッチテキスト文書を理解する読解モデルの能力を向上させることができる。
【0039】
図3を参照し、図3は、本願の第3の実施例によるクロスモーダル情報に基づく文書読解モデルトレーニング方法のフローチャートであり、本願の実施例では、読解モデルには、段落エンコーダー、文書エンコーダー、画像エンコーダー及びCRF(Conditional Random Field、条件付きランダムフィールド)モジュールが備えられる。図3に示すように、このクロスモーダル情報に基づく文書読解モデルトレーニング方法は、以下のステップS301~S309を含む。
【0040】
ステップS301では、質問サンプルと長いリッチテキスト文書サンプルとを取得する。
【0041】
本願の実施例では、ステップS301は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0042】
ステップS302では、長いリッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、長いリッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得する。
【0043】
本願の実施例では、ステップS302は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0044】
ステップS303では、長いリッチテキスト文書サンプルを予め設定されたステップサイズで分割して、複数の段落テキストを取得し、質問サンプルを各段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得する。
【0045】
本願の実施例では、ステップS303は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0046】
ステップS304では、複数の段落スプライステキスト、レイアウト情報及び画像情報を予め設定された読解モデルに入力する。
【0047】
本願の実施例では、ステップS304は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0048】
ステップS305では、段落エンコーダーによって各段落スプライステキストとレイアウト情報とをエンコードして、各段落スプライステキストのテキストコードを取得する。
【0049】
例えば、段落エンコーダーによって、各段落スプライステキストと、この段落スプライステキストに対応するレイアウト情報とを統合してエンコードして、各段落スプライステキストのテキストコードを生成することができる。
【0050】
ステップS306では、文書エンコーダーによって各段落スプライステキストのテキストコードに対してスプライス処理を行って、長いリッチテキスト文書サンプルの文書コードを取得する。
【0051】
例えば、文書エンコーダーによって、複数の段落スプライステキストのテキストコードを順にスプライスして、長いリッチテキスト文書サンプルの文書コードを取得するすることができる。
【0052】
ステップS307では、画像エンコーダーによって画像情報をエンコードして、長いリッチテキスト文書サンプルの視覚的特徴を取得する。
【0053】
ここで、本願の実施例では、文書サンプルの視覚的特徴は、文書における他の部分とは異なる、特定の部分が有する外観の特徴を指し、太字フォント、フォントの色の変更、及び下線などを含んでいるが、これらに限定されない。
【0054】
例えば、画像エンコーダによって、予め設定されたルールに基づいて、画像情報を変換して組み合わせて、コンピュータで処理できるデジタル情報データに変換することにより、長いリッチテキスト文書サンプルの視覚的特徴を取得することができる。
【0055】
ステップS308では、長いリッチテキスト文書サンプルの文書コードと視覚的特徴に対して融合処理を行って、長いリッチテキスト文書サンプルのマルチモーダル融合コードを取得し、マルチモーダル融合コードをCRFモジュールに入力して、質問サンプルの予測回答を取得する。
【0056】
例えば、予め設定された特徴融合アルゴリズムモデルを使用して、長いリッチテキスト文書サンプルの文書コードと視覚的特徴とを処理して、長いリッチテキスト文書サンプルのマルチモーダル融合コードを取得し、このマルチモーダル融合コードを入力データとしてCRFモジュールに入力し、CRFモジュールの出力データを質問サンプルの予測回答とする。
【0057】
一例として、特徴融合アルゴリズムモデルは、変換Transformerモデルにすることができ、マルチモーダル融合の具体的な方法は、文書コードと視覚的特徴との特徴ベクトルを線形に融合することと、文書コードと視覚的特徴との類似度マトリックスをそれぞれ計算し、類似度に基づいてそれらを融合することと、文書コードと視覚的特徴との特徴ベクトルを直接にスプライスすることとを含み得るが、これらに限定されない。
【0058】
例えば、マルチモーダル融合コードにシーケンスラベルを付けることにより、サブセグメントの帰属を区別し、同じ帰属の回答サブフラグメントをフィルタリングして、回答フラグメントに属していない部分を除去し、回答サブセグメントに含まれない他の部分と統合して、不連続回答セグメントを連続セグメントに変換することにより、質問情報に対応する回答情報を取得する。
【0059】
ステップS309では、実回答と予測回答とに基づいて、読解モデルをトレーニングする。
【0060】
本願の実施例では、ステップS309は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0061】
本願の実施例を実施することにより、質問サンプルと長いリッチテキスト文書サンプルとに基づいて処理を行って、マルチモーダル融合コードを取得することができ、マルチモーダル融合コードに基づいて文書情報を抽出することにより、文書を理解する能力が向上し、さまざまなソースからの文書に対して、特定の情報抽出スキームを設計する必要がないため、人件費を節約することができる。
【0062】
本願のいくつかの実施例では、読解モデルは分類器をさらに備え、このクロスモーダル情報に基づく文書読解モデルトレーニング方法は、マルチモーダル融合コードと質問サンプルのコードをスプライスして、スプライスコードを取得するステップと、スプライスコードを分類器に入力して、質問サンプルと長いリッチテキスト文書サンプルとの間の類似度の予測値を取得するステップとをさらに含む。
【0063】
選択的に、実回答と予測回答とに基づいて、読解モデルをトレーニングするステップは、実回答と予測回答とに基づいて、第1の損失値を生成するステップと、類似度の予測値、及び質問サンプルと長いリッチテキスト文書サンプルとの間の類似度の真の値に基づいて、第2の損失値を生成するステップと、第1の損失値と第2の損失値とに基づいて、読解モデルをトレーニングするステップと、を含む。
【0064】
例えば、実回答と予測回答の類似度の真の値に基づいて、予め設定された第1の損失関数に基づいて、第1の損失値を生成し、類似度の予測値、及び質問サンプルと長いリッチテキスト文書サンプルとの間の類似度の真の値を、予め設定された第2の損失関数に取り込んで、第2の損失値を取得し、第1の損失値と第2の損失値とに基づいて、損失値を減らすように読解モデルの関連パラメーターを調整することにより、読解モデルをトレーニングすることができる。
【0065】
本願の実施例を実施することにより、損失値に基づいて、読解モデルをトレーニングすることで、この読解モデルによって生成される回答情報の精度を向上させることができる。
【0066】
選択的な実施形態では、マルチモーダル融合コードをCRFモジュールに入力して、質問情報に対応する回答情報を取得するステップは、マルチモーダル融合コードをCRFモジュールに入力するステップと、CRFモジュールから出力された回答シーケンスラベルを取得するステップであって、回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれるステップと、回答シーケンスラベルに基づいて、候補リッチテキスト文書から質問情報に対応する回答情報を抽出するステップと、を含む。
【0067】
回答シーケンスラベルは、CRFモジュールによって、B(Begin;開始)I(Inside;内部)O(outside;外部)E(End;終了)S(Single;単一)のシーケンスラベリング方式に基づいて、長いリッチテキスト文書サンプルから回答シーケンスをラベリングすることによって得られ、回答シーケンスラベルは、回答開始ラベルB、回答内部ラベルI、回答外部ラベルO、回答終了ラベルE及び単一文字の回答ラベルSを含む。
【0068】
なお、回答セグメントは不連続である可能性があるため、回答セグメントには複数の回答サブセグメントが含まれる可能性があり、後続の処理のために複数の回答サブセグメントをラベリングする必要がある。ここで、回答開始ラベルは、回答シーケンス内の回答サブセグメントの開始文字位置をラベリングするために使用され、回答セグメント内の非回答テキストラベルは、回答情報に属さない回答サブセグメント内の文字をラベリングするために使用され、回答外部ラベルは、回答サブセグメントにない回答情報に関連する文字をラベリングするために使用され、回答終了ラベルは、回答シーケンスの回答サブセグメントの終了位置の文字をラベリングするために使用され、単一文字の回答ラベルは、回答情報の個別のエンティティを表す文字をラベリングするために使用される。
【0069】
選択的に、回答シーケンスラベルは、回答セグメント内の非回答テキストラベルをさらに含む。
【0070】
なお、回答セグメント内の非回答テキストラベルは、中断された回答を処理するように、回答情報に属さない回答サブセグメント内の他のノイズ情報をラベリングするために使用される。
【0071】
例えば、表やページのレイアウトなどによる回答情報の不連続による同じ回答テキストの中断をラベリングすることができる。
【0072】
図4を参照し、図4は、本願の第3の実施例による文書の視覚的質問応答方法のフローチャートであり、図4に示すように、この文書の視覚的質問応答方法は、以下のステップS401~S404を含む。
【0073】
ステップS401では、受信された質問情報に応答して、質問情報に対応する候補リッチテキスト文書を取得する。
【0074】
例えば、質問応答アプリケーションで受信されたユーザが提起した質問情報に応じて、質問情報に関連する情報を含むリッチテキスト文書を取得し、このリッチテキスト文書を候補リッチテキスト文書とすることができる。
【0075】
ステップS402では、候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得する。
【0076】
本願の実施例では、ステップS402は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0077】
ステップS403では、候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、質問情報を各段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得する。
【0078】
本願の実施例では、ステップS403は、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0079】
ステップS404では、複数の段落スプライステキスト、レイアウト情報及び画像情報に基づいて、質問情報に対応する回答情報を生成する。
【0080】
1つの実施形態では、複数の段落スプライステキスト、レイアウト情報及び画像情報に基づいて、質問情報に対応する回答情報を生成するステップは、複数の段落スプライステキスト、レイアウト情報及び画像情報を予め確立された読解モデルに入力して、質問情報に対応する回答情報を取得するステップを含む。
【0081】
本願の実施例では、読解モデルは、本願の実施例のいずれか1つによって取得することができ、本願の実施例はこれを限定せず、説明を省略する。
【0082】
例えば、複数の段落スプライステキスト、レイアウト情報及び画像情報を入力データとして、予め確立された読解モデルに入力し、このモデルの出力データを質問情報に対応する回答情報とすることができる。
【0083】
選択的な実施形態では、読解モデルには段落エンコーダー、文書エンコーダー、画像エンコーダー及びCRFモジュールが備えられ、複数の段落スプライステキスト、レイアウト情報及び画像情報を予め確立された読解モデルに入力して、質問情報に対応する回答情報を取得するステップは、複数の段落スプライステキスト、レイアウト情報及び画像情報を読解モデルに入力するステップと、段落エンコーダーによって各段落スプライステキストとレイアウト情報とをエンコードして、各段落スプライステキストのテキストコードを取得するステップと、文書エンコーダーによって各段落スプライステキストのテキストコードに対してスプライス処理を行って、候補リッチテキスト文書の文書コードを取得するステップと、画像エンコーダーによって画像情報をエンコードして、候補リッチテキスト文書の視覚的特徴を取得するステップと、候補リッチテキスト文書の文書コードと視覚的特徴とに対して融合処理を行って、候補リッチテキスト文書のマルチモーダル融合コードを取得し、マルチモーダル融合コードをCRFモジュールに入力して、質問情報に対応する回答情報を取得するステップと、を含む。
【0084】
本願のいくつかの実施例では、読解モデルは分類器をさらに備え、方法は、マルチモーダル融合コードと質問サンプルのコードをスプライスして、スプライスコードを取得するステップと、スプライスコードを分類器に入力して、質問情報と候補リッチテキスト文書との間の類似度の予測値を取得するステップと、を含む。
【0085】
選択的に、類似度の予測値が閾値以上であることに応答して、回答情報を出力する。
【0086】
例えば、質問情報と候補リッチテキスト文書との間の類似度の予測値が予め設定された類似度閾値以上であることに応答して、生成された回答情報を文書の質問の回答情報として出力する。
【0087】
選択的に、ここで、回答情報を出力するステップは、レイアウト情報に基づいて、回答情報の各文字の座標情報を決定するステップと、座標情報に基づいて、候補リッチテキスト文書において回答情報を強調表示するステップとを含む。
【0088】
例えば、座標情報に基づいて、回答情報内の各文字の候補リッチテキスト文書における具体的な座標を決定し、座標情報に基づいて、候補リッチテキスト文書において回答情報に対応するテキストを強調表示し、ユーザーがこの候補リッチテキスト文書を開いた後、強調表示された回答テキストに直接ジャンプする。
【0089】
選択的に、類似度の予測値が閾値よりも小さいことに応答して、回答情報を無視する。
【0090】
例えば、質問情報と候補リッチテキスト文書との間の類似度の予測値が予め設定された類似度閾値よりも小さいことに応答して、生成された回答情報を無視する。
【0091】
本願の実施例を実施することにより、回答情報が生成された後、類似度に基づいて、生成されたこの回答をユーザに提供するか否かを決定することにより、回答情報を含まない文書サンプルを抑制し、生成された回答の精度を向上させることができる。
【0092】
選択的に、マルチモーダル融合コードをCRFモジュールに入力して、質問情報に対応する回答情報を取得するステップは、マルチモーダル融合コードをCRFモジュールに入力するステップと、CRFモジュールから出力された回答シーケンスラベルを取得するステップであって、回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれるステップと、回答シーケンスラベルに基づいて、候補リッチテキスト文書から質問情報に対応する回答情報を抽出するステップと、を含む。
【0093】
選択的に、回答シーケンスラベルは、回答セグメント内の非回答テキストラベルをさらに含む。
【0094】
本願の実施例では、以上のステップは、本願の実施例のいずれか1つで実施することができ、本願の実施例はこれを限定せず、説明を省略する。
【0095】
本願の実施例を実施することにより、候補リッチテキスト文書をモデリングし、クロスモーダル情報(テキスト、レイアウト、及び視覚)に基づいて、予めトレーニングされた読解モデルによって、文書をより正確に理解して質問と回答を行うことができる。同時に、情報抽出の代わりに、OCR認識技術を使用することで、さまざまなソースからの文書に対して、特定の情報抽出スキームを設計する必要がないため、プロセス全体がよりエンドツーエンドになり、人件費が節約される。
【0096】
図5を参照し、図5は、本願の実施例によるクロスモーダル情報に基づく文書読解モデルトレーニング装置の模式図である。このクロスモーダル情報に基づく文書読解モデルトレーニング装置は、取得モジュール501、第1の処理モジュール502、第2の処理モジュール503及びトレーニングモジュール504を備える。
【0097】
取得モジュール501は、質問サンプルとリッチテキスト文書サンプルとを取得するために使用され、リッチテキスト文書サンプルには、質問サンプルの実回答が含まれ、第1の処理モジュール502は、リッチテキスト文書サンプルの画像情報に対して光学式文字認識(OCR)処理を行って、リッチテキスト文書サンプルのテキスト情報とレイアウト情報とを取得するために使用され、第2の処理モジュール503は、リッチテキスト文書サンプルのテキスト情報、複数の段落スプライステキスト、レイアウト情報および画像情報を予め設定された読解モデルに入力して、質問サンプルの予測回答を取得するために使用され、トレーニングモジュール504は、実回答と予測回答とに基づいて、読解モデルをトレーニングするために使用される。
【0098】
1つの実施形態では、リッチテキストは長いリッチテキストであり、第2の処理モジュール503は、具体的に、長いリッチテキスト文書サンプルのテキスト情報を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、質問サンプルを各段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得し、複数の段落スプライステキスト、レイアウト情報及び画像情報を予め設定された読解モデルに入力して、質問サンプルの予測回答を取得するために使用される。1つの実施形態では、読解モデルは、段落エンコーダー、文書エンコーダー、画像エンコーダー及びCRFモジュールを備え、第2の処理モジュール503は、具体的に、複数の段落スプライステキスト、レイアウト情報及び画像情報を予め設定された読解モデルに入力し、段落エンコーダーによって各段落スプライステキストとレイアウト情報とをエンコードして、各段落スプライステキストのテキストコードを取得し、文書エンコーダーによって各段落スプライステキストのテキストコードに対してスプライス処理を行って、長いリッチテキスト文書サンプルの文書コードを取得し、画像エンコーダーによって画像情報をエンコードして、長いリッチテキスト文書サンプルの視覚的特徴を取得し、長いリッチテキスト文書サンプルの文書コードと視覚的特徴とに対して融合処理を行って、長いリッチテキスト文書サンプルのマルチモーダル融合コードを取得し、マルチモーダル融合コードをCRFモジュールに入力して、質問サンプルの予測回答を取得するために使用される。
【0099】
選択的な実施形態では、読解モデルは分類器をさらに備え、このクロスモーダル情報に基づく文書読解モデルトレーニング装置は、第3の処理モジュールをさらに備える。一例として、図6に示すように、このクロスモーダル情報に基づく文書読解モデルトレーニング装置は、マルチモーダル融合コードと質問サンプルのコードとをスプライスして、スプライスコードを取得し、スプライスコードを分類器に入力して、質問サンプルと長いリッチテキスト文書サンプルとの間の類似度の予測値を取得するための第3の処理モジュール605をさらに備える。ここで、図6のステップS601-S604は図5のステップS501-S504と同じ機能および構造を有する。
【0100】
選択的に、トレーニングモジュール504は、具体的に、実回答と予測回答とに基づいて、第1の損失値を生成し、類似度の予測値、及び質問サンプルと長いリッチテキスト文書サンプルとの間の類似度の真の値に基づいて、第2の損失値を生成し、第1の損失値と第2の損失値とに基づいて、読解モデルをトレーニングするために使用される。
【0101】
選択的な実施形態では、第2の処理モジュール503は、具体的に、マルチモーダル融合コードをCRFモジュールに入力して、CRFモジュールから出力された回答シーケンスラベルを取得し、回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれ、回答シーケンスラベルに基づいて、長いリッチテキスト文書サンプルから、質問サンプルの予測回答を抽出するために使用される。
【0102】
選択的に、回答シーケンスラベルは、回答セグメント内の非回答テキストラベルをさらに含む。
【0103】
図7を参照し、図7は、本願の実施例による文書の視覚的質問応答装置の模式図であり、この文書の視覚的質問応答装置は、取得モジュール701、第1の処理モジュール702、第2の処理モジュール703及び生成モジュール704を備える。ここで、取得モジュール701は、受信された質問情報に応答して、質問情報に対応する候補リッチテキスト文書を取得するために使用され、第1の処理モジュール702は、候補リッチテキスト文書の画像情報に対して光学式文字認識(OCR)処理を行って、候補リッチテキスト文書のテキスト情報とレイアウト情報とを取得するために使用され、第2の処理モジュール703は、候補リッチテキスト文書を予め設定されたステップサイズで分割して、複数の段落テキストを取得し、質問情報を各段落テキストとそれぞれスプライスして、複数の段落スプライステキストを取得するために使用され、生成モジュール704は、複数の段落スプライステキスト、レイアウト情報及び画像情報に基づいて、質問情報に対応する回答情報を生成するために使用される。
【0104】
1つの実施形態では、生成モジュール704は、具体的に、複数の段落スプライステキスト、レイアウト情報及び画像情報を予め確立された読解モデルに入力して、質問情報に対応する回答情報を取得するために使用され、ここで、読解モデルは、本願の実施例のいずれかのモデルトレーニング方法によってトレーニングされて得られる。
【0105】
選択的な実施形態では、読解モデルは段落エンコーダー、文書エンコーダー、画像エンコーダー及びCRFモジュールを備え、生成モジュール704は、具体的に、複数の段落スプライステキスト、レイアウト情報及び画像情報を読解モデルに入力し、段落エンコーダーによって各段落スプライステキストとレイアウト情報とをエンコードして、各段落スプライステキストのテキストコードを取得し、文書エンコーダーによって各段落スプライステキストのテキストコードに対してスプライス処理を行って、候補リッチテキスト文書の文書コードを取得し、画像エンコーダーによって画像情報をエンコードして、候補リッチテキスト文書の視覚的特徴を取得し、候補リッチテキスト文書の文書コードと視覚的特徴とに対して融合処理を行って、候補リッチテキスト文書のマルチモーダル融合コードを取得し、マルチモーダル融合コードをCRFモジュールに入力して、質問情報に対応する回答情報を取得するために使用される。
【0106】
選択的に、読解モデルは分類器をさらに備え、文書の視覚的質問応答装置は、第3の処理モジュールをさらに備える。一例として、図8を参照し、図8に示すように、この文書の視覚的質問応答装置は、マルチモーダル融合コードと質問サンプルのコードとをスプライスして、スプライスコードを取得し、スプライスコードを分類器に入力して、質問情報と候補リッチテキスト文書との間の類似度の予測値を取得するための第3の処理モジュール805をさらに備える。ここで、図8のステップS801-S804は図7のステップS701-S704と同じ機能および構造を有する。
【0107】
選択的に、この文書の視覚的質問応答装置は、表示モジュールをさらに備える。一例として、図9を参照し、図9に示すように、この文書の視覚的質問応答装置は、類似度の予測値が閾値以上であることに応答して、回答情報を出力するための表示モジュール905をさらに備える。ここで、図9のステップS901-S904は図7のステップS701-S704と同じ機能および構造を有する。
【0108】
選択的に、表示モジュールは、具体的には、レイアウト情報に基づいて、回答情報の各文字の座標情報を決定し、座標情報に基づいて、候補リッチテキスト文書において回答情報を強調表示するために使用される。
【0109】
選択的に、生成モジュール704は、具体的に、マルチモーダル融合コードをCRFモジュールに入力し、CRFモジュールから出力された回答シーケンスラベルを取得し、ここで、回答シーケンスラベルには、回答開始ラベル、回答内部ラベル、回答外部ラベル、回答終了ラベル及び単一文字の回答ラベルが含まれ、回答シーケンスラベルに基づいて、候補リッチテキスト文書から質問情報に対応する回答情報を抽出するために使用される。選択的に、回答シーケンスラベルは、回答セグメント内の非回答テキストラベルをさらに含む。
【0110】
本願の実施例を実施することにより、クロスモーダル情報(テキスト、レイアウト、および視覚)を用いてモデリングすることができ、文書理解の能力を向上させることができる。リッチテキスト文書サンプルを用いてモデリングすることで、リッチテキスト文書を理解する読解モデルの能力を向上させることができる。また、本願は、情報抽出の代わりに、OCR認識技術を使用することで、文書のソースによって特定の情報抽出スキームを設計する必要がないため、プロセス全体がよりエンドツーエンドになり、人件費が節約される。
【0111】
上記実施例における装置については、各モジュールが動作を実行する具体的な方法が、この方法に関する実施形態において詳細に説明されているが、ここでは詳細に説明されない。
【0112】
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本願の実施例によれば、本願は、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本願の実施例によって提供されるクロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法が実現される。
【0113】
図10に示すように、それは本願の実施例によるクロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを指す。電子機器はまた、パーソナルデジタルプロセシング、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は主張の本願の実現を限定することを意図しない。
【0114】
図10に示すように、この電子機器は、1つ又は複数のプロセッサ1001、メモリ1002及び高速インタフェースと低速インタフェースを備える各々のコンポーネントを接続するためのインタフェースを備える。各コンポーネントは、異なるバスで接続され、共通のマザーボード上に実装されてもよいし、必要に応じてその他の方式によって実装されてもよい。プロセッサは、メモリ内またはメモリ上に記憶された、外部入力/出力装置上(例えば、インタフェースに結合されたディスプレイデバイス)にGUIのグラフィカル情報を表示するための命令を含む電子機器内で実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスが、複数のメモリおよび複数のメモリとともに使用され得る。同様に、複数の電子機器が接続されてもよく、各機器が必要な操作の一部(例えば、サーバアレイ、1組のブレードサーバ、あるいはマルチプロセッサシステムとする)を提供する。図10では、1つのプロセッサ1001を例としている。
【0115】
メモリ1002は、本願による非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、このメモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、少なくとも1つのプロセッサが本願によるクロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法を実行するようにする。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータ命令が記憶され、当該コンピュータ命令が、クロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法を実行させることに用いられる。
【0116】
メモリ1002は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、及びモジュール、例えば、本願の実施例におけるクロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法に対応するプログラム命令/モジュール(例えば、図5に示す取得モジュール501、第1の処理モジュール502、第2の処理モジュール503及びトレーニングモジュール504、又は図6に示す第3の処理モジュール605、又は図7に示す取得モジュール701、第1の処理モジュール702、第2の処理モジュール703及び生成モジュール704、又は図8に示す第3の処理モジュール805、又は図9に示す表示モジュール905)を記憶することができる。プロセッサ1001は、メモリ1002に記憶されている非一時的なソフトプログラム、命令及びモジュールを実行することにより、サーバの各種の機能応用及びデータ処理を実行し、即ち、上記の方法の実施例におけるクロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法を実施する。
【0117】
メモリ1002は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、クロスモーダル情報に基づく文書読解モデルのトレーニング、又は文書の視覚的質問および応答のための電子機器の使用に基づいて作成されたデータなどを記憶することができるデータ記憶領域を含む。なお、メモリ1002は、高速ランダムアクセスメモリを備えてもよく、また、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリデバイス、または他の非一時的固体記憶デバイスなどの、非一時的メモリを備えてもよい。いくつかの実施例において、メモリ1002は、プロセッサ1001に対して遠隔設置されるメモリを備えてもよく、これらの遠隔メモリは、ネットワークを通じて、クロスモーダル情報に基づく文書読解モデルのトレーニング、又は文書の視覚的質問および応答のための電子機器に接続されることができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びこれらの組み合わせが含まれるが、それらに限定されない。
【0118】
クロスモーダル情報に基づく文書読解モデルトレーニング方法、又は文書の視覚的質問応答方法のための電子機器はまた、入力装置1003と出力装置1004とをさらに備えることができる。プロセッサ1001、メモリ1002、入力装置1003及び出力装置1004は、バス又はほかの方式によって接続されることができ、図10では、バスによる接続を例としている。
【0119】
入力装置1003は、入力された数字又は文字情報を受信し、クロスモーダル情報に基づく文書読解モデルのトレーニング、又は文書の視覚的質問および応答のための電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インディケータロッド、1つ又は複数のマウスボタン、トラックボール、操作レバーなどの入力装置である。出力装置1004は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触感フィードバック装置(例えば、振動モータ)等を備えてもよい。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでよいが、それらに限定されない。いくつかの実施形態では、ディスプレイデバイスはタッチスクリーンであってよい。
【0120】
本明細書で説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステム上で実行および/または解釈可能な1つ以上のコンピュータプログラムで実施することを含み得て、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、且つデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に送信することができる。
【0121】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高レベルの手続きおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械語で実施され得る。本明細書で使用された用語「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」とは、プログラマブルプロセッサに機械命令および/またはデータを提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラム可能論理装置(PLD))を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
【0122】
ユーザとの対話を提供するために、本明細書に記載されたシステムおよび技術は、コンピュータ上で実施され得て、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、陰極線管(CRT)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティング装置(例えば、マウスまたはトラックボール)と、を有する。他の種類の装置は、ユーザとの対話を提供することに使用されてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は、(サウンド入力、音声入力、または触覚入力を含む)任意の形態で受信され得る。
【0123】
本明細書に記載のシステム及び技術は、バックエンド部材を備えるコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア部材を備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部材を備えるコンピューティングシステム(例えば、ユーザが本明細書に記載のシステム及び技術の実施形態と対話できるグラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ)、又はこのようなバックエンド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを備えるコンピューティングシステムにおいて実施され得る。システムの部材は、任意の形式または媒体(例えば、通信ネットワーク)のデジタルデータ通信によって互いに接続され得る。通信ネットワークの例としては、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット等が挙げられる。
【0124】
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとVPSサービス(Virtual Private Server、また、「VPS」と略記する)では、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバーは、分散システムのサーバー、またはブロックチェーンを結合したサーバーであってもよい。
【0125】
本願の実施例の技術案によれば、長いリッチテキスト文書を理解する文書読解モデルの能力を向上させ、さまざまなソースからの文書に対して、特定の情報抽出スキームを設計する必要がないため、人件費を節約することができる。
【0126】
上記に示された様々な形態のフローが、ステップの順序変更、追加、または削除のために使用され得ることが理解されるべきである。例えば、本願に記載された各ステップは、並列に実行されても、順次的に実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できる限り、本明細書はここで限定しない。
【0127】
上記の実施形態は、本願の保護範囲を制限するように構成されない。当業者は、設計要件と他の要素に従って、各種の修正、組合せ、サブコンビネーションまたは代替を行うことが可能であることは明らかである。本願の思想及び原理から逸脱しない限り、行ったあらゆる修正、等価置換及び改良等は、本願の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10