(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-19
(45)【発行日】2024-01-29
(54)【発明の名称】テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20240122BHJP
G06V 30/14 20220101ALI20240122BHJP
【FI】
G06T7/00 350B
G06V30/14 340Z
【外国語出願】
(21)【出願番号】P 2022145248
(22)【出願日】2022-09-13
【審査請求日】2022-09-13
(31)【優先権主張番号】202210234230.9
(32)【優先日】2022-03-10
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100138759
【氏名又は名称】大房 直樹
(72)【発明者】
【氏名】シアメン・チン
(72)【発明者】
【氏名】シヤオチアーン・ジャーン
(72)【発明者】
【氏名】ジュ・ホワーン
(72)【発明者】
【氏名】ユーリン・リー
(72)【発明者】
【氏名】チュンイ・シエ
(72)【発明者】
【氏名】クン・ヤオ
(72)【発明者】
【氏名】ジュンユ・ハン
【審査官】笠田 和宏
(56)【参考文献】
【文献】米国特許出願公開第2021/0201182(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 30/14
(57)【特許請求の範囲】
【請求項1】
テキスト抽出方法であって、
検出待ち画像の視覚的符号化特徴を取得することと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモード特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと
を含
み、
前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることであって、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、ことと、
前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることと
を含む、テキスト抽出方法。
【請求項2】
前述した、検出待ち画像の視覚的符号化特徴を取得することは、
前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることとを含む、請求項
1に記載の方法。
【請求項3】
前述した、前記検出待ち画像から複数組のマルチモーダル特徴を抽出することは、
前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ることと、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ることと、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ることと、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項1
又は2に記載の方法。
【請求項4】
テキスト抽出モデルのトレーニング方法であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、
当該出力サブモデルが、セルフアテンション層及びコーデックアテンション層を含むデコーダと、多層パーセプトロンネットワークとを含み、
前記方法は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
前記出力サブモデルから出力される第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることと
を含
み、
前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることであって、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記セルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
前記複数の融合特徴と前記視覚的符号化特徴を前記コーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、ことと、
前記デコーダから出力されるシーケンスベクトルを前記多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることと
を含む、テキスト抽出モデルのトレーニング方法。
【請求項5】
前記視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、前述した、前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することは、
前記サンプル画像を前記バックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
前記画像特徴と予め設定される位置符号化特徴を加算した後、前記エンコーダに入力し、符号化操作を行い、前記サンプル画像の視覚的符号化特徴を得ることとを含む、請求項
4に記載の方法。
【請求項6】
前記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、前述した、前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することは、
前記サンプル画像を前記予め設定される検出モデルに入力し、前記サンプル画像の特徴マップと複数の検出枠の位置情報を得ることと、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
前記複数の検出枠の位置情報を利用して、前記サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得ることと、
前記予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ることと、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項
4に記載の方法。
【請求項7】
テキスト抽出装置であって、
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む抽出モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュールとを含
み
前記第2の取得モジュールは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ること、
前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むこと、
正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることのために用いられ、
前記第2の取得モジュールは、さらに、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であること、
前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることのために用いられる、テキスト抽出装置。
【請求項8】
前記第1の取得モジュールは、具体的に、
前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得すること、
前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることのために用いられる、請求項
7に記載の装置。
【請求項9】
前記抽出モジュールは、具体的に、
前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ること、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ること、
前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ること、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ること、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることのために用いられる、請求項
7に記載の装置。
【請求項10】
テキスト抽出モデルのトレーニング装置であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、
当該出力サブモデルが、セルフアテンション層及びコーデックアテンション層を含むデコーダと、多層パーセプトロンネットワークとを含み、
前記装置は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む第2の取得モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
前記出力サブモデルから出力される第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含
み、
前記テキスト抽出モジュールは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることと、
前記デコーダから出力されるシーケンスベクトルを前記多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることと
を行うように構成され、
前記テキスト抽出モジュールは、さらに、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記セルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
前記複数の融合特徴と前記視覚的符号化特徴を前記コーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることと
を行うように構成される、テキスト抽出モデルのトレーニング装置。
【請求項11】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1
、2、4、5及び6のうちのいずれか1項に記載の方法を実行させる、電子機器。
【請求項12】
コンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1
、2、4、5及び6のうちのいずれか1項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。
【請求項13】
プロセッサによって実行されると、請求項1
、2、4、5及び6のうちのいずれか1項に記載の方法を実現するコンピュータプログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、特にコンピュータビジョン技術分野に関する。
【背景技術】
【0002】
情報伝達の効率を高めるために、構造化テキストは、一般的に使用される情報担体となっており、デジタル化及び自動化されたオフィスシナリオで広く使用されている。現在では、多くの実体文書における情報は、電子化された構造化テキストとして記録される必要があることがある。例えば、企業のオフィスインテリジェント化を支援するためには、大量の実体手形における情報を抽出し、構造化テキストとして保存する必要がある。
【発明の概要】
【0003】
本開示は、テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器を提供する。
本開示の第1の態様によれば、テキスト抽出方法を提供し、前記方法は、
検出待ち画像の視覚的符号化特徴を取得すること、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることとを含む。
【0004】
本開示の第2の態様によれば、テキスト抽出モデルのトレーニング方法を提供し、ここで、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記方法は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることとを含む。
【0005】
本開示の第3態様によれば、テキスト抽出装置を提供し、前記装置は、
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む抽出モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュールとを含む。
【0006】
本開示の第4態様によれば、テキスト抽出モデルのトレーニング装置を提供し、ここで、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記装置は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む第2の取得モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含む。
【0007】
本開示の第5態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに上記第1の態様又は第2の態様のいずれか1項に記載の方法を実行させる。
【0008】
本開示の第6態様によれば、コンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体を提供し、前記ピュータ命令は、前記コンピュータに上記第1の態様又は第2の態様のいずれか1項に記載の方法を実行させるために用いられる。
【0009】
本開示の第7態様によれば、プロセッサによって実行されると、上記第1の態様又は第2の態様のいずれか1項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【0010】
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
【図面の簡単な説明】
【0011】
図面は、本発明をより良く理解するために、本開示に対する制限を構成していないことである。ここで、
【
図1】本開示の実施例によるテキスト抽出方法のフローチャートである。
【
図2】本開示の実施例による別のテキスト抽出方法のフローチャートである。
【
図3】本開示の実施例による別のテキスト抽出方法のフローチャートである。
【
図4】本開示の実施例による別のテキスト抽出方法のフローチャートである。
【
図5】本開示の実施例によるテキスト抽出モデルのトレーニング方法のフローチャートである。
【
図6】本開示の実施例による別のテキスト抽出モデルのトレーニング方法のフローチャートである。
【
図7】本開示の実施例による別のテキスト抽出モデルのトレーニング方法のフローチャートである。
【
図8】本開示の実施例によるテキスト抽出モデルの例示的な概略図である。
【
図9】本開示の実施例によるテキスト抽出装置の構造概略図である。
【
図10】本開示の実施例によるテキスト抽出モデルのトレーニング装置の構造概略図である。
【
図11】本開示の実施例のテキスト抽出方法又はテキスト抽出モデルのトレーニング方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下、図面に合わせて本開示の例示的な実施形態を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲および精神から逸脱することなく、本明細書で説明された実施形態に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。
【0013】
本願の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。
【0014】
現在では、種々のシナリオにおいて、構造化テキストを生成するために、実体文書から情報を抽出し、構造化記憶を行ってもよく、ここで、実体文書は、具体的に、紙文書、種々の手形、証明書又はカードなどであってもよい。
【0015】
現在では一般的に用いられる構造化情報抽出方式には、抽出される必要のある情報を実体文書から手作業で取得し、構造化テキストに記録する手動記録の方式がある。
又は、さらに、テンプレートマッチングに基づく方法を用いてもよく、即ち、構造が簡単である証明書について、これらの証明書における各部分が一般的に一定の幾何学的様式を有するため、構造が同じである証明書に対して標準テンプレートを構築してもよい。この標準テンプレートは、証明書のどれらの幾何学的領域からテキスト情報を抽出するかを指定している。標準テンプレートに基づき、各証明書における一定の位置から、テキスト情報を抽出した後、光学文字認識(Optical Character Recognition、OCR)によって、抽出されたテキスト情報を認識し、さらに、抽出されたテキスト情報に対して構造化記憶を行う。
【0016】
又は、さらに、キーシンボル検索に基づく方法を用いてもよく、即ち、検索ルールを予め設定し、キーシンボルの前又は後の指定された長さの領域内でテキストを検索することを予め指定する。例えば、キーシンボル「日付」の後に、「XX年XX月XX日」というフォーマットを満たすテキストを検索し、検索されたテキストを構造化テキストにおける「日付」というフィールドの属性値とする。
【0017】
上記の方法はいずれも大量の手作業を必要とし、即ち、手作業で情報を抽出し、又は、各構造の証明書に対してテンプレートを手作業で構築し、又は、検索ルールを手作業で設定する必要があり、大量の労働力を要し、種々の様式の実体文書の抽出には適用できず、抽出効率が比較的に低い。
【0018】
上記問題を解決するために、本開示の実施例は、電子機器によって実行可能なテキスト抽出方法を提供し、この電子機器は、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、サーバなどの機器であってもよい。
【0019】
以下は、本開示の実施例によるテキスト抽出方法を詳しく説明する。
図1に示すように、本開示の実施例は、テキスト抽出方法を提供し、この方法は、以下を含む。
【0020】
S101、検出待ち画像の視覚的符号化特徴を取得する。
ここで、検出待ち画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などであってもよい。
【0021】
検出待ち画像の視覚的符号化特徴は、検出待ち画像に対して特徴抽出を行い、抽出された特徴に対して符号化操作を行った後に得られる特徴であり、視覚的符号化特徴の取得方法について、後続の実施例において詳しく説明する。
視覚的符号化特徴は、検出待ち画像におけるテキストのコンテキスト情報を表すことができる。
【0022】
S102、検出待ち画像から複数組のマルチモーダル特徴を抽出する。
ここで、各組のマルチモーダル特徴は、検出待ち画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む。
【0023】
本開示の実施例において、検出枠は、矩形であってもよく、検出枠の位置情報は、(x,y,w,h)で表されてもよく、ここで、xとyは、検出待ち画像における検出枠のいずれか1つの隅部の位置座標を表し、例えば、検出待ち画像における検出枠の左上隅部の位置座標であってもよく、wとhは、それぞれ検出枠の幅と高さを表す。例えば、検出枠の位置情報が(3,5,6,7)で表されば、検出待ち画像におけるこの検出枠の左上隅部の位置座標は、(3,5)であり、この検出枠の幅は、6であり、高さは、7である。
【0024】
本開示の実施例は、検出枠の位置情報の表現形式を限定せず、検出枠の位置情報を表すことができる他の形式であってもよく、例えば、検出枠の4つの隅部の座標であってもよい。
検出枠における検出特徴は、検出待ち画像におけるこの検出枠部分画像の特徴である。
【0025】
S103、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得する。
【0026】
ここで、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。
例えば、検出待ち画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。
【0027】
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴によって、各組のマルチモーダル特徴に含まれる第1のテキスト情報が抽出待ち属性にマッチングするかどうかを確定することができ、それによって抽出待ち属性にマッチングする第2のテキスト情報を取得する。
【0028】
本開示の実施例を用いると、視覚的符号化特徴と複数組のマルチモーダル特徴によって、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。複数組のマルチモーダル特徴に検出待ち画像における複数の第1のテキスト情報が含まれ、そのうち、抽出待ち属性にマッチングするテキスト情報と抽出待ち属性にマッチングしていないテキスト情報があり、且つ視覚的符号化特徴が検出待ち画像におけるテキストのグローバルコンテキスト情報を表すことができるため、視覚的符号化特徴に基づき、複数組のマルチモーダル特徴から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。上記プロセスにおいて、手作業を必要とせず、且つ検出待ち画像に対する特徴抽出は、検出待ち画像の様式によって制限されず、各様式の実体文書に対してそれぞれテンプレートを作成するか又は検索ルールを設定する必要がなく、情報抽出の効率を向上させることができる。
【0029】
本開示の別の実施例において、視覚的符号化特徴の取得プロセスを説明する。
図2に示すように、上記実施例を基礎として、S101、検出待ち画像の視覚的符号化特徴を取得することは、具体的に、以下のステップを含んでもよい。
【0030】
S1011、検出待ち画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得する。
ここで、バックボーンネットワーク(Backbone)は、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)であってもよく、例えば、具体的に、深層残差ネットワーク(Deep residual network、ResNet)であってもよい。又は、バックボーンネットワークは、Transformerベースのニューラルネットワークであってもよい。
【0031】
Transformerベースのバックボーンネットワークを用いることを例として、このバックボーンネットワークは、階層化設計を用いてもよく、例えば、順に接続される4層の特徴抽出層を含んでもよく、即ち、このバックボーンネットワークは、4つの特徴抽出段階(stage)を実現することができる。各層の特徴抽出層から出力される特徴マップの解像度は、順に低下し、CNNと類似しており、受容野を層ごとに広げることができる。
【0032】
ここで、第1の層の特徴抽出層は、トークン埋め込み(Token Embedding)モジュールと、Transformerアーキテクチャにおける符号化ブロック(Transformer Block)とを含み、後続の3層の特徴抽出層は、いずれもトークン融合(Token Merging)モジュールと、符号化ブロック(Transformer Block)とを含む。第1の層の特徴抽出層のToken Embeddingモジュールは、画像分割と位置情報埋め込みの操作を行うことができ、残りの層のToken Mergingモジュールは、主に、下位層のサンプリングの役割を果たし、各層における符号化ブロックは、特徴に対して符号化を行うためのものであり、各符号化ブロックは、2つのTransformerエンコーダを含んでもよい。ここで、1番目のTransformerエンコーダのセルフアテンション層は、ウィンドウセルフアテンション層であり、アテンション計算を固定サイズのウィンドウ内に集中させ、計算量を低減させるためのものである。2番目のTransformerエンコーダにおけるセルフアテンション層は、異なるウィンドウ間の情報伝達を確保することができ、このように局所から全体への特徴抽出が実現され、バックボーンネットワーク全体の特徴抽出能力を著しく向上させることができる。
【0033】
S1012、画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、検出待ち画像の視覚的符号化特徴を得る。
ここで、予め設定される位置ベクトルに対して位置埋め込み(position Embedding)を行い、予め設定される位置符号化特徴を得る。この予め設定される位置ベクトルは、実際の必要に応じて設定されてもよく、画像特徴と予め設定される位置符号化特徴を加算することで、2D空間位置情報を体現できる視覚的特徴を得ることができる。
【0034】
本開示の実施例において、融合ネットワークによって、画像特徴と予め設定される位置符号化特徴を加算し、視覚的特徴を得ることができる。そして、視覚的特徴を1つのTransformerエンコーダ又は他のタイプのエンコーダに入力して符号化操作を行い、視覚的符号化特徴を得る。
【0035】
Transformerエンコーダを用いて符号化操作を行えば、まず、視覚的特徴を一次元ベクトルに変換してもよく、例えば、1*1の畳み込み層によって、加算結果に対して次元縮小を行って、Transformerエンコーダのシーケンス化入力要件を満たさせ、さらに、この一次元ベクトルをTransformerエンコーダに入力して符号化操作を行ってもよく、このように、エンコーダの計算量を低減させることができる。
【0036】
説明すべきこととして、上記S1011-S1012は、予めトレーニングされたテキスト抽出モデルに含まれる視覚的符号化サブモデルによって実現してもよく、テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。
【0037】
この方法を用いると、バックボーンネットワークによって、検出待ち画像の画像特徴を取得し、そしてこの画像特徴と予め設定される位置符号化特徴を加算し、テキストコンテキスト情報に対する得られる視覚的特徴の表現能力を向上させ、検出待ち画像に対する後続で得られる視覚的符号化特徴の表現の正確性を向上させることができ、さらに、この視覚的符号化特徴によって、後続で抽出される第2のテキスト情報の正確性を向上させることもできる。
【0038】
本開示の別の実施例において、マルチモーダル特徴の抽出プロセスを説明する。ここで、マルチモーダル特徴は、検出枠の位置情報、検出枠における検出特徴、及び検出枠における文字内容という3つの部分を含む。
図3に示すように、上記S102、検出待ち画像から複数組のマルチモーダル特徴を抽出することは、具体的に、以下のステップとして実現してもよい。
【0039】
S1021、検出待ち画像を予め設定される検出モデルに入力し、検出待ち画像の特徴マップと複数の検出枠の位置情報を得る。
ここで、予め設定される検出モデルは、画像における、テキスト情報を含む検出枠を抽出するためのモデルであってもよく、このモデルは、OCRモデルであってもよく、関連技術における他のモデル、例えば、ニューラルネットワークモデルであってもよく、本開示の実施例は、これを限定しない。
【0040】
検出待ち画像を予め設定される検出モデルに入力した後、予め設定される検出モデルは、検出待ち画像の特徴マップ(feature map)、及び検出待ち画像における、テキスト情報を含む検出枠の位置情報を出力することができる。位置情報の表現方式は、上記S102における関連記述を参照してもよく、ここで説明を省略する。
【0041】
S1022、複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得る。
理解できるように、検出待ち画像の特徴マップと各検出枠の位置情報を得た後、それぞれ、各検出枠の位置情報に基づき、特徴マップから、この検出枠の位置にマッチングする特徴を、この検出枠に対応する検出特徴として切り取る(crop)ことができる。
【0042】
S1023、複数の検出枠の位置情報を利用して、検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得る。
ここで、検出枠の位置情報が検出待ち画像における検出枠の位置を表すためのものであるため、各検出枠の位置情報に基づき、検出待ち画像における検出枠の位置する画像を切り出し、切り出されるサブ画像を検出待ちサブマップとすることができる。
【0043】
S1024、予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得る。
ここで、予め設定される認識モデルは、関連技術におけるいずれか1つのテキスト認識モデルであってもよく、例えば、OCRモデルであってもよい。
【0044】
S1025、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得る。
【0045】
本開示の実施例において、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してそれぞれ埋め込み(embedding)操作を行い、特徴ベクトルの形式に変換した後、さらに、スティッチングを行うことによって、この検出枠のマルチモーダル特徴を得ることができる。
【0046】
説明すべきこととして、上記S1021-S1025は、予めトレーニングされるテキスト抽出モデルに含まれる検出サブモデルによって実現してもよく、この検出サブモデルは、上記予め設定される検出モデルと、予め設定される認識モデルとを含む。テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。
【0047】
この方法を用いると、検出待ち画像から、各検出枠の位置情報、検出特徴及び第1のテキスト情報を正確に抽出することができ、後続で、抽出される第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を抽出することを容易にする。本開示の実施例では、マルチモーダル特徴を抽出する時、テンプレートに規定される位置又はキーワード位置に依存していないため、検出待ち画像における第1のテキスト情報に歪み変形、プリントずれなどの問題があっても、検出待ち画像から、マルチモーダル特徴を正確に抽出することができる。
【0048】
本開示の別の実施例において、
図4に示すように、上記実施例を基礎として、S103は、具体的に、以下として実現してもよい。
【0049】
S1031、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得る。
【0050】
ここで、このデコーダは、Transformerデコーダであってもよく、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、S1031は、具体的に、以下として実現してもよい。
【0051】
ステップ1、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダのセルフアテンション層に入力し、複数の融合特徴を得る。ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴である。
【0052】
本開示の実施例において、マルチモーダル特徴は、Transformerネットワークにおけるマルチモーダルqueriesとしてもよく、抽出待ち属性は、key queryとしてもよい。抽出待ち属性に対してembedding操作を行った後、デコーダのセルフアテンション層に入力し、複数組のマルチモーダル特徴をセルフアテンション層に入力してもよく、さらに、セルフアテンション層は、各組のマルチモーダル特徴と抽出待ち属性を融合し、各組のマルチモーダル特徴に対応する融合特徴を出力することができる。
【0053】
Key queyをセルフアテンション層によってマルチモーダル特徴queriesに融合することで、Transformerネットワークに、key queryとマルチモーダル特徴における第1のテキスト情報(value)を同時に理解させることができ、それによってkey-value間の関係を理解させる。
【0054】
ステップ2、複数の融合特徴と視覚的符号化特徴をデコーダのコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得る。
セルフアテンションメカニズムによって、抽出待ち属性とマルチモーダル特徴を融合することで、抽出待ち属性と複数組のマルチモーダル特徴に含まれる第1のテキスト情報との関連付けを得るとともに、Transformerデコーダのアテンションメカニズムは、検出待ち画像のコンテキスト情報を表す視覚的符号化特徴を取得し、さらに、デコーダは、視覚的符号化特徴に基づき、マルチモーダル特徴と抽出待ち属性との関係を得ることができ、即ち、シーケンスベクトルは、各組のマルチモーダル特徴と抽出待ち属性との関係を反映することができ、さらに、後続の多層パーセプトロンネットワークがシーケンスベクトルに基づき、各組のマルチモーダル特徴のクラスを正確に確定することができる。
【0055】
S1032、デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得る。
【0056】
ここで、多層パーセプトロンネットワークから出力されるクラスは、正しいクラス(right answer)と、誤ったクラス(wrong answer)とを含む。正しいクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性であることを表し、誤ったクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性ではないことを表す。
【0057】
本開示の実施例における多層パーセプトロンネットワークは、多層パーセプトロンメカニズム(Multilayer Perceptron、MLP)ネットワークである。MLPネットワークは、具体的に、各組のマルチモーダルqueriesのクラスを出力することができ、即ち、MLPから出力される一組のマルチモーダルqueriesのクラスがright answerであれば、この組のマルチモーダルqueriesに含まれる第1のテキスト情報が抽出待ち第2のテキスト情報であることを表し、MLPネットワークから出力される一組のマルチモーダルqueriesのクラスがwrong answerであれば、この組のマルチモーダルqueriesに含まれる第1のテキスト情報が抽出待ち第2のテキスト情報ではないことを表す。
【0058】
説明すべきこととして、本開示の実施例におけるデコーダと多層パーセプトロンネットワークは、いずれも、トレーニングされたものであり、具体的なトレーニング方法について、後続の実施例において説明する。
【0059】
S1033、正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とする。
説明すべきこととして、上記S1031-S1033は、予めトレーニングされるテキスト抽出モデルに含まれる検出サブモデルによって実現してもよく、この検出サブモデルは、上記デコーダと、多層パーセプトロンネットワークとを含む。テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。
【0060】
本開示の実施例を用いると、デコーダにおけるアテンションメカニズムによって、複数組のマルチモーダル特徴、抽出待ち属性及び視覚的符号化特徴に対して復号を行い、シーケンスベクトルを得、さらに、多層パーセプトロンネットワークは、シーケンスベクトルに基づいて、各第1のテキスト情報のクラスを出力し、正しいクラスである第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報として確定することができ、種々の様式の証明書手形に対するテキスト抽出を実現し、人件費を節約し、且つ抽出効率を向上させることができる。
【0061】
同じ技術的構想によれば、本開示の実施例は、テキスト抽出モデルのトレーニング方法をさらに提供し、このテキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、
図5に示すように、この方法は、以下を含む。
【0062】
S501、視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得する。
ここで、サンプル画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などである。
【0063】
視覚的符号化特徴は、サンプル画像におけるテキストのコンテキスト情報を表すことができる。
S502、検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得する。
【0064】
ここで、各組のマルチモーダル特徴は、サンプル画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む。
【0065】
ここで、検出枠の位置情報と検出枠における検出特徴について、上記S102における関連記述を参照してもよく、ここで説明を省略する。
S503、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第2のテキスト情報を得る。
【0066】
ここで、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。
例えば、サンプル画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。
【0067】
S504、出力サブモデルから出力される第2のテスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、テキスト抽出モデルをトレーニングする。
【0068】
本開示の実施例において、サンプル画像のアノテーションは、サンプル画像における実際に抽出される必要のあるテキスト情報である。抽出待ち属性にマッチングする第2のテキスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、損失関数値を計算し、損失関数値に基づいて、テキスト抽出モデルのパラメータを調整し、テキスト抽出モデルが収束しているかどうかを判断することができる。収束していなければ、引き続き、次のサンプル画像に基づき、S501-S503を実行し、損失関数値を再計算し、損失関数値に基づき、テキスト抽出モデルが収束していると確定するまで継続し、トレーニングが完了されているテキスト抽出モデルを得る。
【0069】
本開示の実施例を用いると、テキスト抽出モデルは、サンプル画像の視覚的符号化特徴と複数組のマルチモーダル特徴によって、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。複数組のマルチモーダル特徴に検出待ち画像における複数の第1のテキスト情報が含まれ、そのうち、抽出待ち属性にマッチングするテキスト情報と抽出待ち属性にマッチングしていないテキスト情報があり、且つ視覚的符号化特徴が検出待ち画像におけるテキストのグローバルコンテキスト情報を表すことができるため、テキスト抽出モデルは、視覚的符号化特徴に基づき、複数組のマルチモーダル特徴から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。このテキスト抽出モデルをトレーニングした後、後続で、このテキスト抽出モデルによって、第2のテキスト情報の抽出を直接的に行うことができ、手作業を必要とせず、且つテキスト情報抽出を要する実体文書の様式によって制限されず、情報抽出効率を向上させることができる。
【0070】
本開示の別の実施例において、上記視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、
図6に示すように、上記S501は、具体的に、以下のステップを含む。
【0071】
S5011、サンプル画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得する。
ここで、視覚的符号化サブモデルに含まれるバックボーンネットワークは、上記実施例で記述されたバックボーンネットワークと同じであり、上記実施例におけるバックボーンネットワークに関わる関連記述を参照してもよく、ここで説明を省略する。
【0072】
S5012、画像特徴と予め設定される位置符号化特徴を加算した後、エンコーダに入力し、符号化操作を行い、サンプル画像の視覚的符号化特徴を得る。
このステップにおけるサンプル画像の画像特徴に対する処理は、上記S1012における検出待ち画像の画像特徴に対する処理プロセスと同じであり、上記S1012における関連記述を参照してもよく、ここで説明を省略する。
【0073】
この方法を用いると、視覚的符号化サブモデルのバックボーンネットワークによって、検出待ち画像の画像特徴を取得し、そしてこの画像特徴と予め設定される位置符号化特徴を加算し、テキストコンテキスト情報に対する得られる視覚的特徴の表現能力を向上させ、検出待ち画像に対する後続でエンコーダによって得られる視覚的符号化特徴の表現の正確性を向上させることができ、さらに、この視覚的符号化特徴によって、後続で抽出される第2のテキスト情報の正確性を向上させることもできる。
【0074】
本開示の別の実施例において、上記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、これを基礎として、上記S502、検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得することは、具体的に、以下のステップとして実現してもよい。
【0075】
ステップ1、サンプル画像を予め設定される検出モデルに入力し、サンプル画像の特徴マップと複数の検出枠の位置情報を得る。
ステップ2、複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得る。
【0076】
ステップ3、複数の検出枠の位置情報を利用して、サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得る。
ステップ4、予め設定される認識モデルを利用して、各サンプルサブマップにおける第1のテキスト情報を認識し、各検出枠における第1のテキスト情報を得る。
【0077】
ステップ5、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得る。
【0078】
上記ステップ1からステップ5におけるサンプル画像から複数組のマルチモーダル特徴を抽出する方法は、上記
図3に対応する実施例に記述された検出待ち画像からマルチモーダル特徴を抽出する方法と同じであり、上記実施例における関連記述を参照してもよく、ここで説明を省略する。
【0079】
この方法を用いると、トレーニングされた検出サブモデルを用いて、サンプル画像から、各検出枠の位置情報、検出特徴及び第1のテキスト情報を正確に抽出することができ、後続で、抽出される第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を抽出することを容易にする。本開示の実施例では、マルチモーダル特徴を抽出する時、テンプレートに規定される位置又はキーワード位置に依存していないため、検出待ち画像における第1のテキスト情報に歪み変形、プリントずれなどの問題があっても、検出待ち画像から、マルチモーダル特徴を正確に抽出することができる。
【0080】
本開示の別の実施例において、出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、
図7に示すように、S503は、以下のステップを含んでもよい。
S5031、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得る。
【0081】
ここで、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、S5031は、以下として実現してもよい。
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得る。そして、複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得る。ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴である。
【0082】
セルフアテンションメカニズムによって、抽出待ち属性とマルチモーダル特徴を融合することで、抽出待ち属性と複数組のマルチモーダル特徴に含まれる第1のテキスト情報との関連付けを得るとともに、Transformerデコーダのアテンションメカニズムは、検出待ち画像のコンテキスト情報を表す視覚的符号化特徴を取得し、さらに、デコーダは、視覚的符号化特徴に基づき、マルチモーダル特徴と抽出待ち属性との関係を得ることができ、即ち、シーケンスベクトルは、各組のマルチモーダル特徴と抽出待ち属性との関係を反映することができ、さらに、後続の多層パーセプトロンネットワークがシーケンスベクトルに基づき、各組のマルチモーダル特徴のクラスを正確に確定することができる。
【0083】
S5032、デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得る。
【0084】
ここで、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、正しいクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性であることを表し、誤ったクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性ではないことを表す。
【0085】
S5033、正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とする。
本開示の実施例を用いると、デコーダにおけるアテンションメカニズムによって、複数組のマルチモーダル特徴、抽出待ち属性及び視覚的符号化特徴に対して復号を行い、シーケンスベクトルを得、さらに、多層パーセプトロンネットワークは、シーケンスベクトルに基づいて、各第1のテキスト情報のクラスを出力し、正しいクラスである第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報として確定することができ、種々の様式の証明書手形に対するテキスト抽出を実現し、人件費を節約し、且つ抽出効率を向上させることができる。
【0086】
以下、
図8に示すテキスト抽出モデルを結びつけて、本開示の実施例によるテキスト抽出方法を説明し、検出待ち画像が列車乗車券であることを例として、
図8に示すように、検出待ち画像から、複数組のマルチモーダル特徴queriesを抽出してもよく、マルチモーダル特徴は、検出枠の位置情報Bbox(x,y,w,h)と、検出特徴(Detection Features)と、第1のテキスト情報(Text)とを含む。
【0087】
本開示の実施例において、元々keyとする抽出待ち属性をqueryとし、抽出待ち属性をKey Queryと称してもよく、例として、抽出待ち属性は、具体的に、出発駅であってもよい。
【0088】
検出待ち画像(Image)をバックボーンネットワーク(Backbone)に入力し、画像特徴を抽出し、画像特徴に対して位置埋め込み(Position embedding)を行い、一次元ベクトルに変換する。
【0089】
一次元ベクトルをTransformerエンコーダ(Transformer Encoder)に入力して符号化し、視覚的符号化特徴を得る。
視覚的符号化特徴、マルチモーダル特徴queries及び抽出待ち属性(Key Query)をTransformerデコーダ(Transformer Decoder)に入力し、シーケンスベクトルを得る。
【0090】
シーケンスベクトルをMLPに入力し、各マルチモーダル特徴に含まれる第1のテキスト情報のクラスを得、クラスは、正しいクラス(right answer、又はRight Valueと称される)又は誤ったクラス(wrong answer、又はWrong Valueと称される)である。
【0091】
ここで、第1のテキスト情報が正しいクラスであることは、この第1のテキスト情報の属性が抽出待ち属性であり、この第1のテキスト情報が、抽出されるべきテキストであることを表し、
図7における抽出待ち属性が出発駅であり、「天津西駅」というクラスが正しいクラスであり、「天津西駅」は、抽出されるべき第2のテキスト情報である。
【0092】
本開示の実施例を用いると、key(抽出待ち属性)をQueryと定義し、Transformerデコーダのセルフアテンション層に入力し、各組のマルチモーダル特徴Queriesを抽出待ち属性にそれぞれ融合し、即ち、Transformerデコーダを利用して、マルチモーダル特徴と抽出待ち属性との関係を構築する。その後、さらに、Transformerエンコーダのコーデックアテンション層を利用して、マルチモーダル特徴、抽出待ち属性と視覚的符号化特徴との融合を実現し、最終的に、MLPがkey queryに対応するvalue answersを出力することができ、エンドツーエンドの構造化情報の抽出を実現する。key-valueをquestion-answerと定義する方式で、テキスト抽出モデルのトレーニングは、異なる様式の証明書手形に対応でき、トレーニングで得られるテキスト抽出モデルが種々の固定様式及び非固定様式の証明書手形に対して構造化テキスト抽出を行うことができ、手形認識業務の範囲を拡大し、且つ手形の歪み変形とプリントずれなどの要因による影響に耐え、特定のテキスト情報を正確に抽出することができる。
【0093】
上記方法の実施例に対応して、
図9に示すように、本開示の実施例は、テキスト抽出装置をさらに提供し、前記装置は、
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュール901と、
検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュール902であって、各組のマルチモーダル特徴は、検出待ち画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む抽出モジュール902と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュール903であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュール903とを含む。
【0094】
本開示の別の実施例において、第2の取得モジュール903は、具体的に、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とするために用いられる。
【0095】
本開示の別の実施例において、第2の取得モジュール903は、具体的に、
抽出待ち属性及び複数組のマルチモーダル特徴をデコーダのセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をデコーダのコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。
【0096】
本開示の別の実施例において、第1の取得モジュール901は、具体的に、
検出待ち画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、検出待ち画像の視覚的符号化特徴を得るために用いられる。
【0097】
本開示の別の実施例において、抽出モジュール902は、具体的に、
検出待ち画像を予め設定される検出モデルに入力し、検出待ち画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの前記検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。
【0098】
上記方法の実施例に対応して、本開示の実施例は、テキスト抽出モデルのトレーニング装置をさらに提供し、ここで、テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、
図10に示すように、この装置は、
視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュール1001と、
検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュール1002であって、各組のマルチモーダル特徴は、サンプル画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む第2の取得モジュール1002と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュール1003であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュール1003と、
出力サブモデルから出力される第2のテスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、テキスト抽出モデルをトレーニングするためのトレーニングモジュール1004とを含む。
【0099】
本開示の別の実施例において、出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、テキスト抽出モジュール1003は、具体的に、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とするために用いられる。
【0100】
本開示の別の実施例において、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、テキスト抽出モジュール1003は、具体的に、
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。
【0101】
本開示の別の実施例において、視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、第1の取得モジュール1001は、具体的に、
サンプル画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、エンコーダに入力し、符号化操作を行い、サンプル画像の視覚的符号化特徴を得るために用いられる。
【0102】
本開示の別の実施例において、前記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、第2の取得モジュール1002は、具体的に、
サンプル画像を予め設定される検出モデルに入力し、サンプル画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得、
予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠におけるテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。
【0103】
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図11は本開示の実施例を実施するための例示的な電子機器1100を示す概略ブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび/又は請求した本開示の実現を制限しない。
【0104】
図11に示すように、機器1100は、計算ユニット1101を含み、それはリードオンリーメモリ(ROM)1102に記憶されるコンピュータプログラムまた記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 1103において、さらに機器1100の動作に必要な種々のプログラムとデータを記憶することができる。計算ユニット1101、ROM 1102及びRAM 1103はバス1104によって互いに接続される。入力/出力(I/O)インターフェース1105もバス1104に接続される。
【0105】
機器1100における複数の部品はI/Oインターフェース1105に接続され、例えばキーボード、マウスなどの入力ユニット1106、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット1107、例えば磁気ディスク、光ディスクなどの記憶ユニット1108、および例えばネットワークカード、変調復調器、無線通信送受信機などの通信ユニット1109を含む。通信ユニット1109は、機器1100が例えばインターネットなどのコンピュータネットワークおよび/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にする。
【0106】
計算ユニット1101は処理およびコンピューティング能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1101の例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット1101は、例えばテキスト抽出方法又はテキスト抽出モデルのトレーニング方法などの以上に記載の各方法および処理を実行する。例えば、いくつかの実施例において、テキスト抽出方法又はテキスト抽出モデルのトレーニング方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット1108に有形に含まれる。いくつかの実施例において、コンピュータプログラムの部分又は全てはROM 1102および/又は通信ユニット1109を経由して機器1100にロードおよび/又はインストールされてよい。コンピュータプログラムがRAM 1103にロードされて計算ユニット1101によって実行される場合、以上で説明されるテキスト抽出方法又はテキスト抽出モデルのトレーニング方法の1つまたは複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット1101は他のいかなる適切な方式で(例えば、ファームウェアにより)テキスト抽出方法又はテキスト抽出モデルのトレーニング方法を実行するように構成されてよい。
【0107】
本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、コンピューターハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
【0108】
本願の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
【0109】
本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
【0110】
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
【0111】
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
【0112】
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。
【0113】
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよいことである。例えば、本開示に記載された各ことは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
【0114】
上述した実施形態は、本開示特許請求の範囲を限定するものではない。当業者が理解すべきこととして、設計要求と他の要因に基づいて、様々な修正、組み合わせ、一部の組み合わせと代替を行うことができることである。本開示における精神および原則から逸脱することなく行われるいかなる修正、同等物による置換や改良等は、いずれも本開示の保護範囲に含まれるものである。