(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-22
(45)【発行日】2023-08-30
(54)【発明の名称】文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
G06T 7/11 20170101AFI20230823BHJP
G06T 7/00 20170101ALI20230823BHJP
【FI】
G06T7/11
G06T7/00 350C
【外国語出願】
(21)【出願番号】P 2021038794
(22)【出願日】2021-03-10
【審査請求日】2021-12-20
(31)【優先権主張番号】202011049097.7
(32)【優先日】2020-09-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110002675
【氏名又は名称】弁理士法人ドライト国際特許事務所
(72)【発明者】
【氏名】リ,ユーリン
(72)【発明者】
【氏名】チン,シャーメン
(72)【発明者】
【氏名】チャン,チェンチュアン
(72)【発明者】
【氏名】ハン,ジュンユ
(72)【発明者】
【氏名】ディン,エールイ
(72)【発明者】
【氏名】ウ,ティエン
(72)【発明者】
【氏名】ワン,ハイフェン
【審査官】青木 重徳
(56)【参考文献】
【文献】中国特許出願公開第111709339(CN,A)
【文献】中国特許出願公開第111626049(CN,A)
【文献】特開2019-215647(JP,A)
【文献】特開2014-153846(JP,A)
【文献】中国特許出願公開第110321918(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/11
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するステップと、
前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するステップと、
前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するステップと、
前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するステップと、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するステップと、を含
み、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するステップは、
前記文字列をトラバースし、i(ただし、iは正の整数である)番目の文字列のカテゴリを確定するステップと、
前記文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字に基づいて候補文字列関係集合を検索するステップと、
前記候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングするステップと、
i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出するステップと、
前記新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力するステップと、を含む、文字構造化抽出方法。
【請求項2】
実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するステップは、
前記実体テキスト画像をシーン文字検出モデルに入力し、前記文字列の四角点座標を出力するステップと、
前記文字列の四角点座標をアフィン変換し、前記文字列の正矩形四角点座標を生成するステップと、
前記文字列の正矩形四角点座標に基づいて、前記実体テキスト画像において前記文字列の画像スライスを切り出すステップと、
前記文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力し、前記文字列のコンテンツを出力するステップと、を含む、請求項1に記載の文字構造化抽出方法。
【請求項3】
前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するステップは、
前記文字列の位置およびコンテンツに基づいて前記文字列の入力トリプルと文字列同士の関係の入力トリプルとを確定するステップであって、前記文字列の入力トリプルは、前記文字列の四角点座標、コンテンツおよび画像スライスを含み、前記文字列同士の関係の入力トリプルは、文字列同士の四角点座標の差分値、文字列同士の中心点の角度差および文字列同士の中心点のユークリッド距離を含む、ステップと、
前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するステップと、を含む、請求項2に記載の文字構造化抽出方法。
【請求項4】
前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するステップは、
前記文字列の四角点座標を前記文字列の幾何学的特徴として確定するステップと、
前記実体テキスト画像を畳み込みニューラルネットワークに入力し、視覚的2次元特徴マップを出力するステップと、
前記文字列の四角点座標に基づいて、前記視覚的2次元特徴マップにおける前記文字列の領域を算出し、関心領域座標変換操作により前記文字列の視覚的特徴を切り出すステップと、
前記文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、前記文字列のセマンティック特徴を取得するステップと、を含む、請求項3に記載の文字構造化抽出方法。
【請求項5】
前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するステップは、
前記文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、前記文字列のマルチモーダル特徴を生成するステップと、
文字列同士の組み合わせに対して、対応する文字列のマルチモーダル特徴と前記文字列同士の関係の入力トリプルをスティッチングして、文字列同士の関係特徴を生成するステップと、を含む、請求項4に記載の文字構造化抽出方法。
【請求項6】
前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するステップは、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴をグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するステップを含む、請求項5に記載の文字構造化抽出方法。
【請求項7】
前記グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含み、Nは正の整数であり、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴とをグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するステップは、
前記グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するステップを含み、ただし、1≦l<N、lは正の整数である、請求項6に記載の文字構造化抽出方法。
【請求項8】
l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するステップは、
l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力し、l層目から出力される関係確率行列を取得するステップと、
l-1層目から出力された文字列のマルチモーダル特徴と、l層目から出力された関係確率行列とを乗算し、l層目から出力された関係確率行列の確率分布に基づいて前記文字列とそれに関連付けられた文字列を特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得するステップと、
l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算し、前記多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得するステップと、
単一層ゲート付き回帰型ユニットを用いてl層目に埋め込まれた文字列のマルチモーダル特徴を前記l-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得するステップと、を含む、請求項7に記載の文字構造化抽出方法。
【請求項9】
l=Nの場合、前記文字列のカテゴリおよび関係確率行列はl層目から出力される、請求項8に記載の文字構造化抽出方法。
【請求項10】
前記関係集合に基づいて新たな関係集合を取得するステップは、
i番目の文字列がフィールドの属性、フィールドの値およびテーブルのセルの三者からなる和集合に属する場合、前記文字列の関係確率行列のi行目のうち確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表すステップと、
i番目の文字列がテーブルのヘッダに属する場合、関係集合のすべての要素に対応する文字列を保持して、i番目の文字列との対応関係を表すステップと、
前記対応関係に基づいて、前記新たな関係集合を生成するステップと、を含む、請求項
1に記載の文字構造化抽出方法。
【請求項11】
文字列のカテゴリはフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルのうちの少なくとも1つを含み、フィールドの属性および値はフィールド対応関係を表し、テーブルのヘッダおよびセルはテーブル対応関係を表し、文字列は無向グラフの頂点を表し、フィールド対応関係およびテーブル対応関係は無向グラフの辺を表し、関係確率行列は無向グラフの辺構造に基づいて対応する頂点間に関係があるか否かを表す、請求項1~1
0のいずれか1項に記載の文字構造化抽出方法。
【請求項12】
実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するように構成される検出モジュールと、
前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するように構成される抽出モジュールと、
前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するように構成される融合モジュールと、
前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するように構成される推定モジュールと、
前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するように構成される構築モジュールと、を含
み、
前記構築モジュールは、
前記文字列をトラバースし、i(ただし、iは正の整数である)番目の文字列のカテゴリを確定するように構成されるトラバースサブモジュールと、
前記文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字に基づいて候補文字列関係集合を検索するように構成される検索サブモジュールと、
前記候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングするように構成されるスクリーニングサブモジュールと、
i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出するように構成される取得サブモジュールと、
前記新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力するように構成されるマッピングサブモジュールと、を含む、文字構造化抽出装置。
【請求項13】
前記検出モジュールはさらに、
前記実体テキスト画像をシーン文字検出モデルに入力し、前記文字列の四角点座標を出力し、
前記文字列の四角点座標をアフィン変換し、前記文字列の正矩形四角点座標を生成し、
前記文字列の正矩形四角点座標に基づいて、前記実体テキスト画像において前記文字列の画像スライスを切り出し、
前記文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力し、前記文字列のコンテンツを出力するように構成される、請求項1
2に記載の文字構造化抽出装置。
【請求項14】
前記抽出モジュールは、
前記文字列の位置およびコンテンツに基づいて前記文字列の入力トリプルと文字列同士の関係の入力トリプルとを確定するように構成される確定サブモジュールであって、前記文字列の入力トリプルは、前記文字列の四角点座標、コンテンツおよび画像スライスを含み、前記文字列同士の関係の入力トリプルは、文字列同士の四角点座標の差分値、文字列同士の中心点の角度差および文字列同士の中心点のユークリッド距離を含む、確定サブモジュールと、
前記文字列の入力トリプルおよび前記文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、前記文字列の多変量情報を抽出するように構成される抽出サブモジュールと、を含む、請求項1
3に記載の文字構造化抽出装置。
【請求項15】
前記抽出サブモジュールはさらに、
前記文字列の四角点座標を前記文字列の幾何学的特徴として確定し、
前記実体テキスト画像を畳み込みニューラルネットワークに入力して、視覚的2次元特徴マップを出力し、
前記文字列の四角点座標に基づいて、前記視覚的2次元特徴マップにおける前記文字列の領域を算出し、関心領域座標変換操作により前記文字列の視覚的特徴を切り出し、
前記文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、前記文字列のセマンティック特徴を取得するように構成される、請求項1
4に記載の文字構造化抽出装置。
【請求項16】
前記融合モジュールはさらに、
前記文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、前記文字列のマルチモーダル特徴を生成し、
文字列同士の組み合わせに対して、対応する文字列のマルチモーダル特徴と前記文字列同士の関係の入力トリプルをスティッチングして、文字列同士の関係特徴を生成するように構成される、請求項1
5に記載の文字構造化抽出装置。
【請求項17】
前記推定モジュールは、
前記文字列のマルチモーダル特徴と前記文字列同士の関係特徴をグラフニューラルネットワークに入力し、前記文字列のカテゴリおよび関係確率行列を出力するように構成される出力サブモジュールを含む、請求項1
6に記載の文字構造化抽出装置。
【請求項18】
前記グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含み、Nは正の整数であり、
前記出力サブモジュールは、
前記グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するように構成される出力ユニットを含み、
ただし、1≦l<N、lは正の整数である、請求項1
7に記載の文字構造化抽出装置。
【請求項19】
前記出力ユニットはさらに、
l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力し、l層目から出力される関係確率行列を取得し、
l-1層目から出力された文字列のマルチモーダル特徴と、l層目から出力された関係確率行列とを乗算し、l層目から出力された関係確率行列の確率分布に基づいて前記文字列とそれに関連付けられた文字列を特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得し、
l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算し、前記多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得し、
単一層ゲート付き回帰型ユニットを用いてl層目に埋め込まれた文字列のマルチモーダル特徴を前記l-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得するように構成される、請求項1
8に記載の文字構造化抽出装置。
【請求項20】
l=Nの場合、前記文字列のカテゴリおよび関係確率行列はl層目から出力される、請求項
19に記載の文字構造化抽出装置。
【請求項21】
前記取得サブモジュールはさらに、
i番目の文字列がフィールドの属性、フィールドの値およびテーブルのセルの三者からなる和集合に属する場合、前記文字列の関係確率行列のi行目のうち確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表し、
i番目の文字列がテーブルのヘッダに属する場合、関係集合のすべての要素に対応する文字列を保持して、i番目の文字列との対応関係を表し、
前記対応関係に基づいて、前記新たな関係集合を生成するように構成される、請求項
12に記載の文字構造化抽出装置。
【請求項22】
文字列のカテゴリはフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルのうちの少なくとも1つを含み、フィールドの属性および値はフィールド対応関係を表し、テーブルのヘッダおよびセルはテーブル対応関係を表し、文字列は無向グラフの頂点を表し、フィールド対応関係およびテーブル対応関係は無向グラフの辺を表し、関係確率行列は無向グラフの辺構造に基づいて対応する頂点間に関係があるか否かを表す、請求項1
2~2
1のいずれか1項に記載の文字構造化抽出装置。
【請求項23】
少なくとも1つのプロセッサと前記少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含む電子機器であって、
前記記憶装置に前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~1
1のいずれか1項に記載の文字構造化抽出方法が実現される電子機器。
【請求項24】
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~1
1のいずれか1項に記載の文字構造化抽出方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体。
【請求項25】
プロセッサにより実行されると、請求項1~1
1のいずれか1項に記載の文字構造化抽出方法が実現される、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願の実施形態は、コンピュータ技術分野に関し、具体的には、コンピュータビジョン、ディープラーニング、自然言語処理などの人工知能分野に関する。
【背景技術】
【0002】
現代社会では、情報流通と伝達の効率を加速させるために、構造化テキストは自然言語の代わりに日常生産の主な情報キャリアとなっており、デジタル化、自動化されたオフィスプロセスに広く応用されている。世界的な情報電子化の成果が顕著になっているにもかかわらず、日常生活では相変わらず大量の実体文書が記録、審査、電子化される必要がある。例えば、財務部門では報告のために、毎日大量の実体手形が人手で複数回登録されている。銀行でも個人向けサービス関連の身分情報をバインドするために大量の身分証明書が登録されている。OCR(Optical Character Recognition、光学文字認識)技術により、実体テキストを認識し、電子化することができる。さらに、これらの構造化されていないテキストを格納可能な構造化テキストとして処理し、テキストの構造化情報抽出を実現することにより、企業のインテリジェントオフィスを支援し、情報の電子化を促進することができる。
【0003】
文字構造化情報抽出技術は、実体テキスト画像の意味コンテンツを抽出し、構造化テキストに変換し、構造化情報の抽出を実現する。現在、以下の3つの解決策が一般的に採用されている。
(1)人手による入力:この方法は人員による手動入力である。
(2)テンプレートマッチングに基づく方法:この方法は一般に構造が簡単な証明書を対象とする。その識別されるべき領域は、一般に特定の幾何学的レイアウトを有する。標準テンプレートファイルを作成することにより、指定された位置で対応するテキストコンテンツを抽出し、OCR技術を用いて文字の認識を実現する。
(3)キーシンボル位置に基づく戦略検索:この方法では、キーシンボルを位置付けることにより、周辺で領域情報検索を行う。例えば、キーシンボル「日付」の周辺では、戦略に基づいて「2020年12月12日」というテキストを検索し、「日付」フィールドの属性値とする。
【発明の概要】
【0004】
本出願の実施形態は、文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提案する。
【0005】
第1態様において、本出願の実施例は、実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するステップと、前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するステップと、前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するステップと、前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するステップと、前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するステップと、を含む、文字構造化抽出方法を提供する。
【0006】
第2態様において、本出願の実施例は、実体テキスト画像に対して文字検出を行い、前記実体テキスト画像の文字列の位置およびコンテンツを取得するように構成される検出モジュールと、前記文字列の位置およびコンテンツに基づいて、前記文字列の多変量情報を抽出するように構成される抽出モジュールと、前記文字列の多変量情報を特徴融合し、前記文字列のマルチモーダル融合特徴を取得するように構成される融合モジュールと、前記文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、前記文字列のカテゴリおよび関係確率行列を取得するように構成される推定モジュールと、前記文字列のカテゴリおよび関係確率行列に基づいて、前記実体テキスト画像の構造化情報を構築するように構成される構築モジュールと、を含む、文字構造化抽出装置を提供する。
【0007】
第3態様において、本出願の実施例は、少なくとも1つのプロセッサと前記少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含む電子機器であって、前記記憶装置に前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが本出願の第1態様のいずれかの実施形態に記載の文字構造化抽出方法が実現される電子機器を提供する。
【0008】
第4態様において、本出願の実施例は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ指令は本出願の第1態様のいずれかの実施形態に記載の文字構造化抽出方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。
【0009】
第5態様において、本出願の実施例は、プロセッサにより実行されると、本出願の第1態様のいずれかの実施形態に記載の文字構造化抽出方法が実現される、コンピュータプログラムを提供する。
【0010】
本出願の実施形態によって提供される文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムは、まず、実体テキスト画像に対して文字検出を行い、実体テキスト画像の文字列の位置およびコンテンツを取得する。そして、文字列の位置およびコンテンツに基づいて、文字列の多変量情報を抽出する。その後、文字列の多変量情報を特徴融合し、文字列のマルチモーダル融合特徴を取得する。さらに、文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、文字列のカテゴリおよび関係確率行列を取得する。最後に、文字列のカテゴリおよび関係確率行列に基づいて、実体テキスト画像の構造化情報を構築する。この実施形態は、大規模、自動化処理に適し、応用範囲が広く、汎用性が高いカテゴリおよび関係の推定に基づく文字構造化抽出方法を提供する。
【0011】
ここで説明されたコンテンツは本出願の実施形態の肝心または重要な特徴を表記するためのものではなく、本出願の範囲を限定するためのものでもないことを理解されたい。本出願の他の特徴は、以下の説明によって理解しやすくなるであろう。
【図面の簡単な説明】
【0012】
以下の図面を参照して作成された非限定的な実施形態に関する詳細な説明を読むことによって、本出願の他の特徴、目的、および利点は、より明らかになるであろう。図面は、本出願をよりよく理解するためのものであり、本明細書の限定を構成しない。
【
図1】本出願が適用可能な例示的なシステムアーキテクチャである。
【
図2】本出願に係る文字構造化抽出方法の一実施形態のフローチャートである。
【
図3】
図2の文字検出ステップの分解フローチャートである。
【
図4】
図2の多変量情報抽出ステップの分解フローチャートである。
【
図6】
図2のカテゴリおよび関係の推定ステップの分解フローチャートである。
【
図7】グラフニューラルネットワーク層の構成図である。
【
図8】
図2の構造化情報構築ステップの分解フローチャートである。
【
図9】本出願に係る文字構造化抽出装置の一実施形態の概略構成図である。
【
図10】本出願の実施形態に係る文字構造化抽出方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下、図面に関連して、本出願の例示的な実施形態について説明する。理解を容易にするために、説明には本出願の実施形態の様々な詳細が含まれているが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本明細書に記載された実施形態について、本明細書の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識できるであろう。同様に、以下の説明では、明確かつ簡略化するために、公知の機能および構造の説明を省略する。
【0014】
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
【0015】
図1は、本明細書に記載された文字構造化抽出方法または文字構造化抽出装置の一実施形態を適用することができる例示的なシステムアーキテクチャ100を示す。
【0016】
図1に示すように、システムアーキテクチャ100は、端末装置101と、ネットワーク102と、サーバ103と、を含むことができる。ネットワーク102は、端末装置101とサーバ103との間に通信リンクを提供するための媒体である。ネットワーク102は、有線・無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含むことができる。
【0017】
ユーザはメッセージなどを受信または送信するために、端末装置101を使用してネットワーク102を介してサーバ103とやりとりすることができる。端末装置101には、インテリジェントな文書処理アプリケーション、画像処理アプリケーションなど様々なクライアントアプリケーションがインストール可能である。
【0018】
端末装置101は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101がハードウェアである場合、スマートフォン、タブレット、ラップトップ、デスクトップコンピュータなどを含むがこれらに限定されない様々な電子機器であり得る。端末装置101がソフトウェアである場合、上述した電子機器にインストール可能である。これは、複数のソフトウェアまたはソフトウェアモジュールとして実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
【0019】
サーバ103は、様々なサービスを提供することができる。例えば、サーバ103は、端末装置101から取得した実体テキスト画像等のデータについて解析等の処理を行い、処理結果(例えば、構造化情報)を生成することができる。
【0020】
なお、サーバ103は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ103がハードウェアである場合、複数のサーバからなる分散サーバクラスターとして実装されてもよいし、単一のサーバとして実装されてもよい。サーバ103がソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するために使用される)として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
【0021】
なお、本実施形態によって提供される文字構造化抽出方法は、一般にサーバ103によって実行されるため、文字構造化抽出装置は、一般にサーバ103に設けられている。
【0022】
図1の端末装置、ネットワーク、およびサーバの数はあくまでも概略的なものにすぎないことを理解されたい。実装の必要性に応じて、任意の数の端末装置、ネットワーク、およびサーバを有することができる。サーバ103に実体テキスト画像が格納されている場合、システムアーキテクチャ100に端末装置101およびネットワーク102を設定しなくてもよい。
【0023】
図2は、本出願に係る文字構造化抽出方法の一実施形態のフローチャート200である。この文字構造化抽出方法は、以下のステップ(ステップ201~205)を含む。
【0024】
ステップ201では、実体テキスト画像に対して文字検出を行って、実体テキスト画像の文字列の位置およびコンテンツを取得する。
【0025】
本実施形態では、文字構造化抽出方法の実行主体(例えば、
図1に示すサーバ103)は、実体テキスト画像を取得し、OCR等の文字検出技術を用いて実体テキスト画像から文字を検出し、実体テキスト画像の文字列の位置およびコンテンツを取得することができる。ここで、実体テキスト画像は、実体テキストを撮影、スキャンなどして取得された画像であり得る。様々なカード、ビルの画像が一般的な例である。文字列は、実体テキスト画像における文字領域であり得る。その形状は通常、四角形である。したがって、文字列の位置は通常、その四角点の座標で表すことができる。文字列のコンテンツは、文字コンテンツであり得る。
【0026】
ステップ202では、文字列の位置およびコンテンツに基づいて、文字列の多変量情報を抽出する。
【0027】
本実施形態では、上述した実行主体は、文字列の位置およびコンテンツに基づいて、文字列の多変量情報を抽出することができる。ここで、多変量情報は、幾何学的特徴、視覚的特徴、セマンティック特徴などの文字列の複数のカテゴリの情報を含むことができる。幾何学的特徴と視覚的特徴は、文字列の位置に基づいて取得される。幾何学的特徴は、文字列の位置を表すために用いられる。視覚的特徴は、文字列の画像視覚情報を表すために用いられる。セマンティック特徴は文字列のコンテンツに基づいて取得され、文字列の意味を表すために用いられる。
【0028】
ステップ203では、文字列の多変量情報を特徴融合して、文字列のマルチモーダル融合特徴を取得する。
【0029】
本実施形態では、上述した実行主体は、文字列の多変量情報を特徴融合して、文字列のマルチモーダル融合特徴を取得することができる。ここで、マルチモーダル融合特徴は文字列の多変量情報を同時に含み、文字列の多変量情報をスティッチングして取得されたものである。
【0030】
ステップ204では、文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行って、文字列のカテゴリおよび関係確率行列を取得する。
【0031】
本実施形態では、上述した実行主体は、まず、文字列のマルチモーダル融合特徴に基づいて、文字列のカテゴリおよび関係を確定し、そして、文字列のカテゴリおよび関係に基づいて推定を行い、文字列のカテゴリおよび関係確率行列を取得することができる。ここで、実体テキスト画像の文字列は通常、フィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルの4つのカテゴリに分けられる。文字列の関係は、文字列同士の間の関係であり得る。フィールドの属性および値は、フィールド対応関係を表すことができる。フィールドの属性とフィールドの値は1対1の関係にある。テーブルのヘッダおよびセルは、テーブルの対応関係を表すことができる。テーブルのヘッダとテーブルのセルは一対多の関係にある。関係確率行列は、文字列同士の間に関係が存在する確率を表すために用いられることができる。
【0032】
ステップ205では、文字列のカテゴリおよび関係確率行列に基づいて、実体テキスト画像の構造化情報を構築する。
【0033】
本実施形態では、上述した実行主体は、文字列のカテゴリおよび関係確率行列に基づいて、実体テキスト画像の構造化情報を構築することができる。ここで、構造化情報は、文字列のカテゴリおよび文字列同士の間に存在する関係を(例えば異なるカテゴリの文字列を異なる色の矩形枠で囲むことで、および異なる関係にある文字列同士を異なる色の直線で結ぶことで)表すことができる。
【0034】
本出願の実施形態によって提供される文字構造化抽出方法は、まず、実体テキスト画像に対して文字検出を行い、実体テキスト画像の文字列の位置およびコンテンツを取得する。そして、文字列の位置およびコンテンツに基づいて、文字列の多変量情報を抽出する。その後、文字列の多変量情報を特徴融合し、文字列のマルチモーダル融合特徴を取得する。さらに、文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、文字列のカテゴリおよび関係確率行列を取得する。最後に、文字列のカテゴリおよび関係確率行列に基づいて、実体テキスト画像の構造化情報を構築する。この実施形態は、大規模、自動化処理に適し、応用範囲が広く、汎用性が高いカテゴリおよび関係の推定に基づく文字構造化抽出方法を提供する。
【0035】
理解を容易にするために、
図2によって提供される文字構造化抽出方法の各ステップについてそれぞれ詳細に説明する。なお、以下の分解方法はあくまでも一例に過ぎず、具体的な限定はしない。他の実行可能な分解方法も、同様に適用する。
【0036】
図3は、
図2の文字検出ステップの分解フローチャート300である。この文字検出ステップは以下のステップ(ステップ301~304)に分解することができる。
【0037】
ステップ301では、実体テキスト画像をシーン文字検出モデルに入力して、文字列の四角点座標を出力する。
【0038】
本実施形態では、上述した実行主体は、実体テキスト画像をシーン文字検出モデルに入力して、文字列の四角点座標を出力することができる。
【0039】
ここで、シーン文字検出モデルは、例えばEAST(an Efficient and Accuracy Scene Text detection pipeline、効率的で正確なシーンテキスト検出パイプライン)であり、実体テキスト画像における任意の方向および矩形形状の文字列を直接予測し、単一のニューラルネットワークにより、例えば候補集合および単語分割など不要な中間ステップを除去することができる。EASTから出力された文字列の四角点座標は時計回りにソートすることができる。すべての文字列の四角点座標からなる集合はP={pi;i∈N*}と表すことができる。ここで、i番目の文字列の四角点はpi={(xj,yj);j∈(1,4)}と表すことができる。
【0040】
ステップ302では、文字列の四角点座標をアフィン変換して、文字列の正矩形四角点座標を生成する。
【0041】
本実施形態では、上述した実行主体は、文字列のコンテンツを取得し続けるために、文字列の四角点座標をアフィン変換し、実体テキスト画像の歪みおよび印刷ずれによる干渉を除去して、文字列の正矩形四角点座標を生成することができる。ここで、i番目の文字列の四角点座標piに対して、その正矩形四角点座標をp^iと表すことができる。
【0042】
ステップ303では、文字列の正矩形四角点座標に基づいて、実体テキスト画像において文字列の画像スライスを切り出す。
【0043】
本実施形態では、上述した実行主体は、まず、実体テキスト画像において文字列の正矩形四角点座標に対応する点を検索し、そして、切断点の結び線をROI領域(関心領域)に囲むことにより、文字列の画像スライスを取得することができる。ここで、i番目の文字列については、その正矩形四角点座標p^iに基づいて、実体テキスト画像において対応する領域を切り出した画像スライスをIiと表すことができる。
【0044】
ステップ304では、文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力して、文字列のコンテンツを出力する。
【0045】
本実施形態では、上述した実行主体は、文字列の画像スライスをRCNN(Regions with CNN features、回帰型畳み込みニューラルネットワーク)に入力し、文字列のコンテンツを出力することができる。ここで、i番目の文字列の画像スライスIiに対して、i番目の文字列のコンテンツをciと表すことができる。
【0046】
ここで、RCNNは、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)手法をターゲット検出問題に適用し、CNNの良好な特徴抽出と分類性能を用いて、Region Proposal(領域生成)手法によりターゲット検出問題の転化を実現している。RCNNは、候補領域選択、CNN特徴抽出と分類、境界回帰などのいくつかのステップを含むことができる。
【0047】
本出願の実施形態によって提供される文字検出方法は、まず、実体テキスト画像をシーン文字検出モデルに入力して、文字列の四角点座標を出力する。そして、文字列の四角点座標をアフィン変換して、文字列の正矩形四角点座標を生成する。その後、文字列の正矩形四角点座標に基づいて、実体テキスト画像において文字列の画像スライスを切り出す。最後に、文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力して、文字列のコンテンツを出力する。この実施形態は、実体テキスト画像における文字列の位置およびコンテンツを取得する方法を提供する。また、文字列のコンテンツを取得する前に、文字列の四角点座標アフィンを正矩形四角点座標に変換することにより、実体テキスト画像の歪みおよび印刷ずれによる干渉を解消し、文字検出の精度を向上させることができる。
【0048】
構造化解析の利便性のため、まず、実体テキスト画像の一般的な関係構造について、予め定義しておき、対応する数学的形式を与えることができる。次に、構造化アルゴリズムを用いて実体テキスト画像の関係構造を予測する。最後に、関係定義により有効な関係構造をフィルタリングし、構造化情報を出力する。
【0049】
一般に、実体テキスト画像は通常、フィールドおよびテーブルから構成される。そのレイアウト構造をより良く解析するために、構造化テキストをフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルの4つのカテゴリに分ける。また、フィールドの属性と値に対応関係があり、同列のテーブルのヘッダとセルに対応関係があり、それ以外に他の形式の関係の組合せはないと仮定する。以上の規則に従って、実体テキスト画像の構造を以下のように定義する。
ここで、Rは、フィールド対応関係の集合を表し、フィールドの属性と値で表される。Mは、テーブルの対応関係の集合を表し、テーブルのヘッダとユニットで表される。Tは、すべての4種類のカテゴリの要素集合を表す。K、V、H、Cはそれぞれフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルの4種類のカテゴリを表す。
【0050】
さらに、実体テキスト画像の構造のために無向グラフG=(V,E)を定義する。ここでは、頂点V=T、すなわち、文字列は無向グラフの頂点を表し、以下では文字列と総称する。辺集合E=(R∪M)、すなわち、フィールド対応関係とテーブル対応関係は無向グラフの辺を表す。無向グラフの定義より、(vi,vj)=(vj,vi),viはi番目の文字列、vjはj番目の文字列(頂点)であることが分かる。
【0051】
さらに、Eに対して、対応する文字列(頂点)間に関係があるか否かを表すための1つの2次元関係確率行列A∈N
2;A
ij∈{0,1}を構築する。ここで、1は関係があること、0は関係がないことを表す。Gは無向グラフであるため、Aは対称行列である。関係確率行列Aは以下のように定義される。
【0052】
このように、実体テキスト画像の構造化形式:VとAを定義した。次の過程でモデルアルゴリズムにより学習と予測を行う。
【0053】
図4は、
図2の多変量情報抽出ステップの分解フローチャート400である。この多変量情報抽出ステップは以下のステップ(ステップ401~405)に分解することができる。
【0054】
ステップ401では、文字列の位置およびコンテンツに基づいて、文字列の入力トリプルおよび文字列同士の関係の入力トリプルを確定する。
【0055】
本実施形態では、上述した実行主体は、文字列の位置およびコンテンツに基づいて、文字列の入力トリプルおよび文字列同士の関係の入力トリプルを確定することができる。
【0056】
ここで、文字列の入力トリプルは、文字列の四角点座標と、コンテンツと、画像スライスと、を含むことができる。文字列同士の関係の入力トリプルは、文字列同士の四角点座標の差分値と、文字列同士の中心点の角度差と、文字列同士の中心点のユークリッド距離と、を含むことができる。
【0057】
本出願の実施形態では、図に基づくディープラーニングアルゴリズムを提案し、多変量情報融合により文字列のカテゴリVと関係確率行列Aを予測する。一方、アルゴリズムの入力は文字検出の結果に基づいて確定される。具体的には、各文字列v
iを定義する入力トリプル(p
i,c
i,I
i)は、文字列の四角点座標と、コンテンツと、画像スライスと、を含む。また、文字列同士の関係(v
i,v
j)を定義する入力トリプル(d
ij,r
ij,u
ij)の形式は、以下のとおりである。
ここで、d
ijは文字列v
iと文字列v
jの四角点座標の2次元座標における差分であり、r
ijは文字列v
iと文字列v
jの中心点の角度差を表し、r∈[-π,π]、e
ijは文字列v
iと文字列v
jの中心点のユークリッド距離を表す。
【0058】
次に、文字列の入力トリプルと文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、文字列の多変量情報を抽出する。具体的には、ステップ402~405に示される。
【0059】
ステップ402では、文字列の四角点座標を文字列の幾何学的特徴として確定する。
【0060】
本実施形態では、上述した実行主体は、文字列の四角点座標を文字列の幾何学的特徴として確定することができる。ここで、i番目の文字列viに対して、その幾何学的特徴はpiと表すことができる。
【0061】
ステップ403では、実体テキスト画像を畳み込みニューラルネットワークに入力して、視覚的2次元特徴マップを出力する。
【0062】
本実施形態では、上述した実行主体は、実体テキスト画像をCNNに入力し、CNNは実体テキスト画像を畳み込み演算して、視覚的2次元特徴マップを出力することができる。
【0063】
ステップ404では、文字列の四角点座標に基づいて、視覚的2次元特徴マップにおける文字列の領域を算出し、関心領域座標変換操作により文字列の視覚的特徴を切り出す。
【0064】
本実施形態では、上述した実行主体は、まず、文字列の四角点座標に対応する点を視覚的2次元特徴マップにおいて検索し、点の結び線で囲まれた領域を取得し、そして、関心領域座標変換(Transform ROI)操作により文字列の視覚的特徴を切り出すことができる。ここで、i番目の文字列viについて、その視覚的特徴は(Fi)vと表すことができる。
【0065】
ステップ405では、文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、文字列のセマンティック特徴を取得する。
【0066】
本実施形態では、上述した実行主体は、文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、文字列のセマンティック特徴を取得することができる。
【0067】
ここで、事前訓練モデルは、特定の知識領域(例えば、ビル、カード、または法的契約文書など)で事前訓練されたERNIEのようなセマンティック情報抽出に使用することができる。ERNIEは、文字列に対して語彙、構文、意味を十分に表して、上位層が理解しているセマンティック特徴を取得することができる。これにより、ERNIEに含まれる広義の言語知識領域を文字構造化に遷移させ、シーン知識やテキスト意味に対しより強い理解能力をERNIEに持たせることができる。ERNIEによる知識理解の強化により、様々なシーンのビル、カード、文書などの垂直領域の構造化解析をより容易に解決することができる。ここでi番目の文字列viに対して、そのコンテンツciをセマンティック情報抽出し、取得されたセマンティック特徴は(Fi)sと表すことができる。
【0068】
さらに、上述した実行主体は、文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、文字列のマルチモーダル特徴を生成することができる。文字列同士の組み合わせについて、文字列に対応するマルチモーダル特徴と文字列同士の関係の入力トリプルをスティッチングし、文字列同士の関係特徴を生成することで、多変量情報融合方法を提供する。ここで、i番目の文字列viに対して、幾何学的特徴pi、視覚的特徴(Fi)v、およびセマンティック特徴(Fi)sをマルチモーダルスプライシングスティッチング融合して、文字列のマルチモーダル特徴Fiを生成する。i番目の文字列viおよびj番目の文字列vjに対して、その文字列同士の関係特徴は、Eij=(Fi,Fj,dij,rij,uij)と表すことができる。
【0069】
図5は、多変量情報抽出の適用シーンである。
図5に示すように、医療ビル(medical bill)に対してOCR認識を行い、幾何情報、視覚情報、文字情報を取得する。幾何情報はそのまま幾何学的特徴とすることができ、視覚情報はCNNにより視覚的特徴を取得することができ、文字情報はERNIEによりセマンティック特徴を取得することができる。幾何学的特徴、視覚的特徴、セマンティック特徴を融合することにより、マルチモーダル特徴を取得することができる。マルチモーダル特徴に基づいて、関係確率行列Aを取得することができる。関係確率行列Aに基づいて、無向グラフのノードと辺を更新し、ノード分類と接続状態を確定することができる。
【0070】
本実施形態によって提供される多変量情報抽出方法は、まず、文字列の位置およびコンテンツに基づいて、文字列の入力トリプルおよび文字列同士の関係の入力トリプルを確定する。そして、文字列の四角点座標を文字列の幾何学的特徴として確定する。その後、実体テキスト画像を畳み込みニューラルネットワークに入力し、視覚的2次元特徴マップを出力する。さらに、文字列の四角点座標に基づいて、視覚的2次元特徴マップにおける文字列の領域を算出し、関心領域座標変換操作により文字列の視覚的特徴を切り出す。最後に、文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行い、文字列のセマンティック特徴を取得する。この多変量情報抽出方法はディープラーニング手法に基づいて文字列の多変量情報を抽出し、多変量情報の抽出効率と精度を向上させることができる。
【0071】
実際の応用では、文字列のカテゴリおよび関係確率行列はグラフニューラルネットワークを用いて計算することができる。多変量情報を用いて、大規模な意味学習モデルに基づいて、ディープラーニングネットワークを構築し、文字列間関係分布を推定する。
【0072】
具体的には、文字列のマルチモーダル特徴と文字列同士の関係特徴をグラフニューラルネットワークに入力し、文字列のカテゴリおよび関係確率行列を出力する。グラフニューラルネットワークに基づいてカテゴリおよび関係の推定を行い、文字列のカテゴリおよび関係を自動学習し、学習効率を向上させることができる。
【0073】
ここで、グラフニューラルネットワークの構造は、同じグラフニューラルネットワーク層を多層に積層して形成することができる。例えば、グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含むことができる。このとき、グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得することができる。ここで、Nは正の整数であり、lとNは式1≦l<Nの関係を満たし、lは正の整数である。
【0074】
図6は、
図2のカテゴリおよび関係の推定ステップの分解フローチャート600を示している。このカテゴリおよび関係の推定ステップは、以下のステップ(ステップ601~604)に分解することができる。
【0075】
ステップ601では、l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力して、l層目から出力される関係確率行列を取得する。
【0076】
本実施形態では、グラフニューラルネットワークのl層目に対して、その入力がl-1層目から出力された文字列のマルチモーダル特徴F[l-1]と文字列同士の関係特徴E[l-1]であり、その出力が文字列のマルチモーダル特徴F[l]と文字列同士の関係特徴E[l]である。
【0077】
具体的には、上述した実行主体は、l-1層目から出力された文字列同士の関係特徴E[l-1]をMLP(Multilayer Perceptron、多層パーセプトロンモデル)に入力し、l層目から出力される関係確率行列A[l]を取得することができる。ここで、MLPは人工ニューラルネットワーク(Artificial Neural Network、ANN)とも呼ばれ、入出力層を除いてその間に複数の隠れ層を持つことができ、最もシンプルなMLPは1つの隠れ層のみを含む。MLPでは、層と層の間は全結合されている。すなわち、上の層のいずれのニューロンは次の層のすべてのニューロンに接続されている。
【0078】
ステップ602では、l-1層目から出力された文字列のマルチモーダル特徴とl層目から出力された関係確率行列とを乗算し、文字列とそれに関連付けられた文字列をl層目から出力された関係確率行列の確率分布に基づいて特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得する。
【0079】
本実施形態では、上述した実行主体は、l-1層目から出力された文字列のマルチモーダル特徴F[l-1]とl層目から出力された関係確率行列A[l]とを行列乗算し、文字列と文字列に関連付けられた文字列とをl層目から出力された関係確率行列A[l]の確率分布に基づいて特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴H[l]を取得することができる。
【0080】
ステップ603では、l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算して、多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得する。
【0081】
本実施形態では、上述した実行主体は、l層目に埋め込まれた文字列のマルチモーダル特徴H[l]と、l-1層目から出力された文字列同士の関係特徴E[l-1]と、l層目に埋め込まれた文字列のマルチモーダル特徴H[l]の転置とを3項行列乗算し、MLPにより、l層目から出力される文字列同士の関係特徴E[l]を取得することができる。
【0082】
ステップ604では、単一層ゲート付き回帰型ユニットを用いて、l層目に埋め込まれた文字列のマルチモーダル特徴をl-1層目から出力された文字列のマルチモーダル特徴に更新して、l層目から出力される文字列のマルチモーダル特徴を取得する。
【0083】
本実施形態では、上述した実行主体は、単一層GRU(Gated Recurrent Unit)を用いて、l層目に埋め込まれた文字列のマルチモーダル特徴H[l]をl-1層目から出力された文字列のマルチモーダル特徴F[l-1]に更新し、l層目から出力される文字列のマルチモーダル特徴F[l]を取得することができる。
【0084】
ここで、l=Nの関係を満たす場合、l層目がグラフニューラルネットワークの最後の層であることを意味し、l層目から出力された関係確率行列A[l]は文字列の関係確率行列A′であり、l層目から出力された文字列特徴F[l]は文字列のカテゴリV′である。
【0085】
次に、
図7を参照する。
図7は、グラフニューラルネットワーク層の構成図である。
図7に示すように、l-1層目から出力された文字列同士の関係特徴E[l-1]をMLPに入力し、l層目から出力される関係確率行列A[l]を取得する。l-1層目から出力された文字列のマルチモーダル特徴F[l-1]とl層目から出力された関係確率行列A[l]を行列乗算し、l層目に埋め込まれた文字列のマルチモーダル特徴H[l]を取得する。l層目に埋め込まれた文字列のマルチモーダル特徴H[l]と、l-1層目から出力された文字列同士の関係特徴E[l-1]と、l層目に埋め込まれた文字列のマルチモーダル特徴H[l]の転置とを3項行列乗算し、MLPにより、l層目から出力される文字列同士の関係特徴E[l]を取得する。単一層GRUを用いて、l層目に埋め込まれた文字列のマルチモーダル特徴H[l]をl-1層目から出力された文字列のマルチモーダル特徴F[l-1]に更新し、l層目から出力される文字列のマルチモーダル特徴F[l]を取得する。
【0086】
本出願の実施形態によって提供されるカテゴリおよび関係の推定方法は、まず、l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力し、l層目から出力される関係確率行列を取得する。そして、l-1層目から出力された文字列のマルチモーダル特徴とl層目から出力された関係確率行列を乗算し、文字列とそれに関連付けられた文字列をl層目から出力された関係確率行列の確率分布に基づいて特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得する。その後、l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算し、多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得する。最後に、単一層ゲート付き回帰型ユニットを用いて、l層目に埋め込まれた文字列のマルチモーダル特徴をl-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得する。このグラフニューラルネットワークに基づくカテゴリおよび関係の推定方法によれば、文字列のカテゴリおよび関係を自動学習し、学習効率を向上させることができる。
【0087】
図8は、
図2の構造化情報構築ステップの分解フローチャート800である。この構造化情報構築ステップは、以下のステップ(ステップ801~805)に分解することができる。
【0088】
ステップ801では、文字列をトラバースして、i番目の文字列のカテゴリを確定する。
【0089】
本実施形態では、上述した実行主体は、文字列V′をトラバースし、i番目の文字列のカテゴリを確定することができる。
【0090】
ステップ802では、文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字により候補文字列関係集合を検索する。
【0091】
本実施形態では、上述した実行主体は、閾値t;t∈(0,1)を予め設定しておき、そして文字列の関係確率行列A′のi行目から予め設定された閾値tよりも大きい要素集合{Aij′}を抽出し、要素添字により候補文字列関係集合{(vi,vj)}を検索することができる。
【0092】
ステップ803では、候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングする。
【0093】
本実施形態では、上述した実行主体は、まず、フィールド関係Rまたはテーブル関係Mの和集合(R∪M)を確定し、そして、候補文字列関係集合{(vi,vj)}から(R∪M)に属する関係集合(R′,M′)を抽出することができる。
【0094】
ステップ804では、i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出する。
【0095】
本実施形態では、i番目の文字列に1組を超える関係が存在する場合、上述した実行主体は、文字列のカテゴリに基づいて新たな関係集合(R",M")を抽出することができる。
【0096】
いくつかの実施形態では、i番目の文字列viがフィールドの属性K、フィールドの値V、およびテーブルのセルCの3者の和集合に属し、すなわちvi∈(K∪V∪C)の場合、文字列の関係確率行列A′のi行目{Ai*′}の中で確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表す。i番目の文字列viがテーブルのヘッダHに属し、すなわち、vi∈Hの場合、関係集合のすべての要素{Ai*′}を保持して、i番目の文字列との対応関係を表す。関係集合における文字列と関係を更新することにより、新たな関係集合を生成することができる。
【0097】
ステップ805では、新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力する。
【0098】
本実施形態では、上述した実行主体は、新たな関係集合(R",M")におけるフィールド関係R"とテーブル関係M"のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力することができる。
【0099】
本実施形態によって提供される構造化情報の構築方法は、まず、文字列をトラバースし、i番目の文字列のカテゴリを確定する。そして、文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字により候補文字列関係集合を検索する。その後、候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングする。さらに、i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出する。最後に、新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力する。カテゴリおよび関係の推定に基づいて文字構造化抽出を行う方法は、応用範囲が広く、汎用性が高い。
【0100】
図9を参照すると、上述した各図に示す方法の実施形態として、文字構造化抽出装置の一実施形態が提供されている。この装置の実施形態は、
図2に示す方法の実施形態に対応する。この装置は、様々な電子機器に具体的に適用可能である。
【0101】
図9に示すように、本実施形態に係る文字構造化抽出装置900は、実体テキスト画像に対して文字検出を行い、実体テキスト画像の文字列の位置およびコンテンツを取得するように構成される検出モジュール901と、文字列の位置およびコンテンツに基づいて、文字列の多変量情報を抽出するように構成される抽出モジュール902と、文字列の多変量情報を特徴融合し、文字列のマルチモーダル融合特徴を取得するように構成される融合モジュール903と、文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、文字列のカテゴリおよび関係確率行列を取得するように構成される推定モジュール904と、文字列のカテゴリおよび関係確率行列に基づいて、実体テキスト画像の構造化情報を構築するように構成される構築モジュール905と、を含むことができる。
【0102】
本実施形態では、文字構造化抽出装置900において、検出モジュール901、抽出モジュール902、融合モジュール903、推定モジュール904、および構築モジュール905の具体的な処理およびそれによる技術的効果は、それぞれ
図2の対応する実施形態におけるステップ201~205の関連説明を参照することができる。ここではこれ以上説明しない。
【0103】
本実施形態のいくつかのオプション的な実施形態では、検出モジュール901はさらに、実体テキスト画像をシーン文字検出モデルに入力して、文字列の四角点座標を出力し、文字列の四角点座標をアフィン変換して、文字列の正矩形四角点座標を生成し、文字列の正矩形四角点座標に基づいて、実体テキスト画像において文字列の画像スライスを切り出し、文字列の画像スライスを回帰型畳み込みニューラルネットワークに入力して、文字列のコンテンツを出力するように構成されている。
【0104】
本実施形態のいくつかのオプション的な実施形態では、抽出モジュール902は、文字列の位置およびコンテンツに基づいて、文字列の四角点座標、コンテンツおよび画像スライスを含む文字列の入力トリプルと、文字列同士の四角点座標の差分値、文字列同士の中心点の角度差および文字列同士の中心点のユークリッド距離を含む文字列同士の関係の入力トリプルとを確定するように構成される確定サブモジュールと、文字列の入力トリプルおよび文字列同士の関係の入力トリプルをマルチモーダル特徴抽出アルゴリズムの入力として、文字列の多変量情報を抽出するように構成される抽出サブモジュールと、を含む。
【0105】
本実施形態のいくつかのオプション的な実施形態では、抽出サブモジュールはさらに、文字列の四角点座標を文字列の幾何学的特徴として確定し、実体テキスト画像を畳み込みニューラルネットワークに入力して、視覚的2次元特徴マップを出力し、文字列の四角点座標に基づいて視覚的2次元特徴マップにおける文字列の領域を算出し、関心領域座標変換操作により文字列の視覚的特徴を切り出し、文字列のコンテンツを事前訓練モデルに入力してセマンティック情報抽出を行って、文字列のセマンティック特徴を取得するように構成されている。
【0106】
本実施形態のいくつかのオプション的な実施形態では、融合モジュール903はさらに、文字列の幾何学的特徴、視覚的特徴、およびセマンティック特徴をマルチモーダルスティッチング融合して、文字列のマルチモーダル特徴を生成し、文字列同士の組み合わせに対して、対応する文字列のマルチモーダル特徴と文字列同士の関係の入力トリプルとをスティッチングして、文字列同士の関係特徴を生成するように構成されている。
【0107】
本実施形態のいくつかのオプション的な実施形態では、推定モジュール904は、文字列のマルチモーダル特徴と文字列同士の関係特徴をグラフニューラルネットワークに入力し、文字列のカテゴリおよび関係確率行列を出力するように構成される出力サブモジュールを含む。
【0108】
本実施形態のいくつかのオプション的な実施形態では、グラフニューラルネットワークは、N個のグラフニューラルネットワーク層を含み、Nが正の整数であり、出力サブモジュールは、グラフニューラルネットワークのl層目に対して、l-1層目から出力された文字列のマルチモーダル特徴と文字列同士の関係特徴をl層目に入力し、l層目から出力される文字列のマルチモーダル特徴と文字列同士の関係特徴を取得するように構成される出力ユニットを含み、lとNは式1≦l<Nの関係を満たし、lは正の整数である。
【0109】
本実施形態のいくつかのオプション的な実施形態では、出力ユニットはさらに、l-1層目から出力された文字列同士の関係特徴を多層パーセプトロンモデルに入力して、l層目から出力される関係確率行列を取得し、l-1層目から出力された文字列のマルチモーダル特徴とl層目から出力された関係確率行列とを乗算し、l層目から出力された関係確率行列の確率分布に基づいて文字列とそれに関連付けられた文字列を特徴集約し、l層目に埋め込まれた文字列のマルチモーダル特徴を取得し、l層目に埋め込まれた文字列のマルチモーダル特徴と、l-1層目から出力された文字列同士の関係特徴と、l層目に埋め込まれた文字列のマルチモーダル特徴の転置とを乗算して、多層パーセプトロンモデルにより、l層目から出力される文字列同士の関係特徴を取得し、単一層ゲート付き回帰型ユニットを用いてl層目に埋め込まれた文字列のマルチモーダル特徴をl-1層目から出力された文字列のマルチモーダル特徴に更新し、l層目から出力される文字列のマルチモーダル特徴を取得するように構成されている。
【0110】
本実施形態のいくつかのオプション的な実施形態では、l=Nの関係を満たす場合、文字列のカテゴリおよび関係確率行列がl層目から出力される。
【0111】
本実施形態のいくつかのオプション的な実施形態では、構築モジュール905は、文字列をトラバースし、正の整数であるi番目の文字列のカテゴリを確定するように構成されるトラバースサブモジュールと、文字列の関係確率行列のi行目から予め設定された閾値よりも大きい要素集合を抽出し、要素添字により候補文字列関係集合を検索するように構成される検索サブモジュールと、候補文字列関係集合からフィールド関係またはテーブル関係に属する関係集合をスクリーニングするように構成されるスクリーニングサブモジュールと、i番目の文字列に1組を超える関係が存在する場合、文字列のカテゴリに基づいて新たな関係集合を抽出するように構成される取得サブモジュールと、新たな関係集合におけるフィールド関係とテーブル関係のマッピングにより、i番目の文字列の位置およびコンテンツと結び付けて、i番目の文字列のフィールドとテーブルの構造化情報を出力するように構成されるマッピングサブモジュールと、を含む。
【0112】
本実施形態のいくつかのオプション的な実施形態では、取得サブモジュールはさらに、i番目の文字列がフィールドの属性、フィールドの値およびテーブルのセルの三者の和集合に属する場合、文字列の関係確率行列のi行目のうち確率値が最大となる要素に対応する文字列を選択して、i番目の文字列との対応関係を表し、i番目の文字列がテーブルのヘッダに属する場合、関係集合のすべての要素に対応する文字列を保持して、i番目の文字列との対応関係を表し、対応関係に基づいて、新たな関係集合を生成するように構成されている。
【0113】
本実施形態のいくつかのオプション的な実施形態では、文字列のカテゴリはフィールドの属性、フィールドの値、テーブルのヘッダ、テーブルのセルのうちの少なくとも1つを含み、フィールドの属性および値はフィールド対応関係を表し、テーブルのヘッダおよびセルはテーブル対応関係を表し、文字列は無向グラフの頂点を表し、フィールド対応関係およびテーブル対応関係は無向グラフの辺を表し、関係確率行列は無向グラフの辺構造に基づいて対応する頂点間に関係があるか否かを表す。
【0114】
本出願の実施形態によれば、本出願はまた、電子機器および可読記憶媒体を提供する。
【0115】
図10は、本出願の一実施形態に係る文字構造化抽出方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
【0116】
図10に示すように、電子機器は、1つ以上のプロセッサ1001と、メモリ1002と、各コンポーネントを接続するためのインタフェース(高速インタフェースおよび低速インタフェースを含む)とを含む。各コンポーネントは、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは、電子機器内で実行される指令を処理することができ、前記指令は、インタフェースに結合された表示装置等の外部入出力装置にグラフィカルユーザインタフェース(GUI,Graphical User Interface)のグラフィック情報を表示するために、メモリ内またはメモリ上に格納される指令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。
図10では、1つのプロセッサ1001を例に挙げている。
【0117】
メモリ1002は、非一時的コンピュータ可読記憶媒体として、本出願の実施形態における文字構造化抽出方法に対応するプログラム、指令、およびモジュール(例えば、
図9に示す検出モジュール901、抽出モジュール902、融合モジュール903、推定モジュール904、および構築モジュール905)のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、およびモジュールの格納に使用することができる。プロセッサ1001は、メモリ1002に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する。すなわち、上記本実施形態によって提供される文字構造化抽出方法を実施する。
【0118】
メモリ1002は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域、および、文字構造化抽出方法の電子機器の使用に基づいて生成されたデータなどを記憶することができるデータ記憶領域を含むことができる。さらに、メモリ1002は、高速ランダムアクセスメモリを含むことができ、少なくとも1つのディスク記憶装置、フラッシュメモリデバイス、または他の非一時的ソリッドステート記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ1002は、任意に、文字構造化抽出方法の電子機器にネットワークを介して接続することができる、プロセッサ1001に対して遠隔に設置されたメモリを含むことができる。上記ネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。
【0119】
文字構造化抽出方法の電子機器は、入力装置1003および出力装置1004をさらに含むことができる。プロセッサ1001、メモリ1002、入力装置1003、および出力装置1004は、バスを介してまたはその他の方式で接続されることができる。
図10はバスを介して接続される例である。
【0120】
入力装置1003、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置は、入力された数字または文字情報を受信し、文字構造化抽出方法の電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置1004は、表示装置、補助照明デバイス(例えば、LED)、触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。この表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
【0121】
ここで記述するシステムおよび技術の各実施形態はデジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit,ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも1つの入力装置および該少なくとも1つの出力装置に伝送することを含み得る。
【0122】
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語により実装され得る。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム、機器、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。
【0123】
ユーザとのやりとりを行うために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0124】
ここで記述したシステムおよび技術は、バックグラウンドコンポーネントを含む演算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む演算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む演算システム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む演算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
【0125】
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは通常、互いに離れており、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で動作し、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。
【0126】
本出願の技術案によれば、まず、実体テキスト画像に対して文字検出を行い、実体テキスト画像の文字列の位置およびコンテンツを取得する。そして、文字列の位置およびコンテンツに基づいて、文字列の多変量情報を抽出する。その後、文字列の多変量情報を特徴融合し、文字列のマルチモーダル融合特徴を取得する。さらに、文字列のマルチモーダル融合特徴に基づいてカテゴリおよび関係の推定を行い、文字列のカテゴリおよび関係確率行列を取得する。最後に、文字列のカテゴリおよび関係確率行列に基づいて、実体テキスト画像の構造化情報を構築する。この実施形態は、大規模、自動化処理に適し、応用範囲が広く、汎用性が高いカテゴリおよび関係の推定に基づく文字構造化抽出方法を提供する。
【0127】
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここで制限はしない。
【0128】
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および代替を行うことができることは理解される。本出願の精神および原理内で行われたあらゆる補正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。