IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ モーニングスター インコーポレイテッドの特許一覧

特表2023-530462改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品
<>
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図1
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図2
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図3
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図4
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図5
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図6
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図7
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図8
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図9
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図10
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図11
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図12
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図13
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図14
  • 特表-改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-18
(54)【発明の名称】改良された表処理のための方法、コンピュータシステム、及びコンピュータプログラム製品
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230710BHJP
【FI】
G06T7/00 350C
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2022577635
(86)(22)【出願日】2021-06-18
(85)【翻訳文提出日】2023-02-01
(86)【国際出願番号】 US2021037998
(87)【国際公開番号】W WO2021257939
(87)【国際公開日】2021-12-23
(31)【優先権主張番号】20180937.3
(32)【優先日】2020-06-18
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】309016511
【氏名又は名称】モーニングスター インコーポレイテッド
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100226263
【弁理士】
【氏名又は名称】中田 未来生
(72)【発明者】
【氏名】ヴァイバヴ コトワル
(72)【発明者】
【氏名】スワプニル デシュパンデ
(72)【発明者】
【氏名】カールティク ヤーダブ
(72)【発明者】
【氏名】トゥシャール ガワデ
(72)【発明者】
【氏名】スレ ニクヒル
(72)【発明者】
【氏名】アーマッド シャリク
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096BA18
5L096CA01
5L096EA02
5L096EA43
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
第1の態様において、本発明は、改良されたグリッドレス表処理のためのコンピュータ実装方法に係るものである。第2及び第3の態様において、本発明は、改良されたグリッドレス表処理のためのコンピュータシステム及びコンピュータプログラム製品に係るものである。第4の態様では、本発明は、文書構文解析のための方法、システム、又は製品のいずれかの使用に係るものである。
【選択図】図1
【特許請求の範囲】
【請求項1】
改良された表処理のためのコンピュータ実装方法であって、該方法が:
・グリッドレス表を含む固定レイアウト電子文書を提供するステップと;
・各々がグリッドレストレーニング表と、前記トレーニング表のバウンディングボックスを示すそれに紐づくラベルとを含む、複数のトレーニング関連電子文書に関連するトレーニングデータで、深層学習モデル(DLM)を訓練するステップと;
・前記訓練されたDLMによって、前記固定レイアウト電子文書中の前記グリッドレス表のバウンディングボックスを決定するステップと;
前記決定されたバウンディングボックスに基づいて、前記固定レイアウト電子文書から前記グリッドレス表の画像を抽出するステップと;
少なくとも膨張ステップを行うことによって、前記抽出画像を処理するステップと;
を備えるコンピュータ実装方法において、該方法が:
・生成器ニューラルネットワーク(GNN)及び識別器ニューラルネットワーク(DNN)を備える条件付き生成敵対ネットワーク(cGAN)を、各々がトレーニング関連膨張グリッドレス表画像及び対応する表グリッド画像を含む実ペアのセットを備えるトレーニングデータで訓練するステップであって、前記cGANの訓練は複数の訓練ステップを備え、各々が、
a)前記DNNに、前記実ペアのセットから得られた実ペアを提供するステップ、又は
b)前記DNNに、偽のグリッド画像候補と、前記実ペアのセットから得られた対応するトレーニング関連膨張グリッドレス表画像とを含む生成されたペアを提供するステップであって、前記偽のグリッド画像候補は、前記GNNによって、ランダムデータベクトルを使用して、前記対応するトレーニング関連膨張グリッドレス表画像を修正することによって得られるステップ、のうちの1つ、及び
c)前記DNNによって、前記DNNに提供された前記実ペア又は前記生成されたペアが、前記GNNによって生成されたペアであるか否かの指示を決定するステップ、
を備える、ステップであって、
前記cGANの訓練は、各々が前記複数の訓練するステップの少なくとも1つを備える、複数のGNN及びDNN反復トレーニングサイクルを備え、各トレーニングサイクル中、それぞれのGNN又はDNNに紐づく損失関数は、紐づく安定サイクル述語が満たされるまで最小化され、かつ前記cGANは、前記GNN及びDNNに紐づく損失関数の結合損失を、結合損失安定述語が満たされるまで最小化することによって、訓練される、ステップと、
・前記訓練されたcGANが備える前記訓練されたGNNによって、前記処理された抽出画像に対する表グリッド画像を決定するステップと;
・前記決定された表グリッド画像及び前記提供された固定レイアウト電子文書からの前記グリッドレス表を、前記グリッドレス表のグリッド付き画像に結合するステップと;
を更に備えることを特徴とする、コンピュータ実装方法
【請求項2】
請求項1に記載の方法であって、前記抽出画像を処理するステップは、前記膨張ステップの前に:
前記抽出画像をグレースケール画像に変換するステップ;及び
適応ガウス法によって、前記グレースケール画像に2値化を適用するステップ;
を更に備え、前記膨張ステップは、前記2値化グレースケール画像に対して行われる、方法。
【請求項3】
請求項1又は2のいずれかに記載の方法であって、前記抽出画像を処理するステップは、前記膨張ステップの後に:
前記膨張ステップによる前記膨張画像中の膨張オブジェクトのアウトラインを得るステップ;
画像を含む前記アウトラインを膨張するステップ;及び
適応ガウス法によって、画像を含む前記膨張アウトラインに2値化を適用するステップ;
を更に備える、方法。
【請求項4】
請求項2及び3に記載のステップを備える、方法。
【請求項5】
る請求項1~4のいずれかに記載の方法であって、前記抽出画像を処理するステップは、前記膨張ステップの後に、収縮ステップを備える、方法。
【請求項6】
請求項1~5のいずれかに記載の方法であって、前記方法は:
各々がトレーニング関連表グリッド画像と対応する破損した表グリッド画像とを備えるトレーニングペアを備えるトレーニングデータで人工ニューラルネットワーク(ANN)を訓練するステップであって、好ましくは、前記ANNはオートエンコーダである、ステップと;
訓練されたGNNを備える前記訓練されたANNが決定した表グリッド画像によって、前記破損表グリッド画像から復元表グリッド画像を決定するステップと;
を更に備え、前記決定された復元表グリッド画像及び前記提供された固定レイアウト電子文書からのグリッドレス表が、前記グリッドレス表の前記グリッド付き画像に結合される、方法。
【請求項7】
請求項1~6のいずれかに記載の方法であって、各々がトレーニング関連膨張グリッドレス表画像及び対応する表グリッド画像を備える前記実ペアのセットが:
各々がグリッドレス表を含む複数のPDF文書を提供するステップと;
前記複数のPDF文書をHTML文書に変換するステップと;
前記HTML文書の各々において、前記紐づくPDF文書の前記グリッドレス表に紐づく表タグを特定するステップと;
前記グリッドレス表の各々に対して、前記対応する特定された表タグに少なくとも部分的に基づいて、表グリッド画像を決定するステップと;
前記PDF文書の各々から、前記グリッドレス表の画像を得るステップと;
前記グリッドレス表の前記得られた画像の各々を膨張するステップと;
によって、得られる、方法。
【請求項8】
請求項7に記載の方法であって、前記提供されたPDF文書の各々から、前記グリッドレス表の前記画像が:
前記訓練されたDLMによって、各PDF文書中の前記グリッドレス表のバウンディングボックスを決定するステップと;
前記決定された対応するバウンディングボックスに基づいて、前記PDF文書の各々から、前記グリッドレス表の画像を抽出するステップと;
によって、得られる、方法。
【請求項9】
請求項1~8のいずれかに記載の方法であって、各々がグリッドレストレーニング表及び前記トレーニング表のバウンディングボックスを示すそれに紐づくラベルを含む前記複数のトレーニング関連電子文書が:
各々がグリッドレス表を含む複数のPDF文書を提供するステップと;
前記複数のPDF文書をHTML文書に変換するステップと;
前記HTML文書の各々において、前記紐づくPDF文書の前記グリッドレス表に紐づく表タグを特定するステップと;
前記複数のPDF文書の各々に、前記グリッドレス表の前記バウンディングボックスのラベルを紐づけるステップであって、前記ラベルは、前記対応する特定された表タグに少なくとも部分的に基づく、ステップと;
によって得られる、方法。
【請求項10】
請求項1~9のいずれかに記載の方法であって、前記DLMは、人工ニューラルネットワーク(ANN)、リカレントニューラルネットワーク(RNN)又は畳み込みニューラルネットワーク(CNN)のうちの1つ以上である、方法。
【請求項11】
前記DLMがCNNである、請求項1~10のいずれかに記載の方法。
【請求項12】
改良された表処理のためのコンピュータシステムであって、請求項1~11のいずれかに記載のコンピュータ実装方法を行なうために構成された、コンピュータシステム。
【請求項13】
改良された表処理のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品がコンピュータによって実行されるとき、前記コンピュータに請求項1~11のいずれかに記載のコンピュータ実装方法を遂行させる命令を備える、コンピュータプログラム製品。
【請求項14】
コンピュータプログラム製品の使用であって、前記固定レイアウト電子文書から構文解析された文書を生成するための、請求項1~11のいずれかに記載のコンピュータ実装方法、請求項12に記載のコンピュータシステム、又は請求項13に記載のコンピュータプログラム製品の使用。
【請求項15】
請求項14に記載の使用であって、前記固定レイアウト電子文書から構文解析された文書を生成するステップが、前記グリッドレス表の前記グリッド付き画像から表形式データに紐づくテキストの光学式文字認識(OCR)を行うステップを備える、使用。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、改良された表処理のための方法、システム、及びコンピュータプログラム製品、並びに文書構文解析をするためのそれらの使用に係るものである。
【背景技術】
【0002】
表を処理するための方法、システム、及びコンピュータプログラム製品は、当該技術分野において知られている。
【0003】
そのような表処理は、特に、PDF文書などのような固定レイアウト文書の文書構文解析に有用である。画像又は非画像形式のPDF文書から表を構文解析することは、困難な作業となる場合がある。市場で入手可能な様々なオープンソースとライセンスのPDF構文解析ツールは、表の正確な処理に苦心している。
【0004】
特に、列と行を区切るグリッドのない表、すなわちグリッドレス表は、構文解析ツールにおいて特別な課題である。このようなグリッドレス表を含む文書は、文献上ではしばしば「半構造化文書」と称される。これらの文書は、既存のツールが乏しい自動検出技術しか備えていないため、構文解析ツールにとっての課題である。結果として、解析者は文書を構文解析する際に、手作業で表を選択し、抽出しなければならない。さらに、既存の構文解析ツールは、表の中の複数行間若又は結合されたセルに含まれるデータ又は情報を抽出することができない。
【0005】
米国特許出願第2020 0 089 946号公報(特許文献1)は、電子文書から表形式データを抽出するためのツールについて述べている。このツールは、表形式データのグリッド構造の情報を生成する。このグリッド構造は、表形式データに紐づくテキストと組み合わされ、グリッド付き表を得ることができる。本発明者らは、特許文献1が提供するツールは、特に、水平線又は垂直線のみを含む表に対してグリッドを生成するときに、不正確であることに言及する。加えて、このツールは、グリッドレス表に対するグリッドを生成するときには機能しない。
【0006】
表、特にグリッドレス表の改良された処理、及びこれらの表を含む文書の改良された構文解析に対する必要性が当技術分野において残っている。
【0007】
本発明は、当該技術分野で知られている方法、システム及びコンピュータプログラム製品に紐づく技術的問題の少なくともいくつかを解決することを目的とする。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】米国特許出願第2020 0 089 946号公報
【発明の概要】
【0009】
第1の態様において、本発明は、請求項1に記載のグリッドレス表処理のための方法に係るものである。
【0010】
第2の態様において、本発明は、請求項12に記載のグリッドレス表処理のためのコンピュータシステムに係るものである。
【0011】
第3の態様において、本発明は、請求項13に記載のグリッドレス表処理のためのコンピュータプログラム製品に係るものである。
【0012】
第4の態様において、本発明は、請求項14に記載の方法、システム又はコンピュータプログラム製品のいずれかの文書構文解析のための使用に係るものである。
【0013】
本発明は、グリッドレス表を簡単かつ正確に処理することを可能にする点で有利である。その延長として、そのようなグリッドレス表を含む半構造化文書を、より容易に構文解析する。以下、本発明の更なる利点について、説明、実施例及び図を通して論じる。
【0014】
本発明の好ましい実施態様は、請求項2~12、及び15、並びに説明、実施例及び図全体を通して論じられる。
【図面の簡単な説明】
【0015】
図1】グリッドレス表及びそれに紐づく文書の処理を備える、本発明の全体的なワークフローの回路概略図を示す。
図2】深層学習モデル、具体的には畳み込みニューラルネットワークを使用した、文書中のグリッドレス表のローカライズ予測を図示する。
図3】深層学習モデル、具体的には畳み込みニューラルネットワークを使用した、文書中のグリッドレス表のローカライズ予測を図示する。
図4】深層学習モデル、具体的には畳み込みニューラルネットワークを使用した、文書中のグリッドレス表のローカライズ予測を図示する。
図5】生成的敵対的ネットワーク、具体的には条件付きGANを使用して、抽出されたグリッドレス表に対する表グリッド予測を図示する。
図6】生成的敵対的ネットワーク、具体的には条件付きGANを使用して、抽出されたグリッドレス表に対する表グリッド予測を図示する。
図7】生成的敵対的ネットワーク、具体的には条件付きGANを使用して、抽出されたグリッドレス表に対する表グリッド予測を図示する。
図8】生成的敵対的ネットワーク、具体的には条件付きGANを使用して、抽出されたグリッドレス表に対する表グリッド予測を図示する。
図9】生成的敵対的ネットワーク、具体的には条件付きGANを使用して、抽出されたグリッドレス表に対する表グリッド予測を図示する。
図10】生成的敵対的ネットワーク、具体的には条件付きGANを使用して、抽出されたグリッドレス表に対する表グリッド予測を図示する。
図11】グリッドレス表の改良された処理のための、膨張前及び膨張後の好ましい画像処理ステップを図示する。
図12】グリッドレス表の改良された処理のための、膨張前及び膨張後の好ましい画像処理ステップを図示する。
図13】グリッドレス表の改良された処理のための、膨張前及び膨張後の好ましい画像処理ステップを図示する。
図14】グリッドレス表の改良された処理のための、膨張前及び膨張後の好ましい画像処理ステップを図示する。
図15】グリッドレス表の改良された処理のための、膨張前及び膨張後の好ましい画像処理ステップを図示する。
【発明を実施するための形態】
【0016】
本発明は、改良されたグリッドレス表処理のためのコンピュータ実装方法、コンピュータシステム及びコンピュータプログラム製品、並びに文書構文解析のための方法、システム又は製品のいずれかの使用に係るものである。以下では、本発明を詳細に説明し、好ましい実施態様を論じられ、かつ非限定的な実施例によって本発明を図示する。
【0017】
特に定義しない限り、技術用語及び科学用語を含む、本発明を開示する際に使用されるすべての用語は、本発明が属する技術分野における通常の技術者が一般的に理解するような意味を有する。さらなる指針として、本発明の教示をよりよく理解するために、用語の定義が含まれる。本明細書で使用される場合、以下の用語は、以下の意味を有する。
【0018】
本明細書で使用される「a」、「an、及び「the」は、文脈から明らかにそうでないと判断されない限り、単数及び複数の参照語の両方を指す。例として、「a compartment(区画)」は、1つ又はそれ以上の区画を指す。
【0019】
本明細書で使用される「comprise(備える)」、「comprising(備えている)」、及び「comprising of(で構成する)」は、「include(含む)」、「including(含んでいる)」、「includes(含む)」、又は「contain(含まれる)」、「containing(含まれている)」、「contains(含まれる)」と同義で、例えば構成に続くものの存在を特定する包括的又は開放的用語であり、追加の、非再帰の特徴の、要素の、ステップの、当技術分野で知られている、又はそこに開示されている存在を除外若しくは排除するものではない。
【0020】
構成材群の1つ以上の構成材又は少なくとも1つの構成材などのような「1つ以上の」又は「少なくとも1つの」という用語はそれ自体明確であるのに対し、さらなる例示によって、この用語は、とりわけ、当該構成材の任意の1つ、又は、例えば、当該部材の任意の≧3、≧4、≧5、≧6、≧7などのような当該構成材の任意の2つ以上、さらにはすべての当該構成材への言及を包含している。
【0021】
特に定義しない限り、技術用語及び科学用語を含む、本発明を開示する際に使用されるすべての用語は、本発明が属する技術分野における通常の当業者によって一般的に理解されている意味を有する。さらなる指針として、本発明の教示をよりよく理解するために、本明細書で使用される用語の定義が含まれる。本明細書で使用される用語又は定義は、本発明の理解を助けるためにのみ提供される。
【0022】
本明細書を通じて「一実施態様」又は「ある実施態様」と言及することは、実施態様に関連して説明される特定の特徴、構造又は特性が、本発明の少なくとも1つの実施態様に含まれることを意味する。このように、本明細書中における様々な場所での「一実施態様において」又は「ある実施態様において」というフレーズの出現は、必ずしも全てが同じ実施態様を指す必要はないが、そうである場合もある。さらに、特定の特徴、構造又は特性は、本開示から当業者に明らかなように、1つ以上の実施態様において、任意の適切なやり方で組み合わされてもよい。さらに、本明細書に記載されたいくつかの実施態様は、他の実施態様に含まれるいくつかの特徴を含むが、他の特徴は含まない一方、異なる実施態様の特徴の組み合わせは、本発明の範囲内であり、当業者によって理解されるであろうように、異なる実施態様を形成することを意味する。例えば、以降の特許請求の範囲において、請求項の実施態様はいずれかも任意の組み合わせで使用することができる。
【0023】
さらに、説明及び特許請求の範囲における「第1」、「第2」、「第3」などの用語は、指定されない限り、同様の要素を区別するために使用され、必ずしも連続的又は時系列的な順序を述べていることを必要としない。そのように使用される用語は、適切な状況下で交換可能であり、かつ本明細書に記載される本発明の実施態様は、本明細書に記載又は図示される以外の順序で動作可能であることが理解される。
【0024】
第1の態様において、本発明は、改良されたテーブル処理のためのコンピュータ実装方法に関するものである。本方法は、好ましくは、グリッドレス表を含む固定レイアウト電子文書を提供するステップを備える。本方法は、好ましくは、複数のトレーニング関連電子文書に関連するトレーニングデータで深層学習モデル(DLM)を訓練するステップを備える。好ましくは、複数のトレーニング関連電子文書の各々は、グリッドレストレーニング表と、トレーニング表のバウンディングボックスを示すそれに紐づくラベルとを含む。本方法は、好ましくは、訓練されたDLMによって、当該固定レイアウト電子文書中のグリッドレス表のバウンディングボックスを決定するステップを備える。本方法は、好ましくは、決定されたバウンディングボックスに基づいて、当該固定レイアウト電子文書からグリッドレス表の画像を抽出するステップを備える。本方法は、好ましくは、少なくとも膨張ステップを行うことによって、抽出画像を処理するステップを備える。本方法は、好ましくは、生成器ニューラルネットワーク(GNN)及び識別器ニューラルネットワーク(DNN)を備える条件付き生成敵対ネットワーク(cGAN)を訓練するステップを備える。好ましくは、ここで、cGANは、実ペアのセットを含むトレーニングデータで訓練する。好ましくは、ここで、当該実ペアのセットの各々は、トレーニング関連膨張グリッドレス表画像及び対応する表グリッド画像を含む。好ましくは、ここで、cGANの訓練は、複数の訓練ステップを備える。好ましくは、ここで、当該訓練ステップの各々は、以下のステップa)又はb)のうちの1つ、及びステップc)を備える。
a)DNNに、実ペアのセットから得られた実ペアを提供するステップ。
b)DNNに、偽のグリッド画像候補と、実ペアのセットから得られた対応するトレーニング関連膨張グリッドレス表画像とを含む生成ペアを提供するステップであって、偽のグリッド画像候補は、GNNによって、ランダムデータベクトルを使用して、対応するトレーニング関連膨張グリッドレス表画像を修正することによって得られるステップ。
c)DNNによって、DNNに提供された実ペア又は生成されたペアが、GNNによって生成されたペアであるか否かの指示を決定するステップ。
好ましくは、ここでcGANの訓練は、複数のGNN及びDNNの反復トレーニングサイクルを備える。好ましくは、ここで、当該複数のGNN及びDNN反復トレーニングサイクルの各々が、当該複数の訓練するステップのうちの少なくとも1つを備える。好ましくは、ここで、各トレーニングサイクル中に、それぞれのGNN又はDNNに紐づく損失関数は、紐づく安定サイクル述語が満たされるまで最小化される。好ましくは、ここで、cGANは、GNN及びDNNに紐づく損失関数の結合損失を、結合損失安定述語が満たされるまで最小化することによって、訓練される。本方法は、好ましくは、訓練されたcGANが備える訓練されたGNNによって、処理された抽出画像に対する表グリッド画像を決定するステップを更に備える。本方法は、好ましくは、決定された表グリッド画像及び提供された固定レイアウト電子文書からのグリッドレス表を、グリッドレス表のグリッド付き画像に結合するステップを更に備える。
【0025】
第2の態様において、本発明は、改良された表処理のためのコンピュータシステムに関するものである。好ましくは、ここで、コンピュータシステムは、本発明の第1の態様によるコンピュータ実装方法を行なうように構成される。
【0026】
第3の態様において、本発明は、改良された表処理のためのコンピュータプログラム製品に関する。好ましくは、ここで、コンピュータプログラム製品は、コンピュータプログラム製品がコンピュータによって実行されるとき、コンピュータに本発明の第1の態様によるコンピュータ実装方法を遂行させる命令を備える。好ましくは、ここで、コンピュータは、本発明の第2の態様によるコンピュータシステムである。
【0027】
第4の態様において、本発明は、固定レイアウト電子文書から構文解析された文書を生成するための、本発明の第1の態様に係る改良された表処理のためのコンピュータ実装方法、本発明の第2の態様に係るコンピュータシステム、又は本発明の第3の態様に係るコンピュータプログラム製品の使用に関するものである。
【0028】
本発明は、改良された表処理のためのコンピュータ実装方法、コンピュータシステム及びコンピュータプログラム製品、並びに固定レイアウト電子文書から構文解析された文書を生成するための方法、システム又は製品のいずれかの使用を提供する。当技術分野における通常の技術を有する者は、本方法がコンピュータプログラム製品に実装され、コンピュータシステムを使用して実行されることを理解するであろう。また、改良された表処理が、文書から表を構文解析するために使用することができることも、当技術分野において通常の技能を有する者にとって明らかである。それゆえに、以下では、本発明の4つの態様は一緒に扱われる。
【0029】
本発明の課題は、表処理を改良することであり、特に、グリッドレス表の処理を改良することである。提供される解決策は、当該技術分野で知られている任意のグリッド構造を含んでいるか、又は欠いている、任意の表の処理を改良することができるが、本発明は、とりわけ、グリッドレス表の改良された処理を目的とするものである。このような表は、電子固定レイアウト文書において特に検出が困難である。さらに、そこに包含される階層などのような情報は、抽出するのが困難である。本発明の課題は、それゆえに、よりとりわけ、そのフォーマット及び構造(又は階層)を維持しながら、電子文書から表形式データを便利に、効率的に、かつ確実に抽出する方法、システム及びコンピュータプログラム製品を提供することを目的とする。グリッドレス表の本発明による改良された処理は、デジタル文字抽出(DCE)、画像強調、光学式文字認識(OCR)、文書レイアウト分析、フィールド検出、フィールド構文解析等のような異なる分野で有利に使用することができる。
【0030】
本発明の課題は、固定レイアウトの電子文書から文書解析された文書を生成することである。この点に関して、提供された固定レイアウト電子文書から、決定された表グリッド画像及びグリッドレス表が、グリッドレス表のグリッド付き画像に合成される。このグリッドレス表のグリッド付き画像は、分離された画像で提供されてもよく、又は提供されなくてもよい。このグリッドレス表のグリッド付き画像は、固定レイアウト電子文書又はその画像に重畳されてもよく、若しくは重畳されなくてもよい。好ましくは、固定レイアウト電子文書から構文解析された文書を生成することは、グリッドレス表のグリッド付き画像からの表データに紐づくテキストのOCRを行うステップを備える。
【0031】
本明細書で使用される「構文解析」は、当技術分野で既知の用語を指し、好ましくは、データストリーム、例えば固定レイアウト電子文書をより容易に処理できる構成要素に分析及び/又は分離することと理解されるべきである。これは、データストリームに対して、ある種の変換、例えばOCRを行うことを容易にすることを目的とする。
【0032】
本明細書で使用される「表形式データ」は、当技術分野で既知の用語を指し、好ましくは、データの視覚的表現、解釈及び抽出を強化するために、適切かつ十分に定義されたフォーマット並びに構造(又は階層)の形式におけるデータの任意の表現として理解されるべきである。表形式データは、データの階層構造を維持するのに役立ち、そこに表されるデータの分類をも可能にする。表形式データは、グリッド構造、表などのような構造化データ配置を含めることができる。グリッドレス表の場合、構造化データの配置は見えない。オプションで、表形式データは、フローチャートを備えることができる。
【0033】
「電子文書」は、本明細書で使用される場合、当技術分野で既知の用語を指し、好ましくは、そこに1つ以上の形式のコンテンツを含むことができる任意の電子媒体として理解されるべきである。そのような電子文書は、ポータブル文書フォーマットファイル(.PDF拡張子を有する)、ワープロソフトを使用して生成された文書(例えば、.doc又は.docx拡張子を有するファイルなどのような)、ウェブテキスト文書(.HTML又は.htm拡張子)、Adobe製ポストスクリプト文書(.ps拡張子)などのような異なるフォーマットとすることができる。さらに、電子文書は、異なる形式のコンテンツ、例えば、テキストデータ、画像などのような非構造化データ配列、及び表形式データ、ヒストグラムなどのような構造化データ配列を含んでもよいし、含まなくてもよい。加えて、電子文書は、単一の表形式データ(単一の表などのような)又は複数の表形式データを含んでもよいし、含まなくてもよい。
【0034】
本明細書で使用される「固定レイアウト電子文書」は、当技術分野で既知の用語を指し、好ましくは、そこに1つ以上の形式のコンテンツを含むことができる任意の電子媒体であって、1つ以上の形式のコンテンツは固定レイアウトを有するとして理解されるべきである。そのような固定レイアウト電子文書は、例えば、検索可能又は非検索可能なポータブル文書フォーマットファイル(.PDF拡張子を有する)、ビットマップファイル(.bmp拡張子を有する)、ポータブルネットワークグラフィックファイル(.png拡張子を有する)、ジョイントフォトグラフィックエキスパートグループファイル(.jpeg拡張子を有する)、タグ画像ファイル形式(.tiff拡張子を有する)などのような異なるフォーマットとすることができる。好ましくは、固定レイアウト電子文書は、PDF文書、略称pdfである。このようなPDFは、広く使用され、かつ異なる個人間での表形式データの通信(送受信などのような)が容易であり、また、表形式データからの情報の解釈及び抽出が便利である。しかしながら、pdfから表形式データをコピーするなどのようなpdfから表形式データを抽出する必要があるとき、表形式データはその形式及び構造(又は階層)を失い、それゆえに抽出されたデータは使い物にならなくなる。
【0035】
提供された固定レイアウト電子文書からグリッドレス表の画像を抽出するために、本発明の簡単な実施態様は、複数のトレーニング関連電子文書に関するトレーニングデータで深層学習モデル(DLM)を訓練することを提供する。好ましくは、当該複数のトレーニング関連電子文書の各々は、グリッドレストレーニング表と、訓練テーブルのバウンディングボックスを示すそれに紐づくラベルとを含む。
【0036】
有益なことに、本発明は、電子文書から表形式データの自動検出を可能にし、それによって、ユーザによる表形式データの手動選択に紐づく問題を緩和することができる。このように、データの手動選択に要する時間及び労力を削減することができ、それによって、ユーザの作業効率を向上させることができる。さらに、本発明は、表形式データの階層が抽出後も維持されるように、固定レイアウト電子文書からグリッドレス表を抽出することを可能にする。抽出後も表形式データの階層を維持することは、表形式データ内に表される情報の完全性を維持することを可能にし、それによって、表形式データの便利で信頼性が高く、かつ効率的な抽出及び解釈を可能にすることが理解されよう。
【0037】
「深層学習」は、本明細書で使用される場合、当該技術分野において既知の用語を指し、好ましくは、その中に表形式データの様々な形式を含むサンプル電子文書から半教師付き学習又は教師付き学習が可能なノード(人工ニューロンなどのような)のネットワーク(人工ニューラルネットワーク(ANN)、再帰神経ネットワーク(RNN)、畳込みニューラルネットワーク(CNN)などのような)を備える機械学習技術として理解されるべきである。このような例では、DLMは、グリッドレストレーニング表と、トレーニング表のバウンディングボックスを示すそれに紐づくラベルとを含む複数のトレーニング関連サンプル電子文書を提供することによってなどのように、電子文書内の表形式データの位置を検出するように訓練することができる。
【0038】
「バウンディングボックス」は、本明細書で使用される場合、当該技術分野において既知の用語を指し、好ましくは、グリッドレス表を含む電子文書の領域上に生成される矩形形状であって、生成された矩形形状がグリッドレス表を完全に包含するものと理解されたい。生成された単一のバウンディングボックスの領域は、単一の表データによってカバーされる電子文書のページの全領域に対応することが理解されよう。例えば、単一のバウンディングボックスの領域は、所与の表形式データが電子文書のページを完全にカバーするように表される場合、電子文書のページの領域に対応することができる。しかしながら、ほとんどの表形式データは、一般的に、電子文書のページの50%以内の領域などのような、電子文書のページ内のより小さな領域をカバーする。オプションで、単一の表形式データが電子文書の複数のページに存在する場合、単一のバウンディングボックスの領域は、複数のページに及ぶことができる。このような例では、生成されたバウンディングボックスは、電子文書の各ページの全領域よりも大きな領域に対応することになる。
【0039】
好ましくは、バウンディングボックスは、バウンディングボックスの頂点に対応する座標と、バウンディングボックスの幅及び高さに対応する座標とを備える。したがって、バウンディングボックスは、座標:tx;ty;tw;thを備えてもよい。あるいは、バウンディングボックスは、バウンディングボックスの各頂点に対応する座標を備える。したがって、バウンディングボックスは、座標:(tx1、ty1);(tx2、ty2);(tx3、ty3);(tx4、ty4)を備えてもよい。
【0040】
提供された固定レイアウト電子文書からグリッドレス表の画像を抽出するために、本発明の単純な実施態様は、決定されたバウンディングボックスに基づいて、当該固定レイアウト電子文書からグリッドレス表の画像を抽出することを更に提供する。好ましくは、抽出画像は、固定レイアウト電子文書のバウンディングボックス内の領域の画像に対応する。抽出画像は、.jpg、.png、.bmp、.gifなどを含むがこれらに限定されない1つ以上の画像ファイルフォーマットに紐づいてもよく、又は紐づいてなくてもよい。
【0041】
好ましくは、各々がグリッドレストレーニング表と、トレーニング表のバウンディングボックスを示すそれに紐づくラベルとを含む複数のトレーニング関連電子文書は、以下によって、得られる。
・各々がグリッドレス表を含む複数のDLMトレーニング関連固定レイアウト電子文書を提供するステップであって、当該複数のDLMトレーニング関連固定レイアウト電子文書がマークアップ言語に変換可能である、ステップ;
・複数のトレーニング関連固定レイアウト電子文書を、マークアップ言語で対応する文書に変換するステップ;
・対応するマークアップ言語文書の各々において、紐づくトレーニング関連固定レイアウト電子文書のグリッドレス表に紐づく表タグを特定するステップ;及び
・複数のトレーニング関連固定レイアウト電子文書の各々に、グリッドレス表のバウンディングボックスに対するラベルを紐づけるステップであって、当該ラベルは、対応する特定された表タグに少なくとも部分的に基づく、ステップ。
【0042】
好ましい実施態様によれば、各々がグリッドレス訓練表と、トレーニング表のバウンディングボックスを示すそれに紐づくラベルとを含む複数のトレーニング関連電子文書は、以下によって、得られる。
・各々がグリッドレス表を含む複数のPDF文書を提供するステップ;
・複数のPDF文書をHTML文書に変換するステップ;
・HTML文書の各々において、紐づくPDF文書のグリッドレス表に紐づく表タグを特定するステップ;及び
・複数のPDF文書の各々に、グリッドレス表のバウンディングボックスに対するラベルを紐づけるステップであって、当該ラベルは、対応する特定された表タグに少なくとも部分的に基づく、ステップ。
【0043】
「マークアップ言語」は、本明細書で使用される場合、当該技術分野において既知の用語を指し、好ましくは、対応するテキストと構文的に区別される方法で文書に注釈を付けるのに適したファイルフォーマットとして理解されるべきであり、文書が表示のために処理されるとき、マークアップ言語は示されず、対応するテキストをフォーマットするために使用することを意味する。マークアップ言語の使用は、対応するテキストの書式設定に限定される必要があってもよく、又はなくでもよい。マークアップ言語は、付加的な機能を備えてもよく、又は備えなくてもよい。マークアップ言語の例としては、以下のファイルフォーマットtroff、nroff、TeX、Scribe、GML、SGML、HTML、XML、XHTML、他のXMLベースのアプリケーションなどを含む。表タグの取得のためのマークアップ言語の使用は、実装が容易であり、かつ電子文書中の(グリッドレス)表の位置に関する定性的な情報を提供する。この位置情報から、(グリッドレス)表のバウンディングボックスが容易に導出される。好ましくは、マークアップ言語として、HTMLを使用する。HTMLは広く使われている。
【0044】
好ましくは、固定レイアウト電子文書におけるグリッドレス表のバウンディングボックスを決定するためのDLMは、人工ニューラルネットワーク(ANN)、リカレントニューラルネットワーク(RNN)、又は畳み込みニューラルネットワーク(CNN)のうちの1つ以上である。好ましい実施態様によれば、DLMは、CNNである。異なるDLMアーキテクチャは、固定レイアウト電子文書中のグリッドレス表のバウンディングボックスを決定するために訓練可能である。しかしながら、ほとんどの技術は、極端な視点と背景の変動に対して強固ではない。CNNは、オブジェクト検出及び分類タスクにおける背景と視点の変動に対して極めて強固であることが知られており、科学出版物などのような可変のレイアウトを有する固定レイアウト電子文書中のグリッドレス表のバウンディングボックスを決定するのに非常に適している。
【0045】
好ましくは、固定レイアウト電子文書中のグリッドレス表のバウンディングボックスを決定するためのDLMの訓練に紐づく損失関数は、少なくとも部分的にIntersection Over Union(IOU)損失関数に基づく。IOUは、交点の領域を2つのボックスの結合の領域で割ったものとして計算することができる。IOUは0以上、1以下でなければならない。バウンディングボックスを予測するためには、IOUは予測されたバウンディングボックスとグランドトゥルースのバウンディングボックスとの間で、およそ1であることが必要である。より好ましくは、固定レイアウト電子文書中のグリッドレス表のバウンディングボックスを決定するためのDLMの訓練に紐づく損失関数は、少なくとも部分的にバイナリクロスエントロピー(BCE)損失関数に基づく。
【0046】
CNNによる抽出画像は、本発明の単純な実施態様に従って処理される。好ましくは、CNNによる抽出画像の処理は、少なくとも膨張ステップを行うことを備える。抽出された画像に膨張を行うことは、グリッドレス表中に存在するオブジェクト、例えばグリッドレステキスト情報を、必要な及び/又は均一なピクセル密度と紐づけるものである。
【0047】
当該オブジェクトが均一なピクセル密度を有するように、グリッドレス表中のオブジェクトのこのようなモルフォロジー膨張を行うことによって、変化するピクセル密度を有する当該オブジェクトの処理に紐づく複雑さが低減されることが理解されるであろう。
【0048】
本明細書で使用される「モルフォロジー処理」は、当該技術分野において既知の用語を指し、好ましくは、画像のピクセルが、画像に表されるオブジェクトの形状に基づいて加工される画像処理技術として理解されるべきものである。さらに、モルフォロジー処理は、オブジェクトの形状を検出するために使用される構造的要素、例えばスライディングウィンドウを採用し、そして、その後、検出されたオブジェクトに紐づくピクセルを加工することができる。「構造的要素」は、本明細書で使用される場合、当該技術分野において既知の用語を指し、それは、好ましくは、モルフォロジー処理を行うために使用される、所定の形状、例えば矩形を有するテンプレートとして理解されるべきものである。
【0049】
本明細書で使用される「膨張」又は「モルフォロジー膨張」は、当該技術分野において既知の用語を指し、好ましくは、画像内で検出されたオブジェクトの境界に対してピクセルが追加される操作として理解されるべきである。
【0050】
好ましい実施態様によれば、DLM抽出画像によって処理することは、当該膨張ステップの前に、以下のステップを更に備える。
・抽出画像をグレースケール画像に変換するステップ;
・適応ガウス法によってグレースケール画像に2値化を適用するステップ。
ここで、当該膨張ステップは、当該2値化グレースケール画像に対して行われる。
【0051】
好ましい実施態様によれば、抽出画像を処理することは、当該膨張ステップの後に、以下のステップを更に備える。
・当該膨張ステップによる膨張画像中の膨張オブジェクトのアウトラインを取得するステップ;
・画像を含むアウトラインを膨張するステップ;及び
・適応ガウス法によって、画像を含む膨張アウトラインに2値化を適用するステップ。
【0052】
特に好ましい実施態様によれば、抽出画像を処理することは、以下のステップを備える。
・抽出画像をグレースケール画像に変換するステップ;
・適応ガウス法によってグレースケール画像に2値化を適用するステップ;
・2値化グレースケール画像を膨張するステップ;
・膨張閾値化グレースケール画像中の膨張オブジェクトのアウトラインを得るステップ;
・画像を含むアウトラインを膨張するステップ;及び
・適応ガウス法によって、画像を含む膨張アウトラインに2値化を適用するステップ。
【0053】
「グレースケール画像」は、本明細書で使用される場合、当技術分野で既知の用語を指し、好ましくは、グレーカラーの異なるシェードを有するピクセルを含む単色画像として理解されるべきである。異なるシェードのグレーカラーは、例えば、黒色が最大の割合である一方で白色が最小の割合である暗いシェードのグレーカラー、及び黒色が最小の割合である一方で白色が最大の割合である明るいシェードのグレーカラーなどのような、変化した割合の黒色及び白色の組み合わせによって形成されていることが理解されよう。抽出画像のグレースケール画像へのこのような変換は、コンピュータビジョンベースの画像処理技術、例えば、膨張及び収縮などのモルフォロジー処理を採用することなどのようによって、カラー画像の処理中に生じる場合がある複雑さを最小限にする。グレースケール画像はまた、RGB(赤、緑、青)画像と比較して、画像のより少ないピクセル情報に紐づき、受信画像のグレースケール画像への変換は、その高速処理などのように、処理において更に助けとなる。
【0054】
本明細書で使用される「2値化」は、当該技術分野において既知の用語を指し、それは、好ましくは、画像、例えばグレースケール画像のピクセルを2つのグループに分類して、その2色のみを有する2値画像を得ることと理解すべきであり、ピクセルは、閾値強度値に基いて分類される。閾値強度値より小さい強度を有するピクセル(グレーの明るいシェードに紐づくピクセルなどのような)は、第1のグループに分類され、かつ閾値強度値より大きい強度を有するピクセル(グレーの暗いシェードに紐づくピクセルなどのような)は、第2のグループに分類される。その結果として、様々なシェードのグレーのピクセルを有するグレースケール画像は、それぞれ黒色と白色のみを有する2値化グレースケール画像に変換され、黒色を有するピクセルは、閾値強度値より小さい全ての強度値に対するグレースケール画像のピクセルに対応し、白色を有するピクセルは閾値強度値より大きい全ての強度値に対するグレースケール画像のピクセルに対応する。さらに、画像、例えばグレースケール画像の2値化を行うことにより、空白に紐づく2値化グレースケール画像の背景が、表形式データのテキスト及びグリッド構造に紐づく2値化グレースケール画像の前景から分離されるように、2値化グレースケール画像を分ける。
【0055】
「適応ガウス法」は、本明細書で使用される場合、当該技術分野において既知の用語を指し、好ましくは、所与のピクセルを第1のグループ又は第2のグループに分類するために、所与のピクセルに近接するピクセル(隣接するピクセルなどのような)の強度値を採用する2値化法として理解されるべきである。さらに、適応ガウス法は、所与のピクセルに近接するピクセルの強度値の加重和と、所与のピクセルからの近接ピクセルの距離とを考慮して、所与のピクセルを第1のグループ又は第2のグループに分類する。加えて、適応ガウス技法は、画像、例えばグレースケール画像、における変動に基づいて(グレースケール画像の背景における変動に基づくなどのような)、画像、例えばグレースケール画像を複数のサブ画像に分けて、そして続いて、サブ画像内の所定のピクセルに近接したピクセルの強度値の加重平均及び一定値に基づいて、各サブ画像に対する動的閾値強度値を考慮する。動的閾値強度値を考慮することによって、すなわち適応ガウス技法を採用することによって、画像、例えばグレースケール画像の2値化処理を行うことは、2値化画像に紐づく明瞭性及び正確性を改善することを可能にすることが理解されるであろう。
【0056】
好ましい実施態様によれば、DLMによる抽出画像を処理することは、少なくとも当該膨張ステップの後に、収縮ステップを更に備える。最も好ましくは、DLMによる抽出画像を処理することは、行われた各膨張ステップの後に、収縮ステップを更に備える。
【0057】
「収縮」又は「モルフォロジー収縮」は、本明細書で使用される場合、当該技術分野において既知の用語を指し、好ましくは、画像内のオブジェクトに紐づくピクセルの最外層を除去することなどのようによって、画像内で検出されたオブジェクトの境界からピクセルを除去する操作として理解されるべきものである。グリッドレス表画像中のオブジェクトを引き続いてモルフォロジー的に膨張及び収縮することによって、当該オブジェクトの処理に紐づく複雑さが更に低減される。
【0058】
DLM処理された抽出画像によっての表グリッド画像を決定するために、本発明の単純な実施態様は、生成器ニューラルネットワーク(GNN)及び識別器ニューラルネットワーク(DNN)を備える条件付き生成敵対的ネットワーク(cGAN)を訓練することを更に提供する。
【0059】
生成敵対的ネットワーク(GAN)は、教師なし機械学習の一分野であり、2つのニューラルネットワーク、すなわちGNN及びDNNがゼロサムゲームのフレームワークで互いに競合するシステムによって実装される。2つのニューラルネットワークは作成され、それらの相互の競争を通じて学習が行われる(すなわち、ネットワークが訓練される)。1つ目のニューラルネットワークは生成器系として実装され、生成器ニューラルネットワーク(GNN)と呼ばれる。第二のニューラルネットワークは識別器系として実装され、識別器ニューラルネットワーク(DNN)と呼ばれる。GNNはランダムな入力から始まり、そして合成画像又は偽画像を生成することを試みる。DNNは、GNNからの合成画像とともに、実際に近い画像を受信する。したがって、DNNはGNNから受信した画像が本物か又は合成画像(すなわち、偽物)かの予測を示す2値判定を出力する。DNNが実画像と合成画像との識別を向上させるに連れて、GNNはDNNを欺くための画像を生成することを向上させる。GNNとDNNは、それぞれに紐づく損失関数を最小化することによって、反復的に訓練される。例えば、GNNがDNNを騙せなくなったとき、平衡に達する。ドメイン知識を明示的に含める必要はない。画像の特徴は自動的に学習される。GNNの損失関数は学習され、かつ事前に定義されない。条件付きGAN(CGAN)では、ランダムな入力からサンプルを生成する代わりに、GNNが入力画像を条件とした出力画像を生成する。このようなシステムは、その後、入力画像空間から出力画像空間又は生成画像空間へのマッピングを学習するために訓練することができる。この訓練過程は、マッピングを決定する複数のパラメータの最適な値のセットを学習することからなる。言い換えれば、マッピングは、調整可能であり、トレーニングサンプルのセットに基づいて学習されるパラメータを有する関数マッピングとして考えることができる。
【0060】
好ましくは、cGANは、ピクセルトゥピクセル(pix2pix)GANである。pix2pixモデルは、出力画像の生成が、入力、この場合、DLMによる抽出画像の処理された、すなわち、膨張した、画像、を条件とするcGANの一タイプである。DNNはそのような処理画像とターゲット画像の両方を提供され、かつターゲットが処理画像のもっともらしい変換であるか否かを判定しなければならない。GNNは敵対的損失を介して訓練され、ターゲットドメインでもっともらしい画像を生成するようGNNに促す。また、GNNは生成画像と期待される出力画像との間で測定されるL1損失を介して更新される。この追加の損失は、ソース画像のもっともらしい翻訳を作成するようにGNNモデルを促す。より好ましくは、ここで、pix2pixGANのGNNは、CNNである。さらに好ましくは、pix2pixGANのGNNが、U-netアーキテクチャを備えるCNNである。U-netは、画像の高速かつ正確な区分のためのCNNアーキテクチャである。
【0061】
好ましくは、cGANは、実ペアのセットを備えるトレーニングデータで訓練される。好ましくは、当該実ペアのセットの各セットが、トレーニング関連膨張グリッドレス表画像と対応する表グリッド画像とを含む。好ましくは、cGANの訓練は、複数の訓練ステップを備える。好ましくは、当該訓練ステップの各々は、以下のステップa)又はb)のうちの1つと、ステップc)とを備える。
a)DNNに、実ペアのセットから得られた実ペアを提供するステップ;
b)DNNに、偽のグリッド画像候補と、実ペアのセットから得られた対応するトレーニング関連膨張グリッドレス表画像とを含む生成ペアを提供するステップであって、偽のグリッド画像候補は、GNNによって、ランダムデータベクトルを使用して対応するトレーニング関連膨張グリッドレス表画像を修正することによって得られる、ステップ;
c)DNNによって、DNNに提供された実ペア又は生成されたペアが、GNNによって生成されたペアであるか否かの指示を決定するステップ。
好ましくは、ここで、cGANの訓練は、複数のGNN及びDNNの反復トレーニングサイクルを備える。好ましくは、ここで、当該複数のGNN及びDNN反復トレーニングサイクルの各々は、当該複数のトレーニングステップのうちの少なくとも1つを備える。好ましくは、ここで、各トレーニングサイクル中に、損失関数に紐づくそれぞれのGNN又はDNNが、紐づく安定性サイクル述語が満たされるまで最小化される。好ましくは、ここで、cGANは、損失関数に紐づくGNN又はDNNの組み合わせ損失を、組み合わせ損失安定性述語が満たされるまで最小化することによって、訓練される。
【0062】
好ましくは、当該実ペアのセットのトレーニング関連膨張グリッドレス表画像の各々は、グリッドレス表画像を膨張することによって得られる。
【0063】
DLMによる抽出画像と同様に、以下に論じられるように、トレーニング関連膨張グリッドレス表画像が得られるとき、本発明の性能、具体的にはcGANの性能が向上する。
【0064】
より好ましくは、当該実ペアのセットのトレーニング関連膨張グリッドレス表画像の各々は、以下によって、得られる。
・グリッドレス表画像をグレースケール画像に変換するステップ;
・適応ガウス法によってグレースケール画像に2値化を適用するステップ;及び
・2値化グレースケール画像を膨張するステップ。
【0065】
さらに好ましくは、当該実ペアのセットのトレーニング関連膨張グリッドレス表画像の各々は、以下によって、得られる。
・グリッドレス表画像をグレースケール画像に変換するステップ;
・適応ガウス法によってグレースケール画像に2値化を適用するステップ;
・2値化グレースケール画像を膨張するステップ;
・膨張2値化グレースケール画像中の膨張オブジェクトのアウトラインを得るステップ;
・画像を含むアウトラインを膨張するステップ;及び
・適応ガウス法によって、画像を含む膨張アウトラインに2値化を適用するステップ。
【0066】
好ましくは、各々がトレーニング関連膨張グリッドレス表画像と対応する表グリッド画像を備える実ペアのセットは、以下によって得られる。
・各々がグリッドレス表を含む複数のcGANトレーニング関連固定レイアウト電子文書を提供するステップであって、当該複数のcGANトレーニング関連固定レイアウト電子文書が、マークアップ言語に変換可能である、ステップ;
・複数のトレーニング関連固定レイアウト電子文書を、マークアップ言語で対応する文書に変換するステップ;
・対応するマークアップ言語の文書の各々において、紐づくトレーニング関連固定レイアウト電子文書のグリッドレス表に紐づく表タグを特定するステップ;
・グリッドレス表の各々に対して、対応する特定された表タグに少なくとも部分的に基づいて、テーブルグリッド画像を決定するステップ;
・当該複数のcGAN訓練関連固定レイアウト電子文書の各々から、グリッドレス表の画像を得るステップ;及び
・得たグリッドレス表の画像の各々を膨張するステップ。
【0067】
より好ましくは、グリッドレス表の画像は、当該提供されたpdf文書の各々から、以下によって、得られる。
・訓練されたDLMによって、cGANトレーニング関連固定レイアウト電子文書の各々におけるグリッドレス表に対するバウンディングボックスを決定するステップ;及び
・当該cGANトレーニング関連固定レイアウト電子文書の各々から、決定された対応するバウンディングボックスに基づいて、グリッドレス表の画像を抽出するステップ。
【0068】
好ましい実施態様によれば、各々がトレーニング関連膨張グリッドレス表画像と対応する表グリッド画像とを備える実ペアのセットは、以下によって、得られる。
・各々がグリッドレス表を含む複数のpdf文書を提供するステップ;
・複数のpdf文書をhtml文書に変換するステップ;
・html文書の各々において、紐づくpdf文書のグリッドレス表に紐づく表タグを特定するステップ;
・グリッドレス表の各々に対して、対応する特定された表タグに少なくとも部分的に基づいて、表グリッド画像を決定するステップ;
・当該pdf文書の各々から、グリッドレス表の画像を得るステップ;及び
・得たグリッドレス表の画像の各々を膨張するステップ。
【0069】
さらに好ましい実施態様によれば、グリッドレス表の画像は、当該提供されたpdf文書の各々から、以下によって、得られる。
・訓練されたDLMによって、各pdf文書中のグリッドレス表のバウンディングボックスを決定するステップ;及び
・当該pdf文書の各々から、決定された対応するバウンディングボックスに基づいて、グリッドレス表の画像を抽出するステップ。
【0070】
DLMのトレーニングデータと同様に、表タグを得るためのマークアップ言語の使用は、実装が容易であり、かつ電子文書中のグリッドレス表の不可視グリッドの位置に関する定性的情報を提供する。この不可視グリッドの位置情報から、グリッドレス表の表グリッド画像が容易に導出される。好ましくは、広く普及しているHTMLをマークアップ言語として使用する。
【0071】
グリッドレス表のグリッド付き画像を決定するために、本発明の単純な実施態様は、訓練されたcGANが備える訓練されたGNNによって、処理された抽出画像に対する表グリッド画像を決定するステップと、決定されたテーブルグリッド画像及び提供された固定レイアウト電子文書からのグリッドレス表を当該グリッド付き画像に結合するステップと、を更に提供する。表グリッド画像及びグリッドレス表は、画像の統合又は画像の一方を他方に重畳するなどのような、当該技術分野において既知の任意の技法を使用して、当該グリッド付き画像を得るために結合することができる。使用する技術は、本発明を移植する際に使用される画像のファイルフォーマットに依存してもよく、又は依存しなくてもよい。
【0072】
あらゆる機械学習技術(MLT)の場合と同様に、生成された出力の品質は、MLTモデルが訓練されるトレーニングデータの品質に大きく依存する。訓練されたcGANの場合、トレーニングデータの不足は、不十分な又は破損した決定された表グリッド画像が生じる場合、又は生じない場合がある。このような不十分な又は破損した決定された表グリッド画像及びグリッドレス表をグリッド付き画像で結合することは、処理及び/又は構文解析に支障をきたす場合、又は支障をきたさない場合がある。不十分な又は破損した決定された表グリッド画像の品質を向上するために、当技術分野で知られている画像復元技術を使用することができる。
【0073】
好ましい実施態様によれば、本発明は、各々がトレーニング関連表グリッド画像と対応する破損表グリッド画像を含むトレーニングペアを備えるトレーニングデータで人工ニューラルネットワーク(ANN)を訓練するステップを更に備える。好ましくは、ここで、ANNは、オートエンコーダである。好ましい実施態様によれば、本発明は、訓練されたANNが構成した訓練されたGNN決定表グリッド画像によって、破損表グリッド画像から復元表グリッド画像を決定するステップを更に備える。好ましくは、ここで、決定された復元表グリッド画像、及び提供された固定レイアウト電子文書からのグリッドレス表が、グリッドレス表のグリッド付き画像に結合される。
【0074】
実施例
【0075】
本発明は、本発明を更に例示する以下の非限定的な実施例によって更に説明され、これらは、本発明の範囲を限定することを意図せず、また解釈されるべきでもない。
【0076】
実施例1:文書の構文解析
【0077】
本実施例は、本発明によるワークフローの一般的な概要に係るものである。図1を参照する。
【0078】
図1は、本発明の全体的なワークフローの概要を概略的に示している。このワークフローは、グリッドレス表とそれに紐づく文書の処理を備える。本実施例によれば、提供されたグリッドレス表を含む固定レイアウト電子文書(1)は、PDF文書(1′)であり、これは、画像ファイル(1′′)に変換される。この画像ファイルは、訓練されたCNN(2)に供給される。当該DLMの訓練については、実施例2で論じられる。この訓練されたCNNを使用して、グリッドレス表の画像(3)が抽出され、その後、少なくとも膨張ステップ(4)を行うことによって処理される。抽出画像の処理は、実施例4で論じられる。処理された抽出画像(5)は、訓練されたGAN(6)が備える訓練されたGNNに供給される。当該GAN(6)の訓練は、実施例3で論じられる。訓練されたGNNを使用して、処理された抽出画像に対する表グリッド画像(7)が決定される。その後、グリッドレス表の抽出画像に表グリッド画像を重畳し(8)、グリッドレス表のグリッド付き画像を得る(9)。このグリッド付き画像はOCRツールに供給され(10)、グリッドレス表中の表形式情報をワープロ可能な形式で得る(11)。
【0079】
実施例2:DLMの訓練
【0080】
本実施例は、DLM、特にCNNの訓練に係るものである。図2図4を参照する。
【0081】
図2及び図3は、DLMを訓練するためのトレーニングデータの取得を図示する。トレーニングデータは、複数のトレーニング関連電子文書(1)に関するものであり、各々は、グリッドレストレーニング表(12)と、トレーニング表のバウンディングボックスを示すそれに紐づくラベル(13)とを含む。そのようなトレーニングデータでDLMを訓練することにより、訓練されたDLMによって、当該固定レイアウト電子文書(1)に中のグリッドレス表(12)のバウンディングボックス(15)を決定することができる。
【0082】
本実施例によれば、DLMはCNNであり、具体的には、一般に利用可能なツールであるYOLOをベースとしたものである。YOLOは、画像内の検出されたオブジェクトの周りにバウンディングボックスを描画する強力なニューラルネットワークである。Darknetは、ニューラルネットワークの訓練に使用されるオープンソースフレームワークであり、YOLOのベースとして機能する。本実施例では、YOLOV3ネットワークを使用して、グリッドレス表を特定する。
【0083】
YOLOV3ネットワークを訓練するために、まず画像ベースのPDF文書をHTML出力に変換した。その後、HTMLコンテンツを細切れにし、表を構文解析した。HTMLのソースコードからテーブルタグ、例えば<td>を検出し、ペイントした。これは例えば図2に見られるように、表の座標がPDF文書に存在することを可能にし、それによってYOLOV3に供給されるトレーニングセットを形成した。この情報から、テーブルのx,y座標並びに高さ及び幅が決定された。
【0084】
YOLOV3は、損失関数としてIOUとBCEを使用し、かつオブジェクトの位置特定にはロジスティック回帰を使用する。IOUは、交差点の領域を2つのボックスの和の領域で割った値として計算することができる。IOUは0以上1以下でなければならない。バウンディングボックスを予測できるようにするために、IOUは予測されたバウンディングボックスとグランドトゥルースのバウンディングボックスの間でおよそ1である必要がある。現在、セルは画像の左上から(cx,cy)だけオフセットしており、バウンディングボックスは先に幅Pw,高さPhを有する。
【0085】
YOLOV3ネットワークの予測は以下のように対応する。
【数1】
【0086】
YOLOV3ネットワークの損失関数は以下のように示される。
【数2】
【0087】
図4は、例えば画像中のグリッドレス表のバウンディングボックスを決定するためのローカライズ予測の反復を図示する。訓練中、グリッドレス表のバウンディングボックスのグランドトゥルース(16)との差が述語を満たすまで、バウンディングボックス予測(15′,15′′,15′′′)が繰り返し修正される。
【0088】
実施例3:GANの訓練
【0089】
本実施例は、GAN、特にcGANの訓練に係るものである。図5から図10を参照する。
【0090】
図5は、GANアーキテクチャの一般的な概観を図示する。GANは、2つのニューラルネットワーク、すなわちGNN(14)及びDNN(21)がゼロサムゲームのフレームワークで互いに競合するシステムによって実装される。2つのニューラルネットワークは作成され、相互の競争を通じて学習が行われる(すなわち、ネットワークが訓練される)。第1のニューラルネットワークは生成器系として実装され、生成器ニューラルネットワーク(GNN)と呼ばれる。第2のニューラルネットワークは識別器系として実装され、識別器ニューラルネットワーク(DNN)と呼ばれる。GNNはランダムな入力(17)から始まり、合成画像又は偽画像を生成することを試みる(18)。DNNは、GNNからの合成画像とともに、実際に近い画像を受信する(19;20)。したがって、DNNは、GNNから受信した画像が本物又は偽物かの予測を示す2値判定を出力する(22)。DNNが実画像と合成画像との識別力を向上させるにつれて、GNNはDNNを欺くための画像を生成する能力を向上させる。GNNは、それぞれに紐づく損失関数を最小化することによって、訓練される。GNNの損失関数は学習され、事前に定義されない。DNNはそれぞれに紐づく損失関数を最小化することによって、訓練される(23)。GNN及びDNNは、それぞれに紐づく損失関数を最小化することによって、繰り返し訓練される。例えば、GNNがDNNを欺くことができなくなったとき、平衡に達する。ドメイン知識を明示的に含める必要はない。画像特徴は自動的に学習される。
【0091】
本実施例によれば、GANはPatchGANアーキテクチャを使用する。DNNの損失関数としてバイナリクロスエントロピーの手法を利用した。さらに、モデルを訓練するために、YOLOV3の出力画像(例2)をシミュレートし、それによってグリッドレス表上の座標情報を提供した。これらの画像はコンピュータビジョンを使用して膨張する前処理であり、実画像としてDNNに渡す一方で、GNNの出力画像は偽画像として渡す。DNNの訓練可能なパラメータはfalseとし、損失関数はBinary Cross Entropyを使用する。最後に、全画像は、損失をBinary Cross EntropyとMean Absolute Errorに設定したGANに渡される。本実施例によるGANはcGANであり、そしてそれゆえに、その入力に条件付けされる。GAN全体の損失関数は、生成器損失関数及び識別器損失関数を構成する。識別器は、実画像及び生成画像をパッチに還元し、パッチごとにエントロピー損失を計算する。本実施例ではパッチGANアーキテクチャを使用しているので、GAN全体の損失関数は以下に対応する。
【数3】
【0092】
図6から図10は、GANを使用して抽出されたグリッドレス表に対する表グリッド予測を図示する。図6は、グリッドレス表(3)の膨張画像である。図7はGANの出力である。この出力は、破損したグリッド画像(7′)を構成する。この破損したグリッド画像は、画像復元技術により復元することができる。こうして、復元された表グリッド画像(7′′)を得ることができる。当該復元された表グリッド画像は、グリッドレス表のグリッド付き画像(9)を得るために、復元されたテーブルグリッド画像と重畳することができる。このグリッド付き画像は、OCRを使用して構文解析し、グリッドレス表の単語可読情報(11)を得ることができる。
【0093】
実施例4:画像の膨張
【0094】
本実施例は、画像膨張の前後の処理に関するものである。図11から図15を参照する。
【0095】
図11から図15は、グリッドレス表の処理を向上するための、膨張の前後の好ましい画像処理ステップを図示する。元のカラー画像(24)は、グレースケール画像に変換される。変換後、静的な閾値は使用されず、かつ、すべての文書が異なるフォントスタイル、フォントサイズ、インデント、カリグラフィーなどを維持するので、適応2値化がグレースケール画像に適用される。このように、2値化グレースケール画像(25)が得られる。この画像は、テーブルヘッダーフォントを強調している。また、これらのステップは、画像ピクセルの閾値を動的に推論するのに役立つ。2値化値は、ガウス窓を使用する近傍値の加重和を使用して計算される。次に、2値化グレースケール画像を、膨張及び収縮する。このように、2値化グレースケール画像の膨張画像(26)が得られる。収縮及び拡張のために、画像と構造化要素の2つの入力が必要である。構造化要素はカーネルと呼ばれる。膨張では、カーネルは畳み込みと最大プーリングを行い、それによってテキストデータによってカバーされる領域を拡大する。収縮では、カーネルが全く逆の操作を行う。つまり、畳み込みと最小プーリング計算し、外観におけるテキストデータを縮小する。膨張ステップの後、前の膨張ステップの膨張画像における膨張オブジェクトのアウトライン(27)が得られる。その後、画像を含むアウトラインに膨張を適用し、画像を含む膨張アウトラインを再度2値化し、画像を含む2値化膨張外アウトラインを得る(28)。
【0096】
本発明は、先に説明したいかなる実現形態にも制限されず、かつ添付の特許請求の範囲の見直しせずに、提示された製作例にいくつかの変更を加えることができると想定される。本発明による方法は、本発明の範囲から逸脱することなく、多くの異なる方法で実現され得る。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【国際調査報告】