(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-15
(45)【発行日】2024-02-26
(54)【発明の名称】仮想セルを用いたOCRベースの文書分析システム及び方法
(51)【国際特許分類】
G06V 30/412 20220101AFI20240216BHJP
【FI】
G06V30/412
(21)【出願番号】P 2023506558
(86)(22)【出願日】2020-12-03
(86)【国際出願番号】 KR2020017507
(87)【国際公開番号】W WO2022039330
(87)【国際公開日】2022-02-24
【審査請求日】2023-01-31
(31)【優先権主張番号】10-2020-0105653
(32)【優先日】2020-08-21
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】520408272
【氏名又は名称】アジャイルソーダ インコーポレイテッド
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】リ、ビョン-チョル
(72)【発明者】
【氏名】ソ、グァン-イル
(72)【発明者】
【氏名】キム、サン-ホン
(72)【発明者】
【氏名】オ、チン-ソル
(72)【発明者】
【氏名】ファン、チャン-ヒョン
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2016-71898(JP,A)
【文献】特開2018-92459(JP,A)
【文献】特開2018-42067(JP,A)
【文献】特開2002-170079(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/412
(57)【特許請求の範囲】
【請求項1】
オブジェクト検知モデルを用いて、認識対象となる画像から、任意の形式(form)、文字及び数字のうちの少なくとも一つのオブジェクトの位置を検知するが、前記検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成し、OCRモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力し、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域(500)と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域(510)と、に区分するが、前記左側ヘッダー領域(500)と上側ヘッダー領域(510)を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列(row/column)情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする文書分析装置(100)を備える、仮想セルを用いたOCRベースの文書分析システム。
【請求項2】
前記オブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク(PSENet:Progressive Scale Expansion Network)に基づいたディープラーニングモデルを用いて、文書画像を含む学習データからの形式、文字及び数字オブジェクトの位置の検知と、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示し、前記表示された四角い形状のピクセル位置値の生成と、を学習することを特徴とする、請求項1に記載の仮想セルを用いたOCRベースの文書分析システム。
【請求項3】
前記オブジェクト検知モデルは、原画像、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像を基に学習データを学習することを特徴とする、請求項2に記載の仮想セルを用いたOCRベースの文書分析システム。
【請求項4】
前記文書分析装置(100)は、認識対象となる画像を受信する入力部(110)と、
前記受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式(form)、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示し、表示された文字及び数字オブジェクトのピクセル位置値を生成するオブジェクト検知モデリング部(120)と、
OCRモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力するOCRモデリング部(130)と、
前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域(500)と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域(510)と、に区分し、前記左側ヘッダー領域(500)と上側ヘッダー領域(510)を基準としてM×Nの大きさの仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする仮想セルフォーム構成モデリング部(140)と、
前記生成された四角い形状のピクセル位置値、認識された文字、数字の情報及びマッチング結果と、特定の機関において使用する文書データのフォームと、を保存するデータベース(150)と、
を備えることを特徴とする、請求項1に記載の仮想セルを用いたOCRベースの文書分析システム。
【請求項5】
前記仮想セルフォーム構成モデリング部(140)は、文字オブジェクトの左側ヘッダー領域(500)と上側ヘッダー領域(510)とを区分するが、
前記区分された左側ヘッダー領域(500)と上側ヘッダー領域(510)に含まれている文字オブジェクト同士の間隔及び大きさを算出し、前記区分された左側ヘッダー領域(500)と上側ヘッダー領域(510)を基準として仮想セルオブジェクトを配置することを特徴とする、請求項4に記載の仮想セルを用いたOCRベースの文書分析システム。
【請求項6】
前記仮想セルフォーム構成モデリング部(140)は、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせるが、
前記マッチングされた数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出し、前記算出された傾きは、右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映されるようにすることを特徴とする、請求項4に記載の仮想セルを用いたOCRベースの文書分析システム。
【請求項7】
a)文書分析装置(100)が、認識対象となる画像を受信するステップと、
b)前記文書分析装置(100)が、受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成するステップと、
c)前記文書分析装置(100)が、OCRモデルを用いて検知された四角い形状のピクセル内において認識される文字及び数字の情報を出力するステップと、
d)前記文書分析装置(100)が、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域(500)と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域(510)と、に区分し、前記左側ヘッダー領域(500)と上側ヘッダー領域(510)を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるように最終結果を出力するステップと、
を含む、仮想セルを用いたOCRベースの文書分析方法。
【請求項8】
前記ステップd)の文字オブジェクトの左側及び上側のピクセルの位置を基準として配置するステップは、
d-1)文書分析装置(100)が、文字オブジェクトの左側ヘッダー領域(500)と上側ヘッダー領域(510)とを区分するステップと、
d-2)前記区分された左側ヘッダー領域(500)と上側ヘッダー領域(510)に含まれている文字オブジェクト同士の間隔及び大きさを算出するステップと、
d-3)前記区分された左側ヘッダー領域(500)と上側ヘッダー領域(510)を基準として仮想セルオブジェクトを配置するステップと、
を含むことを特徴とする、請求項7に記載の仮想セルを用いたOCRベースの文書分析方法。
【請求項9】
前記ステップd)の配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結ぶステップは、
d-4)前記文書分析装置(100)が、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出するステップと、
d-5)前記文書分析装置(100)が、行/列情報に基づいて順次に移動しながら、前記算出された傾きを右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映して結ぶステップと、
を含むことを特徴とする、請求項7に記載の仮想セルを用いたOCRベースの文書分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、仮想セルを用いたOCRベースの文書分析システム及び方法に関する発明であって、さらに詳しくは、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせる仮想セルを用いたOCRベースの文書分析システム及び方法に関する。
【背景技術】
【0002】
個人や企業は、経済活動を営む中で収集する領収書を経費報告、支出決議などの会計処理もしくは総合所得税の申告などの税務処理のための事後の証憑書類として保管して管理する。
【0003】
このようにして保管及び管理される領収書は、紙ベースのものであるが故に、根本的に、原本の毀損のリスクがあり、汚損、紛失、腐敗に対する露出を予防しなければならないという技術的・経済的な負担がある他、領収書の保管量の増大に比例して領収書の保管スペースを増やさなければならないという不都合がある。
【0004】
また、個人や企業の担当者は、手書きの入力方式で、従来の領収書から上記の会計処理もしくは税務処理に必要とされる情報を抽出して分類して帳簿に記入したり、会計ソフトのインストールされたパソコン(PC)に入力・保存したりするが故に、情報の抽出タスクに不便さを感じるという不都合がある。
【0005】
一方、文書に含まれている文字情報(テキスト)画像は、機械エンコーディングを通じて変換することができるが、機械エンコーディングを通じて変換された文字は、電子的に編集、検索などが可能であり、変換された文字は、ファイルなどの形態でデータベースに保存することも可能になる。
【0006】
かような機械エンコーディングは、主として光学式文字認識(OCR:Optical Character Recognition)を通じて行われることができ、コンピューターなどを用いて画像ベースのテキスト文書を自動的に感知、識別及びエンコーディングすることができる。
【0007】
大韓民国登録特許第10-1139801号公報(発明の名称:領収書の読み取りを通じた自動情報収集システム及び方法)には、従来の領収書に印刷された購買物品、購買数量、使用金額などをOCRを通じて読み取って保存することにより、当該領収書の使用者の購買情報を自動的に収集、管理する構成が開示されている。
【0008】
しかしながら、従来の技術によるOCRは、低品質のプリンターまたはファックスなどにおいて印刷されたり、解像度の低い撮影手段において画像化されたり、しわくちゃになったり、あるいは、傾いた状態で撮影されたりした画像の場合にOCRの認識の正確度が低下するという不都合がある。
【0009】
また、従来の技術による情報収集システムは、単に物品、数量、使用金額などに対する認識しか行うことができないため、認識された項目同士のつながりは分からないという不都合がある。
【0010】
さらに、従来の技術による情報収集システムは、バーコード付き領収書、特に、別途のスキャナー装置を介してデジタルデータ化した領収書を認識するように構成されているため、通常の領収書の認識は行い難いという不都合がある。
【0011】
さらにまた、従来の技術による情報収集システムは、文書から文字しか認識しないため、認識された文字と文字との間の関係が分からないという不都合がある。
【0012】
これらに加えて、従来の技術による情報収集システムは、認識された文字と数字とを正確にマッチングさせることができないという不都合がある。
【発明の概要】
【発明が解決しようとする課題】
【0013】
これらの不都合を解消すべく、本発明は、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせる仮想セルを用いたOCRベースの文書分析システム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
上記の目的を達成するために、本発明の一実施形態は、仮想セルを用いたOCRベースの文書分析システムであって、オブジェクト検知モデルを用いて、認識対象となる画像から、任意の形式(form)、文字及び数字のうちの少なくとも一つのオブジェクトの位置を検知するが、前記検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成し、OCRモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力し、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域と、に区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列(row/column)情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする文書分析装置100を備える。
【0015】
また、上記の実施形態に係るオブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク(PSENet:Progressive Scale Expansion Network)に基づいたディープラーニング(深層学習)モデルを用いて、文書画像を含む学習データからの形式、文字及び数字オブジェクトの位置の検知と、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示し、前記表示された四角い形状のピクセル位置値の生成と、を学習することを特徴とする。
【0016】
さらに、上記の実施形態に係るオブジェクト検知モデルは、原画像(オリジナル画像)、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像を基に学習データを学習することを特徴とする。
【0017】
さらにまた、上記の実施形態に係る文書分析装置は、認識対象となる画像を受信する入力部と、前記受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式(form)、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示し、表示された文字及び数字オブジェクトのピクセル位置値を生成するオブジェクト検知モデリング部と、OCRモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力するOCRモデリング部と、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域と、に区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準としてM×Nの大きさの仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする仮想セルフォーム構成モデリング部と、前記生成された四角い形状のピクセル位置値、認識された文字、数字の情報及びマッチング結果と、特定の機関において使用する文書データのフォームと、を保存するデータベースと、を備えることを特徴とする。
【0018】
さらにまた、上記の実施形態に係る仮想セルフォーム構成モデリング部は、文字オブジェクトの左側ヘッダー領域と上側ヘッダー領域とを区分するが、前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれている文字オブジェクト同士の間隔及び大きさを算出し、前記区分された左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを配置することを特徴とする。
【0019】
さらにまた、上記の実施形態に係る仮想セルフォーム構成モデリング部は、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせるが、前記マッチングされた数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出し、前記算出された傾きは、右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映されるようにすることを特徴とする。
【0020】
さらにまた、本発明の一実施形態は、OCRベースの文書分析方法であって、a)文書分析装置が、認識対象となる画像を受信するステップと、b)前記文書分析装置が、受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成するステップと、c)前記文書分析装置が、OCRモデルを用いて検知された四角い形状のピクセル内において認識される文字及び数字の情報を出力するステップと、d)前記文書分析装置が、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域と、に区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるように最終結果を出力するステップと、を含む。
【0021】
さらにまた、上記の実施形態に係る前記ステップd)の文字オブジェクトの左側及び上側のピクセルの位置を基準として配置するステップは、d-1)文書分析装置が、文字オブジェクトの左側ヘッダー領域と上側ヘッダー領域とを区分するステップと、d-2)前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれている文字オブジェクト同士の間隔及び大きさを算出するステップと、d-3)前記区分された左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを配置するステップと、を含むことを特徴とする。
【0022】
さらにまた、上記の実施形態に係る前記ステップd)の配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結ぶステップは、d-4)前記文書分析装置が、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出するステップと、d-5)前記文書分析装置が、行/列情報に基づいて順次に移動しながら、前記算出された傾きを右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映して結ぶステップと、を含むことを特徴とする。
【発明の効果】
【0023】
本発明は、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせることができるというメリットがある。
【0024】
また、本発明は、認識された項目同士の連結及び相対的な位置関係を基に、文字の配置されたパターンを分析して特定の文書または領収書などを使用する病院、保険社などの機関において使用したフォームパターンと比較することにより、迅速かつ正確なマッチングを行うことが可能であるというメリットがある。
【0025】
さらに、本発明は、病院、保険社などの機関において使用したフォームパターンと比較して使用することにより、OCRは数字のみの認識に単純化させることができるというメリットがある。
【0026】
さらにまた、本発明は、標準化した画像ではなくても、様々な学習データを用いたディープラーニングを通じて認識の正確度を高めることができるというメリットがある。
【0027】
さらにまた、本発明は、病院、薬局・ドラッグストアなどにおいて使用する様々なフォーマットの領収書に対して正確な情報の認識を行うことができるというメリットがある。
【0028】
これらに加えて、本発明は、特定の様式(フォーム)がない書類のデジタル化を行うことができるというメリットがある。
【図面の簡単な説明】
【0029】
【
図1】本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析システムの構成を示すブロック図。
【
図2】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムの文字位置の検知を説明するための例示図。
【
図3】
図2に示す文字位置の検知結果を示す例示図。
【
図4】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムのOCR認識結果を示す例示図。
【
図5】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムの文字位置検知モデルの結果とOCRモデルの結果を示す例示図。
【
図6】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムにおける仮想セルの連結過程を説明するための例示図。
【
図7】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムにおける仮想セルの連結過程を説明するための別の例示図。
【
図8】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムの位置座標に基づいた仮想セルの連結過程を説明するための例示図。
【
図9】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムにおける仮想セルを用いた最終的な連結状態を示す例示図。
【
図10】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムを用いた、ずれて揃っていない文字の連結状態を示す例示図。
【
図11】
図1の実施形態に係る仮想セルを用いたOCRベースの文書分析システムを用いた、歪んだ文字の連結状態を示す例示図。
【
図12】本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析の過程を示すフローチャート。
【
図13】
図12の実施形態に係る仮想セルベースの項目のマッチング過程を示すフローチャート。
【発明を実施するための形態】
【0030】
以下では、本発明の好適な実施形態及び添付図面に基づいて、本発明の好適な実施形態について詳しく説明するが、同一の参照符号は、同一の構成要素を指し示しているということを前提として説明を行う。
【0031】
本発明の実施のための具体的な内容について説明するに先立って、本発明の技術的要旨と直接的な連関性がない構成に対しては、本発明の技術的な要旨を曖昧にしない範囲内において省略しているということに留意しなければならない。
【0032】
また、この明細書及び特許請求の範囲に用いられた用語や単語は、発明者が自分の発明を最善の方法で説明するために用語の概念を適切に定義することができるという原則に踏まえて、発明の技術的な思想に相応しい意味及び概念として解釈されなければならない。
【0033】
この明細書において、ある部分がある構成要素を「備える」、「含む」、もしくは「有する」という言い回しは、他の構成要素を排除するものではなく、他の構成要素をさらに備えていてもよいということを意味する。
【0034】
この明細書において、「…部」、「…器」、「…モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアやソフトウェア、またはこれらの両方の組み合わせに区別され得る。
【0035】
また、「少なくとも一つの」という用語は、単数及び複数を含む用語であると定義され、たとえ少なくとも一つという用語が存在しなくても、各構成要素が単数または複数で存在することができ、単数または複数を意味する場合があるということは自明であるといえる。
【0036】
さらに、各構成要素が単数または複数で備えられるということは、実施形態に応じて変更可能であるといえる。
【0037】
以下、添付図面に基づいて、本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析システム及び方法の好適な実施形態について詳しく説明する。
【0038】
図1は、本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析システムの構成を示すブロック図であり、
図2から
図9は、本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析システムの動作過程を説明するための例示図である。
【0039】
図1から
図9に基づいて説明すると、本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析システムは、オブジェクト検知モデルを用いて、認識対象となる画像から、任意の形式(form)、文字及び数字のうちの少なくとも一つのオブジェクトの位置を検知するが、前記検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成し、OCRモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力し、前記成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域500と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域510と、に区分するが、前記左側ヘッダー領域500と上側ヘッダー領域510を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする文書分析装置100を備えていてもよい。
【0040】
また、文書分析装置100は、外部から送られてくる認識対象となる画像を受信する入力部110を備えていてもよい。
【0041】
入力部110は、ネットワークを介して接続された外部の端末から送られてくる画像またはスキャナーなどを介して取り込まれた画像などを受信するデータ通信手段から構成されてもよい。
【0042】
さらに、文書分析装置100は、入力部110を介して受信された認識対象となる画像から、オブジェクト検知モデルを用いて、画像に含まれている任意の形式(form)、文字及び数字オブジェクトの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して四角い形状のピクセル位置情報を生成するオブジェクト検知モデリング部120を備えていてもよい。
【0043】
すなわち、オブジェクト検知モデリング部120は、形式、文字及び数字オブジェクトに対する相対的な位置の認識を行い、形式、文字及び数字オブジェクトの位置に応じた配列が確認できるように、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示し、表示された四角い形状のピクセル位置値(座標情報)を生成する。
【0044】
ここで、オブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク(PSENet:Progressive Scale Expansion Network)に基づいたディープラーニングモデルを用いて、文書画像を含む学習データから、形式、文字及び数字オブジェクトとその位置を検知し、検知率の向上のために学習を行うことができる。
【0045】
また、オブジェクト検知モデルは、原画像、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像ベースの学習データを用いて学習することができる。
【0046】
このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真の解像度など様々な条件下で撮影され得る画像に鑑みて原画像と比較して様々なバリエーションを与えた画像を事前に学習することにより、実際の環境下で受信される画像に対する検知率または認識率を向上させることができる。
【0047】
一方、本発明においては、説明のしやすさのために、認識対象となる画像の実施態様として病院の領収書と関わる画像を挙げて説明するが、本発明はこれに何ら限定されるものではなく、薬局・ドラッグストアの領収書、税金計算書、見積もり書、請求書、取引明細書、各種の計算書及び領収書などを網羅する。
【0048】
また、オブジェクト検知モデルは、自動増強(Auto Augmentation)を通じて様々なバリエーションを与えた画像を基に検知を行うに際して、最適な規則を見付けることもできる。
【0049】
さらに、オブジェクト検知モデルは、検知された形式、文字及び数字のオブジェクトに対して四角い形状のピクセルを設定し、設定されたピクセルの位置値を生成することができる。
【0050】
すなわち、入力された文書画像200における任意の検知領域210から検知された、例えば、文字オブジェクト211に対して、外部面に四角い形状のボックス212から構成されたピクセル位置値を生成し、認識されたオブジェクト213に関する情報を文字の検知結果220に表示することにより、四角い形状に基づいたパターンの認識が行えるようにする。
【0051】
この実施形態においては、説明のしやすさのために、文字オブジェクトを例にとって説明するが、本発明はこれに何ら限定されるものではなく、数字、領収書のフォームを構成する形式(form)をオブジェクトとして含んでいてもよいということは当業者にとって自明である。
【0052】
さらにまた、四角い形状のボックス212は、好ましくは、長方形(rectangular)を呈していてもよい。
【0053】
さらにまた、形式の周りに沿って表示された四角い形状の構成(または、配列)パターンに基づいて事前に保存された機関(病院)の領収書の構成と比較することで、どのような機関の領収書であるかを区別することもできる。
【0054】
ここで、形式は、文書テーブルを構成するフォームにおける一つのセル(Cell)であって、長方形を呈していてもよい。
【0055】
さらにまた、文書分析装置100は、オブジェクト検知モデリング部120において検知された形式、文字及び数字オブジェクトに対して、OCRモデルを用いて文字及び数字の認識を行うOCRモデリング部130を備えていてもよい。
【0056】
ここで、OCRモデリング部130は、画像ベースのテキスト文書を自動的に感知して認識する構成要素であって、公知のOCRモデルを用いて構成することができる。
【0057】
さらにまた、OCRモデリング部130は、OCR認識結果300に対して認識された予測情報310と、予測情報310に関する信頼点数320と、を算出して一緒に提供することができる。
【0058】
ここで、予測情報310は、認識されたオブジェクトに含まれるべき文字及び数字を示すものであり、信頼点数320は、OCRを通じて認識する過程において、内容が鮮明ではない場合、あるいは、結ばれた部分が途切れた場合などを反映して、全体の部分における認識済みの部分の比率を算出した認識率であってもよい。
【0059】
また、文書分析装置100は、生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域500と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域510と、に区分するが、前記左側ヘッダー領域500と上側ヘッダー領域510を基準としてM×Nの大きさの仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行/列情報に基づいて結んで、前記OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする仮想セルフォーム構成モデリング部140を備えていてもよい。
【0060】
すなわち、仮想セルフォーム構成モデリング部140は、オブジェクト検知モデリング部120における検知結果とOCRモデリング部130における予測情報に基づいて認識した予測情報がどのような項目であるかがマッチングされるようにする。
【0061】
また、仮想セルフォーム構成モデリング部140は、オブジェクト検知モデリング部120における検知結果220とOCRモデリング部130における予測情報310とをマッチングさせるために、隣り合うすべての文字及び数字オブジェクトの四角い形状のピクセルを結ぶ。
【0062】
さらに、通常の領収書などの会計関係の文書は、文字からなる項目が主として文書の左側と上側に配置される。
【0063】
すなわち、文書画像400上の左側には複数の左側オブジェクト410が検知され、文書画像400上の上側には複数の上側オブジェクト420が検知され、個別の左側オブジェクト410及び上側オブジェクト420と連動して数字オブジェクト430が検知される。
【0064】
数字オブジェクト430は、当該数字オブジェクト430に対応する左側オブジェクト410と上側オブジェクト420により当該数字オブジェクト430が有する属性(attribute)が定義される。
【0065】
しかしながら、数字オブジェクト430を隣のオブジェクトと結ぶとき、入力された文書画像に含まれている数字オブジェクトが水平方向ではなく、傾いた状態に配置された場合、左側方向に配置された文字オブジェクトと結ぶ過程において、水平方向ではなく、傾いた方向の延長線に配置された別の文字オブジェクトと結ばれてしまうことがある。
【0066】
本発明の一実施形態に係る仮想セルフォーム構成モデリング部140は、仮想セルオブジェクトを生成して文字オブジェクト及び数字オブジェクトが結ばれるようにする。
【0067】
このために、仮想セルフォーム構成モデリング部140は、オブジェクト検知モデリング部120を介して抽出された文字オブジェクトの位置座標を基に、文書画像400上において、左側ヘッダー領域500と上側ヘッダー領域510とを分離して区分する。
【0068】
また、仮想セルフォーム構成モデリング部140は、区分された左側ヘッダー領域500に含まれている文字オブジェクト、すなわち、図中の左側ヘッダー領域500の垂直方向の下方向に配置された複数の左側ヘッダーオブジェクト501と、上側ヘッダー領域510に含まれている文字オブジェクト、すなわち、図中の上側ヘッダー領域510の水平方向の右方向に配置された上側ヘッダーオブジェクト511、512ごとに四角い形状のピクセルの位置座標値を抽出する。
【0069】
さらに、仮想セルフォーム構成モデリング部140は、文字オブジェクトの左側ヘッダー領域500と上側ヘッダー領域510に含まれている文字オブジェクトとの間の間隔及び大きさ、すなわち、左側ヘッダーオブジェクト501、上側ヘッダーオブジェクト511、上側ヘッダーオブジェクト1512の間の間隔及び大きさを算出し、区分された左側ヘッダー領域500と上側ヘッダー領域510を基準として複数の仮想セルグループ530、530aが行/列情報に基づいて配置される。
【0070】
すなわち、仮想セルグループ530、530aに含まれている複数の仮想セルオブジェクト531、532が左側ヘッダー領域500と上側ヘッダー領域510の行/列情報に基づいて配置される。
【0071】
ここで、配置される仮想セルオブジェクト531、532の数は、左側ヘッダー領域500と上側ヘッダー領域510において検知された左側ヘッダーオブジェクト501と上側ヘッダーオブジェクト511の数であるM×N個に見合う分だけ形成される。
【0072】
また、仮想セルフォーム構成モデリング部140は、数字オブジェクト領域520と仮想セルグループ530、530aとをマッチングさせるが、左側上端に配置された仮想セルオブジェクト531と数字オブジェクト521とが優先的にマッチングされるようにする。
【0073】
このとき、左側ヘッダー及び上側ヘッダーの情報と最も密接に紐付けられた情報は左側上端であるため、最も正確度の高い左側上端の仮想セルオブジェクト531と数字オブジェクト521とを優先的にマッチングさせる。
【0074】
さらに、仮想セルフォーム構成モデリング部140は、左側上端に配置された仮想セルオブジェクト531と数字オブジェクト521とをマッチングさせると、マッチングされた数字オブジェクト521と仮想セルオブジェクト531との間の傾きを算出する。
【0075】
すなわち、仮想セルフォーム構成モデリング部140は、文書画像に含まれている数字オブジェクト521が水平方向ではなく、傾いた状態に配置された場合に間違えてマッチングされてしまうことを防ぐために、文書画像の上に設定された基準座標系から、座標系内の当該ベクトルの傾きを算出し、算出された傾きに基づいて画像の全体的な傾きを算出する。
【0076】
さらにまた、仮想セルフォーム構成モデリング部140は、画像の全体的な傾きが反映されるように左側上端においてマッチングされた数字オブジェクト521と仮想セルオブジェクト531との間の傾き情報が右側下端に配置された仮想セルオブジェクトと数字オブジェクトn523とのマッチングまで反映されるようにする。
【0077】
さらにまた、仮想セルフォーム構成モデリング部140は、仮想セルオブジェクトを左側、上端、下端のオブジェクトと傾きライン540及び上側ヘッダーライン541を介して結ぶが、左側ヘッダーオブジェクト501、上側ヘッダーオブジェクト511、上側ヘッダーオブジェクト1512などから算出したオブジェクト同士の間隔及び大きさに基づいて、IoU(Intersection over Union)が予め設定された基準値以上であれば結ばれるようにする。
【0078】
さらにまた、仮想セルフォーム構成モデリング部140は、仮想セルオブジェクトを用いた連結が完了すると、仮想セルオブジェクトを除去して最終的な連結画像600を生成して出力する。
【0079】
このとき、仮想セルフォーム構成モデリング部140は、最終的な連結画像600をデータベース150に保存された特定の機関の文書のボックスの配列情報と比較して、マッチングされるか否かを確認することができる。
【0080】
ここで、特定の機関は、病院、薬局・ドラッグストア、会社など、領収書及び会計関係の文書を任意のフォームにて発行するあらゆる場所を網羅する。
【0081】
また、仮想セルフォーム構成モデリング部140は、
図10に示すように、たとえ数字オブジェクト730がずれて揃っていない文字画像700が入力されるとしても、左側ヘッダーオブジェクト710と上側ヘッダーオブジェクト720を基に仮想セルオブジェクトを生成した後、例えば、下にずれて揃っていない数字オブジェクト730を仮想セルオブジェクトとマッチングさせて傾きに基づいて結ぶことで、文字オブジェクトと数字オブジェクトとが正確に結ばれるようにする。
【0082】
さらに、仮想セルフォーム構成モデリング部140は、
図11に示すように、たとえ図中の片側に歪んだ(または、傾いた)文字画像800が入力されるとしても、左側ヘッダーオブジェクト810と上側ヘッダーオブジェクト820を基に仮想セルオブジェクトを生成した後、数字オブジェクト830を仮想セルオブジェクトとマッチングさせて傾きに基づいて結ぶことで、文字オブジェクトと数字オブジェクトとが正確に結ばれるようにする。
【0083】
さらにまた、文書分析装置100は、仮想セルフォーム構成モデリング部140から出力される再構成画像、特定の機関において使用する文書データのフォーム(または、形式)、生成された四角い形状のピクセル位置値、認識された文字、数字の情報及びマッチング結果などを保存するデータベース150を備えていてもよい。
【0084】
次いで、本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析方法について説明する。
【0085】
図12は、本発明の一実施形態に係る仮想セルを用いたOCRベースの文書分析の過程を示すフローチャートであり、
図13は、
図12の実施形態に係る仮想セルに基づいた項目のマッチング過程を示すフローチャートである。
【0086】
図1、
図12及び
図13を参照すると、文書分析装置100は、ネットワークを介して接続された外部端末またはファックスなどを介して認識対象となる領収書の画像を受信(S100)する。
【0087】
文書分析装置100は、受信された認識対象となる領収書の画像から、オブジェクト検知モデルを用いて、任意の形式、文字及び数字オブジェクトとその位置を検知し、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して四角い形状のピクセル位置情報を生成する文字検知ステップを行う(S200)。
【0088】
また、ステップS200において、オブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク(PSENet:Progressive Scale Expansion Network)に基づいたディープラーニングモデルを用いて、文書画像を含む学習データから形式、文字及び数字オブジェクトとその位置を検知し、検知率の向上のために学習を行うことができる。
【0089】
さらに、オブジェクト検知モデルは、原画像、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像ベースの学習データを用いて学習することができる。
【0090】
続いて、文書分析装置100は、検知された形式、文字及び数字オブジェクトに対する四角い形状のピクセル内において、OCRモデルを用いて文字及び数字情報を認識するOCR認識ステップ(S300)を行う。
【0091】
ステップS300を行った後、文書分析装置100は、生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域500と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域510と、に区分し、前記左側ヘッダー領域500と上側ヘッダー領域510を基準として仮想セルオブジェクトを生成して配置し、配置された仮想セルオブジェクトと数字オブジェクトをマッチングさせて行/列情報に基づいて結ぶ(S400)。
【0092】
ステップS400についてさらに詳しく説明すれば、文書分析装置100は、文字オブジェクトの左側及び上側のピクセルの位置を基準として仮想セルオブジェクトを配置するが、文字オブジェクトの左側ヘッダー領域500(
図7参照)と上側ヘッダー領域510(
図7参照)とを区分(S410)する。
【0093】
また、文書分析装置100は、区分された左側ヘッダー領域500と上側ヘッダー領域510に含まれている文字オブジェクト同士の間隔及び大きさを算出(S420)する。
【0094】
続いて、文書分析装置100は、区分された左側ヘッダー領域500と上側ヘッダー領域510を基準として検知された左側ヘッダーオブジェクト501と上側ヘッダーオブジェクト511の数であるM×Nに見合う分だけ仮想セルオブジェクトを配置(S430)する。
【0095】
ステップS430における仮想セルオブジェクトの配置が完了すると、文書分析装置100は、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出(S440)する。
【0096】
すなわち、ステップS440において、文書分析装置100は、文書画像に含まれている数字オブジェクトが水平方向ではなく、傾いた状態に配置された場合に間違えてマッチングされてしまうことを防ぐために、文書画像の上に設定された基準座標系から、座標系内の当該ベクトルの傾きを算出し、算出された傾きに基づいて画像の全体的な傾きを算出する。
【0097】
続いて、文書分析装置100が行/列情報に基づいて順次に移動しながら、前記算出された傾きを右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映して結ぶ(S450)。
【0098】
すなわち、文書分析装置100は、画像の全体的な傾きが反映されるように左側上端においてマッチングされた数字オブジェクトと仮想セルオブジェクトとの間の傾き情報が右側下端に配置された仮想セルオブジェクトと数字オブジェクトnとのマッチングまで反映されるようにし、反映結果に従って配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて左側ヘッダーオブジェクト501と上側ヘッダーオブジェクト511の行/列情報に基づいて結ぶ。
【0099】
ステップS450における連結が完了すると、文書分析装置100は、OCRモデルを通じて認識された文字及び数字の情報がディスプレイされるように最終的な連結画像600を生成して出力(S500)する。
【0100】
したがって、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせることができる。
【0101】
また、認識された項目同士の連結及び相対的な位置関係を基に、文字が配置されたパターンを分析して特定の文書または領収書などを使用する病院、保険社などの機関において使用したフォームパターンと比較することにより、迅速かつ正確なマッチングを行うことができる。
【0102】
さらに、病院、保険社などの機関において使用したフォームパターンと比較して使用することにより、OCRは数字のみの認識に単純化させることができ、標準化した画像ではなくても、様々な学習データを用いたディープラーニング学習を通じて認識の正確度を高めることができる。
【0103】
さらにまた、病院、薬局・ドラッグストアなどにおいて使用する様々なフォーマットの領収書に対して正確な情報の認識を行うことができ、特定の様式(フォーム)がない書類をデジタル化させることができる。
【0104】
以上、本発明の好適な実施形態に基づいて説明したが、当該技術分野における熟練した当業者であれば、特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内において本発明に種々の修正及び変更を加えることができるということが理解できる筈である。
【0105】
また、本発明の特許請求の範囲に記載された図面符号は、説明の明瞭性と便宜性のために記載したものに過ぎず、本発明はこれに何ら限定されるものではなく、実施形態を説明する過程において、図示の線の太さや構成要素の大きさなどは、説明の明瞭性と便宜性のために誇張して示されていてもよい。
【0106】
さらに、上述した用語は、本発明における機能を考慮して定義された用語であって、これは、使用者、運用者の意図又は慣例によって異なってくる可能性があるため、これらの用語に関する解釈は、この明細書の全般に亘っての内容を踏まえて行われるべきである。
【0107】
さらにまた、たとえ明示的に図示されていなかったり説明されていなかったりするとしても、本発明が属する技術分野において通常の知識を有する者が本発明の記載事項から本発明による技術的思想を含む様々な形態の変形を行うことができるということは明らかであり、これは、依然として本発明の権利範囲に属する。
【0108】
また、添付図面に基づいて説明された上記の実施形態は、本発明を説明するための目的で述べられたものであり、本発明の権利範囲は、このような実施形態に何ら制限されるものではない。
【符号の説明】
【0109】
100:文書分析装置
110:入力部
120:オブジェクト検知モデリング部
130:OCRモデリング部
140:仮想セルフォーム構成モデリング部
150:データベース
200:文書画像
210:検知領域
211:文字オブジェクト
212:四角い形状のボックス
220:文字検知結果
213:認識されたオブジェクト
300:OCR認識結果
310:予測情報
320:信頼点数
400:文書画像
410:左側オブジェクト
420:上側オブジェクト
430:数字オブジェクト
500:左側ヘッダー領域
501:左側ヘッダーオブジェクト
510:上側ヘッダー領域
511:上側ヘッダーオブジェクト
512:上側ヘッダーオブジェクト1
520:数字オブジェクト領域
521:数字オブジェクト
522:数字オブジェクト1
523:数字オブジェクトn
530:仮想セルグループ
530a:仮想セルグループ1
531:仮想セルオブジェクト
532:仮想セルオブジェクト1
540:傾きライン
541:上側ヘッダーライン
600:最終的に結んだ画像
700:ずれて揃っていない文字画像
710:左側ヘッダーオブジェクト
720:上側ヘッダーオブジェクト
730:数字オブジェクト
800:歪んだ文字画像
810:左側ヘッダーオブジェクト
820:上側ヘッダーオブジェクト