(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-27
(45)【発行日】2024-03-06
(54)【発明の名称】OCRベース文書分析システム及び方法
(51)【国際特許分類】
G06V 30/412 20220101AFI20240228BHJP
G06V 30/00 20220101ALI20240228BHJP
G06V 30/194 20220101ALI20240228BHJP
【FI】
G06V30/412
G06V30/00 S
G06V30/194
(21)【出願番号】P 2022563495
(86)(22)【出願日】2020-08-21
(86)【国際出願番号】 KR2020011210
(87)【国際公開番号】W WO2021215589
(87)【国際公開日】2021-10-28
【審査請求日】2022-10-19
(31)【優先権主張番号】10-2020-0050179
(32)【優先日】2020-04-24
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2020-0050180
(32)【優先日】2020-04-24
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2020-0050181
(32)【優先日】2020-04-24
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】520408272
【氏名又は名称】アジャイルソーダ インコーポレイテッド
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】リ、ピョン-チョル
(72)【発明者】
【氏名】ソ、クァン-イル
(72)【発明者】
【氏名】キム、サン-ヒョン
(72)【発明者】
【氏名】オ、チン-ソル
(72)【発明者】
【氏名】ファン、チャン-ヒョン
(72)【発明者】
【氏名】チュン、アン-チェ
(72)【発明者】
【氏名】チェ、チュ-ヨン
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2016-126796(JP,A)
【文献】特開2019-191665(JP,A)
【文献】米国特許出願公開第2013/0063620(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 ー 30/424
(57)【特許請求の範囲】
【請求項1】
認識対象イメージを受信する入力部(110);
前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式(form)、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部(120);
OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部(130);
前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部(140);及び
前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース(150);
を含む
文書分析装置(100)を含む、OCRベース文書分析システム。
【請求項2】
前記客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体の位置探知と、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、前記表示された四角形状のピクセル位置値生成を学習することを特徴とする、請求項
1に記載のOCRベース文書分析システム。
【請求項3】
前記客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする、請求項
2に記載のOCRベース文書分析システム。
【請求項4】
前記フォーム構成モデリング部(140)は、前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、
移動中に検索される全ての四角形状のピクセルを連結し、前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする、請求項
1に記載のOCRベース文書分析システム。
【請求項5】
前記フォーム構成モデリング部(140)は、生成された四角形状のピクセル中心点にマーカー(520)を表示し、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、
移動中に検索される全ての四角形状のピクセルを連結し、連結された四角形状のマーカー(520)位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする、請求項
1に記載のOCRベース文書分析システム。
【請求項6】
認識対象イメージを受信する入力部(110’);
前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字(項目)情報を定義した項目DB(300’)を生成する項目DB生成部(120’);
前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式(form)、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部(130’);
OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部(140’);
前記認識された文字情報を項目DB(300’)と比較し、認識された文字を項目DB(300’)の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部(150’);及び
前記生成された四角形状のピクセル位置値、矯正された文字及び数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース(160’);
を含む
文書分析装置(100’)を含む、OCRベース文書分析システム。
【請求項7】
前記フォーム構成モデリング部(150’)は、自然語処理(Natural Language Processing,NLP)により、探知された文字に対して分析することを特徴とする、請求項
6に記載のOCRベース文書分析システム。
【請求項8】
前記フォーム構成モデリング部(150’)は、認識された文字と項目DB(300’)情報とを比較し、認識された文字に対する信頼点数を算出することを特徴とする、請求項
7に記載のOCRベース文書分析システム。
【請求項9】
前記フォーム構成モデリング部(150’)は、数字の客体の四角形状ピクセルサイズに対して、横長及び縦長が、隣接した他の四角形状ピクセルの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにすることを特徴とする、請求項
8に記載のOCRベース文書分析システム。
【請求項10】
前記フォーム構成モデリング部(150’)は、最も近い左側及び上側の四角形状ピクセルのうち少なくとも一つを連結し、連結された四角形状ピクセル内の文字の客体を探すまで連結することを特徴とする、請求項
9に記載のOCRベース文書分析システム。
【請求項11】
前記フォーム構成モデリング部(150’)は、検索された四角形状のピクセル(920’)が空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする、請求項
8に記載のOCRベース文書分析システム。
【請求項12】
認識対象イメージを受信する入力部(110”);
前記受信した認識対象イメージにおいて客体探知モデルを用いて形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部(130”);
OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部(140”);
前記認識された文字を項目DB(300’)の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部(150”);
補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいて前記ディスプレイに反映して視覚的に表示されるようにする信頼度評価部(160”);及び
前記生成された四角形状のピクセル位置値、認識された文字、数字情報、信頼情報と、特定機関で使用する文書データのフォームを保存するデータベース(170”);
を含む
文書分析装置(100”)を含む、OCRベース文書分析システム。
【請求項13】
前記認識対象イメージに含まれた文字に対して任意の文書からあらかじめ設定された文字に対する項目DB(300’)情報を生成する項目DB生成部(120”);をさらに含み、
前記フォーム構成モデリング部(150”)は、前記探知された文字の客体に対して項目DB(300’)情報とマッチさせ、マッチング結果によって認識された文字が矯正されると、前記矯正された文字を反映させることを特徴とする、請求項
12に記載のOCRベース文書分析システム。
【請求項14】
前記フォーム構成モデリング部(150”)は、文字及び数字の四角形状ボックスの色相が、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが互いに異なる色相で表示されることを特徴とする、請求項
12に記載のOCRベース文書分析システム。
【請求項15】
客体探知モデルを用いて認識対象イメージにおいて任意の形式(form)、文字及び数字のうち少なくとも一つの客体の位置を探知するが、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、
OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイし、
前記生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域(500”’)と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域
(510”’
)とに区分し、前記左側ヘッダー領域(500”’)と上側ヘッダー領域
(510”’
)を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行/列(row/column)情報に基づいて連結し、前記OCRモデルによって認識された文字及び数字情報がディスプレイされるようにする
ことを特徴とする、
文書分析装置(100”’)を含む、OCRベース文書分析システム。
【請求項16】
前記文書分析装置(100”’)は、
認識対象イメージを受信する入力部(110”’);
前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式(form)、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された文字及び数字の客体のピクセル位置値を生成する客体探知モデリング部(120”’);
OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部(130”’);
前記生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域(500”’)と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域510”’とに区分し、前記左側ヘッダー領域(500”’)と上側ヘッダー領域510”’を基準にM×Nサイズの仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行/列情報に基づいて連結し、前記OCRモデルによって認識された文字及び数字情報がディスプレイされるようにする仮想セルフォーム構成モデリング部(140”’);及び
前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース(150”’);を含むことを特徴とする、請求項
15に記載のOCRベース文書分析システム。
【請求項17】
前記仮想セルフォーム構成モデリング部(140”’)は、文字の客体の左側ヘッダー領域(500”’)と上側ヘッダー領域(510”’)とに区分し、前記区分された左側ヘッダー領域(500”’)と上側ヘッダー領域(510”’)に含まれた文字の客体間の間隔及びサイズを算出し、前記区分された左側ヘッダー領域(500”’)と上側ヘッダー領域(510”’)を基準に仮想セル客体を配置することを特徴とする、請求項
15に記載のOCRベース文書分析システム。
【請求項18】
前記仮想セルフォーム構成モデリング部(140”’)は、左側上端に配置された仮想セル客体と数字客体をマッチさせ、
前記マッチした数字客体と仮想セル客体間の勾配を算出し、前記算出された勾配は、右側下端に配置された仮想セル客体と数字客体のマッチングまで反映されるようにすることを特徴とする、請求項
15に記載のOCRベース文書分析システム。
【請求項19】
a)文書分析装置(100,100’,100”)が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して四角形状のピクセル位置値を生成する段階;
b)前記文書分析装置(100,100’,100”)が、OCRモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階;及び
c)前記文書分析装置(100,100’,100”)が、前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせる段階;を含むOCRベース文書分析方法。
【請求項20】
前記a)段階の客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形状、文字及び数字の客体の位置探知と、探知された形状、文字及び数字の客体の周りに沿って四角形状のボックスと前記四角形状のピクセル位置値生成を学習することを特徴とする、請求項
19に記載のOCRベース文書分析方法。
【請求項21】
前記a)段階の客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする、請求項
19に記載のOCRベース文書分析方法。
【請求項22】
前記c)段階は、c-1)生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして文字情報が検索されるまで左側方向及び上側方向に移動する段階;
c-2)前記文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結する段階;及び
c-3)前記四角形状のピクセル位置には認識された文字と数字情報をマッチさせてディスプレイする段階;を含むことを特徴とする、請求項
19に記載のOCRベース文書分析方法。
【請求項23】
前記c)段階は、c’-1)前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動する段階;
c’-2)前記移動中に検索される全ての四角形状のピクセルを連結する段階;及び
c’-3)前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階;を含むことを特徴とする、請求項
19に記載のOCRベース文書分析方法。
【請求項24】
前記c)段階は、c”-1)生成された四角形状のピクセルの中心点にマーカー(520)を表示する段階;
c”-2)前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結する段階;
c”-3)連結された四角形状のマーカー(520)位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較する段階;及び
c”-4)前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階;を含むことを特徴とする、請求項
19に記載のOCRベース文書分析方法。
【請求項25】
前記b)段階は、文書分析装置(100’,100”)が、前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字(項目)情報を定義した項目DB(300’)を生成する段階;及び
文書分析装置(100’,100”)が探知された文字の客体に対して項目DB(300’)情報とマッチさせ、マッチング結果によって、認識された文字を矯正する段階;をさらに含むことを特徴とする、請求項
19に記載のOCRベース文書分析方法。
【請求項26】
前記文書分
析装置(100’)は、探知された文字の客体に対して自然語処理(Natural Language Processing,NLP)によって文字を分析し、
分析された文字と項目DB(300’)情報との比較に基づいて、分析された文字に対する信頼点数を算出し、認識された文字を矯正するか否か判断し、
前記認識された文字の矯正を行うことによってNLPベースの矯正を行うことを特徴とする、請求項
25に記載のOCRベース文書分析方法。
【請求項27】
文書分析装置(100’)は、四角形状のピクセルが空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする、請求項
25に記載のOCRベース文書分析方法。
【請求項28】
d)前記文書分析装置(100”)が、補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいてディスプレイに反映して視覚的に表示する段階;をさらに含むことを特徴とする、請求項
19又は25に記載のOCRベース文書分析方法。
【請求項29】
前記d)段階の補正モデルはフォーム、形状、位置のうち少なくとも一つの補正を行うことによる再建率と、項目DB(300’)情報とのマッチング結果による矯正された文字の反映有無に基づいて信頼点数を算出することを特徴とする、請求項
28に記載のOCRベース文書分析方法。
【請求項30】
i)文書分析装置(100”’)が、認識対象イメージを受信する段階;
ii)前記文書分析装置(100”’)が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して文字及び数字の客体のピクセル位置値を生成する段階;
iii)前記文書分析装置(100”’)が、OCRモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階;及び
iv)前記文書分析装置(100”’)が、前記生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域(500”’)と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域(510”’)とに区分し、前記左側ヘッダー領域(500”’)と上側ヘッダー領域(510”’)を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行/列情報に基づいて連結し、前記OCRモデルによって認識された文字及び数字情報がディスプレイされるように最終結果を出力する段階;
を含むOCRベース文書分析方法。
【請求項31】
前記iv)段階の文字の客体の左側及び上側ピクセル位置を基準に配置する段階は、
iv-1)文書分析装置(100”’)が文字の客体の左側ヘッダー領域(500”’)と上側ヘッダー領域(510”’)を区分する段階;
iv-2)前記区分された左側ヘッダー領域(500”’)と上側ヘッダー領域(510”’)に含まれた文字の客体間の間隔及びサイズを算出する段階;及び
iv-3)前記区分された左側ヘッダー領域(500”’)と上側ヘッダー領域(510”’)を基準に仮想セル客体を配置する段階を含むことを特徴とする、請求項
30に記載のOCRベース文書分析方法。
【請求項32】
前記iv)段階の配置された仮想セル客体と数字客体をマッチさせて行/列情報に基づいて連結する段階は、
iv-4)前記文書分析装置(100”’)が左側上端に配置された仮想セル客体と数字客体をマッチさせて数字客体と仮想セル客体間の勾配を算出する段階;及び
iv-5)前記文書分析装置(100”’)が行/列情報によって順次に移動して前記算出された勾配を右側下端に配置された仮想セル客体と数字客体のマッチングまで反映して連結する段階を含むことを特徴とする、請求項
30に記載のOCRベース文書分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、OCRベース文書分析システム及び方法に関し、より詳細には、OCR認識に基づいて認識されたテキストに対する相対的な位置情報、認識された項目間の連結、認識された情報に対する信頼点数を提供することによって、データテーブルの再構成、予測正確度検査者による確認作業時間を減少させることができるOCRベース文書分析システム及び方法に関する。
【背景技術】
【0002】
個人や企業は、経済活動中に収集する領収書を、経費報告、支出決議などの会計処理或いは総合所得税申告などの税務処理のための事後証明書類として保管して管理する。
【0003】
このように保管及び管理される領収書は紙でできているため、根本的に原本き損の危険があり、汚損、紛失、腐敗への露出を予防しなければならない技術的、経済的な負担があり、領収書保管量の増大に比例して領収書保管空間を増やさなければならないという問題点がある。
【0004】
また、個人や企業の担当者は、上記の会計処理或いは税務処理に必要な情報を、手書き入力方式で従来の領収書から抽出し分類して帳簿に記入したり、会計管理プログラムが設置されたPCに入力、保存したりするため、情報抽出作業が不便である問題がある。
【0005】
一方、文書に含まれている文字(テキスト)イメージは、機械エンコーディングによって変換できるが、機械エンコーディングによって変換された文字は電子的に編集、検索などが可能であり、変換された文字はファイルなどの形態でデータベースに保存することも可能である。
【0006】
このような機械エンコーディングは、主に光学文字認識(OCR)によって行われてよく、コンピュータなどを用いてイメージベースのテキスト文書を自動で感知、識別及びエンコードすることができる。
【0007】
韓国登録特許第10-1139801号公報(発明の名称:領収書判読を用いる自動情報収集システム及び方法)には、従来の領収書に印刷された購買物品、購買数量、使用金額などをOCRで読み取って保存することによって、当該領収書の使用者の購買情報を自動で収集、管理する構成が開示されている。
【0008】
しかしながら、従来技術によるOCRは、低品質のプリンタ又はファクシミリなどで印刷されたり、解像度の低い撮影手段でイメージ化されたり、しわがよったり、又は傾いた状態で撮影されたりしたイメージは、OCRの認識正確度が低下する問題点がある。
【0009】
また、従来技術による情報収集システムは、単に、物品、数量、使用金額などに対する認識が可能であるだけで、認識された項目間の連結関係は分からないという問題点がある。
【0010】
また、従来技術による情報収集システムは、バーコード付き領収書、特に、別のスキャナー装置を用いてデジタルデータ化された領収書を認識するように構成されており、一般的な領収書は認識し難い問題点がある。
【0011】
また、従来技術による情報収集システムは、文書から文字のみを認識するため、認識された文字と文字間の関係が分からない問題点がある。
【0012】
また、従来技術による情報収集システムは、OCRで文字を認識しても、認識された文字を適切なDBのフィールドに保存できない問題点がある。
【0013】
また、従来技術による情報収集システムは、新しい項目に対する認識がし難く、認識された項目を含む再構成フォームを生成できない問題点がある。
【0014】
また、従来技術による情報収集システム及び方法は、OCRで収集された情報に対して、検査者が認識情報の異常有無を全て確認しなければならない問題点がある。
【発明の概要】
【発明が解決しようとする課題】
【0015】
このような問題点を解決するために、本発明は、OCR認識に基づいて認識されたテキストに対する相対的な位置情報、認識された項目間の連結、認識された情報に対する信頼点数を提供することによって、データテーブルの再構成、予測正確度検査者による確認作業時間を減少させることができるOCRベース文書分析システム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0016】
上記の目的を達成するために、本発明の一実施例は、OCRベース文書分析システムであって、客体探知モデルを用いて認識対象イメージにおいて任意の形式(form)、文字及び数字のうち少なくとも一つの客体の位置を探知するが、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置からなることを特徴とする。
【0017】
また、前記実施例に係る文書分析装置は、任意の文書で用いられる文字(項目)情報を定義した項目DBを生成及び保存し、
【0018】
前記認識された文字に対して項目DBの文字情報との比較によって矯正するか否かを決定し、認識された文字が矯正されることにより、前記認識された文字、矯正された文字及び数字情報を反映してディスプレイすることを特徴とする。
【0019】
また、前記実施例に係る文書分析装置は、OCRモデルを用いた認識率に基づく認識された文字及び数字の信頼点数を算出し、算出された信頼点数を前記ディスプレイ情報に反映して視覚的に表示されるようにし、前記信頼点数は、補正モデルを用いてフォーム、形状、位置のうち少なくとも一つの補正を行うことによって算出される再建率がさらに反映されることを特徴とする。
【0020】
また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部;前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式(form)、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部;OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部;前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部;及び、前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース;を含むことを特徴とする。
【0021】
また、上記の実施例に係る客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形状、文字及び数字の客体の位置探知と、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、前記表示された前記四角形式のピクセル位置値生成を学習することを特徴とする。
【0022】
また、前記実施例に係る客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする。
【0023】
また、前記実施例に係るフォーム構成モデリング部は、前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動できる。
【0024】
また、前記実施例に係るフォーム構成モデリング部は、移動中に検索される全ての四角形状のピクセルを連結し、前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする。
【0025】
また、前記実施例に係るフォーム構成モデリングは、生成された四角形状のピクセル中心点にマーカーを表示し、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動できる。
【0026】
また、前記実施例に係るフォーム構成モデリング部は、移動中に検索される全ての四角形状のピクセルを連結し、連結された四角形状のマーカー位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする。
【0027】
また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部;前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字(項目)情報を定義した項目DBを生成する項目DB生成部;前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式(form)、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部;OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部;前記認識された文字情報を項目DBと比較し、認識された文字を項目DBの文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部;及び、前記生成された四角形状のピクセル位置値、矯正された文字及び数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベースを含むことを特徴とする。
【0028】
また、前記実施例に係るフォーム構成モデリング部は、自然語処理(Natural Language Processing,NLP)により、探知された文字に対して分析することを特徴とする。
【0029】
また、前記実施例に係るフォーム構成モデリング部は、認識された文字と項目DB情報とを比較し、認識された文字に対する信頼点数を算出することを特徴とする。
【0030】
また、前記実施例に係るフォーム構成モデリング部は、数字の客体の四角形状ピクセルサイズに対して、横長及び縦長が、隣接した他の四角形状ピクセルの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにすることを特徴とする。
【0031】
また、前記実施例に係るフォーム構成モデリング部は、最も近い左側及び上側の四角形状ピクセルのうち少なくとも一つを連結し、連結された四角形状ピクセル内の文字の客体を探すまで連結することを特徴とする。
【0032】
また、前記実施例に係るフォーム構成モデリング部は、検索された四角形状のピクセルが空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする。
【0033】
また、前記実施例に係る文書分析装置は、信頼点数によって、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが互いに異なる色相の視覚化情報で表示されるようにすることを特徴とする。
【0034】
また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部;前記受信した認識対象イメージにおいて客体探知モデルを用いて形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部;OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部;前記認識された文字を項目DBの文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部;補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいて前記ディスプレイに反映して視覚的に表示されるようにする信頼度評価部;及び、前記生成された四角形状のピクセル位置値、認識された文字、数字情報、信頼情報と、特定機関で使用する文書データのフォームを保存するデータベース;を含むことを特徴とする。
【0035】
また、前記実施例に係る文書分析装置は、認識対象イメージに含まれた文字に対して任意の文書からあらかじめ設定された文字に対する項目DB情報を生成する項目DB生成部;をさらに含むことができる。
【0036】
また、前記フォーム構成モデリング部は、前記探知された文字の客体に対して項目DB情報とマッチさせ、マッチング結果によって認識された文字が矯正されると、前記矯正された文字を反映させることを特徴とする。
【0037】
また、前記実施例に係るフォーム構成モデリング部は、文字及び数字の四角形状ボックスの色相が、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが互いに異なる色相で表示されることを特徴とする。
【0038】
また、本発明の一実施例に係る文書分析方法は、a)文書分析装置が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して四角形状のピクセル位置値を生成する段階;b)前記文書分析装置が、OCRモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階;及び、c)前記文書分析装置が、前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせる段階;を含む。
【0039】
また、前記実施例は、a)段階の客体探知モデルがPSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形状、文字及び数字の客体の位置探知と、探知された形状、文字及び数字の客体の周りに沿って四角形状のボックスと前記四角形状のピクセル位置値生成を学習することを特徴とする。
【0040】
また、前記実施例は、前記a)段階の客体探知モデルが、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする。
【0041】
また、前記実施例に係るc)段階は、c-1)生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして文字情報が検索されるまで左側方向及び上側方向に移動する段階;c-2)前記文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結する段階;及び、c-3)前記四角形状のピクセル位置には認識された文字と数字情報をマッチさせてディスプレイする段階;を含むことを特徴とする。
【0042】
また、前記実施例に係るc)段階は、c’-1)前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動する段階;c’-2)前記移動中に検索される全ての四角形状のピクセルを連結する段階;及び、c’-3)前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階;を含むことを特徴とする。
【0043】
また、前記実施例に係るc)段階は、c”-1)生成された四角形状のピクセルの中心点にマーカー(520)を表示する段階;c”-2)前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結する段階;c”-3)連結された四角形状のマーカー(520)位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較する段階;及び、c”-4)前記比較結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階;を含むことを特徴とする。
【0044】
また、前記実施例に係るb)段階は、文書分析装置が前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字(項目)情報を定義した項目DBを生成する段階;及び、文書分析装置が探知された文字の客体に対して項目DB情報とマッチさせ、マッチング結果によって、認識された文字を矯正する段階;をさらに含むことを特徴とする。
【0045】
また、前記実施例に係る文書分析探知装置は、探知された文字の客体に対して自然語処理(Natural Language Processing,NLP)によって文字を分析し、分析された文字と項目DB情報との比較に基づいて、分析された文字に対する信頼点数を算出して、認識された文字を矯正するか否か判断し、前記認識された文字の矯正を行うことによってNLPベースの矯正を行うことを特徴とする。
【0046】
また、前記実施例に係る文書分析装置は、四角形状のピクセルが空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする。
【0047】
また、前記実施例は、d)前記文書分析装置が補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいてディスプレイに反映して視覚的に表示する段階;をさらに含むことを特徴とする。
【0048】
また、前記実施例に係るd)段階の補正モデルは、フォーム、形状、位置のうち少なくとも一つの補正を行うことによる再建率と、項目DB情報とのマッチング結果による矯正された文字の反映有無に基づいて信頼点数を算出することを特徴とする。
【0049】
また、前記実施例に係る文書分析装置は、前記生成された文字の客体のピクセル位置値に基づいて、左側領域に文字の客体が配置される左側ヘッダー領域と上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結し、前記OCRモデルによって認識された文字及び数字情報がディスプレイされるようにする特徴とする。
【0050】
また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部;前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式(form)、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された文字及び数字の客体のピクセル位置値を生成する客体探知モデリング部;OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するOCRモデリング部;前記生成された文字の客体のピクセル位置値に基づいて左側領域に文字の客体が配置される左側ヘッダー領域と上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準にM×Nサイズの仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結し、前記OCRモデルによって認識された文字及び数字情報がディスプレイされるようにする仮想セルフォーム構成モデリング部;及び、前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース;を含むことを特徴とする。
【0051】
また、前記実施例に係る仮想セルフォーム構成モデリング部は、文字の客体の左側ヘッダー領域と上側ヘッダー領域を区分するが、前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれた文字の客体間の間隔及びサイズを算出し、前記区分された左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を配置することを特徴とする。
【0052】
また、前記実施例に係る仮想セルフォーム構成モデリング部は、左側上端に配置された仮想セル客体と数字客体をマッチさせるが、前記マッチした数字客体と仮想セル客体間の勾配を算出し、前記算出された勾配は右側下端に配置された仮想セル客体と数字客体のマッチングまで反映されるようにすることを特徴とする。
【0053】
また、本発明の一実施例はOCRベース文書分析方法であって、i)文書分析装置が認識対象イメージを受信する段階;ii)前記文書分析装置が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して文字及び数字の客体のピクセル位置値を生成する段階;iii)前記文書分析装置が、OCRモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階;及び、iv)前記文書分析装置が、前記生成された文字の客体のピクセル位置値に基づいて、左側領域に文字の客体が配置される左側ヘッダー領域と上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結し、前記OCRモデルによって認識された文字及び数字情報がディスプレイされるように最終結果を出力する段階;
を含む。
【0054】
また、前記実施例に係るiv)段階の文字の客体の左側及び上側ピクセル位置を基準に配置する段階は、iv-1)文書分析装置が、文字の客体の左側ヘッダー領域と上側ヘッダー領域を区分する段階;iv-2)前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれた文字の客体間の間隔及びサイズを算出する段階;及び、iv-3)前記区分された左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を配置する段階を含むことを特徴とする。
【0055】
また、前記実施例に係るiv)段階の配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結する段階は、iv-4)前記文書分析装置が、左側上端に配置された仮想セル客体と数字客体をマッチさせて数字客体と仮想セル客体間の勾配を算出する段階;及び、iv-5)前記文書分析装置が、行列情報によって順次に移動して前記算出された勾配を右側下端に配置された仮想セル客体と数字客体のマッチングまで反映して連結する段階を含むことを特徴とする。
【発明の効果】
【0056】
本発明は、文書上の項目に記載された文字及び数字を含むテキストを認識し、認識されたテキストに対する相対的な位置情報に基づいて項目間の連結関係を分析することによって、認識された数字を該当の項目にマッチさせることができる長所がある。
【0057】
また、本発明は、認識された項目間の連結及び相対的な位置関係に基づいて文字が配置されたパターンを分析し、特定の文書又は領収書などを使用する病院、保険会社などの機関で使用したフォームパターンと比較することによって、迅速で正確なマッチングが可能であるという長所がある。
【0058】
また、本発明は、病院、保険会社などの機関で使用したフォームパターンと比較して使用することによって、OCRを数字のみの認識として単純化させることができるという長所がある。
【0059】
また、本発明は、標準化されたイメージでなくても、様々な学習データを用いたディープラーニング学習によって認識の正確度を向上させることができる長所がある。
【0060】
また、本発明は、認識対象イメージが傾いた状態で入力されても正確な認識を行うことができる長所がある。
【0061】
また、本発明は、OCRによって認識された情報に対して、信頼点数に基づいて、正常認識された部分と、誤った部分又は不審な部分とを、互いに異なる色相の視覚化情報で提供することによって、検査者による確認作業時間を減少させることができる長所がある。
【0062】
また、本発明は、病院、薬局などで使用する様々なフォーマットの領収書に対して正確な情報の認識が可能である長所がある。
【0063】
また、本発明は、病院、保険会社などの機関で使用する様々なフォーマットの領収書に対して正確で且つ信頼できる使用情報を提供できる長所がある。
【図面の簡単な説明】
【0064】
【
図1】本発明の第1実施例に係るOCRベース文書分析システムの構成を示すブロック図である。
【0065】
【
図2】
図1の実施例に係るOCRベース文書分析システムの文字位置探知を説明するための例示図である。
【0066】
【
図3】
図2による文字位置探知結果を示す例示図である。
【0067】
【
図4】
図1の実施例に係るOCRベース文書分析システムのOCR認識結果を示す例示図である。
【0068】
【
図5】
図1の実施例に係るOCRベース文書分析システムの文字位置探知モデルの結果及びOCRモデルの結果を示す例示図である。
【0069】
【
図6】
図1の実施例に係るOCRベース文書分析システムの連結過程を説明するための例示図である。
【0070】
【
図7】
図1の実施例に係るOCRベース文書分析システムの四角形状連結を示す例示図である。
【0071】
【
図8】
図1の実施例に係るOCRベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。
【
図9】
図1の実施例に係るOCRベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。
【
図10】
図1の実施例に係るOCRベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。
【
図11】
図1の実施例に係るOCRベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。
【
図12】
図1の実施例に係るOCRベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。
【
図13】
図1の実施例に係るOCRベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。
【0072】
【
図14】本発明の一実施例に係るOCRベース文書分析過程を示すフローチャートである。
【0073】
【
図15】
図14の実施例に係る項目マッチング過程を示すフローチャートである。
【0074】
【
図16】
図14の実施例に係る項目マッチング過程を示す他のフローチャートである。
【0075】
【
図17】
図14の実施例に係る項目マッチング過程を示すさらに他のフローチャートである。
【0076】
【
図18】本発明の第2実施例に係るOCRベース文書分析システムの構成を示すブロック図である。
【0077】
【
図19】
図18の実施例に係るOCRベース文書分析システムの項目DB生成を説明するための例示図である。
【0078】
【
図20】
図18の実施例に係るOCRベース文書分析システムの項目DBを示す例示図である。
【0079】
【
図21】
図18の実施例に係るOCRベース文書分析システムの文字位置探知を説明するための例示図である。
【0080】
【
図22】
図21の実施例に係る文字位置探知結果を示す例示図である。
【0081】
【
図23】
図18の実施例に係るOCRベース文書分析システムのNLP過程を示す例示図である。
【0082】
【
図24】
図18の実施例に係るOCRベース文書分析システムのOCR認識結果を示す例示図である。
【0083】
【
図25】
図18の実施例に係るOCRベース文書分析システムの連結による再構成イメージを示す例示図である。
【0084】
【
図26】
図18の実施例に係るOCRベース文書分析システムの客体探知ボックスの連結過程を説明するための例示図である。
【0085】
【
図27】
図18の実施例に係るOCRベース文書分析システムの客体探知ボックスの連結過程を説明するための他の例示図である。
【0086】
【
図28】本発明の第2実施例に係るOCRベース文書分析過程を示すフローチャートである。
【0087】
【
図29】本発明の第3実施例に係るOCRベース文書分析システムを示すブロック図である。
【0088】
【
図30】第3実施例に係る連結過程を説明するための例示図である。
【0089】
【
図31】
図30の実施例に係るOCRベース文書分析システムの再構成イメージを示す例示図である。
【0090】
【
図32】本発明の第3実施例に係るOCRベース文書分析過程を示すフローチャートである。
【0091】
【
図33】本発明の第4実施例に係るOCRベース文書分析システムを示すブロック図である。
【0092】
【
図34】
図33の実施例に係るOCRベース文書分析システムの仮想セル連結過程を説明するための例示図である。
【0093】
【
図35】
図33の実施例に係るOCRベース文書分析システムの仮想セル連結過程を説明するための他の例示図である。
【0094】
【
図36】
図33の実施例に係るOCRベース文書分析システムの位置座標に基づいて仮想セルの連結過程を説明するための例示図である。
【0095】
【
図37】
図33の実施例に係るOCRベース文書分析システムの仮想セルを用いた最終連結状態を示す例示図である。
【0096】
【
図38】
図33の実施例に係るOCRベース文書分析システムを用いてずれた文字連結状態を示す例示図である。
【0097】
【
図39】
図33の実施例に係るOCRベース文書分析システムを用いて曲がった文字連結状態を示す例示図である。
【0098】
【
図40】本発明の第4実施例に係るOCRベース文書分析過程を示すフローチャートである。
【0099】
【
図41】
図40の実施例に係る仮想セルベース項目マッチング過程を示すフローチャートである。
【発明を実施するための形態】
【0100】
以下では本発明の好ましい実施例及び添付の図面を参照して本発明を詳細に説明するが、図中の同一の参照符号は同一の構成要素を指すことを前提にして説明する。
【0101】
本発明の実施のための具体的な内容を説明するに先立ち、本発明の技術的要旨と直接の関連がない構成については、本発明の技術的要旨を乱さない範囲内で省略していることに留意されたい。
【0102】
また、本明細書及び特許請求の範囲に使われる用語又は単語は、発明者が自分の発明を最善の方法で説明するために適切な用語の概念を定義することができるという原則に立ち、発明の技術的思想に符合する意味及び概念と解釈されるべきであろう。
【0103】
本明細書において、あるな部分がある構成要素を「含む」という表現は、他の構成要素を排除する意味ではなく、他の構成要素をさらに含み得るということを意味する。
【0104】
また、「‥部」、「‥器」、「‥モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はこれらの結合によって区別されてよい。
【0105】
また、「少なくとも一つ」という用語は、単数及び複数を含む用語と定義され、「少なくとも一つ」という用語が存在しなくても、各構成要素が単数又は複数で存在してよく、単数又は複数を意味できることは明らかであろう。
【0106】
また、各構成要素が単数又は複数で備えられることは、実施例によって変更可能であろう。
【0107】
以下、添付の図面を参照して、本発明の一実施例に係るOCRベース文書分析システム及び方法の好ましい実施例を詳細に説明する。
【0108】
(第1実施例)
【0109】
図1は、本発明の第1実施例に係るOCRベース文書分析システムの構成を示すブロック図であり、
図2は、
図1の実施例に係るOCRベース文書分析システムの文字位置探知を説明するための例示図であり、
図3は、
図2よる文字位置探知結果を示す例示図であり、
図4は、
図1の実施例に係るOCRベース文書分析システムのOCR認識結果を示す例示図であり、
図5は、
図1の実施例に係るOCRベース文書分析システムの文字位置探知モデルの結果及びOCRモデルの結果を示す例示図であり、
図6は、
図1の実施例に係るOCRベース文書分析システムの連結過程を説明するための例示図であり、
図7は、
図1の実施例に係るOCRベース文書分析システムの四角形状連結を示す例示図である。
【0110】
図1~
図7を参照して説明すると、本発明の第1実施例に係るOCRベース文書分析システムは、客体探知モデルを用いて認識対象イメージから任意の形式(form)、文字及び数字のうち少なくとも一つの客体の位置を探知するが、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置100からなってよい。
【0111】
また、文書分析装置100は、外部から送信される認識対象イメージを受信する入力部110を含んで構成されてよい。
【0112】
入力部110は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。
【0113】
また、文書分析装置100は、入力部110で受信した認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式(form)、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部120を含んで構成されてよい。
【0114】
すなわち、客体探知モデリング部120は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値(座標情報)を生成する。
【0115】
ここで、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0116】
また、客体探知モデルは、領収書の原本イメージに基づいて、
図8のように文書の任意の部分が折れたイメージ、
図9のように文書の位置が任意の角度で傾いたイメージ、
図10のように任意の照度を有する明るさが調節されたイメージ、
図11のように文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、
図12のように文書の任意の部分が屈曲したイメージ、
図13のように数字と連結線が重なったイメージ、などに基づく学習データを用いて学習することができる。
【0117】
このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真解像度などの様々な与件で撮影され得るイメージを勘案して、原本イメージと比較して様々な変化を与えたイメージを事前に学習することによって、実際の環境で受信されるイメージに対する探知率又は認識率を向上させることができる。
【0118】
一方、本発明では、説明の便宜のために、認識対象イメージを、病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。
【0119】
また、客体探知モデルは、自動増強(Auto Augmentation)によって様々な変化を与えたイメージに基づいて探知を行うとき、最適の規則を探すこともできる。
【0120】
また、客体探知モデルは、探知された形式、文字及び数字の客体に対して四角形状のピクセルを設定し、設定されたピクセルの位置値を生成することができる。
【0121】
すなわち、入力された文書イメージ200において任意の探知領域210から探知された、例えば文字の客体211に対して、外部面に四角形状のボックス212で構成されたピクセル位置値を生成し、認識された客体213に対する情報を文字探知結果220で表示することによって、四角形状ベースのパターン認識を可能にする。
【0122】
本実施例では、説明の便宜のために、文字を客体として説明するが、これに限定されず、数字、領収書のフォームを構成する形式(form)を客体として含んでもよいことは、当業者にとって明らかであろう。
【0123】
また、四角形状のボックス212は、好ましくは長方形(rectangular)からなってよい。
【0124】
また、形式の周りに沿って表示された四角形状の構成(又は、配列)パターンに基づいて、後述するフォーム構成モデリング部140が、あらかじめ保存された機関(病院)の領収書構成と比較して、どの機関の領収書であるかを区別することもできる。
【0125】
ここで、形式は、文書テーブルを構成するフォームにおいて一つのセル(Cell)であり、長方形からなってよい。
【0126】
また、文書分析装置100は、客体探知モデリング部120で探知された形式、文字及び数字の客体に対してOCRモデルを用いて文字及び数字を認識するOCRモデリング部130を含んで構成されてよい。
【0127】
ここで、OCRモデリング部130はイメージベースのテキスト文書を自動で感知して認識する構成であり、公知のOCRモデルを用いて構成されてよい。
【0128】
また、OCRモデリング部130は、OCR認識結果300に対して認識された予測情報310と、予測情報310に対する信頼点数320を算出して共に提供することができる。
【0129】
ここで、予測情報310は、認識された客体に含まれる文字及び数字を示しているものであり、信頼点数320は、OCRによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して全体部分から認識された部分の比率を算出した認識率であってよい。
【0130】
また、文書分析装置100は、探知された形式、文字及び数字の客体の位置に基づいて、隣接した形式、全ての文字及び数字の客体の四角形状ピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部140を含んで構成されてよい。
【0131】
すなわち、フォーム構成モデリング部140は、客体探知モデリング部120の探知結果220と、OCRモデリング部130の予測情報310に基づいて認識した予測情報がどの項目であるかマッチさせる。
【0132】
また、フォーム構成モデリング部140は、客体探知モデリング部120の探知結果220と、OCRモデリング部130の予測情報310をマッチするために、隣接した全ての文字及び数字の客体の四角形状ピクセルを連結する。
【0133】
また、一般的な領収書などの会計関連文書は、文字でできた項目が主に上側及び左側に配置されるので、形式の周りに沿って表示した四角形状のピクセルに対する連結のために、開始位置を、任意の数字情報を有する四角形状のピクセルとし、四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動しつつ全ての四角形状のピクセル(位置)を検索する。
【0134】
また、フォーム構成モデリング部140は、開始位置から最も近い左側の四角形状ピクセル及び上側の四角形状ピクセルをまず連結し、その後、隣接した全ての客体を連結することが好ましい。
【0135】
また、フォーム構成モデリング部140は、上述の移動及び検索過程を反復して全ての四角形状ピクセルの検索を行い、左側及び上側にテキスト、例えば、文字情報(項目)が含まれた四角形状ピクセルが出るまで移動、検索を行う。
【0136】
また、フォーム構成モデリング部140は、文字情報が含まれた四角形状ピクセルが出ると、検索された全ての四角形状ピクセルを連結する。
【0137】
すなわち、
図6を参照すると、文書イメージ400において基準客体ボックス410の左側及び上側に移動及び検索を行って次の客体の四角形状ボックスと連結を行い、左側に位置した左側客体ボックス420が文字又は数字であれば、左側連結線440で連結する。
【0138】
また、上側に移動、検索及び連結を行って上側客体四角形状ボックスと連結を行い、上側に位置した上側客体ボックス430が文字情報(項目)又は数字であれば、上側連結線441で連結する。
【0139】
続いて、フォーム構成モデリング部140は、隣接した四角形状ピクセルの連結後に、数字情報から始めて左側及び上側の文字情報(項目)を探すと、前記四角形状のピクセル位置には、認識された文字と数字情報をマッチさせてディスプレイさせる。
【0140】
この時、フォーム構成モデリング部140は、データベース150に保存された特定機関文書のボックス配列情報と比較してマッチするか否かを確認することができる。
【0141】
ここで、特定機関は、病院、薬局、会社など、領収書及び会計関連文書を任意のフォームで発行するあらゆる所を含むことができる。
【0142】
また、
図7は、四角形状ピクセルの連結状態を示す図であり、文書に含まれた四角形状を客体として認識して連結したものである。
【0143】
すなわち、フォーム構成モデリング部140は、客体探知モデルによって探知された形式と前記探知された形式の相対的位置に基づいて生成した四角形状のピクセル位置値と、OCRモデルによって認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動によって検索される全ての四角形状のピクセルを連結する。
【0144】
また、フォーム構成モデリング部140は、連結された四角形状の配列情報を分析し、データベース150に保存された特定機関文書の配列情報と比較する。
【0145】
比較の結果、分析された配列情報が特定機関文書の配列情報とマッチすれば、フォーム構成モデリング部140は、特定機関文書の四角形状ピクセル位置に、OCRモデルで認識された数字情報をマッチさせてディスプレイさせる。
【0146】
また、フォーム構成モデリング部140は、客体探知モデルによって探知された形式と前記探知された形式の相対的位置に基づいて生成した四角形状のピクセル中心点にマーカー520を表示し、OCRモデルによって認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動によって検索される全ての四角形状のピクセルを連結する。
【0147】
また、フォーム構成モデリング部140は、連結された四角形状のピクセル中心点にマーカー520を表示し、各マーカー520の位置情報を分析して、データベース150に保存された特定機関文書の配列情報と比較する。
【0148】
比較の結果、特定機関文書の配列情報がマッチすれば、フォーム構成モデリング部140は、特定機関文書の四角形状ピクセル位置に、OCRモデルで認識された数字情報をマッチさせ、ディスプレイさせる。
【0149】
また、文書分析装置100は、フォーム構成モデリング部140から出力される再構成イメージ、特定機関で使用する文書データのフォーム(又は、形式)などを保存するデータベース150を含んで構成されてよい。
【0150】
次に、本発明の第1実施例に係るOCRベース文書分析方法を説明する。
【0151】
図14は、本発明の第1実施例に係るOCRベース文書分析過程を示すフローチャートであり、
図15は、
図14の実施例に係る項目マッチング過程を示すフローチャートである。
【0152】
図1、
図14及び
図15を参照すると、文書分析装置100は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信(S100)する。
【0153】
文書分析装置100は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体とその位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する文字探知段階を行う(S200)。
【0154】
また、S200段階で、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0155】
また、客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習できる。
【0156】
続いて、文書分析装置100は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、OCRモデルを用いて文字及び数字情報を認識するOCR認識段階(S300)を行う。
【0157】
S300段階を行った後、文書分析装置100は、探知された形式、文字及び数字の客体の四角形状ピクセル位置に基づいて隣接した全ての四角形状ピクセルを連結し、連結された四角形状ピクセルの文字及び数字情報をマッチさせる段階(S400)を行う。
【0158】
S400段階をより詳しく説明すると、文書分析装置100は、生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして文字情報が検索されるまで左側方向及び上側方向に移動(S410)する。
【0159】
この時、開始位置から最も近い左側の四角形状ピクセルと上側の四角形状ピクセルをまず連結し、その後、隣接した全ての四角形状ピクセルを左側方向又は右側方向に移動しつつ、文字情報(項目)が出るまで数字客体を検索する。
【0160】
続いて、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結(S411)する。
【0161】
また、文書分析装置100は、連結された四角形状のピクセル位置に、OCRモデルによって認識された文字と数字情報をマッチさせてディスプレイさせ(S412)、データベース150に保存する。
【0162】
一方、S400段階で、文書分析装置100は、連結された四角形状に対する配列情報を分析することもできる。
【0163】
すなわち、生成された四角形状のピクセル位置値と、認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結(S420)する。
【0164】
S420段階で連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較(S421)する。
【0165】
S421段階での比較により、特定機関文書の配列情報とマッチするか否か判断(S422)し、分析された四角形状の配列情報がマッチすれば、特定機関文書の四角形状ピクセル位置に認識された数字情報をマッチさせてディスプレイする(S423)。
【0166】
一方、S422の判断の結果、マッチする文書の配列情報がないと、S410段階を行うことができる。
【0167】
また、S400段階で、文書分析装置100は、連結された四角形状ピクセルの配列情報をマーカーを用いて分析することもできる。
【0168】
すなわち、文書分析装置100は、生成された四角形状のピクセルの中心点にマーカー520を表示(S430)する。
【0169】
また、文書分析装置100は、認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結(S431)する。
【0170】
また、文書分析装置100は、マーカー520を用いた位置情報に基づいて四角形状ピクセルの構造情報を分析(S432)する。
【0171】
S430段階の分析により、四角形状ピクセルの配列(又は、構造)が、データベース150に保存された特定機関文書の配列情報とマッチする文書があるか否か判断(S433)する。
【0172】
S433段階の判断の結果、マーカーの配列情報と特定機関文書のマーカー配列情報がマッチすれば、特定機関文書の項目を検索(S434)し、検索された項目の位置に、OCRモデルで認識された数字情報をマッチさせてディスプレイさせる(S435)。
【0173】
一方、S433段階の判断の結果、マッチする文書の配列情報がないと、S410段階を行うことができる。
【0174】
したがって、文書上の項目に記載された四角形状、文字及び数字を含むテキストを認識し、認識された四角形状、テキストに対する相対的な位置情報に基づいて項目間の連結関係を分析することによって、認識された数字を該当の項目にマッチさせることができる。
【0175】
また、認識された項目間の連結及び相対的な位置関係に基づいて、文字が配置されたパターンを分析し、特定文書又は領収書などを使用する病院、保険会社などの機関で使用したフォームパターンと比較することによって、迅速で正確なマッチングが可能である。
【0176】
また、病院、保険会社などの機関で使用したフォームパターンと比較して使用することによって、OCRは数字のみの認識として単純化させることができる。
【0177】
(第2実施例)
【0178】
図18は、本発明の第2実施例に係るOCRベース文書分析システムの構成を示すブロック図である。
【0179】
図18を参照すると、本発明の第2実施例に係るOCRベース文書分析システムは、任意の文書からあらかじめ設定された文字に対する項目DB300’情報を生成及び保存し、客体探知モデルを用いて認識対象イメージから文字及び数字の客体と位置を探知し、探知された文字及び数字の客体に対して、OCRモデルを用いて文字及び数字を認識し、認識された文字に対して項目DB300’情報との比較によって、矯正するか否かを決定し、認識された文字が矯正されることにより、前記認識された文字、矯正された文字及び数字が反映された再構成フォームを構成する文書分析装置100’からなってよい。
【0180】
また、文書分析装置100’は、認識対象イメージを受信する入力部110’を含んで構成されてよい。
【0181】
入力部110’は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。
【0182】
また、文書分析装置100’は、認識対象イメージに含まれた文字に対して、任意の文書からあらかじめ設定された文字に対する項目DB(300’、
図20参照)情報を生成する項目DB生成部120’を含んで構成されてよい。
【0183】
項目DB生成部120’は、
図19のように、例えば、病院領収書などの文書200’に固定的に含まれ、請求内訳、診療内訳などの文字で表示された項目210’に対する情報を分析する。
【0184】
また、項目DB生成部120’は、
図19で分析された項目に対して、
図20のような項目DB300’を生成し、データベース160’に保存する。
【0185】
本発明では、説明の便宜のために、認識対象イメージを、病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。
【0186】
また、文書分析装置100’は、入力部110’に受信された認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式(form)、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部130’を含んで構成されてよい。
【0187】
すなわち、客体探知モデリング部130’は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値(座標情報)を生成する。
【0188】
ここで、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0189】
すなわち、領収書の原本イメージに基づいて文書の任意の部分がn等分に折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージなどに基づいて学習データを学習できる。
【0190】
このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真解像度などの様々な与件で撮影され得るイメージを勘案して、原本イメージと比較して様々な変化を与えたイメージを事前に学習することにより、実際環境で受信されるイメージに対する探知率又は認識率を向上させることができる。
【0191】
一方、本発明では、説明の便宜のために、認識対象イメージを、病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。
【0192】
また、客体探知モデルは、自動増強(Auto Augmentation)によって様々な変化を与えたイメージに基づいて探知を行うとき、最適の規則を探すこともできる。
【0193】
また、客体探知モデルは、探知された形式、文字及び数字の客体に対して四角形状のピクセルを設定し、設定されたピクセルの位置値を生成することができる。
【0194】
すなわち、
図21のように、入力された文書イメージ400’において任意の探知領域410’から探知された文字の客体411’に対して外部の周りに沿って四角形状のボックスで表示する。
【0195】
また、客体探知モデルは、認識された客体に対する情報を、
図22のように、客体探知結果420’で表示することによって、四角形状ベースのパターン認識も可能である。
【0196】
本実施例では、説明の便宜のために文字の客体を説明するが、これに限定されず、数字、領収書のフォームを構成する形式(form)を客体として含んでもよいことは、当業者にとって明らかであろう。
【0197】
また、形式の周りに沿って表示された四角形状の構成(又は、配列)パターンに基づいて、後述するフォーム構成モデリング部150が、あらかじめ保存された機関(病院)の領収書構成と比較してどの機関の領収書であるかを区別することもできる。
【0198】
ここで、形式は、文書テーブルを構成するフォームにおいて一つのセル(Cell)であり、長方形からなってよい。
【0199】
また、文書分析装置100’は、客体探知モデリング部130で探知された形式、文字及び数字の客体に対してOCRモデルを用いて文字及び数字を認識するOCRモデリング部140’を含んで構成されてよい。
【0200】
ここで、OCRモデリング部140’は、イメージベースのテキスト文書を自動で感知して認識する構成であり、公知のOCRモデルを用いて構成されてよい。
【0201】
また、OCRモデリング部140’は、OCRモデルを用いたOCR認識結果に対して認識された予測情報と、予測情報に対して後述のフォーム構成モデリング部で算出された信頼点数に基づく信頼点数を共に提供できる。
【0202】
ここで、予測情報は、認識された客体に含まれる文字及び数字を示すものであり、信頼点数は、OCRによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して、全体部分において認識された部分の比率を算出した認識率であってよい。
【0203】
また、文書分析装置100’は、認識された文字情報を項目DB300’と比較し、認識された文字を項目DB300’の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部150’を含んで構成されてよい。
【0204】
フォーム構成モデリング部150’は、認識対象イメージから認識される文字情報と比較するために、任意の文書、例えば、病院領収書、薬局領収書、取引明細書、税金計算書などで用いられる文字(項目)情報を定義した項目DB300’を生成することができる。
【0205】
また、フォーム構成モデリング部150’は、
図23のように、認識された文字の客体411’に対する自然語処理(Natural Language Processing,NLP)により、認識された文字に対して形態素又は分節音別にNLP客体411a’を分析し、分析された結果と項目DB300’情報との比較に基づいて、認識された文字に対する信頼点数を算出して出力する。
【0206】
例えば、認識された文字が「MRI診断-」である場合に、項目DB300’に保存された項目に対する情報を検索した後、検索された項目に対応する項目DB300’情報との比較によって信頼点数を算出する。
【0207】
すなわち、フォーム構成モデリング部150’は、病院領収書に新しい項目が認識されたりOCRの失敗によって誤脱字、未認識字などが発生しても、NLPを用いて状況に合わせて処理可能にする。
【0208】
また、フォーム構成モデリング部150’で算出された文字に対する信頼点数は、
図24のように、OCR認識結果420’に認識された予測情報421’と、フォーム構成モデリング部150’で予測情報421’に対して算出された信頼点数422’を提供することもできる。
【0209】
信頼点数422’が一定値以上であれば、使用者にとって、認識がよくなされたと判断でき、信頼点数422’が一定値以下であれば、使用者にとって、認識された結果に対して誤って認識されたと判断できる。
【0210】
また、フォーム構成モデリング部150’は、認識された四角形状ピクセルの位置に基づいて、任意の開始位置で左側方向及び上側方向に隣接した全ての文字及び数字の四角形状ピクセルを連結し、
図25のように、再構成されたフォーム500’を生成する。
【0211】
一方、フォーム構成モデリング部150’は、数字客体のボックスサイズに対して、横長及び縦長が、隣接した他のボックスの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにする。
【0212】
図26を参照してより詳しく説明すると、数字として認識された開始客体ボックス600を基準に、開始客体ボックス600の横方向サイズ700及び縦方向サイズ710を、左側客体ボックス610と上側客体ボックス620の横方向サイズ700a及び縦方向サイズ710aと比較して同一であるか、又は左側客体ボックス610と上側客体ボックス620の横方向サイズ及び縦方向サイズに含まれると、左側連結線800及び上側連結線810で連結して表示させることができる。
【0213】
本実施例では、説明の便宜のために、開始位置を、中央部分に位置した数字客体を開始客体ボックス600として説明したが、開始客体ボックス600の右側に位置した右側客体ボックス600a、開始客体ボックス600の下側に位置した下側客体ボックス630を開始位置として設定してもよく、例えば、右側客体ボックス600aを開始位置として設定すれば、「公団負担金」が認識された文字の客体が、上側客体ボックス620aになり得る。
【0214】
また、フォーム構成モデリング部150’は、上記の過程を反復して、最も近い左側及び上側のみを連結し、連結後に、数字から始めて左側及び上側にテキスト、例えば、文字の客体(項目)が出るまで移動及び検索して連結する。
【0215】
また、フォーム構成モデリング部150’は、再構成フォームの項目が矯正された文字、すなわち項目DB300’から選択された文字のみで構成されると、OCRモデリング部140’のOCRモデルによって認識された数字のみを認識し、認識された数字と項目をマッチさせることもできる。
【0216】
また、文書分析装置100’は、フォーム構成モデリング部150’で再構成フォームと、再構成されたフォームからなる再構成イメージと、特定機関で使用する文書データのフォームと項目DBを保存するデータベース160’を含んで構成されてよい。
【0217】
ここで、特定機関は、病院、薬局、会社など、領収書及び会計関連文書を任意のフォームで発行する全ての所を含むことができる。
【0218】
また、フォーム構成モデリング部150’は、
図27のように、傾いた状態のイメージが入力された場合に、傾いた状態で左側に移動し続くと他のラインの項目と連結されることがあるので、空欄感知モデルを用いて四角形状ピクセルに情報があるか否かを確認することができる。
【0219】
すなわち、フォーム構成モデリング部150’は、任意の数字情報を含む第1四角形状ピクセル910から左側方向に移動し、この時、第2四角形状ピクセル920が空欄であれば、四角形状ピクセル間に連結がなされるようにし、四角形状ピクセル間に誤って連結されることを防止可能にする。
【0220】
次に、本発明の第2実施例に係るOCRベース文書分析方法を説明する。
【0221】
図28は、本発明の第2実施例に係るOCRベース文書分析過程を示すフローチャートである。
【0222】
図18~
図28を参照すると、文書分析装置100’は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信(S100’)する。
【0223】
また、文書分析装置100’は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体とその位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知段階を行う(S200’)。
【0224】
また、S200’段階で、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0225】
また、客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習できる。
【0226】
続いて、文書分析装置100’は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、OCRモデルを用いて文字及び数字情報を認識するOCR認識段階(S300’)を行う。
【0227】
S300’段階を行った後、文書分析装置100’は、任意の文書から固定化されているテキスト情報、すなわち、項目に対する文字情報を項目DB300情報として生成し、生成された項目DB300’情報はデータベース160’に保存(S400’)する。
【0228】
前記認識された文字情報を項目DB300’と比較(S500’)し、認識された文字を項目DB300’の文字情報に矯正するに当たって矯正するか否かを決定するための誤脱字又は未認識字の有無を判断(S600’)する。
【0229】
S600’段階の判断の結果、誤脱字又は未認識字があれば、文書分析装置100’は、NLPベースの矯正を行う(S700’)。
【0230】
すなわち、S700’段階で、文書分析装置100’は自然語処理(Natural Language Processing,NLP)により、探知された文字に対して分析する。
【0231】
また、S700’段階で、文書分析装置100’は、分析された文字と項目DB300’情報との比較に基づいて分析された文字に対する信頼点数を算出して出力することもできる。
【0232】
続いて、文書分析装置100’は、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報がマッチ(S800’)させる。
【0233】
すなわち、文書分析装置100’は、開始位置を数字客体にして開始位置の左側方向及び上側方向に移動及び連結する。
【0234】
この時、開始位置から最も近い左側及び上側のみをまず連結し、その後、隣接した全ての客体を連結し、文字の客体(項目)が出るまで数字客体を検索しつつ移動する。
【0235】
また、文字の客体を含む項目検索が完了すると、文書分析装置100’は、認識された文字及び矯正された文字と数字を項目別に対応してマッチさせる。
【0236】
また、文書分析装置100’は、認識された文字及び矯正された文字を反映して再構成されたフォームに基づいて再構成イメージの最終結果を出力(S900’)し、再構成されたフォームと再構成イメージはデータベース150’に保存する。
【0237】
したがって、文書上の項目に記載された文字及び数字を含むテキストを認識し、認識されたテキストに対する相対的な位置情報に基づいて、文書に固定化されている文字を含む項目間のマッチングによって迅速度を増加させることができる。
【0238】
また、病院、保険会社などの機関で使用した固定化された用語と比較して使用することによって、OCRは数字のみの認識として単純化させることができる。
【0239】
また、標準化されたイメージでなくても、様々な学習データを用いたディープラーニング学習によって認識の正確度を向上させることができ、病院、薬局などで使用する様々なフォーマットの領収書に対して正確な情報の認識が可能であり、新しい項目に対する認識と予測値の正確度を提供することによって、信頼度を向上させることができる。
【0240】
(第3実施例)
【0241】
図29は、本発明の第3実施例に係るOCRベース文書分析システムを示すブロック図である。
【0242】
図29を参照すると、本発明の第3実施例に係るOCRベース文書分析システムは、客体探知モデルを用いて認識対象イメージにおいて任意の形式(form)、文字及び数字のうち少なくとも一つの客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を認識し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置100”を含んで構成されてよい。
【0243】
また、文書分析装置100”は、認識率によって、認識された文字及び数字の信頼点数を算出し、算出された信頼点数をディスプレイに反映して視覚的に表示されるようにすることができる。
【0244】
また、文書分析装置100”は、再構成フォームが信頼点数によって、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが、互いに異なる色相の視覚化情報で表示されるようにすることができる。
【0245】
また、文書分析装置100”は、信頼点数が、補正モデルを用いてフォーム、形状、位置のうち少なくとも一つの補正を行うことによって算出される再建率がさらに反映されるようにすることができる。
【0246】
このために、文書分析装置100”は、認識対象イメージを受信する入力部110”を含んで構成されてよい。
【0247】
入力部110”は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。
【0248】
また、文書分析装置100”は、認識対象イメージに含まれた文字に対して、任意の文書からあらかじめ設定された文字に対する項目DB(300’、
図20参照)情報を生成する項目DB生成部120”を含んで構成されてよい。
【0249】
項目DB生成部120”は、
図19のように、例えば病院領収書などの文書200’に固定的に含まれ、請求内訳、診療内訳などの文字で表示された項目210’に対する情報を分析する。
【0250】
また、項目DB生成部120”は、
図19で分析された項目に対して
図20のような項目DB300’を生成し、データベース170”に保存する。
【0251】
本発明では、説明の便宜のために、認識対象イメージを、病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。
【0252】
また、文書分析装置100”は、入力部110”に受信された認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式(form)、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部130”を含んで構成されてよい。
【0253】
すなわち、客体探知モデリング部130”は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値(座標情報)を生成する。
【0254】
ここで、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0255】
すなわち、領収書の原本イメージに基づいて文書の任意の部分がn等分に折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージなどに基づいて学習データを学習できる。
【0256】
このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真解像度などの様々な与件で撮影され得るイメージを勘案し、原本イメージと比較して様々な変化を与えたイメージを事前に学習することによって、実際環境で受信されるイメージに対する探知率又は認識率を向上させることができる。
【0257】
一方、本発明では、説明の便宜のために、認識対象イメージを、病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。
【0258】
また、客体探知モデルは、自動増強(Auto Augmentation)によって様々な変化を与えたイメージに基づいて探知を行うとき、最適の規則を探すこともできる。
【0259】
また、客体探知モデルは、探知された形式、文字及び数字の客体に対して四角形状のピクセルを設定し、設定されたピクセルの位置値を生成することができる。
【0260】
すなわち、
図21のように、入力された文書イメージ400’において任意の探知領域410’から探知された文字の客体411’に対して外部の周りに沿って四角形状のボックスで表示する。
【0261】
また、客体探知モデルは、認識された客体に対する情報を、
図22のように客体探知結果420’で表示することによって、四角形状ベースのパターン認識も可能である。
【0262】
本実施例では説明の便宜のために文字を客体として説明するが、これに限定されず、数字、領収書のフォームを構成する形式(form)を客体として含んでもよいことは、当業者にとって明らかであろう。
【0263】
また、形式の周りに沿って表示された四角形状の構成(又は、配列)パターンに基づいて、後述するフォーム構成モデリング部150”があらかじめ保存された機関(病院)の領収書構成と比較してどの機関の領収書であるかを区別することもできる。
【0264】
ここで、形式は、文書テーブルを構成するフォームにおいて一つのセル(Cell)であり、長方形からなってよい。
【0265】
また、文書分析装置100”は、客体探知モデリング部130”で探知された形式、文字及び数字の客体に対してOCRモデルを用いて文字及び数字を認識するOCRモデリング部140”を含んで構成されてよい。
【0266】
ここで、OCRモデリング部140”は、イメージベースのテキスト文書を自動で感知して認識する構成であり、公知のOCRモデルを用いて構成されてよい。
【0267】
また、OCRモデリング部140”は、OCRモデルによって
図24のように認識されたOCR認識結果430’に対して認識された予測情報431’と、予測情報431’に対して後述のフォーム構成モデリング部で算出された信頼点数432’に基づく信頼点数を共に提供できる。
【0268】
ここで、予測情報431’は、認識された客体に含まれる文字及び数字を示すものであり、信頼点数432’は、OCRによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して、全体部分において認識された部分の比率を算出した認識率であってよい。
【0269】
また、文書分析装置100”は、認識された文字情報を項目DB300’と比較し、認識された文字を項目DB300”の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部150”を含んで構成されてよい。
【0270】
フォーム構成モデリング部150”は、認識対象イメージから認識される文字情報と比較するために、任意の文書、例えば、病院領収書、薬局領収書、取引明細書、税金計算書などで用いられる文字(項目)情報を定義した項目DB300’を生成することができる。
【0271】
また、フォーム構成モデリング部150”は、
図23のように、認識された文字の客体411’に対する自然語処理(Natural Language Processing,NLP)により、探知された文字に対して形態素又は分節音別にNLP客体411a’を分析し、分析された結果と項目DB300’情報との比較に基づいて認識された文字に対する信頼点数を算出することができる。
【0272】
例えば、認識された文字が「MRI診断-」である場合に、項目DB300’に保存された項目に対する情報を検索した後、検索された項目に対応する項目DB300’情報との比較によって信頼点数を算出する。
【0273】
すなわち、フォーム構成モデリング部150”は、病院領収書に新しい項目が認識されたりOCRの失敗によって誤脱字、未認識字などが発生しても、NLPを用いて状況に合わせて処理可能にする。
【0274】
また、フォーム構成モデリング部150”で算出された文字に対する信頼点数は、
図24のように、OCR認識結果430’に認識された予測情報431’と、フォーム構成モデリング部150”で予測情報431’に対して算出された信頼点数432’を提供できる。
【0275】
また、フォーム構成モデリング部150”は、探知された文字及び客体の位置に基づいて任意の開始位置で左側方向及び上側方向に隣接した全ての文字及び数字の客体位置を連結して再構成されたフォームを生成する。
【0276】
一方、フォーム構成モデリング部150”は、新しい項目が認識された場合に、数字客体のボックスサイズに対して、横長及び縦長が、隣接した他のボックスの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにする。
【0277】
図25を参照してより詳しく説明すると、数字として認識された開始客体ボックス600を基準に、開始客体ボックス600の横方向サイズ600及び縦方向サイズ710を、左側客体ボックス610と上側客体ボックス620の横方向サイズ700a及び縦方向サイズ710aと比較し、同一であるか又は左側客体ボックス610と上側客体ボックス620の横方向サイズ及び縦方向サイズに含まれると、左側連結線800及び上側連結線810で連結して表示する。
【0278】
本実施例では説明の便宜のために、開始位置を、中央部分に位置した数字客体を開始客体ボックス600として説明したが、開始客体ボックス600の右側に位置した右側客体ボックス600a、開始客体ボックス600の下側に位置した下側客体ボックスを開始位置として設定することもできる。
【0279】
例えば、右側客体ボックス600aを開始位置として設定すれば、「公団負担金」が認識(又は、探知)された文字の客体は上側客体ボックス620aになり得る。
【0280】
また、フォーム構成モデリング部150”は、上記の過程を反復して最も近い左側及び上側のみを連結し、連結後に、数字から始めて左側及び上側にテキスト、例えば、文字の客体(項目)が出るまで移動及び検索を行って連結する。
【0281】
すなわち、
図30に示すように、文書イメージ900’において基準客体ボックス910’の左側及び上側に移動及び検索を行って次の客体と連結するとき、左側に位置した左側客体ボックス920’が文字であれば、左側連結線940’で連結する。
【0282】
また、上側に移動及び検索により、上側客体ボックス930’が文字の客体(項目)であれば、上側連結線941’で続けて連結する。
【0283】
また、フォーム構成モデリング部150”は、再構成フォームの項目が矯正された文字、すなわち、項目DB300’から選択された文字のみで構成されると、誤脱字又は未認識された文字がないと判断し、OCRモデリング部140”のOCRモデルによって認識された数字のみを認識し、認識された数字と項目をマッチさせることもできる。
【0284】
前記フォーム構成モデリング部150”は、探知された文字の客体に対して項目DB300’情報とマッチさせ、マッチング結果によって認識された文字が矯正されると、矯正された文字を反映させる。
【0285】
また、フォーム構成モデリング部150”は、長方形認識によって文字の客体及び数字の客体を探すだけでなく、文書イメージが傾いた状態のイメージである場合に、頂点による再建によって水平状態の文書イメージに補正することもできる。
【0286】
また、フォーム構成モデリング部150”は、撮影角度によって文書イメージが台形のイメージである場合に、台形補正による再建によって四角形状の文書イメージに変換することもできる。
【0287】
また、フォーム構成モデリング部150”は、文書イメージがしわが寄ったり折れたりした部分を含んで撮影された場合に、形状又はフォームを補正するためのプログラムを用いて四角形状の文書イメージに変換することもできる。
【0288】
一方、フォーム構成モデリング部150”が認識正確度の向上のための補正を行って長方形状の充実な再建とそれに基づく正確な認識がなされるように動作するが、それによる補正及び再建に伴って誤りの発生可能性も増加し得る。
【0289】
そのために、文書分析装置100”は、補正モデルを用いて補正及び再建による判断誤りの危険性情報、例えば、補正及び再建類型と個数などを数値化させた情報と、認識された文字及び数字の信頼度に基づいて信頼点数を算出し、算出された信頼点数に基づいて使用者が確認できるように、フォーム構成モデリング部150”でディスプレイに反映して視覚的に表示されるようにする信頼度評価部160”を含んで構成されてよい。
【0290】
すなわち、信頼度評価部160”は、補正及び再建による判断誤りの危険性情報、例えば、補正及び再建の類型と個数などを数値化させた信頼点数をフォーム構成モデリング部150”に提供する。
【0291】
フォーム構成モデリング部150”は、文字及び数字の四角形状ボックスの色相を、正常客体領域と、誤った客体領域及び補正領域を含む誤り発生客体領域が互いに異なるように表示する。
【0292】
すなわち、フォーム構成モデリング部150”は、信頼度評価部160”で提供される信頼点数に基づいて、
図31のように、信頼点数があらかじめ設定された基準値以上である客体領域は、再構成イメージ900”において青色で表示し、正常客体領域910”,911”を確認可能に表示する。
【0293】
また、フォーム構成モデリング部150”は、信頼度評価部160”で提供された信頼点数が基準値以下である客体領域は、再構成イメージ900”において任意の色相(例えば、赤色)で表示し、誤り発生客体領域920”,921”,922”,923”,924”を確認可能に表示する。
【0294】
このようなフォーム構成モデリング部150”の互いに異なる色相表示により、使用者にとって迅速で正確な確認が可能である。
【0295】
また、文書分析装置100”は、前記生成された四角形状のピクセル位置値、認識された文字、数字情報、信頼情報と、特定機関で使用する文書データのフォームを保存するデータベース170”を含んで構成されてよい。
【0296】
ここで、特定機関は、病院、薬局、会社など、領収書及び会計関連文書を任意のフォームで発行する全ての所を含むことができる。
【0297】
次に、本発明の第3実施例に係るOCRベース文書分析方法を説明する。
【0298】
図32は、本発明の第3実施例に係るOCRベース文書分析過程を示すフローチャートである。
【0299】
図29及び
図32を参照すると、文書分析装置100”は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信(S100”)する。
【0300】
また、文書分析装置100”は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて文字及び数字の客体と位置を探知し、探知された文字及び数字の客体に四角形状のボックスを形成する客体探知段階を行う(S200”)。
【0301】
また、S200段階で、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0302】
また、客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習できる。
【0303】
続いて、文書分析装置100”は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、OCRモデルを用いて文字及び数字情報を認識するOCR認識段階(S300”)を行う。
【0304】
S300”段階を行った後、文書分析装置100”は、任意の文書から固定化されているテキスト情報、すなわち、項目に対する文字情報を項目DB300’情報として生成し、生成された項目DB(300’、
図20参照)情報はデータベース170”に保存(S400”)する。
【0305】
前記認識された文字情報を項目DB300’と比較し、認識された文字を項目DB300’の文字情報に矯正するに当たって矯正するか否かを決定するための誤脱字又は未認識字の有無を判断し、文書分析装置100はNLPベースの矯正を行う(S500”)。
【0306】
すなわち、S500”段階で、文書分析装置100”は、自然語処理(Natural Language Processing,NLP)により、探知された文字に対して分析する。
【0307】
また、S500”段階で、文書分析装置100”は、分析された文字と項目DB300’情報との比較に基づいて、分析された文字に対する信頼点数を算出し、出力することができる。
【0308】
続いて、文書分析装置100”は、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、連結された四角形状のピクセル位置に、前記OCRモデルによって矯正された文字及び数字情報をマッチ(S600”)させる。
【0309】
すなわち、文書分析装置100”は、開始位置を数字客体にして開始位置の左側方向及び上側方向に移動及び連結する。
【0310】
この時、開始位置から最も近い左側及び上側のみをまず連結し、その後、隣接した全ての客体を連結し、文字の客体(項目)が出るまで数字客体を検索しつつ移動する。
【0311】
また、文字の客体を含む項目検索が完了すると、文書分析装置100”は、認識された文字及び矯正された文字と数字を項目別に対応してマッチさせる。
【0312】
また、文書分析装置100”は、認識正確度の向上のための補正を行って長方形状の充実な再建とこれに基づく正確な認識がなされるように処理された補正及び再建類型と個数などを数値化させた情報と、認識された文字及び数字の信頼度に基づいて信頼点数を算出し、算出された信頼点数に基づいて使用者が確認できるようにディスプレイに反映して視覚的に表示(S700”)されるようにする。
【0313】
また、S700”段階で、文書分析装置100”は、文書イメージが傾いた状態であれば、頂点による再建によって水平状態の文書イメージに補正し、文書イメージが台形のイメージであれば、台形補正による再建によって四角形状の文書イメージに変換することもできる。
【0314】
また、文書イメージがしわが寄ったり又は折れた部分を含むと、形状又はフォームを補正するためのプログラムを用いて四角形状の文書イメージに変換することにより、フォーム、形状、位置のうち少なくとも一つの補正による再建率と、信頼点数を算出できる。
【0315】
また、S700”段階で、文書分析装置100”は、信頼点数によって、文字及び数字の四角形状ボックスの色相を、正常客体領域と、誤った客体領域及び補正領域を含む誤り発生客体領域が互いに異なるように表示させる。
【0316】
すなわち、
図31のように、信頼点数があらかじめ設定された基準値以上である客体領域は、例えば再構成イメージ900”において、青色で表示し、正常客体領域910”,911”を確認可能に表示し、信頼点数が基準値以下である客体領域は、例えば再構成イメージ900”において、赤色で表示し、誤り発生客体領域920”,921”,922”,923”,924”を確認可能に表示する。
【0317】
このようなフォーム構成モデリング部150”の互いに異なる色相表示により、使用者にとって迅速で正確な確認が可能になる。
【0318】
また、認識された文字、矯正された文字、補正及び再建によって再構成されたフォームを再構成イメージに変換して最終結果を出力(S800”)し、データベース170”に保存する。
【0319】
(第4実施例)
【0320】
図33は、本発明の第4実施例に係るOCRベース文書分析システムを示すブロック図である。
【0321】
図33を参照して説明すると、本発明の第4実施例に係るOCRベース文書分析システムは、客体探知モデルを用いて認識対象イメージにおいて任意の形式(form)、文字及び数字のうち少なくとも一つの客体位置を探知するが、前記探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して文字及び数字の客体のピクセル位置値を生成し、OCRモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記OCRモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置100”’を含んで構成される。
【0322】
また、文書分析装置100”’は、生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、区分された左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を生成して配置できる。
【0323】
また、文書分析装置100”’は、配置された仮想セル客体と数字客体をマッチさせて行/列(row/column)情報に基づいて連結し、OCRモデルによって認識された文字及び数字情報がディスプレイされるように構成されてよい。
【0324】
また、文書分析装置100”’は、外部から送信される認識対象イメージを受信する入力部110”’を含んで構成されてよい。
【0325】
入力部110”’は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。
【0326】
また、文書分析装置100”’は、入力部110”’に受信された認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式(form)、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部120”’を含んで構成されてよい。
【0327】
すなわち、客体探知モデリング部120”’は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値(座標情報)を生成する。
【0328】
ここで、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0329】
また、客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づく学習データを用いて学習できる。
【0330】
このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真解像度などの様々な与件で撮影され得るイメージを勘案し、原本イメージと比較して様々な変化を与えたイメージを事前に学習することによって、実際環境で受信されるイメージに対する探知率又は認識率を向上させることができる。
【0331】
一方、本発明では、説明の便宜のために、認識対象イメージを病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。
【0332】
また、客体探知モデルは自動増強(Auto Augmentation)によって様々な変化を与えたイメージに基づいて探知を行うとき、最適の規則を探すこともできる。
【0333】
また、客体探知モデルは、探知された形式、文字及び数字の客体に対して四角形状のピクセルを設定し、設定されたピクセルの位置値を生成することができる。
【0334】
すなわち、入力された文書イメージ(200、
図2参照)において任意の探知領域(210、
図2参照)から探知された、例えば文字の客体211に対して、外部面に四角形状のボックス(212、
図2参照)で構成されたピクセル位置値を生成し、認識された客体(213、
図2参照)に対する情報を文字探知結果(220、
図3参照)で表示することによって、四角形状ベースのパターン認識を可能にする。
【0335】
本実施例では説明の便宜のために文字を客体として説明するが、これに限定されず、数字、領収書のフォームを構成する形式(form)を客体として含んでもよいことは、当業者にとって明らかであろう。
【0336】
また、四角形状のボックス(212、
図2参照)は、好ましくは長方形(rectangular)からなってよい。
【0337】
また、形式の周りに沿って表示された四角形状の構成(又は、配列)パターンに基づいて、あらかじめ保存された機関(病院)の領収書構成と比較してどの機関の領収書であるかを区別することもできる。
【0338】
ここで、形式は、文書テーブルを構成するフォームにおいて一つのセル(Cell)であり、長方形からなってよい。
【0339】
また、文書分析装置100”’は、客体探知モデリング部120”’で探知された形式、文字及び数字の客体に対してOCRモデルを用いて文字及び数字を認識するOCRモデリング部130”’を含んで構成されてよい。
【0340】
ここで、OCRモデリング部130”’は、イメージベースのテキスト文書を自動で感知して認識する構成であり、公知のOCRモデルを用いて構成されてよい。
【0341】
また、OCRモデリング部130”’は、OCR認識結果(300、
図4参照)に対して認識された予測情報(310、
図4参照)と、予測情報310に対する信頼点数(320、
図2参照)を算出して共に提供できる。
【0342】
ここで、予測情報310は、認識された客体に含まれる文字及び数字を示すものであり、信頼点数320は、OCRによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して、全体部分において認識された部分の比率を算出した認識率であってよい。
【0343】
また、文書分析装置100”’は、生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域とに区分するが、前記左側ヘッダー領域と上側ヘッダー領域を基準にM×Nサイズの仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行/列情報に基づいて連結し、前記OCRモデルによって認識された文字及び数字情報がディスプレイされるようにする仮想セルフォーム構成モデリング部140”’を含んで構成されてよい。
【0344】
すなわち、仮想セルフォーム構成モデリング部140”’は、客体探知モデリング部120”’の探知結果とOCRモデリング部130”’の予測情報に基づいて、認識した予測情報がどの項目であるかマッチさせる。
【0345】
また、仮想セルフォーム構成モデリング部140”’は、客体探知モデリング部120”’の探知結果220と、OCRモデリング部130”’の予測情報310をマッチさせるために、隣接した全ての文字及び数字の客体の四角形状ピクセルを連結する。
【0346】
また、一般的な領収書などの会計関連文書は、文字でできた項目が主に文書の左側と上側に配置される。
【0347】
すなわち、
図34に示すように、文書イメージ400”’上の左側領域には複数の左側客体410”’が探知され、文書イメージ400”’上の上側領域には複数の上側客体420”’が探知され、個別左側客体410”’及び上側客体420”’と連動して数字客体430”’が探知される。
【0348】
数字客体430”’は、当該数字客体430”’に対応する左側客体410”’と上側客体420”’によって当該数字客体430”’が有する属性(attribute)が定義される。
【0349】
しかし、数字客体430”’を隣接した客体と連結するとき、入力された文書イメージに含まれた数字客体が水平方向ではなく傾いた状態で配置されていると、左側方向に配置された文字の客体と連結する過程で水平方向ではなく傾いた方向の延長線に配置された他の文字の客体と連結されることがある。
【0350】
本発明の一実施例に係る仮想セルフォーム構成モデリング部140”’は、仮想セル客体を生成して文字の客体及び数字の客体を連結させる。
【0351】
そのために、仮想セルフォーム構成モデリング部140”’は、客体探知モデリング部120”’で抽出された文字の客体の位置座標に基づいて、文書イメージ400”’上で、
図35のように、左側ヘッダー領域500”’と上側ヘッダー領域510”’とに分離して区分する。
【0352】
また、仮想セルフォーム構成モデリング部140”’は、区分された左側ヘッダー領域500”’に含まれた文字の客体、すなわち、図面上で左側ヘッダー領域500”’の垂直下側方向に配置された複数の左側ヘッダー客体501”’と、上側ヘッダー領域510”’に含まれた文字の客体、すなわち、図面上で上側ヘッダー領域510”’の水平右側方向に配置された上側ヘッダー客体511”’,512”’別に四角形状ピクセルの位置座標値を抽出する。
【0353】
また、仮想セルフォーム構成モデリング部140”’は、文字の客体の左側ヘッダー領域500”’と上側ヘッダー領域510”’に含まれた文字の客体間の間隔及びサイズ、すなわち、左側ヘッダー客体501”’、上側ヘッダー客体511”’、上側ヘッダー客体512”’間の間隔及びサイズを算出し、区分された左側ヘッダー領域500”’と上側ヘッダー領域510”’を基準に複数の仮想セルグループ530”’,530a”’が行/列情報によって配置される。
【0354】
すなわち、仮想セルグループ530”’,530a”’に含まれた複数の仮想セル客体531”’,532”’が、左側ヘッダー領域500”’と上側ヘッダー領域510”’の行/列情報によって配置される。
【0355】
ここで、配置される仮想セル客体531”’,532”’の個数は、左側ヘッダー領域500”’と上側ヘッダー領域510”’から探知された左側ヘッダー客体501”’と上側ヘッダー客体511”’の個数であるM×N個だけ形成される。
【0356】
また、仮想セルフォーム構成モデリング部140”’は、数字客体領域520”’と仮想セルグループ530”’,530a”’をマッチさせるが、左側上端に配置された仮想セル客体531”’と数字客体521”’をまずマッチさせる。
【0357】
このとき、左側ヘッダー及び上側ヘッダーの情報と最も密接に関連した情報は左側上端であるから、最も正確度の高い左側上端の仮想セル客体531”’と数字客体521”’をまずマッチさせる。
【0358】
また、仮想セルフォーム構成モデリング部140”’は、
図36のように、左側上端に配置された仮想セル客体531”’と数字客体521”’をマッチさせると、マッチした数字客体521”’と仮想セル客体531”’間の勾配を算出する。
【0359】
すなわち、仮想セルフォーム構成モデリング部140”’は、文書イメージに含まれた数字客体521”’が水平方向ではなく傾いた状態で配置された場合にマッチし誤ることを防止するために、文書イメージ上に設定された基準座標系において、座標系内の当該ベクトルの勾配を算出し、算出された勾配に基づいてイメージの全体的な勾配を算出する。
【0360】
また、仮想セルフォーム構成モデリング部140”’は、イメージの全体的な勾配が反映されるように、左側上端でマッチした数字客体521”’と仮想セル客体531”’間の勾配情報を、右側下端に配置された仮想セル客体と数字客体n523”’のマッチングまで反映されるようにする。
【0361】
また、仮想セルフォーム構成モデリング部140”’は、仮想セル客体を左側、上端、下端の客体と勾配ライン540”’及び上側ヘッダーライン541”’で連結するが、左側ヘッダー客体501”’、上側ヘッダー客体511”’、上側ヘッダー客体1512”’などから算出した客体間の間隔及びサイズに基づいて、IoU(Intersection over Union)があらかじめ設定された基準値以上であれば、連結されるようにする。
【0362】
また、仮想セルフォーム構成モデリング部140”’は、仮想セル客体を用いた連結が完了すると、
図37のように、仮想セル客体を除去し、最終連結イメージ600”’を生成して出力する。
【0363】
このとき、仮想セルフォーム構成モデリング部140”’は、最終連結イメージ600”’をデータベース(150”’)に保存された特定機関文書のボックス配列情報と比較してマッチするか否か確認することができる。
【0364】
ここで、特定機関は、病院、薬局、会社など、領収書及び会計関連文書を任意のフォームで発行する全ての所を含むことができる。
【0365】
また、仮想セルフォーム構成モデリング部140”’は、
図38のように、数字客体730”’がずれた文字イメージ700”’が入力されても、左側ヘッダー客体710”’と、上側ヘッダー客体720”’に基づいて仮想セル客体を生成した後、例えば、下端にずれた数字客体730”’を仮想セル客体とマッチさせ、勾配に基づく連結によって文字の客体と数字客体の正確な連結がなされるようにする。
【0366】
また、仮想セルフォーム構成モデリング部140”’は、
図39のように、図面上、片方に曲がった(又は、傾いた)文字イメージ800が入力されても、左側ヘッダー客体810”’と、上側ヘッダー客体820”’に基づいて仮想セル客体を生成した後、数字客体830”’を仮想セル客体とマッチさせ、勾配に基づく連結によって文字の客体と数字客体の正確な連結がなされるようにする。
【0367】
また、文書分析装置100”’は、仮想セルフォーム構成モデリング部140から出力される再構成イメージ、特定機関で使用する文書データのフォーム(又は、形式)、生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果などを保存するデータベース150を含んで構成されてよい。
【0368】
次に、本発明の第4実施例に係るOCRベース文書分析方法を説明する。
【0369】
図40は、本発明の第4実施例に係るOCRベース文書分析過程を示すフローチャートであり、
図41は、
図40の実施例に係る仮想セルベース項目マッチング過程を示すフローチャートである。
【0370】
図33、
図40及び
図41を参照すると、文書分析装置100”’は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信(S100”’)する。
【0371】
文書分析装置100”’は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体とその位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する文字探知段階を行う(S200”’)。
【0372】
また、S200段階で、客体探知モデルは、PSENet(Progressive Scale Expansion Network)ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。
【0373】
また、客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習できる。
【0374】
続いて、文書分析装置100”’は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、OCRモデルを用いて文字及び数字情報を認識するOCR認識段階(S300”’)を行う。
【0375】
S300”’段階を行った後、文書分析装置100”’は、生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域500と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域510とに区分し、前記左側ヘッダー領域500と上側ヘッダー領域510を基準に仮想セル客体を生成して配置し、配置された仮想セル客体と数字客体をマッチさせて行/列情報に基づいて連結(S400”’)する。
【0376】
S400”’段階をより詳しく説明すると、文書分析装置100”’は、文字の客体の左側及び上側ピクセル位置を基準に仮想セル客体を配置するが、文字の客体の左側ヘッダー領域(500”’、
図35参照)と上側ヘッダー領域(510”’、
図35参照)を区分(S410”’)する。
【0377】
また、文書分析装置100”’は、区分された左側ヘッダー領域500”’と上側ヘッダー領域510”’に含まれた文字の客体間の間隔及びサイズを算出(S420”’)する。
【0378】
続いて、文書分析装置100”’は、区分された左側ヘッダー領域500”’と上側ヘッダー領域510”’を基準に、探知された左側ヘッダー客体501”’と上側ヘッダー客体511”’の個数であるM×N個だけ仮想セル客体を配置(S430”’)する。
【0379】
S430”’段階の仮想セル客体配置が完了すると、文書分析装置100”’は、左側上端に配置された仮想セル客体と数字客体をマッチさせて数字客体と仮想セル客体間の勾配を算出(S440”’)する。
【0380】
すなわち、S440”’段階で、文書分析装置100”’は、文書イメージに含まれた数字客体が水平方向ではなく傾いた状態で配置された場合にマッチし誤ることを防止するために、文書イメージ上に設定された基準座標系において、座標系内の当該ベクトルの勾配を算出し、算出された勾配に基づいてイメージの全体的な勾配を算出する。
【0381】
続いて、文書分析装置100”’が、行/列情報によって順次に移動しつつ、前記算出された勾配を、右側下端に配置された仮想セル客体と数字客体のマッチングまで反映して連結(S450”’)する。
【0382】
すなわち、文書分析装置100”’は、イメージの全体的な勾配が反映されるように、左側上端でマッチした数字客体と仮想セル客体間の勾配情報を、右側下端に配置された仮想セル客体と数字客体nのマッチングまで反映されるようにし、反映結果によって配置された仮想セル客体と数字客体をマッチさせ、左側ヘッダー客体501”’と上側ヘッダー客体511”’の行/列情報に基づいて連結する。
【0383】
S450”’段階の連結が完了すれば、文書分析装置100”’はOCRモデルによって認識された文字及び数字情報がディスプレイされるように最終連結イメージ600”’を生成して出力(S500”’)する。
【0384】
したがって、OCRによって認識された情報に対して、信頼点数に基づいて、正常認識された部分と、誤った部分又は不審な部分を互いに異なる色相の視覚化情報で提供することにより、使用者にとって迅速で正確な確認が可能であり、使用者の確認作業時間を減少させることができる。
【0385】
また、文書上の項目に記載された文字及び数字を含むテキストを認識し、認識されたテキストの相対的な位置に基づいて仮想セルを生成して数字に対する相対的な位置情報をマッチさせることができる。
【0386】
また、認識された項目間の連結及び相対的な位置関係に基づいて、テキストが配置されたパターンを分析し、特定文書又は領収書などを使用する病院、保険会社などの機関で使用したフォームパターンと比較することにより、迅速で正確なマッチングが可能である。
【0387】
また、病院、保険会社などの機関で使用する様々なフォーマットの領収書に対して、正確で信頼できる使用情報を提供可能であり、標準化されたイメージでなくても様々な学習データを用いたディープラーニング学習によって認識の正確度を向上させることができる。
【0388】
また、病院、薬局などで使用する様々なフォーマットの領収書に対して正確な情報の認識が可能であり、特定様式(フォーム)がない書類のデジタル化が可能である。
【0389】
上記のように、本発明の好ましい実施例を参照して説明したが、当該技術の分野における熟練した当業者であれば、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更させることができることが理解できよう。
【0390】
また、本発明の特許請求の範囲に記載された図面番号は、説明の明瞭性と便宜のために記載しただけで、これに限定されず、実施例を説明する過程で図面上の線の太さや構成要素の大きさなどは、説明の明瞭性及び便宜のために誇張して示されてもよい。
【0391】
また、上述の用語は、本発明における機能を考慮して定義された用語であり、これは使用者、運用者の意図又は慣例によって変更されてもよく、それらの用語に対する解釈は、本明細書全般にわたる内容に基づいて下されるべきであろう。
【0392】
また、明示的に図示又は説明されていなくても、本発明の属する技術の分野における通常の知識を有する者にとって、本発明の記載事項から、本発明に係る技術的思想を含む様々な形態の変形が可能であることは明らかであり、それらも本発明の権利範囲に属する。
【0393】
また、添付の図面を参照して説明された以上の実施例は、本発明を説明するための目的で記述されたものであり、本発明の権利範囲はそれらの実施例に限定されない。
【符号の説明】
【0394】
100,100’,100”,100”’:文書分析装置
【0395】
110,110’,110”,110”’:入力部
【0396】
120,120”’,130’,130”,120”’:客体探知モデリング部
【0397】
120’,120”:項目DB生成部
【0398】
130,130”’,140’,140”:OCRモデリング部
【0399】
140:フォーム構成モデリング部
【0400】
140”’:仮想セルフォーム構成モデリング部
【0401】
150,150”’,160’,170”:データベース
【0402】
150’,150”:フォーム構成モデリング部
【0403】
160”:信頼度評価部
【0404】
200,200’:文書イメージ