IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社野村総合研究所の特許一覧

<>
  • 特許-文字認識装置及び画像前処理方法 図1
  • 特許-文字認識装置及び画像前処理方法 図2
  • 特許-文字認識装置及び画像前処理方法 図3
  • 特許-文字認識装置及び画像前処理方法 図4
  • 特許-文字認識装置及び画像前処理方法 図5
  • 特許-文字認識装置及び画像前処理方法 図6
  • 特許-文字認識装置及び画像前処理方法 図7
  • 特許-文字認識装置及び画像前処理方法 図8
  • 特許-文字認識装置及び画像前処理方法 図9
  • 特許-文字認識装置及び画像前処理方法 図10
  • 特許-文字認識装置及び画像前処理方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】文字認識装置及び画像前処理方法
(51)【国際特許分類】
   G06V 30/16 20220101AFI20241210BHJP
【FI】
G06V30/16
【請求項の数】 12
(21)【出願番号】P 2023169752
(22)【出願日】2023-09-29
(62)【分割の表示】P 2023031779の分割
【原出願日】2023-03-02
(65)【公開番号】P2024124307
(43)【公開日】2024-09-12
【審査請求日】2023-09-29
(73)【特許権者】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】100141519
【弁理士】
【氏名又は名称】梶田 邦之
(72)【発明者】
【氏名】松本 雄太
(72)【発明者】
【氏名】久野 弘暉
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2015-169978(JP,A)
【文献】特開2020-204887(JP,A)
【文献】特開2021-68124(JP,A)
【文献】特表2020-523107(JP,A)
【文献】特開2022-167183(JP,A)
【文献】特表2016-533782(JP,A)
【文献】特開2011-43969(JP,A)
【文献】星 秀平,外2名,機械学習を用いた画像対応付けによる3次元復元と性能評価,映像情報メディア学会技術報告 Vol.45 No.23,日本,映像情報メディア学会,2021年,第45巻
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 - 30/424
(57)【特許請求の範囲】
【請求項1】
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出する特徴点検出部と、
前記特徴点検出部が検出した前記複数の特徴点に対応する座標値から外れ値を特定し、特定された前記外れ値に対応する特徴点である外れ点を、歪み補正に用いるべき特徴点から除去する外れ点除去部と、
前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、
前記歪み補正部が補正した後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行う文字認識部と、を備え、
前記特徴点検出部は、前記実入力画像の歪み補正に関連する処理を事前に行うことなく、前記複数の特徴点を検出し、
前記外れ点除去部は、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて前記外れ点を除去する、
文字認識装置。
【請求項2】
前記外れ点除去部は、前記特徴点検出部が検出したテンプレート画像の各特徴点の座標値と、当該テンプレート画像の各特徴点に対応する実入力画像の各特徴点の座標値とから外れ値を特定し、特定された前記外れ値に対応する特徴点である外れ点を、前記歪み補正部による歪み補正に用いるべき特徴点から除去する
請求項1に記載の文字認識装置。
【請求項3】
前記外れ点除去部は、全ての又は一部の前記対応する複数の特徴点間の距離の統計的値に基づいて設定された閾値を、対応する1つの特徴点の組の座標値間の距離が上回る場合に、当該座標値を前記外れ値として認識する
請求項2に記載の文字認識装置。
【請求項4】
前記歪み補正部は、薄板スプライン(Thin Plate Spline)アルゴリズムに基づいて、前記実入力画像における除去済み特徴点の座標を、前記テンプレート画像における対応する特徴点の座標に近付けるように前記実入力画像を補正する
請求項3に記載の文字認識装置。
【請求項5】
前記特徴点検出部は、前記テンプレート画像に含まれる点と前記実入力画像に含まれる点とが対応していることの程度を示す確信度が所定の閾値を上回る点を、前記複数の特徴点として抽出する
請求項4に記載の文字認識装置。
【請求項6】
前記特徴点検出部は、LoFTR(Local Feature Matching with Transformers)アルゴリズムに基づいて前記複数の特徴点を検出する
請求項5に記載の文字認識装置。
【請求項7】
前記LoFTRアルゴリズム及び/又は前記CONSACアルゴリズムを用いて、前記特徴点検出部が用いるべき前記テンプレート画像を複数のテンプレート画像から選択するテンプレート選択部を更に備える
請求項6に記載の文字認識装置。
【請求項8】
前記LoFTRアルゴリズム及び/又は前記CONSACアルゴリズムを用いて、前記歪み補正部による前記歪み補正を実行すべきか否かを判定する補正要否判定部を更に備える
請求項6に記載の文字認識装置。
【請求項9】
前記実入力画像に所定の相対長さ以上の直線部分が含まれるか否かに基づいて、前記歪み補正部による前記歪み補正を実行すべきか否かを判定する補正要否判定部を更に備える
請求項1から請求項6のいずれかに記載の文字認識装置。
【請求項10】
前記歪み補正部は、前記実入力画像を複数の部分画像に分割した後に、各部分画像に含まれる除去済み特徴点を用いて当該部分画像の歪みを補正する
請求項1から請求項8のいずれかに記載の文字認識装置。
【請求項11】
前記歪み補正部は、各部分画像に含まれる前記除去済み特徴点のうち、所定数以下の除去済み特徴点を用いて当該部分画像の歪みを補正し、
前記所定数以下の除去済み特徴点を選択する際に、除去済み特徴点間の距離が所定以上に保たれるように選択を行う
請求項10に記載の文字認識装置。
【請求項12】
コンピュータのプロセッサにより、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
検出された前記複数の特徴点に対応する座標値から外れ値を特定し、特定された前記外れ値に対応する特徴点である外れ点を、歪み補正に用いるべき特徴点から除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、を備え、
前記複数の特徴点を検出することは、前記実入力画像の歪み補正に関連する処理を事前に行うことなく、前記複数の特徴点を検出することであり、
前記外れ点を除去することは、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて前記外れ点を除去することである、
画像前処理方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字認識装置及び画像前処理方法に関する。
【背景技術】
【0002】
手書き文字や印刷文字を光学的に読み取った画像を、コンピュータが利用可能なデジタルデータ(例えば、文字コード)に変換する光学文字認識(Optical Character Recognition,OCR)技術が活用されている。光学的な読取りは、イメージスキャナやデジタルカメラ等の光学デバイスによって実現される。読み取られた画像は、パターン認識等の画像処理によってデジタルデータに変換される。
【0003】
また、いわゆる人工知能(Artificial Intelligence,AI)技術が目覚ましく発展している。近年のAI技術の重要なマイルストーンとして、入力層と出力層との間に多数の中間層を有する深層ニューラルネットワークを用いた深層学習(Deep Learning)、注意(Attention)機構を用いて構成されるエンコーダ/デコーダ型のモデルであるトランスフォーマ(Transformer)等が挙げられる。
【0004】
AI技術の主要な適用分野の1つとして画像処理技術が挙げられる。上述したように、OCR技術においては画像処理が用いられることから、現在、AI技術をOCR技術に適用したAI-OCR技術が発展の端緒にある(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2023-003648号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
OCR処理におけるAI技術を利用した歪み補正は未だ発展中の分野であって、今後の様々な技術開発が待望されている。OCR処理に対して入力される画像(以下、実入力画像と称する)の歪みが小さいほど、適切な文字認識が実現される。AI-OCRのデファクトスタンダードとなるような突出した技術又は技術の組合せは、未だ見出されていない。
【0007】
以上の事情に鑑み、本発明は、実入力画像に記載されている認識されるべき文字を適切に処理することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明に係る文字認識装置は、複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出する特徴点検出部と、前記特徴点検出部が検出した前記複数の特徴点から外れ点を除去する外れ点除去部と、前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、前記歪み補正部が補正した後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行う文字認識部と、を含む。
【0009】
また、本発明に係る画像前処理方法は、コンピュータのプロセッサにより、複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、検出された前記複数の特徴点から外れ点を除去することと、前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、を有する。
【0010】
以上の構成によれば、実入力画像に記載されている認識されるべき文字を適切に処理することが可能である。なお、以上の構成により、当該効果の代わりに、又は当該効果とともに、他の効果が奏されてもよい。
【図面の簡単な説明】
【0011】
図1】第1実施形態に係る文字認識装置20を含む文字認識システムSを概略的に示す図である。
図2】第1実施形態に係るユーザ端末10のハードウェア構成図である。
図3】第1実施形態に係る文字認識装置20のハードウェア構成図である。
図4】第1実施形態に係る文字認識装置20のソフトウェア構成図である。
図5】第1実施形態に係る文字認識の詳細処理を示すフローチャートである。
図6】第1実施形態に係るテンプレート画像Iの例を示す図である。
図7】第1実施形態に係る実入力画像Iの例を示す図である。
図8】第1実施形態に係る特徴点検出の説明図である。
図9】第1実施形態に係る補正済み実入力画像IRAの例を示す図である。
図10図9の対比例を示す図である。
図11】第2実施形態に係る文字認識装置20のソフトウェア構成図である。
【発明を実施するための形態】
【0012】
以下、添付の図面を参照して本発明の実施形態を詳細に説明する。なお、本明細書及び図面において、同様に説明されることが可能な要素については、同一の符号を付することにより重複した説明が省略され得る。
【0013】
以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正又は変更することが可能である。以下の各実施形態に含まれる要素の組合せの全てが本発明を実現するのに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。相互に矛盾のない限りにおいて、以下の実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。
【0014】
1. 第1実施形態
図1は、第1実施形態に係る文字認識装置20を含む文字認識システムSを概略的に示す図である。文字認識システムSは、ユーザ端末10と、文字認識装置20と、を含む。文字認識システムSが、他の構成要素を含んでもよい。他の構成要素とは、例えば、ユーザ端末10と文字認識装置20との間に配置され、種々のデータ処理を実行するフロントエンドサーバである。
【0015】
ユーザ端末10は、ユーザが使用するスマートフォンやPC等の端末装置である。ユーザは、ユーザ端末10を用いて文字認識装置20が提供するアプリケーションやサービスを使用する。ユーザ端末10は、例えば、無線通信ネットワーク及びインターネットを介して文字認識装置20に接続する。
【0016】
文字認識装置20は、ユーザ端末10から送信される画像(実入力画像)に対してOCR処理を実行するサーバ装置である。文字認識装置20は、例えば、保険金申請のための診断書画像や、銀行口座開設のための申込書画像などの様々な定形帳票に対応した実入力画像に対して、OCR処理を実行する。
【0017】
なお、文字認識装置20は、OCR処理による文字認識結果を、他のサーバ装置に送信してよい。また、文字認識装置20は、OCR処理を含む種々のアプリケーション処理を実行するサーバ装置であってもよい。すなわち、文字認識装置20は、本実施形態で説明される機能のみを提供してもよいし、他の機能を併せて提供してもよい。文字認識装置20は、オンプレミス環境に配置されてもよく、他の企業によって提供されるクラウド環境に配置されてもよい。また、文字認識装置20は文字認識部28による通常のOCR処理のみを実行し、特徴点検出部22、外れ点除去部24並びに歪み補正部26を含むコンピュータである前処理装置を別に配置し、ユーザ端末から受領した画像をこの前処理装置で処理された画像を文字認識装置20の文字認識部28でOCR処理して文字認識結果を得る構成であってもよい。さらには、文字認識装置20の各部全て又はその一部を一つのアプリケーションとして構成し、ユーザ端末にインストールして実行する形態であってもよい。
【0018】
文字認識装置20は、OCR処理を実現するための機能部として、特徴点検出部22と外れ点除去部24と歪み補正部26と文字認識部28とを含む。各部の詳細については後述される。
【0019】
図2は、第1実施形態に係るユーザ端末10のハードウェア構成図である。図2に示すように、ユーザ端末10は、プロセッサ101とメモリ102と入出力インタフェース103と通信インタフェース104とを有する。ユーザ端末10に設けられる以上の要素は内部バスによって相互に接続される。なお、ユーザ端末10は、図2に示された要素以外のハードウェア要素を有してもよい。
【0020】
プロセッサ101は、ユーザ端末10の種々の機能を実現する演算素子である。プロセッサ101は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、メモリコントローラ等の要素を含むSoC(System-on-a-Chip)であってよい。
【0021】
メモリ102は、RAM(Random Access Memory)、eMMC(embedded Multi Media Card)等の記憶媒体によって構成される。メモリ102は、ユーザ端末10における種々の処理を実行するのに用いられるプログラム及びデータを一時的又は恒久的に格納する要素である。上記プログラムは、ユーザ端末10の動作のための1つ以上の命令を含む。プロセッサ101は、メモリ102に記憶されたプログラムをメモリ102及び/又は不図示のシステムメモリに展開し実行することによって、ユーザ端末10の機能を実現する。
【0022】
入出力インタフェース103は、ユーザ端末10への操作を受け付けてプロセッサ101に供給すると共に、種々の情報をユーザに提示するインタフェースであって、例えば、タッチパネル、又はキーボード及びディスプレイである。
【0023】
通信インタフェース104は、インターネット通信を実現するための種々の信号処理を実行する回路であって、例えば、ネットワークインタフェースカード(NIC)である。
【0024】
図3は、第1実施形態に係る文字認識装置20のハードウェア構成図である。図3に示すように、文字認識装置20は、プロセッサ201とメモリ202と入出力インタフェース203と通信インタフェース204とを有する。文字認識装置20に設けられる以上の要素は内部バスによって相互に接続される。なお、文字認識装置20は、図3に示された要素以外のハードウェア要素を有してもよい。
【0025】
プロセッサ201は、文字認識装置20の種々の機能を実現する演算素子である。プロセッサ201は、CPUであってよく、さらにGPU等の他のプロセッサを含んでもよい。
【0026】
メモリ202は、RAM、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶媒体によって構成される。メモリ202は、文字認識装置20における種々の処理を実行するのに用いられるプログラム及びデータを一時的又は恒久的に格納する要素である。上記プログラムは、文字認識装置20の動作のための1つ以上の命令を含む。プロセッサ201は、メモリ202に記憶されたプログラムをメモリ202及び/又は不図示のシステムメモリに展開し実行することによって、文字認識装置20の機能を実現する。
【0027】
入出力インタフェース203は、文字認識装置20への操作を受け付けてプロセッサ201に供給すると共に、種々の情報をユーザに提示するインタフェースであって、例えば、キーボード及びディスプレイである。なお、文字認識装置20が入出力インタフェース203を有さず、遠隔操作されてもよい。
【0028】
通信インタフェース204は、インターネット通信を実現するための種々の信号処理を実行する回路であって、例えば、ネットワークインタフェースカード(NIC)である。
【0029】
図4は、第1実施形態に係る文字認識装置20のソフトウェア構成図である。図4に示すように、文字認識装置20は、制御部210と記憶部220と通信部230とを有する。
【0030】
制御部210は、特徴点検出部22と外れ点除去部24と歪み補正部26と文字認識部28とを含む種々の機能を実現するソフトウェア要素であって、前述されたプロセッサ201によって実現される。以下、制御部210の動作を概略的に説明する。
【0031】
特徴点検出部22は、複数の認識エリアRAを含むテンプレート画像Iと、テンプレート画像Iに対応するフォーマットFに認識されるべき文字が記載されている実入力画像Iと、の間で互いに対応する複数の特徴点Pを検出する。
【0032】
外れ点除去部24は、特徴点検出部22が検出した複数の特徴点Pから外れ点Pを除去する。
【0033】
歪み補正部26は、外れ点除去部24が外れ点を除去した後の除去済み特徴点PFEを用いて実入力画像Iの歪みを補正する。
【0034】
文字認識部28は、歪み補正部26が補正した後の補正済み実入力画像IRAにおける認識エリアRAに相当するエリアCAに含まれる補正済み文字C’に対して文字認識を行う。
【0035】
記憶部220は、制御部210によって使用される種々のデータ及びプログラムを記憶する要素であって、プロセッサ201と協働するメモリ202によって実現される。
【0036】
通信部230は、制御部210による制御の下で他の装置と通信する要素であって、プロセッサ201と協働する通信インタフェース204によって実現される。
【0037】
図5から図10を参照して、第1実施形態に係る文字認識の詳細処理を説明する。図5は、第1実施形態に係る文字認識の詳細処理を示すフローチャートである。
【0038】
ステップS510において、まず、特徴点検出部22は、ユーザ端末10から送信された実入力画像Iを受信すると共に、記憶部220に記憶されているテンプレート画像Iを読み出す。
【0039】
図6は、第1実施形態に係るテンプレート画像Iの例を示す図である。テンプレート画像Iは、ユーザが文字を記入するための紙媒体(フォーマットF)をプリントするのに用いられる画像データである。フォーマットFは、プリント済みの紙媒体としてユーザに提供されてもよいし、ユーザ自身によってプリントされてもよい。
【0040】
図6に示すように、テンプレート画像Iは、複数の認識エリアRAを含む。認識エリアRAは、例えば、漢字や数字が記入されるエリアと、チェック印によってチェックされるエリアとを含む。図6においては、作図の簡単のために、一部の認識エリアRAのみに符号が付されている。認識エリアRAは、テンプレート画像Iを示す画像データにおいて、画像内の座標によって特定される所定の領域(例えば、矩形領域)を占めると共に、プリントされたフォーマットFにおいて所定の物理的領域を占める。
【0041】
図7は、第1実施形態に係る実入力画像Iの例を示す図である。図7に示すように、実入力画像Iは、テンプレート画像Iに対応するフォーマットFを撮影した画像であって、ユーザがフォーマットFに記載した文字が含まれる。実入力画像Iは、現実の紙媒体であるフォーマットFを撮影することによって取得される画像データである。したがって、図7のように、実入力画像Iは、紙の折り目や撮影角度等の複数の要因に基づいて生じた歪みを有する場合が多い。
【0042】
特徴点検出部22は、ステップS510において、歪み補正部26による実入力画像Iの歪み補正(ステップS530)の前処理として、以下のような特徴点検出を実行する。
【0043】
図8は、第1実施形態に係る特徴点検出の説明図である。特徴点検出部22は、例えば、LoFTR(Local Feature Matching with Transformers)アルゴリズムに基づいて、テンプレート画像Iと実入力画像Iとの間で互いに対応する複数の特徴点Pを検出する。
【0044】
特徴点Pは、例えばエリアの境界や矩形枠のコーナー等の画像上の特徴的な点であって、本実施形態においてはテンプレート画像Iと実入力画像Iとの間で互いに対応している。互いに対応するテンプレート画像I上の特徴点P及び実入力画像I上の特徴点Pは、類似する特徴量を有する。
【0045】
特徴点検出部22は、テンプレート画像Iに含まれる点と実入力画像Iに含まれる点とが対応していることの程度を示す確信度(Confidence)が所定の閾値(例えば、98%又は99%)を上回る点を、複数の特徴点Pとして抽出すると好適である。上記した特徴点Pの抽出は、例えば、LoFTRアルゴリズムに従って実行される。LoFTRアルゴリズムは、教師データを用いた教師あり学習によって学習された学習済みモデルによって実現される。LoFTRアルゴリズムにおいては、テンプレート画像Iと実入力画像Iとの間で互いに対応する複数の特徴点Pを探索し、探索された特徴点Pが確信度に従って足切りされる。
【0046】
LoFTRアルゴリズムでは、まず、畳み込みニューラルネットワーク及びトランスフォーマによって各画像I,Iに関する特徴量F,Fが算定される。その後、画像I,I間の粗な対応付けを輸送最適アルゴリズムによって算定し、小パッチにおける詳細な対応付けの計算を行う。結果として、画像I,I間におけるピクセルレベルのマッチングが行われ、対応する複数の特徴点Pが抽出される。以上から理解されるように、LoFTRアルゴリズムは、各画像I,Iの全体に対して適用される手法である。
【0047】
図8は、LoFTRアルゴリズムによって検出された複数の特徴点Pの説明図である。図8では、テンプレート画像Iと実入力画像Iとの間で互いに対応する特徴点Pが線分によって示されている。
【0048】
なお、特徴点検出部22は、SuperPointやPatch2Pix等、LoFTR以外のアルゴリズムに基づいて複数の特徴点Pを検出してもよい。すなわち、特徴点検出部22は、任意の検出アルゴリズムを用いて、テンプレート画像I及び実入力画像Iに対するステップS510の処理を実行してよい。
【0049】
ステップS520において、歪み補正部26による実入力画像Iの歪み補正(ステップS530)の前処理として、外れ点除去部24は、特徴点検出部22が検出した複数の特徴点Pから外れ点Pを除去する。
【0050】
より詳細には、外れ点除去部24は、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて、複数の特徴点Pに対応する座標値から外れ値を特定し、特定された外れ値に対応する特徴点Pである外れ点Pを、歪み補正部26によるステップS530の歪み補正に用いるべき特徴点Pから除去する。外れ点除去部24は、例えば、対応する特徴点Pの座標値間の距離が所定の閾値を上回る場合に、その座標値(特徴点Pの組)を外れ値として認識してよい。上記所定の閾値は、全ての対応する特徴点P間の距離の統計的値(平均値、中央値、分散、標準偏差等)に基づいて設定されてもよく、ランダムに選択された部分的な特徴点P間の距離の統計的値に基づいて設定されてもよい。
【0051】
CONSACアルゴリズムは、教師あり学習及び自己教師あり学習によって学習された学習済みモデルによって実現される。CONSACアルゴリズムにおいては、データセットからサンプルを選択する際に用いた情報に基づいてサンプルが更新される。CONSACアルゴリズムは、LoFTRアルゴリズムと同様に、各画像I,Iの全体に対して適用される手法である。
【0052】
ステップS530において、歪み補正部26は、外れ点除去部24が外れ点Pを除去した後の除去済み特徴点PFEを用いて実入力画像Iの歪みを補正する。
【0053】
より詳細には、歪み補正部26は、薄板スプライン(Thin Plate Spline)アルゴリズムに基づいて、実入力画像Iにおける除去済み特徴点PFEの座標を、テンプレート画像Iにおける対応する特徴点Pの座標に近付けるように実入力画像Iを補正し、補正済み実入力画像IRAを出力する。
【0054】
薄板スプラインアルゴリズムは、2次元平面における点の集合を用いて、集合に含まれる点を通る曲面を求めるアルゴリズムである。本実施形態においては、薄板スプラインアルゴリズムが実入力画像Iの全体に対して適用される。他に、後述されるように、薄板スプラインアルゴリズムが実入力画像Iを分割した部分画像に対して適用されてもよい。
【0055】
図9は、第1実施形態に係る補正済み実入力画像IRAの例を示す図である。一方、図10は、図5に示すフローチャートにおいてステップS520の外れ点除去を実行しない場合に歪み補正部26から出力される補正済み実入力画像I’RAの例(すなわち、図9の対比例)を示す図である。
【0056】
図9に示すように、上述したステップS510からS530を実入力画像Iに対して実行した場合には、フォーマットFにおける歪みが適切に補正された補正済み実入力画像IRAが取得されている。
【0057】
一方、図10に示すように、ステップS520の外れ点除去が実行されない場合には、歪み補正が不完全な補正済み実入力画像I’RAが取得されてしまう。結果として、後段の文字認識の精度が低下する。
【0058】
ステップS540において、文字認識部28は、歪み補正部26が補正した後の補正済み実入力画像IRAにおける認識エリアRAに相当するエリアCAに含まれる補正済み文字C’に対して文字認識を行う。
【0059】
以上の構成によれば、特徴点検出及び外れ値除去に基づく歪み補正がなされた実入力画像Iに対して文字認識が実行されるので、そうでない構成と比較して、実入力画像Iに記載された文字をより適切に認識することが可能である。
【0060】
2. 第2実施形態
図11は、第2実施形態に係る文字認識装置20のソフトウェア構成図である。図11に示すように、文字認識装置20は、第1実施形態と同様に、制御部210と記憶部220と通信部230とを有する。第1実施形態と比較して、第2実施形態の制御部210は、テンプレート選択部30と補正要否判定部32とを、ソフトウェア要素としてさらに含む。
【0061】
テンプレート選択部30は、LoFTRアルゴリズム及び/又はCONSACアルゴリズムを用いて、特徴点検出部22が用いるべきテンプレート画像Iを複数のテンプレート画像Iから選択する。
【0062】
より詳細には、例えば、テンプレート選択部30は、実入力画像Iと複数のテンプレート画像Iの各々との間で特徴点検出部22による特徴点検出を行って、最も多くの特徴点Pが検出されたテンプレート画像Iを選択する。その後、選択されたテンプレート画像Iを用いて、第1実施形態のステップS510からS540が実行される。
【0063】
また、テンプレート選択部30は、上記のように検出された特徴点Pに対して、さらに外れ点除去部24による外れ点除去を行った後に、最も多くの特徴点Pが残っているテンプレート画像Iを選択してもよい。
【0064】
以上の構成によれば、ユーザ端末10のユーザがテンプレート画像Iを選択しなくても、使用すべきテンプレート画像Iを文字認識装置20が自動的に選択可能である。
【0065】
補正要否判定部32は、LoFTRアルゴリズム及び/又はCONSACアルゴリズムを用いて、歪み補正部26による歪み補正を実行すべきか否かを判定する。
【0066】
より詳細には、例えば、補正要否判定部32は、実入力画像Iと複数のテンプレート画像Iの各々との間で特徴点検出部22による特徴点検出を行う。対応する特徴点Pの間で座標値の差分が大きい場合(例えば、座標値の差分の合計が所定の閾値を上回る場合)、実入力画像Iの歪みが相対的に大きいと考えられるので、補正要否判定部32は歪み補正部26による歪み補正を実行すると判定する。
【0067】
又は、対応する特徴点Pの間で座標値の差分の分散が大きい場合(例えば、座標値の差分の分散が所定の閾値を上回る場合)、実入力画像Iの歪みが相対的に大きいと考えられるので、補正要否判定部32は歪み補正部26による歪み補正を実行すると判定する。
【0068】
また、補正要否判定部32は、上記のように検出された特徴点Pに対して、さらに外れ点除去部24による外れ点除去を行った後に、上記した補正要否判定を実行してもよい。
【0069】
歪み補正部26による歪み補正を実行しないと判定された場合、制御部210は、実入力画像Iに対して一般的な台形補正を実行してよい。
【0070】
以上の構成によれば、歪みが相対的に大きい画像、すなわち歪み補正の必要性が相対的に高い画像に対して、選択的に歪み補正が実行される。したがって、文字認識装置20の全体的な処理負荷を低減することが可能である。
【0071】
また、補正要否判定部32は、上記要否判定に代えて、実入力画像Iに所定の相対長さ(例えば、フォーマットFの縦辺又は横辺の全長の70%又は80%)以上の直線部分が含まれるか否かに基づいて、歪み補正部26による歪み補正を実行すべきか否かを判定してもよい。
【0072】
第1実施形態においては、ステップS530において、歪み補正部26が、実入力画像Iの全体に対して歪み補正を実行する。対照的に、第2実施形態において、歪み補正部26は、実入力画像Iを複数の部分画像Iに分割した後に、各部分画像Iに含まれる除去済み特徴点PFEを用いて当該部分画像Iの歪みを補正する。歪み補正部26は、実入力画像Iを6つの部分画像Iに分割にしてもよく、8つの部分画像Iに分割にしてもよく、さらに多くの部分画像Iに分割にしてもよい。
【0073】
薄板スプラインアルゴリズムは、処理対象の画像のサイズが増大するに従って顕著に処理負荷が高まり、メモリリーク等の問題が生じる可能性も高まる。以上の構成によれば、歪み補正部26による歪み補正の処理負荷を低減することが可能である。
【0074】
なお、第2実施形態においても、ステップS510の特徴点検出及びステップS520の外れ点除去は、実入力画像Iの全体に対して実行される。
【0075】
また、歪み補正部26は、各部分画像Iに含まれる除去済み特徴点PFEのうち、所定数以下の除去済み特徴点PFEを用いて当該部分画像Iの歪みを補正してよい。さらに、歪み補正部26は、除去済み特徴点PFEを選択する際に、除去済み特徴点PFE間の距離が所定以上に保たれるように(例えば、選択後の除去済み特徴点PFE間の距離の合計が所定の閾値を上回るように)選択を行ってよい。
【0076】
以上の構成によれば、歪み補正部26による歪み補正の処理負荷をさらに低減することが可能である。
【0077】
上記した本実施形態におけるテンプレート選択部30によるテンプレート選択、補正要否判定部32による補正要否判定、及び歪み補正部26による部分画像の歪み補正は、独立して実行可能である。上記3つの独立した動作のうち、いずれか1つ又は2つの動作のみが実行されてもよいことは、当業者に当然に理解される。
【0078】
3. その他の実施形態
3.1. 変形例
以上、本発明を実施するための形態を説明したが、本発明は上記実施形態に限定されるものではない。上記実施形態は例示に過ぎず、種々の変形が可能であることは当然に理解される。上記実施形態において使用される単語、連語等の表現は例示に過ぎず、実質的に同一の又は類似する表現に置換され得る。
【0079】
歪み補正部26は、上記実施形態にて説明された歪み補正を行った後に、LoFTRアルゴリズム及び/又はCONSACアルゴリズムを用いて、補正済み実入力画像IRAにおける歪み補正が適切であるか否かを判定してよい。
【0080】
上記実施形態に記載された装置が提供する手段および/または機能は、実体的なメモリ装置に記録されたソフトウェアおよびそれを実行するコンピュータ、ソフトウェアのみ、ハードウェアのみ、あるいはそれらの組合せによって提供することができる。例えば、いずれかの上記装置がハードウェアである電子回路によって提供される場合、それは多数の論理回路を含むデジタル回路、またはアナログ回路によって提供することができる。
【0081】
上記実施形態に記載された装置は、非遷移的実体的記録媒体(non-transitory tangible storage medium)に格納されたプログラムを実行する。このプログラムが実行されることで、プログラムに対応する方法が実行される。
【0082】
3.2. 付記
上記実施形態及び変形例の一部又は全部は、以下の付記のようにも記載され得るが、以下の付記の内容には限定されない。以下では、複数の付記に従属する付記に対して、複数の付記に従属する付記が従属するという関係性が表現される。以下に表現される付記の従属関係の全てが上記実施形態に含まれる。
【0083】
(付記1)
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出する特徴点検出部と、
前記特徴点検出部が検出した前記複数の特徴点から外れ点を除去する外れ点除去部と、
前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、
前記歪み補正部が補正した後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行う文字認識部と、を備える
文字認識装置。
【0084】
(付記2)
前記外れ点除去部は、CONSAC(Conditional Sample Consensus)アルゴリズムに基づいて、前記複数の特徴点に対応する座標値から外れ値を特定し、特定された前記外れ値に対応する特徴点である前記外れ点を、前記歪み補正部による歪み補正に用いるべき特徴点から除去する
付記1に記載の文字認識装置。
【0085】
(付記3)
前記歪み補正部は、薄板スプライン(Thin Plate Spline)アルゴリズムに基づいて、前記実入力画像における除去済み特徴点の座標を、前記テンプレート画像における対応する特徴点の座標に近付けるように前記実入力画像を補正する
付記2に記載の文字認識装置。
【0086】
(付記4)
前記特徴点検出部は、前記テンプレート画像に含まれる点と前記実入力画像に含まれる点とが対応していることの程度を示す確信度が所定の閾値を上回る点を、前記複数の特徴点として抽出する
付記2又は付記3に記載の文字認識装置。
【0087】
(付記5)
前記特徴点検出部は、LoFTR(Local Feature Matching with Transformers)アルゴリズムに基づいて前記複数の特徴点を検出する
付記2から付記4のいずれかに記載の文字認識装置。
【0088】
(付記6)
前記LoFTRアルゴリズム及び/又は前記CONSACアルゴリズムを用いて、前記特徴点検出部が用いるべき前記テンプレート画像を複数のテンプレート画像から選択するテンプレート選択部を更に備える
付記2から付記5のいずれかに記載の文字認識装置。
【0089】
(付記7)
前記LoFTRアルゴリズム及び/又は前記CONSACアルゴリズムを用いて、前記歪み補正部による前記歪み補正を実行すべきか否かを判定する補正要否判定部を更に備える
付記2から付記5のいずれかに記載の文字認識装置。
【0090】
(付記8)
前記実入力画像に所定の相対長さ以上の直線部分が含まれるか否かに基づいて、前記歪み補正部による前記歪み補正を実行すべきか否かを判定する補正要否判定部を更に備える
付記1から付記5のいずれかに記載の文字認識装置。
【0091】
(付記9)
前記歪み補正部は、前記実入力画像を複数の部分画像に分割した後に、各部分画像に含まれる除去済み特徴点を用いて当該部分画像の歪みを補正する
付記1から付記8のいずれかに記載の文字認識装置。
【0092】
(付記10)
前記歪み補正部は、各部分画像に含まれる前記除去済み特徴点のうち、所定数以下の除去済み特徴点を用いて当該部分画像の歪みを補正する
付記9に記載の文字認識装置。
【0093】
(付記11)
前記歪み補正部は、前記所定数以下の除去済み特徴点を選択する際に、除去済み特徴点P間の距離が所定以上に保たれるように選択を行う
付記10に記載の文字認識装置。
【0094】
(付記12)
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出する特徴点検出部と、
前記特徴点検出部が検出した前記複数の特徴点から外れ点を除去する外れ点除去部と、
前記外れ点除去部が前記外れ点を除去した後の除去済み特徴点を用いて前記実入力画像の歪みを補正する歪み補正部と、を備える
画像前処理装置。
【0095】
(付記13)
コンピュータのプロセッサにより、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
検出された前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、を備える
画像前処理方法。
【0096】
(付記14)
文字認識装置のプロセッサにより、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、
補正された後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行うことと、を備える
方法。
【0097】
(付記15)
文字認識装置のプロセッサに、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、
補正された後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行うことと、を実行させる
プログラム。
【0098】
(付記16)
文字認識装置のプロセッサに、
複数の認識エリアを含むテンプレート画像と、前記テンプレート画像に対応するフォーマットに認識されるべき文字が記載されている実入力画像と、の間で互いに対応する複数の特徴点を検出することと、
前記複数の特徴点から外れ点を除去することと、
前記外れ点が除去された後の除去済み特徴点を用いて前記実入力画像の歪みを補正することと、
補正された後の補正済み実入力画像における前記認識エリアに相当するエリアに含まれる補正済み文字に対して文字認識を行うことと、を実行させる
プログラムを記録した非遷移的実体的記録媒体。
【符号の説明】
【0099】
10 ユーザ端末
20 文字認識装置
22 特徴点検出部
24 外れ点除去部
26 歪み補正部
28 文字認識部
30 テンプレート選択部
32 補正要否判定部

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11