IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許-情報処理装置及びプログラム 図1
  • 特許-情報処理装置及びプログラム 図2
  • 特許-情報処理装置及びプログラム 図3
  • 特許-情報処理装置及びプログラム 図4
  • 特許-情報処理装置及びプログラム 図5
  • 特許-情報処理装置及びプログラム 図6
  • 特許-情報処理装置及びプログラム 図7
  • 特許-情報処理装置及びプログラム 図8
  • 特許-情報処理装置及びプログラム 図9
  • 特許-情報処理装置及びプログラム 図10
  • 特許-情報処理装置及びプログラム 図11A
  • 特許-情報処理装置及びプログラム 図11B
  • 特許-情報処理装置及びプログラム 図11C
  • 特許-情報処理装置及びプログラム 図12
  • 特許-情報処理装置及びプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-10
(45)【発行日】2024-06-18
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20240611BHJP
   G06V 30/146 20220101ALI20240611BHJP
【FI】
G06V30/12 J
G06V30/146
【請求項の数】 7
(21)【出願番号】P 2020053193
(22)【出願日】2020-03-24
(65)【公開番号】P2021152798
(43)【公開日】2021-09-30
【審査請求日】2023-02-28
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】木村 俊一
(72)【発明者】
【氏名】関野 雅則
【審査官】新井 則和
(56)【参考文献】
【文献】特開2018-121229(JP,A)
【文献】特開平09-297821(JP,A)
【文献】特開2017-050676(JP,A)
【文献】特開2006-277001(JP,A)
【文献】松下 貢 ,リコー文書画像認識SDK,RICOH TECHNICAL REPORT NO.23,1997年09月30日
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/12
G06V 30/146
(57)【特許請求の範囲】
【請求項1】
認識すべき入力画像を入力する入力部と、
プロセッサと、
を備え、前記プロセッサは、プログラムを実行することで、
前記入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせし、
位置合わせされた前記入力画像の前記認識領域の認識処理を実行し、
前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成し、
前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示し、
さらに、前記プロセッサは、
前記確認用画像として、前記テンプレート画像と位置合わせされた前記入力画像の外接矩形画像を生成し、前記外接矩形画像のうち、位置合わせされた前記入力画像が存在せず前記テンプレート画像のみが存在する領域に、前記テンプレート画像であることを示す情報を付加する
情報処理装置。
【請求項2】
認識すべき入力画像を入力する入力部と、
プロセッサと、
を備え、前記プロセッサは、プログラムを実行することで、
前記入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせし、
位置合わせされた前記入力画像の前記認識領域の認識処理を実行し、
前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成し、
前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示し、
さらに、前記プロセッサは、
位置合わせされた前記入力画像に存在するが前記テンプレート画像内に存在しない情報を前記確認画像内に含めて出力する
報処理装置。
【請求項3】
前記テンプレート画像は、前記入力画像における認識領域を定義するとともに、認識すべき文字列を定義する、
請求項1、2のいずれかに記載の情報処理装置。
【請求項4】
前記入力画像は、傾いた状態で文書がスキャンされたスキャン画像である、
請求項1、2のいずれかに記載の情報処理装置。
【請求項5】
前記文書は帳票である、
請求項に記載の情報処理装置。
【請求項6】
コンピュータに、
入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせするステップと、
位置合わせされた前記入力画像の前記認識領域の認識処理を実行するステップと、
前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成するステップと、
前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示するステップと、
前記確認用画像として、前記テンプレート画像と位置合わせされた前記入力画像の外接矩形画像を生成し、前記外接矩形画像のうち、位置合わせされた前記入力画像が存在せず前記テンプレート画像のみが存在する領域に、前記テンプレート画像であることを示す情報を付加するステップと、
を実行させるプログラム。
【請求項7】
コンピュータに、
入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせするステップと、
位置合わせされた前記入力画像の前記認識領域の認識処理を実行するステップと、
前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成するステップと、
前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示するステップと、
位置合わせされた前記入力画像に存在するが前記テンプレート画像内に存在しない情報を前記確認画像内に含めて出力するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
従来から、帳票等に記入された文字を自動的に認識する技術が提案されている。
【0003】
特開2006-129311号公報には、定型文書に対して、少ない計算量で簡単に位置合わせを行う位置合わせ装置が記載されている。装置は、入力画像を正立させるとともに、該入力画像に対して行った画像回転処理の回転角度を保持する画像回転手段と、該回転角度あるいは入力機器の情報に応じた画像の位置ずれを算出し、この位置ずれをもとに補正を行う位置ずれ補正手段を備えている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2006-129311号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
帳票等の入力画像から文字列を認識する場合、入力画像と認識結果をともに表示して、利用者が入力画像と認識結果を見比べて確認し、必要に応じて修正できることが望ましい。
【0006】
但し、入力画像が傾いている場合には、当該傾いた状態のまま表示したのでは利用者にとり違和感が生じる。入力画像の傾きを修正した上で表示することも可能であるが、傾きの修正に伴って一定の情報が欠落して表示されないおそれが生じる。より詳細には、認識領域をテンプレート画像で定義し、テンプレート画像の認識領域と入力画像の認識領域とを位置合わせしてテンプレート画像の領域のみを表示する構成とすると、テンプレート画像の領域外の情報、特に認識結果の確認に関連する情報が欠落して表示されないおそれが生じる。
【0007】
本発明は、入力画像の認識領域をテンプレート画像で定義し、テンプレート画像の認識領域と入力画像の認識領域とを位置合わせして文字列を認識する場合において、情報の欠落を防止して利用者が入力画像と認識結果を見比べて容易に確認し得る技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
請求項1に記載の発明は、認識すべき入力画像を入力する入力部と、プロセッサと、を備え、前記プロセッサは、プログラムを実行することで、前記入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせし、位置合わせされた前記入力画像の前記認識領域の認識処理を実行し、前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成し、前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示し、
さらに、前記プロセッサは、位置合わせされた前記入力画像に存在するが前記テンプレート画像内に存在しない情報を前記確認画像内に含めて出力する、情報処理装置である。
【0012】
請求項に記載の発明は、認識すべき入力画像を入力する入力部と、プロセッサと、を備え、前記プロセッサは、プログラムを実行することで、前記入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせし、位置合わせされた前記入力画像の前記認識領域の認識処理を実行し、前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成し、前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示し、さらに、前記プロセッサは、位置合わせされた前記入力画像に存在するが前記テンプレート画像内に存在しない情報を前記確認画像内に含めて出力する、情報処理装置である。
【0013】
請求項に記載の発明は、前記テンプレート画像は、前記入力画像における認識領域を定義するとともに、認識すべき文字列を定義する、請求項1,2のいずれかに記載の情報処理装置である。
【0014】
請求項に記載の発明は、前記入力画像は、傾いた状態で文書がスキャンされたスキャン画像である、請求項1,2のいずれかに記載の情報処理装置である。
【0015】
請求項に記載の発明は、前記文書は帳票である、請求項に記載の情報処理装置である。
【0016】
請求項に記載の発明は、コンピュータに、入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせするステップと、位置合わせされた前記入力画像の前記認識領域の認識処理を実行するステップと、前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成するステップと、前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示するステップと、前記確認用画像として、前記テンプレート画像と位置合わせされた前記入力画像の外接矩形画像を生成し、前記外接矩形画像のうち、位置合わせされた前記入力画像が存在せず前記テンプレート画像のみが存在する領域に、前記テンプレート画像であることを示す情報を付加するステップと、を実行させるプログラムである。
請求項7に記載の発明は、コンピュータに、入力画像における認識領域を、テンプレート画像に定義された認識領域に一致させるべく、前記入力画像を前記テンプレート画像に位置合わせするステップと、位置合わせされた前記入力画像の前記認識領域の認識処理を実行するステップと、前記テンプレート画像と位置合わせされた前記入力画像を含む確認用画像を生成するステップと、前記確認用画像と、前記認識処理の結果とをその対応が識別できる態様で表示するステップと、位置合わせされた前記入力画像に存在するが前記テンプレート画像内に存在しない情報を前記確認画像内に含めて出力するステップと、を実行させるプログラムである。
【発明の効果】
【0017】
請求項1,6,7に記載の発明によれば、入力画像の認識領域をテンプレート画像で定義し、テンプレート画像の認識領域と入力画像の認識領域とを位置合わせして文字列を認識する場合において、情報の欠落を防止して利用者が入力画像と認識結果を見比べて容易に確認できる。
【0020】
請求項に記載の発明によれば、利用者は、入力画像に存在する関連情報を確認できる。
【0021】
請求項に記載の発明によれば、さらに、テンプレート画像で認識対象を規定できる。
【0022】
請求項に記載の発明によれば、さらに、スキャン時のミス等により入力画像が傾いても対応できる。
【0023】
請求項に記載の発明によれば、さらに、帳票を認識して確認修正できる。
【図面の簡単な説明】
【0024】
図1】実施形態の概念構成図である。
図2】実施形態の変換行列算出説明図である。
図3】実施形態の位置合わせ説明図(その1)である。
図4】実施形態の位置合わせ説明図(その2)である。
図5】実施形態の位置合わせされた入力画像の外接矩形説明図である。
図6】実施形態の位置合わせされた入力画像及びテンプレート画像の外接矩形説明図である。
図7】実施形態のテンプレート画像の補完説明図である。
図8】実施形態の機能ブロック図である。
図9】実施形態の構成ブロック図である。
図10】実施形態の処理フローチャートである。
図11A】実施形態の入力画像の座標系説明図である。
図11B】実施形態のテンプレート画像の座標系説明図である。
図11C】実施形態の確認修正画像の座標系説明図である。
図12】変形例の機能ブロック図である。
図13】変形例の矩形説明図である。
【発明を実施するための形態】
【0025】
以下、図面に基づき本発明の実施形態について説明する。
【0026】
<基本原理>
まず、本実施形態の基本原理について説明する。
【0027】
本実施形態の情報処理装置では、帳票等の画像を入力し、記入されている文字列を認識する際に、入力画像の認識領域をテンプレート画像で定義し、テンプレート画像の認識領域と入力画像の認識領域とを位置合わせして文字列を認識する。ここで、「テンプレート画像」は、入力画像のうちの認識対象を定義した定型様式であり、認識領域と、認識方法が含まれる。具体的には、「XX位置にある文字列をローマ字辞書で認識する」等である。認識領域は、例えば矩形領域の頂点座標、左上の頂点座標とその大きさ等で定義され得る。
【0028】
そして、テンプレート画像の認識領域と入力画像の認識領域とを位置合わせして文字列を認識し、入力画像と認識結果とをともに表示装置等に表示して、利用者の認識結果確認に供する。
【0029】
図1は、本実施形態の概念構成図である。
【0030】
帳票等の入力画像10には、認識すべき認識領域12が含まれており、図ではこの認識領域に「ABC」なる文字列が記入されている。入力画像10は、認識部14に供給される。
【0031】
また、認識領域と認識方法を定義したテンプレート画像16は、予め用意されて認識部14に供給される。テンプレート画像16において定義される認識領域は、図において領域(認識領域)15として示される。
【0032】
認識部14は、テンプレート画像の認識領域と入力画像の認識領域とを位置合わせして文字列を認識する。ここで、位置合わせは、入力画像の位置をテンプレート画像の位置に合わせることであり、公知の位置合わせ技術を用いることができる。具体的には、例えば入力画像とテンプレート画像のそれぞれの画像中の特徴点を抽出し、入力画像中の特徴点と、それに対応するテンプレート画像中の特徴点のペアを作成し、複数の特徴点のペアを用いて、入力画像の座標を、テンプレート画像の座標に変換する変換行列を算出すればよい。
【0033】
認識部14は、テンプレート画像を用いて入力画像10の認識領域12を認識すると、その認識結果22を確認画面18に表示する。また、これとともに、入力画像10自体を確認画面18に並列表示する。利用者は、確認画面18に並列表示された入力画像20と認識結果22を視認することで、認識結果の正否を容易に確認し得る。
【0034】
図2は、入力画像10とテンプレート画像16の位置合わせを模式的に示す。入力画像10のうちの認識領域12の特徴点と、テンプレート画像16で定義される認識領域15の特徴点のペアを作成し、これら特徴点のペアを用いて入力画像10の座標をテンプレート画像16の座標に変換する変換行列を算出する。変換行列は、アフィン変換行列、あるいは射影変換行列となる。そして、この変換行列を入力画像10に適用することで、入力画像10の位置をテンプレート画像16の位置に合わせ込み、入力画像10における認識領域12の文字列を認識する。
【0035】
図3は、変換行列を用いて入力画像10の位置をテンプレート画像16の位置に位置合わせする様子を模式的に示す。入力画像10を平行移動して入力画像10の認識領域12をテンプレート画像16の認識領域15に位置合わせする。これにより、認識領域12に記入された文字列「ABC」を正しく認識し得る。
【0036】
他方で、入力画像10が傾いている場合には、原理的には当該入力画像10を回転させ、傾きを修正してテンプレート画像16に位置合わせすればよいが、単に入力画像10を回転させるのみでは利用者に違和感が生じ得る。
【0037】
具体的には、帳票等をスキャンして読み取る際に、ミスが生じて入力画像10が傾いてしまった場合、確認画面18に表示される認識結果22も傾いた状態で表示されるため、利用者は違和感を覚え、認識結果が正立している場合と比較して確認修正が困難となる。
【0038】
そこで、入力画像10を回転させ、傾きを修正してテンプレート画像16に位置合わせして認識した後で、テンプレート画像16に位置合わせした形態、すなわち正立した形態で認識結果22を確認画面18に表示することが望ましいものの、この場合に別の課題が生じ得る。
【0039】
図4は、入力画像10を回転させて傾きを修正し、テンプレート画像16に位置合わせした形態で正立表示した場合を模式的に示す。入力画像10に対し、スキャン範囲17を一点鎖線で示す。入力画像10を変換行列を用いて回転し、さらにテンプレート画像16に位置合わせした形態で正立補正した状態を示す。このとき、入力画像10の認識領域12は正立しているものの、スキャン範囲17とテンプレート画像16は重複していないから、テンプレート画像16に位置合わせした形態でテンプレート画像16と重畳された領域のみからなる画像を正立表示すると、スキャンされているにもかかわらずテンプレート画像16の領域外に逸脱する領域が存在することになる。この逸脱領域が認識領域12と全く無関係であれば認識結果22には影響はないが、この逸脱領域に認識領域12に関連する情報、より具体的には認識領域12の文字列に関して何らかの関連情報が存在する場合には、認識結果22を確認修正する際に大きな影響を及ぼすことになる。例えば、図4に示すように、逸脱領域10aに「Cは誤り」等の、認識領域12の文字列に関する関連情報が記載されている場合、このような関連情報の欠落により、利用者による認識結果の確認修正を正しく行うことができない。
【0040】
さらに、帳票等をスキャンして読み取る際に、ミスが生じて入力画像10が傾いてしまった場合に加え、入力画像10の一部が欠けてしまった場合には、別の課題も生じ得る。
【0041】
図5は、この場合の状態を模式的に示す。入力画像10を変換行列を用いて回転し、テンプレート画像に位置合わせした形態で正立補正しても、スキャン時に欠けた部分16aは表示されず、認識結果に基づいてデータ入力したい情報、すなわちテンプレート画像全体の情報を表示することができず違和感を覚える(本来は、矩形領域として表示されるべきところ、非矩形領域として表示されることの違和感)。
【0042】
このように、本実施形態では、単に入力画像10を回転させてテンプレート画像16に位置合わせした場合に生じ得る、認識領域12に関連する情報の欠落、及びスキャン時に欠落した部分が表示されないことによる違和感を解消すべく、変換行列を用いた入力画像10の変換結果と、テンプレート画像16を重ね合わせ、その重ね合わせ領域に外接する外接矩形領域を設定し、当該外接矩形領域を確認画面18に表示する。
【0043】
図6は、入力画像10の変換結果と、テンプレート画像16を重ね合わせ、重ね合わせ領域に外接する外接矩形領域30を示す。この外接矩形領域30を図1における確認画面18における入力画像20として表示する。この外接矩形領域30には、テンプレート画像16の外にある逸脱領域が含まれ、かつ、スキャン時に欠けた部分16aも含まれている。従って、外接矩形領域30を入力画像20として表示することで、利用者は、認識領域12の関連情報を視認して確認でき、かつ、矩形領域の入力画像20として視認することができるので、違和感が解消される。
【0044】
なお、図6におけるスキャン時に欠けた部分16aに着目すると、この部分はスキャンされていないため画像情報が存在せず、外接矩形領域30を入力画像20として確認画面18に表示しても部分16aは空白として表示される。従って、部分16aについては、空白として表示することに代えて、図7に示すように、テンプレート画像16から部分16aに相当する部分を切り取り、テンプレート画像16の部分16aとして表示してもよい。これにより、部分16aについては空白ではなくテンプレート画像16の一部として表示されるので、利用者の違和感は一層解消される。
【0045】
ここで、部分16aについては、テンプレート画像16の一部であることを強調するために、特定色で表示してもよい。例えば、薄いグレー、あるいは薄い青で表示する等である。
【0046】
次に、本実施形態について、より具体的に説明する。
【0047】
<構成>
図8は、本実施形態における情報処理装置の機能ブロック図を示す。情報処理装置は、位置合わせ部50、認識部52、座標変換部54、確認修正画像作成部56、及び表示部58を備える。
【0048】
位置合わせ部50は、入力画像10とテンプレート画像16を入力し、変換行列を用いて入力画像10をテンプレート画像16に位置合わせする。位置合わせ部50は、入力画像10とテンプレート画像16から変換行列を作成し、作成された変換行列を用いて両画像を位置合わせする。すなわち、入力画像10とテンプレート画像16のそれぞれの画像中の特徴点を抽出し、入力画像10中の特徴点と、それに対応するテンプレート画像16中の特徴点のペアを作成し、複数の特徴点のペアを用いて変換行列を算出する。なお、この位置合わせ処理は、入力画像10の座標系をテンプレート画像16の座標系に変換する処理ということもできる。また、米国特許第6711293号には、入力画像10を射影変換してテンプレート画像16に位置合わせする技術が記載されており、この技術を用いてもよい。位置合わせ部50は、位置合わせ時に、テンプレート画像16の座標系から確認修正画像の座標系へのシフト量も併せて算出する。位置合わせ部50は、テンプレート画像16の座標系に変換された入力画像10を認識部52に出力する。また、テンプレート画像16の座標系から確認修正画像の座標系へのシフト量を座標変換部54に出力する。
【0049】
認識部52は、位置合わせ部50からの入力画像10に対し、テンプレート画像16で定義されている認識領域及び認識方法を用いて文字認識を実行する。認識領域は、テンプレート画像16の座標系における文字枠座標として与えられる。また、認識方法が例えば「ローマ字辞書で認識する」であれば、ローマ字辞書を用いて文字列をローマ字(アルファベット)として認識する。認識部52は、文字枠座標を座標変換部54に出力するとともに、認識結果(テキストデータ)を表示部58に出力する。
【0050】
座標変換部54は、位置合わせ部50で算出された、テンプレート画像16の座標系から確認修正画像の座標系へのシフト量を用いて、認識部52から入力した文字枠座標(これはテンプレート画像16の文字枠座標である)を確認修正画像の座標系に変換して表示部58に出力する。文字枠は、テンプレート画像16で定義された認識領域15を規定する枠であり、文字枠座標は、当該枠の位置座標である。
【0051】
確認修正画像作成部56は、位置合わせ部50からの入力画像10と、テンプレート画像16とを用いて、確認修正画像を作成する。すなわち、確認修正画像作成部56は、位置合わせ部50で位置合わせされた入力画像10とテンプレート画像16とを重ね合わせ、当該重ね合わせ領域の外接矩形領域を確認修正画像として作成する。この確認修正画像は、図1における入力画像20に相当する。また、確認修正画像作成部56は、必要に応じ、図7に示すように、欠落した部分16aをテンプレート画像16の一部で補完する処理を実行する。画像の一部を別の画像で補完、あるいは合成する技術は公知である。確認修正画像作成部56は、作成した確認修正画像を表示部58に出力する。
【0052】
表示部58は、図1における確認画面18に相当し、認識部52からの認識結果と、座標変換部54からの文字枠座標と、確認修正画像作成部56からの確認修正画像を表示する。
【0053】
図9は、本実施形態における情報処理装置の構成ブロック図を示す。情報処理装置は、コンピュータで構成され、プロセッサ60、ROM62、RAM64、入力部66、出力部68、及び記憶部70を備える。
【0054】
プロセッサ60は、ROM62あるいはその他のプログラムメモリに記憶された処理プログラムを読み出し、RAM64を作業メモリとして用いて実行することで、図8における位置合わせ部50、認識部52、座標変換部54、及び確認修正画像作成部56を実現する。プロセッサ60における処理を列挙すると、以下の通りである。
・変換行列の算出処理
・変換行列を用いた入力画像10の位置合わせ処理
・入力画像10の認識処理
・文字枠座標の変換処理
・確認修正画像作成処理
・確認修正画像と認識結果と文字枠座標の表示処理
【0055】
プロセッサ60は、広義的なプロセッサを指し、汎用的なプロセッサ(例えば CPU:Central Processing Unit等)や、専用のプロセッサ(例えば GPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array 、プログラマブル論理デバイス等)を含むものである。また、プロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。
【0056】
入力部66は、キーボードやマウス、スキャナ、タッチパネル、通信インターフェイス等で構成され、帳票等の入力画像10及びテンプレート画像16を入力する。なお、テンプレート画像16は、予めプログラムの一部として含まれていてもよく、あるいは記憶部70に記憶されていてもよい。また、利用者は、確認修正画像で認識結果を確認し、修正が必要と判断した場合には、入力部66を操作して認識結果を修正する。
【0057】
出力部68は、タッチパネルを含む表示装置等で構成され、プロセッサ60で作成された確認修正画像、認識結果、及び文字枠を表示する。出力部68は、図8における表示部58を実現する。なお、出力部68を通信インターフェイスで構成し、インターネット等を介して外部の表示装置に確認修正画像、認識結果、及び文字枠を出力して表示するように構成してもよい。これにより、利用者は、情報処理装置から物理的に離間した位置におけるタブレット端末やPC等の画面で認識結果を確認・修正し得る。
【0058】
記憶部70は、入力画像10やテンプレート画像、認識結果、修正後の認識結果等を記憶する。
【0059】
<処理フローチャート>
図10は、本実施形態の処理フローチャートを示す。
【0060】
プロセッサ60は、認識すべき帳票等の文書を入力画像10として入力する(S101)。具体的には、例えばオートフィーダにセットされた帳票をスキャナで読み取り、デジタル画像データとして入力する。複合機のスキャナで読み取ってもよい。あるいは、既にスキャナで読み取って記憶部70に記憶されていたデジタル画像データを記憶部70から読み出してもよい。利用者は、例えばキーボード等を操作して、複数のデジタル画像データから認識対象のデジタル画像データを指定してもよい。
【0061】
次に、プロセッサ60は、テンプレート画像16を入力する(S102)。テンプレート画像16は、入力画像10毎に予め用意される。入力画像10が帳票であれば、当該帳票の様式は予め既知であるから、認識対象の記入欄の位置や文字種に応じたテンプレート画像16が用意される。プロセッサ60は、入力画像10の種類を識別し、識別した種類に応じたテンプレート画像16を選択してもよい。あるいは、利用者が手動でテンプレート画像16を選択してもよい。テンプレート画像16はプログラムに組み込まれ、あるいは記憶部70に記憶される。プロセッサ60は、入力画像10を入力した後の所定のタイミングでテンプレート画像16を読み込む。
【0062】
次に、プロセッサ60は、入力画像10とテンプレート画像16から、入力画像10をテンプレート画像16に位置合わせするための変換行列を算出する(S103)。変換行列は、入力画像10のうちの認識領域12の特徴点と、テンプレート画像16で定義される認識領域15の特徴点のペアを作成し、これら特徴点のペアを用いて算出する。変換行列は、アフィン変換行列、あるいは射影変換行列であるが、これに限定されない。なお、入力画像10とテンプレート画像16との位置ずれ量を計測し、当該位置ずれ量が予め設定された閾値未満の場合には、認識処理に支障がないとして変換行列を算出する処理を省略してもよい。また、既に変換行列が算出されて記憶部70等に記憶されており、入力画像10とテンプレート画像16の位置合わせに当該変換行列がそのまま援用し得る場合にも、変換行列を算出する処理を省略し得る。
【0063】
次に、プロセッサ60は、変換行列を用いて入力画像10をテンプレート画像16に位置合わせする(S104)。この位置合わせにより、入力画像10の認識領域12とテンプレート画像16の認識領域15の位置を一致させる。なお、この一致は、認識精度を確保するために必要な範囲内での一致でよく、完全一致を意味しない。
【0064】
次に、プロセッサ60は、テンプレート画像16で定義された認識領域15及び認識方法に従って、位置合わせされた入力画像10の認識領域12の文字列を認識する(S105)。文字列認識処理は、公知の任意の技術を用いることができ、例えば特開平5-40853号公報に記載された方法を用いることができるが、これに限定されない。また、本実施形態では、ローマ字辞書を用いたローマ字認識を例示しているが、数字、平仮名、カタカナ、漢字その他の文字列認識でもよいのは言うまでもない。また、プロセッサ60は、文字枠座標を変換する(S106)。すなわち、テンプレート画像16で定義された、認識領域15を定義する文字枠座標(認識領域15が矩形であれば、例えば4頂点の位置座標、あるいは左上の位置座標と直交する2辺のサイズ)を確認修正画像の座標系に変換する(S106)。この変換については、さらに詳述する。
【0065】
次に、プロセッサ60は、確認修正画像を作成する(S107)。確認修正画像は、位置合わせされた入力画像10とテンプレート画像16から作成される。プロセッサ60は、位置合わせされた入力画像10とテンプレート画像16とを重ね合わせ、重ね合わせ領域の外接矩形として確認修正画像を作成する。図6に示す外接矩形領域30が、この確認修正画像に相当する。
【0066】
次に、プロセッサ60は、S107で作成した確認修正画像と、S106で作成した変換後の文字枠座標と、S105での認識結果をともに出力部68に出力して表示する(S108)。表示形態は任意であるが、確認修正画像と、認識結果とをその対応が識別できる態様で表示するのが望ましい。例えば、図1に示すように、画面の左側に確認修正画像及びその上に文字枠座標を重畳表示し、画面の右側にこれと対比するように認識結果を表示する。確認修正画像には「入力画像」とラベルを付して表示し、認識結果には「入力画像の認識結果」とラベルを付して表示してもよい。あるいは、確認修正画像と認識結果との間に、矢印等の記号を付してもよい。勿論、確認修正画像を上部に表示し、認識結果を下部に表示してもよい。あるいは、確認修正画像をクリックすると、その認識結果が表示されるように構成してもよい。確認修正画像には、スキャンされた入力画像10の全ての領域が含まれるので、仮に認識領域12に関連する情報が含まれていても当該情報を確実に表示でき、利用者は適宜参照できる。また、確認修正画像は矩形であるため、利用者は違和感を覚えることなく確認修正画像と認識結果を見比べて確認できる。
【0067】
次に、プロセッサ60は、認識結果の修正が必要か否かを判定する(S109)。具体的には、利用者が確認修正画像を視認し、修正が必要であれば(S109でYES)入力部66から修正指示を入力する。プロセッサ60は、利用者からの修正指示を受けて認識結果を修正する(S110)。例えば、認識結果が「ABC」であるものの、利用者は「ABD」の誤りであると判断した場合、入力部66から「C」を「D」に修正する指示を入力し、プロセッサ60は当該指示に応じて認識結果を「ABD」に修正して表示する。
【0068】
なお、利用者による確認修正が完了した後、プロセッサ60は、利用者からの指示に応じて認識結果を記憶部70に記憶する。あるいは出力部68を介して他のコンピュータ(サーバコンピュータを含む)に出力する。
【0069】
図11A図11B、及び図11Cは、プロセッサ60で実行される座標系の変換処理を模式的に示す。
【0070】
図11Aは、入力画像10の座標系を示す。入力画像10の座標系は、入力画像10の左上を原点、原点から入力画像10の外接矩形の上辺をx軸、外接矩形の左辺をy軸としたxy座標系として定義される。入力画像10が傾いている場合、入力画像10における認識領域12もこれに応じて傾いた状態にある。
【0071】
図11Bは、テンプレート画像16の座標系を示す。テンプレート画像16の左上を原点、原点からテンプレート画像16の上辺をX軸、テンプレート画像16の左辺をY軸としたXY座標系として定義される。テンプレート画像16における認識領域15は正立状態にある。認識領域15の枠は文字枠であり、この文字枠の座標が文字枠座標である。
【0072】
図10のS104では、入力画像10をテンプレート画像16に位置合わせする。すなわち、入力画像10の座標系であるxy座標系をテンプレート画像16の座標系であるXY座標系に変換する。この結果、テンプレート画像16のXY座標系上に、入力画像10が配置される。
【0073】
そして、図10のS107では、テンプレート画像16のXY座標系における入力画像10とテンプレート画像16との重ね合わせの外接矩形を設定する。この外接矩形の左上の位置を原点とし、テンプレート画像16のXY座標系と平行なUV座標系を想定する。すなわち、U軸、V軸はそれぞれX軸、Y軸に平行である。このUV座標系が確認修正画像の座標系となる。
【0074】
図11Cは、確認修正画像のUV座標系を示す。図11Bに示す文字枠座標は、テンプレート画像16のXY座標系における位置座標であるから、これをXY座標系からUV座標系に変換する必要がある。U軸及びV軸は、既述したようにそれぞれX軸及びY軸に平行であるから、XY座標系からUV軸座標系への変換は、単なる平行移動であってシフト量で与えられる。図10のS106では、このシフト量を算出して文字枠座標を変換する。
【0075】
このように、本実施形態では、入力画像10をテンプレート画像16に位置合わせし、位置合わせされた入力画像10とテンプレート画像を重ね合わせた画像の外接矩形領域を確認修正画像として生成し、文字枠座標を生成し、確認修正画像と文字枠座標と認識結果をともに確認画面18に表示することで、歪みのない(回転等のない)画像を表示できるとともに、入力画像10の端部等に記載された関連情報を表示でき、さらに矩形の確認修正画像とすることで利用者の違和感を解消できる。
【0076】
<変形例1>
実施形態では、位置合わせ部50で位置合わせされた入力画像10から認識部52で文字列を認識しているが、位置合わせ部50で位置合わせされた入力画像10は確認修正画像作成部56に供給され、確認修正画像作成部56で確認修正画像を作成するので、この確認修正画像を用いて認識部52で文字列を認識してもよい。
【0077】
図12は、この変形例における情報処理装置の機能ブロック図を示す。
【0078】
位置合わせ部50は、入力画像10とテンプレート画像16を入力し、変換行列を用いて入力画像10をテンプレート画像16に位置合わせする。位置合わせ部50は、入力画像10とテンプレート画像16から変換行列を作成し、作成された変換行列を用いて両画像を位置合わせする。この位置合わせ処理は、入力画像10の座標系をテンプレート画像16の座標系に変換する処理ということもできる。位置合わせ部50は、位置合わせ時に、テンプレート画像16の座標系から確認修正画像の座標系へのシフト量も併せて算出する。
【0079】
位置合わせ部50は、テンプレート画像16の座標系に変換された入力画像10を確認修正画像作成部56に出力する。また、テンプレート画像16の座標系から確認修正画像の座標系へのシフト量を座標変換部54に出力する。
【0080】
座標変換部54は、位置合わせ部50で算出された、テンプレート画像16の座標系から確認修正画像の座標系へのシフト量を用いて、文字枠座標(これはテンプレート画像16の文字枠座標)を確認修正画像の座標系に変換して認識部52に出力する。
【0081】
確認修正画像作成部56は、位置合わせ部50からの入力画像10と、テンプレート画像16とを用いて、確認修正画像を作成する。すなわち、確認修正画像作成部56は、位置合わせ部50で位置合わせされた入力画像10とテンプレート画像16とを重ね合わせ、当該重ね合わせ領域の外接矩形領域を確認修正画像として作成する。また、確認修正画像作成部56は、必要に応じ、図7に示すように、欠落した部分16aをテンプレート画像16の一部で補完する処理を実行する。確認修正画像作成部56は、作成した確認修正画像を認識部52に出力するとともに、表示部58に出力する。
【0082】
認識部52は、確認修正画像作成部56からの確認修正画像に対し、テンプレート画像16で定義されている認識領域及び認識方法を用いて文字認識を実行する。認識領域は、座標変換部54から文字枠座標として与えられる。認識部52は、認識結果(テキストデータ)、及び文字枠座標を表示部58に出力する。
【0083】
表示部58は、図1における確認画面18に相当し、認識部52からの認識結果及び文字枠座標と、確認修正画像作成部56からの確認修正画像を表示する。
【0084】
なお、この変形例では、文字枠座標は認識部52から表示部58に出力する構成であるが、座標変換部54から表示部58に出力する構成でもよい。
【0085】
<変形例2>
本実施形態では、位置合わせされた入力画像10とテンプレート画像16を重ね合わせ、その重ね合わせの外接矩形を設定して確認修正画像としているが、位置合わせされた入力画像10とテンプレート画像16を含む任意の形状の領域を確認修正画像としてもよく、あるいは位置合わせされた入力画像10とテンプレート画像16を含む矩形の領域を確認修正画像としてもよい。
【0086】
図13は、この場合の確認修正画像の例を示す。入力画像10の変換結果と、テンプレート画像16を含む矩形領域32を示す。この矩形領域32を確認修正画像とする。図6と異なり、矩形領域32は入力画像10とテンプレート画像16に外接していない点に留意されたい。
【0087】
また、この場合においても、図7に示すように、部分16aについては、テンプレート画像16の一部であることを強調表示してもよい。例えば、薄いグレー、あるいは薄い青で表示する等である。
【0088】
利用者は、
(1)位置合わせされた入力画像10とテンプレート画像16を含む任意の形状の領域
(2)位置合わせされた入力画像10とテンプレート画像16を含む矩形領域
(3)位置合わせされた入力画像10とテンプレート画像16の外接矩形領域
のいずれかを選択可能とする構成でもよい。さらに、デフォルト状態では(3)とし、利用者が必要に応じて(1)あるいは(2)に変更可能な構成としてもよい。
【符号の説明】
【0089】
10 入力画像、12 認識領域、14 認識部、16 テンプレート画像、18 確認画面、20 入力画像(確認修正画像)、22 認識結果、60 プロセッサ。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図11C
図12
図13