IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-118226文字認識プログラム、文字認識方法および文字認識装置
<>
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図1
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図2
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図3
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図4
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図5
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図6
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図7
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図8
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図9
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図10
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図11
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図12
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図13
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図14
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図15
  • 特開-文字認識プログラム、文字認識方法および文字認識装置 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024118226
(43)【公開日】2024-08-30
(54)【発明の名称】文字認識プログラム、文字認識方法および文字認識装置
(51)【国際特許分類】
   G06V 30/12 20220101AFI20240823BHJP
   G06T 7/00 20170101ALI20240823BHJP
【FI】
G06V30/12 J
G06T7/00 Q
G06V30/12 B
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023024548
(22)【出願日】2023-02-20
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002918
【氏名又は名称】弁理士法人扶桑国際特許事務所
(72)【発明者】
【氏名】田中 宏
【テーマコード(参考)】
5B064
5L096
【Fターム(参考)】
5B064BA01
5B064EA11
5L096BA08
5L096CA02
5L096DA02
5L096FA06
5L096FA14
5L096FA37
5L096GA07
5L096MA01
(57)【要約】
【課題】文字の認識精度を高めることが可能な情報を提示する。
【解決手段】文字認識装置1は、撮影画像4から複数の文字を認識し、複数の文字についての誤認識の検出結果を取得し、撮影画像4のうち複数の文字をそれぞれ含む部分領域4a~4dごとに、画質を評価するための複数の評価種別のそれぞれについての評価結果を出力し、検出結果において複数の文字のうち1以上の第1の文字が誤検出されている場合に、1以上の第1の文字と、複数の文字のうち誤認識されていない1以上の第2の文字との間で、複数の評価種別のそれぞれについての評価結果を比較し、評価結果の比較結果に基づき、複数の評価種別から誤認識に対する影響度が最も高い評価種別を特定して表示装置3に表示させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
コンピュータに、
撮影画像から複数の文字を認識し、
前記複数の文字についての誤認識の検出結果を取得し、
前記撮影画像のうち前記複数の文字をそれぞれ含む部分領域ごとに、画質を評価するための複数の評価種別のそれぞれについての評価結果を出力し、
前記検出結果において前記複数の文字のうち1以上の第1の文字が誤検出されている場合に、前記1以上の第1の文字と、前記複数の文字のうち誤認識されていない1以上の第2の文字との間で、前記複数の評価種別のそれぞれについての前記評価結果を比較し、
前記評価結果の比較結果に基づき、前記複数の評価種別から誤認識に対する影響度が最も高い評価種別を特定して表示装置に表示させる、
処理を実行させる文字認識プログラム。
【請求項2】
前記複数の評価種別のうち、前記1以上の第1の文字と前記1以上の第2の文字との間で前記評価結果が異なる評価種別を、前記影響度が最も高い評価種別として特定する、
請求項1記載の文字認識プログラム。
【請求項3】
前記複数の評価種別のうち、前記1以上の第1の文字の少なくとも1つについて画像品質が低いと評価され、かつ、前記1以上の第2の文字の少なくとも1つについて画像品質が高いと評価された評価種別を、前記影響度が最も高い評価種別として特定する、
請求項1記載の文字認識プログラム。
【請求項4】
前記評価結果として、前記複数の評価種別のそれぞれについての評価値を出力し、
前記複数の文字のそれぞれについて、前記複数の評価種別のそれぞれに対して定義された適正範囲と前記評価値との比較に基づいて、前記複数の評価種別のそれぞれについての低品質度を算出し、
前記複数の評価種別のそれぞれについて、前記1以上の第1の文字についての前記低品質度と前記1以上の第2の文字についての前記低品質度との比較結果に基づいて前記影響度を算出する、
請求項1記載の文字認識プログラム。
【請求項5】
前記複数の評価種別のそれぞれについて、前記1以上の第1の文字についての前記低品質度の平均値と、前記1以上の第2の文字についての前記低品質度の平均値との差分値を前記影響度として算出する、
請求項4記載の文字認識プログラム。
【請求項6】
前記複数の評価種別のうち前記影響度が高い2以上の評価種別を、前記影響度に応じた順位を付与して前記表示装置に表示させる、
請求項1記載の文字認識プログラム。
【請求項7】
前記コンピュータに、
前記評価結果の比較結果に基づいて、前記複数の評価種別のそれぞれについて前記影響度を算出し、算出された前記影響度を記憶部に記憶された履歴情報に登録し、
文字認識のための撮影が再度行われる際に、前記履歴情報に基づき、前記複数の評価種別のそれぞれについて前記影響度の平均値を算出し、前記複数の評価種別のうち前記平均値が最も大きい評価種別を前記表示装置に表示させる、
処理を実行させる請求項1記載の文字認識プログラム。
【請求項8】
コンピュータが、
撮影画像から複数の文字を認識し、
前記複数の文字についての誤認識の検出結果を取得し、
前記撮影画像のうち前記複数の文字をそれぞれ含む部分領域ごとに、画質を評価するための複数の評価種別のそれぞれについての評価結果を出力し、
前記検出結果において前記複数の文字のうち1以上の第1の文字が誤検出されている場合に、前記1以上の第1の文字と、前記複数の文字のうち誤認識されていない1以上の第2の文字との間で、前記複数の評価種別のそれぞれについての前記評価結果を比較し、
前記評価結果の比較結果に基づき、前記複数の評価種別から誤認識に対する影響度が最も高い評価種別を特定して表示装置に表示させる、
文字認識方法。
【請求項9】
撮影画像から複数の文字を認識し、
前記複数の文字についての誤認識の検出結果を取得し、
前記撮影画像のうち前記複数の文字をそれぞれ含む部分領域ごとに、画質を評価するための複数の評価種別のそれぞれについての評価結果を出力し、
前記検出結果において前記複数の文字のうち1以上の第1の文字が誤検出されている場合に、前記1以上の第1の文字と、前記複数の文字のうち誤認識されていない1以上の第2の文字との間で、前記複数の評価種別のそれぞれについての前記評価結果を比較し、
前記評価結果の比較結果に基づき、前記複数の評価種別から誤認識に対する影響度が最も高い評価種別を特定して表示装置に表示させる、処理部、
を有する文字認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字認識プログラム、文字認識方法および文字認識装置に関する。
【背景技術】
【0002】
近年、イメージスキャナやカメラによって取り込まれた画像から文字を認識する技術が広く普及している。このような技術は、OCR(Optical Character Recognition)といわれる場合もある。特に最近では、スマートフォンなどの携帯端末用のOCRアプリケーションが普及しており、ユーザは、携帯機器に搭載されたカメラを用いて画像を撮影し、撮影された画像から文字を認識させることが可能となっている。
【0003】
文字認識に関しては、次のような技術が提案されている。例えば、複数の画像をセグメント化して得られた各セクションに対応するテキストをOCR処理により生成する処理と、言語データベースを用いて識別したテキスト内のエラーから統計スコアを計算する処理とを含む画像評価プロセスを、統計スコアが閾値より小さくなるまで繰り返し実行する装置が提案されている。また、認識された文字列に対するユーザの修正を受け付けて修正された文字列を取得し、認識された文字列と修正された文字列との差異部分における修正特性を、差異部分の文字認識の信頼度が閾値未満の場合のみ実行する装置が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】米国特許出願公開第2020/0184208号明細書
【特許文献2】特開2022-137634号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、一般的に、撮影画像の画質が低いほど撮影画像からの文字の認識精度は低下する。しかし、文字の誤認識が発生した場合に、撮影環境や撮影方法をどのように変えれば画質を改善して誤認識を防止できるかを撮影者が正確に判断することは難しい。
【0006】
1つの側面では、本発明は、文字の認識精度を高めることが可能な情報を提示できる文字認識プログラム、文字認識方法および文字認識装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
1つの案では、コンピュータに、撮影画像から複数の文字を認識し、複数の文字についての誤認識の検出結果を取得し、撮影画像のうち複数の文字をそれぞれ含む部分領域ごとに、画質を評価するための複数の評価種別のそれぞれについての評価結果を出力し、検出結果において複数の文字のうち1以上の第1の文字が誤検出されている場合に、1以上の第1の文字と、複数の文字のうち誤認識されていない1以上の第2の文字との間で、複数の評価種別のそれぞれについての評価結果を比較し、評価結果の比較結果に基づき、複数の評価種別から誤認識に対する影響度が最も高い評価種別を特定して表示装置に表示させる、処理を実行させる文字認識プログラムが提供される。
【0008】
また、1つの案では、上記の文字認識プログラムに基づく処理と同様の処理をコンピュータが実行する文字認識方法が提供される。
さらに、1つの案では、上記の文字認識プログラムに基づく処理と同様の処理を実行する文字認識装置が提供される。
【発明の効果】
【0009】
1つの側面では、文字の認識精度を高めることが可能な情報を提示できる。
【図面の簡単な説明】
【0010】
図1】第1の実施の形態に係る文字認識装置の構成例および処理例を示す図である。
図2】第2の実施の形態に係る情報処理装置の構成例を示す図である。
図3】情報処理装置が備える処理機能の構成例を示す図である。
図4】品質特徴定義情報の例を示す図である。
図5】品質種別の提示処理の比較例を示す第1の図である。
図6】品質種別の提示処理の比較例を示す第2の図である。
図7】第2の実施の形態における品質特徴量の算出処理例を示す図である。
図8】第2の実施の形態における品質種別の提示処理例を示す図である。
図9】第2の実施の形態における撮影支援処理手順を示すフローチャートの例(その1)である。
図10】第2の実施の形態における撮影支援処理手順を示すフローチャートの例(その2)である。
図11】誤り影響度の高い品質種別の特定処理例を示すフローチャートである。
図12】第3の実施の形態における誤り影響度の算出処理例を示す図である。
図13】第3の実施の形態における品質種別の提示処理例を示す図である。
図14】第3の実施の形態における撮影支援処理手順を示すフローチャートの例である。
図15】第4の実施の形態に係る情報処理装置が備える処理機能の構成例である。
図16】警告画像の表示処理手順を示すフローチャートの例である。
【発明を実施するための形態】
【0011】
以下、本発明の実施の形態について図面を参照して説明する。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る文字認識装置の構成例および処理例を示す図である。文字認識装置1には、カメラ2と表示装置3が接続されている。なお、カメラ2と表示装置3の少なくとも一方は、文字認識装置1に内蔵されていてもよい。
【0012】
文字認識装置1は、カメラ2によって撮影された画像から文字を認識する。また、文字認識装置1は、文字の誤認識が発生した場合に、撮影画像と文字の認識結果とに基づいて、文字の認識精度を高めることが可能な情報を表示装置3に表示させることが可能になっている。この情報は、例えば、文字認識のための次回の撮影時において、撮影画像の画質を向上させて文字の認識精度を高めるために、撮影環境や撮影方法をどのように変えればよいかをユーザに示唆し得る情報である。
【0013】
文字認識装置1は、処理部1aを有する。処理部1aは、例えばプロセッサである。処理部1aは、以下のような処理を実行する。なお、処理部1aによる以下の処理は、例えば、処理部1aが所定のプログラムを実行することで実現される。
【0014】
処理部1aは、カメラ2によって撮影された撮影画像を取得し、取得した撮影画像から文字を認識する。また、処理部1aは、認識された文字についての誤認識の検出結果を取得する。以下の説明では、例として、撮影画像4から4つの文字が認識され、それらのうち2番目の文字が誤認識されたとする。具体的には、撮影画像4には「a」「b」「c」「d」という4つの文字が写っているが、これらのうち「b」が誤って「g」と認識されたとする。なお、以下の説明では、誤認識された文字を「不正解文字」と記載し、正しく認識された文字を「正解文字」と記載する場合がある。
【0015】
処理部1aは、撮影画像4の領域から、認識された文字をそれぞれ含む部分領域4a~4dを特定する。処理部1aは、部分領域4a~4dのそれぞれについて画質を評価し、評価結果を出力する。この画質評価は、複数の評価種別のそれぞれについて行われる。このため、部分領域4a~4dのそれぞれについて、評価種別ごとに評価結果が出力される。
【0016】
図1の例では、3種類の評価種別A~Cで画質が評価されている。また、一例として、評価結果としては文字認識を正しく実行するための適正か否かを示す情報が出力されている。このような情報は、例えば次のように出力される。画質評価処理では、評価種別A~Cのそれぞれについて画質の高さを示す評価値が算出される。また、評価種別A~Cのそれぞれに対して、文字認識を正しく実行できる可能性が高い、評価値の適正範囲があらかじめ定義されている。そして、算出された評価値が適正範囲に含まれる場合に「適正」と評価され、評価値が適正範囲に含まれない場合に「不適正」と評価される。
【0017】
処理部1aは、誤認識された不正解文字と、正しく認識された正解文字との間で、複数の評価種別のそれぞれについての評価結果を比較する。そして、処理部1aは、評価結果の比較結果に基づき、複数の評価種別の中から、少なくとも、誤認識に対する影響度が最も高い評価種別を特定して、表示装置3に表示させる。
【0018】
評価結果の比較では、例えば、評価種別ごとに、文字の認識結果(正解度)と評価結果(画質の高さ)との相関が判定される。相関が高い評価種別ほど、文字の誤認識に対する影響度が高いと推定される。
【0019】
図1の例では、評価種別A,Bについては、不正解文字と正解文字とで評価結果は同じである。一方、評価種別Cについては、不正解文字では評価結果が「不適正」であるが、正解文字では評価結果が「適正」である。この場合、評価種別Cで評価される画質の低下が、部分領域4bでの文字の誤認識に対する最も大きな原因であると推定できる。このため、処理部1aは、誤認識に対する影響度が最も高い評価種別として評価種別Cを特定し、特定された評価種別Cを提示した画像5を表示装置3に表示させる。
【0020】
これにより、文字認識装置1は、文字の認識精度を高めることが可能な情報をユーザに提示できる。例えば、ユーザは、誤認識に対する影響度が最も高い評価種別を認識することで、文字認識のための次回の撮影時に撮影環境や撮影方法をどのように変更すればよいかを認識できる。ユーザが撮影環境や撮影方法を変更することで、次回の文字の認識精度を高めることができる。例えば、認識した評価種別に応じてユーザが撮影環境や撮影方法をすぐに変更して撮影し直すことで、文字認識装置1に高確率で文字を正しく認識させることができる。
【0021】
〔第2の実施の形態〕
図2は、第2の実施の形態に係る情報処理装置の構成例を示す図である。図2に示す情報処理装置100は、図1に示した文字認識装置1の一例であり、カメラ101を備えた携帯型の情報処理端末である。例えば、情報処理装置100は、スマートフォン、タブレット端末、ノートPC(Personal Computer)などである。情報処理装置100は、カメラ101によって撮影された画像から文字を認識する機能、および、文字認識精度を高めるための有用な情報を提示することで、ユーザによる文字認識のための撮影を支援する機能を備える。
【0022】
情報処理装置100は、例えば、以下のようなハードウェア構成を有する。情報処理装置100は、プロセッサ102、RAM(Random Access Memory)103、SSD(Solid State Drive)104、表示装置105、入力装置106、読み取り装置107および通信インタフェース(I/F)108を有する。
【0023】
プロセッサ102は、情報処理装置100全体を統括的に制御する。プロセッサ102は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)またはPLD(Programmable Logic Device)である。また、プロセッサ102は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組み合わせであってもよい。なお、プロセッサ102は、図1に示した処理部1aの一例である。
【0024】
RAM103は、情報処理装置100の主記憶装置として使用される。RAM103には、プロセッサ102に実行させるOS(Operating System)プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM103には、プロセッサ102による処理に必要な各種データが格納される。
【0025】
SSD104は、情報処理装置100の補助記憶装置として使用される。SSD104には、OSプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、HDD(Hard Disk Drive)などの他の種類の不揮発性記憶装置を使用することもできる。
【0026】
表示装置105は、プロセッサ102からの命令にしたがって画像を表示する。表示装置105は、例えば、液晶ディスプレイや有機EL(ElectroLuminescence)ディスプレイである。
【0027】
入力装置106は、ユーザからの入力操作を受け付け、入力操作に応じた信号をプロセッサ102に送信する。入力装置106は、例えば、キーボードやポインティングデバイスである。ポインティングデバイスとしては、マウス、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
【0028】
読み取り装置107には、可搬型記録媒体107aが脱着される。読み取り装置107は、可搬型記録媒体107aに記録されたデータを読み取ってプロセッサ102に送信する。可搬型記録媒体107aとしては、半導体メモリ、光ディスクなどがある。
【0029】
通信インタフェース108は、ネットワーク108aを介して他の装置との間でデータの送受信を行う。通信インタフェース108は、無線インタフェースであってもよい。
以上のようなハードウェア構成によって、情報処理装置100の処理機能を実現することができる。
【0030】
図3は、情報処理装置が備える処理機能の構成例を示す図である。情報処理装置100は、記憶部110、画像入力部121、文字認識部122、誤り訂正部123、認識結果出力部124、画像品質評価部125、誤り影響度判定部126および品質特徴表示部127を備える。
【0031】
記憶部110は、RAM103やSSD104など、情報処理装置100が備える記憶装置に確保される記憶領域である。記憶部110には、品質特徴定義情報111が記憶される。品質特徴定義情報111には、文字認識対象となった入力画像の品質を評価するための特徴量(品質特徴量)に関する定義情報が登録される。品質特徴定義情報111には、品質評価のための種別(品質種別)ごとに、品質特徴量の適正範囲が登録される。
【0032】
画像入力部121、文字認識部122、誤り訂正部123、認識結果出力部124、画像品質評価部125、誤り影響度判定部126および品質特徴表示部127の処理は、例えば、プロセッサ102が所定のアプリケーションプログラムを実行することで実現される。
【0033】
画像入力部121は、カメラ101によって撮影された画像の入力を受け付ける。文字認識部122は、入力された撮影画像に対して文字認識処理を実行し、認識された文字の文字コードを出力する。誤り訂正部123は、文字の認識結果の誤りを訂正する。認識結果出力部124は、文字の認識結果を出力する。誤り訂正部123によって誤りが訂正された場合には、認識結果出力部124は、誤り訂正後の認識結果を出力する。
【0034】
例えば、誤り訂正部123は、認識された文字を含む画像を表示装置105に表示させ、ユーザからの入力操作を受け付ける。この画像には、例えば、文字認識結果を確定させるための確定ボタンが含まれる。文字の誤認識がない場合、ユーザは、確定ボタンを押下する。これによって認識結果が確定され、認識結果出力部124は、確定された認識結果を出力する。一方、文字の誤認識がある場合、ユーザは、誤認識された文字を訂正した後、確定ボタンを押下する。この場合、認識結果出力部124は、訂正された認識結果を出力する。これとともに、誤り訂正部123は、誤認識された文字を画像品質評価部125に通知する。
【0035】
画像品質評価部125は、文字の誤認識が発生した場合に、文字認識部122から撮影画像において各文字が認識された位置を取得し、撮影画像から認識された文字を1つずつ含む文字領域を切り出す。文字領域は、例えば、文字が内接する矩形領域、またはその矩形領域を上下左右に所定量だけ拡大した矩形領域として特定される。
【0036】
画像品質評価部125は、切り出された各文字領域について、品質特徴定義情報111に定義された品質種別ごとに画像品質を評価し、評価結果を誤り影響度判定部126に出力する。このとき、画像品質評価部125は、文字領域ごとに(すなわち、認識された文字ごとに)誤認識の有無を示す情報も誤り影響度判定部126に出力する。
【0037】
誤り影響度判定部126は、画像品質評価部125から出力された評価結果を、誤認識された不正解文字と正しく認識された正解文字との間で比較する。誤り影響度判定部126は、この比較の結果に基づいて、各品質種別が文字の誤認識に対して与えた影響度を示す誤り影響度を算出し、品質種別ごとの誤り影響度を品質特徴表示部127に出力する。
【0038】
品質特徴表示部127は、品質特徴定義情報111に定義された品質種別のうち、少なくとも、誤り影響度が最も高い品質種別を表示装置105に表示させる。
図4は、品質特徴定義情報の例を示す図である。品質特徴定義情報111には、入力画像の品質評価のための複数の品質種別と、各品質種別に対応する品質特徴量の適正範囲とが登録される。
【0039】
品質種別は、文字の誤認識の原因となり得る入力画像の特徴的な現象を示す。図4の例では、品質種別として「低コントラスト」「黒つぶれ」「ボケ」「影あり」が登録されている。各品質種別に対応する品質特徴量は、入力画像に対して所定の画像処理を実行することで得られる物理量を示す。
【0040】
品質特徴定義情報111に登録される適正範囲は、入力画像の品質が高い(すなわち、上記の現象が発生していない)と判定される品質特徴量の範囲を示す。品質特徴量が適正範囲に含まれている場合には、対応する品質種別が示す現象によって文字の誤認識は発生しにくいと推定される。適正範囲は、品質種別ごとにあらかじめ決められている。なお、図4の例では、いずれの品質種別についても品質特徴量がとり得る範囲は0以上100以下であるものとする。また、適正範囲は、品質種別ごとにあらかじめ決められている。
【0041】
例えば、「低コントラスト」は、文字と背景の明るさの比が小さい現象である。「低コントラスト」に対応する品質特徴量は、例えば、文字領域の明るさ(例えば輝度の平均値や最小値)と背景領域の明るさ(例えば輝度の平均値や最大値)との差分値として計算される。品質特徴量が所定の閾値未満の場合に、「不適正」(すなわち、「低コントラスト」の状態である)と判定される。
【0042】
また、「黒つぶれ」や「影あり」に対応する品質特徴量は、例えば、入力画像における輝度の分布状態に基づいて計算される。「ボケ」に対応する品質特徴量は、例えば、エッジフィルタなどを用いて、文字と背景との境界における輝度の変化率(傾き)を計算することで得られる。
【0043】
情報処理装置100は、上記の品質種別のうち、少なくとも、誤り影響度が最も高い品質種別をユーザに提示する。基本的に、提示される品質種別は、誤認識が発生した文字に対応する文字領域で不適正と判定された品質種別となる。ユーザは、提示された品質種別に基づいて、文字の誤認識が発生した原因を推定し、次回の撮影時において、推定された原因を取り除いてより適切な撮影を行うことが可能となる。
【0044】
例えば、「低コントラスト」が提示された場合、ユーザは、照明を明るくする、カメラ101を被写体に近づける等の対処を行うことで、コントラストを高め、誤認識が発生しにくくすることができる。また、「影あり」が提示された場合、ユーザは、照明と被写体との間の障害物を除去する等の対処を行うことで、影の発生を防ぎ、誤認識が発生しにくくすることができる。
【0045】
次に、図5および図6を用いて、誤認識の発生に対する影響度の高い品質種別を提示する処理の比較例について説明する。
図5は、品質種別の提示処理の比較例を示す第1の図である。図5では、文字「a」「b」「c」「d」が存在する被写体11を撮影することで、文字「a」「b」「c」「d」が写っている撮影画像12が撮影されたとする。ただし、撮影画像12における文字色が少し薄く、文字と背景とのコントラストが低い。また、撮影画像12に照明の影がかかっており、影の境界線が文字領域と重なっている。このため、文字「b」が「g」と誤認識され、ユーザの操作によって認識結果の「g」が「b」に修正されたとする。
【0046】
図5の例では、このように文字の誤認識が発生した場合、撮影画像12の領域のうち、少なくとも文字「a」「b」「c」「d」の全体が写っている部分領域を対象として画像品質が評価され、上記の品質種別ごとに品質特徴量が算出される。そして、算出された品質特徴量が対応する品質種別の適正範囲に含まれるか否かによって、品質種別ごとに品質が適正か、不適正かが判定される。
【0047】
図5の例では、「黒つぶれ」および「ボケ」については適正と判定され、「低コントラスト」と「影あり」については不適正と判定されたとする。この場合、品質種別のうち「低コントラスト」と「影あり」が誤認識の発生に影響を与えた可能性があると推定される。このため、誤認識の原因の候補として「低コントラスト」と「影あり」を示した画像13が表示される。
【0048】
図6は、品質種別の提示処理の比較例を示す第2の図である。図6では、図5と同様に文字「a」「b」「c」「d」が存在する被写体21を撮影することで、文字「a」「b」「c」「d」が写っている撮影画像22が撮影されたとする。ただし、撮影画像22における文字色が少し薄く、文字と背景とのコントラストが低い。また、撮影画像22に照明の影がかかっており、影の境界線が文字領域と重なっている。さらに、被写体21にフォーカスが合っておらず、ボケが生じている。このため、文字「b」が「g」と誤認識され、ユーザの操作によって認識結果の「g」が「b」に修正されたとする。
【0049】
この場合、図6の例では、図5と同様に、撮影画像22の領域のうち、少なくとも文字「a」「b」「c」「d」の全体が写っている部分領域を対象として画像品質が評価され、上記の品質種別ごとに品質特徴量が算出される。そして、算出された品質特徴量が対応する品質種別の適正範囲に含まれるか否かによって、品質種別ごとに品質が適正か、不適正かが判定される。
【0050】
図6の例では、「黒つぶれ」については適正と判定され、「低コントラスト」「ボケ」「影あり」については不適正と判定されたとする。この場合、品質種別のうち「低コントラスト」「ボケ」「影あり」が誤認識の発生に影響を与えた可能性があると推定される。このため、誤認識の原因の候補として「低コントラスト」「ボケ」「影あり」を示した画像23が表示される。
【0051】
このように、図5および図6の比較例によれば、誤認識の発生に影響を与えた可能性がある品質種別がユーザに提示される。しかしながら、図5および図6の例のように該当する品質種別が複数提示され得る。この場合、ユーザは、誤認識の発生に対して最も影響を与えた品質種別を認識することができず、どの品質種別を優先して対処すべきかを理解できない。このため、ユーザは、適切な対処を行うことが困難になる。あるいは、ユーザは、提示された品質種別ごとに対処を行うことになり、誤認識が発生しなくなるまで時間がかかる可能性がある。
【0052】
本実施の形態の情報処理装置100は、上記の課題に鑑みて、誤認識の発生に最も大きな影響を与えた品質種別を提示することや、品質種別に優先順位を付与して提示することを可能にする。
【0053】
図7は、第2の実施の形態における品質特徴量の算出処理例を示す図である。図7では、図5および図6と同様に文字「a」「b」「c」「d」が存在する被写体31を撮影することで、文字「a」「b」「c」「d」が写っている撮影画像32が撮影されたとする。また、文字「b」が「g」と誤認識され、ユーザの操作によって認識結果の「g」が「b」に修正されたとする。
【0054】
この場合、画像品質評価部125は、撮影画像32から、認識された文字をそれぞれ1つずつ含む部分領域を切り出す。図7の例では、文字「a」を含む部分領域33aと、文字「b」を含む部分領域33bと、文字「c」を含む部分領域33cと、文字「d」を含む部分領域33dとが切り出される。部分領域33a~33dのそれぞれは、対応する文字が内接する矩形領域、またはその矩形領域を上下左右に所定量だけ拡大した矩形領域として特定される。
【0055】
画像品質評価部125は、切り出された部分領域33a~33dのそれぞれについて、品質種別ごとに画像品質を評価し、品質種別ごとに品質特徴量を算出する。
図8は、第2の実施の形態における品質種別の提示処理例を示す図である。画像品質評価部125は、図7の処理によって算出された品質特徴量が、対応する品質種別に対して定義された適正範囲に含まれるか否かを判定することで、品質種別ごとに適正/不適正を示す判定結果を出力する。誤り影響度判定部126は、これらの判定結果を、誤認識された不正解文字と正しく認識された正解文字との間で比較し、その比較結果に基づいて品質種別ごとに誤り影響度を算出する。
【0056】
図8の例では、不正解文字と正解文字との間で、同一の品質種別の判定結果が同じか否かが判定され、判定結果が同じ場合には誤り影響度が「0」と算出され、判定結果が異なる場合には誤り影響度が「1」と算出される。図8では、品質種別のうち、「低コントラスト」「黒つぶれ」「ボケ」については、不正解文字「b」と正解文字「a」「c」「d」との間で判定結果が同じであり、誤り影響度は「0」と算出される。一方、「影あり」については、不正解文字「b」では判定結果が「不適正」であるのに対して、正解文字「a」「c」「d」では判定結果が「適正」となっている。このため、「影あり」については誤り影響度が「1」と算出される。
【0057】
品質特徴表示部127は、誤り影響度が最も高い品質種別を「影あり」と認識して、「影あり」を示した画像34を表示装置105に表示させる。
このように、本実施の形態の情報処理装置100は、各文字を含む部分領域ごとに品質特徴量を算出し、不正解文字と正解文字との間で品質種別ごとに判定結果を比較する。そして、情報処理装置100は、判定結果が異なる品質種別を誤り影響度が最も高いと判定し、その品質種別をユーザに提示する。これにより、情報処理装置100は、文字の誤認識に対して影響を与えたと推定される品質種別のうち、最も大きな影響を与えたと推定される品質種別を特定してユーザに提示することができる。
【0058】
ユーザは、提示された品質種別に応じた対処を行って撮影することで、高精度の文字認識を情報処理装置100に実行させることが可能となる。また、図5および図6に示した処理と比較して、重要性の高い少数の品質種別がユーザに提示されるので、ユーザは適切な対処を速やかに行うことが可能となる。
【0059】
図9および図10は、第2の実施の形態における撮影支援処理手順を示すフローチャートの例である。
[ステップS11]カメラ101によって画像が撮影されると、画像入力部121は、撮影画像の入力を受け付ける。
【0060】
[ステップS12]文字認識部122は、入力された撮影画像に対して文字認識処理を実行し、文字を認識する。
[ステップS13]誤り訂正部123は、認識結果(すなわち、認識された文字)を表示装置105に表示させる。
【0061】
[ステップS14]誤り訂正部123は、文字の誤認識が発生したかを判定する。例えば、表示された文字がユーザの入力操作によって訂正された場合に、誤認識が発生したと判定される。誤認識が発生していない場合、処理が終了する。一方、誤認識が発生した場合、誤り訂正部123は、誤認識された文字を示す識別情報を画像品質評価部125に通知する。そして、処理がステップS15に進められる。
【0062】
なお、誤認識の発生の有無は、次のような方法で判定されてもよい。例えば、文字認識部122は、文字を認識した際に、認識された文字ごとに、認識された文字の正しさの度合いを示す正解度を算出する。誤り訂正部123は、認識された文字のうち、正解度が所定の閾値以下である文字を、誤認識された文字と判定する。この場合にステップS14で「Yes」と判定され、誤認識された文字を示す識別情報が画像品質評価部125に通知される。
【0063】
[ステップS15]画像品質評価部125は、認識された文字を1つ選択し、選択された文字が認識された撮影画像上の位置を文字認識部122から取得する。画像品質評価部125は、取得した位置に基づいて、撮影画像から、選択された文字を含む部分領域を切り出す。
【0064】
[ステップS16]画像品質評価部125は、切り出された部分領域を処理対象として品質種別ごとに画像品質を評価し、品質種別ごとに品質特徴量を算出する。
[ステップS17]画像品質評価部125は、品質特徴定義情報111を参照し、算出された品質特徴量が、対応する品質種別に対して定義された適正範囲に含まれるかを判定して、品質種別ごとに適正/不適正を判定する。品質特徴量が適正範囲に含まれる場合に「適正」と判定され、適正範囲に含まれない場合に「不適正」と判定される。
【0065】
[ステップS18]画像品質評価部125は、認識されたすべての文字を選択済みかを判定する。未選択の文字がある場合、処理がステップS15に進められ、未選択の文字の1つが選択される。一方、すべての文字を選択済みの場合、処理がステップS19に進められる。
【0066】
[ステップS19]誤り影響度判定部126は、不正解文字と正解文字との間で適正/不適正の判定結果が異なる品質種別を特定する。なお、この処理では、不正解文字の判定結果が「不適正」であり、かつ、正解文字の判定結果が「適正」である品質種別が特定されることが望ましい。
【0067】
[ステップS20]品質特徴表示部127は、ステップS19で該当する品質種別が特定されたかを判定する。該当する品質種別が特定された場合、処理がステップS21に進められ、該当する品質種別が特定されなかった場合、処理が終了する。
【0068】
[ステップS21]品質特徴表示部127は、ステップS19で特定された品質種別を表示装置105に表示させる。
以上の第2の実施の形態によれば、文字の誤認識に対して最も大きな影響を与えた品質種別を特定してユーザに提示できる。ユーザは、提示された品質種別に応じた適切な対処を行って、文字認識のための撮影を再度行うことができる。その結果、文字の認識精度を向上させることが可能となる。
【0069】
ところで、図10のステップS19の処理は、例えば次の図11のような手順で実行されてもよい。
図11は、誤り影響度の高い品質種別の特定処理例を示すフローチャートである。
【0070】
[ステップS19a]誤り影響度判定部126は、ステップS17での不正解文字についての判定結果が「不適正」となった品質種別を1つ選択する。なお、不正解文字が複数存在する場合には、例えば、少なくとも1つの不正解文字についての判定結果が「不適正」となった品質種別が選択される。
【0071】
[ステップS19b]誤り影響度判定部126は、選択された品質種別についての正解文字の判定結果を取得し、取得した判定結果が「適正」であるかを判定する。判定結果が「適正」である場合、処理がステップS19cに進められ、判定結果が「不適正」である場合、処理がステップS19dに進められる。なお、正解文字が複数存在する場合には、例えば、少なくとも1つの正解文字についての判定結果が「適正」である場合に「Yes」と判定される。
【0072】
他の例として、ステップS19aでは、不正解文字の全数のうち所定割合以上(例えば半数以上)の不正解文字についての判定結果が「不適正」となった品質種別が選択されてもよい。この場合、ステップS19bでは、正解文字の全数のうち所定割合以上(例えば半数以上)の正解文字についての判定結果が「適正」である場合に「Yes」と判定されてもよい。
【0073】
[ステップS19c]誤り影響度判定部126は、選択された品質種別を表示対象として決定する。
[ステップS19d]誤り影響度判定部126は、ステップS19aに示した条件に該当するすべての品質種別を選択済みかを判定する。該当する品質種別の中に未選択の品質種別がある場合、処理がステップS19aに進められ、未選択の品質種別の1つが選択される。一方、該当する品質種別をすべて選択済みの場合、図11の処理が終了し、処理が図10のステップS20に進められる。
【0074】
この後、図10のステップS21では、ステップS19cで表示対象に決定された品質種別が表示装置105に表示される。
以上の図11の処理によれば、不正解文字や正解文字が複数存在する場合に、誤り影響度が最も高い品質種別を適切に特定することができる。
【0075】
〔第3の実施の形態〕
上記の第2の実施の形態では、品質特徴量に基づく品質の判定が適正/不適正の二値で判定され、品質種別ごとの誤り影響度が二値データとして算出されていた。このため、誤認識に対して影響を与えた複数の品質種別を、影響の大きさに応じた順位を付与してユーザに提示することができなかった。そこで、第3の実施の形態では、第2の実施の形態に係る情報処理装置100の処理の一部を変形して、誤認識に対する影響度に応じた順位を付与して品質種別をユーザに提示できるようにする。
【0076】
図12は、第3の実施の形態における誤り影響度の算出処理例を示す図である。図12では、図7に示した手順で、認識された4つの文字に対応する部分領域33a~33dが撮影画像32から切り出されたとする。画像品質評価部125は、切り出された部分領域33a~33dのそれぞれについて、品質種別ごとに画像品質を評価し、品質種別ごとに品質特徴量を算出する。
【0077】
画像品質評価部125は、算出された品質特徴量に基づき、画像品質の判定結果を示す多値データとして低品質度を算出する。低品質度は、低品質である度合いを示す値であり、適正範囲に対する品質特徴量の距離として表される。具体的な例としては、適正範囲の下限閾値をTHmin、上限閾値をTHmax、算出された品質特徴量をVfとすると、低品質度Vqは次の式(1)によって算出される。
Vq=MIN(V0,MIN(|Vf-THmin|,|Vf-THmax|)/(THmax-THmin) ・・・(1)
式(1)において、MIN(x,y)は、x,yのうち小さい方の値を示す。設定値V0は、低品質度Vqの上限を決定する値である。設定値V0により、低品質度Vqが大きい値になり過ぎないようにして、誤り影響度の算出に対して低品質度Vqが過度な影響を与えることを防止できる。設定値V0は、品質種別ごとに設定されてもよい。なお、式(1)によれば、品質特徴量Vfが適正範囲に含まれる場合、低品質度Vqは0と算出される。
【0078】
誤り影響度判定部126は、不正解文字と正解文字との間で、品質種別ごとに低品質度を比較する。この処理では、誤り影響度判定部126は、不正解文字と正解文字のそれぞれについて、品質種別ごとに低品質度の平均値を算出する。そして、誤り影響度判定部126は、品質種別ごとに、不正解文字についての平均値から正解文字についての平均値を減算した差分値を算出し、算出された差分値を品質種別ごとの誤り影響度とする。これにより、誤り影響度が多値データとして算出される。
【0079】
図13は、第3の実施の形態における品質種別の提示処理例を示す図である。品質特徴表示部127は、多値データとして算出された誤り影響度に基づいて品質種別の提示処理を実行する。品質特徴表示部127は、品質種別のうち、少なくとも、誤り影響度が最も大きい品質種別を示した画像を生成し、表示装置105に表示させる。
【0080】
例えば、品質特徴表示部127は、誤り影響度が最も大きい品質種別だけを示した画像41を生成し、表示装置105に表示させる。あるいは、品質特徴表示部127は、品質種別を誤り影響度が大きい順に並べて示した画像42を生成し、表示装置105に表示させてもよい。
【0081】
図12の方法で誤り影響度が算出された場合には、誤り影響度が0より大きい場合に、対応する品質種別が誤認識に対して影響を与えた可能性がある。このため、画像42には、誤り影響度が0より大きい品質種別が、誤り影響度が大きい順に並列されてもよい。また、画像42には、誤り影響度が大きい順に所定数の品質種別が示されてもよいし、誤り影響度が大きい順に所定順位までの品質種別が示されてもよい。さらに、図13の例のように、画像42には、品質種別とともに誤り影響度も示されてもよい。
【0082】
図14は、第3の実施の形態における撮影支援処理手順を示すフローチャートの例である。第3の実施の形態では、図10の処理が図14のように変更される。
[ステップS31]画像品質評価部125は、認識された文字を1つ選択し、選択された文字が認識された撮影画像上の位置を文字認識部122から取得する。画像品質評価部125は、取得した位置に基づいて、撮影画像から、選択された文字を含む部分領域を切り出す。
【0083】
[ステップS32]画像品質評価部125は、切り出された部分領域を処理対象として品質種別ごとに画像品質を評価し、品質種別ごとに品質特徴量を算出する。
[ステップS33]画像品質評価部125は、算出された品質特徴量に基づき、前述の式(1)を用いて、品質種別ごとに低品質度を算出する。
【0084】
[ステップS34]画像品質評価部125は、認識されたすべての文字を選択済みかを判定する。未選択の文字がある場合、処理がステップS31に進められ、未選択の文字の1つが選択される。一方、すべての文字を選択済みの場合、処理がステップS35に進められる。
【0085】
[ステップS35]誤り影響度判定部126は、不正解文字について、品質種別ごとに低品質度の平均値を算出する。
[ステップS36]誤り影響度判定部126は、正解文字について、品質種別ごとに低品質度の平均値を算出する。
【0086】
[ステップS37]誤り影響度判定部126は、品質種別ごとに、不正解文字についての平均値から正解文字についての平均値を減算した差分値を算出し、算出された差分値を品質種別ごとの誤り影響度とする。
【0087】
[ステップS38]品質特徴表示部127は、算出された誤り影響度に基づき、図13に示した方法で品質種別を表示装置105に表示させる。
以上の第3の実施の形態では、各品質種別に対応する誤り影響度が多値データとして算出される。このため、誤り影響度の大きさに応じた順位を付与した状態で品質種別をユーザに提示できる。ユーザは、誤認識に対して影響を与える品質種別を影響の大きさとともに認識できるので、誤認識を防ぐための対処を効果的に実施できるようになる。
【0088】
〔第4の実施の形態〕
図15は、第4の実施の形態に係る情報処理装置が備える処理機能の構成例である。図15に示す情報処理装置100aは、第3の実施の形態に係る情報処理装置100の処理機能に加えて、誤り影響度履歴保存部128と品質特徴警告表示部129を備える。なお、誤り影響度履歴保存部128および品質特徴警告表示部129の処理は、例えば、プロセッサ102が所定のアプリケーションプログラムを実行することで実現される。また、記憶部110には、誤り影響度履歴情報112がさらに記憶される。
【0089】
誤り影響度履歴保存部128は、誤り影響度判定部126によって品質種別ごとに算出された誤り影響度を、誤り影響度履歴情報112に登録する。これにより、誤り影響度履歴情報112には、算出された誤り影響度が品質種別ごとに蓄積されていく。誤り影響度履歴情報112には、例えば、過去の所定回数分の誤り影響度のみが蓄積されてもよい。また、誤り影響度履歴情報112には、過去の所定日数分の誤り影響度のみが蓄積されてもよい。
【0090】
品質特徴警告表示部129は、文字認識のための撮影が行われる前に、誤り影響度履歴情報112に基づいて、撮影の際に注意すべき品質種別を特定し、特定された品質種別を示した警告画像を表示装置105に表示させる。
【0091】
図16は、警告画像の表示処理手順を示すフローチャートの例である。図16の処理は、例えば、図15に示した処理機能を実現する画像認識アプリケーションが起動した際に実行される。あるいは、図16の処理は、ユーザが文字認識のための画像撮影の開始するための操作を行った場合に実行されてもよい。いずれのケースでも、図16の処理が実行されて警告画像が表示された後に、ユーザが文字認識のための静止画像の撮影操作(シャッタボタンの押下)を行うことが可能な状態になる。
【0092】
[ステップS41]品質特徴警告表示部129は、品質種別を1つ選択する。
[ステップS42]品質特徴警告表示部129は、誤り影響度履歴情報112から、選択された品質種別に対応する誤り影響度を取得する。この処理では、誤り影響度履歴情報112に蓄積されたすべての誤り影響度が取得されてもよい。あるいは、誤り影響度履歴情報112に蓄積された誤り影響度のうち、新しい順に所定数の誤り影響度が取得されてもよいし、直近の所定日数分の誤り影響度が取得されてもよい。
【0093】
[ステップS43]品質特徴警告表示部129は、取得された誤り影響度の平均値を算出する。
[ステップS44]品質特徴警告表示部129は、すべての品質種別を選択済みかを判定する。未選択の品質種別がある場合、処理がステップS41に進められ、未選択の品質種別の1つが選択される。一方、すべての品質種別を選択済みの場合、処理がステップS45に進められる。
【0094】
[ステップS45]品質特徴警告表示部129は、算出された平均値に基づいて、品質種別を示した警告画像を生成して表示装置105に表示される。警告画像には、品質種別のうち、少なくとも、平均値が最も大きい品質種別が示される。例えば、平均値が最も大きい品質種別だけを示す警告画像が生成される。ただし、平均値の最大値が所定の閾値以下である場合には、警告画像が表示されなくてもよい。また、警告画像には、平均値が所定の閾値を超えた品質種別が、平均値が大きい順に並べて表示されてもよい。
【0095】
以上の第4の実施の形態によれば、文字の誤認識に対する影響度が大きい品質種別を、撮影の直前にユーザに提示することができる。ユーザは、提示された品質種別に基づいて撮影における注意点を認識し、その状態で撮影を行うことができる。その結果、文字の誤認識が発生する可能性を低減できる。
【0096】
なお、上記の各実施の形態に示した装置(例えば、文字認識装置1、情報処理装置100,100a)の処理機能は、コンピュータによって実現することができる。その場合、各装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、磁気テープなどがある。光ディスクには、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc:BD、登録商標)などがある。
【0097】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CDなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0098】
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムにしたがった処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムにしたがった処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムにしたがった処理を実行することもできる。
【符号の説明】
【0099】
1 文字認識装置
1a 処理部
2 カメラ
3 表示装置
4 撮影画像
4a~4d 部分領域
5 画像
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16