(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024107599
(43)【公開日】2024-08-09
(54)【発明の名称】情報処理システム、方法及びプログラム
(51)【国際特許分類】
G06V 30/16 20220101AFI20240802BHJP
G06V 30/24 20220101ALI20240802BHJP
【FI】
G06V30/16
G06V30/24 620B
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2023011610
(22)【出願日】2023-01-30
(71)【出願人】
【識別番号】000136136
【氏名又は名称】株式会社PFU
(74)【代理人】
【識別番号】100145838
【弁理士】
【氏名又は名称】畑添 隆人
(74)【代理人】
【識別番号】100103137
【弁理士】
【氏名又は名称】稲葉 滋
(74)【代理人】
【識別番号】100216367
【弁理士】
【氏名又は名称】水谷 梨絵
(72)【発明者】
【氏名】高野 明
(72)【発明者】
【氏名】服部 克洋
【テーマコード(参考)】
5B029
5B064
【Fターム(参考)】
5B029EE00
5B064CA05
5B064FA01
(57)【要約】
【課題】ユーザによる文字認識結果についての評価精度を高めることを課題とする。
【解決手段】情報処理システムに、画像に対して評価対象の画像処理を行う画像処理部と、前記画像に対して前記評価対象の画像処理が行われた後の画像である処理後画像内の文字領域についての正解文字列を取得する正解情報取得部と、前記処理後画像内の前記文字領域を文字認識した結果である認識文字列を取得する認識結果取得部と、前記正解文字列と前記認識文字列とを照合する照合部と、前記評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための、前記正解文字列と前記認識文字列との照合結果を示す1つ以上の画面を表示手段に表示させる表示制御部とを備え、前記表示制御部は、前記1つ以上の画面の少なくとも1つの画面の表示を、前記照合結果に応じて異ならしめるよう制御する。
【選択図】
図21
【特許請求の範囲】
【請求項1】
評価対象の画像処理が文字認識に適した画像処理であるか否かの評価を行うための情報処理システムであって、
画像に対して、前記評価対象の画像処理を行う画像処理手段と、
前記画像に対して前記評価対象の画像処理が行われた後の画像である処理後画像内の文字領域についての正解文字列を取得する正解情報取得手段と、
前記処理後画像内の前記文字領域を文字認識した結果である認識文字列を取得する認識結果取得手段と、
前記正解文字列と前記認識文字列とを照合する照合手段と、
前記評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための、前記正解文字列と前記認識文字列との照合結果を示す1つ以上の画面を表示手段に表示させる表示制御手段と、
を備え、
前記表示制御手段は、前記1つ以上の画面の少なくとも1つの画面の表示を、前記照合結果に応じて異ならしめるよう制御する、
情報処理システム。
【請求項2】
前記表示制御手段は、前記少なくとも1つの画面に係る所定の画面構成要素の表示態様を前記照合結果に応じて異ならしめるよう制御することで、前記少なくとも1つの画面の表示を前記照合結果に応じて異ならしめるよう制御する、
請求項1に記載の情報処理システム。
【請求項3】
前記所定の画面構成要素は、前記少なくとも1つの画面において前記処理後画像に重畳されて表示される、前記文字領域を示す枠を含み、
前記表示制御手段は、前記枠の表示態様を前記照合結果に応じて異ならしめるよう制御する、
請求項2に記載の情報処理システム。
【請求項4】
前記表示制御手段は、前記枠の線の色、前記枠の線の太さ、前記枠の線の種類及び前記枠内の背景色の少なくとも何れかを前記照合結果に応じて異ならしめるよう制御することで、前記枠の表示態様を前記照合結果に応じて異ならしめるよう制御する、
請求項3に記載の情報処理システム。
【請求項5】
前記文字領域を示す枠は、前記処理後画像において文字認識の対象である全ての前記文字領域についての前記照合結果を示す画面に表示される、
請求項3又は4に記載の情報処理システム。
【請求項6】
前記所定の画面構成要素は、前記少なくとも1つの画面を囲う画面枠を含み、
前記表示制御手段は、前記画面枠の表示態様を前記文字領域についての前記照合結果に応じて異ならしめるよう制御する、
請求項2に記載の情報処理システム。
【請求項7】
前記表示制御手段は、前記画面枠の線の色、前記画面枠の線の太さ、前記画面枠の線の種類及び前記画面枠の背景色の少なくとも何れかを前記照合結果に応じて異ならしめるよう制御することで、前記画面枠の表示態様を前記照合結果に応じて異ならしめるよう制御する、
請求項6に記載の情報処理システム。
【請求項8】
前記表示制御手段は、前記1つ以上の画面として、前記処理後画像において文字認識の対象である全ての前記文字領域についての前記照合結果を示す画面である第1の画面と、
該第1の画面において行われた前記文字領域への処理に応じて表示される、該文字領域についての前記照合結果を示す画面である第2の画面を表示させ、
前記画面枠は、前記第2の画面を囲う画面枠である、
請求項6に記載の情報処理システム。
【請求項9】
前記所定の画面構成要素は、前記少なくとも1つの画面に表示される、前記正解文字列内の文字と一致しないと判定された前記認識文字列内の文字である不一致文字を含み、
前記表示制御手段は、前記不一致文字の表示態様を前記照合結果に応じて異ならしめるよう制御する、
請求項2に記載の情報処理システム。
【請求項10】
前記表示制御手段は、前記不一致文字の装飾、前記不一致文字の背景色及び前記不一致文字のフォントの少なくとも何れかを前記照合結果に応じて異ならしめるよう制御することで、前記不一致文字の表示態様を前記照合結果に応じて異ならしめるよう制御する、
請求項9に記載の情報処理システム。
【請求項11】
前記表示制御手段は、前記1つ以上の画面として、前記処理後画像において文字認識の対象である全ての前記文字領域についての前記照合結果を示す画面である第1の画面と、
該第1の画面において行われた前記文字領域への処理に応じて表示される、該文字領域についての前記照合結果を示す画面である第2の画面を表示させ、
前記不一致文字は、前記第2の画面に表示される文字である、
請求項9に記載の情報処理システム。
【請求項12】
前記表示制御手段は、前記少なくとも1つの画面に係る所定の画面構成要素の表示内容を前記照合結果に応じて異ならしめるよう制御することで、前記少なくとも1つの画面の表示を前記照合結果に応じて異ならしめるよう制御する、
請求項1に記載の情報処理システム。
【請求項13】
前記所定の画面構成要素は、前記少なくとも1つの画面に表示される、前記照合結果を示すためのアイコンを含み、
前記表示制御手段は、前記アイコンの種類を前記照合結果に応じて異ならしめるよう制御することで、前記所定の画面構成要素の表示内容を前記照合結果に応じて異ならしめるよう制御する、
請求項12に記載の情報処理システム。
【請求項14】
前記表示制御手段は、前記1つ以上の画面として、前記処理後画像において文字認識の対象である全ての前記文字領域についての前記照合結果を示す画面である第1の画面と、
該第1の画面において行われた前記文字領域への処理に応じて表示される、該文字領域についての前記照合結果を示す画面である第2の画面を表示させ、
前記アイコンは、前記第2の画面に表示されるアイコンである、
請求項13に記載の情報処理システム。
【請求項15】
前記所定の画面構成要素は、前記少なくとも1つの画面に表示される、前記照合結果をユーザに通知するためのテキストを含み、
前記表示制御手段は、前記テキストの内容を前記照合結果に応じて異ならしめるよう制御することで、前記所定の画面構成要素の表示内容を前記照合結果に応じて異ならしめるよう制御する、
請求項12に記載の情報処理システム。
【請求項16】
前記表示制御手段は、前記1つ以上の画面として、前記処理後画像において文字認識の対象である全ての前記文字領域についての前記照合結果を示す画面である第1の画面と、
該第1の画面において行われた前記文字領域への処理に応じて表示される、該文字領域についての前記照合結果を示す画面である第2の画面を表示させ、
前記テキストは、前記第2の画面に表示されるテキストである、
請求項15に記載の情報処理システム。
【請求項17】
前記文字領域への処理は、マウスオーバーであり、
前記第2の画面は、前記マウスオーバーに応じて、前記第1の画面においてポップアップ表示される、
請求項8、11、14及び16の何れか一項に記載の情報処理システム。
【請求項18】
コンピュータが、
画像に対して、評価対象の画像処理を行う画像処理ステップと、
前記画像に対して前記評価対象の画像処理が行われた後の画像である処理後画像内の文字領域についての正解文字列を取得する正解情報取得ステップと、
前記処理後画像内の前記文字領域を文字認識した結果である認識文字列を取得する認識結果取得ステップと、
前記正解文字列と前記認識文字列とを照合する照合ステップと、
前記評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための、前記正解文字列と前記認識文字列との照合結果を示す1つ以上の画面を表示手段に表示させる表示制御ステップと、
を実行する方法であって、
前記表示制御ステップでは、前記1つ以上の画面の少なくとも1つの画面の表示を、前記照合結果に応じて異ならしめるよう制御する、
方法。
【請求項19】
コンピュータを、
画像に対して、評価対象の画像処理を行う画像処理手段と、
前記画像に対して前記評価対象の画像処理が行われた後の画像である処理後画像内の文字領域についての正解文字列を取得する正解情報取得手段と、
前記処理後画像内の前記文字領域を文字認識した結果である認識文字列を取得する認識結果取得手段と、
前記正解文字列と前記認識文字列とを照合する照合手段と、
前記評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための、前記正解文字列と前記認識文字列との照合結果を示す1つ以上の画面を表示手段に表示させる表示制御手段と、
として機能させるプログラムであって、
前記表示制御手段は、前記1つ以上の画面の少なくとも1つの画面の表示を、前記照合結果に応じて異ならしめるよう制御する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文字認識結果の評価を行うための技術に関する。
【背景技術】
【0002】
従来、シート上に記載された文字を光学的に読み取る認識部と、予め記憶媒体に格納され前記シート上に記載された文字に対応した電子データと前記認識部による認識結果とを照合する照合部と、前記電子データの文字を、前記照合部による照合結果に応じて表示方法を切り替えて表示する確認部とを備えることを特徴とする文書照合装置(特許文献1を参照)が提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来、書類や伝票等の原稿(紙文書)をデータ化する際に、スキャナ等の画像読取装置により当該原稿が読み取られたことで得られた画像に対して文字認識処理(OCR(Optical Character Recognition、光学文字認識)処理)が行われている。文字認識(OCR)においては誤読が生じる場合があるため、ユーザによってOCRによる読取結果(OCR結果)についての目視確認が行われている。しかし、目視確認では見間違い等のようにユーザが誤判断をする場合があり、文字認識結果の評価を正しく行うことが出来ない場合がある。
【0005】
本開示は、上記した問題に鑑み、ユーザによる文字認識結果についての評価精度を高めることを課題とする。
【課題を解決するための手段】
【0006】
本開示の一例は、評価対象の画像処理が文字認識に適した画像処理であるか否かの評価を行うための情報処理システムであって、画像に対して、前記評価対象の画像処理を行う画像処理手段と、前記画像に対して前記評価対象の画像処理が行われた後の画像である処理後画像内の文字領域についての正解文字列を取得する正解情報取得手段と、前記処理後画像内の前記文字領域を文字認識した結果である認識文字列を取得する認識結果取得手段と、前記正解文字列と前記認識文字列とを照合する照合手段と、前記評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための、前記正解文字列と前記認識文字列との照合結果を示す1つ以上の画面を表示手段に表示させる表示制御手段と、を備え、前記表示制御手段は、前記1つ以上の画面の少なくとも1つの画面の表示を、前記照合結果に応じて異ならしめるよう制御する、情報処理システムである。
【0007】
本開示は、情報処理装置、システム、コンピュータによって実行される方法またはコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。
【発明の効果】
【0008】
本開示によれば、ユーザによる文字認識結果についての評価精度を高めることが可能となる。
【図面の簡単な説明】
【0009】
【
図1】第一の実施形態に係るシステムの構成を示す概略図である。
【
図2】第一の実施形態に係る情報処理装置の機能構成の概略を示す図である。
【
図3】実施形態に係るOCRに関連する画像処理設定項目及びその選択肢の一例を示す図である。
【
図4】実施形態に係るグレースケール化した撮像画像の一例を示す図である。
【
図5】実施形態に係るエッジ画像のヒストグラムの一例を示す図である。
【
図6】実施形態に係る撮像画像において抽出された線分の一例を示す図である。
【
図7】実施形態に係る撮像画像の2値化画像(OCR領域を切り出した画像)の一例を示す図である。
【
図8】実施形態に係る推測されたノイズ量に応じた設定値の一例を示す図である。
【
図9】実施形態に係る複数の設定項目と絞り込み後の選択肢の一例を示す図である。
【
図10】実施形態に係る文字認識結果の評価方法を説明するための図である。
【
図11】実施形態に係る信頼度に基づく評価値の算出方法を説明するための図である。
【
図12】実施形態に係る事前設定画面の一例を示す図である。
【
図13】実施形態に係る推奨設定決定画面の一例を示す図である。
【
図14】実施形態に係る経過表示画面の一例を示す図である。
【
図15】実施形態に係る推奨設定保存画面の一例を示す図である。
【
図16】第一の実施形態に係る推奨設定決定処理の流れの概要を示すフローチャートである。
【
図17】第二の実施形態に係るシステムの構成を示す概略図である。
【
図18】第二の実施形態に係るサーバの機能構成の概略を示す図である。
【
図19】第三の実施形態に係るシステムの構成を示す概略図である。
【
図20】第三の実施形態に係るスキャナの機能構成の概略を示す図である。
【
図21】第四の実施形態に係る情報処理装置の機能構成の概略を示す図である。
【
図22】実施形態に係る原稿のスキャン画面の一例を示す図である。
【
図23】実施形態に係る事前設定画面(設定前状態)の一例を示す図である。
【
図24】実施形態に係る事前設定画面(設定後状態)の一例を示す図である。
【
図25】実施形態に係る評価結果表示画面の一例を示す図である。
【
図26】実施形態に係る評価結果の表示画面(正しいテキストが取得された場合)の一例を示す図である。
【
図27】実施形態に係る評価結果の表示画面(正しいテキストが取得されなかった場合)の一例を示す図である。
【
図28】第四の実施形態に係る評価結果表示処理の流れの概要を示すフローチャートである。
【
図29】第四の実施形態に係るポップアップ表示処理の流れの概要を示すフローチャートである。
【
図30】第五の実施形態に係る情報処理装置の機能構成の概略を示す図である。
【発明を実施するための形態】
【0010】
以下、本開示に係る情報処理システム、情報処理装置、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理システム、情報処理装置、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。
【0011】
[第一の実施形態]
第一の実施形態から第三の実施形態では、本開示に係る情報処理システム、情報処理装置、方法及びプログラムを、原稿をスキャナで読み取ることで得られる画像を文字認識(OCR)に適した画像とするための当該スキャナに関する画像処理設定を推定(決定)するためのシステムにおいて実施した場合の実施の形態について説明する。但し、本開示に係る情報処理システム、情報処理装置、方法及びプログラムは、文字認識に適した画像を得るための画像処理設定を推定するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。
【0012】
従来、OCRに適した画像を出力するための技術として、自動二値設定(二値化画像処理技術)が存在する。このような技術は、スキャン中に原稿の特徴をいくつか解析することにより、当該原稿(読み取る原稿)に応じた適切な二値白黒画像を出力するための二値化パラメータ(パラメータ値)を自動的に決定する技術(機能)である。しかし、この特徴解析だけでは、出力された画像をOCR処理した場合に十分な認識精度が出ない場合がある。例えば、この技術では、背景部分と文字部分を区別しない(グレー化したヒストグラムを用いて判断する)ため、特に複雑な地紋や透かしが入った原稿の場合は、出力された画像において背景部分が残ってしまう、もしくは、文字部分が一部消えてしまう等の場合があり、このような場合、OCRの認識精度は十分ではない。また、この技術では、スキャン中に原稿解析を行い、二値化パラメータを決定するため、高速且つ大量のスキャンが必要な中では処理時間に課題がある。そのため、スキャン中にパラメータを決定するのではなく、原稿に応じた、より精度の高い(より認識精度が高くなる)プロファイルを事前に生成する方法が課題となる。
【0013】
この課題への解決方法として、OCRに関連する複数の画像処理(画像処理設定)の全組み合わせについて夫々画像処理及びOCR処理を実施し、全組み合わせのうち最もOCRの認識精度が高かった組み合わせを、OCRに適した画像処理設定として選出する方法が考えられる。しかし、OCRに関連する(OCR精度に影響する)設定は多く、単にOCRに関連する複数の画像処理を組み合わせてしまう(掛け合わせてしまう)と膨大な数の組み合わせが出来てしまい、これら全組み合わせについて上述した処理を行うのは現実的ではない。そのため、組み合わせの数を削減することが考えられるが、無作為に組み合わせを間引くのでは、OCRに適した設定が得られない可能性がある。例えば、出力された画像に僅かでもノイズが残っていた場合はOCRの認識精度に影響してしまうため、ノイズが極力残らないようパラメータ値(画像処理設定)の微調整を行うことが望ましいが、無作為に組み合わせを間引くことでOCRに適した設定が間引かれた場合、当該微調整を行うことが困難となる。
【0014】
このような状況に鑑み、本実施形態に係る情報処理システム、情報処理装置、方法及びプログラムでは、撮像画像を用いた解析処理を行うことで推奨設定の候補(設定値)を選出し、推奨設定(取得される画像が文字認識に適した画像となるための画像処理設定)の候補として選出された設定値に限定した上で複数の設定項目の夫々の設定値を変更しながら撮像画像に対して繰り返し画像処理を試行することによって、複数の設定項目についての推奨設定を決定することで、文字認識処理に適した画像を取得可能な画像処理設定を容易に特定することを可能とする。これより、原稿に応じた、より精度の高い(より認識精度が高くなる)画像処理設定を事前に決定する(プロファイルを事前に生成する)ことを可能とする。
【0015】
<システムの構成>
図1は、本実施形態に係るシステム9の構成を示す概略図である。本実施形態に係るシステム9では、ネットワーク又はその他の通信手段を介して互いに通信可能に接続されたスキャナ8と情報処理装置1を備える。
【0016】
情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、キーボードやマウス、タッチパネル等の入力デバイス15、ディスプレイ等の出力デバイス16、及びNIC(Network Interface Card)等の通信ユニット17、等を備えるコンピュータである。但し、情報処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置1は、単一の筐体からなる装置に限定されない。情報処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
【0017】
スキャナ8は、ユーザがセットした、文書、名刺、レシート又は写真/イラスト等の原稿を撮像することで、画像(画像データ)を取得する装置(画像読取装置)である。なお、本実施形態では、画像読取装置としてスキャナを例示するが、画像読取装置はスキャナに限定されず、複合機等であってもよい。本実施形態に係るスキャナ8は、撮像によって得られた画像データを、ネットワークを介して情報処理装置1に送信する機能を有する。また、スキャナ8は、タッチパネルディスプレイやキーボード等の、文字入出力や項目選択を可能とするためのユーザインタフェース、及びWebブラウズ機能やサーバ機能を更に有していてもよい。本実施形態に係る方法を採用可能なスキャナの通信手段及びハードウェア構成等は、本実施形態における例示に限定されない。
【0018】
図2は、本実施形態に係る情報処理装置1の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、画像取得部31、受付部32、解析部33、記憶部34及び提示部35を備える装置として機能する。画像取得部31は、読取画像取得部41及び読取画像処理部42を備える。受付部32は、文字領域取得部43及び正解情報取得部44を備える。解析部33は、候補選出部45及び推奨設定決定部46を備える。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
【0019】
画像取得部31は、原稿を撮像した撮像画像(原稿画像)を取得する。本実施形態では、画像取得部31は、スキャナ8(本実施形態における「読取手段」)のドライバ(スキャナドライバ)に該当し、スキャナ8を制御することによりユーザによってセットされた原稿をスキャナ8が撮像することで当該原稿の撮像画像を取得する。具体的には、画像取得部31は、読取画像取得部41と、読取画像処理部42(本実施形態における「画像処理手段」)とを備え、読取画像取得部41は、スキャナ8により原稿が読み取られたことで生成された読取画像を取得し、読取画像処理部42は、読取画像に対して画像処理を行うことで画像処理が行われた画像(処理後画像)を取得する。なお、本実施形態において、読取画像とは、画像処理が施されていない画像(生画像)を示すこととする。
【0020】
スキャナ8によって読み取られる原稿(後述する解析処理のために使用される原稿であり、以下「読取原稿」と称する)は任意の原稿であってよく、例えば、スキャナ8を運用する際に使用されている原稿(顧客運用原稿)等であってよい。また、読取原稿は、1枚であっても複数枚であってもよい。複数枚の原稿がスキャナにおいて読み取られる(撮像される)場合、読取画像取得部41は、複数枚の原稿の夫々についての撮像画像を取得する。なお、処理後画像に施されている画像処理は任意の画像処理であってよい。また、画像取得部31は、画像処理手段(読取画像処理部42)をスキャナ8が備える場合は、読取画像だけでなく処理後画像についてもスキャナ8から取得する。
【0021】
受付部32は、ユーザが、読取原稿(撮像画像)において文字認識したいフィールド(ユーザが文字認識したい文字列を含む領域である文字領域(OCR領域))を選択し、且つ、その領域に記載された正解文字列を入力することによって、読取原稿についてのOCR領域の指定及び正解文字列についての入力を受け付ける。つまり、ユーザによりOCR領域の指定及び正解文字列(ユーザがOCR領域から読み取った正解テキスト)の入力が行われることで、文字領域取得部43は、OCR領域を取得し、正解情報取得部44は、夫々のOCR領域についての正解文字列(正解情報)を取得する。なお、選択されるOCR領域は1つであっても複数であってもよい。
【0022】
解析部33は、撮像画像(読取画像又は処理後画像)を用いて、文字認識に適した画像(2値化画像)を得るために推奨される画像処理設定(読取原稿に適した推奨設定)を決定(推定)する。具体的には、解析部33は、スキャナ8で読み取った読取原稿の読取画像に対して画像処理手段(読取画像処理部42)による画像処理が行われた結果得られる画像が文字認識に適した画像となるための、画像処理手段における複数の設定項目についての推奨設定(推奨値)を、撮像画像を用いて決定する。ここで、推奨設定を決定する対象の設定項目は、文字認識(OCR)に関連する画像処理設定項目とし、より具体的には、文字認識(文字認識結果)に影響を及ぼす可能性のある画像処理設定項目(画像処理の結果得られる画像についての文字認識結果が設定内容に応じて異なる可能性がある設定項目)とする。本実施形態では、推奨設定を決定する対象である設定項目として、文字の太さ、地紋除去、特定文字(特別な文字)の抽出、ドロップアウトカラー、2値化感度及びノイズ除去に関する画像処理設定項目を例示する。但し、推奨設定を決定する対象である設定項目はこの例に限定されず、任意の設定項目及び任意の数の設定項目であってよい。また、推奨設定を決定する対象の設定項目に、文字認識に関連する画像処理設定項目以外の設定項目が含まれていてもよい。
【0023】
ここで、画像処理設定項目には、原稿(原稿の撮像画像)全体に大きく影響する設定項目が存在する。このような設定項目については、原稿解析(撮像画像解析)を行うことや、設定値を変更しながら画像処理を試行すること等によって、原稿の特徴を(大まかに)捉える(把握する)ことが可能であり、設定可能な複数の設定値から推奨設定の候補(推奨設定になり得る(推奨設定として適切な)設定値候補)を絞りこむことが可能である。
【0024】
図3は、本実施形態に係るOCRに関連する画像処理設定項目及びその選択肢の一例を示す図である。
図3には、OCRに関連する設定項目(画像処理設定項目)と、各設定項目について設定可能な複数の設定値(選択肢)とその数(全選択肢数)を示す。
図3に示すように、OCRに関連する設定項目について設定可能な設定値(選択肢)は複数あるため、これら複数の設定項目の選択肢の単純な掛け合わせによる組み合わせは膨大な数となり、これら全ての組み合わせについて検証(後述する推奨設定決定処理)を行うとすると膨大な時間が必要となる(有限時間では収まらない)。そのため、本実施形態では、撮像画像を用いた解析処理を行うことにより、設定可能な複数の設定値から、設定値を絞り込む(推奨設定の候補の設定値に絞り込む)こととする。換言すると、撮像画像を用いた解析処理(読取原稿の特徴を捉えることが可能な解析処理)を行うことにより、解析処理の結果に応じた設定値(読取原稿の特徴に応じた設定値)が推奨設定の候補として決定される。これより、検証を行う対象の組み合わせ数を絞り込むことができ、後述する推奨設定決定処理において、
図3に示した選択肢の単純な掛け合わせによる組み合わせ全てについての検証(画像処理及び文字認識結果の取得)を行う必要がなくなる。つまり、画像処理及び文字認識結果の取得を行う回数(繰り返し数)を削減できるため、推奨設定を迅速に決定することが可能となる。
【0025】
以上より、本実施形態では、解析部33は、撮像画像を用いた解析処理を行うことで、推奨設定の候補(候補値)を選出し、選出された推奨設定の候補を用いて推奨設定を決定する。以下、推奨設定の候補を選出する候補選出部45と、推奨設定を決定する推奨設定決定部46の夫々について説明する。
【0026】
(候補選出)
候補選出部45は、撮像画像を用いた解析処理を行うことで、推奨設定を決定する対象である複数の設定項目のうち少なくとも1つの設定項目の夫々について、設定可能な複数の設定値から、推奨設定の候補である設定値を選出する。なお、推奨設定の候補として選出される設定値は、1つであっても複数であってもよい。本実施形態では、撮像画像を用いた解析処理を行うことで、地紋量や、特定文字(白抜き文字や、網かけ文字、印影重なり文字等)の有無、罫線の有無(罫線の色)、ノイズ量(ノイズの有無)等を、読取原稿(撮像画像)の特徴として捉えることが可能である。本実施形態では、一例として、地紋除去、特定文字の抽出、ドロップアウトカラー、2値化感度及びノイズ除去に関する画像処理設定項目についての推奨設定の候補を選出する。候補選出部45は、ある設定項目についての候補値を選出する際、当該設定項目に関連する特徴(読取原稿の特徴)を捉えることが可能な解析処理を行うこととする。
【0027】
推奨設定の候補(候補値)を選出する方法には、主に2通りの方法がある。1つ目の方法(方法1)は、撮像画像について画像解析を行うことで候補値を選出する方法である。2つ目の方法(方法2)は、設定可能な設定値による画像処理を撮像画像に対して試行し、試行された結果得られる画像についての文字認識結果に基づいて候補値を選出する方法(以下、「単体検証」と称する)である。本実施形態では、方法1及び/又は方法2により複数の設定項目についての推奨設定の候補を選出するために、候補選出部45は、画像解析部51、第一の画像処理部52、第一の認識結果取得部53、及び選出部54を備える。画像解析部51は、方法1において、撮像画像について画像解析を行う。第一の画像処理部52は、方法2において、撮像画像に対する画像処理を行い(試行し)、第一の認識結果取得部53は、試行された結果得られる画像(画像処理が行われた撮像画像)や撮像画像についての文字認識結果(OCR結果)を取得する。選出部54は、画像解析部51による画像解析の結果又は第一の認識結果取得部53により取得された文字認識結果に基づいて、候補値を選出する。
【0028】
なお、第一の認識結果取得部53は、文字認識処理(ОCR処理)を行うことで文字認識結果を取得してもよいし、文字認識処理を行う他の装置(OCRエンジンを備える装置)から文字認識結果を取得するようにしてもよい。以下、各設定項目についての推奨設定の候補を選出する方法について説明する。
【0029】
(地紋除去)
地紋除去に関する画像処理設定項目(以下、「地紋除去項目」と称する)は、原稿(読取画像)に含まれる地紋(透かしも含む)の除去を行うことを目的とする画像処理についての設定項目である。地紋が含まれる原稿の場合、地紋の影響によって、原稿を撮像した画像についての文字認識精度が悪くなることがある。そのため、文字認識に適した画像を得るためには、地紋除去項目について原稿に適した設定が行われることが望ましい。地紋除去項目についての推奨設定の候補は、方法1又は方法2の方法により選出することが可能である。
【0030】
(地紋除去:方法1)
方法1の場合、まず、候補選出部45(画像解析部51)は、撮像画像について地紋量を判定するための画像解析を行う。候補選出部45(選出部54)は、この画像解析の結果に基づき、読取原稿に含まれる地紋量を読取原稿の特徴として推測することが可能である。候補選出部45(選出部54)は、その画像解析の結果(原稿の特徴の推測結果)に応じた地紋除去項目についての設定値を、推奨設定の候補として選出する。本実施形態では、撮像画像についてエッジ解析(エッジ画像のヒストグラム解析)を行うことで読取原稿の地紋量を判定(推測)する。ここで、一般的な地紋は、撮像画像をグレースケール化した際の階調値(画素値)が文字部分(黒色)よりも薄く、無数の細線のように見える場合が多い。
【0031】
図4は、本実施形態に係るグレースケール化した撮像画像(一部分)の一例を示す図である。
図4に示すように、グレースケール化した撮像画像では、文字の背景部分にある地紋は、文字の部分よりも薄く、無数の細線のように見えることがわかる。そのため、本実施形態では、撮像画像(グレースケール化された画像)に対してエッジ解析を行い、検出されたエッジ量に基づいて読取原稿に含まれる地紋量を推測する。具体的には、候補選出部45は、まず、エッジフィルタ(ラプラシアンフィルタなど)を用いて、グレースケール化された撮像画像からエッジ部分(周辺画素との画素値の変化量(エッジ量))を抽出する(エッジ画像の生成)。そして、そのエッジ画像のヒストグラム(エッジ量ヒストグラム)を生成し、生成されたヒストグラムにおけるピークの出方を解析することで、地紋量を推測する。
【0032】
図5は、本実施形態に係るエッジ画像のヒストグラムの一例を示す図である。
図5に示すヒストグラムでは、横軸はエッジ量(エッジ画像における階調値(画素値))を示し、縦軸は画素数を示す。
図5に示すヒストグラムでは、階調値の低い順に、3つのピークが現れている。撮像画像における背景部分(ベタ部分)ではエッジが多く検出されないため、階調値の低い箇所(エッジ量が少ない箇所)におけるピークは背景部分に該当するピークと推測できる。また、撮像画像における文字部分(文字周辺)ではエッジが多く検出されるため、階調値の高い箇所(エッジ量が多い箇所)におけるピークは文字部分に該当するピークと推測できる。そして、上述の通り、地紋は文字の部分よりも薄く、無数の細線のように見えるため、地紋がある箇所において検出されるエッジ量は、背景部分において検出されるエッジ量より多く、文字部分において検出されるエッジ量より少ないと推測できる。そのため、候補選出部45は、
図5に示すように、エッジ量ヒストグラムにおいて、背景部分(ベタ部分)に該当するピークと文字部分に該当するピークの間に(中間的な位置に)ピークが存在する場合、当該ピークは地紋に該当するピークであり、読取原稿に地紋が存在すると推測(判定)する。そして、地紋があると推測した場合、候補選出部45は、地紋に該当する部分の量(地紋に該当するピーク周辺の画素数(度数))に基づいて、読取原稿に含まれる地紋量を推定(推測)する。
【0033】
そして、候補選出部45(選出部54)は、設定可能な設定値から、上記画像解析結果(推測結果)に応じた設定値を推奨設定の候補として選出する。例えば、上記推測の結果、原稿に地紋が含まれていないと推測(判定)した場合、候補選出部45は、地紋除去項目についての推奨設定の候補(候補値)として、例えば、「地紋除去なし(地紋除去処理無効)」を選出する。上記推測の結果、原稿に少量の地紋を含んでいると推測(判定)した場合、候補選出部45は、地紋除去項目についての推奨設定の候補(候補値)として、例えば、地紋除去を行う程度が低い順に2つの設定値(「地紋除去レベル1(Lv1)」及び「地紋除去レベル2(Lv2)」)を選出する。上記推測の結果、原稿に大量の地紋を含んでいると推測(判定)した場合、候補選出部45は、地紋除去項目についての推奨設定の候補(候補値)として、例えば、地紋除去を行う程度が高い順に2つの設定値(「地紋除去レベル2(Lv2)」及び「地紋除去レベル3(Lv3)」)を選出する。
【0034】
なお、ヒストグラムにおけるピークの検出には、ピークサーチ等の任意の方法が用いられてよい。また、上述した方法は、地紋量を判定するための画像解析の一例であり、地紋量を判定するための画像解析には、種々の方法(任意の方法)が用いられてよい。また、エッジ画像を生成するために用いられるフィルタは、ラプラシアンフィルタに限定されず、任意のフィルタが用いられてよい。
【0035】
(地紋除去:方法2)
方法2の場合、候補選出部45は、地紋除去項目についての設定可能な設定値(例えば、「地紋除去なし」、「地紋除去レベル1」、「地紋除去レベル2」、及び「地紋除去レベル3」)による画像処理を撮像画像に対して試行し、試行された結果得られる画像についての文字認識結果に基づいて、推奨設定の候補を選出する。例えば、用いられる撮像画像が「地紋除去なし(地紋除去処理を行わない設定)」で取得された画像である場合、候補選出部45は、撮像画像に対して、「地紋除去レベル1」、「地紋除去レベル2」、及び「地紋除去レベル3」の夫々による画像処理(地紋除去処理)を試行し、試行された結果得られる各画像(3枚の画像)と撮像画像(「地紋除去なし」に対応する画像)についての文字認識結果に基づいて、地紋除去項目についての候補値を選出する。換言すると、候補選出部45は、各設定値に対応する画像(「地紋除去なし」については撮像画像、「地紋除去レベル1」、「地紋除去レベル2」、及び「地紋除去レベル3」については各設定値による画像処理の結果得られた画像)についての文字認識結果を比較することで、地紋除去項目についての候補値を選出する。例えば、文字認識結果同士を比較した結果、「地紋除去レベル3」による画像処理を試行することで得られた画像についての文字認識結果が最も良い場合、読取原稿に大量の地紋が含まれていると捉える(推測する)ことが可能である。この場合、候補選出部45は、地紋除去を行う程度が高い設定値である、「地紋除去レベル2」、及び「地紋除去レベル3」を推奨設定の候補として選出する。
【0036】
つまり、候補選出部45は、設定可能な設定値のうち、画像処理を試行した結果得られる画像についての文字認識結果(認識率)が良い順に選択された所定数(1又は複数)の設定値(例えば、2つの設定値)を、地紋除去項目についての推奨設定の候補として選出する。なお、文字認識結果の評価方法については、後述する、推奨設定を決定する際に行われる評価方法が用いられてよい。つまり、後述する評価方法1又は評価方法2を用いることで、文字認識結果同士を比較するようにしてよい。また、文字認識結果(OCR認識率)に加えて、CC数についての比較を行うことにより、候補を選出するようにしてもよい。例えば、文字認識結果、CC数の順に良好な所定数(例えば2つ)の設定値を候補値として選出する。
【0037】
(特定文字の抽出)
文字抽出(機能)に関する画像処理設定項目(以下、「文字抽出項目」と称する)は、そのままでは文字認識が困難な特定文字が存在する場合であっても文字の視認性が高い画像を得ることを目的とする画像処理についての設定項目である。白抜き文字や、背景が網掛けの文字、印影重なり文字等の特定文字が原稿に存在する場合、その特定文字の影響によって、原稿を撮像した画像についての文字認識精度が悪くなることがある。そのため、文字認識に適した画像を得るためには、文字抽出項目について原稿に適した設定が行われることが望ましい。本実施形態では、文字抽出項目として、白抜き文字抽出に関する画像処理設定項目、網掛け文字抽出に関する画像処理設定項目及び印影重なり文字抽出に関する画像処理設定項目を例示する。文字抽出項目についての推奨設定の候補は、方法2の方法により選出することが可能である。
【0038】
候補選出部45は、文字抽出項目についての設定可能な設定値(例えば、「ON(有効)」及び「OFF(無効)」)による画像処理を撮像画像に対して試行し、試行された結果得られる画像についての文字認識結果に基づいて、推奨設定の候補を選出する。例えば、用いられる撮像画像が「OFF(文字抽出処理を行わない設定)」で取得された画像である場合、候補選出部45は、撮像画像に対して、設定値「ON(有効)」による画像処理(文字抽出処理)を試行し、試行された結果得られる画像(1枚の画像)と撮像画像(「OFF(無効)」に対応する画像)についての文字認識結果に基づいて、文字抽出項目についての候補値を選出する。換言すると、候補選出部45は、各設定値に対応する画像(「OFF」については撮像画像、「ON」については設定値「ON」による画像処理の結果得られた画像)についての文字認識結果を比較することで、文字抽出項目についての候補値を選出する。例えば、白抜き文字抽出に関する画像処理設定項目について、「ON」の場合の文字認識結果と「OFF」の場合の文字認識結果を比較した結果、設定値「ON」による画像処理を試行することで得られた画像についての文字認識結果の方が良い場合、読取原稿に白抜き文字が含まれていると捉える(推測する)ことが可能である。この場合、候補選出部45は、白抜き文字抽出を行う設定値(「ON」)を推奨設定の候補として選出する。
【0039】
つまり、候補選出部45は、設定可能な設定値(例えば、ON、OFF)のうち、画像処理を試行した結果得られる画像についての文字認識結果(文字認識率)が最も良い設定値(例えば、ON)を、文字抽出項目についての推奨設定の候補として選出する。なお、文字認識結果の評価方法については、後述する、推奨設定を決定する際に行われる評価方法が用いられてよい。つまり、後述する評価方法1又は評価方法2を用いることで、文字認識結果同士を比較するようにしてよい。
【0040】
(ドロップアウトカラー)
ドロップアウトカラーに関する画像処理設定項目(以下、「ドロップアウトカラー項目」と称する)は、指定された色が画像として写らないようにする(写りにくくする)ことを目的とする画像処理についての設定項目である。例えば、罫線が含まれる原稿の場合、罫線の影響によって、原稿を撮像した画像についての文字認識精度が悪くなることがある。そのため、文字認識に適した画像を得るためには、例えば、罫線の色をドロップアウトカラーとして設定して罫線部分を消すなどのように、ドロップアウトカラー項目について原稿に適した設定が行われることが望ましい。ドロップアウトカラー項目についての推奨設定の候補は、方法1の方法により選出することが可能である。
【0041】
まず、候補選出部45(画像解析部51)は、撮像画像について罫線の有無を判定するための画像解析を行う。候補選出部45(選出部54)は、この画像解析の結果に基づき、読取原稿における罫線の有無(罫線が存在するか否か)を読取原稿の特徴として推測することが可能である。候補選出部45(選出部54)は、その画像解析の結果(原稿の特徴の推測結果)に応じたドロップアウトカラー項目についての設定値を、推奨設定の候補として選出する。本実施形態では、撮像画像に対して線分抽出処理を行うことで読取原稿における罫線の有無を判定(推測)する。線分抽出処理(画像内の線分を抽出する処理)には、任意の方法が用いられてよい。例えば、撮像画像に対して、エッジ抽出及びハフ変換を行うことにより、線分(線分リスト)を抽出する。
【0042】
図6は、本実施形態に係る撮像画像において抽出された線分の一例を示す図である。候補選出部45により、撮像画像に対して線分抽出処理が行われた結果、
図6に太線で示すように線分が抽出されている。候補選出部45は、撮像画像に対して線分抽出処理(線分の有無を判定するための解析)を行い、その結果に基づいて読取原稿における罫線の有無を推測する。具体的には、候補選出部45は、線分抽出処理の結果、
図6のように線分が抽出された場合、読取原稿に罫線が存在すると推測(判定)する。そして、罫線が存在すると推測された場合、候補選出部45は、罫線に該当する線分の色を判定する(罫線色解析を行う)ことで、読取原稿に含まれる罫線の色を推測する。なお、抽出された線分のうち1本の線分の色を罫線の色として推測してもよいし、抽出された複数本の線分の色に基づいて罫線の色を推測してもよい。例えば、線分を構成する色情報をヒストグラム化し、最も多く出現する色を罫線の色として推測する。
【0043】
そして、候補選出部45(選出部54)は、設定可能な設定値(RGB夫々についての設定値(0~255の値))から、上記画像解析結果(推測結果)に応じた設定値を推奨設定の候補として選出する。例えば、上記推測の結果、原稿に罫線が存在すると推測(判定)された場合、候補選出部45は、ドロップアウトカラー項目についての推奨設定の候補(候補値)として、抽出された線分の色により推測された罫線の色に相当する設定値を選出する。
【0044】
なお、OCRシステムによっては帳票認識のために罫線を用いることがあるため、このようなケースでは、罫線を消すことは適切ではない。そのため、罫線を除去するか否か(ドロップアウトカラーに罫線色を設定するか否か)について、予めユーザに選択させるようにしてもよい。
【0045】
(2値化感度、ノイズ除去)
自動2値は、画像を2値化するために適した閾値を自動的に調整しながら2値化する画像処理であり、文字を背景から分離しコントラストの良い画像にする機能である。2値化感度に関する画像処理設定項目(以下、「2値化感度項目」と称する)は、この自動2値の感度(効果)を設定するための項目であり、背景ノイズの除去及び文字の明瞭化を目的とする項目である。例えば、自動2値の効果(感度)が大きすぎる場合、ノイズが発生しやすい。ノイズが多く発生する場合(撮像画像にノイズが発生しやすい原稿の場合)、ノイズの影響によって、原稿を撮像した画像についての文字認識結果が悪くなることがある。そのため、文字認識に適した画像(ノイズが少ない画像)を得るためには、ノイズが多く発生する場合は自動2値の感度(2値化感度)を下げる等のように、2値化感度項目について原稿に適した設定が行われることが望ましい。また、ノイズ除去(ごみ取り指定)に関する画像処理設定項目(以下、「ノイズ除去項目」と称する)は、2値化(自動2値化)後の孤立点を除去する(ノイズが残る場合の微調整を行う)ことを目的とする画像処理についての設定項目である。ノイズ除去項目についても、2値化感度項目と同様の理由で、原稿に適した設定が行われることが望ましい。2値化感度項目及びノイズ除去項目についての推奨設定の候補は、方法1の方法により選出することが可能である。
【0046】
候補選出部45(画像解析部51)は、撮像画像についてノイズ量を判定するための画像解析(ノイズ解析)を行う。候補選出部45(選出部54)は、この画像解析の結果に基づき、読取原稿を撮像した際に発生するノイズ量を読取原稿の特徴として推測することが可能である。候補選出部45(選出部54)は、その画像解析の結果(原稿の特徴の推測結果)に応じた2値化感度項目及びノイズ除去項目についての設定値を、夫々2値化感度項目及びノイズ除去項目の推奨設定の候補として選出する。本実施形態では、撮像画像の2値化画像に対して以下の方法によりノイズ解析を行う。なお、本実施形態では、地紋除去項目についての候補値による画像処理が施された撮像画像(2値化画像)に対してノイズ解析を行うことにより、地紋除去項目についての候補値に対応する(組み合わせる)、2値化感度項目及びノイズ除去項目についての候補値を決定することとする。但し、この例に限定されず、撮像画像の2値化画像に対して以下のノイズ解析を行うことにより、ノイズ量の推定を行い、2値化感度項目及びノイズ除去項目についての候補値を決定するようにしてもよい。
【0047】
まず、予めユーザに、読取原稿において文字認識したいフィールド(OCR領域)とその領域に記載された正解文字列とを入力してもらうことで、受付部32により、読取原稿についてのOCR領域及び正解文字列を予め取得しておくこととする。そして、候補選出部45は、地紋除去項目についての候補値に基づく画像処理(地紋除去処理)が撮像画像(2値化画像)に対して行われることで得られた画像内の各OCR領域において、連結成分(Connected Component、CC)である黒塊(黒連結画素塊)の数(以下、「CC数」と称する)を算出する。つまり、候補選出部45は、当該画像のOCR領域を切り出した各画像(部分画像)に対して、CC数を算出する。なお、地紋除去項目についての候補値が「地紋除去なし」である場合は、地紋除去処理が施されていない撮像画像の2値化画像内の各OCR領域においてCC数を算出する。また、候補選出部45は、各OCR領域において、そのOCR領域についての正解文字列に基づき、CC数の期待値(以下、「CC数期待値」と称する)を算出する。そして、候補選出部45は、算出されたCC数とCC数期待値とを比較することで、読取原稿のノイズ量(読取原稿を撮像した際に発生するノイズ量)を推測する。
【0048】
CC数期待値の算出には、以下の2つの方法のいずれかが用いられてよい。1つ目の方法では、各文字についてのCC数期待値をまとめたデータ(CC数の辞書データ)を用いて算出する。候補選出部45は、正解文字列に含まれる各文字についてのCC数期待値をCC数の辞書データから索出し、各文字について索出されたCC数期待値を足し合わせることでそのOCR領域についてのCC数期待値を算出する。2つ目の方法では、文字認識する対象の文字の言語(OCR領域内の文字の言語)と正解文字列の文字数からCC数期待値を算出する。文字あたりのCC数は、言語とある程度関連があることがわかる。例えば、中国語の場合はCC数が多く、英語の場合はCC数が少ないことが多い。そのため、候補選出部45は、言語毎に1文字あたりの係数(重みづけ係数)を設定しておくことで、その係数と正解文字列に基づきCC数期待値を算出する。例えば、英語は1文字あたりの係数を1.2と設定している場合、正解文字列「abcde」のCC数期待値は、6(=1.2×5(文字))と算出される。また、例えば、英語の係数が1.2であることに対して、例えば、中国語についての1文字あたりの係数については、2.5等のようにより高い係数が設定される。
【0049】
図7は、本実施形態に係る撮像画像の2値化画像(OCR領域を切り出した画像)の一例を示す図である。
図7に示したOCR領域の画像の場合、例えば、CC数期待値は14と算出され、実際のCC数は1260と算出される。この場合、候補選出部45は、実際のCC数とCC数期待値とを比較すると、CC数期待値と比較しCC数がはるかに多いため、ノイズ量が多いと推定(判定)する。例えば、候補選出部45は、(実際のCC数)/(CC数期待値)と所定の閾値(1つ又は複数の閾値)とを比較することで、ノイズ量を推定するようにしてもよい。例えば、(実際のCC数)/(CC数期待値)が1未満の場合、ノイズなしと推測し、(実際のCC数)/(CC数期待値)が1以上5未満の場合、ノイズ量は少ないと推測し、(実際のCC数)/(CC数期待値)が5以上10未満の場合、ノイズ量は中程度と推測し、(実際のCC数)/(CC数期待値)が10以上の場合、ノイズ量は多いと推測する。なお、OCR領域が複数設定されている場合は、例えば、(複数のOCR領域における実際のCC数の合計値)/(複数のOCR領域におけるCC数期待値の合計値)を所定の閾値(1つ又は複数の閾値)と比較することで、ノイズ量を推定する。なお、この場合、合計値の代わりに他の代表値等が用いられてもよい。
【0050】
そして、候補選出部45(選出部54)は、設定可能な設定値(例えば、2値化感度-50~50)から、上記画像解析結果(推測結果)に応じた設定値を推奨設定の候補として選出する。例えば、上記推測の結果、読取原稿を撮像した際に発生するノイズがないと推測(判定)された場合、2値化感度項目についての推奨設定の候補(候補値)として、0もしくはプラス方向(文字を目立たせる方向)の設定値を選出する。また、例えば、上記推測の結果、読取原稿を撮像した際にノイズが発生すると推測(判定)された場合、推測されたノイズ量に応じたマイナス方向(ノイズを消す方向)の設定値を、候補値として選出する。
【0051】
図8は、本実施形態に係る推測されたノイズ量に応じた設定値の一例を示す図である。
図8には、(実際のCC数)/(CC数期待値)の値(範囲)と、その値に応じた設定値(推奨設定の候補)を例示する。
図8に示すように、(実際のCC数)/(CC数期待値)の値、即ち、推測されるノイズ量に応じた2値化感度項目及びノイズ除去項目の設定値が、夫々の項目の推奨設定の候補として選出される。
【0052】
なお、上述したノイズ解析の方法は一例であり、ノイズ解析には、任意の方法が用いられてよい。また、本実施形態では、ノイズ解析に基づき2値化感度項目及びノイズ除去項目の推奨設定の候補を選出するが、2値化感度項目及びノイズ除去項目の推奨設定の候補の一方についてのみ候補を選出するようにしてもよい。
【0053】
なお、本実施形態では、
図3に示した項目のうち、文字の太さに関する画像処理設定項目(文字が掠れる場合の微調整を目的とする設定項目)については、推奨設定の候補値を選出する対象(選択肢の絞り込みを行う対象)としないが、当該項目についても候補値を選出する対象としてよい。また、候補選出部45は、方法1によってのみ候補を選出する場合には、第一の画像処理部52及び第一の認識結果取得部53を必ずしも備えなくてよい。一方、候補選出部45は、方法2によってのみ候補を選出する場合には、画像解析部51を必ずしも備えなくてよい。
【0054】
(推奨設定決定)
候補選出部45では、推奨設定(推奨値)となりうる設定値(候補)の絞り込みを行った。それに対して、推奨設定決定部46は、細部の調整(ノイズを取りきる、文字を残す、OCRエンジンの特性に合わせる等を目的としたノイズ除去設定や文字の太さ等の微調整)を行うことで、推奨設定を決定する。具体的には、推奨設定決定部46は、設定値の絞り込みが行われた設定項目(複数の設定項目のうち少なくとも1つの設定項目)についての設定値を、候補選出部45により推奨設定の候補として選出された設定値に限定した上で、複数の設定項目の夫々の設定値を変更しながら撮像画像(読取画像又は処理後画像)に対して繰り返し画像処理を試行することにより、当該複数の設定項目についての推奨設定を決定する。具体的には、複数の設定項目の夫々の設定値を変更しながら撮像画像に対して繰り返し画像処理を試行することで得られる複数の画像についての文字認識結果に基づいて、複数の設定項目についての推奨設定を決定する。本実施形態では、推奨設定を決定するために、推奨設定決定部46は、第二の画像処理部55、第二の認識結果取得部56及び決定部57を備える。
【0055】
第二の画像処理部55は、撮像画像に対する画像処理を行い(試行し)、第二の認識結果取得部56は、試行された結果得られる画像(画像処理が行われた撮像画像)や撮像画像についての文字認識結果(OCR結果)を取得する。決定部57は、第二の認識結果取得部56により取得された文字認識結果に基づいて推奨設定を決定する。なお、第二の認識結果取得部56は、文字認識処理(ОCR処理)を行うことで文字認識結果を取得してもよいし、文字認識処理を行う他の装置から文字認識結果を取得するようにしてもよい。本実施形態では、推奨設定決定部46は、まず、候補選出部45により選出された推奨設定の候補値を用いて、複数の設定項目(パラメータ)の候補値の単純な掛け合わせによる組み合わせ表を作成する。但し、文字の大きさに関する設定項目についての候補値は、文字の大きさに関する設定項目について設定可能な設定値のままとする。また、本実施形態では、2値化感度項目及びノイズ除去項目についての候補値は、地紋除去項目についての候補値毎に決定される。そのため、上記組み合わせ(組み合わせ表)を作成する際には、地紋除去項目についての候補値と当該候補値に対応する2値化感度項目及びノイズ除去項目についての候補値との組合せ以外の地紋除去項目、2値化感度項目及びノイズ除去項目の設定値の組合せについては作成しないこととする。
【0056】
図9は、本実施形態に係る複数の設定項目と絞り込み後の選択肢の一例を示す図である。
図9に示すように、候補選出部45による候補選出処理によって、複数の設定項目のうち一部の設定項目(2値化感度、地紋除去、ノイズ除去、白抜き文字抽出、網掛け文字抽出、印影重なり文字抽出、及びドロップアウトカラー)についての選択肢が削減されていることがわかる。候補選出部45は、この複数の設定項目についての絞り込み後の全選択肢(候補値)の単純な掛け合わせにより、複数の設定項目の設定値の全組み合わせ(組み合わせ表)を作成(生成)する。この生成された組み合わせが、上述した細部の調整を行うための組み合わせとなる。なお、このとき、組み合わせ数が膨大になる場合は、更に設定値(候補値)の間引きを行っても良い。例えば、2値化感度の候補値0~50に対して、5刻みの設定値になるよう間引いてもよい。なお、本実施形態では、組み合わせ表を作成するが、全組み合わせによる画像処理及び文字認識が実行されればよいため、組み合わせ表の作成は任意である。
【0057】
次に、推奨設定決定部46(第二の画像処理部55)は、絞り込み後の全組み合わせ(組み合わせ表に示された全組み合わせ)に含まれる各組み合わせについて、その組み合わせによる画像処理を撮像画像に対して行う(試行する)。そして、推奨設定決定部46(第二の認識結果取得部56)は、各組み合わせに対応する画像(各組み合わせによる画像処理の結果得られた画像)についての文字認識結果を取得する。そして、推奨設定決定部46(決定部57)は、文字認識結果(文字認識率)が最も良い画像が得られた際の組合せ(複数の設定項目の設定値の組み合わせ)を、当該複数の設定項目についての推奨設定として決定する。本実施形態では、文字認識結果に基づく評価値(評価指標)を各文字認識結果に対して算出し、最も評価値が高くなる組み合わせを、推奨設定として決定する。以下、文字認識結果の評価方法(評価値の算出方法)について2つの方法を例示する。
【0058】
(評価方法1)
1つ目の方法は、予めユーザに、読取原稿において文字認識したいフィールド(OCR領域)とその領域に記載された正解文字列とを入力してもらうことで、受付部32により、読取原稿についてのOCR領域及び正解文字列を予め取得しておくこととする。上述した候補選出処理において、既にOCR領域及び正解文字列を取得している場合は、それらを用いるようにしてもよい。そして、推奨設定決定部46は、OCR領域について取得された文字認識結果である認識文字列と、当該OCR領域についての正解文字列とが完全に一致するか否かを、各OCR領域について判定し、認識文字列と正解文字列とが完全に一致するOCR領域の数(フィールド数)を算出する。以下、この文字列同士が完全に一致するOCR領域の数を、「フィールド認識率」と称する。また、推奨設定決定部46は、全てのOCR領域についての認識文字列と全てのOCR領域についての正解文字列との間で、一致する文字の数(認識文字と正解文字とが一致する数)を算出する。以下、この認識文字と正解文字とが一致する数(文字ごとの認識率)を、「文字認識率」と称する。
【0059】
例えば、読取原稿(撮像画像)内の3つのOCR領域(OCR領域1~3)についての正解文字列が、OCR領域1は「株式会社PFU」、OCR領域2は「請求書」、OCR領域3は「¥10,000」である場合を想定する。これらのOCR領域に対して文字認識を行った場合に取得される文字認識結果(認識文字列)として2つの結果を例示する。1つ目の文字認識結果では、各OCR領域についての認識文字列が、「株式会社PFU」、「請求書」、「¥IO,OOO」であったとする。この場合、OCR領域1及びOCR領域2については認識文字列と正解文字列が完全に一致するため、フィールド認識率は2/3と算出される。OCR領域3については、認識文字列において「1(数字のイチ)」を「I(英字のアイ)」と誤認識し、「0(数字のゼロ)」を「O(英字のオー)」と誤認識している。なお、それ以外の文字については認識文字と正解文字は一致している。そのため、文字認識率は11/16と算出される。
【0060】
2つ目の文字認識結果では、各OCR領域についての認識文字列が、「株式会社PF」、「請求書1」、「¥I0,000」であったとする。この場合、いずれのOCR領域においても認識文字列と正解文字列が完全に一致しないため、フィールド認識率は0/3と算出される。また、OCR領域1については、認識文字列において「U」を認識しておらず、OCR領域2については、「書」を「書1」と誤認識しており、OCR領域3については、「1(数字のイチ)」を「I(英字のアイ)」と誤認識している。そのため、文字認識率は13/16と算出される。
【0061】
推奨設定決定部46は、算出された評価値であるフィールド認識率と文字認識率に基づき、文字認識結果の良し悪しを判定(評価)する。例えば、フィールド認識率、文字認識率の順に良いものを選択する方法を採用してもよい。この方法では、まず全ての文字認識結果についてのフィールド認識率を比較し、最もフィールド認識率の良い文字認識結果を、最も良い文字認識結果と判定する。但し、フィールド認識率が同じOCR領域が複数存在する場合は、それらのOCR領域同士で文字認識率を比較し、最も文字認識率が良い文字認識結果を、最も良い文字認識結果と判定する。この方法を用いた場合、上述した1つ目の文字認識結果と2つ目の文字認識結果については、フィールド認識率がより良い1つ目の文字認識結果がより良い文字認識結果と判定される。なお、フィールド認識率と文字認識率に基づき判定する方法は、上記方法に限定されず、他の任意の方法が用いられてよい。例えば、フィールド認識率と文字認識率に基づき他の評価値(評価指標)を求め、その評価値に基づき判定する方法が用いられてもよい。
【0062】
図10は、本実施形態に係る文字認識結果の評価方法を説明するための図である。
図10には、複数の設定項目についての設定値(候補値)の各組み合わせについての、画像処理結果(選択されたOCR領域についての画像であり、候補値の組み合わせによる画像処理が行われた画像)、OCR結果、文字認識率を示す。推奨設定決定部46は、
図10に示されるように、各組み合わせにおいて、各OCR領域における文字認識率を算出することにより、最も良い文字認識結果が得られる組み合わせを推奨設定として決定する。なお、
図10には、1つのOCR領域についての文字認識率のみを例示しているが、上述のとおり、OCR領域が複数設定されている場合は、複数のOCR領域についての文字認識率及びフィールド認識率が算出されることで、最も良い文字認識結果が得られる設定(候補値の組み合わせ)を決定するようにしてもよい。
【0063】
(評価方法2)
2つ目の方法では、OCRエンジンから取得される、文字ごとの信頼度に基づき、評価値を算出する。
図11は、本実施形態に係る信頼度に基づく評価値の算出方法を説明するための図である。
図11(a)は、文字認識結果(ケース1)についての評価値を算出する方法を例示する図であり、
図11(b)は、文字認識結果(ケース2)についての評価値を算出する方法を例示する図である。
図11に示すように、正解文字列の各文字(正解値)に対する文字認識結果(認識値)についてOCRエンジンから得られた信頼度に基づき、評価値が算出される。
図11の例では、各文字の信頼度の平均値を評価値として算出する。推奨設定決定部46は、この算出された評価値に基づき、文字認識結果の良し悪しを判定(評価)する。例えば、
図11(a)の場合は、各文字の信頼度の平均値である77が評価値として算出され、
図11(b)の場合は、各文字の信頼度の平均値である91が評価値として算出されている。そのため、評価値がより高い文字認識結果(ケース2)が、より良い文字認識結果と判定される。なお、評価値は各文字の信頼度の平均値に限定されず、他の代表値等が用いられてもよい。
【0064】
なお、候補選出処理において解析処理に用いられる撮像画像が読取画像(生画像)であった場合に、推奨設定決定処理において画像処理を試行する対象の撮像画像は、候補選出処理において用いられる撮像画像である読取画像であってもよいし、候補選出処理において用いられる撮像画像(読取画像)に対して画像処理が施されている画像であってもよい。また、同様に、推奨設定決定処理において画像処理を試行する対象の撮像画像が読取画像(生画像)であった場合に、候補選出処理において解析処理に用いられる撮像画像は、推奨設定決定処理において用いられる撮像画像である読取画像であってもよいし、推奨設定決定処理において用いられる撮像画像(読取画像)に対して画像処理が施されている画像であってもよい。
【0065】
記憶部34は、解析部33により決定された複数の設定項目についての推奨設定(推奨値)を記憶する。記憶部34は、例えば、読取原稿を用いて決定された複数の設定項目についての推奨設定を、当該読取原稿に適したプロファイルとして記憶する。これより、以降、当該読取原稿及び当該読取原稿と同一種類の原稿をスキャンする際に、この記憶されたプロファイルを使用してスキャンを行う(原稿に適した画像処理設定を行う)ことが可能となる。
【0066】
提示部35は、解析部33により決定された複数の設定項目についての推奨設定(設定項目と当該設定項目について決定された推奨値)をユーザに提示(提案)する。なお、推奨設定の提示方法には任意の方法が用いられてよい。例えば、出力デバイス16を介して設定画面等に推奨設定を一覧形式で表示することで推奨設定を提示する方法や、通信ユニット17を介してユーザに推奨設定に関する情報を提供する方法、推奨設定を今後使用するプロファイル(設定のセット)として登録(保存)するようユーザに促す(提案する)表示を行う方法等が用いられてよい。なお、提示部35は、推奨設定をユーザに提示する際、推奨設定が反映された画像や、推奨設定が反映された画像についての文字認識結果(OCR結果)をユーザに提示(表示)するようにしてもよい。以下、提示部35によりユーザに推奨設定を提示するためのユーザインタフェース(UI)である各種画面について例示する。なお、以下では、ユーザに予め認識したいOCR領域と正解文字列を入力してもらい、そのOCR領域と正解文字列を用いて解析処理を行う場合の画面を例示する。
【0067】
図12は、本実施形態に係る事前設定画面の一例を示す図である。推奨設定決定処理を開始する際に表示される事前設定画面では、ユーザによって、推奨設定決定処理を行うための事前設定が行われる。
図12に示す画面例では、ユーザは事前設定として、文字認識(OCR)したい言語(日本語、英語、中国語等)、読み取り解像度(240dpi、300dpi、400dpi、600dpi等)、及び帳票中の罫線を除いて画像出力するか(罫線を消すか)否かを選択(設定)することが可能である。なお、
図12に示された画面は、例えば、提示部35がユーザから文字認識に適したプロファイルを作成する(推奨設定を決定する)指示を受け付けたことにより表示される。
図12に示す画面において事前設定が行われた上で、スキャナ8によるスキャン画像(撮像画像)を取得するためのボタン(「スキャン」ボタン)がユーザにより押下されると、スキャナ8により読取原稿が読み取られることで撮像画像が取得される。一方、ユーザが「キャンセル」ボタンを押下した場合は、推奨設定決定処理が終了され、事前設定画面が閉じられる(非表示となる)。
【0068】
図13は、本実施形態に係る推奨設定決定画面の一例を示す図である。
図13に示された画面は、
図12の画面においてユーザにより「スキャン」ボタンが押下された結果撮像画像が取得されると表示される画面である。
図13に示すように、推奨設定決定画面には、取得された撮像画像が表示される。なお、
図13は、一枚の原稿に係るスキャン画像(撮像画像)を取得した場合を例示しているが、複数枚の原稿が読み取られた場合は、推奨設定決定画面に複数枚の原稿に係る複数のスキャン画像(撮像画像)が表示される。
図13のように撮像画像が取得され表示された状態で、ユーザは文字認識したい領域を指定する(図中の4つの太枠を参照)。また、
図13の画面において、ユーザは、指定した領域についての正解文字列(当該領域に記載された正しい文字列)を入力する(図中のフィールド[1]~[4]を参照)。文字認識する領域の指定及び当該領域についての正解文字列の入力が完了した上で、推奨設定決定処理を行うためのボタン(「プロファイル作成」ボタン)がユーザにより押下されると、推奨設定決定処理が開始される。また、
図13に示すように、推奨設定決定画面には、推奨設定(プロファイル)を登録(記憶)するためのボタン(「プロファイル登録」ボタン)が表示されており、当該ボタンがユーザにより押下されることで、推奨設定(プロファイル)が登録される。なお、
図13に示された画面においてユーザが「キャンセル」ボタンを押下した場合は、推奨設定が登録されない。この場合、ユーザによってОCR領域の変更(例えば、追加)等を行われた上で再度「プロファイル作成」ボタンが押下されることにより、再度推奨設定決定処理(プロファイル作成処理)が行われるようにしても良い。また、
図13に示された画面においてユーザが「戻る」ボタンを押下した場合は、
図12に示された事前設定画面を表示して再度撮像画像を取得する処理を実行することが可能である。
【0069】
図14は、本実施形態に係る経過表示画面の一例を示す図である。
図14に示された画面は、
図13の画面においてユーザにより「プロファイル作成」ボタンが押下されると表示される画面である。
図14に示すように、解析部33により解析処理が実行中である場合、経過表示画面には、解析処理が実行中であることを示す情報及び/又はその進行状況を示す情報である経過情報が表示される。
図14の画面例では、進行状況(例えば、100%のうち36%が終了していること)を示す情報として「進捗:36%」の文字及び進捗バーが表示されている。また、
図14の画面例では、解析処理が終了するまでの残り時間を予測した時間として「予測残り時間:2分」の文字が表示される。なお、
図14に示された画面は、プロファイル作成(推奨値の決定)が完了すると閉じられる(非表示とする)ようにしてもよい。また、プロファイル作成(推奨値の決定)が完了すると、
図13や
図14で示した画面等において、推奨設定が反映された画像(推奨設定による画像処理が施された撮像画像等)についての文字認識結果を表示するようにしてもよい。
【0070】
図15は、本実施形態に係る推奨設定保存画面の一例を示す図である。
図15に示された画面は、
図13に示された画面においてユーザにより「プロファイル登録」ボタンが押下されると表示される画面である。
図15に示すように、推奨設定保存画面には、例えば、推奨設定(プロファイル)を新規保存するための表示(ボタン等)や、推奨設定(プロファイル)を上書き保存するための表示(ボタン等)等が表示される。ユーザは、解析処理により決定された推奨設定(プロファイル)を新規保存するか上書き保存するかを
図15に示された画面において選択した上で保存することが可能である。
図15に示された画面においてユーザにより「OK」ボタンが押下されると、解析処理により決定された推奨設定からなるプロファイル(ドライバプロファイル)が記憶装置14に登録(記憶)される。これより、ユーザは、登録されたプロファイル(設定のセット)を用いてスキャン処理(画像処理)を行うことが可能となるため、文字認識に適した画像を得ることが可能となる。なお、この登録されたプロファイルは、
図12の画面における操作により読み取られた読取原稿のみならず、当該読取原稿と同一種類(同一定型帳票など)の原稿などについてのスキャン処理においても使用可能である。なお、ユーザが
図15に示された画面において「キャンセル」ボタンを押下した場合は、推奨設定を登録する処理が終了され、推奨設定保存画面が閉じられる(非表示となる)。
【0071】
なお、本実施形態では、提示部35が推奨設定生成画面を生成し、表示させることとするが、この例に限定されず、推奨設定を提示する提示部35とは別の表示制御部(図示を省略)が推奨設定生成画面を生成し、表示させるようにしてもよい。
【0072】
<処理の流れ>
次に、本実施形態に係る情報処理システムによって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の態様に応じて適宜選択されてよい。
【0073】
図16は、本実施形態に係る推奨設定決定処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、情報処理装置1においてユーザから推奨設定を決定する指示を受け付けたこと等を契機として開始される。ユーザからの指示を受け付けると、提示部35は、事前設定画面(
図12を参照)を出力デバイス16(表示手段)に表示させる。なお、本フローチャートに示された処理では、地紋除去に関する候補値を、上述した方法2(単体検証)により決定する場合を例示する。
【0074】
ステップS101では、画像が取得される。例えば、画像取得部21は、
図12に示す画面においてユーザにより「スキャン」ボタンが押下されたことにより、読取原稿に対する読取処理が行われることで、読取原稿についての撮像画像を取得する。また、ステップS101では、ユーザが文字認識したい領域(OCR領域)と、OCR領域についての正解文字列と、OCR言語とが、ユーザにより入力されて受付部32において取得されていることとする。その後、処理はステップS102へ進む。
【0075】
ステップS102では、罫線色解析が行われる。解析部33は、ステップS101で取得された撮像画像に対して罫線の有無を判定するための解析を行い、罫線が存在すると判定された場合は、罫線色解析を行うことで読取原稿(撮像画像)に含まれる罫線の色を推定する。これより、解析部33は、ドロップアウトカラー項目についての候補値(パラメータ値候補)を決定する。その後、処理はステップS103へ進む。
【0076】
ステップS103では、各OCR領域についてのCC数期待値が算出される。解析部33は、例えば、各OCR領域に対して、正解文字列の文字数及びOCR言語から、妥当なCC数(CC数期待値)を算出する。その後、処理はステップS104へ進む。
【0077】
ステップS104では、地紋除去及び文字抽出の全パターンについての処理が終了した(実行された)かが判定される。例えば、解析部33は、地紋除去の全パターン(なし、Lv1~3の4パターン)及び文字抽出の全パターン(白抜き文字抽出ON、網掛け文字抽出ON、印影重なり文字抽出ONの3パターン)の7パターン夫々についての処理(画像処理(ステップS105)、OCR認識率算出(ステップS106)及びCC数算出(ステップS107))が終了したかを判定する。全パターンについての処理が終了している場合(ステップS104のYES)、処理はステップS108へ進む。一方、全パターンについての処理が終了していない場合(ステップS104のNO)、処理はステップS105へ進む。
【0078】
ステップS105では、地紋除去又は文字抽出に関する画像処理が実行される。解析部33は、ステップS104で画像処理が終了していないと判定されたパターンについての画像処理を、ステップS101で取得された撮像画像に対して行う。例えば、「地紋除去Lv.4」についての処理が終了していない場合、地紋除去Lv.4の画像処理(地紋除去処理)を実行する。また、例えば、「印影重なり文字抽出ON」についての処理が終了していない場合、印影重なり文字抽出ONの画像処理(印影重なり文字抽出処理)を実行する。なお、「地紋除去なし」については画像処理を行わなくてよい。その後、処理はステップS106へ進む。
【0079】
ステップS106では、OCR認識率が算出される。解析部33は、ステップS105において画像処理が実行された後の撮像画像(各OCR領域)についての文字認識結果を取得する。なお、「地紋除去なし」に対応する画像はステップS101で取得された撮像画像であり、「地紋除去なし」の場合は、ステップS101で取得された撮像画像(各OCR領域)についての文字認識結果が取得される。そして、解析部33は、各OCR領域についての文字認識結果(認識文字列)に基づきOCR認識率(例えば、フィード認識率や文字認識率)を算出する。なお、OCR認識率の算出には、種々の方法が用いられてよい。その後、処理はステップS107へ進む。
【0080】
ステップS107では、CC数が算出される。解析部33は、ステップS105において画像処理が実行された後の撮像画像(各OCR領域)についてのCC数を算出する。なお、「地紋除去なし」に対応する画像はステップS101で取得された撮像画像であり、「地紋除去なし」の場合は、ステップS101で取得された撮像画像(各OCR領域)についてのCC数を算出する。なお、ステップS107では、地紋除去の各パターンについてのCC数(地紋除去の各設定に対応する画像についてのCC数)を算出するが、文字抽出の各パターン(文字抽出の各設定に対応する画像)についてのCC数は算出しない。つまり、ステップS105で実行された画像処理が文字抽出に関する画像処理である場合はステップS107においてCCの算出処理は実行しないこととする。その後、処理はステップS104へ戻る。
【0081】
ステップS108~ステップS110では、一部パラメータの候補値が決定される(パラメータ値候補の絞り込み)。ステップS108では、OCR認識率とCC数とに基づいて地紋除去項目についての候補値(パラメータ値候補)が決定される。本実施形態では、解析部33は、地紋除去項目の全パターン(設定値)のパターン間で、ステップS106で算出されたOCR認識率及びステップS107で算出されたCC数を比較することで、OCR認識率、CC数の順に良好な所定数(例えば2つ)の設定値(パターン)を候補値として選択する。なお、全パターンのパターン間でOCR認識率のみを比較することにより、候補値を選択するようにしてもよい。なお、パターン間でOCR認識率及びCC数を比較する際は、全てのOCR領域におけるOCR認識率及びCC数を考慮することとする。例えば、各OCR領域において算出されたCC数の代表値(平均値等)や合計値等をパターン間で比較する。その後、処理はステップS109へ進む。
【0082】
ステップS109では、OCR認識率に基づいて文字抽出項目についての候補値(パラメータ値候補)が決定される。本実施形態では、解析部33は、文字抽出がONの場合とOFFの場合におけるOCR認識率を比較し、文字抽出をONにした場合に認識率が向上したか否かを判定することで文字抽出に関する候補値(ON又はOFF)を決定する。例えば、「白抜き文字抽出ON」の場合にステップS106で算出されたOCR認識率と、「白抜き文字抽出OFF」の場合にステップS106で算出されたOCR認識率とを比較し、「白抜き文字抽出ON」の方が認識率が高い(向上している)場合、「白抜き文字抽出」についての候補値(設定値)を「ON」に決定する。なお、「「文字抽出OFF」の場合にステップS106で算出されたOCR認識率」とは、ステップS101で取得された画像に対して算出されたOCR認識率であり、「地紋除去なし」のパターンの場合(全ての文字抽出がOFFの場合)にステップS106で算出されたOCR認識率が使用されてよい。また、OCR認識率を比較する際は、全てのOCR領域におけるOCR認識率を考慮することとする。その後、処理はステップS110へ進む。
【0083】
ステップS110では、CC数とCC数期待値に基づき、2値化感度項目及びノイズ除去項目夫々についての候補値(パラメータ値候補)が決定される。解析部33は、ステップS108で決定された地紋除去項目についての候補値の夫々に対応する、2値化感度項目及びノイズ除去項目夫々についての候補値を決定する。例えば、ステップS108で地紋除去項目についての候補値が「Lv1」と「Lv2」に決定された場合を想定する。この場合、解析部33は、「Lv1」による画像処理(地紋除去処理)がステップS105で行われた場合にステップS107で算出されたCC数とステップS103で算出されたCC数期待値との比較により、「Lv1」に対応する、2値化感度項目及びノイズ除去項目についての候補値(例えば、2値化感度項目の候補値を「-10~10」、ノイズ除去項目の候補値を「0~10」)を決定する。また、同様に、解析部33は、「Lv2」による画像処理(地紋除去処理)がステップS105で行われた場合にステップS107で算出されたCC数とステップS103で算出されたCC数期待値との比較により、「Lv2」に対応する、2値化感度項目及びノイズ除去項目についての候補値(例えば、2値化感度項目の候補値を「-30~-10」、ノイズ除去項目の候補値を「0~20」)を決定する。このように、解析部33は、地文除去項目についての候補値の夫々について、算出されたCC数とCC数期待値とを比較することで、各候補値に対応する、2値化感度項目及びノイズ除去項目夫々についての候補値を決定する。
【0084】
なお、「地紋除去なし」に対応する、2値化感度項目及びノイズ除去項目についての候補値を決定する際は、「地紋除去なし」のパターンの場合(全ての文字抽出がOFFの場合)にステップS107で算出されたCC数をCC数期待値と比較する。また、CC数とCC数期待値とを比較する際は、全てのOCR領域におけるCC数とCC数期待値とを考慮することとする。例えば、各OCR領域において算出されたCC数の合計値と、各OCR領域において算出されたCC数期待値の合計値とを比較する。その後、処理はステップS111へ進む。
【0085】
ステップS111では、組み合わせ(組み合わせ表)が生成される。解析部33は、ステップS102及びステップS108~ステップS110で決定された候補値を用いて、複数のパラメータ(全パラメータ)の候補値の単純な掛け合わせにより、複数のパラメータの設定値(候補値)の組み合わせ(組み合わせ表)を生成する。その後、処理はステップS112へ進む。
【0086】
ステップS112では、推奨設定が決定される。解析部33は、ステップS111で生成された各組み合わせについて、ステップS101で取得された撮像画像に対してその組み合わせによる画像処理を試行することにより、複数の設定項目についての推奨設定を決定する。その後、本フローチャートに示された処理は終了する。
【0087】
なお、地紋除去の全パターンの画像処理と文字抽出の全パターンの画像処理は別のタイミングで行われてもよい。例えば、地紋除去の全パターンの画像処理が実行された上で、地紋除去に関する候補値が決定された後に、文字抽出の全パターンの画像処理が実行され、文字抽出に関する候補値が決定されるようにしてもよい。また、ステップS106とステップS107は順不同であり、ステップS108とステップS109は順不同である。
【0088】
また、本実施形態では、ユーザが、提示部35による画像処理設定の提案(推奨設定の提示)に対して満足がいかない(不満がある)場合、OCR領域等を変更した上で再度上述した解析処理を行うことにより、再度OCRに適した画像処理設定(推奨設定)を決定しユーザに提示するようにしてもよい。また、この処理を、ユーザの満足のいく結果(文字認識結果)が得られるまで繰り返し行うようにしてもよい。これより、より精度の高い画像処理設定を行うことが可能である。なお、OCR領域を変更することで変更後のOCR領域に新たに設定されたOCR領域が含まれる場合は、上述の解析処理を行う際に予めこの新たに設定されたOCR領域についての正解文字列の入力をユーザから受け付けておくこととする。
【0089】
以上より、本実施形態によれば、撮像画像を用いた解析処理を行うことで推奨設定の候補(設定値)を選出し、推奨設定(取得される画像が文字認識に適した画像となるための画像処理設定)の候補として選出された設定値に限定した上で複数の設定項目の夫々の設定値を変更しながら撮像画像に対して繰り返し画像処理を試行することによって、複数の設定項目についての推奨設定を決定することで、文字認識処理に適した画像を取得可能な画像処理設定を容易に特定することが可能となる。これより、原稿に応じた、より精度の高い(より認識精度が高くなる)画像処理設定を事前に決定する(プロファイルを事前に生成する)ことが可能となる。また、本実施形態によれば、有識者でないユーザ(画像処理パラメータを理解していないユーザ)であっても、原稿をスキャンするだけで、その原稿に適し、且つ、文字認識(OCR)に向けて最適な設定(スキャン設定)を行うことが可能となる。また、本実施形態では、実際に文字認識結果を利用して文字認識に最適な設定値(パラメータ値)を決定するため、確実に文字認識に適した設定値(画像処理パラメータ値)を得ることが可能である。また、設定可能な設定値から設定値の絞り込み(候補値の選出)を行った上で組み合わせの生成及び画像処理の試行を行うため、推奨設定を決定するための処理時間が現実的な時間となり、この時間のなかで望ましい結果を得ることが可能となる。
【0090】
なお、本実施形態では、1枚の原稿(1種類の原稿)を読み取ることで、当該原稿に適した推奨設定を決定する方法について例示した。これより、当該原稿と同一種類の原稿(例えば、定型帳票)を大量スキャンする場合にも、各スキャンにおいて、決定された推奨設定を用いた画像処理を行うことができる。但し、大量スキャンを行う現場では、1種類の原稿のみならず、1度に複数種類の原稿(帳票)がスキャンされるケース(混載のケース)も想定される。このようなケースにおいても、各スキャンにおいて原稿に適した推奨設定を用いた画像処理が行われることが望ましい。以下、このようなケースに対応するための、2つの方法について説明する。
【0091】
1つ目の方法は、罫線情報を利用した自動プロファイル選択機能(既存機能)と組み合わせる方法である。この方法では、まず、複数種類の原稿(複数枚の原稿)を撮像することで得られる複数の撮像画像(各原稿に対応する撮像画像)を画像取得部21により取得する。そして、上述した方法により、各原稿(各種類の原稿)について、夫々推奨設定(最適なプロファイル)を決定し、原稿(原稿の種類)毎に推奨設定(プロファイル)を登録する。この際、記憶部34は、原稿毎に、推奨設定と原稿の識別情報とを関連付けて記憶するようにしてもよい。そして、スキャン設定において自動プロファイル選択機能(原稿識別を行い、識別された原稿に対して登録されたプロファイル(設定情報)を選択する(使用する)機能)を有効にし、原稿を識別するための情報(例えば、罫線情報)を登録しておく。運用時には、撮像画像及び登録されている原稿の識別情報に基づき、撮像された原稿を識別し、識別された原稿に対して登録されているプロファイルを原稿の識別情報に基づき選択し、そのプロファイルに応じたスキャン(画像処理)が行われるようにする。これにより、混載のケースであっても、各原稿(原稿の種類)に適した推奨設定によるスキャン(画像処理)が行うことができ、文字認識に適した画像を得ることが可能となる。
【0092】
2つ目の方法は、どの原稿にも適用可能な1つの推奨設定(プロファイル)を決定(提案)する方法である。この方法では、まず、複数種類の原稿(複数枚の原稿)を撮像することで得られる複数の撮像画像(各原稿に対応する撮像画像)を画像取得部21により取得する。そして、上述した方法により、夫々の原稿(撮像画像)について、候補選出処理(設定値の絞り込み)、選出された候補値に基づく設定値の組合せ(組み合わせ表)の作成、及び各組み合わせについての評価値(各組み合わせに対応する文字認識結果についての評価値)の算出を行う。そして、全ての原稿において、評価値が最も高くなる組み合わせを、これら複数種類の原稿に適用可能な推奨設定(プロファイル)として決定する。これより、混載のケースであっても、これら複数種類の原稿に適用可能な推奨設定によりスキャン(画像処理)を行うことができ、文字認識に適した画像を得ることが可能となる。
【0093】
また、本実施形態では、1枚の原稿を読み取ることで、当該原稿に適した推奨設定を決定する方法について例示したが、所定の形式を有する複数枚の原稿(同一種類の原稿を複数枚)を用いることで、当該所定の形式を有する原稿に適した推奨設定を決定する方法が用いられてもよい。この場合、複数枚の原稿についての複数の撮像画像が画像取得部31により取得されるが、候補選出処理で候補値を選出するために用いられる撮像画像と、推奨設定決定処理において画像処理を試行する対象の撮像画像とは異なってもよい。例えば、1枚目の原稿についての撮像画像を用いて候補選出処理を行い、2枚目の原稿についての撮像画像を用いて推奨設定決定処理が行われるようにしてもよい。
【0094】
[第二の実施形態]
第一の実施形態では、スキャナ8のドライバ(読取画像処理部42)を備える情報処理装置1において解析処理が行われる構成としたが、システム9の構成はこの構成に限定されず、情報処理装置1と通信可能に接続された、スキャナ8のドライバを備えない情報処理装置において解析処理が行われる構成であってもよい。本実施形態では、スキャナ8のドライバを備えていない情報処理装置(例えば、サーバ)において解析処理が行われる場合について例示する。
【0095】
<システムの構成>
図17は、本実施形態に係るシステム9の構成を示す概略図である。本実施形態に係るシステム9では、ネットワーク又はその他の通信手段を介して互いに通信可能に接続された、スキャナ8、情報処理装置1及びサーバ2を備える。
図17では、情報処理装置1は、ルータ(又はゲートウェイ)7を介してスキャナ8に接続されている。なお、
図17では、サーバ2に1つのスキャナ8及び1つの情報処理装置1が接続されている場合を例示するが、サーバ2には、複数のスキャナ8及び複数の情報処理装置1が接続されてよい。なお、スキャナ8及び情報処理装置1の構成は上記説明した実施形態における説明と概略同様であるため、説明を省略する。
【0096】
サーバ2は、情報処理装置1において取得された撮像画像を取得し、撮像画像を用いた解析処理を行うことで、上述した推奨設定を決定する。サーバ2は、CPU21、ROM22、RAM23、記憶装置24、入力デバイス25、出力デバイス26、通信ユニット27、等を備えるコンピュータである。但し、サーバ2の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、サーバ2は、単一の筐体からなる装置に限定されない。サーバ2は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
【0097】
図18は、本実施形態に係るサーバ2の機能構成の概略を示す図である。サーバ2は、記憶装置24に記録されているプログラムが、RAM23に読み出され、CPU21によって実行されて、サーバ2に備えられた各ハードウェアが制御されることで、画像取得部31、受付部32、解析部33、記憶部34及び提示部35を備える装置として機能する。解析部33は、候補選出部45及び推奨設定決定部46を備える。なお、本実施形態及び後述する他の実施形態では、サーバ2の備える各機能は、汎用プロセッサであるCPU21によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。なお、サーバ2の機能構成(各機能部)は、第一の実施形態における情報処理装置1の機能構成(各機能部)と概略同様であるため、説明を省略する。但し、本実施形態において、画像取得部31は、ネットワークを介して情報処理装置1から撮像画像を取得する。但し、本実施形態では、画像取得部31は、記憶装置24に記憶された撮像画像を読み出すことで取得するようにしてもよい。また、本実施形態では、受付部32は、情報処理装置1においてユーザにより指定されたOCR領域及び入力された正解文字列を、情報処理装置1から取得する。また、本実施形態では、提示部35は、情報処理装置1に対して推奨設定や推奨設定が反映された撮像画像を送信することでユーザに提示するようにしてもよい。
【0098】
[第三の実施形態]
第一の実施形態では、スキャナ8のドライバを備える情報処理装置1において解析処理が行われる構成としたが、システム9の構成はこの構成に限定されず、スキャナ8において解析処理が行われる構成であってもよい。本実施形態では、スキャナ8において解析処理が行われる場合について例示する。
【0099】
<システムの構成>
図19は、本実施形態に係るシステム9の構成を示す概略図である。本実施形態に係るシステムでは、スキャナ8bを備える。なお、スキャナ8bの構成は上記説明した第一の実施形態と概略同様であるため、説明を省略する。但し、スキャナ8bは、CPU81、ROM82、RAM83、記憶装置84、入力デバイス85、出力デバイス86、通信ユニット87、読取ユニット(撮像素子により原稿(原稿の画像)を読み取るユニット)88(画像読取手段)等を備えるコンピュータ(情報処理装置)である。但し、スキャナ8の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。
【0100】
図20は、本実施形態に係るスキャナの機能構成の概略を示す図である。スキャナ8bは、記憶装置84に記録されているプログラムが、RAM83に読み出され、CPU81によって実行されて、スキャナ8bに備えられた各ハードウェアが制御されることで、画像取得部31、受付部32、解析部33、記憶部34及び提示部35を備える装置として機能する。解析部33は、候補選出部45及び推奨設定決定部46を備える。なお、本実施形態では、スキャナ8bの備える各機能は、汎用プロセッサであるCPU81によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
【0101】
スキャナ8bの機能構成(各機能部)は、第一の実施形態における情報処理装置1の機能構成(各機能部)と概略同様であるため、説明を省略する。但し、本実施形態では、画像取得部31は画像読取部(画像読取手段)47と読取画像処理部(画像読取手段)42とを備える。画像読取部47は、撮像素子により原稿(原稿の画像)を読み取り、読取画像処理部42は、画像読取部47により原稿が読み取られることで生成された読取画像に対して画像処理を行う。これより、画像取得部31は撮像画像を取得する。また、本実施形態では、提示部35は、例えばスキャナ8bが備えるタッチパネル上に、推奨設定や推奨設定が反映された撮像画像を表示することでユーザに提示するようにしてよい。
【0102】
[第四の実施形態]
第四の実施形態では、本開示に係る情報処理システム、情報処理装置、方法及びプログラムを、評価対象の画像処理が文字認識に適した画像処理であるか(文字認識に適した画像を取得するために適した画像処理であるか)否かの評価を行うためのシステムにおいて実施した場合の実施の形態について説明する。但し、本開示に係る情報処理システム、情報処理装置、方法及びプログラムは、文字認識結果(文字認識精度)を評価するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。
【0103】
従来、画像読取装置により原稿が読み取られたことで得られた画像に対してOCRエンジンにより文字認識処理が行われているが、OCRエンジンにおいて誤読する場合があるため、OCRエンジンの文字認識率は100%ではない。そのため、ユーザによってOCR結果(認識文字列)と正解テキスト(正解文字列)とを比較することで、OCR結果が正しいか否かについての確認が行われている。しかし、認識文字列と正解文字列に差異があった場合でも、その差異がある文字同士が似通った文字同士である場合、ユーザが同じ文字であると誤判断する場合がある。このように、ユーザが誤判断をしてしまうと、OCR結果を正しく評価することができない。
【0104】
このような状況に鑑み、本実施形態に係る情報処理システム、情報処理装置、方法及びプログラムでは、評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うために評価対象の画像処理が行われた画像についての文字認識結果を確認するための画面(正解文字列と認識文字列との照合結果を示す画面)の表示を、当該照合結果に応じて異ならしめるよう制御することで、ユーザによる文字認識結果についての評価精度を高めることを可能とする。これより、ユーザのOCR結果(OCR精度)についての判断(評価)を補助することが可能となる。なお、本実施形態に係るシステム9の構成は、上記で
図1を参照して説明した第一の実施形態に係るシステム9の構成と概略同様であるため、説明を省略する。
【0105】
図21は、本実施形態に係る情報処理装置1の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、画像取得部61、受付部62、認識結果取得部63、照合部64及び表示制御部65を備える装置として機能する。画像取得部61は、読取画像取得部71及び画像処理部72を備える。受付部62は、文字領域取得部73及び正解情報取得部74を備える。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
【0106】
画像取得部61は、原稿を撮像した撮像画像を取得する。なお、画像取得部61は、第一の実施形態における画像取得部31と概略同様であるため、説明を省略する。但し、本実施形態では、読取画像取得部71により取得された読取画像に対して、画像処理部72(本実施形態に係る「画像処理手段」に相当)による画像処理(文字認識に適した画像処理であるかの評価を行う対象である評価対象の画像処理)を行うことで、画像処理が行われた画像(処理後画像)を撮像画像として取得する。
【0107】
受付部62は、ユーザが、読取原稿(撮像画像)において文字認識したいフィールド(文字が含まれる領域である文字領域(OCR領域))を選択し、且つ、その領域に記載された正解文字列を入力することによって、読取原稿についてのOCR領域の指定及び正解文字列についての入力を受け付ける。なお、受付部62は、第一の実施形態における受付部32と概略同様であるため、説明を省略する。
【0108】
認識結果取得部63は、撮像画像(処理後画像)についての文字認識結果を取得する。具体的には、認識結果取得部63は、撮像画像(処理後画像)内の文字領域(OCR領域)についての文字認識結果(認識文字列)を取得する。なお、認識結果取得部63は、文字認識処理(ОCR処理)を行うことで文字認識結果を取得してもよいし、文字認識処理を行う他の装置(OCRエンジンを備える装置)から文字認識結果を取得するようにしてもよい。
【0109】
照合部64は、正解文字列と認識文字列とを照合する。照合部64は、同一のOCR領域についての正解文字列と認識文字列とを照合(比較)し、正解文字列と認識文字列とが完全に一致するか否か、及び、正解文字列と認識文字列とが完全に一致しない場合は両文字列間で一致しない文字(差異のある文字)を特定する。
【0110】
表示制御部65は、評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための、正解文字列と認識文字列との照合結果(文字認識結果についての評価結果)を示す1つ以上の画面を表示手段(
図1の出力デバイス16に相当)に表示させる。本実施形態では、撮像画像内においてユーザに指定された全てのOCR領域についての照合結果を示す画面(第1の画面)と、各OCR領域についての照合結果を示す画面(第2の画面(ポップアップ画面))を表示させる。本実施形態では、照合結果を示す画面を表示させる際、少なくとも1つの画面の表示を、正解文字列と認識文字列との照合結果に応じて異ならしめるよう制御する。本実施形態では、画面の表示を照合結果に応じて異ならしめるよう制御する方法として、画面(第1の画面及び/又は第2の画面)に係る所定の画面構成要素の表示態様を照合結果に応じて異ならしめる方法(方法1)と、画面(第1の画面及び/又は第2の画面)に係る所定の画面構成要素の表示内容を照合結果に応じて異ならしめる方法(方法2)について説明する。なお、本実施形態では、第2の画面を、第1の画面におけるOCR領域へのマウスオーバーにより表示することとするが、マウスオーバー以外のOCR領域への処理により表示されるようにしてもよい。例えば、第1の画面におけるOCR領域を選択する処理(クリック操作)により第2の画面が表示されるようにしてもよい。
【0111】
(方法1:OCR領域枠の表示態様)
本実施形態では、後述するように、第1の画面に撮像画像(処理後画像)が表示され、当該撮像画像には、ユーザにより指定されたOCR領域(文字領域)を示す枠(枠線)(以下、「OCR領域枠」と称する)が重畳されて表示される。表示制御部65は、撮像画像に重畳されて表示されるOCR領域枠の表示態様を、照合結果に応じて異ならしめるよう制御する。具体的には、OCR領域枠の線の色、OCR領域枠の線の太さ、OCR領域枠の線の種類(点線、実線等)及びOCR領域枠内の背景色(オーバーレイ)の少なくとも何れかを照合結果に応じて異ならしめるよう制御する。
【0112】
(方法1:ポップアップ画面枠の表示態様)
本実施形態では、後述するように、第1の画面においてユーザがOCR領域(OCR領域枠)内にマウスオーバーすることで、当該OCR領域についての照合結果を示す画面(第2の画面)がポップアップ表示される(ポップアップ画面の表示)。表示制御部65は、この第2の画面を囲う画面枠(ポップアップ画面の枠)の表示態様を、当該OCR領域についての照合結果に応じて異ならしめるよう制御する。具体的には、画面枠の線の色、画面枠の線の太さ、画面枠の線の種類(点線、実線等)及び画面枠内の背景色(オーバーレイ)の少なくとも何れかを照合結果に応じて異ならしめるよう制御する。なお、本実施形態では、第2の画面の枠の表示態様を異ならしめることとしたが、ユーザにより指定された全OCR領域についての照合結果に応じて、第1の画面の枠の表示態様を異ならしめるよう制御してもよい。
【0113】
(方法1:文字列間で一致しなかった文字の表示態様)
本実施形態では、第2の画面(ポップアップ画面)には、当該第2の画面に係るOCR領域に関する、アイコン、照合結果を示すテキスト、認識文字列(OCRテキスト)、及び正解文字列(正解テキスト)が表示(配置)される。表示制御部65は、正解文字列内の文字と一致しない(異なる)と判定された認識文字列内の文字(以下、「不一致文字」と称する)の表示態様を、当該OCR領域についての照合結果に応じて異ならしめるよう制御する。具体的には、不一致文字の装飾(色、大きさ、太さ、斜体、アンダーライン等)、不一致文字の背景色及び不一致文字のフォントの少なくとも何れかを、当該OCR領域についての照合結果に応じて異ならしめるよう制御する。なお、本実施形態では、第2の画面に表示される不一致文字の表示態様を異ならしめることとしたが、認識文字列が第1の画面に表示される実施例の場合、第1の画面に表示される認識文字列内の不一致文字の表示態様を、OCR領域についての照合結果に応じて異ならしめるよう制御してもよい。
【0114】
(方法2:アイコンの種類)
上述の通り、本実施形態では、第2の画面には、照合結果を示すためのアイコンが表示される。表示制御部65は、アイコンの種類(丸、三角、四角等)を、OCR領域についての照合結果に応じて異ならしめるよう制御する。例えば、OCR領域において正解文字列と認識文字列とが一致しない場合には、正解文字列と認識文字列とが一致する場合と比較してよりユーザに対して注意喚起を促すことが可能なアイコン(丸以外のマーク等)が使用される。なお、本実施形態では、第2の画面に表示されるアイコンの表示態様を異ならしめることとしたが、当該アイコンが第1の画面に表示される実施例の場合、第1の画面に表示されるアイコンの表示態様を、当該OCR領域についての照合結果に応じて異ならしめるよう制御してもよい。
【0115】
(方法2:照合結果を示すテキストの内容)
上述の通り、本実施形態では、第2の画面には、照合結果を示すテキスト(照合結果をユーザに通知するためのテキスト)が表示される。表示制御部65は、このテキストの内容(文章の内容)を、OCR領域についての照合結果に応じて異ならしめるよう制御する。例えば、OCR領域において、正解文字列と認識文字列とが一致しない場合には、照合結果を示すテキスト「正しいテキストを取得できません。」を表示させ、正解文字列と認識文字列とが一致する場合には、照合結果を示すテキスト「正しいテキストを取得できました。」を表示させる。なお、本実施形態では、第2の画面に表示されるテキストの表示態様を異ならしめることとしたが、当該テキストが第1の画面に表示される実施例の場合、第1の画面に表示されるテキストの表示態様を、当該OCR領域についての照合結果に応じて異ならしめるよう制御してもよい。
【0116】
以上の通り、正解文字列と認識文字列との照合結果に応じて、当該照合結果を示す画面の表示を異ならしめる(変更する)ことにより、複数のOCR領域の中から、正解文字列と認識文字列とが一致しないOCR領域をユーザに注意喚起することが可能となる。 なお、上記では、複数の画面構成要素についての表示態様や表示内容を照合結果に応じて変更させる場合について説明したが、上述した複数の画面構成要素のうち少なくとも何れかについての表示態様又は表示内容が照合結果に応じて変更されればよい。以下、表示制御部65によって表示手段に表示される各種画面(ユーザインタフェース(UI))について例示する。
【0117】
図22は、本実施形態に係る原稿のスキャン画面の一例を示す図である。
図22に示すように、スキャン画面には、原稿のスキャンを行うためのボタン(「スキャン」ボタン)が表示(配置)され、ユーザにより「スキャン」ボタンが押下されることにより、原稿のスキャンが行われ、撮像画像(原稿画像)が生成される。これより、画像取得部61が撮像画像を取得する。
【0118】
図23は、本実施形態に係る事前設定画面(設定前状態)の一例を示す図である。
図23に示す画面は、OCR領域の設定及び正解文字列の入力を事前に行うための画面(初期画面)である。
図23に示すように、事前設定画面(設定前状態)には、撮像画像及びOCR領域を設定(追加)するためのボタン(「追加」ボタン)が表示(配置)され、ユーザにより「追加」ボタンが押下されることにより、OCR領域の設定及び正解文字列の入力が可能となる。
【0119】
図24は、本実施形態に係る事前設定画面(設定後状態)の一例を示す図である。
図24に示す画面は、撮像画像上におけるOCR領域の設定及び正解文字列の入力が行われた状態の事前設定画面である。
図24では、図中の5箇所(丸囲み文字1~5)をOCR領域として指定した場合を例示する。
図24に示すように、事前設定画面(設定後状態)には、撮像画像、OCR領域指定枠、各OCR領域についての正解文字列の入力フォーム(入力枠及び正解文字列)及び文字認識と文字認識結果の評価とを行うためのボタン(「評価開始」ボタン)が表示(配置)されている。
図24に示すように、
図23においてユーザが「追加」ボタンを押下し、OCRしたい領域を矩形枠で囲む(指定する)ことにより、撮像画像上でOCR領域を設定(指定)することが可能である。また、
図24の画面右側に示すように、ユーザは、正解文字列の入力フォームに、各OCR領域から読み取れる文字列(正解文字列)を入力することが可能である。
図24の例では、図中の5箇所(丸囲み文字1~5)のOCR領域夫々について、「01234567」、「001234」、「神奈川県横浜市西区みなとみらい4-4-5」、「TO123456789012」、「172,769」の正解文字列が入力されている。この画面においてユーザにより「評価開始」ボタンが押下されることで、評価結果の表示画面に遷移し、文字認識結果の評価が開始される。
【0120】
図25は、本実施形態に係る評価結果表示画面の一例を示す図である。評価結果表示画面(上述した第1の画面)では、各OCR領域についての正解文字列と認識文字列との照合結果に応じた表示がなされる。
図25に示すように、評価結果表示画面には、撮像画像、撮像画像に重畳された各OCR領域についてのOCR領域枠、及び文字認識結果が表示(配置)されている。
図25の例では、図中の5箇所(丸囲み文字1~5)のOCR領域夫々について、「01234567」、「001234」、「神奈川県横浜市酉区みなとみらい4-4-5」、「TO123456789012」、「172,769」のテキストが抽出されている(認識文字列が取得されている)。各OCR領域において正解文字列と認識文字列との照合が行われた結果、丸囲み文字3が示すOCR領域では、正解文字列と認識文字列とが一致しないと判定されている。具体的には、丸囲み文字3が示すOCR領域に記載された「西」の文字が誤読されて、「酉」と読み取られている。その結果、表示制御部65は、丸囲み文字3が示すOCR領域のOCR領域枠の表示態様を、正解文字列と認識文字列とが一致しなかったことに応じた表示態様で表示させる。一方、丸囲み文字1、2、4、5が示す各OCR領域については、画像から正解文字列と同一のテキスト(OCRテキスト)を取得できているため、表示制御部65は、丸囲み文字1、2、4、5が示す各OCR領域のOCR領域枠の表示態様を、正解文字列と認識文字列とが一致したことに応じた表示態様で表示させる。
【0121】
例えば、丸囲み文字3が示すOCR領域のOCR領域枠を、赤色、太線、且つ背景色あり(オーバーレイ)で表示させ、丸囲み文字1、2、4、5が示す各OCR領域のOCR領域枠を、緑色、細線、且つ背景色なしで表示させる。このように、表示制御部65は、正解文字列と認識文字列とが一致しなかった場合のOCR領域枠の表示態様を、正解文字列と認識文字列とが一致した場合の表示態様と比較し、よりユーザに注意喚起が可能な態様とするようにしてよい。
【0122】
図26は、本実施形態に係る評価結果の表示画面(正しいテキストが取得された場合)の一例を示す図である。
図26には、
図25で示された第1の画面に加え、
図25の画面において丸囲み文字5で示すOCR領域(文字領域)にマウスオーバーされたことで表示された画面(ポップアップ表示された画面(ポップアップ画面))であり、丸囲み文字5で示すOCR領域についての照合結果を示す画面(上述した第2の画面)が表示されている。上述の通り、丸囲み文字5で示すOCR領域では、画像から正解文字列と同一のテキスト(OCRテキスト)が取得できている。この場合、第2の画面の表示は、正解文字列と認識文字列とが一致したことに応じた表示とする。
【0123】
例えば、第2の画面の画面枠の表示態様、第2の画面に表示される照合結果を示すテキスト、及び第2の画面に表示されるアイコンの種類を、正解文字列と認識文字列とが一致したことに応じた表示(表示態様、表示内容)とする。例えば、第2の画面の画面枠を、緑色、細線、且つ背景色白色で表示させる。また、照合結果を示すテキストである「正しいテキストを取得できました。」を表示させる。更に、緑色の丸アイコンを表示させる。
【0124】
図27は、本実施形態に係る評価結果の表示画面(正しいテキストが取得されなかった場合)の一例を示す図である。
図27には、
図25で示された第1の画面に加え、
図25の画面において丸囲み文字3で示すOCR領域(文字領域)にマウスオーバーされたことで表示された画面(ポップアップ表示された画面(ポップアップ画面))であり、丸囲み文字3で示すOCR領域についての照合結果を示す画面(上述した第2の画面)が表示されている。上述の通り、丸囲み文字3で示すOCR領域では、画像から正解文字列と同一のテキスト(OCRテキスト)が取得できていない。この場合、第2の画面の表示は、正解文字列と認識文字列とが一致しなかったことに応じた表示とする。
【0125】
例えば、第2の画面の画面枠の表示態様、第2の画面に表示される不一致文字の表示態様、第2の画面に表示される照合結果を示すテキスト、及び第2の画面に表示されるアイコンの種類を、正解文字列と認識文字列とが一致しなかったことに応じた表示(表示態様、表示内容)とする。例えば、第2の画面の画面枠を、赤色、太線、且つ背景色赤色で表示させる。また、不一致文字を斜体、太字、且つ赤色で表示させ、不一致文字の背景色を画面の背景色より濃い赤色で表示させる。また、照合結果を示すテキストである「正しいテキストを取得できません。」を表示させる。更に、赤色の三角アイコンを表示させる。
図26と
図27のポップアップ画面を比較してわかるように、表示制御部65は、正解文字列と認識文字列とが一致しなかった場合のポップアップ画面についての表示態様及び表示内容を、正解文字列と認識文字列とが一致した場合の表示態様及び表示内容と比較し、よりユーザに注意喚起が可能な態様及び内容とする。
【0126】
なお、
図25~
図27では、画面右側(丸囲み文字1~5)に文字認識結果(認識文字列)を表示させているが、当該領域には、正解文字列及び/又は認識文字列が表示されてもよいし、正解文字列及び認識文字列が表示されなくてもよい。
【0127】
図28は、本実施形態に係る評価結果表示処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、情報処理装置1においてユーザがOCRをしたい原稿をスキャンし撮像画像(画像データ)を取得した状態で、OCR領域の指定及び正解文字列の入力が行われたこと等を契機として開始される。例えば、
図24に示す画面において「評価開始」ボタンがユーザにより押下されたことを契機として開始される。
【0128】
ステップS201では、全てのOCR領域を判定済みであるかが判定される。照合部64は、ユーザにより指定された全てのOCR領域について認識文字列と正解文字列が一致するかの判定が行われているかを判定する。全てのOCR領域について認識文字列と正解文字列が一致するかの判定が済んでいる場合(ステップS201のYES)、本フローチャートに示された処理は終了する。一方、全てのOCR領域について認識文字列と正解文字列が一致するかの判定が済んでいない場合(ステップS201のNO)、処理はステップS202へ進む。
【0129】
ステップS202では、未判定のOCR領域が取得される。認識結果取得部63は、ステップS201で認識文字列と正解文字列が一致するかの判定が済んでいないと判定されたOCR領域から1つのOCR領域(OCR領域に係る画像)を取得する。その後、処理はステップS203へ進む。
【0130】
ステップS203では、未判定のOCR領域についての認識文字列が取得される。認識結果取得部63は、ステップS202で取得されたOCR領域についての認識文字列を取得する。その後、処理はステップS204へ進む。
【0131】
ステップS204では、認識文字列が正解文字列と一致するかが判定される。照合部64は、ステップS203で取得された認識文字列と、予めユーザによって入力された、ステップS202で取得されたOCR領域についての正解文字列とを照合(比較)し、これらの文字列が一致するかを判定する。認識文字列と正解文字列とが一致する場合(ステップS204のYES)、処理はステップS205へ進む。一方、認識文字列と正解文字列とが一致しない場合(ステップS204のNO)、処理はステップS206へ進む。
【0132】
ステップS205では、一致したことに応じた表示(一致したことを示す表示態様)でOCR領域(OCR領域枠)が表示される。表示制御部65は、ステップS202で取得されたOCR領域についてのOCR領域枠を、認識文字列と正解文字列とが一致したことに応じた表示(表示態様)で表示する(
図25を参照)。その後、処理はステップS201へ戻る。
【0133】
ステップS206では、一致しなかったことに応じた表示(一致しなかったことを示す表示態様)でOCR領域(OCR領域枠)が表示される。表示制御部65は、ステップS202で取得されたOCR領域についてのOCR領域枠を、認識文字列と正解文字列とが一致しなかったことに応じた表示(表示態様)で表示する(
図25を参照)。その後、処理はステップS201へ戻る。
【0134】
図29は、本実施形態に係るポップアップ表示処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、ユーザがOCR領域にマウスオーバーしたこと等を契機として開始される。例えば、
図25に示される画面においてOCR領域にマウスオーバーしたこと等を契機として開始される。
【0135】
ステップS301では、認識文字列が正解文字列と一致するかが判定される。照合部64は、マウスオーバーされたOCR領域についての認識文字列と正解文字列とが一致するかを判定する。認識文字列と正解文字列とが一致する場合(ステップS301のYES)、処理はステップS302へ進む。一方、認識文字列と正解文字列とが一致しない場合(ステップS301のNO)、処理はステップS303へ進む。
【0136】
ステップS302では、一致したことに応じた表示(一致したことを示す表示態様及び/又は表示内容)でポップアップ画面が表示される。表示制御部65は、ステップS301で判定された結果(照合結果)を示すポップアップ画面の画面構成要素(ポップアップ画面の画面枠、アイコン、照合結果を示すテキスト、不一致文字)を、認識文字列と正解文字列とが一致したことに応じた表示(表示態様及び/又は表示内容)で表示する(
図26を参照)。その後、本フローチャートに示された処理は終了する。
【0137】
ステップS303では、文字列の相違点が抽出される。照合部64は、ステップS301で一致しないと判定された認識文字列と正解文字列との相違点(不一致文字)を抽出する。その後、処理はステップS304へ進む。
【0138】
ステップS304では、一致しなかったことに応じた表示(一致しなかったことを示す表示態様及び/又は表示内容)でポップアップ画面が表示される。表示制御部65は、ステップS301で判定された結果(照合結果)を示すポップアップ画面の画面構成要素(ポップアップ画面の画面枠、アイコン、照合結果を示すテキスト、不一致文字)を、認識文字列と正解文字列とが一致しなかったことに応じた表示(表示態様及び/又は表示内容)で表示する(
図27を参照)。その後、本フローチャートに示された処理は終了する。
【0139】
なお、照合結果(
図25~
図27の画面)を確認したユーザは、満足のいく結果(文字認識結果)が得られるまで、画像処理設定を変更し照合結果を確認する処理を繰り返し行うようにしてもよい。具体的には、照合結果を確認したユーザが満足のいく結果ではなかったと判断した場合を想定する。この場合、ユーザは、当該照合結果に用いた撮像画像に施されていた画像処理(画像処理部72により画像処理設定)とは異なる画像処理(異なる画像処理設定に基づいた画像処理)を読取画像に対して行うことで、当該照合結果に用いた撮像画像とは異なる撮像画像(処理後画像)を取得する。そして、新たに得られた撮像画像に対して上述した処理を行うことにより、この新たに得られた撮像画像についての照合結果を取得し、上述した表示制御処理により照合結果を示す画面(
図25~
図27の画面)が表示される。そして、再度ユーザは、照合結果を確認することで、満足のいく結果が得られたか否かを確認する。これらの処理を繰り返し行うことで、ユーザの満足のいく結果が得られた場合、満足のいく結果が得られた際の画像処理設定を保存し、以降の運用に用いるようにしてもよい。例えば、本実施形態に係る情報処理装置1は、ユーザから、文字認識結果が満足のいく結果であるとの評価結果、つまり、行われた画像処理が文字認識に適した画像処理であるとの評価結果を取得する機能部(例えば、評価取得部(図示を省略する))を有する。照合結果を示す画面等において、文字認識結果が満足のいく結果であった場合(行われた画像処理が文字認識に適した画像処理であった場合)に押下するボタン(例えば、「OK」ボタン)がユーザにより押下されることで、評価取得部は、行われた画像処理が文字認識に適した画像処理であるとの評価結果を取得するようにしてよい。また、この「OK」ボタンがユーザにより押下されることで、記憶部(図示を省略する)により、満足のいく結果が得られた際の画像処理設定が保存されるようにしてよい。なお、上記において、画像処理の変更(画像処理設定の変更)は、ユーザが手動で行っても良いし、プログラム上の機能で自動的に行ってもよい。
【0140】
以上より、本実施形態によれば、評価対象の画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うために評価対象の画像処理が行われた画像についての文字認識結果を確認するための画面(正解文字列と認識文字列との照合結果を示す画面)の表示を、当該照合結果に応じて異ならしめるよう制御することで、ユーザによる文字認識結果についての評価精度を高めることが可能となる。つまり、ユーザが正解文字列と認識文字列を比較した際に、誤判断することを防ぐことが可能となる。これより、ユーザの文字認識結果についての判断(評価)を補助することが可能となる。また、本実施形態によれば、OCRテキスト(認識文字列)の正誤判定を、認識文字列の信頼度ではなく、予めユーザが入力した正解テキストとの比較によって行うため、高精度に(100%の精度で)OCRテキストの正誤判定(一致するかしないか)を行うことが可能となる。また、本実施形態によれば、正解文字列と認識文字列との照合結果に応じて、照合結果を示す画面の表示を異ならしめる(変更する)ため、複数のOCR領域の中から、正解文字列と認識文字列とが一致しないOCR領域をユーザに注意喚起することが可能となる。
【0141】
[第五の実施形態]
本実施形態では、第一の実施形態と第四の実施形態を組み合わせた実施形態(決定された推奨設定が文字認識に適した設定であるか(推奨設定に基づく画像処理(推奨設定による画像処理)が文字認識に適した処理である)を評価するシステム)について説明する。本実施形態では、まず、第一の実施形態による方法によって、推奨設定を決定する。そして、第四の実施形態による方法によって、推奨設定が反映された画像についての文字認識結果を取得し、取得された文字認識結果の評価結果(認識文字列と正解文字列との照合結果)を示す画面を表示させる。なお、第四の実施形態による方法により、この画面の表示を認識文字列と正解文字列との照合結果に応じて異ならしめるよう制御する。なお、本実施形態に係るシステム9の構成は、上記で
図1を参照して説明した第一の実施形態に係るシステム9の構成と概略同様であるため、説明を省略する。
【0142】
図30は、本実施形態に係る情報処理装置の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、画像取得部31、受付部32、解析部33、記憶部34、提示部35及び表示制御部65を備える装置として機能する。画像取得部31は、読取画像取得部41及び読取画像処理部42を備える。受付部32は、文字領域取得部43及び正解情報取得部44を備える。解析部33は、候補選出部45及び推奨設定決定部46を備える。候補選出部45は、画像解析部51、第一の画像処理部52、第一の認識結果取得部53及び選出部54を備える。推奨設定決定部46は、第二の画像処理部55、第二の認識結果取得部56、及び決定部57を備える。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
【0143】
本実施形態における画像取得部31、受付部32、解析部33、記憶部34及び提示部35は、第一の実施形態における画像取得部31、受付部32、解析部33、記憶部34及び提示部35と概略同様であるため、説明を省略する。また、本実施形態における表示制御部65は、第四の実施形態における表示制御部65と概略同様であるため、説明を省略する。なお、第二の画像処理部55が第四の実施形態における「画像処理手段」に該当し、正解情報取得部44が第四の実施形態における「正解情報取得手段」に該当し、第二の認識結果取得部56が第四の実施形態における「認識結果取得手段」に該当し、第四の実施形態における「照合手段」は、本実施形態における決定部57が備える手段(機能部)に該当する。
【0144】
本実施形態では、解析部33(推奨設定決定部46)によって推奨設定(文字認識に適した画像処理設定)が決定されると、表示制御部65は、推奨設定に基づく画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための画面を表示手段に表示させる。例えば、表示制御部65は、
図25に示すような評価結果表示画面を、各OCR領域についての正解文字列と認識文字列との照合結果に応じた表示で表示させる。本実施形態では、評価結果表示画面に、推奨設定が反映された画像(推奨設定に基づく画像処理が施された画像)、OCR領域枠及び文字認識結果が表示される。
【0145】
なお、本実施形態では、推奨設定決定処理において第二の認識結果取得部56により既に取得済みである、推奨設定(後に推奨設定と決定される画像処理設定)による画像処理が行われた画像についての文字認識結果が画面に表示される。但し、推奨設定が決定された後に、再度、第二の画像処理部55によって推奨設定に基づく画像処理が撮像画像に対して行われ、得られた処理後画像についての文字認識結果を第二の認識結果取得部56によって取得し、取得された文字認識結果を画面に表示させるようにしてもよい。
【0146】
また、本実施形態では、推奨設定決定処理において上述した評価方法1が用いられる場合を想定する。この場合、推奨設定決定処理において、推奨設定(後に推奨設定と決定される画像処理設定)が反映された画像における各OCR領域についての正解文字列と認識文字列との照合(文字列同士が一致するか否かの判定)が既に行われている。そのため、表示制御部65は、推奨設定が決定された後に照合処理を行うことなく、評価結果表示画面の表示を、既に行われている照合処理の結果に応じた表示とするよう制御することが可能である。つまり、
図16に示されたフローチャートに示された処理によって推奨設定が決定されると、推奨設定について既に行われている照合処理の結果に応じて、
図28に示されたフローチャートに示されたステップ205又はステップS206の処理が実行される。
【0147】
なお、推奨設定決定処理において上述した評価方法2が用いられる場合は、推奨設定決定処理において、推奨設定(後に推奨設定と決定される画像処理設定)が反映された画像における各OCR領域についての正解文字列と認識文字列との照合(文字列同士が一致するか否かの判定)は行われない。この場合は、第四の実施形態において説明した照合部64によって、推奨設定が反映された画像における各OCR領域についての正解文字列と認識文字列との照合を行い、表示制御部65は、その結果に応じた表示が行われるよう制御する。つまり、
図16に示されたフローチャートに示された処理によって推奨設定が決定されると、
図28に示されたフローチャートに示された処理が実行される。この場合、
図28のステップS203では、推奨設定が決定された後に当該推奨設定が反映された画像についての認識文字列を新たに取得してもよいし、推奨設定決定処理において既に取得されている当該推奨設定(後に推奨設定と決定される画像処理設定)についての認識文字列を記憶装置14等から取得するようにしてもよい。
【0148】
なお、照合結果(
図25~
図27の画面)を確認したユーザは、満足のいく結果(文字認識結果)が得られるまで、画像処理設定を変更し照合結果を確認する処理を繰り返し行うことで、より文字認識に適した画像処理設定を決定するようにしてもよい。具体的には、推奨設定に関する照合結果を確認したユーザが満足のいく結果ではなかったと判断した場合を想定する。この場合、ユーザは推奨設定を修正(変更)し、例えば第二の画像処理部55により、修正された推奨設定に基づく画像処理を読取画像に対して行うことで、当該推奨設定が反映された画像とは異なる画像が取得される。そして、新たに得られた画像に対して、例えば第二の認識結果取得部56により文字認識結果(認識文字列)を取得し、例えば決定部57(照合手段)によって当該認識文字列と正解文字列との照合を行い(照合結果を取得し)、表示制御部65により照合結果を示す画面(
図25~
図27の画面)を表示させる。そして、再度ユーザは、照合結果を確認することで、満足のいく結果が得られたか否かを確認する。これらの処理を繰り返し行うことで、ユーザの満足のいく結果が得られた場合、満足のいく結果が得られた際の画像処理設定を保存し、以降の運用に用いるようにしてもよい。例えば、本実施形態に係る情報処理装置1は上述した通り、評価取得部を備えることで、照合結果を示す画面等において、行われた画像処理が文字認識に適した画像処理であった場合に押下するボタン(例えば、「OK」ボタン)がユーザにより押下された場合に、評価取得部は、行われた画像処理が文字認識に適した画像処理であるとの評価結果を取得するようにしてよい。また、この「OK」ボタンがユーザにより押下されることで、記憶部34により、満足のいく結果が得られた際の画像処理設定が保存されるようにしてよい。
【0149】
なお、上記において、推奨設定の変更は、ユーザが手動で行っても良いし、プログラム上の機能で自動的に行ってもよい。例えば、第一の実施形態で説明の通り、提示部35による画像処理設定の提案(推奨設定の提示)に対して満足がいかない場合は、OCR領域等を変更した上で再度上述した解析処理を行うことにより、再度OCRに適した画像処理設定(推奨設定)を決定することが可能である。この再度決定された推奨設定を用いることで、推奨設定の変更を自動的に行うようにしてもよい。
【0150】
なお、本実施形態における表示制御方法(画面の表示を照合結果に応じて異ならしめるよう制御する方法)は、第四の実施形態で説明した方法と概略同様であるため、説明を省略する。また、本実施形態におけるポップアップ表示処理の流れは、
図29を参照することで説明した第四の実施形態におけるポップアップ表示処理の流れと概略同様であるため、説明を省略する。
【0151】
本実施形態によれば、推奨設定による画像処理が文字認識に適した画像処理であるか否かの評価をユーザが行うための画面(正解文字列と認識文字列との照合結果を示す画面)の表示を、当該照合結果に応じて異ならしめるよう制御するため、文字認識に適した画像を得るために決定された推奨設定による画像処理が文字認識に適した画像処理であるかの評価をユーザが容易に行うことが可能である。より具体的には、文字認識に適した画像処理を行ったとしても、OCRで読み取れないテキストや誤読が発生する場合があるため、文字認識に適した画像処理を行った画像についての文字認識精度を実際にユーザが確認し、誤読がないかを確認することがある。この場合にも、本実施形態によれば、「ユーザが読み取ったテキスト」と「OCRが読み取ったテキスト」が一致するかどうかをユーザが判断しやすくなるため、ユーザの確認を補助すること及びOCO向けの画像処理設定を効率化することが可能となる。また、本実施形態によれば、推奨設定を変更するか否か(推奨設定を再度決定する処理を行うか否か)の判断をユーザが文字認識結果によって行う際に、誤読を防止することが可能であるため、推奨設定を変更するか否かの判断を適切に行うことが可能である。
【0152】
1 情報処理装置
2 サーバ
8 スキャナ