IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローレルバンクマシン株式会社の特許一覧 ▶ ローレル機械株式会社の特許一覧 ▶ ローレル精機株式会社の特許一覧

<>
  • 特開-情報処理装置及びプログラム 図1
  • 特開-情報処理装置及びプログラム 図2
  • 特開-情報処理装置及びプログラム 図3
  • 特開-情報処理装置及びプログラム 図4
  • 特開-情報処理装置及びプログラム 図5
  • 特開-情報処理装置及びプログラム 図6
  • 特開-情報処理装置及びプログラム 図7
  • 特開-情報処理装置及びプログラム 図8
  • 特開-情報処理装置及びプログラム 図9
  • 特開-情報処理装置及びプログラム 図10
  • 特開-情報処理装置及びプログラム 図11
  • 特開-情報処理装置及びプログラム 図12
  • 特開-情報処理装置及びプログラム 図13
  • 特開-情報処理装置及びプログラム 図14
  • 特開-情報処理装置及びプログラム 図15
  • 特開-情報処理装置及びプログラム 図16
  • 特開-情報処理装置及びプログラム 図17
  • 特開-情報処理装置及びプログラム 図18
  • 特開-情報処理装置及びプログラム 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023004111
(43)【公開日】2023-01-17
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20230110BHJP
【FI】
G06K9/03 B
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021105617
(22)【出願日】2021-06-25
(71)【出願人】
【識別番号】000116079
【氏名又は名称】ローレルバンクマシン株式会社
(71)【出願人】
【識別番号】500267170
【氏名又は名称】ローレル機械株式会社
(71)【出願人】
【識別番号】500265501
【氏名又は名称】ローレル精機株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】小澤 茂樹
【テーマコード(参考)】
5B064
【Fターム(参考)】
5B064AA01
5B064AB03
5B064BA01
5B064EA05
5B064EA08
5B064EA11
5B064EA15
5B064FA05
5B064FA09
5B064FA13
(57)【要約】
【課題】文字認識の結果の確認及び修正を効率的に行うことが可能な情報処理装置を提供する。
【解決手段】端末装置20は、画像に含まれる文字を認識する文字認識処理により文字画像CIから読み取られた複数の文字CRを示す文字情報と複数の文字CRの各々についての認識結果の確度を示す確度情報とを含む認識情報を、取得する取得部222と、文字情報により示される複数の文字CRを表示装置30に表示させる表示制御部224と、確度情報により示される確度に基づいて、複数の文字CRのうち、認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部226と、を備える。
【選択図】図6
【特許請求の範囲】
【請求項1】
画像に含まれる文字を認識する文字認識処理により読取対象画像から読み取られた複数の文字を示す文字情報と前記複数の文字の各々についての認識結果の確度を示す確度情報とを含む認識情報を、取得する取得部と、
前記文字情報により示される前記複数の文字を表示装置に表示させる表示制御部と、
前記確度情報により示される確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、
を備える、
情報処理装置。
【請求項2】
前記制限部は、
前記複数の文字のうち、前記確度情報により示される確度が第1の確度より高い文字を、前記保護文字として特定する、
請求項1に記載の情報処理装置。
【請求項3】
前記読取対象画像は、複数の領域に分けられ、
前記複数の文字の各々は、前記複数の領域のいずれかから読み取られた文字であり、前記複数の領域に対応する複数のグループのいずれかに属し、
前記制限部は、
前記複数のグループのうち、前記確度情報により示される確度が第1の確度より高い文字、及び、前記確度情報により示される確度が前記第1の確度以下の文字を含む第1グループを特定し、前記第1グループに属する全ての文字のうち、前記確度情報により示される確度が前記第1の確度より高い文字を、前記保護文字として特定する、
請求項1に記載の情報処理装置。
【請求項4】
前記制限部は、
前記複数のグループのうち、前記確度情報により示される確度が前記第1の確度より高い文字のみを含む第2グループを特定し、前記第2グループに属する全ての文字に対する操作を制限しない、
請求項3に記載の情報処理装置。
【請求項5】
前記読取対象画像は、複数の領域に分けられ、
前記複数の文字の各々は、前記複数の領域のいずれかから読み取られた文字であり、前記複数の領域に対応する複数のグループのいずれかに属し、
前記制限部は、
前記複数のグループのうち、前記確度情報により示される確度が第1の確度以下の文字を含む第1グループを特定し、前記第1グループに属する全ての文字に対する操作を制限せず、
前記複数のグループのうち、前記確度情報により示される確度が前記第1の確度より高い文字のみを含む第2グループを特定し、前記第2グループに属する全ての文字を前記保護文字として特定する、
請求項1に記載の情報処理装置。
【請求項6】
前記制限部は、
前記保護文字に対する操作の制限の度合いを、前記確度情報により示される確度に応じて変更する、
請求項1乃至5のいずれか1項に記載の情報処理装置。
【請求項7】
前記第1の確度は、第2の確度より低く、
前記制限部は、
前記保護文字において、前記確度情報により示される確度が前記第2の確度より高い文字に対しては、前記保護文字に対する操作の内容が反映されないように制限し、
前記保護文字において、前記確度情報により示される確度が前記第2の確度以下の文字に対しては、ユーザにより所定の操作が行われた場合に、前記保護文字に対する操作を制限せず、前記ユーザにより前記所定の操作が行われなかった場合に、前記保護文字に対する操作の内容が反映されないように制限する、
請求項2乃至5のいずれか1項に記載の情報処理装置。
【請求項8】
前記表示制御部は、
前記複数の文字のうち、前記保護文字を、前記保護文字以外の文字から識別可能な態様で前記表示装置に表示させる、
請求項1乃至7のいずれか1項に記載の情報処理装置。
【請求項9】
画像を示す画像情報を取得する画像情報取得部と、
前記画像情報により示される前記画像に含まれる複数の文字を認識し、前記複数の文字の各々について、認識結果の確度を算出する文字認識部と、
前記文字認識部により認識された前記複数の文字を表示装置に表示させる表示制御部と、
前記文字認識部により算出された確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、
を備える、
情報処理装置。
【請求項10】
プロセッサを、
画像に含まれる文字を認識する文字認識処理により読取対象画像から読み取られた複数の文字を示す文字情報と前記複数の文字の各々についての認識結果の確度を示す確度情報とを含む認識情報を、取得する取得部と、
前記文字情報により示される前記複数の文字を表示装置に表示させる表示制御部と、
前記確度情報により示される確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、
として機能させる、
プログラム。
【請求項11】
プロセッサを、
画像を示す画像情報を取得する画像情報取得部と、
前記画像情報により示される前記画像に含まれる複数の文字を認識し、前記複数の文字の各々について、認識結果の確度を算出する文字認識部と、
前記文字認識部により認識された前記複数の文字を表示装置に表示させる表示制御部と、
前記文字認識部により算出された確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、
として機能させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
文字認識装置等の情報処理装置では、一般的に、光学文字認識(OCR:Optical character recognition)技術が採用されている。OCR技術は、帳票等の媒体に記載された文字をカメラ及びイメージスキャナ等の光学的な手段により画像として取込み、取り込んだ画像内の文字をコンピュータ等が利用可能な文字情報(例えば、文字コード)に変換する技術である。なお、OCRによる文字認識の精度は100%ではないため、文字認識が行われた画像と文字認識の結果とを互いに目視により確認し、誤った文字を修正する確認作業が、オペレータにより行われる。特許文献1には、文字認識の結果の確度を複数の区分に分類し、複数の区分の1つを、文字認識の結果が絶対に誤っていない確度を示す区分にする文字認識方法が開示されている。この種の文字認識方法では、文字認識の結果が絶対に誤っていない確度を示す区分に属する文字に対しては、オペレータによる確認作業を省略することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007-156938号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、確認作業において、文字認識の結果が正しい文字をオペレータが誤って変更してしまう作業ミスが発生する場合がある。このため、文字認識の結果の確認及び修正を効率的に行うことが可能な情報処理装置が求められている。
【課題を解決するための手段】
【0005】
本発明の好適な態様に係る情報処理装置は、画像に含まれる文字を認識する文字認識処理により読取対象画像から読み取られた複数の文字を示す文字情報と前記複数の文字の各々についての認識結果の確度を示す確度情報とを含む認識情報を、取得する取得部と、前記文字情報により示される前記複数の文字を表示装置に表示させる表示制御部と、前記確度情報により示される確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、を備える。
【0006】
本発明の好適な他の態様に係る情報処理装置は、画像を示す画像情報を取得する画像情報取得部と、前記画像情報により示される前記画像に含まれる複数の文字を認識し、前記複数の文字の各々について、認識結果の確度を算出する文字認識部と、前記文字認識部により認識された前記複数の文字を表示装置に表示させる表示制御部と、前記文字認識部により算出された確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、を備える。
【0007】
本発明の好適な態様に係るプログラムは、プロセッサを、画像に含まれる文字を認識する文字認識処理により読取対象画像から読み取られた複数の文字を示す文字情報と前記複数の文字の各々についての認識結果の確度を示す確度情報とを含む認識情報を、取得する取得部と、前記文字情報により示される前記複数の文字を表示装置に表示させる表示制御部と、前記確度情報により示される確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、として機能させる。
【0008】
本発明の好適な他の態様に係るプログラムは、プロセッサを、画像を示す画像情報を取得する画像情報取得部と、前記画像情報により示される前記画像に含まれる複数の文字を認識し、前記複数の文字の各々について、認識結果の確度を算出する文字認識部と、前記文字認識部により認識された前記複数の文字を表示装置に表示させる表示制御部と、前記文字認識部により算出された確度に基づいて、前記複数の文字のうち、前記認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する制限部と、として機能させる。
【発明の効果】
【0009】
本発明によれば、文字認識の結果の確認及び修正を効率的に行うことが可能な情報処理装置を提供することができる。
【図面の簡単な説明】
【0010】
図1】実施形態に係る文字認識システムの概要を説明するための説明図である。
図2】入力画像の一例を説明するための説明図である。
図3】文字認識処理の結果を確認するための確認画面の概要の一例を説明するための説明図である。
図4図1に示した文字認識装置の構成の一例を示す機能ブロック図である。
図5図4に示した文字認識装置のハードウェア構成の一例を示す図である。
図6図1に示した端末装置の構成の一例を示す機能ブロック図である。
図7図6に示した端末装置のハードウェア構成の一例を示す図である。
図8図6に示した編集テーブルの一例を示す説明図である。
図9図6に示した編集テーブルの別の例を示す説明図である。
図10図1に示した端末装置の動作の概要を説明するための説明図である。
図11図1に示した文字認識システムの動作の一例を示すシーケンスチャートである。
図12】第1変形例に係る端末装置の動作の概要を説明するための説明図である。
図13】第2変形例に係る端末装置の動作の概要を説明するための説明図である。
図14】第3変形例に係る確認画面の一例を示す図である。
図15】第4変形例に係る確認画面の一例を示す図である。
図16】第5変形例に係る端末装置の動作の一例を示すフローチャートである。
図17】第6変形例に係る文字認識システムの概要を説明するための説明図である。
図18】第7変形例に係る文字認識装置の構成の一例を示す機能ブロック図である。
図19図18に示した文字認識装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0011】
以下、本発明を実施するための形態について図面を参照して説明する。なお、各図において、各部の寸法及び縮尺は、実際のものと適宜に異ならせてある。また、以下に述べる実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの形態に限られるものではない。
【0012】
[1.実施形態]
先ず、図1を参照しながら、実施形態に係る文字認識システム1の概要の一例について説明する。
【0013】
図1は、実施形態に係る文字認識システム1の概要を説明するための説明図である。
【0014】
図1に示す文字認識システム1は、文字認識装置10と、端末装置20と、端末装置20に対応して設けられた表示装置30とを有する。端末装置20は、「情報処理装置」の一例である。文字認識装置10及び端末装置20は、例えば、ネットワークNWを介して、互いに通信可能に接続されている。ネットワークNWは、インターネット及びローカルエリアネットワークを含み得る。例えば、ネットワークNWは、有線ネットワーク及び無線ネットワークの一方又は両方を含む。また、ネットワークNWと文字認識装置10との接続等は、例えば、複数の要素間を互いに通信可能にする接続であればよく、有線及び無線の一方を用いた接続であってもよいし、有線及び無線の両方を用いた接続であってもよい。
【0015】
文字認識装置10としては、ネットワークNWに接続可能な任意の情報処理装置を採用することができる。文字認識装置10は、例えば、光学文字認識(OCR:Optical character recognition)技術を用いて、画像に含まれる文字を認識する文字認識処理を実行する。文字認識処理の対象となる入力画像IIMGの一例は、後述する図2において説明される。また、文字認識装置10の構成は、後述する図4及び図5において説明される。
【0016】
端末装置20としては、ネットワークNWに接続可能な任意の情報処理装置を採用することができる。具体的には、端末装置20は、例えば、パーソナルコンピュータ等の据置型の情報機器であってもよいし、ノート型のパーソナルコンピュータ及びタブレット端末等の可搬型の情報端末であってもよい。端末装置20は、例えば、表示装置30と通信可能に接続され、表示装置30に設けられた表示部310に対して画像等を表示させることができる。端末装置20と表示装置30との接続は、有線及び無線の一方を用いた接続であってもよいし、有線及び無線の両方を用いた接続であってもよい。また、表示装置30は、端末装置20に含まれてもよい。端末装置20は、例えば、文字認識装置10による文字認識処理の結果をユーザ(例えば、オペレータ)が確認するための確認画面CHSを、表示装置30に表示させる。確認画面CHSの一例は、後述する図3において説明される。また、端末装置20の構成は、後述する図6及び図7において説明される。
【0017】
図2は、入力画像IIMGの一例を説明するための説明図である。本実施形態では、文字認識処理の対象となる入力画像IIMGが申込書の画像である場合を想定するが、入力画像IIMGは申込書の画像に限定されない。例えば、入力画像IIMGは、処方箋又は帳票等の画像でもよい。
【0018】
入力画像IIMGは、例えば、複数の項目に対応する複数の記入欄ECが設けられた申込書の画像である。図2に示す例では、申込書に記入される複数の項目は、申込番号、氏名(カナ)、氏名、郵便番号、住所、E-mail、勤務先、勤務先電話番号及び備考等である。入力画像IIMGは、例えば、カメラ及びイメージスキャナ等の光学的な手段により、デジタル信号である入力画像情報に変換される。そして、文字認識装置10は、入力画像IIMGを示す入力画像情報を用いて、入力画像IIMGに含まれる文字を認識する。
【0019】
入力画像IIMGのうちの、文字認識装置10による文字認識処理の対象となる文字画像部分(例えば、複数の記入欄ECの各々)は、ユーザにより手動で設定されてもよいし、文字認識装置10により自動的に設定されてもよい。例えば、文字認識装置10は、記入欄ECに手書き文字等が記入されていない申込書(空欄の申込書)の画像情報を基準画像情報として用いて、文字認識処理の対象となる範囲を基準画像情報上で予め特定し、特定した範囲を文字画像部分として設定してもよい。あるいは、入力画像IIMGのうちの文字画像部分は、文字認識装置10により自動的に設定された範囲をユーザが修正することにより、設定されてもよい。これにより、文字認識装置10は、ある入力画像情報が入力されると、記憶部に記憶された帳票辞書データの中から、所定の項目や罫線情報に基づいて入力画像情報の申込書と一致度が高い帳票(本実施形態では申込書)を取得する。そして、文字認識装置10は、取得した当該帳票において予め設定された文字画像部分のXY座標と同じXY座標で規定される入力画像情報のXY座標の範囲を文字画像部分として認識する。
【0020】
本実施形態では、入力画像IIMGのうちの、複数の記入欄ECに対応する複数の部分が、文字認識装置10による文字認識処理の対象となる複数の文字画像部分である場合を想定する。以下では、入力画像IIMGのうちの、文字認識装置10による文字認識処理の対象となる文字画像部分は、文字画像CIとも称される。本実施形態では、入力画像IIMGの複数の記入欄ECに対応する複数の部分の各々が文字画像CIである場合を想定する。例えば、図2において破線で囲んだ部分は、備考の記入欄ECに対応する文字画像CIを示す。なお、入力画像IIMG及び文字画像CIは、「読取対象画像」の一例である。以下では、特に断りがない場合、文字画像CIが「読取対象画像」に該当する場合を想定している。
【0021】
次に、図3を参照しながら、文字認識処理の結果を確認するための確認画面CHSについて説明する。
【0022】
図3は、文字認識処理の結果を確認するための確認画面CHSの概要の一例を説明するための説明図である。図3は、入力画像IIMGに含まれる複数の文字画像CIのうち、備考の記入欄ECに対応する文字画像CIから読み取られた複数の文字CRを確認するための確認画面CHSの一例を示す。なお、複数の文字CRは、「読取対象画像から読み取られた複数の文字」の一例である。以下では、文字認識処理の結果は、認識結果とも称される。
【0023】
確認画面CHSは、例えば、表示装置30の表示部310に表示される。例えば、確認画面CHSには、確認対象の項目を示す“備考”の文字列、文字画像領域IW、編集領域EDW、及び、終了ボタンBT等が表示される。終了ボタンBTは、例えば、確認画面CHSの表示を終了させるためのGUI(Graphical User Interface)用の画像である。
【0024】
文字画像領域IWには、文字画像CIが表示される。図3に示す例では、文字画像CIの一部(図2に示した“携帯電話の番号を、下記に示します。”の文字列)は、文字画像領域IWに表示されていない。このため、文字画像領域IWにおいて文字画像CIを水平方向(図の横方向)に移動させる水平スクロールバーHSと、文字画像領域IWにおいて文字画像CIを垂直方向(図の縦方向)に移動させる垂直スクロールバーVSiとが確認画面CHSに表示される。なお、文字認識装置10又は端末装置20は、文字画像CIの全体が文字画像領域IWに入るように、文字画像CIを縮小表示さてもよい。
【0025】
ここで、文字画像CIは、例えば、複数の文字部分(図3に示す文字画像領域IW内の点線で囲んだ部分)に区分される。例えば、複数の文字部分の各々は、文字画像CIのうち、文字認識処理により1文字として区切られた部分である。図3では、文字認識処理により、文字画像CIに含まれる複数の文字の各々が1文字として正しく区切られている場合が例示されている。また、図3では、説明を分かり易くするために、文字画像領域IWにおいて文字部分を点線で示しているが、文字部分を示す点線は、文字画像領域IWに表示されてもよいし、表示されなくてもよい。また、例えば、文字画像CIの元となった申込書等の原本と複数の文字CRとがユーザにより比較される場合等では、文字画像領域IWは、確認画面CHSに表示されなくてもよい。
【0026】
編集領域EDWには、文字画像CIから読み取られた複数の文字CRが表示される。図3に示す例では、複数の文字CRの一部(図2に示した“携帯電話の番号を、下記に示します。”の文字列)は、編集領域EDWに表示されていない。このため、編集領域EDWにおいて複数の文字CRを垂直方向(図の縦方向)に移動させる垂直スクロールバーVSeが確認画面CHSに表示される。また、編集領域EDWには、文字の入力位置を示すカーソルCSが表示される。編集領域EDWにおけるカーソルCSの表示位置は、例えば、ユーザ操作により移動する。なお、文字認識装置10又は端末装置20は、文字画像CIから読み取られた複数の文字CR全体が、編集領域EDWに入るように、文字CRを縮小表示させてもよい。
【0027】
ここで、図3に示す編集領域EDWにおいて、破線で囲まれた文字CRは、文字認識装置10による文字認識処理の結果(認識結果)の確度が予め決められた第1の確度より高い文字CRである。なお、認識結果の確度が第1の確度より高い文字CRの範囲を示す破線は、編集領域EDWに表示されてもよいし、表示されなくてもよい。認識結果の確度は、認識結果の確からしさを示す。認識結果の確度の高い文字CRは、認識結果の確度の低い文字CRに比べて、正しく認識されている確率が高い。なお、第1の確度は、例えば、文字認識装置10の管理者及び端末装置20のユーザ等により、文字認識処理の試行結果に基づいて決定されてもよい。あるいは、第1の確度は、文字認識処理の過去の実績等に基づいて、文字認識装置10により自動的に設定されてもよい。
【0028】
認識結果の確度が第1の確度より高いことは、「認識結果の確度に関する条件」の一例である。例えば、端末装置20は、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CRを、認識結果の確度に関する条件が満たされた保護文字として特定し、特定した保護文字に対するユーザによる修正や変更及び削除等の操作を制限する。なお、本実施形態では、認識結果の確度が第1の確度より高いことが認識結果の確度に関する条件である場合を想定するが、認識結果の確度に関する条件は、認識結果の確度が第1の確度より高いことに限定されない。認識結果の確度に関する条件の他の例は、後述する第1変形例等において説明される。
【0029】
図3では、文字画像CIに含まれる複数の文字による文字列(“090-0ab7-1171”)のうち、末尾から数えて4番目の文字である“1”の1文字と“7”の2文字との計3文字の認識結果の確度が第1の確度以下である場合を想定する。また、図3に示す例では、文字認識装置10は、文字画像CIに含まれる複数の文字による文字列のうち、“7”の2文字の各々を“1”の文字CRと誤って認識している。従って、図3に示す例では、複数の文字CRとして、文字列“090-0ab1-1111”が、編集領域EDWに表示される。編集領域EDWに表示された複数の文字CR(“090-0ab1-1111”)のうち、図3の破線で囲まれた10個の文字CRに対してはユーザによる操作が制限され、図3の破線で囲まれていない3個の“1”の文字CRに対するユーザによる操作は制限されない。
【0030】
例えば、図3において上側に示した確認画面CHSでは、カーソルCSは、複数の文字CR(“090-0ab1-1111”)のうち、末尾から数えて3番目の文字である“1”の文字CRの位置に表示されている。この場合、カーソルCSにより選択された文字CRは、ユーザによる操作が制限された保護文字であるため、文字CRを削除する削除操作をユーザが誤って行った場合でも、削除されない。すなわち、カーソルCSにより選択された文字CRが保護文字である場合、カーソルCSにより選択された文字CR(保護文字)には、ユーザによる文字CRの削除、修正及び変更等の操作は、反映されない。なお、保護文字に対しては、カーソルCSによる選択ができないようにしてもよい。この場合、ユーザがカーソルCSを操作して保護文字を選択しようとすると、例えば、カーソルCSが保護文字を飛ばして次の文字CRに移動する。これにより、ユーザによる当該文字CRが保護文字であることの認識をし易くすると共に、保護文字に対する誤操作を確実に防ぐことができる。
【0031】
また、例えば、図3において下側に示した確認画面CHSでは、カーソルCSの表示位置は、ユーザ操作により、複数の文字CRのうち、末尾から数えて2番目の文字である“1”の文字CRの位置に移動する。この場合、カーソルCSにより選択された文字CRは、ユーザによる修正が制限された保護文字でないため、誤った文字CRを正しい文字に修正する修正操作をユーザが行った場合、正しい文字に修正される。
【0032】
このように、本実施形態では、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CR(保護文字)に対する修正は、制限される。これにより、ユーザは、文字認識処理の結果の確認及び修正を効率的に行うことができる。
【0033】
例えば、認識結果の確度が第1の確度より高い文字CRに対するユーザによる操作が制限されない形態(以下、第1対比例とも称する)では、文字認識の結果が正しい文字CRをユーザが誤って変更してしまう作業ミスが発生する場合がある。具体的には、複数の文字CRのうち、末尾から数えて2番目の文字である“1”の文字CRを“7”の文字に修正する修正作業において、末尾から数えて3番目の文字である“1”の文字CRの位置にカーソルCSをユーザが誤って移動させた場合を想定する。この場合、ユーザが、カーソルCSにより選択されている文字CRが修正対象の文字CRでないことに気づかずに、“1”の文字CRを“7”の文字に修正する修正操作を行うと、文字認識の結果が正しい“1”の文字CRが“7”の文字(誤った文字)に変更される。
【0034】
これに対し、本実施形態では、上述したように、複数の文字CRのうちの末尾から数えて3番目の文字である“1”の文字CR(カーソルCSにより選択されている文字CR)は、保護文字である。このため、ユーザが、カーソルCSにより選択されている文字CRが修正対象の文字CRでないことに気づかずに、“1”の文字CRを“7”の文字に修正する修正操作を行った場合でも、カーソルCSにより選択されている文字CRには、修正操作は反映されない。従って、本実施形態では、文字認識の結果が正しい文字CRがユーザの誤った操作で誤った文字に変更されることを抑制することができる。この結果、本実施形態では、第1対比例に比べて、文字認識処理の結果に対する確認及び修正の作業効率を向上することができる。
【0035】
次に、図4から図7を参照しながら、文字認識装置10及び端末装置20の機能について説明する。
【0036】
図4は、図1に示した文字認識装置10の構成の一例を示す機能ブロック図である。
【0037】
文字認識装置10は、文字認識装置10の各部を制御する制御部120と、制御プログラムPG1等の各種情報を記憶する記憶部140と、端末装置20等の外部装置との間の通信を実行するための通信部160とを有する。本実施形態では、制御プログラムPG1は、例えば、文字認識装置10が文字認識処理を実行するためのアプリケーションプログラムを含む。但し、制御プログラムPG1は、例えば、制御部120が文字認識装置10の各部を制御するためのオペレーティングシステムプログラムを含んでもよい。
【0038】
制御部120は、例えば、画像情報取得部122及び文字認識部124を有する。画像情報取得部122は、例えば、文字認識処理の対象となる入力画像IIMGを示す入力画像情報を、通信部160を介して端末装置20から取得する。
【0039】
文字認識部124は、画像情報取得部122が取得した入力画像情報を用いて文字認識処理を実行することにより、入力画像情報により示される入力画像IIMGに含まれる文字を認識する。例えば、文字認識部124は、入力画像IIMGのうちの予め決められた文字画像CIに含まれる文字を認識する。これにより、複数の文字画像CIの各々から複数の文字CRが読み取られる。すなわち、文字画像CIから読み取られた文字CRは、文字画像CIに含まれる文字として、文字認識処理により認識された文字である。また、文字認識部124は、複数の文字画像CIの各々から読み取った複数の文字CRの確からしさを示す確度(すなわち、認識結果の確度)を算出する。
【0040】
また、文字認識部124は、複数の文字画像CIの各々に対する文字認識処理の結果に関する認識情報と、複数の文字画像CIの各々を示す文字画像情報とを、通信部160を介して端末装置20に送信する。例えば、認識情報は、複数の文字画像CIの各々から読み取った複数の文字CRを示す文字情報と、複数の文字CRの各々についての認識結果の確度を示す確度情報とを含む。また、文字画像情報は、例えば、文字画像CIのうち、文字認識処理により1文字として区切られた文字部分を示す文字部分情報を含んでもよい。文字部分情報は、文字画像CIにおける文字部分の範囲を、文字画像CI内の所定の位置を原点とする座標を用いて示してもよい。
【0041】
なお、文字認識部124は、文字を含む画像と、画像に含まれる文字との関係を学習した学習モデルを用いて、文字画像CIに含まれる文字を認識してもよい。学習モデルは、例えば、多層ニューラルネットワークである。すなわち、文字認識部124は、この学習モデルを用いることで、AI(Artificial Intelligence)-OCRによる文字認識処理を実行してもよい。
【0042】
次に、図5を参照しながら、文字認識装置10のハードウェア構成について説明する。
【0043】
図5は、図4に示した文字認識装置10のハードウェア構成の一例を示す図である。
【0044】
文字認識装置10は、文字認識装置10の各部を制御するプロセッサ12と、各種情報を記憶するメモリ14と、通信装置16とを有する。
【0045】
メモリ14は、例えば、プロセッサ12の作業領域として機能するRAM(Random Access Memory)等の揮発性メモリと、制御プログラムPG1等の各種情報を記憶するEEPROM(Electrically Erasable Programmable Read-Only Memory)等の不揮発性メモリとの、一方又は両方を含み、記憶部140として機能する。なお、メモリ14は、文字認識装置10に着脱可能であってもよい。具体的には、メモリ14は、文字認識装置10に着脱されるメモリカード等の記憶媒体であってもよい。また、メモリ14は、例えば、文字認識装置10とネットワークNW等を介して通信可能に接続された記憶装置(例えば、オンラインストレージ)であってもよい。
【0046】
プロセッサ12は、例えば、1又は複数のCPU(Central Processing Unit)を含んで構成される。プロセッサ12は、例えば、メモリ14に記憶された制御プログラムPG1を実行し、制御プログラムPG1に従って動作することで、制御部120として機能する。例えば、制御プログラムPG1に含まれるアプリケーションプログラム(文字認識に係るプログラム)に従って動作するプロセッサ12は、画像情報取得部122及び文字認識部124を含む制御部120として機能する。なお、制御プログラムPG1は、ネットワークNWを介して他の装置から送信されてもよい。
【0047】
また、例えば、プロセッサ12が複数のCPUを含んで構成される場合、制御部120の一部又は全部の機能は、これら複数のCPUが制御プログラムPG1等のプログラムに従って協働して動作することで実現されてもよい。また、プロセッサ12は、1又は複数のCPUに加え、又は、1又は複数のCPUのうち一部又は全部に代えて、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、又は、FPGA(Field Programmable Gate Array)等のハードウェアを含んで構成されるものであってもよい。この場合、プロセッサ12により実現される制御部120の一部又は全部は、DSP等のハードウェアにより実現されてもよい。
【0048】
通信装置16は、有線ネットワーク及び無線ネットワークの一方又は両方を介して、文字認識装置10の外部に存在する外部装置との通信を行うためのハードウェアであり、通信部160として機能する。
【0049】
なお、文字認識装置10の構成は、図4及び図5に示した例に限定されない。例えば、文字認識装置10は、文字認識装置10の管理者等による操作を受け付けるための操作部として機能する操作装置(後述する図7に示す端末装置20の操作装置28と同様な操作装置)を有してもよい。
【0050】
次に、図6及び図7を参照しながら、端末装置20の構成について説明する。
【0051】
図6は、図1に示した端末装置20の構成の一例を示す機能ブロック図である。
【0052】
端末装置20は、端末装置20の各部を制御する制御部220と、各種情報を記憶する記憶部240と、文字認識装置10等の外部装置との間の通信を実行するための通信部260と、端末装置20のユーザによる操作を受け付けるための操作部280とを有する。記憶部240は、例えば、制御プログラムPG2及び編集テーブルTBLを記憶している。本実施形態では、制御プログラムPG2は、例えば、文字認識処理の結果の修正等を支援する修正支援処理を端末装置20が実行するためのアプリケーションプログラムを含む。但し、制御プログラムPG2は、例えば、制御部120が端末装置20の各部を制御するためのオペレーティングシステムプログラムを含んでもよい。なお、制御プログラムPG2は、「プログラム」の一例である。編集テーブルTBLには、例えば、文字認識装置10から送信された認識情報(文字情報及び確度情報)等が記憶されている。編集テーブルTBLについては、後述する図8及び図9において説明される。
【0053】
制御部220は、例えば、取得部222、表示制御部224及び制限部226を有する。
【0054】
取得部222は、文字画像CIに対する文字認識処理の結果に関する認識情報と、文字画像CIを示す文字画像情報とを、通信部260を介して文字認識装置10から取得する。すなわち、取得部222は、文字認識処理により文字画像CIから読み取られた複数の文字CRを示す文字情報、及び、複数の文字CRの各々についての認識結果の確度を示す確度情報を含む認識情報を取得する。そして、取得部222は、文字認識装置10から取得した認識情報(文字情報及び確度情報)を編集テーブルTBLに記憶する。
【0055】
なお、取得部222は、入力画像IIMGを示す入力画像情報を、カメラ及びイメージスキャナ等の光学的な装置から通信部260を介して取得してもよい。そして、取得部222は、入力画像IIMGを示す入力画像情報を、通信部260を介して文字認識装置10に送信してもよい。なお、入力画像情報を取得する機能及び入力画像情報を送信する機能の一方又は両方は、取得部222とは別の機能ブロックにより実現されてもよい。
【0056】
表示制御部224は、例えば、文字情報及び文字画像情報に基づいて、確認画面CHSを表示装置30に表示させる。すなわち、表示制御部224は、文字情報に基づいて、文字認識処理により文字画像CIから読み取られた複数の文字CRを、表示装置30に表示させる。
【0057】
制限部226は、編集テーブルTBLに記憶されている確度情報により示される確度に基づいて、複数の文字CRのうち、認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する。編集テーブルTBLに記憶されている確度情報は、例えば、取得部222が取得した認識情報に含まれる確度情報である。
【0058】
ここで、保護文字に対する操作を制限するとは、例えば、保護文字に対する複数の操作のうちの全部又は一部の操作の内容が反映されないようにすることであってもよい。あるいは、保護文字に対する操作を制限するとは、保護文字に対する複数の操作のうちの全部又は一部の操作自体をできないようにすることであってもよい。保護文字に対する複数の操作は、例えば、保護文字を削除する操作、及び、保護文字を他の文字に書き換える操作等である。すなわち、保護文字に対する操作を制限するとは、例えば、保護文字に対する修正を禁止することであってもよい。あるいは、保護文字に対する操作を制限するとは、例えば、ユーザによる所定の操作(例えば、保護を解除するための操作)が行われるまで、保護文字に対する修正を禁止することであってもよい。また、保護文字に対する修正は、例えば、保護文字を削除すること、及び、保護文字を他の文字に書き換えること等である。
【0059】
本実施形態では、上述したように、認識結果の確度が第1の確度より高いことが認識結果の確度に関する条件である場合を想定しているため、制限部226は、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CRを、保護文字として特定する。すなわち、本実施形態では、制限部226は、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CR(保護文字)に対して、ユーザによる操作を制限する。
【0060】
次に、図7を参照しながら、端末装置20のハードウェア構成について説明する。
【0061】
図7は、図6に示した端末装置20のハードウェア構成の一例を示す図である。
【0062】
端末装置20は、端末装置20の各部を制御するプロセッサ22と、各種情報を記憶するメモリ24と、通信装置26と、操作装置28とを有する。
【0063】
メモリ24は、例えば、プロセッサ22の作業領域として機能するRAM等の揮発性メモリと、制御プログラムPG2等の各種情報を記憶するEEPROM等の不揮発性メモリとの、一方又は両方を含み、記憶部240として機能する。なお、メモリ24は、図5において説明された文字認識装置10のメモリ14と同様に、端末装置20に着脱可能であってもよいし、端末装置20とネットワークNW等を介して通信可能に接続された記憶装置(例えば、オンラインストレージ)であってもよい。
【0064】
プロセッサ22は、図5において説明された文字認識装置10のプロセッサ12と同様に構成される。例えば、プロセッサ22は、例えば、1又は複数のCPUを含んで構成される。そして、プロセッサ22は、メモリ24に記憶された制御プログラムPG2を実行し、制御プログラムPG2に従って動作することで、制御部220として機能する。例えば、制御プログラムPG2に含まれるアプリケーションプログラム(文字認識処理の結果の修正支援に係るプログラム)に従って動作するプロセッサ22は、取得部222、表示制御部224及び制限部226を含む制御部220として機能する。なお、制御プログラムPG2は、ネットワークNWを介して他の装置から送信されてもよい。
【0065】
また、例えば、プロセッサ22が複数のCPUを含んで構成される場合、制御部220の一部又は全部の機能は、これら複数のCPUが制御プログラムPG2等のプログラムに従って協働して動作することで実現されてもよい。また、プロセッサ22は、1又は複数のCPUに加え、又は、1又は複数のCPUのうち一部又は全部に代えて、GPU、DSP、又は、FPGA等のハードウェアを含んで構成されるものであってもよい。この場合、プロセッサ22により実現される制御部220の一部又は全部は、DSP等のハードウェアにより実現されてもよい。
【0066】
通信装置26は、有線ネットワーク及び無線ネットワークの一方又は両方を介して、端末装置20の外部に存在する外部装置との通信を行うためのハードウェアであり、通信部260として機能する。
【0067】
操作装置28は、端末装置20のユーザによる操作を受け付けるためのハードウェアであり、操作部280として機能する。例えば、操作装置28は、操作ボタン、タッチパネル、キーボード、及び、マウス等の一部又は全部を含む、1又は複数の機器から構成されるものであってもよい。
【0068】
なお、端末装置20の構成は、図6及び図7に示した例に限定されない。例えば、端末装置20は、図1に示した表示装置30を有してもよい。この場合、端末装置20は、確認画面CHS等の各種画像を表示可能な表示部310を有する。また、端末装置20は、入力画像IIMGをデジタル信号である入力画像情報に変換するためのカメラ及びイメージスキャナ等の光学的な装置を有してもよい。
【0069】
次に、図8を参照しながら、編集テーブルTBLについて説明する。
【0070】
図8は、図6に示した編集テーブルTBLの一例を示す説明図である。編集テーブルTBLは、例えば、文字認識装置10から送信された認識情報(文字情報及び確度情報)等を記憶している。なお、図8に示す例では、編集テーブルTBLは、図2に示した備考の記入欄ECに対応する文字画像CIに対する文字認識処理の結果に関する認識情報等を記憶している。
【0071】
編集テーブルTBLは、例えば、文字画像CIに対する文字認識処理の結果に関する認識情報を含むテキスト情報と、文字画像CIを示す文字画像情報を特定するための画像情報(例えば、文字画像情報のファイル名を示す情報)とを記憶している。
【0072】
テキスト情報は、例えば、複数の文字CRの各々に対応付けられた文字に関する情報、確度に関する情報及び保護に関する情報を含む。例えば、編集テーブルTBLにおいて“No.”が示す番号は、複数の文字CRによる文字列における行番号に対応する。また、編集テーブルTBLにおいて“文字位置”が示す番号は、複数の文字CRによる文字列における列番号に対応する。なお、図8の網掛け部分は、複数の文字CRによる文字列において対応する文字がないことを示す。
【0073】
また、例えば、複数の文字CRのうちの一の文字CRにおいて、文字に関する情報は、一の文字CRを示す文字情報であり、確度に関する情報は、一の文字CRの認識結果の確度を示す確度情報である。また、複数の文字CRのうちの一の文字CRについての保護に関する情報は、一の文字CRが保護文字であるかを示す情報であり、制限部226により設定される。図8に示す編集テーブルTBLでは、符号Tは、文字CRが保護文字であることを示し、符号Fは、文字CRが保護文字でないことを示す。
【0074】
ここで、図8では、第1の確度が90である場合を想定する。この場合、例えば、制限部226は、複数の文字CRのうち、認識結果の確度が90より高い文字CRを、保護文字に設定する。具体的には、制限部226は、複数の文字CRのうち、認識結果の確度が90より高い文字CRについての保護に関する情報を、保護文字であることを示す情報(図8では、符号T)に設定する。換言すれば、複数の文字CRのうち、認識結果の確度が90以下の文字CRは、保護文字に設定されない。図8に示す例では、複数の文字CRによる文字列の2行目の8列目の文字CR、2行目の10列目の文字CR、及び、2行目の12列目の文字CRは、保護文字ではない。
【0075】
また、編集テーブルTBLにおいて、文字に関する情報は、ユーザによる修正が反映されてもよい。例えば、複数の文字CRによる文字列の2行目の8列目の文字CR、及び、2行目の12列目の文字CRの各々は、正しくは“7”の文字であるが、文字認識処理において正しく認識されず、“1”の文字CRと認識されている。このため、ユーザは、確認画面CHSにおいて、複数の文字CRによる文字列の2行目の8列目の文字CR、及び、2行目の12列目の文字CRの各々を、正しい文字である“7”に修正する。この場合、編集テーブルTBLにおいて、複数の文字CRによる文字列の2行目の8列目の文字CR、及び、2行目の12列目の文字CRの各々についての文字に関する情報は、“7”の文字を示す文字情報に更新されてもよい。
【0076】
なお、編集テーブルTBLは、文字に関する情報が記憶される領域とは別の領域に、ユーザにより修正された文字を示す文字情報(例えば、後述する図9に示す編集文字に関する情報)を記憶してもよい。以下では、ユーザにより修正された文字等も文字CRと称する場合がある。また、制限部226は、修正後の文字CRを保護文字に設定してもよい。
【0077】
次に、図9を参照しながら、編集テーブルTBLの別の例について説明する。
【0078】
図9は、図6に示した編集テーブルTBLの別の例を示す説明図である。図9に示す編集テーブルTBLは、文字認識処理による第1候補以外の認識結果に関する情報が記憶されること、及び、ユーザにより修正された文字が文字認識処理による認識結果とは別に記憶されることを除いて、図8に示した編集テーブルTBLと同様である。
【0079】
例えば、文字画像CIに含まれる文字の候補として複数の候補文字を文字認識処理が特定した場合、複数の候補文字のうちの最も確度が高い文字が、第1候補の文字である。図9に示す例では、複数の文字CRによる文字列の2行目の8列目、2行目の10列目、及び、2行目の12列目の各々の文字に対する認識結果が、第1候補以外の文字である第2候補の文字を含む。第2候補の文字は、ユーザが文字CRを修正する場合の予測変換等に用いられてもよい。
【0080】
編集テーブルTBLにおいて、編集文字に関する情報は、例えば、確認画面CHSの編集領域EDWに表示される文字CRを示す文字情報である。ユーザによる文字CRの修正がない場合、文字に関する情報と編集文字に関する情報は、互いに同じ文字情報である。また、例えば、編集文字に関する情報のうち、ユーザにより修正された文字CRに対応する情報は、ユーザによる修正が反映された文字情報である。例えば、図9に示す編集テーブルTBLでは、複数の文字CRによる文字列の2行目の8列目の文字CR、及び、2行目の12列目の文字CRの各々についての編集文字に関する情報は、“7”の文字を示す文字情報に更新されている。
【0081】
なお、編集テーブルTBLの構成は、図8及び図9に示した例に限定されない。例えば、保護に関する情報は、編集テーブルTBLから省かれてもよい。この場合においても、制限部226は、複数の文字CRのうちの一の文字CRの認識結果の確度を参照することにより、一の文字CRが保護文字であるか否かを認識できる。すなわち、編集テーブルTBLには、複数の文字CRと、複数の文字CRの認識結果の確度とが、互いに対応付けて記憶されていればよい。
【0082】
次に、図10を参照しながら、端末装置20の動作の概要について説明する。
【0083】
図10は、図1に示した端末装置20の動作の概要を説明するための説明図である。なお、上述の図3では、文字画像CIの一部及び複数の文字CRの一部が確認画面CHSに表示されない場合を例示したが、図10では、文字画像CIの全体及び複数の文字CRの全てが確認画面CHSに表示される場合を例示している。例えば、図10に示す確認画面CHSでは、文字画像CIの全体が文字画像領域IWに表示され、複数の文字CRの全てが編集領域EDWに表示されている。
【0084】
また、図10では、文字認識処理による文字の区切りに誤りがある場合を例にして、端末装置20の動作の概要を説明する。なお、文字認識処理による文字の区切りに誤りがない場合の例は、上述の図3に示されている。図10では、文字画像CIに含まれる複数の文字のうち、“し”及び“ま”の2文字を文字認識装置10が“ほ”の1文字として認識した場合を想定している。この場合、例えば、図8及び図9に示した編集テーブルTBLにおいて、1行目の文字数(列の数)は、16文字であり、1行目の14列目の文字CRについての文字に関する情報は、“ほ”の文字CRを示す文字情報である。また、編集テーブルTBLにおいて、1行目の15列目の文字CRについての文字に関する情報は、“す”の文字CRを示す文字情報であり、1行目の16列目の文字CRについての文字に関する情報は、“。”の文字CRを示す文字情報である。
【0085】
また、図10に示す編集領域EDWにおいて、破線で囲まれた文字CRは、文字認識装置10による文字認識処理の結果(認識結果)の確度が第1の確度より高い文字CRである。従って、図10に示す編集領域EDWにおいて、破線で囲まれた文字CRに対しては、ユーザによる操作が制限されている。
【0086】
例えば、図10において上側に示した確認画面CHSでは、カーソルCSは、複数の文字CR(“携帯電話の番号を、下記に示ほす。”)のうちの、“ほ”の文字CRの位置に表示されている。この場合、カーソルCSにより選択された“ほ”の文字CRは、ユーザによる操作が制限された保護文字でないため、誤った文字CRを正しい文字に修正する修正操作をユーザが行った場合、正しい文字に修正される。例えば、ユーザは、カーソルCSにより選択された“ほ”の文字を、“し”及び“ま”の文字CRに修正する操作を実行する。これにより、複数の文字CRによる文字列の1行目は、正しい文字列(“携帯電話の番号を、下記に示します。”)に修正される。
【0087】
この場合、例えば、図8及び図9に示した編集テーブルTBLにおいて、修正前の1行目の15列目及び16列目のテキスト情報が、修正後の1行目の16列目及び17列目のテキスト情報になる。また、例えば、図8に示した編集テーブルTBLでは、1行目の14列目の文字CRについての文字に関する情報が“し”の文字CRを示す文字情報に更新され、1行目の15列目の文字CRについての文字に関する情報が“ま”の文字CRを示す文字情報に更新される。また、例えば、図9に示した編集テーブルTBLでは、1行目の14列目の編集文字に関する情報が“し”の文字CRを示す文字情報に更新され、1行目の15列目の編集文字に関する情報が“ま”の文字CRを示す文字情報に更新される。すなわち、編集テーブルTBLは、“文字位置”が示す番号が修正後の文字列の列番号に対応するように更新される。説明を図10に戻す。
【0088】
図10において下側に示した確認画面CHSでは、例えば、編集領域EDWに表示される複数の文字CRによる文字列の1行目は、正しい文字列である。なお、複数の文字CRによる文字列の2行目についても、図3において説明されたように、誤って認識された文字CRは、ユーザによる修正が制限された保護文字でないため、ユーザにより正しい文字に修正される。そして、例えば、ユーザは、複数の文字CRに対する修正が終了した場合、終了ボタンBTを選択(例えば、押下)することにより、複数の文字CRに対する確認及び修正に関する処理を終了させる。
【0089】
なお、端末装置20の動作は、図10に示した例に限定されない。例えば、複数の文字CRに対する確認及び修正に関する処理において正しい文字に修正された文字CRは、修正が制限される保護文字に新たに設定されてもよい。
【0090】
また、例えば、文字画像CIに含まれる複数の文字のうち、1つの文字を文字認識装置10が複数の文字として認識した場合(例えば、“記”の1文字を“言”及び“己”の2文字として認識した場合)も、端末装置20は、図10に示した動作と同様に動作する。この場合においても、図8及び図9に示した編集テーブルTBLは、“文字位置”が示す番号が修正後の文字列の列番号に対応するように、更新される。例えば、複数の文字CRのうちの削除された文字CRについてのテキスト情報は、編集テーブルTBLから削除されてもよいし、削除された文字CRについてのテキスト情報として、修正後の文字列の列番号に対応する領域とは別の領域に記憶されてもよい。
【0091】
次に、図11を参照しながら、文字認識システム1の動作の概要について説明する。
【0092】
図11は、図1に示した文字認識システム1の動作の一例を示すシーケンスチャートである。ステップS10及びS12の処理と、ステップS100からステップS720までの処理とは、端末装置20により実行される。また、ステップS20からステップS24までの処理は、文字認識装置10により実行される。図1から図10において説明された処理と同様の処理については、詳細な説明は省略される。なお、図11では、説明を分かり易くするために、入力画像IIMGのうちの予め決められた文字画像部分である文字画像CIが1つの場合を例にして、文字認識システム1の動作を説明する。
【0093】
先ず、ステップS10において、端末装置20は、入力画像IIMGを示す入力画像情報を、カメラ及びイメージスキャナ等の光学的な装置から取得する。
【0094】
次に、ステップS12において、端末装置20は、ステップS10において取得した入力画像情報を、ネットワークNWを介して、文字認識装置10に送信する。そして、端末装置20は、入力画像IIMGに対する文字認識処理の結果が文字認識装置10から送信されるまで、ステップS100以降の処理を待機する。従って、ステップS100の処理を説明する前に、文字認識装置10により実行されるステップS20等の処理を説明する。
【0095】
例えば、ステップS20において、文字認識装置10は、ステップS12において端末装置20から送信された入力画像情報を取得する。そして、ステップS22において、文字認識装置10は、ステップS10において取得した入力画像情報を用いて文字認識処理を実行する。これにより、例えば、文字認識部124は、入力画像情報により示される入力画像IIMGのうちの予め決められた文字画像部分である文字画像CIに含まれる複数の文字を認識する。次に、ステップS24において、文字認識装置10は、文字画像CIに対する文字認識処理の結果に関する認識情報と、文字画像CIを示す文字画像情報とを、ネットワークNWを介して、端末装置20に送信する。これにより、文字認識装置10による文字認識処理は終了する。また、入力画像IIMGに対する文字認識処理の結果が文字認識装置10から送信されたため、端末装置20は、ステップS100の処理を実行する。
【0096】
例えば、ステップS100において、端末装置20は、ステップS24において文字認識装置10から送信された認識情報及び文字画像情報を取得する。
【0097】
次に、ステップS200において、端末装置20は、ステップS100において取得した認識情報に含まれる確度情報に基づいて、保護文字を設定する。例えば、端末装置20は、認識情報に含まれる文字情報により示される複数の文字CRのうち、確度情報により示される確度が第1の確度より高い文字CRを、保護文字に設定する。
【0098】
次に、ステップS300において、端末装置20は、ステップS100において取得した認識情報及び文字画像情報に基づいて、確認画面CHSを表示装置30に表示させる。例えば、端末装置20(より詳細には、表示制御部224)は、文字情報及び文字画像情報に基づいて、文字画像CIと、文字画像CIから読み取られた複数の文字CRとを、表示装置30に表示させる。
【0099】
次に、ステップS400において、端末装置20は、ユーザ操作が行われたか否かを判定する。ステップS400における判定の結果が否定の場合、端末装置20は、処理をステップS400に戻す。一方、ステップS400における判定の結果が肯定の場合、端末装置20は、処理をステップS500に進める。
【0100】
ステップS500において、端末装置20は、ユーザ操作が終了操作であるか否かを判定する。終了操作は、例えば、終了ボタンBTを選択するユーザ操作である。ステップS500における判定の結果が肯定の場合、端末装置20は、確認画面CHSの表示を終了させて、文字認識処理の結果に対する確認及び修正に関する処理を終了する。一方、ステップS500における判定の結果が否定の場合、端末装置20は、処理をステップS600に進める。
【0101】
ステップS600において、端末装置20は、ユーザ操作が保護文字の修正操作であるか否かを判定する。保護文字の修正操作は、例えば、複数の文字CRのうちの保護文字を修正するための操作である。ステップS600における判定の結果が否定の場合、端末装置20は、ステップS700において、ユーザ操作に対応する処理を実行し、処理をステップS400に戻す。一方、ステップS600における判定の結果が肯定の場合、端末装置20は、処理をステップS720に進める。
【0102】
ステップS720において、端末装置20は、修正不可の旨を通知する。例えば、端末装置20は、保護文字に対する修正であることを示す情報を、表示装置30に表示させる。端末装置20は、ステップS720の処理を実行した後、処理をステップS400に戻す。
【0103】
なお、文字認識システム1の動作は、図10に示した例に限定されない。例えば、ステップS300の処理は、ステップS200の処理より先に実行されてもよいし、ステップS200の処理と並列に実行されてもよい。また、例えば、ステップS720の処理は、省かれてもよい。また、例えば、入力画像IIMGに複数の文字画像CIが含まれる場合、複数の文字画像CIの各々について、ステップS200からステップS720までの一連の処理が実行される。
【0104】
以上、本実施形態では、端末装置20は、取得部222、表示制御部224及び制限部226を有する。取得部222は、画像に含まれる文字を認識する文字認識処理により文字画像CIから読み取られた複数の文字CRを示す文字情報と複数の文字CRの各々についての認識結果の確度を示す確度情報とを含む認識情報を、取得する。表示制御部224は、文字情報により示される複数の文字CRを表示装置30に表示させる。制限部226は、確度情報により示される確度に基づいて、複数の文字CRのうち、認識結果の確度に関する条件が満たされた保護文字に対する操作を制限する。
【0105】
このように、本実施形態では、複数の文字CRのうち、認識結果の確度に関する条件が満たされた保護文字に対するユーザによる操作が制限される。これにより、本実施形態では、複数の文字CRのうちの文字認識の結果が正しい保護文字をユーザが誤って変更してしまう作業ミスの発生を抑制することができる。この結果、本実施形態では、文字認識の結果の確認及び修正を正確、かつ効率的に行うことが可能な端末装置20を提供することができる。
【0106】
また、本実施形態では、制限部226は、複数の文字CRのうち、確度情報により示される確度が第1の確度より高い文字CRを、保護文字として特定する。すなわち、本実施形態では、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CR(正しく認識されている確率が高い文字CR)に対するユーザによる操作が制限される。これにより、本実施形態では、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CRをユーザが誤って変更してしまう作業ミスの発生を抑制することができる。また、ユーザによる作業ミスは気が付かない恐れがあり、作業ミスを気が付かないまま放置すると、後工程に重大な悪影響を及ぼす可能性がある。本発明は、ユーザによる気が付かずに行った作業ミスを防止することができ、その結果、後工程への重大な悪影響をなくすことができる。
【0107】
[2.変形例]
本発明は、以上に例示した実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
【0108】
[第1変形例]
上述した実施形態では、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CRに対するユーザによる操作が制限される場合を例示したが、本発明はこのような態様に限定されるものではない。例えば、図12に示すように、複数の文字CRが複数のグループG(Gx及びGy)に分けられる場合、認識結果の確度が第1の確度より高い文字CRのみを含むグループGについては、ユーザによる操作が制限されてもよいし、ユーザによる操作が制限されなくてもよい。
【0109】
図12は、第1変形例に係る端末装置20の動作の概要を説明するための説明図である。なお、図12では、説明を分かり易くするために、文字画像CIの全体が文字画像領域IWに表示され、複数の文字CRの全てが編集領域EDWに表示される場合を例示している。
【0110】
図12に示すように、文字画像CIは、複数の領域AR(ARx及びARy)に分けられる。なお、図12では、説明を分かり易くするために、文字画像領域IWにおいて領域ARを一点鎖線で示しているが、領域ARを示す一点鎖線は、文字画像領域IWに表示されてもよいし、表示されなくてもよい。
【0111】
また、複数の文字CRは、複数の領域AR(ARx及びARy)のいずれかから読み取られた文字CRであり、複数の領域AR(ARx及びARy)に対応する複数のグループG(Gx及びGy)のいずれかに属する。例えば、複数の文字CRのうち、“携帯電話の番号を、下記に示します。”の文字列の各文字CRは、領域ARxから読み取られた文字CRであり、領域ARxに対応するグループGxに属する。また、例えば、複数の文字CRのうち、“090-0ab1-1111”の文字列は、領域ARyから読み取られた文字CRであり、領域ARyに対応するグループGyに属する。グループGxは、複数の文字CRにおける1行目に対応し、グループGyは、複数の文字CRにおける2行目に対応する。
【0112】
ここで、図12に示す編集領域EDWにおいて、点線で囲まれた文字CR及び網掛けされた文字CRは、文字認識装置10による文字認識処理の結果(認識結果)の確度が第1の確度より高い文字CRである。さらに、認識結果の確度が第1の確度より高い文字CRのうち、網掛けされた文字CRは、修正が制限される保護文字である。図12に示す確認画面CHSでは、複数の文字CRのうち、保護文字は、保護文字以外の文字とは識別可能な態様(図12では網掛け)で表示されている。すなわち、表示制御部224は、複数の文字CRのうち、保護文字を、保護文字以外の文字CRとは識別可能な態様で表示装置30に表示させてもよい。この場合、修正が制限された文字CRをユーザが容易に視認することができる。
【0113】
図12に示す例では、複数のグループGx及びGyのうちのグループGxは、認識結果の確度が第1の確度より高い文字CRのみを含むグループGである。また、複数のグループGx及びGyのうちのグループGyは、認識結果の確度が第1の確度より高い文字CR、及び、認識結果の確度が第1の確度以下の文字CRを含むグループGである。なお、グループGyは、「第1グループ」の一例であり、グループGxは、「第2グループ」の一例である。
【0114】
例えば、グループGyは、認識結果の確度が第1の確度より高い文字CRと第1の確度以下の文字CRとが混在しているため、認識結果の確度が第1の確度より高い文字CRのみを含むグループGxに比べて、修正作業においてユーザにより選択される可能性が高い。このため、グループGyに属する全ての文字CRのうち、認識結果の確度が第1の確度より高い文字CRについては、ユーザによる操作が制限される。なお、認識結果の確度が第1の確度より高い文字CRと第1の確度以下の文字CRとが混在しているグループGyに属し、かつ、認識結果の確度が第1の確度より高いことは、「認識結果の確度に関する条件」の別の例である。
【0115】
例えば、制限部226は、複数のグループGx及びGyのうち、認識結果の確度が第1の確度より高い文字CR、及び、認識結果の確度が第1の確度以下の文字CRを含むグループGyを特定する。そして、制限部226は、グループGyに属する全ての文字CRのうち、認識結果の確度が第1の確度より高い文字CRを、保護文字として特定する。これにより、本変形例では、グループGyに属する文字CRの修正作業において、文字認識の結果が正しい文字CR(保護文字)をユーザが誤って変更してしまう作業ミスの発生を抑制することができる。
【0116】
また、グループGxは、認識結果の確度が第1の確度より高い文字CRのみを含むため、認識結果の確度が第1の確度より高い文字CRと第1の確度以下の文字CRとが混在しているグループGyに比べて、修正作業においてユーザにより選択される可能性が低い。すなわち、複数の文字CRの修正作業において、グループGxに属する文字CRを修正対象とする修正作業が行われる可能性は、グループGyに属する文字CRを修正対象とする修正作業が行われる可能性に比べて低い。このため、グループGxに属する文字CRは、修正が制限されなくても、誤って修正される可能性がグループGyに属する文字CRに比べて低い。従って、本変形例では、グループGxに属する全ての文字CRの修正は、制限されなくてもよい。
【0117】
なお、本変形例に係る端末装置20の動作は、図12に示した例に限定されない。例えば、複数の文字CRのうちの保護文字は、保護文字以外の文字CRから識別可能な態様で表示されなくてもよい。また、例えば、複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CRが、認識結果の確度が第1の確度以下の文字CRから識別可能な態様で表示されてもよい。この場合、認識結果の確度が第1の確度より高い文字CRをユーザが容易に視認することができる。
【0118】
以上、本変形例においても、上述した実施形態と同様の効果を得ることができる。また、本変形例では、文字画像CIは、複数の領域ARに分けられ、複数の文字CRの各々は、複数の領域ARのいずれかから読み取られた文字CRであり、複数の領域ARに対応する複数のグループGのいずれかに属する。また、制限部226は、複数のグループGのうち、取得部222が取得した確度情報により示される確度が第1の確度より高い文字CR、及び、確度情報により示される確度が第1の確度以下の文字CRを含むグループG(第1グループ)を特定する。そして、制限部226は、確度情報により示される確度が第1の確度より高い文字CRと第1の確度以下の文字CRとを含むグループG(第1グループ)に属する全ての文字CRのうち、確度情報により示される確度が第1の確度より高い文字CRを、保護文字として特定する。
【0119】
これにより、本変形例では、認識結果の確度が第1の確度より高い文字CRと第1の確度以下の文字CRとを含むグループGyに属する文字CRの修正作業において、正しく認識された文字CR(保護文字)が誤って変更されることを抑制することができる。
【0120】
また、本変形例では、制限部226は、複数のグループGのうち、確度情報により示される確度が第1の確度より高い文字CRのみを含むグループG(第2グループ)を特定し、特定したグループGに属する全ての文字に対して、ユーザによる操作を制限しない。第1の確度よりも高い文字CRのみを含むグループGは、ユーザによる操作が行われる可能性が極めて低いことが期待され、グループG全体を保護文字にする必要性が少ない。これにより、本変形例では、第1の確度より高い文字CRのみを含むグループGに対しては保護文字としないことで、ユーザによる操作が制限される保護文字が必要以上に増加することを抑制することができるため、保護文字を設定する処理が煩雑になることを抑制することができる。
【0121】
また、本変形例では、表示制御部224は、複数の文字CRのうち、保護文字を、保護文字以外の文字CRから識別可能な態様で表示装置30に表示させる。これにより、本変形例では、修正が制限された文字CRをユーザが容易に視認することができる。
【0122】
[第2変形例]
上述した第1変形例では、グループGy(第1グループ)に属する全ての文字CRのうち、認識結果の確度が第1の確度より高い文字CRに対する操作が制限される場合を例示したが、本発明はこのような態様に限定されるものではない。例えば、図13に示すように、認識結果の確度が第1の確度より高い文字CRと第1の確度以下の文字CRとが混在しているグループGyに属する全ての文字CRについて、ユーザによる操作が制限されなくてもよい。
【0123】
図13は、第2変形例に係る端末装置20の動作の概要を説明するための説明図である。図13の一点鎖線、点線及び網掛けの意味は、図12の一点鎖線、点線及び網掛けの意味と同じである。例えば、図13において、複数の文字CRのうち、網掛けされた文字CRは、保護文字である。
【0124】
複数のグループGx及びGyのうちのグループGyは、認識結果の確度が第1の確度以下の文字CRを含むグループGである。なお、本変形例において、認識結果の確度が第1の確度以下の文字CRを含むグループG(例えば、グループGy)は、「第1グループ」の一例である。
【0125】
本変形例では、複数のグループGx及びGyのうち、認識結果の確度が第1の確度以下の文字CRを含むグループGyに属する全ての文字CRに対する操作は制限されない。すなわち、認識結果の確度が第1の確度以下の文字CRを含むグループGyでは、認識結果の確度に拘わらず、グループGyに属する全ての文字CRに対する操作が制限されない。これにより、ユーザは、例えば、認識結果の確度が第1の確度より高い文字CRと第1の確度以下の文字CRとが混在している文字列(例えば、図13のグループGyの“1111”)を、一括して、正しい文字列(例えば、“1171”)に修正できる。誤った文字CRを含む文字列をユーザが一括して修正する方が、誤った文字CRのみをユーザが修正する場合より、修正の作業効率が向上する場合がある。
【0126】
なお、複数のグループGx及びGyのうち、認識結果の確度が第1の確度より高い文字CRのみを含むグループGx(第2グループ)に属する全ての文字CRに対しては、ユーザによる操作が制限される。このため、本変形例では、認識結果の確度が第1の確度より高い文字CRのみを含むグループGxに属する文字CRをユーザが誤って変更してしまう作業ミスの発生を抑制することができる。なお、認識結果の確度が第1の確度より高い文字CRのみを含むグループGxに属することは、「認識結果の確度に関する条件」の別の例である。
【0127】
このように、本変形例では、複数の領域ARに対応する複数のグループGにおいて、文字CRの修正がグループG毎に制限される。
【0128】
以上、本変形例においても、上述した実施形態と同様の効果を得ることができる。また、本変形例では、制限部226は、複数のグループGのうち、取得部222が取得した確度情報により示される確度が第1の確度以下の文字CRを含むグループG(第1グループ)を特定し、特定したグループGに属する全ての文字に対する操作を制限しない。また、制限部226は、複数のグループGのうち、確度情報により示される確度が第1の確度より高い文字CRのみを含むグループG(第2グループ)を特定し、特定したグループGに属する全ての文字CRを保護文字として特定する。
【0129】
これにより、本変形例では、認識結果の確度が第1の確度以下の文字CRを含むグループGy(第1グループ)に属する文字列を修正する場合の作業効率が低下することを抑制することができる。また、本変形例では、認識結果の確度が第1の確度より高い文字CRのみを含むグループGx(第2グループ)に属する文字CR(保護文字)をユーザが誤って変更してしまう作業ミスの発生を抑制することができる。すなわち、本変形例では、文字認識処理により誤って認識された文字CRを含む文字列を修正する修正作業において、作業効率が低下することを抑制しつつ、修正の作業ミスが発生することを抑制することができる。
【0130】
[第3変形例]
上述した実施形態及び変形例では、入力画像IIMGに含まれる複数の文字画像CIの1つが1つの確認画面CHSに表示される場合を例示したが、本発明はこのような態様に限定されるものではない。例えば、入力画像IIMGに含まれる複数の文字画像CIの全てが1つの確認画面CHSに表示されてもよい。
【0131】
図14は、第3変形例に係る確認画面CHSの一例を示す図である。図14の一点鎖線、点線及び網掛けの意味は、図12の一点鎖線、点線及び網掛けの意味と同じである。
【0132】
図14に示すように、確認画面CHSには、例えば、入力画像IIMGに含まれる複数の文字画像CIに対応する複数の文字画像領域IWと、1つの編集領域EDWとが表示される。複数の文字画像領域IWの各々には、複数の文字画像CIのうちの対応する文字画像CIの全体が表示される。
【0133】
なお、図14に示す例では、複数の文字画像CIを含む画像(例えば、入力画像IIMG)は、「読取対象画像」の別の例である。例えば、図14では、入力画像IIMGは、申込書の複数の項目に対応する複数の領域AR(ARa、ARb及びARc等)として複数の文字画像CIに分けられる。従って、複数の文字画像CIの各々は、「領域」の一例である。また、入力画像IIMGから読み取られた複数の文字CRの各々は、複数の文字画像CIのいずれかから読み取られた文字CRであり、複数の文字画像CI(複数の領域AR)に対応する複数のグループG(Ga、Gb及びGc等)のいずれかに属する。複数のグループGの各々の符号の末尾には、対応する領域ARの符号の末尾に付された小文字のアルファベットと同じ小文字のアルファベットが付されている。例えば、グループGaに属する複数の文字CRは、入力画像IIMGのうちの領域ARa(申込番号に対応する文字画像CI)から読み取られた文字CRである。
【0134】
編集領域EDWには、複数の文字画像CIの各々から読み取られた複数の文字CRが表示される。編集領域EDWにおいて、複数の文字CRは、対応する文字画像CIの確認画面CHSにおける表示位置に合わせて、表示される。例えば、確認画面CHSにおいて、複数の文字画像CIは、申込番号、氏名(カナ)、氏名、郵便番号、住所、E-mail、勤務先、勤務先電話番号及び備考の順に表示される。このため、編集領域EDWにおいて、複数の文字CRは、申込番号、氏名(カナ)、氏名、郵便番号、住所、E-mail、勤務先、勤務先電話番号及び備考の順に表示される。具体的には、例えば、確認画面CHSにおいて一番上に表示される文字画像CI(申込番号に対応する文字画像CI)から読み取られた全ての文字CR(“180-3588”)は、編集領域EDWにおいて、1行目に表示される。
【0135】
図14に示す例では、認識結果の確度が第1の確度以下の文字CRを含むグループG(Gb、Gc、Gf及びGi)に属する全ての文字に対する操作は制限されない。また、認識結果の確度が第1の確度より高い文字CRのみを含むグループG(Ga、Gd、Ge、Gg及びGh)に属する全ての文字CRについての操作は制限される。このように、図14に示す例では、入力画像IIMGに含まれる複数の文字画像CIに対応する複数のグループGにおいて、文字CRの修正がグループG毎に制限される。すなわち、図14に示す例では、図2に示した申込書において、項目の記入欄EC毎に、文字CRの修正が制限される。
【0136】
なお、図14に示す例においても、ユーザによる文字CRに対する操作の制限は、上述の例に限定されない。例えば、グループGb、Gc、Gf及びGiの各々に属する複数の文字CRのうち、認識結果の確度が第1の確度より高い文字CRについては、ユーザによる操作が制限されてもよい。この場合、グループGa、Gd、Ge、Gg及びGhの各々に属する全ての文字CRについては、ユーザによる操作が制限されてもよいし、ユーザによる操作が制限されなくてもよい。また、図14に示す例においても、文字画像CIが複数の領域ARに分けられてもよい。
【0137】
また、図14では、入力画像IIMGに含まれる複数の文字画像CIの各々が複数の文字画像領域IWのうちの対応する文字画像領域IWに表示される場合を例示したが、本変形例はこのような態様に限定されるものではない。例えば、入力画像IIMGに含まれる複数の文字画像CIの全てが、1つの文字画像領域IWに表示されてもよい。
【0138】
以上、本変形例においても、上述した実施形態及び変形例と同様の効果を得ることができる。また、本変形例では、入力画像IIMGに含まれる複数の文字画像CIが1つの確認画面CHSに表示されるため、複数の文字画像CIから読み取られた複数の文字CRの確認及び修正の作業が煩雑になることを抑制することができる。
【0139】
[第4変形例]
上述した第3変形例において、入力画像IIMGに含まれる複数の文字画像CIに対応する複数の文字画像領域IWと、複数の文字画像領域IWに対応する複数の編集領域EDWとが確認画面CHSに表示されてもよい。
【0140】
図15は、第4変形例に係る確認画面CHSの一例を示す図である。図15の一点鎖線、点線及び網掛けの意味は、図12の一点鎖線、点線及び網掛けの意味と同じである。
【0141】
図15に示すように、確認画面CHSには、例えば、入力画像IIMGに含まれる複数の文字画像CIに対応する複数の文字画像領域IWと、複数の文字画像領域IWに対応する複数の編集領域EDWとが表示される。図15に示す確認画面CHSは、複数の編集領域EDWが表示される点を除いて、図14に示した確認画面CHSと同様である。
【0142】
例えば、複数の編集領域EDWの各々には、複数の文字画像領域IWのうちの対応する文字画像領域IWに表示された文字画像CIから読み取られた複数の文字CRが、表示される。
【0143】
また、本変形例では、確認画面CHSにおいて、互いに対応する編集領域EDW及び文字画像領域IWは、互いに隣接するように配置される。これにより、本変形例では、複数の文字CRと複数の文字部分との項目毎の比較をユーザが容易に行うことができる。なお、複数の項目は、図2において説明されたように、例えば、申込番号、氏名(カナ)、氏名、郵便番号、住所、E-mail、勤務先、勤務先電話番号及び備考等である。
【0144】
以上、本変形例においても、上述した実施形態及び変形例と同様の効果を得ることができる。なお、上述した第1変形例から第4変形例において、複数の文字CRは、言葉の意味の単位となる文字列又は文章単位をグループGとして、複数のグループGに分けられてもよい。例えば、複数の文字CRは、文字認識処理により、単語、文節及び文章のうちの少なくとも1つに基づいて複数のグループGに分けられてもよい。あるいは、制限部226が、複数の文字CRによる文字列を解析し、解析結果に基づいて複数の文字CRを言葉の意味の単位となる文字列又は文章単位で区切ることにより、複数の文字CRを複数のグループGに分けてもよい。すなわち、制限部226は、複数の文字CRを、単語、文節及び文章のうちの少なくとも1つに基づいて、複数のグループGに分けてもよい。
【0145】
[第5変形例]
上述した実施形態及び変形例において、制限部226は、保護文字に対する操作の制限の度合いを、認識結果の確度に応じて変更してもよい。
【0146】
図16は、第5変形例に係る端末装置20の動作の一例を示すフローチャートである。なお、図16は、入力画像IIMGに対する文字認識処理の結果が文字認識装置10から送信された後の端末装置20の動作を示している。入力画像IIMGに対する文字認識処理の結果が文字認識装置10から送信されるまでの端末装置20の動作及び文字認識装置10の動作は、上述した図11に示した動作(ステップS10、S12、S20、S22及びS24)と同様である。図1から図15において説明された処理と同様の処理については、詳細な説明は省略される。
【0147】
ステップS100からステップS700までの一連の処理は、図11に示したステップS100からステップS700までの一連の処理と同様である。但し、図16に示す動作では、ステップS600における判定の結果が肯定の場合、端末装置20は、処理をステップS710に進める。
【0148】
ステップS710において、端末装置20は、修正操作の対象となった保護文字の確度が第2の確度より高いか否かを判定する。なお、第2の確度は、第1の確度より高い。換言すれば、第1の確度は、第2の確度より低い。第2の確度は、第1の確度と同様に、文字認識装置10の管理者及び端末装置20のユーザ等により決定されてもよいし、文字認識装置10により自動的に設定されてもよい。
【0149】
ステップS710における判定の結果が肯定の場合、端末装置20は、ステップS720において修正不可の旨を通知し、処理をステップS400に戻す。一方、ステップS710における判定の結果が否定の場合、端末装置20は、処理をステップS712に進める。
【0150】
ステップS712において、端末装置20は、修正操作の対象となった保護文字に対する修正を実行するか否かを判定する。例えば、端末装置20は、修正操作の対象となった保護文字に対する修正を継続するか修正操作を取り消すかを選択するためのGUI用の画像を、表示装置30に表示させる。そして、端末装置20は、保護文字に対する修正の継続がユーザにより選択された場合、保護文字に対する修正を実行すると判定する。一方、端末装置20は、修正操作の取り消しがユーザにより選択された場合、保護文字に対する修正を実行しないと判定する。なお、保護文字に対する修正を継続するための操作(例えば、GUI用の画像において、保護文字に対する修正の継続を選択する操作)は、「所定の操作」の一例である。
【0151】
ステップS712における判定の結果が否定の場合、端末装置20は、修正操作の対象となった保護文字を修正せずに、処理をステップS400に戻す。一方、ステップS712における判定の結果が肯定の場合、端末装置20は、処理をステップS714に進める。
【0152】
ステップS714において、端末装置20は、修正操作の対象となった保護文字を、修正操作に基づいて修正する。そして、端末装置20は、処理をステップS400に戻す。
【0153】
このように、本変形例では、保護文字に対する操作の制限の度合いが、認識結果の確度に応じて変更される。具体的には、認識結果の確度が第2の確度より高い保護文字に対しては、保護文字に対する操作の内容が反映されないように制限される。また、認識結果の確度が第2の確度以下で第1の確度より高い保護文字に対しては、ユーザにより所定の操作が行われた場合、保護文字に対する操作は制限されない。換言すれば、認識結果の確度が第2の確度以下で第1の確度より高い保護文字に対しては、ユーザにより所定の操作が行われなかった場合、保護文字に対する操作が反映されないように制限される。
【0154】
なお、本変形例に係る端末装置20の動作は、図16に示した例に限定されない。例えば、端末装置20は、ステップS712の処理の代わりに、制限解除に関する処理を実行してもよい。
【0155】
制限解除に関する処理では、先ず、端末装置20は、修正操作の対象となった保護文字に対する操作の制限を解除するか否かを判定する。例えば、端末装置20は、修正操作の対象となった保護文字に対する操作の制限を解除するか修正操作を取り消すかを選択するためのGUI用の画像を、表示装置30に表示させる。そして、端末装置20は、保護文字に対する操作の制限の解除がユーザにより選択された場合、保護文字に対する操作の制限を解除すると判定し、修正操作の対象となった保護文字に対する操作の制限を解除する。保護文字に対する操作の制限が解除された後、ステップS714の処理が実行される。一方、端末装置20は、修正操作の取り消しがユーザにより選択された場合、保護文字に対する操作の制限を解除しないと判定し、修正操作の対象となった保護文字を修正せずに、処理をステップS400に戻す。なお、保護文字に対する操作の制限を解除するための操作(例えば、GUI用の画像において、保護文字に対する操作の制限の解除を選択する操作)は、「所定の操作」の別の例である。
【0156】
以上、本変形例においても、上述した実施形態及び変形例と同様の効果を得ることができる。また、本変形例では、制限部226は、保護文字に対する操作の制限の度合いを、取得部222が取得した確度情報により示される確度に応じて変更する。これにより、本変形例では、誤って認識された文字CRの修正ができなくなることを抑制しつつ、正しく認識された文字CRに対する操作が制限されなくなることを抑制することができる。
【0157】
また、本変形例では、制限部226は、保護文字において、確度情報により示される確度が第2の確度より高い文字CRに対しては、保護文字に対する操作の内容が反映されないように制限する。また、制限部226は、保護文字において、確度情報により示される確度が第2の確度以下の文字CRに対しては、ユーザにより所定の操作が行われた場合に、保護文字に対する操作を制限せず、ユーザにより所定の操作が行われなかった場合に、保護文字に対する操作の内容が反映されないように制限する。これにより、本変形例では、認識結果の確度が第2の確度以下で第1の確度より高い保護文字の認識結果が誤っていた場合に、認識結果が誤っている保護文字の修正ができなくなることを抑制することができる。
【0158】
[第6変形例]
上述した実施形態及び変形例では、保護文字の設定が端末装置20で実行される場合を例示したが、本発明はこのような態様に限定されるものではない。例えば、図6に示した制限部226は、文字認識装置10に含まれてもよい。
【0159】
図17は、第6変形例に係る文字認識システム1の概要を説明するための説明図である。図17に示す文字認識システム1は、図1に示した文字認識装置10及び端末装置20の代わりに文字認識装置10A及び端末装置20Aを有することを除いて、図1に示した文字認識システム1と同様である。
【0160】
文字認識装置10Aは、文字認識装置10Aの各部を制御する制御部120と、各種情報を記憶する記憶部140と、端末装置20A等の外部装置との間の通信を実行するための通信部160とを有する。すなわち、文字認識装置10Aは、図4に示した文字認識装置10と同様である。但し、文字認識装置10Aでは、制御プログラムPG1の代わりに制御プログラムPG1aを制御部120が実行する点が、文字認識装置10と相違する。このため、記憶部140は、制御プログラムPG1の代わりに制御プログラムPG1aを記憶する。なお、文字認識装置10Aは、「情報処理装置」の別の例であり、制御プログラムPG1aは、「プログラム」の別の例である。
【0161】
本変形例では、制御プログラムPG1aは、例えば、文字認識処理及び文字認識処理の結果の修正等を支援する修正支援処理を文字認識装置10Aが実行するためのアプリケーションプログラムを含む。但し、制御プログラムPG1aは、例えば、制御部120が文字認識装置10Aの各部を制御するためのオペレーティングシステムプログラムを含んでもよい。
【0162】
制御部120は、例えば、画像情報取得部122、文字認識部124、表示制御部224a及び制限部226を有する。このように、制御部120は、表示制御部224a及び制限部226を有することを除いて、図4に示した制御部120と同様である。なお、制限部226は、図6に示した制限部226と同様である。このため、制限部226については、説明を省略する。
【0163】
表示制御部224aは、確認画面CHSを表示装置30の表示部310において表示させるための表示情報を生成し、生成した表示情報を、通信部160を介して端末装置20Aに送信する。例えば、端末装置20Aは、文字認識装置10Aから受信した表示情報により示される確認画面CHSを表示装置30の表示部310に表示する。このように、表示制御部224aは、例えば、確認画面CHSを示す表示情報を端末装置20Aに送信することにより、文字認識部124により認識された複数の文字CRを表示装置30に表示させる。
【0164】
端末装置20Aは、端末装置20Aの各部を制御する制御部220と、各種情報を記憶する記憶部240と、文字認識装置10A等の外部装置との間の通信を実行するための通信部260と、端末装置20Aのユーザによる操作を受け付けるための操作部280とを有する。すなわち、端末装置20Aは、図6に示した端末装置20と同様である。但し、端末装置20Aでは、制御プログラムPG2の代わりに制御プログラムPG2aを制御部220が実行する点が、端末装置20と相違する。このため、記憶部140は、制御プログラムPG2の代わりに制御プログラムPG2aを記憶する。
【0165】
制御部220は、例えば、取得部222を有する。このように、制御部220は、図64に示した制御部220から表示制御部224及び制限部226が省かれることを除いて、図6に示した制御部220と同様である。
【0166】
なお、本変形例では、例えば、取得部222は、操作部280が受け付けた操作の内容を示す操作情報を、通信部260を介して文字認識装置10Aに送信してもよい。操作情報を文字認識装置10Aに送信する機能は、例えば、取得部222とは別の機能ブロックにより実現されてもよい。文字認識装置10Aは、端末装置20Aから受信した操作情報に基づいて、確認画面CHSを表示装置30の表示部310において表示させるための表示情報等を生成する。
【0167】
図17に示す文字認識システム1の動作では、例えば、文字認識装置10Aは、図11に示したステップS20及びS22の処理を実行した後に、図11又は図16に示したステップS200からステップS720の一連の処理を実行する。但し、確認画面CHS等を表示装置30に表示させる処理(例えば、ステップS300の処理等)では、文字認識装置10Aは、表示装置30に表示させる確認画面CHS等を示す表示情報を端末装置20Aに送信する。また、操作部280が受け付けた操作の内容に基づく処理(例えば、ステップS400の処理等)は、端末装置20Aから受信した操作情報に基づいて実行される。
【0168】
また、図17に示す文字認識システム1の動作では、例えば、端末装置20Aは、図11に示したステップS10及びS12の処理を実行した後に、文字認識装置10Aから受信した表示情報により示される確認画面CHSを表示装置30の表示部310に表示する。また、端末装置20Aは、操作部280がユーザによる操作を受け付けた場合、操作部280が受け付けた操作の内容を示す操作情報を文字認識装置10Aに送信する。
【0169】
ここで、文字認識装置10Aのハードウェア構成は、図5に示した文字認識装置10と同様である。例えば、制御プログラムPG1aに含まれるアプリケーションプログラムに従って動作するプロセッサ12は、画像情報取得部122、文字認識部124、表示制御部224a及び制限部226を含む制御部120として機能する。制御プログラムPG1aは、他の装置から送信されてもよい。また、端末装置20Aのハードウェア構成は、図7に示した端末装置20と同様である。例えば、制御プログラムPG2aに含まれるアプリケーションプログラムに従って動作するプロセッサ22は、取得部222を含む制御部220として機能する。制御プログラムPG2aは、他の装置から送信されてもよい。
【0170】
なお、文字認識装置10A及び端末装置20Aの構成は、図17に示した例に限定されない。例えば、文字認識装置10Aは、文字認識装置10Aの管理者等による操作を受け付けるための操作部として機能する操作装置(例えば、後述する図19に示す操作装置18)を有してもよい。また、端末装置20Aは、入力画像IIMGをデジタル信号である入力画像情報に変換するためのカメラ及びイメージスキャナ等の光学的な装置を有してもよい。あるいは、端末装置20Aは、表示装置30を有してもよい。以上、本変形例においても、上述した実施形態及び変形例と同様の効果を得ることができる。
【0171】
[第7変形例]
上述した実施形態及び変形例では、文字認識装置10と端末装置20とが互いに別体である場合を例示したが、本発明はこのような態様に限定されるものではない。例えば、文字認識装置10と端末装置20とは、一体として構成されてもよい。
【0172】
図18は、第7変形例に係る文字認識装置10Bの構成の一例を示す機能ブロック図である。
【0173】
文字認識装置10Bは、文字認識装置10Bの各部を制御する制御部120と、各種情報を記憶する記憶部140と、文字認識装置10Bの外部に存在する外部装置との間の通信を実行するための通信部160と、操作部180と、撮像部190とを有する。このように、文字認識装置10Bは、操作部180及び撮像部190を有することを除いて、図4に示した文字認識装置10と同様である。但し、文字認識装置10Bでは、制御プログラムPG1の代わりに制御プログラムPG1bを制御部120が実行する点が、文字認識装置10と相違する。このため、記憶部140は、制御プログラムPG1の代わりに制御プログラムPG1bを記憶する。なお、文字認識装置10Bは、「情報処理装置」の別の例であり、制御プログラムPG1bは、「プログラム」の別の例である。
【0174】
本変形例では、制御プログラムPG1bは、例えば、文字認識処理及び文字認識処理の結果の修正等を支援する修正支援処理を文字認識装置10Bが実行するためのアプリケーションプログラムを含む。但し、制御プログラムPG1bは、例えば、制御部120が文字認識装置10Bの各部を制御するためのオペレーティングシステムプログラムを含んでもよい。
【0175】
制御部120は、例えば、画像情報取得部122、文字認識部124、表示制御部224及び制限部226を有する。画像情報取得部122及び文字認識部124は、図4に示した画像情報取得部122及び文字認識部124と同様である。また、表示制御部224及び制限部226は、図6に示した表示制御部224及び制限部226と同様である。
【0176】
操作部180は、ユーザ等による操作を受け付ける。撮像部190は、被写体を撮像し、撮像した被写体の画像を示す画像情報を出力する。例えば、撮像部190は、申込書等を撮像し、撮像した申込書の画像である入力画像IIMGを入力画像情報に変換してもよい。そして、撮像部190は、入力画像IIMGを示す入力画像情報を記憶部140等に記憶させてもよい。この場合、画像情報取得部122は、例えば、記憶部140から、文字認識処理の対象となる入力画像IIMGを示す入力画像情報を取得してもよい。あるいは、画像情報取得部122は、記憶部140を介さずに、入力画像情報を撮像部190から取得してもよい。あるいは、画像情報取得部122は、文字認識装置10Bの外部に存在する外部装置から入力画像情報を取得してもよい。
【0177】
文字認識装置10Bの動作では、例えば、図11に示したステップS20及びS22の処理が実行された後に、図11又は図16に示したステップS200からステップS720の一連の処理が実行される。すなわち、文字認識装置10Bの動作は、図11に示した文字認識システム1の動作からステップS10、S12、S24及びS100の一連の処理が省かれることを除いて、図11に示した文字認識システム1の動作と同様である。例えば、画像情報取得部122は、図11に示したステップS20において、撮像部190、記憶部140又は外部装置から、文字認識処理の対象となる入力画像IIMGを示す入力画像情報を取得する。そして、文字認識部124は、図11に示したステップS22において、入力画像情報(ステップS20で取得された入力画像情報)を用いて文字認識処理を実行する。次に、制限部226は、図11に示したステップS200において、文字認識部124による文字認識処理(ステップS22の文字認識処理)の結果の確度等に基づいて保護文字を設定する。そして、表示制御部224は、図11に示したステップS300において、文字認識部124による文字認識処理(ステップS22の文字認識処理)の結果を確認する確認画面CHSを表示装置30に表示させる。
【0178】
次に、図19を参照しながら、文字認識装置10Bのハードウェア構成について説明する。
【0179】
図19は、図18に示した文字認識装置10Bのハードウェア構成の一例を示す図である。
【0180】
文字認識装置10Bは、文字認識装置10Bの各部を制御するプロセッサ12と、各種情報を記憶するメモリ14と、通信装置16と、操作装置18と、撮像装置19とを有する。このように、文字認識装置10Bは、操作装置18及び撮像装置19を有することを除いて、図5に示した文字認識装置10と同様である。なお、制御プログラムPG1bに含まれるアプリケーションプログラムに従って動作するプロセッサ12は、例えば、画像情報取得部122、文字認識部124、表示制御部224及び制限部226を含む制御部120として機能する。制御プログラムPG1bは、他の装置から送信されてもよい。
【0181】
操作装置18は、ユーザ等による操作を受け付けるためのハードウェアであり、操作部180として機能する。例えば、操作装置18は、図7に示した操作装置28と同様に構成される。撮像装置19は、カメラ及びイメージスキャナ等の光学的な装置であり、撮像部190として機能する。例えば、撮像装置19は、被写体を撮像し、撮像した被写体の画像を示す画像情報を出力する。撮像装置19は、例えば、撮像光学系及び撮像素子を有する。撮像光学系は、少なくとも1つの撮像レンズを含む光学系である。例えば、撮像光学系は、ズームレンズやフォーカスレンズ等を有してもよい。撮像素子は、例えば、CCD(Charge Coupled Device)イメージセンサー又はCMOS(Complementary MOS)イメージセンサー等である。
【0182】
なお、文字認識装置10Bの構成は、図18及び図19に示した例に限定されない。例えば、文字認識装置10Bは、表示装置30を有してもよい。また、文字認識装置10Bは、撮像装置19を含まなくてもよい。また、表示装置30は、ネットワークNWを介して文字認識装置10Bと通信可能に接続されるシンクライアント端末等の端末装置に含まれてもよいし、シンクライアント端末等の端末装置と通信可能に接続されてもよい。
【0183】
以上、本変形例においても、上述した実施形態及び変形例と同様の効果を得ることができる。
【0184】
[第8変形例]
上述した実施形態及び変形例において、文字認識装置10、10A又は10Bは、文字認識処理の結果に対する修正の内容を学習してもよい。以上、本変形例においても、上述した実施形態及び変形例と同様の効果を得ることができる。
【0185】
[第9変形例]
なお、上述した実施形態及び変形例において、確度の高い文字CRを保護文字として設定した場合、ユーザによる段階的な操作により保護文字に対する操作を許可するようにしてもよい。例えば、制限部226が確度の高い文字CRを保護文字として設定した場合であっても、文字認識装置10、10A又は10Bの認識精度が100%ではないため、保護文字として設定された文字CRの認識結果が間違っていることがある。また、保護文字に対してユーザが意図的に修正や変更を加えたい場合も想定される。このため、例えば、ユーザによる第1操作として、保護文字を削除する操作が行われ、その後で、ユーザによる第2操作として、保護文字を変更(修正)する操作が行われることで、第1操作による保護文字の削除と第2操作による保護文字の変更(修正)とが確定してもよい。すなわち、ユーザが第1操作を行っただけでは、操作対象の保護文字の削除は仮決め状態であり、その後、ユーザの第2操作が行われない場合、先に行われた第1操作は取り消しとなり、保護文字を削除する操作(第1操作)は確定しない。
【0186】
このように、本変形例では、文字認識装置10は、保護文字に対する安易な操作を制限しつつ、保護文字の必要な修正や変更を行えるようにすることができる。
【符号の説明】
【0187】
1…文字認識システム、10、10A、10B…文字認識装置、12…プロセッサ、14…メモリ、16…通信装置、18…操作装置、19…撮像装置、20…端末装置、22…プロセッサ、24…メモリ、26…通信装置、28…操作装置、30…表示装置、120…制御部、122…画像情報取得部、124…文字認識部、140…記憶部、160…通信部、180…操作部、190…撮像部、220…制御部、222…取得部、224、224a…表示制御部、226…制限部、240…記憶部、260…通信部、280…操作部、310…表示部、AR…領域、CI…文字画像、CR…文字、G…グループ、IIMG…入力画像、NW…ネットワーク。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19