(58)【調査した分野】(Int.Cl.,DB名)
前記判断手段によって誤認識したと判断された文字領域の画像と、この文字領域の画像を元に誤認識された修正対象の文字コードに対応した文字とを併設表示することを特徴とする請求項2に記載の文字読取装置。
前記翻訳手段は、前記判断手段によって誤認識したと判断された文字領域がある場合に、前記修正手段により修正された文字の認識結果である文字コードを対象に翻訳処理を実行することを特徴とする請求項4に記載の文字読取装置。
前記設定手段により設定された入力領域に対して行われたユーザ操作が、誤認文字の全体的な再入力であるのか、誤認文字の部分的な削除、または部分的な加筆であるのかを検出する検出手段を更に備え、
前記修正手段は、該検出手段の検出結果が全体的な再入力である場合に前記誤認文字の全体を削除して新たに再入力を行い、部分的な削除である場合に前記誤認文字の指定部分を削除してこの削除後の文字に対応する文字コードに変更し、または、該検出手段の検出結果が部分的な加筆である場合に前記誤認文字の指定部分に加筆してこの加筆後の文字に対応する文字コードに修正することを特徴とする請求項2に記載の文字読取装置。
前記第一の操作パターンは削除対象部分のドラッグ操作であり、前記第2の操作パターンは加筆対象部分への線描画操作であることを特徴とする請求項9に記載の文字読取装置。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の従来技術にあっては、「文字列画像中の該当箇所(認識不可文字の位置)に所定の認識不可マークを重畳表示する」という構成のため、肝心の認識不可文字が認識不可マークに隠れて見えなくなる仕様になっている。したがって、認識不可文字を修正する際は、依然として、(1)認識不可マークなしの元画像を見て認識不可文字の位置を確認し、(2)その位置に元々あった文字(認識不可となった文字)を見つけ出し、(3)キーボード等を用いて正しい文字を再入力する、といった手順を踏む必要があり、とりわけ、認識不可文字が大量に発生した場合の修正効率が悪いという問題点がある。
また、一般的にパーソナルコンピュータ等に付属のキーボードは、英文配列または母国語配列(例:日本語配列)のキートップになっているので、英語や母国語以外の言語入力ができない。このため、英語や母国語以外の言語、たとえば、韓国語やロシア語あるいは中国語などを入力する際に、キーボードの代わりにOCRを利用することがある。具体的には、OCRで画像入力し、その画像に含まれる文字を、たとえば、電子翻訳するなどといった利用がなされることがある。しかしながら、このような利用ケースの場合、OCRによる文字認識が失敗した場合の対策が不十分であった。たとえば、誤認文字が発生した場合に、その対象文字を手書きで再入力することが行われているが、そもそも、その言語を知らない利用者にとって正確な手書き入力は難しく、結局、上記の利用ケースにおいては、正しい翻訳結果を得られないことがあるという問題点がある。
【0007】
そこで、本発明の目的は、認識不可文字の修正時における作業効率の改善を意図した文字読取装置、その制御方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
請求項1記載の文字読取装置は、画像取得部とタッチパネルを備えた文字読取装置であって、前記画像取得部により得られた画像内の文字領域を抽出するとともに、この抽出された文字領域の文字を認識して文字コードに変換する第1の文字認識手段と、前記タッチパネル上に設定された入力領域に手書きにより入力して得られた筆跡から文字を認識して文字コードに変換する第2の文字認識手段と、前記第1の文字認識手段により抽出された文字領域の画像を表示した状態で、この表示された文字領域に対応する位置とサイズで前記第2の文字認識手段の入力領域を設定する設定手段と、前記設定手段により設定された入力領域を対象として前記第2の文字認識手段により行われた筆跡の認識結果に基づいて、該入力領域に対応する文字領域の画像を対象として前記第1の文字認識手段により行われた認識結果を修正する修正手段と、を備えたことを特徴とする。
請求項2記載の発明は更に、前記第1の文字認識手段により誤認識した文字領域を判断する判断手段を更に備え、前記設定手段は、前記判断手段によって誤認識したと判断された文字領域の画像を対象として前記第2の文字認識手段の入力領域を設定することを特徴とする。
請求項3記載の発明は更に、前記判断手段によって誤認識したと判断された文字領域の画像と、この文字領域の画像を元に誤認識された修正対象の文字コードに対応した文字とを併設表示することを特徴とする。
請求項4記載の発明は更に、前記第1の文字認識手段または前記第2の文字認識手段による文字の認識結果である文字コードを対象に翻訳処理を実行する翻訳手段を更に備えたことを特徴とする。
請求項5記載の発明は更に、前記翻訳手段は、前記判断手段によって誤認識したと判断された文字領域がある場合に、前記修正手段により修正された文字の認識結果である文字コードを対象に翻訳処理を実行することを特徴とする。
請求項6記載の発明は更に、前記第1の文字認識手段は、画像内より複数の文字領域を検出するとともに、この抽出された各々の文字領域の文字に対して文字認識を行い、前記翻訳手段による翻訳の対象となる文字領域を選択する選択手段を更に備え、前記翻訳手段は、前記選択手段により選択された文字領域の文字の認識結果である文字コードを対象として翻訳処理を実行することを特徴とする。
請求項7記載の発明は更に、前記設定手段により設定された入力領域に対して行われたユーザ操作が、誤認文字の全体的な再入力であるのか、誤認文字の部分的な削除、または部分的な加筆であるのかを検出する検出手段を更に備え、前記修正手段は、該検出手段の検出結果が全体的な再入力である場合に前記誤認文字の全体を削除して新たに再入力を行い、部分的な削除である場合に前記誤認文字の指定部分を削除してこの削除後の文字に対応する文字コードに変更し、または、該検出手段の検出結果が部分的な加筆である場合に前記誤認文字の指定部分に加筆してこの加筆後の文字に対応する文字コードに修正することを特徴とする。
請求項8記載の文字読取装置は、画像として入力された文字を認識して文字コードに変換する文字読取装置において、誤認識文字を手書き修正するための手書き修正画面を表示する表示手段と、該手書き修正画面に対して行われたユーザ操作を検出する検出手段と、該検出手段の検出結果に基づいて前記文字コードを変更する変更手段とを備え、前記検出手段は、前記手書き修正画面に対して行われたユーザ操作が前記
誤認識文字の部分的な削除であるのかまたは部分的な加筆であるのかを判断し、前記変更手段は、該検出手段の検出結果が部分的な削除である場合に前記
誤認識文字の指定部分を削除してこの削除後の文字に対応する文字コードに変更し、または、該検出手段の検出結果が部分的な加筆である場合に前記
誤認識文字の指定部分に加筆してこの加筆後の文字に対応する文字コードに変更することを特徴とする。
請求項9記載の発明は更に、前記検出手段は、前記手書き修正画面に対して行われたユーザ操作が第一の操作パターンであったときに前記
誤認識文字の部分的な削除であると判断する一方、前記第1の操作パターンと異なる第2の操作パターンであったときに前記
誤認識文字の部分的な加筆であると判断することを特徴とする。
請求項10記載の発明は更に、前記第一の操作パターンは削除対象部分のドラッグ操作であり、前記第2の操作パターンは加筆対象部分への線描画操作であることを特徴とする。
請求項11記載の制御方法は、画像取得部とタッチパネルを備えた文字読取装置の制御方法において、前記画像取得部により得られた画像内の文字領域を抽出するとともに、この抽出された文字領域の文字を認識して文字コードに変換する第1の文字認識処理と、前記タッチパネル上に設定された入力領域に手書きにより入力して得られた筆跡から文字を認識して文字コードに変換する第2の文字認識処理と、前記第1の文字認識処理により抽出された文字領域の画像を表示した状態で、この表示された文字領域に対応する位置とサイズで前記第2の文字認識処理の入力領域を設定する設定処理と、前記設定処理により設定された入力領域を対象として前記第2の文字認識処理により行われた筆跡の認識結果に基づいて、該入力領域に対応する文字領域の画像を対象として前記第1の文字認識処理により行われた認識結果を修正する修正処理と、を含むことを特徴とする。
請求項12記載の制御方法は、画像として入力された文字を認識して文字コードに変換する文字読取装置の制御方法において、誤認識文字を手書き修正するための手書き修正画面を表示する表示工程と、該手書き修正画面に対して行われたユーザ操作を検出する検出工程と、該検出工程の検出結果に基づいて前記文字コードを変更する変更工程とを含み、前記検出工程は、前記手書き修正画面に対して行われたユーザ操作が前記
誤認識文字の部分的な削除であるのかまたは部分的な加筆であるのかを判断し、前記変更工程は、該検出工程の検出結果が部分的な削除である場合に前記
誤認識文字の指定部分を削除してこの削除後の文字に対応する文字コードに変更し、または、該検出工程の検出結果が部分的な加筆である場合に前記
誤認識文字の指定部分に加筆してこの加筆後の文字に対応する文字コードに変更することを特徴とする。
請求項13記載のプログラムは、画像取得部とタッチパネルを備えた文字読取装置のコンピュータに、前記画像取得部により得られた画像内の文字領域を抽出するとともに、この抽出された文字領域の文字を認識して文字コードに変換する第1の文字認識手段、前記タッチパネル上に設定された入力領域に手書きにより入力して得られた筆跡から文字を認識して文字コードに変換する第2の文字認識手段、前記第1の文字認識手段により抽出された文字領域の画像を表示した状態で、この表示された文字領域に対応する位置とサイズで前記第2の文字認識手段の入力領域を設定する設定手段、前記設定手段により設定された入力領域を対象として前記第2の文字認識手段により行われた筆跡の認識結果に基づいて、該入力領域に対応する文字領域の画像を対象として前記第1の文字認識手段により行われた認識結果を修正する修正手段としての機能を実現させることを特徴とする。
請求項14記載のプログラムは、画像として入力された文字を認識して文字コードに変換する文字読取装置のコンピュータに、誤認識文字を手書き修正するための手書き修正画面を表示する表示手段、該手書き修正画面に対して行われたユーザ操作を検出する検出手段、及び、該検出手段の検出結果に基づいて前記文字コードを変更する変更手段としての機能を実現させるプログラムであって、前記検出手段は、前記手書き修正画面に対して行われたユーザ操作が前記
誤認識文字の部分的な削除であるのかまたは部分的な加筆であるのかを判断し、前記変更手段は、該検出手段の検出結果が部分的な削除である場合に前記
誤認識文字の指定部分を削除してこの削除後の文字に対応する文字コードに変更し、または、該検出手段の検出結果が部分的な加筆である場合に前記
誤認識文字の指定部分に加筆してこの加筆後の文字に対応する文字コードに変更することを特徴とする。
【発明の効果】
【0009】
本発明によれば、認識不可文字の修正時における作業効率の改善を意図した文字読取装置、その制御方法及びプログラムを提供することができる。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態を、OCR機能と文字翻訳機能が搭載されたデジタルカメラを例にして、図面を参照しながら説明する。
【0012】
図1は、デジタルカメラ1の正面図及び背面図である。この図において、デジタルカメラ1は、たとえば、箱状薄形のカメラボディ2の前面に沈胴式のレンズ鏡筒3や、ストロボ発光窓4、ファインダ前面窓5及びマイク用集音穴6などを配置すると共に、カメラボディ2の上面に電源スイッチ7及びシャッターボタン8などを配置しており、さらに、カメラボディ2の背面にファインダ後面窓9、スピーカ用拡声穴10、撮影モード/再生モード切り換えスイッチ11、ズーム操作兼再生表示モード切替スイッチ12、MENUボタン13、上下左右方向移動ボタン14、SETボタン15、OCRボタン16、タッチパネル17及び液晶パネル18などを配置し、加えて、カメラボディ2の底面に蓋19を設け、この蓋19の内部にバッテリ20とカード型メモリまたはカード型ハードディスクなどの大容量記憶デバイス21とを着脱可能な状態で実装している。また、カメラボディ2の任意位置(図では背面から見た右側面の上部位置)に横方向の深穴22が開けられており、この深穴22に、タッチパネル17を操作するためのスタイラスペン23を収容できるようになっている。
【0013】
図2は、デジタルカメラの内部ブロック構成図である。この図において、デジタルカメラ1は、レンズ鏡筒3に収められた撮影レンズ24やズームレンズ25、フォーカスレンズ26及び絞り機構27などを含む光学系28と、この光学系28を介して取り込まれた被写体29の像を撮像するCCDやCMOS等の二次元イメージセンサを含む撮像部30と、被写体29までの距離を測定するコントラストAF方式またはハイブリッドAF方式の測距部31と、撮像部30から出力される画像信号に所要の画像処理(ガンマ補正等)を施す画像処理部32と、光学系28の絞り機構27を駆動する絞り駆動部33と、光学系28のフォーカスレンズ26を駆動するフォーカス駆動部34と、光学系28のズームレンズ25を駆動するズーム駆動部35と、各種キーやスイッチ及びボタン類(シャッターボタン8、撮影モード/再生モード切り換えスイッチ11、ズーム操作兼再生表示モード切替スイッチ12、MENUボタン13、上下左右方向移動ボタン14、SETボタン15、OCRボタン16等)を含む操作部36と、マイク用集音穴6の裏側に取り付けられたマイクロホン37やスピーカ用拡声穴10の裏側に取り付けられたスピーカ38を含む音声処理部39と、ストロボ発光窓4の裏側に取り付けられたストロボ発光部40及びストロボ駆動部41と、液晶パネル18を駆動する液晶駆動部42と、タッチパネル17のタッチ座標を取り込むタッチ座標入力部43と、大容量記憶デバイス21のデータ入出力を制御するデバイスデータ入出力部44と、デジタルカメラ1の姿勢を検出する姿勢検出部45と、不図示のGPS(Global Positioning System:全地球測位システム)衛星からの信号を受信してデジタルカメラ1の位置情報(少なくとも緯度経度の座標情報)を検出するGPS受信部46と、必要に応じてパーソナルコンピュータ等の外部機器47との間のデータ入出力を仲介する外部入出力部48と、充電可能な電池49やその電池49の充電部50及び商用電源からの充電用外部端子51を含みデジタルカメラ1の各部の動作に必要な電力を発生する電源部52と、中央制御部53とを備える。
【0014】
中央制御部53は、コンピュータ(以下、CPU)53a、不揮発性メモリ(以下、ROM)53b、揮発性メモリ(以下、RAM)53c及び書き換え可能型不揮発性メモリ(以下、PROM)53dを備えており、ROM53bに予め格納されている制御プログラムやPROM53dに予め又は任意に書き込まれるデータをRAM53cにロードしてCPU53aで実行することにより、つまり、プログラム制御方式によって、このデジタルカメラ1の各部の動作を統括制御するものであるが、この方式(プログラム制御方式)に限定されない。その機能の全て又は一部をハードロジックで実現してもよい。
【0015】
次に、本実施形態のデジタルカメラ1の機能について説明する。
まず、図示のデジタルカメラ1は、画像記録装置として公知の撮影及び再生の機能を有している。すなわち、このデジタルカメラ1は、操作部36の撮影モード/再生モード切り換えスイッチ11が「撮影」位置にあるときに撮影モード(静止画又は動画撮影モード)で動作し、「再生」位置にあるときに再生モードで動作する。
【0016】
静止画又は動画撮影モードを選択した場合、撮像部30から周期的(毎秒数十フレーム)に出力される画像信号が、画像処理部32と中央制御部53及び液晶駆動部42を経て液晶パネル18に出力され、構図確認用のライブビュー画像(スルー画像ともいう)として継続的に表示される。撮影者は、ライブビュー画像を見ながら所望の構図になるように撮影方向や撮像部30の画角(ズームレンズ25のズーム量)を調節し、所望の構図が得られたときにレリーズ操作(シャッターボタン8の押し下げ操作)を行う。
【0017】
そして、レリーズ操作に応答して、フォーカスレンズ26のAF(自動焦点)処理や絞り機構27のAE(自動露出)処理などが実行され、撮像部30から高画質の画像信号が取り出される。この画像信号は、画像処理部32と中央制御部53及びデバイスデータ入出力部44を経て大容量記憶デバイス21に送られ、撮影済み画像として大容量記憶デバイス21に記録保存される。この撮影済み画像は、撮像部30から取り出された高画質の画像信号に相当する生画像(RAW画像)であってもよいが、生画像はサイズが大きく、大容量記憶デバイス21の記憶容量を圧迫するので、たとえば、JPEG(Joint Photographic Experts Group)等の汎用圧縮技術を用いて圧縮した画像を撮影済み画像として記録することが望ましい。
【0018】
一方、再生モードを選択した場合は、たとえば、直近に撮影された画像を大容量記憶デバイス21から読み出して液晶パネル18に拡大表示するか、あるいは、撮影済み画像の縮小画像を大容量記憶デバイス21から読み出して液晶パネル18に一覧表示し、その一覧の中からユーザ操作によって選択された画像(ユーザが再生を希望する画像)の元画像を大容量記憶デバイス21から読み出して液晶パネル18に拡大表示する。
【0019】
以上の撮影モードと再生モードの動作は、従来公知のものであるが、本実施形態においては、それに加えてOCR機能と翻訳機能とを備える。すなわち、本実施形態のデジタルカメラ1は、文字を含む撮影画像等から文字を認識し、各々の文字を文字コードに変換して、その変換結果を各種処理に利用することができ、しかも、その利用形態の1つとして、その変換結果から得られた文字を対象にして翻訳(母国語の意味を表示すること。)を行うことが可能な文字読取装置に係る特徴的事項を含む。
【0020】
図3は、本実施形態の特徴的事項を示す概念的な構成図である。この図において、中央制御部53は、プログラム制御方式によって機能的に実現されたOCRのためのいくつかの特徴的ブロック部、具体的には、文字領域抽出部54、誤認文字判定部55、候補文字生成部56、確定文字生成部57、手書き修正画面表示部58、手書き修正情報受付部59、文字決定部60、及び、文字コード出力部61を含み、さらに、手書き修正情報受付部59は、削除修正受付部62と加筆修正受付部63を含む。
【0021】
文字領域抽出部54は、このデジタルカメラ1によって直近または以前に撮影された撮影済みの画像(または、外部入出力部48を介して、たとえば、
図2の外部機器47から取り込まれた画像)61から文字と看做される領域(以下、文字領域という)を抽出する。誤認文字判定部55は、抽出された文字領域のそれぞれについて、前もって記憶されたパターンと照合して、照合一致の場合(または一致の度合いが信頼に足る場合)に該当パターンの文字であると特定する一方、いずれのパターンにも一致しないか、または、その一致度合いが信頼に足らない場合、もしくは、複数のパターンに一致した場合に誤認文字が発生したと判定する。
【0022】
確定文字生成部57は、文字が特定された場合にその文字を確定文字とする。候補文字生成部56は、誤認文字が発生した場合にその誤認文字またはそれに近い形の文字を修正対象の候補文字とし、もしくは複数パターンに一致した場合には最も類似性が高いパターンの文字を修正対象の候補文字とする。
【0023】
手書き修正画面表示部58は、後で具体的に説明するユーザインターフェース用の「手書き修正画面」を生成し、この手書き修正画面を液晶駆動部42を介して液晶パネル18に出力する。
【0024】
手書き修正情報受付部59は、「手書き修正画面」を表示中の液晶パネル18の前面に位置するタッチパネル17に対して行われるタッチ操作の情報を取り込み、そのタッチ操作の情報に基づき、ユーザによる手書き修正の動作が候補文字に対する全体的な「再入力」であるのか、または、部分的な「削除」であるのか、または、部分的な「加筆」であるのかを判断し、その判断結果に基づいて削除修正受付部62または加筆修正受付部63のいずれか一方を起動する。削除修正受付部62は、候補文字の指定部分を「削除」し、加筆修正受付部63は、候補文字の指定部分に「加筆」する。削除と加筆の詳細は後述する。
【0025】
なお、本実施形態において、「削除」と「加筆」は、ユーザによって行われるスタイラスペン23のタッチ操作から判断するが、このタッチ操作は直感的なものであることが望ましい。たとえば、“捨てる”や“描画”を想起させるような適切な操作パターンは直感的な操作であるといえる。たとえば、前者の“捨てる”を想起させる操作パターン(以下、第1の操作パターン)の具体例はスタイラスペン23を用いた削除対象部分の枠外方向へのドラッグであり、後者の“描画”を想起させる操作パターン(以下、第2の操作パターン)の具体例は同じくスタイラスペン23を用いた加筆対象部分への線描画である。これらの直感的操作パターン(第1及び第2の操作パターン)のいずれが行われたかを手書き修正情報受付部59で判断し、削除修正受付部62または加筆修正受付部63のいずれかを起動すればよい。
【0026】
文字決定部60は、確定文字生成部57から取り出された確定文字に対応する文字コードを発生し、または、手書き修正情報受付部59によって部分的な「削除」や「加筆」の修正が行われた場合には、その修正済み文字に対応する文字コードを発生し、この文字コードを利用するための所定の機能(ここでは、翻訳部61)に出力する。
【0027】
なお、本実施形態では、文字決定部60から取り出される文字コードの利用先を翻訳部61としているが、すなわち、文字決定部60から取り出される文字コードを翻訳機能の対象文字として利用しているが、取り出された文字コードの利用先は特に限定しない。文字コード(アスキーコード等)はコンピュータで認識可能なデジタルデータであるから、たとえば、そのまま文字データとして記憶保存してもよいし、または、外部機器47に出力してもよい。あるいは、このデジタルカメラ1で動作する他のアプリケーション(翻訳ソフトや辞書ソフトなど)に渡してもよく、もしくは、画像Gの付加情報(例:JPEG形式画像ファイルのExifデータ)として利用してもよい。
【0028】
図4は、
図3の各機能ブロックを実現するためのソフトウェアフローを示す概念図である。このソフトウェアは、あらかじめROM53bに格納されたものであり、ユーザによって操作部36のOCRボタン16が押下げ操作されたときにRAM53cにロードされ、CPU53aによって実行されるものである。
【0029】
このソフトウェアを実行すると、まず、認識対象画像(以下、
図3の画像Gとする。)を読み込む(ステップS1)。ここでは、画像Gを大容量記憶デバイス21に記録保存されている撮影済み画像(直近に撮影されたもの、または、過去に撮影されたもの)とするが、これに限らない。外部機器47から任意に取り込んだ画像であっても構わない。
【0030】
次に、画像G内の文字領域を抽出し、画像Gに文字が含まれているか否かを判定し(ステップS2)、文字が含まれていなければ、そのままソフトウェアを終了し、文字が含まれていれば、抽出された文字領域を対象としてパターン比較により文字認識処理を実行する(ステップS3)。
【0031】
次に、この文字認識処理による誤認文字の有無を判定する(ステップS4)。誤認文字とは、いずれの文字パターンとも一致しない文字、または、パターン一致の度合いが信頼性に足らない文字、あるいは、複数の文字パターンに一致した文字のことをいう。
【0032】
誤認文字の発生を判定しなかった場合(ステップS4のNO)は、そのまま確定文字生成の処理(ステップS11)に進み、一方、誤認文字の発生を判定した場合(ステップS4のYES)は、ステップS5〜ステップS10の修正処理に進む。
【0033】
この修正処理では、まず、修正対象の候補文字を発生する(ステップS5)。修正対象の候補文字とは、正しい文字ではないものの概ね形が類似している文字であって、手書き入力装置(タッチパネル17)を利用してその文字の一部を削除したり加筆したりすることにより、本来の正しい文字に簡単に手直しできる適当な文字のことをいう。
【0034】
次いで、所定の手書き修正画面を生成して液晶パネル18に表示する(ステップS6)。そして、液晶パネル18の前面に位置するタッチパネル17に対するユーザ操作(スタイラスペン23を用いたタッチ操作)の仕方から、その修正動作が候補文字に対する全体的な「再入力」であるのか、または、部分的な「削除」であるのか、または、部分的な「加筆」であるのかを判断し(ステップS7)、その判断結果に従って、全体再入力処理(ステップS8)、部分削除処理(ステップS9)または部分加筆処理(ステップS10)のいずれかを実行した後、修正処理を抜けて、確定文字生成の処理(ステップS11)に進む。
【0035】
誤認文字の発生時または非発生時のいずれの場合も、確定文字生成(ステップS11)を行った後、残りの文字領域があるか否かを判定し(ステップS12)、残りの文字領域があれば、再びステップS3に戻り、残りの文字領域がなければ、そのまま確定文字を連結した文字列(文字コード列)を生成(ステップS13)する。そして、翻訳モードが設定されているか否かを判断し(ステップS14)、翻訳モードが設定されている場合には、翻訳部61でその文字列を対象として翻訳を実行し(ステップS15)、また、翻訳モードが設定されていない場合には、その文字列を所定の利用先(その他の機能部)に出力(ステップS16)した後、ソフトウェアを終了する。
【0036】
図5は、文字列の利用先の他の一例を示す図である。この図において、フォーマット64は、画像Gのファイル構造を概念的に示すものであり、このフォーマット64は、ファイル名格納部65、画像データ格納部66及びユーザデータ部67を含む。ユーザデータ部67は、いわゆるExif形式の画像付加情報の一つであり、任意の利用が認められた汎用領域である。本実施形態においては、特にそれに限定されないが、OCRによって認識された文字データの利用先として、このユーザデータ部67への書き込みを例示する。
【0037】
この例示のようにすれば、たとえば、旅先で地名入りの看板等を撮影したときに操作部36のOCRボタン16を押下げ操作して、
図4のOCR機能を実現するためのソフトウェアを実行すれば、画像中の文字(地名)を文字コードに変換して当該画像のユーザデータ部67に書き込むことができるから、後日における画像の整理を容易にすることができる。このように、文字列の利用先は、先に説明した翻訳部61以外のものであってもよい。
【0038】
次に、本実施形態のポイントである誤認文字の修正について、具体的に説明する。
<第一の例>
図6は、誤認文字が発生した場合に全体的な「再入力」を行う場合の例を示す図である。(a)は、液晶パネル18に表示された、たとえば、韓国旅行に行った際にデジタルカメラ1で撮影した画像1001を示している。この画像1001には韓国語(ハングル文字)で書かれた看板1002が写っており、画像1001の撮影者は、デジタルカメラ1の翻訳機能を用いてこの看板1002の文字の意味を知りたいものとする。このとき、デジタルカメラ1のCPU53aは、看板1001内の各文字領域1003、1004を抽出し、各々の文字領域1003、1004に対してパターン比較による文字認識処理を実行する。
【0039】
CPU53aは、文字認識処理を行った後、(b)に示すように、各文字領域1003、1004の上に重ねて透過型の認識文字1005、1006を表示する。透過型とは、その認識文字を透して下層の文字画像が見えるようになっていることをいう。
【0040】
なお、
図6では、1つの看板だけが写っている例を示したが、これは簡単な例を示したに過ぎない。複数の看板が写っていてもよいし、看板に限らない。文字が描かれたものであれば何でもよい。ちなみに、複数の看板が写っている場合には、各々の看板に対応して複数の文字領域が抽出されるので、翻訳したい看板に対応する文字領域内を指示操作するなどして、翻訳したい文字または文字列の選択をできるようにすればよい。
【0041】
次いで、ユーザ(画像1001の撮影者)によって、翻訳したい文字または文字列が選択されると、CPU53aは、その選択された文字または文字列に対応する認識文字を対象として、翻訳処理を実行し、しかる後、(c)に示すように、その翻訳結果を提示するための翻訳結果表示領域1007)と、その翻訳結果を了承するためのOKボタン1008と、その翻訳結果を否定するための修正ボタン1009とを液晶パネル18に表示する。
【0042】
ここで、修正ボタン1009は、翻訳したい文字のある文字領域に、元の撮影画像内の文字と異なる形の文字が表示されているとユーザが判断した場合に、そのユーザによって操作(タッチパネル17へのタッチ操作)されるものであり、この修正ボタン1009が操作されると、CPU53aは、翻訳結果表示領域1007の内容を消去するとともに、翻訳の対象となった認識文字1005、1006の内容を消去する。なお、かかる消去動作は、修正ボタン1009の操作、つまり、ユーザ操作に応答して行われるだけでなく、CPU53aによる誤認文字の判定、すなわち、文字認識処理によるパターン一致の度合いが信頼性に足らない文字であることをCPU53aが自動判断したときにも行ってもよい。
【0043】
ユーザによる上記の消去操作やCPU53aによる誤認文字発生判断が行われたとき、CPU53aは、(d)に示すように、元の撮影画像内の文字1004を透過表示させた状態で、この透過表示されている位置に手書き文字認識枠1010を設定し、ユーザによるスタイラスペン23を用いた手書き入力動作が行われるまで待機する。
【0044】
そして、(e)に示すように、ユーザが、この透過表示されている撮影画像内の文字1004をなぞるようにして、手書き文字認識枠1010内に手書き文字入力を行うと、CPU53aは、この手書き入力された筆跡に基づいて再度文字認識処理を実行する。
【0045】
このように、この第一の例によれば、OCR入力が失敗した場合に、キーボード入力の代わりに手書き文字入力に移行入力するので、知らない国の文字のようにキーボード入力が困難な文字であっても再入力を可能とすることができる。
【0046】
加えて、この再入力に際しては、撮影画像内の文字1004を単になぞるだけでよいので、知らない国の文字のようにまったく不明な字形であっても、容易に手書き入力を行うことが可能となる。
【0047】
<第二の例>
次に、文字認識後に表示された文字の一部だけが誤っているような場合に、文字全体を再入力するのではなく、誤っている箇所だけを部分的に削除したり加筆したりする場合の例を説明する。
図7及び
図8は、誤認文字が発生した場合に液晶パネル18に表示するユーザインターフェース用の手書き修正画面を示す図である。これらの図においては、誤認文字として“犬”と“大”を例示している。これは、“犬”と“大”の違いは、右上に“点”があるかないかだけであり、たとえば、“大”の文字にゴミやノイズ等による間違った“点”が加えられてしまった場合に“犬”と誤認してしまうことがあるからであり、あるいは、“犬”の“点”がかすれやつぶれなどによって失われてしまった場合に“大”と誤認してしまうことがあるからである。いうまでもなく、誤認しやすい文字はこの例示に限らない。間違いやすい他の文字であっても同様であるが、本実施形態では説明の便宜上、上記の例示(“犬”と“大”)に従うものとする。
【0048】
まず、
図7及び
図8において、文字の修正支援のために、(a)に示すような手書き修正画面を使用する。この手書き修正画面は下層のレイヤ68と、そのレイヤ68の上に位置する上層のレイヤ69とからなり、下層のレイヤ68に修正対象文字(
図7では“犬”、
図8では“大”)の元画像70を表示し、上層のレイヤ69に修正対象の候補文字71を表示する。つまり、二つのレイヤ68、69を積層状態で併設する。
上層のレイヤ69に表示された候補文字71はタッチパネル17によって任意部分の手書き修正が可能になっており、ユーザは必要に応じて候補文字71の部分的な削除や加筆を行うことができる。なお、このとき、上層の候補画像71と下層の元画像70との水平方向の位置関係を図のように若干ずらしておけば、下層の元画像70がよく見えるようになるから好ましい。あるいは、上層の候補画像71に透過性を与えると共に、上層の候補画像71と下層の元画像70との色を異ならせてもよい。
【0049】
または、
図7及び
図8において、(b)に示すような手書き修正画面を使用してもよい。この(b)の例は、二つのレイヤ68、69を隣り合わせに併設したものであり、上記の(a)とは、二つのレイヤ68、69を積層せずに横に並べた点で相違する。なお、ここでは左側に元画像70を配置し、右側に修正対象の候補画像71を配置しているが、これに限らない。左右逆であってもよいし、上下に並べても構わない。
【0050】
図9は、部分的な「削除」の修正を行う際のユーザ操作を示す図である。この図において、“大”を“犬”と誤認した場合、候補文字71における余分な部分は、明らかに右上の“点”だけである。したがって、この“点”を削除すれば本来の正しい文字、つまり“大”へと簡単に修正することができる。この削除の仕方はいろいろ考えられるが、タッチパネル17の利用を前提とすれば、たとえば、(a)削除したい部分71aへのスタイラスペン23のタッチを検出して、(b)当該部分71aの切り出し処理(点線で囲んだ部分の切り出し処理)を行い、次いで、(c)スタイラスペン23の枠外へのドラッグ操作71bを検出して、切り出した部分71aを削除した上、認識文字を“犬”から“大”へと変更すればよい。
【0051】
このようにすれば、候補文字71の大方の部分をそのまま利用し、一部を「削除」するだけで文字の修正を行うことができるから、たとえば、文字全体を手書き入力して修正する場合に比べて大幅な効率改善を図ることができる。
【0052】
図10は、部分的な「加筆」の修正を行う際のユーザ操作を示す図である。この図において、“犬”を“大”と誤認した場合、候補文字71における不足の部分は、明らかに右上の“点”だけである。したがって、この“点”を加筆すれば本来の正しい文字、つまり“犬”へと簡単に修正することができる。この加筆の仕方もいろいろ考えられるが、タッチパネル17の利用を前提とすれば、たとえば、(a)加筆したい部分71cへのスタイラスペン23のタッチを検出し、さらに、(b)そのタッチ位置から連続するスタイラスペン23のトレース操作71dに追従して線描画の処理を行い、次いで、(c)スタイラスペン23のタッチパネル17からの離脱を検出して、その線描画部分を“犬”の右上の点71aとなるように整形し、認識文字を“大”から“犬”へと変更すればよい。
【0053】
このようにしても、候補文字71の大方の部分をそのまま利用し、一部に「加筆」するだけで文字の修正を行うことができるから、たとえば、文字全体を手書き入力して修正する場合に比べて大幅な効率改善を図ることができる。
【0054】
以上、説明したとおり、本実施形態によれば、タッチパネル17を用いて誤認文字を手書き修正する際に、誤認文字に対応した候補文字を表示し、その候補文字の一部を手直し(削除や加筆)するようにしたので、たとえば、誤認文字の全体を手書き入力する場合に比べて大幅な効率改善を図ることができ、とりわけ大量の誤認文字を修正する際の労力軽減と作業時間短縮に大きく寄与する有益な技術を提供することができる。
【0055】
また、手書き修正する際に、誤認文字の元画像70を背景にして、その上に修正対象の候補画像71を重畳表示する(
図7及び
図8の(a)参照)ので、背景の元画像70をトレースしながら候補文字71を修正することができ、修正作業の効率化を図ることができる。
同様に、手書き修正する際に、誤認文字の元画像70の隣に修正対象の候補画像71を並べて表示する(
図7及び
図8の(b)参照)ので、背景の元画像70を見ながら候補文字71を修正することができ、修正作業の効率化を図ることができる。
【0056】
なお、以上の説明では、OCR機能付のデジタルカメラ1への適用を例にしたが、これに限らないことは当然である。要は、OCR機能と手書き入力機能が搭載された電子機器であればよく、たとえば、パーソナルコンピュータや、電子辞書、ゲームマシン、携帯電話機、ファクシミリ装置、または、OCR専用機等、いかなるものであってもかまわない。
【0057】
また、本実施形態の主要な機能は、マイクロコンピュータを含むハードウェア資産と、基本ソフト(OS)や各種応用プログラムなどのソフトウェア資産との有機的結合によって機能的に実現されるものであるが、ハードウェア資産およびOSは汎用のものを利用できるから、本発明にとって欠くことのできない必須の事項は、実質的に、
図3の各機能ブロックを実現するためのソフトウェアフロー、すなわち、
図4に示すソフトウェアフローに集約されているということがいえる。したがって、本発明は、このソフトウェアフローを含むプログラムそれ自体を包含し、または、そのプログラムのすべてまたはその要部を格納したフレキシブルディスクや磁気ディスク、光ディスク、可搬型半導体記憶装置などの各種記録媒体(それ自体が流通経路に乗るものはもちろん、ネットワーク上にあって記録内容だけを提供するものも含む)を包含する。