(58)【調査した分野】(Int.Cl.,DB名)
前記文字領域候補線判定部は、前記検出された複数の垂直線間の色分布が略等しい色分布であるか否か又は前記検出された複数の水平線間の色分布が略等しい色分布であるか否かを判定する色分布判定部を有し、
前記色分布判定部により前記検出された複数の垂直線間の色分布が略等しい色分布であると判定された場合には前記複数の垂直線の端部を結ぶ線を前記文字領域候補線と判定し、前記検出された複数の水平線間の色分布が略等しい色分布である場合には前記複数の水平線の端部を結ぶ線を前記文字領域候補線と判定する請求項1に記載の画像処理装置。
前記文字領域候補推定部は、前記陰影検出部によって検出された陰影分布が規則的な形状の単一階調部を含んでおらず、かつ、前記文字領域候補線に沿った方向に文字を示すパターンを含む領域を検出できたか又は前記単一階調部以外が線で構成されたパターンを含む領域を検出できた場合に、前記文字を示すパターンを含む領域又は前記単一階調部以外が線で構成されたパターンを含む領域を前記文字領域候補と推定する請求項3に記載の画像処理装置。
【発明を実施するための形態】
【0011】
以下、図面を参照して本発明の実施形態を説明する。
図1は、本発明の一実施形態に係る画像処理装置の機能ブロック図である。画像処理装置100は、画像取得部102と、文字領域推定部104と、出力部106とを有している。
【0012】
画像取得部102は、文字を含む領域を判定する対象となる画像を取得する。この画像取得部102は、例えば撮像部による撮像によって得られた画像を取得する。この他、画像取得部102は、画像処理装置100の外部の機器から入力された画像を取得するように構成されていても良い。
【0013】
文字領域推定部104は、画像取得部102によって入力された画像内の文字を含むと考えられる領域(この時点では文字であるか否かは判定されなくて良い)を推定する。この文字領域推定部104は、垂直線検出部1041と、水平線検出部1042と、文字領域候補線判定部1043と、陰影検出部1044と、文字領域候補推定部1045とを有している。垂直線検出部1041は、画像内の複数の垂直線を検出する。水平線検出部1042は、画像内の水平線を検出する。文字領域候補線判定部1043は、画像内の複数の垂直線の関係又は画像内の複数の水平線の関係から、文字の配列されている可能性が高い方向を表す線を文字領域候補線として判定する。この文字領域候補線判定部1043は、色分布検出部1043aとしての機能と、色判定部1043bとしての機能とを有する。色分布検出部1043aとしての機能は、複数の垂直線間及び複数の水平線間の色分布を検出する機能である。色判定部1043bとしての機能は、色分布が略等しい色分布であるか否かを判定する機能である。陰影検出部1044は、画像内の陰影分布を検出する。文字領域候補推定部1045は、文字領域候補線に沿った方向の陰影分布から文字を含むと考えられる領域(文字領域候補)を推定する。
【0014】
出力部106は、文字領域推定部104の文字領域候補推定部1045で推定された文字領域候補の情報を表示部等に出力する。この情報は、例えば文字領域候補の座標である。
【0015】
図2は、
図1に示した画像処理装置100を撮像装置に適用した場合の構成を示す図である。
図2に示す撮像装置200は、制御部202と、撮像部204と、表示部206と、記録部208と、操作部210と、タッチパネル212と、姿勢検出部214と、位置検出部216と、計時部218と、通信部220とを有している。
図2に示す撮像装置200は、例えばデジタルカメラやスマートフォンといった各種の撮像機能を有する機器である。
【0016】
制御部202は、例えばCPUで構成され、
図1で示した画像処理装置100を有する。この他、制御部202は、撮像制御部2022と、画像処理部2023と、文字認識部2024と、メタデータ作成部2025と、表示制御部2026と、通信制御部2027とを有している。撮像制御部2022は、撮像部204による撮像動作を制御する。画像処理部2023は、撮像部204によって取得された画像データに対して表示や記録のために必要な画像処理を施す。この画像処理は、ホワイトバランス補正、階調補正、色補正といった画質に関する補正、リサイズ処理、圧縮処理、伸張処理等を含む。文字認識部2024は、文字辞書DB2082を参照して画像データ中の文字を認識する。メタデータ作成部2025は、文字認識部2024の認識結果に基づいて画像ファイルに付加するためのメタデータを作成する。表示制御部2026は、表示部206への各種の画像の表示を制御する。通信制御部2027は、撮像装置200と外部機器との通信の際の制御をする。通信制御部2027により、撮像装置200は、サーバ300と通信自在に接続される。また、通信制御部2027の制御により、撮像装置200は、別の端末機器(スマートフォン)400とも通信自在に接続される。
【0017】
撮像部204は、被写体を撮像して被写体に関する画像(画像データ)を取得する。この撮像部204は、撮影レンズ2041と、撮像素子2042と、アナログ/デジタル(A/D)変換部2043とを有している。撮影レンズ2041は、被写体からの光束を撮像素子2042に集光させる。撮像素子2042は、受光面を有する。受光面には、画素が配置されている。画素は、例えばフォトダイオードであり、入射光の光量に応じた電気信号(画像信号)を出力する。A/D変換部2043は、撮像素子2042で得られたアナログの画像信号をデジタルの画像信号(画像データ)に変換する。
【0018】
表示部206は、例えば液晶ディスプレイや有機ELディスプレイであり、各種の画像データに基づいて画像を表示する。この画像データは、撮像部204の撮像によって得られた画像データや記録部208に記録された画像データである。
【0019】
記録部208は、例えばフラッシュメモリであり、画像データ等をファイルとして記録している。また、記録部208には、接続先データベース(DB)2081と文字辞書(DB)2082が構築されている。接続先DB2081は、撮像装置200の通信対象となる機器(サーバ300や端末機器400)と通信するために必要なアドレス情報等を記憶したデータベースである。文字辞書DB2082は、文字認識のための文字のパターンの情報を記憶したデータベースである。なお、記録部208は、撮像装置200に内蔵されているものであっても、撮像装置200に対して着脱自在なものであっても良い。
【0020】
操作部210は、ユーザが撮像装置200の操作を行うための機械式の操作部材である。操作部210としては、例えばレリーズボタンや電源スイッチが含まれる。レリーズボタンは、ユーザが撮影動作の実行を指示するためのボタンである。また、電源スイッチは、ユーザが撮像装置200の電源のオン又はオフを指示するためのスイッチである。
【0021】
タッチパネル212は、表示部206の表示画面の上に形成されており、ユーザによるタッチ操作を検出する。制御部202は、タッチパネル212で検出されたタッチ操作に応じた処理を行う。例えば、タッチパネル212は、レリーズボタンの代わりとして用いられる。その他、タッチパネル212は、表示部206の表示画面に表示された画像の特定の部分をユーザが指定するために用いられる。
【0022】
姿勢検出部214は、例えば3軸の加速度センサであり、撮像装置200の姿勢(例えば、標準姿勢(いわいる横位置)において、撮像装置200の水平方向をX方向とする。正のY方向は、被写体側から撮像装置200を見て右方向とする。さらに、撮像装置200の垂直方向をY方向とする。正のY方向は、標準姿勢における上方向とする。このような座標系において、Z軸(撮影レンズ2014の光軸)周りの回転運動がロール、X軸周りの回転運動がピッチの正方向回転、原点からX軸正方向に見たときのZ軸周りの左回転がロールの正方向回転、原点からY軸正方向を見たときのY軸周りの右回転がヨーの正方向回転である。)を検出する。位置検出部216は、例えば、撮像装置200本体に内蔵、又は不図示のホットシューに取り付けられたGPS(Global Positioning System)を有する。このGPSによる外部から送信された信号を受信することやスマートフォン等の端末機から送信されるGPS通信情報を受信することによって撮像装置200の現在位置を検出する。なお、位置検出部216によって撮像装置200内における撮影レンズ2014の光軸方向に基づいて方位を検出できるようにしても良い。あるいはスマートフォン等の端末機で記録したGPSログを撮像装置200に転送することで、撮像装置200に保存されている画像データのExif情報にGPSタグを追加記録してもよい。計時部218は、現在時刻を取得する。通信部220は、通信制御部2027による制御に従ってサーバ300や端末機器400と通信する。なお、通信部220による通信は、有線通信であってもよいし、無線通信であってもよい。
【0023】
また、サーバ300は、制御部302と、記録部304と、通信部306とを有している。ここで、
図1のサーバ300は、クラウドサーバであってもよい。例えば、制御部302と記録部304とは別個の場所にあってもよい。
【0024】
制御部302は、文字認識部3021と、通信制御部3022とを有している。文字認識部3021は、撮像装置200から通信によって取得した画像データにおける文字領域候補内で文字の認識をする。通信制御部3022は、撮像装置200との通信の際の制御をする。
【0025】
記録部304は、例えばハードディスクである。この記録部304には、文字辞書データベース(DB)3041が構築されている。文字辞書DB3041は、文字認識のための文字の形状情報を記憶したデータベースである。なお、文字辞書DB3041は、文字辞書DB2082よりも情報量の多いデータベースでも良い。
【0026】
通信部306は、通信制御部3022による制御に従って撮像装置200と通信する。
【0027】
以下、本実施形態に係る画像処理装置100を備えた撮像装置200の動作を説明する。本実施形態に撮像装置200は、看板等の文字を有する被写体を含むシーンの撮影時に好適なものである。例えば、
図3Aに示すような「△高原」との文字が記された石碑をユーザが撮影しようとしたとする。このとき、撮像装置200(画像処理装置100)は、撮像により得られた画像の中の文字領域候補を推定する。この推定については後で詳しく説明する。
【0028】
文字領域候補が推定されると、
図3Bに示すように、表示部206に表示された画像の文字領域候補の部分206aが強調表示(枠で囲む等)される。このときに文字認識が完了しているのであれば、文字認識結果をユーザに提示するようにしても良い。
【0029】
強調表示により、ユーザに文字領域候補の部分を注視させることができる。そして、文字領域候補内に文字が有ったことを認識したユーザは、
図3Bに示すように表示部206の表示画面(すなわちタッチパネル212)をタッチする等して撮影指示を行う。このとき、撮像装置200による撮影が行われ、その後、
図3Cに示すように、ライブビュー画像に関連付けガイド206bが表示される。関連付けガイド206bは、例えば文字領域候補の部分の縮小画像である。このような関連付けガイド206bにより、シーン中の文字の存在をユーザに認識させ、台の撮影をユーザに対して促すことができる。
【0030】
図4A及び
図4Bは、本実施形態に係る撮像装置200の撮影時の動作を示すフローチャートである。
図4A及び
図4Bに示す動作は、制御部202によって制御される。
図4A及び
図4Bにおいて、制御部202は、撮像装置200の動作モードが撮影モードであるか否かを判定する(ステップS101)。撮像装置200は、動作モードとして撮影モードと再生モードとを少なくとも有している。撮影モードは、記録用の画像を撮影するための動作モードである。再生モードは、記録された画像を再生するための動作モードである。ステップS101において撮像装置200の動作モードが再生モードであると判定した場合に、制御部202は、再生モードの処理を行う。再生モードの処理については簡単に説明する。再生モードにおいて、制御部202は、記録部208に記録されている画像ファイルの一覧を表示部206に表示させる。一覧表示された画像ファイルの中でユーザが所望の画像ファイルを選択すると、制御部202は、その選択された画像ファイルに対応した画像を表示部206に表示させる。
【0031】
ステップS101において、動作モードが撮影モードであると判定した場合に、制御部202は、ライブビュー表示を行う(ステップS102)。ライブビュー表示は、撮像部204の連続動作によって得られる画像をリアルタイムで表示部206に表示させる動作である。なお、ライブビュー表示中に顔検出等を行うようにしても良い。ライブビュー表示の後、制御部202は、現在の撮影モードの設定が関連付け撮影モードであるか否かを判定する(ステップS103)。関連付け撮影モードとは、文字を含む被写体の撮影をユーザに対して促す撮影モードである。詳細については後で説明する。
【0032】
ステップS103において、現在の撮影モードの設定が関連付け撮影モードでないと判定した場合に、制御部202は、文字領域候補判定1の処理を行う(ステップS104)。文字領域候補判定1の処理は、文字領域候補線を判定する処理である。以下、文字領域候補判定1の処理について説明する。
【0033】
図5Aに示すように、例えばライブビュー表示中に得られた画像内の文字が画像の水平方向又は垂直方向と平行に配列されているのであれば文字を認識し易い。ここで、看板等は必ずしも人物に対して水平に配置されているわけではない。また、ユーザの構図の決め方によっては必ずしも画像に対して文字が水平又は垂A直に配置されるとは限らない。例えば、
図5Bに示すような、被写体である人物Sが石碑Pの斜め横に位置しているようなシーンでは画像の水平方向及び垂直方向に対して文字が傾きを持ってしまい、文字認識がしにくくなる。しかしながら、石碑の水平又は垂直方向が判別できれば、その方向に文字が配列されている可能性があると推定することはできる。
【0034】
本実施形態に係る撮像装置200は、文字が認識できないような状況であっても、文字が存在していると考えられる文字領域候補の情報をユーザに提示することにより、必要に応じて適切な方向から文字の撮影を行わせるようユーザにアドバイスする。例えば、
図5Cに示すように、画像に対して文字が水平でなくても、文字が記されている領域(
図5Cの例では石碑P)が地面に対して水平であるならば文字領域候補と判定する。そして、このような場合には、文字領域候補の存在をユーザにアドバイスする。
【0035】
図6は、文字領域候補判定1の処理を示すフローチャートである。
図6の処理は、制御部202の画像処理装置100によって行われる。
図6において、画像処理装置100の画像取得部102は、ライブビュー表示用の撮像によって得られた画像データを取得し、取得した画像データを、文字領域推定部104に入力する。文字領域推定部104の垂直線検出部1041は、入力された画像データにおける垂直線を検出する(ステップS201)。なお、ステップS201において検出する垂直線は、地面に対して垂直な線であることが望ましい。したがって、姿勢検出部214によって検出される撮像装置200の姿勢から画像データにおける地面と平行な線(地平線)を検出し、この地平線に対して鉛直方向の線を垂直線として検出する。垂直線は、エッジ検出やコーナー検出等の周知の手法を利用して検出することができる。
【0036】
垂直線検出の後、垂直線検出部1041は、2本以上の垂直線が検出できたか否かを判定する(ステップS202)。画像内の文字領域候補である看板や石碑には、
図7A、
図7B及び
図7Fで示すような直方体状のもの、
図7Cで示すような平板状のもの、
図7D及び
図7Eで示すような円柱状のものといったように、種々の形状がある。また、文字が記される位置も、上側や側面等の種々のものがある。しかしながら、画像として見た場合、文字領域候補と考えられる領域は、閉じた領域となる。ステップS202の処理は、閉じた領域である文字領域候補の垂直線を探索するための処理である。文字領域候補としての閉じた領域を探索するため、垂直線を2本以上検出する。ステップS202の処理により、
図7A、
図7B、
図7D及び
図7Eの例では垂直線Lv1及びLv2が検出される。また、
図7C及び
図7Fの例では垂直線Lv1、Lv2及びL3が検出される。このように、
図7A〜
図7Fで示した看板等を含むシーンの撮影時には、ステップS202において2本以上の垂直線が検出できたと判定される。
【0037】
ステップS202において、ライブビュー撮影時に取得した画像データ内に、2本以上の垂直線が検出できたと垂直線検出部1041が判定した場合に、文字領域候補線判定部1043は、垂直線検出部1041によって検出された垂直線の長さを比較する。そして、文字領域候補線判定部1043は、長さが等しく隣接した2本の垂直線があるか否かを判定する(ステップS203)。本実施形態の例では、長さが等しく隣接した2本の垂直線がある場合、
図7A〜
図7Fで示したように、それらの2本の垂直線の間の領域には文字が存在している可能性があると考える。
【0038】
このとき、文字領域候補線判定部1043は、ライブビュー撮影時に取得した画像データから、隣接した2本の垂直線の間の領域の色(色情報信号:彩度、色相)を検出する。これら領域の色情報を検出する手段として、例えば、ライブビュー撮影時に取得した画像データは、輝度信号成分(Y)と2つの色差信号(Cr,Cb)信号が含まれているが、そのうちの2つの色差信号(Cr,Cb)信号成分のみを抽出する。
【0039】
上述の2つの色差信号(Cr,Cb)は、撮像素子から得られるR,G,Bの三原色の画像信号出力(R信号、G信号、B信号)に対して、それぞれ、R信号、およびB信号出力から輝度信号成分(Y)を減算した出力値である。ここで第1の色差信号(Cr)は、R信号出力から、輝度信号成分(Y)を減算した出力値である。そして、第2の色差信号(Cb)は、B信号出力から輝度信号成分(Y)を減算した出力値である。
【0040】
これらの第1の色差信号(Cr),第2の色差信号(Cb)を、それぞれ水平方向、垂直方向のベクトル量と示した場合に、この2つの色差信号によるベクトルの大きさにより、色情報の彩度が示される。色情報の彩度は、2つの色差信号によるベクトルの大きさが大きいほど、色が鮮やかであることが示される。またこの2つの色差信号によるベクトルがなす方向により、色情報として色相情報が検出される。色相は、色味を示すものである。
【0041】
この2つの色差信号によるベクトルがなす方向は、第1の色差信号(Cr),第2の色差信号(Cb)との大きさの比を算出することで方向が示される。
【0042】
具体的には、第1の色差信号(Cr)が,第2の色差信号(Cb)に対して比率が大きい場合には、ライブビュー撮影時に取得した画像データは、色情報として赤味が強い色であることが示される。一方、第1の色差信号(Cr)が,第2の色差信号(Cb)に対して比率が小さい場合には、ライブビュー撮影時に取得した画像データは、色情報として青味が強い色であることが示される。また、上述で示す、隣接した2本の垂直線の間の領域の色の代表値として、色差信号の平均出力値または、最も面積が広い領域に対応する色差信号の平均出力値等を算出する。そして、文字領域候補線判定部1043は、隣接した2本の垂直線の間の領域の色が略同じ色であるか否かを判定する(ステップS204)。
【0043】
ステップS204での色判定は、具体的には、まず、それぞれ比較判定で示す領域の画像データから、第1の色差信号(Cr),第2の色差信号(Cb)を算出する。次に算出された、第1の色差信号(Cr),第2の色差信号(Cb)から、彩度情報と色相情報を検出する。
【0044】
ステップS204で示す2本の垂直線の間の領域の色が略同じ色であるか否かの判定は、彩度情報と色相情報を、それぞれ比較して、それぞれの値の差が大きいか否かで判定する。
【0045】
具体的な一例として、看板や台(例えば、石碑)等の場合、文字の部分以外の部分は略同じ色であると考えられる(例えば
図7Aの垂直線Lv1と垂直線Lv2の間は略同じ色となる)。したがって、隣接した2本の垂直線の間の領域の色が略同じ色(詳細には、色差信号から色相、彩度を検出し、比較対象となる色の色相、彩度との差が所定範囲より小さい場合に略同じ色と判断する)である場合には、その領域には文字が存在している可能性があると考える。このとき、文字領域候補線判定部1043は、隣接した2本の垂直線の端部を結ぶ線(直線又は曲線)を文字領域候補線とする(ステップS205)。例えば、
図7Aの例では垂直線Lv1の端部と垂直線Lv2の端部とを結ぶLh1及びLh2が文字領域候補線となる。
【0046】
ステップS205の後、又はステップS202において2本以上の垂直線が検出できなかったと判定された場合、ステップS203において長さが等しく隣接した2本の垂直線がないと判定された場合、或いはステップS204において隣接した2本の垂直線の間の領域の色が略同じ色でないと判定された場合に、水平線検出部1042は、入力された画像データにおける水平線を検出する(ステップS206)。水平線は、エッジ検出やコーナー検出等の周知の物体検出における輪郭検出の手法を利用して検出することができる。
【0047】
水平線検出の後、水平線検出部1042は、2本以上の水平線が検出できたか否かを判定する(ステップS207)。ステップS207において2本以上の水平線が検出できたと水平線検出部1042が判定した場合に、文字領域候補線判定部1043は、水平線検出部1042によって検出された水平線の長さを比較する。そして、文字領域候補線判定部1043は、長さが等しく隣接した2本の水平線があるか否かを判定する(ステップS208)。ステップS208において、長さが等しく隣接した2本の水平線があると判定した場合に、文字領域候補線判定部1043は、隣接した2本の水平線の間の領域の色を検出する。そして、文字領域候補線判定部1043は、隣接した2本の水平線の間の領域の色が略同じ色であるか否か(詳細には、色差信号から色相、彩度を検出し、比較対象となる色の色相、彩度との差が所定範囲より小さい場合に略同じ色と判断する)を判定する(ステップS209)。ステップS209において隣接した2本の水平線の間の領域の色が略同じ色であると判定した場合に、文字領域候補線判定部1043は、隣接した2本の水平線の端部を結ぶ線(直線又は曲線)を文字領域候補線とする(ステップS210)。例えば、
図7Aの例では水平線Lh1の端部と水平線Lh2の端部とを結ぶLv1及びLv2が文字領域候補線となる。
【0048】
ステップS210の後、又はステップS207において2本以上の水平線が検出できなかったと判定された場合、ステップS208において長さが等しく隣接した2本の水平線がないと判定された場合、或いはステップS209において隣接した2本の水平線の間の領域の色が略同じ色でないと判定された場合に、文字領域候補線判定部1043は、画像データ内の閉じた線(直線又は曲線によって囲まれた領域)が検出できたか否かを判定する(ステップS211)。閉じた線は、垂直線検出部1041及び水平線検出部1042で抽出されたエッジの形状等から検出される。
【0049】
ステップS211において閉じた線が検出できた場合には、閉じた線によって形成される領域内に文字が含まれている可能性があると考える。このとき、文字領域候補線判定部1043は、検出された線内の領域の色を検出する。そして、文字領域候補線判定部1043は、検出された線内の領域の色が略同じ色であるか否かを判定する(ステップS212)。ステップS212において領域内の色が略同じ色であると判定した場合に、文字領域候補線判定部1043は、検出された線を文字領域候補線とする(ステップS213)。例えば、
図7Aの例では垂直線Lv1及びLv2と水平線Lh1及び水平線Lh2とが文字領域候補線となる。ステップS213の処理により、閉曲線も文字領域候補線として検出され得る。
【0050】
ステップS213の後、又はステップS211において閉じた線が検出できなかった場合或いはステップS212において領域の色が略同じ色でない場合に、文字領域推定部104は、
図6の処理を終了させて
図4A及び
図4Bの処理に戻る。処理が
図4A及び
図4Bの処理に戻った後、制御部202は、文字領域候補判定2の処理を行う(ステップS105)。文字領域候補判定2の処理は、文字領域候補線に従って文字領域候補を判定する処理である。以下、文字領域候補判定2の処理について説明する。
【0051】
図8は、文字領域候補判定2の処理を示すフローチャートである。
図8の処理も、制御部202の画像処理装置100によって行われる。
図8において、文字領域推定部104の文字領域候補推定部1045は、文字領域候補線判定部1043によって検出された文字領域候補線の付近において、文字領域候補線に沿った方向に規則的な形状の空白部(単一階調部)があるか否かを判定する(ステップS301)。
【0052】
図9Aで示すように、看板等に記される文字は、看板等の水平方向又は垂直方向に沿って配列される可能性が高いと考えられる。また、文字には種々の形状があるので、画像の中の文字が配列されている部分には規則的な形状の空白部がない(少ない)と考えられる。したがって、文字領域候補線に沿った方向の規則的な形状の空白部があるか否かを第1の判定基準とし、この判定結果に応じて文字領域候補を判定する。
図9Aのような石碑についての判定では、文字領域候補線Lh1(Lh2)に沿った方向と文字領域候補線Lh3(Lh4)に沿った方向とで判定が行われる。そして、文字領域候補線Lh1に沿った方向の判定では規則的な形状の空白部があると判定され、文字領域候補線Lh3に沿った方向の判定では文字を含むために規則的な空白部がないと判定される。一方で、
図9Bのような窓を有する建物の例では、文字領域候補線Lh1に沿った方向の判定においても、文字領域候補線Lh3に沿った方向の判定においても規則的な形状の空白部はあると判定される。このような判定により、文字を含まない領域を文字領域候補と誤判定してしまう可能性を低減させることが可能である。
【0053】
ステップS301において文字領域候補線に沿った方向に規則的な形状の空白部がないと判定した場合に、文字領域候補推定部1045は、記録部208の文字辞書DB2082を参照して、画像データにおける文字領域候補線の付近の領域において文字を示すパターンが検出できたか否かを判定する(ステップS302)。前述したように、文字は文字領域候補線に沿って配置される可能性が高いと考えられる。したがって、文字領域候補線の付近の領域であれば文字が検出され易いと考えられる。
【0054】
ステップS302において、文字を示すパターンが検出できなかったと判定した場合に、文字領域候補推定部1045は、規則的な形状の空白部の付近の領域に線で構成されたパターンがあるか否かを判定する(ステップS303)。ステップS303では、実際に文字であると判定できないようなパターンであっても線で構成されたパターンがあれば、その領域に文字があると考える。
【0055】
ステップS302において文字を示すパターンが検出できたと判定した場合又はステップS303において規則的な形状の空白部の付近の領域に線で構成されたパターンがあると判定した場合に、文字領域候補推定部1045は、文字を示すパターンが検出できた領域又は線で構成されたパターンを検出できた領域を文字領域候補とする(ステップS304)。一方、ステップS301において文字領域候補線に沿った方向に規則的な形状の空白部があると判定した場合又はステップS303において規則的な形状の空白部の付近の領域に線で構成されたパターンがないと判定した場合に、文字領域候補推定部1045は、文字領域候補がないと判定する(ステップS305)。ステップS304又はステップS305の後、文字領域推定部104は、
図8の処理を終了させて
図4A及び
図4Bの処理に戻る。
【0056】
処理が
図4A及び
図4Bの処理に戻った後、制御部202は、画像処理装置100の出力部106から文字領域候補判定1及び文字領域候補判定2の処理結果を取得し、この処理結果から、画像データ中に文字領域候補があるか否かを判定する(ステップS106)。ステップS106において文字領域候補があると判定した場合に、制御部202は、例えば
図3Bで示したように、文字領域候補の部分を強調表示する(ステップS107)。なお、ステップS107では文字領域候補の存在を強調できればよいので、文字領域候補の部分を強調表示するのではなく、文字領域候補の存在を音声等によって通知するだけでもよい。
【0057】
ステップS106において文字領域候補がないと判定した場合又はステップS107の後、制御部202は、ユーザによる撮影指示があるか否かを判定する(ステップS108)。撮影指示は、例えばレリーズボタンの押圧操作やタッチパネル212を用いたタッチレリーズ操作である。ステップS108において撮影指示があったと判定した場合に、制御部202は、撮影動作を実行する(ステップS109)。撮影動作は、撮像部204を制御して記録用の画像データを取得する動作である。
【0058】
撮影動作の後、制御部202は、撮像部204において得られた画像データに基づいて画像ファイルを作成する(ステップS110)。
図10は、ステップS110で作成される画像ファイルの一例を示している。
図10に示すように、画像ファイルは、画像データ部とタグ情報部とに分けられている。画像データ部には、撮影動作によって得られた画像データが圧縮された状態で記録される。タグ情報部には、位置検出部216で検出された撮影場所や計時部218で検出された撮影時刻といった撮影時の各種の情報がメタデータとして記録される。
【0059】
画像ファイルの作成後、制御部202は、文字領域候補があるか否かを判定する(ステップS111)。ステップS111において文字領域候補があると判定した場合に、制御部202は、
図3Cに示すような関連付けガイド206bを表示させる(ステップS112)。その後、制御部202は、撮影モードの設定を関連付け撮影モードにする(ステップS113)。
【0060】
続いて、制御部202は、撮像装置200の電源をオフするか否かを判定する(ステップS114)。例えば、電源スイッチがオフにされた場合や所定時間の操作がない場合に電源をオフするものとする。ステップS114において電源をオフすると判定した場合に、制御部202は、
図4A及び
図4Bの処理を終了させる。一方、ステップS114において電源をオフしないと判定した場合に、制御部202は、処理をステップS101に戻す。
【0061】
ステップS103において現在の撮影モードの設定が関連付け撮影モードであると判定されている場合、
図3Cに示すような関連付けガイド206bが表示されている。ユーザは、関連付けガイド206bを見て、シーンにおける文字を含む被写体を認識し、必要に応じて文字の部分が写り易いように撮像装置200を構えて撮影指示を行う。この撮影指示を判定するため、ステップS103において現在の撮影モードの設定が関連付け撮影モードであると判定した場合に制御部202は、撮影指示がなされたか否かを判定する(ステップS116)。ステップS116において撮影指示がなされたと判定した場合に、制御部202は、撮影動作を実行する(ステップS117)。撮影動作の実行後、制御部202は、文字認識部2024により、撮影動作によって得られた画像データにおける文字を認識する(ステップS118)。その後、制御部202は、文字認識が可能であったか否かを判定する(ステップS119)。
【0062】
ステップS119において文字認識が可能でなかったと判定した場合に、制御部202は、文字の認識候補が得られたか否かを判定する(ステップS120)。汚れ等によって文字の一部が認識できなくとも、認識できた部分から全体の文字を推定できる場合がある。ステップS120の処理は、このような推定を行うことができたかを判定するための処理である。
【0063】
ステップS120において文字の認識候補が得られなかったと判定した場合に、制御部202は、文字の判別を行うことができなかったことを示す判別不可メッセージを表示部206に表示させる(ステップS121)。また、ステップS120において文字の認識候補が得られたと判定した場合にも、制御部202は、判別不可メッセージを表示部206に表示させる(ステップS122)。その後、制御部202は、文字の認識候補の一覧を表示部206に表示させる(ステップS123)。一覧表示の後、制御部202は、ユーザによって認識候補が選択されたか否かを判定する(ステップS124)。ステップS124において例えば所定時間の間、認識候補が選択されていないと判定した場合に、制御部202は、処理をステップS127に移行させる。
【0064】
ステップS119において文字認識が可能であったと判定した場合又はステップS124において認識候補が選択されたと判定した場合に、制御部202は、メタデータ作成部2025により、認識された文字情報を画像ファイルに関連付けする(ステップS126)。その後、制御部202は、処理をステップS127に移行させる。
図11は、ステップS120において関連付けされた画像ファイルの一例を示している。
図11に示すように、認識された文字情報は、画像ファイルのタグ情報部に記録される。
【0065】
ステップS116において撮影指示がないと判定した場合、ステップS124において所定時間の間に認識候補が選択されていないと判定した場合、又はステップS216の後、制御部202は、関連付けモードの設定を解除する(ステップS127)。その後、制御部202は、処理をステップS114に移行させる。
【0066】
以上説明したように本実施形態によれば、画像内の垂直線又は水平線から文字領域候補線を判定し、判定した文字領域候補線に沿って文字の存在する可能性の高い領域を文字領域候補として判定し、文字領域候補の部分の情報をユーザに提示することにより、シーン内の看板等の文字を有する被写体の存在をユーザに認知させることが可能である。また、文字領域候補が判定できたときには、撮影モードの設定が関連付け撮影モードに設定される。関連付け撮影モード中のライブビュー表示においては、関連付けガイド206bが表示されるので、文字が認識し易いような向きで看板等を撮影することをユーザに促すことができる。
【0067】
以下、本実施形態の変形例を説明する。
[変形例1]
前述の実施形態は、撮像装置200において文字の認識を行っており、撮像装置200で文字認識を行えない場合には、判別不可表示を行ってから処理を終了させている。しかしながら、文字認識は撮像装置200だけで行う必要はない。変形例1は、撮像装置200において文字認識を行うことができない場合にサーバ300において文字認識を行う例である。
【0068】
図12A及び
図12Bは、本実施形態の変形例1に係る撮像装置200の撮影時の動作を示すフローチャートである。なお、
図12A及び
図12Bにおいて
図4A及び
図4Bと同一の処理については、
図4A及び
図4Bと同一の参照符号を付すことで説明を省略する。すなわち、ステップS101〜ステップS117までの処理については説明を省略する。ステップS118における文字認識の後、制御部202は、文字認識が可能であったか否かを判定する(ステップS119)。
【0069】
ステップS119において文字認識が可能であったと判定した場合に、制御部202は、メタデータ作成部2025により、認識された文字情報を画像ファイルに関連付けする(ステップS126)。一方、ステップS119において文字認識が可能でなかったと判定した場合に、制御部202は、ステップS117の撮影動作で得られた文字を含む被写体の画像データを先に記録した画像ファイルの関連画像ファイルとして記録部208に記録させる(ステップS131)。その後、制御部202は、処理をステップS127に移行させる。
【0070】
ステップS101において撮像装置200の動作モードが撮影モードでないと判定した場合に、制御部202は、撮像装置200の動作モードが再生モードであるか否かを判定する(ステップS132)。ステップS132において撮像装置200の動作モードが再生モードであると判定した場合に、制御部202は、再生モードの処理を行う。一方、ステップS132において撮像装置200の動作モードが再生モードでないと判定した場合に、制御部202は、撮像装置200の動作モードが通信モードであるか否かを判定する(ステップS133)。ステップS133において撮像装置200の動作モードが通信モードでないと判定した場合に、制御部202は、処理をステップS114に移行させる。
【0071】
ステップS133において撮像装置200の動作モードが通信モードであると判定した場合に、制御部202は、ユーザによって通信指示がされたか否かを判定する(ステップS134)。通信指示は、例えば通信モード中にユーザが任意の画像ファイルを選択することによって行われる。ステップS134において通信指示がされていないと判定した場合に、制御部202は、処理をステップS114に移行させる。
【0072】
ステップS134において通信指示がされたと判定した場合に、制御部202の通信制御部2027は、ユーザによって選択された画像ファイルを通信部220によってサーバ300に送信する(ステップS135)。サーバ300の制御部302は、画像ファイルを受信した場合に、受信した画像ファイルを記録部304に記録させる。このとき、制御部302は、受信した画像ファイルが関連画像ファイルである場合には、文字認識部3021により文字認識を行う。サーバ300に搭載される文字辞書DB3041は撮像装置200に搭載される文字辞書DB2082よりも情報量が多いので、サーバ300による文字認識の成功率のほうが撮像装置200による文字認識の成功率も高い。
【0073】
画像ファイルの送信後、制御部202は、サーバ300による文字認識結果を受信したか否かを判定する(ステップS136)。ステップS136においてサーバ300による文字認識結果を受信していないと判定した場合に、制御部202は、処理をステップS114に移行させる。ステップS136においてサーバ300による文字認識結果を受信したと判定した場合に、制御部202は、メタデータ作成部2025により、認識された文字情報を画像ファイルに関連付けする(ステップS137)。その後、制御部202は、処理をステップS114に移行させる。
【0074】
以上説明した変形例1では、関連付け撮影モード時に撮影された画像に対する文字認識を撮像装置200において行うことができなかった場合に、その画像を関連画像として記録部208に記録させるようにしている。この関連画像をサーバ300に送信することにより、サーバ300による高精度の文字認識を用いて文字認識の成功確率を高めることが可能である。
【0075】
[変形例2]
前述した実施形態及び変形例1では、主に、撮像装置200がデジタルカメラやスマートフォンといった携帯機器である例について説明している。これに対し、例えば、撮像装置200は、車両に搭載されて使用されてもよい。例えば、
図13Aに示すように、変形例2の車両C搭載された撮像部204である。撮像部204の撮影レンズ2041が所定の焦点位置における開口角αを有する。撮像部204は、走行中に前方の撮像を行い、撮像において得られた画像における垂直線と水平線から文字領域候補線及び文字候補領域を判定する。
【0076】
変形例2の車両Cは、画像表示機能を有したフロントミラーを有している。このフロントミラーの近傍には車両Cの前方を撮像可能なように撮像装置200が配置されている。
図13Bは、車両Cのフロントミラーの部分を示した図である。
図13Bに示すように、文字領域候補を判定できた場合には、前述した実施形態と同様に、関連付けガイド表示206bが行われる。例えば、
図13Bの例では、「PARK」の領域は、2本の垂直線を結ぶ水平線に沿って文字が配列されているので、前述した本実施形態の手法によって文字領域候補と判定される。
【0077】
ここで、道路の場合、横断歩道等の白線404の付近にも文字が配されている可能性が高い。しかしながら、道路上の白線404は、画像上では
図13Bに示すような斜め方向の線となる。したがって、白線404は、本実施形態における垂直線や水平線とは判定されない。そこで、変形例2では、画像内で道路の側線402を検出することにより、画像内の側線402の角度と車両Cの進行方向とに応じた画像の角度補正を行う。そして、角度補正をした画像内で側線402に対して垂直な白線404を検出し、この白線404も文字領域候補線とする。これにより、
図13Aに示した道路上の「注意」の文字を含む領域を文字領域候補とすることができる。
【0078】
以上実施形態に基づいて本発明を説明したが、本発明は上述した実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。また、前述の各動作フローチャートの説明において、便宜上「まず」、「次に」等を用いて動作を説明しているが、この順で動作を実施することが必須であることを意味するものではない。ここでは画像処理装置としての側面を強調して説明したが、画像表示装置、検査装置や警告装置として、コンシューマ用途の他、産業用機器、医療用機器として応用できることは言うまでもない。こうした現場では、様々な文字表示が行われており、ユーザに警告や注意を促している場合が多く、こうした文字は、水平、垂直に書かれていることが多い。機械などで表示する場合も、例外ではなく、ここで説明した看板や標識同様の考え方が適用できる。これによって、人が気がつきにくい情報を画像のデータから判定し、見落としをなくすような応用の用途、再撮影、再検査、再観察を促す用途にも応用可能なことは言うまでもない。文字を読み取れれば、そこから文字判定をして、テキストベースの検索や、アドレスの読み込みなどを通じたインターネットなどの連携が出来、さらなる観察や撮影の補助を第三者から支援されることが容易になり、さらなる鑑賞、観察、検査に繋げることが出来る。
【0079】
また、上述した実施形態による各処理は、制御部202に実行させることができるプログラムとして記憶させておくこともできる。この他、メモリカード(ROMカード、RAMカード等)、磁気ディスク(ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記憶装置の記憶媒体に格納して配布することができる。そして、制御部202は、この外部記憶装置の記憶媒体に記憶されたプログラムを読み込み、この読み込んだプログラムによって動作が制御されることにより、上述した処理を実行することができる。