特許第6843213号(P6843213)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝テック株式会社の特許一覧

<>
  • 特許6843213-画像処理装置及び画像処理方法 図000002
  • 特許6843213-画像処理装置及び画像処理方法 図000003
  • 特許6843213-画像処理装置及び画像処理方法 図000004
  • 特許6843213-画像処理装置及び画像処理方法 図000005
  • 特許6843213-画像処理装置及び画像処理方法 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6843213
(24)【登録日】2021年2月25日
(45)【発行日】2021年3月17日
(54)【発明の名称】画像処理装置及び画像処理方法
(51)【国際特許分類】
   G06K 9/03 20060101AFI20210308BHJP
   H04N 5/232 20060101ALI20210308BHJP
【FI】
   G06K9/03 C
   H04N5/232 290
【請求項の数】5
【全頁数】13
(21)【出願番号】特願2019-206963(P2019-206963)
(22)【出願日】2019年11月15日
(62)【分割の表示】特願2015-234422(P2015-234422)の分割
【原出願日】2015年12月1日
(65)【公開番号】特開2020-30857(P2020-30857A)
(43)【公開日】2020年2月27日
【審査請求日】2019年11月15日
(31)【優先権主張番号】14/681,899
(32)【優先日】2015年4月8日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】000003562
【氏名又は名称】東芝テック株式会社
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100179062
【弁理士】
【氏名又は名称】井上 正
(74)【代理人】
【識別番号】100075672
【弁理士】
【氏名又は名称】峰 隆司
(74)【代理人】
【識別番号】100153051
【弁理士】
【氏名又は名称】河野 直樹
(74)【代理人】
【識別番号】100162570
【弁理士】
【氏名又は名称】金子 早苗
(72)【発明者】
【氏名】安永 真明
(72)【発明者】
【氏名】平 和樹
【審査官】 秦野 孝一郎
(56)【参考文献】
【文献】 特開2014−228953(JP,A)
【文献】 特開2014−44481(JP,A)
【文献】 特開平3−63895(JP,A)
【文献】 特開2015−45984(JP,A)
【文献】 特開平9−288795(JP,A)
【文献】 国際公開第2008/099664(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/00−9/82
H04N 5/222−5/257
(57)【特許請求の範囲】
【請求項1】
1の文字列、第2の文字列及び第3の文字列を撮影する撮影部と、
前記第1の文字列を構成する各文字と各候補文字との類似度で構成される第1の類似度群を、前記第2の文字列を構成する各文字と各候補文字との類似度で構成される第2の類似度群及び前記第3の文字列を構成する各文字と各候補文字との類似度で構成される第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の被写体に対応するのかを判定する判定部と、
を備える画像処理装置。
【請求項2】
前記撮影部は、前記第1の文字列が写る第1の画像を取得し、前記第2の文字列及び前記第3の文字列が写る第2の画像を取得する、請求項1に記載の画像処理装置。
【請求項3】
前記撮影部は、異なる方向から前記被写体を写した前記第1の画像及び前記第2の画像を取得する、請求項2に記載の画像処理装置。
【請求項4】
前記第1の文字列と、前記判定部で前記被写体に対応すると判定された文字列とを用いて前記被写体の文字列を認識する認識部をさらに備える、請求項1に記載の画像処理装置。
【請求項5】
1の文字列、第2の文字列及び第3の文字列を撮影することと、
前記第1の文字列を構成する各文字と各候補文字との類似度で構成される第1の類似度群を、前記第2の文字列を構成する各文字と各候補文字との類似度で構成される第2の類似度群及び前記第3の文字列を構成する各文字と各候補文字との類似度で構成される第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の被写体に対応するのかを判定することと、
を備える画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、画像処理装置及び画像処理方法に関する。
【背景技術】
【0002】
一般的に、OCR(optical character recognition)処理は、紙面に書かれている文字をスキャナで読み取った文字画像に対して行われる。近年、カメラの高解像度化に伴い、カメラで撮影された文字画像を補正し、補正後の文字画像に対してOCR処理を行うアプリケーションが出てきている。
【0003】
異なる位置で撮影された複数の画像における対象物の同一判定は、複数台のカメラの撮影位置及び撮影方向が既知である場合には三角測量で行われる。一方、1つのカメラを不定速で動かしながら対象物を撮影する場合は、カメラの撮影位置及び撮影方向は不定である。そのため、三角測量で無理に計算しようとしても誤差が大きくなり、正しい結果を得られない可能性が高い。そのため、同一対象物の判定としては、特徴点マッチングによる判定手法や対象物に記載された固有のID(identification) (例えば文字列、バーコード、数列など)に基づく判定手法などがある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2013−206175号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特徴点マッチングによる手法では、対象物が周りの状況に比べて特徴的ではない場合には、特徴点自体を得ることができない。さらに、対象物の特徴点を得るために多量の特徴点を取得しようとすると、誤判定や処理速度の低下に繋がる。
【0006】
一方、対象物に記載されたIDに基づく判定手法では、IDは高解像度で撮影されなければならない。しかしながら、通常のカメラでIDを遠くから撮影すると、高解像度でIDを撮影できない。高解像度でIDを撮影するためには、カメラをより高解像度にしたり、画角を狭くしたりする必要がある。そのため、コストアップや操作性の低下に繋がる。
【0007】
さらに、カメラで取得された文字画像のOCR処理では、低解像度の文字画像に対する文字の認識率が極端に下がる。さらに、低解像度の文字画像では、文字の認識率は画像の品質に左右されやすい。画像の品質は、文字画像の撮影タイミング、撮影位置や撮影環境(照明)などのわずかな撮影条件の差により大きく変わる。
【0008】
本発明の実施形態が解決しようとする課題は、複数の画像から同一の被写体に対応する文字列を探すことができる画像処理装置及び画像処理方法を提供することにある。
【課題を解決するための手段】
【0009】
実施形態によれば、画像処理装置は、抽出部と、切り出し部と、計算部と、判定部とを備えている。前記抽出部は、第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列及び第3の文字列を抽出する。前記切り出し部は、前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出し、前記第3の文字列を構成する各文字を1文字単位で切り出す。前記計算部は、
前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出し、前記第3の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第3の類似度群を算出する。前記判定部は、前記第1の類似度群を前記第2の類似度群及び前記第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の第1の被写体に対応するのかを判定する。
【図面の簡単な説明】
【0010】
図1】第1の実施形態に係る一例となる画像処理装置の概略図。
図2】第1の実施形態に係る一例となる画像処理装置のブロック図。
図3】第1の実施形態に係る一例となる画像処理装置による処理のフローチャート。
図4】第1の実施形態に係る一例となる複数の画像を示す図。
図5】第1の実施形態に係る一例となる複数の類似度マップを示す図。
【発明を実施するための形態】
【0011】
以下、いくつかの実施の形態について、図面を参照して説明する。
(第1の実施形態)
第1の実施形態について説明する。図1は、第1の実施形態に係る一例となる画像処理装置10の概略図である。
画像処理装置10は、倉庫や店舗の複数の棚に載せられた複数の物品(例えば段ボール箱)の在庫管理や所在地管理等に用いられる。画像処理装置10は、計算機11と、移動体12と、第1の撮影部13とを備える。画像処理装置10は、これら全ての要素を必ず備えている必要はない。例えば、画像処理装置10は、少なくとも計算機11を備える装置であってもよい。
【0012】
計算機11は、後述するようにOCR処理により画像から文字認識を行う装置である。計算機11は、例えばPC(Personal Computer)である。なお、文字は、数字、記号、符号またはマーク等の識別コードを含む概念である。文字列は、数字、記号、符号またはマーク等の識別コードを複数桁並べたものである。
【0013】
移動体12は、画像処理装置10を何れの方向にも自律走行可能な台車である。移動体12は、直線状に並べられた棚20の延在方向と平行な方向に走行する。移動体12は、計算機11及び第1の撮影部13を搭載する。
【0014】
第1の撮影部13は、対象を撮影するカメラである。なお、対象は、被写体ということもある。第1の撮影部13は、対象を動画像として撮影するカメラであっても、対象を静止画像として撮影するカメラであってもよい。第1の撮影部13は、異なる方向から同一の対象を撮影するように移動体12に固定されている。第1の撮影部13の撮影方向は既知である。対象は、棚20に載せられた複数の物品に貼られているラベルの文字列である。例えば、物品21のラベルには、「000872」と記載されている。物品22のラベルには、「103371」と記載されている。ラベルに記載されている文字列は、各物品を識別するために各物品に一意に割り当てられているID(identification)情報である。一般に、あるエリアで管理されている複数の物品に貼られている全てのラベルの文字列は、同一桁かつ予め決められた文字の組み合わせである。図1に示す例では、文字列は、6桁かつ各桁0〜9の組み合わせで構成されている。第1の撮影部13は、棚20に載せられた複数の物品に貼られているラベルを順次撮影する。第1の撮影部13は、取得した画像のデータを計算機11へ送る。
【0015】
図2は、第1の実施形態に係る一例となる画像処理装置10のブロック図である。図2は、主として計算機11の構成を示す。計算機11は、処理部111と、記憶部112と、入力部113と、表示部114と、第1のインターフェース115を備える。
【0016】
処理部111は、計算機11の中枢部分に相当する。処理部111は、オペレーティングシステムやアプリケーションプログラムに従って、計算機11の各要素を制御する。処理部111は、取り込み部1111と、抽出部1112と、切り出し部1113と、計算部1114と、推定部1115a及び決定部1115bを含む判定部1115と、認識部1116を備える。これらの要素による処理内容は後述する。
【0017】
記憶部112は、上述のオペレーティングシステムやアプリケーションプログラムを記憶するメモリを含む。さらに、記憶部112は、処理部111による処理に必要なワークエリアとなるメモリを含む。さらに、記憶部112は、処理部111による処理に必要なデータを記憶するメモリを含む。
入力部113は、計算機11に対するコマンドを入力可能なキーボードである。
表示部114は、処理部111からの信号に基づいて映像を表示するディスプレイである。表示部114は、映像の出力部である。
第1のインターフェース115は、計算機11と第1の撮影部13とを接続する。計算機11は、第1のインターフェース115を介して第1の撮影部13から画像のデータを取り込む。
【0018】
次に、画像処理装置10による文字認識の処理について説明する。画像処理装置10が処理する画像は、例えば第1の撮影部13が棚20に載せられた複数の物品に貼られているラベルを遠い位置から撮影した低解像度の画像である。そのため、第1の撮影部13による画像は、人が見れば文字列を認識できる(読める)が、画像処理装置10による一般的なOCR処理では十分に文字認識を行えないものとする。
【0019】
図3は、第1の実施形態に係る一例となる画像処理装置10による処理のフローチャートである。
【0020】
処理部111の取り込み部1111は、画像を取り込む(Act101)。Act101では、処理部111は、第1の撮影部13が取得した第1の画像及び第2の画像のデータを第1のインターフェース115を介して取り込む。第1の画像及び第2の画像は、第1の撮影部13が異なる方向から第1の被写体を写した画像である。記憶部112は、第1の画像のデータ及び第2の画像のデータを記憶する。第1の画像及び第2の画像には、文字認識の対象となる文字列(以下、第1の被写体という)が写る。なお、第1の画像及び第2の画像には、第1の被写体以外の文字列が写っていてもよい。
【0021】
処理部111の抽出部1112は、文字列を抽出する(Act102)。Act102では、処理部111は、第1の画像に写る全ての文字列を抽出する。同様に、処理部111は、第2の画像に写る全ての文字列を抽出する。以下では説明の簡略化のため、第1の画像に写る第1の被写体に対応する第1の文字列に対する処理、及び第2の画像に写る第2の文字列及び第3の文字列に対する処理を示す。処理部111は、第1の画像に写る第1の文字列を抽出する。同様に、処理部111は、第2の画像に写る第2の文字列及び第3の文字列を抽出する。Act102における文字列の抽出処理は、OCR処理で用いられる任意の手法でよい。
【0022】
処理部111の切り出し部1113は、文字を切り出す(Act103)。Act103では、処理部111は、第1の文字列を構成する各文字を1文字単位で切り出す。同様に、処理部111は、第2の文字列を構成する各文字を1文字単位で切り出す。同様に、処理部111は、第3の文字列を構成する各文字を1文字単位で切り出す。Act103における文字の切り出し処理は、OCR処理で用いられる任意の手法でよい。
【0023】
処理部111の計算部1114は、類似度を計算する(Act104)。Act104では、処理部111は、第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出する。つまり、処理部111は、第1の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。同様に、処理部111は、第2の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第2の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第2の類似度群を計算する。つまり、処理部111は、第2の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。同様に、処理部111は、第3の文字列を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、第3の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第3の類似度群を計算する。つまり、処理部111は、第3の文字列の各桁において、候補文字の数に対応する数の類似度を算出する。
【0024】
上述のAct104で用いられる候補文字群は、複数の候補文字で構成されている。複数の候補文字は、各物品を識別するための文字列として使用可能な予め決められた複数の文字で構成されている。例えば、複数の候補文字は0〜9の数字である。候補文字群は記憶部112に保存されている。候補文字群は、物品が管理されているエリアに応じて異なる可能性がある。そのため、記憶部112は、エリア単位で異なる候補文字群のデータを保存していてもよい。
【0025】
上述のAct104で算出される類似度は、第1の文字列を構成する各文字、第2の文字列を構成する各文字及び第3の文字列を構成する各文字が各候補文字に一致する可能性(確率)を示す指標である。Act104における類似度の算出手法は任意の手法でよい。なお、類似度のレンジは特に限定されない。例えば、類似度のレンジは、0〜1であっても、0〜100であってもよい。類似度は、上限値に近いほど候補文字に似ていることを示し、下限値に近いほど候補文字に似ていないことを示していても、これらの逆を示していてもよい。例えば、処理部111は、候補文字同士の依存関係がないように各類似度を算出するようにすることができる。つまり、第1の文字列の各桁において、第1の類似度群に含まれる各類似度は互いに依存関係がない。第1の文字列の桁単位で類似度を合計した値は100%に正規化されていない。第2の文字列及び第3の文字列における類似度についても同様である。つまり、第2の文字列の各桁において、第2の類似度群に含まれる各類似度は互いに依存関係がない。同様に、第3の文字列の各桁において、第3の類似度群に含まれる各類似度は互いに依存関係がない。この場合、処理部111は、同一桁においてある候補文字の類似度を算出する際に、他の候補文字の類似度の値に影響を受けない。そのため、処理部111は候補文字同士が独立した確度の高い類似度を算出することができる。
【0026】
これとは逆に、処理部111は、候補文字同士に依存関係を持たせるように各類似度を算出するようにしてもよい。つまり、第1の文字列の各桁において、第1の類似度群に含まれる各類似度は互いに依存関係がある。第1の文字列の桁単位で類似度を合計した値は100%に正規化されている。第2の文字列及び第3の文字列における類似度についても同様である。つまり、第2の文字列の各桁において、第2の類似度群に含まれる各類似度は互いに依存関係がある。同様に、第3の文字列の各桁において、第3の類似度群に含まれる各類似度は互いに依存関係がある。このように、第1の類似度群に含まれる各類似度、第2の類似度群に含まれる各類似度及び第3の類似度群に含まれる各類似度は尤度である。この場合、処理部111は、第1の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。同様に、処理部111は、第2の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。同様に、処理部111は、第3の文字列を構成する各桁の文字がどの候補文字と一致する可能性が高いのかを算出することができる。
【0027】
処理部111の推定部1115aは、同一の文字列を推定する(Act105)。Act105では、処理部111は、第1と画像と第2の画像の両方に同一の被写体に対応する文字列が存在する可能性が高いと推定する。
【0028】
処理部111の決定部1115bは、同一の文字列を決定する(Act106)。Act106では、処理部111は、第1の画像に写る各文字列から算出された各類似度群及び第2の画像に写る各文字列から算出された類似度群に基づいて、第1の画像から抽出したどの文字列と第2の画像から抽出したどの文字列が同一の被写体に対応するのかを明らかにすることができる。
【0029】
以下では、処理部111が第1の画像の第1の文字列と同一の被写体である文字列を第2の画像から決定する例について説明する。上記Act105及びAct106では、処理部111の判定部1115は、第1の類似度群を第2の類似度群及び前記第3の類似度群と比較することにより、第2の文字列または第3の文字列の何れが第1の文字列と同一の第1の被写体に対応するのかを判定する。処理部111による各類似度群の比較手法を下記に例示するが、これら以外の手法であってもよい。
【0030】
処理部111による各類似度群の比較手法の一例を説明する。処理部111は、第1の文字列及び第2の文字列において互いに対応する桁毎かつ候補文字群中の候補文字毎に第1の類似度群に含まれる類似度と前記第2の類似度群に含まれる類似度との差の第1の絶対値群を算出する。次に、処理部111は、第1の絶対値群中の全ての絶対値を合算した第1の合算値を算出する。同様に、処理部111は、第1の文字列及び第3の文字列において互いに対応する桁毎かつ候補文字群中の候補文字毎に第1の類似度群に含まれる類似度と第3の類似度群に含まれる類似度との差の第2の絶対値群を算出する。次に、処理部111は、第2の絶対値群中の全ての絶対値を合算した第2の合算値を算出する。第1の合算値が前記第2の合算値よりも小さい場合、処理部111は、第2の文字列が前記第1の文字列と同一の第1の被写体に対応すると判定する。つまり、処理部111は、第3の文字列よりも第2の文字列の方が第1の文字列に類似している、または一致していると判定することができる。一方、第2の合算値が第1の合算値よりも小さい場合、処理部111は、第3の文字列が第1の文字列と同一の第1の被写体に対応すると判定する。つまり、処理部111は、第2の文字列よりも第3の文字列の方が第1の文字列に類似している、または一致していると判定することができる。以上により、処理部111は、第1の画像のどの文字列と第2の画像のどの文字列が同一の被写体に対応しているのかを明らかにすることができる。
【0031】
処理部111による各類似度群の比較手法の別の例を説明する。処理部111は、第1の類似度群のヒストグラムと第2の類似度群のヒストグラムの類似度を算出する。同様に、処理部111は、第1の類似度群のヒストグラムと第3の類似度群のヒストグラムとの類似度を算出する。処理部111は、第1の類似度群のヒストグラムが第3の類似度群のヒストグラムよりも第2の類似度群のヒストグラムに類似している場合、第2の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定する。つまり、処理部111は、第3の文字列よりも第2の文字列の方が第1の文字列に類似している、または一致している可能性が高いと判定することができる。一方、処理部111は、第1の類似度群のヒストグラムが第2の類似度群のヒストグラムよりも第3の類似度群のヒストグラムに類似している場合、第3の文字列が第1の文字列と同一の第1の被写体に対応すると判定する。つまり、処理部111は、第2の文字列よりも第3の文字列の方が第1の文字列に類似している、または一致している可能性が高いと判定することができる。処理部111は、例えば、Bhattacharyya係数を用いて、ヒストグラム間の類似度を求めることができる。なお、処理部111は、他の手法によりヒストグラム間の類似度を求めてもよい。
【0032】
なお、Act105及びAct106における処理は、Act104の後でなくても、Act102とAct103の間またはAct103とAct104の間であってもよい。
【0033】
処理部111の認識部1116は、文字認識を実行する(Act107)。Act107では、処理部111は、第1の被写体に対応する第1の文字列と、Act105及びAct106において第1の被写体に対応すると判定された第2の画像の中の文字列とを用いて第1の被写体の文字列を認識する。処理部111は、同一被写体に対応すると判定された第1の画像に写る文字列及び第2の画像に写る文字列をOCR処理し、第1の被写体の文字列を認識する。
【0034】
第1の画像に写る文字列の認識結果と第2の画像に写る文字列の認識結果が異なる場合、処理部111は、第1の類似度群の各類似度及び第2の類似度群の各類似度を参照して最終的な第1の被写体の文字列を決定してもよい。
【0035】
第1の実施形態によれば、画像処理装置10は、上述の類似度を用いることにより、低解像度の複数の画像から同一の被写体に対応する文字列及びこれが付された商品を探すことができる。
【0036】
なお、各類似度が上述したように候補文字同士の依存関係を持たせるように算出されている場合、画像処理装置10による文字列の認識精度はさらに高まる。これは、文字列の各桁において、最も一致する可能性が高い候補文字が抽出されているからである。
【0037】
次に、上述した画像処理装置10による文字認識の処理の具体例を図4図5を用いて説明する。
【0038】
図4は、第1の実施形態に係る一例となる画像を示す図である。図4の左図及び右図は、第1の撮影部13による第1の画像及び第2の画像である。第1の画像及び第2の画像は、異な位置から撮影されている。第1の画像及び第2の画像は、文字認識の対象となる物品21に貼られているラベルの文字列「000872」(以下、被写体Aという)及び文字認識の対象となる物品22に貼られているラベルの文字列「103371」(以下、被写体Bという)が写る。上記Act101で説明したように、処理部111は、第1の撮影部13が取得した第1の画像のデータ及び第2の画像のデータを第1のインターフェース115を介して取り込む。
【0039】
Act102で説明したように、処理部111は、図4で示した第1の画像に写る被写体Aに対応する文字列a1及び被写体Bに対応する文字列b1を抽出する。処理部111は、第2の画像に写る被写体Aに対応する文字列a2及び被写体Bに対応する文字列b2を抽出する。Act103で説明したように、処理部111は、文字列a1及び文字列b1を構成する各文字を1文字単位で切り出す。同様に、処理部111は、文字列a2及び文字列b2を構成する各文字を1文字単位で切り出す。
【0040】
図5は、第1の実施形態に係る一例となる複数の類似度マップを示す図である。類似度マップは、上述の第1の類似度群及び第2の類似度群に相当する。図5の左上図は、文字列a1に関する類似度マップである。図5の左下図は、文字列b1に関する類似度マップである。図5の右上図は、文字列a2に関する類似度マップである。図5の右下図は、文字列b2に関する類似度マップである。Act104で説明したように、処理部111は、文字列a1を構成する各文字と候補文字群中の各候補文字との類似度を算出する。これにより、処理部111は、文字列a1を構成する各文字と候補文字群中の各候補文字との類似度で構成される類似度マップを算出する。同様に、処理部111は、文字列b1に関する類似度マップ、文字列a2に関する類似度マップ及び文字列b2に関する類似度マップを算出する。類似度マップの横軸は、文字列の桁を示す。なお、文字列a1、文字列b1、文字列a2及び文字列b2の何れも6桁である。縦軸は、候補文字を示す。候補文字は、0〜9の10個である。そのため、各類似度マップは、60個の類似度で構成されている。
【0041】
図5に示す各類似度マップは、上述したように各桁において候補文字同士の依存関係がないように各類似度が算出された例である。図5の類似度は、1.0に近いほど候補文字に似ていることを示し、0.0に近いほど候補文字に似ていないことを示す。
【0042】
図5の各類似度マップの下には、認識結果が示されている。認識結果は、桁毎の類似度の最大値に対応する候補文字を並べた集合である。Act105及びAct106で説明したように、処理部111は、文字列a1に関する類似度マップを文字列a2に関する類似度マップ及び文字列b2に関する類似度マップと比較することにより、文字列a2または文字列b2の何れが文字列a1と同一の被写体Aに対応するのかを判定することができる。ここでは、一例として上述の類似度同士の差の絶対値を用いた手法を説明する。処理部111は、文字列a1に関する類似度マップに含まれる類似度と文字列a2に関する類似度マップに含まれる類似度との差の絶対値を対応する項目毎に算出し、全ての絶対値を合算した第1の合算値を算出する。第1の合算値は、|0.9-0.8|+|0.8-0.9|+|0.5-0.4|+|0.0-0.0|+ …+|0.0-0.0|=1.8となる。同様に、処理部111は、文字列a1に関する類似度マップに含まれる類似度と文字列b2に関する類似度マップに含まれる類似度との差の絶対値を対応する項目毎に算出し、全ての絶対値を合算した第2の合算値を算出する。第2の合算値は、|0.9-0.0|+|0.8-0.7|+|0.5-0.0|+|0.0-0.0|+ …+|0.0-0.0|=7.6となる。第1の合算値は、前記第2の合算値よりも小さい。そのため、処理部111は、文字列a2が文字列a1と同一の被写体Aに対応すると判定する。つまり、処理部111は、文字列b2よりも文字列a2の方が文字列a1に類似している、または一致していると判定する。
【0043】
同様に、処理部111は、文字列b1に関する類似度マップを文字列a2に関する類似度マップ及び文字列b2に関する類似度マップと比較することにより、文字列b2が文字列b1と同一の被写体Bに対応するのかを判定することができる。
【0044】
なお、Act101において、画像処理装置10は、3以上の画像を取り込んでもよい。この場合、画像処理装置10は、3以上の画像から同一の被写体に対応する文字列を判定する。画像処理装置10は、同一の被写体に対応すると判定された複数の文字列をOCR処理し文字列を認識し、最も出現頻度の高い認識結果に基づいてこの被写体の文字列を決定することができる。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
【0045】
なお、Act107において、処理部111は、同一被写体に対応すると判定された全ての画像を超解像処理で画質を上げ、その画像をOCR処理し、この被写体の文字列を決定するようにしてもよい。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
【0046】
なお、Act107において、処理部111は、第1の画像と前記第2の画像との間の移動量に基づいて第2の画像において第1の被写体が写る位置を予測し、第2の文字列がこの位置から所定距離以上離れている場合、第2の文字列が第1の被写体に対応しないと判断してもよい。同様に、第3の文字列がこの位置から所定距離以上離れている場合、処理部111は、第3の文字列が第1の被写体に対応しないと判断してもよい。第1の画像と第2の画像との間の移動量は、例えば、移動体12またはこれに搭載されている第1の撮影部13の移動量に基づいていてもよいし、第1の画像及び第2の画像に写る任意の目印の移動量に基づいていてもよい。また、第2の文字列の形状が第1の文字列の形状と大きく異なっている場合または第2の文字列が付された商品の形状が第1の文字列が付された商品の形状と大きく異なっている場合も、処理部111は、第2の文字列は第1の被写体に対応しないと判断してもよい。同様に、第3の文字列の形状が第1の文字列の形状と大きく異なっている場合または第3の文字列が付された商品の形状が第1の文字列が付された商品の形状と大きく異なっている場合も、処理部111は、第3の文字列は第1の被写体に対応しないと判断してもよい。これにより、画像処理装置10は、より高い精度で被写体の文字列を認識することができる。
【0047】
動作を実行する主体は例えば、ハードウェア、ハードウェアとソフトウェアとの複合体、ソフトウェア、及び実行中のソフトウェアなどといった、コンピュータに係る主体である。動作を実行する主体は例えば、プロセッサ上で実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、スレッド、プログラムおよびコンピュータであるがこれらに限るものではない。例えば、画像処理装置やそこで実行されるアプリケーションが動作を実行する主体であってもよい。プロセスやスレッドに、動作を実行する主体を複数演じさせてもよい。動作を実行する主体が1つの画像処理装置内にあってもよいし、複数の画像処理装置へ分配されたかたちであってもよい。
【0048】
装置内部に以上説明した機能が予め記録されていてもよいし、同様の機能をネットワークから装置にダウンロードしてもよいし、同様の機能を記録媒体に記憶させたものを装置にインストールしてもよい。記録媒体としては、ディスクROMやメモリカード等プログラムを記憶でき、かつ装置が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。またこのように予めインストールやダウンロードにより得る機能は装置内部のOS(オペレーティング・システム)等と協働してその機能を実現させるものであってもよい。
【0049】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
第1の画像に写る第1の文字列を抽出し、第2の画像に写る第2の文字列及び第3の文字列を抽出する抽出部と、
前記第1の文字列を構成する各文字を1文字単位で切り出し、前記第2の文字列を構成する各文字を1文字単位で切り出し、前記第3の文字列を構成する各文字を1文字単位で切り出す切り出し部と、
前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出し、前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出し、前記第3の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第3の類似度群を算出する計算部と、
前記第1の類似度群を前記第2の類似度群及び前記第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の第1の被写体に対応するのかを判定する判定部と、
を備える画像処理装置。
[C2]
前記判定部は、前記第1の文字列及び前記第2の文字列において互いに対応する桁毎かつ前記候補文字群中の候補文字毎に前記第1の類似度群に含まれる類似度と前記第2の類似度群に含まれる類似度との差の第1の絶対値群を算出し、前記第1の絶対値群中の全ての絶対値を合算した第1の合算値を算出し、前記第1の文字列及び前記第3の文字列において互いに対応する桁毎かつ前記候補文字群中の候補文字毎に前記第1の類似度群に含まれる類似度と前記第3の類似度群に含まれる類似度との差の第2の絶対値群を算出し、前記第2の絶対値群中の全ての絶対値を合算した第2の合算値を算出し、前記第1の合算値が前記第2の合算値よりも小さい場合、前記第2の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定し、前記第2の合算値が前記第1の合算値よりも小さい場合、前記第3の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定する、[C1]記載の画像処理装置。
[C3]
前記判定部は、前記第1の類似度群のヒストグラムと前記第2の類似度群とのヒストグラムの類似度を算出し、前記第1の類似度群のヒストグラムと前記第3の類似度群のヒストグラムとの類似度を算出し、前記第1の類似度群のヒストグラムが前記第3の類似度群のヒストグラムよりも前記第2の類似度群のヒストグラムに類似している場合、前記第2の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定し、前記第1の類似度群のヒストグラムが前記第2の類似度群のヒストグラムよりも前記第3の類似度群のヒストグラムに類似している場合、前記第3の文字列が前記第1の文字列と同一の前記第1の被写体に対応すると判定する、[C1]記載の画像処理装置。
[C4]
前記判定部は、前記第1の画像と前記第2の画像との間の移動量に基づいて前記第2の画像において前記第1の被写体が写る位置を予測し、前記第2の文字列が前記位置から所定距離以上離れている場合、前記第2の文字列が前記第1の被写体に対応しないと判断し、前記第3の文字列が前記位置から所定距離以上離れている場合、前記第3の文字列が前記第1の被写体に対応しないと判断する、[C1]記載の画像処理装置。
[C5]
第1の画像に写る第1の文字列を抽出することと、
第2の画像に写る第2の文字列及び第3の文字列を抽出することと、
前記第1の文字列を構成する各文字を1文字単位で切り出すことと、
前記第2の文字列を構成する各文字を1文字単位で切り出すことと、
前記第3の文字列を構成する各文字を1文字単位で切り出すことと、
前記第1の文字列を構成する各文字と候補文字群中の各候補文字との類似度で構成される第1の類似度群を算出することと、
前記第2の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第2の類似度群を算出することと、
前記第3の文字列を構成する各文字と前記候補文字群中の各候補文字との類似度で構成される第3の類似度群を算出することと、
前記第1の類似度群を前記第2の類似度群及び前記第3の類似度群と比較することにより、前記第2の文字列または前記第3の文字列の何れが前記第1の文字列と同一の第1の被写体に対応するのかを判定すること、
を備える画像処理方法。
【符号の説明】
【0050】
10…画像処理装置、11…計算機、12…移動体、13…第1の撮影部、20…棚、21…物品、22…物品、111…処理部、112…記憶部、113…入力部、114…表示部、115…第1のインターフェース、1111…取り込み部、1112…抽出部、1113…切り出し部、1114…計算部、1115…判定部、1115a…推定部、1115b…決定部、1116…認識部。
図1
図2
図3
図4
図5