【文献】
Svetlana LAZEBNIK et al.,Beyond Bags of Features : Spatial Pyramid Matching for Recognizing Natural Scene Categories,Proc. of IEEE Computer Vision and Pattern Recognition,2006年
(58)【調査した分野】(Int.Cl.,DB名)
前記検査手段は、学習画像を用いて学習した分類器であり、前記認識対象物体の存在についての検査として、前記学習の結果を用いて、前記入力画像中に前記認識対象物体が存在するか否かを判断する
ことを特徴とする請求項1記載の画像認識装置。
【発明を実施するための形態】
【0010】
<本発明に係る一形態を得るに至った経緯>
発明者らは、前述した、SPMによる一般物体認識について詳細に検討した。
【0011】
SPMでは、入力画像を分割する際に等分割している。このため、入力画像について生成するヒストグラムが、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を受けて変化し、一般物体認識の能力を低下させる場合があるという課題を見出した。以下、この点について説明する。
【0012】
認識対象物体の位置について、例えば、入力画像を、4等分(縦、横それぞれ2等分)し、左上の領域に認識対象物体が写っていた場合を想定する。
【0013】
この入力画像について得られるヒストグラムは、右下の領域に認識対象物体が写っている画像について得られるヒストグラムとは異なるものとなる。よって、分類器が、例えば、学習用画像として右下の領域に認識対象物体が写っている画像について多く学習していた場合には、分類器におけるこの入力画像についての認識対象物体の認識精度は、右下の領域に認識対象物体が写っている場合よりも低くなってしまう。
【0014】
また、認識対象物体の大きさ、背景クラッタについては、例えば、入力画像の一領域中に認識対象物体が小さく写っていた場合を想定する。
【0015】
この場合、認識対象物体が大きく写っている場合よりも、この領域についてのヒストグラムにおける背景部分の特徴量の影響が大きくなり、逆に認識対象物体の特徴量の影響が小さくなってしまう。よって、分類器が、認識対象物体について予め行った学習結果とマッチングしにくくなり、この入力画像についての認識対象物体の認識精度は、認識対象物体が大きく写っている場合よりも低くなってしまう。
【0016】
そして、この点に関して、本発明者は検討を重ねた結果、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容に係る情報に基づいて分割することで、分割された画像から生成するヒストグラムに入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減できることを見出し、本発明に至った。
<1.概要>
図1は、本発明の一実施形態に係る画像認識装置による、階層化マッチングに基づく一般物体認識処理の流れを示すフローチャートである。
【0017】
階層化マッチングに基づく一般物体認識処理は、入力画像中の各特徴点について特徴量を抽出する処理(S101)、入力画像を階層的に分割する処理(S102)、分割により生じた各空間サブ領域について、それぞれの特徴を表現するヒストグラムを生成する処理(S103)、生成した各空間サブ領域のヒストグラムから、入力画像のヒストグラムを生成する処理(S104)、入力画像のヒストグラムを用いて、分類器により、入力画像中に認識対象物体が存在するか否かを判定する分類処理(S105)から成る。
【0018】
これらの処理のうち、本願発明の特徴部分に係る処理は、「入力画像を階層的に分割する処理(S102)」である。
【0019】
入力画像を「階層的に分割する」とは、入力画像(階層0)を複数の領域に分割し(階層1)、分割により生じた各領域(以下、「空間サブ領域」という。)を、更に、複数の領域に分割する(階層2)というように、入力画像を再帰的に細かく分割することである。
【0020】
ここで、一般的な階層化マッチング(空間階層化マッチング:SPM)では、入力画像を階層的に空間サブ領域に分割する場合に、等分割している。具体的には、
図8に一例として示すように、入力画像である画像801をまずN等分(本実施形態では、4等分(縦方向に2等分、横方向に2等分))し(空間サブ領域811〜814)、更に、分割により生じた各空間サブ領域を、それぞれN分割(空間サブ領域821〜824、831〜834、841〜844、851〜854)する。
【0021】
そして、これらの等分割された空間サブ領域それぞれから、各空間サブ領域の特徴を表すヒストグラム(801H、811H〜814H、821H〜824H、831H〜834H、841H〜844H、851H〜854H)を生成している。入力画像についての最終的なヒストグラムは、例えば、801H、811H〜814H、821H〜824H、831H〜834H、841H〜844H、及び851H〜854Hを横方向に連結したものとなる。
【0022】
しかしながら、このように入力画像を規則的に等分割した場合、この入力画像について生成するヒストグラムが、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を受け、このヒストグラムを用いた場合に、分類器による一般物体認識の能力が低下する場合がある。
【0023】
このため、本実施形態では、S102において、入力画像を階層的に分割する場合に、等分割のように規則的に分割するのではなく、入力画像から各階層について意味マップを生成し、その意味マップを用いて入力画像を分割する。
【0024】
意味マップは、入力画像の内容から抽出した意味を表現するマップであり、入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けしたものである。
【0025】
本実施形態では、意味マップの一例として、位置マップを用いる。位置マップは、入力画像における各画素について、認識対象物体の一部である確率をマッピングすることにより生成したスコアマップを、複数のレベル(本実施形態では4レベル)にレベル分けしたマップである。
【0026】
そして、意味マップを用いて分割された各空間サブ領域についてヒストグラムを生成する。この場合、各ヒストグラムには、その空間サブ領域を構成する各画素について認識対象物体の一部である確率が反映される。
【0027】
例えば、位置マップの第1レベルの(認識対象物体の一部である確率が最も高い)領域に対応する、空間サブ領域のヒストグラムは、認識対象物体の特徴が色濃く反映されたヒストグラムとなり、背景クラッタの特徴は反映されにくくなる。
【0028】
この第1レベルに対応する空間サブ領域のヒストグラムは、入力画像のヒストグラムの一部として連結される。すなわち、入力画像のヒストグラムは、認識対象物体の特徴が色濃く反映された部分を含んだものとなる。よって、分類器がこのヒストグラムを用いた場合、認識対象物体を認識できる確率が高まる。
【0029】
また、入力画像における第1レベルの領域が、入力画像のいずれの位置に存在し、いずれの大きさであっても、入力画像について生成されるヒストグラムに変わりはない。すなわち、認識対象物体の一部である確率の高い領域について、位置、大きさの影響が排除されることになる。
【0030】
以上のように、本実施形態では、意味マップを用いて入力画像を分割することにより、生成するヒストグラムに対する、入力画像における物体の位置、大きさなどの悪影響を小さくし、一般物体認識の精度を向上させている。
【0031】
以下、本実施形態について、より詳細に説明する。
<2.構成>
以下、本発明の一実施形態に係る、一般物体認識を行う画像認識装置200の構成について説明する。
【0032】
図2は、画像認識装置200の構成を示すブロック図である。
【0033】
画像認識装置200は、
図2に示すように、入力部201、特徴量抽出部202、領域情報生成部203、ヒストグラム生成部204、分類器205、及び記憶部206を含んで構成される。
【0034】
また、画像認識装置200は、プロセッサ及びメモリを含んで構成されており、特徴量抽出部202、領域情報生成部203、ヒストグラム生成部204、及び分類器205の機能は、メモリに記憶されているプログラムをプロセッサが実行することにより実現される。
(1)入力部201
入力部201は、通信用LSI又はメモリアクセス用ICなどで構成されており、入力画像を、通信により又はメモリデバイスから読み出すことによって取得する機能を有する。
(2)特徴量抽出部202
特徴量抽出部202は、入力画像における特徴点を選出し、各特徴点についての特徴量を抽出する機能を有する。この機能に係る処理は、
図1のS101に相当する。
【0035】
特徴量を抽出する機能は、具体的には、以下のように実現される。
【0036】
特徴量抽出部202は、まず、入力画像における特徴点を選出する。特徴点は、一例として、入力画像上の一定間隔で位置する格子点、及び/又は、特徴的な離散点である。特徴的な離散点とは、輝度、形状が急激に変化するような特徴的な点であり、例えば、猫の目の一部や、耳の先端を示す点などが該当する。以下、上述の格子点、離散点を総称して「特徴点」という場合もある。
【0037】
次に、特徴量抽出部202は、特徴点とその周辺で特徴量としての記述子を抽出する。
【0038】
記述子の抽出は、一例として、周知であるSIFT(Scale Invariant Feature Transform)アルゴリズムを用いる。SIFTは、特徴点の代表輝度勾配方向を決定し、その方向を基準として、他方向の輝度勾配ヒストグラムを作成し、多次元ベクトルで特徴量を記述するものである。
(3)領域情報生成部203
領域情報生成部203は、意味マップ生成機能、及び入力画像を意味マップを用いて階層的に空間サブ領域に分割する入力画像分割機能を有する。
【0039】
<意味マップ生成機能>
意味マップ生成機能として、領域情報生成部203は、意味マップを生成する。本実施形態では、領域情報生成部203は、意味マップの一例として位置マップを生成する。
【0040】
位置マップは、教師あり学習を用いて、入力画像の各画素位置における、検出対象である物体の存在確率を表すものである。より具体的には、位置マップは、入力画像における各画素について、認識対象物体の一部である確率をマッピングすることにより生成したスコアマップを、複数(本実施形態では4つ)のレベルに分けたものである。
【0041】
この意味マップ生成機能に係る処理は、
図1のS102、
図3のS301〜S303に相当する。
【0042】
なお、領域情報生成部203は、位置マップの生成に複数の検出器を用いる。各検出器は、例えば、「正面顔」、「右横顔」、「腹部」、「脚部」など、それぞれが検出対象とする物体又はその一部を表す画像(以下、便宜上「要素画像」という。)について予め学習している。
【0043】
このように、複数の検出器を用いるのは、例えば、入力画像から「顔」を検出することを想定した場合、「顔」には「正面顔」、「右横顔」、「左横顔」、「斜め右顔」、「斜め左顔」・・・など色々あり、また、顔の大きさも「大」「中」「小」・・・など色々あり、1つの検出器でこれら全てを検出することはできないためである。
【0044】
なお、位置マップの詳細は、「G. Wang、D. Forsyth著、 Joint learning of visual attributes, object classes and visual saliency. In Proceedings of IEEE International Conference on Computer Vision, pages 537−544, 2009.」などに記載されている。
【0045】
<入力画像分割機能>
入力画像分割機能は、入力画像を意味マップを用いて階層的に分割することにより、空間サブ領域を得る機能である。意味マップは、階層それぞれについて生成する。
【0046】
この意味マップ生成機能に係る処理は、
図1のS102、
図3のS304に相当する。
(4)ヒストグラム生成部204
ヒストグラム生成部204は、領域情報生成部203による分割処理の結果である空間サブ領域それぞれについてヒストグラムを生成し、生成したヒストグラムを連結することにより、入力画像のヒストグラムを生成する機能を有する。この機能に係る処理は、
図1のS103、S104に相当する。
【0047】
各空間サブ領域についてのヒストグラムの生成は、その空間サブ領域に含まれる各特徴点について、特徴量抽出部202により抽出された特徴量(記述子)に最も近似する画像語彙に対して投票を行うことで実現する。ここで、画像語彙は、SIFT特徴量をベクトル量子化したものである。画像語彙の集合である画像語彙辞書(211)は、学習画像群について機械学習を行うことにより生成され、予め記憶部206に記憶されている。
【0048】
SIFT特徴量、ヒストグラムの生成については周知であり、これ以上の説明は省略する。
(5)分類器205
分類器205は、一例として、サポートベクターマシン(SVM)で構成されており、入力画像のヒストグラムを用いて、入力画像を複数クラスの少なくとも1つに割り当てる機能(分類機能)を有し、入力画像中に認識対象物体が存在するか否かを判断する。
【0049】
認識対象物体が存在するか否かを判断する機能は、具体的には、分類器205が、ヒストグラム生成部204により生成された入力画像のヒストグラムと、記憶部206に記憶されている分類モデル辞書212とを比較することによって実現する。この機能は、
図1のS105に相当する。
【0050】
ここで、分類モデル辞書212は、認識対象となっている物体それぞれを含む画像についてのヒストグラムを記憶するものである。分類モデル辞書212は、学習画像群についての機械学習により予め生成され、記憶部206に記憶されている。
【0051】
SVMについては、周知であるので、これ以上の詳細な説明は省略する。
(6)記憶部206
記憶部206は、不揮発性メモリで構成されており、上述した画像語彙辞書211、分類モデル辞書212など各種の情報を記憶する。
<3.動作>
<3−1.意味マップを用いた入力画像分割処理>
図3は、意味マップとして位置マップを用いた入力画像分割処理について説明するための図である。
【0052】
図3(a)は、位置マップを用いた入力画像分割処理を示すフローチャートであり、
図1のS102に相当する。また、
図3(b)は、入力画像分割処理で用いられる画像等の一例を模式的に示す図である。
【0053】
まず、領域情報生成部203における各検出器は、所定サイズ(例えば、8ピクセル×8ピクセル)の判定窓を入力画像上で走査させ、前述した要素画像の検出処理を行う(S301)。
【0054】
より詳細には、入力画像(一例として
図3(b)の入力画像311)において、判定窓を走査して要素画像を検出する。要素画像を検出した場合に、その検出結果に対する信頼性(確度)も記憶しておく。そして、これらの信頼性(検出しなかった場合は、信頼性0とする。)を入力画像の当該範囲にマッピングしていくことにより、信頼性マップを生成する。
【0055】
次に、領域情報生成部203は、ポスト処理として、入力画像を構成する各画素について、要素画像を検出した検出器の個数と、信頼性マップを用いて、入力画像の各画素位置における「認識対象物体」の存在確率を表すスコアマップを生成する(S302)。
【0056】
一例として、入力画像の各画素について、検出数が2以上であり、信頼性の合計が0.5以上であった場合に、その画素については、「認識対象物体」の存在確率をその信頼性の合計値とする。
【0057】
このようにして得られたスコアマップは、グレーレベル画像(一例として、
図3(b)のグレーレベル画像312)のようになる。存在確率が高い位置は、明度が高く、存在確率が低い位置は、明度が低くなっている。
【0058】
次に、領域情報生成部203は、スコアマップを表現するグレーレベル画像の階調を、所定の閾値(一例として、3個の閾値)などを用いて、所定画像分割数と同数の階調数(例えば、4つ)にレベル分けすることにより、位置マップ(一例として、
図3(b)の位置マップ313)を取得する(S303)。
【0059】
位置マップ313は、レベル1の領域331、レベル2の領域332、レベル3の領域333、レベル4の領域334に分かれる4階調のグレーレベル画像となっている。
【0060】
最後に、領域情報生成部203は、入力画像311を、位置マップ313を用いて分割する(S304)。入力画像311を複数の領域に分割する場合の領域間の境界線は、分割後の画像を表す
図3の画像314のように、位置マップ313の各レベルを区切る境界線を入力画像311に写像したものと一致させる。以下、画像314のように、領域に分けられた画像を「分割画像」という。
【0061】
入力画像311は、位置マップ313のレベル1に相当する領域、レベル2に相当する領域、レベル3に相当する領域、及びレベル4に相当する領域の4つの領域に分割されることになる。位置マップ313における領域331の位置、形状と、分割画像314における領域341の位置、形状とは同じになる。また、位置マップ313における領域332、333、及び334の位置、形状と、分割画像314における領域(空間サブ領域)342、343、及び344の位置、形状とは同じになる。
【0062】
上述の入力画像分割処理は、階層1についてのみ説明したものであるが、階層2以下の階層についても同様の処理を行うものとする。なお、階層数については、「牛」、「猫」というようなレベルの物体概念について認識処理を行う場合、一般的に2〜3階層程度が望ましいといわれており、これに従い、本実施形態では階層数として3を用いている。
【0063】
なお、グレーレベル画像312、位置マップ313、分割画像314は、説明のための模式的な図であって、入力画像311から実際に生成した正確な画像、マップ等ではない。
<3−2.階層化マッチングに基づく一般物体認識処理>
画像認識装置200による、階層化マッチングに基づく一般物体認識処理について、
図1、
図4及び
図5を用いて、詳細に説明する。
【0064】
まず、入力部201が、入力画像(一例として、
図4(a)の入力画像311)を取得し、特徴量抽出部202に出力する。
【0065】
特徴量抽出部202は、入力画像中の各特徴点について特徴量を抽出する(S101)。
【0066】
次に、領域情報生成部203が、入力画像を階層的に空間サブ領域へと分割する処理を行う(S102)。この処理は、
図3を用いて既に説明した入力画像分割処理に相当する。
【0067】
ここで、S102において生成された階層1の分割画像が、一例として
図4(b)の分割画像314であるとする。なお、
図4(b)の分割画像314と、
図3(b)分割画像314とは同じである。
【0068】
次に、ヒストグラム生成部204が、各空間サブ領域のヒストグラムを生成する処理を行う(S103)。
【0069】
図4(c)は、階層1に係る各空間サブ領域のヒストグラムの一例を模式的に示した図である。
【0070】
各ヒストグラムの横軸は、画像語彙を並べたものであり、縦軸は、入力画像における各画像語彙の出現頻度である。
【0071】
ヒストグラム341Hは、空間サブ領域341に対応するヒストグラムである。同様に、ヒストグラム342H〜344Hが、空間サブ領域342〜344にそれぞれ対応するヒストグラムである。
【0072】
そして、ヒストグラム生成部204は、生成したヒストグラムを連結することにより、入力画像のヒストグラム(一例として、
図4(d)のヒストグラム410H)を生成する(S104)。
【0073】
なお、階層0である入力画像311、及び、入力画像を16分割した階層2の分割画像についても同様に、ヒストグラムを生成する。そして、階層0、階層1、階層2の各ヒストグラムを連結したものが、入力画像311の最終的なヒストグラムになる。
【0074】
最後に、分類器205が、入力画像のヒストグラムを用い、入力画像中に認識対象物体が存在するか否かを判断する(S105)。
【0075】
分類器205は、入力画像中に認識対象物体が存在するか否かを判断する。
【0076】
なお、
図5では、入力画像のヒストグラムとして、階層1のヒストグラム410Hのみ抽出して示しているが、実際には、前述のように、階層0、階層1、階層2の各ヒストグラムを連結したものを、入力画像のヒストグラムとして用いる。分類モデル辞書212として記憶されている、認識対象物体を現すヒストグラムについても、階層1のヒストグラム501H、502Hのみ抽出して示しているが、実際には、階層0、階層1、階層2の各ヒストグラムを連結したものを、認識対象物体を現すヒストグラムとして用いる。
<4.変形例>
以上、本発明に係る画像認識装置の実施形態を説明したが、例示した画像認識装置を以下のように変形することも可能であり、本発明が上述の実施形態で示した通りの画像認識装置に限られないことは勿論である。
(1)上述の実施形態では、意味マップとして、位置マップを用いていたが、入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けしたものであれば足りる。
【0077】
例えば、意味マップとして、顕著性マップを用いてもよい。
【0078】
顕著性マップは、入力画像における、各画素について、視覚注意を引く強さ(確率)をマッピングすることにより生成したスコアマップを、複数のレベルにレベル分けしたマップである。画像の各画素位置における顕著性は、その位置における刺激が、当該位置を取り巻く局所的、又は大域的な刺激と比較してどれほど顕著であるかによって決定される。顕著性マップには、例えば、画像のある領域が前景に相当する確率、及び背景に相当する確率などが画素レベルで反映される。
【0079】
図6(a)は、意味マップとして顕著性マップを用いた場合の、入力画像分割処理を示すフローチャートであり、
図1のS102に相当する処理である。
【0080】
また、
図6(b)は、入力画像分割処理で用いられる画像等の一例を模式的に示す図である。
【0081】
まず、領域情報生成部203は、検出対象とする1以上の属性(例えば、輝度、色、テクスチャや形など)それぞれについて、周囲と異なる特徴を有する画像領域を検出する(S601)。以下、各属性について得られた検出結果を「顕著性レスポンス」という。
【0082】
次に、領域情報生成部203は、S601において得られた、複数の顕著性レスポンスを統合するためのポスト処理を行うことにより、スコアマップを得る(S602)。ポスト処理では、例えば、輝度、色、テクスチャや形についての各顕著性レスポンスを所定割合で加算するなどして、複数の顕著性レスポンスを統合することにより、スコアマップを得る。
【0083】
スコアマップは、画像の各位置における、当該画素の顕著性を表している。このようにして得られたスコアマップは、グレーレベル画像(一例として、
図6(b)のグレーレベル画像612)として表現される。例えば、顕著性が高い位置は、明度が高く、顕著性が低い位置は、明度が低くなる。
【0084】
S603は、上述の
図3のS303と同様の処理であり、S604は、S304と同様の処理であるので、説明は省略する。
【0085】
なお、
図6の顕著性マップ613が、意味マップとしての顕著性マップの一例を示している。
【0086】
また、
図6の分割画像614が、入力画像611を、顕著性マップ613を用いて分割した、階層1の分割画像の一例を示している。
【0087】
なお、グレーレベル画像612、位置マップ613、分割画像614は、説明のための模式的な図であって、入力画像611から実際に生成した正確な画像、マップ等ではない。
【0088】
なお、顕著性マップについては、「Laurent Itti、Christof Koch、Ernst Niebur著、A model of saliency−based visual attention for rapid scene analysis 、IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20, NO.11, NOVEMBER 1998」などに記載されている。
【0089】
次に、顕著性マップ613等を用いて分割した分割画像における各空間サブ領域のヒストグラムを生成する処理を行う。この処理は、
図1のS103に相当する処理である。
【0090】
図7は、入力画像のヒストグラムの生成について説明するための図である。
【0091】
ここで、入力画像が、一例として
図7(a)の画像611であり、S102において生成された階層1の分割画像が、一例として
図7(b)の分割画像614であるとする。なお、
図7(a)の画像611は、
図6(b)の画像611と同じものであり、
図7(b)の分割画像614は、
図6(b)の分割画像614と同じものである。
【0092】
図7(c)は、階層1に係る各空間サブ領域のヒストグラムの一例を模式的に示した図である。
【0093】
各ヒストグラムの横軸は、画像語彙を並べたものであり、縦軸は、入力画像における各画像語彙の出現頻度である。
【0094】
ヒストグラム641Hは、空間サブ領域641に対応するヒストグラムである。同様に、ヒストグラム642H〜644Hが、空間サブ領域642〜644にそれぞれ対応するヒストグラムである。
【0095】
そして、ヒストグラム生成部204は、生成したヒストグラムを連結することにより、入力画像のヒストグラムを生成する。この処理は、
図1のS104に相当する処理である。
【0096】
なお、階層0である入力画像611、及び、入力画像を16分割した階層2の分割画像についても同様に、ヒストグラムを生成する。そして、階層0、階層1、階層2の各ヒストグラムを連結したものが、入力画像611の最終的なヒストグラムになる。
【0097】
最後に、分類器205が、入力画像のヒストグラムを用い、入力画像中に認識対象物体が存在するか否かを判断する。
【0098】
この処理は、
図1のS105に相当する処理である。S105の詳細については、既に説明しているので、これ以上の説明は省略する。
(2)上述の実施形態、及び変形例では、意味マップとして、位置マップ又は顕著性マップを用いることとしていたが、これら複数のマップを統合したマップを意味マップとして用いてもよい。
【0099】
例えば、位置マップに係るスコアマップと、顕著性マップに係るスコアマップを統合し、統合されたスコアマップから1つの意味マップを生成してもよい。
【0100】
異なるスコアマップを統合する際には、それぞれのスコアマップに対して同等の重みづけをしてもよいし、それぞれのスコアマップに対して学習などにより得た重みづけをしてもよい。
【0101】
以上のように、複数のスコアマップを用いて意味マップを生成することにより、意味マップに、入力画像の各画素が有する複数の意味内容を反映させることができる。
【0102】
また、単純な幾何学的分割と、意味マップを用いた分割とを組み合わせて用いてもよい。
(3)上述の実施形態では、特徴量としてSIFT特徴量を算出していたが、特徴量を表現できれば足りる。例えば、特徴量として、周知の特徴量である、Color、HOG(Histogram of Oriented Gradients)、LBP(Local Binary Pattern)等を用いてもよいし、画像データそのものを用いてもよい。
(4)上述の実施形態では、入力画像を階層的に分割する場合の階層化の深さを3階層(階層0、1、及び2)とし、階層が深くなる度に上位階層の画像(部分画像)を4分割したが、これに限らず、学習、経験則等により得られる階層の深さ、分割数を採用してよい。
(5)上述の実施形態では、分類器205が、ヒストグラム生成部204により生成されたヒストグラムを用いて、入力画像中に認識対象物体が存在するか否かを判断することとしたが、ヒストグラム生成部204により生成されたヒストグラムを用いて認識対象物体に関する検査を行えば足りる。例えば、分類器205が検出器として動作し、ヒストグラム生成部204により生成されたヒストグラムを用いて、入力画像中に存在する認識対象物体を検出することとしてもよい。
(6)上述の実施形態では、分類器205は、SVMで構成するとしたが、入力画像を複数クラスの少なくとも1つに割り当てることができれば足りる。
【0103】
例えば、マッチング処理技術を適用することとしてもよい。
【0104】
一例としては、予め、学習画像群について機械学習により生成された分類モデル辞書212を記憶部206に記憶しておく。
【0105】
分類モデル辞書212は、認識対象となっている物体それぞれについての、その物体が画像中に存在する場合のヒストグラム(一例として、
図5における、認識対象物体が「牛」である場合のヒストグラム501H、認識対象物体が「猫」である場合のヒストグラム502H)である。分類器205は、入力画像のヒストグラムと、分類モデル辞書212中の各ヒストグラムとを比較し、その一致度合を算出する。そして、分類器205は、一致度合が所定割合以上か否かを判断し、一致度合が所定値以上の場合には、認識対象物体が入力画像中に存在し、所定値未満の場合には、認識対象物体が入力画像中に存在しないと決定する。
(7)上述の実施形態で示した特徴量を抽出する処理、意味マップ生成処理、入力画像分割処理、ヒストグラム生成処理、認識対象物体が存在するか否かを判断する処理などを画像認識装置200のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるための機械語或いは高級言語のプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布することもできる。
【0106】
このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM、フラッシュメモリ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような各機能が実現されるようになる。
【0107】
なお、プロセッサは、制御プログラムを直接実行する他、コンパイルして実行或いはインタプリタにより実行してもよい。
(8)上述の実施形態で示した各機能構成要素(入力部201、特徴量抽出部202、領域情報生成部203、ヒストグラム生成部204、及び分類器205など)は、その機能を実行する回路として実現されてもよいし、1又は複数のプロセッサによりプログラムを実行することで実現されてもよい。
【0108】
なお、上述の各機能構成要素は典型的には集積回路であるLSIとして実現される。これらは個別に1チップされてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
(9)上述の実施形態及び各変形例を、部分的に組み合せてもよい。
<5.補足>
以下、更に本発明の一実施形態としての画像認識装置の構成及びその変形例と効果について説明する。
(1)本発明の一実施形態に係る画像認識装置は、一般物体認識を行う画像認識装置であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。
【0109】
この構成により、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容から抽出した意味に基づいて分割するので、分割された画像から生成する特徴情報に入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。
【0110】
なお、「検査」の用語は、「分類」と「検出」の両方を含むものとして用いている。
(2)また、前記分割手段は、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用いることとしてもよい。
【0111】
この構成により、入力画像を、認識対象物体に関連する確率のレベル毎に分割することとなるので、認識対象物体に関連する確率の高い領域から算出される特徴情報には、認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
(3)また、前記分割手段は、前記スコアマップを、前記入力画像の各画素について、認識対象物体の一部を表す画素である確率をマッピングすることにより生成することとしてもよい。
【0112】
この構成により、入力画像を、認識対象物体の一部を表す画素である確率のレベル毎に分割することとなるので、認識対象物体の一部を表す確率の高い領域から算出される特徴情報には、認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
(4)また、前記分割手段は、前記スコアマップを、前記入力画像の各画素についての、周囲の画素と比較して顕著な度合をマッピングすることにより生成することとしてもよい。
【0113】
この構成により、入力画像を、視覚注意を引く度合のレベル毎に分割することとなるので、視覚注意を引く度合の高い領域から算出される特徴情報には、視覚注意を引く度合の高い物体である認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
(5)また、前記分割手段は、前記入力画像を、前記意味マップを用いて階層的に分割することとしてもよい。
【0114】
この構成により、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。
(6)また、前記検査手段は、学習画像を用いて学習した分類器であり、前記認識対象物体の存在についての検査として、前記学習の結果を用いて、前記入力画像中に前記認識対象物体が存在するか否かを判断することとしてもよい。
【0115】
本発明の一実施形態に係る画像認識方法は、分割手段と、生成手段と、検査手段とを備えた一般物体認識を行う画像認識装置に用いられる画像認識方法であって、前記分割手段が、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割ステップと、前記生成手段が、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成ステップと、前記検査手段が、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査ステップとを含む。
【0116】
本発明の一実施形態に係る集積回路は、一般物体認識を行う画像認識装置に用いられる集積回路であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。
【0117】
この構成により、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容から抽出した意味に基づいて分割するので、分割された画像から生成する特徴情報に入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。