(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記特許文献1の方法では、画像情報に加えて画像外情報を利用することで、主要被写体認識の精度向上を図っている。しかしながら、被写体自体の画像情報と画像外情報だけを利用しているため、画像情報も画像外情報も似通った別々の被写体の区別をすることはできない。
【0008】
本発明は、上記の点に鑑みてなされたもので、被写体の画像情報や画像外情報だけでは区別できない別々の被写体を区別して、主要被写体を認識することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の画像処理装置の一態様は、認識対象画像から主要被写体を認識する画像処理装置であり
、上記認識対象画像から計算される画像特徴量を生成する画像特徴量生成手段と
、画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得手段と
、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識手段と
、シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積手段と
、上記シーン認識手段で認識された上記シーン情報と、上記シーン・主要被写体対応関係蓄積手段に蓄積された上記対応関係とを利用して、主要被写体候補を推定する主要被写体認識手段と
、を備え
、上記シーン・主要被写体対応関係蓄積手段は、各シーン情報に対して各被写体が主要被写体である確率を蓄積することを特徴とする。
また、本発明の画像処理装置の別の態様は、認識対象画像から主要被写体を認識する画像処理装置であり、上記認識対象画像から計算される画像特徴量を生成する画像特徴量生成手段と、画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得手段と、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識手段と、シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積手段と、上記シーン認識手段で認識された上記シーン情報と、上記シーン・主要被写体対応関係蓄積手段に蓄積された上記対応関係とを利用して、主要被写体候補を推定する主要被写体認識手段と、を備え、上記シーン認識手段は、複数のシーン情報に対して各シーンである確率を認識することを特徴とする。
また、本発明の画像処理装置の更に別の態様は、認識対象画像から主要被写体を認識する画像処理装置であり、上記認識対象画像から計算される画像特徴量を生成する画像特徴量生成手段と、画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得手段と、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識手段と、シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積手段と、上記シーン認識手段で認識された上記シーン情報と、上記シーン・主要被写体対応関係蓄積手段に蓄積された上記対応関係とを利用して、主要被写体候補を推定する主要被写体認識手段と、特徴量と被写体との対応関係を蓄積しておく特徴量・被写体対応関係蓄積手段と、上記主要被写体候補と、上記画像特徴量と、上記特徴量・被写体対応関係蓄積手段に蓄積された特徴量と被写体との対応関係とから、該画像の主要被写体を検出する主要被写体検出手段と、上記認識対象画像を複数領域に分割する画像分割手段と、上記画像分割手段によって分割された領域における上記画像特徴量生成手段によって取得された特徴量と、上記主要被写体検出手段によって検出された主要被写体の特徴量とから、上記領域の主要被写体らしさを推定する主要被写体らしさ推定手段と、上記領域の上記主要被写体らしさの分布から、上記認識対象画像上の主要被写体領域を検出する主要被写体領域検出手段と、を備えることを特徴とする。
また、本発明の画像処理方法の一態様は、認識対象画像から主要被写体を認識する画像処理方法であり
、上記認識対象画像から計算される画像特徴量を生成し
、画像以外の情報から得られる画像外特徴量を取得し
、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行い
、予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記認識されたシーン情報とを利用して、主要被写体候補を推定する
、ことを
備え、上記予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係は、各シーン情報に対して各被写体が主要被写体である確率であることを特徴とする。
また、本発明の画像処理方法の別の態様は、認識対象画像から主要被写体を認識する画像処理方法であり、上記認識対象画像から計算される画像特徴量を生成し、画像以外の情報から得られる画像外特徴量を取得し、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行い、予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記認識されたシーン情報とを利用して、主要被写体候補を推定する、ことを備え、上記画像のシーン情報の認識は、複数のシーン情報に対して各シーンである確率を認識することであることを特徴とする。
また、本発明の画像処理方法の更に別の態様は、認識対象画像から主要被写体を認識する画像処理方法であり、上記認識対象画像から計算される画像特徴量を生成し、画像以外の情報から得られる画像外特徴量を取得し、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行い、予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記認識されたシーン情報とを利用して、主要被写体候補を推定し、上記主要被写体候補と、上記画像特徴量と、予めに蓄積された特徴量と被写体との対応関係とから、該画像の主要被写体を検出し、上記認識対象画像を複数領域に分割し、上記分割された領域における上記取得された特徴量と、上記検出された主要被写体の特徴量とから、上記領域の主要被写体らしさを推定し、上記領域の上記主要被写体らしさの分布から、上記認識対象画像上の主要被写体領域を検出する、ことを特徴とする。
また、本発明の画像処理プログラムの一態様は
、主要被写体を認識する認識対象画像から計算される画像特徴量を生成する画像特徴量生成ステップと
、画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得ステップと
、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識ステップと
、予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記シーン認識ステップで認識された上記シーン情報とを利用して、主要被写体候補を推定する主要被写体認識ステップと
、をコンピュータに発揮させ
、上記予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係は、各シーン情報に対して各被写体が主要被写体である確率であることを特徴とする。
また、本発明の画像処理プログラムの別の態様は、主要被写体を認識する認識対象画像から計算される画像特徴量を生成する画像特徴量生成ステップと、画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得ステップと、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識ステップと、予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記シーン認識ステップで認識された上記シーン情報とを利用して、主要被写体候補を推定する主要被写体認識ステップと、をコンピュータに発揮させ、上記シーン認識ステップは、複数のシーン情報に対して各シーンである確率を認識するステップであることを特徴とする。
また、本発明の画像処理プログラムの更に別の態様は、主要被写体を認識する認識対象画像から計算される画像特徴量を生成する画像特徴量生成ステップと、画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得ステップと、上記画像特徴量と上記画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識ステップと、予め蓄積されたシーン情報と該シーン情報に対して典型的な主要被写体との対応関係と、上記シーン認識ステップで認識された上記シーン情報とを利用して、主要被写体候補を推定する主要被写体認識ステップと、上記主要被写体候補と、上記画像特徴量と、予め蓄積された特徴量と被写体との対応関係とから、該画像の主要被写体を検出する主要被写体検出ステップと、上記認識対象画像を複数領域に分割する画像分割ステップと、上記分割された領域における上記取得された特徴量と、上記検出された主要被写体の特徴量とから、上記領域の主要被写体らしさを推定する主要被写体らしさ推定ステップと、上記領域の上記主要被写体らしさの分布から、上記認識対象画像上の主要被写体領域を検出する主要被写体領域検出ステップと、をコンピュータに発揮させることを特徴とする。
【発明の効果】
【0010】
本発明によれば、シーン情報を用いることで、被写体の画像情報や画像外情報だけでは区別できない別々の被写体を区別して、主要被写体を認識することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することができる。
【発明を実施するための形態】
【0013】
以下、本発明を実施するための形態を図面を参照して説明する。
図1に示すように、本発明の一実施形態に係る画像処理装置は、画像入力部10、画像外情報入力部20、演算部30、記憶部40、及び制御部50を備える。
【0014】
ここで、上記画像入力部10は、画像を入力するものであり、本画像処理装置がデジタルカメラや内視鏡装置等の撮影機能を備えた撮影機器に組み込まれる場合には、光学系や撮像素子(CMOSセンサやCCDセンサ)並びに該撮像素子の出力信号から画像データを生成する信号処理回路等を含む撮像部とすることができる。また、本画像処理装置をそのような撮影機器とは別体の装置として構成される場合には、画像を記録媒体やネットワークを介して読み込む画像読込部として構成される。勿論、本画像処理装置を撮影機器に組み込む場合であっても、上記画像入力部10は、当該撮影機器外から画像を読み込む画像読込部として構成しても構わない。
【0015】
また、上記画像外情報入力部20は、画像以外の情報を入力するものであり、本画像処理装置が撮影機器に組み込まれる場合には、該撮影機器で撮影時に取得可能な情報を画像外情報として取得する情報取得部とすることができる。また、本画像処理装置をそのような撮影機器とは別体の装置として構成される場合には、上記画像入力部10から入力される画像に関連付けられた画像外情報を読み込む情報読込部として構成される。勿論、本画像処理装置を撮影機器に組み込む場合であっても、上記画像外情報入力部20は、当該撮影機器外から画像外情報を読み込む情報読込部として構成しても構わない。
【0016】
ここで、画像外情報としては、撮影パラメータ、環境情報、時空間情報、センサ情報、webからの二次的情報、等を含む。撮影パラメータとしては、ISO、Flash、シャッタスピード、焦点距離、F値、等がある。環境情報としては、音声、温度、湿度、圧力、等がある。時空間情報としては、GPS情報、日時、等がある。センサ情報は、画像を撮影した撮影機器が備えるセンサから得られる情報であり、上記環境情報等と一部重複する。webからの二次的情報としては、時空間情報(位置情報)に基づいて取得される、気象情報やイベント情報等がある。上記画像外情報入力部20が入力する画像外情報は、必ずしも、これら全ての情報を含む必要が無いことは勿論である。
【0017】
なお、上記撮影パラメータや時空間情報は、画像ファイルにExif情報として付加されている場合も有る。このような場合は、上記画像入力部10は、その画像ファイルから画像データのみを抽出するものとし、また、上記画像外情報入力部20は、その画像ファイルからExif情報を抽出するものとなる。
【0018】
また、上記演算部30は、上記記憶部40の不図示ワーク領域に上記画像入力部10から入力された画像や上記画像外情報入力部20から入力された画像外情報を記憶させて、それら画像及び画像外情報を使用し、また、上記記憶部40に予め蓄積されているデータを使用して、上記画像入力部10から入力された画像から主要被写体を認識する演算等を行う。
【0019】
なお、記憶部40は、特徴量とシーンとの対応関係を蓄積しておく特徴量・シーン対応関係蓄積部41と、シーン情報と該シーン情報に対して典型的な主要被写体との対応関係を蓄積しておくシーン・主要被写体対応関係蓄積手段としてのシーン・主要被写体対応関係蓄積部42と、特徴量と被写体との対応関係を蓄積しておく特徴量・被写体対応関係蓄積手段としての特徴量・被写体対応関係蓄積部43と、を有する。
【0020】
また、演算部30は、画像特徴量算出部31、画像外特徴量算出部32、シーン認識部33、主要被写体認識部34、主要被写体検出部35、画像分割部36、主要被写体らしさ推定部37、及び主要被写体領域検出部38を有する。
【0021】
画像特徴量算出部31は、上記画像入力部10によって入力された認識対象画像から計算される画像特徴量を生成する画像特徴量生成手段として機能する。画像外特徴量算出部32は、上記画像外情報入力部20によって入力された画像以外の情報から得られる画像外特徴量を取得する画像外特徴量取得手段として機能する。シーン認識部33は、画像特徴量算出部31によって取得された画像特徴量と、画像外特徴量算出部32によって取得された画像外特徴量とから、該画像のシーン情報の認識を行うシーン認識手段として機能する。主要被写体認識部34は、認識されたシーン情報と、シーン・主要被写体対応関係蓄積部42に蓄積された対応関係とを利用して、主要被写体候補を推定する主要被写体認識手段として機能する。
【0022】
さらに、主要被写体検出部35は、主要被写体認識部34によって認識された主要被写体候補と、画像特徴量算出部31によって取得された画像特徴量と、画像外特徴量算出部32によって取得された画像外特徴量と、特徴量・被写体対応関係蓄積部43に蓄積された対応関係とから、該画像の主要被写体を検出する主要被写体検出手段として機能する。
【0023】
また、画像分割部36は、上記画像入力部10によって入力された認識対象画像を複数領域に分割する画像分割手段として機能する。主要被写体らしさ推定部37は、画像分割部36によって分割された各領域における上記画像特徴量算出部31によって取得された特徴量と、上記主要被写体検出部35によって検出された主要被写体の特徴量とから、上記領域の主要被写体らしさを推定する主要被写体らしさ推定手段として機能する。
【0024】
主要被写体領域検出部38は、上記主要被写体らしさ推定部37によって推定された上記領域の上記主要被写体らしさの分布から、上記画像入力部10によって入力された認識対象画像上の主要被写体領域を検出する主要被写体領域検出手段として機能する。
【0025】
そして、上記制御部50は、上記演算部30における各部の動作を制御する。
【0026】
以下、
図2を参照して、上記演算部30の動作を詳細に説明する。
まず、画像特徴量算出部31は、上記画像入力部10によって入力された画像から画像特徴量を算出する(ステップS11)。ここで、画像I
iに関する画像特徴量をa
iとする。添え字iは、画像を識別するための通し番号である。画像I
iは、画像の画素値を並べたベクトルである。画像特徴量a
iは、画像I
iの画素値から各種演算によって求まる値を縦に並べたベクトルであり、例えば特開2008−140230号公報の手法を用いて求めることができる。
【0027】
また、この画像特徴量の算出処理と並行して、画像外特徴量算出部32は、上記画像外情報入力部20によって入力された画像外情報から画像外特徴量を算出する(ステップS12)。ここで、画像外特徴量をb
iとする。画像外特徴量b
iは、画像に対応する各種情報を必要に応じて数値に変換または演算し、縦に並べたベクトルである。この画像外情報は、上述した通りのものである。
【0028】
制御部50は、これら算出された画像特徴量a
iと画像外特徴量b
iとを縦に並べた以下のような特徴量f
iを生成して、記憶部40のワーク領域に記憶する。勿論、制御部50ではなく、該演算部30の一つの機能として、そのような特徴量f
iの生成機能を持たせても良い。
【0030】
ここで、記憶部40のシーン・主要被写体対応関係蓄積部42に記憶されるシーンと主要被写体の対応関係蓄積データについて、予め説明しておく。このシーンと主要被写体の対応関係蓄積データをR=[r
1 r
2 … r
m]とする。また、r
jは、以下のようにシーンjと主要被写体の対応関係を表す縦ベクトルである。
【0032】
なお、jはシーンを識別するための分類番号であり、mは事前に用意したシーン候補の数である。例えば、「1:海水浴」、「2:ダイビング」、「3:飲み会」、…、「m:スキー」、と取り決めておく。以下、上記のシーン候補例を用いて説明する。シーンと主要被写体の対応関係蓄積データとは、各シーンに対する各被写体の主要被写体らしさを確率で表したベクトルである。kは事前に用意した主要被写体候補の数である。例えば、「1:人」、「2:魚」、「3:料理」、…、「k:花」、と取り決めておく。以下、上記の主要被写体候補例を用いて説明する。ベクトルの各次元が事前に決定した各被写体に対応し、該次元の要素が該被写体の主要被写体らしさを示す。シーンjの各主要被写体らしさが、「人:0.6」、「魚:0.4」、「料理:0.8」、…、「花:0」、である場合、r
jは以下のようになる。
【0034】
なお、シーンjにおいて各被写体が主要被写体となるか否かのみで表す場合には、確率は「1」又は「0」で表すこととなる。
【0035】
シーン認識部33は、上記記憶部40のワーク領域に記憶された特徴量f
iを用いて、画像I
iのシーン認識を行う(ステップS13)。このシーン認識方法については、特徴量・シーン対応関係蓄積部41に蓄積された対応関係を利用した一例を後述する。画像I
iのシーン認識結果が各シーンについて確率として表される。例えば、「海水浴:0.9」、「ダイビング:0.1」、「飲み会:0.6」、…、「スキー:0.2」、というシーン認識結果が得られた場合、各シーンの確率を縦に並べたベクトルとして、以下のようなシーン認識結果S
iが得られる。
【0037】
なお、シーンを該当・非該当のみで認識する場合には、確率は「1」又は「0」で表す。
【0038】
主要被写体認識部34は、画像I
iについての上記シーン認識部33によるシーン認識結果S
iと、上記シーン・主要被写体対応関係蓄積部42に記憶されている上述したようなシーンと主要被写体の対応関係蓄積データRとを利用して、画像I
iについての主要被写体確率ベクトルO
i=RS
iを算出する(ステップS14)。ここで、主要被写体確率ベクトルO
iは、各主要被写体候補が主要被写体である確率を表すベクトルである。例えば、以下のようにO
iが求まった場合、各主要被写体候補が主要被写体である確率は「人:0.7」、「魚:0.1」、「料理:0.2」、…、「花:0.5」、である。
【0040】
従って、確率が最も高い被写体候補である「人」が、主要被写体であると認識することができる。なお、このように確率が最も高い被写体候補を主要被写体と認識する他に、その主要被写体と認識された被写体候補の確率に近い値を持った被写体候補がある場合には、複数の被写体候補を主要被写体と認識するようにしても良い。
【0041】
以上のように、画像特徴量と画像外特徴量とからシーン認識を行い、認識されたシーン情報に基づいて主要被写体を認識するようにしたことにより、被写体の画像情報や画像外情報だけでは区別が困難な被写体においても、シーン情報を加味することによって被写体を区別し、主要被写体を認識することが可能となる。
【0042】
また、このようなシーン認識結果に基づいて認識された主要被写体に対し、更に特徴量を利用した認識手法を適用することで、より認識精度を向上させることができる。
【0043】
即ち、主要被写体検出部35は、まず、上記記憶部40のワーク領域に記憶された特徴量f
iだけを利用した主要被写体の認識を行い、更に、その主要被写体認識結果と、上記のようにして主要被写体認識部34によって認識された主要被写体候補とから画像I
iにおける主要被写体を検出する(ステップS15)。特徴量だけを利用した主要被写体認識方法については、特徴量・被写体対応関係蓄積部43に蓄積された対応関係を利用した一例を後述する。
【0044】
特徴量だけを利用した主要被写体認識結果をD
i、主要被写体候補O
iを利用した主要被写体認識結果をD’
iとするとき、主要被写体認識結果D’
iは、以下のように算出される。なお、主要被写体認識結果D
i,D’
iは、主要被写体候補O
iと同じ形式のベクトルである。
【0046】
例えば、特徴量だけを利用した主要被写体認識結果D
i及び主要被写体候補O
iが以下のようであったとする。
【0048】
この場合、特徴量だけを利用した主要被写体認識の結果D
iは、第1要素と第k要素がともに「0.9」であり、ともに最大確率となる。つまり、被写体1が主要被写体であるのか、被写体kが主要被写体であるのかを区別できない。
【0049】
これに対して、主要被写体認識結果D’
iは、以下のようになる。
【0051】
よって、この主要被写体認識の結果D’
iでは、第1要素の「0.63」のみが最大確率となり、被写体1が主要被写体であると判定できる。
【0052】
なお、この場合も、主要被写体と認識された被写体の確率に近い値を持った被写体がある場合には、複数の被写体を主要被写体と認識するようにしても良い。
【0053】
また、本画像処理装置をデジタルカメラや内視鏡装置等の撮影機能を備えた撮影機器に組み込んだ場合、以上のような主要被写体の認識結果に基づいて、画像I
i中の何処にその主要被写体が存在するのかを検出すれば、オートフォーカス等の機能に利用できる。
【0054】
そこで、画像分割部36は、上記記憶部40のワーク領域に記憶された入力画像を、例えば格子状に複数領域に分割する(ステップS16)。そして、主要被写体らしさ推定部37は、この画像分割部36によって格子状に分割された領域における上記画像特徴量算出部31によって取得された特徴量と、上記主要被写体検出部35によって検出された主要被写体の特徴量との類似度を計算して、主要被写体らしさ分布を算出する(ステップS17)。ここで、画像I
iの分割された領域A(t)の特徴量をf
i(t)とする。また、主要被写体検出部35が検出した主要被写体について求めた平均特徴量をf(c)とする。主要被写体らしさ分布Jは、各領域A(t)についての主要被写体らしさj(t)を並べたベクトルである。各領域A(t)についての主要被写体らしさj(t)は、類似度j(t)=sim(f
i(t),f(c))として計算される。例えば、2つの特徴量f
i(t),f(c)のベクトル間距離の逆数として計算される。
【0055】
主要被写体領域検出部38は、この主要被写体らしさ推定部37によって推定された主要被写体らしさ分布Jから、画像I
i上の主要被写体領域を検出する(ステップS18)。ここで、主要被写体領域は、画像I
iの分割された領域A(t)の中から選択される、主要被写体領域要素A
o(t)の集合として表される。例えば、主要被写体らしさの閾値pを設定し、A(t)>pを満たすA(t)を主要被写体領域要素A
o(t)とする。
【0056】
なお、主要被写体領域要素の集合が複数の連結領域に分かれていた場合、各連結領域を個別の主要被写体領域とする。
【0057】
次に、上記シーン認識部33によるシーン認識方法の一例を説明する。
人間が各画像に付加したシーン特徴量をw
iとする。シーン特徴量とは、その画像が各シーンであるかどうかを表すベクトルである。ベクトルの各次元が事前に決定した各シーンに対応し、該次元の要素が「1」であるときは該シーンであることを示し、該次元の要素が「0」であるときは該シーンではないことを示す。例えば、「1:海水浴」、「2:ダイビング」、「3:飲み会」、…、「m:スキー」、と取り決めておき、画像I
iのシーンが「海水浴」と「飲み会」である場合、w
iは以下のようになる。
【0059】
ここで、画像I
iについて、認識処理に用いる特徴量をf
iとする。また、全教師画像数をnとする。特徴量・シーン対応関係蓄積部41には、以下のような、全教師画像について、認識処理に用いる特徴量を並べた行列F及びシーン特徴量を並べた行列Wが、それぞれ記憶されている。
【0061】
そして、シーン認識部33は、この特徴量・シーン対応関係蓄積部41に記憶されたデータより、認識処理に用いる特徴量f
iとシーン特徴量w
iの相関関係を学習する。具体的には、正準相関分析(CCA)を用いて、f
iの次元を削減するための行列Vを求める。正準相関分析では、2つのベクトル群f
iとw
iがあるとき、u
i=V
Ff
iとvi=V
Ww
iの相関が最も大きくなるようなV
F,V
Wを求める。ここでは、効果的に次元を削減するために、V
Fの1列目から所定の列数目までを切り出し、Vとしている。
【0062】
この行列Vで特徴量f
iを変換し、次元を削減した特徴量をf’
iとする。即ち、f’
i=Vf
iとする。また、2枚の画像I
a,I
bが与えられたとき、I
a,I
bの次元削減特徴量間の類似度をsim(f’
a,f’
b)とする。例えば、2つの特徴量f’
a,f’
bのベクトル間距離の逆数をsim(f’
a,f’
b)とする。
【0063】
シーン認識部33は、シーン認識したい入力画像I
iと、全教師画像I
t(t=1,…,n)との間の類似度sim(f’
i,f’
t)を計算し、類似度の大きいほうから順に、所定の枚数(L枚)の教師画像I
p(k)(k=1,…,L)を抽出する。そして、抽出された教師画像のシーン特徴量w
p(k)を積算し、抽出枚数Lで割って正規化する。ここで得られた行列S
iを、入力画像I
iのシーン認識結果とする。
【0064】
なお、行列Vで特徴量f
iを変換し、次元を削減した特徴量をf’
iとする処理を行わずに、特徴量f
iを用いて類似度を計算するようにしても良い。
【0065】
また、上記主要被写体検出部35における特徴量だけを利用した主要被写体認識方法は、シーンの代わりに主要被写体を認識対象とするだけで、このシーン認識部33によるシーン認識方法と同様であるので、その説明は省略する。但し、特徴量・シーン対応関係蓄積部41の代わりに、特徴量・被写体対応関係蓄積部43を利用することはいうまでもない。また、特徴量f
iの代わりに、画像特徴量a
iを用いても良い。
【0066】
以上のように、本実施形態によれば、シーン情報を用いることで、被写体の画像情報や画像外情報だけでは区別できない別々の被写体を区別して、主要被写体を認識することができる。即ち、本実施形態の画像処理装置は、画像情報より生成した画像特徴量と、画像外情報より生成した画像外特徴量とから、画像自体のシーン情報を認識する(例えは、日時が夏かつ位置が海岸かつ水圧有→ダイビング、日時が金曜夜かつ室内かつ薄暗い→飲み会)。そして、シーン情報がわかると、各シーンに対して典型的な主要被写体が限定される(例えば、ダイビング→人や魚、飲み会→人や料理や酒)。よって、画像特徴量・画像外特徴量だけでは区別できない別々の被写体であっても、シーン情報を加味して区別することができる。
【0067】
また、このようなシーン情報を用いて認識された主要被写体に対し、更に特徴量を利用した認識手法を適用することで、より認識精度を向上させることができる。
【0068】
そして、それら主要被写体の認識結果に基づいて、画像中の何処にその主要被写体が存在するのかを検出することができる。
【0069】
以上、一実施形態に基づいて本発明を説明したが、本発明は上述した一実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。
【0070】
例えば、上記一実施形態の画像処理装置の機能を実現するソフトウェアのプログラムをコンピュータに供給し、当該コンピュータがこのプログラムを実行することによって、上記機能を実現することも可能である。