特許第6232982号(P6232982)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オムロン株式会社の特許一覧

特許6232982画像処理装置、画像処理方法およびプログラム
<>
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000017
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000018
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000019
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000020
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000021
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000022
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000023
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000024
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000025
  • 特許6232982-画像処理装置、画像処理方法およびプログラム 図000026
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6232982
(24)【登録日】2017年11月2日
(45)【発行日】2017年11月22日
(54)【発明の名称】画像処理装置、画像処理方法およびプログラム
(51)【国際特許分類】
   G06T 7/10 20170101AFI20171113BHJP
【FI】
   G06T7/10
【請求項の数】12
【全頁数】21
(21)【出願番号】特願2013-249605(P2013-249605)
(22)【出願日】2013年12月2日
(65)【公開番号】特開2015-106382(P2015-106382A)
(43)【公開日】2015年6月8日
【審査請求日】2016年11月7日
(73)【特許権者】
【識別番号】000002945
【氏名又は名称】オムロン株式会社
(74)【代理人】
【識別番号】100085006
【弁理士】
【氏名又は名称】世良 和信
(74)【代理人】
【識別番号】100106622
【弁理士】
【氏名又は名称】和久田 純一
(74)【代理人】
【識別番号】100125357
【弁理士】
【氏名又は名称】中村 剛
(72)【発明者】
【氏名】阮 翔
(72)【発明者】
【氏名】盧 湖川
(72)【発明者】
【氏名】張 立和
(72)【発明者】
【氏名】李 小暉
【審査官】 佐藤 卓馬
(56)【参考文献】
【文献】 特開2011−053759(JP,A)
【文献】 米国特許出願公開第2011/0052070(US,A1)
【文献】 特開2012−146040(JP,A)
【文献】 特開2001−236508(JP,A)
【文献】 特開2000−207564(JP,A)
【文献】 特開2013−041545(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/10
(57)【特許請求の範囲】
【請求項1】
画像を取得する画像取得部と、
前記画像における1つまたは複数の画素からなる領域を単位構成として、第1のアルゴリズムに基づいて前記領域と前記画像の周縁部の領域との類似度を表す第1の類似度マップを算出し、第2のアルゴリズムに基づいて前記領域と前記画像の周縁部の領域との類似度を表す第2の類似度マップを算出する類似度マップ生成部と、
前記第1の類似度マップおよび前記第2の類似度マップを統合して顕著性マップを生成する顕著性マップ生成部と、
を備える画像処理装置。
【請求項2】
前記類似度マップ生成部は、対象の領域を前記周縁部の領域に基づいて再構成し、再構成誤差が小さいほど類似度が大きいものとして前記第1および第2の類似度マップを生成する、
請求項1に記載の画像処理装置。
【請求項3】
前記第1のアルゴリズムは、
前記周縁部の領域の特徴量に対して主成分分析を施して複数の固有ベクトルを算出し、
対象の領域の特徴量を前記複数の固有ベクトルの線形結合によって再構成し、
再構成誤差が小さいほど類似度を大きく算出する、
アルゴリズムである、
請求項1または2に記載の画像処理装置。
【請求項4】
前記第2のアルゴリズムは、
対象の領域の特徴量を、できるだけ少ない周縁部の領域の特徴量の組合せで近似するように、コスト関数が最小となる係数を用いて前記周縁部の領域の特徴量の線形結合によって再構成し、
再構成誤差が小さいほど類似度を大きく算出する、
アルゴリズムである、
請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
前記画像取得部が取得した画像から、画素の特徴量に基づいて連結された複数の画素からなる領域に分割してスーパーピクセル画像を生成するスーパーピクセル画像生成部を更に有し、
前記類似度マップ生成部は、前記スーパーピクセル画像に基づいて前記第1および第2の類似度マップを生成する、
請求項1から4のいずれか1項に記載の画像処理装置。
【請求項6】
前記スーパーピクセル画像生成部は、スーパーピクセル数が異なる複数のスーパーピクセル画像を生成するものであり、
前記類似度マップ生成部は、
前記複数のスーパーピクセル画像のそれぞれから第1のアルゴリズムに基づいて類似度マップを生成し、これら複数の類似度マップを統合して前記第1の類似度マップを生成し、
前記複数のスーパーピクセル画像のそれぞれから第2のアルゴリズムに基づいて類似度マップを生成し、これら複数の類似度マップを統合して前記第2の類似度マップを生成する、
請求項5に記載の画像処理装置。
【請求項7】
前記類似度マップ生成部は、前記複数のスーパーピクセル画像のそれぞれから前記第1
および第2のアルゴリズムに基づいて生成された類似度マップに対して、平滑化処理を施してから、前記第1および第2の類似度マップを生成するものであり、
前記平滑化処理は、前記類似度マップの生成に用いられたスーパーピクセル画像をクラスタリングし、各クラスタ内での類似度を平滑化する処理である、
請求項6に記載の画像処理装置。
【請求項8】
前記類似度マップ生成部は、前記複数のスーパーピクセル画像から前記第1および第2のアルゴリズムに基づいて生成された複数の類似度マップを重み付け平均して前記第1および第2の類似度マップを生成するものであり、前記重み付け平均における重みは、前記画像取得部が取得した画像における画素の特徴量と当該画素が属するスーパーピクセルの特徴量とが近いほど大きい重みである、
請求項6または7に記載の画像処理装置。
【請求項9】
前記類似度マップ生成部は、算出された類似度に対して、前記画像において検出された物体の位置を中心とする重み付けをして前記第1および第2の類似度マップを生成する、
請求項1から8のいずれか1項に記載の画像処理装置。
【請求項10】
前記顕著性マップ生成部は、
前記第1の類似度マップを事前確率として用い、前記第1の類似度マップと前記第2の類似度マップとから尤度を算出し、当該事前確率と尤度から顕著領域の事後確率を表す第1の顕著性マップを算出し、
前記第2の類似度マップを事前確率として用い、前記第2の類似度マップと前記第1の類似度マップとから尤度を算出し、当該事前確率と尤度から顕著領域の事後確率を表す第2の顕著性マップを算出し、
前記第1の顕著性マップと前記第2の顕著性マップを統合して、最終的な顕著性マップを生成する、
請求項1から9のいずれか1項に記載の画像処理装置。
【請求項11】
コンピュータによって実行される画像処理方法であって、
画像を取得する画像取得ステップと、
前記画像における1つまたは複数の画素からなる領域を単位構成として、第1のアルゴリズムに基づいて前記領域と前記画像の周縁部の領域との類似度を表す第1の類似度マップを算出し、第2のアルゴリズムに基づいて前記領域と前記画像の周縁部の領域との類似度を表す第2の類似度マップを算出する類似度マップ生成ステップと、
前記第1の類似度マップおよび前記第2の類似度マップを統合して顕著性マップを生成する顕著性マップ生成ステップと、
を含む、画像処理方法。
【請求項12】
請求項11に記載の画像処理方法の各ステップをコンピュータに実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像における顕著性マップを生成する技術に関する。
【背景技術】
【0002】
従来、画像処理の分野では、画像において人間が注目すると予想される画像領域、あるいは注目すべき画像領域(これらを顕著領域という)を、その画像から検出(抽出)する技術が知られている。また、このような顕著領域検出の技術を用いて、画像における各画素の顕著度(saliency measure)を算出することにより、その画像の各画素の顕著度を示す顕著性マップを作成することも行われる。
【0003】
こうした顕著領域検出の技術は、例えば、画像から主要被写体を検出するために使用されている。
【0004】
さて、上記顕著領域検出のためのアルゴリズムとして、学習ベースのアルゴリズムが存在している。例えば、特許文献1には、学習対象となる複数の画像データに基づいて特徴の種類を事前に学習して決定しておき、決定された特徴の種類と顕著度の算出対象となる対象画像データとに基づいて、当該対象画像データにおける各部の特徴を抽出することが記載されている。この技術によれば、学習効果を人の経験や記憶の度合いと擬制することにより、より人の感覚に近似した顕著度の判断が可能となる。
【0005】
ところが、上記学習ベースのアルゴリズムでは、対象画像データに対する事前知識として、学習対象となる複数の画像データを予め用意しておく必要がある。そのため、このような事前知識を持っていない場合には顕著度を評価することができない。
【0006】
一方、特許文献2には、事前知識を必要とせず、映像を構成する各フレーム間の情報を用いて顕著領域を検出する技術が記載されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2001−236508号公報
【特許文献2】特開2010−258914号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献2の技術は、事前知識を必要としないが、複数のフレームから構成される動画像のみを対象としており、静止画像に対する顕著度の評価に適用することができない。
【0009】
本発明は、上記課題を解決するためになされたものであり、学習に基づく事前知識を必要とせずに、1枚の静止画像についても顕著度を精度良く評価できる画像処理技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成するために、画像の周縁部には背景領域(顕著領域ではない領域)が存在する、あるいは、画像の周縁部には顕著領域が存在しないことが多いという仮定に基づいて顕著度を算出する。
【0011】
具体的には、本発明に係る画像処理装置は、画像を取得する画像取得部と、前記画像における1つまたは複数の画素からなる領域を単位構成として、第1のアルゴリズムに基づいて前記領域と前記画像の周縁部の領域との類似度を表す第1の類似度マップを算出し、第2のアルゴリズムに基づいて前記領域と前記画像の周縁部の領域との類似度を表す第2の類似度マップを算出する類似度マップ生成部と、前記第1の類似度マップおよび前記第2の類似度マップを統合して顕著性マップを生成する顕著性マップ生成部と、を備える。
【0012】
画像の周縁部の領域とは、画像の端部(上下左右端)を含む領域である。このような周縁部領域と類似度の高い領域は、背景である可能性が高く、顕著度合いが低いと判断できる。逆に、上記類似度が低い領域は、前景である可能性が高く、顕著度合いが高いと判断できる。ここで、異なるアルゴリズムによって少なくとも2つの類似度マップを生成しそれらを統合することで、1つの類似度マップに基づいて生成する場合よりも精度の良い顕著性マップを生成することができる。
【0013】
本発明において、前記類似度マップ生成部は、対象の領域を前記周縁部の領域に基づいて再構成し、再構成誤差が小さいほど類似度が大きいものとして前記第1および第2の類似度マップを生成することができる。周縁部領域に基づいて対象の領域を表現したときに、元の領域を精度良く復元できる場合には、対象の領域は周縁部領域と類似度が高いといえるからである。
【0014】
本発明において、第1のアルゴリズムと第2のアルゴリズムは、その特徴が異なるものであることが好ましい。例えば、顕著領域以外も類似度が低い(顕著度が高い)と判断する可能性があっても、顕著領域を確実に類似度が低いと判断するアルゴリズムと、顕著領域の類似度を高い(顕著度が低い)と判断する可能性があっても、顕著領域以外は確実に類似度が高いと判断するアルゴリズムを採用することが好ましい。
【0015】
例えば、第1のアルゴリズムとして主成分分析(PCA)を用いた再構成に基づく方法が挙げられる。具体的には、前記周縁部の領域の特徴量に対して主成分分析を施して複数の固有ベクトルを算出し、対象の領域の特徴量を前記複数の固有ベクトルの線形結合によって再構成し、再構成誤差が小さいほど類似度を大きく算出するアルゴリズムを第1のアルゴリズムとして採用できる。
【0016】
また、第2のアルゴリズムとしてスパースコーディング(sparse coding)を用いた再
構成に基づく方法が挙げられる。具体的には、対象の領域の特徴量を、できるだけ少ない周縁部の領域の特徴量の組合せで近似するように、コスト関数が最小となる係数を用いて前記周縁部の領域の特徴量の線形結合によって再構成し、再構成誤差が小さいほど類似度を大きく算出するアルゴリズムを第2のアルゴリズムとして採用できる。
【0017】
本発明において、入力画像に対して前処理としてスーパーピクセル化処理を施すことも好ましい。すなわち、本発明の画像処理装置は、前記画像取得部が取得した画像から、画素の特徴量に基づいて連結された複数の画素からなる領域に分割してスーパーピクセル画像を生成するスーパーピクセル画像生成部を更に有するようにすることができる。この場合、類似度マップ生成部は、前記スーパーピクセル画像生成部によって生成されたスーパーピクセル画像に基づいて、スーパーピクセル単位で前記第1および第2の類似度マップを生成すればよい。
【0018】
このように特徴量が類似する隣接する領域を一つの画素(スーパーピクセル)として扱うことで、データ量の削減による高速化および省メモリ化の効果と、ノイズの影響を抑制できるという効果が得られる。
【0019】
スーパーピクセル化の処理においては、スーパーピクセルのサイズ、すなわち、画像をいくつのスーパーピクセルに分割するかを調整するパラメータがある。本発明において、スーパーピクセル数が異なる複数のスーパーピクセル画像を生成して、複数のスーパーピクセル画像から類似度マップを生成してもよい。類似度マップの生成では、複数のスーパーピクセル画像のそれぞれから第1のアルゴリズムに基づいて類似度マップを生成し、これら複数の類似度マップを統合して前記第1の類似度マップを生成すればよい。同様に、複数のスーパーピクセル画像のそれぞれから第2のアルゴリズムに基づいて類似度マップを生成し、これら複数の類似度マップを統合して前記第2の類似度マップを生成すればよい。
【0020】
このように、複数のスーパーピクセル画像のそれぞれから類似度マップを生成し、それらを統合することで、ノイズの影響を抑制でき、より精度の良い類似度マップを生成することが可能となる。
【0021】
本発明において、複数のスーパーピクセル画像のそれぞれから得られる類似度マップに対して、平滑化処理を施すことも好ましい。この際、平滑化処理として、類似度マップ算出の元になったスーパーピクセル画像をクラスタリング(グルーピング)して、各クラスタ内で再構成誤差を拡散する処理を採用することも好ましい。入力画像の周縁部に顕著物体が存在する場合は、周縁部との類似度が高くても背景であるとは限らない。上述のようなクラスタ内での平滑化処理を施すことで、クラスタ内の他の領域における類似度を取り込むことができるので、顕著物体が周縁部に存在する場合であっても顕著領域を精度よく検出できる。
【0022】
本発明において、複数のスーパーピクセル画像から生成された類似度マップから第1および第2の類似度マップを生成する場合は、入力画像中の画素における特徴量と、当該画素に対応するスーパーピクセルの特徴量との類似度に基づいた重み付け平均を施すことが好ましい。すなわち、前記類似度マップ生成部は、前記複数のスーパーピクセル画像から前記第1および第2のアルゴリズムに基づいて生成された複数の類似度マップを重み付け平均して前記第1および第2の類似度マップを生成するものであり、前記重み付け平均における重みは、前記画像取得部が取得した画像における画素の特徴量と当該画素が属するスーパーピクセルの特徴量とが近いほど大きい重みとする、ことが好ましい。
【0023】
このような手法により、スーパーピクセル単位で求められた類似度マップから、画素単位での類似度マップを精度良く求めることができる。
【0024】
本発明において、前記類似度マップ生成部は、算出された類似度に対して、前記画像において検出された物体の位置を中心とする重み付けをして前記第1および第2の類似度マップを生成する、ことも好ましい。なお、物体位置は、類似度マップにおける類似度の小さい領域として求めることができる。
【0025】
このように、画像の中心に対して大きい重みをつけるのではなく、物体の中心ほど大きい重みをつけることで、物体の中心を反映させた類似度マップの改善が行える。
【0026】
本発明において、前記顕著性マップ生成部は、前記第1の類似度マップを事前確率として用い、前記第1の類似度マップと前記第2の類似度マップとから尤度を算出し、当該事前確率と尤度から顕著領域の事後確率を表す第1の顕著性マップを算出し、前記第2の類似度マップを事前確率として用い、前記第2の類似度マップと前記第1の類似度マップとから尤度を算出し、当該事前確率と尤度から顕著領域の事後確率を表す第2の顕著性マップを算出し、前記第1の顕著性マップと前記第2の顕著性マップを統合して、最終的な顕著性マップを生成する、ことが好ましい。
【0027】
このように、第1の類似度マップと第2の類似度マップを互いに事前確率としてそれぞれ顕著度(前景の確率)の事後確率を求めることで、それぞれの類似度マップから多様な情報を統合した顕著性マップが得られる。また、本手法によれば、顕著物体内での顕著度をより一様にすることができる。
【0028】
なお、本発明は、上記構成の少なくとも一部を有する画像処理装置として捉えることができる。また、本発明は、上記処理の少なくとも一部を含む画像処理装置の制御方法や顕著性マップ生成方法、または、かかる方法をコンピュータに実行させるためのプログラムやそのプログラムを非一時的に記憶したコンピュータ読取可能な記録媒体として捉えることもできる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
【発明の効果】
【0029】
本発明によれば、学習に基づく事前知識を必要とせずに、1枚の静止画についても顕著度を精度良く評価できる。
【図面の簡単な説明】
【0030】
図1】実施形態にかかる画像処理装置の機能ブロックを示す図。
図2】実施形態にかかる画像処理方法(顕著性マップ生成方法)の流れを示すフローチャート。
図3】スーパーピクセル画像の例を示す図。
図4】復元誤差マップの例を示す図。
図5】復元誤差マップの平滑化処理におけるクラスタリングを説明する図。
図6】復元誤差マップの平滑化処理の例を示す図。
図7】複数の復元誤差マップを統合する統合処理の例を示す図。
図8】物体位置を考慮した復元誤差マップの補正処理の例を示す図。
図9】ベイズ推定に基づく2つの復元誤差マップの融合処理を説明する図。
図10】本手法により生成された顕著性マップと従来技術によって生成された顕著性マップの比較を示す図。
【発明を実施するための形態】
【0031】
画像において顕著度が相対的に高い領域である顕著領域を検出するアルゴリズムは様々な仮説を基に構築されている。例えば、従来のアルゴリズムでは、顕著領域を含む局所領域の中で顕著領域のコントラストが高いという仮説や、画像の中心部に近いほど顕著度が高いという仮説に基づいて構築されている。しかしながら、前者の仮説に基づくアルゴリズムでは、局所領域を特定することが難しいという問題がある。また、後者の仮説は、全ての画像について当てはまるものではない。そこで、本発明者らは、画像における背景領域が画像の端部(周縁部)に存在しているという、従来用いられなかった新たな仮説に着目し、本発明を行うに至った。
【0032】
(構成)
本発明の一実施形態にかかる画像処理装置1の構成について説明する。図1は、画像処理装置1の構成を示す機能ブロック図である。図1に示す画像処理装置1は、入力画像を取得し、取得した入力画像の各画素における顕著度を示す顕著性マップを出力する。なお、本実施形態において入力画像は静止画像であるとして説明するが、動画像を入力として顕著性マップを出力してもよい。
【0033】
図1に示すように、画像処理装置1は、画像取得部11、制御部12、出力部13および記憶部14を備える。
【0034】
画像取得部11は、外部からの入力画像を取得するものである。画像取得部11は、例示的には、ユーザの入力操作に応じて、画像処理装置1に接続されるデジタルカメラあるいはデジタルビデオカメラ等の撮像装置から、リアルタイムで(同期を取って)あるいは非同期で、入力画像を取得する。
【0035】
ただし、入力画像の取得方法は上記に限定されず、例えば、画像取得部11は、記憶部14に格納されている画像データを入力画像として取得してもよいし、画像処理装置1に接続される周辺機器から入力画像を取得してもよいし、有線あるいは無線の通信ネットワークを介して入力画像を取得してもよい。
【0036】
制御部12は、画像処理装置1における各種機能を統括的に制御するものである。制御部12の制御機能は、制御プログラムをCPU(Central Processing Unit)などの処理
装置が実行することによって実現される。あるいは、制御機能は、ASIC(Application Specific Integrated Circuit)などによって実現されてもよい。また、これらの組合
せによって実現されてもよい。制御部12は、その制御機能の一部として、画像取得部11から入力される入力画像に対する各種処理を実行するための機能および構成を備えている。制御部12の詳細な機能および構成については後述する。
【0037】
出力部13は、制御部12による入力画像の処理結果を外部に対して出力するものである。例えば、出力部13は、各種の画像アプリケーションに上記処理結果を出力してもよい。本実施形態の出力部13は、画像取得部11が取得した入力画像に対して制御部12により生成された顕著性マップを出力する。
【0038】
記憶部14は、各種データおよびコンピュータプログラムを記憶するものである。記憶部14は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、および不揮発性メモリ(例えばフラッシュメモリ)等の記憶装置を組み合わせることにより実現できる。
【0039】
記憶部14には、例えば、制御部12において実行されるコンピュータプログラムや、当該プログラムにおいて処理される各種データ等が格納される。
【0040】
(制御部)
次に、制御部12の各部について説明する。図1に示すように、制御部12は、SP画像生成部121、復元誤差マップ生成部122、顕著性マップ生成部123を備える。各機能部の構成を、制御部12による画像処理(顕著性マップ生成処理)の流れを示す図2のフローチャートおよびその他の図面とともに説明する。
【0041】
<SP画像>
まず、制御部12は、画像取得部11に入力された入力画像を取得する(S1)。入力画像は、SP画像生成部121に渡される。SP画像生成部121は、画像取得部11から取得される入力画像を元画像として、画素を単位構成とする元画像から、スーパーピクセル(SP)を単位構成とするスーパーピクセル画像(SP画像)を生成する。ここで、スーパーピクセルとは、画像において、色または輝度などの各種のパラメータの値が互いに類似している隣接した複数の画素からなる小領域である。すなわち、スーパーピクセル画像は、入力画像の画素の特徴量に基づいて連結された複数の領域に分割された画像といえる。スーパーピクセルを単位構成とする画像を、元画像と区別するために、スーパーピクセル画像と呼ぶ。
【0042】
元画像の代わりにスーパーピクセル画像を用いた画像処理を行うことによって、処理の
データ量を大幅に削減できるので処理の高速化および省メモリ化が実現できるとともに、上記の各種パラメータ(輝度、色など)のノイズを抑制することもできる。
【0043】
スーパーピクセル画像の生成アルゴリズムとして、複数の生成アルゴリズムが知られている。例えば、http://www2.cs.sfu.ca/~mori/research/superpixels/ に記載されている公知の方法を用いればよい。
【0044】
いずれのスーパーピクセル画像生成アルゴリズムにおいても、生成するスーパーピクセル数を制御するパラメータが存在する。このパラメータを調整することにより、一つの入力画像からスーパーピクセル数が異なる複数のスーパーピクセル画像を生成することができる。なお以下では、このようにスーパーピクセル数が異なる複数のスーパーピクセル画像のことを、解像度が異なる複数のスーパーピクセル画像などと表現する。
【0045】
図3に示すように、SP画像生成部121は、1つの入力画像31(図3(a))から、解像度の異なる複数のスーパーピクセル画像32−1,・・・、32−Ns(図3(b))を生成する。生成するスーパーピクセル画像の数Nsは任意であってよく、例えば、数個〜数十個程度とすることができる。
【0046】
以下では、スーパーピクセルを単位構成として画像処理を実施するが、スーパーピクセルにおける特徴量として、LabおよびRGBの色空間における平均色特徴と、画素座標とを用いる。すなわち、各スーパーピクセルの特徴量は、以下に示すものである。
【数1】
このようにLab色特徴とRGB色特徴の両方を用いることによって、顕著性マップをより精度よく算出することが可能となる。
【0047】
スーパーピクセル画像全体は、以下のように表すことができる。
【数2】
ここでxiは各スーパーピクセルにおける特徴量を表し、Nはスーパーピクセルの数、Dは特徴量の次元数である。
【0048】
<周縁部領域>
それぞれの解像度のスーパーピクセル画像のうち、画像の端部(上端、下端、左端、右端)を含むスーパーピクセルを、周縁部のスーパーピクセル(周縁部領域)と称する。また、周縁部のスーパーピクセルからなる画像を、周縁部画像と称する。周縁部画像の例は図3(c)に示されている。
【0049】
<復元誤差マップ生成部>
復元誤差マップ生成部122は、周縁部領域をテンプレートセットとして用いて、その他の領域を復元(再構成)し、復元誤差を表す復元誤差マップを生成する。周縁部は多くの画像において背景であるので、上記の復元において、背景領域では復元誤差が小さく、前景領域では復元誤差が大きくなると考えられる。すなわち、復元誤差は対象画素が周縁部領域とどの程度類似しているかを表す尺度ともいえ、復元誤差マップは周縁部領域との類似度を表す類似度マップと捉えることもできる。
【0050】
図1に示すように、復元誤差マップ生成部122は、Dense復元誤差マップ生成部122a、Sparse復元誤差マップ生成部122b、平滑化処理部122c、統合処
理部122dを備える。
【0051】
Dense復元誤差マップ生成部122aとSparse復元誤差マップ生成部122bにより、異なるアルゴリズムを用いて復元誤差マップをそれぞれ生成する(図2のステップS3a〜S4aおよびS3b〜S4b)。これらの復元誤差マップは、解像度の異なるスーパーピクセル画像のそれぞれに対して生成される。平滑化処理部122cは、それぞれの復元誤差マップに対して平滑化処理を施す(S5aおよびS5b)。統合処理部122dは、解像度の異なるスーパーピクセル画像から生成された複数のDense復元誤差マップ(複数階層のDense復元誤差マップとも称する)を統合して画素単位での1つのDense復元誤差マップを生成する(S6a)とともに、解像度の異なるスーパーピクセル画像から生成された複数のSparse復元誤差マップ(複数階層のSparse復元誤差マップとも称する)を統合して画素単位での1つのSparse復元誤差マップを生成する(S6b)。
【0052】
以下、復元誤差マップ生成部122内の各サブ機能部について詳しく説明する。
【0053】
≪Dense復元誤差マップ生成部122a≫
Dense復元誤差マップ生成部122aは、主成分分析(PCA)を使って周縁部領域から対象領域を再構成した場合の誤差(復元誤差とも再構成誤差とも称する)を計算する。なお、以下では、Dense復元誤差マップ生成部122aによって行われるPCAを用いた復元(再構成)のことを、Dense復元と称する。
【0054】
ステップS3aに示すように、スーパーピクセル画像内の各スーパーピクセルについて、周縁部のスーパーピクセルを用いたDense復元を行う。以下、Dense復元の詳細について説明する。
【0055】
まず、周縁部スーパーピクセル(M個とする)の特徴量b1, b2, ..., bMからなる背景
テンプレートに対して主成分分析を行って、D’個の固有ベクトル(主成分ベクトル)u1, u2, ..., uD'からなる正規化共分散行列UBを算出する。
【数3】
ここで、D’の値は1≦D’<Mであれば任意であってよく、予め定められていてもよいし寄与率(第D’主成分までの分散の和が分散の総和に占める割合)に基づいて定めてもよい。
【0056】
このPCA基底Uを用いて、各スーパーピクセルの復元係数βiを次のように算出す
る。この復元係数βiによって各スーパーピクセルを周縁部スーパーピクセルによって復
元することができる。
【数4】
ここで、エックスバー(xの上部にバーを付した記号)は、スーパーピクセル画像全体の特徴量Xの平均特徴量である。
【0057】
なお、Dense復元は、主成分分析を施して得られる複数の固有ベクトル(主成分ベクトル)を用いて、対象の領域の特徴量をこれら固有ベクトルの線形結合によって再構成する手法ということができる。上記のβは固有ベクトルを線形結合する際の係数である。
【0058】
次に、ステップS4aにおいて、上記にDense復元による復元誤差(再構成誤差)εidを次のように算出する。
【数5】
【0059】
このようにして、1つのスーパーピクセル画像についてのDense復元誤差マップが生成できる。
【0060】
Dense復元誤差マップ生成部122aによって得られるDense復元誤差マップの一例を図4に示す。図4(a)は2種類の入力画像を示し、図4(b)は図4(a)のそれぞれの入力画像から得られるDense復元誤差マップである。図中、白く表された領域ほど復元誤差が大きい、すなわち、周縁部との類似度が小さいことを表す。
【0061】
Dense復元は、周縁部領域の主成分に基づく再構成を行っているので、周縁部と異なる領域については復元誤差が大きくなる。したがって、前景部分では復元誤差が大きくなる。一方、Dense復元はノイズに弱く、背景部分であっても復元誤差が大きく算出される場合がある。
【0062】
≪Sparse復元誤差マップ生成部122b≫
Sparse復元誤差マップ生成部122bは、スパースコーディングを使って周縁部領域から対象領域を再構成した場合の誤差を計算する。なお、以下では、Sparse復元誤差マップ生成部122bによって行われるスパースコーディングを用いた復元(再構成)のことを、Sparse復元と称する。
【0063】
ステップS3bに示すように、スーパーピクセル内の各スーパーピクセルについて、周縁部のスーパーピクセルを用いたSparse復元を行う。以下、Sparse復元の詳細について説明する。
【0064】
まず、周縁部スーパーピクセルのM個の特徴量からなる背景テンプレートB = [b1, b2,
..., bM]を用いて、各スーパーピクセルを次式のように符号化する。
【数6】
【0065】
すなわち、上記のコスト関数が最小となるように復元係数αiを決定する。対象領域は
、復元係数αを用いた周縁部の特徴量ベクトルの線形結合によって近似することができる。なお、スパースコーディングは、係数(ベクトル)αの要素のうちできるだけ多くの要素が0となるように係数αiを決定するものである。すなわち、背景テンプレートB
を構成する特徴量ベクトルのうち、できるだけ少ない数の特徴量ベクトルの線形結合によって、対象領域の特徴量ベクトルを再構成するものである。
【0066】
次に、ステップS4bにおいて、上記のSparse復元による復元誤差(再構成誤差)εisを次のように算出する。
【数7】
【0067】
このようにして、1つのスーパーピクセル画像についてのSparse復元誤差マップが生成できる。
【0068】
Sparse復元誤差マップ生成部122bによって得られるSparse復元誤差マップの一例を図4に示す。図4(a)は2種類の入力画像を示し、図4(c)は図4(a)のそれぞれの入力画像から得られるSparse復元誤差マップである。図中、白く表された領域ほど復元誤差が大きい、すなわち、周縁部との類似度が小さいことを表す。
【0069】
Sparse復元では周縁部領域の特徴量ベクトルが全て基底として用いられるため、周縁部と類似するような領域では復元誤差が小さくなり、背景領域を確実に検出できる。一方、顕著物体が周縁部にも存在する図4の右側の例では、顕著物体の一部(胴および腕)において復元誤差が小さく算出されてしまう。
【0070】
Sparse復元誤差は複雑な背景に対してロバストであり、Dense復元誤差は画像周縁部に顕著物体が存在する場合により精度が高い。したがって、Dense復元誤差とSparse復元誤差は、顕著度の算出において相補的であると考えられる。
【0071】
≪平滑化処理部122c≫
平滑化処理部122cは、1つのスーパーピクセル画像から生成された復元誤差マップ(Dense復元誤差マップおよびSparse復元誤差マップ)のそれぞれについて、局所領域の特徴を考慮した平滑化処理を施す(図2のステップS5aおよびS5b)。なお、平滑化処理の対象の復元誤差マップがDense復元誤差マップであるかSparse復元誤差マップであるかによって平滑化処理の内容は変わらないので、両者を区別せずに復元誤差マップと称してまとめて説明する。
【0072】
平滑化処理部122cは、まず、復元誤差マップの生成の基になったスーパーピクセル画像に対して、クラスタリング(グルーピング)処理を施す。画像のクラスタリングアルゴリズムは、既存の任意のものを用いればよいが、本実施形態では、K−means法によるクラスタリングを採用する。クラスタリングの処理例を図5に示す。図5では、2つのクラスタ51,52のみが示されているが、画像全体がクラスタに分割される。
【0073】
平滑化処理は、各クラスタ内で復元誤差が拡散するように行われる。ここで、誤差拡散においてクラスタ内での画像特徴量を考慮した、すなわち画像のコンテキストを考慮した拡散(平滑化)を行う。より詳細には、以下のような処理が行われる。
【0074】
まず、各スーパーピクセルについての拡散後の誤差(拡散誤差)を、各スーパーピクセルの復元誤差で初期化する。
【数8】
なお、左辺が拡散誤差であり、右辺はDense復元誤差またはSparse復元誤差である。なお、ここでは、クラスタ内のスーパーピクセルは、復元誤差が大きいスーパーピクセルから順番に1,2,3、・・・のラベル(添え字i)が割り当てられるものとする。
【0075】
そして、次のように、拡散誤差を算出する。
【数9】
【数10】
なお、Ncはクラスタ内のスーパーピクセル数であり、{k1, k2, ..., kNc}はクラスタ内のスーパーピクセルのラベルを表す。τは0<τ<1を満たす重みパラメータである。σは特徴量Xの各次元における分散の和であり、δはデルタ関数である。
【0076】
数式(9)の右辺第1項は、同一クラスタ内の他のスーパーピクセルの再構成誤差を重み付け平均したものといえる。この際の重みが数式(10)のwikjである。右辺第2項は、対象のスーパーピクセルの再構成誤差の初期値である。したがって、数式(9)は全体として、他のスーパーピクセルの再構成誤差の重み付け平均と、対象のスーパーピクセルの再構成誤差の初期値とを、重みパラメータτを用いて重み付け平均する処理といえる。
【0077】
上記のようにして拡散誤差を、各クラスタ内で再構成誤差の大きいスーパーピクセルから順に計算する。同様の処理を全クラスタに対して行う。このような平滑化処理により、元画像の特徴(色特徴や輝度特徴)を考慮して、復元誤差の精度を向上させることができる。
【0078】
図6に平滑化処理の処理結果の例を示した。図6(a)は入力元画像であり、図6(b)は平滑化処理前のDense復元誤差マップ、図6(c)は平滑化処理後のDense復元誤差マップ、図6(d)は平滑化処理前のSparse復元誤差マップ、図6(e)は平滑化処理後のSparse復元誤差マップである。顕著物体(人物)の一部(胴)が周縁部に存在するため、平滑化処理前ではDenseおよびSparseのいずれの復元誤差マップにおいても、顕著領域の一部が背景領域として検出されている(復元誤差が小さく算出されている)。これに対し、平滑化処理を行うことで、元画像の色特徴が考慮されることにより、顕著領域がより正しく認識されるようにできるとともに、顕著領域内での復元誤差(顕著度)をより一様にすることができる。
【0079】
≪統合処理部122d≫
統合処理部122dは、複数のスーパーピクセル画像から生成されたスーパーピクセル単位のDenseおよびSparse復元誤差マップを統合して、画素単位のDenseおよびSparse復元誤差マップをそれぞれ1つ生成する(図2のステップS6aおよびS6b)。さらに、物体の位置を考慮した重み付けを行うことで復元誤差マップを補正(改善)する。なお、統合処理の対象の復元誤差マップがDense復元誤差マップであるかSparse復元誤差マップであるかによって統合処理の内容は変わらないので、両者を区別せずに復元誤差マップと称してまとめて説明する。またこの項では、統合処理部122dに入力されるスーパーピクセル単位の復元誤差マップをSP復元誤差マップと称し、単に復元誤差マップと記した場合は統合処理部122dが生成する画素単位の復元誤差マップを意味するものとする。
【0080】
・複数階層の復元誤差マップの統合処理
統合処理部122dは、複数のSP復元誤差マップを重み付け平均して復元誤差マップを生成する。この際、入力元画像における対象画素の特徴量と、スーパーピクセル画像における当該対象画素が属するスーパーピクセルの特徴量とが近いほど、大きい重み付けを行う。具体的には、次のような演算により各画素の復元誤差を算出することによって、複数のSP復元誤差マップの統合を行う。
【数11】
ここで、zは画素位置、n(s)はs番目(s階層目)のスーパーピクセル画像における画素zを含むスーパーピクセルのラベル、εn(s)の上部にチルダを付した記号はスーパーピクセルn(s)における復元誤差、xn(s)はスーパーピクセルn(s)における特徴量、fは入力画像の画素zにおける特徴量である。
【0081】
このように、画素zと対応するスーパーピクセルの特徴量の類似度を重み付けパラメータとして用いることで、複数の解像度のスーパーピクセル画像から生成されたSP復元誤差マップを統合して、精度の良い復元誤差マップを生成することができる。図7に統合処理部122dによる統合処理結果の例を示す。図7(a)は元画像であり、図7(b)(d)は複数のSP復元誤差マップを単純平均して得た復元誤差マップ、図7(c)(e)は複数の復元誤差マップから本手法による統合を行って得た復元誤差マップである。図7(b)(c)はDense復元誤差マップであり、図7(d)(e)はSparse復元誤差マップである。いずれの復元誤差マップにおいても、本手法による統合を行うことで、顕著領域をより正確に検出できることが分かる。
【0082】
・物体位置を考慮した復元誤差マップの補正
上記の統合結果に、物体の位置を考慮した重み付けをして、復元誤差の補正(改善)を行う。従来は、顕著物体が画像中心にあることを仮定して、画像中心ほど大きい重みをつけた補正が行われていた。本手法では、物体の中心ほど大きな重みをつけて補正を行う。
【0083】
具体的には、統合された復元誤差マップに対して、次のようなガウシアンフィルタを適用する。
【数12】
【0084】
すなわち、復元誤差マップにおける重心を顕著物体の位置とみなして、この位置を中心としたガウシアンフィルタを生成する。なお、フィルタ形状を決定するパラメータσ、σとして例えば画像の幅および高さの1/4を採用することができる。
【0085】
統合化復元誤差マップE(z)に上記のガウシアンフィルタG(z)を掛けて、最終的な復元誤差マップS(z)=E(z)×G(z)が得られる。図8に本手法による補正の効果を示す。図8(a)は入力元画像であり、図8(b)(c)は補正前のDenseおよびSparse復元誤差マップ、図8(d)(e)はDenseおよびSparse復
元誤差マップから算出された物体バイアスガウシアンフィルタG(z)、図8(f)(g)は補正後のDenseおよびSparse復元誤差マップである。補正後の復元誤差マップでは、顕著物体の中心をより正確に表現できており、したがって精度の良い顕著性マップの生成に役立つ。
【0086】
<顕著性マップ生成部>
顕著性マップ生成部123は、復元誤差マップ生成部122が生成したDenseおよびSparse復元誤差マップを融合して、顕著性マップを生成する。本手法では、ベイズ推定を用いてこれらの復元誤差マップを融合する。DenseおよびSparse復元誤差マップは上述のように相補的なものであるため、これらを融合することで精度の良い顕著性マップが得られる。
【0087】
図9を参照して、2つの復元誤差マップの融合方法についてより詳細に説明する。以下では、Dense復元誤差マップ(91)をS、Sparse復元誤差マップ(92)をSと称する。図に示すように、SとSのそれぞれを事前確率として用いて2つの顕著性マップ(95a,95b)を生成し、それらを合成して最終的な顕著性マップ(97)を得る。以下では、事前確率として用いる復元誤差マップをS(i={1,2})と表し、もう一方の復元誤差マップをS(j≠i,j={1,2})と表す。
【0088】
まず、Siについて復元誤差の平均値を閾値として用いて二値化画像(93a,93b)を得る。この二値化によって、画像全体が前景Fi(復元誤差が閾値以上)と背景Bi(復元誤差が閾値未満)に分けられる。前景Fiと背景Biのそれぞれについて、次式のようにSiとSjを比較して、Siの画素zが他の復元誤差マップSjにおいて前景あるいは背景領域にある画素数を求め、その画素数に基づいて前景尤度および背景尤度を算出する。
【数13】
ここで、NFiおよびNBiはそれぞれSiにおける前景および背景の画素数、NbFi(S(z))およびNbBi(S(z))はそれぞれ画素zが他方の復元誤差マップSjの前景および背景領域にある画素数である。
【0089】
次に、復元誤差マップSiと上述のようにして求められた前景尤度および背景尤度を用いてベイズ公式を用いた融合(94a,94b)を次式のように行う。
【数14】
これにより事後確率マップ(95a,95b)が得られる。
【0090】
これら2つの事後確率を以下のように統合(96)して最終的な顕著性マップS(S,S)(97)が得られる。
【数15】
【0091】
Dense復元誤差マップとSparse復元誤差マップをそれぞれ用いることで多様な情報を統合することができる。また、それぞれのマップを事前確率として用いることで、一様に近い顕著性マップを得ることができる。
【0092】
(実験結果)
本手法および従来技術の手法によって得られる顕著性マップについて説明する。図10には、入力元画像、従来技術によって得られる顕著性マップ、本手法によって得られる顕著性マップとそれを二値化したもの、および真画像が示されている。
【0093】
この際、本手法を適用する際には、以下のパラメータを採用している。
SP画像:スーパーピクセル数50〜400の8枚を生成
K−meansクラスタリングのクラスタ数K:8
平滑化(誤差拡散)処理における重みτ:0.5
PCAの主成分ベクトル数D’:寄与率が95%を満たすように決定
スパースコーディングのコスト関数でのパラメータλ:0.01
【0094】
本手法によれば、従来技術と比較して、顕著領域をより精度良く検出できていることが分かる。また、検出結果が一様となっている点も本手法の優れた効果といえる。
【0095】
なお、図10中の従来技術の手法は、それぞれ下記に示す文献に記載のアルゴリズムである。
[IT]L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. PAMI, 20:1254-1259, 1998.
[GB]J. Harel, C. Koch, and P. Perona. Graph-based visual saliency. In NIPS, 2006.
[SR]X. Hou and L. Zhang. Saliency detection: A spectral residual approach. In CVPR, 2007.
[FT]R. Achanta, S. Hemami, F. Estrada, and S. Susstrunk. Frequency-tuned salient region detection. In CVPR, pages 1597-1604, 2009.
[CA]S. Goferman, L. Zelnik-Manor, and A. Tal. Context-aware saliency detection. In CVPR, pages 2376-2383, 2010.
[RA]E. Rahtu, J. Kannala, M. Salo, and J. Heikkilae. Segmenting salient objects from images and videos. In ECCV, pages 366-379, 2010.
[DW]L. Duan, C. Wu, J. Miao, L. Qing, and Y. Fu. Visual saliency detection by spatially weighted dissimilarity. In CVPR, pages 473-480, 2011.
[CB]H. Jiang, J. Wang, Z. Yuan, T. Liu, N. Zheng, and S. Li. Automatic salient object segmentation based on context and shape prior. In BMVC, 2011.
[RC]M.-M. Cheng, G.-X. Zhang, N. J. Mitra, X. Huang, and S.-M. Hu. Global contrast based salient region detection. In CVPR, pages 409-416, 2011.
[SVO]K.-Y. Chang, T.-L. Liu, H.-T. Chen, and S.-H. Lai. Fusing generic objectness and visual saliency for salient object detection. In ICCV, pages 914-921,
2011.
[LR]X. Shen and Y. Wu. A unified approach to salient object detection via low rank matrix recovery. In CVPR, pages 853-860, 2012.
【0096】
(変形例)
上述した実施形態は本発明の一具体例を示したものであり、本発明の範囲をそれらの具体例に限定する趣旨のものではない。
【0097】
例えば、類似度マップ(復元誤差マップ)は、周縁部領域との類似度を表すものであれば、上記以外の任意のアルゴリズムによって生成されても構わない。上述のように、Dense復元とSparse復元に基づく復元誤差(類似度)は、互いに特徴が異なるアルゴリズムでありそれぞれが互いを補うことで精度の良い顕著性マップを生成することがで
きるが、本手法の類似度マップの生成アルゴリズムはこれらに限られるものではない。例えば、多様体ランキング法(Manifold Ranking法)を用いて類似度マップを生成してもよい。また、周縁部領域全体との類似度を求める際に、上端部、下端部、左端部、右端部との類似度をそれぞれ求めて、これらを統合して周縁部領域との類似度を求めるようにしても良い。
【0098】
また、上記の説明では2つのアルゴリズムによって類似度マップを生成しているが、3つ以上のアルゴリズムによって類似度マップを生成してもよい。この場合、これらの類似度マップを統合して最終的な顕著性マップを得るためには、全ての類似度マップのうちの任意の2つの組合せについて、それぞれを事前確率として用いて事後確率を求め、これら事後確率を統合すればよい。類似度マップの数をN個とした場合には、N×(N−1)通りの事後確率を生成して、統合すればよい。
【0099】
また、上記の説明では、解像度の異なるスーパーピクセル画像を生成し、それぞれから類似度マップを生成している。しかしながら、1つのみのスーパーピクセル画像から類似度マップを生成しても構わない。この場合、解像度の異なるスーパーピクセル画像から生成された類似度マップを統合する処理(図2のステップS6a,S6b)は省略すればよい。また、スーパーピクセル化を行うことなく、画素単位の入力画像を対象として類似度マップを生成しても構わない。このようにしても、顕著物体の検出を行うことはできる。
【0100】
また、類似度マップに対する平滑化処理(図2のステップS5a,S5b)も省略可能である。平滑化処理を施すことで、類似度マップにおけるばらつきを平滑化して精度を上げることができるが、この処理を省略しても顕著物体の検出を行うことはできる。
【0101】
また、ベイズ推定を用いて複数の類似度マップを融合して最終的な顕著性マップを生成しているが、複数の類似度マップから最終的な顕著性マップを生成する方法は異なる方法で行ってもよい。例えば、それぞれの類似度マップの平均(単純平均でも重み付け平均でもよい)を最終的な顕著性マップとしてもよい。このような手法であっても、異なるアルゴリズムによって生成された類似度マップの特徴をともに考慮できるので、1つのみのアルゴリズムによって生成された類似度マップを顕著性マップとする場合よりも、精度が向上する。
【0102】
(実装例)
上述した画像処理装置の具体的な実装は、ソフトウェア(プログラム)による実装と、ハードウェアによる実装のいずれも可能である。例えば、画像処理装置に内蔵されたコンピュータ(マイコン、CPU、MPU、FPGA等)のメモリにコンピュータプログラムを格納し、当該コンピュータプログラムをコンピュータに実行させて、各処理を実現させてもよい。また、本発明の全部または一部の処理を論理回路により実現するASIC等の専用プロセッサを設けることも好ましい。また、本発明は、クラウド環境におけるサーバーにも適用可能である。
【0103】
また、例えば、記憶装置に記録されたプログラムを読み込み実行することで前述した実施形態の機能を実現するシステムや装置のコンピュータによって実行されるステップからなる方法によっても、本発明を実施することができる。この目的のために、上記プログラムは、例えば、ネットワークを通じて、又は、上記記憶装置となり得る様々なタイプの記録媒体(つまり、非一時的にデータを保持するコンピュータ読取可能な記録媒体)から、上記コンピュータに提供される。よって、上記コンピュータ(CPU、MPU等のデバイスを含む)、上記方法、上記プログラム(プログラムコード、プログラムプロダクトを含む)、上記プログラムを非一時的に保持するコンピュータ読取可能な記録媒体は、いずれも本発明の範疇に含まれる。
【符号の説明】
【0104】
1 画像処理部
11 画像取得部 12 制御部
121 SP(スーパーピクセル)画像生成部 122 復元誤差マップ生成部
123 顕著性マップ生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10