(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5973572
(24)【登録日】2016年7月22日
(45)【発行日】2016年8月23日
(54)【発明の名称】映像セグメンテーション方法
(51)【国際特許分類】
G06T 7/60 20060101AFI20160809BHJP
G06T 7/00 20060101ALI20160809BHJP
H04N 5/232 20060101ALI20160809BHJP
【FI】
G06T7/60 110
G06T7/00 300B
H04N5/232 Z
【請求項の数】4
【全頁数】12
(21)【出願番号】特願2014-525964(P2014-525964)
(86)(22)【出願日】2012年6月19日
(65)【公表番号】特表2014-527671(P2014-527671A)
(43)【公表日】2014年10月16日
(86)【国際出願番号】RU2012000478
(87)【国際公開番号】WO2013025123
(87)【国際公開日】20130221
【審査請求日】2015年2月13日
(31)【優先権主張番号】2011134204
(32)【優先日】2011年8月15日
(33)【優先権主張国】RU
(73)【特許権者】
【識別番号】515320950
【氏名又は名称】アルマレンス,インコーポレイティド
(74)【代理人】
【識別番号】110001302
【氏名又は名称】特許業務法人北青山インターナショナル
(72)【発明者】
【氏名】シムニコ,ドミトリー ヴァレリーヴィチ
【審査官】
佐藤 実
(56)【参考文献】
【文献】
特開平10−069545(JP,A)
【文献】
特開2002−170117(JP,A)
【文献】
特開2004−258750(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/60
H04N 5/232
(57)【特許請求の範囲】
【請求項1】
コスト関数の最適値の探索を含む映像セグメンテーション方法において
前記探索が粗ら精へN個の映像詳細レベルで行われ、
各映像詳細レベルにおいて映像が領域に分割され、(セグメント化される)
各領域にn回の逐次反復の手段により単一のセグメンテーション値が割り当てられ、
各反復において、領域境界におけるシームのコスト関数の値が種々のバージョンの映像セグメンテーションについて計算され、
領域ごとに、シームおよびデータのコスト関数の組み合わせを最適化するセグメンテーション値が選択され、
データおよびシームのコスト関数の組み合わせへのシームのコスト関数の入力が反復の一部において低減される
ことを特徴とする方法。
【請求項2】
請求項1に記載の方法において、各反復における最適値の探索が共通の境界をもたない映像領域の処理により行わること、および処理する領域の選択が各反復において変更されることを特徴とする方法。
【請求項3】
請求項1に記載の方法において、コスト関数の最適値がコスト関数の最小値として探索されることを特徴とする方法。
【請求項4】
請求項1に記載の方法において、シームおよびデータのコスト関数の組み合わせが算術的合計であることを特徴とする方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、写真およびビデオの撮像の領域、特に、写真カメラおよびビデオ・カメラの組み込まれた移動装置を用いるそれらの領域に関係し、たとえば、数ショットの入力フレームから出来上がる映像の品質を改善するために使用することができる。
【背景技術】
【0002】
数ショットの入力フレーム(スナップショット)の曝露は、一般的に異なる時刻に発生するので、移動(不安定な)物体の異なる位置にシーン照明の状態の変化(たとえば、雲量の変化の結果)中に現れる種々のフレーム間のシーンの形成においてひずみが存在する。それは、出来上がった映像の品質に影響を及ぼし、かつ、以下において現れる:
− 不安定な物体の二重輪郭および、場合によっては、映像中の移動物体の個数の重複
− 不安定な物体の半透明
− 映像の種々の領域の明るさおよびカラー・バランスの著しい不規則性。
【0003】
現在、移動装置の働きにより写真の品質を改善する方法の1つは、短い時間内に数ショットのフレームを撮影し、続いて数個の映像をステッチすることにより単一の出来上がり写真に合成することである(パノラマ映像、ダイナミック・レンジを強化した映像の生成、映像雑音のレベルの低減)。これを行う際、ステッチは、シームが隣接初期映像中の最小差異の軌跡により通過し、かつ、シームが不安定な物体をバイパスするように行われるべきである。最適シーム軌跡を決定する広く行き渡っている方法は、種々の映像セグメンテーション方法を使用する[Alexander Vezhnevets,Olga Barinova,“Image Segmentation Methods:Automatic Segmentation”,Computer Graphics and Multimedia,Issue No.4(4)/2006:http://cgm.computergraphics.ru/content/view/147]。
【0004】
映像セグメンテーションおよびステッチは、数個の初期映像から1つの映像を生成する次のような場合に最も適する:
− それぞれ、パノラマの一部のみを描く数ショットからパノラマ的映像を生成すること
− 数枚の初期のダイナミック・レンジの低い写真から高いダイナミック・レンジの映像を生成すること
【0005】
セグメンテーションの使用により映像の品質を改善する種々の方法がある。
【0006】
クラスタリング手法は、一定の特徴空間に割り当てられる映像点の表現を使用する。そしてこの特徴空間は、測定基準(接近性の測定単位)を導入する。
【0007】
この方法の不利益は、点の空間的配置がまったく考慮されないか、または間接的に考慮される(たとえば、点の座標を特徴の1つとして使用する)ことにある。そのせいで、通常、映像点のクラスタリング後に、接続される構成要素を定義する手順が行われる。さらに、クラスタリング手法は、雑音の多い映像ではよく働かない:しばしば離れている領域点が失われ、いくつかの小さい領域が生じる、等々。
【0008】
領域成長の方法[A.Tremeau and N.Borel,“A Region Growing and Merging Algorithm to Color Segmentation”,Pattern Recognition,1997;Y.Kanai,“Image Segmentation Using Intensity and Color Information”,SPIE−Visual Communications and Image Processing ’98;B.Cramariuc,M.Gabbouj,and J.Astola,“Clustering Based Region Growing Algorithm for Color Image Segmentation”,International Conference on Digital Signal Processing,1997;and Y.Deng,B.S.Manjunath, and H.Shin,“Color Image Segmentation”,CVPR 1999]は、点の空間的配置を直接考慮する。第1に、一定の規則に従って、領域の中心を選択し、次に一定の基準を満たす隣接点を段階的に中心に加える。領域拡張プロセスは、映像点のいずれももはやいずれの領域にも追加できなくなったときに停まる。領域に点を追加するか否かを定める種々の基準が使用される:点の領域中心への近さ、前のステップで領域に追加された隣接点への近さ、一定の領域統計値による接近度、点から領域中心への最短パスのコスト等。大部分、領域拡張プロセスを利用して離隔領域を処理する。しかし数個の領域についてこの手順に段階的または同時に従うことにより、映像全体の分割を取得することが可能である。
【0009】
この方法の不利益は、シーム・ステッチの処理にそれを適用できないことである。それは、ただ1つの基準映像がある場合にのみ適用される。また、それは、移動装置の非常に大量のメモリ資源を必要とする。さらにデータ処理の速度も十分に速くない。
【0010】
フラグメンテーション・マージング方法[A.Tremeau and N.Borel,“A Region Growing and Merging Algorithm to Color Segmentation”,Pattern Recognition,1997;B.Cramariuc,M.Gabbouj,and J.Astola,“Clustering Based Region Growing Algorithm for Color Image Segmentation”,International Conference on Digital signal Processing,1997;M.Celenk,“Hierarchical Color Clustering for Segmentation of Textured Images”,Proceedings of the 29th Southeastern Symposium on System Theory,1997];[S.Ji and H.W.Park,“Image Segmentation of Color Image Based on Region Coherency”,Proceedings of ICIP ’98;L.Shafarenko,M.Petrov,and J.Kittler,“Automatic Watershed Segmentation of Randomly Textured Color Images”,IEEE Transactions on Image Processing,1997;and M.Barni,S.Rossi,and A.Mecocci,“A Fuzzy Expert System for Low Level Image Segmentation”,EUSIPCO−96]は、次の2つの主要な段階から構成されている:フラグメンテーションおよびマージング。フラグメンテーションは一定の映像の分割から始まるが、しかし必ずしも一律の領域への分割ではない。領域フラグメンテーション・プロセスは、セグメント均一性の要件を満たす分割される映像が存在するまで行われる(超過セグメンテーション)。次に、最大サイズの一律領域への映像分割が得られるまで類似隣接セグメントの統一が行われる。
【0011】
この方法の不利益は、低いデータ処理速度、メモリ資源増加の必要性、単一基準映像の場合のみに使用されることである。
【0012】
マルコフ・フィールド・モデル化[G.R.Cross and A.K.Jain,“Markov Random Field Texture Models”,IEEE Transactions on Pattern Analysis and Machine Intelligence,1983;S.German and D.German,“Stochastic Relaxation,Gibbs Distributions,and the Bayesian Restoration of Images”,IEEE Transactions on Pattern Analysis and Machine Intelligence,1984;R.Szeliski,R.Zabih,D.Scharstein,O.Veksler,V.Kolmogorov,A.Agarwala,M.Tappen,C.Rother,“A Comparative Study of Energy Minimization Methods for Markov Random Fields with Smoothness−based Priors”,IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.30,no.6,June 2008]は、映像の各点の色は一定数の隣接点の色に基づくという仮説に基づいている。この映像モデルの概要が提示される。テクスチャ分割を要約することも可能である。[Y.Deng,B.S.Manjunath,and H.Shin,“Color Image Segmentation”,CVPR 1999.]。
【0013】
この方法の不利益は、その実行が難しいことである。
【0014】
エッジ検出演算子に基づく方法[M.Jacob,M.Unser,“Design of Steerable Filters for Feature Detection Using Canny−like Criteria”,IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.26,no.8,pp.1007−1019;Atilla Ozmen and Emir Tufan Akman,“Edge Detection Using Steerable Filters and CNN”,2002]は、セグメンテーションを利用する。このセグメンテーションは、領域境界を見出すことから成り立っており、ハーフトーン映像にとって好適な解決策である。ハーフトーン映像は2つの変数の関数とみなされ、かつ、領域境界はこの関数の勾配の最大値に対応すると仮定される。これらを見出すために、微分幾何学が利用される。雑音に対する抵抗力を強めるために、濾過作用を用いる前に、映像は、通常、ぼやかされる。ラプラス演算子とガウスのフィルタの交換可能性のために、ぼやかしと境界発見を同時に行うことが可能である。
【0015】
この方法の不利益は、映像雑音に対する抵抗力の欠如である。さらに、境界の定義が各処理について異なるので、境界発見方法が適用される都度、濾過結果の修正方法を選択する必要がある。
【0016】
最適化方法[Y.Deng,B.S.Manjunath,and H,Shin,“Color Image Segmentation”,CVPR 1999]は、映像の均一な領域への分割から構成され、この分割は最適化処理となる。このために、このセグメンテーション処理は、一定の品質をもつ映像の分割を探索する処理として考案されており、次に、得られたセグメンテーションの提示要件への一致の程度を反映する関数が導入される。たとえば、映像上の色の分布を使用するセグメンテーション品質関数が導入される。
【0017】
この方法の不利益は、その労働集約性および移動装置の資源に関する高度の要件である。
【0018】
これらすべての方法の共通の不利益は、次のとおりである:
−これらの方法は1つの基準映像のみに機能し得るという事実のために、得られたセグメンテーションをステッチ処理に適用できないこと(領域拡張方法、フラグメンテーション・ブレンディング、エッジ検出)
−移動装置について適用できないシステム資源要件−計算装置のメモリおよび動作速度(クラスタリング手法、領域拡張、フラグメンテーション・ブレンディング、マルコフ確率場、グラフ理論方法、最適化法)
−雑音の多い映像の場合の不十分な働き(クラスタリング手法、エッジ検出)
−点の空間配置を考慮しないこと(クラスタリング)。
【0019】
グラフ・カット最小化方法は、提案する解決方法に最も近い[米国特許第6,744,923号明細書、“System and Method for Fast Approximate Energy Minimization via Graph Cuts”;and R.Szeliski,R.Zabih,D.Scharstein,O.Veksler,V.Kolmogorov,A.Agarwala,M.Tappen,C.Rother “A Comparative Study of Energy Minimization Methods for Markov Random Fields with Smoothness−based Priors”,IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.30,no.6,June 2008]。映像は、映像点中にノードを持つ重みづけグラフの形態で提示される。グラフ・リンクの重みは、点の類似性を反映する(たとえば、一定の測定基準による点相互間の距離)。映像分割は、グラフ・カットによりモデル化される。グラフ理論の方法は、得られるセグメンテーションの品質を反映するカット「コスト」の関数を導入する。したがって、均一領域への映像分割の処理は、最小コストのグラフ・カットを見出す最適化処理となる。色の均一性およびセグメントのテクスチャは別として、この方法は、セグメントの形状、セグメントのサイズ、境界の複雑性等の制御を可能にする。最小コストのカットを見出す多数の方法が存在する。欲張りアルゴリズム(各段階において合計カット・コストを最小にするリンクを選択する)、ダイナミック・プログラミング法(最適パスをもたらす最適リンクの各段階における選択を保証する)等。
【0020】
この方法の不利益は、解決を得るために必要な多数の計算による動作速度の低下および最適カットを見出すために大量の追加メモリを設ける必要性である。
【発明の概要】
【0021】
著者は、次の要件を満たす映像セグメンテーション方法を設計する課題に着手した:
−動作速度
−最適映像セグメンテーション−すなわち、シーム・コスト関数および映像データのコスト関数の合計のグローバル・ミニマムの達成に役立つセグメンテーション(色、輝度およびその他のパラメータに基づく)−および得られるセグメンテーションの絶対的最適フラグメンテーションとの近さ、最良の既知方法に類似している
−移動装置において追加メモリ資源を必要としないこと
−映像雑音に対する抵抗力。
【0022】
この技術的解決方法の本質は、コスト関数の最小値を探す既知の映像セグメンテーション方法において、この探索を粗から精へN個の映像詳細レベルにおいて行い、かつ、各映像詳細レベルにおいてこの映像を領域に分割し、n回の逐次反復の手段により各領域に単一のセグメンテーション値を割り当てることにある。その後、領域境界におけるシームのコスト関数の値を種々のタイプの映像セグメンテーションについて計算し、かつ、領域ごとにシームおよびデータのコスト関数の合計を最小化するセグメンテーション値を選択する。セグメンテーション結果に対するシームの影響を除くことが重要である場合(たとえば、映像方向−独立なセグメンテーションが必要である場合、)各後続反復における最小値の探索は、共通境界をもたない映像領域を処理することにより行い、かつ、処理のための領域の選択は各後続反復において更新する。さらに、局部領域の周りのシームの高コストにより生成されるローカル・ミニマムの1つにおいてグローバル・ミニマムを探索するトラップを回避するために、コスト関数の合計中におけるシーム関数の寄与を低減して、詳細レベルごとの数回の初期反復を行う。これは、シームがコストのピークをくぐりぬける(漏れ出る)ことを可能にする。
【図面の簡単な説明】
【0023】
【
図1】
図1は、基準映像の例を示す。その色空間は、12色に最適に分割される。
【
図2】
図2は、データのコスト関数のみに基づく最も粗い詳細レベルの基準セグメンテーションの例を示す。シームのコスト関数は、ゼロに等しいと仮定されている。
【
図3】
図3は、第1回反復後のセグメンテーション状態を示す。丸められた頂部をもつ矩形は、所与の反復において処理された方形を表す。水平の陰影は、所与の反復において変更されたセグメンテーションによる方形を表す。垂直陰影−セグメンテーションが保持された方形。
【
図4】
図4は、第2回反復後のセグメンテーション状態を示す。
【
図5】
図5は、詳細レベルのそれぞれにおけるセグメンテーションの最終結果を示す。右下隅は、出来上がったセグメンテーション解決を示す。
【
図6】
図6は、論文、R.Szeliski,R.Zabih,D.Scharstein,O.Veksler,V.Kolmogorov,A.Agarwala,M.Tappen,and C.Rother,“A Comparative Study of Energy Minimization Methods for Markov Random Fields with Smoothness−based Priors”,IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.30,no.6,June 2008において記述されているパノラマ・ステッチ処理においてグローバル・ミニマムを達成する種々の方法の収束グラフを示す。
【
図7】
図7は、グローバル・ミニマムからの偏差を拡大目盛りで示す
図6の拡大グラフ版である。
【
図8】
図8は、グローバル・ミニマムからの偏差を拡大目盛りで示す
図6の拡大グラフ版である。
【0024】
[
図6について]
縦軸は、グローバル・ミニマムからの%単位の偏差であり、横軸は、秒単位の対数時間軸である。これらのグラフは、以下を表す:
−マルコフ確率場の方法“Iterated Conditional Modes”
−グラフ・カット方法の変形“Loopy Belief Propagation”
−“Loopy Belief Propagation”方法に類似の方法、“Tree−reweighted Message Passing”の方法
−グローバル・ミニマムの下限の予測
−「グラフ・カット」方法の別の変形
−提案する方法、円は、全処理時間およびグローバル・ミニマムからの得られた偏差を示す。
【発明を実施するための形態】
【0025】
提案する方法は、次の方法で実行する:基準映像にN回の詳細レベル操作を施す(たとえばサイズが近い領域への無作為分割)。各詳細レベルにおいて、シームおよびデータの関数の合計値の低減に通ずる領域セグメンテーションの変更が残っている限り、または移動装置の合計処理時間により制限される所与の詳細レベルの反復の最大許容回数に到達するまでn回の反復を行う。
2種類のコスト関数を使用する:
− 特定の映像ピクセルのセグメントの1つへの割り当ての適切さを示すデータのコスト関数。たとえば、ピクセルの色の数値とセグメントの色間の差異の絶対値。
− シームのコスト関数は、セグメントの境界軌跡の所与の場所における適切さを示す。
【0026】
各詳細レベルにおいて、シームは、領域の境界に沿ってのみ進行することができる。領域の形態は、詳細レベルのそれぞれについて変化しない状態を保つ。初期の粗い反復に続く修正反復は、コスト関数のローカル・ミニマムのくぐりぬけ(漏れ出ること)を許容し、また、結果のセグメンテーションはグローバル・ミニマムに近いので、シームの軌跡に関するこの制限は受け入れられると思われる。
【0027】
映像フラグメンテーションにより得られ、かつ、シームのコストを考慮せずにデータのコスト関数の値のみに基づくセグメンテーションを初期セグメンテーションとして使用する。このようなセグメンテーションの下で、所与の領域のすべてのピクセルについて最小合計を与えるセグメント値を映像ピクセルの各領域に割り当てる。ピクセル領域の組み合わせ値について初期の(粗)詳細レベルの反復を行う。
各後続反復は、前のものに比してより適切なセグメンテーションを見出す。
【0028】
各反復において、ピクセル領域のそれぞれに、次の処理を行う:
− データおよび所与の領域を囲むシームのコストを含むコスト関数の局部値を計算する。
− 所与の領域のすべての可能なセグメンテーション値についてコスト関数を計算する。
− 所与の領域のセグメンテーションの初期選択が最適でない場合(関数の値が他のどのセグメンテーションの場合より高い)、所与の領域の値を最適の値(コスト関数の最小値をもつ)により置き換える。
【0029】
領域を順次処理する。同時に、特定領域のセグメント値が所与の領域の境界に沿って通過するシームのコストに影響を及ぼし、結果のセグメンテーションの処理される領域の順序に対する依存をもたらす。セグメンテーション結果に対するシームの影響を除去することが重要である場合(たとえば、映像方向−独立なセグメンテーションが必要な場合)、共通の境界をもたない映像領域を処理することにより、反復の各パスにおいて最小値の探索を行う。処理する領域の選択は、各後続反復において変更する。
【0030】
さらに、領域における雑音の結果として任意の局部領域の周りのシームの高コストにより生成されるローカル・ミニマムの1つにおいてグローバル・ミニマムを探索するトラップを回避するために、コスト関数の合計へのシーム関数の入力を低減して、詳細レベルごとの数回の初期反復を行う。これは、シームがコストのピークをくぐりぬける(漏れ出る)ことを可能にする。後続の反復は、シーム関数の通常入力で行う。
【0031】
図1〜
図5は、提案する方法の特定の実施例を示している。この場合、基準映像は方形に分割され、かつ、シームは方形境界に沿ってのみ通過できる。1つの基準映像の色空間のセグメンテーションの説明が示されている。数個の映像のセグメンテーション中、データおよびシームのコスト関数のみ変化する。関数パラメータとしてピクセルの色の値を使用する代わりに、種々の映像の近接性の程度(たとえば、輝度の差異)を反映するその他の値を使用するからである。
【0032】
各反復において、方形のそれぞれに以下の処理を施す:
− データおよび所与の方形を囲むシームのコストを含むコスト関数の局部値を計算する。
− 所与の方形のすべての可能なセグメンテーション値についてコスト関数を計算する。
− 所与の領域のセグメンテーションの初期選択が最適でない場合(関数の値が他のどのセグメンテーションの場合より高い)、所与の方形の値を最適の値(コスト関数の最小値をもつ)により置き換える。
【0033】
偶数および奇数の反復を交互に行う。この順番より、別の反復の処理の結果はシーム軌跡の方向に依存しない。したがって、各シーム(方形の辺上)は、所与の反復から1つの方形のみの影響を受け、他の隣接方形の影響を受けない。
【0034】
非実際的に長いセグメント境界を除去するために、隣接ピクセルのカラー数値の絶対差に一定のプラスの定数を加えた値を特定ピクセルのシームのコスト関数として使用する。この場合、この定数は、シームの合計長の増加に応じてシームのコスト関数の値を増大させる。
【0035】
ローカル・ミニマムの1つの中においてグローバル・ミニマムを探索するトラップを回避するために、各詳細レベルにおける最初の3回の反復は、それぞれ、0.6、0.75および0.9の係数の低減シーム・コスト関数で行う。
【0036】
処理速度は、最適セグメンテーションの現在の近似および各反復においてデータのコスト関数のみにより条件づけられたセグメンテーションを保存する手段により、さらに上げることができる。このデータのサイズは、映像ピクセルの2倍に等しい。追加メモリは、データおよびシームのコスト関数を計算するために必要な基準データの格納のためにのみ必要であるか、または、必要である場合に、所与の関数の事前計算値のために必要である(それは、処理全体を通じて各ピクセルについて定数であるからである)。
【産業上の利用可能性】
【0037】
この方法は、現在存在する類似の方法と比較して次の長所をもっている:
1. 動作速度 現在行き渡っている移動装置(2011年リリース)における合計処理時間−1秒以内
2. セグメンテーション品質(絶対/最適セグメンテーションとの接近度)は、既知の最も優れた方法と同様である。
3. この方法を実現する場合のメモリ資源の要求条件は非常に低い。
4. この方法は、ローカル・ミニマムにトラップが存在しないために映像雑音に強い。