(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-19
(45)【発行日】2024-01-29
(54)【発明の名称】画素の深度を推定するための方法、対応するデバイス、およびコンピュータプログラム製品
(51)【国際特許分類】
G06T 7/55 20170101AFI20240122BHJP
G01C 3/06 20060101ALI20240122BHJP
【FI】
G06T7/55
G01C3/06 110V
(21)【出願番号】P 2021502893
(86)(22)【出願日】2019-07-17
(86)【国際出願番号】 EP2019069246
(87)【国際公開番号】W WO2020016299
(87)【国際公開日】2020-01-23
【審査請求日】2022-07-07
(32)【優先日】2018-07-19
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】521019680
【氏名又は名称】インターデジタル シーイー パテント ホールディングス,エスアーエス
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】バボン,フレデリック
(72)【発明者】
【氏名】サバテール,ノイス
(72)【発明者】
【氏名】ホグ,マシュー
(72)【発明者】
【氏名】ドワイヤン,ディディエ
(72)【発明者】
【氏名】ボワソン,ギヨーム
【審査官】山田 辰美
(56)【参考文献】
【文献】国際公開第2014/196374(WO,A1)
【文献】特開2017-102708(JP,A)
【文献】特開2010-021843(JP,A)
【文献】Katja Wolff et al.,Point Cloud Noise and Outlier Removal for Image-Based 3D Reconstruction,2016 Fourth International Conference on 3D Vision (3DV),米国,IEEE,2016年10月25日,https://ieeexplore.ieee.org/abstract/document/7785084
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/55
G01C 3/06
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ライトフィールドコンテンツのM個の画像(M>2)の行列内の画素の深度を推定するための方法であって、前記M個の画像の中から取られたN個の画像(2<N≦M)の少なくとも1つのセットに対して、
-N個の深度マップのセットを提供する前記N個の画像のセット内の前記画像に対する深度マップを判定することと、
-前記N個の画像のセットの現在の画像内の少なくとも1つの現在の画素に対して、
-前記N個の深度マップのセットのうちの1つの深度マップ内の前記現在の画素に関連付けられた深度値に対応する候補深度が、前記N個の深度マップのセットの前記他の深度マップ(複数可)と整合するか否かを判断することと、
-前記候補深度が前記N個の深度マップのセットの前記他の深度マップ(複数可)と整合すると判断された場合、前記候補深度を前記現在の画素に対する前記推定された深度であるとして選択することと、を含む、プロセスを含む、方法。
【請求項2】
ライトフィールドコンテンツのM個の画像(M>2)の行列内の画素の深度を推定するためのデバイスであって、前記M個の画像の中から取られたN個の画像(2<N≦M)の少なくとも1つのセットに対して、
-N個の深度マップのセットを提供する前記N個の画像のセット内の前記画像に対する深度マップを判定することと、
-前記N個の画像のセットの現在の画像内の少なくとも1つの現在の画素に対して、
-前記N個の深度マップのセットのうちの1つの深度マップ内の前記現在の画素に関連付けられた深度値に対応する候補深度が、前記N個の深度マップのセットの前記他の深度マップ(複数可)と整合するか否かを判断することと、
-前記候補深度が前記N個の深度マップのセットの前記他の深度マップ(複数可)と整合すると判断された場合、前記候補深度を前記現在の画素に対する前記推定された深度であるとして選択することと、を含む、プロセスを実施するように構成されたプロセッサまたは専用コンピューティングマシンを含む、デバイス。
【請求項3】
N<Mであり、前記N個の画像のセットは、前記M個の画像の中から取られたN個の画像の複数のセットに属し、
前記プロセスの各反復は、N個の画像のセットごとに実行される、
請求項1に記載の方法。
【請求項4】
前記現在の画素の候補深度が整合するか否かを前記判断することは、前記現在の画素の前記候補深度と前記N個の深度マップのセットの前記他の深度マップ(複数可)との間の幾何学的整合性を判定することを含む、
請求項1に記載の方法。
【請求項5】
幾何学的整合性を前記判定することは、
-前記現在の画像とは異なる前記N個の画像のセットの別の画像における理論位置を判定することであって、前記理論位置は、前記現在の画素に関連付けられたオブジェクトポイントの前記他の画像における投影および前記候補深度に対応する、判定することと、
-前記N個の深度マップのセット内の前記他の画像に関連付けられた深度マップに基づいて、前記理論位置に関連付けられた深度値を取得することと、
-前記現在の画像において、前記理論位置および前記深度値に関連付けられた別のオブジェクトポイントの前記現在の画像における投影に対応する別の理論位置を判定することと、を含み、
前記現在の画素と前記他の理論位置との間の前記現在の画像内の距離が所定の閾値を下回るとき、前記現在の画素の前記候補深度が整合すると判断される、
請求項4に記載の方法。
【請求項6】
N>3であり、
別の画像における理論位置を前記判定することは、理論位置の対応するセットを提供する、前記現在の画像以外の前記N個の画像のセットのすべての他の画像に対して実施され、
前記理論位置に関連付けられた深度値を前記取得することは、深度値の対応するセットを提供する、前記理論位置のセット内のすべての前記理論位置に対して実施され、
前記現在の画像において、別の理論位置を前記判定することは、前記理論位置のセット内のすべての前記理論位置に対して、および前記現在の画像内の他の理論位置のセットを提供する、前記深度値のセット内のすべての前記関連する深度値に対して実施され、
前記現在の画素と前記他の理論位置との間の距離が前記所定の閾値を下回るとき、前記現在の画素の前記候補深度は整合すると判断される、
請求項5に記載の方法。
【請求項7】
前記現在の画素の候補深度が整合するか否かを前記判断することは、前記現在の画素と前記理論位置(複数可)との間の写真整合性を判定することをさらに含む、
請求項4に記載の方法。
【請求項8】
前記N個の画像のセット内の前記画像に対する深度マップを前記判定することは、少なくとも前記現在の画素に対して、
-P≦Pmaxであり、Pmaxが、前記現在の画素の近傍で取られた、前記現在の画像内の画素の総数である場合、前記現在の画像のP画素の空間パッチと、
-前記現在の画像に関連付けられた深度マップ内の前記現在の画素に関連付けられた前記候補深度を提供する、前記N個の画像のセット内の前記現在の画像とは少なくとも別の画像における前記P画素の空間パッチの少なくとも投影と、の間でマッチング技術を実施し、
深度マップを前記判定することは、反復的に実施され、深度マップを前記判定することの各新しい反復は、深度マップを前記判定することの前の反復において使用された前の値Pよりも低い新しい値Pで実行される、
請求項1に記載の方法。
【請求項9】
P<Pmaxであり、P画素の前記空間パッチは、P画素の複数の空間パッチに属し、
深度マップを前記判定することの所与の反復に対して、前記マッチング技術が、前記現在の画素に関連付けられた中間深度値のセットおよび対応する信頼値のセットを提供する、P画素の前記複数の空間パッチに属するP画素の各空間パッチに対して連続的に実施され、
前記現在の画像に関連付けられた前記深度マップ内の前記現在の画素に関連付けられた前記候補深度は、前記中間深度値のセット内のより高い信頼値の中間深度値である、
請求項8に記載の方法。
【請求項10】
前記マッチング技術は、コスト関数の最小化を実施し、前記マッチング技術の前記連続的な実施は、前記コスト関数の最小値のセットをさらに提供し、前記信頼値は、少なくとも、
-前記最小値のセット内の最小値、または
-前記最小値のセット内の前記最小値と少なくとも最後から3番目の最小値との組み合わせ、の関数である、
請求項9に記載の方法。
【請求項11】
前記プロセスは、反復的に実施され、前記プロセスの各新しい反復は、前記プロセスの前の反復において使用された前のN値よりも低い新しいN値で実行される、
請求項1に記載の方法。
【請求項12】
プログラムがコンピュータまたはプロセッサ上で実行されるとき、請求項1に記載の方法を実装するためのプログラムコード命令を含むことを特徴とする、
コンピュータプログラム。
【請求項13】
前記プログラムコード命令がプロセッサによって実行されるとき、請求項1に記載の方法を実行するプログラムコード命令を記憶する、非一時的コンピュータ可読キャリア媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、ライトフィールド(LF)コンテンツ(例えば、LF画像またはビデオ)の分野に関する。
【0002】
より具体的には、本開示は、LFコンテンツ内の画像に属する画素の深度を推定するための方法に関する。
【0003】
本開示は、専門家と消費者の両方にとっては、LFキャプチャが使用される任意の分野において、関心を引くものであり得る。
【背景技術】
【0004】
LFコンテンツは、
-すなわち、画像の行列に属する画像が、例えばプレノプティックカメラなどのメインレンズシステムに加えてマイクロレンズアレイを使用して単一のカメラから同時にキャプチャされたサブアパーチャ画像であるビデオ内のレンズレットベースのビデオとしても知られるプレノプティックビデオ、または
-すなわち、画像の行列に属する画像が、典型的には、いくつかのカメラを含むカメラアレイ(カメラリグとしても知られる)を使用して、複数のカメラアングルから同時にキャプチャされたビデオ内のマルチビュービデオ、のいずれかにある。
【0005】
LFコンテンツ内の画素の深度の推定は、ほとんどの場合、2つの異なる視点から同じシーンをキャプチャする少なくとも2つのビューの可用性に基づいて、そのような深度を判定するために古典的に使用されている既知の技術(例えば、マッチング技術)のLFコンテンツに属する各ビューへの重複になる。
【0006】
しかしながら、2つの異なるビューの使用に基づくアプローチは、例えば、オクルージョンが発生する特定の場合において、信頼できる結果をもたらすことができない。実際、その場合、所与のビューによってキャプチャされたシーンの一部が他のビューではキャプチャされていない可能性がある。その場合、深度を判定することができないか、またはそのような既知のアルゴリズムによって異常値が返される。
【0007】
例えば、H.Zhu,Q.Wang and J.Yu,“Occlusion-Model Guided Anti-Occlusion Depth Estimation in Light Field,”in IEEE Journal of Selected Topics in Signal Processing,vol.11,no.7,pp.965-978,Oct.2017の論文のようなオクルージョンが発生したとき、深度推定においてより信頼性の高い結果を得るために、LFコンテンツにおいて利用可能な最大数の視点を使用するためのいくつかの提案がなされている。しかしながら、そのようなアプローチは、依然として改善することができる。
【0008】
結果として、特にオクルージョンの存在下で、強制的な整合性を有する画素の深度を推定するために、LFコンテンツ内の異なるビューに関連する情報を利用する方法が必要である。
【0009】
また、推定された深度において高い品質を可能にするそのような方法を有する必要がある。
【発明の概要】
【0010】
本開示は、ライトフィールドコンテンツのM個の画像(M>2)の行列内の画素の深度を推定するための方法に関する。そのような方法は、M個の画像の中から取られたN個の画像(2<N≦M)の少なくとも1つのセットに対して、
-N個の深度マップのセットを提供するN個の画像のセット内の画像に対する深度マップを判定することと、
-N個の画像のセットの現在の画像内の少なくとも1つの現在の画素に対して、
-N個の深度マップのセットのうちの1つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、N個の深度マップのセットの他の深度マップ(複数可)と整合するか否かを判断することと、
-候補深度がN個の深度マップのセットの他の深度マップ(複数可)と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを含む。
【0011】
プロセスは、反復的に実施され、プロセスの各新しい反復は、プロセスの前の反復において使用された前のN値よりも低い新しいN値で実行される。
【0012】
本開示の別の態様は、ライトフィールドコンテンツのM個の画像(M>2)の行列内の画素の深度を推定するためのデバイスに関する。そのようなデバイスは、M個の画像の中から取られたN個の画像(2<N≦M)の少なくとも1つのセットに対して、
-N個の深度マップのセットを提供するN個の画像のセット内の画像に対する深度マップを判定することと、
-N個の画像のセットの現在の画像内の少なくとも1つの現在の画素に対して、
-N個の深度マップのセットのうちの1つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、N個の深度マップのセットの他の深度マップ(複数可)と整合するか否かを判断することと、
-候補深度がN個の深度マップのセットの他の深度マップ(複数可)と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを実施するように構成されたプロセッサまたは専用コンピューティングマシンを含む。
【0013】
プロセスは、反復的に実施され、プロセスの各新しい反復は、プロセスの前の反復において使用された前のN値よりも低い新しいN値で実行される。
【0014】
加えて、本開示は、前述のライトフィールドコンテンツのM個の画像の行列内の画素の深度を推定するための方法を実装するためのプログラムコード命令を含む、プログラムコード命令を含む、その上に記録され、プロセッサによって実行することができるコンピュータプログラム製品を含む非一時的コンピュータ可読媒体に関する。
【図面の簡単な説明】
【0015】
実施形態の他の特徴および利点は、指示的かつ非網羅的な例によって与えられる以下の説明から、ならびに添付の図面から明らかになる。
【
図1】一実施形態による、LFコンテンツの画像の行列を例示する。
【
図2a-2b】一実施形態による、画像(または角度パッチ)の複数のセットを各々例示する。
【
図3a-3b】一実施形態による、画素の複数の空間パッチを各々例示する。
【
図4】一実施形態による、
図1の画像の行列内の画素の深度を推定するための方法のフローチャートを例示する。
【
図5】一実施形態による、
図1の画像の行列内の異なる画像に対応するあるビューから別のビューへの変化を例示する。
【
図6】
図4の方法を実装するために使用することができる例示的なデバイスを例示する。
【発明を実施するための形態】
【0016】
本文書のすべての図において、同じ参照符号は、類似の要素およびステップを示す。
【0017】
次に、
図1と関連して、一実施形態による、LFコンテンツの画像100miの行列について説明する。
【0018】
画像100miの行列は、LFキャプチャシステムによって同時に、すなわち所与の瞬間にキャプチャされる4つの画像を含む。他の実施形態では、画像の行列は、LFキャプチャシステムによって同時にキャプチャされた2つを超える任意の数の画像を含む。
【0019】
図1に戻ると、画像100miの行列の各画像は、同じシーンの異なるビューに対応する。その意味では、画像と対応するビューとの間に等価性がある。例えば、そのようなLFキャプチャシステムは、カメラアレイ(またはカメラリグ)であり、各画像は、カメラアレイの異なるカメラによって撮影される。他の例では、LFキャプチャシステムは、プレノプティックカメラであり、画像の行列に属する画像は、サブアパーチャ画像である。
【0020】
画像100miの行列に属する画像の中に、現在の画像100ciと、現在の画像100ciに属する現在の画素100cpとがある。続いて、現在の画素100cpに対しては、深度がまだ推定されていないと仮定するので、
図4に関して以下で考察される本開示による画素の深度を推定するための方法のステップを詳細に説明するための例として、現在の画素100cpが取り上げられる。
【0021】
次に、
図2aと関連して、一実施形態による、画像200Nの複数200pNのセットについて説明する。
【0022】
複数200pNの画像200Nの各セット(「角度パッチ」とも呼ばれる)は、画像100miの行列の4つの画像の中から取られた3つの異なる画像(ダークグレーで描写される)を含む。
【0023】
画像200Nのそのようなセットおよび画像200Nのそのような複数200pNのセットが、
図4に関して以下で考察されるように、本開示による画素の深度を推定するための方法に使用される。
【0024】
本実施形態では、複数200pNは、4セットの画像200Nを含む。他の実施形態では、本開示による画素の深度を推定するための方法は、3とは異なる数の画像を含む画像のセットに依拠し、画像の複数のセットは、4とは異なる数のセットの画像を含む。例えば、
図2bに例示される実施形態では、複数200pN’の画像200N’の各セットは、画像100miの行列の4つの画像の中から取られた2つの異なる画像(依然としてダークグレーで描写される)を含む。複数200pN’は、6セットの画像200N’を含む。
【0025】
次に、
図3aと関連して、一実施形態による、画素300Pの複数300pPの空間パッチについて説明する。
【0026】
複数300pPの画素300Pの各空間パッチは、現在の画像100ci内の現在の画素100cpの近傍で取られた8つの異なる画素を含む。空間近傍は、通常、考慮される現在の画素100cpを中心とする奇数辺の長さの正方形の空間パッチで構成される。
【0027】
画素300Pの空間パッチのそのようなセットおよび画素300Pのそのような複数300pPの空間パッチが、
図4に関して以下で考察されるように、本開示による画素の深度を推定するための方法のいくつかの実施形態に使用される。
【0028】
本実施形態では、複数300pPは、画素300Pの4つの空間パッチを含む。他の実施形態では、本開示による画素の深度を推定するための方法は、8とは異なる数の画素を含む画素の空間パッチを使用し、画素の複数の空間パッチは、4とは異なる数の画素の空間パッチを含む。例えば、
図3bに例示される実施形態では、複数300pP’の画素300P’の各空間パッチは、現在の画像100ci内の現在の画素100cpの近傍で取られた7つの異なる画素を含む。複数300pP’は、画素300P’の14個の空間パッチを含む。
【0029】
次に、
図4と関連して、一実施形態による、画像100miの行列内の画素の深度を推定するための方法のステップについて説明する。
【0030】
画像100miの行列内の画素の深度を推定するための方法は、少なくとも画像100miの行列のM個の画像の中から取られ(
図1の実施形態では、M=4である。しかしながら、上で考察されるように、本方法を適用するために、2を超える任意の値Mを考慮することができる)、現在の画像100ciを含むN個の画像のセットに対して、2<N≦Mの場合、以下のステップを含むプロセスを含む。
-ステップS400で、N個の深度マップのセットを提供するN個の画像のセット内の画像に対する深度マップが判定され、
-深度がまだ推定されていない現在の画像100ci内の少なくとも現在の画素100cpに対して、
-ステップS410で、N個の深度マップのセットのうちの1つの深度マップ内の現在の画素100cpに関連付けられた深度値に対応する候補深度が、N個の深度マップのセットの他の深度マップ(複数可)と整合するか否かが判断され、
-ステップS420で、候補深度がN個の深度マップのセットの他の深度マップ(複数可)と整合すると判断された場合、現在の画素100cpに対する推定された深度であるとして候補深度が選択される。
【0031】
プロセスは、反復的に実施され、プロセスの各新しい反復は、プロセスの前の反復において使用された前のN値よりも低い新しいN値で実行される。
【0032】
したがって、現在の画素100cpの深度の推定は、反復ごとに異なるセットの画像を伴う反復プロセスに基づく。結果として、オクルージョンの存在下であっても信頼できる深度推定が達成されるように、画像100miの行列において利用可能なすべての情報が使用される。さらに、プロセスの反復のために、減少する数の画像を含む画像のセットが連続的に考慮される。したがって、最初に深度が整合すると判断されたときは、LFコンテンツ内の最大数の画像に基づいて推定された深度に対応する。これにより、より高い品質の結果を得ることができる。
【0033】
他の実施形態では、ステップS410およびステップS420は、現在の画像100ci内の現在の画素100cpに対してだけでなく、深度がまだ推定されていないN個の画像のセットの各画像の各画素に対しても実施される。
【0034】
N<Mであり、N個の画像のセットが現在の画像100ciのM個の画像の中から取られたN個の画像の複数のセットに属する他の実施形態では、プロセスの各反復は、N個の画像の複数のセットのN個の画像の各セットに対して実行される。したがって、異なるビュー内の利用可能なすべての情報が使用され、深度推定の改善につながる。いくつかの実施形態では、N個の画像の複数のセットは、現在の画像100ciのM個の画像の中から取られたN個の画像のすべてのセットを含む。
【0035】
図4に戻り、現在の画素100cpの候補深度が他の深度マップ(複数可)と整合するか否かを判断するために、ステップS410は、現在の画素100cpの候補深度とN個の深度マップのセットの他の深度マップ(複数可)との間の幾何学的整合性が判定されるステップS410aを含む。ビュー間の幾何学的整合性基準により、すべての考慮されたビューの整合する再構築された3Dシーンに対応する深度値を判断することができる。
【0036】
そのような幾何学的整合性の導出は、
図5に描かれる例を通して例示される。
【0037】
図5には、画像100miの行列をキャプチャする4つのLFキャプチャシステムのうち、2つのカメラ501、502のみが例示されている。より具体的には、カメラ501は、ビュー番号#cに対応する現在の画像100ciをキャプチャし、カメラ502は、画像100miの行列内の現在の画像100ciとは別の画像をキャプチャする。考慮される他の画像は、ビュー番号#c’に対応する。
【0038】
【数1】
をビュー#cの現在の画素100cpの座標とする。
【数2】
を、現在の画素100cpに関連付けられた候補深度による、基準座標系(CS)における対応する3Dポイント510の座標とする。ビュー番号#c’に対応する他の画像におけるその投影は、座標
【数3】
の理論位置502tlを与える。実際、例えばカメラ501、502のピンホールモデルに基づく、そのような投影は、考慮される別の画像の画素と正確に整合しない場合がある位置をもたらす。ビュー番号#c’に対応する他の画像に対する深度マップを補間することで、座標
【数4】
の対応する3Dポイント520を計算し、ビュー番号#cにそれを戻して投影することができ、現在の画像100ci内の座標
【数5】
の別の理論位置501atlで終了する。
【0039】
ドリフトベクトルのノルム
【数6】
が所定の閾値未満であるとき、現在の画素100cpの候補深度は、整合すると判断される。
【数7】
【0040】
言い換えれば、
図4の実施形態では、ステップS410aは、以下を含む。
-ステップS410a1、現在の画像100ci以外のN個の画像のセットの他の画像における理論位置502tlが判定される。理論位置は、現在の画素100cpに関連付けられたオブジェクトポイント510の他の画像における投影および候補深度に対応する。
-ステップS410a2、N個の深度マップのセット内の他の画像に関連付けられた深度マップに基づいて、理論位置502tlに関連付けられた深度値が取得される、および
-ステップS410a3、現在の画像100ciにおいて、理論位置502tlおよび深度値に関連付けられた他のオブジェクトポイント520の現在の画像100ciにおける投影に対応する別の理論位置501atlが判定される。
【0041】
現在の画素100cpと他の理論位置501atlとの間の現在の画像内の距離が所定の閾値を下回るとき(例えば、所定の閾値は、現在の画像内の画素の半分のサイズである)、現在の画素100cpの候補深度は、整合すると判断される。
【0042】
N>3である他の実施形態では、ステップS410a1は、理論位置の対応するセットを提供する、現在の画像100ci以外のN個の画像のセットの他のすべての画像に対して実施される。ステップS410a2は、深度値の対応するセットを提供する、理論位置のセット内のすべての理論位置に対して実施される。ステップS410a3は、理論位置のセット内のすべての理論位置に対して、および現在の画像100ci内の別の理論位置のセットを提供する、深度値のセット内のすべての関連する深度値に対して実施される。現在の画素100cpと他の理論位置との間の距離が所定の閾値を下回るとき、現在の画素100cpの候補深度は整合すると判断される。したがって、整合性は、画像の行列のすべての画像に存在する情報に基づく。
【0043】
図4に戻ると、ステップS410は、現在の画素100cpと理論位置(複数可)502tlとの間の写真整合性が判定されるステップS410bも含む。
【0044】
例えば、写真整合性は、理論位置(複数可)502tlにおける他の画像(複数可)内の色の分布の標準偏差によって測定することができる。
【数8】
z
cは、ビュー番号#cに対応する現在の画像100ci内の座標
【数9】
の現在の画素100cpに関連付けられた候補深度である。
【0045】
ステップS410aで判定された幾何学的整合性とステップS410bで判定された写真整合性とを組み合わせて、現在の画素100cpに関連付けられた候補深度がN個の深度マップのセットの他の深度マップ(複数可)と整合するか否かを判断する。例えば、そのような組み合わせは、K.Wolff et al.,“Point Cloud Noise and Outlier Removal for Image-Based 3D Reconstruction,”2016 Fourth International Conference on 3D Vision (3DV),Stanford,CA,2016,pp.118-127に提案された方法に依拠する。
【0046】
他の実施形態では、ステップS410で、現在の画素100cpの候補深度が他の深度マップ(複数可)と整合するか否かを判断するために、幾何学的整合性基準のみが使用される。
【0047】
他の実施形態では、現在の画素100cpの候補深度が他の深度マップ(複数可)と整合するか否かを判断するために、写真整合性基準のみが使用される。
【0048】
さらに他の実施形態では、現在の画素100cpの候補深度が他の深度マップ(複数可)と整合するか否かを判断するために、画像100miの行列の画像間の任意の他の整合性基準が使用される。
【0049】
図4に戻り、N個の画像のセット内の画像に対する深度マップを判定するために、ステップS400は、少なくとも現在の画素100cpに対して、
-P<Pmaxであり、Pmaxが、現在の画素100cpの近傍で取られた、現在の画像100ci内の画素の総数である場合、現在の画像100ciのP画素の空間パッチと、
-現在の画像100ciに関連付けられた深度マップ内の現在の画素100cpに関連付けられた候補深度を提供する、N個の画像のセット内の現在の画像100ciとは少なくとも別の画像におけるP画素の空間パッチの少なくとも投影と、の間のマッチング技術を実施する。ステップS400は、反復的に実施され、ステップS400の各新しい反復は、ステップS400の前の反復において使用された前の値Pよりも低い新しい値Pで実行される。
【0050】
したがって、深度マップの判定は、LFコンテンツの画像において利用可能なすべての情報の使用に基づく。さらに、減少する画素数の画素の空間パッチは、連続的な反復のために連続的に考慮される。したがって、最初に深度マップ内の深度値が判定されたときは、LFコンテンツの画像内の最大数の画素に基づいて判定された深度値に対応する。これにより、より高い品質の結果を得ることができる。
【0051】
一実施形態では、現在の画像100ciとは少なくとも別の画像におけるP画素の空間パッチの投影は、例えば、
図5に関して上記で開示したように、LFキャプチャシステムのカメラのピンホールモデルに基づいて、同じ投影機構を使用して取得される。
【0052】
P<Pmaxであるいくつかの実施形態では、P画素の空間パッチは、P画素の複数の空間パッチに属する。ステップS400の所与の反復に対して、マッチング技術は、現在の画素100cpに関連付けられた中間深度値のセットおよび対応する信頼値のセットを提供する、P画素の複数の空間パッチに属するP画素の各空間パッチに対して連続的に実施される。現在の画像100ciに関連付けられた深度マップ内の現在の画素100cpに関連付けられた候補深度は、中間深度値のセット内のより高い信頼値の中間深度値である。変形態では、P画素の複数の空間パッチは、P画素のすべての空間パッチを含む。
【0053】
したがって、深度マップを判定するために考慮される画素のパッチの所与のサイズに対して、最適な信頼レベルを提供する画素のパッチは、問題の深度マップを判定するために保持される。
【0054】
いくつかの実施形態では、マッチング技術は、以下に従って、コスト関数E
cの最小化を実施し、
【数10】
D
cは、ビュー#cに対応する現在の画像100ciの深度マップであり、(u,v)は、現在の画像100ciにおける現在の画素100cpの座標である。
【0055】
その場合、マッチング技術の連続的な実施は、コスト関数E
cの最小値のセットをさらに提供する。いくつかの実施形態では、信頼値は、少なくとも以下の関数である。
-最小値のセット内の最小値m
1、例えば、信頼値は-m
1に等しい、または
-最小値のセット内の最小値m
1と最後から3番目の最小値m
3との組み合わせ、例えば、信頼値は
【数11】
に等しい。
【0056】
いくつかの実施形態では、コスト関数E
cは、例えば、以下のように、MSE(「平均二乗誤差」の場合)ノルムの関数であり、
【数12】
【数13】
は、ビュー#cを含むN個の画像(または「角度パッチ」)の考慮されたセットであり、
【数14】
は、座標(u,v)の現在の画素100cpの近傍で取られたP画素の考慮された空間パッチであり、
【数15】
は、セット
【数16】
の基数であり、
-||.||
2は、L2ノルム(二乗成分の和の平方根)であり、(i’,j’,z’)は、ビュー#cと#c’との間のホモグラフィー
【数17】
を通じて(i,j,z)から取得される(例えば、
図5に関連して上記に開示されたLFキャプチャシステムのカメラのピンホールモデルに基づいて、同じ投影機構を使用して)。
【0057】
いくつかの実施形態では、コスト関数E
cは、例えば、以下のように、MAD(「平均絶対差」)ノルムの関数であり、
【数18】
||.||
1は、L1ノルム(絶対値の合計)である。
【0058】
いくつかの実施形態では、コスト関数E
cは、例えば、以下のように、ZNCC(「ゼロ平均正規化相互相関」)ノルムの関数であり、
【数19】
合計は、3つの成分R、G、およびBに対して実行され、
【数20】
式中、
【数21】
は、座標(u,v)の現在の画素100cpの近傍で取られた空間パッチ
【数22】
における画像Iの平均であり、
【数23】
は、座標(u,v)の現在の画素100cpの近傍で取られた空間パッチ
【数24】
における画像Iの標準偏差である。
【0059】
図6は、(上記に開示された実施形態のいずれかに従って)本開示による、ライトフィールドコンテンツの画像の行列内の画素の深度を推定するために使用され得るデバイス600の特定の実施形態の構造ブロックを例示する。
【0060】
この実施形態では、開示された方法を実装するためのデバイス600は、不揮発性メモリ603(例えば、読み取り専用メモリ(ROM)またはハードディスク)、揮発性メモリ601(例えば、ランダムアクセスメモリまたはRAM)、およびプロセッサ602を含む。不揮発性メモリ603は、非一時的コンピュータ可読キャリア媒体である。それは、
図4に関連して上記に開示された様々な実施形態において、上記の方法(ライトフィールドコンテンツの画像の行列内の画素の深度を推定するための方法)の実装を可能にするために、プロセッサ602によって実行される実行可能プログラムコード命令を記憶する。
【0061】
初期化時に、前述のプログラムコード命令は、プロセッサ602によって実行されるように不揮発性メモリ603から揮発性メモリ601に転送される。揮発性メモリ601はまた、この実行に必要な変数およびパラメータを記憶するためのレジスタを含む。
【0062】
本開示に従うライトフィールドコンテンツの画像の行列内の画素に対する深度を推定するための上記の方法のすべてのステップは、以下によって同様に良好に実装され得る。
・PC型装置、DSP(デジタル信号プロセッサ)、またはマイクロコントローラなどの再プログラム可能なコンピューティングマシンによって実行されるプログラムコード命令のセットの実行による。このプログラムコード命令は、取り外し可能(例えば、フロッピーディスク、CD-ROMまたはDVD-ROM)または取り外し不可能な非一時的コンピュータ可読キャリア媒体に記憶することができる、または
・FPGA(フィールドプログラマブルゲートアレイ)、ASIC(特定用途向け集積回路)、または任意の専用ハードウェア構成要素など、専用のマシンまたは構成要素による。
【0063】
言い換えれば、本開示は、コンピュータプログラム命令の形態で、純粋にソフトウェアベースの実装に限定されず、それはまた、ハードウェア形態またはハードウェア部分とソフトウェア部分とを組み合わせた任意の形態で実装され得る。
【0064】
一実施形態によれば、ライトフィールドコンテンツのM個の画像(M>2)の行列内の画素の深度を推定するための方法が提案される。そのような方法は、M個の画像の中から取られたN個の画像(2<N≦M)の少なくとも1つのセットに対して、
-N個の深度マップのセットを提供するN個の画像のセット内の画像に対する深度マップを判定することと、
-N個の画像のセットの現在の画像内の少なくとも1つの現在の画素に対して、
-N個の深度マップのセットのうちの1つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、N個の深度マップのセットの他の深度マップ(複数可)と整合するか否かを判断することと、
-候補深度がN個の深度マップのセットの他の深度マップ(複数可)と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを含む。
【0065】
プロセスは、反復的に実施され、プロセスの各新しい反復は、プロセスの前の反復において使用された前のN値よりも低い新しいN値で実行される。
【0066】
したがって、本開示は、強制的な整合性を有するライトフィールド(LF)コンテンツ内の画素の深度を推定するための新しい、進歩的な解決策を提案する。
【0067】
より具体的には、画素の深度の推定は、反復ごとに異なるセットの画像(角度パッチとも呼ばれる)を伴う反復プロセスに基づく。したがって、オクルージョンの存在下であっても信頼できる深度推定が達成されるように、LFコンテンツの画像の行列内で利用可能なすべての情報が使用される。
【0068】
さらに、プロセスの反復のために、減少する数の画像を含む画像のセットが連続的に考慮される。したがって、最初に深度が整合していると判断されたときは、LFコンテンツ内の最大数の画像に基づいて推定された深度に対応する。これにより、より高い品質の結果を得ることができる。
【0069】
一実施形態によれば、ライトフィールドコンテンツのM個の画像(M>2)の行列内の画素の深度を推定するためのデバイスが提案される。そのようなデバイスは、M個の画像の中から取られたN個の画像(2<N≦M)の少なくとも1つのセットに対して、
-N個の深度マップのセットを提供するN個の画像のセット内の画像に対する深度マップを判定することと、
-N個の画像のセットの現在の画像内の少なくとも1つの現在の画素に対して、
-N個の深度マップのセットのうちの1つの深度マップ内の現在の画素に関連付けられた深度値に対応する候補深度が、N個の深度マップのセットの他の深度マップ(複数可)と整合するか否かを判断することと、
-候補深度がN個の深度マップのセットの他の深度マップ(複数可)と整合すると判断された場合、候補深度を現在の画素に対する推定された深度であるとして選択することと、を含む、プロセスを実施するように構成されたプロセッサまたは専用コンピューティングマシンを含む。
【0070】
プロセスは、反復的に実施され、プロセスの各新しい反復は、プロセスの前の反復において使用された前のN値よりも低い新しいN値で実行される。
【0071】
一実施形態によれば、現在の画素の候補深度が整合するか否かを判断することと、深度がまだ推定されていないN個の画像のセットの各画像の各画素に対して、現在の画素の深度を選択することと、が実施される。
【0072】
一実施形態によれば、N<Mであり、N個の画像のセットは、M個の画像の中から取られたN個の画像の複数のセットに属する。プロセスの各反復は、N個の画像のセットごとに実行される。
【0073】
一実施形態によれば、N個の画像の複数のセットは、M個の画像の中から取られたN個の画像のすべてのセットを含む。
【0074】
一実施形態によれば、現在の画素の候補深度が整合するか否かを判断することは、現在の画素の候補深度とN個の深度マップのセットの他の深度マップ(複数可)との間の幾何学的整合性を判定することを含む。
【0075】
したがって、ビュー間の幾何学的整合性基準により、すべての考慮されたビューの整合する再構築された3Dシーンに対応する深度値を判断することができる。
【0076】
一実施形態によれば、幾何学的整合性を判定することは、
-現在の画像とは異なるN個の画像のセットの別の画像における理論位置を判定することであって、理論位置は、現在の画素に関連付けられたオブジェクトポイントの他の画像における投影および候補深度に対応する、判定することと、
-N個の深度マップのセット内の他の画像に関連付けられた深度マップに基づいて、理論位置に関連付けられた深度値を取得することと、
-現在の画像において、理論位置および深度値に関連付けられた別のオブジェクトポイントの現在の画像における投影に対応する別の理論位置を判定することと、を含み、
現在の画素と他の理論位置との間の現在の画像内の距離が所定の閾値を下回るとき、現在の画素の候補深度が整合すると判断される。
【0077】
一実施形態によれば、N>3である。別の画像における理論位置を判定することは、理論位置の対応するセットを提供する、現在の画像以外のN個の画像のセットのすべての他の画像に対して実施される。理論位置に関連付けられた深度値を取得することは、深度値の対応するセットを提供する、理論位置のセット内のすべての理論位置に対して実施される。現在の画像において、別の理論位置を判定することは、理論位置のセット内のすべての理論位置に対して、および現在の画像内の別の理論位置のセットを提供する、深度値のセット内のすべての関連する深度値に対して実施され、現在の画素と他の理論位置との間の距離が所定の閾値を下回るとき(例えば、所定の閾値は、現在の画像内の画素の半分のサイズである)、現在の画素の候補深度は整合すると判断される。
【0078】
一実施形態によれば、現在の画素の候補深度が整合するか否かを判断することは、現在の画素と理論位置(複数可)との間の写真整合性を判定することをさらに含む。
【0079】
一実施形態によれば、N個の画像のセット内の画像に対する深度マップを判定することは、少なくとも現在の画素に対して、
-P≦Pmaxであり、Pmaxが、現在の画素の近傍で取られた、現在の画像内の画素の総数である場合、現在の画像のP画素の空間パッチと、
-現在の画像に関連付けられた深度マップ内の現在の画素に関連付けられた候補深度を提供する、N個の画像のセット内の現在の画像とは少なくとも別の画像におけるP画素の空間パッチの少なくとも投影と、の間でマッチング技術を実施する。深度マップを判定することは、反復的に実施され、深度マップを判定することの各新しい反復は、深度マップを判定することの前の反復において使用された前の値Pよりも低い新しい値Pで実行される。
【0080】
したがって、反復プロセスに基づく深度マップの判定は、各反復に対して異なる空間パッチの画素を伴い、したがって、LFコンテンツの画像において利用可能なすべての情報の使用を可能にする。
【0081】
さらに、減少する画素数の画素の空間パッチは、連続的な反復のために連続的に考慮される。したがって、最初に深度マップ内の深度値が判定されたときは、LFコンテンツの画像内の最大数の画素に基づいて判定された深度値に対応する。これにより、より高い品質の結果を得ることができる。
【0082】
一実施形態によれば、P<Pmaxであり、P画素の空間パッチは、P画素の複数の空間パッチに属する。深度マップを判定することの所与の反復に対して、マッチング技術が、現在の画素に関連付けられた中間深度値のセットおよび対応する信頼値のセットを提供する、P画素の複数の空間パッチに属するP画素の各空間パッチに対して連続的に実施され、現在の画像に関連付けられた深度マップ内の現在の画素に関連付けられた候補深度は、中間深度値のセット内のより高い信頼値の中間深度値である。
【0083】
したがって、深度マップを判定するために考慮される画素のパッチの所与のサイズに対して、最適な信頼レベルを提供する画素のパッチは、問題の深度マップを判定するために保持される。
【0084】
一実施形態によれば、P画素の複数の空間パッチは、P画素のすべての空間パッチを含む。
【0085】
一実施形態によれば、マッチング技術は、コスト関数の最小化を実施する。マッチング技術の連続的な実施は、さらに、コスト関数の最小値のセットを提供し、信頼値は、少なくとも
-最小値のセット内の最小値、または
-最小値のセット内の最小値と少なくとも最後から3番目の最小値との組み合わせ、の関数である。
【0086】
一実施形態によれば、コスト関数は、
-平均二乗誤差、
-平均絶対差、または
-ゼロ平均正規化相互相関、を含むグループに属するノルムの関数である。
【0087】
一実施形態によれば、前述のライトフィールドコンテンツのM個の画像の行列内の画素の深度を推定するための方法を実装するためのプログラムコード命令を含む、プログラムコード命令を含む、その上に記録され、プロセッサによって実行することができるコンピュータプログラム製品を含む非一時的コンピュータ可読媒体が提案される。