IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7508673コンピュータビジョン方法およびシステム
<>
  • 特許-コンピュータビジョン方法およびシステム 図1
  • 特許-コンピュータビジョン方法およびシステム 図2
  • 特許-コンピュータビジョン方法およびシステム 図3
  • 特許-コンピュータビジョン方法およびシステム 図4
  • 特許-コンピュータビジョン方法およびシステム 図5
  • 特許-コンピュータビジョン方法およびシステム 図6
  • 特許-コンピュータビジョン方法およびシステム 図7
  • 特許-コンピュータビジョン方法およびシステム 図8
  • 特許-コンピュータビジョン方法およびシステム 図9
  • 特許-コンピュータビジョン方法およびシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-21
(45)【発行日】2024-07-01
(54)【発明の名称】コンピュータビジョン方法およびシステム
(51)【国際特許分類】
   G06T 7/586 20170101AFI20240624BHJP
   G06T 7/00 20170101ALI20240624BHJP
   G06T 15/08 20110101ALI20240624BHJP
   G06T 17/10 20060101ALI20240624BHJP
   G06V 10/141 20220101ALI20240624BHJP
   G06V 20/64 20220101ALI20240624BHJP
【FI】
G06T7/586
G06T7/00 350C
G06T15/08
G06T17/10
G06V10/141
G06V20/64
【請求項の数】 17
【外国語出願】
(21)【出願番号】P 2023139292
(22)【出願日】2023-08-29
(65)【公開番号】P2024055772
(43)【公開日】2024-04-18
【審査請求日】2023-08-30
(31)【優先権主張番号】2214751.6
(32)【優先日】2022-10-07
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】フォティオス ロゴテティス
(72)【発明者】
【氏名】ロベルト メッカ
(72)【発明者】
【氏名】イグナス ブドヴィティス
(72)【発明者】
【氏名】ロベルト シポラ
【審査官】淀川 滉也
(56)【参考文献】
【文献】国際公開第2016/181687(WO,A1)
【文献】特開2005-341569(JP,A)
【文献】特開2021-026759(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/586
G06T 7/00
G06V 10/141
G06V 20/64
G06T 17/10
G06T 15/08
(57)【特許請求の範囲】
【請求項1】
オブジェクトの3次元再構成を生成するコンピュータビジョン方法であって、
前記オブジェクトの複数の照度差ステレオ画像の第1のセットおよび前記オブジェクトの複数の照度差ステレオ画像の第2のセットを受信することと、前記第1のセットは、複数の異なる方向からの照明を使用して第1の位置にある第1のカメラから撮られた少なくとも1つの画像を含み、前記第2のセットは、複数の異なる方向からの照明を使用して第2の位置にある第2のカメラから撮られた少なくとも1つの画像を含み、
複数の照度差ステレオ画像の前記第1のセットを使用して前記オブジェクトの第1の法線マップを生成することと、
複数の照度差ステレオ画像の前記第2のセットを使用して前記オブジェクトの第2の法線マップを生成することと、
前記第1の法線マップ内の複数の法線の複数のパッチと前記第2の法線マップ内の複数の法線の複数のパッチとの間のステレオマッチングを実行することによって前記オブジェクトの形状のステレオ推定を決定することと、
前記オブジェクトの再構成を生成するために前記オブジェクトの前記形状の前記ステレオ推定と共に前記第1の法線マップおよび前記第2の法線マップを使用することと
を含む方法。
【請求項2】
前記第1の法線マップおよび前記第2の法線マップは、前記オブジェクトに対する前記照明の複数の近接場効果についての光分布を再計算するために前記オブジェクトの前記形状の推定を使用して生成される、請求項1に記載の方法。
【請求項3】
前記オブジェクトの前記再構成を使用して複数の近接場効果による前記光分布を再計算することと、前記再計算された光分布から前記第1の法線マップおよび前記第2の法線マップを再計算することと、前記オブジェクトのさらなる再構成を生成することとをさらに含む、請求項2に記載の方法。
【請求項4】
複数の近接場効果による前記光分布を再計算することは、
(a)前記再計算された光分布から前記第1の法線マップおよび前記第2の法線マップを再計算するために前記オブジェクトの前記再構成を使用することと、
(b)前記再計算された第1の法線マップ内の複数の法線の複数のパッチと前記再計算された第2の法線マップ内の複数の法線の複数のパッチとの間のステレオマッチングを実行することによって前記オブジェクトの前記形状のさらなる推定を決定することと、
(c)前記再計算された第1の法線マップおよび前記再計算された第2の法線マップのうちの少なくとも1つから前記形状のさらなる再構成を生成することと、
前記オブジェクトの複数のさらなる再構成が収束するまで(a)から(c)を繰り返すことと
を含む、請求項3に記載の方法。
【請求項5】
前記オブジェクトの再構成を生成するために前記オブジェクトの前記形状の前記ステレオ推定と共に前記第1の法線マップおよび前記第2の法線マップを使用することは、
第1の再構成を生成するために前記第1の法線マップを前記形状の前記ステレオ推定の制約と統合することと、
第2の再構成を生成するために前記第2の法線マップを前記形状の前記ステレオ推定の制約と統合することと、
前記オブジェクトの前記再構成である融合された再構成を生成するために前記第1の再構成および前記第2の再構成を組み合わせることと
を含む、請求項1に記載の方法。
【請求項6】
前記融合された再構成は、ポアソンソルバを使用して生成される、請求項5に記載の方法。
【請求項7】
前記第1の法線マップおよび前記第2の法線マップ上でステレオマッチングを実行することは、
前記第1の法線マップ上の少なくとも1つの画素グループを選択することと、
複数のマッチのために前記第2の法線マップにわたって走査することによって前記第2の法線マップ内でマッチした画素グループを探索することと
を含む、請求項1に記載の方法。
【請求項8】
複数のマッチのために前記第2の法線マップにわたって走査することは、エピポーラ線にわたって実行される、請求項7に記載の方法。
【請求項9】
マッチした画素グループを探索することは、前記オブジェクトの現在の推定された再構成によって制約を受ける、請求項7に記載の方法。
【請求項10】
前記第1の法線マップおよび前記第2の法線マップ上でステレオマッチングを実行することは、
前記第1の法線マップの前記少なくとも1つの画素グループに対してパッチワーピングを実行することと、
前記第1の法線マップの前記パッチワーピングされた少なくとも1つの画素グループを使用して前記第2の法線マップの対応する画素グループを決定することと
を含む、請求項7に記載の方法。
【請求項11】
前記第1の法線マップ上の少なくとも1つの画素グループを選択し、
複数のマッチのために前記第2の法線マップにわたって走査することによって前記第2の法線マップ内でマッチした画素グループを探索することが、第1の部分ステレオ推定を生成するために使用され、
前記方法は、
前記第2の法線マップ上の少なくとも1つの画素グループを選択することと、
第2の部分ステレオ推定を生成するために、複数のマッチのために前記第1の法線マップにわたって走査することによって前記第1の法線マップ内でマッチした画素グループを探索することと、
前記形状のステレオ推定を形成するために前記第1の部分ステレオ推定および前記第2の部分ステレオ推定を組み合わせることと、をさらに含み、ここにおいて、一致しない前記第1の部分ステレオ推定および前記第2の部分ステレオ推定からの複数の点が破棄される
請求項7に記載の方法。
【請求項12】
前記第1のセットは、複数の異なる方向からの照明を使用して前記第1の位置にある前記第1のカメラから撮られた第1の複数の画像を含み、前記第2のセットは、複数の異なる方向からの照明を使用して前記第2の位置にある前記第2のカメラから撮られた第2の複数の画像を含む、請求項1に記載の方法。
【請求項13】
前記第1の法線マップを生成することは、複数の照度差ステレオ画像の前記第1のセットと、前記オブジェクトの前記形状の推定と、複数の光源の位置情報とを表す情報を、前記第1の法線マップを出力するように訓練されたニューラルネットワークに入力することを含む、請求項1に記載の方法。
【請求項14】
複数の照度差ステレオ画像の前記第1のセットと、前記オブジェクトの前記形状の推定と、前記複数の光源の位置情報とを表す前記情報は、観測マップの形態で与えられ、ここにおいて、前記観測マップは、前記第1のカメラの各画素について生成され、各観測マップは、2D平面への複数のライティング方向の投影を含み、各画素についての前記複数のライティング方向は、各照度差ステレオ画像から得られる、請求項13に記載の方法。
【請求項15】
オブジェクトの3次元(3D)再構成を生成するためのシステムであって、インターフェースとプロセッサとを備え、
前記インターフェースは、画像入力を有し、オブジェクトの複数の照度差ステレオ画像のセットを受信するように構成され、複数の照度差ステレオ画像の前記セットは、1つまたは複数の光源を用いて複数の異なる方向からの照明を使用して複数の画像を含み、
前記プロセッサは、
前記オブジェクトの複数の照度差ステレオ画像の第1のセットおよび前記オブジェクトの複数の照度差ステレオ画像の第2のセットを受信し、前記第1のセットは、複数の異なる方向からの照明を使用して第1の位置にある第1のカメラから撮られた少なくとも1つの画像を含み、前記第2のセットは、複数の異なる方向からの照明を使用して第2の位置にある第2のカメラから撮られた少なくとも1つの画像を含み、
複数の照度差ステレオ画像の前記第1のセットを使用して前記オブジェクトの第1の法線マップを生成し、
複数の照度差ステレオ画像の前記第2のセットを使用して前記オブジェクトの第2の法線マップを生成し、
前記第1の法線マップ内の複数の法線の複数のパッチと前記第2の法線マップ内の複数の法線の複数のパッチとの間のステレオマッチングを実行することによって前記オブジェクトの形状のステレオ推定を決定し、
前記オブジェクトの再構成を生成するために前記オブジェクトの前記形状の前記ステレオ推定と共に前記第1の法線マップおよび前記第2の法線マップを使用する
ように構成されている、システム。
【請求項16】
前記第1のカメラは、前記第2のカメラと異なるように構成される、請求項15に記載のシステム。
【請求項17】
請求項1に記載の方法をコンピュータに実行させるように適合されたコンピュータ可読命令を搬送する搬送媒体。

【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、オブジェクトの3D撮像を実行するためのコンピュータビジョンシステムおよび方法に関する。
【背景技術】
【0002】
多くのコンピュータビジョンタスクは、オブジェクトが光を反射するやり方からオブジェクトの正確な3D再構成を取り出すことを必要とする。しかしながら、3Dジオメトリを再構成することは、キャストシャドウ、自己反射、および周辺光などのグローバル照明効果が、特に鏡面について、作用するので難題である。
【0003】
照度差ステレオは、コンピュータビジョンにおける長年の問題である。最近の方法は、実データセットと合成データセットとの両方で印象的な法線推定精度を達成している。しかしながら、推定された形状の品質および実用性における進歩は、特に一般的な光の反射に対処するときに、グローバルジオメトリを取り出す際の不正確さのために進歩が非常に制限されるので、あまり説得力がない。
【0004】
照度差ステレオ技法が、単一のカメラ位置からの画像の取得のみに頼るとき(単眼照度差ステレオ)、再構成の精度は、通常、カメラと対象のオブジェクトとの間の距離の大雑把な推定に依存する。例えば、画像の取得の前または後に、オブジェクトジオメトリの初期推定が得られ、深度マップが初期オブジェクトジオメトリに基づいて初期化される。
【図面の簡単な説明】
【0005】
図1図1は、本発明の理解に役立つ一例によるシステムの概略図。
図2図2は、オブジェクトの3D撮像を実行するためのカメラおよび光源の配置を示す概略図。
図3図3は、オブジェクトまたは背景の照度差ステレオ画像のセットから面法線を復元する方法の高レベルの概略図。
図4図4は、オブジェクトの3D撮像を実行するためのカメラおよび光源の配置を示す概略図。
図5図5は、一実施形態による3D再構成のための方法の流れ図。
図6図6は、観測マップから法線マップを取り出すために使用できるCNNの概略図。
図7図7は、一実施形態による再構成方法の動作原理を示す図。
図8図8は、一実施形態による方法のステップを示す図。
図9図9は、単眼(単一ビュー)照度差ステレオと比較した方法の結果を示す図。
図10図10は、一実施形態によるシステムの概略図。
【発明を実施するための形態】
【0006】
第1の態様では、オブジェクトの3次元再構成を生成するコンピュータビジョン方法であって、
オブジェクトの照度差ステレオ画像の第1のセットおよびオブジェクトの照度差ステレオ画像の第2のセットを受信することと、第1のセットは、異なる方向からの照明を使用して第1の位置にある第1のカメラから撮られた少なくとも1つの画像を含み、第2のセットは、異なる方向からの照明を使用して第2の位置にある第2のカメラから撮られた少なくとも1つの画像を含み、
照度差ステレオ画像の第1のセットを使用してオブジェクトの第1の法線マップを生成することと、
照度差ステレオ画像の第2のセットを使用してオブジェクトの第2の法線マップを生成することと、
第1の法線マップ内の法線のパッチと第2の法線マップ内の法線のパッチとの間のステレオマッチングを実行することによってオブジェクトの形状のステレオ推定を決定することと、
オブジェクトの再構成を生成するためにオブジェクトの形状のステレオ推定と共に第1の法線マップおよび第2の法線マップを使用することと
を含む方法が提供される。
【0007】
開示された方法は、コンピュータ技術に結び付けられ、コンピューティングの分野で生じる技術的問題、すなわち、オブジェクトまたは背景の3次元再構成を生成する技術的問題に対処する。開示された方法は、再構成の品質を改善する仕方に関するこの技術的問題を解決する。改善は、緻密な局所形状変化を推定する際の照度差ステレオの強度と疎であるが正確な深度推定を行う際のストラクチャフロムモーション(Structure from Motion)の強度をマージする双眼ベースの照度差ステレオを与えることによって提供される。
【0008】
オブジェクトは、キャプチャ装置のカメラの深度範囲内に配置されてもよく、オブジェクトとカメラとの間の距離(すなわち、深度z)は、定規を用いておおよそ測定される。次いで、深度マップは、定規、またはカメラからオブジェクトまでの平均距離を推定する他の方法を用いて推定されるように、全ての点の深度を一定値に設定することによって初期化される。深度を初期化する他の方法が使用されてもよく、例えば、CADモデル、kinectタイプの深度センサなどを使用してよい。初期オブジェクトジオメトリの推定における任意のさらなる精巧さの追加は、例えば、単一の反復によって、方法の実行時間を減少させることができる。
【0009】
要するに、照度差ステレオにおける固有の曖昧さは、カメラからの対象のオブジェクトの大雑把な深度を決定することから生じる。これは、ジオメトリの可測性を確実にするためにスケールファクタが決定されなければならない現実世界の用途にとって特に極めて重要である。
【0010】
この問題に少なくとも一部対処するために、緻密な局所形状変化を推定する際の照度差ステレオの強度と疎であるが正確な深度推定を行う際のストラクチャフロムモーションの強度をマージする双眼ベースの照度差ステレオが本明細書で説明される。
【0011】
本明細書で説明される実施形態は、最初の2セットの画像に代えて、法線に対するマッチングを実行し、テクスチャまたは光沢のないオブジェクトに対処するときでもロバストであるより信頼できるステレオマッチングが実行され得る。結果として、オブジェクトの再構成をステレオマッチングステップのペア対応へ制約することにより、オブジェクトジオメトリのより正確な表現を与えることができ、これは、単一のオブジェクトジオメトリへの収束へオブジェクトジオメトリを更新する反復手順のためにより良い初期推定を与える。
【0012】
一実施形態では、第1の法線マップおよび第2の法線マップは、オブジェクトに対する照明の近接場効果についての光分布を再計算するためにオブジェクトの形状の推定を使用して生成される。
【0013】
オブジェクトの第1の再構成が生成されると、この方法は、オブジェクトの再構成を使用して近接場効果による光分布を再計算することと、再計算された光分布から第1の法線マップおよび第2の法線マップを再計算することと、オブジェクトのさらなる再構成を生成することとを含む。
【0014】
上記は、反復のやり方で使用されてよく、ここにおいて、近接場効果による光分布を再計算することは、
(a)再計算された光分布から第1の法線マップおよび第2の法線マップを再計算するためにオブジェクトの再構成を使用することと、
(b)再計算された第1の法線マップ内の法線のパッチと再計算された第2の法線マップ内の法線のパッチとの間のステレオマッチングを実行することによってオブジェクトの形状のさらなる推定を決定することと、
(c)再計算された第1の法線マップおよび再計算された第2の法線マップのうちの少なくとも1つから形状のさらなる再構成を生成することと、
オブジェクトのさらなる再構成が収束するまで(a)から(c)を繰り返すことと
を含む。
【0015】
一実施形態では、オブジェクトの再構成を生成するためにオブジェクトの形状のステレオ推定と共に第1の法線マップおよび第2の法線マップを使用することは、
第1の再構成を生成するために第1の法線マップを形状のステレオ推定の制約と統合することと、
第2の再構成を生成するために第2の法線マップを形状のステレオ推定の制約と統合することと、
オブジェクトの再構成である融合された再構成を生成するために第1の再構成および第2の再構成を組み合わせることと
を含む。
【0016】
融合された再構成は、ポアソンソルバを使用して生成され得る。
【0017】
第1の法線マップおよび第2の法線マップ上でステレオマッチングを実行することは、
第1の法線マップ上の少なくとも1つの画素グループを選択することと、
マッチのために第2の法線マップにわたって走査することによって第2の法線マップ内でマッチした画素グループを探索することと
を含んでよい。
【0018】
マッチを探す間に処理されるデータの量を減少させるために、マッチのために第2の法線マップにわたって走査することが、エピポーラ線にわたって実行されてもよい。マッチした画素グループを探索することは、オブジェクトの現在の推定された再構成によって制約を受けることもあり得る。したがって、オブジェクトの形状が収束するとき、マッチを探索することは、より効率的に行われることが可能である。
【0019】
さらなる実施形態では、第1の法線マップおよび第2の法線マップ上でステレオマッチングを実行することは、
第1の法線マップの少なくとも1つの画素グループに対してパッチワーピング(patch warping)を実行することと、
第1の法線マップのパッチワーピングされた少なくとも1つの画素グループを使用して第2の法線マップの対応する画素グループを決定することと
を含む。
【0020】
さらなる実施形態では、マッチのために第2の法線マップにわたって走査することによって第2の法線マップ内でマッチした画素グループを探索することが、第1の部分ステレオ推定を生成するために使用され、
方法は、
第2の法線マップ上の少なくとも1つの画素グループを選択することと、
第2の部分ステレオ推定を生成するために、マッチのために第1の法線マップにわたって走査することによって第1の法線マップ内でマッチした画素グループを探索することと、
形状のステレオ推定を形成するために第1の部分ステレオ推定および第2の部分ステレオ推定を組み合わせることと、をさらに含み、ここにおいて、一致しない第1の部分ステレオ推定および第2の部分ステレオ推定からの点が破棄される。
【0021】
上記は、同じ点について異なる深度を示す部分ステレオマップ上の点が破棄され得るので、誤差に対してロバストさを与えるように組み合わされる2つのステレオマップが生成されることを可能にする。
【0022】
照度差ステレオ画像の第1のセットは、異なる方向からの照明を使用して第1の位置にある第1のカメラから撮られた第1の複数の画像を含み、第2のセットは、異なる方向からの照明を使用して第2の位置にある第2のカメラから撮られた第2の複数の画像を含む。
【0023】
一実施形態では、第1の法線マップを生成することは、照度差ステレオ画像の第1のセットを表す情報、オブジェクトの形状の推定、および光源の位置情報を、第1の法線マップを出力するように訓練されたニューラルネットワークに入力することを含む。
【0024】
例えば、照度差ステレオ画像の第1のセットを表す情報、オブジェクトの形状の推定、および光源の位置情報は、観測マップの形態で与えられ、ここにおいて、観測マップは、第1のカメラの各画素について生成され、各観測マップは、2D平面へのライティング方向の投影を含み、各画素についてのライティング方向は、各照度差ステレオ画像から得られる。
【0025】
さらなる実施形態では、オブジェクトの3次元(3D)再構成を生成するためのシステムが提供され、システムは、インターフェースとプロセッサと備え、
インターフェースは、画像入力を有し、オブジェクトの照度差ステレオ画像のセットを受信するように構成され、照度差ステレオ画像のセットは、1つまたは複数の光源を用いて異なる方向からの照明を使用して複数の画像を含み、
プロセッサは、
オブジェクトの照度差ステレオ画像の第1のセットおよびオブジェクトの照度差ステレオ画像の第2のセットを受信し、第1のセットは、異なる方向からの照明を使用して第1の位置にある第1のカメラから撮られた少なくとも1つの画像を含み、第2のセットは、異なる方向からの照明を使用して第2の位置にある第2のカメラから撮られた少なくとも1つの画像を含むものであり、
照度差ステレオ画像の第1のセットを使用してオブジェクトの第1の法線マップを生成し、
照度差ステレオ画像の第2のセットを使用してオブジェクトの第2の法線マップを生成し、
第1の法線マップ内の法線のパッチと第2の法線マップ内の法線のパッチとの間のステレオマッチングを実行することによってオブジェクトの形状のステレオ推定を決定し、
オブジェクトの再構成を生成するためにオブジェクトの形状のステレオ推定と共に第1の法線マップおよび第2の法線マップを使用するように構成されている。
【0026】
上記のシステムでは、前記第1のカメラは、前記第2のカメラと異なるように構成される。さらなる実施形態では、第1の位置と第2の位置との間で移動させられる単一のカメラが使用される。
【0027】
上述したように上記方法をコンピュータに実行させるようになされたコンピュータ可読命令を搬送する搬送媒体が提供されてもよい。
【0028】
図1は、オブジェクトの3次元(3D)画像データを取り込み、オブジェクトを再構成するために使用され得るシステムの概略図を示す。本明細書で使用されるとき、用語「オブジェクト」は、撮像されているものを示すために使用される。しかしながら、この用語は、複数のオブジェクト、背景、またはオブジェクトと背景の組合せなどを包含し得ることを理解されたい。
【0029】
オブジェクト10の3D画像データは、装置11を使用して取り込まれる。装置11のさらなる詳細は、図2を参照して与えられる。
【0030】
装置11によって取り込まれる3D画像データは、コンピュータ12へ送られ、そこで3D画像データは処理される。図1では、コンピュータ12は、デスクトップコンピュータとして示されるが、それは、任意のプロセッサ、例えば、分散プロセッサ、または携帯電話のプロセッサなどであってもよいと理解されたい。例示的なプロセッサの詳細は、図10を参照してこの説明において以下にさらに説明される。
【0031】
図1のシステムは、既存のハードウェアセットアップにおいて設けられてもよく、セットアップのプロセスの品質管理のために使用され得る。そのようなセットアップは、3D印刷セットアップおよび産業パイプラインを含むが、これらに限定されない。例えば、図1のシステムは、システムが印刷プロセスの品質管理を実行するために使用される3Dプリンタセットアップに設けられてもよい。より具体的には、システムは、印刷プロセスの中間結果の照度差ステレオ画像を取り込み、印刷プロセスの適切な実行を確認するために使用され得る。さらに、システムは、日用品の3Dモデルを得るためにユーザによって使用されるハンドヘルドデバイスとして実施されてもよい。
【0032】
図2は、照度差ステレオに使用できる図1の装置11の例示的な配置を示す。図2は、複数の画素を備えるカメラ20と複数の光源21とを互いにおよびカメラ20に対して一定の関係で保持するマウントを示す。装置11のこの配置は、カメラ20および複数の光源21が、互いから一定の分離を維持しつつ一緒に移動させられることを可能にする。
【0033】
装置11の特定の例示的配置では、光源21は、カメラ20を取り囲んで設けられる。しかしながら、光源21およびカメラ20は、異なる配置で設けられてもよいことが理解される。カメラ20は、オブジェクト10の照度差ステレオデータを得るために、光源21と一緒に使用される。個々の光源21は、カメラ20が照度差ステレオデータを取り込むことを可能にするために次々に起動させられる。
【0034】
装置11の特定の配置では、8mmレンズを備えたFLEA3.2メガピクセルカメラが、カメラ20として使用される。カメラ20は、8mmレンズを有し、プリント回路基板に堅固に取り付けられる。プリント回路基板は、像平面と同一平面の方式で配置されるとともに6.5センチメートルの最大差でカメラ20を取り囲んで設けられた光源21として使用される16個の白色の明るいLEDをさらに備える。
【0035】
装置11は、オブジェクト10の照度差ステレオ画像を取り込むために使用され得る。オブジェクト10は、カメラ20の深度範囲内でカメラ20の正面に配置される。被写界深度(DOF)とも呼ばれる深度範囲は、オブジェクト10が焦点にあるカメラ20とオブジェクト10との間の距離の範囲を示すために使用される用語である。オブジェクト10が、カメラ20の深度範囲の外側でカメラ20に近すぎるまたは遠すぎる場合、オブジェクトは、焦点から外れ、細部は解像できない。例えば、8mmレンズを装備したカメラ20は、5センチメートルと30センチメートルの間の深度範囲を有し得る。
【0036】
光源21は、カメラ20が異なるライティング条件下でオブジェクトの照度差ステレオデータを取り込むことを可能にするように個々に次々に作動させられる。これは、一度にたった1つの光源をオンに切り換えることによって達成される。例えば、装置11は16個のLEDを備えてもよく、したがって、16個の照度差ステレオ画像のセットが取り込まれてもよい。
【0037】
照度差ステレオでは、各光源21は、異なるライティング条件下でオブジェクトの照度差ステレオデータを取り込むためにオブジェクト10に対して個々に作動させられる。これは、一度にたった1つの光源をオンに切り換えることによって達成される。次いで、知られている表面またはオブジェクトからカメラ20の各画素上へ反射される光の量が測定される。例えば、装置11は、16個のLEDを備えてもよく、したがって、16個の照度差ステレオ画像のセットが取り込まれてもよい。
【0038】
照度差ステレオにより、面法線が推定されることを可能にする。その最も基本的な形態では、ランバート面上の任意の点について、カメラにおける反射光の強度Iは、
【0039】
【数1】
【0040】
によって表すことができる。
【0041】
ただし、Iはカメラにおける反射光の強度であり、Lは照射光の光方向に対応する法線ベクトルであり、nはその点における表面に対する法線であり、kはその点におけるアルベド反射率である。3つ以上の異なる光方向について上のものを解くことによって、面法線nを推定することが可能である。面法線の全てが、表面上の全ての点について決定されると、法線を統合(integral)することによって表面を再構築することが可能である。
【0042】
実際には、表面が一定のアルベドを有する可能性が低いので、状況はより複雑である。また、近接場光減衰は、照度差ステレオを使用して復元されるオブジェクトの形状にも影響を及ぼす可能性がある。
【0043】
これをモデル化するために、以下のものが使用されてもよく、ここで、照度差ステレオ画像の各セットがm枚の画像を含み、画像枚数は、照明方向の個数に対応する(これは、この例では、使用される光源の個数に対応する)。j=1,…,mについての各画像ij,pは、画素pのセットとして見ることができる。m個の光源の各々について、方向Lj、および輝度Φjが知られている。
【0044】
上述したように、近接場光減衰は、オブジェクトからの光の反射に影響を及ぼす。近接場光減衰は、散逸の以下の非線形放射モデルを使用してモデル化される。
【0045】
【数2】
【0046】
ただし、Φmは光源の固有輝度であり、SmはLED点光源の向きを示す主方向であり、μmは角度散逸係数であり、ライティング方向は、
【0047】
【数3】
【0048】
として表される。
【0049】
点0にあるカメラ中心に対して位置Pmにある較正された点光源を仮定し、これにより可変の光ベクトルLm=Pk-Xという結果になり、ただし、Xは3D表面の点座標であり、X=[x,y,z]Tと表される。
【0050】
視線ベクトル
【0051】
【数4】
【0052】
【0053】
【数5】
【0054】
として定義する。一般的な画像放射照度方程式は、
【0055】
【数6】
【0056】
として表され、ここで、Nは面法線であり、Bは一般的な双方向反射率分布関数(BRDF:bidirectional reflectance distribution function)であると仮定され、ρは表面アルベドであり、ただし、アルベドρおよび画像はRGBであり、反射率はチャネルごとに異なり、したがって、最も一般的なケースを可能にする。さらに、影および自己反射などのグローバル照明効果も、Bに組み込むことができる。
【0057】
上記のものがモデル化されることを可能にするために、照度差ステレオ画像は、観測マップへ変換される。観測マップは、画素単位の照明情報を説明するために生成される。一実施形態では、観測マップは、各画素について生成される。各観測マップは、2D平面上へのライティング方向の投影を含み、各画素についてのライティング方向は、各照度差ステレオ画像から得られる。
【0058】
観測マップがどのように構築され得るかの詳細は、後で説明される。しかしながら、要するに、観測マップは、光ベクトルであるLmを使用して生成される。上述したように、これは、画素に対応するオブジェクトの表面上の点の3D位置に対して定められる。したがって、オブジェクトの形状はLmに影響を及ぼし、したがって、観測マップに影響を及ぼす。観測マップが第1の時間について生成されるとき、形状の単純な推定が使用される。例えば、全ての画素がカメラから一定の距離にあると仮定されてもよい。
【0059】
観測マップは、各表面画素におけるあらゆる照明方向を考慮し、可変数の画像の情報を単一のd×d画像マップにマージすることを可能にするように意図されている。
【0060】
複数の画像が与えられるとき、カメラ20の各画素pについて、画像jにおけるその値は、ij,pとして示される。変更された照明を用いた画像内の画素の全ての観察は、単一のd×d×4マップOに組み合わされ、ここで、dは、次元である。これがどのように達成されるかについては後述される。
【0061】
図3は、近接場光学効果を考慮に入れることができる、オブジェクトまたは背景の照度差ステレオ画像のセットから面法線を復元するための方法の基本ステップの高レベル図を示す。
【0062】
オブジェクトの画像は、上述した手順に従って装置11を使用して得られる。代替として、照度差ステレオ画像は、遠隔照度差ステレオ撮像装置から得られ、コンピュータ12に通信され、したがって、入力として与えられ得る。
【0063】
照度差画像の各画素について、観察マップは、全ての照度差画像の画素観測を観測マップ上へ組み合わせることによってレンダリングされる。(上記したように)。続いて、法線(方位)マップを生成するために、観測マップが処理される。一実施形態では、観測マップは、畳み込みニューラルネットワーク(CNN)によって処理され得る。そのようなCNNの可能な構成は、図6を参照して説明される。
【0064】
図4は、一実施形態による装置40を示す。図4は、第1のカメラ41と第2のカメラ42とを保持するマウントを示す。マウントは、複数の光源43を互いにおよび第1のカメラ41および第2のカメラ42に対して一定の関係でさらに保持する。装置40のこの配置は、第1のカメラ41、第2のカメラ42、および複数の光源43が互いから一定の分離を維持しつつ一緒に移動させられることを可能にする。
【0065】
一実施形態では、15個のLEDは、複数の光源として使用されるが、互いに対してのならびに第1のカメラ41および第2のカメラ42に対してのその位置が知られている限り、任意の個数および配置の光源が、使用され得る。
【0066】
図4は、第1のカメラ41と第2のカメラ42とを備える装置を示すが、説明された方法は、単一のカメラによって実施されてもよく、ここにおいて、単一のカメラは、LEDの所与の位置、ならびに第1の位置と第2の位置、第1の位置とLED、および第2の位置とLEDの間の知られている距離について、図4の第1のカメラ41の位置と図4の第2のカメラ42の位置との間で移動するように構成される。
【0067】
図5は、一実施形態による方法の概要を示す流れ図である。
【0068】
カメラ1を用いたデータ取り込みのステップS501では、オブジェクトの照度差ステレオ画像の第1のセットが取得される。例えば、照度差ステレオ画像の第1のセットは、第1の位置において図4に示された第1のカメラ(またはカメラ1)から取得され得る。同時に、カメラ2を用いたデータ取り込みのステップS503では、照度差ステレオ画像の第2のセットは、第2の位置において図4に示された第2のカメラ(またはカメラ2)から取得される。画像の第1のセットと第2のセットの両方は、上述したように知られている光(LED)の位置および知られているカメラの位置の下で取得される。
【0069】
代替実施形態では、オブジェクトの照度差ステレオ画像の2セットは、メモリデバイスから取得され、ここにおいて、照度差ステレオ画像の2セットは、説明された方法の実行前に一度に前もって取得された。さらなる変形例では、たった1つのカメラがあり、同じカメラによって、照度差ステレオ画像の第1のセットは、第1の位置において取得され、照度差ステレオ画像の第2のセットは、第2の位置において取得される。
【0070】
以下の説明において参照を容易にするために、照度差ステレオ画像の第1のセットは、左ステレオ画像と呼ばれ得るとともに、照度差ステレオ画像の第2のセットは、右ステレオ画像と呼ばれ得る。しかしながら、第1の位置は、第2の位置の右側に、第2の位置の上方に、第2の位置の下方に、または第2の位置から離れた任意の位置にあってもよい。第1のセット、第2のセット、左および右の専門語は、第1の位置におけるカメラから得られた画像または画像のセットを第2の位置におけるカメラから得られた画像または画像のセットと区別するために使用され得る。
【0071】
照度差ステレオ画像の各セットは、m個の画像を含み、画像の個数は、使用される光源の個数に対応する。j=1,…,mの場合、各画像ij,pは、画素pのセットとして理解され得る。m個の光源の各々について、方向Ljおよび輝度Φjは知られており、法線Npの計算に使用される。
【0072】
ステップS505では、法線マップは、データ取り込みステップS501から生成される。これは、左法線マップNLと呼ばれる。ステップS507では、法線マップが、データ取り込みステップS503から生成される。これは、右法線マップNRと呼ばれる。
【0073】
この実施形態では、左法線マップおよび右法線マップは、上述された方法を使用して生成され、左観測マップはカメラ1からのデータから生成され、右観測マップはカメラ2からのデータから生成される。これらの初期観測マップを生成するために、初期オブジェクトジオメトリzestの推定が使用される。これは、(数センチメートルまで正確であり得る)とても大雑把な深度初期化zestであり得る。オブジェクトジオメトリの推定は、zestに対応する一定値を有する深度マップを備える。
【0074】
S501から与えられる2セットの照度差画像が、左ビューおよび右ビュー(第1のカメラ位置および第2のカメラ位置からのビュー)で構成されたいくつかの較正されたステレオペアを与えると仮定される。
【0075】
カメラの焦点距離f、ステレオベースラインbを仮定すると、よく知られた深度(z)と視差(d:disparity)の関係、
【0076】
【数7】
【0077】
が適用される。
【0078】
第1の位置と第2の位置との両方についての照度差ステレオ画像、および深度初期化zestを仮定すると、左および右法線マップNLおよびNRが算出され得る。
【0079】
ステップS509では、ステレオマッチングが、左法線マップおよび右法線マップに関して実行される。このステップでは、ステレオマッチング(または視差推定)が、左法線マップと右法線マップとの間の疎なペアの形状を保存する対応のセットを出力するために、左法線マップと右法線マップの両方に対して実行される。
【0080】
S505およびS507からの法線マップNLおよびNRは、グラウンドトゥルースに対して数度まで正確であることが予期される。しかしながら、深度マップ(数値積分を使用してそれぞれNLおよびNRから計算されるZ0LおよびZ0R)は、スケールの曖昧さに悩まされる。これは、数値積分が全体の平均深度を保存する、すなわち、
【0081】
【数8】
【0082】
であるので、問題の単一ビューバージョンの必然的な結果である。したがって、真実の深度ZTを有するほとんど完全に積分可能な表面については、
【0083】
【数9】
【0084】
であることが予期される。
【0085】
実際には、式(6)は、非常に滑らかな表面にのみ適用され、任意の合理的なサイズの画像についての誤差伝播にとても敏感である。これは、次に、オブジェクトの全体形状Z0がいくらかの低周波変形または曲げを示すことを意味する。しかしながら、注意が小さいサイズの画像パッチに制限される場合、滑らかさの制約は、(深度不連続を含まないパッチの場合)満足するのがずっと容易であり、したがって、式(6)は、左右のマッチングを容易にするために利用され得る。
【0086】
一実施形態では、疎なステレオマッチング(または視差推定)が、オブジェクトの疎なステレオ表現を生成するために使用される。形式的には、このステレオマッチングステップの目標は、左法線マップNL上の位置(x,y)を有する各画素について、右法線マップNRにおけるベストマッチ位置(x-d,y)を見つけることであり、その理由は、これが式1を使用して絶対的な表面深度を回復することを直接可能にするからである。
【0087】
単一の画素マッチングは、あまりに曖昧であり、したがって、ノイズに対してあまりに敏感であり得る。一実施形態では、(x,y)のまわりw画素でパッチをマッチすることが目標であり、これは、NPL=NL[x-w:x+w,y-w:y+w]と表されてもよく、ここで、NPLは、左法線マップNLのパッチである。
【0088】
一実施形態では、画素位置(x,y)を中心としている左画像NPL上の所与の画素パッチについて、NPR[x-d,y]の探索は、右法線マップNR内の(x,y)における第1の候補画素パッチで始まる右法線マップNR上で実行される。さらなる候補マッチは、例えば、x次元に沿って第1の候補画素パッチを左または右へシフトすることによって、得られる。探索は、エピポーラ線(または走査線)について制約される。エピポーラ制約は、画像のうちの1つにおける画素が与えられると、他の画像における潜在的な共役像が、エピポーラ線と呼ばれる直線に属することを述べる。この制約は、ステレオマッチングが、基本的に1次元問題であることを示す。
【0089】
次いで、新しい画素パッチが、左画像NPL上で選択され、右法線マップにおけるマッチの探索が、再び実行される。
【0090】
候補画素パッチは、重なり合ってもよい。各候補画素パッチは、第1の候補画素パッチのx方向のシフトである一時的な視差dtに関連している。
【0091】
左画像NPL上の所与の画素パッチについては、右画像NPR上の各候補画素パッチは、候補画素がベストマッチであるか決定するために推定される。一実施形態において、各候補画素パッチは、角距離(法線のコサイン類似度)を使用して推定される。しかしながら、他のメトリクスが、最小二乗差などの評価に使用されてもよい。
【0092】
これは、左法線マップNLと右法線マップNRとの間のペアの形状を保存する対応という結果になる。
【0093】
一実施形態では、視差の左右一貫性は強制される。これは、反対のビューからの、すなわち右から左への情報を参照することによって視差推定を強化する。一実施形態では、これは、左画像NPL上の所与の画素パッチを決定し、右法線マップ上のマッチする画素パッチNPRを識別することによって達成される。次いで、NPRについて、画素位置(x,y)に中心を有する状態で、NPL[x-d,y]の探索は、左法線マップNL内の(x,y)における第1の候補画素パッチで始まる左法線マップNL上で実行される。さらなる候補マッチは、第1の候補画素パッチを左または右にシフトすることによって得られる。候補画素パッチは、重なり合ってもよい。各候補画素パッチは、一時的な視差dtに関連している。
【0094】
次に、右画像NPR上の所与の画素パッチについて、どの候補画素がベストマッチであるか決定するために、左画像NPL上の各候補画素パッチが評価される。一実施形態では、各候補画素パッチは、角距離(法線のコサイン類似度)を使用して評価される。しかしながら、他のメトリクスが、最小二乗差などの評価に使用されてもよい。
【0095】
視差の左右一貫性は、左法線マップNL上のパッチと右法線マップNR上のパッチとの間のマッチと、右と左の間のマッチとが、所与の閾値よりも低い視差差を有するという条件によって強制される。視差差が閾値を超える場合、そのマッチは排除され得る。例えば、一実施形態では、0.5を超える視差差を有する全てのマッチが排除される。しかしながら、視差に基づく他のメトリックが使用されてもよい。
【0096】
一実施形態では、5°未満の法線差で点のみを維持することによって、単一画素法線マッチの左右一貫性も強制される。
【0097】
上記は、候補画素パッチを探索するウィンドウ方法を説明したが、候補パッチを識別する代替方法が使用されてもよい。
【0098】
一実施形態では、より正確なステレオマッチングを与えるために、パッチワーピングは、法線マップに関連した曲率を補正するために使用され得る。任意の正面を向いていない平面について、異なる深度を有する画素が異なる視差を有するので、右法線マップNPRにおける対応するパッチは、(x-d,y)を中心にしたサイズ2wの平方ではないことに留意されたい。しかしながら、近似的な相対深度の式(6)は、左画像から右画像へのより正確なマッピング(すなわち、パッチワーピング)を算出するために使用され得る。
【0099】
より正確には、一実施形態では、各一時的な視差dtについて、ワーピング手順は、以下の通りである。
【0100】
1.
【0101】
【数10】
【0102】
のように平均の一時的な深さを算出する
【0103】
2.相対深度スケールファクタを算出する
【0104】
【数11】
【0105】
3.各パッチ画素(xp,yp)についてその相対深度をzp=sZ0L[xp,yp]へスケールする
【0106】
4.
【0107】
【数12】
【0108】
としてパッチ画素視差を算出する
【0109】
5.位置NR[xp-dp,yp]において右法線マップから補間値をサンプリングする
【0110】
したがって、上記のワーピング手順を使用して、左法線マップNL上の画素の各パッチについて、右法線マップNRの一時的な対応が算出される。上述したように、マッチングは、角距離(法線のコサイン類似度)を使用して推定される。一実施形態では、視差の左右一貫性は、上述したように強制される。
【0111】
これは、左法線マップNLと右法線マップNRとの間に疎なペアの形状を保存する対応のセットをもたらす。これから、2つの形状が再構成され、1つは左法線マップから始まるパッチマッチングからのものであり、1つは右法線マップから始まるパッチマッチングからのものである。
【0112】
次いで、構成される2つの形状(部分ステレオ推定)は、1つに組み合わされる。対応する点は、2つの部分ステレオ推定上の異なる深度にあると推定される場合、対応する点は共に廃棄される。再び組み合わされたステレオ推定は疎であり、その点の個数を増加させるために統合(integrated)または補間され得る。しかしながら、ステレオ推定からの疎な点は、次のステップで直接使用され得る。
【0113】
ペア対応から、絶対的な深度を有するステレオ点のセットは、式(5)の原理およびカメラの較正マトリクスを利用する三角測量法を使用して算出される。次いで、疎なペアの形状を保存する対応のセットは、3D形状取り出しステップS511およびS513に入力される。
【0114】
ステップS511において、第1の3D形状(または再構成)は、上で詳述されたようなステレオマッチングから得られたペア対応によって制約を受けつつ、ステップS505においてカメラ1から得られる法線マップを使用して得られる。
【0115】
第2の3D形状(または再構成)は、ステップS513において、上で詳述されたようなステレオマッチングから得られたペア対応によって制約を受けつつ、ステップS507においてカメラ2から得られた法線マップを使用して得られる。
【0116】
再構成は、深度マップを生成するために法線マップを数値的に積分することによって生成され、この積分は、2つの深度マップのステレオマッチングから決定される深度情報によって制約を受ける。
【0117】
一実施形態では、これは、Queau(eはアクサンテギュが付く。以下同様。)およびDurou[Y.QueauおよびJ.-D.Durou.Edge-preserving integration of a normal field:Weighted least squares,TV and L1 approaches.In SSVM,2015]の変分法に従うことによって行われてもよく、ただし、表面導関数は一次有限差分を使用して近似される。
【0118】
深度マップ(Z0L,Z0R)を得るために各法線マップ(NL,NR)の数値積分は、これらのステレオ点に従うように制約され得る。これは、本質的に、積分方程式に別の項λ||z-z0||を追加し、ただし、zは深度であり、z0は推定深度であり、λはマッチの信頼度に基づいてスケール変更することもできる一定の重みである。これにより、スケールの曖昧さが解消するとともに、低周波数の曲げを減少させ、したがって、単一ビューの照度差ステレオ深度精度を大きく改善する。
【0119】
dxdyに関する積分の項は、
【0120】
【数13】
【0121】
であり、ただし、Dは発散演算子であり、zは知られている深度であり、zdは法線から推定された深度であり、ここで、λst||z-zst||は、ステレオ点を使用する制約であり、λprev||z-zprev||は、先の再構成から決定された事前二次式(quadratic prior)を使用する制約である。疎なステレオ再構成により、ステレオ再構成からの対応する値が存在しない点が再構成される場合、項λst||z-zst||は、0に設定される。
【0122】
この疎なステレオ再構成は、単眼照度差ステレオ再構成よりもグローバル歪みによってあまり影響を受けない。
【0123】
この段階では、(複数の修正されたステレオペアに対応することができるマルチビュー照度差ステレオの場合)出力は、依然としてビューごとの2.5D深度マップのセットであり、したがって、完全な表面を得るために融合が依然として必要とされることに留意されたい。ステレオ制約を受ける単一ビュー再構成(Z0L,Z0R)は、測量的に一貫しており、したがって、ステップS515において統一された表面上にマージされ得る。融合に基づく異なるビューにおける不正確さの影響を最小にするために、各点は、(Fotios Logothetis,Ignas Budvytis,Roberto Mecca,およびRoberto Cipolla.A differential volumetric approach to multi-view photometric stereo.In ICCV,2019に詳述されているように)そのビュー項、すなわちn・vを使用して重み付けされる。これは、画像の中心にある点は、正しい可能性がより高いので、より大きい重みで与えられることを可能にする。
【0124】
加えて、オブジェクトのビジュアルハル(visual hull)の外側にある点は完全に排除される。
【0125】
一実施形態では、ポアソン再構成が実行される。疎なステレオ点のステレオ点群は、ポアソン再構成を用いてより緻密にされ得る。ポアソン再構成の出力は、全てのビューに投影でき、反復手順の次の段階のためのより良い初期化として使用され得る緻密な表面である。
【0126】
一実施形態では、再構成を改善するために、上述されたプロセスが何度も反復される。続く反復では、先の反復からのマージされたステレオ制約を受けた構成が、大雑把な深度推定または初期3D平面として使用される。この推定を使用して、法線が算出され、法線を基にステレオマッチングが実行され、オブジェクトの画像が、ステレオマッチングから得られたステレオ点によって制約を受けて再構成される。
【0127】
加えて、緻密な表面推定を有することは、単一ビュー再構成段階において考慮され得る不連続境界を推定することも可能にする(境界にわたって画素について通常の統合可能性の制約を本質的に取り除く)。
【0128】
次いで、ステップS515においてマージされたステレオ制約を受けた単一ビュー再構成は、オブジェクトの形状が近接場効果にどのように影響を与えるかを説明する式(1)~(4)に関連して上述したように、近接場効果を考慮に入れる光分布を再算出するために、ステップS517において、再生成された形状として使用される。
【0129】
ステップS519では、新たな観測マップが、カメラ1および2について生成される。これらの観測マップは、上記したものと同じように生成される。しかしながら、ここでは、S517において再生成された形状は、zestとして使用される。法線マップは、ステップS521において、S519で生成された観測マップから生成される。
【0130】
次に、方法は、ステップS521において生成された新しい法線マップがステレオマッチングされる場合、S509にループして戻る。次いで、プロセスは、S515において再構成された形状が収束するまで、上記のように継続する。
【0131】
上記の方法は、観測マップの形成と、これらの観測マップから法線マップを生成することとを説明する。
【0132】
より詳細には、照度差ステレオ画像がRGB画像である場合、RGBチャネルが平均化され、したがって画像がグレースケール画像に変換される前処理が実行され得る。前処理段階では、照度差ステレオ画像が、固有光源輝度でやはり補償され、ここで、固有光源輝度Φmは、各LEDの一定の特性である。結果として得られる画像の値は、RAWグレー画像値と呼ばれ、本明細書において以下にさらに説明されるように観測マップに含まれる。
【0133】
したがって、一般的な画像放射照度方程式は、以下のようにBRDF逆問題に再配置され得る。
【0134】
【数14】
【0135】
ここで、jmは、BRDFサンプルを示す。視線ベクトル
【0136】
【数15】
【0137】
が知られているが、深度zによって示されるオブジェクトと照度差ステレオ取り込みデバイスとの間の距離に対する非線形依存性により、ライティング方向Lmおよび近接場光減衰αmは、未知であることに留意されたい。したがって、畳み込みニューラルネットワークの目的は、以下でさらに説明するように、マップの第3および第4のチャネルを介してネットワークに入力される、一般的な視線方向の逆のBRDF問題を解決し、面法線Nと、続いて深度zとを復元することである。
【0138】
各画素の深度z(局所表面深度)の初期推定を仮定すると、近接場減衰αm(X)が、式(1)に従って算出でき、したがって、近接場減衰の補償後の照度差ステレオ画像における観測を表す等価な遠距離場反射率サンプルjmが、式(8)の第1の部分を使用して得ることができる。式(8)の第2の部分は、面法線Nを計算するために使用される畳み込みニューラルネットワーク(CNN)によってモデル化され、法線Nを近似するために使用される。
【0139】
ステップS407では、等価な遠距離場反射率サンプルjmのセットは、観測マップを生成するために使用され、観測マップは、結果として、CNNの入力に与えられる。各等価な遠距離場反射率サンプルjmは、画素のセットx={x1,…,xp}を含み、ここで、各サンプルjmについて、mは光源の個数、したがって、等価な遠距離場反射率サンプルのセット内のサンプルの数を示し、光方向Lmおよび輝度Φmは、知られており、各画素xについて面法線N(x)の推定に使用される。
【0140】
観測マップは、全ての光源からの情報を単一のマップに組み合わせることによって算出される。特に、各画素xについて、等価な遠距離場反射率サンプルjmのセット内の全ての観測は、単一のd×d観測マップにマージされる。
【0141】
各画素xについて最初に正規化された観測
【0142】
【数16】
【0143】
が算出される。観測の正規化は、光源輝度Φmの変動を補償し、全ての光源mについての最大輝度で除算することによって実行される。
【0144】
【数17】
【0145】
光源変動の補償は、異なる画素のアルベド変動を補償することが目標とされる。結果として、これにより、各画素の観測に関連したデータの範囲が縮小することにもなる。
【0146】
続いて、各画素xについて正規化された観測
【0147】
【数18】
【0148】
が、正規化された観測マップOn上に配置される。正規化された観測マップは、次元d×dを有する正方形の観測マップである。いくつかの実施形態では、dは32である。観測マップのサイズは、使用される照度差ステレオ画像の数またはサイズから独立している。
【0149】
正規化された観測は、光源方向
【0150】
【数19】
【0151】
をd×dマップへ投影することによって、以下の式に従って、正規化された観測マップ上にマッピングされる。
【0152】
【数20】
【0153】
いくつかの例では、正規化された観測データは、除算演算によって破損され得る。例えば、正規化された観測データの破損は、観測値の最大値が飽和したときに発生し得る。飽和値で除算すると、正規化された観測値の過大評価になる。他の例では、観測におけるとても暗い点の分割は、数値的に不安定になり、ノイズの量または任意の区別の不正確さが増幅される。
【0154】
したがって、各画素xについてのd×d観測マップは、RAWチャネルマップOrの追加によって次元d×d×2を有する3次元観測マップに拡張される。RAWチャネルマップは、RAWグレースケールチャネルマップであってもよい。RAWチャネルマップは次のように定められる。
【0155】
【数21】
【0156】
以下Oによって示されるd×d×2観測マップは、正規化された観測マップOnおよびRAWチャネルマップOrの第3の軸上の連結演算によって生成される。
【0157】
【数22】
【0158】
いくつかの実施形態では、寸法d×d×2を有する観察マップOは、2つの追加のチャネルを含むように観測マップを強化することによって、視線ベクトルの第1の2つの成分
【0159】
【数23】
【0160】
および
【0161】
【数24】
【0162】
にそれぞれ一定であるd×d×4観測マップに拡張することができる。成分
【0163】
【数25】
【0164】
および
【0165】
【数26】
【0166】
は、スカラー成分であり、それ自体がBRDF逆問題の式において使用される視線ベクトル
【0167】
【数27】
【0168】
を完全に決定する。
【0169】
観測マップは、離散化された光方向の2Dグリッド上のBRDFサンプルからの相対画素強度を記録する。観測マップの表現は、使用されるライト、およびしたがって照度差ステレオ画像の数が潜在的に変化するにもかかわらず、それが画素長についての2D入力を与えるので、古典的なCNNアーキテクチャと共に使用するのに非常に便利な表現である。
【0170】
ステップS505、S507、およびS521では、各画素xについての観測マップは、CNNの入力に与えられ、CNNは、BRDF逆問題を解くために使用され、観測マップ内の相対画素強度に基づいて各点についての面法線を計算する。CNNは現実世界の影響に対してロバストであるように設計されるので、モデル化されたBRDF逆問題の式は、BRDF逆問題の式の不正確な表現である。
【0171】
画素単位の観測マップから面法線を生成するために使用され得る畳み込みニューラルネットワークの高レベル流れ図が、図6に提示される。
【0172】
ネットワークは、実世界データに対処するためのロバストな特徴を学習するために使用される7つの畳み込み層を備える。これは、GB2598711に記載されているように、ネットワークのトレーニング中に拡張戦略を使用することによって行われる。ネットワークは、2つの完全に接続された層と、逆BRDF問題を解くために使用され、したがって各画素について面法線を算出する終端で対数層と組み合わされている完全に接続された層とをさらに含む(ステップS505およびS507)。
【0173】
ネットワークは、合計で約450万個のパラメータを有する。ネットワークのアーキテクチャの全体図が図6に図示されている。図6は、特定のネットワークアーキテクチャを表すが、観測マップから面法線を推定するために、異なるニューラルネットワークアーキテクチャが使用されてもよいことが理解される。
【0174】
提案されたネットワークは、単一分岐ネットワークを含む。7つの畳み込み層603、605、609、613、619、623、および627、ならびに第1の2つの完全に接続された層631および635は、それぞれ、RELU活性化関数がそれに続く。各畳み込み層の畳み込みフィルタのサイズが、図6に示されており、したがって、各層についての出力ボリュームのサイズが推測され得る。特に、畳み込み層603は、次元(3×3)を有する32個の畳み込みフィルタを備え、次元(32,32,32)を有する出力ボリュームを出力し、畳み込み層605は、次元(3×3)を有する32個の畳み込みフィルタを備え、次元(32,32,32)を有する出力ボリュームを出力する。第1の連結層608の出力ボリュームは、(32,32,64)の次元を有する。畳み込み層609は、次元(3×3)を有する32個の畳み込みフィルタを備え、次元(32,32,32)を有する出力ボリュームを出力する。第2の連結層612の出力ボリュームは、次元(32,32,96)を有する。畳み込み層613は、次元(1×1)を有する64個の畳み込みフィルタを備え、次元(32,32,64)を有する出力ボリュームを出力する。平均プーリング層617の出力ボリュームは、(16,16,64)の寸法を有する。畳み込み層619は、(3×3)の次元を有する64個の畳み込みフィルタを備え、次元(16,16,64)を有する出力ボリュームを出力する。
【0175】
第3の連結層622の出力ボリュームは、次元(16,16,128)を有する。畳み込み層623は、次元(3×3)を有する64個の畳み込みフィルタを備え、次元(16,16,64)を有する出力ボリュームを出力する。畳み込み層627は、次元(3×3)を有する128個のフィルタを備え、次元(16,16,128)を有する出力ボリュームを出力する。
【0176】
さらに、畳み込み層605、609、613、619、および623の後に、ドロップアウト層607、611、615、621、および625がそれぞれ使用される。ドロップアウトは、ネットワーク内のニューロン間の独立学習を減少させるトレーニング手法である。トレーニング中に、ネットワークの縮小バージョンが作成されるように、ノードのランダムなセットがネットワークからドロップされる。ネットワークの縮小バージョンは、ニューラルネットワークの他のセクションとは独立して学習し、したがって、ニューロンが互いの間で共依存性を発達させるのを防ぐ。
【0177】
各ドロップアウト層は、層の出力がドロップアウトされる確率を指定するドロップアウトパラメータに関連付けられる。層607、611、615、621、および625では、ドロップアウトパラメータは0.2であり、したがって、パラメータの20%がドロップアウトされる。
【0178】
スキップ接続も、収束を加速するためにネットワークアーキテクチャに用いられる。スキップ接続は、畳み込み層の出力がプロシーディング層(proceeding layer)をスキップすることを可能にし、ネットワークの次の層への入力におけるように与えられる前に、続く層の出力が一緒に連結されることを可能にするために使用される。平均プーリング層617も用いられる。
【0179】
7個の畳み込み層603、605、609、613、619、623、および627を含む畳み込みニューラルネットワークの第1の部分は、平坦化層629によって、完全に接続された層631、635、637および対数層633を含むネットワークの第2の部分から効果的に分離される。完全に接続された層は、それらが非線形数学関数の良好な近似を与えるので使用される。
【0180】
平坦化層629は、畳み込み層627によって出力された特徴マップを、第1の完全に接続された層631に与えられる入力データのベクトルに再配置する。畳み込み層627の出力ボリュームは、32,768要素ベクトルに平坦化され、これは、第1の完全に接続された層631へ与えられる。
【0181】
本明細書で上述したBRDFモデルは、多くの実際のBRDFの良好な近似であると考えられるBlinn-Phong反射率モデルに従い、BRDFは、拡散成分と指数成分との和としてモデル化される。したがって、逆BRDF問題を解くために、これらの演算の逆は、線形和と対数和の組合せとして近似される。線形和と対数和の組合せは、密結合層635と対数層633の組合せを使用してCNNにおいて実施される。密結合層635は、和の線形成分を表し、対数層は、和の対数成分を表す。
【0182】
最後に、ネットワーク特徴によって抽出されたものを単位ベクトル(画素の面法線)に変換し、したがって、ネットワークは、画素単位の観測マップ入力から面法線を出力するために、正規化層639が使用される。
【0183】
図7は、一実施形態による方法のステップを示す。図7は、行および列に配置された画像のセットを示す。以下の説明では、各画像は、画像(行,列)と呼ばれる。画像が2つの行に及ぶ場合、画像は(行1:行2,列)と呼ばれる。画像は、方法の各段階についてグラウンドトゥルースが知られているオブジェクトについて取得される。
【0184】
画像(1,1)は、照度差ステレオ画像の第1のセットからの画像であり、画像(2,1)は、照度差ステレオ画像の第2のセットからの画像である。画像(1,1)は右画像であり得、画像(2,1)は左画像であり得、またはその逆である。
【0185】
画像(1,2)は、グラウンドトゥルースに対しての画像(1,1)について算出された推定法線マップの誤差を示す。画像(2,2)は、グラウンドトゥルースに対しての画像(2,1)について算出された推定法線マップの誤差を示す。
【0186】
画像(2,3)は、画像(2,1)について推定された法線マップを統合することによって得られた法線からの構造(SfN:structure from normals)を示す。画像(2,4)は、グラウンドトゥルースに対するSfNマップの誤差を示す。
【0187】
画像(1,3)は、画像(1,1)について推定された法線マップを統合することによって得られた法線からの構造(SfN)を示す。画像(1,4)は、グラウンドトゥルースに対するSfNマップの誤差を示す。
【0188】
画像(1,6)は、S509を参照して説明されるように、画像(1,1)の法線マップと画像(2,1)の法線マップのマッチングから決定された視差推定マップを示す。画像(2,6)は、画像(2,1)についての法線マップと画像(1,1)の法線マップのマッチングから決定された視差推定マップを示す。黒は低視差であり、一方、白は高視差である。画像(1,5)は、画像(1,6)の視差マップにおける誤差を示す。画像(2,5)は、画像(2,6)の視差マップにおける誤差を示す。
【0189】
画像(1:2,7)は、ステレオマッチングから得られたステレオ点を示す。画像(1:2,8)は、グラウンドトゥルースに対してのステレオポイントの誤差を示す。
【0190】
画像(1:2,9)は、画像(1:2,7)のステレオ点によって制約された、画像(1,1)および画像(2,1)について得られた深度マップを融合することから得られる再構成されたオブジェクトを示す。画像(1:2,10)は、グラウンドトゥルースに対しての融合された形状の誤差を示す。
【0191】
画像(1:2,11)は、ポアソン再構成を使用して再構築されたオブジェクトを示す。画像(1:2,12)は、グラウンドトゥルースに対しての融合された形状の誤差を示す。
【0192】
行3から行4は、本方法の第2の反復についてのプロセスのステップを示す。行5から行6は、本方法の第3の反復についてのプロセスのステップを示す。
【0193】
図8は、再構成方法の動作原理を示す。S901は、オブジェクトが(15個からの)1個のLED光源によって照らされる2つのカメラから生じる入力画像のサンプルを示す。S902への矢印経路に続くのは、法線マップが単眼照度差ステレオから算出されたパイプラインである。次いで、2つのビューを幾何学的にマッチさせ、オブジェクトの疎なステレオ表現を与えるために、そのような法線マップが使用される。パッチワーピングは、S903において使用され得る。S904は、疎なステレオ点再構成を示す。S905は、2つのステレオ制約された単一ビュー再構成の融合を示す。S906において、再構成をさらに精緻化するために、ポアソン再構成が実行される。
【0194】
S907において、S906からの再構成は、本方法の続く反復のための形状ジオメトリの初期推定として使用される。これは、近接場光減衰について入力画像を補償するために、入力画像と共に使用される。
【0195】
図8は、左から右に、ステレオからの点群;事前点群を使用する法線統合(Normal integration);全てのビューからの融合および次のラウンドを初期化するための逆投影;事前表面を使用し、深度不連続性を考慮する統合といった融合のプロセスのステップを示す。
【0196】
図9は、単眼(単一ビュー)照度差ステレオと比較した提案されたシステムの結果を示す。1001において、異なる材料で作製された3つのオブジェクト(ウサギ、女王、およびリス)の双眼照度差ステレオ画像のペアが示されている。グラウンドトゥルース(1002)の後に、単眼照度差ステレオ再構成(1003)があり、それに続いて提案された方法の再構成(1004)がある。
【0197】
上記の方法およびシステムは、双眼照度差ステレオ、すなわち、2つの異なる位置にあるカメラから撮られた2つのビューまたは2セットの画像に関して説明されている。しかしながら、説明される方法は、より多くのビューにやはり適用され得る。例えば、一実施形態では、3つの異なる位置にあるカメラか撮られた3つのビューまたは3セットの画像がある。次いで、説明されたステレオマッチングを、第1のビューと第2のビューとの間、第1のビューと第3のビューとの間、および第2のビューと第3のビューとの間で実行され得る。結果として生じるステレオ制約された単一ビュー再構成(第1の再構成、第2の再構成、および第3の再構成)は、一緒にマージされ得る。
【0198】
上記の方法は、任意のいくつかのビュー、または照度差画像のセットに適用され得る。
【0199】
図10は、実施形態による方法を実施するために使用できるハードウェアの概略図である。これは一例にすぎず、他の構成が使用されてもよいことに留意されたい。
【0200】
ハードウェアは、コンピューティングセクション1100を備える。この特定の例では、このセクションの構成要素は、一緒に説明される。しかしながら、それらは必ずしも同じ位置にないことが理解されよう。
【0201】
コンピューティングシステム1100の構成要素は、(中央処理ユニット、CPUなどの)処理ユニット1113と、システムメモリ1101と、システムメモリ1101を含む様々なシステム構成要素を処理ユニット1113に結合するシステムバス1111とを含むことができるが、これらに限定されない。システムバス1111は、様々なバスアーキテクチャなどのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかであり得る。コンピューティングシステム1100は、バス1111に接続された外部メモリ1115も含む。
【0202】
システムメモリ1101は、読取り専用メモリなどの揮発性/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。起動中などにコンピュータ内の要素間で情報を転送するのを助けるルーチンを含む基本入出力システム(BIOS)1103は、典型的には、システムメモリ1101に記憶される。加えて、システムメモリは、CPU1113によって使用されているオペレーティングシステム1105、アプリケーションプログラム1107、およびプログラムデータ1109を収容する。
【0203】
また、インターフェース1125は、バス1111に接続されている。インターフェースは、コンピュータシステムがさらなるデバイスから情報を受信するためのネットワークインターフェースであり得る。インターフェースは、ユーザがある種のコマンド等に応答することを可能にするユーザインタフェースであることもできる。
【0204】
グラフィックス処理ユニット(GPU)1119は、この複数の並列の呼出しの動作により、上述した方法に特によく適している。したがって、一実施形態では、処理は、CPU1113とGPU1119との間で分割され得る。
【0205】
上述された実施形態は、(i)疎なペアの形状を保存する対応を推定すること、および(ii)推定された画素単位の法線によって案内される再構成、例えば、ポアソン再構成を初期化するためにそれらを使用することからなる2つのステップを組み合わせるが、他の再構成方法が使用されてもよい。
【0206】
ステレオマッチングは、ビュー不変特徴をマッチングすることを必要とし、これは、テクスチャのないオブジェクトにおいて、特に、異なるビューにおける外観および画素強度を変化させる鏡面反射を受けるオブジェクトについてとても難題である。加えて、局所的な表面曲率は、左と右の(または第1および第2の)ビューの間の局所的な外観を歪め、そのため、パッチマッチベースの方法は、2つのビュー内の画素の矩形パッチをマッチしようとする。
【0207】
単一ビューの近接場照度差ステレオは、近似的な深度初期化を用いてもとても正確であり得る緻密な(全ての前景画素についての)面法線を算出することができる。面法線は、ビュー不変特徴であり、パッチマッチングを本質的に可能にする任意の非平面の表面についての変動も示す。
【0208】
加えて、法線の統合は、局所的に正確である(および低周波変形または曲げに単に悩まされる)形状推定を与え、この局所的形状は、以下に説明されるように、パッチワーピングを実行し、したがって、ステレオマッチングを最大化するために使用され得る。
【0209】
したがって、初期の2セットの画像の代わりに法線に対するマッチングを実行するとき、テクスチャまたは光沢のないオブジェクトを扱うときでもロバストであるより信頼できるステレオマッチングが実行され得る。結果として、オブジェクトの再構成をステレオマッチングステップのペア対応に制約することは、単一のオブジェクトジオメトリに収束するようにオブジェクトジオメトリを更新する反復手順のためのより良い初期推定を与えるオブジェクトジオメトリのより正確な表現を与えることができる。
【0210】
上述したアーキテクチャも、GPUを使用する携帯電話に適している。いくつかの実施形態が説明されてきたが、これらの実施形態は、例のみによって示されており、本発明の範囲を限定することは意図されない。実際、本明細書で説明される新規なデバイスおよび方法は、様々な他の形態で具体化されてもよく、さらに、本明細書で説明されるデバイス、方法、および製品の形態における様々な省略、置換、変更が本発明の趣旨から逸脱せずに行われてもよい。添付の特許請求の範囲およびその均等物は、本発明の範囲および趣旨の範囲内に入るように、そのような形態または修正を含むことが意図される。

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10