(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022191122
(43)【公開日】2022-12-27
(54)【発明の名称】差分比較学習に基づく深度マップ合成方法
(51)【国際特許分類】
G06T 15/00 20110101AFI20221220BHJP
G06T 1/00 20060101ALI20221220BHJP
G06T 9/00 20060101ALI20221220BHJP
G06T 7/00 20170101ALI20221220BHJP
【FI】
G06T15/00 501
G06T1/00 315
G06T9/00 200
G06T7/00 C
G06T7/00 350C
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021151513
(22)【出願日】2021-09-16
(31)【優先権主張番号】202110658919.X
(32)【優先日】2021-06-15
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】505072650
【氏名又は名称】浙江大学
【氏名又は名称原語表記】ZHEJIANG UNIVERSITY
(74)【代理人】
【識別番号】100128347
【弁理士】
【氏名又は名称】西内 盛二
(72)【発明者】
【氏名】沈 越凡
(72)【発明者】
【氏名】▲鄭▼ 友怡
【テーマコード(参考)】
5B057
5B080
5L096
【Fターム(参考)】
5B057BA21
5B057CA13
5B057CA16
5B057CB13
5B057CB16
5B057CE08
5B057DA07
5B057DA12
5B057DA16
5B057DC09
5B057DC33
5B080AA19
5B080BA07
5B080DA06
5B080FA02
5B080FA09
5B080GA00
5B080GA21
5L096AA09
5L096GA06
5L096HA11
5L096KA04
(57)【要約】
【課題】本発明は、差分比較学習に基づく深度マップ合成方法を提供する。
【解決手段】当該方法は、差分比較学習に基づくポリシーにより、深層畳み込みニューラルネットワークによって深度マップを生成する過程において発生した幾何学的歪みを効果的に制限することができ、これによりレンダリングして得られたノイズ無し深度マップが実際のスキャン結果の特徴を有するようにすることができ、同時に、元の幾何学的構造を良好に維持することができる。レンダリングされたデータセットを利用して実際にスキャンされたデータセットでの深度マップの補強、セマンティック・セグメンテーション及び法線マップの推定を行うタスクにおいて、本発明の方法により得られた合成深度マップは、いずれも最良の結果を達成した。
【選択図】
図1
【特許請求の範囲】
【請求項1】
差分比較学習に基づく深度マップ合成方法であって、
深層畳み込みニューラルネットワークGをデータセットマッピングのキャリアとすることにより、レンダリングして合成された深度マップとそれに対応するカラーマップを、実際にスキャンされた深度マップの特徴を有する合成深度マップにマッピングして合成し、
トレーニングされた前記深層畳み込みニューラルネットワークGは、
レンダリングして得られた合成データセット
及び一つの実際にスキャンされたデータセット
を選択するステップであって、d及びIはそれぞれペアになる深度マップとカラーマップを表すステップ1と、
ステップ1で得られた2つのデータセットを深層畳み込みニューラルネットワークGに入力し、且つ、一つの弁別器を構築して深層畳み込みニューラルネットワークGをトレーニングするステップ2とによって、トレーニングして得られ、
トレーニングは、
弁別器を使用して、合成データセットからマッピングして合成された合成深度マップ
と実際にスキャンされたデータセットにおける深度マップd
rを弁別し、敵対的生成ニューラルネットワーク法によってトレーニングすることにより、2つのデータ分布間の差異を減少させるようにすることと、
深層畳み込みニューラルネットワークGにおけるエンコーダ部によって、それぞれ合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴を抽出し、且つ、それぞれ位置に応じて2つずつ減算して差分を計算し、比較学習によってトレーニングすることにより、合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴の間の同じ位置の差分の相互差異を減少させるようにすることと、
トレーニングして、深層畳み込みニューラルネットワークGによって発生された、実際にスキャンされたデータセットにおける深度マップd
rに対する無効マッピングを減少させるようにすることと、を含むことを特徴とする差分比較学習に基づく深度マップ合成方法。
【請求項2】
前記深層畳み込みニューラルネットワークGのネットワーク構造としては、ResNet、UNetなどを採用することを特徴とする請求項1に記載の差分比較学習に基づく深度マップ合成方法。
【請求項3】
弁別器によって、合成データセットからマッピングして合成された合成深度マップ
と実際にスキャンされたデータセットにおける深度マップd
rを弁別し、トレーニングして、2つのデータ分布間の差異を減少させるようにし、採用された目的関数は、具体的に、以下の通りであり、
【数1】
D()は、弁別器の出力を表すことを特徴とする請求項1に記載の差分比較学習に基づく深度マップ合成方法。
【請求項4】
深層畳み込みニューラルネットワークGにおけるエンコーダ部によって、それぞれ合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴を抽出し、且つ、それぞれ位置に応じて2つずつ減算して差分を計算し、トレーニングして、合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴の間の同じ位置の差分の相互差異を減少させるようにすることは、具体的に、
深層畳み込みニューラルネットワークGのエンコーダ部によって、それぞれ合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴を抽出し、且つ、それぞれそれらのうちのN層の特徴マップを均一に抽出するステップ(a)と、
抽出された各層の特徴マップからブロックをランダムに抽出し、これらを2つずつ減算して差分を計算し、合成データセットの深度マップd
s及び合成深度マップ
に対応する2つの差分セットを得るステップ(b)と、
ステップ(b)で得られた2つの差分セットから正のペアセット及び負のペアセットを選択し、トレーニングして、正のペアセットと負のペアセットの間の差異を最大化するようにするステップ(c)と、を含むことを特徴とする請求項1に記載の差分比較学習に基づく深度マップ合成方法。
【請求項5】
前記ステップ(c)では、正のペアセット及び負のペアセットは、具体的に、以下の通りであり、
【数2】
は、合成深度マップ
から抽出された第l層の特徴マップのブロックを表し、
は、合成データセットの深度マップd
sから抽出された第l層の特徴マップのブロックを表し、i、j、kは、特徴マップの異なる空間位置を表し、
トレーニングして、正のペアセットと負のペアセットの間の差異を最大化するようにし、採用された目的関数は、具体的に、以下の通りであり、
【数3】
τは、重みを表し、Eは、エネルギー関数を表すことを特徴とする請求項1に記載の差分比較学習に基づく深度マップ合成方法。
【請求項6】
トレーニングして、深層畳み込みニューラルネットワークGによって発生された、実際にスキャンされたデータセットにおける深度マップd
rに対する無効マッピングを減少させるようにし、採用された目的関数は、具体的に、以下の通りであり、
【数4】
は、深層畳み込みニューラルネットワークGのエンコーダ部の出力を表し、
は、深層畳み込みニューラルネットワークGのデコーダ部の出力を表し、|| ||
1は、正則化関数を表すことを特徴とする請求項1に記載の差分比較学習に基づく深度マップ合成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ視覚とコンピュータグラフィックスの分野に属し、特に差分比較学習に基づく実際の深度マップ合成方法に関する。
【背景技術】
【0002】
グラフィックス技術の発展及び市場の需要に伴い、大きな室外シーン及び室内シーンを含むオープンソースの3次元モデルのデータセットが既に多く存在している。3次元モデルデータセットを利用すれば、人々は、レンダリングなどの方式により、視覚タスクに適用できるいくつかのデータセットを容易に得ることができ、例えば、3次元モデル自体のカテゴリラベルを利用して、セマンティック・セグメンテーションに使用されるデータセットを生成する。実際にスキャンされた3次元データについて、まず、アルゴリズムによって3次元シーンを再構築する必要があり、このプロセスでは、十分にロバストでない場合が多く、次に、物品クラスのようなラベルについて、人為的に標識する必要がある。このような背景で、多くの方法は、どのように3次元モデルのデータセットを視覚タスクに効果的に適用するかを探索し始めているが、レンダリングされたデータセットと実際のデータセットの間に不可避的な差異が存在するため、レンダリングされたデータセットでうまく実行する方法は、実際のデータセットに直接適用することができない。従って、人々は、レンダリングされたデータセットと実際のデータセットの間のドメイン変換を探索する必要がある。
【0003】
ペアにならないデータセットを利用してカラーマップのドメイン変換を行う各作業は、既にデジタル芸術の分野で広く使用されているが、現在、深度マップの変換の効果的な方法がまだない。カラーマップで成功した方法は、深度マップの幾何学的構造を考慮していないため、深度マップに直接適用されると、深刻な幾何学的歪みをもたらす。
【0004】
比較学習の概念は、自己教師あり表現学習のような各種の方法においてその能力を実証しており、レンダリングされたデータセットと実際のデータセットの間に一致するデータがないため、比較学習の方法はこの場合に優位性を発揮することができる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、幾何学的維持度の高い深度マップ合成方法を提供し、当該方法により、レンダリングして得られたノイズ無し深度マップが、実際のスキャン結果の特徴を有するようにし、元の幾何学的構造を良好に維持することができる。同時に、レンダリングされたデータセットを利用して実際にスキャンされたデータセットでの深度マップの補強、セマンティック・セグメンテーション及び法線マップの推定を行うタスクにおいて、本発明の方法により得られた合成深度マップは、いずれも最良の結果を達成した。
【課題を解決するための手段】
【0006】
本発明は、以下の技術的解決手段によって実現される。
【0007】
差分比較学習に基づく深度マップ合成方法であって、
深層畳み込みニューラルネットワークGをデータセットマッピングのキャリアとすることにより、レンダリングして合成された深度マップとそれに対応するカラーマップを、実際にスキャンされた深度マップの特徴を有する合成深度マップにマッピングして合成し、
トレーニングされた前記深層畳み込みニューラルネットワークGは、
レンダリングして得られた合成データセット
及び一つの実際にスキャンされたデータセット
を選択するステップであって、d及びIはそれぞれペアになる深度マップとカラーマップを表すステップ1と、
ステップ1で得られた2つのデータセットを深層畳み込みニューラルネットワークGに入力し、且つ、一つの弁別器を構築して深層畳み込みニューラルネットワークGをトレーニングするステップ2とによって、トレーニングして得られ、
トレーニングは、
弁別器を使用して、合成データセットからマッピングして合成された合成深度マップ
と実際にスキャンされたデータセットにおける深度マップd
rを弁別し、敵対的生成ニューラルネットワーク法によってトレーニングすることにより、2つのデータ分布間の差異を減少させるようにすることと、
深層畳み込みニューラルネットワークGにおけるエンコーダ部によって、それぞれ合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴を抽出し、且つ、それぞれ位置に応じて2つずつ減算して差分を計算し、比較学習によってトレーニングすることにより、合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴の間の同じ位置の差分の相互差異を減少させるようにすることと、
トレーニングして、深層畳み込みニューラルネットワークGによって発生された、実際にスキャンされたデータセットにおける深度マップd
rに対する無効マッピングを減少させるようにすることと、を含む差分比較学習に基づく深度マップ合成方法。
【0008】
そのうち、レンダリングして得られた合成データセットは、オープンソースの3次元モデルのデータセットをレンダリングすることで得られ、実際にスキャンされたデータセットは、スキャナなどの機器によって収集して得られる。
【0009】
本発明は、トレーニングされた深層畳み込みニューラルネットワークGにより、レンダリングされた深度マップを実際のスキャン特徴を有する深度マップに変換することができ、これにより実際にスキャンされた深度マップの代わりに深度マップの補強、セマンティック・セグメンテーション及び法線マップなどの推定タスクに適用することができる。
【0010】
更に、前記深層畳み込みニューラルネットワークGのネットワーク構造としては、ResNet、UNetなどを採用する。
【0011】
更に、弁別器によって、合成データセットからマッピングして合成された合成深度マップ
と実際にスキャンされたデータセットにおける深度マップd
rを弁別し、トレーニングして、2つのデータ分布間の差異を減少させるようにし、採用された目的関数は、具体的に、以下の通りである。
【数1】
D()は、弁別器の出力を表す。
【0012】
更に、深層畳み込みニューラルネットワークGにおけるエンコーダ部によって、それぞれ合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴を抽出し、且つ、それぞれ位置に応じて2つずつ減算して差分を計算し、トレーニングして、合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴の間の同じ位置の差分の相互差異を減少させるようにすることは、具体的に、
深層畳み込みニューラルネットワークGのエンコーダ部によって、それぞれ合成データセットの深度マップd
sとそれに対応する合成深度マップ
の特徴を抽出し、且つ、それぞれそれらのうちのN層の特徴マップを均一に抽出するステップ(a)と、
抽出された各層の特徴マップからブロックをランダムに抽出し、これらを2つずつ減算して差分を計算し、合成データセットの深度マップd
s及び合成深度マップ
に対応する2つの差分セットを得るステップ(b)と、
ステップ(b)で得られた2つの差分セットから正のペアセット及び負のペアセットを選択し、トレーニングして、正のペアセットと負のペアセットの間の差異を最大化するようにするステップ(c)と、を含む。
【0013】
更に、前記ステップ(c)において、正のペアセット及び負のペアセットは、具体的に、以下の通りである。
【数2】
は、合成深度マップ
から抽出された第l層の特徴マップのブロックを表し、
は、合成データセットの深度マップd
sから抽出された第l層の特徴マップのブロックを表し、i、j、kは、特徴マップの異なる空間位置を表し、
トレーニングして、正のペアセットと負のペアセットの間の差異を最大化するようにし、採用された目的関数は、具体的に、以下の通りである。
【数3】
τは、重みを表し、Eは、エネルギー関数を表す。
【0014】
更に、トレーニングして、深層畳み込みニューラルネットワークGによって発生された、実際にスキャンされたデータセットにおける深度マップd
rに対する無効マッピングを減少させるようにし、採用された目的関数は、具体的に、以下の通りである。
【数4】
は、深層畳み込みニューラルネットワークGのエンコーダ部の出力を表し、
は、深層畳み込みニューラルネットワークGのデコーダ部の出力を表し、|| ||
1は、正則化関数を表す。
【発明の効果】
【0015】
本発明の顕著な貢献は、以下の通りである。
【0016】
本発明は、幾何学的維持度の高い深度マップ合成方法を提供し、深度マップの合成に適用されると幾何学的歪みをもたらす従来のカラーマップ合成方法とは異なり、本発明によれば、レンダリングして得られたノイズ無し深度マップが、実際のスキャン結果の特徴を有するようにし、元の幾何学的構造を良好に維持することができる。本発明は、ニューラルネットワークのトレーニング過程でエンドツーエンドであり、段階的に行う必要がない。また、本発明の方法は、各種の機器による収集データをトレーニングデータとして利用し、異なる要件を満たす深度マップを合成することができ、トレーニング時に一切変更する必要がない。実際のスキャン結果の特徴を有する深度マップを合成した後、本発明は、当該データを実際にスキャンされた深度マップの補強、セマンティック・セグメンテーション及び法線マップの推定タスクに適用することができ、且つ、いずれも現在最良の結果を達成した。
【図面の簡単な説明】
【0017】
【発明を実施するための形態】
【0018】
以下、具体的な実施例及び図面を参照しながら本発明を更に説明する。
実際にスキャンされたデータセット
を取得し、且つオープンソースの3次元モデルのデータセットをレンダリングすることで合成データセット
を取得し、
は、1つの深度マップであり、
は、それに対応するカラーマップであり、H×Wは、マップの画素サイズを表す。これらの2つのデータセットは、いずれも対応する位置合わせされた深度マップ及びカラーマップを含むが、データセットD
sとD
rの間に対応関係が存在しない。本発明は、これらの2つのデータセットの間のマッピングを実現し、具体的に、合成データセットD
sからD
rへの一方向の特徴変換マッピングを実現することを目的とする。
【0019】
本発明では、特徴変換マッピングを達成するためのものは、深層畳み込みニューラルネットワークGであり、これは、エンコーダサブネットワーク
とデコーダサブネットワーク
で直列に構成される。合成データセットd
sにより合成された結果は、合成深度マップ
であり、
である。まず、合成深度マップ
が実際にスキャンされた深度マップd
rの特徴を有するように、本発明は、敵対的生成のポリシーを採用して深層畳み込みニューラルネットワークGをトレーニングし、即ち、一つの弁別器ニューラルネットワークDを適用して生成結果と実際のデータとの間のドメインの差異を最小化する。採用された目的関数は、以下のとおりである。
【数5】
Eは、エネルギー関数を表し、当該目的関数は、2つのデータドメインの間の距離を減少させることを目的とするため、入力と出力の間の一貫性を保証することができず、更に、出力が入力の幾何学的構造を維持できることを保証することができない。本発明では、新しい差分比較学習のポリシーが導入される。
【0020】
本発明における差分比較学習のポリシーは、生成結果としての合成深度マップ
及び入力されたレンダリングされた深度マップd
sにおけるブロックを選択して差分を計算して比較し、その変化を制限することによって実現される。まず、最初のステップで、本発明は、生成ネットワーク、即ち深層畳み込みニューラルネットワークGにおけるエンコーダサブネットワーク
によって、それぞれ
及びd
sの特徴マップを抽出し、それらのうちのN層の特徴マップを選択し、
として記録し、lは、特徴マップにおける第l層を表す。次に、
を特徴マップ
における位置iにある画素ブロックとし、本方法は、特徴マップ
及び
から、複数のペアのブロックを正のペアセット及び負のペアセットとしてランダムに選択し、同時に正と負のペアセットは、次の関係を満たす必要がある。
【数6】
i、j、kは、特徴マップの異なる空間位置を表す。本発明において、合成深度マップ
及び入力されたレンダリングされた深度マップd
sにおけるブロックの差分の差異を減少させることで両者の幾何学的一貫性を取得する。このステップにおいて、本発明は、ランダムに選択された正と負のペアセットを利用して
及びd
sの差分情報誤差を算出し、当該誤差の最小化をネットワークトレーニングの目的とする。
【数7】
τは、重みを表し、全てのランダムに選択された正と負のペアセットについて、合計の目的関数は、以下の通りである。
【数8】
【0021】
なお、グローバルオフセットは前記で説明したローカルブロックの差分の一貫性で制御できないため、本発明は、深層畳み込みニューラルネットワークGによって発生された、実際にスキャンされた深度マップd
rに対する無効マッピングを減少させることを、ネットワークトレーニングの目的とし、
【数9】
|| ||
1は、正則化関数を表す。
【0022】
以上から、特徴マッピングニューラルネットワークGのトレーニングについて、本発明の合計の目的関数は、以下のとおりである。
【数10】
α、βは、重みである。
【0023】
本実施例において、深層畳み込みニューラルネットワークGは、汎用のResnetネットワーク構造を採用し、弁別器ニューラルネットワークDは、多層畳み込みニューラルネットワーク構造を採用し、且つα=1.5、β=1.0であるように設定し、最後にトレーニングされた深層畳み込みニューラルネットワークGは、実験において優れた結果を達成した。最後に、
図2に示す効果を合成することができ、左側の入力に比べて、本発明により合成された深度マップは、幾何学的歪みを発生せず、実際にスキャンされた深度マップの特徴を有し、セマンティック・セグメンテーション及び法線マップの推定タスクに直接適用することができる。
【0024】
明らかに、上記実施例は、明確に説明するために挙げられた例に過ぎず、実施形態を限定するものではない。当業者にとって、上記説明に基づいてその他の異なる形の変化又は変更を行うことができる。ここで、あらゆる実施形態を挙げることができず、また、その必要がない。本明細書から派生された明らかな変化又は変更も、本発明の保護の範囲内に含まれる。