(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-12-25
(45)【発行日】2025-01-09
(54)【発明の名称】RGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法
(51)【国際特許分類】
G06T 7/50 20170101AFI20241226BHJP
G06T 1/40 20060101ALI20241226BHJP
【FI】
G06T7/50
G06T1/40
(21)【出願番号】P 2024164969
(22)【出願日】2024-09-24
【審査請求日】2024-09-24
(31)【優先権主張番号】202311489206.0
(32)【優先日】2023-11-09
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】515352847
【氏名又は名称】大連海事大学
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100132883
【氏名又は名称】森川 泰司
(74)【代理人】
【識別番号】100148633
【氏名又は名称】桜田 圭
(74)【代理人】
【識別番号】100147924
【氏名又は名称】美恵 英樹
(72)【発明者】
【氏名】米 沢田
(72)【発明者】
【氏名】劉 鋳萱
(72)【発明者】
【氏名】陳 佳欣
(72)【発明者】
【氏名】趙 鵬
(72)【発明者】
【氏名】于 洋
(72)【発明者】
【氏名】杜 鳳鳴
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】中国特許出願公開第116862965(CN,A)
【文献】中国特許出願公開第116580192(CN,A)
【文献】中国特許出願公開第115511759(CN,A)
【文献】特表2021-517685(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
補完対象の疎深度マップ及び対応するRGBカラーガイド画像を取得し、前記疎深度マップとRGBカラーガイド画像に対してチャネル次元の前処理を行って直列に接続して、処理対象のRGB_D画像を取得するステップS1と、
前記処理対象のRGB_D画像をトレーニングされた深度マップ補完ネットワークモデルに入力するステップであって、前記深度マップ補完ネットワークモデルが、早期融合エンコーダ、疎深度マップ指導モジュール、マルチスケール砂時計補完モジュール及び最適化補強モジュールを含み、前記早期融合エンコーダが、RGB_D画像に基づき、スケールが階層ごとに逓減する特徴マップを生成するために用いられ、前記疎深度マップ指導モジュールが、三つの異なる階層のサブネットワークでRGB_D画像を処理して三つの異なるスケールのダウンサンプリング疎画像指導特徴マップを得るために用いられ、前記マルチスケール砂時計補完モジュールが、早期融合エンコーダの出力及び疎深度マップ指導モジュールの出力に基づき、疎深度マップを補完して補完後の密深度マップを得るために用いられ、前記最適化補強モジュールが、補完後の密深度マップに対してエッジ細部補強処理を行うために用いられるステップS2と、
前記最適化補強モジュールの出力を取得して補完された密深度マップとするステップS3と、を含むことを特徴とするRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【請求項2】
前記疎深度マップ及びRGBカラー画像に対してチャネル次元の前処理を行って直列に接続するステップは、
RGBカラーガイド画像に対して畳み込み処理を行って48チャネルの特徴マップを得るステップと、
疎深度マップに対して畳み込み処理を行って16チャネルの特徴マップを得るステップと、
処理後の48チャネルのRGB画像特徴マップと16チャネルの疎深度マップ特徴マップをチャネル次元で直列に接続して処理対象のRGB_D画像とするステップと、を含むことを特徴とする請求項1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【請求項3】
前記早期融合エンコーダは、
一つの3x3の畳み込み層及び一つのReLU活性化関数を含み、直列に接続されたRGB_D画像に対して初期化畳み込みを行う一つの前処理層と、
いずれも一つの3x3の畳み込み層及び二つのReLU活性化関数を含んでなり、それぞれ出力される特徴マップに最初のRGB_D画像のスケールの1/2、1/4、1/8、1/16、1/32といった複数のスケールを持たせるために用いられる五つのシーケンスコンテナと、を含むことを特徴とする請求項1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【請求項4】
前記マルチスケール砂時計補完モジュールは、
カスケードして組み合わせられた四つの砂時計符号化復号化モジュールを含み、各砂時計符号化復号化モジュールは一つの砂時計エンコーダ及び一つの砂時計デコーダを含み、前記砂時計エンコーダは早期融合エンコーダから出力される異なるスケールの早期融合特徴及び疎深度マップ指導モジュールから出力される異なるスケールの疎深度特徴から、深度情報及び異なるスケールの出力を抽出し、前記砂時計デコーダは補完後の密深度マップを出力するために用いられ、
前記砂時計エンコーダは三つの畳み込み注意シーケンスコンテナを含み、各前記畳み込み注意シーケンスコンテナは一つの3x3の畳み込み層、一つのReLU活性化関数層及び一つの二重注意モジュールを含み、
前記砂時計デコーダは三つの転置畳み込み注意シーケンスコンテナを含み、各転置畳み込み注意シーケンスコンテナは一つの3x3の転置畳み込み層、一つの畳み込み層、二つのReLU活性化関数層及び一つの二重注意モジュールを含む、ことを特徴とする請求項1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【請求項5】
前記二重注意モジュールは、
一つの畳み込みモジュール、一つの空間的注意モジュール及び一つのチャネル注意モジュールを含み、
前記畳み込みモジュールは二つの3x3の畳み込み層、一つのReLU活性化関数層及び二つのバッチ正規化BatchNorm層を含み、
前記チャネル注意モジュールは以下に用いられ、即ち、
まず、入力された特徴マップに二つの変換を実行して二つの補助特徴マップを生成し、
続いて、1x1の畳み込みカーネルを用いて入力された特徴マップに対してチャネル圧縮を行って、チャネル数をin_planes/ratioまで減少させ、ここで、in_planesは進入したチャネル数であり、ratioはチャネル圧縮比を制御するパラメータであり、
次に、ReLU活性化関数によって非線形変換を行い、その後、再度1x1の畳み込みカーネルを用いてチャネル数をin_planesに復元させ、
最後に、平均プーリングと最大プーリングの結果を加算してsigmoid層によってチャネル注意の出力を縮小拡大させて最終的なチャネル注意重みを得て、前記チャネル注意重みは、入力された特徴マップのチャネルの重み付けに用いられ、
前記空間的注意モジュールは以下に用いられ、即ち、
まず、入力された特徴マップがまずそれぞれ平均プーリング及び最大プーリング操作に送られ、平均値及び最大値の特徴マップをそれぞれ計算し、
続いて、これら二つの特徴マップを直列に接続して、二つのチャネルを含む特徴マップを形成し、
次に、この特徴マップが7x7のconv畳み込み層を通過し、空間的注意の重みを計算し、
最後に、sigmoid層を用いて空間的注意の出力を縮小拡大させて最終的な空間的注意重みグラフを得る、ことを特徴とする請求項4に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【請求項6】
前記最適化補強モジュールは、再帰する4層U-netネットワークモジュールであり、四つのエンコーダとデコーダ及び出力層によって構成され、
前記エンコーダは入力層、ダウンサンプリングモジュール及びスキップ接続を含み、
前記入力層は最初入力データを受け入れるために用いられ、
前記ダウンサンプリングモジュールは3x3畳み込み層、プーリング層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に減少させると共に、ハイレベルセマンティク特徴を抽出するために用いられ、
前記スキップ接続はデコーダで特徴融合を行うようにエンコーダの各層の特徴マップを保存するために用いられ、
前記エンコーダはアップサンプリングモジュール、アップサンプリング後の処理モジュール、スキップ接続及び出力層を含み、
前記アップサンプリングモジュールは逆畳み込み層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に増加させ、最初に入力したサイズに復元させるために用いられ、
前記スキップ接続はエンコーダにおける対応層の特徴マップとデコーダの特徴マップを繋ぎ合わせて、特徴融合を実現するために用いられ、
前記アップサンプリング後の処理モジュールは畳み込み層、バッチ正規化層及び活性化関数によって構成され、アップサンプリング後の特徴を更に処理するために用いられ、
前記出力層はローレベルとハイレベルの特徴を結合して、最終的な補完結果を生成するために用いられる、ことを特徴とする請求項1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【請求項7】
前記深度マップ補完ネットワークモデルをトレーニングするステップは、
公開されたコンピュータビジョン及び自動運転の研究に用いられるKittiデータセットから、高いラベリング情報カバレッジを有するGroundTruth及びペアになる疎深度マップとカラーRGB画像を含む深度マップ補完ネットワークトレーニングデータセットを取得するステップと、
前記RGB画像と疎深度マップをネットワークの入力データとしてネットワークをトレーニングするステップと、
ネットワークから出力される補完深度マップとトレーニングデータセットにおけるGroundTruthの完全な深度マップとの間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップと、
深度マップ補完ネットワークによって取得した補完された深度マップと実際の完全な深度マップの損失値に対して、勾配降下法を用いて損失値を最小化させて、最適なモデルを取得するステップと、を含むことを特徴とする請求項1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータビジョンの技術分野に関し、具体的には、RGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法に関する。
【背景技術】
【0002】
深度マップ補完タスクは、得られた不完全な深度マップを補完することを指し、深層学習モデルを用いて欠落した深度情報を推定して補って、できるだけ完全且つ精確なシーン深度情報を得ることを目的としている。深度マップは、例えば、シーン理解、自動運転、ロボットナビゲーション、自己位置推定と環境地図作成の同時実行(SLAM)、インテリジェント農業及び拡張現実等、様々なタスクで重要な役割を果たしている。従って、正確な画素レベルのシーン深度を得ることは、将来の研究における長期的な目標となっている。
【0003】
近年来、畳み込みニューラルネットワーク(CNN)はマルチスケール特徴抽出における優れた能力によって、深度マップ補完タスクの快速な発展を促進している。深度マップ補完は一般にCNNに依存し、これらのネットワークは膨大な深度マップデータを学習することによって、深度マップの特徴と構造を捕えることができる。実際の応用において、深度情報が欠落した場合に、これらのネットワークは既存の深度情報と他の画像特徴により欠落領域の深度値を予測することができる。新たな機構の開発に伴い、深度マップ補完タスクは更なる進歩を遂げている。その中、注意機構は肝心な技術として、人間による情報処理における注意配分過程を模倣し、モデルが入力データの異なる部分に注意可能にすることで、学習と予測の正確性を向上させる。自己注意機構は導入され、深度マップ補完タスクに広範に応用され、著しい性能向上をもたらした。マルチスケールネットワークの応用によって、異なる詳細レベルの特徴を効果的に捕えると共に、ローレベルとハイレベルの特徴を十分に利用することができる。深度マップ補完タスクは顕著な進歩を遂げたが、補完情報の完全性は依然として大きく欠落している。従って、疎深度マップの補完の問題を解決するために、疎深度マップsDとsDに揃えられたガイドRGB画像が与えられた場合に、RGB画像によりガイドするマルチスケールカスケード砂時計ネットワークを提案してこの問題を解決する。従来のいくつかの特許において疎深度マップ補完手段を提案したが、依然としていくつかの問題が存在する。例えば、弱く揃えられたRGB-D画像に基づく深度マップ補完方法(特許文献1)において、ニューラルネットワークによって平坦領域と深度構造領域を区別し、且つ面法線とガウス重みを用いて深度値の平滑性と構造正確性を最適化する。しかしながら、このような方法では、RGB画像における色とテクスチャ情報及び疎深度マップの有効情報が十分に利用されず、補完された密深度マップは正確性と有効性が足りない。また、変形可能畳み込みに基づく深度マップ補完方法(特許文献2)において、RGB画像をガイドとし、且つ変形可能畳み込みと追加の教師情報を増加することでENet構造を改良したが、画像データのトリミング過程でグローバル情報と局所情報が失われる。大きいスケールの深度マップが一般に低い解像度とより多いグローバル情報を有するが、小さいスケールの深度マップがより高い解像度とより多い局所詳細情報を有するため、この方法は精確なシーン情報と物体エッジ情報を提供することができない。
【先行技術文献】
【特許文献】
【0004】
【文献】中国特許出願公開第116012430号明細書
【文献】中国特許出願公開第113538278号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来技術の欠点に鑑みて、本発明は、RGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法を提供する。本発明は、入力される疎深度マップとRGB画像に対して早期融合処理を行い、深度情報の完全性を保持すると共に、情報の欠落を低減させ、そして、マルチスケール構成及び注意モジュールを用いて符号化と復号化操作を行い、補完後の深度マップの完全性及びエッジの解像度を向上させる。
【課題を解決するための手段】
【0006】
本発明の技術手段は以下のとおりである。
本発明の一形態であるRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法は、
補完対象の疎深度マップ及び対応するRGBカラーガイド画像を取得し、前記疎深度マップとRGBカラーガイド画像に対してチャネル次元の前処理を行って直列に接続して、処理対象のRGB_D画像を取得するステップS1と、
前記処理対象のRGB_D画像をトレーニングされた深度マップ補完ネットワークモデルに入力するステップであって、前記深度マップ補完ネットワークモデルが、早期融合エンコーダ、疎深度マップ指導モジュール、マルチスケール砂時計補完モジュール及び最適化補強モジュールを含み、前記早期融合エンコーダが、RGB_D画像に基づき、スケールが階層ごとに逓減する特徴マップを生成するために用いられ、前記疎深度マップ指導モジュールが、三つの異なる階層のサブネットワークでRGB_D画像を処理して三つの異なるスケールのダウンサンプリング疎画像指導特徴マップを得るために用いられ、前記マルチスケール砂時計補完モジュールが、早期融合エンコーダの出力及び疎深度マップ指導モジュールの出力に基づき、疎深度マップを補完して補完後の密深度マップを得るために用いられ、前記最適化補強モジュールが、補完後の密深度マップに対してエッジ細部補強処理を行うために用いられるステップS2と、
前記最適化補強モジュールの出力を取得して補完された密深度マップとするステップS3を含む。
【0007】
更に、前記疎深度マップ及びRGBカラー画像に対してチャネル次元の前処理を行って直列に接続するステップは、
RGBカラーガイド画像に対して畳み込み処理を行って48チャネルの特徴マップを得るステップと、
疎深度マップに対して畳み込み処理を行って16チャネルの特徴マップを得るステップと、
処理後の48チャネルのRGB画像特徴マップと16チャネルの疎深度マップ特徴マップをチャネル次元で直列に接続して処理対象のRGB_D画像とするステップを含む。
【0008】
更に、前記早期融合エンコーダは、
一つの3x3の畳み込み層及び一つのReLU活性化関数を含み、直列に接続されたRGB_D画像に対して初期化畳み込みを行う一つの前処理層と、
いずれも一つの3x3の畳み込み層及び二つのReLU活性化関数を含んでなり、それぞれ出力される特徴マップに最初のRGB_D画像のスケールの1/2、1/4、1/8、1/16、1/32といった複数のスケールを持たせるために用いられる五つのシーケンスコンテナを含む。
【0009】
更に、前記マルチスケール砂時計補完モジュールは、
カスケードして組み合わせられた四つの砂時計符号化復号化モジュールを含み、各砂時計符号化復号化モジュールは一つの砂時計エンコーダ及び一つの砂時計デコーダを含み、前記砂時計エンコーダは早期融合エンコーダから出力される異なるスケールの早期融合特徴及び疎深度マップ指導モジュールから出力される異なるスケールの疎深度特徴から、深度情報及び異なるスケールの出力を抽出し、前記砂時計デコーダは補完後の密深度マップを出力するために用いられ、
前記砂時計エンコーダは三つの畳み込み注意シーケンスコンテナを含み、各前記畳み込み注意シーケンスコンテナは一つの3x3の畳み込み層、一つのReLU活性化関数層及び一つの二重注意モジュールを含み、
前記砂時計デコーダは三つの転置畳み込み注意シーケンスコンテナを含み、各転置畳み込み注意シーケンスコンテナは一つの3x3の転置畳み込み層、一つの畳み込み層、二つのReLU活性化関数層及び一つの二重注意モジュールを含む。
【0010】
更に、前記二重注意モジュールは、
一つの畳み込みモジュール、一つの空間的注意モジュール及び一つのチャネル注意モジュールを含み、
前記畳み込みモジュールは二つの3x3の畳み込み層、一つのReLU活性化関数層及び二つのバッチ正規化BatchNorm層を含み、
前記チャネル注意モジュールは以下に用いられ、即ち、
まず、入力された特徴マップに二つの変換を実行して二つの補助特徴マップを生成し、
続いて、1x1の畳み込みカーネルを用いて入力された特徴マップに対してチャネル圧縮を行って、チャネル数をin_planes/ratioまで減少させ、ここで、in_planesは進入したチャネル数であり、ratioはチャネル圧縮比を制御するパラメータであり、
次に、ReLU活性化関数によって非線形変換を行い、その後、再度1x1の畳み込みカーネルを用いてチャネル数をin_planesに復元させ、
最後に、平均プーリングと最大プーリングの結果を加算してsigmoid層によってチャネル注意の出力を縮小拡大させて最終的なチャネル注意重みを得て、前記チャネル注意重みは、入力された特徴マップのチャネルに重み付けを行う。
前記空間的注意モジュールは以下に用いられ、即ち、
まず、入力された特徴マップがまずそれぞれ平均プーリング及び最大プーリング操作に送られ、平均値及び最大値の特徴マップをそれぞれ計算し、
続いて、これら二つの特徴マップを直列に接続して、二つのチャネルを含む特徴マップを形成し、
次に、この特徴マップが7x7のconv畳み込み層を通過し、空間的注意の重みを計算し、
最後に、sigmoid層を用いて空間的注意の出力を縮小拡大させて最終的な空間的注意重みグラフを得る。
【0011】
更に、前記最適化補強モジュールは、再帰する4層U-netネットワークモジュールであり、四つのエンコーダとデコーダ及び出力層によって構成され、
前記エンコーダは入力層、ダウンサンプリングモジュール及びスキップ接続を含み、
前記入力層は最初入力データを受け入れるために用いられ、
前記ダウンサンプリングモジュールは3x3畳み込み層、プーリング層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に減少させると共に、ハイレベルセマンティク特徴を抽出するために用いられ、
前記スキップ接続はデコーダで特徴融合を行うようにエンコーダの各層の特徴マップを保存するために用いられ、
前記エンコーダはアップサンプリングモジュール、アップサンプリング後の処理モジュール、スキップ接続及び出力層を含み、
前記アップサンプリングモジュールは逆畳み込み層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に増加させ、最初に入力したサイズに復元させるために用いられ、
前記スキップ接続はエンコーダにおける対応層の特徴マップとデコーダの特徴マップを繋ぎ合わせて、特徴融合を実現するために用いられ、
前記アップサンプリング後の処理モジュールは畳み込み層、バッチ正規化層及び活性化関数によって構成され、アップサンプリング後の特徴を更に処理するために用いられ、
前記出力層はローレベルとハイレベルの特徴を結合して、最終的な補完結果を生成するために用いられる。
【0012】
更に、前記深度マップ補完ネットワークモデルをトレーニングするステップは、
公開されたコンピュータビジョン及び自動運転の研究に用いられるKittiデータセットから、高いラベリング情報カバレッジを有するGroundTruth及びペアになる疎深度マップとカラーRGB画像を含む深度マップ補完ネットワークトレーニングデータセットを取得するステップと、
前記RGB画像と疎深度マップをネットワークの入力データとしてネットワークをトレーニングするステップと、
ネットワークから出力される補完深度マップとトレーニングデータセットにおけるGroundTruthの完全な深度マップとの間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップと、
深度マップ補完ネットワークによって取得した補完された深度マップと実際の完全な深度マップの損失値に対して、勾配降下法を用いて損失値を最小化させて、最適なモデルを取得するステップを含む。
【発明の効果】
【0013】
従来技術に比べて、本発明は以下のメリットを有する。
1.本発明は、RGB画像と疎深度マップを前処理して早期に融合する方法を用い、RGB画像の色とテクスチャ情報及びエッジ情報を十分に利用することで、深度マップにおける欠落領域を補い、深度マップの正確性、空間的な解像度、ロバスト性を向上させることに役立ち、深度マップの補完効果を改善することができる。また、疎深度マップ指導モジュールを提案して、従来の畳み込みの代わりに疎な畳み込みを利用し、計算を最適化させパラメータを低減させ、モデルの効率と速度を向上させる。
2.本発明は、マルチスケールカスケード砂時計ネットワークモデルのしくみを提案し、マルチスケールの特徴を抽出して深度を詳細化させ、砂時計ネットワークは上から下へ及び下から上への多階層特徴抽出によって、異なるスケールの特徴情報を捕えることができる。また、下層特徴は下から上への経路を介して上層に伝達することができ、上層特徴は上から下への経路を介して下層に伝達することができる。このような特徴多重利用によって、ネットワークのパラメータ効率及び計算効率を向上させることができ、異なる構成に対応してより多い深度情報を得ることができる。
3.深度マップにおいて深度が多く欠落している特徴を考慮して、本発明では空間的注意機構とチャネル注意機構を結合させた二重注意モジュールが設計されており、この機構はモデルが入力データをより正確に理解して処理することに役立ち、モデルの深度マップ補完タスクでの性能を向上させる。
【図面の簡単な説明】
【0014】
本発明の実施例又は従来技術における技術手段をより明らかに説明するために、以下、実施例又は従来技術の記述に必要とされる添付の図面を簡単に紹介するが、下記の図面が本発明の一部の実施例であり、当業者であれば、創造的労動を行わずに更にこれらの図面に基づき他の図面を得るのができることはいうまでもない。
【0015】
【
図1】本発明に係るRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法のフローチャットである。
【
図2】本発明の実施例における深度マップ補完ネットワークモデルの概略構成図である。
【
図3】本発明の実施例における早期融合エンコーダの構成図である。
【
図4】本発明の実施例における疎深度マップ指導モジュールの構成図である。
【
図5】本発明の実施例におけるマルチスケール砂時計補完モジュールの構成図である。本発明の実施例における二重注意モジュールの構成図である。
【
図6】実施の形態1に係る音声処理装置が備える二次記憶装置に記憶される顧客機器情報DBについて説明するための図
【
図7】本発明の実施例における最適化補強モジュールの構成図である。
【発明を実施するための形態】
【0016】
本発明の実施例の目的、技術手段及びメリットをより明らかにするために、以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術手段を明らか且つ完全に説明するが、説明される実施例が全ての実施例ではなく、本発明の一部の実施例に過ぎないことはいうまでもない。当業者が本発明における実施例に基づいて創造的労動を行うことなく得た他の実施例は、全て本発明の保護範囲に含まれるものとする。
【0017】
注目すべきことは、本発明の明細書、請求項及び上記図面中の「第1」や「第2」等の用語が類似の対象を区別するために用いられるものであり、特定の順序又は優先順位を述べるために用いられるわけではない。ここで記述された本発明の実施例は、ここで図示されたような以外の順序に従って実施できるために、このように採用されたデータを適切な場合で交換する可能性があると理解することが可能である。その上、「含む」と「有する」という用語、並びにそれらの任意の変形は、非排他的な包含という意味を指す。例えば、一連のステップ又はユニットを包含するプロセス、方法、システム、製品又は装置は、明確に列挙されているそれらのステップ又はユニットに限定される必要がなく、それでも明確に列挙されないか、それらのプロセス、方法、製品又は装置が固有する他のステップ又はユニットを更に含む。
【0018】
図1に示すように、本発明は、以下のステップS1、ステップS2及びステップS3を含む、RGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法を提供する。
【0019】
S1:補完対象の疎深度マップ及び対応するRGBカラーガイド画像を取得し、前記疎深度マップとRGBカラーガイド画像に対してチャネル次元の前処理を行って直列に接続して、処理対象のRGB_D画像を取得する。
【0020】
具体的には、RGB画像が豊富なコンテキスト情報を提供できることを考慮すると、深度マップ補完モデルがシーンの構成及びセマンティクスをより好適に理解することに役立つのが可能である。RGB画像と深度マップを結合させることによって、モデルは欠落した深度情報をより正確に推定することができる。RGB画像に対して畳み込み操作を行うと共に、疎深度マップに対して畳み込み操作を行い、得られた二つの特徴マップのチャネル次元を直列に接続して新しい入力されるRGB_D画像とし、下式によって表すことができ、
RGBD=C(RGB,Depth)
ここで、Cはチャネル次元の直列接続を示す。
【0021】
S2:前記RGB_D画像をトレーニングされた深度マップ補完ネットワークモデル(
図2参照)に入力し、前記RGB_D画像がまず早期融合エンコーダ(
図3参照)に進入し、RGB_D画像に基づき、スケールが階層ごとに逓減する特徴マップを生成する。また、疎深度マップデータの疎性を有効に利用するために、疎深度マップ指導モジュール(
図4参照)が設計されており、このモジュールはマスクを用いて深度値欠落位置に対する不必要な計算を回避し、計算効率及びモデル性能を向上させることができる。上記データセットの疎深度マップをこの指導モジュールに入力し、このモジュールの三つの異なる階層のサブネットワークによって、三つの異なるスケールのダウンサンプリング疎画像指導特徴マップを得て、続いて、早期融合エンコーダの出力及び疎深度マップ指導モジュールの出力をマルチスケール砂時計補完モジュール(
図5参照)の入力として、疎深度マップを補完して補完後の密深度マップを得る。
【0022】
具体的には、この深度マップ補完ネットワークモデルは、主として、早期融合エンコーダ、疎深度マップ指導モジュール、マルチスケール砂時計補完モジュール及び最適化補強モジュール(
図7参照)を含む。
【0023】
更に、前記早期融合エンコーダの構造は一つの前処理層及び五つの畳み込みシーケンスコンテナを含む。前処理層は一つの3x3の畳み込み層を含み、直列に接続されたRGB_D特徴マップに対して初期化畳み込みを行う。畳み込みシーケンスコンテナは一つの3x3の畳み込み層及び一つのReLU活性化関数を含んで構成されている。これら五つの畳み込みシーケンスコンテナによって構成されたエンコーダによって、出力される特徴マップは最初のRGB_D特徴マップのスケールの1/2、1/4、1/8、1/16及び1/32といった複数のスケールを有する。
【0024】
早期融合エンコーダの作動フローは以下の通りである。
【0025】
まず、ステップS1で取得されたRGB_D特徴マップをinput入力として、初期化シーケンスコンテナinitに入力して、inputに対して初期化操作を行ってx0を得る。
【0026】
続いて、x0を入力として1番目のダウンサンプリング畳み込みシーケンスコンテナに入力してスケールが1/2のダウンサンプリング特徴マップx1を得る。
【0027】
x1を入力として2番目のダウンサンプリング畳み込みシーケンスコンテナに入力してスケールが1/4のダウンサンプリング特徴マップx2を得る。
【0028】
x2を入力として3番目のダウンサンプリング畳み込みシーケンスコンテナに入力してスケールが1/8のダウンサンプリング特徴マップx3を得る。
【0029】
x3を入力として4番目のダウンサンプリング畳み込みシーケンスコンテナに入力してスケールが1/16のダウンサンプリング特徴マップx4を得る。
【0030】
x4を入力として最後のダウンサンプリング畳み込みシーケンスコンテナに入力してスケールが1/32のダウンサンプリング特徴マップx5を得る。以上をまとめると、それらはそれぞれ下式で表すことができ、
xi=enc_i(xi-1)
ここで、iに対応する値として1、2、3、4、5を取る。enc_1は1番目のダウンサンプリング畳み込みシーケンスコンテナであり、enc_2は2番目のダウンサンプリング畳み込みシーケンスコンテナであり、enc_3は3番目のダウンサンプリング畳み込みシーケンスコンテナであり、enc_4は4番目のダウンサンプリング畳み込みシーケンスコンテナであり、enc_5は5番目のダウンサンプリング畳み込みシーケンスコンテナである。
【0031】
更に、スパース畳み込みモジュールを用い、このモジュールの三つの異なる階層のサブモジュールによって、三つの異なるスケールのダウンサンプリング疎画像指導特徴マップを得る。
【0032】
具体的には、疎深度マップ指導モジュールについて、関連実験を行ったところ、スパース畳み込み層の個数も実験結果に影響を及ぼすことが分かったため、疎深度マップに対して異なる階層のスパース畳み込み操作を行った。その原理は、疎深度マップについて0よりも大きい値を取ってマスクとし、マスク及び疎深度マップをスパース畳み込みネットワークに入力し、このネットワークによって疎深度マップに対して畳み込み処理を行うことである。この疎深度マップ指導モジュールは合計三つのスパース畳み込みネットワークを含み、疎深度マップを処理する。それぞれ3層のスパース畳み込み、2層のスパース畳み込み及び1層のスパース畳み込みを行い、異なるスケールの画像サイズが得られ、それぞれ最初画像スケールの1/8、1/4、1/2である。
【0033】
疎深度マップ指導モジュールの作動原理は以下の通りである。
【0034】
a、疎深度マップsparsedephを疎深度マップ指導モジュールの1番目のサブモジュールに入力し、三つのスパース畳み込み層を経て、最初の疎深度マップのスケールの1/8の特徴マップx1を得る。
x1=sparseconv(sparseconv(sparseconv(sparsedepth)))
【0035】
b、疎深度マップを疎深度マップ指導モジュールの2番目のサブモジュールに入力し、三つのスパース畳み込み層を通過させ、最初の疎深度マップのスケールの1/4の特徴マップx2を得る。
x2=sparseconv(sparseconv(sparsedepth))
【0036】
c、疎深度マップを疎深度マップ指導モジュールの3番目のサブモジュールに入力して三つのスパース畳み込み層を通過させ、最初の疎深度マップのスケールの1/2特徴マップx3を得る。
x3=sparseconv(sparsedepth)
【0037】
更に、前記マルチスケール砂時計補完モジュールの構造は、一体にカスケードされた四つの砂時計符号化復号化モジュールを含む。ここで、各砂時計符号化復号化モジュールは一つの砂時計エンコーダ及び一つの砂時計デコーダを含む。砂時計エンコーダは異なるスケールの融合特徴及び異なるスケールの疎深度特徴から、より多い深度情報及び異なるスケールの出力を抽出する。砂時計デコーダは補完後の密深度マップを出力するために設計される。
【0038】
ここで、一つの砂時計エンコーダは三つの畳み込み注意シーケンスコンテナを含み、各畳み込み注意シーケンスコンテナは一つの3x3の畳み込み層、一つのReLU活性化関数層及び一つの二重注意モジュール(
図6参照)を含む。前記畳み込み注意シーケンスコンテナは疎深度マップ指導モジュールによる異なるスケールの深度マップを、まず、アップサンプリングした前段の砂時計デコーダの出力に直列に接続した後、この砂時計エンコーダの入力とし、続いて、このエンコーダにおいて前段の砂時計デコーダからの三つの入力との層毎の行列加算を行い(1番目の砂時計エンコーダの入力は疎深度マップ指導モジュールの入力しかない)、その後、これら三つのシーケンスコンテナによって異なるスケールの出力結果を得る。
【0039】
好ましくは、本実施例のネットワークモデルにおいて、1番目の砂時計エンコーダの入力は、疎深度マップ指導モジュールにより処理された後の1/8スケールの疎深度マップであり、2番目の砂時計エンコーダの入力は、1番目の砂時計デコーダが出力した結果をアップサンプリングした後、疎深度マップ指導モジュールにより処理された後の1/4スケールの疎深度マップに直列に接続した特徴マップ、及び前段の砂時計エンコーダが出力した結果アレイにおける前の3要素(合計4要素)である。3番目の砂時計エンコーダの入力は、2番目の砂時計デコーダが出力した結果をアップサンプリングした後、疎深度マップ指導モジュールにより処理された後の1/2スケールの疎深度マップに直列に接続した特徴マップ、及び前段の砂時計エンコーダが出力した結果アレイにおける前の3要素(合計4要素)である。4番目の砂時計エンコーダの入力は、3番目の砂時計デコーダが出力した結果をアップサンプリングした後、元の疎深度マップに直列に接続した特徴マップである。
【0040】
好ましくは、この砂時計エンコーダの作動フローは以下の通りである。
【0041】
a、まず、疎深度マップ指導モジュールの出力を入力xとし、続いて、1番目の畳み込み注意シーケンスコンテナenc1を通過させてx0を得て、続いて、前段の砂時計デコーダからの入力があるか否かを判断し(1番目の砂時計エンコーダのみは前段からの入力がない)、ある場合に関数によってアップサンプリング処理を行ってx0との行列加算を行って2番目の畳み込み注意コンテナの入力とする。
x0=enc_1(x)
x0=x0+F.interpolate(x_b3)
【0042】
b、続いて、x0を入力とし、2番目の畳み込み注意シーケンスコンテナenc2を通過させてx1を得て、続いて、前段の砂時計デコーダからの入力があるか否かを判断し(1番目の砂時計エンコーダのみは前段からの入力がない)、ある場合に関数によってアップサンプリング処理を行ってx1との行列加算を行って3番目の畳み込み注意コンテナの入力とする。
x1=enc_2(x0)
x1=x1+F.interpolate(x_b2)
【0043】
c、続いて、x1を入力とし、3番目の畳み込み注意シーケンスコンテナenc3を通過させてx2を得て、続いて、前段の砂時計デコーダからの入力があるか否かを判断し(1番目の砂時計エンコーダのみは前段からの入力がない)、ある場合に関数によってアップサンプリング処理を行ってx2との行列加算を行い、続いて、x0、x1、x2をフィードバックする。
x2=enc_3(x1)
x2=x2+F.interpolate(x_b1)
ここで、F.interpolateはアップサンプリング関数であり、+は行列加算である。
【0044】
ここで、一つの砂時計デコーダは三つの転置畳み込み注意シーケンスコンテナを含み、各転置畳み込み注意シーケンスコンテナは一つの3x3の転置畳み込み層、一つの畳み込み層、二つのReLU活性化関数層及び一つの二重注意モジュールを含む。前記砂時計エンコーダの出力と前記早期融合エンコーダの出力を点毎に加算した後デコーダに入力し、デコーダによって深度マップ補完処理を行う(前の三つの砂時計デコーダの補完結果はいずれも次の砂時計エンコーダの入力とし、最後の砂時計デコーダの出力は補完後の密深度マップとなる)。
【0045】
好ましくは、本実施例のネットワークモデルにおいて、早期融合エンコーダの五つの出力を下記の前記砂時計デコーダに入力する第1種の入力順序は、1/32及び1/16を1番目の砂時計デコーダの入力とし、1/16及び1/8を2番目の砂時計デコーダの入力とし、1/8及び1/4を3番目の砂時計デコーダの入力とし、1/4及び1/2を最後の砂時計デコーダの入力とするようになっている。
【0046】
この砂時計デコーダの作動フローは以下の通りである。
【0047】
a.まず、砂時計エンコーダの出力と早期融合エンコーダの出力を砂時計デコーダの入力とし、それぞれpre_dxアレイ及びpre_cxアレイとして、以下の操作を行う。
x2=pre_dx[2]+pre_cx[2]
x1=pre_dx[1]+pre_cx[1]
x0=pre_dx[0]+pre_cx[0]
ここで、x2は1番目の畳み込み転置シーケンスコンテナの入力であり、x1は2番目の畳み込み転置シーケンスコンテナの入力であり、x0は3番目の畳み込み転置シーケンスコンテナの入力である。
【0048】
b.以下に示す通り、x2を1番目の畳み込み転置シーケンスコンテナに入力してx3を得て、x3とx1を共に2番目の畳み込み転置シーケンスコンテナに入力してx4を得る。
x3=dec3(x2)
x4=dec2(x1+x3)
ここで、dec3は1番目の畳み込み転置シーケンスコンテナであり、dec2は2番目の畳み込み転置シーケンスコンテナである。
【0049】
c.最後に、以下に示す通り、x4とx0を入力として共に予測シーケンスコンテナに入力する。
output=dec1(x4+x0)
ここで、outputは最終的な予測であり、dec1は3番目の畳み込み転置シーケンスコンテナである。
【0050】
より多い深度までを学習するために、本発明において、一つの前処理層、空間的注意モジュール及びチャネル注意モジュールを含む二重注意モジュールが設計されている。
【0051】
前処理層は二つの3x3の畳み込み層、一つのReLU活性化関数層及び二つのバッチ正規化BatchNorm層を含む。このモジュールの入力はまず一つの3x3の畳み込み層を通過し、続いてバッチ正規化及びReLU活性化関数を経過する。続いて、出力は更に別の3x3の畳み込み層を通過し、再度バッチ正規化される。
【0052】
この基本的モジュールにおいて、更にチャネル注意(Channel Attention)及び空間的注意(Spatial Attention)機構が導入されている。ここで、チャネル注意機構は主に特徴マップにおける異なるチャネル間の関係及び重要性に注意を向ける。チャネル重みを学習することによって、ネットワークが自己適応的に各チャネルの重要性を調整可能にする。空間的注意機構は主に特徴マップにおける異なる空間位置の関係及び重要性に注意を向ける。空間重みを学習することによって、ネットワークが自己適応的に各空間位置の重要性を調整し、特定領域の空間情報を際立たせるための重みグラフを生成可能にする。これら二つのモジュールの処理によって、ネットワークの特徴に対するモデリング能力を補強することができ、ネットワークは入力データにおける肝心な情報をより好適に理解して利用することができ、モデルの性能及び一般化能力を向上させる。更に、このモジュールのフローは以下の通りである。
【0053】
a、まず、この二重注意モジュールが存在するシーケンスコンテナにおける、3x3畳み込み層及びReLU活性化層により処理された後の特徴マップdepthenをこのモジュールの入力とする。このモジュールにおいてまず一連の畳み込み正規化及び活性化関数操作を行ってチャネル注意の入力を得てcattinputと表記し、下式で表すことができる。
cattinput=bn(conv(relu(bn(conv(depthen)))))
ここで、convは3x3畳み込みを表し、reluは活性化関数を表し、bnはバッチ正規化を表す。
【0054】
b、次に、下式で表すように、得られたcattinputを入力として、チャネル注意モジュールcaに進入させ、元の入力との行列ドット積演算を行って空間的注意の入力sattinputを得る。
sattinput=ca(cattinput) o cattinput
ここで、caはチャネル注意モジュールを表し、oは画素レベルの行列ドット積演算を表す。
【0055】
c、最後に、下式で表すように、得られた空間的注意の入力sattinputを空間的注意モジュールsaに入力し、元の入力との行列ドット積演算を行って次のシーケンスコンテナの入力nextinputを得る。
nextinput=sa(sattinput) o sattinput
ここで、saは空間的注意モジュールを表し、oは画素レベルの行列ドット積演算を表す。
【0056】
更に、前記最適化モジュールは、U-netネットワークに基づくものであり、再帰する4層U-netネットワークモジュールであり、四つのエンコーダとデコーダ及び出力層によって構成され、この最適化補強モジュールのエンコーダ部分は入力層、ダウンサンプリングモジュール及びスキップ接続を含む。入力層は最初入力データを受け入れるために用いられ、ダウンサンプリングモジュールは3x3畳み込み層、プーリング層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に減少させると共に、ハイレベルセマンティク特徴を抽出するために用いられる。スキップ接続はデコーダで特徴融合を行うようにエンコーダの各層の特徴マップを保存する。これらの特徴はデコーダ部分に伝達される。
【0057】
エンコーダ部分はアップサンプリングモジュール及びスキップ接続を含む。アップサンプリングモジュールは逆畳み込み層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に増加させ、最初に入力したサイズに復元させるために用いられる。スキップ接続はエンコーダにおける対応層の特徴マップとデコーダの特徴マップを繋ぎ合わせて、特徴融合を実現する。アップサンプリング後の処理モジュールは畳み込み層、バッチ正規化層及び活性化関数によって構成され、アップサンプリング後の特徴を更に処理するために用いられる。
【0058】
最終層の出力層は、最終的な補完結果を生成するために用いられ、これはローレベルとハイレベルの特徴を結合させてより正確な補完結果を取得することを目的とする。
【0059】
以上の方式によって、深度マップ補完ネットワークモデルが構築され、最適な補完モデルを得るために、モデルをトレーニングする必要があり、本発明は公開されたコンピュータビジョン及び自動運転の研究に用いられるKittiデータセットから深度マップ補完ネットワークトレーニングデータセットを取得し、深度マップ補完ネットワークモデルをトレーニングし、具体的に以下のステップを含む。
【0060】
1、公開されたコンピュータビジョン及び自動運転の研究に用いられるKittiデータセットから、高いラベリング情報カバレッジを有するGroundTruth及びペアになる疎深度マップとカラーRGB画像を含む深度マップ補完ネットワークトレーニングデータセットを取得するステップと、
2、前記RGB画像と疎深度マップをネットワークの入力データとしてネットワークをトレーニングするステップと、
3、ネットワークから出力される補完深度マップとトレーニングデータセットにおけるGroundTruthの完全な深度マップとの間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップと、
4、深度マップ補完ネットワークによって取得した補完された深度マップと実際の完全な深度マップの損失値に対して、勾配降下法を用いて損失値を最小化させて、最適なモデルを取得するステップを含む。
【0061】
本発明において、ネットワークモデルのトレーニングパラメータは以下のように設定された。本発明の全ての実験はPython3.7(Ubuntu18.04)環境で完成され、実験に用いられるビデオカードがA800-SXMであり、PyTorch深層学習のしくみを用いてネットワークをトレーニングした。また、Adamオプティマイザを用いてトレーニングし、Adamオプティマイザによりパラメータを更新し、最後にネットワークトレーニングの重みを記録して保存した。入力されたデータセットの規模が30000組であり、テスト画像が1000組であった。パラメータ設定では、学習率が0.001であり、batchsizeのサイズが14であり、トレーニング周期epochsが50であった。
【0062】
トレーニング過程で、最適なモデルを取得するために、線形減衰ポリシーを用いて学習率を調整し、基幹の学習率が最大0.001であり、5回のトレーニング毎に学習率が最初の1/2に減衰した。
【0063】
更に、このモデルトレーニングの損失関数としてL1損失関数が用いられ、どのような入力値に対しても、安定した勾配を有し、勾配爆発という問題を起こすことがなく、ロバストな解を有する。
【0064】
本実験は以下のL1損失関数によって出力画像と目標画像との間の損失を計算する。
【数1】
【数2】
は予測深度を表し、Dは実際の深度GroundTruthを表し、
【数3】
及び
【数4】
は、i番目の画素の補完深度及び実際の深度を表し、nはDの有効深度点の総数であり、
【数5】
はL1正則化を表す。
【0065】
S3:前記最適化補強モジュールの出力を取得して補完された密深度マップとする。
【0066】
本発明は、入力される疎深度マップとRGB画像に対して早期融合処理を行い、深度情報の完全性を保持すると共に、情報の欠落を低減させ、そして、マルチスケール構成及び注意モジュールを用いて符号化復号化操作を行い、補完後の深度マップの完全性及びエッジの解像度を向上させる。
【0067】
最後に以下のことを説明すべきである。以上の各実施例は本発明の技術的手段を説明するためのものに過ぎず、それを限定するものではなく、上述した各実施例を参照して本発明を詳細に説明したが、上述した各実施例に記載の技術手段を修正するか、その技術的特徴の一部又は全部に同等な取り替えを実施することも可能であり、これらの修正や取り替えによって、対応する技術手段の本質が本発明の各実施例の技術手段の範囲から逸脱しないことは当業者にとって明らかである。
【0068】
(付記)
(付記1)
補完対象の疎深度マップ及び対応するRGBカラーガイド画像を取得し、前記疎深度マップとRGBカラーガイド画像に対してチャネル次元の前処理を行って直列に接続して、処理対象のRGB_D画像を取得するステップS1と、
前記処理対象のRGB_D画像をトレーニングされた深度マップ補完ネットワークモデルに入力するステップであって、前記深度マップ補完ネットワークモデルが、早期融合エンコーダ、疎深度マップ指導モジュール、マルチスケール砂時計補完モジュール及び最適化補強モジュールを含み、前記早期融合エンコーダが、RGB_D画像に基づき、スケールが階層ごとに逓減する特徴マップを生成するために用いられ、前記疎深度マップ指導モジュールが、三つの異なる階層のサブネットワークでRGB_D画像を処理して三つの異なるスケールのダウンサンプリング疎画像指導特徴マップを得るために用いられ、前記マルチスケール砂時計補完モジュールが、早期融合エンコーダの出力及び疎深度マップ指導モジュールの出力に基づき、疎深度マップを補完して補完後の密深度マップを得るために用いられ、前記最適化補強モジュールが、補完後の密深度マップに対してエッジ細部補強処理を行うために用いられるステップS2と、
前記最適化補強モジュールの出力を取得して補完された密深度マップとするステップS3と、を含むことを特徴とするRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【0069】
(付記2)
前記疎深度マップ及びRGBカラー画像に対してチャネル次元の前処理を行って直列に接続するステップは、
RGBカラーガイド画像に対して畳み込み処理を行って48チャネルの特徴マップを得るステップと、
疎深度マップに対して畳み込み処理を行って16チャネルの特徴マップを得るステップと、
処理後の48チャネルのRGB画像特徴マップと16チャネルの疎深度マップ特徴マップをチャネル次元で直列に接続して処理対象のRGB_D画像とするステップと、を含むことを特徴とする付記1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【0070】
(付記3)
前記早期融合エンコーダは、
一つの3x3の畳み込み層及び一つのReLU活性化関数を含み、直列に接続されたRGB_D画像に対して初期化畳み込みを行う一つの前処理層と、
いずれも一つの3x3の畳み込み層及び二つのReLU活性化関数を含んでなり、それぞれ出力される特徴マップに最初のRGB_D画像のスケールの1/2、1/4、1/8、1/16、1/32といった複数のスケールを持たせるために用いられる五つのシーケンスコンテナと、を含むことを特徴とする付記1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【0071】
(付記4)
前記マルチスケール砂時計補完モジュールは、
カスケードして組み合わせられた四つの砂時計符号化復号化モジュールを含み、各砂時計符号化復号化モジュールは一つの砂時計エンコーダ及び一つの砂時計デコーダを含み、前記砂時計エンコーダは早期融合エンコーダから出力される異なるスケールの早期融合特徴及び疎深度マップ指導モジュールから出力される異なるスケールの疎深度特徴から、深度情報及び異なるスケールの出力を抽出し、前記砂時計デコーダは補完後の密深度マップを出力するために用いられ、
前記砂時計エンコーダは三つの畳み込み注意シーケンスコンテナを含み、各前記畳み込み注意シーケンスコンテナは一つの3x3の畳み込み層、一つのReLU活性化関数層及び一つの二重注意モジュールを含み、
前記砂時計デコーダは三つの転置畳み込み注意シーケンスコンテナを含み、各転置畳み込み注意シーケンスコンテナは一つの3x3の転置畳み込み層、一つの畳み込み層、二つのReLU活性化関数層及び一つの二重注意モジュールを含む、ことを特徴とする付記1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【0072】
(付記5)
前記二重注意モジュールは、
一つの畳み込みモジュール、一つの空間的注意モジュール及び一つのチャネル注意モジュールを含み、
前記畳み込みモジュールは二つの3x3の畳み込み層、一つのReLU活性化関数層及び二つのバッチ正規化BatchNorm層を含み、
前記チャネル注意モジュールは以下に用いられ、即ち、
まず、入力された特徴マップに二つの変換を実行して二つの補助特徴マップを生成し、
続いて、1x1の畳み込みカーネルを用いて入力された特徴マップに対してチャネル圧縮を行って、チャネル数をin_planes/ratioまで減少させ、ここで、in_planesは進入したチャネル数であり、ratioはチャネル圧縮比を制御するパラメータであり、
次に、ReLU活性化関数によって非線形変換を行い、その後、再度1x1の畳み込みカーネルを用いてチャネル数をin_planesに復元させ、
最後に、平均プーリングと最大プーリングの結果を加算してsigmoid層によってチャネル注意の出力を縮小拡大させて最終的なチャネル注意重みを得て、前記チャネル注意重みは、入力された特徴マップのチャネルの重み付けに用いられ、
前記空間的注意モジュールは以下に用いられ、即ち、
まず、入力された特徴マップがまずそれぞれ平均プーリング及び最大プーリング操作に送られ、平均値及び最大値の特徴マップをそれぞれ計算し、
続いて、これら二つの特徴マップを直列に接続して、二つのチャネルを含む特徴マップを形成し、
次に、この特徴マップが7x7のconv畳み込み層を通過し、空間的注意の重みを計算し、
最後に、sigmoid層を用いて空間的注意の出力を縮小拡大させて最終的な空間的注意重みグラフを得る、ことを特徴とする付記4に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【0073】
(付記6)
前記最適化補強モジュールは、再帰する4層U-netネットワークモジュールであり、四つのエンコーダとデコーダ及び出力層によって構成され、
前記エンコーダは入力層、ダウンサンプリングモジュール及びスキップ接続を含み、
前記入力層は最初入力データを受け入れるために用いられ、
前記ダウンサンプリングモジュールは3x3畳み込み層、プーリング層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に減少させると共に、ハイレベルセマンティク特徴を抽出するために用いられ、
前記スキップ接続はデコーダで特徴融合を行うようにエンコーダの各層の特徴マップを保存するために用いられ、
前記エンコーダはアップサンプリングモジュール、アップサンプリング後の処理モジュール、スキップ接続及び出力層を含み、
前記アップサンプリングモジュールは逆畳み込み層及び活性化関数によって構成され、特徴マップのサイズ及びチャネル数を徐々に増加させ、最初に入力したサイズに復元させるために用いられ、
前記スキップ接続はエンコーダにおける対応層の特徴マップとデコーダの特徴マップを繋ぎ合わせて、特徴融合を実現するために用いられ、
前記アップサンプリング後の処理モジュールは畳み込み層、バッチ正規化層及び活性化関数によって構成され、アップサンプリング後の特徴を更に処理するために用いられ、
前記出力層はローレベルとハイレベルの特徴を結合して、最終的な補完結果を生成するために用いられる、ことを特徴とする付記1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【0074】
(付記7)
前記深度マップ補完ネットワークモデルをトレーニングするステップは、
公開されたコンピュータビジョン及び自動運転の研究に用いられるKittiデータセットから、高いラベリング情報カバレッジを有するGroundTruth及びペアになる疎深度マップとカラーRGB画像を含む深度マップ補完ネットワークトレーニングデータセットを取得するステップと、
前記RGB画像と疎深度マップをネットワークの入力データとしてネットワークをトレーニングするステップと、
ネットワークから出力される補完深度マップとトレーニングデータセットにおけるGroundTruthの完全な深度マップとの間の損失値を計算し、前記損失値により誤差逆伝播を行って、前記ネットワークの重みを更新するステップと、
深度マップ補完ネットワークによって取得した補完された深度マップと実際の完全な深度マップの損失値に対して、勾配降下法を用いて損失値を最小化させて、最適なモデルを取得するステップと、を含むことを特徴とする付記1に記載のRGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法。
【要約】 (修正有)
【課題】RGB画像によりガイドするマルチスケールカスケード砂時計深度マップ補完方法を提供する。
【解決手段】マルチスケールカスケード砂時計深度マップ補完方法は、補完対象の疎深度マップ及び対応するRGBカラーガイド画像を取得し、疎深度マップ及びRGBカラーガイド画像に対してチャネル次元の前処理を行って直列に接続して、処理対象のRGB_D画像を取得するステップS1と、処理対象のRGB_D画像を、早期融合エンコーダ、疎深度マップ指導モジュール、マルチスケール砂時計補完モジュール及び最適化補強モジュールを含むトレーニングされた深度マップ補完ネットワークモデルに入力するステップS2と、前記最適化補強モジュールの出力を取得して補完された密深度マップとするステップS3と、を含む。
【選択図】
図1