IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧 ▶ エー・テー・ハー・チューリッヒの特許一覧

特開2024-122951密な回帰タスクについての方法及びシステム
<>
  • 特開-密な回帰タスクについての方法及びシステム 図1
  • 特開-密な回帰タスクについての方法及びシステム 図2
  • 特開-密な回帰タスクについての方法及びシステム 図3A
  • 特開-密な回帰タスクについての方法及びシステム 図3B
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024122951
(43)【公開日】2024-09-10
(54)【発明の名称】密な回帰タスクについての方法及びシステム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240903BHJP
   G06T 7/50 20170101ALI20240903BHJP
   G06N 3/08 20230101ALI20240903BHJP
【FI】
G06T7/00 350C
G06T7/50
G06N3/08
【審査請求】有
【請求項の数】13
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024018870
(22)【出願日】2024-02-09
(31)【優先権主張番号】23155975.8
(32)【優先日】2023-02-10
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】508374139
【氏名又は名称】エー・テー・ハー・チューリッヒ
【氏名又は名称原語表記】ETH ZUERICH
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(74)【代理人】
【識別番号】100120499
【弁理士】
【氏名又は名称】平山 淳
(72)【発明者】
【氏名】ウィム アブルー
(72)【発明者】
【氏名】ルイージ ピチネッリ
(72)【発明者】
【氏名】クリストス サカリディス
(72)【発明者】
【氏名】フィッシャー ユー
(57)【要約】
【課題】方法の提供。
【解決手段】 入力データ(I)における密な回帰タスクについてのコンピュータ実装方法。方法は、(S10)入力データ(I)の少なくとも1つの符号化特徴マップ(F)を決定することと、(S20)少なくとも1つの符号化特徴マップ(F)を離散化して、入力データ(I)の内部空間パターンを表すように構成された離散表現(H)を取得することと、(S30)少なくとも1つの符号化特徴マップ(F)の各要素についてピクセルレベルの特徴(P)を抽出することと、(S40)離散表現(H)の一部をピクセルレベルの特徴(P)の場所に移すことによって予測出力(D)を計算することと、を含み、当該一部及び場所は、ピクセルレベルの特徴(P)の要素と離散表現(H)の要素との間の類似性に基づいて計算される。
【選択図】 図1
【特許請求の範囲】
【請求項1】
入力データにおける密な回帰タスクについてのコンピュータ実装方法であって、前記コンピュータ実装方法は、
-前記入力データの少なくとも1つの符号化特徴マップを決定することと、
-前記少なくとも1つの符号化特徴マップを離散化して、前記入力データの内部空間パターンを表すように構成された離散表現を取得することと、
-前記少なくとも1つの符号化特徴マップの各要素についてピクセルレベルの特徴を抽出することと、
-前記離散表現の一部を前記ピクセルレベルの特徴の場所に移すことによって予測出力を計算することと、
を含み、前記一部及び前記場所は、前記ピクセルレベルの特徴の要素と前記離散表現の要素との間の類似性に基づいて計算される、コンピュータ実装方法。
【請求項2】
-前記方法のステップは、複数の符号化特徴マップについて行われ、前記複数の符号化特徴マップは各々、複数の予測出力を取得するように前記入力データの解像度に対応する解像度パラメータを有し、前記方法は、異なる解像度を有する前記複数の符号化特徴マップから取得される前記複数の予測出力を組み合わせることを更に含む、請求項1に記載の方法。
【請求項3】
異なる解像度を有する前記複数の符号化特徴マップから取得される前記複数の予測出力を組み合わせる前記ステップは、前記複数の予測出力の平均値を計算することを含む、請求項2に記載の方法。
【請求項4】
前記入力データの少なくとも1つの符号化特徴マップを決定する前記ステップは、異なる解像度での前記符号化特徴マップを改良するためにマルチスケール変形可能アテンションモジュールを使用することを含む、請求項2又は3に記載の方法。
【請求項5】
前記少なくとも1つの符号化特徴マップを離散化して、前記入力データの内部空間パターンを表すように構成された離散表現を取得するステップは、クロスアテンションモジュールを使用することを含む、請求項1から3のいずれか1項に記載の方法。
【請求項6】
前記クロスアテンションモジュールは、前記離散表現の間で前記符号化特徴のソフトクラスタリングを促すように構成された転置クロスアテンションモジュールである、請求項5に記載の方法。
【請求項7】
前記転置クロスアテンションモジュールは、学習可能な事前知識を備え、前記離散表現は、当該学習可能な事前知識を用いて初期化される前記転置クロスアテンションモジュールを使用して反復して取得される、請求項6に記載の方法。
【請求項8】
前記離散表現の一部を前記ピクセルレベルの特徴の場所に移すことによって予測出力を計算するステップは、クロスアテンションモジュールを使用することを含む、請求項1から3のいずれか1項に記載の方法。
【請求項9】
前記予測出力を物理的な値に投影するステップを更に含む、請求項1から3のいずれか1項に記載の方法。
【請求項10】
前記密な回帰タスクは、画像における単眼深度推定タスクであって、前記予測出力は、深度マップを取得するために深度値に投影される、請求項1から3のいずれか1項に記載の方法。
【請求項11】
入力データにおける密な回帰タスクについてのシステムであって、前記システムは、1つ以上のプロセッサと、コンピュータ可読媒体と、を備え、前記コンピュータ可読媒体は、内部に記憶されたコンピュータ命令を備え、前記コンピュータ命令は、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに対して、
-エンコーダモジュールを使用して、前記入力データの少なくとも1つの符号化特徴マップを決定するステップと、
-第1の離散化モジュールを使用して、前記入力データの内部空間パターンを表すように構成された離散表現を取得するために、前記少なくとも1つの符号化特徴マップを離散化するステップと、
-前記少なくとも1つの符号化特徴マップからピクセルレベルの特徴を抽出するためにデコーダモジュールを使用するステップと、
-第2の離散化モジュールを使用して、前記離散表現の一部を前記ピクセルレベルの特徴の場所に移すステップであって、前記一部及び前記場所は、前記ピクセルレベルの特徴の要素と前記離散表現の要素との間の類似性に基づいて計算され、それによって、予測出力を計算するステップと、
を実行させる、システム。
【請求項12】
コンピュータプログラムであって、コンピュータによって実行されると、請求項1から3のいずれか1項に記載の方法のステップを実行する命令を含む、コンピュータプログラム。
【請求項13】
コンピュータによって読み取り可能な記録媒体であって、請求項1から3のいずれか1項に記載の方法のステップを実行する命令を含むコンピュータプログラムが記録された、記録媒体。
【発明の詳細な説明】
【背景技術】
【0001】
1.本発明の分野
本発明は、密な回帰タスクについての方法及びシステムに関する。特に、本発明は、画像における深度推定についての方法及びシステムに関する。
【0002】
2.関連技術の説明
密な回帰タスク、すなわち、入力データの各要素に関するパラメータの値の推定を提供するタスクは、多くの用途で重要である。
【0003】
特に、深度推定は、コンピュータビジョンにおいて、例えば、シーンにおける幾何学的関係を理解するために最重要である密な回帰タスクである。このような密な回帰タスクは、画像の投影中心と、各ピクセルに対応する幾何学的位置との間の距離を予測することで構成されている。深度推定は、3Dモデリング、ロボティクス、及び自動運転車などの下流の用途において直接的な重要性を見出す。推定は概して、入力画像の各ピクセルについて達成されるため、密な推定と見なされる。
【0004】
本来のスケールの不明確性が、所与のセットのピクセルを有する同じ2D入力画像が、異なるセットの幾何学的位置を有する無限数の3Dシーンに対応し得るということにつながるため、深度推定タスクの中でも単眼深度推定タスク、すなわち、単一画像からのピクセルに対応する深度の推定は特に困難である。
【0005】
ニューラルネットワークの使用における近年の進歩は、単眼深度推定タスクの性能の著しい改善をもたらす。特に、最先端の方法は通常、畳み込みニューラルネットワーク(CNN)を伴う。
【0006】
しかしながら、ほとんどの方法は、画像に対して幾何学的制約を課すか、又は既定の範囲を使用して連続的な出力深度を明示的に離散化する、ニューラルネットワークモデルを使用する。このような幾何学的制約及び既定の深度範囲は、事前知識を課せられていると見なされ得、これは、モデルが、現実世界のシーンでよくある任意の深度を有する任意のパターンをモデル化するのを妨げる。したがって、このような事前知識は本質的に、方法の表現力を制限する。
【0007】
したがって、従来技術の制限を克服する密な回帰タスクについての方法が必要である。
【0008】
以下の参考は、このようなタスクを行うのに有用なニューラルネットワーク又は技術を使用した単眼深度推定タスクに関する様々な方法を開示する。
[参考1]BHAT,Shariq Farooq、ALHASHIM,Ibraheem、及びWONKA,PeterのAdabins:Depth estimation using adaptive bins.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、2021年、p.4009-4018。
[参考2]FU,Huan、GONG,Mingming、WANG,ChaohuiらのDeep ordinal regression network for monocular depth estimation.Proceedings of the IEEE conference on computer vision and pattern recognition、2018年、p.2002-2011。
[参考3]LEE,Jin Han、HAN,Myung-Kyu、KO,Dong WookらのFrom big to small: Multi-scale local planar guidance for monocular depth estimation.arXiv preprint arXiv:1907.10326、2019年。
[参考4]MASOUMIAN,Armin、RASHWAN,Hatem A.、CRISTIANO,JulianらのMonocular depth estimation using deep learning:A review、Sensors、2022年、vol.22、no14、p.5353。
[参考5]ZHU,Xizhou、SU,Weijie、LU,Lewei、LI Bin、WANG, Xiaogang、及びDAI,JifengのDeformable DETR:deformable transformers for end-to-end object detection.9th International Conference on Learning Representations、ICLR2021、Virtual Event、Austria、2021年5月3-7。
[参考6]BA,Jimmy Lei、KIROS,Jamie Ryan、及びHINTON,Geoffrey E.のLayer normalization.arXiv preprint arXiv:1607.06450、2016年。
[参考7]GEIGER,Andreas、LENZ,Philip、及びURTASUN,RaquelのAre we ready for autonomous driving?The KITTI vision benchmark suite.2012 IEEE conference on computer vision and pattern recognition、IEEE、2012年、p.3354-3361。
[参考8]ZHANG,Zhenyu、CUI,Zhen、XU,ChunyanらのPattern-affinitive propagation across depth,surface normal and semantic segmentation.Proceedings of the IEEE/CVF conference on computer vision and pattern recognition、2019年、p.4106-4115。
[参考9]PATIL,Vaishakh、SAKARIDIS,Christos、LINIGER,AlexanderらのP3Depth:Monocular Depth Estimation with a Piecewise Planarity Prior.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、2022年、p.1610-1621。
[参考10]YIN,Wei、LIU,Yifan、SHEN,ChunhuaらのEnforcing geometric constraints of virtual normal for depth prediction.Proceedings of the IEEE/CVF International Conference on Computer Vision and Pattern Recognition、2019年、p.5684-5693。
[参考11]YU,Zehao、ZHENG,Jia、LIAN,DongzeらのSingle-image piece-wise planar 3d reconstruction via associative embedding.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、2019年、p.1029-1037。
[参考12]LEE,Sihaeng、LEE,Janghyeon、KIM,ByungjuらのPatch-wise attention network for monocular depth estimation.Proceedings of the AAAI Conference on Artificial Intelligence、2021年、p.1873-1881。
[参考13]QIAO,Siyuan、ZHU,Yukun、ADAM,HartwigらのVip-deeplab:Learning visual perception with depth-aware video panoptic segmentation.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、2021年、p.3997-4008。
[参考14]YUAN,Weihao、GU,Xiaodong、DAI,ZuozhuoらのNeural Window Fully-Connected CRFs for Monocular Depth Estimation.Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition、2022年、p.3916-3925。
[参考15]AGARWAL,Ashutosh及びARORA,ChetanのAttention Attention Everywhere:Monocular Depth Prediction with Skip Attention.Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision、2023年、p.5861-5870。
[参考16]EIGEN,David、PUHRSCH,Christian、及びFERGUS,RobのDepth map prediction from a single image using a multi-scale deep network.Advances in neural information processing systems、2014年、vol.27。
【発明の概要】
【0009】
本開示の態様によれば、入力データにおける密な回帰タスクについてのコンピュータ実装方法が提供される。方法は、
-入力データの少なくとも1つの符号化特徴マップを決定するステップと、
-少なくとも1つの符号化特徴マップを離散化して、入力データの内部空間パターンを表すように構成された離散表現を取得するステップと、
-少なくとも1つの符号化特徴マップの各要素についてピクセルレベルの特徴を抽出するステップと、
-離散表現の一部をピクセルレベルの特徴の場所に移すことによって予測出力を計算するステップと、を含み、当該一部及び場所は、ピクセルレベルの特徴の要素と離散表現の要素との間の類似性に基づいて計算される。
【0010】
簡潔にするために、画像における密な回帰タスクについてのコンピュータ実装方法は、以下で回帰方法と称される。更に、画像における密な回帰タスクについてのシステムは、以下で推定システムと称される。
【0011】
本明細書で、密な回帰タスクは、特に、画像の各ピクセルについて、1つ以上の値の推定に関連する任意のコンピュータビジョンタスクを備え得る。当該値は、例えば、深度値、面法線データ、オプティカルフロー、境界検出を備え得る。
【0012】
本明細書で、入力データの符号化特徴マップは、より高い次元に符号化された入力データの(高次)特徴を備える数学的対象である。更に、符号化特徴マップは概して、入力データよりも低い空間的広がりを有する。
【0013】
符号化特徴マップは、ニューラルネットワークの1つ以上の層により入力データを処理することによって取得され得る。例えば、符号化特徴マップは、畳み込みニューラルネットワークの畳み込み層により取得され得る。特に、符号化特徴マップは、一連の非線形性、学習可能な畳み込み層、及び畳み込みニューラルネットワークの正規化層により取得され得る。
【0014】
本明細書で、ピクセルレベルの特徴の場所は、ピクセルレベルの特徴を表すアレイ内の空間領域である。
【0015】
本明細書で、各離散表現は、内部空間概念とも称される入力データにおける特定の種類の内部空間パターンを表す。画像では、内部空間パターンは、例えば、オブジェクト性(オブジェクトが、提案される対象領域に存在する可能性)、相対的な位置決め、幾何学的構造などの一般的な高次特徴であり得る。
【0016】
従来技術の方法と対照的に、本開示の回帰方法は、内部レベルで画像の離散表現を生成する。離散化は、出力レベル(例えば、出力深度レベル)ではなく、画像の内部特徴の抽象レベルで生じる。したがって、このような離散表現は、他の方法を用いて取得される表現と比較して制約されず、当該他の方法の出力は、限定される様々なオブジェクトが出力についての事前知識(開始ポイント)として使用され得ることで制約される。
【0017】
本方法は、入力画像によって表されるシーンに対する明示的な幾何学的制約を取り除くため、このような方法は、既知のデータセット及びベンチマークにおいてほとんどの既存の方法よりも優れた性能である。
【0018】
態様によれば、方法のステップは、複数の符号化特徴マップについて行われ、複数の符号化特徴マップは各々、複数の予測出力を取得するように入力データの解像度に対応する解像度パラメータを有し、方法は、異なる解像度を有する複数の符号化特徴マップから取得される複数の予測出力を組み合わせることを更に含む。
【0019】
本構成によれば、方法の効率を改善する、異なる解像度からの情報が集められ得る。特に、入力データが画像である場合、より低い解像度での符号化特徴マップは、オブジェクト及び面の相対位置、例えば、背景及び前景を取り込み得る一方、より高い解像度での符号化特徴マップは、オブジェクトの境界などのより正確な詳細を取り込む。
【0020】
態様によれば、異なる解像度を有する複数の符号化特徴マップから取得される複数の予測出力を組み合わせることは、複数の予測出力の平均値を計算することを含む。
【0021】
態様によれば、少なくとも1つの符号化特徴マップの各要素についてピクセルレベルの特徴を抽出するステップは、異なる解像度を有する複数のピクセルレベルの特徴を計算することを含む。
【0022】
態様によれば、入力データの少なくとも1つの符号化特徴マップを決定するステップは、異なる解像度での符号化特徴マップを改良するためにマルチスケール変形可能アテンションモジュールを使用することを含む。
【0023】
したがって、異なる解像度間の情報は、特に効率的に共有される。
【0024】
態様によれば、少なくとも1つの符号化特徴マップを離散化して、入力データの内部空間パターンを表すように構成された離散表現を取得するステップは、クロスアテンションモジュールを使用することを含む。
【0025】
態様によれば、クロスアテンションモジュールは、離散表現の間で符号化特徴のソフトクラスタリングを促すように構成された転置クロスアテンションモジュールである。
【0026】
したがって、本質的に入力依存であるクロスアテンションモジュールのアテンションウェイトは、特に効率的な方法で符号化特徴マップを別の離散表現に区分するために使用され得る。
【0027】
したがって、従来技術の多くの方法と対照的に、本開示の回帰方法の離散化プロセスは、入力依存であり得、方法の設計中に予め定められる必要はない。更に、異なる離散表現間の特徴マップの特定の離散化は、同様の推論時間で行われる。
【0028】
態様によれば、転置クロスアテンションモジュールは、学習可能な事前知識を備え、離散表現は、当該学習可能な事前知識を用いて初期化される転置クロスアテンションモジュールを使用して反復して取得される。
【0029】
したがって、離散化プロセスの事前知識は、プロセスの反復で訓練及び改善され得る。これは、隠れ表現がタスク固有の事前情報を具現化しない、学習可能でない事前知識を有するクロスアテンションモジュール、例えば、ランダムな初期化を伴う学習可能でないアテンションモジュールを使用した方法と比較して、推定タスクのより優れた性能を提供する。
【0030】
態様によれば、離散表現の一部をピクセルレベルの特徴の場所に移すことによって(投影されていない)予測出力を計算するステップは、クロスアテンションモジュールを使用することを含む。
【0031】
態様によれば、方法は、予測出力を物理的な値に投影するステップを更に含む。
【0032】
態様によれば、密な回帰タスクは、画像における単眼深度推定タスクであって、予測出力は、深度マップを取得するために深度値に投影される。
【0033】
本発明者らは、本方法が画像における単眼深度推定に適用される場合に特に効率的であることを観測した。特に、内部レベルで画像を離散化することによって、方法は、より効率的に、シーンの構造を取り込んで、したがって、深度を推定する。これは特に、屋内のシーンには通常、多数のオブジェクトが存在するため、屋内のシーンで特に顕著である。
【0034】
本発明者らは、本方法が、[参考6]に開示されるKITTIデータセットなどの典型的なベンチマークデータセットにおいて使用される場合にほとんどの既知の方法よりも優れた性能であることを示した。更に、本発明者らは、方法が、面法線推定などの密な回帰タスクに適用される場合に特に効率的であることも観測した。
【0035】
態様によれば、入力データにおける密な回帰タスクについてのシステムが開示される。システムは、1つ以上のプロセッサと、コンピュータ可読媒体と、を備え、コンピュータ可読媒体は、内部に記憶されたコンピュータ命令を備え、命令は、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに対して、
-エンコーダモジュールを使用して、入力データの少なくとも1つの符号化特徴マップを決定するステップと、
-第1の離散化モジュールを使用して、入力データの内部空間パターンを表すように構成された離散表現を取得するために、少なくとも1つの符号化特徴マップを離散化するステップと、
-少なくとも1つの符号化特徴マップからピクセルレベルの特徴を抽出するためにデコーダモジュールを使用するステップと、
-第2の離散化モジュールを使用して、離散表現の一部をピクセルレベルの特徴の場所に移すステップであって、当該一部及び場所は、ピクセルレベルの特徴の要素と離散表現の要素との間の類似性に基づいて計算され、それによって、予測出力を計算するステップと、を実行させる。
【0036】
本開示は更に、コンピュータプログラムであって、上記プログラムがコンピュータによって実行されると、上記回帰方法のステップを実行する命令を含む、コンピュータプログラムに関する。このプログラムは、任意のプログラミング言語を使用して、ソースコード、オブジェクトコード、又はソースコードとオブジェクトコードとの間の中間のコードの形態、例えば、部分的にコンパイルされた形態、又は任意の他の望ましい形態を取り得る。
【0037】
本開示は更に、コンピュータによって読み取り可能な記録媒体であって、上述の方法のステップを実行する命令を含むコンピュータプログラムが記録された、記録媒体に関する。記録媒体は、プログラムを記憶することができる任意のエンティティ又はデバイスであり得る。例えば、媒体は、ROM、例えば、CD ROM若しくは超小型電子回路ROMなどの記憶手段、又は磁気記憶手段、例えば、ディスケット(フロッピーディスク)若しくはハードディスクを含み得る。
【0038】
代替的に、記録媒体は、プログラムが組み込まれた集積回路であり得、回路は、当方法を実行するように、又はその実行で使用されるように構成されている。
【図面の簡単な説明】
【0039】
本発明の好ましい実施形態の特徴、利点、並びに技術的及び産業的な重要性は、添付図面を参照して以下に記載され、当該添付図面では、同様の符号は同様の要素を示す。
図1図1は、本開示の実施形態に係る密な回帰タスクについての方法の態様を表す図である。
図2図2は、本開示の実施形態に係る密な回帰タスクについての方法に関するアーキテクチャの概略的な表現である。
図3A図3Aは、従来技術の他の方法に対する、本開示に係る密な回帰タスクについての方法の実施形態に関する利点を示すチャートである。
図3B図3Bは、従来技術の他の方法に対する、本開示に係る密な回帰タスクについての方法の実施形態に関する利点を示すチャートである。
【発明を実施するための形態】
【0040】
回帰方法の実施形態は、図1及び図2それぞれを参照して記載される。記載される実施形態は特に、画像における単眼深度推定タスクについての方法に関するものであるが、本開示は、このような実施形態に限定されるものではなく、例えば、面法線推定タスクなどの他の密な回帰タスクに関するものでもある。更に、本開示は、入力データが画像ではなく、規則的なグリッドにおける要素を備えるデータなどの任意のデータである密な回帰タスクに関するものでもある。
【0041】
図1を参照して、密な回帰方法の実施形態は、以下の主要な処理ステップ、すなわち、画像Iの符号化特徴マップFを決定するS10と、符号化特徴マップFを離散化して、画像Iの内部空間パターンを表すように構成された離散表現Hを取得するS20と、画像内の各ピクセルについてピクセルレベルの特徴Pを抽出するS30と、離散表現Hの一部をピクセルレベルの特徴Pに移すS40と、予測出力を物理的な値に投影するS50と、を含み得る。
【0042】
方法は、画像、例えば、2つの空間次元(x、y)及び3つの色次元(R、G、B)を有するRGB画像を入力データとして取得し得る。更に、方法は、深度マップ、すなわち、入力画像内の対応するピクセルによって画像化される幾何学的位置の推定深度に対応する深度値に各々関連付けられたピクセルを備える画像を出力として提供し得る。
【0043】
S10:画像(I)の符号化特徴マップ(F)を決定する
ステップS10で、入力画像Iの符号化特徴マップFが計算される。当該計算は、異なる手段により行われ得る。例えば、符号化特徴マップFは、エンコーダモジュールを使用して計算され得る。エンコーダモジュールは、例えば、畳み込み又はアテンションベースであり得る。特に、使用されるエンコーダは、符号化特徴マップの解像度を減少させることによって畳み込み又はウィンドウアテンションのいずれかの受容野を増加させる構造を有し得る。
【0044】
実施形態では、使用されるエンコーダモジュールは、分類モジュールに基づき得、その3つの最後の層(プーリング層、全結合層、及びソフトマックス層)は除去されている。
【0045】
実施形態によれば、エンコーダモジュールは、画像Iにおいて、異なる解像度lに関する、すなわち、異なる解像度又はスケールに対応する符号化特徴マップFを生成するように構成され得る。符号化特徴マップの解像度は概して、入力画像のサイズよりも低く、例えば、入力画像のサイズの1/32に等しくてもよい。
【0046】
実施形態では、エンコーダモジュールによって生成される異なる解像度での符号化特徴は改良され得、異なる解像度での符号化特徴間の情報は、例えば、1つ以上のマルチスケール変形可能アテンションモジュール(MSDA)を介して共有され得る。MSDAは、例えば、[参考5]で開示される。特に、異なる解像度での符号化特徴マップは、[参考6]参照の層正規化を活用した特徴ピラミッドネットワークを介して組み合わされ得る。
【0047】
S20:符号化特徴マップ(F)を離散化して離散表現(H)を取得する
ステップS20で、ステップS10から取得される画像Iの符号化特徴マップFは、画像の離散表現を取得するために離散化される。離散化は、離散化モジュール、例えば、任意の特徴区分(AFP)モジュールを使用して実装され得る。考えられる離散表現数は、異なる値を有し得る。例えば、本発明者らは、8と32との間で構成された離散表現数を選択することが有利であると観測している。更に、本発明者らは、大きい離散表現数を回避することが適切であることを観測している。特に、本発明者らは、符号化特徴マップにおける符号化特徴の数に近い離散表現数は、離散化プロセスにおいてノイズを生じさせ、それによって、その効率を悪くすることを観測している。
【0048】
実施形態によれば、(例えば、MSDAエンコーダから取得される)異なる解像度での符号化特徴マップは各々、同じ当該異なる解像度での複数の離散表現を取得するために離散化される。このような場合、離散化はまた、AFPモジュールを使用して行われ得る。
【0049】
異なる解像度での符号化特徴マップの離散化は、単一の解像度について実装される離散化を記述すれば充分であるように独立で処理され得、他の解像度での符号化特徴マップについて同じプロセスを適用する方法は当業者に明らかであろう。
【0050】
AFPモジュールは、入力依存方式で、すなわち、AFPモジュールにおいて入力される符号化特徴マップに依存して、区分機能をどのように定めるかを学習することによって離散化を実装するクロスアテンションモジュールなどのニューラルネットワークであり得る。
【0051】
具体的には、クロスアテンションモジュールは、異なる離散表現間の符号化特徴マップの区分を導出するために使用されるアテンションウェイトを備える。特に、符号化特徴マップについて、ある区分(離散表現)に属する可能性がアテンションウェイトである。
【0052】
定義により、アテンションウェイトは本質的に、AFPモジュールの入力、すなわち、符号化特徴マップに依存するため、特定の区分も、入力に依存し、同様の推論時間で行われる。結果として、AFPモジュールは、符号化特徴マップについてソフト相互排他的区分を提供することになる。したがって、各符号化特徴マップは実質的に、単一の離散表現に割り当てられる。更に、このような排他性は、符号化特徴マップについて、より少ない数の区分を利用することを可能にする。
【0053】
実施形態によれば、クロスアテンションモジュールは、学習可能な事前知識を備え、学習可能な事前知識クロスアテンションモジュールと称される。所定の符号化特徴マップを考慮して、このような学習可能な事前知識クロスアテンションモジュールは、反復数Rで、事前知識として使用される初期の離散表現を改良する反復プロセスを行う。したがって、本方法では、事前知識は、入力依存の区分の初期化である。これは、(幾何学的事前知識などの)モジュールの事前知識が、画像レベルで手作りされる出力事前知識である従来技術の方法と全く対照的である。
【0054】
具体的には、実施形態では、学習可能なクロスアテンションモジュールは、離散表現が以下の[softmax(KQ)]V(式1)のような転置ソフトマックス演算を使用して取得される転置クロスアテンションモジュールであり得、ここで、K及びVは、符号化特徴マップから取得されるクエリテンソル及びキーテンソルであって、Qは、前の離散表現Hpriorに初期化されるバリューテンソルである。転置演算は、離散表現間のソフト相互排他性を達成する方法を提供する。
【0055】
用語「転置」は、以下のsoftmax(KQ)(式2)のような既知の正規表現と比較される式1における「softmax(ソフトマックス)」演算子の出力において使用される転置演算を指す。
【0056】
前述のテンソルは、特徴マップの投影及び前の内部離散表現として取得され得る。
【0057】
離散化プロセスに従って、符号化特徴マップは、学習可能な事前知識転置クロスアテンションモジュールを使用して離散表現間で区分される。R回の反復のうちの第tの反復(又は言い換えると、改良ステップt)で、符号化特徴マップの所与のバリューについて求められる(クエリ)離散表現は、以下のように表され得る。
【数1】
ここで、
【数2】
は、以下のように定められるアテンションウェイトを備える。
【数3】
【数4】
【数5】
【数6】
はそれぞれ、クエリ、キー、及びバリューである。Nは、ピクセルレベルの特徴の数、すなわち、クラスタの数であって、Mは、ピクセル数(又は一般的な場合、入力データのサイズ)である。
【0058】
実施形態によれば、アテンションウェイトは、非正規化分布の和により量が消えるか又は急増するのを回避するために「i」次元に沿って1に正規化され得る。
【0059】
有利なことに、転置ソフトマックス関数の本来の挙動は、異なる離散表現間の量子化区分を促す出力間の競合を強いる。具体的には、競合により、ウェイトは、他の損失に対してのみ大きい場合がある。したがって、所定の符号化特徴について、ゼロよりも著しく大きいアテンションウェイトは少ししかない場合がある。これは、バリューv、すなわち、符号化特徴の出力関連の内容に対して、連続的な反復でいくつかの離散表現のみに経路設定させる。促される競合は、入力された符号化特徴マップのソフトクラスタリングを強いて、ここで、実際の区分関数は、最後の反復クエリによって表される。換言すれば、離散表現は、ソフトアテンションモジュールの最後の反復の後に取得されるクエリによって決定され得る。
【0060】
S30 ピクセルレベルの特徴(P)を抽出する
ステップS30で、ピクセルレベルの特徴(P)は、符号化特徴マップ(F)から抽出される。抽出は、デコーダモジュール(120)、例えば、特徴ピラミッドネットワーク(FPN)モジュールを用いて実装され得る。
【0061】
実施形態によれば、入力データは画像であって、デコーダモジュールは、ピクセルごとの回帰で、低解像度の符号化特徴マップを完全な入力解像度の特徴マップにマッピングする。
【0062】
S40 離散表現(H)の一部をピクセルレベルの特徴(P)に移すことによって予測出力を計算する
ステップS40で、離散表現の一部がピクセルレベルの特徴の場所に移され、それによって、予測出力を取得することが想定される。ステップS40は、例えば、内部シーン離散化モジュール(150)を用いて実装され得る。内部シーン離散化モジュール(150)は、ステップS20から取得される離散表現及びステップS30から取得されるピクセルレベルの特徴を入力として取得する。
【0063】
実施形態によれば、ピクセルレベルの特徴に移される離散表現の一部、及び離散表現が移される場所は共に、離散表現とピクセルレベルの特徴との間の類似性に基づいて計算される。
【0064】
具体的には、画像の場合、離散表現とピクセルレベルの特徴との間の類似性は、画像のピクセルによって定められる出力空間において、離散表現の情報を移す場所を空間的にローカライズするために計算される。
【0065】
一例として、類似性は、内積類似性関数を使用して計算され得る。有利なことに、ピクセルレベルの特徴に移される情報の種類は制約されず、任意の値であり得る。特に、画像における深度推定の場合、深度値は、内部シーン離散化モジュールによって明示的に処理されない。その結果、離散表現は、オブジェクト性、相対的な位置決め、及び幾何学的構造などの任意の一般的な高次概念を自由に包含する。これは、離散表現、すなわち、スカラ深度値によって包含されるものを明示的に制約する既存の方法と全く対照的である。
【0066】
実施形態によれば、内部離散化モジュールは、(クエリとして使用される)離散表現及びピクセルレベルの特徴に適用される1つ以上のクロスアテンション層を備え得る。更に、1つ以上のクロスアテンション層の実装は、ソフトマックス関数を離散表現に適用することを含み得る。
【0067】
具体的には、層数iの後に取得される(投影されていない)予測出力Dは、以下のように正規(非転置)ソフトマックス関数を使用して表され得、
【数7】
ここで、
【数8】
は、ピクセルレベルの特徴のテンソル投影であって、
【数9】
及び
【数10】
は、離散表現の線形変換である。
【0068】
式5で、項
【数11】
は、離散表現の各々の特定の要素が担う空間的場所を決定する。更に、
【数12】
は、対応する空間的場所に移される離散表現のセマンティック内容を有する。
実施形態では、内部シーン離散化モジュールは、いくつかの解像度の離散表現及びいくつかの解像度のピクセルレベルの特徴を入力として取得する。この場合、離散表現及びピクセルレベルの特徴の全ての解像度について取得される予測出力は、組み合わされた予測出力を取得するために組み合わされる。
【0069】
S50 (投影されていない)予測出力を物理的な値に投影する
ステップS50で、(投影されていない)予測出力は、推定タスクの結果である物理的な値に投影される。特に、入力データが画像であって、推定タスクが単眼深度推定タスクである場合、内部離散化モジュール160からステップS40の後に取得される予測出力は、深度値に投影される。したがって、ピクセルレベルの特徴の各要素に深度値が割り当てられ、それによって、深度マップが提供される。
【0070】
投影は、例えば、畳み込み層などの学習可能なニューラルネットワーク層により実装され得る。
【0071】
方法の最適化は、予測出力の性能を評価することによって反復して実装され得る。このような性能は、例えば、[参考15]で定められるスケール不変のログスケール誤差を使用して評価され得る。
【0072】
密な回帰タスクについての方法に関する実施形態のアーキテクチャは、図2に示される。画像は、エンコーダ110に提供され、ここで、当該画像は、様々な解像度の複数の符号化特徴マップFに変換される。複数の符号化特徴マップのうちの符号化特徴マップ112では、画像の特徴111は、全ての解像度について共通の次元で組み込まれる。
【0073】
複数の符号化特徴マップの各符号化特徴マップは、符号化特徴マップからピクセルレベルの特徴を抽出するデコーダ120に提供される。ピクセルレベルの特徴は、入力データと同じ構造(レイアウト)を有する。例えば、入力データが画像である場合、ピクセルレベルの特徴は、2Dグリッドとして表され得る。
【0074】
符号化特徴マップ及びピクセルレベルの特徴は、第1の離散化モジュール140(例えば、適応特徴区分(AFP)モジュール)及び第2の離散化モジュール150(例えば、シーン離散化モジュール)を備える内部離散化モジュール160に提供される。複数の符号化特徴マップは、離散表現(H)間で区分されるように第1の離散化モジュールによって処理される。離散表現は、ハード演算子ではなく自己競合により取得され得、したがって、区分は、準排他的なソフト区分である。
【0075】
第2の離散化モジュールは、ピクセルレベルの特徴の要素(ピクセル)によって定められる連続的な出力空間上に離散表現をマッピングすることによって画像の離散化を完了する。ピクセルレベルの特徴の典型的な多数の要素により、出力空間は、連続的であると見なされ得る。それによって、離散化モジュールは、予測出力を生成する。
【0076】
図2に表されるアーキテクチャでは、異なる解像度の符号化特徴マップ及びピクセルレベルの特徴は、内部離散化モジュール160のインスタンス(130、131、132)によって独立で処理され、それによって、異なる解像度に対応する複数の予測出力(H)がもたらされる。異なる解像度でのこのような複数の予測出力(D)は、全ての異なる解像度を考慮に入れて、最終的な予測出力Dを提供するために組み合わされる。
【0077】
図3A図3Bは、既知のデータセットからの画像における単眼深度推定に適用された場合の本回帰方法の実施形態の結果、及び既知の方法との比較を示す。
【0078】
図3Aは、本回帰方法及び既知の方法に関して、当該方法がまず、KITTIデータセットにおいて訓練され、公式KITTIプライベートテストセットにおいてテストされた結果を示す。KITTIデータセットは、移動車両から取り込まれる屋外シーンのステレオ画像及び対応するVelodyne LiDARスキャンを備える(例えば、[参考7]参照)。RGB及び深度画像は、1241×376の(平均)解像度を有する。図3Aでは、本方法と比較される既知の方法は、以下、すなわち、PAP([参考8]参照)、P3Depth([参考9]参照)、VNL([参考10]参照)、DORN([参考11]参照)、BTS([参考3]参照)、PWA([参考12]参照)、ViP-DeepLab([参考13]参照)、NeWCRF([参考14]参照)、及びPixelFormer([参考15]参照)である。
【0079】
図3Aを参照して、KITTIデータセットにおける方法の性能は、以下の基準、すなわち、ログスケールでのスケール不変誤差(SIlog)、平均二乗相対誤差(Sq.Rel)、絶対平均相対誤差(A.Rel)、逆深度の二乗平均平方根誤差(iRMS)に関して評価される。このような基準は多くの場合、深度推定の性能を特徴付けるために使用され、当業者に既知であって、例えば、[参考16]を参照されたい。
【0080】
基準よりも低いセンテンスによって示されるように、方法は、これらの基準がより低い値を示す場合により優れた性能を提供すると見なされる。したがって、図3Aは、本方法が、KITTIベンチマークデータセットにおいて特に効率的であって、本方法と比較される従来技術の方法よりも優れた性能であることを示す。
【0081】
図3Bを参照して、本方法の除去の検討が提示される。除去の検討は、従来技術の方法の構成要素(EDD:明示的深度離散化モジュール)に対する本方法のアーキテクチャの異なる構成要素(ISD:内部シーン離散化モジュール、AFP:適応特徴区分モジュール、MSDA:マルチスケール変形可能アテンションモジュール)の相対的な効率を示す。
【0082】
各行は、方法のアーキテクチャが構成要素の一部を備えるか又はどれも備えない特定の状況に対応する。チェックマークは、構成要素が方法に含まれることを示し、クロスマークは、構成要素が方法に含まれないことを示す。AFPモジュールについて、添え字「R」を伴うチェックマークは、離散表現のランダムな初期化が使用されることを示す一方、(添え字なしの)シンプルなチェックマークは、学習可能な事前知識が初期化に使用されることを示す。EDDモジュール及びISDモジュールは、入力データを離散化する2つの別の方法に対応し、それにより、実施形態において共同で使用可能ではない。
【0083】
第1の行は、基準ベースラインであって、ここで、比較のために、深度推定タスクは、本方法のどのモジュールも用いず、従来技術のEDDモジュールを用いずに行われる。
【0084】
方法の異なるアーキテクチャの性能は、以下の基準、すなわち、inlier(インライア)ピクセルの割合(δ)、二乗平均平方根誤差(RMS)、絶対平均相対誤差(A.Rel)に関して評価される。基準の隣の上/下矢印はそれぞれ、基準の値がより高い/低い場合に、方法の性能がより高いと見なされることを示す。
【0085】
図3A及び図3Bに示される結果から、本方法の3つのモジュール、すなわち、ISDモジュール、AFPモジュール、及びMSDAモジュールが相乗的に使用される場合に(行7及び8)、最善の結果が取得されることが分かる。AFPモジュールがランダムに初期化されるのではなく、AFPモジュールが学習可能な事前知識を用いて初期化される場合(行8)に、性能はより一層向上する。
【0086】
更に、行2対行3~6から、前述の3つのモジュール(ISD、APF、MSDA)のうち1つ又は2つのモジュールのみを備える本方法の実施形態は依然、EDDモジュールのみを使用した従来技術の方法(例えば、[参考1]及び[参考2]で使用される方法)よりも効率的であることが分かる。
【0087】
特に、ISDモジュール単独で、従来技術での改善に関するEDDモジュール対応部よりも明確な改善が提供されることが分かる(行3対行2)。
【0088】
行4、行6、及び行8から、AFPモジュール及びMSDAモジュールは、組み合わされると相乗作用を示すため相補的であることが分かる。相補性は、MSDAモジュールが、区分される符号化特徴マップを事前に改良する一方、AFPモジュールにより、符号化特徴マップを区分するために離散表現が自身を適応させることが可能になるということに起因する。
【0089】
本開示は、特定の好ましい実施形態に言及しているが、特許請求の範囲によって定められるような本発明の全体的な範囲から逸脱することなく、当該例に対する修正が提供され得る。特に、示された/述べられた様々な実施形態の個々の特徴は、追加の実施形態において組み合わされ得る。したがって、説明及び図面は、制限的な意味ではなく、例示的であると見なされるべきである。
図1
図2
図3A
図3B
【外国語明細書】