(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022036075
(43)【公開日】2022-03-04
(54)【発明の名称】画像のラベルなしペアを使用して物体の視点を伝達するようにニューラルネットワークを訓練するための方法、及び対応するシステム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220225BHJP
【FI】
G06T7/00 350C
【審査請求】有
【請求項の数】13
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2021135166
(22)【出願日】2021-08-20
(31)【優先権主張番号】20192258.0
(32)【優先日】2020-08-21
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】501337513
【氏名又は名称】ザ ユニバーシティ コート オブ ザ ユニバーシティ オブ エジンバラ
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(72)【発明者】
【氏名】スベン マイアー
(72)【発明者】
【氏名】オクテイブ マリオッティ
(72)【発明者】
【氏名】ハカン バイレン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA02
5L096DA02
5L096EA16
5L096FA67
5L096HA09
5L096HA11
5L096JA11
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
【課題】物体の視点を伝達するようにニューラルネットワークを訓練するためのシステム及び方法を提出すること。
【解決手段】本方法は、訓練画像の第1のセットの各訓練画像について、この訓練画像の視点でのニューラルネットワークの出力と、訓練画像ペアの第2のセットの各ペアについて、このペアの第1の画像が、エンコーダニューラルネットワークに入力されるとき、このペアの第2の画像が、ニューラルネットワークに入力されて、視点を獲得するとき、獲得された符号化画像が視点に従って回転されるとき、回転された符号化画像が復号される、デコーダニューラルネットワークの出力による訓練画像ペアの第2のセットの各ペアの第2の画像と、の距離を最小限にすることを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
画像がニューラルネットワークに入力されるとき、前記画像上に見える所与の物体の視点を伝達するように前記ニューラルネットワークを訓練するための方法であって、
画像を入力として受信し、符号化画像を伝達するように構成されるエンコーダニューラルネットワークを提供することと、
前記エンコーダニューラルネットワークによって伝達される符号化画像と同じ次元を有する符号化画像を受信するように構成され、また復号画像を出力するように構成されるデコーダニューラルネットワークを提供することと、
各画像のための、前記画像上に見える所与のカテゴリに属する物体の前記視点を有する訓練画像の第1のセットを提供することと、
訓練画像ペアの第2のセットを提供することと、を含み、前記訓練画像ペアの第2のセットの各ペアが、
前記所与のカテゴリに属する物体が見える第1の画像、
前記第1の画像の物体が、前記第1の画像内の視点とは異なる視点で見える第2の画像を含み、
前記ニューラルネットワークを訓練することは、
前記訓練画像の第1のセットの各訓練画像について、この訓練画像の視点での、前記訓練画像が前記ニューラルネットワークに入力されるときの前記ニューラルネットワークの出力と、
訓練画像ペアの第2のセットの各ペアについて、
このペアの第1の画像が、前記エンコーダニューラルネットワークに入力されて、符号化画像を獲得するとき、
このペアの第2の画像が、前記ニューラルネットワークに入力されて、視点を獲得するとき、
前記符号化画像が、この視点に対応する回転により回転されて、回転された符号化画像を獲得するとき、
前記回転された符号化画像が、前記デコーダニューラルネットワークに入力されて、前記デコーダニューラルネットワークの出力を獲得するとき、
前記デコーダニューラルネットワークの出力による前記訓練画像ペアの第2のセットの各ペアの前記第2の画像と、
の距離を最小限にすることによって、前記ニューラルネットワークのパラメータ、前記エンコーダニューラルネットワークのパラメータ、及び前記デコーダニューラルネットワークのパラメータを適合させることを含む、方法。
【請求項2】
前記画像上に見える物体の視点は、前記物体に対して中心が置かれる基準で表現され、前記画像を取得するために使用される画像取得装置の方へ配向されるベクトルを規定する3つの値を含む、請求項1に記載の方法。
【請求項3】
前記符号化画像は、前記画像の解像度よりも低い解像度を有するベクトルである、請求項1又は2に記載の方法。
【請求項4】
前記符号化画像の次元は、3の倍数である、請求項1~3の何れか一項に記載の方法。
【請求項5】
前記ニューラルネットワークを訓練することは、以下の損失関数を使用して実施され、
【数1】
式中、
Lは、損失であり、
Tは、前記訓練画像の第1のセットであり、
Uは、前記訓練画像のペアの第2のセットであり、
Iは、前記訓練画像の第2のセットの訓練画像のペアの第1の画像、又は第1の訓練セットの画像であり、
I´は、訓練画像のペアの第2の画像であり、
f
v、f
e、及びf
dは、それぞれ、前記ニューラルネットワーク、前記エンコーダニューラルネットワーク、及び前記デコーダニューラルネットワークであり、
θ
v、θ
e、及びθ
dは、それぞれ、f
v、f
e、及びf
dのパラメータであり、
vは、画像Iの視点であり、
R(x)は、視点xと関連付けられた回転を決定する関数であり、
λは、前記訓練のハイパーパラメータである、請求項1~4の何れか一項に記載の方法。
【請求項6】
距離は、知覚損失を使用して計算される、請求項5に記載の方法。
【請求項7】
前記ニューラルネットワーク、及び/又は前記エンコーダニューラルネットワーク、及び/又は前記デコーダニューラルネットワークは、畳み込みニューラルネットワークである、請求項1~6の何れか一項に記載の方法。
【請求項8】
請求項1~7の何れか一項に記載の方法によって訓練されるニューラルネットワーク。
【請求項9】
画像がニューラルネットワークに入力されるとき、前記画像上に見える所与の物体の視点を伝達するように前記ニューラルネットワークを訓練するためのシステムであって、
画像を入力として受信し、符号化画像を伝達するように構成されるエンコーダニューラルネットワークと、
前記エンコーダニューラルネットワークによって伝達される符号化画像と同じ次元を有する符号化画像を受信するように構成され、また復号画像を出力するように構成されるデコーダニューラルネットワークと、
各画像のための、前記画像上に見える所与のカテゴリに属する物体の前記視点を有する訓練画像の第1のセットと、
訓練画像ペアの第2のセットであって、前記訓練画像ペアの第2のセットの各ペアが、
前記所与のカテゴリに属する物体が見える第1の画像、
第1の画像の物体が、第1の画像内の視点とは異なる視点で見える第2の画像
を含む、訓練画像ペアの第2のセットと、
訓練モジュールであって、
前記訓練画像の第1のセットの各訓練画像について、この訓練画像の視点での、前記訓練画像が前記ニューラルネットワークに入力されるときの前記ニューラルネットワークの出力と、
訓練画像ペアの第2のセットの各ペアについて、
このペアの第1の画像が、前記エンコーダニューラルネットワークに入力されて、符号化画像を獲得するとき、
このペアの第2の画像が、前記ニューラルネットワークに入力されて、視点を獲得するとき、
前記符号化画像が、この視点に対応する回転により回転されて、回転された符号化画像を獲得するとき、
前記回転された符号化画像が、前記デコーダニューラルネットワークに入力されて、前記デコーダニューラルネットワークの出力を獲得するとき、
前記デコーダニューラルネットワークの出力による前記訓練画像ペアの第2のセットの各ペアの前記第2の画像と、
の距離を最小限にすることによって、前記ニューラルネットワークのパラメータ、前記エンコーダニューラルネットワークのパラメータ、及び前記デコーダニューラルネットワークのパラメータを適合させるように構成される、訓練モジュールと
を含む、システム。
【請求項10】
請求項8に記載のニューラルネットワークを含む、システム。
【請求項11】
請求項10に記載のシステムを含む、車両。
【請求項12】
コンピュータプログラムであって、該プログラムがコンピュータによって実行されるとき請求項1~7の何れか一項に記載の方法のステップを実行するための命令を含む、コンピュータプログラム。
【請求項13】
コンピュータによって読み取り可能であり、請求項1~7の何れか一項に記載の方法のステップを実行するための命令を含むコンピュータプログラムが記録されている、記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ニューラルネットワークを使用したデータ処理、例えば、ニューラルネットワークを使用した画像処理の分野に関する。より正確には、本開示は、画像上に見える物体の視点を検出することができるニューラルネットワークに関する。
【背景技術】
【0002】
コンピュータシステムに実装されたニューラルネットワークを使用することによって、カメラによって取得される画像上の3次元物体を検出することが提案されている。典型的には、画像上に見える物体の6Dポーズに関する情報も獲得することが望ましい。「6Dポーズ」は、物体の3次元位置及び3次元配向の組み合わせを指定する、当業者にはよく知られている表現である。6Dポーズを獲得することは、物体が検出操作されるロボット工学の分野で特に有用である。それは、自律式又は部分的に自律式の運転を可能にするために、運転場面における物体の配向を決定するのにも有用である。
【0003】
画像上に見える物体の視点は、望ましいものである6Dポーズに関する1つのそのような情報である。視点は、画像を取得するために使用されるカメラに対する物体の方位、高さ、及び面内回転として規定され得る。ニューラルネットワークもまた、画像上に見える物体の視点を自動的に決定するために使用されている。
【0004】
画像上に見える物体の視点を自動的に決定するというタスクを実施するニューラルネットワークを獲得するために、ニューラルネットワークの訓練フェーズが実施されなければならない。この訓練フェーズは、通常、訓練画像のラベル付けしたセットを使用して実施される。ラベル付けとは、目的の物体の視点が訓練画像のセットの各画像に対して提供されることを意味し、提供された視点は、グラウンドトゥルースと呼ばれる。このとき、訓練は、訓練セットからの画像をニューラルネットワークに入力すること、ニューラルネットワークの出力を対応するグラウンドトゥルースと比較すること、及びこの比較に基づいてニューラルネットワークのパラメータを適合させること(例えば、周知の確率勾配法を使用して)で構成される。
【0005】
当該技術分野においてよく知られているように、ニューラルネットワークの優れた訓練を得るためには大量のラベル付けした訓練画像が必要である。大規模なラベル付けしたデータセットは、コンピュータビジョンタスクにおける先行技術の進歩において重要な推進力であった。しかしながら、データの注釈付けは、高価であり(すなわち、時間がかかり)、増えている複雑な視覚概念へスケーラブル(scalable)ではない。実際、グラウンドトゥルース/ラベルを獲得することは、典型的には、専門的なハードウェア、制御された環境、及び3D CASモデルを現実世界の物体と手動で整列させるオペレータを使用することを伴う。
【0006】
物体の視点を検出するようにニューラルネットワークを訓練するためにラベル付けしたデータセットを使用することが先行技術から知られているが、ラベルなしデータを使用する方法はまだ定かになっていない。しかしながら、ラベルなしデータを使用することは、それが安価であり、獲得するのが容易であることから、望ましい。
【0007】
異なる視点の下での物体の3D CAD画像をレンダリングして、ニューラルネットワークを訓練すること(したがって、グラウンドトゥルースは、レンダリングのために知られている)が提案されている(例えば、文書「Multi-view object class detection with a 3d geometric model」、Liebelt,J.、Schmid,C.、IEEE Computer Society Conference on Computer Vision and Pattern Recognition.pp.1688-1695.IEEE(2010)において)。レンダリング及びシミュレータツールにより大量のラベル付けした合成データを生成し、それらに対して視点推定を学習することが可能であるが、合成画像と現実世界画像との間の相違が、それらの転写を困難にする。故に、文書「Render for cnn:Viewpoint estimation in images using cnns trained with rendered 3d model views」(Su,H.,Qi,C.R.,Li,Y.,Guibas,L.J.、Proceedings of the IEEE International Conference on Computer Vision.pp.2686-2694(2015))において、大きな3Dモデルコレクションからのレンダリングした画像を現実画像の上に重ねることが提案されており、そのような方法は、現実的な訓練画像を結果としてもたらし、これらの画像が訓練中に使用されるときに視点の検出を改善する。しかしながら、このソリューションは、3Dモデルの大きなコレクション、及び背景場面の存在を必要とし、これもまた難点である。
【0008】
自己教師あり又は教師なしと呼ばれるプロセスにおいてラベルなし画像を使用することも複数の文書において提案されている。これらのプロセスにおいて、情報は、視点又はポーズを検出するためのニューラルネットワークの訓練を改善するためにラベルなし画像から利用される。
【0009】
文書「Unsupervised geometry-aware representation for 3d human pose estimation」(Rhodin,H.,Salzmann,M.,Fua,P.、 Proceedings of the European Conference on Computer Vision (ECCV).pp.750-767(2018))は、自己符号化器が、マルチカメラ構成で第1の視点からの画像を別の視点を有する画像へ変換することを学習するために使用される教師なし方法を開示する。このソリューションは、各カメラペアの間の回転の知識を必要とすることから、芳しくない。
【0010】
画像上に見える物体の視点を自動的に決定することができるニューラルネットワークを獲得するためのより効率的な方法が必要とされている。
【発明の概要】
【0011】
本開示は、画像がニューラルネットワークに入力されるとき、画像上に見える所与の物体の視点を伝達するようにニューラルネットワークを訓練するための方法であって、
画像を入力として受信し、符号化画像を伝達するように構成されるエンコーダニューラルネットワークを提供することと、
エンコーダニューラルネットワークによって伝達される符号化画像と同じ次元を有する符号化画像を受信するように構成され、また復号画像(すなわち、画像)を出力するように構成されるデコーダニューラルネットワークを提供することと、
各画像のための、画像上に見える所与のカテゴリに属する物体の視点(すなわち、グラウンドトゥルース)を有する訓練画像の第1のセットを提供することと、
訓練画像ペアの第2のセットを提供することと、を含み、訓練画像ペアの第2のセットの各ペアが、
所与のカテゴリ(物体のカテゴリ、例えば、自動車、歩行者など)に属する物体が見える第1の画像、
第1の画像の物体が、第1の画像内の視点とは異なる視点で見える第2の画像を含み、
ニューラルネットワークを訓練することは、
訓練画像の第1のセットの各訓練画像について、この訓練画像の視点での、訓練画像がニューラルネットワークに入力されるときのニューラルネットワークの出力と、
訓練画像ペアの第2のセットの各ペアについて、
このペアの第1の画像が、エンコーダニューラルネットワークに入力されて、符号化画像を獲得するとき、
このペアの第2の画像が、ニューラルネットワークに入力されて、視点を獲得するとき、
符号化画像が、この視点に対応する回転により回転されて、回転された符号化画像を獲得するとき、
回転された符号化画像が、デコーダニューラルネットワークに入力されて、デコーダニューラルネットワークの出力を獲得するとき、
デコーダニューラルネットワークの出力による訓練画像ペアの第2のセットの各ペアの第2の画像と、
の距離を最小限にすることによって、ニューラルネットワークのパラメータ、エンコーダニューラルネットワークのパラメータ、及びデコーダニューラルネットワークのパラメータを適合させることを含む、方法を提案することによって、先行技術の1つ又は複数の欠陥を克服する。
【0012】
本方法は、例えば、訓練を自動的に実施するために、コンピューティングシステムに実装され得る。
本説明において、視点は、物体が見える画像を取得するために使用されるカメラに対する視点を意味する。
ニューラルネットワークを訓練することは、反復的に、例えば、距離の各計算の後、又は所与の数の距離の計算の後、実施され得、確率的勾配降下法、又は任意の他の好適な訓練アルゴリズムもしくは確率的勾配降下法の変異形が使用され得る。確率的勾配降下法は、ニューラルネットワーク、エンコーダニューラルネットワーク、及びデコーダニューラルネットワークのパラメータを、本質的に知られている様式で適合させるために使用され得る。これらのパラメータは、例えば、これらのニューラルネットワークの重みである。距離を最小限にすることは、最小限にされるべき損失を計算すること、ならびに、例えば、デコーダニューラルネットワーク、ニューラルネットワーク、及びエンコーダニューラルネットワークを通じてこの損失を逆伝搬することを含む。
【0013】
当業者は、ニューラルネットワークの構造、エンコーダニューラルネットワークの構造、及びデコーダニューラルネットワークの構造をどのように選択するかを知っているということに留意されたい。例えば、ニューラルネットワークは、深さ3(それがRGB画像を受信する場合)を有する入力として所与の解像度を有する画像を受信することができなければならず、またそれは、視点(方位、高さ、面内回転)を表すために少なくとも3つの数字を出力しなければならず、これは、このニューラルネットワークの第1の層のため及び最終層のための所与の数のニューロンに対応する。
【0014】
また、例えば、エンコーダニューラルネットワークは、深さ3(それがRGB画像を受信する場合)を有する入力として所与の解像度を有する画像を受信することができなければならない。それはまた、回転され得る符号化画像を出力することができなければならず、これは、エンコーダニューラルネットワークの第1の層のため及びエンコーダニューラルネットワークの最終層のための所与の数のニューロンに対応する。この符号化画像の次元は、校正ステップにおいて見ることができる。結果的に、デコーダニューラルネットワークの第1の層は、それが符号化画像を受信することができるため、エンコーダニューラルネットワークの最後の層と同じ数のニューロンを有し、デコーダニューラルネットワークの最終層は、それが画像を出力することができるため、エンコーダニューラルネットワークの第1の層と同じ数のニューロンを有する。
【0015】
エンコーダニューラルネットワーク及びデコーダニューラルネットワークは、当業者によく知られている表現を使用して、自己符号化器を形成するということに留意されたい。
【0016】
当業者はまた、2つの画像の間の距離、例えば、デコーダニューラルネットワークの出力と第2の画像との間の距離、又は、ニューラルネットワークの出力と第1のセット内の対応する視点との間の距離をどのように決定するかを知っているものとする。
【0017】
上記方法において、一対の画像の2つの画像の間の回転を知っている必要はなく、適用されるべき回転は、第2の画像の視点からのみ獲得される。実際、エンコーダニューラルネットワークは、全体的/標準的な視点と関連付けられる符号化画像を産出し得、第2の画像から獲得される回転を適用することは、第2の画像に近い復号画像をもたらすことになる回転された符号化画像を獲得するために、また視点の観点においても、十分であるということが本発明者らによって観察されている。この挙動は、訓練の結果である。
【0018】
また、上記方法は、所与のカテゴリからの物体、又は複数のカテゴリからの物体の視点を自動的に決定することが可能であり得る。好ましくは、上記方法で使用される画像は、画像ごとに、この複数のカテゴリの1つの物体のみを示す。
【0019】
特定の実施形態によると、画像上に見える物体の視点は、物体に対して中心が置かれる基準で表現され、画像を取得するために使用される画像取得装置の方へ配向される(3D)ベクトルを規定する3つの値を含む。
【0020】
この基準は、物体のカテゴリに従って整列され得る。例えば、自動車の場合、基準は、自動車の中心付近に中心が置かれ得、第1の軸は、自動車の前から後ろに延び得、第2の軸はある側面から別の側面へ、第3の軸は他の2つに対して垂直及び直角である。異なるカテゴリは、異なる基準を有し得る。
【0021】
また、このベクトルは、視点(すなわち、方位、高さ、及び面内回転を規定する3つの要素に対応する。
これらの3つの値から、後で符号化画像に適用され得る回転行列を単純な様式で推測することが可能である。
例えば、四元数など、視点の代替的表現が使用され得る。
【0022】
特定の実施形態によると、符号化画像は、画像の解像度よりも低い解像度を有するベクトルである。
エンコーダニューラルネットワークの出力としてベクトルを獲得することは、エンコーダニューラルネットワークの最後の層として全結合層を有することによって行われ得る。
例えば、ベクトルの解像度は、その深さであり、画像の解像度は、その幅にその高さを乗じて3を乗じたものである(RGB画像)。ベクトルのより低い解像度が、画像からの全体的な情報のより優れた符号化をもたらすことが観察されている。
【0023】
特定の実施形態によると、符号化画像の解像度は、3の倍数である。
例えば、ベクトルの深さは、3×kで表現され得、kは整数である。
この特定の実施形態は、ニューラルネットワークによって出力される視点から獲得される回転行列による符号化画像の乗算を促進する。
【0024】
特定の実施形態によると、ニューラルネットワークを訓練することは、以下の損失関数を使用して実施され、
【数1】
式中、
Lは、損失であり、
Tは、訓練画像の第1のセットであり、
Uは、訓練画像のペアの第2のセットであり、
Iは、訓練画像の第2のセットの訓練画像のペアの第1の画像、又は第1の訓練セットの画像であり、
I´は、訓練画像のペアの第2の画像であり、
f
v、f
e、及びf
dは、それぞれ、ニューラルネットワーク、エンコーダニューラルネットワーク、及びデコーダニューラルネットワークであり、
θ
v、θ
e、及びθ
dは、それぞれ、f
v、f
e、及びf
dのパラメータであり、
vは、画像Iの視点であり、
R(x)は、視点xと関連付けられた回転を決定する関数であり、
λは、訓練のハイパーパラメータである。
Tが、異なる視点の下で同じ物体の画像のペアを含む場合、Tからの画像は、訓練を実施するために第2の和においても使用され得るということに留意されたい。
また、この訓練は、無作為に選択されるT及びUからの画像のバッチを処理することによって実施され得る。画像の各バッチについて、2つの和が、上の式に基づいて確率勾配法などの方法を実施する前に計算される。
例として、各バッチは、64の個々の画像を含む。
【0025】
特定の実施形態によると、距離(すなわち、||x||)は、知覚損失を使用して計算される。
知覚損失を使用することは、高品質再構築(すなわち、デコーダニューラルネットワークの動作)を提供するために本発明者らによって観察された。高品質とは、デコーダニューラルネットワークから獲得される画像がぼやけていないことを意味し、ぼやけは、他の距離(例えば、L1又はL2ノルム)を使用するときに発生し得る。
【0026】
特定の実施形態によると、ニューラルネットワーク、及び/又はエンコーダニューラルネットワーク、及び/又はデコーダニューラルネットワークは、畳み込みニューラルネットワークである。
本発明はまた、上に規定されるような方法によって訓練されるニューラルネットワークを提供する。
このニューラルネットワークは、記録媒体に格納され得る。
【0027】
本発明はまた、画像がニューラルネットワークに入力されるとき、画像上に見える所与の物体の視点を伝達するようにニューラルネットワークを訓練するためのシステムであって、
画像を入力として受信し、符号化画像を伝達するように構成されるエンコーダニューラルネットワークと、
エンコーダニューラルネットワークによって伝達される符号化画像と同じ次元を有する符号化画像を受信するように構成され、また復号画像を出力するように構成されるデコーダニューラルネットワークと、
各画像のための、画像上に見える所与のカテゴリに属する物体の視点を有する訓練画像の第1のセットと、
訓練画像ペアの第2のセットであって、訓練画像ペアの第2のセットの各ペアが、
所与のカテゴリに属する物体が見える第1の画像、
第1の画像の物体が、第1の画像内の視点とは異なる視点で見える第2の画像を含む、訓練画像ペアの第2のセットと、
訓練モジュールであって、
訓練画像の第1のセットの各訓練画像について、この訓練画像の視点での、訓練画像がニューラルネットワークに入力されるときのニューラルネットワークの出力と、
訓練画像ペアの第2のセットの各ペアについて、
このペアの第1の画像が、エンコーダニューラルネットワークに入力されて、符号化画像を獲得するとき、
このペアの第2の画像が、ニューラルネットワークに入力されて、視点を獲得するとき、
符号化画像が、この視点に対応する回転により回転されて、回転された符号化画像を獲得するとき、
回転された符号化画像が、デコーダニューラルネットワークに入力されて、デコーダニューラルネットワークの出力を獲得するとき、
デコーダニューラルネットワークの出力による訓練画像ペアの第2のセットの各ペアの第2の画像と、
の距離を最小限にすることによって、ニューラルネットワークのパラメータ、エンコーダニューラルネットワークのパラメータ、及びデコーダニューラルネットワークのパラメータを適合させるように構成される訓練モジュールと、を含む、システムが提供される。
【0028】
このシステムは、上に規定された方法の実施形態のうちのいずれか1つを実施するように構成され得る。
本発明はまた、ニューラルネットワークを含むシステムを提供する。
本発明はまた、上に規定されるようなシステムを含む車両を提供する。
【0029】
1つの特定の実施形態において、本方法のステップは、コンピュータプログラム命令によって決定される。
結果として、本発明はまた、コンピュータプログラムであって、このプログラムがコンピュータによって実行されるとき、上に説明されるような方法のステップを実行するためのコンピュータプログラムに向けられる。
このプログラムは、任意のプログラミング言語を使用し、ソースコード、オブジェクトコード、又はソースコードとオブジェクトコードとの間のソース中間物の形式、例えば、部分的にコンパイルされた形式、又は任意の他の望ましい形式をとり得る。
本発明はまた、上に説明されるようなコンピュータプログラムの命令を含むコンピュータ可読情報媒体に向けられる。
情報媒体は、プログラムを格納することができる任意のエンティティ又はデバイスであり得る。例えば、媒体は、ROM、例えば、CD ROMもしくは超小形電子回路ROMなどの記憶手段、又は磁気記憶手段、例えば、ディスク(フロッピー(登録商標)ディスク)もしくはハードディスクを含み得る。
代替的に、情報媒体は、プログラムが組み込まれる集積回路であり得、この回路は、問題となっている方法を実行するように、又はその実行において使用されるように適合される。
【図面の簡単な説明】
【0030】
本開示がどのように具体化され得るかは、これより添付の図面を参照して例により説明されるものとする。
【
図1】カメラによって観察される物体の視点の概略図である。
【
図2】訓練中に使用され得るニューラルネットワークの構造の概略図である。
【発明を実施するための形態】
【0031】
画像上に見える所与の物体の視点を伝達するようにニューラルネットワークを訓練するための例示的な方法がこれより説明される。
【0032】
物体の視点は、カメラに対する物体の方位角、物体の高さ、及び物体の面内回転の組み合わせとして規定される。
【0033】
図1では、物体OBJ(ここでは自動車)が、カメラCAMによって観察される場面内に表されている(すなわち、物体は、カメラCAMによって取得される画像内に見える)。カメラによって見られる物体の視点は、異なる様式で、例えば、軸-角度表現、単位四元数、または回転行列を使用して、表現され得る。本説明において、視点(方位、高さ、及び面内回転)は、3つの値のベクトルvを使用して表現され、この3つの値は、物体OBJに対して置かれる基準の原点で開始し、カメラCAMの方へ配向されるこのベクトルの座標である。図では、この基準は、物体の中心OCに置かれ、3つの座標は、a
1、a
2、及びa
3である。
【0034】
好ましくは、ベクトルvは、1のノルムを有する(3つの座標は、これ以降に説明されるように、これが回転を表現するのを促進するため、半径1の球上の点を規定する。
【0035】
また、基準は、同じカテゴリ(例えば、自動車)を有するすべての物体について、物体の所与の配向と関連付けられる。
【0036】
本発明の方法は、ニューラルネットワークが3つの値a1、a2、及びa3を出力することができるようにニューラルネットワークを訓練することに関する。
【0037】
当業者によって考えられ得るように、この訓練は、物体のカテゴリに向けられる。例えば、ニューラルネットワークは、自動車が画像上に見えるときに自動車の視点を伝達するように訓練される。しかしながら、本発明は、自動車の視点の検出に限定されず、他の物体、好ましくは、道路上で観察され得る物体にも関係し得る。
【0038】
図2は、訓練中に使用され得るニューラルネットワークの構造、及び訓練されることになるニューラルネットワークの構造の概略図である。
【0039】
図では、参照記号NNは、訓練されるべきニューラルネットワーク(簡便性の目的のため本説明では「ニューラルネットワーク」とも呼ばれる)を指定する。ニューラルネットワークNNは、例証された例では、3×3畳み込みを使用することができる、複数の層を有する畳み込みニューラルネットワークである。例として、バッチ正規化層及び活性化関数もまた、当該技術分野における標準慣行に従って使用され得る。実際、当業者は、画像がこのニューラルネットワークに入力されるとき(3に等しい深さを有するベクトルの行列(RGB))視点(3つの値のベクトル)を伝達するというタスクに好適なニューラルネットワークをどのように設計するかを知っている。
【0040】
図では、入力画像は、これ以降により明白になる理由のため、I´と指定される。視点は、vと指定される。
【0041】
【数2】
と規定される、カメラに対するグラウンドトゥルース視点を伴ったm個のラベル付けした画像の所与のセットでは、式中、I
iは、Iに属するRGB画像であり、v
i=(a
1,a
2,a
3)∈Vは、各画像上に見える物体のグラウンドトゥルース視点の3次元ベクトルである。ニューラルネットワークNNは、f
v(I;θ
v)=vであるように関数f
v:I→Vを実施し、式中、θ
vは、f
vのパラメータである。当該技術分野において知られている様式では、以下の和を最小限にすることによってこのニューラルネットワークを訓練することが可能である。
【数3】
この訓練は、例えば、確率的勾配降下法を実施することによって、θ
vを適合させることを含む。
この訓練はしばしば、教師あり訓練と指定されるということに留意されたい。
【0042】
本方法において、追加の画像が、ニューラルネットワークを訓練するために使用される。Tは、訓練画像の第1のセットであり、訓練画像の第2のセットUも提供される。第2のセットの画像はラベルなしであり得、これは、このセットの画像上に見える物体の視点の先験的知識がないことを意味する。
第2のセットは、訓練画像ペアを含み、各ペアが、
所与のカテゴリに属する物体が見える第1の画像、及び
第1の画像の物体が、第1の画像内の視点とは異なる視点で見える第2の画像を含む。
故に、第2のセットUは、
【数4】
と指定され、各ペアは、異なる視点で捕捉された、同じ物体、例えば、同じ自動車又は飛行機の画像を含む。
第2のセットUを使用してニューラルネットワークNNを訓練するために、エンコーダニューラルネットワークENNが提供される。このエンコーダニューラルネットワークは、画像(図ではI)を入力として受信し、出力として符号化画像(図ではEI)を伝達するように構成される。
【0043】
例えば、エンコーダニューラルネットワークは、5つのブロックを含む畳み込みニューラルネットワークであり、各ブロックが、2つの畳み込み層を含み、第2の畳み込み層が、空間次元を減少させるためにストライドを使用する。畳み込みは、32で開始し、全ブロックを二重にするチャネル深さを有する3×3畳み込みである。エンコーダニューラルネットワークのこれらの5つのブロックは、全結合層にさらに接続される。
【0044】
全結合層が使用されることから、エンコーダニューラルネットワークの出力は、ベクトルである。好ましくは、このベクトルの深さは、解像度画像I(RGBでは画像高さ×画像幅×3)よりも低い。また、このベクトルの解像度は、好ましくは、その後の回転を促進するために、3の倍数である。
【0045】
図では、エンコーダニューラルネットワークENNは、一対の画像から画像Iを受信し、符号化画像EIを出力する。エンコーダニューラルネットワークENNの動作は、fe(I;θe)と書かれ、θeは、訓練中に適合されるエンコーダニューラルネットワークENNのパラメータである。
【0046】
また、エンコーダニューラルネットワークENNによって出力される符号化画像と同じ次元を有する入力として符号化画像を受信するように構成され、またエンコーダニューラルネットワークENNに入力される画像と同じ次元を有する画像を出力するように構成されるデコーダニューラルネットワークDNNが提供される。
図では、デコーダニューラルネットワークDNNは、回転された符号化画像REIを受信し、I´と指定される画像を出力し、この回転はこれ以降に説明されるものとする。
【0047】
デコーダニューラルネットワークの構造は、デコーダニューラルネットワークの構造の左右逆バージョンである。
【0048】
エンコーダニューラルネットワーク及びデコーダニューラルネットワークは、自己符号化器を形成するようである。
【0049】
デコーダニューラルネットワークの動作は、例えば、自己符号化器動作で使用される場合、fd(fe(I;θe);θd)と書かれ、θdは、訓練中に適合されるデコーダニューラルネットワークENNのパラメータである。
【0050】
元の画像に対応する符号化画像から復号画像を獲得することが可能であるが、視点に関する情報は、符号化画像内では明白に使用可能でない場合がある。代わりに、本方法は、従来の画像生成技法に関与する。
【0051】
本方法において、異なる視点の下で同じ物体を示す画像の所与のペア
【数5】
について、ペアのうちの第2の画像I´上に見える物体の視点は、回転された画像をデコーダニューラルネットワークに入力する前に、このペアの第1の画像Iから獲得される符号化画像に適用されるべき回転ROTを推測するために使用される。結果として、デコーダニューラルネットワークによって伝達される画像は、第2の画像I´に対応しなければならず、又は少なくとも、I´とデコーダニューラルネットワークの出力との間の距離を最小限にすることが訓練の目標である。故に、図では、参照記号I´は、デコーダニューラルネットワークの出力を指定するためにも使用される。
【0052】
画像I´の視点が未知である(すなわち、I´がラベルなし画像である)場合、この視点を決定することは、ニューラルネットワークNNを使用して行われ得る。ニューラルネットワークは、視点vを出力し、この視点vから回転行列が推測され得、符号化画像EIを回転された符号化画像REIへと回転する回転動作ROTを実施し得る。回転行列と、3の倍数である解像度を有するベクトル/符号化画像EIとの乗算。
【0053】
例として、vの視点からこの回転行列を推測することは、当業者によく知られている「ルックアット」変換を使用して実施され得る。例えば、この変換は、ライブラリOpenGLで、そのバージョン2.1において使用される。この変換の動作の説明は、2020年8月時点で、URL:https://www.khronos.org/registry/OpenGL-Refpages/gl2.1/xhtml/gluLookAt.xmlに存在する。このURLで説明される例では、「目(eye)」が視点と等しく、「中心(center)」は(0,0,0)に、及び「上(up)」は(0,0,1)に設定される。
【0054】
この特徴は、I´のグラウンドトゥルースの欠如に対処し、デコーダ由来の勾配がニューラルネットワークNNへ逆伝搬されることを可能にすることによって、エンコーダ/デコーダニューラルネットワークの学習をラベルなし画像にまで拡張する。したがって、図では、I´は、ニューラルネットワークNNの入力及びデコーダニューラルネットワークDNNの出力の両方を指定するために使用される。
ニューラルネットワークNNの上記使用は、教師なし訓練と指定され得る訓練をもたらす。
【0055】
視点を獲得するためにニューラルネットワークNNを使用することは、ニューラルネットワークNNが訓練され、正確である場合にのみ、関連性があると考えられ得る。ニューラルネットワークNNをより良好に訓練するように、ラベル付けした画像及びラベルなし画像を訓練中に相乗的に使用するために、単一の損失関数において、ラベルなし画像Uと関連付けられた損失及びラベル付けした画像Tと関連付けられた損失を組み合わせることが提案される。故に、本方法は、教師あり訓練及び教師なし訓練を組み合わせる。
【0056】
本方法において、ニューラルネットワークNNを訓練することは、
訓練画像の第1のセットTの各訓練画像について、この訓練画像の視点での、訓練画像が前記ニューラルネットワークに入力されるときのニューラルネットワークの出力と、
訓練画像ペアの第2のセットUの各ペアについて、
このペアの第1の画像Iが、エンコーダニューラルネットワークENNに入力されて、符号化画像EIを獲得するとき、
このペアの第2の画像I´が、ニューラルネットワークNNに入力されて、視点vを獲得するとき、
符号化画像EIIが、この視点に対応する回転ROTにより回転されて、回転された符号化画像REIを獲得するとき、
回転された符号化画像REIが、デコーダニューラルネットワークに入力されて、デコーダニューラルネットワークの出力を獲得するとき、
デコーダニューラルネットワークの出力による訓練画像ペアの第2のセットの各ペアの第2の画像と、
の距離を最小限にすることによって、ニューラルネットワークのパラメータ、エンコーダニューラルネットワークのパラメータ、及びデコーダニューラルネットワークのパラメータ(それぞれ、θv、θe、θd)を適合させることを含む。
【0057】
言い換えると、以下の損失関数Lが使用される。
【数6】
上の等式において、λは、校正ステップ中に設定される値を有するハイパーパラメータである。このハイパーパラメータは、教師なし訓練と教師あり訓練との間のトレードオフを示す。
【0058】
上の式は、T及びUの全てを使用することに向けられるが、訓練は、反復的に実施され得、各反復が、T及びUから所与の数の個々の画像(例えば、64)を選択して、逆伝搬に使用されるべき損失を計算するために(例えば、確率勾配法又は別の方法を使用して)上記2つの和にそれらを使用することを含む。
こうしてバッチ訓練が実施される。
【0059】
図3は、
図2に関連して説明される方法を実施するように構成されるシステム100の概略図である。
【0060】
このシステムは、プロセッサ101及び不揮発性メモリ102を含む。したがって、システム100は、コンピュータシステム構造を有する。
【0061】
不揮発性メモリ102には、ニューラルネットワークNN、エンコーダニューラルネットワークENN、及びデコーダニューラルネットワークDNNが格納される。
【0062】
加えて、第1のセットT及び第2のセットUが不揮発性メモリ102に格納される。
訓練モジュールTRもまた、不揮発性メモリ102に格納され、このモジュールは、プロセッサ101によって実行されるとき、訓練を実施し、重みθv、θe、及びθdを適合させる、コンピュータプログラム命令で構成され得る。
【0063】
図4は、車両200、ここでは自動車の概略図であり、車両のカメラ202によって取得される画像上に見える物体の視点を決定するためのシステム201を備える。
【0064】
システム201は、プロセッサ203、及び、ニューラルネットワークNNが、
図2を参照して説明される訓練が実施された後に格納される不揮発性メモリ204を含む。
【0065】
上で説明された訓練は、訓練画像のラベル付けされたセットを使用して単に訓練される(教師あり訓練)ニューラルネットワークよりも、視点を検出することにおいて、より良好に実施することが観察されているニューラルネットワークを獲得することを可能にする。特に、正確性の様々な増加が、訓練のために使用するラベル付けしたデータセットの一部分を使用して獲得され得ることが観察されている。
【外国語明細書】