(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-24
(45)【発行日】2024-05-07
(54)【発明の名称】将来予測のための混合分布推定
(51)【国際特許分類】
G06N 3/04 20230101AFI20240425BHJP
G06T 7/00 20170101ALI20240425BHJP
【FI】
G06N3/04
G06T7/00 350C
(21)【出願番号】P 2021571587
(86)(22)【出願日】2020-05-29
(86)【国際出願番号】 EP2020065089
(87)【国際公開番号】W WO2020245066
(87)【国際公開日】2020-12-10
【審査請求日】2023-02-21
(32)【優先日】2019-06-03
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】517217922
【氏名又は名称】イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ
(74)【代理人】
【識別番号】110002848
【氏名又は名称】弁理士法人NIP&SBPJ国際特許事務所
(72)【発明者】
【氏名】ブロックス, トマス
(72)【発明者】
【氏名】マカンシ, オサマ
(72)【発明者】
【氏名】チチェク, オズゲン
(72)【発明者】
【氏名】イルク, エディ
【審査官】武田 広太郎
(56)【参考文献】
【文献】米国特許出願公開第2019/0049970(US,A1)
【文献】特開2007-011490(JP,A)
【文献】特表2019-502212(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/04
G06T 7/00
G06N 3/0464
G06N 3/0495
(57)【特許請求の範囲】
【請求項1】
運転環境におけるマルチモーダルな将来予測の混合分布推定のためのコンピュータ実装方法であって、
-運転環境の画像のセット、少なくとも1つの関心のあるオブジェクトを含む各画像、および前記関心のあるオブジェクトに対応する将来のグラウンドトゥルースのセットを入力するステップ、
-以下によって進化する勝者独り占めの損失戦略を用いて前記少なくとも1つの関心のあるオブジェクトの前記マルチモーダルな将来の解空間をサンプリングするステップであって、
○所定の数の仮説を生成し、
○すべての仮説に等しくペナルティを課し、
○最も近い仮説である最良の仮説のみにペナルティが課せられるまで、前記対応するグラウンドトゥルースに近い前記仮説、いわゆる勝利仮説の他の部分のみにペナルティを課すことにより、前記仮説の一部を徐々にリリースし、
○前記進化する勝者独り占めの戦略の完了後に最終仮説を出力する、サンプリングするステップ、
-定義された数の混合成分への各仮説のソフト割り当てを計算することにより、将来予測のマルチモーダルな混合分布を前記最終仮説に順次フィッティングするステップを含む、畳み込みニューラルネットワークのトレーニングフェーズを含む、コンピュータ実装方法。
【請求項2】
前記画像のセットは、シーケンス内の前記少なくとも1つの関心のあるオブジェクトを区切るバイナリマスクの対応するシーケンスとともに、過去のタイムスタンプに対応する運転環境の画像の前記シーケンスである、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記入力された将来のグラウンドトゥルースのセットは、前記関心のあるオブジェクトの前記将来の場所を含み、前記サンプリングするステップは、前記少なくとも1つの関心のあるオブジェクトの将来の場所の前記解空間をサンプリングし、前記フィッティングするステップは、マルチモーダルな将来のオブジェクトの場所の混合分布にフィッティングする、請求項1または2に記載のコンピュータ実装方法。
【請求項4】
前記ペナルティを課すステップのうち最初のペナルティを課すステップは、すべての仮説が前記将来のグラウンドトゥルースに等しく引っ張られるので、すべての仮説を平衡状態に移行させ、次の前記リリースするステップおよび前記ペナルティを課すステップは、前記仮説の増加する部分を徐々にリリースし、一方で、1つの勝利仮説だけにペナルティを課すまで残りの勝利仮説に徐々にペナルティを課すことからなり、結果的に、前記勝利仮説は徐々に前記グラウンドトゥルースに向かって移行する、請求項1~3のいずれか一項に記載のコンピュータ実装方法。
【請求項5】
前記畳み込みニューラルネットワークは、前記サンプリングするステップのためのサンプリングネットワークと、後続の前記フィッティングするステップのためのフィッティングネットワークとを含む、請求項1~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記サンプリングネットワークは、エンコーダネットワークと、後続の2つの追加の畳み込み層とで構成されている、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記フィッティングネットワークは、2つの完全に接続された層から構成されている、請求項5または6に記載のコンピュータ実装方法。
【請求項8】
前記トレーニングフェーズは、
-前記進化する勝者独り占めの損失戦略を使用して前記サンプリングネットワークをトレーニングすることと、
前記サンプリングネットワークを固定に維持したまま、負の対数尤度損失関数を使用して前記フィッティングネットワークをトレーニングすることと、
前記進化する勝者独り占めの損失を除去し、前記負の対数尤度損失関数を使用してサンプリングネットワークとフィッティングネットワークの両方をエンドツーエンドでトレーニングすることとからなる、請求項5~7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
請求項1~8のいずれか一項に記載の前記トレーニングフェーズ方法に従ってトレーニングされた前記畳み込みニューラルネットワークの動作フェーズを含む運転環境におけるマルチモーダルな将来予測の混合分布推定のためのコンピュータ実装方法であって、前記動作フェーズは、
-過去のタイムスタンプに対応する運転環境の画像のシーケンスを、前記シーケンス内の少なくとも1つの関心のあるオブジェクトを区切るバイナリマスクの対応するシーケンスとともに受信するステップ、
-前記少なくとも1つの関心のあるオブジェクトのマルチモーダルな将来予測の混合分布を推定するステップを含む、コンピュータ実装方法。
【請求項10】
車両の環境における複数のマルチモーダルな将来予測のためのコンピュータ実装方法であって、
-現在および過去のタイムスタンプに対応する、車両の環境の複数のモダリティからの1つまたは複数のビデオフレーム、いわゆるマルチモダリティビデオフレームを受信するステップ、
-時空間符号化畳み込みニューラルネットワーク(E)によって前記マルチモダリティビデオフレームを潜在表現に符号化するステップ、
-所望の将来の時間範囲でのタイムスタンプに対応する符号化された条件付けパラメータを用いて前記潜在表現を複合表現(Z)に結合するステップ、
-請求項1~8に記載の方法に従って事前にトレーニングされた畳み込みニューラルネットワーク(G)によって、尤度係数に関連付けられたマルチモーダルな将来の解空間の複数の将来モードに対応する複数の将来のマルチモダリティビデオフレームを予測するステップであって、予測された各将来モードは、
○前記複合表現(Z)を復号し、前記所望の時間範囲での前記タイムスタンプに対応する前記車両の環境の1つまたは複数の将来のマルチモダリティビデオフレームを生成するステップ、および
○前記マルチモーダルな将来の解空間で予測される各将来モードに尤度係数を関連付けるステップから結果的に得られる、予測するステップを含む、動作フェーズを含む、コンピュータ実装方法。
【請求項11】
人間の運転者が車両を運転するのを支援するため、または先進運転支援システムを支援するため、または自動運転システムを支援するためのコンピュータ実装方法であって、前記方法は、
-前記車両の運転中に、車両の環境を一連のビデオフレームに捉えるステップ、
-前記捉えた一連のビデオフレームから1つまたは複数のマルチモダリティビデオフレームを取得するステップ、
-前記マルチモダリティビデオを、請求項9または10に記載の前記コンピュータ実装方法に供給するステップ、
-マルチモーダルな将来の解空間の複数の予測された将来モードを、それらの尤度係数の指示とともに運転者の注意を引くために表示するステップ、または
-前記先進運転支援システムに、それらの尤度係数に関連付けられた前記マルチモーダルな将来の解空間の複数の予測された将来モードを提供するステップ、または
-前記自動運転システムに、それらの尤度係数に関連付けられたマルチモーダルな将来の解空間の前記複数の予測された将来モードを提供するステップを含む、コンピュータ実装方法。
【請求項12】
-現在および過去のタイムスタンプに対応する、車両の環境の1つまたは複数のマルチモダリティビデオフレームを受信し、
-時空間符号化畳み込みニューラルネットワーク(E)によって前記1つまたは複数のマルチモダリティビデオフレームを潜在表現に符号化し、
-所望の将来の時間範囲でのタイムスタンプに対応する符号化された条件付けパラメータを用いて前記潜在表現を複合表現(Z)に結合し、
-請求項1~8のいずれか一項に記載の方法に従って事前にトレーニングされた畳み込みニューラルネットワーク(G)によって、尤度係数に関連付けられたマルチモーダルな将来の解空間の複数の将来のモードに対応する複数の将来のマルチモダリティビデオフレームを予測し、予測された各将来のモードが、
○前記複合表現(Z)を復号し、前記所望の時間範囲でのタイムスタンプに対応する前記車両の環境の1つまたは複数の将来のマルチモダリティビデオフレームを生成し、
○前記マルチモーダルな将来の解空間で予測される各将来モードに尤度係数を関連付けるように構成された手順から生じるように構成された、1つまたは複数のコンピューティングデバイスを含むシステム。
【請求項13】
畳み込みニューラルネットワークのトレーニングフェーズを含むマルチモーダルな解推定のための混合分布推定のためのコンピュータ実装方法であって、
-データのセットと、前記データのセットに関連付けられたグラウンドトゥルース解のセットとを入力するステップ、
-以下によって進化する勝者独り占めの損失戦略を用いて
前記混合分布推定のための解空間をサンプリングするステップであって、
○所定の数の仮説を生成し、
○すべての仮説に均等にペナルティを課し、
○最も近い仮説である最良の仮説のみがペナルティを課されるまで、前記対応するグラウンドトゥルース解に近い前記仮説、いわゆる勝利仮説の他の部分のみにペナルティを課すことにより、前記仮説の一部を徐々にリリースし、
○前記進化する勝者独り占めの戦略の完了後に最終仮説を出力する、サンプリングするステップ、
-定義された数の混合成分への各仮説のソフト割り当てを計算することにより、前記マルチモーダルな解空間の混合分布モデルを前記最終仮説に順次フィッティングさせるステップを含む、コンピュータ実装方法。
【請求項14】
前記ペナルティを課すステップのうち最初のペナルティを課すステップは、すべての仮説がすべてのグラウンドトゥルースに等しく引っ張られるので、結果的にすべての仮説を平衡状態に移行させ、次のリリースするステップおよびペナルティを課すステップは、前記仮説の増加する部分を徐々にリリースし、一方で、1つの勝利仮説のみにペナルティを課すまで、残りの勝利仮説に徐々にペナルティを課すことからなり、結果的に、前記勝利仮説は徐々に前記グラウンドトゥルースに向かって移行する、請求項13に記載のコンピュータ実装方法。
【請求項15】
請求項13または14に記載の前記トレーニングフェーズ方法に従ってトレーニングされた前記畳み込みニューラルネットワークの動作フェーズを含むマルチモーダルな解推定のための混合分布推定のためのコンピュータ実装方法であって、前記動作フェーズは、
-データのセットと、前記データのセットに関連付けられたグラウンドトゥルース解のセットとを受信するステップ、
-前記マルチモーダルな解空間の混合分布モデルを推定するステップを含む、コンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マルチモーダルな将来予測の混合分布推定のためのコンピュータ実装方法、および車両の環境の複数の将来を予測および/または予想するための方法に関する。
【0002】
このような方法は、カメラ、レーダー、センサ、および他の同様のデバイスを使用して周囲を認識および解釈するために、人間の運転者、先進運転支援システム、または自動車両を支援する分野で特に役立つ。
【背景技術】
【0003】
将来を予測するためのコンピュータ実装方法は、行動を計画し、起こりうる危険を回避するのに役立つ。将来はかなり不確実であるため、将来の状態の不確実性とマルチモダリティをモデル化することは非常に重要である。既存のアプローチはこの点でかなり制限されており、ほとんどの場合、将来の単一の仮説、またはせいぜい、トレーニングの不安定性とモード崩壊に悩まされる強く制約された混合成分をもたらす。
【0004】
より具体的には、将来の予測に関する既存の研究は、ほとんどの場合、単一の将来の状態を予測するように制限されており、これは、多くの場合、すべての可能な結果の平均に対応する。最良の場合、そのようなシステムは、他の尤度を無視して、すべての可能な将来の状態の中で最も可能性が高いものを予測する。環境がほぼ決定論的である限り、後者は実行可能な解決策である。しかしながら、非決定論的な環境で他の尤度をモデル化することはできず、アクターがプランBを検討するのを妨げる。
【0005】
深層学習の尤度は、畳み込みニューラルネットワーク(CNN)を使用した将来の予測への関心を高めている。将来の予測は不確実であるため、多くの研究は予測とともに不確実性を予測することを目標としている。Djuricらによる「Motion prediction of traffic actors for autonomous driving using deep convolutional networks」というタイトルの出版物は、予測の学習された分散として、トラフィックアクターの単一の将来の軌道とそれらの不確実性を予測する。Radwanらによる「Multimodal interaction-aware motion prediction for autonomous street crossing」というタイトルの出版物は、相互作用するアクターの単一の軌道を、自動的な街路横断を目的としたそれらの不確実性とともに予測する。Ehrhardtらによる「Learning a physical long-term predictor」というタイトルの出版物は、オブジェクトの将来の位置を、理論的には単一モードに制限されないそれらのノンパラメトリックな不確実性マップとともに予測する。しかしながら、それは単一の将来の結果のために使用および評価された。将来の状態の固有のあいまいさとマルチモダリティにもかかわらず、上記のすべてのアプローチは単一の将来のみを予測する。
【0006】
いくつかの研究は、CNNを使用してマルチモーダルな予測を取得する方法を提案した。Guzman-Riveraらによる「Multiple choice learning:Learning to produce multiple structured outputs」というタイトルの出版物は、出力として複数の仮説を用いる構造化サポートベクターマシンの勝者独り占め(WTA)の損失を紹介している。
【発明の概要】
【発明が解決しようとする課題】
【0007】
Rupprechtらによる「Learning in an uncertain world:Representing ambiguity through multiple hypotheses」というタイトルの出版物では、著者は、勝者独り占め(WTA)の損失の緩和バージョンを用いて多様な仮説を予測することにより、マルチモダリティに取り組んでいるが、分布はなく、不確実性はない。彼らは、緩和されたWTA(RWTA)の損失を最小限に抑えることで、道路の交差点に近づく、つまり直進、左折、および右折する車の可能な将来を捉えることができることを示した。しかしながら、一般的な制約のない混合分布を最適化するには、特別な初期化とトレーニング手順が必要であり、モードの崩壊に悩まされる。将来の場所を捉えているにもかかわらず、この研究では、可能な場所全体に分布を提供しない。
【0008】
別のオプションは、混合密度ネットワーク(MDN)などのネットワークから完全な混合分布を推定することである。しかしながら、一般的な混合分布の最適化には、数値の不安定性、適切な初期化の要件、および単一モードへの崩壊などの問題が伴いえる。
【0009】
混合分布を予測する方法はほとんどないが、モードの数が固定される制約された設定においてのみ、特定のアプリケーションシナリオに従ってモードが手動で束縛される。いくつかの研究は、高速道路での人間の運転行動に制約される可能性のある運転挙動を予測するために、再発性MDNを提案した。より最近の研究では、MDNを使用して、自動運転シナリオで車が別の空きスペースにある確率を推定した。
【0010】
図1aは、通常の混合分布ネットワークアプローチを表す。
図1aのような混合密度ネットワーク(MDN)は、分布をパラメトリック分布の混合としてモデル化する。
【数1】
ここで、Mは、混合成分の数であり、Φは、パラメータθ
iを用いるパラメトリック分布の任意のタイプとすることができ、π
iは、それぞれの成分の重みである。複数の混合成分を使用することで、任意の分布を概算することもできる。パラメータはネットワークのすべての出力であり、入力データx(簡潔にするために省略される)に依存する。MDNですべてのパラメータを共同で最適化することは困難であり、高次元では数値的に不安定になり、予測の退化に悩まされる。さらに、MDNは通常、過剰フィッティングする傾向があり、これは、特別な正則化手法を必要とし、モード崩壊をもたらす。
【0011】
本発明は、異なる先行技術の上記の欠点に対処することを目的とし、より具体的には、運転環境におけるマルチモーダルな将来予測の混合分布推定のための信頼できる方法を提案することを目的とする。優れた将来の予測子は、非決定論的なシステムのマルチモダリティおよび不確実性をモデル化できると同時に、利用可能なすべての条件情報を考慮して、情報量の少ない均一な分布から予測分布を形成できる必要がある。
【0012】
本発明の第1の態様は、運転環境におけるマルチモーダルな将来予測の混合分布推定のためのコンピュータ実装方法であって、(1)運転環境、少なくとも1つの関心のあるオブジェクトを含む各画像、および関心のあるオブジェクトに対応する一連の将来のグラウンドトゥルースを入力するステップ、(2)(a)所定の数の仮説を生成し、(b)すべての仮説に均等にペナルティを課し、(c)最も近い仮説である最良の仮説のみがペナルティを課されるまで、対応するグラウンドトゥルースに近い仮説、いわゆる勝利仮説の他の部分のみにペナルティを課すことによって仮説の一部を徐々にリリースし、(d)進化する勝者独り占め戦略の完了後の最終仮説を出力することにより、進化する勝者独り占めの損失戦略を使用して、少なくとも1つの関心のあるオブジェクトのマルチモーダルな将来の解空間をサンプリングするステップ、(3)定義された数の混合成分への各仮説のソフト割り当てを計算することによって将来の予測のマルチモーダルな混合分布を最終仮説に順次フィッティングさせるステップを含む畳み込みニューラルネットワークのトレーニングフェーズを含む、コンピュータ実装方法に関する。
【0013】
このようなコンピュータ実装方法は、進化する勝者独り占め損失およびサンプルを複数のモードへ繰り返しグループ化することを伴う、将来のいくつかのサンプルの予測、すなわち、マルチモーダルな将来予測を含むアプローチの利点を示す。このアプローチでは、サンプリングするステップの目的は、実際の解空間全体をサンプリング(つまり、その新しいサンプルを生成)することであるが、フィッティングネットワークの目的は、生成された仮説(サンプリングするステップの出力)から混合分布を構築することである。さらに、提案されたアプローチは、マルチモーダルな分布の適切な推定をトリガし、モード崩壊を回避する。
【0014】
有利な実施形態によれば、画像のセットは、過去のタイムスタンプに対応する運転環境の画像のシーケンスと、シーケンス内の少なくとも1つの関心のあるオブジェクトを区切るバイナリマスクの対応するシーケンスである。
【0015】
動作フェーズ中の実際の状況に近いトレーニングフェーズに画像のシーケンスとバイナリマスクを使用すると、ニューラルネットワークのトレーニングを改善する。
【0016】
有利な実施形態によれば、入力された将来のグラウンドトゥルースのセットは、関心のあるオブジェクトの将来の場所を含み、サンプリングするステップは、少なくとも1つの関心のあるオブジェクトの将来の場所の解空間をサンプリングし、フィッティングさせるステップは、マルチモーダルな将来のオブジェクトの場所の混合分布をフィッティングさせる。
【0017】
有利な実施形態によれば、最初のペナルティを課すステップは、すべての仮説が将来のすべてのグラウンドトゥルースに等しく引っ張られるので、結果的にすべての仮説を平衡状態に移行させる。次のリリースするステップおよびペナルティを課すステップは、仮説の増加する部分を徐々にリリースし、一方で、1つの勝利仮説のみがペナルティを課されるまで、残りの勝利仮説に徐々にペナルティを課すことからなり、結果的に、勝利仮説は徐々にグラウンドトゥルースに向かって移行する。
【0018】
このような進化する勝者独り占め(EWTA)の損失戦略を使用すると、代替の緩和が提供され、残留力が残らないことが保証される。これにより、通常の勝者独り占め(WTA)の損失や緩和されたWTAの損失よりも、使用されていない仮説がはるかに少なくなり、一般に仮説の分布が大幅に良くなる。その結果、得られた分布は、グラウンドトゥルースサンプルの場所をよく反映している。
【0019】
有利な実施形態によれば、畳み込みニューラルネットワークは、サンプリングするステップのためのサンプリングネットワークと、後続のフィッティングさせるステップのためのフィッティングネットワークとを含む。好ましくは、当該サンプリングネットワークは、エンコーダネットワークと、後続の2つの追加の畳み込み層から構成される。より好ましくは、当該フィッティングネットワークは、2つの完全に接続された層から構成される。
【0020】
畳み込みニューラルネットワークのこのアーキテクチャは、1回のフォワードパスのみを必要とし、シンプルで効率的である。エンコーダには、たとえば、Dosovitskiyらが出版物「Flownet:Learning optical flow with convolutional networks」で提案したFlowNetSアーキテクチャを使用できる。
【0021】
有利な実施形態によれば、トレーニングフェーズは、(1)進化する勝者独り占めの損失戦略を使用してサンプリングネットワークをトレーニングすることと、(2)サンプリングネットワークを固定に維持しながら負の対数尤度損失関数を使用してフィッティングネットワークをトレーニングすることと、(3)進化する勝者独り占めの損失戦略を削除し、負の対数尤度損失関数を使用してサンプリングネットワークとフィッティングネットワークの両方をエンドツーエンドでトレーニングすることとからなる。
【0022】
2段階アプローチ(EWTA+MDF)は、より良い分布をもたらし、モード崩壊に悩まされるのを少なくする。EWTAをNLLに置き換えることで、その負の対数尤度を最小限に抑え、外れ値に対してより堅牢になる。フの対数尤度(NLL)は、グラウンドトゥルースサンプルの予測分布へのフィッティング度を測定し、グラウンドトゥルース分布からの単一のサンプルのみが利用可能な実際のデータでの評価を可能にする。欠落しているモードと一貫性のないモードはどちらも、データセット全体で平均化されたときにNLLによってペナルティが課せられる。
【0023】
本発明の第2の態様は、第1の態様のトレーニングフェーズ方法に従ってトレーニングされた畳み込みニューラルネットワークの動作フェーズを含む運転環境におけるマルチモーダルな将来予測の混合分布推定のためのコンピュータ実装方法に関し、動作フェーズは、画像のセットを受信するステップであって、各画像は少なくとも1つの関心のあるオブジェクトを含む、受信するステップと、少なくとも1つの関心のあるオブジェクトのマルチモーダルな将来予測の混合分布を推定するステップと、を含む。
【0024】
トレーニングフェーズの後、畳み込みニューラルネットワークの動作フェーズは、運転環境などの実際の条件における関心のあるオブジェクトのマルチモーダルな将来予測の混合分布を推定できる。好ましくは、推定するステップは、少なくとも1つの関心のあるオブジェクトのマルチモーダルな将来の場所の混合分布を推定する。
【0025】
本発明の第3の態様は、現在および過去のタイムスタンプに対応する、車両の環境の、複数のモダリティからの1つまたは複数のビデオフレーム、いわゆるマルチモダリティビデオフレームを受信するステップと、時空間符号化畳み込みニューラルネットワークによって当該マルチモダリティビデオフレームを潜在表現に符号化するステップと、所望の将来の時間範囲でのタイムスタンプに対応する符号化された条件付けパラメータを用いて当該潜在表現を複合表現に結合するステップと、第1の態様に従って事前にトレーニングされた畳み込みニューラルネットワークによって尤度係数に関連付けられたマルチモーダルな将来解空間の複数の将来モードに対応する複数の将来のマルチモダリティビデオフレームを予測するステップであって、各予測される将来のモードは、当該複合表現を復号するステップと、所望の時間範囲でのタイムスタンプに対応する当該車両の環境の1つまたはいくつかの将来のマルチモダリティビデオフレームを生成するステップから生じる、予測するステップと、マルチモーダルな将来解空間で予測された各将来モードに尤度係数を関連付けるステップと、を含む動作フェーズを含む、車両の環境におけるマルチモーダルな将来予測のためのコンピュータ実装方法に関する。
【0026】
このようなコンピュータ実装方法は、受信したすべての情報を保持しながら、条件付けパラメータを追加することにより、マルチモーダルな将来解空間に対応するすべての可能な将来を予測するという利点を提示する。このような方法は、背景とオブジェクトを含むシーン全体が、オブジェクトを区別せずに全体的に考慮される、より豊かな将来のシーン記述を提供し、オブジェクト間の相互作用は、シーン複雑性の保存につながる全体的なシーンの潜在表現内で暗黙的に考慮される。さらに、複数の予測された将来は、マルチモーダルな将来解空間の最も重要なモードに対応し、マルチモーダルな将来解空間に関して各予測のより良い解釈可能性をもたらす。尤度測定は、予測された各将来に関連付けられ、ランク付けされた予測された将来の解釈可能性と使いやすさの向上につながる。
【0027】
本発明の第4の態様は、人間の運転者が車両を運転するのを支援するため、または先進運転支援システムを支援するため、または自動運転システムを支援するためのコンピュータ実装方法であって、車両の運転中の一連のビデオフレームに車両の環境を捉えるステップと、捉えた一連のビデオフレームから1つまたは複数のマルチモダリティビデオフレームを取得するステップと、当該マルチモダリティビデオを第2または第3の態様に供給するステップと、マルチモーダルな将来解空間の複数の予測された将来モードをそれらの尤度係数の指示とともに運転者の注意を引くために表示するステップか、またはそれらの尤度係数に関連するマルチモーダルな将来解空間の当該複数の予測された将来モードを先進運転支援システムに提供するステップか、またはそれらの尤度係数に関連するマルチモーダルな将来解空間の当該複数の予測された将来モードを自動運転システムに提供するステップと、を含む、方法に関する。
【0028】
本発明の第5の態様は、現在および過去のタイムスタンプに対応する、車両の環境の1つまたは複数のマルチモダリティビデオフレームを受信し、時空間符号化畳み込みニューラルネットワークによって当該1つまたは複数のマルチモダリティビデオフレームを潜在表現に符号化し、所望の将来の時間範囲でのタイムスタンプに対応する符号化された条件付けパラメータを用いて当該潜在表現を複合表現に結合し、第1の態様に従って事前にトレーニングされた畳み込みニューラルネットワークによって尤度係数に関連付けられたマルチモーダルな将来解空間の複数の将来モードに対応する複数の将来のマルチモダリティビデオフレームを予測し、予測された各将来モードは、当該複合表現を復号し、所望の時間範囲でのタイムスタンプに対応する当該車両の環境の1つまたは複数の将来のマルチモダリティビデオフレームを生成するように構成された手順から生じ、マルチモーダルな将来解空間で予測された各将来モードに尤度係数を関連付けるように構成された1つまたは複数のコンピューティングデバイスを含むシステムに関する。
【0029】
本発明の第6の態様は、マルチモーダルな解推定のための混合分布推定のためのコンピュータ実装方法であって、(1)データのセットと、データのセットに関連付けられたグラウンドトゥルース解のセットとを入力するステップ、(2)(a)所定の数の仮説を生成し、(b)すべての仮説に均等にペナルティを課し、(c)最も近いものである最良の仮説のみがペナルティを課されるまで、対応するグラウンドトゥルース解に近い仮説、いわゆる勝利仮説の他の部分のみにペナルティを課すことによって仮説の一部を徐々にリリースし、(d)進化する勝者独り占め戦略の完了後に最終仮説を出力することによって、進化する勝者独り占めの損失戦略を用いて解空間をサンプリングするステップ、(3)定義された数の混合成分への各仮説のソフト割り当てを計算することにより、マルチモーダルな解空間の混合分布モデルを最終仮説に順次フィッティングさせるステップを含む畳み込みニューラルネットワークのトレーニングフェーズを含む、コンピュータ実装方法に関する。
【0030】
このような方法は、制約のないマルチモーダル分布を出力として生成し、将来の予測、より一般的には非決定論的なシナリオでの複数の可能な解の推定のための使用法を示す、一般的な深層学習アプローチを提供する。入力データは、2D画像、3D点群、nDベクトルなどの任意のタイプとすることができる。
【0031】
有利な実施形態によれば、最初のペナルティを課すステップは、すべての仮説が将来のすべてのグラウンドトゥルースに等しく引っ張られるので、すべての仮説を平衡状態に移行させる。次のリリースするステップおよびペナルティを課すステップは、仮説の増加する部分を徐々にリリースし、一方で、1つの勝利仮説のみがペナルティを課されるまで、残りの勝利仮説に徐々にペナルティを課すことからなり、結果的に、勝利仮説は徐々にグラウンドトゥルースに向かって移行する。
【0032】
本発明の第7の態様は、第6の態様のトレーニングフェーズ方法に従ってトレーニングされた畳み込みニューラルネットワークの動作フェーズを含むマルチモーダルな解推定のための混合分布推定のためのコンピュータ実装方法であって、動作フェーズは、データのセットと、データのセットに関連付けられたグラウンドトゥルース解のセットを受信するステップと、マルチモーダルな解空間の混合分布モデルを推定するステップとを含む、コンピュータ実装方法に関する。
【図面の簡単な説明】
【0033】
本発明の他の特徴および利点は、添付の図面によって示される、本発明の特定の非制限的な実施例の以下の詳細な説明からより明確に現れるであろう。
【
図1a】
図1aは、通常の混合分布ネットワークアプローチを表す。
【
図1b】
図1bは、提案されたアプローチに従う混合分布ネットワークを表す。
【
図2a】
図2aは、従来技術のアプローチに従ってWTA損失を伴う仮説を生成する例を表す。
【
図2b】
図2bは、従来技術のアプローチに従ってRWTA損失を伴う仮説を生成する例を表す。
【
図2c】
図2cは、提案されたアプローチに従ってEWTAを伴う仮説を生成する例を表す。
【
図3】
図3は、トレーニングスキーム中の敵対的生成ネットワークアーキテクチャを表す。
【
図4】
図4は、動作スキーム中のシステムアーキテクチャを表す。
【発明を実施するための形態】
【0034】
本発明を実行するための異なるモードをより詳細に説明する前に、理解を容易にするためのいくつかの定義を思い出させる。
【0035】
ソフト割り当てとは、K個の実数のベクトルを入力として受け取り、それをK個の確率で構成される確率分布に正規化する関数であるソフトマックス関数を指す。
【0036】
与えられたグラウンドトゥルースに対して、ペナルティ付きの仮説は、このグラウンドトゥルースに引き付けられる仮説であり、一方で、リリースされた仮説は、このグラウンドトゥルースに引き付けられない仮説である。仮説は、1つまたは複数のグラウンドトゥルースに関してペナルティを課すか、またはリリースすることができる。このようなペナルティ付きの仮説は、「ペナルティ付き」の仮説に関連するペナルティをもたらす。そして、このペナルティは、この仮説に関連するコスト(損失)であり、通常、この仮説と、それがペナルティを課せられるグラウンドトゥルースとの間の距離の尺度である。したがって、仮説にペナルティを課す場合、最小化される総損失の計算でこの仮説に関連するペナルティが考慮され、この仮説と、関連するグラウンドトゥルースとの間の距離が最小化されることにつながり、その結果、この仮説は、その関連するグラウンドトゥルースに実際に引き付けられる。
【0037】
混合分布は、次のように他のランダム変数のコレクションから導出されるランダム変数の確率分布である。最初に、所与の選択確率に従ってコレクションからランダム変数が偶然に選択され、次に、選択されたランダム変数の値が実現される。混合分布を形成するために組み合わされる個々の分布は混合成分と呼ばれ、各成分に関連する確率(または重み)は混合重みと呼ばれる。
【0038】
混合分布推定のトレーニングスキーム
マルチモーダルな将来予測フレームワーク
図1bは、提案された2段階アプローチに従う混合分布ネットワークを表す。第1段階は、進化する勝者独り占め(EWTA)の損失でトレーニングされた仮説を生成し、第2段階は、混合成分への仮説のソフト割り当てを予測することにより、混合分布(MDF)にフィッティングする。
【0039】
ネットワークの入力は、関心のあるオブジェクトの過去の画像とオブジェクト境界ボックスx=(It-h,...,It,Bt-h,...,Bt)である。ここで、hは、過去への履歴の長さであり、境界ボックスBiは、バイナリマスク画像として提供される。ボックス内のピクセルは1で、その他のピクセルは0である。xが与えられた場合、目標は、将来の固定時刻t+Δtでの注釈付きオブジェクトの場所yのマルチモーダルな分布p(y|x)を予測することである。
【0040】
トレーニングデータは、画像のセット、オブジェクトマスク、および将来のグラウンドトゥルースの場所:
【数2】
であり、ここで、Nはデータセット内のサンプル数である。これは、p(y|x
i)のグラウンドトゥルース条件付き分布を提供するのではなく、その分布から単一のサンプル
【数3】
のみを提供することに注意されたい。分布の複数のサンプルを取得するには、データセットにまったく同じ入力x
iを持つ複数のサンプルが含まれている必要があり、これは、高次元の入力ではほとんどない。フレームワークは、むしろ入力条件が異なるサンプルから一般化することになっている。これはそれを興味深く、挑戦的な学習問題にさせ、これは本質的に自己監督される。
【0041】
一般に、p(y|x)は、パラメトリック分布またはノンパラメトリック分布でモデル化できる。ノンパラメトリック分布は、各ビンがピクセルに対応する可能性のある将来の場所のヒストグラムによってモデル化できる。パラメトリックモデルは、ガウス分布の混合などの混合密度に基づくことができる。
【0042】
サンプリングおよび分布フィッティングフレームワーク
混合分布ネットワークの直接最適化は難しいため、
図1bに示すように、問題をサブタスク(サンプリングと分布フィッティング)に分割することを提案する。最初の段階は、サンプリングを実装する。WTA損失で得られた仮説の多様性に動機付けられて、この損失の進化版が提案され、それを使用してこれらのサンプルを取得する。これを、トレーニングデータのサンプルと区別するための仮説として参照し続ける。
【0043】
これらの仮説を考えると、通常、混合分布にフィットするように期待値最大化アルゴリズムを続行する。むしろ、分布フィッティングを実行するために第2のネットワークを適用する。これにより、ランタイムが高速になり、ネットワーク全体をエンドツーエンドで微調整できるようになる。
【0044】
第1の段階:EWTA損失を伴うサンプリング
多様な仮説を得るために、いわゆる進化する勝者独り占め(EWTA)の損失戦略を適用することが提案されている。より具体的には、WTAメタ損失が適用される。
【数4】
、
【数5】
ここで、/は、予測された仮説h
kとグラウンドトゥルース
【数6】
の間の損失関数である。ω
iは、メタ損失へのi番目の仮説の寄与の重みであり、Kは、推定された仮説の数であり、δ(.)は、条件が真であり、そうでなければ0のときに1を返す、クロネッカーのデルタである。
【0045】
標準WTA損失について、勝者(ωi)の選択は、ユークリッド距離に基づいており、すべての重みは、グラウンドトゥルースに最も近い「勝利」仮説を除いて0に設定されている。結果として、勝利仮説のみが更新される。
【0046】
この新しいバージョンでは、上位k名の勝者を更新する。上記の勝者の選択を参照すると、これは、k個の重みが1であり、一方、K-k個の重みが0であることを意味する。k=Kから始めて、k=1になるまでkを減らす。kが減少するときはいつでも、以前にグラウンドトゥルースに束縛されていた仮説は効果的に平衡状態からリリースされ、グラウンドトゥルースと自由にペアリングするようになる。このプロセスを
図3cに示す。EWTAは、残留力が残らないことを保証する代替の緩和を提供する。これにより、WTAおよびRWTAよりも使用されていない仮説がはるかに少なくなり、一般に仮説の分布がはるかに良くなる。結果として生じるスプリアスモードは、第2の段階とパイプラインの最終的なエンドツーエンドの微調整を追加した後、追って除去される。
【0047】
図2a~2cは、WTA損失の異なるバリアントを用いて仮説を生成する比較例を示す。3つのグラウンドトゥルースサンプル(番号付きの円1~3)をカバーする目的で、サンプリングネットワーク(クロス)によって8つの仮説が生成される。トレーニング中、各反復でミニバッチに含まれるグラウンドトゥルースサンプルは一部のみである。それぞれについて、WTA損失は最も近い仮説(勝利仮説)を選択し、勾配は引力を誘発する(矢印で示される)。また、カーネル密度推定(KDE)とも呼ばれるParzen推定量を、仮説の最終セットに適用することで生じる分布も示されている。
【0048】
図2aは、通常のWTAバリアントを示す。ここで、各グラウンドトゥルースサンプルは1つの勝者を選択し、1つの仮説はサンプル3とペアになり、1つの仮説はサンプル1と2の間で平衡状態にあり、残りは決して更新されない(一貫性のない仮説)。結果の分布は、グラウンドトゥルースサンプルとよく一致しない。
【0049】
図2bは、WTA損失が緩和されたアプローチを示す。ここで、非勝利仮説は、すべてのサンプルにわずかに引き付けられ(細い矢印)、ゆっくりと平衡状態に移行する。これにより、単一の仮説がサンプルとペアになる可能性が高くなる。結果の分布には、グラウンドトゥルースの場所にある程度の確率質量が含まれているが、中央に大きなスプリアスモードがある。
【0050】
図2cは、WTA損失が進化する提案されたアプローチを示す。ここで、すべての仮説が最初にすべてのグラウンドトゥルースに関してペナルティを課され、すべての仮説が平衡状態に移行する(上位8)。次に、各グラウンドトゥルースは、4つの仮説のペナルティを停止して、4つの勝者のみにペナルティを課している間、それらをリリースする。これにより、2つの仮説がそれぞれサンプル1と3とペアになり、2つの仮説がそれぞれサンプル1/2と2/3の間の平衡状態に移行する(上位4)。このプロセスは、各サンプルが1人の勝者(上位1)のみを選択するまで続く。結果の分布には3つのモードがあり、グラウンドトゥルースサンプルの場所をよく反映している。後で除去できる小さなスプリアスモードのみが導入されている。
【0051】
第2の段階:MDFのフィッティング
ネットワークの第2の段階では、混合分布を推定された仮説にフィッティングさせる。この段階を混合密度フィッティング(MDF)と呼ぶ。同様に、Zongらによる「Deep auto-encoding Gaussian mixture model for unsupervised anomaly detection」というタイトルの出版物に提示されたアプローチに対して、以下の混合成分への各仮説のソフト割り当てを推定する:
γ
k=softmax(z
k)、
ここで、k=1..Kであり、z
kは各仮説kのM次元の出力ベクトルである。ソフト割り当てにより、混合パラメータは次のようになる:
【数7】
、
【数8】
、
【数9】
。
【0052】
この方法によれば、ネットワークの2つの段階が順次トレーニングされる。すなわち、フィッティングネットワークはサンプリングネットワークの後にトレーニングされる。
【0053】
この方法の好ましいバージョンでは、上記の式から推定されたパラメータが、式(1)の負の対数尤度(NLL)損失に挿入される。実際、EWTAは、明確に定義された分布に従う仮説を常に保証するとは限らないため、EWTA損失は最終的に除去され、ネットワーク全体はNLL損失とエンドツーエンドで微調整される。
【0054】
敵対的生成ネットワークアーキテクチャのトレーニングフェーズ
図3は、トレーニングフェーズ中のグローバルな敵対的生成ネットワーク(GAN)アーキテクチャを表す。このようなGANアーキテクチャの詳細な説明および利点は、参照により本明細書に組み込まれる先行の刊行物EP2018306603.2に示されている。
【0055】
GANアーキテクチャは、上記の2段階混合分布推定ネットワーク、つまりEWTA損失でトレーニングされたサンプリングネットワークと、MDFフィッティングネットワークを含む、いくつかの深い畳み込みニューラルネットワークの組み合わせ(簡潔さのためにEWTA+MDFネットワークと呼ばれる)として、あるいはこれらのネットワークの1つだけ、および/またはこれらのネットワークの損失関数のみとして構築された特定のグローバルアーキテクチャである。より具体的には、この特定のグローバルアーキテクチャは、説明の残りの部分でネットワークを単純化するために呼ばれる3つの畳み込みニューラルネットワークの組み合わせである。
【0056】
第1に、時空間符号化ネットワークE(別名エンコーダ)が入力フレーム(1つまたは複数、現在Tまたは過去および現在{T-P,...,T})を受信し、それらを潜在表現に変換する。次に、潜在表現は、この潜在表現を、所望の将来の時間範囲に対応するタイムスタンプの符号化と組み合わせる複合手順に与えられる。次に、複合表現Zが出力される。幻覚を起こすオブジェクトのクラスおよび密度などの追加の条件付けパラメータ(c、d)の符号化もまた、複合表現Zに追加してもよい。
【0057】
第2に、生成ネットワークG(別名ジェネレータ)は、入力として複合表現Zを受信し、それを、所望の将来の時間範囲のタイムスタンプに対応する出力の将来のフレームに復号する。生成ネットワークは、将来の解空間のK個の複数のモードのそれぞれに対して1つまたは複数の将来のマルチモダリティフレームを生成できる。生成ネットワークはまた、将来の解空間の各モードの尤度に対応する数値も生成する。生成ネットワークGはまた、複合表現Zに格納された幻覚に関連する条件付けパラメータを考慮に入れ得、所与の密度で所与のクラスの新しいオブジェクトを含む将来の画像(すなわち、将来のマルチモダリティビデオフレーム)を生成する。より具体的には、
図3の例では、ジェネレータGは、尤度係数(L
1~L
K)に関連付けられたマルチモーダルな将来解空間の複数の将来のモード(1~K)の将来のタイムスタンプ({t
1,...t
F}において、tは将来のタイムスタンプ)に対応する1つまたはいくつかのマルチモダリティビデオフレームの予測を出力している。
【0058】
第3に、トレーニング時にのみ使用される識別ネットワークD(別名ディスクリミネータ)は、条件付けパラメータおよび実際の将来のフレームとともに生成ネットワークによって出力される予測された将来のフレームを入力として受信する。予測された将来のフレームを実際の将来のフレームから識別するようにトレーニングされる。その入力は、その出所に応じて偽物または本物に分類される。識別ネットワークは、将来の解空間のK個の複数のモードのそれぞれについて生成ネットワークによって生成された1つまたは複数の将来のフレームを処理できる。
【0059】
提案されたアーキテクチャを構成するさまざまなネットワークは、進化するWTA損失戦略を用いるサンプリングネットワークとそれに続く混合分布フィッティングネットワークを含む上記の2段階アプローチに基づいて、いくつかの損失関数を最小化することによってトレーニングされる。
【0060】
この2段階のEWTA+MDFネットワークは、次の特性を確保するように特別に設計されている。
-予測される各将来は他とは異なり、マルチモーダルな将来解空間の特定のモードに対応する。
-予測される各将来モードは、予測される将来の発生の尤度に対応する数値に関連付けられている。
-所与の時間範囲に対応するトレーニングスキームの実際の将来は、この所与の時間範囲について複数の予測された将来の1つと非常に類似しており、この特定の予測された将来は、最も高い尤度値を有する。
-マルチモーダルな将来の解空間の任意の所与のモードについて、いくつかの異なる将来の時間範囲に対応する複数の予測は、時間的および空間的にもコヒーレントである。
-「予想」モードでは、幻覚オブジェクトのクラスおよび密度は、クラスおよび密度の調整パラメータにフィッティングする。
【0061】
トレーニングスキームは、生成ネットワークによって予測される将来のマルチモダリティビデオフレームが実際の将来のマルチモダリティビデオフレームと区別できないときに、生成ネットワークと識別ネットワークの両方の収束に達するまで実行される。
【0062】
敵対的生成ネットワークアーキテクチャの動作フェーズ
図4は、損失関数が除去されたときの動作スキーム中の
図3のシステムアーキテクチャを表す。このようなGANアーキテクチャの詳細な説明および利点は、参照により本明細書に組み込まれる先行の刊行物EP2018306603.2に示されている。動作スキームは、生成ネットワークと識別ネットワークの収束によって完了したトレーニングスキームに従う。動作スキーム中、識別ネットワークはもはや不要になり、次いで、アーキテクチャはエンコーダEとジェネレータGの2つのネットワークのみで構成される。残りの手順については同じである。
【0063】
入力は、現在および過去のタイムスタンプ(現在のタイムスタンプTから過去のタイムスタンプT-Pまで)に対応するさまざまなビデオモダリティ(RGB画像、セマンティックマップ、モーションフローマップなどであり得る)の1つまたは複数のフレームである。エンコーダEは、マルチモダリティビデオフレームを潜在表現に符号化する。次に、潜在表現は、所望の将来の時間範囲でのタイムスタンプに対応する符号化された条件付けパラメータと組み合わされて、複合表現(Z)になる。ジェネレータGは、尤度係数(L1~LK)に関連付けられたマルチモーダルな将来の解空間の複数の将来のモード(1~K)の({t1,...,tF}における将来のタイムスタンプtについて)将来のタイムスタンプに対応する1つまたは複数のマルチモダリティビデオフレームの予測を出力している。尤度係数は、それらの予測に関連する不確実性を推定できる畳み込みニューラルネットワークを使用して決定できる。予測は、当該複合表現(Z)を復号し、所望の時間範囲でのタイムスタンプに対応する1つまたは複数の将来のマルチモダリティビデオフレームを生成することと、マルチモーダルな将来の解空間で予測される各将来モードに尤度係数を関連付けることとによって行われる。
【0064】
ジェネレータによって予測される将来のフレームには、次の特性がある。
-予測される将来のフレームには、マルチモダリティ情報、たとえば、現時点でシーンにすでに表示されているオブジェクト(「予測」)、または現時点ではシーンに表示されていないが将来表示されると予測されるオブジェクト(「予想」)に関連付けられたセマンティック情報が含まれている。
-将来のフレームは、非決定論的なマルチモーダルな将来の解空間を考慮に入れるために、複数の将来の仮説パラダイムに従って予測される。個々の将来の仮説は、独自の予測された将来のフレームのセットにつながり、関連する将来の仮説の発生確率に対応する尤度測定によって特徴付けられる。
-個々の将来の仮説について、将来のフレームの予測は時間条件付きである。つまり、所望の将来のフレームに対応する時間範囲によって条件付けられる。これは、所与の将来の時間範囲に対応する将来のフレームが、中間の時間範囲を再帰的に予測したり、現時点から所与の時間範囲まで実行される中間フレームの完全なバッチを予測したりする必要なしに、直接予測されることを意味する。
-「予想」モードでは、現時点では表示されていないオブジェクトが将来の時間に幻覚化されると、将来のフレームの予測もまた、幻覚化されるオブジェクトのクラスおよび密度などの外部パラメータによって条件付けられる。
【0065】
他のアプリケーション
EWTA損失戦略を用いるサンプリングネットワークとそれに続く混合分布フィット(MDF)を用いるフィッティングネットワークを含む上記の2段階アプローチ方法は、運転環境におけるマルチモーダルな将来予測の混合分布に関連して説明されている。他のアプリケーションは、混合分布推定の他のタスクのために、このような2段階アプローチ方法と共に使用できる。特に、そのような方法はまた、オプティカルフローの不確実性推定、セマンティック/インスタンスセグメンテーション、ポーズ推定、画像キャプションおよび合成、ならびにアクション認識にも関連する。
【0066】
マルチモーダルな解推定のための混合分布推定アプリケーションの場合、本方法は、次のステップを含む畳み込みニューラルネットワークのトレーニングフェーズを含む。すなわち、(1)データのセットと、データのセットに関連付けられたグラウンドトゥルース解のセットとを入力するステップ、(2)(a)所定の数の仮説を生成し、(b)すべての仮説に均等にペナルティを課し、(c)最も近いものである最良の仮説のみがペナルティを課されるまで、対応するグラウンドトゥルース解に近い仮説、いわゆる勝利仮説の他の部分のみにペナルティを課すことにより、仮説の一部を徐々にリリースすることによって、進化する勝者独り占めの損失戦略を用いて解空間をサンプリングするステップ、(3)定義された数の混合成分への各仮説のソフト割り当てを計算することにより、生成された仮説にマルチモーダルな解空間の混合分布モデルを順次フィッティングさせるステップ。
【0067】
当業者に明らかな様々な修正および/または改善は、添付の特許請求の範囲によって定義される本発明の範囲から逸脱することなく、本説明に記載される本発明の異なる実施形態にもたらされ得ることが理解される。