(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022090599
(43)【公開日】2022-06-17
(54)【発明の名称】特徴および特徴の動きの共同予測
(51)【国際特許分類】
G06T 7/00 20170101AFI20220610BHJP
G06N 3/08 20060101ALI20220610BHJP
【FI】
G06T7/00 350C
G06N3/08
【審査請求】未請求
【請求項の数】16
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2021094339
(22)【出願日】2021-06-04
(31)【優先権主張番号】20 2020 107 031.2
(32)【優先日】2020-12-07
(33)【優先権主張国・地域又は機関】DE
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)令和2年6月9日にウェブサイトに公開された論文「Warp to the Future:Joint Forecasting of Features and Feature Motion」(掲載アドレス1:https://openaccess.thecvf.com/CVPR2020?day=2020-06-18,掲載アドレス2:https://openaccess.thecvf.com/content_CVPR_2020/papers/Saric_Warp_to_the_Future_Joint_Forecasting_of_Features_and_Feature_CVPR_2020_paper.pdf) (2)令和2年6月18日にオンライン国際学会CVPR2020にて発表
(71)【出願人】
【識別番号】521244765
【氏名又は名称】リマック・オートモビルズ・リミテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】トンチ・アントゥノヴィッチ
(72)【発明者】
【氏名】マリン・オルシッチ
(72)【発明者】
【氏名】ジョシップ・サリッチ
(72)【発明者】
【氏名】シニシャ・シェグヴィッチ
(72)【発明者】
【氏名】サーシャ・ヴラジッチ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA04
5L096CA04
5L096DA02
5L096HA02
5L096HA11
5L096JA11
(57)【要約】
【課題】少なくとも1つのフレームのセマンティック出力を予測するコンピュータ実装方法を提供すること。
【解決手段】あらかじめ定められた時間までカメラから複数の入力フレームを受信するステップと、複数の特徴テンソルを受信するために、ニューラルネットワークのダウンサンプリングモジュールを介して複数の入力フレームを処理するステップと、複数の特徴テンソル間の時空間相関を決定するステップと、少なくとも1つの予測された特徴テンソルを受信するために、複数の特徴テンソルおよび時空間相関を処理するステップと、あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、ニューラルネットワークのアップサンプリングモジュールを介して、少なくとも1つの予測された特徴を処理するステップとを備える、方法。
【選択図】
図1
【特許請求の範囲】
【請求項1】
少なくとも1つのフレームのセマンティック出力を予測するコンピュータ実装方法であって、
あらかじめ定められた時間までカメラから複数の入力フレームを受信するステップと、
複数の特徴テンソルを受信するために、ニューラルネットワークのダウンサンプリングモジュールを介して前記複数の入力フレームを処理するステップと、
前記複数の特徴テンソル間の時空間相関を決定するステップと、
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルおよび前記時空間相関を処理するステップと、
前記あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、前記ニューラルネットワークのアップサンプリングモジュールを介して、前記少なくとも1つの予測された特徴テンソルを処理するステップと
を備える、方法。
【請求項2】
前記方法が、
前記あらかじめ定められた時間の後に発生する少なくとも1つの将来のイベントを予期するために前記少なくとも1つの予測されたセマンティック出力を使用するステップと、
前記少なくとも1つの予期される将来のイベントを使用して決定を下すステップと
をさらに備える、請求項1に記載の方法。
【請求項3】
少なくとも1つの予測されたセマンティック出力を受信するために、前記複数の特徴テンソルおよび前記時空間相関を処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、前記複数の特徴および前記時空間相関に基づく直接回帰によって受信される、請求項1または2に記載の方法。
【請求項4】
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルを処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、前記複数の特徴テンソルの各々をその予測された対応物にワープすることによって、また、続いてあらかじめ定められた重みベクトルを使用して前記予測された対応物を前記少なくとも1つの予測された特徴テンソルにブレンドすることによって受信される、請求項1または2に記載の方法。
【請求項5】
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルを処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、
少なくとも1つの第1の補助的な予測された特徴テンソルを受信するために、前記複数の特徴および前記時空間相関に基づいて直接回帰を実行するステップと、
複数の特徴の各々をその予測された対応物にワープし、続いて、あらかじめ定められた重みベクトルを使用して前記予測された対応物を少なくとも1つの第2の補助的な予測された特徴にブレンドするステップと、
前記少なくとも1つの第1の補助的な予測された特徴テンソルと、前記少なくとも1つの第2の補助的な予測された特徴テンソルとの混合重みから推論するステップと、
前記混合重みを使用して、前記少なくとも1つの第1の補助的な予測された特徴テンソルと、前記少なくとも1つの第2の補助的な予測された特徴テンソルとを前記少なくとも1つの予測された特徴テンソルにブレンドするステップと
によって受信される、請求項1または2に記載の方法。
【請求項6】
少なくとも1つのフレームのセマンティック出力を予測するための方法を実行するように構成された装置であって、前記方法が、
あらかじめ定められた時間までカメラから複数の入力フレームを受信するステップと、
複数の特徴テンソルを受信するために、ニューラルネットワークのダウンサンプリングモジュールを介して前記複数の入力フレームを処理するステップと、
前記複数の特徴テンソル間の時空間相関を決定するステップと、
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルおよび前記時空間相関を処理するステップと、
前記あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、前記ニューラルネットワークのアップサンプリングモジュールを介して、前記少なくとも1つの予測された特徴テンソルを処理するステップと
を備える、装置。
【請求項7】
前記方法が、
前記あらかじめ定められた時間の後に発生する少なくとも1つの将来のイベントを予期するために前記少なくとも1つの予測されたセマンティック出力を使用するステップと、
前記少なくとも1つの予期される将来のイベントを使用して決定を下すステップと
をさらに備える、請求項6に記載の装置。
【請求項8】
少なくとも1つの予測されたセマンティック出力を受信するために、前記複数の特徴テンソルおよび前記時空間相関を処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、前記複数の特徴および前記時空間相関に基づく直接回帰によって受信される、請求項6または7に記載の装置。
【請求項9】
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルを処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、前記複数の特徴テンソルの各々をその予測された対応物にワープすることによって、また、続いてあらかじめ定められた重みベクトルを使用して前記予測された対応物を前記少なくとも1つの予測された特徴テンソルにブレンドすることによって受信される、請求項6または7に記載の装置。
【請求項10】
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルを処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、
少なくとも1つの第1の補助的な予測された特徴テンソルを受信するために、前記複数の特徴および前記時空間相関に基づいて直接回帰を実行するステップと、
複数の特徴の各々をその予測された対応物にワープし、続いて、あらかじめ定められた重みベクトルを使用して前記予測された対応物を少なくとも1つの第2の補助的な予測された特徴にブレンドするステップと、
前記少なくとも1つの第1の補助的な予測された特徴テンソルと、前記少なくとも1つの第2の補助的な予測された特徴テンソルとの混合重みから推論するステップと、
前記混合重みを使用して、前記少なくとも1つの第1の補助的な予測された特徴テンソルと、前記少なくとも1つの第2の補助的な予測された特徴テンソルとを前記少なくとも1つの予測された特徴テンソルにブレンドするステップと
によって受信される、請求項6または7に記載の装置。
【請求項11】
プロセッサおよびメモリを備える車両構成要素であって、前記メモリが、前記プロセッサに提供されたときに、前記プロセッサに、少なくとも1つのフレームのセマンティック出力を予測する方法を実行させる命令にアクセスすることができ、前記方法が、
あらかじめ定められた時間までカメラから複数の入力フレームを受信するステップと、
複数の特徴テンソルを受信するために、ニューラルネットワークのダウンサンプリングモジュールを介して前記複数の入力フレームを処理するステップと、
前記複数の特徴テンソル間の時空間相関を決定するステップと、
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルおよび前記時空間相関を処理するステップと、
前記あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、前記ニューラルネットワークのアップサンプリングモジュールを介して、前記少なくとも1つの予測された特徴テンソルを処理するステップと
を備える、車両構成要素。
【請求項12】
前記方法が、
前記あらかじめ定められた時間の後に発生する少なくとも1つの将来のイベントを予期するために前記少なくとも1つの予測されたセマンティック出力を使用するステップと、
前記少なくとも1つの予期される将来のイベントを使用して決定を下すステップと
をさらに備える、請求項11に記載の車両構成要素。
【請求項13】
少なくとも1つの予測されたセマンティック出力を受信するために、前記複数の特徴テンソルおよび前記時空間相関を処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、前記複数の特徴および前記時空間相関に基づく直接回帰によって受信される、請求項11または12に記載の車両構成要素。
【請求項14】
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルを処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、前記複数の特徴テンソルの各々をその予測された対応物にワープすることによって、また、続いてあらかじめ定められた重みベクトルを使用して前記予測された対応物を前記少なくとも1つの予測された特徴テンソルにブレンドすることによって受信される、請求項11または12に記載の車両構成要素。
【請求項15】
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルを処理する前記ステップにおいて、前記少なくとも1つの予測された特徴テンソルが、
少なくとも1つの第1の補助的な予測された特徴テンソルを受信するために、前記複数の特徴および前記時空間相関に基づいて直接回帰を実行するステップと、
複数の特徴の各々をその予測された対応物にワープし、続いて、あらかじめ定められた重みベクトルを使用して前記予測された対応物を少なくとも1つの第2の補助的な予測された特徴にブレンドするステップと、
前記少なくとも1つの第1の補助的な予測された特徴テンソルと、前記少なくとも1つの第2の補助的な予測された特徴テンソルとの混合重みから推論するステップと、
前記混合重みを使用して、前記少なくとも1つの第1の補助的な予測された特徴テンソルと、前記少なくとも1つの第2の補助的な予測された特徴テンソルとを前記少なくとも1つの予測された特徴テンソルにブレンドするステップと
によって受信される、請求項11または12に記載の車両構成要素。
【請求項16】
プロセッサおよびメモリを備える車両構成要素であって、前記メモリが、前記プロセッサに提供されたときに、前記プロセッサに、単一フレーム予想のための方法と少なくとも1つの将来のフレームの高密度セマンティック予測のための方法を同時に実行させる命令にアクセスすることができ、前記単一フレーム予想のための方法が、
カメラから入力フレームを受信し、対応する特徴テンソルを受信するためにニューラルネットワークのダウンサンプリングモジュールを介して前記入力フレームを処理するステップと、
後で使用するために前記特徴テンソルをキャッシュし、セマンティック出力を受信するために前記ニューラルネットワークのアップサンプリングモジュールを介して前記特徴テンソルを処理するステップと
を備え、前記高密度セマンティック予測のための方法が、
複数のキャッシュされた特徴テンソルを検索し、前記複数の特徴テンソル間の時空間相関を決定するステップと、
少なくとも1つの予測された特徴テンソルを受信するために、前記複数の特徴テンソルおよび前記時空間相関を処理するステップと、
あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、前記ニューラルネットワークのアップサンプリングモジュールを介して、前記少なくとも1つの予測された特徴テンソルを処理するステップと
を備える、車両構成要素。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、少なくとも1つのフレームのセマンティック出力を予測するように構成された装置、少なくとも1つのフレームのセマンティック出力を予測するように構成された車両構成要素、および少なくとも1つのフレームのセマンティック出力を予測する方法に関する。
【背景技術】
【0002】
予期される将来は、多くの意思決定システムにとって非常に貴重な情報である。たとえば、自動運転において、将来の歩行者の位置によって、命を救う可能性のある決定が可能になる可能性がある。将来のイベントを予測するためのモデルは、多くの場合、トレーニングデータの無尽蔵のソースであるラベルのないビデオでトレーニングすることができる。ビデオにおいて予測するための簡単な手法は、将来のRGBフレームを対象とする。しかしながら、この難しいタスクは、多くの興味深いアプリケーションにおいて必要ない。たとえば、自動運転のコンテキストにおいては、将来の出現よりも将来のセマンティクスに関心がある。
【0003】
自然のシーンの画像からセマンティクスを抽出するために適した3つのコンピュータビジョンタスク、i)セマンティックセグメンテーション、ii)インスタンスセグメンテーション、およびiii)パノプティックセグメンテーションがある点に留意されたい。セマンティックセグメンテーションは、各ピクセルを道路や自動車などの適切なセマンティッククラスに割り当てる。インスタンスセグメンテーションは、オブジェクトクラスのインスタンスを検出し、それらをそれぞれの画像領域に関連付ける。パノプティックセグメンテーションは、シーンを理解するための最も高度なタスクである。パノプティックセグメンテーションは、各ピクセルをそれぞれのインスタンスのセマンティッククラスとインデックスに割り当てる。提示された方法は、3つのタスクすべてに適用可能である。
【0004】
コンピュータビジョンのコンテキストにおいて、セグメンテーションは、同じオブジェクトまたは同じクラスのオブジェクトを表すピクセルのみをグループ化しようとすることを意味する(たとえば、人のピクセルが同じオブジェクトに属していることを理解しているが、このオブジェクト/クラスが自動車、人、または道路であることを理解していない、あるいはデータセットに表示される可能性のある自動車または人(または、任意のカテゴリ)に関するあらゆる知識さえ有している)。セマンティックセグメンテーションでは、さらに正確なクラスも予想する必要がある。したがって、セマンティック予測は、精度と速度を改善する明確な可能性を秘めた興味深い代替手段である。
【0005】
セマンティックレベルでの将来の予期のために、いくつかの手法が提案されている。直接セマンティック予測は、過去の予想を将来の予想にマッピングする。残念ながら、この手法は、単一フレームの予想エラーが予測に伝播するリスクがある。さらに、予測を成功させるには、過去のフレーム間で対応を確立する必要があるが、これは最終的な予想のレベルにおいては簡単に達成できない。最後に、この手法は、タスクにとらわれない方法で実現することはできない。
【0006】
フローベースの予測は、高密度な画像の動きベクトルで動作する。フローベースの予測は、過去のフレームから再構築されたオプティカルフローを受信し、将来のフレームと最後に観測されたフレームとの間のオプティカルフローを対象とする。過去の予想を予測されたフローでワーピングすることによって、将来の予想を回復することができる。しかしながら、この手法は、事前に計算されたオプティカルフローを必要とし、これは、個別のトレーニングを意味し、推論速度を低下させる。さらに、純粋に幾何学的な予測は、セマンティック情報を利用して、閉塞されていないピクセルにおいてアドホックコンテンツを生成することができない。
【0007】
特徴レベルの予測は、過去のフレームから中間の特徴テンソルを受信し、将来の対応物を対象とする。以前の2つの手法と比較すると、特徴テンソルは特定の予想にコミットするように制約されていないため、特徴レベルの予測は、単一フレームの予想エラーの伝播を回避する可能性が高くなる。さらに、深い畳み込み表現は通常、入力に関してサブサンプリングされるため、メモリフットプリントと計算速度の観点から効率的な実装形態が可能になる。エンドツーエンドのトレーニングとタスクにとらわれない動作の有望な可能性もある。
【0008】
しかしながら、以前のほとんどの特徴レベルの手法は、予測を純粋な認識タスクとして表現している。これは、将来の予期の幾何学的性質を無視し、モデルがカメラの動き、奥行き、および独立したオブジェクトの動きなどの変動の要因を解きほぐすのを困難にするため、満足のいくようには見えない。
【0009】
特徴レベルの予測は、再構築されたエゴモーションと奥行きが与えられた場合の純粋な3D再構築タスクとして表現することもできる。しかしながら、3D解釈は、最適なパフォーマンスを達成するためにおそらく必要ではない一方で、望ましくないノイズを導入する可能性がある。これは特に、観察されていない風景を「想像する」プロセスに関係する。したがって、予測を、以前に観測された構造の2Dの動きと新しい風景の2D生成として定式化することが望ましい。
【発明の概要】
【課題を解決するための手段】
【0010】
上記の問題は、独立請求項の主題によって解決される。さらに好ましい実施形態は、従属請求項の主題によって与えられる。
【0011】
本発明は、変動のいくつかの要因がモデルに明示的に存在する場合、学習および推論がより容易になり得るという理解に基づいている。
【0012】
本発明は、新規性による変動から動きによって引き起こされる変動を解きほぐすことによって、特徴レベルの予測を表現する。本発明のいくつかの実施形態では、特徴ベースの予測は、ローカル近傍全体の時空間相関係数で特徴テンソルを強化することによって改善することができる。これにより、セマンティッククラス全体の一般化が促進され、時間的対応の確立が簡素化される。さらに、本発明のいくつかの実施形態は、回帰された特徴のフローを伴う観測された特徴テンソルをワーピングすることによる動きによる変動を表現する。この手順は、F2F(特徴対特徴)手法との関係を強調するために、F2M(特徴対動き)予測として示される。第3に、いくつかの実施形態では、F2FおよびF2M手法の補完的な性質は、高密度に回帰された重み係数に従ってそれらの予測をブレンドすることによって活用される。提案されたF2MF予測モデルは、以前に観測された領域の精度を改善し、F2Fモジュールが新しい風景を「想像する」ことに集中することを奨励することによって、従来のF2F手法と比較して短期および中期に有利なパフォーマンスを示す。F2M予測は、前方または後方ワーピングのいずれかで実装することができる。
【0013】
本発明の一実施形態によれば、少なくとも1つのフレームのセマンティック出力を予測するコンピュータ実装方法が提供され、本方法は、あらかじめ定められた時間までカメラから入力フレームを受信するステップと、複数の特徴テンソルを受信するために、ニューラルネットワークのダウンサンプリングモジュールを介して複数の入力フレームを処理するステップと、複数の特徴テンソル間の時空間相関を決定するステップと、少なくとも1つの予測された特徴テンソルを受信するために、複数の特徴テンソルおよび時空間相関を処理するステップと、あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、ニューラルネットワークのアップサンプリングモジュールを介して、少なくとも1つの予測された特徴を処理するステップとを備える。
【0014】
本発明の一実施形態によれば、少なくとも1つのフレームのセマンティック出力を予測するための方法を実行するように構成された装置が提供され、本方法は、あらかじめ定められた時間までカメラから入力フレームを受信するステップと、複数の特徴テンソルを受信するために、ニューラルネットワークのダウンサンプリングモジュールを介して複数の入力フレームを処理するステップと、複数の特徴テンソル間の時空間相関を決定するステップと、少なくとも1つの予測された特徴テンソルを受信するために、複数の特徴テンソルおよび時空間相関を処理するステップと、あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、ニューラルネットワークのアップサンプリングモジュールを介して、少なくとも1つの予測された特徴を処理するステップとを備える。
【0015】
本発明の一実施形態によれば、プロセッサおよびメモリを含む車両構成要素が提供され、メモリは、プロセッサに提供されたときに、プロセッサに、少なくとも1つのフレームのセマンティック出力を予測する方法を実行させる命令にアクセスすることができ、本方法は、あらかじめ定められた時間までカメラから入力フレームを受信するステップと、複数の特徴テンソルを受信するために、ニューラルネットワークのダウンサンプリングモジュールを介して複数の入力フレームを処理するステップと、複数の特徴テンソル間の時空間相関を決定するステップと、少なくとも1つの予測された特徴テンソルを受信するために、複数の特徴テンソルおよび時空間相関を処理するステップと、あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、ニューラルネットワークのアップサンプリングモジュールを介して、少なくとも1つの予測された特徴テンソルを処理するステップとを備える。
【0016】
本発明の一実施形態によれば、プロセッサおよびメモリを含む車両構成要素が提供され、メモリは、プロセッサに提供されたときに、プロセッサに、単一フレーム予想と少なくとも1つの将来のフレームの高密度セマンティック予測のための方法を同時に実行させる命令にアクセスすることができる。単一フレーム予想方法は、カメラから入力フレームを受信し、対応する特徴テンソルを受信するためにニューラルネットワークのダウンサンプリングモジュールを介して入力フレームを処理するステップと、後で使用するために特徴テンソルをキャッシュし、セマンティック出力を受信するためにニューラルネットワークのアップサンプリングモジュールを介して特徴テンソルを処理するステップとを備える。高密度セマンティック予測方法は、複数のキャッシュされた特徴テンソルを検索し、複数の特徴テンソル間の時空間相関を決定するステップと、少なくとも1つの予測された特徴テンソルを受信するために、複数の特徴テンソルおよび時空間相関を処理するステップと、あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、ニューラルネットワークのアップサンプリングモジュールを介して、少なくとも1つの予測された特徴を処理するステップとを備える。
【0017】
本発明の注目すべき利点は、本明細書に記載の予測方法が、本フレームにおける従来の高密度予想と比較して、追加の計算労力をほとんど必要としないことである。詳細には、ダウンサンプリングされた特徴テンソルを処理する追加のステップは、残りの処理ステップと比較して、計算労力をほとんど必要としない。したがって、本発明は、リアルタイムの実装形態に適している。
【0018】
本発明のさらなる利点は、本明細書に記載の予測の方法が、従来の方法と比較して、追加の計算労力をほとんど必要としないことである。詳細には、ダウンサンプリングされた特徴テンソルを処理する追加のステップは、残りの処理ステップと比較して、計算労力をほとんど必要としない。したがって、本発明は、リアルタイムの実装形態に適している。
【0019】
本明細書で提案される方法のうちのいくつかの中心的な態様は、i)高密度セマンティック予測、ii)特徴および特徴の動きの共同予測、およびiii)以前に観察されたシーンの部分を新しい風景から区別することであり得る。
【0020】
さらに詳細には、将来のセマンティクスの予期は、現在のアクションのインテリジェントな計画の前提条件である。最近の研究は、ビデオにおける深層学習を通じてシーンダイナミクスの法則を暗黙的にキャプチャすることによってこの問題に対処している。しかしながら、既存の手法は、閉塞されていない出現しつつある風景を、以前に観察されたシーンの部分と区別することができない。前者は純粋な認識を必要とし、後者はワーピングによって説明できるため、これは明らかに最適ではない。以前のすべての手法とは異なり、私たちの方法は、観察されていない風景の出現を予想することと、新規性によって引き起こされる変動と動きによる変動を解きほぐすために、その情報を利用することとが可能である。
【0021】
本明細書において説明する方法は、特徴レベルで高密度セマンティック予測を実行する。従来の手法とは異なり、予測プロセスは、過去と未来の間の因果関係として表現することによって正規化される。提案されたF2M(特徴対動き)予測は、多くの画像位置において従来のF2F(特徴対特徴)手法よりも一般化されている。両方の長所は、F2MおよびF2F予想を高密度に回帰された重み係数とブレンドすることによって達成される。結果として得られるF2MF手法は、Cityscapesデータセットに対するセマンティックセグメンテーション予測の最先端を大幅に上回っている。
【0022】
畳み込み特徴は、離散変位の小さいセットのコストボリューム内に編成されたそれぞれの相関係数で補完される。私たちの予測モデルは、F2F予測の幾何学的性質を説明するために、変形可能な畳み込みを使用する。これらの2つの改善により、F2F、F2M、およびF2MFの3つの特徴レベルの手法すべてに明確な利点がもたらされる。私たちの知る限り、これはセマンティック予測のためにこれらの改善を使用した最初の説明である。
【0023】
提案されたF2MF方法は、インスタンスセグメンテーションとパノプティックセグメンテーションという2つの追加の高密度予想タスクで評価される。これらの実験では、サードパーティの単一フレームモデルを使用しており、したがって、私たちの方法を、あらゆる種類の高密度予想モデルを競合する予測モデルに変換するためのドロップインソリューションとして正常に使用できることを示している。
【0024】
本明細書において説明する方法は、マルチモーダルな将来にも当てはまり、これは、実際のアプリケーションにおける長期予測と最悪の場合の推論の鍵となる。他の適切な拡張は、エンドツーエンドのトレーニングに対する障害の克服、RGB予測への拡張、ならびに隣接するビデオフレームにおける時間的に一貫した予想の実施を含む。
【0025】
本発明の概念をよりよく理解するために提示されているが、本発明を制限するものと見なされるべきではない本発明の実施形態を、以下の図面を参照して説明する。
【図面の簡単な説明】
【0026】
【
図1】本発明の一実施形態による予測手法の概略図である。
【
図2】本発明の一実施形態による、特徴対特徴(F2F)および特徴対動き(F2M)の両方を使用する予測手法の概略図である。
【
図3】本発明の一実施形態による、F2MFを使用する予測手法のさらなる詳細を示す図である。
【
図4】本発明の一実施形態による単一フレームモデルの概略図である。
【
図5A】本発明の一実施形態による予測手法を採用するように構成された装置を示す図である。
【
図5B】本発明の一実施形態による車両構成要素を示す図である。
【
図6】提案された発明の概要を示す図である。本システムは、入力(AおよびB)において2つの入力フレームを受信し、出力においてセマンティック予測(C)を生成する。私たちのシステムは、w_F2M>w_F2Fであるシーンの観察された部分を、w_F2M<w_F2F(D)である閉塞されていない出現しつつある風景から区別する。
【発明を実施するための形態】
【0027】
図1は、複合畳み込みニューラルネットワーク(CNN)として実装される予測手法の概略図を示している。予測手法の入力は、複数の入力フレームである。
【0028】
これらの入力フレームはそれぞれ、入力フレームをダウンサンプリングされた特徴テンソルに処理する畳み込み認識モジュールによって処理される。復元された特徴テンソルの解像度は、入力フレームの解像度に比べて大幅に低下する。これにより、たとえ入力解像度がメガピクセル範囲にある場合でも、時空間対応を効率的に回復することができる。
【0029】
CNNはディープニューラルネットワークのクラスであり、視覚的イメージの分析に最も一般的に適用される。共有重みアーキテクチャと並進不変特性に基づいて、シフト不変または空間不変の人工ニューラルネットワーク(SIANN)としても知られることがある。CNNは、多層パーセプトロンの正規化バージョンである。多層パーセプトロンは通常、完全に接続されたネットワークを意味し、すなわち、1つの層における各ニューロンは、次の層におけるすべてのニューロンに接続されている。畳み込みネットワークは、ニューロン間の接続パターンが動物の視覚野の組織に似ているという点で、生物学的プロセスによって触発された。個々の皮質ニューロンは、受容野として知られている視野の制限された領域においてのみ刺激に反応する。異なるニューロンの受容野は、視野全体をカバーするように部分的に重なり合っている。CNNは、他の画像分類アルゴリズムと比較して、比較的少ない前処理を使用する。これは、ネットワークが従来のアルゴリズムにおいて手動で設計されたフィルタを学習することを意味する。特徴設計における事前の知識と人間の努力からのこの独立性は、大きい利点である。
【0030】
ダウンサンプリングされた特徴テンソルに基づいて、特徴テンソル間の時空間対応が確立され、次のステップにおいて、予測された特徴テンソルが、特徴テンソルの時空間対応に基づいて推測される。
【0031】
複数の特徴テンソル間の時空間対応、すなわち空間相関ならびに時間相関、すなわち空間および時間にわたる相関を含めることによって、予測のパフォーマンスは、この部分を使用しない従来の技法と比較して改善することができる。
【0032】
さらに、予測された特徴テンソルは、CNNの別のモジュールによってアップサンプリングされ、出力として出力される。この出力は、セマンティックセグメンテーション、インスタンスセグメンテーション、またはパノプティックセグメンテーションなどの高密度セマンティック予想であり得る。CNNのこのタイプのモジュールは、UPモジュールとも呼ばれる。これは、自動運転などの多くの高レベルのタスクにはセマンティック情報で十分であり、RGBフレームの予測は計算コストが高くなる可能性があるため、意思決定のプロセスにとって有利な場合がある。
【0033】
予測に関して、最先端技術においていくつかの技法が知られている。将来のセマンティックセグメンテーションを予測する歴史的に最初の技法は、直接セマンティック予測と呼ばれる。そこでは、セマンティクス対セマンティクス(S2S)手法が使用される。このモデルは、入力で過去のセグメンテーションを取得し、出力で将来のセグメンテーションを生成することによって、直接予測手法に従う。しかしながら、このアイデアに基づく、知られている手法の予測精度は、他の技法と比較して不十分な場合がある。予測を成功させるために、対応のしやすさとエラーの伝播の回避が重要である可能性があることが示唆されている。
【0034】
もう1つの技法は、フローベースの予測である。直接セマンティック予測は、すべての動きパターンを1つずつ学習する必要があるため、大量のトレーニングデータが必要である。これは、予測モデルが画像平面における2Dの動きを反映する幾何学的特徴にアクセスできるようにすることによって改善された。そのアイデアをさらに発展させると、本明細書の他の場所で説明されているように、予測されたオプティカルフローに従って最後の高密度予想をワープするフローベースの予測が可能になる。この手法は、適度に良好な短期予測精度を達成する。彼らの畳み込みLSTM(Long Short Term Memory、長短期記憶)モデルは、3つの観測されたフレームから後方オプティカルフローを受信し、将来のフレームの後方オプティカルフローを生成する。LSTMは、入力構造がシーケンシャルである問題のモデルにおいてしばしば使用されるリカレントニューラルネットワークのバージョンである(典型的な例は、単語と文字が順番に来る自然言語処理の問題である)。しかしながら、この問題の明らかなシーケンシャルな性質により、最初に入力画像を畳み込みネットワーク、つまり畳み込みLSTMで処理することによって、画像/フレーム入力でLSTMネットワークを使用することができる。そのような定式化は、本明細書で説明するF2Mモジュールに関連しており、逆流によるワーピングすることによっても予測される。しかしながら、F2Mモジュールは抽象的な畳み込み機能で動作し、外部構成要素や追加の監視を必要としない。これは、特徴回帰損失を伴う複合ディープモデルの共同トレーニングによって実現される。これは、サブサンプリングされた解像度による非常に効率的な推論を意味し、エンドツーエンドのトレーニングによるエラーの伝播を阻止する。さらに、最後の予想だけに依存するのではなく、過去のフレームからの特徴テンソルが考慮される。これにより、F2Mモジュールは複雑な非閉塞パターンを検出し、可能な場合は過去から単純にコピーすることができる。さらに、モジュールは、フローパターンを補完し、しばしば将来の動きと強く相関する生のセマンティック特徴テンソルにアクセスすることができる(たとえば、自動車対歩行者を考慮されたい)。最後に、F2Mモジュールを、これまで観測されていなかった風景でF2Mよりも優れた
純粋な認識ベースのF2F予測で補完する。
【0035】
オプティカルフローは、単一フレーム入力からマルチモーダルの将来のビデオを生成するためにも使用されている。しかしながら、本明細書で説明するF2M方法は、逆の手法を取り、複数のフローも予測するが、フローは単一の将来のフレームをいくつかの過去のフレームと接続する。また、マルチモーダル予測は、本開示の枠組みで実現可能である。
【0036】
さらに、関連する技法は特徴レベルの予測である。この手法は、過去の特徴テンソルを将来の対応物にマッピングし、これは、F2F(特徴対特徴)予測としても知られている。典型的なF2F手法は、完全に接続された層からの画像全体の特徴テンソルで動作する。あるいは、アップサンプリングパスのすべてのレベルに沿って特徴テンソルを回帰することによって、高密度な予測を実現することができる。しかしながら、細かい解像度での予測は計算コストがかかるため、一部の手法は粗い特徴レベルでの予測に戻る。F2Fモジュールにおける変形可能な畳み込み、クロスエントロピーによるアップサンプリングパスの微調整、および単一フレームモデルを活用することによって、最先端の中期精度が達成されている。このモデルには、スキップ接続がある場合とない場合があり得る。スキップ接続は、ニューラルネットワークの層のうちのいくつかが処理によってスキップされる機能として理解することができる。言い換えれば、ディープモデルの層は、それらの直前の層のみで動作するか(スキップ接続なし)、スキップ接続を介していくつかの以前の層から活性化を受信することができる。粗い解像度での予測は、フレーム間の変位が小さく、コンテキスト情報が豊富で、計算フットプリントが小さいため有利であるが、小さいオブジェクトを回復するための情報の一部がプロセスにおいて失われる可能性がある。
【0037】
本発明は、以下の利点を含む。第1に、正規化された特徴テンソルを予測することによって、予測精度が改善される。一実施形態では、これらの正規化された特徴テンソルは、SPP(空間ピラミッドプーリング)特徴テンソルである。SPP特徴テンソルは、空間ピラミッドプーリングモジュールの出力にある畳み込み特徴テンソルである。ピラミッドプーリングモジュールは通常、ダウンサンプリング部分(DNモジュール)の最後にある。これは「プール」する、すなわち、ローカル領域を平均化することによって特徴テンソルの解像度を下げる。これは、様々なサイズのローカル領域で行われ、異なる解像度の特徴テンソル(したがって、ピラミッド)を生成する。次いで、それらは共通の解像度を持つテンソルを特徴とするようにアップサンプリングされ、連結され、畳み込みネットワークにおいてさらに使用される。さらに、提案された方法とそのF2F手法は、粗い解像度で予測することが可能であり得る。
【0038】
第2に、隣接する特徴テンソル間の対応は、畳み込み特徴テンソル間の時空間相関を回復することによって明示的にモデル化される。そのような幾何学的洞察により、予測の精度をさらに改善し得る。第3に、F2M予測が導入される。これは、回帰された特徴フローで以前の特徴テンソルをワーピングすることによって動作する。F2MとF2Fの手法は、共有特徴テンソルを備えたマルチヘッドF2MFモデルにおいて相互に補完し合う。さらに、F2Fは、何が起こるかをモデルが想像しなければならないシーンの新しい部分において優れていることが証明されているが、F2Mは以前に観察された風景に優勢である。これは、再構築された特徴テンソルの予測された将来の自我位置への再投影としての特徴レベルの予測の定式化に関連する。しかしながら、そのような純粋に幾何学的な手法は、(非)閉塞や視点の変化が存在する場合、明らかに最適ではない。さらに、動くオブジェクトの独立した動きを説明することは困難である。パフォーマンスの改善における大きいマージンはこれを強調し、最適な予測パフォーマンスには再構築と認識との間の注意深いバランスが必要であり、明示的な3D推論は必要ない場合があることを示唆する。
【0039】
図2は、特徴対特徴(F2F)および特徴対動き(F2M)の両方を使用する予測手法の概略図を示している。
図1と比較すると、
図2に存在する予測された特徴を推測するステップのより多くの詳細がある。より具体的には、
図2は、DNモジュールによって特徴テンソルにダウンサンプリングされる複数の入力フレームのステップ、特徴テンソル間の時空間対応を確立するステップ、時空間対応に基づいて特徴を予測するステップ、および予測された特徴テンソルをUPモジュールによってセマンティック出力にアップサンプリングするステップも示している。
【0040】
予測のステップは、以下のように詳細に示されている。予測の第1の部分において、特徴対特徴(F2F)予測のステップが実行される。このステップにおいて、予測された特徴テンソルは、観測されたフレームからの処理された特徴から、すなわち、入力フレームのダウンサンプリングから、および任意で時空間相関から取得された特徴テンソルから回帰される。
【0041】
予測の第2の部分において、特徴対動き(F2M)予測のステップが実行される。このステップにおいて、F2F予測の正規化された変形が実行される。これは、過去と未来の間に因果関係があると仮定する。過去と未来の因果関係が含まれているため、F2F予測と比較してパフォーマンスを改善することができる。
【0042】
これの可能な実装形態は、オプティカルフローの概念に密接に関連しているワーピングである。オプティカルフローは、隣接する画像フレームItとIt+1の間の高密度な2次元(2D)の動きを再構築する。フローは、前方または後方のいずれかにおいて定義することができる。将来の画像It+1は、前の画像Itを前方フローft
t+1=flow(It、It+1)で前方ワーピングすることによって、またはItを後方フローft+1
t=flow(It+1、It)で後方ワーピングすることによって近似することができる。
【0043】
【0044】
上記の近似的な等式は、2つの連続する画像間の全単射マッピングは、しばしば(非)閉塞や視点の変化のために確立できないことを思い出させる。
【0045】
言い換えれば、画像の(オプティカル)フローは、ピクセルがフレームからフレームへと明らかに移動する方向を指定する方法である。たとえば、スチルカメラからのビデオは、右に移動する自動車をキャプチャする場合がある。フレームにおいて、この自動車のピクセルは明らかに右に移動しており、それらのフローは右にある(フローは速度も指定する)。同じフレーム内の別の自動車が左に移動している可能性があり、そのピクセルは左に流れている。背景ピクセルはフレーム間で静止したままであり、それらのフローはゼロである。もちろん、フローは、他のオブジェクトの移動だけでなく、カメラ自体の移動、またはその組合せによっても発生する可能性がある。あるいは、オプティカルフローを画像ピクセルに直接使用するのではなく、畳み込みニューラルネットワーク内の特徴テンソルに使用することもできる。
【0046】
さらに、ワーピングはオプティカルフローに関連しており、現在の(明らかな移動しているピクセル)のフローを知ることで、フロー速度によって指定された量だけピクセルをフロー方向に移動するだけで、まだ観測されていない将来のフレームをペイントすることができる。これは、ピクセルを移動して将来のフレームの正しい位置にペイントするか(前方ワープ)、または、対応する前のピクセルを検索するために、将来のフレームのすべてのピクセルを具体的にペイントする方法を尋ね、負のフロー方向に移動する(後方ワープ)ことによって実行することができる。フローと同様に、これは画像のフレームまたは畳み込みニューラルネットワークの機能のいずれかを使用して実行することができる。
【0047】
オプティカルフロー研究の最近の開発では、エンドツーエンドのトレーニング済み対応と、対応が存在しない(非)閉塞領域の動きを推測する機能により、深い畳み込みモデルが活用されている。これらのモデルは、対応メトリックとして機能するローカル埋め込み、および相関層内の明示的な2Dの動き回復に基づいている。正しいフローベースの予測は、まだ観測されていない過去と未来のフレーム間のオプティカルフロー推定を必要とする点に留意されたい。その結果、過去のオプティカルフローの直接的な外挿は、特に歩行者などの関節のあるオブジェクトで、たとえ短期の予測でも最適ではない精度を達成することになる。
【0048】
次いで、それぞれの予測の結果がブレンド(B)によって結合され、1つの予測された特徴が生成され、UPモジュールによるアップサンプリングの対象となり、出力につながる。
【0049】
図3は、予測手法のさらなる詳細を示している。特に、
図3は、時空間相関の決定の詳細を示している。第1に、複数の特徴テンソルが連結される。これらの連結された特徴テンソルは、次いで以下の様々な手順で使用される。第1のステップにおいて、連結された特徴テンソルが処理動作の対象になる。そのような動作は、特徴テンソルの重要な情報が収集され、より少ない特徴テンソルに含まれる動作であり得る融合動作であり得る。融合動作は、専用の畳み込みモジュールを使用し得る。第2のステップにおいて、連結された特徴の相関が計算される。これらのステップの結果は連結され、予測ステップへの入力として提供される時空間相関と組み合わされた特徴テンソルを表す。本明細書の他の場所で説明されているように、この予測ステップは、F2F、F2M、および両方の組合せを採用し得る。特にF2Mの場合、連結された特徴テンソルはワーピング手順(W)において使用される。次いで、
図2に関連してすでに説明したように、F2F手法とF2M手法の結果は、予測された特徴テンソルを提供するためにブレンド(B)によって結合される。
【0050】
時空間相関は、ニューラルネットワークの対応するモジュールによって決定され得る。詳細には、隣接する特徴テンソル間で時空間対応が決定される。一例では、入力時に、ニューラルネットワークは畳み込み特徴テンソルを有するテンソルを受信する。すべての時点からの特徴テンソルは、共有畳み込みによって拡張されたメトリックプロパティを有する空間に埋め込まれる。このマッピングは、単一フレームの推論に必要のない識別情報を回復することができる。続いて、コサイン類似度が内積になるように、特徴テンソルを単位ノルムに正規化することによって、メトリック埋め込みが構築される。最後に、固定された近傍内の様々な時点における特徴間の対応マップが作成される。
【0051】
図4は、単一フレームモデルの概略図を示している。
図4において、DNモジュールが入力画像を特徴テンソルに変換することが示されており、これは凝縮表現とも呼ばれる。同様に、UPモジュールによるアップサンプリングは、凝縮表現をセマンティック出力に変換する。
【0052】
以下に、予測の詳細をいくつか提示する。特徴対特徴ネットワークは、処理された入力特徴テンソルを受信し、将来の特徴テンソルを直接回帰する。これは従来の技法といくつかの類似点を共有しているが、少なくとも1つの重要な違いがある。F2Fネットワークは、対応を最初から学習する必要性を軽減する時空間相関特徴テンソルにアクセスすることができる。これは、予測に関するこれらの特徴テンソルの利点につながり、これは、既存のデータセットでは対応が簡単に学習されないことを示唆している。
【0053】
現在の手法と従来の技法とのもう1つの重要な違いは、この手法では、大幅にサブサンプリングされた表現、たとえば、最大32倍のサブサンプリングされた表現に対して予測を実行できることである。これにより、時空間対応の確立が簡単になり、したがって計算労力が軽減される。
【0054】
F2Mモジュールは、F2F予測の正規化された変形を提供する。これは、過去と未来の間に因果関係があると仮定しており、これは2Dワーピングによって説明することができる。F2Mモジュールは、処理された入力特徴テンソルを受信し、特徴テンソルの各々を将来の対応物にワープするための高密度な変位場を出力する。予測は最終的に、活性化関数としてソフトマックス関数を使用する回帰されたピクセルごとの重みベクトルとブレンドされる。その結果、予測では、シーンの閉塞されていない部分を最もよく見るために、観測されたフレームを利用することができる。
【0055】
F2Mワーピングには、後方ワーピングと前方ワーピングの少なくとも2つの可能性がある。後方ワーピングは、将来のフレームにおいて後方の特徴フローが必要であるが、前方ワーピングは、観測されたフレームにおいて前方のフローが必要である。しかしながら、通常の解像度を考えると、前方ワーピングは後方ワーピングよりも計算量がはるかに多くなる傾向があり、たとえば、サブサンプリングされた解像度は、それでも実現可能である。
【0056】
これらの2つの特徴フローはまったく異なる。前方フローは観測された特徴と一致し、対応する後方フローは予測された特徴と一致する。最後に観察された画像におけるいくつかの移動オブジェクトのピクセルについて考察する。その前方フローは、現在のオブジェクトの位置を(畳み込み的に言えば)見ることによって推測される。一方、後方フローは、将来のオブジェクトの場所を確認する必要がある。したがって、後方フローは正しく動作するためにより大きい受容野を必要とする。後方F2Mは、動きの影響に対処し、将来のテンソルの特定の場所に「入る」可能性のある、観察されたすべての活性化を考慮することによって決定を下す。その結果、受容野が十分に大きければ、閉塞による競合を正しく解決する良いチャンスとなる。一方、前方F2Mは、動きの原因に対処し、特徴活性化の観察された動きを考慮することによって決定を下す。したがって、前方F2Mは、実行可能な変位の確率分布をモデル化することができ、これにより、マルチモーダルな将来の長期予測の興味深い選択肢となる可能性がある。
【0057】
複合F2MFモデルは、F2MおよびF2F出力を、高密度に回帰されたソフトマックス活性化重みとブレンドする。F2MFモデルは、F2M重みのソフトマックス事前活性化を再使用し得る。
【0058】
F2Mヘッドは、対応の確立が比較的容易な静的領域において好まれる可能性があるが、F2Fヘッドは動的な風景に貢献し、以前は観察されなかったピクセルにおいて全責任を負う。これは、F2FとF2Mが相互に補完し合うことを示唆している。
【0059】
最後に、複合モデルは、F2FとF2Mの特徴のほとんどが共有されているため、容量がわずかに大きいにもかかわらず、独立したモデルよりも優れている。
【0060】
さらに、一般に、後方ワーピングと前方ワーピングの2つの手法は、標準セットアップにおいて非常に類似した結果を達成すると言える。したがって、より効率的なオプションとして後方定式化を使用することは、価値のあるオプションであり得る。代替の前方ワーピングは、受容野が限られている場合に利点があり得、後方ワープを伴うF2Mはより大きい受容野を必要とするという理解を支持する。これらの調査結果を総合すると、これは2つの手法が相互に補完し合うという理解と一致する。
【0061】
特徴の正規化に関しては、正規化により短期および中期の両方で精度が改善する点に留意されたい。
【0062】
F2FとF2Mの比較に関しては、全体として、独立したF2Fが独立したF2Mよりも優れている点に留意されたい。しかしながら、F2Mは新しいピクセルにおいて非常にパフォーマンスが低いため、以前に観察された領域ではF2MがF2Fよりもパフォーマンスが優れている可能性がある。
【0063】
図5Aは、本明細書で説明される予測手法のうちのいずれかを採用するように構成された装置を示している。そのような装置は、入力データ、処理されたデータ、出力データなどのデータを記憶するためのストレージを備え得る。入力データは入力フレームであり得、処理されたデータはDNモジュールによるダウンサンプリングのステップ後の特徴であり得、計算された相関、予測された特徴、および出力データは出力であり得る。モジュールは、本明細書に記載されるように計算を実行するプロセッサをさらに備え得る。そのようなプロセッサは、中央処理装置(CPU)またはグラフィックス処理装置(GPU)、あるいは必要な計算ステップを実行するように構成された他の任意のユニットであり得る。
【0064】
さらに、実装形態は完全にハードウェアに基づくことができ、そのようなハードウェア構成は、フィールドプログラマブルゲートアレイ(FPGA)または特定用途向け集積回路(ASIC)を使用し得る。さらに、モジュールは、入力を受信するための入力ユニットと、出力を出力するための出力ユニットとを備え得る。
【0065】
図5Bは、本発明の一実施形態による車両構成要素を示している。車両構成要素は、本明細書に記載されるような意思決定プロセスを支援または実行するために、車両において提供され得る。車両構成要素は、たとえば、プロセッサおよびメモリを備え得、メモリは、プロセッサに提供されたときに、プロセッサに、単一フレーム予想と少なくとも1つの将来のフレームの高密度セマンティック予測のための方法を同時に実行させる命令にアクセスすることができる。単一フレーム予想方法は、カメラから入力フレームを受信し、対応する特徴テンソルを受信するためにニューラルネットワークのダウンサンプリングモジュールを介して入力フレームを処理するステップと、予測方法の入力として特徴テンソルをキャッシュし、セマンティック出力を受信するためにニューラルネットワークのアップサンプリングモジュールを介して特徴テンソルを処理するステップとを備える。高密度セマンティック予測方法は、複数のキャッシュされた特徴テンソルを検索し、複数の特徴テンソル間の時空間相関を決定するステップと、少なくとも1つの予測された特徴テンソルを受信するために、複数の特徴テンソルおよび時空間相関を処理するステップと、あらかじめ定められた時間よりも長い時間の間、少なくとも1つの予測されたセマンティック出力を受信するために、ニューラルネットワークのアップサンプリングモジュールを介して、少なくとも1つの予測された特徴を処理するステップとを備える。予測方法の出力は、本明細書で説明されているように、車両の自動運転における意思決定に関連して使用することができる。そのような構成要素は、単一フレーム予想の方法よりも予測の計算オーバーヘッドが非常に小さいため、リアルタイムで動作できる。
【0066】
車両構成要素は、入力フレームを受信し、セマンティック表現を出力する入力/出力インターフェースを備え得る。車両構成要素は、ソフトウェアを含む既存のハードウェア構成要素の一部である場合もあれば、追加の構成要素である場合もある。たとえば、既存のハードウェア構成要素に、前記既存のハードウェア構成要素が説明された車両構成要素として機能することを可能にするソフトウェアアップデートが提供される可能性がある。
【0067】
【0068】
図6Aおよび
図6Bは、入力で受信された2つの入力フレームを示している。これらのフレームは、自動車が横切って移動し、他の要素、たとえば建物の前にいるという、運転中に遭遇する典型的な状況を示している。意思決定に関連する質問は、通過した自動車の背後にあるコンテンツをどのように予測するかである。
【0069】
図6Cは、2つの入力フレームの出力におけるセマンティック予測を示している。図示されるように、セマンティック予測は、道路、背景、ケア、建物、空のクラスの要素を含む。
【0070】
図6Dは、シーンの様々な識別部分における重みw_F2Mおよびw_F2Fを示しており、特に、w_F2M>w_F2Fであるシーンの部分を、w_F2M<w_F2Fである閉塞されていない出現しつつある風景から示している。
【0071】
全体として、本開示は、過去と未来との間の因果関係をモデル化することによって推論を正規化する特徴レベルの予測手法について論じている。F2M(特徴対動き)予測は、多くの画像位置において従来のF2F(特徴対特徴)手法よりも一般化されている。両方の手法の長所は、F2MおよびF2F予想を高密度に回帰された重み係数とブレンドすることによって達成される。結果として得られるF2MFモデルは、セマンティックセグメンテーション予測の最先端を上回ることができる。この手法は、他の種類の高密度セマンティック予想の予測にも適用することができる(たとえば、インスタンスセグメンテーションおよびパノプティックセグメンテーションなど)。従来の技法とは異なり、この予測手法は、以前に観察されたシーンの一部と新しい風景とを区別することができる。
【0072】
本発明の特定の特徴は、セマンティック予測のための相関特徴テンソルの使用である。これらの特徴テンソルは、F2F、F2M、およびF2MFの3つの特徴レベルの手法すべてに明確な利点をもたらす。
【0073】
さらに、ワープ方向に関する2つのF2M変形について本明細書で説明する。前方ワーピングを使用するF2Mは、受容野が小さいセットアップにおいてパフォーマンスが向上し、動きの不確実性の確率的モデリングが可能になる。しかしながら、後方ワーピングを使用するF2Mは、通常のセットアップにおいても同様に一般化される。
【0074】
車両の自動運転における意思決定のプロセスにおける出力の予測に関する上記の議論の適用に留意されたい。このアプリケーションでは、出力の予測を改善するという上記の利点は、取得した画像をより適切に分析すると、より適切な意思決定が可能になるため、意思決定のプロセスにおける利点に直接変換することができる。
【0075】
詳細な実施形態が記載されているが、これらは、独立請求項によって定義される発明のより良い理解を提供するために役立つだけであり、限定的であると見なされるべきではない。
【外国語明細書】