IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ マレリ ヨーロッパ エス.ピー.エー.の特許一覧

特表2022-521881車両のアクションの予測を取得するためのシステムおよび対応する方法
<>
  • 特表-車両のアクションの予測を取得するためのシステムおよび対応する方法 図1
  • 特表-車両のアクションの予測を取得するためのシステムおよび対応する方法 図2
  • 特表-車両のアクションの予測を取得するためのシステムおよび対応する方法 図3
  • 特表-車両のアクションの予測を取得するためのシステムおよび対応する方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-13
(54)【発明の名称】車両のアクションの予測を取得するためのシステムおよび対応する方法
(51)【国際特許分類】
   B60W 30/10 20060101AFI20220406BHJP
   G06T 7/00 20170101ALI20220406BHJP
   G08G 1/16 20060101ALI20220406BHJP
   B60W 40/02 20060101ALI20220406BHJP
   B60W 60/00 20200101ALI20220406BHJP
【FI】
B60W30/10
G06T7/00 650Z
G06T7/00 350C
G08G1/16 C
B60W40/02
B60W60/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021538257
(86)(22)【出願日】2020-02-20
(85)【翻訳文提出日】2021-07-08
(86)【国際出願番号】 IB2020051422
(87)【国際公開番号】W WO2020174327
(87)【国際公開日】2020-09-03
(31)【優先権主張番号】102019000002853
(32)【優先日】2019-02-27
(33)【優先権主張国・地域又は機関】IT
(81)【指定国・地域】
(71)【出願人】
【識別番号】519437087
【氏名又は名称】マレリ ヨーロッパ エス.ピー.エー.
(74)【代理人】
【識別番号】110000877
【氏名又は名称】龍華国際特許業務法人
(72)【発明者】
【氏名】ディ ステファノ、エリカ
(72)【発明者】
【氏名】ファーラン、アクセル
(72)【発明者】
【氏名】フォンタナ、ダヴィデ
(72)【発明者】
【氏名】チャーヌクハ、イヴァン
(72)【発明者】
【氏名】サンギネト、エンバー
(72)【発明者】
【氏名】セベ、ニクラエ
【テーマコード(参考)】
3D241
5H181
5L096
【Fターム(参考)】
3D241BA11
3D241CE04
3D241CE05
3D241DA52Z
3D241DB02Z
3D241DC41Z
5H181AA01
5H181BB20
5H181CC04
5H181FF14
5H181FF22
5H181FF27
5H181LL01
5H181LL09
5H181LL14
5L096BA04
5L096CA04
5L096HA11
5L096JA11
(57)【要約】
車両(V)のアクション(a)の予測を取得するためのシステム(10;20)であって、
上記車両(V)によって観察された、特に上記車両(V)の前方のダイナミックシーンの一連のイメージ(F)を取得するためのカメラと、
上記車両(V)によって観察された上記ダイナミックシーンの上記一連のイメージ(F)における、各時間ステップ(t)におけるそれぞれの取得されたイメージ(F)について、対応するビジュアル特徴ベクトル(v)を取得するよう構成された畳み込みニューラルネットワークビジュアルエンコーダ(50)と、
同一の時間ステップ(t)における上記車両(V)の位置(s)を取得するよう構成された1または複数のセンサ(40)と、
上記同一の時間ステップ(t)における、上記ビジュアル特徴ベクトル(v)および上記車両の位置(s)を受信して、上記車両(V)の上記アクションの予測(a)を生成するよう構成された再帰型ニューラルネットワーク、特に、LSTMネットワーク(65;70)と、を備え、
上記システム(20)は、上記車両(V)の操縦を表わす制御コマンドのセット(C)を入力として受信するよう構成され、
上記再帰型ニューラルネットワーク(70)は、複数の再帰型ニューラルネットワークの分岐(70、70、70、70)を有し、各分岐は、前上記制御コマンドのセット(C)における制御コマンド(c)に対応し、
上記システム(20)は、制御コマンド(c)を受信すると、上記再帰型ニューラルネットワーク(70)の上記対応する分岐(70、70、70、70)を選択するよう構成されたコマンド条件スイッチ(60)を備え、
よって、上記システム(20)は、上記選択された対応する分岐(70、70、70、70)を操作して、上記時間ステップ(t)における上記ビジュアル特徴ベクトル(v)および上記車両の位置(s)を処理して、上記車両(V)の上記アクションの上記予測(a)を取得するよう構成されている、システム。
【特許請求の範囲】
【請求項1】
車両のアクションの予測を取得するためのシステムであって、
前記車両によって観察された、特に前記車両の前方のシーンダイナミクスの一連のイメージを取得するためのカメラと、
前記車両によって観察された前記シーンダイナミクスの前記一連のイメージにおける、各時間ステップにおけるそれぞれの取得されたイメージについて、対応するビジュアル特徴ベクトルを取得するよう構成された畳み込みニューラルネットワークビジュアルエンコーダと、
同一の時間ステップにおける前記車両の位置を取得するよう構成された1または複数のセンサと、
前記同一の時間ステップにおける、前記ビジュアル特徴ベクトルおよび前記車両の位置を受信して、前の隠れ状態を考慮して、前記車両の前記アクションの前記予測を生成するよう構成された再帰型ニューラルネットワーク、特に、LSTMネットワークと、を備え、
前記システムは、前記車両の操縦を表わす制御コマンドのセットを入力として受信するよう構成され、
前記再帰型ニューラルネットワークは、複数の再帰型ニューラルネットワークの分岐を有し、各分岐は、前記制御コマンドのセットにおける制御コマンドに対応し、
前記システムは、制御コマンドを受信すると、前記再帰型ニューラルネットワークの前記対応する分岐を選択するよう構成されたコマンド条件スイッチを備え、
よって、前記システムは、前記選択された対応する分岐を操作して、前記時間ステップにおける前記ビジュアル特徴ベクトルおよび前記車両の位置を処理して、前記車両の前記アクションの前記予測を取得するよう構成されている、システム。
【請求項2】
前記再帰型ニューラルネットワークは、LSTMネットワークを含む、請求項1に記載のシステム。
【請求項3】
前記畳み込みニューラルネットワークビジュアルエンコーダは、ダイレート全畳み込みニューラルネットワーク(dilated fully convolutional neural network)ビジュアルエンコーダである、請求項1に記載のシステム。
【請求項4】
前記システムは、前記対応する分岐を操作して、前記車両の前記アクションの前記予測を、同一の特定の時間ステップにおける、前記取得されたイメージ、前記車両の位置および制御コマンドのマップとして取得するよう構成されている、請求項1に記載のシステム。
【請求項5】
前記操縦は、前記車両のナビゲーションパスに含まれ、特にナビゲーションシステムによって提供される、請求項1に記載のシステム。
【請求項6】
前記アクションは、ステアリング角および車両速度を含む、請求項1に記載のシステム。
【請求項7】
前記システムは、前記車両の自律運転のためのシステムに含まれる、請求項1から6のいずれか一項に記載のシステム。
【請求項8】
車両のアクションを予測する方法であって、
前記車両によって観察される、特に前記車両の前方のシーンダイナミクスの一連のイメージを取得する段階と、
畳み込みニューラルネットワーク、特にダイレート完全畳み込みニューラルネットワークビジュアルエンコーダを、対応する取得されたイメージに適用することで、各時間ステップにおけるビジュアル特徴ベクトルを取得する段階と、
同一の時間ステップにおける前記車両の位置を取得する段階と、
前記同一の時間ステップにおける、前記ビジュアル特徴ベクトルおよび前記車両の位置を、再帰型ニューラルネットワーク、特に、LSTMネットワークに供給する段階と、を備え、前記方法は、さらに、
前記車両の操縦を表わす制御コマンドのセットを判定する段階と、
前記再帰型ニューラルネットワークの複数の分岐を提供する段階であって、各分岐は、前記制御コマンドのセットにおける制御コマンドに対応する、段階と、
制御コマンドが発行されるとき、前記再帰型ニューラルネットワークの前記対応する分岐を選択し、且つ、前記時間ステップにおける前記ビジュアル特徴ベクトルおよび前記車両の位置を、前記対応する分岐に供給する段階と、
前記対応する分岐を操作して、前記車両の前記アクションの前記予測を取得する段階と、を備える、方法。
【請求項9】
前記対応する分岐を操作して、前記車両の前記アクションの前記予測を取得する前記段階は、前記対応する分岐を操作して、同一の特定の時間ステップにおける、前記取得されたイメージ、前記車両の位置および制御コマンドのマップとして、前記車両の前記アクションの前記予測を取得する段階を含む、請求項8に記載の方法。
【請求項10】
前記操縦は、前記車両のナビゲーションパスに含まれる、請求項8に記載の方法。
【請求項11】
前記アクションは、ステアリング角および車両速度を含む、請求項8に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本説明は、車両、特に道路車両のアクションの予測を取得するための技術に関し、本発明は、
車両によって観察された、特に車両の前方のシーンダイナミクスの一連のイメージを取得するためのカメラと、
上記車両によって観察された上記シーンダイナミクスの上記一連のイメージ中の、各時間ステップにおけるそれぞれの取得されたイメージについて、対応するビジュアル特徴ベクトルを取得するよう構成された畳み込みニューラルネットワークビジュアルエンコーダと、
同一の時間ステップにおける、車両の位置(s)を取得するよう構成された1または複数のセンサと、
上記時間ステップにおける、上記ビジュアル特徴ベクトルおよび車両の位置を受信して、車両のアクションの予測を生成するよう構成された再帰型ニューラルネットワーク、特にLSTMネットワークを含む。
【背景技術】
【0002】
多くのディープラーニングベースの自律運転方法は、仲介認識アプローチおよび行動反射方法(またはエンドツーエンド)という2つの主なパラダイムに分類可能である。前者は、歩行者検出器、レーンセグメンテーション、信号機/標識検出器等の異なる別個の認識コンポーネントで構成される。対応する検出結果が、1つの中間の全体シーン表現に組み合わされ、これは、車両の次のアクションをプランニングするための意思決定システム(通常ルールベース)に入力される知識である。
【0003】
一方、行動反射アプローチは、出現しつつあるパラダイムであり、それは、未加工データセンサを、車両のアクション決定へ直接マッピングすべく、ディープネットワークを訓練することで構成される。未加工データセンサ(例えば、イメージ)を入力として取り、車両アクションを出力するネットワークはまた、エンドツーエンドの訓練可能なものとして表されることもある。現在の行動反射アプローチは、畳み込みニューラルネットワーク(CNN)を用いて、例えば、回帰タスク用に訓練された単純なCNNを用いて、車両搭載カメラにより捕獲されたフレームからビジュアル情報を抽出し、出力ニューロンが、ステアリング角を予測する。この「CNNのみ」のアーキテクチャの持つ1つの課題は、あらゆる決定が現在フレームにのみ依存することである。過去フレームは全く表わされないので、観測されたシーンのダイナミクスに関する「メモリ」が存在しない。
【0004】
例えば、Huazhe Xu、Yang Gao、Fisher Yu、およびTrevor Darrellによる文献「End-to-end learning of driving models from large-scale video datasets(大規模ビデオデータセットからの運転モデルのエンドツーエンド学習)」が知られている。CVPR 2017の3530~3538ページに、LSTM(Long Short Term Memory)ネットワークを用いた、ダイナミック表現のネットワークへの導入が記載されている。
【0005】
具体的には、図1に示されるように、システム10、実際、実質的にニューラルネットワークであるシステム10は、2つの主なサブネットワークで構成され、1つは、ダイレート全畳み込みニューラルネットワークビジュアルエンコーダ、略してFCN50で、他のフレームとは独立して、各フレームから抽出されたビジュアル情報(静的)を表わす。FCN50は、時間ステップtにおいてフレームF入力が与えられると、特徴ベクトルvを用いてフレームFを表わす。具体的には、特徴ベクトルvは、FCN50の最後の層のニューロン活性化のベクトルに対応する。次に、特徴ベクトルvが現在の車両位置sに連結され(2次元ベクトルを用いて表現)、LSTMネットワーク65に入力される。この第2のサブネットワークは、その前の隠れ状態値を考慮して、最も可能性の高いアクションaを予測する。
【0006】
回帰タスクおよび平均二乗誤差損失を用いて、連続的な予測が形成され得る。しかしながら、例えば、ターゲット分布がマルチモーダルである場合に、この損失は性能が低いことが様々な研究において広く観測されている。従って、このような解決手段においては、回帰の問題が、ターゲット値の範囲を表わす離散ビンを用いて、分類タスクに投じられる。より詳しくは、ステアリング角α([-90,90]度)の取り得る値の範囲が、N=181ビンに離散化される。同様に、車両速度mの取り得る値の範囲が、N=181ビンに離散化される。結果として、ネットワークの出力ニューロン数は2N=362であり、ここで各ニューロンは「ビンクラス」に対応し、適合された損失関数(以下の式1および2を参照)は、予測値と真クラス値との間の標準交差エントロピーである。式1において、ステアリング角損失H(pα,qα)を表わす際、qα(x)はネットワーク予測であり、pα(x)は訓練正解であり、同様に式2は、速度損失H(p,q)を表わす。
【数1】
【数2】
【0007】
最終損失は、2つの交差エントロピー損失を均等に重み付けした和である。
【0008】
劣悪な損失に加え、このような解決手段は、センサのみに基づく故に、ネットワーク動作の高レベル制御を欠いている。
【発明の概要】
【0009】
1または複数の実施形態の目的は、先行技術で達成可能な解決手段に内在する制約を克服することである。
【0010】
1または複数の実施形態によると、この目的は、請求項1に規定した特徴を有する方法により達成される。1または複数の実施形態は、対応するシステムを表わしてよい。
【0011】
特許請求の範囲は、様々な実施形態に関しここに記載する技術的教示の不可欠な部分を形成する。
【0012】
本明細書に記載された解決手段によると、システムは、車両の操縦を表わす制御コマンドのセットを入力として受信するよう構成されており、
再帰型ニューラルネットワークは、複数の再帰型ニューラルネットワーク分岐を有し、各分岐は、上記制御コマンドのセットにおける制御コマンドに対応し、
上記システムは、制御コマンドを受信すると、上記再帰型ニューラルネットワークの対応する分岐を選択するよう構成されたコマンド条件スイッチを備え、
よって、上記システムは、上記選択された対応する分岐を操作して、上記時間ステップにおける上記ビジュアル特徴ベクトルおよび車両の位置を処理し、車両のアクションの上記予測を取得するよう構成される。
【0013】
本明細書に説明される解決手段はまた、車両のアクションを予測するための対応する方法も対象とする。
【図面の簡単な説明】
【0014】
以下に、実施形態について、添付図面を参照して純粋に非限定的な例示として説明する。
図1】上記内容で、既に説明した内容である。
図2】本明細書に記載された解決手段の適用の文脈を示す。
図3】本明細書に記載されたシステムのブロック模式図を表わす。
図4図3のシステムをより詳細に表わす。
【発明を実施するための形態】
【0015】
以下の説明は、実施形態の深い理解を目的として、様々な具体的詳細について説明する。実施形態は、具体的な詳細のうち1または複数を省略して、または、他の方法、コンポーネント、材料等と共に、実装可能である。他の場合においては、実施形態の様々な様相が不明瞭にならないように、既知の構造、材料または操作については詳細に図示せず、または説明していない。
【0016】
本明細書の枠組みにおいて、「一実施形態(an embodiment)」または「1つの実施形態(one embodiment)」という言及は、実施形態に関し記載された特定の構成、構造または特徴が、少なくとも1つの実施形態に含まれることを示すことを意味する。同様に、本明細書の随所に現れ得る「一実施形態において(in an embodiment」または「1つの実施形態において(in one embodiment)」等の文言は、必ずしも1つの同一の実施形態を指していない。さらに、特定の配置、構造または特徴は、1または複数の実施形態において適切に組み合わされてよい。
【0017】
本明細書で用いられる参照符号は、便宜上に過ぎず、よって保護の範囲または実施形態の範囲を定義するものではない。
【0018】
本明細書において、ネットワーク訓練された「エンドツーエンド」に基づく自律運転のディープラーニングベース方法に基づく、車両のアクションの予測を取得するためのシステムおよび方法について簡潔に説明する。本明細書に記載された解決手段は、車両の移動中に車両によって観測されたシーンダイナミクスと、例えば、搭乗者のゴール(すなわち、所望の行き先)を表わす高レベルコマンドを考慮するコマンド条件決定戦略とのジョイントモデリングを行う。シーンダイナミクスは、再帰型ニューラルネットワークを用いて(具体的には、LSTMを用いて)モデリングされる。しかしながら、本明細書に記載された解決手段は、システムおよび方法を、センサデータのみの関数である得られるネットワークを有するものではなく、搭乗者のゴールも考慮しつつシーンダイナミクスをモデリングするものとみなす。本明細書に記載された解決手段は、ネットワーク動作の高レベル制御を提供し、ネットワークへの追加の入力として外部提供される「コマンド」を活用して、ネットワーク動作を条件設定する。
【0019】
例として、図2を参照すると、街路を含む道路地図が模式的に示されており、搭乗者、例えば、車両V、具体的には道路車両または陸上車両は、地点Aから地点Bに行きたいとする。ナビゲータは、経路Pに対応する以下の一連のコマンドを生成する。すなわち、次の交差点で右に曲がり(c。以下でより詳しく説明する)、次の交差点で左に曲がり(c)、道路をたどる(c)。ここで、ネットワーク関数がセンサおよびコマンドの関数により記述され、外部的に制御されてよい。コマンド、例えば左は、ネットワークに対し短期ポリシーをプランニングするよう要求する。短期ポリシーとは、すなわち、車両を次の交差点まで走らせた後、左に曲がることを可能にする一連のアクションに対応する車両操縦である。
【0020】
本明細書に記載された解決手段により、車両Vのアクションaの予測を取得するためのシステム20が図3に示される。
【0021】
ダイレート全畳み込みニューラルネットワークビジュアルエンコーダが50で示され、当該エンコーダは、時間ステップtにおける、車両Vに搭載されたフロントカメラ(不図示)により取得されたシーンの観測されたダイナミクスを表わすイメージフレームFを受信し、このようなイメージフレームFに基づき、例えば、フォアグラウンドピクセルおよびバックグラウンドピクセル等の対応するビジュアル表現vを抽出する。上記の通り、ダイレートFCN50は、例えば、周知のAlexNetから抽出されたCNNであり、最後の緻密層を、例えばXuらにより説明される1×1畳み込みフィルタで置換したものである。それは、ImageNetで予め訓練された後、ネットワークの残部で微調整される。ダイレートFCN50は、他のフレームとは独立して各フレームFから抽出されたビジュアル情報v、すなわち静的ビジュアル情報を表わすように構成されている。より具体的には、時間ステップtにおいて入力フレームFが与えられると、ダイレートFCN50は、その最後の層のニューロン活性化により取得された特徴ベクトルまたはビジュアルベクトルvを用いて、このようなフレームFを表わす。
【0022】
ダイレートFCN50は、CNN特徴ベクトルvを、コマンド条件スイッチブロック60に出力し、コマンド条件スイッチブロックはまた、車両の現在位置sも受信する。現在の車両位置はs=(x,y)であり、x、yは、時間ステップtにおける車両Vの座標であり、エゴモーションセンサブロック40によって表されるエゴモーションセンサを用いて取得される。エゴモーションセンサとは、任意の固定参照フレームに対し車両運動を計測するセンサ(例えば、IMUセンサ)である。これらのセンサによって出力される軌跡は、各時間ステップtにおける位置を取得するように、カメラフレームと同期される。
【0023】
次に、コマンドブロック60内のCNN特徴vは、車両の現在の位置sと連結され、2次元ベクトル(x,y)を用いてジョイント表現(s,v)で表される。LSTMネットワーク70は、複数のLSTM分岐70、70、70、70を含み、この例では4つである。コマンドブロック60は、制御コマンドcを受信すると、複数のLSTM分岐70、70、70、70から、かかる制御コマンドcに対応する1つのLSTM分岐に切り替えるよう構成されている。
【0024】
具体的に、制御コマンドcは、分岐70、70、70、70の間のスイッチとして動作する。「フォーワードパス」の間、入力コマンドcに応じ、これら分岐のうちの1つのみが活性化される。その結果、ジョイント表現(s,v)の処理時に、分岐70、70、70、70のうちの現在値に対応するサブポリシーのみが関与する。好ましくは、ジョイント表現(s,v)が各LSTM分岐に入力されるが、選択された分岐のみがかかる入力を処理する。
【0025】
制御コマンドcは、コマンドcの予め定義されたセットCに由来し、iは1から|C|までのインデックスで、例えば、C={c,c,c,c}であってよい、ここで、c,c,c,cはそれぞれ本明細書の例示において、続行、左、真っ直ぐ、右として示される。これらの制御コマンドcは、例えば、車両Vのナビゲータによって発せられてよい。
【0026】
システム20は、マップ関数f(F,s,c)→aを出力、すなわち学習し、ここでaは、時間ステップtにおける予測された車両のアクションであり、すなわち、取得されたイメージFと、これは具体的に対応するCNN特徴vtにより表され、車両の現在位置sと、コマンドcとの関数としての予測された車両アクションのマップである。
【0027】
連続的な出力が用いられるので、予測された車両のアクションaは、ステアリング角および速度マグニチュードのペア、a=(α,m)として定義され、ここでαはラジアンのステアリング角であり、mは車両速度値である。
【0028】
強調すべきことは、短期ポリシーを選択するために、制御コマンドがシステム20またはネットワークへの入力として用いられる一方で、アクションは、システム10の瞬時出力であり、すなわちこのような短期ポリシーを構成する。
【0029】
各LSTM分岐70は、ビジュアルダイナミクスを表わすその前の隠れ状態値ht-1を考慮して、最も可能性の高いアクションaを予測する。特記すべき重要なことは、図3は、1つのみの隠れ状態ht-1を示すが、実際には、それぞれの分岐の各LSTMは、その独自の隠れ状態ht-1を計算する。
【0030】
図面には、システム20の一部がより詳しい態様で示されている。
【0031】
各入力フレームFは、360×640ピクセルの解像度にサイズ設定され、3つのRGBチャネルで表される。FCN50は、96 11×11フィルタを持つ第1の畳み込み層CV1、次に3×3フィルタを持つMaxPool層MP、ストライド1での5×5フィルタを持つ第2の畳み込み層CV2 27×27×256、ストライド1、パディング1での384 3×3フィルタを持つ第3の畳み込み層、ストライド1、パディング1での384 3×3フィルタを持つ第4の畳み込み層CV4、ストライド1、パディング1での256 3×3フィルタを持つ[13×13×256]第5の畳み込み層、次に、第6の畳み込み層CV6、および4096 1×1フィルタを持つ第7の畳み込み層CV7を含む。各LSTM分岐70は、それぞれ64個のニューロンを含む2つの重ねられたLSTM層を有する。各分岐における最終出力層71は、362個のニューロンで構成され、具体的には、FC Softmax層64×362である。第6の畳み込み層CV6および第7の畳み込み層CV7の後は、正則化のため、0.5に等しいドロップアウトファクタを持つドロップアウト層が適用されてよい。
【0032】
よって、まとめると、まさに説明された車両V、すなわち、道路車両または陸上車両のアクションの予測aを取得するためのシステム20は、車両Vにより観察された、具体的には車両の前方のシーンダイナミクスの一連のイメージFを取得するためのカメラであって、すなわちカメラは、車両Vの前方のイメージを撮像するカメラと、好ましくはダイレートFCNである、畳み込みニューラルネットワークビジュアルエンコーダ50であって、車両Vによって観察されたシーンダイナミクスの上記一連のイメージF中の、異なる時間tにおけるそれぞれの取得されたイメージFについて、各時間ステップtにおける対応するビジュアル特徴ベクトルvを取得し、例えば、フォアグラウンド、バックグラウンドおよびその他等のクラスにより、イメージのピクセルの分類を表わすよう構成された、畳み込みニューラルネットワークビジュアルエンコーダ50と、例えば、カメラにより取得されたイメージフレームを利用することで取得されるエゴモーションセンサ等の1または複数のセンサ40であって、同一の時間ステップにおける車両の位置sを取得するよう構成されている、1または複数のセンサ40と、再帰型ニューラルネットワーク、具体的には、LSTMネットワーク70であって、同一の時間ステップtにおける上記ビジュアル特徴ベクトルvおよび車両の位置sを受信して、前の隠れ状態ht-1を考慮して、車両(V)のアクションの予測aを生成するよう構成されている再帰型ニューラルネットワーク70と、を含み、かかるシステム20は、車両Vの操縦を表わす、具体的に一連のアクションに対応する制御コマンドのセットCを入力として受信するよう構成され、再帰型ニューラルネットワーク70は複数の再帰型ニューラルネットワーク分岐70、70、70、70を有し、各分岐は、上記制御コマンドのセットCにおける制御コマンドcに対応し、システム20は、制御コマンドcを受信すると、上記再帰型ニューラルネットワーク70の対応する分岐70、70、70、70を選択するよう構成されたコマンド条件スイッチ60を備え、よって、かかるシステム20は、スイッチ60によって選択された上記選択された対応する分岐70、70、70、70を操作して、入力、すなわち、上記時間ステップtにおける上記ビジュアル特徴ベクトルvおよび車両の位置sを処理することで車両Vのアクションの上記予測aを、具体的には、同一の特定の時間ステップtにおける取得されたイメージF、車両の位置s、および制御コマンドcのマップとして取得するよう構成される。上記の通り、好ましくは、システム20は、上記時間ステップtにおける上記ビジュアル特徴ベクトルvおよび車両の位置sを、それぞれの対応する分岐70、70、70、70に供給すると、選択された分岐のみが入力を処理し、これは、入力されたビジュアル特徴ベクトルvおよび車両の位置sを、選択された分岐のみに適用するよりも、単純な実装を表わす。
【0033】
説明されたシステム20は、好ましくは、自律運転システムに含まれ、例えば、特定の経路Pをたどる車両によって実行されるべきアクションの予測を提供する。
【0034】
図3および図4のシステム20の性能をより良く理解すべく、かかるシステム20に関連する損失関数について簡潔に説明する。
【0035】
以下の式3において、システム20の損失関数(F,s,c)が示される。
【数3】
【0036】
1番目の項は、ステアリング角αの交差エントロピー損失の和であり、2番目の項は、コマンドニムネ(command nimne)|C|にわたる速度mの交差エントロピー損失の和である。上記の通り、予測qα、およびpα、の関数は、訓練正解(training ground truth)である。分岐の数は、コマンド(|C|)の数、つまり、各項における損失要素の数に対応する。各分岐70は、コマンドcに対応する例からの学習を担う。従って、訓練正解コマンドcに関連付けられたサンプルのための1つの逆伝搬パスは、分岐70のみにおけるエラーを逆伝搬するのに貢献すべきであり、c=cである。式3において、これは、インジケータ関数1(c,c)によって表され、インジケータ関数1は、c=cの時かつその時に限り(if and only if)、1に等しい。効率性の理由のため、制御コマンドcはone‐hotベクトルとしてエンコーディングされる。
【0037】
故に、ここで開示された方法およびシステムの利点は明確である。
【0038】
上記の方法およびシステムは、コマンド条件ネットワークを用いてLSTM操作を改善し、アクションの予測を可能にする。
【0039】
FCNおよびLMTSを用いる既知の解決手段は、再帰システムであり、当該LMTSは、ステアリング角または他のパラメータを、反応として、FCNエンコーダの出力に供給する。各LMTSが具体的な車両操縦のために訓練されているコマンド条件ネットワークを用いる上記の方法およびシステムは、搭乗者の最終行先(ネットワークへの一連のコマンドとしての入力として表現され、後者は車両のナビゲータによって提供される)を考慮して動作可能である。
【0040】
また本明細書に記載された解決手段は、静的入力の代わりに、一連のイメージを起源とするダイナミック入力を、LSTM分岐のコマンド条件ネットワークに適用する。
【0041】
もちろん、実施形態の原理を損なうことなく、構造の詳細および実施形態の詳細は、専ら例示としてここで説明および図示されたものに対し広く変わってよく、これにより、以降の特許請求の範囲に規定された本実施形態の範囲から逸脱することはない。
【0042】
もちろん、システム、すなわち、本明細書で説明されたシステムのニューラルネットワークは、1または複数のプロセッサ若しくはマイクロプロセッサ、または任意の処理システム、具体的には、かかるニューラルネットワークをサポート可能な車両に配置される任意の処理システムによって実装されてよい。
図1
図2
図3
図4
【国際調査報告】