(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-03
(54)【発明の名称】効率的なオブジェクト属性および/または意図分類のための機械学習アーキテクチャ
(51)【国際特許分類】
B60W 30/08 20120101AFI20241126BHJP
B60W 40/02 20060101ALI20241126BHJP
G08G 1/16 20060101ALI20241126BHJP
G06T 7/00 20170101ALI20241126BHJP
G06N 3/04 20230101ALI20241126BHJP
【FI】
B60W30/08
B60W40/02
G08G1/16 C
G06T7/00 650B
G06N3/04
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024527058
(86)(22)【出願日】2022-11-09
(85)【翻訳文提出日】2024-07-02
(86)【国際出願番号】 US2022049434
(87)【国際公開番号】W WO2023086405
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518156417
【氏名又は名称】ズークス インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】スブハシス ダス
(72)【発明者】
【氏名】イー-ティン リン
(72)【発明者】
【氏名】デレク シアン マー
(72)【発明者】
【氏名】オイタン ウルタン
【テーマコード(参考)】
3D241
5H181
5L096
【Fターム(参考)】
3D241BA31
3D241DC01Z
3D241DC31Z
3D241DC34Z
3D241DC39Z
5H181AA01
5H181AA25
5H181AA26
5H181BB04
5H181BB05
5H181BB20
5H181CC02
5H181CC03
5H181CC04
5H181CC11
5H181CC14
5H181CC17
5H181CC22
5H181FF04
5H181FF05
5H181FF07
5H181LL01
5H181LL04
5H181LL09
5L096AA06
5L096BA04
5L096CA04
5L096DA02
5L096HA09
5L096HA11
5L096KA04
(57)【要約】
より高速なオブジェクト属性および/または意図分類のためのシステムは、時間的センサデータ(例えば、異なる時刻に受信されたセンサデータの複数のインスタンス)を処理する機械学習(ML)アーキテクチャを含み得、かつ、MLアーキテクチャの中間レイヤ内のキャッシュを含む。MLアーキテクチャは、道路に進入するオブジェクトの意図、道路の近くをアイドリングしているオブジェクト、または、道路をアクティブに横断しているオブジェクトを分類することが可能であり得る。MLアーキテクチャは、追加的または代替的に、ターン、停止などのインジケータ状態を分類し得る。他の属性および/または意図がここにおいて論じられる。
【特許請求の範囲】
【請求項1】
システムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されると、前記システムに動作を実施させるプロセッサ実行可能な命令を記憶するメモリと、を備え、前記動作は、
第1の時刻に関連付けられた第1の画像を受信することと、
前記第1の時刻よりも前の第2の時刻に関連付けられた第2の画像を受信することと、
機械学習レイヤの第1のセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、
前記第1の出力をメモリに記憶することと、
前記メモリから第2の出力を取得することであって、前記第2の出力は、前記第2の画像に関連付けられている、ことと、
1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、環境内のオブジェクトに関連付けられた属性を決定することと、
前記属性に少なくとも部分的に基づいて、車両を制御することと、を含む、システム。
【請求項2】
前記オブジェクトに関連付けられた前記属性は、
車両運動状態の表示、
オブジェクトのインジケータ状態の表示、
前記オブジェクトがアイドリングしていることの表示、
前記オブジェクトが道路への進入を意図していることの表示、または、
前記オブジェクトが前記道路を横断していることの表示を含む、請求項1に記載のシステム。
【請求項3】
前記メモリは、キャッシュであり、かつ、前記キャッシュは、機械学習レイヤの前記第1のセットのn個の出力を記憶し、nは、n個の過去の時間ステップに関連付けられた正の整数である、請求項1または2の何れかに記載のシステム。
【請求項4】
前記第1の出力及び前記第2の出力は、それぞれ、機械学習レイヤの前記第1のセットによって1回処理される、請求項1~3の何れか1項に記載のシステム。
【請求項5】
前記属性は、歩行者が道路の近くでアイドリングしていること、前記歩行者が前記道路への進入を意図していること、前記歩行者が前記道路を横断していること、前記歩行者が前記道路に進入する準備ができていること、または、前記歩行者が前記道路に関連していないことを示す、請求項1~4の何れか1項に記載のシステム。
【請求項6】
前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記属性を決定することは、
前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、
前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、
連結された出力として、前記第3の出力および前記第4の出力を連結することと、
前記連結された出力を前記第3の機械学習レイヤへの入力として提供することと、
前記第3の機械学習レイヤから第5の出力を受信することと、
前記第4の機械学習レイヤに入力として前記第5の出力を提供することと、
前記第4の機械学習レイヤから前記属性に関連付けられた信頼スコアを受信することと、を含む、請求項1~5の何れか1項に記載のシステム。
【請求項7】
機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、かつ、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、請求項6に記載のシステム。
【請求項8】
前記第1の画像は、第1のより大きな画像の第1の部分であり、
前記第2の画像は、第2のより大きな画像の第2の部分であり、かつ、
前記第1の部分および前記第2の部分は、前記第1のより大きな画像および前記第2のより大きな画像に少なくとも部分的に基づいて、第1の機械学習コンポーネントによって生成される、請求項1~7の何れか1項に記載のシステム。
【請求項9】
プロセッサ実行可能な命令を記憶する1つまたは複数の非一時的なコンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに動作を実施させ、前記動作は、
第1の時刻に関連付けられた第1の画像を受信することと、
前記第1の時刻よりも前の第2の時刻に関連付けられた第2の画像を受信することと、
機械学習レイヤの第1のセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、
前記第1の出力をメモリに記憶することと、
前記メモリから第2の出力を取得することであって、前記第2の出力は前記第2の画像に関連付けられていることと、
1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、環境内のオブジェクトに関連付けられた属性を決定することと、
前記属性に少なくとも部分的に基づいて、車両を制御することと、を含む、1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項10】
前記オブジェクトに関連付けられた前記属性は、
車両運動状態の表示、
オブジェクトのインジケータ状態の表示、
前記オブジェクトがアイドリングしていることの表示、
前記オブジェクトが道路への進入を意図していることの表示、または、
前記オブジェクトが道路を横断していることの表示を含む、請求項9に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項11】
前記メモリは、キャッシュであり、かつ、前記キャッシュは、機械学習レイヤの前記第1のセットのn個の出力を記憶し、nは、n個の過去の時間ステップに関連付けられた正の整数である、請求項9または10の何れかに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項12】
前記第1の出力および前記第2の出力は、それぞれ、機械学習レイヤの前記第1のセットによって1回処理される、請求項9~11の何れか1項に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項13】
前記属性は、歩行者が道路の近くでアイドリングしていること、前記歩行者が前記道路への進入を意図していること、前記歩行者が前記道路を横断していること、前記歩行者が前記道路に進入する準備ができていること、または、前記歩行者が前記道路に関連していないことを示す、請求項9~12の何れか1項に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項14】
前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記属性を決定することは、
前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、
前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、
連結された出力として、前記第3の出力および前記第4の出力を連結することと、
前記連結された出力を前記第3の機械学習レイヤに入力として提供することと、
前記第3の機械学習レイヤから第5の出力を受信することと、
前記第5の出力を前記第4の機械学習レイヤに入力として提供することと、
前記第4の機械学習レイヤから前記属性に関連付けられた信頼スコアを受信することと、を含む、請求項9~13の何れか1項に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項15】
機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、請求項14に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、効率的なオブジェクト属性および/または意図分類のための機械学習アーキテクチャに関する。
【背景技術】
【0002】
関連出願
[0001]このPCT国際出願は、2021年11月9日に出願された米国特許出願第17/522,832号の優先権の利益を主張し、その出願は参照により本明細書に組み込まれる。
【0003】
[0002]コンピュータビジョンは、自律車両の操作、セキュリティ目的での個人の識別といった数多くのアプリケーションにおいて使用される。コンピュータビジョン技術は、画像から顕著な部分を識別するソフトウェアコンポーネントを構築することと、コンピュータが、オブジェクトの検出、分類および/または追跡といった、さらなる操作を実行するために使用できる形式で画像の顕著な部分をコンピュータに表すことと、を含み得る。しかしながら、従来のコンピュータビジョン技術は、それ自体では、自律車両のような複雑なシステムを首尾よく動作させるために必要な、人間に近いレベルの知覚はできない。
【図面の簡単な説明】
【0004】
[0003]詳細な説明は、添付の図面を参照して説明される。図面において、参照番号の左端の数字は、その参照番号が最初に現れる図を識別する。異なる図面における同一の参照番号は、類似するまたは同一のアイテムを示す。
【
図1】[0004]
図1は、自律車両がセンサデータにおいて表される環境内の複数のオブジェクトを検出する例示的なシナリオを示す図である。
【
図2】[0005]
図2は、オブジェクト属性および/または意図を検出するための例示的なアーキテクチャを示す図である。
【
図3】[0006]
図3は、オブジェクト属性および/または意図を検出し、かつ、そうするための計算帯域幅を低減する例示的な機械学習コンポーネントアーキテクチャを示す図である。
【
図4】[0007]
図4は、本明細書において論じられる機械学習コンポーネントによって検出可能な異なるオブジェクト属性に関連付けられた例示的な画像部分を示す図である。
【
図5】[0008]
図5は、オブジェクト属性および/または意図を検出し、かつ、そうするための計算帯域幅を低減する例示的なプロセスを示すフロー図である。
【発明を実施するための形態】
【0005】
[0009]上述したように、従来のコンピュータビジョンシステムは、自律車両を運転するような複雑なシステムを動作させるのに十分な情報をそれ自体で検出することができない。本明細書において論じられる技術は、コンピュータビジョンシステムの検出有効性および能力を増加させ得る。本技術は、追加的または代替的に、コンピュータビジョンシステムを動作させるための計算負荷を低減することによって、コンピュータビジョンシステムの効率を高め得る。本明細書において論じられる技術は、複数の画像を受信する機械学習(ML)アーキテクチャを含み得るが、追加または代替の例において、他の形態のセンサデータ(例えば、飛行時間、レーダ、ライダ)が企図される。複数の画像(または、他のセンサデータ)は、複数回にわたって同じオブジェクトに関連付けられ得る。第1のMLコンポーネントは、画像においてオブジェクトを検出し得、かつ、その検出を前の時間ステップにおいてキャプチャされた画像に関連付け得る。これらの異なる画像の部分は、インスタントMLアーキテクチャへの入力として提供され得る。
【0006】
[0010]本明細書において論じられるMLアーキテクチャは、時間レンジの入力を使用して出力を生成し得る。換言すれば、MLアーキテクチャは、時間レンジまたは個別のセンサ出力の数にわたって受信されたセンサデータを使用して出力を決定し得る。例えば、MLアーキテクチャは、画像(または、オブジェクトに関連付けられたその一部)を受信し得、かつ、ML層の第1のセットを使用して画像を処理することによって、特徴のセットを決定し得る。ML層の第1のセットは、メモリ(例えば、キャッシュ)に格納され得る第1の出力を生成し得る。MLアーキテクチャの次の段階において、MLアーキテクチャは、メモリから第2の画像に関連付けられた第2の出力を取得し得、第1の画像および第2の画像は、同じオブジェクトに関連付けられ得るが、第2の画像は、第1の画像がキャプチャされた時間よりも前の時間においてキャプチャされ得る。第1の出力および第2の出力は、第2のML層によって別々に処理され得、第3および第4の出力をそれぞれ作成する。第3および第4の出力は、連結され得、かつ、第3のML層への入力として提供され、低減された特徴のセットを作成する。低減された特徴のセットは、分類タスクに関連付けられた信頼スコアを決定するために使用され得るロジットを出力し得る第3のML層への入力として提供され得る。例えば、値が無限大になり得るロジットは、シグモイド層によって信頼スコアに変換され得、信頼スコアは、0と1との間に境界があり得る。走行、歩行、立ち上がり、しゃがむといったオブジェクト状態、または、アイドリング、道路に進入する意図、道路を横断するといったオブジェクト属性のような、相互に排他的な出力の場合、シグモイド層に追加して、または、代替して、ソフトマックスが使用され得る。シグモイド層は、追加的または代替的に、双曲線正接層(hyperbolic tangent layer)、整流線形ユニット(rectified linear unit,ReLU)層、ガウス誤差線形ユニット(Gaussian error linear unit,GELU)層などであり得る。
【0007】
[0011]幾つかの例において、本明細書において論じられるMLアーキテクチャは、オブジェクトに関連付けられた属性および/またはジェスチャを分類するために使用され得る。例えば、本明細書において論じられる信頼スコアは、歩行者のようなオブジェクトが道路脇でアイドリングしている(例えば、積極的には道路を横断しようとせずに立っている、またはそうでなければ気を取られている)、立っている、またはそうでなければ移動するように位置している(例えば、車椅子の車輪の上に手を置いている、自転車のペダルの上に足を載せている)、座っている、またはそうでなければ所定の位置に留まるように位置している、自律車両を見ている、道路に進入することを意図している、積極的に道路を横断している、道路に関連せず、自律車両が進むべきであることを示している(例えば、車両に手を振っている、うなずく)などを示し得る。MLアーキテクチャは、追加的または代替的に、交通信号状態、車両インジケータ状態などのようなライト状態を分類するために使用され得る。例えば、MLアーキテクチャは、車両が停止していること、駐車していること、後退していること、左折を試みていること、右折を試みていることなどを示すように車両インジケータライトを分類し得、および/または、MLアーキテクチャは、進行する許可、慎重に進行する許可、保護されていないターン、停止する指示などを示すように交通信号を分類し得る。本明細書において論じられるMLアーキテクチャからの出力は、幾つかの例において、これらの属性のうちの1つまたは複数に関連付けられた信頼スコアを出力し得、個々の属性に関連付けられた信頼スコアを出力し得る。
【0008】
[0012]本明細書において論じられるMLアーキテクチャは、時間期間にわたって受信されたセンサデータの複数のインスタンスから様々なオブジェクト属性を検出するための計算負荷を低減し得る。MLアーキテクチャはまた、ビジョンシステムの検出能力を増加させ得、それによって、自律車両がその周囲をより高い精度で解釈することを可能にし得、車両によって生成される遅延および/または支援要求を低減し、自律車両が安全かつ効率的にナビゲートすることが可能なシナリオを増加させ得る。
【0009】
例示的なシナリオ
[0013]
図1は、車両102を含む例示的なシナリオ100を示す。幾つかの例において、例示的なシナリオ100は、現実世界のシナリオであり得、および/または、例示的なシナリオ100は、シミュレートされたシナリオとしてモデル化された現実世界のシナリオの表現であり得る。例示的なシナリオ100がシミュレートされたシナリオである例において、例示的なシナリオ100は、コンピューティングデバイスのユーザインタフェースにおいて受信された入力(例えば、コンピューティングデバイスのユーザは、環境、その中のオブジェクト、および/または、その特性を定義し得る)に少なくとも部分的に基づいて決定され得、および/または、例示的なシナリオ100は、1つまたは複数の自律車両から受信されたログデータ(すなわち、検出、予測、制御信号などを含む未加工のセンサデータおよびそれから導出されるデータを含む、物理環境において実際の運転中にキャプチャおよび記憶されたデータ)に少なくとも部分的に基づき得る。ログデータは、自律車両において受信されたセンサデータ、知覚コンポーネントによって生成された知覚データ、および/または、計画コンポーネントによって生成された指示に少なくとも部分的に基づき得る。幾つかの例において、自律車両は、ログデータを記憶し得、および/または、ログデータをリモートコンピューティングデバイスに周期的に送信し得る。
【0010】
[0014]幾つかの例において、車両102は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するように構成された自律車両であり得、この分類は、ドライバ(または乗員)が常に車両を制御することを期待することなく全行程に対する全てのセーフティクリティカルな機能を実施することが可能な車両を記述する。しかしながら、他の例において、車両102は、あらゆる他のレベルまたは分類を有する完全なまたは部分的な自律車両であってもよい。本明細書において論じられる技術は、自律車両のようなロボット制御以外にも適用され得ることが企図される。例えば、本明細書において論じられる技術は、採鉱、製造、拡張現実などに適用され得る。さらに、車両102は、陸上車両として表現されているが、宇宙船、水上機、および/または、同様のものであってもよい。幾つかの例において、車両102は、シミュレーションされた車両としてシミュレーションにおいて表現されてもよい。簡潔にするために、本明細書における説明は、シミュレーションされた車両と現実世界の車両とを区別しない。したがって、「車両」への言及は、シミュレーションされた車両、および/または、現実世界の車両を指し得る。
【0011】
[0015]本明細書に記載される技術およびシナリオ100が現実世界である例によれば、車両102は、車両102のセンサ104からセンサデータを受信し得る。例えば、センサ104は、位置センサ(例えば、全地球測位システム(GPS)センサ)、慣性センサ(例えば、加速度センサ、ジャイロスコープセンサなど)、磁気センサ(例えば、コンパス)、位置/速度/加速度センサ(例えば、速度計、駆動システムセンサ)、深度位置センサ(例えば、ライダーセンサ、レーダーセンサ、ソナーセンサ、飛行時間(ToF)カメラ、深度カメラ、および/または、他の深度感知センサ)、イメージセンサ(例えば、カメラ)、オーディオセンサ(例えば、マイク)、および/または、環境センサ(例えば、気圧計、湿度計など)を含み得る。幾つかの例において、シミュレートされたセンサは、車両102上のセンサ104のうちの少なくとも1つに対応し得、シミュレーションにおいて、センサ104のうちの1つまたは複数がシミュレートされ得る。幾つかの例において、シミュレートされたセンサの位置は、センサ104のうちの1つの車両102に対する相対位置に対応し得る。
【0012】
[0016]センサ104は、センサデータを生成し得、センサデータは、車両102に関連付けられたコンピューティングデバイス106によって受信され得る。しかしながら、他の例において、センサ104および/またはコンピューティングデバイス106のうちの幾つかまたは全ては、車両102から離れて別個に、および/または、車両102から遠隔に配置され、かつ、データキャプチャ、処理、コマンド、および/または、制御は、有線および/または無線ネットワークを介して1つまたは複数のリモートコンピューティングデバイスによって車両102との間で通信され得る。
【0013】
[0017]コンピューティングデバイス106は、位置特定コンポーネント110、知覚コンポーネント112、計画コンポーネント114、および/または、機械学習(ML)コンポーネント116を記憶するメモリ108を含み得る。幾つかの例において、MLコンポーネント116は、知覚コンポーネント112の一部であり得、MLコンポーネント116は、本明細書において論じられるMLアーキテクチャを含み得る。一般に、位置特定コンポーネント110は、1つまたは複数の座標フレームに対する(例えば、環境に対する、道路に対する、自律車両に関連付けられた動きの慣性方向に対する)車両102の姿勢(例えば、位置および/または向き)を決定するためのソフトウェアおよび/またはハードウェアシステムを含み得る。位置特定コンポーネント110は、このデータの少なくとも一部を知覚コンポーネント112に出力し得、知覚コンポーネント112は、位置特定データの少なくとも一部を出力し得、および/または、知覚データの少なくとも幾つかを決定するための基準として位置特定データを使用し得る。
【0014】
[0018]知覚コンポーネント112は、車両102の周囲の環境内に何が存在するかを決定し得、検出されたオブジェクトおよび/または環境の状態を予測する予測コンポーネントを含み得る。MLコンポーネント116は、特に、経時的に決定されたセンサデータからオブジェクトの属性を検出するために、知覚コンポーネント112が環境内に何が存在するかをどのようにして決定するかの少なくとも一部であり得る。計画コンポーネント114は、位置特定コンポーネント110および/または知覚コンポーネント112から受信した情報に従って、車両102をどのように操作するかを決定し得る。位置特定コンポーネント110、知覚コンポーネント112、計画コンポーネント114、および/または、MLコンポーネント116は、1つまたは複数の機械学習(ML)モデル、および/または、他のコンピュータ実行可能な命令を含み得る。
【0015】
[0019]幾つかの例において、位置特定コンポーネント110、知覚コンポーネント112、および/または、MLコンポーネント116は、センサ104からセンサデータを受信し得る。幾つかの例において、知覚コンポーネント112は、車両102の近傍のオブジェクトに関連するデータ(例えば、検出されたオブジェクトに関連付けられた分類、インスタンスセグメンテーション、軌跡)、車両の目的地を特定する経路データ、道路の特徴を特定するグローバルマップデータ(例えば、自律車両の位置特定に有用な異なるセンサ手段において検出可能な特徴)、車両に近接して検出された特徴(例えば、建物、樹木、フェンス、消火栓、停止標識の位置および/または寸法、並びに、様々なセンサ手段において検出可能なあらゆる他の特徴)を識別するローカルマップデータなどを決定し得る。幾つかの例において、車両102の周囲のオブジェクトは、シミュレートされた環境のシミュレートされたオブジェクトであり得る。知覚コンポーネント112によって生成されたデータは、知覚データと総称され得る。知覚コンポーネント112が知覚データを生成すると、知覚コンポーネント112は、知覚データを計画コンポーネント114に提供し得る。
【0016】
[0020]幾つかの例において、知覚コンポーネント112によって決定された予測データは、追加的または代替的に、地図データまたは他のデータに少なくとも部分的に基づき得る。幾つかの例において、予測データは、全ての目的のためにその全体が参照により本明細書に組み込まれる米国特許出願第15/963,833号において、より詳細に記載されているように、環境のトップダウンセグメンテーション、および/または、全ての目的のためにその全体が参照により本明細書に組み込まれる米国特許出願第16/779,576号において、より詳細に記載されているように、環境に関連付けられたトップダウン予測を含み得る。マップデータマップは、メモリ108によって記憶される。幾つかの例において、予測データ、および/または、他の知覚データは、ログデータの一部として記憶され得る。
【0017】
[0021]例えば、知覚コンポーネント112および/またはMLコンポーネント116は、車両120、複数のサイクリスト、複数の歩行者、複数の標識オブジェクト、および、様々な異なる環境オブジェクト(例えば、道路、歩道、木、建物)の表現を含む画像118(および/または、他のセンサデータ)を受信し得る。知覚コンポーネント112は、画像118に表されているように、車両120を検出することに少なくとも部分的に基づいて、関心領域(region of interest, ROI)122を決定し得る。図示の例において、ROI122は、境界ボックスであるが、インスタンスセグメンテーション、セマンティックセグメンテーション、マスク、および/または、矩形以外の境界形状のような、ROIを識別するための他の技術が企図される。
図1は追加的に、知覚コンポーネント112によって検出され得る異なるオブジェクトに対して知覚コンポーネント112によって生成され得る他の複数のROIを示すが、単純化および明確化のために、それらは全てラベル付けされていない。例えば、他のROIは、サイクリスト、別の車両、および、交通標識を識別するが、画像(および/または、他のセンサデータ)の追加または代替の部分が、知覚コンポーネント112によって検出され得ることが理解される。
【0018】
[0022]幾つかの例において、知覚コンポーネント112は、追加的または代替的に、第1のMLモデルによって、オブジェクトの分類を決定し得る。例えば、第1のMLモデルは、MLモデルによって決定される最も高い確率に対応する、複数の分類の中から、1つの分類の表示を出力するように訓練され得る。一般的な分類は、例えば、「サイクリスト」、「車両」、「歩行者」、「動物」、「環境オブジェクト」といった分類を含み得る。例示において、これらの分類は、分類124「サイクリスト」、分類126「車両」、分類128「歩行者」、および、分類130「標識」を含む。明確化のために、一般的な分類のサンプリングのみが
図1に示されているが、知覚コンポーネント112の第1のMLモデルは、センサデータから検出された1つまたは複数のROIおよび/またはオブジェクトについての分類を決定し得ることが理解される。
【0019】
[0023]追加的または代替的に、知覚コンポーネント112は、オブジェクトに関連付けられた履歴、現在、および/または、予測された位置、向き、速度、加速度、状態などを示し得るトラックを決定し得る。知覚コンポーネント112は、追加的または代替的に、軌跡に関連付けられたセンサデータの部分を決定し得る。例えば、軌跡は、同じオブジェクトに関連付けられたセンサデータの異なるインスタンスの部分を識別し得る。さらに例示すると、軌跡は、全て同じオブジェクトに関連付けられている異なる時間に関連付けられた異なる画像からのROIを識別し得る。換言すれば、軌跡は、同じオブジェクトに関連付けられているとして、時間において異なるオブジェクト検出を識別する。
【0020】
[0024]幾つかの例において、知覚コンポーネント112は、軌跡に関連付けられているセンサデータをMLコンポーネント116に提供し得る。例えば、知覚コンポーネント112は、(軌跡によって識別されるように)オブジェクトに関連付けられた最後のn個の画像をMLコンポーネント116に提供し得、nは正の整数である。幾つかの例において、MLコンポーネント116に提供される画像は、ROIによって識別される画像の部分であり得る。例えば、ROI122によって識別される画像118の部分は、MLコンポーネント116に入力として提供され得る。幾つかの例において、知覚コンポーネント112は、知覚コンポーネント112のそれぞれのMLモデルによって決定されるように、および/または、n個の画像のバッチにおいて、そのような画像部分をMLコンポーネント116に入力として提供し得る。オブジェクト軌跡を決定し、検出されたオブジェクトに関連付けられたROI、インスタンスセグメンテーション、および/または、セマンティックセグメンテーションを決定するためのMLモデルに関する更なる詳細については、2018年12月28日に出願された米国特許出願第16/235,862号、および、2019年3月2日に出願された米国特許出願第16/297,381号を参照されたい。
【0021】
[0025]本明細書において更に論じられるように、MLコンポーネント116は、MLコンポーネント116の処理内に存在するMLコンポーネント116のサブ出力の部分を記憶するためのキャッシュを含み得る。キャッシュは、メモリ108の一部であってもよいし、または、キャッシュは、集積回路、ゲートアレイ、または、グラフィックス処理装置の一部といった、MLコンポーネント116に関連付けられた別個のハードウェアの一部であってもよい。MLコンポーネント116は、知覚コンポーネント112の他の部分によって出力される分類と比較して、追加の粒度を有する属性を出力し得る。例えば、これらの属性は、歩行者またはドライバが車両102に注意を払っているか、または車両102を見ているかどうか、オブジェクト(例えば、歩行者132、動物)が道路を横断しようとしているかどうか、オブジェクトが道路脇でアイドリングしているかどうか(例えば、道路に進入する現在の意図を示していないが、道路に進入するか、または、その他の方法で交通に影響を与える可能性のある道路への何らかの関係を示しているかどうか)、オブジェクトが道路に進入中であるか、または、道路をアクティブに横断しているかどうか、オブジェクトが道路に関連していないかどうか(例えば、歩道に沿って歩くこと、道路からの反対側のフィールドで遊ぶことなどによって、道路とインタラクションする意図を示していないかどうか)、オブジェクトが、車両102が進行すべきことを示しているかどうかなどを含み得る。
【0022】
[0026]計画コンポーネント114は、知覚データ、および/または、例えば、MLコンポーネント116によって決定された属性のような他の情報に少なくとも部分的に基づいて軌道134を決定し得る。例えば、計画コンポーネント114は、第1の場所から第2の場所への車両102の経路を決定し、実質的に同時に、知覚データおよび/またはシミュレートされた知覚データに少なくとも部分的に基づいて、車両102の動き制御するための複数の潜在的な軌道を、後退地平線の技法に従って(例えば、1マイクロ秒、半秒)、経路を走行するように車両を制御するために(例えば、検出されたあらゆるオブジェクトを回避するために)、潜在的な軌道のうちの1つを、車両102の駆動コンポーネントに送信され得る駆動制御信号を生成するために車両102が使用し得る軌道134として選択する。
【0023】
[0027]
図1は、方向、速度、および/または、加速度を示す矢印として表されるそのような軌道134の例を示すが、軌道自体は、車両102のコマンド、および/または、目標(未来の)状態を含み得、それは、次いで、車両102の駆動システムを作動させ得る。例えば、軌道134は、自律車両102のコントローラが車両102の駆動コンポーネントを作動させてステアリング角度および/またはステアリングレートをもたらすための指示を含み得、これは、コマンドおよび/または目標状態を追跡するための車両位置、車両速度、および/または、車両加速度(または、自律車両がシミュレートされている場合には、そのシミュレートされたバージョン)をもたらし得る。軌道134は、コントローラが追跡する目標方向、目標ステアリング角度、目標ステアリングレート、目標位置、目標速度、および/または、目標加速度を含み得る。
【0024】
例示的なシステム
[0028]
図2は、本明細書において論じられる技術を実装する例示的なシステム200のブロック図を示す。幾つかの例において、例示的なシステム200は、
図1の車両102を表し得る車両202を含み得る。幾つかの例において、車両202は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するように構成された自律車両であり得、この分類は、ドライバ(または乗員)が常に車両を制御することを期待することなく全行程に対する全てのセーフティクリティカルな機能を実施することが可能な車両を記述する。しかしながら、他の例において、車両202は、あらゆる他のレベルまたは分類を有する完全なまたは部分的な自律車両であってもよい。さらに、幾つかの例において、本明細書に記載の技術は、非自律車両によっても使用可能であり得る。
【0025】
[0029]車両202は、車両コンピューティングデバイス204、センサ206、エミッタ208、ネットワークインタフェース210、および/または、駆動コンポーネント212を含み得る。限定ではなく例として、車両コンピューティングデバイス204は、コンピューティングデバイス106と同じでもよいし同じタイプを表してもよく、かつ、センサ206は、センサ104と同じでもよいし同じタイプを表してもよい。システム200は、追加的または代替的に、コンピューティングデバイス214を含み得る。
【0026】
[0030]幾つかの例において、センサ206は、センサ104を表し得、ライダーセンサ、レーダーセンサ、超音波トランスデューサ、ソナーセンサ、位置センサ(例えば、全地球測位システム(GPS)、コンパスなど)、慣性センサ(例えば、慣性測定ユニット(IMUs)、加速度計、磁気計、ジャイロスコープなど)、画像センサ(例えば、赤-緑-青(RGB)、赤外線(IR)、強度、深度、飛行時間カメラなど)、マイクロフォン、ホイールエンコーダ、環境センサ(例えば、温度計、湿度計、光センサ、圧力センサなど)などを含み得る。センサ206は、これらまたは他のタイプのセンサそれぞれの複数のインスタンスを含み得る。例えば、レーダーセンサは、車両202のコーナー、フロント、バック、サイド、および/または、トップに位置する個々のレーダーセンサを含み得る。別の例として、カメラは、車両202の外部および/または内部について様々な場所に配置された複数のカメラを含み得る。センサ206は、車両コンピューティングデバイス204および/またはコンピューティングデバイス214に入力を提供し得る。幾つかの例において、本明細書において論じられるシミュレートされたセンサは、特定のタイプのセンサ、および/または、あらゆるセンサに対応し得る。本明細書において論じられるように、シミュレートされたセンサに関連付けられた位置は、車両202に対するセンサの視野の位置および/または起点(例えば、焦点)、および/または、車両202の動きの方向に対応し得る。
【0027】
[0031]車両202はまた、上述したように、光および/または音を放射するエミッタ208を含み得る。この例におけるエミッタ208は、車両202の乗員とコミュニケーションするための内部オーディオおよびビジュアルエミッタを含み得る。限定でなく例として、内部エミッタは、スピーカ、ライト、サイン、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ(例えば、振動および/または力フィードバック)、機械式アクチュエータ(例えば、シートベルトテンショナ、シートポジショナ、ヘッドレストポジショナなど)などを含み得る。この例におけるエミッタ208はまた、外部エミッタを含み得る。限定ではなく例として、本例における車外エミッタは、進行方向を知らせるためのライト、または、車両の動作を示す他のインジケータ(例えば、インジケータライト、サイン、ライトアレイなど)、および、歩行者または他の近くの車両と聴覚的にコミュニケーションするための1つまたは複数のオーディオエミッタ(例えば、スピーカ、スピーカアレイ、ホーンなど)を含み、そのうちの1つまたは複数は、音響ビームステアリング技術を含む。
【0028】
[0032]車両202はまた、車両202と1つまたは複数の他のローカルまたはリモートのコンピューティングデバイスとの間の通信を可能にするネットワークインタフェース210を含み得る。例えば、ネットワークインタフェース210は、車両202および/または駆動コンポーネント212上の他のローカルコンピューティングデバイスとの通信を促進し得る。また、ネットワークインタフェース210は、追加的または代替的に、車両が他の近くのコンピューティングデバイス(例えば、他の近くの車両、交通信号機など)と通信することを可能にし得る。ネットワークインタフェース210は、追加的または代替的に、車両202がコンピューティングデバイス214と通信することを可能にし得る。幾つかの例において、コンピューティングデバイス214は、分散コンピューティングシステム(例えば、クラウドコンピューティングアーキテクチャ)の1つまたは複数のノードを含み得る。
【0029】
[0033]ネットワークインタフェース210は、車両コンピューティングデバイス204を、ネットワーク216のような、別のコンピューティングデバイスまたはネットワークに接続するための物理的および/または論理的なインタフェースを含み得る。例えば、ネットワークインタフェース210は、IEEE802.11規格によって定義された周波数を介するようなWi-Fiベースの通信、Bluetooth(登録商標)のような近距離無線周波数、セルラー通信(例えば、2G、3G、4G、4G LTE、5Gなど)、または、各コンピューティングデバイスが他のコンピューティングデバイスとインタフェースすることを可能にするあらゆる適切な有線または無線の通信プロトコルを可能にし得る。幾つかの例において、車両コンピューティングデバイス204および/またはセンサ206は、ネットワーク216を介して、特定の頻度で、所定期間の経過後に、準リアルタイムなどで、センサデータをコンピューティングデバイス214に送信し得る。
【0030】
[0034]幾つかの例において、車両202は、1つまたは複数の駆動コンポーネント212を含み得る。幾つかの例において、車両202は、単一の駆動コンポーネント212を有し得る。幾つかの例において、駆動コンポーネント212は、駆動コンポーネント212および/または車両202の周囲の状態を検出するための1つまたは複数のセンサを含み得る。限定ではなく例として、駆動コンポーネント212のセンサは、駆動コンポーネントの車輪の回転を感知するための1つまたは複数のホイールエンコーダ(例えば、ロータリエンコーダ)、駆動コンポーネント、カメラ、または、その他の画像センサの方向および加速度を測定する慣性センサ(例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁気計など)、駆動コンポーネントの周囲のオブジェクトを音響的に検出する超音波センサ、ライダーセンサ、レーダーセンサなどを含み得る。ホイールエンコーダのような幾つかのセンサは、駆動コンポーネント212に固有であり得る。幾つかのケースにおいて、駆動コンポーネント212上のセンサは、車両202の対応するシステム(例えば、センサ206)と重複してもよいし、または補足してもよい。
【0031】
[0035]駆動コンポーネント212は、数多くの車両システムを含み得、そのシステムは、高電圧バッテリ、車両を推進するモータ、バッテリからの直流電流を他の車両システムで使用するための交流電流に変換するインバータ、ステアリングモータおよびステアリングラック(電気式であってもよい)を含むステアリングシステム、油圧式または電気式のアクチュエータを含むブレーキシステム、油圧および/または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を緩和し、制御を維持するためにブレーキ力を分配するための安定性制御システム、HVACシステム、照明(例えば、車両の外部周囲を照らすヘッド/テールライトなどの照明)、および、1つまたは複数のその他のシステム(冷却システム、安全システム、車載充電システム、DC/DCコンバータのようなその他の電気コンポーネント、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなど)を含む。追加的に、駆動コンポーネント212は、センサからデータを受信して前処理し得る駆動コンポーネントコントローラを含み得、様々な車両システムの動作を制御し得る。幾つかの例において、駆動コンポーネントコントローラは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサと通信可能に結合されたメモリとを含み得る。メモリは、駆動コンポーネント212の様々な機能を実施する1つまたは複数のコンポーネントを記憶し得る。さらに、駆動コンポーネント212はまた、各駆動コンポーネントによる、1つまたは複数の他のローカルまたはリモートのコンピューティングデバイスとの通信を可能にする1つまたは複数の通信接続を含み得る。
【0032】
[0036]車両コンピューティングデバイス204は、プロセッサ218と、1つまたは複数のプロセッサ218と通信可能に結合されたメモリ220とを含み得る。メモリ220は、メモリ108を表し得る。コンピューティングデバイス214はまた、プロセッサ222、および/または、メモリ224を含んでもよい。プロセッサ218および/または222は、命令を実行して、本明細書に記載されるようなデータの処理および動作を実施することが可能なあらゆる適切なプロセッサであり得る。限定ではなく例として、プロセッサ218および/または222は、1つまたは複数の中央処理装置(CPU)、グラフィックス処理装置(GPU)、集積回路(例えば、特定用途向け集積回路(ASIC))、ゲートアレイ(例えば、フィールドプログラマブルゲートアレイ(FPGA))、および/または、電子データを処理してその電子データを、レジスタおよび/またはメモリに記憶され得る他の電子データに変換するあらゆる他のデバイスまたはデバイスの部分を含み得る。
【0033】
[0037]メモリ220および/または224は、非一時的なコンピュータ可読媒体の例であり得る。メモリ220および/または224は、オペレーティングシステム、および本明細書において説明される方法および様々なシステムに起因する機能を実装するための1つまたは複数のソフトウェアアプリケーション、命令、プログラム、および/またはデータを格納し得る。様々な実装において、メモリは、静的ランダムアクセスメモリ(SRAM)、同期型ダイナミックRAM(SDRAM)、不揮発性/フラッシュタイプメモリ、または、情報を記憶可能なあらゆる他のタイプのメモリのような適切なメモリ技術を用いて実装され得る。本明細書において記載されるアーキテクチャ、システム、および、個々のエレメントは、多くの他の論理的、プログラム的、および、物理的なコンポーネントを含んでよく、それらのうちの添付図面に示されるものは、本明細書における議論に関連した単なる例示に過ぎない。
【0034】
[0038]幾つかの例において、メモリ220および/またはメモリ224は、位置特定コンポーネント226、知覚コンポーネント228、計画コンポーネント230、および/または、MLアーキテクチャ232を格納し得、これらの何れかのゼロ以上の部分は、GPU、CPU、および/または、他の処理ユニットといったハードウェアであり得る。限定ではなく例として、位置特定コンポーネント226は、位置特定コンポーネント110と同じでもよいし同じタイプを表してもよく、知覚コンポーネント228は、知覚コンポーネント112と同じでもよいし同じタイプを表してもよく、計画コンポーネント230は、計画コンポーネント114と同じでもよいし同じタイプを表してもよく、MLアーキテクチャ232は、MLコンポーネント116と同じでもよいし同じタイプを表してもよい。
【0035】
[0039]少なくとも一例において、位置特定コンポーネント226は、車両202の位置、速度および/または方向(例えば、x位置、y位置、z位置、ロール、ピッチ、または、ヨーのうちの1つまたは複数)を決定するために、センサ206からのデータを受信するハードウェアおよび/またはソフトウェアを含み得る。例えば、位置特定コンポーネント226は、環境のマップ238を含み、および/または、要求/受信し得、マップ238内の自律車両の位置、速度、および/または、向きを継続的に決定することが可能である。幾つかの例において、位置特定コンポーネント226は、SLAM(simultaneous localization and mapping)、CLAMS(calibration, localization and mapping, simultaneously)、相対SLAM、バンドル調整、非線形最小二乗最適化などを利用して、画像データ、ライダーデータ、レーダーデータ、IMUデータ、GPSデータ、ホイールエンコーダデータなどを受信し、自律車両の位置、姿勢、および/または、速度を正確に決定し得る。幾つかの例において、位置特定コンポーネント226は、本明細書において論じられるように、車両202の様々なコンポーネントにデータを提供して、軌道を生成するための、および/または、地図データを生成するための自律車両の初期位置を決定し得る。幾つかの例において、位置特定コンポーネント226は、知覚コンポーネント228に、環境および/または環境に関連付けられたセンサデータに対する車両202の位置および/または向きを提供し得る。
【0036】
[0040]幾つかの例において、知覚コンポーネント228は、ハードウェアおよび/またはソフトウェアにおいて実装されたプライマリ知覚システムおよび/または予測システムを含み得る。知覚コンポーネント228は、車両202の周囲環境内のオブジェクトを検出(例えば、オブジェクトが存在することを識別)し、オブジェクトを分類(例えば、検出されたオブジェクトに関連付けられたオブジェクトタイプを決定)し、センサデータおよび/または環境の他の表現をセグメント化(例えば、センサデータおよび/または環境の表現の一部を、検出されたオブジェクトおよび/またはオブジェクトタイプに関連付けられているものとして識別)し、オブジェクトに関連付けられた特性(例えば、オブジェクトに関連付けられた、現在、予測および/または以前の位置、方位、速度および/または加速度を識別する軌跡)を決定し得る。知覚コンポーネント228は、移動しているオブジェクトのような、環境における動的コンポーネントのアクション/状態を予測する予測コンポーネントを含み得る。知覚コンポーネント228によって決定されるデータは、知覚データと称される。
【0037】
[0041]幾つかの例において、知覚コンポーネント228は、MLアーキテクチャ232を含み得る。例えば、MLアーキテクチャ232は、知覚コンポーネント228のパイプラインの一部であり得る。換言すると、MLアーキテクチャ232は、センサデータ前処理コンポーネント、MLモデルといった、知覚コンポーネント228の1つまたは複数の他の部分からの出力を入力として受信し得る。例えば、MLアーキテクチャ232への入力は、知覚コンポーネント228の他の部分によってオブジェクトに関連付けられていると識別されるセンサデータの一部を含み得る。一部は、インスタンスセグメンテーション、セマンティックセグメンテーション、ROIなどによって識別され得る。幾つかの例において、MLアーキテクチャ232は、複数の時点にわたってセンサデータを受信するように構成され得る。
【0038】
[0042]計画コンポーネント230は、位置特定コンポーネント226から車両202の位置および/または向き、および/または、知覚コンポーネント228から知覚データを受信し得、このデータの何れかに少なくとも部分的に基づいて車両202の動作を制御する命令を決定し得る。幾つかの例において、命令を決定することは、命令が関連付けられたシステムに関連付けられたフォーマットに少なくとも部分的に基づいて、命令を決定することを含み得る(例えば、自律車両の動きを制御するための第1の命令は、システムコントローラ236および/または駆動コンポーネント212が解析する/実行させ得るメッセージおよび/または信号(例えば、アナログ、デジタル、空気力学、運動学)の第1のフォーマットにおいてフォーマットされ得、エミッタ208のための第2の命令は、それに関連付けられた第2のフォーマットに従ってフォーマットされ得る)。幾つかの例において、計画コンポーネント230が(例えば、計画コンポーネント230をテストおよび/または訓練するために)シミュレーション内のハードウェア/ソフトウェアインザループを含み得る場合、計画コンポーネント230は、シミュレートされた車両を制御するために使用され得る命令を生成し得る。
【0039】
[0043]メモリ220および/またはメモリ224は、追加的または代替的に、マッピングシステム、計画システム、ライドマネジメントシステムなどを記憶し得る。知覚コンポーネント228、計画コンポーネント230、および/または、パフォーマンスコンポーネント234は、メモリ220および/または224に記憶されるように示されているが、知覚コンポーネント228、計画コンポーネント230、および/または、パフォーマンスコンポーネント234は、プロセッサ実行可能命令、機械学習モデル(例えば、ニューラルネットワーク)、および/または、ハードウェアを含み得る。
【0040】
[0044]本明細書に記載されるように、位置特定コンポーネント226、知覚コンポーネント228、計画コンポーネント230、および/または、MLアーキテクチャ232は、1つまたは複数のMLモデルを含み得る。例えば、位置特定コンポーネント226、知覚コンポーネント228、計画コンポーネント230、および/または、MLアーキテクチャ232は、それぞれ異なるMLモデルパイプラインを含み得る。幾つかの例において、MLモデルは、ニューラルネットワークを含み得る。例示的なニューラルネットワークは、一連の接続レイヤを通して入力データを渡して出力を生じさせる生物学的アルゴリズムである。ニューラルネットワークにおける個々のレイヤが別のニューラルネットワークを含むことも可能であり、または、あらゆる数のレイヤ(畳み込み層であるか否か)を含み得る。本開示の文脈において理解されることが可能であるように、ニューラルネットワークは、機械学習を利用することが可能であり、これは、学習されたパラメータに基づいて出力が生成される幅広いクラスのそのようなアルゴリズムを指すことが可能である。
【0041】
[0045]ニューラルネットワークの文脈において議論されるものの、あらゆるタイプの機械学習が本開示と整合するように用いられることが可能である。例えば、機械学習アルゴリズムは、回帰アルゴリズム(例えば、通常の最小二乗回帰(OLSR)、線形回帰、ロジスティック回帰、ステップワイズ回帰、多変量適応回帰スプライン(MARS)、局所推定散布図平滑化(LOESS))、インスタンスベースアルゴリズム(例えば、リッジ回帰、最小絶対収縮選択演算子(LASSO)、エラスティックネット、最小角回帰(LARS))、決定木アルゴリズム(例えば、分類および回帰木(CART)、反復2分法3(ID3),カイ2乗自動交互作用検出(CHAID)、決定スタンプ、条件付き決定木)、ベイズアルゴリズム(例えば、ナイーブベイズ、ガウスナイーブベイズ、多項式ナイーブベイズ、平均1依存推定量(AODE)、ベイズ信念ネットワーク(BNN)、ベイズネットワーク)、クラスタリングアルゴリズム(例えば、k-means、k-medians、期待値最大化(EM)、階層的クラスタリング)、アソシエーションルール学習アルゴリズム(例えば、パーセプトロン、バックプロパゲーション、ホップフィールドネットワーク、放射基底関数ネットワーク(RBFN))、深層学習アルゴリズム(深層ボルツマンマシン(DBM)、深層ビリーフネットワーク(DBN)、畳み込みニューラルネットワーク(CNN)、スタックドオートエンコーダ)、次元削減アルゴリズム(例えば、主成分分析(PCA)、主成分回帰(PCR)、部分最小二乗回帰(PLSR)、サモンマッピング、多次元尺度構成法(MDS)、プロジェクションパシュート、線形判別分析(LDA)、混合判別分析(MDA)、二次判別分析(QDA)、柔軟判別分析(FDA))、アンサンブルアルゴリズム(例えば、ブースティング、ブートストラップ集約(バギング)、アダブースト、スタックドジェネレーション(ブレンディング)、勾配ブースティングマシン(GBM)、勾配ブースティング回帰木(GBRT)、ランダムフォレスト)、SVM(サポートベクターマシン)、教師あり学習、教師なし学習、半教師あり学習などを含むことが可能であるが、これらに限定されない。アーキテクチャの追加の例は、ResNet‐50、ResNet-101、VGG、DenseNet、PointNetといったニューラルネットワークを含む。幾つかの例において、本明細書で議論されるMLモデルは、PointPillars、SECOND、トップダウン特徴レイヤ(例えば、参照によりその全体が本明細書に組み込まれる米国特許出願第15/963,833号を参照)、および/または、VoxelNetを含み得る。アーキテクチャレイテンシ最適化は、MobilenetV 2、Shufflenet、Channelnet、Peleenetなどを含み得る。MLモデルは、幾つかの例において、Pixorのような残余(residual)ブロックを含み得る。
【0042】
[0046]メモリ220は、追加的または代替的に、1つまたは複数のシステムコントローラ240(駆動コンポーネントの一部であり得る)を記憶し得、これは、車両202のステアリング、推進、ブレーキ、安全、エミッタ、通信、および他のシステムを制御するように構成され得る。これらのシステムコントローラ240は、駆動コンポーネント212および/または車両202の他のコンポーネントの対応するシステムと通信し、および/または、制御し得る。例えば、計画コンポーネント230は、知覚コンポーネント228によって生成された知覚データおよび/またはシミュレートされた知覚データに少なくとも部分的に基づいて命令を生成し得、命令に少なくとも部分的に基づいて車両202の動作を制御し得るシステムコントローラに命令を送信し得る。
【0043】
[0047]
図2は分散システムとして示されているが、代替例において、車両202のコンポーネントは、コンピューティングデバイス214に関連付けられ得、および/または、コンピューティングデバイス214のコンポーネントは、車両202に関連付けられ得ることに留意すべきである。すなわち、車両202は、コンピューティングデバイス214に関連付けられた1つまたは複数の機能を実施行し得、逆もまた同様である。
【0044】
例示的なMLコンポーネントアーキテクチャ
[0048]
図3は、MLコンポーネント116/MLアーキテクチャ232の例示的なアーキテクチャ300を示す。このMLレイヤおよびキャッシュの配置は、本明細書において強調された効率をもたらし得、自律車両の知覚コンポーネントによって検出可能な属性を増加させ得る。本明細書において論じられる例示的なアーキテクチャは、理解の容易性のために画像として論じられるが、画像を超える追加のまたは代替のセンサデータタイプに適合され得る。幾つかの例において、本明細書において論じられる画像は、単一のカメラまたは複数のカメラから受信され得る。幾つかの例において、受信されるセンサデータ、例えば、画像データまたは点群データは、知覚コンポーネント228内の上流コンポーネントから受信され得る。例えば、例示的なアーキテクチャ300は、第1の画像302、第2の画像304、および、第nの画像306を受信し得、上流コンポーネントによって(例えば、上流コンポーネントによって出力されたROI、インスタンスセグメンテーション、および/または、セマンティックセグメンテーションを介して)識別されたそれぞれの画像の一部を含み得、別の上流コンポーネントによって出力された軌跡を介して関連付けられ得る。軌跡は、第1の画像302、第2の画像304、および、第nの画像306を、同じオブジェクトに関連付けられているものとして識別し得る。換言すれば、本明細書において論じられる技術は、n個の画像のバッチを使用して、本明細書において論じられるように、分類であり得る最終出力を決定し得る。n個の画像は、カメラから受信された直近のn個の画像のスライディングタイムウィンドウに対応し得る。
【0045】
[0049]幾つかの例において、例示的なアーキテクチャ300は、センサデータのn個の時間ステップを処理するように構成され得、nは正の整数である。換言すれば、第1の画像302から第nの画像は、過去のn個の時間ステップに戻る異なる時点に関連付けられ得る。個々の画像間の時間間隔は、センサ出力および上流知覚コンポーネント出力周波数に依存し得る。例えば、間隔が500ミリ秒であり、nが9である場合、第1の画像302は、過去4秒の時刻に関連付けられ得、第2の画像304は、過去3.5秒の時刻に関連付けられ得、第nの画像は、現在時刻に関連付けられ得る。例えば、10ミリ秒、20ミリ秒、100ミリ秒、250ミリ秒、1秒、2秒といった、nの他の間隔および選択肢が企図され、nは、2、3、4、5、10、20、または、あらゆる他の数であり得る。幾つかの例において、受信されたセンサデータ間の時間間隔は一定でなくてもよく、許容範囲内において変化してもよい。例えば、システムは、センサデータが受信される場合に、数フレームの間のオブジェクト追跡の喪失(例えば、オクルージョンに起因)、数フレームの間の損失または破損、センサデータ間の歪み(例えば、雨、グレアに起因)などのばらつきを許容し得る。なお、nは、アーキテクチャ300の出力が最新であるように、時間ステップ間の時間間隔に比例して変化し得る。例えば、nは、間隔が長くなるほど減少し得る。
【0046】
[0050]幾つかの例において、MLアーキテクチャ300は、画像の処理前に、第nの画像306を標準サイズにリサイズし得る。追加的または代替的に、MLアーキテクチャ300は、第nの画像306として使用するためにROIによって示されるよりも画像のより大きな部分を取得し得る。例えば、上流コンポーネントは、歩行者を検出し、かつ、歩行者によって占有される画像の一部を示し得るが、歩行者はサインを保持していてもよく、これは、上流コンポーネントによって歩行者として正しく検出されないことがある。このため、MLアーキテクチャ300は、MLアーキテクチャ300による使用のために、ROIの外側の画像の追加の部分を取得し得る。
【0047】
[0051]それにも関わらず、最近に受信した画像である第nの画像306は、1つまたは複数のMLレイヤを含み得るMLバックボーン308への入力として提供され得る。例えば、MLバックボーン308は、ResNetまたは他の適切なニューラルネットワーク、例えば、ResNeXt、DenseNet、視覚変換器(ViT)であり得る。例えば、MLバックボーン308がResNetの場合、MLバックボーンは、畳み込み前処理レイヤ310(例えば、フィードフォワードニューラルネットワークレイヤ)および残余レイヤ312(1)~(m)を含み得、mは正の整数である。MLバックボーン308は、画像が受信されると、画像に対して順次に使用され得る。換言すれば、同じMLバックボーン308が受信されるあらゆる新しい画像に対して使用され、その出力は、本明細書において論じられるように記憶され得る。この同じMLバックボーンを使用することは、訓練時間を節約し得、システムの複雑さを低減し得る一方、パイプラインの中間に記憶された出力(すなわち、キャッシュ324)を使用することは、アーキテクチャ300の計算負荷および処理時間を低減し得る。
【0048】
[0052]残余レイヤ312(1)は、ResNetブロックを含み得、これは、畳み込みレイヤ314(1)~(4)、スキップ接続316(1)および(2)、並びに、スキップ接続の一部であり得るプロジェクションショートカット318を含む様々なコンポーネントを含み得る。これらの様々な部分は、前のレイヤから受信された入力320を処理し得、次のレイヤに提供される出力322を生成し得る。なお、プロジェクションショートカットは、アイデンティティショートカットに置換され得る。プロジェクションショートカットは、加算演算(スキップ接続の終了および加算前の最後の畳み込みレイヤの出力)における量が対応することを確実にするように畳み込みを実施し得る。アイデンティティショートカットは、単に入力を通過させ、これは標準的なスキップ接続である。畳み込みレイヤ314は、訓練されたカーネル(例えば、カーネルは、ML訓練を介してチューニングされ得る部分である)、バッチ正規化(例えば、2019年5月3日に出願された米国特許出願第16/403,476号を参照)、および、中間レイヤについては、整流線形単位(ReLU)レイヤ、ガウス誤差線形単位(GELU)、ヘヴィサイド(Heviside)活性化、シグモイド関数または双曲線関数といった活性化レイヤ(ただし、シグモイド関数および双曲線関数は、入力によって飽和されることによって勾配の減少に寄与し得る(すなわち、ある量を超える値を表現することができない)を用いた、畳み込みコンポーネントへの入力の畳み込みを含み得る。本質的に、この活性化レイヤは、特徴データ内の特定点における出力を「オン」すなわち1.0または「オフ」すなわち0.0/アクティブまたは非アクティブに特徴付ける。なお、最後の畳み込みコンポーネント314(4)は、畳み込みおよびバッチ正規化を行ってもよいが、ReLU活性を行わなくてもよい。
【0049】
[0053]換言すれば、残余コンポーネント312のうちの1つへの入力は、第1の畳み込みレイヤにて畳み込まれ、バッチ正規化され、第2の畳み込みレイヤにてプロセスを2回繰り返す前に、ReLU活性を通過し得る。第2のレイヤの出力は、残余コンポーネントへの入力(または、スキップ接続にプロジェクションレイヤが存在する場合のプロジェクションバージョンの入力)と合計されることが可能である。このプロセスは、その特定の残余コンポーネントによって出力される前に、第3および第4の畳み込みレイヤにて2回繰り返されることが可能である。
【0050】
[0054]この表現されたMLバックボーンは、約1100万の訓練可能なパラメータを含むが、より深いMLバックボーン、すなわち、より多くのレイヤ数を有するMLバックボーンが使用され得ることが理解され、その場合、MLバックボーンは、訓練可能である2120万のパラメータ(34レイヤ)、2350万のパラメータ(50レイヤ)、4250万のパラメータ(101レイヤ)、5820万のパラメータ(152レイヤ)などを有し得る。レイヤは、MLアーキテクチャによって出力されるロジットまたは信頼スコアと、オブジェクトの属性を識別するグラウンドトゥルース属性との間で計算される損失を低減するために変更され得る(例えば、畳み込みレイヤおよび/またはプロジェクションレイヤ、または、MLバックボーンから下流の他のMLレイヤのカーネルの値)。そのようなグラウンドトゥルース属性は、人間によってラベル付けされてもよく、または、車両に含めるには計算上の負担が大きすぎることのある複雑なMLシステムによってラベル付けされてもよい。そのようなMLシステムは、クラウドコンピューティングシステムのような分散コンピューティングシステム上で実行され得る。
【0051】
[0055]究極的に、MLバックボーン308は、p次元である第nの画像306、第nの特徴データ322に関連付けられた特徴データを決定し得、pは正の整数である(例えば、CNN内のレイヤ数およびレイヤ内のパディング量に依存して、32、64)。第nの特徴データ322は、キャッシュ324に記憶されてもよい。過去に受信された画像(第1の画像302および第2の画像304)に関連付けられた特徴データは、過去にキャッシュ324に格納されていてもよい。換言すれば、MLバックボーン308は、MLバックボーン308を通じて第1の画像302を処理することによって第1の特徴データ326を過去に決定していてもよく、かつ、MLバックボーン308を通じて第2の画像304を処理することによって第2の特徴データ328を過去に決定していてもよい。第1の画像302および第2の画像304(並びに、あらゆる他の中間画像)は、第nの画像306の受信に応じて再処理されず、計算負荷を節約する。キャッシュ324は、MLアーキテクチャ300を含む集積回路の一部であり得るが、追加のまたは代替の例において、キャッシュ324は、グラフィックス処理装置、中央処理装置、ゲートアレイなどのキャッシュであってもよい。
【0052】
[0056]幾つかの例において、特徴データは、アクティベーションマップとも称される特徴マップを含み得、これは、レイヤそれぞれへの各入力を有するモデルバックボーン内のカーネルの畳み込み結果である。特徴データは、典型的には、テンソルのような、人間には理解し難い高次元データフィールド(例えば、56×64次元、28×128次元など)である。換言すれば、特徴データは、コンピュータおよび/またはニューラルネットワーク変換である。
【0053】
[0057]第nの特徴データ322を受信することに少なくとも部分的に基づいて、MLアーキテクチャ300は、MLレイヤ330への入力として、第1の特徴データ326、第2の特徴データ328、第nの特徴データ322、および、第1の画像と第nの画像との間のあらゆる他の画像に関連付けられたあらゆる介在する特徴データを提供し得る。幾つかの例において、単一のMLレイヤ330がこの段階において個々の特徴データに対して使用されるが、より多くのMLレイヤ330が使用され得ることが企図される。換言すれば、MLレイヤ330は、第1の特徴データ326を第nの特徴データ322を通じて別々に処理して、第1の特徴データ332、第2の特徴データ334を、第nの特徴データ336を通じて生成し得、これらのすべてはq次元であり得、qはpよりも大きい正の整数である。例えば、pが32である場合、qは128であり得る。
【0054】
[0058]なお、交通信号状態または車両ライト状態といったライト状態を分類するための例示的なアーキテクチャ300において、MLレイヤ330は、入力をそこに渡すだけのアイデンティティレイヤであってもよいし、存在しなくてもよい。
【0055】
[0059]MLレイヤ330によって出力される特徴データ(すなわち、第1の特徴データ332から第nの特徴データ336)は、一緒に連結され、MLレイヤ338への入力として提供され得、MLレイヤ338は、サイズn~qであり得る連結された特徴データの次元を低減するように設計され得る。MLレイヤ338は、連結された特徴データをn~q次元からq次元空間に投影して、削減された特徴340を達成し得る。例えば、qが128であり、nが5である場合、連結された特徴データは、640の次元を有し得、削減された特徴340は、128の次元を有し得る。
【0056】
[0060]削減された特徴340は、MLアーキテクチャによって最終MLレイヤ342への入力として提供され得、最終MLレイヤ342は、予測される属性の数に等しい出力ヘッドを含み得る。例えば、MLアーキテクチャ300が10個の属性を予測するように構成される場合、MLレイヤ342は、10個の出力ヘッドを有し得るが、あらゆる他の数の属性、例えば、2、3、4、5、10、15、20などが企図される。幾つかの例において、MLレイヤ342の出力ヘッドは、予測されている特定の属性に関連付けられ得、検出されたオブジェクトがヘッドに関連付けられた属性を有する確率を示すロジットを出力し得る。MLレイヤ342は、異なる属性に関連してこれらのロジット344を出力し得、および/または、MLレイヤ342は、出力ヘッドまたは幾つかの他のレイヤの後に、シグモイド、tanh、ReLU、GELUなどのレイヤを含み得、ロジット344を0と1との間の信頼スコアに変換し、1は、オブジェクトがそれぞれの属性を有するという完全な信頼度を示し、0は、オブジェクトがそれぞれの属性を有するという信頼度がないことを示す。例示的なアーキテクチャ300によって出力される信頼スコアは、最近の時間に関連付けられ得るが、n個の時間ステップを過去に遡る時間ウィンドウに基づいてもよい(例えば、ロジット344は、n個目の時間ステップに関連付けられ得るが、画像302~306に基づいて生成されてもよい)。
【0057】
[0061]MLレイヤ330、338、および、342は、それぞれ、異なる入力/出力形状を有する完全に接続されたレイヤであり得る。集合的にMLレイヤ330、338、および、342は、モデル時間ヘッド346を作り上げ得る。
【0058】
例示的な属性
[0062]
図4は、3つの例示的なフレーム(時間内のセンサデータの離散部分)400~404、および、フレームのそれぞれについてMLアーキテクチャ300によって予測される属性を示す。図示されるフレームは画像であるが、フレームは、点群データまたはあらゆる他のセンサデータの一部であり得ることが理解される。
図4はまた、タイムライン406、および、MLアーキテクチャ300によって受信かつ処理された、フレーム408のような他のフレームを示し、それは矩形として示されるが、
図4に関して論じられた分類のうちの1つに関連付けられていない。
図4は、それぞれが同じ属性を有すると分類され得るフレームを示す。例えば、410によって示される括弧の下のフレームそれぞれは、属性「アイドリング」を有するオブジェクトを示すものとして分類され得、第1のフレーム400は、そのように分類され得るフレームの例である。括弧412の下のフレームは、属性「道路に進入する意図」を有するオブジェクトを示すものとして分類され得、第2のフレーム402は、そのように分類され得るフレームの例である。括弧144の下のフレームは、属性「道路を横断している」を有するオブジェクトを示すものとして分類され得、第3のフレーム404は、そのように分類され得るフレームの例である。
【0059】
[0063]第1のフレーム400について、MLアーキテクチャ300によって出力される最高の信頼スコアは、オブジェクトが道路に関連しているが道路に進入する意図を表出していないことを示すアイドリング属性に関連付けられ得る。第1のフレーム400をそのように分類するために、MLアーキテクチャ300は、対角線ハッチングを使用して示されるフレーム416を入力として受信および処理し得る。換言すれば、第1のフレーム400に関連してMLアーキテクチャ300によって出力される属性は、nが4である例において、第1のフレーム400と時間的に第1のフレーム400に先行する3つのフレームとを処理するMLアーキテクチャ300に依存する。Nは、より大きくてもより小さくてもよいことが企図される。上記および以下において説明されるように、フレーム416を処理することは、各フレームが受信されると、フレーム毎にMLバックボーンを使用してフレーム416のそれぞれを処理し、かつ、出力を記憶することを含み得る。したがって、第1のフレーム400について、フレーム416を処理することは、MLバックボーンを使用して第1のフレーム400を処理し、かつ、MLアーキテクチャの残りの部分のために他のフレーム416についての過去の出力を呼び出すことを含み得る。
【0060】
[0064]追加または代替の例において、MLアーキテクチャ300は、信頼度閾値を満たすか、または超える場合、および/または、信頼度スコアが異なる属性に関連付けられた他の信頼度スコアよりも大きい場合、出力する属性を決定し得る。幾つかの例において、属性は異なるグループにグループ化され得、かつ、MLアーキテクチャ300は、信頼度閾値を満たすか、または超える信頼度スコアであって、同じグループ内の他の全ての信頼度閾値よりも大きいあらゆる信頼度スコアを出力することを決定し得る。第1のフレーム400について、これは、アイドリング属性、オブジェクトが立っている、または道路に進入する準備ができている/進入可能である(例えば、歩行者が立っている、歩行者が車椅子に乗っていて、いつでも移動可能である)、および/または、オブジェクトが車両を見ているということを識別する準備完了属性の両方を出力することをもたらし得る。幾つかの例において、後者の例の3つ全ては、出力ヘッドが少なくとも3つのグループを含む例において出力され得、1つのグループは、道路に進入する意図について、別のグループは、道路および/またはオブジェクト状態(例えば、立っている、座っている、歩いている、走っている、他の(ダンスのためのキャッチオール、異常行動など))に入る準備ができていることについて、および/または、オブジェクトが車両を眺めている、見ている、または注意を払っているかどうかについての第3のグループである。追加のグループは、別のオブジェクトが車両の進行を予想するか、または、車両に手を振る、車両を見て動かない、車両が停止または移動すべきであるというサインを示す等のような、車両が進行すべきことを示しているかどうかに向けられ得る。実際には、より多いまたは少ないグループが使用され得る。
【0061】
[0065]第2のフレーム402について、MLアーキテクチャ300によって出力される最高の信頼スコアは、オブジェクトが道路に進入する意図を表出していることを示す進入意図属性に関連付けられ得る。第2のフレーム402をそのように分類するために、MLアーキテクチャ300は、上述したように、対角線ハッチングを使用して示されるフレーム418を入力として受信および処理し得る。
【0062】
[0066]第3のフレーム404について、MLアーキテクチャ300によって出力される最高の信頼度スコアは、オブジェクトが道路に進入中である/道路に既に進入していることを示す、アクティブに道路に進入している/道路を横断していることに関連付けられ得る。MLアーキテクチャ300によって出力され得る追加の属性は、オブジェクトが車両を見ていない、歩いていることなどを示し得る。第2のフレーム402をそのように分類するために、MLアーキテクチャ300は、上述したように、対角線ハッチングを使用して示されるフレーム420を入力として受信および処理し得る。
【0063】
例示的なプロセス
[0067]
図5は、オブジェクトの属性および/または意図を検出し、そうするための計算帯域幅を削減するための例示的なプロセス500のフロー図を示す。幾つかの例において、例示的なプロセス500は、車両機械学習アーキテクチャ300によって遂行され得る。本明細書において論じられる技術は、画像を論じるが、他のタイプのセンサデータに適合され得ることが理解される。
【0064】
[0068]動作502において、例示的なプロセス500は、第1の時刻に関連付けられた第1の画像を受信することを含み得る。第1の画像は、追跡によって識別されたオブジェクトに関連付けられた最近に受信された画像であり得る。第1の画像は、
図3の第nの画像306であり得る。オブジェクトが最近に検出された場合、MLコンポーネント300は、動作を開始する前に待機してn個の画像を蓄積し得る。追加または代替の例において、MLコンポーネント300は、画像が入ってくると画像を処理し得るが、n個の画像が処理されるまで出力を決定しなくてもよい。
【0065】
[0069]動作504において、例示的なプロセス500は、第1の時刻よりも前の第2の時刻に関連付けられた第2の画像を受信することを含み得る。第2の画像および第1の画像の両方は、同じオブジェクトに関連付けられ得、かつ、より大きな画像の一部であり得る。例えば、第1の画像は、上流MLモデルによって出力される第1のROIによって識別される第1の画像の第1の部分であり得、第2の画像は、上流MLモデルによって出力される第2のROIによって識別される第2の画像の第2の部分であり得る。2つの画像は、さらに別のMLモデルによって出力される追跡によって関連付けられてもよく、2018年12月28日に出願された米国特許出願第16/235,862号を参照されたい。
【0066】
[0070]動作506において、例示的なプロセス500は、MLレイヤの第1のセットによって、かつ、第1の画像に少なくとも部分的に基づいて、第1の出力を決定することを含み得る。MLレイヤの第1のセットは、MLバックボーン308のレイヤを含み得る。MLバックボーン308は、画像毎に1回実行され得る。換言すれば、MLバックボーン308は、最近に受信した画像を処理するが、過去に受信した画像について再実行しない一方で、MLアーキテクチャ300の他のMLレイヤは、以下に論じるように、MLバックボーン308の出力を処理し得る。
【0067】
[0071]動作508において、例示的なプロセス500は、第1の出力をメモリ(例えば、キャッシュ)に記憶することを含み得る。第2の画像に少なくとも部分的に基づいて、MLレイヤの第1のセットによって決定された第2の出力は、例えば、第2の画像が受信され、かつ、最新の画像であった場合に、メモリに前もって記憶されていてもよい。
【0068】
[0072]動作510において、例示的なプロセス500は、メモリから第2の出力を取得することを含み得、第2の出力は、第2の画像に関連付けられ、かつ、過去にMLレイヤの第1のセットによって処理されてメモリに格納されている。
【0069】
[0073]動作512において、例示的なプロセス500は、1つまたは複数のMLレイヤによって、かつ、第1の出力および第2の出力に少なくとも部分的に基づいて、第1のオブジェクト属性(例えば、歩行者、動物、サイクリスト、機械オペレータ)に関連付けられた第1の信頼スコアと、歩行者属性に関連付けられた第2の信頼スコアとを決定することを含み得る。例えば、第1のオブジェクト属性は、オブジェクトが道路に進入する準備ができていることの表示、または、オブジェクトの一般的な状態(例えば、立っている、座っている、道路に進入する準備ができている、道路に進入する準備ができていない、歩いている、走っている、その他)、オブジェクトインジケータ状態(例えば、存在しないことのインジケータ、歩行者保留サイン、歩行者保留サインアップ、進むことを示す歩行者、進まないことを示す歩行者、左折を示すサイクリスト、右折を示すサイクリスト、ブレーキを示すサイクリスト、ターンを示す車両ライト、ブレーキを示す車両ライト、進めを示す信号機、停止を示す信号機、注意を示す信号機)、オブジェクトが道路に進入する意図を示している、オブジェクトが道路に進入中である/進入済みであることを表出している、オブジェクトの注意力(例えば、車両を見る/見ない、車両に注意している/していない)を含み得、かつ、第2のオブジェクト属性は、異なる属性を示し得る。信頼スコアは、オブジェクト属性がオブジェクトを正確に説明する尤度(例えば、事後確率)を示し得る。
【0070】
[0074]動作514において、例示的なプロセス500は、第1の信頼スコアまたは第2の信頼スコアのうちの少なくとも1つに少なくとも部分的に基づいて、車両を制御することを含み得る。動作514は、何れの信頼スコアがより大きいかを決定し、かつ、その信頼スコアを使用する、および/または、信頼スコアが信頼スコア閾値を満たすか、または超えるかを決定することを含み得る。信頼スコア閾値は、属性をまったく出力しないかを決定するために使用され得る。例えば、信頼スコアが信頼スコア閾値を満たしていない場合、属性は出力されなくてよいが、追加または代替の例において、最大の信頼スコアに関連付けられた属性は、何れにしても出力されてもよい。何れのケースにおいても、信頼スコアは、属性に関連して出力され得る。車両の計画コンポーネントは、属性(および信頼スコアも出力される例では信頼スコア)を使用して、車両を制御するための軌道を決定し得る。
【0071】
例示条項
[0075]A:第1の時刻に関連付けられた第1の画像を受信することと、前記第1の時刻よりも前の第2の時間に関連付けられた第2の画像を受信することであって、前記第1の画像および前記第2の画像は同じオブジェクトに関連付けられていることと、機械学習レイヤの第1のセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、前記第1の出力をメモリに記憶することと、前記メモリから第2の出力を取得することであって、前記第2の出力は、前記第2の画像に関連付けられ、機械学習レイヤの前記第1のセットによって過去に処理され、かつ、前記メモリに記憶されていることと、1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、第1の歩行者属性に関連付けられた第1の信頼スコアおよび第2の歩行者属性に関連付けられた第2の信頼スコアを決定することと、前記第1の信頼スコアまたは前記第2の信頼スコアの少なくとも1つに少なくとも部分的に基づいて、車両を制御することと、を含む方法。
【0072】
[0076]B:前記第1の歩行者属性は、歩行者がアイドリングしていること、前記歩行者が道路への進入を意図していること、または、前記歩行者が道路を横断していることのうちの1つを示し、かつ、前記第2の歩行者属性は、前記歩行者がアイドリングしていること、前記歩行者が道路への進入を意図していること、または、前記歩行者が道路を横断していることのうちの異なる1つを示す、パラグラフAに記載の方法。
【0073】
[0077]C:前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記第1の歩行者属性に関連付けられた前記第1の信頼スコアおよび前記第2の歩行者属性に関連付けられた前記第2の信頼スコアを決定することは、前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、連結された出力として、前記第3の出力および前記第4の出力を連結することと、前記第3の機械学習レイヤへの入力として、前記連結された出力を提供することと、前記第3の機械学習レイヤから第5の出力を受信することと、前記第5の出力を入力として前記第4の機械学習レイヤに提供することと、前記第4の機械学習レイヤから前記第3の信頼スコアおよび前記第4の信頼スコアを受信することとを含む、パラグラフAまたはBの何れかに記載の方法。
【0074】
[0078]D:機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、かつ、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、パラグラフCに記載の方法。
【0075】
[0079]E:前記第1の画像は、第1のより大きな画像の第1の部分であり、前記第2の画像は、第2のより大きな画像の第2の部分であり、前記第1の部分および前記第2の部分は、前記第1のより大きな画像および前記第2のより大きな画像に少なくとも部分的に基づいて、第1の機械学習コンポーネントによって生成される、パラグラフA~Dの何れか1つに記載の方法。
【0076】
[0080]F:システムであって、1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサによって実行されると、前記システムに動作を実施させるプロセッサ実行可能な命令を記憶するメモリと、を備え、前記動作は、第1の時刻に関連付けられた第1の画像を受信することと、前記第1の時刻よりも前の第2の時刻に関連付けられた第2の画像を受信することと、第1の機械学習レイヤのセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、前記第1の出力をメモリに記憶することと、前記メモリから第2の出力を取得することであって、前記第2の出力は、前記第2の画像に関連付けられていることと、1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、環境内のオブジェクトに関連付けられた属性を決定することと、前記属性に少なくとも部分的に基づいて、車両を制御することと、を含む、システム。
【0077】
[0081]G:前記オブジェクトに関連付けられた前記属性は、車両運動状態の表示、オブジェクトのインジケータ状態の表示、前記オブジェクトがアイドリングしていることの表示、前記オブジェクトが道路への進入を意図していることの表示、または、前記オブジェクトが前記道路を横断していることの表示を含む、パラグラフFに記載のシステム。
【0078】
[0082]H:前記メモリは、キャッシュであり、かつ、前記キャッシュは、機械学習レイヤの前記第1のセットのn個の出力を記憶し、nは、n個の過去の時間ステップに関連付けられた正の整数である、パラグラフFまたはGの何れかに記載のシステム。
【0079】
[0083]I:前記第1の出力及び前記第2の出力は、それぞれ、機械学習レイヤの前記第1のセットによって1回処理される、パラグラフF~Hの何れか1つに記載のシステム。
【0080】
[0084]J:前記属性は、歩行者が道路の近くでアイドリングしていること、前記歩行者が前記道路への進入を意図していること、前記歩行者が前記道路を横断していること、前記歩行者が前記道路に進入する準備ができていること、または、前記歩行者が前記道路に関連していないことを示す、パラグラフF~Iの何れか1つに記載のシステム。
【0081】
[0085]K:前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記属性を決定することは、前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、連結された出力として、前記第3の出力および前記第4の出力を連結することと、前記連結された出力を前記第3の機械学習レイヤへの入力として提供することと、前記第3の機械学習レイヤから第5の出力を受信することと、前記第4の機械学習レイヤに入力として前記第5の出力を提供することと、前記第4の機械学習レイヤから前記属性に関連付けられた信頼スコアを受信することと、を含む、パラグラフF~Jの何れか1つに記載のシステム。
【0082】
[0086]L:機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、かつ、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、パラグラフKに記載のシステム。
【0083】
[0087]M:前記第1の画像は、第1のより大きな画像の第1の部分であり、前記第2の画像は、第2のより大きな画像の第2の部分であり、かつ、前記第1の部分および前記第2の部分は、前記第1のより大きな画像および前記第2のより大きな画像に少なくとも部分的に基づいて、第1の機械学習コンポーネントによって生成される、パラグラフF~Lの何れか1つに記載のシステム。
【0084】
[0088]N:プロセッサ実行可能な命令を記憶する1つまたは複数の非一時的なコンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに動作を実施させ、前記動作は、第1の時刻に関連付けられた第1の画像を受信することと、前記第1の時刻よりも前の第2の時刻に関連付けられた第2の画像を受信することと、機械学習レイヤの第1のセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、前記第1の出力をメモリに記憶することと、前記メモリから第2の出力を取得することであって、前記第2の出力は前記第2の画像に関連付けられていることと、1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、環境内のオブジェクトに関連付けられた属性を決定することと、前記属性に少なくとも部分的に基づいて、車両を制御することと、を含む、1つまたは複数の非一時的なコンピュータ可読媒体。
【0085】
[0089]O:前記オブジェクトに関連付けられた前記属性は、車両運動状態の表示、オブジェクトのインジケータ状態の表示、前記オブジェクトがアイドリングしていることの表示、前記オブジェクトが道路への進入を意図していることの表示、または、前記オブジェクトが道路を横断していることの表示を含む、パラグラフNに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0086】
[0090]P:前記メモリは、キャッシュであり、かつ、前記キャッシュは、機械学習レイヤの前記第1のセットのn個の出力を記憶し、nは、n個の過去の時間ステップに関連付けられた正の整数である、パラグラフNまたはOの何れかに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0087】
[0091]Q:前記第1の出力および前記第2の出力は、それぞれ、機械学習レイヤの前記第1のセットによって1回処理される、パラグラフN~Pの何れか1つに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0088】
[0092]R:前記属性は、歩行者が道路の近くでアイドリングしていること、前記歩行者が前記道路への進入を意図していること、前記歩行者が前記道路を横断していること、前記歩行者が前記道路に進入する準備ができていること、または、前記歩行者が前記道路に関連していないことを示す、パラグラフN~Qの何れか1つに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0089】
[0093]S:前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記属性を決定することは、前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、連結された出力として、前記第3の出力および前記第4の出力を連結することと、前記連結された出力を前記第3の機械学習レイヤに入力として提供することと、前記第3の機械学習レイヤから第5の出力を受信することと、前記第5の出力を入力として前記第4の機械学習レイヤに提供することと、前記第4の機械学習レイヤから前記属性に関連付けられた信頼スコアを受信することと、を含む、パラグラフN~Rの何れか1つに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0090】
[0094]T:機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、パラグラフN~Sの何れか1つに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0091】
[0095]上記で説明される例示的な条項は、1つの特定の実装形態に関して説明される一方で、本明細書の文脈において、例示的な条項の内容は、方法、デバイス、システム、コンピュータ可読媒体、および/または、別の実装形態を介して実施されることも可能であることを理解すべきである。追加的に、例A~Tの何れかは、単独で、または例A~Tのうちのあらゆる他の1つもしくは複数と組み合わせて実装され得る。
【0092】
まとめ
[0096]主題が構造的な特徴および/または方法的な動作に特有の言語で説明されているが、添付の特許請求の範囲において定義される主題は、必ずしも説明される特定の特徴、または動作に限定されるものではないことを理解すべきである。むしろ、特定の特徴および動作は、特許請求の範囲を実施する例示的な形態として開示される。
【0093】
[0097]本明細書において説明されるコンポーネントは、あらゆるタイプのコンピュータ可読媒体に記憶され得、かつ、ソフトウェアおよび/またはハードウェアにおいて実装され得る命令を表す。上述の方法およびプロセスの全ては、1つもしくは複数のコンピュータまたはプロセッサ、ハードウェア、またはそれらの幾つかの組み合わせによって実行されるソフトウェアコードコンポーネントおよび/またはコンピュータ実行可能命令を介して具現化され、かつ、完全に自動化され得る。方法の幾つかまたは全ては、代替的に、専用のコンピュータハードウェアにおいて具現化され得る。
【0094】
[0098]本明細書に記載されるプロセスのうちの少なくとも幾つかは、論理フローグラフとして図示され、それぞれの動作は、ハードウェア、ソフトウェア、またはそれらの組み合わせにおいて実装されることが可能である動作のシーケンスを表す。ソフトウェアの文脈において、動作は、1つまたは複数のプロセッサによって実行されるとき、記載される動作をコンピュータまたは自律車両に実行させる、1つまたは複数の非一時的なコンピュータ可読記憶媒体上に記憶されたコンピュータ実行可能命令を表す。一般に、コンピュータ実行可能命令は、具体的な機能を実行するか、または具体的な抽象データ型を実装するルーティン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が説明される順序は、限定として解釈されることが意図されるわけではなく、任意の数の説明される動作が、プロセスを実装するために任意の順序で、および/または、並行して組み合わされることが可能である。
【0095】
[0099]特に断りのない限り、「may」、「could」、「may」、または「might」といった条件付きの用語は、とりわけ、他の例示が含まない或る特徴、要素および/またはステップを或る例示が含むことを提示するための文脈内で理解される。したがって、そのような条件付きの用語は、ある特徴、要素および/またはステップが、1つまたは複数の例示に任意の方法で要求されるか、または、その1つまたは複数の例示が、ユーザのインプットまたはプロンプトを用いて、または用いずに、ある特徴、要素および/またはステップが任意の具体的な例示に含まれるか、または実行されるべきであるかを決定するための論理を必ずしも含むことを暗示することは一般に意図されていない。
【0096】
[00100]「X、Y、Zのうち少なくとも1つ」のような表現は、特に断りのない限り、項目、用語などが、X、Y、Zの何れか、または、個々の要素の倍数を含むそれらのあらゆる組み合わせを示すものと理解すべきである。単数として明示的に記載されていない限り、「a」は、単数および複数を意味する。
【0097】
[0100]本明細書において記載され、および/または、添付の図面に示したフロー図に示される、あらゆるルーティンの説明、要素、またはブロックは、ルーティンにおける特定の論理機能、または要素を実装するための1つまたは複数のコンピュータ実行可能命令を含むモジュール、セグメント、またはコードの部分を潜在的に表すものとして理解されるべきである。代替的な実装は、本明細書において説明する例の範囲内において、当業者であれば理解できるように、関係する機能に応じて、要素または機能を削除したり、実質的に同期、逆順、追加操作、または操作の省略など、図示または記載した順序とは異なる順序で実行したりする代替例も含まれる。なお、実質的にという用語は、範囲を示す場合がある。例えば、実質的に同時にという用語は、2つの動作が互いにある時間範囲内において発生することを示し得、実質的に同じ寸法という用語は、2つの要素が互いに或る範囲内の寸法を有することを示し得る。
【0098】
[0101]上述した例には多くの変形例や修正例を加えることができ、その要素は他の許容可能な例の中に含まれるものとして理解されるべきである。すべてのそのような修正および変形は、本開示の範囲内において本明細書に含まれ、以下の特許請求の範囲によって保護されることが意図される。
【手続補正書】
【提出日】2024-07-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1の時刻に関連付けられた第1の画像を受信することと、
前記第1の時刻よりも前の第2の時間に関連付けられた第2の画像を受信することであって、前記第1の画像および前記第2の画像は同じオブジェクトに関連付けられていることと、
機械学習レイヤの第1のセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、
前記第1の出力をメモリに記憶することと、
前記メモリから第2の出力を取得することであって、前記第2の出力は、前記第2の画像に関連付けられ、機械学習レイヤの前記第1のセットによって過去に処理され、かつ、前記メモリに記憶されていることと、
1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、第1の歩行者属性に関連付けられた第1の信頼スコアおよび第2の歩行者属性に関連付けられた第2の信頼スコアを決定することと、
前記第1の信頼スコアまたは前記第2の信頼スコアの少なくとも1つに少なくとも部分的に基づいて、車両を制御することと、を含む方法。
【請求項2】
前記第1の歩行者属性は、歩行者がアイドリングしていること、前記歩行者が道路への進入を意図していること、または、前記歩行者が道路を横断していることのうちの1つを示し、かつ、
前記第2の歩行者属性は、前記歩行者がアイドリングしていること、前記歩行者が道路への進入を意図していること、または、前記歩行者が道路を横断していることのうちの異なる1つを示す、請求項1に記載の方法。
【請求項3】
前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記第1の歩行者属性に関連付けられた前記第1の信頼スコアおよび前記第2の歩行者属性に関連付けられた前記第2の信頼スコアを決定することは、
前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、
前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、
連結された出力として、前記第3の出力および前記第4の出力を連結することと、
前記第3の機械学習レイヤへの入力として、前記連結された出力を提供することと、
前記第3の機械学習レイヤから第5の出力を受信することと、
前記第5の出力を前記第4の機械学習レイヤに入力として提供することと、
前記第4の機械学習レイヤから前記第1の信頼スコアおよび前記第2の信頼スコアを受信することと、を含む、請求項1に記載の方法。
【請求項4】
機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、かつ、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、請求項3に記載の方法。
【請求項5】
前記第1の画像は、第1のより大きな画像の第1の部分であり、
前記第2の画像は、第2のより大きな画像の第2の部分であり、かつ、
前記第1の部分および前記第2の部分は、前記第1のより大きな画像および前記第2のより大きな画像に少なくとも部分的に基づいて、第1の機械学習コンポーネントによって生成される、請求項1に記載の方法。
【請求項6】
システムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されると、前記システムに動作を実施させるプロセッサ実行可能な命令を記憶するメモリと、を備え、前記動作は、
第1の時刻に関連付けられた第1の画像を受信することと、
前記第1の時刻よりも前の第2の時刻に関連付けられた第2の画像を受信することと、
機械学習レイヤの第1のセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、
前記第1の出力をメモリに記憶することと、
前記メモリから第2の出力を取得することであって、前記第2の出力は、前記第2の画像に関連付けられている、ことと、
1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、環境内のオブジェクトに関連付けられた属性を決定することと、
前記属性に少なくとも部分的に基づいて、車両を制御することと、を含む、システム。
【請求項7】
前記オブジェクトに関連付けられた前記属性は、
車両運動状態の表示、
オブジェクトのインジケータ状態の表示、
前記オブジェクトがアイドリングしていることの表示、
前記オブジェクトが道路への進入を意図していることの表示、または、
前記オブジェクトが前記道路を横断していることの表示を含む、請求項
6に記載のシステム。
【請求項8】
前記メモリは、キャッシュであり、かつ、前記キャッシュは、機械学習レイヤの前記第1のセットのn個の出力を記憶し、nは、n個の過去の時間ステップに関連付けられた正の整数である、請求項
6に記載のシステム。
【請求項9】
前記第1の出力及び前記第2の出力は、それぞれ、機械学習レイヤの前記第1のセットによって1回処理される、請求項
6に記載のシステム。
【請求項10】
前記属性は、歩行者が道路の近くでアイドリングしていること、前記歩行者が前記道路への進入を意図していること、前記歩行者が前記道路を横断していること、前記歩行者が前記道路に進入する準備ができていること、または、前記歩行者が前記道路に関連していないことを示す、請求項
6に記載のシステム。
【請求項11】
前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記属性を決定することは、
前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、
前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、
連結された出力として、前記第3の出力および前記第4の出力を連結することと、
前記連結された出力を前記第3の機械学習レイヤへの入力として提供することと、
前記第3の機械学習レイヤから第5の出力を受信することと、
前記第4の機械学習レイヤに入力として前記第5の出力を提供することと、
前記第4の機械学習レイヤから前記属性に関連付けられた信頼スコアを受信することと、を含む、請求項
6に記載のシステム。
【請求項12】
機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、かつ、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、請求項
11に記載のシステム。
【請求項13】
前記第1の画像は、第1のより大きな画像の第1の部分であり、
前記第2の画像は、第2のより大きな画像の第2の部分であり、かつ、
前記第1の部分および前記第2の部分は、前記第1のより大きな画像および前記第2のより大きな画像に少なくとも部分的に基づいて、第1の機械学習コンポーネントによって生成される、請求項
6に記載のシステム。
【請求項14】
プロセッサ実行可能な命令を記憶する1つまたは複数の非一時的なコンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに動作を実施させ、前記動作は、
第1の時刻に関連付けられた第1の画像を受信することと、
前記第1の時刻よりも前の第2の時刻に関連付けられた第2の画像を受信することと、
機械学習レイヤの第1のセットによって、かつ、前記第1の画像に少なくとも部分的に基づいて、第1の出力を決定することと、
前記第1の出力をメモリに記憶することと、
前記メモリから第2の出力を取得することであって、前記第2の出力は前記第2の画像に関連付けられていることと、
1つまたは複数の機械学習レイヤによって、かつ、前記第1の出力および前記第2の出力に少なくとも部分的に基づいて、環境内のオブジェクトに関連付けられた属性を決定することと、
前記属性に少なくとも部分的に基づいて、車両を制御することと、を含む、1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項15】
前記オブジェクトに関連付けられた前記属性は、
車両運動状態の表示、
オブジェクトのインジケータ状態の表示、
前記オブジェクトがアイドリングしていることの表示、
前記オブジェクトが道路への進入を意図していることの表示、または、
前記オブジェクトが道路を横断していることの表示を含む、請求項
14に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項16】
前記メモリは、キャッシュであり、かつ、前記キャッシュは、機械学習レイヤの前記第1のセットのn個の出力を記憶し、nは、n個の過去の時間ステップに関連付けられた正の整数である、請求項
14に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項17】
前記第1の出力および前記第2の出力は、それぞれ、機械学習レイヤの前記第1のセットによって1回処理される、請求項
14に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項18】
前記属性は、歩行者が道路の近くでアイドリングしていること、前記歩行者が前記道路への進入を意図していること、前記歩行者が前記道路を横断していること、前記歩行者が前記道路に進入する準備ができていること、または、前記歩行者が前記道路に関連していないことを示す、請求項
14に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項19】
前記1つまたは複数の機械学習レイヤは、第2の機械学習レイヤ、第3の機械学習レイヤ、および、第4の機械学習レイヤを含み、前記属性を決定することは、
前記第2の機械学習レイヤによって、かつ、前記第1の出力に少なくとも部分的に基づいて、第3の出力を決定することと、
前記第2の機械学習レイヤによって、かつ、前記第2の出力に少なくとも部分的に基づいて、第4の出力を決定することと、
連結された出力として、前記第3の出力および前記第4の出力を連結することと、
前記連結された出力を前記第3の機械学習レイヤに入力として提供することと、
前記第3の機械学習レイヤから第5の出力を受信することと、
前記第5の出力を前記第4の機械学習レイヤに入力として提供することと、
前記第4の機械学習レイヤから前記属性に関連付けられた信頼スコアを受信することと、を含む、請求項
14に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項20】
機械学習レイヤの前記第1のセットは、ニューラルネットワークの複数のレイヤを含み、前記第2の機械学習レイヤ、前記第3の機械学習レイヤ、および、前記第4の機械学習レイヤは、異なる完全に接続されたレイヤを含む、請求項
19に記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0039
【補正方法】変更
【補正の内容】
【0039】
[0043]メモリ220および/またはメモリ224は、追加的または代替的に、マッピングシステム、計画システム、ライドマネジメントシステムなどを記憶し得る。知覚コンポーネント228、計画コンポーネント230、および/または、パフォーマンスコンポーネントは、メモリ220および/または224に記憶されるように示されているが、知覚コンポーネント228、計画コンポーネント230、および/または、パフォーマンスコンポーネントは、プロセッサ実行可能命令、機械学習モデル(例えば、ニューラルネットワーク)、および/または、ハードウェアを含み得る。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0058
【補正方法】変更
【補正の内容】
【0058】
例示的な属性
[0062]
図4は、3つの例示的なフレーム(時間内のセンサデータの離散部分)400~404、および、フレームのそれぞれについてMLアーキテクチャ300によって予測される属性を示す。図示されるフレームは画像であるが、フレームは、点群データまたはあらゆる他のセンサデータの一部であり得ることが理解される。
図4はまた、タイムライン406、および、MLアーキテクチャ300によって受信かつ処理された、フレーム408のような他のフレームを示し、それは矩形として示されるが、
図4に関して論じられた分類のうちの1つに関連付けられていない。
図4は、それぞれが同じ属性を有すると分類され得るフレームを示す。例えば、410によって示される括弧の下のフレームそれぞれは、属性「アイドリング」を有するオブジェクトを示すものとして分類され得、第1のフレーム400は、そのように分類され得るフレームの例である。括弧412の下のフレームは、属性「道路に進入する意図」を有するオブジェクトを示すものとして分類され得、第2のフレーム402は、そのように分類され得るフレームの例である。括弧
414の下のフレームは、属性「道路を横断している」を有するオブジェクトを示すものとして分類され得、第3のフレーム404は、そのように分類され得るフレームの例である。
【国際調査報告】