(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-22
(54)【発明の名称】オブジェクト速度および/またはヨーレート検出およびトラッキング
(51)【国際特許分類】
G06T 7/00 20170101AFI20230314BHJP
G06V 10/70 20220101ALI20230314BHJP
G06V 20/58 20220101ALI20230314BHJP
B60W 40/04 20060101ALI20230314BHJP
B60W 40/114 20120101ALI20230314BHJP
G08G 1/16 20060101ALI20230314BHJP
【FI】
G06T7/00 650B
G06T7/00 350B
G06V10/70
G06V20/58
B60W40/04
B60W40/114
G08G1/16 C
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022546428
(86)(22)【出願日】2021-01-29
(85)【翻訳文提出日】2022-09-29
(86)【国際出願番号】 US2021015811
(87)【国際公開番号】W WO2021155223
(87)【国際公開日】2021-08-05
(32)【優先日】2020-01-31
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-05-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518156417
【氏名又は名称】ズークス インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】サブハシス ダス
(72)【発明者】
【氏名】カイ ユー
(72)【発明者】
【氏名】ベンジャミン イサーク ツヴィーベル
【テーマコード(参考)】
3D241
5H181
5L096
【Fターム(参考)】
3D241BA11
3D241BA20
3D241BA49
3D241BB27
3D241BB37
3D241CE01
3D241CE02
3D241CE04
3D241CE05
3D241DC01Z
3D241DC25Z
3D241DC57Z
5H181AA01
5H181BB04
5H181BB20
5H181CC03
5H181CC04
5H181CC14
5H181LL01
5H181LL02
5H181LL04
5H181LL09
5L096BA04
5L096CA04
5L096DA02
5L096FA67
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
センサーデータを用いてオブジェクトの現在および/または以前の位置、速度、加速度、または進路をトラッキングすることは、最近受信した(例えば、現在の)センサーデータから生成される現在のオブジェクト検出が以前に受信したセンサーデータから生成された以前のオブジェクト検出に関連付けられるかを判定することを含んでよい。つまり、行程は、以前のセンサーデータで検出されたオブジェクトが現在のセンサーデータで検出された同一のオブジェクトであることを識別することができる。しかしながら、多様なタイプのセンサーデータは、オブジェクトを検出するために用いられてよく、あるオブジェクトは、異なるセンサータイプによって検出されることがないか、または異なって検出されることがあり、これは、オブジェクトをトラッキングする試みを混乱させることがある。MLモデルは、異なるセンサータイプおよび/またはオブジェクトに関連付けられる行程に関連付けられる出力を受信するため、および関心領域、オブジェクト分類、および/またはオブジェクトに関連付けられる姿勢を含むデータ構造を判定するために訓練されてよい。
【特許請求の範囲】
【請求項1】
第1のセンサータイプに関連付けられる第1のオブジェクト検出および第2のセンサータイプに関連付けられる第2のオブジェクト検出を受信するステップであって、前記第1のオブジェクト検出および前記第2のオブジェクト検出は、自律車両を取り囲む環境におけるオブジェクトを識別するステップと、
前記オブジェクトに関連付けられる行程を受信するステップであって、前記行程は、前記オブジェクトの推定される以前の位置、以前の関心領域、または前記オブジェクトの以前の速度のうちの少なくとも1つを識別するステップと、
前記第1のオブジェクト検出、前記第2のオブジェクト検出、および前記行程の少なくとも一部を機械学習(ML)モデルへと入力するステップと、
前記MLモデルから、前記オブジェクトに関連付けられる関心領域および前記オブジェクトに関連付けられる複数の速度、前記オブジェクトの一部に関連付けられる前記複数の速度のうちの1つの速度を受信するステップと、
前記複数の速度に少なくとも部分的に基づいて、前記オブジェクトに関連付けられる推定される速度および推定されるヨーレートを判定するステップと、
前記関心領域に少なくとも部分的に基づいて前記オブジェクトに関連付けられる更新された行程を判定するステップであって、前記更新された行程は、前記行程の少なくとも一部と、前記推定される速度または前記推定されるヨーレートのうちの少なくとも1つとを含むステップと、
前記更新された行程に少なくとも部分的に基づいて前記自律車両を制御するステップとを備える方法。
【請求項2】
前記MLモデルから、
前記オブジェクトが静止しているか、または動的であるという表示、
環境のトップダウンセグメンテーション、
オブジェクトの現在の位置、または
前記オブジェクトに関連付けられる加速度のうちの少なくとも1つを受信するステップをさらに備える、
請求項1に記載の方法。
【請求項3】
前記推定される速度および前記推定されるヨーレートを判定するステップは、連立方程式に従って前記速度にわたる回帰を実行するステップを含む、
請求項1または2に記載の方法。
【請求項4】
ピクセルに関連付けられるグラウンドトゥルース速度を示すグラウンドトゥルースデータを受信するステップと、
前記グラウンドトゥルース速度と前記速度との差を判定するステップと、
前記差を低減するために前記MLモデルの1つまたは複数のパラメーターを変更するステップとをさらに備える、
請求項1ないし3のいずれか一項に記載の方法。
【請求項5】
前記第1のオブジェクト検出、前記第2のオブジェクト検出、および前記行程の少なくとも一部を入力するステップは、
前記第1のオブジェクト検出、前記第2のオブジェクト検出、および前記行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成するステップと、
前記マルチチャネル画像を前記MLモデルに入力するステップとを含む、
請求項1ないし4のいずれか一項に記載の方法。
【請求項6】
複数の前記速度の前記速度は、画像のピクセルに関連付けられ、複数の前記速度は、前記画像の異なるピクセルに関連付けられる、
請求項1ないし5のいずれか一項に記載の方法。
【請求項7】
前記第1のオブジェクト検出は、第1の知覚パイプラインの出力であり、
前記第2のオブジェクト検出は、第2の知覚パイプラインの出力である、
請求項1ないし6のいずれか一項に記載の方法。
【請求項8】
システムであって、
1つまたは複数のプロセッサと、
1つまたは複数の前記プロセッサによって実行される場合に、前記システムに、
第1のセンサータイプに関連付けられる第1のオブジェクト検出および第2のセンサータイプに関連付けられる第2のオブジェクト検出を受信することであって、前記第1のオブジェクト検出および前記第2のオブジェクト検出は、自律車両を取り巻く環境におけるオブジェクトを識別することと、
前記オブジェクトに関連付けられる行程を受信することであって、前記行程は、前記オブジェクトの推定される以前の位置、以前の関心領域、または前記オブジェクトの以前の速度のうちの少なくとも1つを識別することと、
前記第1のオブジェクト検出、前記第2のオブジェクト検出、および前記行程の少なくとも一部を機械学習(ML)モデルへと入力することと、
前記MLモデルから、前記オブジェクトに関連付けられる関心領域および前記オブジェクトに関連付けられる複数の速度、前記オブジェクトの一部に関連付けられる前記複数の速度のうちの1つの速度を受信することと、
前記関心領域に少なくとも部分的に基づいて前記オブジェクトに関連付けられる更新された行程を判定することであって、前記更新された行程は、前記行程の少なくとも一部と、前記推定される速度または前記推定されるヨーレートのうちの少なくとも1つとを含むことと、
前記更新された行程に少なくとも部分的に基づいて前記自律車両を制御することとを含む動作を実行させるプロセッサ実行可能命令を格納するメモリと
を備えるシステム。
【請求項9】
前記動作が、前記MLモデルから、
前記オブジェクトが静止しているか、または動的であるという表示、
環境のトップダウンセグメンテーション、
オブジェクトの現在の位置、または
前記オブジェクトに関連付けられる加速度のうちの少なくとも1つを受信することをさらに備える、
請求項8に記載のシステム。
【請求項10】
前記第1のオブジェクト検出、前記第2のオブジェクト検出、および前記行程の少なくとも一部を入力することは、
前記第1のオブジェクト検出、前記第2のオブジェクト検出、および前記行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成することと、
前記マルチチャネル画像を前記MLモデルに入力することとを含む、
請求項8または9に記載のシステム。
【請求項11】
前記複数の速度のうちの前記1つの速度は、画像のピクセルに関連付けられ、複数の前記速度は、前記画像の異なるピクセルに関連付けられる、
請求項1ないし10のいずれか一項に記載のシステム。
【請求項12】
前記第1のオブジェクト検出は、第1の知覚パイプラインの出力であり、
前記第2のオブジェクト検出は、第2の知覚パイプラインの出力である、
請求項1ないし11のいずれか一項に記載のシステム。
【請求項13】
前記第1のオブジェクト検出または前記第2のオブジェクト検出のうちの少なくとも1つは、
トップダウンの視点からの環境表現、
オブジェクトの分類、位置、占有領域、または状態の表示、
前記オブジェクトに関連付けられる速度、加速度、ヨー、またはヨーレート、
センサーデータセグメンテーション、または
環境の閉塞される部分の表現のうちの少なくとも1つを含む、
請求項1ないし12のいずれか一項に記載のシステム。
【請求項14】
複数の前記速度は、前記MLモデルによって出力される速度のセットのサブセットであり、前記速度のセットは、それぞれ、共分散に関連付けられ、
前記方法は、前記複数の速度が閾値共分散を満たすか、または上回る共分散に関連付けられていると判定することに少なくとも部分的に基づいて、複数の前記速度を出力するために判定することをさらに備える、
請求項1ないし13のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクト速度および/またはヨーレート検出およびトラッキングに関する。
【背景技術】
【0002】
(関連出願)
本PCT出願は、2020年5月5日に出願された米国特許出願第16/866,865号に対する優先権を主張し、これは、2020年1月31日に出願された米国特許出願第16/779,576号の一部継続であり、その全体が本明細書に組み込まれる。
【0003】
自律車両は、センサーを用いてよく、自律車両が横断する環境に関するデータをキャプチャする。自律車両は、このセンサーデータを用いて環境におけるオブジェクトを検出し、衝突を回避する。しかしながら、自律車両は、2つまたはそれより多くの異なるタイプのセンサーを含んでよく、それに応じて、センサーデータは、その書式および内容において大きく異なる場合があるため、2つの異なるタイプのセンサーによって生成される検出は、異なることがある。2つの異なるセンサータイプに関連して判定される検出間の小さな相違は、車両によって作成されるオブジェクト表現を小刻みに動かし(つまり、「跳びまわったり」)および/または明滅(つまり、点いたり消えたり)させることがある。深度カメラのようなあるセンサータイプは、また、深度測定における大きな誤差の変動を引き起こす傾向があることがあり、これは、オブジェクトのトラッキングをさらに複雑にすることがある。これは、車両を安全にナビゲートすること、おいび/または機械学習(ML)モデルを訓練することの効率を妨げることがある。さらに、相違を低減および/またはオブジェクト表現またはそれに関連するデータを平滑化するための技術は、コンピューティングバンド幅および/またはメモリを消費することがある。
【図面の簡単な説明】
【0004】
詳細な説明は、添付の図面を参照して説明される。図面において、参照番号の左端の数字は、その参照番号が最初に現れる図を識別する。異なる図面における同一の参照番号は、類似するまたは同一の項目を示している。
【0005】
【
図1】知覚およびトラッキングコンポーネントで構成される自律車両が、自律車両を取り囲む環境におけるオブジェクトの以前および現在位置、速度、および/または進路をトラッキングすることができ、行程(track)に少なくとも部分的に基づいて自律車両を制御するための軌道を生成することができる例示的な状況を示す図である。
【
図2】知覚コンポーネントおよびトラッキングコンポーネントを含む例示的なシステムを示すブロック図である。
【
図3】本明細書で説明される改善されたオブジェクトトラッキング技術を達成するためのコンポーネントを含む知覚アーキテクチャの少なくとも一部を示すブロック図である。
【
図4】知覚パイプラインオブジェクトの環境表現/オブジェクト検出に少なくとも部分的に基づいて、センサーデータに少なくとも部分的に基づいて生成され得る、推定されるオブジェクト検出を判定する例示的なプロセスの絵入りのフロー図である。
【
図5】本明細書で説明されるMLモデルによって判定される推定されるオブジェクト検出に少なくとも部分的に基づいて、環境におけるオブジェクトをトラッキングするための例示的なプロセスを示す絵入りのフロー図である。
【
図6】推定されるオブジェクト検出を生成するためのMLモデルの例示的なアーキテクチャを示すブロック図である。
【
図7】MLモデルを訓練してオブジェクトに関連付けられる速度および/またはヨーレートを判定するため、および/またはMLモデルを用いて推論時間での速度および/またはヨーレートを判定するための例示的なプロセスの絵入りのフロー図である。
【発明を実施するための形態】
【0006】
センサーデータを用いてオブジェクトの現在および/または以前の位置、速度、加速度、または進路をトラッキングするための技術は、最近受信した(例えば、現在の)センサーデータから生成される現在のオブジェクト検出が以前に受信したセンサーデータから生成された以前のオブジェクト検出に関連付けられるかを判定することを含んでよい。つまり、行程は、以前のセンサーデータで検出されたオブジェクトが現在のセンサーデータで検出される同一のオブジェクトであることを識別することができる。ある例示において、行程は、追加的または代替的に、自律車両のプラニングコンポーネントに対して有用なオブジェクトについてのさまざまな現在および/または以前のデータを含んでよく、自律車両を制御するために、オブジェクトの動作/挙動を予測して、軌道および/または経路を判定する。例えば、行程は、追加的または代替的に、オブジェクトによって現在および/または以前に占有された環境の領域の表示、オブジェクトに関連付けられるオブジェクト分類(例えば、車両、特大車両、歩行者、サイクリスト)、オブジェクトに関連付けられる現在および/または以前の進路、オブジェクトの現在および/または以前の速度および/または加速度、および/またはオブジェクトの現在の位置および/または速度を含んでよいが、任意の他のパラメーターが企図される。
【0007】
ある例示において、センサータイプの1つまたは複数のセンサーは、パイプライン(例えば、一連の動作、ステップ、ネットワークまたはそのレイヤー、機械学習モデル、アナログデジタルコンバーター、増幅器、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASICなど)などのハードウェア)に関連付けられてよく、関連するそのセンサーデータに含まれるオブジェクトについての情報を判定することに用いられる。センサーデータは、そのタイプの1つまたは複数のセンサーから受信されてよく、パイプライン(ここで、本明細書では、知覚パイプラインと称されてよい)は、センサーデータに少なくとも部分的に基づいて環境表現を生成することができる。簡潔にするために、パイプラインの集合出力は、本明細書では環境表現と称される。環境表現は、1つまたは複数のオブジェクト検出を含んでよく、1つまたは複数の出力タイプを含んでよい。例えば、視覚パイプライン302は、視覚データ310(例えば、1つまたは複数のRGB画像、熱画像を含むセンサーデータ)に少なくとも部分的に基づいて環境表現308を出力することができる。
【0008】
環境表現は、オブジェクト検出を含んでよく、これは、オブジェクトによって環境の一部が占有されている表示および/または尤度、検出されるオブジェクトに関連付けられる関心領域(ROI)(例えば、境界ボックス、マスク、セグメンテーション、またはオブジェクトによって環境の領域が占有されているある他の識別)、オブジェクト分類、オブジェクトの進路、オブジェクトの速度および/または加速度、オブジェクトの高さなどを含んでよい。環境表現は、追加的または代替的に、米国特許出願第15/963,833号でより詳細に説明されるように、これは、本明細書にその全体が組み込まれるセンサーデータのボクセル化された表現(このようなデータの離散化された3次元表現)および/またはトップダウンセグメンテーション、および/または環境のトップダウン表現を含んでよい。米国特許出願第15/963,833号は、追加的または代替的に、本明細書で説明される回帰を含むために修正されてよく、これらの追加的または代替的な回帰に関連付けられる損失をバックプロパゲーションすることによって修正されてよいことに留意されたい。ある例示において、本明細書で説明される関心領域は、3次元ROIおよび/または2次元ROI(例えば、ROIのトップダウン/鳥瞰視点)であってよい。ある例示において、さらなる環境表現は、異なるセンサータイプに関連付けられる知覚パイプラインによって生成されてよい。
【0009】
ある例示において、多様なオブジェクト検出は、環境における同一のオブジェクトに関連して生成されることができる。これらの多様なオブジェクト検出は、異なる知覚パイプラインによって生成されることができ、これは、異なるセンサータイプに関連付けられてよい。例えば、ライダー知覚パイプラインは、ライダーデータを受信することができ、オブジェクトに関連付けられるオブジェクト検出を判定することができ、ハイブリッドライダー視覚知覚パイプラインは、ライダーおよび視覚データを受信することができ、同一のオブジェクトに関連付けられる異なるオブジェクト検出を生成することができ、視覚知覚パイプラインは、カメラから画像を受信することができ、同一のオブジェクトなどに関連付けられるさらなるオブジェクト検出を生成することができる。センサーと知覚パイプラインとの間の差異のため、異なるパイプラインによって生成される同一のオブジェクトに関連付けられるオブジェクト検出は、互いの間で変化することがある。例えば、第1のオブジェクト検出は、異なる次元を有するオブジェクトに関連付けられるROIを示してよく、ROIは、同一のオブジェクトに関連付けられる第2のオブジェクト検出によって示される。より極端な場合において、あるパイプラインは、オブジェクトに関連付けられるオブジェクト検出を生成することができ、別のパイプラインは、検出を全く生成することができない。例えば、レーダーまたはライダーパイプラインは、オブジェクトを検出することができるが、オブジェクトは、カメラの視野から妨げられることがある。
【0010】
ある例示において、本明細書で説明される技術は、異なるセンサータイプに関連付けられる環境表現の少なくとも一部を集約すること、および推定されるオブジェクト検出を出力するように訓練されるMLモデルへの入力として集約されるデータを提供することを含んでよい。ある例示において、集約されるデータは、マルチチャネル画像で表現されてよく、ここで、異なるチャネルは、知覚データが生成されるおよび/または異なるタイプの知覚データからの異なるタイプのセンサーに関連付けられてよい。例えば、集約されるデータは、ライダー、視覚、および/またはレーダー占有グリッド(例えば、それぞれのセンサーデータのタイプに関連付けられる知覚パイプラインに従って、環境における対応する位置が占有されているか、または占有されていないかを示すピクセルのような別個の部分を有するグリッドなど)、ライダー、視覚、および/またはレーダーに関連して生成されるROIのトップダウン表現、環境の一部に関連付けられるオブジェクト分類、環境の一部が占有されている確率、検出されるオブジェクトのヨーなどを含んでよい。占有マップに関して米国特許出願第16/591,518号を参照されたく、その全体が参照により本明細書に組み込まれる。ある例示において、占有グリッドは、最大の高さまで伸びてよく、これは、自律車両の高さに加えてバッファに対応してよい。つまり、占有グリッドは、環境の一部の最大の高さよりも低い占有の部分を示してよい。例えば、占有グリッドは、このようなオブジェクトが最大の高さを上回る位置にあってよいため、通りにわたって配置される交通信号または標識によって、環境の一部が占有されていることを示すこととなることはない。
【0011】
ある例示において、集約されるデータは、追加的または代替的に、例えば、マップデータ(例えば、車道データ、運転可能な表面位置、目的地)、気象データ、交通通知(例えば、渋滞、衝突、車線修正、工事、速度修正)、安全通知(例えば、環境ハザード場所、災害場所、路面状態、視認性条件)などのリモートコンピューティングデバイスからのデータおよび/または非知覚ベースのデータを含んでよい。ある例示において、リモートコンピューティングデバイスは、別の自律車両、サードパーティサービス、分散コンピューティングデバイス、リモートセンサーなどであってよい。
【0012】
ある例示において、異なるパイプラインから集約されるデータは、1つまたは複数の以前の時間に対する環境表現の少なくとも一部を追加的に含んでよい。例えば、異なるセンサータイプに関連付けられる知覚パイプラインは、同期されることができ、同一の周波数(例えば、100ミリ秒ごと、500ミリ秒ごと、1秒ごと)で環境表現を生成する。知覚パイプラインが500ミリ秒ごとに実質的に同一の時間で環境表現を出力するために同期される例示において、集約されるデータは、0ミリ秒(つまり、ごく最近受信した環境表現のセットに対応する集約されるデータのセット)、-500ミリ秒、1秒などの上記のデータを含んでよい。少なくとも1つの例示において、集約されるデータは、時間ステップに対して、0ミリ秒、-100ミリ秒、-200ミリ秒、-300ミリ秒、および/または-400ミリ秒、および/または-1秒、-2秒、および/または-3秒の集約されるデータを含むマルチチャネル画像を含んでもよいが、任意の適切な時間ステップが用いられてよい。例えば、集約されるデータは、nが正の整数(例えば、1、2、3、4、5、10など)である現在および最後のn時間ステップに対して異なるパイプラインから受信したオブジェクト検出を含んでよい。
【0013】
1つまたは複数の以前に生成された行程は、集約されるデータに加えて(例えば、集約されるデータのチャネルとして)MLモデルへの入力として提供されてよい。例えば、行程は、あらゆる時間ステップまたはある区間で(例えば、一つおきの時間ステップ)関連付けられて生成されることができる。以前に生成された行程は、マルチチャネル画像におけるチャネルとして含んでよい。ある例示において、行程は、オブジェクトに関連付けられるROIの中心、範囲、および/またはヨー、および/またはオブジェクトに関連して生成される他の以前の関心領域を有するROIに関連する識別子を含んでよい。
【0014】
ある例示において、MLモデルは、最終の環境表現を出力するように訓練されてよく、これは、1つまたは複数の推定されるオブジェクト検出を含んでよい。上記のように、オブジェクトに関連付けられるオブジェクト検出は、異なるパイプライン間の寸法、位置、または存在さえも変化することがある。最終の環境表現は、異なるパイプラインから受信したオブジェクト検出(例えば、集約されるデータの一部としてMLモデルへの入力として受信した)に少なくとも部分的に基づいて、判定されるオブジェクトごとの1つの推定されるオブジェクト検出を含んでよい。例えば、MLモデルによって生成される推定されるオブジェクト検出は、占有されている環境の一部(例えば、オブジェクトに関連付けられる領域)を識別するROI、未来の時間に関連付けられる予測されるROI、ROIに関連付けられる速度、ROIに関連付けられるオブジェクト分類(例えば、車両、歩行者、大型車両、サイクリスト)、ROIの速度の分類(例えば、静止しているまたは動的)、ROIに関連付けられる進路(例えば、ヨー)、および/または進路区分(bin)(例えば、0度および180度を中心とした2つの区分であり、0度、90度、180度、および270度を中心とした4つの区分であり、この出力は、区分の中心からの距離をさらに含んでよい)、および/またはROIに関連付けられる高さ(例えば、検出されるオブジェクトの高さ)を含んでよい。ある例示において、任意の関心領域は、非最大抑制技術に従うような信頼レイヤーの出力に少なくとも部分的に基づいて生成されることができる。例えば、米国特許出願第16/013,764号および第16/013,729号を参照されたく、これらは、それらの全体が本明細書に組み込まれる。
【0015】
ある例示において、MLモデルの出力は、画像を含んでよく、ここで、それぞれのピクセルが上記の情報を格納する。例えば、最終の環境表現は、画像のような環境のトップダウン表現を含んでよい。画像は、上記で説明されるデータを示してよい。画像のピクセルは、環境の一部が占有されていること、一部を占有しているオブジェクトのオブジェクト分類、オブジェクトの速度などを示してよい。オブジェクト検出は、上記で説明されるデータ(例えば、オブジェクト分類、オブジェクトの速度、オブジェクトの向き)に占有されているおよび/または関連付けられているように示されるピクセルの領域(または最終の環境の他の別個の部分)として最終の環境において示されてよい。
【0016】
ある例示において、技術は、以前に生成された行程を最終の環境表現の推定されるオブジェクト検出のうちの1つに関連するか、および/または新しい行程を生成するかを判定することをさらに含んでよい。ある例示において、技術は、以前の行程を受信すること、および以前の行程に関連付けられるROIを以前の行程に関連付けられる以前の時間フレームから現在および/または未来の時間フレームに投影することを含んでよい。例えば、これは、ROIの位置および/または進路の表現を変更することを含んでよい。追加的または代替的な例示において、投影されたROIは、以前の時間ステップでMLモデルによって出力される予測されるROIを含んでよい。技術は、投影されたROIと、MLモデルによって生成された推定されるオブジェクト検出のいずれかとの関連度を判定することを含んでよい。例えば、関連度は、重複度(例えば、領域の和集合分の領域の共通部分(IOU))、Munkresのマッチングスコア、サイズ比較、特徴比較(例えば、投影されたROIは、推定されるオブジェクト検出と同一のオブジェクト分類に関連付けられているか?投影されたROIに関連付けられる速度と推定されるオブジェクト検出に関連付けられる予測される速度との間に大きな相違点があるか)などである。ある例示において、関連度を判定することは、スコアリング関数において符号化されてよく、これは、機械学習および/または決定論的であってよい。例えば、IOUは、関連度に対するスコアを判定するMLモデルに対して、推定されるオブジェクト検出ROIに対して投影されたROIの位置およびサイズの表現と共に、決定論的に判定されてよく、入力として用いられてよい。
【0017】
関連度が閾値を満たすか、または上回る場合、技術は、以前の行程を推定されるオブジェクト検出に関連付けることを含んでよい。しかしながら、関連度が閾値を満たさない場合、技術は、任意の他の投影されたROI(例えば、推定されるオブジェクト検出に重複するか、または閾値距離内にある他のROI)を用いて推定されるオブジェクト検出をテストすること、および/または推定されるオブジェクト検出に投影されたROIが一致しない場合、推定されるオブジェクト検出に関連付けられる新しい行程を生成することを含んでよい。追加的または代替的な例示において、以前の行程は、推定されるオブジェクト検出に関連付けられてよく、または新しい行程は、IOUだけに基づいてより簡単に生成されてもよいが、追加的または代替的なデータは、推定されるオブジェクト検出が以前のオブジェクト検出/行程に対応する場合に判定するために用いられてよい。
【0018】
本明細書で説明される技術は、車両の周囲の状況におけるオブジェクトの動きおよび/または挙動を予測する能力を改善すること、および/または一時的に閉塞され得るオブジェクトを継続して説明することによって、車両の安全性を改善することができる。これらの技術は、また、知覚システムの動作範囲を増加させる(例えば、車両から40メートル、60メートル、または80メートルまで増加させる)ことができる。少なくともある例示において、技術は、具体的には、ここで、異なるセンサーモダリティが異なるサイズの関心領域を生成する例示において、センサーモダリティに関連付けられる深度推定が変化する場合に、オブジェクトがオーバーセグメント化されている場合、および/またはアンダーセグメント化されている場合に、オブジェクトに関連付けられる行程を判定するためのコンピューティング帯域幅をさらに低減することができる。オブジェクトをトラッキングするために多様なセンサーモダリティを用いる他の技術は、それぞれのセンサーモダリティからのオブジェクト検出を以前の行程と比較することを要求することがあるのに対して、瞬間技術は、MLモデルによって判定される推定されるオブジェクト検出を以前の行程と比較することを含む。これらの技術は、オブジェクト検出(例えば、オブジェクトの位置、セグメンテーション)および/またはトラッキングの精度を高めることができる。基礎となるオブジェクト検出がより安定しているため、本明細書で説明される技術を用いて生成される行程は、より少なく小刻みに動かす。
【0019】
(例示的な状況)
図1は、車両102を含む例示的な状況100を図示している。ある例示において、車両102は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するように構成される自律車両であってよく、これは、運転者(または乗員)の常時車両制御を期待することなく全行程に対するすべてのセーフティクリティカルな機能を実行することが可能である車両を説明する。しかしながら、他の例示において、車両102は、任意の他のレベルまたは分類を有する完全なまたは部分的な自律車両であってよい。本明細書で説明される技術は、自律車両に対するようなロボット制御を越えるものに適用され得ると企図される。例えば、本明細書で説明される技術は、検索、製造、拡張現実などに適用されてよい。さらに、車両102は、陸上車両として描写されているにもかかわらず、宇宙船、水上車両などであることがある。ある例示において、車両102は、シミュレーション車両としてシミュレーションにおいて表現されてよい。簡潔にするために、本明細書での説明は、シミュレーション車両と現実世界の車両とを区別しない。したがって、「車両」への言及は、シミュレーション車両および/または現実世界の車両を言及してよい。
【0020】
本明細書で説明される技術に従って、車両102は、車両102のセンサー104からセンサーデータを受信することができる。例えば、センサー104は、位置センサー(例えば、グローバルポジショニングシステム(GPS)センサー)、慣性センサー(例えば、加速度センサー、ジャイロスコープセンサーなど)、磁場センサー(例えば、コンパス)、位置/速度/加速度センサー(例えば、速度計、駆動システムセンサー)、深度位置センサー(例えば、ライダーセンサー、レーダーセンサー、ソーナーセンサー、飛行時間(ToF)カメラ、深度カメラ、超音波および/またはソーナーセンサー、および/または他の深度感知センサー)、画像センサー(例えば、カメラ)、音声センサー(例えば、マイク)、および/または環境センサー(例えば、気圧計、湿度計など)を含んでよい。
【0021】
センサー104は、センサーデータを生成することができ、これは、車両102に関連付けられるコンピューティングデバイス106によって受信されることができる。しかしながら、他の例示において、センサー104および/またはコンピューティングデバイス106のうちのいくつかまたはすべては、車両102から離れて別個に、および/または車両102から遠隔に配置され、データキャプチャ、処理、コマンド、および/または制御は、有線および/または無線ネットワークを介して1つまたは複数のリモートコンピューティングデバイスによって車両102との間で通信されることができる。
【0022】
コンピューティングデバイス106は、知覚コンポーネント110、プランニングコンポーネント112、トラッキングコンポーネント114、および/またはシステムコントローラー116を格納するメモリ108を備えてよい。例示的な目的のために
図1に描写されるが、トラッキングコンポーネント114が他のコンポーネントのうちのいずれか1つまたは複数よりも別個のコンピューティングデバイス(またはそれ以外の場合)に存在し得ると理解されたい。一般に、知覚コンポーネント110は、車両102を取り囲む環境に何があるかを判定することができ、プランニングコンポーネント112は、知覚コンポーネント110から受信した情報に従って車両102をどのように操作するかを判定することができる。例えば、プランニングコンポーネント112は、知覚データおよび/または、例えば、1つまたは複数のマップ、ローカリゼーション情報(例えば、ここで、車両102がマップおよび/または知覚コンポーネント110によって検出される特徴に関連する環境の中にある)などのような他の情報に少なくとも部分的に基づいて、軌道118を判定することができる。軌道118は、車両102の駆動コンポーネントを作動させるためにコントローラー116に対する命令を含んでよく、ステアリング角度および/またはステアリングレートをもたらし、これは、車両位置、車両速度、および/または車両加速度につながることがある。例えば、軌道118は、コントローラー116に対してトラッキングするためにターゲットの進路、ターゲットステアリング角度、ターゲットステアリングレート、ターゲット位置、ターゲット速度、および/またはターゲット加速度を含んでよい。知覚コンポーネント110、プランニングコンポーネント112、および/またはトラッキングコンポーネント114は、1つまたは複数の機械学習(ML)モデルおよび/または他のコンピューター実行可能命令を含んでよい。
【0023】
ある例示において、コントローラー116は、軌道118をトラッキングするために十分な車両102の駆動コンポーネントを作動させるためのソフトウェアおよび/またはハードウェアを含んでよい。例えば、コントローラー116は、1つまたは複数のPID(Proportional-integral-derivative)コントローラーを含んでよい。
【0024】
ある例示において、知覚コンポーネント110は、センサー104からセンサーデータを受信することができ、車両102の付近のオブジェクトに関連するデータ(例えば、検出されるオブジェクト、インスタンスセグメンテーション、セマンティックセグメンテーション、2次元および/または3次元境界ボックス、行程に関連付けられるオブジェクト分類)、車両の目的地を指定するルートデータ、車道の特徴を識別するグローバルマップデータ(例えば、自律車両をローカライズするために有用な異なるセンサーモダリティで検出可能な特徴)、車両に近接して検出される特徴を識別するローカルマップデータ(例えば、建物、木、フェンス、消火栓、停止標識の位置および/または寸法、およびさまざまなセンサーモダリティで検出可能な任意の他の特徴)、行程データ(例えば、環境表現、オブジェクト検出、および/または本明細書で説明される行程)などを判定することができる。
【0025】
ある例示において、知覚コンポーネント110は、ハードウェアおよび/またはソフトウェアのパイプラインを含んでよく、これは、1つまたは複数のGPU、MLモデル、カルマンフィルターなどを含んでよい。ある例示において、知覚コンポーネント110は、自律車両を取り囲む環境のできるだけ多くを監視することができ、これは、センサー能力、オブジェクトおよび/または環境閉塞(例えば、建物、標高変化、他のオブジェクトの前のオブジェクト)、および/または霧、雪などの環境影響によって制限されてよい。例えば、センサーデータは、ライダーおよび/またはレーダーデータを含んでよく、これは、知覚コンポーネント110が入力として受信することができる。知覚コンポーネント110は、軌道118を判定することにおいて、プランニングコンポーネント112によって考慮されるべきイベントまたはオブジェクトの挙動を考慮に入れないことを回避するために、できるだけ多くのオブジェクトおよび環境についての情報を検出するように構成されてよい。
【0026】
知覚コンポーネント110によって判定されるオブジェクト分類は、例えば、乗用車、歩行者、サイクリスト、配送行程、セミトレーラー行程、交通標識などの異なるオブジェクトタイプ間を区別することができる。行程は、これまでの、現在の、および/または予測されるオブジェクトの位置、速度、加速度、および/または進路を含んでよい。知覚コンポーネント110によって生成されるデータは、集合的に知覚データと称されてよい。知覚コンポーネント110が知覚データを生成すると、知覚コンポーネント110は、知覚データをプランニングコンポーネント112に提供してよい。ある例示において、知覚データは、センサー特有のパイプラインの出力(例えば、視覚、ライダー、レーダー)および/またはハイブリッドセンサーパイプラインの出力(例えば、視覚ライダー、レーダーライダー)を含んでよい。知覚データは、追加的または代替的に、本明細書で説明されるように、行程、推定されるオブジェクト検出、および/または最終の環境表現を含んでよい。
【0027】
プランニングコンポーネント112は、知覚コンポーネント110から受信される知覚データを用いてよく、1つまたは複数の軌道を判定し、車両102の動きを制御して経路またはルートを横断し、および/またはそれ以外の場合、車両102の動作を制御するが、任意のこのような動作は、さまざまな他のコンポーネントにおいて実行されてよい(例えば、ローカリゼーションは、ローカリゼーションコンポーネントによって実行されてよく、これは、知覚データに少なくとも部分的に基づいてよい)。例えば、プランニングコンポーネント112は、第1の位置から第2の位置への車両102のためのルートを判定することができ、知覚データおよび/またはシミュレーション知覚データ(これは、このようなデータに検出されるオブジェクトに関する予測をさらに含んでよい)に実質的に同時に且つ少なくとも部分的に基づいて、後退する水平線技法(例えば、1マイクロ秒、二分の一秒)に従って車両102の動きを制御するための複数の潜在的な軌道を生成して、(例えば、検出されるオブジェクトのいずれかを回避すべく)ルートを横断するための車両を制御し、車両102の駆動コンポーネントに伝送され得る駆動制御信号を生成するために用いられ得る潜在的な軌道のうちの1つを車両102の軌道118として選択する。
図1は、進路、速度、および/または加速度を示す矢印として表現されるこのような軌道118の例示を描写するが、軌道自体は、コントローラー116のための命令を含んでよく、これは、次に、車両102の駆動システムを作動させてよい。
【0028】
トラッキングコンポーネント114は、それぞれの知覚パイプライン(例えば、視覚パイプライン、ライダーパイプライン、ハイブリッド視覚ライダーパイプライン、レーダーパイプライン、ハイブリッド視覚ライダーレーダーパイプラインなど)から1つまたは複数の環境表現および/またはオブジェクト検出を受信することができ、以前に生成された行程を現在のオブジェクト検出に関連付けるか、または現在のオブジェクト検出に関連して新しい行程を生成するか、否かを判定することができる。トラッキングコンポーネント114は、追加的または代替的に、異なるオブジェクト検出の要約として機能し得る最終の環境表現および/または推定されるオブジェクト検出を判定することができる。ある例示において、本明細書で説明されるトラッキングコンポーネント114は、1つまたは複数のセンサータイプ(例えば、ライダー、RGBカメラ、熱画像、ソーナー、レーダーなどの別個のセンサータイプ、および/または視覚ライダー接続、ライダーレーダー接続などのハイブリッドセンサータイプ)によって生成されるオブジェクト検出および/または環境表現を推定されるオブジェクト検出を含み得る最終の環境表現を出力するように訓練される本明細書で説明されるMLモデルへと入力することによって、推定されるオブジェクト検出を判定することができる。ある例示において、以前の行程の投影に対して推定されるオブジェクト検出の関連度(例えば、領域の和集合分の領域の共通部分(IOU)、サイズおよび/または特徴比較に少なくとも部分的に基づくスコア)が閾値を満たすか、または上回る場合、推定されるオブジェクト検出は、生のオブジェクト検出の判定に基づいている代わりに、以前の行程に関連付けられてよい。IOUが閾値に満たない場合、生のオブジェクト検出は、判定に含められてよい。
【0029】
例えば、
図1は、トラッキングコンポーネント114のMLモデルによって判定される最終の環境表現の一部であり得る環境のトップダウン表現120を図示する。この場合において、トップダウン表現120は、推定されるROI122として図示されるオブジェクト検出を示す。トップダウン表現120および/または推定されるROI122は、1つまたは複数の知覚パイプラインから受信されるオブジェクト検出に少なくとも部分的に基づいて、トラッキングコンポーネント114のMLモデルによって判定されることができる。例えば、MLモデルへの入力として提供されるオブジェクト検出は、画像124に関連付けられる3次元ROIを含んでよく、このうちの1つは、ROI126として示され、およびライダーデータ128に関連付けられるトップダウンROI(例えば、これは、2次元および/または3次元であってよい)このうちのROI130が示される。
【0030】
推定されるROI122は、知覚パイプラインのうちの少なくとも1つによって識別されるオブジェクトに関連付けられるMLモデルによって生成される推定されるオブジェクト検出の一部であってよい。推定されるROI122は、中心132および範囲(黒色線)を含むように描写される。範囲は、推定されるオブジェクト検出に関連してMLモデルによって判定されたオブジェクト分類に関連付けられるアンカーボックスに少なくとも部分的に基づいて画定されてよい。追加的または代替的な例示において、推定されるROIは、別の形態の境界形状またはマスクのようなトップダウン表現の一部の任意の他の識別を含んでよい。
【0031】
図1は、また、1つまたは複数のオブジェクト検出に関連して、トラッキングコンポーネント114によって以前に生成された行程136に関連付けられる以前のROI134を図示する。ある例示において、行程136は、1つまたは複数の以前のオブジェクト検出を関連させてよく、および/または速度、加速度、進路、オブジェクト分類、一意の識別子、閉塞状態(例えば、オブジェクトが現在/以前に部分的にまたは完全に1つまたは複数のセンサーから閉塞されているか)のようにそれに関連するデータを示してよい。以前のROI134は、共に関連付けられるように本明細書で説明されるデータ(例えば、職業マップ、トップダウンセグメンテーション、オブジェクト分類、オブジェクトの進路、オブジェクト速度および/または加速度)のいずれかに関連付けられてよい。例えば、以前のROI134は、オブジェクト138およびオブジェクト分類140の「車両」に関連付けられてよい。例示のために、以前のROI134は、行程136に関連付けられる最新のオブジェクト検出に関連付けられてよい。
【0032】
本明細書で説明される技術は、以前のROI134を推定されるROI122に関連付けられる時間へと投影することを含んでよく、これは、行程136および共に関連付けられるデータに基づいて、以前のROI134に関連付けられるオブジェクトの位置、向き、速度、加速度などを予測することを含んでよい。
図1は、以前のROI134のこのような投影142を破線で描写する。描写される例示において、推定されるROI122間のIOUは、推定されるROI122が車両にも関連付けられ、および/または投影142と推定されるROI122との間のIOUがIOU閾値を満たすか、または上回るため、関連度閾値を満たすか、または上回る。
【0033】
とはいえ、行程は、少なくとも以前のROIを含んでよく、これは、中心、範囲などを含んでよく、推定されるオブジェクト検出は、推定されるROI122を含んでよい。ある例示において、本明細書で説明される技術は、行程に関連付けられる速度および/または進路に少なくとも部分的に基づいて、以前のROIを投影することを含んでよい。IOU、中心間の距離、埋め込み間の距離、または投影されたROI136から推定されるROI130のMunkresのマッチングが閾値を満たす場合、推定されるオブジェクト検出は、行程136に加えられてよい。そうではない場合、推定されるオブジェクト検出は、新しい行程に関連付けられてよく、および/または代替のトラッキングコンポーネントは、生の検出を用いてよく、行程を生成する。
【0034】
(例示的なシステム)
図2は、本明細書で説明される技術を実装する例示的なシステム200のブロック図を図示する。ある例示において、例示的なシステム200は、車両202を含んでよく、これは、
図1の車両102を表現してよい。ある例示において、車両202は、米国運輸省道路交通安全局によって発行されたレベル5分類に従って動作するように構成される自律車両であってよく、これは、全行程に対する全てのセーフティクリティカルな機能を実行することが可能である車両を説明しており、運転者(または乗員)は、いかなるときにも車両を制御することを期待されていない。しかしながら、他の例示において、車両202は、他のレベルまたは分類を有する完全にまたは部分的な自律車両であってよい。さらに、ある場合において、本明細書で説明される技術は、非自律型車両によっても使用可能であってよい。
【0035】
車両202は、車両コンピューティングデバイス204、センサー206、エミッター208、ネットワークインターフェース210、および/または駆動コンポーネント212を含んでよい。車両コンピューティングデバイス204は、コンピューティングデバイス106を表現してよく、センサー206は、センサー104を表現してよい。システム200は、追加的または代替的に、コンピューティングデバイス214を含んでよい。
【0036】
ある例示において、センサー206は、センサー104を表現してよく、ライダーセンサー、レーダーセンサー、超音波トランスデューサー、ソーナーセンサー、位置センサー(例えば、グローバルポジショニングシステム(GPS)、コンパスなど)、慣性センサー(例えば、慣性測定ユニット(IMU)、加速度計、磁力計、ジャイロスコープなど)、画像センサー(例えば、赤緑青(RGB)、赤外線(IR)、強度、深度、飛行時間カメラなど)、マイク、ホイールエンコーダー、環境センサー(例えば、温度計、湿度計、光センサー、圧力センサーなど)などを含んでよい。センサー206は、これらまたは他のタイプのセンサーのそれぞれの多様な例示を含んでよい。例えば、レーダーセンサーは、車両202の角部、前部、後部、側部、および/または上部に位置する個々のレーダーセンサーを含んでよい。別の例示として、カメラは、車両202の外部および/または内部についてのさまざまな位置に配置される多様なカメラを含んでよい。センサー206は、車両コンピューティングデバイス204および/またはコンピューティングデバイス214に入力を提供してよい。
【0037】
車両202は、また、上記のように、光および/または音を放出するためのエミッター208を含んでよい。この例示におけるエミッター208は、車両202の乗員と通信するための内部オーディオおよび視覚エミッターを含んでよい。限定ではなく例示として、内部エミッターは、スピーカー、ライト、合図、ディスプレイスクリーン、タッチスクリーン、触覚エミッター(例えば、振動および/または力フィードバック)、機械的アクチュエータ(例えば、シートベルトテンショナー、シートポジショナー、ヘッドレストポジショナーなど)などを含んでよい。この例示におけるエミッター208は、また、外部エミッターを含んでよい。限定ではなく例示として、この例示における外部エミッターは、進行方向を信号で伝えるためのライトまたは車両動作の他のインジケーター(例えば、インジケーターライト、合図、ライトアレイなど)、および歩行者または他の近くの車両と聴覚的に通信するための1つまたは複数のオーディオエミッター(例えば、スピーカー、スピーカーアレイ、ホーンなど)を含み、これらの1つまたは複数は、音響ビームステアリング技術を含む。
【0038】
車両202は、また、車両202と1つまたは複数の他のローカルコンピューティングデバイスまたはリモートコンピューティングデバイスとの間の通信を可能にするネットワークインターフェース210を含んでよい。例えば、ネットワークインターフェース210は、車両202および/または駆動モジュール212の他のローカルコンピューティングデバイスとの通信を容易にすることができる。また、ネットワークインターフェース210は、追加的または代替的に、車両が他の近くのコンピューティングデバイス(例えば、他の近くの車両、交通信号など)と通信することを可能とすることができる。ネットワークインターフェース210は、追加的または代替的に、車両202がコンピューティングデバイス214と通信することを可能にすることができる。ある例示において、コンピューティングデバイス214は、分散コンピューティングシステム(例えば、クラウドコンピューティングアーキテクチャ)の1つまたは複数のノードを含んでよい。
【0039】
ネットワークインターフェース210は、車両コンピューティングデバイス204を別のコンピューティングデバイスまたはネットワーク216などのネットワークに接続するための物理的および/または論理的インターフェースを含んでよい。例えば、ネットワークインターフェース210は、IEEE200.11規格によって定義された周波数、ブルートゥース(登録商標)などの短距離無線周波数、セルラー通信(例えば、2G、3G、4G、4G LTE、5Gなど)、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースすることを可能にする適切な有線または無線通信プロトコルを介するなどのWi-Fiベースの通信を可能にすることができる。ある場合において、車両コンピューティングデバイス204および/またはセンサー206は、所定の時間期間の経過後に、ほぼリアルタイムなどで、ネットワーク216を介して、具体的な周波数でセンサーデータをコンピューティングデバイス214に送信することができる。
【0040】
ある例示において、車両202は、1つまたは複数の駆動コンポーネント212を含んでよい。ある例示において、車両202は、1つの駆動コンポーネント212を有してよい。ある例示において、駆動コンポーネント212は、1つまたは複数のセンサーを含んでよく、駆動コンポーネント212および/または車両202の周囲の状況を検出する。限定ではなく例示として、駆動コンポーネント212のセンサーは、駆動コンポーネントの車輪の回転を感知するための1つまたは複数のホイールエンコーダー(例えば、回転エンコーダー)、駆動コンポーネント、カメラまたは他の画像センサーの向きおよび加速度を測定する慣性センサー(例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁気計など)、駆動コンポーネントの周囲の状況のオブジェクトを音響的に検出する超音波センサー、ライダーセンサー、レーダーセンサーなどを含んでよい。ホイールエンコーダーのようなあるセンサーは、駆動コンポーネント212に一意であってよい。ある場合において、駆動コンポーネント212のセンサーは、車両202の対応するシステム(例えば、センサー206)と重複するか、または補完してよい。
【0041】
駆動コンポーネント212は、高電圧バッテリー、車両を推進するモーター、バッテリーからの直流電流を他の車両システムによって利用される交流電流へと変換するインバーター、ステアリングモーターおよびステアリングラック(これは、電動であってよい)を含むステアリングシステム、油圧または電気アクチュエータを含むブレーキシステム、油圧および/または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を軽減して、制御を維持するための制動力を分散する安定制御システム、HVACシステム、照明(例えば、車両の外部周囲を照らすヘッド/テールライトなどの照明)、および1つまたは複数の他のシステム(例えば、冷却システム、安全システム、車載充電システム、DC/DCコンバーター、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなどの他の電装コンポーネント)を含む多くの車両システムを含んでよい。さらに、駆動コンポーネント212は、センサーからデータを受信して前処理をし得る駆動コンポーネントコントローラーを含んでよく、さまざまな車両システムの動作を制御する。ある場合において、駆動コンポーネントコントローラーは、1つまたは複数のプロセッサおよび1つまたは複数の当該プロセッサと通信可能に結合されたメモリを含んでよい。メモリは、駆動コンポーネント212のさまざまな機能を実行する1つまたは複数のコンポーネントを格納する。さらに、駆動コンポーネント212は、また、それぞれの駆動コンポーネントによって、1つまたは複数の他のローカルコンピューティングデバイスまたはリモートコンピューティングデバイスとの通信を可能にする1つまたは複数の通信接続を含んでよい。
【0042】
車両コンピューティングデバイス204は、プロセッサ218、および1つまたは複数のプロセッサ218と通信可能に結合されたメモリ220を含んでよい。メモリ220は、メモリ108を表現してよい。コンピューティングデバイス214は、また、プロセッサ222、および/またはメモリ224を含んでよい。プロセッサ218および/または222は、本明細書で説明されるように、データを処理して、動作を実行するための命令を実行することが可能である任意の適切なプロセッサであってよい。限定ではなく例示として、プロセッサ218および/または222は、1つまたは複数の中央処理装置(CPU)、グラフィックス処理装置(GPU)、集積回路(例えば、特定用途向け集積回路(ASIC))、ゲートアレイ(例えば、フィールドプログラマブルゲートアレイ(FPGA))、および/または電子データを処理して、その電子データを、レジスタおよび/またはメモリに格納され得る他の電子データへと変換する他のデバイスまたはデバイスの一部を含んでよい。
【0043】
メモリ220および/またはメモリ224は、非一時的なコンピューター可読媒体の例示であってよい。メモリ220および/または224は、オペレーティングシステムを格納してよく、本明細書で説明されて、機能がさまざまなシステムに起因する1つまたは複数のソフトウェアアプリケーション、命令、プログラム、および/またはデータを実装する方法。さまざまな実装において、メモリは、スタティックRAM(SRAM)、シンクロナスDRAM(SDRAM)、不揮発性/フラッシュタイプメモリ、または情報を格納可能である任意の他のタイプのメモリのような適切なメモリ技術を用いて実装されてよい。本明細書で説明されるアーキテクチャ、システム、および個々のエレメントは、多くの他の論理的、プログラム的、および物理的なコンポーネントを含んでよく、これらのうちの添付図面に示されるものは、単に本明細書での説明に関連する例示に過ぎない。
【0044】
ある例示において、メモリ220および/またはメモリ224は、ローカリゼーションコンポーネント226、知覚コンポーネント228、プランニングコンポーネント230、トラッキングコンポーネント232、マップ234、および/またはシステムコントローラー236を格納してよい。知覚コンポーネント228は、知覚コンポーネント110を表現してよく、プラニングコンポーネント230は、プラニングコンポーネント112を表現してよく、および/またはトラッキングコンポーネント232は、トラッキングコンポーネント114を表現してよい。
【0045】
少なくとも1つの例示において、ローカリゼーションコンポーネント226は、車両202の位置、速度および/または向き(例えば、x位置、y位置、z位置、ロール、ピッチ、またはヨーのうちの1つまたは複数)を判定するためにセンサー206からのデータを受信するハードウェアおよび/またはソフトウェアを含んでよい。例えば、ローカリゼーションコンポーネント226は、環境のマップ234を含んでよく、および/または要求/受信することができ、マップ234内の自律車両の位置、速度、および/または向きを継続的に判定することが可能である。ある例示において、コンポーネント226は、SLAM(simultaneous localization and mapping)、CLAMS(calibration, localization and mapping, simultaneously)、相対SLAM、バンドル調整、非線形最小二乗最適化などを利用することができ、画像データ、ライダーデータ、レーダーデータ、IMUデータ、GPSデータ、ホイールエンコーダーデータなどを受信し、自律車両の位置、姿勢、および/または速度を正確に判定する。ある例示において、本明細書で説明されるように、ローカリゼーションコンポーネント226は、車両202のさまざまなコンポーネントにデータを提供してよく、軌道を生成する、および/またはマップデータを生成するための自律車両の初期位置を判定する。ある例示において、ローカリゼーションコンポーネント226は、トラッキングコンポーネント232に、共に関連付けられる環境および/またはセンサーデータに対する車両202の位置および/または向きを提供してよい。
【0046】
ある例示において、知覚コンポーネント228は、ハードウェアおよび/またはソフトウェアに実装される主要な知覚システムおよび/または予測システムを含んでよい。知覚コンポーネント228は、車両202の周囲の環境におけるオブジェクトを検出することができ(例えば、オブジェクトが存在すると識別する)、オブジェクトを分類することができ(例えば、検出されるオブジェクトに関連付けられるオブジェクトタイプを判定する)、センサーデータおよび/または環境の他の表現をセグメント化することができ(例えば、センサーデータの一部および/または環境表現を検出されるオブジェクトおよび/またはオブジェクトタイプに関連付けられているものとして識別する)、オブジェクトに関連付けられる特徴(例えば、オブジェクトに関連付けられる現在の、予測される、および/または以前の位置、向き、速度、および/または加速度を識別する行程)などを判定することができる。知覚コンポーネント228によって判定されるデータは、知覚データと称される。
【0047】
プランニングコンポーネント230は、ローカリゼーションコンポーネント226から車両202の位置および/または向き、および/または知覚コンポーネント228から知覚データを受信することができ、このデータのいずれかに少なくとも部分的に基づいて車両202の動作を制御するための命令を判定することができる。ある例示において、命令を判定することは、命令が関連付けられるシステムに関連付けられるフォーマットに少なくとも部分的に基づいて命令を判定することを含んでよい(例えば、自律車両の動きを制御するための第1の命令は、システムコントローラー236および/または駆動コンポーネント212が解析し/実行させ得るメッセージおよび/または信号(例えば、アナログ、デジタル、空気圧、キネマティック)の第1のフォーマットでフォーマットされてよく、エミッター208に対する第2の命令は、共に関連付けられる第2のフォーマットに従ってフォーマットされてよい)。
【0048】
トラッキングコンポーネント232は、車両202および/またはコンピューティングデバイス214で動作してよい。ある例示において、トラッキングコンポーネント232は、パイプラインにおけるプラニングコンポーネント230からの上流(入力を提供する)であってよく、知覚コンポーネント228の少なくともあるコンポーネント228からの下流(入力を受信する)であってよい。トラッキングコンポーネント232は、トラッキングコンポーネント232の出力のすべて、一部、または全くないものをプラニングコンポーネント230に渡すように構成されてよい。ある例示において、トラッキングコンポーネント232は、知覚コンポーネント228の一部であってよい。ある例示において、トラッキングコンポーネント232は、最終の環境表現を判定する本明細書で説明されるMLモデルを含んでよく、これは、推定されるオブジェクト検出を含んでよい。トラッキングコンポーネント232は、追加的または代替的に、MLモデルによって生成される推定されるオブジェクト検出を受信する第1のコンポーネント、およびセンサータイプ(例えば、MLモデルへの入力のうちの1つ)に関連して生成される少なくとも1つの「生の」オブジェクト検出、および/または推定されるオブジェクト検出および行程に関連付けられる1つまたは複数のオブジェクト検出を受信する第2のコンポーネントを含んでよい。いずれにせよ、トラッキングコンポーネントの第1のコンポーネントおよび/または第2のコンポーネントは、推定されるオブジェクト検出を行程に関連付けるか、またはオブジェクト検出に関連付けられる新しい行程を生成するか否かを判定することができる。トラッキングコンポーネント232は、追加的または代替的に、1つまたは複数のオブジェクト検出の速度、進路、および/または他のこれまでの、または現在の特徴を出力することができ、これらのすべてまたは一部は、行程の少なくとも一部であってよい。
【0049】
メモリ220および/または224は、追加的または代替的に、マッピングシステム(例えば、センサーデータに少なくとも部分的に基づいてマップを生成する)、プランニングシステム、ライドマネジメントシステムなどを格納してよい。ローカリゼーションコンポーネント226、知覚コンポーネント228、プランニングコンポーネント230、マップ234、および/またはシステムコントローラー236は、メモリ220に格納されているように図示されるが、これらのコンポーネントのうちのいずれかは、プロセッサ実行可能命令、機械学習モデル(例えば、ニューラルネットワーク)、および/またはハードウェアを含んでよく、これらのコンポーネントのいずれかのすべてまたは一部は、メモリ224に格納されてよく、またはコンピューティングデバイス214の一部として構成されてもよい。
【0050】
本明細書で説明されるように、ローカリゼーションコンポーネント226、知覚コンポーネント228、プランニングコンポーネント230、トラッキングコンポーネント232、および/またはシステム200の他のコンポーネントは、1つまたは複数のMLモデルを含んでよい。例えば、ローカリゼーションコンポーネント226、知覚コンポーネント228、プランニングコンポーネント230、および/またはトラッキングコンポーネント232は、それぞれ異なるMLモデルパイプラインを含んでよい。ある例示において、MLモデルは、ニューラルネットワークを含んでよい。例示的なニューラルネットワークは、一連の接続されたレイヤーを通して入力データを渡して出力を生み出す生物学的に着想を得たアルゴリズムである。ニューラルネットワークにおけるそれぞれのレイヤーは、また別のニューラルネットワークを含むことも可能であり、または任意の数のレイヤー(畳み込みであるか否か)を含むことが可能である。本開示の脈絡で理解されることが可能であるように、ニューラルネットワークは、機械学習を利用することが可能であり、これは、出力が学習されたパラメーターに基づいて生成されるこのようなアルゴリズムの幅広いクラスを参照することが可能である。
【0051】
ニューラルネットワークのコンテキストで説明されるが、任意のタイプの機械学習が本開示と整合するように用いられることが可能である。例えば、機械学習アルゴリズムは、回帰アルゴリズム(例えば、通常最小二乗回帰(OLSR)、線形回帰、ロジスティック回帰、段階的回帰、MARS(multivariate adaptive regression splines)、LOESS(locally estimated scatterplot smoothing))、インスタンスベースアルゴリズム(例えば、リッジ回帰、LASSO(least absolute shrinkage and selection operator)、Elastic net、LARS(least-angle regression))、決定木アルゴリズム(例えば、分類および回帰木(CART)、ID3(iterative dichotomiser 3)、カイ二乗自動相互作用検出(CHAID)、決定切り株、条件付き決定木)、ベイジアンアルゴリズム(例えば、ナイーブベイズ、ガウスナイーブベイズ、多項ナイーブベイズ、AODE(average one-dependence estimators)、ベイジアンビリーフネットワーク(BNN)、ベイジアンネットワーク)、クラスタリングアルゴリズム(例えば、k平均、kメジアン、期待値の最大化(EM)、階層的クラスタリング)、相関ルール学習アルゴリズム(例えば、パーセプトロン、誤差逆伝搬、ホップフィールドネットワーク、RBFN(Radial Basis Function Network))、深層学習アルゴリズム(例えば、深層ボルツマンマシン(DBM)、深層ビリーフネットワーク(DBN)、畳み込みニューラルネットワーク(CNN)、積層オートエンコーダー)、次元縮小アルゴリズム(例えば、主成分分析(PCA)、主成分回帰(PCR)、部分最小二乗回帰(PLSR)、サモンマッピング、多次元尺度構成法(MDS)、射影追跡、線形判別分析(LDA)、混合判別分析(MDA)、二次判別分析(QDA)、柔軟判別分析(FDA))、アンサンブルアルゴリズム(例えば、ブースティング、ブートストラップアグリゲーション(バギング)、アダブースト、積層ジェネラリゼーション(ブレンディング)、勾配ブースティングマシン(GBM)、勾配ブースト回帰木(GBRT)、ランダムフォレスト)、SVM(サポートベクタマシン)、教師あり学習、教師なし学習、半教師あり学習などを含んでよいが、これらに限定はされない。アーキテクチャのさらなる例示は、ResNet-50、ResNet-101、VGG、DenseNet、PointNetなどのニューラルネットワークを含む。ある例示において、本明細書で説明されるMLモデルは、PointPillars、SECOND、トップダウン特徴レイヤー(例えば、米国特許出願第15/963,833号を参照し、これは、その全体が本明細書に組み込まれる)、および/またはVoxelNetを含んでよい。アーキテクチャの待ち時間の最適化は、MobilenetV2、Shufflenet、Channelnet、Peleenetなどを含んでよい。MLモデルは、ある例示において、Pixorなどの残余ブロックを含んでよい。
【0052】
メモリ220は、追加的または代替的に、1つまたは複数のシステムコントローラー236を格納してよく、これは、車両202のステアリング、推進、ブレーキ、安全性、エミッター、通信、および他のシステムを制御するように構成されてよい。これらのシステムコントローラー236は、駆動コンポーネント212および/または車両202の他のコンポーネントの対応するシステムと通信してよく、および/または制御してよい。例えば、プラニングコンポーネント230は、知覚コンポーネント228によって生成される知覚データに少なくとも部分的に基づいて、命令を生成することができ、知覚データを検証することができ、または命令をシステムコントローラー236に伝送することができる。システムコントローラー236は、プランニングコンポーネント230から受信した命令に少なくとも部分的に基づいて、車両202の動作を制御することができる。
【0053】
図2は、分散システムとして図示されている一方で、代替の例示において、車両202のコンポーネントは、コンピューティングデバイス214に関連付けられてよく、および/またはコンピューティングデバイス214のコンポーネントは、車両202に関連付けられてよいことに留意されたい。つまり、車両202は、コンピューティングデバイス214に関連付けられる1つまたは複数の機能を実行することができ、逆もまた同様である。
【0054】
(例示的なシステム)
図3は、異なる知覚パイプラインから受信した1つまたは複数のオブジェクト検出から推定されるオブジェクト検出を判定する、および/または推定されるオブジェクト検出に少なくとも部分的に基づいて更新される、または新しい行程を判定するための例示的な知覚システム300のブロック図を図示する。例示的な知覚システム300は、知覚システム300の周囲の状況の特徴を判定するための任意の数のパイプラインを含んでよい。例えば、パイプラインは、自律車両の環境の中にあるもの、および/または環境におけるセンサーおよび/またはオブジェクトの特徴を判定することができる。
図3は、任意の数およびタイプのパイプラインが企図されるが、3つのパイプラインである視覚パイプライン302、レーダーパイプライン304、およびライダーパイプライン306を描写する。例えば、パイプラインは、同一のタイプのセンサー(例えば、1つまたは複数のカメラ、1つまたは複数のライダーセンサー、1つまたは複数のレーダーセンサー)、視界の方向(例えば、重複した視界を有する1つまたは複数のカメラ)、多様なタイプのセンサー(例えば、ハイブリッド視覚ライダーパイプライン)、他のソースからのデータ(例えば、リモートコンピューティングデバイスからのデータ、メモリに格納されたマップデータ)などに関連付けられてよい。
【0055】
いずれにせよ、1つまたは複数のパイプラインのパイプラインは、センサーデータを受信して、1つまたは複数の出力を判定するように構成されてよい。簡潔にするために、パイプラインの集合出力は、本明細書では環境表現と称される。環境表現は、1つまたは複数のオブジェクト検出を含んでよく、且つ1つまたは複数の出力タイプを含んでよい。例えば、視覚パイプライン302は、視覚データ310(例えば、1つまたは複数のRGB画像、熱画像を含むセンサーデータ)に少なくとも部分的に基づいて環境表現308を出力することができる。視覚パイプライン302によって生成される環境表現308は、1つまたは複数のオブジェクト検出を含んでよく、オブジェクト検出のうちの少なくとも1つは、
・オブジェクトに関連付けられる2次元ROI、
-米国特許出願番号第15/970,838号および16/386,249号のこれらの出願は、その全体が参照によって本明細書に組み込まれ、さらに詳細に記載されているように、312で描写されているもののうちの1つのようなオブジェクトに関連付けられる3次元ROI、
-米国特許出願第15/970,838号で説明されるように、オブジェクトおよび/またはROIに関連付けられる深度推定(例えば、センサー/車両からオブジェクトまでの距離の推定)、
-米国特許出願第15/970,838号で説明されるオブジェクトの高さ、
-オブジェクト分類および/またはオブジェクトに関連付けられる尤度、センサーデータがオブジェクト分類によって指定されるタイプのオブジェクト(例えば、車両、歩行者、連結式車両、動物、子供)に関連付けられている事後確率を示す尤度、ある例示において、オブジェクト分類および/または尤度は、ピクセルのようなセンサーデータの別個の部分に関連付けられてよく、
-歩行者または動物に分類されるオブジェクトが立っている、歩いている、または走っているという表示、
-車両、バイクなど(例えば、ヘッドライト、サイドミラーライト)に関連付けられるブレーキまたは他のインジケーターライトの状態(例えば、ターン表示、停止表示、警告表示)および/または位置の表示、
-環境表現(例えば、環境のボクセル化、環境のメッシュ表現)に対するオブジェクトの位置(例えば、中心および/または範囲)、
-オブジェクトの姿勢であって、これは、オブジェクトの位置および/または進路を含んでよく、
-占有マップ314(例えば、ピクセル/ボクセルを占有するオブジェクトが存在するかのインスタンスセグメンテーション)であって、これは、オブジェクトによって占有されているように示される部分を含んでよく、および/または
-閉塞グリッド(例えば、環境の一部が視線から1つまたは複数の視覚センサーに閉塞される確率を含む)を含んでよい。
【0056】
ある例示において、視覚パイプラインがバイク運転者を歩行者またはサイクリストとして分類してよいが、共に関連付けられるオブジェクト分類は、本明細書に提示される技術に従って、バイク運転者に関連付けられる行程に少なくとも部分的に基づいて、オブジェクトがバイク運転者であると示すために修正されてよい。例えば、行程は、歩行者またはサイクリストが移動できるよりも速くバイク運転者が移動していることを示してよく、したがって、オブジェクト分類が訂正されてよい。同様に、クラス情報は、行程に関連付けられてよい。このような例示において、(例えば、1つまたは複数の以前の時間からの)クラスに関連付けられる以前のクラス情報は、視覚パイプラインから出力されるオブジェクト分類が変更されるべきか信頼性をさらに高めることに用いられてよい。言うまでもなく、このような修正は、入力として、またはその他の点では、知覚分類を受信して、情報をトラッキングするコンポーネント、サブコンポーネント、または他のアルゴリズムに基づいて実行されるコンポーネントの出力であってよい。
【0057】
レーダーパイプライン304は、環境表現(図面のスペースを節約するために図示せず)を判定することができ、
・占有マップであって、これは、オブジェクトによって占有されているように示される部分を含んでよく、
-レーダー検出(これは、ある例示において、3次元表現またはトップダウン表現などの環境表現へとラスタライズされてよい)、
米国特許出願第16/407,139号のその全体が参照により本明細書に組み込まれ、さらに詳細に記載されているような閉塞グリッド(例えば、環境の一部が視線から1つまたは複数のレーダーセンサーに閉塞される確率を含む)、
米国特許出願第16/416,686号のその全体が参照により本明細書に組み込まれ、さらに詳細に記載されているようなオブジェクトに関連付けられるヨーレート、
オブジェクトに関連付けられる速度(例えば、オブジェクトに関連付けられる地上範囲レート)、
レーダー断面(RCS)、および/または
ROIおよび/またはオブジェクト分類を含む。
【0058】
ライダーパイプライン306は、環境表現316を判定することができ、
・占有マップ318であって、これは、オブジェクトによって占有されているように示される部分を含んでよく、
-閉塞グリッド(例えば、環境の一部が視線から1つまたは複数のライダーセンサーに閉塞される確率を含む)
-オブジェクトに関連付けられるROIおよび/またはオブジェクト分類、および/または
-米国特許出願第15/963,833号のその全体が本明細書に組み込まれ、さらに詳細に記載されているようなトップダウンセグメンテーション(例えば、環境の一部が占有されているかのトップダウン表示および/またはトップダウンROI(例えば、320で描写されるライダーのトップダウンROIなど))を含む。
【0059】
図3に関して図示および説明されるパイプラインは、単なる例示である。知覚システム300は、本明細書で示されて、それらの説明されるパイプラインよりも多く、よりも少なく、および/または異なるパイプラインを含んでよい。さらに、パイプラインは、描写されるようにきちんと分離されている代わりに、混在されてよい。例えば、上記の環境表現の少なくともいくつかは、2つの異なるパイプラインの一部の積であってよい。描写される例示において、限られたスペースおよびその明確性のための視覚環境表現およびライダー環境表現の拡大のために、レーダー環境表現に関する具体的な詳細は、描写されないが、レーダーパイプラインおよびレーダー環境表現は、追加的または代替的に企図されることに留意されたい。
【0060】
異なるパイプラインによって生成されるさまざまな環境表現は、マルチチャネルデータ構造322へと集約されてよい。例えば、この集約は、データを、共通の参照フレームおよび/または同一の寸法を有するボクセル空間、メッシュ表現などの環境の共通の表現へと投影することを含んでよい。集約は、追加的または代替的に、3次元ROIを、トップダウン視点から2次元ROIへと投影するような環境表現のうちの1つまたは複数の部分のトップダウン表現を判定すること、および/またはセンサー視点、深度、および/またはオブジェクト分類に関連付けられる2次元ROIに少なくとも部分的に基づいて、トップダウン2次元ROIを判定することを含んでよい。ある例示において、マルチチャネルデータ構造322は、マルチチャネル画像を含んでよく、ここで、異なるパイプラインおよび/または異なるタイプの出力(例えば、占有マップ、閉塞グリッド、ROI、オブジェクト分類)に関連付けられてよい。例えば、画像の第1のチャネルは、視覚パイプラインによって判定されるように、環境のそれぞれの部分が占有されているか/占有されていないかを示すピクセルを含んでよく、画像の第2のチャネルは、ライダーパイプラインによって判定されるように、環境のそれぞれの部分が占有されているか/占有されていないかを示すピクセルを含んでよく、第3のチャネルは、環境のそれぞれの部分が特定のオブジェクト分類に関連付けられているかを示すピクセルを含んでよいなどである。
【0061】
マルチチャネルデータ構造322は、1つまたは複数の知覚パイプラインおよび/または他のソースから(例えば、自律車両のメモリから、リモートコンピューティングデバイスから)受信したデータの出力を含んでよい。例えば、マルチチャネルデータ構造322は、2019年11月27日に出願された米国特許出願第16/698,055号のその全体が本明細書に組み込まれ、さらに詳細に記載されているように、環境のトップダウン表現(例えば、これは、2次元、3次元、またはより高い次元であってよい)、環境の占有マップ、環境の閉塞される部分の表現、オブジェクトに関連付けられるROI、オブジェクトに関連付けられるオブジェクト分類、センサーデータのセグメンテーション、センサーデータの3次元離散化表現、オブジェクトに関連付けられるヨーおよび/またはヨーレート、オブジェクトに関連付けられる速度および/または加速度、オブジェクトに関連付けられる範囲のセット(例えば、次元)、および/または地上高の推定を含んでよい。
【0062】
本明細書で用いられるように、オブジェクト検出は、ROI、正の占有表示、オブジェクト分類などのオブジェクトの存在を示す1つまたは複数の環境表現の一部であってよい。
【0063】
ある例示において、以前の行程324および/または以前の環境表現326は、マルチチャネルデータ構造322の一部であってよく、またはその他の点では、MLアーキテクチャ328への入力として提供されてもよい。例えば、以前の行程324および/または以前の環境表現326は、環境表現がパイプラインによって生成された最後のn(nは、正の整数)時間ステップおよび/または判定された行程に関連付けられてよい。例えば、システムは、時間間隔(例えば、10ミリ秒ごと、100ミリ秒ごと、500ミリ秒ごと)で、またはそれによって環境表現および/または行程を判定するために同期されてよい。以前のn個の時間ステップで判定された行程および/または環境表現である。追加的または代替的な例示において、例えば、ここで、知覚システムが半同期または非同期である場合、以前の行程324および/または以前の環境表現326は、時間ウィンドウに関連付けられてよい。例えば、このデータは、ローリングベースで、2秒間、3秒間、5秒間、および/またはアプリケーションに適切な任意の他の時間ウィンドウにわたって累積されてよい。
【0064】
マルチチャネルデータ構造322は、MLアーキテクチャ328への入力として提供されてよく、これは、1つまたは複数の推定されるオブジェクト検出330を含む最終の環境表現を判定するように訓練されてよい。例えば、MLアーキテクチャ328は、環境の一部が占有されているという表示、占有部分(例えば、オブジェクト)に関連付けられるROIおよび/またはオブジェクト分類、オブジェクトの向き(例えば、ヨーおよび/またはヨー/進路区分)、オブジェクトに関連付けられる速度(例えば、静止/移動表示、横方向および/または長手方向の速度、ヨーレート)、オブジェクトに関連付けられる高さ、および/または未来の時間ステップに関連付けられる予測されるROIを含む環境のトップダウン表現を判定することができる。ある例示において、最終の環境表現は、画像のようなマルチチャネルデータ構造であってよく、ここで、異なる画像チャネルは、上記の異なる値を示すが、追加的または代替的な例示において、推定されるオブジェクト検出330は、行程、テンソル、またはそれ以外の場合に関連付けて用いられるデータ構造のような一意のデータ構造で出力されてよい。ある例示において、推定されるオブジェクト検出は、最終の環境表現の1つまたは複数の部分(例えば、ピクセル、領域)に関連付けられてよく、少なくとも1つの例示において、1つまたは複数の部分のそれぞれは、オブジェクトに関連付けられる速度を示してよい。後者の例示において、技術は、1つまたは複数の部分によって示される速度に少なくとも部分的に基づいて、オブジェクトに関連付けられる最終の速度および/またはヨーレートを判定することを含んでよい。
【0065】
その最終の環境表現および/または推定されるオブジェクト検出330は、トラッキングコンポーネント332への入力として提供されてよい。トラッキングコンポーネント332は、推定されるオブジェクト検出を、以前の行程334に関連付けるか、新しい行程に関連付けるか、または1つまたは複数のオブジェクト検出を、パイプラインおよび/または推定されるオブジェクト検出330から偶発的なトラッキングコンポーネントに進めるかを判定するように訓練および/または構成されてよい。ある例示において、トラッキングコンポーネント332は、本明細書で説明される判定に少なくとも部分的に基づいて、更新または新しい行程336をプラニングコンポーネントに出力することができる。
【0066】
ある例示において、偶発的なトラッキングコンポーネントは、パイプラインから生の環境表現を受信して、そこから行程を判定するように構成されるトラッキングコンポーネントであってよい。偶発的なトラッキングコンポーネントは、ある場合において、異なるパイプライン間でより多くのデータを用いて、オブジェクト検出が誤検出であるか、および/またはオブジェクト検出を以前の行程または新しい行程に関連付けるかを判定するため、より多くの算定および/またはメモリを要求する。
【0067】
(例示的な処理)
図4は、1つまたは複数の知覚パイプラインによって生成される多様なオブジェクト検出および/または環境表現から最終の環境表現および/または推定されるオブジェクト検出を判定するための例示的なプロセス400の絵入りのフロー図を図示する。例示的なプロセス400は、推定されるオブジェクト検出を以前の行程に関連付けることを判定すること、推定されるオブジェクト検出に関連付けられる新しい行程を生成することを判定すること、および/または本明細書で説明されるデータを偶発的なトラッキングコンポーネントに進めることを判定することに少なくとも部分的に基づいて、環境におけるオブジェクトを追加的または代替的にトラッキングすることができる。
【0068】
動作402で、例示的なプロセス400は、本明細書で説明される技術のいずれかに従って、第1のセンサータイプに関連付けられる第1のオブジェクト検出および第2のセンサータイプに関連付けられる第2のオブジェクト検出を受信することを含んでよい。例えば、第1のオブジェクト検出404は、第1のパイプライン408から受信した第1の環境表現406の一部であってよく、第2のオブジェクト検出410は、n番目のパイプライン414から受信したn番目のオブジェクト環境表現412の一部であってよい。
【0069】
図は、オブジェクト検出および環境表現をトップダウンROIとして描写するが、少なくとも1つの例示において、オブジェクト検出は、ライダーベースのオブジェクト検出、レーダーベースのオブジェクト検出、および/または視覚ベースのオブジェクト検出を含んでよい。ライダーベースのオブジェクト検出は、ライダー占有マップ、ライダーベースの2次元または3次元ROI、トップダウンセグメンテーションROI、トップダウンセグメンテーションマップ、ライダー閉塞グリッド、および/またはオブジェクト分類を含んでよい。レーダーベースのオブジェクト検出は、レーダー占有マップ、地上ベースの範囲レート、RCS、レーダーベースのROIおよび/またはオブジェクト分類、および/またはレーダー閉塞グリッドを含んでよい。視覚ベースのオブジェクト検出は、視覚閉塞グリッド、インスタンスセグメンテーション、2次元ROI(例えば、画像空間において)、3次元ROI、深度、オブジェクト分類、視覚埋め込み、および/またはオブジェクトの姿勢(例えば、位置および/または向き)を含んでよい。追加的または代替的なオブジェクト検出は、用いられてよい。ある例示において、上記のオブジェクト検出コンポーネントのうちのいくつかは、例えば、レーダーベースのROI、姿勢データ、または3次元ROIなどのハイブリッドコンポーネントを含んでよく、これらのうちのいずれかは、ライダー、レーダー、および/または視覚ベースであってよい。
【0070】
動作416で、例示的なプロセス400は、本明細書で説明される技術のいずれかに従って、環境におけるオブジェクトに関連付けられる行程を受信することを含んでよい。例えば、行程418は、以前の時間ステップに関連して以前に判定された行程であってよい。描写される例示において、行程418は、オブジェクト検出404およびオブジェクト検出410によって示されるように、第1のパイプライン408およびn番目のパイプライン414によって検出されたオブジェクトに関連付けられる。行程418は、異なるパイプラインからのオブジェクト検出データのうちのいずれかを関連させてよく、および/または、以前の時間ステップからMLモデルによって生成される推定されるオブジェクト検出、少なくともずっと以前の時間における静的に設定されている時間ウィンドウ、または車両の速度によって設定されている時間ウィンドウ、トラッキングされているオブジェクトの数(例えば、より多くのオブジェクト、データを節約するためのより小さい時間ウィンドウ、またはより多くのオブジェクト、閉塞を通じてオブジェクトをトラッキングすべく、同一または大きい時間ウィンドウ)、またはそれらの組み合わせを含んでよい。行程は、最終的に、2つの異なるパイプラインによって生成される2つの異なるオブジェクト検出が同一のオブジェクトに関連付けられ、および/または同一または異なるパイプラインによって生成される時間における2つの異なるオブジェクト検出が同一のオブジェクトに関連付けられていることを示す。
【0071】
描写される行程418は、MLモデルによって生成される以前の推定されるオブジェクト検出を関連させ、これは、描写される例示において、自律車両を取り囲む環境における同一の車両に関連付けられる4つの2次元(トップダウン)ROI(420)、車両の姿勢、およびROIを通る線として示される車両の中心の履歴位置を含む。推定されるオブジェクト検出は、追加的または代替的に、この場合における「車両」のようなオブジェクト分類、車両の履歴および/または(以前に)予測された速度、ピクセルごとの占有率(例えば、車両に関連付けられるピクセルのマスク)、車両の推定される高さなどを含んでよい。
【0072】
動作422で、例示的なプロセス400は、本明細書で説明される技術のいずれかに従って、第1のオブジェクト検出、第2のオブジェクト検出、および/または行程をMLモデルへと入力することを含んでよい。ある例示において、オブジェクト検出および/または行程は、マルチチャネルデータ構造へと集約されてよい。ある例示において、オブジェクト検出のある部分は、ボクセル空間へと投影されてよく、および/または動作422の前で、2次元のトップダウンビューでレンダリングされてよい。
【0073】
オブジェクト検出は、環境表現の一部としてMLモデルに提供されてよいことに留意されたい。例えば、環境表現406は、上記のように、多様なオブジェクト検出およびオブジェクト速度、推定される高さなどの図示されていないデータを含む。ある例示において、環境表現は、集約されてよく、入力としてMLモデルに提供されてよい。ある例示において、オブジェクト検出は、環境表現の残余から分離されてよく、入力として提供されてよい。例えば、環境表現は、共通の参照フレームにあってよく、または集約している間に共通の参照フレームに変換されてもよい。パイプラインは、共通の参照フレームのそれらの座標と共に確かなオブジェクト検出を出力するように構成されてよい。例えば、これらの確かなオブジェクト検出は、閾値の信頼性を満たすか、または上回る尤度に関連付けられる環境表現の一部であってよい。上記のオブジェクト検出コンポーネントのそれぞれおよびいずれかは、回帰信頼スコアに関連付けられてよい。例えば、オブジェクト分類は、信頼スコアに関連付けられてよく、ROIは、非最大抑制技術を介して異なるピクセルに関連付けられる信頼スコアに少なくとも部分的に基づいて判定されてよく、占有は、それぞれのピクセルに関連付けられる尤度に少なくとも部分的に基づいて判定されてよく、それぞれのパイプラインなどのMLモデルによって判定されてよい。
【0074】
動作424で、例示的なプロセス400は、本明細書で説明される技術のいずれかに従って、MLモデルからの出力として、推定されるオブジェクト検出426を受信することを含んでよい。ある例示において、MLモデルは、最終の環境表現428および/または推定されるオブジェクト検出426を出力するように訓練されてよい。推定されるオブジェクト検出426は、環境の一部が占有され、および/またはオブジェクト分類に関連付けられていることを示す最終の環境表現428の性質による最終の環境表現428の一部であってよい。MLモデルは、オブジェクトに関連付けられるROI(例えば、中心および/または範囲)、オブジェクトに関連付けられるオブジェクト分類、オブジェクトの推定される姿勢(例えば、位置および/または向き)、オブジェクトの推定される速度、および/またはオブジェクトの推定される高さを出力するように訓練されてよい。MLモデルは、追加的または代替的に、これらの出力のいずれかに関連して信頼スコアを判定することができる。ある例示において、ROIは、MLモデルが訓練されたオブジェクト分類に関連付けられるアンカーボックスまたは任意の他の正準オブジェクト形状に少なくとも部分的に基づいて生成されてよい。
【0075】
ある例示において、最終の環境表現は、環境のトップダウン表現のマルチチャネル画像を含んでよい。マルチチャネル画像は、異なるチャネルにおいて、最も近いROIの中心までの距離、ROIの範囲、ピクセルがオブジェクトに関連付けられる尤度(例えば、ROIを生成するための非最大抑制のために用いられる)、ピクセルが複数のオブジェクト分類の具体的なオブジェクト分類に関連付けられている尤度、向き、速度、および/または推定される高さを示すピクセルのような別個の部分を含んでよい。
【0076】
ある例示において、MLモデルは、向きが収まる入る区分(例えば、北、南、東、西、45°区分、90°区分、180°区分などの任意の他の数およびタイプの進路区分)を示す向きに関連付けられるクラス、および/または向きに関連付けられる回帰(例えば、ピクセルに関連して判定された区分の中心からの変動度の数)を判定することができる。
【0077】
ある例示において、MLモデルは、分類アルゴリズムを用いて速度を判定することができ、静的または動的、または速度の区分(例えば、5、10、15の増分、または区分が少なくとも1つの例示において、オブジェクトが時速1~10マイルで移動していることを示し得るこのような時速マイル)などの出力をもたらす。追加的または代替的に、MLモデルは、回帰タスクを用いて、速度区分の中心からのオフセットとして(例えば、ここで、速度値は、オブジェクトが分類された区分の値から回帰を加算/減算することによって判定されてよい)、またはスタンドアローン回帰として(例えば、回帰タスクが速度を直接算定する)、速度を判定することができる。ある例示において、速度ビニングおよび/または回帰タスクは、入力マルチチャネル画像の一部である1つまたは複数の以前のオブジェクト検出および/または行程に少なくとも部分的に基づいてよい。同様に、MLモデルは、分類タスク(例えば、高さ区分として)および/または回帰タスク(例えば、高さ区分または直接回帰高さからのオフセットとして)を用いて推定される高さを判定することができる。
【0078】
ある例示において、MLモデルを訓練することは、オブジェクト分類、向き区分、速度区分、および/または推定される高さ区分とそれぞれのグラウンドトゥルースとの間の差(例えば、オブジェクト分類のためのセマンティックラベル、グラウンドトゥルースインスタンスセグメンテーション、および/またはグラウンドトゥルースROI、向き区分のためのグラウンドトゥルース向き表示、速度区分のためのグラウンドトゥルース速度、高さ区分のためのグラウンドトゥルース高さ)に少なくとも部分的に基づいて分類損失を判定することを含んでよい。ある例示において、合計分類損失は、これらの損失を合計することによって決定されることができる。ある例示において、分類損失を判定することは、米国特許出願第16/013,729号でより詳細に記載されているように、交差エントロピー焦点損失を判定することを含んでよく、その全体が参照により本明細書に組み込まれるが、他の形態の損失が企図される。ある例示において、区分に対する分類損失を判定することは、交差エントロピーまたはHuber損失に少なくとも部分的に基づいてよい。
【0079】
MLモデルを訓練することは、追加的または代替的に、ROIの中心までの距離、これは、対数空間で示されてよく、向き区分からの推定される向きまたはオフセット、速度区分からの推定される速度またはオフセット、および/または高さ区分からの推定される高さまたはオフセット、およびそれぞれ共に関連付けられるそれぞれのグラウンドトゥルース間の差に少なくとも部分的に基づいて、1つまたは複数の回帰損失を判定することを含んでよい。回帰損失を判定することは、上記の回帰出力のうちの1つまたは複数のそれぞれに対してL1(または任意の他の損失)損失を判定すること、およびそれらの回帰損失を合計して合計回帰損失を判定することを含んでよい。
【0080】
MLモデルを訓練することは、追加的または代替的に、合計分類損失および合計回帰損失を合計することによって合計損失を判定することを含んでよい。ある例示において、MLモデルは、それぞれのタスクに関連して不確実性を出力するように訓練されてよい。タスクに対して判定された損失は、出力タスクに関連して不確実性出力に少なくとも部分的に基づいて重み付けされてよいことによって、不確実性がより大きいほど、損失に適用される重み付けがより大きく、合成損失が大きくなる。この重み付けは、合計分類損失および/または合計回帰損失を決定する前に発生してよいが、それは、別の時間で発生してよい。ある例示において、不確実性は、共分散に少なくとも部分的に基づいてよく、および/または異分散であってよい。
【0081】
ある例示において、合計損失は、重み付けされているか否かにかかわらず、MLモデルのさまざまな回帰および/または分類コンポーネントを通してバックプロパゲーションされてよく、これは、合計損失を最小限に抑えるために1つまたは複数のコンポーネントのうちの1つまたは複数のパラメーターを調整することを含んでよい。追加的または代替的に、合計損失は、パイプラインまたはパイプラインの一部のうちの1つまたは複数を通してバックプロパゲーションされてよい。例えば、合計損失は、トップダウンセグメンテーションコンポーネント、ROIコンポーネント、向きコンポーネント、速度コンポーネント、および/または視覚パイプライン、ライダーパイプラインなどの高さコンポーネントのうちの1つまたは複数のパラメーターを調整するために用いられてよい。
【0082】
ある例示において、本明細書で説明される損失は、ピクセルごとの損失の代わりに、またはそれに加えて、オブジェクトごとの検出によって判定されてよい。オブジェクトごとの検出の基準に損失を判定することは、小さいオブジェクトに対して推定されるオブジェクト検出を判定することにおいて、MLモデルの精度を高めることができる。ある例示において、損失は、オブジェクトの輪郭の指示、オブジェクトに関連付けられるピクセルおよび/またはサブピクセルを識別するインスタンスセグメンテーションなどを含むグラウンドトゥルースに少なくとも部分的に基づいて判定されてよい。
【0083】
ある例示において、MLモデルは、追加的または代替的に、推定されるオブジェクトが関連付けられる行程の表示を出力することができる。ある例示において、MLモデルは、新しい行程を生成するか、またはオブジェクト検出を以前の行程に関連付けるかを判定することに用いるためにオブジェクト検出に関連して埋め込みを出力することができる。埋め込みは、ある例示において、MLモデルの他の出力に少なくとも部分的に基づいてよい。例えば、埋め込みは、MLモデルの他の出力(例えば、ROI、オブジェクト分類、推定される向き、推定される速度、推定される高さ、推定される方向)を受信するMLモデルのコンポーネントによって判定されてよいが、埋め込みは、知覚パイプラインのうちの1つまたは複数の出力に少なくとも部分的に基づいて追加的または代替的に判定されてよい。
【0084】
追加的または代替的な例示において、MLモデルは、異なる高さ区分に対して本明細書で説明されるオブジェクト検出を出力するように構成されてよい。例えば、マルチチャネル出力画像の第1のセットのチャネルは、第1の高さ範囲(例えば、0.25メートル~2メートル)に対するオブジェクト検出を含んでよく、第2のセットのチャネルは、第2の高さ範囲(例えば、2メートル~4メートル)などに対するオブジェクト検出を含んでよい。任意の他の高さ間隔は、用いられてよい。
【0085】
動作432で、例示的なプロセス400は、本明細書で説明される技術のいずれかに従って、推定されるオブジェクト検出に少なくとも部分的に基づいて、オブジェクトに関連付けられて更新される(432)か、または新しい行程を判定することを含んでよい。ある例示において、動作432は、追加的または代替的に、1つまたは複数の以前の行程および/または推定されるオブジェクト検出に少なくとも部分的に基づいてよい。ある例示において、例示的なプロセス400は、現在メモリに格納されている以前の行程ごとに更新することを判定することを含んでよい。行程を更新することは、行程が部分的にまたは完全に閉塞され得る(例えば、閉塞された状態フラグは、変更されてよい)オブジェクトに関連付けられていることを示す推定されるオブジェクト検出のうちの1つを行程に関連付けること、および/または行程を使わなくすることを含んでよい。行程を使わなくすることは、行程に関連付けられるオブジェクトが少なくとも閾値時間の間に閉塞されて、オブジェクトが視野内にもはや存在し得ない、および/または行程を削除することを示すことを含んでよい。すべての行程が更新されると、行程に関連付けられていない任意の残りの推定されるオブジェクト検出は、代替のトラッキングコンポーネントに渡されてよく、および/または共に関連付けられて新しい行程が生成されてよい。
【0086】
図5は、本明細書で説明されるMLモデルによって判定される推定されるオブジェクト検出に少なくとも部分的に基づいて、環境におけるオブジェクトをトラッキングするための例示的なプロセス500を図示する絵入りのフロー図である。例示的なプロセス500は、例示的なプロセス400の動作432の少なくとも一部であってよく、または独立したプロセスであってもよい。動作432で、本明細書で説明される技術のいずれかに従って、推定されるオブジェクト検出432に少なくとも部分的に基づいて、オブジェクトに関連付けられて更新されるか、または新しい行程を判定することを含んでよい。
【0087】
動作502で、例示的なプロセス500は、本明細書で説明される技術のいずれかに従って、以前の時間に関連付けられる以前の行程の少なくとも一部を現在の時間へと投影することを含んでよい。例えば、以前の行程の少なくとも一部を投影することは、以前の行程(例えば、行程418)に少なくとも部分的に基づいて投影されたROI504を判定することを含んでよい。ある例示において、投影されたROIは、以前の行程418に関連付けられる最新のROIに少なくとも部分的に基づいてよい。
図5は、黒いシェーディングでROIを満たすことによって、行程418の最新のROIを図示する。投影された領域504は、点線で描写され、履歴の速度、向き、および/または行程418に関連付けられる位置に少なくとも部分的に基づいてよい。追加的または代替的な例示において、投影されたROIは、以前の時間ステップでMLモデルによって出力される予測されるROIを含んでよい。
【0088】
図5が投影されたROI504を図示するが、推定されるオブジェクト検出に関連付けられる他の影響されやすい属性のいずれかが投影されてよいことに留意されたい。例えば、オブジェクト分類は、フレーム間で変化するべきではないが、速度、向き、高さ(例えば、歩行者が座っているか、またはかがめることのため)、ROI位置などは、変化してよく、行程418および/または共に関連付けられるデータに少なくとも部分的に基づいて予測/投影されてよい。例えば、行程418は、MLモデルによって生成される以前の推定されるオブジェクト検出、および共に関連付けられるデータのいずれかに関連されてよい。したがって、投影ROI504は、本明細書で説明されるが、オブジェクト分類、予測される速度、予測される向き、予測される高さ、予測される位置、予測される向き、および/または予測される埋め込みは、共に関連付けられ得ることが理解される。投影されたROI504を判定することは、埋め込みがどのデータに基づいているかに応じて、投影されたROI504に関連付けられる埋め込みおよび予測される速度、予測される向き、予測される高さ、予測される位置、予測される向きに少なくとも部分的に基づいて、更新された/予測された埋め込みを判定することを含んでよい。例えば、埋め込みが速度および位置などの可鍛性データに基づいている場合、埋め込みは、更新されてよいが、埋め込みが生のセンサーデータおよび/または知覚パイプラインデータに基づいている場合、更新することなく埋め込みが用いられてよい。
【0089】
動作506で、例示的なプロセス500は、本明細書で説明される技術のいずれかに従って、推定されるオブジェクト検出と投影されたROIとの間の関連度を判定することを含んでよい。例えば、推定されるオブジェクト検出は、本明細書で説明されるMLモデルによって判定される推定されるオブジェクト検出426の少なくとも一部であってよい。ある例示において、動作506は、投影されたROI504と推定されたオブジェクト検出426との間のIOU、推定されるオブジェクト検出426の中心と投影された関心領域504(または以前のROI)との間のユークリッド距離、投影されたROI504と推定されるオブジェクト検出426との間のMunkresのマッチングなどに少なくとも部分的に基づいてスコアを判定することを含んでよい。少なくとも1つの例示において、関連度を判定することは、投影された関心領域504に関連付けられる埋め込みと推定されるオブジェクト検出426に関連付けられる埋め込みとの間の差(例えば、ユークリッド距離)を判定することを含んでよい。ある例示において、埋め込みは、オブジェクト分類、サイズ、および/またはオブジェクト検出の他の特徴を考慮してよい。関連度は、少なくとも1つの例示において、IOUの合計または重み付けされた合計、中心間の距離、Munkresのマッチングスコア、および/または埋め込み間の距離などの1つまたは組み合わせを含んでよい。
【0090】
ある例示において、関連度は、IOUの合計または重み付けの合計、および埋め込み間の距離を含んでよい。このような例示において、このような合計は、第1のIOUを含んでよく、または(正規化された)距離は、高いIOUが類似性を示すため、それが算定された後に反転されてもよいが、埋め込み間の高い距離は、相違を示す。IOUは、IOUを1から減算することによって反転されてよい。IOUは、0と1との間の範囲であってよく、埋め込み間のユークリッド距離は、1よりも著しく大きくなってよいため、埋め込み間のユークリッド距離は、学習した埋め込み空間における埋め込み間の最小および最大距離に少なくとも部分的に基づいて正規化されてよい。追加的または代替的の例示において、IOUのロジットは、学習した埋め込み空間における埋め込み間の最大距離に少なくとも部分的に基づいて判定されてよく、スケーリングされてよい。追加的または代替的な例示において、関連度は、1つまたは複数の関連度に少なくとも部分的に基づいて判定されるスコアを含んでよい。例えば、MLモデルは、IOU、埋め込み間の距離、行程の少なくとも一部、および/または推定されるオブジェクト検出データの少なくとも一部を受信し、推定されるオブジェクト検出データが以前の行程に関連付けられている尤度を示すスコアを出力するように訓練されてよい。
【0091】
動作508で、例示的なプロセス500は、本明細書で説明される技術のいずれかに従って、関連度が閾値関連度を満たすかを判定することを含んでよい。閾値関連度を満たす関連度は、推定されるオブジェクト検出426に関連付けられるオブジェクトが行程418によって示されるように、同一のオブジェクトであること/であり得る同一のオブジェクトであることを示す。関連度が閾値関連度を満たす場合、例示的なプロセス500は、動作510に継続してよい。一方で、動作506で判定される関連度が閾値関連度を満たさない場合、例示的なプロセス5008は、動作442に継続してよい。
【0092】
関連度は、関連度がIOUを含む場合、Munkresのマッチングが見出される場合によって、埋め込み間の距離が閾値距離よりも短い場合によって、中心間の距離が閾値距離よりも短い場合によって、および/または閾値複合スコアを満たす複合スコアによって、閾値関連度を満たすか、または閾値IOU値を上回る場合、閾値関連度を満たしてよい。後者の例示に従って、IOUと埋め込み間の距離とを組み合わせてスコアを判定する場合、上記のように、IOUが反転した場合に、および埋め込み間の距離が正規化されて次に反転した場合の逆もまた同様に、組み合わせられたスコアが組み合わせられたスコア閾値を下回り、閾値の組み合わせられたスコアの満足が達成されることができる。多様な関連度が判定される例示(例えば、MLモデル生成スコア、IOU、埋め込み間の距離)において、動作508は、動作510に移行するために満たされなければならない関連度閾値のうちの1つまたは複数を指定するルールセットを含んでよい(例えば、すべての関連度は、それぞれの関連度に関連付けられる閾値、少なくとも1つ、3つのうちの2つなどを上回らなければならない)。
【0093】
動作510で、例示的なプロセス500は、本明細書で説明される技術のいずれかに従って、推定されるオブジェクト検出426を更新された行程430として行程418に関連付けることを含んでよい。
【0094】
動作512で、例示的なプロセス500は、本明細書で説明される技術のいずれかに従って、推定されるオブジェクト検出に関連付けられる新しい行程を生成すること、および/または第1のオブジェクト検出、第2のオブジェクト検出、および/または推定されるオブジェクト検出を代替のトラッキングコンポーネントに提供することを含んでよい。新しい行程を生成することは、推定されるオブジェクト検出が、知覚パイプラインのいずれかによって以前に検出されなかった、および/または共に関連付けられるセンサーの視野内になかったオブジェクトに関連付けられることを示す。追加的または代替的な例示において、1つまたは複数のパイプラインおよび/または行程418からの生オブジェクト検出は、代替のトラッキングコンポーネントへの入力として提供されてよい。ある例示において、代替のトラッキングコンポーネントは、多様な知覚パイプラインからのオブジェクト検出を比較することに少なくとも部分的に基づいて、新しい行程を判定するか、または以前の行程を更新するように構成されてよい。
【0095】
(例示的なアーキテクチャ)
図6は、本明細書で説明される推定されるオブジェクト検出を生成するためのMLモデルの例示的なアーキテクチャ600を図示するブロック図である。ある例示において、例示的なアーキテクチャ600は、1つのオブジェクト分類または多様なオブジェクト分類に関連付けられてよい。つまり、例示的アーキテクチャ600は、具体的なオブジェクト分類に関連付けられるオブジェクト検出に対して受信および/または訓練されてよく、または例示的アーキテクチャ600は、さまざまなタイプのオブジェクト分類のオブジェクト検出に対して受信および/または訓練されてもよい。例示的アーキテクチャ600が1つのオブジェクト分類に関連付けられる例示において、MLモデルは、異なるオブジェクト分類に関連して訓練される例示的なアーキテクチャ600の多様な例示を含んでよい。
【0096】
いずれにせよ、例示的アーキテクチャ600は、第1のセットのレイヤー602、第2のセットのレイヤー604、および/または第3のセットのレイヤー606を含んでよいが、さらなるまたは代替のセットのレイヤーの数が用いられてよい。レイヤーは、MLモデル、サブネットワーク、および/または別個のネットワークの一部であってよい。少なくとも1つの例示において、セットのレイヤー602~606のうちの少なくとも1つは、1つまたは複数の畳み込みレイヤーを含んでよく、これは、上記の損失に少なくとも部分的に基づいて調整された学習パラメーター、および/または(例えば、それらの入力をアップサンプリングするために)逆畳み込みレイヤーを含んでよい。ある例示において、上記のマルチチャネル画像は、第1のセットのレイヤー602、第2のセットのレイヤー604、および/または第3のセットのレイヤー606のうちのいずれか1つまたは複数への入力として提供されてよい。上記のように、マルチチャネル画像は、現在および/または以前の時間ステップからのデータを含んでよい。ある例示において、第1のセットのレイヤー602の出力は、集約レイヤー608および第2のセットのレイヤー604への入力として提供されてよく、第2のセットのレイヤー604の出力は、集約レイヤー608および第3のセットのレイヤー606への入力として提供されてよく、第3のセットのレイヤー606の出力は、集約レイヤー608への入力として提供されてよい。
【0097】
ある例示において、集約レイヤー608は、それぞれのレイヤーの出力を連結またはアップサンプリングしてよく、要素ごとに合計してデータ構造を形成してよい。ある例示において、集約レイヤー608によって生成されるデータ構造は、分類レイヤー610および/または回帰レイヤー612への入力として提供されてよい。分類レイヤー610は、本明細書で説明される分類タスクに対する畳み込みレイヤーまたは他のコンポーネントのうちの1つまたは複数のセットを含んでよい。ある例示において、分類タスクの出力レイヤーは、尤度のテンソル(または他のデータ構造)を出力することができ、ここで、フィールドの別個の部分が環境の関連する部分が分類(例えば、占有された空間、オブジェクト分類、速度区分、向き区分、高さ区分)に関連付けられている尤度を示す。例えば、分類レイヤー610の第1のセットのレイヤーは、環境のそれぞれの部分が占有されているか、または占有されていないか、および/またはそれぞれのオブジェクト分類に関連付けられているかを判定することができ、分類レイヤー610の別のセットのレイヤーは、環境が推定される高さ区分などに関連付けられているかを判定することができる。ある例示において、オブジェクト分類レイヤーのセットの別個の部分は、追加的または代替的に、例示的なMLアーキテクチャ600が訓練されたオブジェクト分類のそれぞれに関連付けられる尤度を含んでよい。つまり、分類出力ヘッドは、環境の一部がクラス(例えば、高さ区分、オブジェクト分類、占有率)に関連付けられているか、または関連付けられていないバイナリ表示を出力することができるか、または分類出力ヘッドは、回帰値を出力することができ、これに、分類を判定するためにNMSアルゴリズムが適用されてよい。回帰レイヤー612の出力レイヤーは、ROI中心オフセット、ROI範囲、速度オフセット、向きオフセット、高さオフセットなどの回帰されているそれらのタスクに対する値のフィールドを出力することができる。
【0098】
分類レイヤー610および/または回帰レイヤー612のさまざまな出力は、推定されるオブジェクト検出614へと集約されてよい。例えば、これは、区分値からオフセットを減算すること、分類および/または回帰出力に適用される非最大抑制技術に少なくとも部分的に基づいてROIを判定すること、2つまたはそれより多くのROIが、2つまたはそれより多くのROIに関連付けられる中心オフセットに少なくとも部分的に基づいて、連結式オブジェクトに関連付けられることを判定すること、および2つまたはそれより多くのROIを1つのオブジェクト検出へとグループ化すること、出力を正規化すること、および/または、出版購読型ネットワークでの伝送のためのメッセージのような共通のオブジェクト検出フォーマットへと出力をフォーマットすることを含んでよい。ある例示において、ここで、分類出力が区分を含み、回帰出力がヨー、ヨーレート、高さ、速度、加速度、オブジェクト範囲などのようなオフセットを含み、分類は、区分を示してよく、これは、値の範囲(例えば、0~5メートル、時速0~10マイル)であってよく、(回帰される)オフセットは、区分の基準点から減算される正または負の値を指定してよい。例えば、基準点は、区分の中心値(例えば、0~5メートルの範囲を指定する区分における3メートル)または区分の端部(例えば、0~5メートルの間の範囲を指定する区分における0メートルまたは5メートル)であってよい。本明細書で説明されるMLモデルによって出力されるデータ構造の一部として示される姿勢は、オブジェクトの位置、中心、および/または向きを含み得ることに留意されたい(例えば、向きは、ヨーを含んでよい)。ある例示において、姿勢は、追加的または代替的に、オブジェクトの範囲を含んでよい。
【0099】
(例示的なアーキテクチャ)
図7は、MLモデルを訓練してオブジェクトに関連付けられる速度および/またはヨーレートを判定するため、および/またはMLモデルを用いて推論時間での速度および/またはヨーレートを判定するための例示的なプロセスの絵入りのフロー図を図示する。
【0100】
動作702で、例示的なプロセス700は、本明細書で説明される技術のいずれかに従って、MLモデルからオブジェクト検出の一部に関連付けられる複数の速度を受信することを含んでよい。ある例示において、このような速度は、環境速度(例えば、環境における速度の推定)を含んでよいのに対して、他の例示において、速度は、ピクセル速度(例えば、ピクセル空間/座標における速度)を表現してよい。ピクセル速度が生成されるそれらの例示において、「Object Velocity from Images」と題された、2019年5月9日に出願された米国特許出願第16/408,195号に詳述されるように環境速度への変換を実行してよく、その内容全体が参照により本明細書に組み込まれる。オブジェクト検出404は、ピクセル704およびピクセル706などの1つまたは複数の部分に関連付けられてよい。例えば、MLモデルは、ピクセル704に関連して速度708およびピクセル706に関連して速度710を出力することができる。
図7は、2つのピクセルを描写しているが、オブジェクト検出404は、より多くのまたはより少ないピクセル(または他の別個の部分)に関連付けられてよい。図示される例示において、オブジェクト検出404に関連付けられるオブジェクトは、右折を実行している。
【0101】
MLモデルは、訓練されてよいことによって、速度出力は、ピクセルに関連して、オブジェクトの対応する部分の動きを示す速度を示してよい。描写される例示において、オブジェクトは、車両であってよく、これは、オブジェクトの中心712(または他の回転点)の周りを(例えば、ターンによって)回転することが可能である。ある例示において、ここで、このようなオブジェクトが直進している場合、オブジェクト検出の一部に関連して出力される速度は、実質的に同一であってよいのに対して、オブジェクトがターンしている例示において、
図7に描写されるように速度が変化してよい。
【0102】
ある例示において、最終の環境表現の別個の部分は、オブジェクトによって占有される環境の一部の中心、範囲、および/または他の次元、および共に関連付けられる信頼性を示すROIを出力することができる。ある例示において、多様なROIは、同一のオブジェクトに関連付けられてよい。どのROIが同一のオブジェクトに関連付けられ得るかを判定することは、ROI間の整列の程度を判定すること(例えば、領域の和集合分の領域の共通部分(IOU)を判定すること)を含んでよい。以前のまたは実質的に同時の動作は、オブジェクトに関連して出力するための閾値整列度を満たすか、またはそれを上回る整列度を有するROIのグループのうちの1つのROIを判定することを含んでよい。少なくともある例示において、このような整列は、例えば、関連する速度、ヨーレート、または行程情報に含まれ得る他の状態情報(これは、このようなターンを考慮するオブジェクトの運動学的および/または動的モデリングを含み得る)に基づいて、以前に検出されたオブジェクトを時間において先に伝播することに基づいて実行されてよい。出力するROIを判定することは、ROIのグループのうちのどのROIが最大信頼スコアに関連付けられているかを判定すること、およびそのROIをオブジェクトに関連して出力することを含んでよい。このプロセスは、非最大抑制技術の少なくとも一部である。さらなるまたは代替的な技術を用いて、ROIを選択してよく、オブジェクトに関連して出力する。
【0103】
動作702は、オブジェクトに関連してROI出力を用いることを含んでよく、出力ROIに関連付けられるピクセル(または他の別個の部分)を判定する。例えば、ピクセルは、ROI内であってよい。動作702、714、720、および/または722は、これらのピクセルに少なくとも部分的に基づいて達成されることができる。
【0104】
動作714で、例示的なプロセス700は、本明細書で説明される技術のいずれかに従って、複数の速度に少なくとも部分的に基づいて最終速度716および/またはヨーレート718を判定することを含んでよい。ある例示において、最終速度は、長手方向成分および横方向成分を含んでよく、ヨーレートは、角速度であってよく、さらなるまたは代替的なの表現が企図される。オブジェクトに関連付けられる最終速度および/またはヨーレートを判定することは、回帰(例えば、線形回帰、またはそれ以外)を解くことを含んでよい。非限定的な例示として、オブジェクトの剛体回転は、以下の式を用いて線形回帰を実行することによって推定されてよい。
【0105】
【0106】
ここで、
【0107】
【0108】
は、環境表現、例えば、ピクセル704の別個の部分pに関連して速度出力を表現して、
【0109】
【0110】
は、(オブジェクトoの中心712を参照して)オブジェクトの長手方向および/または横方向の速度(つまり、最終速度716)を表現して、
【0111】
【0112】
は、オブジェクト検出に関連付けられるROIの中心712の位置と
【0113】
【0114】
に関連付けられる別個の部分の位置との間のベクトルを表現する。言うまでもなく、任意の他の運動学的または動的制約は、自転車モデル、非剛性変換、結合システム(連結式オブジェクト(例えば、バス、列車など))などを含むが、これらに限定されないと考慮される。さらに、少なくともある例示において、回帰に対して対応するシステムの選択は、検出されたオブジェクト分類および/またはサブ分類に少なくとも部分的に基づいてよい。
【0115】
ある例示において、
【0116】
【0117】
は、横方向の速度および長手方向の速度という2つの未知数の成分を含んでよく、また、
【0118】
【0119】
は、未知数であってよい。このような例示において、少なくとも3つの別個の部分は、これらの3つの未知数に対して解かれ得る連立方程式を形成するために用いられてよく、最終速度716および/またはヨーレート718を判定する。多かれ少なかれ別個の部分は、用いられてよい。例えば、より少ないは、
【0120】
【0121】
が、1つの未知数を含む例示において用いられてよい。追加のピクセルからより多い速度が用いられる例示において、最終速度を判定することは、異なる別個の部分に対する式(1)による連立方程式を判定すること、および最終速度716および/またはヨーレート718を判定するための線形回帰を判定することを含んでよい。
【0122】
オブジェクトに関連付けられるピクセルのサブセットにわたって回帰を実行する文脈で説明されているが、それぞれが独立して一意の速度推定を有し、本開示は、それほど限定される意図はない。少なくともある例示において、機械学習モデルは、オブジェクトの線形および/または角速度のうちの1つまたは複数を直接出力することができる。このような例示において、識別される運動学的モデルおよび/または動的モデルにわたる回帰の等価物は、それらを明示的に提供することなくモデルによって実行されてよい。
【0123】
ある例示において、MLモデルは、速度、角速度、および/または別個の部分に関連して共分散を出力することができる。このような例示、且つ別個の部分(例えば、横方向の速度、長手方向の速度、およびヨーレートを回帰する場合の2つまたは3つ)に関連付けられる最小数の速度を上回る速度が用いられる場合、(位置、分類、速度、角速度、および/またはその他の点のいずれかで、モデルによって出力されるように)共分散閾値を下回る共分散に関連付けられる1つまたは複数の速度は、推定される速度を解くために破棄されること/用いられないことがある。ある例示において、最終(または推定される)速度716および/またはヨーレート718は、行程に関連付けられてよく、ある例示において、本明細書で説明される他の速度検出方法を交換または補完してよい。
【0124】
ある例示において、動作702および/または714は、推論時間(例えば、車両で用いられる間)および動作720および/または722の間に達成されることができ、
図7の例示的なプロセス700の破線部分は、リモートコンピューティングデバイスおよび/または車両に対する訓練プロセスの一部として達成されることができる。
【0125】
動作720で、例示的なプロセス700は、本明細書で説明される技術のいずれかに従って、ピクセル速度ごとのグラウンドトゥルース表示に少なくとも部分的に基づいて、ピクセルごとの損失を判定することを含んでよい。例えば、動作720は、それぞれのピクセル(または他の別個の部分)のそれぞれに関連付けられるピクセルのグループ(または他の別個の部分)および/または速度に関連付けられるピクセルのグループ(または他の別個の部分)を示すグラウンドトゥルースのオブジェクト検出を受信することを含んでよい。他の技術とは異なり、それぞれのピクセルのそれぞれに関連付けられる速度は、オブジェクト全体に関連付けられる速度ではなく、オブジェクトのそれぞれの部分に関連付けられる速度であり、これは、速度が異なることを意味してよく、速度708および710のように異なる。少なくともある例示において、このような速度は、環境速度を表現するのではなく、むしろピクセル空間におけるピクセル速度を示すピクセル速度を表現してよい。このような速度は、車両によって以前にキャプチャされたログデータおよび/またはシミュレーションから派生されてよい。ログデータを用いるこれらの例示において、検出されるオブジェクトの次の位置は、オブジェクト速度(および/または角速度)、および次に分解されて用いられる上記の類似のアルゴリズム(これは、逆数であってよい)が用いられてよく、画像におけるピクセルベースごとにこのような線形速度および角速度を判定する。動作720は、ピクセルに関連してMLモデルによって出力される速度と同一または近いピクセルに関連してグラウンドトゥルースによって示される速度との間の差を判定することに少なくとも部分的に基づいて、損失を判定することを含んでよい(例えば、近いピクセルに関連付けられる速度は、2つまたは複数の最も近いピクセル間に補間される速度、または正確にマッチングしない場合、最も近いピクセルの速度であってよい)。例えば、差を判定することは、速度間の大きさおよび/または方向の差を判定することを含んでよい。この差は、L1、L2、Huber、または他の損失を判定するために用いられてよい。ある例示において、このような損失は、環境表現、推定されるオブジェクト検出、および/またはグラウンドトゥルースのオブジェクト検出のそれぞれのピクセルに関連して算定されてよい。
【0126】
動作722で、例示的なプロセス700は、本明細書で説明される技術のいずれかに従って、動作720で判定された損失を低減するためにMLモデルの1つまたは複数のパラメーターを変更することを含んでよい。ある例示において、これは、1つのピクセルに関連付けられる損失を低減すること、または推定されるオブジェクト検出のピクセルに関連付けられる損失の合計に関連付けられる損失を低減することを含んでよい。
【0127】
(例示的な条項)
A.方法は、第1のセンサータイプに関連付けられる第1のオブジェクト検出および第2のセンサータイプに関連付けられる第2のオブジェクト検出を受信することであって、第1のオブジェクト検出および第2のオブジェクト検出は、自律車両を取り巻く環境におけるオブジェクトを識別すること、オブジェクトに関連付けられる行程を受信することであって、行程は、オブジェクトの推定される以前の位置、以前の関心領域、またはオブジェクトの以前の速度のうちの少なくとも1つを識別すること、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を機械学習(ML)モデルへと入力すること、MLモデルから、関心領域、オブジェクト分類、およびオブジェクトに関連付けられる姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられる位置またはヨーのうちの少なくとも1つを示すこと、データ構造に少なくとも部分的に基づいて、オブジェクトに関連付けられる更新された行程を判定することであって、更新された行程は、行程の少なくとも一部、現在の位置、およびオブジェクトに関連付けられる関心領域またはヨーのうちの少なくとも1つを含むこと、および更新された行程に少なくとも部分的に基づいて自律車両を制御することを備える。
【0128】
B.段落Aに記載の方法であって、データ構造は、さらに、オブジェクトが静止しているまたは動的であるという表示、環境のトップダウンセグメンテーション、ヨーレート、オブジェクトに関連付けられる速度、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを含む。
【0129】
C.段落Aまたは段落Bのいずれかに記載の方法であって、更新された行程を判定することは、関心領域の以前の関心領域に対する整列の程度を判定すること、および整列の程度が閾値の整列の程度を満たすか、または上回ると判定することを含む。
【0130】
D.段落A~Cのいずれか1つに記載の方法であって、第1のオブジェクト検出および第2のオブジェクト検出は、オブジェクトに関連付けられる初期推定を含み、データ構造は、オブジェクトに関連付けられる1つまたは複数の改良された推定を含む。
【0131】
E.段落A~Dのいずれか1つに記載の方法であって、第1のオブジェクト検出が生成された時間の以前の時間に関連付けられる第1の以前のオブジェクト検出を受信すること、第2のオブジェクト検出が生成された時間の以前の時間に関連付けられる第2の以前のオブジェクト検出を受信すること、および第1のオブジェクト検出、第2のオブジェクト検出、および行程に加えて、第1の以前のオブジェクト検出および第2の以前のオブジェクト検出をMLモデルに入力することをさらに備える。
【0132】
F.段落A~Eのいずれか1つに記載の方法であって、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を入力することは、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成すること、およびマルチチャネル画像をMLモデルに入力することを含む。
【0133】
G.システムは、1つまたは複数のプロセッサ、および1つまたは複数のプロセッサによって実行される場合に、システムに、第1の出力および第2出力を受信すること、環境におけるオブジェクトに関連付けられる行程を受信することであって、行程は、オブジェクトの推定される以前の位置、以前の関心領域、またはオブジェクトの以前の速度のうちの少なくとも1つを識別すること、第1の出力、第2の出力、および行程の少なくとも一部を機械学習(ML)モデルへと入力すること、MLモデルから、関心領域、オブジェクト分類、およびオブジェクトに関連付けられる姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられる位置またはヨーのうちの少なくとも1つを示すこと、およびデータ構造に少なくとも部分的に基づいてオブジェクトに関連付けられる更新された行程を判定することであって、更新された行程は、行程の少なくとも一部、現在の位置、およびオブジェクトの関心領域またはオブジェクトに関連付けられるヨーのうちの少なくとも1つを含むことを含む動作を実行させるプロセッサ実行可能命令を格納するメモリを備える。
【0134】
H.段落Gに記載のシステムであって、動作は、更新された行程に少なくとも部分的に基づいて自律車両を制御することをさらに含む。
【0135】
I.段落GまたはHのいずれかに記載のシステムであって、第1の出力は、オブジェクトに関連付けられる初期推定を含み、データ構造は、オブジェクトに関連付けられる改良された推定を含む。
【0136】
J.段落G~Iのいずれか1つに記載のシステムであって、データ構造は、オブジェクトが静止しているまたは動的であるという表示、環境のトップダウンセグメンテーション、ヨーレート、オブジェクトに関連付けられる速度、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つをさらに含む。
【0137】
K.段落G~Jのいずれか1つに記載のシステムであって、第1の出力は、第1の知覚パイプラインの出力であり、第2の出力は、第2の知覚パイプラインの出力であり、第3の出力は、第1の出力および第2の出力に関連付けられる環境の一部が占有されていないことを示して、第3の出力は、第1の出力および第2の出力に加えて、MLモデルへの入力として提供される。
【0138】
L.段落G~Kのいずれか1つに記載のシステムであって、更新された行程を判定することは、関心領域の以前の関心領域に対する整列度を判定すること、および整列度が閾値整列度を満たすか、または上回ることを判定することを含む。
【0139】
M.段落G~Lのいずれか1つに記載のシステムであって、第1の出力または第2の出力のうちの少なくとも1つは、トップダウンの視点からの環境表現、環境の一部が占有されていることの表示、環境の閉塞される部分の表現、オブジェクトに関連付けられる関心領域、オブジェクトに関連付けられる分類、センサーデータセグメンテーション、センサーデータの3次元離散化表現、オブジェクトに関連付けられるヨー、オブジェクトに関連付けられるヨーレート、地上高の推定、オブジェクトに関連付けられる範囲のセット、オブジェクトに関連付けられる速度、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを含む。
【0140】
N.段落G~Mのいずれか1つに記載のシステムであって、動作は、第1の出力が生成された時間の以前の時間に関連付けられる第1の以前の環境表現を受信することであって、第1の以前の環境表現は、第1の知覚パイプラインに関連付けられること、第2の出力が生成された時間の以前の時間に関連付けられる第2の以前の環境表現を受信することであって、第1の以前の環境表現は、第1の知覚パイプラインに関連付けられること、第1の出力、第2の出力、および行程に加えて、第1の以前の環境表現および第2の以前の環境表現をMLモデルに入力することをさらに含む。
【0141】
O.段落G~Nのいずれか1つに記載のシステムであって、第1の出力、第2の出力、および行程の少なくとも一部を入力することは、第1の出力、第2の出力、および行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成することを含む。
【0142】
P.非一時的なコンピューター可読媒体は、1つまたは複数のプロセッサによって実行される場合に、1つまたは複数のプロセッサに、第1のプロセスに関連付けられる第1の出力および第2のプロセスに関連付けられる第2の出力を受信すること、環境におけるオブジェクトに関連付けられる行程を受信することであって、行程は、オブジェクトの推定される以前の位置、以前の関心領域、またはオブジェクトの以前の速度のうちの少なくとも1つを識別すること、第1の出力、第2の出力、および行程の少なくとも一部を機械学習(ML)モデルへと入力すること、MLモデルから、関心領域、オブジェクト分類、およびオブジェクトに関連付けられる姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられる位置またはヨーのうちの少なくとも1つを示すこと、およびデータ構造に少なくとも部分的に基づいてオブジェクトに関連付けられる更新された行程を判定することであって、更新された行程は、行程の少なくとも一部、現在の位置、およびオブジェクトの関心領域またはオブジェクトに関連付けられるヨーのうちの少なくとも1つを含むことを含む動作を実行させるプロセッサ実行可能命令を格納する。
【0143】
Q.段落Pに記載の非一時的なコンピューター可読媒体であって、第1の出力は、オブジェクトに関連付けられる初期推定を含み、データ構造は、オブジェクトに関連付けられる最終決定された推定を含む。
【0144】
R.段落PまたはQに記載の非一時的なコンピューター可読媒体であって、データ構造は、さらに、オブジェクトが静止しているまたは動的であるという表示、環境のトップダウンセグメンテーション、ヨーレート、オブジェクトに関連付けられる速度、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを含む。
【0145】
S.段落P~Qのいずれか1つに記載の非一時的なコンピューター可読媒体であって、第1の出力または第2の出力のうちの少なくとも1つは、トップダウンの視点からの環境表現、環境の一部が占有されていることの表示、環境の閉塞される部分の表現、オブジェクトに関連付けられる関心領域、オブジェクトに関連付けられる分類、センサーデータセグメンテーション、センサーデータの3次元離散化表現、オブジェクトに関連付けられるヨー、オブジェクトに関連付けられるヨーレート、地上高の推定、オブジェクトに関連付けられる範囲のセット、オブジェクトに関連付けられる速度、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを含む。
【0146】
T.段落P~Sのいずれか1つに記載の非一時的なコンピューター可読媒体であって、第1の出力、第2の出力、および行程の少なくとも一部を入力することは、第1の出力、第2の出力、および行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成することを含む。
【0147】
U.方法は、第1のセンサータイプに関連付けられる第1のオブジェクト検出および第2のセンサータイプに関連付けられる第2のオブジェクト検出を受信することであって、第1のオブジェクト検出および第2のオブジェクト検出は、自律車両を取り巻く環境におけるオブジェクトを識別すること、オブジェクトに関連付けられる行程を受信することであって、行程は、オブジェクトの推定される以前の位置、以前の関心領域、またはオブジェクトの以前の速度のうちの少なくとも1つを識別すること、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を機械学習(ML)モデルへと入力すること、MLモデルから、オブジェクトに関連付けられる関心領域およびオブジェクトに関連付けられる複数の速度、オブジェクトの一部に関連付けられる複数の速度の速度を受信すること、複数の速度に少なくとも部分的に基づいて、オブジェクトに関連付けられる推定される速度および推定されるヨーレートを判定すること、関心領域に少なくとも部分的に基づいてオブジェクトに関連付けられる更新された行程を判定することであって、更新された行程は、行程の少なくとも一部と、推定される速度または推定されるヨーレートのうちの少なくとも1つとを含むこと、および更新された行程に少なくとも部分的に基づいて自律車両を制御することを備える。
【0148】
V.段落Uに記載の方法であって、MLモデルから、オブジェクトが静止しているまたは動的であるという表示、環境のトップダウンセグメンテーション、オブジェクトの現在の位置、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを受信することをさらに備える。
【0149】
W.段落UまたはVに記載の方法であって、推定される速度および推定されるヨーレートを判定することは、連立方程式に従って速度にわたる回帰を実行することを含む。
【0150】
X.段落U~Wのいずれか1つに記載の方法であって、ピクセルに関連付けられるグラウンドトゥルース速度を示すグラウンドトゥルースデータを受信すること、グラウンドトゥルース速度と速度との差を判定すること、および差を低減するためにMLモデルの1つまたは複数のパラメーターを変更することをさらに備える。
【0151】
Y.段落U~Xのいずれか1つに記載の方法であって、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を入力することは、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成すること、およびマルチチャネル画像をMLモデルに入力することを含む。
【0152】
Z.段落U~Yのいずれか1つに記載の方法であって、複数の速度の速度は、画像のピクセルに関連付けられ、複数の速度は、画像の異なるピクセルに関連付けられる。
【0153】
AA.段落U~Zのいずれか1つに記載の方法であって、第1のオブジェクト検出は、第1の知覚パイプラインの出力であり、第2のオブジェクト検出は、第2の知覚パイプラインの出力である。
【0154】
AB.システムは、1つまたは複数のプロセッサ、および1つまたは複数のプロセッサによって実行される場合に、システムに、第1のセンサータイプに関連付けられる第1のオブジェクト検出および第2のセンサータイプに関連付けられる第2のオブジェクト検出を受信することであって、第1のオブジェクト検出および第2のオブジェクト検出は、自律車両を取り巻く環境におけるオブジェクトを識別すること、オブジェクトに関連付けられる行程を受信することであって、行程は、オブジェクトの推定される以前の位置、以前の関心領域、またはオブジェクトの以前の速度のうちの少なくとも1つを識別すること、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を機械学習(ML)モデルへと入力すること、MLモデルから、オブジェクトに関連付けられる関心領域およびオブジェクトに関連付けられる複数の速度、オブジェクトの一部に関連付けられる複数の速度の速度を受信すること、複数の速度に少なくとも部分的に基づいて、オブジェクトに関連付けられる推定される速度および推定されるヨーレートを判定すること、関心領域に少なくとも部分的に基づいてオブジェクトに関連付けられる更新された行程を判定することであって、更新された行程は、行程の少なくとも一部と、推定される速度または推定されるヨーレートのうちの少なくとも1つとを含むこと、および更新された行程に少なくとも部分的に基づいて自律車両を制御することを含む動作を実行させるプロセッサ実行可能命令を格納するメモリを備える。
【0155】
AC.段落ABに記載のシステムであって、動作は、MLモデルから、オブジェクトが静止しているまたは動的であるという表示、環境のトップダウンセグメンテーション、オブジェクトの現在の位置、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを受信することをさらに含む。
【0156】
AD.段落ABまたはACのいずれかに記載のシステムであって、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を入力することは、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成すること、およびマルチチャネル画像をMLモデルに入力することを含む。
【0157】
AE.段落AB~ADのいずれか1つに記載のシステムであって、複数の速度の速度は、画像のピクセルに関連付けられ、複数の速度は、画像の異なるピクセルに関連付けられる。
【0158】
AF.段落AB~AEのいずれか1つに記載のシステムであって、第1のオブジェクト検出は、第1の知覚パイプラインの出力であり、第2のオブジェクト検出は、第2の知覚パイプラインの出力である。
【0159】
AG.段落AB~AFのいずれか1つに記載のシステムであって、第1のオブジェクト検出または第2のオブジェクト検出のうちの少なくとも1つは、トップダウンの視点からの環境表現、オブジェクトの分類、位置、領域、占有される領域、または状態の表示、オブジェクトに関連付けられる速度、加速度、ヨー、またはヨーレート、センサーデータセグメンテーション、または環境の閉塞される部分の表現のうちの少なくとも1つを含む。
【0160】
AH.段落AB~AGのいずれか1つに記載のシステムであって、複数の速度は、MLモデルによって出力される速度のセットのサブセットであり、速度のセットは、それぞれ共分散に関連付けられ、方法は、複数の速度が閾値共分散を満たすかまたは上回る共分散に関連付けられていると判定することに少なくとも部分的に基づいて、複数の速度を出力することを判定することをさらに含む。
【0161】
AI.非一時的なコンピューター可読媒体は、1つまたは複数のプロセッサによって実行される場合に、1つまたは複数のプロセッサに、第1のセンサータイプに関連付けられる第1のオブジェクト検出および第2のセンサータイプに関連付けられる第2のオブジェクト検出を受信することであって、第1のオブジェクト検出および第2のオブジェクト検出は、自律車両を取り巻く環境におけるオブジェクトを識別すること、オブジェクトに関連付けられる行程を受信することであって、行程は、オブジェクトの推定される以前の位置、以前の関心領域、またはオブジェクトの以前の速度のうちの少なくとも1つを識別すること、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を機械学習(ML)モデルへと入力すること、MLモデルから、オブジェクトに関連付けられる関心領域およびオブジェクトに関連付けられる複数の速度、オブジェクトの一部に関連付けられる複数の速度の速度を受信すること、複数の速度に少なくとも部分的に基づいて、オブジェクトに関連付けられる推定される速度および推定されるヨーレートを判定すること、関心領域に少なくとも部分的に基づいてオブジェクトに関連付けられる更新された行程を判定することであって、更新された行程は、行程の少なくとも一部と、推定される速度または推定されるヨーレートのうちの少なくとも1つとを含むこと、および更新された行程に少なくとも部分的に基づいて自律車両を制御することを含む動作を実行させるプロセッサ実行可能命令を格納する。
【0162】
AJ.段落AIに記載の非一時的なコンピューター可読媒体であって、動作は、MLモデルから、オブジェクトが静止しているまたは動的であるという表示、環境のトップダウンセグメンテーション、オブジェクトの現在の位置、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを受信することをさらに含む。
【0163】
AK.段落AIまたはAJのいずれかに記載の非一時的なコンピューター可読媒体であって、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部を入力することは、第1のオブジェクト検出、第2のオブジェクト検出、および行程の少なくとも一部に少なくとも部分的に基づいてマルチチャネル画像を生成すること、およびマルチチャネル画像をMLモデルに入力することを含む。
【0164】
AL.段落AI~AKのいずれかに記載の非一時的なコンピューター可読媒体であって、複数の速度の速度は、画像のピクセルに関連付けられ、複数の速度は、画像の異なるピクセルに関連付けられる。
【0165】
AM.段落AI~ALのいずれか1つに記載の非一時的なコンピューター可読媒体であって、第1のオブジェクト検出または第2のオブジェクト検出のうちの少なくとも1つは、トップダウンの視点からの環境表現、オブジェクトの分類、位置、領域、占有される領域、または状態の表示、オブジェクトに関連付けられる速度、加速度、ヨー、またはヨーレート、センサーデータセグメンテーション、または環境の閉塞される部分の表現のうちの少なくとも1つを含む。
【0166】
AN.段落AI~AMのいずれか1つに記載の非一時的なコンピューター可読媒体であって、複数の速度は、MLモデルによって出力される速度のセットのサブセットであり、速度のセットは、それぞれ共分散に関連付けられ、方法は、複数の速度が閾値共分散を満たすかまたは上回る共分散に関連付けられていると判定することに少なくとも部分的に基づいて、複数の速度を出力することを判定することをさらに含む。
【0167】
AO.段落W~ANのいずれか1つに記載の方法であって、連立方程式を解くことは、連立方程式に少なくとも部分的に基づいて線形回帰を判定することを含む。
【0168】
AP.段落Uに記載の方法であって、第1のオブジェクト検出および第2のオブジェクト検出は、オブジェクトに関連付けられる初期推定を含み、データ構造は、オブジェクトに関連付けられる1つまたは複数の改良された推定を含む。
【0169】
AQ.段落U~APのいずれか1つに記載の方法であって、第1のオブジェクト検出は、第1の知覚パイプラインの出力であり、第2のオブジェクト検出は、第2の知覚パイプラインの出力であり、第3の出力は、第1の出力および第2の出力に関連付けられる環境の一部が占有されていないことを示して、第3の出力は、第1の出力および第2の出力に加えて、MLモデルへの入力として提供される。
【0170】
AR.段落U~AQのいずれか1つに記載の方法であって、第1のオブジェクト検出または第2のオブジェクト検出のうちの少なくとも1つは、トップダウンの視点からの環境の表現、歩行者または動物が立っている、歩行している、または走っている、ブレーキまたは他のインジケーターライトの状態または位置のうちの少なくとも1つの表示、オブジェクトがバイク運転者であることの表示、環境の一部が占有されていることの表示、環境の閉塞される部分の表現、オブジェクトに関連付けられる関心領域、オブジェクトに関連付けられる分類、センサーデータセグメンテーション、センサーデータの三次元離散化された表現、オブジェクトに関連付けられるヨーレート、地上高の推定、オブジェクトに関連付けられる囲のセット、オブジェクトに関連付けられる速度、またはオブジェクトに関連付けられる加速度のうちの少なくとも1つを含む。
【0171】
AS.段落U~ARのいずれか1つに記載の方法であって、第1のオブジェクト検出が生成された時間の以前の時間に関連付けられる第1の以前の環境表現を受信することであって、第1の以前の環境表現は、第1の知覚パイプラインに関連付けられること、第2のオブジェクト検出が生成された時間の以前の時間に関連付けられる第2の以前の環境表現を受信することであって、第1の以前の環境表現は、第1の知覚パイプラインに関連付けられること、第1の出力、第2の出力、および行程に加えて、第1の以前の環境表現および第2の以前の環境表現をMLモデルに入力することをさらに備える。
【0172】
AT.自律車両は、段落G~OまたはAB~AHのいずれか1つに記載のシステムを備える。
【0173】
AU.システムは、1つまたは複数のプロセッサ、および1つまたは複数のプロセッサによって実行される場合に、システムに、段落A~F、U~AA、またはAO~ASのいずれか1つに記載の方法を含む動作を実行させるプロセッサ実行可能命令を格納するメモリを含む。
【0174】
(結論)
発明の主題は、構造的な特徴および/または方法的な行為に特有の言語で説明されてきたが、添付の特許請求の範囲の中で画定される発明の主題は、必ずしも説明される特定の特徴、または動作に限定されるものではないことを理解されたい。むしろ、特定の特徴、および行為は、特許請求の範囲を実装する例示的形態として開示される。
【0175】
本明細書で説明されるコンポーネントは、任意のタイプのコンピューター可読媒体に格納されてよく、ソフトウェアおよび/またはハードウェアにおいて実装されてよい命令を表現する。上記の方法、およびプロセスのすべては、1つまたは複数のコンピューターまたはプロセッサ、ハードウェア、またはそれらのいくつかの組み合わせによって実行されるソフトウェアコードコンポーネントおよび/またはコンピューター実行可能命令を介して具現化されてよく、完全に自動化されてよい。あるいは、方法のうちの一部またはすべては、専門のコンピューターハードウェアで具現化されてよい。
【0176】
本明細書で説明されるプロセスのうちの少なくとも一部は、論理フローグラフとして示され、それぞれの動作は、ハードウェア、ソフトウェア、またはそれらの組み合わせにおいて実装されることが可能である動作のシーケンスを表現する。ソフトウェアのコンテキストにおいて、動作は、1つまたは複数のプロセッサによって実行される場合に、列挙される動作をコンピューターまたは自律車両に実行させる1つまたは複数の非一時的なコンピューター可読記憶媒体に格納されるコンピューター実行可能命令を表現する。一般的に、コンピューター実行可能命令は、具体的な機能を実行するか、または具体的な抽象データ型を実装するルーティン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が説明される順序は、限定として解釈されることが意図されるわけではなく、任意の数の説明される動作が、プロセスを実装する任意の順序で、および/または並行して組み合わされることが可能である。
【0177】
そうではないと特に明記されていない限り、特に「できる」、「得る」、「することがある」、または「してよい」などの条件付きの用語は、とりわけ、他の例示が含まないある特徴、要素および/またはステップをある例示が含むことを提示するための文脈内で理解されるべきである。したがって、このような条件付きの用語は、概して、ある特徴、要素および/またはステップが、1つまたは複数の例示に任意の方法で要求されるか、またはその1つまたは複数の例示が、ユーザーのインプット、またはプロンプトを用いて、または用いずに、ある特徴、要素および/またはステップが任意の具体的な例示に含まれるか、または実行されるべきであるかを判断するための論理を必ずしも含むことを暗示することは意図されていない。
【0178】
「X、Y、またはZのうちの少なくとも1つ」という句などの接続詞は、そうではないと特に明記されていない限り、項目、用語などがX、Y、またはZのいずれか、またはそれぞれの要素の倍数を含むそれらの任意の組み合わせであり得ると理解されるべきである。単数として明示的に説明されていない限り、「ある」は、単数、および複数を意味する。
【0179】
本明細書で説明され、および/または添付の図に描写されるフロー図における任意のルーティンの説明、要素またはブロックは、ルーティンにおける特定の論理機能または要素を実装するための1つまたは複数のコンピューター実行可能命令を含むコードのモジュール、セグメント、または一部を潜在的に表現するように理解されるべきである。代替的な実装は、本明細書で説明される例示の範囲内に含まれ、その中で、要素または機能は、当業者によって理解されることとなるように、関係する機能に応じて、実質的に同時に、または逆の順序を含む、図示されたものまたは説明されたものと順不同で、削除され、実行されることができる。用語は、実質的に、範囲を示し得ることに留意されたい。例えば、実質的に同時に、2つのアクティビティが互いの時間範囲内で生じることを示してよく、実質的に同一の寸法は、2つの要素が互いの範囲内の寸法などを有することを示してよい。
【0180】
上記の例示に対して多くの変形例、および修正例が作製されることができ、それらの要素は、他の容認可能な例示の中にあるものとして理解されるべきである。このような変更例、および変形例のすべてが本開示の範囲内で本明細書に含まれ、以下の特許請求の範囲によって保護されることが意図されるべきである。
【国際調査報告】