特許7662628 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ズークス　インコーポレイテッドの特許一覧

特許7662628オブジェクトの検出及び追跡

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-07

(45)【発行日】2025-04-15

(54)【発明の名称】オブジェクトの検出及び追跡

(51)【国際特許分類】

G06T 7/215 20170101AFI20250408BHJP

G06V 10/62 20220101ALI20250408BHJP

B60W 30/095 20120101ALI20250408BHJP

G08G 1/16 20060101ALI20250408BHJP

【ＦＩ】

G06T7/215

G06V10/62

B60W30/095

G08G1/16 C

【請求項の数】 12

(21)【出願番号】P 2022524078

(86)(22)【出願日】2020-10-23

(65)【公表番号】

(43)【公表日】2022-12-28

(86)【国際出願番号】 US2020057233

(87)【国際公開番号】W WO2021081459

(87)【国際公開日】2021-04-29

【審査請求日】2023-08-22

(31)【優先権主張番号】62/926,423

(32)【優先日】2019-10-26

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/779,576

(32)【優先日】2020-01-31

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】518156417

【氏名又は名称】ズークスインコーポレイテッド

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】サブハシスダス

(72)【発明者】

【氏名】ジェームズウィリアムベイジーフィルビン

(72)【発明者】

【氏名】ベンジャミンイサークツヴィーベル

(72)【発明者】

【氏名】カイユー

【審査官】長谷川素直

(56)【参考文献】

【文献】特開２０１９－１０９６９１（ＪＰ，Ａ）

【文献】特開２０１６－０２４５３４（ＪＰ，Ａ）

【文献】国際公開第２０１７／０５７０６１（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１８／０２９３４４５（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｖ１０／６２

Ｂ６０Ｗ３０／０９５

Ｇ０８Ｇ１／１６

Ｈ０４Ｎ７／１８

(57)【特許請求の範囲】

【請求項1】

システムであって、
１つ又は複数のプロセッサと、
前記１つ又は複数のプロセッサによって実行されると、前記システムに
第１の知覚パイプラインからの第１のオブジェクト検出を含む第１の出力と、第２の知覚パイプラインからの第２のオブジェクト検出を含む第２の出力を受信することと、
環境内のオブジェクトに関連付けられた以前の追跡を受信することであって、前記以前の追跡は前記オブジェクトの以前の位置、以前の速度、以前の加速度及び／又は以前の方位の少なくとも１つを含むことと、
前記第１の出力、前記第２の出力、及び前記以前の追跡の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、
前記ＭＬモデルから、関心領域、オブジェクト分類、及び前記オブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、前記姿勢は、前記オブジェクトに関連付けられた位置又はヨーの少なくとも１つを示すことと、
前記データ構造に少なくとも部分的に基づいて前記オブジェクトに関連付けられた更新された追跡を決定することであって、前記更新された追跡は、前記オブジェクトの現在の位置、及び、前記関心領域又は前記オブジェクトに関連付けられた前記ヨーの１つ又は複数、の少なくとも一部を含むことと、
を含む動作を実行させるプロセッサ実行可能な命令を格納したメモリと、
を備えるシステム。

【請求項2】

前記動作が、前記更新された追跡に少なくとも部分的に基づいて車両を制御することをさらに備える、請求項１に記載のシステム。

【請求項3】

前記データ構造が、前記オブジェクトが静的又は動的であるという指示、前記環境のトップダウンセグメンテーション、ヨーレート、前記オブジェクトに関連付けられた速度、又は前記オブジェクトに関連付けられた加速度の少なくとも１つをさらに備える、請求項１又は２に記載のシステム。

【請求項4】

第３の知覚パイプラインから受信された第３の出力が、前記第１の出力及び前記第２の出力に関連付けられた前記環境の部分が非占有であることを示し、
前記第３の出力が、前記第１の出力及び前記第２の出力に加え、ＭＬモデルへの入力として提供される、請求項１から３のいずれか一項に記載のシステム。

【請求項5】

前記更新された追跡を決定することが、
以前の関心領域に対する前記関心領域のアライメントの程度を決定することと、
前記アライメントの程度が前記アライメントの程度の閾値を満たす又は超えることを決定することと、
を備える、請求項１から４のいずれか一項に記載のシステム。

【請求項6】

前記第１の出力又は前記第２の出力の少なくとも１つが、
トップダウン視点からの前記環境の表現、
前記環境の部分が占有されているという指示、
占有された前記環境の部分の表現、
前記オブジェクトに関連付けられた以前の関心領域、
前記オブジェクトに関連付けられた分類、
センサーデータセグメンテーション、
センサーデータの３次元離散化表現、
前記オブジェクトに関連付けられた以前のヨー、
前記オブジェクトに関連付けられた以前のヨーレート、
前記オブジェクトに関連付けられた範囲のセット、
前記オブジェクトに関連付けられた前記以前の速度、又は、
前記オブジェクトに関連付けられた前記以前の加速度、
の少なくとも１つを備える、請求項１から５のいずれか一項に記載のシステム。

【請求項7】

前記動作が、
前記第１の出力が生成された時間より以前の時間と関連付けられた第１の事前の環境表現を受信することであって、前記第１の事前の環境表現は、前記第１の知覚パイプラインに関連付けられることと、
前記第２の出力が生成された時間より以前の時間と関連付けられた第２の事前の環境表現を受信することであって、前記第２の事前の環境表現は、前記第２の知覚パイプラインに関連付けられることと、
前記第１の出力、前記第２の出力、前記以前の追跡の少なくとも一部に加え、前記第１の事前の環境表現、及び前記第２の事前の環境表現をＭＬモデルに入力することと、
をさらに備える、請求項１から６のいずれか一項に記載のシステム。

【請求項8】

前記第１の出力、前記第２の出力、及び前記以前の追跡の少なくとも一部を入力することが、前記第１の出力、前記第２の出力、及び前記以前の追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を入力することをさらに備える、請求項１から７のいずれか一項に記載のシステム。

【請求項9】

プロセッサ実行可能な命令を格納した非一時的コンピュータ可読媒体であって、１つ又は複数のプロセッサによって実行されると、
第１の知覚パイプラインからの第１のオブジェクト検出を含む第１の出力、及び第２の知覚パイプラインからの第２のオブジェクト検出を含む第２の出力を受信することと、
環境内のオブジェクトに関連付けられた以前の追跡を受信することであって、前記以前の追跡は、前記オブジェクトの以前の位置、以前の速度、以前の加速度及び／又は以前の方位の少なくとも１つを含むことと、
前記第１の出力、前記第２の出力、及び前記以前の追跡の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、
前記ＭＬモデルから、関心領域、オブジェクト分類、及び前記オブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、前記姿勢は、前記オブジェクトに関連付けられた位置又はヨーの少なくとも１つを示すことと、
前記データ構造に少なくとも部分的に基づいて、前記オブジェクトに関連付けられた更新された追跡を決定することであって、前記更新された追跡は、前記オブジェクトの現在の位置、及び前記関心領域又は前記オブジェクトに関連付けられた前記ヨーの１つ又は複数、の少なくとも一部を含むことと、
を備える動作を前記少なくとも１つ又は複数のプロセッサに実行させる、非一時的コンピュータ可読媒体。

【請求項10】

前記データ構造が、前記オブジェクトが静的又は動的であるという指示、前記環境のトップダウンセグメンテーション、ヨーレート、前記オブジェクトに関連付けられた速度、又は前記オブジェクトに関連付けられた加速度の少なくとも１つをさらに備える、請求項９に記載の非一時的コンピュータ可読媒体。

【請求項11】

前記第１の出力又は前記第２の出力の少なくとも１つが、
トップダウン視点からの前記環境の表現、
前記環境の部分が占有されているという指示、
占有された前記環境の部分の表現、
前記オブジェクトに関連付けられた以前の関心領域、
前記オブジェクトに関連付けられた分類、
センサーデータセグメンテーション、
センサーデータの３次元離散化表現、
前記オブジェクトに関連付けられた以前のヨー、
前記オブジェクトに関連付けられた以前のヨーレート、
前記オブジェクトに関連付けられた範囲のセット、
前記オブジェクトに関連付けられた前記以前の速度、又は、
前記オブジェクトに関連付けられた前記以前の加速度、
の少なくとも１つを備える、請求項９又は１０に記載の非一時的コンピュータ可読媒体。

【請求項12】

前記第１の出力、前記第２の出力、及び前記以前の追跡の少なくとも一部を入力することが、前記第１の出力、前記第２の出力、及び前記以前の追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を入力することをさらに備える、請求項９から１１のいずれか一項に記載の非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、オブジェクトの検出及び追跡に関する。

【背景技術】

【0002】

本出願は、２０１９年１０月２６日に出願された米国仮出願特許第６２／９２６４２３号及び２０２０年１月３１日に出願された米国非仮出願特許第１６／７７９５７６号の利益を主張し、その全体は本明細書に組み込まれる。

【0003】

自律車両は、自律車両が横断する環境に関するデータを取り込むために、センサーを使用し得る。自律車両は、このセンサーデータを使用して、衝突を回避するために環境内のオブジェクトを検出する。しかしながら、自律車両は２つ以上の異なるタイプのセンサーを含んでよく、それに応じてセンサーデータは、その形式と内容が大きく異なることがあるため、２つの異なるセンサータイプによって生成された検出は、異なる場合がある。２つの異なるセンサータイプに関連して決定された検出間の小さな不一致は、車両によって作成されたオブジェクト表現にジッター（すなわち、「飛び回る」）及び／又はフリッカー（すなわち、出現及び消失）を引き起こし得る。また、深度カメラなどのいくつかのセンサータイプは、深度測定の誤差が大きくなりやすく、オブジェクトの追跡がさらに複雑になり得る。これは、車両の安全なナビゲートや機械学習（ＭＬ）モデルの訓練を阻害し得る。さらに、不一致を低減するための技術、及び／又はオブジェクト表現又はそれに関連するデータをスムージングするための技術は、コンピューティング帯域及び／又はメモリを消費し得る。

【図面の簡単な説明】

【0004】

詳細な説明は、添付の図面を参照して述べられる。図中で、符号の左端の数字は、その符号が最初に現れる図面を示している。異なる図で同じ符号を使用することは、類似又は同一のコンポーネント又は機能を示す。

【0005】

【図1】知覚及び追跡コンポーネントを用いて構成された自律車両が、自律車両を取り巻く環境においてオブジェクトの以前及び現在の位置、速度、及び／又は方位を追跡し、追跡に基づいて自律車両を制御するための軌道を少なくとも部分的に生成し得る例示的シナリオを示す図である。

【図2】、知覚コンポーネント及び追跡コンポーネントを含む例示的なシステムのブロック図である。

【図3】本明細書で論じられる改善されたオブジェクト追跡技術を達成するためのコンポーネントを含む知覚アーキテクチャの少なくとも一部を示すブロック図である。

【図4】センサーデータに少なくとも部分的に基づいて生成され得る知覚パイプラインオブジェクト環境表現／オブジェクト検出に基づいて推定オブジェクト検出を決定するための例示的プロセスの絵画入りフロー図である。

【図5】本明細書で議論される、ＭＬモデルによって決定される推定オブジェクト検出に少なくとも部分的に基づいて環境内のオブジェクトを追跡するための例示的なプロセスの絵画入りフロー図である。

【図6】推定オブジェクト検出を生成するためのＭＬモデルの例示的なアーキテクチャのブロック図である。

【発明を実施するための形態】

【0006】

センサーデータを使用してオブジェクトの現在及び／又は以前の位置、速度、加速度、又は方位を追跡するための技術は、最近受信した（例えば、現在の）センサーデータから生成された現在のオブジェクト検出を、以前に受信したセンサーデータから生成された以前のオブジェクト検出に関連付けるかどうかを決定することを含み得る。換言すれば、追跡は、以前のセンサーデータにおいて検出されたオブジェクトが、現在のセンサーデータにおいて検出された同じオブジェクトであることを識別し得る。いくつかの例では、追跡は、追加的又は代替的に、自律車両の計画コンポーネントがオブジェクトの運動／挙動を予測し、自律車両を制御するための軌道及び／又は経路を決定するために有用なオブジェクトに関する様々な現在及び／又は以前のデータを含み得る。例えば、追跡は、追加的又は代替的に、オブジェクトによって現在及び／又は以前に占有された環境の領域の表示、オブジェクトに関連付けられたオブジェクト分類（例えば、車両、大型車両、歩行者、自転車）、オブジェクトに関連付けられた現在／又は以前の方向、オブジェクトの現在及び／又は以前の速度及び／又は加速度、並びにオブジェクトの現在の位置及び／又は速度を含み得るが、その他の任意のパラメータも企図されている。

【0007】

いくつかの例では、センサータイプの１つ又は複数のセンサーは、そのセンサータイプに関連付けられたパイプライン（例えば、一連の動作；ステップ；ネットワーク又はその層；機械学習モデル；アナログ／デジタル変換器、増幅器、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ（ｓ）、及び／又は同様のもの）等のハードウェア）に関連付けられ、関連付けられたセンサーデータに含まれるオブジェクトに関する情報を決定するために使用され得る。センサーデータは、そのタイプの１つ又は複数のセンサーから受信されてもよく、パイプライン（本明細書では、知覚パイプラインと呼ばれることがある）は、センサーデータに少なくとも部分的に基づいて、環境の表現を生成し得る。簡単のために、パイプラインの集合的な出力は、本明細書では、環境表現と呼ばれる。環境表現は、１つ又は複数のオブジェクト検出を含んでよく、１つ又は複数の出力タイプを含んでもよい。例えば、映像パイプライン３０２は、映像データ３１０（例えば、１つ又は複数のＲＧＢ画像、熱画像を含むセンサーデータ）に少なくとも部分的に基づいて、環境表現３０８を出力してもよい。

【0008】

環境表現は、環境の一部がオブジェクトによって占有されているという表示及び／又は裕度、検出されたオブジェクトに関連付けられた関心領域（ＲＯＩ）（例えば、境界ボックス、マスク、セグメンテーション、又は環境の領域がオブジェクトによって占有されているという他の何らかの識別）、オブジェクトのオブジェクト分類、オブジェクトの方向、オブジェクトの速度及び／又は加速度、オブジェクトの高さ、及び／又は同様のものを含み得るオブジェクト検出を含み得る。環境表現は、追加的又は代替的に、その全体が本明細書に組み込まれる米国特許出願第１５／９６３８３３号においてより詳細に議論されるように、センサーデータのボクセル化表現（そのようなデータの離散化３次元表現）及び／又はトップダウンセグメンテーション、ならびに環境のトップダウン表現を含み得る。米国特許出願第１５／９６３８３３号は、本明細書で議論される回帰を追加的又は代替的に含むように修正されてもよく、これらの追加的又は代替的な回帰に関連する損失を逆伝播することにより修正されてもよいことに留意されたい。いくつかの例では、本明細書で議論される関心領域は、３次元ＲＯＩ及び／又は２次元ＲＯＩ（例えば、ＲＯＩのトップダウン／鳥瞰図）であり得る。いくつかの例では、追加の環境表現は、異なるセンサータイプに関連する知覚パイプラインによって生成され得る。

【0009】

いくつかの例では、多様なオブジェクト検出が、環境内の同じオブジェクトに関連して生成され得る。これらの多様なオブジェクト検出は、異なるセンサータイプに関連付けられ得る、異なる知覚パイプラインによって生成される場合がある。例えば、ライダー知覚パイプラインは、ライダーデータを受信し、オブジェクトに関連付けられたオブジェクト検出を決定してもよく、ハイブリッドライダー映像知覚パイプラインは、ライダー及び映像データを受信し、同じオブジェクトに関連付けられた異なるオブジェクト検出を生成してもよく、映像知覚パイプラインは、カメラからの画像を受信し、同じオブジェクトに関連付けられた追加のオブジェクト検出を生成などしてもよい。センサーと知覚パイプラインの違いにより、異なるパイプラインによって生成された同じオブジェクトに関連するオブジェクト検出は、互いに異なり得る。例えば、第１のオブジェクト検出は、同じオブジェクトに関連付けられた第２のオブジェクト検出によって示されるＲＯＩとは異なる寸法を有するオブジェクトに関連付けられたＲＯＩを示し得る。さらに、あるパイプラインがオブジェクトに関連するオブジェクト検出を生成し、別のパイプラインが検出を全く生成しない場合もある。例えば、レーダーやライダーのパイプラインがオブジェクトを検出しても、そのオブジェクトはカメラの視野から外れている場合がある。

【0010】

いくつかの例では、本明細書で議論される技術は、異なるセンサータイプに関連付けられた環境表現の少なくとも一部を集約することと、推定オブジェクト検出を出力するように訓練されたＭＬモデルへの入力として集約されたデータを提供することと、を含み得る。いくつかの例では、集約されたデータは、多チャネル画像で表現されてもよく、異なるチャネルは、知覚データが生成された異なるセンサータイプ及び／又は知覚データの異なるタイプに関連付けられ得る。例えば、集約されたデータは、ライダー、映像、及び／又はレーダー占有グリッド｛例えば、それぞれのセンサーデータタイプに関連付けられた知覚パイプラインに従って環境内の対応する位置が占有されているか否かを示すピクセルなどの離散部分を有するグリッド｝、ライダー、映像、及び／又はレーダーと関連して生成されたＲＯＩのトップダウン表示、環境の一部と関連付けられたオブジェクト分類、環境の一部が占有されている確率、検出されたオブジェクトのヨー、及び／又は同類のものを含み得る。占有マップに関する米国特許出願第１６／５９１５１８号を参照し、その全体が参照により本明細書に組み込まれる。いくつかの例では、占有グリッドは、自律車両の高さにバッファを加えたものに対応し得る最大高さまで延びてもよい。換言すれば、占有グリッドは、最大高さより下の環境の一部の占有を示し得る。例えば、道路上に設置された信号機や看板は、最大高さを超えている可能性があるため、占有グリッドは環境の一部を占有していることを示さない。

【0011】

いくつかの例では、集約されたデータは、追加的又は代替的に、リモートコンピューティングデバイスからのデータ、及び／又は、例えば、マップデータ（例えば、道路データ、走行可能な路面位置、目的地）、気象データ、交通通知（例えば、渋滞、衝突、車線変更、工事、速度変更）、安全通知（例えば、環境的に危険な位置、災害位置、路面状態、視界状態）等の非認識ベースのデータ、及び／又は、同様のものを含み得る。いくつかの例では、遠隔コンピューティングデバイスは、別の自律車両、第三者サービス、分散コンピューティングデバイス、リモートセンサー、及び／又は同様のものであり得る。

【0012】

いくつかの例では、異なるパイプラインから集約されたデータは、さらに、１つ又は複数の以前の時間に対する環境表現の少なくとも一部を含み得る。例えば、異なるセンサータイプに関連する知覚パイプラインは、同じ頻度（例えば、１００ミリ秒ごと、５００ミリ秒ごと、１秒ごと）で環境表現を生成するように同期化され得る。知覚パイプラインが、５００ミリ秒ごとに実質的に同じ時間に環境表現を出力するように同期される例では、集約されたデータは、０ミリ秒（すなわち、環境表現の最近受信したセットに対応する集約されたデータのセット）、－５００ミリ秒、１秒、など、上述したデータを含んでもよい。少なくとも一例では、集約されたデータは、任意の適切な時間ステップが使用され得るが、時間ステップ０ミリ秒、－１００ミリ秒、－２００ミリ秒、－３００ミリ秒、及び／又は４００ミリ秒、及び／又は１秒、－２秒、及び／又は３秒の集約データを含む多チャネル画像を含み得る。例えば、集約されたデータは、現在及び最後のｎ個の時間ステップについて異なるパイプラインから受信されたオブジェクト検出を含んでもよく、ここでｎは正の整数（例えば、１、２、３、４、５、１０、及び／又は同様のもの）である。

【0013】

いくつかの例では、１つ又は複数の以前に生成された追跡が、集約されたデータに加えて（例えば、集約されたデータのチャネルとして）ＭＬモデルへの入力として提供され得る。例えば、追跡は、すべての時間ステップに関連して、又は間隔（例えば１１つおきの時間ステップ）で生成され得る。以前に生成された追跡は、多チャネル画像内のチャネルとして含まれてもよい。いくつかの例では、追跡は、オブジェクトに関連付けられたＲＯＩの中心、範囲、及び／又はヨー、並びにオブジェクトに関連して生成された他の以前の関心領域とＲＯＩを関連付けた識別子を含み得る。

【0014】

いくつかの例では、ＭＬモデルは、１つ又は複数の推定オブジェクト検出を含み得る最終的な環境表現を出力するように訓練されてもよい。上述したように、オブジェクトに関連するオブジェクト検出は、異なるパイプライン間で次元、位置、又は存在さえも異なり得る。最終的な環境表現は、異なるパイプラインから受信した（例えば、集約されたデータの一部としてＭＬモデルへの入力として受信した）オブジェクト検出に少なくとも部分的に基づいて決定される、オブジェクトごとの単一の推定オブジェクト検出を含み得る。例えば、ＭＬモデルによって生成された推定オブジェクト検出は、占有されているとして環境の一部を識別するＲＯＩ（例えば、オブジェクトに関連する領域）、将来の時間に関連する予測ＲＯＩ、ＲＯＩに関連する速度、ＲＯＩに関連するオブジェクト分類（例えば、車両、歩行者、大型車両、自転車）、ＲＯＩの速度の分類（例えば、静的、又は動的）ＲＯＩに関連する方位（例えば、ヨー）、及び／又は方位のビン（例えば、０度及び１８０度を中心とする２つのビン；０度、９０度、１８０度及び２７０度を中心とする４つのビン；この出力は、ビン中心からの距離をさらに含み得る）、及び／又はＲＯＩに関連する高さ（例えば、検出されたオブジェクトの高さ）を含み得る。いくつかの例では、任意の関心領域は、非最大抑制技術に従うなど、信頼層の出力に少なくとも部分的に基づいて生成され得る。例えば、その全体が本明細書に組み込まれる米国特許出願第１６／０１３７６４号及び米国特許出願第１６／０１３７２９号を参照されたい。

【0015】

いくつかの例では、ＭＬモデルの出力は、各ピクセルが上記の情報を格納する画像を含み得る。例えば、最終的な環境表現は、画像のような環境のトップダウン表現を含み得る。画像は、上述したデータを示してもよい。画像のピクセルは、環境の一部が占有されていること、その部分を占有するオブジェクトのオブジェクト分類、そのオブジェクトの速度などを示してもよい。オブジェクト検出は、占有されていること及び／又は上述したデータ（例えば、オブジェクト分類、オブジェクト速度、オブジェクト方位）と関連付けられていることが示されているピクセルの領域（又は最終環境の他の離散部分）として最終環境で示されてもよい。

【0016】

いくつかの例では、本技術は、以前に生成された追跡を最終的な環境表現の推定オブジェクト検出のうちの１つに関連付けるかどうか、及び／又は新しい追跡を生成するかどうかを決定することをさらに含み得る。いくつかの例では、本技術は、以前の追跡を受信することと、以前の追跡に関連付けられたＲＯＩを、以前の追跡に関連付けられた以前の時間フレームから現在及び／又は将来の時間フレームに投影することと、を含み得る。例えば、これは、ＲＯＩの位置及び／又は方位の表現を変更することを含み得る。追加的又は代替的な例では、予測されたＲＯＩは、以前の時間ステップでＭＬモデルによって出力された予測されたＲＯＩを含み得る。本技術は、ＭＬモデルによって生成された推定オブジェクト検出のいずれかと投影されたＲＯＩの関連性を決定することを含み得る。例えば、関連性の程度は、重複の程度（例えば、ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ））、Ｍｕｎｋｒｅｓ割当てスコア、サイズ比較、特徴比較（例えば、投影されたＲＯＩは推定オブジェクト検出と同じオブジェクト分類と関連するか、投影されたＲＯＩに関連付けられた速度と、推定オブジェクト検出に関連して予測された速度との間に大きな格差があるか）を決定することを含み得る。）及び／又は同様のものを決定することを含み得る。いくつかの例では、関連性の程度を決定することは、機械学習的及び／又は決定論的であり得るスコアリング関数に符号化されてもよい。例えば、ＩＯＵは、決定論的に決定され、推定オブジェクト検出ＲＯＩに対する投影されたＲＯＩの位置及びサイズの表現と共に、関連性の程度に対するスコアを決定するＭＬモデルへの入力として使用されてもよい。

【0017】

関連性が閾値を満たすか又は超える場合、本技術は、以前の追跡と推定オブジェクト検出とを関連付けることを含み得る。しかしながら、関連性が閾値を満たさない場合、本技術は、推定オブジェクト検出を他の任意の投影されたＲＯＩ（例えば、推定オブジェクト検出と重なるか、又は閾値距離内にある他のＲＯＩ）でテストすること、及び／又は推定オブジェクト検出と一致する投影されたＲＯＩがない場合、新しい追跡を関連させて生成することを含み得る。追加的又は代替的な例では、推定オブジェクト検出が以前のオブジェクト検出／追跡に対応するときを決定するために追加的又は代替的なデータが使用され得るが、以前の追跡が推定オブジェクト検出と関連付けられる、又は新しい追跡がＩＯＵだけに基づいてより簡単に生成されてもよい。

【0018】

本明細書で議論される技術は、車両の周囲にあるオブジェクトの運動及び／又は挙動を予測する車両の能力を向上、及び／又は一時的に遮蔽されている可能性があるオブジェクトを考慮し続けることによって、車両の安全性を向上させ得る。また、本技術は、知覚システムの動作範囲を増加させ得る（例えば、車両から４０メートル、６０メートル、又は８０メートルに増加される）。少なくともいくつかの例において、本技術は、特に、異なるセンサー様式が異なるサイズの関心領域を生成する場合、センサー様式に関連する深度推定値が変化する場合、オブジェクトがオーバーセグメンテーション及び／又はアンダーセグメンテーションされる場合、オブジェクトに関連する追跡を決定するための計算帯域をさらに減少させ得る。オブジェクトを追跡するために多様なセンサー様式を使用する他の技術は、各センサー様式からのオブジェクト検出を以前の追跡と比較することを必要とし得るが、インスタント技術は、ＭＬモデルによって決定される推定オブジェクト検出を以前の追跡と比較することを含む。本技術は、オブジェクト検出（例えば、オブジェクト位置、セグメンテーション）及び／又は追跡の精度を向上させ得る。基礎となるオブジェクト検出がより安定しているため、本明細書で議論される技術を使用して生成された追跡は、ジッターが少ない。

【0019】

（例示的なシナリオ）
図１は、車両１０２を含む例示的なシナリオ１００を示している。いくつかの例では、車両１０２は、運転者（又は乗員）がいつでも車両を制御することが期待されない状態で、全移動についてすべての安全－重要な機能を実行することができる車両を記述する米国道路交通安全局が発行したレベル５の分類に従って動作するように構成された自律車両であり得る。しかしながら、他の例では、車両１０２は、任意の他のレベル又は分類を有する完全又は部分的な自律車両であってもよい。本明細書で議論される技術は、自律車両のためのような、よりロボッティックなものに適用され得ることが企図される。例えば、本明細書で議論される技術は、採掘、製造、拡張現実などに適用されてもよい。さらに、車両１０２が陸上車両として描かれているにもかかわらず、車両１０２は宇宙船、水上機、及び／又は同様のものであってもよい。いくつかの例では、車両１０２は、模擬車両としてシミュレーションで表現され得る。簡略化のため、本明細書における議論は、模擬車両と実世界の車両とを区別していない。したがって、「車両」への言及は、シミュレーションされた車両及び／又は実世界の車両を参照し得る。

【0020】

本明細書で議論される技術によれば、車両１０２は、車両１０２のセンサー１０４からセンサーデータを受信し得る。例えば、センサー１０４は、位置センサー（例えば、グローバルポジショニングシステム（ＧＰＳ）センサー）、慣性センサー（例えば、加速度センサー、ジャイロセンサー等）、磁気センサー（例えば、コンパス）、位置／速度／加速度センサー（例えば、速度計、駆動系センサー）、深度位置センサー（例えば、ライダーセンサー、レーダーセンサー、ソナーセンサー、ＴｉｍｅｏｆＦｌｉｇｈｔ（ＴｏＦ）カメラ、深度カメラ、超音波及び／又はソナーセンサー、及び／又は他の深度感知センサー）、画像センサー（例えば、カメラ）、音声センサー（例えば、マイク）、及び／又は環境センサー（例えば、気圧計、湿度計など）を含み得る。

【0021】

センサー１０４は、センサーデータを生成し得、それは、車両１０２に関連するコンピューティングデバイス１０６によって受信され得る。しかしながら、他の例では、センサー１０４及び／又はコンピューティングデバイス１０６の一部又は全部は、車両１０２とは別であってよく、及び／又は車両１０２から遠隔地に配置されてよく、データの取り込み、処理、コマンド、及び／又は制御は、有線及び／又は無線ネットワークを介して、１つ又は複数のリモートコンピューティングデバイスにより車両１０２に／から伝達されてもよい。

【0022】

コンピューティングデバイス１０６は、知覚コンポーネント１１０、計画コンポーネント１１２、追跡コンポーネント１１４、及び／又はシステムコントローラ１１６を格納するメモリ１０８を含み得る。図１では例示の目的で描かれているが、追跡コンポーネント１１４は、他のコンポーネントのいずれか１つ又は複数とは別のコンピューティングデバイス（又はそれ以外）に存在してもよいことが理解されるべきである。通常、知覚コンポーネント１１０は、車両１０２を取り巻く環境に何があるかを決定し得、計画コンポーネント１１２は、知覚コンポーネント１１０から受信した情報に従って車両１０２をどのように動作させるかを決定し得る。例えば、計画コンポーネント１１２は、知覚データ及び／又は例えば１つ又は複数のマップ、定位情報（例えば、知覚コンポーネント１１０によって検出されたマップ及び／又は特徴に対する車両１０２の環境内の位置）等の他の情報に少なくとも部分的に基づいて軌道１１８を決定し得る。軌道１１８は、コントローラ１１６が、車両１０２の駆動コンポーネントを動作させてステアリング角及び／又はステアリングレートを実現するための命令を含んでよく、これにより、車両位置、車両速度、及び／又は車両加速度がもたらされ得る。例えば、軌道１１８は、コントローラ１１６が追跡するための目標方位、目標ステアリング角、目標ステアリングレート、目標位置、目標速度、及び／又は目標加速度を含み得る。知覚コンポーネント１１０、計画コンポーネント１１２、及び／又は追跡コンポーネント１１４は、１つ又は複数の機械学習（ＭＬ）モデル及び／又は他のコンピュータ実行可能命令を含み得る。

【0023】

いくつかの例では、コントローラ１１６は、軌道１１８を追跡するのに十分な車両１０２の駆動コンポーネントを作動させるためのソフトウェア及び／又はハードウェアを含み得る。例えば、コントローラ１１６は、１つ又は複数のＰｒｏｐｏｒｔｉｏｎａｌ－Ｉｎｔｅｇｒａｌ－Ｄｅｒｉｖａｔｉｖｅ（ＰＩＤ）コントローラを含み得る。

【0024】

いくつかの例では、知覚コンポーネント１１０は、センサー１０４からセンサーデータを受信し、車両１０２の近傍にあるオブジェクトに関連するデータ（例えば、検出されたオブジェクトに関連するオブジェクト分類、インスタンスセグメンテーション、セマンティックセグメンテーション、２次元及び／又は３次元の境界ボックス、追跡）、車両の目的地を指定するルートデータ、道路の特徴を特定するグローバルマップデータ（例えば、自律車両の定位に有用な異なるセンサー様式で検出可能な特徴）、車両に近接して検出された特徴を特定するローカルマップデータ（例えば、建物、木、フェンス、消火栓、停止標識、及び様々なセンサー様式で検出可能な他の任意の特徴の位置及び／又は寸法）、追跡データ（例えば、本明細書で議論する環境表現、オブジェクト検出及び／又は追跡）などを決定し得る。

【0025】

いくつかの例では、知覚コンポーネント１１０は、ハードウェア及び／又はソフトウェアのパイプラインを含んでよく、それは、１つ又は複数のＧＰＵ、ＭＬモデル、カルマンフィルタ、及び／又は同様のものを含んでもよい。いくつかの例では、知覚コンポーネント１１０は、センサーの能力、オブジェクト及び／又は環境のオクルージョン（例えば、建物、高低差、他のオブジェクトの前にあるオブジェクト）、及び／又は霧、雪などの環境効果によって制限され得る、自律車両の周囲の環境のできるだけ多くを監視し得る。例えば、センサーデータは、知覚コンポーネント１１０が入力として受信し得るライダー及び／又はレーダーデータを含んでもよい。知覚コンポーネント１１０は、軌道１１８を決定する際に計画コンポーネント１１２によって考慮されるべき事象又はオブジェクトの挙動を考慮しないことを避けるために、できるだけ多くのオブジェクト及び環境に関する情報を検出するように構成され得る。

【0026】

知覚コンポーネント１１０によって決定されたオブジェクト分類は、例えば、乗用車、歩行者、自転車、配送トラック、セミトラック、交通標識、及び／又は同様のものなどの異なるオブジェクトタイプを区別し得る。追跡は、過去、現在、及び／又は予測されるオブジェクトの位置、速度、加速度、及び／又は方位を含み得る。知覚コンポーネント１１０によって生成されたデータは、知覚データと称されてもよい。知覚コンポーネント１１０が知覚データを生成すると、知覚コンポーネント１１０は、知覚データを計画コンポーネント１１２に提供し得る。いくつかの例では、知覚データは、センサー特定パイプライン（例えば、映像、ライダー、レーダー）及び／又はハイブリッドセンサーパイプライン（例えば、映像－ライダー、レーダーライダー）の出力を含み得る。知覚データは、本明細書で議論されるように、追加的又は代替的に、追跡、推定オブジェクト検出、及び／又は最終的な環境表現を含み得る。

【0027】

計画コンポーネント１１２は、知覚コンポーネント１１０から受信した知覚データを使用して、１つ又は複数の軌道を決定し、経路又はルートを横断するために車両１０２の動きを制御、及び／又は車両１０２の動作を他の方法で制御し得るが、任意のそのような動作は、他の種々のコンポーネント（例えば、定位は定位コンポーネントによって行われてもよく、それは知覚データに少なくとも部分的に基づいてもよい）において行われてもよい。例えば、計画コンポーネント１１２は、第１の場所から第２の場所への車両１０２の経路を決定し；実質的に同時に、かつ知覚データ及び／又はシミュレーション知覚データ（当該データにおいて検出されたオブジェクトに関する予測をさらに含み得る）に少なくとも部分的に基づいて、ルートを横断する（例えば、検出されたオブジェクトのいずれかを回避するために）よう車両を制御するためにＲｅｃｅｄｉｎｇＨｏｒｉｚｏｎ技術に従って（例えば、１マイクロ秒、半秒）車両１０２の動作を制御するための複数の潜在的な軌道を生成し；車両１０２の駆動コンポーネントに送信され得る駆動制御信号を生成するために使用され得る車両１０２の軌道１１８として潜在的な軌道のうちの１つを選択し得る。図１は、方位、速度、及び／又は加速度を示す矢印として表される、そのような軌道１１８の一例を示すが、軌道自体は、コントローラ１１６に対する命令を含んでもよく、このコントローラは、順に、車両１０２の駆動システムを作動させ得る。

【0028】

追跡コンポーネント１１４は、それぞれの知覚パイプライン（例えば、映像パイプライン、ライダーパイプライン、ハイブリッド映像ライダーパイプライン、レーダーパイプライン、ハイブリッド映像ライダーレーダーパイプライン、及び／又は同様のもの）から１つ又は複数の環境表現及び／又はオブジェクト検出を受信し、以前に生成した追跡を現在のオブジェクト検出と関連付けるか否か、又は現在のオブジェクト検出と関連付けた新しい追跡を生成するかを決定し得る。追跡コンポーネント１１４は、追加的又は代替的に、異なるオブジェクト検出の要約として機能し得る最終的な環境表現及び／又は推定オブジェクト検出を決定し得る。いくつかの例では、本明細書で議論される追跡コンポーネント１１４は、推定オブジェクト検出を含み得る最終的な環境表現を出力するように訓練される本明細書で議論されるＭＬモデルに、１つ又は複数のセンサータイプ（例えば、ライダー、ＲＧＢカメラ、熱画像、ソナー、レーダーなどの離散センサータイプ；及び／又は映像－ライダー関連付け、ライダーレーダー関連付けなどのハイブリッドセンサータイプ）によって生成されたオブジェクト検出及び／又は環境表現に入力することにより推定オブジェクト検出を決定し得る。いくつかの例では、以前の追跡の投影に対する推定オブジェクト検出の関連性（例えば、ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）、サイズ及び／又は特徴比較に少なくとも部分的に基づくスコア）が閾値を満たすか又は超える場合、推定オブジェクト検出は、生のオブジェクト検出に基づいて決定するのではなく、以前の追跡に関連付けられ得る。ＩＯＵが閾値未満である場合、生のオブジェクト検出は、決定に含まれてもよい。

【0029】

例えば、図１は、追跡コンポーネント１１４のＭＬモデルによって決定される最終的な環境表現の一部であり得る、環境のトップダウン表現１２０を示している。トップダウン表現１２０は、この場合、推定ＲＯＩ１２２として図示されるオブジェクト検出を示している。トップダウン表現１２０及び／又は推定ＲＯＩ１２２は、１つ又は複数の知覚パイプラインから受信したオブジェクト検出に少なくとも部分的に基づいて、追跡コンポーネント１１４のＭＬモデルによって決定されてもよい。例えば、ＭＬモデルへの入力として提供されたオブジェクト検出は、画像１２４に関連付けられた３次元ＲＯＩ、そのうちの１つはＲＯＩ１２６として示され、ライダーデータ１２８（例えば、２次元及び／又は３次元であり得る）に関連付けられたトップダウンＲＯＩ、そのうちＲＯＩ１３０が示されていたものを含んでもよい。

【0030】

推定ＲＯＩ１２２は、知覚パイプラインの少なくとも１つによって識別されたオブジェクトに関連して、ＭＬモデルによって生成された推定オブジェクト検出の一部であり得る。推定ＲＯＩ１２２は、中心１３２及び範囲（黒線）を含むように描かれている。範囲は、推定オブジェクト検出に関連してＭＬモデルによって決定されたオブジェクト分類に関連付けられたアンカーボックスに少なくとも部分的に基づいて定義されてもよい。追加的又は代替的な例では、推定ＲＯＩは、別の形式の境界形状又はマスクなど、トップダウン表現の部分の任意の他の識別を含み得る。

【0031】

図１は、また、１つ又は複数のオブジェクト検出と関連して追跡コンポーネント１１４によって以前に生成された追跡１３６と関連付けられた以前のＲＯＩ１３４を示している。いくつかの例では、追跡１３６は、１つ又は複数の以前のオブジェクト検出を関連付け、及び／又は、速度、加速度、方位、オブジェクト分類、固有識別子、オクルージョン状態（例えば、オブジェクトが現在／以前に１つ又は複数のセンサーから部分的又は完全に遮蔽されているか否か）等のそれに関連するデータを示し得る。以前のＲＯＩ１３４は、それに関連するものとして本明細書で議論されるデータのいずれか（例えば、占有マップ、トップダウンセグメンテーション、オブジェクト分類、オブジェクト方位、オブジェクト速度及び／又は加速度）に関連付けられ得る。例えば、以前のＲＯＩ１３４は、オブジェクト１３８及びオブジェクト分類１４０の「車両」と関連付けられ得る。例示のために、以前のＲＯＩ１３４は、追跡１３６に関連する最近のオブジェクト検出と関連付けられてもよい。

【0032】

本明細書で議論される技術は、推定ＲＯＩ１２２に関連する時間に以前のＲＯＩ１３４を投影することを含んでよく、これは、追跡１３６及びそれに関連するデータに基づいて以前のＲＯＩ１３４に関連するオブジェクトの位置、向き、速度、加速度、及び／又は同様のものを予測することを含み得る。図１は、以前のＲＯＩ１３４のそのような投影１４２を破線で描写している。描かれた例では、推定ＲＯＩ１２２も車両と関連付けられているため、推定ＲＯＩ１２２間のＩＯＵは関連度閾値を満たし、及び／又は投影１４２と推定ＲＯＩ１２２との間のＩＯＵはＩＯＵ閾値を満たす、又は超えている。

【0033】

それにかかわらず、追跡は、中心、範囲、及び推定オブジェクト検出が推定ＲＯＩ１２２を含み得る、少なくとも以前のＲＯＩを含んでよい。いくつかの例では、本明細書で議論される技術は、追跡に関連する速度及び／又は方位に少なくとも部分的に基づいて、以前のＲＯＩを投影することを含み得る。推定ＲＯＩ１３０に対する投影ＲＯＩ１４２のＩＯＵ、中心間の距離、嵌め込み間の距離、又はＭｕｎｋｒｅｓ割当てが閾値を満たす場合、推定オブジェクト検出は追跡１３６に追加され得る。そうでない場合、推定オブジェクト検出は、新しい追跡に関連付けられ、及び／又は代替の追跡コンポーネントが生の検出を使用して追跡を生成し得る。

【0034】

（例示的なシステム）
図２は、本明細書で議論される技術を実施するための例示的なシステム２００のブロック図を示す。いくつかの例では、例示的なシステム２００は、図１の車両１０２を表すことができる車両２０２を含むことができる。いくつかの例では、車両２０２は、運転者（又は乗員）がいつでも車両を制御することが期待されない状態で、全旅程のためにすべての安全上重要な機能を実行できる車両を記述する米国道路交通安全局が発行したレベル５の分類に従って動作するように構成された自律車両であってよい。しかしながら、他の例では、車両２０２は、任意の他のレベル又は分類を有する完全又は部分的な自律車両であってもよい。さらに、いくつかの例では、本明細書に記載された技術は、非自律車両によっても使用可能であり得る。

【0035】

車両２０２は、車両コンピューティングデバイス２０４、センサー２０６、エミッタ２０８、ネットワークインターフェース２１０、及び／又は駆動コンポーネント２１２を含み得る。車両コンピューティングデバイス２０４は、コンピューティングデバイス１０６を表現してもよく、センサー２０６は、センサー１０４を表現してもよい。システム２００は、追加的又は代替的に、コンピューティングデバイス２１４を含んでもよい。

【0036】

いくつかの例において、センサー２０６は、センサー１０４を表現してよく、ライダーセンサー、レーダーセンサー、超音波トランスデューサ、ソナーセンサー、位置センサー（例えば、グローバルポジショニングシステム（ＧＰＳ）、コンパス等）、慣性センサー（例えば。慣性測定ユニット（ＩＭＵ）、加速度計、磁力計、ジャイロスコープなど）、画像センサー（例えば、赤緑青（ＲＧＢ）、赤外線（ＩＲ）、強度、深度、飛行時間カメラなど）、マイクロフォン、ホイールエンコーダ、環境センサー（例えば、温度計、湿度計、光センサー、圧力センサーなど）などを含み得る。センサー２０６は、これらのセンサー又は他の種類のセンサーのそれぞれの多様なインスタンスを含んでもよい。例えば、レーダーセンサーは、車両２０２の角、前面、背面、側面、及び／又は上部に配置された個々のレーダーセンサーを含み得る。別の例として、カメラは、車両２０２の外装及び／又は内装に関する様々な場所に配置された多様なカメラを含んでもよい。センサー２０６は、車両コンピューティングデバイス２０４及び／又はコンピューティングデバイス２１４に入力を提供してもよい。

【0037】

車両２０２はまた、上述したように、光及び／又は音を発するためのエミッタ２０８を含んでもよい。本例におけるエミッタ２０８は、車両２０２の乗客と通信するための室内オーディオ及び映像エミッタを含んでもよい。例としてで、限定するものではないが、内部エミッタは、スピーカー、ライト、サイン、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ（例えば、振動及び／又は力フィードバック）、機械アクチュエータ（例えば、シートベルトテンショナ、シートポジショナ、ヘッドレストポジショナ等）、及び同様のものを含んでもよい。本例におけるエミッタ２０８は、外装エミッタも含み得る。例示であって限定するものではないが、本例における外部エミッタは、進行方向又は車両の動作の他の指標を知らせるためのライト（例えば、表示灯、標識、ライトアレイ等）、及び歩行者又は他の近くの車両と音声的に通信するための１又は複数の音声エミッタ（例えば、スピーカー、スピーカーアレイ、ホーン等）、そのうちの１又は複数が音響ビームステアリング技術を含んでいることを意味する。

【0038】

車両２０２は、車両２０２と１つ又は複数の他のローカル又はリモートコンピューティングデバイスとの間の通信を可能にするネットワークインターフェース２１０を含み得る。例えば、ネットワークインターフェース２１０は、車両２０２及び／又は駆動コンポーネント２１２上の他のローカルコンピューティングデバイスとの通信を促進してもよい。また、ネットワークインターフェース２１０は、追加的又は代替的に、車両が他の近くのコンピューティングデバイス（例えば、他の近くの車両、交通信号など）と通信することを可能にしてもよい。ネットワークインターフェース２１０は、追加的に又は代替的に、車両２０２がコンピューティングデバイス２１４と通信することを可能にしてもよい。いくつかの例では、コンピューティングデバイス２１４は、分散コンピューティングシステム（例えば、クラウドコンピューティングアーキテクチャ）の１つ又は複数のノードを含んでもよい。

【0039】

ネットワークインターフェース２１０は、車両コンピューティングデバイス２０４を別のコンピューティングデバイス又はネットワーク２１６などのネットワークに接続するための物理的及び／又は論理的インターフェースを含み得る。例えば、ネットワークインターフェース２１０は、ＩＥＥＥ２００．１１規格によって定義された周波数を介したようなＷｉ－Ｆｉベースの通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの短距離無線周波数、セルラー通信（例えば、２Ｇ、３Ｇ、４Ｇ、４ＧＬＴＥ、５Ｇなど）又はそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースすることができる任意の適した有線又は無線通信プロトコルを可能にし得る。いくつかの例では、車両コンピューティングデバイス２０４及び／又はセンサー２０６は、ネットワーク２１６を介して、特定の周波数で、所定の期間の経過後に、ほぼリアルタイムで、コンピューティングデバイス２１４にセンサーデータを送信してもよい。

【0040】

いくつかの例では、車両２０２は、１つ又は複数の駆動コンポーネント２１２を含み
得る。いくつかの例では、車両２０２は、単一の駆動コンポーネント２１２を有し得る。いくつかの例では、駆動コンポーネント２１２は、駆動コンポーネント２１２及び／又は車両２０２の周囲の状態を検出するための１つ又は複数のセンサーを含み得る。限定ではなく例として、駆動コンポーネント２１２のセンサーは、駆動コンポーネントの車輪の回転を感知する１つ又は複数の車輪エンコーダ（例えば、ロータリーエンコーダ）、駆動コンポーネントの向き及び加速度を測定する慣性センサー（例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁気計など）、カメラ又は他の画像センサー、駆動コンポーネントの周囲にあるオブジェクトを音響的に検出する超音波センサー、ライダーセンサー、レーダーセンサー等を含み得る。ホイールエンコーダなどのいくつかのセンサーは、駆動コンポーネント２１２に固有のものであってもよい。場合によっては、駆動コンポーネント２１２上のセンサーは、車両２０２の対応するシステム（例えば、センサー２０６）と重畳、又は補足してもよい。

【0041】

駆動コンポーネント２１２は、高電圧バッテリ、車両を推進するモータ、バッテリからの直流を他の車両システムで使用するための交流に変換するインバータ、ステアリングモータ及びステアリングラック（電気であり得る）を含むステアリングシステム、油圧又は電気アクチュエータを含むブレーキシステム、油圧及び／又は空気圧コンポーネントを含むサスペンションシステム、牽引力の損失を緩和し制御を維持するためのブレーキ力を分配する安定制御システム、ＨＶＡＣシステム、照明（例えば、車両の外装周辺を照らすヘッド／テールライトのような照明）、及び１つ又は複数の他のシステム（例えば、冷却システム、安全システム、車載充電システム、ＤＣ／ＤＣコンバータ、高電圧接合部、高電圧ケーブル、充電システム、充電ポートなどの他の電気部品）を含み得る。さらに、駆動コンポーネント２１２は、センサーからデータを受信して前処理し、様々な車両システムの動作を制御するために、駆動コンポーネントコントローラを含んでもよい。いくつかの例では、駆動コンポーネントコントローラは、１つ又は複数のプロセッサと、１つ又は複数のプロセッサと通信可能に結合されたメモリとを含んでもよい。メモリは、駆動コンポーネント２１２の様々な機能を実行するための１つ又は複数のコンポーネントを格納してもよい。さらに、駆動コンポーネント２１２は、それぞれの駆動コンポーネントによる１つ又は複数の他のローカル又はリモートコンピューティングデバイスとの通信を可能にする１つ又は複数の通信接続部を含んでもよい。

【0042】

車両コンピューティングデバイス２０４は、プロセッサ２１８と、１つ又は複数のプロセッサ２１８と通信可能部に結合されたメモリ２２０とを含み得る。メモリ２２０は、メモリ１０８を表現してもよい。コンピューティングデバイス２１４は、プロセッサ２２２、及び／又はメモリ２２４も含み得る。プロセッサ２１８及び／又は２２２は、データを処理し、本明細書に記載されるような動作を実行するための命令を実行することができる任意の適切なプロセッサであり得る。限定ではなく例として、プロセッサ２１８及び／又は２２２は、１つ又は複数の中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、集積回路（例えば、特定用途向け集積回路（ＡＳＩＣ））、ゲートアレイ（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ））、及び／又は電子データを処理して、電子データを、レジストリ及び／又はメモリに格納し得る他の電子データへ変形するデバイスの任意の他のデバイス又は部分を含んでよい。

【0043】

メモリ２２０及び／又は２２４は、例示的な非一時的なコンピュータ可読媒体であり得る。メモリ２２０及び／又は２２４は、本明細書に記載された方法及び様々なシステムに帰属する機能を実装するために、オペレーティングシステム及び１つ又は複数のソフトウェアアプリケーション、命令、プログラム、及び／又はデータを格納し得る。様々な実装において、メモリは、静的ランダムアクセスメモリ（ＳＲＡＭ）、同期ダイナミックＲＡＭ（ＳＤＲＡＭ）、不揮発性／フラッシュ型メモリ、又は情報を格納できる他の任意のタイプのメモリなど、任意の適切なメモリ技術を用いて実装されてもよい。本明細書で説明するアーキテクチャ、システム、及び個々の要素は、他の多くの論理的、プログラム的、及び物理的コンポーネントを含んでもよく、そのうち添付の図に示すものは、本明細書の議論に関連する単なる例示に過ぎない。

【0044】

いくつかの例では、メモリ２２０及び／又はメモリ２２４は、定位コンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、追跡コンポーネント２３２、マップ２３４、及び／又はシステムコントローラ２３６を格納し得る。知覚コンポーネント２２８は知覚コンポーネント１１０を表現してもよく、計画コンポーネント２３０は計画コンポーネント１１２を表現してもよく、及び／又は追跡コンポーネント２３２は追跡コンポーネント１１４を表現してもよい。

【0045】

少なくとも一例では、定位コンポーネント２２６は、センサー２０６からデータを受信して車両２０２の位置、速度、及び／又は向き（例えば、ｘ－、ｙ－、ｚ－位置、ロール、ピッチ、又はヨーのうちの１つ又は複数）を決定するハードウェア及び／又はソフトウェアを含み得る。例えば、定位コンポーネント２２６は、環境のマップ２３４を含む及び／又は要求／受信し得、マップ２３４内の自律車両の位置、速度、及び／又は向きを継続的に決定することが可能である。いくつかの例では、定位コンポーネント２２６は、ＳＬＡＭ（ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ）、ＣＬＡＭＳ（ｃａｌｉｂｒａｔｉｏｎ，ｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ，ｓｉｍｕｌｔａｎｅｏｕｓｌｙ）、相対ＳＬＡＭ、バンドル調整、非線形最小二乗最適化などを利用して、画像データ、ライダーデータ、レーダーデータ、ＩＭＵデータ、ＧＰＳデータ、ホイールエンコーダーデータなどを受信し、自律車両の場所、姿勢、及び／又は速度を正確に決定し得る。いくつかの例では、定位コンポーネント２２６は、本明細書で論じられるように、軌道を生成するため、及び／又はマップデータを生成するための自律車両の初期位置を決定するために、車両２０２の様々なコンポーネントにデータを提供し得る。いくつかの例では、定位コンポーネント２２６は、追跡コンポーネント２３２に、環境に対する車両２０２の位置及び／又は向き、及び／又はそれに関連するセンサーデータを提供し得る。

【0046】

いくつかの例では、知覚コンポーネント２２８は、ハードウェア及び／又はソフトウェアで実装された一次知覚システム及び／又は予測システムを含み得る。知覚コンポーネント２２８は、車両２０２を取り巻く環境におけるオブジェクトを検出し（例えば、オブジェクトが存在することを識別し）、オブジェクトを分類し（例えば、検出されたオブジェクトに関連するオブジェクトタイプを決定し）、センサーデータ及び／又は環境の他の表現をセグメンテーションし（例えば、検出されたオブジェクト及び／又はオブジェクトタイプに関連するものとしてセンサーデータ及び／又は環境の表現の一部を識別する）、オブジェクトに関連する特性（例えば、オブジェクトに関連する現在、予測、及び／又は以前の位置、見出し、速度、及び／又は加速度を識別する追跡）、及び／又は同様のものを判断する。知覚コンポーネント２２８によって決定されたデータは、知覚データと呼ばれる。

【0047】

計画コンポーネント２３０は、定位コンポーネント２２６から車両２０２の位置及び／又は方位、及び／又は知覚コンポーネント２２８から知覚データを受信し得、このデータのいずれかに少なくとも部分的に基づいて車両２０２の動作を制御するための指示を決定し得る。いくつかの例では、命令を決定することは、命令が関連付けられるシステムに関連付けられるフォーマットに少なくとも部分的に基づいて命令を決定することを含んでよい（例えば、自律車両の動作を制御するための第１の命令は、システムコントローラ２３６及び／又は駆動コンポーネント２１２が解析／実行させ得るメッセージ及び／又は信号（例えば、アナログ、デジタル、空気力学、運動学）の第１のフォーマットでフォーマットされてよい、エミッタ２０８の第２の命令はそれに関連付けられる第２のフォーマットに従ってフォーマットされ得る）。

【0048】

追跡コンポーネント２３２は、車両２０２上及び／又はコンピューティングデバイス２１４上で動作し得る。いくつかの例では、追跡コンポーネント２３２は、パイプラインにおいて計画コンポーネント２３０から上流（入力を提供し）にあり、知覚コンポーネント２２８の少なくともいくつかのコンポーネントから下流（入力を受信する）にあり得る。追跡コンポーネント２３２は、追跡コンポーネント２３２の出力の全て、一部、又は全部を計画コンポーネント２３０に渡すように構成されてもよい。いくつかの例では、追跡コンポーネント２３２は、知覚コンポーネント２２８の一部であってもよい。いくつかの例では、追跡コンポーネント２３２は、推定オブジェクト検出を含み得る最終的な環境表現を決定する、本明細書で議論されるＭＬモデルを含んでもよい。追跡コンポーネント２３２は、追加的又は代替的に、ＭＬモデルによって生成された推定オブジェクト検出と、センサータイプ（例えば、ＭＬモデルへの入力の１つ）に関連して生成された少なくとも１つの「生の」オブジェクト検出を受信する第１のコンポーネント及び／又は推定オブジェクト検出と追跡と関連する１つ又は複数のオブジェクト検出を受信する第２のコンポーネントを含んでもよい。何れにしても、追跡コンポーネントの第１のコンポーネント及び／又は第２のコンポーネントは、推定オブジェクト検出を追跡に関連付けるか否か、又はオブジェクト検出に関連して新しい追跡を生成するか否かを決定し得る。追跡コンポーネント２３２は、追加的又は代替的に、１つ又は複数のオブジェクト検出の速度、方位、及び／又は他の履歴又は現在の特性を出力してもよく、そのすべて又は一部は、追跡の少なくとも一部であってもよい。

【0049】

メモリ２２０及び／又は２２４は、追加的に又は代替的に、マッピングシステム（例えば、センサーデータに少なくとも部分的に基づいてマップを生成する）、計画システム、乗車管理システムなどを格納し得る。定位コンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、追跡コンポーネント２３２、マップ２３４、及び／又はシステムコントローラ２３６は、メモリ２２０に格納されるものとして図示されているが、これらのコンポーネントのいずれかは、プロセッサ実行可能な命令、機械学習モデル（たとえば、ニューラルネットワーク）、及び／又はハードウェアを含んでよく、これらのコンポーネントのいずれかの全部又は一部はメモリ２２４上に格納されても、コンピューティングデバイス２１４の一部としても構成さてもよい。

【0050】

本明細書で説明されるように、システム２００の定位コンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、追跡コンポーネント２３２、及び／又は他のコンポーネントは、１つ又は複数のＭＬモデルを含み得る。例えば、定位コンポーネント２２６、知覚コンポーネント２２８、計画コンポーネント２３０、及び／又は追跡コンポーネント２３２は、それぞれ、異なるＭＬモデルパイプラインを含み得る。いくつかの例では、ＭＬモデルはニューラルネットワークを含み得る。例示的なニューラルネットワークは、出力を生成するために一連の接続された層に入力データを渡す生物学的にインスパイアされたアルゴリズムである。ニューラルネットワークの各層は、別のニューラルネットワークを含むこともでき、又は任意の数の層（畳み込み式か否かにかかわらず）を含むこともできる。本開示のコンテキストで理解され得るように、ニューラルネットワークは、機械学習を利用することができ、これは、学習されたパラメータに基づいて出力が生成される、そのようなアルゴリズムの広範なクラスを指すことができる。

【0051】

ニューラルネットワークのコンテキストで論じられているが、本開示と一致する任意のタイプの機械学習が使用され得る。例えば、機械学習アルゴリズムは、回帰アルゴリズム（例えば、通常の最小二乗回帰（ＯＬＳＲ）、線形回帰、ロジスティック回帰、ステップワイズ回帰、多変量適応回帰スプライン（ＭＡＲＳ）、局所的に重み付けされた散布図平滑化（ＬＯＥＳＳ））、インスタンスベースのアルゴリズム（例えば、リッジ回帰、最小絶対縮退選択演算子（ＬＡＳＳＯ）、弾性ネット、最小角回帰（ＬＡＲＳ））、決定木アルゴリズム（例えば、分類回帰木（ＣＡＲＴ）、反復二分木３（ＩＤ３）、カイ二乗自動相互作用検出（ＣＨＡＩＤ）、決定スタンプ、条件付き決定木）、ベイジアンアルゴリズム（例えば、ナイーブベイズ、ガウスナイーブベイズ、多項ナイーブベイズ、平均一従属性分類器（ＡＯＤＥ）、ベイジアンビリーフネットワーク（ＢＮＮ）、ベイジアンネットワーク）、クラスタリングアルゴリズム（例えば、ｋ－ｍｅａｎｓ、ｋ－ｍｅｄｉａｎｓ、期待値最大化（ＥＭ）、階層型クラスタリング）、相関ルール学習アルゴリズム（例えば、パーセプトロン、バックプロパゲーション、ホップフィールドネットワーク、ＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎＮｅｔｗｏｒｋ（ＲＢＦＮ））、深層学習アルゴリズム（ＤｅｅｐＢｏｌｔｚｍａｎｎＭａｃｈｉｎｅ（ＤＢＭ）、ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋｓ（ＤＢＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、ＳｔａｃｋｅｄＡｕｔｏ－Ｅｎｃｏｄｅｒｓ）、次元削減アルゴリズム（例えば、主成分分析（ＰＣＡ）、主成分回帰（ＰＣＲ）、部分最小二乗回帰（ＰＬＳＲ）、サモンマッピング、多次元尺度法（ＭＤＳ）、ＰｒｏｊｅｃｔｉｏｎＰｕｒｓｕｉｔ、線形判別分析（ＬＤＡ）、混合判別分析（ＭＤＡ）、二次判別分析（ＱＤＡ）、フレキシブル判別分析（ＦＤＡ））、アンサンブルアルゴリズム（例えば、Ｂｏｏｓｔｉｎｇ、ＢｏｏｔｓｔｒａｐｐｅｄＡｇｇｒｅｇａｔｉｏｎ（Ｂａｇｇｉｎｇ）、ＡｄａＢｏｏｓｔ、ＳｔａｃｋｅｄＧｅｎｅｒａｌｉｚａｔｉｏｎ（Ｂｌｅｎｄｉｎｇ）、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＭａｃｈｉｎｅｓ（ＧＢＭ）、ＧｒａｄｉｅｎｔＢｏｏｓｔｅｄＲｅｇｒｅｓｓｉｏｎＴｒｅｅｓ（ＧＢＲＴ）、ＲａｎｄｏｍＦｏｒｅｓｔ）、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、教師あり学習、教師なし学習、半教師あり学習、等を含み得るが、これらに限定はされない。アーキテクチャの追加例は、ＲｅｓＮｅｔ５０、ＲｅｓＮｅｔ１０１、ＶＧＧ、ＤｅｎｓｅＮｅｔ、ＰｏｉｎｔＮｅｔ等のニューラルネットワークを含む。いくつかの例では、本明細書で議論されるＭＬモデルは、ＰｏｉｎｔＰｉｌｌａｒｓ、ＳＥＣＯＮＤ、トップダウン特徴層（例えば、その全体が本明細書に組み込まれる米国特許出願第１５／９６３８３３号を参照）、及び／又はＶｏｘｅｌＮｅｔを含み得る。アーキテクチャのレイテンシ最適化には、ＭｏｂｉｌｅｎｅｔＶ２、Ｓｈｕｆｆｌｅｎｅｔ、Ｃｈａｎｎｅｌｎｅｔ、Ｐｅｌｅｅｎｅｔ、及び／又は同様のものが含まれ得る。ＭＬモデルは、いくつかの例において、Ｐｉｘｏｒなどの残差ブロックを含んでもよい。

【0052】

メモリ２２０は、追加的又は代替的に、車両２０２のステアリング、推進、ブレーキ、安全、エミッタ、通信、及び他のシステムを制御するように構成され得る、１つ又は複数のシステムコントローラ２３６を格納し得る。これらのシステムコントローラ２３６は、駆動コンポーネント２１２及び／又は車両２０２の他のコンポーネントの対応するシステムと通信し、及び／又は制御し得る。例えば、計画コンポーネント２３０は、知覚コンポーネント２２８によって生成された知覚データに少なくとも部分的に基づいて命令を生成してもよく、知覚データを検証し／又は命令をシステムコントローラ２３６に送信してもよい。システムコントローラ２３６は、計画コンポーネント２３０から受信した命令に少なくとも部分的に基づいて、車両２０２の動作を制御してもよい。

【0053】

図２は分散システムとして図示されているが、代替例では、車両２０２のコンポーネントがコンピューティングデバイス２１４と関連付けられてもよく、及び／又はコンピューティングデバイス２１４のコンポーネントが車両２０２と関連付けられてもよいことに留意されたい。すなわち、車両２０２は、コンピューティングデバイス２１４に関連付けられた機能のうちの１つ又は複数を実行してもよく、その逆もまた然りである。

【0054】

（例示的なシステム）
図３は、異なる知覚パイプラインから受信した１つ又は複数のオブジェクト検出から推定オブジェクト検出を決定し、及び／又は推定オブジェクト検出に少なくとも部分的に基づいて更新又は新しい追跡を決定するための例示的な知覚システム３００のブロック図である。例示的な知覚システム３００は、知覚システム３００の周囲の特性を決定するための任意の数のパイプラインを含み得る。例えば、パイプラインは、自律車両の環境及び／又はセンサー及び／又は環境内のオブジェクトの特性にあるものを決定し得る。図３は、３つのパイプライン：映像パイプライン３０２、レーダーパイプライン３０４、及びライダーパイプライン３０６を描いているが、任意の数及び種類のパイプラインが企図されている。例えば、パイプラインは、同じタイプのセンサー（例えば、１つ又は複数のカメラ、１つ又は複数のライダーセンサー、１つ又は複数のレーダーセンサー）、視野の方向（例えば、重複する視野を有する１つ又は複数のカメラ）、多様なタイプのセンサー（例えば、ハイブリッド映像ライダーパイプライン）、他のソースからのデータ（例えば、リモートコンピューティングデバイスからのデータ、メモリに格納されたマップデータ）、及び／又は同様のものと関連付けられ得る。

【0055】

それにかかわらず、１つ又は複数のパイプラインのパイプラインは、センサーデータを受信し、１つ又は複数の出力を決定するように構成されてよい。簡略化のために、パイプラインの集合的な出力は、本明細書において環境表現と呼ばれる。環境表現は、１つ又は複数のオブジェクト検出を含んでよく、１つ又は複数の出力タイプを含んでよい。例えば、映像パイプライン３０２は、映像データ３１０（例えば、１つ又は複数のＲＧＢ画像、熱画像からなるセンサーデータ）に少なくとも部分的に基づいて環境表現３０８を出力してもよい。映像パイプライン３０２によって生成された環境表現３０８は、１つ又は複数のオブジェクト検出を含んでもよく、オブジェクト検出の少なくとも１つは、以下のものを含んでいる。
－オブジェクトに関連付けられた２次元ＲＯＩ
－オブジェクトに関連付けられた３次元ＲＯＩ、例えば、その全体が参照により本明細書に組み込まれる米国特許出願番号１５／９７０８３８及び１６／３８６２４９でより詳細に説明されるように、３１２で描かれるもののうちの１つ
－米国特許出願第１５／９７０８３８号で論じられるような、オブジェクト及び／又はＲＯＩに関連する深さ推定値（例えば、センサー／車両からオブジェクトまでの距離の推定値）
－米国特許出願第１５／９７０８３８号で論じられるような、オブジェクトの高さ。
－オブジェクトに関連付けられたオブジェクト分類及び／又は裕度、裕度は、センサーデータがオブジェクト分類によって指定されたタイプのオブジェクト（例えば、車両、歩行者、多関節車両、動物、子供）に関連付けられる事後確率を示す－いくつかの例では、オブジェクト分類及び／又は裕度は、ピクセルなどのセンサーデータの個別の部分と関連付けられ得る
－映像の嵌めこみ
－環境表現（例えば、環境のボクセル化、環境のメッシュ表現）に対するオブジェクトの位置（例えば、中心及び／又は範囲）。
－オブジェクトの姿勢（オブジェクトの位置及び／又は方位を含んでもよい）。
－オブジェクトによって占有されていると示される部分を含んでいてもよい占有マップ３１４（例えば、ピクセル／ボクセルを占有するオブジェクトが存在するかどうか、インスタンスセグメンテーション）、及び／又は
－オクルージョングリッド（例えば、環境の一部が視覚センサーの１つ又は複数への視線から隠されている確率を含んでいる）。

【0056】

レーダーパイプライン３０４は、以下を含む環境表現（描画スペースを保存するために図示されていない）を決定し得る。
－オブジェクトによって占有されていると示された部分を含んでいてもよい、占有マップ
－米国特許出願第１６／４０７１３９号（その全体が参照により本明細書に組み込まれる）においてより詳細に議論される、オクルージョングリッド（例えば、環境の一部がレーダーセンサーの１つ又は複数への視線から隠されている確率を含む）
－米国特許出願第１６／４１６６８６号（その全体が参照により本明細書に組み込まれる）においてより詳細に議論されるような、オブジェクトに関連づけられたヨーレート。
－オブジェクトに関連する速度（例えば、オブジェクトに関連づけられた地上でのレンジレート）
－レーダー断面積（ＲＣＳ）、及び／又は
－ＲＯＩ及び／又はオブジェクト分類

【0057】

ライダーパイプライン３０６は、ライダーデータ３１６に少なくとも部分的に基づいて、以下を含む環境表現３１８を決定し得る。
－オブジェクトによって占有されていると示された部分を含み得る占有マップ３２０
－オクルージョングリッド（例えば、環境の一部がライダーセンサーの１つ又は複数への視線から隠されている確率を含む）
－オブジェクトに関連するＲＯＩ及び／又はオブジェクトの分類、及び／又は
－その全体が本明細書に組み込まれる米国特許出願第１５／９６３８３３号においてより詳細に議論されるような、トップダウンセグメンテーション（例えば、環境の一部が占有されているか否かのトップダウン表示及び／又はトップダウンＲＯＩ（例えば、３２２で描かれるライダートップダウンＲＯＩ等）

【0058】

図３に関して例示、議論されるパイプラインは、単なる例示である。知覚システム３００は、本明細書で例示され議論されるものよりも多い、少ない、及び／又は異なるパイプラインを含み得る。さらに、パイプラインは、描かれているようにきれいに分離されているのではなく、混在していてもよい。例えば、上述した環境表現の少なくとも一部は、２つの異なるパイプラインの一部のプロダクトであってよい。描かれた例では、スペースが限られており、その明確さのために視覚環境表現及びライダー環境表現を拡大しているため、レーダー環境表現に関する特定の詳細は描かれていないが、レーダーパイプライン及びレーダー環境表現が追加的又は代替的に企図されることに留意されたい。

【0059】

異なるパイプラインによって生成された様々な環境表現は、多チャンネルデータ構造３２４に集約され得る。例えば、この集約は、データを、共通の基準フレーム及び／又は同じ寸法を有するボクセル空間、メッシュ表現などの環境の共通の表現に投影することを含み得る。集約は、追加的又は代替的に、トップダウン視点から３次元ＲＯＩを２次元ＲＯＩに投影すること、及び／又はセンサー視点、深さ、及び／又はオブジェクト分類に関連する２次元ＲＯＩに少なくとも部分的に基づいてトップダウン２次元ＲＯＩを決定することなど、環境表現の１つ又は複数の部分についてトップダウン表現を決定することを含んでいてもよい。いくつかの例では、多チャンネルデータ構造３２４は、多チャンネル画像を含んでよく、画像の各チャネルは、異なるパイプライン及び／又は異なるタイプの出力（例えば、占有マップ、オクルージョングリッド、ＲＯＩ、オブジェクト分類）に関連付けられ得る。例えば、画像の第１のチャンネルは、環境のそれぞれの部分が視覚パイプラインによって決定されるように占有／非占有されているかどうかを示すピクセルを含んでよく、画像の第２のチャンネルは、環境のそれぞれの部分がライダーパイプラインによって決定されるように占有／非占有されているかどうかを示すピクセルを含んでよく、第３のチャンネルは、環境のそれぞれの部分があるオブジェクト分類に関連付けられるかどうかを示すピクセルを含んでもよい、等である。

【0060】

多チャンネルデータ構造３２４は、１つ又は複数の知覚パイプラインの出力、及び／又は他のソース（例えば、自律車両のメモリから、リモートコンピューティングデバイスから）から受信したデータを含み得る。例えば、多チャンネルデータ構造３２４は、環境のトップダウン表現を含み得る環境表現（例えば、２次元、３次元、又はより高い次元であり得る）、環境の占有マップ、環境のオクルージョン部分の表現、オブジェクトに関連付けられたＲＯＩ、オブジェクトに関連付けられたオブジェクト分類、センサーデータセグメンテーション、センサーデータの３次元離散化表現、オブジェクトに関連付けられたヨー及び／又はヨーレート、オブジェクトに関連付けられた速度及び／又は加速度、範囲のセット（例えば、次元）、及び／又はオブジェクトに関連付けられた地面の高さ推定は、その全体が本明細書に組み込まれる、２０１９年１１月２７日に出願された米国特許出願第１６／６９８０５５号においてより詳細に議論された通りである。

【0061】

本明細書で使用されるように、オブジェクト検出は、ＲＯＩ、正の占有表示、オブジェクト分類など、オブジェクトの存在を示す１つ又は複数の環境表現の一部であり得る。

【0062】

いくつかの例では、以前の追跡３２６及び／又は以前の環境表現３２８は、多チャンネルデータ構造３２４の一部であってもよく、さもなければＭＬアーキテクチャ３３０に入力として提供されてもよい。例えば、前の追跡３２６及び／又は前の環境表現３２８は、環境表現がパイプラインにより生成された及び／又は追跡が決定された最後のｎ（ｎは正の整数）時間ステップと関連付けられてもよい。例えば、システムは、時間間隔（例えば、１０ミリ秒ごと、１００ミリ秒ごと、５００ミリ秒ごと）で、又は時間間隔ごとに環境表現及び／又は追跡を決定するように同期化されてもよい。前のｎ個の時間ステップで決定された追跡及び／又は環境表現。追加又は代替の例では、例えば知覚システムが半同期又は非同期である場合、前の追跡３２６及び／又は前の環境表現３２８は、時間窓と関連付けられてもよい。例えば、このデータは、回転ベースで、２秒期間、３秒期間、５秒期間、及び／又はアプリケーションに適した他の任意の時間ウィンドウにわたって蓄積されてもよい。

【0063】

多チャンネルデータ構造３２４は、ＭＬアーキテクチャ３３０への入力として提供されてもよく、このアーキテクチャは、１つ又は複数の推定オブジェクト検出３３２を含む最終環境表現を決定するように訓練されてもよい。例えば、ＭＬアーキテクチャ３３０は、環境の一部が占有されているという表示、占有された部分（例えば、オブジェクト）に関連するＲＯＩ及び／又はオブジェクト分類、オブジェクトの向き（例えば、ヨー及び／又はヨー／方位ビン）、オブジェクトに関連する速度（例えば、静止／移動、横及び／又は縦速度）、オブジェクトに関連する高さ、及び／又は将来の時間ステップに関連する予測ＲＯＩを含む環境のトップダウン表示を決定してもよい。

【0064】

最終的な環境表現及び／又はその推定オブジェクト検出３３２は、追跡コンポーネント３３４への入力として提供され得る。追跡コンポーネント３３４は、推定オブジェクト検出を以前の追跡３３６、新しい追跡に関連付けるか、又はパイプライン及び／もしくは推定オブジェクト検出３３２からの１つ又は複数のオブジェクト検出を偶発的な追跡コンポーネントに転送するかを決定するように訓練及び／又は構成され得る。いくつかの例では、追跡コンポーネント３３４は、本明細書で議論された決定に少なくとも部分的に基づいて、更新された又は新しい追跡３３８を計画コンポーネントに出力し得る。

【0065】

いくつかの例では、偶発的な追跡コンポーネントは、パイプラインから生の環境表現を受信し、そこから追跡を決定するように構成された追跡コンポーネントであり得る。偶発的な追跡コンポーネントは、オブジェクト検出が誤検出であるかどうか、及び／又はオブジェクト検出を以前の追跡又は新しい追跡に関連付けるかどうかを決定するために異なるパイプライン間でより多くのデータを使用するので、場合によっては、より多くの計算及び／又はメモリを必要とし得る。

【0066】

（例示的なプロセス）
図４は、１つ又は複数の知覚パイプラインによって生成された複数のオブジェクト検出及び／又は環境表現から最終環境表現及び／又は推定オブジェクト検出を決定するための例示的プロセス４００の絵入りフロー図である。例示的なプロセス４００は、追加的又は代替的に、推定オブジェクト検出を以前の追跡と関連付けることを決定すること、推定オブジェクト検出と関連付けるための新しい追跡を生成することを決定すること、及び／又は本明細書で論じるデータを偶発追跡コンポーネントに転送することを決定することに少なくとも一部基づいて環境内のオブジェクトを追跡し得る。

【0067】

動作４０２において、例示的なプロセス４００は、本明細書で議論される技術のいずれかに従って、第１のセンサータイプに関連付けられた第１のオブジェクト検出と第２のセンサータイプに関連付けられた第２のオブジェクト検出を受信することを含み得る。例えば、第１のオブジェクト検出４０４は、第１のパイプライン４０８から受信された第１の環境表現４０６の一部であってもよく、第２のオブジェクト検出４１０は、ｎ番目のパイプライン４１４から受信されたｎ番目のオブジェクト環境表現４１２の一部であってもよい。

【0068】

図では、オブジェクト検出及び環境表現がトップダウンＲＯＩであるように描かれているが、少なくとも一例では、オブジェクト検出は、ライダーベースのオブジェクト検出、レーダーベースのオブジェクト検出、及び／又は映像ベースのオブジェクト検出を含んでよい。ライダーベースのオブジェクト検出は、ライダー占有マップ、ライダーベースの２次元又は３次元ＲＯＩ、トップダウンセグメンテーションＲＯＩ、トップダウンセグメンテーションマップ、ライダーオクルージョングリッド、及び／又はオブジェクト分類を含んでよい。レーダーベースのオブジェクト検出は、レーダー占有マップ、地上ベースのレンジレート、ＲＣＳ、レーダーベースのＲＯＩ及び／又はオブジェクト分類、及び／又はレーダーオクルージョングリッドを含んでよい。映像ベースのオブジェクト検出は、映像オクルージョングリッド、インスタンスセグメンテーション、（例えば、画像空間における）２次元ＲＯＩ、３次元ＲＯＩ、深度、オブジェクト分類、映像嵌め込み、及び／又はオブジェクトの姿勢（例えば、位置及び／又は向き）を含んでよい。追加的又は代替的なオブジェクト検出が使用されてもよい。いくつかの例では、上述したオブジェクト検出コンポーネントのいくつかは、例えば、レーダーベースのＲＯＩ、姿勢データ、又は３次元ＲＯＩなどのハイブリッドコンポーネントを含んでもよく、そのいずれもがライダー、レーダー、及び／又は映像ベースであってよい。

【0069】

動作４１６において、例示的なプロセス４００は、本明細書で議論される技術のいずれかに従って、環境内のオブジェクトに関連付けられた追跡を受信することを含み得る。例えば、追跡４１８は、以前の時間ステップに関連して以前に決定された追跡であり得る。描かれた例では、追跡４１８は、オブジェクト検出４０４及びオブジェクト検出４１０によって示されるように、第１のパイプライン４０８及びｎ番目のパイプライン４１４によって検出されたオブジェクトと関連付けられている。追跡４１８は、異なるパイプラインからのオブジェクト検出データのいずれかを関連付けてもよく、及び／又は、少なくとも静的に設定されるか又は車両の速度によって設定される時間ウィンドウと同じくらい昔に遡って、以前の時間ステップからＭＬモデルによって生成された推定オブジェクト検出、追跡中のオブジェクトの数（例えば、より多くのオブジェクトほどデータを保存するために時間窓を小さくするか、より多くのオブジェクトほどオクルージョンを通してオブジェクト追跡するために同じ又は大きな時間ウィンドウ）、又はそれらの組み合わせを含んでよい。追跡は、最終的に、２つの異なるパイプラインによって生成された２つの異なるオブジェクト検出が同じオブジェクトに関連付けられること、及び／又は、同じ又は異なるパイプラインによって生成された時間的に２つの異なるオブジェクト検出が同じオブジェクトに関連付けられることを示す。

【0070】

描かれた追跡４１８は、ＭＬモデルによって生成された以前の推定オブジェクト検出を関連付け、描かれた例では、自律車両を取り巻く環境における同じ車両に関連付けられた４つの２次元（トップダウン）ＲＯＩ（４２０）、車両の姿勢、及びＲＯＩを通る線として図示される車両の中心の履歴位置を含む。推定オブジェクト検出は、追加的又は代替的に、この場合「車両」などのオブジェクト分類、車両の履歴及び／又は（旧）予測速度、ピクセルごとの占有率（例えば、車両に関連するピクセルのマスク）、車両の推定高さ、及び／又は同様のものを含んでもよい。

【0071】

動作４２２で、例示的なプロセス４００は、本明細書で議論される技術のいずれかに従って、第１のオブジェクト検出、第２のオブジェクト検出、及び／又は追跡をＭＬモデルに入力することを含み得る。いくつかの例では、オブジェクト検出及び／又は追跡は、多チャンネルデータ構造に集約され得る。いくつかの例では、オブジェクト検出のいくつかの部分は、操作４２２の前にボクセル空間に投影され、及び／又は２次元トップダウンビューでレンダリングされ得る。

【0072】

オブジェクト検出は、環境表現の一部としてＭＬモデルに提供されてもよいことに留意されたい。例えば、環境表現４０６は、上述したように、多様なオブジェクト検出、及びオブジェクト速度、推定された高さなどの図示されていないデータを含む。いくつかの例では、環境表現は、集約され、入力としてＭＬモデルに提供され得る。いくつかの例では、オブジェクト検出は、環境表現の残りの部分から分離され、入力として提供され得る。例えば、環境表現は、共通の基準フレームであってもよく、又は集約中に共通の基準フレームに変換されてもよい。パイプラインは、正のオブジェクト検出を共通の基準フレームにおけるそれらの座標とともに出力するように構成されてもよい。例えば、これらの正のオブジェクト検出は、閾値の信頼度を満たすか又は超える尤度に関連する環境表現の部分であってもよい。上述したオブジェクト検出コンポーネントの各々及び何れかは、回帰された信頼度スコアに関連付けられ得る。例えば、オブジェクト分類は、信頼スコアと関連付けられてもよく、ＲＯＩは、非最大抑制技術を介して異なるピクセルに関連付けられた信頼スコアに少なくとも部分的に基づいて決定されてもよく、占有は、各ピクセルに関連付けられた、それぞれのパイプラインのＭＬモデルによって決定される尤度に少なくとも部分的に基づいて決定されてもよい、などである。

【0073】

動作４２４において、例示的なプロセス４００は、本明細書で議論される技術のいずれかに従って、ＭＬモデルからの出力として、推定オブジェクト検出４２６を受信することを含み得る。いくつかの例では、ＭＬモデルは、最終的な環境表現４２８及び／又は推定オブジェクト検出４２６を出力するように訓練され得る。推定オブジェクト検出４２６は、環境の一部が占有されていること及び／又はオブジェクト分類に関連していることを示す最終的な環境表現４２８の性質により、最終的な環境表現４２８の一部であり得る。ＭＬモデルは、オブジェクトに関連付けられたＲＯＩ（例えば、中心及び／又は範囲）、オブジェクトに関連付けられたオブジェクト分類、オブジェクトの推定姿勢（例えば、位置及び／又は向き）、オブジェクトの推定速度、及び／又はオブジェクトの推定高さを出力するように訓練され得る。ＭＬモデルは、追加的又は代替的に、これらの出力のいずれかに関連して信頼度スコアを決定してもよい。いくつかの例では、ＲＯＩは、ＭＬモデルが訓練されたオブジェクト分類に関連するアンカーボックス又は任意の他のカノン的なオブジェクト形状に少なくとも部分的に基づいて生成され得る。

【0074】

いくつかの例では、最終的な環境表現は、環境のトップダウン表現の多チャンネル画像を含み得る。多チャンネル画像は、異なるチャネルにおいて、直近のＲＯＩの中心までの距離、ＲＯＩの範囲、ピクセルがオブジェクトに関連する裕度（例えば、ＲＯＩを生成するための非最大限の抑制に使用）、ピクセルが複数のオブジェクト分類の特定のオブジェクト分類に関連する裕度、向き、速度、及び／又は推定高さを示すピクセルなどの離散部分を含み得る。

【0075】

いくつかの例では、ＭＬモデルは、方位が入るビン（例えば、北、南東、西；４５°ビン、９０°ビン、１８０°ビンなどの任意の他の数及びタイプの方位ビン）及び／又は方位に関連する回帰（例えば、ピクセルに関連して決定したビンの中心からの変動度数）を示す方位に関連する分類を決定し得る。

【0076】

いくつかの例では、ＭＬモデルは、分類アルゴリズムを使用して速度を決定してもよく、静的もしくは動的などの出力、又は速度のビン（例えば、ビンが少なくとも一例ではオブジェクトが１－１０マイル／時で動いていることを示し得るような５、１０、１５、又はそのようなマイル／時の増分）をもたらす。追加的又は代替的に、ＭＬモデルは、速度ビンの中心からのオフセットとして（例えば、速度値は、オブジェクトが分類されたビンの値から回帰を加算／減算することによって決定されてよい）、又はスタンドアロン回帰として（例えば、回帰タスクは速度を直接計算する）、回帰タスクを使用して速度を決定してもよい。いくつかの例では、速度ビニング及び／又は回帰タスクは、入力多チャンネル画像の一部である１つ又は複数の以前のオブジェクト検出及び／又は追跡に少なくとも部分的に基づいてもよい。同様に、ＭＬモデルは、分類タスク（例えば、高さビンとして）及び／又は回帰タスク（例えば、高さビンからのオフセット又は直接回帰された高さとして）を使用して、推定高さを決定してもよい。

【0077】

いくつかの例では、ＭＬモデルを訓練することは、オブジェクト分類、向きビン、速度ビン、及び／又は推定高さビンとそれぞれのグランドトゥルース（例えば、オブジェクト分類のためのセマンティックラベル、グランドトゥルースインスタンスセグメンテーション及び／又はグランドトゥルースＲＯＩ；向きビンのためのグランドトゥルース向き表示；速度ビンのためのグランドトゥルース速度；高さビンのためのグランドトゥルース高さ）との間の差に少なくとも部分的に基づいて分類損失を決定することを含み得る。いくつかの例では、総分類損失は、これらの損失を合計することによって決定され得る。いくつかの例では、分類損失を決定することは、他の形態の損失が企図されるが、その全体が参照により本明細書に組み込まれる米国特許出願第１６／０１３７２９号においてより詳細に議論されるように、クロスエントロピー焦点損失を決定することを含んでもよい。いくつかの例では、ビンの分類損失を決定することは、クロスエントロピー損失又はＨｕｂｅｒ損失に少なくとも部分的に基づいてもよい。

【0078】

ＭＬモデルを訓練することは、追加的又は代替的に、ＲＯＩの中心までの距離、対数空間で示され得るＲＯＩの範囲、推定された方向又は方向ビンからのオフセット、推定された速度又は速度ビンからのオフセット、及び／又は高さビンからの推定高さ又はオフセットとそれらにそれぞれ関連するそれぞれのグランドトゥルースとの差に少なくとも部分的に基づいて１又は複数の回帰損失を決定することを含み得る。回帰損失を決定することは、上述した１つ又は複数の回帰出力のそれぞれについてＬ１（又は任意の他の損失）損失を決定することと、それらの回帰損失を合計して総回帰損失を決定することとを含み得る。

【0079】

ＭＬモデルを訓練することは、追加的又は代替的に、分類の総損失と回帰の総損失を合計することによって総損失を決定することを含み得る。いくつかの例では、ＭＬモデルは、各タスクに関連する不確実性を出力するように訓練され得る。タスクについて決定された損失は、出力タスクに関連して出力された不確実性に少なくとも部分的に基づいて重み付けされてもよく、不確実性が大きいほど、損失に適用される重みが大きくなり、結果として生じる損失が大きくなるようにする。この重み付けは、総分類損失及び／又は総回帰損失を決定する前に発生してもよいが、別の時間に発生してもよい。いくつかの例では、不確実性は、共分散に少なくとも部分的に基づいてもよく、及び／又は異分散性であってもよい。

【0080】

いくつかの例では、総損失は、重み付けされているかどうかにかかわらず、ＭＬモデルの様々な回帰及び／又は分類コンポーネントを通じてバックプロパゲートされてもよく、これは、総損失を最小化するためにコンポーネントのうちの１つ又は複数のパラメータを調整することを含み得る。追加的又は代替的に、総損失は、パイプラインの１つ又は複数又はパイプラインの一部を通じてバックプロパゲートされ得る。例えば、総損失は、映像パイプライン、ライダーパイプライン、及び／又は同様のもののトップダウンセグメンテーションコンポーネント、ＲＯＩコンポーネント、方向コンポーネント、速度コンポーネント、及び／又は高さコンポーネントの１つ又は複数のパラメータを調整するために使用され得る。

【0081】

いくつかの例では、本明細書で論じた損失は、ピクセル単位の損失の代わりに、又はそれに加えて、オブジェクト検出単位で決定されてもよい。損失をオブジェクト検出ごとに決定することは、小さなオブジェクトに対する推定オブジェクト検出を決定する際のＭＬモデルの精度を向上させ得る。いくつかの例では、損失は、少なくとも部分的に、オブジェクトの輪郭の表示、オブジェクトに関連するピクセル及び／又はサブピクセルを識別するインスタンスセグメンテーション、及び／又は同様のものを含むグランドトゥルースに基づき決定されてもよい。

【0082】

いくつかの例では、ＭＬモデルは、推定されたオブジェクトが関連付けられる追跡の表示を追加的又は代替的に出力し得る。いくつかの例では、ＭＬモデルは、新しい追跡を生成するか、又はオブジェクト検出を以前の追跡に関連付けるかを決定する際に使用するために、オブジェクト検出に関連付けて嵌め込みを出力し得る。嵌めこみは、いくつかの例において、ＭＬモデルの他の出力に少なくとも部分的に基づいてもよい。例えば、嵌め込みは、ＭＬモデルの他の出力（例えば、ＲＯＩ、オブジェクト分類、推定方向、推定速度、推定高さ、推定方向）を受信するＭＬモデルのコンポーネントによって決定されて得るが、嵌め込みは、追加的又は代替的に、知覚パイプラインのうちの１又は複数の出力に少なくとも部分的に基づいて決定されてもよい。

【0083】

追加的又は代替的な例では、ＭＬモデルは、異なる高さビンについて本明細書で論じられるオブジェクト検出を出力するように構成され得る。例えば、多チャンネル出力画像のチャンネルの第１のセットは、第１の高さ範囲（例えば、０．２５メートルから２メートル）に対するオブジェクト検出を含んでよく、チャンネルの第２のセットは、第２の高さ範囲（例えば、２メートルから４メートル）に対するオブジェクト検出を含んでもよい、等である。任意の他の高さ間隔が使用され得る。

【0084】

動作４３２で、例示的なプロセス４００は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出に少なくとも部分的に基づいて、オブジェクトに関連する更新された（４３２）又は新しい追跡を決定することを含み得る。いくつかの例では、動作４３２は、追加的又は代替的に、１つ又は複数の以前の追跡及び／又は推定オブジェクト検出に少なくとも部分的に基づき得る。いくつかの例では、例示的なプロセス４００は、メモリに現在格納されているすべての以前の追跡を更新することを決定することを含み得る。追跡を更新することは、推定オブジェクト検出のうちの１つを追跡に関連付けること、追跡が部分的又は完全にオクルードされている可能性が高いオブジェクトに関連していることを示すこと（例えば、オクルード状態フラグが変更されてもよい）、及び／又は追跡をリタイアさせることを含んでもよい。追跡をリタイアさせることは、追跡に関連するオブジェクトが少なくとも閾値の時間だけ隠されていること、オブジェクトがもはや視野内にない可能性が高いことを示すこと、及び／又は追跡を削除することを含んでよい。すべての追跡が更新されると、追跡と関連付けられていない残りの推定オブジェクト検出は、代替の追跡コンポーネントに渡され、及び／又は新しい追跡がそれに関連して生成され得る。

【0085】

図５は、本明細書で議論されるＭＬモデルによって決定される推定オブジェクト検出に少なくとも部分的に基づいて環境内のオブジェクトを追跡するための例示的プロセス５００の絵入りフロー図である。例示的なプロセス５００は、例示的なプロセス４００の動作４３２の少なくとも一部であってもよいし、独立したプロセスであってもよい。動作４３２は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出４３２に少なくとも部分的に基づいて、オブジェクトに関連する更新された、又は新しい追跡を決定することを含み得る。

【0086】

動作５０２において、例示的プロセス５００は、本明細書で議論される技術のいずれかに従って、以前の時間に関連付けられた以前の追跡の少なくとも一部を現在の時間に投影することを含み得る。例えば、以前の追跡の少なくとも一部を投影することは、前の追跡（例えば、追跡４１８）に少なくとも部分的に基づいて投影ＲＯＩ５０４を決定することを含み得る。いくつかの例では、投影されたＲＯＩは、以前の追跡４１８に関連する直近のＲＯＩに少なくとも部分的に基づき得る。図５は、追跡４１８の直近のＲＯＩを黒色の陰影で塗りつぶすことによって図示されている。投影された関心領域５０４は点線で描かれ、追跡４１８に関連する過去の速度、方向、及び／又は位置に少なくとも部分的に基づき得る。追加的又は代替的な例では、投影されたＲＯＩは、以前の時間ステップでＭＬモデルによって出力された予測されたＲＯＩを含み得る。

【0087】

図５は投影されたＲＯＩ５０４を図示しているが、推定オブジェクト検出に関連する他の順応性のある属性のいずれかが投影されてもよいことに留意されたい。例えば、オブジェクト分類はフレーム間で変化すべきではないが、速度、向き、高さ（例えば、歩行者が座ったりダッキングしたりすることによる）、ＲＯＩ位置などは変化してもよく、少なくとも部分的に追跡４１８及び／又はそれに関連するデータに基づいて予測／投影されてもよい。例えば、追跡４１８は、ＭＬモデルによって生成された以前の推定オブジェクト検出及びそれに関連するデータのいずれかを関連付け得る。したがって、投影ＲＯＩ５０４が本明細書で議論されるが、オブジェクト分類、予測速度、予測方向、予測高さ、予測位置、予測方向、及び／又は予測嵌め込みがそれに関連付けられてもよいことが理解される。投影ＲＯＩ５０４を決定することは、投影ＲＯＩ５０４と予測速度、予測方位、予測高さ、予測位置、予測方位に関連付けられた嵌め込みに少なくとも部分的に基づいて更新／予測された嵌め込みを決定することを含んでよく、嵌め込みがどのデータに基づいているかに依存する。例えば、嵌め込みが速度及び位置のような順応性のあるデータに基づいている場合、嵌め込みは更新されてもよいが、嵌め込みが生のセンサーデータ及び／又は知覚パイプラインデータに基づいている場合、嵌め込みは更新されずに使用され得る。

【0088】

動作５０６において、例示的なプロセス５００は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出と投影ＲＯＩとの間の関連性を決定することを含み得る。例えば、推定オブジェクト検出は、本明細書で議論されるＭＬモデルによって決定される推定オブジェクト検出４２６の少なくとも一部分であり得る。いくつかの例では、動作５０６は、投影ＲＯＩ５０４と推定オブジェクト検出４２６との間のＩＯＵ、推定オブジェクト検出４２６の中心と投影関心領域５０４（又は以前のＲＯＩ）との間のユークリッド距離、投影ＲＯＩ５０４と推定オブジェクト検出４２６との間のＭｕｎｋｒｅｓ割当て、及び／又は同様のものに少なくとも部分的に基づいて、スコアを決定することを含んでもよい。少なくとも一例では、関連性の程度を決定することは、投影された関心領域５０４に関連付けられた嵌め込みと推定オブジェクト検出４２６に関連付けられた嵌め込みの間の差（例えば、ユークリッド距離）を決定することを含み得る。いくつかの例では、嵌め込みは、オブジェクト検出のオブジェクト分類、サイズ、及び／又は他の特性を考慮に入れてもよい。関連性は、少なくとも１つの例において、ＩＯＵ、中心間の距離、Ｍｕｎｋｒｅｓ割当てスコア、及び／又は嵌め込み間の距離の合計又は加重合計などの１つ又は組み合わせを含んでもよい。

【0089】

いくつかの例では、関連性は、ＩＯＵと嵌め込み間の距離の和又は加重和を含み得る。そのような例では、そのような合計は、第１のＩＯＵを含んでもよく、高いＩＯＵは類似性を示すが、高い嵌め込み間の距離は非類似性を示すので、（正規化された）距離は、それが計算された後に反転されてもよい。ＩＯＵは、１からＩＯＵを引くことによって反転されてもよい。ＩＯＵは０と１の間の範囲であってもよく、嵌め込み間のユークリッド距離は１よりも著しく大きい場合があるので、嵌め込み間のユークリッド距離は、少なくとも部分的に、学習した嵌め込み空間における嵌め込み間の最小距離及び最大距離に基づき正規化されてもよい。追加的又は代替的な例では、ＩＯＵのロジットは、学習された嵌め込み空間における嵌め込み間の最大距離に少なくとも部分的に基づいて決定され、スケーリングされてもよい。追加的又は代替的な例では、関連性は、１つ又は複数の関連性に少なくとも部分的に基づいて決定されたスコアを含んでもよい。例えば、ＭＬモデルは、ＩＯＵ、嵌め込み間の距離、追跡の少なくとも一部、及び／又は推定オブジェクト検出データの少なくとも一部を受信し、推定オブジェクト検出データが以前の追跡と関連する裕度を示すスコアを出力するように訓練され得る。

【0090】

動作５０８で、例示的なプロセス５００は、本明細書で議論される技術のいずれかに従って、関連性が関連性の閾値を満たすかどうかを決定することを含み得る。関連性の閾値を満たす関連性は、推定オブジェクト検出４２６に関連付けられたオブジェクトが、追跡４１８によって示されるのと同じオブジェクトである／可能性が高いことを示す。関連性が関連性の閾値を満たす場合、例示的プロセス５００は、動作５１０に進み得る。一方、動作５０６で決定された関連性の程度が関連性の程度の閾値を満たさない場合、例示的なプロセス５００８は、動作４４２に続き得る。

【0091】

関連度がＩＯＵを含む場合に閾値ＩＯＵ値を満たすか超えることによって、Ｍｕｎｋｒｅｓ割当てが見つかることによって、嵌め込み間の距離が閾値距離未満であることによって、センター間の距離が閾値距離未満であることによって、及び／又は結合スコアが閾値結合スコアを満足することによって、閾値関連性を満たし得る。後者の例によれば、ＩＯＵと嵌め込み間の距離とを組み合わせてスコアを決定する場合、上述したように、ＩＯＵを反転させた場合に複合スコアが複合スコア閾値未満であると決定することによって、またエンベッディング間の距離を正規化してから反転させた場合にその逆に、閾値複合スコアを満たすことが達成されてもよい。複数の関連性が決定される例では（例えば、ＭＬモデル生成スコア、ＩＯＵ、嵌め込み間の距離）、動作５０８は、動作５１０への移行に合格するために満たされなければならない関連性の閾値の１つ又は複数を指定するルールセットを含んでもよい（例えば、すべての関連度は、少なくとも１つ、３つのうちの２つなど、各関連性の閾値を超えなければならない）。

【0092】

動作５１０において、例示的なプロセス５００は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出４２６を更新された追跡４３０として追跡４１８に関連付けることを含んでもよい。

【0093】

動作５１２で、例示的なプロセス５００は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出に関連付けられた新しい追跡を生成すること、及び／又は、第１のオブジェクト検出、第２のオブジェクト検出、及び／又は推定オブジェクト検出を代替の追跡コンポーネントに提供することを含み得る。新しい追跡を生成することは、推定オブジェクト検出が、知覚パイプラインのいずれかによって以前に検出されなかったオブジェクト、及び／又はそれに関連するセンサーの視野内になかったオブジェクトに関連することを示す。追加的又は代替的な例では、１つ又は複数のパイプライン及び／又は追跡４１８からの生のオブジェクト検出は、代替の追跡コンポーネントへの入力として提供されてもよい。いくつかの例では、代替の追跡コンポーネントは、多様な知覚パイプラインからのオブジェクト検出を比較することに少なくとも部分的に基づいて、新しい追跡を決定する、又は以前の追跡を更新するように構成されてもよい。

【0094】

（例示的なアーキテクチャ）
図６は、推定オブジェクト検出を生成するための本明細書で議論されるＭＬモデルの例示的なアーキテクチャ６００のブロック図である。いくつかの例では、例示的なアーキテクチャ６００は、１つのオブジェクト分類又は多様なオブジェクト分類に関連付けられ得る。換言すれば、例示的なアーキテクチャ６００は、特定のオブジェクト分類に関連するオブジェクト検出を受信及び／又は訓練されてもよく、又は例示的なアーキテクチャ６００は、様々なタイプのオブジェクト分類のオブジェクト検出を受信及び／又は訓練され得る。例示的なアーキテクチャ６００が１つのオブジェクト分類に関連付けられる例では、ＭＬモデルは、異なるオブジェクト分類に関連して訓練された例示的なアーキテクチャ６００の多様なインスタンスを含み得る。

【0095】

それにかかわらず、例示的なアーキテクチャ６００は、層の第１のセット６０２、層の第２のセット６０４、及び／又は層の第３のセット６０６を含み得るが、層のセットの追加的又は代替的な数が使用され得る。層は、ＭＬモデルの一部、サブネットワーク、及び／又は別個のネットワークであってもよい。少なくとも１つの例では、層６０２－６０６のセットの少なくとも１つは、少なくとも部分的に上述した損失に基づいて調整された学習パラメータを含み得る１つ又は複数の畳み込み層、及び／又は（例えば、その入力をアップサンプルする）デコンボリューショナル層を含み得る。いくつかの例では、上述した多チャンネル画像は、層の第１のセット６０２、層の第２のセット６０４、及び／又は層の第３のセット６０６のいずれか１つ又は複数への入力として提供されてもよい。上述したように、多チャンネル画像は、現在及び／又は以前の時間ステップからのデータを含み得る。いくつかの例では、層６０２の第１のセットの出力は、集約層６０８及び層６０４の第２のセットへの入力として提供されてもよく、層６０４の第２のセットの出力は、集約層６０８及び層６０６の第３のセットへの入力として提供されてもよく、層の第３のセット６０６の出力は、集約層６０８の入力として提供されてもよい。

【0096】

いくつかの例では、集約層６０８は、データ構造を形成するために、それぞれの層の出力を連結するか、又はアップサンプルして要素ごとに合計し得る。いくつかの例では、集約層６０８によって生成されたデータ構造は、分類層６１０及び／又は回帰層６１２への入力として提供され得る。分類層６１０は、本明細書で議論される分類タスクのための畳み込み層又は他のコンポーネントの１つ又は複数のセットを含み得る。いくつかの例では、分類タスクの出力層は、裕度のテンソル（又は他のデータ構造）を出力してもよく、フィールドの離散部分は、環境の関連部分が分類（例えば、占有空間、オブジェクト分類、速度ビン、方向ビン、高さビン）に関連付けられる裕度を示す。例えば、分類層６１０の層の第１のセットは、環境のそれぞれの部分が占有されているか占有されていないか、及び／又はそれぞれのオブジェクト分類と関連付けられているかを決定してもよく、分類層６１０の層の別のセットは、環境が推定高さビンと関連付けられているかどうか、及びそのように決定してもよい。いくつかの例では、オブジェクト分類層のセットの離散的な部分は、追加的又は代替的に、例示的なＭＬアーキテクチャ６００が訓練されたオブジェクト分類の各々に関連する裕度を含んでもよい。換言すれば、分類出力ヘッドは、環境の一部が分類（例えば、高さビン、オブジェクト分類、占有率）に関連しているか、又は関連していないという二値表示を出力してもよく、又は分類出力ヘッドは、分類を決定するためにＮＭＳアルゴリズムが適用され得る回帰された値を出力してもよい。回帰層６１２の出力層は、ＲＯＩ中心オフセット、ＲＯＩ範囲、速度オフセット、方向オフセット高さオフセット、及び／又は同様のもののような、回帰されているそれらのタスクの値のフィールドを出力し得る。

【0097】

分類層６１０及び／又は回帰層６１２の様々な出力は、推定オブジェクト検出６１４に集約され得る。例えば、これは、ビン値からオフセットを減算すること、分類及び／又は回帰出力に適用される非最大抑制技術に少なくとも部分的に基づいてＲＯＩを決定すること、２つ以上のＲＯＩに関連する中心オフセットに少なくとも部分的に基づいて２つ以上のＲＯＩが関節オブジェクトと関連していると決定し、２つ以上のＲＯＩを単一のオブジェクト検出にグループ化すること、出力を正規化すること、及び／又は出版－購読ネットワーク上で送信するためのメッセージなどの共通のオブジェクト検出形式に出力をフォーマットすることを含んでよい。分類出力がビンを含み、回帰された出力がオフセットを含む例では、ヨー、ヨーレート、高さ、速度、加速度、オブジェクト範囲、及び／又は同様のものに使用され得るように、分類は、値の範囲（例えば、０－５メートル、０－１０マイル／時）であり得るビンを示し、（回帰）オフセットがビンの基準点から減算される正又は負の値を指定し得る。例えば、基準点は、ビンの中心値（例えば、０から５メートルの範囲を指定するビンにおける３メートル）又はビンの端部（例えば、０から５メートルの範囲を指定するビンにおける０メートル又は５メートル）であり得る。本明細書で議論されるＭＬモデルによって出力されるデータ構造の一部として示される姿勢は、オブジェクトの位置、中心、及び／又は向き（例えば、向きはヨーを含んでよい）を含んでよいことに注意されたい。いくつかの例では、姿勢は、追加的に又は代替的に、オブジェクトの範囲を含んでいてもよい。

【0098】

（例示項）
Ａ．方法であって、第１のセンサータイプに関連付けられた第１のオブジェクト検出及び第２のセンサータイプに関連付けられた第２のオブジェクト検出を受信することであって、第１のオブジェクト検出及び第２のオブジェクト検出は自律車両を取り巻く環境内のオブジェクトを識別することと、オブジェクトに関連付けられた追跡を受信することであって、追跡はオブジェクトの推定された以前の位置、以前の関心領域、又はオブジェクトの以前の速度の少なくとも１つを識別することと、第１のオブジェクト検出、第２のオブジェクト検出、及び追跡の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、ＭＬモデルから、オブジェクトに関連付けられた関心領域、オブジェクト分類、及び姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられた位置又はヨーの少なくとも１つを示すことと、データ構造に少なくとも部分的に基づいてオブジェクトに関連付けられた更新された追跡を決定することであって、更新された追跡は、追跡、現在の位置、及び、関心領域又はオブジェクトに関連付けられたヨーの少なくとも１つ、の少なくとも一部を含むことと、更新された追跡に少なくとも部分的に基づいて自律車両を制御することと、を含む方法。

【0099】

Ｂ．段落Ａに記載の方法であって、データ構造が、オブジェクトが静的又は動的であるという指示、環境のトップダウンセグメンテーションの少なくとも１つをさらに、含む方法。

【0100】

Ｃ．段落Ａ又は段落Ｂのいずれかに記載の方法であって、更新された追跡を決定することが、関心領域の以前の関心領域に対するアライメントの程度を決定すること、及びアライメントの程度がアライメントの程度の閾値を満たすか超えることを決定することを備える方法。

【0101】

Ｄ．段落ＡからＣのいずれか１つに記載の方法であって、第１のオブジェクト検出及び第２のオブジェクト検出が、オブジェクトに関連付けられた初期の推定を含み、データ構造が、オブジェクトに関連づけられた１つ又は複数の洗練された推定を備える方法。

【0102】

Ｅ．段落Ａから段落Ｄのいずれか１つに記載の方法であって、第１のオブジェクト検出が生成された時間より以前の時間に関連付けられた第１の事前のオブジェクト検出を受信することと、第２のオブジェクト検出が生成された時間より以前の時間に関連付けられた第２の事前のオブジェクト検出を受信することと、第１のオブジェクト検出、第２のオブジェクト検出、及び追跡に加え、第１の事前のオブジェクト検出及び第２の事前のオブジェクト検出をＭＬモデルに入力すること、をさらに含む方法。

【0103】

Ｆ．段落Ａから段落Ｅのいずれか１つに記載の方法であって、第１のオブジェクト検出、第２のオブジェクト検出、及び追跡の少なくとも一部を入力することは、第１のオブジェクト検出、第２のオブジェクト検出、及び追跡の少なくとも一部に基づいて多チャネル画像を生成すること、及び多チャネル画像をＭＬモデルに入力することを含む方法。

【0104】

Ｇ．システムであって、１つ又は複数のプロセッサと、１つ又は複数のプロセッサによって実行されると、システムに第１の出力と第２の出力を受信することと、環境内のオブジェクトに関連付けられた追跡を受信することであって、追跡はオブジェクトの推定された以前の位置、以前の関心領域、又はオブジェクトの以前の速度の少なくとも１つを識別することと、第１の出力、第２の出力、及び追跡の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、ＭＬモデルから、関心領域、オブジェクト分類、及びオブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられた位置又はヨーの少なくとも１つを示すことと、データ構造に少なくとも部分的に基づいてオブジェクトに関連付けられた更新された追跡を決定することであって、更新された追跡は、追跡、現在の位置、及び、関心領域又はオブジェクトに関連付けられたヨーの少なくとも１つ、の少なくとも一部を含むことと、を含む動作を実行させるプロセッサ実行可能な命令を格納したメモリと、を含むシステム。

【0105】

Ｈ．段落Ｇに記載のシステムであって、動作が、更新された追跡に少なくとも部分的に基づいて車両を制御することをさらに含むシステム。

【0106】

Ｉ．段落Ｇ又は段落Ｈのいずれかに記載のシステムであって、第１の出力がオブジェクトに関連付けられた初期の推定を含み、データ構造が、オブジェクトに関連付けられた洗練された推定を含むシステム。

【0107】

Ｊ．段落Ｇから段落Ｉのいずれか１つに記載のシステムであって、データ構造が、オブジェクトが静的又は動的であるという指示、環境のトップダウンセグメンテーション、ヨーレート、オブジェクトに関連付けられた速度、又はオブジェクトに関連付けられた加速度の少なくとも１つをさらに含むシステム。

【0108】

Ｋ．段落Ｇから段落Ｊのいずれか１つに記載のシステムであって、第１の出力が、第１の知覚パイプラインの出力であり、第２の出力が、第２の知覚パイプラインの出力であり、第３の出力が、第１の出力及び第２の出力に関連付けられた環境の部分が非占有であることを示し、第３の出力が、第１の出力及び第２の出力に加え、ＭＬモデルの入力として提供されるシステム。

【0109】

Ｌ．段落Ｇから段落Ｋのいずれか１つに記載のシステムであって、更新された追跡を決定することが、以前の関心領域に対する関心領域のアライメントの程度を決定することと、アライメントの程度がアライメントの程度の閾値を満たす又は超えることを決定することと、を含むシステム。

【0110】

Ｍ．段落Ｇから段落Ｌのいずれか１つに記載のシステムであって、第１の出力又は第２の出力の少なくとも１つが、トップダウン視点からの環境の表現、環境の部分が占有されているという指示、占有された環境の部分の表現、オブジェクトに関連付けられた関心領域、オブジェクトに関連付けられた分類、センサーデータセグメンテーション、センサーデータの３次元離散化表現、オブジェクトに関連付けられたヨー、オブジェクトに関連付けられたヨーレート、地面の高さ推定、オブジェクトに関連付けられた範囲のセット、オブジェクトに関連付けられた速度、又は、オブジェクトに関連付けられた加速度、の少なくとも１つを含むシステム。

【0111】

Ｎ．段落Ｇから段落Ｍのいずれか１つに記載のシステムであって、動作が、第１の出力が生成された時間より以前の時間と関連付けられた第１の事前の環境表現を受信することであって、第１の事前の環境表現は、第１の知覚パイプラインに関連付けられることと、第２の出力が生成された時間より以前の時間と関連付けられた第２の事前の環境表現を受信することであって、第１の事前の環境表現は、第１の知覚パイプラインに関連付けられることと、第１の出力、第２の出力、追跡に加え、第１の事前の環境表現、及び第２の事前の環境表現をＭＬモデルに入力することと、をさらに含むシステム。

【0112】

Ｏ．段落Ｇから段落Ｍのいずれか１つに記載のシステムであって、第１の出力、第２の出力、及び追跡の少なくとも一部を入力することが、第１の出力、第２の出力、及び追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を生成することをさらに含むシステム。

【0113】

Ｐ．プロセッサ実行可能な命令を格納した非一時的コンピュータ可読媒体であって、１つ又は複数のプロセッサによって実行されると、第１のプロセスに関連付けられた第１の出力、及び第２のプロセスに関連付けられた第２の出力を受信することと、環境内のオブジェクトに関連付けられた追跡を受信することであって、追跡は、オブジェクトの推定された以前の位置、以前の関心領域、又はオブジェクトの以前の速度の少なくとも１つを識別することと、第１の出力、第２の出力、及び追跡の少なくとも一部を機械学習（ＭＬ）モデルに入力することと、ＭＬモデルから、関心領域、オブジェクト分類、及びオブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられた位置又はヨーの少なくとも１つを示すことと、データ構造に少なくとも部分的に基づいて、オブジェクトに関連付けられた更新された追跡を決定することであって、更新された追跡は、追跡、現在の位置、及び関心領域又はオブジェクトに関連付けられたヨーの少なくとも１つ、の少なくとも一部を含むことと、を含む動作を少なくとも１つ又は複数のプロセッサに実行させる、非一時的コンピュータ可読媒体。

【0114】

Ｑ．段落Ｐに記載の非一時的コンピュータ可読媒体であって、第１の出力が、オブジェクトに関連付けられた初期の推定を含み、データ構造が、オブジェクトに関連付けられた最終的な推定を含む非一時的コンピュータ可読媒体。

【0115】

Ｒ．段落Ｐ又は段落Ｑのいずれかに記載の非一時的コンピュータ可読媒体であって、データ構造が、オブジェクトが静的又は動的であるという指示、環境のトップダウンセグメンテーション、ヨーレート、オブジェクトに関連付けられた速度、又はオブジェクトに関連付けられた加速度の少なくとも１つをさらに含む非一時的コンピュータ可読媒体。

【0116】

Ｓ．段落Ｐから段落Ｒのいずれか１つに記載の非一時的コンピュータ可読媒体であって、第１の出力又は第２の出力の少なくとも１つが、トップダウン視点からの環境の表現、環境の部分が占有されているという指示、占有された環境の部分の表現、オブジェクトに関連付けられた関心領域、オブジェクトに関連付けられた分類、センサーデータセグメンテーション、センサーデータの３次元離散化表現、オブジェクトに関連付けられたヨーオブジェクトに関連付けられたヨーレート、地面の高さ推定、オブジェクトに関連付けられた範囲のセット、オブジェクトに関連付けられた速度、又は、オブジェクトに関連付けられた加速度、の少なくとも１つを含む非一時的コンピュータ可読媒体。

【0117】

Ｔ．段落Ｐから段落Ｓのいずれか１つに記載の非一時的コンピュータ可読媒体であって、第１の出力、第２の出力、及び追跡の少なくとも一部を入力することが、第１の出力、第２の出力、及び追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を生成することをさらに含む、請求項１０から１３のいずれか一項に記載の非一時的コンピュータ可読媒体。

【0118】

Ｕ．自律車両であって、段落Ｇから段落Ｏのいずれか１つに記載のシステムを含む自律車両。

【0119】

Ｖ．システムであって、１つ又は複数のプロセッサと、１つ又は複数のプロセッサによって実行されると、システムに段落Ａから段落Ｆのいずれか１つに記載の方法を含む動作を実行させるプロセッサ実行可能な命令を可能するメモリと、を含むシステム。

【0120】

（結論）
構造的特徴及び／又は方法論的行為に特有の言語で主題を説明してきたが、添付の請求項に定義される主題は、必ずしも説明された特定の特徴又は行為に限定されないことが理解される。むしろ、特定の特徴及び行為は、特許請求の範囲を実施する例示的な形態として開示されている。

【0121】

本明細書で説明されるコンポーネントは、任意のタイプのコンピュータ可読媒体に格納され得る命令を表し、ソフトウェア及び／又はハードウェアで実装され得る。上述した方法及びプロセスの全ては、１つ又は複数のコンピュータ又はプロセッサ、ハードウェア、又はそれらのいくつかの組み合わせによって実行されるソフトウェアコードコンポーネント及び／又はコンピュータ実行可能な命令において具現化され、それらを介して完全に自動化されてもよい。方法の一部又は全部は、代替的に、特殊なコンピュータハードウェアで具現化されてもよい。

【0122】

本明細書で議論される処理の少なくともいくつかは、論理フローグラフとして図示され、その各動作は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る動作のシーケンスを表している。ソフトウェアのコンテキストでは、動作は、１つ又は複数のプロセッサによって実行されると、コンピュータ又は自律車両に言及された動作を実行させる、１つ又は複数の非一時的コンピュータ可読記憶媒体上に格納されたコンピュータ実行可能な命令を表す。一般に、コンピュータ実行可能な命令は、特定の機能を実行する、又は特定の抽象的なデータタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が記載される順序は、限定として解釈されることを意図しておらず、記載された動作の任意の数は、処理を実行するために任意の順序で及び／又は並行して組み合わされることができる。

【0123】

特に、「し得る」、「だろう」、「してよい」などの条件付き言語は、特に断らない限り、コンテキスト内で、特定の例が特定の特徴、要素及び／又はステップを含み、他の例が含まないことを提示すると理解される。したがって、このような条件付き言語は、一般に、特定の特徴、要素及び／又はステップが１つ又は複数の例に何らかの形で必要であること、又は１つ又は複数の例が、特定の特徴、要素及び／又はステップが任意の特定の例に含まれるか又は実行されるべきかを、ユーザ入力又はプロンプトの有無にかかわらず決定するための論理を必ず含むことを意味しないように意図されたものである。

【0124】

「Ｘ、Ｙ又はＺの少なくとも１つ」というような接続語は、特に断らない限り、項目、用語などがＸ、Ｙ又はＺのいずれか、又はそれらの任意の組み合わせ（各要素の倍数を含む）であり得ることを示すと理解されるものとする。単数形として明示的に記述されていない限り、「ａ」は単数形及び複数形を意味する。

【0125】

本明細書に記載され、添付図に描かれたフロー図における任意のルーチン記述、要素又はブロックは、ルーチン内の特定の論理機能又は要素を実行するための１つ又は複数のコンピュータ実行可能な命令を含むコードのモジュール、セグメント又は部分を表し得る理解されるべきである。代替的な実装は、当業者に理解されるように、関係する機能に応じて、要素又は機能が削除されるか、又は、実質的に同期して、逆の順序で、追加の動作で、又は動作の省略を含む、示されるか又は議論されたものとは異なる順序で実行され得る、本書に説明される例の範囲内に含まれる。

【0126】

上述した例に対して多くの変形及び修正を行うことができ、その要素は他の許容可能な例の中にあるものとして理解される。全てのそのような修正及び変形は、本開示の範囲内に含まれ、以下の請求項によって保護されることが意図される。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版