(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-07
(45)【発行日】2025-04-15
(54)【発明の名称】オブジェクトの検出及び追跡
(51)【国際特許分類】
G06T 7/215 20170101AFI20250408BHJP
G06V 10/62 20220101ALI20250408BHJP
B60W 30/095 20120101ALI20250408BHJP
G08G 1/16 20060101ALI20250408BHJP
【FI】
G06T7/215
G06V10/62
B60W30/095
G08G1/16 C
(21)【出願番号】P 2022524078
(86)(22)【出願日】2020-10-23
(86)【国際出願番号】 US2020057233
(87)【国際公開番号】W WO2021081459
(87)【国際公開日】2021-04-29
【審査請求日】2023-08-22
(32)【優先日】2019-10-26
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-01-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518156417
【氏名又は名称】ズークス インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】サブハシス ダス
(72)【発明者】
【氏名】ジェームズ ウィリアム ベイジー フィルビン
(72)【発明者】
【氏名】ベンジャミン イサーク ツヴィーベル
(72)【発明者】
【氏名】カイ ユー
【審査官】長谷川 素直
(56)【参考文献】
【文献】特開2019-109691(JP,A)
【文献】特開2016-024534(JP,A)
【文献】国際公開第2017/057061(WO,A1)
【文献】米国特許出願公開第2018/0293445(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/62
B60W 30/095
G08G 1/16
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
システムであって、
1つ又は複数のプロセッサと、
前記1つ又は複数のプロセッサによって実行されると、前記システムに
第1の知覚パイプラインからの第1のオブジェクト検出を含む第1の出力と
、第2の知覚パイプラインからの第2のオブジェクト検出を含む第2の出力を受信することと、
環境内のオブジェクトに関連付けられた
以前の追跡を受信することであって、前記
以前の追跡は前記オブジェクト
の以前の位置
、以前の速度
、以前の加速度及び/又は以前の方位の少なくとも1つを
含むことと、
前記第1の出力、前記第2の出力、及び前記
以前の追跡の少なくとも一部を機械学習(ML)モデルに入力することと、
前記MLモデルから、関心領域、オブジェクト分類、及び前記オブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、前記姿勢は、前記オブジェクトに関連付けられた位置又はヨーの少なくとも1つを示すことと、
前記データ構造に少なくとも部分的に基づいて前記オブジェクトに関連付けられた更新された追跡を決定することであって、前記更新された追跡は、
前記オブジェクトの現在の位置、及び、前記関心領域又は前記オブジェクトに関連付けられた前記ヨー
の1つ
又は複数、の少なくとも一部を含むことと、
を含む動作を実行させるプロセッサ実行可能な命令を格納したメモリと、
を備えるシステム。
【請求項2】
前記動作が、前記更新された追跡に少なくとも部分的に基づいて車両を制御することをさらに備える、請求項1に記載のシステム。
【請求項3】
前記データ構造が、前記オブジェクトが静的又は動的であるという指示、前記環境のトップダウンセグメンテーション、ヨーレート、前記オブジェクトに関連付けられた速度、又は前記オブジェクトに関連付けられた加速度の少なくとも1つをさらに備える、請求項1
又は2に記載のシステム。
【請求項4】
第3の知覚パイプラインから受信された第3の出力が、前記第1の出力及び前記第2の出力に関連付けられた前記環境の部分が非占有であることを示し、
前記第3の出力が、前記第1の出力及び前記第2の出力に加え、MLモデルへの入力として提供される、請求項1から
3のいずれか一項に記載のシステム。
【請求項5】
前記更新された追跡を決定することが、
以前の関心領域に対する前記関心領域のアライメントの程度を決定することと、
前記アライメントの程度が前記アライメントの程度の閾値を満たす又は超えることを決定することと、
を備える、請求項1から
4のいずれか一項に記載のシステム。
【請求項6】
前記第1の出力又は前記第2の出力の少なくとも1つが、
トップダウン視点からの前記環境の表現、
前記環境の部分が占有されているという指示、
占有された前記環境の部分の表現、
前記オブジェクトに関連付けられた
以前の関心領域、
前記オブジェクトに関連付けられた分類、
センサーデータセグメンテーション、
センサーデータの3次元離散化表現、
前記オブジェクトに関連付けられた
以前のヨー、
前記オブジェクトに関連付けられた
以前のヨーレート
、
前記オブジェクトに関連付けられた範囲のセット、
前記オブジェクトに関連付けられた
前記以前の速度、又は、
前記オブジェクトに関連付けられた
前記以前の加速度、
の少なくとも1つを備える、請求項1から
5のいずれか一項に記載のシステム。
【請求項7】
前記動作が、
前記第1の出力が生成された時間より以前の時間と関連付けられた第1の事前の環境表現を受信することであって、前記第1の事前の環境表現は、
前記第1の知覚パイプラインに関連付けられることと、
前記第2の出力が生成された時間より以前の時間と関連付けられた第2の事前の環境表現を受信することであって、前記第2の事前の環境表現は、
前記第2の知覚パイプラインに関連付けられることと、
前記第1の出力、前記第2の出力、前記
以前の追跡
の少なくとも一部に加え、前記第1の事前の環境表現、及び前記第2の事前の環境表現をMLモデルに入力することと、
をさらに備える、請求項1から
6のいずれか一項に記載のシステム。
【請求項8】
前記第1の出力、前記第2の出力、及び前記
以前の追跡の少なくとも一部を入力することが、前記第1の出力、前記第2の出力、及び前記
以前の追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を
入力することをさらに備える、請求項1から
7のいずれか一項に記載のシステム。
【請求項9】
プロセッサ実行可能な命令を格納した非一時的コンピュータ可読媒体であって、1つ又は複数のプロセッサによって実行されると、
第1の知覚パイプラインからの第1のオブジェクト検出を含む第1の出力、及び
第2の知覚パイプラインからの第2のオブジェクト検出を含む第2の出力を受信することと、
環境内のオブジェクトに関連付けられた
以前の追跡を受信することであって、前記
以前の追跡は、前記オブジェクト
の以前の位置
、以前の速度
、以前の加速度及び/又は以前の方位の少なくとも1つを
含むことと、
前記第1の出力、前記第2の出力、及び前記
以前の追跡の少なくとも一部を機械学習(ML)モデルに入力することと、
前記MLモデルから、関心領域、オブジェクト分類、及び前記オブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、前記姿勢は、前記オブジェクトに関連付けられた位置又はヨーの少なくとも1つを示すことと、
前記データ構造に少なくとも部分的に基づいて、前記オブジェクトに関連付けられた更新された追跡を決定することであって、前記更新された追跡は、
前記オブジェクトの現在の位置、及び前記関心領域又は前記オブジェクトに関連付けられた前記ヨー
の1つ
又は複数、の少なくとも一部を含むことと、
を備える動作を前記少なくとも1つ又は複数のプロセッサに実行させる、非一時的コンピュータ可読媒体。
【請求項10】
前記データ構造が、前記オブジェクトが静的又は動的であるという指示、前記環境のトップダウンセグメンテーション、ヨーレート、前記オブジェクトに関連付けられた速度、又は前記オブジェクトに関連付けられた加速度の少なくとも1つをさらに備える、請求項
9に記載の非一時的コンピュータ可読媒体。
【請求項11】
前記第1の出力又は前記第2の出力の少なくとも1つが、
トップダウン視点からの前記環境の表現、
前記環境の部分が占有されているという指示、
占有された前記環境の部分の表現、
前記オブジェクトに関連付けられた
以前の関心領域、
前記オブジェクトに関連付けられた分類、
センサーデータセグメンテーション、
センサーデータの3次元離散化表現、
前記オブジェクトに関連付けられた
以前のヨー、
前記オブジェクトに関連付けられた
以前のヨーレート
、
前記オブジェクトに関連付けられた範囲のセット、
前記オブジェクトに関連付けられた
前記以前の速度、又は、
前記オブジェクトに関連付けられた
前記以前の加速度、
の少なくとも1つを備える、請求項
9又は10に記載の非一時的コンピュータ可読媒体。
【請求項12】
前記第1の出力、前記第2の出力、及び前記
以前の追跡の少なくとも一部を入力することが、前記第1の出力、前記第2の出力、及び前記
以前の追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を
入力することをさらに備える、請求項
9から11のいずれか一項に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オブジェクトの検出及び追跡に関する。
【背景技術】
【0002】
本出願は、2019年10月26日に出願された米国仮出願特許第62/926423号及び2020年1月31日に出願された米国非仮出願特許第16/779576号の利益を主張し、その全体は本明細書に組み込まれる。
【0003】
自律車両は、自律車両が横断する環境に関するデータを取り込むために、センサーを使用し得る。自律車両は、このセンサーデータを使用して、衝突を回避するために環境内のオブジェクトを検出する。しかしながら、自律車両は2つ以上の異なるタイプのセンサーを含んでよく、それに応じてセンサーデータは、その形式と内容が大きく異なることがあるため、2つの異なるセンサータイプによって生成された検出は、異なる場合がある。2つの異なるセンサータイプに関連して決定された検出間の小さな不一致は、車両によって作成されたオブジェクト表現にジッター(すなわち、「飛び回る」)及び/又はフリッカー(すなわち、出現及び消失)を引き起こし得る。また、深度カメラなどのいくつかのセンサータイプは、深度測定の誤差が大きくなりやすく、オブジェクトの追跡がさらに複雑になり得る。これは、車両の安全なナビゲートや機械学習(ML)モデルの訓練を阻害し得る。さらに、不一致を低減するための技術、及び/又はオブジェクト表現又はそれに関連するデータをスムージングするための技術は、コンピューティング帯域及び/又はメモリを消費し得る。
【図面の簡単な説明】
【0004】
詳細な説明は、添付の図面を参照して述べられる。図中で、符号の左端の数字は、その符号が最初に現れる図面を示している。異なる図で同じ符号を使用することは、類似又は同一のコンポーネント又は機能を示す。
【0005】
【
図1】知覚及び追跡コンポーネントを用いて構成された自律車両が、自律車両を取り巻く環境においてオブジェクトの以前及び現在の位置、速度、及び/又は方位を追跡し、追跡に基づいて自律車両を制御するための軌道を少なくとも部分的に生成し得る例示的シナリオを示す図である。
【
図2】、知覚コンポーネント及び追跡コンポーネントを含む例示的なシステムのブロック図である。
【
図3】本明細書で論じられる改善されたオブジェクト追跡技術を達成するためのコンポーネントを含む知覚アーキテクチャの少なくとも一部を示すブロック図である。
【
図4】センサーデータに少なくとも部分的に基づいて生成され得る知覚パイプラインオブジェクト環境表現/オブジェクト検出に基づいて推定オブジェクト検出を決定するための例示的プロセスの絵画入りフロー図である。
【
図5】本明細書で議論される、MLモデルによって決定される推定オブジェクト検出に少なくとも部分的に基づいて環境内のオブジェクトを追跡するための例示的なプロセスの絵画入りフロー図である。
【
図6】推定オブジェクト検出を生成するためのMLモデルの例示的なアーキテクチャのブロック図である。
【発明を実施するための形態】
【0006】
センサーデータを使用してオブジェクトの現在及び/又は以前の位置、速度、加速度、又は方位を追跡するための技術は、最近受信した(例えば、現在の)センサーデータから生成された現在のオブジェクト検出を、以前に受信したセンサーデータから生成された以前のオブジェクト検出に関連付けるかどうかを決定することを含み得る。換言すれば、追跡は、以前のセンサーデータにおいて検出されたオブジェクトが、現在のセンサーデータにおいて検出された同じオブジェクトであることを識別し得る。いくつかの例では、追跡は、追加的又は代替的に、自律車両の計画コンポーネントがオブジェクトの運動/挙動を予測し、自律車両を制御するための軌道及び/又は経路を決定するために有用なオブジェクトに関する様々な現在及び/又は以前のデータを含み得る。例えば、追跡は、追加的又は代替的に、オブジェクトによって現在及び/又は以前に占有された環境の領域の表示、オブジェクトに関連付けられたオブジェクト分類(例えば、車両、大型車両、歩行者、自転車)、オブジェクトに関連付けられた現在/又は以前の方向、オブジェクトの現在及び/又は以前の速度及び/又は加速度、並びにオブジェクトの現在の位置及び/又は速度を含み得るが、その他の任意のパラメータも企図されている。
【0007】
いくつかの例では、センサータイプの1つ又は複数のセンサーは、そのセンサータイプに関連付けられたパイプライン(例えば、一連の動作;ステップ;ネットワーク又はその層;機械学習モデル;アナログ/デジタル変換器、増幅器、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC(s)、及び/又は同様のもの)等のハードウェア)に関連付けられ、関連付けられたセンサーデータに含まれるオブジェクトに関する情報を決定するために使用され得る。センサーデータは、そのタイプの1つ又は複数のセンサーから受信されてもよく、パイプライン(本明細書では、知覚パイプラインと呼ばれることがある)は、センサーデータに少なくとも部分的に基づいて、環境の表現を生成し得る。簡単のために、パイプラインの集合的な出力は、本明細書では、環境表現と呼ばれる。環境表現は、1つ又は複数のオブジェクト検出を含んでよく、1つ又は複数の出力タイプを含んでもよい。例えば、映像パイプライン302は、映像データ310(例えば、1つ又は複数のRGB画像、熱画像を含むセンサーデータ)に少なくとも部分的に基づいて、環境表現308を出力してもよい。
【0008】
環境表現は、環境の一部がオブジェクトによって占有されているという表示及び/又は裕度、検出されたオブジェクトに関連付けられた関心領域(ROI)(例えば、境界ボックス、マスク、セグメンテーション、又は環境の領域がオブジェクトによって占有されているという他の何らかの識別)、オブジェクトのオブジェクト分類、オブジェクトの方向、オブジェクトの速度及び/又は加速度、オブジェクトの高さ、及び/又は同様のものを含み得るオブジェクト検出を含み得る。環境表現は、追加的又は代替的に、その全体が本明細書に組み込まれる米国特許出願第15/963833号においてより詳細に議論されるように、センサーデータのボクセル化表現(そのようなデータの離散化3次元表現)及び/又はトップダウンセグメンテーション、ならびに環境のトップダウン表現を含み得る。米国特許出願第15/963833号は、本明細書で議論される回帰を追加的又は代替的に含むように修正されてもよく、これらの追加的又は代替的な回帰に関連する損失を逆伝播することにより修正されてもよいことに留意されたい。いくつかの例では、本明細書で議論される関心領域は、3次元ROI及び/又は2次元ROI(例えば、ROIのトップダウン/鳥瞰図)であり得る。いくつかの例では、追加の環境表現は、異なるセンサータイプに関連する知覚パイプラインによって生成され得る。
【0009】
いくつかの例では、多様なオブジェクト検出が、環境内の同じオブジェクトに関連して生成され得る。これらの多様なオブジェクト検出は、異なるセンサータイプに関連付けられ得る、異なる知覚パイプラインによって生成される場合がある。例えば、ライダー知覚パイプラインは、ライダーデータを受信し、オブジェクトに関連付けられたオブジェクト検出を決定してもよく、ハイブリッドライダー映像知覚パイプラインは、ライダー及び映像データを受信し、同じオブジェクトに関連付けられた異なるオブジェクト検出を生成してもよく、映像知覚パイプラインは、カメラからの画像を受信し、同じオブジェクトに関連付けられた追加のオブジェクト検出を生成などしてもよい。センサーと知覚パイプラインの違いにより、異なるパイプラインによって生成された同じオブジェクトに関連するオブジェクト検出は、互いに異なり得る。例えば、第1のオブジェクト検出は、同じオブジェクトに関連付けられた第2のオブジェクト検出によって示されるROIとは異なる寸法を有するオブジェクトに関連付けられたROIを示し得る。さらに、あるパイプラインがオブジェクトに関連するオブジェクト検出を生成し、別のパイプラインが検出を全く生成しない場合もある。例えば、レーダーやライダーのパイプラインがオブジェクトを検出しても、そのオブジェクトはカメラの視野から外れている場合がある。
【0010】
いくつかの例では、本明細書で議論される技術は、異なるセンサータイプに関連付けられた環境表現の少なくとも一部を集約することと、推定オブジェクト検出を出力するように訓練されたMLモデルへの入力として集約されたデータを提供することと、を含み得る。いくつかの例では、集約されたデータは、多チャネル画像で表現されてもよく、異なるチャネルは、知覚データが生成された異なるセンサータイプ及び/又は知覚データの異なるタイプに関連付けられ得る。例えば、集約されたデータは、ライダー、映像、及び/又はレーダー占有グリッド{例えば、それぞれのセンサーデータタイプに関連付けられた知覚パイプラインに従って環境内の対応する位置が占有されているか否かを示すピクセルなどの離散部分を有するグリッド}、ライダー、映像、及び/又はレーダーと関連して生成されたROIのトップダウン表示、環境の一部と関連付けられたオブジェクト分類、環境の一部が占有されている確率、検出されたオブジェクトのヨー、及び/又は同類のものを含み得る。占有マップに関する米国特許出願第16/591518号を参照し、その全体が参照により本明細書に組み込まれる。いくつかの例では、占有グリッドは、自律車両の高さにバッファを加えたものに対応し得る最大高さまで延びてもよい。換言すれば、占有グリッドは、最大高さより下の環境の一部の占有を示し得る。例えば、道路上に設置された信号機や看板は、最大高さを超えている可能性があるため、占有グリッドは環境の一部を占有していることを示さない。
【0011】
いくつかの例では、集約されたデータは、追加的又は代替的に、リモートコンピューティングデバイスからのデータ、及び/又は、例えば、マップデータ(例えば、道路データ、走行可能な路面位置、目的地)、気象データ、交通通知(例えば、渋滞、衝突、車線変更、工事、速度変更)、安全通知(例えば、環境的に危険な位置、災害位置、路面状態、視界状態)等の非認識ベースのデータ、及び/又は、同様のものを含み得る。いくつかの例では、遠隔コンピューティングデバイスは、別の自律車両、第三者サービス、分散コンピューティングデバイス、リモートセンサー、及び/又は同様のものであり得る。
【0012】
いくつかの例では、異なるパイプラインから集約されたデータは、さらに、1つ又は複数の以前の時間に対する環境表現の少なくとも一部を含み得る。例えば、異なるセンサータイプに関連する知覚パイプラインは、同じ頻度(例えば、100ミリ秒ごと、500ミリ秒ごと、1秒ごと)で環境表現を生成するように同期化され得る。知覚パイプラインが、500ミリ秒ごとに実質的に同じ時間に環境表現を出力するように同期される例では、集約されたデータは、0ミリ秒(すなわち、環境表現の最近受信したセットに対応する集約されたデータのセット)、-500ミリ秒、1秒、など、上述したデータを含んでもよい。少なくとも一例では、集約されたデータは、任意の適切な時間ステップが使用され得るが、時間ステップ0ミリ秒、-100ミリ秒、-200ミリ秒、-300ミリ秒、及び/又は400ミリ秒、及び/又は1秒、-2秒、及び/又は3秒の集約データを含む多チャネル画像を含み得る。例えば、集約されたデータは、現在及び最後のn個の時間ステップについて異なるパイプラインから受信されたオブジェクト検出を含んでもよく、ここでnは正の整数(例えば、1、2、3、4、5、10、及び/又は同様のもの)である。
【0013】
いくつかの例では、1つ又は複数の以前に生成された追跡が、集約されたデータに加えて(例えば、集約されたデータのチャネルとして)MLモデルへの入力として提供され得る。例えば、追跡は、すべての時間ステップに関連して、又は間隔(例えば11つおきの時間ステップ)で生成され得る。以前に生成された追跡は、多チャネル画像内のチャネルとして含まれてもよい。いくつかの例では、追跡は、オブジェクトに関連付けられたROIの中心、範囲、及び/又はヨー、並びにオブジェクトに関連して生成された他の以前の関心領域とROIを関連付けた識別子を含み得る。
【0014】
いくつかの例では、MLモデルは、1つ又は複数の推定オブジェクト検出を含み得る最終的な環境表現を出力するように訓練されてもよい。上述したように、オブジェクトに関連するオブジェクト検出は、異なるパイプライン間で次元、位置、又は存在さえも異なり得る。最終的な環境表現は、異なるパイプラインから受信した(例えば、集約されたデータの一部としてMLモデルへの入力として受信した)オブジェクト検出に少なくとも部分的に基づいて決定される、オブジェクトごとの単一の推定オブジェクト検出を含み得る。例えば、MLモデルによって生成された推定オブジェクト検出は、占有されているとして環境の一部を識別するROI(例えば、オブジェクトに関連する領域)、将来の時間に関連する予測ROI、ROIに関連する速度、ROIに関連するオブジェクト分類(例えば、車両、歩行者、大型車両、自転車)、ROIの速度の分類(例えば、静的、又は動的)ROIに関連する方位(例えば、ヨー)、及び/又は方位のビン(例えば、0度及び180度を中心とする2つのビン;0度、90度、180度及び270度を中心とする4つのビン;この出力は、ビン中心からの距離をさらに含み得る)、及び/又はROIに関連する高さ(例えば、検出されたオブジェクトの高さ)を含み得る。いくつかの例では、任意の関心領域は、非最大抑制技術に従うなど、信頼層の出力に少なくとも部分的に基づいて生成され得る。例えば、その全体が本明細書に組み込まれる米国特許出願第16/013764号及び米国特許出願第16/013729号を参照されたい。
【0015】
いくつかの例では、MLモデルの出力は、各ピクセルが上記の情報を格納する画像を含み得る。例えば、最終的な環境表現は、画像のような環境のトップダウン表現を含み得る。画像は、上述したデータを示してもよい。画像のピクセルは、環境の一部が占有されていること、その部分を占有するオブジェクトのオブジェクト分類、そのオブジェクトの速度などを示してもよい。オブジェクト検出は、占有されていること及び/又は上述したデータ(例えば、オブジェクト分類、オブジェクト速度、オブジェクト方位)と関連付けられていることが示されているピクセルの領域(又は最終環境の他の離散部分)として最終環境で示されてもよい。
【0016】
いくつかの例では、本技術は、以前に生成された追跡を最終的な環境表現の推定オブジェクト検出のうちの1つに関連付けるかどうか、及び/又は新しい追跡を生成するかどうかを決定することをさらに含み得る。いくつかの例では、本技術は、以前の追跡を受信することと、以前の追跡に関連付けられたROIを、以前の追跡に関連付けられた以前の時間フレームから現在及び/又は将来の時間フレームに投影することと、を含み得る。例えば、これは、ROIの位置及び/又は方位の表現を変更することを含み得る。追加的又は代替的な例では、予測されたROIは、以前の時間ステップでMLモデルによって出力された予測されたROIを含み得る。本技術は、MLモデルによって生成された推定オブジェクト検出のいずれかと投影されたROIの関連性を決定することを含み得る。例えば、関連性の程度は、重複の程度(例えば、IOU(Intersection Over Union))、Munkres割当てスコア、サイズ比較、特徴比較(例えば、投影されたROIは推定オブジェクト検出と同じオブジェクト分類と関連するか、投影されたROIに関連付けられた速度と、推定オブジェクト検出に関連して予測された速度との間に大きな格差があるか)を決定することを含み得る。)及び/又は同様のものを決定することを含み得る。いくつかの例では、関連性の程度を決定することは、機械学習的及び/又は決定論的であり得るスコアリング関数に符号化されてもよい。例えば、IOUは、決定論的に決定され、推定オブジェクト検出ROIに対する投影されたROIの位置及びサイズの表現と共に、関連性の程度に対するスコアを決定するMLモデルへの入力として使用されてもよい。
【0017】
関連性が閾値を満たすか又は超える場合、本技術は、以前の追跡と推定オブジェクト検出とを関連付けることを含み得る。しかしながら、関連性が閾値を満たさない場合、本技術は、推定オブジェクト検出を他の任意の投影されたROI(例えば、推定オブジェクト検出と重なるか、又は閾値距離内にある他のROI)でテストすること、及び/又は推定オブジェクト検出と一致する投影されたROIがない場合、新しい追跡を関連させて生成することを含み得る。追加的又は代替的な例では、推定オブジェクト検出が以前のオブジェクト検出/追跡に対応するときを決定するために追加的又は代替的なデータが使用され得るが、以前の追跡が推定オブジェクト検出と関連付けられる、又は新しい追跡がIOUだけに基づいてより簡単に生成されてもよい。
【0018】
本明細書で議論される技術は、車両の周囲にあるオブジェクトの運動及び/又は挙動を予測する車両の能力を向上、及び/又は一時的に遮蔽されている可能性があるオブジェクトを考慮し続けることによって、車両の安全性を向上させ得る。また、本技術は、知覚システムの動作範囲を増加させ得る(例えば、車両から40メートル、60メートル、又は80メートルに増加される)。少なくともいくつかの例において、本技術は、特に、異なるセンサー様式が異なるサイズの関心領域を生成する場合、センサー様式に関連する深度推定値が変化する場合、オブジェクトがオーバーセグメンテーション及び/又はアンダーセグメンテーションされる場合、オブジェクトに関連する追跡を決定するための計算帯域をさらに減少させ得る。オブジェクトを追跡するために多様なセンサー様式を使用する他の技術は、各センサー様式からのオブジェクト検出を以前の追跡と比較することを必要とし得るが、インスタント技術は、MLモデルによって決定される推定オブジェクト検出を以前の追跡と比較することを含む。本技術は、オブジェクト検出(例えば、オブジェクト位置、セグメンテーション)及び/又は追跡の精度を向上させ得る。基礎となるオブジェクト検出がより安定しているため、本明細書で議論される技術を使用して生成された追跡は、ジッターが少ない。
【0019】
(例示的なシナリオ)
図1は、車両102を含む例示的なシナリオ100を示している。いくつかの例では、車両102は、運転者(又は乗員)がいつでも車両を制御することが期待されない状態で、全移動についてすべての安全-重要な機能を実行することができる車両を記述する米国道路交通安全局が発行したレベル5の分類に従って動作するように構成された自律車両であり得る。しかしながら、他の例では、車両102は、任意の他のレベル又は分類を有する完全又は部分的な自律車両であってもよい。本明細書で議論される技術は、自律車両のためのような、よりロボッティックなものに適用され得ることが企図される。例えば、本明細書で議論される技術は、採掘、製造、拡張現実などに適用されてもよい。さらに、車両102が陸上車両として描かれているにもかかわらず、車両102は宇宙船、水上機、及び/又は同様のものであってもよい。いくつかの例では、車両102は、模擬車両としてシミュレーションで表現され得る。簡略化のため、本明細書における議論は、模擬車両と実世界の車両とを区別していない。したがって、「車両」への言及は、シミュレーションされた車両及び/又は実世界の車両を参照し得る。
【0020】
本明細書で議論される技術によれば、車両102は、車両102のセンサー104からセンサーデータを受信し得る。例えば、センサー104は、位置センサー(例えば、グローバルポジショニングシステム(GPS)センサー)、慣性センサー(例えば、加速度センサー、ジャイロセンサー等)、磁気センサー(例えば、コンパス)、位置/速度/加速度センサー(例えば、速度計、駆動系センサー)、深度位置センサー(例えば、ライダーセンサー、レーダーセンサー、ソナーセンサー、Time of Flight(ToF)カメラ、深度カメラ、超音波及び/又はソナーセンサー、及び/又は他の深度感知センサー)、画像センサー(例えば、カメラ)、音声センサー(例えば、マイク)、及び/又は環境センサー(例えば、気圧計、湿度計など)を含み得る。
【0021】
センサー104は、センサーデータを生成し得、それは、車両102に関連するコンピューティングデバイス106によって受信され得る。しかしながら、他の例では、センサー104及び/又はコンピューティングデバイス106の一部又は全部は、車両102とは別であってよく、及び/又は車両102から遠隔地に配置されてよく、データの取り込み、処理、コマンド、及び/又は制御は、有線及び/又は無線ネットワークを介して、1つ又は複数のリモートコンピューティングデバイスにより車両102に/から伝達されてもよい。
【0022】
コンピューティングデバイス106は、知覚コンポーネント110、計画コンポーネント112、追跡コンポーネント114、及び/又はシステムコントローラ116を格納するメモリ108を含み得る。
図1では例示の目的で描かれているが、追跡コンポーネント114は、他のコンポーネントのいずれか1つ又は複数とは別のコンピューティングデバイス(又はそれ以外)に存在してもよいことが理解されるべきである。通常、知覚コンポーネント110は、車両102を取り巻く環境に何があるかを決定し得、計画コンポーネント112は、知覚コンポーネント110から受信した情報に従って車両102をどのように動作させるかを決定し得る。例えば、計画コンポーネント112は、知覚データ及び/又は例えば1つ又は複数のマップ、定位情報(例えば、知覚コンポーネント110によって検出されたマップ及び/又は特徴に対する車両102の環境内の位置)等の他の情報に少なくとも部分的に基づいて軌道118を決定し得る。軌道118は、コントローラ116が、車両102の駆動コンポーネントを動作させてステアリング角及び/又はステアリングレートを実現するための命令を含んでよく、これにより、車両位置、車両速度、及び/又は車両加速度がもたらされ得る。例えば、軌道118は、コントローラ116が追跡するための目標方位、目標ステアリング角、目標ステアリングレート、目標位置、目標速度、及び/又は目標加速度を含み得る。知覚コンポーネント110、計画コンポーネント112、及び/又は追跡コンポーネント114は、1つ又は複数の機械学習(ML)モデル及び/又は他のコンピュータ実行可能命令を含み得る。
【0023】
いくつかの例では、コントローラ116は、軌道118を追跡するのに十分な車両102の駆動コンポーネントを作動させるためのソフトウェア及び/又はハードウェアを含み得る。例えば、コントローラ116は、1つ又は複数のProportional-Integral-Derivative(PID)コントローラを含み得る。
【0024】
いくつかの例では、知覚コンポーネント110は、センサー104からセンサーデータを受信し、車両102の近傍にあるオブジェクトに関連するデータ(例えば、検出されたオブジェクトに関連するオブジェクト分類、インスタンスセグメンテーション、セマンティックセグメンテーション、2次元及び/又は3次元の境界ボックス、追跡)、車両の目的地を指定するルートデータ、道路の特徴を特定するグローバルマップデータ(例えば、自律車両の定位に有用な異なるセンサー様式で検出可能な特徴)、車両に近接して検出された特徴を特定するローカルマップデータ(例えば、建物、木、フェンス、消火栓、停止標識、及び様々なセンサー様式で検出可能な他の任意の特徴の位置及び/又は寸法)、追跡データ(例えば、本明細書で議論する環境表現、オブジェクト検出及び/又は追跡)などを決定し得る。
【0025】
いくつかの例では、知覚コンポーネント110は、ハードウェア及び/又はソフトウェアのパイプラインを含んでよく、それは、1つ又は複数のGPU、MLモデル、カルマンフィルタ、及び/又は同様のものを含んでもよい。いくつかの例では、知覚コンポーネント110は、センサーの能力、オブジェクト及び/又は環境のオクルージョン(例えば、建物、高低差、他のオブジェクトの前にあるオブジェクト)、及び/又は霧、雪などの環境効果によって制限され得る、自律車両の周囲の環境のできるだけ多くを監視し得る。例えば、センサーデータは、知覚コンポーネント110が入力として受信し得るライダー及び/又はレーダーデータを含んでもよい。知覚コンポーネント110は、軌道118を決定する際に計画コンポーネント112によって考慮されるべき事象又はオブジェクトの挙動を考慮しないことを避けるために、できるだけ多くのオブジェクト及び環境に関する情報を検出するように構成され得る。
【0026】
知覚コンポーネント110によって決定されたオブジェクト分類は、例えば、乗用車、歩行者、自転車、配送トラック、セミトラック、交通標識、及び/又は同様のものなどの異なるオブジェクトタイプを区別し得る。追跡は、過去、現在、及び/又は予測されるオブジェクトの位置、速度、加速度、及び/又は方位を含み得る。知覚コンポーネント110によって生成されたデータは、知覚データと称されてもよい。知覚コンポーネント110が知覚データを生成すると、知覚コンポーネント110は、知覚データを計画コンポーネント112に提供し得る。いくつかの例では、知覚データは、センサー特定パイプライン(例えば、映像、ライダー、レーダー)及び/又はハイブリッドセンサーパイプライン(例えば、映像-ライダー、レーダーライダー)の出力を含み得る。知覚データは、本明細書で議論されるように、追加的又は代替的に、追跡、推定オブジェクト検出、及び/又は最終的な環境表現を含み得る。
【0027】
計画コンポーネント112は、知覚コンポーネント110から受信した知覚データを使用して、1つ又は複数の軌道を決定し、経路又はルートを横断するために車両102の動きを制御、及び/又は車両102の動作を他の方法で制御し得るが、任意のそのような動作は、他の種々のコンポーネント(例えば、定位は定位コンポーネントによって行われてもよく、それは知覚データに少なくとも部分的に基づいてもよい)において行われてもよい。例えば、計画コンポーネント112は、第1の場所から第2の場所への車両102の経路を決定し;実質的に同時に、かつ知覚データ及び/又はシミュレーション知覚データ(当該データにおいて検出されたオブジェクトに関する予測をさらに含み得る)に少なくとも部分的に基づいて、ルートを横断する(例えば、検出されたオブジェクトのいずれかを回避するために)よう車両を制御するためにReceding Horizon技術に従って(例えば、1マイクロ秒、半秒)車両102の動作を制御するための複数の潜在的な軌道を生成し;車両102の駆動コンポーネントに送信され得る駆動制御信号を生成するために使用され得る車両102の軌道118として潜在的な軌道のうちの1つを選択し得る。
図1は、方位、速度、及び/又は加速度を示す矢印として表される、そのような軌道118の一例を示すが、軌道自体は、コントローラ116に対する命令を含んでもよく、このコントローラは、順に、車両102の駆動システムを作動させ得る。
【0028】
追跡コンポーネント114は、それぞれの知覚パイプライン(例えば、映像パイプライン、ライダーパイプライン、ハイブリッド映像ライダーパイプライン、レーダーパイプライン、ハイブリッド映像ライダーレーダーパイプライン、及び/又は同様のもの)から1つ又は複数の環境表現及び/又はオブジェクト検出を受信し、以前に生成した追跡を現在のオブジェクト検出と関連付けるか否か、又は現在のオブジェクト検出と関連付けた新しい追跡を生成するかを決定し得る。追跡コンポーネント114は、追加的又は代替的に、異なるオブジェクト検出の要約として機能し得る最終的な環境表現及び/又は推定オブジェクト検出を決定し得る。いくつかの例では、本明細書で議論される追跡コンポーネント114は、推定オブジェクト検出を含み得る最終的な環境表現を出力するように訓練される本明細書で議論されるMLモデルに、1つ又は複数のセンサータイプ(例えば、ライダー、RGBカメラ、熱画像、ソナー、レーダーなどの離散センサータイプ;及び/又は映像-ライダー関連付け、ライダーレーダー関連付けなどのハイブリッドセンサータイプ)によって生成されたオブジェクト検出及び/又は環境表現に入力することにより推定オブジェクト検出を決定し得る。いくつかの例では、以前の追跡の投影に対する推定オブジェクト検出の関連性(例えば、IOU(Intersection Over Union)、サイズ及び/又は特徴比較に少なくとも部分的に基づくスコア)が閾値を満たすか又は超える場合、推定オブジェクト検出は、生のオブジェクト検出に基づいて決定するのではなく、以前の追跡に関連付けられ得る。IOUが閾値未満である場合、生のオブジェクト検出は、決定に含まれてもよい。
【0029】
例えば、
図1は、追跡コンポーネント114のMLモデルによって決定される最終的な環境表現の一部であり得る、環境のトップダウン表現120を示している。トップダウン表現120は、この場合、推定ROI122として図示されるオブジェクト検出を示している。トップダウン表現120及び/又は推定ROI122は、1つ又は複数の知覚パイプラインから受信したオブジェクト検出に少なくとも部分的に基づいて、追跡コンポーネント114のMLモデルによって決定されてもよい。例えば、MLモデルへの入力として提供されたオブジェクト検出は、画像124に関連付けられた3次元ROI、そのうちの1つはROI126として示され、ライダーデータ128(例えば、2次元及び/又は3次元であり得る)に関連付けられたトップダウンROI、そのうちROI130が示されていたものを含んでもよい。
【0030】
推定ROI122は、知覚パイプラインの少なくとも1つによって識別されたオブジェクトに関連して、MLモデルによって生成された推定オブジェクト検出の一部であり得る。推定ROI122は、中心132及び範囲(黒線)を含むように描かれている。範囲は、推定オブジェクト検出に関連してMLモデルによって決定されたオブジェクト分類に関連付けられたアンカーボックスに少なくとも部分的に基づいて定義されてもよい。追加的又は代替的な例では、推定ROIは、別の形式の境界形状又はマスクなど、トップダウン表現の部分の任意の他の識別を含み得る。
【0031】
図1は、また、1つ又は複数のオブジェクト検出と関連して追跡コンポーネント114によって以前に生成された追跡136と関連付けられた以前のROI134を示している。いくつかの例では、追跡136は、1つ又は複数の以前のオブジェクト検出を関連付け、及び/又は、速度、加速度、方位、オブジェクト分類、固有識別子、オクルージョン状態(例えば、オブジェクトが現在/以前に1つ又は複数のセンサーから部分的又は完全に遮蔽されているか否か)等のそれに関連するデータを示し得る。以前のROI134は、それに関連するものとして本明細書で議論されるデータのいずれか(例えば、占有マップ、トップダウンセグメンテーション、オブジェクト分類、オブジェクト方位、オブジェクト速度及び/又は加速度)に関連付けられ得る。例えば、以前のROI134は、オブジェクト138及びオブジェクト分類140の「車両」と関連付けられ得る。例示のために、以前のROI134は、追跡136に関連する最近のオブジェクト検出と関連付けられてもよい。
【0032】
本明細書で議論される技術は、推定ROI122に関連する時間に以前のROI134を投影することを含んでよく、これは、追跡136及びそれに関連するデータに基づいて以前のROI134に関連するオブジェクトの位置、向き、速度、加速度、及び/又は同様のものを予測することを含み得る。
図1は、以前のROI134のそのような投影142を破線で描写している。描かれた例では、推定ROI122も車両と関連付けられているため、推定ROI122間のIOUは関連度閾値を満たし、及び/又は投影142と推定ROI122との間のIOUはIOU閾値を満たす、又は超えている。
【0033】
それにかかわらず、追跡は、中心、範囲、及び推定オブジェクト検出が推定ROI122を含み得る、少なくとも以前のROIを含んでよい。いくつかの例では、本明細書で議論される技術は、追跡に関連する速度及び/又は方位に少なくとも部分的に基づいて、以前のROIを投影することを含み得る。推定ROI130に対する投影ROI142のIOU、中心間の距離、嵌め込み間の距離、又はMunkres割当てが閾値を満たす場合、推定オブジェクト検出は追跡136に追加され得る。そうでない場合、推定オブジェクト検出は、新しい追跡に関連付けられ、及び/又は代替の追跡コンポーネントが生の検出を使用して追跡を生成し得る。
【0034】
(例示的なシステム)
図2は、本明細書で議論される技術を実施するための例示的なシステム200のブロック図を示す。いくつかの例では、例示的なシステム200は、
図1の車両102を表すことができる車両202を含むことができる。いくつかの例では、車両202は、運転者(又は乗員)がいつでも車両を制御することが期待されない状態で、全旅程のためにすべての安全上重要な機能を実行できる車両を記述する米国道路交通安全局が発行したレベル5の分類に従って動作するように構成された自律車両であってよい。しかしながら、他の例では、車両202は、任意の他のレベル又は分類を有する完全又は部分的な自律車両であってもよい。さらに、いくつかの例では、本明細書に記載された技術は、非自律車両によっても使用可能であり得る。
【0035】
車両202は、車両コンピューティングデバイス204、センサー206、エミッタ208、ネットワークインターフェース210、及び/又は駆動コンポーネント212を含み得る。車両コンピューティングデバイス204は、コンピューティングデバイス106を表現してもよく、センサー206は、センサー104を表現してもよい。システム200は、追加的又は代替的に、コンピューティングデバイス214を含んでもよい。
【0036】
いくつかの例において、センサー206は、センサー104を表現してよく、ライダーセンサー、レーダーセンサー、超音波トランスデューサ、ソナーセンサー、位置センサー(例えば、グローバルポジショニングシステム(GPS)、コンパス等)、慣性センサー(例えば。慣性測定ユニット(IMU)、加速度計、磁力計、ジャイロスコープなど)、画像センサー(例えば、赤緑青(RGB)、赤外線(IR)、強度、深度、飛行時間カメラなど)、マイクロフォン、ホイールエンコーダ、環境センサー(例えば、温度計、湿度計、光センサー、圧力センサーなど)などを含み得る。センサー206は、これらのセンサー又は他の種類のセンサーのそれぞれの多様なインスタンスを含んでもよい。例えば、レーダーセンサーは、車両202の角、前面、背面、側面、及び/又は上部に配置された個々のレーダーセンサーを含み得る。別の例として、カメラは、車両202の外装及び/又は内装に関する様々な場所に配置された多様なカメラを含んでもよい。センサー206は、車両コンピューティングデバイス204及び/又はコンピューティングデバイス214に入力を提供してもよい。
【0037】
車両202はまた、上述したように、光及び/又は音を発するためのエミッタ208を含んでもよい。本例におけるエミッタ208は、車両202の乗客と通信するための室内オーディオ及び映像エミッタを含んでもよい。例としてで、限定するものではないが、内部エミッタは、スピーカー、ライト、サイン、ディスプレイスクリーン、タッチスクリーン、触覚エミッタ(例えば、振動及び/又は力フィードバック)、機械アクチュエータ(例えば、シートベルトテンショナ、シートポジショナ、ヘッドレストポジショナ等)、及び同様のものを含んでもよい。本例におけるエミッタ208は、外装エミッタも含み得る。例示であって限定するものではないが、本例における外部エミッタは、進行方向又は車両の動作の他の指標を知らせるためのライト(例えば、表示灯、標識、ライトアレイ等)、及び歩行者又は他の近くの車両と音声的に通信するための1又は複数の音声エミッタ(例えば、スピーカー、スピーカーアレイ、ホーン等)、そのうちの1又は複数が音響ビームステアリング技術を含んでいることを意味する。
【0038】
車両202は、車両202と1つ又は複数の他のローカル又はリモートコンピューティングデバイスとの間の通信を可能にするネットワークインターフェース210を含み得る。例えば、ネットワークインターフェース210は、車両202及び/又は駆動コンポーネント212上の他のローカルコンピューティングデバイスとの通信を促進してもよい。また、ネットワークインターフェース210は、追加的又は代替的に、車両が他の近くのコンピューティングデバイス(例えば、他の近くの車両、交通信号など)と通信することを可能にしてもよい。ネットワークインターフェース210は、追加的に又は代替的に、車両202がコンピューティングデバイス214と通信することを可能にしてもよい。いくつかの例では、コンピューティングデバイス214は、分散コンピューティングシステム(例えば、クラウドコンピューティングアーキテクチャ)の1つ又は複数のノードを含んでもよい。
【0039】
ネットワークインターフェース210は、車両コンピューティングデバイス204を別のコンピューティングデバイス又はネットワーク216などのネットワークに接続するための物理的及び/又は論理的インターフェースを含み得る。例えば、ネットワークインターフェース210は、IEEE200.11規格によって定義された周波数を介したようなWi-Fiベースの通信、Bluetooth(登録商標)などの短距離無線周波数、セルラー通信(例えば、2G、3G、4G、4G LTE、5Gなど)又はそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースすることができる任意の適した有線又は無線通信プロトコルを可能にし得る。いくつかの例では、車両コンピューティングデバイス204及び/又はセンサー206は、ネットワーク216を介して、特定の周波数で、所定の期間の経過後に、ほぼリアルタイムで、コンピューティングデバイス214にセンサーデータを送信してもよい。
【0040】
いくつかの例では、車両202は、1つ又は複数の駆動コンポーネント212を含み
得る。いくつかの例では、車両202は、単一の駆動コンポーネント212を有し得る。いくつかの例では、駆動コンポーネント212は、駆動コンポーネント212及び/又は車両202の周囲の状態を検出するための1つ又は複数のセンサーを含み得る。限定ではなく例として、駆動コンポーネント212のセンサーは、駆動コンポーネントの車輪の回転を感知する1つ又は複数の車輪エンコーダ(例えば、ロータリーエンコーダ)、駆動コンポーネントの向き及び加速度を測定する慣性センサー(例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁気計など)、カメラ又は他の画像センサー、駆動コンポーネントの周囲にあるオブジェクトを音響的に検出する超音波センサー、ライダーセンサー、レーダーセンサー等を含み得る。ホイールエンコーダなどのいくつかのセンサーは、駆動コンポーネント212に固有のものであってもよい。場合によっては、駆動コンポーネント212上のセンサーは、車両202の対応するシステム(例えば、センサー206)と重畳、又は補足してもよい。
【0041】
駆動コンポーネント212は、高電圧バッテリ、車両を推進するモータ、バッテリからの直流を他の車両システムで使用するための交流に変換するインバータ、ステアリングモータ及びステアリングラック(電気であり得る)を含むステアリングシステム、油圧又は電気アクチュエータを含むブレーキシステム、油圧及び/又は空気圧コンポーネントを含むサスペンションシステム、牽引力の損失を緩和し制御を維持するためのブレーキ力を分配する安定制御システム、HVACシステム、照明(例えば、車両の外装周辺を照らすヘッド/テールライトのような照明)、及び1つ又は複数の他のシステム(例えば、冷却システム、安全システム、車載充電システム、DC/DCコンバータ、高電圧接合部、高電圧ケーブル、充電システム、充電ポートなどの他の電気部品)を含み得る。さらに、駆動コンポーネント212は、センサーからデータを受信して前処理し、様々な車両システムの動作を制御するために、駆動コンポーネントコントローラを含んでもよい。いくつかの例では、駆動コンポーネントコントローラは、1つ又は複数のプロセッサと、1つ又は複数のプロセッサと通信可能に結合されたメモリとを含んでもよい。メモリは、駆動コンポーネント212の様々な機能を実行するための1つ又は複数のコンポーネントを格納してもよい。さらに、駆動コンポーネント212は、それぞれの駆動コンポーネントによる1つ又は複数の他のローカル又はリモートコンピューティングデバイスとの通信を可能にする1つ又は複数の通信接続部を含んでもよい。
【0042】
車両コンピューティングデバイス204は、プロセッサ218と、1つ又は複数のプロセッサ218と通信可能部に結合されたメモリ220とを含み得る。メモリ220は、メモリ108を表現してもよい。コンピューティングデバイス214は、プロセッサ222、及び/又はメモリ224も含み得る。プロセッサ218及び/又は222は、データを処理し、本明細書に記載されるような動作を実行するための命令を実行することができる任意の適切なプロセッサであり得る。限定ではなく例として、プロセッサ218及び/又は222は、1つ又は複数の中央処理装置(CPU)、グラフィック処理装置(GPU)、集積回路(例えば、特定用途向け集積回路(ASIC))、ゲートアレイ(例えば、フィールドプログラマブルゲートアレイ(FPGA))、及び/又は電子データを処理して、電子データを、レジストリ及び/又はメモリに格納し得る他の電子データへ変形するデバイスの任意の他のデバイス又は部分を含んでよい。
【0043】
メモリ220及び/又は224は、例示的な非一時的なコンピュータ可読媒体であり得る。メモリ220及び/又は224は、本明細書に記載された方法及び様々なシステムに帰属する機能を実装するために、オペレーティングシステム及び1つ又は複数のソフトウェアアプリケーション、命令、プログラム、及び/又はデータを格納し得る。様々な実装において、メモリは、静的ランダムアクセスメモリ(SRAM)、同期ダイナミックRAM(SDRAM)、不揮発性/フラッシュ型メモリ、又は情報を格納できる他の任意のタイプのメモリなど、任意の適切なメモリ技術を用いて実装されてもよい。本明細書で説明するアーキテクチャ、システム、及び個々の要素は、他の多くの論理的、プログラム的、及び物理的コンポーネントを含んでもよく、そのうち添付の図に示すものは、本明細書の議論に関連する単なる例示に過ぎない。
【0044】
いくつかの例では、メモリ220及び/又はメモリ224は、定位コンポーネント226、知覚コンポーネント228、計画コンポーネント230、追跡コンポーネント232、マップ234、及び/又はシステムコントローラ236を格納し得る。知覚コンポーネント228は知覚コンポーネント110を表現してもよく、計画コンポーネント230は計画コンポーネント112を表現してもよく、及び/又は追跡コンポーネント232は追跡コンポーネント114を表現してもよい。
【0045】
少なくとも一例では、定位コンポーネント226は、センサー206からデータを受信して車両202の位置、速度、及び/又は向き(例えば、x-、y-、z-位置、ロール、ピッチ、又はヨーのうちの1つ又は複数)を決定するハードウェア及び/又はソフトウェアを含み得る。例えば、定位コンポーネント226は、環境のマップ234を含む及び/又は要求/受信し得、マップ234内の自律車両の位置、速度、及び/又は向きを継続的に決定することが可能である。いくつかの例では、定位コンポーネント226は、SLAM(simultaneous localization and mapping)、CLAMS(calibration, localization and mapping, simultaneously)、相対SLAM、バンドル調整、非線形最小二乗最適化などを利用して、画像データ、ライダーデータ、レーダーデータ、IMUデータ、GPSデータ、ホイールエンコーダーデータなどを受信し、自律車両の場所、姿勢、及び/又は速度を正確に決定し得る。いくつかの例では、定位コンポーネント226は、本明細書で論じられるように、軌道を生成するため、及び/又はマップデータを生成するための自律車両の初期位置を決定するために、車両202の様々なコンポーネントにデータを提供し得る。いくつかの例では、定位コンポーネント226は、追跡コンポーネント232に、環境に対する車両202の位置及び/又は向き、及び/又はそれに関連するセンサーデータを提供し得る。
【0046】
いくつかの例では、知覚コンポーネント228は、ハードウェア及び/又はソフトウェアで実装された一次知覚システム及び/又は予測システムを含み得る。知覚コンポーネント228は、車両202を取り巻く環境におけるオブジェクトを検出し(例えば、オブジェクトが存在することを識別し)、オブジェクトを分類し(例えば、検出されたオブジェクトに関連するオブジェクトタイプを決定し)、センサーデータ及び/又は環境の他の表現をセグメンテーションし(例えば、検出されたオブジェクト及び/又はオブジェクトタイプに関連するものとしてセンサーデータ及び/又は環境の表現の一部を識別する)、オブジェクトに関連する特性(例えば、オブジェクトに関連する現在、予測、及び/又は以前の位置、見出し、速度、及び/又は加速度を識別する追跡)、及び/又は同様のものを判断する。知覚コンポーネント228によって決定されたデータは、知覚データと呼ばれる。
【0047】
計画コンポーネント230は、定位コンポーネント226から車両202の位置及び/又は方位、及び/又は知覚コンポーネント228から知覚データを受信し得、このデータのいずれかに少なくとも部分的に基づいて車両202の動作を制御するための指示を決定し得る。いくつかの例では、命令を決定することは、命令が関連付けられるシステムに関連付けられるフォーマットに少なくとも部分的に基づいて命令を決定することを含んでよい(例えば、自律車両の動作を制御するための第1の命令は、システムコントローラ236及び/又は駆動コンポーネント212が解析/実行させ得るメッセージ及び/又は信号(例えば、アナログ、デジタル、空気力学、運動学)の第1のフォーマットでフォーマットされてよい、エミッタ208の第2の命令はそれに関連付けられる第2のフォーマットに従ってフォーマットされ得る)。
【0048】
追跡コンポーネント232は、車両202上及び/又はコンピューティングデバイス214上で動作し得る。いくつかの例では、追跡コンポーネント232は、パイプラインにおいて計画コンポーネント230から上流(入力を提供し)にあり、知覚コンポーネント228の少なくともいくつかのコンポーネントから下流(入力を受信する)にあり得る。追跡コンポーネント232は、追跡コンポーネント232の出力の全て、一部、又は全部を計画コンポーネント230に渡すように構成されてもよい。いくつかの例では、追跡コンポーネント232は、知覚コンポーネント228の一部であってもよい。いくつかの例では、追跡コンポーネント232は、推定オブジェクト検出を含み得る最終的な環境表現を決定する、本明細書で議論されるMLモデルを含んでもよい。追跡コンポーネント232は、追加的又は代替的に、MLモデルによって生成された推定オブジェクト検出と、センサータイプ(例えば、MLモデルへの入力の1つ)に関連して生成された少なくとも1つの「生の」オブジェクト検出を受信する第1のコンポーネント及び/又は推定オブジェクト検出と追跡と関連する1つ又は複数のオブジェクト検出を受信する第2のコンポーネントを含んでもよい。何れにしても、追跡コンポーネントの第1のコンポーネント及び/又は第2のコンポーネントは、推定オブジェクト検出を追跡に関連付けるか否か、又はオブジェクト検出に関連して新しい追跡を生成するか否かを決定し得る。追跡コンポーネント232は、追加的又は代替的に、1つ又は複数のオブジェクト検出の速度、方位、及び/又は他の履歴又は現在の特性を出力してもよく、そのすべて又は一部は、追跡の少なくとも一部であってもよい。
【0049】
メモリ220及び/又は224は、追加的に又は代替的に、マッピングシステム(例えば、センサーデータに少なくとも部分的に基づいてマップを生成する)、計画システム、乗車管理システムなどを格納し得る。定位コンポーネント226、知覚コンポーネント228、計画コンポーネント230、追跡コンポーネント232、マップ234、及び/又はシステムコントローラ236は、メモリ220に格納されるものとして図示されているが、これらのコンポーネントのいずれかは、プロセッサ実行可能な命令、機械学習モデル(たとえば、ニューラルネットワーク)、及び/又はハードウェアを含んでよく、これらのコンポーネントのいずれかの全部又は一部はメモリ224上に格納されても、コンピューティングデバイス214の一部としても構成さてもよい。
【0050】
本明細書で説明されるように、システム200の定位コンポーネント226、知覚コンポーネント228、計画コンポーネント230、追跡コンポーネント232、及び/又は他のコンポーネントは、1つ又は複数のMLモデルを含み得る。例えば、定位コンポーネント226、知覚コンポーネント228、計画コンポーネント230、及び/又は追跡コンポーネント232は、それぞれ、異なるMLモデルパイプラインを含み得る。いくつかの例では、MLモデルはニューラルネットワークを含み得る。例示的なニューラルネットワークは、出力を生成するために一連の接続された層に入力データを渡す生物学的にインスパイアされたアルゴリズムである。ニューラルネットワークの各層は、別のニューラルネットワークを含むこともでき、又は任意の数の層(畳み込み式か否かにかかわらず)を含むこともできる。本開示のコンテキストで理解され得るように、ニューラルネットワークは、機械学習を利用することができ、これは、学習されたパラメータに基づいて出力が生成される、そのようなアルゴリズムの広範なクラスを指すことができる。
【0051】
ニューラルネットワークのコンテキストで論じられているが、本開示と一致する任意のタイプの機械学習が使用され得る。例えば、機械学習アルゴリズムは、回帰アルゴリズム(例えば、通常の最小二乗回帰(OLSR)、線形回帰、ロジスティック回帰、ステップワイズ回帰、多変量適応回帰スプライン(MARS)、局所的に重み付けされた散布図平滑化(LOESS))、インスタンスベースのアルゴリズム(例えば、リッジ回帰、最小絶対縮退選択演算子(LASSO)、弾性ネット、最小角回帰(LARS))、決定木アルゴリズム(例えば、分類回帰木(CART)、反復二分木3(ID3)、カイ二乗自動相互作用検出(CHAID)、決定スタンプ、条件付き決定木)、ベイジアンアルゴリズム(例えば、ナイーブベイズ、ガウスナイーブベイズ、多項ナイーブベイズ、平均一従属性分類器(AODE)、ベイジアンビリーフネットワーク(BNN)、ベイジアンネットワーク)、クラスタリングアルゴリズム(例えば、k-means、k-medians、期待値最大化(EM)、階層型クラスタリング)、相関ルール学習アルゴリズム(例えば、パーセプトロン、バックプロパゲーション、ホップフィールドネットワーク、Radial Basis Function Network(RBFN))、深層学習アルゴリズム(Deep Boltzmann Machine(DBM)、Deep Belief Networks(DBN)、畳み込みニューラルネットワーク(CNN)、Stacked Auto-Encoders)、次元削減アルゴリズム(例えば、主成分分析(PCA)、主成分回帰(PCR)、部分最小二乗回帰(PLSR)、サモンマッピング、多次元尺度法(MDS)、Projection Pursuit、線形判別分析(LDA)、混合判別分析(MDA)、二次判別分析(QDA)、フレキシブル判別分析(FDA))、アンサンブルアルゴリズム(例えば、Boosting、Bootstrapped Aggregation(Bagging)、AdaBoost、Stacked Generalization(Blending)、Gradient Boosting Machines(GBM)、Gradient Boosted Regression Trees(GBRT)、Random Forest)、SVM(Support Vector Machine)、教師あり学習、教師なし学習、半教師あり学習、等を含み得るが、これらに限定はされない。アーキテクチャの追加例は、ResNet50、ResNet101、VGG、DenseNet、PointNet等のニューラルネットワークを含む。いくつかの例では、本明細書で議論されるMLモデルは、PointPillars、SECOND、トップダウン特徴層(例えば、その全体が本明細書に組み込まれる米国特許出願第15/963833号を参照)、及び/又はVoxelNetを含み得る。アーキテクチャのレイテンシ最適化には、MobilenetV2、Shufflenet、Channelnet、Peleenet、及び/又は同様のものが含まれ得る。MLモデルは、いくつかの例において、Pixorなどの残差ブロックを含んでもよい。
【0052】
メモリ220は、追加的又は代替的に、車両202のステアリング、推進、ブレーキ、安全、エミッタ、通信、及び他のシステムを制御するように構成され得る、1つ又は複数のシステムコントローラ236を格納し得る。これらのシステムコントローラ236は、駆動コンポーネント212及び/又は車両202の他のコンポーネントの対応するシステムと通信し、及び/又は制御し得る。例えば、計画コンポーネント230は、知覚コンポーネント228によって生成された知覚データに少なくとも部分的に基づいて命令を生成してもよく、知覚データを検証し/又は命令をシステムコントローラ236に送信してもよい。システムコントローラ236は、計画コンポーネント230から受信した命令に少なくとも部分的に基づいて、車両202の動作を制御してもよい。
【0053】
図2は分散システムとして図示されているが、代替例では、車両202のコンポーネントがコンピューティングデバイス214と関連付けられてもよく、及び/又はコンピューティングデバイス214のコンポーネントが車両202と関連付けられてもよいことに留意されたい。すなわち、車両202は、コンピューティングデバイス214に関連付けられた機能のうちの1つ又は複数を実行してもよく、その逆もまた然りである。
【0054】
(例示的なシステム)
図3は、異なる知覚パイプラインから受信した1つ又は複数のオブジェクト検出から推定オブジェクト検出を決定し、及び/又は推定オブジェクト検出に少なくとも部分的に基づいて更新又は新しい追跡を決定するための例示的な知覚システム300のブロック図である。例示的な知覚システム300は、知覚システム300の周囲の特性を決定するための任意の数のパイプラインを含み得る。例えば、パイプラインは、自律車両の環境及び/又はセンサー及び/又は環境内のオブジェクトの特性にあるものを決定し得る。
図3は、3つのパイプライン:映像パイプライン302、レーダーパイプライン304、及びライダーパイプライン306を描いているが、任意の数及び種類のパイプラインが企図されている。例えば、パイプラインは、同じタイプのセンサー(例えば、1つ又は複数のカメラ、1つ又は複数のライダーセンサー、1つ又は複数のレーダーセンサー)、視野の方向(例えば、重複する視野を有する1つ又は複数のカメラ)、多様なタイプのセンサー(例えば、ハイブリッド映像ライダーパイプライン)、他のソースからのデータ(例えば、リモートコンピューティングデバイスからのデータ、メモリに格納されたマップデータ)、及び/又は同様のものと関連付けられ得る。
【0055】
それにかかわらず、1つ又は複数のパイプラインのパイプラインは、センサーデータを受信し、1つ又は複数の出力を決定するように構成されてよい。簡略化のために、パイプラインの集合的な出力は、本明細書において環境表現と呼ばれる。環境表現は、1つ又は複数のオブジェクト検出を含んでよく、1つ又は複数の出力タイプを含んでよい。例えば、映像パイプライン302は、映像データ310(例えば、1つ又は複数のRGB画像、熱画像からなるセンサーデータ)に少なくとも部分的に基づいて環境表現308を出力してもよい。映像パイプライン302によって生成された環境表現308は、1つ又は複数のオブジェクト検出を含んでもよく、オブジェクト検出の少なくとも1つは、以下のものを含んでいる。
-オブジェクトに関連付けられた2次元ROI
-オブジェクトに関連付けられた3次元ROI、例えば、その全体が参照により本明細書に組み込まれる米国特許出願番号15/970838及び16/386249でより詳細に説明されるように、312で描かれるもののうちの1つ
-米国特許出願第15/970838号で論じられるような、オブジェクト及び/又はROIに関連する深さ推定値(例えば、センサー/車両からオブジェクトまでの距離の推定値)
-米国特許出願第15/970838号で論じられるような、オブジェクトの高さ。
-オブジェクトに関連付けられたオブジェクト分類及び/又は裕度、裕度は、センサーデータがオブジェクト分類によって指定されたタイプのオブジェクト(例えば、車両、歩行者、多関節車両、動物、子供)に関連付けられる事後確率を示す-いくつかの例では、オブジェクト分類及び/又は裕度は、ピクセルなどのセンサーデータの個別の部分と関連付けられ得る
-映像の嵌めこみ
-環境表現(例えば、環境のボクセル化、環境のメッシュ表現)に対するオブジェクトの位置(例えば、中心及び/又は範囲)。
-オブジェクトの姿勢(オブジェクトの位置及び/又は方位を含んでもよい)。
-オブジェクトによって占有されていると示される部分を含んでいてもよい占有マップ314(例えば、ピクセル/ボクセルを占有するオブジェクトが存在するかどうか、インスタンスセグメンテーション)、及び/又は
-オクルージョングリッド(例えば、環境の一部が視覚センサーの1つ又は複数への視線から隠されている確率を含んでいる)。
【0056】
レーダーパイプライン304は、以下を含む環境表現(描画スペースを保存するために図示されていない)を決定し得る。
-オブジェクトによって占有されていると示された部分を含んでいてもよい、占有マップ
-米国特許出願第16/407139号(その全体が参照により本明細書に組み込まれる)においてより詳細に議論される、オクルージョングリッド(例えば、環境の一部がレーダーセンサーの1つ又は複数への視線から隠されている確率を含む)
-米国特許出願第16/416686号(その全体が参照により本明細書に組み込まれる)においてより詳細に議論されるような、オブジェクトに関連づけられたヨーレート。
- オブジェクトに関連する速度(例えば、オブジェクトに関連づけられた地上でのレンジレート)
- レーダー断面積(RCS)、及び/又は
- ROI及び/又はオブジェクト分類
【0057】
ライダーパイプライン306は、ライダーデータ316に少なくとも部分的に基づいて、以下を含む環境表現318を決定し得る。
-オブジェクトによって占有されていると示された部分を含み得る占有マップ320
-オクルージョングリッド(例えば、環境の一部がライダーセンサーの1つ又は複数への視線から隠されている確率を含む)
-オブジェクトに関連するROI及び/又はオブジェクトの分類、及び/又は
-その全体が本明細書に組み込まれる米国特許出願第15/963833号においてより詳細に議論されるような、トップダウンセグメンテーション(例えば、環境の一部が占有されているか否かのトップダウン表示及び/又はトップダウンROI(例えば、322で描かれるライダートップダウンROI等)
【0058】
図3に関して例示、議論されるパイプラインは、単なる例示である。知覚システム300は、本明細書で例示され議論されるものよりも多い、少ない、及び/又は異なるパイプラインを含み得る。さらに、パイプラインは、描かれているようにきれいに分離されているのではなく、混在していてもよい。例えば、上述した環境表現の少なくとも一部は、2つの異なるパイプラインの一部のプロダクトであってよい。描かれた例では、スペースが限られており、その明確さのために視覚環境表現及びライダー環境表現を拡大しているため、レーダー環境表現に関する特定の詳細は描かれていないが、レーダーパイプライン及びレーダー環境表現が追加的又は代替的に企図されることに留意されたい。
【0059】
異なるパイプラインによって生成された様々な環境表現は、多チャンネルデータ構造324に集約され得る。例えば、この集約は、データを、共通の基準フレーム及び/又は同じ寸法を有するボクセル空間、メッシュ表現などの環境の共通の表現に投影することを含み得る。集約は、追加的又は代替的に、トップダウン視点から3次元ROIを2次元ROIに投影すること、及び/又はセンサー視点、深さ、及び/又はオブジェクト分類に関連する2次元ROIに少なくとも部分的に基づいてトップダウン2次元ROIを決定することなど、環境表現の1つ又は複数の部分についてトップダウン表現を決定することを含んでいてもよい。いくつかの例では、多チャンネルデータ構造324は、多チャンネル画像を含んでよく、画像の各チャネルは、異なるパイプライン及び/又は異なるタイプの出力(例えば、占有マップ、オクルージョングリッド、ROI、オブジェクト分類)に関連付けられ得る。例えば、画像の第1のチャンネルは、環境のそれぞれの部分が視覚パイプラインによって決定されるように占有/非占有されているかどうかを示すピクセルを含んでよく、画像の第2のチャンネルは、環境のそれぞれの部分がライダーパイプラインによって決定されるように占有/非占有されているかどうかを示すピクセルを含んでよく、第3のチャンネルは、環境のそれぞれの部分があるオブジェクト分類に関連付けられるかどうかを示すピクセルを含んでもよい、等である。
【0060】
多チャンネルデータ構造324は、1つ又は複数の知覚パイプラインの出力、及び/又は他のソース(例えば、自律車両のメモリから、リモートコンピューティングデバイスから)から受信したデータを含み得る。例えば、多チャンネルデータ構造324は、環境のトップダウン表現を含み得る環境表現(例えば、2次元、3次元、又はより高い次元であり得る)、環境の占有マップ、環境のオクルージョン部分の表現、オブジェクトに関連付けられたROI、オブジェクトに関連付けられたオブジェクト分類、センサーデータセグメンテーション、センサーデータの3次元離散化表現、オブジェクトに関連付けられたヨー及び/又はヨーレート、オブジェクトに関連付けられた速度及び/又は加速度、範囲のセット(例えば、次元)、及び/又はオブジェクトに関連付けられた地面の高さ推定は、その全体が本明細書に組み込まれる、2019年11月27日に出願された米国特許出願第16/698055号においてより詳細に議論された通りである。
【0061】
本明細書で使用されるように、オブジェクト検出は、ROI、正の占有表示、オブジェクト分類など、オブジェクトの存在を示す1つ又は複数の環境表現の一部であり得る。
【0062】
いくつかの例では、以前の追跡326及び/又は以前の環境表現328は、多チャンネルデータ構造324の一部であってもよく、さもなければMLアーキテクチャ330に入力として提供されてもよい。例えば、前の追跡326及び/又は前の環境表現328は、環境表現がパイプラインにより生成された及び/又は追跡が決定された最後のn(nは正の整数)時間ステップと関連付けられてもよい。例えば、システムは、時間間隔(例えば、10ミリ秒ごと、100ミリ秒ごと、500ミリ秒ごと)で、又は時間間隔ごとに環境表現及び/又は追跡を決定するように同期化されてもよい。前のn個の時間ステップで決定された追跡及び/又は環境表現。追加又は代替の例では、例えば知覚システムが半同期又は非同期である場合、前の追跡326及び/又は前の環境表現328は、時間窓と関連付けられてもよい。例えば、このデータは、回転ベースで、2秒期間、3秒期間、5秒期間、及び/又はアプリケーションに適した他の任意の時間ウィンドウにわたって蓄積されてもよい。
【0063】
多チャンネルデータ構造324は、MLアーキテクチャ330への入力として提供されてもよく、このアーキテクチャは、1つ又は複数の推定オブジェクト検出332を含む最終環境表現を決定するように訓練されてもよい。例えば、MLアーキテクチャ330は、環境の一部が占有されているという表示、占有された部分(例えば、オブジェクト)に関連するROI及び/又はオブジェクト分類、オブジェクトの向き(例えば、ヨー及び/又はヨー/方位ビン)、オブジェクトに関連する速度(例えば、静止/移動、横及び/又は縦速度)、オブジェクトに関連する高さ、及び/又は将来の時間ステップに関連する予測ROIを含む環境のトップダウン表示を決定してもよい。
【0064】
最終的な環境表現及び/又はその推定オブジェクト検出332は、追跡コンポーネント334への入力として提供され得る。追跡コンポーネント334は、推定オブジェクト検出を以前の追跡336、新しい追跡に関連付けるか、又はパイプライン及び/もしくは推定オブジェクト検出332からの1つ又は複数のオブジェクト検出を偶発的な追跡コンポーネントに転送するかを決定するように訓練及び/又は構成され得る。いくつかの例では、追跡コンポーネント334は、本明細書で議論された決定に少なくとも部分的に基づいて、更新された又は新しい追跡338を計画コンポーネントに出力し得る。
【0065】
いくつかの例では、偶発的な追跡コンポーネントは、パイプラインから生の環境表現を受信し、そこから追跡を決定するように構成された追跡コンポーネントであり得る。偶発的な追跡コンポーネントは、オブジェクト検出が誤検出であるかどうか、及び/又はオブジェクト検出を以前の追跡又は新しい追跡に関連付けるかどうかを決定するために異なるパイプライン間でより多くのデータを使用するので、場合によっては、より多くの計算及び/又はメモリを必要とし得る。
【0066】
(例示的なプロセス)
図4は、1つ又は複数の知覚パイプラインによって生成された複数のオブジェクト検出及び/又は環境表現から最終環境表現及び/又は推定オブジェクト検出を決定するための例示的プロセス400の絵入りフロー図である。例示的なプロセス400は、追加的又は代替的に、推定オブジェクト検出を以前の追跡と関連付けることを決定すること、推定オブジェクト検出と関連付けるための新しい追跡を生成することを決定すること、及び/又は本明細書で論じるデータを偶発追跡コンポーネントに転送することを決定することに少なくとも一部基づいて環境内のオブジェクトを追跡し得る。
【0067】
動作402において、例示的なプロセス400は、本明細書で議論される技術のいずれかに従って、第1のセンサータイプに関連付けられた第1のオブジェクト検出と第2のセンサータイプに関連付けられた第2のオブジェクト検出を受信することを含み得る。例えば、第1のオブジェクト検出404は、第1のパイプライン408から受信された第1の環境表現406の一部であってもよく、第2のオブジェクト検出410は、n番目のパイプライン414から受信されたn番目のオブジェクト環境表現412の一部であってもよい。
【0068】
図では、オブジェクト検出及び環境表現がトップダウンROIであるように描かれているが、少なくとも一例では、オブジェクト検出は、ライダーベースのオブジェクト検出、レーダーベースのオブジェクト検出、及び/又は映像ベースのオブジェクト検出を含んでよい。ライダーベースのオブジェクト検出は、ライダー占有マップ、ライダーベースの2次元又は3次元ROI、トップダウンセグメンテーションROI、トップダウンセグメンテーションマップ、ライダーオクルージョングリッド、及び/又はオブジェクト分類を含んでよい。レーダーベースのオブジェクト検出は、レーダー占有マップ、地上ベースのレンジレート、RCS、レーダーベースのROI及び/又はオブジェクト分類、及び/又はレーダーオクルージョングリッドを含んでよい。映像ベースのオブジェクト検出は、映像オクルージョングリッド、インスタンスセグメンテーション、(例えば、画像空間における)2次元ROI、3次元ROI、深度、オブジェクト分類、映像嵌め込み、及び/又はオブジェクトの姿勢(例えば、位置及び/又は向き)を含んでよい。追加的又は代替的なオブジェクト検出が使用されてもよい。いくつかの例では、上述したオブジェクト検出コンポーネントのいくつかは、例えば、レーダーベースのROI、姿勢データ、又は3次元ROIなどのハイブリッドコンポーネントを含んでもよく、そのいずれもがライダー、レーダー、及び/又は映像ベースであってよい。
【0069】
動作416において、例示的なプロセス400は、本明細書で議論される技術のいずれかに従って、環境内のオブジェクトに関連付けられた追跡を受信することを含み得る。例えば、追跡418は、以前の時間ステップに関連して以前に決定された追跡であり得る。描かれた例では、追跡418は、オブジェクト検出404及びオブジェクト検出410によって示されるように、第1のパイプライン408及びn番目のパイプライン414によって検出されたオブジェクトと関連付けられている。追跡418は、異なるパイプラインからのオブジェクト検出データのいずれかを関連付けてもよく、及び/又は、少なくとも静的に設定されるか又は車両の速度によって設定される時間ウィンドウと同じくらい昔に遡って、以前の時間ステップからMLモデルによって生成された推定オブジェクト検出、追跡中のオブジェクトの数(例えば、より多くのオブジェクトほどデータを保存するために時間窓を小さくするか、より多くのオブジェクトほどオクルージョンを通してオブジェクト追跡するために同じ又は大きな時間ウィンドウ)、又はそれらの組み合わせを含んでよい。追跡は、最終的に、2つの異なるパイプラインによって生成された2つの異なるオブジェクト検出が同じオブジェクトに関連付けられること、及び/又は、同じ又は異なるパイプラインによって生成された時間的に2つの異なるオブジェクト検出が同じオブジェクトに関連付けられることを示す。
【0070】
描かれた追跡418は、MLモデルによって生成された以前の推定オブジェクト検出を関連付け、描かれた例では、自律車両を取り巻く環境における同じ車両に関連付けられた4つの2次元(トップダウン)ROI(420)、車両の姿勢、及びROIを通る線として図示される車両の中心の履歴位置を含む。推定オブジェクト検出は、追加的又は代替的に、この場合「車両」などのオブジェクト分類、車両の履歴及び/又は(旧)予測速度、ピクセルごとの占有率(例えば、車両に関連するピクセルのマスク)、車両の推定高さ、及び/又は同様のものを含んでもよい。
【0071】
動作422で、例示的なプロセス400は、本明細書で議論される技術のいずれかに従って、第1のオブジェクト検出、第2のオブジェクト検出、及び/又は追跡をMLモデルに入力することを含み得る。いくつかの例では、オブジェクト検出及び/又は追跡は、多チャンネルデータ構造に集約され得る。いくつかの例では、オブジェクト検出のいくつかの部分は、操作422の前にボクセル空間に投影され、及び/又は2次元トップダウンビューでレンダリングされ得る。
【0072】
オブジェクト検出は、環境表現の一部としてMLモデルに提供されてもよいことに留意されたい。例えば、環境表現406は、上述したように、多様なオブジェクト検出、及びオブジェクト速度、推定された高さなどの図示されていないデータを含む。いくつかの例では、環境表現は、集約され、入力としてMLモデルに提供され得る。いくつかの例では、オブジェクト検出は、環境表現の残りの部分から分離され、入力として提供され得る。例えば、環境表現は、共通の基準フレームであってもよく、又は集約中に共通の基準フレームに変換されてもよい。パイプラインは、正のオブジェクト検出を共通の基準フレームにおけるそれらの座標とともに出力するように構成されてもよい。例えば、これらの正のオブジェクト検出は、閾値の信頼度を満たすか又は超える尤度に関連する環境表現の部分であってもよい。上述したオブジェクト検出コンポーネントの各々及び何れかは、回帰された信頼度スコアに関連付けられ得る。例えば、オブジェクト分類は、信頼スコアと関連付けられてもよく、ROIは、非最大抑制技術を介して異なるピクセルに関連付けられた信頼スコアに少なくとも部分的に基づいて決定されてもよく、占有は、各ピクセルに関連付けられた、それぞれのパイプラインのMLモデルによって決定される尤度に少なくとも部分的に基づいて決定されてもよい、などである。
【0073】
動作424において、例示的なプロセス400は、本明細書で議論される技術のいずれかに従って、MLモデルからの出力として、推定オブジェクト検出426を受信することを含み得る。いくつかの例では、MLモデルは、最終的な環境表現428及び/又は推定オブジェクト検出426を出力するように訓練され得る。推定オブジェクト検出426は、環境の一部が占有されていること及び/又はオブジェクト分類に関連していることを示す最終的な環境表現428の性質により、最終的な環境表現428の一部であり得る。MLモデルは、オブジェクトに関連付けられたROI(例えば、中心及び/又は範囲)、オブジェクトに関連付けられたオブジェクト分類、オブジェクトの推定姿勢(例えば、位置及び/又は向き)、オブジェクトの推定速度、及び/又はオブジェクトの推定高さを出力するように訓練され得る。MLモデルは、追加的又は代替的に、これらの出力のいずれかに関連して信頼度スコアを決定してもよい。いくつかの例では、ROIは、MLモデルが訓練されたオブジェクト分類に関連するアンカーボックス又は任意の他のカノン的なオブジェクト形状に少なくとも部分的に基づいて生成され得る。
【0074】
いくつかの例では、最終的な環境表現は、環境のトップダウン表現の多チャンネル画像を含み得る。多チャンネル画像は、異なるチャネルにおいて、直近のROIの中心までの距離、ROIの範囲、ピクセルがオブジェクトに関連する裕度(例えば、ROIを生成するための非最大限の抑制に使用)、ピクセルが複数のオブジェクト分類の特定のオブジェクト分類に関連する裕度、向き、速度、及び/又は推定高さを示すピクセルなどの離散部分を含み得る。
【0075】
いくつかの例では、MLモデルは、方位が入るビン(例えば、北、南東、西;45°ビン、90°ビン、180°ビンなどの任意の他の数及びタイプの方位ビン)及び/又は方位に関連する回帰(例えば、ピクセルに関連して決定したビンの中心からの変動度数)を示す方位に関連する分類を決定し得る。
【0076】
いくつかの例では、MLモデルは、分類アルゴリズムを使用して速度を決定してもよく、静的もしくは動的などの出力、又は速度のビン(例えば、ビンが少なくとも一例ではオブジェクトが1-10マイル/時で動いていることを示し得るような5、10、15、又はそのようなマイル/時の増分)をもたらす。追加的又は代替的に、MLモデルは、速度ビンの中心からのオフセットとして(例えば、速度値は、オブジェクトが分類されたビンの値から回帰を加算/減算することによって決定されてよい)、又はスタンドアロン回帰として(例えば、回帰タスクは速度を直接計算する)、回帰タスクを使用して速度を決定してもよい。いくつかの例では、速度ビニング及び/又は回帰タスクは、入力多チャンネル画像の一部である1つ又は複数の以前のオブジェクト検出及び/又は追跡に少なくとも部分的に基づいてもよい。同様に、MLモデルは、分類タスク(例えば、高さビンとして)及び/又は回帰タスク(例えば、高さビンからのオフセット又は直接回帰された高さとして)を使用して、推定高さを決定してもよい。
【0077】
いくつかの例では、MLモデルを訓練することは、オブジェクト分類、向きビン、速度ビン、及び/又は推定高さビンとそれぞれのグランドトゥルース(例えば、オブジェクト分類のためのセマンティックラベル、グランドトゥルースインスタンスセグメンテーション及び/又はグランドトゥルースROI;向きビンのためのグランドトゥルース向き表示;速度ビンのためのグランドトゥルース速度;高さビンのためのグランドトゥルース高さ)との間の差に少なくとも部分的に基づいて分類損失を決定することを含み得る。いくつかの例では、総分類損失は、これらの損失を合計することによって決定され得る。いくつかの例では、分類損失を決定することは、他の形態の損失が企図されるが、その全体が参照により本明細書に組み込まれる米国特許出願第16/013729号においてより詳細に議論されるように、クロスエントロピー焦点損失を決定することを含んでもよい。いくつかの例では、ビンの分類損失を決定することは、クロスエントロピー損失又はHuber損失に少なくとも部分的に基づいてもよい。
【0078】
MLモデルを訓練することは、追加的又は代替的に、ROIの中心までの距離、対数空間で示され得るROIの範囲、推定された方向又は方向ビンからのオフセット、推定された速度又は速度ビンからのオフセット、及び/又は高さビンからの推定高さ又はオフセットとそれらにそれぞれ関連するそれぞれのグランドトゥルースとの差に少なくとも部分的に基づいて1又は複数の回帰損失を決定することを含み得る。回帰損失を決定することは、上述した1つ又は複数の回帰出力のそれぞれについてL1(又は任意の他の損失)損失を決定することと、それらの回帰損失を合計して総回帰損失を決定することとを含み得る。
【0079】
MLモデルを訓練することは、追加的又は代替的に、分類の総損失と回帰の総損失を合計することによって総損失を決定することを含み得る。いくつかの例では、MLモデルは、各タスクに関連する不確実性を出力するように訓練され得る。タスクについて決定された損失は、出力タスクに関連して出力された不確実性に少なくとも部分的に基づいて重み付けされてもよく、不確実性が大きいほど、損失に適用される重みが大きくなり、結果として生じる損失が大きくなるようにする。この重み付けは、総分類損失及び/又は総回帰損失を決定する前に発生してもよいが、別の時間に発生してもよい。いくつかの例では、不確実性は、共分散に少なくとも部分的に基づいてもよく、及び/又は異分散性であってもよい。
【0080】
いくつかの例では、総損失は、重み付けされているかどうかにかかわらず、MLモデルの様々な回帰及び/又は分類コンポーネントを通じてバックプロパゲートされてもよく、これは、総損失を最小化するためにコンポーネントのうちの1つ又は複数のパラメータを調整することを含み得る。追加的又は代替的に、総損失は、パイプラインの1つ又は複数又はパイプラインの一部を通じてバックプロパゲートされ得る。例えば、総損失は、映像パイプライン、ライダーパイプライン、及び/又は同様のもののトップダウンセグメンテーションコンポーネント、ROIコンポーネント、方向コンポーネント、速度コンポーネント、及び/又は高さコンポーネントの1つ又は複数のパラメータを調整するために使用され得る。
【0081】
いくつかの例では、本明細書で論じた損失は、ピクセル単位の損失の代わりに、又はそれに加えて、オブジェクト検出単位で決定されてもよい。損失をオブジェクト検出ごとに決定することは、小さなオブジェクトに対する推定オブジェクト検出を決定する際のMLモデルの精度を向上させ得る。いくつかの例では、損失は、少なくとも部分的に、オブジェクトの輪郭の表示、オブジェクトに関連するピクセル及び/又はサブピクセルを識別するインスタンスセグメンテーション、及び/又は同様のものを含むグランドトゥルースに基づき決定されてもよい。
【0082】
いくつかの例では、MLモデルは、推定されたオブジェクトが関連付けられる追跡の表示を追加的又は代替的に出力し得る。いくつかの例では、MLモデルは、新しい追跡を生成するか、又はオブジェクト検出を以前の追跡に関連付けるかを決定する際に使用するために、オブジェクト検出に関連付けて嵌め込みを出力し得る。嵌めこみは、いくつかの例において、MLモデルの他の出力に少なくとも部分的に基づいてもよい。例えば、嵌め込みは、MLモデルの他の出力(例えば、ROI、オブジェクト分類、推定方向、推定速度、推定高さ、推定方向)を受信するMLモデルのコンポーネントによって決定されて得るが、嵌め込みは、追加的又は代替的に、知覚パイプラインのうちの1又は複数の出力に少なくとも部分的に基づいて決定されてもよい。
【0083】
追加的又は代替的な例では、MLモデルは、異なる高さビンについて本明細書で論じられるオブジェクト検出を出力するように構成され得る。例えば、多チャンネル出力画像のチャンネルの第1のセットは、第1の高さ範囲(例えば、0.25メートルから2メートル)に対するオブジェクト検出を含んでよく、チャンネルの第2のセットは、第2の高さ範囲(例えば、2メートルから4メートル)に対するオブジェクト検出を含んでもよい、等である。任意の他の高さ間隔が使用され得る。
【0084】
動作432で、例示的なプロセス400は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出に少なくとも部分的に基づいて、オブジェクトに関連する更新された(432)又は新しい追跡を決定することを含み得る。いくつかの例では、動作432は、追加的又は代替的に、1つ又は複数の以前の追跡及び/又は推定オブジェクト検出に少なくとも部分的に基づき得る。いくつかの例では、例示的なプロセス400は、メモリに現在格納されているすべての以前の追跡を更新することを決定することを含み得る。追跡を更新することは、推定オブジェクト検出のうちの1つを追跡に関連付けること、追跡が部分的又は完全にオクルードされている可能性が高いオブジェクトに関連していることを示すこと(例えば、オクルード状態フラグが変更されてもよい)、及び/又は追跡をリタイアさせることを含んでもよい。追跡をリタイアさせることは、追跡に関連するオブジェクトが少なくとも閾値の時間だけ隠されていること、オブジェクトがもはや視野内にない可能性が高いことを示すこと、及び/又は追跡を削除することを含んでよい。すべての追跡が更新されると、追跡と関連付けられていない残りの推定オブジェクト検出は、代替の追跡コンポーネントに渡され、及び/又は新しい追跡がそれに関連して生成され得る。
【0085】
図5は、本明細書で議論されるMLモデルによって決定される推定オブジェクト検出に少なくとも部分的に基づいて環境内のオブジェクトを追跡するための例示的プロセス500の絵入りフロー図である。例示的なプロセス500は、例示的なプロセス400の動作432の少なくとも一部であってもよいし、独立したプロセスであってもよい。動作432は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出432に少なくとも部分的に基づいて、オブジェクトに関連する更新された、又は新しい追跡を決定することを含み得る。
【0086】
動作502において、例示的プロセス500は、本明細書で議論される技術のいずれかに従って、以前の時間に関連付けられた以前の追跡の少なくとも一部を現在の時間に投影することを含み得る。例えば、以前の追跡の少なくとも一部を投影することは、前の追跡(例えば、追跡418)に少なくとも部分的に基づいて投影ROI504を決定することを含み得る。いくつかの例では、投影されたROIは、以前の追跡418に関連する直近のROIに少なくとも部分的に基づき得る。
図5は、追跡418の直近のROIを黒色の陰影で塗りつぶすことによって図示されている。投影された関心領域504は点線で描かれ、追跡418に関連する過去の速度、方向、及び/又は位置に少なくとも部分的に基づき得る。追加的又は代替的な例では、投影されたROIは、以前の時間ステップでMLモデルによって出力された予測されたROIを含み得る。
【0087】
図5は投影されたROI504を図示しているが、推定オブジェクト検出に関連する他の順応性のある属性のいずれかが投影されてもよいことに留意されたい。例えば、オブジェクト分類はフレーム間で変化すべきではないが、速度、向き、高さ(例えば、歩行者が座ったりダッキングしたりすることによる)、ROI位置などは変化してもよく、少なくとも部分的に追跡418及び/又はそれに関連するデータに基づいて予測/投影されてもよい。例えば、追跡418は、MLモデルによって生成された以前の推定オブジェクト検出及びそれに関連するデータのいずれかを関連付け得る。したがって、投影ROI504が本明細書で議論されるが、オブジェクト分類、予測速度、予測方向、予測高さ、予測位置、予測方向、及び/又は予測嵌め込みがそれに関連付けられてもよいことが理解される。投影ROI504を決定することは、投影ROI504と予測速度、予測方位、予測高さ、予測位置、予測方位に関連付けられた嵌め込みに少なくとも部分的に基づいて更新/予測された嵌め込みを決定することを含んでよく、嵌め込みがどのデータに基づいているかに依存する。例えば、嵌め込みが速度及び位置のような順応性のあるデータに基づいている場合、嵌め込みは更新されてもよいが、嵌め込みが生のセンサーデータ及び/又は知覚パイプラインデータに基づいている場合、嵌め込みは更新されずに使用され得る。
【0088】
動作506において、例示的なプロセス500は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出と投影ROIとの間の関連性を決定することを含み得る。例えば、推定オブジェクト検出は、本明細書で議論されるMLモデルによって決定される推定オブジェクト検出426の少なくとも一部分であり得る。いくつかの例では、動作506は、投影ROI504と推定オブジェクト検出426との間のIOU、推定オブジェクト検出426の中心と投影関心領域504(又は以前のROI)との間のユークリッド距離、投影ROI504と推定オブジェクト検出426との間のMunkres割当て、及び/又は同様のものに少なくとも部分的に基づいて、スコアを決定することを含んでもよい。少なくとも一例では、関連性の程度を決定することは、投影された関心領域504に関連付けられた嵌め込みと推定オブジェクト検出426に関連付けられた嵌め込みの間の差(例えば、ユークリッド距離)を決定することを含み得る。いくつかの例では、嵌め込みは、オブジェクト検出のオブジェクト分類、サイズ、及び/又は他の特性を考慮に入れてもよい。関連性は、少なくとも1つの例において、IOU、中心間の距離、Munkres割当てスコア、及び/又は嵌め込み間の距離の合計又は加重合計などの1つ又は組み合わせを含んでもよい。
【0089】
いくつかの例では、関連性は、IOUと嵌め込み間の距離の和又は加重和を含み得る。そのような例では、そのような合計は、第1のIOUを含んでもよく、高いIOUは類似性を示すが、高い嵌め込み間の距離は非類似性を示すので、(正規化された)距離は、それが計算された後に反転されてもよい。IOUは、1からIOUを引くことによって反転されてもよい。IOUは0と1の間の範囲であってもよく、嵌め込み間のユークリッド距離は1よりも著しく大きい場合があるので、嵌め込み間のユークリッド距離は、少なくとも部分的に、学習した嵌め込み空間における嵌め込み間の最小距離及び最大距離に基づき正規化されてもよい。追加的又は代替的な例では、IOUのロジットは、学習された嵌め込み空間における嵌め込み間の最大距離に少なくとも部分的に基づいて決定され、スケーリングされてもよい。追加的又は代替的な例では、関連性は、1つ又は複数の関連性に少なくとも部分的に基づいて決定されたスコアを含んでもよい。例えば、MLモデルは、IOU、嵌め込み間の距離、追跡の少なくとも一部、及び/又は推定オブジェクト検出データの少なくとも一部を受信し、推定オブジェクト検出データが以前の追跡と関連する裕度を示すスコアを出力するように訓練され得る。
【0090】
動作508で、例示的なプロセス500は、本明細書で議論される技術のいずれかに従って、関連性が関連性の閾値を満たすかどうかを決定することを含み得る。関連性の閾値を満たす関連性は、推定オブジェクト検出426に関連付けられたオブジェクトが、追跡418によって示されるのと同じオブジェクトである/可能性が高いことを示す。関連性が関連性の閾値を満たす場合、例示的プロセス500は、動作510に進み得る。一方、動作506で決定された関連性の程度が関連性の程度の閾値を満たさない場合、例示的なプロセス5008は、動作442に続き得る。
【0091】
関連度がIOUを含む場合に閾値IOU値を満たすか超えることによって、Munkres割当てが見つかることによって、嵌め込み間の距離が閾値距離未満であることによって、センター間の距離が閾値距離未満であることによって、及び/又は結合スコアが閾値結合スコアを満足することによって、閾値関連性を満たし得る。後者の例によれば、IOUと嵌め込み間の距離とを組み合わせてスコアを決定する場合、上述したように、IOUを反転させた場合に複合スコアが複合スコア閾値未満であると決定することによって、またエンベッディング間の距離を正規化してから反転させた場合にその逆に、閾値複合スコアを満たすことが達成されてもよい。複数の関連性が決定される例では(例えば、MLモデル生成スコア、IOU、嵌め込み間の距離)、動作508は、動作510への移行に合格するために満たされなければならない関連性の閾値の1つ又は複数を指定するルールセットを含んでもよい(例えば、すべての関連度は、少なくとも1つ、3つのうちの2つなど、各関連性の閾値を超えなければならない)。
【0092】
動作510において、例示的なプロセス500は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出426を更新された追跡430として追跡418に関連付けることを含んでもよい。
【0093】
動作512で、例示的なプロセス500は、本明細書で議論される技術のいずれかに従って、推定オブジェクト検出に関連付けられた新しい追跡を生成すること、及び/又は、第1のオブジェクト検出、第2のオブジェクト検出、及び/又は推定オブジェクト検出を代替の追跡コンポーネントに提供することを含み得る。新しい追跡を生成することは、推定オブジェクト検出が、知覚パイプラインのいずれかによって以前に検出されなかったオブジェクト、及び/又はそれに関連するセンサーの視野内になかったオブジェクトに関連することを示す。追加的又は代替的な例では、1つ又は複数のパイプライン及び/又は追跡418からの生のオブジェクト検出は、代替の追跡コンポーネントへの入力として提供されてもよい。いくつかの例では、代替の追跡コンポーネントは、多様な知覚パイプラインからのオブジェクト検出を比較することに少なくとも部分的に基づいて、新しい追跡を決定する、又は以前の追跡を更新するように構成されてもよい。
【0094】
(例示的なアーキテクチャ)
図6は、推定オブジェクト検出を生成するための本明細書で議論されるMLモデルの例示的なアーキテクチャ600のブロック図である。いくつかの例では、例示的なアーキテクチャ600は、1つのオブジェクト分類又は多様なオブジェクト分類に関連付けられ得る。換言すれば、例示的なアーキテクチャ600は、特定のオブジェクト分類に関連するオブジェクト検出を受信及び/又は訓練されてもよく、又は例示的なアーキテクチャ600は、様々なタイプのオブジェクト分類のオブジェクト検出を受信及び/又は訓練され得る。例示的なアーキテクチャ600が1つのオブジェクト分類に関連付けられる例では、MLモデルは、異なるオブジェクト分類に関連して訓練された例示的なアーキテクチャ600の多様なインスタンスを含み得る。
【0095】
それにかかわらず、例示的なアーキテクチャ600は、層の第1のセット602、層の第2のセット604、及び/又は層の第3のセット606を含み得るが、層のセットの追加的又は代替的な数が使用され得る。層は、MLモデルの一部、サブネットワーク、及び/又は別個のネットワークであってもよい。少なくとも1つの例では、層602-606のセットの少なくとも1つは、少なくとも部分的に上述した損失に基づいて調整された学習パラメータを含み得る1つ又は複数の畳み込み層、及び/又は(例えば、その入力をアップサンプルする)デコンボリューショナル層を含み得る。いくつかの例では、上述した多チャンネル画像は、層の第1のセット602、層の第2のセット604、及び/又は層の第3のセット606のいずれか1つ又は複数への入力として提供されてもよい。上述したように、多チャンネル画像は、現在及び/又は以前の時間ステップからのデータを含み得る。いくつかの例では、層602の第1のセットの出力は、集約層608及び層604の第2のセットへの入力として提供されてもよく、層604の第2のセットの出力は、集約層608及び層606の第3のセットへの入力として提供されてもよく、層の第3のセット606の出力は、集約層608の入力として提供されてもよい。
【0096】
いくつかの例では、集約層608は、データ構造を形成するために、それぞれの層の出力を連結するか、又はアップサンプルして要素ごとに合計し得る。いくつかの例では、集約層608によって生成されたデータ構造は、分類層610及び/又は回帰層612への入力として提供され得る。分類層610は、本明細書で議論される分類タスクのための畳み込み層又は他のコンポーネントの1つ又は複数のセットを含み得る。いくつかの例では、分類タスクの出力層は、裕度のテンソル(又は他のデータ構造)を出力してもよく、フィールドの離散部分は、環境の関連部分が分類(例えば、占有空間、オブジェクト分類、速度ビン、方向ビン、高さビン)に関連付けられる裕度を示す。例えば、分類層610の層の第1のセットは、環境のそれぞれの部分が占有されているか占有されていないか、及び/又はそれぞれのオブジェクト分類と関連付けられているかを決定してもよく、分類層610の層の別のセットは、環境が推定高さビンと関連付けられているかどうか、及びそのように決定してもよい。いくつかの例では、オブジェクト分類層のセットの離散的な部分は、追加的又は代替的に、例示的なMLアーキテクチャ600が訓練されたオブジェクト分類の各々に関連する裕度を含んでもよい。換言すれば、分類出力ヘッドは、環境の一部が分類(例えば、高さビン、オブジェクト分類、占有率)に関連しているか、又は関連していないという二値表示を出力してもよく、又は分類出力ヘッドは、分類を決定するためにNMSアルゴリズムが適用され得る回帰された値を出力してもよい。回帰層612の出力層は、ROI中心オフセット、ROI範囲、速度オフセット、方向オフセット高さオフセット、及び/又は同様のもののような、回帰されているそれらのタスクの値のフィールドを出力し得る。
【0097】
分類層610及び/又は回帰層612の様々な出力は、推定オブジェクト検出614に集約され得る。例えば、これは、ビン値からオフセットを減算すること、分類及び/又は回帰出力に適用される非最大抑制技術に少なくとも部分的に基づいてROIを決定すること、2つ以上のROIに関連する中心オフセットに少なくとも部分的に基づいて2つ以上のROIが関節オブジェクトと関連していると決定し、2つ以上のROIを単一のオブジェクト検出にグループ化すること、出力を正規化すること、及び/又は出版-購読ネットワーク上で送信するためのメッセージなどの共通のオブジェクト検出形式に出力をフォーマットすることを含んでよい。分類出力がビンを含み、回帰された出力がオフセットを含む例では、ヨー、ヨーレート、高さ、速度、加速度、オブジェクト範囲、及び/又は同様のものに使用され得るように、分類は、値の範囲(例えば、0-5メートル、0-10マイル/時)であり得るビンを示し、(回帰)オフセットがビンの基準点から減算される正又は負の値を指定し得る。例えば、基準点は、ビンの中心値(例えば、0から5メートルの範囲を指定するビンにおける3メートル)又はビンの端部(例えば、0から5メートルの範囲を指定するビンにおける0メートル又は5メートル)であり得る。本明細書で議論されるMLモデルによって出力されるデータ構造の一部として示される姿勢は、オブジェクトの位置、中心、及び/又は向き(例えば、向きはヨーを含んでよい)を含んでよいことに注意されたい。いくつかの例では、姿勢は、追加的に又は代替的に、オブジェクトの範囲を含んでいてもよい。
【0098】
(例示項)
A.方法であって、第1のセンサータイプに関連付けられた第1のオブジェクト検出及び第2のセンサータイプに関連付けられた第2のオブジェクト検出を受信することであって、第1のオブジェクト検出及び第2のオブジェクト検出は自律車両を取り巻く環境内のオブジェクトを識別することと、オブジェクトに関連付けられた追跡を受信することであって、追跡はオブジェクトの推定された以前の位置、以前の関心領域、又はオブジェクトの以前の速度の少なくとも1つを識別することと、第1のオブジェクト検出、第2のオブジェクト検出、及び追跡の少なくとも一部を機械学習(ML)モデルに入力することと、MLモデルから、オブジェクトに関連付けられた関心領域、オブジェクト分類、及び姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられた位置又はヨーの少なくとも1つを示すことと、データ構造に少なくとも部分的に基づいてオブジェクトに関連付けられた更新された追跡を決定することであって、更新された追跡は、追跡、現在の位置、及び、関心領域又はオブジェクトに関連付けられたヨーの少なくとも1つ、の少なくとも一部を含むことと、更新された追跡に少なくとも部分的に基づいて自律車両を制御することと、を含む方法。
【0099】
B.段落Aに記載の方法であって、データ構造が、オブジェクトが静的又は動的であるという指示、環境のトップダウンセグメンテーションの少なくとも1つをさらに、含む方法。
【0100】
C.段落A又は段落Bのいずれかに記載の方法であって、更新された追跡を決定することが、関心領域の以前の関心領域に対するアライメントの程度を決定すること、及びアライメントの程度がアライメントの程度の閾値を満たすか超えることを決定することを備える方法。
【0101】
D.段落AからCのいずれか1つに記載の方法であって、第1のオブジェクト検出及び第2のオブジェクト検出が、オブジェクトに関連付けられた初期の推定を含み、データ構造が、オブジェクトに関連づけられた1つ又は複数の洗練された推定を備える方法。
【0102】
E.段落Aから段落Dのいずれか1つに記載の方法であって、第1のオブジェクト検出が生成された時間より以前の時間に関連付けられた第1の事前のオブジェクト検出を受信することと、第2のオブジェクト検出が生成された時間より以前の時間に関連付けられた第2の事前のオブジェクト検出を受信することと、第1のオブジェクト検出、第2のオブジェクト検出、及び追跡に加え、第1の事前のオブジェクト検出及び第2の事前のオブジェクト検出をMLモデルに入力すること、をさらに含む方法。
【0103】
F.段落Aから段落Eのいずれか1つに記載の方法であって、第1のオブジェクト検出、第2のオブジェクト検出、及び追跡の少なくとも一部を入力することは、第1のオブジェクト検出、第2のオブジェクト検出、及び追跡の少なくとも一部に基づいて多チャネル画像を生成すること、及び多チャネル画像をMLモデルに入力することを含む方法。
【0104】
G.システムであって、1つ又は複数のプロセッサと、1つ又は複数のプロセッサによって実行されると、システムに第1の出力と第2の出力を受信することと、環境内のオブジェクトに関連付けられた追跡を受信することであって、追跡はオブジェクトの推定された以前の位置、以前の関心領域、又はオブジェクトの以前の速度の少なくとも1つを識別することと、第1の出力、第2の出力、及び追跡の少なくとも一部を機械学習(ML)モデルに入力することと、MLモデルから、関心領域、オブジェクト分類、及びオブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられた位置又はヨーの少なくとも1つを示すことと、データ構造に少なくとも部分的に基づいてオブジェクトに関連付けられた更新された追跡を決定することであって、更新された追跡は、追跡、現在の位置、及び、関心領域又はオブジェクトに関連付けられたヨーの少なくとも1つ、の少なくとも一部を含むことと、を含む動作を実行させるプロセッサ実行可能な命令を格納したメモリと、を含むシステム。
【0105】
H.段落Gに記載のシステムであって、動作が、更新された追跡に少なくとも部分的に基づいて車両を制御することをさらに含むシステム。
【0106】
I.段落G又は段落Hのいずれかに記載のシステムであって、第1の出力がオブジェクトに関連付けられた初期の推定を含み、データ構造が、オブジェクトに関連付けられた洗練された推定を含むシステム。
【0107】
J.段落Gから段落Iのいずれか1つに記載のシステムであって、データ構造が、オブジェクトが静的又は動的であるという指示、環境のトップダウンセグメンテーション、ヨーレート、オブジェクトに関連付けられた速度、又はオブジェクトに関連付けられた加速度の少なくとも1つをさらに含むシステム。
【0108】
K.段落Gから段落Jのいずれか1つに記載のシステムであって、第1の出力が、第1の知覚パイプラインの出力であり、第2の出力が、第2の知覚パイプラインの出力であり、第3の出力が、第1の出力及び第2の出力に関連付けられた環境の部分が非占有であることを示し、第3の出力が、第1の出力及び第2の出力に加え、MLモデルの入力として提供されるシステム。
【0109】
L.段落Gから段落Kのいずれか1つに記載のシステムであって、更新された追跡を決定することが、以前の関心領域に対する関心領域のアライメントの程度を決定することと、アライメントの程度がアライメントの程度の閾値を満たす又は超えることを決定することと、を含むシステム。
【0110】
M.段落Gから段落Lのいずれか1つに記載のシステムであって、第1の出力又は第2の出力の少なくとも1つが、トップダウン視点からの環境の表現、環境の部分が占有されているという指示、占有された環境の部分の表現、オブジェクトに関連付けられた関心領域、オブジェクトに関連付けられた分類、センサーデータセグメンテーション、センサーデータの3次元離散化表現、オブジェクトに関連付けられたヨー、オブジェクトに関連付けられたヨーレート、地面の高さ推定、オブジェクトに関連付けられた範囲のセット、オブジェクトに関連付けられた速度、又は、オブジェクトに関連付けられた加速度、の少なくとも1つを含むシステム。
【0111】
N.段落Gから段落Mのいずれか1つに記載のシステムであって、動作が、第1の出力が生成された時間より以前の時間と関連付けられた第1の事前の環境表現を受信することであって、第1の事前の環境表現は、第1の知覚パイプラインに関連付けられることと、第2の出力が生成された時間より以前の時間と関連付けられた第2の事前の環境表現を受信することであって、第1の事前の環境表現は、第1の知覚パイプラインに関連付けられることと、第1の出力、第2の出力、追跡に加え、第1の事前の環境表現、及び第2の事前の環境表現をMLモデルに入力することと、をさらに含むシステム。
【0112】
O.段落Gから段落Mのいずれか1つに記載のシステムであって、第1の出力、第2の出力、及び追跡の少なくとも一部を入力することが、第1の出力、第2の出力、及び追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を生成することをさらに含むシステム。
【0113】
P.プロセッサ実行可能な命令を格納した非一時的コンピュータ可読媒体であって、1つ又は複数のプロセッサによって実行されると、第1のプロセスに関連付けられた第1の出力、及び第2のプロセスに関連付けられた第2の出力を受信することと、環境内のオブジェクトに関連付けられた追跡を受信することであって、追跡は、オブジェクトの推定された以前の位置、以前の関心領域、又はオブジェクトの以前の速度の少なくとも1つを識別することと、第1の出力、第2の出力、及び追跡の少なくとも一部を機械学習(ML)モデルに入力することと、MLモデルから、関心領域、オブジェクト分類、及びオブジェクトに関連付けられた姿勢を含むデータ構造を受信することであって、姿勢は、オブジェクトに関連付けられた位置又はヨーの少なくとも1つを示すことと、データ構造に少なくとも部分的に基づいて、オブジェクトに関連付けられた更新された追跡を決定することであって、更新された追跡は、追跡、現在の位置、及び関心領域又はオブジェクトに関連付けられたヨーの少なくとも1つ、の少なくとも一部を含むことと、を含む動作を少なくとも1つ又は複数のプロセッサに実行させる、非一時的コンピュータ可読媒体。
【0114】
Q.段落Pに記載の非一時的コンピュータ可読媒体であって、第1の出力が、オブジェクトに関連付けられた初期の推定を含み、データ構造が、オブジェクトに関連付けられた最終的な推定を含む非一時的コンピュータ可読媒体。
【0115】
R.段落P又は段落Qのいずれかに記載の非一時的コンピュータ可読媒体であって、データ構造が、オブジェクトが静的又は動的であるという指示、環境のトップダウンセグメンテーション、ヨーレート、オブジェクトに関連付けられた速度、又はオブジェクトに関連付けられた加速度の少なくとも1つをさらに含む非一時的コンピュータ可読媒体。
【0116】
S.段落Pから段落Rのいずれか1つに記載の非一時的コンピュータ可読媒体であって、第1の出力又は第2の出力の少なくとも1つが、トップダウン視点からの環境の表現、環境の部分が占有されているという指示、占有された環境の部分の表現、オブジェクトに関連付けられた関心領域、オブジェクトに関連付けられた分類、センサーデータセグメンテーション、センサーデータの3次元離散化表現、オブジェクトに関連付けられたヨーオブジェクトに関連付けられたヨーレート、地面の高さ推定、オブジェクトに関連付けられた範囲のセット、オブジェクトに関連付けられた速度、又は、オブジェクトに関連付けられた加速度、の少なくとも1つを含む非一時的コンピュータ可読媒体。
【0117】
T.段落Pから段落Sのいずれか1つに記載の非一時的コンピュータ可読媒体であって、第1の出力、第2の出力、及び追跡の少なくとも一部を入力することが、第1の出力、第2の出力、及び追跡の少なくとも一部に少なくとも部分的に基づいて、多チャンネル画像を生成することをさらに含む、請求項10から13のいずれか一項に記載の非一時的コンピュータ可読媒体。
【0118】
U.自律車両であって、段落Gから段落Oのいずれか1つに記載のシステムを含む自律車両。
【0119】
V.システムであって、1つ又は複数のプロセッサと、1つ又は複数のプロセッサによって実行されると、システムに段落Aから段落Fのいずれか1つに記載の方法を含む動作を実行させるプロセッサ実行可能な命令を可能するメモリと、を含むシステム。
【0120】
(結論)
構造的特徴及び/又は方法論的行為に特有の言語で主題を説明してきたが、添付の請求項に定義される主題は、必ずしも説明された特定の特徴又は行為に限定されないことが理解される。むしろ、特定の特徴及び行為は、特許請求の範囲を実施する例示的な形態として開示されている。
【0121】
本明細書で説明されるコンポーネントは、任意のタイプのコンピュータ可読媒体に格納され得る命令を表し、ソフトウェア及び/又はハードウェアで実装され得る。上述した方法及びプロセスの全ては、1つ又は複数のコンピュータ又はプロセッサ、ハードウェア、又はそれらのいくつかの組み合わせによって実行されるソフトウェアコードコンポーネント及び/又はコンピュータ実行可能な命令において具現化され、それらを介して完全に自動化されてもよい。方法の一部又は全部は、代替的に、特殊なコンピュータハードウェアで具現化されてもよい。
【0122】
本明細書で議論される処理の少なくともいくつかは、論理フローグラフとして図示され、その各動作は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実装され得る動作のシーケンスを表している。ソフトウェアのコンテキストでは、動作は、1つ又は複数のプロセッサによって実行されると、コンピュータ又は自律車両に言及された動作を実行させる、1つ又は複数の非一時的コンピュータ可読記憶媒体上に格納されたコンピュータ実行可能な命令を表す。一般に、コンピュータ実行可能な命令は、特定の機能を実行する、又は特定の抽象的なデータタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。動作が記載される順序は、限定として解釈されることを意図しておらず、記載された動作の任意の数は、処理を実行するために任意の順序で及び/又は並行して組み合わされることができる。
【0123】
特に、「し得る」、「だろう」、「してよい」などの条件付き言語は、特に断らない限り、コンテキスト内で、特定の例が特定の特徴、要素及び/又はステップを含み、他の例が含まないことを提示すると理解される。したがって、このような条件付き言語は、一般に、特定の特徴、要素及び/又はステップが1つ又は複数の例に何らかの形で必要であること、又は1つ又は複数の例が、特定の特徴、要素及び/又はステップが任意の特定の例に含まれるか又は実行されるべきかを、ユーザ入力又はプロンプトの有無にかかわらず決定するための論理を必ず含むことを意味しないように意図されたものである。
【0124】
「X、Y又はZの少なくとも1つ」というような接続語は、特に断らない限り、項目、用語などがX、Y又はZのいずれか、又はそれらの任意の組み合わせ(各要素の倍数を含む)であり得ることを示すと理解されるものとする。単数形として明示的に記述されていない限り、「a」は単数形及び複数形を意味する。
【0125】
本明細書に記載され、添付図に描かれたフロー図における任意のルーチン記述、要素又はブロックは、ルーチン内の特定の論理機能又は要素を実行するための1つ又は複数のコンピュータ実行可能な命令を含むコードのモジュール、セグメント又は部分を表し得る理解されるべきである。代替的な実装は、当業者に理解されるように、関係する機能に応じて、要素又は機能が削除されるか、又は、実質的に同期して、逆の順序で、追加の動作で、又は動作の省略を含む、示されるか又は議論されたものとは異なる順序で実行され得る、本書に説明される例の範囲内に含まれる。
【0126】
上述した例に対して多くの変形及び修正を行うことができ、その要素は他の許容可能な例の中にあるものとして理解される。全てのそのような修正及び変形は、本開示の範囲内に含まれ、以下の請求項によって保護されることが意図される。