(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-24
(54)【発明の名称】中心ベースの検出と追跡
(51)【国際特許分類】
G06V 20/56 20220101AFI20241217BHJP
G06T 7/00 20170101ALI20241217BHJP
B60W 40/02 20060101ALI20241217BHJP
B60W 30/08 20120101ALI20241217BHJP
【FI】
G06V20/56
G06T7/00 350B
G06T7/00 650B
B60W40/02
B60W30/08
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024532274
(86)(22)【出願日】2022-11-21
(85)【翻訳文提出日】2024-05-29
(86)【国際出願番号】 US2022080211
(87)【国際公開番号】W WO2023102327
(87)【国際公開日】2023-06-08
(32)【優先日】2021-11-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518156417
【氏名又は名称】ズークス インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】キアン ソング
(72)【発明者】
【氏名】ベンジャミン イサーク ツヴィーベル
【テーマコード(参考)】
3D241
5L096
【Fターム(参考)】
3D241BA31
3D241BA49
3D241CE08
3D241DC01Z
3D241DC25Z
3D241DC33Z
5L096BA04
5L096CA05
5L096DA02
5L096FA64
5L096FA67
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
環境内のオブジェクトを検出および追跡するための技術が、本明細書で説明される。例えば、技術は、オブジェクトに関連付けられたピクセルのブロックの中心点を検出することを含むことができる。単峰(例えば、ガウス)信頼度値は、オブジェクトに関連付けられたピクセルのグループについて決定され得る。提案された検出ボックスの中心点は、ピクセルのガウス信頼度値に基づいて決定され得、出力検出ボックスは、フィルタリングおよび/または抑制技術を使用して決定され得る。さらに、機械学習モデルは、検出ボックスの中心ピクセルのパラメータ、および次いで検出の他のピクセルに逆伝播することができる単峰信頼度値に基づいて焦点損失を決定することによって訓練することができる。
【特許請求の範囲】
【請求項1】
環境内の車両に関連付けられたセンサからセンサデータを受信することと、
前記センサデータに少なくとも部分的に基づいて、入力データを決定することと、
機械学習モデルに前記入力データを入力することと、
前記機械学習モデルによって、前記入力データに表されるオブジェクトに関連付けられた離散化された値の単峰信頼度値を決定することと、
前記単峰信頼度値に少なくとも部分的に基づいて、前記オブジェクトに関連付けられた前記離散化された値から提案された中心値を決定することと、
前記提案された中心値に少なくとも部分的に基づいて、前記オブジェクトを表す候補検出ボックスを決定することと、
前記候補検出ボックスに少なくとも部分的に基づいて、出力検出ボックスを決定することと、
前記出力検出ボックスに少なくとも部分的に基づいて、前記車両を制御することと、
を含むことを特徴とする方法。
【請求項2】
前記機械学習モデルは、焦点損失に基づいて、前記離散化された値の前記単峰信頼度値を決定するように訓練される、請求項1に記載の方法。
【請求項3】
前記出力検出ボックスに関連付けられた中心値に少なくとも部分的に基づいて、前記オブジェクトを表すマルチチャネル出力データを生成することをさらに含む、請求項1または2に記載の方法。
【請求項4】
前記マルチチャネル出力データのチャネルが、前記出力検出ボックスに関連付けられた離散化された値の単峰信頼度値を含む、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記マルチチャネル出力データのチャネルは、
中心オフセット値、
分類、
寸法、
ヨー、
速度、または
動き状態
のうちの1つまたは複数を含む、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記出力検出ボックスを決定することは、前記候補検出ボックスに少なくとも部分的に基づいて、非極大値抑制演算を実行することを含む、請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
前記提案された中心値を決定することは、前記単峰信頼度値に少なくとも部分的に基づいて、前記提案された中心値の単峰信頼度値が閾値を満たすか、または上回ることを決定することを含む、請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
前記入力データは、前記環境の上面斜視図を表す、請求項1乃至7のいずれか一項に記載の方法。
【請求項9】
1つまたは複数のプロセッサによって実行されると、1つまたは複数のコンピューティングデバイスに請求項1乃至8のいずれか一項に記載の前記方法を実行させる命令を格納する1つまたは複数の非一時的なコンピュータ可読媒体。
【請求項10】
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行可能な命令を格納する1つまたは複数の非一時的なコンピュータ可読媒体と、を備えるシステムであって、前記命令が実行されると、前記システムに、
環境内の車両に関連付けられたセンサからセンサデータを受信することと、
前記センサデータに少なくとも部分的に基づいて、入力データを決定することと、
機械学習モデルに前記入力データを入力することと、
前記機械学習モデルによって、前記入力データに表されるオブジェクトに関連付けられた離散化された値の単峰信頼度値を決定することと、
前記単峰信頼度値に少なくとも部分的に基づいて、前記オブジェクトに関連付けられた前記離散化された値から提案された中心値を決定することと、
前記提案された中心値に少なくとも部分的に基づいて、候補検出ボックスを決定することと、
前記候補検出ボックスに少なくとも部分的に基づいて、出力検出ボックスを決定することと、
前記出力検出ボックスに少なくとも部分的に基づいて、前記車両を制御することと、
を含む動作を実行させることを特徴とするシステム。
【請求項11】
前記機械学習モデルは、焦点損失に基づいて、前記離散化された値の前記単峰信頼度値を決定するように訓練される、請求項10に記載のシステム。
【請求項12】
前記提案された中心値を決定することは、前記単峰信頼度値に少なくとも部分的に基づいて、前記提案された中心値の単峰信頼度値が閾値を満たすか、または上回ることを決定することを含む、請求項10または11に記載のシステム。
【請求項13】
前記閾値が、機械学習閾値である、請求項10乃至13のいずれか一項に記載のシステム。
【請求項14】
前記出力検出ボックスを決定することは、前記候補検出ボックスに少なくとも部分的に基づいて、非極大値抑制演算を実行することを含む、請求項10乃至14のいずれか一項に記載のシステム。
【請求項15】
前記オブジェクトに関連付けられた前記離散化された値の単峰信頼度値を決定することは、前記オブジェクトに関連付けられた前記離散化された値のガウス信頼度値を決定することを含む、請求項10乃至15のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、中心ベースの検出と追跡に関する。
【背景技術】
【0002】
本出願は、2021年11月30日に出願され、「センターベースの検出および追跡」と題された米国出願第17/537、920号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0003】
自律車両によって様々なシステムおよび技術が利用され、環境内の車両、歩行者、および自転車などのオブジェクトの検出および追跡を実行する。検出および追跡技術は、センサを使用して環境内のデータをキャプチャし得る。キャプチャされたセンサデータは、環境内のオブジェクトを検出し、そのようなオブジェクトを表す境界ボックスを生成する際に使用するために処理することができる。次いで、これらの境界ボックスを使用して、環境内の自律車両をナビゲートすることができる。センサデータに基づいて環境内に存在するオブジェクトを正確に表す境界ボックスを生成することは、時には課題を提示し得る。
【図面の簡単な説明】
【0004】
詳細な説明は添付の図面を参照して説明される。図面において、参照番号の左端の数字は参照番号が最初に現れる図を特定している。異なる図面における同じ参照番号の使用は、類似または同一のコンポーネントまたは特徴を示す。
【
図1】
図1は、本開示の例による、中心ベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するための例示的なプロセスの絵画的フロー図である。
【
図2A】
図2Aは、本開示の例による、センターベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスに関連付けられたデータおよびオブジェクトの概略表現である。
【
図2B】
図2Bは、本開示の例による、センターベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスに関連付けられたデータおよびオブジェクトの概略表現である。
【
図2C】
図2Cは、本開示の例による、センターベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスに関連付けられたデータおよびオブジェクトの概略表現である。
【
図2D】
図2Dは、本開示の例による、センターベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスに関連付けられたデータおよびオブジェクトの概略表現である。
【
図2E】
図2Eは、本開示の例による、センターベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスに関連付けられたデータおよびオブジェクトの概略表現である。
【
図2F】
図2Fは、本開示の例による、センターベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスに関連付けられたデータおよびオブジェクトの概略表現である。
【
図2G】
図2Gは、本開示の例による、センターベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスに関連付けられたデータおよびオブジェクトの概略表現である。
【
図3】
図3は、本開示の例による、単峰信頼度値を表す例示的な曲線の概略図である。
【
図4】
図4は、本開示の例による、1つまたは複数の中心ピクセルパラメータを有する検出ボックスピクセルを生成および入力するための例示的なプロセスの絵画的フロー図である。
【
図5】
図5は、本明細書で記載の方法を実装するための例示的なシステムのブロック図を示す。
【発明を実施するための形態】
【0005】
環境内のオブジェクトを検出および追跡するための技術は、本明細書で説明される。例えば、技術は、機械学習モデルを使用して(例えば、推論モードで)、(例えば、関連付けられた信頼度値の単峰分布に基づいて)閾値を満たすか、または超える単峰信頼度値に関連付けられたオブジェクトに関連付けられたピクセルのグループの点またはピクセルを決定することによって、オブジェクトの候補境界ボックスを決定することを含み得る。決定された点またはピクセルの境界ボックスは、そのような点またはピクセルに関連付けられたオブジェクトデータに基づいて復号化され得、オブジェクトの検出ボックスは、それらの境界ボックスに基づいて(例えば、非極大値抑制を使用して)決定され得る。訓練モードでは、機械学習モデルは、オブジェクトに関連付けられたピクセルのグループ内の残りの点またはピクセルにわたって、決定されたオブジェクトの中心点またはピクセルの1つまたは複数のオブジェクトデータパラメータを伝播することによって訓練され得る。次いで、損失は、ピクセルのグループ内の個々の点またはピクセルについて決定され、モデルが訓練されるにつれて逆伝播され得る。
【0006】
特定の技術では、中心点は、ピクセルへのバイナリマスクを使用して決定され、オブジェクトとの関連付けに十分な信頼度値(例えば、非ゼロ信頼度値または最小閾値を超える信頼度値)を有するピクセルを決定し得る。そのような技術では、訓練モードでバイナリマスクを使用することは、オブジェクトの中心からより遠いそれらの点またはピクセルが正確なオブジェクト検出情報を表現する可能性が低い場合でも、オブジェクトに潜在的に関連付けられるすべての点またはピクセルのオブジェクトデータ値に等しい重みを与える。オブジェクトの中心からさらに離れた点またはピクセルは、ノイズの影響を受けやすく、したがって信頼性の低いオブジェクト情報を有し得るため、正確なオブジェクト検出情報を表現する可能性が低い。推論モードでのバイナリマスクの使用は、本明細書に記載されるようにユニモーダルマスクが使用される場合よりも、オブジェクトの検出ボックスを決定するプロセスにおいて、より多くの候補境界ボックスの決定を必要とするため、リソース集約的である。本明細書に記載の単峰信頼度値およびマスキング技術は、候補中心点またはピクセルのより正確な決定をもたらし得るため、本明細書に記載の技術は、より少ない候補境界ボックスの処理(例えば、非極大値抑制の使用)を可能にして、オブジェクトの検出ボックスを決定し、それによってシステム速度および効率を増加させる。本明細書に記載のシステムおよび技術に従って決定された単峰信頼度値および関連するオブジェクトデータはまた、他のシステムおよび処理(例えば、予測、計画など)を可能にして、環境に対するより優れた洞察を得て、それによって車両を制御するためのより正確なデータを生成し得る。
【0007】
例では、オブジェクトに関連付けられたピクセルのブロックの中心点の改善された検出のためのシステムおよび技術が開示される。機械学習モデルは、(例えば、センサデータに表されるように)ピクセルのグループがオブジェクトに関連付けられていると決定され得る。モデルは、ピクセルのグループ内の個々のピクセルについての単峰性信頼度値(例えば、ガウス信頼度値)を決定することができ、次いで、ピクセルのグループについての信頼度値の単峰性分布を表す曲線を生成することができる。この曲線を使用して、閾値を超える信頼度値を有するピクセルは、提案された検出ボックス中心点として決定され得る。これらの提案された中心点に関連付けられた候補検出ボックスが生成され(例えば、提案された中心点に関連付けられたピクセルデータに基づいて復号され)、モデルは次いで、候補検出ボックスに基づいて(例えば、非極大値抑制(NMS)などの1つまたは複数の様々な技術を使用して)出力検出ボックスを決定し得る。
【0008】
機械学習モデルは、出力検出ボックスの決定された中心ピクセルの1つまたは複数のパラメータ(例えば、速度、中心座標および/またはオフセット値、長さ、幅、方向、静止性など)を、出力検出ボックスの他のピクセルを伝播して、ボックス全体で一貫したパラメータを確保することによって、学習され得る。次いで、損失は、関連付けられたピクセルの単峰信頼度値に基づいて出力検出ボックスの他のピクセルについて決定され、モデルが訓練されるにつれて逆伝播され得る。
【0009】
本明細書に記載のシステムおよび技術は、センサデータおよびピクセルデータを活用して、自律車両などの車両が環境内のオブジェクトをより正確に識別および位置決めし、したがって、そのようなオブジェクトを回避することによって環境をより安全に走行することを可能にすることを目的とし得る。本明細書に記載のシステムおよび技術は、単峰性関数を利用して、環境内のオブジェクトについて機械学習モデルによって決定された出力検出ボックスの潜在的な中心点をより正確に決定することができ、したがって、オブジェクトについてのより正確な検出ボックスの生成を容易にすることができる。本明細書に記載のシステムおよび技術はまた、本明細書で説明するユニモーダル演算を用いて、より少ない候補検出ボックスが決定される可能性があり(例えば、決定される提案された中心点が少ないため)、それによって候補検出ボックスの中から出力検出ボックスを決定するのに必要な処理を減少させるため、出力検出ボックス決定演算の効率を高めることができる。
【0010】
本明細書に記載のシステムおよび技術はまた、検出ボックス内の他のピクセルに本明細書に記載のシステムおよび技術に従って決定された中心ピクセルから速度パラメータなどの1つまたは複数のパラメータを入力し、ピクセルの信頼度値に基づいてそのようなピクセルに関連付けられた損失を逆伝播することによって、そのようなモデルを訓練してより正確なオブジェクトデータを決定することによって、機械学習モデルの精度を高めることができる。これにより、本明細書で記載されるように決定された検出ボックスの中心ピクセルが、従来の技術を使用して決定された中心ピクセルよりも検出されたオブジェクトのより正確な表現であり得るため、オブジェクト検出の精度を改善し、安全性の結果を改善し得る。したがって、本明細書で記載される例は、オブジェクト検出の確実性の増加をもたらし得、それによって、自律車両がより 正確および/またはより安全な軌道を生成し、環境内を横断することを可能にする。例えば、本明細書に記載の技術は、環境内のオブジェクトの寸法および他の物理的パラメータの決定の信頼性を高め、オブジェクトを識別できない、または誤認する可能性を低減する可能性があるため、従来の技術よりも速く、および/またはより堅牢であり得る。すなわち、本明細書に記載の技術は、既存のオブジェクト検出、位置特定、追跡、および/またはナビゲーション技術に対する技術的改善を提供する。アップスケールされたデータ構造を使用してオブジェクトを決定し、そのようなオブジェクトを正確に位置付けることができる精度の向上に加えて、本明細書に記載のシステムおよび技術は、よりスムーズな乗り心地を提供し、例えば、意図された目的地への安全な通路をより正確に提供することによって安全性の結果を改善することができる。
【0011】
本明細書に記載のシステムおよび技法は、いくつかの方法で実施することができる。以下、図を参照しながら実施例を提示する。自律走行車に関連して説明されているが、本明細書に記載される技術は、様々なシステム(例えば、センサシステム、またはロボットプラットフォーム)に適用することができ、自律車両に限定されない。例えば、本明細書に記載される技術は、半自律および/または手動で操作される車両に適用することができる。別の例では、この技術は、航空または航海の文脈で、またはシステムに知られていない可能性がある寸法および/または他の物理的パラメータを有するオブジェクトまたはエンティティを含む任意のシステムで利用され得る。さらに、特定のタイプのセンサデータを起点とし、特定のタイプのコンポーネントを用いて処理するという文脈で説明されているが、本明細書に記載のデータおよびデータ構造は、他のタイプの画像データ(例えば、ステレオカメラ、飛行時間データなど)、レーダーデータ、ソナーデータなどの任意の二次元、三次元、または多次元データを含むことができる。さらに、本明細書に記載される技術は、実際のデータ(例えば、センサを用いてキャプチャされた)、模擬データ(例えば、シミュレーターによって生成された)、またはその2つの任意の組合せで用いることができる。さらに、特定の例は、ガウス信頼度値および分布を使用して本明細書に記載されるが、他のタイプの単峰信頼度値および分布を使用する他の技術が企図される。
【0012】
図1は、オブジェクト検出および追跡で使用する検出ボックスを生成するための例示的なプロセス100を示す絵画的フロー図である。例では、プロセス100の1つまたは複数の動作は、
図5に示され、以下に説明されるコンポーネントおよびシステムのうちの1つまたは複数を使用するなど、車両コンピューティングシステムによって実装され得る。例えば、1つまたは複数のコンポーネントおよびシステムは、
図5に示される深層追跡ネットワーク532に関連付けられたコンポーネントおよびシステムを含むことができる。例では、プロセス100の1つまたは複数の動作は、
図5に示される深層追跡ネットワーク550などの車両と通信するリモートシステムによって実行され得る。さらに他の例では、プロセス100の1つまたは複数の動作は、リモートシステムと車両コンピューティングシステムとの組み合わせによって実行され得る。しかしながら、プロセス100は、そのようなコンポーネントおよびシステムによって実行されることに限定されず、
図5のコンポーネントおよびシステムは、プロセス100を実行することに限定されない。
【0013】
プロセス100の1つまたは複数の動作、ならびに本明細書に記載される任意の他の動作、システム、および技術は、1つまたは複数の車両、歩行者、および自転車を含む任意のタイプおよび数のオブジェクトを検出することを目的とし得る。例えば、プロセス100および/または本明細書に記載される任意の他のプロセスは、1つまたは複数のオブジェクト検出ネットワーク(例えば、深層追跡ネットワークに構成され得る)を実装し得る。そのようなオブジェクト検出ネットワークの個々のネットワークは、特定のオブジェクトに対して(例えば、並列して)実装され得る。例えば、追跡ネットワークは、車両検出ネットワーク、歩行者検出ネットワーク、および/または自転車検出ネットワークを並行して(または別の方法で)、実装し得る。別の例では、追跡ネットワークは、1つまたは複数の粗粒度(coarse-grained)車両検出ネットワーク、1つまたは複数の細粒度(fine-grained)車両検出ネットワーク、1つまたは複数の粗粒度歩行者および/または自転車検出ネットワーク、ならびに1つまたは複数の細粒度歩行者および/または自転車検出ネットワークを並行して(または別の方法で)、実装し得る。任意の他の適切な検出ネットワークおよび/または検出システム構成は、本明細書に記載されるシステムおよび技術のうちの1つまたは複数を組み込んでもよい。
【0014】
動作102において、自律車両に構成された1つまたは複数のセンサは、1つまたは複数のセンサを使用して環境内のデータを検出し、そのような検出に基づいてセンサデータを生成し得る。様々な例では、センサは、1つまたは複数のライダーセンサ、カメラセンサ、レーダーセンサ、ソナーセンサ、オーディオセンサ、超音波トランスデューサー、および/または任意の他の適切なセンサを含み得る。このデータは、車両コンピューティングデバイスによって収集され(または受信され)、格納され、および/または処理され、本明細書に記載されるような1つまたは複数の動作を実行し得る。例では、その動作102で収集されたセンサデータは、以下でより詳細に説明されるように、処理のために深層追跡ネットワーク(DTN)に提供され得る。
【0015】
例104は、オブジェクト108などの環境内のオブジェクトを検出するためにセンサを備えて構成され得る車両106を含む環境の上面図を示す。車両106の車両コンピューティングデバイスは、車両106のセンサからセンサデータを受信し、本明細書に記載されるようなセンサデータを使用して、例えば、オブジェクト108の検出ボックスを生成するように構成され得る。
【0016】
動作110において、車両コンピューティングシステム(例えば、機械学習モデルを実行するその中に構成されたDTN)は、センサデータに基づいてピクセルについてのピクセルデータを受信し得る。例えば、車両コンピューティングデバイスは、動作102で収集された(例えば、車両に構成された1つまたは複数のセンサモダリティによって生成および/または検出された)センサデータに基づいて、環境内のオブジェクトに関連付けられたピクセルのピクセルデータを決定し、そのデータを車両コンピューティングデバイスで構成された、または車両コンピューティングデバイスと相互運用するDTNに提供し得る。例では、他のデータは、この動作およびプロセス100の他の場所で使用および/または処理され得る。例えば、任意の形態の1つまたは複数の離散化された値は、動作110で受信され得る。
【0017】
例112は、領域113および例104のオブジェクト108に関連付けられたピクセルデータおよび/または離散化値を示す。例示的なデータグループ114内のピクセルまたは値は、例104の環境からキャプチャされたセンサデータに基づいてオブジェクトに関連付けられると決定され、車両コンピューティングデバイスがピクセルデータを生成したピクセルまたは値であり得る。例では、車両コンピューティングデバイスは、データグループ114の個々のピクセルについての単峰性(例えば、ガウス)信頼度値、並びに中心オフセット値および/または座標、長さ、幅、方向、静止性、ヨー、および/または速度などの他のパラメータを決定し得る。
【0018】
動作116において、車両コンピューティングシステム(例えば、機械学習モデルを実行するDTNにおいて)は、オブジェクトに関連付けられた個々のピクセルについての単峰信頼度値(例えば、ガウス信頼度値)を決定し得る。車両コンピューティングデバイス(例えば、DTN)はまた、または代わりに、オブジェクトに関連付けられた個々のピクセルについての他のオブジェクトおよび/またはピクセルデータを生成し得る。このオブジェクトおよび/またはピクセルデータは、中心オフセット座標および/または値、長さ、幅、方向、静止性、ヨー、および/または速度、ならびに決定された単峰信頼度値を含み得る。車両コンピューティングデバイスは、本明細書でより詳細に説明されるように、データ構造の特定のレイヤが特定のタイプのデータに対応する、マルチチャネルデータ構造としてこのオブジェクトおよび/またはピクセルデータを表し得る。例では、このマルチチャネルデータ構造は、車両コンピューティングシステムで動作する、または車両コンピューティングシステムと併せて動作するDTN(例えば、機械学習モデルを実行する)によってマルチチャネル出力データとして生成され得、各ピクセルについて決定された単峰性信頼度値を含むチャネルまたはレイヤを含み得る。さらに動作116において、車両コンピューティングシステムは、オブジェクトに関連付けられる個々のピクセルに関連付けられるピクセル信頼度値の単峰分布(例えば、ガウス曲線)の表現を決定してよい。例えば、車両コンピューティングシステムは、2次元ガウス関数を使用して、ピクセルに関連付けられた信頼度値を表すガウス曲線を生成し得る。例では、信頼度値の単峰分布表現の結果は、相対的高い信頼度値と低い信頼度値を有するピクセルを示し得る。
【0019】
例118は、データグループ114に対して決定された単峰信頼度値を表す単峰表現120の上面図を示す。この例では、より太い線はより高い信頼度値を示し、より細い線はより低い信頼度値を表す。この例に示されるように、検出されたオブジェクトの中心に近いピクセルの単峰信頼度値は、オブジェクトの中心から遠いピクセルよりも比較的高くなり得る。
【0020】
動作122において、車両コンピューティングシステム(例えば、機械学習モデルを実行すること)は、動作116で生成された単峰分布に基づいて、オブジェクトの候補検出ボックスの中心点またはピクセルを決定し得る。例えば、車両コンピューティングシステムは、特定の閾値を上回る単峰性信頼度値を有する単峰性分布に沿ったものが、閾値を下回る点に関連付けられた単峰性分布に沿ったものよりも、候補検出ボックス中心点のためのより良い候補であり得ると決定し得る。閾値は、1つまたは複数のパラメータおよび初期所定の閾値で機械学習(ML)モデルを初期化することに基づいて機械学習閾値を出力するように訓練されたMLモデルを使用して生成された機械学習閾値であってよく、次いで、最高品質の機械学習閾値が検出されるまで、初期所定の閾値のバリエーションを使用してピクセルデータの訓練セットを処理する。様々な例示において、車両コンピューティングシステムは、1つより多くのピクセルに対する平均化されたまたは集約された単峰信頼度値を決定してよく、集約されたまたは平均化された単峰信頼度値に基づいて信頼度値の単峰分布を決定してよい。次いで、車両コンピューティングシステムは、集約されたまたは平均化された単峰信頼度値に基づく分布に基づいて、提案された検出ボックス中心点の候補となり得るそれらのピクセルを決定し得る。
【0021】
例124は、動作116の入力としてデータグループ114に対して決定された単峰信頼度値に基づいて決定された単峰分布を表す単峰表現120の側面図を示す。単峰表現120のこの側面図は、その最高点(例えば、ピーク)での単峰表現120の2次元断面を表し得る。閾値線126は、車両コンピューティングシステムによって使用され得る閾値を表し、候補検出ボックスを生成する際に使用するピクセルを決定し得る。閾値線126以上の単峰分布120の部分に関連付けられたそれらのピクセルは、候補検出ボックスの中心点の候補であると決定されてもよく、一方、閾値線126より下の単峰分布120の部分に関連付けられたそれらのピクセルは、候補検出ボックスの中心点の候補ではないと決定されてもよい。
【0022】
動作128において、車両コンピューティングシステムは、動作122で決定されたピクセルに基づいて候補検出ボックスを生成し得る。例えば、車両コンピューティングシステムは、そのようなピクセルに関連付けられ、および/またはオブジェクトおよび/またはピクセルデータ構造に表される様々なパラメータのうちの1つまたは複数を復号することによって、動作122で決定されたピクセルの候補検出ボックスを生成し得る。ピクセルに関連付けられ得、および/または検出ボックスを生成するために使用され得るパラメータは、限定されないが、中心座標および/またはオフセット値、長さ、幅、方向、静止性、ヨー、および/または速度を含み得る。
【0023】
例130は、提案された中心ピクセル134に基づいて生成され得る候補検出ボックス132の上面図を示す。この例では、個々の提案された中心ピクセル134は、車両コンピューティングデバイスで構成された閾値を満たすか、または超える単峰信頼度値を有し得る。次いで、車両コンピューティングデバイスは、提案された中心ピクセル134に関連付けられた1つまたは複数のパラメータを使用し、候補検出ボックス132を生成し得る。
【0024】
動作136において、車両コンピューティングシステムは、出力検出ボックスを決定し得る。例では、車両コンピューティングシステムは、候補検出ボックスを入力として使用して非極大値抑制演算を実行し、候補検出ボックスの中から車両のナビゲーションおよび/または他の機能に使用する出力検出ボックスを決定し得る。代替として、または追加として、車両コンピューティングシステムは、1つまたは複数の基準を満たす候補検出ボックス(例えば、閾値を下回る単峰信頼度値の中心ピクセルを有する)を抑制し得、および/または出力検出ボックスが決定されるまで、1つまたは複数の技術を使用して候補検出ボックスをフィルタリングし得る。この出力検出ボックスは、DTNによって実行されるDTNおよび/または機械学習モデルの出力であり、出力検出ボックスを決定し得る。
【0025】
動作138において、車両コンピューティングシステムは、動作136で決定された出力検出ボックスに基づいて、オブジェクト検出を生成するか、またはそうでなければ提供することができ、および/または出力検出ボックスに基づいて車両をナビゲートすること、および/または他の機能を実行することができる。
【0026】
例140は、車両106およびオブジェクト108を含む、例示的な環境の上面図を再び示す。この例に示されるように、車両コンピューティングシステムは、オブジェクト108を表す際に使用するために、候補検出ボックス132の中から出力検出ボックス142を決定している。出力検出ボックス142は、提案された中心ピクセル134の中にあった中心ピクセル144に基づいて生成され得る。
【0027】
いくつかの例では、本明細書で説明されるように決定された信頼度値は、ダウンストリームプロセスによって使用されてもよく、またはオブジェクトデータと共に他のコンポーネントによって受信されてもよい。例えば、予測システムは、オブジェクトデータおよびデータに関連付けられた信頼度値を受信して、データについての予測を行い得る。いくつかの例では、プランニングシステムは、オブジェクトデータおよび関連する信頼度値を受信することができ、オブジェクトデータおよび/または信頼度値に基づいて軌道を計画することができる。いくつかの例では、オブジェクトデータおよび信頼度値を使用して、本明細書で説明されるように、占有グリッドの個々の領域の占有状態を重み付けするか、または信頼度値に基づいて他の方法で決定され得る占有グリッドを入力することができる。追加の例および企図されるものであり、範囲は、本明細書で論じられる明示的な例に限定されない。
【0028】
図2A~Gは、例えば、推論モードで実行する機械学習モデルによって実行されるような、中心ベースの検出を使用して環境内のオブジェクトの検出ボックスを生成するためのプロセスによってキャプチャおよび/または生成された様々なデータの概略表現を示す。
図2Aは、オブジェクト211および212を含む例示的な領域210の上面図を示す。領域210は、自律車両が動作している環境内のセクションまたは領域であり得る。環境内で安全に動作およびナビゲートするために、自律車両は、センサおよび車両コンピューティングシステムなどの1つまたは複数の他のシステムを使用して、環境内のオブジェクト211および212のようなオブジェクトを検出するように構成され得る。このオブジェクト検出プロセスの一部として、車両コンピューティングシステムは、本明細書で説明されるように、センサ、オブジェクト、および/またはピクセルデータをキャプチャおよび/または生成し得る。
【0029】
図2Bは、例えば、本明細書で説明されるように、車両のコンピューティングシステムによって生成されるセンサデータ220を示す。データ220は、領域に関連付けられ、車両上に構成された1つまたは複数のセンサおよび/または関連付けられたシステムによって生成されたセンサデータを表すピクセル223を含み得る。
図2Bでは、ピクセル221および222のグループは、環境内の潜在的なオブジェクトに関連付けられ得る。ピクセル221および222のグループは、この図において例示的な目的のために拡大され、ピクセル223のサブセットである。
【0030】
図2Cは、ピクセル221および222のグループのデータを含むピクセルデータ230を示す。車両コンピューティングシステムは、センサデータに基づいて、オブジェクトに潜在的に関連付けられたピクセルのピクセルデータを決定し得る。例えば、車両コンピューティングデバイスは、ピクセルグループ221および222内の個々のピクセルについての単峰信頼度値(例えば、ガウス信頼度値)を生成し得る。車両コンピューティングデバイスはまた、または代わりに、ピクセルグループ221および222内の個々のピクセルのピクセルデータを含む、オブジェクトに潜在的に関連付けられたピクセルのための他のデータを生成し得る。このピクセルデータは、中心座標および/またはオフセット値、長さ、幅、方向、静止度、ヨー、および/または速度を含み得る。そのようなピクセルおよび/またはオブジェクトデータは、本明細書でより詳細に説明されるように、特定のタイプのデータを表す特定のレイヤを有する、マルチチャネルデータ構造および/またはマルチチャネルインプットデータとして表され得る。
【0031】
グループ221および222内のピクセルの決定された単峰信頼度値が使用され、単峰分布を決定し得る。例えば、
図2Dの例240に示されるように、ピクセルグループ221の信頼度値の単峰分布は、上面図表現241Aおよび側面図表現241Bによって示される。また、
図2Dには、上面図表現242Aおよび側面図表現242Bによって示される、ピクセルグループ222の信頼度値の単峰分布が示されている。例示の上面図表現241Aおよび242Aの地形図では、より太い線は、より高い単峰信頼度値を示し、より細い線は、より低い単峰信頼度値を表す。表現241Bおよび242Bの例示的な側面図では、図示の曲線上のより高い点は、より高い単峰信頼度値に関連付けられた分布の部分に対応し、一方、曲線上のより低い点は、より低い単峰信頼度値に関連付けられた分布の部分に対応する。この例に示されるように、検出されたオブジェクトの中心に近いピクセルの信頼度値に関連付けられた分布の部分は、オブジェクトの中心から遠い部分よりも比較的高くなり得る。
【0032】
車両コンピューティングシステムは、ピクセルに対して決定された単峰信頼度値に関連付けられた単峰分布に基づいて、オブジェクトの候補検出ボックスの中心点またはピクセルを決定し得る。例えば、ピクセルは、それらが閾値を満たすか、または超える単峰分布の部分に関連付けられているかどうかに基づいて決定され得る。ここで
図2Eの例250を参照して、
図2Dの表現241および242に関連付けられたデータを使用して、車両コンピューティングシステムは、ピクセル221および222のグループのサブセットが、閾値を超えるそれらのそれぞれの関連付けられた単峰分布の部分に関連付けられていると決定し得る。上記のように、特定の閾値を上回る単峰分布の部分に関連付けられたそれらのピクセルは、閾値を下回る単峰分布の部分に関連付けられたピクセルよりも、提案された検出ボックス中心点のためのより良い候補となり得る。例250では、ピクセル251および252のサブセットは、閾値を満たすかまたは超える単峰分布の部分に関連付けられたピクセルである、および/または閾値を満たすかまたは超える単峰信頼度値を有するピクセルであると決定され得る。
【0033】
ピクセルのこれらのサブセットは、中心ピクセルとして使用され、環境内のオブジェクトの候補検出ボックスを決定し得る。
図2Fの例260に示されるように、候補検出ボックス261および262は、それぞれ、ピクセル251および252のサブセットに基づいて決定され得る。例では、候補検出ボックス261および262は、ピクセル251および252のサブセットに関連付けられたパラメータを復号することによって生成され得る。例えば、候補検出ボックス261および262は、それぞれ提案された検出ボックスの中心ピクセル251および252にそれぞれ 関連付けられた中心座標および/またはオフセット値、長さ、幅、方向、静止度、ヨー、および/または速度のうちの1つまたは複数に基づいて決定 され得る。
【0034】
ここで
図2Gの例270を参照すると、環境内で検出されたオブジェクト211および212に使用する出力検出ボックスを決定するために、候補検出ボックス261および262を入力として使用して、候補検出ボックスの中から出力検出ボックス271および272をそれぞれ決定する1つまたは複数の非極大値抑制演算が実行し得る。また、出力検出ボックスに基づいて、またはその他の関連付けられたマルチチャネル出力データを(例えば、車両を制御することに関連付けられた動作で使用するために)決定され得る。
【0035】
図3は、単峰ピクセル信頼度値の例示的な単峰(例えば、ガウス)分布の3次元プロットを示す。分布310は、センサデータに関連付けられたピクセルのセットに関連付けられた単峰信頼度値のセットを表し得る。分布310の範囲は、z軸スケール320に対して測定され得る。この例では、分布310の範囲は、0.0から1.0の間であり得る。0.8の閾値330も示されている。例では、閾値330以上である分布310の部分に関連付けられたそれらのピクセルは、本明細書に記載されるように、候補検出ボックスの中心ピクセルとして使用され得る。閾値330を下回る分布310の部分に関連付けられたそれらのピクセルは、候補検出ボックスの中心ピクセルとして使用されない場合がある。
【0036】
図4は、本明細書で説明されるような機械学習モデルの訓練の一部として実行され得る例示的なプロセス400を示す絵画的フロー図である。プロセス400において、機械学習モデルは訓練され、オブジェクトデータおよびオブジェクトデータに関連付けられた単峰信頼度値を出力することができる。 例では、プロセス400の1つまたは複数の動作は、
図5に示され、以下に説明されるコンポーネントおよびシステムのうちの1つまたは複数を使用することなどによって、車両コンピューティングシステムによって使用される機械学習モデル(例えば、DTNによって実行される)の訓練モード中に実装され得る。例えば、1つまたは複数のコンポーネントおよびシステムは、
図5に示される深層追跡ネットワーク532に関連付けられたコンポーネントおよびシステムを含むことができる。例では、プロセス400の1つまたは複数の動作は、
図5に示される深層追跡ネットワーク550などの車両と通信するリモートシステムによって実行され得る。さらに他の例では、プロセス400の1つまたは複数の動作は、リモートシステムと車両コンピューティングシステムとの組み合わせによって実行され得る。しかしながら、プロセス400は、そのようなコンポーネントおよびシステムによって実行されることに限定されず、
図5のコンポーネントおよびシステムは、プロセス400を実行することに限定されない。
【0037】
動作402において、訓練モードで実行する機械学習モデルは、復号され、検出ボックス(例えば、出力検出ボックス)として出力されるとき、例えば、本明細書に記載されるように、単峰性(例えば、ガウス)信頼度値および/または候補検出ボックスフィルタリングおよび/または抑制技術(例えば、NMS)を使用して、既知の境界ボックスおよび他のオブジェクトパラメータを表すグラウンドトゥルース(ground truth)データと比較することができるオブジェクトデータを決定し得る。動作404において、モデルは、検出ボックスの中心ピクセルまたは中心離散化された値のパラメータを決定し得る。例では、ピクセルおよび/または離散化された値パラメータは、マルチチャネルまたはマルチレイヤデータ構造(例えば、テンソルデータ構造)のレイヤで表され得る。例えば、マルチレイヤデータ構造の個々のレイヤは、特定のタイプのピクセルデータに関連付けられたデータを含み得る。そのようなデータ構造の各列は、特定のピクセルに関連付けられ得る。
【0038】
例えば、ここで例420を参照すると、中心ピクセル430は、検出ボックスの中心ピクセルであり得る。ピクセル440は、検出ボックスに関連付けられた他のピクセル(例えば、グラウンドトゥルースピクセル)であり得る。中心ピクセル430は、信頼度値(例えば、単峰信頼度値、ガウス信頼度値など)、中心オフセットX値、中心オフセットY値、長さ、幅、ヨー値、方向、静止または動き状態、速度X値、および速度Y値のうちの1つまたは複数に関連付けられ得る。これらの個々のパラメータは、マルチレイヤデータ構造の特定の個々のレイヤ、および中心ピクセルに関連付けられたデータ構造内の特定の列に関連付けられ得る。同様に、ピクセル440はまた、パラメータのタイプに基づいて、およびそれぞれのピクセルに関連付けられた特定の列内で、特定のレイヤに関連付けられたパラメータを有し得る。
【0039】
動作406において、モデルは、モデルによって出力されるデータにバイナリマスクを適用して、出力データの中心ピクセルに基づいて損失を決定するように構成され得る。
【0040】
動作408において、モデルは、検出ボックスに関連付けられた個々のピクセルの1つまたは複数のパラメータについて損失を決定し、逆伝播し得る。例えば、ピクセル440の様々なパラメータについて、モデルは、ピクセル440の1つまたは複数のパラメータの回帰損失(例えば、焦点損失、伝搬損失、分類損失など)を逆伝播し得る。例では、焦点損失は、ピクセル440の単峰信頼度値について決定され得る。次いで、この焦点損失は、モデルが訓練されるにつれてピクセル440に逆伝播され得る。このようにして、より正確なオブジェクト情報を有する(例えば、オブジェクトの中心に近いピクセルに関連付けられた)データは、より正確でない情報を有し得る(例えば、オブジェクトの中心から遠いピクセルに関連付けられた)データよりも、モデルの訓練に貢献し得る。
【0041】
図5は、本明細書で説明される技術を実装するための例示的なシステム500のブロック図を示す。少なくとも1つの例示において、システム500は、車両502を含むことができる。車両502は、車両502用の車両コントローラとして機能し、および/または車両コントローラの機能を実行し得る車両コンピューティングデバイス504を含むことができる。車両502はまた、1つまたは複数のセンサシステム506、1つまたは複数のエミッター508、1つまたは複数の通信接続部510、少なくとも1つの直接接続部512、および1つまたは複数のドライブシステム514を含むことができる。
【0042】
車両コンピューティングデバイス504は、1つまたは複数のプロセッサ516、および1つまたは複数のプロセッサ516と通信可能に結合されたメモリ518を含むことができる。図示される例において、車両502は、自律車両であるが、車両502は、任意の他のタイプの車両であることが可能である。図示の例では、車両コンピューティングデバイス504のメモリ518は、位置特定コンポーネント520、知覚コンポーネント522、計画コンポーネント524、1つまたは複数のシステムコントローラ526、1つまたは複数のマップ528、予測コンポーネント530、および深層追跡ネットワークコンポーネント532を格納する。例示的な目的のためにメモリ518に存在するものとして
図5に示されているが、位置特定コンポーネント520、知覚コンポーネント522、計画コンポーネント524、1つまたは複数のシステムコントローラ526、1つまたは複数のマップ528、予測コンポーネント522、および深層追跡ネットワークコンポーネント532のそれぞれは、追加的に、または代替的に、車両502にアクセス可能(例えば、リモートに格納される)であり得ることが企図される。
【0043】
少なくとも1つの例では、位置特定コンポーネント520は、センサシステム506からデータを受信して、車両502の位置および/または向き(例えば、1つまたは複数のx、y、z位置、ロール、ピッチ、またはヨー)を決定する機能を含むことができる。例えば、位置特定コンポーネント520は、環境のマップを含み、および/または要求/受信することが可能であり、マップ内で自律車両の位置および/または方向を継続的に決定することが可能である。いくつかの例では、位置特定コンポーネント520は、SLAM(simultaneous localization and mapping)、CLAMS(calibration, localization and mapping, simultaneously)、相対SLAM、バンドル調整、非線形最小二乗最適化などを利用して、画像データ、ライダーデータ、レーダーデータ、IMUデータ、GPSデータ、ホイールエンコーダーデータなどを受信し、自律車両の位置を正確に決定することができる。いくつかの例では、本明細書で論じるように、位置特定コンポーネント520は、車両502の様々なコンポーネントにデータを提供して、軌道を生成するためのおよび/またはマップデータを生成するための自律車両の初期位置を決定することができる。
【0044】
いくつかの例では、知覚コンポーネント522は、オブジェクトの検出、セグメンテーション、および/または分類を実行するための機能を含むことができる。いくつかの例では、知覚コンポーネント522は、車両502に近接するエンティティの存在および/またはエンティティタイプ(例えば、自動車、歩行者、サイクリスト、動物、建物、樹木、路面、縁石、歩道、交通信号、信号機、車のライト、ブレーキライト、不明なものなど)としてエンティティの分類を示す処理されたセンサデータを提供することができる。追加または代替の例では、知覚コンポーネント522は、検出されたエンティティ(例えば、追跡されたオブジェクト)および/またはエンティティが配置されている環境に関連付けられた1つまたは複数の特性を示す処理されたセンサデータを提供することができる。知覚コンポーネント522は、説明されたデコンボリューション処理によって生成されたマルチチャネルデータ構造など、本明細書で説明されるマルチチャネルデータ構造を使用して、処理されたセンサデータを生成し得る。いくつかの例では、エンティティまたはオブジェクトに関連付けられた特性は、限定しないが、x位置(グローバルおよび/またはローカル位置)、y位置(グローバルおよび/またはローカル位置)、z位置(グローバルおよび/またはローカル位置)、方向(例えば、ロール、ピッチ、ヨー)、エンティティタイプ(例えば分類)、エンティティの速度、エンティティの加速度、エンティティの範囲(サイズ)など、を含むことができる。そのようなエンティティ特性は、本明細書で説明するようなマルチチャネルデータ構造(例えば、学習されたアップサンプリング係数を使用して1つまたは複数のデコンボリューションレイヤの出力として生成されたマルチチャネルデータ構造)で表され得る。環境に関連付けられた特性は、限定しないが、環境内の別のエンティティの存在、環境内の別のエンティティの状態、時刻、曜日、季節、気象条件、暗闇/光のインディケーションなどを含むことができる。
【0045】
一般に、計画コンポーネント524は、車両502が環境を横断するためにたどるべき経路を決定することが可能である。例では、計画コンポーネント524は、様々な経路および軌道ならびに様々なレベルの詳細を決定することができる。例えば、計画コンポーネント524は、第1の位置(例えば現在の位置)から第2の位置(例えば目標の位置)へ走行するルート(例えば、計画されたルート)を決定することができる。この説明の目的上、ルートは、2つの位置の間を走行するための一連のウェイポイントとすることができる。非限定的な例として、ウェイポイントは、道路、交差点、全地球測位システム(GPS)座標などを含む。さらに、計画コンポーネント524は、第1の位置から第2の位置までのルートの少なくとも一部に沿って自律車両を誘導するための命令を生成することができる。少なくとも1つの例では、計画コンポーネント524は、一連のウェイポイントの第1のウェイポイントから一連のウェイポイントの第2のウェイポイントまで自律車両をどのように誘導するかを決定することができる。いくつかの例では、命令は軌道または軌道の一部とすることができる。いくつかの例では、後退地平線技術に従って複数の軌道を実質的に同時に(例えば、技術的許容範囲内で)生成することができ、複数の軌道のうちの1つが、車両502が走行するために選択される。
【0046】
少なくとも1つの例示において、車両コンピューティングデバイス504は、1つまたは複数のシステムコントローラ526を含むことができ、これは、車両502のステアリング、推進、ブレーキ、安全、エミッター、通信、および他のシステムを制御するよう構成することができる。これらのシステムコントローラ526は、ドライブシステム514および/または車両502の他のコンポーネントに対応するシステムと通信および/または制御することができる。
【0047】
メモリ518は、1つまたは複数のマップ528をさらに含み、これは車両502によって使用され、環境内で走行することができる。説明を目的として、マップ は、これらに限定されないが、トポロジー(交差点など)、車道、山脈、道路、地形、および一般的な環境などの環境についての情報を提供することが可能である、2次元、3次元、またはN次元でモデル化された任意の数のデータ構造とすることができる。いくつかの例では、マップは、テクスチャ情報(例えば、色情報(例えば、RGB色情報、Lab色情報、HSV/HSL色情報)、不可視光情報(近赤外線光情報、赤外線光情報など)、強度情報(例えば、ライダー情報、レーダー情報、近赤外線光強度情報、赤外線光強度情報など)、空間情報(例えば、メッシュに投影された画像データ、個々の「サーフェル」(例えば、個々の色および/または強度に関連付けられたポリゴン))、および反射率情報(例えば、鏡面性情報、再帰反射率情報、BRDF情報、BSSRDF情報など)を含むことができるが、これらに限定されない。一例では、マップは環境の3次元メッシュを含むことができる。いくつかの例において、本明細書にて説明するように、マップの個々のタイルが環境の個別の部分を表すように、マップをタイル形式で格納でき、必要に応じて作業メモリにロードできる。少なくとも1つの例では、1つまたは複数のマップ528は、少なくとも1つのマップ(例えば、画像および/またはメッシュ)を含むことができる。いくつかの例では、車両502は、マップ528に少なくとも部分的に基づいて制御することができる。すなわち、マップ528は、位置特定コンポーネント520、知覚コンポーネント522、および/または計画コンポーネント524に関連して使用して、車両502の位置を決定し、環境内のオブジェクトを識別し、ならない/若しくはルートおよび/または軌道を生成し、環境内を走行することができる。
【0048】
いくつかの例では、1つまたは複数のマップ528は、ネットワーク5 4 0を介してアクセス可能なリモートコンピューティングデバイス(コンピューティングデバイス542など)に格納することができる。いくつかの例では、複数のマップ528は、例えば、特性(例えば、エンティティのタイプ、時刻、曜日、季節など)に基づいて格納することができる。複数のマップ528を格納することで、メモリ要件は同じようになるが、マップ内のデータにアクセスできる速度が向上する。
【0049】
一般に、予測コンポーネント530は、環境内のオブジェクトの予測された軌道を生成することができる。例えば、予測コンポーネント530は、車両502からの閾値距離内の車両、歩行者、動物などについての1つまたは複数の予測される軌道を生成することができる。いくつかの例では、予測コンポーネント530は、オブジェクトの軌跡を測定し、観察および予測された挙動に基づいてオブジェクトの軌道を生成することができる。
【0050】
場合によっては、本明細書で論じられるコンポーネントのいくつかまたはすべての態様は、任意のモデル、アルゴリズム、および/または機械学習アルゴリズムを含むことができる。例えば、いくつかの例では、メモリ518(および以下で説明するメモリ546)内のコンポーネントは、ニューラルネットワークとして実装することができる。例えば、メモリ518は、畳み込みニューラルネットワーク(CNN)534で構成され得る深層追跡ネットワーク532を含み得る。CNN534は、1つまたは複数の畳み込み層および/または逆畳み込み層を含み得る。
【0051】
本明細書で記載されるように、例示的なニューラルネットワークは、入力データを一連の接続された層に渡して出力を生成するアルゴリズムである。ニューラルネットワーク内の各層はまた、別のニューラルネットワークを含むことができ、または任意の数の層を含むことができ、その各層は、畳み込み、逆畳み込み、または別のタイプの層であってもよい。本開示の文脈で理解できるように、ニューラルネットワークは、機械学習を利用でき、これは、学習されたパラメータに基づいて出力が生成されるそのようなアルゴリズムの広範囲のクラスを指すことができる。
【0052】
ニューラルネットワークの文脈で説明されているが、任意のタイプの機械学習を、例えば、学習されたアップサンプリング係数を決定するために、本開示に従って使用することができる。例えば、機械学習アルゴリズムは、限定はされないが、回帰アルゴリズム(例えば、通常最小二乗回帰(OLSR)、線形回帰、ロジスティック回帰、段階的回帰、MARS(multivariate adaptive regression splines)、LOESS(locally estimated scatterplot smoothing))、インスタンスベースアルゴリズム(例えば、リッジ回帰、LASSO(least absolute shrinkage and selection operator)、Elastic net、LARS(least-angle regression))、決定木アルゴリズム(例えば、分類および回帰木(CART)、ID3(iterative dichotomiser 3)、カイ二乗自動相互作用検出(CHAID)、決定切り株、条件付き決定木)、ベイジアンアルゴリズム(例えば、ナイーブベイズ、ガウスナイーブベイズ、多項ナイーブベイズ、AODE(average one-dependence estimators)、ベイジアンビリーフネットワーク(BNN)、ベイジアンネットワーク)、クラスタリングアルゴリズム(例えば、k平均、kメジアン、期待値の最大化(EM)、階層的クラスタリング)、相関ルール学習アルゴリズム(例えば、パーセプトロン、誤差逆伝搬、ホップフィールドネットワーク、RBFN(Radial Basis Function Network))、深層学習アルゴリズム(例えば、深層ボルツマンマシン(DBM)、深層ビリーフネットワーク(DBN)、畳み込みニューラルネットワーク(CNN)、積層オートエンコーダ)、次元縮小アルゴリズム(例えば、主成分分析(PCA)、主成分回帰(PCR)、部分最小二乗回帰(PLSR)、サモンマッピング、多次元尺度構成法(MDS)、射影追跡、線形判別分析(LDA)、混合判別分析(MDA)、二次判別分析(QDA)、柔軟判別分析(FDA))、アンサンブルアルゴリズム(例えば、ブースティング、ブートストラップアグリゲーション(バギング)、アダブースト、積層ジェネラリゼーション(ブレンディング)、勾配ブースティングマシン(GBM)、勾配ブースト回帰木(GBRT)、ランダムフォレスト)、SVM(サポートベクタマシン)、教師あり学習、教師なし学習、半教師あり学習などを含むことができる。アーキテクチャのさらなる例は、ResNet50、ResNet101、VGG、DenseNet、PointNetなどのニューラルネットワークを含む。
【0053】
少なくとも1つの例示において、センサシステム506は、レーダーセンサ、超音波トランスデューサー、ソナーセンサ、位置センサ(例えば、GPS、コンパスなど)、慣性センサ(例えば、慣性測定ユニット(IMU)、加速度計、磁力計、ジャイロスコープなど)、カメラ(例えば、RGB、IR、強度、深度など)、飛行時間センサ、マイクロフォン、ホイールエンコーダー、環境センサ(例えば、温度センサ、湿度センサ、光センサ、圧力センサなど)などを含むことができる。センサシステム506は、これらのセンサまたは他のタイプのセンサのそれぞれの複数のインスタンスを含むことができる。例えば、カメラセンサは車両502の外部および/または内部の様々な位置に配置された複数のカメラを含むことができる。センサシステム506は、車両コンピューティングデバイス504に入力を提供できる。追加的および/または代替的に、センサシステム506は、リアルタイムに近い時間などにおいて、所定の期間が経過した後で、1つまたは複数のネットワーク436を介して、センサデータを特定の頻度で1つまたは複数のコンピューティングデバイスに送信することが可能である。
【0054】
車両502はまた、光(可視および/または非可視)および/または音を放射するための1つまたは複数のエミッター508を含むことができる。この例におけるエミッター508は、内部オーディオおよび視覚エミッターを含み、車両502の乗員と通信する。例示の目的で、限定ではなく、内部エミッターは、スピーカー、光、記号、ディスプレイ画面、タッチ画面、触覚エミッター(例えば、振動および/またはフォースフィードバック)、機械的アクチュエータ(例えば、シートベルトテンショナー、シートポジショナー、ヘッドレストポジショナーなど)などを含むことができる。この例におけるエミッター508は、外部エミッターも含む。限定ではなく例として、この例示の外部エミッターは、走行の方向または車両の作動の他のインジケータ(例えば、インジケータライト、標識、ライトアレイなど)を信号で送るためのライト、および音響ビームステアリング技術を備える1つまたは複数の歩行者または他の近くの車両と音声で通信するための1つ以上のオーディオエミッター(例えば、スピーカー、スピーカーアレイ、ホーンなど)を含む。この例における外部エミッターはまた、あるいはその代わりに、赤外線エミッター、近赤外線エミッター、および/またはライダーエミッターなどの非可視光エミッターを含み得る。
【0055】
車両502はまた、車両502と1つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの間の通信を可能にする1つまたは複数の通信接続部510を含むことができる。例えば、通信接続部510は、車両502および/またはドライブシステム514上の他のローカルコンピューティングデバイスとの通信を容易にすることができる。また、通信接続部510は、車両が他の近くのコンピューティングデバイス(例えば、他の近くの車両、交通信号など)と通信することを可能にできる。通信接続部510はまた、車両502が遠隔操作コンピューティングデバイスまたは他の遠隔サービスと通信することを可能にする。
【0056】
通信接続部510は、車両コンピューティングデバイス504を別のコンピューティングデバイスまたはネットワーク540などのネットワークに接続するための物理的および/または論理的インターフェースを含むことができる。例えば、通信接続部510は、IEEE80211規格によって定義された周波数を介するようなWi-Fiベースの通信、Bluetoothなどの近距離無線周波数、セルラー通信(例えば、2G、3G、4G、4G LTE、5Gなど)、またはそれぞれのコンピューティングデバイスが他のコンピューティングデバイスとインターフェースすることを可能にする任意の適切な有線または無線通信プロトコルを可能にできる。
【0057】
少なくとも1つの例では、車両502は、1つまたは複数のドライブシステム514を含むことができる。いくつかの例では、車両502は、単一のドライブシステム514を有することができる。少なくとも1つの例では、車両502が複数のドライブシステム514を有する場合、個々のドライブシステム514は車両502の両端(例えば前部と後部など)に配置することができる。少なくとも1つの例では、ドライブシステム514は、1つまたは複数のセンサシステムを含み、ドライブシステム514および/または車両502の周辺の状態を検出することができる。限定ではなく例として、センサシステムは、駆動システムのホイールの回転を感知するための1つまたは複数のホイールエンコーダー(例えばロータリーエンコーダー)、駆動システムの向きと加速度を測定するための慣性センサ(例えば、慣性測定ユニット、加速度計、ジャイロスコープ、磁力計など)、カメラまたはその他の画像センサ、駆動システムの周辺環境の物体を音響的に検出するための超音波センサ、ライダーセンサ、レーターセンサなど、を含むことができる。ホイールエンコーダーのようないくつかのセンサは、ドライブシステム514のものとすることができる。場合によっては、ドライブシステム514上のセンサシステムは、車両502の対応するシステム(例えば、センサシステム506)と重複または補足することができる。
【0058】
ドライブシステム514は、高電圧バッテリー、車両を推進するモーター、バッテリーからの直流を他の車両システムで使用する交流に変換するインバーター、ステアリングモーターおよびステアリングラック(電動とすることができる)を含むステアリングシステム、油圧または電気アクチュエータを含むブレーキシステム、油圧および/または空気圧コンポーネントを含むサスペンションシステム、トラクションの損失を軽減し制御を維持するブレーキ力分散用の安定性制御システム、HVACシステム、照明(例えば車両の外部環境を照らすヘッド/テールライトなどの照明)、および1つ以上の他のシステム(例えば冷却システム、安全システム、車載充電システム、DC/DCコンバーター、高電圧ジャンクション、高電圧ケーブル、充電システム、充電ポートなどのその他の電装コンポーネント)を含む多くの車両システムを含むことができる。さらに、ドライブシステム514は、センサシステムからデータを受信し事前処理し、様々な車両システムの動作を制御できるドライブシステムコントローラを含むことができる。いくつかの例では、駆動システムコントローラは、1つまたは複数のプロセッサ、および1つまたは複数のプロセッサと通信可能に結合されたメモリを含むことができる。メモリは、1つまたは複数のコンポーネントを格納し、ドライブシステム514の様々な機能を実行することができる。さらに、ドライブシステム514はまた、それぞれのドライブシステムによる1つまたは複数の他のローカルまたはリモートコンピューティングデバイスとの通信を可能とする1つまたは複数の通信接続部を含み得る。
【0059】
少なくとも1つの例では、直接接続部512は物理的インターフェースを提供し、1つまたは複数のドライブシステム514を車両502の本体と結合することができる。例えば、直接接続部512は、ドライブシステム514と車両との間のエネルギー、流体、空気、データなどの転送を可能にすることができる。いくつかの例では、直接接続部512はさらにドライブシステム514を車両502の本体に着脱可能に固定できる。
【0060】
いくつかの例では、車両502は、ネットワーク540を介してセンサデータを1つまたは複数のコンピューティングデバイス542に送信することができる。いくつかの例では、車両502は、生センサデータをコンピューティングデバイス542に送信することができる。他の例では、車両502は、処理されたセンサデータおよび/またはセンサデータの表現(例えば、センサデータを表すマルチチャネルデータ構造)をコンピューティングデバイス542に送信することができる。いくつかの例では、車両502は、特定の頻度で、所定の期間の経過後に、ほぼリアルタイムで、センサデータをコンピューティングデバイス542に送信することができる。場合によっては、車両502は(生または処理済み)センサデータを1つまたは複数のログファイルとしてコンピューティングデバイス542に送信することができる。
【0061】
コンピューティングデバイス542は、プロセッサ544および深層追跡ネットワークコンポーネント550および/または知覚コンポーネント548を格納するメモリ546を含むことができる。いくつかの例では、深層追跡ネットワークコンポーネント550は、深層追跡ネットワークコンポーネント532に実質的に対応することができ、実質的に同様の機能を含むことができる。例えば、深層追跡ネットワークコンポーネント550は、1つまたは複数の畳み込み層および/または逆畳み込み層で構成され得る畳み込みニューラルネットワーク(CNN)552を含み得る。いくつかの例では、知覚コンポーネント548は、知覚コンポーネント522に実質的に対応することができ、実質的に同様の機能を含むことができる。
【0062】
車両502のプロセッサ516およびコンピューティングデバイス542のプロセッサ544は、本明細書で説明されるように、命令を実行可能な任意の適切なプロセッサであり、データを処理し、動作を実施することができる。限定ではなく例として、プロセッサ516および544は、1つまたは複数の中央処理装置(CPU)、グラフィック処理装置(GPU)、および/または電子データを処理して、その電子データをレジスタおよび/またはメモリに格納可能な他の電子データに変換する装置の任意の他の装置または部分を備えることができる。いくつかの例では、集積回路(例えば、ASICなど)、ゲートアレイ(例えば、FPGAなど)、および他のハードウェアデバイスはまた、それらが符号化された命令を実装するよう構成される限り、プロセッサと見なすことができる。
【0063】
メモリ518および546は、非一時的なコンピュータ可読媒体の例である。メモリ518およびメモリ546は、動作システムおよび1つまたは複数のソフトウェアアプリケーション、命令、プログラム、および/またはデータを格納して、本明細書に記載の方法および様々なシステムに起因する機能を実装することができる。様々な実装では、メモリは、スタティックランダムアクセスメモリ(SRAM)、シンクロナスダイナミックRAM(SDRAM)、不揮発性/フラッシュタイプメモリ、または情報を格納可能な他の任意のタイプのメモリなど、適切なメモリ技術を用いて実装できる。本明細書で説明されるアーキテクチャ、システム、および個々の要素は、多くの他の論理的、プログラム的、および物理的なコンポーネントを含むことができ、それらの添付図面に図示されるものは、本明細書での説明に関連する単なる例にすぎない。
【0064】
図5は分散システムとして示されているが、代替の例では、車両502のコンポーネントをコンピューティングデバイス542に関連付けることができ、および/またはコンピューティングデバイス542のコンポーネントを車両502に関連付けることができる、という事に留意すべきである。すなわち、車両502はコンピューティングデバイス542に関連付けられた機能のうちの1つまたは複数を実行することができ、その逆も同様である。
例示的な条項
A:1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行可能な命令を格納する1つまたは複数の非一時的なコンピュータ可読媒体とを備えるシステムであって、命令が実行されると、システムに、環境内の自律車両に関連付けられたセンサからセンサデータを受信することと、センサデータに少なくとも部分的に基づいて、第1のマルチチャネルデータを決定することと、第1のマルチチャネルデータを機械学習モデルに入力することと、機械学習モデルによって、環境内のオブジェクトに関連付けられたピクセルのガウス信頼度値を決定することと、ガウス信頼度値に少なくとも部分的に基づいて、オブジェクトに関連付けられたピクセルから複数の提案された中心ピクセルを決定することと、複数の提案された中心ピクセルの個々のピクセルの候補検出ボックスを決定することと、非極大値抑制に少なくとも部分的に基づいて、候補検出ボックスに少なくとも部分的に基づく出力検出ボックスを決定することと、出力検出ボックスに関連付けられた中心ピクセルに少なくとも部分的に基づいて、オブジェクトを表す第2のマルチチャネルデータを生成することと、追跡されたオブジェクトとして、第2のマルチチャネルデータに少なくとも部分的に基づいたオブジェクトを追跡することと、追跡されたオブジェクトに少なくとも部分的に基づいて自律車両を制御することと、を含む動作を実行させることを特徴とするシステム。
【0065】
B:機械学習モデルは、焦点損失に基づいてピクセルのガウス信頼度値を決定するように訓練される、段落Aに記載のシステム。
【0066】
C:第2のマルチチャネルデータのチャネルは、中心オフセット値、分類、寸法、ヨー、速度、または動き状態のうちの1つまたは複数を含む、段落AまたはBに記載のシステム。
【0067】
D:第2のマルチチャネルデータのチャネルが、出力検出ボックスに関連付けられたピクセルのガウス信頼度値を含む、段落A乃至Cのいずれかに記載のシステム。
【0068】
E:複数の提案された中心ピクセルを決定することは、ガウス信頼度値に少なくとも部分的に基づいて、複数の提案された中心ピクセルの個々のピクセルのガウス信頼度値が閾値を満たすか、または上回ることを決定することを含む、段落A乃至Dのいずれかに記載のシステム。
【0069】
F:出力検出ボックスが、車両、自転車、または歩行者のうちの1つまたは複数のオブジェクト検出に関連付けられている、段落A乃至Eのいずれかに記載のシステム。
【0070】
G:環境内の車両に関連付けられたセンサからセンサデータを受信することと、センサデータに少なくとも部分的に基づいて入力データを決定することと、機械学習モデルに入力データを入力することと、機械学習モデルによって入力データに表されるオブジェクトに関連付けられた離散化された値の単峰信頼度値を決定することと、単峰信頼度値に少なくとも部分的に基づいてオブジェクトに関連付けられた離散化された値から提案された中心値を決定することと、提案された中心値に少なくとも部分的に基づいてオブジェクトを表す候補検出ボックスを決定することと、候補検出ボックスに少なくとも部分的に基づいて出力検出ボックスを決定することと、出力検出ボックスに少なくとも部分的に基づいて車両を制御することと、を含む方法。
【0071】
H:機械学習モデルは、焦点損失に基づいて離散化された値の単峰信頼度値を決定するように訓練される、段落Gに記載の方法。
【0072】
I:出力検出ボックスに関連付けられた中心値に少なくとも部分的に基づいて、オブジェクトを表すマルチチャネル出力データを生成することをさらに含む、段落GまたはHに記載の方法。
【0073】
J:マルチチャネル出力データのチャネルは、出力検出ボックスに関連付けられた離散化された値の単峰信頼度値を含む、段落Iに記載の方法。
【0074】
K:マルチチャネル出力データのチャネルが、中心オフセット値、分類、寸法、ヨー、速度、または動き状態のうちの1つまたは複数を含む、段落Iに記載の方法。
【0075】
L:出力検出ボックスを決定することは、候補検出ボックスに少なくとも部分的に基づいて非極大値抑制演算を実行することを含む、段落G乃至Kのいずれかに記載の方法。
【0076】
M:提案された中心値を決定することは、単峰信頼度値に少なくとも部分的に基づいて、提案された中心値の単峰信頼度値が閾値を満たすか、または上回ることを決定することを含む、段落G乃至Lのいずれかに記載の方法。
【0077】
N:入力データは、環境のトップダウンの斜視図を表す、段落G乃至Mのいずれかに記載の方法。
【0078】
O:1つまたは複数のプロセッサによって実行されると、環境内の車両に関連付けられたセンサからセンサデータを受信することと、センサデータに少なくとも部分的に基づいて入力データを決定することと、機械学習モデルに入力データを入力することと、機械学習モデルによって入力データに表されるオブジェクトに関連付けられた離散化された値の単峰信頼度値を決定することと、単峰信頼度値に少なくとも部分的に基づいて、オブジェクトに関連付けられた離散化された値から提案された中心値を決定することと、提案された中心値に少なくとも部分的に基づいて候補検出ボックスを決定することと、候補検出ボックスに少なくとも部分的に基づいて出力検出ボックスを決定することと、出力検出ボックスに少なくとも部分的に基づいて車両を制御することと、を含む動作を実行する命令を格納する1つまたは複数の非一時的なコンピュータ可読媒体。
【0079】
P:機械学習モデルは、焦点損失に基づいて離散化された値の単峰信頼度値を決定するように訓練される、段落Oに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0080】
Q:提案された中心値を決定することは、単峰信頼度値に少なくとも部分的に基づいて、提案された中心値の単峰信頼度値が閾値を満たすか、または上回ることを決定することを含む、段落OまたはPに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0081】
R:閾値が機械学習閾値である、段落Qに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0082】
S:出力検出ボックスを決定することは、候補検出ボックスに少なくとも部分的に基づいて非極大値抑制演算を実行することを含む、段落O乃至Rのいずれかに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0083】
T:オブジェクトに関連付けられた離散化された値の単峰信頼度値を決定することは、オブジェクトに関連付けられた離散化された値のガウス信頼度値を決定することを含む、段落O乃至Sのいずれかに記載の1つまたは複数の非一時的なコンピュータ可読媒体。
【0084】
上述した例示的な条項は、1つの特定の実装に関して説明しているが、本明細書の文脈において、例示的な条項の内容は、方法、デバイス、システムおよび/またはコンピュータ可読媒体、および/またはその他の実装を介して実装できることを理解されたい。さらに、実施例A~Tのいずれかは、単独で、または実施例A~Tのいずれかの他の1つまたは複数と組み合わせて実装することができる。
まとめ
本明細書で説明する技術の1つまたは複数の例について説明したが、様々な変更、追加、置換、およびそれらの同等物が、本明細書で説明する技術の範囲内に含まれる。
【0085】
例示の説明では、本明細書の一部を形成する添付の図面を参照するが、これは例示として請求される主題の具体的な例を示す。他の例を使用でき、構造的変更などの変更または代替を行うことできることを理解されたい。そのような例示、変更または代替は、意図して請求される主題に関する範囲から必ずしも逸脱するものではない。本明細書のステップは特定の順序で提示できるが、場合によっては、説明したシステムおよび方法の機能を変更することなく、特定の入力を異なる時間または異なる順序で提供するように、順序を変更できる。開示された手順はまた異なる順序で実行できる。さらに、本明細書における様々な計算は、開示される順序で実行される必要はなく、計算の代替の順序を用いる他の例が容易に実装されることが可能である。順序並べ替えるだけでなく、計算を同じ結果のサブ計算に分解することもできる。
【国際調査報告】