(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-04
(54)【発明の名称】視覚画像データを用いたオブジェクト属性の推定
(51)【国際特許分類】
G06T 7/00 20170101AFI20220328BHJP
G08G 1/16 20060101ALI20220328BHJP
G06T 7/50 20170101ALI20220328BHJP
【FI】
G06T7/00 350B
G08G1/16 C
G06T7/50
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021547712
(86)(22)【出願日】2020-02-07
(85)【翻訳文提出日】2021-10-07
(86)【国際出願番号】 US2020017290
(87)【国際公開番号】W WO2020171983
(87)【国際公開日】2020-08-27
(32)【優先日】2019-02-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】510192916
【氏名又は名称】テスラ,インコーポレイテッド
(74)【代理人】
【識別番号】110000659
【氏名又は名称】特許業務法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】マスク,ジェームズ アンソニー
(72)【発明者】
【氏名】サハイ,スウプニル クマール
(72)【発明者】
【氏名】エルスワミー,アショック クマール
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181BB20
5H181CC03
5H181CC04
5H181CC11
5H181CC12
5H181CC14
5H181FF04
5H181FF13
5H181FF27
5H181LL01
5H181LL02
5H181LL04
5H181LL09
5L096BA04
5L096CA04
5L096FA67
5L096FA69
5L096HA04
5L096KA04
(57)【要約】
あるシステムは、メモリに結合された1つ又は複数のプロセッサから構成されている。これら1つ又は複数のプロセッサは、車両のカメラを使用して捕捉される画像に基づいた画像データを受信し、かつこの画像データを、トレーニング済みの機械学習モデルへの入力データのベースとして利用して、車両からあるオブジェクトまでの距離を少なくとも部分的に特定するように構成されている。このトレーニング済みの機械学習モデルは、トレーニング画像及び照射による距離測定センサの相関出力を使用したトレーニングを受けている。
【選択図】
図2
【特許請求の範囲】
【請求項1】
1つ又は複数のプロセッサであって、
前記1つ又は複数のプロセッサは、車両のカメラを使用して捕捉される画像に基づいた画像データを受信し、かつ
該画像データを、トレーニング済みの機械学習モデルへの入力データのベースとして利用して、前記車両からあるオブジェクトまでの距離を少なくとも部分的に特定するように構成され、
前記トレーニング済みの機械学習モデルが、トレーニング画像及び照射による距離測定センサの相関出力を使用したトレーニングを受けている、1つ又は複数のプロセッサと、
前記1つ又は複数のプロセッサに結合されたメモリと、
を備えるシステム。
【請求項2】
前記1つ又は複数のプロセッサが、前記車両に対する前記オブジェクトの方向を特定するようにさらに構成されている、請求項1に記載のシステム。
【請求項3】
前記1つ又は複数のプロセッサが、前記車両に対する前記オブジェクトの速度ベクトルを特定するようにさらに構成されている、請求項1又は2に記載のシステム。
【請求項4】
前記照射による距離測定センサがレーダセンサを含む、請求項1から3のいずれか一項に記載のシステム。
【請求項5】
前記照射による距離測定センサが超音波センサを含む、請求項1から3のいずれか一項に記載のシステム。
【請求項6】
前記照射による距離測定センサがlidarセンサを含む、請求項1から3のいずれか一項に記載のシステム。
【請求項7】
前記オブジェクトが、歩行者、車両、障害物、障壁、又は交通規制のオブジェクトのうちの1つである、請求項1から6のいずれか一項に記載のシステム。
【請求項8】
前記トレーニング画像及び前記照射による距離測定センサの前記相関出力が、あるトレーニング車両で捕捉されたものである、請求項1から7のいずれか一項に記載のシステム。
【請求項9】
前記照射による距離測定センサの前記出力が、前記トレーニング車両から第2のオブジェクトまでの推定距離と、前記トレーニング車両に対する前記第2のオブジェクトの推定方向とを含み、前記第2のオブジェクトが、前記トレーニング画像内で特定されている、請求項8に記載のシステム。
【請求項10】
前記トレーニング画像が、前記トレーニング車両の画像センサを使用して捕捉された時系列画像のうちの1つである、請求項9に記載のシステム。
【請求項11】
前記第2のオブジェクトが、前記時系列画像に含まれる複数の画像を分析することにより、少なくとも部分的に特定されている、請求項10に記載のシステム。
【請求項12】
前記時系列画像を使用することにより、前記照射による距離測定センサによって検出された複数のオブジェクトのうちで、前記第2のオブジェクトに対応する前記照射センサの出力部分が判別されている、請求項10に記載のシステム。
【請求項13】
前記特定された前記車両から前記オブジェクトまでの距離を使用して、前記オブジェクトに関連付けられた意味ラベルが予測されている、請求項1から12のいずれか一項に記載のシステム。
【請求項14】
前記トレーニング済みの機械学習モデルが、入力画像に基づいて、前記照射による距離測定センサの距離出力を予測するようにトレーニングされている、請求項1から13のいずれか一項に記載のシステム。
【請求項15】
前記トレーニング済みの機械学習モデルを使用して特定された前記オブジェクトまでの距離を、前記車両に含まれる、設置された照射による距離測定センサの出力と組み合わせて使用することにより、前記車両に対する前記オブジェクトの相対位置が求められている、請求項1から14のいずれか一項に記載のシステム。
【請求項16】
非一時的コンピュータ可読記憶媒体に具現化され、コンピュータ命令を備えるコンピュータプログラム製品であって、前記命令が、
車両のカメラを使用して捕捉される画像に基づいた画像データを受信し、かつ
該画像データを、トレーニング済みの機械学習モデルへの入力データのベースとして利用して、前記車両からあるオブジェクトまでの距離を少なくとも部分的に特定するために使用されるものであり、前記トレーニング済みの機械学習モデルが、トレーニング画像及び照射による距離測定センサの相関出力を使用したトレーニングを受けている、コンピュータプログラム製品。
【請求項17】
ある車両のカメラを使用して捕捉された画像に基づいて選択される画像を受信するステップと、
前記車両の照射による距離測定センサに基づく距離データを受信するステップと、
前記選択画像を、トレーニング済みの機械学習モデルへの入力データとして使用して、あるオブジェクトを特定するステップと、
前記受信した距離データから、前記特定されたオブジェクトの距離推定値を抽出するステップと、前記抽出された距離推定値で前記選択画像をアノテートすることによって、トレーニング画像を作成するステップと、
前記トレーニング画像を含むトレーニングデータセットを使用して、距離測定値を予測するように第2の機械学習モデルをトレーニングするステップと、
前記トレーニング済みの第2の機械学習モデルを、第2のカメラを装備した第2の車両に供給するステップと、
を含む方法。
【請求項18】
前記捕捉された画像が、時系列の捕捉画像の一部であり、前記距離データが、時系列の捕捉距離データの一部である、請求項17に記載の方法。
【請求項19】
前記時系列の捕捉画像にわたって前記特定されたオブジェクトを追跡するステップをさらに含み、前記抽出された距離推定値が、前記追跡予定の特定されたオブジェクトを前記受信された距離データと相関させることに基づいている、請求項17から18のいずれか一項に記載の方法。
【請求項20】
前記特定されたオブジェクトが、検出車両又は歩行者である、請求項17から19のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2019年2月19日に出願された「視覚画像データを用いたオブジェクト属性の推定」という名称の米国特許出願第16/279,657号の継続出願であり、その優先権を主張するものであるが、この開示内容は、その全体を参照することによって本明細書に組み込まれる。
【背景技術】
【0002】
自動運転システムは、典型的には、視覚センサや照射による距離測定センサ(例えば、レーダセンサ、lidarセンサ、超音波センサなど)の集合を含む多数のセンサを、車両に搭載することに依存している。その場合、各センサによって捕捉されるデータは、車両の周辺環境の把握を助け、かつ車両の制御方法を決定するために収集される。視覚センサを使用して、捕捉される画像データからオブジェクトが特定され得、また照射による距離測定センサを使用して、その検出されたオブジェクトまでの距離が測定され得る。操舵調整や速度調節は、障害物の検出や障害物のない走行可能経路に基づいて施され得る。一方で、センサの台数や種類が増加するにつれて、システムの複雑度やコストも増大する。例えば、lidarなどの照射による距離測定センサは、量販車両に搭載するには費用がかかる場合が多い。また、それぞれのセンサを追加することによって、自動運転システムの入力帯域幅要件も増加する。このため、車両上のセンサの最適な構成を見出していく必要がある。この構成では、周辺環境について正確に記述し、かつ車両を安全に制御するために捕捉されるデータの量及び種類を制限することなく、センサの総数を制限する必要がある。
【発明の概要】
【課題を解決するための手段】
【0003】
一実施形態は、あるシステムを含む。本システムは、車両のカメラを使用して捕捉される画像に基づいた画像データを受信し、かつこの画像データを、トレーニング(訓練)済みの機械学習モデルへの入力データのベースとして利用して、車両からあるオブジェクトまでの距離を少なくとも部分的に特定するように構成された、1つ又は複数のプロセッサであって、このトレーニング済みの機械学習モデルは、トレーニング画像及び照射による距離測定センサの相関出力を使用したトレーニングを受けている、1つ又は複数のプロセッサと、これら1つ又は複数のプロセッサに結合されたメモリと、を備える。
【0004】
別の実施形態はコンピュータプログラム製品を含み、このコンピュータプログラム製品は、非一時的コンピュータ可読記憶媒体に具現化され、コンピュータ命令を備える。これらのコンピュータ命令は、車両のカメラを使用して捕捉される画像に基づく画像データを受信し、かつこの画像データを、トレーニング済みの機械学習モデルへの入力データのベースとして利用して、車両からあるオブジェクトまでの距離を少なくとも部分的に特定するために使用されるものであり、このトレーニング済みの機械学習モデルは、トレーニング画像及び照射による距離測定センサの相関出力を使用したトレーニングを受けている。
【0005】
さらに別の実施形態は、ある方法を含む。本方法は、車両のカメラを使用して捕捉された画像に基づいて選択される画像を受信するステップと、車両の照射による距離測定センサに基づく距離データを受信するステップと、この選択画像を、トレーニング済みの機械学習モデルへの入力データとして使用して、あるオブジェクトを特定するステップと、この受信した距離データから、特定されたオブジェクトの距離推定値を抽出するステップと、この抽出された距離推定値で選択画像をアノテートすることによって、トレーニング画像を作成するステップと、このトレーニング画像を含むトレーニングデータセットを使用して、距離測定値を予測するように第2の機械学習モデルをトレーニングするステップと、このトレーニング済みの第2の機械学習モデルを、第2のカメラを装備した第2の車両に供給するステップと、を含む。
【図面の簡単な説明】
【0006】
本発明の様々な実施形態を、以下の詳細な説明及び添付の図面において開示している。
【0007】
【
図1】自動運転に使用される深層学習システムの、一実施形態を示したブロック図である。
【0008】
【
図2】オブジェクト属性を予測するためのトレーニングデータを作成するプロセスの、一実施形態を示したフロー図である。
【0009】
【
図3】自動運転に使用される機械学習モデルをトレーニングし、かつこれを適用するプロセスの一実施形態を示したフロー図である。
【0010】
【
図4】自動運転に使用される機械学習モデルをトレーニングし、かつこれを適用するプロセスの一実施形態を示したフロー図である。
【0011】
【
図5】機械学習ネットワークをトレーニングするための、補助センサデータを捕捉する例を示した図である。
【0012】
【
図6】オブジェクト属性を予測する例を示した図である。
【発明を実施するための形態】
【0013】
本発明は、装置、システム、合成物、コンピュータ可読記憶媒体上に具現化されたコンピュータプログラム製品、及び/又はプロセッサ、例えば、自身に結合されたメモリに記憶されている命令及び/又はこのメモリによって付与される命令を実行するように構成されたプロセッサなどをプロセスとして含む、数多くの手段で実装され得る。本明細書では、これらの実装形態、又は本発明が取り得る任意の他の形態を、技法と呼んでもよい。開示しているプロセスのステップの順序は、概ね本発明の範囲内で変更することができる。特に明記しない限り、タスクを実行するように構成されるものとして記載しているプロセッサ又はメモリなどのコンポーネントは、所与の時間にタスクを実行するように一時的に構成された汎用コンポーネント、又はタスクを実行するように製造された専用コンポーネントとして実装されてもよい。本明細書で使用する場合、「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つ又は複数のデバイス、回路、及び/又は処理コアを指す。
【0014】
本発明の1つ又は複数の実施形態に関する詳細な説明を、本発明の原理を例示する添付の図面と共に以下に示す。そのような実施形態に関連して本発明を説明しているが、本発明はいかなる実施形態にも限定されない。本発明の範囲は特許請求の範囲によってのみ限定され、また、本発明は多数の代替形態、修正形態及び均等物を含む。本発明を十分に理解できるように、数多くの具体的な詳細事項を以下の説明に記載している。これらの詳細事項を例示の目的で提供しており、本発明は、これらの具体的な詳細事項の一部又はすべてがなくとも、特許請求の範囲に従って実施することができる。明確さを期すために、本発明に関連する技術分野で公知の技術的材料については、本発明が不必要に不明瞭にならないように、詳細には記載していない。
【0015】
視覚データから高精度の機械学習結果を生成するための、機械学習トレーニングの技法を開示している。オブジェクト距離などのオブジェクト属性を正確に推定するために、レーダ結果やlidar結果などの補助センサデータを使用して、視覚データから特定されるオブジェクトに補助データが関連付けられている。様々な実施形態では、補助データの収集、及びこれと視覚データとの関連付けは自動的に行われ、人間の介入はあったとしても、ほとんど必要とはしない。例えば、視覚技術を使用して特定されるオブジェクトには、手動でラベル付けする必要がないため、機械学習トレーニングの効率が大幅に向上する。その代わりに、トレーニングデータが自動的に生成され、このトレーニングデータを使用して、オブジェクト属性を高精度で予測するように、機械学習モデルがトレーニングされ得る。例えば、このデータは、視覚データ及びレーダデータなどの関連付けられた関連データのスナップショットを収集することにより、車両群から自動的に収集されてもよい。いくつかの実施形態では、視覚データとレーダデータとに関する関連付けターゲットのサブセットのみがサンプリングされている。これらの車両群から収集されるフュージョンデータは自動的に収集され、このフュージョンデータを使用して、捕捉されるデータを模倣するように、ニューラルネットがトレーニングされている。視覚データのみを使用して、距離、方向、及び速度などのオブジェクト属性を正確に予測するために、このトレーニング済みの機械学習モデルが車両にデプロイされ得る。例えば、専用の距離測定センサを必要とせずに、カメラの画像を使用してオブジェクト距離を測定できるように機械学習モデルがひとたびトレーニングされると、自動運転車両に専用の距離測定センサを搭載する必要が、もはやなくなる可能性がある。専用の距離測定センサと共に使用される場合、この機械学習モデルは、精度を向上させ、かつ/又はフォールトトレランスをもたらすための、冗長距離データソース又は二次距離データソースとして使用され得る。特定されたオブジェクト及び対応する属性を使用して、ある車両の自動運転、又は運転者支援動作などの自動運転機能が実行され得る。例えば、ある自動運転車両は、開示している技法を使用して特定された合流車両を回避するように制御され得る。
【0016】
メモリに結合された1つ又は複数のプロセッサを備えるシステムは、車両のカメラを使用して捕捉された画像に基づいた画像データを受信するように構成されている。例えば、ある自動運転車両に搭載された人工知能(AI:Artificial Intelligence)プロセッサなどのプロセッサは、車両の前方対面カメラなどのカメラから画像データを受信する。側方対面カメラや後方対面カメラなどの別のカメラも、同様に使用され得る。画像データは、車両からあるオブジェクトまでの距離を少なくとも部分的に特定するために機械学習トレーニングされたモデルへの、入力データのベースとして利用されている。例えば、この捕捉画像は、AIプロセッサ上で実行される深層学習ネットワークのモデルなどの機械学習モデルへの入力データとして使用されている。本モデルを使用して、画像データにおいて特定されたオブジェクトまでの距離が予測される。車両や歩行者などの周辺のオブジェクトは画像データから特定され得、また、その精度や方向は、深層学習システムを使用して推論される。様々な実施形態では、トレーニング済みの機械学習モデルは、トレーニング画像及び照射による距離測定センサの相関出力を使用したトレーニングを受けている。照射による距離測定センサは、センサからオブジェクトまでの距離を検出する際に、信号(例えば、電波信号、超音波信号、光信号など)を発信することができる。例えば、車両に搭載されたレーダセンサが、周辺の障害物までの距離や方向を特定するために、レーダを発信する。次いで、これらの距離は、車両のカメラから捕捉されたトレーニング画像内で、特定されたオブジェクトと相関付けられる。関連付けられたトレーニング画像には距離測定値がアノテートされ、この画像を使用して、機械学習モデルがトレーニングされる。いくつかの実施形態では、本モデルを使用して、オブジェクトの速度などの追加属性が予測される。例えば、レーダによって測定されたオブジェクトの速度は、オブジェクトの速度及び方向を予測するように機械学習モデルをトレーニングする際に、トレーニング画像内のオブジェクトと関連付けられる。
【0017】
いくつかの実施形態では、ある車両は、車両の周辺環境及び車両動作パラメータを捕捉するためのセンサを備える。この捕捉データは、視覚データ(動画及び/又は静止画像など)と、レーダセンサデータ、lidarセンサデータ、慣性センサデータ、音声センサデータ、オドメトリセンサデータ、位置センサデータ、及び/又は他の形態のセンサデータなどの追加の補助データと、を含む。例えば、このセンサデータは、車両、歩行者、車線境界線、車両交通量、障害物、交通標識、交通音などを捕捉したものであってもよい。オドメトリセンサ及び他の類似のセンサは、車両速度、操舵、方位、方向変化、位置変化、高度変化、速度変化などの車両動作パラメータを捕捉する。ここで捕捉された視覚データ及び補助データは、トレーニングデータセットを作成するために車両からトレーニングサーバに送信される。いくつかの実施形態では、送信されたこれらの視覚データ及び補助データは相関付けられ、これらのデータを使用して、トレーニングデータが自動的に生成される。このトレーニングデータを使用して、高精度な機械学習結果を生成するための、機械学習モデルがトレーニングされている。いくつかの実施形態では、このトレーニングデータを生成するために、時系列の捕捉データが使用されている。時系列要素のグループに基づいてグランドトゥルース(ground truth)が指定され、このグランドトゥルースを使用して、グループからの単一の画像などの要素のうちの少なくとも1つがアノテートされる。例えば、30秒などの時間間隔で、一連の画像及びレーダデータが捕捉される。この画像データから特定され、かつ時系列にわたって追跡された車両は、この時系列からの対応するレーダ距離及びレーダ方向と関連付けられる。レーダ距離データなどの関連付け対象の補助データは、時系列で捕捉された画像データ及び距離データを分析した後に、車両と関連付けられる。時系列にわたって画像データ及び補助データを分析することにより、似通った距離を有する複数のオブジェクトなどの曖昧性が高い精度で解消されて、グランドトゥルースが指定され得る。例えば、単一の捕捉画像のみを使用する場合において、1台の車両が別の車両を遮るときか、又は2台の車両が接近しているとき、2台の車両までの個々の距離を正確に推定するには、これに対応するレーダデータが不十分である可能性がある。しかしながら、時系列にわたって車両を追跡することにより、レーダによって特定される距離は、車両が互いから離れ、異なる方向に移動し、かつ/又は異なる速度で移動するなどしても、正しい車両と適切に関連付けられ得る。様々な実施形態では、補助データがあるオブジェクトに適切に関連付けられた時点で、時系列のうちの1つ又は複数の画像がトレーニング画像に変換され、距離、速度、及び/又は他の適切なオブジェクト属性などの対応するグランドトゥルースがこの画像にアノテートされる。
【0018】
様々な実施形態では、補助センサデータを使用してトレーニングされた機械学習モデルは、物理的な補助センサを必要とせずに、補助センサの結果を正確に予測することができる。例えば、トレーニング車両には、トレーニングデータを収集するために、高価なかつ/又は操作が困難なセンサを含む、補助センサを装備することができる。次いで、このトレーニングデータを使用して、レーダセンサ、lidarセンサ、又は別のセンサなどの補助センサの結果を予測するための、機械学習モデルがトレーニングされ得る。その後、このトレーニング済みのモデルは、視覚センサのみを必要とする量産車両などの車両にデプロイされる。補助センサは必須ではないが、二次データソースとしても使用され得る。とりわけセンサの再較正の困難さ、センサの保守、センサの追加によるコスト、及び/又は追加センサに対する追加の帯域幅及び計算要件などの点を含め、センサの台数を削減することには多くの利点がある。いくつかの実施形態では、トレーニング済みのモデルは、補助センサが故障した場合に使用されている。追加の補助センサに依存する代わりに、このトレーニング済みの機械学習モデルは、1つ又は複数の視覚センサからの入力データを使用して、補助センサの結果を予測する。ここで予測された結果を使用して、オブジェクト(例えば、歩行者、静止車両、移動車両、縁石、障害物、道路障壁など)、並びにそれらまでの距離及び方向の検出を必要とする、自動運転機能が実行され得る。ここで予測された結果を使用して、信号機、交通標識、道路標識などの交通規制のオブジェクトまでの距離及び方向が検出され得る。先の実施例では視覚センサとオブジェクト距離とが使用されているが、代替のセンサや予測される属性も同様に使用可能である。
【0019】
図1は、自動運転に使用される深層学習システムの、一実施形態を示したブロック図である。この深層学習システムは、車両の自動運転及び/又は運転者支援動作を行うために、並びに機械学習モデルをトレーニングするためのデータを収集し、かつ処理するために、共に使用され得る種々のコンポーネントを含む。様々な実施形態では、この深層学習システムはある車両にインストールされ、また、車両から捕捉されるデータを使用して、車両又は他の類似の車両における深層学習システムがトレーニングされ、かつ改善され得る。この深層学習システムを使用して、オブジェクトを特定すること、及び視覚データを入力データとして使用して、距離や方向などのオブジェクト属性を予測することを含む、自動運転機能が実行されてもよい。
【0020】
図示の実施例では、深層学習システム100は、視覚センサ101、追加センサ103、画像プリプロセッサ105、深層学習ネットワーク107、人工知能(AI)プロセッサ109、車両制御モジュール111、及びネットワークインターフェース113を含む深層学習ネットワークである。様々な実施形態では、種々のコンポーネントが通信可能に結合されている。例えば、視覚センサ101から捕捉された画像データは、画像プリプロセッサ105に供給される。画像プリプロセッサ105において処理されたセンサデータは、AIプロセッサ109上で実行中の深層学習ネットワーク107に供給される。いくつかの実施形態では、追加センサ103からのセンサデータは、深層学習ネットワーク107への入力データとして使用されている。AIプロセッサ109上で実行中の深層学習ネットワーク107の出力データは、車両制御モジュール111に供給される。様々な実施形態では、車両制御モジュール111は、車両の速度、制動、及び/又は操舵などの車両の動作に接続されて、車両のこれらの動作を制御している。様々な実施形態では、センサデータ及び/又は機械学習結果は、ネットワークインターフェース113を介してリモートサーバ(図示せず)に送信され得る。例えば、視覚センサ101及び/又は追加センサ103から捕捉されるデータなどのセンサデータは、車両の性能、快適性、及び/又は安全性を高めるためのトレーニングデータを収集するために、ネットワークインターフェース113を介してリモートトレーニングサーバに送信され得る。様々な実施形態では、ネットワークインターフェース113を使用してリモートサーバと通信し、通話し、テキストメッセージを送信かつ/又は受信し、かつ車両の動作に基づいてセンサデータを送信するなどされている。いくつかの実施形態では、深層学習システム100は、必要に応じて含むコンポーネントを追加してもよいし、又は削減してもよい。例えば、いくつかの実施形態では、画像プリプロセッサ105は任意選択のコンポーネントである。別の実施例として、いくつかの実施形態では、出力データが車両制御モジュール111に供給される前に、深層学習ネットワーク107の出力データに対してポストプロセッシングを実行するために、ポストプロセスコンポーネント(図示せず)が使用されている。
【0021】
いくつかの実施形態では、視覚センサ101は、画像データを捕捉するための1つ又は複数のカメラセンサを含む。様々な実施形態では、視覚センサ101は、ある車両の様々な位置でこの車両に取り付けられてもよいし、かつ/又は1つ又は複数の異なる方向に方向付けられてもよい。例えば、視覚センサ101は、車両の前方、側方、後方、及び/又はルーフなどに、前方対面方向、後方対面方向、側方対面方向などの方向で取り付けられてもよい。いくつかの実施形態では、視覚センサ101は、ハイダイナミックレンジカメラ及び/又は様々な視野を有するカメラなどの画像センサであってもよい。例えば、いくつかの実施形態では、8台のサラウンドカメラが車両に取り付けられ、これらのカメラが、車両の周囲360度の視界を最大250メートルまでの範囲でもたらしている。いくつかの実施形態では、カメラセンサは、広角前方カメラ、狭角前方カメラ、後方視認カメラ、前方視サイドカメラ、及び/又は後方視サイドカメラを含む。
【0022】
いくつかの実施形態では、視覚センサ101は、車両制御モジュール111を備える車両に取り付けられていない。例えば、視覚センサ101は周辺車両に取り付けられてもよく、かつ/又は道路若しくは周辺環境に取り付けられてもよく、さらには、センサデータを捕捉するための深層学習システムの一部として搭載されてもよい。様々な実施形態では、視覚センサ101は、車両が走行中の道路を含む、車両の周辺環境を捕捉する、1つ又は複数のカメラを含む。例えば、1つ又は複数の前方対面カメラ及び/又はピラーカメラは、車両、歩行者、交通規制のオブジェクト、道路、縁石、障害物などの、車両を取り囲む環境内のオブジェクトの画像を捕捉している。別の実施例として、カメラは、車両が走行中の車線に割り込もうとしている車両を含む、周辺車両の画像データを含む、時系列の画像データを捕捉している。視覚センサ101は、静止画像及び/又は動画を捕捉できる画像センサを含んでいてもよい。データは、一定期間にわたる一連の捕捉データのように、一定期間にわたって捕捉されてもよく、また、他のセンサデータを含む他の車両データと同期されてもよい。例えば、オブジェクトを特定するために使用される画像データは、15秒の時間又は別の適切な時間にわたって、レーダデータ及びオドメトリ(odometry)データと共に捕捉されてもよい。
【0023】
いくつかの実施形態では、追加センサ103は、視覚センサ101に加えて、センサデータを捕捉するための追加センサを含む。様々な実施形態では、追加センサ103は、ある車両の様々な位置でこの車両に取り付けられてもよいし、かつ/又は1つ又は複数の異なる方向に方向付けられてもよい。例えば、追加センサ103は、車両の前方、側方、後方、及び/又はルーフなどに、前方対面方向、後方対面方向、側方対面方向などの方向で取り付けられてもよい。いくつかの実施形態では、追加センサ103は、レーダセンサ、超音波センサ、及び/又はlidarセンサなどの照射センサであってもよい。いくつかの実施形態では、追加センサ103は非視覚センサを含む。追加センサ103は、レーダセンサ、音声センサ、lidarセンサ、慣性センサ、オドメトリセンサ、位置センサ、及び/又は超音波センサなどを含んでいてもよい。例えば、12台の超音波センサを車両に取り付けることにより、硬質のオブジェクトと軟質のオブジェクトとの両方が検出されてもよい。いくつかの実施形態では、周辺環境のデータを捕捉するために、前方対面レーダが使用されている。様々な実施形態では、レーダセンサは、豪雨、霧、埃の発生、及び他の車両の近接にもかかわらず、周辺環境の詳細を捕捉することができる。
【0024】
いくつかの実施形態では、追加センサ103は、車両制御モジュール111を備える車両に取り付けられていない。視覚センサ101と同様に、例えば、追加センサ103は周辺車両に取り付けられてもよく、かつ/又は道路若しくは周辺環境に取り付けられてもよく、さらには、センサデータを捕捉するための深層学習システムの一部として搭載されてもよい。いくつかの実施形態では、追加センサ103は、車両が走行中の道路を含む、車両の周辺環境を捕捉する、1つ又は複数のカメラを含む。例えば、前方対面レーダセンサが、車両の前方視野内にあるオブジェクトまでの距離データを捕捉する。追加センサは、車両の軌跡に関する情報を含むオドメトリ情報、位置情報、及び/又は車両制御情報を捕捉してもよい。センサデータは、一定期間にわたる一連の捕捉データのように、一定期間にわたって捕捉されてもよく、また、視覚センサ101から捕捉された画像データと関連付けられてもよい。いくつかの実施形態では、追加センサ103は、車両の位置及び/又は位置の変化を特定するための、全地球測位システム(GPS)センサなどの位置センサを含む。様々な実施形態では、追加センサ103のうちの1つ又は複数のセンサは任意選択のものであり、トレーニングデータを捕捉するように設計された車両にのみ搭載されている。追加センサ103のうちの1つ又は複数のセンサを有しない車両は、トレーニング済みの機械学習モデル及び本明細書に開示している技法を用いて出力を予測することにより、追加センサ103による結果をシミュレートすることができる。例えば、前方対面レーダセンサ又は前方対面lidarセンサのない車両は、深層学習ネットワーク107のモデルなど、トレーニング済みの機械学習モデルを適用することにより、画像データを使用して任意選択のセンサの結果を予測することができる。
【0025】
いくつかの実施形態では、画像プリプロセッサ105を使用して、視覚センサ101のセンサデータが前処理されている。例えば、画像プリプロセッサ105を使用して、このセンサデータが前処理されてもよく、このセンサデータが1つ又は複数の成分へと分割されてもよく、かつ/又はこれら1つ又は複数の成分が後処理されてもよい。いくつかの実施形態では、画像プリプロセッサ105は、グラフィックス処理装置(GPU:graphics processing unit)、中央処理装置(CPU:central processing unit)、画像信号プロセッサ、又は専用画像プロセッサである。様々な実施形態では、画像プリプロセッサ105は、ハイダイナミックレンジデータを処理するトーンマッパープロセッサである。いくつかの実施形態では、画像プリプロセッサ105は、人工知能(AI)プロセッサ109の一部として実装されている。例えば、画像プリプロセッサ105は、AIプロセッサ109のコンポーネントであってもよい。いくつかの実施形態では、画像プリプロセッサ105を使用して、画像が正規化されるか、又は画像が変換されてもよい。例えば、魚眼レンズで捕捉された画像がワープされてもよく、また、このワーピングを除去するか、又は修正するために、画像プリプロセッサ105を使用して画像が変換されてもよい。いくつかの実施形態では、ノイズ、歪み、及び/又はぼやけは、プリプロセッシングステップ中に除去又は低減される。様々な実施形態では、画像は、機械学習分析の結果を改善するように調整又は正規化される。例えば、画像のホワイトバランスは、昼光条件、晴天条件、曇天条件、薄暗条件、日出条件、日没条件、及び夜間条件などの、異なる照明動作条件を考慮するように調整される。
【0026】
いくつかの実施形態では、深層学習ネットワーク107は、運転環境を分析して、オブジェクト及びそれらの対応する属性、例えば距離、速度、又は別の適切なパラメータを特定することを含む、車両制御パラメータの特定のために使用される深層学習ネットワークである。例えば、深層学習ネットワーク107は、センサデータなどの入力データによってトレーニングされ、その出力データが車両制御モジュール111に供給されるようになっている、畳み込みニューラルネットワーク(CNN:convolutional neural network)などの人工ニューラルネットワークであってもよい。一実施例として、この出力データは、検出されたオブジェクトの距離推定値を少なくとも含んでいてもよい。別の実施例として、この出力データは、車両の車線に合流する可能性のある潜在的な車両、これらの車両間の距離、及びこれらの車両の速度を少なくとも含んでいてもよい。いくつかの実施形態では、深層学習ネットワーク107は、画像センサデータを入力データとして少なくとも受信し、この画像センサデータ内のオブジェクトを特定し、かつオブジェクトまでの距離を予測する。追加の入力データは、車両周辺の環境及び/又は車両の動作特性などの車両仕様を記述するシーンデータを含んでいてもよい。シーンデータは、降雨時の道路、湿った道路、降雪時の交通、ぬかるみ発生時の交通、高密度交通、幹線道路区域、市街地、通学路など、車両周辺の環境を記述するシーンタグを含んでいてもよい。いくつかの実施形態では、深層学習ネットワーク107の出力データは、特定されたオブジェクトなどのオブジェクトを表す直方体を含む、車両の周辺環境の三次元表現である。いくつかの実施形態では、深層学習ネットワーク107の出力データは、対象目的地に向かって車両をナビゲートすることを含む、自動運転に使用されている。
【0027】
いくつかの実施形態では、人工知能(AI)プロセッサ109は、深層学習ネットワーク107を実行するためのハードウェアプロセッサである。いくつかの実施形態では、AIプロセッサ109は、センサデータに対し、畳み込みニューラルネットワーク(CNN)を使用して推論を行うための、専用AIプロセッサである。AIプロセッサ109は、センサデータのビット深度に最適化されてもよい。いくつかの実施形態では、AIプロセッサ109は、とりわけ畳み込み演算、ドット積演算、ベクトル演算、及び/又は行列演算を含むニューラルネットワーク演算など、深層学習演算用に最適化されている。いくつかの実施形態では、AIプロセッサ109は、グラフィックス処理装置(GPU:graphics processing unit)を使用して実装されている。様々な実施形態では、AIプロセッサ109は、実行されるとこのAIプロセッサに対して、受信した入力センサデータの深層学習分析を実行させ、かつ自動運転に使用される、オブジェクト距離などの機械学習結果を判定させる命令を、このAIプロセッサに付与するように構成されたメモリに結合されている。いくつかの実施形態では、データをトレーニングデータとして利用可能に生成するために、AIプロセッサ109を使用してセンサデータが処理されている。
【0028】
いくつかの実施形態では、車両制御モジュール111を使用して、人工知能(AI)プロセッサ109の出力データが処理され、かつこの出力データが車両制御演算へと変換される。いくつかの実施形態では、車両制御モジュール111を使用して、自動運転を行う車両を制御している。様々な実施形態では、車両制御モジュール111は、車両の速度、加速度、操舵、制動などを調整することができる。例えば、いくつかの実施形態では、車両制御モジュール111を使用して車両を制御することにより、例えばある車線内の車両の位置が維持され、車両が別の車線へと合流し、また、合流車両を考慮して、車両の速度や車線の位置決めが調整されている。
【0029】
いくつかの実施形態では、車両制御モジュール111を使用して、ブレーキライト、ウィンカー、ヘッドライトなどの車両照明が制御されている。いくつかの実施形態では、車両制御モジュール111を使用して、車両の音響システム、音声警報の再生、マイクロフォンの有効化、ホーンの有効化などの車両の音響状態が制御されている。いくつかの実施形態では、車両制御モジュール111を使用して、潜在的な衝突可能性又は想定目的地への接近状況などの運転イベントを、運転者及び/又は乗客に通知するための警報システムを含む通知システムが制御されている。いくつかの実施形態では、車両制御モジュール111を使用して、ある車両の視覚センサ101及び追加センサ103などのセンサが調整されている。例えば、車両制御モジュール111を使用して、方位の変更、出力解像度及び/又はフォーマットタイプの変更、捕捉レートの上下変動、捕捉されるダイナミックレンジの調整、カメラの焦点調整、センサの有効化及び/又は無効化など、1つ又は複数のセンサのパラメータが変更されてもよい。いくつかの実施形態では、車両制御モジュール111を使用して、フィルタの周波数範囲の変更、フィーチャ検出パラメータ及び/又はエッジ検出パラメータの調整、チャネル及びビット深度の調整など、画像プリプロセッサ105のパラメータが変更されてもよい。様々な実施形態では、車両制御モジュール111を使用して、ある車両の自動運転及び/又は運転者支援制御が実行されている。いくつかの実施形態では、車両制御モジュール111は、メモリと結合されたプロセッサを使用して実装されている。いくつかの実施形態では、車両制御モジュール111は、特定用途向け集積回路(ASIC)、プログラマブル論理デバイス(PLD)、又は他の適切なプロセッシングハードウェアを使用して実装されている。
【0030】
いくつかの実施形態では、ネットワークインターフェース113は、トレーニングデータを含むデータを送信かつ/又は受信するための、通信インターフェースである。様々な実施形態では、ネットワークインターフェース113は、リモートサーバとインターフェースするためのセルラーインターフェース又は無線インターフェースを含むことにより、センサデータを送信し、潜在的なトレーニングデータを送信し、更新された機械学習モデルを含む深層学習ネットワークに対する更新を受信し、接続して音声通話を行い、テキストメッセージを送信かつ/又は受信するなどしている。例えば、ネットワークインターフェース113を使用して、潜在的なトレーニングデータとして使用するために捕捉されたセンサデータが、機械学習モデルをトレーニングするためのリモートトレーニングサーバに送信されてもよい。別の実施例として、ネットワークインターフェース113を使用して、視覚センサ101、追加センサ103、画像プリプロセッサ105、深層学習ネットワーク107、AIプロセッサ109、及び/又は車両制御モジュール111に対する命令及び/又は動作パラメータへの更新が受信されてもよい。深層学習ネットワーク107の機械学習モデルは、ネットワークインターフェース113を使用して更新されてもよい。別の実施例として、ネットワークインターフェース113を使用して、視覚センサ101及び追加センサ103のファームウェア、並びに/又は画像プロセッシングパラメータなどの画像プリプロセッサ105の動作パラメータが更新されてもよい。
【0031】
図2は、オブジェクト属性を予測するためのトレーニングデータを作成するプロセスの、一実施形態を示したフロー図である。例えば、画像データは、トレーニングデータを自動的に作成するために、追加の補助センサからのセンサデータでアノテートされている。いくつかの実施形態では、センサデータ及び関連補助データで構成される時系列要素はある車両から収集され、この時系列要素を使用して、トレーニングデータが自動的に作成されている。様々な実施形態では、
図2のプロセスを用いて、トレーニングデータが対応するグランドトゥルースで自動的にラベル付けされている。このグランドトゥルースと画像データとは、画像データから特定されるオブジェクト属性を予測するためのトレーニングデータとして、パッケージ化されている。様々な実施形態では、センサデータ及び関連補助データは、
図1の深層学習システムを使用して捕捉されている。例えば、様々な実施形態では、このセンサデータは
図1の視覚センサ101から捕捉され、また関連データは、
図1の追加センサ103から捕捉される。いくつかの実施形態では、
図2のプロセスは、既存の予測が不正確であるか、又は改善され得る場合に、データを自動的に収集するように実行される。例えば、視覚データから、距離や方向などの1つ又は複数のオブジェクト属性を特定する予測が、自動運転車両によって行われている。予測は、照射による距離測定センサから受信した距離データと比較される。予測が許容可能な精度閾値内にあるかどうかが判定され得る。いくつかの実施形態では、予測が改善され得るという判定が行われている。予測が十分に正確でない場合、
図2のプロセスを予測シナリオに適用して、本機械学習モデルを改善するためのトレーニング例をキュレートしたもののセットが作成され得る。
【0032】
201で、視覚データが受信される。この視覚データは、動画及び/又は静止画像などの画像データであってもよい。様々な実施形態では、この視覚データは車両で捕捉され、次いでトレーニングサーバに送信される。この視覚データは、時系列要素を作成するために、一定期間にわたって捕捉されてもよい。様々な実施形態では、これらの要素は、要素の順序を保持するためのタイムスタンプを含む。時系列要素を捕捉することにより、時系列内のオブジェクトが時系列にわたって追跡され、単一の入力画像及び対応する関連データなど、単一の入力サンプルから特定することが困難なオブジェクトがより一層判別しやすくなる。例えば、対向車のヘッドライトのペアの場合、最初は両方とも1台の車両に属しているように見える可能性があるが、これらのヘッドライトが互いから離れた場合、各ヘッドライトは別個のオートバイに属しているものと認識される。いくつかのシナリオでは、画像データ内のオブジェクトは、203で受信される関連補助データ内のオブジェクトよりも区別がつきやすい。例えば、距離データのみを使用して、バンが並んでいる壁からバンまでの推定距離を判別することは困難であり得る。しかしながら、対応する時系列の画像データにわたってこのバンを追跡することにより、特定されたバンに正しい距離データが関連付けられ得る。様々な実施形態では、時系列として捕捉されたセンサデータは、機械学習モデルがこれを入力データとして使用するフォーマットで捕捉される。例えば、このセンサデータは、生画像データ又は被処理画像データであってもよい。
【0033】
様々な実施形態では、時系列データが受信された場合、これらの時系列は、これら時系列の各要素にタイムスタンプを関連付けることによって編成されてもよい。例えば、これらの時系列における少なくとも第1の要素に、1つのタイムスタンプが関連付けられる。このタイムスタンプを使用して、203で受信したデータなど、関連データを備える時系列要素が較正されてもよい。様々な実施形態では、これらの時系列の長さは、10秒、30秒、又は別の適切な長さなどの固定長の時間であってもよい。この時間の長さは設定可能であってもよい。様々な実施形態では、これらの時系列は、車両の平均速度などの車両速度に基づいていてもよい。例えば、より遅い速度では、時系列の時間長を増大させることにより、同じ速度に対してより短い時間長を使用する場合に可能となる移動距離よりも長い移動距離にわたって、データが捕捉されてもよい。いくつかの実施形態では、これらの時系列内の要素数は設定可能である。これらの要素の数は、移動距離に基づいていてもよい。例えば、一定時間の間、より速く移動する車両は、より遅く移動する車両よりも、含む時系列内の要素がより多くなる。これらの要素を追加すると、捕捉された周辺環境の再現性を高め、予測された機械学習結果の精度を向上させることができる。様々な実施形態では、これらの要素の数は、センサがデータを捕捉する1秒当たりのフレームを調整することによって、かつ/又は不要な中間フレームを破棄することによって調整されている。
【0034】
203で、受信した視覚データに関連するデータが受信される。様々な実施形態では、この関連データは、201で受信した視覚データと共に、トレーニングサーバで受信される。いくつかの実施形態では、この関連データは、超音波センサ、レーダセンサ、lidarセンサ、又は他の適切なセンサなど、車両の追加センサから受信したセンサデータである。この関連データは、距離、方向、速度、位置、方位、位置の変化、及び方位の変化に関するデータ、並びに/又は他の関連データなど、車両の追加センサによって捕捉されるものであってもよい。この関連データを使用して、201で受信した視覚データで特定されたフィーチャに対するグランドトゥルースが指定されてもよい。例えば、レーダセンサからの距離測定値及び方向測定値を使用して、視覚データにおいて特定されたオブジェクトのオブジェクト距離及びオブジェクト方向が求められる。いくつかの実施形態では、ここで受信される関連データは、201で受信した時系列の視覚データに対応する時系列データである。
【0035】
いくつかの実施形態では、この視覚データに関連するデータはマップデータを含む。例えば、203で、道路レベル及び/又は衛星レベルのマップデータなどのオフラインデータが受信されてもよい。このマップデータを使用して、道路、車線、交差点、制限速度、学区などのフィーチャが特定されてもよい。例えば、このマップデータは、車線経路を記述することができる。車線内で特定された車両の推定位置を使用して、検出車両までの推定距離が求められたり、その裏付けが行われたりする可能性がある。別の実施例として、このマップデータは、マップの様々な道路と関連付けられた制限速度を記述することができる。いくつかの実施形態では、この速度制限データを使用して、特定された車両の速度ベクトルが検証されてもよい。
【0036】
205で、視覚データ内のオブジェクトが特定される。いくつかの実施形態では、この視覚データを入力データとして使用して、車両の周辺環境内のオブジェクトが特定される。例えば、車両、歩行者、障害物などが視覚データから特定される。いくつかの実施形態では、これらのオブジェクトは、トレーニング済みの機械学習モデルを備える深層学習システムを使用して特定されている。様々な実施形態では、特定されたオブジェクトに対してバウンディングボックスが作成される。このバウンディングボックスは、特定されたオブジェクトの外側の輪郭を描画する、直方体などの二次元バウンディングボックス又は三次元バウンディングボックスであってもよい。いくつかの実施形態では、203で受信したデータなどの追加のデータを使用することで、オブジェクトを特定するのが補助される。こうした追加データを使用して、オブジェクト特定時の精度が高められてもよい。
【0037】
207で、特定されたオブジェクトに対するグランドトゥルースが指定される。203で受信した関連データを使用して、201で受信した視覚データから、205で特定されたオブジェクトに対するグランドトゥルースが指定される。いくつかの実施形態では、この関連データは、特定されたオブジェクトの深度(及び/又は距離)データである。距離データをこの特定されたオブジェクトと関連付けることにより、機械学習モデルをトレーニングし、そしてこの関連距離データを検出オブジェクトのグランドトゥルースとして使用することにより、オブジェクト距離が推定され得る。いくつかの実施形態では、これらの距離は、障害物、障壁、移動車両、静止車両、交通信号機、歩行者などの検出オブジェクトまでの距離であり、トレーニング用のグランドトゥルースとして使用されている。距離に加えて、方向、速度、加速度などの他のオブジェクトパラメータに対するグランドトゥルースが指定されてもよい。例えば、特定されたオブジェクトに対するグランドトゥルースとして、正確な距離や方向が指定される。別の実施例として、車両及び歩行者などの特定されたオブジェクトに対するグランドトゥルースとして、正確な速度ベクトルが指定される。
【0038】
様々な実施形態では、視覚データ及び関連データはタイムスタンプによって編成され、対応するタイムスタンプを使用して、2つのデータセットが同期される。いくつかの実施形態では、タイムスタンプを使用して、一連の画像及び対応する一連の関連データなどの時系列データが同期されている。このデータは、捕捉時に同期されてもよい。例えば、時系列の各要素が捕捉されると、対応する関連データのセットが捕捉されて、時系列要素と共に保存される。様々な実施形態では、この関連データの時間間隔は設定可能であり、かつ/又は時系列要素の時間間隔と一致している。いくつかの実施形態では、この関連データは、時系列要素と同じレートでサンプリングされている。
【0039】
様々な実施形態では、時系列データを検証することによってのみ、グランドトゥルースが指定され得る。例えば、視覚データのサブセットのみを分析した場合、オブジェクト及び/又はそれらの属性が誤特定される可能性がある。時系列全体に分析対象を拡大することにより、曖昧性が除去される。例えば、時系列において前後して、遮蔽車両の存在が明らかにされてもよい。ひとたび特定されると、遮蔽されている場合であっても、時系列全体にわたってこの時折遮蔽される車両が追跡され得る。同様に、関連データから得られるオブジェクト属性を視覚データ内で特定されたオブジェクトと関連付けることにより、この時折遮蔽される車両のオブジェクト属性が、時系列全体にわたって追跡され得る。いくつかの実施形態では、このデータは逆方向(及び/又は順方向)再生されて、関連データを視覚データと関連付ける際のあらゆる曖昧点が特定される。時系列内の様々な時間にオブジェクトがある状態を使用して、時系列全体にわたるオブジェクトのオブジェクト属性を特定するのが補助されてもよい。
【0040】
様々な実施形態では、閾値を使用して、あるオブジェクト属性を特定されたあるオブジェクトのグランドトゥルースとして関連付けるかどうかが判定される。例えば、確度の高い関連データは特定されたオブジェクトと関連付けられるが、確度が閾値を下回っている関連データは、特定されたオブジェクトと関連付けられることはない。いくつかの実施形態では、この関連データは、矛盾し合うセンサデータであってもよい。例えば、超音波データの出力結果とレーダデータの出力結果とは矛盾している可能性がある。別の実施例として、距離データはマップデータと矛盾している可能性がある。距離データでは、ある学区が30メートル以内で始まると推定してもよい一方、マップデータからの情報では、その同じ学区が20メートル以内で始まると記述してもよい。関連データの確度が低い場合、この関連データは破棄されてもよく、また、グランドトゥルースを指定するために使用されなくてもよい。
【0041】
いくつかの実施形態では、このグランドトゥルースは、意味ラベルを予測するように指定される。例えば、予測された距離及び方向に基づいて、ある検出車両が左車線又は右車線にあるとラベル付けされ得る。いくつかの実施形態では、この検出車両は死角にある車両として、又は優先されるべき車両として、若しくは別の適切な意味ラベルでラベル付けされ得る。いくつかの実施形態では、指定されたグランドトゥルースに基づいて、マップ内の道路又は車線に車両が割り当てられる。別の実施例として、この指定されたグランドトゥルースを使用して、信号機、車線、走行可能空間、又は自動運転を支援する他の機構がラベル付けされ得る。
【0042】
209で、トレーニングデータがパッケージ化される。例えば、201で受信した視覚データの要素が選択され、207で指定されたグランドトゥルースにこれが関連付けられる。いくつかの実施形態では、ここで選択される要素は時系列要素である。ここで選択される要素は、トレーニング画像などの機械学習モデルへのセンサデータ入力を表し、グランドトゥルースはその予測結果を表す。様々な実施形態では、ここで選択されるデータは、トレーニングデータとしてアノテートされ、かつ作成される。いくつかの実施形態では、このトレーニングデータは、トレーニング・検証・試験データへとパッケージ化される。このトレーニングデータは、1つ又は複数の関連補助センサに関連する結果を予測するように、機械学習モデルをトレーニングするために、指定されたグランドトゥルース及び選択されたトレーニング要素に基づいてパッケージ化される。例えば、ここでトレーニング済みのモデルを使用して、レーダセンサ又はlidarセンサなどのセンサを使用した測定と同様の結果を得ながら、オブジェクトまでの距離及び方向が正確に予測され得る。様々な実施形態では、この機械学習結果を使用して、自動運転に使用される機能が実装されている。パッケージ化されたトレーニングデータは、ここで機械学習モデルをトレーニングする際に利用可能となっている。
【0043】
図3は、自動運転に使用される機械学習モデルをトレーニングし、かつこれを適用するプロセスの一実施形態を示したフロー図である。例えば、一次センサデータ及び二次センサデータを含む入力データが受信され、機械学習モデルをトレーニングするためのトレーニングデータを作成するように処理される。いくつかの実施形態では、一次センサデータは、自動運転システムによって捕捉される画像データに相当し、二次センサデータは、照射による距離測定センサから捕捉されるセンサデータに相当する。二次センサに基づいて出力を予測するように機械学習モデルをトレーニングするために、この二次センサデータを使用して、一次センサデータがアノテートされてもよい。いくつかの実施形態では、このセンサデータは、ユーザが手動で自動運転を解除する場合、又は視覚データからの距離推定値が二次センサからの距離推定値と大きく異なる場合など、特定のユースケースに基づいて捕捉されるセンサデータに相当する。いくつかの実施形態では、一次センサデータは
図1の視覚センサ101のセンサデータであり、二次センサデータは、
図1の追加センサ103における1つ又は複数のセンサのセンサデータである。いくつかの実施形態では、本プロセスを用いて、
図1の深層学習システム100に使用される機械学習モデルが作成かつデプロイされている。
【0044】
301で、トレーニングデータが作成される。いくつかの実施形態では、画像データ及び補助データを含むセンサデータを受信して、トレーニングデータセットが作成される。この画像データは、1つ又は複数のカメラからの静止画像及び/又は動画を含んでいてもよい。レーダセンサ、lidarセンサ、超音波センサなどの追加センサを使用して、関連補助センサデータが供給されてもよい。様々な実施形態では、この画像データは、センサデータ内で検出されたオブジェクトの属性を特定するのを補助するように、対応する補助データと対にされている。例えば、補助データから得られる距離データ及び/又は速度データを使用して、画像データ内で特定されたオブジェクトまでの距離及び/又は速度が正確に推定され得る。いくつかの実施形態では、このセンサデータは時系列要素であり、このデータを使用して、グランドトゥルースが指定される。次いで、グループのグランドトゥルースは、画像データのフレームなどの時系列のサブセットと関連付けられる。選択された時系列の要素とこのグランドトゥルースとを使用して、トレーニングデータが作成される。いくつかの実施形態では、このトレーニングデータは、車両、歩行者、障害物までの距離及び方向など、画像データ内で特定されたオブジェクト属性のみを推定するように、機械学習モデルをトレーニングするために作成されている。ここで作成されるトレーニングデータは、トレーニング、検証、及び試験に使用されるデータを含んでいてもよい。様々な実施形態では、このセンサデータは、異なるフォーマットのものであってもよい。例えば、このセンサデータは、静止画像データ、動画データ、レーダデータ、超音波データ、音声データ、位置データ、オドメトリデータなどであってもよい。このオドメトリデータは、印加される加速度、印加される制動、印加される操舵、車両位置、車両方位、車両位置の変化、車両方位の変化などの車両動作パラメータを含んでいてもよい。様々な実施形態では、トレーニングデータは、トレーニングデータセットを作成するためにキュレートかつアノテートされる。いくつかの実施形態では、トレーニングデータの作成作業の一部は、人間のキュレーターによって実行されてもよい。様々な実施形態では、このトレーニングデータの一部は、車両から捕捉されたデータから自動的に生成されるため、ロバストなトレーニングデータセットを構築するのに必要となる労力や時間が大幅に削減されている。いくつかの実施形態では、このデータのフォーマットは、デプロイした深層学習アプリケーションで使用される機械学習モデルと互換性がある。様々な実施形態では、このトレーニングデータは、トレーニング済みのモデルの精度を試験するための検証データを含む。いくつかの実施形態では、
図2のプロセスは、
図3の301で実行される。
【0045】
303で、機械学習モデルがトレーニングされる。例えば、301で作成されたデータを使用して、機械学習モデルがトレーニングされる。いくつかの実施形態では、本モデルは、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークである。様々な実施形態では、本モデルは複数の中間層を含む。いくつかの実施形態では、このニューラルネットワークは、複数の畳み込み層及びプーリング層を含む複数の層を含んでいてもよい。いくつかの実施形態では、このトレーニングモデルは、受信したセンサデータから作成される検証データセットを使用して検証される。いくつかの実施形態では、この機械学習モデルは、距離照射測定センサなどのセンサの出力を、単一の入力画像から予測するようにトレーニングされている。例えば、あるオブジェクトの距離属性及び方向属性は、あるカメラから捕捉される1つの画像から推論され得る。別の実施例として、車両が合流を試みているか否かを含む、周辺車両の速度ベクトルが、あるカメラから捕捉される1つの画像から予測される。
【0046】
305で、トレーニング済みの機械学習モデルがデプロイされる。例えば、このトレーニング済みの機械学習モデルは、
図1の深層学習ネットワーク107などの深層学習ネットワークに対する更新として、車両にインストールされる。いくつかの実施形態では、無線更新を使用して、新たにトレーニングされた機械学習モデルがインストールされる。例えば、
図1のネットワークインターフェース113などの車両のネットワークインターフェースを介して、無線更新が受信され得る。いくつかの実施形態では、この更新は、WiFiネットワーク又はセルラーネットワークなどの無線ネットワークを使用して送信される、ファームウェア更新である。いくつかの実施形態では、この新しい機械学習モデルは、車両の整備時にインストールされてもよい。
【0047】
307で、センサデータが受信される。例えば、センサデータは、車両の1つ又は複数のセンサから捕捉される。いくつかの実施形態では、このセンサは、
図1の視覚センサ101である。このセンサは、フロントガラスの後方に取り付けられる魚眼カメラ、ピラーに取り付けられる前方対面カメラ又は側方対面カメラ、後方対面カメラなどの画像センサを含んでいてもよい。様々な実施形態では、センサデータは、303でトレーニングされた機械学習モデルが入力データとして利用するフォーマットであるか、又はそのフォーマットに変換されている。例えば、このセンサデータは、生画像データ又は被処理画像データであってもよい。いくつかの実施形態では、このセンサデータは、プリプロセッシングステップ中に、
図1の画像プリプロセッサ105などの画像プリプロセッサを使用して前処理される。例えば、この画像は、歪み、ノイズなどを除去するために正規化されてもよい。いくつかの代替実施形態では、ここでの受信センサデータは、超音波センサ、レーダセンサ、LiDARセンサ、マイクロフォン、又は他の適切な技術から捕捉されるデータであり、305でデプロイされたトレーニング済みの機械学習モデルに対する入力データ候補として、このデータが使用されている。
【0048】
309で、トレーニング済みの機械学習モデルが適用される。例えば、303でトレーニングされた機械学習モデルは、307で受信されたセンサデータに適用される。いくつかの実施形態では、本モデルの適用は、
図1の深層学習ネットワーク107などの深層学習ネットワークを使用して、
図1のAIプロセッサ109などのAIプロセッサによって実行されている。様々な実施形態では、このトレーニング済みの機械学習モデルを適用することにより、オブジェクト距離、オブジェクト方向、及び/又はオブジェクト速度などの1つ又は複数のオブジェクト属性が、画像データから予測されている。例えば、画像データ内で異なるオブジェクトが特定されると、特定された各オブジェクトのオブジェクト距離及びオブジェクト方向が、トレーニング済みの機械学習モデルを使用して推論される。別の実施例として、画像データ内で特定されたある車両について、その車両の速度ベクトルが推論される。この速度ベクトルを使用して、周辺車両が現在の車線に割り込む可能性があるかどうか、及び/又は車両が安全性リスクとなる可能性があるかどうかが判定されてもよい。様々な実施形態では、車両、歩行者、障害物、車線、交通信号機、マップフィーチャ、制限速度、走行可能空間など及びそれらの関連属性は、本機械学習モデルを適用することによって特定されている。いくつかの実施形態では、これらのフィーチャは、三次元速度ベクトルなど、三次元で特定されている。
【0049】
311で、自動運転車両が制御される。例えば、1つ又は複数の自動運転機能は、車両の様々な態様を制御することによって実行される。こうした例には、車両の操舵、速度、加速度、及び/又は制動を制御すること、車線内の車両の位置を維持すること、他の車両及び/又は障害物に対する車両の位置を維持すること、乗員に通知又は警告を付与することなどが含まれていてもよい。309で実行された分析に基づいて、ある車両を2つの車線境界線間で、他のオブジェクトから安全な距離を置いて安全に維持するように、この車両の操舵及び速度が制御されてもよい。例えば、周辺オブジェクトまでの距離及び方向が予測され、それに対応する走行可能空間及び走行経路が特定される。様々な実施形態では、
図1の車両制御モジュール111などの車両制御モジュールが車両を制御している。
【0050】
図4は、自動運転に使用される機械学習モデルをトレーニングし、かつこれを適用するプロセスの一実施形態を示したフロー図である。いくつかの実施形態では、
図4のプロセスを用いて、自動運転に使用される機械学習モデルをトレーニングするためのセンサデータが収集かつ保持される。いくつかの実施形態では、
図4のプロセスは、自動運転制御が有効になっている否かにかかわらず、自動運転が利用可能な車両で実行されている。例えば、センサデータは、ある車両が人間の運転者によって運転されているか、かつ/又は車両が自動運転されている間であっても、自動運転が解除された直後の時点で収集され得る。いくつかの実施形態では、
図4によって説明している技法は、
図1の深層学習システムを使用して実行されている。いくつかの実施形態では、
図4のプロセスの一部は、自動運転に使用される機械学習モデルを適用するプロセスの一部として、
図3の307、309、及び/又は311で実行される。
【0051】
401で、センサデータが受信される。例えば、センサを備える車両がセンサデータを捕捉し、車両上で実行中のニューラルネットワークにこのセンサデータを供給している。いくつかの実施形態では、このセンサデータは、視覚データ、超音波データ、レーダデータ、LiDARデータ、又は他の適切なセンサデータであってもよい。例えば、ハイダイナミックレンジの前方対面カメラから画像が捕捉される。別の実施例として、側方対面超音波センサから超音波データが捕捉される。いくつかの実施形態では、データを捕捉する複数のセンサが車両に取り付けられている。例えば、いくつかの実施形態では、8台のサラウンドカメラが車両に取り付けられ、これらのカメラが、車両の周囲360度の視界を最大250メートルまでの範囲でもたらしている。いくつかの実施形態では、カメラセンサは、広角前方カメラ、狭角前方カメラ、後方視認カメラ、前方視サイドカメラ、及び/又は後方視サイドカメラを含む。いくつかの実施形態では、超音波センサ及び/又はレーダセンサを使用して、周辺環境の詳細が捕捉されている。例えば、12台の超音波センサを車両に取り付けることにより、硬質のオブジェクトと軟質のオブジェクトとの両方が検出されてもよい。
【0052】
様々な実施形態では、異なるセンサから捕捉されるデータは、捕捉されたメタデータと関連付けられることにより、異なるセンサから捕捉されるデータが共に関連付けられるようにしている。例えば、方向、視野、フレームレート、解像度、タイムスタンプ、及び/又は他の捕捉メタデータがセンサデータと共に受信される。車両の周辺環境がより一層捕捉しやすくなるように、このメタデータを使用して、異なるフォーマットのセンサデータが互いに関連付けられ得る。いくつかの実施形態では、このセンサデータには、車両の位置、方位、位置の変化、及び/又は方位の変化などを含む、オドメトリデータが含まれる。例えば、位置データが捕捉され、次いで、同じ時間フレーム中に捕捉された他のセンサデータと関連付けられる。一実施例として、画像データの捕捉時に捕捉された位置データを使用して、位置情報と画像データとが関連付けられる。様々な実施形態では、受信センサデータは深層学習分析を目的として供給されている。
【0053】
403で、センサデータが前処理される。いくつかの実施形態では、このセンサデータに対して1つ又は複数の前処理パスが実行されてもよい。例えば、このデータは、ノイズを除去して、アライメントの問題及び/又はぼやけなどを補正するために前処理されてもよい。いくつかの実施形態では、1つ又は複数の異なるフィルタリングパスがこのデータに対して実行される。例えば、センサデータの個々の成分を分離するために、そのデータに対してハイパスフィルタが実行されてもよいし、またそのデータに対してローパスフィルタが実行されてもよい。様々な実施形態では、403で実行されるプリプロセッシングステップは任意選択のものであり、かつ/又はニューラルネットワークに組み込まれていてもよい。
【0054】
405で、センサデータの深層学習分析が開始される。いくつかの実施形態では、この深層学習分析は、401で受信され、403で必要に応じて前処理されたセンサデータに対して実行される。様々な実施形態では、この深層学習分析は、畳み込みニューラルネットワーク(CNN)などのニューラルネットワークを使用して実行される。様々な実施形態では、本機械学習モデルは、
図3のプロセスを用いてオフラインでトレーニングされ、センサデータに対する推論を実行するために車両にデプロイされる。例えば、本モデルは、距離、方向、及び/又は速度などのオブジェクト属性を予測するようにトレーニングされてもよい。いくつかの実施形態では、本モデルは、歩行者、移動車両、駐車車両、障害物、車線境界線、走行可能空間などを必要に応じて特定するようにトレーニングされている。いくつかの実施形態では、画像データ内で特定されたオブジェクトごとにバウンディングボックスが指定され、特定されたオブジェクトごとに距離及び方向が予測される。いくつかの実施形態では、これらのバウンディングボックスは、直方体などの三次元バウンディングボックスである。このバウンディングボックスは、特定されたオブジェクトの外面の輪郭を描画しており、そのオブジェクトのサイズに基づいて調整されてもよい。例えば、サイズの異なる車両は、サイズの異なるバウンディングボックス(又は直方体)を使用して表されている。いくつかの実施形態では、深層学習分析によって推定されるオブジェクト属性は、センサによって測定されて、センサデータとして受信された属性と比較される。様々な実施形態では、ニューラルネットワークは1つ又は複数の中間層を含む複数の層を含み、かつ/又は1つ又は複数の異なるニューラルネットワークを使用して、センサデータが分析される。様々な実施形態では、センサデータ及び/又は深層学習分析の結果は保持されて、トレーニングデータの自動生成が行われるように411で送信される。
【0055】
様々な実施形態では、この深層学習分析を使用して、追加のフィーチャが予測される。ここで予測されたフィーチャを使用して、自動運転が支援されてもよい。例えば、車線又は道路に対して、検出車両が割り当てられ得る。別の実施例として、検出車両は死角にある車両として、又は優先されるべき車両として、若しくは左隣車線にある車両として、あるいは右隣車線にある車両として、又は別の適切な属性を有する車両として判定され得る。同様に、深層学習分析では、信号機、走行可能空間、歩行者、障害物、又は運転に関する他の適切なフィーチャを特定することができる。
【0056】
407で、深層学習分析の結果が車両制御に対して付与される。例えば、これらの結果は、自動運転を行う車両を制御するため、かつ/又は自動運転機能を実行するために、車両制御モジュールに付与される。いくつかの実施形態では、405での深層学習分析の結果は、1つ又は複数の異なる機械学習モデルを使用して、1つ又は複数の追加の深層学習パスに通される。例えば、特定されたオブジェクト及びそれらの属性(例えば、距離、方向など)を使用して、走行可能空間が指定されてもよい。次いで、この走行可能空間を使用して、車両の走行可能経路が指定される。同様に、いくつかの実施形態では、車両の予測速度ベクトルが検出される。この予測速度ベクトルに少なくとも部分的に基づいて指定される車両の経路を使用して、割込みが予測され、かつ潜在的な衝突が回避される。いくつかの実施形態では、深層学習による様々な出力結果を使用して、自動運転を行う車両の三次元表現が構築され、この三次元表現には、制限速度、回避すべき障害物、道路状況を含む特定されたオブジェクト、この特定されたオブジェクトまでの距離及び方向、車両の予測経路、特定された交通信号機などが含まれる。いくつかの実施形態では、車両制御モジュールはこれらの判明結果を使用して、指定された経路に沿って車両を制御している。いくつかの実施形態では、この車両制御モジュールは、
図1の車両制御モジュール111である。
【0057】
409で、車両が制御される。いくつかの実施形態では、自動運転が有効になった車両は、
図1の車両制御モジュール111などの車両制御モジュールを使用して制御されている。この車両制御により、例えば、ある車両が他の車両から安全な距離を置き、かつ車両の周辺環境を考慮した適切な速度で一車線内に維持されるように、車両の速度及び/又は操舵が調整され得る。いくつかの実施形態では、これらの結果を使用して、周辺車両が同じ車線に合流すると見越した調整が車両になされる。様々な実施形態では、車両制御モジュールが、深層学習分析の結果を使用して、例えば適切な速度で指定された経路に沿って車両を運転させるような適切な方法を決定する。様々な実施形態では、速度の変化、制動の印加、操舵の調整などの車両制御による結果が保持され、かつトレーニングデータの自動生成に使用される。様々な実施形態では、これらの車両制御パラメータは保持されて、トレーニングデータが自動生成されるように、411で送信されてもよい。
【0058】
411で、センサデータ及び関連データが送信される。例えば、401で受信したセンサデータは、トレーニングデータが自動生成されるように、405での深層学習分析の結果及び/又は409で使用される車両制御パラメータと共に、コンピュータサーバへと送信される。いくつかの実施形態では、このデータは時系列データであり、これらの様々に収集されたデータは、リモート・トレーニング・コンピュータ・サーバによって共に関連付けられる。例えば、距離データ、方向データ、及び/又は速度データなどの補助センサデータに画像データを関連付けることにより、グランドトゥルースが生成される。様々な実施形態では、これらの収集データは、例えばWiFi接続又はセルラー接続を介して、車両からトレーニングデータセンターへと無線で送信される。いくつかの実施形態では、センサデータと共にメタデータが送信される。例えば、メタデータは、時刻、タイムスタンプ、位置、車両の種類、速度、加速度、制動、自動運転が有効になっていたかどうか、操舵角、オドメトリデータなどの車両制御及び/又は動作パラメータを含んでいてもよい。追加のメタデータは、直近のセンサデータが送信されてからの時間、車両の種類、気象状況、道路状況などを含む。いくつかの実施形態では、この送信データは、例えば車両の一意識別子を削除することによって匿名化されている。別の実施例として、類似の車両モデルから得たデータは、個々のユーザ及びユーザによる車両の使用が特定されないようにマージされている。
【0059】
いくつかの実施形態では、このデータは、トリガへの応答時にのみ送信される。例えば、いくつかの実施形態では、不正確な予測が行われると、深層学習ネットワークの予測を改善する例をキュレートしたセットを作成するために、データを自動的に収集するように画像センサデータ及び補助センサデータの送信がトリガされる。例えば、車両までの距離及び方向を推定するために、画像データのみを使用して405で実行される予測は、この予測を照射による距離測定センサからの距離データと比較することにより、不正確であると判定される。この予測と実際のセンサデータとがある閾値を超えて異なる場合、画像センサデータ及び関連補助データが送信され、トレーニングデータを自動的に生成するために使用される。いくつかの実施形態では、このトリガを使用して、急カーブ、道路の分岐点、車線合流点、急停止、交差点、又は、追加のトレーニングデータが有用であり、収集するのが困難となり得る別の適切なシナリオなど、個々のシナリオが特定されてもよい。例えば、あるトリガは、自動運転機能の突然の停止又は解除に基づき得る。別の実施例として、速度の変化又は加速度の変化などの車両動作特性が、トリガのベースを形成している可能性がある。いくつかの実施形態では、特定の閾値未満の精度で予測されると、センサデータ及び関連補助データの送信がトリガされる。例えば、特定のシナリオでは、ある予測はブール値の真偽の結果を有しないため、代わりにその予測の精度値を求めることによって評価されている。
【0060】
様々な実施形態では、これらのセンサデータ及び関連補助データは一定期間にわたって捕捉され、時系列データ全体がまとめて送信される。この時間間隔は、車両の速度、移動した距離、速度の変化などの1つ又は複数の要因に基づいて設定されていてもよく、かつ/又は基づいていてもよい。いくつかの実施形態では、捕捉されるセンサデータ及び/又は関連補助データのサンプリングレートは設定可能である。例えば、このサンプリングレートは急ブレーキ時、急加速時、急操舵時、又はさらなる再現性が必要となる別の適切なシナリオにおいて高くより高速になる。
【0061】
図5は、機械学習ネットワークをトレーニングするための、補助センサデータを捕捉する例を示した図である。図示の例では、自動運転車両501はセンサ503及び553を少なくとも備え、また、周辺車両511、521、及び561のオブジェクト属性を測定するために使用されるセンサデータを捕捉している。いくつかの実施形態では、ここで捕捉されるセンサデータは、自動運転車両501にインストールされた、
図1の深層学習システム100などの深層学習システムを使用して、捕捉かつ処理されている。いくつかの実施形態では、センサ503及び553は、
図1の追加センサ103である。いくつかの実施形態では、ここで捕捉されるデータは、
図2の203で受信した視覚データ及び/又は
図4の401で受信したセンサデータの一部に関連するデータである。
【0062】
いくつかの実施形態では、自動運転車両501のセンサ503及び553は、レーダセンサ、超音波センサ、及び/又はlidarセンサなどの照射による距離測定センサである。センサ503は前方対面センサであり、センサ553は右側方対面センサである。後方対面センサ及び左側方対面センサ(図示せず)などの追加センサが、自動運転車両501に取り付けられてもよい。長い点線矢印で示している軸線505及び507は、自動運転車両501の基準軸線であり、センサ503及び/又はセンサ553を使用して捕捉されるデータの基準軸線として使用されてもよい。図示の実施例では、軸線505及び507は、センサ503及び自動運転車両501の前方の中心にある。いくつかの実施形態では、属性を三次元で追跡するために、追加の高さ軸線(図示せず)が使用されている。様々な実施形態では、別の軸線が使用されてもよい。例えば、この基準軸線は、自動運転車両501の中心であってもよい。いくつかの実施形態では、センサ503及び553の各センサは、それ自体の基準軸線及び座標系を使用していてもよい。センサ503及び553のそれぞれのローカル座標系を使用して捕捉かつ分析されるデータは、異なるセンサから捕捉されるデータが、同じ基準フレームを使用して共有され得るように、自動運転車両501のローカル(又はワールド)座標系に変換されてもよい。
【0063】
図示の実施例では、センサ503及び553の視野509並びに559をそれぞれ、点線矢印の間にある点線円弧によって示している。図示している視野509及び559は、センサ503及び553によってそれぞれ測定される領域の俯瞰視野を示している。視野509内のオブジェクトの属性は、センサ503によって捕捉されてもよく、視野559内のオブジェクトの属性は、センサ553によって捕捉されてもよい。例えば、いくつかの実施形態では、視野509内のオブジェクトまでの距離測定値、方向測定値、及び/又は速度測定値は、センサ503によって捕捉されている。図示の実施例では、センサ503は、周辺車両511及び521までの距離及び方向を捕捉している。センサ503は周辺車両561を測定しておらず、これはなぜなら、この周辺車両561が、視野領域509の外側にあるためである。代わりに、周辺車両561までの距離及び方向は、センサ553によって捕捉されている。様々な実施形態では、1つのセンサによって捕捉されていないオブジェクトは、車両内の別のセンサによって捕捉されてもよい。センサ503及び553のみを有する状態で
図5に示しているが、自動運転車両501には、車両の周囲360度の視界をもたらす複数のサラウンドセンサ(図示せず)が装備されていてもよい。
【0064】
いくつかの実施形態では、センサ503及び553は、距離測定値及び方向測定値を捕捉している。距離ベクトル513は、周辺車両511までの距離及び方向を示しており、距離ベクトル523は、周辺車両521までの距離及び方向を示しており、また距離ベクトル563は、周辺車両561までの距離及び方向を示している。様々な実施形態では、捕捉される実際の距離値及び方向値は、センサ503及び553によって検出される外面に対応する値のセットである。図示の実施例では、各周辺車両について測定される距離及び方向のセットは、距離ベクトル513、523、及び563により近似されるものとなる。いくつかの実施形態では、センサ503及び553は、それぞれの視野509及び559内にあるオブジェクトの速度ベクトル(図示せず)を検出している。いくつかの実施形態では、これらの距離ベクトル及び速度ベクトルは、三次元ベクトルである。例えば、これらのベクトルは、高さ(又は標高)成分(図示せず)を含む。
【0065】
いくつかの実施形態では、検出された周辺車両511、521、及び561を含む検出オブジェクトを、バウンディングボックスで近似している。これらのバウンディングボックスで、検出オブジェクトの外側を近似している。いくつかの実施形態では、これらのバウンディングボックスは、直方体などの三次元バウンディングボックス、又は検出オブジェクトの別の立体表現である。
図5の実施例では、これらのバウンディングボックスを、周辺車両511、521、及び561の周囲の長方形として示している。様々な実施形態では、自動運転車両501からの距離及び方向は、バウンディングボックスの縁部(又は表面)上の各点に対して測定され得る。
【0066】
様々な実施形態では、距離ベクトル513、523、及び563は、同じ時点で捕捉される視覚データに関連するデータである。距離ベクトル513、523、及び563を使用して、対応する視覚データで特定された周辺車両511、521、及び561までの距離及び方向がアノテートされている。例えば、距離ベクトル513、523、及び563は、周辺車両511、521、及び561を含むトレーニング画像をアノテートするためのグランドトゥルースとして使用されてもよい。いくつかの実施形態では、
図5の捕捉されたセンサデータに対応するトレーニング画像は、視野が重複しているセンサから捕捉され、かつマッチング時間に捕捉されたデータを利用している。例えば、トレーニング画像が、周辺車両511及び521のみを捕捉しているが、周辺車両561は捕捉していない前方対面カメラから捕捉される画像データである場合、周辺車両511及び521のみがトレーニング画像において特定され、それらまでの対応する距離及び方向がアノテートされる。同様に、周辺車両561を捕捉する右側方画像には、周辺車両561のみまでの距離及び方向に対するアノテーションが含まれている。様々な実施形態では、アノテートされたオブジェクト属性を予測するように機械学習モデルをトレーニングするために、アノテートされたトレーニング画像がトレーニングサーバへと送信される。いくつかの実施形態では、
図5の捕捉されたセンサデータ及び対応する視覚データはトレーニングプラットフォームに送信され、ここでこれらのデータが分析され、トレーニング画像が選択され、かつアノテートされる。例えば、ここで捕捉されるデータは時系列データであってもよく、この時系列が分析されて、視覚データ内で特定されたオブジェクトに関連データが関連付けられる。
【0067】
図6は、オブジェクト属性を予測する例を示した図である。図示の例では、分析された視覚データ601は、ある自動運転車両の前方対面カメラなどの視覚センサから捕捉される画像データの視野を表す。いくつかの実施形態では、視覚センサは、
図1の視覚センサ101のうちの1つである。いくつかの実施形態では、車両の前方環境は、
図1の深層学習システム100などの深層学習システムを使用して、捕捉かつ処理されている。様々な実施形態では、
図6に示すプロセスは、
図3の307、309、及び/又は311、並びに/又は
図4の401、403、405、407、及び/又は409で実行されている。
【0068】
図示の実施例では、分析された視覚データ601は、ある自動運転車両の前方対面環境を捕捉したものである。分析された視覚データ601は、検出車両の車線境界線603、605、607、及び609を含む。いくつかの実施形態では、これらの車線境界線は、運転機能を特定するようにトレーニングされた、
図1の深層学習システム100などの深層学習システムを使用して特定されている。分析された視覚データ601は、検出オブジェクトに対応するバウンディングボックス611、613、615、617、及び619を含む。様々な実施形態では、バウンディングボックス611、613、615、617、及び619によって表される検出オブジェクトは、捕捉された視覚データを分析することによって特定されている。捕捉された視覚データをトレーニング済みの機械学習モデルへの入力データとして使用して、検出オブジェクトまでの距離及び方向などのオブジェクト属性が予測される。いくつかの実施形態では、速度ベクトルが予測される。図示の実施例では、バウンディングボックス611、613、615、617、及び619における検出オブジェクトは、周辺車両に対応している。バウンディングボックス611、613、及び617は、車線境界線603及び605によって画定された車線内の車両に対応している。バウンディングボックス615及び619は、車線境界線607及び609によって画定された合流車線内の車両に対応している。いくつかの実施形態では、バウンディングボックスを使用して、検出オブジェクトが三次元バウンディングボックス(図示せず)であることが表されている。
【0069】
様々な実施形態では、バウンディングボックス611、613、615、617、及び619について予測されるオブジェクト属性は、
図2~
図4のプロセスを用いてトレーニングされた機械学習モデルを適用することによって予測される。ここで予測されるオブジェクト属性は、
図5の図に示すように、補助センサを使用して捕捉されてもよい。
図5及び
図6は異なる運転シナリオを示しているが、
図5は
図6と比較して、検出されたオブジェクトの数が異なっており、かつこれらが異なる位置にあることを示しており、また、トレーニング済みの機械学習モデルは、十分なトレーニングデータでトレーニングされている場合に、
図6のシナリオで検出されるオブジェクトのオブジェクト属性を正確に予測することができる。いくつかの実施形態では、距離及び方向が予測される。いくつかの実施形態では、速度が予測される。ここで予測される属性は、二次元又は三次元で予測されてもよい。
図1~
図6に関して説明したプロセスを用いてトレーニングデータの生成を自動化することにより、正確な予測を行うためのトレーニングデータが、効率的かつ適切な方法で生成される。いくつかの実施形態では、特定されたオブジェクト及び対応する属性を使用して、ある車両の自動運転又は運転者支援動作などの自動運転機能が実行され得る。例えば、ある車両を2つの車線境界線間で、他のオブジェクトから安全な距離を置いて安全に維持するように、この車両の操舵及び速度が制御されてもよい。
【0070】
前述の実施形態について、明確に理解できるようにするために、ある程度詳細に説明してきたが、本発明は示している詳細事項に限定されない。本発明を実施する多くの代替方法が存在する。開示している実施形態は例示的なものであり、限定的なものではない。
【国際調査報告】