(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-04
(54)【発明の名称】シミュレートコンテンツを用いた視覚に基づくシステムの訓練
(51)【国際特許分類】
G06V 20/56 20220101AFI20240927BHJP
G08G 1/16 20060101ALI20240927BHJP
【FI】
G06V20/56
G08G1/16 A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024509356
(86)(22)【出願日】2022-08-18
(85)【翻訳文提出日】2024-03-14
(86)【国際出願番号】 US2022040784
(87)【国際公開番号】W WO2023023265
(87)【国際公開日】2023-02-23
(32)【優先日】2021-08-19
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】510192916
【氏名又は名称】テスラ,インコーポレイテッド
(74)【代理人】
【識別番号】110000659
【氏名又は名称】弁理士法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】デュアン,フィル
(72)【発明者】
【氏名】リー,フィリップ
(72)【発明者】
【氏名】デサイ,ニシャント
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181BB04
5H181BB20
5H181CC04
5H181FF04
5H181LL01
5H181LL02
5H181LL09
5H181MC19
5L096AA06
5L096BA04
5L096CA05
5L096DA02
5L096FA67
5L096FA69
5L096KA04
(57)【要約】
本出願の態様は、視覚システムのみに基づく処理を有する車両で利用するための機械学習アルゴリズムを生成又は訓練するための、組み合わされた入力のセットの利用に対応する。ネットワークサービスは、第1の時点でキャプチャされた視覚システムデータを含む入力の第1のセット(例えば、第1のデータセット)をターゲット車両から受信することができる。ネットワークサービスは、第2の時点でキャプチャされた視覚システムデータを含む入力の第2のセット(例えば、第2のデータセット)をターゲット車両から受信することができる。第2の時点は、第1の時点の後である。次いで、グラウンドトゥルースラベル及び値の第2のセットに基づいて、ネットワークサービスは、グラウンドトゥルースラベル及び値の第1のセットに対するラベル及び関連する値を判定又は導出することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
車両内の視覚システムを管理するためのシステムであって、
少なくとも1つの機械学習アルゴリズムに従って1つ以上の視覚システムからキャプチャされた視覚データを生成及び処理するためのシステムを含む複数の車両であって、1つ以上の視覚システムからキャプチャされた前記視覚データが、グラウンドトゥルースラベルに関連付けられる、複数の車両と、
前記複数の車両による実行のための前記少なくとも1つの機械学習アルゴリズムを生成するように動作する視覚システム情報処理構成要素を実装するために、コンピュータ実行可能命令を実行する、処理デバイス及びメモリを含む1つ以上のコンピューティングシステムであって、前記少なくとも1つの機械学習アルゴリズムは、セットされた訓練データから生成される、1つ以上のコンピューティングシステムと、
コンピュータ実行可能命令を実行する、処理デバイス及びメモリを含む1つ以上のコンピューティングシステムと、を備え、前記コンピュータ実行可能命令が、
車両の動作においてキャプチャされた画像に関連付けられた第1の視覚システムキャプチャ情報を取得するステップであって、前記第1の視覚システムキャプチャ情報が、第1の時間インスタンスに関連付けられる、取得するステップと、
前記車両の前記動作においてキャプチャされた画像に関連付けられた第2の視覚システムキャプチャ情報を取得するステップであって、前記第2の視覚システムキャプチャ情報が、第2の時間インスタンスに関連付けられ、前記第2の時間インスタンスが、前記第1の時間インスタンスの後である、取得するステップと、
前記第2の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値を取得するステップと、
前記第2の視覚システムキャプチャ情報に関連付けられた前記取得されたグラウンドトゥルースデータラベル及び値に基づいて、前記第1の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値を判定すること又は更新することのうちの少なくとも1つを行うステップと、
前記第1の時間インスタンス及び前記第2の時間インスタンスに対するグラウンドトゥルースラベル及び値のセットを記憶するステップと、を行うように動作する視覚システム処理サービスを実装するためのものである、システム。
【請求項2】
前記第1のグラウンドトゥルースデータラベル及び値並びに前記第2のグラウンドトゥルースデータラベル及び値が、速度に対応する、請求項1に記載のシステム。
【請求項3】
前記第1のグラウンドトゥルースデータラベル及び値並びに前記第2のグラウンドトゥルースデータラベル及び値が、ヨーに対応する、請求項1に記載のシステム。
【請求項4】
前記第1のグラウンドトゥルースデータラベル及び値並びに前記第2のグラウンドトゥルースデータラベル及び値が、検出されたオブジェクトの位置に対応する、請求項1に記載のシステム。
【請求項5】
前記視覚システム処理サービスが、前記第2の視覚システムキャプチャ情報に関連付けられた前記グラウンドトゥルースデータラベル及び値を取得する前に、前記第1の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値の初期セットを判定するように動作する、請求項1に記載のシステム。
【請求項6】
前記視覚システム処理サービスが、前記第2の視覚システムキャプチャ情報に関連付けられた前記グラウンドトゥルースデータラベル及び値を判定するように動作する、請求項1に記載のシステム。
【請求項7】
車両内の視覚システムを管理するための方法であって、前記システムが、
車両の動作においてキャプチャされた画像に関連付けられた第1の視覚システムキャプチャ情報を取得することであって、前記第1の視覚システムキャプチャ情報が、第1の時間インスタンスに関連付けられる、取得するステップと、
前記車両の前記動作においてキャプチャされた画像に関連付けられた第2の視覚システムキャプチャ情報を取得するステップであって、前記第2の視覚システムキャプチャ情報が、第2の時間インスタンスに関連付けられ、前記第2の時間インスタンスが、前記第1の時間インスタンスの後である、取得するステップと、
前記第2の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値を取得するステップと、
前記第2の視覚システムキャプチャ情報に関連付けられた前記取得されたグラウンドトゥルースデータラベル及び値に基づいて、前記第1の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値を判定すること又は更新することのうちの少なくとも1つを行うステップと、
前記第1の時間インスタンス及び前記第2の時間インスタンスに対するグラウンドトゥルースラベル及び値のセットを記憶するステップと、を含む、方法。
【請求項8】
前記第1のグラウンドトゥルースデータラベル及び値並びに前記第2のグラウンドトゥルースデータラベル及び値が、速度に対応する、請求項7に記載の方法。
【請求項9】
前記第1のグラウンドトゥルースデータラベル及び値並びに前記第2のグラウンドトゥルースデータラベル及び値が、ヨーに対応する、請求項7に記載の方法。
【請求項10】
前記第1のグラウンドトゥルースデータラベル及び値並びに前記第2のグラウンドトゥルースデータラベル及び値が、検出されたオブジェクトの位置に対応する、請求項7に記載の方法。
【請求項11】
前記第2の視覚システムキャプチャ情報に関連付けられた前記グラウンドトゥルースデータラベル及び値を取得する前に、前記第1の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値の初期セットを判定するステップを更に含む、請求項7に記載の方法。
【請求項12】
前記第2の視覚システムキャプチャ情報に関連付けられた前記グラウンドトゥルースデータラベル及び値を判定するステップを更に含む、請求項7に記載の方法。
【請求項13】
車両の前記動作においてキャプチャされた画像に関連付けられた第1の視覚システムキャプチャ情報を取得するステップであって、前記第1の視覚システムキャプチャ情報が、第1の時間インスタンスに関連付けられる、取得するステップと、前記車両の前記動作においてキャプチャされた画像に関連付けられた第2の視覚システムキャプチャ情報を取得するステップであって、前記第2の視覚システムキャプチャ情報が、第2の時間インスタンスに関連付けられ、前記第2の時間インスタンスが、前記第1の時間インスタンスの後である、取得するステップとが、キャプチャレートに基づく、請求項7に記載の方法。
【請求項14】
前記キャプチャレートが、24ヘルツである、請求項13に記載の方法。
【請求項15】
車両内の視覚システムを管理するための方法であって、前記システムが、
第1の視覚システムキャプチャ情報及び第2の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースラベル及び値を取得するステップであって、前記第1の視覚システムキャプチャ情報が、第1の時間インスタンスに関連付けられ、前記第2の視覚システムキャプチャ情報が、第2の時間インスタンスに関連付けられ、前記第2の時間インスタンスが、前記第1の時間インスタンスの後である、取得するステップと、
前記第2の視覚システムキャプチャ情報に関連付けられた前記取得されたグラウンドトゥルースデータラベル及び値に基づいて、前記第1の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値を更新するステップと、
前記第1の時間インスタンス及び前記第2の時間インスタンスに対するグラウンドトゥルースラベル及び値のセットを記憶するステップと、を含む、方法。
【請求項16】
前記第1のグラウンドトゥルースデータラベル及び値並びに前記第2のグラウンドトゥルースデータラベル及び値が、検出されたオブジェクトの速度、ヨー、又は位置のうちの少なくとも1つに対応する、請求項15に記載の方法。
【請求項17】
前記第2の視覚システムキャプチャ情報に関連付けられた前記グラウンドトゥルースデータラベル及び値を取得する前に、前記第1の視覚システムキャプチャ情報に関連付けられたグラウンドトゥルースデータラベル及び値の初期セットを判定するステップを更に含む、請求項15に記載の方法。
【請求項18】
前記第2の視覚システムキャプチャ情報に関連付けられた前記グラウンドトゥルースデータラベル及び値を判定するステップを更に含む、請求項15に記載の方法。
【請求項19】
車両の動作においてキャプチャされた画像に関連付けられた第1の視覚システムキャプチャ情報を取得するステップを更に含む、請求項15に記載の方法。
【請求項20】
前記車両の前記動作においてキャプチャされた画像に関連付けられた第2の視覚システムキャプチャ情報を取得するステップを更に含み、前記第2の視覚システムキャプチャ情報が、キャプチャレートに基づく、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2021年8月19日に出願された「ENHANCED SYSTEMS AND METHODS FOR AUTONOMOUS VEHICLE OPERATION AND TRAINING」と題する米国仮出願第63/260,439号及び2021年12月9日に出願された「ENHANCED SYSTEMS AND METHODS FOR AUTONOMOUS VEHICLE OPERATION AND TRAINING」と題する米国仮出願第63/287,936号の優先権を主張する。米国仮出願第63/260439号及び第63/287,936号は、参照により、その全体が本明細書に組み込まれる。
【背景技術】
【0002】
一般的に記載すると、コンピューティングデバイス及び通信ネットワークは、データ及び/又は情報を交換するために利用され得る。一般のアプリケーションでは、コンピューティングデバイスは、通信ネットワークを介して別のコンピューティングデバイスからコンテンツを要求することができる。例えば、コンピューティングデバイスは、様々なデータを収集し、ソフトウェアアプリケーションを利用して、ネットワーク(例えば、インターネット)を介してサーバコンピューティングデバイスとコンテンツを交換することができる。
【0003】
一般的に記載すると、電気自動車、内燃機関車両、ハイブリッド車両などの様々な車両は、車両の動作又は車両に含まれる1つ以上のシステムの管理を容易にするための様々なセンサ及び構成要素を用いて構成され得る。特定のシナリオでは、車両所有者又は車両ユーザは、センサに基づくシステムを利用して、車両の動作を容易にしたいことがある。例えば、車両は、多くの場合、場所サービスを容易にするか、又は場所サービスを提供するコンピューティングデバイスにアクセスすることができるハードウェア及びソフトウェア機能性を含むことができる。別の例では、車両はまた、車両の乗員及びユーザに提供されるナビゲーション又は方向情報に関連する情報を生成することができるナビゲーションシステム又はアクセスナビゲーション構成要素を含むことができる。更に、更なる例では、車両は、ナビゲーション及び場所サービス、安全サービス、又は他の動作サービス/構成要素を容易にするための視覚システムを含むことができる。
【0004】
本開示は、特定の実施形態の図面を参照して本明細書に記載され、これらの図面は、本開示を例示することを意図するが、本開示を限定することを意図するものではない。本明細書に組み込まれ、この一部を構成する添付の図面は、本明細書に開示される概念を例示する目的のためであり、縮尺通りではないことがあると理解されたい。
【図面の簡単な説明】
【0005】
【
図1】本出願の1つ以上の態様による、車両内の視覚システムのためのシミュレートコンテンツモデル及び訓練セットデータを生成するための例示的な環境のブロック図を描写する。
【0006】
【
図2A】本出願の1つ以上の態様による、車両に対応する環境を例示する。
【0007】
【
図2B】本出願の1つ以上の態様による、車両のための例示的な視覚システムである。
【0008】
【
図3】本出願の態様による、視覚情報処理構成要素を実装するための例示的なアーキテクチャを描写する。
【0009】
【
図4A】シミュレートモデルコンテンツに基づいた機械学習アルゴリズムのための視覚システム訓練データのセットの生成を例示した
図1の例示的な環境のブロック図である。
【
図4B】シミュレートモデルコンテンツに基づいた機械学習アルゴリズムのための視覚システム訓練データのセットの生成を例示した
図1の例示的な環境のブロック図である。
【0010】
【
図5】例示的な実施形態による、シミュレートコンテンツサービスによって実装されたシミュレートモデルコンテンツ生成ルーチンを例示するフロー図である。
【発明を実施するための形態】
【0011】
一般的に記載すると、本開示の1つ以上の態様は、車両内の視覚システムの構成及び実装態様に関する。例示的な例として、本出願の態様は、様々な動作機能のための視覚システムにのみ依存する車両で使用される機械学習アルゴリズムの構成及び訓練に関する。より具体的には、本出願の態様は、グラウンドトゥルースラベルの自動生成を容易にするためのキャプチャされた視覚システムデータのセットの利用に関する。例示的に、視覚のみのシステムは、レーダに基づくシステム、LIDARに基づくシステム、SONARシステムなどのような1つ以上の追加のセンサシステムと視覚に基づくシステムとを組み合わせ得る車両とは対照的である。
【0012】
視覚のみのシステムには、車両に搭載された複数のカメラを含むことができる視覚システムからのみ入力を処理することができる機械学習アルゴリズムを用いて構成され得る。機械学習アルゴリズムは、オブジェクトを識別し、車両に対して測定された位置、速度、加速度などの識別されたオブジェクトの特性/属性を指定する出力を生成することができる。次いで、機械学習アルゴリズムからの出力は、ナビゲーションシステム、場所システム、安全システムなどの更なる処理に利用され得る。
【0013】
本出願の態様によれば、ネットワークサービスは、機械学習アルゴリズムが、キャプチャされた視覚システム情報を含む訓練セット、並びに識別されたオブジェクト及び位置、速度、加速度などの指定された特性/属性を含むラベル付けされたデータで訓練される教師あり学習モデルに従って、機械学習アルゴリズムを構成することができる。訓練データセットの生成及び機械学習アルゴリズムを形成するための機械学習アルゴリズムの訓練に対する従来のアプローチは、多くの場合、キャプチャされた視覚システム情報のためのグラウンドトゥルースラベル及び関連する値の手動判定を必要とする。そのような手動アプローチは、キャプチャされた視覚システムデータが処理される大量の個別のキャプチャされたデータに対応することができる大規模な実装態様には好適ではない。キャプチャされた視覚システムデータのグラウンドトゥルースラベルデータを生成するための自動アプローチは、個別にキャプチャされた視覚システムフレーム(又はフレームのセット)内の、多くの場合、不完全又は曖昧な画像データに基づいて非効率的であり得る。例えば、キャプチャされた視覚システムデータの特定のフレームは、検出されたオブジェクト、及び測位(例えば、ヨー)、距離、速度などの属性値についての複数の潜在的な解釈を有してもよい。したがって、いくつかの自動システムは、オブジェクト及び関連する属性/値を確認又は識別するために、RADAR、LIDAR又は検出システムなどの追加のセンサ/入力の必要性を含むことができる。
【0014】
例示的に、ネットワークサービスは、第1の時点でキャプチャされた視覚システムデータを含む入力の第1のセット(例えば、第1のデータセット)をターゲット車両から受信することができる。次いで、ネットワークサービスは、キャプチャされた視覚システムデータに関連付けられたグラウンドトゥルースラベルデータを少なくとも処理して、グラウンドトゥルースラベル及び値の初期セットを判定する。ネットワークサービスは、第2の時点でキャプチャされた視覚システムデータを含む入力の第2のセット(例えば、第2のデータセット)をターゲット車両から受信することができる。第2の時点は、第1の時点の後である。次いで、ネットワークサービスは、キャプチャされた視覚システムデータに関連付けられたグラウンドトゥルースラベルデータを少なくとも処理して、グラウンドトゥルースラベル及び値の第2のセットを判定する。
【0015】
グラウンドトゥルースラベル及び値の第2のセットに基づいて、ネットワークサービスは、グラウンドトゥルースラベル及び値の第1のセットに対するラベル及び関連する値を判定することができる。より具体的には、ネットワークサービスは、後の時点で得られる既知のグラウンドトゥルースラベル及び値を利用して、より早い時点の視覚システムデータの処理が何であるべきかを判定又は更新することができる。例えば、複数の潜在的な方向属性(例えば、ヨーレート)に関連する第1のインスタンスにおけるグラウンドトゥルースデータは、適切な終了場所をもたらす適切なヨーレートに解決される。別の例では、検出されたオブジェクトに対する位置計算された値に関連するグラウンドトゥルースラベル値は、第2の時点における位置値の判定に基づいて解決され得る。
【0016】
例示的に、生成されたデータセットは、以前に収集されたグラウンドトゥルースデータ/視覚データを、視覚データの元々の処理から他の方法では利用できなかった可能性がある追加の情報又は属性/特性で補完することを可能にする。次いで、結果として生じる処理されたコンテンツ属性は、訓練データの後続の生成のための基礎を形成することができる。次いで、ネットワークサービスは、視覚データの完全なセット及びデータラベルを有する生成されたコンテンツを処理することができる。その後、ネットワークサービスは、組み合わされたデータセットに対する訓練に基づいて、更新された機械学習アルゴリズムを生成する。訓練済機械学習アルゴリズムは、視覚のみに基づいた車両に送信され得る。
【0017】
様々な態様は、例示的な実施形態及び特徴の組み合わせにより記載されているが、当業者は、例示及び特徴の組み合わせが本質的に例示的であり、限定として解釈されるべきではないと理解するであろう。より具体的には、本出願の態様は、組み合わせエンジン、ハイブリッドエンジン、電気エンジンなどのような異なる推進システムを有する車両を含む様々なタイプの車両に適用可能であってもよい。更に、本出願の態様は、異なるタイプのセンサ、感知システム、ナビゲーションシステム、又は場所システムを組み込むことができる様々なタイプの車両に適用可能であってもよい。したがって、例示的な例は、限定するものとして解釈されるべきではない。同様に、本出願の態様は、自律運転アプリケーション、運転者の利便性アプリケーションなどを含む、車両の動作を容易にし得る他のタイプの構成要素と組み合わされるか、又はそれらとともに実装されてもよい。
【0018】
図1は、本出願の1つ以上の態様による、車両内の視覚システムのためのシミュレートコンテンツモデル及び訓練セットデータを生成するための例示的な環境100のブロック図を描写する。システム100は、ネットワークを備えることができ、車両102のセット、1つ以上の追加のクライアントデバイス104、及びネットワークサービス110を接続している。例示的に、ネットワークサービス110に関連付けられた様々な態様は、1つ以上の機能又はサービスに関連付けられた1つ以上の構成要素として実装され得る。構成要素は、別個のスタンドアロンの外部コンピューティングデバイスであってもよい1つ以上の外部コンピューティングデバイスによって実装又は実行されるソフトウェアモジュールに対応してもよい。したがって、ネットワークサービス110の構成要素は、1つ以上の外部コンピューティングデバイス上の任意の特定の実装態様を必要としないサービスの論理的表現としてみなされるべきである。
【0019】
図1に描写されるように、ネットワーク106は、システムのデバイス及びモジュールを接続する。ネットワークは、任意の数のデバイスを接続することができる。いくつかの実施形態では、ネットワークサービスプロバイダは、ネットワークを介してクライアントデバイスにネットワークに基づくサービスを提供する。ネットワークサービスプロバイダは、ネットワークに基づくサービスを実装し、仮想化されるか、又はベアメタルであり得るネットワークアクセス可能なコンピューティングリソース(コンピューティング、ストレージ、又はネットワークリソース、アプリケーション、又はサービスなど)の大規模な共有プールを指す。ネットワークサービスプロバイダは、顧客コマンドに応答してプログラム的にプロビジョニングされ、かつ解放され得る構成可能なコンピューティングリソースの共有プールへのオンデマンドネットワークアクセスを提供することができる。これらのリソースは、可変負荷に調整するために動的にプロビジョニング及び再構成され得る。したがって、「クラウドコンピューティング」又は「ネットワークに基づくコンピューティング」の概念は、ネットワークを介してサービスとして配信されるアプリケーションと、それらのサービスを提供するネットワークサービスプロバイダのハードウェア及びソフトウェアとの両方としてみなされ得る。いくつかの実施形態では、ネットワークは、コンテンツ配信ネットワークであってもよい。
【0020】
例示的に、車両102のセットは、オブジェクトを識別し、識別されたオブジェクトの1つ以上の属性を特徴付けるための視覚のみに基づくシステムを用いて構成された1つ以上の車両に対応する。車両102のセットは、教師あり学習モデルを実装した機械学習アルゴリズムなどの機械学習アルゴリズムを用いて構成されており、これは、視覚システム入力のみを利用してオブジェクトを識別し、位置、速度、及び加速度属性などの識別されたオブジェクトの属性を特徴付けるように構成されている。車両102のセットは、レーダ検出システム、LIDAR検出システムなどの任意の追加の検出システムを用いずに構成されてもよい。
【0021】
例示的に、ネットワークサービス110は、本出願の態様に適用されるような、視覚のみに基づくシステムのための機械学習アルゴリズムのための構成/要求に応答して機能性を提供することができる複数のネットワークに基づくサービスを含むことができる。
図1に例示されるように、ネットワークに基づくサービス110は、車両102からデータセットを取得し、データセットを処理して機械学習アルゴリズムのための訓練材料を形成し、視覚のみに基づく車両102のための機械学習アルゴリズムを生成することができる視覚情報処理構成要素112を含むことができる。ネットワークに基づくサービスは、車両データストア114及び機械学習アルゴリズムデータストア116を含む、本出願の態様に関連付けられた様々な情報を維持するための複数のデータストアを含むことができる。
図1のデータストアは、本質的に論理的であり、様々な方式でネットワークサービス110に実装され得る。
【0022】
例示の目的のために、
図2Aは、本出願の1つ以上の態様による、車両102に対応する環境を例示する。環境は、本明細書に記載されるように、車両の動作又は情報の収集のための入力を提供することができるローカルセンサ入力の集合を含む。ローカルセンサの集合は、車両に含まれるか、又は他の方法で動作中に車両によってアクセス可能な1つ以上のセンサ又はセンサに基づくシステムを含むことができる。ローカルセンサ又はセンサシステムは、車両に統合されてもよい。代替的に、ローカルセンサ又はセンサシステムは、物理接続、無線接続、又はそれらの組み合わせなど、車両に関連付けられたインターフェースによって提供されてもよい。
【0023】
一態様では、ローカルセンサは、オブジェクトの検出、検出されたオブジェクトの属性(例えば、位置、速度、加速度)、環境条件(例えば、雪、雨、氷、霧、煙など)の存在などの車両に入力を提供する視覚システムを含むことができる。視覚システムを形成するために車両に搭載されたカメラの例示的な集合は、
図2Bに関して記載される。前述のように、車両102は、他の従来の検出システムからの支援を用いずに、又はその代わりに、定義された車両動作機能のためにそのような視覚システムに依存する。
【0024】
また別の態様では、ローカルセンサは、車両の測位情報を判定する際に様々なレベルの精度を可能にする外部ソースから参照情報を取得することができる1つ以上の測位システムを含むことができる。例えば、測位システムは、GPSソース、無線ローカルエリアネットワーク(WLAN)アクセスポイント情報源、Bluetooth情報源、無線周波数識別(RFID)源などからの情報を処理するための様々なハードウェア及びソフトウェア構成要素を含むことができる。いくつかの実施形態では、測位システムは、複数のソースから情報の組み合わせを取得することができる。例示的に、測位システムは、様々な入力源から情報を取得し、車両の測位情報、具体的には、現在の場所における標高を判定することができる。他の実施形態では、測位システムはまた、移動方向、速度、加速度などの移動関連動作パラメータを判定することができる。測位システムは、自動運転アプリケーション、強化された運転又はユーザ支援ナビゲーションなどを含む複数の目的のために車両の一部として構成されてもよい。例示的に、測位システムは、様々な車両パラメータ又はプロセス情報の識別を容易にする処理構成要素及びデータを含むことができる。
【0025】
更に別の態様では、ローカルセンサは、ナビゲーション関連情報を識別するための1つ以上のナビゲーションシステムを含むことができる。例示的に、ナビゲーションシステムは、測位システムから測位情報を取得し、標高、道路勾配などの識別された場所に関する特性又は情報を識別することができる。ナビゲーションシステムはまた、車両ユーザに提供又は予想されている方向に基づいて、多車線道路内の提案された又は意図された車線の場所を識別することができる。場所システムと同様に、ナビゲーションシステムは、自動運転アプリケーション、強化された運転又はユーザ支援ナビゲーションなどを含む複数の目的のために車両の一部として構成されてもよい。ナビゲーションシステムは、測位システムと組み合わされるか、又は統合されてもよい。例示的に、測位システムは、様々な車両パラメータ又はプロセス情報の識別を容易にする処理構成要素及びデータを含むことができる。
【0026】
ローカルリソースは、車両又は車両によってアクセス可能なコンピューティングデバイス(例えば、モバイルコンピューティングデバイス)上でホストされ得る1つ以上の処理構成要素214を更に含む。処理構成要素は、例示的に、様々なローカルセンサ又はセンサシステムからの入力にアクセスし、本明細書に記載されるように入力されたデータを処理することができる。本出願の目的のために、処理構成要素は、例示的な態様に関連する1つ以上の機能に関して記載される。例えば、車両102内の処理構成要素は、収集された視覚情報に対応する第1のデータセットを収集し、送信する。
【0027】
環境は更に、動作状態のうちの1つ以上に従って使用するための様々な動作パラメータに関する情報を提供するように動作可能な様々な追加のセンサ構成要素又は感知システムを含むことができる。環境は、通信出力を介したデータの送信、メモリ内のデータの生成、他の処理構成要素への出力の送信などの出力を処理するための1つ以上の制御構成要素を更に含むことができる。
【0028】
ここで
図2Bを参照すると、車両のための例示的な視覚システム200が記載される。視覚システム200は、車両の動作中に画像データをキャプチャできるカメラのセットを含む。上述したように、個々の画像情報は、例示された画像が画像の特定のタイムスタンプを表すように、特定の周波数で受信されてもよい。いくつかの実施形態では、画像情報は、高ダイナミックレンジ(HDR)画像を表してもよい。例えば、異なる露出を組み合わせて、HDR画像を形成してもよい。別の例として、画像センサからの画像は、それらをHDR画像に変換するために(例えば、機械学習モデルを使用して)事前に処理されてもよい。
【0029】
図2Bに例示されるように、カメラのセットは、画像データをキャプチャする前面カメラ202のセットを含むことができる。前面カメラは、車両のフロントガラス領域に搭載されて、わずかに高い高度を有してもよい。
図2Bに例示されるように、前面カメラ202は、複合画像を生成するように構成された複数の個別のカメラを含むことができる。例えば、カメラハウジングは、前方を指す3つの画像センサを含んでもよい。この例では、第1の画像センサは、広角(例えば、魚眼)レンズを有してもよい。第2の画像センサは、通常又は標準レンズ(例えば、35mmの等価焦点距離、50mmの等価焦点距離など)を有してもよい。第3の画像センサは、ズーム又はナローレンズを有してもよい。このようにして、変化する焦点距離の3つの画像が、車両によって前方方向に取得されてもよい。視覚システム200は、車両のドアピラーに搭載されたカメラ204のセットを更に含む。視覚システム200は、車両のフロントバンパーに搭載された2つのカメラ206を更に含むことができる。追加的に、視覚システム200は、リアバンパー、トランク、又はナンバープレートホルダに搭載された後面カメラ208を含むことができる。
【0030】
カメラ202、204、206、及び208のセットは全て、専用コントローラ/組み込みシステムなどの1つ以上の処理構成要素214にキャプチャされた画像を提供してもよい。例えば、処理構成要素214は、機械学習モデルに関連付けられた情報を迅速に処理するように構成された1つ以上の行列プロセッサを含んでもよい。処理構成要素212は、いくつかの実施形態では、畳み込みニューラルネットワークを通るフォワードパスに関連付けられた畳み込みを実行するために使用されてもよい。例えば、入力データ及び重みデータが畳み込まれてもよい。処理構成要素212は、畳み込みを実行する多数の乗算累積ユニットを含んでもよい。一例として、行列プロセッサは、より大きな畳み込み演算を容易にするために編成又はフォーマットされた入力データ及び重みデータを使用してもよい。代替的には、画像データは、汎用処理構成要素に送信されてもよい。
【0031】
例示的に、個々のカメラは、処理のための視覚データの別個の入力として動作してもよく、又は個別に考慮されてもよい。他の実施形態では、カメラデータの1つ以上のサブセットを組み合わせて、前面カメラ202のトリオなどの複合画像データを形成してもよい。
図2Bに更に例示されるように、車両102などの視覚のみシステムを組み込む車両に関連する実施形態では、検出システムは210に含まれない。
【0032】
ここで
図3を参照すると、1つ以上のローカルリソース又はネットワークサービス上に視覚情報処理構成要素112を実装するための例示的なアーキテクチャが記載される。視覚情報処理構成要素112は、オブジェクト認識、ナビゲーション、場所サービスなどのための機械学習アルゴリズムに関連付けられた機能性を提供する構成要素/システムの一部であってもよい。
【0033】
図3のアーキテクチャは、本質的に例示的であり、視覚情報処理構成要素112に対する特定のハードウェア又はソフトウェア構成を必要とすると解釈されるべきではない。
図3に描写される視覚情報処理構成要素112の一般的アーキテクチャは、本開示の態様を実装するために使用され得るコンピュータハードウェア及びソフトウェア構成要素の配置を含む。例示されるように、視覚情報処理構成要素112は、処理ユニット302、ネットワークインターフェース304、コンピュータ可読媒体ドライブ306、及び入力/出力デバイスインターフェース308を含み、それらの全ては、通信バスを経由して互いに通信することができる。視覚情報処理構成要素112の構成要素は、物理ハードウェア構成要素であるか、又は仮想化環境に実装されてもよい。
【0034】
ネットワークインターフェース304は、
図1のネットワークのような1つ以上のネットワーク又はコンピューティングシステムに接続性を提供してもよい。したがって、処理ユニット302は、ネットワークを介して他のコンピューティングシステム又はサービスから情報及び命令を受信してもよい。処理ユニット302はまた、メモリ310と通信し、入力/出力デバイスインターフェース308を介して、任意選択的なディスプレイ(図示せず)のための出力情報を更に提供してもよい。いくつかの実施形態では、視覚情報処理構成要素112は、
図3に示された構成要素よりも多い(又は少ない)構成要素を含んでもよい。
【0035】
メモリ310は、1つ以上の実施形態を実装するために処理ユニット302が実行するコンピュータプログラム命令を含んでもよい。メモリ310は、概して、RAM、ROM、又は他の永続的若しくは非一時的メモリを含む。メモリ310は、インターフェースソフトウェア312と、視覚情報処理構成要素112の一般的な管理及び動作において処理ユニット302によって使用するためのコンピュータプログラム命令を提供するオペレーティングシステム314とを記憶してもよい。メモリ310は、本開示の態様を実装するためのコンピュータプログラム命令及び他の情報を更に含んでもよい。例えば、一実施形態では、メモリ310は、車両102、データストア、他のサービスなどの車両から情報(例えば、キャプチャされたビデオ情報)を取得するセンサインターフェース構成要素316を含む。
【0036】
メモリ310は、キャプチャされた視覚システム情報を取得及び処理し、本明細書に記載されるように、車両の様々な動作状態に従って、キャプチャされた視覚情報に対する追加的又は代替的なグラウンドトゥルースラベル情報を生成するための視覚情報処理構成要素318を更に含む。メモリ310は、本明細書に記載されるように、機械学習アルゴリズムの訓練で使用するためにラベルを自動的に生成するための自動ラベル付け処理構成要素320を更に含むことができる。例示的に、一実施形態では、視覚情報処理構成要素112は、静的オブジェクト検出、動的オブジェクト検出などのために、いくつかの機械学習アルゴリズムを訓練することができる。
【0037】
ここで
図4A~
図4Bを参照すると、視覚システムデータを処理し、シミュレートコンテンツシステムデータを生成して機械学習アルゴリズムのための訓練モデルを更新する環境の構成要素のための例示的な相互作用が記載されている。(1)において、1つ以上の車両102は、入力のセット(例えば、第1のデータセット)を収集し、送信することができる。第1のデータセットは、例示的に、ビデオ画像データ、及び任意の関連するメタデータ、又は車両102の視覚システム200によって収集された他の属性に対応する。
【0038】
例示的に、車両102は、視覚システムデータを収集し、収集されたデータを送信するように構成されてもよい。例示的に、車両102は、キャプチャされた視覚システム情報に対するグラウンドトゥルースラベル情報を少なくとも部分的に生成するために、視覚システム内の処理能力を含んでもよい。他の実施形態では、車両102は、(任意のグラウンドトゥルースラベルの有無にかかわらず)キャプチャされた視覚システム情報を、ネットワーク110内などの別のサービスに送信してもよい。次いで、追加のサービスは、(手動又は自動的に)グラウンドトゥルースラベル情報を追加することができる。例えば、収集された視覚システムデータは、周期的な時間枠又は様々な収集/送信基準に基づいて送信されてもよい。また更に、いくつかの実施形態では、車両102はまた、収集されたデータの収集及び送信をもたらす地理的座標又は他の識別子を介してなどにより、特定のシナリオ又は場所を識別するように構成されてもよい。
【0039】
例示的には、ネットワークサービスは、収集された視覚システムデータ及びグラウンドトゥルースラベルを車両102から受信して処理する。より具体的には、(3)において、ネットワークサービスは、第1の時点でキャプチャされた視覚システムデータを含む入力の第1のセット(例えば、第1のデータセット)をターゲット車両から受信することができる。次いで、ネットワークサービスは、キャプチャされた視覚システムデータに関連付けられたグラウンドトゥルースラベルデータを少なくとも処理して、グラウンドトゥルースラベル及び値の初期セットを判定する。第1の時点で処理された第1のキャプチャされた視覚システムデータは、1つ以上の不確定値又は複数の可能な値を含むことができるグラウンドトゥルースラベル及び値の初期セットを形成することができる。グラウンドトゥルースラベルデータの第1のセットの生成は、1つ以上の機械学習アルゴリズムに基づいてもよい。
【0040】
(4)において、ネットワークサービスは、第2の時点でキャプチャされた視覚システムデータを含むターゲット車両からの入力の第2のセット(例えば、第2のデータセット)を受信することができる。第2の時点は、第1の時点の後である。一実施形態では、第1の視覚システムデータ及び第2の視覚システムデータは、あるキャプチャ周波数に基づくことができる。例えば、車両102の視覚システムは、20Hz、21Hz、22Hz、23Hz、24Hz、25Hz、26Hz、27Hz、28Hz、29Hz、30Hz、40Hz(及びそれらの間の全ての介在値)、50Hz(及びその中の全ての介在値)、60Hz(及びその中の全ての介在値)、70Hz(及びその中の全ての介在値)、80Hz(及びその中の全ての介在値)、並びに90Hz(及びその中の全ての介在値)などのキャプチャ周波数に基づいてキャプチャしてもよい。次いで、ネットワークサービスは、キャプチャされた視覚システムデータに関連付けられたグラウンドトゥルースラベルデータを少なくとも処理して、グラウンドトゥルースラベル及び値の第2のセットを判定する。
【0041】
(5)において、グラウンドトゥルースラベル及び値の第2のセットに基づいて、ネットワークサービスは、グラウンドトゥルースラベル及び値の第1のセットに対するラベル及び関連する値を判定することができる。より具体的には、ネットワークサービスは、後の時点で得られる既知のグラウンドトゥルースラベル及び値を利用して、より早い時点の視覚システムデータの処理が何であるべきかを判定又は更新することができる。例えば、複数の潜在的な方向属性(例えば、ヨーレート)に関連する第1のインスタンスにおけるグラウンドトゥルースデータは、適切な終了場所をもたらす適切なヨーレートに解決される。別の例では、検出されたオブジェクトに対する位置計算された値に関連するグラウンドトゥルースラベル値は、第2の時点における位置値の判定に基づいて解決され得る。この実施形態では、ネットワークサービスは、キャプチャされたビデオデータの第2のセットによって提供される既知の結果を使用することによって、データの第1のセットのグラウンドトゥルースラベル及び値を例示的に導出又は検証している。値を導出するための特定のプロセスは、グラウンドトゥルースラベルデータのタイプに基づくことができる。例えば、検出オブジェクトの位置推定値を導出することは、キャプチャされた視覚データの第2のセット(例えば、実際の場所)における検出されたオブジェクトの測定された位置値に基づくことができる。別の例では、速度推定を導出することは、キャプチャされた視覚データの第2のセットにおける位置データ及び有効期限切れ時間を計算することに基づくことができる。更に他の実施形態では、静的オブジェクト又は動的オブジェクトの導出識別は、キャプチャされた視覚データの第2のセットから識別された静的オブジェクト又は動的オブジェクトをマッチング又は更新することに基づくことができる。したがって、当業者は、(5)において第1の視覚セット及び第2の視覚データのセットに対して様々な技術が適用され得ると理解するであろう。
【0042】
(6)において、得られたグラウンドトゥルースラベル及び値が記憶されてもよい。追加的に、ラベル及び値は、送信されるか、又は他の方法で追加のサービスに利用可能にされてもよい。
【0043】
ここで
図4Bを参照すると、視覚情報処理構成要素112視覚情報処理構成要素112が訓練セットを受信すると、(1)において、ネットワークサービス110は、訓練セットを処理する。(2)において、視覚情報処理構成要素112は、組み合わされたデータセットに対する訓練に基づいて、更新された機械学習アルゴリズムを生成する。例示的に、ネットワークサービス110は、多様な機械学習モデルを利用して、更新された機械学習アルゴリズムを生成することができる。
【0044】
ここで
図5を参照すると、自動ラベル付けを提供するために収集された視覚を処理するためのルーチン500が記載されている。ルーチン500は、視覚情報処理構成要素112によって例示的に実装される。上述のように、ルーチン500は、キャプチャされた視覚システムデータに対する視覚システムデータ及びグラウンドトゥルースラベルデータを含むターゲット車両102が処理のために利用可能である後に実装されてもよい。例示的に、車両102は、視覚システムデータを収集し、収集されたデータ及び関連するグラウンドトゥルースラベルを送信するように構成されてもよい。例えば、収集された視覚システムデータは、周期的な時間枠又は様々な収集/送信基準に基づいて送信されてもよい。また更に、いくつかの実施形態では、車両102はまた、収集されたデータの収集及び送信をもたらす地理的座標又は他の識別子を介してなどにより、特定のシナリオ又は場所を識別するように構成されてもよい。他の実施形態では、車両102は、(任意のグラウンドトゥルースラベルの有無にかかわらず)キャプチャされた視覚システム情報を、ネットワーク110内などの別のサービスに送信してもよい。次いで、追加のサービスは、(手動又は自動的に)グラウンドトゥルースラベル情報を追加することができる。例示的に、視覚情報処理構成要素112は、収集された視覚システムデータ及びグラウンドトゥルースラベルを車両102から受信して処理する。
【0045】
より具体的には、ブロック502において、視覚情報処理構成要素112は、第1の時点でキャプチャされた視覚システムデータを含む入力の第1のセット(例えば、第1のデータセット)をターゲット車両から受信することができる。次いで、ネットワークサービスは、キャプチャされた視覚システムデータに関連付けられたグラウンドトゥルースラベルデータを少なくとも処理して、グラウンドトゥルースラベル及び値の初期セットを判定する。第1の時点で処理された第1のキャプチャされた視覚システムデータは、1つ以上の不確定値又は複数の可能な値を含むことができるグラウンドトゥルースラベル及び値の初期セットを形成することができる。グラウンドトゥルースラベルデータの第1のセットの生成は、1つ以上の機械学習アルゴリズムに基づいてもよい。
【0046】
ブロック504において、視覚情報処理構成要素112は、第2の時点でキャプチャされた視覚システムデータを含むターゲット車両からの入力の第2のセット(例えば、第2のデータセット)を受信することができる。第2の時点は、第1の時点の後である。一実施形態では、第1の視覚システムデータ及び第2の視覚システムデータは、あるキャプチャ周波数に基づくことができる。例えば、車両102の視覚システムは、20Hz(及びその中の全ての介在値)、30Hz(及びその中の全ての介在値)、40Hz(及びその間の全ての介在値)、50Hz(及びその中の全ての介在値)、60Hz(及びその中の全ての介在値)、70Hz(及びその中の全ての介在値)、80Hz(及びその中の全ての介在値)、90Hz(及びその中の全ての介在値)などのキャプチャの周波数に基づいてキャプチャしてもよい。次いで、視覚情報処理構成要素112は、キャプチャされた視覚システムデータに関連付けられたグラウンドトゥルースラベルデータを少なくとも処理して、グラウンドトゥルースラベル及び値の第2のセットを判定する。
【0047】
ブロック506において、グラウンドトゥルースラベル及び値の第2のセットに基づいて、視覚情報処理構成要素112は、グラウンドトゥルースラベル及び値の第1のセットに対するラベル及び関連する値を判定することができる。より具体的には、ネットワークサービスは、後の時点で得られる既知のグラウンドトゥルースラベル及び値を利用して、より早い時点の視覚システムデータの処理が何であるべきかを判定又は更新することができる。例えば、複数の潜在的な方向属性(例えば、ヨーレート)に関連する第1のインスタンスにおけるグラウンドトゥルースデータは、適切な終了場所をもたらす適切なヨーレートに解決される。別の例では、検出されたオブジェクトに対する位置計算された値に関連するグラウンドトゥルースラベル値は、第2の時点における位置値の判定に基づいて解決され得る。この実施形態では、ネットワークサービスは、キャプチャされたビデオデータの第2のセットによって提供される既知の結果を使用することによって、データの第1のセットのグラウンドトゥルースラベル及び値を例示的に導出又は検証している。値を導出するための特定のプロセスは、グラウンドトゥルースラベルデータのタイプに基づくことができる。例えば、検出オブジェクトの位置推定値を導出することは、キャプチャされた視覚データの第2のセット(例えば、実際の場所)における検出されたオブジェクトの測定された位置値に基づくことができる。別の例では、速度推定を導出することは、キャプチャされた視覚データの第2のセットにおける位置データ及び有効期限切れ時間を計算することに基づくことができる。更に他の実施形態では、静的オブジェクト又は動的オブジェクトの導出識別は、キャプチャされた視覚データの第2のセットから識別された静的オブジェクト又は動的オブジェクトをマッチング又は更新することに基づくことができる。したがって、当業者は、ブロック506において第1の視覚セット及び第2の視覚データのセットに対して様々な技術が適用され得ると理解するであろう。
【0048】
ブロック508において、得られたグラウンドトゥルースラベル及び値が記憶されてもよい。追加的に、ラベル及び値は、送信されるか、又は他の方法で追加のサービスに利用可能にされてもよい。ルーチン500は、ブロック510において終了する。上述のように、視覚情報処理構成要素112は、組み合わされたデータセットに対する訓練に基づいて、更新された機械学習アルゴリズムを生成する。例示的に、視覚情報処理構成要素112は、多様な機械学習モデルを利用して、更新された機械学習アルゴリズムを生成することができる。例えば、検出されたオブジェクト又はグラウンドトゥルースラベルのタイプに基づいて、複数の機械学習アルゴリズムが形成されてもよい。
【0049】
前述の開示は、本開示を開示される正確な形態又は特定の使用分野に限定することを意図しない。そのため、本明細書に明示的に記載されているか、又は暗示されているかにかかわらず、本開示の様々な代替的な実施形態及び/又は修正が可能であることが企図される。したがって、本開示の記載された実施形態を有することにより、当業者は、本開示の範囲から逸脱することなく、変更が形態及び詳細に行われ得ることを認識するであろう。したがって、本開示は、特許請求の範囲によってのみ限定される。
【0050】
前述の明細書では、本開示は、特定の実施形態を参照して記載されている。しかしながら、当業者が理解するように、本明細書に開示される様々な実施形態は、本開示の趣旨及び範囲から逸脱することなく、様々な他の方法で修正されるか、又は別様に実装され得る。したがって、この説明は、例示的なものとみなされ、開示された決定アルゴリズム及び制御アルゴリズムの様々な実施形態の作成方法及び使用方法を当業者に教示する目的のためのものである。本明細書に示され、記載される開示の形態が、代表的な実施形態として受け取られるべきであることを理解されたい。均等な要素、材料、プロセス、又はステップは、本明細書に代表的に例示及び記載されるものに置き換えられてもよい。更に、本開示の特定の特徴は、他の特徴の使用とは独立して利用されてもよく、全ては、本開示のこの説明の利益を得た後に当業者には明らかであろう。本開示を記載し、請求項に記載するために使用される「including(含む)」、「comprising(備える)」、「incorporating(組み込む)」、「consisting of(からなる)」、「have(有する)」、「is(である)」などの表現は、非排他的な方法で解釈されることを意図しており、すなわち、明示的に記載されていないアイテム、構成要素、又は要素もまた存在することを可能にする。単数形への言及はまた、複数形に関連するように解釈されるべきである。
【0051】
更に、本明細書に開示される様々な実施形態は、例示的及び説明的な意味で受け取られるべきであり、決して本開示を限定するものとして解釈されるべきではない。全てのジョインダ参照(例えば、取り付けられた、貼り付けられた、結合された、接続されたなど)は、本開示の読者の理解を助けるためにのみ使用され、特に本明細書に開示されたシステム及び/又は方法の位置、向き、又は使用に関する制限を生じさせてはならない。したがって、ジョインダ参照がある場合、広義に解釈されるべきである。更に、このようなジョインダ参照は、これらの2つの要素が互いに直接接続されていることを必ずしも推測するものではない。
【0052】
追加的に、「第1の」、「第2の」、「第3の」、「一次の」、「二次の」、「主要な」、又は任意の他の通常の及び/又は数値用語などの、全ての数値用語もまた、本開示の様々な要素、実施形態、バリエーション及び/又は修正の読者の理解を支援するために、識別子としてのみとみなされるべきであり、特に、別の要素、実施形態、バリエーション及び/又は修正に対する、又はそれ以上の任意の要素、実施形態、バリエーション及び/又は修正の順序、又は好みに関して、任意の制限を生じさせてはならない。
【0053】
また、図面/図に描写される要素のうちの1つ以上はまた、特定のアプリケーションに従って有用であるように、より分離された又は統合された方法で実装されてもよく、特定の場合には、取り外されてもよく、又は動作不能としてレンダリングされ得ることが理解されるであろう。
【国際調査報告】