IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テスラ モーターズ,インコーポレーテッドの特許一覧

特開2023-162341拡張データによって機械モデルを訓練するためのシステムおよび方法
<>
  • 特開-拡張データによって機械モデルを訓練するためのシステムおよび方法 図1
  • 特開-拡張データによって機械モデルを訓練するためのシステムおよび方法 図2
  • 特開-拡張データによって機械モデルを訓練するためのシステムおよび方法 図3
  • 特開-拡張データによって機械モデルを訓練するためのシステムおよび方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023162341
(43)【公開日】2023-11-08
(54)【発明の名称】拡張データによって機械モデルを訓練するためのシステムおよび方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231031BHJP
   G06V 10/774 20220101ALI20231031BHJP
【FI】
G06T7/00 350B
G06V10/774
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023139431
(22)【出願日】2023-08-30
(62)【分割の表示】P 2021519847の分割
【原出願日】2019-10-10
(31)【優先権主張番号】62/744,534
(32)【優先日】2018-10-11
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】510192916
【氏名又は名称】テスラ,インコーポレイテッド
(74)【代理人】
【識別番号】110000659
【氏名又は名称】弁理士法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】クーパー,マシュー ジョン
(72)【発明者】
【氏名】ジャイン,パラス
(72)【発明者】
【氏名】シジュ,ハーシムラン シン
(57)【要約】      (修正有)
【課題】拡張データによって機械モデルを訓練するシステム及び方法を提供する。
【解決手段】1つ又は複数のプロセッサ及び命令を記憶している非一時的コンピュータ記憶媒体を有するシステムにおける方法であって、命令を実行する1つ又は複数のプロセッサは、1つ又は複数の画像収集システムに固定されている間にカメラのセットによってキャプチャされる画像のセットを識別し、画像のセット内の各画像について、画像の訓練出力を識別し、画像のセット内の1つ又は複数の画像について、画像のカメラ特性を維持する画像操作機能を用いて画像を変更することによって拡張画像のセットの拡張画像を生成し、拡張訓練画像を画像の訓練出力と関連付けることによって、拡張画像のセットの拡張画像を生成し、画像及び拡張画像のセットを含む画像訓練セットに基づいて訓練出力を予測するように予測コンピュータモデルのパラメータのセットを訓練する。
【選択図】図4
【特許請求の範囲】
【請求項1】
予測コンピュータモデルのパラメータのセットを訓練するための方法であって、
1つまたは複数の画像収集システムに固定されている間にカメラのセットによってキャ
プチャされる画像のセットを識別するステップと、
前記画像のセット内の各画像について、該画像の訓練出力を識別するステップと、
前記画像のセット内の1つまたは複数の画像について、拡張画像のセットの拡張画像を
生成するステップであって、
前記画像のカメラ特性を維持する画像操作機能を用いて該画像を変更することによっ
て拡張画像のセットの拡張画像を生成すること、および、
前記拡張訓練画像を前記画像の前記訓練出力と関連付けることによって、拡張画像の
セットの拡張画像を生成するステップと、
前記画像および前記拡張画像のセットを含む画像訓練セットに基づいて前記訓練出力を
予測するように前記予測コンピュータモデルのパラメータのセットを訓練するステップと
、を含む、方法。
【請求項2】
前記訓練出力が、前記画像内の物体である、請求項1に記載の方法。
【請求項3】
前記画像訓練セットが、画像のカメラ特性を変更する画像操作機能によって生成される
画像を含まない、請求項1に記載の方法。
【請求項4】
カメラ特性を変更する前記画像操作機能が、トリミング、パディング、水平もしくは垂
直反転、またはアフィン変換を含む、請求項3に記載の方法。
【請求項5】
前記画像操作機能が、切り取り、色相、彩度、値ジッタ、ごま塩、ドメイン移行、また
はそれらの任意の組み合わせである、請求項1に記載の方法。
【請求項6】
前記画像操作機能は、前記画像内の前記訓練出力の位置に基づいて前記画像に適用され
る切り取りである、請求項1に記載の方法。
【請求項7】
前記画像操作機能が、前記訓練出力のバウンディングボックスよりも小さい前記画像の
部分に適用される切り取りである、請求項1に記載の方法。
【請求項8】
前記画像操作機能が、前記画像内の前記訓練出力の位置と部分的に重なる前記画像の部
分に適用される切り取りである、請求項1に記載の方法。
【請求項9】
1つまたは複数のプロセッサと、命令を記憶している非一時的コンピュータ記憶媒体と
を有するシステムであって、前記命令は、前記1つまたは複数のプロセッサによって実行
されると、前記プロセッサに対して、
1つまたは複数の画像収集システムに固定されている間にカメラのセットによってキャ
プチャされる画像のセットを識別する拡張画像のセットの拡張画像を生成するステップと

前記画像のセット内の各画像について、該画像の訓練出力を識別する拡張画像のセット
の拡張画像を生成するステップと、
前記画像のセット内の1つまたは複数の画像について、拡張画像のセットの拡張画像を
生成するステップであって、
前記画像のカメラ特性を維持する画像操作機能を用いて該画像を変更することによっ
て拡張画像のセットの拡張画像を生成すること、および、
前記拡張訓練画像を前記画像の前記訓練出力と関連付けることによって、拡張画像の
セットの拡張画像を生成するステップと、
前記画像および前記拡張画像のセットを含む画像訓練セットに基づいて前記訓練出力を
予測するように前記予測コンピュータモデルの前記パラメータのセットを訓練するステッ
プと、を含む動作を実施させる、システム。
【請求項10】
前記画像訓練セットが、画像のカメラ特性を変更する画像操作機能によって生成される
画像を含まない、請求項9に記載のシステム。
【請求項11】
前記カメラ特性を変更する前記画像操作機能が、トリミング、パディング、水平もしく
は垂直反転、またはアフィン変換を含む、請求項10に記載のシステム。
【請求項12】
前記画像操作機能が、切り取り、色相、彩度、値ジッタ、ごま塩、ドメイン移行、また
はそれらの任意の組み合わせである、請求項9に記載のシステム。
【請求項13】
前記画像操作機能が、前記画像内の前記訓練出力の位置と部分的に重なる前記画像の部
分に適用される切り取りである、請求項9に記載のシステム。
【請求項14】
プロセッサによって実行するための命令を有する非一時的コンピュータ可読媒体であっ
て、前記命令は、前記プロセッサによって実行されると、該プロセッサに対して、
1つまたは複数の画像収集システムに固定されている間にカメラのセットによってキャ
プチャされる画像のセットを識別するステップと、
前記画像のセット内の各画像について、該画像の訓練出力を識別するステップと、
前記画像のセット内の1つまたは複数の画像について、拡張画像のセットの拡張画像を
生成するステップであって、
前記画像のカメラ特性を維持する画像操作機能を用いて該画像を変更することによっ
て拡張画像のセットの拡張画像を生成すること、および、
前記拡張訓練画像を前記画像の前記訓練出力と関連付けることによって、拡張画像の
セットの拡張画像を生成するステップと、
前記画像および前記拡張画像のセットを含む画像訓練セットに基づいて前記訓練出力を
予測するように学習するように前記コンピュータモデルを訓練するステップと、を実施さ
せる、非一時的コンピュータ可読媒体。
【請求項15】
前記画像訓練セットが、画像のカメラ特性を変更する画像操作機能によって生成される
画像を含まない、請求項14に記載の非一時的コンピュータ可読媒体。
【請求項16】
カメラ特性を変更する画像操作機能が、トリミング、パディング、水平もしくは垂直反
転、またはアフィン変換を含む、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項17】
前記画像操作機能が、切り取り、色相、彩度、値ジッタ、ごま塩、ドメイン移行、また
はこれらの任意の組み合わせである、請求項14に記載の非一時的コンピュータ可読媒体
【請求項18】
前記画像操作機能が、前記訓練出力のバウンディングボックスよりも小さい前記画像の
部分に適用される切り取りである、請求項14に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記画像操作機能が、前記訓練出力のバウンディングボックスよりも小さい前記画像の
部分に適用される切り取りである、請求項14に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記画像操作機能が、前記画像内の前記訓練出力の位置と部分的に重なる領域に適用さ
れる切り取りである、請求項14に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、米国仮特許出願第62/744,534号、出願日2018年10月11日
、発明の名称「TRAINING MACHINE MODELS WITH DATA
AUGMENTATION THAT RETAINS SENSOR CHARAC
TERISTICS」に対する優先権を主張する。米国仮特許出願第62/744,53
4号は、その全体が参照により本明細書に組み込まれる。
【0002】
本発明の実施形態は、一般に、機械学習環境においてデータを訓練するためのシステム
および方法に関し、より詳細には、訓練データセットにセンサ特性などの追加のデータを
含めることによって訓練データを拡張することに関する。
【背景技術】
【0003】
典型的な機械学習アプリケーションでは、訓練データを取得するために使用されるキャ
プチャ機器の特性にモデルが過剰適合されることを回避するために、様々な方法でデータ
を拡張することができる。例えば、コンピュータモデルを訓練するために使用される典型
的な画像セットでは、画像は、キャプチャされている物体に対して様々なセンサ特性を有
する多くの異なるキャプチャ環境でキャプチャされる物体を表すことができる。例えば、
そのような画像は、様々なスケール(例えば、画像内の有意に異なる距離)、様々な焦点
距離、様々なレンズタイプ、様々な前処理または後処理、種々のソフトウェア環境、セン
サアレイハードウェアなどの様々なセンサ特性によってキャプチャされる場合がある。こ
れらのセンサはまた、画像がキャプチャされるときの環境に対する撮像センサの位置およ
び向きなどの種々の外因性パラメータに関しても異なる場合がある。これらの異なるタイ
プのセンサ特性のすべてが、キャプチャされる画像を画像セット内の複数の異なる画像全
体にわたって別様にかつ様々に提示させ、コンピュータモデルを適切に訓練することをよ
り困難にする可能性がある。
【0004】
ニューラルネットワークの多くのアプリケーションは、様々な条件でキャプチャされる
データから学習し、様々な異なるセンサ構成で(例えば、複数のタイプの携帯電話上で作
動するアプリにおいて)展開される。画像をキャプチャするために使用されるセンサの差
異を考慮に入れるために、開発者は、焦点距離、軸スキュー、位置、および回転などのカ
メラ特性に関して、開発されたモデルを一般化する画像の反転、回転、またはトリミング
などの修正によって画像訓練データを拡張することができる。
【0005】
これらの変動を考慮に入れ、訓練されたネットワークを様々なソース上で展開するため
に、訓練データを拡張または操作して、訓練されたモデルのロバスト性を高めることがで
きる。しかしながら、これらの手法は、典型的には、拡張画像においてカメラ特性を変更
する変換を適用することによって、モデルが任意の特定のカメラ構成について効果的に学
習することを妨げる。
【発明の概要】
【課題を解決するための手段】
【0006】
一実施形態は、予測コンピュータモデルのパラメータのセットを訓練するための方法で
ある。この実施形態は、1つまたは複数の画像収集システムに固定されている間にカメラ
のセットによってキャプチャされる画像のセットを識別することと、画像のセット内の各
画像について、画像の訓練出力を識別することと、画像のセット内の1つまたは複数の画
像について、画像のカメラ特性を維持する画像操作機能を用いて画像を変更することによ
って拡張画像のセットの拡張画像を生成し、拡張訓練画像を画像の訓練出力と関連付ける
ことによって、拡張画像のセットの拡張画像を生成することと、画像および拡張画像のセ
ットを含む画像訓練セットに基づいて訓練出力を予測するように予測コンピュータモデル
のパラメータのセットを訓練することとを含むことができる。
【0007】
追加の実施形態は、1つまたは複数のプロセッサと、命令を記憶している非一時的コン
ピュータ記憶媒体とを有するシステムであって、命令は、1つまたは複数のプロセッサに
よって実行されると、プロセッサに、1つまたは複数の画像収集システムに固定されてい
る間にカメラのセットによってキャプチャされる画像のセットを識別することと、画像の
セット内の各画像について、画像の訓練出力を識別することと、画像のセット内の1つま
たは複数の画像について、画像のカメラ特性を維持する画像操作機能を用いて画像を変更
することによって拡張画像のセットの拡張画像を生成し、拡張訓練画像を画像の訓練出力
と関連付けることによって、拡張画像のセットの拡張画像を生成することと、画像および
拡張画像のセットを含む画像訓練セットに基づいて訓練出力を予測するように予測コンピ
ュータモデルのパラメータのセットを訓練することとを含む動作を実施させる、システム
を含むことができる。
【0008】
別の実施形態は、プロセッサによって実行するための命令を有する非一時的コンピュー
タ可読媒体であって、命令は、プロセッサによって実行されると、プロセッサに、1つま
たは複数の画像収集システムに固定されている間にカメラのセットによってキャプチャさ
れる画像のセットを識別することと、画像のセット内の各画像について、画像の訓練出力
を識別することと、画像のセット内の1つまたは複数の画像について、画像のカメラ特性
を維持する画像操作機能を用いて画像を変更することによって拡張画像のセットの拡張画
像を生成し、拡張訓練画像を画像の訓練出力と関連付けることによって、拡張画像のセッ
トの拡張画像を生成することと、画像および拡張画像のセットを含む画像訓練セットに基
づいて訓練出力を予測するようにコンピュータモデルを訓練することとを実施させる、非
一時的コンピュータ可読媒体を含むことができる。
【図面の簡単な説明】
【0009】
図1】一実施形態によるコンピュータモデルの訓練および展開のための環境のブロック図である。
【0010】
図2】同じカメラ特性によってキャプチャされる例示的な画像を示す図である。
【0011】
図3】一実施形態による、モデル訓練システムの構成要素のブロック図である。
【0012】
図4】一実施形態による、ラベル付き訓練画像に基づく拡張画像の生成の一例を示すデータフロー図である。
【発明を実施するための形態】
【0013】
図面は、例示のみを目的として本発明の様々な実施形態を示す。当業者は、以下の論述
から、本明細書に記載される本発明の原理から逸脱することなく、本明細書に示される構
造および方法の代替的な実施形態が利用され得ることを容易に認識するであろう。
【0014】
一実施形態は、元来キャプチャされている画像のカメラ特性を維持するために拡張され
た画像を用いてコンピュータモデルを訓練するシステムである。これらのカメラ特性は、
カメラの内因性または外因性の特性を含むことができる。そのような内因性の特性は、ダ
イナミックレンジ、視野、焦点距離、およびレンズ歪みなどのセンサ自体の特性を含むこ
とができる。外因性の特性は、カメラの角度、スケール、または態勢など、キャプチャさ
れる環境に対するカメラの構成を表すことができる。
【0015】
これらの内因性および外因性の特性は、画像内でキャプチャされる物体および他の態様
、ならびにデバイスまたはシステム上でのその位置付けのためにカメラのビュー内に現れ
る静止物体などのアーチファクトおよび他の効果に対するカメラのビューに影響を及ぼし
得る。例えば、車両に搭載されたカメラは、そのビューの一部として、多くの画像にわた
って、および、同じモデルの車に同じ方法で搭載されているその構成のすべてのカメラに
ついて現れる車のフードを含む場合がある。別の例として、これらのカメラ特性はまた、
カメラのビュー内の物体から生じる反射を含み得る。反射は、カメラによってキャプチャ
される画像の多くに含まれるようになる1つのタイプの一貫した特性であり得る。
【0016】
拡張画像を用いて訓練データにさらに追加しながら、データモデルを訓練するために画
像のカメラ特性を維持、保存、記憶、または使用することによって、結果として得られる
モデルは、同じカメラ特性を有する多くの異なるデバイスにわたって有用であり得る。さ
らに、拡張は、特に画像が曇っている、遮られている、または他の様態で検出可能な物体
の明瞭なビューを提供しない場合に、モデル予測に一般化およびより高いロバスト性を提
供することができる。これらの手法は、物体検出および自律型車両に特に有用であり得る
。この手法はまた、同じカメラ構成が多くのデバイスに展開され得る他の状況にも有益で
あり得る。これらのデバイスは一貫した向きにある一貫したセンサセットを有することが
できるため、訓練データは所与の構成によって収集することができ、モデルは収集された
訓練データからの拡張データによって訓練することができ、訓練されたモデルは同じ構成
を有するデバイスに展開することができる。したがって、これらの技法は、この文脈にお
ける不必要な一般化をもたらし、何らかのデータ拡張を伴う他の変数の一般化を可能にす
る拡張を回避する。
【0017】
カメラ特性を維持するために、拡張画像を生成するために使用される画像操作機能は、
カメラ特性を維持する機能である。例えば、これらの操作は、キャプチャされる環境に対
するカメラの角度、スケール、または態勢への影響を回避することができる。実施形態で
は、カメラ特性に影響を及ぼす画像操作機能によって拡張された画像は訓練に使用されな
い。例えば、カメラ特性を維持するために使用され得る画像操作機能は、切り取り、色相
/彩度/値ジッタ、ごま塩、ならびにドメイン移行(例えば、昼から夜に変更する)を含
む。カメラ特性を変更する場合があり、したがっていくつかの実施形態では使用されない
機能は、トリミング、パディング、反転(水平または垂直)、またはアフィン変換(せん
断、回転、並進、およびスキューなど)を含む。
【0018】
さらなる例として、画像は、元の画像の一部を除去する「切り取り」機能によって拡張
することができる。次いで、画像の除去された部分は、指定された色、ぼけ、ノイズ、ま
たは別の画像からのものなどの他の画像内容と置き換えることができる。切り取りの数、
サイズ、領域、および置換内容は変更されてもよく、画像のラベル(例えば、画像内の関
心領域、または物体のバウンディングボックス)に基づいてもよい。
【0019】
したがって、コンピュータモデルを、画像および拡張画像によって訓練することができ
、キャプチャされる画像のカメラ特性を有するデバイスに配布して、モデルをセンサ分析
に使用することができる。特に、このデータ拡張およびモデル訓練は、画像内の物体また
は物体バウンディングボックスを検出するように訓練されたモデルに使用することができ
る。
【0020】
図1は、一実施形態によるコンピュータモデルの訓練および展開のための環境である。
1つまたは複数の画像収集システム140は、モデル適用システムによって展開および使
用され得るコンピュータモデルを訓練する際にモデル訓練システムによって使用され得る
画像をキャプチャする。これらのシステムは、これらの装置がそれらを通じて通信する様
々な無線または有線通信リンクを表すインターネットなどのネットワーク120を介して
接続される。
【0021】
モデル訓練システム130は、入力のセットを所与として出力を予測するために訓練可
能なパラメータのセットを有するコンピュータモデルを訓練する。この例におけるモデル
訓練システム130は、典型的には、画像に関する出力予測情報を生成するために画像入
力に基づいてモデルを訓練する。例えば、様々な実施形態において、これらの出力は、画
像内の物体を識別することができる(バウンディングボックスまたはセグメント化のいず
れかによって物体を識別し、画像の状態(例えば、時刻、天候を識別することができる)
または画像の他のタグもしくは記述子を識別することができる。
【0022】
便宜上、本明細書においては例示的なタイプのセンサデータとして画像が使用されてい
るが、本明細書に記載の拡張およびモデル開発は、センサ構成特性を維持しながらこれら
のセンサからキャプチャされる訓練データを拡張するために、様々なタイプのセンサに適
用することができる。
【0023】
画像収集システム140は、画像収集システム140の環境から情報をキャプチャする
センサのセットを有する。単一の画像収集システム140が示されているが、多くの画像
収集システム140が、モデル訓練システム130のための画像をキャプチャすることが
できる。画像収集システム140のためのセンサは、画像収集システム140にわたって
同じまたは実質的に同じであり得るセンサ特性を有する。一実施形態における画像収集シ
ステムは、環境内を移動し、カメラによって環境の画像をキャプチャする車両または他の
システムである。画像収集システム140は、手動で操作されてもよく、または、部分的
もしくは完全に自動化された車両によって操作されてもよい。したがって、画像収集シス
テム140が環境を移動するとき、画像収集システム140は、環境の画像をキャプチャ
し、モデル訓練システム130に送信することができる。
【0024】
モデル適用システム110は、画像収集システムと同じまたは実質的に同じセンサ特性
を有するセンサのセットを有するシステムである。いくつかの例では、モデル適用システ
ム110は、画像収集システム130としても機能し、キャプチャされるセンサデータ(
例えば、画像)を、さらなる訓練データとして使用するためにモデル訓練システム130
に提供する。モデル適用システム110は、モデル訓練システム130から訓練されたモ
デルを受信し、そのセンサによって感知されるデータと共にモデルを使用する。画像収集
システム140およびモデル適用システム110からキャプチャされる画像は同じカメラ
構成を有するため、モデル適用システム110は、画像収集システムと同じ方法で、同じ
視点(または実質的に同様)からその環境をキャプチャすることができる。モデルを適用
した後、モデル適用システム110は、様々な目的のためにモデルの出力を使用すること
ができる。例えば、モデル適用システム110が車両である場合、モデルは画像内の物体
の存在を予測することができ、これは、安全システムの一部として、または自律(または
半自律)制御システムの一部としてモデル適用システム110によって使用され得る。
【0025】
図2は、同じカメラ特性によってキャプチャされる例示的な画像を示す図である。この
例では、画像200Aは、画像収集システム130上のカメラによってキャプチャされる
。別の画像200Bもまた、画像収集システム130によってキャプチャされてもよく、
この画像収集システムは同じ画像収集システムであってもよく、または異なる画像収集シ
ステム130であってもよい。異なる環境および環境内の異なる物体をキャプチャしてい
る間、これらの画像は、環境をキャプチャする画像に対するカメラ特性を維持する。カメ
ラ特性は、環境がカメラ内でどのように見えるかに影響を与えるカメラの構成および向き
の特性を指す。例えば、これらのカメラ特性は、環境に対するカメラの角度、スケール、
および態勢(例えば、見る位置)を含むことができる。画像がキャプチャされる同じ環境
に対するカメラの角度、スケール、または位置を変更すると、環境の画像が変化する。例
えば、より高い位置に配置されたカメラは、異なる高さから物体を見、その物体の下側の
位置とは異なる部分を示す。同様に、これらの画像は、解析されるべき環境の一部ではな
いカメラ構成に起因する、画像内の一貫したアーチファクトおよび効果を含む。例えば、
画像200Aと200Bの両方は、フロントガラスからのグレアおよび他の効果を含み、
画像の右下側の物体は環境を遮蔽し、フロントガラスは画像の下部を遮蔽する。したがっ
て、同じカメラ特性からキャプチャされる画像は、典型的には、同じアーチファクト、歪
みを提示し、同じ方法で環境をキャプチャする。
【0026】
図3は、一実施形態による、モデル訓練システム130の構成要素を示す。モデル訓練
システムは、コンピュータモデルを訓練するための様々なモジュールおよびデータストア
を含む。モデル訓練システム130は、モデルの一般化を改善するために画像収集システ
ム140からの画像を拡張することによって、モデル適用システム110によって使用さ
れるモデルを訓練する。拡張画像は、画像のカメラ構成に影響を及ぼさない(例えば、維
持する)画像操作機能を用いて生成される。これは、モデルパラメータが一貫したカメラ
特性に関連する重みをより近密に学習することを可能にしながら、画像間で異なり得る画
像の態様についての過剰適合をより選択的に回避するモデルパラメータの一般化を可能に
しながら、より効果的なモデリングを可能にする。
【0027】
モデル訓練システムは、画像収集システム140から画像を受信するデータ入力モジュ
ール310を含む。データ入力モジュール310は、これらの画像を画像データストア3
50に格納することができる。データ入力モジュール310は、データ収集システム14
0によって生成または提供されるものとしての画像を受信してもよく、または、画像収集
システム140から画像を要求してもよい。
【0028】
ラベリングモジュール320は、画像データ350内の画像においてラベルを識別また
は適用することができる。いくつかの例では、画像はすでに識別された特性を有していて
もよい。ラベルはまた、訓練されたモデルによって予測または出力されるデータを表すこ
とができる。例えば、ラベルは、画像に示される環境内の特定の物体を指定することがで
き、または画像に関連付けられた記述子または「タグ」を含むことができる。モデルの用
途に応じて、ラベルは様々な方法でこの情報を表すことができる。例えば、物体は、画像
内のバウンディングボックスに関連付けられてもよく、または物体は、画像の他の部分か
らセグメント化されてもよい。したがって、ラベル付き画像は、モデルがそれに対して訓
練されるグラウンドトゥルースを表すことができる。画像は、任意の適切な手段によって
ラベリングされてもよく、典型的には、教師ありラベリングプロセス(例えば、ユーザが
画像を検討し、画像のラベルを指定することによってラベリングされる)によってラベリ
ングされてもよい。次いで、これらのラベルを画像データストア350内の画像に関連付
けることができる。
【0029】
画像拡張モジュール330は、画像収集システム140によってキャプチャされる画像
に基づいて追加の画像を生成することができる。これらの画像は、モデル訓練モジュール
340の訓練パイプラインの一部として生成されてもよく、またはこれらの拡張画像は、
モデル訓練モジュール340において訓練を開始する前に生成されてもよい。拡張画像は
、画像収集システム140によってキャプチャされる画像に基づいて生成することができ
る。
【0030】
図4は、一実施形態による、ラベル付き訓練画像400に基づく拡張画像の生成例を示
す。ラベル付き訓練画像は、画像収集システム140によってキャプチャされる画像であ
ってもよい。訓練画像410は、ラベル付き訓練画像400内のラベル付きデータに対応
する関連付けられた訓練出力420Aを有する、拡張されていない訓練画像410Aを含
むことができる。
【0031】
画像拡張モジュール330は、ラベル付き訓練画像400に画像操作機能を適用するこ
とによって拡張画像を生成する。画像操作機能は、モデルを訓練するために画像の特性を
変化させるために、ラベル付き訓練画像400の修正バージョンを生成する。訓練画像を
生成するために使用される画像操作機能は、ラベル付き訓練画像400のカメラ特性を維
持する。したがって、操作機能は、様々なデバイスにわたって一貫し得る環境をキャプチ
ャするときに、カメラの物理的キャプチャ特性またはカメラの位置によって影響を受け得
る環境のビューのスケール、視点、向き、および他の特性を維持することができる。した
がって、画像操作機能は、物体または環境の他の特徴がどのように視認可能であるか、ま
たはこれらがシーン内でどの程度明瞭に見えるかに影響を及ぼすことができるが、画像内
の物体の位置またはサイズには影響を及ぼさないことができる。カメラ特性を維持する、
適用され得る例示的な画像操作機能は、切り取り、ジッタ(例えば、色相、彩度、または
色値の)、ごま塩(黒および白のドットを導入する)、ぼけ、およびドメイン移行を含む
。これらの画像操作機能のうちの複数を組み合わせて適用して、拡張画像を生成すること
ができる。切り取りとは、画像の一部を除去し、除去した部分を他の画像内容に置き換え
る画像操作機能を指す。ドメイン移行は、画像内の別の環境条件に対応するように画像を
変更する画像操作機能を指す。例えば、日中の画像を、夜間に画像がどのように見えるか
を近似するように変更することができ、または日の当たる場所で撮影された画像を、雨も
しくは雪の効果を加えるように変更することができる。
【0032】
これらの拡張画像は、ラベル付き訓練画像400と同じ訓練出力に関連付けることがで
きる。図4に示す例では、拡張画像410Bは、ラベル付き訓練画像400に切り取りを
適用することによって生成され、拡張画像410Bは訓練出力420Bに関連付けられ得
る。同様に、訓練画像410Cを生成するために、画像の複数の部分を変更するために複
数の切り取りが適用される。この例では、訓練画像410Cを生成するために適用される
切り取りは、異なるパターンで画像の切り取り領域を埋める。
【0033】
様々な実施形態において、切り取りは、訓練画像および画像内の訓練出力の位置に基づ
いて変化し得る様々なパラメータおよび構成を用いて適用されてもよい。したがって、切
り取りの数、サイズ、位置、および置換画像内容は、異なる実施形態において、訓練出力
の位置に基づいて変化してもよい。例として、切り取り機能は、同様のサイズの複数の切
り取りを適用することができ、または、ある範囲内の異なる半ランダム化されたサイズの
いくつかの切り取りを適用することができる。複数の切り取りを使用し、サイズを変える
ことによって、切り取りは、(様々なサイズの)現実世界の障害物が物体を見ることに及
ぼす影響をより近密にシミュレートすることができ、訓練されたモデルが任意の1つの特
定のサイズの切り取りを補償するように学習するのを妨げることができる。
【0034】
切り取りのサイズの範囲は、画像内の物体または他のラベルのサイズの一部分に基づい
てもよい。例えば、切り取りは、画像内の物体のバウンディングボックスのサイズの40
%以下であってもよく、または、最小の物体のバウンディングボックスより小さくてもよ
い。これにより、切り取りが対象物体を完全に不明瞭にしないこと、したがって、画像が
、モデルがそこから学習することができる物体の画像データを含み続けることを保証する
ことができる。切り取りの数はまた、ランダム化され、均一分布、ガウス分布、または指
数分布などの分布から選択されてもよい。
【0035】
さらに、切り取りの位置は、画像内の物体の位置に基づいて選択されてもよい。これは
、バウンディングボックスとのいくらかの、ただし過度ではない重なりをもたらし得る。
物体と切り取り領域との間の交差は、切り取りによって置き換えられている物体の部分に
よって測定されてもよく、または、物体と切り取り領域との交差を物体の面積と切り取り
領域との和集合によって除算することによって測定され得る交差オーバーユニオン(Io
U)によって測定されてもよい。例えば、切り取り領域は、20%~50%の範囲内の交
差オーバーユニオン値を有するように配置されてもよい。したがって、切り取りにいくら
かの、ただし多大ではない量の物体を含めることによって、切り取りは、関連する画像デ
ータをあまりにも多く除去することなく物体を部分的に不明瞭にするより「困難な」例を
作成することができる。同様に、画像内のカメラの予測ビューに基づいて、画像の特定の
部分に切り取りを選択することもできる。例えば、底部は典型的には常に存在するアーチ
ファクトを含み得るが、画像の中心は最も関心のある領域(例えば、車両の場合、多くの
場合は、車両の進行方向である)であり得るため、切り取りは主に画像の下半分または画
像の中心に位置し得る。
【0036】
切り取り領域に対する置換画像データは、ベタ色(例えば、一定)であってもよく、ま
たは、ガウスノイズなどの別のパターンであってもよい。別の例として、閉塞または他の
障害物を表すために、切り取りは、同じ画像タイプまたはラベルを有する別の画像からの
画像データのパッチと置き換えられてもよい。最後に、切り取りは、例えばポアソン合成
によって、切り取りの近くの領域と合成することができる。背景パッチまたは合成などの
様々な合成手法を使用することにより、これらは、切り取り内の置換データが環境と区別
することがより困難であることを保証し、したがって現実世界の障害物により類似した例
を提供することができる。
【0037】
図4においては矩形領域として示されているが、拡張画像を生成する際に適用される切
り取りは、他の実施形態では種々の形状に変化してもよい。拡張画像410B、410C
を生成し、拡張画像を関連する訓練出力420B、420Cに関連付けた後、画像拡張モ
ジュール330は、画像データストア350にこれらの画像を追加することができる。
【0038】
モデル訓練モジュール340は、画像収集システム140によってキャプチャされる画
像および画像拡張モジュール330によって生成される拡張画像に基づいてコンピュータ
モデルを訓練する。これらの画像は、モデル訓練のための画像訓練セットとして使用する
ことができる。一実施形態では、機械学習モデルは、訓練データに基づいてモデル訓練モ
ジュール340によって訓練される、フィードフォワードネットワーク、畳み込みニュー
ラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)、リカレント
ニューラルネットワーク(RNN)、自己組織化マップ(SOM)などのニューラルネッ
トワークモデルである。訓練後、コンピュータモデルは、訓練済みコンピュータモデルス
トア370に格納することができる。モデルは、センサデータ(例えば、画像)を入力と
して受け取り、モデルの訓練に従って出力予測を出力する。モデルを訓練する際に、モデ
ルは、訓練データの損失関数によって評価されるものとして、入力画像に基づいて出力を
予測するパラメータのセットを学習する(または「訓練する」)。すなわち、訓練中、訓
練データは、予測を生成するために現在のパラメータセットに従って評価される。訓練入
力についてのその予測は、(例えば、損失関数を用いて)損失を評価するために指定の出
力(例えば、ラベル)と比較することができ、パラメータは、損失関数を低減するように
パラメータセットを最適化するために最適化アルゴリズムを介して修正することができる
。「最適化」と呼ばれているが、これらのアルゴリズムは、パラメータセットに関して損
失を低減することができるが、入力のセットを所与としてパラメータの「最適な」値を求
めることが保証されない場合がある。例えば、勾配降下最適化アルゴリズムは、大域的最
小値ではなく、極小値を求めることができる。
【0039】
拡張訓練データに対してコンピュータモデルを訓練することにより、コンピュータモデ
ルは、キャプチャされているデータのセンサ特性を有する環境において動作する物理セン
サからのセンサデータに適用されるときに、改善された正確度で実行することができる。
拡張はこれらの特性を維持するため、これらのセンサ特性(例えば、カメラ特性)は、デ
ータの訓練に使用される画像内で表現される。一実施形態では、訓練データは、画像をト
リミング、パディング、反転(垂直または水平)、またはアフィン変換(例えば、せん断
、回転、並進、スキュー)を適用する操作など、画像のカメラ特性を変更する画像操作機
能によって生成される拡張画像を含まない。
【0040】
訓練後、モデル配布モジュール380は、訓練されたモデルを適用するために、訓練さ
れたモデルをシステムに配布することができる。特に、モデル配布モジュール380は、
モデル適用システム110のセンサに基づいて画像の特性を検出する際に使用するために
、訓練されたモデル(またはそのパラメータ)をモデル適用システム110に送信するこ
とができる。したがって、モデルからの予測を、モデル適用システム110の動作におい
て、例えば、モデル適用システム110の物体検出および制御において使用することがで
きる。
【0041】
本発明の実施形態の前述の説明は、例示を目的として提示されており、網羅的であるこ
と、または本発明を開示された正確な形態に限定することは意図されていない。当業者は
、上記の開示に照らして多くの変更および変形が可能であることを理解することができる
【0042】
本明細書のいくつかの部分は、情報に対する操作のアルゴリズムおよび記号表現に関し
て本発明の実施形態を説明している。これらのアルゴリズム記述および表現は、データ処
理分野の当業者によって、それらの作業の内容を他の当業者に効果的に伝えるために一般
的に使用される。これらの動作は、機能的、計算的、または論理的に説明されているが、
コンピュータプログラムまたは同等の電気回路、マイクロコードなどによって実装される
と理解されたい。さらに、一般性を失うことなく、これらの動作の構成をモジュールとし
て参照することが時には便利であることも証明されている。記載された動作およびそれら
に関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれら
の任意の組み合わせにおいて具現化され得る。
【0043】
本明細書に記載されたステップ、動作、またはプロセスのいずれも、単独で、または他
のデバイスと組み合わせて、1つまたは複数のハードウェアまたはソフトウェアモジュー
ルによって実施または実装することができる。一実施形態では、ソフトウェアモジュール
は、記載されたステップ、動作、またはプロセスのいずれかまたはすべてを実施するため
にコンピュータプロセッサによって実行することができる、コンピュータプログラムコー
ドを含むコンピュータ可読媒体を備えるコンピュータプログラム製品によって実装される
【0044】
本発明の実施形態はまた、本明細書の動作を実施するための装置(例えば、システム)
に関し得る。この装置は、必要な目的のために特別に構成されてもよく、および/または
、コンピュータに格納されているコンピュータプログラムによって選択的に起動もしくは
再構成される汎用コンピューティングデバイスを備えてもよい。コンピューティングデバ
イスは、1つまたは複数のプロセッサおよび/またはコンピュータシステムのシステムま
たはデバイスであってもよい。そのようなコンピュータプログラムは、非一時的有形コン
ピュータ可読記憶媒体、またはコンピュータシステムバスに結合され得る、電子命令を記
憶するのに適した任意の種類の媒体に記憶されてもよい。さらに、本明細書において言及
される任意のコンピューティングシステムは、単一のプロセッサを含んでもよく、または
コンピューティング能力を高めるために複数のプロセッサ設計を利用するアーキテクチャ
であってもよい。
【0045】
本発明の実施形態はまた、本明細書に記載の計算プロセスによって生成される製品に関
し得る。そのような製品は、計算プロセスから生じる情報を含むことができ、情報は、非
一時的有形コンピュータ可読記憶媒体に記憶され、本明細書に記載のコンピュータプログ
ラム製品または他のデータの組み合わせの任意の実施形態を含むことができる。
【0046】
最後に、本明細書において使用される文言は、主に読みやすさおよび説明目的のために
選択されており、本発明の主題を描写または限定するために選択されたものではあり得な
い。したがって、本発明の範囲は、この詳細な説明によってではなく、本明細書に基づく
出願に関して発行される任意の特許請求項によって限定されることが意図される。したが
って、本発明の実施形態の開示は、添付の特許請求の範囲に記載されている本発明の範囲
の例示であるが、これを限定するものではないことが意図されている。
図1
図2
図3
図4
【手続補正書】
【提出日】2023-08-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
予測コンピュータモデルのパラメータのセットを訓練するための方法であって、
1つまたは複数の画像収集システムに固定されている間にカメラのセットによってキャプチャされる画像のセットを識別するステップと、
前記画像のセット内の各画像について、該画像の訓練出力を識別するステップと、
前記画像のセット内の1つまたは複数の画像について、拡張画像のセットの拡張画像を生成するステップであって、
前記画像のカメラ特性を維持する画像操作機能を用いて該画像を変更することによって拡張画像のセットの拡張画像を生成すること、および、
前記拡張訓練画像を前記画像の前記訓練出力と関連付けることによって、拡張画像のセットの拡張画像を生成するステップと、
前記画像および前記拡張画像のセットを含む画像訓練セットに基づいて前記訓練出力を予測するように前記予測コンピュータモデルのパラメータのセットを訓練するステップと、を含む、方法。
【外国語明細書】