IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エイアイモーティブ、コルラートルト、フェレレーシュシェーギュー、タールシャシャーグの特許一覧

特表2025-505648半擬似ラベルを使用したニューラルネットワーク訓練方法
<>
  • 特表-半擬似ラベルを使用したニューラルネットワーク訓練方法 図1
  • 特表-半擬似ラベルを使用したニューラルネットワーク訓練方法 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-02-28
(54)【発明の名称】半擬似ラベルを使用したニューラルネットワーク訓練方法
(51)【国際特許分類】
   G06V 10/774 20220101AFI20250220BHJP
   G06T 7/00 20170101ALI20250220BHJP
   G06T 7/70 20170101ALI20250220BHJP
   G06T 7/593 20170101ALI20250220BHJP
   G06N 20/00 20190101ALI20250220BHJP
【FI】
G06V10/774
G06T7/00 350B
G06T7/00 650Z
G06T7/70 A
G06T7/593
G06N20/00 130
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024546429
(86)(22)【出願日】2023-02-02
(85)【翻訳文提出日】2024-09-12
(86)【国際出願番号】 EP2023052594
(87)【国際公開番号】W WO2023148285
(87)【国際公開日】2023-08-10
(31)【優先権主張番号】22154927.2
(32)【優先日】2022-02-03
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】524292743
【氏名又は名称】エイアイモーティブ、コルラートルト、フェレレーシュシェーギュー、タールシャシャーグ
【氏名又は名称原語表記】aiMotive Kft.
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【弁理士】
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100202429
【弁理士】
【氏名又は名称】石原 信人
(72)【発明者】
【氏名】ダーニエル、アーコス、コズマ
(72)【発明者】
【氏名】タマース、マトゥスカ
(72)【発明者】
【氏名】アーコス、ウタシ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA04
5L096EA03
5L096FA16
5L096FA62
5L096FA64
5L096FA66
5L096FA69
5L096GA10
5L096GA30
5L096GA34
5L096HA11
5L096KA04
(57)【要約】
本発明は、データセットのデータポイントの少なくとも一部のためのデータポイントおよびグラウンドトゥルースラベルを含むデータセットに基づいて複雑な機械学習モデルを訓練するための方法を提供し、データポイントは画像を含み、本方法は、
データセット用の擬似ラベルを予測するために複雑度低減機械学習モデルを使用するステップと、
グラウンドトゥルースラベルおよび擬似ラベルを出力として含む拡張データセットを使用して複雑な機械学習モデルを訓練するステップと
を含む。
【特許請求の範囲】
【請求項1】
データセットのデータポイントの少なくとも一部のための前記データポイントおよびグラウンドトゥルースラベルを含む前記データセットに基づいて複雑な機械学習モデルを訓練するための方法であって、前記データポイントは画像を含み、
前記データセット用の擬似ラベルを予測するために複雑度低減機械学習モデルを使用するステップ(210)と、
前記グラウンドトゥルースラベルおよび前記擬似ラベルを出力として含む拡張データセットを使用して前記複雑な機械学習モデルを訓練するステップ(220)と、
を含む、方法。
【請求項2】
グラウンドトゥルースラベルが、3D境界ボックスの座標、寸法、および/または向きを含み、
擬似ラベルが、2D境界ボックスの座標、寸法、および/または向きを含み、ならびに/あるいは
グラウンドトゥルースラベルおよび/または擬似ラベルが、物体カテゴリのセットに対するオブジェクトネススコアおよび/または確率を含む、
請求項1に記載の方法。
【請求項3】
前記グラウンドトゥルースラベルが、前記データセットの注釈付き領域(110a、110b、110c)内の物体のラベルであり、前記データセットが、前記データセットの前記注釈付き領域の外側にある物体に対するラベルなしデータポイントを含み、好ましくは、前記注釈付き領域が、カメラの近距離場(130)に対応し、注釈なし領域(112a、112b、112c)が、前記カメラの遠距離場(132)に対応する、請求項1から2のいずれか一項に記載の方法。
【請求項4】
3Dデータを取得するステップと、
前記3Dデータを仮想的に取り込む仮想カメラに基づいて虚像で前記データセットを拡張するステップと、
をさらに含み、
前記画像を取得するステップが、前記仮想カメラの位置を移動して、移動されたカメラ位置からシフトおよび/またはズームされた画像を取得するステップを含む、
請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記移動されたカメラ位置から画像を取得する前記ステップが、前記3Dデータ内の位置の2D画像へのマッピングを記述するカメラ行列を調整するステップを含み、好ましくは、前記カメラ行列を調整するステップが、元のカメラ行列および2Dスケーリングに基づいて前記主点および前記焦点距離を調整するステップを含む、請求項4に記載の方法。
【請求項6】
前記画像に基づいて、擬似ラベルを予測する必要がある物体を検出する初期のステップ、および/または
前記データセットが既にグラウンドトゥルースラベルを含む擬似ラベルを除去するために重複排除を実行するステップ
をさらに含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
重複排除を実行する前記ステップが、
擬似ラベルの2D境界ボックスとグラウンドトゥルースラベルの3D境界ボックスの2D投影との和集合に対する交点の比を決定するステップと、
比が所定の閾値よりも大きい場合、前記擬似ラベルを前記拡張データセットから除去するステップと、
を含む、
請求項6に記載の方法。
【請求項8】
前記複雑な機械学習モデルを訓練する前記ステップが、グラウンドトゥルースラベルが利用できない3D特性に対応する誤差寄与にペナルティを課さない損失関数を使用するステップを含み、好ましくは、ブール型フラグが、ラベルがグラウンドトゥルースラベルであるか予測擬似ラベルであるかを前記拡張データセットにおいて示すために使用される、請求項1から7のいずれか一項に記載の方法。
【請求項9】
自動運転中に物体を検出するために前記複雑な機械学習モデルを使用するステップをさらに含み、前記ラベルが、好ましくは車両、二輪車、歩行者、交通標識、および信号機のうちの1つまたは複数を含む物体クラスを含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記複雑な機械学習モデルが、3D直方体の前記2D投影の予測および予測深度に基づいて前記3D直方体の中心点を予測するために使用される、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記深度が、カメラのベースライン、焦点距離および深度に基づいて計算された視差に基づいて予測され、および/または予測深度が、現在のカメラの焦点距離に基づいて調整される、請求項10に記載の方法。
【請求項12】
前記複雑な機械学習モデルが、第1のタスクおよび第2のタスクを並行して解決するように構成されるマルチタスク機械学習モデルであり、前記複雑度低減機械学習モデルが、前記第1のタスクを解決するように構成され、好ましくは、前記第1のタスクが2D境界ボックスの予測を含み、前記第2のタスクが3D境界ボックスの予測を含む、請求項1から11のいずれか一項に記載の方法。
【請求項13】
前記複雑な機械学習モデルの訓練が、
3D直方体の3D投影に基づく投影損失項と、
左右のステレオ画像上の2D投影された3D境界ボックスの中心点間の視差に基づく視差損失項と、
左右のステレオ画像上の3D境界ボックスの2D投影の幅の差に基づく幅損失項と、
のうちの1つまたは複数を含む損失項を使用するステップを含む、請求項1から12のいずれか一項に記載の方法。
【請求項14】
請求項1~13のいずれか一項に記載の方法を実行するように構成された装置。
【請求項15】
プロセッサによって実行されると、請求項1から13のいずれか一項に記載の方法を実行する命令を含むプログラムコードを格納する、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データセットのデータポイントの少なくとも一部のためのデータポイントおよびグラウンドトゥルースラベルを含むデータセットに基づいて複雑な機械学習モデルを訓練するための方法に関する。
【0002】
本発明はまた、そのような方法を実行するための命令を含むプログラムコードを格納するコンピュータ可読記憶媒体に関する。
【背景技術】
【0003】
物体検出は、それ自体が高速かつ正確な障害物検出に依存する知覚システムの上部にますます複雑な層が構築されるため、自動運転システムの重要な部分である。物体検出は、典型的には、教師あり学習によって訓練された畳み込みニューラルネットワークによって実行される。教師あり学習は、モデルに入力データが供給される方法であり、その主な目的は、入力データを対応する出力にマッピングする関数を学習することである。視覚領域の最良のモデルである畳み込みニューラルネットワークは非常に過パラメータ化されているため、マッピング関数を学習するために大量の注釈付きデータが必要とされる。したがって、十分な品質および量でデータに注釈を付けるためにかなりの量の手動の労力が必要とされ、これは高価でエラーが発生しやすい方法である。さらに、正確なグラウンドトゥルースデータを取得することは、人間またはセンサの制約のために不可能な場合がある。例えば、LiDARの検出範囲は、幹線道路上の位置および場所の変化が速いために自動運転システムがその存在を知らなければならない遠い物体の注釈を制限する。レーダは、この種の制限を克服することができるが、より視野が狭く、関心のある物体のカテゴリのサブセットのみがそれによって検出可能である。人間の限界は、例えば、LiDARまたはレーダ検出によって収集された点群などの3Dの手がかりなしに2D画像から3D内の物体の空間位置を正確に推定することができないことである。その結果、この制限を克服し、リアルタイムの用途のため正確な3D物体検出を可能にするために、現在の訓練方法を拡張するための新規な解決策が必要とされている。
【0004】
ニューラルネットワーク訓練を容易にするために、いくつかの手法が開発されている。最も一般的な解決策の1つは、ニューラルネットワークがImageNetなどの特定のデータセットで訓練され、次いで別のデータセット(例えば、自動車を認識するように訓練されたモデルは、転移学習を使用してトラックを分類するように訓練することができる)で微調整される転移学習である。ラベル化されていないデータを利用してプロキシタスクを実行するモデルを訓練し、次いでそれを下流のタスクで教師付きの方法で微調整する自己教師あり学習は、言語モデルにおけるブレークスルーをもたらした。擬似ラベリングは、訓練中に真のラベルと同じモデルの予測を使用する単純な解決策である。しかしながら、これらの解決策のいずれも、モデルが訓練分布の一部ではない予測を作成するのを助けるものではない。
【発明の概要】
【0005】
本発明の目的は、従来技術の上述の問題の1つまたは複数を克服する、複雑な機械学習モデルを訓練するための方法および装置を提供することである。
【0006】
本発明の第1の態様は、データセットのデータポイントの少なくとも一部のためのデータポイントおよびグラウンドトゥルースラベルを含むデータセットに基づいて複雑な機械学習モデルを訓練するための方法を提供し、データポイントは画像を含み、本方法は、
データセット用の擬似ラベルを予測するために複雑度低減機械学習モデルを使用するステップと、
グラウンドトゥルースラベルおよび擬似ラベルを出力として含む拡張データセットを使用して複雑な機械学習モデルを訓練するステップと
を含む。
【0007】
第1の態様の方法は、物体が画像内に見えるが、ラベル付けされていないか、または完全にラベル付けされていないという意味で「不完全」であり得る初期データセットに基づいて、拡張データセットを自動的に作成することができ、拡張データセットが(複雑な)機械学習モデルを訓練するために使用されるという利点を有する。これにより、訓練データが不足している場合でも、最適な機械学習を行うことができる。
【0008】
擬似ラベルは、それらがグラウンドトゥルースデータセットの一部ではなく、複雑度低減機械学習モデルによって推定されるという意味で「擬似」であり得る。実験は、たとえ擬似ラベルの一部が人間のラベリングと比較して正しくない可能性があることが判明したとしても、これらの擬似ラベルが機械学習モデルの精度を向上させるのに役立つ可能性があることを示している。
【0009】
データポイントは、それらが訓練のための入力として提供されているという意味で入力データポイントであってもよく、ラベルは出力を含む。
【0010】
データポイントは画像を含む。例えば、機械学習モデルは、画像内の物体を検出するように訓練されてもよい。そのようにして、各データポイントは、0個、1つまたは複数の物体を含むことができる。例えば、画像は、車の周囲の画像であってもよく、物体は、車両、二輪車、歩行者、交通標識、および信号機など、車をナビゲートすることに関連する物体であってもよい。
【0011】
第1の態様による方法の第1の実施態様では、グラウンドトゥルースラベルは、3D境界ボックスの座標、寸法、および/または向きを含み、擬似ラベルは、2D境界ボックスの座標、寸法、および/または向きを含み、ならびに/あるいはグラウンドトゥルースラベルおよび/または擬似ラベルは、物体カテゴリのセットに対するオブジェクトネススコアおよび/または確率を含む。
【0012】
ここで、2D境界ボックスの向きは、角度方向、例えば水平線に対する2D境界ボックスの角度を指すことができる。
【0013】
この実施態様には、物体に対する境界ボックスを予測できるという利点がある。
【0014】
3D境界ボックスは直方体に対応し得るが、2D境界ボックスは長方形であり得ることが理解される。オブジェクトネススコアは、上述の境界ボックス内で見えるものが物体である可能性の高さを示すスコアであってもよい。
【0015】
さらなる実施態様では、グラウンドトゥルースラベルは、データセットの注釈付き領域内の物体のラベルであり、データセットは、データセットの注釈付き領域の外側にある物体のラベルなしデータポイントを含み、好ましくは、注釈付き領域は近距離場であり、注釈なし領域はカメラの遠距離場である。
【0016】
この実施態様は、特に、制限された範囲を有するセンサに基づいて自動運転のための訓練データセットを取得するという状況において使用することができる。例えば、センサは、1つまたは複数のLiDARセンサの特定の近距離場内でのみ物体を識別することができる1つまたは複数のLiDARセンサを備えることができる。そのような場合、必要な動作範囲内の物体は、カメラを使用して取得された画像で見ることができるが、ラベルは、1つまたは複数のLiDARセンサの範囲内にある物体についてのみ、LiDARデータを使用して取得することができる。
【0017】
さらなる実施態様では、本方法は、
3Dデータを取得するステップと、
3Dデータを仮想的に取り込む仮想カメラに基づいて虚像でデータセットを拡張するステップと、
をさらに含み、
画像を取得するステップは、仮想カメラの位置を移動して、移動されたカメラ位置からシフトおよび/またはズームされた画像を取得するステップを含む。
【0018】
この実施態様は、仮想カメラを使用して仮想的に取り込まれた虚像を使用して元のデータセットを拡張できるという利点を有する。
【0019】
データセットの画像の一部は実際のカメラで取得されていてもよいが、他の画像は仮想カメラを使用して仮想的に取得されていてもよいことが理解される。言い換えれば、データセットは、3Dデータから取得された虚像のみを含むことができる。
【0020】
好ましくは、3Dデータは、LiDARを使用して、および/または他の3D撮像システムを使用して取得されている。
【0021】
好ましくは、3Dデータはデータセットの一部である。3Dデータはラベルを含むことができる。上記で概説したように、注釈は不完全である可能性があり、3Dデータ内のいくつかの物体はラベルなしである可能性がある。仮想カメラが移動すると、ラベルなし物体が仮想カメラの仮想視野に移動する可能性がある。したがって、そのようなラベルなし物体の擬似ラベリングは、その状況において特定の関連性があってよい。
【0022】
さらなる実施態様では、移動されたカメラ位置から画像を取得するステップは、3Dデータ内の位置の2D画像へのマッピングを記述するカメラ行列を調整するステップを含む、
好ましくは、カメラ行列を調整するステップは、元のカメラ行列および2Dスケーリングに基づいて主点および焦点距離を調整するステップを含む。カメラによるズームインは、複雑にカメラ行列に影響を与えることが理解される。したがって、カメラ位置の仮想シフトに基づいて取得された虚像が有効な訓練点であるように、虚像取得はこれらの変化を反映する必要があり、すなわち、それらは、そのような主点および焦点距離を有するカメラを使用して取得された場合に実際の画像がどのように見えるかを正確に反映する。
【0023】
さらなる実施態様では、本方法は、データセットが既にグラウンドトゥルースラベルを含む擬似ラベルを除去するために重複排除を実行するステップを含む。
【0024】
これは、グラウンドトゥルースラベルが利用可能である場合、より低品質であり得る擬似ラベルではなくグラウンドトゥルースラベルに対してのみ訓練が実行されることを確実にすることができるという利点を有する。
【0025】
さらなる実施態様では、本方法は、画像に基づいて、擬似ラベルを予測する必要がある物体を検出する初期ステップをさらに含む。
【0026】
この実施態様では、手動注釈は必要なく、この目的のために既製の2D物体検出器を使用することができ、例えばFCOS検出器、完全畳み込み一段階物体検出を使用することができる。好ましい実施形態では、単純な複雑度低減機械学習モデルもまた、物体を検出するために使用されている。
【0027】
任意選択で、物体の存在を検出するために単純なアルゴリズムを使用することができ、物体のラベルを決定するために複雑度低減機械学習モデルが使用される。
【0028】
好ましい実施形態では、重複排除を実行するステップは、
擬似ラベルの2D境界ボックスとグラウンドトゥルースラベルの3D境界ボックスの2D投影との和集合に対する交点の比を決定するステップと、
比が所定の閾値よりも大きい場合、擬似ラベルを拡張データセットから除去するステップと、
を含む。
【0029】
この実施態様は、例えば、複雑度低減機械学習モデルが、1つまたは複数の2D画像、例えばステレオ画像に基づいて2D境界ボックスを含むラベルを予測するシナリオに適用可能である。2D画像におけるこの物体検出は、グラウンドトゥルースデータセットにおいて既にラベル付けされている物体を検出することができる。しかしながら、この場合、擬似ラベルの2D境界ボックスは、同じ物体に対応するグラウンドトゥルースラベルの3D境界ボックスの2D投影と高いオーバーラップを有することが期待される。したがって、本実施形態は、効率的かつ高精度にラベルの重複を排除することができる。
【0030】
さらなる実施態様では、複雑な機械学習モデルの訓練は、所与のグラウンドトゥルースデータに対する利用可能な3D特性に応じて損失項を無効にする損失関数を使用することを含む。好ましくは、ブールフラグは、ラベルがグラウンドトゥルースラベルであるか予測擬似ラベルであるかを拡張データセット内で示すために使用される。
【0031】
これは、実際には3D位置に関するグラウンドトゥルース情報が利用できないデータポイントによって訓練が歪められないという利点を有する。
【0032】
さらなる実施態様では、本方法は、自動運転における物体検出のために複雑な機械学習モデルを使用するステップをさらに含む。
【0033】
実験は、第1の態様の方法が自動運転の状況において特に有用であることを示している。
【0034】
好ましくは、ラベルは、好ましくは車両、二輪車、歩行者、交通標識、および信号機のうちの1つまたは複数を含むオブジェクトクラスを含む。
【0035】
さらなる実施態様では、複雑な機械学習モデルは、3D直方体の2D投影の予測および予測された深さに基づいて3D直方体の中心点を予測するために使用される。
【0036】
さらなる実施態様では、深度は、カメラのベースライン、焦点距離、および深度に基づいて計算される視差に基づいて予測される。実験は、これが収束を加速するより滑らかな損失ランドスケープをもたらすことを示している。
【0037】
任意選択で、予測深度は、実際のカメラ、例えば、物体が検出されるべき画像を取得するために使用されるカメラの焦点距離に基づいて調整することができる。
【0038】
訓練データセットに使用されたものとは異なるカメラ設定は問題を引き起こさない。3Dズームを使用するため、プロセスは、異なる焦点距離を有するカメラ設定に対して不変である。この理由は、訓練中に、ズーム拡張を実行するためにカメラの焦点距離を変更するためである。正の副次的効果として、ネットワークがカメラを扱うことを学習するため、これにより、この方法は異なる焦点距離を有するカメラに影響を受けにくくなる。
【0039】
3Dズーム拡張を使用しない場合、異なるカメラ設定の予測深度は、視差および焦点距離を有する式を使用した深度目標の定式化のために依然として誤りではない。しかしながら、3Dズームは問題を解決するのに役立つ。
【0040】
他の実施形態では、調整は、訓練されたモデルを適用するときに使用されるカメラの焦点距離と、訓練データセットを構築するために使用されるカメラの焦点距離との差に基づくことができる。
【0041】
さらなる実施態様では、本方法は、二重注釈を重複排除する重複排除ステップをさらに含む。
【0042】
さらなる実施態様では、複雑な機械学習モデルは、第1のタスクおよび第2のタスクを並行して解決するように構成されるマルチタスク機械学習モデルであり、複雑度低減機械学習モデルは、第1のタスクを解決するように構成される。
【0043】
これは、第1のタスクのみが利用可能なラベルを用いても複雑な機械学習モデルを訓練することができるという利点を有するが、第1のタスクのこの訓練は、(例えば、より困難な)第2のタスクについても改善をもたらす。
【0044】
好ましくは、第1のタスクは2D境界ボックスの予測を含み、第2のタスクは3D境界ボックスの予測を含む。
【0045】
このようにして、複雑な機械学習モデルは、2Dのラベルを有する訓練データならびに3Dのラベルを有する訓練データに基づいて、3Dで正確な予測を行うことを学習することができる。
【0046】
第2の態様の方法のさらなる実施態様では、特にステレオ画像などの多視点画像に基づく複雑な機械学習モデルの訓練は、
3D直方体の3D投影に基づく投影損失項と、
左右のステレオ画像上の2D投影された3D境界ボックスの中心点間の視差に基づく視差損失項と、
左右のステレオ画像上の3D境界ボックスの2D投影の幅の間の差に基づく幅損失項と
のうちの1つまたは複数を含む損失項を使用することを含む。
【0047】
実験は、これらの損失項が正確な予測を得るために特に有用であることを示している。
【0048】
本発明のさらなる態様は、プロセッサによって実行されると、第2の態様または第2の態様の実施態様のうちの1つの方法を実行する命令を含むプログラムコードを格納するコンピュータ可読記憶媒体を指す。
【0049】
本発明の実施形態の技術的特徴をより明確に説明するために、実施形態を説明するために提供される添付の図面を以下に簡単に紹介する。以下の説明における添付の図面は、本発明のいくつかの実施形態にすぎず、これらの実施形態に対する修正は、特許請求の範囲に定義される本発明の範囲から逸脱することなく可能である。
【図面の簡単な説明】
【0050】
図1】画像およびモデル空間データに対するズーム拡張の効果の概略図である。
図2】本発明による方法のフローチャートである。
【発明を実施するための形態】
【0051】
拡張データセットを構築することによる機械学習方法の改善は、従来技術において論じられている。例えば、擬似ラベリングの概念は、深層ニューラルネットワークのための簡単で効率的な自己教師付き方法として[1]に導入されている。擬似ラベリングの主な考えは、訓練されたモデルの予測をグラウンドトゥルースとして考慮することである。ラベルなしデータは、通常は取得が容易であり、訓練されたモデルの予測を使用して注釈を付けることができる。次に、同じモデルがラベル付きデータおよび擬似ラベル付きデータで同時に再訓練される。本発明者らの提案する解決策はこの概念に基づいているが、解決策間には根本的な違いがある。擬似ラベリングは、同じモデルを使用して同じタスクに対してラベルを生成するが、本発明者らの半擬似ラベリング方法は、より複雑なタスクに対して異なるモデルによって生成された擬似ラベルを利用する。[2]において、著者らは、アクティブピクセルセンサで訓練された畳み込みニューラルネットワークを使用して、動的視覚センサ上の物体検出のための擬似ラベルを生成した。本発明者らの解決策と比較した主な違いは、同じタスク、すなわち異なるセンサモダリティでの2D車検出に擬似ラベルが使用されることである。また、NVIDIA特許[3]は、物体検出ニューラルネットワークを訓練するために擬似ラベルを使用している。しかしながら、特許に記載された発明は、タスクが同じではない本発明の解決策とは対照的に、同じタスク、すなわち2D物体検出を実行するニューラルネットワークを訓練するために規則的な擬似ラベリングを使用する。加えて、この解決策は、本発明者らの3D物体検出ネットワークが訓練中に半擬似ラベリングを利用する単一段階アーキテクチャを使用する一方で、リアルタイム基準を満たさない可能性がある2段階ネットワークアーキテクチャを示す区域提案ネットワークの使用を必要とする。IBMは、それらのデータラベリング方法を生成および増強するために、[4]において擬似ラベリングを使用した。彼らの提案した解決策は、ラベル化されていないデータに対する擬似ラベルを作成したが、本発明者らの方法は、より単純なタスクのために作成された注釈付きデータを擬似ラベルとして使用することを可能にし、ラベル化されていないデータに排他的に依存しない。
【0052】
転移学習[5]、[6]は、特定のタスクを実行するためにモデルが訓練され、その知識が別の(関連する)問題を解決するために利用されるときのプロセスである。転移学習は、モデルを(通常は大規模データセット上で)事前訓練し、次いで、訓練された重みを使用するか、または凍結された重みの上に追加の分類器を追加することによってモデルを微調整することによって、このモデルを所与のタスクにカスタマイズすることを含む。転移学習は、転移学習の拡張バージョンと考えることができる本発明者らの提案した方法と類似性を有する関連する問題(例えば、ネコを認識するように訓練された分類器の知識は、イヌを分類するモデルに容易に移すことができる)間で知識を転移するために効果的に使用することができる。しかしながら、本発明者らは、半擬似ラベルを利用して、規則的な転移学習を使用しては解決できない可能性があるより複雑なタスク(2D擬似ラベルを用いた3D物体検出)を実行する。さらに、本発明者らの解決策は、転移学習とは対照的に、異なるタスクの同時学習を可能にする。
【0053】
データ拡張[7]は、幾何学的変換、色空間拡張、ランダム消去、混合画像などを使用して訓練データを拡張し、オーバーフィッティングを防止するための標準的な技術である。ほとんどのデータ拡張技術は2D[18]で動作するが、最近の研究はそれらの領域を3D[8]、[18]に拡張し始めた。本発明者らの知る限り、これらの解決策はいずれも、本発明が提案するように、仮想カメラを使用した3Dにおけるズーム拡張を導入しなかった。限られた知覚範囲を解決しようとする最も近い解決策は、[19]に記載されている。この論文の方法は、画像全体を複数の画像パッチに分解することを提案しており、各画像パッチは、少なくとも1つの車全体を含み、深度変動が制限されている。推論中、実行時間を増加させる推論のために、ピラミッド状の画像のタイリングが生成される。さらに、調査範囲は50メートルを超えなかった。
【0054】
図1に示すように、バニラズーム拡張方法にはいくつかの問題がある。具体的には、図1は、モデル空間100内の物体を示す。
【0055】
左側には、第1の物体114aがデータセットの全カバレッジ範囲130内にある第1の区域110a内にある状況が示されている。全カバレッジ範囲130は、カメラの近距離場130に対応することができる。
【0056】
物体114aは全カバレッジ内にあるので、物体114aのラベルはグラウンドトゥルースとして知られている。第2の物体116aは、ラベル付けされたデータセットの範囲外である第2の区域132内にあるが、依然として要求された動作範囲134内にある。この状況は、2D表示124a、126aが見える元の画像120aを導く。
【0057】
図1の中央には、元の画像120aが縮小されて、物体の縮小された2D表示124b、126bを有する縮小画像120bを取得する状況が示されている。この状況では、注釈付き区域110bは、元のデータセットの制限130の外側に移動している。
【0058】
図1の右側では、元の画像120aは、拡大された表示124c、126cを有する拡大画像120cを得るために拡大されている。これは、両方の物体114a、116aが元のデータセットの範囲130内にあるモデル空間に対応する。
【0059】
動的物体の3D属性を予測するネットワークを訓練するために、モデル空間において正確な3D位置、サイズ、向きのデータが必要とされる。データセットの制限を克服するために解決すべき主な問題は、要求される動作距離範囲134内で画像が可視である、注釈なし物体116a、116b、116cを取り扱うことである。
【0060】
区域112a、112b、112cは、注釈なし物体116a、116b、116cを有する注釈なし区域を表す。範囲134は、開発されたアルゴリズムがすべての物体を検出しなければならない要求される動作領域を表し、範囲130は注釈付きデータの距離限界である。3つの列は、ズーム拡張中の3つのオプションを表す。第1のケース(左)は、拡張されていない元のバージョンである。第2(中央)のケースは、入力画像が縮小され、画像空間内のより遠い物体を模倣するため、モデル空間内の対応するグラウンドトゥルースを一貫して調整する必要がある。第3のケース(右)は、入力画像が拡大されると、物体をカメラに近づける。この図は、変換された事例(第2、第3)上の注釈付き区域が元の注釈なし領域と重複するため、様々なズームレベルを適用する間の不一致を強調している。
【0061】
図1は、バニラズーム拡張を適用する際の不一致を示す。第1のエリア110a、110b、110cは、すべての画像が可視の物体が注釈付きである区域を表し、第2のエリア112a、112b、112cは、本発明者らの注釈が不完全であり偽陰性を含む場所である。開発されたアルゴリズムの動作領域を拡張するためにバニラズーム拡張技術を適用すると、相違が生じるおそれがあり、すなわち、ズーム拡張データセットが図1の元の縮小された画像(ケース#1および#2)を含む場合、GT(グラウンドトゥルース)フレームが互いに矛盾することが分かる。ケース#2では、元のGT限界(区域130の上限)を超える物体を検出する必要があるが、ケース#1では、ラベルなし物体116の存在に関する情報さえないため、損失関数で利用することができない。本発明者らの場合、制限を克服してズーム拡張を実行可能にするために、欠落データ、すなわち少なくとも画像空間内の注釈なし物体を埋めるために追加情報が必要とされる。データ不足は、人間の監督によって補充されてもよいが、これはスケーラブルではないため実行不可能である。擬似ラベリングは有望な解決策であるが、本発明者らの場合、3D情報全体を回復することはできず、2d情報は、ブロッカーを排除し、ズーム拡張を実行可能にするのに十分であり、データセットの制限を広げ、開発された検出アルゴリズムの動作領域を拡張する。事前訓練された最先端の2D境界ボックスネットワークを使用して、すべての画像が可視の物体を検出することができる。この追加情報を使用して、対応する損失項をマスクし、データセットの相違を克服することができる。
【0062】
教師あり学習の主な目的は、近似関数[9]の誤差を形式的に最小化するパラメータの値を学習することによって、入力空間から出力へのマッピングを定義することである。
【数1】
式中、Lは任意の損失関数、Yは回帰対象、Xは入力、Mはθでパラメータ化されたモデルである。
【0063】
教師あり学習を使用してモデルを訓練するために、訓練セットが必要である。
【数2】
式中、
【数3】
は、注釈が利用可能な入力サンプルであり、
【数4】
はグラウンドトゥルースであり、
・ Rはd次元入力空間であり、
・ Cはラベル空間である。
【0064】
擬似ラベリング方法は、ラベル化されていないデータセットのラベルが訓練されたM(X;θ)モデルによって生成される別のデータセットを導入する。
【数5】
式中、
【数6】
は、ラベル化されていないデータからの入力サンプルであり、
【数7】
は、訓練されたモデルによって生成された擬似ラベルである。
【0065】
最終モデルは、注釈付きおよび擬似ラベル付きデータセットの和集合で訓練される。
【0066】
半擬似ラベリングの主な目的は、より複雑なタスクを実行する別のモデルM(XCL;θ)を訓練するためより単純なタスクで訓練されたモデルM(XSL;θ)によって生成された擬似ラベルを利用することである。
【0067】
単純なタスクと複雑なタスクの両方が、それらの特定のタスクのための注釈付き訓練セットを有する。
【数8】
規則的な擬似ラベリング方法と半擬似ラベリング方法との主な差異は、単純なモデルMがラベル化されていないデータ上に擬似ラベルを生成しないことである(ただし、これは実行可能な解決策であり、場合によっては有益であり得る)。むしろ、複合モデルMの入力データを使用して擬似ラベルが生成される。このようにして、複合モデルのラベル空間は、以下の式6に見ることができるように、拡張されてもよい。
【数9】
式中、
【数10】
は、複雑なタスクについての注釈が利用可能である第iの入力サンプルであり、
【数11】
は第iのグラウンドトゥルースラベルであり、
【数12】
は、単純なモデルによって生成された第iの半擬似ラベルである
最終モデルM(XCL;θ)は、半擬似ラベル付き
【数13】
データセットで訓練される。
【0068】
上記の式に関して、本方法は、出力データ点の数が入力データ点の数とは異なる(すなわち、1つの画像はいくつかの物体を含むことができる)物体検出に関連することが指摘されるべきである。式(2)~(6)は、xが入力画像であり、yが画像xのグラウンドトゥルースラベルである(x、y)対としてのラベルに対する一般的な形式を表す。実際には、このラベルは、(物体がその特徴で表される)固定されたサイズの物体の配列とすることができる。検出可能な物体の数がラベルベクトルのサイズよりも小さい場合、実施形態ではゼロで埋めることができる(存在しない物体を示す)。例えば、2つの物体を有する図1の画像1は、最初の2つの要素が物体の特徴であり、残りの3つの要素が空の物体である5つの要素を有する固定されたサイズの配列として表すことができる。
【0069】
label_for_img1=[(img1_obj1_x,img1_obj1_y,img1_obj1_z,…),(img1_obj2_x,img1_obj2_y,img1_obj2_z,…),(0,0,…),(0,0,…),(0,0,…)]
同様に、3つの物体を有する画像2は、以下のように表すことができる。
【0070】
label_for_img2=[(img2_obj1_x,img2_obj1_y,img2_obj1_z,…),(img2_obj2_x,img2_obj2_y,img2_obj2_z,…),(img2_obj3_x,img2_obj3_y,img2_obj3_z,…),(0,0,…),(0,0,…)]
次いで、画像1および画像2のバッチの集合したラベルは、以下のように表すことができる。
【0071】
GT=[label_for_img1,label_for_img2]
これは例示のための概略図にすぎない。
【0072】
上記の式は、グラウンドトゥルースおよび拡張データセットについてm個の要素を指すが、実際には、「拡張データセット」は、通常、元のグラウンドトゥルースよりも多くのラベルを含む。例えば、画像1は、グラウンドトゥルースラベルを有する自車から20メートル離れた車と、2D検出器によって見つけられ、半擬似ラベルとしてマークされた自車から120メートル離れた車とを有する。次に、この画像に対する拡張ラベルは、グラウンドトゥルース(擬似ラベリングの前に利用可能)と擬似ラベル付き遠方の物体との和集合として表される。
【0073】
複雑なタスクのデータセット(式5を参照)は、通常、すべてのデータ点に対する情報を含まず、例えば、グラウンドトゥルースラベルのない画像に遠方の車がある。
【0074】
元々利用可能な複雑なグラウンドトゥルースラベルでは、複雑なラベルは、単純なラベルが含むすべての情報を含むことができる。例えば、既存の3D境界ボックス注釈の2D境界ボックスを計算することができる。これは、NNが、既知の2D特徴のみを有する擬似ラベル付き(例えば、遠方の車)物体を検出し、これらの3D特性がラベル内に明示的にマークされていなくても、ズーム拡張により、データから対応する3D特性を学習することができるため、ニューラルネットワーク訓練中に有用であり得る。この現象は、ニューラルネットワークの一般化能力により可能である。
【0075】
複雑なモデルMの入力データを使用して擬似ラベルが生成される限り、これは、単純なモデルが複雑なモデルのデータセット上で実行され、擬似ラベルが複雑なモデルのデータセットの入力画像に対して生成されることを説明する。このようにして、元の3Dグラウンドトゥルースでは見つからない、図1に視覚化された物体に対するラベルを取得することができる。
【0076】
本発明者らのユースケースを考慮すると、グラウンドトゥルースパラメータは、検出されるべき物体の2Dおよび3D属性である。半擬似ラベル付きグラウンドトゥルースは、2D情報のみからなり、手動の注釈からまたは事前訓練された2D物体検出ニューラルネットワークの出力として生じることができる。
【0077】
上記で概説したように、単純なモデルは、様々な理由(例えば、遠方の物体からのLiDAR反射は全くなかった)により複雑な3Dグラウンドトゥルースから欠落している遠方の物体を擬似ラベリングするために利用される2D境界ボックス検出器であり得る。単純なモデルは2D物体検出器とすることができ、複雑なモデルは3D物体検出器とすることができる。
【0078】
図2は、データセットのデータポイントの少なくとも一部のためのデータポイントおよびグラウンドトゥルースラベルを含むデータセットに基づいて複雑な機械学習モデルを訓練するための方法を示し、データポイントは画像を含む。
【0079】
本方法は、データセット用の擬似ラベルを予測するために複雑度低減機械学習モデルを使用する第1のステップ210を含む。
【0080】
本方法は、グラウンドトゥルースラベルおよび擬似ラベルを出力として含む拡張データセットを使用して複雑な機械学習モデルを訓練する第2のステップ220を含む。
【0081】
本方法は、訓練された複雑な機械学習モデルを使用して物体を検出する任意選択の第3のステップ230を含むことができる。
【0082】
上述の3つのステップ210、220、230は、異なる処理ユニットで実行することができる。例えば、第1のステップ210および第2のステップ220は、データセンタの異なるユニットで実行することができる。訓練された複雑な機械学習モデルは、車両に転送されてもよく、第3のステップ230は、少なくとも部分的に車両で実行されてもよい。
【0083】
図2の半擬似ラベリング方法は、訓練データ分布から外れた予測を実行するように3D物体検出ニューラルネットワークを訓練するために開発された。要求は、注釈付きデータの距離範囲が100メートルを超えない一方で、自動運転システムの検出範囲を200メートルに拡張することであった。加えて、いくつかの検出可能なクラスが訓練データから欠落していた。しかしながら、本方法は、他のデータおよび他のアプリケーションシナリオにも適用可能である。
【0084】
好ましい実施形態は、本発明者らの半擬似ラベリング方法および3Dデータ拡張を利用したYOLO[10]様単一段階物体検出器畳み込みニューラルネットワーク(第3.5項の詳細を参照)を使用する(以下を参照)。通常の2D境界ボックス検出器が、入力空間XSLはHD解像度ステレオ画像対を含み、ラベル空間Cは(x、y、w、h、o、c、...、c)タプルからなる、単純なモデルM(XSL;θ)であり、式中、
・ xは、画像空間における境界ボックスの中心のx座標であり、
・ yは、画像空間における境界ボックスの中心のy座標であり、
・ wは、画像空間における境界ボックスの幅であり、
・ hは、画像空間における境界ボックスの高さであり、
・ oは、オブジェクトネススコアであり、
・ cは、物体が第iのカテゴリに属する確率である。
【0085】
モデルは、本発明者らの場合には、XSL、すなわちHD画像と同じである3D注釈付きデータセットで2D物体検出を実行している。結果として得られた2D検出は、3D境界ボックスによって注釈が付けられず、半擬似ラベルとして追加された遠方の物体を発見した。最後に、3D物体検出器は、3D注釈付きデータと半擬似ラベル付き2D境界ボックスとの組み合わせで訓練された。3D検出器のラベル空間は(x、y、w、h、o、c、...、c、P、D、O)タプルであり、式中、
・ xは、3D境界ボックスの中心の2D投影の水平座標であり、
・ yは、3D境界ボックスの中心の2D投影の垂直座標であり、
・ wは、3D境界ボックスの2D投影の幅であり、
・ hは、3D境界ボックスの2D投影の高さであり、
・ oは、オブジェクトネススコアであり、
・ cは、物体が第iのカテゴリに属する確率である。
・ Pは、モデル空間(これは、補助回帰インスタンスベースの視差および投影中心点値c.f.を使用して再構成される。第3.4項を参照)における3D境界ボックスの中心点の3次元ベクトルであり、
・ Dは、3D境界ボックスの寸法(幅、高さ、長さ)を含む3次元ベクトルであり、
・ Oは、四元数として表される3D境界ボックスの向きの4次元ベクトルである。
【0086】
重複排除ステップは、半擬似ラベル付き注釈と3D境界ボックスの2D投影とのIoU(和集合に対する交点)の比を調べることによって実行することができる半擬似ラベル付きデータセット内の二重注釈を回避するために必要とされる。比が閾値を超える場合、擬似ラベル付き注釈は除外されるべきである。
【0087】
半擬似ラベル(すなわち、2D検出)は3D特性を含まないため、半擬似ラベルのラベル空間は3Dラベル空間よりも制限される。曖昧な訓練プロセスを回避するために、半擬似ラベルの場合に3D損失項をマスクするために利用された半擬似ラベル用のバイナリマスクを作成した。この解決策および単一段階アーキテクチャならびにラベル空間表現により、本発明者らはニューラルネットワークを同時に訓練して、2Dおよび3D空間内の物体を検出することができた。
【0088】
ほとんどの2Dデータ拡張は、3Dに一般化することが容易である。しかしながら、画像スケールの変化は3D空間における注釈の位置および自己中心的な向きを変更するため、ズームは些細なことではない。本発明者らは、仮想カメラを使用して3Dズーム拡張を開発した。この方法は、2つの主要なステップからなる。第1は、画像を拡大または縮小することである。このようにして、物体がカメラの近くまたは遠くに移動することをエミュレートすることができる。第2のステップは、カメラ行列(世界の3D点から画像内の2D点へのカメラのマッピングを記述する)を修正して、2D変換に追従し、3D注釈をそのまま維持することである。これは、線形変換と、元のカメラ行列および2Dスケーリング変換を考慮してその主点および焦点距離を調整する仮想カメラとによって実行することができる。カメラ内部パラメータの変更は、所与の物体の自己中心的な向きの変更を模倣するが、訓練中の回帰パラメータであるその見かけの向きは同じままである。
【0089】
画像のランダムシフトを適用すると、画像の位置と物体の距離の分離が実行される。この拡張により、検出システムは、特定のカメラ固有のものに固執することを防止することができる。実際のカメラの焦点距離で予測深度を調整するか、またはfocal_length/disparity値を回帰させると、訓練されたネットワークはカメラ固有の変化に対してより堅牢になる。
【0090】
好ましくは、3Dズーム拡張は、最初に、下限と上限との間のスケーリング係数をランダムに描いて、実装することができる。下限および上限が1より小さい場合、ズームアウト操作が実行される。下限および上限が1より大きい場合、ズームイン操作が実行される。下限が1未満であり、上限が1より大きい場合、ズームインまたはズームアウトのいずれかが実行される。ズームの2D部分は、上述のスケーリング係数(ズームアウトの場合、画像は、元の画像サイズを有するためにゼロでパディングされる)を使用して画像を拡大/縮小する従来の場合と同様に機能する。そして、焦点距離成分をスケーリング係数でスケーリングすることにより、画像に対応するカメラ行列を調整することができる。2D画像がズームを外れてシフトされる場合、カメラ行列は、主点成分をシフトすることによって調整することができる。したがって、対応する画像および3Dラベルの拡張は一貫した方法で実行される。
【0091】
3D拡張は、上述したように、訓練分布の一部ではない物体を正確に検出する(すなわち、グラウンドトゥルースラベルなしで遠方の物体を検出する)ことが可能であるという有利な効果を有する。半擬似ラベリングのみで検出に十分であり得ることは確かであるが、ニューラルネットワークが訓練分布の外側に適切に外挿することができないという事実のために、3D特性、特に深度推定は最適ではない。
【0092】
提案された半擬似ラベリング方法および3Dデータ拡張の適用性を証明するために、本発明者らは、ステレオ3D物体検出のための畳み込みニューラルネットワークを設計および実装した。ニューラルネットワークの適用領域は自動運転である。したがって、検出可能な物体は、車両、二輪車、歩行者、交通標識、および信号機である。以上、検出ネットワークの入出力について説明した。
【0093】
aiMotiveは、3D物体検出ネットワーク用の訓練データを作成するデータ収集および自動注釈方法を開発した。データ収集システムは、3Dで環境をスキャンするためのLiDARと、グラウンドトゥルース訓練データを生成するための自動注釈アルゴリズムとを利用する。このシステムの限界の1つは、検出された物体は100メートルより近くであるが、本発明者らの要件は検出範囲として200メートルに達するLiDARの知覚範囲である。半擬似ラベリング方法および3Dデータ拡張は、この問題に対する解決策である。
【0094】
リアルタイム性能は自動運転に不可欠であるため、本発明者らは、YOLOv3[10]のような単一段階検出アーキテクチャを設計した。第1のステップとして、ステレオ画像対の左右の画像を独自のニューラルネットワークに供給することができる。ネットワークの左右の分岐は、共有バックボーン重みを使用する。左右の画像対がバックボーンによって処理されると、結果として得られる埋め込みは、特徴ピラミッドネットワーク[11]に渡される前に融合される(融合方法として連結を使用した)。
【0095】
上述の3Dラベル空間表現は、検出された物体の2Dおよび3D特性を予測するためにネットワーク内で使用される。グラウンドトゥルースは、注釈付き物体が半擬似ラベルであるか否かを示すブールフラグによって拡張された。この値は、グラウンドトゥルースが知られていない場合に、逆伝播中に3D特性に対応する重みにペナルティを課さないように半擬似ラベルの場合に3D損失項をマスクするために損失関数で使用された。
【0096】
本発明者らは、マルチタスク学習を使用してネットワークを訓練しており[19]、2Dおよび3D検出は並列に学習される。この目的のために、本発明者らは、訓練を容易にするために追加の制約を利用した。2D(x、y、w、h)および3D(位置、向き、寸法)特性に加えて、本発明者らは以下の損失項を使用した。
【0097】
・ 3D直方体の2D投影、
・ インスタンスベースの視差、
・ インスタンスベースの幅の差。
【0098】
直方体の3D中心点を直接学習する代わりに、3D直方体の2D投影を予測するネットワークを設計した。3D境界ボックスの中心点は、深度およびその2D投影から後で再構成することができる。ネットワークは、深度を直接使用して訓練することができる。しかし、それをカメラのベースライン、焦点距離、および深度を考慮する式から計算され得る視差に置き換えた(視差=focal_length*base_distance/depth)。この表現は、収束を加速させるより滑らかな損失ランドスケープをもたらした。インスタンスベースの視差および幅の差は、左右の画像上の2D投影された3D境界ボックスの中心点間の視差および左右の画像上の3D境界ボックスの2D投影の幅の差をそれぞれ計算する2つの補助損失項である。2つのインスタンスベースの損失項は推論中に使用されず、それらの唯一の目的は訓練を容易にすることであることに留意されたい。我々の知る限りでは、この公式化は文献には見られない。最後に、ネットワークの次元予測部は事前分布(すなわち、予め計算されたカテゴリ平均)を使用し、次元を直接回帰する代わりにデルタのみが予測される。
【0099】
前述したように、本発明者らは、ネットワークの訓練をマルチタスク学習問題としてフレーム化した。本発明者らの損失関数は、2つの部分、すなわち2Dおよび3D損失項からなる。2D特性の損失関数は、YOLOの論文から適合される。3D損失項について、本発明者らは、インスタンスベースの視差および幅差損失以外に、いくつかの機械学習技術を革新的に組み合わせた。使用される第1の技術は、特定の個々の損失項(例えば、直方体の中心点、向きなどの2D投影)の損失を計算する代わりに、損失を3Dに持ち上げることである。3D損失は、境界直方体を3Dで再構成し、次いで直方体の予測された角点およびグラウンドトゥルース角点のL2損失を計算することによって計算される。別のトリックは、[12]によって提案されているように損失項を解きほぐすことである。前述のように、本発明者らは、3D注釈を有さない半擬似ラベルに対する3D特性を予測するときにネットワークにペナルティを課すことを回避するためにマスキング解決策を利用した。最終的な損失は、2D損失と3D損失の合計である。
【0100】
本発明者らは、自動的に注釈付けされた3Dおよび半擬似ラベル付きデータセットを用いてネットワークを訓練した。追加のデータセット拡張として、手動で注釈付けされた2D境界ボックスデータセットを別の半擬似ラベル付きデータセットとして訓練セットに追加した。
【0101】
3D検出問題に対するいくつかの他の既存の解決策がある。しかしながら、これらの方法は、ほとんどの場合、より遅い二段階検出器アーキテクチャ[13]、[14]、[15]、[16]、別のセンサモダリティ[17]を必要とするか、または著しく短い検出範囲[13]を有する。
【0102】
上述の3D物体検出ニューラルネットワークは、自動運転の基準に適合し、リアルタイムで動作し、検出範囲を大幅に拡大する。Titan XP GPUでの推論時間は約18ミリ秒(約55FPS)である。量子化を使用し、重みを32ビット浮動小数点の代わりに整数として格納することによって、この実行時間を約2倍さらに短縮することができる。半擬似ラベリングおよび3Dデータ拡張により、ニューラルネットワークは、訓練データセットが130メートルを超える物体を含まなかったとしても、最大200メートルの物体を検出することができる。
【0103】
焦点距離およびベースラインを考慮して深度予測を定式化したので、本発明者らの解決策は、任意のカメラおよびステレオリグ設定で機能する一般的な方法である。別の利点は、ネットワークが推論モードでのみ画像を必要とすることであり、これにより、高価なライダの使用が防止され、感知の複雑さが低減される。
【0104】
提案された解決策および設計されたニューラルネットワークの1つの典型的なユースケースは、SAEレベル2+幹線道路自動操縦ソフトウェアである。検出器は、上層に有用な情報を提供するために、遠方の静的および動的物体を認識することができなければならない知覚システムの一体部分であり得る。
【0105】
半擬似ラベリング訓練方法は、他の物体検出器に統合することができ、または他のアプリケーション領域に使用することができる。本発明者らの場合、ステレオ3D物体検出器が開発されているが、提案された方法のアイデアに従うモノラル3D検出器を設計することは容易である。
【0106】
提示された方法で訓練された3D物体検出器は、幹線道路または都市環境で利用することができる。その設計により、ネットワークは、異なるカメラおよびステレオリグ設定で使用することができる。
【0107】
1つの活用領域は、注釈付けプロセス中のコスト削減である。より安価なLiDARを録音設定の一部として使用することができ、半擬似ラベリングによって知覚範囲を拡張することができる。提示されたネットワークを擬似ラベルとして生成し、手動アノテータによって洗練された3Dボックスを使用することによって、人間の注釈のコストも削減することができる。
【0108】
参考文献
[1]Pseudo-Label:The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks-
https://scholar.google.com/scholar?oi=bibs&cluster=16547318329102522555&btnI=1&hl=ja
[2] Chen、Nicholas FYによる、「Pseudo-labels for supervised learning on dynamic vision sensor data,applied to object detection under ego-motion.」コンピュータビジョンおよびパターン認識ワークショップに関するIEEE会議の議事録。2018年。
[3] https://patents.google.com/patent/US20200394458A1/en?oq=US20200394458A1
[4] https://patents.google.com/patent/US20200082210A1/en?oq=US20200082210A1
[5] Stevo.BozinovskiおよびAnte Fulgosi(1976)による、「The influence of pattern similarity and transfer learning upon training of a base perceptron B2.」(オリジナルはクロアチア語)Symposium Informatica議事録 3-121-5
[6] Stevo Bozinovski(2020)「Reminder of the first paper on transfer learning in neural networks,1976」Informatica 44:291-302。
[7] Shorten,C.,&Khoshgoftaar,T.M.(2019)。深層学習のための画像データ拡張に関する調査。Journal of Big Data、6(1)、1~48。
[8] Xu,J.,Li,M.,&Zhu,Z.(2020年10月)による、Automatic data augmentation for 3d medical image segmentation。Medical Image Compu-ting and Computer-Assisted Interventionに関する国際会議内(378~387頁)。Springer,Cham。
[9] Ian Goodfellow、Yoshua BengioおよびAaron Courville(2016)による、「Deep Learning」。MIT Press。
[10] Redmon,J.,&Farhadi,A.(2018)による、Yolov3:An incremental improvement.arXiv preprint arXiv:1804.02767。
[11] Lin,T.Y.,Dollar,P.,Girshick,R.,He,K.,Hariharan,B.,&Belongie,S.(2017)による、Feature pyramid networks for object detection。コンピュータビジョンおよびパターン認識ワークショップに関するIEEE会議の議事録内(2117~2125頁)。
[12] Simonelli,A.,Bulo,S.R.,Porzi,L.,Lopez-Antequera,M.,&Kontschieder,P.(2019)による、Disentangling monocular 3d object detection。コンピュータビジョンに関するIEEE/CVF 国際会議の議事録内(1991~1999頁)。
[13] Qian,R.、Garg,D.、Wang,Y.、You,Y.、Belongie,S.、Hariharan,B.、...&Chao、W.L.(2020)による、End-to-end pseudo-lidar for image-based 3d object detection。コンピュータビジョンおよびパターン認識に関するIEEE/CVF会議の議事録内(5881~5890頁)。
[14] Qin,Z.,Wang,J.,&Lu,Y.(2019)による、Triangulation learning network:from monocular to stereo 3d object detection。コンピュータビジョンおよびパターン認識に関するIEEE/CVF会議の議事録内(7615~7623頁)。
[15] Li,P.,Chen,X.,&Shen,S.(2019)による、Stereo r-cnn based 3d object detection for autonomous driving。コンピュータビジョンおよびパターン認識に関するIEEE/CVF会議の議事録内(7644~7652頁)。
[16] TuSimple patent:https://patents.google.com/patent/US10839234B2/en?oq=US10839234B2
[17] https://patents.google.com/patent/US20190188541A1/en?oq=US20190188541A1
[18] Liu,Z.,Wu,Z.,&Toth,R.(2020)による、Smoke:single-stage monocular 3d object detection via keypoint estimation。コンピュータビジョンおよびパターン認識ワークショップに関するIEEE/CVF会議の議事録内(996~997頁)。
[19] Simonelli,A.,Bulo,S.R.,Porzi,L.,Ricci,E.,&Kontschieder,P(2019)による、Towards Generalization Across Depth for Monocular 3D Object Detection.arXiv pre-print arXiv:1912.08035。
[19] Caruana,R.(1997)による、Multitask learning。機械学習、28(1)、41~75。
図1
図2
【手続補正書】
【提出日】2024-11-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データセットのデータポイントの少なくとも一部のための前記データポイントおよびグラウンドトゥルースラベルを含む前記データセットに基づいて複雑な機械学習モデルを訓練するための方法であって、前記データポイントは画像を含み、
前記データセット用の擬似ラベルを予測するために複雑度低減機械学習モデルを使用するステップ(210)と、
前記グラウンドトゥルースラベルおよび前記擬似ラベルを出力として含む拡張データセットを使用して前記複雑な機械学習モデルを訓練するステップ(220)と、
を含む、方法。
【請求項2】
前記グラウンドトゥルースラベルが、3D境界ボックスの座標、寸法、および/もしくは向きを含み、
擬似ラベルが、2D境界ボックスの座標、寸法、および/もしくは向きを含み、ならびに/または、
前記グラウンドトゥルースラベルおよび/もしくは前記擬似ラベルが、物体カテゴリのセットに対するオブジェクトネススコアおよび/もしくは確率を含む、
請求項1に記載の方法。
【請求項3】
前記グラウンドトゥルースラベルが、前記データセットの注釈付き領域(110a、110b、110c)内の物体のラベルであり、
前記データセットが、前記データセットの前記注釈付き領域の外側にある物体に対するラベルなしデータポイントを含み、前記注釈付き領域が、カメラの近距離場(130)に対応し、注釈なし領域(112a、112b、112c)が、前記カメラの遠距離場(132)に対応する、
請求項1に記載の方法。
【請求項4】
3Dデータを取得するステップと、
前記3Dデータを仮想的に取り込む仮想カメラに基づいて虚像で前記データセットを拡張するステップと、
をさらに含み、
前記画像を取得するステップが、前記仮想カメラの位置を移動して、移動されたカメラ位置からシフトおよび/またはズームされた画像を取得するステップを含む、
請求項1に記載の方法。
【請求項5】
前記移動されたカメラ位置から画像を取得する前記ステップが、前記3Dデータ内の位置の2D画像へのマッピングを記述するカメラ行列を調整するステップを含み、前記カメラ行列を調整するステップが、元のカメラ行列および2Dスケーリングに基づいて主点および焦点距離を調整するステップを含む、
請求項4に記載の方法。
【請求項6】
前記画像に基づいて、擬似ラベルを予測する必要がある物体を検出する初期のステップ、および/または、
前記データセットが既にグラウンドトゥルースラベルを含む擬似ラベルを除去するために重複排除を実行するステップ、
をさらに含む、
請求項1に記載の方法。
【請求項7】
重複排除を実行する前記ステップが、
擬似ラベルの2D境界ボックスとグラウンドトゥルースラベルの3D境界ボックスの2D投影との和集合に対する交点の比を決定するステップと、
比が所定の閾値よりも大きい場合、前記擬似ラベルを前記拡張データセットから除去するステップと、
を含む、
請求項6に記載の方法。
【請求項8】
前記複雑な機械学習モデルを訓練する前記ステップが、グラウンドトゥルースラベルが利用できない3D特性に対応する誤差寄与にペナルティを課さない損失関数を使用するステップを含み、ブール型フラグが、ラベルがグラウンドトゥルースラベルであるか予測擬似ラベルであるかを前記拡張データセットにおいて示すために使用される、
請求項1に記載の方法。
【請求項9】
自動運転中に物体を検出するために前記複雑な機械学習モデルを使用するステップをさらに含み、ラベルが、車両、二輪車、歩行者、交通標識、または信号機のうちの1つまたは複数を含む物体クラスを含む、
請求項1に記載の方法。
【請求項10】
前記複雑な機械学習モデルが、3D直方体の2D投影の予測および予測深度に基づいて前記3D直方体の中心点を予測するために使用される、
請求項1に記載の方法。
【請求項11】
前記予測深度が、カメラのベースライン、焦点距離および深度に基づいて計算された視差に基づいて予測され、ならびに/または予測深度が、現在のカメラの焦点距離に基づいて調整される、
請求項10に記載の方法。
【請求項12】
前記複雑な機械学習モデルが、第1のタスクおよび第2のタスクを並行して解決するように構成されるマルチタスク機械学習モデルであり、
前記複雑度低減機械学習モデルが、前記第1のタスクを解決するように構成され、
前記第1のタスクが2D境界ボックスの予測を含み、
前記第2のタスクが3D境界ボックスの予測を含む、
請求項1に記載の方法。
【請求項13】
前記複雑な機械学習モデルの訓練が、
3D直方体の3D投影に基づく投影損失項と、
左右のステレオ画像上の2D投影された3D境界ボックスの中心点間の視差に基づく視差損失項と、
左右のステレオ画像上の3D境界ボックスの2D投影の幅の差に基づく幅損失項と、
のうちの1つまたは複数を含む損失項を使用するステップを含む、
請求項1に記載の方法。
【請求項14】
請求項1から13のいずれか一項に記載の方法を実行するように構成された、装置。
【請求項15】
プロセッサによって実行されると、請求項1から13のいずれか一項に記載の方法を実行する命令を含む、プログラム。
【国際調査報告】