(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-12
(54)【発明の名称】自動ラベル付けのための方法、装置及びシステム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240305BHJP
G03B 15/00 20210101ALI20240305BHJP
G03B 35/08 20210101ALI20240305BHJP
【FI】
G06T7/00 350C
G03B15/00 T
G03B35/08
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023551709
(86)(22)【出願日】2021-03-26
(85)【翻訳文提出日】2023-08-24
(86)【国際出願番号】 CN2021083234
(87)【国際公開番号】W WO2022198631
(87)【国際公開日】2022-09-29
(81)【指定国・地域】
(71)【出願人】
【識別番号】592051453
【氏名又は名称】ハーマン インターナショナル インダストリーズ インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ジョウ, レンガオ
【テーマコード(参考)】
2H059
5L096
【Fターム(参考)】
2H059AA07
2H059AA18
2H059CA00
5L096AA06
5L096AA09
5L096CA04
5L096CA05
5L096FA06
5L096FA16
5L096FA66
5L096FA69
5L096GA34
5L096HA11
5L096KA04
5L096MA07
(57)【要約】
本開示は、ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けするための方法、システム、及び装置を提供する。本方法は、あるインターバル内で一対のカメラによって一対のカメラフレームを生成することと、そのインターバル内でDVSによって少なくとも1つのDVSフレームを生成することとを含み得る。本方法は、さらに、一対のカメラフレームに基づいて視差フレームを計算し、計算した視差フレームに基づいて一対のカメラフレームの3D情報を取得し得る。本方法は、ディープラーニングモデルを使用して自動ラベル付けをする対象物領域を判定し得、3D情報と判定した対象物領域とに基づいて3D点を取得し得る。そして次に、本方法は、3D点を少なくとも1つのDVSフレームに向けて再投影して、少なくとも1つのDVSフレーム上に再投影点を生成し得る。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けする方法であって、
あるインターバル内で一対のカメラによって生成された一対のカメラフレームを受信するとともに、前記インターバル内でDVSによって生成された少なくとも1つのDVSフレームを受信することと、
前記一対のカメラフレームに基づいて視差フレームを計算し、前記計算した視差フレームに基づいて前記一対のカメラフレームの3D情報を取得することと、
ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、
前記取得した3D情報と前記判定した対象物領域とに基づいて3D点を取得し、前記3D点を前記少なくとも1つのDVSフレームに向けて再投影して、前記少なくとも1つのDVSフレーム上に再投影点を生成することと、
前記少なくとも1つのDVSフレーム上の前記再投影点を結合することにより、前記少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、
を含む、前記方法。
【請求項2】
前記一対のカメラは、左カメラ及び右カメラを含み、
前記DVSは、前記左カメラ及び前記右カメラと堅固に結合するように配列されている、請求項1に記載の方法。
【請求項3】
自動ラベル付けする対象物領域を前記判定することが、さらに、
ディープラーニングモデルの入力として、前記一対のカメラフレームから、1つのカメラフレームを選択することと、
前記ディープラーニングモデルの前記出力に基づいて、自動ラベル付けする対象物領域を判定することと、
を含む、請求項1~2のいずれか1項に記載の方法。
【請求項4】
前記3D情報は3D点を含み、前記3D点のそれぞれは、1つのカメラフレーム内の各ピクセルに対応する空間位置/座標を表す、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記インターバルは、2つの連続するカメラフレーム間のタイムスパンに基づいて、予め設定される、請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記少なくとも1つのDVSフレームは、前記インターバル内のピクセルイベントを統合することによって生成される、請求項1~5のいずれか1項に記載の方法。
【請求項7】
シーンに動的変化があるかどうかを判定することと、
前記シーンに動的変化がある場合は、前記DVSと前記一対のカメラとを作動させることと、
をさらに含む、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記動的変化は、強度変化、及び対象物の動きのうちの少なくとも1つを含む、請求項1~7のいずれか1項に記載の方法。
【請求項9】
ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けするシステムであって、
あるインターバル内で一対のカメラフレームを生成するように構成された一対のカメラと、
前記インターバル内で少なくとも1つのDVSフレームを生成するように構成されたDVSと、
コンピューティングデバイスであって、プロセッサと、
前記一対のカメラフレームに基づいて視差フレームを計算し、前記計算した視差フレームに基づいて前記一対のカメラフレームの3D情報を取得することと、
ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、
前記取得した3D情報と前記判定した対象物領域とに基づいて3D点を取得し、前記3D点を前記少なくとも1つのDVSフレームに向けて再投影して、前記少なくとも1つのDVSフレーム上に再投影点を生成することと、
前記少なくとも1つのDVSフレーム上の前記再投影点を結合することにより、前記少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、
を行うように前記プロセッサによって実行可能な命令を格納するメモリユニットとを備える、前記コンピューティングデバイスと、
を備える、前記システム。
【請求項10】
前記一対のカメラは、左カメラ及び右カメラを備え、前記DVSは、前記左カメラ及び前記右カメラと堅固に結合するように配列されている、請求項9に記載のシステム。
【請求項11】
前記プロセッサは、
ディープラーニングモデルの入力として、前記一対のカメラフレームから、1つのカメラフレームを選択することと、
前記ディープラーニングモデルの前記出力に基づいて、自動ラベル付けする対象物領域を判定することと、
を行うようにさらに構成される、請求項9~10のいずれか1項に記載のシステム。
【請求項12】
前記3D情報は3D点を含み、前記3D点のそれぞれは、前記カメラフレーム内の各ピクセルに対応する空間位置/座標を表す、請求項9~11のいずれか1項に記載のシステム。
【請求項13】
前記少なくとも1つのDVSフレームは、前記インターバル内のピクセルイベントを統合することによって生成される、請求項9~12のいずれか1項に記載のシステム。
【請求項14】
前記インターバルは、2つの連続するカメラフレーム間のタイムスパンに基づいて、予め設定される、請求項9~13のいずれか1項に記載のシステム。
【請求項15】
前記プロセッサは、
シーンに動的変化があるかどうかを判定することと、
前記シーンに動的変化がある場合は、前記DVSと前記一対のカメラとを作動させることと、
を行うようにさらに構成される、請求項9~14のいずれか1項に記載のシステム。
【請求項16】
前記動的変化は、強度変化、及び対象物の動きのうちの少なくとも1つを含む、請求項9~15のいずれか1項に記載のシステム。
【請求項17】
ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けする装置であって、
コンピューティングデバイスであって、プロセッサと、
あるインターバル内で一対のカメラによって生成された一対のカメラフレームを受信するとともに、前記インターバル内でDVSによって生成された少なくとも1つのDVSフレームを受信することと、
前記一対のカメラフレームに基づいて視差フレームを計算し、前記計算した視差フレームに基づいて前記一対のカメラフレームの3D情報を取得することと、
ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、
前記取得した3D情報と前記判定した対象物領域とに基づいて3D点を取得し、前記3D点を前記少なくとも1つのDVSフレームに向けて再投影して、前記少なくとも1つのDVSフレーム上に再投影点を生成することと、
前記少なくとも1つのDVSフレーム上の前記再投影点を結合することにより、前記少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、
を行うように前記プロセッサによって実行可能な命令を格納するメモリユニットとを備える、前記コンピューティングデバイス
を備える、前記装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自動ラベル付けのための方法、装置及びシステムに関し、特に、DVS(ダイナミックビジョンセンサ)フレームを自動ラベル付けするための方法、装置及びシステムに関する。
【背景技術】
【0002】
近年、新しい最先端センサであるDVSは広く知られるようになり、人工知能分野、コンピュータビジョン分野、自動運転分野、ロボット工学などの多くの分野で使用されている。
【0003】
従来のカメラと比較して、DVSには、低遅延、モーションブラーがないこと、高ダイナミックレンジ、及び低消費電力という利点がある。特に、従来のカメラの遅延がミリ秒単位であるのに対し、DVSの遅延はマイクロ秒単位である。したがって、DVSはモーションブラーの影響を受けない。その結果、DVSのデータレートは通常40~180kB/s(従来のカメラの場合、通常10mB/s)となり、必要な帯域幅及び消費電力が少なくて済む。さらに、従来のカメラのダイナミックレンジが約60dBであるのに対し、DVSのダイナミックレンジは約120dBである。ダイナミックレンジが広くなると、極端な光の状況下、例えば、車両がトンネルを出入りするとき、反対方向の他の車両がハイビームを点灯するとき、太陽光の方向が変化するときに有効である。
【0004】
これらの利点により、DVSは広く使用されている。DVSを様々なシナリオに適用するために、様々な取り組みが行われている。その技法の全てのなかで、ディープラーニングは、普及している主要な方向性である。ディープラーニングについて語るとき、大量のラベル付きデータが不可欠である。しかし、データに手動でラベルを付ける手作業では、人手が足りない場合がある。したがって、DVSフレームに対して自動ラベル付けが必要になる。
【0005】
現在、DVSフレームの自動ラベル付けに2つのアプローチがある。1つは、従来のカメラ映像を表示モニタの画面上で再生し、DVSを使用して画面を記録して、対象物にラベル付けするアプローチである。もう1つは、ディープラーニングモデルを使用して、カメラフレームからラベル付きDVSフレームを直接生成するアプローチである。しかし、これらの2つのアプローチには両方とも克服できない欠点がある。最初のアプローチでは、録画時にDVSフレームを表示モニタに100%正確に一致させるのが難しいため、精度が失われる。2番目のアプローチでは、不自然なDVSフレームが生成されるようになる。反射率は材質によって異なる。しかし、2番目の方法では、DVSフレームがカメラフレームから直接生成されるので、それらを同じように扱ってしまい、そのため、生成されたDVSフレームが非常に不自然になる。さらに、どちらのアプローチも、生成されるDVSフレームの最終出力が、以下の態様から、カメラ映像の品質によって制限されるため、DVSの利点を無駄にするという問題に陥る。第一に、生成されるDVSフレームレートは、最大でもカメラのフレームレートにしか達しない(2番目の方法では、アップスケーリング法を使用して、より多くのフレームを取得することができるが、それでも期待できるものではない)。第二に、カメラによって記録されたモーションブラー、残像、及びスミアが、生成されたDVSフレーム内にも存在することになる。DVSは遅延が少なく、モーションブラーがないことで知られているため、この事実は不合理でばかげている。第三に、従来のカメラはダイナミックレンジが低いため、DVSの高いダイナミックレンジが無駄になる。
【0006】
したがって、DVSの利点を十分に取り入れながら、DVSフレームを自動ラベル付けするための改良された技法を提供する必要がある。
【発明の概要】
【課題を解決するための手段】
【0007】
本開示の1つ以上の実施形態によれば、ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けする方法が提供される。この方法は、あるインターバル内で一対のカメラによって生成された一対のカメラフレームを受信するとともに、そのインターバル内でDVSによって生成された少なくとも1つのDVSフレームを受信することを含み得る。この方法はさらに、一対のカメラフレームに基づいて視差フレームを計算し、計算した視差フレームに基づいて一対のカメラフレームの3D情報を取得し得る。この方法は、ディープラーニングモデルを使用して自動ラベル付けをする対象物領域を判定し得、取得した3D情報と判定した対象物領域とに基づいて3D点を取得し得る。次いで、この方法は、3D点を少なくとも1つのDVSフレームに向けて再投影して、少なくとも1つのDVSフレーム上に再投影点を生成し得る。この方法はさらに、少なくとも1つのDVSフレーム上の再投影点を結合することにより、少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成し得る。
【0008】
本開示の1つ以上の実施形態によれば、ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けするシステムが提供される。このシステムは、一対のカメラ、DVS、及びコンピューティングデバイスを備え得る。一対のカメラは、あるインターバル内で一対のカメラフレームを生成するように構成され得る。DVSは、そのインターバル内で少なくとも1つのDVSフレームを生成するように構成され得る。コンピューティングデバイスは、プロセッサと、一対のカメラフレームと少なくとも1つのDVSフレームとを受信することと、一対のカメラフレームに基づいて視差フレームを計算し、計算した視差フレームに基づいて一対のカメラフレームの3D情報を取得することと、ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、取得した3D情報と判定した対象物領域とに基づいて3D点を取得し、3D点を少なくとも1つのDVSフレームに向けて再投影して、少なくとも1つのDVSフレーム上に再投影点を生成することと、少なくとも1つのDVSフレーム上の再投影点を結合することにより、少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、を行うようにプロセッサによって実行可能な命令を格納するメモリユニットとを備え得る。
【0009】
本開示の1つ以上の実施形態によれば、ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けする装置が提供される。この装置は、プロセッサと、一対のカメラフレームと少なくとも1つのDVSフレームとを受信することと、一対のカメラフレームに基づいて視差フレームを計算し、計算した視差フレームに基づいて一対のカメラフレームの3D情報を取得することと、ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、取得した3D情報と判定した対象物領域とに基づいて3D点を取得し、3D点を少なくとも1つのDVSフレームに向けて再投影して、少なくとも1つのDVSフレーム上に再投影点を生成することと、少なくとも1つのDVSフレーム上の再投影点を結合することにより、少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、を行うようにプロセッサによって実行可能な命令を格納するメモリユニットとを備えるコンピューティングデバイスを備え得る。
【0010】
本開示で説明される方法、装置、及びシステムは、DVSフレームの効率的かつより正確な自動ラベル付けを実現することができる。本開示の方法、装置、及びシステムは、一対のカメラをDVSと結合し、同じシーンを同時に記録することができる。取得したカメラフレームとDVSフレームとの組み合わせての使用に基づいて、DVSフレームの記録と同時に、DVSフレームに自動的にラベルを付けることができる。その結果、DVSディープラーニングトレーニング用の大量のラベル付きデータが可能になる。既存のアプローチと比較して、本開示で説明される方法及びシステムは、DVSの利点を最大限に活用し、より正確かつ効率的な自動ラベル付けを調達することができる。
【図面の簡単な説明】
【0011】
【
図1】本開示の1つ以上の実施形態によるシステムの概略図を示す。
【0012】
【
図2】本開示の1つ以上の実施形態による方法のフローチャートを示す。
【0013】
【
図3】本開示の1つ以上の実施形態による視差の原理を示す。
【0014】
【
図4】本開示の1つ以上の実施形態による、視差と奥行き情報との間の関係を示す。
【0015】
【
図5】本開示の1つ以上の実施形態による左カメラ及び右カメラから計算された視差フレームの例を示す。
【0016】
【
図6】本開示の1つ以上の実施形態による左カメラでの物体検出結果と視差フレームとの例を示す。
【0017】
【
図7】本開示の1つ以上の実施形態による、DVSフレームへ向けての3D点の再投影の例を示す。
【0018】
【
図8】本開示の1つ以上の実施形態による結果例を示す。
【0019】
【
図9】本開示の1つ以上の実施形態による別の結果例を示す。
【発明を実施するための形態】
【0020】
理解を容易にするために、可能であれば、各図に共通する同一の要素を示すために同一の参照番号が使用されている。一実施形態で開示された要素は、特に言及することなく、他の実施形態でも有益に利用できることが企図されている。ここで参照される図面は、特に断りのない限り、一定の縮尺で描かれたものとして理解されるべきではない。また、図面は、表現及び説明を明確にするために、多くの場合、簡略化され、詳細または構成要素が省略されている。図面及び説明は、後述される原理を説明するのに役立ち、同様の名称は同様の要素を示す。
【0021】
以下では例を挙げて説明する。様々な例の説明が、例示の目的で提示されるが、包括的であることを意図したものではなく、または開示される実施形態に限定されることを意図したものでもない。多くの修正形態及び変形形態は、説明される実施形態の範囲及び趣旨から逸脱することなく、当業者には明白である。
【0022】
一般概念において、本開示は、少なくとも一対のステレオカメラとDVSとを互いに組み合わせて、DVSフレームを自動ラベル付けすることができるシステム、装置、及び方法を提供する。本開示のシステム及び方法は、ステレオカメラを使用して視差を計算し、それに応じてカメラフレームの3D情報を取得すること、カメラフレームに対してディープラーニングモデルを使用して対象物領域を取得すること、対象物領域に対応する3D点をDVSフレームに向けて再投影して、DVSフレーム上に点を生成すること、及びDVSフレーム上の再投影点を組み合わせて、DVSフレーム上の最終的な検出結果を生成することによって、カメラフレームとDVSフレームとを組み合わせて使用するため、信頼性の高い自動ラベル付けされたDVSフレームを提供することができる。取得したカメラフレームとDVSフレームとの組み合わせての使用に基づいて、DVSフレームの記録と同時に、DVSフレームに自動的にラベルを付けることができる。その結果、DVSのディープラーニングトレーニング用の大量のラベル付きデータが可能になる。既存のアプローチと比較して、本開示で説明される方法及びシステムは、DVSの利点を最大限に活用し、より正確かつ効率的な自動ラベル付けを調達することができる。
【0023】
図1は、本開示の1つ以上の実施形態による、DVSフレームを自動ラベル付けするためのシステムの概略図を示す。
図1に示すように、本システムは、記録デバイス102及びコンピュータデバイス104を備えることがある。記録デバイス102は、限定ではないが、少なくとも、DVS102aと、一対のカメラ102b、102c、例えば、左カメラ102b及び右カメラ102cとを含むことがある。実施要件に応じて、左カメラ102b及び右カメラ102cに加えて、制限なく、より多くのカメラが記録デバイス102に含まれてもよい。簡単にするために、本明細書では一対のカメラのみを示す。本開示における「カメラ」という用語には、ステレオカメラが含まれる場合がある。記録デバイス102において、一対のカメラ102b、102c及びDVS102aは、互いに堅固に結合/組み立て/統合が行われ得る。
図1は、単にシステムの構成要素を説明するためのものにすぎず、システム構成要素の位置関係を限定することを意図したものではないことを理解されたい。DVS102aは、左カメラ102b及び右カメラ102cと任意の相対位置関係に配列されることが可能である。
【0024】
DVS102aは、イベント駆動型アプローチを採用して、シーン内の動的な変化をキャプチャし、次いで非同期ピクセルを作成することができる。従来のカメラとは異なり、DVSは、画像を生成しないが、ピクセルレベルのイベントを伝達する。実際のシーンに動的な変化があると、DVSは、いくつかのピクセルレベルの出力(つまり、イベント)を生成するようになる。したがって、変化がない場合、データ出力はないことになる。動的変化は、強度変化及び対象物の動きのうちの少なくとも1つを含むことができる。イベントデータは[x,y,t,p]の形式であり、ここでxとyとは2D空間内のイベントのピクセルの座標、tはイベントのタイムスタンプ、pはイベントの極性を表す。例えば、イベントの極性は、明るくなる(正)または暗くなる(負)など、シーンの明るさの変化を表す場合がある。
【0025】
コンピューティングデバイス104は、モバイルデバイス、スマートデバイス、ラップトップコンピュータ、タブレットコンピュータ、車載ナビゲーションシステムなどを含むがこれらに限定されない、計算を実行することができる任意の形式のデバイスであってよい。コンピューティングデバイス104は、これに限定されないが、プロセッサ104aを含むことがある。プロセッサ104aは、データを処理し、ソフトウェアアプリケーションを実行するように構成された任意の技術的に実現可能なハードウェアユニットであってよく、これには、中央処理装置(CPU)、マイクロコントローラユニット(MCU)、特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)チップなどが含まれるが、これらに限定されない。コンピューティングデバイス104は、プロセッサによって実行可能なデータ、コード、命令などを記憶するためのメモリユニット104bを含むことがあるが、これに限定されない。メモリユニット104bは、限定されることなく、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、または前述の任意好適な組み合わせを含むことができる。
【0026】
DVSフレームを自動ラベル付けする本システムは、動作環境に設置され得る。例えば、本システムは、シーンに動的変化(イベントベースの変化)があるかどうかを判定し、シーンの動的変化が検出された場合、DVSと一対のカメラとを自動的に作動させて動作させることができる。DVS及び一対のカメラは、同期タイムスタンプによって同期化され得る。同じシーンに対して、左カメラ及び右カメラは、インターバル中に、それぞれ少なくとも1つの左カメラフレーム、及び少なくとも1つの右カメラフレームを生成することができる。同時に、DVSは、同じインターバル内で、少なくとも1つのDVSフレームを生成することができる。カメラフレームのタイムスパンはDVSフレームのタイムスパンよりも大きいので、DVSフレームの数は通常、左または右のカメラフレームの数よりも大きい。例えば、カメラフレームのタイムスパンは20msであり、DVSフレームのタイムスパンは2msである。本開示の原理を簡単に説明するために、インターバルは、カメラフレームのタイムスパンと同じに設定され得るが、限定するためではない。このインターバルを1つのカメラフレームのタイムスパンとして設定する場合、左カメラ及び右カメラは、インターバル中にそれぞれ左カメラフレーム及び右カメラフレームを生成し得、DVSは、その同じインターバル内で少なくとも1つのDVSフレームを生成し得る。プロセッサ104aは、さらに、生成された左カメラフレーム及び右カメラフレームに基づいて、DVSフレームの自動ラベル付けを実行することができる。これについては
図2~
図9を参照して詳細に説明する。
【0027】
図2は、本開示の別の1つ以上の実施形態による、
図1に示すシステムに関連した方法のフローチャートを示す。
図2に示すように、S201で、シーンに動的変化があるかどうかの判定を行い得る。動的変化がないと判定された場合、S202に進む。S202において、本システムはスタンバイ状態にあり得る。動的変化があると判定された場合、本方法はS203に進む。S203では、記録デバイス102を作動させる。これは、カメラ及びDVSが、それぞれカメラフレーム及びDVSフレームを生成するように動作することができることを意味する。S201~S203は省略してもよく、本方法フローは直ちにS204から開始してもよいことを理解されたい。
【0028】
S204において、ペアカメラによって生成された一対のカメラフレームと、DVSによって生成された少なくとも1つのDVSフレームとを受信し得る。例えば、左カメラ102b及び右カメラ102cは、インターバル内で、それぞれ左カメラフレーム及び右カメラフレームを生成し得る。それと同時に、DVS102aは、少なくとも1つのDVSフレームを生成し得る。
【0029】
さらに、S205において、左及び右のカメラフレームに基づいて視差フレームを計算し、次いで、計算した視差フレームに基づいてカメラフレームの左及び右の3D情報を取得してもよい。3D情報は3D点を含むことができ、3D点のそれぞれは、左及び右のカメラフレーム内の各ピクセルに対応する空間位置または3D座標を表す。
【0030】
例えば、三角測量を使用して、カメラフレームの3D情報を取得することができ、SGBM(セミグローバルブロックマッチング)法を使用して、ステレオカメラフレームの視差を計算することができる。「視差」という概念は、次のように表現される。用語「視差」は、「両眼視差」として理解され得る。これは、「眼の水平方向の分離(パララックス)に起因する、左右の眼で見える対象物の像の位置の差」を意味する。これは、コンピュータビジョンでは、
図3で説明されるように、左のセンサ/カメラと右のセンサ/カメラとの間のピクセルレベルの対応/マッチングペアを意味する。
図3を参照すると、視差は、ステレオペアである左画像及び右画像における2つの対応する点の間の距離を指す。
図3は、異なる3D点X、X
1、X
2及びX
3が左画像及び右画像に異なる投影位置をもたらすことを示す。ここで、O
Lは左カメラの光学中心を表し、O
Rは右カメラの光学中心を表す。O
LとO
Rとの間の線がベースラインである。そして、e
lは左画像平面とベースラインとの交点を表し、e
rは右画像平面とベースラインとの交点を表す。
【0031】
点Xを例にとると、XからOLまで点線を追うことで、左画像平面との交点はXLになる。同じ原理が右画像平面にも適用される。XからORまで点線を追うことで、右画像平面との交点はXRになる。つまり、点Xは左カメラフレームの点XLと右カメラフレームの点XRとに投影され、その場合、フレーム内のピクセルの視差をXLとXRとの差として計算することができる。したがって、フレーム内の各ピクセルに対して上記の計算を実行することにより、左カメラフレーム及び右カメラフレームに基づいて、視差フレームを取得することができる。
【0032】
図4は、各ピクセルの視差と奥行き情報との関係を示す。ここで
図4を参照すると、視差に基づいてカメラフレームの3D情報を取得する方法が例示される。
図4は、3D点P(Xp、Yp、Zp)、左カメラフレーム及び右カメラフレームを示す。3D点は、点p
l(x
l,y
l)で左カメラフレームに投影され、点p
r(x
r,y
r)で右カメラフレームに投影される。O
lは左カメラの光学中心を表し、O
rは右カメラの光学中心を表す。c
lは左カメラフレームの中心を表し、c
rは右カメラフレームの中心を表す。O
LとO
Rとの間の線がベースラインである。TはO
LからO
Rまでの距離を表す。パラメータfはカメラの焦点距離を表し、パラメータdはx
lとx
rとの差に等しい視差を表す。左カメラフレーム及び右カメラフレームそれぞれにおける点Pと点p
l及びp
rとの間の平行移動は、以下の式(1)~(2)によって定義することができる。これらの式は、
図4及び
図7にも示されている。
【数1】
【0033】
上記の視差と深度との関係式に従って、左カメラフレーム及び右カメラフレームの各ピクセルの位置を各3D点に変換することができる。したがって、視差フレームに基づいて、左及び右のカメラフレームの3D情報を取得することができる。
【0034】
理解を容易にするために、
図5では、左から右に、それぞれ、左カメラフレーム、右カメラフレーム、ならびに左カメラフレーム及び右カメラフレームから計算される視差フレームを示す。視差フレームでは、明るい色のピクセルは距離がより近いことを意味し、色の濃いピクセルは距離がより遠いことを意味する。
【0035】
方法フローチャートに戻ると、S206で、ディープラーニングモデルを使用することにより、自動ラベル付けする対象物領域を判定し得る。多様な要件に応じて、対象の特徴を抽出し得る様々なディープラーニングモデルを、限定されることなく、左及び右のカメラフレームから選択される1つのカメラフレームに適用することができる。例えば、ある物体検出モデルを1つのカメラフレームに適用することができる。モデルが異なれば、提供される出力形式も異なり得る。例えば、あるモデルでは、所望の対象物の輪郭を表す対象物領域が出力され得、その輪郭は所望の対象物の点で構成される。例えば、他のモデルでは、所望の対象物が位置する長方形領域などの領域を表す対象物領域が出力され得る。
図6は、例示のみを目的として一例を示しているが、これに限定されるものではなく、カメラフレームは
図5に示したものと同じカメラフレームであってもよい。
図6に示すように、例えば、左側のカメラフレームが選択される。例えば、左カメラフレーム上の対象物検出結果が矩形結果として示されており、視差フレーム上の対応する結果もまた視差フレーム内に矩形結果として示されている。
【0036】
次に、S207では、S205で取得した3D情報とS206で判定した対象物領域とに基づいて、対象物領域内の所望の対象物の3D点を取得する。S206に関して説明したように、モデルが異なれば、検出結果の出力形式も異なり得る。検出結果が、点で構成される所望の対象物の輪郭である場合には、それをそのまま利用して、S205で取得した3D情報から3D点を取得することができる。検出結果が、長方形の結果など、所望の対象物が位置する領域である場合には、クラスタリング処理を実行する必要がある。つまり、検出長方形の大部分を占める点、及び検出長方形の中心により近い点が、所望の対象物とみなされることになる。
【0037】
S208で、所望の対象物の取得した3D点を、少なくとも1つのDVSフレームに向けて再投影し得る。ステレオカメラとDVSとは同じワールド座標にあり、それらは堅固に結合されているため、ステレオカメラフレームから計算された3D点は、DVSフレームから見える3D点でもある。したがって、再投影プロセスを実行して、所望の対象物の3D点をDVSフレームに向けて再投影することができる。三角測量と再投影とは互いに逆のプロセスであるとみなすことができることを理解することができる。ここで重要なのは、2つのステレオカメラフレームを使用して3D点を取得し、1つのカメラフレームと1つのDVSフレームとを使用して、DVSフレーム上のマッチする点を取得することである。
図7は、DVSフレームへ向けての3D点P(X
p、Y
p、Z
p)の再投影を示す。破線で描かれた平行四辺形は、前の
図4の右側のカメラフレームを指す。
図7のパラメータは、
図4のパラメータと同じ定義を有する。
図7に示すように、その式は
図4の式と同じである。唯一の違いは、
図4では2つのフレームがステレオカメラフレームであるのに対し、
図7では2つのフレームが1つのカメラフレームと1つのDVSフレームとであることである。
【0038】
S209では、DVSフレーム上の再投影点を結合して、DVSフレーム上に新しい検出結果を生成し、すなわち、自動ラベル付けされたDVSフレームを生成することができる。所望の対象物の3D点を再投影してDVSフレーム上の点の位置を取得した後、DVSフレーム上の対応する検出結果を取得することが可能である。例えば、その結果が長方形の結果を必要とする場合には、DVSフレーム上の全ての再投影点を含む長方形が作成される。例えば、その結果が輪郭の結果を必要とする場合には、DVSフレーム上の再投影点は、全ての点のうちでその点に最も近い点に、それぞれ接続される。
図8に示す例によって説明されるように、自動ラベル付け結果は、DVSフレーム上の再投影点を使用することによって生成されることになる。
図8は、最終結果の期待効果の例を示す。
図8の左側画像は左カメラフレームであり、右側画像はDVSフレームである。右側画像の点は、DVSフレーム上に再投影された3D点の位置を表す。長方形は、DVSフレーム上の自動ラベル付け結果である。
図8は、単に例示のためのものであり、実際の場合、DVSフレーム上にはさらに多くの再投影点が存在するはずである。
【0039】
上記の自動ラベル付け方法を使用することにより、DVSのFPS(1秒あたりのフレーム数)が従来のカメラよりもはるかに高いため、1つのカメラフレームを使用して多くのDVSフレームをラベル付けすることができ、したがって自動ラベル付けの効率がさらに向上する可能性がある。
図10は、1つのカメラフレームとそれに対応する自動ラベル付けされたDVSフレームとを示す。これらのDVSフレームは連続したフレームである。
【0040】
本開示で説明される方法、装置、及びシステムは、DVSフレームのより効率的かつ正確な自動ラベル付けを実現することができる。本開示の方法、装置、及びシステムは、一対のカメラをDVSと結合し、同じシーンを同時に記録する。取得したカメラフレームとDVSフレームとの組み合わせての使用に基づいて、DVSフレームの記録と同時に、DVSフレームに自動的にラベルを付けることができる。その結果、DVSディープラーニングトレーニング用の大量のラベル付きデータが可能になる。既存のアプローチと比較して、本開示で説明される方法及びシステムは、DVSの利点を最大限に活用し、より正確かつ効率的な自動ラベル付けを行うことができる。
【0041】
1.いくつかの実施形態における、ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けする方法であって、あるインターバル内で一対のカメラによって生成された一対のカメラフレームを受信するとともに、前記インターバル内でDVSによって生成された少なくとも1つのDVSフレームを受信することと、前記一対のカメラフレームに基づいて視差フレームを計算し、前記計算した視差フレームに基づいて前記一対のカメラフレームの3D情報を取得することと、ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、前記取得した3D情報と前記判定した対象物領域とに基づいて3D点を取得し、前記3D点を前記少なくとも1つのDVSフレームに向けて再投影して、前記少なくとも1つのDVSフレーム上に再投影点を生成することと、前記少なくとも1つのDVSフレーム上の前記再投影点を結合することにより、前記少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、を含む、前記方法。
【0042】
2.前記一対のカメラは、左カメラ及び右カメラを含み、前記DVSは、前記左カメラ及び前記右カメラと堅固に結合するように配列されている、条項1に記載の方法。
【0043】
3.自動ラベル付けする対象物領域を前記判定することが、さらに、ディープラーニングモデルの入力として、前記一対のカメラフレームから、1つのカメラフレームを選択することと、前記ディープラーニングモデルの前記出力に基づいて、自動ラベル付けする対象物領域を判定することと、を含む、条項1~2のいずれか1項に記載の方法。
【0044】
4.前記3D情報は3D点を含み、前記3D点のそれぞれは、1つのカメラフレーム内の各ピクセルに対応する空間位置/座標を表す、条項1~3のいずれか1項に記載の方法。
【0045】
5.前記インターバルは、2つの連続するカメラフレーム間のタイムスパンに基づいて、予め設定される、条項1~4のいずれか1項に記載の方法。
【0046】
6.前記インターバル内の前記DVSによって少なくとも1つのDVSフレームを前記生成することが、前記インターバル内のピクセルイベントを統合して、前記少なくとも1つのDVSフレームを生成することを含む、条項1~5のいずれか1項に記載の方法。
【0047】
7.シーンに動的変化があるかどうかを判定することと、前記シーンに動的変化がある場合は、前記DVSと前記一対のカメラとを作動させることと、をさらに含む、条項1~6のいずれか1項に記載の方法。
【0048】
8.前記動的変化は、強度変化、及び対象物の動きのうちの少なくとも1つを含む、条項1~7のいずれか1項に記載の方法。
【0049】
9.いくつかの実施形態における、ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けするシステムであって、あるインターバル内で一対のカメラフレームを生成するように構成された一対のカメラと、前記インターバル内で少なくとも1つのDVSフレームを生成するように構成されたDVSと、コンピューティングデバイスであって、プロセッサと、前記一対のカメラフレームに基づいて視差フレームを計算し、前記計算した視差フレームに基づいて前記一対のカメラフレームの3D情報を取得することと、ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、前記取得した3D情報と前記判定した対象物領域とに基づいて3D点を取得し、前記3D点を前記少なくとも1つのDVSフレームに向けて再投影して、前記少なくとも1つのDVSフレーム上に再投影点を生成することと、前記少なくとも1つのDVSフレーム上の前記再投影点を結合することにより、前記少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、を行うように前記プロセッサによって実行可能な命令を格納するメモリユニットとを備える、前記コンピューティングデバイスと、を備える、前記システム。
【0050】
10.前記一対のカメラは、左カメラ及び右カメラを備え、前記DVSは、前記左カメラと前記右カメラとを堅固に結合するように配列されている、条項9に記載のシステム。
【0051】
11.前記プロセッサは、ディープラーニングモデルの入力として、前記一対のカメラフレームから、1つのカメラフレームを選択することと、前記ディープラーニングモデルの前記出力に基づいて、自動ラベル付けする対象物領域を判定することと、を行うようにさらに構成される、条項9~10のいずれか1項に記載のシステム。
【0052】
12.前記3D情報は3D点を含み、前記3D点のそれぞれは、前記カメラフレーム内の各ピクセルに対応する空間位置/座標を表す、条項9~11のいずれか1項に記載のシステム。
【0053】
13.前記少なくとも1つのDVSフレームは、前記インターバル内のピクセルイベントを統合することによって生成される、条項9~12のいずれか1項に記載のシステム。
【0054】
14.前記インターバルは、2つの連続するカメラフレーム間のタイムスパンに基づいて、予め設定される、条項9~13のいずれか1項に記載のシステム。
【0055】
15.前記プロセッサは、シーンに動的変化があるかどうかを判定することと、前記シーンに動的変化がある場合は、前記DVSと前記一対のカメラとを作動させることと、を行うようにさらに構成される、条項9~14のいずれか1項に記載のシステム。
【0056】
16.前記動的変化は、強度変化、及び対象物の動きのうちの少なくとも1つを含む、条項9~15のいずれか1項に記載のシステム。
【0057】
17.いくつかの実施形態における、ダイナミックビジョンセンサ(DVS)フレームを自動ラベル付けする装置であって、コンピューティングデバイスであって、プロセッサと、あるインターバル内で一対のカメラによって生成された一対のカメラフレームを受信するとともに、前記インターバル内でDVSによって生成された少なくとも1つのDVSフレームを受信することと、前記一対のカメラフレームに基づいて視差フレームを計算し、前記計算した視差フレームに基づいて前記一対のカメラフレームの3D情報を取得することと、ディープラーニングモデルを使用して、自動ラベル付けする対象物領域を判定することと、前記取得した3D情報と前記判定した対象物領域とに基づいて3D点を取得し、前記3D点を前記少なくとも1つのDVSフレームに向けて再投影して、前記少なくとも1つのDVSフレーム上に再投影点を生成することと、前記少なくとも1つのDVSフレーム上の前記再投影点を結合することにより、前記少なくとも1つのDVSフレーム上に少なくとも1つの自動ラベル付け結果を生成することと、を行うように前記プロセッサによって実行可能な命令を格納するメモリユニットとを備える、前記コンピューティングデバイスを備える、前記装置。
【0058】
様々な実施形態の説明は、例証の目的で提示されているが、包括的であること、または開示される実施形態に限定されることは意図されていない。多くの修正形態及び変形形態は、説明される実施形態の範囲及び趣旨から逸脱することなく、当業者には明白である。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実用的応用または技術改善を最もよく説明するために選択され、あるいは当業者が本明細書に開示された実施形態を理解できるようにするために選択されたものである。
【0059】
上記においては、本開示で提示された実施形態に参照符号が付けられている。しかしながら、本開示の範囲は、記載された特定の実施形態に限定されるものではない。その代わりに、上記の特徴及び要素の任意の組み合わせが、異なる実施形態に関連するか否かにかかわらず、企図された実施形態を実施し、実践するために企図される。さらに、本明細書に開示される実施形態は、他の可能な解決策または従来技術を上回る利点を達成する可能性があるが、特定の利点が所与の実施形態によって達成されるか否かは、本開示の範囲を限定するものではない。したがって、上記の態様、特徴、実施形態及び利点は、単なる例示的なものであり、特許請求の範囲(複数可)に明示的に記載されている場合を除き、添付の特許請求の範囲の要素または限定であるとはみなされない。
【0060】
本開示の態様は、本明細書では全て一般的に「モジュール」または「システム」と呼ばれ得る、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアとハードウェアの態様を組み合わせた実施形態の形態をとり得る。
【0061】
1つ以上のコンピュータ可読媒体(複数可)の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光、電磁気、赤外線、または半導体のシステム、装置、もしくはデバイス、または上記の好適な任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより多くの具体例(非包括的リスト)は、1つ以上の通信回線を有する電気的接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、または前述の任意の好適な組み合わせを含むであろう。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、もしくはデバイスによる使用のために、またはそれらと接続してプログラムを含むまたは記憶することができる任意の有形媒体であり得る。
【0062】
本開示の態様は、本方法の実施形態に従った方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/またはブロック図を参照して上記に説明されている。フローチャート図及び/またはブロック図の各ブロック、及びフローチャート図及び/またはブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実施できることが理解される。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されて、その命令が、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行され、フローチャート及び/またはブロック図の1つ以上のブロックに規定されている機能/行為の実施を可能にするような機械を生成し得る。係るプロセッサは、限定されず、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルプロセッサであり得る。
【0063】
上記は、本開示の実施形態を対象としているが、本開示の他のさらなる実施形態を、その基本的な範囲から逸脱することなく考案することができ、その範囲は以下の特許請求の範囲によって決定される。
【国際調査報告】