(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-12
(54)【発明の名称】DVSフレームを自動ラベリングするための方法及びシステム
(51)【国際特許分類】
H04N 23/60 20230101AFI20240705BHJP
H04N 23/56 20230101ALI20240705BHJP
G06T 7/00 20170101ALN20240705BHJP
【FI】
H04N23/60 500
H04N23/56
H04N23/60 300
G06T7/00 350B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023578090
(86)(22)【出願日】2021-07-07
(85)【翻訳文提出日】2023-12-19
(86)【国際出願番号】 CN2021104979
(87)【国際公開番号】W WO2023279286
(87)【国際公開日】2023-01-12
(81)【指定国・地域】
(71)【出願人】
【識別番号】592051453
【氏名又は名称】ハーマン インターナショナル インダストリーズ インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ジョウ, レンガオ
【テーマコード(参考)】
5C122
5L096
【Fターム(参考)】
5C122DA11
5C122EA01
5C122FA09
5C122FH11
5C122FH14
5C122FH18
5C122GG03
5C122GG04
5C122GG17
5C122GG24
5C122HA01
5C122HB01
5C122HB02
5C122HB05
5L096AA06
5L096BA08
5L096CA04
5L096DA02
5L096HA09
5L096KA04
(57)【要約】
本開示は、ダイナミックビジョンセンサ(DVS)フレームを自動ラベリングするための方法及びシステムを提供する。方法は、現実シーンを記録しているDVS(102a)を介して、第1の期間中に複数の第1のフレームを生成することを含み得、第1の期間中、DVS(102a)が記録している領域は補光される。方法は、複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得することを含み得る。さらに、方法は、DVS(102a)を介して、第2の期間中に複数の第2のフレームを生成することを含み得、第2の期間中、DVS(102a)が記録している領域は補光されない。方法はさらに、少なくとも1つの第1の検出結果のうちの1つを、複数の第2のフレームのうちの少なくとも1つの検出結果として利用して、少なくとも1つの自動ラベル付きDVSフレームを生成することを含み得る。
【選択図】
図7
【特許請求の範囲】
【請求項1】
ダイナミックビジョンセンサ(DVS)フレームを自動ラベリングするための方法であって、
現実シーンを記録しているDVSを介して、第1の期間中に複数の第1のフレームを生成することであって、前記第1の期間中、前記DVSが記録している領域は補光される、前記生成することと、
前記複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得することと、
前記DVSを介して、第2の期間中に複数の第2のフレームを生成することであって、前記第2の期間中、前記DVSが記録している前記領域は補光されない、前記生成することと、
前記少なくとも1つの第1の検出結果のうちの1つを、前記複数の第2のフレームのうちの少なくとも1つの検出結果として利用して、少なくとも1つの自動ラベル付きDVSフレームを生成することと、
を含む、前記方法。
【請求項2】
前記DVSと連携して、間隔を置いて光を放射するように構成された光発生器により、前記補光は行われる、請求項1に記載の方法。
【請求項3】
前記第1の期間及び前記第2の期間は、交錯され、ミリ秒オーダーである、請求項1~2のいずれか1項に記載の方法。
【請求項4】
前記少なくとも1つの第1の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記DVSが記録している前記領域の全体または一部に対し、前記補光は行われる、請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用することは、
深層学習モデルの入力として、前記第1のフレームから1つのフレームを選択することと、
前記深層学習モデルの出力に基づいて、前記検出結果を決定することと、
を含む、請求項1~5のいずれか1項に記載の方法。
【請求項7】
ダイナミックビジョンセンサ(DVS)フレームを自動ラベリングするためのシステムであって、前記システムは、
現実シーンを記録し、第1の期間中に複数の第1のフレームを生成し、第2の期間中に複数の第2のフレームを生成するように構成されたDVSと、
前記DVSが記録している領域に間隔を置いて補光するように構成された光発生器であって、前記光発生器は、前記第1の期間中、前記DVSが記録している領域に自動的に光を放射し、前記光発生器は、前記第2の期間中、前記DVSが記録している前記領域に対する光の放射を自動的に停止する、前記光発生器と、
プロセッサと、命令を格納するメモリユニットとを有するコンピューティングデバイスと、
を備え、前記命令は、前記プロセッサにより、
前記複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得することと、
前記少なくとも1つの第1の検出結果のうちの1つを、前記複数の第2のフレームのうちの少なくとも1つの検出結果として利用して、少なくとも1つの自動ラベル付きDVSフレームを生成することと、
を実行可能である、前記システム。
【請求項8】
前記第1の期間及び前記第2の期間は、交錯され、ミリ秒オーダーである、請求項7に記載のシステム。
【請求項9】
前記少なくとも1つの第1の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、請求項7~8のいずれか1項に記載のシステム。
【請求項10】
前記光発生器は、前記DVSが記録している領域の全体または一部に光を放射するように構成される、請求項7~9のいずれか1項に記載のシステム。
【請求項11】
前記プロセッサはさらに、
深層学習モデルの入力として、前記第1のフレームから1つのフレームを選択することと、
前記深層学習モデルの出力に基づいて、前記検出結果を決定することと、
を実行するように構成される、請求項7~10のいずれか1項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、自動ラベリングの方法及びシステムに関し、具体的には、補光することにより、DVS(ダイナミックビジョンセンサ)フレームを自動ラベリングするための方法及びシステムに関する。
【背景技術】
【0002】
近年、新たな最先端センサであるDVSは、広く知られるものとなり、人工知能分野、コンピュータビジョン分野、自動運転分野、ロボティクスなどの多くの分野で用いられている。
【0003】
従来のカメラと比較して、DVSは、低レイテンシ、モーションブラーなし、高ダイナミックレンジ、及び低消費電力という利点を有する。具体的には、DVSのレイテンシはマイクロ秒であり、一方、従来のカメラのレイテンシはミリ秒である。ゆえに、DVSでは、モーションブラーに悩まされることがない。その結果、DVSのデータレートは通常40~180kB/sであり(従来のカメラの場合は通常10mB/s)、これは、より狭い帯域幅及びより低い消費電力で済むことを意味する。その上、DVSのダイナミックレンジは約120dBであるのに対し、従来のカメラのダイナミックレンジは約60dBである。より広いダイナミックレンジは、例えば、トンネルに出入りする車両、ハイビームを点灯している他の対向車両、及び日照方向の変更など、極端な光条件下で有用である。
【0004】
これらの利点により、DVSは広く使用されてきた。現在、深層学習法は、様々な分野で普及している。深層学習は、DVSに関しても、物体認識及びセグメンテーションなどの様々な分野で適している。深層学習を適用するためには、膨大な量のラベル付きデータが必要である。しかし、DVSは新たな種類のセンサであるため、利用可能なラベル付きデータセットは、ほんのわずかしか存在しない。また、DVSデータセットを手動でラベリングすることは、多くのリソース及び労力を要する大変な作業である。したがって、DVSフレームの自動ラベリングが求められている。
【0005】
現在、DVSフレームに対して2つの自動ラベリングアプローチが存在する。1つの自動ラベリングアプローチでは、従来のカメラビデオを表示モニタの画面で再生し、DVSを使用して画面を記録する。もう1つの自動ラベリングアプローチでは、深層学習モデルを使用して、カメラフレームからラベル付きDVSフレームを直接生成する。しかしながら、これら2つの手法はどちらも、克服不可能な欠点を伴う。第1のアプローチでは、記録時に100%のDVSフレームを表示モニタに正確に合わせることは難しいため、精度が失われる。第2のアプローチでは、不自然なDVSフレームが生成される。材料によって、反射率が異なる。しかし、第2のアプローチでは、DVSフレームがカメラフレームから直接生成されることから、不自然なDVSフレームも同様に扱われ、よって、生成されるDVSフレームは非常に不自然なものとなる。その上、両アプローチは、DVSを使用して現実シーンを記録することはなく、カメラビデオの品質が、以下の態様から生成されるDVSフレームの最終出力を制限することから、DVSの利点を無駄にするという問題に陥る。第1に、生成されるDVSフレームレートは、最大でもカメラフレームレートにしか到達しない(第2の方法は、アップスケーリング法を使用してより多くのフレームを取得し得るが、それでも見込みはない)。第2に、カメラにより記録されたモーションブラー、残像、及びスミアが、生成されるDVSフレーム内にも存在する。DVSは低レイテンシでモーションブラーがないことが知られているため、この事実は不合理かつ荒唐である。第3に、従来のカメラは低ダイナミックレンジを有することから、DVSの高ダイナミックレンジは無駄になる。
【0006】
よって、DVSの利点が十分に活用されると同時に、ラベル付きDVSデータセットを迅速に作成するようにDVSフレームを自動ラベリングする、向上した技術を提供する必要がある。
【発明の概要】
【課題を解決するための手段】
【0007】
本開示の1つ以上の実施形態によれば、ダイナミックビジョンセンサ(DVS)フレームを自動ラベリングするための方法が提供される。方法は、現実シーンを記録しているDVSを介して、第1の期間中に複数の第1のフレームを生成することを含み得、第1の期間中、DVSが記録している領域は補光される。方法は、複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得することを含み得る。さらに、方法は、DVSを介して、第2の期間中に複数の第2のフレームを生成することを含み得、第2の期間中、DVSが記録している領域は補光されない。方法はさらに、少なくとも1つの第1の検出結果のうちの1つを、複数の第2のフレームのうちの少なくとも1つの検出結果として利用して、少なくとも1つの自動ラベル付きDVSフレームを生成することを含み得る。
【0008】
本開示の1つ以上の実施形態によれば、ダイナミックビジョンセンサ(DVS)フレームを自動ラベリングするためのシステムが提供される。システムは、DVSと、光発生器と、コンピューティングデバイスとを備え得る。DVSは、現実シーンを記録し、第1の期間中に複数の第1のフレームを生成し、第2の期間中に複数の第2のフレームを生成するように構成され得る。光発生器は、DVSが記録している領域に間隔を置いて補光するように構成され得、光発生器は、第1の期間中、DVSが記録している領域に自動的に光を放射するように構成され得、光発生器は、第2の期間中、DVSが記録している領域に対する光の放射を自動的に停止するように構成され得る。コンピューティングデバイスは、プロセッサと、命令を格納するメモリユニットとを備え得、命令は、プロセッサにより、複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得することと、少なくとも1つの第1の検出結果のうちの1つを、複数の第2のフレームのうちの少なくとも1つの検出結果として利用して、少なくとも1つの自動ラベル付きDVSフレームを生成することと、を実行可能である。
【図面の簡単な説明】
【0009】
【
図1】本開示の1つ以上の実施形態によるシステムの概略図を示す。
【
図2】本開示の1つ以上の実施形態による、DVSにより生成された通常DVSフレームと光実装DVSフレームとの比較例を示す。
【
図3】本開示の1つ以上の実施形態による、DVSにより生成された通常DVSフレームと光実装DVSフレームとの比較例を示す。
【
図4】本開示の1つ以上の実施形態による、DVSにより生成された通常DVSフレームと光実装DVSフレームとの比較例を示す。
【
図5】
図4の補光DVSフレームに対する自動ラベリングを示す。
【
図6】光発生器の動作を示す例としてプロットを示す。
【
図7】本開示の1つ以上の実施形態による方法のフローチャートを示す。
【
図8】本開示の1つ以上の実施形態による、自動ラベル付き通常DVSフレームの例を示す。
【発明を実施するための形態】
【0010】
図面に共通する同一要素を指すのに、理解しやすいように、可能な場合は同一の参照番号が使用されている。一実施形態に開示される要素は、具体的な記述がなくとも他の実施形態に有益に利用されてもよいことが企図される。本明細書で指される図面は、特に断りのない限り、縮尺通りに描かれていると理解されるべきではない。また、提示及び説明を明確化にするために、多くの場合、図面は簡略化されており、詳細または構成要素が省略されている。図面及び論述は、下記に述べられる原理を説明するために用いられ、同様の名称は同様の要素を示す。
【0011】
例示のために、実施例が下記に提供される。様々な実施例の説明は、例示目的で提示されるが、網羅的であることも、実施形態に限定されることも意図していない。説明される実施形態の範囲及び趣旨から逸脱することのない数多くの変更形態及び変形形態が、当業者には明らかであろう。
【0012】
概して、本開示は、既存のカメラ深層学習モデルを使用して、DVSフレームを自動ラベリングするシステム及び方法を提供する。光発生器とDVSとを組み合わせて、DVSが記録している場所を補光することにより、DVSは、従来のカメラのようにフレームを生成することができ、よって従来のカメラフレームのように機能する補光DVSフレームが生成される。従来のカメラの分野における深層学習モデルは、既に十分に開発されて熟しているため、DVSフレームがカメラフレームとピクセルレベルで整合される限り、カメラフレーム上の検出結果を使用して、DVSフレームを自動ラベリングすることが可能である。補光することで、生成される補光DVSフレームは、従来のカメラフレームと同様に機能する。よって、従来のカメラの既存の深層学習モデルは、補光DVSフレームにも適用して、検出結果を得ることができる。補光DVSフレームが生成されたすぐ後に、光発生器はオフにされた状態で、DVSにより通常DVSフレームが生成され得る。補光DVSフレーム上の検出結果を、通常DVSフレーム上の検出結果として使用して、自動ラベル付きDVSフレームが生成され得る。このようにして、DVSが記録している間に、ラベル付きDVSデータセットが迅速に作成され得、これにより、自動ラベリングの効率は大幅に向上する。さらに、本開示の方法及びシステムは、現実シーンの記録を行っているDVSにより生成されるDVSフレームに対して直接実行されることから、DVS自体の利点がより効果的に使用され得る。
【0013】
図1は、本開示の1つ以上の実施形態による、DVSフレームを自動ラベリングするためのシステムの概略図を示す。
図1に示されるように、システムは、記録デバイス102と、コンピュータデバイス104とを備え得る。記録デバイス102は、DVS102aと、光発生器102bとを少なくとも含み得るが、これらに限定されない。コンピューティングデバイス104は、プロセッサ104aと、メモリユニット104bとを含み得るが、これらに限定されない。
【0014】
DVS102aは、イベント駆動アプローチを採用して、シーンにおける動的な変化をキャプチャし、非同期のピクセルを作成し得る。従来のカメラとは異なり、DVSは、画像を生成しないが、ピクセルレベルのイベントを送信する。現実シーンに動的な変化があるとき、DVSは、何らかのピクセルレベル出力(すなわちイベント)を生成する。よって、変化がない場合、データ出力は行われない。イベントデータは、[x、y、t、p]の形式であり、x及びyは、2D空間におけるイベントのピクセル座標を表し、tは、イベントのタイムスタンプであり、pは、イベントの極性である。例えば、イベントの極性は、より明るくなる、またはより暗くなるなど、シーンの明るさの変化を表し得る。
【0015】
光発生器102bは、DVSが記録している場所を補光することができる任意のデバイスであり得る。光発生器102bから放射される光には、赤外光、紫外光、及び人間の目に見える照明光などのうちのいずれかが含まれ得る。好ましい例としては、IRカメラと通常一緒に使用されるIR LED補助光が挙げられる。DVS102aと光発生器102bは一緒に、固定的にまたは取り外し可能に、組み合わせ/組み立て/一体化を行うことができる。
図1は、システムのコンポーネントを例示しているに過ぎず、システムのコンポーネントの位置関係を限定する意図はないことを、理解されたい。DVS102aが記録している領域を光発生器102bが補光できるのであれば、DVS102aは、光発生器102bといずれの相対位置関係で配置されてもよい。
【0016】
DVSと光発生器とを組み合わせて使用することは、DVSフレームの自動ラベリングを開発するプロセスにおける発明者の重要な発見に由来する。発明者は、当業者が認識していなかった驚くべき現象、すなわち、DVSが記録している領域を補光することにより、生成されるDVSフレームに予期せぬ効果が得られることを、発見した。
図2~
図4は、中国語名が描かれたボックスが主なターゲットであるシーンで、異なる条件で生成されたDVSフレームの比較例を示す。
図2は、ボックスに妨害が加えられた事例で生成されたDVSフレームの例を示す。この事例では、DVSがボックス及び名前をキャプチャできたことが分かる。対照的に、
図3は、ボックスに何の妨害もない状態で生成されたDVSフレームの例を示し、DVSがボックス及び名前をキャプチャしていないことを示す。
図4は、ボックス上に追加光(例えば光発生器から放射されるIR LED光)がある状態で生成されたDVSフレームの例を示す。
図4は、DVSが記録している領域の一部が補光された事例で、DVSが、ボックスに描かれた名前をキャプチャできたことを示し、円形部分は、補光の領域部分を示す。
図2~
図4の比較例は、DVSにより記録されている領域が補光されたときを示し、DVSの撮像は、カメラ撮像の結果により近く、生成された補光DVSフレームは、グレースケールカメラ画像のように機能する。原理上、補光することは、ある意味DVSの目的にそぐわないが、
図2~
図4に示される比較例では、補光することにより、従来のカメラフレームのように機能する「補光」DVSフレームが生成されるという結果が、完全に証明され得る。
図5は、文字検出モデルなどの既存の深層学習モデルを使用した、
図4の補光フレーム上の検出結果を示す。
【0017】
本開示の1つ以上の実施形態によれば、光発生器102bは、オンとオフを交互に切り替えるように、手動で制御されてもよく、または自動的に制御されてもよく、よって間隔を置いて光を放射し得る。
図6は、光発生器102bの自動動作を示す例として、プロットを示す。例えば、光発生器102bは、時点t1でオンになり、DVS102aが記録している領域に光を放射する。光発生器102bは、時点t2で自動的にオフになり、DVS102が記録している領域は補光されない。光発生器102bは、時点t3で自動的にオンになり、DVS102aが記録している領域に光を放射する。光発生器102bは、時点t4で自動的にオフになり、DVS102が記録している領域は補光されない。光発生器は、実務的要件に従って、上記の動作を終了時点tnまで自動的に繰り返し得る。
【0018】
次に、DVS102a及び光発生器102bの複合動作が説明される。DVSフレームを自動ラベリングするためのシステムは、現実シーンを記録するための環境に配置され得る。DVS102aは、現実シーンを記録するように構成される。前述のように、光発生器102bは、オンとオフを交互に切り替えるように、手動で制御されてもよく、または自動的に制御されてもよい。例えば、光発生器102bは、時点t1でオンになり、DVS102aが記録している領域に光を放射する。光発生器102bは、時点t2でオフになる。t1~t2の第1の期間(T1)中に、補光が行われると、DVS102aは、従来のカメラのようにフレームを生成する。前述のように、グレースケールカメラ画像のようなものを生成することが見込まれ得るが、実際はDVSにより記録される。よって、補光が行われると、DVS102aは、第1の期間中に複数のフレーム、すなわち補光DVSフレームを生成し得る。第1の期間T1が終了すると、例えば時点t2に光発生器は自動的にオフになり(すなわち光の放射を停止し)、次にDVS102aは、通常通り作動し、光発生器が再び自動的にオンになる次の時点t3までの第2の期間(T2)中に、複数の通常DVSフレームを生成する。以降同様である。第1の期間T1と第2の期間T2は、交錯される。例えば、期間T1及び期間T2は、ミリ秒オーダーであり得る。実務的ニーズに応じて、第1の期間T1と第2の期間T2は、同じであってもよく、または異なっていてもよい。
図6は、単に例示のためのものであり、期間のパラメータ値を限定するためのものではない。
【0019】
図1に戻ると、コンピューティングデバイス104は、計算を実行することができる任意の形態のデバイスであり得、これには、モバイルデバイス、スマートデバイス、ラップトップコンピュータ、タブレットコンピュータ、及び車載ナビゲーションシステムなどが含まれるが、これらに限定されない。コンピューティングデバイス104は、プロセッサ104aと、メモリユニット104bとを含み得るが、これらに限定されない。プロセッサ104aは、データを処理し、ソフトウェアアプリケーションを実行するように構成された任意の技術的に実現可能なハードウェアユニットであり得、これには、中央処理装置(CPU)、マイクロコントローラユニット(MCU)、特定用途向け集積回路(ASIC)、及びデジタル信号プロセッサ(DSP)チップなどが含まれるが、これらに限定されない。コンピューティングデバイス104は、プロセッサにより実行可能なデータ、コード、命令などを格納するためのメモリユニット104bを含み得るが、これに限定されない。メモリユニット104bには、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、または前述の任意の適切な組み合わせが含まれ得るが、これらに限定されない。
【0020】
1つ以上の実施形態によれば、プロセッサ104aは、DVSフレームの自動ラベリングを実行し得る。具体的には、プロセッサ104aは、DVSにより生成された補光DVSフレームと通常DVSフレームとを受信し、従来のカメラのための任意の既存の深層学習モデルを補光DVSフレームに適用して、第1の検出結果を取得し、次に第1の検出結果のうちの1つを、複数の第2のフレームのうちの少なくとも1つの検出結果として使用して、少なくとも1つの自動ラベル付きDVSフレームを生成するように、構成され得る。ラベル付きDVSフレームを含むラベル付きDVSデータセットは、メモリ104bに格納され得る。
【0021】
DVSのレイテンシは、極端に低いため(「us」単位)、補光プロセスは、非常に短い期間に限定され得、すなわち第1の期間は、数ミリ秒などのきわめて短い時間に限定され得る。よって、「補光」DVSフレームとその後の通常フレーム(現実シーン)DVSフレームとの間の時間ギャップは、無視され得る。その結果、これら2種類のフレームが、実際に同じシーンを描写している。よって、プロセッサ104aは、少なくとも1つの補光DVSフレームで得られた第1の検出結果のうちの1つを、通常DVSフレームのうちの少なくとも1つの検出結果として使用して、少なくとも1つの自動ラベル付きDVSフレームを生成するように構成され得る。
【0022】
図7は、本開示の1つ以上の実施形態による、
図1に示されるシステムに関する方法のフローチャートを示す。
図7に示されるように、S702にて、現実シーンを記録しているDVSは、第1の期間中に複数の第1のフレームを生成し、第1の期間中、DVSが記録している領域(例えば全領域または領域の一部)は補光される。S704にて、複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得する。例えば、深層学習モデルの入力として、第1のフレームから少なくとも1つのフレームが選択され得る。次に、深層学習モデルの出力に基づいて、少なくとも1つの検出結果が決定され得る。例えば、少なくとも1つの第1の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域に関するデータを含み得る。S706にて、DVSは、第2の期間中に複数の第2のフレームを生成し、第2の期間中、DVSが記録している領域は補光されない。第1の期間と第2の期間は、交錯され得る。例えば、第1の期間及び第2の期間は、ミリ秒オーダーであり得る。S708にて、少なくとも1つの第1の検出結果のうちの1つを、複数の第2のフレームのうちの少なくとも1つの検出結果として使用して、少なくとも1つの自動ラベル付きDVSフレームが生成される。DVSのレイテンシは極端に低いことから、上記の自動ラベリングの方法を用いることにより、少なくとも1つの補光フレームを使用して多くの通常DVSフレームをラベリングすることができ、これにより、自動ラベリングの効率がさらに向上し得る。
【0023】
図8は、本開示の方法及びシステムを使用した、例示的なシーンの自動ラベル付き通常DVSフレームの例を示し、これらの自動ラベル付き通常DVSフレームは、連続フレームである。このシーンでは、例えば、補光DVSフレームのうちの1つに頭部検出が適用され得る。
【0024】
本開示で説明される方法及びシステムにより、より効率的なDVSフレームの自動ラベリングが実現され得る。この革新により、既存のカメラ深層学習モデルを使用してDVSフレームを自動ラベリングする方法が提案される。従来のカメラフレームと同様に機能する「補光」DVSフレームを作成するために、補光器が使用されている。補光フレームと通常DVSフレームとの複合使用に基づいて、DVSフレームが記録されるのと同時に、DVSフレームは自動的にラベリングされ得る。その結果、膨大な量のラベル付きデータが、DVS深層学習のトレーニングに利用可能となる。このようにして、DVSが記録している間に、ラベル付きDVSデータセットが迅速に作成され得、これにより、自動ラベリングの効率は大幅に向上する。さらに、既存のアプローチと比較して、本開示の方法及びシステムは、現実シーンの記録を行っているDVSにより生成されるDVSフレームに対して直接実行されることから、DVS自体の利点がより効果的に使用され得る。
【0025】
1.いくつかの実施形態における、ダイナミックビジョンセンサ(DVS)フレームを自動ラベリングするための方法であって、現実シーンを記録しているDVSを介して、第1の期間中に複数の第1のフレームを生成することであって、前記第1の期間中、前記DVSが記録している領域は補光される、前記生成することと、前記複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得することと、前記DVSを介して、第2の期間中に複数の第2のフレームを生成することであって、前記第2の期間中、前記DVSが記録している前記領域は補光されない、前記生成することと、前記少なくとも1つの第1の検出結果のうちの1つを、前記複数の第2のフレームのうちの少なくとも1つの検出結果として利用して、少なくとも1つの自動ラベル付きDVSフレームを生成することと、を含む、前記方法。
【0026】
2.前記DVSと連携して、間隔を置いて光を放射するように構成された光発生器により、前記補光は行われることをさらに含む、条項1に記載の方法。
【0027】
3.前記第1の期間及び前記第2の期間は、交錯され、ミリ秒オーダーである、条項1~2のいずれか1項に記載の方法。
【0028】
4.前記少なくとも1つの第1の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、条項1~3のいずれか1項に記載の方法。
【0029】
5.前記DVSが記録している前記領域の全体または一部に対し、前記補光は行われる、条項1~4のいずれか1項に記載の方法。
【0030】
6.前記複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用することは、
深層学習モデルの入力として、前記第1のフレームから1つのフレームを選択することと、
前記深層学習モデルの出力に基づいて、前記検出結果を決定することと、を含む、条項1~5のいずれか1項に記載の方法。
【0031】
7.いくつかの実施形態における、ダイナミックビジョンセンサ(DVS)フレームを自動ラベリングするためのシステムであって、前記システムは、現実シーンを記録し、第1の期間中に複数の第1のフレームを生成し、第2の期間中に複数の第2のフレームを生成するように構成されたDVSと、前記DVSが記録している領域に間隔を置いて補光するように構成された光発生器であって、前記光発生器は、前記第1の期間中、前記DVSが記録している領域に自動的に光を放射し、前記光発生器は、前記第2の期間中、前記DVSが記録している前記領域に対する光の放射を自動的に停止する、前記光発生器と、プロセッサ、及び命令を格納するメモリユニットを有するコンピューティングデバイスと、を備え、前記命令は、前記プロセッサにより、前記複数の第1のフレームのうちの少なくとも1つに深層学習モデルを適用して、少なくとも1つの第1の検出結果を取得することと、前記少なくとも1つの第1の検出結果のうちの1つを、前記複数の第2のフレームのうちの少なくとも1つの検出結果として利用して、少なくとも1つの自動ラベル付きDVSフレームを生成することと、を実行可能である、前記システム。
【0032】
8.前記第1の期間及び前記第2の期間は、交錯され、ミリ秒オーダーである、条項7に記載のシステム。
【0033】
9.前記少なくとも1つの第1の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、条項7~8のいずれか1項に記載のシステム。
【0034】
10.前記光発生器は、前記DVSが記録している領域の全体または一部に光を放射するように構成される、条項7~9のいずれか1項に記載のシステム。
【0035】
11.前記プロセッサはさらに、深層学習モデルの入力として、前記一対のカメラフレームから1つのカメラフレームを選択することと、前記深層学習モデルの出力に基づいて、自動ラベリングのためのオブジェクト領域を決定することと、を実行するように構成される、条項7~10のいずれか1項に記載のシステム。
【0036】
様々な実施形態の説明は、例示目的で提示されているのであって、網羅的であることも、開示した実施形態に限定されることも意図されていない。説明される実施形態の範囲及び趣旨から逸脱することのない数多くの変更形態及び変形形態が、当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、実際的応用、または市場で見出される技術に対する技術改良を最もわかりやすく説明するために、または他の当業者が本明細書に開示される実施形態を理解できるように、選定されたものである。
【0037】
上記において、参照符号は、本開示で提示される実施形態に対するものである。しかしながら、本開示の範囲は、具体的に説明された実施形態に限定されない。代わりに、上記の特徴及び要素のあらゆる組み合わせは、異なる実施形態に関連しているかどうかにかかわらず、企図された実施形態を実施及び実践することが意図されている。さらに、本明細書に開示される実施形態は、他の可能な解決策に対する、または先行技術に対する利点を達成し得るが、所与の実施形態により特定の利点が達成されるかどうかにかかわらず、本開示の範囲を限定するものではない。よって、上記の態様、特徴、実施形態、及び利点は、単なる例示であり、特許請求の範囲に明示的に記載される場合を除き、添付の特許請求の範囲の要素または限定とみなされるべきではない。
【0038】
本開示の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または本明細書においてすべて概して「回路」、「モジュール」、もしくは「システム」と称され得るソフトウェア態様とハードウェア態様を組み合わせた実施形態の形態を取り得る。
【0039】
1つ以上のコンピュータ可読媒体(複数可)の任意の組み合わせが利用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、機器、もしくはデバイス、または前述の任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)には、1つ以上の電線を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD‐ROM)、光学記憶装置、磁気記憶装置、または前述の任意の好適な組み合わせが含まれ得る。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスにより使用される、またはこれらに関連して使用されるプログラムを含むまたは格納することができる任意の有形媒体であり得る。
【0040】
本開示の態様は、本開示の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/またはブロック図を参照して、上記に説明される。フローチャート図及び/またはブロック図の各ブロック、ならびにフローチャート図及び/またはブロック図のブロックの組み合わせは、コンピュータプログラム命令により実施できることが理解されよう。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供され、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令により、フローチャート及び/またはブロック図のブロック(複数可)に定められた機能/動作を実施することが可能なマシンが生成され得る。このようなプロセッサは、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルプロセッサであり得るが、これらに限定されない。
【0041】
上記は本開示の実施形態を対象とするが、その基本的な範囲から逸脱することなく、本開示の他の実施形態及びさらなる実施形態が考案されてもよく、その範囲は、添付の特許請求の範囲により特定される。
【国際調査報告】