特表2024-525370 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ハーマン　インターナショナル　インダストリーズ　インコーポレイテッドの特許一覧

特表2024-525370ＤＶＳフレームを自動ラベリングするための方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-12

(54)【発明の名称】ＤＶＳフレームを自動ラベリングするための方法及びシステム

(51)【国際特許分類】

H04N 23/60 20230101AFI20240705BHJP

H04N 23/56 20230101ALI20240705BHJP

G06T 7/00 20170101ALN20240705BHJP

【ＦＩ】

H04N23/60 500

H04N23/56

H04N23/60 300

G06T7/00 350B

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023578090

(86)(22)【出願日】2021-07-07

(85)【翻訳文提出日】2023-12-19

(86)【国際出願番号】 CN2021104979

(87)【国際公開番号】W WO2023279286

(87)【国際公開日】2023-01-12

(81)【指定国・地域】

(71)【出願人】

【識別番号】592051453

【氏名又は名称】ハーマンインターナショナルインダストリーズインコーポレイテッド

(74)【代理人】

【識別番号】100078282

【弁理士】

【氏名又は名称】山本秀策

(74)【代理人】

【識別番号】100113413

【弁理士】

【氏名又は名称】森下夏樹

(74)【代理人】

【識別番号】100181674

【弁理士】

【氏名又は名称】飯田貴敏

(74)【代理人】

【識別番号】100181641

【弁理士】

【氏名又は名称】石川大輔

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】ジョウ，レンガオ

【テーマコード（参考）】

5C122

5L096

【Ｆターム（参考）】

5C122DA11

5C122EA01

5C122FA09

5C122FH11

5C122FH14

5C122FH18

5C122GG03

5C122GG04

5C122GG17

5C122GG24

5C122HA01

5C122HB01

5C122HB02

5C122HB05

5L096AA06

5L096BA08

5L096CA04

5L096DA02

5L096HA09

5L096KA04

(57)【要約】

本開示は、ダイナミックビジョンセンサ（ＤＶＳ）フレームを自動ラベリングするための方法及びシステムを提供する。方法は、現実シーンを記録しているＤＶＳ（１０２ａ）を介して、第１の期間中に複数の第１のフレームを生成することを含み得、第１の期間中、ＤＶＳ（１０２ａ）が記録している領域は補光される。方法は、複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得することを含み得る。さらに、方法は、ＤＶＳ（１０２ａ）を介して、第２の期間中に複数の第２のフレームを生成することを含み得、第２の期間中、ＤＶＳ（１０２ａ）が記録している領域は補光されない。方法はさらに、少なくとも１つの第１の検出結果のうちの１つを、複数の第２のフレームのうちの少なくとも１つの検出結果として利用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成することを含み得る。
【選択図】図７

【特許請求の範囲】

【請求項1】

ダイナミックビジョンセンサ（ＤＶＳ）フレームを自動ラベリングするための方法であって、
現実シーンを記録しているＤＶＳを介して、第１の期間中に複数の第１のフレームを生成することであって、前記第１の期間中、前記ＤＶＳが記録している領域は補光される、前記生成することと、
前記複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得することと、
前記ＤＶＳを介して、第２の期間中に複数の第２のフレームを生成することであって、前記第２の期間中、前記ＤＶＳが記録している前記領域は補光されない、前記生成することと、
前記少なくとも１つの第１の検出結果のうちの１つを、前記複数の第２のフレームのうちの少なくとも１つの検出結果として利用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成することと、
を含む、前記方法。

【請求項2】

前記ＤＶＳと連携して、間隔を置いて光を放射するように構成された光発生器により、前記補光は行われる、請求項１に記載の方法。

【請求項3】

前記第１の期間及び前記第２の期間は、交錯され、ミリ秒オーダーである、請求項１～２のいずれか１項に記載の方法。

【請求項4】

前記少なくとも１つの第１の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、請求項１～３のいずれか１項に記載の方法。

【請求項5】

前記ＤＶＳが記録している前記領域の全体または一部に対し、前記補光は行われる、請求項１～４のいずれか１項に記載の方法。

【請求項6】

前記複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用することは、
深層学習モデルの入力として、前記第１のフレームから１つのフレームを選択することと、
前記深層学習モデルの出力に基づいて、前記検出結果を決定することと、
を含む、請求項１～５のいずれか１項に記載の方法。

【請求項7】

ダイナミックビジョンセンサ（ＤＶＳ）フレームを自動ラベリングするためのシステムであって、前記システムは、
現実シーンを記録し、第１の期間中に複数の第１のフレームを生成し、第２の期間中に複数の第２のフレームを生成するように構成されたＤＶＳと、
前記ＤＶＳが記録している領域に間隔を置いて補光するように構成された光発生器であって、前記光発生器は、前記第１の期間中、前記ＤＶＳが記録している領域に自動的に光を放射し、前記光発生器は、前記第２の期間中、前記ＤＶＳが記録している前記領域に対する光の放射を自動的に停止する、前記光発生器と、
プロセッサと、命令を格納するメモリユニットとを有するコンピューティングデバイスと、
を備え、前記命令は、前記プロセッサにより、
前記複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得することと、
前記少なくとも１つの第１の検出結果のうちの１つを、前記複数の第２のフレームのうちの少なくとも１つの検出結果として利用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成することと、
を実行可能である、前記システム。

【請求項8】

前記第１の期間及び前記第２の期間は、交錯され、ミリ秒オーダーである、請求項７に記載のシステム。

【請求項9】

前記少なくとも１つの第１の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、請求項７～８のいずれか１項に記載のシステム。

【請求項10】

前記光発生器は、前記ＤＶＳが記録している領域の全体または一部に光を放射するように構成される、請求項７～９のいずれか１項に記載のシステム。

【請求項11】

前記プロセッサはさらに、
深層学習モデルの入力として、前記第１のフレームから１つのフレームを選択することと、
前記深層学習モデルの出力に基づいて、前記検出結果を決定することと、
を実行するように構成される、請求項７～１０のいずれか１項に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、自動ラベリングの方法及びシステムに関し、具体的には、補光することにより、ＤＶＳ（ダイナミックビジョンセンサ）フレームを自動ラベリングするための方法及びシステムに関する。

【背景技術】

【0002】

近年、新たな最先端センサであるＤＶＳは、広く知られるものとなり、人工知能分野、コンピュータビジョン分野、自動運転分野、ロボティクスなどの多くの分野で用いられている。

【0003】

従来のカメラと比較して、ＤＶＳは、低レイテンシ、モーションブラーなし、高ダイナミックレンジ、及び低消費電力という利点を有する。具体的には、ＤＶＳのレイテンシはマイクロ秒であり、一方、従来のカメラのレイテンシはミリ秒である。ゆえに、ＤＶＳでは、モーションブラーに悩まされることがない。その結果、ＤＶＳのデータレートは通常４０～１８０ｋＢ／ｓであり（従来のカメラの場合は通常１０ｍＢ／ｓ）、これは、より狭い帯域幅及びより低い消費電力で済むことを意味する。その上、ＤＶＳのダイナミックレンジは約１２０ｄＢであるのに対し、従来のカメラのダイナミックレンジは約６０ｄＢである。より広いダイナミックレンジは、例えば、トンネルに出入りする車両、ハイビームを点灯している他の対向車両、及び日照方向の変更など、極端な光条件下で有用である。

【0004】

これらの利点により、ＤＶＳは広く使用されてきた。現在、深層学習法は、様々な分野で普及している。深層学習は、ＤＶＳに関しても、物体認識及びセグメンテーションなどの様々な分野で適している。深層学習を適用するためには、膨大な量のラベル付きデータが必要である。しかし、ＤＶＳは新たな種類のセンサであるため、利用可能なラベル付きデータセットは、ほんのわずかしか存在しない。また、ＤＶＳデータセットを手動でラベリングすることは、多くのリソース及び労力を要する大変な作業である。したがって、ＤＶＳフレームの自動ラベリングが求められている。

【0005】

現在、ＤＶＳフレームに対して２つの自動ラベリングアプローチが存在する。１つの自動ラベリングアプローチでは、従来のカメラビデオを表示モニタの画面で再生し、ＤＶＳを使用して画面を記録する。もう１つの自動ラベリングアプローチでは、深層学習モデルを使用して、カメラフレームからラベル付きＤＶＳフレームを直接生成する。しかしながら、これら２つの手法はどちらも、克服不可能な欠点を伴う。第１のアプローチでは、記録時に１００％のＤＶＳフレームを表示モニタに正確に合わせることは難しいため、精度が失われる。第２のアプローチでは、不自然なＤＶＳフレームが生成される。材料によって、反射率が異なる。しかし、第２のアプローチでは、ＤＶＳフレームがカメラフレームから直接生成されることから、不自然なＤＶＳフレームも同様に扱われ、よって、生成されるＤＶＳフレームは非常に不自然なものとなる。その上、両アプローチは、ＤＶＳを使用して現実シーンを記録することはなく、カメラビデオの品質が、以下の態様から生成されるＤＶＳフレームの最終出力を制限することから、ＤＶＳの利点を無駄にするという問題に陥る。第１に、生成されるＤＶＳフレームレートは、最大でもカメラフレームレートにしか到達しない（第２の方法は、アップスケーリング法を使用してより多くのフレームを取得し得るが、それでも見込みはない）。第２に、カメラにより記録されたモーションブラー、残像、及びスミアが、生成されるＤＶＳフレーム内にも存在する。ＤＶＳは低レイテンシでモーションブラーがないことが知られているため、この事実は不合理かつ荒唐である。第３に、従来のカメラは低ダイナミックレンジを有することから、ＤＶＳの高ダイナミックレンジは無駄になる。

【0006】

よって、ＤＶＳの利点が十分に活用されると同時に、ラベル付きＤＶＳデータセットを迅速に作成するようにＤＶＳフレームを自動ラベリングする、向上した技術を提供する必要がある。

【発明の概要】

【課題を解決するための手段】

【0007】

本開示の１つ以上の実施形態によれば、ダイナミックビジョンセンサ（ＤＶＳ）フレームを自動ラベリングするための方法が提供される。方法は、現実シーンを記録しているＤＶＳを介して、第１の期間中に複数の第１のフレームを生成することを含み得、第１の期間中、ＤＶＳが記録している領域は補光される。方法は、複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得することを含み得る。さらに、方法は、ＤＶＳを介して、第２の期間中に複数の第２のフレームを生成することを含み得、第２の期間中、ＤＶＳが記録している領域は補光されない。方法はさらに、少なくとも１つの第１の検出結果のうちの１つを、複数の第２のフレームのうちの少なくとも１つの検出結果として利用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成することを含み得る。

【0008】

本開示の１つ以上の実施形態によれば、ダイナミックビジョンセンサ（ＤＶＳ）フレームを自動ラベリングするためのシステムが提供される。システムは、ＤＶＳと、光発生器と、コンピューティングデバイスとを備え得る。ＤＶＳは、現実シーンを記録し、第１の期間中に複数の第１のフレームを生成し、第２の期間中に複数の第２のフレームを生成するように構成され得る。光発生器は、ＤＶＳが記録している領域に間隔を置いて補光するように構成され得、光発生器は、第１の期間中、ＤＶＳが記録している領域に自動的に光を放射するように構成され得、光発生器は、第２の期間中、ＤＶＳが記録している領域に対する光の放射を自動的に停止するように構成され得る。コンピューティングデバイスは、プロセッサと、命令を格納するメモリユニットとを備え得、命令は、プロセッサにより、複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得することと、少なくとも１つの第１の検出結果のうちの１つを、複数の第２のフレームのうちの少なくとも１つの検出結果として利用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成することと、を実行可能である。

【図面の簡単な説明】

【0009】

【図1】本開示の１つ以上の実施形態によるシステムの概略図を示す。

【図2】本開示の１つ以上の実施形態による、ＤＶＳにより生成された通常ＤＶＳフレームと光実装ＤＶＳフレームとの比較例を示す。

【図3】本開示の１つ以上の実施形態による、ＤＶＳにより生成された通常ＤＶＳフレームと光実装ＤＶＳフレームとの比較例を示す。

【図4】本開示の１つ以上の実施形態による、ＤＶＳにより生成された通常ＤＶＳフレームと光実装ＤＶＳフレームとの比較例を示す。

【図5】図４の補光ＤＶＳフレームに対する自動ラベリングを示す。

【図6】光発生器の動作を示す例としてプロットを示す。

【図7】本開示の１つ以上の実施形態による方法のフローチャートを示す。

【図8】本開示の１つ以上の実施形態による、自動ラベル付き通常ＤＶＳフレームの例を示す。

【発明を実施するための形態】

【0010】

図面に共通する同一要素を指すのに、理解しやすいように、可能な場合は同一の参照番号が使用されている。一実施形態に開示される要素は、具体的な記述がなくとも他の実施形態に有益に利用されてもよいことが企図される。本明細書で指される図面は、特に断りのない限り、縮尺通りに描かれていると理解されるべきではない。また、提示及び説明を明確化にするために、多くの場合、図面は簡略化されており、詳細または構成要素が省略されている。図面及び論述は、下記に述べられる原理を説明するために用いられ、同様の名称は同様の要素を示す。

【0011】

例示のために、実施例が下記に提供される。様々な実施例の説明は、例示目的で提示されるが、網羅的であることも、実施形態に限定されることも意図していない。説明される実施形態の範囲及び趣旨から逸脱することのない数多くの変更形態及び変形形態が、当業者には明らかであろう。

【0012】

概して、本開示は、既存のカメラ深層学習モデルを使用して、ＤＶＳフレームを自動ラベリングするシステム及び方法を提供する。光発生器とＤＶＳとを組み合わせて、ＤＶＳが記録している場所を補光することにより、ＤＶＳは、従来のカメラのようにフレームを生成することができ、よって従来のカメラフレームのように機能する補光ＤＶＳフレームが生成される。従来のカメラの分野における深層学習モデルは、既に十分に開発されて熟しているため、ＤＶＳフレームがカメラフレームとピクセルレベルで整合される限り、カメラフレーム上の検出結果を使用して、ＤＶＳフレームを自動ラベリングすることが可能である。補光することで、生成される補光ＤＶＳフレームは、従来のカメラフレームと同様に機能する。よって、従来のカメラの既存の深層学習モデルは、補光ＤＶＳフレームにも適用して、検出結果を得ることができる。補光ＤＶＳフレームが生成されたすぐ後に、光発生器はオフにされた状態で、ＤＶＳにより通常ＤＶＳフレームが生成され得る。補光ＤＶＳフレーム上の検出結果を、通常ＤＶＳフレーム上の検出結果として使用して、自動ラベル付きＤＶＳフレームが生成され得る。このようにして、ＤＶＳが記録している間に、ラベル付きＤＶＳデータセットが迅速に作成され得、これにより、自動ラベリングの効率は大幅に向上する。さらに、本開示の方法及びシステムは、現実シーンの記録を行っているＤＶＳにより生成されるＤＶＳフレームに対して直接実行されることから、ＤＶＳ自体の利点がより効果的に使用され得る。

【0013】

図１は、本開示の１つ以上の実施形態による、ＤＶＳフレームを自動ラベリングするためのシステムの概略図を示す。図１に示されるように、システムは、記録デバイス１０２と、コンピュータデバイス１０４とを備え得る。記録デバイス１０２は、ＤＶＳ１０２ａと、光発生器１０２ｂとを少なくとも含み得るが、これらに限定されない。コンピューティングデバイス１０４は、プロセッサ１０４ａと、メモリユニット１０４ｂとを含み得るが、これらに限定されない。

【0014】

ＤＶＳ１０２ａは、イベント駆動アプローチを採用して、シーンにおける動的な変化をキャプチャし、非同期のピクセルを作成し得る。従来のカメラとは異なり、ＤＶＳは、画像を生成しないが、ピクセルレベルのイベントを送信する。現実シーンに動的な変化があるとき、ＤＶＳは、何らかのピクセルレベル出力（すなわちイベント）を生成する。よって、変化がない場合、データ出力は行われない。イベントデータは、［ｘ、ｙ、ｔ、ｐ］の形式であり、ｘ及びｙは、２Ｄ空間におけるイベントのピクセル座標を表し、ｔは、イベントのタイムスタンプであり、ｐは、イベントの極性である。例えば、イベントの極性は、より明るくなる、またはより暗くなるなど、シーンの明るさの変化を表し得る。

【0015】

光発生器１０２ｂは、ＤＶＳが記録している場所を補光することができる任意のデバイスであり得る。光発生器１０２ｂから放射される光には、赤外光、紫外光、及び人間の目に見える照明光などのうちのいずれかが含まれ得る。好ましい例としては、ＩＲカメラと通常一緒に使用されるＩＲＬＥＤ補助光が挙げられる。ＤＶＳ１０２ａと光発生器１０２ｂは一緒に、固定的にまたは取り外し可能に、組み合わせ／組み立て／一体化を行うことができる。図１は、システムのコンポーネントを例示しているに過ぎず、システムのコンポーネントの位置関係を限定する意図はないことを、理解されたい。ＤＶＳ１０２ａが記録している領域を光発生器１０２ｂが補光できるのであれば、ＤＶＳ１０２ａは、光発生器１０２ｂといずれの相対位置関係で配置されてもよい。

【0016】

ＤＶＳと光発生器とを組み合わせて使用することは、ＤＶＳフレームの自動ラベリングを開発するプロセスにおける発明者の重要な発見に由来する。発明者は、当業者が認識していなかった驚くべき現象、すなわち、ＤＶＳが記録している領域を補光することにより、生成されるＤＶＳフレームに予期せぬ効果が得られることを、発見した。図２～図４は、中国語名が描かれたボックスが主なターゲットであるシーンで、異なる条件で生成されたＤＶＳフレームの比較例を示す。図２は、ボックスに妨害が加えられた事例で生成されたＤＶＳフレームの例を示す。この事例では、ＤＶＳがボックス及び名前をキャプチャできたことが分かる。対照的に、図３は、ボックスに何の妨害もない状態で生成されたＤＶＳフレームの例を示し、ＤＶＳがボックス及び名前をキャプチャしていないことを示す。図４は、ボックス上に追加光（例えば光発生器から放射されるＩＲＬＥＤ光）がある状態で生成されたＤＶＳフレームの例を示す。図４は、ＤＶＳが記録している領域の一部が補光された事例で、ＤＶＳが、ボックスに描かれた名前をキャプチャできたことを示し、円形部分は、補光の領域部分を示す。図２～図４の比較例は、ＤＶＳにより記録されている領域が補光されたときを示し、ＤＶＳの撮像は、カメラ撮像の結果により近く、生成された補光ＤＶＳフレームは、グレースケールカメラ画像のように機能する。原理上、補光することは、ある意味ＤＶＳの目的にそぐわないが、図２～図４に示される比較例では、補光することにより、従来のカメラフレームのように機能する「補光」ＤＶＳフレームが生成されるという結果が、完全に証明され得る。図５は、文字検出モデルなどの既存の深層学習モデルを使用した、図４の補光フレーム上の検出結果を示す。

【0017】

本開示の１つ以上の実施形態によれば、光発生器１０２ｂは、オンとオフを交互に切り替えるように、手動で制御されてもよく、または自動的に制御されてもよく、よって間隔を置いて光を放射し得る。図６は、光発生器１０２ｂの自動動作を示す例として、プロットを示す。例えば、光発生器１０２ｂは、時点ｔ１でオンになり、ＤＶＳ１０２ａが記録している領域に光を放射する。光発生器１０２ｂは、時点ｔ２で自動的にオフになり、ＤＶＳ１０２が記録している領域は補光されない。光発生器１０２ｂは、時点ｔ３で自動的にオンになり、ＤＶＳ１０２ａが記録している領域に光を放射する。光発生器１０２ｂは、時点ｔ４で自動的にオフになり、ＤＶＳ１０２が記録している領域は補光されない。光発生器は、実務的要件に従って、上記の動作を終了時点ｔｎまで自動的に繰り返し得る。

【0018】

次に、ＤＶＳ１０２ａ及び光発生器１０２ｂの複合動作が説明される。ＤＶＳフレームを自動ラベリングするためのシステムは、現実シーンを記録するための環境に配置され得る。ＤＶＳ１０２ａは、現実シーンを記録するように構成される。前述のように、光発生器１０２ｂは、オンとオフを交互に切り替えるように、手動で制御されてもよく、または自動的に制御されてもよい。例えば、光発生器１０２ｂは、時点ｔ１でオンになり、ＤＶＳ１０２ａが記録している領域に光を放射する。光発生器１０２ｂは、時点ｔ２でオフになる。ｔ１～ｔ２の第１の期間（Ｔ１）中に、補光が行われると、ＤＶＳ１０２ａは、従来のカメラのようにフレームを生成する。前述のように、グレースケールカメラ画像のようなものを生成することが見込まれ得るが、実際はＤＶＳにより記録される。よって、補光が行われると、ＤＶＳ１０２ａは、第１の期間中に複数のフレーム、すなわち補光ＤＶＳフレームを生成し得る。第１の期間Ｔ１が終了すると、例えば時点ｔ２に光発生器は自動的にオフになり（すなわち光の放射を停止し）、次にＤＶＳ１０２ａは、通常通り作動し、光発生器が再び自動的にオンになる次の時点ｔ３までの第２の期間（Ｔ２）中に、複数の通常ＤＶＳフレームを生成する。以降同様である。第１の期間Ｔ１と第２の期間Ｔ２は、交錯される。例えば、期間Ｔ１及び期間Ｔ２は、ミリ秒オーダーであり得る。実務的ニーズに応じて、第１の期間Ｔ１と第２の期間Ｔ２は、同じであってもよく、または異なっていてもよい。図６は、単に例示のためのものであり、期間のパラメータ値を限定するためのものではない。

【0019】

図１に戻ると、コンピューティングデバイス１０４は、計算を実行することができる任意の形態のデバイスであり得、これには、モバイルデバイス、スマートデバイス、ラップトップコンピュータ、タブレットコンピュータ、及び車載ナビゲーションシステムなどが含まれるが、これらに限定されない。コンピューティングデバイス１０４は、プロセッサ１０４ａと、メモリユニット１０４ｂとを含み得るが、これらに限定されない。プロセッサ１０４ａは、データを処理し、ソフトウェアアプリケーションを実行するように構成された任意の技術的に実現可能なハードウェアユニットであり得、これには、中央処理装置（ＣＰＵ）、マイクロコントローラユニット（ＭＣＵ）、特定用途向け集積回路（ＡＳＩＣ）、及びデジタル信号プロセッサ（ＤＳＰ）チップなどが含まれるが、これらに限定されない。コンピューティングデバイス１０４は、プロセッサにより実行可能なデータ、コード、命令などを格納するためのメモリユニット１０４ｂを含み得るが、これに限定されない。メモリユニット１０４ｂには、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭもしくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ‐ＲＯＭ）、光学記憶装置、磁気記憶装置、または前述の任意の適切な組み合わせが含まれ得るが、これらに限定されない。

【0020】

１つ以上の実施形態によれば、プロセッサ１０４ａは、ＤＶＳフレームの自動ラベリングを実行し得る。具体的には、プロセッサ１０４ａは、ＤＶＳにより生成された補光ＤＶＳフレームと通常ＤＶＳフレームとを受信し、従来のカメラのための任意の既存の深層学習モデルを補光ＤＶＳフレームに適用して、第１の検出結果を取得し、次に第１の検出結果のうちの１つを、複数の第２のフレームのうちの少なくとも１つの検出結果として使用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成するように、構成され得る。ラベル付きＤＶＳフレームを含むラベル付きＤＶＳデータセットは、メモリ１０４ｂに格納され得る。

【0021】

ＤＶＳのレイテンシは、極端に低いため（「ｕｓ」単位）、補光プロセスは、非常に短い期間に限定され得、すなわち第１の期間は、数ミリ秒などのきわめて短い時間に限定され得る。よって、「補光」ＤＶＳフレームとその後の通常フレーム（現実シーン）ＤＶＳフレームとの間の時間ギャップは、無視され得る。その結果、これら２種類のフレームが、実際に同じシーンを描写している。よって、プロセッサ１０４ａは、少なくとも１つの補光ＤＶＳフレームで得られた第１の検出結果のうちの１つを、通常ＤＶＳフレームのうちの少なくとも１つの検出結果として使用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成するように構成され得る。

【0022】

図７は、本開示の１つ以上の実施形態による、図１に示されるシステムに関する方法のフローチャートを示す。図７に示されるように、Ｓ７０２にて、現実シーンを記録しているＤＶＳは、第１の期間中に複数の第１のフレームを生成し、第１の期間中、ＤＶＳが記録している領域（例えば全領域または領域の一部）は補光される。Ｓ７０４にて、複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得する。例えば、深層学習モデルの入力として、第１のフレームから少なくとも１つのフレームが選択され得る。次に、深層学習モデルの出力に基づいて、少なくとも１つの検出結果が決定され得る。例えば、少なくとも１つの第１の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域に関するデータを含み得る。Ｓ７０６にて、ＤＶＳは、第２の期間中に複数の第２のフレームを生成し、第２の期間中、ＤＶＳが記録している領域は補光されない。第１の期間と第２の期間は、交錯され得る。例えば、第１の期間及び第２の期間は、ミリ秒オーダーであり得る。Ｓ７０８にて、少なくとも１つの第１の検出結果のうちの１つを、複数の第２のフレームのうちの少なくとも１つの検出結果として使用して、少なくとも１つの自動ラベル付きＤＶＳフレームが生成される。ＤＶＳのレイテンシは極端に低いことから、上記の自動ラベリングの方法を用いることにより、少なくとも１つの補光フレームを使用して多くの通常ＤＶＳフレームをラベリングすることができ、これにより、自動ラベリングの効率がさらに向上し得る。

【0023】

図８は、本開示の方法及びシステムを使用した、例示的なシーンの自動ラベル付き通常ＤＶＳフレームの例を示し、これらの自動ラベル付き通常ＤＶＳフレームは、連続フレームである。このシーンでは、例えば、補光ＤＶＳフレームのうちの１つに頭部検出が適用され得る。

【0024】

本開示で説明される方法及びシステムにより、より効率的なＤＶＳフレームの自動ラベリングが実現され得る。この革新により、既存のカメラ深層学習モデルを使用してＤＶＳフレームを自動ラベリングする方法が提案される。従来のカメラフレームと同様に機能する「補光」ＤＶＳフレームを作成するために、補光器が使用されている。補光フレームと通常ＤＶＳフレームとの複合使用に基づいて、ＤＶＳフレームが記録されるのと同時に、ＤＶＳフレームは自動的にラベリングされ得る。その結果、膨大な量のラベル付きデータが、ＤＶＳ深層学習のトレーニングに利用可能となる。このようにして、ＤＶＳが記録している間に、ラベル付きＤＶＳデータセットが迅速に作成され得、これにより、自動ラベリングの効率は大幅に向上する。さらに、既存のアプローチと比較して、本開示の方法及びシステムは、現実シーンの記録を行っているＤＶＳにより生成されるＤＶＳフレームに対して直接実行されることから、ＤＶＳ自体の利点がより効果的に使用され得る。

【0025】

１．いくつかの実施形態における、ダイナミックビジョンセンサ（ＤＶＳ）フレームを自動ラベリングするための方法であって、現実シーンを記録しているＤＶＳを介して、第１の期間中に複数の第１のフレームを生成することであって、前記第１の期間中、前記ＤＶＳが記録している領域は補光される、前記生成することと、前記複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得することと、前記ＤＶＳを介して、第２の期間中に複数の第２のフレームを生成することであって、前記第２の期間中、前記ＤＶＳが記録している前記領域は補光されない、前記生成することと、前記少なくとも１つの第１の検出結果のうちの１つを、前記複数の第２のフレームのうちの少なくとも１つの検出結果として利用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成することと、を含む、前記方法。

【0026】

２．前記ＤＶＳと連携して、間隔を置いて光を放射するように構成された光発生器により、前記補光は行われることをさらに含む、条項１に記載の方法。

【0027】

３．前記第１の期間及び前記第２の期間は、交錯され、ミリ秒オーダーである、条項１～２のいずれか１項に記載の方法。

【0028】

４．前記少なくとも１つの第１の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、条項１～３のいずれか１項に記載の方法。

【0029】

５．前記ＤＶＳが記録している前記領域の全体または一部に対し、前記補光は行われる、条項１～４のいずれか１項に記載の方法。

【0030】

６．前記複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用することは、
深層学習モデルの入力として、前記第１のフレームから１つのフレームを選択することと、
前記深層学習モデルの出力に基づいて、前記検出結果を決定することと、を含む、条項１～５のいずれか１項に記載の方法。

【0031】

７．いくつかの実施形態における、ダイナミックビジョンセンサ（ＤＶＳ）フレームを自動ラベリングするためのシステムであって、前記システムは、現実シーンを記録し、第１の期間中に複数の第１のフレームを生成し、第２の期間中に複数の第２のフレームを生成するように構成されたＤＶＳと、前記ＤＶＳが記録している領域に間隔を置いて補光するように構成された光発生器であって、前記光発生器は、前記第１の期間中、前記ＤＶＳが記録している領域に自動的に光を放射し、前記光発生器は、前記第２の期間中、前記ＤＶＳが記録している前記領域に対する光の放射を自動的に停止する、前記光発生器と、プロセッサ、及び命令を格納するメモリユニットを有するコンピューティングデバイスと、を備え、前記命令は、前記プロセッサにより、前記複数の第１のフレームのうちの少なくとも１つに深層学習モデルを適用して、少なくとも１つの第１の検出結果を取得することと、前記少なくとも１つの第１の検出結果のうちの１つを、前記複数の第２のフレームのうちの少なくとも１つの検出結果として利用して、少なくとも１つの自動ラベル付きＤＶＳフレームを生成することと、を実行可能である、前記システム。

【0032】

８．前記第１の期間及び前記第２の期間は、交錯され、ミリ秒オーダーである、条項７に記載のシステム。

【0033】

９．前記少なくとも１つの第１の検出結果は、自動ラベリングのための識別されたオブジェクト及びオブジェクト領域を含む、条項７～８のいずれか１項に記載のシステム。

【0034】

１０．前記光発生器は、前記ＤＶＳが記録している領域の全体または一部に光を放射するように構成される、条項７～９のいずれか１項に記載のシステム。

【0035】

１１．前記プロセッサはさらに、深層学習モデルの入力として、前記一対のカメラフレームから１つのカメラフレームを選択することと、前記深層学習モデルの出力に基づいて、自動ラベリングのためのオブジェクト領域を決定することと、を実行するように構成される、条項７～１０のいずれか１項に記載のシステム。

【0036】

様々な実施形態の説明は、例示目的で提示されているのであって、網羅的であることも、開示した実施形態に限定されることも意図されていない。説明される実施形態の範囲及び趣旨から逸脱することのない数多くの変更形態及び変形形態が、当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、実際的応用、または市場で見出される技術に対する技術改良を最もわかりやすく説明するために、または他の当業者が本明細書に開示される実施形態を理解できるように、選定されたものである。

【0037】

上記において、参照符号は、本開示で提示される実施形態に対するものである。しかしながら、本開示の範囲は、具体的に説明された実施形態に限定されない。代わりに、上記の特徴及び要素のあらゆる組み合わせは、異なる実施形態に関連しているかどうかにかかわらず、企図された実施形態を実施及び実践することが意図されている。さらに、本明細書に開示される実施形態は、他の可能な解決策に対する、または先行技術に対する利点を達成し得るが、所与の実施形態により特定の利点が達成されるかどうかにかかわらず、本開示の範囲を限定するものではない。よって、上記の態様、特徴、実施形態、及び利点は、単なる例示であり、特許請求の範囲に明示的に記載される場合を除き、添付の特許請求の範囲の要素または限定とみなされるべきではない。

【0038】

本開示の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、または本明細書においてすべて概して「回路」、「モジュール」、もしくは「システム」と称され得るソフトウェア態様とハードウェア態様を組み合わせた実施形態の形態を取り得る。

【0039】

１つ以上のコンピュータ可読媒体（複数可）の任意の組み合わせが利用され得る。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であり得る。コンピュータ可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、機器、もしくはデバイス、または前述の任意の好適な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）には、１つ以上の電線を有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭもしくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ‐ＲＯＭ）、光学記憶装置、磁気記憶装置、または前述の任意の好適な組み合わせが含まれ得る。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスにより使用される、またはこれらに関連して使用されるプログラムを含むまたは格納することができる任意の有形媒体であり得る。

【0040】

本開示の態様は、本開示の実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／またはブロック図を参照して、上記に説明される。フローチャート図及び／またはブロック図の各ブロック、ならびにフローチャート図及び／またはブロック図のブロックの組み合わせは、コンピュータプログラム命令により実施できることが理解されよう。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供され、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令により、フローチャート及び／またはブロック図のブロック（複数可）に定められた機能／動作を実施することが可能なマシンが生成され得る。このようなプロセッサは、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルプロセッサであり得るが、これらに限定されない。

【0041】

上記は本開示の実施形態を対象とするが、その基本的な範囲から逸脱することなく、本開示の他の実施形態及びさらなる実施形態が考案されてもよく、その範囲は、添付の特許請求の範囲により特定される。

【図1】