(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-08
(54)【発明の名称】センサデータに自動的に注釈付けするための方法およびシステム
(51)【国際特許分類】
G06V 10/774 20220101AFI20241001BHJP
G06T 7/00 20170101ALI20241001BHJP
G10L 25/30 20130101ALI20241001BHJP
G06N 3/08 20230101ALI20241001BHJP
【FI】
G06V10/774
G06T7/00 350C
G10L25/30
G06N3/08
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024517021
(86)(22)【出願日】2022-09-15
(85)【翻訳文提出日】2024-04-18
(86)【国際出願番号】 EP2022075621
(87)【国際公開番号】W WO2023041628
(87)【国際公開日】2023-03-23
(31)【優先権主張番号】102021124103.0
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】506012213
【氏名又は名称】ディスペース ゲー・エム・ベー・ハー
【氏名又は名称原語表記】dSPACE GmbH
【住所又は居所原語表記】Rathenaustr.26,D-33102 Paderborn, Germany
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ダニエル レードラー
(72)【発明者】
【氏名】ジーモン ロマンスキ
(72)【発明者】
【氏名】ファビアン ボート
(72)【発明者】
【氏名】マキシミリアン リンク
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096AA09
5L096BA04
5L096CA04
5L096CA23
5L096DA01
5L096FA16
5L096FA66
5L096FA69
5L096GA34
5L096GA51
5L096HA11
5L096JA01
5L096KA04
5L096MA07
(57)【要約】
本発明は、例えばビデオフレームまたはオーディオフレームのようなセンサデータフレームに自動的に注釈付けするためのコンピュータ実装方法に関する。受信されたフレームは、フレームの記録時に存在していた周囲条件に関連する少なくとも1つの条件属性に基づいて、複数のパケットにグループ化される。ニューラルネットワークを使用して、条件属性の特定の値範囲に対応する第1のパケットに注釈付けが行われる。第1のサンプルフレームに基づいて、コンピュータが、注釈付けに対する品質尺度を決定する。少なくとも1つのフレームに対する品質尺度が所定の閾値を下回っている場合には、第1のサンプルに対する修正された注釈付けに基づいてニューラルネットワークが再訓練される。品質尺度が所定の閾値を上回っている場合には、注釈付けされたフレームがエクスポートされる。さらに、本発明は、不揮発性コンピュータ可読媒体およびコンピュータシステムに関する。
【特許請求の範囲】
【請求項1】
センサデータフレームに自動的に注釈付けするためのコンピュータにより実装される方法であって、前記方法は、
複数のセンサデータフレームを受信することと、
少なくとも1つの条件属性に基づいて前記フレームを複数のパケットにグループ化することであって、前記条件属性は、前記センサデータフレームの記録中に存在していた周囲条件を表すことと、
ニューラルネットワークを使用して第1のパケットからのフレームに注釈付けすることであって、前記注釈付けは、それぞれのフレームに少なくとも1つのデータ点を割り当てることを含み、前記第1のパケットは、前記少なくとも1つの条件属性が選択された値範囲内にあるようなフレームを含むことと、
前記第1のパケットからの1つまたは複数のフレームの第1のサンプルを選択し、前記データ点に対する品質尺度を決定することであって、前記第1のサンプルにおける少なくとも1つのフレームに対する前記品質尺度が所定の閾値を下回っていることをコンピュータが特定した場合に、前記方法は、前記第1のサンプルにおける前記フレームに対する修正された注釈付けを受信することと、前記第1のサンプルにおける前記フレームに基づいて前記ニューラルネットワークを再訓練することと、をさらに含むことと、
前記第1のパケットのフレームから、前記第1のサンプルに含まれていなかった1つまたは複数のフレームの第2のサンプルを選択することと、
再訓練された前記ニューラルネットワークを用いて前記第2のサンプルのフレームに注釈付けして、前記データ点に対する品質尺度を決定することと、
前記第2のサンプルにおける前記フレームに対する前記品質尺度が所定の閾値を上回っていることを特定することと、
再訓練された前記ニューラルネットワークを用いて前記第1のパケットの残りのフレームに注釈付けすることと、
前記第1のパケットの注釈付けされた前記フレームをエクスポートすることと、
を含む方法。
【請求項2】
画像データを有するフレームの場合には、前記条件属性は、地理的場所、時刻、気象条件、視認条件、道路種類、オブジェクトまでの距離および/または交通密度であり、かつ/または
オーディオフレームの場合には、前記条件属性は、地理的場所、話者の性別および/または年齢、部屋の大きさおよび/または背景雑音の尺度である、
請求項1記載の方法。
【請求項3】
複数のセンサデータフレームを受信するステップは、前記フレームを前処理するステップを含み、
フレームに対する前記条件属性のうちの少なくとも1つは、前記フレームに基づいて専用のニューラルネットワークによって決定され、かつ/または
フレームに対する前記条件属性のうちの少なくとも1つは、前記フレームと同時に記録された追加的なセンサデータに基づいて決定される、
請求項1または2記載の方法。
【請求項4】
画像フレームの場合には、前記少なくとも1つのデータ点は、オブジェクトの位置、オブジェクトの分類、境界枠の縁部の位置、前記画像フレーム内のオブジェクトと、先行または後続する画像フレーム内のオブジェクトと、の相関および/または指示灯の作動を含み、かつ/または
オーディオフレームの場合には、前記少なくとも1つのデータ点は、前記オーディオフレームから識別された1つまたは複数のテキストワードを含む、
請求項1から3までのいずれか1項記載の方法。
【請求項5】
前記第1のサンプルは、前記第1のパケットから選択された2つ以上のフレームを含み、
前記第1のサンプルに対する前記品質尺度が前記所定の閾値を下回っていることを前記コンピュータが特定するとすぐに、前記第1のサンプルにおける前記フレームに対する修正された注釈付けが受信されるまで、前記第1のパケットからの前記フレームにおけるさらなる計算が実施されなくなる、
請求項1から4までのいずれか1項記載の方法。
【請求項6】
前記第1のサンプルのためのフレームの選択は、前記品質尺度が決定されるべきデータ点に依存しており、とりわけ、オブジェクト検出の場合には単一のフレームがランダムに選択され、かつ/または、オブジェクト追跡の場合には連続したフレームのバッチがランダムに選択される、
請求項1から5までのいずれか1項記載の方法。
【請求項7】
前記第1のパケットからの1つまたは複数のフレームから現在のサンプルを選択するステップと、
前記データ点に対する品質尺度を決定するステップと、
前記現在のサンプルにおける前記フレームに対する修正された注釈付けを受信するステップと、
前記現在のサンプルにおける前記フレームに基づいて前記ニューラルネットワークを再訓練するステップと、
は、前記現在のサンプルにおける前記フレームに対する前記品質尺度が前記所定の閾値を上回るまで、または前記第1のパケットが残りのフレームを含まなくなるまで繰り返される、
請求項1から6までのいずれか1項記載の方法。
【請求項8】
センサデータに注釈付けすることと、センサデータを記録することと、が交互または同時に実施され、
前記第1のサンプルにおける少なくとも1つのフレームに対する前記品質尺度が所定の閾値を下回っていることが特定されると、前記コンピュータは、前記少なくとも1つの条件属性が前記第1のパケットの前記選択された値範囲内にあるような追加的なセンサデータを記録することを要求する、
請求項1から7までのいずれか1項記載の方法。
【請求項9】
例えばビデオフレームまたはオーディオフレームのようなフレームが含まれるセンサデータに自動的に注釈付けするための方法であって、
前記方法は、ホストコンピュータの少なくとも1つのプロセッサによって実施され、
前記方法は、
a)複数のセンサデータフレームを受信することと、
b)少なくとも1つの条件属性に基づいて前記フレームをパケットにグループ化することであって、前記条件属性は、前記センサデータフレームの記録中に存在していた周囲条件を表すことと、
c)ニューラルネットワークを使用して第1のパケットからのフレームに注釈付けすることであって、前記注釈付けは、それぞれのフレームに少なくとも1つのデータ点を割り当てることを含み、前記第1のパケットは、前記少なくとも1つの条件属性が選択された値範囲内にあるようなフレームを含むことと、
d)前記第1のパケットからの1つまたは複数のフレームの第1のサンプルを選択し、前記データ点に対する品質尺度を決定することと、
e)前記第1のサンプルにおける少なくとも1つのフレームに対する前記品質尺度が所定の閾値を下回っていることを特定することと、
f)前記第1のサンプルにおける前記フレームに対する修正された注釈付けを受信し、前記第1のサンプルにおける前記フレームを用いて前記ニューラルネットワークを再訓練することと、
g)再訓練された前記ニューラルネットワークを用いて、前記第1のパケットの残りのフレームのうちの少なくとも1つに注釈付けすることと、
h)前記第1のパケットの少なくとも1つの注釈付けされた残りのフレームから1つまたは複数のフレームの第2のサンプルを選択し、前記データ点に対する品質尺度を決定することと、
i)前記第2のサンプルにおける前記フレームに対する前記品質尺度が所定の閾値を上回っていることを特定することと、
j)再訓練された前記ニューラルネットワークを用いて、前記第1のパケットからの残りのフレームに注釈付けすることと、
k)注釈付けされた前記フレームをエクスポートすることと、
を含む方法。
【請求項10】
コンピュータシステムのマイクロプロセッサによって実行された場合に、請求項1から9までのいずれか1項記載の方法を前記コンピュータシステムに実施させる命令を含む、不揮発性コンピュータ可読媒体。
【請求項11】
ホストコンピュータを含んでいるコンピュータシステムであって、
前記ホストコンピュータは、マイクロプロセッサ、ダイレクトアクセスメモリ、ディスプレイ、人間の入力のための装置および不揮発性メモリ、とりわけハードディスクまたはソリッドステートドライブを含み、
前記不揮発性メモリは、前記マイクロプロセッサによって実行された場合に、請求項1から9までのいずれか1項記載の方法を前記コンピュータシステムに実施させる命令を含む、コンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、センサデータフレーム、とりわけ撮像センサのデータフレームに自動的に注釈付けするための方法およびコンピュータシステムに関する。
【背景技術】
【0002】
自律運転は、日常交通での快適性および安全性における現存のレベルを約束するものでは決してない。種々異なる企業による多大な投資にもかかわらず、既存のアプローチは、制限された状況下でしか使用することができず、かつ/または本当の自律的な挙動のうちの部分集合のみを想定している。その理由は、利用可能な運転シナリオの十分な量および多様性が欠如していることである。したがって、さらなる進歩は、膨大な量の十分に種々異なる訓練データおよび検証データ(すなわち、独立したグラウンドトゥルースデータ)が必要であることによって制限されている。訓練データを準備するためには、一般的に、一連のセンサ、とりわけ1つまたは複数のカメラ、LiDARセンサおよび/またはレーダセンサのような撮像センサが装備された車両によって、多数の種々異なる運転シナリオを記録することが必要である。記録されたこれらのシナリオを訓練データとして使用する前には、これらのシナリオに注釈付けすることが必要である。
【0003】
この注釈付けは、注釈付けサービス提供業者によって実施されることが多く、これらの注釈付けサービス提供業者は、記録されたセンサデータを受信して、ラベル付け作業者(ラベラー)とも称される多数の人間の作業力のための作業パケットに分割する。必要とされる正確な注釈付け(例えば、区別されるべきオブジェクト分類)は、それぞれのプロジェクトに依存しており、詳細なラベル付け仕様書に記載されている。顧客は、注釈付けサービス提供業者に生データを供給し、顧客の情報に応じた短期間での高品質の注釈付けを期待する。注釈付けプロジェクトの完了のために必要とされるラベル付け作業者の人数は、供給されるデータの量の増加に伴って増加し、また、固定されたデータ量に対する時間枠の減少に伴って増加する。このような理由から、例えば自律車両を検証するために十分なグラウンドトゥルースデータを供給するであろう比較的大規模な注釈付けプロジェクトは、人間の作業を用いるだけでは実現することができず、注釈付けプロセスを自動化することを必要とする。
【0004】
自動化アプローチは、記録されたセンサデータにラベル付けするためにニューラルネットワークを使用する。受信したデータの最初のセットが手動でラベル付けされ、次いで、専用のニューラルネットワークを訓練するために使用される。専用のニューラルネットワークは、十分に訓練されるとすぐに、記録された大量の撮像センサデータに注釈付けすることができる。純粋な手動でのアプローチと比較すると、このことによって労力が大幅に削減される。しかしながら、高い注釈付け品質を維持するためには、依然として人間による時間のかかる品質チェックが必要である。品質保証プロセスは、依然としてすべての注釈付けにおいて適用されなければならないので、プロジェクトのボリュームと、プロジェクト要件を満たすために必要となる作業労力との間には線形の関係性が存在する。
【0005】
したがって、センサデータ、とりわけ撮像センサデータに自動的に注釈付けするための改善された方法が必要であり、手動での品質チェックの回数を削減しながら、高い注釈付け品質を保証することが特に望ましいだろう。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、センサデータフレーム、とりわけビデオフレームまたはLiDAR点群に自動的に注釈付けするための方法およびコンピュータシステムを提供することである。
【課題を解決するための手段】
【0007】
本発明の第1の態様では、センサデータフレームに自動的に注釈付けするためのコンピュータ実装方法であって、当該方法は、
複数のセンサデータフレームを受信することと、
少なくとも1つの条件属性に基づいてフレームを複数のパケットにグループ化することであって、条件属性は、センサデータフレームの記録中に存在していた周囲条件を表す、ことと、
ニューラルネットワークを使用して第1のパケットからのフレームに注釈付けすることであって、注釈付けは、それぞれのフレームに少なくとも1つのデータ点を割り当てることを含み、第1のパケットは、少なくとも1つの条件属性が選択された値範囲内にあるようなフレームを含む、ことと、
第1のパケットからの1つまたは複数のフレームの第1の無作為サンプルを選択し、データ点に対する品質尺度を決定することと
を含み、
第1の無作為サンプルにおける少なくとも1つのフレームに対する品質尺度が所定の閾値を下回っていることをコンピュータが特定した場合に、当該方法は、
第1の無作為サンプルにおけるフレームに対する修正された注釈付けを受信することと、
第1の無作為サンプルにおけるフレームに基づいてニューラルネットワークを再訓練することと、
第1のパケットのフレームから、第1の無作為サンプルに含まれていなかった1つまたは複数のフレームの第2の無作為サンプルを選択することと、
再訓練されたニューラルネットワークを用いて第2の無作為サンプルのフレームに注釈付けすることと、
データ点に対する品質尺度を受信し、第2の無作為サンプルにおけるフレームに対する品質尺度が所定の閾値を上回っていることを確認することと、
再訓練されたニューラルネットワークを用いて第1のパケットの残りのフレームに注釈付けすることと、
第1のパケットの注釈付けされたフレームをエクスポートすることと
をさらに含む、方法が提供される。
【0008】
ホストコンピュータは、例えば汎用のマイクロプロセッサのようなプロセッサと、ディスプレイ装置と、入力装置とが含まれる単一の標準的なコンピュータとして実現可能である。代替的に、ホストコンピュータシステムは、複数の処理要素が含まれる1つまたは複数のサーバを含むことができ、サーバは、ディスプレイ装置および入力装置が含まれるクライアントにネットワークを介して接続されている。したがって、注釈付けソフトウェアを、部分的または完全にリモートサーバ上で、例えばコンピュータクラウド上などで実現することができ、したがって、ローカルではグラフィカルユーザインタフェースだけを実現すればよい。注釈付けされたフレームのエクスポートは、例えば、フレームを外部のデータ媒体上に格納すること、および/または、所定のデータ形式に変換もしくは統合することを含むことができる。
【0009】
記録した時点に存在していた周囲条件を表す条件属性に基づいてセンサデータフレームをグループ化することにより、条件属性と注釈付けの精度との間の考えられる相関を考慮することができる。フレームの記録中に存在していた周囲条件は、注釈付けの精度に影響を及ぼす可能性がある。複数のデータ点が含まれる注釈付けでは、データ点に応じてこの影響が異なる可能性がある。センサデータが、夜間に撮影されたカメラ画像を含んでいる場合には、オブジェクトの位置および/または分類を決定することがより困難になる可能性がある。しかしながら、例えば指示灯の状態のような自動車の属性は、真昼間の場合よりも容易に知覚可能である。本発明は、注釈付け精度を阻害する周囲条件を識別し、選択的な再訓練によってこれらの条件下でニューラルネットワークを改善することを可能にする。再訓練は、問題のある周囲条件に対して狙いを定めて実施されるので、全体的な訓練労力が削減される。これにより、訓練のために必要とされる計算性能と、ひいてはエネルギ消費もさらに削減される。
【0010】
「ニューラルネットワーク」という用語は、単一のニューラルネットワーク、所与のアーキテクチャに応じて異なるニューラルネットワークの組み合わせ、またはサンプルデータから教師ありで、半教師ありで、または教師なしで学習する機械学習に基づいた任意の種類の技術に関連していてよい。複数の異なるデータ点に対してそれぞれ異なるニューラルネットワークを使用することができ、すなわち、第1のニューラルネットワークを用いてオブジェクトの位置および/または分類を決定することができ、その一方で、少なくとも1つのさらなるニューラルネットワークを用いてオブジェクトの属性を決定することができる。
【0011】
手動での作業は、フレームに注釈付けするためのニューラルネットワーク、または機械学習に基づいた他の自動化コンポーネントを体系的に改善する目的で、訓練データ、テストデータおよび/または検証データを作成するためだけに使用されるので、大規模な注釈付けプロジェクトに対する労力を大幅に削減することができる。典型的には、品質レベルは、ニューラルネットワークの再訓練の何回かの反復の後には、さらなる手動でのチェックを行うことなく自動化結果を提供するために、すなわちニューラルネットワークによる注釈付けのために十分なものとなる。本発明の方法は、再訓練の焦点を、依然として注釈付け品質が足りていない条件に絞ることによって、必要とされる手動での労力および時間をさらに削減する。
【0012】
品質尺度として、例えば、自動的に作成されたバウンディングボックス(Bounding Box)と、品質管理の枠内において手動で作成されたバウンディングボックスと、の間の面積の重なりを使用することができる。また、間違って割り当てられたオブジェクト分類および/または偽陽性および/または偽陰性の最大数および/または最大率を要求することもできる。その場合、例えばバウンディングボックスの面積の重なりが小さ過ぎると、品質尺度が所定の閾値を下回ることとなる。所定数のフレームからの無作為サンプルにおいて偽陽性のもしくは間違って識別されたオブジェクトおよび/または偽陰性のもしくは間違って識別されていないオブジェクトが最大でも所定数だけ生じてよいということを、品質尺度として想定することもできる。その場合、例えば無作為サンプルにおける識別されなかったオブジェクトが最大許容数を上回ると、品質尺度が所定の閾値を下回ることとなる。
【0013】
第1のパケットからのフレームの第2の無作為サンプルを選択するステップと、再訓練されたネットワークを用いて第1のパケットの残りのフレームに注釈付けするステップと、を入れ替えてもよい。例えば、第2の無作為サンプルが選択される前に、再訓練されたネットワークを用いて第1のパケットのすべての残りのフレームに注釈付けすることができる。再訓練されたネットワークを用いた第2の無作為サンプルのフレームへの注釈付けのみを実施し、十分な注釈付け品質が確認されるまでさらなるフレームへの注釈付けを延期した場合には、このことは、ニューラルネットワークを2回以上再訓練しなければならないケースにおける計算労力を削減し、これにより、再訓練プロセスおよび注釈付けプロセスを加速させる。
【0014】
一実施形態では、受信されるセンサデータは、例えば1つまたは複数のカメラ、LiDARセンサおよび/またはレーダセンサのような少なくとも1つの撮像センサのフレームを含む。受信されるセンサデータは、例えばGPS位置、車両の加速度、または雨センサからのデータのような、撮像センサデータと同時に記録された追加的なセンサデータも含むことができる。画像フレームの場合、すなわち撮像センサからの画像データまたはデータフレームを有するフレームの場合には、条件属性は、好ましくは地理的場所、時刻、気象条件、視認条件、道路種類、オブジェクトまでの距離および/または交通密度である。オブジェクトまでの距離は、最も近くのオブジェクトまでの距離、最も離れたオブジェクトまでの距離、またはフレーム内で識別された複数のオブジェクトまでの平均距離であってよく、記録時の周囲条件としてオブジェクトの距離を考慮することにより、ニューラルネットワークのオブジェクト検出および/またはオブジェクト分類の性能に対する影響を定量化することができる。画像フレームの場合には、少なくとも1つのデータ点は、好ましくはオブジェクトの位置、オブジェクトの分類、境界枠の縁部の位置、オブジェクトと他のオブジェクトとの重なりの程度、画像フレーム内のオブジェクトと、先行または後続する画像フレーム内のオブジェクトとの相関(オブジェクトの追跡の結果として)、および/または、例えば方向指示器または制動灯のような指示灯の作動を含む。データ点の数は、例えば対応する数のオブジェクト位置と、オブジェクト分類と、対応するオブジェクト分類についての考えられる属性と、を有する、大都市シナリオにおける多数の自動車および歩行者など、画像フレームの内容に依存していてよい。
【0015】
一実施形態では、受信されるセンサデータは、少なくとも1つのマイクロフォンによって記録されたオーディオフレームを含む。オーディオフレームの場合、すなわちオーディオデータを有するフレームの場合には、条件属性は、好ましくは地理的場所、録音された話者の性別および/または年齢、部屋の大きさおよび/または背景雑音の尺度である。オーディオフレームの場合には、少なくとも1つのデータ点は、オーディオフレームから識別された1つまたは複数のテキストワードを含む。ワードは、後続する複数のオーディオフレームから識別可能であり、したがって、複数のオーディオフレームからデータ点を導出することができる。音声を識別する際の困難は、例えば、話者が発する周波数領域、部屋からの反響またはエコーの存在および/または存在する背景雑音のレベルに依存している可能性がある。
【0016】
好ましくは、複数のセンサデータフレームを受信するステップは、フレームを前処理するステップを含み、フレームに対する条件属性のうちの少なくとも1つは、当該フレームに基づいて専用のニューラルネットワークによって決定され、かつ/またはフレームに対する条件属性のうちの少なくとも1つは、当該フレームと同時に記録された追加的なセンサデータに基づいて決定される。追加的なセンサデータを組み合わせることができ、かつ/または例えば気象条件、時刻および地理的場所に基づいた照明条件の種類を提示する種々異なるサービスに関する問い合わせのために使用することができる。
【0017】
一実施形態では、第1の無作為サンプルは、第1のパケットから選択された2つ以上のフレームを含む。好ましくは、第1の無作為サンプルに対する品質尺度が所定の閾値を下回っていることをコンピュータが特定するとすぐに、第1の無作為サンプルにおけるフレームに対する修正された注釈付けが受信されるまで、第1のパケットからのフレームにおけるさらなる計算が実施されなくなる。第1のグループからの追加的なフレームを、手動で注釈付けして、第1の無作為サンプルのフレームに追加することができ、これにより、比較的大きなデータセットを、モデルの再訓練のために使用することが可能となる。ニューラルネットワークが再訓練されるまでさらなる処理を延期することによって、大量の時間およびエネルギが節約される。
【0018】
有利には、第1の無作為サンプルのためのフレームの選択は、品質尺度が決定されるべきデータ点に依存しており、とりわけ、オブジェクト検出の場合には単一のフレームがランダムに選択され、かつ/またはオブジェクト追跡の場合には連続したフレームのバッチがランダムに選択される。無作為サンプルを抽出するためにインテリジェントな戦略を使用することにより、再訓練によって達成することができる改善が最大化される。例えば交通標識を識別するためのようなオブジェクト検出器は、分散の大きい訓練データから恩恵を受け、したがって、単一のフレームのランダムな選択が、有益な第1の無作為サンプルである。他方で、トラッキングコンポーネントは、連続したデータから恩恵を受ける。なぜなら、その場合にのみ、連続したフレーム間での同一のオブジェクトのトラッキングを実施することができるからである。このような場合には、無作為サンプルとして有用には、多種多様なオブジェクトに対して一連の連続した(例えば、常に10個の)フレームがランダムに選択されるだろう。例として、インテリジェントなサンプル抽出は、トラッキングコンポーネントに対する品質尺度を決定する場合には、第1の無作為サンプルのためにフレーム10~20と、フレーム100~110と、フレーム235~245と、を抽出するだろう。無作為サンプルにおける大きい分散を得るために、サンプル抽出を実施するソフトウェアコンポーネントは、種々異なるフレームがそれぞれ異なる周囲条件下で撮影されることを保証するために、無作為サンプル間の時間的な最小間隔を規定することができる。追加的または代替的に、サンプル抽出時に1つまたは複数の属性を考慮することができる。例えば、夜間でのオブジェクト検出器の能力を定量化するために無作為サンプルが選択される場合には、例えば大都市、田舎、または高速道路のような種々異なる環境を規定することができる。その場合、ランダムな選択は、規定された基準を満たすすべての無作為サンプル間で実施されることとなる。
【0019】
一実施形態では、第1のパケットからの1つまたは複数のフレームから現在の無作為サンプルを選択するステップと、データ点に対する品質尺度を決定するステップと、現在の無作為サンプルにおけるフレームに対する修正された注釈付けを受信するステップと、現在の無作為サンプルにおけるフレームに基づいてニューラルネットワークを再訓練するステップと、は、現在の無作為サンプルにおけるフレームに対する品質尺度が所定の閾値を上回るまで、または第1のパケットが残りのフレームを含まなくなるまで繰り返される。有用には、注釈付けプロセスにとって不利である周囲条件も正しく処理することが可能となるまで、ニューラルネットワークが再訓練される。
【0020】
好ましくは、センサデータに注釈付けすることと、センサデータを記録することとが交互または同時に実施され、第1の無作為サンプルにおける少なくとも1つのフレームに対する品質尺度が所定の閾値を下回っていることが特定されると、コンピュータは、少なくとも1つの条件属性が第1のパケットの選択された値範囲内にあるような追加的なセンサデータを記録することを要求する。所定の記録条件が満たされるとすぐに記録をトリガする選択プログラムを実行する自動化された記録装置をテスト車両に装備することによって、または所定の条件下で、例えば夜間に走行するようにテストドライバが要求することによって、条件属性の値範囲を選択することができる。これにより、新たなデータは、少なくとも主に、ニューラルネットワークがさらなる訓練を必要とするような周囲条件に関して記録される。訓練データを慎重に選択することにより、訓練労力ごとの改善が最大化される。したがって、訓練のために必要とされる計算性能と、エネルギ消費も削減される。
【0021】
本発明の第2の態様では、例えばビデオフレームまたはオーディオフレームのようなフレームが含まれるセンサデータに自動的に注釈付けするためのコンピュータ実装方法が想定されている。当該方法は、ホストコンピュータの少なくとも1つのプロセッサによって実施され、当該方法は、
a)複数のセンサデータフレームを受信することと、
b)少なくとも1つの条件属性に基づいてフレームをパケットにグループ化することであって、条件属性は、センサデータフレームの記録中に存在していた周囲条件を表す、ことと、
c)ニューラルネットワークを使用して第1のパケットからのフレームに注釈付けすることであって、注釈付けは、それぞれのフレームに少なくとも1つのデータ点を割り当てることを含み、第1のパケットは、少なくとも1つの条件属性が選択された値範囲内にあるようなフレームを含む、ことと、
d)第1のパケットからの1つまたは複数のフレームの第1の無作為サンプルを選択し、データ点に対する品質尺度を決定することと、
e)第1の無作為サンプルにおける少なくとも1つのフレームに対する品質尺度が所定の閾値を下回っていることを特定することと、
f)第1の無作為サンプルにおけるフレームに対する修正された注釈付けを受信し、第1の無作為サンプルにおけるフレームを用いてニューラルネットワークを再訓練することと、
g)再訓練されたニューラルネットワークを用いて、第1のパケットの残りのフレームのうちの少なくとも1つに注釈付けすることと、
h)第1のパケットの少なくとも1つの注釈付けされた残りのフレームから1つまたは複数のフレームの第2の無作為サンプルを選択し、データ点に対する品質尺度を決定することと、
i)第2の無作為サンプルにおけるフレームに対する品質尺度が所定の閾値を上回っていることを特定することと、
j)再訓練されたニューラルネットワークを用いて、第1のパケットからの残りのフレームに注釈付けすることと、
k)注釈付けされたフレームをエクスポートすることと、
を含む。
【0022】
本発明の一態様は、コンピュータシステムのマイクロプロセッサによって実行された場合に、上述したような、または添付の特許請求の範囲に記載されているような本発明による方法をコンピュータシステムに実施させる命令を含む、不揮発性コンピュータ可読媒体にも関する。
【0023】
本発明のさらなる態様では、ホストコンピュータを含んでいるコンピュータシステムであって、ホストコンピュータは、プロセッサ、メインメモリ、ディスプレイ、人間の入力のための装置および不揮発性メモリ、とりわけハードディスクまたはソリッドステートドライブを含む、コンピュータシステムが想定されている。不揮発性メモリは、プロセッサによって実行された場合に、本発明による方法をコンピュータシステムに実施させる命令を含む。
【0024】
プロセッサは、パーソナルコンピュータの中央ユニットとして一般的に使用される汎用のマイクロプロセッサであってよく、またはプロセッサは、例えばグラフィックプロセッサのような特別な計算を実施するために構成された1つまたは複数の処理要素を含むことができる。本発明の代替的な実施形態では、プロセッサに代えてまたはこれに加えて、例えば固定された機能範囲を提供するように構成されたFPGAおよび/またはIPコアマイクロプロセッサを含むことができるFPGAのようなプログラマブルロジックデバイスを使用してもよい。
【0025】
図面の簡単な説明
好ましい実施形態の以下の詳細な説明を、以下の図面と組み合わせて考察すると、本発明のより良好な理解を得ることができる。
【図面の簡単な説明】
【0026】
【
図1】コンピュータシステムの例示的な略図である。
【
図2】左上の挿入図における考えられるデータ点の概略的な線図と共に、ビデオフレームの一例を示す図である。
【
図3】ビデオフレームの例示的なパケットの概略的な線図である。
【
図4】時刻情報および気象情報に従ってグループ化されたビデオフレームの例示的なパケットの概略的な線図である。
【
図5】周囲条件と注釈付けの品質との間の相関を示す概略的な線図である。
【
図6】本発明による方法を実施する自動化システムの概略的な線図である。
【発明を実施するための形態】
【0027】
図面では、類似した要素には同一の参照番号が付されている。本発明は、種々異なる変形形態および代替形態が可能であるが、図面では、特定の実施形態が例として示されており、本明細書において詳細に説明されている。しかしながら、特定の実施形態に対する図面および詳細な説明が、本発明を、開示されている特別な形態に制限するものではないことは自明である。それどころか、本発明は、添付の特許請求の範囲によって定義されているような本発明の発明思想内および有効範囲内の以下のすべての変形形態、均等形態および代替形態を網羅するものである。
【0028】
図1は、コンピュータシステムの例示的な実施形態を示す。
【0029】
図示の実施形態は、ディスプレイANZと、例えばキーボードTASおよびマウスMAUのようなユーザインタフェース装置と、を有するホストコンピュータPCを含み、さらに、外部のサーバを、クラウドシンボルによって示されているようにネットワークを介して接続することができる。
【0030】
ホストコンピュータPCは、1つまたは複数のコアを備えた少なくとも1つのプロセッサCPUと、メインメモリRAMと、バスコントローラBSを介してCPUとデータを交換するローカルバス(例えば、PCI-Expressなど)に接続された複数の機器と、を含む。これらの機器には、例えば、ディスプレイを制御するためのグラフィックプロセッサGPUと、周辺機器を接続するための制御部USBと、例えばハードディスクまたはソリッドステートドライブのような不揮発性メモリHDDと、ネットワークインタフェースNCと、が含まれる。さらに、ホストコンピュータは、ニューラルネットワークのための専用のアクセラレータKIを含むことができる。アクセラレータは、例えばFPGAのようなプログラマブルロジックデバイスとして構成されていてもよいし、一般的な計算のために適したグラフィックプロセッサとして構成されていてもよいし、または特定用途向け集積回路として構成されていてもよい。好ましくは、不揮発性メモリは、プロセッサCPUの1つまたは複数のコアによって実行された場合に、本発明による方法をコンピュータシステムに実施させる命令を含む。
【0031】
代替的な実施形態では、ホストコンピュータは、図面ではクラウドとして示されているように、1つまたは複数の処理要素が含まれる1つまたは複数のサーバを含むことができ、サーバは、ディスプレイ装置および入力装置が含まれるクライアントにネットワークを介して接続されている。したがって、注釈付け環境を、部分的または完全にリモートサーバ上で、例えばクラウドコンピュータ装置内などで実現することができる。ネットワークを介してディスプレイ装置および入力装置を含んでいるクライアントとして、パーソナルコンピュータを使用することができる。代替的に、注釈付け環境のグラフィカルユーザインタフェースを、とりわけタッチスクリーンユーザインタフェースを有するスマートフォン上またはタブレット上のように、携帯型のコンピュータシステム上に表示させることができる。
【0032】
図2は、左上の挿入図における考えられるデータ点の概略的な線図と共に、例示的なビデオフレームを示す。
【0033】
図面は、大都市風景の写真またはフレームを示す。このようなフレームは、ビデオ記録の一部であってよい。一般的に、顧客によって提供される記録は、ビデオデータまたはオーディオデータから成り、これらのビデオデータまたはオーディオデータは、例えばカメラおよびLiDARセンサを介して記録された5分間の走行のような連続したコンテキストであるか、または10分間の音声記録である。ビデオ記録は、例えば一連の連続したフレームから成っていてよく、これらのフレーム自体は、一連のオブジェクトを撮影する。ニューラルネットワークは、複数のデータ点を含むことができる注釈付けを作成するために記録を処理し、それぞれのデータ点は、1つの特定の態様を表す。
【0034】
データ点は、記録の特定の特性を表すパラメータであり、すべての詳細レベルにおいて適用可能である。詳細レベルは、記録全体、一連の連続したまたはランダムなフレーム、単一のフレーム、またはフレーム上のオブジェクトであってよい。特定の例は、自動車の位置をある程度の精度で表す境界枠から成る自動車のための注釈付け、自動車の縁部をマーキングする垂直線、自動車の種類を表すための分類、トリミングまたはオクルージョンに関する属性、ウィンカー、制動灯、色などである。データ点は、分類、枠、セグメント、多角形、折れ線、属性、例えばウィンカー、制動灯、色、下位分類、トラッキング情報、オクルージョン度、トリミング度、オブジェクト/フレーム/クリップの重要性を表す複雑な分類、音、テキスト、感覚、または任意の他の自動的に特定可能な情報であってよい。
【0035】
図面における左上の挿入図には、自動車に関する種々異なるデータ点が示されている。自動車は、種々異なる種類のものであってよく、例えば配送車、SUV、またはスポーツカーであってよい。自動車の位置またはそれどころか寸法は、一般的に、バウンディングボックスによって、すなわち自動車を取り囲んでいる矩形の枠または直方体によって示されている。垂直線は、自動車の境界を示す。自動車に関するさらなる考えられるデータ点は、指示灯、例えば挿入図に示されている方向指示器の作動である。
【0036】
フレーム内には多数の自動車が存在し、それぞれが境界枠によって取り囲まれている。自動車は、例えばカメラの直前を走行する車のように完全に視認可能である可能性もあるし、または遮蔽されている可能性もある。大都市風景の交通密度は、例えば遮蔽によって境界枠の境界線の正確な決定を困難にすることにより、注釈付け品質を阻害する可能性がある。
【0037】
図3は、ビデオフレームの例示的なパケットの概略的な線図を示す。
【0038】
自律車両を訓練または検証するためのセンサデータを作成するための通常の方法は、テストドライバをあちこちに走り回らせて、その間に、例えばカメラデータ、LiDARデータおよび/またはGPSデータのような関心のあるすべてのセンサデータを記録することである。これらのデータは、ソートされていないので、第1の記録(記録1)は、高速道路上で真昼間に撮影されている可能性があるが、その一方で、次の記録(記録2)は、同じく日中に、ただし降雨中に撮影されている可能性がある。次の記録3(記録3)は、夜間に撮影されている可能性がある。後続する記録では、周囲条件が予期せぬ形で変化する可能性がある。
【0039】
図4は、追加的な時刻情報および気象情報に従ってグループ化されたビデオフレームの例示的なパケットの概略的な線図を示す。オブジェクトの視認性は、時刻および気象条件に強力に依存しているので、オブジェクト検出器のための注釈付け品質は、これらの周囲条件と相関している。
【0040】
記録されたフレームを、時刻および気象条件に従ってパケットまたはクラスタにグループ化することが有利である。図示の例では、記録1,5および6は、晴天の日中に記録されたが、その一方で、記録2,4および7は、降雨のせいで雨天であった日中に記録された。記録3は、雨天の条件下で夜間に記録された。
【0041】
記録されたフレームをパケットまたはクラスタにグループ化するために、さらなる基準を使用してもよい。自律運転のコンテキストにおける一例として、顧客によって提供されたデータを、日中/夜間および雨天/晴天に基づいて束ねることができるだけでなく、道路種類、例えば高速道路に対する市街地道路に基づいて束ねることもできる。
【0042】
均一な注釈付け品質を有するフレームのグループを提供するために、類似した周囲条件の間に記録されたフレーム同士が一緒に処理される。一実施形態では、それぞれのフレームの記録時に存在していた少なくとも1つの周囲条件に基づいてフレームに注釈付けするために、種々異なるニューラルネットワークを使用することができる。
【0043】
図5は、周囲条件と注釈付けの品質との間の相関を示す例示的な線図を示す。
【0044】
記録2,4および7が含まれるクラスタ1の第1のグループのフレームは、雨模様または雨天の日中に記録された。クラスタ1の精度は、手動での品質チェックに基づいて90%近傍にある。したがって、この注釈付けは、依然としてチェックされなければならないが、ニューラルネットワークは、再訓練を何回か反復した後には十分に精確なデータを作成することが可能である。
【0045】
記録1および5が含まれるクラスタ2の第2のグループのフレームは、晴天の日中に記録された。クラスタ2の精度は、手動での品質チェックに基づいて99%である。これは十分に精確であるので、同一の周囲条件下で記録されたフレームのグループに対する品質チェックを完全に省略することができる。
【0046】
記録3および8が含まれるクラスタ3の第3のグループのフレームは、雨天の夜間に記録された。クラスタ3の精度は、手動での品質チェックに基づいて50%であり、したがって、明らかに許容できないものである。同一の周囲条件下で記録されたフレームは、徹底的な手動でのチェックと、ニューラルネットワークの改善された訓練と、を必要とする。
【0047】
フレームは、周囲条件に従ってグループ化されているので、人間の作業労力は、それが最も必要とされているフレームのグループにおいて投入される。好適な条件下で記録されたフレームは、完全自動で処理可能である。ニューラルネットワークの新たな訓練のために必要とされる計算性能またはエネルギも、それが注釈付けの品質に対して顕著な影響を及ぼすところに投入される。
【0048】
図6は、本発明による方法を実施する自動化システムの概略的な線図である。自動化システムは、専用のコンポーネントにおいて本方法の種々異なるステップを実施し、クラウドコンピュータ環境内での実施のために良好に適合させられている。
【0049】
第1のステップ「データ撮影」では、顧客によってソートされていない記録が受信される。均一な処理を可能にするために、記録を正規化すること、例えば複数のフレームに分割することができる。
【0050】
第2のステップ「豊富化」では、記録からのフレームが分析され、自動化品質の測定に関連するメタデータによって自動的に豊富化される。このステップは、自動化のための前提条件として示されているが、代替的な実施形態では、所望のメタデータに応じてこの豊富化を、例えば交通密度またはオブジェクトからセンサまでの距離のような注釈付け中に収集された情報に基づいて、自動化の後に実施することもできる。自律運転のコンテキストでは、注釈付け品質に関連するメタデータまたは条件属性は、地理、気象条件、道路種類、照明状況および/または時刻であってよい。自動化の効率のためには、後続するステップにおいてフレームのグループを全体として処理することが有益である。複数のフレームを入れ子式に記録および処理することを伴うプロジェクトの場合には、さらなる処理ステップを続行する前に、同一の周囲条件下で記録されたフレームを、所定のクラスタサイズが達成されるまで追加することが有利であろう。したがって、豊富化およびクラスタ形成は、静的または動的なメタデータを記録に追加するための技術と、メタデータ豊富化に基づいて個々の記録を定義可能なサイズのより大きなクラスタに挿入するための技術と、を含む。
【0051】
第3のステップ「スケジューラ」では、フレームの種々異なるグループが、自動化エンジンによる注釈付けのために仕分けられ、この自動化エンジンは、1つまたは複数のデータ点を用いてフレームに注釈付けするように1つまたは複数の自動化コンポーネントを駆動する。スケジューラは、自動化コンポーネントの新たなバージョンの利用可能性に基づいて、処理のためのフレームのグループを選択する。自動化コンポーネントは、例えば垂直線のような単一のデータ点を生成してもよいし、または例えば境界枠およびオブジェクト分類のような対応する複数のデータ点を生成してもよい。自動化コンポーネントは、ニューラルネットワークであってもよいし、またはデータサンプルから教師ありで、半教師ありで、または教師なしで学習する機械学習に基づいた任意の他の種類の技術であってもよい。
【0052】
第4のステップ「自動化エンジン」では、フレームにデータ点を割り当てる少なくとも1つの自動化コンポーネントによって、フレームのグループが処理される。自動化システムは、自動化コンポーネントを介してそれぞれの任意の種類のデータ点を生成し、すなわち、自動化コンポーネントは、注釈付けシステムの作業フローの中央部分である。好ましくは、データ点は、結果を生成するために使用された自動化コンポーネントのバージョンを詳細に表すメタデータを伝える。自動化エンジンは、自動化コンポーネントを介して関連するメタデータを正確に格納するための技術を含む。
【0053】
第5のステップ「サンプルチェック」では、品質管理のためにフレームの無作為サンプルが選択される。品質管理では、例えば境界枠のような対応する注釈が付されたフレームを、人間の注釈付け作業者に表示することができ、この境界枠が正しいものであるかどうかをこの人間の注釈付け作業者に質問することができる。代替的に、ニューラルネットワークによってオブジェクトが見落とされた場合に、境界枠を調整するための、かつ/または境界枠を追加するためのユーザインタフェースを、人間の注釈付け作業者に表示することができる。自動化システムは、人間の注釈付け作業者によって実施された修正の種類および数から、品質尺度を決定する。
【0054】
第6のステップ「サンプルチェックに合格したか?」では、注釈付け品質または品質尺度が所定の閾値を上回っているかどうかをシステムが判定する。所定の閾値を上回っていることを自動化システムが確認すると(イエス)、選択された無作為サンプルが含まれるフレームのグループがエクスポートされ、顧客に供給される。周囲条件の特定のセットにおいて記録されたフレームの少なくとも1つのグループがサンプルチェックに合格した場合には、自動化システムは、同一の周囲条件を有するフレームのすべてのグループに対する注釈付けの品質を、さらなる品質チェックなしにエクスポートしてもよいということ、ひいては、ステップ5および6がスキップされるべきであるということを判定することができる。一実施形態では、自動化システムは、十分な注釈付け品質を有する周囲条件を有するグループの数をカウントし、所定数のグループがサンプルチェックに合格するとすぐに、無作為サンプルのチェックをスキップすることができる。フレームのグループがサンプルチェックに合格しなかったことを自動化システムが確認すると(ノー)、第8のステップにおいて実施が続行され、この第8のステップでは、選択された無作為サンプルの周囲条件下で記録されたフレームがデータセットのために必要であるかどうかを自動化システムが特定する。データセットのために必要であるかどうかは、モデルの訓練のためにすでに使用された、同一の条件下で記録されたフレームの数に依存していてよい。訓練のために十分な数のフレームがすでに使用されていた場合には、フレームのグループを、再訓練されたニューラルネットワークが利用可能となるとすぐに改めて処理するために、第3のステップ「スケジューラ」に単純に挿入するだけでよい。
【0055】
第7のステップ「顧客サンプルチェック」では、注釈付けが、顧客の設定および要求された注釈付け品質を遵守していることを確認するために、顧客は、エクスポートされたフレームの無作為サンプルをチェックすることができる。顧客がフレームのグループを拒絶した場合には、「修正」ステップにおいて、無作為サンプルまたはフレームのグループ全体が手動で処理される。好ましくは、自動化システムは、フレームの新たなグループが第6のステップのサンプルチェックおよび/または第7のステップの顧客サンプルチェックに合格するまで、同一の周囲条件を有するすべての後続するグループに対してサンプルチェックを強制する。
【0056】
第9のステップ「修正」では、試験に合格しなかったフレームの無作為サンプルの、または顧客によって拒絶された無作為サンプルもしくはフレームのグループの全体の、手動での注釈付けが実施される。手動で注釈付けされたフレームがエクスポートされ、第7のステップのために、すなわち顧客サンプルチェックのために顧客に供給される。手動で注釈付けされたフレームは、修正されたデータを訓練データセット、検証データセット、またはテストデータセットに供給することによっても、ニューラルネットワークの再訓練のために使用される。これらのデータセットは、円筒体によってシンボリックに図示されている。
【0057】
第10のステップ「フライホイール」では、サンプルチェックにおいて拒絶されたデータ点を生成した少なくとも1つのニューラルネットワークまたは自動化コンポーネントの再訓練が実施される。ニューラルネットワークの再訓練によって、自動化品質が改善される。好ましくは、自動化コンポーネントは、さほど多くのメタデータクラスタ(すなわち、周囲条件の特定のセットにおいて記録されたフレーム)のための手動での検査ができるだけ必要とされないようなレベルまで改善される。効率の迅速な改善を可能にするために、再訓練のための反復時間はできるだけ短くなければならない。
【0058】
フライホイールは、訓練データセットの変化を監視し、訓練データセットの変化についての所定の閾値または自動的に決定された閾値が検出されるとすぐに再訓練を自動的にトリガするために、訓練データセットを、それぞれの自動化コンポーネント(それぞれのデータ点)ごとに効率的に格納するための技術を含む。さらに、フライホイールは、再訓練されたモデルを自動化コンポーネントに自動的に投入するための技術と、自動化コンポーネントにおけるバージョン変更を計画者に通知するための技術と、を含む。
【0059】
フレームへの注釈付けと同時にまたは入れ子式に新たなデータが記録される場合には、狙いを定めたデータ撮影という追加的なステップを実施することができる。自動化コンポーネントは、絶えず精緻化されるデータセットにおける多数の訓練の反復によって改善され、このことは、現実世界の分散を時間の経過と共にますます良好に反映している。メタデータクラスタごとの信頼レベルは、自動化結果が最も被害を受けているまさにそのデータサンプルを撮影するための体系的なアプローチを可能にする。
図5を参照すると、クラスタ3のフレームは、夜間に記録されており、自動的な注釈付けは、実際には許容できない注釈付け品質をもたらす。チェックステップにおいてこのことが発見されるとすぐに、狙いを定めたデータ撮影を要求することができ、この狙いを定めたデータ撮影の際には、夜間のサンプルが、自動化コンポーネントの訓練データセットを改善するために特別にこの周辺条件下で記録される。
【0060】
好ましい実施形態では、特定の種類(クラスタ)の追加的な訓練データのレベルおよび量が、信頼度に応じて決定される。同一の条件下で記録されたすべてのデータを、再訓練のために使用することができる。間違って注釈付けされたフレームの修正が実施されるとすぐに、これらのフレームが、特別な自動化コンポーネントの訓練データセットに直接的に供給される。しかしながら、通常、特定のクラスタおよびデータ点に対するすべてのデータを手動で修正する必要はない。その代わりに、次の再訓練閾値レベルまでのサンプルのみが抽出および修正される。データの残りの部分は、自動化コンポーネントの上位バージョンを用いて改めて実行するために自動的に計画される。狙いを定めたデータ撮影は、手動での修正のために、所定の量までのメタデータクラスタに基づいて関心のあるサンプルを選択するための技術を含む。さらに、狙いを定めたデータ撮影は、好ましくは、それぞれの自動化コンポーネントの上位バージョンにおいて自動化を実行するための再訓練のためには必要とされない低品質のサンプルをマーキングするための技術を含む。
【0061】
フレームが記録されたときの周囲条件と、その結果として生じる注釈付けの品質と、の間の相関を利用することにより、本発明による方法は、手動での作業を、特にニューラルネットワークの迅速な改善において投入することを可能にし、その場合、このニューラルネットワークは、顧客に供給するための自動的な注釈付けを作成するために使用され、したがって、例えば検証のために必要とされる比較的大規模な注釈付けプロジェクトを大幅に加速させる。
【0062】
当業者であれば、本発明による方法のステップのうちの少なくともいくつかのステップの順序を、特許請求される本発明の有効範囲から逸脱することなく変更してもよいことを認識するであろう。本発明は、限られた数の実施形態に関して説明されているが、当業者であれば、これらの実施形態の多数の修正形態および変形形態を認識するであろう。添付の特許請求の範囲は、本発明の真の発明思想内および有効範囲内に含まれるすべてのそのような修正形態および変形形態を網羅することが意図されている。
【手続補正書】
【提出日】2024-04-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
センサデータフレームに自動的に注釈付けするためのコンピュータにより実装される方法であって、前記方法は、
複数のセンサデータフレームを受信することと、
少なくとも1つの条件属性に基づいて前記フレームを複数のパケットにグループ化することであって、前記条件属性は、前記センサデータフレームの記録中に存在していた周囲条件を表すことと、
ニューラルネットワークを使用して第1のパケットからのフレームに注釈付けすることであって、前記注釈付けは、それぞれのフレームに少なくとも1つのデータ点を割り当てることを含み、前記第1のパケットは、前記少なくとも1つの条件属性が選択された値範囲内にあるようなフレームを含むことと、
前記第1のパケットからの1つまたは複数のフレームの第1のサンプルを選択し、前記データ点に対する品質尺度を決定することであって、前記第1のサンプルにおける少なくとも1つのフレームに対する前記品質尺度が所定の閾値を下回っていることをコンピュータが特定した場合に、前記方法は、前記第1のサンプルにおける前記フレームに対する修正された注釈付けを受信することと、前記第1のサンプルにおける前記フレームに基づいて前記ニューラルネットワークを再訓練することと、をさらに含むことと、
前記第1のパケットのフレームから、前記第1のサンプルに含まれていなかった1つまたは複数のフレームの第2のサンプルを選択することと、
再訓練された前記ニューラルネットワークを用いて前記第2のサンプルのフレームに注釈付けして、前記データ点に対する品質尺度を決定することと、
前記第2のサンプルにおける前記フレームに対する前記品質尺度が所定の閾値を上回っていることを特定することと、
再訓練された前記ニューラルネットワークを用いて前記第1のパケットの残りのフレームに注釈付けすることと、
前記第1のパケットの注釈付けされた前記フレームをエクスポートすることと、
を含む方法。
【請求項2】
画像データを有するフレームの場合には、前記条件属性は、地理的場所、時刻、気象条件、視認条件、道路種類、オブジェクトまでの距離および/または交通密度であり、かつ/または
オーディオフレームの場合には、前記条件属性は、地理的場所、話者の性別および/または年齢、部屋の大きさおよび/または背景雑音の尺度である、
請求項1記載の方法。
【請求項3】
複数のセンサデータフレームを受信するステップは、前記フレームを前処理するステップを含み、
フレームに対する前記条件属性のうちの少なくとも1つは、前記フレームに基づいて専用のニューラルネットワークによって決定され、かつ/または
フレームに対する前記条件属性のうちの少なくとも1つは、前記フレームと同時に記録された追加的なセンサデータに基づいて決定される、
請求項1記載の方法。
【請求項4】
画像フレームの場合には、前記少なくとも1つのデータ点は、オブジェクトの位置、オブジェクトの分類、境界枠の縁部の位置、前記画像フレーム内のオブジェクトと、先行または後続する画像フレーム内のオブジェクトと、の相関および/または指示灯の作動を含み、かつ/または
オーディオフレームの場合には、前記少なくとも1つのデータ点は、前記オーディオフレームから識別された1つまたは複数のテキストワードを含む、
請求項1記載の方法。
【請求項5】
前記第1のサンプルは、前記第1のパケットから選択された2つ以上のフレームを含み、
前記第1のサンプルに対する前記品質尺度が前記所定の閾値を下回っていることを前記コンピュータが特定するとすぐに、前記第1のサンプルにおける前記フレームに対する修正された注釈付けが受信されるまで、前記第1のパケットからの前記フレームにおけるさらなる計算が実施されなくなる、
請求項1記載の方法。
【請求項6】
前記第1のサンプルのためのフレームの選択は、前記品質尺度が決定されるべきデータ点に依存しており、とりわけ、オブジェクト検出の場合には単一のフレームがランダムに選択され、かつ/または、オブジェクト追跡の場合には連続したフレームのバッチがランダムに選択される、
請求項1記載の方法。
【請求項7】
前記第1のパケットからの1つまたは複数のフレームから現在のサンプルを選択するステップと、
前記データ点に対する品質尺度を決定するステップと、
前記現在のサンプルにおける前記フレームに対する修正された注釈付けを受信するステップと、
前記現在のサンプルにおける前記フレームに基づいて前記ニューラルネットワークを再訓練するステップと、
は、前記現在のサンプルにおける前記フレームに対する前記品質尺度が前記所定の閾値を上回るまで、または前記第1のパケットが残りのフレームを含まなくなるまで繰り返される、
請求項1記載の方法。
【請求項8】
センサデータに注釈付けすることと、センサデータを記録することと、が交互または同時に実施され、
前記第1のサンプルにおける少なくとも1つのフレームに対する前記品質尺度が所定の閾値を下回っていることが特定されると、前記コンピュータは、前記少なくとも1つの条件属性が前記第1のパケットの前記選択された値範囲内にあるような追加的なセンサデータを記録することを要求する、
請求項1記載の方法。
【請求項9】
例えばビデオフレームまたはオーディオフレームのようなフレームが含まれるセンサデータに自動的に注釈付けするための方法であって、
前記方法は、ホストコンピュータの少なくとも1つのプロセッサによって実施され、
前記方法は、
a)複数のセンサデータフレームを受信することと、
b)少なくとも1つの条件属性に基づいて前記フレームをパケットにグループ化することであって、前記条件属性は、前記センサデータフレームの記録中に存在していた周囲条件を表すことと、
c)ニューラルネットワークを使用して第1のパケットからのフレームに注釈付けすることであって、前記注釈付けは、それぞれのフレームに少なくとも1つのデータ点を割り当てることを含み、前記第1のパケットは、前記少なくとも1つの条件属性が選択された値範囲内にあるようなフレームを含むことと、
d)前記第1のパケットからの1つまたは複数のフレームの第1のサンプルを選択し、前記データ点に対する品質尺度を決定することと、
e)前記第1のサンプルにおける少なくとも1つのフレームに対する前記品質尺度が所定の閾値を下回っていることを特定することと、
f)前記第1のサンプルにおける前記フレームに対する修正された注釈付けを受信し、前記第1のサンプルにおける前記フレームを用いて前記ニューラルネットワークを再訓練することと、
g)再訓練された前記ニューラルネットワークを用いて、前記第1のパケットの残りのフレームのうちの少なくとも1つに注釈付けすることと、
h)前記第1のパケットの少なくとも1つの注釈付けされた残りのフレームから1つまたは複数のフレームの第2のサンプルを選択し、前記データ点に対する品質尺度を決定することと、
i)前記第2のサンプルにおける前記フレームに対する前記品質尺度が所定の閾値を上回っていることを特定することと、
j)再訓練された前記ニューラルネットワークを用いて、前記第1のパケットからの残りのフレームに注釈付けすることと、
k)注釈付けされた前記フレームをエクスポートすることと、
を含む方法。
【請求項10】
コンピュータシステムのマイクロプロセッサによって実行された場合に、請求項1から9までのいずれか1項記載の方法を前記コンピュータシステムに実施させる命令を含む、不揮発性コンピュータ可読媒体。
【請求項11】
ホストコンピュータを含んでいるコンピュータシステムであって、
前記ホストコンピュータは、マイクロプロセッサ、ダイレクトアクセスメモリ、ディスプレイ、人間の入力のための装置および不揮発性メモリ、とりわけハードディスクまたはソリッドステートドライブを含み、
前記不揮発性メモリは、前記マイクロプロセッサによって実行された場合に、請求項1から9までのいずれか1項記載の方法を前記コンピュータシステムに実施させる命令を含む、コンピュータシステム。
【国際調査報告】