IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディスペース デジタル シグナル プロセッシング アンド コントロール エンジニアリング ゲゼルシャフト ミット ベシュレンクテル ハフツングの特許一覧

特表2023-548749センサデータのアノテーションのための方法およびシステム
<>
  • 特表-センサデータのアノテーションのための方法およびシステム 図1
  • 特表-センサデータのアノテーションのための方法およびシステム 図2
  • 特表-センサデータのアノテーションのための方法およびシステム 図3
  • 特表-センサデータのアノテーションのための方法およびシステム 図4
  • 特表-センサデータのアノテーションのための方法およびシステム 図5
  • 特表-センサデータのアノテーションのための方法およびシステム 図6
  • 特表-センサデータのアノテーションのための方法およびシステム 図7
  • 特表-センサデータのアノテーションのための方法およびシステム 図8
  • 特表-センサデータのアノテーションのための方法およびシステム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-21
(54)【発明の名称】センサデータのアノテーションのための方法およびシステム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231114BHJP
   G08G 1/00 20060101ALI20231114BHJP
【FI】
G06T7/00 650
G06T7/00 350C
G08G1/00 A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023520248
(86)(22)【出願日】2021-11-16
(85)【翻訳文提出日】2023-03-31
(86)【国際出願番号】 EP2021081845
(87)【国際公開番号】W WO2022106414
(87)【国際公開日】2022-05-27
(31)【優先権主張番号】102020130335.1
(32)【優先日】2020-11-17
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】506012213
【氏名又は名称】ディスペース ゲー・エム・ベー・ハー
【氏名又は名称原語表記】dSPACE GmbH
【住所又は居所原語表記】Rathenaustr.26,D-33102 Paderborn, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ダニエル レードラー
(72)【発明者】
【氏名】フィリップ トーマス
(72)【発明者】
【氏名】ジーモン ロマンスキ
(72)【発明者】
【氏名】ゲオルギ ウルモヴ
(72)【発明者】
【氏名】トビアス ビースター
(72)【発明者】
【氏名】ルーベン ヤーコプ
(72)【発明者】
【氏名】ボリス ノイベルト
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181BB04
5H181BB20
5H181CC03
5H181CC04
5H181CC14
5H181EE02
5H181FF04
5H181FF13
5H181FF27
5H181FF32
5H181LL09
5L096BA04
5L096CA04
5L096CA05
5L096CA27
5L096DA02
5L096FA34
5L096FA69
5L096GA34
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
本発明は、運転シナリオセンサデータのアノテーションのためのコンピュータ実装方法であって、複数の連続するLiDAR点群および/または複数の連続するカメラ画像を含む、センサ-ローデータを受信するステップと、1つまたは複数のニューラルネットワークを使用して、カメラデータの各画像内かつ/または各点群内の対象物を識別するステップと、連続する画像内かつ/または連続する点群内の各対象物を相関させるステップと、妥当性基準に基づいて偽陽性結果を除去するステップと、運転シナリオのアノテーションされたセンサデータをエクスポートするステップと、を含む方法に関する。
【特許請求の範囲】
【請求項1】
運転シナリオセンサデータのアノテーションのためのコンピュータにより実装される方法であって、前記方法は、
LiDARセンサの複数の連続する点群および/または1つまたは複数のカメラの複数の連続する画像を含むセンサ-ローデータを受信するステップと、
1つまたは複数のニューラルネットワークを使用して、各画像内かつ/または各点群内の対象物を識別するステップと、
連続する画像内かつ/または連続する点群内の各対象物を相関させるステップと、
妥当性基準に基づいて偽陽性結果を除去するステップと、
運転シナリオのアノテーションされたセンサデータをエクスポートするステップと、
を含む方法。
【請求項2】
前記センサ-ローデータは、少なくとも2つの領域に分割されるLiDARセンサの点群を含み、対象物を識別するために、第1の領域では第1のアーキテクチャのニューラルネットワークが使用され、第2の領域では前記第1のアーキテクチャとは異なる第2のアーキテクチャのニューラルネットワークが使用される、
請求項1記載の方法。
【請求項3】
前記第1の領域は、測定車両のより近い周囲を含む一方、前記第2の領域は、前記測定車両までの最小距離を有し、
好適には、対象物識別のためのニューラルネットワークに対して、前記第1の領域ではセンターポイントベースのアーキテクチャが使用され、前記第2の領域ではPointRCNNベースのアーキテクチャが使用される、
請求項2記載の方法。
【請求項4】
前記方法は、前記各対象物を相関させるステップの前に複製を除去するステップを含み、
前記複製を除去するステップは、好適には、ニューラルネットワークのオーバーラップ基準および/または信頼度レベルに基づく、
請求項1から3までのいずれか1項記載の方法。
【請求項5】
画像内かつ/または点群内で識別された対象物の複製の除去が行われ、
2つのオーバーラップする対象物、すなわち、第1の信頼度レベルで識別された第1の対象物と前記第1の信頼度レベルよりも低い第2の信頼度レベルで識別された第2の対象物とにつき、オーバーラップ、特にIoU(Intersection-over-Union)が設定された閾値を上回っているかどうかが検査され、上回っている場合には前記第2の対象物が複製として破棄される、
請求項4記載の方法。
【請求項6】
前記各対象物を相関させるステップは、連続するフレーム内、すなわち画像内かつ/または点群内の対象物の結合を含み、各対象物が同じ対象物クラスに属しかつオーバーラップ、特にIoU(Intersection-over-Union)が設定された閾値を上回った場合、第1のフレーム内の対象物が第2のフレーム内の対象物と相関される、
請求項1から5までのいずれか1項記載の方法。
【請求項7】
前記各対象物を相関させるステップは、
ガウス過程還元またはカルマンフィルタを用いて後続の画像上および/または後続の点群上の対象物の位置を予測すること、および/または
因子グラフ、すなわち確率分布をファクタリゼーションする2部グラフを用いて連続する画像内の対象物の追跡を行うこと、
を含む、
請求項1から6までのいずれか1項記載の方法。
【請求項8】
前記方法は、見落とされた対象物を補正するステップをさらに含み、
3つ以上の連続するフレームが観察され、第1のフレーム内の対象物が第3のフレーム内の対象物と相関されているが中間に位置するフレーム内では識別されなかった場合、前記対象物が第2のフレームに挿入される、
請求項6または7記載の方法。
【請求項9】
前記偽陽性結果を除去するための妥当性基準は、地上高、存在期間および/またはニューラルネットワークの信頼度レベルに基づく、
請求項1から8までのいずれか1項記載の方法。
【請求項10】
前記方法は、カメラデータの各画像内かつ/または各点群内の対象物サイズおよび/または対象物位置を回帰により最適化するステップをさらに含む、
請求項1から9までのいずれか1項記載の方法。
【請求項11】
前記方法は、連続する画像内かつ/または連続する点群内の相関している対象物のサイズを統一するステップをさらに含み、
好適には、前記相関している対象物のサイズを統一するステップは、対象物クラスに依存して実行されるかまたは中止される、
請求項1から10までのいずれか1項記載の方法。
【請求項12】
前記センサ-ローデータは、LiDAR点群と、同時に撮影されたカメラデータと、を含み、前記対象物を相関させるステップは、LiDARセンサとカメラとの相対的な空間的配向を考慮して行われる、
請求項1から11までのいずれか1項記載の方法。
【請求項13】
識別された対象物に対し、属性を識別するための少なくとも1つのニューラルネットワークが適用され、好適には少なくとも1つの属性、特に車両のウインカ状態は、カメラ画像に基づいて算定されてLiDAR点群内の対象物に割り当てられる、
請求項1から12までのいずれか1項記載の方法。
【請求項14】
コンピュータシステムのプロセッサによって実行される際に請求項1から13までのいずれか1項記載の方法を実行するための命令を含む、コンピュータ可読データ担体。
【請求項15】
コンピュータシステムであって、プロセッサと、マンマシンインタフェースと、不揮発性メモリと、を備え、前記不揮発性メモリは、前記プロセッサによって実行される際に、前記コンピュータシステムに請求項1から13までのいずれか1項記載の方法を実行させるための命令を含む、コンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、運転シナリオのセンサデータの自動アノテーションのためのコンピュータ実装方法、コンピュータ可読データ担体およびコンピュータシステムに関する。
【背景技術】
【0002】
自律運転は、日常的な交通においてこれまでなかった規模での快適性および安全性を約束するものである。しかし、多様な企業の莫大な投資にもかかわらず、既存のアプローチは限定的な条件のもとでしか使用可能でないか、または実際には部分的にしか自律的な挙動を実現できない。その原因は、運転シナリオの十分な数および多様性が欠如していることにある。自律運転機能のトレーニングのためには、運転シナリオからのアノテーションされたセンサデータが必要である。データのアノテーションのための一般的なアプローチは、データエンリッチメントとも称されるが、それぞれの画像の手動でのアノテーションのために多数の人員を使用する。そのため、従来のデータエンリッチメント方法には非常に時間がかかり、エラーが発生しやすく、したがってきわめて高価である。
【0003】
キーフレームのアノテーションおよび補間/外挿を含む半自動のアプローチは、ある程度の(限定された)改善を提供する。こうしたアプローチは図2に概略的に示されており、伝播/外挿を用いて手動でアノテーションされた複数の画像をキーフレームとして選択することを含んでいる。キーフレームを手動で処理した後、これらの間に位置するフレームに対するアノテーションが補間によって生成される。これにより、外挿を使用してさらに関連する対象物を結合させたキーフレーム上の対象物が人間により識別される、この場合、補間プロセスでは、これらの情報(対象物の識別および結合)を使用して、キーフレーム間の全てのフレーム上の同じ対象物に対するアノテーションが生成される。理論的には、キーフレームの間隔を増大させることにより、当該機構の効率を高めることができる。なぜなら、この場合、より多くのアノテーションが自動的に作成されるからである。ただし、キーフレーム間の距離が大きくなると、必要な手動での補正が大幅に増大することになる。例えば非キーフレーム上で短時間しか見られない対象物は、手動での介入によって遮蔽しなければならない。この場合、自動化アプローチは、きわめて迅速にその限界に達する。
【0004】
したがって、従来のアノテーションストラテジでは、小規模から中規模までのデータエンリッチメントプロジェクトにしか着手することができず、また、自律運転機能の検証、データの選択、またはシナリオライブラリ作成などのような他の上位の機能は、膨大な手動の労力とこれに伴うコストとのために実現不可能である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、本発明の課題は、運転シナリオセンサデータのアノテーションのための改善された方法を提供することであり、殊に望ましいのは、人間の介入の必要性が最少となる自動化されたアノテーション方法である。
【課題を解決するための手段】
【0006】
上記の課題は、請求項1記載の運転シナリオセンサデータのアノテーションのための方法、請求項11記載のコンピュータ可読データ担体および請求項12記載のコンピュータシステムによって解決される。有利な発展形態は各従属請求項の対象となっている。
【0007】
すなわち、運転シナリオセンサデータのアノテーションのためのコンピュータ実装方法であって、
・複数の連続するLiDAR点群および/または複数の連続するカメラ画像を含む、センサ-ローデータを受信するステップと、
・1つまたは複数のニューラルネットワークを使用して、カメラ画像の各画像内かつ/または各点群内の対象物を識別するステップであって、ここで、識別される対象物には、好適には対象物クラス、対象物位置、対象物のサイズおよび/または対象物の広がり、特に対象物を含むバウンディングボックスの座標が割り当てられる、ステップと、
・連続する画像内かつ/または連続する点群内の各対象物を相関させるステップと、
・妥当性基準に基づいて偽陽性結果を除去するステップと、
・運転シナリオのアノテーションされたセンサデータをエクスポートするステップと、
を含む、方法が提供される。
【0008】
有利には、対象物識別のためのニューラルネットワークを高度なリコールに合わせて、すなわち、実際に存在している対象物のできるだけ高いパーセンテージでの識別に合わせて、最適化することができる。なぜなら、妥当性基準に基づいてこのような偽陽性結果を後から除去することにより、手動による介入なしに、エラー識別が効果的に最小化されるからである。
【0009】
本発明は、撮影の個別画像内の各対象物の時間相関から導出されるセマンティクス情報を、一連のステップ/技術を用いて効果的に利用することができるという考察に基づいている。ここではまず、好都合には一連の画像を介して追跡されるもしくは相互に相関する対象物の識別が行われる。使用される技術には、さらに、対象物が誤って識別された偽陽性結果の除去、空隙の充填、回帰による対象物サイズおよび対象物位置の最適化、ならびにトラジェクトリの平滑化が含まれる。対象物サイズおよび/または対象物位置の回帰のような幾つかのステップ/技術は、任意選択手段であってよい。
【0010】
本発明は、アノテーションが前もって自動的に行われ、プロジェクトを成功裏に終了させるために行われる品質管理しか必要とならないというパラダイム転換を導入する。ローデータへの自動アノテーション方法の自動的な適用によって、高品質のアノテーションを、
・格段に迅速に(より良好なプロジェクト実行時間で)、
・より少ないコストで(より少ない手動の労力で)、
・一定の品質で、
作成することができる。これとは異なり、従来技術によるアノテーションは、アノテーションの作成に関して僅かな経験しか有さない多数の人員が作業する低賃金国の労働力を基礎としている。このことは通常、重大な品質問題と広範な後処理サイクルとを招き、これによりプロジェクトはさらに遅れ、コストが高くなってしまう。
【0011】
本発明の方法により、品質、一貫性および自動化についての新たな程度、すなわちこれまでのアノテーション方法よりも格段に高いスループットレートが達成される。人間の労働力によっては品質保証のみがカバーされればよく、このことによって大幅なコスト削減がもたらされる。
【0012】
これにより、手動のアノテーションのコストによってこれまで実現不可能であったオーダーでのプロジェクトも、データ選択のような上位の機能も、格段に有意に実行することができる。なぜなら、アノテーションが計算時間だけの問題となり、もはや手動のコストの問題ではなくなるからである。したがって、前もって全てのローデータをアノテーションすることができ、そうすることでアノテーションに基づいて関心対象となるシーンを選択することができる。品質保証のための手動のコストは、後続のステップで、関心対象となるデータのみに適用することができる。
【0013】
本発明の好ましい実施形態では、センサ-ローデータが、少なくとも2つの領域に分割されるLiDAR点群を含み、第1の領域では第1のアーキテクチャのニューラルネットワークが使用され、第2の領域では第1のアーキテクチャとは異なる第2のアーキテクチャのニューラルネットワークが使用される。自動選択によって、使用されるニューラルネットワークを要求に合わせて最適に適応化することができる。
【0014】
本発明の特に好ましい実施形態では、第1の領域はセンサ-ローデータが記録された測定車両のより近い周囲を含む一方、第2の領域は測定車両までの最小距離を有し、好適には、対象物識別のためのニューラルネットワークに対して、第1の領域ではセンターポイントベースのアーキテクチャが使用され、第2の領域ではPointRCNNベースのアーキテクチャが使用される。多くの場合に少数の測定点しか有さない比較的離れた対象物では、PointRCNNアーキテクチャを有するニューラルネットワークにより、適切な寸法を有するバウンディングボックスの生成が可能となる。近接領域では、センターポイントアーキテクチャにおけるニューラルネットワークが、種々の対象物クラス間の良好な区別を可能にする。したがって、手動での補正のコストが最小化される。
【0015】
本発明の好ましい実施形態では、方法がさらに、対象物を相関させることの前に複製を除去することを含み、複製を除去することは、好適には、ニューラルネットワークのオーバーラップ基準および/または信頼度レベルに基づく。2つのバウンディングボックスがきわめて大きなオーバーラップを有している場合には、このことを0.98程度の閾値との比較によって算定し、同じ対象物に関するとすることができる。付加的に、低い信頼度レベルを有する対象物のみが廃棄されるようにすることもできる。信頼度レベルは、特別にトレーニングされたネットワークを用いて算定することができるか、または対象物識別に使用されるネットワークのデータによって近似させることができる。
【0016】
本発明の特に好ましい実施形態では、画像内かつ/または点群内で識別された対象物の複製の除去が行われ、オーバーラップする2つの対象物、すなわち、第1の信頼度レベルで識別された第1の対象物と第1の信頼度レベルよりも低い第2の信頼度レベルで識別された第2の対象物とにつき、オーバーラップ、特にIoU(Intersection-over-Union)が設定された閾値を上回っているかどうかが検査され、上回っている場合には第2の対象物が複製として破棄される。基本的に、廃棄すべき複製を任意に選択することも可能である。
【0017】
本発明の好ましい実施形態では、各対象物を相関させることは、連続するフレーム内、すなわち画像内かつ/または点群内の対象物の結合を含み、各対象物が同じ対象物クラスに属しかつオーバーラップ、特にIoU(Intersection-over-Union)が設定された閾値を上回る場合、第1のフレーム内の対象物が第2のフレーム内の対象物と相関される。LiDARセンサは、また殊にはカメラも、毎秒多数回の測定を実行するので、車両の周囲は一般的に段階的に変化していく。連続する複数のフレームの間の時間相関を考慮することにより、さらなる情報を取得することができ、かつ/または対象物識別の妥当性を検査することができる。
【0018】
本発明の特に好ましい実施形態では、各対象物を相関させることは、ガウス過程還元またはカルマンフィルタを用いて後続の画像上および/または後続の点群上の対象物の位置を予測することおよび/または因子グラフ、すなわち確率分布をファクタリゼーションする2部グラフを用いて連続する画像内の対象物の追跡を行うことを含む。言及した方法は、相関の算定にとって特に好都合である。
【0019】
特に好ましくは、各対象物が相関された後、見落とされた対象物が補正され、ここで、3つ以上の連続するフレームが観察され、第1のフレーム内の対象物が第3のフレーム内の対象物と相関されているが中間に位置するフレーム内では識別されなかった場合、対象物が第2のフレームに挿入される。代替的にもしくは補完的に、より多数の連続するフレームが観察され、これにより、複数のフレームを含むこのような空隙を補填することができることが想定可能となる。見落とされた対象物とは、特に掩蔽または部分的途絶に起因して生じうる。付加基準として、該当する箇所またはその周囲において別の対象物が識別された場合にのみ、2つ以上のフレームから成る空隙が補填されるように設けることができる。特に、別の対象物のバウンディングボックスの観察に基づいて、当該別の対象物が掩蔽を起こす程度に十分に大きいかどうかを算定することができる。
【0020】
本発明の好ましい実施形態では、偽陽性結果を除去するための妥当性基準は、地上高、存在期間および/またはニューラルネットワークの信頼度レベルに基づく。対象物は、設定された分量よりも多くの部分が地表よりも下方で識別された場合、妥当でないとして破棄することができる。さらに、対象物が設定された閾値よりも大きく地面を上回って検出された場合、妥当でないとして破棄することができる。妥当性基準および/または閾値は、対象物クラスに依存して選択することができる。さらに、対象物がきわめて短い存在期間しか有していない場合、つまり、特に1つのフレームにおいて識別されたのみで隣接するフレームにおいては識別されなかった場合には、妥当でないとして破棄される。存在期間を考察する際には、好都合には、生じうる掩蔽を考慮することができる。代替的にもしくは補完的に、妥当でない対象物の破棄をニューラルネットワークの信頼度レベルに依存させて、特に、低い信頼度レベルを有する対象物のみを破棄することもできる。信頼度レベルは、特別にトレーニングされたネットワークを用いて算定することができるか、または対象物識別に使用されるネットワークのデータによって近似させることができる。
【0021】
好ましい実施形態では、方法はさらに、回帰によってカメラデータの各画像内かつ/または各点群内の対象物サイズおよび/または対象物位置を最適化することを含む。対象物識別が既に行われているので、評価を、特に正確なバウンディングボックスの算定に合わせて最適化することができる。
【0022】
好ましい実施形態では、方法はさらに、連続する画像内かつ/または連続する点群内の相関している対象物のサイズを統一することを含み、好適には、相関している対象物のサイズの統一は、対象物クラスに依存して実行されるかまたは中止される。例えば、乗用車または二輪車などの車両では、同一のサイズが存在していなければならない。サイズが統一されることによって、対象物がより自然な作用を呈するようになる。
【0023】
有利には、センサ-ローデータは、LiDAR点群と、同時に撮影されたカメラデータと、を含み、対象物を相関させることは、LiDARセンサとカメラとの相対的な空間的配向を考慮して行われる。このようにして、LiDARセンサの空間情報とカメラのより高い解像度とを最適に利用することができる。
【0024】
好ましい実施形態では、識別された対象物に対し、属性を識別するための少なくとも1つのニューラルネットワークが適用される。好適には、少なくとも1つの属性、特に車両のウインカ状態が、カメラ画像に基づいて算定されてLiDAR点群内の対象物に割り当てられる。少なくとも1つの属性と、識別に使用される1つまたは複数のニューラルネットワークと、は対象物クラスに依存して選択可能である。点群およびカメラ画像の双方が存在している場合、好都合にはセンサフュージョンを行うことができ、ここでは属性識別のためにカメラ画像が利用され、属性は融合された対象物に割り当てられる。
【0025】
本発明はさらに、コンピュータシステムのプロセッサによって実行される際に本発明による方法をコンピュータシステムに実行させるための命令を含む、コンピュータ可読データ担体に関する。
【0026】
さらに本発明は、コンピュータシステムであって、プロセッサと、マンマシンインタフェースと、不揮発性メモリと、を備え、不揮発性メモリは、プロセッサによって実行される際に、コンピュータシステムに本発明による方法を実行させるための命令を含む、コンピュータシステムに関する。
【0027】
プロセッサは、汎用マイクロプロセッサであってよく、この汎用マイクロプロセッサは、通常、ワークステーションコンピュータの中央処理ユニットとして使用されるか、または特定の計算の実行に適した1つまたは複数の処理要素、例えばグラフィックス処理ユニットなどを含むことができる。本発明の代替的な実施形態では、プロセッサは、プログラマブル論理モジュール、例えばフィールドプログラマブルゲートアレイによって置換可能または補完可能であり、このフィールドプログラマブルゲートアレイは、所定回数の演算を実行できるように構成されており、かつ/またはIPコアマイクロプロセッサを含む。
【0028】
本発明を以下に図面に関連して詳細に説明する。図中、同様の部材には同じ参照番号を付してある。図示の実施形態はきわめて概略的に描かれており、つまり間隔ならびに横方向および縦方向の寸法は縮尺通りではなく、特に明記しない限り、その寸法は推定可能な幾何学的相互関係を有していない。
【図面の簡単な説明】
【0029】
図1】コンピュータシステムの例示的な回路図を示す図である。
図2】キーフレームを使用して半自動的にアノテーションされた複数の画像を示す概略図である。
図3】運転シナリオセンサデータのアノテーションのための本発明による方法の実施形態を示す概略的なフローチャートである。
図4】自動的な対象物識別が実行された複数の画像を示す概略図である。
図5】時間相関が算定された複数の画像を示す概略図である。
図6】後続の評価が行われうるトラジェクトリを含む連続する複数の画像を示す概略図である。
図7】本発明による方法を実行する自動化システムの一実施形態を示す図である。
図8】属性検出器を自動的にトレーニングする方法の一実施形態を示す図である。
図9】品質コントロールのための操作面の一実施形態を示す図である。
【発明を実施するための形態】
【0030】
図1には、コンピュータシステムの例示的な一実施形態が示されている。
【0031】
図示の実施形態は、モニタDISとキーボードKEYおよびマウスMOUなどの入力機器とを備えたホストコンピュータPCを含んでいる。
【0032】
ホストコンピュータPCは、1つまたは複数のコアを有する少なくとも1つのプロセッサCPUと、選択可能なアクセスを有する作業メモリRAMと、バスコントローラBCを介してCPUとデータを交換するローカルバス(例えばPCI Express)に接続される複数のデバイスと、を含んでいる。これらのデバイスには、例えば、ディスプレイを制御するためのグラフィックスプロセッサGPU、周辺機器を接続するためのコントローラUSB、ハードディスクもしくはソリッドステートディスクのような不揮発性メモリおよびネットワークインタフェースNCが含まれる。不揮発性メモリは、プロセッサCPUの1つまたは複数のコアによって実行される際に、コンピュータシステムに本発明による方法を実行させるための命令を含むことができる。
【0033】
本発明の一実施形態は図中に示されている雲によって表されており、ここでは、ホストコンピュータが1つまたは複数のサーバを含むことができ、これらのサーバは、プロセッサまたはFPGAのような1つまたは複数の演算要素を含み、かつネットワークを介して表示装置および入力機器を含むクライアントに接続されている。したがって、シミュレーションシナリオを生成するための方法は、部分的または完全に、リモートサーバ上、例えばクラウドコンピューティングセットアップにおいて実行することができる。PCクライアントに代えて、シミュレーション環境のグラフィカルユーザインタフェースを、ポータブルコンピュータデバイス、特にタブレットまたはスマートフォンに表示することができる。
【0034】
図2には、キーフレームを用いて半自動的にアノテーションされる複数の連続する画像が概略的に示されている。
【0035】
第1の画像、第3の画像および第5の画像はそれぞれ(太線のフレームによって示される)キーフレームであるのに対して、第2の画像および第4の画像は(破線のフレームによって示される)中間に位置する画像として処理される。第1のステップ(1.アノテーションする)では、例えば識別された対象物の周囲にバウンディングボックスを引くことにより、第1のキーフレームに対して手動で所望のアノテーションが行われ、かつ例えば対象物クラスなどの別の属性が追加される。第2のステップ(2.外挿する)では、第1のキーフレームでアノテーションされた対象物の第2のキーフレームでの予想位置が算定され、手動で補正される。場合によっては新たに加わった対象物に完全に手動でアノテーションが行われる。第3のステップ(3.外挿する)では、既にアノテーションされた対象物の第3のキーフレームでの予想位置が算定され、手動で補正される。全てのキーフレームがアノテーションされるとただちに、第4のステップ(4.補間する)において、補間により中間に位置するフレーム上の対象物位置が算定され、属性が伝送される。
【0036】
キーフレーム間隔を増大することによる自動化レートの増大は、対象物位置の外挿が、また場合により補間もであるが、もはや十分に正確ではなくなってしまうことにより、手動の補正コストが非常に迅速に増大するため、制限される。
【0037】
同じ対象物のアノテーションを時間軸に関して自動的に相互に相関させる時間相関の導入、ならびにニューラルネットワークを介した対象物識別との組み合わせにより、今日の半自動化の限界を効果的に克服することができる。時間相関は、時間経過において連続する画像が徐々にしか変化しないという事実に基づいている。対象物間の論理的結合は、より高いレベルのセマンティクス情報を抽出するために自動的に識別して利用することができ、これにより、最終的にきわめて高い自動化度をもたらす対象物識別ベースのアプローチが可能となる。
【0038】
図3には、運転シナリオセンサデータのアノテーションのための本発明による方法の実施形態の概略的なフローチャートが示されている。
【0039】
第1のステップS1(対象物を識別する)では、対象物検出のためのニューラルネットワークが使用されて、それぞれの画像またはそれぞれの点群において好適にはできる限り多くの対象物が識別される。
【0040】
図4には、第1のラウンドにおいてニューラルネットワークが一連の対象物を識別した一連の画像が概略的に示されている。例えば、画像は、図示されているように自動車であってよいが、基本的には、様々な対象物タイプまたは対象物クラス、すなわち、車両の他、歩行者、動物および障害物または関心対象となる任意のそれぞれの静的対象物もしくは動的対象物も、1つのクリップもしくは連続する一連の画像の各画像においてかつ/またはLiDAR点群において識別される。
【0041】
好ましい実施形態では、対象物クラスおよび/またはセンサデータの領域に応じて対象物を識別するために、ニューラルネットワークの種々のアーキテクチャが使用される。特に、LiDAR点群における対象物を識別するために、種々の領域においてニューラルネットワークの種々のアーキテクチャを使用することができ、この場合、領域は、好適には測定車両の周囲の近接領域と遠隔領域とに分割される。
【0042】
ここで、好ましくはShaoshuai Shi et al., “PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud”, arXiv:1812.04244v2, 16.05.2019に記載されているpointRCNNをベースとした遠隔領域におけるアーキテクチャが使用される。これは、有意のボックスサイズを提案することに際して特に良好であり、したがって、場合によっては少数の測定点のみから成る遠く離れた対象物にアノテーションすることにも適している。
【0043】
近接領域では、好ましくは、Tianwei Yin et al., “Center-based 3D Object Detection and Tracking”, arXiv:2006.11275v1, 19.06.2020に記載されているセンターポイントベースのニューラルネットワークのアーキテクチャが使用される。このことは、種々の対象物クラス間の区別に良好に適しており、したがって多くの測定点が存在する近接領域においてより良好な結果を提供する。
【0044】
本発明の代替的な実施形態によれば、より良好なカバーのために種々のネットワークアーキテクチャを組み合わせることができる。
【0045】
第2のステップS2(複製を破棄する)では、考察しているフレーム(画像もしくは点群)において使用されている対象物検出器が1つの対象物の周囲に複数のバウンディングボックスを生成してしまったものである複製が除去される。このことは、ニューラルネットワークが通常、対象物を見落とさないようにできる限り高いカバー率で最適化されるため、多くの複製を生じさせることによって発生する。複製の除去または破棄は、1つまたは複数の基準を含むことのできるフィルタリング規則に基づいて行うことができる。
【0046】
ここで、基準は、2つのバウンディングボックス間のオーバーラップ、特にJaccard係数としても知られるIoU(Intersection-over-Union)を考察することができる。2つのボックスのオーバーラップが設定された閾値、特にIoUについて0.98を上回ると、これらは複製と見なされる。設定された閾値は、識別された対象物クラスに依存して選択することもできる。また、基準として、2つのボックスを複製と見なすためには、設定されたオーバーラップの他に同一の対象物クラスが存在していなければならないということも想定可能である。さらに、対象物識別のために使用されるネットワークの信頼度は、フィルタリング規則のための基準として使用することができ、かつ/または対象物クラスと組み合わせた基準において考慮することができる。さらに、複製が識別された場合、消去されるべきボックスの選択を割り当てられた信頼度に基づいて行い、特により低い信頼度を有するボックスを消去するように構成されうる。
【0047】
第3のステップS3(対象物を時間的に相関させる)では、時間相関を確認するために、残りの対象物がそれぞれの時間軸に沿って観察される。このことが図5に概略的に示されており、ここには連続する3つのフレームが示されており、これらのフレームでは、車両が複数のフレームにわたって同一のものとして矢印により示されている。相互に相関する対象物を算定することにより、対象物をチェーンとして結合することができ、次いで、このチェーンにより、さらなる評価と、中間に位置するフレームにおける識別空隙の補填と、が可能となる。
【0048】
対象物の相関は一方向または双方向での結合として行うことができる。第1のラウンドの識別空隙はこうした結合に基づいて橋絡され、これにより、掩蔽された対象物、途絶した対象物および見落とされた対象物を克服することができる。
【0049】
本発明の第1の実施形態では、後続の画像における対象物の位置の推定によって一方向での結合が行われる。対象物識別において、推定された範囲内で所定の妥当性検査(クラスタイプ、車両運動に対するアッカーマンモデル、…)を満たす対象物が見出された場合、これら2つの対象物インスタンスが同じ対象物に属するようにマーキングされる。
【0050】
位置を推定するためのストラテジとして、ガウス過程還元またはカルマンフィルタを使用することができる。ガウス過程還元は、Rohit Tripathy et al., “Gaussian processes with built-in dimensionality reduction: Applications in high-dimensional uncertainty propagation”, arXiv:1602.04550v1, 15.02.2016に記載されている。カルマンフィルタは、統計および制御理論において使用され、線形2乗推定とも称される。カルマンフィルタのアルゴリズムは、時間の経過において観察されて統計ノイズおよび他の不正確性を含む一連の測定を使用し、通常、単一の測定に基づく推定よりも正確な未知の変数の推定を生成する。さらに、位置推定のために、粒子フィルタまたは逐次モンテカルロ法(SMC)を使用することができ、すなわち、信号処理におけるフィルタリング問題を解決しベイズによる統計的推定に使用される、一連のモンテカルロアルゴリズムを使用することができる。既に結合されている対象物のチェーンが長いほど、高精度の位置推定のためにより多くの情報を使用することができる。
【0051】
本発明の第2の実施形態では、代替的に、対象物追跡のために、因子グラフ(関数のファクタリゼーションを表す2部グラフ)を使用することができる。ここでは、画像上の各対象物が、後続の画像上の各対象物と結合される。各結合は、所定の基準に従って重み付けされ、次いで、2つのフレームにわたって、かつ全ての対象物にわたって完全な結合が導出される。重み付け規則は、ヒューリスティックスまたは挙動モデルに基づいて定式化することができる。
【0052】
対象物の相関が連続するフレームで行われるとただちに、当該結合に基づいて、付加的なセマンティクス情報、例えばトラジェクトリ(すなわち時間の関数としての、空間を通る移動において質量点が進む経路)、(時間の関数としての)速度、場所、掩蔽(他の対象物によって時間的に隠されてしまう対象物)および(センサによって検出された領域の縁部での)途絶、ならびに識別エラーに関する情報(先行する画像上および後続の画像上に存在し、したがって中間の識別が失敗でありうる対象物)を導出し、後続の自動化ステップのための入力として使用することができる。
【0053】
第4のステップS4(偽陽性結果を除去する)では、誤って識別された対象物が除去される。偽陽性の対象物を除去するために、複数の規則または基準を使用するかつ/または組み合わせることができる。
【0054】
例えば、地上高を考慮することができ、この場合、部分的に路面下で識別された対象物および/または路面上に浮いているように見える対象物が妥当でないとして破棄される。代替的にもしくは補完的に、車両について移動もしくはトラジェクトリの観察を行うことができ、この場合、加速度または方向変化のような1つまたは複数の量を算定して、設定された限界値と比較することができる。すなわち、所定の車両タイプにとっての通常領域を外れる加速度、または路面に対するタイヤのグリップ限界によって制限されている物理的可能性を外れる加速度は、妥当でない。存在期間も考察することができ、この場合、単一のフレームの内部のみまたは数秒の部分のみに存在していて隣接するフレームには現れない対象物は、妥当でないとされる。ここでは、当該存在期間の算定におけるエラーを回避するために、他の対象物によって生じうる掩蔽も考慮すると好都合である。さらに、補完的に、ニューラルネットワークによって低い信頼度でしか識別されなかった対象物のみを妥当でないとして破棄することも考えられる。
【0055】
偽陽性結果の識別は、時間相関から導出されるセマンティクス情報に強く関連している。現実世界では、対象物が例えば1秒の数分の1の期間しか存在しないことはないはずである。妥当でない対象物を破棄することによって、アノテーションプロジェクトにおいて契約上合意された正確性値および再識別値を達成することができる。
【0056】
第5のステップS5(回帰により対象物のサイズを最適化する)では、それぞれの対象物がニューラルネットワークを介してその完全な位置およびサイズで回帰される。本発明の一実施形態によれば、ボックスサイズの回帰の際に隣接する画像も考慮することができる。代替的にもしくは補完的に(ステップS7として以下に示すように)、識別されたもしくは相関する対象物のボックスサイズを、さらなる後処理ステップにおいて相互に調整することも考えられる。
【0057】
第6のステップS6(空隙を補填する)では、時間的コンテクストに基づき、補間によって空隙が補填される。連続するフレーム内の対象物の相関から付加的なセマンティクス情報を導出することができ、これにより、前景に存在する対象物が一時的に他の対象物を掩蔽する場合、かつ/またはセンサによって検出された領域から対象物がはみ出してしまうクリッピングの場合、または対象物が先行する画像と後続の画像とに存在しているために中間の識別が失敗しうる識別エラーの場合にも、交通利用者のための一貫したトラジェクトリを取得することができる。さらなるセマンティクス情報も時間相関から導出可能であり、後続の自動化ステップまたは後処理ステップのための入力として使用可能である。図6は、さらなる評価のために相関する対象物が選択された一連のフレームを概略的に示している。
【0058】
第7のステップS7(サイズを統一する)では、連続する画像のチェーンおよび/またはLiDAR点群のチェーンにわたってサイズが統一される。このことは、現実的なサイズを達成するために特に重要であり、これにより、対象物がより良好な外観を呈し、人間の観察者にとってより自然に感じられるようになる。連続する画像および/または点群における相関する対象物のサイズの統一は、好適には対象物クラスに依存して実行されるかまたは中止される。特に車両についてはサイズの統一を行うことができる。なぜなら、自動車は、通常、複数のフレームにわたってそのサイズを維持するからである。歩行者はその時点での身体姿勢に応じて種々に想定されるサイズを有しうるので、歩行者の対象物クラスについてはサイズを統一しないほうが有利である。
【0059】
第8のステップS8(物理モデルに基づいてトラジェクトリを平滑化する)では、シーン内の動的な対象物または交通利用者のトラジェクトリが、これらに基づく物理モデルに応じて平滑化される。例えば、自動車の運転挙動を記述するために、慣用の車線モデルを使用することができる。
【0060】
第9のステップS9(属性を算定する)では、属性の識別が実行される。当該ステップには種々のさらなるステップが含まれうる。
【0061】
関連する属性は、その時点のプロジェクトに対して有効なラベル仕様に依存して変化しうるが、ここでは、種々の対象物クラスは多くの場合にそれぞれ異なる属性を有している。つまり、自動車は、例えば、計画している方向変化を表示するウインカと、ブレーキ操作を表示するブレーキライトと、を有する。第9のラウンドまたは第9のステップにおいて、プロジェクトにおける属性の識別は、好適にはセンサフュージョンに基づいて行うことができる。必要に応じて、ウインカ、ブレーキライト、非常灯、または他の記述特性の値が注目の対象となる。2Dカメラ撮影における対象物インスタンスを3D-LiDARスキャンにおける同じ対象物の対象物インスタンスと相関させることができるようにするために、双方のデータセットにおける共通の情報が識別されなければならない。次いで、当該共通のデータ点を使用して、2つのデータセットが相互に融合される。属性を識別するために、マージされたデータセットに対して種々の2Dベースの対象物識別ネットワークが実行可能である。すなわちここでは、特にカメラ画像上の属性が算定されて、LiDAR点群内の対象物に割り当て可能となる。
【0062】
アノテーションされたセンサデータは、例えば運転シナリオの抽出(Scenario Extraction)またはパーセプションネットワークのトレーニングなどの種々の目的のために使用することができ、このために、アノテーションされたもしくは増強されたデータがグラウンドトゥルースとして必要となる(データエンリッチメント)。ここでは、自動化目標に応じて、上述したステップの順序および個別の構成の双方を適応化することができ、これにより、上述したステップのうちの幾つかは任意選択となり、すなわち実行されてもまたは省略されてもよく、さらに、データのさらなる増強のために必要に応じて付加的なステップを追加することもできる。
【0063】
例えばシナリオの抽出のために、
1.対象物を識別するステップ(ステップS1)、
2.時間相関に基づいて追跡を行うステップ(ステップS3)、
3.偽陽性結果を識別/除外するステップ(ステップS4)、
4.回帰を行うステップ(ステップS5)、
5.サイズを統一するステップ(ステップS7)、
6.トラジェクトリを平滑化するステップ(ステップS8)、
を実行することができる。
【0064】
例えばデータの選択のために、
1.対象物を識別するステップ、
2.時間相関に基づいて追跡を行うステップ、
3.偽陽性を識別/除外するステップ、
を実行することができる。
【0065】
代替的に、例えばデータの増強のために、
1.対象物を識別するステップ(ステップS1)、
2.時間相関に基づいて追跡を行うステップ(ステップS3)、
3.偽陽性結果を識別/除外するステップ(ステップS4)、
4.位置およびサイズの回帰を行うステップ(ステップS5を参照)、
5.サイズを統一するステップ(ステップS7)、
6.位置のみの回帰を行うステップ(ステップS5を参照)、
7.属性、例えばウインカ、ブレーキライトと他の記述特性とを識別するステップ(ステップS9)、
を実行することができる。
【0066】
好適には、種々のステップを実行するためのアルゴリズムは、共通の1つのインタフェースもしくはAPIのみで十分となるように構築されているので、相互にかつ所定の順序で交換可能であり、これにより、種々の目標結果を達成するために、各ステップをそれぞれ異なる形式で組み合わせることができる。
【0067】
図7には、本発明の方法を実行する自動化システムの一実施形態が示されている。自動化システムは、専用のコンポーネント内に種々の補完的ステップを実装しており、クラウドコンピューティング環境内での実行に良好に適している。
【0068】
データ前処理の第1のステップでは、例えば分類されない可能性のあるセンサ-ローデータが受信される。センサ-ローデータは、LiDAR点群および/または1つまたは複数カメラの画像などの環境センサからのデータ、ならびにGPS受信機および/または車輪回転数センサ、加速度センサもしくはヨーレートセンサなどの1つまたは複数の車両センサからのデータを含むことができる。データは正規化することができ、例えば個々のフレームに分割するかつ/またはより多くのパケットにまとめることができ、均一な処理を可能にすることができる。また、種々のセンサで同時に記録されたデータの統合を行うこともできる。
【0069】
自動化エンジンの第2のステップでは、少なくとも1つの自動化コンポーネントのフレームのパケットが処理される。自動化コンポーネントは、アノテーションシステムのワークフローの中心的なモジュールである。自動化コンポーネントは、特に、データセットからの教師あり学習、半教師あり学習もしくは教師なし学習を行うニューラルネットワークまたは機械学習をベースとした別の技術であってよい。自動化コンポーネントは、本発明による方法の個々のステップまたは個々のサブステップを実装することができる。幾つかのステップ、例えば属性を識別するステップ(S9)では、それぞれの属性を識別するための種々のニューラルネットワークのような複数の自動化コンポーネントを使用することができる。
【0070】
品質コントロールの第3のステップでは、好適にはフレームのランダムサンプルが選択され、人間によって検査される。この場合、人間の品質検査者に対し、例えばカメラ画像および/またはLiDAR点群を対応するアノテーション(例えばバウンディングボックス)と共に示すことができ、また、当該バウンディングボックスが正しいかどうかを問い合わせることができる。これに代えて、ニューラルネットワークが対象物を見落とした場合、境界フレームを適応化するための、かつ/または境界フレームを追加するためのユーザインタフェースを品質検査者に示すこともできる。自動化システムは、品質検査者の入力を受信する。図9には、ユーザインタフェースの可能な一実施形態が示されている。
【0071】
品質検査が成功裏に終了した場合、アノテーションされたデータをエクスポートすることができる。顧客検査の第4のステップでは、アノテーションが顧客の仕様および所望のアノテーション品質に対応することを保証するために、顧客がエクスポートされたフレームのランダムサンプルを検査することができる。顧客がアノテーションを却下した場合、アノテーションされたデータのパケットは補正ステップにおいて手動で補正される。
【0072】
補正の第5のステップでは、クレーム対象となったパケットへの手動でのアノテーションが行われる。新たな品質コントロールおよび顧客検査が成功裏に終了した後、アノテーションされたフレームをトレーニングデータセット/検証データセットまたはテストデータセットとして使用することができる。これらのデータセットは1つの円筒形によってシンボリックに示されており、新規のトレーニングまたは補完的なトレーニングに使用することができる。
【0073】
第6のステップである「フライホイール(Flywheel)」では、トレーニングデータセットに基づいて、1つまたは複数のニューラルネットワークもしくは自動化コンポーネントが新たにトレーニングされる。対応するテストデータセットによるテストが成功裏に終了した後、改善されたニューラルネットワークを取り出すことができるか、または自動化エンジンにおいて使用することができる。
【0074】
図8には、属性検出器を自動的にトレーニングするための「フライホイール」方法の例示的な実施形態が示されている。
【0075】
フライホイールは、トレーニングセットの変更のための予め定められた閾値もしくは自動的に算定された閾値が識別されるとただちに、各自動化コンポーネントのためのトレーニングセットを効率的に記憶し、トレーニングセットの変更を監視し、かつ新たなトレーニングを自動的にトリガする技術を含む。さらに、フライホイールは、新たにトレーニングされたモデルを自動化コンポーネントにおいて自動的にロールアウトする技術を含む。
【0076】
どの属性を識別しなければならないかは、各アノテーションプロジェクトのラベル仕様に記載されている。乗用車のクラスの対象物については、例えばウインカの状態、移動状態および場合により存在する掩蔽物が属性と称される。基本的に、対象物は、それぞれの対象物クラスのために挙げられている複数の属性を有することができる。
【0077】
好適には、属性に対して、それぞれ、既存のデータセットに基づいて事前にトレーニングされたニューラルネットワークが属性検出器として使用される。検査された新たなデータセットが存在することで、少なくとも1つの属性検出器が新たにトレーニングされ、これにより、属性検出器は、アノテーションプロジェクトの経過全体にわたって改善された性能を有し、手動でのコストが低減される。
【0078】
図9には、品質コントロールのためのユーザインタフェースの一実施形態が示されている。
【0079】
左側には、LiDAR点群の抜粋が示されており、ここではその前進方向および地面の(円としての)示唆を有するバウンディングボックスが示されている。中央には、同時に撮影されたカメラ画像の抜粋が示されており、このカメラ画像にも同様にバウンディングボックスが書き込まれている。右側には、バウンディングボックスに含まれる対象物の種々の属性を選択するまたは入力することのできる選択リストが示されている。例えば、ここでは、車両(Vehicle)が静止しており(static)、この車両ではウインカは出されていない(Left/Right Blinker off)。また、操作面が(ここでは図示されていない)ボタンを含むように設けることもできる。当該ボタンにより、品質問題を申し立てるためのさらなるウィンドウが開かれる。例えばここではバウンディングボックスの次元が合致していない。なぜなら、車両のコーナー部がボックスの外側に位置しているからである。このような操作面が品質コントロールを簡単にし、これに必要な時間を低減する。
【0080】
本発明による方法は、連続するフレーム間の時間相関を利用して、妥当性を有する対象物識別と矛盾のないサイズとを算定し、これにより大量のデータのアノテーションも可能にする。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】