(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-02-10
(45)【発行日】2023-02-20
(54)【発明の名称】自律走行のための3次元多重客体検出装置及び方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20230213BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2021198447
(22)【出願日】2021-12-07
【審査請求日】2021-12-07
(31)【優先権主張番号】10-2021-0108154
(32)【優先日】2021-08-17
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】520493430
【氏名又は名称】忠北大学校産学協力団
【氏名又は名称原語表記】CHUNGBUK NATIONAL UNIVERSITY INDUSTRY-ACADEMIC COOPERATION FOUNDATION
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】キム、 ゴン ウー
(72)【発明者】
【氏名】ロク ホアン ユィ
【審査官】片岡 利延
(56)【参考文献】
【文献】特開2021-082296(JP,A)
【文献】国際公開第2020/253121(WO,A1)
【文献】特開2020-042009(JP,A)
【文献】特表2019-532433(JP,A)
【文献】特開2017-166971(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
ライダーセンサを用いて3次元多重客体を検出するための
3次元多重客体検出装置であって、
ライダーセンサから未処理の点群データの入力を受信するためのデータ入力モジュールと、
前記未処理の点群データからBEV(Bird’s Eye View)イメージを生成するためのBEVイメージ生成モジュールと、
BEVイメージから細分化した特徴イメージを抽出するためのディープラーニング(deep learning)アルゴリズムベースの学習を実行する学習モジュールと、
前記細分化した特徴イメージから3次元客体を検出するための3D候補ボックスとそれに対応するクラスを見つけるための回帰(regression)作業とローカリゼーション(localization)作業を行うローカリゼーションモジュールと、
を含
み、
前記BEVイメージ生成モジュールは、前記未処理の点群データが分割された同じ形状の複数の3次元セルごとに、前記3次元セルにおける高さが最大の点の高さ、前記3次元セルにおける点の密度、前記3次元セルにおける前記高さが最大の点の反射率に対応する強度、及び前記3次元セルにおける原点から最も遠い点までの距離のそれぞれについてエンコーディングした前記複数の3次元セルそれぞれの4つの特徴データを含む2次元の特徴マップである前記BEVイメージを生成する、3次元多重客体検出装置。
【請求項2】
BEVイメージ生成モジュールは、3Dの未処理の点群データを2D擬似(pseudo)イメージに投影して離散化する方式でBEVイメージを生成することを特徴とする、
請求項1に記載の
3次元多重客体検出装置。
【請求項3】
前記学習モジュールは、CNN(Convolutional Neural Network)ベースの学習を行うことを特徴とする、
請求項
1に記載の
3次元多重客体検出装置。
【請求項4】
ライダーセンサを用いて3次元多重客体を検出するための
3次元多重客体検出装置における
3次元多重客体検出方法であって、
ライダーセンサから未処理の点群データの入力を受けるためのデータ入力ステップと、
前記未処理の点群データからBEV(Bird ’s Eye View)イメージを生成するためのBEVイメージ生成ステップと、
前記BEVイメージから細分化した特徴イメージを抽出するためにディープラーニング(deep learning)アルゴリズムベースの学習を実行する学習ステップと、
前記細分化した特徴イメージから3次元客体を検出するための3D候補ボックスとそれに対応するクラスを見つけるための回帰(regression)作業とローカリゼーション(localization)作業を行うローカリゼーションステップと、
を含
み、
前記BEVイメージ生成ステップにおいて、前記未処理の点群データが分割された同じ形状の複数の3次元セルごとに、前記3次元セルにおける高さが最大の点の高さ、前記3次元セルにおける点の密度、前記3次元セルにおける前記高さが最大の点の反射率に対応する強度、及び前記3次元セルにおける原点から最も遠い点までの距離のそれぞれについてエンコーディングした前記複数の3次元セルそれぞれの4つの特徴データを含む2次元の特徴マップである前記BEVイメージを生成する、3次元多重客体検出方法。
【請求項5】
前記BEVイメージ生成ステップで、3Dの未処理の点群データを2D擬似(pseudo)イメージに投影して離散化する方式でBEVイメージを生成することを特徴とする、
請求項
4に記載の
3次元多重客体検出方法。
【請求項6】
前記学習ステップでCNN(Convolutional Neural Network)ベースの学習を行うことを特徴とする、
請求項
4に記載の
3次元多重客体検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は多重客体検出装置に関し、より詳しくは自律走行のための効率的かつ簡潔な単一階層3次元多重客体検出装置に関する。
【背景技術】
【0002】
無人車両の自律走行のためには、前方の動的物体を感知して物体の動的な動きを推定した後、自律走行経路を生成しなければならない。現在、レーダー、カメラなどを用いた動的物体探知追跡技法に多くの研究が進められており、最近、レーザスキャナの価格下落に支えられ、一般の自動車メーカーもドライバ補助システム(driver-assistance system)搭載が大衆化している。
【0003】
レーザスキャナを用いた移動物体探知を行うためには、各レーザポインタを深さ値に換算して搭載車両の周囲に対する点群(Point cloud)を生成する。生成した点群で、それぞれの点は何の意味も持たないため、移動物体探知追跡のためには、まずクラスタリング技法を介して点をまとめて1つの物体として表現する。
【0004】
このように、自律走行での環境認識は必須であり、複雑な都市シナリオのような複雑な環境では堅牢性を必要とする。
【0005】
運転者が管理できるすべての道路及び環境条件ですべての運転業務を実行できる自動化した走行システムは、国際SAE(Society of Automotive Engineers)で最高レベルの自動化に分類される。ADA(Advanced Driving Assists)は商業的に利用可能であるが、人間の介入が必要であったり特定の環境条件下で動作する場合もある。このような自律性の実現は、多重客体認識及び追跡(Multiple Object Detection and Tracking、MODT)などのような関連の研究分野に対して巨大な要求事項を提示し、周囲の環境で共存するエンティティの動的特性を理解することが、全般的な自動化を向上させるために重要である。これは、ローカライゼーション(localization)、マッピング(mapping)、及びモーションプランニング(motion planning)の品質に直接影響する。
【0006】
過去10年の間、カメラに対する認識を通じて数多くのMODTアプローチが伝統的に研究されてきており、それについての詳細な検討がなされてきた。これによると、物体は、2D座標系またはステレオ設定の3D座標系にて、カメラ基準フレームに感知され、それぞれ2Dまたは3D軌跡を生成する。しかし、不正確なカメラ幾何学を用いて空間情報が算出され、FOV(Field of view)は制限的である。さらに、カメラベースのアプローチは、客体の切断、照明条件、高速ターゲット、センサーモーション、及びターゲット間の相互作用を含んで多様な問題に直面している。
【0007】
自律走行で、3D客体座標は位置の精度と堅牢性を有さなければならず、ほとんどの客体検出装置は自律車両に組み込まれて動作する。この制約を満たすために、完全自律走行組込みシステムの文脈で効率的かつコンパクトな3D感知フレームワークが必要である。したがって、点群で小型3D物体を感知する場合、組込みシステムに優しい自律走行システムを具現することが重要である。
【0008】
近年、広いパノラマ背景情報を提供するライダー(Light Detector and Ranging、LiDAR)技術が代替技術としてますます普及している。ライダーは、10~15Hzの合理的な速度で最大100mに至る広いパノラミック測定を提供するため、MODT作業に理想的なセンサである。
【0009】
多様なセンサの中で、ライダーは3D客体検出作業に理想的なセンサとして使用されており、多くのモバイルロボットアプリケーション、特に自律走行でロボットビジョンにユビキタスな3D点群を提供する。さらに、ライダーは、視覚情報とは異なり、3D現実世界の不均一なサンプリング、有効動作範囲、閉塞、ノイズ、及び視覚センサで制限されるすべての天候に対する相対ポーズなどの要因によって非常にまれな点密度分布を提供する。
【先行技術文献】
【特許文献】
【0010】
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、前記のような問題を解決するために案出されたものであり、点群プロジェクション方法とアンカーフリー方法を用いて、性能面で既存の点群プロジェクション方法より向上した小さくて効率的な3D客体検出装置フレームワークを提供することをその目的とする。
【0012】
本発明の目的は、上で述べた目的に限定されず、言及していない他の目的は、下の記載から通常の技術者に明確に理解できるであろう。
【課題を解決するための手段】
【0013】
このような目的を達成するための本発明は、ライダーセンサを用いて3次元多重客体を検出するための単一階層3次元多重客体検出装置であって、ライダーセンサから未処理の(raw)点群データを受信するためのデータ入力モジュール、前記未処理の点群データからBEV(Bird’s Eye View)イメージを生成するためのBEVイメージ生成モジュール、前記BEVイメージから細分化した特徴イメージを抽出するためのディープラーニング(deep learning)アルゴリズムベースの学習を実行する学習モジュール、及び、前記細分化した特徴イメージから3次元客体を検出するための3D候補ボックスとそれに対応するクラスを見つけるための回帰(regression)作業とローカリゼーション(localization)作業を行うローカリゼーションモジュールを含む。
【0014】
前記BEVイメージ生成モジュールは、3Dの未処理の点群データを2D擬似(pseudo)イメージに投影して離散化する方式でBEVイメージを生成することができる。
【0015】
前記BEVイメージ生成モジュールは、3Dの未処理の点群データをエンコーディングして、高さ、密度、強度及び距離の4つの特徴マップイメージを生成することができる。
【0016】
前記学習モジュールは、CNN(Convolutional Neural Network)ベースの学習を実行する。
【0017】
本発明のライダーセンサを用いて3次元多重客体を検出するための単一階層3次元多重客体検出装置における単一階層3次元多重客体検出方法において、ライダーセンサから未処理の点群データの入力を受けるためのデータ入力ステップ、前記未処理の点群データからBED(Bird’s Eye View)イメージを生成するためのBEVイメージ生成ステップ、前記BEVイメージから細分化した特徴イメージを抽出するためのディープラーニングアルゴリズムベースの学習を実行する学習ステップ、及び、前記細分化した特徴イメージから3次元客体を検出するための3D候補ボックスと、それに対応するクラスを見つけるための回帰(regression)作業とローカリゼーション(localization)作業を実行するローカリゼーションステップを含む。
【0018】
前記BEVイメージ生成ステップで、3Dの未処理の点群データを2D擬似イメージに投影して離散化する方式でBEVイメージを生成することができる。
【0019】
前記BEVイメージ生成ステップで、3Dの未処理の点群データをエンコーディングし、高さ、密度、強度及び距離の4つの特徴マップイメージを生成することができる。
【0020】
前記学習ステップでCNN(Convolutional Neural Network)ベースの学習を行うことができる。
【発明の効果】
【0021】
本発明によると、自律走行のための強力なリアルタイム3次元多重物体検出装置を提案することにより、非常に速い推論速度を維持しながら3D物体検知作業の精度を向上させることができる効果がある。
【図面の簡単な説明】
【0022】
【
図1】本発明の一実施例に係る3次元多重客体検出装置の内部構成を示すブロック図である。
【
図2】本発明の一実施例に係る3次元多重客体検出方法を示すフローチャートである。
【
図3】本発明の一実施例に係る3次元多重客体検出装置の全体フレームワークを示す。
【
図4】BEV(Bird’s Eye View)特徴マップ生成の詳細構造を示す。
【
図5】トレーニングデータセットサンプルにおける関心領域の平均点群分布を示すグラフである。
【
図6】本発明の一実施例に係る3次元多重客体検出装置の詳細なCNNアーキテクチャ(architecture)を示す。
【発明を実施するための形態】
【0023】
本明細書に開示した実施例の利点及び特徴、そしてそれらを達成する方法は、添付の図面と共に後述する実施例を参照すると明らかになるであろう。しかし、本開示で提案しようとする実施例は、下で開示する実施例に限定されるものではなく、互いに異なる多様な形態で具現することができ、単に本実施例は、当技術分野にて通常の知識を有する者に実施例の範疇を完全に知らせるために提供するものにすぎない。
【0024】
本明細書で使用する用語について簡略に説明し、開示した実施例について具体的に説明する。
【0025】
本明細書で使用する用語は、開示した実施例の機能を考慮しながら可能な限り現在広く用いられる一般的な用語を選択したが、これは関連分野に従事する技術者の意図または判例、新しい技術の出現などに応じて変わり得る。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する明細書の詳細な説明部分に詳しくその意味を記載する。したがって、本開示で用いられる用語は、単純な用語の名称ではなく、その用語が有する意味と本明細書の全体にわたる内容に基づいて定義されるべきである。
【0026】
本明細書における単数の表現は、文脈上明らかに単数であると特定しない限り、複数の表現を含む。
【0027】
明細書全体にて、ある部分がある構成要素を「含む」と言うとき、これは、特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含み得ることを意味する。さらに、本明細書で使用する「部」という用語は、ソフトウェア、FPGA、またはASICなどのようなハードウェア構成要素を意味し、「部」は任意の役割を果たす。しかしながら、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシング可能な記憶媒体にあるように構成してもよく、1つ、又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「部」は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素、及びタスク構成要素などのような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数を含む。構成要素及び「部」内で提供される機能は、より少ない数の構成要素及び「部」に結合したり、追加的な構成要素と「部」にさらに分離したりすることができる。
【0028】
なお、添付図面を参照して説明するにあたり、図面符号にかかわらず、同一の構成要素には同一の参照符号を付し、これについての重複する説明は省く。本発明を説明するにあたり、関連する公知技術についての具体的な説明が本発明の要旨を不必要に曖昧すると判断した場合、その詳しい説明は省く。
【0029】
本発明は、ライダーセンサを用いて3次元多重客体を検出するための単一階層3次元多重客体検出装置及び方法に関する。
【0030】
図1は、本発明の一実施例に係る3次元多重客体検出装置の内部構成を示すブロック図である。
【0031】
図1を参照すると、本発明の3次元多重客体検出装置100は、データ入力モジュール110、BEVイメージ生成モジュール120、学習モジュール130、及びローカリゼーションモジュール140を含む。
【0032】
データ入力モジュール110は、ライダーセンサから未処理の(raw)点群データの入力を受ける。
【0033】
BEVイメージ生成モジュール120は、未処理の点群データからBEV(Bird’s Eye View、俯瞰図)イメージを生成する。
【0034】
学習モジュール130は、BEVイメージから細分化した特徴イメージを抽出するためにディープラーニング(deep learning)アルゴリズムベースの学習を実行する。
【0035】
本発明の一実施例では、学習モジュール130は、CNN(Convolutional Neural Network)ベースの学習を実行することができる。
【0036】
ローカリゼーションモジュール140は、細分化した特徴イメージから3次元客体を検出するための3D候補ボックスと、それに対応するクラスを見つけるための回帰(regression)動作とローカリゼーション(localization)作業を実行する。
【0037】
BEVイメージ生成モジュール120は、3Dの未処理の点群データを2D擬似(pseudo)イメージに投影して離散化する方式でBEVイメージを生成することができる。
【0038】
BEVイメージ生成モジュール120は、3Dの未処理の点群データをエンコーディングし、高さ、密度、強度及び距離の4つの特徴マップイメージを生成することができる。
【0039】
図2は、本発明の一実施例に係る3次元多重客体検出方法を示すフローチャートである。
【0040】
図2を参照すると、3次元多重客体検出方法は、ライダーセンサから未処理の点群データの入力を受けるためのデータ入力ステップS110、未処理の点群データからBEV(Bird’s Eye View)イメージを生成するためのBEVイメージ生成ステップS120、BEVイメージから細分化した特徴イメージを抽出するためのディープラーニング(deep learning)アルゴリズムベースの学習を実行する学習ステップS130、及び、細分化した特徴イメージから3次元客体を検出するための3D候補ボックスとそれに対応するクラスを見つけるための回帰(regression)作業とローカリゼーション(localization)作業を実行するローカリゼーションステップS140を含む。
【0041】
BEVイメージ生成ステップS120では、3Dの未処理の点群データを2D擬似(pseudo)イメージに投影して離散化する方式でBEVイメージを生成することができる。
【0042】
BEVイメージ生成ステップS120では、3Dの未処理の点群データをエンコーディングし、高さ、密度、強度及び距離の4つの特徴マップ(feature map)イメージを生成することができる。
【0043】
学習ステップS130では、CNN(Convolutional Neural Network)ベースの学習を行うことができる。
【0044】
本発明は、リアルタイムかつ安全なシステムのために効率的かつ簡潔な単一階層3D多重客体検出装置を提案する。まず、ライダー(LiDAR)センサーデータの簡潔な2D表現を活用し、学習作業に対する細分化した機能を抽出するために適したCNN(Convolutional Neural Network)方式が導入される。本発明は、3Dバウンディングボックス(bounding box)の位置だけでなく、ヘディング角度(heading angle)も推定する。
【0045】
本発明での、簡潔な(compact)入力生成、適切なCNNアーキテクチャ、及び最終3D客体候補をローカライズ(localization)を行うための学習及び推論部分戦略を説明する。
【0046】
図3は、本発明の一実施例に係る3次元多重客体検出装置の全体フレームワークを示す。
【0047】
図3を参照すると、本発明の単一階層3次元多重客体装置の全体フレームワーク(framework)は、ライダー(LiDAR)センサから未処理の点群データを受信し(a)、圧縮方式で未処理の点群データから4つの特徴イメージを含むBEV(Bird’s Eye View)擬似(pseudo)イメージを生成し(b)、多重ヘッドを有する学習タスクのための微細特徴イメージを抽出するCNNベースの学習を行い(c)、3D候補ボックス及びそれに対応するクラスを見つけるための回帰(regression)及びローカライゼーション(localization)を行うことを含んでいる。
【0048】
BEV(Bird’s Eye View)の生成について説明すると、次の通りである。
【0049】
図4は、BEV(Bird’s Eye View)特徴マップ生成の詳細構造を示す。
【0050】
図4を参照すると、本発明の3次元多重客体検出装置は、高さ特徴(Height feature)、強度特徴(Intensity feature)、密度特徴(Density feature)、及び距離特徴(Distance feature)を含む4つのコンパクトな特徴マップを抽出する。
【0051】
一般的に、未処理の(raw)3Dライダー点群データは、標準方式のボクセル(voxel)表現と3Dグリッドセル(grid cells)にエンコーディングし、ここで特徴を抽出するために3DCNNが用いられる。しかし、ほとんどの3D空間は希薄か空であるため、このような方法は最適化したアプローチ方式と見なされず、時間とハードウェアの両方が非効率的である。別の方法では、原始3Dライダー点群データはFV(Front View)表現でエンコーディングされる。ただし、この方法は簡潔であるが、客体の折り重ねの問題を除去することができない。
【0052】
ライダーセンサは、3Dの点位置(x、y、z)とすべての点の反射率値rを提供し、毎秒数千から数百万の点を取得する。
【0053】
本発明では、新規で簡潔なBEVの生成を提案し、未処理の3D点群データを2D擬似(pseudo)イメージに投影して離散化する。これは時間効率的な事前処理方式と見なされ、客体の物理的形状が明示的に維持される。
【0054】
3D環境の全体照射空間(investigated space)でライダー(LiDAR)スキャナで取得したL×W×Hは、単一の高さ、密度、強度、及び距離特徴マップ(feature map)にエンコードされる。
【0055】
高さ特徴(feature)の各セル値は、セル内の点高さのうちの最大高さで計算される。それから、正規化ステップを適用して正規化した高さ特徴マップを取得する。
【0056】
密度特徴は、3D現実世界で多様な点群分布と共にセル内の点密度を表す。下記の式を使用して密度特性を正規化する。ここで、Qはセル内の点の量である。
【0057】
【0058】
強度特性(intensity feature)では、ライダー(LiDAR)強度が記録され、[0,1]間の物体表面値を反映するレーザビームの戻り強度が記録される。本発明における強度特徴は、基準セルで最大高さを有する点の未処理の(raw)反射率値である。
【0059】
ほとんどのセルは希少または空であり、特に遠距離の場合はトレーニングデータセットを調べた結果、ほぼ97%の点群がX方向に沿って一番目の[0,30m]の範囲に位置することを確認した。トレーニングデータセットの距離による点群分布は
図5に明確に示す。
【0060】
図5は、トレーニングデータセットのサンプルにおける距離による関心領域の平均点群分布を示すグラフである。
【0061】
図5を参照すると、物理的に点群分布は、ライダースキャン角度とシーンシナリオとの間の差に基づいている。近距離ではビーム角度が小さくてライダーセンサが多くの点を獲得したのに対し、長距離ではビーム角度がより大きくて少ない数の点を得る。本発明で、BEV表現を強化する距離情報を補完するために、この距離特徴マップを提案する。距離特徴は、学習作業以外にも、モデルが範囲別の点群分布を学習するのに役立つ。各セルの正規化した距離特性D
i_normは、次の式によって計算される。
【0062】
【0063】
ここで、DO→Piはライダー原点(0,0,1.73m)と現在点Piとの間の距離であり、Dmaxは調査領域(investigated area)Ψ内で最も遠い点Pmaxまでのライダー原点であり、(xPi,yPi,zPi)及び(xmax,ymax,zmax)はそれぞれ点Pi及びPmaxの位置である。
【0064】
本発明は高速で効率的な3D多重客体検出装置に関し、本発明で提案したネットワークアーキテクチャはライダー点群の2D表現を強力に活用して学習し、密集した2DBEV擬似イメージの中で客体を感知して分類しなければならない。トレーニングデータセットの3D客体及び当該ラベルのエンコーディングと関連し、ネットワークは予め定義した客体アンカーに追加で依存せずに、直接抽出及びエンコードするか、または1番目の層から2番目の層に伝達された地域提案を調整する。全体ネットワークアーキテクチャが
図6に示されている。
【0065】
本発明で提案したネットワークアーキテクチャは、2つのサブネットワークに分けることができる。
【0066】
第一に、バックボーン(backbone)ネットワークは、未処理の(raw)BEV表現で一般情報を畳み込み特徴マップの形で回収するために使用し、コンパクトで強力な機能表現を学習して活用するための高い表現能力を有する。
【0067】
第二に、ヘッダー(header)ネットワークはバックボーンネットワークの最後のブロックであり、作業別予測を学習するように設計する。このネットワークには、客体中心点(x,y)、オフセット情報(Δx,Δy)、拡張Z座標(z)、客体サイズ(l,w,h)、客体回転角度(yaw)を含む5つの下位作業(sub-task)がある。
【0068】
本発明にて図面を参照してバックボーンネットワークとヘッダーネットワークについて詳しく説明すると、下の通りである。
【0069】
図6は、本発明の一実施例に係る3次元多重客体検出装置の詳しいCNNアーキテクチャ(architecture)を示す。
【0070】
図6を参照すると、本発明の3次元多重客体検出装置のCNNアーキテクチャの全体ネットワークは2つの主要部分に分かれる。
【0071】
1つ目はバックボーン(Backbone)ネットワークとして、次の3つのサブモジュール(a、b、c)で構成される。
【0072】
a)修正したResNetブロックモジュール(Res_Block)として、カーネル(kernel)、ダウンサンプリング比(down-sampling ratio)及び繰り返し量(quantity of repetition)を示す。
【0073】
b)各スケールのアップサンプリング(up-sampling)ブロックを示すモジュール(US_Block)である。
【0074】
c)ダウンサンプリングモジュール(DS_Block)。
【0075】
2つ目は、ヘッドモジュール(Head)を含むヘッダー(Header)ネットワークである。ここで、ヘッドモジュールは、学習タスクのための客体中心(Object Center)、オフセット(offset)、Z次元(Z dimension)、3D客体サイズ(3D Size)、及び回転角(Rotation angle)の5つの特徴を活用する役割をする。
【0076】
ディープラーニングベースの客体感知作業で、CNNは入力情報を畳み込み特徴マップの形で抽出しなければならない。学習作業のために、高解像度には少ないレイヤーを使用し、低解像度にはより多くのレイヤーを使用する基準に基づいて小さくて強力なバックボーンアーキテクチャを設計する。
【0077】
図6の実施例で具体的に提案したネットワークのブロックは合わせて10個である。
【0078】
1番目のブロックは、チャネル番号64、カーネル7、ストライド3、ダウンサンプリング係数2を有する畳み込みレイヤ(convolution layer)である。
【0079】
2番目ないし5番目のブロックは、スキップ(skip)接続数がそれぞれ3、8、8、3であるすべてのブロックに対してダウンサンプリング(down-sampling)ファクタ(factor)が2である修正したレジデュアルレイヤ(residual layer)で構成する。
【0080】
1番目のブロックから5番目のブロックまでの総ダウンサンプリングファクターは32である。
【0081】
6番目のブロックないし8番目のブロックはトップダウン(top-down)アップサンプリング(up-sampling)ブロックであり、最後の2つのブロックはボトムアップ(bottom-up)ダウンサンプリング(down-sampling)ブロックである。そして、最後の3つのブロックがヘッダーネットワークの入力に供給するように選択される。
【0082】
ヘッダーネットワークは、分類及び3D客体のローカリゼーションのすべてを処理する多重特定作業を学習するために小さくて効率的に設計する。ヘッダーネットワークには、下記(1)のクラスに該当する客体中心点、下記(2)のオフセット情報、下記(3)の拡張座標、下記(4)の客体サイズ、及び、下記(5)の客体の回転角ファクターを含む5つの下位作業がある。
【0083】
【0084】
ここで、本発明の推論段階にて、[-π、π]の範囲内で客体回転角を下記の式で容易にデコーディングすることができる。
【0085】
【0086】
最終予測結果は、以前定義したしきい値よりも高い値に設定したすべての選択した下記(1)の中心点に対して下記(2)で構成される。
【0087】
【0088】
本発明における学習及び推論過程は、コンパクトかつ効率的であり、安全な組込みシステムに向くように具現され、これについて説明する。
【0089】
本発明の一実施例に係るアンカーフリー(anchor-free)単一階層3D多重客体検出装置は、各候補について合計5つのヘッドを予測するが、キーポイントヒートマップヘッド、ローカルオフセットヘッド、客体方向ヘッド、Z軸位置ヘッド及び3D個体寸法ヘッドがそれである。このようなヘッドは、推論の段階から最終候補を生成するために必要である。
【0090】
中心回帰はCNNアーキテクチャを通過した後に中心点を出力し、各点は1つの客体範疇に該当する。中央ヒートマップの形状は下記で定義する。ここで、Sはダウンサンプリング比率であり、Cは予測されたクラスの数を表す。
【0091】
【0092】
キーポイントヒートマップHは要素Rに分かれ、BEVで客体中心がどこにあるかを見つけるために使用される。下記(1)は検出した中心点であり、下記(2)はバックグラウンドである。
【0093】
【0094】
オフセット回帰の主な役割は、予測した客体中心点の精度を強化し、BEV生成プロセスで量子化誤差を緩和するものである。このために、オフセット回帰を適用してすべての中心点に対する下記のオフセット特徴マップを予測する。そして、オフセットの学習対象としてL1損失を選択する。
【0095】
【0096】
安全のために、3次元客体の位置だけでなく進行角度も正確に予測しなければならない。Z軸周りのヘディング角度はヨー(yaw)角度とみなされ、傾斜した対象の場合はヨー角φを(cos(φ)、sin(φ))にエンコーディングし、推論する間はヨー角φを下記でデコーディングする。
【0097】
【0098】
方向回帰(Orientation Regression)は特徴マップを出力する。すべてのシングルセンターポイント(single center point)で下記の条件である場合、L1損失関数はトレーニングのために次の式のように適用する。
【0099】
【0100】
【0101】
客体中心点は下記(1)で予測し、Z軸に沿った拡張が下記(2)で中心点をローカライズするのに必要である。Z軸位置回帰は、予測した各中心点に対してZ軸特徴マップ(下記(3))を予測する。
【0102】
【0103】
Z軸回帰の結果は、3Dバウンディングボックスの位置精度に大きな影響を及ぼすが、多様な個体属性サンプルを有するZ軸の無限回帰のためである。したがって、予測は異常値(outliers)、特に不均衡トレーニングセットに容易に敏感になるという問題がある。この問題を克服するために、均衡L1損失(loss)を導入して不均衡なトレーニングセットを最小化し、モデルの安定性を向上させる。Z軸回帰学習のために均衡L1損失が使用される。
【0104】
【0105】
ここで、Lbは、L1損失の定義による均衡L1損失である。
【0106】
【0107】
ここで、a、b、γはL1均衡損失ハイパーパラメータ(hyper-parameters)であり、下記の関係にある。
【0108】
【0109】
サイズ回帰(Size Regression)プロセスは、3D個体中心座標(x、y、z)に沿って長さl、幅w、及び高さhの3D物体空間次元を生成する。サイズ回帰プロセス作業で予測しなければいけない3つの値があるため、各中心点に対して下記のサイズ回帰特徴マップを返還する。サイズ回帰はZ軸回帰と同じ特性を有し、制限のない回帰目標のために異常値に敏感である。したがって、サイズ回帰の学習対象として均衡L1損失を選択する。
【0110】
【0111】
【0112】
本発明の単一階層3次元多重客体検出装置の総損失関数は、前記ヘッド回帰損失の加重和である。
【0113】
【0114】
ここで、χhm、χoff、χyaw、χZ、χsizeは、それぞれ、ヒートマップ中心回帰、オフセット回帰、方向回帰、Z軸位置回帰、及び大きさ回帰に対する均衡係数を表す。
【0115】
本発明の単一階層3次元多重客体検出装置における推論過程について説明すると、次の通りである。
【0116】
3Dバウンディングボックスの正確な位置を特定するために細分化した特徴マップを抽出した後、接続した8つの隣よりも値が大きいのかを比較して中心キーポイントの存在を確認する。ここで、周辺8つの隣と比較することは、キーポイントを見つけるための最も迅速で正確な方法である。
【0117】
その後、2つの基準で中心点のみを維持する。中心点値は予め定義した閾値よりも高く、信頼度スコアは感知範囲内で予め定義した個体番号の優先順位に従って感知した中心点番号をフィルタリングする。
【0118】
下記(1)の環境の客体は(cx、cy、cz、r、p、y、l、w、h)で表すことができる。ここで、(cx、cy、cz)は3D客体の中心、(r、p、y))はそれぞれロール、ピッチ、ヨー回転角度、(l、w、h)はそれぞれ客体の長さ、幅、高さを表する。
【0119】
【0120】
客体が平らな道路平面にあると仮定すると、r=p=0であるので、下記(1)の客体は7自由度(cx、cy、cz、y、l、w、h)を有する。推論する間、下記(2)は予測集合であり、ここでnはクラスCで感知した中心点の量である。
【0121】
【0122】
予測後、ヒートマップ中心点、オフセット、方向角度、Z軸位置及びサイズ次元に対応する下記を得る。
【0123】
【0124】
次に、すべての候補ターゲットは下記と同じ形式で融合し、クラスCに対する正確な3Dバウンディングボックスを作成する。
【0125】
【0126】
本発明で、このような作業を組込みシステムに向くアプローチで処理する。したがって、本発明では最大プーリング演算を用いて客体中心を求めるので、既存のNMSよりもはるかに速く客体中心を見つけることができる。
【0127】
以上、本発明をいくつかの好ましい実施例を用いて説明したが、このような実施例は例示的なものであり、限定的なものではない。本発明が属する技術分野で通常の知識を有する者であれば、本発明の思想と添付の特許請求の範囲に提示した権利範囲から逸脱することなく多様な変更と修正を加えられることが理解できるであろう。
【符号の説明】
【0128】
100 単一階層3次元多重客体検出装置
110 データ入力モジュール
120 BEVイメージ生成モジュール
130 CNNベースの学習モジュール
140 ローカリゼーションモジュール
【要約】
【課題】自律走行のための強力なリアルタイム3次元多重客体検出装置を提案することにより、非常に速い推論速度を維持しながら3D物体検知作業の精度を向上させる。
【解決手段】本発明は、ライダーセンサを用いて3次元多重客体を検出するための単一階層3次元多重客体検出装置に関し、ライダーセンサから未処理の点群データの入力を受けるためのデータ入力モジュールと、前記未処理の点群データからBEVイメージを生成するためのBEVイメージ生成モジュールと、BEVイメージから細分化した特徴イメージを抽出するためのディープラーニングアルゴリズムベースの学習を実行する学習モジュールと、前記細分化した特徴イメージから3次元客体を検出するための3D候補ボックスとそれに対応するクラスを見つけるための回帰作業と、ローカリゼーション作業を実行するローカリゼーションモジュールと、を含む。
【選択図】
図1