(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-06
(54)【発明の名称】3次元目標検出及びインテリジェント運転
(51)【国際特許分類】
G06T 7/00 20170101AFI20220830BHJP
【FI】
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022500583
(86)(22)【出願日】2020-11-18
(85)【翻訳文提出日】2022-01-05
(86)【国際出願番号】 CN2020129876
(87)【国際公開番号】W WO2021115081
(87)【国際公開日】2021-06-17
(31)【優先権主張番号】201911285258.X
(32)【優先日】2019-12-13
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520229965
【氏名又は名称】深▲チェン▼市商▲湯▼科技有限公司
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO., LTD.
(74)【代理人】
【識別番号】110000729
【氏名又は名称】特許業務法人 ユニアス国際特許事務所
(72)【発明者】
【氏名】史 少▲帥▼
(72)【発明者】
【氏名】郭 超旭
(72)【発明者】
【氏名】王 哲
(72)【発明者】
【氏名】石 建萍
(72)【発明者】
【氏名】李 ▲鴻▼升
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096AA09
5L096BA04
5L096BA05
5L096EA26
5L096EA39
5L096FA09
5L096FA64
5L096FA67
5L096FA69
5L096GA30
5L096GA51
5L096HA11
(57)【要約】
3次元目標検出及びインテリジェント運転方法、装置、デバイスが開示され、該方法は、3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得するステップと、前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するステップと、前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するステップと、前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから検出すべき3次元目標を含む目標3次元検出フレームを特定するステップとを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得するステップと、
前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するステップと、
前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するステップと、
前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから検出すべき3次元目標を含む目標3次元検出フレームを特定するステップと、を含む、ことを特徴とする3次元目標検出方法。
【請求項2】
前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得することは、
事前にトレーニングされた3次元畳み込みネットワークを使用し、前記ボクセル化点群データに対して3次元畳み込み演算を実行し、前記3次元畳み込みネットワークは、順次接続された複数の畳み込みブロックを含み、各前記畳み込みブロックは、入力データに対して3次元畳み込み演算を実行することと、
各前記畳み込みブロックによって出力された3次元意味特徴体を取得し、前記3次元意味特徴体は、各前記ボクセルの3次元意味特徴を含むことと、
前記複数のボクセル内の各ボクセルについて、各前記畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記ボクセルの第1特徴情報を取得することと、を含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記初期3次元検出フレームを取得することは、
前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って俯瞰特徴マップに投影し、前記俯瞰特徴マップにおける各ピクセルの第3特徴情報を取得することと、
各前記ピクセルを中心として1つ以上の3次元アンカーフレームを設定することと、
各前記3次元アンカーフレームについて、前記3次元アンカーフレームの境界に位置する1つ以上のピクセルの第3特徴情報に基づいて、前記3次元アンカーフレームの信頼度スコアを特定することと、
各前記3次元アンカーフレームの信頼度スコアに基づいて、前記1つ以上の3次元アンカーフレームから前記1つ以上の初期3次元検出フレームを特定することと、を含む、ことを特徴とする請求項2に記載の方法。
【請求項4】
前記3次元点群データをサンプリングすることによって複数のキーポイントを取得することは、
最遠点サンプリング方法を利用し、前記3次元点群データからサンプリングして複数のキーポイントを取得することを含む、ことを特徴とする請求項1に記載の方法。
【請求項5】
前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、
前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定することは、
各前記畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、
変換された座標系で、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ、前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、
各前記畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得することと、
前記キーポイントに対応する第2意味特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む、ことを特徴とする請求項2~4のいずれか一項に記載の方法。
【請求項6】
前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、
前記キーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定することは、
各前記畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、
変換された座標系で、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、
各前記畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得することと、
前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得することと、
前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られることと、
前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得することと、
前記キーポイントの目標特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む、ことを特徴とする請求項2~4のいずれか一項に記載の方法。
【請求項7】
前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、
前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定することは、
各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、
変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、
各畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続して、前記キーポイントの第2意味特徴ベクトルを取得することと、
前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得することと、
前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られることと、
前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得することと、
前記キーポイントが前景ポイントである確率を予測することと、
前記キーポイントが前景ポイントである確率を前記キーポイントの目標特徴ベクトルと乗算し、前記キーポイントの加重特徴ベクトルを取得することと、
前記キーポイントの前記加重特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む、ことを特徴とする請求項2~4のいずれか一項に記載の方法。
【請求項8】
前記第1設定範囲は複数あり、
各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定することは、
該畳み込みブロックによって出力された3次元意味特徴体に基づいて、各前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴を特定することを含み、
前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することは、
各前記第1設定範囲について、前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴に基づいて、前記第1設定範囲に対応する該キーポイントの初期第1意味特徴ベクトルを特定することと、
各前記第1設定範囲に対応する該キーポイントの前記初期第1意味特徴ベクトルを加重平均し、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを取得することとを含む、ことを特徴とする請求項5~7のいずれか一項に記載の方法。
【請求項9】
前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから目標3次元検出フレームを特定するステップは、
各初期3次元検出フレームについて、
前記初期3次元検出フレームをメッシュ化することによって得られた格子点に基づいて、複数のサンプリング点を特定することと、
前記複数のサンプリング点内の各サンプリング点について、前記サンプリング点の第2設定範囲内のキーポイントを取得し、また 前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて前記サンプリング点の第4特徴情報を特定することと、
前記複数のサンプリング点の順序に基づいて前記複数のサンプリング点のそれぞれの第4特徴情報を順次接続し、前記初期3次元検出フレームの目標特徴ベクトルを取得することと、
前記初期3次元検出フレームの目標特徴ベクトルに基づいて、前記初期3次元検出フレームを修正し、修正後の3次元検出フレームを取得することと、
各前記修正後の3次元検出フレームの信頼度スコアに基づいて、1つ以上の前記修正後の3次元検出フレームから目標3次元検出フレームを特定することとを含む、ことを特徴とする請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記第2設定範囲は複数あり、
前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて該サンプリング点の第4特徴情報を特定することは、
各前記第2設定範囲について、該サンプリング点の前記第2設定範囲内のキーポイントの第2特徴情報に基づいて、前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を特定することと、
各前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を加重平均して、該サンプリング点の第4特徴情報を取得することとを含む、ことを特徴とする請求項9に記載の方法。
【請求項11】
インテリジェント運転装置が位置するシーンの3次元点群データを取得するステップと、
請求項1~10のいずれか一項に記載の方法を用いて、前記3次元点群データに基づいて前記シーンに対して3次元目標検出を実行するステップと、
特定された3次元目標検出フレームに基づいて前記インテリジェント運転装置の運転を制御するステップと、を含む、こと特徴とするインテリジェント運転方法。
【請求項12】
3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得するために用いられる第1取得ユニットと、
前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するために用いられる第2取得ユニットと、
前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる第1特定ユニットと、
前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから検出すべき3次元目標を含む目標3次元検出フレームを特定するために用いられる第2特定ユニットと、を含む、こと特徴とする3次元目標検出装置。
【請求項13】
インテリジェント運転装置が位置するシーンの3次元点群データを取得するために用いられる取得モジュールと、
請求項1~10のいずれか一項に記載の3次元目標検出方法を用いて、前記3次元点群データに基づいて前記シーンに対して3次元目標検出を実行するために用いられる検出モジュールと、
特定された3次元目標検出フレームに基づいて前記インテリジェント運転装置の運転を制御するために用いられる制御モジュールとを含む、こと特徴とするインテリジェント運転装置。
【請求項14】
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、
前記命令が実行されると、前記プロセッサに、請求項1~11のいずれか一項に記載の方法を実施される、こと特徴とする3次元目標検出デバイス。
【請求項15】
コンピュータープログラムが記憶された、前記コンピュータープログラムがプロセッサに実行されると、前記プロセッサに請求項1~11のいずれか一項に記載の方法を実施される、こと特徴とするコンピュータ可読記憶媒体。
【請求項16】
コンピュータ可読コードを含み、前記コンピュータ可読コードが電子デバイスで実行されると、前記電子デバイス内のプロセッサは請求項1~11のいずれか一項に記載の方法を実行する、こと特徴とするコンピュータープログラム。
【発明の詳細な説明】
【技術分野】
【0001】
<関連出願の相互参照>
本出願は出願番号201911285258.X、出願日2019年12月13日の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張するものであり、該中国特許出願のすべての内容が、参照により本出願に組み込まれる。
本発明は、コンピュータビジョン技術に関し、具体的には3次元目標検出方法、装置、デバイス及びコンピュータ可読記憶媒体、並びにインテリジェント運転方法、装置、デバイス及びコンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
レーダーは3次元目標検出における重要なセンサの1つであり、それは疎らなレーダー点群を生成することができ、それによって周囲のシーン構造をよくキャプチャすることができる。レーダー点群に基づく3次元目標検出は、自動運転やロボットナビゲーションなどの実際の応用シーンにおいて重要な応用価値がある。
【発明の概要】
【0003】
本発明の実施例は、3次元目標検出ソリューション及びインテリジェント運転ソリューションを提供する。
【0004】
本発明の一態様によれば、3次元目標検出方法を提供する。前記方法は、3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得するステップと、前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するステップと、前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するステップと、前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから目標3次元検出フレームを特定し、前記目標3次元検出フレームは検出すべき3次元目標を含む、ステップとを含む。
【0005】
本発明で提供される実施形態のいずれかを参照すると、前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得するステップは、事前にトレーニングされた3次元畳み込みネットワークを使用して、前記ボクセル化点群データに対して3次元畳み込み演算を実行し、前記3次元畳み込みネットワークは、順次接続された複数の畳み込みブロックを含み、各前記畳み込みブロックは、入力データに対して3次元畳み込み演算を実行することと、各前記畳み込みブロックによって出力された3次元意味特徴体を取得し、前記3次元意味特徴体は、各前記ボクセルの3次元意味特徴を含むことと、前記複数のボクセル内の各ボクセルについて、各前記畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記ボクセルの第1特徴情報を取得することとを含む。
【0006】
本発明で提供される実施形態のいずれかを参照すると、前記初期3次元検出フレームを取得することは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って俯瞰特徴マップに投影し、前記俯瞰特徴マップにおける各ピクセルの第3特徴情報を取得することと、各前記ピクセルを中心として1つ以上の3次元アンカーフレームを設定することと、各前記3次元アンカーフレームについて、前記3次元アンカーフレームの境界に位置する1つ以上のピクセルの第3特徴情報に基づいて、前記3次元アンカーフレームの信頼度スコアを特定することと、各前記3次元アンカーフレームの信頼度スコアに基づいて、前記1つ以上の3次元アンカーフレームから前記1つ以上の初期3次元検出フレームを特定することとを含む。
【0007】
本発明で提供される実施形態のいずれかを参照すると、前記3次元点群データをサンプリングすることによって複数のキーポイントを取得することは、最遠点サンプリング方法を利用して、前記3次元点群データからサンプリングして前記複数のキーポイントを取得することを含む。
【0008】
本発明で提供される実施形態のいずれかを参照すると、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するステップは、各前記畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、変換された座標系で、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、各前記畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続して、前記キーポイントの第2意味特徴ベクトルを取得することと、前記キーポイントに対応する第2意味特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む。
【0009】
本発明で提供される実施形態のいずれかを参照すると、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記キーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するステップは、各前記畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、変換された座標系で、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、各前記畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続して、前記キーポイントの第2意味特徴ベクトルを取得することと、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得することと、前記キーポイントを俯瞰特徴マップに投影して、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られることと、前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得することと、前記キーポイントの目標特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む。
【0010】
本発明で提供される実施形態のいずれかを参照すると、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するステップは、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、各畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得することと、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得することと、前記キーポイントを俯瞰特徴マップに投影して、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られることと、前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得することと、前記キーポイントが前景ポイントである確率を予測することと、前記キーポイントが前景ポイントである確率を前記キーポイントの目標特徴ベクトルと乗算し、前記キーポイントの加重特徴ベクトルを取得することと、前記キーポイントの前記加重特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む。
【0011】
本発明で提供される実施形態のいずれかを参照すると、前記第1設定範囲は複数あり、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定することは、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、各前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴を特定することを含み、前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することは、各前記第1設定範囲について、前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴に基づいて、前記第1設定範囲に対応する該キーポイントの初期第1意味特徴ベクトルを特定することと、各前記第1設定範囲に対応する該キーポイントの前記初期第1意味特徴ベクトルを加重平均し、該畳み込みブロックにおける該キーポイントの第1意味特徴ベクトルを取得することとを含む。
【0012】
本発明で提供される実施形態のいずれかを参照すると、前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから目標3次元検出フレームを特定することは、各初期3次元検出フレームについて、前記初期3次元検出フレームをメッシュ化することによって得られた格子点に基づいて、複数のサンプリング点を特定することと、前記複数のサンプリング点内の各サンプリング点について、前記サンプリング点の第2設定範囲内のキーポイントを取得し、前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて前記サンプリング点の第4特徴情報を特定することと、前記複数のサンプリング点の順序に基づいて前記複数のサンプリング点のそれぞれの第4特徴情報を順次接続し、前記初期3次元検出フレームの目標特徴ベクトルを取得することと、前記初期3次元検出フレームの目標特徴ベクトルに基づいて、前記初期3次元検出フレームを修正し、修正後の3次元検出フレームを取得することと、各前記修正後の3次元検出フレームの信頼度スコアに基づいて、1つ以上の前記修正後の3次元検出フレームから目標3次元検出フレームを特定することとを含む。
【0013】
本発明で提供される実施形態のいずれかを参照すると、前記第2設定範囲は複数あり、前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて該サンプリング点の第4特徴情報を特定することは、各前記第2設定範囲について、該サンプリング点の前記第2設定範囲内のキーポイントの第2特徴情報に基づいて、前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を特定することと、各前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を加重平均し、該サンプリング点の第4特徴情報を取得することとを含む。
【0014】
本発明の実施例はまた、インテリジェント運転方法を提供し、これは、インテリジェント運転装置が位置するシーンの3次元点群データを取得することと、本発明の実施例によって提供される3次元目標検出方法のいずれかを用いて、前記3次元点群データに基づいて前記シーンに対して3次元目標検出を実行することと、特定された3次元目標検出フレームに基づいて前記インテリジェント運転装置の運転を制御することとを含む。
【0015】
本発明の一態様によれば、3次元目標検出装置を提供する。前記装置は、3次元点群データをボクセル化して、複数のボクセルに対応するボクセル化点群データを取得するために用いられる第1取得ユニットと、前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するために用いられる第2取得ユニットと、前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる第1特定ユニットと、前記初期3次元検出フレームが囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから、検出すべき3次元目標を含む目標3次元検出フレームを特定するために用いられる第2特定ユニットとを含む。
【0016】
本発明で提供される実施形態のいずれかを参照すると、前記第2取得ユニットは、前記ボクセル化点群データに対して特徴抽出を実行し、複数のボクセルに対応する第1特徴情報を取得するために用いられる場合、具体的には、事前にトレーニングされた3次元畳み込みネットワークを使用し、前記ボクセル化点群データに対して3次元畳み込み演算を実行し、前記3次元畳み込みネットワークは、順次接続された複数の畳み込みブロックを含み、各畳み込みブロックは、入力データに対して3次元畳み込み演算を実行するために用いられ、各畳み込みブロックによって出力された3次元意味特徴体を取得し、前記3次元意味特徴体は、各ボクセルの3次元意味特徴を含むために用いられ、前記複数のボクセル内の各ボクセルについて、各畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記ボクセルの第1特徴情報を取得するために用いられる。
【0017】
本発明で提供される実施形態のいずれかを参照すると、前記第2取得ユニットは、1つ以上の初期3次元検出フレームを取得するために用いられる場合、具体的には、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って俯瞰特徴マップに投影し、前記俯瞰特徴マップにおける各ピクセルの第3特徴情報を取得するために用いられ、各前記ピクセルを3次元アンカーフレームの中心として1つ以上の3次元アンカーフレームを設定するために用いられ、各前記3次元アンカーフレームについて、前記3次元アンカーフレームの境界に位置する1つ以上のピクセルの第3特徴情報に基づいて、前記3次元アンカーフレームの信頼度スコアを特定するために用いられ、各3次元アンカーフレームの信頼度スコアに基づいて、前記1つ以上の3次元アンカーフレームから1つ以上の初期3次元検出フレームを特定するために用いられる。
【0018】
本発明で提供される実施形態のいずれかを参照すると、前記第1特定ユニットは、前記3次元点群データをサンプリングすることによって複数のキーポイントを取得するために用いられる場合、具体的には、最遠点サンプリング方法を利用して、前記3次元点群データからサンプリングして複数のキーポイントを取得するために用いられる。
【0019】
本発明で提供される実施形態のいずれかを参照すると、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記第1特定ユニットは、前記キーポイントの位置情報及び前記ボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる場合、具体的には、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換するために用いられ、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にあるキーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定するために用いられ、各畳み込みブロックにおけるキーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得するために用いられ、前記キーポイントの第2意味特徴ベクトルを前記キーポイントの第2特徴情報とするために用いられる。
【0020】
本発明で提供される実施形態のいずれかを参照すると、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記第1特定ユニットは、前記キーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる場合、具体的には、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換するために用いられ、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にあるキーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定するために用いられ、各畳み込みブロックにおけるキーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得し、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得するために用いられ、前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られるために用いられ、前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得するために用いられ、前記キーポイントの目標特徴ベクトルを前記キーポイントの第2特徴情報とするために用いられる。
【0021】
本発明で提供される実施形態のいずれかを参照すると、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記第1特定ユニットは、前記複数のキーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記複数のキーポイントのそれぞれの第2特徴情報を特定するために用いられる場合、具体的には、各畳み込みブロックによって出力された3次元意味特徴体及び前記複数のキーポイントをそれぞれ同じ座標系に変換するために用いられ、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある各キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、前記キーポイントの第1意味特徴ベクトルを特定するために用いられ、各畳み込みブロックにおける各キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得するために用いられ、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得するために用いられ、前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られるために用いられ、前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得するために用いられ、前記キーポイントが前景ポイントである確率を予測するために用いられ、前記キーポイントが前景ポイントである確率を前記キーポイントの目標特徴ベクトルと乗算し、前記キーポイントの加重特徴ベクトルを取得するために用いられ、前記キーポイントの前記加重特徴ベクトルを前記キーポイントの第2特徴情報とするために用いられる。
【0022】
本発明で提供される実施形態のいずれかを参照すると、前記第1設定範囲は複数あり、前記第1特定ユニットは、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定するために用いられる場合、具体的には、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴を特定するために用いられ、前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することは、各前記第1設定範囲について、前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴に基づいて、前記第1設定範囲に対応する該キーポイントの初期第1意味特徴ベクトルを特定することと、各前記第1設定範囲に対応する該キーポイントの前記初期第1意味特徴ベクトルを加重平均し、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを取得することとを含む。
【0023】
本発明で提供される実施形態のいずれかを参照すると、前記第2特定ユニットは具体的には、各初期3次元検出フレームについて、前記初期3次元検出フレームをメッシュ化することによって得られた格子点に基づいて、複数のサンプリング点を特定するために用いられ、前記複数のサンプリング点内の各サンプリング点について、前記サンプリング点の第2設定範囲内のキーポイントを取得し、また前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて前記サンプリング点の第4特徴情報を特定するために用いられ、前記複数のサンプリング点の順序に基づいて前記複数のサンプリング点のそれぞれの第4特徴情報を順次接続し、前記初期3次元検出フレームの目標特徴ベクトルを取得するために用いられ、前記初期3次元検出フレームの目標特徴ベクトルに基づいて、前記初期3次元検出フレームを修正し、修正後の3次元検出フレームを取得するために用いられ、各前記修正後の3次元検出フレームの信頼度スコアに基づいて、1つ以上の前記修正後の3次元検出フレームから目標3次元検出フレームを特定するために用いられる。
【0024】
本発明で提供される実施形態のいずれかを参照すると、前記第2設定範囲は複数あり、前記第2特定ユニットは、前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて該サンプリング点の第4特徴情報を特定するために用いられる場合、具体的には、各前記第2設定範囲について、該サンプリング点の前記第2設定範囲内のキーポイントの第2特徴情報に基づいて、前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を特定するために用いられ、各前記第2設定範囲に対応する該サンプリング点の各初期第4特徴情報を加重平均し、該サンプリング点の第4特徴情報を取得するために用いられる。
【0025】
本発明の実施例はまた、インテリジェント運転装置を提供し、インテリジェント運転装置は、インテリジェント運転装置が位置するシーンの3次元点群データを取得するために用いられる取得モジュールと、本発明の実施例によって提供される3次元目標検出方法のいずれかを用いて、前記3次元点群データに基づいて前記シーンに対して3次元目標検出を実行するために用いられる検出モジュールと、特定された3次元目標検出フレームに基づいて前記インテリジェント運転装置の運転を制御するために用いられる制御モジュールとを含む。
【0026】
本発明の一態様によれば、3次元目標検出デバイスを提供し、3次元目標検出デバイスは、プロセッサと、前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、前記命令が実行されると、前記プロセッサに、本発明によって提供される実施形態のいずれか1つによる3次元目標検出方法を実施されるか、又は本発明の実施例によって提供されるインテリジェント運転方法を実行させる。
【0027】
本発明の一態様によれば、コンピュータープログラムが記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータープログラムがプロセッサに実行されると、前記プロセッサに、本発明によって提供される実施形態のいずれか1つによる3次元目標検出方法を実施されるか、又は本発明の実施例によって提供されるインテリジェント運転方法を実行させる。
【0028】
本発明はまた、コンピュータープログラムを提供しており、コンピュータープログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子デバイスで実行されると、前記電子デバイス内のプロセッサは少なくとも1つの実施例による3次元目標検出方法を実行するか、又は本発明の実施例によって提供されるインテリジェント運転方法を実行する。
【0029】
本発明の1つ以上の実施例による3次元目標検出方法、装置、デバイス及び記憶媒体は、ボクセル化点群データに対して特徴抽出を実行することによってボクセルの第1特徴情報を取得し、かつ目標対象を含む1つ以上の初期3次元検出フレームを取得し、また、3次元点群データをサンプリングすることによって複数のキーポイントを取得し、かつキーポイントの第2特徴情報を取得し、そして、前記1つ以上の初期3次元検出フレームが囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから目標3次元検出フレームを特定することができる。本発明は、3次元点群データからサンプリングすることによって得られたキーポイントを用いて3次元シーン全体を表現し、キーポイントの第2特徴情報を取得することによって目標3次元検出フレームを特定し、元の点群内の各点群データの特徴情報を使用して3次元目標検出フレームを特定するのと比較して、3次元目標検出の効率を向上させ、また、ボクセルの特徴から得られた初期3次元検出フレームに基づいて、3次元点群データにおけるキーポイントの位置情報及びボクセルの第1特徴情報を用いて、初期3次元検出フレームから目標3次元検出フレームを特定し、それによって、ボクセルの特徴と点群の特徴(即ち、キーポイントの位置情報)とを組み合わせて初期3次元検出フレームから目標3次元検出フレームを特定し、点群の情報をより十分に利用し、したがって、3次元目標検出の精度を向上させることができる。
【図面の簡単な説明】
【0030】
【
図1】本発明の少なくとも1つの実施例によって提供される3次元目標検出方法のフローチャートである。
【
図2】本発明の少なくとも1つの実施例によって提供される、キーポイントを取得するための概略図である。
【
図3】本発明の少なくとも1つの実施例によって提供される3次元畳み込みネットワークの構造概略図である。
【
図4】本発明の少なくとも1つの実施例によって提供される、キーポイントの第2特徴情報を取得するための方法のフローチャートである。
【
図5】本発明の少なくとも1つの実施例によって提供される、キーポイントの第2特徴情報を取得するための概略図である。
【
図6】本発明の少なくとも1つの実施例によって提供される、前記初期3次元検出フレームから目標3次元検出フレームを特定するための方法のフローチャートである。
【
図7】本発明の少なくとも1つの実施例によって提供される3次元目標検出装置の構造概略図である。
【
図8】本発明の少なくとも1つの実施例によって提供される3次元目標検出デバイスの構造概略図である。
【発明を実施するための形態】
【0031】
当業者が本発明の1つ以上の実施例における技術的解決策をよりよく理解できるようにするために、以下は、本発明の1つ以上の実施例の図面と併せて、本発明の1つ以上の実施例における技術的解決策について明確かつ完全に説明するが、明らかに、説明される実施例は、本発明の一部の実施例に過ぎず、すべての実施例ではない。本発明の1つ以上の実施例に基づいて、創造的な労力なしに当業者によって得られる他のすべての実施例は、本発明の保護範囲内に含まれるべきである。
【0032】
図1は、本発明の少なくとも1つの実施例によって提供される3次元目標検出方法のフローチャートであり、
図1に示されるように、該方法はステップ101~ステップ104を含む。
【0033】
ステップ101において、3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得する。
【0034】
点群は、シーン又は目標表面特徴の点の集合である。3次元点群データは、3次元座標などの点の位置情報を含むことができ、また反射強度情報を含むこともできる。そのうち、シーンは、例えば、自動運転中の道路シーン、ロボットナビゲーション中の道路シーン、航空機の飛行中の航空シーンなど、様々なシーンを含むことができる。
【0035】
本発明の実施例では、シーンの3次元点群データは、3次元目標検出方法を実行する電子デバイス自体によって収集することができ、また、例えばレーザーレーダー、深度カメラ、又は他のセンサなどの他のデバイスから取得することができ、更にネットワークデータベースから検索することもできる。
【0036】
3次元点群データのボクセル化とは、シーン全体の点群を3次元ボクセル表現にマッピングすることである。例えば、点群が位置する空間を複数のボクセルに均等に分割し、そのボクセル単位で前記点群のパラメータを表す。各ボクセルは、前記点群内の1つの点を含んでもよく、また前記点群内の複数の点を含んでもよく、更に前記点群内のいかなる点も含まない場合がある。点を含むボクセルは非空ボクセルと呼ばれてもよく、点を含まないボクセルは空ボクセルと呼ばれてもよい。多数の空ボクセルを含むボクセル化点群データの場合、ボクセル化のプロセスはスパースボクセル化又はスパースメッシュ化と呼ばれてもよく、ボクセル化の結果はスパースボクセル化点群データと呼ばれてもよい。
【0037】
一例では、3次元点群データに対応する空間を等間隔の複数のボクセルvに分割するという方法で、3次元点群データをボクセル化することができ、これは、点群内の点をそれらが位置するボクセルv内にグループ化することに相当する。ボクセルvのサイズは、(vw、vl、vh)として表すことができ、ここで、vw、vl、及びvhは、それぞれボクセルvの幅、長さ、及び高さを表す。各ボクセルv内のレーダー点群の平均パラメータを該ボクセルのパラメータとすることにより、ボクセル化点群を取得することができる。ここで、各ボクセルv内にランダムに固定数量のレーダー点をサンプリングして、計算を節約してボクセル間のレーダー点の不平衡性を低減することができる。
【0038】
ステップ102において、前記ボクセル化点群データに対して特徴抽出を実行し、複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得する。
【0039】
本発明の実施例では、事前にトレーニングされた3次元畳み込みネットワークを使用して前記ボクセル化点群データに対して特徴抽出を実行し、複数のボクセルのそれぞれの第1特徴情報を取得することができる。ここで、前記第1特徴情報は3次元畳み込み特徴情報である。
【0040】
一部の実施例では、候補領域ネットワーク(Region Proposal Network、RPN)を使用して、前記ボクセル化点群データから抽出した特徴に基づいて、目標対象を含む初期3次元検出フレーム、即ち初期検出結果を取得することができる。ここで、前記初期検出結果は、初期3次元検出フレームの位置決め情報及び分類情報を含む。
【0041】
事前にトレーニングされた3次元畳み込みネットワークを使用して前記ボクセル化点群データに対して特徴抽出を実行し、そしてRPNを使用して初期3次元検出フレームを取得する具体的なステップについては後で詳細に説明する。
【0042】
ステップ103において、前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を取得する。
【0043】
本発明の実施例では、最遠点サンプリング(Farthest Point Sampling、FPS)方法を使用して、前記3次元点群データからサンプリングして複数のキーポイントを取得することができる。該方法は、点群がC、サンプリング点集合がS、Sが最初は空集合であると仮定し、まず点群Cの中にランダムに1つの点を選択して集合Sに入れ、次に、集合C‐S(即ち点群Cからサンプリング点集合Sに含まれる点を除去した後との集合)の中に集合Sから最も遠い点を見つけて集合Sに入れ、その後、必要な数の点が選択されるまで反復を続けることを含む。最遠点サンプリング方法を使用して3次元点群データから取得した複数のキーポイントは、元の点群が位置する3次元空間全体に分散され、また、これらのキーポイントは非空ボクセルの周囲に均等に分布して、シーン全体を表すことができる。
図2に示されるように、最遠点サンプリング方法によって元の3次元点群データ210からキーポイントデータ220を取得する。
【0044】
元の点群空間における前記複数のキーポイントの位置情報、及びプロセス102で取得した各ボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定することができる。即ち、元のシーンの3次元特徴情報を前記複数のキーポイントに符号化することによって、前記複数のキーポイントの第2特徴情報はシーン全体の3次元特徴情報を表すことができる。
【0045】
ステップ104において、前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから目標3次元検出フレームを特定する。
【0046】
ステップ102で取得した目標対象を含む1つ以上の初期3次元検出フレームについて、それぞれの初期3次元検出フレームに含まれるキーポイントの第2特徴情報に基づいて、それぞれの初期3次元検出フレームの信頼度スコアを取得することができ、したがって前記信頼度スコアに基づいて最終的な目標3次元検出フレームを更にスクリーニングすることができる。
【0047】
本発明の実施例は3次元点群データからサンプリングして得たキーポイントを使用して3次元シーン全体を表現し、キーポイントの第2特徴情報を取得することによって目標3次元検出フレームを特定し、元の点群データの特徴情報を使用して3次元目標検出フレームを特定することに比べ、3次元目標検出の効率を向上させる。ボクセルの特徴を利用して得た初期3次元検出フレームを基に、3次元点群データにおけるキーポイントの位置情報及びボクセルの第1特徴情報に基づいて、1つ以上の初期3次元検出フレームから目標3次元検出フレームを特定することは、ボクセルの特徴と点群特徴(即ち、キーポイントの位置情報)とを組み合わせて目標3次元検出フレームを特定することができ、ボクセルの特徴に直接に基づいて3次元検出フレームを特定することに比べ、点群の情報をより充分に利用することができ、したがって3次元目標検出の精度を向上させる。
【0048】
一部の実施例では、以下の方法を使用して前記ボクセル化点群データに対して特徴抽出を実行し、複数のボクセルのそれぞれの第1特徴情報を取得することができ、この方法は、事前にトレーニングされた3次元畳み込みネットワークを使用して、前記ボクセル化点群データに対して3次元畳み込み演算を実行し、前記3次元畳み込みネットワークは、順次接続された複数の畳み込みブロックを含み、各畳み込みブロックは、入力データに対して3次元畳み込み演算を実行し、また、各畳み込みブロックによって出力された3次元意味特徴体を取得し、前記3次元意味特徴体は、各ボクセルの3次元意味特徴を含み、最後に、複数のボクセル内の各ボクセルについて、各畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記ボクセルの第1特徴情報を取得する。即ち、各ボクセルの第1特徴情報は、各ボクセルに対応する3次元意味特徴によって特定され取得する。
【0049】
図3は、本発明の少なくとも1つの実施例によって提供される3次元畳み込みネットワークの構造概略図を示す。
図3に示されるように、前記3次元畳み込みネットワークは順次に接続された4つの畳み込みブロック310、320、330、340を含み、各畳み込みブロックは入力データに対して3次元畳み込み演算を実行し、3次元意味特徴体(3D feature volume)を出力する。例えば、畳み込みブロック310は、入力されたボクセル化点群データに対して3次元畳み込み演算を実行し、3次元意味特徴体fv1を出力する。畳み込みブロック320は、3次元意味特徴体fv1に対して3次元畳み込み演算を実行し、3次元意味特徴体fv2を出力する。このように類推して、最後の畳み込みブロック340は、該3次元畳み込みネットワークの出力結果として3次元意味特徴体fv4を出力する。ここで、各畳み込みブロックによって出力される3次元意味特徴体は各ボクセルの3次元意味特徴を含み、即ち、それは、非空ボクセルの特徴ベクトルの集合である。
【0050】
各畳み込みブロックは複数の畳み込み層を含むことができ、各畳み込みブロックにおける最後の畳み込み層に対して異なるストライドを設定することによって、各畳み込みブロックによって出力される3次元意味特徴体は異なるスケールを有する。例えば、4つの畳み込みブロック310、320、330、340における最後の畳み込み層のストライド(stride)をそれぞれ1、2、4、8に設定することによって、ボクセル化点群を1倍、2倍、4倍、8倍の3次元意味特徴体に順次ダウンサンプリングすることができる。各畳み込みブロックによって出力される3次元意味特徴体はいずれも、非空ボクセルの特徴ベクトルを特定するために用いることができる。例えば、各非空ボクセルについて、4つの畳み込みブロック310、320、330、340によってそれぞれ出力される異なるスケールの3次元意味特徴体に従って、該非空ボクセルの第1特徴情報を共同で特定することができる。
【0051】
一部の実施例では、RPNによって目標対象を含む初期3次元検出フレームを取得することができる。
【0052】
まず、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰特徴マップに投影し、前記俯瞰特徴マップにおける各ピクセルの第3特徴情報を取得する。
【0053】
図3に示される3次元畳み込みネットワークの場合、畳み込みブロック340によって出力された8倍ダウンサンプリングされた3次元意味特徴体を俯瞰の視点に沿って投影し、8倍ダウンサンプリングされた俯瞰(鳥瞰)意味特徴マップを取得し、また該俯瞰意味特徴マップにおける各ピクセルの第3意味特徴を取得することができる。ここで、畳み込みブロック340によって出力された8倍ダウンサンプリングされた3次元意味特徴体を投影することは、例えば高さ方向(
図5に示される破線矢印の方向に対応する)に異なるボクセルを積み重ねることによって、俯瞰意味特徴マップを取得することができる。
【0054】
次に、前記俯瞰意味特徴マップの各ピクセルに1つ以上の3次元アンカーフレームを設定し、即ち各ピクセルを中心として3次元アンカーフレームを設定する。ここで、前記3次元アンカーフレームは、前記俯瞰意味特徴マップの平面上の2次元アンカーフレームで構成されてもよく、該2次元アンカーフレームの各点は高さ情報を含む。
【0055】
各3次元アンカーフレームについて、前記3次元アンカーフレームの境界に位置する1つ以上のピクセルの第3特徴情報に基づいて、前記3次元アンカーフレームの信頼度スコアを特定することができる。
【0056】
最後に、各3次元アンカーフレームの信頼度スコアに基づいて、前記1つ以上の3次元アンカーフレームから目標対象(即ち、目標対象を含む1つ以上のピクセル)を含む初期3次元検出フレームを特定し、同時に、前記初期3次元検出フレームの分類を取得し、例えば、前記初期3次元検出フレーム内の目標対象は、自動車、歩行者などである。また、前記初期3次元検出フレームの位置を修正し、前記初期3次元検出フレームの位置情報を取得することができる。
【0057】
次に、前記キーポイントの位置情報及び前記ボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するプロセスについて具体的に説明する。
【0058】
一部の実施例では、前記キーポイントの位置情報に基づいて、前記異なるスケールの3次元意味特徴体を前記複数のキーポイントに符号化し、前記複数のキーポイントのそれぞれの第2特徴情報を取得することができる。
【0059】
図4は、本発明の少なくとも1つの実施例によって提供される、キーポイントの第2特徴情報を取得するための方法のフローチャートを示す。
図4に示されるように、該方法はステップ401~404を含む。
【0060】
ステップ401において、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換する。
【0061】
図5に示される、キーポイントの第2特徴情報を取得する概略図を参照する。ここで、点群510をボクセル化してボクセル化点群データを取得し、前記ボクセル化点群データに対して3次元畳み込み演算を実行することにより、3次元意味特徴体fv1、fv2、fv3、fv4を取得し、
図5の破線ボックスによって示されるように、前記3次元意味特徴体fv1、fv2、fv3、fv4及びキーポイントクラウド520をそれぞれ同じ座標系に変換し、それぞれ変換後の3次元意味特徴体fv1’、fv2’、fv3’、fv4’を取得する。ここで、前記キーポイントは最遠点サンプリング方法によって元の3次元点群データ510から得たものであるため、キーポイントクラウド520内の点が最初に位置する座標は、元の点群510内の対応する点の座標と同じである。
【0062】
ステップ402において、変換された座標系で、各畳み込みブロックについて、第1設定範囲内にあるキーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定する。
【0063】
図5の3次元意味特徴体fv1を例にとると、3次元意味特徴体fv1とキーポイントクラウド520を同じ座標系に変換した後に、変換後の3次元意味特徴体fv1’を取得する。各キーポイントについて、それが位置する位置によって第1設定範囲を特定することができ、該第1設定範囲は球形であってもよく、即ち、前記キーポイントを球心として球形領域を特定し、かつ前記球形領域が囲む非空ボクセルを第1設定範囲内にある前記キーポイントの非空ボクセルとする。例えば、キーポイントクラウド520内のキーポイント521に対して座標系変換を行って対応するキーポイント522を取得すると、
図5に示されるようなキーポイント522を球心とする球形設定範囲内の非空ボクセルを第1設定範囲内にあるキーポイント521の非空ボクセルとすることができる。
【0064】
これらの非空ボクセルの3次元意味特徴体に基づいて、畳み込みブロック310について、畳み込みブロック310における前記キーポイントの第1意味特徴ベクトルを特定することができる。例えば、第1設定範囲内にあるキーポイントの非空ボクセルの3次元意味特徴体に対して最大プーリング動作を実行し、畳み込みブロック310における前記キーポイントの一意の特徴ベクトル、即ち、第1意味特徴ベクトルを取得することができる。
【0065】
当業者は、他の形状の領域をキーポイントの第1設定範囲として特定することもでき、本発明の実施例はこれを限定せず、第1設定範囲のサイズは必要に応じて設定することができ、本発明の実施例はこれを限定しないことを理解すべきである。
【0066】
一部の実施例では、各キーポイントに対して複数の第1設定範囲を設定することができ、かつ該畳み込みブロックによって出力される3次元意味特徴体に基づいて、各第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴を特定することができる。その後、1つの第1設定範囲内にある該キーポイントの非空ボクセルに対応する3次元意味特徴に基づいて、該第1設定範囲に対応する該キーポイントの初期第1意味特徴ベクトルを特定することができ、また各第1設定範囲に対応する該キーポイントの初期第1意味特徴ベクトルを加重平均し、該畳み込みブロックにおける該キーポイントの第1意味特徴ベクトルを取得する。
【0067】
異なる第1設定範囲を設定することにより、異なる範囲内にあるキーポイントのコンテキスト意味情報を統合し、より多くの有効なコンテキスト意味情報を抽出することができ、これは目標検出の精度の向上に有利である。
【0068】
3次元意味特徴体fv2、fv3、fv4の場合、類似の方法により対応する第1意味特徴ベクトルを取得することができるため、ここでは繰り返さない。
【0069】
ステップ403において、各畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続して、前記キーポイントの第2意味特徴ベクトルを取得する。
【0070】
図3に示される3次元畳み込みネットワークを例にとると、畳み込みブロック310、320、330、340における同じキーポイントの第1意味特徴ベクトルを順次接続する。
図5に対応して、3次元意味特徴体fv1、fv2、fv3、fv4及びキーポイントを同じ座標系での第1意味特徴ベクトルに変換して順次に接続し、前記キーポイントの第2意味特徴ベクトルを取得する。
【0071】
ステップ404において、前記キーポイントの第2意味特徴ベクトルを前記キーポイントの第2特徴情報とする。
【0072】
本発明の実施例では、各キーポイントの第2特徴情報は、3次元畳み込みネットワークによって得られた意味情報を統合する。同時に、キーポイントの第1設定範囲内で、点に基づいてキーポイントの特徴ベクトルを取得し、即ち、点群特徴を結合し、これによって点群データ中の情報をより充分に利用し、更にキーポイントの第2特徴情報をより正確でより代表的なものにする。
【0073】
一部の実施例では、以下の方法によって前記キーポイントの第2特徴情報を取得することもできる。
【0074】
まず、上記の方法に従って、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換し、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定し、そして、各畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得する。
【0075】
キーポイントの第2意味特徴ベクトルを取得した後、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得する。
【0076】
一例では、元の3次元点群データに対応する座標系において、キーポイントを中心として球形領域を特定し、前記球形領域内の点群及び前記キーポイントの特徴ベクトルを取得し、そして、前記球形領域内の点群の特徴ベクトル及び前記キーポイントの3次元座標に対して完全接続符号化を実行し、また最大プーリングを実行した後、前記キーポイントの点群特徴ベクトルを取得するという方法によってキーポイントの点群特徴ベクトルを特定することができる。当業者は、他の方法によってキーポイントの点群特徴ベクトルを取得することもできることを理解すべきであり、本発明はこれを限定しない。
【0077】
次に、前記キーポイントを俯瞰特徴マップに投影して、前記キーポイントの俯瞰特徴ベクトルを取得する。
【0078】
本発明の実施例では、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られる。
【0079】
図3に示される3次元畳み込みネットワークを例にとると、俯瞰特徴マップは、畳み込みブロック340によって出力された8倍ダウンサンプリングされた3次元意味特徴体を俯瞰の視点に沿って投影することによって得られる。
【0080】
一例では、俯瞰特徴マップに投影された各キーポイントについて、バイリニア補間法によって前記キーポイントの俯瞰特徴ベクトルを特定することができる。当業者は、他の方法によってキーポイントの俯瞰特徴ベクトルを取得することもできることを理解すべきであり、本発明はこれを限定しない。
【0081】
次に、キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得し、かつ前記キーポイントの目標特徴ベクトルを前記キーポイントの第2特徴情報とする。
【0082】
本発明の実施例では、各キーポイントの第2特徴情報は、意味情報を統合するだけでなく、3次元点群データにおけるキーポイントの位置情報、及び俯瞰特徴マップにおける前記キーポイントの特徴情報も結合し、したがってキーポイントの第2特徴情報をより正確でより代表的なものにする。
【0083】
一部の実施例では、以下の方法によって前記キーポイントの第2特徴情報を取得することもできる。
【0084】
まず、上記の方法に従って、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換し、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定し、そして、各畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得する。キーポイントの第2意味特徴ベクトルを取得した後、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得する。次に、前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得する。前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得する。
【0085】
前記キーポイントの目標特徴ベクトルを取得した後、前記キーポイントが前景ポイントである確率を予測し、即ち、前記キーポイントが前景ポイントである信頼度を予測し、そして、前記キーポイントが前景ポイントである確率を前記キーポイントの目標特徴ベクトルと乗算し、前記キーポイントの加重特徴ベクトルを取得し、かつ前記キーポイントの加重特徴ベクトルを前記キーポイントの第2特徴情報とする。
【0086】
本発明の実施例では、キーポイントが前景ポイントである信頼度を予測することによって、キーポイントの目標特徴ベクトルを加重し、その結果、前景キーポイントの特徴がより顕著になり、3次元目標検出の精度を向上させるのに役立つ。
【0087】
キーポイントの第2特徴情報を特定した後、前記初期3次元検出フレーム、及び前記キーポイントの第2特徴情報に基づいて目標3次元検出フレームを特定することができる。
【0088】
図6は、本発明の少なくとも1つの実施例によって提供される、目標3次元検出フレームを特定するための方法のフローチャートである。
図6に示されるように、該方法はステップ601~605を含む。
【0089】
ステップ601において、各初期3次元検出フレームについて、前記初期3次元検出フレームをメッシュ化することによって得られた格子点に基づいて、複数のサンプリング点を特定する。ここで、前記格子点は、メッシュ化後のメッシュ上の頂点を指す。
【0090】
発明された実施例では、各初期3次元検出フレームをメッシュ化することができる。例えば、6×6×6個のサンプリング点を取得する。
【0091】
ステップ602において、各初期3次元検出フレームの各サンプリング点について、前記サンプリング点の第2設定範囲内のキーポイントを取得し、また前記第2設定範囲内のキーポイントの第2特徴情報に基づいて前記サンプリング点の第4特徴情報を特定する。
【0092】
一例では、各サンプリング点について、前記サンプリング点を球心とし、予め設定された半径に従って球内のすべてのキーポイントを見つける。球内のすべてのキーポイントの第2意味特徴ベクトルに対して完全接続符号化を実行し、かつ最大プーリングを実行した後、前記サンプリング点の特徴情報を取得し、それを前記サンプリング点の第4特徴情報とする。
【0093】
一例では、各サンプリング点について、複数の第2設定範囲を設定することができ、該サンプリング点の1つの第2設定範囲内のキーポイントの第2特徴情報に基づいて1つの初期第4特徴情報を特定し、また該サンプリング点の各初期第4特徴情報を加重平均し、該サンプリング点の第4特徴情報を取得する。このように、異なる局所領域範囲におけるサンプリング点のコンテキスト意味情報を効果的に抽出することができ、また異なる半径範囲内のサンプリング点の特徴情報を接続することにより、前記サンプリング点の第4特徴情報を取得し、それによって前記サンプリング点の特徴情報がより効果的になり、3次元目標検出の精度を向上させるのに役立つ。
【0094】
ステップ603において、各初期3次元検出フレームについて、前記複数のサンプリング点の順序に基づいて前記複数のサンプリング点のそれぞれの第4特徴情報を順次接続し、前記初期3次元検出フレームの目標特徴ベクトルを取得する。
【0095】
前記初期3次元検出フレームに対応するサンプリング点の第4特徴情報を順次接続することにより、前記3次元検出フレームの目標特徴ベクトル、即ち前記初期3次元検出フレームの意味特徴を取得する。
【0096】
ステップ604において、各初期3次元検出フレームについて、前記初期3次元検出フレームの目標特徴ベクトルに基づいて前記初期3次元検出フレームを修正し、修正後の3次元検出フレームを取得する。
【0097】
本発明の実施例では、2層のMLP(Multiple Layer Perceptron、多層パーセプトロン)ネットワークによって前記目標特徴ベクトルの次元を低減し、次元低減後の特徴ベクトルに基づいて、例えば完全接続処理を通じて、前記初期3次元検出フレームの信頼度スコアを特定することができる。
【0098】
また、次元低減後の特徴ベクトルに基づいて、前記初期3次元検出フレームの位置、サイズ、及び方向を修正することができ、それによって修正後の3次元検出フレームを取得する。前記修正後の3次元検出フレームの位置、サイズ、及び方向は初期3次元検出フレームよりも正確である。
【0099】
ステップ605において、各前記修正後の3次元検出フレームの信頼度スコアに基づいて、1つ以上の前記修正後の3次元検出フレームから目標3次元検出フレームを特定する。
【0100】
本発明の実施例では、得られた修正後の3次元検出フレームについて、信頼度閾値を設定し、前記信頼度閾値よりも大きい修正後の3次元検出フレームを目標3次元検出フレームとして特定することができ、それによって多くの修正後の3次元検出フレームから所望の目標3次元検出フレームをスクリーニングすることができる。
【0101】
本発明の実施例はまた、インテリジェント運転方法を提供し、この方法は、インテリジェント運転装置が位置するシーンの3次元点群データを取得するステップと、本発明の実施例によって提供される3次元目標検出方法のいずれかを用いて、前記3次元点群データに基づいて前記シーンに対して3次元目標検出を実行するステップと、特定された3次元目標検出フレームに基づいて前記インテリジェント運転装置の運転を制御するステップとを含む。
【0102】
ここで、インテリジェント運転装置は自動運転車、先進運転支援システム(ADAS)を搭載した車、ロボットなどを含む。自動運転車又はロボットの場合、インテリジェント運転装置の運転を制御することは、検出した3次元目標に基づいて、インテリジェント運転装置の加速、減速、操舵、ブレーキを制御するか、又は速度及び方向を不変に保つことを含み、ADASを搭載した車の場合、インテリジェント運転装置の運転を制御することは、検出した3次元目標に基づいて、車両の加速、減速、操舵、ブレーキを制御するか、又は速度及び方向を不変に保つように運転者に注意し、また、車両の状態を持続的に監視し、車両状態が予測状態と異なると判断した場合に警報を出し、更に必要に応じて車両の運転を引き継ぐことを含む。
【0103】
図7は、本発明の少なくとも1つの実施例によって提供される3次元目標検出装置の概略構造図である。
図7に示されるように、前記装置は、3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得するために用いられる第1取得ユニット701と、前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するために用いられる第2取得ユニット702と、前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる第1特定ユニット703と、前記初期3次元検出フレームが囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから検出すべき3次元目標を含む目標3次元検出フレームを特定するために用いられる第2特定ユニット704とを含む。
【0104】
一部の実施例では、前記第2取得ユニット702は、前記ボクセル化点群データに対して特徴抽出を実行し、複数のボクセルに対応する第1特徴情報を取得するために用いられる場合、具体的には、事前にトレーニングされた3次元畳み込みネットワークを使用し、前記ボクセル化点群データに対して3次元畳み込み演算を実行し、前記3次元畳み込みネットワークは、順次接続された複数の畳み込みブロックを含み、各畳み込みブロックは、入力データに対して3次元畳み込み演算を実行するために用いられ、各畳み込みブロックによって出力された3次元意味特徴体を取得し、前記3次元意味特徴体は、各ボクセルの3次元意味特徴を含むために用いられ、前記複数のボクセル内の各ボクセルについて、各畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記ボクセルの第1特徴情報を取得するために用いられる。
【0105】
一部の実施例では、前記第2取得ユニット702は、1つ以上の初期3次元検出フレームを取得するために用いられる場合、具体的には、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って俯瞰特徴マップに投影し、前記俯瞰特徴マップにおける各ピクセルの第3特徴情報を取得するために用いられ、各前記ピクセルを3次元アンカーフレームの中心として1つ以上の3次元アンカーフレームを設定するために用いられ、各前記3次元アンカーフレームについて、前記3次元アンカーフレームの境界に位置する1つ以上のピクセルの第3特徴情報に基づいて、前記3次元アンカーフレームの信頼度スコアを特定するために用いられ、各3次元アンカーフレームの信頼度スコアに基づいて、前記1つ以上の3次元アンカーフレームから1つ以上の初期3次元検出フレームを特定するために用いられる。
【0106】
一部の実施例では、前記第1特定ユニット703は、前記3次元点群データをサンプリングすることによって複数のキーポイントを取得するために用いられる場合、具体的には、最遠点サンプリング方法を利用し、前記3次元点群データからサンプリングして複数のキーポイントを取得するために用いられる。
【0107】
一部の実施例では、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記第1特定ユニット703は、前記キーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる場合、具体的には、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換するために用いられ、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にあるキーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定するために用いられ、各畳み込みブロックにおけるキーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得するために用いられ、前記キーポイントの第2意味特徴ベクトルを前記キーポイントの第2特徴情報とするために用いられる。
【0108】
一部の実施例では、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記第1特定ユニット703は、前記キーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる場合、具体的には、各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換するために用いられ、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にあるキーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定するために用いられ、各畳み込みブロックにおけるキーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得するために用いられ、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得するために用いられ、前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られるために用いられ、前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得するために用いられ、前記キーポイントの目標特徴ベクトルを前記キーポイントの第2特徴情報とするために用いられる。
【0109】
一部の実施例では、前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、前記第1特定ユニット703は、前記複数のキーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記複数のキーポイントのそれぞれの第2特徴情報を特定するために用いられる場合、具体的には、各畳み込みブロックによって出力された3次元意味特徴体及び前記複数のキーポイントをそれぞれ同じ座標系に変換するために用いられ、変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある各キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、前記キーポイントの第1意味特徴ベクトルを特定するために用いられ、各畳み込みブロックにおける各キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得するために用いられ、前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得するために用いられ、前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られるために用いられ、前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得するために用いられ、前記キーポイントが前景ポイントである確率を予測するステップと、前記キーポイントが前景ポイントである確率を前記キーポイントの目標特徴ベクトルと乗算し、前記キーポイントの加重特徴ベクトルを取得するために用いられ、前記キーポイントの前記加重特徴ベクトルを前記キーポイントの第2特徴情報とするために用いられる。
【0110】
一部の実施例では、前記第1設定範囲は複数あり、前記第1特定ユニット703は、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定するために用いられる場合、具体的には、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴を特定するために用いられ、前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することは、各前記第1設定範囲について、前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴に基づいて、前記第1設定範囲に対応する該キーポイントの初期第1意味特徴ベクトルを特定することと、各前記第1設定範囲に対応する該キーポイントの前記初期第1意味特徴ベクトルを加重平均し、該畳み込みブロックにおける該キーポイントの第1意味特徴ベクトルを取得することとを含む。
【0111】
一部の実施例では、前記第2特定ユニット704は具体的には、各初期3次元検出フレームについて、前記初期3次元検出フレームをメッシュ化することによって得られた格子点に基づいて、複数のサンプリング点を特定するために用いられ、前記複数のサンプリング点内の各サンプリング点について、前記サンプリング点の第2設定範囲内のキーポイントを取得し、また前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて前記サンプリング点の第4特徴情報を特定するために用いられ、前記複数のサンプリング点の順序に基づいて前記複数のサンプリング点のそれぞれの第4特徴情報を順次接続し、前記初期3次元検出フレームの目標特徴ベクトルを取得するために用いられ、前記初期3次元検出フレームの目標特徴ベクトルに基づいて、前記初期3次元検出フレームを修正し、修正後の3次元検出フレームを取得するために用いられ、各前記修正後の3次元検出フレームの信頼度スコアに基づいて、1つ以上の前記修正後の3次元検出フレームから目標3次元検出フレームを特定するために用いられる。
【0112】
一部の実施例では、前記第2設定範囲は複数あり、前記第2特定ユニット704は、前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて該サンプリング点の第4特徴情報を特定するために用いられる場合、具体的には、各前記第2設定範囲について、該サンプリング点の前記第2設定範囲内のキーポイントの第2特徴情報に基づいて、前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を特定するために用いられ、各前記第2設定範囲に対応する該サンプリング点の各初期第4特徴情報を加重平均し、該サンプリング点の第4特徴情報を取得するために用いられる。
【0113】
本発明の実施例はまた、インテリジェント運転装置を提供し、インテリジェント運転装置は、インテリジェント運転装置が位置するシーンの3次元点群データを取得するために用いられる取得モジュールと、本発明の実施形態によって提供される3次元目標検出方法のいずれかを用いて、前記3次元点群データに基づいて前記シーンに対して3次元目標検出を実行するために用いられる検出モジュールと、特定された3次元目標検出フレームに基づいて前記インテリジェント運転装置の運転を制御するために用いられる制御モジュールとを含む。
【0114】
図8は、本発明の少なくとも1つの実施例によって提供される3次元目標検出デバイスの概略構造図である。前記デバイスは、プロセッサと、プロセッサによって実行可能な命令を記憶するためのメモリとを含み、ここで、前記命令が実行されると、前記プロセッサに、少なくとも1つの実施例による3次元目標検出方法を実施されるか、又は本発明の実施例によって提供されるインテリジェント運転方法を実行させる。
【0115】
本発明はまた、コンピュータープログラムが記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータープログラムがプロセッサに実行されると、前記プロセッサに、少なくとも1つの実施例による3次元目標検出方法を実施されるか、又は本発明の実施例によって提供されるインテリジェント運転方法を実行させる。
【0116】
本発明はまた、コンピュータープログラムを提供し、コンピュータープログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子デバイスで実行されると、前記電子デバイス内のプロセッサは少なくとも1つの実施例による3次元目標検出方法を実行するか、又は本発明の実施例によって提供されるインテリジェント運転方法を実行する。
【0117】
当業者であれば、本発明の1つ以上の実施例は方法、システム又はコンピュータープログラム製品として提供され得ることを理解すべきである。したがって、本発明の1つ以上の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、又はソフトウェアとハードウェアを組み合わせた実施例の形態を採用することができる。また、本発明の1つ以上の実施例は、コンピュータ利用可能プログラムコードを含む1つ以上のコンピュータ利用可能記憶媒体(磁気ディスク記憶装置、CD‐ROM、光学記憶装置などを含むが、これらに限定されない)上に実装されるコンピュータープログラム製品の形態を採用することができる。
【0118】
本発明における各実施例はいずれも、漸進的に記載され、各実施例は、他の実施例との相違点に焦点を合わせ、各実施例間の同じ又は類似の部分については、互いに参照すればよい。特に、データ処理装置の実施例について、それは基本的に方法の実施例に類似するため、説明は比較的簡単であり、関連する部分については、方法の実施例の説明の一部を参照すればよい。
【0119】
上記は本発明の特定の実施例について説明した。他の実施例は、添付の特許請求の範囲内にある。場合によっては、特許請求の範囲に記載されている行為又はステップは、実施例とは異なる順序で実行することができ、それでも依然として所望の結果を達成することができる。また、図面に示されているプロセスは、所望の結果を達成するために、必ずしも示されている特定の順序又は連続した順序を必要としない。いくつかの実施形態では、マルチタスク処理及び並列処理も可能であるか、又は有利である可能性がある。
【0120】
本発明に記載されている主題及び機能的動作の実施例は、デジタル電子回路、有形のコンピュータソフトウェア又はファームウェア、本発明に発明されている構造及びその構造的同等物を含むコンピュータハードウェア、又はそれらの1つ以上の組み合わせに実装することができる。本発明に記載される主題の実施例は、1つ以上のコンピュータープログラム、即ち、データ処理装置によって実行されるか、又はデータ処理装置の動作を制御するために有形の非一時的なプログラムキャリア上に符号化されたコンピュータープログラム命令中の1つ以上のモジュールとして実装されてもよい。代替的又は追加的に、プログラム命令は、機械によって生成された電気、光、又は電磁信号などの人工的に生成された伝搬信号に符号化されてもよく、該信号は、情報を符号化し、データ処理装置による実行のために適切な受信機装置に送信するために生成される。コンピュータ記憶媒体は機械可読記憶装置、機械可読記憶基板、ランダム又は順次アクセスメモリ装置、又はそれらの1つ以上の組み合わせであり得る。
【0121】
本発明に記載されている処理及び論理フローは、1つ以上のコンピュータープログラムを実行する1つ以上のプログラム可能なコンピュータによって実行され、入力データに従って動作し、かつ出力を生成することによって対応する機能を実行することができる。前記処理及び論理フローはまた、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)などの専用論理回路によって実行することもでき、また、装置を専用論理回路として実装することもできる。
【0122】
コンピュータープログラムを実行するのに適したコンピュータは、例えば、汎用及び/又は専用マイクロプロセッサ、又は任意の他のタイプの中央処理装置を含む。一般に、中央処理装置は、読み取り専用メモリ及び/又はランダムアクセスメモリから命令及びデータを受信する。コンピュータの基本コンポーネントは、命令を実装又は実行するための中央処理装置と、命令及びデータを記憶するための1つ以上のメモリ装置とを含む。一般に、コンピュータはまた、磁気ディスク、光磁気ディスク、又は光ディスクなどのデータを記憶するための1つ以上の大容量記憶装置を含み、又はコンピュータは、この大容量記憶装置に動作可能に結合されて、それからデータを受信又はそれにデータを送信し、又は両方の場合がある。しかしながら、コンピュータにそのようなデバイスが必要なわけではない。更に、コンピュータは、いくつか例を挙げると、携帯電話、携帯情報端末(PDA)、モバイルオーディオ又はビデオプレーヤー、ゲームコンソール、全地球測位システム(GPS)受信機、又はユニバーサルシリアルバス(USB)フラッシュドライブなどの携帯型記憶装置などの他のデバイスに組み込むことができる。
【0123】
コンピュータープログラムの命令及びデータを記憶するのに適したコンピュータ可読媒体は、例えば、半導体メモリ装置(例えば、EPROM、EEPROM及びフラッシュメモリ装置)、磁気ディスク(例えば、内蔵ハードディスク又はリムーバブルディスク)、光磁気ディスク、並びにCD ROM及びDVD‐ROMディスクを含むあらゆる形態の不揮発性メモリ、媒体、及びメモリ装置を含む。プロセッサ及びメモリは、専用論理回路によって補完されるか、又は専用論理回路に組み込むことができる。
【0124】
本発明は多くの特定の実装の詳細を含むが、これらは、任意の実施例の範囲又は保護を請求する範囲を限定するものとして解釈されるべきではなく、主に特定の実施例の具体的な実施例の特徴を説明するために使用される。本発明内の複数の実施例に記載される特定の特徴はまた、単一の実施例において組み合わせて実施され得る。一方、単一の実施例に記載される様々な特徴はまた、複数の実施例において別々に又は任意の適切なサブ組み合わせで実施され得る。更に、特徴は、上記のように特定の組み合わせにおいて機能することができ、また最初にそのように保護を請求された場合であっても、保護を請求された組み合わせからの1つ以上の特徴が、場合によっては該組み合わせから削除することができ、また保護を請求された組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を対象とすることがある。
【0125】
同様に、図面中に特定の順序で動作を示しているが、これは、所望の結果を達成するために、これらの動作を示されている特定の順序で又は順次に実行することを要求すること、又は図示されているすべての動作を実行することを要求することとして理解されるべきではない。場合によっては、マルチタスクと並列処理が有利な場合がある。更に、上記の実施例における様々なシステムモジュール及びコンポーネントの分離は、すべての実施例においてそのような分離が必要とされることを理解されるべきではなく、また、記載されたプログラムコンポーネント及びシステムは通常、単一のソフトウェア製品に統合することができ、又は複数のソフトウェア製品にパッケージ化することができることを理解すべきである。
【0126】
以上より、主題の特定の実施例について説明した。他の実施例は添付の特許請求の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序で実行することができ、それでも依然として所望の結果を達成することができる。更に、所望の結果を達成するために、図面に示されている処理は、必ずしも示されている特定の順序又は連続した順序である必要はない。一部の実装では、マルチタスクと並列処理が有利な場合がある。
【0127】
上記の説明は、本発明の1つ以上の実施例の好ましい実施例に過ぎず、本発明の1つ以上の実施例を限定することを意図するものではなく、本発明の1つ以上の実施例の精神及び原則から逸脱することなく、行われるすべての修正、同等置換、改善などは、すべて本発明の1つ以上の実施例の保護範囲に含まれるべきである。
【手続補正書】
【提出日】2022-01-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得するステップと、
前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するステップと、
前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するステップと、
前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから検出すべき3次元目標を含む目標3次元検出フレームを特定するステップと、を含む、ことを特徴とする3次元目標検出方法。
【請求項2】
前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得することは、
事前にトレーニングされた3次元畳み込みネットワークを使用し、前記ボクセル化点群データに対して3次元畳み込み演算を実行し、前記3次元畳み込みネットワークは、順次接続された複数の畳み込みブロックを含み、各前記畳み込みブロックは、入力データに対して3次元畳み込み演算を実行することと、
各前記畳み込みブロックによって出力された3次元意味特徴体を取得し、前記3次元意味特徴体は、各前記ボクセルの3次元意味特徴を含むことと、
前記複数のボクセル内の各ボクセルについて、各前記畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記ボクセルの第1特徴情報を取得することと、を含む、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記初期3次元検出フレームを取得することは、
前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って俯瞰特徴マップに投影し、前記俯瞰特徴マップにおける各ピクセルの第3特徴情報を取得することと、
各前記ピクセルを中心として1つ以上の3次元アンカーフレームを設定することと、
各前記3次元アンカーフレームについて、前記3次元アンカーフレームの境界に位置する1つ以上のピクセルの第3特徴情報に基づいて、前記3次元アンカーフレームの信頼度スコアを特定することと、
各前記3次元アンカーフレームの信頼度スコアに基づいて、前記1つ以上の3次元アンカーフレームから前記1つ以上の初期3次元検出フレームを特定することと、を含む、ことを特徴とする請求項2に記載の方法。
【請求項4】
前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、
前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定することは、
各前記畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、
変換された座標系で、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ、前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、
各前記畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得することと、
前記キーポイントに対応する第2意味特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む、ことを特徴とする請求項2~
3のいずれか一項に記載の方法。
【請求項5】
前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、
前記キーポイントの位置情報及び前記複数のボクセルの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定することは、
各前記畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、
変換された座標系で、各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、
各前記畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続し、前記キーポイントの第2意味特徴ベクトルを取得することと、
前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得することと、
前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られることと、
前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得することと、
前記キーポイントの目標特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む、ことを特徴とする請求項2~
3のいずれか一項に記載の方法。
【請求項6】
前記3次元畳み込みネットワークにおける複数の畳み込みブロックは、異なるスケールの3次元意味特徴体を出力し、
前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定することは、
各畳み込みブロックによって出力された3次元意味特徴体及び前記キーポイントを同じ座標系に変換することと、
変換された座標系で、各畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定し、かつ前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することと、
各畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを順次接続して、前記キーポイントの第2意味特徴ベクトルを取得することと、
前記3次元点群データにおける前記キーポイントの点群特徴ベクトルを取得することと、
前記キーポイントを俯瞰特徴マップに投影し、前記キーポイントの俯瞰特徴ベクトルを取得し、前記俯瞰特徴マップは、前記3次元畳み込みネットワークにおける最後の畳み込みブロックによって出力された3次元意味特徴体を俯瞰の視点に沿って投影することによって得られることと、
前記キーポイントの前記第2意味特徴ベクトル、前記点群特徴ベクトル及び前記俯瞰特徴ベクトルを接続し、前記キーポイントの目標特徴ベクトルを取得することと、
前記キーポイントが前景ポイントである確率を予測することと、
前記キーポイントが前景ポイントである確率を前記キーポイントの目標特徴ベクトルと乗算し、前記キーポイントの加重特徴ベクトルを取得することと、
前記キーポイントの前記加重特徴ベクトルを前記キーポイントの第2特徴情報とすることとを含む、ことを特徴とする請求項2~
3のいずれか一項に記載の方法。
【請求項7】
前記第1設定範囲は複数あり、
各前記畳み込みブロックについて、該畳み込みブロックによって出力された3次元意味特徴体に基づいて、前記第1設定範囲内にある前記キーポイントの非空ボクセルの3次元意味特徴を特定することは、
該畳み込みブロックによって出力された3次元意味特徴体に基づいて、各前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴を特定することを含み、
前記非空ボクセルの3次元意味特徴に基づいて、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを特定することは、
各前記第1設定範囲について、前記第1設定範囲内にある該キーポイントの非空ボクセルの3次元意味特徴に基づいて、前記第1設定範囲に対応する該キーポイントの初期第1意味特徴ベクトルを特定することと、
各前記第1設定範囲に対応する該キーポイントの前記初期第1意味特徴ベクトルを加重平均し、該畳み込みブロックにおける前記キーポイントの第1意味特徴ベクトルを取得することとを含む、ことを特徴とする請求項
4~6のいずれか一項に記載の方法。
【請求項8】
前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから目標3次元検出フレームを特定するステップは、
各初期3次元検出フレームについて、
前記初期3次元検出フレームをメッシュ化することによって得られた格子点に基づいて、複数のサンプリング点を特定することと、
前記複数のサンプリング点内の各サンプリング点について、前記サンプリング点の第2設定範囲内のキーポイントを取得し、また 前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて前記サンプリング点の第4特徴情報を特定することと、
前記複数のサンプリング点の順序に基づいて前記複数のサンプリング点のそれぞれの第4特徴情報を順次接続し、前記初期3次元検出フレームの目標特徴ベクトルを取得することと、
前記初期3次元検出フレームの目標特徴ベクトルに基づいて、前記初期3次元検出フレームを修正し、修正後の3次元検出フレームを取得することと、
各前記修正後の3次元検出フレームの信頼度スコアに基づいて、1つ以上の前記修正後の3次元検出フレームから目標3次元検出フレームを特定することとを含む、ことを特徴とする請求項1~
7のいずれか一項に記載の方法。
【請求項9】
前記第2設定範囲は複数あり、
前記サンプリング点の第2設定範囲内のキーポイントの第2特徴情報に基づいて該サンプリング点の第4特徴情報を特定することは、
各前記第2設定範囲について、該サンプリング点の前記第2設定範囲内のキーポイントの第2特徴情報に基づいて、前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を特定することと、
各前記第2設定範囲に対応する該サンプリング点の初期第4特徴情報を加重平均して、該サンプリング点の第4特徴情報を取得することとを含む、ことを特徴とする請求項
8に記載の方法。
【請求項10】
前記3次元点群データは、インテリジェント運転装置が位置するシーン
で取得された3次元点群データ
であり、
前記方法
は、3次元目標検出
フレームを特定した後に、特定された3次元目標検出フレームに基づいて前記インテリジェント運転装置の運転を制御するステップ
をさらに含む、こと特徴とする
請求項1から9のいずれか一項に記載の方法。
【請求項11】
3次元点群データをボクセル化し、複数のボクセルに対応するボクセル化点群データを取得するために用いられる第1取得ユニットと、
前記ボクセル化点群データに対して特徴抽出を実行し、前記複数のボクセルのそれぞれの第1特徴情報を取得し、かつ1つ以上の初期3次元検出フレームを取得するために用いられる第2取得ユニットと、
前記3次元点群データをサンプリングすることによって得られた複数のキーポイント内の各キーポイントについて、前記キーポイントの位置情報及び前記複数のボクセルのそれぞれの第1特徴情報に基づいて、前記キーポイントの第2特徴情報を特定するために用いられる第1特定ユニットと、
前記1つ以上の初期3次元検出フレームがそれぞれ囲むキーポイントの第2特徴情報に基づいて、前記1つ以上の初期3次元検出フレームから検出すべき3次元目標を含む目標3次元検出フレームを特定するために用いられる第2特定ユニットと、を含む、こと特徴とする3次元目標検出装置。
【請求項12】
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、
前記命令が実行されると、前記プロセッサに、請求項1~
10のいずれか一項に記載の方法を実施される、こと特徴とする3次元目標検出デバイス。
【請求項13】
コンピュータープログラムが記憶された、前記コンピュータープログラムがプロセッサに実行されると、前記プロセッサに請求項1~
10のいずれか一項に記載の方法を実施される、こと特徴とするコンピュータ可読記憶媒体。
【請求項14】
コンピュータ可読コードを含み、前記コンピュータ可読コードが電子デバイスで実行されると、前記電子デバイス内のプロセッサは請求項1~
10のいずれか一項に記載の方法を実行する、こと特徴とするコンピュータープログラム。
【国際調査報告】