IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ タタ コンサルタンシー サービシズ リミテッドの特許一覧

特開2023-158638自律走行車両のためのライダーポイントクラウド及び周辺カメラを用いたフュージョンベースのオブジェクトトラッカー
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023158638
(43)【公開日】2023-10-30
(54)【発明の名称】自律走行車両のためのライダーポイントクラウド及び周辺カメラを用いたフュージョンベースのオブジェクトトラッカー
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231023BHJP
   G05D 1/02 20200101ALI20231023BHJP
   G08G 1/16 20060101ALN20231023BHJP
【FI】
G06T7/00 650Z
G05D1/02 K
G08G1/16 C
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023050910
(22)【出願日】2023-03-28
(31)【優先権主張番号】202221022815
(32)【優先日】2022-04-18
(33)【優先権主張国・地域又は機関】IN
(71)【出願人】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
【住所又は居所原語表記】Nirmal Building,9th Floor,Nariman Point,Mumbai 400021,Maharashtra,India.
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100141553
【弁理士】
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】マノジュ チャサンクランガラ ラジャン
(72)【発明者】
【氏名】マルニーディ ヴァムシ
(72)【発明者】
【氏名】エドウィン カンジラシナル ジョセ
(72)【発明者】
【氏名】アルンクリシュナ サイールラヴィ
(72)【発明者】
【氏名】アパルナ ミニ パラメスワラン
【テーマコード(参考)】
5H181
5H301
5L096
【Fターム(参考)】
5H181AA01
5H181BB04
5H181BB05
5H181CC03
5H181CC04
5H181CC12
5H181DD02
5H181LL01
5H181LL02
5H181LL07
5H181LL08
5H301AA03
5H301AA10
5H301CC03
5H301CC06
5H301DD07
5H301DD15
5H301GG08
5H301GG09
5H301LL01
5H301LL02
5H301LL03
5H301LL06
5H301LL11
5H301QQ06
5H301QQ08
5L096AA09
5L096BA04
5L096CA05
5L096EA26
5L096FA02
5L096FA18
5L096FA32
5L096FA66
5L096FA69
5L096GA34
5L096HA04
5L096HA05
5L096HA11
5L096JA11
(57)【要約】      (修正有)
【課題】自律走行車両のためのライダーポイントクラウド及び周辺カメラを用いたフュージョンベースのオブジェクトトラッカーを提供する。
【解決手段】3D-LIDARポイントクラウド、2D-カメラ画像及び3D LIDARポイントクラウドからの2D-BEVを利用して、オブジェクトの堅牢でシームレスな360追跡を提供する方法であって、自律走行車両に取り付けられたLIDARと2Dカメラの夫々によってキャプチャされたオブジェクトを独立して検出し追跡する。検出及び追跡は2D-カメラと2D-BEV上で行われ、3D-ライダートラッカーとフュージョンされる。更に、2D-BBとパノプティックセグメンテーション出力を重ね合わせ、2Dバウンディングボックス内のオブジェクトの非オクルード領域を識別し、無関係なオブジェクトに位置するライダーポイントを排除して、ポイントクラウド内の検出オブジェクトの正確な実世界位置を提供する。
【選択図】図3A
【特許請求の範囲】
【請求項1】
オブジェクト追跡のためのプロセッサ実装方法(200)であって、
前記方法は、
1又は2以上のハードウェアプロセッサによって、(a)車両に取り付けられた2Dカメラセットアップを介して前記車両を取り巻く環境の複数の2次元(2D)画像と、(b)前記車両に取り付けられた光検出及び測距(LIDAR)を介して前記環境の複数の3次元(3D)ポイントクラウドとを含むストリーミングデータを受け取るステップ(202)と、
前記1又は2以上のハードウェアプロセッサによって、前記複数の3Dポイントクラウドの各々を、対応する複数の2Dバードアイビュー(BEV)画像に変換するステップ(204)と、
前記1又は2以上のハードウェアプロセッサによって、以下(a)~(c)を同時に処理するステップ(206)であって、
(a)前記複数の2D画像であって、(i)MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて第1の2Dオブジェクト検出器を使用して前記複数の2D画像の各々におけるオブジェクトの第1のセットを検出し、(ii)2Dカメラトラッカーを使用して前記オブジェクトの第1のセットに対応する2Dカメラオブジェクトを追跡するためトラッカーIDで前記複数の2D画像の各々の前記オブジェクトの第1のセットの各オブジェクトをラベリングする、前記複数の2D画像と、
(b)複数の2D BEV画像であって、(i)前記MISH活性化関数を利用して前記カスタマイズされたNNアーキテクチャに基づいて第2の2Dオブジェクト検出器を使用して前記複数の2D-BEV画像の各々におけるオブジェクトの第2のセットを検出し、(ii)2D-BEVトラッカーを使用して前記オブジェクトの第2のセットに対応する2D-BEVオブジェクトを追跡するため前記トラッカーIDで前記複数の2D-BEV画像の各々の前記オブジェクトの第2のセットの各オブジェクトをラベリングする、前記複数の2D BEV画像と、
(c)前記複数の3Dポイントクラウドであって、(i)3D LIDARオブジェクト検出器を用いて前記複数の3Dポイントクラウドの各々におけるオブジェクトの第3のセットを検出し、(ii)3D LIDARトラッカーを使用して前記オブジェクトの第3のセットに対応する3D LIDARオブジェクトを追跡するため前記トラッカーIDで前記複数の3Dポイントクラウドの各々の前記オブジェクトの第3のセットの各オブジェクトをラベリングする、前記複数の3Dポイントクラウドと、
を同時に処理するステップ(206)と、
前記1又は2以上のハードウェアプロセッサによって、前記2D-BEVトラッカー内の前記2D-BEVオブジェクトと前記3D LIDARトラッカー内の前記3D LIDARオブジェクトとの間の対応関係を決定することによって、複数のフュージョンLIDARオブジェクトに対するフュージョンLIDARトラッカーを生成するステップ(208)と、
前記1又は2以上のハードウェアプロセッサによって、前記フュージョンLIDARトラッカー内の前記複数のフュージョンLIDARオブジェクトと前記2Dカメラトラッカー内の前記2Dカメラオブジェクトとの間の対応関係を決定することによって、統合トラッカーを生成するステップ(210)と、
を含み、
前記統合トラッカーを生成するステップが、
(a)前記フュージョンLIDARトラッカー及び前記2Dカメラトラッカーから出力を読み込むステップと、
(b)較正行列を使用して、前記複数の3Dポイントクラウド及び対応する前記複数の2D画像の各々を補正したエゴモーションのルックアップテーブルを作成するステップと、
(c)パノプティックセグメンテーション出力上に2Dバウンディングボックスを重ね合わせることにより、2Dバウンディングボックス内の非オクルード領域を識別するステップと、
(d)ポイントクラウド-画像ルックアップテーブルを参照することにより、前記2Dバウンディングボックス(BB)の前記非オクルード領域上に再投影されたLIDARポイントからカメラ2D検出の位置を計算するステップであって、ノイズを伴う密度ベースの空間クラスタリングを用いて前記非オクルード領域のLIDARポイントのセットを選択することにより、距離推定のために最良のクラスタが識別され、前記最良のクラスタを選択するために支配的クラスタ選択アプローチが適用される、ステップと、
(e)非マッピング検出の最も近いユークリッドマッチを選択することによって、前記複数のフュージョンLIDARオブジェクトに推定距離を有する前記2Dカメラオブジェクトをマッピングするステップと、
(f)前記複数のフュージョンLIDARオブジェクトに関連する属性を、対応する2Dカメラオブジェクトに関連する属性とマージするステップと、
(g)1又は2以上の前記2Dカメラオブジェクトが、前記フュージョンLIDARオブジェクトとの対応するマッピングを有することができないかどうかを決定するステップであって、再投影プロセスによって決定された2D BBの位置が使用される、ステップと、
(h)1又は2以上の前記フュージョンLIDARオブジェクトが、前記2Dカメラオブジェクトとの対応するマッピングを有することができないかどうかを決定し、前記1又は2以上のフュージョンLIDARオブジェクトについて前記複数の2Dカメラオブジェクトに関連する前記属性を、前記オブジェクトの以前の発生及びデフォルト値のうちの1つから導出するステップと、
を含む、方法。
【請求項2】
前記MISH活性化関数を利用して前記カスタマイズされたNNアーキテクチャに基づいて前記第1の2Dオブジェクト検出器及び第2の2Dオブジェクト検出器が、
2D画像から特徴抽出を行うためのバックボーンと、
(i)負の値を保存し、トレーニングにおいてより良好な正則化と汎化とを提供して受信したストリーミングデータに対してノイズの多い状況での検出を強化できるMISH活性化関数と、(ii)クラッター状況で検出タスクに寄与する関心オブジェクトにのみ焦点を当てることにより関連する特徴を抽出する空間アテンションモジュール(SAM)が更に加えられた5つの畳み込み層を含む経路集約ネットワーク(PAN)と、を用いた特徴集約のためのネックと、
小形及び中型サイズのオブジェクトの検出のために、前記MISH活性化関数と畳み込み層の追加のセットとを使用するヘッドと、
を備える、請求項1に記載の方法。
【請求項3】
前記2Dカメラトラッカーは、
オブジェクトの発散又は収束運動に起因した急激なサイズ変化を扱うことによる前記BBのドリフトに対処するためのK-最近傍KNNステージと、
複雑な状況においてオブジェクト検出と2Dカメラトラッカーとの間のトラックIDの関連付けを処理するためのパディング、オプティカルフロー、スケール不変特徴変換(SIFT)を含む複数の幾何学的及び特徴マッチングステージと、
ゴースト追跡を制御するSIFT及びオプティカルフローベースの特徴マッチングアプローチと、
を含む、請求項1に記載の方法。
【請求項4】
前記パノプティックセグメンテーションは、前記2Dカメラセットアップのカメラのフレーム内の前記2Dオブジェクトに対するセマンティックセグメンテーション及びインスタンスセグメンテーションを取得し、前記2Dオブジェクトに対応する可視ピクセルのみが、パノプティックセグメンテーション出力に対して前記2D BBを重ねることによってカメラフレームから抽出され、フュージョン時に、無関係なオブジェクトからの3D LIDARポイントを排除して、前記3Dポイントクラウド内の前記検出されたオブジェクトの正確な実世界位置を提供できるようにする、請求項1に記載の方法。
【請求項5】
前記最良のクラスタの選択精度は、2Dバウンディングボックスと前記パノプティックセグメンテーションの出力の重ね合わせから抽出された、ポイントの数及びオブジェクトの軌跡に基づいて距離信頼性を割り当てることによって更に確保される、請求項1に記載の方法。
【請求項6】
前記カメラトラッカーのみで検出されたオブジェクトに対応する前記カメラ2D検出の偏差は、中心点ベースの速度及びアセンテッドカルマンフィルタを適用することによって補正され、長手方向位置と横方向位置は、非オクルード領域から最良クラスタの平均を取ることによって決定される、請求項1に記載の方法。
【請求項7】
前記2Dカメラセットアップは、各々の視野(FoV)が前記環境の異なる領域をカバーする複数のカメラを含み、前記複数のカメラの各々についてカメラトラッカーの単一化によって、複数のカメラビューにわたるシームレスな追跡が得られる、請求項1に記載の方法。
【請求項8】
オブジェクト追跡のためのシステム(100)であって、
前記システム(100)が、
命令を格納するメモリ(102)と、
1又は2以上の入力/出力(I/O)インタフェース(106)と、
前記1又は2以上のI/Oインタフェース(106)を介して前記メモリ(102)に結合された1又は2以上のハードウェアプロセッサ(104)と、
を備え、
前記1又は2以上のハードウェアプロセッサ(104)は、前記命令によって、
(a)車両に取り付けられた2Dカメラセットアップを介して前記車両を取り巻く環境の複数の2次元(2D)画像と、(b)前記車両に取り付けられた光検出及び測距(LIDAR)を介して前記環境の複数の3次元(3D)ポイントクラウドとを含むストリーミングデータを受け取り、
前記複数の3Dポイントクラウドの各々を、対応する複数の2Dバードアイビュー(BEV)画像に変換し、
(a)前記複数の2D画像であって、(i)MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて第1の2Dオブジェクト検出器を使用して前記複数の2D画像の各々におけるオブジェクトの第1のセットを検出し、(ii)2Dカメラトラッカーを使用して前記オブジェクトの第1のセットに対応する2Dカメラオブジェクトを追跡するためトラッカーIDで前記複数の2D画像の各々の前記オブジェクトの第1のセットの各オブジェクトをラベリングする、前記複数の2D画像と、(b)複数の2D BEV画像であって、(i)前記MISH活性化関数を利用して前記カスタマイズされたNNアーキテクチャに基づいて第2の2Dオブジェクト検出器を使用して前記複数の2D-BEV画像の各々におけるオブジェクトの第2のセットを検出し、(ii)2D-BEVトラッカーを使用して前記オブジェクトの第2のセットに対応する2D-BEVオブジェクトを追跡するため前記トラッカーIDで前記複数の2D-BEV画像の各々の前記オブジェクトの第2のセットの各オブジェクトをラベリングする、前記複数の2D BEV画像と、(c)前記複数の3Dポイントクラウドであって、(i)3D LIDARオブジェクト検出器を用いて前記複数の3Dポイントクラウドの各々におけるオブジェクトの第3のセットを検出し、(ii)3D LIDARトラッカーを使用して前記オブジェクトの第3のセットに対応する3D LIDARオブジェクトを追跡するため前記トラッカーIDで前記複数の3Dポイントクラウドの各々の前記オブジェクトの第3のセットの各オブジェクトをラベリングする、前記複数の3Dポイントクラウドと、を同時に処理し、
前記2D-BEVトラッカー内の前記2D-BEVオブジェクトと前記3D LIDARトラッカー内の前記3D LIDARオブジェクトとの間の対応関係を決定することによって、複数のフュージョンLIDARオブジェクトに対するフュージョンLIDARトラッカーを生成し、
前記フュージョンLIDARトラッカー内の前記複数のフュージョンLIDARオブジェクトと前記2Dカメラトラッカー内の前記2Dカメラオブジェクトとの間の対応関係を決定することによって、統合トラッカーを生成する、
ように構成され、
前記統合トラッカーは、
(a)前記フュージョンLIDARトラッカー及び前記2Dカメラトラッカーから出力を読み込むステップと、
(b)較正行列を使用して、前記複数の3Dポイントクラウド及び対応する前記複数の2D画像の各々を補正したエゴモーションのルックアップテーブルを作成するステップと、
(c)パノプティックセグメンテーション出力上に2Dバウンディングボックスを重ね合わせることにより、2Dバウンディングボックス内の非オクルード領域を識別するステップと、
(d)ポイントクラウド-画像ルックアップテーブルを参照することにより、前記2Dバウンディングボックス(BB)の前記非オクルード領域上に再投影されたLIDARポイントからカメラ2D検出の位置を計算するステップであって、ノイズを伴う密度ベースの空間クラスタリングを用いて前記非オクルード領域のLIDARポイントのセットを選択することにより、距離推定のために最良のクラスタが識別され、前記最良のクラスタを選択するために支配的クラスタ選択アプローチが適用される、ステップと、
(e)非マッピング検出の最も近いユークリッドマッチを選択することによって、前記複数のフュージョンLIDARオブジェクトに推定距離を有する前記2Dカメラオブジェクトをマッピングするステップと、
(f)前記複数のフュージョンLIDARオブジェクトに関連する属性を、対応する2Dカメラオブジェクトに関連する属性とマージするステップと、
(g)1又は2以上の前記2Dカメラオブジェクトが、前記フュージョンLIDARオブジェクトとの対応するマッピングを有することができないかどうかを決定するステップであって、再投影プロセスによって決定された2D BBの位置が使用される、ステップと、
(h)1又は2以上の前記フュージョンLIDARオブジェクトが、前記2Dカメラオブジェクトとの対応するマッピングを有することができないかどうかを決定し、前記1又は2以上のフュージョンLIDARオブジェクトについて前記複数の2Dカメラオブジェクトに関連する前記属性を、前記オブジェクトの以前の発生及びデフォルト値のうちの1つから導出するステップと、
によって生成される、システム(100)。
【請求項9】
前記MISH活性化関数を利用して前記カスタマイズされたNNアーキテクチャに基づいて前記第1の2Dオブジェクト検出器及び第2の2Dオブジェクト検出器が、
2D画像から特徴抽出を行うためのバックボーンと、
(i)負の値を保存し、トレーニングにおいてより良好な正則化と汎化とを提供して受信したストリーミングデータに対してノイズの多い状況での検出を強化できるMISH活性化関数と、(ii)クラッター状況で検出タスクに寄与する関心オブジェクトにのみ焦点を当てることにより関連する特徴を抽出する空間アテンションモジュール(SAM)が更に加えられた5つの畳み込み層を含む経路集約ネットワーク(PAN)と、を用いた特徴集約のためのネックと、
小形及び中型サイズのオブジェクトの検出のために、前記MISH活性化関数と畳み込み層の追加のセットとを使用するヘッドと、
を備える、請求項8に記載のシステム(100)。
【請求項10】
前記2Dカメラトラッカーは、
オブジェクトの発散又は収束運動に起因した急激なサイズ変化を扱うことによる前記BBのドリフトに対処するためのK-最近傍KNNステージと、
複雑な状況においてオブジェクト検出と2Dカメラトラッカーとの間のトラックIDの関連付けを処理するためのパディング、オプティカルフロー、スケール不変特徴変換(SIFT)を含む複数の幾何学的及び特徴マッチングステージと、
ゴースト追跡を制御するSIFT及びオプティカルフローベースの特徴マッチングアプローチと、
を含む、請求項8に記載のシステム(100)。
【請求項11】
前記パノプティックセグメンテーションは、前記2Dカメラセットアップのカメラのフレーム内の前記2Dオブジェクトに対するセマンティックセグメンテーション及びインスタンスセグメンテーションを取得し、前記2Dオブジェクトに対応する可視ピクセルのみが、パノプティックセグメンテーション出力に対して前記2D BBを重ねることによってカメラフレームから抽出され、フュージョン時に、無関係なオブジェクトからの3D LIDARポイントを排除して、前記3Dポイントクラウド内の前記検出されたオブジェクトの正確な実世界位置を提供できるようにする、請求項8に記載のシステム(100)。
【請求項12】
前記最良のクラスタの選択精度は、2Dバウンディングボックスと前記パノプティックセグメンテーションの出力の重ね合わせから抽出された、ポイントの数及びオブジェクトの軌跡に基づいて距離信頼性を割り当てることによって更に確保される、請求項8に記載のシステム(100)。
【請求項13】
前記カメラトラッカーのみで検出されたオブジェクトに対応する前記カメラ2D検出の偏差は、中心点ベースの速度及びアセンテッドカルマンフィルタを適用することによって補正され、長手方向位置と横方向位置は、非オクルード領域から最良クラスタの平均を取ることによって決定される、請求項8に記載のシステム(100)。
【請求項14】
前記2Dカメラセットアップは、各々の視野(FoV)が前記環境の異なる領域をカバーする複数のカメラを含み、前記複数のカメラの各々についてカメラトラッカーの単一化によって、複数のカメラビューにわたるシームレスな追跡が得られる、請求項8に記載のシステム(100)。
【請求項15】
1又は2以上の命令を含む1又は2以上の非一時的な機械可読情報記憶媒体であって、
前記命令は、1又は2以上のハードウェアプロセッサによって実行されたときに、
1又は2以上のハードウェアプロセッサによって、(a)車両に取り付けられた2Dカメラセットアップを介して前記車両を取り巻く環境の複数の2次元(2D)画像と、(b)前記車両に取り付けられた光検出及び測距(LIDAR)を介して前記環境の複数の3次元(3D)ポイントクラウドとを含むストリーミングデータを受け取るステップ(202)と、
前記1又は2以上のハードウェアプロセッサによって、前記複数の3Dポイントクラウドの各々を、対応する複数の2Dバードアイビュー(BEV)画像に変換するステップ(204)と、
前記1又は2以上のハードウェアプロセッサによって、以下(a)~(c)を同時に処理するステップ(206)であって、
(a)前記複数の2D画像であって、(i)MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて第1の2Dオブジェクト検出器を使用して前記複数の2D画像の各々におけるオブジェクトの第1のセットを検出し、(ii)2Dカメラトラッカーを使用して前記オブジェクトの第1のセットに対応する2Dカメラオブジェクトを追跡するためトラッカーIDで前記複数の2D画像の各々の前記オブジェクトの第1のセットの各オブジェクトをラベリングする、前記複数の2D画像と、
(b)複数の2D BEV画像であって、(i)前記MISH活性化関数を利用して前記カスタマイズされたNNアーキテクチャに基づいて第2の2Dオブジェクト検出器を使用して前記複数の2D-BEV画像の各々におけるオブジェクトの第2のセットを検出し、(ii)2D-BEVトラッカーを使用して前記オブジェクトの第2のセットに対応する2D-BEVオブジェクトを追跡するため前記トラッカーIDで前記複数の2D-BEV画像の各々の前記オブジェクトの第2のセットの各オブジェクトをラベリングする、前記複数の2D BEV画像と、
(c)前記複数の3Dポイントクラウドであって、(i)3D LIDARオブジェクト検出器を用いて前記複数の3Dポイントクラウドの各々におけるオブジェクトの第3のセットを検出し、(ii)3D LIDARトラッカーを使用して前記オブジェクトの第3のセットに対応する3D LIDARオブジェクトを追跡するため前記トラッカーIDで前記複数の3Dポイントクラウドの各々の前記オブジェクトの第3のセットの各オブジェクトをラベリングする、前記複数の3Dポイントクラウドと、
を同時に処理するステップ(206)と、
前記1又は2以上のハードウェアプロセッサによって、前記2D-BEVトラッカー内の前記2D-BEVオブジェクトと前記3D LIDARトラッカー内の前記3D LIDARオブジェクトとの間の対応関係を決定することによって、複数のフュージョンLIDARオブジェクトに対するフュージョンLIDARトラッカーを生成するステップ(208)と、
前記1又は2以上のハードウェアプロセッサによって、前記フュージョンLIDARトラッカー内の前記複数のフュージョンLIDARオブジェクトと前記2Dカメラトラッカー内の前記2Dカメラオブジェクトとの間の対応関係を決定することによって、統合トラッカーを生成するステップ(210)と、
を引き起こし、
前記統合トラッカーを生成するステップが、
(a)前記フュージョンLIDARトラッカー及び前記2Dカメラトラッカーから出力を読み込むステップと、
(b)較正行列を使用して、前記複数の3Dポイントクラウド及び対応する前記複数の2D画像の各々を補正したエゴモーションのルックアップテーブルを作成するステップと、
(c)パノプティックセグメンテーション出力上に2Dバウンディングボックスを重ね合わせることにより、2Dバウンディングボックス内の非オクルード領域を識別するステップと、
(d)ポイントクラウド-画像ルックアップテーブルを参照することにより、前記2Dバウンディングボックス(BB)の前記非オクルード領域上に再投影されたLIDARポイントからカメラ2D検出の位置を計算するステップであって、ノイズを伴う密度ベースの空間クラスタリングを用いて前記非オクルード領域のLIDARポイントのセットを選択することにより、距離推定のために最良のクラスタが識別され、前記最良のクラスタを選択するために支配的クラスタ選択アプローチが適用される、ステップと、
(e)非マッピング検出の最も近いユークリッドマッチを選択することによって、前記複数のフュージョンLIDARオブジェクトに推定距離を有する前記2Dカメラオブジェクトをマッピングするステップと、
(f)前記複数のフュージョンLIDARオブジェクトに関連する属性を、対応する2Dカメラオブジェクトに関連する属性とマージするステップと、
(g)1又は2以上の前記2Dカメラオブジェクトが、前記フュージョンLIDARオブジェクトとの対応するマッピングを有することができないかどうかを決定するステップであって、再投影プロセスによって決定された2D BBの位置が使用される、ステップと、
(h)1又は2以上の前記フュージョンLIDARオブジェクトが、前記2Dカメラオブジェクトとの対応するマッピングを有することができないかどうかを決定し、前記1又は2以上のフュージョンLIDARオブジェクトについて前記複数の2Dカメラオブジェクトに関連する前記属性を、前記オブジェクトの以前の発生及びデフォルト値のうちの1つから導出するステップと、
を含む、1又は2以上の非一時的な機械可読情報記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願に対する相互参照及び優先権)
本出願は、2022年4月18日に出願されたインド国特許出願第202221022815号に対して優先権を主張する。
【0002】
(技術分野)
本明細書の実施形態は、一般に、自律走行車両のためのオブジェクト追跡に関し、より詳細には、自律走行車両のための光検出及び測距(LIDAR)ポイントクラウド及び周辺カメラを用いたフュージョンベースのオブジェクトトラッカーのための方法及びシステムに関する。
【背景技術】
【0003】
車両の前方にある障害物のドライバーの視点を得ることは、先進運転支援システム(ADAS)特徴又は自律走行車の最も重要な態様である。車両が移動する際に周囲環境のオブジェクトを追跡して、どのオブジェクトが自車両との衝突を引き起こす可能性があるかを把握することは重要である。センサーのカバーエリア、オクルージョン(遮蔽)、追跡されるオブジェクトの速度など、並びにオブジェクトの感知の際の環境上の課題の観点でセンサーの各タイプの限界を考慮すると、360度堅牢トラッキングは技術的に困難である。新しい技術が登場するにつれて、検出及び追跡の精度も向上する。機械学習(ML)技術と共に、光検出及び測距(LIDAR)並びに1又は2以上のカメラのようなセンサーの長所を使用して、堅牢なトラッカーを作成する試みがなされている。
【0004】
最近の既存技術は、オブジェクト追跡ソリューションを提供しおり、これらは車両の環境におけるオブジェクトをシームレスに追跡するためにLIDAR及びカメラのデータのフュージョン(フュージョン)に限定されており、両方のセンサーがオブジェクトを見逃すオクルージョンのような困難な状況において正確なオブジェクト検出及び更に堅牢な追跡に使用される技術の点で限界がある。更に、一部の既存の方法は、周辺環境の車両にのみ焦点を当てているが、移動する歩行者、信号機などの静止オブジェクトなどもまた、ADASでは極めて重要である。更にまた、クラッターの中から対象のオブジェクトに正しくフォーカスすることは、追跡前に起こるオブジェクト検出の別の課題である。このように、オブジェクト検出の精度を向上させ、検出されたオブジェクトを更に堅牢でシームレスに追跡することは、研究の余地がある領域である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示の実施形態は、従来のシステムにおいて本発明者らにより認識された上述の技術的問題の1又は2以上に対する解決策として技術的改善を提示する。
【課題を解決するための手段】
【0006】
例えば、一実施形態では、フュージョンベースのオブジェクト追跡のための方法が提供される。本方法は、(a)車両に取り付けられた2Dカメラセットアップを介して車両を取り巻く環境の複数の2次元(2D)画像と、(b)車両に取り付けられた光検出及び測距(LIDAR)を介して環境の複数の3次元(3D)ポイントクラウドとを含むストリーミングデータを受け取るステップと、を含む。更に、本方法は、複数の3Dポイントクラウドの各々を、対応する複数の2Dバードアイビュー(BEV)画像に変換するステップを含む。更に、本方法は、(a)複数の2D画像であって、(i)MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて第1の2Dオブジェクト検出器を使用して複数の2D画像の各々におけるオブジェクトの第1のセットを検出し、(ii)2Dカメラトラッカーを使用してオブジェクトの第1のセットに対応する2Dカメラオブジェクトを追跡するためトラッカーIDで複数の2D画像の各々のオブジェクトの第1のセットの各オブジェクトをラベリングする、複数の2D画像と、
(b)複数の2D BEV画像であって、(i)MISH活性化関数を利用してカスタマイズされたNNアーキテクチャに基づいて第2の2Dオブジェクト検出器を使用して複数の2D-BEV画像の各々におけるオブジェクトの第2のセットを検出し、(ii)2D-BEVトラッカーを使用してオブジェクトの第2のセットに対応する2D-BEVオブジェクトを追跡するためトラッカーIDで複数の2D-BEV画像の各々のオブジェクトの第2のセットの各オブジェクトをラベリングする、複数の2D BEV画像と、
(c)複数の3Dポイントクラウドであって、(i)3D LIDARオブジェクト検出器を用いて複数の3Dポイントクラウドの各々におけるオブジェクトの第3のセットを検出し、(ii)3D LIDARトラッカーを使用してオブジェクトの第3のセットに対応する3D LIDARオブジェクトを追跡するためトラッカーIDで複数の3Dポイントクラウドの各々のオブジェクトの第3のセットの各オブジェクトをラベリングする、複数の3Dポイントクラウドと、を同時に処理するステップを含む。更に、本方法は、2D-BEVトラッカー内の2D-BEVオブジェクトと3D LIDARトラッカー内の3D LIDARオブジェクトとの間の対応関係を決定することによって、複数のフュージョンLIDARオブジェクトに対するフュージョンLIDARトラッカーを生成するステップを含む。更に、本方法は、フュージョンLIDARトラッカー内の複数のフュージョンLIDARオブジェクトと2Dカメラトラッカー内の2Dカメラオブジェクトとの間の対応関係を決定することによって、統合トラッカーを生成するステップを含む。統合トラッカーを生成するステップが、
(a)フュージョンLIDARトラッカー及び2Dカメラトラッカーから出力を読み込むステップと、
(b)較正行列を使用して、複数の3Dポイントクラウド及び対応する複数の2D画像の各々を補正したエゴモーションのルックアップテーブルを作成するステップと、
(c)パノプティックセグメンテーション出力上に2Dバウンディングボックスを重ね合わせることにより、2Dバウンディングボックス内の非オクルード領域を識別するステップと、
(d)ポイントクラウド-画像ルックアップテーブルを参照することにより、2Dバウンディングボックス(BB)の非オクルード領域上に再投影されたLIDARポイントからカメラ2D検出の位置を計算するステップであって、ノイズを伴う密度ベースの空間クラスタリングを用いて非オクルード領域のLIDARポイントのセットを選択することにより、距離推定のために最良のクラスタが識別され、最良のクラスタを選択するために支配的クラスタ選択アプローチが適用される、ステップと、
(e)非マッピング検出の最も近いユークリッドマッチを選択することによって、複数のフュージョンLIDARオブジェクトに推定距離を有する2Dカメラオブジェクトをマッピングするステップと、
(f)複数のフュージョンLIDARオブジェクトに関連する属性を、対応する2Dカメラオブジェクトに関連する属性とマージするステップと、
(g)1又は2以上の2Dカメラオブジェクトが、フュージョンLIDARオブジェクトとの対応するマッピングを有することができないかどうかを決定するステップであって、再投影プロセスによって決定された2D BBの位置が使用される、ステップと、
(h)1又は2以上のフュージョンLIDARオブジェクトが、2Dカメラオブジェクトとの対応するマッピングを有することができないかどうかを決定し、1又は2以上のフュージョンLIDARオブジェクトについて複数の2Dカメラオブジェクトに関連する属性を、オブジェクトの以前の発生及びデフォルト値のうちの1つから導出するステップと、を含む。
【0007】
MISH活性化関数を利用してカスタマイズされたNNアーキテクチャに基づいて第1の2Dオブジェクト検出器及び第2の2Dオブジェクト検出器は、(a)2D画像から特徴抽出を行うためのバックボーンと、(b)(i)負の値を保存し、トレーニングにおいてより良好な正則化と汎化とを提供して受信したストリーミングデータに対してノイズの多い状況での検出を強化できるMISH活性化関数と、(ii)クラッター状況で検出タスクに寄与する関心オブジェクトにのみ焦点を当てることにより関連する特徴を抽出する空間アテンションモジュール(SAM)が更に加えられた5つの畳み込み層を含む経路集約ネットワーク(PAN)と、を用いた特徴集約のためのネックと、(c)小形及び中型サイズのオブジェクトの検出のために、MISH活性化関数と畳み込み層の追加のセットとを使用するヘッドと、を備える。
【0008】
別の態様では、フュージョンベースのオブジェクト追跡のためのシステムが提供される。本システムは、命令を格納するメモリと、1又は2以上の入力/出力(I/O)インタフェースと、1又は2以上のI/Oインタフェースを介してメモリに結合された1又は2以上のハードウェアプロセッサとを備え、1又は2以上のハードウェアプロセッサは、命令によって、(a)車両に取り付けられた2Dカメラセットアップを介して車両を取り巻く環境の複数の2次元(2D)画像と、(b)車両に取り付けられた光検出及び測距(LIDAR)を介して環境の複数の3次元(3D)ポイントクラウドと、を含むストリーミングデータを受け取るように構成される。更に、1又は2以上のハードウェアプロセッサは、複数の3Dポイントクラウドの各々を、対応する複数の2Dバードアイビュー(BEV)画像に変換するように構成される。更に、1又は2以上のハードウェアプロセッサは、(a)複数の2D画像であって、(i)MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて第1の2Dオブジェクト検出器を使用して複数の2D画像の各々におけるオブジェクトの第1のセットを検出し、(ii)2Dカメラトラッカーを使用してオブジェクトの第1のセットに対応する2Dカメラオブジェクトを追跡するためトラッカーIDで複数の2D画像の各々のオブジェクトの第1のセットの各オブジェクトをラベリングする、複数の2D画像と、(b)複数の2D BEV画像であって、(i)MISH活性化関数を利用してカスタマイズされたNNアーキテクチャに基づいて第2の2Dオブジェクト検出器を使用して複数の2D-BEV画像の各々におけるオブジェクトの第2のセットを検出し、(ii)2D-BEVトラッカーを使用してオブジェクトの第2のセットに対応する2D-BEVオブジェクトを追跡するためトラッカーIDで複数の2D-BEV画像の各々のオブジェクトの第2のセットの各オブジェクトをラベリングする、複数の2D BEV画像と、(c)複数の3Dポイントクラウドであって、(i)3D LIDARオブジェクト検出器を用いて複数の3Dポイントクラウドの各々におけるオブジェクトの第3のセットを検出し、(ii)3D LIDARトラッカーを使用してオブジェクトの第3のセットに対応する3D LIDARオブジェクトを追跡するためトラッカーIDで複数の3Dポイントクラウドの各々のオブジェクトの第3のセットの各オブジェクトをラベリングする、複数の3Dポイントクラウドと、を同時に処理するように構成されている。
【0009】
更に、1又は2以上のハードウェアプロセッサは、2D-BEVトラッカー内の2D-BEVオブジェクトと3D LIDARトラッカー内の3D LIDARオブジェクトとの間の対応関係を決定することによって、複数のフュージョンLIDARオブジェクトに対するフュージョンLIDARトラッカーを生成するように構成される。更に、1又は2以上のハードウェアプロセッサは、フュージョンLIDARトラッカー内の複数のフュージョンLIDARオブジェクトと2Dカメラトラッカー内の2Dカメラオブジェクトとの間の対応関係を決定することによって、統合トラッカーを生成するように構成される。統合トラッカーを生成するステップは、(a)フュージョンLIDARトラッカー及び2Dカメラトラッカーから出力を読み込むステップと、
(b)較正行列を使用して、複数の3Dポイントクラウド及び対応する複数の2D画像の各々を補正したエゴモーションのルックアップテーブルを作成するステップと、
(c)パノプティックセグメンテーション出力上に2Dバウンディングボックスを重ね合わせることにより、2Dバウンディングボックス内の非オクルード領域を識別するステップと、
(d)ポイントクラウド-画像ルックアップテーブルを参照することにより、2Dバウンディングボックス(BB)の非オクルード領域上に再投影されたLIDARポイントからカメラ2D検出の位置を計算するステップであって、ノイズを伴う密度ベースの空間クラスタリングを用いて非オクルード領域のLIDARポイントのセットを選択することにより、距離推定のために最良のクラスタが識別され、最良のクラスタを選択するために支配的クラスタ選択アプローチが適用される、ステップと、
(e)非マッピング検出の最も近いユークリッドマッチを選択することによって、複数のフュージョンLIDARオブジェクトに推定距離を有する2Dカメラオブジェクトをマッピングするステップと、
(f)複数のフュージョンLIDARオブジェクトに関連する属性を、対応する2Dカメラオブジェクトに関連する属性とマージするステップと、
(g)1又は2以上の2Dカメラオブジェクトが、フュージョンLIDARオブジェクトとの対応するマッピングを有することができないかどうかを決定するステップであって、再投影プロセスによって決定された2D BBの位置が使用される、ステップと、
(h)1又は2以上のフュージョンLIDARオブジェクトが、2Dカメラオブジェクトとの対応するマッピングを有することができないかどうかを決定し、1又は2以上のフュージョンLIDARオブジェクトについて複数の2Dカメラオブジェクトに関連する属性を、オブジェクトの以前の発生及びデフォルト値のうちの1つから導出するステップと、を含む。
【0010】
MISH活性化関数を利用してカスタマイズされたNNアーキテクチャに基づいて第1の2Dオブジェクト検出器及び第2の2Dオブジェクト検出器は、 2D画像から特徴抽出を行うためのバックボーンと、(i)負の値を保存し、トレーニングにおいてより良好な正則化と汎化とを提供して受信したストリーミングデータに対してノイズの多い状況での検出を強化できるMISH活性化関数と、(ii)クラッター状況で検出タスクに寄与する関心オブジェクトにのみ焦点を当てることにより関連する特徴を抽出する空間アテンションモジュール(SAM)が更に加えられた5つの畳み込み層を含む経路集約ネットワーク(PAN)と、を用いた特徴集約のためのネックと、小形及び中型サイズのオブジェクトの検出のために、MISH活性化関数と畳み込み層の追加のセットとを使用するヘッドと、を備える。
【0011】
更に別の態様では、1又は2以上の命令を含む1又は2以上の非一時的な機械可読情報記憶媒体が提供され、この命令は、1又は2以上のハードウェアプロセッサによって実行されたときに、フュージョンベースのオブジェクト追跡のための方法を生じさせる。本方法は、(a)車両に取り付けられた2Dカメラセットアップを介して車両を取り巻く環境の複数の2次元(2D)画像と、(b)車両に取り付けられた光検出及び測距(LIDAR)を介して環境の複数の3次元(3D)ポイントクラウドとを含むストリーミングデータを受け取るステップを含む。更に、本方法は、複数の3Dポイントクラウドの各々を、対応する複数の2Dバードアイビュー(BEV)画像に変換するステップを含む。更に、本方法は、(a)複数の2D画像であって、(i)MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて第1の2Dオブジェクト検出器を使用して複数の2D画像の各々におけるオブジェクトの第1のセットを検出し、(ii)2Dカメラトラッカーを使用してオブジェクトの第1のセットに対応する2Dカメラオブジェクトを追跡するためトラッカーIDで複数の2D画像の各々のオブジェクトの第1のセットの各オブジェクトをラベリングする、複数の2D画像と、
(b)複数の2D BEV画像であって、(i)MISH活性化関数を利用してカスタマイズされたNNアーキテクチャに基づいて第2の2Dオブジェクト検出器を使用して複数の2D-BEV画像の各々におけるオブジェクトの第2のセットを検出し、(ii)2D-BEVトラッカーを使用してオブジェクトの第2のセットに対応する2D-BEVオブジェクトを追跡するためトラッカーIDで複数の2D-BEV画像の各々のオブジェクトの第2のセットの各オブジェクトをラベリングする、複数の2D BEV画像と、
(c)複数の3Dポイントクラウドであって、(i)3D LIDARオブジェクト検出器を用いて複数の3Dポイントクラウドの各々におけるオブジェクトの第3のセットを検出し、(ii)3D LIDARトラッカーを使用してオブジェクトの第3のセットに対応する3D LIDARオブジェクトを追跡するためトラッカーIDで複数の3Dポイントクラウドの各々のオブジェクトの第3のセットの各オブジェクトをラベリングする、複数の3Dポイントクラウドと、を同時に処理するステップを含む。
【0012】
更に、本方法は、2D-BEVトラッカー内の2D-BEVオブジェクトと3D LIDARトラッカー内の3D LIDARオブジェクトとの間の対応関係を決定することによって、複数のフュージョンLIDARオブジェクトに対するフュージョンLIDARトラッカーを生成するステップを含む。更に、本方法は、1又は2以上のハードウェアプロセッサによって、フュージョンLIDARトラッカー内の複数のフュージョンLIDARオブジェクトと2Dカメラトラッカー内の2Dカメラオブジェクトとの間の対応関係を決定することによって、統合トラッカーを生成するステップを含む。統合トラッカーを生成するステップは、(a)フュージョンLIDARトラッカー及び2Dカメラトラッカーから出力を読み込むステップと、
(b)較正行列を使用して、複数の3Dポイントクラウド及び対応する複数の2D画像の各々を補正したエゴモーションのルックアップテーブルを作成するステップと、
(c)パノプティックセグメンテーション出力上に2Dバウンディングボックスを重ね合わせることにより、2Dバウンディングボックス内の非オクルード領域を識別するステップと、
(d)ポイントクラウド-画像ルックアップテーブルを参照することにより、2Dバウンディングボックス(BB)の非オクルード領域上に再投影されたLIDARポイントからカメラ2D検出の位置を計算するステップであって、ノイズを伴う密度ベースの空間クラスタリングを用いて非オクルード領域のLIDARポイントのセットを選択することにより、距離推定のために最良のクラスタが識別され、最良のクラスタを選択するために支配的クラスタ選択アプローチが適用される、ステップと、
(e)非マッピング検出の最も近いユークリッドマッチを選択することによって、複数のフュージョンLIDARオブジェクトに推定距離を有する2Dカメラオブジェクトをマッピングするステップと、
(f)複数のフュージョンLIDARオブジェクトに関連する属性を、対応する2Dカメラオブジェクトに関連する属性とマージするステップと、
(g)1又は2以上の2Dカメラオブジェクトが、フュージョンLIDARオブジェクトとの対応するマッピングを有することができないかどうかを決定するステップであって、再投影プロセスによって決定された2D BBの位置が使用される、ステップと、
(h)1又は2以上のフュージョンLIDARオブジェクトが、2Dカメラオブジェクトとの対応するマッピングを有することができないかどうかを決定し、1又は2以上のフュージョンLIDARオブジェクトについて複数の2Dカメラオブジェクトに関連する属性を、オブジェクトの以前の発生及びデフォルト値のうちの1つから導出するステップと、を含む。
【0013】
MISH活性化関数を利用してカスタマイズされたNNアーキテクチャに基づいて第1の2Dオブジェクト検出器及び第2の2Dオブジェクト検出器は、 2D画像から特徴抽出を行うためのバックボーンと、(i)負の値を保存し、トレーニングにおいてより良好な正則化と汎化とを提供して受信したストリーミングデータに対してノイズの多い状況での検出を強化できるMISH活性化関数と、(ii)クラッター状況で検出タスクに寄与する関心オブジェクトにのみ焦点を当てることにより関連する特徴を抽出する空間アテンションモジュール(SAM)が更に加えられた5つの畳み込み層を含む経路集約ネットワーク(PAN)と、を用いた特徴集約のためのネックと、小形及び中型サイズのオブジェクトの検出のために、MISH活性化関数と畳み込み層の追加のセットとを使用するヘッドと、を備える。
【0014】
前述の一般的な説明と以下の詳細な説明の両方は共に例示的で説明的のためのものに過ぎず、請求項に記載される本発明を限定するものではないことを理解されたい。
【0015】
本開示に組み込まれ且つ本開示の一部を構成する添付図面は、例示的な実施形態を例証し、本明細書と共に開示された原理を説明する役割を果たす。
【図面の簡単な説明】
【0016】
図1】本開示の幾つかの実施形態による、自律走行車両のための3D光検出及び測距(LIDAR)ポイントクラウド及び周囲カメラを使用したフュージョンベースのオブジェクトトラッカーのためのシステムの機能ブロック図である。
図2A】本開示の幾つかの実施形態による、図1のシステムを使用して、自律走行車両のための光検出及び測距(LIDAR)ポイントクラウド及び周囲カメラを使用したフュージョンベースのオブジェクトトラッカーのための方法を示す流れ図(総称して図2と呼ぶ)である。
図2B】本開示の幾つかの実施形態による、図1のシステムを使用して、自律走行車両のための光検出及び測距(LIDAR)ポイントクラウド及び周囲カメラを使用したフュージョンベースのオブジェクトトラッカーのための方法を示す流れ図(総称して図2と呼ぶ)である。
図3A】本開示の幾つかの実施形態による、カメラからの2D画像及び3D LIDARからの3Dポイントクラウドからオブジェクトを検出及び追跡するための図1のシステムのアーキテクチャの概要を示す図である。
図3B】本開示の幾つかの実施形態による、視聴者に表示されるカメラビュー及び3D LIDARポイントクラウドビューにわたって追跡されたオブジェクトを含むシステム入力及び対応する出力を示す図である。
図3C】本開示の幾つかの実施形態による、視聴者に表示されるカメラビュー及び3D LIDARポイントクラウドビューにわたって追跡されたオブジェクトを含むシステム入力及び対応する出力を示す図である。
図4A】本開示の幾つかの実施形態による、MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて、図1のシステムの2Dオブジェクト検出器のアーキテクチャを示す図である(集合的に図4と呼ぶ)。
図4B】本開示の幾つかの実施形態による、MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて、図1のシステムの2Dオブジェクト検出器のアーキテクチャを示す図である(集合的に図4と呼ぶ)。
図5A】本開示の幾つかの実施形態による、2Dオブジェクト検出器のSAM層を示す図である。
図5B】カスタマイズされたニューラルネットワークアーキテクチャによって使用されるMISH活性化関数を示す図である。
図6】本開示の幾つかの実施形態による、3Dポイントクラウドから2D-BEV画像への変換、並びに2Dオブジェクト検出器を用いた2D-BEV画像内のオブジェクトのセットの検出を示す図である。
図7】本開示の幾つかの実施形態による、3D LIDARオブジェクト検出器を使用した3Dポイントクラウド内のオブジェクトのセットの検出を示す図である。
図8】本開示の幾つかの実施形態による、図1のシステムの2Dカメラトラッカーのアーキテクチャを示す図である。
図9】本開示の幾つかの実施形態による、自律走行車両に取り付けられた2Dカメラセットアップの複数のカメラの各々に関連付けられた2Dカメラトラッカーによって検出されたトラッカーIDの単一化を示す図である。
図10】本開示の幾つかの実施形態による、2Dカメラトラッカー及び3D LIDARオブジェクト検出器によって検出されたトラッカーIDをフュージョンさせることによって統合トラッカーを生成するトラッカーフュージョンアーキテクチャを示す図である。
図11A】本開示の幾つかの実施形態による、パノプティックセグメンテーションに基づく非オクルードポイント抽出のために図1のシステムによって使用されるアーキテクチャを示す図である。
図11B】本開示の幾つかの実施形態による、パノプティックセグメンテーションを使用して検出されたオブジェクトの非オクルード領域の抽出を示す図である。
【発明を実施するための形態】
【0017】
本明細書における何れかのブロック図は、本発明の主題の原理を具現化する例示的なシステム及びデバイスの概念図を表すことは、当業者には理解されるはずである。同様に、何れかのフローチャート、フロー図などは、コンピュータ又はプロセッサが明示的に示されているかどうかにかかわらず、コンピュータ可読媒体で実質的に表されてそのようにコンピュータ又はプロセッサによって実行することができる種々のプロセスを表すことが理解されるであろう。
【0018】
例示的な実施形態が、添付図面を参照して説明される。図において、参照番号の最も左の桁は、参照番号が最初に現れる図を表している。好都合な場合には、同じ又は同様の要素を参照するのに図面全体を通して同じ参照番号が使用される。開示された原理の例及び特徴が本明細書に記載されているが、開示された実施形態の範囲から逸脱することなく、修正、適応、及び他の実施形態が可能である。
【0019】
本開示の実施形態は、自律走行車両のための光検出及び測距(LIDAR)ポイントクラウド及び周囲カメラを使用したフュージョンベースのオブジェクトトラッカーのための方法及びシステムを提供する。
【0020】
オブジェクトの堅牢な360度追跡のための技術的制限がある検出及び追跡のためのLIDAR及びカメラのみの使用に主に依存する既存の方法とは異なり、開示された方法は、オブジェクトの堅牢でシームレスな360追跡を提供するために、3D LIDARポイントクラウド、2Dカメラ画像、及び更に3D LIDARポイントクラウドから得られる2Dバードアイビュー(BEV)画像を利用することによりこの技術的課題を解決する。本方法は、LIDAR、車両(例えば自律走行車両)に取り付けられた2Dカメラの各々によってキャプチャされたオブジェクトを独立して検出し追跡する。次いで、独立して追跡されたオブジェクトは、2つのステップでフュージョンされる。最初に、LIDAR空間における3D LIDARと2D-BEV追跡のフュージョンが行われ、大きなオクルージョンなしにLIDARにオブジェクトが見え続ける限り、トラックIDのドロップを低減するのを助ける。例えば、3D LIDARでの追跡ができない場合でも、BEVトラッカーでは追跡が安定している場合、2D-BEVと3D LIDARのフュージョンにより、トラッカーIDの整合性を確保することができる。2D-BEV画像での追跡はより効果的であり、2Dカメラ画像用の2Dオブジェクトトラッカーに類似した2Dオブジェクトトラッカーを使用して実行される。2D-BEVのボックスと対応する3Dボックスの関係は事前に知られている。2D-BEV画像から、2D-BEVトラッカーは、堅牢な追跡を確保するために、幾何学的特徴と画像レベル特徴の両方を抽出する。従って、2D-BEV追跡と3D LIDARに搭載されている速度ベースのトラッカーをフュージョンさせることで、効果的な追跡を実現する。2Dカメラ検出の実世界における位置は、2Dボックスの非オクルード領域上に再投影されたライダーポイントを用いて2Dカメラ検出の逆マッピングにより推定される。非オクルード領域は、パノプティックセグメンテーションアルゴリズムを用いて識別される。クラスタリングアルゴリズムは、距離の推定と再投影ライダーポイントからの異常値の除去に使用される。その後、フュージョンされたLIDAR及びカメラデータの更なるフュージョンが行われる。LIDARの3D座標は、最も近いユークリッドアルゴリズムを用いて、2Dカメラ検出の実世界位置にマッピングされる。ユークリッド距離がある閾値内であれば、トラックIDのマッチングが行われ、適切な最終トラックIDが割り当てられる。3Dライダートラックが利用可能な全てのボックスについて、3D位置が更新される。残りのボックスについては、再投影アルゴリズムによって事前に計算された実世界位置が更新される。
【0021】
更に、2Dオブジェクト検出は、MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて2Dオブジェクト検出器によって実行される。2Dオブジェクト検出器は、特徴抽出を強化し、精緻化特徴に起因して、小型及び中型サイズのオブジェクトの検出を効果的に向上させる。MISH活性化関数を利用したカスタマイズされたNNアーキテクチャ(MISH関数は当該技術分野で知られている)は、負の値の保存、より良好な正則化、及びトレーニングにおける汎化を可能にし、ノイズ又はクラッター環境であっても検出の向上をもたらす。
【0022】
ここで図面、より詳細には図1図11Bを参照すると、同様の参照文字が図全体を通して一貫して対応する特徴を示し、好ましい実施形態が示され、これらの実施形態は、以下の例示的なシステム及び/又は方法に関して説明される。
【0023】
図1は、本開示の幾つかの実施形態による、自律走行車両のための3D光検出及び測距(LIDAR)ポイントクラウド及び周囲カメラを使用したフュージョンベースのオブジェクトトラッカーのためのシステムの機能ブロック図である。
【0024】
一実施形態では、システム100は、プロセッサ104と、入力/出力(I/O)インタフェース106と代替的に呼ばれる通信インタフェースデバイスと、プロセッサ104に動作可能に結合された1又は2以上のデータ記憶デバイス又はメモリ102と、を含む。1又は2以上のハードウェアプロセッサを有するシステム100は、システム100の1又は2以上の機能ブロックの機能を実行するように構成される。
【0025】
システム100の構成要素を参照すると、実施形態では、プロセッサ104は、1又は2以上のハードウェアプロセッサ104とすることができる。実施形態において、1又は2以上のハードウェアプロセッサ104は、1又は2以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央処理装置、状態機械、論理回路、及び/又は操作命令に基づいて信号を操作する何れかのデバイスとして実装することができる。他の能力の中でもとりわけ、1又は2以上のハードウェアプロセッサ104は、メモリ102に格納されたコンピュータ可読命令をフェッチし実行するように構成される。実施形態では、システム100は、ラップトップコンピュータ、ノートブック、携帯電話などのハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバなどを含む様々なコンピューティングシステムにて実装することができる。具体的には、システム100は、自律走行車両の制御システムなどの車両制御システムの構成要素とすることができる。
【0026】
I/Oインタフェース106は、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどの様々なソフトウェア及びハードウェアインタフェースを含むことができ、例えば、LAN、ケーブルなどの有線ネットワーク、及びWLAN、セルラーなどの無線ネットワークを含む、幅広い種類のネットワークN/W及びプロトコルタイプ内の複数の通信を容易にすることができる。実施形態では、I/Oインタフェース106は、複数の外部デバイスに接続するため、又は別のサーバもしくはデバイスに接続するための1又は2以上のポートを含むことができる。車両に取り付けられた2Dカメラセットアップ112及びLIDAR114は、I/Oインタフェース106を介してシステム100と通信する。2Dカメラセットは、車両の環境の異なるビューをキャプチャする複数のカメラから構成される。例えば、2Dカメラセットは、車両の周辺環境における異なるビュー及び対応するオブジェクトをキャプチャする左カメラ、右カメラ及びフロントカメラを含むことができる。複数の2Dカメラの各々の視野(Field of View:FoV)は、環境の異なる領域をカバーする。
【0027】
メモリ102は、例えば、静的ランダムアクセスメモリ(SRAM)及び動的ランダムアクセスメモリ(DRAM)などの揮発性メモリ、及び/又は、読み取り専用メモリ(ROM)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスク、及び磁気テープなどの不揮発性メモリなど、当該分野で知られている何れかのコンピュータ可読媒体を含むことができる。
【0028】
更に、メモリ102は、図1のシステムのアーキテクチャの概要を描いた図3のように、2Dオブジェクト検出器(第1の2Dオブジェクト検出器及び第2の2Dオブジェクト検出器)、2Dカメラトラッカー、2D-BEVトラッカー、3D LIDARオブジェクト検出器、3D-LIDARトラッカー、フュージョンLIDARトラッカー、統合トラッカー、パノプティックセグメンテーションモジュール、及び他のモジュールなどの複数のモジュール110を含む。複数のモジュールは、車両のためのフュージョンベースのオブジェクトトラッカーのための1又は2以上のハードウェアプロセッサ104によって実行される。更に、メモリ102は、2Dカメラセットアップによってキャプチャされた複数の2D画像、LIDARによって生成された複数の3Dポイントクラウド、追跡されているオブジェクトのトラッカーID、あるトラッカーから他のトラッカーへのオブジェクトマッピングに用いられるルックアップテーブル等を格納するデータベース108を含む。更に、メモリ102は、本開示のシステム100及び方法のプロセッサ104によって実行される各ステップの入力/出力に係る情報を含むことができる。実施形態において、データベース108は、システム100の外部(図示せず)にあり、I/Oインタフェース106を介してシステムに結合することができる。システム100の構成要素の機能は、図2及び図3図12のフロー図と関連して説明される。
【0029】
図2Aから図2B(総称して図2と呼ぶ)は、本開示の幾つかの実施形態による、図1のシステムを用いて、自律走行車両のためのLIDARポイントクラウド及び周辺カメラを使用したフュージョンベースのオブジェクトトラッカーのための方法200を例示するフロー図である。
【0030】
実施形態において、システム100は、プロセッサ104に動作可能に結合された1又は2以上のデータ記憶デバイス又はメモリ102を備え、プロセッサ又は1又は2以上のハードウェアプロセッサ104による方法200のステップの実行のための命令を格納するように構成される。ここで、本開示の方法200のステップを、図1に描かれているようなシステム100の構成要素又はブロック、及び図12に描かれているようなフロー図のステップを参照しながら説明することにする。プロセスステップ、方法ステップ、技法などは、連続した順序で説明することができるが、このようなプロセス、方法、及び技法は、代替の順序で動作するように構成することができる。言い換えれば、記載することができるステップの何れかのシーケンス又は順序は、必ずしもステップがその順序で実行される要件を示すものではない。本明細書に記載されるプロセスのステップは、実用的なあらゆる順序で実行することができる。更に、幾つかのステップは、同時に実行されてもよい。
【0031】
図1のシステムのアーキテクチャの概要を描いた図3A~3Cと関連して理解することができる方法200のステップを参照すると、方法200のステップ202において、1又は2以上のハードウェアプロセッサ104は、(a)車両に取り付けられた2Dカメラセットアップを介して車両を取り巻く環境の複数の2D画像と、(b)車両に取り付けられたLIDARを介して環境の複数の3Dポイントクラウドと、を含むストリーミングデータを受け取る。図3Bには、所与の瞬間時間の3Dポイントクラウド入力と共に、車両から環境の左、前、及び右ビューをキャプチャする2Dカメラセットアップの3つのカメラからの2D画像を含むストリーミングデータが描かれている。画像は代表的なものであり、システム100の入力及び出力のより良好な理解のために追加されている点を理解されたい。画像の低解像度及び低スケール及びグレースケールは、代表的な画像の文脈において、理解されるべきである。図3Cには、入力画像からバウンディングボックス(BB)を有する追跡されたオブジェクトが、エンドビューアに表示されるように描かれている。検出及び追跡が、ステップ204から210の助けを借りて説明される。
【0032】
方法200のステップ204を参照すると、1又は2以上のハードウェアプロセッサ104は、複数の3Dポイントクラウドの各々を、対応する複数の2Dバードアイビュー(BEV)画像に変換する。
【0033】
方法200のステップ206において、1又は2以上のハードウェアプロセッサ104は、受信したデータを同時に処理する。すなわち、システム100は、ステップ206において、以下の動作(a)、(b)及び(c)を実行する:
(a)複数の2D画像は、MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて第1の2Dオブジェクト検出器を使用して複数の2D画像の各々においてオブジェクトの第1のセットを検出するよう処理される。第1の2Dオブジェクト検出器は、図4A図5Bと関連して説明される。更に、2D画像の各々におけるオブジェクトの第1のセットは、図8及び図9と関連して説明する2Dカメラトラッカーを使用してオブジェクトの第1のセットに対応する2Dカメラオブジェクトを追跡するためトラッカーIDでラベリングされる。2Dカメラトラッカーは、アルゴリズムを含み、N番目のフレームのバウンディングボックスを(N+1)番目のフレームのバウンディングボックスとマッチングさせ、次いでオブジェクト検出ができなかったときにボックスを予測するのに役立つ。これは、相関トラッカーの上に構築され、堅牢な性能を得るために幾何学的及び特徴的マッチング技術を追加している。
(b)同様に、複数の2D BEV画像は、MISH活性化関数を利用してカスタマイズされたNNアーキテクチャに基づいて第2の2Dオブジェクト検出器を使用して、複数の2D-BEV画像の各々においてオブジェクトの第2のセットを検出するよう処理される。第2の2Dオブジェクト検出器は、第1の2Dオブジェクト検出器と同様のアーキテクチャを有し、図4Aから図5Bと関連して説明される。検出されたオブジェクトの第2のセットは次に、2D-BEVトラッカーを使用してオブジェクトの第2のセットに対応する2D-BEVオブジェクトを追跡するために、トラッカーIDでラベリングされる。2D-BEVトラッカーのアーキテクチャは2Dカメラトラッカーと同様であるので、2Dカメラトラッカーを説明する図8及び図9と関連して理解することができる。
(c)同様に、複数の3Dポイントクラウドは、(i)図7と関連して説明したように、3D LIDARオブジェクト検出器を用いて複数の3Dポイントクラウドの各々においてオブジェクトの第3のセットを検出するよう処理される。3D LIDARオブジェクト検出器は、当該技術分野で知られている人工知能(AI)ベースの検出アルゴリズムを使用する。3D LIDARオブジェクト検出器は、X、Y、Z、及び強度の形態のポイントクラウド入力を取り、予測にポイントピラーアプローチを利用し、3D LIDARオブジェクト検出器の出力は、オブジェクトのX、Y、Z、ディメンジョン、ClassType、方向(Yaw)及び信頼度を含む。複数の3Dポイントクラウドの各々に対応する検出されたオブジェクトの第3のセットの各々は、3D LIDARトラッカーを使用してオブジェクトの第3のセットに対応する3D LIDARオブジェクトを追跡するためにトラッカーIDでラベリングされる。3D LIDARトラッカーのワークフローは、以下に提供され、当該技術分野で使用される技術に従う。
1.最初の発生時にオブジェクトのトラッカーIDを割り当てる。
2.中心点ベースのアルゴリズム速度アルゴリズム及びアンセンテッドカルマンフィルタを適用して、現在のフレームと次のフレームのオブジェクトをマッピングする(各軸のユークリッド距離)。
3.カルマンフィルタ及び速度トラッカー予測を用いて欠落検出を埋める。
4.重複検出を取り除くために、ラップ、信頼度、及び発生回数に関する3D IOUを検証する。
5.各フレームで速度、発生回数、方向変化、及び信頼度を更新する。
6.カルマンフィルタUKFを使用して予測値を更新する。
7.3Dライダートラッカー出力を生成する。
【0034】
方法200のステップ208において、1又は2以上のハードウェアプロセッサは、2D-BEVトラッカー内の2D-BEVオブジェクトと3D LIDARトラッカー内の3D LIDARオブジェクトとの間の対応関係を決定することによって、複数のフュージョンLIDARオブジェクト(fused LIDAR object)に対するフュージョンLIDARトラッカーを生成する。フュージョンLIDARトラッカーを生成するためにシステム100によって実行されるステップが、以下に提供される。
1.2D IOUオーバーラップを決定し、対応関係の3D LIDAR及び2D BEVの検出を見つける。
2.マッピングされたオブジェクトの3D LIDARのID不一致の場合、トラッカーIDを更新する。
3.IDでマッピングされたオブジェクトの欠落3D検出を更新し、以前のフレームサイズで埋められる。
4.2D-BEVトラッカー及び3D LIDARトラッカーの両方に存在するオブジェクトのトラッカー信頼度を設定する。
5.フュージョンされたLIDARトラッカー出力を生成する。
【0035】
フュージョンLIDARトラッカーが生成されると、次に、方法200のステップ210において、1又は2以上のハードウェアプロセッサ104は、フュージョンLIDARトラッカー内のフュージョンLIDARオブジェクトとカメラトラッカー内の2Dカメラオブジェクトとの間の対応関係を決定することによって統合トラッカーを生成する。統合トラッカーは、図10及び以下のステップと関連して説明される。
統合トラッカーを生成することは、以下のステップ(a)~(h)を含む。
(a)フュージョンLIDARトラッカー及び2Dカメラトラッカーから出力を読み込むステップ。
(b)較正行列を用いて、複数の3Dポイントクラウド及び対応する複数の2D画像の各々を補正したエゴモーションのルックアップテーブルを作成するステップ。
(c)図3A及び図10に描かれているように、パノプティックモジュールを用いたパノプティックセグメンテーション出力上に2Dバウンディングボックスを重ねることにより、2Dバウンディングボックスにおいて非オクルード領域を識別するステップ。パノプティックセグメンテーションアプローチは、2Dカメラセットのカメラのフレーム内の2Dオブジェクトのセマンティックセグメンテーションとインスタンスセグメンテーションを取得することを可能にし、2Dオブジェクトに対応する可視ピクセルのみが、パノプティックセグメンテーション出力に対して2D BBを重ねることによってカメラフレームから抽出され、フュージョン中に無関係なオブジェクトからの3D LIDARポイントを排除して、3Dポイントクラウド内の検出オブジェクトの正確な実世界位置を提供できるようにする。パノプティックセグメンテーションは、図11A及び図11Bと関連して説明される。
(d)ポイントクラウド-画像ルックアップテーブルを参照することにより、2Dバウンディングボックス(BB)の非オクルード領域上の再投影LIDARポイントからカメラ2D検出の位置を計算するステップ。ノイズを含む密度ベースの空間クラスタリングを用いて非オクルード領域のLIDARポイントのセットを選択することにより、距離推定のために最良のクラスタが識別され、最良のクラスタを選択するために支配的クラスタ選択アプローチが適用される。クラスタの選択の精度は、ポイントの数とオブジェクトの軌跡に基づいて距離の信頼性を割り当てることによって更に保証される。位置の何らかの偏差は、中心点ベースの速度と、上記のアルゴリズムとマージされたアンセンテッドカルマンフィルタとによって補正される。縦方向及び横方向位置は、非オクルード領域から最良のクラスタの平均を取ることによって決定される。実施形態では、DBスキャン、最も支配的なクラスタリングの選択、ポイント数に基づく距離信頼性の差別化、及びオブジェクトの軌跡を含む、複数のアルゴリズムと基準に基づいて、最良クラスタが選択される。位置のスパイクの平坦化は、中心点ベースの速度と、最良のクラスタ選択に使用される複数のアルゴリズムとマージされたアンセンテッドカルマンフィルタを用いて行われる。カメラトラッカーのみで検出されたオブジェクトに対応するカメラ2D検出の偏差は、中心点ベースの速度と上記のアプローチでマージされたアンセントカルマンフィルタとを適用することにより補正される。
(e)非マッピング検出の最も近いユークリッドマッチを選択することによって、複数のフュージョンLIDARオブジェクトへの距離推定を有する2Dカメラオブジェクトをマッピングするステップ。
(f)複数のフュージョンLIDARオブジェクトに関連する属性を、対応する2Dカメラオブジェクトに関連する属性とマージするステップ。
(g)1又は2以上の2Dカメラオブジェクトが、フュージョンLIDARオブジェクトとの対応するマッピングを有することができないかどうかを決定するステップであって、再投影プロセスによって決定された2D BBの位置が使用される、ステップ。
(h)1又は2以上のフュージョンLIDARオブジェクトが2Dカメラオブジェクトと対応するマッピングを有することができないかどうかを決定し、1又は2以上のフュージョンLIDARオブジェクトに対して複数の2Dカメラオブジェクトに関連する属性を、オブジェクトの以前の発生とデフォルト値のうちの1つから導出するステップ。LIDAR-カメラID間のマッピングの履歴を保持することで、トラックIDの維持を保証するための安定対策が導入される。これは、履歴を参照することにより、LIDAR又はカメラのどちらかのトラックIDの切り替えを克服するのに役立つ。
【0036】
図4A及び図4B(集合的に図4と呼ぶ)は、本開示の幾つかの実施形態による、MISH活性化関数を利用してカスタマイズされたニューラルネットワーク(NN)アーキテクチャに基づいて、図1のシステムの2Dオブジェクト検出器のアーキテクチャを示す図である。図4Aは、カスタマイズされたニューラルネットワーク(NN)アーキテクチャのバックボーン及びネックを示し、図4Bは、ヘッドを示している。図4Aで分かるように、バックボーンは、従来のアーキテクチャに基づいてものである。しかしながら、ネックでは、精度を向上させるために、リークRELU活性化をMISH活性化関数に置き換えている。ネックは、以下からなる。
1.特徴抽出を向上させるための追加の畳み込み層を含む密接続。
2.標準SPP(空間ピラミッドプーリング)。
3.PAN(経路集約ネットワーク)は、特徴抽出を向上させるための5つの畳み込み層と、追加のSAM(空間アテンションモジュール)を含む。SAMは、検出/分類タスクに寄与する必要なオブジェクトのみに焦点を当てることにより、関連特徴を抽出するのに役立つ。
【0037】
ヘッドは、精度を向上させるために、従来のLeaky RELU活性化に代わってMISH活性化関数を含む。更に、グリッド感度を向上させるために、3つの検出層全てでスケーリングファクタが置き換えられている。更に、小形及び中型サイズのオブジェクトに対処する検出層では、特徴抽出の向上及び追加の空間アテンションモジュール(SAM)のために3つの畳み込み層が追加されている。これにより、小形及び中型サイズのオブジェクトの検出が向上された。
【0038】
以下の表1は、従来の2Dオブジェクト検出NNアーキテクチャと、MISH活性化関数を利用したカスタマイズされたNNアーキテクチャに基づいて図1のシステムの2Dオブジェクト検出器との比較分析を示している。
【0039】
図5Aは、本開示の幾つかの実施形態による、2Dオブジェクト検出器のSAM層を示す。最近、アテンションモジュールは、ネットワークが全体ではなく、画像内に存在するオブジェクトに特に焦点を合わせるようにするために、畳み込みニューラルネット(CNN)において使用されている。これらのモジュールは、オブジェクトの周囲のコンテキスト情報及びどの特徴が重要であるかにそれぞれ重視するようにネットワークに伝えることによって、「どこで」「何を」の質問を解決するのに役立つ。ここで使われているシグモイド活性化関数は、オブジェクトのコンテキスト情報を全て拡大するのに役立つ。検出/分類タスクにおいて役割を果たさない値は、重み付けが軽くされることになる。空間的アテンションマスクは、入力特徴に適用され、精緻化特徴マップを出力する。検出ヘッドにSAMレイヤーを使用することで、小形及び中型サイズのオブジェクトの検出を向上させる結果になる。
【0040】
図5Bは、既知のMISH活性化関数カスタマイズNNアーキテクチャを示し、これは数学的に次のように定義される。
【0041】
ネック及び検出器ヘッドにおいてMISHアクティベーションを使用することで、精度が向上している。MISH活性化関数は、以下の特性の助けを借りて、負の値に対するニューロンの更新を扱うことができる。
1.非単調関数:負の値を保持することで、ネットワークの勾配流を安定させ、ReLUとは異なり、Dying ReLU問題をほぼ解決し、より表現的な特徴を学習する助けとなる。
2.Unboundedness及びBounded Below:前者は出力ニューロンの飽和問題を除去するのに役立ち、後者はネットワークの良好な汎化に役立つ。
3.無限次の連続性(Infinite Order of Continuity):関数の滑らかさに起因して重みと学習速度の初期化に不偏であり、より良好な汎化に役立つ。
4.スカラーゲーティング(Scalar Gating);スカラーゲーティングは、この関数の重要な特性であるため、論理的となり、ReLUのようなポイント毎関数を容易に置き換えることができる。
5.計算機能は高度であるが、精度は向上する:高コストな関数であるが、ReLUと比較して深い層で優れていることが証明されている。
【0042】
図6は、本開示の幾つかの実施形態による、画像ピクセルマッピングへの距離を用いた3Dポイントクラウドから2D-BEV画像への変換と、2Dオブジェクト検出器を用いた2D-BEV画像内のオブジェクトのセットの検出を示す図である。
【0043】
図7は、本開示の幾つかの実施形態による、3D LIDARオブジェクト検出器を使用した3Dポイントクラウド内のオブジェクトのセットの検出を示す図である。AIベースの3D LIDAR検出器は、ネック、CNNベースのバックボーン及びヘッドを含む。3D LIDAR検出器は、3Dポイントクラウドを入力として受け入れ、オブジェクトのための3D配向ボックスを予測するように学習する。3D LIDAR検出器は、基本的には、ポイントクラウドを擬似画像に変換する特徴エンコーダを有する。3Dポイントクラウドは等間隔に離隔したグリッドに離散化され、ピラーのセット(Point-Pillars)が作成される。線形レイヤーを適用した後、バッチノルム及びRELUを適用する。これに続いて、チャンネルに対する最大プーリング操作が行われる。エンコードされると、特徴を元のピラーの位置に戻して散乱させ、擬似画像を作成する。特徴抽出器からの最終検出には、単発検出器が使われ、回帰を用いてオブジェクトの高さ及びエレベーションが求められる。
【0044】
図8は、本開示の幾つかの実施形態による、図1のシステムの2Dカメラトラッカーのアーキテクチャを示す図である。2Dカメラトラッカーは、以下を含む。
1.オブジェクトの発散/収束運動に起因する急激なサイズ変化を扱うことによるBBボックスのドリフトに対処するためのK最近傍(KNN)ステージ;
2.複雑な状況におけるオブジェクト検出と2Dカメラトラッカーとの間のトラックIDの関連付けを扱うための、パディング、オプティカルフロー、スケール不変特徴変換(SIFT)を含む複数の幾何学及び特徴マッチングステージ;
3.ゴースト追跡を制御するためのSIFT及びオプティカルフローベースの特徴マッチングアプローチ。
【0045】
以下の表2は、アーキテクチャの詳細と、2Dカメラトラッカーによって得られる技術的利点を示している。

【0046】
以下の表3は、2Dカメラトラッカーの特徴を強調している。
【0047】
図9は、本開示の幾つかの実施形態による、自律走行車両に取り付けられた2Dカメラセットの複数のカメラの各々に関連付けられた2Dカメラトラッカーによって検出されるトラッカーIDの単一化を示す図である。複数のカメラビューにわたるトラックIDの単一化は、検討中のカメラビューのペアにおける予め定義された関心領域(ROI)におけるバウンディングボックスからバウンディングボックスへの分類及びジオメトリマッチングを利用するカスタムルールベース技法を使用して行われる。
【0048】
図11Aは、本開示の幾つかの実施形態による、パノプティックセグメンテーションに基づく非オクルードポイント抽出のために図1のシステムによって使用されるアーキテクチャを示す図である。パノプティックセグメンテーションモジュールを使用すると、カメラフレーム内のオブジェクトについて、セマンティックセグメンテーションとインスタンスセグメンテーションの両方が取得される。インスタンスセグメンテーションは、車、トラック、歩行者などの各オブジェクトの輪郭を導き出すのに役立ち、他方、ポール、ガードレール、道路などを表すピクセルは、セマンティックセグメンテーションから導き出される。パノプティックセグメンテーションの出力に2Dバウンディングボックスを重ね合わせることで、オブジェクトに対応する可視ピクセルだけが抽出される。例えば、「車」は「ポール」又は「ガードレールピクセル」により遮蔽される可能性があり、「車」の追跡ボックスから「車」を表すピクセル位置のみを取得することが意図されている。図11Bに示すように、車はポールによって遮蔽されている。パノプティックセグメンテーション出力に対して2Dバウンディングボックスを重ね合わせることで、車の非オクルードポイントが抽出され、フュージョン時にポールから落ちるLIDARポイントを排除して、ポイントクラウド中の検出オブジェクトの正確な実世界位置を提供する。
【0049】
以下の表4は、パノプティックセグメンテーションに基づく非オクルードポイント抽出の特徴について述べたものである。
【0050】
結果:システム100は、複数の公開された自律走行データセットを使用して評価され、図3Cは、出力のスナップショットの例を提供する。検証用データセットでの評価のKPIが以下の表5に与えられ、高精度で堅牢な追跡を示す。
【0051】
このように、本明細書で開示される方法及びシステムは、3D LIDAR、3D - 2D BEV画像、2D画像ベースの検出及び追跡のフュージョンを用いたオブジェクト検出と追跡のアプローチを提供し、これによりLIDAR空間と特徴ベースの追跡画像空間上の動きベースのトラッカーを組み合わせることを可能にする。これは、センサーの何れかにオブジェクトが見えない場合、又は入力にノイズがある場合でも、オブジェクトトラックを保持することができるようになる。更に、MISH活性化関数に基づく拡張NNアーキテクチャを利用することで、小形及び中型サイズのオブジェクトに対するカメラ内でのオブジェクト検出を向上させる。同じアーキテクチャは、3D-2D BEV画像ベースのオブジェクト検出に利用される。更に、2Dカメラと2D BEVのための堅牢な多段階特徴ベーストラッカーは、異なるトラフィック方向、様々な大きさのオブジェクト、及び1つのカメラから他のカメラへのオブジェクトの移行に対処する。更に、画素の変化率を考慮した、アンセンテッドカルマンフィルタベースのアプローチが2D BEVトラッカーに適用される。これにより、画像内でオブジェクトの特徴が欠落した場合でも、追跡を継続することができる。更に、IOUオーバーラップの発生回数と信頼度を用いて、オーバーラップや誤検出を除去する。Trackerは、オブジェクトが何台のTrackerで検出されたかに基づいて、Trackerの信頼度を割り当てる。これにより、検出信頼度と共に誤検出を評価することができる。本システムで使用される全天球分割アルゴリズムは、距離計算のための2Dカメラボックスの領域選択を改善する。このアプローチにより、オクルージョンの場合の精度を高めることができる。
【0052】
本明細書では、当業者が本実施形態を実施及び利用できるように主題を説明している。本主題の実施形態の範囲は、特許請求の範囲によって定義され、当業者に生じる他の修正を含むことができる。このような他の修正は、これらが請求項の文言と際のない同様の要素を有する場合、又はこれらが、請求項の文言と僅かな差異を有する均等な要素を含む場合には、請求項の範囲内にあるものとする。
【0053】
保護の範囲は、このようなプログラムに加え、そこにメッセージを有するコンピュータ読み取り可能な手段にも拡張され、このようなコンピュータ読み取り可能な記憶手段は、プログラムがサーバ又はモバイルデバイス又は何れかの適切なプログラム可能なデバイス上で実行される場合、方法の1又は2以上のステップの実施のためのプログラムコード手段を含むことを理解されたい。ハードウェアデバイスは、例えば、サーバ又はパーソナルコンピュータなどのような何れかの種類のコンピュータ、又はこれらの何れかの組み合わせを含む、プログラム可能な何れかの種類のデバイスとすることができる。デバイスはまた、例えば特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)のようなハードウェア手段、又はハードウェア手段とソフトウェア手段の組み合わせ、例えばASICとFPGA、又はソフトウェア処理構成要素がそこに配置された少なくとも一つのマイクロプロセッサと少なくとも一つのメモリでとすることができる手段を含むことができる。従って、手段は、ハードウェア手段、及びソフトウェア手段の両方を含むことができる。本明細書で説明する方法の実施形態は、ハードウェア及びソフトウェアで実装することができる。また、装置は、ソフトウェア手段を含むことができる。あるいは、実施形態は、異なるハードウェアデバイス、例えば、複数のCPUを使用して実装することができる。
【0054】
本明細書の実施形態は、ハードウェア及びソフトウェア要素を備えることができる。ソフトウェアで実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されない。本明細書で説明する様々な構成要素によって実行される機能は、他の構成要素又は他の構成要素の組み合わせで実装することができる。本説明の目的上、コンピュータ使用可能媒体又はコンピュータ可読媒体は、命令実行システム、装置、又はデバイスによって、又はそれに関連して使用するためのプログラムを構成、保存、通信、伝播、又は輸送することができる何れかの装置とすることができる。
【0055】
図示されたステップは、図示の例示的な実施形態を説明するために記載されており、継続的な技術開発により、特定の機能が実行される方法が変更されることが予想されるべきである。これらの例は、説明の目的で本明細書に提示されたものであり、限定ではない。更に、機能的な構成単位の境界は、説明の便宜上、本明細書で任意に定義されている。指定された機能及びその関係が適切に実行される限り、代替的な境界を定義することができる。代替形態(本明細書に記載されたものの均等物、拡張、変形、逸脱などを含む)は、本明細書に含まれる教示に基づき、関連技術の当業者には明らかであろう。このような代替形態は、開示された実施形態の範囲内にある。また、単語「comprising」、「having」、「containing」、及び「including」、並びに他の同様の形式は、これらの単語の何れかに続く1又は複数の項目が、当該1又は複数の項目を網羅的にリストすることを意味するものではなく、又はリストされた1又は複数の項目のみに限定することを意味しない点において、均等の意味を有し、オープンエンドであることを意図する。また、本明細書及び添付の特許請求の範囲で使用される場合、単数形「a」、「an」、及び「the」は、文脈が明らかに指示しない限り、複数の照応形を含むことに留意されたい。
【0056】
更に、1又は2以上のコンピュータ読み取り可能な記憶媒体が、本開示と一致する実施形態を実施する際に利用することができる。コンピュータ読み取り可能な記憶媒体は、プロセッサによって読み取り可能な情報又はデータが記憶され得る、何れかのタイプの物理的メモリを指す。従って、コンピュータ読み取り可能な記憶媒体は、プロセッサに本明細書に記載の実施形態と一致するステップ又は段階を実行させるための命令を含む、1又は2以上のプロセッサによる実行のための命令を記憶し得る。コンピュータ読み取り可能な媒体」という用語は、有形物を含み、搬送波及び過渡信号を除外する、すなわち、非一過性であると理解されるべきである。例としては、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、及び他の何れかの既知の物理的記憶媒体が挙げられる。
【0057】
開示及び実施例は、単に例示的なものとしてみなされることが意図され、開示された実施形態の真の範囲は、添付の請求項によって示される。
【符号の説明】
【0058】
112 2Dカメラセットアップ
100 システム
104 プロセッサ
106 I/Oインタフェース
102 メモリ
108 データベース
110 モジュール
図1
図2A
図2B
図3A
図3B
図3C
図4A
図4B
図5A
図5B
図6
図7
図8
図9
図10
図11A
図11B
【外国語明細書】