特許第6945785号(P6945785)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエの特許一覧

<>
  • 特許6945785-3Dポイントクラウドの処理方法 図000002
  • 特許6945785-3Dポイントクラウドの処理方法 図000003
  • 特許6945785-3Dポイントクラウドの処理方法 図000004
  • 特許6945785-3Dポイントクラウドの処理方法 図000005
  • 特許6945785-3Dポイントクラウドの処理方法 図000006
  • 特許6945785-3Dポイントクラウドの処理方法 図000007
  • 特許6945785-3Dポイントクラウドの処理方法 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6945785
(24)【登録日】2021年9月17日
(45)【発行日】2021年10月6日
(54)【発明の名称】3Dポイントクラウドの処理方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20210927BHJP
   G06T 7/521 20170101ALI20210927BHJP
   G08G 1/16 20060101ALI20210927BHJP
   G01S 17/89 20200101ALI20210927BHJP
   G01S 17/93 20200101ALI20210927BHJP
   G06N 99/00 20190101ALI20210927BHJP
【FI】
   G06T7/00 350C
   G06T7/521
   G08G1/16 C
   G01S17/89
   G01S17/93
   G06N99/00
【請求項の数】11
【全頁数】16
(21)【出願番号】特願2018-548732(P2018-548732)
(86)(22)【出願日】2017年3月14日
(65)【公表番号】特表2019-512802(P2019-512802A)
(43)【公表日】2019年5月16日
(86)【国際出願番号】EP2017056039
(87)【国際公開番号】WO2017157967
(87)【国際公開日】20170921
【審査請求日】2020年2月13日
(31)【優先権主張番号】102016204177.0
(32)【優先日】2016年3月14日
(33)【優先権主張国】DE
(73)【特許権者】
【識別番号】517217922
【氏名又は名称】イムラ ウーロプ ソシエテ・パ・アクシオンス・シンプリフィエ
(74)【復代理人】
【識別番号】100196449
【弁理士】
【氏名又は名称】湯澤 亮
(74)【代理人】
【識別番号】100167793
【弁理士】
【氏名又は名称】鈴木 学
(72)【発明者】
【氏名】ティシュコフ,ディミトリ
(72)【発明者】
【氏名】アバド,フレデリック
(72)【発明者】
【氏名】ベンダハン,レミー
【審査官】 新井 則和
(56)【参考文献】
【文献】 特開2012−189445(JP,A)
【文献】 米国特許第09098754(US,B1)
【文献】 米国特許出願公開第2007/0219720(US,A1)
【文献】 嶋田 達之介 外5名,LiDAR深度データを用いたCNNブレーキシーン認識,電子情報通信学会技術研究報告 Vol. 115 No. 323,日本,一般社団法人電子情報通信学会,2015年11月19日,Vol. 115 No. 323,pp. 61-67
【文献】 市川 善規 外5名,低解像度LIDARを用いた歩行者検出のための特微量に関する検討,電子情報通信学会技術研究報告 Vol. 114 No. 230,日本,一般社団法人電子情報通信学会,2014年10月 2日,Vol. 114 No. 230,pp. 7-12
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00−7/90
G01S 17/89
G01S 17/93
G06N 99/00
G08G 1/16
(57)【特許請求の範囲】
【請求項1】
−深度センサの所定の視点から3Dポイントクラウドを取得するステップと、
−前記視点に関して、前記3Dポイントクラウドの各ポイントから3D座標(xyz)および強度(i)データを抽出するステップと、
−3D座標(xyz)および強度(i)データを少なくとも3つの2次元(2D)空間:
・各ポイントの前記強度(i)データの強度2D空間(IS)関数、
・各ポイントの高さ(h)データの高さ2D空間(HS)関数、および
・3Dポイントクラウドの各ポイントと前記視点との間の距離(d)データの距離2D空間(DS)関数
に変換するステップと
を有し、
単一のマルチチャネル2D空間(IS、HS、DS)を定義する、
3次元(3D)ポイントクラウドの処理方法。
【請求項2】
前記変換ステップが、
−背景ポイントを検出するステップと、
−検出された背景ポイントに対して所定のデフォルト値を設定するステップと
をさらに含む、請求項1に記載の処理方法。
【請求項3】
前記変換ステップの前に、
−1:Nクラスでオブジェクトを分類するタグデータ(Label−A)を供給するステップと、
−前記供給されたタグデータ(Label−A)に従って、1:Nクラスのオブジェクトに属するものとして各抽出されたポイントデータ(xyzi)をラベル付けするステップと
をさらに有する訓練フェーズを含む、請求項1または2に記載の処理方法。
【請求項4】
前記変換ステップが、
−各ポイントの前記強度データに、前記距離データに応じて強度正規化関数を適用することによって前記強度空間(IS)を正規化するステップ、および/または
−各ポイントの前記高さデータに、前記3Dポイントクラウド内の最小および最大の高さデータに応じて高さ正規化関数を適用することによって前記高さ空間(HS)を正規化するステップ、および/または
−各ポイントの前記距離データに、前記3Dポイントクラウド内の最小および最大の距離データに応じて距離正規化関数を適用することによって前記距離空間(DS)を正規化するステップ
から構成される、前記2D空間の少なくとも1つの正規化ステップを含み、
正規化された単一のマルチチャネル2D空間(ISN、HSN、DSN)を定義する、
請求項1から3のいずれか1項に記載の処理方法。
【請求項5】
前記3Dポイントクラウドが、ライダーなどの前記深度センサを使用して導出される、請求項1から4のいずれか1項に記載の処理方法。
【請求項6】
前記強度空間、前記高さ空間、および前記距離空間の各々が、ポイントごとのRGB値空間の1つにそれぞれ割り当てられる、請求項1から5のいずれか1項に記載の処理方法。
【請求項7】
−請求項1から6のいずれか1項に記載の処理方法と、
−ディープニューラルネットワークなどの機械学習に、少なくとも1つの単一のマルチチャネル2D空間(IS、HS、DS;ISN、HSN、DSN)を供給するステップと、
−前記3Dポイントクラウド内の少なくとも1つの関心オブジェクトを識別する、供給された単一のマルチチャネル2D空間ごとに少なくとも1つの分類ラベルを出力するステップと
を有する、3Dポイントクラウド内の関心オブジェクトの分類方法。
【請求項8】
前記供給ステップが、
−請求項1から6のいずれか1項に記載の処理方法を繰り返すことによって、マルチチャネル2D空間のバッチを蓄積するステップと、
−蓄積されたマルチチャネル2D空間の前記バッチの間に、ランダムな数のマルチチャネル2D空間の平均の組合せを供給するステップと
から構成される訓練フェーズを前記機械学習が有する、請求項7に記載の分類方法。
【請求項9】
前記供給ステップが、
−請求項1から6のいずれか1項に記載の処理方法を繰り返すことによって、マルチチャネル2D空間のバッチを蓄積するステップと、
−蓄積されたマルチチャネル2D空間の前記バッチの間に、あらかじめ定義された順序で分配された、いくつかのマルチチャネル2D空間を供給するステップと
から構成される訓練フェーズを前記機械学習が有する、請求項7に記載の分類方法。
【請求項10】
前記供給ステップが、
−請求項1から6のいずれか1項に記載の処理方法を繰り返すことによって、マルチチャネル2D空間のバッチを蓄積するステップと、
−蓄積されたマルチチャネル2D空間の前記バッチの間に、ランダムに選択された少なくとも2×2のマルチチャネル2D空間の行列を供給するステップと
から構成される訓練フェーズを前記機械学習が有する、請求項7に記載の分類方法。
【請求項11】
車両であって、
−少なくとも運転者の視点から、前記車両が走行しているときに辿った経路の3Dポイントクラウドを取得するように配置された深度センサと、
−請求項1から6のいずれか1項によって前記取得された3Dポイントクラウドを処理する処理ユニットと、
−請求項7から10のいずれか1項によって処理された3Dポイントクラウド内の関心オブジェクトを分類する分類ユニットと、
−前記分類された関心オブジェクトに関する情報を表示するように配置された表示ユニットと、
−前記分類された関心オブジェクトに応じて前記車両を制御するように配置された自動運転ユニットと、
−前記表示ユニットおよび前記自動運転ユニットのうちの少なくとも1つを作動させるように決定する決定ユニットと
を備える、車両。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、車両の自動運転に関する。詳細には、本発明は、ライダーなどを使用して導出された3次元(3D)ポイントクラウドの処理方法に関する。本発明はさらに、そのような処理方法に基づいて、かつ機械学習を使用して、3Dポイントクラウド内の関心オブジェクトの分類のための方法に関する。
【0002】
これらの方法は、特に、障害物の検出および回避のためのライダーセンサなどの深度センサを使用して環境の中を安全に操縦する、人間支援型または自律型の車両の分野において有用である。ライダーセンサは、レーザ光をターゲットに照射することによって距離を測定する。
【背景技術】
【0003】
公開文献「Convolutional−Recursive Deep learning for 3D object classification」、Richard Socher、Brody Huval、Bharath Bhat、Christopher D.Manning、Andrew Y.Ng、NIPS2012は、畳み込み再帰的ディープラーニングを使用する3Dオブジェクト分類のための方法を記述している。分類システムへの入力は、カメラからのRGB(赤、緑、青)データおよび深度センサ(STEREO、TOF、LIDARなど)からのD(距離)から構成されるRGB−D情報を必要とする。そのような方法にはいくつかの欠点があり、その中には、いくつかのセンサ、すなわち、カメラおよび深度センサの使用、およびディープラーニングに供給するためにカメラからのデータ(画像)を深度センサ(座標)と統合する必要性がある。
【0004】
公開文献「Towards 3D object recognition via classification of arbitrary object tracks」、Alex Teichman、Jesse Levinson、およびSebastian Thrun(ICRA 201 1)は、オブジェクト認識の方法を記述している。記載された方法では、データの各ソースは、手作業で作成された特徴を逐次方式で算出するために使用され、一連のカスケードでの機械学習の分類が後に続く。この処理フローは、ほとんど一般的な非常に繰返しが多いケースを解決するために最適化されるが、同時にすべての状況に最適ではあり得ないパラメータ調整における柔軟性が限られているので、あまり一般的でない状況ではパフォーマンスが十分でないことが分かる。最後に、強度データのみは2D画像マップの形態で提示され、並列アクセスおよび処理を単一の情報源に限定する。
【0005】
欧州特許出願公開第2958049号は、ポイントクラウドから特徴領域を抽出する方法を記述している。記載された方法は、後で機械学習アルゴリズムによって分類される、対応するボクセルに対するキーポイント選択および記述子計算のための手作業のプロセスを使用する。特徴が事前に選択されているそのような処理パイプラインは、情報のかなりの部分が手作りの方法の選択のせいで事前にフィルタリングされていたので、ディープニューラルネットワーク(DNN)が自動的に特徴を見つける可能性を実現するようにできなかった。そのような事前フィルタリングは、他の多くの現実世界の状況で不利益を被る一方で、特定のタイプの状況に有益である可能性がある。さらに、記載された方法は、低密度のポイントクラウドデータを補償せず、したがって、遠方にあるオブジェクトに対する認識精度が低い。
【0006】
Yuらによる公開文献「Obstacle Classification and 3D Measurement in Unstructured Environments Based on ToF Cameras」は、非構造化環境におけるロボットナビゲーションのための飛行時間(ToF)カメラの使用に基づく障害物検出および分類方法を記述している。異なる種類のセンサ(TOF対ライダー)を使用しながら、強度測定は、いわゆる1タップセンサとして制御されるSR−3000センサを使用して実行される。これは、信頼性のある距離情報を取得するために、4回の連続露光が実行されなければならないことを意味する。したがって、景観内で高速移動するターゲットは、距離計算でエラーを引き起こす可能性がある。SR−3000センサのマニュアル(https://aiweb.techfak.uni−bielefeld.de/files/SR3000 manual V1.03.pdf)に定義されているシステムパラメータによれば、記載された方法は、850nmの波長で7.5mまでの強度を使用する。さらに、記載された方法は、特徴エンジニアリング手法に基づき、すべての特徴が手作業であり、その結果、データが組み合わされる方法は、訓練データとは無関係に変わらないままである。記載された方法は、オブジェクト認識のための特徴を形成するために強度と3D情報の組合せを使用しないが、代わりに、ピクセルごとの強度値と3D測定値との間の直接対応関係を有しながら、3Dデータまたは結果として2Dデータの処理を使用する。さらに、記載された方法は、関心領域のセグメント化の間にノイズをフィルタリングして3D障害物クラスタリングを改善するために強度を使用する。より詳細には、記載された方法は、いくつかの空間を形成する4つの別個のチャネルI、X、Y、Zを使用し、さらなる処理段階がないと、畳み込みディープニューラルネットワークによって容易かつ効率的に処理することができない。
【発明の概要】
【0007】
これらの従来技術は、複数のセンサからのデータおよび/または手作業による特徴選択のプロセスの組合せによってオブジェクト分類の問題に対処し、共通の日常的な状況において許容可能な結果をもたらす。しかしながら、センサの組合せは、使用条件を、すべての使用されるセンサが信号(たとえば、日、良好な気象条件など)を効率的に取り込むことが可能な状況に実質的に限定し、センサの1つが取り込まれた信号を決定できない状況(たとえば、夜間、雨天などにおけるカメラ)においては、正確な結果をもたらすことをできなくする。さらに、手作業による特徴選択プロセスは、非常に少ない典型的な状況(たとえば、最も一般的なもの)に対して最大のパフォーマンスを達成するためにのみ調整することができ、他の(希少/ユニークな)ケースでは、ロバストな分類に必要な手作業による特徴の不在に起因して、同じパフォーマンスを達成することができない。
【0008】
本発明は、従来技術の上述された欠点に対処し、第1に、単純かつ機械学習の目的に適応した3Dポイントクラウドの処理方法と、そのような処理方法に基づく、かつ機械学習を使用する3Dポイントクラウド内での対象物の分類方法とを提案することを目的とする
【0009】
この目的において、本発明の第1の態様は、
−深度センサの所定の視点から3Dポイントクラウドを取得するステップと、
−視点に対して3Dポイントクラウドの各ポイントから3D座標(xyz)および強度(i)データを抽出するステップと、
−3D座標(xyz)および強度(i)データを少なくとも3つの2次元(2D)空間:
・各ポイントの強度(intensity)(i)データの強度2D空間(IS)関数、
・各ポイントの高さ(elevation)(h)データの高さ2D空間(HS)関数、および
・3Dポイントクラウドの各ポイントと視点との間の距離(distance)(d)
データの距離2D空間(DS)関数
に変換するステップと
を備え、
単一のマルチチャネル2D空間(IS、HS、DS)を定義する(defining)、
3次元(3D)ポイントクラウドの処理方法である。
【0010】
上記の実施形態による処理方法は、3Dポイントクラウド内の任意の関心オブジェクトを認識するために不可欠な情報をすべて保持することを可能にする、強度、高さ、および距離に関する情報を含む少なくとも3つの2D空間によって定義される単一のマルチチャネル2D空間に、取得された3Dポイントクラウドデータを変換する簡単かつ容易な方法を提供する。さらに、深度センサ強度データからの強度空間を有することにより、様々な材料から作られたオブジェクトを分類するために有用なさらなる情報源がもたらされる。さらに、そのような単一マルチチャネル2D空間は機械学習アルゴリズムによく適合し、センサの融合に比べて低コストである単一の深度センサを使用するだけでよく、3D座標を有するポイントクラウドの時系列ならびにすべての昼/夜および気象条件に対して同じ信号/ノイズ比を有する強度データを生成する。このように、単一の組み合わされた画像空間に対応する単一のマルチチャネル2D空間(IS、HS、DS)を定義することにより、ディープニューラルネットワークまたは畳み込みニューラルネットワーク(DNNまたはCNN)の能力を大幅に向上させて、同時にすべてのレイヤに対して3つのタイプの情報(強度、高さ、深度)のうちの深度列に沿って、フィルタ/特徴の最良の組合せを自動的に決定する。
【0011】
有利なことに、変換ステップは、背景ポイントを検出するステップと、検出された背景ポイントに対して所定のデフォルト値を設定するステップとをさらに含む。それらの座標および強度値のおかげで検出される背景ポイントは、異なる2D空間内で固定値(たとえば、0,0,0)に設定される。したがって、同様に2D空間に変換される前景ポイント(非背景)は、それらを完全に占有しないはずである。実際に結果として得られた2D空間では、背景ポイントは空のはずである。好ましくは、選択されたデフォルト値は、空間/チャネルごとに2D空間に投影されたポイントの値とは異なるべきである。様々な値を試し、固定のデフォルト値(0,0,0)が結果として得られる精度が最も高いことを確認した。さらに、機械学習は、背景/前景情報を使用して、関心オブジェクトの外形または輪郭を知ることができるはずである。
【0012】
有利なことに、処理方法は訓練フェーズを含み、その間、処理方法は、変換ステップの前に、
−1:Nクラスでオブジェクトを分類するタグデータ(Label−A)を供給するステップと、
−供給されたタグデータ(Label−A)に従って、1:Nクラスのオブジェクトに属するものとして、各抽出されたポイントデータ(xyzi)をラベル付けするステップと
をさらに備える。
【0013】
そのようなラベル付けステップは、訓練フェーズ中に、3Dポイントクラウド内の関心オブジェクトが対応するタグに正しく割り当てられることを保証する。ラベル付けステップはまた、そのような訓練フェーズを短縮し、オンラインフェーズ中の分類の信頼性を高める。
【0014】
有利なことに、変換ステップは、
−各ポイントの強度データに、距離データに応じて強度正規化関数を適用することによ
って強度空間(IS)を正規化するステップ、および/または
−各ポイントの高さデータに、3Dポイントクラウド内の最小および最大の高さデータに応じて高さ正規化関数を適用することによって高さ空間(HS)を正規化するステップ、および/または
−各ポイントの距離データに、3Dポイントクラウド内の最小および最大の距離データに応じて距離正規化関数を適用することによって距離空間(DS)を正規化するステップ
から構成される、2D空間の少なくとも1つの正規化ステップを含み、
正規化された単一のマルチチャネル2D空間(ISN、HSN、DSN)が定義される。
【0015】
そのような正規化は、データを均一にし、汎用パターンの検索に機械学習の焦点を合わせる。実際、絶対(固有)データチャネルおよび相対(汎用)データチャネルを混合することによる正規化ステップを有することは、3Dポイントクラウド内の固有ケースと汎用ケースとの間の有効なトレードオフであることが判明している。
【0016】
有利なことに、3Dポイントクラウドは、ライダーなどの深度センサを使用して導出される。ライダーなどの単一の深度センサを使用して単一のマルチチャネル2D空間を定義すると、特に、生成されたデータフォーマットに関してより経済的で統合が容易であることが判明する。
【0017】
有利なことに、強度空間、高さ空間、および距離空間の各々は、ポイントごとのRGB(赤、緑、青)値空間の1つにそれぞれ割り当てられる。RGB値空間を使用して、強度の代わりに、単一のマルチチャネル2D空間を定義する高さ空間および距離空間を割り当てることにより、完全なデータが、いかなるフォーマット修正も必要とせずにそのようなRGB値空間を受け取るようにすでに設計された機械学習アルゴリズムと一致することが可能になる。このように、RGB値空間は、機械学習アルゴリズムの入力時に通常提供されるRGB画像処理チェーンと直接互換性があるように設計される。
【0018】
別の目的によれば、本発明の第2の態様は、
−第1の態様の方法の変形のいずれかによる処理方法と、
−ディープニューラルネットワークなどの機械学習に、少なくとも1つの単一のマルチチャネル2D空間(IS、HS、DS;ISN、HSN、DSN)を供給するステップと、
−3Dポイントクラウド内の少なくとも1つの関心オブジェクトを識別する、供給された単一のマルチチャネル2D空間ごとに少なくとも1つの分類ラベルを出力するステップと
を備える、3Dポイントクラウド内の関心オブジェクトの分類のための方法である。
【0019】
上記の実施形態による分類方法は、(正規化された)単一のマルチチャネル2D空間を定義するマージされた(正規化された)2D空間の形態で、少なくとも3つの異なる情報源、すなわち強度、高さ、および距離をマージする方法を提供し、それは、いかなる機械学習に対してもこの情報を伝える非常に効率的な方法である。実際、単一のマルチチャネル2D空間は、畳み込みニューラルネットワークまたはディープニューラルネットワークなどの機械学習の並列処理チェーン用の入力として使用することができる。そのようなマージされた2D空間、すなわち(正規化された)単一のマルチチャネル2D空間の並列アクセスおよび処理では、機械学習により、特に、人間によって手作りされにくい強度、高さ、および距離の情報の組合せに関連する、より安定したパターンを見つけるその能力に起因して、状況のはるかに広いセットの中で分類パフォーマンスを最大化する、特徴/決定空間を自動的に構築することができる。したがって、単一のマルチチャネル空間を設計することにより、入力レイヤの深度が3倍に拡張され、フィルタ/特徴の最良の組合せを
学習するCNN/DNNの能力を与える。可能な限り多くのデータを消化できるために訓練フェーズの間、および可能な限り迅速に任意の潜在的な危険を認識できるためにオンラインフェーズ(たとえば、運転状態において)の間の両方で重要な反応時間もスピードアップする。
【0020】
有利なことに、機械学習の訓練フェーズの間、供給ステップは、
−第1の態様の方法の変形のいずれかによる処理方法を繰り返すことによって、マルチチャネル2D空間のバッチを蓄積するステップ、および、以下の変形:
−蓄積されたマルチチャネル2D空間の前記バッチの間に、ランダムな数のマルチチャネル2D空間の平均の組合せを供給するステップ、
−蓄積されたマルチチャネル2D空間の前記バッチの間に、あらかじめ定義された順序で分配された、いくつかのマルチチャネル2D空間を供給するステップ、
−蓄積されたマルチチャネル2D空間の前記バッチの間に、ランダムに選択された少なくとも2×2のマルチチャネル2D空間の行列を供給するステップ
のうちの1つまたは複数から構成される。
【0021】
1つまたはいくつかのマルチチャネル2D空間に組み合わされたデータの時系列(累積されたバッチ)を使用するそのような供給の変形は、訓練段階の間、特に遠く離れた低密度のデータを補償するために有用であり、したがって、DNNがより多くの情報にアクセスし、低密度のポイントクラウドデータを補償しない従来技術の方法と比較して、遠く離れたオブジェクトに対する認識精度が高くなる、より強固な特徴/パターンを選択することが可能になる。
【0022】
オンライン段階の間、マルチチャネル2D空間のそのような組合せをDNNに供給することも可能であるが、より速い処理および出力を得るために、単一のマルチチャネル2D空間のみを供給することが望ましい。さらに、訓練されたDNNは、低密度のポイントデータを受け取った場合でも、安定したパターンを正確に認識することができるように訓練フェーズから恩恵を受ける。
【0023】
別の目的によれば、本発明はさらに、
−少なくとも運転者の視点から、車両が走行しているときに辿った経路の3Dポイントクラウドを取得するように配置された深度センサと、
−本発明の第1の態様によって取得された3Dポイントクラウドを処理する処理ユニットと、
−本発明の第2の態様によって処理された3Dポイントクラウド内の関心オブジェクトを分類する分類ユニットと、
−分類された関心オブジェクトに関する情報を表示するように配置された表示ユニットと、
−分類された関心オブジェクトに応じて車両を制御するように配置された自動運転ユニットと、
−表示ユニットおよび自動運転ユニットのうちの少なくとも1つを作動させるように決定する決定ユニットと
を備える車両に関する。
【0024】
本発明の他の特徴および利点は、添付の図面によって例示される、本発明の特定の非限定的な例の以下の詳細説明からより明らかになる。
【図面の簡単な説明】
【0025】
図1】本発明の好ましい実施形態による、3Dポイントクラウドの処理方法を表す図である。
図2】本発明の第2の態様による、3Dポイントクラウド内の関心オブジェクトの分類のための方法を表す図である。
図3A】マルチチャネル2D空間の変形を表す図である。
図3B】マルチチャネル2D空間の変形を表す図である。
図3C】マルチチャネル2D空間の変形を表す図である。
図3D】マルチチャネル2D空間の変形を表す図である。
図4】本発明による方法を実施するために必要なユニットを備えた車両を表す図である。
【発明を実施するための形態】
【0026】
本発明による方法は、第1の態様による、深度センサ(たとえば、ライダー)によって取得された3次元(3D)ポイントクラウドを1つまたはいくつかの単一のマルチチャネル2D空間に変換する処理方法、および第2の態様による、処理方法によって取得された1つまたは複数のマルチチャネル2D空間によって供給される機械学習(たとえば、ディープニューラルネットワーク)を使用する、3Dポイントクラウド内の関心オブジェクトの分類のための方法である。この分類方法は、マルチチャネル2D空間の形態で供給される可能な限り多くのデータに基づいて、3Dポイントクラウド内の関心オブジェクトを分類し認識するために有用なすべての可能なパターンをディープニューラルネットワーク(DNN)が学習する間の学習フェーズと、単一のマルチチャネル2D空間の形態で供給される3Dポイントクラウドデータ内で認識された関心オブジェクトをDNNが分類する間のオンラインフェーズとを備える。
【0027】
すでに述べたように、これらの方法は、特に、障害物の検出および回避のためのライダーセンサなどの深度センサを使用して環境の中を安全に操縦する、人間支援型または自律型の車両の分野において有用である。ライダーセンサからの3Dポイントクラウドの出力は、潜在的な障害物が環境内のどこに存在するかを迅速かつ正確に判断するために、これらの方法の両方を含むロボットソフトウェアに必要なデータを提供する。
【0028】
図1に示された3Dポイントクラウドの好ましい処理方法によれば、処理方法は、4つの段階A〜Dを備える。段階Aは、ライダーなどの深度センサを使用する3Dポイントクラウドデータの取得段階である。段階Bは、3Dポイントクラウドデータがいくつかの2D空間に投影または変換される変換段階とも呼ばれる投影段階である。オプションの段階である段階Cは、均一なデータを得るために、段階Bで取得された2D空間が正規化される段階である。処理方法が分類方法との関係で訓練フェーズ中に使用されるかオンラインフェーズ中に使用されるかに応じて、段階Dは、機械学習にさらに供給されるべきいくつかの種類のマルチチャネル2D空間を定義し、組み合わせる。
【0029】
段階Aでは、使用される深度センサは、好ましくは、走査レーザレンジファインダの種類のライダーセンサである。
このライダーセンサはレーザービームでその環境を走査し、走査されたポイントごとにライダーセンサの視点からのその距離ならびにその強度を測定し、ライダーセンサの視点に対するクラウドのポイントごとの3D座標(xyz)および強度データ(i)を備える、時間Tにおける3Dポイントクラウド(Data−A)の形態の景観の3次元モデルの復元を可能にする。
【0030】
使用することができるライダーセンサの一例は、VelodyneライダーセンサHDL−64E(http://velodvnelidar.com/docs/datasheet/63−9194 Rev−D HDL−64E Data%20Sheet
Web.pdf)である。このライダーセンサは、各々が特定の垂直角度に機械的に取り付けられ、ユニット全体が回転する、64個の固定取付型レーザを使用して周囲の環境
を測定する。この手法は、信頼性、視界(FOV)、およびポイントクラウド密度を劇的に増大させる。3Dポイントクラウドの取込み頻度は、好ましくは10Hzと15Hzとの間であり、905nmの波長で120mまでのポイントクラウド時間系列を取り込むことを可能にする。
【0031】
好ましくは、訓練フェーズの間、1:Nクラスのオブジェクトを分類するタグデータ(Label−A)が供給され、その結果、取得された3Dポイントクラウドデータ(Data−A)は、供給されたタグデータ(Label−A)に基づいて、1:Nクラスのオブジェクトに属するものとしてタグ付けされる。
段階Aの出力は、視点に対する3D座標およびポイントごとの強度値に分解される、タグ付けされたポイントクラウドデータ(Data−AおよびLabel−A)に対応する。
【0032】
段階Bでは、(タグ付けされた)3Dポイントクラウドデータ(Data−A)が入力される。時間Tにおいて、3D座標(xyz)および強度(i)データは、3つの異なる2D画像空間、すなわち強度2D空間(IS)、高さ2D空間(HS)、および距離2D空間(DS)に投影される。
【0033】
3D座標を2D空間に変換する場合、ライダーセンサの視点に対応する2D画像を再生するために定義された投影行列3D→2Dなどのいくつかの方法を使用することができる。たとえば、視点投影タイプの変換行列(https://en.wikipedia.ora/wiki/Transformation matrix#Perspective projection)を使用することができる。ディープニューラルネットワークが新規のビューをより正確に認識するように、2D空間への投影前のデータ補強の形式として、異なる値の角度で複数回、正準ビューを取得するかまたは回転を行うために、(たとえば軸yに対して)3D回転を適用することによって変換行列を使用することもできる。
【0034】
強度2D空間(IS)は、3Dポイントクラウド内の各ポイントの強度(i)データの関数として定義される。そのような関数は、たとえば、2D空間への強度データの直接変換として非常に簡単であるか、または距離データにも依存してより複雑であり得る。
【0035】
高さ2D空間(HS)は、本明細書では、視点に対する各ポイントのz座標にリンクされた高さデータ(h)の関数として定義される。
【0036】
距離2D空間(DS)は、各ポイントとxyz座標にリンクされた視点との間の距離(d)データの関数として定義される。そのような距離空間は、視点から見ることができるポイントクラウドからのポイントを反映することのみを目的とする。1つの簡単な絶対関数は、たとえば、以下のようであり得る:
d=sqrt(x^2+y^2+z^2)。
【0037】
好ましくは、それらの距離および強度の値のおかげで検出される背景ポイントは、機械学習から除外されるために、異なる2D空間内で固定値(ゼロ)に設定される。
【0038】
段階Bの出力は、単一のマルチチャネル2D空間を定義する強度、高さ、および距離の2D空間(Data−B)を含む3つの2D空間に対応する。
【0039】
段階Cでは、3つの2D空間(Data−B)が入力される。この段階は、すべての2D空間を正規化し、均一なデータを与えるために使用される。この正規化は最小値および最大値または任意の他の適切な複雑な関数に従って行われ、その結果、データは、時間T
におけるポイントクラウド内の強度、高さ、および距離の相対変化を表す。
【0040】
正規化された強度2D空間(ISN)は、距離データに依存する強度正規化関数を各ポイントの強度データに適用することによって取得される。複雑な関数の一例は、VelodyneユーザーズマニュアルおよびプログラミングガイドHDL−64E S3「High Definition LiDAR Sensor」(45ページ参照)に与えられているように、オブジェクトの距離の関数としての強度の正規化である。
http://velodvnelidar.com/docs/manuals/63−HDL64ES3g%20USERS%20MANUAL PROGRAM%20GUIDE.%20HDL−64E%20S3.Pdf)
【0041】
正規化された高さ2D空間(HSN)は、3Dポイントクラウド内の最小および最大の高さデータに依存する高さ正規化関数を各ポイントの高さデータに適用することによって取得される。
ポイントクラウドのポイントごとの高さ正規化関数の一例は、以下のようであり得る:
height.pixel.value=255*((z−min_pt.z)/(max_pt.z−min_pt.z))
ここで、min_pt.zおよびmax_pt.zは、所与の時間Tにおける3Dポイントクラウド内の最小および最大の高さに対応する。
【0042】
正規化された距離2D空間(DSN)は、3Dポイントクラウド内の最小および最大の距離データに依存する距離正規化関数を各ポイントの距離データに適用することによって取得される。
ポイントクラウドのポイントごとの距離正規化関数の一例は、以下のようであり得る:
distance.pixel.value=255*((d−min_pt.d)/(max_pt.d−min_pt.d))
ここで、min_pt.dおよびmax_pt.dは、所与の時間Tにおける3Dポイントクラウド内の最小および最大の距離値に対応する。
【0043】
距離または高さの正規化の複雑な関数の場合、視点(すなわち、ライダーセンサ)とポイントクラウド内の検出されたオブジェクトとの間の距離に依存する重み[a,b]とともに、上述された式を使用することを考慮することができる。たとえば、遠いオブジェクトの場合は[b]に近く、近いオブジェクトの場合は[a]の近くに重みを設定することができ、ここで[a]>[b]である。[a]および[b]の値は、好ましくは、各々の目標距離においてオブジェクトの分類を最適化するために実験的に定義されるはずである。
height.pixel.value=weight(distance)*255*((z−min_pt.z)/(max_pt.z−min_pt.z))
distance.pixel.value=weight(distance)*255*((d−min_pt.d)/(max_pt.d−min_pt.d))
【0044】
段階Cの出力は、単一の正規化されたマルチチャネル2D空間を定義する正規化された3つの2D空間(Data−C)に対応する。
【0045】
段階Dでは、正規化された3つの2D空間(Data−C)が入力される。処理方法が訓練フェーズ中に使用されるかオンラインフェーズ中に使用されるかに応じて、段階Dは、図2との関係で説明されるように、機械学習にさらに供給されるべきいくつかの種類の(正規化された)マルチチャネル2D空間(Data−D)を定義し、組み合わせる。マルチチャネル2D空間のいくつかの例は、図3A図3Dを参照してより詳細に提示される。
【0046】
図3A図3Dは、機械学習(段階E、図2)に供給されるべき段階Dから出力されたデータ組合せの4つの例を示す。各図は、段階D(Data−C)に入力されたデータの累積されたバッチに対応する9つの連続する単一のマルチチャネル2D空間(ihd)の元の時間シーケンスを示す。各2D空間は64×64ピクセルの配列であり、その結果、各々の単一のマルチチャネル2D空間(ihd)は64×64×3の配列である。
【0047】
図3Aの1番目の例では、段階Dの出力(Data−D)は、最後の単一のマルチチャネル2D空間(ihd9)に対応する。最後の単一の固定位置のそのような一直線の選択は、好ましくは、機械学習からの応答が必要なときのオンラインフェーズ中に使用される。Data−Dのフォーマットは、単一のマルチチャネル2D空間と同じ、すなわち64×64×3である。
【0048】
図3Bの2番目の例では、段階Dの出力は、元の時間シーケンスの中のランダムな数のマルチチャネル2D空間の平均の組合せに対応する。そのような平均の組合せは、好ましくは、より多くの情報(ihd1〜9)に基づいてデータを供給するために、機械学習の訓練フェーズ中に使用される。図示された例では、9個のマルチチャネル2D空間のうちの6個がランダムに選択される(たとえば、2,1,5,9,6,4)。Data−Dのフォーマットは、単一のマルチチャネル2D空間と同じ、すなわち64×64×3である。
【0049】
図3Cの3番目の例では、段階Dの出力は、元の時間シーケンスの中であらかじめ定義された順序で分配された、いくつかのマルチチャネル2D空間(ihdスライス)に対応する。そのようなスライスの組合せも、好ましくは、より多くの情報(ihd1〜9)に基づいてより多くのデータ(3つのihd)を供給するために、機械学習の訓練フェーズ中に使用される。図示された例では、最初(ihd1)、中間(ihd5)、および最後(ihd9)のマルチチャネル2D空間が選択される。Data−Dのフォーマットは3倍の64×64×3である。
【0050】
図3Dの4番目の例では、段階Dの出力は、元の時間シーケンスの中からランダムに選択された少なくとも2×2のマルチチャネル2D空間の行列に対応する。そのような行列の組合せも、好ましくは、より多くの情報(ihd1〜9)に基づいてより多くのデータ(4つのihd)を供給するために、機械学習の訓練フェーズ中に使用される。図示された例では、9つのうちの4つのihd(ihd3,6,7,8)がランダムに選択される。Data−Dのフォーマットは128×128×3である。
【0051】
これらの最後の3つの例は、あまりにも多くの画像を前もって記録することなく、ディープニューラルネットワークに供給されるデータを増加させる可能性をもたらす。
【0052】
図2は、図1との関係で提示された処理方法に基づいて、3Dポイントクラウド内の関心オブジェクトの分類のための好ましい方法を示す。
【0053】
図1に提示された段階A〜Dの後に、Data−Dは、段階Eにおいて、機械学習、好ましくはディープニューラルネットワーク(DNN)に出力される。DNNの定義された構成は、いくつかのカテゴリ:ネットワーク内のネットワーク、畳み込み、再帰などのうちの1つの可能性がある。
【0054】
好ましくは、使用されるDNNは畳み込みニューラルネットワークであり得るし、より具体的には、この畳み込みニューラルネットワークは、以下のアドレス:http://arxiv.orq/pdf/1512.00587v3.pdfにある、Christ
ian Szegedy、Vincent Vanhoucke、Sergey loffe、Jonathon Shlens、およびZbigniew Wojnaによって提示されたInception V3であってもよい。そのようなディープニューラルネットワークは、マルチチャネル2D空間などの二次元オブジェクトを分析するのによく適している。
【0055】
段階Eでは、図3A図3Dに提示された任意の種類のData−Dが入力される。訓練フェーズの間に、Label−Aデータも入力される。
【0056】
第1のステップは、その構成および目標パフォーマンスレベルの要件に応じて、1つまたは複数のマルチチャネル2D空間(Data−D)を、DNNの特徴空間の1つまたは複数の入力(Conv−1、Conv−2、Conv−3)に接続することから構成される。訓練フェーズの間、複数の特徴空間に接続された2D空間の時系列(たとえば図3C)などの最も正確な組合せが好ましくは選択され、一方、オンラインフェーズの間、単一のマルチチャネル2D空間(たとえば図3A)などの速い組合せが固有の特徴空間に接続される。あるいは、追跡アルゴリズムを追加することが可能であり、その結果、関心オブジェクトが追跡されている限り、洗練されたデータの組合せおよびより確実な分類レベルを取得するために、累積方法のいずれかの間を切り替えることができる。
【0057】
第2のステップはDNNを訓練することから構成され、ここで、特徴空間と決定空間の両方は、Label−A内で定義されたタグ(対応する2D空間にタグ付けするために使用された各ポイントクラウドからのタグ)を有するマルチチャネル2D空間のミニバッチからのフォワード信号を与えられた損失関数(Loss−A)によって生成されたフィードバックの後方伝搬を介して構築される。
【0058】
第3のステップは、オンラインフェーズ中のオンラインマルチチャネル2D空間、または訓練フェーズ中のマルチチャネル2D空間(Data−)の組合せを使用するDNNを介してフォワード信号を伝播して、分類レベルおよび推定信頼レベルを取得することから構成される。
【0059】
段階Eの出力は、好ましくは、ライダーセンサによって取得された各ポイントクラウドまたはポイントクラウドの時系列に対する推定信頼ラベルとともに分類レベルに対応する。
【0060】
そのような分類方法によって達成される目標は、自動的に最良の特徴を見つけ、たとえば3Dオブジェクト認識のために使用できるライダーセンサによって取得された3Dポイントクラウドの時系列データの正確な分類の可能性を最大化する決定空間を構築することである。
【0061】
図6は、移動中に連続する一連の3Dポイントクラウドを撮るレーザ光走査ユニット(LIDAR)などの360°走査ユニット210を備えた車両100を表す。車両100は、電子制御ユニット、表示ユニット、および自動運転ユニットも備える。
【0062】
電子制御ユニットは、取得された3Dポイントクラウドを処理する処理ユニットと、処理された3Dポイントクラウド内の関心オブジェクトを分類する分類ユニットと、表示ユニットおよび自動運転ユニットのうちの少なくとも1つを作動するように決定する決定ユニットとを備える。
【0063】
比較のために、発明者は、現在の分類方法を、Alex Teichman、Jesse Levinson、およびSebastian Thrunの公開文献「Towar
ds 3D object recognition via classification of arbitrary object tracks」(ICRA2011)によって公開された結果と比較した。
【0064】
現在の分類方法は、Teichmanらによって提案された試験セットで同様のレベルのパフォーマンス−すなわち、歩行者の認識精度における99.6%に達することができる。現在の方法の利点は、そのようなレベルの認識が(1つのライダーフレームのみを必要とする)単一のショットを介して達成されることである。Teichmanらに使用された追跡などのいかなる追加のアルゴリズムも必要なく、これは応答時間がはるかに高速であることを意味する。一例として、100ms収集ライダーフレームを使用すると、現在の方法は次の100ms以内に応答することができるが、Teichmanらは1秒以上かかる場合がある。Teichmanらの長い応答時間は、当然、自動運転および衝突回避の目的のための制限である。
【0065】
添付の特許請求の範囲によって規定される本発明の範囲から逸脱することなく、本明細書に記載された本発明の様々な実施形態に、当業者にとって明らかな様々な修正および/または改善をもたらすことができることが理解されよう。
図1
図2
図3A
図3B
図3C
図3D
図4