【文献】
LIN, Yuanqing,Towards Visual 3D Scene Understanding for Autonomous driving,[オンライン],米国,NEC Laboratories America,2014年 2月12日,第5頁−第19頁,[平成28年10月19日検索],URL,www.linyq.com/Penn_industry_day.v7.pdf
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0009】
図1Aは、単一カメラのみを使用する自律運転のための例示のコンピュータ視覚システムを示す。単一カメラのみによる自律運転の方法は、地表面推定(20)による物体検知及び単眼の運動からの構造復元(SFM)を利用するリアルタイムフレームワークによる3Dでの移動物体の位置測定と、リアルタイムフレームワークによる移動する車の特徴点の追跡及び3D方向推定(30)への特徴点の使用と、疎な特徴と密なステレオ視覚データ(40)からのキューを結合する地表面推定を用いてスケールドリフトを補正することと、を含む。
【0010】
システムの高い性能は、疎な特徴及び密なステレオからのキューを結合する地表面推定を用いたスケールドリフト補正によるものである。キュー結合のためのデータ駆動型機構は、トレーニングデータからモデルを学習し、各キューに対する観測共分散を基になる変数の誤差挙動に関連付ける。試験の間、これは、視覚データから推測される相対信頼度に基づいた観測共分散のフレーム毎調節を可能にする。3Dでの移動物体の位置測定のフレームワークは、正確な地表面を通って、2D物体境界ボックス及びSFMの共通の利点を利用することにより高精度を実現する。
【0011】
図1Bは、物体検知プロセスの例示の選択的コンテキストモデリングを示す。コンテキスト情報は、限定するものではないが、他の検知器からの反応、画像分類からの反応、又は背景からの外観を含む物体検知アルゴリズムで主に使用される。発明者らの提案は、効率的な背景コンテキストの学習の問題に対処する。全ての物体背景が物体検知に役立つとは限らない。有効な背景コンテキストを判定するために、本発明者らは背景領域のセットを提案する。ブースティング学習プロセスを用いてこれらの領域を探索し、最も特徴的なものを選択する。
【0012】
図1Bに示すように、本発明者らの目的はオートバイを検出することである。背景コンテキストを組み込むために、物体境界ボックスを越えた拡張領域、即ち、ピンクの領域を使用する。本発明者らは、ピンクの物体背景から無作為に3000個の部分領域を選択する。これらの部分領域から抽出された特徴は、不得意な学習者の入力としてブースティングプロセスに送られる。最も特徴的なもの、即ち、物体検知の精度に最も役立つ部分領域が選択され、最終的なブースティング分類器に拡大される。本発明者らのアプローチは、PASCAL VOC 2007データセットにおいて物体検知平均精度を2%上げる。
【0013】
本発明者らのシステムは、実世界の自律屋外運転アプリケーションを可能にする、包括的で正確なロバストの、かつリアルタイムに大規模な単眼の運動からの構造復元(SFM)システムを提供する。本発明者らのシステムは、大きな動きの処理及び高速移動車両の結像の迅速な変更を可能にする、運動からの構造復元のための新しいマルチスレッドアーキテクチャに頼る。システムの設計上のハイライトとして、長軌道上の特徴照合を広範囲にわたり確認する平行なエピポーラ検索及び低コストでの組み込みを可能にする新しいキーフレームアーキテクチャが挙げられる。これにより本発明者らは、平均30fpsでのシステムのロバスト操作で、出力がフレーム毎に50ms以内に保証されるという、自律運転の主要な要件を満たすことができる。単眼SFMのスケールの曖昧さを解決するために、本発明者らはフレーム毎に地表面の高さを推定する。地表面推定のキューは、三角測量された3Dの点及び平面によって誘導される密なステレオ照合を含む。これらのキューは、本発明者らが正しい経験的な共分散で動作するように厳密にトレーニングする、柔軟なカルマンフィルタ処理フレームワークで結合される。本発明者らは、難しいKITTIデータセットから50km近くの実世界の駆動シーケンスで広範囲にわたる確認を実行して、大規模スケールのリアルタイム単眼システムで現在までの最高精度である0.01°/フレーム回転及び4%の並進誤差を得ている。
【0014】
システムの効果として、以下が挙げられる。
【0015】
ステレオに匹敵する性能を実現する高精度リアルタイム単眼SFM。
【0016】
フレーム毎の観測共分散を正しく重みづけするために、学習したモデルを用いた地表面推定の複数のキューを最適に結合することによるスケールドリフト補正。
【0017】
近視野及び遠視野の両方で正確な位置測定を実現するために、地表面を通って検知と単眼SFMを結合する3D物体位置測定フレームワーク。
【0018】
図2は、
図1Aの一実施形態の動作を示す。最上部行で、本発明者らの単眼SFMは、実世界の運転の数キロメートル上でグランドトルースに近いカメラ軌道を得る。KITTIデータセットにおいて、本発明者らは、ステレオにも匹敵し、他の単眼SFMシステムよりはるかに低い並進誤差で、ローテーション中のほとんどのステレオシステムより優れている。新しい適応地表面推定を用いたスケールドリフト補正は、そのような精度及びロバスト性を可能にする。最下部行で、本発明者らは、SFMを2D物体境界ボックスと結合して、適応地表推定から利益を誘導する3D移動物体位置測定フレームワークを実証する。シアンは2D境界ボックスを示し、緑は推定した地表面からの地平線であり、赤は、マゼンタの距離と共に遠方及び近傍の物体の推定した3D位置測定を示す。
【0019】
システムは、複数の方法の地表面推定からキューを組み込み、第2にそれらを、広範囲にわたるトレーニングデータから学習したモデルを用いて、フレーム毎の相対信頼度を説明する原理的なフレームワークに結合する。
【0020】
キューを結合するために、システムは、フレーム毎に融合観測共分散を適合させるカルマンフィルタを使用して相対的不確実性を反映する。これは、一実施形態においてKITTIデータセットからの20000超のフレームでのトレーニング手順によって実現され、それによってそれぞれ基になる変数の誤差配分に応じた分散に対する各キューの観測共分散に関連するモデルが学習される。高精度の地表面は、3Dでの移動剛性物体(車)の単一カメラ位置測定などのシーン理解アプリケーションに即時の効果を有する。新しい位置測定フレームワークは地表面を通って、物体境界ボックスからの情報とSFM特徴追跡を結合する。直観的に、SFMは、近くの物体での正確な特徴照合を可能にすることができるが、遠くの物体の低解像度によって弱点を有する。他方では、物体検知又は外観ベースの追跡からの境界ボックスは、遠距離の物体に対して得られるが、しばしば近視野の3Dシーンと一致しない。したがって、SFM及び検知は、互いの欠点を相互に打ち消すことができる。適応地表面を通ってSFM及び検知を結合することによって、システムは、近傍及び遠方の両方の物体について3D位置測定を著しく改善する。本発明者らのキュー結合の効果は、より包括的な単眼シーン理解フレームワークでも使用可能である。
【0021】
システムは、複数の方法の地表面推定からキューを組み込み、第2にそれらを、広範囲にわたるトレーニングデータから学習したモデルを用いて、フレーム毎の相対信頼度を説明する原理的なフレームワークに結合する。キューを結合するために、カルマンフィルタフレームワークは、フレーム毎に融合観測共分散を適合させて、各キューの相対的不確実性を反映する。これは、KITTIデータセットからの20000超のフレームでのトレーニング手順によって実現され、それによってその基になる変数の誤差挙動に対する各キューの観測共分散に関連するモデルが学習される。本発明者らの知っている限りでは、キュー結合の観測共分散のそのような適応的推定は、新しい。
【0022】
高精度の地表面は、3Dでの移動剛性物体(車)の単一カメラ位置測定などのシーン理解アプリケーションに即時の効果を有する。それを実証するために、位置測定フレームワークは、地表面を通って、物体境界ボックスからの情報とSFM特徴追跡を結合する。直観的に、SFMは、近くの物体での正確な特徴照合を可能にすることができるが、遠くの物体の低解像度による弱点を有する。他方では、物体検知又は外観ベースの追跡からの境界ボックスは、遠距離の物体に対して得られるが、しばしば近視野の3Dシーンと一致しない。更に、単眼SFMにおける各単独の移動物体は、最善の状態で未知のスケール係数まで推定され得る。2D境界ボックスと正確な地表面との接触は、このスケールを決定するキューを提供する。
【0023】
適応地表面を通したSFMと物体境界ボックスの結合は、近傍及び遠方の物体の両方に対して3D位置測定を著しく改善する。本発明者らのキュー結合の効果は、より包括的な単眼シーン理解フレームワークでも使用可能である。
【0024】
ビジュアルオドメトリは、本質的に順次処理である。特に自律ナビゲーションでは、屋内のアプリケーション又はデスクトップアプリケーションと対照的に、同じシーン構造を繰り返し見る可能性が高い。可視視野における点の急速な変化について、束調整は、PTAMの遮断機構でではなくフレーム毎である必要があり、そうでなければ微細な点が使用可能になるまでに、それ以上有用ではない。したがって、マルチスレッドシステムの設計は、精度と待ち時間との間の微妙なバランスの実現を必要とする。
【0025】
本発明者らのマルチスレッドアーキテクチャは、所望するだけ多くのスレッドへの洗練された拡張を可能にする。明らかな速度の利点の他に、マルチスレッドはまた、システムの精度及びロバスト性にも大きく寄与する。例として、本発明者らのエピポーラ拘束(contrained)検索を検討する。2D−3D対応に依存するシステムのシングルスレッドバージョンは、キーフレームより前のフレームでエピポーラ検索を実行することによって、安定点の集合を更新し得る。ただし、この機構によって導入される3D点のサポートは、サーキュラー整合及び三角測量に使用されるトリプレットだけに限定される。エピポーラ検索を別個のスレッドに移動し、全てのフレームでサーキュラー整合を実行することによって、本発明者らは、3D点に最大で先のキーフレームからの距離の長さの軌跡を与えることができる。明らかに、マルチスレッドシステム内のエピポーラスレッドによって提供される長い軌跡の集合は、外れ値を有さない可能性が極めて高い。
【0026】
自律運転アプリケーションで視野外にシーン点が急速に移動するのに対処するため、姿勢推定に使用可能な候補点の集合は、専用のスレッドで常に更新される。大体の消失点推定を用いて高速に処理するためにエピポーラ更新を拡張する。位置(x
0,y
0)における直近のキーフレームの全ての特徴f
0に対し、カメラ速度に比例した辺長の、フレームn内の(x
0+Δx,y
0+Δy)を中心とした正方形を検討する。変位(Δx,Δy)は、消失点からの(x
0,y
0)の距離に基づき計算される。(Δx,Δy)の推定は、差異範囲が近視野と遠視野との間で大きく変更する場合がある高速のハイウェイシーケンスに役立つ。
【0027】
スライディングウィンドウの束調整は、並列スレッドでエピポーラ検索と動作する。キーフレームはより大きな改良をもたらすために追加される。小さな運動の間に、キーフレームの追加を妨げ、前のキーフレームが束キャッシュに確実に含まれるようにすることによって結果は向上する。これは、ほぼ静止した状態に対する改善された姿勢推定を生じさせる。改良後、システムはまた、ぼやけ又は鏡面性のようなアーチファクトのために一時的に失われた3D点を再度見つける機会を与えられる。一般的に利用可能なSBAパッケージ[?]は、束調整に使用される。
【0028】
スケールドリフトは、地表からのカメラの較正した高さ、
【0029】
【数1】
を用いて補正される。hを地表面の推定した高さとし、次にカメラの姿勢をスケール係数
【0030】
【数2】
によって調整し、続いて束調整を行う。セクション(Sec.)5では、高精度hを得るキュー結合に対する新しいアプローチを説明する。
【0031】
様々な方法から推定を結合するために、システムは、カルマンフィルタを使用する。その状態発展のモデルは、次式であり、
【0032】
【数3】
ここで、xは状態変数であり、zは観測値であり、同時にQ及びUは、それぞれプロセスと観測ノイズの共分散であり、それらをゼロ平均の多変量正規分布とする。方法j=1,...,mが、それぞれその観測共分散U
jと共に地表面の推定に使用されるとする。次に
【0033】
【数4】
を用いると、時刻kでの融合方程式は、次式となる。
【0035】
全てのフレームでのU
kの、各キューに対する正確な比率
【0036】
【数6】
を用いた有意の推定は、原理的なキュー結合に必要である。伝統的に、固定共分散(fixed covariances)は、キューを結合するのに使用され、ビデオシーケンスにわたって各キューの有効性におけるフレーム毎の変動を説明しない。厳密なデータ駆動型モジュールは、基になる変数の誤差配分に基づき、各キューに対するフレーム毎の共分散に適合するモデルを学習する。
【0037】
スケールドリフト補正は、単眼SFMの不可欠な構成要素である。実際には、精度を確保する、単一の最も重要な態様である。本発明者らは、スケール補正用カメラに対して地表面の奥行及び向きを推定する。
【0038】
本発明者らは、特徴照合の三角測量及び密なステレオのような複数の方法を使用して地表面を推定する。システムは、これらのキューを結合して、本発明者らの確率を各キューの相対精度に反映させる。当然、この確率は、特定のフレームにおける入力及びトレーニングデータからの観測の両方から影響を受けるはずである。本発明者らは、基になる変数の誤差挙動に対する各キューの観測共分散に関連する広範囲に及ぶトレーニングデータからの学習モデルによってこれを得る。試験中、全てのフレームにおける誤差配分は、それらの学習されたモデルを用いてデータ融合観測共分散を適応させる。
【0039】
平面によって誘導される密なステレオを次に詳述する。本発明者らは前景の領域(画像の下部3分の1の中部5分の1)が道路平面であると仮定する。(h,n)の仮定された値に対して、ステレオ費用関数の計算は、フレームkとk+1との間のホモグラフィーマッピングを
【0040】
【数7】
と決定し、ここで(R,T)は、単眼SFMからの相対姿勢である。tは、スケールドリフトの係数による正確な並進と異なり、本発明者らが推定しようとするhで符号化されることに注意されたい。フレームk+1内のピクセルは、フレームkにマッピングされ(サブピクセル精度は、良好な性能のために重要である)、誤差絶対値和(SAD)が二線補間された画像強度にわたって計算される。Nelder−Meadシンプレックスルーチンを使用して、この費用関数を最小にする(h,n)を推定する。最適化は、3つの変数h、n
1、及びn
3だけを必要とすることに注意されたい(PnP=1であるため)。実際には、
図1に示すように最適化コスト関数は通常明確な極小を有する。最適化は、平均で10ms/フレームを必要とする。
【0041】
次に三角測量された3D点を見ると、本発明者らは、上記関心領域内で計算される、フレームkとk+1との間の照合したSIFT記述子を検討する(ORB記述子は、道路の低い質感に対して力不足であることがわかり、リアルタイム性能はこの小さな領域でSIFTに関して達成可能である)。三角測量された3D点を通して平面を合わせるために、1つのオプションは平面を合わせるために3点RANSAC(3−point RANSAC)を用いて(h,n)を推定することであるが、本発明者らの経験ではより良好な結果は、カメラピッチを較正から固定されるものと仮定することによって[?]の方法を用いて得られる。全ての三角測量された3D点iに対し、高さの差
【0042】
【数8】
が全ての他の点jに関して計算される。推定された地表面の高さは、次式で示される最大スコアqに対応するiの高さである。
【0044】
他のシステムでは、フレーム間のホモグラフィーマッピングGを分解してカメラの高さを得ることができる。ただし実際には、分解は、ノイズに非常に敏感であり、ホモグラフィーはざらつきが少ない道路表面からの特徴照合(feature maches)を用いて計算されるため、これは深刻な問題である。本発明者らは、ホモグラフィー分解及び3D点のキューの両方が特徴照合の同じ集合に依存するため、ホモグラフィー分解が3D点のキューより良好に実行することは期待できないことにも注意する。更に、道路領域がホモグラフィーによってマッピングされ得ることは、本発明者らの平面によって誘導される密なステレオによって既に利用されている。
【0045】
キュー結合用のデータ駆動型学習を次に詳述する。上記の2つの方法によって提供される地表面のキューは、事前作業と著しく異なるカルマンフィルタフレームワークに結合される。各キューの相対的な強度における瞬間的な変動を説明するために、各キューの相対的有効性の確率に応じて観測共分散を適応させるモデルを学習するトレーニング機構を使用する。
【0046】
本発明者らの実験のトレーニングデータは、KITTIデータセットのシーケンス0〜10のF=23201フレームからなり、Velodyne奥行センサー情報が含まれる。グランドトルースh及びnを決定するために、本発明者らは道路である、カメラに近い像の領域にラベルをつけ、平面を関連した3D点に合わせる(試験中に使用可能、又は使用されるラベル情報はない)。
【0047】
(1)の状態変数は、単に地表面の方程式であり、したがって、x=(n,h)
Tである。||n||=1であるため、n
2は、n
1及びn
3によって決定され、観測値はz=(n
1,n
3,h)
Tである。したがって、本発明者らの状態遷移行列及び観測モデルは次式によって与えられる。
【0049】
密なステレオ
本発明者らは状態変数が相関しない近似値を作成する。トレーニングイメージのために、
【0050】
【数11】
を密なステレオ方式によって推定された地表面とする。まず、範囲
【0051】
【数12】
内のhの50個の均一なサンプルについて
【0052】
【数13】
を固定し、フレームk〜k+1の
【0053】
【数14】
によって与えられるホモグラフィーマッピングを構成する。各ホモグラフィーマッピングに対して、二線補間された画像強度を用いて道路領域に対応するSADスコアを計算し、値s=1−ρ
−SAD(ここでρ=1.5)を検討する。ここで単変量ガウス分布を、分散
【0054】
【数15】
がSAD分布のシャープネスを得るsの分布に合わせ、フレームkで密なステレオ方式から推定された高さhの精度に確率を反映する。同様の手順は、方向変数に対応する分散
【0057】
【数17】
をグランドトルースに対して密なステレオ単独から推定された地表面の高さにおける誤差とする。次に、分散
【0058】
【数18】
にわたりB=1000ビンである
【0059】
【数19】
のヒストグラムを検討する。ビンの中心を
【0060】
【数20】
の密度に一致するように位置付けている(即ち、各ビン内においてF/B誤差観測結果を大まかに分配する)。各ビンb=1,...,B内において誤差e
s,hに対応する分散σ
s,h’を計算し、これは観測分散である。次に、本発明者らはσ
s,h’対σ
s,hの分布に曲線を合わせ、これは密なステレオの有効性に対してhにおける観測分散に関する学習されたモデルを提供する。経験的に、本発明者らは、直線が良好な適合を十分にもたらすことを観察している。同様のプロセスが、n
1及びn
3について繰り返される。
【0061】
三角測量された3D点を使用する方法の共分散推定は、法線nがカメラピッチから既知と考えられ、高さhだけが推定されたエンティティであるため、ステレオ方式とは異なる。トレーニングの間、
【0062】
【数21】
を、3D点を単独で用いてフレームkで推定された地表面の高さとする。
【0063】
【数22】
に対し、本発明者らは、グランドトルースに関する高さ誤差
【0064】
【数23】
及び(3)に定義されるqの合計を計算する。qは、3D点から推定された高さの精度に確率を反映することに注意されたい。密なステレオ同様に、ヒストグラムは、B=1000ビンで計算され、約F/Bの
【0065】
【数24】
の観測結果は、q
bを中心とし、q=,...,Bについて各ビンで記録される。KITTIデータセット用のヒストグラムは、
図4に示される。
【0066】
【数25】
をビンbの分散とする。次に、本発明者らは、データ点
【0067】
【数26】
を通って適合する直線を計算し、これは、3D点キューの期待された有効性に対してhにおける観測共分散に関する学習されたモデルである。
【0068】
n1及びn
3は、このキューについて固定であると考えられるため、固定分散推定
【0069】
【数27】
が、グランドトルースに関するn
1及びn
3における誤差の分散として計算される。
【0070】
試験時間の間、フレームjにおける密なステレオキューについて、本発明者らは再度1Dガウス分布をホモグラフィーマッピングされたSADスコアに合わせて、
【0071】
【数28】
の値を得る。line−fitパラメータを用いて、本発明者らは
【0072】
【数29】
の対応値を予測する。密なステレオ方式の観測共分散は、ここで
【0074】
フレームjにおける3D点キューについて、qの値が計算され、対応する
【0075】
【数31】
が
図4の線フィットから推定される。この方式の観測共分散は、ここで
【0077】
最後に、フレームjの適応共分散、U
jは、(2)に従って
【0078】
【数33】
を結合することによって計算される。
【0079】
3Dにおける移動物体の位置測定について、SFM及び2D物体境界ボックスは、シーン理解のための本質的に相補的なキューを提供する。SFMは、近くの物体に対し信頼できる追跡をもたらすが、遠視野の低解像度によって弱点を有する。他方では、検知又は追跡境界ボックスは、遠くの物体に対し3Dシーンと一致する傾向があるが、遠近法の課題のために近くのシーンで不正確に整合される場合がある。このセクションでは、本発明者らは正確な地表面を通してSFMと2D物体境界ボックスを結合するフレームワークを使用して、3Dにおいて近傍及び遠方の両方の物体を位置測定する。
【0080】
正規軸(α
c,β
c,γ
c)を有するカメラ座標系C及び軸(α
o,β
o,γ
o)を有する物体座標Oを検討する。物体の背面が地表と交差する線分の中心に対応する、カメラ座標における物体座標の原点をc
o=(x
o,y
o,z
o)
Tとする。物体が地表面に横たわり、ヨー角ψで面内に回転自在であると仮定する。次に、物体の姿勢をΩ=(x
o,y
o,ψ,θ,φ,h)
Tとして定義し、そこで地表面を(n,h)
T=(cosθcosφ,cosθsinφ,sinθ,h)Tとしてパラメータ化する。座標系は、
図1で可視化される。
【0081】
N=[n
α,n
β,n
γ]を定義し、ここでn
γ=(−n
1,n
3,−n
2)
T、n
β=−n、及びn
α=n
β×n
γである。次に、物体からカメラ座標への転換は、次式と共に
【0083】
【数35】
ここでω
ψ=(0,ψ,0)
T及び[・]
xは、外積行列である。
【0084】
次に、位置測定の合同最適化を詳述する。3Dにおいて物体を位置測定するために、M個のフレームのウィンドウにわたってSFM費用及び物体費用の加重和を最小化する。
【0085】
SFM費用を決定するために、物体上のN個の特徴をフレームk=1,...,Mで、物体座標の3D位置がX
0=[x
1,...,x
N]によって与えられた状態で追跡されるものとする。フレームkにおける点x
jの投影
【0086】
【数36】
は、次の均質関係により与えられる。
【0089】
【数38】
が観測投影である場合、特徴追跡に対するSFM再投影誤差は、次式として定義することができる。
【0091】
SFM単独で解決することができないCに関するOの原点に全体的な曖昧さが存在することに注意されたい。これを解決するには、物体境界ボックスからの入力を必要とする。
【0092】
物体費用:(推定しようとする)物体の3D境界ボックスの寸法をα
o,β
o,γ
o軸に沿ってl
α,l
β,l
γとする。次に、3D境界ボックスの頂点の位置を物体座標で
【0093】
【数40】
とする。フレームkにおける3D頂点v
iの画像投影
【0096】
【数43】
は、均一のスケール係数である。次式を
【0097】
【数44】
フレームkにおける境界ボックスの投影したエッジと定義する。次に、
【0098】
【数45】
がj=1,...,4に対して、境界ボックスの観測エッジである場合、「物体」再投影誤差を計算することができる。
【0101】
【数47】
として、γ
o及びα
oに沿った境界ボックスサイズの比をηにするように促す事前と共に計算される。この正則化の実際的な理由は、カメラの運動が大きく前進し、シーン内の大部分の他の自動車が同様に配向されていることであり、したがってγ
oに沿った位置測定の不確実性がより高くなることが期待される。KITTIデータセットのグランドトルース3D境界ボックスでトレーニングすることによって、本発明者らはη=2.5をセットする。v及びδの値は経験的に、本発明者らの全ての実験にわたりそれぞれ100及び1にセットされる。
【0102】
本発明者らは、E
o及びE
sの相補的な性質に留意する。SFMの項は、物体の向きを誘導するが、境界ボックスはサイズを解決し、物体の原点を固定する。(10)の最適化は、疎なLevenberg−Marquardtアルゴリズムを用いて解決することができ、したがってリアルタイム単眼SFMを照合するのに十分な速さである。
【0103】
上に定義したように局所的最小化フレームワークの成功は、良好な初期化次第である。本発明者らは、変数を初期化するために、再度正確な地表面推定に加えて2D境界ボックス及びSFMの両方からのキューに依存する。
【0104】
物体境界ボックスは、物体運動がしばしば互いに関係する運転シーンにおける運動分割の問題を回避する。それらはまた、各物体に対する独立した特徴追跡を可能にする。物点について、3Dの追跡は、上述のように同様のフレームワークを用いて推定される。剛体の運動は、境界ボックス内の非物点を外れ値として廃棄するためにPnP検証を可能にする。特徴追跡のためのウィンドウサイズを、通常遠くの物体はより小さな差異シグネチャを有するため、大まかな奥行推定に反比例するようにセットする。したがって、正確な地表面推定はまた、特徴追跡を安定させるために有用であると証明する。
【0105】
物体スケールの曖昧さ(単眼SFMのスケールの曖昧さと異なる)を解決するために、本発明者らはΩ
1,...,Ω
Mで推定された平均のhとして
【0106】
【数48】
を計算する。次にスケール係数は、
【0108】
【数50】
は地表面の既知の高さである。物体の姿勢の長さ変数は、fx
o、fz
o、及びfhに更新され、(10)と同様の別の非線形の改良が続く。
【0109】
本発明者らは、実世界の自律運転における優れた精度を達成するリアルタイム単眼SFM及び3D物体位置測定システムについて述べてきた。本発明者らの単眼SFMが、ステレオとほとんど同様に実行することは、スケールドリフトのロバスト補正に起因している。本発明者らは、事前作業で使用される従来の予備の特徴の他に、密なステレオのようなキューを含むことは有利であると実証してきた。このキュー結合は、トレーニングデータの事前知識によって通知される必要があり、加えてフレーム毎の相対信頼度、広範囲に及ぶ実験で確立される利益を反映する必要がある。SFMの他に、正確に推定された地表面もまた、3Dにおける移動物体の位置測定のようなアプリケーションを可能にする。本発明者らの単純な位置測定システムは、正確な地表面を通じて物体境界ボックスとSFM特徴追跡を結合して、現実の運転シーケンスで移動する車の高精度の3D位置を得る。
【0110】
将来の作業で、物体検知又は追跡のより深い統合は、境界ボックスのスコアを高さ誤差にマッピングするセクション5のトレーニング手順を拡張することができ、したがって、(10)における物体の項はまた相対信頼度によって加重されてもよい。位置測定は、検出又は外観ベースの追跡を援助する後処理(偽陽性を削除するような)として現在使用されるが、より早い段階での3Dキューの組み込みにより、より大きな利益を得ることができる。
【0111】
発明をハードウェア、ファームウェア、若しくはソフトウェア、又は3つの組み合わせに実装してもよい。好ましくは、発明をプロセッサ、データ格納システム、揮発性及び不揮発性メモリ並びに/又は格納要素、少なくとも1つの入力装置及び少なくとも1つの出力装置を有するプログラム可能なコンピュータで実行されるコンピュータプログラムに実装する。
【0112】
例として、システムをサポートするコンピュータのブロック図が、
図3に議論される。コンピュータは、好ましくはプロセッサ、ランダムアクセスメモリ(RAM)、プログラムメモリ(好ましくは、フラッシュROMのような書き込み可能な読み出し専用メモリ(ROM))、及びCPUバスによって接続された入力/出力(I/O)コントローラを含む。コンピュータは、ハードディスク及びCPUバスに連結されるハードドライブコントローラを任意追加的に含んでもよい。ハードディスクは、本発明、及びデータなどアプリケーションプログラムを格納するために使用されてもよい。あるいは、アプリケーションプログラムをRAM又はROMに格納してもよい。I/Oコントローラは、I/Oバスを用いてI/Oインタフェースに接続される。I/Oインタフェースは、アナログ又はデジタル形式のデータをシリアルリンク、企業内情報通信網、無線リンク、及びパラレルリンクのような通信リンク上で受信し送信する。任意追加的に、ディスプレー、キーボード、及びポインティング装置(マウス)もI/Oバスに接続されてもよい。あるいは、I/Oインタフェース、ディスプレー、キーボード、及びポインティング装置に別個の接続(別個のバス)を使用してもよい。プログラム可能な処理システムを前もってプログラムしてもよいか、又はプログラムを別のソース(例えば、フロッピー(登録商標)ディスク、読み出し専用コンパクトディスク、又は別のコンピュータ)からダウンロードすることによってプログラム(及び再プログラム)してもよい。
【0113】
各コンピュータプログラムは、本明細書に説明した手順を実行するコンピュータによって記憶媒体又は装置が読み取られる際、コンピュータを構成及び制御する操作のために、一般的又は特別の目的のプログラム可能なコンピュータにより読み取り可能な機械可読記憶媒体又は装置(例えば、プログラムメモリ又は磁気ディスク)に目に見える方法で格納される。発明のシステムはまた、コンピュータプログラムと共に構成されたコンピュータ可読記憶媒体に具体化されると考えられてもよく、そのように構成された記憶媒体は、本明細書に説明した機能を実行する具体的なかつ既定の方法でコンピュータを動作させる。
【0114】
発明は本明細書で、特許法に従うため、新しい原理を適用するために必要な情報を当業者に提供するため、要求されるような特殊化されたコンポーネントを構成及び使用するために、かなり詳細に説明されてきた。ただし、発明は、具体的に異なる機器及び装置によって実行することができること、並びに機器詳細及び動作手順に関する様々な修正を発明自体の範囲から逸脱することなく達成できることは、理解されるべきである。