(58)【調査した分野】(Int.Cl.,DB名)
2つの変換画像系列(204)では、各系列(204)を構成する前記画像が前記画像系列(200)に対する異なる変換によって既に生成されており、前記2つの変換画像系列(204)を、それぞれ格納された表現(202)と比較する(806)、請求項1記載の方法(800)。
前記画像系列(200)は、光学カメラ(104,106)、立体光学カメラ、熱探知カメラのうちのいずれかを用いて取得される、請求項1から7のいずれか1項に記載の方法(800)。
画像に対して行われる変換(804a、804b)は、前記画像を、照明不変色空間とグレースケールのうちの1つに変換する、請求項1から9のいずれか1項に記載の方法(800)。
【発明を実施するための形態】
【0031】
車両102上に搭載されており、センサ100を備えているモニタリングユニット10に関して、本発明の各実施形態を説明する。センサ100は、センサが移動する環境をモニタリングし、そのモニタリングに基づいてデータを作成することによって、車両102の周囲で検出された光景に関するデータを提供するように構成されている。本方法の各ステップの参照符号は、
図8に対して称されている。
【0032】
本明細書の各実施形態において、車両102は、ある環境内の至る所に移動する可搬式装置の一例を設けている。他の実施形態では、可搬式装置は、車両以外の物品に設けられていてもよい。
【0033】
説明中の実施形態において、センサ100は受動型センサ(つまり放射を発生させず、単に放射を受信するのみ)であり、特にカメラである。より具体的には、説明中の実施形態において、センサ100は立体カメラ(例えばPointGrey社製BumbleBee)であり、したがって2つのカメラ104,106を備えている。当業者であれば、このようなセンサは、1つのセンサ100としてよりは、2つの別個のカメラによって与えられ得ることは理解されよう。しかし、他の実施形態では1つのカメラに頼ってもよい。
【0034】
説明中の実施形態において、カメラ104,106はベイヤー(Bayer)フィルタを備えている。この特定の実施形態は、「Grasshopper2 gs2−fw technical reference manual」(Point Grey Research社、2011年)に記載されているように、青色チャネルに対してはほぼ470nmの波長に、緑色チャネルに対してはほぼ540nmの波長に、赤色チャネルに対してはほぼ620nmの波長にピーク感度を有している。当業者であれば、数多くのカメラがベイヤーフィルタを有し、ピーク感度も様々であることが理解されよう。
【0035】
図1に示されている実施形態において、車両102は道路108に沿って走行していて、センサ100は、車両102が走行する環境(例えば建物110,道路108等)を撮像しており、これによって802において当該環境の画像系列を生成する。本実施形態において、モニタリングユニット10はまた、センサ100からのデータを取り込み、次に804a,804b,806,808において、センサ100から取り込まれた画像を処理するように構成されている処理回路112を備えている。説明中の実施形態において、処理回路112はまた、記憶デバイス114を備えているか、または記憶デバイス114にアクセスできる。
【0036】
図1の下部は、通常の処理回路112内にあり得る構成要素を示している。処理ユニット118が設けられていてもよく、処理ユニット118は例えばi5(商標)、i7(商標)、Athlon(商標)、Sempron(商標)、Phenom(商標)、A5,A7プロセッサ等のインテル(登録商標)X86系プロセッサであってもよい。処理ユニット118は、システムバス120を介して、I/Oサブシステム122(及びその結果として外部ネットワーク、ディスプレイ等)及びメモリ124と通信するように構成されている。
【0037】
当業者であれば、メモリ124は、例えば揮発性メモリ、ハードドライブ、不揮発性メモリ等の任意の形式の機械可読なデータ記憶媒体を含む、種々の構成要素によって提供されてもよいことは理解されよう。実際には、メモリ124は、処理ユニット118の制御下にある、あるいは処理ユニット118に接続されている、複数の構成要素を備えている。
【0038】
しかし通常は、メモリ124は実行されると動作を行わせるプログラムコードを格納するように構成されているプログラム格納部126と、データを一次的に、及び/または永続的に格納するために使用可能であるデータ格納部128とを設けている。
【0039】
他の実施形態において、処理回路112の少なくとも一部は、車両から遠隔に設けられていてもよい。したがって、802においてセンサ100によって生成されたデータの処理は、車両102外で、または一部は車両102上、一部は車両102外で行われることも考えられる。処理回路が車両上と車両外の両方に設けられている実施形態では、ネットワーク接続(例えば3G UMTS方式(Universal Mobile Telecommunication System:ユニバーサル・モバイル・テレコミュニケーション・システム)、4G方式(例えばモバイルWiMAX及びロング・ターム・エボリューション(Long Term Evolution:LTE)、WiFi(IEEE802.11)等))が用いられている。
【0040】
示されている実施形態において、プログラム格納部126は、画像処理プロセッサ132と、特徴点検出器と、ビジュアルオドメトリ(Visual Odometry:VO)システム128と、タイマー130とを少なくとも備えている。ビジュアルオドメトリとは、806,808において関連するカメラ画像を分析することによって、810において位置と方向を決定する処理のことであり、したがって、系列画像を用いた推測航法形式として使用可能である。また、ビジュアルオドメトリを用いて、810において、格納されている非系列画像に対する、または格納されている環境表現に対する位置と方向を決定することも可能である。代替または追加の実施形態において、センサ100は日時情報を提供してもよく、タイマーを別個に設ける必要がなくなる。
【0041】
説明中の実施形態におけるデータ格納部128は、画像データ(すなわちセンサからの画像系列)136と、環境表現138(すなわち環境の表現、つまり、前のモデルか、または環境を表現する格納イメージのいずれか)と、軌跡データ134とを収納している、いくつかの実施形態では、画像データ136及び環境表現138は、1つのデータセットを構成している。軌跡計算にVOシステム128を使用しない実施形態では、軌跡データ134は存在しなくてもよく、また、異なる形式であってもよい。
【0042】
処理回路112は、センサ100から画像データを受信し、そして、804a,804b,806,808において、その画像データを以下に述べるように処理するように構成されている。しかし、この処理の少なくとも一部は、今度は位置推定処理の一部として使用される、いわゆるビジュアルオドメトリ(VO)システムを行うように構成されている。当業者であれば、車両または他の可搬式装置の位置推定とは、ある環境内で当該車両等の位置を決定することであることを理解されよう。
【0043】
処理回路112による画像データの処理は、キーフレームに基づいたビジュアルオドメトリ(VO)パイプラインと称されてもよいものを含んでいる。キーフレームは、特徴検出、ランドマーク、記述子、前の/別のキーフレームに対する相対変換、及びタイムスタンプを備えている。説明中の実施形態において、センサ100から出力された画像は、映像化する目的で格納される。本明細書では、センサ100からの画像系列は、画像のパイプラインと考えられてもよいものを供給する、つまり画像を次々と供給する。説明中の実施形態において、センサはカメラの立体対であり、したがって、802でセンサ100によって生成された画像パイプラインは、画像対のストリームで構成されていて、各対から得られる画像はカメラ104,106の各々が1枚ずつ撮影したものである。このため、対の中の各画像は、時間的にほぼ同じインスタンスで撮られている。
【0044】
処理回路112は、画像ストリーム内の立体画像の両方を処理して、それらの画像から特徴を抽出するように構成されている特徴点検出器を設けるように構成されている。説明中の実施形態において、特徴点検出器は、E.Rosten,G.Reitmayr,及びT.Drummond「Real−time video annotations for augmented reality」(Advances in Visual Computing,2005)に説明されているようなFAST(Features from Accelerated Segment Test)検出器によって得られる。当業者であれば、種々の特徴を抽出してもよく、また、特徴の識別に種々の方法を用いてもよいことを理解されよう。
【0045】
特徴を抽出した後、処理回路はさらに、各対の各画像内部の同じ特徴の位置を特定する、つまり立体的な対応関係の探索を行うように構成されている。説明中の実施形態は、各画像内のこのような対応点の位置特定を支援するために、パッチベースでのマッチング処理を用いている。さらに、説明中の実施形態において、処理回路はさらに、それぞれの立体的な計測に対して、M.Calonder,V.Lepetit,M.Ozuysal,T.Trzcinski,C.Strecha,及びP.Fua「Brief: Computing a local binary descriptor very fast」IEEE Transactions on Pattern Analyzis and Machine Intelligence,vol.34,no.7,1281〜1298ページ(2012年)に説明されているようなBRIEF記述子を算出するように構成されている。当業者であれば、BRIEF記述子は適切な記述子形式の一例であり、他の記述子を用いてもよいことを理解されよう。
【0046】
立体的な対応点の決定に加えて、処理回路はまた、抽出された特徴の各々の、カメラ104,106のフレームに対する位置の3D推定を算出するように構成されている。新たな立体フレーム(つまり画像ストリーム内の次のフレーム)を獲得すると、特徴を抽出し、808において、最初にBRIEFマッチングを用いて(種々の記述子が用いられる実施形態では対応するマッチング方法が使用される)、その前のフレームとのマッチングを行い、次にパッチベースでのマッチングを用いて絞り込むことによってサブピクセルでの対応関係が得られ、パッチベースでのマッチングを下記にて説明する。
【0047】
よって、処理回路112が画像ストリームのフレーム間において抽出された特徴を追跡しているので、VOシステムは車両102の軌跡を構築する。説明中の実施形態において、処理回路112はまた、異常値の棄却にRANSAC(詳細はM.A.Fischler及びR.C.Bolles「Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analyzis and Automated Cartography」Communications of the ACM,vol.24,381〜395ページ(1981年)を参照)を用いることにより、軌跡の推定を向上させている。最後のステップとして、軌跡が非線形ソルバによって得られ、フレーム間変換の推定が生成される。
【0048】
説明中の実施形態を含む少なくともいくつかの実施形態では、どの表現を環境のモデル及び/または前のモデルとみなすことができるかについて、車両102が移動する環境の、先に取り込まれた、もしくは生成された表現を参照する。表現の取り込みは、調査車両を環境内で移動させて、VOシステムによって生成されたパラメータのうちの少なくとも数種を記録することによって行ってもよい。例えば、表現は、特徴位置を有する連続したキーフレーム、記述子(例えばBRIEF記述子)、ピクセルパッチ、3Dランドマーク、相対変換推定値等のパラメータのうちの少なくとも数種によって得られてもよい。
【0049】
代替または追加の実施形態において、先に取り込まれた環境モデルは、利用可能ではないか、または単に信頼されるだけのものでなくてもよい。この代替または追加の実施形態では、経験に基づくナビゲーション(Experience Based Navigation)を行ってもよく、ここで環境のマップは、車両102が環境内で移動するときに802において生成されたセンサからの画像から構築されている。センサから取り込まれた画像において識別された特徴は、808で、先にある画像において識別された特徴とマッチングされる。
【0050】
よって、各実施形態は、国際特許出願PCT/GB2013/050299号「METHOD OF LOCATING A SENSOR AND RELATED APPARATUS」に例示されているようないわゆる経験に基づくナビゲーション、または、位置推定の双方において使用されていてもよい。
【0051】
経験に基づくナビゲーション、環境の前のモデルに対するナビゲーション、または両者の組み合わせを用いているかどうかにかかわらず、位置推定はいわゆるメトリック位置推定であってもトポロジカル位置推定であってもよい。いわゆるメトリック位置推定では、可搬式装置の位置が参照可能な座標系が存在する。
【0052】
表現を構成するパラメータは通常はデータ格納部128に格納されるが、そうではない場合は処理装置112によってアクセス可能である。
使用時には、車両102上で用いられる実施形態は、VOシステムの出力を処理するとともに、先に格納されたパラメータによって構成された表現を処理するようにも構成されている。表現に対する現在の画像ストリームの位置を推定するために、各実施形態は、上述したものと同様のVOパイプラインを使用するように構成されている。しかし、ライブで実行中のVOパイプラインは、前のカメラフレームへのマッチングの代わりに、表現内部に保持されている1つ以上のキーフレームへのマッチングを行うように構成されている。
【0053】
いくつかの実施形態において、表現は(経験に基づくナビゲーションを用いる実施形態である)環境の格納されている画像を介して保持されており、このような実施形態では、位置推定は、これらの格納環境画像に対して行われる。調査車両を用いて、以前の日付における格納画像を生成してもよい。代替として、または追加として、装置はまた、走行する時に格納画像を収集するように構成されていてもよい。
【0054】
代替として、または追加として、モデルは、LIDARが作成した点群といった点群によって供給されてもよい。
上述したように、説明中の実施形態を含む少なくともいくつかの実施形態では、VO処理を簡素化するためにパッチベースでの処理を用いている。このパッチベースでの処理を用いている実施形態は、ライブビュー(つまりカメラ104,106から出力された現在の画像)を調査ビューと(つまり格納画像を備え得る表現に対して)マッチングさせる際に頑健さが向上するので効果的である。このパッチベースの手法は、ライブフレーム(例えばカメラ104,106から出力された画像)内で調査フレーム(例えば表現キーフレーム)がどのように再投影されるのかを予測しようとしている。実施形態のうちの少なくともいくつかは、マップ内の不確実性、計測値、前の姿勢の推定、及び最新のVO推定を用いて、ある表現画像からカメラ104,106からの現在の画像内に再投影された計測値の共分散を算出するように構成されている。そして次に、共分散を用いて、
図10に示されている(後述)ようにライブビュー内の探索範囲を画定することができる。このような探索範囲を生成する実施形態は、不良データを関連付ける可能性を低減するので効果的である。
【0055】
各実施形態は、表現からの画像とカメラからの画像のうちの少なくとも一方を処理して、ここで説明するように、画像内部の光の影響を除去する(すなわち画像を変換する)ように構成されている。このため、各実施形態は通常、変換された画像系列を生成するが、ここでこの系列の各画像は、既に変換された、カメラから出力された画像系列からの画像に相当する。光の変化に関係なく画像内の特徴をマッチングさせる確率を高めるためには、このような実施形態は効果的である。いくつかの実施形態は、光の影響を除去するために、モデルからの画像とカメラからの画像の両方を処理するように構成されていてもよい。
【0056】
特にパッチマッチングを行うために、各実施形態は、起こり得るマッチングの探索範囲が与えられると、表現画像からの参照パッチとカメラからの画像との間のスコアを最小にするサブピクセルの位置を探索する。しかし、
図2に示されているように、例えば光の影響が変わったために、表現202からの画像(
図2で視覚的記憶と表示)とカメラ200からの画像(
図2でライブストリームRGBと表示)との間で見掛けの変化が大きすぎる場合にはこの手法は失敗する可能性がある。したがって、各実施形態は、標準的なRGB色空間からの変換を用いるいわゆる照明不変画像を生成するように構成されており、照明不変画像は、説明中の実施形態ではカメラからの出力である。
【0057】
したがって、説明中の実施形態において、1つの画像から得られる、特徴点検出器が画像から抽出した特徴は、806において、別記にて説明されているように、通常は格納画像または変換された格納画像のいずれかである別の画像から抽出された特徴に対して比較される。この比較806は普通は、例えば
図9内の処理920及び処理922といった位置推定処理によって実施される。これにより、位置推定器は、比較を行う際に、808において、画像及び/または変換画像、並びに表現内の対応する特徴を特定する。よって、比較はまた、特徴マッチング、つまりパッチマッチング等と称してもよい。
【0058】
図2の左側の領域は、カメラ104,106のうちの一方から生成された、画像系列の一部分200を示している。当業者であれば、説明中の実施形態において、画像系列は立体系列(すなわち各光景の各インスタンスの画像は2つ存在する)であるが、分かりやすいように、画像の立体系列の片方のみを示す方が都合がよいことを理解されよう。説明中の実施形態において、画像はRGB画像である。画像の少なくともいくつか、通常は各々が、その画像に関連したメタデータを有していてもよい。このようなメタデータは、タイムスタンプ、位置情報及びカメラのスペクトル感度、型、モデル、露出、ゲイン、シャッター及び/または調節等のうちの1つ以上を含んでいてもよい。
【0059】
図2の中央の領域202は、メモリ124内部に保持されている表現の少なくとも一部分を構成する、格納画像系列の一部分を示している。これらの格納画像は通常は上述のキーフレームであろう。
【0060】
図2の右側の領域204は、詳細は下記にて説明されているような、画像上の光の影響を排除する変換804a,804bが施された変換画像系列を示している。したがって、変換が施された画像204は、照明不変画像系列であると見なすことができる。変換画像の生成は、入力として画像系列を取り込んで変換804a,804bを施すことによって変換画像204を生成する処理回路112によって行われる。この変換画像もまた、その画像に関連したメタデータを有していてもよい。
【0061】
センサ100がカメラ以外である代替の実施形態において、画像を別の形式の環境表現と置き換えてもよい。例えば、LIDARを用いた場合には、環境表現は、スキャナによって生成された点群によって供給されてもよい。
【0062】
画像系列200及び変換画像系列204は、806において、
図2では連続した格納画像202である表現と比較される。
図2に示す例において、格納画像202の画像200との比較806では、格納画像202内の点212,214,216に相当する、画像200内の点206,208,210の認識に失敗している。ここで、画像200にはかなりの量の影が含まれており、そのために、画像200は対応する格納画像202と同じ環境であるにもかかわらず、この認識失敗につながったことが分かる。
【0063】
しかし、格納画像202の点224,226,228に相当する、変換画像内の点218,220,222の認識には成功している。説明中の実施形態では照明不変画像であることが想起される変換画像では、影は既に排除されている(または少なくとも大幅に削減されている)ので、変換画像204と格納画像202との間の類似性が高くなっていることが分かる。
【0064】
図2を参照する説明中の実施形態において、画像200と格納画像202との間の不確かな比較によって得られたデータは棄却し、変換画像204の正常な比較によって得られたデータを使用して車両102の位置推定を行う。つまり、本実施形態において、車両102の位置推定に画像200または変換画像204を使うかどうかに関する決定を行う。
【0065】
説明中の実施形態では、照明不変色空間への変換が用いられている。他の実施形態では、別の、あるいは追加の変換、例えばグレースケール色空間や別の単色色空間といった異なる色空間、または照明不変グレースケール色空間等への変換が用いられている。
【0066】
ここで、804aまたは804bにおいて画像200を照明不変色空間へと変換するために用いる変換を説明する。このような変換を用いる実施形態では、屋外での光条件の範囲にわたって光景の見た目が一致する度合いが向上する。照明不変イメージング、そうでない場合は色彩恒常として知られている最先端の手法の最近の調査に対し、読み手はD.H.Foster「Color constancy」Vision research,vol.51,no.7,674〜700ページ(2011年)を参照する。
【0067】
以下の式は、G.D.Finlayson及びS.D.Hordley「Color constancy at a pixel」JOSA A,vol.18,no.2,253〜264ページ(2001年)に記載されているように、リニアイメージセンサRの応答と、表面反射率S(λ)を有する物体に入射する発光スペクトルパワー分布E(λ)を有する照明光源に対するスペクトル感度F(λ)との関係を述べている。
【0069】
ここで、単位ベクトル
ax及び
nxは光源の方向及び面法線の方向を表し、Ixは光景内の点xでの発光体の光度を表す。式1から、照明光源スペクトルEx(λ)及び光度Ixの影響を最小限にしながら、点xにおける表面の材料特性Sx(λ)に依存する画像特徴Iを得たい。説明中の実施形態は上述したG.D.Finlayson及びS.D.Hordleyの論文の手法に従い、スペクトル感度関数F(λ)を波長λiに注目したディラックのデルタ関数としてモデル化できると仮定して、以下の感度関数が得られる。
【0071】
極めて狭い帯域でスペクトル感度を仮定するのはほとんどの実用画像センサにとっては非現実的であるが、S.Ratnasingam及びS.Collins「Study of the photodetector characteristics of a camera for color constancy in natural scenes」(JOSA A,vol.27,no.2,286〜294ページ、2010年)にある結果は、現実的な60〜100nmの半波高全幅値(full width at half−maximum:FWHM)のセンサ応答を有するこの仮定の下では、色彩恒常性能が維持されることを示している。
【0072】
説明中の実施形態は、式2の両側の対数をとることによって、成分を以下のように分離する。
【0074】
ここでGx=ax・nxは、発光体と光景との間の相対的な形状配置である。これにより、3つの成分、すなわち、光景の形状及び強度成分、発光体のスペクトル成分、及び表面反射率成分の一次結合が得られる。自然採光で照光した屋外の光景の場合、発光体スペクトルを黒体源(上述したG.D.Finlayson及びS.D.Hordleyの論文を参照)としてモデル化するのが妥当であり、したがって、式3における発光体スペクトルの項に黒体源のWien近似を代入することができる。
【0076】
ここで、hはプランク定数、cは光速、kBはボルツマン定数、Tは黒体源相関色温度である。ただし、本明細書における「照明不変」という語への全ての参照に対して、この仮定を行う色空間が参照される、つまり、光源となる発光体はほぼ黒体である。他の実施形態は、照明がほぼ黒体であると仮定できない他の仮定を使用してもよいことが考えられる。
【0077】
式4の第1項と第3項は、様々な波長λ1でのセンサ応答を取り入れることによって削除可能である。説明中の実施形態は、S.Ratnasingam及びS.Collins「Study of the photodetector characteristics of a camera for color constancy in natural scenes」(JOSA A,vol.27,no.2,286〜294ページ、2010年)において提案した手法に従い、順序付けられた波長λ
1<λ
2<λ
3でのピーク感度に対応する3つのセンサ応答R
1,R
2,R
3からなる一次元色空間Iを使用する。
【0079】
パラメータが以下の制約条件を満たす場合には、色空間Iは相関色温度Tとは無関係になる。
【0083】
に簡素化される。
したがって、単にベイヤーフィルタのピークスペクトル感度の情報のみがある任意のカメラに対して、αはただ1つに定まる。αの値は、多くの場合、データソースが与えられたデータシートから得られる。例えばPointGrey社製のカメラBumblebee2の場合、α=0.4800である。
【0084】
S.Ratnasingam及びT.M.McGinnity「Chromaticity space for illuminant invariant recognition」Image Processing,IEEE Transactions on,vol.21,no.8,3612〜3623ページ(2012年)において実証されたように、ディラックのデルタ関数によるセンサ応答及び黒体源という仮定によって、主に自然採光で照光した屋外の光景における色の識別に対して好結果が得られる。ただし、照明不変特徴が1つでは、ある特定の色を一意に識別するには不十分であることが多いが、光景内の異なる表面を区別するには十分である(S.Ratnasingam及びS.Collins「Study of the photodetector characteristics of a camera for color constancy in natural scenes」JOSA A,vol.27,no.2,286〜294ページ(2010年))。
【0085】
図3には照明不変色空間が図示されている。午前9時と午後5時にそれぞれ取り込まれた画像の間では、太陽の角度、影のパターン、及び照射スペクトルの変化が大きいにもかかわらず、両方の照明不変画像が示す変化量は極めて小さい。具体的には、画像300は午前9:00に取り込まれた画像であり、画像302は17:00に取り込まれた画像であることが分かる。当業者であれば、画像300と画像302との間には照明(例えば影)の変化に大きな違いがあることに気づくであろう。304は画像300から生成された変換画像であり、306は画像302から生成された変換画像である。照明が変化した影響が大幅に低減されており、変換画像304,306は大部分が同等であることが分かる。
【0086】
308は環境の3D−LIDAR点群モデルを示しており、一実施形態では、車両102の位置推定を行うために画像及び/または変換画像が比較される表現として使用されている。
【0087】
式5を用いるカメラからの画像ストリームの変換は、ピクセル単位で実行可能であるので、処理回路112に求める処理量の点で割安である。したがって、各実施形態は、他の計算タスクと並行して変換を行うように構成されていてもよい。
【0088】
これにより、少なくともいくつかの実施形態では、2つの並列処理、つまり、806において表現からの画像(すなわち格納画像)をカメラからの画像と比較するVOパイプラインと、806において表現からの画像(すなわち格納画像)をすでに変換されたカメラからの画像(すなわち変換画像)と比較する第2VOパイプラインとを利用している。
【0089】
代替または追加の実施形態において、表現からの画像(すなわち格納画像)は、使用されているVOパイプラインのうちの1つ以上において変換される(すなわち変換された格納画像)。いくつかの実施形態において、一方のVOパイプラインはカメラからのライブ画像をカメラからの前の画像(すなわち格納画像)と比較し、第2VOパイプラインはカメラからの変換画像をカメラからの前の画像(すなわち格納画像)と比較する。代替または追加の実施形態において、カメラからの前の画像は、VOパイプラインのうちの少なくとも一方で使用される前に変換されている。代替の実施形態において、カメラからの画像は変換されず、カメラからの前の画像が変換される。
【0090】
これにより、説明中の実施形態を含む少なくともいくつかの実施形態では、2つのVOパイプラインを並行して実行する。代替または追加の実施形態において、2つを超えるVOパイプラインが使用されている。いくつかの実施形態において、処理回路112内部では3つ以上のVOパイプラインが利用可能であり、ある期間中、利用可能なVOパイプラインの総数より少ない数のVOパイプラインが並行して使用されている。例えば、RGB,グレースケール、及び照明不変変換のVOパイプラインが利用可能であってもよく、また、日中、あるいは光のレベルがしきい値を超えた場合にはRGB及び照明不変変換VOパイプラインのみが使用されてもよい。
【0091】
夜間には照明は黒体の発光からのものであるという仮定は成り立たなくてもよいので、照明不変変換が行われなくてもよく、また要求されなくてもよいことが理解されよう。しかがって、夜間、あるいは光のレベルがしきい値を下回る場合には、グレースケール及び照明不変変換VOパイプラインのみが使用されてもよい。いくつかの例では、領域間の転換点あたりでは、より多くの、または全ての利用可能なパイプラインが使用されてもよい。上記の例では、夕刻や明け方、あるいは光のレベルがしきい値近辺やしきい値である場合には、RGB,グレースケール、及び照明不変VOパイプラインが全て並行して使用されてもよい。
【0092】
説明中の実施形態において、カメラからの非変換画像に基づいたVOパイプラインを使用して810において車両102の位置を推定できる場合には、そのVOパイプラインが使用される。しかし、このような位置推定が失敗した場合、もう一方の、カメラからの変換画像に基づくVOパイプラインを用いて、車両102の位置の推定を試みる。
【0093】
本実施形態では既定値(defaulting)が「ベースライン」システムとなる理由は、照明不変VOパイプラインを使用した場合(線704)と使用していない場合(線702)の代表的な速度分布を示している
図7のグラフ700内で強調されている。照明不変VOパイプライン704を用いた速度推定値はRGB VOパイプライン702を用いた速度推定値よりもノイズが多く、グラウンドトルースと比較するとわずかに偏りがあるように見える。
【0094】
このため、VOパイプラインによって生成された位置の2つの推定値は融合しない。その代わり、可能であれば(カメラ104,106からの画像に対して変換を行わない状態で)既定値(defaulting)がベースラインシステムとなるというポリシーによって、システムはこれらを並行して用いたり、両者の間で切り換えたりしている。
【0095】
他の実施形態において、ベースラインの定義は様々であるか、または、定義されたベースラインは存在せず、どのVOパイプラインを使用するかは、位置推定値の品質によって決まる。位置推定値の品質は、808でマッチングした特徴の数、及び/または、正しいと分かったマッチングの関連する確実性に基づいて評価してもよい。
【0096】
図8はある実施形態の方法のフローチャートを提供している。既に述べたように、ステップ804a,804bは、カメラからの画像系列の変換である。いくつかの実施形態において、変換A(804a)と変換B(804b)のうちの1つは変換がない、つまりセンサからの未変換画像が使用される。代替の実施形態では、両方の変換ステップ(804a,804b)がカメラからの画像を変換する。
【0097】
図9に示されている実施形態では、処理回路112によって設けられた画像処理システム900はより複雑である。前述同様、画像処理システム900内部の経路はVOパイプラインと称されている。
【0098】
カメラ902からの画像は、2つの変換804a,804b(RGBから照明不変904aとRGBから単色904b)を経て、各々が変換画像904で構成されている2つの生成画像ストリームを形成する。
【0099】
本実施形態において、環境表現は格納画像910によって与えられている。ここでは、格納画像910はRGB画像であるが、これが事実である必要はなく、他の実施形態では変換画像を格納してもよい。
【0100】
説明中の実施形態において、格納画像910は、変換画像904a,904bを生成するために行ったものと同等の変換914a,914bを経て、位置推定処理810において使用する2組の変換された格納画像916,918を形成する。代替の実施形態において、格納画像は、1つの変換を経て、または変換を経ずに、または複数の変換を経て、複数組の格納された変換画像を生成する。
【0101】
これにより、照明不変変換画像904aは、格納された変換(照明不変)画像918と対照して位置推定920を行うことが分かる。単色の変換画像904bは格納された変換(単色)画像916と対照して位置推定922を行う。
【0102】
上述のように、説明中の実施形態において、VOパイプラインは融合せず、車両102の位置推定にパイプラインのうちのどれを使用すべきかに関して、単純なOR演算による選定924を行う。よって、本方法は、2つのVOパイプラインのうちの一方を選定して、装置の位置推定を行う。
【0103】
図10を用いて、いくつかの実施形態で使用される、位置推定処理を支援する別の方法を説明する。上述のように、カメラは、802において、
図2に示されている画像200といった画像系列を生成する。
図2では、図の前面200aに示された画像はライブ画像(すなわち現在処理中の画像)と見なしてもよく、この画像よりも前に生成された画像(
図2では後ろ側)は前の画像200bと見なしてもよい。当業者であれば、ここでは画像は実際には、1対のカメラが使用されている説明中の実施形態と同様に、立体的な画像対に関わるものであってもよいことを理解されよう。
【0104】
説明中の実施形態において、VOパイプラインは、少なくとも前の画像200bに由来する情報を使用して、ライブ画像200a内の位置推定処理810を制約する。他の実施形態では、前の画像を用いることに加えて、または用いる代わりに、前の画像よりも以前の画像を用いて、位置推定処理810を制約することもできる。
【0105】
位置推定システム900では、カメラから出力された画像系列を用いて、車両102の軌跡を計算する。
図10内では、3つの点1000a,b,cが前の画像200b内部で強調されている。これら同じ3点は、ライブ画像200a内では1002a,b,cにおいて強調されている。しかし、画像と比較して、点1002は点1000と比較する時に移動したことが分かる。この相対的な移動は、車両102の動きのためである。
【0106】
前の画像200bと格納画像1006(例えば記憶された光景または環境モデル)内に位置する点とに対して位置推定が行われた場合、格納画像内の点1000a,b,cの位置を車両102の軌跡とともに用いることによって、ライブ画像内部の点1002a,b,cの探索を制限することができる。
【0107】
この探索制限方法を使用する実施形態は、より効率的であるとともに、当てにならないマッチングを行う可能性を低減するので、有益である。
図10と関連して略述されたような方法は、パッチマッチングと称してもよい。
【0108】
一実施形態において、照明不変画像を用いたVO軌跡推定は単色画像を用いたもの(別記にて説明)ほどは正確ではないので、単色画像からのVO軌跡推定を用いて、照明不変の特徴空間での特徴予測を行う。すなわち、単色画像920からの一番最近のフレーム間VO軌跡推定を用いて、光不変VOパイプライン918にどこを見るべきかを通知するのを支援することができる。
【0109】
図9に示されているものと類似する実施形態では、未変換画像VOパイプラインを用いて、
図10と関連して上述したようなパッチマッチングと同様の方法で変換画像VOパイプラインを制限する。つまり、未変換画像VOパイプラインから得られた特徴予測を用いて、変換画像VOパイプライン内において、変換画像VOパイプラインの頑健性を高められる特徴が現れる場所を予測できる。
図9のVOパイプラインの両方が変換画像(RGBから単色へ、及びRGBから照明不変へ)に依存していることが理解されよう。
【0110】
図11は、ある道路箇所に沿って走るテスト車両102が遭遇した極端な視覚的変化を強調した画像を示している。
図11内の画像の各々は、車両102の周囲の環境の同じ風景であるが、光の変化のせいで異なって見える。
【0111】
以下の説明で用語を明確にするために、不変画像を使用しない(RGBのみ、つまり未変換画像VOパイプラインを使用する)システムがベースラインシステム、不変画像を使用する(つまり変換画像VOパイプライン)のみを使用するシステムが不変システム、両方を併用するシステムが併用システムである。
【0112】
網羅的1個抜き検証法(exhaustive leave−one−out approach)を用いて、15個のデータセットを取り込んで処理する。これにより、各データセットはライブ画像ストリームとして取り込まれ、次に残りの14個のデータセットを対象とする位置推定が行われる。
【0113】
その結果を表1に示す。ここでは、15個のデータセットの各々をライブで実行するものとして用いた適用範囲の割合を提示している。この適用範囲の割合は、フレーム総数に対する位置推定が実行できたフレーム数で定義され、14個のデータセットで比較した平均値である。全ケースで不変システムがベースラインシステムよりも改善しており、併用システムが常にベースラインシステムより性能が優れていることを意味する。ベースラインシステムは難しい採光条件であっても満足に機能することに注目されたい。しかし、ロボット工学の長期自律性(例えば自律型車両)という状況では、頑健性を高めることは有用であり、したがって信頼性のいかなる向上も有用である。
【0114】
表1:ベースラインシステムに対する本実施形態の併用システムで比較した適用範囲の結果。提供範囲は、取り込まれた総フレーム数の割合としての位置推定が実行できたフレーム数で定義されている。1個のテストデータセット当たり14個のトレーニングデータセットの平均値である。
【0116】
図4は、3システム、つまり、ベースラインシステム、不変システム、及び併用システムの位置推定の実施状況を示したものである。グラフ400は、説明中の実施形態の場合に走行した距離に対する、正常に実施できた位置推定を示している。線402は、画像を認識処理に使用するベースラインシステムが車両の位置特定に成功した領域を示している。この図は、190mから270m付近に車両の位置が推定されなかった広い領域403が存在することを強調している。
【0117】
線404は、不変システム(すなわちVOパイプラインにおいて変換画像を使用する)が車両の位置特定に成功した領域を示している。照明不変画像認識処理は、位置推定せずに走行した距離をRGB画像認識処理よりも短くする結果になるが、位置推定が行われなかった領域(例えば405)がまだ存在することが分かる。
【0118】
線406は、未変換画像パイプラインと変換画像パイプラインを両方使用する併用システムをプロットしている。線406には隙間が全く含まれておらず、したがって併用システムは、ほぼ全点において車両102の位置を推定できたことが分かる。
【0119】
図5は、ベースラインシステム(500)が100mまでの間は計器走行する可能性は40%に近いが、併用システム(502)を用いるとその可能性はちょうど5%であることを示している。これにより、併用システムを設けた実施形態は、
図5に図示されているような困難な採光条件で車両102の位置を推定する頑健性や能力が向上するという点で有益である。
【0120】
上記で言及されている位置推定処理を、ここで
図6を参照して詳細に説明する。
局所座標系フレームR602を有する既知の3D光景Sにおける位置A604に車両102がある場合、各実施形態は、
図6に図示されているように、位置A604で取り込まれた1つの照明不変画像I
Aのみを用いて変換G
ARを探索する。既知の3D光景Sは調査車両によってサンプリングされた(つまり上述の表現によって与えられる)点群からなり、ここで各点
【0122】
は、表現が生成されたときの調査時にサンプリングされた、前の関連する照明不変特徴
【0124】
を有していると仮定される。
位置A604から見た点qの見掛けI
Aは、点qを以下のカメラ投影パラメータκを用いて画像平面x上に再投影することによって見いだせる。
【0126】
変換G
ARを再確認するには、位置A604から見て、前の見掛けI
Sと見掛けI
Aとの間で情報を整合させることが求められる。点のサブセットS
Aの位置A604からの視覚的な見掛けとその点の前の見掛けI
Sとの間の不一致を測定する目的関数(f)は以下のように定義される。
【0128】
目的関数として、正規化情報距離(Normalized Information Distance:NID)が選定される。その理由は、局所的な照明の変化や排除に対して頑健な真の測定基準が得られるからである。
【0129】
2つの離散確率変数{X,Y}が与えられれば、NIDは以下のように定義される。
【0131】
ここでH(X,Y)は結合エントロピーを、I(X;Y)は相互情報量を表す。
式11から目的関数にNIDを代入すると、以下の式が得られる。
【0133】
よって、位置推定問題は、以下のように式11を最小化することであることが分かる。
【0137】
は、センサの前の位置に設定することも、または、車輪の符号器、ビジュアルオドメトリ、または他の情報源によって与えられる漸進的な動きの情報を組み込むこともできる。
一実施形態において、上記の式12の最小化問題は、準ニュートンBFGS法を用いて解決される。この方法は、N.Jorge及びJ.W.Stephen「Numerical optimization」(シュプリンガー出版、米国、1999年)において説明されており、Bスプライン補間を用いて得られた、A.D.Stewart及びP.Newman「Laps−localization using appearance of prior structure: 6−dof monocular camera localization using prior pointclouds」Robotics and Automation (ICRA),2012 IEEE International Conference(IEEE,2012年、2625〜2632ページ)に提示された解析的微分を用いて、Ceres(S.Agarwal,K.Mierle他「Ceres solver」https://code.google.com/p/ceres−solver/)において論じられている。あるセットアップにおいて、費用関数はOpenCL言語で構築され、Nvidia社製GTX Titan GPUを用いて解き、要する時間は1評価あたり約8ミリ秒である。このような処理時間により、本明細書で説明されている実施形態をリアルタイムと見なしてもよい状況において利用することができる。ここでリアルタイムとは、車両が移動するときに、本明細書で説明されている実施形態によって提供される位置推定を用いて車両102の位置を確立することができるようなことを意味することを意図している。