(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-19
(54)【発明の名称】複数の相対的に接近する様に動いているリジッドなオブジェクトの検出、3D再現および追跡
(51)【国際特許分類】
G06T 7/55 20170101AFI20220711BHJP
G06T 7/20 20170101ALI20220711BHJP
【FI】
G06T7/55
G06T7/20
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021568783
(86)(22)【出願日】2020-05-28
(85)【翻訳文提出日】2021-11-17
(86)【国際出願番号】 DE2020200040
(87)【国際公開番号】W WO2020244717
(87)【国際公開日】2020-12-10
(31)【優先権主張番号】102019208216.5
(32)【優先日】2019-06-05
(33)【優先権主張国・地域又は機関】DE
(81)【指定国・地域】
(71)【出願人】
【識別番号】503355292
【氏名又は名称】コンティ テミック マイクロエレクトロニック ゲゼルシャフト ミット ベシュレンクテル ハフツング
【氏名又は名称原語表記】Conti Temic microelectronic GmbH
【住所又は居所原語表記】Sieboldstrasse 19, D-90411 Nuernberg, Germany
(74)【代理人】
【識別番号】100069556
【氏名又は名称】江崎 光史
(74)【代理人】
【識別番号】100111486
【氏名又は名称】鍛冶澤 實
(74)【代理人】
【識別番号】100191835
【氏名又は名称】中村 真介
(74)【代理人】
【識別番号】100221981
【氏名又は名称】石田 大成
(74)【代理人】
【識別番号】100208258
【氏名又は名称】鈴木 友子
(72)【発明者】
【氏名】ロート・アクセル
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096FA52
5L096FA67
(57)【要約】
本発明は、以下に関する:少なくとも一台のカメラの画像のシーケンスから、複数の相対的に接近する様に動いているリジッドなオブジェクト(11,13,15,16,17;19)を検出、3D再現および追跡するための方法ならびにシステムであって、これらは、特に好ましくは、アシストされた乃至自動化された走行用のカメラベースの周辺把握システムの分野において用いる事ができる。
本(コンピュータに実装される)方法は、以下のステップを包含する:
a)少なくとも一台のカメラの画像のシーケンスから特定の撮影時点(=キー・サイクル)における画像を選択するステップ、
b)キー・サイクルの画像を用い、キー・サイクルにおいて低密度(スパース)に選択されたピクセルを基にして相対的に接近する様に動いているリジッドなオブジェクト(11,13,15,16,17;19)を記述するためのモデルの全てのパラメータを一括に最適化するステップ、但し、モデル・パラメータは、キー・サイクル内のリジッドなオブジェクト(11,13,15,16,17;19)の数、3Dストラクチャ、ポーズを記述し、選択されたピクセルのリジッドなオブジェクト(11,13,15,16,17;19)への帰属を包含している、
c)エラー汎函数を最小化するステップ(S20)、但し、該エラー汎函数は、複数のキー・サイクルの画像の輝度に依存するフォトメトリック・エラーEphoto、及び、リジッドなオブジェクト(11,13,15,16,17;19)の数に依存する第一先験的エネルギー項Ecompを包含している、
d)画像のシーケンスから検出された相対的に接近する様に動いているリジッドなオブジェクト(11,13,15,16,17;19)の数、3Dストラクチャ及び軌道を周期的に出力するステップ。
複数の時点の画像データを基に全てのパラメータの一括した最適化が実施されるにもかかわらず、該方法は、データ補足中(オンライン)の同時使用に適している。
【特許請求の範囲】
【請求項1】
以下のステップを包含していることを特徴とする少なくとも一台のカメラの画像シーケンスから複数の相対的に接近する様に動いているリジッドなオブジェクト(11,13,15,16,17;19)を検出し、3D再現し、追跡するための方法:
a)少なくとも一台のカメラの画像のシーケンスから特定の撮影時点(=キー・サイクル)における画像を選択するステップ、
b)キー・サイクルの画像を用い、キー・サイクルにおいて低密度に選択されたピクセルを基にしてリジッドなオブジェクト(11,13,15,16,17;19)を記述するためのモデルの全てのパラメータを一括に最適化するステップ、但し、モデル・パラメータは、キー・サイクル内のリジッドなオブジェクト(11,13,15,16,17;19)の数、3Dストラクチャ、ポーズを記述し、選択されたピクセルのリジッドなオブジェクト(11,13,15,16,17;19)への帰属を包含している、
c)エラー汎函数を最小化するステップ(S20)、但し、該エラー汎函数は、複数のキー・サイクルの画像の輝度に依存するフォトメトリック・エラーE
photo、及び、リジッドなオブジェクト(11,13,15,16,17;19)の数に依存する第一先験的エネルギー項E
compを包含している、並びに、
d)画像のシーケンスから検出されたリジッドなオブジェクト(11,13,15,16,17;19)の数、3Dストラクチャ及び軌道を周期的に出力するステップ。
【請求項2】
エラー汎函数が、リジッドなオブジェクト(11,13,15,16,17;19)の3Dストラクチャに依存する第二の先験的エネルギー項E
geoを包含することを特徴とする請求項1に記載の方法。
【請求項3】
エラー汎函数が、以下のモデル・パラメータを包含することを特徴とする請求項1或いは2に記載の方法:
挙動モデル毎に選択された各ピクセルの逆深度;
挙動モデルの数、但し、その時点において推定されているリジッドなオブジェクト(11,13,15,16,17;19)毎に、一つの挙動モデルが、割り当てられる;
一つの挙動モデルとアクティブなキー・サイクル毎のポーズ;並びに、
挙動モデル毎の各々の選択されたピクセルの帰属確率。
【請求項4】
エラー汎函数が、更に以下のモデル・パラメータを包含することを特徴とする請求項3に記載の方法:
各画像用のセンサ特性曲線、並びに、
それぞれのカメラの焦点距離と主点、要するに、これにより全てのパラメータの一括した最適化が、該少なくとも一台のカメラの自動較正として作用する。
【請求項5】
一つの、或いは、複数の画像ピラミッドレベルを有するダイレクト・イメージ・アライメントが、個々のオブジェクト(11,13,15,16,17;19)の追跡のために実施されることを特徴とする先行請求項のうち何れか一項に記載の方法。
【請求項6】
エラー汎函数を最適化するために、オブジェクト固有のキー・サイクルを用いたフォトメトリック・バンドル調整により、軌道パラメータとストラクチャ・パラメータが交互に最適化され(S203)、且つ、挙動モデルへのピクセルの帰属が、最適化される(S205)ことを特徴とする先行請求項のうち何れか一項に記載の方法。
【請求項7】
続いて、挙動モデルの数も最適化される(S207)が、エラー汎函数に挙動モデルを加える場合、或いは、エラー汎函数から挙動モデルを削除する場合は、選択されたピクセルの挙動モデルへの新しい帰属を実施し、且つ、エラー汎函数の最適化を改めて開始することを特徴とする請求項6に記載の方法。
【請求項8】
該少なくとも一台のカメラが、静止しているリジッドな背景に相当するオブジェクト(11,13,15,16,17)に対して動いていることを特徴とする先行請求項のうち何れか一項に記載の方法。
【請求項9】
複数の画像シーケンスが、複数の同期されたカメラを包含するカメラシステムによって、撮影され、モデル・パラメータは、カメラシステムに対する各々のオブジェクト(11,13,15,16,17;19)のポーズを包含し、ピクセルは、全てのカメラから選択することができ、該ピクセルは、少なくとも一台のカメラのキー・サイクルの画像から選択され、選択されたピクセルに対しては、少なくとも一台のカメラと少なくとも一つのキー・サイクルにおける観測が、フォトメトリック・エラーのエネルギー項として考慮され、且つ、結果として得られるエラー汎函数を最小化するための全てのパラメータの一括した最適化が、実施されることを特徴とする先行請求項のうち何れか一項に記載の方法。
【請求項10】
一つの、或いは、複数のピラミッドレベルを有するマルチ・カメラ・ダイレクト・イメージ・アライメントが、個々のオブジェクト(11,13,15,16,17;19)の追跡用に実施され、結果として得られるエラー汎函数を最小化するための全てのパラメータの一括した最適化が、実施され、モデル・パラメータは、カメラシステムに対する各々のオブジェクト(11,13,15,16,17;19)のポーズを包含し、選択されたピクセルに対しては、少なくとも一台のカメラと少なくとも一つのキー・サイクルにおける観測が、フォトメトリック・エラーのエネルギー項として考慮されることを特徴とする請求項9に記載の方法。
【請求項11】
全てのパラメータの一括した最適化が、少なくとも一台のカメラの自動較正として作用するように、モデル・パラメータが、少なくとも一台のカメラの更なる内因的フォトメトリック・パラメータ、更なる内因的ジオメトリック・パラメータ及び/或いは外在的パラメータを包含していることを特徴とする請求項4から10の何れか一項に記載の方法。
【請求項12】
少なくとも一台のカメラの画像のシーケンス(一連の画像)から複数の相対的に接近する様に動いているリジッドなオブジェクト(11,13,15,16,17;19)を検出し、3D再現し、追跡するための装置(2)であって、入力ユニット、選択ユニット、最適化ユニット、並びに、出力ユニットを包含していることを特徴とする装置、但し:
該選択ユニットは、以下を実施できる様に構成されている:
a)少なくとも一台のカメラの画像のシーケンスから特定の撮影時点(=キー・サイクル)における画像を選択する;
該最適化ユニットは、以下を実施できる様に構成されている:
b)キー・サイクルの画像を用い、キー・サイクルにおいて低密度に選択されたピクセルを基にして相対的に接近する様に動いているリジッドなオブジェクト(11,13,15,16,17;19)を記述するためのモデルの全てのパラメータを一括に最適化する、但し、モデル・パラメータは、キー・サイクル内のリジッドなオブジェクト(11,13,15,16,17;19)の数、3Dストラクチャ、ポーズを記述し、選択されたピクセルのリジッドなオブジェクト(11,13,15,16,17;19)への帰属を包含している、
c)エラー汎函数を最小化する、但し、エラー汎函数は、複数のキー・サイクルの画像の輝度に依存するフォトメトリック・エラーE
photo、及び、リジッドなオブジェクト(11,13,15,16,17;19)の数に依存する第一先験的エネルギー項E
compを包含している、そして、
該出力ユニットは、以下を実施できる様に構成されている:
d)画像のシーケンスから検出されたリジッドなオブジェクト(11,13,15,16,17;19)の数、3Dストラクチャ及び軌道を周期的に出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、少なくとも一台のカメラの画像のシーケンスから、複数の相対的に接近する様に動いているリジッドなオブジェクトを検出、3D再現および追跡するための方法ならびに装置に関し、これらは、特に好ましくは、アシストされた乃至自動化された走行用のカメラベースの周辺把握システムの分野において用いる事ができる。
【背景技術】
【0002】
以下の様な一台の(個別の)カメラの画像からオブジェクトを検出、3D再現および追跡するための方法が、既知である:
【0003】
モーションからのストラクチャ再現(SFM:Structure From Motion):
この既に普及しているビデオ画像から3Dストラクチャを抽出するためのアプローチは、間接的な方法を応用している:即ち、前処理ステップにおいて、複数のカメラ画像から、画像対応が割出される。後続のステップにおいて初めてエピポール幾何、3Dストラクチャ、並びに、カメラの相対的動きの割出しが実施される。この「間接的方法」と言う用語は、先ず光学的な流れを割出し、その流れから3Dストラクチャを算出(SFM)していると言う二段階ステップを用いているという意味で用いられている。
【0004】
バンドル調整(Bundle-Adjustment):
バンドル調整とは、多数の画像を用いてストラクチャと動きに関するパラメータを最適化するために用いられる方法である。これにより、点対応や線対応の幾何学的エラー、例えば、バックプロジェクションエラーが、最小に抑えられる。
【0005】
フォトメトリック・バンドル調整(photometric Bundle-Adjustment):
フォトメトリック・バンドル調整は、確率的フォトメトリック・エラーモデルをベースに、画像の彩度やグラデーションを用いてストラクチャと動きを最適化する方法である:
Alismail et al., Photometric Bundle Adjustment for Vision-Based SLAM, arXiv: 1608.02026v1 [cs.CV], 2016/08/05。
フォトメトリック・バンドル調整は、シングル・オブジェクト問題(例えば、動いているカメラ + リジッド且つ動かない周辺部)に用いられ、これは、ビジュアル・オドメトリ(VO)、或いは、自己位置推定とマッピングの同時実行(SLAM)の問題に相当している。
【0006】
Engel et al.の直接スパースオドメトリ(DSO=Direct Sparse Odometry),arXiv:1607.02565v2[cs.CV],2016/10/07は、直接的確率モデル(フォトメトリック・エラーの最小化)を、基準画像における点の逆深度としての構造幾何やカメラ軌道だけでなく、画像毎のアフィン・センサ特性曲線、焦点距離、主点も含む全てのモデル・パラメータの矛盾しない一括した最適化と組み合わせた方法である。静的シーンを前提とし、ダイレクト3Dイメージ・アライメントとフォトメトリック・バンドル調整を用いたトラッキングが、ビジュアル・オドメトリの実現のために用いられる。一度だけ実施されるイニシャライズには、二枚のカメラ画像をベースとした粗から細へのバンドル調整が用いられる。DSOでは、キーポイント・マッチングは用いられず、個々のカメラ或いはステレオ・カメラシステムを用いている。
【0007】
複数オブジェクトのSFM:
複数オブジェクトの3D再現のための既知の方法としては、例えば、低密度フローフィールドが、前もって算出されるキーポイントをベースとする方法や、前もって算出された高密度のオプティカル・フローフィールドをベースとする方法が挙げられる。
【0008】
Ranftl et al.は、文献「Dense Monocular Depth Estimation in Complex Dynamic Scenes, DOI: 10.1109/CVPR.2016.440」において、動いているオブジェクトを周辺部と共に再現する方法を示した。そのため、プロ・ピクセル・アサイメントを伴う動きのセグメント化(Motion Segmentation)が、様々な挙動モデルに対して、前もって算出された高密度のオプティカル・フローをベースに実施される。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Alismail et al., Photometric Bundle Adjustment for Vision-Based SLAM, arXiv: 1608.02026v1 [cs.CV], 2016/08/05
【非特許文献2】Engel et al.「直接スパースオドメトリ(DSO = Direct Sparse Odometry)」, arXiv:1607.02565v2 [cs.CV], 2016/10/07
【非特許文献3】Ranftl et al.、「Dense Monocular Depth Estimation in Complex Dynamic Scenes」、 DOI: 10.1109/CVPR.2016.440
【非特許文献4】J. Engel et al. LSD-SLAM: Large-Scale Direct Monocular SLAM, ECCV, 2014年09月
【非特許文献5】https://sites.google.com/site/imagealignment/tutorials/feature-based-vs-direct-image-alignment(2019/03/12にダウンロードしたバージョン)
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の課題は、一台のカメラの画像、或いは、複数の固定的に接続されたカメラの画像を基にした改善されたオブジェクト検出、3D再現、並びに、複数の相対的に接近する様に動いているオブジェクト用の追跡方法を提供することにある。
【0011】
その出発点は、以下の様な考察であった:
間接的方法は、特定の領域やシナリオでは、直接的なフォトメトリックなアプローチよりも、精度や頑健性の面から劣っていること。測定精度の低下は、マルチオブジェクトSFMアプローチでは、多くの領域において多義的となり、これが更に、誤ったオブジェクト・クラスタリングの原因となること。例えば、差異が少ない動いているオブジェクトは、二つのオブジェクトとして認識できないこと。結果として、オブジェクト・クラスタリング/動いているオブジェクトの認識のクオリティは、間接的アプローチに伴う、予め割出されたオプティカル・フロー内のエラー分布における不確定性によって、低密度のオプティカル・フローにおいても、キーポイント集合が低密度であることによって限定されること。これに起因して:
1.挙動モデル毎の最小空間角度が制限される(→最小オブジェクトが大きい/オブジェクトまでの最大距離が小さい)、
2.該方法によって検出可能な最小移動方向誤差が、大きい、そして、
3.キーポイントが少ないシチュエーションでは、使用が制限される。
【0012】
以下では先ず、本発明のアスペクトと実施バリエーションを説明する:
【0013】
1.キー・サイクルの選択と(スパースな/まばらな)ピクセルの選択を基にしたオンラインメソッドとしての直接的3Dイメージ・アライメントとフォトメトリック・マルチ・オブジェクト・バンドル調整を用いた複数のリジッドなオブジェクトの検出とトラッキング
本発明は、適合された形態において拡張されたフォトメトリック・バンドル調整と組み合わせることが可能なカメラ・ビデオ内において様々な動きをしている全てのリジッドなオブジェクト(リジッドで静止している周辺は、一つのオブジェクトであると言える)を識別するためにオブジェクト・クラスタリングを実施するメソッド、特に好ましくは、直接スパースオドメトリ(DSO)において使用される方法を、拡張したものである。よってその結果は、自ら動いているオブジェクトの軌道とストラクチャの同定のみならず、動かない周辺や、動かない周辺のストラクチャに対するカメラシステムの相対的な動きも包含している。
【0014】
オンラインメソッド:
複数の時点の画像データを基に全てのパラメータの一括した最適化が実施されるにもかかわらず、該方法は、(データ捕捉後にバッチ・メソッドとしてバンドル調整を用いるのとは異なり)データ補足中の同時使用にも適している。また該方法は、一時的にしか見えないオブジェクトの捕捉にも適している。
【0015】
スパース、正則化なし
フォトメトリック・バンドル調整に必要な計算負荷を低減するため、全てのオブジェクトの軌道推定の答えを得ることに対して、おそらく重要であり得る寄与、乃至、重要であり得る制約(Constraint)を有するピクセルのみを選択する。この様な点の数は、通常、入力画像にあるピクセル数よりも何桁も少ない。ここでは、深度推定の正則化のための正則化項は必要されないため、これに伴って起こり得るシステム的なエラーは、回避されることができる。
【0016】
該メソッドの中核では、以下のパラメータの一括した最適化(Maximum a posteriori Estimation)が実施されている:
- 複数のオブジェクトの複数の選択された画像において複数選択された点の逆深度によって表される深度(点とオブジェクト毎に1パラメータ)
- オプションとして:複数のオブジェクト用に選択された点毎の法線ベクトル(点とオブジェクト毎に2パラメータ)
- 挙動モデルの数
- 各挙動モデルの軌道(キー・サイクル毎のポーズや3Dポジションと3Dローテーション)
- 選択された点の挙動モデルへの帰属(点と挙動モデル毎に1パラメータ、ソフト割当またはハード割当を用いる)
- 画像毎のセンサ特性曲線(例えば、アフィン)の推定(下記では、読みやすさを考慮し、記載せず;例えば、「Engel et al. DSO 第2.1章 較正」を参照)、並びに、
- 焦点距離と主点の推定(下記では、読みやすさを考慮し、記載せず;「Engel et al. DSO 第2.1章 較正」を参照)。
【0017】
エラー汎函数:
【0018】
【数1】
は、選択され覆い隠されていない点の集合のフォトメトリック・エラーE
photo、複数の挙動モデルからなるシーンを合成するための仮定を含む先験的(a priori)な項E
comp、並びに、個々のオブジェクトのジオメトリに関する先験的仮定E
geoによって最小化される。
フォトメトリック・エラーの項は、
【0019】
【数2】
の様に定義される。
挙動モデルmにおける画像j内の点pの観測に対するフォトメトリック・エラー
【0020】
【0021】
【数4】
である。式中:Mは、挙動モデルの集合、g
mは、カメラモデルの幾何学的エラーの先験的モデルを基にした、オブジェクトの大きさに応じて作用の程度が異なるオプションの加重、Fは、動的バンドル調整ウインド内の全ての画像の集合、P
iは、画像iの全てのアクティブな点の集合、obs(p)は、点pが観測される他のすべての画像の集合である。w
nは、パターン点nの加重(pの近隣N
p)、I
iとI
jは、二枚の画像のグレー値、
【0022】
【数5】
は、挙動モデルmによるカメラ画像j内の一点nの射影と割り当てられた逆深度
【0023】
【0024】
【数7】
は、挙動モデルmへの点の帰属の確立を示しているが、ここでは、
【0025】
【0026】
【0027】
一般的に、挙動モデルの数は、観測できないため、最低数が、優先される。そのため、先験的項Ecompが、必要に応じてオブジェクトの数の確率分布に関して仮定し、パラメータに応じて、定義される。Ecompは、例えば、オブジェクトの数の厳密に単調増加する関数、或いは、最短記述長(Minimum Description Length)のクライテリアを基準とすることができる。
【0028】
尚、先験的項Egeoは、クラスタリングにおける多義性に対抗するため、例えば、オブジェクトのコンパクト性要求など、ジオメトリ仮定を表している。例えば、確率は、各々の隣接する点のペアを見る際に、それぞれ異なるオブジェクトへの帰属(オブジェクトの境界)をモデル化している。これにより、できるだけ少ないオブジェクト境界を有するオブジェクト・セグメント化が優先される。この項は、多義性が少ないアプリケーション・シナリオにおいては、使用する必要はない。
【0029】
尚、それが観測できるのか否かを、或いは、その集合obs(p)を、割出すために、先もって画像境界外にある或いは負の深度を有する(ターゲット・カメラ内にある)射影が、排除される。他のストラクチャによって覆い隠されているか否かを割出すためには、例えば、各々の射影のフォトメトリック・エラーが評価される、または、隠覆分析が実施される(「隠覆」参照)。
【0030】
最適化
エラー汎函数を最適化するためには、固定されたオブジェクト帰属において、Levenberg-Marquardt法が、交互に軌道パラメータとストラクチャ・パラメータに対して用いられ(これは、オブジェクト毎のフォトメトリック・バンドル調整に相当)、続いて、オブジェクトの固定されたジオメトリと固定された数において、例えば、内点法が用いられる、または、帰属の最適化のためにグラフカット法が用いられる。そのため、他のオブジェクト用に各々の選択された点の深度パラメータが必要とされ、バンドル調整中に最適化されなかった場合、これらは、予め最適化できる。
【0031】
上位の最適化ループでは、交互に、先ず先述の如く繰り返してストラクチャ、軌道、及び、オブジェクト帰属が、収束するまで、最適化され、続いて、挙動モデルの数の最適化のために、新しいコンフィグレーション(オブジェクトとその点の帰属)用の仮説が、総エラーの削減が期待できるように立てられる。新しいコンフィグレーション仮説は、イニシャライズのための方法の後に評価される。[
図4も参照]
【0032】
キー・サイクル・マネージメント
バンドル調整に使用するための画像データストリームからの画像の最適な選択は、オブジェクト固有に実施されることができる。ストラテジーの例としては:オブジェクトが、略動いていない→非常に低いキー・サイクル頻度を選択する、他のオブジェクトは、早く動いている→高いキー・サイクル頻度を選択することが挙げられる。
【0033】
起こり得る問題:
バンドル調整におけるオブジェクト・ポーズは、オブジェクト固有のキー・サイクル内においてのみ割出されるため、全キー・サイクルの和集合の全オブジェクトに対してフォトメトリック・エラー項を割出すことはできないことから、クラスタリング・パラメータは、最適化できない。
【0034】
可能な解決策:
全てのオブジェクト用に、全ての他の(それぞれオブジェクト固有でない)キー・サイクルに対してポーズを、ダイレクト・イメージ・アライメントを用いて割出す。この場合、その時点においては、ストラクチャは最適化せず、ポーズのみを割出す。これにより、各々の点と各々の挙動モデル用に、点・挙動モデル帰属の最適化に必要となる全ての自己キー・サイクルと他のキー・サイクルに対するフォトメトリック・エラー項を割出すことができる。
【0035】
あるサイクルにおいてどのオブジェクトにも、キー・サイクルの選択の変更がなされなかった場合、以降の最適化用に新しいデータは、得られない。この様なケースでは、サイクルは、ダイレクト・イメージ・アライメントによるオブジェクトの単なるトラッキング、乃至、そのポーズの推定に縮小される。
【0036】
仮説立て(1):他の挙動モデルの検出
他の挙動モデルの、乃至、更なる別の動いているオブジェクトの検出は、以下の方法によって実施される:オブジェクト・コンフィグレーション用の仮説(仮説Hは、具体的な集合、乃至、全てのモデル・パラメータ値の仮定である)は、付加的な高密度に分散された点の(フォトメトリック)エラーの分析を基に、最適化された深度で構築されることができる(但し、付加的な点は、フォトメトリック・バンドル調整には関与していない)。最適化済みの仮説Hold(例えば、最後の回帰のコンフィグレーション)における大きなエラーの場所的及び時間的な頻発さが割出され、必要に応じて、新しい仮説Hnewが、定義されるが、新しい仮説は、割出されたエラー頻発領域に更なるオブジェクトを包含している。新しい仮説を立て、評価するためのクライテリアは、以下のように定義されていることができる:
Ecomp(Hnew)+Egeo(Hnew)+Cphoto(Hnew)<E(Hold)
式中:Cphoto(Hnew)は、新しい仮説において起こり得るフォトメトリック・エラーの、例えば、先験的仮定や割出されたエラーの頻発さを基にした経験則的推定である。ここでは、新しいオブジェクトのストラクチャと軌道は、まだ正確には知られていないため、先ずは、一つの経験則的推定Cphoto(Hnew)のみが使用される。仮説の評価(即ち、Cphoto(Hnew)とE(Hnew)の割出し)は、イニシャライズプロセスの最適化中に実施される。仮説は、総エラーが、他の最適化済みの仮説(例えば、最後の回帰のコンフィグレーション)の総エラーと比較して大きくなった場合、粗から細へのイニシャライズプロセス中に却下される。最後に却下されなかった仮説が、その時点のサイクルの新しいコンフィグレーションとなる。
以下に記載する隠覆のモデル化は、隠覆による偽陽性検出を回避するため、仮説立ての際に重要である。
【0037】
仮説立て(2):挙動モデルの排除
考慮されるオブジェクトが多すぎる、即ち、特定の挙動モデルの存在が、総エラーを高めると判定された場合、これらの挙動モデルとそれに帰属するパラメータは、エラー汎函数から排除される。挙動モデルの存在が総エラーを高めるか否かを判定する場合、以下の方法が用いられる:
各々のオブジェクトに対して、その時点までのコンフィグレーション仮説Holdを基に、そのオブジェクトを含んでいない新しいコンフィグレーション仮説Hnewを立てる。Hnewを、最適化し、総エラーを割出す。基本的に、一つのオブジェクトが排除された仮説に対しては、通常、Ecomp(Hnew)<Ecomp(Hold)且つEphoto(Hnew)>Ephoto(Hold)であることが期待できる。続いて、E(Hnew)<E(Hold)であるか否か、即ち、新仮説の総エラーが、基の仮設のそれよりも小さくなったか否かを確認する。これが真である場合、新仮説が採用され、該挙動モデルは、排除される。
【0038】
新仮説の完全な最適化を実施する(要するに、全てのモデル・パラメータを一括に最適化する)代わりに、以下の様な、総エラーの上限を割出すと言う簡略化も可能である:排除されたオブジェクトに割り当てられた点の点帰属のみが最適化され、ストラクチャ・パラメータと軌道パラメータは、維持される。このやり方は、非常に高速である。
【0039】
既知の挙動モデルにおける新しい点・深度のイニシャライズ
新しい点・深度の最適化は、離散化された深度値に関する一次元のブルートフォース(総当たり)サーチと、それに続くLevenberg-Marquardt最適化法によって実施できる。離散化間隔は、最適化の期待される収束半径に合わせられる(例えば、射影の1ピクセル間隔)。代案的に、ランタイムの削減のため、粗から細アプローチとブルートフォースサーチの組み合わせも可能である。
画像に対しては、画像ピラミッドを作成することができるが、例えば、ピラミッドレベル0は、オリジナル画像(最大のピクセル解像度)、ピラミッドレベル1は、(画像軸に沿って)半分のピクセル解像度、ピラミッドレベル2は、四分の一のピクセル解像度と言った具合である。
粗いピラミッドレベル(低減したピクセル解像度)から開始し、(ピラミッド解像度に合わせて)離散化された深度値に関するブルートフォースサーチを用いて、エラー値が高い場合、点・深度・領域が、排除される。細かいピラミッドレベルに変更後は、未だ排除されていない点・深度・領域のみが、ブルートフォースサーチによって、改めて評価される。その後、例えば、最も細かいピラミッドレベルの後、Levenberg-Marquardt法を用いて、最善の深度仮説に向上させる。他の残っている仮説は、各々の点・深度の多義性を示すために、残しておくことができる。
イニシャライズ中は、隠覆とその他のモデル化されていない影響は、例えば、「隠覆」の章にある方法、異常値・射影の排除、及び/或いは、射影の加重、例えば、経時的間隔に応じて隠覆確率の先験的推定によって、考慮されなければならない。
【0040】
新しい挙動モデルとその点・深度のイニシャライズ
新しい挙動モデルのストラクチャと軌道パラメータは、始めは、未知でるため、非凸最適化問題の収束半径内において、イニシャライズされなければならない。
【0041】
ある画像シーケンス(低密度乃至高密度の光学的流れ)におけるマッチングの作成は、計算が煩雑であり、エラーが起こりやすい。しかし本発明は、ローカルな挙動モデルのイニシャライズの問題も、キー・サイクル間の光学的流れを明示的に計算することなく解決する。
【0042】
起こり得る問題:
1.フォトメトリック・バンドル調整の収束領域は、全ての画像において、全ての射影が、正しい射影から約1ピクセル以上は離れていないパラメータ空間内の領域によって、大まかに推定できる。軌道の全てのパラメータ(複数の画像!)及び点・深度は、Levenberg-Marquardt最適化法を実施できる様になる前に、可能な限り多くの点の射影が、この時点において既に、正しいソリューションを得るのに最大1ピクセル以内の距離にある様に、十分に良好にイニシャライズされていなければならない。
2.最初の挙動推定を作成するためのマッチングや光学的流れが用意されていない。
【0043】
可能な解決策:DOSのグローバルな2フレームの粗から細アプローチの代わりに、新しいローカルな「マルチフレームの近から遠/粗から細アプローチ」を採用する。
全てのキー・サイクルのローカルなストラクチャ・パラメータは、「1」で、軌道パラメータは、「0」で、イニシャライズされる(代案的に、後に述べるように、イニシャル値に対して、先験的推定、並びに、上位のブルートフォースサーチを採用することもできる)。
最初に
a)大まかに選択されたピラミッドレベル上の点、並びに、
b)それらの観測のみ、即ち、各々のオーナ画像に対する時間的/位置的近さが評価される(例えば、五枚目の画像の点に対しては、四枚目と六枚目の画像における観測のみが評価される)。
続いて、バンドル調整最適化の間、逐次的に解像度が高められ、徐々に遠くの観測も評価される。遅くとも最後の回帰において、最大解像度のピラミッドレベルと全ての観測が用いられる。
【0044】
a)とb)を組み合わせることで、パラメータ空間における収束領域の有意な拡張が得られる:これにより、(通例)線形化のミニマムが実際のミニマムの良好な近似となる範囲内の、その時点における状態用の項のみが評価される。
【0045】
ローカルなマルチフレームが、近から遠/粗から細にイニシャライズされている間、ストラクチャ+軌道、並びに、点の帰属が交互に最適化される。解像度が高まるにつれ、オブジェクト・クラスタリングがより正確になっていく。
【0046】
記載されているアプローチによってもグローバルな最低限への収束は、保証されていないため、上述の点・深度をイニシャライズするためのアプローチの場合と同様に、付加的に粗から細・ブルートフォースサーチを応用することができる:様々なイニシャル値仮説が、粗いピラミッドレベルから始まり最適化され、エラーの確認によって連続的に選択され、理想的には、正しいコンフィグレーション仮説だけが、最も詳細なピラミッドレベルまで最適化され尽くされる。
【0047】
粗から細・ブルートフォースサーチに必要な離散化された初期値は、例えば典型的な軌道の領域や凸型の深度を提案する先験的オブジェクトモデルから割出されることができるが、リジッドな背景に対するカメラ自己運動は、「減算」されることができる。新しい挙動モデルのイニシャル点・深度は、最適化され挙動モデルが減っている古いオブジェクト・クラスタリングの深度からも、割出されることができる。
【0048】
利点:
複数のフレームの全てのパラメータをイニシャライズする必要があることに加え、DSOの2フレーム粗から細アプローチと比較した際の利点は、一度目の回帰において既に、トリリニア制約(>=3フレーム)を内在的に使用することにあり、これによって初めて、ライン・フューチャの様な点が、制約条件となる。誤って割り当てられた点の謂わば「モデル異物」としての同定も、一回目の回帰から既に信頼性を有している。更に、粗から細・ブルートフォースサーチが、収束のリスクをローカル最小値に削減するために、補足される(フォトメトリック・バンドル調整問題は、非常に非凸であるため、極小値を包含している)。
【0049】
隠覆
起こり得る問題:
隠覆は、バンドル調整エラーにおいて、モデリングされず、誤ったオブジェクト・クラスタリングの、或いは、誤った仮説の原因となる可能性を秘めている。
隠覆のモデリングは、「スパース」なアプローチ故に困難である。
【0050】
可能な解決策:
仮説立てのために用いた非常に高密度な点分布は、点同士の互いの隠覆を幾何学的に予測するために用いる事が可能である。観測によって隠覆が割出された場合、これらの観測は、エラー汎函数から排除される。
【0051】
マルチオブジェクトのケースでは、オブジェクト同士の隠覆をモデリングするためには、大雑把な相対的なスケーリング、ステレオ情報が無い場合には、例えば、ドメイン・モデル推定によって推定できるスケーリングは、必ず既知でなくてはならない。様々なオブジェクトの相対的スケーリングは、更なる隠覆の検出やオブジェクトの深度順序を用いて割出すこともできる。これは、例えば、二つのオブジェクトの二つの点の衝突や重なりが予測された場合には、フォトメトリック・エラーを用いて、どちらの点乃至どちらのオブジェクトが、前面にあるのかを、同定できる。
【0052】
点の選択
(低密度)バンドル調整用として選択する点は、小さなオブジェクトであっても画像内の制約に全てを用いる事ができる様に選択される。例えば、オブジェクト毎に定まった数の点を選択する。しかしこのやり方では、非常に小さなオブジェクトに対しては非常に高密度な点選択となるため、該オブジェクトを表している画像領域の略全ての使用可能な関連する画像情報を実質的に使用することになり得る。
【0053】
よって、カメラ画像の全空間角を観察する際には、不均一な点密度となるが、一方、個々のオブジェクトに対しては、均一な密度分布となる。
【0054】
2.方法のマルチカメラシステムへの拡張
本発明により、上記1のマルチ・オブジェクト・アプローチを、マルチカメラシステムに拡張することができる:(一台の或いは)リジッドに接続されている潜在的に異なる内在的特性(例えば、焦点距離/歪みなど)や捕捉領域を有している複数台の同期されたカメラのビデオは、一括した最適化プロセスにおいて処理される。
【0055】
マルチカメラシステムと言うコンテクストにおいて、キー・サイクル(英語:key cycle、原文:Schluesselzyklus、直訳:鍵・周期)と言う概念は、一回のカメラサイクル乃至撮影時点に捕捉される全てのカメラの画像の集合を包含している。
エラー汎函数を適応させることにより:
a)様々なカメラモデルや、該カメラの(既知の)相対ポジションを、様々な投影ファンクション
【0056】
【数10】
によって、モデリングする
b)時間サイクルと挙動モデル毎に、(カメラ中央の代わりに)カメラシステム基準点に対するポジション・パラメータ(ローテーションとトランスレーション)を推定する、そして
c)Fは、選択されたキー・サイクルの全てのカメラの全ての画像の集合を示し、obs(p)は、全ての画像の集合と全てのカメラとキー・サイクルにおける一点pの観察を示している(オプションとして冗長的観察は、計算時間を節約するために排除できる)。これらの点は、全ての画像内で、Fにおいて選択できる。
【0057】
この定式、乃至、アプローチは、全てのカメラの全ての画像間の全ての使用可能な制約を使用し、カメラ・システム・コンフィグレーションに対する仮定は行わない。よってこれは、任意のベースライン、カメラ方向、如何なる重なりや重なっていない捕捉領域、更には、非常に不均一な内在的特性(例えば、望遠レンズや魚眼レンズ)に対しても使用可能である。使用例としては、全方向(方位)に向けられた広角レンズ・カメラのみならず、重要な空間方向に向けられた少数の望遠レンズ・カメラ(乃至、ステレオ・カメラ)も備えたカメラシステムを挙げることができる。
【0058】
ダイレクト・イメージ・アライメントによるトラッキングは、マルチ・カメラ・ダイレクト・イメージ・アライメントに拡張される。即ち、フォトメトリック・マルチ・カメラバンドル調整における変化と同様の変化が得られる:
全てのカメラにおけるフォトメトリック・エラーの合計が、最小限に抑えられると共に、(カメラ中央の代わりに)カメラシステム基準点に対する軌道最適化が実施される。ここでは、全ての使用可能な制約が用いられるが、それには、インター・カメラ射影のフォトメトリック・エラーも含まれる。またここでは、投影ファンクションもそれぞれ各々のカメラモデルとカメラシステム内の相対的ポジションに対して適合されなければならない。
【0059】
イニシャライズ:
新しいエラー汎函数の最小化が、コンフィグレーション仮説のイニシャライズの一部であるため、イニシャライズフェーズにおいても全てのカメラの全ての使用可能な制約が、用いられる。これにより、例えば、重複領域におけるオブジェクトのスケーリングが、自動的に割出される。カメラ内でイニシャライズされ、且つ、後に第二カメラの視野内に進入してくるオブジェクトは、推定されたスケーリングが、正しい値から過度にずれている場合、必要に応じて、改めてイニシャライズされなければならない。
【0060】
3.正確さ及びスケーリングが改善されたビジュアル・オドメトリ
リジッドな背景をセグメント化するだけでなく、マルチ・カメラの最適化も採用することにより、DSOと比べた場合、特に、画像の大部分が、動いているオブジェクトを含む難しいシナリオである場合や、一台のカメラのみでストラクチャが少ない様なシーンにおいて、ビジュアル・オドメトリの正確さと頑健性が向上される。
静的乃至動的な重複領域を有するカメラシステムでは、カメラ間の相対的ポジションの寸法が既知の場合、点のインター・カメラ観察の評価により、ビジュアル・オドメトリの絶対的スケーリングを割出すことが可能である。
【0061】
4.内在的フォトメトリック・パラメータ、内在的ジオメトリック・パラメータ及び外在的パラメータの自動較正
ビネッティング(けられ)は、パラメータによって近似、乃至、モデル化することができる。センサ特性曲線のモデルにおいても同様である。得られる各々のカメラのパラメータは、上述のダイレクト・マルチ・オブジェクト・バンドル調整によって最適化することができる。ストラクチャと軌道推定の精度が高いことから、並びに、自己運動しているオブジェクトのモデル化によって、例えば、単なるビジュアル・オドメトリとの組み合わせなどと比較して、モデル最適化の精度の更なる改善が期待できる。
【0062】
歪みのモデル化と内在的ジオメトリック・パラメータの割出し:得られる各々のカメラのパラメータは、上述のダイレクト・マルチ・オブジェクト・バンドル調整によって最適化することができる。ストラクチャと軌道推定の精度が高いことから、並びに、自己運動しているオブジェクトのモデル化によって、例えば、単なるビジュアル・オドメトリとの組み合わせなどと比較して、モデル最適化の精度の更なる改善が期待できる。
外在的パラメータの推定:互いに対するカメラの相対的なポジションは、上述のダイレクト・マルチ・オブジェクト・バンドル調整によって最適化することができる。ストラクチャと軌道推定の精度が高いことから、並びに、自己運動しているオブジェクトのモデル化によって、例えば、単なるヴィジュアル・マルチ・カメラ・オドメトリとの組み合わせなどと比較して、モデル最適化の精度の更なる改善が期待できる。
ここで注意しなければならないことは:後にメートル法で再現する場合は、少なくとも二台のカメラの間隔を絶対的なメートル基準を、スケーリングのドリフトを回避するために、固定しておく必要がある。
【0063】
カメラ較正の全てのパラメータのイニシャル値は、予め求められていなければならず、且つ、該方法に対して与えられなければならない。但し、基も粗いピラミッドレベルのエラー汎函数の収束領域内のパラメータベクトルのイニシャル値が十分な精度を有することは、確保されていなければならない。これらのイニシャル値は、先験的分布と共に、アプリケーションに応じた多義性を予防するために、エラー汎函数に代入される。更には、キー・サイクルを破棄/交換する時に消去される可能性のある較正パラメータの制約を線形化された形状において、例えば、DSOにおいて用いられる疎外の方法によって、維持できる。
【0064】
5.他のセンサや方法との融合(フュージョン)
a.オブジェクト認識の他の方法(例えば、パターン認識(深層ニューラルネットワークなど))との融合には、双方のアプローチのエラー分布が、概ね相関していないことから、高いポテンシャルが期待できる。アプリケーションの例としては、オブジェクト検出、3D再現やトラッキングにおいて、ステレオカメラやサラウンドビュー・カメラシステムを備えた自動化された車両におけるパターン認識をベースとしたシステムとの融合などを挙げることができる。
b.車載の慣性センサ類とオドメトリとの融合には、クリティカルなシナリオにおける自己運動推定(==静的な周辺部の「オブジェクト」の3D再現)や絶対的スケーリングの割出しのソリューションとして、高いポテンシャルが期待できる。
c.周辺把握センサ類、特に、レーダ及び/或いはライダとの融合。
【0065】
6.アプリケーション
動いている交通参加者の検出とトラッキング、リジッドな動いていない車両周辺部の再現、及びドライバーアシスタント(ADAS)システムや自動走行(AD、Automated Driving)による自己運動の推定における上記1.から5.の応用。
【0066】
ロボットやドローンなどの自律型システムにおける周辺捕捉や自己ローカリゼイションのサポート、VR眼鏡やスマートフォンにおける自己ローカリゼイションのサポート、監視(定置カメラ、例えば、交通監視)における動いているオブジェクトの3D再現などにおける上記1.から5.の応用。
【0067】
本発明の長所と実施バリエーション
【0068】
1.提案された方法は、決してトリビアルではなく、エラーが起こりやすく、且つ、かなりのランタイムを要するタスクであるローカルなマッチングサーチを前処理ステップとして必要としていない。
【0069】
2.該提案された方法によれば、間接的な方法と比べ、クリティカルな状況において、全ての推定において高い、場合によっては有意に高い、精度を達成できる。挙動推定精度の改善により、マルチ・オブジェクト・クラスタリングにおいて、多義性の分解、即ち、カメラ画像において略同じように動いている、或いは、ほぼ同じ方向に動いている二つのオブジェクトの分離/同定を可能にする。
【0070】
3.直接的なフォトメトリック法のロックオン(連続追跡)挙動は、複数の挙動モデルが同時にある場合、ワン・オブジェクト問題を解決するために、(誤った「妥協的」ソリューションへの収束ではなく)優勢な挙動モデルへの収束を促進し、第二の挙動モデルも、然るべく同定されることができる。この様な振る舞いは、挙動モデルの識別の際に有利に働き、マルチオブジェクト問題の正しい総合的解決策への収束を改善する。
この様な特徴を、従来の間接的な方法は、備えていない。
【0071】
4.動いているオブジェクトの同定により、ビジュアル・オドメトリが改善される。動いているオブジェクトは、従来の方法(例えば、DSO)においては、妨害ファクタである。新しいアプローチでは、動いているオブジェクトは、自動的に識別され、自己運動推定から、静止している周辺部によって削除される。
【0072】
5.記載されている方法によれば、コントラストが高く考慮される領域から、ピクセルを略任意の密度でサンプリングできる。更に、動きやストラクチャの推定精度が比較的高いことにより、比較的小さな空間角度と比較的低い解像度においてオブジェクトを検出し、特に好ましくは、追跡(トラッキング)することが可能になる。
この特徴も、従来の間接的な方法は、備えていない。
【0073】
6.マルチ・カメラ拡張を用いることにより、捕捉領域が拡大され、更に/又は、ある角度領域における解像度が高まるが、これらは、それぞれ、総合的解決策の頑健性と精度を高める要因となっている。更に:
a.総捕捉空間角度ができる限り大きいカメラ(例えば、水平方向に合計360度カバーするマルチカメラシステム)を用いることにより、自己運動推定を高い精度と頑健性において実施できる。
b.更に、アイデアa)に捕捉範囲/解像度が高い一台乃至複数台のカメラ(望遠カメラ)を組み合わせることにより、遠くにあるオブジェクトの軌道も更に正確に測定できるため、アイデアa)によって達成された頑健且つ正確な(或いは、静的周辺部の相対的な動きに対する)自己運動推定を、明確に定めることができる。
c.そこにおいて、ストラクチャの絶対的スケーリングを観測可能な二台のカメラの視野領域の重複領域は、カメラの互いに対する相対的なポジションが既知な場合に得られる。アイデアa)とb)を使用することにより、絶対的な距離推定を、非常に不均一なカメラ、例えば、望遠カメラと魚眼カメラの重複区域を用いても、実施することができるようになる。
d.重複領域にあるステレオ・深度情報によって、動いているオブジェクトの認識が、有意に簡略化され、これは、例えば、オブジェクトが、同じ移動方向ではあるが、異なる速度を有している、例えば、道路交通において珍しくないが、モノ・ケースでは多義的となるシチュエーションにおいても可能である。
【0074】
7.動的な推定にとって重要なカメラ・パラメータ:内在的フォトメトリック・パラメータ、内在的ジオメトリック・パラメータ、並びに、外在的パラメータの自動較正は、較正されたパラメータの精度を、一度限りの較正と比較して、有意に改善する。
【0075】
本発明に係る(コンピュータに実装される)少なくとも一台のカメラの画像のシーケンス(一連の画像)から複数の相対的に接近する様に動いているリジッドなオブジェクトを検出し、3D再現し、追跡するための方法は、以下のステップを包含している:
a)少なくとも一台のカメラの画像のシーケンスから特定の撮影時点(=キー・サイクル)における画像を選択するステップ、
b)キー・サイクルの画像を用い、キー・サイクルにおいて低密度(スパース)に選択されたピクセルを基にして複数の相対的に接近する様に動いているリジッドなオブジェクトを記述するためのモデルの全てのパラメータを一括に最適化するステップ、但し、モデル・パラメータは、キー・サイクル内のリジッドなオブジェクトの数、3Dストラクチャ、ポーズを記述し、選択されたピクセルのリジッドなオブジェクトへの帰属を包含している、
c)エラー汎函数(S20)を最小化するステップ、但し、エラー汎函数は、複数のキー・サイクルの画像の輝度に依存するフォトメトリック・エラーEphoto、及び、リジッドなオブジェクトの数に依存する第一先験的エネルギー項Ecompを包含している、並びに、
d)画像のシーケンスの(その時点に)検出された複数の相対的に接近する様に動いているリジッドなオブジェクトの数、3Dストラクチャ及び軌道を周期的に出力するステップ。
【0076】
少なくとも一台のカメラは、個々の単眼カメラやマルチカメラシステムであることができる。該カメラ、乃至、マルチカメラシステムは、特に好ましくは、車両の稼働中に車両の周辺部を捕捉するために車両に配置されてることができる。車両に搭載されているものが、マルチカメラシステムである場合、これは、特に好ましくは、ステレオ・カメラシステム、或いは、例えば、四台のカメラが車両の四方向に設けられた広い開口角度を有する衛星カメラであり、車両周辺部の360度捕捉を確保できるパノラマビュー・カメラシステム(サラウンド・ビュー・カメラ・システム)、乃至、これら双方のカメラシステムの組み合わせであることができる。
【0077】
複数の相対的に接近する様に動いているリジッドなオブジェクトのうちの一つとして、通常、全ての静止している背景が、選択される。リジッドな静止している周辺部に加え、少なくとも一つの自己運動するリジッドなオブジェクトが、検出され、3D再現され、追跡(トラッキング)される。よって、自己運動するリジッドなオブジェクトは、静止している「背景オブジェクト」に対して相対的に動いている。少なくとも一台のカメラが、画像のシーケンスの撮影中動いている場合、静止している背景オブジェクトは、カメラに対して相対的に、そして、通常は、自己運動しているリジッドなオブジェクトも、カメラに対して相対的に動いている。
ステップa)における最適化は、低密度(「スパース」)に選択されたピクセルを基に、或いは、ピクセルの低密度集合を基に、即ち、一枚の画像、乃至、画像の一部の全てのピクセル(「デンス」)やある程度高密度に選択された画像領域(「セミ・デンス」)を基にすることなく、実施される。例えば、J. Engel et al. LSD-SLAM: Large-Scale Direct Monocular SLAM, ECCV, 2014年09月には、「セミ・デンス」の深度マップを用いる方法が示されている。特に好ましくは、例えば、他の点に対して最低限の間隔を有し、その周辺部から特徴をもって目立ち、以降の画像においても識別しやすい、それぞれの動きを再現することに自ら寄与しているピクセルが選択される。(仮想)オブジェクトの3Dストラクチャは、オブジェクトの空間的ジオメトリに対応している。あるオブジェクトのポーズは、そのオブジェクトの三次元空間内におけるポジションとオリエンテーションに対応している。あるオブジェクトのポーズの時間的推移は、そのオブジェクトの軌道に相当している。好ましくは、オブジェクトの数、3Dストラクチャ及び軌道を決定するパラメータの出力は、周期的に、特に好ましくは、「オンライン」で実施されるが、ここでは、少なくとも一台のカメラの新しい画像を受信中、リアルタイム乃至継続的に実施されるという意味である。画像は、「新しい画像が作成されるのと同じ速度で処理される」ことができる。
【0078】
本方法の好ましい発展形態によれば、エラー汎函数は、リジッドなオブジェクトのジオメトリ(3Dストラクチャ)に依存する第二の先験的エネルギー項Egeoを包含している。
【0079】
好ましくは、該エラー汎函数は、以下の(モデル・)パラメータを包含している:
挙動モデル毎に選択された各ピクセルの逆深度;
挙動モデルの数、但し、その時点において推定されている動いているリジッドなオブジェクト毎に、一つの挙動モデルが、割り当てられる;
挙動モデルとアクティブなキー・サイクル毎のポーズ(3Dポジションと3Dローテーション、即ち、6つのパラメータ);並びに、
挙動モデル毎の各々の選択されたピクセルの帰属確率。最適化後、一つの挙動モデルの一つの選択されたピクセルの帰属確率は、「1」であり、他の挙動モデルでは、「0」である。
オプションとして、挙動モデル毎に選択されたそれぞれのピクセルの法線も、付加的なパラメータとして考慮される。
【0080】
好ましくは、該エラー汎函数は、付加的に以下の(モデル・)パラメータも包含している:
各画像用のセンサ特性曲線、並びに、
それぞれのカメラの焦点距離と主点(Engel et al. DSO第2.1章 Calibrationを参照)、要するに、これにより全てのパラメータの一括した最適化が、該少なくとも一台のカメラの自動較正として作用する。
【0081】
好ましくは、一つの、或いは、複数の画像ピラミッドレベルを有するダイレクト・イメージ・アライメントが、個々のオブジェクトの追跡のために実施される。この際、一回のサイクル内において可視であったオブジェクトの相対的3Dポジションと3Dローテーション(ポーズ)は、他のサイクルの画像と三次元画像記録、並びに、オプションとして、粗から細アプローチを用いた深度推定に基づいて推定されることができる。
【0082】
エラー汎函数を最適化するために、好ましくは、オブジェクト固有のキー・サイクル(挙動モデルとキー・サイクル毎のポーズ)を用いたフォトメトリック・バンドル調整によって、軌道パラメータとストラクチャ・パラメータが交互に、且つ、挙動モデルへのピクセルの帰属も最適化される。フォトメトリック・バンドル調整における使用のための画像シーケンスからの選択されたキー・サイクルの選択は、挙動モデル固有に実施されることができる。例えば、(選択された画像の)頻度は、オブジェクトの相対的動きに合わせることができる。
【0083】
好ましくは、続いて、挙動モデルの数も最適化されるが、エラー汎函数に挙動モデルを加える場合、或いは、エラー汎函数から挙動モデルを削除する場合は、選択されたピクセルの挙動モデルへの新しい帰属を実施し、且つ、エラー汎函数の最適化を改めて開始する。
【0084】
尚、少なくとも一台のカメラは、静止しているリジッドな背景に相当するオブジェクトに対して動いていることが好ましい。
【0085】
この方法のある好ましい実施形態においては、複数の画像シーケンスが、複数の同期された(車載)カメラを包含するカメラシステムによって、撮影され、方法の入力データとして提供される。結果として得られるエラー汎函数を最小化するための全てのパラメータの一括した最適化が、実施される。モデル・パラメータは、(一台のカメラに対してではなく)カメラシステムに対する各々のオブジェクトのポーズを包含している。ピクセルは、全てのカメラから選択することができる。ピクセルは、少なくとも一台のカメラのキー・サイクルの画像から選択される。
選択されたピクセルに対しては、少なくとも一台のカメラと少なくとも一つのキー・サイクルにおける観測が、フォトメトリック・エラーのエネルギー項として考慮される。この際、個別のジオメトリックとフォトメトリック・カメラモデルとカメラの互いに対する相対位置が、考慮される。
【0086】
好ましくは、更に、一つの、或いは、複数のピラミッドレベルを有するマルチ・カメラ・ダイレクト・イメージ・アライメントが、個々のオブジェクトの追跡用に実施される。この際、以下の画像が好ましく使用される:
a)ポーズが既知、且つ、既知の深度の点が選択された全てのサイクルの全ての画像。これらは、繰り返し組み合わされ、その際ねじら(warpさ)れる(各カメラに対して、ポーズが探されるサイクル内において期待される画像の予測が得られる)。
b)ポーズが探されるサイクルの全画像。これらは、それぞれそのカメラと組み合わされているa)の予測画像と繰り返し比較される。
【0087】
好ましくは、全てのパラメータの一括した最適化が、少なくとも一台のカメラの自動較正として作用するように、モデル・パラメータは、少なくとも一台のカメラの更なる内因的フォトメトリック・パラメータ、更なる内因的ジオメトリック・パラメータ及び/或いは外在的パラメータを包含している。言い換えれば、カメラの自動較正/内因的フォトメトリックなパラメータ(例えば、ビネッティングやセンサ特性曲線)、内在的ジオメトリック・パラメータ(例えば、焦点距離、主点、歪み)、及び/或いは、外在的モデル・パラメータ(例えば、カメラの互いに対する相対的なポーズ)の自動的な最適化が実施される。ビネッティング、センサ特性曲線及び歪みは、好ましくは、パラメータによって近似される。全ての新しいモデル・パラメータは、これにより、エラー汎函数の最小化において(一括して)割出されることができる。
【0088】
本発明の更なる対象は、入力ユニットによって受信された少なくとも一台の(車載)カメラの画像のシーケンスから複数の相対的に接近する様に動いているリジッドなオブジェクトを検出し、3D再現し、追跡するための装置に関する。該装置は、入力ユニット、選択ユニット、最適化ユニット及び出力ユニットを包含している。
選択ユニットは、画像のシーケンスから、複数の(選択ユニットによって割出された)撮影時点(=キー・サイクル)の画像を選択できるように構成されている。
最適化ユニットは、以下を実施できるように構成されている:
a)キー・サイクルの画像を用い、キー・サイクルにおいて低密度に選択されたピクセルを基にして複数の相対的に接近する様に動いているリジッドなオブジェクトを記述するためのモデルの全てのモデル・パラメータを一括に最適化すること、但し、モデル・パラメータは、キー・サイクル内のリジッドなオブジェクトの数、3Dストラクチャ、ポーズを記述し、選択されたピクセルのリジッドなオブジェクトへの帰属を包含している、
b)エラー汎函数を最小化すること、但し、エラー汎函数は、複数のキー・サイクルの画像の輝度に依存するフォトメトリック・エラーEphoto、及び、リジッドなオブジェクトの数に依存する第一先験的エネルギー項Ecompを包含している。
出力ユニットは、最適化ユニットによって画像のシーケンスから検出された複数の相対的に接近する様に動いているリジッドなオブジェクトの数、3Dストラクチャ(ジオメトリ)及び軌道を周期的に出力できる様に構成されている。
【0089】
概装置は、特に好ましくは、マイクロコントローラ乃至プロセッサ、中央処理装置(CPU)、画像処理装置(GPU)、デジタル・シグナル・プロセッサ(DSP)、ASIC(Application Specific Integrated Circuit/特定用途向け集積回路)、FPGA(Field Programmable Gate Array/フィールド・プログラマブル・ゲート・アレイ)、並びに、これらに類するもの;、インターフェース(入力ユニットと出力ユニット)、及び、関連する方法ステップを実施するためのソフトウェアを包含している。
よって、本発明は、デジタル・エレクトロニクス回路、コンピュータ・ハードウェア、ファームウェア乃至ソフトウェアとして実施されることができる。
【0090】
以下、実施例と図を詳しく説明する。図の説明。
【図面の簡単な説明】
【0091】
【
図1a】自車両の左側のサイドカメラの5枚の画像系列(シリーズ)。
【
図1c】(自己運動している)リジッドな第一オブジェクトの3D再現。
【
図1d】静止しているバックグラウンドに相当する(静止している)リジッドな第二オブジェクトの3D再現。
【
図2】自車両のサラウンドビュー(全方向視野)システムの四枚の模式化されたカメラ画像(下)と自車両の周辺部の3D点再現(上)。
【
図3】マルチカメラシステム用の方法の流れの模式図。
【
図4】個別画像のワンサイクル用のエラー汎函数のデータ選択と最小化を実施するための方法の流れに関する概略的なダイヤグラム。
【
図5】パノラマビュー・カメラシステム、フロント望遠カメラ、複数の相対的に接近する様に動いているリジッドなオブジェクトを検出し、3D再現し、追跡するための装置を備えた自車両。
【発明を実施するための形態】
【0092】
図1aは、自車両の左側のサイドカメラによって、自車両の走行中に撮影時点t0,・・・,t4において撮影された五枚の画像系列(L0,L1,・・・,L4)を示している。画像L0,.,L4には、自車両左脇の(左側通行における、以下同様)追い越し車線上を走行している車両19が見える。左側の道路縁は、壁11によって制限されている。その後ろには、道路脇に生えている木が、画像の上三分の一に示唆されている。壁11、木、道路、及び、車線マークは、自車両の静止している周辺部の構成要素である。全ての静止している自車両の周辺部は、リジッドなオブジェクトとして観察される。写っている車両19は、一つの、第一オブジェクト(静止している周辺部)に対して相対的に動いている自己運動しているリジッドなオブジェクトである。写っている車両19は、自車両よりも早く走行している、即ち、追い越そうとしている。
本方法を一台のカメラのみをベースとして実施するのであれば、一枚の画像が、一回の(撮影)サイクルに相当する。五枚の画像が、写っている車両(=一つの挙動モデルが割り当てられているオブジェクト)にとって、五回のキー・サイクルであるとみなすと、こられのキー・サイクルが、挙動モデル固有のキー・サイクルであると言うことを意味する。
【0093】
図1bは、方法のある実施形態よって達成されたシーンの3D再現を示している。但し、この3D再現では、
図1aに代表として示されている左側のカメラのキー・サイクルだけでなく、同じ撮影時点t0,・・・,t4に同期されている該カメラシステムのリア、フロント及び右側カメラによって撮影されたキー・サイクルも用いられている。これは、後に、
図2と関連して説明する。
図1bには、完全ではないが大雑把な3Dコンディションは認識できるように再現できる点が見られる(スパース)。3D再現は、
図1aのカメラ方向に対して上から見下ろす視野から実施されている。ここでは、その空間的形状を良好に推測できる(他の)車両、リジッドな周辺部、特に、該車両の後ろ乃至上方の二本の平行なラインとして認識できる壁が、描写されている。道路上にもいくつかの点が、存在している。
【0094】
図1cは、
図1bの他の車両29のみの3D再現を示している。この車両29は、一つの動いているリジッドなオブジェクトである。本方法によれば、画像系列L0,・・・,L4から、車両19の信頼性のあるトラッキング(追跡)が、可能になる。3Dポジションと大きさのみならず、トラッキングからは、車両19の軌道、特に、全ての3空間方向における速度とローテーションも割出すことができる。
【0095】
図1dは、
図1bから、静止している(動いていない)リジッドな自車両の周辺部のみの3D再現を示している。静止しているリジッドな自車両の周辺部も、(相対的に)動いているリジッドなオブジェクトとして取り扱われる。自車両のこの周辺部内における位置確認は、直接的に実施できる。このアプローチによって割出された再現された周辺部の相対的な動きは、自車両の自己運動の逆と等しい。
図1aの壁11の3D再現は、二本の平行なライン29として認識できる。
【0096】
図2では、下に、自車両のサラウンドビュー(全方向視野)システムの四枚の模式化されたカメラ画像L10,F10,R10,H10が、そして上には、自車両の周辺部の3D点再現が、示されている。
左下には、左側を向いている車載カメラの修正された画像L10が見える。その横には、それぞれ、前、右、そして後ろに向けられた車載カメラの修正された画像F10,R10,H10が、示されている。四枚全ての画像L10,F10,R10,H10では、各々の視野内において、黒色の道路表面と白色の路面標示12,13,15,16を認識できる。自車両の右斜め前を他の車両19が走行している。他の車両19の後部は、左のカメラの画像L10に、前部は、フロントカメラの画像F10に捕捉されている。描写されている車両19は、自己運動しているリジッドなオブジェクトである。左のカメラの画像L10でも、道路と道路を取り囲む景色(木、丘)との間の道路境界としての壁11を認識できる。壁11の下には、三車線道路の左車線の縁を限定する実線として引かれた車線境界マーク(ライン)12が描かれている。サラウンド・ビュー・システムのフロントカメラの画像F10には、現在自車両が走行している中央車線の左右の縁を限定する点線として引かれた左側車線マーク13と右側車線マーク15が描かれている。道路の右縁は、もう一本の実線として引かれている車線境界マーク16によって示されている。右側のカメラの画像R10には、ガードレール17が、車線境界として写っており、その下には、車線境界マーク16が認識できる。リアカメラの画像H10からも、自車両が、三車線中の真ん中を走行しており、双方の実線で引かれている車線境界マーク(画像R10では、番号はつけられていない)の間において、自車線から見て画像の左側に右の走行レーンマーク15が、画像の右側に左の走行レーンマーク13が、破線として認識できる。四枚全ての画像の上部では、空を推測することができる。壁11、路面標示12,13,15,16とガードレール17は、自車両の静止している周辺部の構成要素である。全ての静止している自車両の周辺部は、リジッドなオブジェクトとして観察される。
自車両の走行の推移中、四台のカメラ各々によって画像系列(ビデオ)が撮影される。これらの画像系列より、複数の(同期された)カメラを用いる本方法の実施形態に従ってシーンの3D再現が達成される。
図2上には、3Dコンディションを描写する点が見えている。可視化は、鳥瞰図(トップビュー)として実施される。実線と引かれているライン24によって自車両のこれまでの起動が、図示されている。このラインは、3Dストラクチャの構成要素ではないが、自車両の、カメラシステムの再現された起動を可視化したものである。ライン24の右の末端28は、
図2では、それ自体は描かれていない自車両のその時点のポジションに対応している。自車両の左前(乃至、
図2上の右上方)には、他の車両29の輪郭を認識できる。動いているオブジェクトは、頑健且つ正確に追跡できるため、その特性を、自車両のアシスタント乃至自動走行を実施するためのシステムのために、割出すことが可能である。3D再現は、動かない背景の構成要素としては、以下の要素が見てとれる(上から下へ):壁(左走行レーン縁の境界)が、多少高密度且つ多少拡張された(点からなる)ライン21として、左側の実線で引かれた車線境界マーク22、自車線の左側の破線として引かれた走行レーンマーク23、自車線の右側の破線として引かれた走行レーンマーク25、右側の実線で引かれた車線境界マーク26、並びに、ガードレールの支柱を含む多少高密度且つ多少拡張されたライン27。右側の実線として描かれている車線境界マーク26とガードレールの「ライン」27との間には、道路の路肩(ハードショルダ)がある。
【0097】
図3は、マルチカメラシステム用の方法の実施例の流れを例示している。類似する方法は、多少の変更を加えれば、モノカメラシステムにおいても使用可能である。
第一ステップS12では、エラー汎函数のパラメータが、イニシャライズされる。エラー汎函数は、パラメータに応じて、ワンサイクルの個別画像のエラーを算出する役割を担っている。よってエラー汎函数の最小化によって、モデルを最適に個々の画像に合わせるパラメータが提供される。パラメータとしては:
- 複数のオブジェクト用の複数の画像の複数の点の深度パラメータ
- オプションとして:各選択された点の法線ベクトル(点毎に2つのパラメータ)
- 挙動モデルの数
- 複数の挙動モデル(各々3+3ヶのパラメータ即ち、タイムステップ毎にポジションとローテーション)、但し、一つのオブジェクトに一つの挙動モデルが、割り当てられている。動かない背景(即ち、現実空間において動いていない周辺部)も。オブジェクトとして取り扱われる。背景オブジェクトにも一つの挙動モデルが、割り当てられている。
- 点の挙動モデルへの割り当て(点と挙動モデル毎に1つのパラメータ、ソフト割当またはオプションとして、ハード割当を用いる)
- センサ特性曲線の推定、及び、
- 焦点距離と主点の推定。
パラメータのイニシャライズは、挙動モデルの数に対して「1」を選択し、軌道は、「0」、そして、逆深度は、「1」でイニシャライズし、粗から細イニシャライズを実施することによって成される。
【0098】
ステップS14では、複数の同期されたカメラのワンサイクルの新しい個別画像が得られる。ワンサイクルとは、同期されたカメラが、一回の撮影サイクル(一回の撮影時点に相当)に作成された画像の集合を表している。新しい個別画像は、例えば、カメラやメモリ、その他のデバイスから、本方法、乃至、本システムに提供される。
【0099】
続くステップS16では、現在存在している挙動モデル全て(その時点において想定されているオブジェクト、乃至、その時点で有効なオブジェクト仮説に対応)に対してそれぞれ、マルチ・カメラ・ダイレクト・イメージ・アライメントが、(新しい個別画像を有する)最新のサイクルにおける挙動パラメータを割出すために実施される。例えば、動いているリジッドなオブジェクトが、相対的に、静止しているリジッドなオブジェクトに対して動いているとしてみなすことができる。静止している背景も動いているリジッドなオブジェクトとして扱われるため、これは、最も簡単なケースでは、複数の、ここでは、二つの動いているリジッドなオブジェクト用である。カメラは、静止している背景に対して動いているため、個別画像のシーケンスにおいて背景は、カメラシステム座標系では、静止しておらず、相対的に動いている。現時点でオブジェクトとして見なされているものは、各々、挙動モデルによって記述される。新しい(即ち、その時点の)サイクルにおける各オブジェクト用の(ポーズ)パラメータは、マルチ・カメラ・ダイレクト・イメージ・アライメントを用いて割出されなければならない。
ダイレクト・イメージ・アライメントは、バンドル調整とは異なってはいるが、フォトメトリック・バンドル調整と共通点を有している。最小化するべきフォトメトリック・エラー汎函数は、同じである。ダイレクト・イメージ・アライメントでは、深度は、最適化されず、既知であると言う前提であり、フォトメトリック・エラー(グレー値からの差)を最小化する際に、新しポーズのみが推定される。この際、新しいサイクルの画像の予測が、回帰的に、イメージ・ワーピング乃至似通った3Dレンダリングによって(古い画像、既知のストラクチャや軌道を基に)生成され、新しいオブジェクト・ポーズが、予測が、新しい画像に最も類似するまで適合される。同形異義性を基にしたシングル・カメラ・ダイレクト・イメージ・アライメントの詳細は、例えば、以下に示されている:https://sites.google.com/site/imagealignment/tutorials/feature-based-vs-direct-image-alignment(2019/03/12にダウンロードしたバージョン)。
【0100】
続いてステップS20では、データ(キー・サイクル、ピクセル)が、選択され、エラー汎函数が、最小化される。詳しくは、後に説明する。
この際得られたパラメータは、次のステップS22において出力される。続いて、ステップS14を続行する、即ち、新しいサイクルの新しい個別画像を得る。
【0101】
図4は、個別画像のワンサイクル用のエラー汎函数(
図3のS20)のデータ選択と最小化、並びに、続くパラメータの出力(S22)を実施するための方法の流れに関する概略的なダイヤグラムを示している。
【0102】
第一ステップS200では、(一つのオブジェクトに対応する)各挙動モデル用のキー・サイクルが、全てのカメラサイクルの集合から選択される。
【0103】
ステップS201では、全ての挙動モデルのキー・サイクルの画像内の点が、選択される。
【0104】
ステップS202では、エラー汎函数の新しいパラメータが、他の点・深度と点・帰属を記述するためにイニシャライズされる。
【0105】
ステップS203では、オブジェクト固有のキー・サイクルを用いたフォトメトリック・バンドル調整によって各々のオブジェクト用の挙動パラメータとストラクチャ・パラメータが最適化される。
【0106】
ステップS204では、マルチ・カメラ・ダイレクト・イメージ・アライメントが、オブジェクトと関連しないキー・サイクルに対して実施される。
【0107】
ステップS205では、ピクセルのオブジェクト乃至挙動モデルに対する帰属が最適化される。
【0108】
続くステップS206では、(十分な)収束を達成できたか否かが確認される。点・帰属が変更されたために、収束が達成されていない場合、ステップS200を継続する。
【0109】
収束が達成された場合は、次のステップS207において、挙動モデル(オブジェクト)の数、並びに、ピクセルの挙動モデルへの帰属が、最適化される。
【0110】
続くステップS208では、これに関して、(十分な)収束を達成できたか否かが確認される。
数が合わない場合、次のステップS209において、挙動モデルも数が、確認される。
数が多すぎる場合、ステップS210において削除され、帰属するパラメータが取り除かれ、該方法は、ステップS200から続行される。この際、以下の様な手順でおこなう:
各々のオブジェクト毎に、該オブジェクトを含んでいない新しいコンフィグレーション仮説が評価される。これにより、総エラーが低減するか否かが確認される。正である場合、コンフィグレーションが採用される、乃至、該オブジェクトが、排除される。
【0111】
この新しい総エラーの上限は、対象となる点の点帰属のみを最適化し、全てのストラクチャ・パラメータと軌道パラメータを維持することによって割出すことができる。このやり方は、(オブジェクトが欠損した同様な新しい仮説の総合的な最適化と比較して)非常に高速である。これに関しては、上記「仮説立て(2):挙動モデルの排除」の章も参照。
【0112】
数が少なすぎる場合、ステップS211において、エラー汎函数の更なる挙動モデル(オブジェクト)を記述するための新しいパラメータをイニシャライズし(「仮説立て(1):挙動モデルの検出」を参照)、方法は、ステップS200を続行する。
【0113】
数が合った場合、即ち、ステップS208において収束を達成した時は、パラメータが、ステップS22において出力される。
【0114】
図5は、パノラマビュー・カメラシステム、フロント望遠カメラ、複数の相対的に接近する様に動いているリジッドなオブジェクトを検出し、3D再現し、追跡するための装置2を備えた自車両1を示している。パノラマビュー・カメラシステムの四台のカメラの捕捉領域は、自車両1の周りの四つの三角領域(L,F,R,H)によって示されている。自車両の左側(フロント、右側、乃至、バック)の三角領域L(F,R,乃至H)は、パノラマビュー・カメラシステムの左側(フロント、右側、乃至、バック)のカメラの捕捉領域に対応している。車両1のフロントガラスの領域には、望遠カメラが配置されており、その捕捉領域はT、点線で示した三角によって示されている。該望遠カメラは、例えば、ステレオカメラであることができる。該カメラは、装置2と接続されており、撮影した画像、乃至、画像系列を装置2へと転送する。
【国際調査報告】