【文献】
JINWEI YE ,YU JI ,JINGYI YU,,MANHATTAN SCENE UNDERSTANDING VIA XSLIT IMAGING,COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 2013 IEEE CONFERENCE ON,2013年,URL,https://www.eecis.udel.edu/~jye/lab_research/2013/manhattanxslit.pdf
(58)【調査した分野】(Int.Cl.,DB名)
該画像処理モジュールは、該少なくとも一つの多視点画像内の共平面共通点及び消失点の識別に基づいて該少なくとも一つの多視点画像から該シーン内の少なくとも一つのプレーンを識別するように構成されている、請求項9に記載のシステム。
該少なくとも一つの多視点画像は、ステレオ画像ペアを形成するべく、該第一方向及び該第二方向において個々にキャプチャされた第一及び第二多視点画像を含み、且つ、該画像処理モジュールは、該ステレオ画像ペアのそれぞれの画像内の少なくとも一つのエピポーラ曲線に基づいて、該ステレオ画像ペアから深さマップを再構築するように構成されている、請求項9に記載のシステム。
【発明を実施するための形態】
【0012】
本発明の態様は、シーンの少なくとも一つの多視点画像をキャプチャするように構成されたカメラと、キャプチャされたシーンの少なくとも一つの多視点画像を処理する画像処理モジュールと、に関する。カメラは、撮像センサに結合されたレンズモジュールを含む。レンズモジュールは、撮像センサの光軸に沿って位置決めされた第一及び第二円筒形レンズと、個々の第一及び第二円筒形レンズ上において配設された第一及び第二スリット形状アパーチャと、を含む。第二円筒形レンズの円筒軸は、第一円筒形レンズの円筒軸との関係において平行から離れた角度において構成されている。画像処理モジュールは、キャプチャされたシーンの少なくとも一つの多視点画像を受け取ると共にシーンの再構築特性を判定するように構成されている。
【0013】
第一及び第二円筒形レンズの角度は、90度以上であってもよく、且つ、180度未満であってもよい。従って、レンズモジュールは、本明細書においては、Xスリットレンズモジュールとも記述され、且つ、カメラは、Xスリットカメラと記述され、且つ、多視点画像は、Xスリット画像と呼称される。いくつかの例においては、Xスリットカメラは、(撮像センサとの関係における)異なる円筒形レンズの位置において二つの画像をキャプチャするように構成されてもよい。二つの画像は、回転ステレオ画像ペアとも呼称される。いくつかの例においては、Xスリットカメラは、コード化アパーチャ撮像を実行するべく、深さ視差コード及び広帯域コードを含むコード化アパーチャを含んでもよい。
【0014】
シーンの再構築特性は、画像内の一つ又は複数のプレーンの識別(マンハッタンワールド(MW)再構築用などのもの)、深さマップの判定(回転ステレオ撮像を介するなどのもの)、及び/又はシーンの深さ再構築(コード化アパーチャ撮像を介するなどのもの)を含んでもよい。いくつかの例においては、画像処理モジュールは、キャプチャされたXスリット画像からMW再構築を実行するように構成されてもよい。いくつかの例においては、画像処理モジュールは、回転Xスリットステレオ画像ペアから回転ステレオマッチングを実行するように構成されてもよい。いくつかの例においては、画像処理モジュールは、キャプチャされたXスリットコード化画像からコード化アパーチャ撮像を実行するように構成されてもよい。
【0015】
図1を参照すれば、多視点画像(本明細書においては、Xスリット画像とも呼称される)をキャプチャ及び処理するためのXスリット撮像システム100が示されている。システム100は、Xスリットカメラ102と、コントローラ104と、画像処理モジュール106と、ストレージ108と、ディスプレイ110と、ユーザインタフェース112と、を含む。いくつかの例においては、システム100は、回転ステレオマッチングモジュール122(
図8との関係において更に後述する)によって回転ステレオマッチングを実行するなどのために、回転モジュール114を含んでもよい。図示されてはいないが、システム100は、例えば、グローバルネットワーク(即ち、インターネット)を介してリモート場所に対して結合されてもよい。
【0016】
Xスリットカメラ102は、Xスリットレンズモジュール116と、カメラ118と、を含む。
図2A及び
図2Bとの関係において更に後述するように、レンズモジュール116は、Xスリットカメラ102の光軸210に沿って配設された第一及び第二スリットレンズ202−1、202−2を含み、第一スリットレンズ202−1は、第二スリットレンズ202−2との関係において、所定の角度において構成されている。いくつかの例においては、スリットレンズ202は、(
図2Aに示されているように)互いに直交した状態で位置決めされている。その他の例においては、スリットレンズ202は、
図3Aにおいて示されているように、斜めの角度において(即ち、平行でもなく共平面でもない方式で)構成されている。カメラ118は、主レンズと、撮像センサ(
図2Aに示されている撮像センサ208など)と、を有する任意の適切な汎用カメラを含んでもよい。一例においては、カメラ118は、Sony Corporation によって製造されるNEX−5Nという型名のデジタルカメラを含む。カメラ118をXスリットカメラ102に変換するべく、Xスリットレンズモジュール116は、カメラ118の主レンズに装着されてよい(
図2Bに示されている)。Xスリットカメラ102は、シーンのXスリット画像(即ち、多視点画像)をキャプチャするように構成されてもよい。
【0017】
コントローラ104は、Xスリット画像のキャプチャ、保存、表示、及び/又は処理を制御するべく、Xスリットカメラ102、画像処理モジュール106、ストレージ108、ディスプレイ110、ユーザインタフェース112、及び任意選択の回転モジュール114のうちの一つ又は複数に対して結合されてもよい。コントローラ104は、例えば、論理回路、デジタル信号プロセッサ、又はマイクロプロセッサを含んでもよい。画像処理モジュール106の一つ又は複数の機能は、コントローラ104によって実行され得ることを理解されたい。
【0018】
画像処理モジュール106は、マンハッタンワールド(MW)再構築処理モジュール120、回転ステレオマッチングモジュール122、及びコード化アパーチャ撮像モジュール(
図4、
図8、
図12との関係において更に詳細に後述する)のうちの一つ又は複数を含んでもよい。MW再構築モジュール120は、Xスリットカメラ102によってキャプチャされたMWシーンのプレーンを再構築するように構成されてもよい。回転ステレオマッチングモジュール122は、回転モジュール114との組合せにおいて、Xスリット画像のペアを(Xスリットカメラ102の回転を介して)キャプチャしてもよく、且つ、ステレオマッチングを実行してキャプチャされたシーンの深さマップを再構築してもよい。コード化アパーチャ撮像モジュール124は、Xスリットカメラ102と共にコード化アパーチャを使用することにより、Xスリットカメラ102によってキャプチャされたシーンの深さを再構築してもよい。画像処理モジュール106は、例えば、論理回路、デジタル信号プロセッサ、又はマイクロプロセッサを含んでもよい。
【0019】
ストレージ108は、Xスリットカメラ102からキャプチャされたXスリット画像、処理済みの画像、及び/又は(画像処理モジュール106からの)画像処理結果のうちの少なくとも一つを保存するように構成されてもよい。ストレージ108は、例えば、磁気ディスク、光ディスク、又はハードドライブなどの任意の適切な有体の一時的ではないコンピュータ可読媒体を含んでもよい。
【0020】
キャプチャされたXスリット画像(Xスリットカメラ102からのもの)及び/又は処理済みの画像/結果(画像処理モジュール106からのもの)は、ディスプレイ110上において表示されてもよい。ディスプレイ110は、画像/画像処理結果を表示するように構成された任意の適切なディスプレイ装置を含んでもよい。ユーザインタフェース112は、例えば、(例えば、複数のモジュールが画像処理モジュール106内に含まれている際の)画像処理モジュール106のモジュール120〜124の選択、画像処理モジュール104と関連付けられたパラメータ、キャプチャされた画像/処理済みの画像/処理済みの結果のストレージ108内における保存選択、画像/結果の表示選択、及び/又は任意選択の回転モジュール114と関連付けられたパラメータと関連するユーザ入力を受け取る能力を有する任意の適切なユーザインタフェースを含んでもよい。ユーザインタフェース112は、例えば、ポインティング装置、キーボード、及び/又はディスプレイ装置を含んでもよい。ユーザインタフェース112及びディスプレイ110は、別個の装置として示されているが、ユーザインタフェース112及びディスプレイ110の機能は、一つの装置に組み合わせられてもよいことを理解されたい。
【0021】
任意選択の回転モジュール114は、スリットレンズ202及び/又はカメラ118を回転させるように構成されてもよい。回転モジュール114を回転ステレオマッチングモジュール122との組合せにおいて使用してXスリット画像のペアをXスリットカメラ102からキャプチャしてもよい。
図6A〜
図6Dに示されているように、回転モジュールは、(光軸210との関係における)異なるスリットレンズ202の構成によって同一のシーンを二回にわたってキャプチャするべく、90度だけ、カメラ118との関係においてスリットレンズ202−1、202−2を回転させる。いくつかの例においては、第一及び第二スリットレンズ202−1、202−2は、
図6A及び
図6Bに示されているように、物理的に回転させられてもよい。その他の例においては、カメラ118は、それぞれのスリットレンズ202−1、202−2を回転させるのに伴って同一の効果を生成するように、
図6C及び
図6Dに示されているように、物理的に回転させられてもよい。
【0022】
当業者は、本明細書における記述から、適切なXスリットカメラ102、コントローラ104、画像処理モジュール106、ディスプレイ110、ユーザインタフェース112、及び任意選択の回転モジュール114について理解することができよう。
【0023】
次に、
図2A及び
図2Bを参照すれば、例示用のXスリットカメラ102が示されている。具体的には、
図2Aは、Xスリットカメラ102の分解斜視図であり、且つ、
図2Bは、Xスリットカメラ102の斜視図である。
図2Aは、光軸210との関係において、カメラ118のXスリットレンズモジュール116及び撮像センサ208の構成を示している。
図2Bは、カメラ118のレンズチューブ212内におけるスリットレンズ202−1、202−2の例示用の構成を示している。
図2Bに示されている構成は、Xスリットカメラ102の例示用の実施形態を表しており、且つ、その他のカメラ118及びレンズチューブ112の構成が使用されてもよいことを理解されたい。
図2Bには、三つのレンズチューブ212が示されているが、カメラ118は、更に少ない数のレンズチューブ212を含んでもよく、或いは、更なるレンズチューブ212を含んでもよい。いくつかの例においては、スリットレンズ202−1、202−2は、なんらのレンズチューブ212をも伴うことなしに、カメラ118に直接的に結合されてもよい。レンズチューブ212を使用することにより、既定の角度に従って(即ち、直交するように、或いは、斜めの角度において)スリットレンズ202−1、202−2をアライメントさせてもよい。
【0024】
図2Aに示されているように、Xスリットモジュール116は、光軸210に沿って配設された第一スリットレンズ202−1及び第二スリットレンズ202−2を含む。それぞれのスリットレンズ202は、円筒形レンズ204(レンズを通じて延在する円筒軸を有する)と、スリットアパーチャ206と、を含む。スリットアパーチャ206は、円筒形レンズ204上において配設され、且つ、スリットの長さが円筒形レンズ204の円筒軸方向に沿って延在するように、構成されている。第一スリットレンズ202−1は、第二スリットレンズ202−1との関係において、所定の角度において位置決めされており、この角度は、第一円筒形レンズ204−1及び第二円筒形レンズ204−2の円筒形レンズ軸との関係におけるものである。第一及び第二スリットレンズ202−1、202−2の間の角度は、180度未満であってもよく、且つ、90度以上であってもよい。第一スリットレンズ202−1は、第二スリットレンズ202−2に対して所定の角度において構成されていることから、第一及び第二スリットレンズ202−1、202−2の組合せは、光軸210との関係において交差(即ち、×)を形成している。
【0025】
Xスリットカメラ102は、3D空間において(傾いているか又は直交している)二つのスリット206−1、206−2を同時に通過した光線を収集し得る。円筒形レンズ204は、自身を通過する光線をレンズ204の表面の交差及びこれに接するプレーンに対して平行な(撮像センサなどの)ライン上に合焦する円筒体のセクションである。円筒形レンズ204は、このラインに対して垂直の方向において、画像を圧縮し、且つ、このラインに対して平行な方向においては(接したプレーンにおいては)、変化のない状態に残している。円筒形レンズ(204−1、204−2)の二つの層を連結することにより、Xスリットレンズモジュール116を合成してもよい。Xスリットカメラ102の被写界深度を更に増大させるべく、それぞれの円筒形レンズ204は、スリット形状のアパーチャ206と結合されている。一般に、スリットの幅が狭いほど、Xスリットカメラ102によってキャプチャされ得る被写界深度も深くなる。
【0026】
いくつかの例においては、スリットアパーチャ206−1、206−2は、1次元(1D)でコード化されたアパーチャ206−1’、206−2’によって置換されてもよい。コード化アパーチャ206’をコード化アパーチャ撮像モジュール124と共に使用することにより、コード化アパーチャ撮像を介してシーンの深さを再構築してもよい。第一コード化アパーチャ206−1’は、大きな深さ視差コードを含んでもよく、第二コード化アパーチャ206−2’は、広帯域コードを含んでもよい。コード化アパーチャ撮像モジュールについては、
図12との関係において更に後述する。
【0027】
図2Cを参照すれば、回転モジュール114を有するように構成されたXスリットカメラ102の斜視図が示されている。
図2Cに示されている例は、(
図6A〜
図6D及び
図8との関係において更に後述する)回転ステレオマッチングを実行するべく、使用されてもよい。
図2Cに示されている構成は、Xスリットカメラ102及び回転モジュール114の例示用の実施形態を表しており、且つ、回転ステレオマッチングを実行するべく、その他のカメラ118、その他の一つ又は複数のレンズチューブ112の構成(又は、その欠如)及び回転モジュール114のタイプが使用されてもよいことを理解されたい。
図2Cにおいては、回転モジュール114は、回転刻みが付与された回転リングとして表されている。回転刻みが付与された回転リングは、シーンの(回転)ステレオ画像のペアをキャプチャするべく、(
図6C及び
図6Dにおいて示されているように)カメラ118を90度だけ回転させつつ、第一及び第二スリットレンズ202−1、202−2を同一の構成において維持するように使用されてもよい。
【0028】
図1を再度参照すれば、Xスリットカメラ120は、いくつかのコンピュータビジョン用途において使用されてもよい。コンピュータビジョン用途のいくつかの例は、MW再構築モジュール120、回転ステレオマッチングモジュール122、及びコード化アパーチャ撮像モジュール124を含む画像処理モジュール106によって表されている。以下、これら三つのコンピュータビジョン用途について説明する。
図1に示されているコンピュータビジョン用途は、Xスリットカメラ102の例示用のコンピュータビジョン用途を表しており、且つ、Xスリットカメラ102は、その他のコンピュータビジョン用途のために使用されてもよいことを理解されたい。
【0029】
マンハッタンワールド(MW)再構築
マンハッタンワールドシーンは、通常は、デカルト座標に基づいた現実世界のシーンを表現している。MWシーンは、三つの相互に直交する主軸とアライメントされた平坦な表面及び平行なラインから構成されている。MWモデルは、(例えば、都会のシーンなどの)フラットな壁、軸とアライメントされた窓、及び鋭いコーナーなどの強力なジオメトリの規則性を有する多数の人工の(内部/外部)環境に対して良好にフィットする。これまでの研究活動は、画像からのMWシーンの再構築及びカメラの較正のためのMW仮定の使用に合焦されている。MW再構築における課題は、MWシーンは、一般に、反復されたラインパターンを示すが、これらのラインを弁別するためのテクスチャを欠いており、その結果、ステレオマッチングの直接的な適用が困難であるという点にある。
【0030】
単一画像からのMW再構築は困難である。現時点の方式は、シーンのジオメトリを近似するべく、消失点などの単眼キュー及び基準プレーン(例えば、グラウンド)を活用している。いくつかの方式は、画像属性(色やエッジの向きなど)を使用して画像領域に対して異なるジオメトリクラスによってラベル付与し、且つ、この情報を使用して視覚的に満足できる3D再構築を生成している。いくつかの方式は、消失点及びカメラパラメータを取得するべく、画像内においてライン構造を検出している。その他の方式は、機械学習技法を適用して画像の特徴から深さを推定し、且つ、マルコフランダムフィールド(Markov Random Field:MRF)を使用して平坦な領域の場所及び向きを判定している。
【0031】
撮像システムのMW再構築モジュール120は、(Xスリットカメラ102からの)Xスリット画像を使用することにより、単一画像マンハッタンワールド(MW)再構築を実行する。ピンホールに基づいたMW再構築の問題点は、共平面曖昧性である。平行な3Dラインのグループの消失点は、ピンホール撮像によって検出され得るが、いずれのラインが同一のプレーンに属しているのかに関するある程度の曖昧性が存在している。共平面曖昧性は、Xスリットカメラ102を使用してシーンを取得することにより、解決され得る。概念的には、3D平行ラインは、Xスリットカメラ102内において2次元(2D)曲線に対してマッピングされる。これらの2D曲線は、単一の消失点の代わりに、複数の地点において交差することになる(
図3Bに示されている)。ピンホールカメラの場合と同様に、Xスリット画像内の平行ラインの画像は、湾曲しているが、(Xスリット消失点(XSlit Vanishing Point:XVP)と呼称される)消失点において依然として収束することになる。但し、ピンホールカメラとは対照的に、共平面3DラインのXスリット画像は、一般に、第二共通点(共平面共通点(Coplanar Common Point:CCP)と本明細書において呼称される)において交差することになる。CCPは、ピンホールカメラには存在していないXスリットカメラ102の特徴である。MW再構築モジュール102によるMW再構築は、MWシーンを再構築するべく、識別されたXVP及びCCPから3Dラインのジオメトリを直接的に取得している。
【0032】
図3Aを参照すれば、Xスリットカメラ102の光線のジオメトリが示されている。
図3Aにおいては、スリット1及び2は、個々のスリットアパーチャ206−1、206−2に関係しており、且つ、画像プレーンは、
図2Aの撮像センサ108に関係し得る。従来の方式は、3D点から2Dピクセルへの投影を使用してカメラ内の撮像プロセスをモデル化している。後述するように、投影プロセスは、3D点からXスリットカメラ102内において収集される光線へのマッピングと、光線からピクセルへのマッピングと、という二つの成分に分解される。光線をパラメータ化するための2プレーンパラメータ化(2-Plane Parameterization:2PP)が使用されている。2PPにおいては、それぞれの光線(r)は、[u,v,s,t]としてパラメータ化され、ここで、[u,v]及び[s,t]は、それぞれ、z=0及びz=1において位置した二つの平行画像プレーンΠ
uv及びΠ
stとの間における交差である。光線[u,v,s,t]は、ラインの2点表現と見なすことができる。分析を更に簡単にするべく、[u,v,σ、τ]パラメータ化が使用され、ここで、σ=s−uであり、且つ、τ=t−vである。画像プレーンΠ
uvは、[σ,τ,1]が光線の方向として見なされ得るように、既定の画像(センサ)プレーンとして選択される。
【0033】
Xスリットカメラは、3D空間において(斜めに(即ち、平行でもなく共平面でもない方式で)、或いは、直交するように)二つのスリットを同時に通過した光線を収集する。二つのスリットl
1及びl
2が付与された場合に、2PPは、以下のように構築されてもよい。即ち、
図3Aに示されているように、両方のスリットに対して平行であるが、これらを含まないように、Π
uv及びΠ
stが選択される。次に、両方のスリットが、Π
uv上において直交するように投影され、且つ、これらの交差点が座標系の原点として使用される。l
1及びl
2は、方向[d
1x,d
1y,0]及び[d
2x,d
2y,0]を伴って、z=Z
1及びz=Z
2において位置しており、ここで、Z
1≠Z
2であり、且つ、d
1xd
2y−d
1yd
2x≠0であるものと仮定されている。
【0034】
本発明者らは、Xスリットカメラ102内における光線の(XSRCとも呼称される)光線ジオメトリの制約は、次式のとおりであるものと判定した。
【数1】
ここで、A=d
2xd
1yZ
2−d
1xd
2yZ
1であり、B=d
1xd
2x(Z
1−Z
2)であり、D=d
2xd
1yZ
1−d
1xd
2yZ
2であり、C=d
1yd
2y(Z
2−Z
1)であり、E=(d
1xd
2y−d
2xd
1y)Z
1Z
2である。
【0035】
本発明者らは、撮像センサプレーン(Π
uv)に対して平行であると共に撮像センサプレーン(Π
uv)に対しては平行でない3Dラインについて、光線が3Dライン(l)(即ち、3Dシーンに関係付けられた3Dライン)を通過するという制約を判定した。平行線形制約は、次式のとおりである。
【数2】
3Dライン用の非平行ライン制約は、次式のとおりである。
【数3】
【0036】
XSRC(式1)及び3Dライン制約(式2及び式3)を使用して3Dライン(l)のXスリット画像を調査してもよい。具体的には、本発明者らは、3Dラインが2D円錐曲線に対してマッピングされ(
図3Bに示されている)、且つ、円錐曲線は、次式の形態の双曲線であると判定した。
【数4】
この場合に、〜A=Cであり、〜B=(D−A)であり、〜C=−Bであり、〜D=(Av
l−Cu
l−Eτ
l)であり、〜E=(Bv
l−Du
l−Eσ
l)であり、〜F=E(u
lτ
l−v
lσ
l)である(なお、〜Aは、Aの上部に〜を付けたものの代替表現を表す。他も同様である。)。
ここで、〜A、〜B、〜C、〜D、〜E、及び〜Fは、双曲線の係数を表しており、係数A〜Fは、式(1)において示されており、且つ、〜A、〜B、及び〜Cは、Xスリット固有特性である(即ち、これらは、すべての3Dラインについて同一である)。3Dラインは、その双曲線画像から直接的に再構築することはできない。その理由は、3Dラインが四つの未知数(u,v,σ,τ)を有しているからであり、上述の分析を使用することにより、u及びv係数と、式(3)の定数項と、を判定してもよい。同様の曖昧性が、ピンホールカメラにおいても存在している。
【0037】
図3Bを参照すれば、Xスリットカメラ102の場合には、(プレーンΠ上の)共平面ラインLの画像は、画像プレーンΠ
uv上において、Xスリット消失点(XVP)及び共平面消失点(CCP)という二つの共通点において交差することになる。従って、平行ラインLが画像プレーンΠ
uvと平行ではない場合には、画像プレーン上におけるこれらの画像は、消失点XVPを有する。両方のスリット(スリット1及びスリット2)に対して平行ではないプレーンΠ上に位置したラインLの組の場合には、Xスリットカメラ102内におけるこれらの画像は、第二共通点CCPにおいて交差する。CCPは、ピンホールカメラにおいては存在しないXスリットカメラ102における固有の画像特徴である。本発明者らは、共平面平行ラインLの組が付与された場合に、これらのラインがCCPを有する場合には、CCPは、ラインLのXVPと一致しないものと判定した。
【0038】
プレーンΠを取得するべく、Πの法線が判定される。XVP[U
v,V
v]及びXスリット固有パラメータ(A,B,C,D,及びE)が付与された場合に、Lの方向(→l
v=[σ
v,τ
v,1])は、次式のように判定される(なお、→l
vは、l
vの上部に→を付けたものの代替表現を表す。他も同様である。)。
【数5】
【0039】
又、CCP[u
c,v
c]は、プレーンΠ上において位置した光線に対応している。CCPの方向(→l
c=[σ
c,τ
c,1])は、次式のように、式(1)から判定することができる。
【数6】
【0040】
XVP及びCCPが一致しないことから、L及びCCPの方向(即ち、→l
v、→l
c)は、共平面状態にはない。従って、Πの法線は、→n=→l
v×→l
cである。最終的に、CCPは、Π上に位置していることから、Πのオフセットdは、次式のように判定される。
【数7】
ここで、法線は、→n=[n
x,n
y,n
z])である。
【0041】
図3Cを参照すれば、MWシーンの場合には、シーン内の物体は、三つの互いに直行する主軸とアライメントされたプレーン及びラインから構成されるものと仮定される。Xスリットカメラ102によってキャプチャされるMWシーン内において、すべてのCCP302及びXVP304は、三角形の上部に位置しており、ここで、XVP304は、三角形の頂点に対応し、且つ、CCP302−1、302−2、302−3は、三角形のエッジ(又は、エッジの延長)上に位置している。
図3Cは、3Dラインを表す円錐曲線300をも示している。
【0042】
次に、
図4を参照すれば、MW再構築用の例示用の方法が示されている。
図4に示されているステップは、Xスリットカメラ102によってキャプチャされたXスリット画像から、MW再構築モジュール120(
図1)によって実行されてもよい。
図4に示されているステップは、本発明の例示用の実施形態を表している。特定のステップは、示されているものとは異なる順序で実行され得ることを理解されたい。
【0043】
ステップ400において、MWシーンのXスリット画像がキャプチャされている。MWシーンを再構築するべく、Xスリットカメラ102は、スリットアパーチャ206−1、206−2(
図2A)が、(異なるプレーン(例えば、異なる建物の面)のXVP及びCCPを取得するべく)シーン内のプレーン(例えば、建物)の主軸に対して平行にならないように、傾斜させられている。スリットアパーチャ206が、主軸に対して平行である場合には、CCPが存在することにならず、且つ、ライン画像が湾曲することにならない。いくつかの例においては、キャプチャされた画像は、ストレージ108(
図1)内において保存されてもよい。
【0044】
ステップ402において、円錐曲線が、取得されたXスリット画像内のライン画像(例えば、
図3Cのライン画像300)に対してフィッティングされている。ステップ404において、円錐曲線のペアの観点における交差が判定されている。上述のように、ラインの画像は、式4において示されているように、双曲線であり、この場合に、係数A〜Fは、(既定されてもよく、且つ、すべての双曲線について同一である)Xスリットカメラの固有特性によって一意に判定される。曲線フィッティング方式は、曲線上のサンプリングされた点を使用して円錐曲線係数の優決定線形系を形成することにより、適用される。円錐曲線パラメータ〜A−〜Fについて解明するべく、特異値分解(Singular Value Decomposition:SVD)が適用される。例示用の曲線フィッティング方式については、Ding 他(”Recovering Specular Surfaces Using Curved Line Images” CVPR 2009)において記述されている。この方法を要約すれば、円錐曲線パラメータを二次円錐曲線関数に適用することにより、二つの円錐曲線関数によって形成された二次式から識別される交差点を識別し得る。
【0045】
ステップ406において、XVP及びCCPが、ペアの観点における交差点から識別されている。又、XVP及びCCPに加えて、二つのアンパラレルな(即ち、平行ではない)3Dラインに対応したすべての二つの円錐曲線が交差し得る。これらの交差点は、その他の円錐曲線によって共有されないことから、一回しか出現しない交差は、異常値を除去するべく、除去されてもよい。
【0046】
すべてのCCPは、三つのXVPによって判定された三角形のエッジ上において配置される。従って、三つのラインは、交差の残りのものを使用してフィッティングされ、且つ、結果的に得られる三角形の頂点(例えば、
図3Cの点304からのもの)及びエッジ(点302)を使用し、CCP(点302)からXVP(点304)を分離する。
図3Cは、六つのプレーン上の18本のライン300から構成された単純なシーンについて、このプロセスを示している。それぞれのプレーンは、その上部に位置した3本の平行なラインを有し、且つ、すべてのラインの方向は、三つの主軸とアライメントされている。
【0047】
ステップ408において、一つ又は複数のプレーンが、式5〜式7に基づいて、ステップ406において判定されたXVP及びCCPから、再構築されている。単一のXスリット画像からMWシーンを再構築するべく、それぞれのCCPが、(すべてのCCPが、シーン内の固有の3Dプレーンに対応している)プレーンに対してマッピングして戻される。具体的には、それぞれの検出されたCCPごとに、式5及び式6のプレーン式を演算するべく、CCPが、XVP304(三角形の頂点)のうちの一つと組み合わせられる。
【0048】
ステップ410において、Xスリット画像内の曲線セグメントが、3Dラインセグメントに対してマッピングされ、且つ、ステップ408において取得された一つ又は複数のプレーンを切り捨てるべく、使用される。それぞれの曲線セグメントは、円錐曲線に由来したXスリット光線を再構築されたプレーンと交差させることにより、3Dラインセグメントに対してマッピングして戻される。取得されたプレーンを切り捨てるべく、ラインセグメントの終点が使用されてもよい。プレーン式は、無限プレーンを定義している。3Dラインは、再構築されたプレーン上に位置していることから、ラインの長さが、プレーンの広がりを決定する。プレーンは、3Dラインの広がり(或いは、ラインセグメントの終点)を使用することにより、その実際のサイズに切り捨てられてもよい。
【0049】
ステップ142において、シーンの画像を生成するべく、取得されたモデルがレンダリングされてもよい。取得されたモデルは、多視点画像及び/又は遠近投影画像としてレンダリングされてもよい。
【0050】
一時的ではないコンピュータ可読媒体が、ステップ402〜412の機械実行のためのコンピュータ可読命令を保存し得るものと想定される。
【0051】
次に、
図5A〜
図5Dを参照すれば、Xスリットカメラ102及びMW再構築モジュール120(
図1)を使用することにより、例示用の実際のMWシーンが再構築されている。
図5A〜
図5Dに示されている例においては、レンズカメラ(Sony NEX-5N)が使用されており、この場合には、そのレンズが、
図2に示されているように、二つのスリットアパーチャをそれぞれが使用する円筒形レンズのペアによって置換されている。この例においては、一眼レフ(Single Lens Reflex:SLR)カメラではなく、相互交換可能なレンズカメラが変更されており、その理由は、レンズカメラは、相対的に短いフランジ焦点距離(Flange Focal Distance:FFD)を、即ち、センサとレンズマウントとの間の距離を、有するからである。3Dラインが十分に湾曲した状態で出現するためには、ラインは、画像プレーンとの関係において大きな深さ範囲にわたって延在することを要する。従って、物体に対して相対的に近接した状態でカメラを配置するのみならず、大きな視野と相対的に小さな焦点距離とを有するレンズを使用することが望ましいであろう。例示用のXスリットカメラは、25mmの焦点距離を有する(センサに相対的に近接した)ものと、75mmの焦点長を有するもう一つのレンズという二つの円筒形レンズを使用している。Xスリットカメラを較正するべく、5本のラインのパターン及び補助遠近投影カメラを使用してラインの位置及び向きを判定する。次いで、Xスリットの固有性を取得するべく、曲線フィッティングが実施される。
【0052】
図5Aは、例示用のMWシーンを示している。シーンは、二つの異なるプレーン上において位置した平行なラインから構成されており、小さなフィギュアが二つのプレーンの間に配置されている。Xスリットカメラは、その二つのスリットがシーン内のラインに対して平行にならないように、傾斜させられている。
【0053】
図5Bは、遠近投影カメラによってキャプチャされた
図5Aに示されているMWシーンの画像である。遠近投影カメラによって観察された際に、ラインは、ほぼ同一の状態において出現する。ラインは、共通消失点において交差しているが、それらが異なるプレーンに属しているかどうかを弁別するのは困難である。
【0054】
図5Cは、例示用のXスリットカメラによってキャプチャされた
図5Aに示されているMWシーンの画像である。
図5Bとは対照的に、二つのプレーンのラインは、Xスリットカメラ画像内において、異なっている。
図5Cに示されているように、ラインは、異なる曲がりを有しており、従って、観察者は、ラインが同一のプレーンに属していないことを直接的に識別することができる。
【0055】
図5Dは、Xスリット画像(
図5Cに示されているもの)を使用したMW再構築を示す画像である。円錐曲線フィッティング及びCCP/CVP検出方法が、Xスリット画像上のライン画像に対して適用されている(
図4との関係において上述したもの)。この例においては、一つのXVPと二つのCCPとが、識別され、且つ、取得されたXスリット画像上に二つの取得されたプレーンをマッピングして戻すべく、使用されている。
【0056】
要すれば、MW再構築処理(MW再構築モジュール120によるものなど)は、Xスリット撮像(即ち、非ピンホール撮像)を介したMWシーンの再構築を提供する。Xスリット画像内のXスリット消失点(XVP)及び共平面共通点(CCP)を使用して共平面平行ラインをグループ化してもよい。共平面平行ラインのそれぞれのグループは、そのXスリット画像内のXVP及びCCPにおいて交差しており、且つ、そのジオメトリをXVP及びCCPから直接的にリカバーすることができる。
【0057】
回転ステレオマッチング
ステレオマッチングは、コンピュータビジョンにおいて精力的に研究されている問題である。その目的は、生物学的な立体視プロセスと同様に、二つの視点からの相対的な位置の調査による3D情報の抽出にある。現時点の方式は、平行運動する複数の遠近投影カメラを使用している。視差を生成するべく、十分なカメラベースラインを有するように、第二カメラを第一カメラから離れるように平行運動させている。純粋に水平方向の視差を有するように、共通画像プレーン上に投影されることにより、入力画像を更に調整することができる。
【0058】
図1A、
図2C、
図6A、及び
図6Bを参照すれば、Xスリットカメラ102は、回転モジュール114に結合されてもよく、且つ、回転Xスリットステレオ画像ペアをキャプチャするべく、使用されてもよい。キャプチャされた画像ペアを回転ステレオマッチングモジュール122によって使用し、シーンの深さマップを再構築してもよい。従って、Xスリットカメラ102は、それぞれのスリットレンズ202−1、202−2の方向をスイッチングしつつ、(光軸210との関係おいて)撮像センサ208、第一スリットレンズ202−1、及び第二スリットレンズ202−2のうちのそれぞれものの位置を固定することにより、ステレオ画像ペアを形成してもよい(
図6A及び
図6Bを参照されたい)。スリットレンズ202−1、202−2の方向は、(
図6A及び
図6Bに示されているように)レンズ202−1、202−2のそれぞれを回転させることにより、或いは、カメラ118(事実上、回転撮像センサ208)を90度だけ回転させることにより、スイッチングさせてもよい。例えば、回転モジュール114を使用することにより、Xスリットモジュールを固定すると共に、カメラ118をレンズモジュール116との関係において回転させてもよい(
図6C及び
図6Dに示されている)。以下の説明においては、Xスリット1は、スリットレンズ202−1、202−2の第一方向(即ち、回転の前)を意味し、且つ、Xスリット2は、レンズ202−1、202−2の回転(レンズ202の回転を介して直接、又はカメラ118の回転を介して)の後のスリットレンズ202−1、202−2の第二(反対)方向を意味している。
【0059】
従って、Xスリットカメラ102は、カメラの平行運動による代わりに、(スリットの方向をスイッチングしつつ)センサ/スリットの場所を固定することにより、ステレオ画像ペアをキャプチャしてもよい。いくつかの例においては、R−Xスリットペアをキャプチャするべく、Xスリットレンズモジュール116をコモディティカメラ上において取り付けてもよく、且つ、スリットの方向を回転モジュール114を介して変更してもよい。
【0060】
回転Xスリットカメラ102は有利であり、その理由は、スリットのみを回転させることにより、「固定場所」ステレオを実現し得るからであり、且つ、これにより、(遠近投影ステレオ撮像において使用されているように)異なる空間場所において二つのカメラを配置するニーズが除去されるからである。回転Xスリットステレオ画像は、例えば、外科手術シナリオにおいて有用であろう。例えば、3Dにおいて、器官を視覚化するための、即ち、通常は、(適切に機能するために)従来の平行運動ステレオカメラを収容するには十分に大きくはない空間を視覚化するための、侵入型の装置として、単一の回転Xスリットカメラを使用してもよい。
【0061】
図7Aを参照し、回転Xスリット画像ペアのエピポーラジオメトリについて説明する。回転ステレオモデルの場合には、両方のスリットに対して平行であるが、いずれのスリットも含んでいない二つの画像プレーンΠ
uv及びΠ
stが選択される。両方のスリットは、直交するように、Π
uv上において投影され、且つ、交差点が座標系の原点として使用される。[u,v,σ,τ]パラメータ化が使用され、ここで、σ=s−uであり、且つ、τ=t−vである。(u,v)がピクセル座標として直接的に使用されることが可能であり、且つ、(σ,τ,1)が光線の方向として観察され得るように、画像プレーンΠ
uvが既定の画像(センサ)プレーンとして選択される。二つスリットl
1及びl
2が、z=Z
1及びz=Z
2において位置し、且つ、x軸との関係において角度θ
1及びθ
2を有しており、ここで、Z
2>Z
1>0であり、且つ、θ
1≠θ
2であるものと仮定される。従って、それぞれのXスリットカメラ102は、(即ち、回転の前及び後において)、C(Z
1,Z
2,θ
1,θ
2)として表すことができる。C内のそれぞれのピクセル(u,v)は、次式のように、方向(σ,τ,1)を有する光線に対してマッピングされる(付属書Aを参照されたい)。
【数8】
ここで、A=Z
2cosθ
2sinθ
1−Z
1cosθ
1sinθ
2であり、B=(Z
1−Z
2)cosθ
1cosθ
2であり、C=(Z
1−Z
2)sinθ
1sinθ
2であり、D=Z
1cosθ
2sinθ
1−Z
2cosθ
1sinθ
2であり、E=Z
1Z
2sin(θ
2−θ
1)である。回転Xスリットカメラペアは、二つのXスリットカメラとして表されてもよく、ここで、Xスリット1:C(Z
1,Z
2,θ
1,θ
2)であり、且つ、Xスリット2:C’(Z
1,Z
2,θ
2,θ
1)である。換言すれば、スリットのペアは、
図7Aに示されているように、その方向をスイッチングする。
【0062】
エピポーラジオメトリは、ステレオビジョンのジオメトリを意味している。一般に、二つのカメラが3Dシーンを二つの別個の位置から観察した際に、3Dの点と2D画像上へのその投影の間には、画像点間の制約をもたらすいくつかの幾何学的関係が存在している。一般に、プレーン、双曲面、及び双曲線パラボロイドというエピポーラジオメトリの三つの種類が存在している。エピポーラジオメトリが存在している場合には、曲線に由来するすべての光線が→r
0と交差する曲線が、C’(Z
1,Z
2,θ
2,0)内において存在するはずである。
【0063】
本発明者は、回転Xスリットカメラペアは、次式の形態のエピポーラ曲線が両方のXスリットカメラ内において(即ち、Xスリットカメラ102の回転の前及び後において)存在するように、有効なエピポーラジオメトリを形成すると判定した。
【数9】
ここで、Kは、定数である。
【0064】
式9は、遠近投影ステレオとは異なり、回転Xスリットカメラペア内のエピポーララインが、双曲線形態を有することを示している。但し、ステレオ画像ペア内のそれぞれの画像の間における対応性のサーチ空間は、依然として、事実上、1次元(1D)に低減される。
【0065】
図7Bは、台所シーンの一部分のステレオ画像ペアを示している。画像700−1は、第一位置におけるスリットレンズ202−1、202−2を伴うシーンの第一画像である。画像700−2は、(スリットレンズ202−1、202−2を回転させることにより、或いは、カメラ118を回転させることにより)反対位置(即ち、第二位置)にスイッチングされたスリットレンズ202−1、202−2を伴うシーンの第二画像である。エピポーラ曲線702が、それぞれの画像700上において配置されると共にプロットされている。又、個々のエピポーラ曲線702−1、702−2に沿った特徴点の間における対応性も示される。
【0066】
ステレオビジョンにおいては、物体の深さを判定するべく、視差が使用される。通常、画像が比較される、二つの画像を相互の関係において一緒にシフトさせることにより、マッチングした部分を見出す。シフトされた量が視差と呼称される。一般に、視差は、物体の深さによって左右され、物体の深さにおける単調な関数であり、且つ、第二視野において対応するピクセルを配置するべく使用されてもよい。
【0067】
現時点の遠近投影ステレオマッチング方式においては、視差は、水平方向の視差として定義されている。但し、回転Xスリット画像ペアにおいては、エピポーラ曲線が双曲線であることから、対応するピクセルは、垂直方向視差と水平方向視差との両方を有する。回転Xスリット画像ペア視差(d
xs)は、次式のように定義される。
【数10】
従って、C内のピクセル(u
p,v
p)及びC’との関係におけるその視差d
pxsが付与された場合に、対応するC’内のピクセルp’が判定され得る。具体的には、v
’p=v
p・d
pxsが判定されてもよく、且つ、次いで、エピポーラ曲線を使用することにより、u
’p=(cosθ・v
’p)/sinθ+k/(sinθ・v
’p)を判定してもよく、ここで、k=sinθ・u
pv
p−cosθ・v
2pである。
【0068】
遠近投影カメラにおいては、シーン点が二つの投影中心(Center of Projection:CoP)を接続するライン上に位置している際に、即ち、二つのカメラからの光線が同一になる際に、視差の特異点が発生する。式(10)から、回転Xスリット画像ペアは、v=0において特異点を有しており、この場合に、視差は、もはや、演算することができない。実際には、v=0は、エピポーラジオメトリが依然として存在しており、且つ、それがy=0プレーンに対応することを意味している。このケースにおいては、視差は、d
xs=u/u’として再定義され、これは、y=0である際に、v’/vと一貫性を有する。実際の特異点は、x=y=0である際、即ち、光線がz軸とアライメントした際であり、これは、両方のXスリットカメラによって共有される唯一の光線である。
【0069】
回転Xスリット画像ペアから深さを取得するべく、ステレオマッチングをXスリット視差ラベル付与としてモデル化することにより、グラフカットアルゴリズムを使用してもよい。具体的には、視差d
xs(式(10))をM個のラベルに離散化してもよい(ここで、Mは、整数である)。C内のピクセルpに対するラベルd
ixs(i∈[1,M])が付与された場合に、その対応するC’内のピクセルp’=d
ixs(p)は、上述のように判定されてもよい。ラベルd
ixsをC内のピクセルpに割り当てるエネルギー関数Eは、遠近投影ステレオマッチングにおいて使用されるものと同一であり、且つ、次式のように表されてもよい。
【数11】
ここで、Pは、C内のすべてのピクセルの組であり、Nは、ピクセル近傍を表し、且つ、非負の係数αは、データ項E
d(p)=||I(p)−I
’(d
ixs(p))||と滑らかな項E
sをバランスさせている。項I(p)及びI’(p)は、回転Xスリット画像のペアを意味している。
【0070】
視差マップが取得されたら、次式のように、式(10)を反転させることにより、物体の深さzが判定されてもよい。
【数12】
式(11)は、v軸上の且つこれから外れた状態の両方のピクセルに対して適用される。
【0071】
データ項のピクセルの観点における比較は、カメラのアライメント及び画像ノイズの大きな影響を受ける可能性がある。(ピクセルの観点における比較とは対照的に)安定性を改善するべくパッチの類似性を比較することが望ましいであろう。遠近投影ステレオとは異なり、Xスリット画像内の画像パッチは歪んでおり(例えば、せん断されると共に/又は延伸されており)、ここで、歪は、スリットの位置/方向及び物体の深さによって決定される。ステレオマッチングを実行するべく、まず、Xスリットペア内の歪が補正され、且つ、次いで、パッチの類似性が計測される。
【0072】
次に、
図8を参照すれば、回転ステレオマッチング用の例示用の方法が示されている。
図8に示されているステップは、回転モジュール114との組合せにおいて、Xスリットカメラ102によってキャプチャされたXスリット画像のペアから、回転ステレオマッチングモジュール122(
図1)によって実行されてもよい。
図8に示されているステップは、本発明の例示用の一実施形態を表している。特定のステップは、示されているものとは異なる順序で実行されてもよいことを理解されたい。
【0073】
ステップ800において、シーンの第一Xスリット画像が、(
図6A及び
図6Cに示されているように)スリットレンズ202−1、202−2が第一方向において位置決めされた状態において、Xスリットカメラ102によってキャプチャされている。第一Xスリット画像は、ストレージ108内において保存されてもよい。ステップ802において、スリットレンズ202−1、202−2が第一方向とは反対の第二方向において位置決めされるように、カメラ118(
図1)及び/又はスリットレンズ202−1、202−2が、(
図6B及び
図6Dに示されているように)回転モジュール114を介して90度だけ回転させられている。ステップ804において、(ステップ802に応答して)レンズ202が第二方向にある状態において、シーンの第二Xスリット画像がXスリットカメラ102によってキャプチャされている。第二Xスリット画像も、ストレージ108内において保存されてもよい。第一及び第二Xスリット画像は、回転Xスリット画像ペアを表している。
【0074】
ステップ806において、エピポーラ曲線が、例えば、式(9)に基づいて、第一及び第二Xスリット画像のそれぞれの画像内において配置されてもよい。エピポーラ曲線を配置するべく、式(9)が使用されてもよい。kの値(例えば、k=2)を選択することにより、対応する第一及び第二Xスリット画像内においてエピポーラ曲線の組を取得してもよい。
【0075】
ステップ808において、第一及び第二画像のそれぞれがm×nピクセルのパッチに分割されている。一例においては、それぞれのパッチサイズは、5×5ピクセルである。パッチサイズは、深さ値がそれぞれのパッチ内において実質的に一定になるように、十分小さくなるように選択されている。
【0076】
ステップ810において、第一及び第二画像のそれぞれの画像のそれぞれのパッチ内において、歪が補正されている。Xスリット画像内の歪は、せん断及び延伸を含み得ることから、歪補正は、パッチをせん断解消するステップと、次いで、パッチが同一のアスペクト比を有するようにパッチをサイズ変更するステップと、を含む。
【0077】
視差ラベルd
ixsをカメラC内のピクセルに対して割り当てる際には、まず、パッチが、それぞれのXスリット視野内においてせん断行列、
【数13】
によってせん断され、ここで、sは、せん断係数である。Cの場合には、s=(cosθ/sinθ)・((z
i(Z
1−Z
2))/(Z
1(z
i−Z
2)))であり、且つ、C’の場合には、s’=(cosθ/sinθ)・((z
i(Z
2−Z
1))/(Z
2(z
i−Z
1)))であり、ここで、z
iは、d
ixsに対応したシーンの深さである。
【0078】
次に、アスペクト比歪が補正される。深さz
iにおけるシーン点の場合に、そのC内におけるアスペクト比は、(Z
2(z
i−Z
1))/(Z
1(z
i−Z
2))として、且つ、C’内においては、(Z
1(z
i−Z
2))/(Z
2(z
i−Z
1))として、判定されてもよい。式(10)により、アスペクト比は、z
iに対応した視差d
ixsと同一である。従って、d
ixsは、スケーリングファクタとして直接的に使用されてもよい。オリジナルの画像分解能が、Cにおいては、m×nであり、且つ、C’においては、n×mであるものと仮定し、(画像ペアのうちの)第一画像は、d
ixsm×nにサイズ変更され、且つ、(画像ペアのうちの)第二画像は、n×d
ixsmにサイズ変更される。
【0079】
ステップ812において、(ステップ810における歪補正の後の)パッチの類似性が、エピポーラ曲線(ステップ806)に沿って計測されている。従って、パッチ類似性を判定するべく、同一のサイズのパッチが、サイズ変更された結果(ステップ810)から問い合わせられてもよい。このプロセスを加速化するべく、入力画像ペアが、異なる視差ラベルにより、事前スケーリングされてもよい(並びに、ストレージ108(
図1)内において保存されてもよい)。次いで、特定の視差ラベルを有する事前スケーリング済みのパッチが、ストレージ108から取得されてもよく、且つ、パッチの類似性を判定するべく、使用されてもよい。パッチの類似性は、平均化された強度により、計測されてもよい。類似性値は、深さラベルをそれぞれのパッチに割り当てる際に、ペナルティ項を提供する。例えば、二つのパッチが付与された場合に、それらの類似性は、すべての対応するピクセルにわたる平均強度/色差の観点において判定されてもよい。差は、L
1ノルム又はL
2ノルムにおいて計測されてもよい。
【0080】
ステップ814において、類似性尺度を、限定を伴うことなしに、グラフカット、エッジに基づいたもの、粗から微細、適応型ウィンドウ、動的プログラミング、Markovランダムフィールド、及びマルチベースライン技法などの任意の適切なステレオマッチングアルゴリズムに内蔵することにより、深さマップが再構築されている。
【0081】
一時的ではないコンピュータ可読媒体が、ステップ806〜814の機械実行のためのコンピュータ可読命令を保存し得るものと想定される。
【0082】
図9A〜
図9Eを参照し、シーンの例示用の回転ステレオマッチング結果について説明する。R−Xスリットペアは、P(10.0,1.5,105°)であり、ここで、1.0は、撮像センサ208までのスリット202−2の距離を表しており、1.5は、撮像センサ208までのスリットレンズ202−1の距離を表しており、且つ、105°は、スリットレンズ202−1、202−1の間の角度を表している。具体的には、
図9A及び
図9Bは、グラウンドトルスマップ(
図9Aに示されている)を含む入力Xスリット画像のペアであり、
図9Cは、グラフカットを使用したピクセルに基づいたマッチング用の取得された視差マップであり、
図9Dは、歪補正を伴うパッチに基づいたマッチング用の取得された視差マップであり、且つ、
図9Eは、歪補正を伴わないパッチに基づいたマッチング用の取得された視差マップである。
【0083】
画像は、一般的なXスリットカメラモデルにより、POV-Ray光線トレーサ(www.povray.org)を使用して合成される。シーンは、「6,35」という深さ範囲を有する。σ=0.05のガウスノイズが、レンダリングされたXスリット画像に対して追加される。ピクセルに基づいた結果(
図9C)は、滑らかさを欠いており、且つ、画像ノイズを含む。対照的に、歪補正を伴わないパッチに基づいた結果(
図9E)は、大きな誤差を生成する。
【0084】
一例においては、スリットレンズ202−1、202−2(
図6A)は、直交すると共に軸アライメントされるように、位置決めされてもよい。これは、平行直交Xスリット(Parallel Orthogonal Xslit:POXスリット)カメラとも呼称される。スリットレンズ202−1、202−2が、POXスリットカメラを形成するように構成されている際には、エピポーラ曲線は、uv=kとなる。POXスリットカメラの画像は、相対的に少ない歪を伴って、遠近投影カメラに類似した方式で出現し得る。
【0085】
次に、
図10A〜
図10Gを参照すれば、回転ステレオマッチング方式(
図8)が、回転POXスリットカメラ102によって取得されたシーンに対して使用されている。具体的には、
図10Aは、約五つの深さ層から構成された屋内シーン用の実験セットアップを示している。シーンは、回転POXスリット画像ペアを生成するべく、(カメラ102を回転リング114上において90度だけ回転させることにより、最初は、Xスリット1として、且つ、次いで、Xスリット2として)2度にわたってキャプチャされる。二つのXスリット画像は、2448×1376という分解能においてキャプチャされ、且つ、そのオリジナルの分解能の半分にダウンサンプリングされる。撮像センサ208との関係における二つのスリットレンズの位置は、Z
1=38mmであり、且つ、Z
2=66mmである。スリットアパーチャ206−1、206−2は、それぞれ、2mmの幅を有する。
図10B及び
図10Cは、キャプチャされた第一及び第二回転XPOスリット画像を示している。
【0086】
リングの回転は、光軸210(即ち、中心光線)が完全にアライメントされることを保証しない。但し、歪補正済みのパッチに基づいたグラフカットアルゴリズムを適用してPOXスリット画像ペアから視差マップを取得してもよい。これは、わずかにミスアライメントされた視点画像ペアに対するステレオマッチングの実施に類似している。ミスアライメントは、不正確な深さマップをもたらし得るが、取得された視差マップは、依然として、有意なシーン構造を通知することができる。
【0087】
図10D及び
図10Fは、小さなベースライン(1.7)と大きなベースライン(2)とについてPOXスリット画像ペア(
図10B及び
図10C)が付与された場合のステレオマッチング結果を示す画像であり、この場合に、ベースラインは、Z
2/Z
1として定義される。
図10E及び
図10Gは、
図10D及び
図10Fに対応した取得された視差マップである。
【0088】
この例においては、視差ラベルは、パッチに基づいたステレオマッチングが適用された後に、[1.8,2.3]という範囲において20個のレベルに離散化されている。
図10D及び
図10Eにおいては、相対的に小さなXスリットベースライン(1.7)が使用されている。この結果、最大分解可能深さは、相対的に小さく、且つ、深さ誤差は、相対的に大きい。このプロセスは、深さ層1002、1004、及び1006を弁別することができる。但し、このプロセスは、コンピュータグラフィクスの書籍とパターン化されたバックグラウンドを弁別することができない。
【0089】
図10F及び
図10Gを参照すれば、同一のZ
1が固定されている状態において、Z
2を76mmに調節することにより、Xスリットベースラインが2に増大させられている。ベースラインを増大させることにより、最大分解可能深さが増大し、且つ、深さ誤差が低減され得る。
図10Gは、バックグラウンドと書籍が、いまや、二つの層(個々の層1008及び1010)として別個に検出されることを示している。但し、新しいR−POXスリット画像は、相対的に狭い視野を有する。更には、画像は、相対的に強力な歪を有しており、例えば、
図10Fは、
図10Dよりも水平方向において相対的に大きく延伸されている。
【0090】
コード化アパーチャ撮像
演算撮像及び写真撮影における最近の進歩により、従来は困難であったコンピュータビジョンの問題に取り組むための多くの新しい解決策が可能になっている。解決策の顕著な種類の一つが、コード化演算写真撮影である。時間、空間、波長などに伴って光を戦略的に遮断することにより、コード化演算写真撮影は、シーンの再構築を促進すると共に画像品質を保持し得る。例えば、当初は天文学及びX線撮像において開発されたコード化アパーチャ技法が、コモディティカメラにも拡張されている。現時点のカメラにおいては、信頼性の高い逆畳込み及び深さ推定を可能にするべく、コード化パターンにより、非合焦ぼけの周波数特性をシーンの深さと相関させている。
【0091】
現時点のコード化アパーチャシステムは、薄い球面レンズ及び円形アパーチャを装備したコモディティカメラ上において形成されている。球面レンズは、アパーチャが小さい際には、事実上、ピンホール投影をエミュレートし得る。又、このモデルは、アパーチャサイズ及び物体距離の観点における被写界深度の容易な分析をも促進する。コード化アパーチャを実装するべく、望ましいコード化パターンによる円形アパーチャの置換が一般に行われている。
【0092】
図1を参照すれば、撮像システム100は、Xスリットカメラ102からのXスリット画像を使用することにより、コード化アパーチャ撮像モジュール124を介してコード化アパーチャ撮像を実行してもよい。上述のように、幾何学的に、Xスリットレンズカメラ102は、(3D空間内の二つの傾斜した又は直交するスリットを含む)Xスリットレンズモジュール116を同時に通過した光線を収集する。Xスリットレンズモジュール116は、球面レンズよりも、異なると共に潜在的に有利な被写界深度(DoF)を生成する。具体的には、二つのタイプのレンズが類似したスループットを有している際に、Xスリットレンズモジュール116は、相対的に良好なDoFを有する。
【0093】
図13Aを参照すれば、Xスリットカメラ102の各部分の斜視図が示されている。
図13Aは、撮像センサ208との関係における第一及び第二レンズ204−1、204−2の位置を示している。又、
図13Aは、レンズ204−1、204−2を通じた光線(r
i)の変換の一例をも示している。
図13Aは、第一円筒形レンズ204−1を第二円筒形レンズ204−2に対して直交するものとして示しているが、レンズ204−1、204−2は、傾斜した角度において構成されてもよい。従って、円筒形レンズ204の直交構成との関係において後述するコード化アパーチャ撮像プロセスは、傾斜した角度において構成された円筒形レンズ204によって実行されてもよい。
【0094】
図13Aにおいて、第一円筒形レンズ204−1は、撮像センサ208からの距離z=l
1において位置決めされている。第二円筒形レンズ204−2は、撮像センサ208からの距離z=l
2において位置決めされており、ここで、l
1>l
2である。第一円筒形レンズ204−1及び第二円筒形レンズ204−2は、f
1及びf
2という個別の焦点距離を有する。又、第一円筒形レンズ204−1及び第二円筒形レンズ204−2は、(例えば、
図2Aに示されているように)w
1及びw
2という個別の幅を有する個々の矩形形状のアパーチャをも有する。
【0095】
レンズのアパーチャは、非合焦ぼけを導入すると共にDoFを低減し得る。非合焦ぼけは、ぼけカーネルとも呼称される点広がり関数(Point Spread Function:PSF)から判定されてもよい。本発明者らは、(XスリットPSFとも呼称される)Xスリットカメラ102のPSF(ぼけカーネル)は、次式のように表され得るものと判定した。
【数14】
【0096】
図11及び
図11A〜
図11Dには、例示用のPSFが示されている。
図11は、異なる深さにおいてキャプチャされたXスリットPSFを表している。
図11A〜
図11Dは、
図11の左側から右側に向かって取得された
図11に示されている強調表示された各部分を表している。焦点距離50mm及び50mmを有するXスリットカメラ102を使用することにより、(カメラとの関係において15cm〜36cmの範囲の)傾斜した画面上において投影された32×24ドットアレイをキャプチャした。
図11A〜
図11Dに示されているように、XスリットPSFは、深さとの関係において、形状とスケールとの両方において変化している。従って、XスリットPSFは、異方性を有しており、且つ、その形状は、深さによって左右される。
【0097】
Xスリットカメラ102のDoF分析に基づいて、コード化パターン撮像用のコード化アパーチャパターンを判定してもよい。コード化パターンの開発は困難であり、理想的なパターンは、二つの矛盾する特性を、即ち、信頼性の高い逆畳込みと大きな深さ視差を、有することを要し得る。アパーチャコードパターンは、安定した逆畳込みを保証するべく、広帯域であることが望ましい。又、異なる深さ層を弁別するべく、アパーチャコードパターンが多数のゼロ交差を周波数ドメインにおいて含むことが望ましい。Xスリットレンズモジュール116は、広帯域コードを有するスリットアパーチャ206−2’を使用することにより、相対的に小さな寸法を有するスリットレンズ202(
図2A)のうちの一つ(即ち、スリットレンズ202−2)をエンコードし、且つ、大きな深さ視差コードを有するスリットアパーチャ206−1’を使用することにより、もう一つのスリットレンズ(即ち、スリットレンズ202−1)をエンコードする。
【0098】
次に、
図12を参照すれば、コード化アパーチャ撮像用の例示用の方法が示されている。
図12に示されているステップは、コード化アパーチャ206−1’、206−2’(
図2A)を使用することにより、Xスリットカメラ102によってキャプチャされたXスリット画像から、コード化アパーチャ撮像モジュール124(
図1)によって実行されてもよい。
図12に示されているステップは、本発明の例示用の一実施形態を表している。特定のステップは、示されているものとは異なる順序で実行されてもよいことを理解されたい。
【0099】
ステップ1200において、大きな深さ視差コードを有する1Dコード化アパーチャ206−1’が、第一円筒形レンズ204=1(
図2A)に対して適用されている。ステップ1202において、広帯域コードを有する1Dコード化アパーチャ206−2’が、第二円筒形レンズ204−2に対して適用されている。
【0100】
コード化アパーチャを使用した深さの取得について、球面レンズにおいて調査した。基本的な概念は、コード化パターン及び非合焦画像を分析し、シーン深さを取得すると共に全フォーカス画像(all-focus image)を生成するというものである。但し、コードの設計が困難である。深さを弁別するために、アパーチャパターンは、望ましくは、深さの観点においてぼけ画像間において変動を意図的に導入するべく周波数ドメインにおいてゼロ交差を含む。但し、安定した逆畳込みを保証するために、アパーチャパターンは、望ましくは、広帯域であり、即ち、その周波数プロファイルは、ほとんどゼロ交差を有していないことを要する。
【0101】
Xスリットカメラ102のDoF分析から、Xスリットレンズモジュール116は、スループット等価球面レンズ(Throughput Equivalent Spherical Lens:TESL)として、同一の光スループットの下において、相対的に少ない水平方向のぼけと、ほぼ同一の垂直方向のぼけと、を有する。従って、第一円筒形レンズ204−1(即ち、水平方向レンズ)は、大きな視差のカーネルを使用することにより、エンコードされ、且つ、垂直方向の円筒形レンズ204−2は、広帯域カーネルによってエンコードされる。選択されたコード化アパーチャに基づいて、Xスリットレンズモジュール116は、そのTESLと同一の深さ視差を提供し(その理由は、これらが同一の垂直方向ぼけスケールを有するからであり)、もう一つの次元は、相対的に少ないぼけを有し、且つ、相対的に安定した逆畳込みを提供する。コード化方式がスイッチングされた際には(即ち、広帯域パターンを第一円筒形レンズ204−1に適用することにより、且つ、大きな深さ視差のパターンを第二円筒形レンズ204−2に適用することにより)、全フォーカス画像は、相対的に容易に回復され得るが、深さ弁別能力が低減される。
【0102】
次に、それぞれの円筒形レンズ204−1、204−2ごとに適切なコード化パターンを選択する一例について説明する。垂直方向パターンは、K
v(x)であり、且つ、水平方向パターンは、K
h(y)であるものと仮定される。従って、全体ぼけカーネルは、K(x,y)=K
v(x)・K
v(y)であり、ここで、x及びyは、閉形型PSF(式12)によって更に制約されている。それぞれの1Dパターンごとに、一連のランダムにサンプリングされた13ビットコードから一つのコードが選択される。垂直方向コードK
vは、広帯域コードであることから、周波数ドメイン内のその最小振幅値が最大であるコードが選択される。
【0103】
次いで、K
vが固定され、且つ、最適なK
hが判定される。深さiにおけるぼけカーネルは、K
i=K
vi・k
hiであるものと仮定される。深さ視差を改善するべく、異なる深さにおいて、即ち、K
i及びK
j(i≠j)において、カーネルによって生成されるぼけ画像分布の間の距離を極大化することが望ましい。一般的に使用されている Kullback-Leibler(KL)発散を使用することにより、次式のように、二つのぼけ画像分布の間の距離を計測する。
【数15】
ここで、P
i及びP
jは、それぞれ、K
i及びK
jにおけるぼけ画像分布であり、且つ、P
i及びP
jを演算するべく、自然画像のハイパーラプラス分布が使用される。
【0104】
一例においては、「1010010011111」が、垂直方向コードとして選択され、且つ、「110011110011」が、水平方向コードとして選択されている。
図13Bには、これらの二つの選択されたコードのパワースペクトルが示されている。
図13Bにおいては、曲線1302は、大きな深さ視差コードのパワースペクトルであり、且つ、曲線1304は、広帯域コードのパワースペクトルである。
【0105】
ステップ1204において、ステップ1200及び1202において適用されたコード化アパーチャ206−1’、206−2’を使用することにより、シーンのXスリット画像がXスリットカメラ102によってキャプチャされている。いくつかの例においては、キャプチャされた画像は、ストレージ108(
図1)内において保存されてもよい。
【0106】
ステップ1206において、個々の複数の深さ層に対応した複数のPSFが生成されている。深さを推定するべく、コード化パターン及び閉形型PSF(式12)を使用することにより、それぞれの深さ層ごとに、対応するPSFが予め算出されてもよい。
【0107】
ステップ1208において、最適形状画像(最小限のリンギングを有するもの)を結果的にもたらす予め算出されたPSFの一つが、複数のPSFのうちから選択される。具体的には、キャプチャされたXスリット画像と異なる深さ層の予め算出されたPSFの間において、逆畳込みが実行される。PSFスケールが実際のスケールを上回っている際に、結果は、強力なリンギングアーチファクトを有することになる。スケールが実際のスケールを下回っている際には、画像は、相対的に乏しい鋭さを伴って出現し得るが、リンギングを有してはない。
【0108】
Gabor フィルタを使用することにより、逆畳込みされた画像内においてリンギングを検出してもよく、この場合に、応答の増大は、相対的に深刻なリンギングに対応している。Gabor フィルタは、正弦波平面波によって変調されたガウスカーネル関数であり、且つ、次式のように記述することができる。
【数16】
ここで、x’=xcosθ−ysinθであり、y’=xsinθ−ycosθであり、λは、波長(空間周波数の逆数)であり、θは、フィルタの向きであり、γは、アスペクト比であり、且つ、σは、ガウス分布の標準偏差である。
【0109】
一例においては、θ=0°及び90°を有する Gabor フィルタがリンギング検出のために使用されている。Gabor フィルタG
θの応答R
θは、次式のとおりに定義される。
【数17】
ここで、I(x,y)は、Xスリット画像を表している。
【0110】
それぞれの逆畳込みされた画像に関する水平方向及び/垂直方向の Gabor 応答が合計され、且つ、最小の値を有する応答が、最適な深さに対応している。シーンは、N個の深さ層に離散化されてもよく、且つ、割り当てられた深さラベルについて、グラフカットアルゴリズムが再使用されてもよい。Gabor 応答は、グラフを構築するためのペナルティ項として使用される。従って、ピクセルpに深さラベルd
iを割り当てるエネルギー関数Eは、次式のように記述される。
【数18】
ここで、Pは、画像内のすべてのピクセルを表しており、Nは、ピクセル近傍を表しており、E
d(p,d
i(p))は、データ項としての Gabor 応答であり、E
sは、滑らかな項であり、且つ、非負の係数αは、データ項E
dと滑らかな項E
sをバランスさせている。
【0111】
ステップ1210において、シーンの深さが、選択されたPSF(ステップ1208)に基づいて再構築され得る。一例においては、全フォーカス画像をリカバーするべく、ぼけカーネルは、1Dシーン情報しか含んでいないことから、自然画像プライア(natural image prior)と共に、改良型 Wiener 逆畳込みが再使用されている。この技法は、多数のゼロ交差を有するカーネルを処理し得る反復再重み付け最小二乗(Iteratively Reweighted Least Square:IRLS)逆畳込みよりも高速であり得る。ぼけカーネル(PSF)が判明している(且つ、深さの関数である)ことから、カーネルサイズが判定されたら、深さが、ぼけカーネルサイズから判定され得る。
【0112】
一時的ではないコンピュータ可読媒体が、ステップ1206〜1210の機械実行のためのコンピュータ可読命令を保存し得るものと想定される。
【0114】
図14Dは、20cm、40cm、及び80cmにおいて三つの深さ層を有する単純なシーンを表している。Xスリットレンズモジュール116は、16cm及び24cmにおいて合焦するように構成されている。TESLの焦点面は、Xスリットの前部焦点面と一致している。TESLの場合には、大きな深さ視差を有すると予想されるコード化パターンが使用される。Xスリットレンズモジュール116の場合には、大きな深さ視差及び広帯帯域のコードが使用される。
【0115】
図14A〜
図14Oは、二つのレンズを使用して取得された深さマップ及び全焦点画像を示している。画像の逆畳込みのために、IRLS(第一列)及び Wiener フィルタ(その他の二つの列)が適用されている。選択されたコードを使用したTESLに関するコード化アパーチャの結果は、高品質の深さマップを生成するが、取得された全焦点画像は、周波数ドメイン内のゼロ交差に起因し、閉塞境界の近傍においてリングアーチファクトを有する。コード化アパーチャを有するXスリットレンズモジュール116は、相対的に小さな水平方向のPSFに起因し、リンギングアーチファクトを低減することができる。Xスリットコード化方式及びその取得された深さマップは、TESLのものに匹敵している。
【0116】
以上、画像をキャプチャ及び処理する方法及びシステムの観点において、本発明について説明したが、一つ又は複数のステップ及び/又はコンポーネントは、マイクロプロセッサ/汎用コンピュータ(図示されてはいない)と共に使用されるソフトウェアにおいて実装され得るものと想定される。この実施形態においては、上述の様々なコンポーネント及び/又はステップの機能のうちの一つ又は複数は、コンピュータを制御するソフトウェアにおいて実装されてもよい。ソフトウェアは、コンピュータによる実行のために、(非限定的な例として、磁気ディスク、光ディスク、ハードドライブなどのような)一時的ではない有体のコンピュータ可読媒体において実施されてもよい。本明細書において記述されているように、
図1に示されている装置104、106、110、及び112は、専用の回路を使用することにより、且つ/又は、コントローラ104に結合されたコンピュータ可読媒体108内に収容されたソフトウェアを使用することにより、特定の動作を実行してもよい。ソフトウェア命令は、コントローラ104及び/又は画像処理モジュール106に、本明細書において記述されている一つ又は複数のプロセスを実行させてもよい。或いは、この代わりに、配線によって接続された回路が、本明細書において記述されているプロセスを実装するべく、ソフトウェア命令の代わりに、或いは、これとの組合せにおいて、使用されてもよい。従って、本明細書において記述されている実装形態は、ハードウェア回路とソフトウェアのいずれかの特定の組合せに限定されるものではない。
【0117】
本発明は、本明細書においては、特定の実施形態を参照して図示及び記述されているが、本発明は、図示の詳細に限定されることを意図したものではない。むしろ、請求項の均等物の範囲及び領域内において、且つ、本発明を逸脱することなしに、様々な変更が細部において実施されてもよい。