(58)【調査した分野】(Int.Cl.,DB名)
固有パラメータを有するカメラを用いてキャプチャされる多視点画像内に配置されるべき合成物体のためのアンカー位置の選択を受信するステップであって、前記アンカー位置は、参照画像と関連付けられる参照ビューから1つの点として選択され、前記参照ビューは、前記多視点画像の1つの視点に対応する、前記受信するステップと、
前記多視点画像に関連する視覚追跡情報、前記多視点画像に対応するデバイス向き、および、前記カメラの固有パラメータの推定値を使用して、参照画像と目標画像との間の動きを計算するステップであって、前記カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む、前記計算するステップと、
前記目標画像と関連付けられる目標ビューに対応する第1の合成画像を生成するステップであって、前記第1の合成画像は、前記多視点画像内の前記アンカー位置に関連する視覚追跡情報を使用して前記合成物体を前記アンカー位置に配置し、前記参照画像と前記目標画像との間で計算された前記動きの逆数を使用して、前記合成物体を方向付け、前記合成物体を、半直線に沿って前記目標ビューに投影することによって、生成される、前記生成するステップであって、前記アンカー位置は前記参照画像の面に垂直な深度とともに参照画像に指定される二次元座標に対応する三次元座標を含み、前記深度は三角測量され、前記第1の合成画像を生成するステップは前記多視点画像のスケール変化に基づいて三角測量された前記深度をスケーリングするステップを含む、前記生成するステップと、
前記目標ビューから拡張画像を生成するために、前記目標画像上に前記第1の合成画像を重ね合わせるステップと、
を含む、方法。
前記合成物体のアニメーションは、前記多視点画像の観察中に経過する時間に基づいており、前記アニメーションは、前記多視点画像を通じたナビゲーションとは無関係である、請求項4に記載の方法。
固有パラメータを有するカメラを用いてキャプチャされる多視点画像内に配置されるべき合成物体のためのアンカー位置の選択を受信するためのコンピュータコードであって、前記アンカー位置は、参照画像と関連付けられる参照ビュー内の1つの点として選択され、前記参照ビューは、前記多視点画像の1つの視点に対応する、受信するためのコンピュータコードと、
前記多視点画像に関連する視覚追跡情報、前記多視点画像に対応するデバイス向き、および、前記カメラの固有パラメータの推定値を使用して、参照画像と目標画像との間の動きを計算するためのコンピュータコードであって、前記カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む、計算するためのコンピュータコードと、
前記目標画像と関連付けられる目標ビューに対応する第1の合成画像を生成するためのコンピュータコードであって、前記第1の合成画像は、前記多視点画像内の前記アンカー位置に関連する視覚追跡情報を使用して前記合成物体を前記アンカー位置に配置し、前記参照画像と前記目標画像との間で計算された前記動きの逆数を使用して、前記合成物体を方向付け、前記合成物体を、半直線に沿って前記目標ビューに投影することによって、生成される、生成するためのコンピュータコードであって、前記アンカー位置は前記参照画像の面に垂直な深度とともに参照画像に指定される二次元座標に対応する三次元座標を含み、前記深度は三角測量され、前記第1の合成画像を生成するためのコンピュータコードは前記多視点画像のスケール変化に基づいて三角測量された前記深度をスケーリングすることを含む、生成するためのコンピュータコードと、
前記目標ビューから拡張画像を生成するために、前記目標画像上に前記第1の合成画像を重ね合わせるためのコンピュータコードと、
からなるコンピュータプログラムが記録されたコンピュータ可読媒体。
前記合成物体のアニメーションは、前記多視点画像の観察中に経過する時間に基づいており、前記アニメーションは、前記多視点画像を通じたナビゲーションとは無関係である、請求項14に記載のコンピュータ可読媒体。
固有パラメータを有するカメラを用いてキャプチャされる多視点画像内に配置されるべき合成物体のためのアンカー位置の選択を受信するための手段であって、前記アンカー位置は、参照画像と関連付けられる参照ビュー内の1つの点として選択され、前記参照ビューは、前記多視点画像の1つの視点に対応する、前記受信するための手段と、
前記多視点画像に関連する視覚追跡情報、前記多視点画像に対応するデバイスの向き、および、前記カメラの固有パラメータの推定値を使用して、前記参照画像と目標画像との間の動きを計算するための手段であって、前記カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む、前記計算するための手段と、
前記目標画像と関連付けられる目標ビューに対応する第1の合成画像を生成するための手段であって、前記第1の合成画像は、前記多視点画像内の前記アンカー位置に関連する視覚追跡情報を使用して前記合成物体を前記アンカー位置に配置し、前記参照画像と前記目標画像との間で計算された前記動きの逆数を使用して、前記合成物体を方向付け、前記合成物体を、半直線に沿って前記目標ビューに投影することによって、生成される、前記生成するための手段であって、前記アンカー位置は前記参照画像の面に垂直な深度とともに参照画像に指定される二次元座標に対応する三次元座標を含み、前記深度は三角測量され、前記第1の合成画像を生成するための手段は前記多視点画像のスケール変化に基づいて三角測量された前記深度をスケーリングする手段を含む、前記生成するための手段と、
前記目標ビューから拡張画像を生成するために、前記目標画像上に前記第1の合成画像を重ね合わせるための手段と、
を備える、装置。
【発明を実施するための形態】
【0011】
ここで、本開示を実施するために本発明者らが意図する最良の形態を含む、本開示のいくつかの特定の実施例を詳細に参照する。これらの特定の実施形態の例は、添付の図面に示されている。本開示は、これらの特定の実施形態に関連して記載されているが、本開示を記載された実施形態に限定することを意図するものではないことが理解される。それどころか、添付の特許請求の範囲によって規定される本開示の精神および範囲内に含まれ得る代替物、改変物、および等価物を包含することが意図される。
【0012】
以下の説明では、本発明の完全な理解を提供するために、多数の具体的な詳細を説明する。本発明の特定の例示的な実施形態は、これらの特定の詳細のいくつかまたはすべてを用いずに実施することができる。他の事例では、本発明を不必要に不明瞭にしないために、周知のプロセス動作については詳細には説明していない。
【0013】
本発明の様々な技法および機構は、明瞭化のために、単数形で記載されることがある。しかし、いくつかの実施形態は、別段の記載がない限り、技法の複数回の反復または機構の複数のインスタンス化を含むことに留意すべきである。例えば、システムは様々な状況でプロセッサを使用する。しかしながら、特に断らない限り、本発明の範囲内にとどまりながら、システムが複数のプロセッサを使用することができることは理解されよう。さらに、本発明の技法および機構は、2つのエンティティ間の接続を記述することがある。2つのエンティティ間の接続は、2つのエンティティ間に様々な他のエンティティが存在する可能性があるため、必ずしも直接的で妨げられない接続を意味するとは限らないことに留意されたい。例えば、プロセッサがメモリに接続されてもよいが、プロセッサとメモリとの間に様々なブリッジおよびコントローラが存在し得ることが理解されるであろう。したがって、接続は、別段の記載がない限り、直接的な妨げられない接続を意味するとは限らない。
【0014】
拡張現実は、典型的には、画像、テキスト、ビデオ、グラフィックスなどのコンピュータ生成された入力によって拡張されるビデオおよび/または画像データなどによる実世界環境のビューを含む。ビデオおよび画像データに三次元(3D)情報を追加する現在の方法は、一般に、シーンの3D再構成を作成することを含み、これは計算的に費用がかかり、通常は静的シーンに限定される。
【0015】
したがって、本開示で説明される様々な機構およびプロセスは、画像、テキスト、物体、グラフィックなどの三次元(3D)タグ(本明細書では合成物体とも呼ばれる)を、実世界環境の複数のビューを含む多視点画像に追加することによって拡張現実を実装することに関する。特定の例では、三次元タグは、多視点画像内の物体または風景が回転または他の様態で動くと、三次元タグも、あたかもそれが物体または風景とともに物理的に存在しているかのように動くように、多視点画像とともに「動く」。三次元タグの特定のビューは合成画像と呼ばれ、これは、拡張現実を有する画像を生成するために特定のビューに関連付けられた画像に合成画像を重ね合わせることによって多視点画像の特定のビューに追加することができる。
【0016】
本明細書に記載された機構およびプロセスは、多数の利益をもたらす。具体的には、提示されている技法は、拡張されるべきシーンの計算的に費用がかかる三次元再構成を回避する。代わりに、合成物体(3Dタグとも呼ばれる)を非常に効率的に計算し、多視点画像に追加して、多視点画像の拡張現実バージョンを作成することができる。特に、様々な実施形態は、慣性測定ユニット(IMU)によって提供される回転情報を利用して、追加されている三次元物体の向きを推定する。様々な実施形態によれば、IMUは、ジャイロスコープ、加速度計、および磁力計の何らかの組み合わせから得ることができる。特定の実施形態では、IMUは、相対的なデバイス向きの変化を測定することができるデバイスまたはデバイスの組み合わせから得られる。このIMUによって提供される情報は、3Dタグの向きについての詳細な情報しか提供せず、3D位置の詳細については提供しないので、3Dタグを3D空間内の基準位置に固定するために画像データ内のアンカー位置が追跡される。いくつかの例では、xおよびy方向の追跡を使用して3D位置の2自由度を推定することができ、多視点画像データセットの異なる視点間のスケール変化を推定することによって、および/または、関心点の2D位置を追跡しながらスケール変化をも推定することによって、第3の自由度を推定することができるときは、2D画像空間における追跡で十分である。
【0017】
本明細書に記載された機構およびプロセスの別の利点は、たとえ3Dタグが比較的小さな移動物体に取り付けられていても、非静的シーンとともに使用できることである。提示された方法が機能するためには単一点を追跡することだけが必要であるため、この方法は3Dシーン再構成に一般的に問題となる高度に動的なシーンでも機能する。特に、3Dシーン再構成法を使用すると、非常に動的なシーンにおいて3D仮想物体が不正確に拡張される可能性がある。しかし、本明細書の様々な例に記載された機構およびプロセスを使用すると、シーン内の小さな移動物体(全体的に高度に動的なシーンを含む)に正しく取り付けられた3D仮想物体(3Dタグまたは合成物体とも呼ばれる)は、3D仮想物体を使用して正しく拡張されたシーンを生成する傾向にある。
【0018】
様々な実施形態によれば、本明細書で言及する多視点画像は、物体、風景などを含むことができる実世界環境の複数のビューを含む。いくつかの例では、多視点画像は、その全体が本明細書において、またあらゆる目的のために参照により本明細書に組み込まれる、「Analysis and Manipulation of Images and Video for Generation of Surround Views」と題する2014年10月31日に出願されたHolzerらによる米国特許出願第14530669号(代理人整理番号FYSNP001)に関連して記載されているように、サラウンドビューであり得る。
【0019】
様々な実施形態によれば、サラウンドビューは、異なる位置からキャプチャされた複数の画像から構築される。コンピュータプロセッサは、サラウンドビューのコンテンツおよびコンテキストを含む三次元モデルを作成するために使用される。いくつかの例では、サラウンドビューのコンテンツおよびサラウンドビューのコンテキストの各々について別々の三次元モデルを提供できるように、コンテンツおよびコンテキストをセグメント化することができる。
【0020】
特定の実施形態では、サラウンドビューは、多視点インタラクティブデジタル媒体表現である。様々なシステムおよび方法を使用して、データの冗長性を排除し、インタラクティブで没入感のあるアクティブな視聴体験をユーザに提供する単一の表現、サラウンドビューを作成する目的で、位置情報データとともに複数のカメラ画像とビデオストリームとの間の空間的関係を分析することができる。いくつかの例では、アクティブとは、スクリーン上に表示される視覚情報の視点を制御する能力をユーザに提供するという文脈で説明される。
【0021】
本開示の様々な実施形態は、慣性測定ユニット(IMU)を有する装置によって多視点画像データセットとしてキャプチャされるシーンに、テキストまたは物体などの合成物体を配置するために使用される機構およびプロセスを説明する。いくつかの例では、多視点画像データセットは、異なる角度からのシーンを示す。例えば、多視点画像データセットは、カメラをそれ自体の中心の周りで回転させながら(パノラマの事例)、カメラを1つまたは複数の関心物体の周りで回転させながら(物体の事例)、カメラを平行移動させながら、またはこれらの動きを組み合わせながら、キャプチャすることができる。IMUは、画像をキャプチャしている間、デバイスの向きに関する情報を提供する。
【0022】
図1〜
図3は、合成物体で拡張された多視点画像の例を示す。特に、
図1A〜
図1Bおよび
図2A〜
図2Bは各々、物体中心の多視点画像の複数の異なるビューおよび多視点画像内に配置された合成物体の対応するビューを示す。さらに、
図3A〜
図3Bは、多視点画像内のコンテンツに対する並進運動と、多視点画像内に配置された合成物体の対応するビューとを含む多視点画像の複数の異なるビューを示す。
【0023】
図1A〜
図1Bを参照すると、合成物体で拡張された物体中心の多視点画像の一例が示されている。具体的には、
図1Aは、合成物体の第1のビューを有する参照画像の一例を示す。様々な実施形態によれば、参照画像101は、多視点画像に配置されるべき合成物体に対してアンカー位置109が選択される多視点画像内のビュー(すなわち、参照ビュー)を指す。
図1Bは、合成物体の第2のビューを有する目標画像の一例を示す。様々な実施形態によれば、目標画像103は、合成画像が生成される多視点画像内のビュー(すなわち、目標ビュー)を参照する。次に、この合成画像を目標画像に重ね合わせて、目標画像の拡張現実版を生成する。様々な目標ビューの合成画像を生成し、対応する目標画像上にこれらの合成画像を重ね合わせることにより、多視点画像の拡張現実版を生成することができる。
【0024】
本例では、
図1Aは、多視点画像の参照ビューからの参照画像101を示す。示されている像などの物体は、105において参照ビューからの画像として観察される。この参照ビューでは、アンカー位置109が選択される。特定の例では、合成物体が多視点画像のアンカー位置109に付着され、このアンカー位置109に対して位置決めされる。この位置は、多視点画像の拡張現実版における所望の効果に応じて、静止していても移動していてもよい。いくつかの例では、アンカー位置109は、多視点画像内の3D空間内の固定位置にとどまる。しかしながら、参照ビューにおけるアンカー位置109は、他の例においては初期配置位置に対応してもよい。いくつかの事例では、合成物体はアンカー位置109に配置され、他の事例では、合成物体はアンカー位置109からある距離に配置される。本例では、合成物体は、アンカー位置109からある距離に配置される。いくつかの例では、合成物体はアンカー位置109に対して固定位置にとどまることができるが、他の例ではアンカー位置109に対して移動することができる。本例に示すように、合成物体は、111において参照ビュー内の合成画像として示されている。
【0025】
本例では、
図1Bは、多視点画像の目標ビューからの目標画像103を示す。
図1Aに示す同じ像である物体は、107において目標ビューからの画像として示されている。この目標ビューから、アンカー位置109が示され、このビューに従って合成物体および方向軸が回転される。図示するように、方向軸は像に対して固定されたままである。さらに、合成物体は、113において目標ビューの合成画像として示されている。本例では、合成物体は、アンカー位置109に対して固定位置にとどまるように見える。上述したように、多視点画像の拡張現実版を生成するために、様々な目標ビューに対して合成画像を生成することができる。本例では、多視点画像データセットに含まれる様々な視点は、異なる角度からシーンを示し、そのため、多視点画像の拡張ビューはまた、異なる角度からの、そのアンカー位置に対してシーン内の固定された3D位置にとどまるように見えるように位置決めされた合成物体を示す。
【0026】
図2A〜
図2Bを参照すると、合成物体で拡張された物体中心の多視点画像の別の例が示されている。具体的には、
図2Aは、合成物体の第1のビューを有する参照画像201の一例を示す。様々な実施形態によれば、参照画像201は、多視点画像に配置されるべき合成物体に対してアンカー位置209が選択される多視点画像内のビュー(すなわち、参照ビュー)を指す。
図2Bは、合成物体の第2のビューを有する目標画像203の一例を示す。様々な実施形態によれば、目標画像203は、合成画像が生成される多視点画像内のビュー(すなわち、目標ビュー)を参照する。次に、この合成画像を目標画像に重ね合わせて、目標画像の拡張現実版を生成する。様々な目標ビューの合成画像を生成し、対応する目標画像上にこれらの合成画像を重ね合わせることにより、多視点画像の拡張現実版を生成することができる。
【0027】
本例では、
図2Aは、多視点画像の参照ビューからの参照画像201を示す。示されている甲冑一式などの物体は、205において参照ビューからの画像として観察される。この参照ビューでは、アンカー位置209が選択される。特定の例では、合成物体が多視点画像のアンカー位置209に付着され、このアンカー位置209に対して位置決めされる。この位置は、多視点画像の拡張現実版における所望の効果に応じて、静止していても移動していてもよい。いくつかの例では、アンカー位置209は、多視点画像内の3D空間内の固定位置にとどまる。しかしながら、参照ビューにおけるアンカー位置209は、他の例においては初期配置位置に対応してもよい。いくつかの例では、合成物体は、本例のように、アンカー位置209に配置される。他の例では、合成物体は、アンカー位置209からある距離に位置する。いくつかの例では、合成物体はアンカー位置209に対して固定位置にとどまることができるが、他の例ではアンカー位置209に対して移動することができる。本例に示すように、合成物体は、211において参照ビュー内の合成画像として示されている。
【0028】
本例では、
図2Bは、多視点画像の目標ビューからの目標画像203を示す。
図2Aに示す同じ甲冑一式である物体は、207において目標ビューからの画像として示されている。この目標ビューから、アンカー位置209が示され、このビューに従って合成物体および方向軸が回転される。示されているように、方向軸は甲冑一式に対して相対的に移動し、合成物体は軸の位置に追従する。本例では、合成物体は、アンカー位置209に対して固定位置にとどまるように見える。さらに、合成物体は、213において目標ビューの合成画像として示されている。上述したように、多視点画像の拡張現実版を生成するために、様々な目標ビューに対して合成画像を生成することができる。本例では、多視点画像データセットに含まれる様々な視点は、異なる角度からシーンを示し、それによって、多視点画像の拡張ビューはまた、異なる角度からの、そのアンカー位置に対して固定された3D位置にとどまるように見えるように位置決めされた合成物体を示す。
【0029】
図3A〜
図3Bを参照すると、合成物体によって拡張されている多視点画像の2つのビューが示されており、多視点画像は、多視点画像内のコンテンツに対する並進運動を含む。特に、
図3Aは、合成物体の第1のビューを有する参照画像の一例を示す。上述したように、参照画像301は、多視点画像に配置されるべき合成物体に対してアンカー位置309が選択される多視点画像内のビュー(すなわち、参照ビュー)を指す。
図3Bは、合成物体の第2のビューを有する目標画像の一例を示す。また、上述したように、目標画像303は、合成画像が生成される多視点画像内のビュー(すなわち、目標ビュー)を参照する。次に、この合成画像を目標画像に重ね合わせて、目標画像の拡張現実版を生成する。様々な目標ビューの合成画像を生成し、対応する目標画像上にこれらの合成画像を重ね合わせることにより、多視点画像の拡張現実版を生成することができる。
【0030】
本例では、
図3Aは、多視点画像の参照ビューからの参照画像301を示す。示されている橋などの物体は、305において参照ビューからの画像として観察される。この参照ビューでは、アンカー位置309が選択される。特定の例では、合成物体が多視点画像のアンカー位置309に付着され、このアンカー位置309に対して位置決めされる。この位置は、多視点画像の拡張現実版における所望の効果に応じて、静止していても移動していてもよい。いくつかの例では、アンカー位置309は、多視点画像内の3D空間内の固定位置にとどまる。しかしながら、参照ビューにおけるアンカー位置309は、他の例においては初期配置位置に対応してもよい。いくつかの事例では、合成物体はアンカー位置309に配置され、他の事例では、合成物体はアンカー位置309からある距離に配置される。本例では、合成物体は、アンカー位置309に配置される。いくつかの例では、合成物体はアンカー位置309に対して固定位置にとどまることができるが、他の例ではアンカー位置309に対して移動することができる。本例に示すように、合成物体は、311において参照ビュー内の合成画像として示されている。
【0031】
本例では、
図3Bは、多視点画像の目標ビューからの目標画像303を示す。
図3Aに示す同じ橋である物体は、307において目標ビューからの画像として示されている。この目標ビューから、アンカー位置309が示され、このビューに従って合成物体および方向軸が回転される。示されているように、方向軸は橋に対して相対的に移動し、合成物体は軸の位置に追従する。本例では、合成物体は、アンカー位置309に対して固定位置にとどまるように見える。合成物体は、313において目標ビューの合成画像として示されている。上述したように、多視点画像の拡張現実版を生成するために、様々な目標ビューに対して合成画像を生成することができる。本例では、多視点画像データセットに含まれる様々な視点は、異なる角度からシーンを示し、それによって、多視点画像の拡張ビューはまた、異なる角度および位置からの合成物体をも示す。
【0032】
図1〜
図3に関して説明された例は、本質的に静止しているかまたは静的である合成物体を含む。しかし、合成物体(すなわち、三次元タグ)は、いくつかの実施形態では静止物体を含むことができるが、他の実施形態ではアニメーション物体を含むこともできる。合成物体のアニメーション化されたバージョンは、様々な形をとることができる。一例では、合成物体のアニメーションは、シーンを通じたユーザのナビゲーションとは無関係である。具体的には、合成物体のアニメーションは、ユーザがそれを見る間に経過する時間量に基づいている。したがって、ユーザが同じビューに長時間とどまる場合、アニメーションは続行される。別の例では、合成物体のアニメーションは、ユーザが多視点画像を通じてナビゲートするときなど、ナビゲーションに依存する。特に、合成物体のアニメーションは、アニメーションがカメラの空間的な動きに依存するように、ナビゲーションが存在するときに進行する。具体的には、合成物体のアニメーションは、1)ナビゲーションの方向に関係なく、または2)ナビゲーションが1つの方向にある場合に前方に進行し、ナビゲーションが他の方向にある場合は後方に進行する。さらに別の例では、合成物体のアニメーションは、データが記録されている間に経過した時間に対して合成物体のアニメーションが進行するように、記録時間に依存する。様々な実施形態によれば、シーンにレンダリングされる合成物体は、ビデオによって表現することができる。このビデオには、いくつかの例でアニメーション画像を含めることができる。
【0033】
特定の実施形態では、合成物体で拡張されるべき多視点画像は、動的な態様自体を含むことができる。例えば、多視点画像は、動く物体またはアニメーション物体などの動的コンテンツを含むことができる。加えて、多視点画像は、動く背景要素またはアニメーション背景要素などの動的コンテンツを含むことができる。様々な例では、動的コンテキストはアニメーションまたはビデオを含むこともできる。さらに、いくつかの多視点画像は、動的コンテンツおよびコンテキストの両方を含むことができる。多視点画像内の動的コンテンツまたはコンテキストの量にかかわらず、付加的な処理またはリソースを必要とすることなく、本開示の様々な例に記載されたプロセスに従って合成物体を多視点画像に追加することができる。
【0034】
図4を参照すると、IMUおよび画像データを使用した1つまたは複数の合成物体を含む多視点画像データの拡張のためのプロセスの一例を示す図である。特に、このプロセスは、アニメーション物体(複数可)または画像データを含むタグ、テキスト、物体、ビデオ、グラフィックス、または他の画像データなどの合成物体で多視点画像データセットを拡張することを含み、それによって、合成物体は、多視点画像のシーン内に位置決めされているように見え、画像シーケンスと同じように変形する。したがって、この方法は、合成物体がシーン内に物理的に存在するという錯覚を与える拡張多視点画像を生成する。
【0035】
様々な実施形態によれば、プロセス400は、多視点画像から、402における参照画像の選択によって開始する。様々な例では、多視点画像は、固有パラメータを有するカメラによってキャプチャされる。さらに、様々な例に記載されるように、参照画像は、多視点画像の1つのビューに対応する。この参照画像は、合成物体のためのアンカー位置が指定されるビューとして選択される。いくつかの例では、この参照画像/ビューはユーザによって選択され、この選択は、多視点画像の拡張現実版を生成するコンピュータシステムにおいて受信される。他の例では、参照画像は、多視点画像の拡張現実版を生成するためにコンピュータシステムによって選択されてもよい。
【0036】
次に、本例では、404においてアンカー位置が受信される。様々な実施形態によれば、ユーザは、合成物体が多視点画像内に配置される位置として、参照画像からアンカー位置、例えば点を指定する。アンカー位置および合成物体の三次元座標は、参照画像の平面に垂直な深度とともに参照画像に指定される2D座標に対応する。この深度は、様々な方法で指定できる。1つの方法は、固定深度を使用することである。もう1つの方法は、多視点表現のスケール変化に基づいて固定深度をスケーリングすることである。例えば、ズームインまたはズームアウトが検出されると、それに応じて深度をスケーリングすることができる。また別の方法は、多視点表現のスケール変化に基づいて三角測量深度をスケーリングすることである。指定された深度に基づいて、参照画像内で指定された2D座標とともに、アンカー位置は、多視点画像空間内の3D位置を有する。
【0037】
追跡情報が存在する多視点画像の各画像に対して、アンカー位置および合成物体の画像座標が存在する。様々な実施形態によれば、視覚追跡システムが利用されて、視覚情報を追跡することができるシーケンス内の他の画像内の合成物体の画像位置が計算される。したがって、参照画像、アンカー位置、および撮像デバイス/カメラの固有のパラメータの推定値を使用すると、他のビューからの合成画像の計算が可能になる。本例では、合成物体の合成画像を目標画像に対して生成することができる。合成画像は、目標画像の平面に垂直に向けられた3D空間内の仮想半直線に沿って投影される。
【0038】
様々な実施形態によれば、目標ビューからの合成シーンは、多視点画像から参照画像と目標画像との間の追跡情報を使用してレンダリングすることができる。本例において、406において、参照画像と目標画像との間の動きが、多視点画像に関連する視覚追跡情報、多視点画像に対応するデバイス向き、およびカメラの固有パラメータの推定値を使用して計算され、カメラの固有パラメータは少なくとも、焦点距離の近似推定値を含む。具体的には、参照フレームと目標フレームとの間の回転および/または他の動きを、各フレームについてデバイス向きを使用して計算することができる。様々な実施形態では、プロセスは、多視点画像とともに記憶されている、または多視点画像から計算されるデバイス向きを使用する。さらに、多視点画像内の位置または物体の視覚追跡情報を使用して、回転および/または動きを計算することができる。さらに、このプロセスは、少なくとも焦点距離の近似推定値を含むカメラの固有パラメータの推定値を使用する。
【0039】
様々な実施形態によれば、参照画像と目標画像との間で計算される動きは、画像をキャプチャしたデバイスの向きから決定することができる。特に、各フレームのデバイス向きは、参照画像および目標画像を取得したデバイスに取り付けられたIMUから得られるIMU測定から導き出すことができる。このようなIMU装置は、現代のスマートフォンに一般的に組み込まれている。IMU情報のサンプルレートおよび画像フレームを収集するためのサンプルレートが異なるいくつかの例では、IMU情報は、所与の画像フレームに対応するタイムスタンプに近い時刻に利用可能なデータから補間することができる。
【0040】
様々な実施形態によれば、IMU情報が画像フレームに利用可能でなく、同様の時刻に取得された他のIMU測定から補間できない場合、追加の画像に基づく方法を使用して回転を推定することができる。特に、パノラマのようなシナリオの場合、およびカメラが平行移動され、そのz軸の周りのみを回転する(
図3A〜
図3Bに示すような)並進シナリオの場合、2つの異なる点の追跡は、必要な向きの情報、すなわち面内画像回転を推定するのに十分である。カメラが(
図1A〜
図1Bおよび
図2A〜
図2Bに示されているような)物体の周りを回転するシナリオの場合、画像に基づく推定方法を使用して、以下の論文、すなわち、1)Kneip,Laurent,およびLynen,Simon「Direct Optimization of Frame−to−Frame Rotation」(Conference:Proceedings of the 2013 IEEE Conference on Computer Vision (ICCV),Dec.1−8,2013,pp.2352−2359,DOI)、ブックマーク:http://doi.ieeecomputersociety.org/10.1109/ICCV.2013.292、および2)Elqursh,Ali,およびElgammal,Ahmed「Line−Based Relative Pose Estimation」(Computer Vision and Pattern Recognition (CVPR),2011,pp.3049−3056,IEEE,DOI:10.1109/CVPR.2011.5995512)に関連して説明されているように、カメラの回転を推定することができる。
【0041】
次に、408において、本例では、目標画像に関連する目標ビューに対応する合成画像が生成される。特に、合成物体は、多視点画像内のアンカー位置に関連する視覚追跡情報を使用して、アンカー位置(または
図1〜
図3に関して上述したように、アンカー位置からの指定距離)に配置される。次いで、参照画像と目標画像との間で計算される回転および/または他の動きの逆に沿って、合成物体を回転させるかまたは他の方法で動かすことによって、合成物体が方向付けられる。より具体的には、カメラが参照ビューから目標ビューに移動すると、合成物体は、カメラの動きと反対の動きで移動するように見える。したがって、目標ビューにおける合成物体の適切な視点を計算するために、基準ビューと目標ビューとの間のカメラ移動の逆数を合成物体に適用して、合成物体を参照ビューから目標ビューに向けることができる。
【0042】
様々な実施形態によれば、合成物体が、目標ビューから適切に方向付けられるように変換されると、合成物体は、仮想半直線に沿ってある距離を置いて目標ビューに対応する仮想シーンに配置され得る。特に、参照ビュー以外のビューの画像をレンダリングする場合、合成物体は、追跡システムによって示されるように、新たな位置に対応する仮想半直線に沿ってレンダリングされる。目標画像に対応する仮想半直線に沿った距離において、合成物体の2D投影が目標ビューの合成画像として生成される。
【0043】
特定の実施形態では、画像シーケンスの画像間の相対的なスケール変化を任意に計算し、それに対応して合成物体を移動させるために使用することができる。例えば、ズームインスケール変化が起こる場合、カメラは合成物体に向かって移動すると仮定することができ、ズームアウトスケール変化が起こる場合、カメラが合成物体から遠ざかると仮定することができる。この移動は、3D物体がレンダリングされる3D半直線に沿った距離に影響を及ぼす。
【0044】
様々な実施形態によれば、カメラの焦点距離(固有パラメータの一部)の推定値が使用される。しかし、記載されている方法は、この焦点距離の近似値によっても機能する。したがって、各デバイスを個別に較正する必要はない。
【0045】
本例で説明したように、推定カメライントリンシクスによって構成された仮想カメラを使用して合成物体が画像されて、目標画像と一致する仮想ビューが生成される。次いで、この仮想ビューから生成された合成画像は、410において目標画像上に重ね合わされ、混合されて、目標ビューから新たな拡張画像が生成される。様々な例に関連して説明したように、このプロセスを、多視点画像内の複数のビューに対して繰り返して、合成物体を含むように見える多視点画像の拡張現実版を生成することができる。
【0046】
特定の実施形態では、多視点画像内のコンテンツおよびコンテキストに対する合成物体の適切な重なり/配置を提供するために、遮蔽処理を含めることができる。具体的には、遮蔽処理を使用して、多視点画像から対応するシーン内の特定の合成画像の配置を決定することができる。例えば、遮蔽処理を使用して、適切なレイヤ内に、または特定のビューに対して適切な量またはタイプの透明度で、合成画像を配置することができる。遮蔽処理によって、種々のシナリオに対処することができる。一例では、シーンの3Dモデルが利用可能である。具体的には、この3Dモデルは、多視点データから計算されてもよく、または他の何らかのソースから取得されてもよい。別の例では、シーンの一部のみをカバーする部分3Dモデルが利用可能である。さらに別の例では、シーンは異なるレイヤに分割され、これらのレイヤの各々には深度が割り当てられる。提示された状況に基づいて、合成物体を追加するときに遮蔽を考慮することができる。1つの特定の例では、遮蔽処理は、カメラにより近い物体が、より遠くにある物体上にレンダリングされる他のレンダリング手法と同様に行われる。様々な実施形態によれば、合成物体は、透明または半透明であり得る。特定のビューにおける合成物体の一部または全部の透過度は、合成画像が対応する画像の他の態様に対して正確に見えるようにすることができる。合成物体および任意の対応する合成画像の透明度または半透明度は全体的にまたは部分的に、遮蔽処理の一部として使用することができるが、合成物体または合成画像の透明度または半透明度は、場合によって遮蔽処理とは無関係に発生し得る。
【0047】
図5を参照すると、本発明の特定の例を実施するために使用することができるコンピュータシステムの特定の例が示されている。例えば、コンピュータシステム500は、上述の様々な実施形態による、IMUおよび画像データを使用して、合成物体を有する多視点画像データを拡張するために使用され得る。特定の例示的な実施形態によれば、本発明の特定の実施形態を実装するのに適したシステム500は、プロセッサ501、メモリ503、インターフェース511、およびバス515(例えば、PCIバス)を含む。インターフェース511は、別個の入力および出力インターフェースを含んでもよく、または両方の動作をサポートする統一インターフェースであってもよい。適切なソフトウェアまたはファームウェアの制御下で動作するとき、プロセッサ501は、最適化などのタスクを担当する。プロセッサ501の代わりに、またはプロセッサ501に加えて、様々な特別に構成されたデバイスを使用することもできる。実施態様全体を、カスタムハードウェアで行うこともできる。インターフェース511は、典型的には、ネットワークを介してデータパケットまたはデータセグメントを送受信するように構成される。デバイスがサポートするインターフェースの特定の例は、Ethernet(登録商標)インターフェース、フレームリレーインターフェース、ケーブルインターフェース、DSLインターフェース、トークンリングインターフェースなどを含む。
【0048】
さらに、fast Ethernet(登録商標)インターフェース、Gigabit Ethernet(登録商標)インターフェース、ATMインターフェース、HSSIインターフェース、POSインターフェース、FDDIインターフェースなど、様々な超高速インターフェースを提供することができる。一般に、これらのインターフェースは、適切な媒体との通信に適したポートを含むことができる。場合によっては、それらは独立したプロセッサ、および、場合によって揮発性RAMをも含んでもよい。独立したプロセッサは、パケット交換、媒体制御および管理のような通信集中的なタスクを制御することができる。
【0049】
特定の例示的な実施形態によれば、システム500は、メモリ503を使用してデータおよびプログラム命令を格納し、ローカル側のキャッシュを維持する。プログラム命令は、例えば、オペレーティングシステムおよび/または1つまたは複数のアプリケーションの動作を制御することができる。1つまたは複数のメモリは、受信したメタデータおよびバッチ要求メタデータを格納するように構成することもできる。
【0050】
そのような情報およびプログラム命令は、本明細書に記載されたシステム/方法を実施するために利用され得るため、本発明は、本明細書に記載の様々な動作を実行するためのプログラム命令、状態情報などを含む有形の機械可読媒体に関する。機械可読媒体の例は、ハードディスク、フロッピー(登録商標)ディスク、磁気テープ、CD−ROMディスクおよびDVDのような光媒体、光ディスクなどの光磁気媒体、ならびに、読み出し専用メモリデバイス(ROM)およびプログラマブル読み出し専用メモリデバイス(PROM)などのプログラム命令を格納および実行するように特別に構成されたハードウェアデバイスを含む。プログラム命令の例には、コンパイラによって生成されるような機械コードと、インタプリタを使用してコンピュータによって実行され得るより高レベルのコードを含むファイルの両方が含まれる。
【0051】
本開示は、その特定の実施形態を参照して特に示され、記載されているが、当業者には、開示された実施形態の形態および詳細の変更が、本発明の精神または範囲から逸脱することなく成され得ることが理解される。具体的には、説明したプロセス、システム、および装置を実装する多くの代替方法がある。したがって、本発明は、本発明の真の精神および範囲内に入るすべての変形および均等物を含むと解釈されることが意図される。さらに、特定の特徴を各実施例の一部として説明してきたが、これらの特徴の任意の組み合わせまたは他の特徴の追加は、本開示の範囲内に含まれることが意図される。したがって、本明細書に記載された実施形態は、例示的なものであり、限定的なものではないと考えられるべきである。