【課題を解決するための手段】
【0011】
発明の説明
したがって本発明の目的は、上述の不利な点を克服する、最初に言及した種類の多関節オブジェクトモデルのポーズを推定するための方法を作り出すことである。
【0012】
本発明のさらなる目的は、仮想カメラから見た仮想画像をレンダリングするための方法を提供することである。
【0013】
本発明のさらに他の目的は、ソース画像セグメントのセグメント化を決定するための方法を提供することである。
【0014】
多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、1つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも1つのソース画像を得るステップと(ビデオストリームは実況または録画)、
・少なくとも1つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは、多関節オブジェクトモデルおよびこの多関節オブジェクトモデルの特定の参照ポーズに関連付けられており、上記方法はさらに、
・少なくとも1つのソース画像セグメントを参照シルエットと比較し、参照シルエットごとに、
参照シルエットがソース画像セグメントにどれほどよくマッチしているかを示すマッチングエラー、および/または
参照ポーズが、ビデオストリームの先行および後続のソース画像のうちの少なくとも1つから推定して、同一の実世界オブジェクトのポーズとどれほど整合しているかを示す一貫性エラー
を考慮することによって、予め定められた数の参照シルエットを選択するステップと、
・選択された参照シルエットに関連付けられた多関節オブジェクトモデルの参照ポーズを(データベースから)取出すステップと、
・選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算するステップとを備える方法が提供される。このポーズは、ソース画像における多関節オブジェクトモデルの二次元ポーズであるため、ソース画像ごとに、別個の二次元ポーズが推定される。
【0015】
2つの関節同士を連結する連結部は、2つの関節同士の間の直線部分によって表され得、すなわち、当該リンクはさらなる細分または中間関節のない直線連結部と称され得る。連結部は連結部長さと関連付けられ得、関節同士の間の距離を制約または規定し得る。モデルポーズを識別するために用いる方法に依存して、連結部長さは一定であると仮定でき、関節場所の調整を制約し、および/または連結部長さは関節位置の推定に従って調節され得る。連結部は、関連付けられた投射面との間に、少なくとも部分的に制約された幾何学的関係を有し得る。
【0016】
少数または1つのみの入力画像に基づいたポーズ推定の問題点は、曖昧さおよび欠けている情報のためにポーズが不完全であることである。本発明では、先行してデータベースを用いることによってこの不完全ポーズの問題を克服する。
【0017】
少なくとも1つのソース画像を処理して対応のソース画像セグメントを抽出するステップは、好ましくは、少なくともソース画像をセグメント化するステップを含む。そのような画像セグメント化方法は周知であり、本発明で用いるように適応され得る。本発明の好ましい実施例では、当該処理ステップは、運動補償ステップなどのさらなるステップを含む。この運動補償ステップは、セグメント化ステップの前(非セグメント化画像に対して)、またはセグメント化ステップの後(画像のセグメントに対して)実行され得る。運動補償ステップは、公知の態様で、たとえばソースカメラおよび/または実世界オブジェクトの運動を補償する。
【0018】
この段階の運動補償は、前および/または後のフレームの身体部分もしくは他のセグメントが与えられて、特定の対象フレーム内の身体部分または他のセグメントの当初推定を与えるために用いられ得る。後者の(すなわち前または後の)フレームの所与のセグメント化は、後者のフレームと対象フレームとの間で運動補償またはオプティカルフローに従って動かされ、対象フレームのセグメント化のための当初推定として用いられる。
【0019】
ソース画像セグメントおよび参照シルエットは両方とも部分的な画像を表し、これらは異なる文脈で生成されるため、「セグメント」および「シルエット」と称される。これらは概念的に、および/またはさまざまな異なる様式のコンピュータ読取可能形態で、たとえば
・画素のブロブ、または
・たとえば画素またはベクトルベースの表現における輪郭であり、任意に内部の領域を特徴付けるフィルカラーまたは色モデルを有する輪郭
で表され得る。
【0020】
本発明の好ましい実施例では、マッチングエラーおよび一貫性エラーが両方の加重和として考慮される。マッチングエラーは、参照シルエットおよびソース画像セグメントの画像(画素)情報、ならびに/またはそれらのそれぞれのオプティカルフローに基づき得る。後者の場合、オプティカルフローも参照シルエットの一部として記憶される。これによって、ポーズは同一だが異なる態様で動くオブジェクトの画像同士を区別することができる。一貫性エラーも、本発明のさらなる好ましい実施例によると、オプティカルフローおよび/または運動補償を考慮する。
【0021】
たとえば、現在の画像フレームおよび先行画像が与えられて、(少なくとも画像の関連領域における)これらの画像同士の間の差異を記述する運動補償パラメータが計算される。次に、先行画像フレームにおいて推定されたポーズが、運動補償パラメータに従って動かされる。これは、現在のフレーム内のポーズの推定である。次に、(先行画像フレームのポーズではなく)このポーズの推定を、一貫性エラーを判定する際に参照ポーズと比較する。
【0022】
本発明の別の好ましい実施例では、ポーズの推定は、先行画像フレームのポーズをオプティカルフローに従って動かすことによって求められる。このオプティカルフローは、先行画像、または現在の画像、または参照画像、または(加重)平均などのそれらの組合せのオプティカルフローであり得る。
【0023】
上記およびさらなる例はたいてい、先行画像フレームを参照する。しかし、同一の方法は、1つより多い画像フレーム、およびさらに後続の(または後の、または未来の)画像フレームを考慮して適用されてもよい。すべてのこれらのフレームからの情報は、それが運動補償に関するものであれオプティカルフローに関するものであれ、たとえば加重平均化によって、特に現在のフレームから時間的にさらに離れているフレームよりも多い近傍のフレームを重み付けすることによって組合され得る。
【0024】
本発明の好ましい実施例では、少なくとも1つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ソース画像セグメントを参照シルエット上にマッピングする射影変換を決定するステップと、
・マッチングエラーを、マッピングされたソース画像セグメントと参照シルエットが重複しない画像領域の相対サイズに比例するとして、またはスケール変更されたソース画像セグメントと参照シルエットの輪郭同士の間の距離の測定値として計算するステップとを含み、マッチングエラーは任意に、射影変換のパラメータにも依存しており、上記ステップはさらに、
・このマッチングエラーを、ソース画像セグメントと参照シルエットがどれほどよくマッチしているかについての測定値として用いるステップを含む。
【0025】
射影変換のパラメータは原則として、射影変換によってソース画像セグメントと参照シルエットのマッチが達成可能である限り、ソース画像セグメントと参照シルエットをマッチさせるためにどれほど歪ませなければならないかについての情報を含む。このため、射影変換の1つ以上のパラメータ、またはそれらの組合せは、好ましくはマッチングエラーの計算に組込まれる。
【0026】
本発明の好ましい実施例では、射影変換の決定は、ソース画像セグメントを参照シルエットと同じサイズになるようにスケール変更することによってなされる。画像セグメントのアスペクト比を保存する必要のないスケール変更パラメータは、射影変換のパラメータに対応する。
【0027】
スケール変更されたソース画像セグメントの輪郭と参照シルエットの輪郭との間の距離は、ハウスドルフ距離などのラインベースの計量によって計算することができる。
【0028】
本発明の好ましい実施例では、
・スケール変更する上記ステップは、ソース画像セグメントまたは参照シルエットまたは両方を再サンプリングして同一の画素サイズのバウンディングボックスを有することによって達成され、
・ソース画像セグメントおよび参照シルエットの両方は、同一の画素寸法を有する2値画像によって表され、値の異なるソース画像セグメントおよび参照シルエットから対応する画素数を数えることによってエラー値を計算する。
【0029】
本発明の好ましい実施例では、少なくとも1つのソース画像セグメントを参照シルエットと比較する上記ステップは、ソース画像セグメントが比較される参照シルエットごとに、
・ビデオストリームの先行のソース画像から推定される同一の実世界オブジェクトのポーズを取出すステップと、
・一貫性エラーを、この先行のポーズ推定と参照シルエットの参照ポーズとの差異に比例しているとして計算し、この一貫性エラーを、先行のソース画像との整合性の測定値として用いるステップとを含む。
【0030】
本発明の好ましい実施例では、選択された参照シルエットの参照ポーズから、多関節オブジェクトモデルのポーズの推定値を計算する上記ステップは、
・さらなるソースカメラからの1つ以上のさらなるビデオストリームからの1つ以上のさらなるソース画像について上述のステップを繰返すステップを含み、さらなるソース画像の各々は、同時に異なる視点から記録された同一の実世界オブジェクトのビューを含み、この結果、さらなるソース画像ごとに、予め定められた数の選択された参照シルエットおよび関連付けられた選択された参照ポーズが得られ、上記ステップはさらに、
・異なるソース画像について選択された参照ポーズの組合せごとに、
この組合せの選択された参照ポーズの関節を三次元空間に投射し、関節の三次元位置を推定し、関節ごとに、推定された三次元関節位置が選択された参照ポーズからの関節の投射にどれほどよくマッチしているかを表す関節整合性測定値を計算し、
すべての関節の関節整合性測定値を組合せて総合関節整合性測定値を得ることによって、
総合関節整合性測定値を計算することによって、ソース画像ごとに最も妥当な参照ポーズを選択するためのの最適化を実行するステップと、
・総合関節整合性測定値を最適化する異なるソース画像について参照ポーズの組合せを選択することによって、各ソース画像の最適参照ポーズを求めるステップとを含む。
【0031】
各ソース画像の最適参照ポーズを求めるのに加えて、上述の手順はさらに、各関節の三次元位置の推定値も提供する。
【0032】
本発明の好ましい実施例では、最適化を実行する上記ステップはさらに、ソースカメラの較正エラーを訂正するために、関連付けられたソース画像の平面内の各シルエットの二次元オフセットを変化させて最適化するステップを含む。
【0033】
本発明の好ましい実施例では、推定関節位置が重畳された少なくとも1つのソース画像を表示装置に表示し、1つ以上の関節位置を反復して修正するためのユーザ入力を受付けるステップをさらに備える。
【0034】
一般に、参照ポーズに関連付けられる多関節オブジェクトモデルは、実世界オブジェクトの多関節オブジェクトモデルと同じ連結トポロジを有する。これら多関節オブジェクトモデルのうちの1つの各関節は、他の多関節オブジェクトモデルの関節に一意的にマッチする。
【0035】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、ソース画像に関連付けられた所与の二次元ポーズにマッチする三次元ポーズを求めるために、
・所与の二次元ポーズから、二次元ポーズに関連付けられたソース画像の画像平面内に投射されると、二次元ポーズの対応する関節の位置に近似的にマッチする近似の関節の位置を含む近似の三次元ポーズを計算するステップと、
・関節ごとに、関節の位置を、近似の関節の位置から、カメラから、ソース画像の画像平面と平行な平面を有するソース画像における関節の位置を通過し、近似の関節の位置を通過する光線の交差によって規定される位置まで動かすことによって、近似の三次元ポーズが二次元ポーズに厳密にマッチするように修正するステップとが実行される方法が提供される。
【0036】
これら2つのステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で実行され得、所与の二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【0037】
本発明の別の局面によると、多関節オブジェクトモデルのポーズを推定するための方法であって、多関節オブジェクトモデルは、2つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは、三次元関節位置と称される関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの当初推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を1つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、上記方法はさらに、
・関節ごとに、
その三次元関節位置に割当てられた位置スコアを計算し、位置スコアは、関節に隣接した連結部の投射面に投射されると、異なるソースカメラからの画像セグメントが互いに整合している程度の測定値であり、さらに、
最適な位置スコアが達成されるまで関節の三次元関節位置を変化させることによって、
三次元関節位置を反復して適応させるステップと、
・予め定められた回数だけ、または位置スコアが収束するまで、すべての関節について三次元関節位置を反復して適応させる上記ステップを繰返すステップとを備える方法が提供される。
【0038】
すべての関節について反復適応を繰返す際、位置は、すべての関節を2、3回通過した後に収束する。収束した位置スコアは、たとえば、位置スコアの改良が予め定められた制限を下回ると確定される。
【0039】
本発明の好ましい実施例では、三次元ポーズの当初推定は、たとえば、二次元ポーズ推定によって各ソース画像についての最適参照ポーズを求める際に、またはテンプレートフィッティングによって推定三次元ポーズに改良した後に、本発明の1つ以上の上述の局面に従って求められる。
【0040】
本発明の好ましい実施例では、関節の三次元関節位置を変化させる上記ステップは、人体測定制約を受ける三次元関節位置を変化させることによって達成され、人体測定制約は、
・関節が地上または地面上方にある
・トポロジ的に対称の連結部の長さが10%よりも大きく異なっていない
・連結部の長さが人体測定標準内である
・連結部によって接続されていない関節同士の距離が人体測定標準内である
のうちの少なくとも1つである。
【0041】
本発明の好ましい実施例では、投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面である。換言すれば、各ビルボードは投射面であり、連結部およびソースカメラに関連付けられる。
【0042】
本発明の好ましい実施例では、関節の三次元関節位置の位置スコアは、関節に隣接した連結部ごとに、
・異なるソースカメラからの画像を連結部の関連付けられた投射面に投射し、そこから仮想カメラによって見られる仮想画像内に投射するステップと、
・これらの投射面の仮想画像内への投射に対応する仮想画像内の領域(またはすべての画素)について、異なるソースカメラからの画像セグメントが重複して同様の色を有する程度に従って、この連結部についての部分的位置スコアを計算するステップと、
・部分的位置スコアを(たとえば加算することによって)組合せて位置スコアを得るステップと
によって計算される。
【0043】
換言すれば、異なるソースカメラからの画像セグメントの投射の整合性は、仮想カメラのビューに対応するビューにおいて評価される。最適化は、仮想画像内に規定される目的関数に基づくため、最終的に不要なパラメータは求められず、全体効率が向上する。
【0044】
本発明の好ましい実施例では、部分的位置スコアを計算して組合せるステップは、
・仮想画像に寄与するソースカメラの対ごとに部分的位置スコアを計算するステップと、
・これら部分的位置スコアを、加算し、ソースカメラの関連付けられた対の視覚方向同士の間の角度に従って部分的位置スコアの各々を重み付けすることによって組合せるステップとを含む。
【0045】
本発明の別の局面によると、多関節オブジェクトモデルを与えられて、仮想カメラから見た仮想画像をレンダリングするための方法であって、多関節オブジェクトモデルは、2つ以上のソースカメラによって観察される実世界オブジェクトのコンピュータベースの三次元モデルであり、多関節オブジェクトモデルは、複数の関節および関節を連結する複数の連結部を表し、多関節オブジェクトモデルのポーズは関節の空間的な場所によって規定され、上記方法は、
・三次元ポーズの推定値、すなわち多関節オブジェクトモデルの三次元関節位置を求めるステップと、
・各連結部を1つ以上の投射面に関連付けるステップとを備え、投射面は三次元モデルにおいて規定される表面であり、各投射面の位置および向きは、関連付けられた連結部の位置および向きによって決定され、
・投射面は、連結部ごとに、ビルボードのファンを含み、各ビルボードはソースカメラに関連付けられており、各ビルボードは、関連付けられた連結部と、この連結部および連結部の一点をソースカメラに接続する線の両方に対して垂直であるベクトルとがまたがる平面であり、上記方法はさらに、
・ソースカメラごとに、関連付けられたソース画像のセグメントを関連付けられたビルボードに投射してビルボード画像を形成するステップと、
・連結部ごとに、ビルボード画像を仮想画像内に投射し、ビルボード画像をブレンドして、仮想画像の対応部分を形成するステップとを備える方法が提供される。
【0046】
ビルボード画像はブレンドされ、すなわち1つの連結部についての複数のビルボードは互いに閉塞しない。しかし、閉塞は別個の連結部同士、すなわち別個の身体部分同士の間に起こり得る。
【0047】
本発明の別の局面によると、ソース画像セグメントのセグメント化を決定するための方法であって、
・ソースカメラによって記録される実世界オブジェクトのビューを含むビデオストリームから少なくとも1つのソース画像を得るステップと、
・少なくとも1つのソース画像を処理して、画像背景から分離された実世界オブジェクトのビューを含む対応のソース画像セグメントを抽出するステップと、
・コンピュータ読取可能形態のデータベースに参照シルエットのセットを維持するステップとを備え、各参照シルエットは参照セグメント化に関連付けられており、参照セグメント化は参照シルエットのサブセグメントを規定し、各サブセグメントには一意のラベルが割当てられており、上記方法はさらに、
・ソース画像セグメントに最もよく似ているマッチング参照シルエットを求め、参照シルエットの参照セグメント化を取出すステップと、
・サブセグメントごとに、より厚いおよびより薄いバージョンのサブセグメントの両方をソース画像セグメントに重ね合せ、より厚いおよびより薄いバージョンの両方の内部に存在するソース画像画素にサブセグメントのラベルでラベル付するステップと、
・ソース画像セグメントのすべての残りの画素を不確信とラベル付するステップと、
・サブセグメントごとに、サブセグメントのラベルでラベル付された画素の色を表す色モデルを決定するステップと、
・各不確信画素を、色モデルが不確信画素の色に最もよくフィットするサブセグメントに割当てることによって、色モデルに従って不確信画素をラベル付するステップとを備える方法が提供される。
【0048】
ソース画像セグメントのセグメント化のための上記ステップは、所与の二次元ポーズを推定三次元ポーズによって改良するために単独で行なわれ得、二次元ポーズは、任意の上述の推定方法によって、または上述の本発明の好ましい実施例と組合されて求められる。
【0049】
色モデルは、画素の色分布のための確率モデルである。各身体部分にそのようなモデルを有することによって、新たな画素についての確率を計算して、それが属する身体部分を推定することができる。たとえば、色モデルはガウス混合分布であり得る。
【0050】
本発明の好ましい実施例では、不確信画素を割当てる際、画素が割当てられるサブセグメントが当該画素の近くにあるか否かを考慮しない。このため、サブセグメントの確信画素が全く見えない場合であっても、画素を正確に割当てることができる。
【0051】
代替実施例では、割当の際、不確信画素の場所を考慮し、当該画素の色が1つより多いサブセグメントの色モデルにマッチする場合は、それを当該画素の最も近くにあるサブセグメントに割当てる。
【0052】
本発明に関する概説は、キャラクタの三次元ポーズおよび形状を多関節ビルボードによって、すなわち身体を単純な幾何学的プリミティブに多関節細分することによってうまく収集できることである。ビジュアルハルまたはステレオ対応を計算するための正確なシルエット情報に依拠する代わりに、本発明の表現では、入力ビューにおける対象の二次元ポーズの推定が必要である。これは、半自動のデータ駆動型アルゴリズムによって単純かつ非常に効率的な態様で達成可能である。ポーズから、次に三次元多関節ビルボードモデルを構成することが可能であり、これは対象の幾何学の忠実な表現であり、フォトリアリスティックな自由視点のビデオが可能となる。本発明の異なる局面は、
・多関節ビルボード、困難な取得状況下での人間キャラクタの自由視点のビデオのための新規な形状表現
・近似シルエットに基づいた半自動のデータ駆動型二次元ポーズ推定
・三次元テンプレートフィッティングおよび色モデルの学習による身体部分の自動セグメント化
・最適なテクスチャ整合性のための三次元ポーズ最適化および継ぎ目訂正による多関節ビルボードモデルの生成
・現実的で効率的なビュー合成のためのGPUベースの画素が正確なブレンドおよびレンダリング
である。
【0053】
多関節ビルボードへの応用は、制御されない環境下で人間を捉えた動的シーンのマルチビュービデオである。わずか2つの従来のTVカメラ画像からでさえも、ソースカメラが記録していなかった仮想視点からのシーンを高品質でレンダリングすることができる。
【0054】
上述の方法の異なる局面を組合せると、以下のワークフローが実行され得る。基本的な考え方は、スケルトン構造に沿ってテクスチャ化ビルボードへの細分を用いて人体の多関節三次元形状を近似することである。ビルボードは、各骸骨がソースカメラごとに1つのビルボードを含むようにファンにクラスタ化される。まず、各入力ビューについて、画像シルエット、運動収集データ、および時間的ビデオ一貫性に基づいた二次元ポーズ推定を用いて、各身体部分についてセグメント化マスクを作成する。次に、二次元ポーズおよびセグメント化から、三次元関節最適化およびカメラ較正エラー補償によって、実際の多関節ビルボードモデルを構成する。その後適用されるレンダリング方法は、各ビルボードのテクスチャ寄与をブレンドし、好ましくは適応継ぎ目修正を用いて、隣接するビルボードテクスチャ同士の間の目に見える不連続を無くす。多関節ビルボードを用いることによって、従来のビルボードレンダリングから公知のゴースト発生アーティファクトを最小化するだけでなく、より複雑な三次元表現およびマルチビュー再構成技術のセットアップに対する制限およびエラー感度が緩和される。この結果、困難な制御されない環境の放送映像から生成される高品質で自由視点のビデオを有する方策の柔軟性および強固性が実証される。
【0055】
技術用語に関する概括的な記載として、「AはBに関連付けられる」という表現は、AとBの間に割当、または換言すれば関係があることを意味する。当該関係は、1対1、1対多数、または多数対多数の関係であり得る。
【0056】
本発明に係る多関節オブジェクトモデルのポーズを推定するためのコンピュータプログラム製品は、デジタルコンピュータの内部メモリ、またはコンピュータメモリおよびコンピュータメモリに結合された処理ユニットを含むコンピュータシステムにロード可能であり、コンピュータプログラムコード手段、すなわち当該コンピュータプログラムコード手段がコンピュータにロードされると、本発明に係る方法をコンピュータに実行させるコンピュータ読取可能命令を含む。本発明の好ましい実施例では、コンピュータプログラム製品は、コンピュータプログラムコード手段が記録されたコンピュータ読出可能記憶媒体を含む。
【0057】
さらなる好ましい実施例が従属特許請求項から明らかである。
本発明の主題は、添付の図面に示される好ましい例示的な実施例を参照して以下により詳細に説明される。
【0058】
図中に用いられる参照符合およびそれらの意味は、参照符号一覧に要約形式で列挙される。原則として、図中では同一箇所には同一の参照符号を付す。