(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-10
(45)【発行日】2023-05-18
(54)【発明の名称】背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラム
(51)【国際特許分類】
G06T 7/194 20170101AFI20230511BHJP
G06T 15/20 20110101ALI20230511BHJP
【FI】
G06T7/194
G06T15/20 500
(21)【出願番号】P 2019001928
(22)【出願日】2019-01-09
【審査請求日】2021-10-07
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】近野 恵
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2013-223008(JP,A)
【文献】特開2015-141615(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06T 11/00 -11/40
G06T 15/00 -17/00
G06T 17/10 -17/30
G06V 10/00 -20/90
G06V 30/418
G06V 40/16 、40/20
(57)【特許請求の範囲】
【請求項1】
視点が異なる複数のカメラにより撮像された
複数のカメラ画像を取得する取得部と、
前記カメラ画像ごとに前記カメラの撮影位置に対応するデプス画像を算出する算出部と、
第1の視点のデプス画像の画素ごとに、前記第1の視点のカメラの光学中心および前記第1の視点のデプス画像の画素を通る直線が前記第1の視点とは異なる第2の視点のデプス画像に投影されることにより得られたエピポーラ線上の画素と、前記第1の視点のデプス画像の画素との間で特定される評価値に基づいて、前記第1の視点のデプス画像の画素が前景である尤もらしさを示す前景尤度および前記第1の視点のデプス画像の画素が背景である尤もらしさを示す背景尤度を算出する尤度算出部と、
前記カメラ画像に含まれる画素を前記カメラ画像に対応するデプス画像の各画素の前記前景尤度および前記背景尤度に基づいて前景と背景に分離する分離部と、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正する補正部と、
前記補正部により補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する背景生成部と、
を有することを特徴とする背景モデル生成装置。
【請求項2】
前記補正部は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする請求項1に記載の背景モデル生成装置。
【請求項3】
前記補正部は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする請求項1または2に記載の背景モデル生成装置。
【請求項4】
前記補正部は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする請求項1、2または3に記載の背景モデル生成装置。
【請求項5】
前記分離部は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正部は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする請求項1~
4のいずれか1つに記載の背景モデル生成装置。
【請求項6】
視点が異なる複数のカメラにより撮像された
複数のカメラ画像を取得し、
前記カメラ画像ごとに前記カメラの撮影位置に対応するデプス画像を算出し、
第1の視点のデプス画像の画素ごとに、前記第1の視点のカメラの光学中心および前記第1の視点のデプス画像の画素を通る直線が前記第1の視点とは異なる第2の視点のデプス画像に投影されることにより得られたエピポーラ線上の画素と、前記第1の視点のデプス画像の画素との間で特定される評価値に基づいて、前記第1の視点のデプス画像の画素が前景である尤もらしさを示す前景尤度および前記第1の視点のデプス画像の画素が背景である尤もらしさを示す背景尤度を算出し、
前記カメラ画像に含まれる画素を前記カメラ画像に対応するデプス画像の各画素の前記前景尤度および前記背景尤度に基づいて前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータが実行することを特徴とする背景モデル生成方法。
【請求項7】
視点が異なる複数のカメラにより撮像された
複数のカメラ画像を取得し、
前記カメラ画像ごとに前記カメラの撮影位置に対応するデプス画像を算出し、
第1の視点のデプス画像の画素ごとに、前記第1の視点のカメラの光学中心および前記第1の視点のデプス画像の画素を通る直線が前記第1の視点とは異なる第2の視点のデプス画像に投影されることにより得られたエピポーラ線上の画素と、前記第1の視点のデプス画像の画素との間で特定される評価値に基づいて、前記第1の視点のデプス画像の画素が前景である尤もらしさを示す前景尤度および前記第1の視点のデプス画像の画素が背景である尤もらしさを示す背景尤度を算出し、
前記カメラ画像に含まれる画素を前記カメラ画像に対応するデプス画像の各画素の前記前景尤度および前記背景尤度に基づいて前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータに実行させることを特徴とする背景モデル生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラムに関する。
【背景技術】
【0002】
自由視点映像生成という技術が知られている。例えば、自由視点映像が生成される場合、複数の視点ごとに撮像された画像の各々から前景および背景が分離されたのち、前景部分および背景部分の各々について、3次元モデルが再現される。このように、前景部分の3次元モデルおよび背景部分の3次元モデルにより再現された3次元空間を、指定された仮想視点から見た映像として、提供する。
【0003】
これらの3次元モデルのうち、前景部分の3次元モデルの生成には、Visual Hullが用いられる。一方、背景部分の3次元モデルは、コンピュータグラフィックスや3次元測距等を用いて予め生成される。そして、レンダリングの際に、複数の視点から撮像されたカメラ画像のうち、指定された仮想視点に対応するカメラ画像を前景部分の3次元モデルおよび背景部分の3次元モデルに投影する。なお、仮想視点には、カメラの視点に限らず、3次元空間上の任意の視点を指定することができる。
【0004】
ここで、予め準備した3次元の背景モデルは、背景に含まれる被写体のうち動きがない被写体、例えばスポーツ観戦が行われるスタジアムなどの構造物やその観客席などの設備がモデリングされたものに過ぎない。このため、観客席でスポーツ観戦を行う観客などの動的背景が含まれる場合、自由視点画像の画質が低下する。
【0005】
なぜなら、動的背景が含まれる場合、仮想視点から背景モデルまでの奥行きと、仮想視点から動的背景までの奥行きとの間にずれが生じるからである。この奥行きのずれが一因となって、テクスチャとして用いられるカメラ画像のうち誤ったテクスチャ座標の画素がマッピングされる結果、自由視点画像の画質が低下する。
【0006】
このような動的背景に対応する側面から、次のような自由視点映像生成装置が提案されている。この自由視点映像生成装置は、まず、参照画像と奥行マップから各フレームの仮の自由視点画像を生成する。そして、自由視点映像生成装置は、参照画像と奥行マップから曲面背景バッファに保存する背景画像とその奥行値とを背景領域として抽出する。その上で、自由視点映像生成装置は、仮の自由視点画像を曲面背景バッファに保存した背景画像とその奥行値で補完する。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記の技術では、依然として、背景モデル及び動的背景のデプスのずれを低減できない場合がある。
【0009】
すなわち、上記の自由視点映像生成装置では、参照画像の奥行分布が平滑化されたガウス分布のうち極小値に対応する奥行を前景と背景の分割に用いることにより、背景領域が抽出される。ところが、背景領域の抽出に奥行値が用いられる場合、前景と背景との奥行値が近くなるにつれて両者の分割が困難になる。このため、上記の曲面背景バッファには、前景に対応する被写体が誤って背景として保存される結果、デプスのずれが拡大する。
【0010】
1つの側面では、本発明は、背景モデル及び動的背景のデプスのずれを低減させることができる背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
一態様では、背景モデル生成装置は、所定の撮像位置からカメラにより撮像されたカメラ画像を取得する取得部と、前記撮像位置に対応するデプス画像を算出する算出部と、前記カメラ画像に含まれる複数の画素を前景と背景に分離する分離部と、前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正する補正部と、前記補正部により補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する背景生成部と、を有する。
【発明の効果】
【0012】
背景モデル及び動的背景のデプスのずれを低減させることができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、実施例1に係る映像生成システムの構成例を示す図である。
【
図3】
図3は、Visual Hullの一例を示す図である。
【
図4】
図4は、レンダリングの一例を示す図である。
【
図5】
図5は、スタジアムの断面図の一例を示す図である。
【
図6】
図6は、実施例1に係るサーバ装置の機能的構成を示すブロック図である。
【
図7】
図7は、実施例1に係る各機能部間で授受されるデータの一例を示す図である。
【
図9B】
図9Bは、フィルタの畳み込み演算の一例を示す図である。
【
図9C】
図9Cは、フィルタの畳み込み演算の一例を示す図である。
【
図10A】
図10Aは、時間フィルタリングにおける注目画素の一例を示す図である。
【
図11】
図11は、実施例1に係る映像生成処理の手順を示すフローチャートである。
【
図12】
図12は、応用例1における各機能部間で授受されるデータの一例を示す図である。
【
図13】
図13は、評価値とデプスのグラフの一例を示す図である。
【
図14】
図14は、応用例1に係る映像生成処理の手順を示すフローチャートである。
【
図15】
図15は、実施例1及び実施例2に係る背景モデル生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。
【発明を実施するための形態】
【0014】
以下に添付図面を参照して本願に係る背景モデル生成装置、背景モデル生成方法及び背景モデル生成プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【実施例1】
【0015】
[システム構成]
図1は、実施例1に係る映像生成システムの構成例を示す図である。
図1に示す映像生成システム1は、一側面として、視点が異なる複数のカメラ5A~5Nが撮像する多視点のカメラ画像を組み合わせることにより自由視点映像を生成する映像生成サービスを提供するものである。
【0016】
図1に示すように、映像生成システム1には、カメラ5A~5Nと、サーバ装置10と、クライアント端末30とが含まれる。以下では、カメラ5A~5Nのことを「カメラ5」と記載する場合がある。なお、
図1には、あくまで一例として、1つのクライアント端末30を図示したが、任意の数のクライアント端末30が映像生成システム1に含まれることとしてもかまわない。
【0017】
サーバ装置10及びクライアント端末30の間は、所定のネットワークNWを介して接続される。例えば、ネットワークNWは、有線または無線を問わず、インターネット、LAN(Local Area Network)やVPN(Virtual Private Network)などの任意の種類の通信網により構築することができる。あくまで一例として、
図1には、自由視点映像がネットワークNWを経由して提供される場合を例示するが、これはあくまで映像提供形態の一例に過ぎず、サーバ装置10及びクライアント端末30の間で必ずしも双方向に通信が行われずともかまわない。例えば、ネットワークNWを経由せず、自由視点映像が放送波を介してクライアント端末30へ提供されることとしてもかまわない。
【0018】
カメラ5は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子を搭載する撮像装置である。
【0019】
例えば、複数のカメラ5の撮影範囲が組み合わさることにより自由視点映像の生成対象とする3次元空間の全域が複数のカメラ5の撮影範囲に収まる配置で各カメラ5が設置される。さらに、2つ以上のカメラ5により撮像されたカメラ画像から3次元空間上に存在する被写体3の3次元形状を算出するために、各カメラ5は、他のカメラ5との間で撮影範囲の一部が重複する状態で配置される。このような配置の下、複数のカメラ5がフレームごとに同期して撮影することにより、異なる視点ごとに同一のタイミングで撮影された複数の画像、すなわち多視点のカメラ画像がフレーム単位で得られる。
【0020】
サーバ装置10は、上記の映像生成サービスを提供するコンピュータの一例に対応する。サーバ装置10は、補正装置の一例にも対応する。ここでは、あくまでコンピュータの一例として、サーバ装置を例に挙げたが、これは機能を分類する上で付与されたラベルであり、そのハードウェア構成や導入されるソフトウェアの種類は限定されず、任意の種類のコンピュータであってかまわない。
【0021】
一実施形態として、サーバ装置10は、パッケージソフトウェア又はオンラインソフトウェアとして、上記の映像生成サービスに対応する機能を実現する映像処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、サーバ装置10は、上記の映像生成サービスを提供するサーバとしてオンプレミスに実装することとしてもよいし、アウトソーシングによって上記の映像生成サービスを提供するクラウドとして実装することとしてもかまわない。
【0022】
クライアント端末30は、上記の映像生成サービスの提供を受けるコンピュータの一例に対応する。
【0023】
一実施形態として、上記の映像生成サービスの提供を受けるユーザにより使用される任意のコンピュータがクライアント端末30に対応する。例えば、クライアント端末30は、パーソナルコンピュータやワークステーションなどのデスクトップ型のコンピュータなどが対応する。このようなデスクトップ型のコンピュータに限定されず、ラックトップ型のコンピュータや携帯端末装置、ウェアラブル端末などの任意のコンピュータであってかまわない。
【0024】
[映像生成]
上記の自由視点映像は、一側面として、(1)前景背景分離、(2)前景モデルの生成、(3)背景モデルの生成、(4)レンダリングの4つの処理を実行することによって生成される。
【0025】
(1)前景背景分離
上記の「前景背景分離」とは、各視点に対応するカメラ画像ごとに当該カメラ画像から前景と背景とを分離する処理を指す。この前景背景分離は、同一のフレームのカメラ画像ごとに並列して実行することもできれば、所定数ずつ順番に実行することもできる。
【0026】
ここで言う「前景」とは、カメラ5の撮影範囲内の3次元空間に存在する物体の中でも撮影の関心対象とする被写体に対応する。例えば、スポーツ観戦を例に挙げれば、選手やボールなどの被写体が前景に対応する。また、モータースポーツであれば、選手に用いられる乗り物、例えば自動車やオートバイなどの被写体も前景の範疇に含まれる。
【0027】
一方、「背景」とは、前景に対応する被写体の背後に存在する被写体に対応する。例えば、背景に対応する被写体の中には、位置や姿勢に変化がないものが含まれる。以下、背景の中でも位置や姿勢に変化がない被写体のことを「静的背景」と記載することがある。例えば、スポーツ観戦を例で言えば、スポーツ観戦が行われるスタジアムなどの構造物やその観客席などの設備などが静的背景に対応する。このような静的背景の他にも、背景には、位置や姿勢に変化があるものも含まれる場合がある。以下、背景の中でも位置や姿勢に変化がある被写体のことを「動的背景」と記載することがある。例えば、スタジアムの観客席で観戦する観客などが動的背景に対応する。なぜなら、観客が観客席に着座して観戦したり、観客席から前のめりになって観戦したり、あるいは観客席から立ち上がって観戦したりといった挙動を示すことにより、観客の位置や姿勢が変化するからである。
【0028】
図2A及び
図2Bを用いて前景背景分離の一例を説明する。
図2Aは、カメラ画像の一例を示す図である。
図2Bは、シルエット画像の一例を示す図である。
図2Aには、ある視点p1に対応するカメラ画像200が示されると共に、
図2Bには、視点p1のカメラ画像200から生成されたシルエット画像210が示されている。前景背景分離には、あくまで一例として、いわゆる背景差分をカメラ画像200に適用したり、あるいはカメラ画像200に2次元のグラフカットを適用したりする。これら背景差分やグラフカットを含む任意のアルゴリズムが適用されることによって、各画素が画素値を持つカメラ画像200から各画素に前景または背景の2値のラベルが割り当てられたシルエット画像210が生成される。このシルエット画像210では、
図2Bに示すように、カメラ画像200に含まれる被写体3fgのシルエットが背景と分離された上で抽出される。
【0029】
(2)前景モデルの生成
上記の「前景モデルの生成」には、一例として、Visual-Hullという技術が用いられる。例えば、Visual Hullでは、カメラ5の光学中心とシルエット画像上のシルエットとを結んでできるCone(視体積)が生成された上で、Cone同士が重なる3次元空間上の領域が被写体3fgの3次元形状として算出される。
【0030】
図3は、Visual Hullの一例を示す図である。
図3には、カメラ5A~5Cの3つのカメラ5のシルエット画像210A~210CがVisual Hullの算出に用いられる例が示されている。
図3に示すように、カメラ5A~5Cの各視点に対応するシルエット画像210A~210CごとにシルエットSA~SCが3次元空間に投影される。例えば、シルエットSAが投影された場合、カメラ5Aの光学中心およびシルエット画像210A上のシルエットSAを結ぶ視体積CAが得られる。さらに、シルエットSBが投影された場合、カメラ5Bの光学中心およびシルエット画像210B上のシルエットSBを結ぶ視体積CBが得られる。さらに、シルエットSCが投影された場合、カメラ5Cの光学中心およびシルエット画像210C上のシルエットSCを結ぶ視体積CCが得られる。これら視体積CA~CCが重複するVisual Hull領域、すなわち
図3に示す黒の塗り潰しの3次元モデルが被写体3の3次元形状として算出される。
【0031】
(3)背景モデルの生成
上記の「背景モデルの生成」には、あくまで一例として、コンピュータグラフィックスや3次元測距などが用いられる。例えば、3DCG(3 Dimensional Computer Graphics)により静的背景がモデリングされることにより背景モデルが生成される。この他、各カメラ5に対応する視点ごとにカメラ画像200上の各画素に対応するデプスが3次元のレーザセンサにより測定される。これによって、各画素にデプスが対応付けられたデプス画像がカメラ5の視点ごとに得られる。
【0032】
(4)レンダリング
上記の「レンダリング」とは、仮想視点に対応するカメラ画像、いわゆる自由視点映像を多視点のカメラ画像を用いて生成する処理を指す。ここで言う「仮想視点」とは、仮想カメラに与えられる視点を指し、例えば、仮想カメラが3次元空間上に配置される位置や姿勢を指す。この仮想視点は、クライアント端末30からユーザ入力を受け付けることにより指定されることとしてもよいし、また、クライアント端末30を介するユーザ設定またはサーバ装置10に登録されたシステム設定により指定されることとしてもかまわない。
【0033】
図4は、レンダリングの一例を示す図である。
図4には、仮想カメラVcの位置がカメラ5Bおよびカメラ5Cの間に設定されると共に、仮想カメラVcの光学中心および画素を通る直線が被写体3fgに対応する前景モデル3Mfgと交わる例が示されている。
図4に示すように、仮想カメラVcの光学中心および画素を通る直線と、前景モデル3Mfgとの交点の3次元位置が求められる(S1)。続いて、カメラ5の位置や姿勢などの外部パラメータ及びカメラ5の画角やレンズの歪みなどの内部パラメータが設定されたカメラパラメータにしたがって、上記の交点が各視点に対応するカメラ画像に投影される。ここでは、一例として、仮想カメラVcからの距離が近い所定数のカメラ5のカメラ画像、すなわちカメラ5BおよびカメラCの2つのカメラ画像200Bおよび200Cに上記の交点が投影される(S2B及びS2C)。これによって、仮想カメラVcの画素に対応するカメラ5Bの画素およびカメラ5Cの画素がテクスチャ座標として識別される。
【0034】
その後、カメラ5Bにより撮像されたカメラ画像200Bのうち、仮想カメラVcの画素に対応する画素が有する画素値が参照される(S3B)。さらに、カメラ5Cにより撮像されたカメラ画像200Cのうち仮想カメラVcの画素に対応する画素が有する画素値が参照される(S3C)。これらS3B及びS3Cで参照された画素値が仮想カメラVcの画素にマッピングされる。例えば、仮想カメラVcの画素に対応するカメラ画像200B上の画素の画素値およびカメラ画像200C上の画素の画素値の統計値、例えば相加平均または仮想カメラVcとの距離を用いる加重平均などが仮想カメラVcの画素の画素値として決定される。
【0035】
このように、仮想カメラVcの画素ごとに、カメラ画像200Bやカメラ画像200Cなどのテクスチャをマッピングすることで、仮想視点に対応する自由視点映像がレンダリングされる。なお、ここでは、あくまで一例として、複数のカメラ5のカメラ画像を用いて自由視点映像がレンダリングされる場合を例示したが、仮想カメラVcとの距離が最も近い最寄りのカメラ5のカメラ画像に絞って自由視点映像のレンダリングに用いることもできる。
【0036】
[課題の一側面]
上記の背景技術の欄で説明した通り、静的背景がモデリングされた背景モデルを自由視点映像のレンダリングに用いたのでは、カメラ画像に動的背景が含まれる場合に対応できない。なぜなら、動的背景が含まれる場合、仮想視点から背景モデルまでのデプスと、仮想視点から動的背景までのデプスとの間にずれが生じるからである。このデプスのずれが一因となって、テクスチャとして用いられるカメラ画像のうち誤ったテクスチャ座標の画素の画素値がマッピングされる結果、自由視点画像の画質が低下する。
【0037】
図5は、スタジアムの断面図の一例を示す図である。
図5には、スタジアムの中心から外側への方向、すなわちスタンドの列方向を切断面とする断面図が示されている。
図5に示す断面図には、静的背景の一例として、スタジアムのスタンド部分がモデリングされた背景モデル3Mbgsが示されている。さらに、
図5に示す断面図には、動的背景に対応する被写体の一例として、スタジアムのスタンドでスポーツ観戦を行う観客3bgdが示されている。
【0038】
図5に示すように、仮想視点Vcから背景モデル3Mbgsまでのデプス(実線矢印の部分)と、仮想視点Vcから観客3bgdまでのデプス(一点鎖線の部分)との間にはずれがある。それにもかかわらず、静的背景がモデリングされた背景モデル3Mbgsをレンダリングに用いる場合、動的背景の観客3bgdの3次元位置ではなく、静的背景の背景モデル3Mbgsの3次元位置に対応するテクスチャ座標がテクスチャマッピングに用いられる。すなわち、仮想視点Vcの光学中心を通るRayが観客3bgdと交わる交点O2の3次元位置ではなく、仮想視点Vcの光学中心を通るRayが背景モデル3Mbgsと交わる交点O1の3次元位置がカメラ画像200Bや200Cなどのテクスチャに投影される。このように、カメラ画像200Bや200Cのうち誤ったテクスチャ座標の画素がテクスチャマッピングに用いられる結果、自由視点映像の画質が低下する。
【0039】
このような動的背景に対応する側面から、上記の背景技術の欄で挙げた自由視点映像生成装置が提案されている。この自由視点映像生成装置は、まず、参照画像と奥行マップから各フレームの仮の自由視点画像を生成する。そして、自由視点映像生成装置は、参照画像と奥行マップから曲面背景バッファに保存する背景画像とその奥行値とを背景領域として抽出する。その上で、自由視点映像生成装置は、仮の自由視点画像を曲面背景バッファに保存した背景画像とその奥行値で補完する。
【0040】
しかしながら、上記の自由視点映像生成装置では、依然として、背景モデル及び動的背景のデプスのずれを低減できない場合がある。
【0041】
すなわち、上記の自由視点映像生成装置では、参照画像の奥行分布が平滑化されたガウス分布のうち極小値に対応する奥行を前景と背景の分割に用いることにより、背景領域が抽出される。ところが、背景領域の抽出に奥行値が用いられる場合、前景と背景との奥行値が近くなるにつれて両者の分割が困難になる。このため、上記の曲面背景バッファには、前景に対応する被写体が誤って背景として保存される結果、デプスのずれが拡大する。
【0042】
[課題解決のアプローチの一側面]
そこで、本実施例に係るサーバ装置10は、動的背景に対応する側面から、所定のフレームで各視点に対応するデプス画像を算出する。例えば、デプス画像は、2つ以上のカメラ画像からステレオマッチングにより算出することとしてもよいし、3次元のレーザセンサ等のデプスカメラにより測定されることとしてもかまわない。
【0043】
その上で、本実施例に係るサーバ装置10は、カメラ画像に対する前景背景分離で背景に分離された画素のデプスを用いてデプス画像の各画素のデプスを補正し、補正したデプス画像から背景モデルを生成する。
【0044】
このように、前景および背景の分離結果を用いることで、前景の被写体と背景の被写体とのデプスが近い場合でも、両者を区別してデプス画像を補正することができる。さらに、前景の被写体と背景の被写体との境界部においても、両者を混在せずにデプス画像におけるデプスのばらつきを補正することができる。このような補正が行われたデプス画像から背景モデルが生成される結果、背景モデルの精度を高めることができる。
【0045】
したがって、本実施例に係るサーバ装置10によれば、背景モデル及び動的背景のデプスのずれを低減させることが可能になる。
【0046】
[サーバ装置10の構成]
次に、本実施例に係るサーバ装置10の機能的構成について説明する。
図6は、実施例1に係るサーバ装置10の機能的構成を示すブロック図である。
図6に示すように、サーバ装置10は、通信I/F(InterFace)部11と、記憶部13と、制御部15とを有する。なお、
図11には、上記の映像生成サービスに関連する機能部が抜粋して示されているに過ぎず、図示以外の機能部、例えば既存のコンピュータがデフォルトまたはオプションで装備する機能部がサーバ装置10に備わることを妨げない。例えば、多視点のカメラ画像がカメラ5からサーバ装置10へ放送波や衛星波を介して伝搬される場合、放送波や衛星波の受信部をさらに有することとしてもかまわない。
【0047】
通信I/F部11は、他の装置との間で通信制御を行うインタフェースである。
【0048】
一実施形態として、通信I/F部11には、LAN(Local Area Network)カードなどのネットワークインタフェースカードが対応する。例えば、通信I/F部11は、各カメラ5からカメラ画像を受信したり、また、撮像制御に関する指示、例えば電源ON/電源OFFの他、パンやチルトなどの指示をカメラ5へ送信したりする。
【0049】
記憶部13は、制御部15で実行されるOS(Operating System)を始め、上記の映像生成プログラムなどの各種プログラムに用いられるデータを記憶するハードウェアに対応する。
【0050】
一実施形態として、記憶部13は、サーバ装置10における補助記憶装置に対応する。例えば、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)などが補助記憶装置に対応する。この他、EPROM(Erasable Programmable Read Only Memory)などのフラッシュメモリも補助記憶装置に対応する。
【0051】
記憶部13は、制御部15で実行されるプログラムに用いられるデータの一例として、シルエット画像210と、補正デプス画像230とを記憶する。これらシルエット画像210及び補正デプス画像230以外にも、記憶部13は、自由視点映像の技術に関連する各種のデータを記憶することができる。例えば、記憶部13は、カメラ5の位置や向きなどの外部パラメータ及びカメラ5の画角やレンズの歪みなどの内部パラメータを含むカメラパラメータの他、カメラ5から伝送されたカメラ画像の時系列データなどを視点ごとに保存することができる。なお、シルエット画像210及び補正デプス画像230の説明は、各データの登録または参照が行われる制御部15の説明と合わせて行うこととする。
【0052】
制御部15は、サーバ装置10の全体制御を行う処理部である。
【0053】
一実施形態として、制御部15は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などのハードウェアプロセッサにより実装することができる。ここでは、プロセッサの一例として、CPUやMPUを例示したが、汎用型および特化型を問わず、任意のプロセッサにより実装することができる。この他、制御部15は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによって実現されることとしてもかまわない。
【0054】
制御部15は、図示しない主記憶装置として実装されるDRAM(Dynamic Random Access Memory)などのRAMのワークエリア上に、上記の映像生成プログラムを展開することにより、下記の処理部を仮想的に実現する。なお、ここでは、上記の映像生成サービスに対応する機能がパッケージ化された映像生成プログラムが実行される例を挙げたが、これに限定されない。例えば、上記の映像生成サービスが提供する機能のうち、各視点のデプス画像が補正された補正デプス画像から背景モデルを生成する背景モデル生成機能などの単位でプログラムモジュールが実行されたり、ライブラリが参照されたりすることとしてもかまわない。
【0055】
制御部15は、
図6に示すように、取得部15Aと、算出部15Bと、分離部15Cと、補正部15Dと、前景生成部15Eと、背景生成部15Fと、レンダリング部15Gとを有する。
【0056】
取得部15Aは、各視点のカメラ画像を取得する処理部である。
【0057】
一実施形態として、取得部15Aは、カメラ5A~カメラ5Nから伝送される各視点のカメラ画像をフレーム単位で取得することができる。ここで、取得部15Aがカメラ画像を取得する情報ソースは、任意の情報ソースであってよく、カメラ5に限定されない。例えば、取得部15Aは、各視点のカメラ画像を蓄積するハードディスクや光ディスクなどの補助記憶装置またはメモリカードやUSB(Universal Serial Bus)メモリなどのリムーバブルメディアから多視点のカメラ画像を取得することもできる。この他、取得部15Aは、カメラ5以外の外部装置からネットワークNWを介して各視点のカメラ画像を取得することもできる。
【0058】
このように各視点のカメラ画像が取得された後、前景モデルの生成に用いるシルエット画像および背景モデルの生成に用いる補正デプス画像が生成される。これらシルエット画像および補正デプス画像は、カメラ5の視点ごとに当該視点に対応するカメラ画像を入力とし、算出部15B、分離部15Cおよび補正部15Dによる処理が実行されることにより生成できる。
【0059】
以下では、あくまで一例として、算出部15Bによるデプス画像の算出、分離部15Cによる前景背景分離および補正部15Dによるデプス画像の補正がシングルスレッドで実行される例を挙げて説明するが、これに限定されない。例えば、カメラ5の視点ごとに、算出部15Bによるデプス画像の算出、分離部15Cによる前景背景分離および補正部15Dによるデプス画像の補正がマルチスレッドで並列処理されることとしてもかまわない。このようにマルチスレッドで並列処理される場合、算出部15B、分離部15Cおよび補正部15Dは、カメラ5の視点の数に対応するスレッド数まで並列して動作させることができる。
【0060】
図7は、実施例1に係る各機能部間で授受されるデータの一例を示す図である。
図7には、一例として、カメラ5A~5NのN個の視点のうち、カメラ5Aの視点に対応するデプス画像の算出、前景背景分離およびデプス画像の補正が行われる際に、算出部15B、分離部15Cおよび補正部15Dの間で授受されるデータの例が示されている。
【0061】
以下、N個の視点のうちデプス画像の算出、前景背景分離およびデプス画像の補正の処理対象として選択された視点のことを「基準視点」と記載する場合がある。なお、以下では、あくまで一例として、基準視点がカメラ5Aの視点である場合を抜粋して例示するが、他のカメラ5の視点が基準視点として選択される場合も、カメラ画像が変わるだけで処理内容に変わりはない。
【0062】
図7に示すように、取得部15Aにより取得されたカメラ画像200A~カメラ画像200Nのうち、基準視点に対応するカメラ画像200Aが算出部15Bへ入力される。さらに、あくまで一例として、基準視点に対応するデプス画像をステレオマッチングにより算出する側面から、カメラ画像200Aとの間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ5Bの視点が参照視点として選択される。このように選択された参照視点に対応するカメラ画像200Bも算出部15Bへ入力される。
【0063】
これらカメラ画像200A及びカメラ画像200Bが入力された場合、算出部15Bは、ステレオマッチングにより基準視点に対応するデプス画像220Aを算出する。例えば、算出部15Bは、カメラ5A及びカメラ5Bのカメラパラメータにしたがってカメラ画像200Aに対するカメラ画像200Bの視差マップを基準視点に対応するデプス画像220Aへ変換する。このようにして得られたデプス画像220Aが算出部15Bから補正部15Dへ入力される。
【0064】
なお、ここでは、あくまで一例として、基準視点に対応するデプス画像220Aがステレオマッチングにより算出される例を挙げたが、これに限定されない。例えば、3次元のレーザセンサ等のデプスカメラにより測定させることにより基準視点に対応するデプス画像220Aが取得されることとしてもかまわない。
【0065】
一方、基準視点に対応するカメラ画像200Aは、算出部15Bの他、分離部15Cにも入力される。カメラ画像200Aが入力された場合、分離部15Cは、カメラ画像200Aに含まれる被写体を前景および背景に分離する。
【0066】
あくまで一例として、分離部15Cは、いわゆる背景差分によりカメラ画像200Aから前景に対応するシルエットを抽出することができる。例えば、時系列に取得されるカメラ画像200Aのうち、前景が観測されない可能性が高いフレームの画像を背景画像として保存しておく。例えば、背景画像には、所定のフレーム数にわたってフレーム間の差分が検出されなかったフレームの画像などを用いることができる。このような背景画像が保存された下で、分離部15Cは、最新のフレームに対応するカメラ画像200Aと背景画像との間で画素値の差が所定の閾値以上であるか否かにより、前景または背景のラベルを画素ごとに割り当てる。これによって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像210Aが得られる。なお、ここでは、一例として、背景差分により前景背景分離が行われる例を挙げたが、グラフカット、例えば2次元のグラフカットにより前景背景分離を行うこととしてもかまわない。
【0067】
このようにして得られたシルエット画像210Aは、デプス画像220Aの補正に用いる側面から分離部15Cから補正部15Dへ入力されると共に、前景モデルの生成にも用いる側面から記憶部13に保存される。
【0068】
これらデプス画像220A及びシルエット画像210Aが入力された場合、補正部15Dは、シルエット画像210Aを用いてデプス画像220Aを補正する。このデプス画像220Aの補正時には、シルエット画像210Aで背景のラベルが割り当てられたデプス画像220Aの画素の画素値を有効とし、(1)空間フィルタリングおよび(2)時間フィルタリングを行うことができる。これら空間フィルタリングおよび時間フィルタリングのうち少なくとも1つが実行されればよく、必ずしも2つとも実行されずともかまわない。
【0069】
なお、
図1や
図7には、シルエット画像や補正デプス画像が記憶部13に保存される例を挙げたが、必ずしもシルエット画像や補正デプス画像が記憶部13等のストレージに格納されずともかまわない。
【0070】
(1)空間フィルタリング
補正部15Dは、デプス画像220Aに含まれる画素ごとに当該画素のデプス値にその周辺画素のデプス値を畳み込むフィルタを適用する。このようなフィルタの例示として、ガウシアンフィルタや入力画像のエッジを参照したエッジ保存型のフィルタ、例えばバイラテラルフィルタなどの平滑化フィルタが挙げられる。
【0071】
ここで、フィルタの適用時には、補正部15Dは、シルエット画像210Aで背景のラベルが割り当てられたデプス画像220Aの画素のデプス値を有効とし、フィルタの畳み込み演算を実行する。
【0072】
図8Aは、シルエット画像210Aの一例を示す図である。
図8Bは、デプス画像220Aの一例を示す図である。
図8A及び
図8Bには、あくまで一例として、フィルタサイズが3×3であるガウシアンフィルタが適用される例が示されると共に、画素(イ)、画素(ロ)及び画素(ハ)の3つの画素にガウシアンフィルタが適用される場面が示されている。なお、ここでは、説明の便宜上、フィルタサイズが3×3である場合を例示するが、当然のことながら任意のフィルタサイズであってかまわない。
【0073】
以下、フィルタの適用時にフィルタの原点と重ね合わされる画素のことを「注目画素」とし、注目画素の周辺に位置する画素、例えば8近傍の画素のことを「周辺画素」と記載することがある。
【0074】
図9Aは、画像ID(IDentification)の一例を示す図である。
図9Aに示すように、フィルタの畳み込み演算時には、あくまで一例として、注目画素を「p
4」と識別する。さらに、注目画素の周辺画素のうち、左上の画素を「p
0」、真上の画素を「p
1」、右上の画素を「p
2」、左の画素を「p
3」、右の画素を「p
5」、左下の画素を「p
6」、真下の画素を「p
7」、右下の画素を「p
8」と識別する。
【0075】
このような識別の下、補正部15Dは、注目画素の補正デプスDiを下記の式(1)または下記の式(2)にしたがって算出する。ここで、式(1)及び式(2)における「i」とは、画素IDを指し、例えば、p0からp8までの8つの画素が含まれる。また、式(1)における「li」とは、シルエット画像210Aの画素のうち画素piに付与される前景または背景のラベル値を指す。ここでは、あくまで一例として、背景のラベルには、「1」が付与される一方で、前景のラベルには、「0」が付与されることとして以下の説明を行う。また、式(1)における「ki」とは、3×3のフィルタ係数の配列のうち画素piに適用されるフィルタ係数を指す。また、式(1)における「di」とは、デプス画像220Aの画素のうち画素piが有するデプスの値を指す。
【0076】
Di=(Σli×ki×di)÷(Σli×ki) If l4=1・・・(1)
Di=foreground If l4=0・・・(2)
【0077】
すなわち、補正部15Dは、注目画素のラベルl4が「1」である場合、すなわち注目画素に背景のラベルが付与されている場合、式(1)を用いて補正デプスを算出する。一方、注目画素のラベルl4が「0」である場合、すなわち注目画素に前景のラベルが付与されている場合、式(2)により注目画素が前景と識別される。この場合、補正部15Dは、注目画素のデプスが背景モデルの生成に用いられるのを抑制する側面から、注目画素の補正デプスDiに無効値、例えばNULL値を設定することにより無効化する。
【0078】
例えば、画素(イ)にガウシアンフィルタが適用される場合、補正部15Dは、
図9Bに示す畳み込み演算を実行する。
図9Bは、フィルタの畳み込み演算の一例を示す図である。
図9Bには、畳み込み演算時にデプスが有効とされる画素がハッチングで示されている。すなわち、
図8Aのシルエット画像210Aに示された通り、注目画素(イ)およびその8近傍の周辺画素には、背景のラベルが付与されている。この場合、
図9Bに示すように、ラベル行列の全てのラベル値l
0~l
8には、「1」が設定される。このようなラベル行列によって、デプス行列の全てのデプス値d
0~d
8が畳み込み演算に用いられる。また、カーネルのうち、左上の画素p
0のフィルタ係数k
0として「1/16」、真上の画素p
1のフィルタ係数k
1として「2/16」、右上の画素p
2のフィルタ係数k
2として「1/16」が用いられる。さらに、左の画素p
3のフィルタ係数k
3として「2/16」、注目画素p
4のフィルタ係数k
4として「4/16」、右の画素p
5のフィルタ係数k
5として「2/16」が用いられる。さらに、左下の画素p
6のフィルタ係数k
6として「1/16」、真下の画素p
7のフィルタ係数k
7として「2/16」、右下の画素p
8のフィルタ係数k
8として「1/16」が用いられる。
【0079】
これらラベル行列、カーネル及びデプス行列の下、式(1)にしたがって注目画素(イ)の補正デプスDiが算出される。例えば、左上の画素p0の計算は、1×(1/16)×d0となる。また、真上の画素p1の計算は、1×(2/16)×d1となる。また、左上の画素p2の計算は、1×(1/16)×d2となる。また、左の画素p3の計算は、1×(2/16)×d3となる。また、注目画素の画素p4の計算は、1×(4/16)×d4となる。また、右の画素p5の計算は、1×(2/16)×d5となる。また、左下の画素p6の計算は、1×(1/16)×d6となる。また、真下の画素p7の計算は、1×(2/16)×d7となる。また、右下の画素p8の計算は、1×(1/16)×d8となる。これらの合計が注目画素(イ)の補正デプスDiとして算出される。
【0080】
次に、画素(ロ)にガウシアンフィルタが適用される場合、補正部15Dは、
図9Cに示す畳み込み演算を実行する。
図9Cは、フィルタの畳み込み演算の一例を示す図である。
図9Cにも、畳み込み演算時にデプスが有効とされる画素がハッチングで示される一方で、畳み込み演算時にデプスが無効とされる画素が無地で示されている。すなわち、
図8Aのシルエット画像210Aに示された通り、注目画素(ロ)には、背景のラベルが付与されているものの、8近傍の周辺画素のうち一部の周辺画素、すなわち左の画素及び左下の画素には、前景のラベルが付与されている。この場合、
図9Cに示すように、ラベル行列のうち左の画素のラベル値l
3及び左下の画素のラベル値l
6には、「0」が設定される。このようなラベル行列によって、デプス行列の全てのデプス値d
0~d
8のうち左の画素のデプス値d
3及び左下の画素のデプス値d
6が無効化される。
【0081】
これらラベル行列、カーネル及びデプス行列の下、式(1)にしたがって注目画素(ロ)の補正デプスDiが算出される。例えば、左上の画素p0の計算は、1×(1/16)×d0となる。また、真上の画素p1の計算は、1×(2/16)×d1となる。また、左上の画素p2の計算は、1×(1/16)×d2となる。また、左の画素p3の計算は、0×(2/16)×d3となる。また、注目画素の画素p4の計算は、1×(4/16)×d4となる。また、右の画素p5の計算は、1×(2/16)×d5となる。また、左下の画素p6の計算は、0×(1/16)×d6となる。また、真下の画素p7の計算は、1×(2/16)×d7となる。また、右下の画素p8の計算は、1×(1/16)×d8となる。これらの合計が注目画素(ロ)の補正デプスDiとして算出される。
【0082】
また、画素(ハ)にガウシアンフィルタが適用される場合、画素(ハ)には前景のラベルが付与されているので、補正部15Dは、注目画素(ハ)の補正デプスDiにNULL値を設定する。
【0083】
このように、補正部15Dは、デプス画像220Aの画素ごとに注目画素および周辺画素のうち背景のラベルが割り当てられた画素のデプス値を有効とし、前景のラベルが割り当てられた画素のデプス値を無効としてフィルタを適用する空間フィルタリングを行う。これによって、前景の被写体と背景の被写体との境界部の画素においても、両者のデプスを混在せずに、デプス画像におけるデプスのばらつきを補正することができる。それ故、デプス画像の画素間におけるデプスのばらつきを抑制したり、あるいはデプス画像のうち背景のラベルが割り当てられた画素のデプス値に欠損がある場合でもデプス値を補間したりすることができる。
【0084】
(2)時間フィルタリング
補正部15Dは、デプス画像220Aに含まれる画素ごとに当該画素のデプス値に過去の所定数のフレームに遡って同一の位置に存在する画素のデプス値を畳み込むフィルタを適用する。
【0085】
この時間フィルタリングにおいても、フィルタの適用時には、補正部15Dは、シルエット画像210Aで背景のラベルが割り当てられたデプス画像220Aの画素のデプス値を有効とし、フィルタの畳み込み演算を実行する。
【0086】
図10Aは、時間フィルタリングにおける注目画素の一例を示す図である。
図10Aに示すように、フィルタの畳み込み演算時には、あくまで一例として、注目画素を「i」と識別する。さらに、デプス画像220Aのフレームの識別にインデックスtを用いることとし、注目画素iの補正デプスD
iを算出する注目フレームを「t=T」と識別する。さらに、注目フレームTの過去フレームのうち注目フレームの1つ前の過去フレームを「t=T-1」と識別し、注目フレームTの過去フレームのうち注目フレームのN個の過去フレームを「t=T-N」と識別する。
【0087】
例えば、補正部15Dは、注目フレームTの注目画素pi,Tの補正デプスDi,Tを下記の式(3)または下記の式(4)にしたがって算出する。ここで、式(3)及び式(4)における「N」とは、カーネルのサイズを指す。また、式(3)における「li,t」とは、フレームtのシルエット画像210Aの画素pi,tに付与される前景または背景のラベル値を指す。ここでは、あくまで一例として、背景のラベルには、「1」が付与される一方で、前景のラベルには、「0」が付与されることとして以下の説明を行う。また、式(3)における「kt」とは、カーネルのうちフレームtに適用されるフィルタ係数を指す。また、式(3)における「di,t」とは、フレームtのデプス画像220Aの画素pi,tが有するデプス値を指す。
【0088】
【数1】
D
i,T=foreground If l
i,T=0・・・(4)
【0089】
すなわち、補正部15Dは、注目フレームTの注目画素pi,Tのラベルli,Tが「1」である場合、すなわち注目フレームの注目画素に背景のラベルが付与されている場合、式(3)を用いて補正デプスを算出する。一方、注目フレームTの注目画素pi,Tのラベルli,Tが「0」である場合、すなわち注目画素に前景のラベルが付与されている場合、式(4)により注目画素が前景と識別される。この場合、補正部15Dは、注目フレームTの注目画素pi,Tのデプスが背景モデルの生成に用いられるのを抑止する側面から、注目フレームTの注目画素pi,Tの補正デプスDi,TをNULL値として無効化する。
【0090】
図10Bは、フィルタの畳み込み演算の一例を示す図である。
図10Bには、畳み込み演算時にデプスが有効とされるフレームtの注目画素p
i,tがハッチングで示される一方で、畳み込み演算時にデプスが無効とされるフレームtの注目画素p
i,tが無地で示されている。なお、
図10Bには、カーネルサイズNが「4」である例が示されているが、カーネルサイズNは2以上の任意の値であってかまわない。
【0091】
図10Bに示すように、注目画素iに関し、注目フレームT、1つ前の過去フレームT-1、3つ前の過去フレームT-3には、背景のラベルが付与されているものの、2つ前の過去フレームT-2には、前景のラベルが付与されている。この場合、
図10Bに示すように、ラベル行列のうち2つ前の過去フレームT-2のラベル値l
i,T-2には、「0」が設定される。このようなラベル行列によって、デプス行列のデプス値d
i,T~d
i,T-4のうち2つ前の過去フレームT-2のデプス値d
i,T-2が無効化される。また、カーネルのうち、注目フレームTのフィルタ係数k
Tとして「20/64」、1つ前の過去フレームT-1のフィルタ係数k
T-1として「15/64」、2つ前の過去フレームT-2のフィルタ係数k
T-2として「6/64」が用いられる。さらに、3つ前の過去フレームT-3のフィルタ係数k
T-3として「1/64」が用いられる。
【0092】
これらラベル行列、カーネル及びデプス行列の下、式(3)にしたがって注目画素pi,Tの補正デプスDi,Tが算出される。例えば、注目フレームTの画素pi,Tの計算は、1×(20/64)×di,Tとなる。また、1つ前の過去フレームT-1の画素pi,T-1の計算は、1×(15/64)×di,T-1となる。また、2つ前の過去フレームT-2の画素pi,T-2の計算は、0×(6/64)×di,T-2となる。また、3つ前の過去フレームT-3の画素pi,T-3の計算は、1×(1/64)×di,T-3となる。これらの合計が注目画素pi,Tの補正デプスDi,Tとして算出される。
【0093】
このように、補正部15Dは、デプス画像220Aの画素ごとに注目フレームおよび過去フレームにおける注目画素のうち背景のラベルが割り当てられた画素のデプス値を有効とし、前景のラベルが割り当てられた画素のデプス値を無効してフィルタを適用する。このような時間フィルタリングによって、過去フレームで注目画素のラベルが前景または背景にばらつく場合でも、両者のデプスを混在せずに、デプス画像のフレーム間におけるデプスのばらつきを補正することができる。このため、デプス画像のフレーム間におけるデプスのばらつきを抑制することができる。
【0094】
これら空間フィルタリング及び時間フィルタリングにより得られた補正デプス画像230Aは、背景モデルの生成に用いる側面から、記憶部13に保存される。
【0095】
図6の説明に戻り、前景生成部15Eは、前景モデルを生成する処理部である。
【0096】
一実施形態として、前景生成部15Eは、記憶部13にカメラ5の視点ごとに記憶されたシルエット画像210を用いて、前景モデル3Mfgを生成することができる。この前景モデルの生成には、
図3を用いて上述したVisual-Hullを適用することができる。このVisual Hullでは、カメラ5の光学中心とシルエット画像上のシルエットとを結んでできるConeが生成された上で、Cone同士が重なる3次元空間上の領域が前景に対応する被写体3fgの3次元形状として算出される。例えば、
図3に示すように、前景生成部15Eは、カメラ5A~5Cの各視点に対応するシルエット画像210A~210CごとにシルエットSA~SCを3次元空間に投影する。例えば、シルエットSAが投影された場合、カメラ5Aの光学中心およびシルエット画像210A上のシルエットSAを結ぶ視体積CAが得られる。さらに、シルエットSBが投影された場合、カメラ5Bの光学中心およびシルエット画像210B上のシルエットSBを結ぶ視体積CBが得られる。さらに、シルエットSCが投影された場合、カメラ5Cの光学中心およびシルエット画像210C上のシルエットSCを結ぶ視体積CCが得られる。これら視体積CA~CCが重複するVisual Hull領域、すなわち
図3に示す黒の塗り潰しの3次元形状が前景モデル3Mfgとして算出される。
【0097】
背景生成部15Fは、背景モデルを生成する処理部である。
【0098】
一実施形態として、背景生成部15Fは、記憶部13にカメラ5の視点ごとに記憶された補正デプス画像230を用いて、背景モデル3Mbgを生成することができる。例えば、背景生成部15Fは、各視点の補正デプス画像230を合成することにより、背景モデル3Mbgを生成する。なお、ここでは、あくまで一例として、補正デプス画像を合成して3次元の背景モデルを生成することとしたが、必ずしも3次元の背景モデルを生成せずともかまわない。例えば、カメラ5の視点ごとに得られた補正デプス画像を合成せずに各視点の補正デプス画像をそのままレンダリング部15Gに入力することとしてもかまわない。
【0099】
レンダリング部15Gは、自由視点映像をレンダリングする処理部である。
【0100】
一実施形態として、レンダリング部15Gは、クライアント端末30からユーザ入力を受け付けることにより仮想視点を指定させることができる。この他、レンダリング部15Gは、クライアント端末30を介するユーザ設定またはサーバ装置10に登録されたシステム設定により仮想視点を指定させることができる。このように仮想視点が指定された上で、レンダリング部15Gは、
図4を用いて説明した通り、仮想視点に対応する自由視点映像をレンダリングする。すなわち、レンダリング部15Gは、仮想カメラVcの光学中心および画素を通る直線と、前景モデル3Mfgまたは背景モデル3Mbgとの交点の3次元位置を算出する(S1)。続いて、レンダリング部15Gは、カメラ5の位置や姿勢などの外部パラメータ及びカメラ5の画角やレンズの歪みなどの内部パラメータが設定されたカメラパラメータにしたがって、上記の交点を各視点に対応するカメラ画像に投影する。
図4に示す例で言えば、仮想カメラVcからの距離が近い所定数のカメラ5のカメラ画像、すなわちカメラ5BおよびカメラCの2つのカメラ画像200Bおよび200Cに上記の交点が投影される(S2B及びS2C)。これによって、仮想カメラVcの画素に対応するカメラ5Bの画素およびカメラ5Cの画素がテクスチャ座標として識別される。その後、レンダリング部15Gは、カメラ5Bにより撮像されたカメラ画像200Bのうち、仮想カメラVcの画素に対応する画素が有する画素値を参照する(S3B)。さらに、レンダリング部15Gは、カメラ5Cにより撮像されたカメラ画像200Cのうち仮想カメラVcの画素に対応する画素が有する画素値を参照する(S3C)。その上で、レンダリング部15Gは、S3B及びS3Cで参照された画素値を仮想カメラVcの画素にマッピングする。例えば、仮想カメラVcの画素に対応するカメラ画像200B上の画素の画素値およびカメラ画像200C上の画素の画素値の統計値、例えば相加平均または仮想カメラVcとの距離を用いる加重平均などが仮想カメラVcの画素の画素値として決定される。
【0101】
[処理の流れ]
図11は、実施例1に係る映像生成処理の手順を示すフローチャートである。この処理は、一例として、各カメラ5からカメラ画像が取得された場合、すなわち多視点のカメラ画像が得られた場合に実行される。
【0102】
図11に示すように、カメラ5A~カメラ5Nから各視点のカメラ画像が取得されると(ステップS101)、算出部15Bは、カメラ5A~5NのN個の視点のうち未選択の視点を基準視点として選択する(ステップS102)。続いて、算出部15Bは、基準視点に対応するカメラ画像との間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ5の視点を参照視点として選択する(ステップS103)。
【0103】
その上で、算出部15Bは、ステレオマッチングにより、ステップS102で選択された基準視点に対応するカメラ画像およびステップS103で選択された参照視点に対応するカメラ画像から基準視点に対応するデプス画像を算出する(ステップS104)。
【0104】
また、分離部15Cは、ステップS102で選択された基準視点に対応するカメラ画像に含まれる被写体を前景および背景に分離する(ステップS105)。このような前景および背景の分離によって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像が得られる。
【0105】
その後、補正部15Dは、ステップS105で得られたシルエット画像を用いて、ステップS104で得られたデプス画像を補正する(ステップS106)。このデプス画像の補正によって、補正デプス画像が得られる。
【0106】
そして、カメラ画像に含まれる全ての画素が選択されるまで(ステップS107No)、上記のステップS102から上記のステップS106までの処理が繰り返し実行される。
【0107】
その後、カメラ画像に含まれる全ての画素が選択された場合(ステップS107Yes)、前景生成部15Eは、ステップS105の繰り返しにより得られた各視点のシルエット画像を用いて前景モデルを生成する(ステップS108)。また、背景生成部15Fは、ステップS106の繰り返しにより得られた各視点の補正デプス画像を用いて背景モデルを生成する(ステップS109)。
【0108】
そして、レンダリング部15Gは、ステップS101で取得された各視点のカメラ画像と、ステップS108及びS109で生成された前景モデル及び背景モデルとを用いて、仮想視点に対応するカメラ画像、いわゆる自由視点映像を生成し(ステップS110)、処理を終了する。
【0109】
なお、
図11のフローチャートでは、ステップS105の前景背景分離がステップS104の処理が実行された後に実行される例が示されているが、ステップS105の前景背景分離は、ステップS102で基準視点が選択された段階から開始することができる。このため、ステップS105の前景背景分離は、ステップS103及びステップS104の処理よりも先に実行されることとしてもよいし、ステップS103及びステップS104の処理と並列して実行することもできる。このような順序の入替えや並列処理が行われる場合でも、ステップS105の前景背景分離の処理内容に変わりはない。
【0110】
[効果の一側面]
上述してきたように、本実施例に係るサーバ装置10は、前景モデルを生成する側面から行われる前景背景分離により得られた前景および背景の分離結果を用いて各視点に対応するデプス画像を補正し、補正されたデプス画像から背景モデルを生成する。このように、前景および背景の分離結果を用いることで、前景の被写体と背景の被写体とのデプスが近い場合でも、両者を区別してデプス画像を補正することができる。さらに、前景の被写体と背景の被写体との境界部においても、両者を混在せずにデプス画像におけるデプスのばらつきを補正することができる。このような補正が行われたデプス画像から背景モデルが生成される結果、背景モデルの精度を高めることができる。したがって、本実施例に係るサーバ装置10によれば、背景モデル及び動的背景のデプスのずれを低減させることが可能になる。
【実施例2】
【0111】
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
【0112】
[前景背景分離の応用例1]
例えば、サーバ装置10は、ステレオマッチング等により得られたデプス画像をさらに用いて前景背景分離を行うことができる。
【0113】
すなわち、上記の実施例1で例に挙げたが背景差分により前景背景分離が実現される場合、画素値が表す色情報に基づいて前景および背景が分離される。この場合、前景の被写体と背景の被写体の色が類似する場合、前景の被写体が背景として分離されたり、背景の被写体が前景として分離されたりするので、十分な分離精度を発揮できないことがある。例えば、スポーツ観戦の様子がカメラ画像として撮像される場合、前景となる選手および動的背景となる観客は、いずれも人であるので、色情報だけでカメラ画像から前景と背景を分離するのは困難である。なお、ここでは、前景背景分離に背景差分を用いる場合を例に挙げたが、この例に限定されない。例えば、前景に対応する色のヒストグラムおよび背景に対応する色のヒストグラムを生成しておき、これらの色のヒストグラムに基づいて取得部15Aに取得されたカメラ画像の画素の色を分離する場合にも同様の課題が生じる。
【0114】
このことから、応用例1では、色情報に加えて奥行きの情報をさらに用いて前景背景分離を行うことで、前景の被写体と背景の被写体の色が類似する場合にもロバストな前景背景分離を実現し、もって前景および背景の分離精度の向上を図る。
【0115】
このような前景背景分離を実現する側面から、応用例1では、前景背景分離に2次元のグラフカットを用いる例を説明する。例えば、カメラ画像に含まれる画素に前景または背景のラベルを割り当てるラベル付け問題を下記の式(5)に示すエネルギー関数を最小化する問題として定式化する。
【0116】
E=ΣEd(p)+λΣEs(p,q)・・・(5)
【0117】
上記の式(5)に示すエネルギー関数Eには、右辺第一項の「データ項」と右辺第二項の「平滑化項」とが含まれる。式(5)における「λ」は、平滑化項に付与する重みの係数を指す。また、式(5)における「p」は、前景または背景のラベルを割り当てる対象とする画素を指す。また、式(5)における「q」は、画素pに隣接する画素を指し、例えば、画素pの周囲に位置する8近傍、あるいは4近傍の画素を隣接画素として設定することができる。
【0118】
ここで、データ項は、下記の式(6)に示すように、色情報から求める第1の前景尤度および第1の背景尤度に基づくエネルギーEcolorと、デプス値から求める第2の前景尤度および第2の背景尤度に基づくエネルギーEdepthとにより定式化する。なお、式(6)における「wcolor」は、Ecolorに付与する重み係数を指し、また、式(6)における「wdepth」は、Edepthに付与する重み係数を指す。
【0119】
Ed(p)=wcolor×Ecolor+wdepth×Edepth・・・(6)
【0120】
また、平滑化項は、下記の式(7)の通り、隣接する画素間でラベルを滑らかにするペナルティ関数が定められる。なお、式(7)における「Cp」は、画素pにおける画素値を指し、また、式(7)における「Cq」は、隣接画素qにおける画素値を指す。
【0121】
ΣEs(p,q)=exp(|Cp-Cq|)・・・(7)
【0122】
このようなデータ項によって、第1の前景尤度および第1の背景尤度と、第2の前景尤度および第2の背景尤度との傾向を維持する作用をラベルの割り振りに発揮させることができる。さらに、平滑化によって、画素ごとのラベルのばらつきを抑制する作用をラベルの割り振りに発揮させることができる。
【0123】
これらのデータ項および平滑化項を含むエネルギー関数Eを最小化するラベルの集合を最大フロー最小カットの定理にしたがって算出することにより、画素ごとに前景または背景のラベルを割り当てることができる。
【0124】
以上のようなグラフカットを実現する側面から、応用例1では、第1尤度算出部21および第2尤度算出部22などの機能部が追加される。さらに、応用例1では、上記の実施例1で示した分離部15Cの代わりに、前景背景分離をグラフカットで実現する分離部23が追加される。
【0125】
図12は、応用例1における各機能部間で授受されるデータの一例を示す図である。
図12には、一例として、カメラ5A~5NのN個の視点のうち、カメラ5Aの視点が基準視点として選択された際に、各機能部の間で授受されるデータの例が示されている。
【0126】
図12に示すように、取得部15Aにより取得されたカメラ画像200A~カメラ画像200Nのうち、基準視点に対応するカメラ画像200Aが算出部15Bへ入力される。さらに、あくまで一例として、基準視点に対応するデプス画像をステレオマッチングにより算出する側面から、カメラ画像200Aとの間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ5Bの視点が参照視点として選択される。このように選択された参照視点に対応するカメラ画像200Bも算出部15Bへ入力される。
【0127】
これらカメラ画像200A及びカメラ画像200Bが入力された場合、算出部15Bは、ステレオマッチングにより基準視点に対応するデプス画像220Aを算出する。例えば、算出部15Bは、カメラ5A及びカメラ5Bのカメラパラメータにしたがってカメラ画像200Aに対するカメラ画像200Bの視差マップを基準視点に対応するデプス画像220Aへ変換する。
【0128】
ここまでは、
図12および
図7の間で差はないが、ここからが異なる。すなわち、ステレオマッチング等により得られたデプス画像220Aは、算出部15Bから補正部15Dへ入力されるだけでなく、算出部15Bから第1尤度算出部21へも入力される。
【0129】
一方、基準視点に対応するカメラ画像200Aは、算出部15Bの他、第1尤度算出部21にも入力される。カメラ画像200Aが入力された場合、第1尤度算出部21は、カメラ画像200Aに含まれる画素ごとに当該画素の画素値を用いて第1の前景尤度および第1の背景尤度を算出する。これら第1の前景尤度および第1の背景尤度は、次のようにして算出することができる。例えば、前景および背景のラベルごとに、色がラベルに該当する度数分布、例えばヒストグラムや確率分布、例えば混合ガウス分布を事前に算出しておく。ここでは、あくまで一例として、K個のガウス分布を含む混合ガウス分布が前景および背景のラベルごとに準備される場合を例示する。このような混合ガウス分布およびカメラ画像200Aの画素pの画素値Ipを比較することにより、画素pの第1の前景尤度および第1の背景尤度を算出する。例えば、第1尤度算出部21は、下記の式(8)にしたがってカメラ画像200Aの画素pの画素値Ipから第1の前景尤度または第1の背景尤度を求める。ここで、式(8)における「wk」とは、k番目のガウス分布の重みを指す。また、式(8)における「N(Ip|μk,Σk)」とは、k番目のガウス分布を指す。このような式(8)により、前景および背景のラベルごとにK個のガウス分布の中から1つのガウス分布が選択される。このように算出された第1の前景尤度および第1の背景尤度が第1尤度算出部21から分離部23へ入力される。
【0130】
Pcolor(p|l)=Σwk・N(Ip|μk,Σk)・・・(8)
【0131】
また、デプス画像220Aが入力された第2尤度算出部22は、デプス画像220Aの画素ごとに当該画素のデプス値を用いて第2の前景尤度および第2の背景尤度を算出する。これら第2の前景尤度および第2の背景尤度は、次のようにして算出することができる。まず、3次元空間上で前景の存在領域および背景の存在領域が事前に設定される。例えば、スポーツ観戦を例に挙げれば、スタジアム内で選手が競技を行うフィールドの面および選手やボールが移動しうる高さなどが前景の存在領域として設定される。また、スタジアム内で前景の存在領域以外の領域が背景の存在領域として設定される。
【0132】
これら前景の存在領域および背景の存在領域の設定の下、第2尤度算出部22は、基準視点に対応するデプス画像220Aの画素pの奥行き方向の評価値を算出する。例えば、第2尤度算出部22は、基準視点のカメラ5Aの光学中心から尤度の算出対象とする画素pを通るRayを参照視点のカメラ5Bのデプス画像220Bに投影する。これによって、デプス画像220B上にエピポーラ線が描画される。その上で、第2尤度算出部22は、デプス画像220Aの画素pと、デプス画像220Bのエピポーラ線上に存在する各画素との間で評価値、例えばSAD(Sum of Absolute Difference)を算出する。
【0133】
図13は、評価値とデプスのグラフの一例を示す図である。
図13には、縦軸をSADとし、横軸をデプスとするグラフが示されている。ここで言う「デプス」とは、カメラ5Aの光学中心を原点とし、そこからの奥行き方向の距離を指す。さらに、
図13には、グラフに重ねて前景の存在領域および背景の存在領域が示されている。
図13に示すように、第2尤度算出部22は、前景の存在領域のデプスに対応するSADのうちSADの最小値が観測される最小点j1を抽出する。その上で、第2尤度算出部22は、最小点j1で計測されるSADを代表評価値r(l)とし、この代表評価値r(l)を下記の式(9)にしたがって第2の前景尤度へ変換する。また、第2尤度算出部22は、背景の存在領域のデプスに対応するSADのうちSADの最小値が観測される最小点j2を抽出する。その上で、第2尤度算出部22は、最小点j2で計測されるSADを代表評価値r(l)とし、この代表評価値r(l)を下記の式(9)にしたがって第2の背景尤度へ変換する。このように算出された第2の前景尤度および第2の背景尤度が第2尤度算出部22から分離部23へ入力される。
【0134】
Pdepth(p|l)=exp(-r(l))・・・(9)
【0135】
そして、分離部23は、上記の式(5)に示すエネルギー関数を最小化するラベルの集合を最大フロー最小カットの定理にしたがって算出する。このような2次元のグラフカットによって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像210A′が得られる。
【0136】
このようにして得られたシルエット画像210A′は、デプス画像220Aの補正に用いる側面から分離部23から補正部15Dへ入力されると共に、前景モデルの生成にも用いる側面から記憶部13に保存される。
【0137】
これらデプス画像220A及びシルエット画像210A′が入力された場合、補正部15Dは、シルエット画像210A′を用いてデプス画像220Aを補正する。このデプス画像220Aの補正時には、補正部15Dは、シルエット画像210A′で背景のラベルが割り当てられたデプス画像220Aの画素の画素値を有効とし、空間フィルタリングおよび時間フィルタリングのうち少なくとも1つを実行する。これによって、デプス画像220Aが補正された補正デプス画像230A′が得られる。このように、前景の被写体と背景の被写体の色が類似する場合にもロバストな前景背景分離が行われたシルエット画像210A′をデプス画像の補正に用いることで、背景モデルの精度も高めることができる。
【0138】
一方、記憶部13に保存されたシルエット画像210A′は、他のシルエット画像210とともに、前景生成部15Eにより前景モデルの生成に用いられる。このように、シルエット画像210A′を前景モデルの生成に用いることで、前景モデルの精度も高めることができる。
【0139】
図14は、応用例1に係る映像生成処理の手順を示すフローチャートである。この処理は、一例として、各カメラ5からカメラ画像が取得された場合、すなわち多視点のカメラ画像が得られた場合に実行される。
【0140】
図14に示すように、カメラ5A~カメラ5Nから各視点のカメラ画像が取得されると(ステップS101)、算出部15Bは、カメラ5A~5NのN個の視点のうち未選択の視点を基準視点として選択する(ステップS102)。続いて、算出部15Bは、基準視点に対応するカメラ画像との間で視差を得ることが可能である視点、例えば基準視点と隣接するカメラ5の視点を参照視点として選択する(ステップS103)。
【0141】
その上で、算出部15Bは、ステレオマッチングにより、ステップS102で選択された基準視点に対応するカメラ画像およびステップS103で選択された参照視点に対応するカメラ画像から基準視点に対応するデプス画像を算出する(ステップS104)。
【0142】
続いて、第1尤度算出部21は、基準視点に対応するカメラ画像の色情報に基づいて各画素の第1の前景尤度および第1の背景尤度を算出する(ステップS201)。また、第2尤度算出部22は、ステップS104で算出されたデプス画像を用いて各画素の第2の前景尤度および第2の背景尤度を算出する(ステップS202)。
【0143】
その上で、分離部23は、第1の前景尤度および第1の背景尤度と、第2の前景尤度および第2の背景尤度とがデータ項に組み込まれたエネルギー関数を最小化するラベルの集合を最大フロー最小カットの定理にしたがって算出する(ステップS203)。このような2次元のグラフカットによって、画素ごとに前景または背景のラベルが割り当てられたシルエット画像210Aが得られる。
【0144】
その後、補正部15Dは、ステップS203で得られたシルエット画像を用いて、ステップS104で得られたデプス画像を補正する(ステップS106)。このデプス画像の補正によって、補正デプス画像が得られる。
【0145】
そして、カメラ画像に含まれる全ての画素が選択されるまで(ステップS107No)、上記のステップS102から上記のステップS106までの処理が繰り返し実行される。
【0146】
その後、カメラ画像に含まれる全ての画素が選択された場合(ステップS107Yes)、前景生成部15Eは、ステップS203の繰り返しにより得られた各視点のシルエット画像を用いて前景モデルを生成する(ステップS108)。また、背景生成部15Fは、ステップS106の繰り返しにより得られた各視点の補正デプス画像を用いて背景モデルを生成する(ステップS109)。
【0147】
そして、レンダリング部15Gは、ステップS101で取得された各視点のカメラ画像と、ステップS108及びS109で生成された前景モデル及び背景モデルとを用いて、仮想視点に対応するカメラ画像、いわゆる自由視点映像を生成し(ステップS110)、処理を終了する。
【0148】
なお、
図14のフローチャートでは、ステップS201の第1の前景尤度および第1の背景尤度の算出がステップS104の処理が実行された後に実行される例が示されているが、ステップS201の処理は、ステップS102で基準視点が選択された段階から開始することができる。このため、ステップS203の前景背景分離は、ステップS103及びステップS104の処理よりも先に実行されることとしてもよいし、ステップS103及びステップS104の処理と並列して実行することもできる。このような順序の入替えや並列処理が行われる場合でも、ステップS201の処理内容に変わりはない。また、ステップS202の第2の前景尤度および第2の背景尤度の算出がステップS201の処理が実行された後に実行される例が示されているが、ステップS202の処理は、ステップS104でデプス画像が算出された段階から開始することができる。このため、ステップS202の処理は、ステップS201の処理よりも先に実行されることとしてもよいし、ステップS201の処理と並列して実行することもできる。このような順序の入替えや並列処理が行われる場合でも、ステップS202の処理内容に変わりはない。
【0149】
[前景背景分離の応用例2]
上記の実施例1では、カメラ画像に含まれる画素を前景および背景の少なくとも2つのカテゴリに分離する例を挙げたが、3つ以上のカテゴリに分離することとしてもかまわない。例えば、分離部15Cおよび分離部23は、カメラ画像に含まれる画素のうち背景に分離される画素を背景のカテゴリがさらに区分された背景のサブカテゴリ群にさらに分離することもできる。例えば、スポーツ観戦を例に挙げれば、背景のカテゴリは、背景サブカテゴリ1「観客」および背景サブカテゴリ2「フィールド」にさらに区分できる。このように3つ以上のカテゴリが存在する場合、グラフカットの実行時には、前景および背景の2値のラベルの代わりに、前景カテゴリ、背景サブカテゴリ1及び背景サブカテゴリ2に対応する多値のラベルごとに、第1の前景尤度および第1の背景尤度と、第2の前景尤度および第2の背景尤度とを算出する。例えば、第1の前景尤度および第1の背景尤度を算出する場合、前景カテゴリ、背景サブカテゴリ1及び背景サブカテゴリ2ごとに混合ガウス分布を用意することとすればよい。また、第2の前景尤度および第2の背景尤度を算出する場合、前景カテゴリの存在領域、背景サブカテゴリ1の存在領域及び背景サブカテゴリ2の存在領域を設定することとすればよい。そして、分離部15Cおよび分離部23は、多値のグラフカットにより、前景カテゴリ、背景サブカテゴリ1及び背景サブカテゴリ2の多値のラベルを各画素に割り当てる。その上で、補正部15Dは、デプス画像に含まれる画素のデプスを画素が分離された背景サブカテゴリと同一の背景サブカテゴリに分離された画素のデプスを用いて補正することとすればよい。例えば、注目画素の背景サブカテゴリと同一の背景サブカテゴリに分離された周辺画素のデプス値や過去フレームのデプス値に絞り込んで畳み込み演算を行うこととすればよい。
【0150】
[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部15A、算出部15B、分離部15C、補正部15D、前景生成部15E、背景生成部15Fまたはレンダリング部15Gをサーバ装置10の外部装置としてネットワーク経由で接続するようにしてもよい。また、取得部15A、算出部15B、分離部15C、補正部15D、前景生成部15E、背景生成部15Fまたはレンダリング部15Gを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のサーバ装置10の機能を実現するようにしてもよい。
【0151】
[背景モデル生成プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、
図15を用いて、上記の実施例と同様の機能を有する背景モデル生成プログラムを実行するコンピュータの一例について説明する。
【0152】
図15は、実施例1及び実施例2に係る背景モデル生成プログラムを実行するコンピュータのハードウェア構成例を示す図である。
図15に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110~180の各部はバス140を介して接続される。
【0153】
HDD170には、
図15に示すように、上記の実施例1で示した取得部15A、算出部15B、分離部15C、補正部15D、前景生成部15E、背景生成部15F及びレンダリング部15Gと同様の機能を発揮する背景モデル生成プログラム170aが記憶される。この背景モデル生成プログラム170aは、
図6に示した取得部15A、算出部15B、分離部15C、補正部15D、前景生成部15E、背景生成部15Fまたはレンダリング部15Gの各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
【0154】
このような環境の下、CPU150は、HDD170から背景モデル生成プログラム170aを読み出した上でRAM180へ展開する。この結果、背景モデル生成プログラム170aは、
図15に示すように、背景モデル生成プロセス180aとして機能する。この背景モデル生成プロセス180aは、RAM180が有する記憶領域のうち背景モデル生成プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、背景モデル生成プロセス180aが実行する処理の一例として、
図11や
図14に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
【0155】
なお、上記の背景モデル生成プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に背景モデル生成プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から背景モデル生成プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに背景モデル生成プログラム170aを記憶させておき、コンピュータ100がこれらから背景モデル生成プログラム170aを取得して実行するようにしてもよい。
【0156】
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
【0157】
(付記1)所定の撮像位置からカメラにより撮像されたカメラ画像を取得する取得部と、
前記撮像位置に対応するデプス画像を算出する算出部と、
前記カメラ画像に含まれる複数の画素を前景と背景に分離する分離部と、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正する補正部と、
前記補正部により補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する背景生成部と、
を有することを特徴とする背景モデル生成装置。
【0158】
(付記2)前記補正部は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする付記1に記載の背景モデル生成装置。
【0159】
(付記3)前記補正部は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記2に記載の背景モデル生成装置。
【0160】
(付記4)前記補正部は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記2に記載の背景モデル生成装置。
【0161】
(付記5)前記分離部は、前記デプス画像を基づいて前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記補正部は、前記デプス画像に基づいて前記背景に分離された各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正することを特徴とする付記1に記載の背景モデル生成装置。
【0162】
(付記6)前記分離部は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正部は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする付記1に記載の背景モデル生成装置。
【0163】
(付記7)前記算出部は、前記カメラ画像と、前記カメラ画像と撮像位置が異なる他のカメラ画像との視差に基づいて前記デプス画像を算出することを特徴とする付記1に記載の背景モデル生成装置。
【0164】
(付記8)所定の撮像位置からカメラにより撮像されたカメラ画像を取得し、
前記撮像位置に対応するデプス画像を算出し、
前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータが実行することを特徴とする背景モデル生成方法。
【0165】
(付記9)前記補正する処理は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする付記8に記載の背景モデル生成方法。
【0166】
(付記10)前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記9に記載の背景モデル生成方法。
【0167】
(付記11)前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記9に記載の背景モデル生成方法。
【0168】
(付記12)前記分離する処理は、前記デプス画像を基づいて前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記補正する処理は、前記デプス画像に基づいて前記背景に分離された各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正することを特徴とする付記8に記載の背景モデル生成方法。
【0169】
(付記13)前記分離する処理は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正する処理は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする付記8に記載の背景モデル生成方法。
【0170】
(付記14)前記算出する処理は、前記カメラ画像と、前記カメラ画像と撮像位置が異なる他のカメラ画像との視差に基づいて前記デプス画像を算出することを特徴とする付記8に記載の背景モデル生成方法。
【0171】
(付記15)所定の撮像位置からカメラにより撮像されたカメラ画像を取得し、
前記撮像位置に対応するデプス画像を算出し、
前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記カメラ画像において前記背景に分離された各画素に対応する前記デプス画像の各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正し、
補正された前記デプス画像の各画素のデプス値に基づく新たなデプス画像を用いて、前記背景に係る背景モデルを生成する、
処理をコンピュータに実行させることを特徴とする背景モデル生成プログラム。
【0172】
(付記16)前記補正する処理は、前記デプス画像に含まれる複数の画素のうち前記前景に分離された各画素のデプス値に無効値を設定することを特徴とする付記15に記載の背景モデル生成プログラム。
【0173】
(付記17)前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、デプス値および周辺画素のデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記16に記載の背景モデル生成プログラム。
【0174】
(付記18)前記補正する処理は、前記デプス画像に含まれる複数の画素ごとに、補正対象とする注目フレームにおけるデプス値および過去のフレームにおけるデプス値のうち前記背景に分離された画素のデプス値を所定のフィルタに設定されたフィルタ係数に基づいて畳み込むことにより、前記背景に分離された各画素のデプス値を補正することを特徴とする付記16に記載の背景モデル生成プログラム。
【0175】
(付記19)前記分離する処理は、前記デプス画像を基づいて前記カメラ画像に含まれる複数の画素を前景と背景に分離し、
前記補正する処理は、前記デプス画像に基づいて前記背景に分離された各画素のデプス値を用いて、前記デプス画像の各画素のデプス値を補正することを特徴とする付記15に記載の背景モデル生成プログラム。
【0176】
(付記20)前記分離する処理は、前記カメラ画像に含まれる複数の画素のうち前記背景に分離される各画素を、前記背景のカテゴリがさらに区分された背景のサブカテゴリ群に分離し、
前記補正する処理は、前記デプス画像に含まれる第一の画素のデプス値を、前記第一の画素が分離された背景のサブカテゴリと同一の背景のサブカテゴリに分離された第二の画素のデプス値を用いて補正することを特徴とする付記15に記載の背景モデル生成プログラム。
【符号の説明】
【0177】
1 映像生成システム
3fg,3bgs,3bgd 被写体
5A~5N カメラ
10 サーバ装置
11 通信I/F部
13 記憶部
15 制御部
15A 取得部
15B 算出部
15C 分離部
15D 補正部
15E 前景生成部
15F 背景生成部
15G レンダリング部
30 クライアント端末