(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024175041
(43)【公開日】2024-12-17
(54)【発明の名称】画像処理装置、制御方法、およびプログラム
(51)【国際特許分類】
G06T 7/70 20170101AFI20241210BHJP
G06T 19/00 20110101ALI20241210BHJP
G06T 17/00 20060101ALI20241210BHJP
G06T 15/20 20110101ALI20241210BHJP
G06T 19/20 20110101ALI20241210BHJP
G06T 7/55 20170101ALI20241210BHJP
G06T 7/20 20170101ALI20241210BHJP
【FI】
G06T7/70 A
G06T19/00 C
G06T19/00 A
G06T17/00
G06T15/20 500
G06T19/20
G06T7/55
G06T7/20 300Z
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2024159721
(22)【出願日】2024-09-17
(62)【分割の表示】P 2022161719の分割
【原出願日】2022-10-06
(71)【出願人】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100126240
【弁理士】
【氏名又は名称】阿部 琢磨
(74)【代理人】
【識別番号】100223941
【弁理士】
【氏名又は名称】高橋 佳子
(74)【代理人】
【識別番号】100159695
【弁理士】
【氏名又は名称】中辻 七朗
(74)【代理人】
【識別番号】100172476
【弁理士】
【氏名又は名称】冨田 一史
(74)【代理人】
【識別番号】100126974
【弁理士】
【氏名又は名称】大朋 靖尚
(72)【発明者】
【氏名】小沼 和文
(57)【要約】
【課題】 仮想視点映像の生成において、人物の位置の追跡を容易にする。
【解決手段】 画像処理装置は、被写体を複数の方向から撮像する撮像手段と、前記撮像手段によって取得された撮影画像を用いて前記被写体の三次元形状を推定する推定手段と、仮想視点情報を出力する視点指示手段と、前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成手段と、前記三次元形状の一部を切り出して抽出形状として出力する形状抽出手段と、前記抽出形状に識別子を設定する識別設定手段と、前記抽出形状の位置の追跡を行う追跡手段と、前記追跡手段の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出手段を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
被写体を複数の方向から撮像する撮像手段と、
前記撮像手段によって取得された撮影画像を用いて前記被写体の三次元形状を推定する推定手段と、
仮想視点情報を出力する視点指示手段と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成手段と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出手段と、
前記抽出形状に識別子を設定する識別設定手段と、
前記抽出形状の位置の追跡を行う追跡手段と、
前記追跡手段の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出手段と
を有する画像処理装置。
【請求項2】
前記識別設定手段は、前記抽出形状に対して、初期状態の識別子を設定することを特徴とする、請求項1に記載の画像処理装置。
【請求項3】
前記識別設定手段は、各抽出形状間の距離に基づいて、各抽出形状に識別子を設定することを特徴とする、請求項1または2に記載の画像処理装置。
【請求項4】
前記識別設定手段は、各抽出形状がいずれの前記三次元形状の外接直方体の中に含まれるか否かを判定し、同じ外接直方体に含まれる場合には同一の識別子を設定することを特徴とする、請求項1または2に記載の画像処理装置。
【請求項5】
前記識別設定手段は、所定の識別子を付与する領域を設定し、該領域に含まれる抽出形状に対して該領域に設定された所定の識別子を設定することを特徴する、請求項1または2に記載の画像処理装置。
【請求項6】
前記識別設定手段は、割り当てた識別子に対してユーザの指示に応じて識別子の再割り当てを行うことを特徴とする、請求項1または2に記載の画像処理装置。
【請求項7】
前記形状抽出手段は、前記抽出形状を床面に相当する二次元平面に平行投影した二次元画像としたうえで、二次元画像上で独立した領域ごとに切り出すとともに、該二次元画像上の各領域の外接矩形を抽出形状として出力することを特徴とする、請求項1に記載の画像処理装置。
【請求項8】
前記形状抽出手段は、各三次元形状の外接直方体の底面から所定の高さまでの形状を切り出すことを特徴とする、請求項1に記載の画像処理装置。
【請求項9】
前記形状抽出手段は、撮影領域の床面から所定の高さまでの形状を切り出すことを特徴とする、請求項1に記載の画像処理装置。
【請求項10】
前記形状抽出手段は、撮影領域に設置している構造物の上に前記三次元形状が位置している場合には、前記構造物の上面から所定の高さまでの形状を抽出することを特徴とする、請求項1に記載の画像処理装置。
【請求項11】
前記追跡手段が、各時刻において当該時刻の前記抽出形状と、ひとつ前の時刻の抽出形状の位置と識別子とに基づき、当該時刻の前記抽出形状の識別子を決定することを特徴とする、請求項2に記載の画像処理装置。
【請求項12】
前記追跡手段は、各時刻において当該時刻の前記抽出形状と、ひとつ前の時刻の前記被写体位置とその識別子に基づき、当該時刻の前記抽出形状の識別子を決定することを特徴とする、請求項2に記載の画像処理装置。
【請求項13】
前記追跡手段は、ひとつ前の時刻の被写体位置に位置する前記抽出形状に前記被写体位置の識別子を付与し、識別子を付与されていない抽出形状に対して、ひとつ前の時刻の抽出形状との重なりを確認し、重なる場合には前記ひとつ前の時刻の抽出形状の識別子を付与し、それでも識別子が付与されていない抽出形状に対して、所定の範囲内でもっとも近傍にある抽出形状の識別子を付与することを特徴とする、請求項2に記載の画像処理装置。
【請求項14】
前記追跡手段は、前記抽出形状に、ひとつ前の時刻の2つ以上の被写体位置が重なる場合、前記抽出形状には識別子を付与せず、また前記被写体位置すべての位置情報の更新も行わないことを特徴とする、請求項12に記載の画像処理装置。
【請求項15】
仮想的な音源の再生位置と仮想視点の位置に基づき音響信号を生成する音響信号生成手段を更に備え、前記音響信号生成手段が前記被写体位置に基づき、仮想視点映像に付与する音源の仮想的な再生位置を更新することを特徴とする、請求項1に記載の画像処理装置。
【請求項16】
前記視点指示手段が前記被写体位置に基づき仮想視点の向きまたは位置の少なくとも一方を更新することを特徴とする、請求項1に記載の画像処理装置。
【請求項17】
被写体を複数の方向から撮像する撮像工程と、
前記撮像工程において取得された撮影画像を用いて前記被写体の三次元形状を推定する推定工程と、
仮想視点情報を出力する視点指示工程と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成工程と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出工程と、
前記抽出形状に識別子を設定する識別設定工程と、
前記抽出形状の位置の追跡を行う追跡工程と、
前記追跡工程の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出工程と
を有することを特徴とする制御方法。
【請求項18】
被写体を複数の方向から撮像する撮像工程と、
前記撮像工程において取得された撮影画像を用いて前記被写体の三次元形状を推定する推定工程と、
仮想視点情報を出力する視点指示工程と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成工程と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出工程と、
前記抽出形状に識別子を設定する識別設定工程と、
前記抽出形状の位置の追跡を行う追跡工程と、
前記追跡工程の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出工程と
をコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、仮想視点映像を生成する画像処理装置に関する。
【背景技術】
【0002】
複数のカメラを用いた撮影システムで撮像された画像をもとに、ユーザが指定した仮想視点から見た画像である仮想視点映像を生成する仮想視点映像生成システムがある。特許文献1では、複数のカメラで撮像した画像を伝送したのち、画像コンピューティングサーバ(画像処理装置)で、撮像した画像のうち変化が大きいものを前景画像とし、変化が小さいものを背景画像として抽出するシステムが記載されている。
【0003】
また、近年、ヘッドマウントディスプレイ(HMD)などを用いた仮想現実(Virtual Reality:VR)などにおいて、3DCGで作られた仮想空間内にいるような視聴体験が行えるようになってきている。また、その仮想現実の中でアバターなどを用いたバーチャルアーティストがコンサートを開催することもなされてきている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
このようなコンサートにおいて、前述の仮想視点映像によって、実際のアーティストのコンサートを仮想の3D空間に再現することが求められてきている。実際のアーティストのコンサートを仮想視点映像によって仮想の3D空間に再現する場合では、例えばアーティストの位置に合わせて音源を合成するために、アーティストの位置の追跡が必要である。しかし、特にアーティストが複数人いる場合において、個々の人物の位置を追跡することが難しい場合があった。
【課題を解決するための手段】
【0006】
本発明の画像処理装置は、被写体を複数の方向から撮像する撮像手段と、前記撮像手段によって取得された撮影画像を用いて前記被写体の三次元形状を推定する推定手段と、仮想視点情報を出力する視点指示手段と、前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成手段と、前記三次元形状の一部を切り出して抽出形状として出力する形状抽出手段と、前記抽出形状に識別子を設定する識別設定手段と、前記抽出形状の位置の追跡を行う追跡手段と、前記追跡手段の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出手段を有する。
【発明の効果】
【0007】
本発明によれば、仮想視点映像の生成において、人物の位置の追跡を容易にする。
【図面の簡単な説明】
【0008】
【
図1】画像処理システムの一例を示すブロック図である。
【
図2】(a)被写体の位置の一例を示す図である。(b)形状抽出部によって抽出された被写体の一例を表す図である。(c)状態のことなる被写体の位置の一例を示す図である。(d)形状抽出部によって抽出された被写体の一例を表す図である。(e)抽出形状の一例を示す図である。
【
図3】(a)識別子を付与された抽出形状の一例である。(b)抽出形状および識別子を表示するためのグラフィカルユーザインタフェースの一例である。
【
図5】追跡部による追跡解析の処理の一例を示すフローチャートである。
【
図6】抽出形状に識別子を付与する方法の一例である。
【
図7】グラフィカルユーザインターフェースから識別子の再割り当てを行うことを説明するための図である。
【
図8】視点指示部が被写体位置情報を利用することを説明するための図である。
【
図9】コンピュータのハードウェアの構成例を示すブロック図である。
【発明を実施するための形態】
【0009】
[第一の実施形態]
(画像処理装置のシステム構成と動作)
本実施形態に係わる仮想視点映像を生成する画像処理システムの構成の一例を
図1に示す。画像処理システムは例えば撮像部1、同期部2、三次元形状推定部3、蓄積部4、視点指示部5、映像生成部6、表示部7、収音部8、音響信号生成部9,音響出力部10、形状抽出部11、追跡部12、被写体位置算出部13,識別設定部14を含んで構成される。なお、画像処理システムは、1つの画像処理装置によって構成されてもよいし、複数の画像処理装置によって構成されるシステムでもよい。以下の説明では、画像処理システムは、1つの画像処理装置であるとして説明する。
【0010】
本システムを適用する仮想視点映像を生成する画像処理装置における、各構成の動作の概略を説明する。まず複数の撮像部1が、同期部2による同期信号に基づいて互いに同期して撮像を行う。撮像部1は撮影した撮影画像を三次元形状推定部3に出力する。なお、撮像部1は、被写体を複数の方向から撮影可能とするため、被写体を含む撮影領域を囲むように設置される。三次元形状推定部3は、入力された複数視点からの撮影画像を用いて、たとえば被写体のシルエットを抽出したうえで、視体積交差法などを用いて被写体の三次元形状を生成する。また三次元形状推定部3は生成した被写体の三次元形状及び、撮影画像を蓄積部4に出力する。ここで、被写体は三次元形状生成の対象となる物体のことであり、人物や人物が扱う物品などを含む。
【0011】
収音部8は、撮影領域内の複数個所の音声または各被写体の音声を収音し、収音した音響データを蓄積部4に出力する。
【0012】
蓄積部4は、仮想視点映像の生成に用いられるデータ(素材データ)として以下のデータ群を保存し、蓄積する。仮想視点映像の生成に用いられるデータは、具体的には、三次元形状推定部3から入力された撮影画像及び被写体の三次元形状を含む。また、仮想視点映像の生成に用いられるデータは、各撮像部の位置姿勢及び光学特性などのカメラパラメータ、および、収音部8で取得した音響データを含む。なお、仮想視点映像の背景の生成に用いられるデータとして、あらかじめ背景モデルと背景テクスチャ画像が蓄積部4に保存(記録)されている。
【0013】
視点指示部5は、図示しないジョイスティックやジョグダイヤルなどの物理的なユーザインターフェースである視点操作部と、仮想視点映像を表示するための表示部からなる。
ここで表示されている仮想視点映像の仮想視点は、視点操作部によって変更可能である。
視点操作部による仮想視点の変更に応じて、後述の映像生成部6によって随時仮想視点映像が生成され、表示部に表示される。この表示部は後述の表示部7を共用してもよいし、別途表示装置を備える形としてもよい。視点指示部5は、視点操作部の入力に基づき仮想視点情報を生成し、生成した仮想視点情報を映像生成部6へ出力する。仮想視点情報とは、仮想視点の位置姿勢などのカメラの外部パラメータに相当する情報、焦点距離や画角といったカメラの内部パラメータに相当する情報、および再生する撮影時刻を指定する時刻情報を含む。
【0014】
映像生成部6は、入力された仮想視点情報に含まれる時刻情報に基づき、蓄積部4から当該撮影時刻の素材データを取得する。映像生成部6は取得した素材データのうち被写体の三次元形状および撮影画像を用いて、設定された仮想視点における仮想視点映像を生成し表示部7に出力する。
【0015】
表示部7は、映像生成部6から入力された映像を表示する表示手段である。表示部7は、ディスプレイまたは、ヘッドマウントディスプレイ(HMD)などで構成される。
【0016】
音響信号生成部9は、入力された仮想視点情報に含まれる時刻情報に基づき、蓄積部4から当該撮影時刻の音響データを取得する。音響信号生成部9は、取得した音響データを、三次元空間上に仮想的な音源として配置する。また、音響信号生成部9は、仮想的な音源と仮想視点位置との距離および仮想視点の方向に基づき音響信号を生成し、音響出力部10に出力する。
【0017】
音響出力部10はスピーカやヘッドホンなどで構成され、入力された音響信号にもとづき音響出力(再生)を行う。
【0018】
(被写体位置の追跡方法)
次に本実施形態における被写体位置の追跡方法に関して説明する。
【0019】
まず、三次元形状推定部3が、被写体の三次元形状を生成し、生成された三次元形状を蓄積部4に出力するとともに、生成された三次元形状を形状抽出部11にも出力する。
【0020】
形状抽出部11は、
図2(a)に示すような被写体の三次元形状のうち、
図2(b)に示すように被写体の三次元形状の下部を切り出す。本実施形態においては被写体の三次元形状の外接直方体の底面から所定の高さ(例えば50cmに相当する高さ)までを切り出すものとする。例えば
図2(c)に示すように、被写体の一人が立っており、被写体の一人が跳躍などして撮影領域の床面から離れている場合には、被写体の三次元形状は
図2(d)の示す範囲のように三次元形状が切り出される。すなわち、どちらの被写体の三次元形状も、足元に相当する部分から所定の高さまでの三次元形状が切り出される。
【0021】
次に
図2(e)に示すように、形状抽出部11は、切り出した三次元形状を、被写体の三次元形状を真上から見た平面投影して二次元画像を生成する。本実施形態では、形状抽出部11は、足元(床面)相当に相当する二次元平面に、切り出した三次元形状を平行投影する。本実施形態では、平面投影された画像は、切り出した三次元形状の部分を白、それ以外の部分を黒とする二値画像とする。形状抽出部11は、この二次元画像を独立した領域ごとに分割しそれらの
図2(e)に示す外接矩形201~204を求める。形状抽出部11は、この外接矩形の頂点情報を抽出された三次元形状(抽出形状)として出力する。ここで、形状抽出部11は、外接矩形の頂点情報を、撮影領域の三次元空間と同じ座標系および単位に変換したうえで出力する。また、形状抽出部11で独立した形状の判定には、投影された二次元画像に対して例えば連続成分分析などの手法が用いられる。このような手法を用いることで、形状抽出部11は、三次元形状を一つ一つの領域に分割することができる。
【0022】
識別設定部14は、形状抽出部11が出力した抽出形状に対して識別子を付与する。具体的には、識別設定部14は、各抽出形状間の距離の計算を行い、抽出形状間の距離に応じて識別子を付与する。例えば、
図3(a)に示すように、識別設定部14は、抽出形状間の距離が所定の距離未満(実線矢印)の抽出形状には同一の識別子を割り当て、抽出形状間の距離が所定の距離以上(破線矢印)のものには異なる識別子を割り当てる。判定の基準として用いられる所定の距離の閾値は被写体が立った状態の足の開き幅に相当するような距離が望ましい。本実施形態では、所定の距離の閾値は50cmとして設定されるものとして説明する。
【0023】
識別設定部14は、割り当てた識別子を、識別設定部14に備えられた表示部上に
図3(b)に示すようなグラフィカルインターフェース(GUI)によって表示する。ユーザは、このGUIを見ながら画像処理システムを操作する。具体的には、識別設定部14は、グラフィカルインターフェース上で現在の識別子の割り当て(初期状態の識別子の割り当て)を、文字および色分けの少なくとも一方で区別して表示する。
図3(b)では、識別設定部14は、識別子ごとに文字および色分けの両方を行って表示している。ユーザはGUIを確認し、初期状態として所望の識別子の割り当てになっているか否かを確認する。所望の識別子の割り当てとなっていない場合は、ユーザは被写体に対して立ち位置の変更や足を閉じてもらうなどの指示をし、所望の割り当てとなるまで繰り返す。または、ユーザはGUIを介して画像処理システムを操作し、所望の識別子の割り当てとなるように変更指示を行う。所望の識別子の割り当てである場合、ユーザは、例えば
図3(b)に示すようなグラフィカルインターフェース上の決定ボタン(初期識別子決定ボタン)を押下する。この操作に応じて、識別設定部14は、初期状態の識別子を決定する。そして、識別設定部14は、各抽出形状に割り当てた識別子を追跡部12に出力する。
【0024】
追跡部12は、識別設定部14から識別子を入力されたことに応じて、初期状態として各抽出形状に当該識別子を付与する。以後、追跡部12は、この識別子が付与された抽出形状の追跡を行う。なお、追跡中に抽出形状に付与される識別子は、識別設定部14によって決定された識別子ではなく、追跡部12による各抽出形状の位置の追跡結果に基づき決定された識別子が用いられる。抽出形状の追跡(追跡解析)では、追跡部12は、当該抽出形状の撮影時刻に対してひとつ前の時刻における各抽出形状の位置、各抽出形状の識別子、および後述する被写体位置算出部から入力される被写体位置の情報に基づき、抽出形状の追跡を行う。なお、追跡部12による追跡の具体的な処理に関しては後述する。追跡部12は、追跡解析の結果に基づき当該時刻における、各抽出形状に対して識別子を付与し、各抽出形状を被写体位置算出部13に出力する。
【0025】
被写体位置算出部13は、追跡部12より入力された、識別子の付与された各抽出形状に対して、代表位置を求める。例えば、
図4に示すように、被写体位置算出部13は、代表位置401、402のように、同一識別子が付与された抽出形状群ごとに、各抽出形状群を示す位置を求める。本実施形態では、代表位置は抽出形状群の中心位置とする。
【0026】
ただし、この代表位置は形状推定誤差や形状抽出部11で形状を切り出した際の境界部分の揺らぎの影響を受けるため、被写体が静止していても各時刻で位置が揺らぐことがある。そのため、本実施形態では、被写体位置算出部13は、各時刻の中心位置情報に対して時間方向にローパスフィルタや移動平均などの処理を行い、高周波成分を抑制した位置情報を生成する。そして、被写体位置算出部13は、被写体の位置として識別子とともに代表位置の位置情報を追跡部12に出力する。また、被写体位置算出部13は、追跡解析のもととなった三次元形状の撮影された時刻の情報を代表位置の位置情報に付与した情報を、被写体一の情報(被写体位置情報)として蓄積部4に記録(蓄積)する。
【0027】
音響信号生成部9は、仮想視点情報に含まれる時刻情報に基づき、該当撮影時刻の音響データ、および被写体位置情報を蓄積部4から取得する。本実施形態では、被写体位置情報には高さ方向の情報が含まれていないため、音響信号生成部9は、被写体に対応した高さ情報を被写体位置情報に追加する。例えば、本実施形態の場合は、音響信号生成部9は、被写体の口や楽器に相当する高さ情報を、被写体位置情報に追加する。そして、音響信号生成部9は、高さ情報が含まれた被写体位置情報に付与された識別子に対応する収音部(マイク)で収音した音響データを紐づける。これにより、音響信号生成部9は、被写体位置情報によって示される位置に、当該音響データ再生する仮想的な音源の位置を付与することができる。
【0028】
以上のシステム構成により、画像処理システム1は、仮想視点映像の視点位置と、仮想視点映像中の被写体の位置に基づいた立体的な音響を生成することができる。画像処理システム1によって生成された仮想視点映像により、ユーザは臨場感の高い映像音声体験が行える。
【0029】
(追跡部12による追跡解析処理)
次に追跡部12における抽出形状位置の追跡解析処理の一例を
図5のフローチャートを用いて説明する。
【0030】
ステップS501では、追跡部12は、識別設定部14からの入力を受け初期化処理を行う。具体的には追跡部12は、識別設定部14から入力される各抽出形状の識別子を取得する。
【0031】
ステップS502では、追跡部12は、次に形状抽出部11から入力される抽出形状を取得する。
【0032】
ステップS503では、追跡部12は、取得した各抽出形状に対して識別設定部14から取得した各識別子を付与し、識別子を付与した各抽出形状を、被写体位置算出部13に出力する。
【0033】
ステップS504では、被写体位置算出部13は、同一識別子がつけられた抽出形状群から被写体位置を求め、被写体位置を追跡部12に出力する。
【0034】
以上のステップS501~S504までの処理が初期化処理に相当する。
【0035】
以降のステップS505~S509の処理は毎時刻の処理であり撮像部1が被写体を撮像している間は繰り返し実行される。撮像部1による被写体の撮像処理が終了した場合、ステップS509の処理が完了したことに応じて、本フローチャートの処理が終了される。
【0036】
ステップS505では、追跡部12は、形状抽出部11から入力される抽出形状と、被写体位置算出部13が算出したひとつ前の時刻(前時刻)の被写体位置を取得する。ひとつ前の時刻は例えば、現在処理されている抽出形状の1フレーム前に生成された抽出形状の撮影時刻である。ここで、対比のために現在の時刻のことを現時刻とも記載する。ここで現在の時刻とは、現在処理されている抽出形状が生成されるために使われた画像の撮影時刻のことである。
【0037】
ステップS506では、追跡部12は、前時刻における被写体位置と現時刻の各抽出形状の代表位置とが重なっている場合、抽出形状に対し、その代表位置と重なっている被写体位置に付与された識別子を付与する。ここで、ステップS506において、追跡部12は、一つの抽出形状の代表位置が複数の被写体位置と重なっている場合、当該抽出形状に対し、現時刻では「判定不能」を示す識別子を付与する。これは、例えば、2人の被写体が近接している状態のように、異なる識別子が付与された複数の抽出形状が現時刻で重畳している可能性があるため、本ステップの処理では「判定不能」を示す識別子を付与する。「判定不能」を示す識別子を含む識別子が付与された抽出形状は、後述のS509の処理が実行される。
【0038】
ステップS507では、追跡部12は、まだ識別子が付与されていない抽出形状の代表位置が、前時刻の抽出形状と重なっている場合、前時刻の抽出形状に付与されている識別子を当該の現時刻の抽出形状に対して付与する。
【0039】
ステップS508では、追跡部12は、まだ識別子が付与されていない抽出形状から所定の範囲内に、現時刻ですでに識別子が付与された他の抽出形状がある場合、当該の他の抽出形状に付与された識別子を、付与する。所定の範囲内は、被写体が立った状態の足の開き幅に相当する範囲が望ましい。例えば、所定の範囲は、抽出形状の中心から半径50cmの範囲である。ここで、ある抽出形状から所定の範囲内に識別子が付与された他の抽出形状が複数ある場合、追跡部12は、その他の抽出形状のうち最も近傍にある抽出形状の識別子を当該抽出形状に付与する。ステップS508までの処理を終えた段階で識別子を付与されていない抽出形状については、追跡部12は、当該の抽出形状を追跡対象外と判定する。この場合、追跡部12は、追跡対象外と判定された抽出形状は、被写体位置算出部13へ出力しない。
【0040】
ステップS509では、追跡部12は、ステップS506からステップS508の処理で識別子が付与された抽出形状、およびそれに付与された識別子を被写体位置算出部13に出力する。
【0041】
ステップS510では、不図示の制御部によって、撮像部1による被写体の撮像処理が終了されたか否かが判定される。撮像部1による被写体の撮像処理が終了されていないと判定された場合、ステップS508の処理が実行される。撮像部1による被写体の撮像処理が終了されたと判定された場合、本フローチャートの処理は終了される。
【0042】
なお、ステップS506からステップS508の処理に関しては各処理において、抽出形状ごとに対して処理が行われる。ステップS506からステップS509の処理を繰り返すことで、識別設定部14で設定された識別子が各時刻の抽出形状と紐づけられる。この識別子を用いて、被写体位置算出部13は被写体ごとに区別して被写体位置を求めることができる。
【0043】
また、追跡部12において識別子として、「判定不能」の識別子が抽出形状に付与された場合、ある時刻において、初期設定で定められた識別子のうち、一部の識別子が付与されない可能性がある。このような場合、被写体位置算出部13において、抽出形状に付与されていない識別子と同一の識別子である被写体位置情報は更新しない。これにより、複数の被写体が近づくなどにより抽出形状が重畳した場合でも、複数の被写体位置情報が同一の位置にならない。この場合、複数の被写体位置は、前時刻までのそれぞれの位置が維持される。その後、被写体同士が離れることにより、重畳した複数の抽出形状が再度分離した場合、それぞれの抽出形状に対して、もっとも最近の被写体位置に基づき識別子が割り当てされる。すなわち、複数の抽出形状の重畳が解消されたことに応じて、それぞれの被写体位置情報の更新が再開される。
【0044】
以上の処理により、画像処理システムは、複数の被写体が撮影領域にいる場合でも、個々の被写体を追跡することや個々の被写体の位置情報を取得することができる。さらには、以上の処理により、画像処理システムは、被写体が近づいたり離れたりするなどして、生成された三次元形状モデルに重畳や分離が発生する場合においても、個々の被写体を追跡することができる。これにより、画像処理システムは、例えば、複数のアーティストが、歌唱に合わせて立ち位置が入れ替わったり、近接して手つないだりしても、個々の被写体の口元等から音が発せられているような立体的な音響を有する仮想視点映像を生成することができる。ユーザはこのような仮想視点映像を視聴することで、臨場感の高い映像体験および音声体験が行える。
【0045】
(第一の実施形態のその他の形態)
第一の実施形態において、画像処理システム1について具体的な実施形態を示したが必ずしも今回示した具体的な形態に限定するものではない。
【0046】
例えば、第一の実施形態において、形状抽出部11は三次元形状推定部3の形状推定結果を、三次元形状推定部3から入力される構成としているがこれに限定するものではない。例えば、形状抽出部11は、三次元形状推定部3の形状推定結果を、三次元形状推定部3が蓄積部4に蓄積した形状推定結果から取得ししてもよい。
【0047】
そのほかに、第一の実施形態において形状抽出部11が三次元形状の外接直方体の底面から切り出される所定の高さを50cmとしたが、必ずしも50cmである必要はない。
例えば、所定の高さは、20cm~100cmといった範囲に設定されてもよい。また、所定の高さは、被写体の身長に基づいて、膝から腰の間付近の高さとなるように自動的に設定されてもよい。
【0048】
また、第一の実施形態では、形状抽出部11は外接直方体の底面から所定の高さを切り出すように処理しているが、これも限定するものではなく、一律に撮影範囲の床面から所定の高さを切り出してもよい。また、この場合、撮影領域にある踏み台などの構造物の上に被写体が乗っている状態では、形状抽出部11は、その被写体を抽出する際には、その構造物の上面から所定の高さを抽出してもよい。
【0049】
また、第一の実施形態において、形状抽出部11は、抽出形状を独立した形状に分割する際に、二次元画像上に投影して処理を行ったが、これに限定するものではない。例えば、形状抽出部11は、三次元形状のまま、形状の独立を判定したうえで分割してもよい。
この場合、以後の処理において、追跡部12は、被写体の三次元形状に基づいて被写体の追跡を行う。
【0050】
第一の実施形態の識別設定部14よって、複数の抽出形状に対して同じ識別子の割り当てが行われる距離の一例として被写体が立った状態の足の開き幅に相当する距離(50cm)が望ましいとしたが必ずしもこれに限定するものではない。例えば、被写体人数が多く被写体間の距離が近い場合など、被写体が足の開き幅を狭くする場合では、複数の抽出形状に対して同じ識別子の割り当てが行われる距離は30cm等の短い距離でもよい。一方で、広い撮影領域である場合など、足の開き幅を大きくしてもよい場合では、複数の抽出形状に対して同じ識別子の割り当てが行われる距離は100cm等の長い距離にしてもよい。
【0051】
第一の実施形態において、識別設定部14は各抽出形状間の距離に基づいて識別子を割り当てる構成としたが必ずしもこれに限定するものではない。例えば、識別設定部14は、三次元形状の外接直方体のいずれの中に含まれるか否かを判定して、識別子を割り当ててもよい。例えば、
図6(a)に示す例では、識別設定部14は、外接直方体601に含まれる抽出形状603,604の識別子をAとし、外接直方体602に含まれる抽出形状605,606に識別子Bを割り当てる。ほかにも、識別設定部14に対して所定の識別子を付与する領域をユーザが事前に決定してもよい。例えば、
図6(b)に示すように、ユーザは、まず識別子Aが付与された判定領域611と識別子Bを付与した判定領域612の情報を不図示の入力部から画像処理システム1に入力する。そして識別設定部14は、判定領域611内に含まれる抽出形状613,614に識別子Aを、判定領域612に含まれる抽出形状605,606に識別子Bを割り当てる。
【0052】
また、第一の実施形態では識別設定部14が自動的に設定する識別子を割り当てていたが必ずしもこれに限定するものではない。ユーザが抽出形状に付与される識別子を決定してもよい。たとえば、複数人の被写体がいる状態で、識別子の割り当て後に、被写体ごとにユーザが識別子を付与する場合について説明する。この場合、例えば、ユーザは
図7(a)に示すようなグラフィカルユーザインターフェースから識別子再割り当てモードへの遷移を指示する。そして、ユーザは、
図7(a)に示すような画面上に表示されている各被写体位置701~703を、順番にクリックするなどして割り当てる識別子を指定する。例えば、先に被写体位置701に識別子Cが、被写体位置702に識別子Bが、被写体位置703に識別子Cが付与されているとする。これに対し、被写体位置701~703に識別子A~Cの順序に割り当てる場合には、ユーザは被写体位置701~703を順番にクリックする。識別設定部14はこのクリックされた順序を入力として、その順序に基づき
図7(b)に示すように識別子の再割り当てを行う。そして、識別設定部14は、抽出形状とその抽出形状に再割り当てされた識別子を追跡部12に出力する。
【0053】
また第一の実施形態として追跡解析を行った被写体位置の情報を音源再生位置として利用する構成としたが必ずしもこの用途に限定するものではない。例えば、蓄積部4に蓄積された被写体位置情報を視点指示部5が取得し利用してもよい。この場合、視点指示部5は、たとえば
図8(a)に示すように仮想視点の回転中心の位置を被写体位置800として、被写体が移動しても常に被写体の周囲を周回できるような仮想視点を生成してもよい。また、視点指示部5は、例えば、
図8(b)に示すように仮想視点の視線方向を被写体位置800にするような構成としてもよい。この場合、画像処理システム1は、半固定な位置に配置された仮想視点が被写体の移動に伴い水平方向に視点を自動で旋回するような視点の仮想視点映像を生成できる。
【0054】
(その他の構成)
図1に示した各処理部はハードウェアで構成しているものとして上記実施形態では説明した。しかし、これらの図に示した各処理部で行う処理をコンピュータプログラムで構成しても良い。
【0055】
図9は、上記各実施形態に係る間接位置推定装置に適用可能なコンピュータのハードウェアの構成例を示すブロック図である。
【0056】
CPU901は、RAM902やROM903に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行うと共に、上記各実施形態に係る間接位置推定装置が行うものとして上述した各処理を実行する。即ち、CPU901は、
図1に示した各処理部として機能することになる。
【0057】
RAM902は、外部記憶装置906からロードされたコンピュータプログラムやデータ、I/F(インターフェース)907を介して外部から取得したデータなどを一時的に記憶するためのエリアを有する。更に、RAM902は、CPU901が各種の処理を実行する際に用いるワークエリアを有する。即ち、RAM902は、例えば、フレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。
【0058】
ROM903には、本コンピュータの設定データや、ブートプログラムなどが格納されている。操作部904は、キーボードやマウスなどにより構成されており、本コンピュータのユーザが操作することで、各種の指示をCPU901に対して入力することができる。出力部905は、CPU901による処理結果を表示する。また出力部905は例えば液晶ディスプレイで構成される。たとえば視点指示部5は操作部904で、表示部7は出力部905で構成される。
【0059】
外部記憶装置906は、ハードディスクドライブ装置に代表される、大容量情報記憶装置である。外部記憶装置906には、OS(オペレーティングシステム)や、
図1に示した各部の機能をCPU901に実現させるためのコンピュータプログラムが保存されている。更には、外部記憶装置906には、処理対象としての各画像データが保存されていても良い。
【0060】
外部記憶装置906に保存されているコンピュータプログラムやデータは、CPU901による制御に従って適宜、RAM902にロードされ、CPU901による処理対象となる。I/F907には、LANやインターネット等のネットワーク、投影装置や表示装置などの他の機器を接続することができ、本コンピュータはこのI/F907を介して様々な情報を取得したり、送出したりすることができる。第一の実施形態においては、撮像部1がこれに接続され、撮像された画像を入力したり、それぞれを制御したりする。908は上述の各部を繋ぐバスである。
【0061】
上述の構成からなる作動は前述の実施形態で説明した作動をCPU901が中心となってその制御を行う。
【0062】
その他の構成では、前述した機能を実現するコンピュータプログラムのコードを記録した記憶媒体を、システムに供給し、そのシステムがコンピュータプログラムのコードを読み出し実行することによっても達成される。この場合、記憶媒体から読み出されたコンピュータプログラムのコード自体が前述した実施形態の機能を実現し、そのコンピュータプログラムのコードを記憶した記憶媒体は本発明を構成する。また、そのプログラムのコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した機能が実現される場合も含まれる。
【0063】
さらに、以下の形態で実現しても構わない。すなわち、記憶媒体から読み出されたコンピュータプログラムコードを、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込む。そして、そのコンピュータプログラムのコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行って、前述した機能が実現される場合も含まれる。
【0064】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明した処理に対応するコンピュータプログラムのコードが格納されることになる。
【0065】
なお、本実施形態の開示は、以下の構成および方法を含む。
(構成1)
被写体を複数の方向から撮像する撮像手段と、
前記撮像手段によって取得された撮影画像を用いて前記被写体の三次元形状を推定する推定手段と、
仮想視点情報を出力する視点指示手段と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成手段と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出手段と、
前記抽出形状に識別子を設定する識別設定手段と、
前記抽出形状の位置の追跡を行う追跡手段と、
前記追跡手段の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出手段と
を有する画像処理装置。
(構成2)
前記識別設定手段は、前記抽出形状に対して、初期状態の識別子を設定することを特徴とする、構成1に記載の画像処理装置。
(構成3)
前記識別設定手段は、各抽出形状間の距離に基づいて、各抽出形状に識別子を設定することを特徴とする、構成1または2に記載の画像処理装置。
(構成4)
前記識別設定手段は、各抽出形状がいずれの前記三次元形状の外接直方体の中に含まれるか否かを判定し、同じ外接直方体に含まれる場合には同一の識別子を設定することを特徴とする、構成1から3のいずれか1項に記載の画像処理装置。
(構成5)
前記識別設定手段は、所定の識別子を付与する領域を設定し、該領域に含まれる抽出形状に対して該領域に設定された所定の識別子を設定することを特徴する、構成1から4のいずれか1項に記載の画像処理装置。
(構成6)
前記識別設定手段は、割り当てた識別子に対してユーザの指示に応じて識別子の再割り当てを行うことを特徴とする、構成1から5のいずれか1項に記載の画像処理装置。
(構成7)
前記形状抽出手段は、前記抽出形状を床面に相当する二次元平面に平行投影した二次元画像としたうえで、二次元画像上で独立した領域ごとに切り出すとともに、該二次元画像上の各領域の外接矩形を抽出形状として出力することを特徴とする、構成1から6のいずれか1項に記載の画像処理装置。
(構成8)
前記形状抽出手段は、各三次元形状の外接直方体の底面から所定の高さまでの形状を切り出すことを特徴とする、構成1から7のいずれか1項に記載の画像処理装置。
(構成9)
前記形状抽出手段は、撮影領域の床面から所定の高さまでの形状を切り出すことを特徴とする、構成1から8のいずれか1項に記載の画像処理装置。
(構成10)
前記形状抽出手段は、撮影領域に設置している構造物の上に前記三次元形状が位置している場合には、前記構造物の上面から所定の高さまでの形状を抽出することを特徴とする、構成1から9のいずれか1項に記載の画像処理装置。
(構成11)
前記追跡手段が、各時刻において当該時刻の前記抽出形状と、ひとつ前の時刻の抽出形状の位置と識別子とに基づき、当該時刻の前記抽出形状の識別子を決定することを特徴とする、構成1から10のいずれか1項に記載の画像処理装置。
(構成12)
前記追跡手段は、各時刻において当該時刻の前記抽出形状と、ひとつ前の時刻の前記被写体位置とその識別子に基づき、当該時刻の前記抽出形状の識別子を決定することを特徴とする、構成1から11のいずれか1項に記載の画像処理装置。
(構成13)
前記追跡手段は、ひとつ前の時刻の被写体位置に位置する前記抽出形状に前記被写体位置の識別子を付与し、識別子を付与されていない抽出形状に対して、ひとつ前の時刻の抽出形状との重なりを確認し、重なる場合には前記ひとつ前の時刻の抽出形状の識別子を付与し、それでも識別子が付与されていない抽出形状に対して、所定の範囲内でもっとも近傍にある抽出形状の識別子を付与することを特徴とする、構成1から12のいずれか1項に記載の画像処理装置。
(構成14)
前記追跡手段は、前記抽出形状に、ひとつ前の時刻の2つ以上の被写体位置が重なる場合、前記抽出形状には識別子を付与せず、また前記被写体位置すべての位置情報の更新も行わないことを特徴とする、構成1から13のいずれか1項に記載の画像処理装置。
(構成15)
仮想的な音源の再生位置と仮想視点の位置に基づき音響信号を生成する音響信号生成手段を更に備え、前記音響信号生成手段が前記被写体位置に基づき、仮想視点映像に付与する音源の仮想的な再生位置を更新することを特徴とする、構成1から14のいずれか1項に記載の画像処理装置。
(構成16)
前記視点指示手段が前記被写体位置に基づき仮想視点の向きまたは位置の少なくとも一方を更新することを特徴とする、構成1から15のいずれか1項に記載の画像処理装置。
(方法1)
被写体を複数の方向から撮像する撮像工程と、
前記撮像工程において取得された撮影画像を用いて前記被写体の三次元形状を推定する推定工程と、
仮想視点情報を出力する視点指示工程と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成工程と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出工程と、
前記抽出形状に識別子を設定する識別設定工程と、
前記抽出形状の位置の追跡を行う追跡工程と、
前記追跡工程の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出工程と
を有することを特徴とする制御方法。
(プログラム1)
被写体を複数の方向から撮像する撮像工程と、
前記撮像工程において取得された撮影画像を用いて前記被写体の三次元形状を推定する推定工程と、
仮想視点情報を出力する視点指示工程と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成工程と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出工程と、
前記抽出形状に識別子を設定する識別設定工程と、
前記抽出形状の位置の追跡を行う追跡工程と、
前記追跡工程の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出工程と
をコンピュータに実行させるためのプログラム。