特許7559024 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7559024画像処理装置、制御方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-20

(45)【発行日】2024-10-01

(54)【発明の名称】画像処理装置、制御方法、およびプログラム

(51)【国際特許分類】

G06T 7/70 20170101AFI20240924BHJP

G06T 7/20 20170101ALI20240924BHJP

【ＦＩ】

G06T7/70 A

G06T7/20 300Z

【請求項の数】 17

(21)【出願番号】P 2022161719

(22)【出願日】2022-10-06

(65)【公開番号】P2024055093

(43)【公開日】2024-04-18

【審査請求日】2023-06-21

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100126240

【弁理士】

【氏名又は名称】阿部琢磨

(74)【代理人】

【識別番号】100223941

【弁理士】

【氏名又は名称】高橋佳子

(74)【代理人】

【識別番号】100159695

【弁理士】

【氏名又は名称】中辻七朗

(74)【代理人】

【識別番号】100172476

【弁理士】

【氏名又は名称】冨田一史

(74)【代理人】

【識別番号】100126974

【弁理士】

【氏名又は名称】大朋靖尚

(72)【発明者】

【氏名】小沼和文

【審査官】佐田宏史

(56)【参考文献】

【文献】特開２０１７－０６８６５０（ＪＰ，Ａ）

【文献】特開２０１５－１０３０１６（ＪＰ，Ａ）

【文献】特開２００７－２１９６０３（ＪＰ，Ａ）

【文献】特開２０１６－０３１６７３（ＪＰ，Ａ）

【文献】特開２０２１－１４９５１３（ＪＰ，Ａ）

【文献】平井迪郎、外２名，“時系列ボリュームの非線形確率モデルを用いた人体・着衣の部位形状追跡”，情報処理学会研究報告，日本，社団法人情報処理学会，2008年08月29日，Vol.2008, No.82，pp.107-114

【文献】荒木裕、外2名，“実時間ビジョンベースモーションキャプチャシステムのパラメータ自動推定と精度評価”，情報処理学会研究報告，日本，社団法人情報処理学会，2006年01月20日，Vol.2006, No.5，pp.31-38

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００，７／００－７／９０

Ｇ０６Ｖ１０／００－１０／９８

(57)【特許請求の範囲】

【請求項1】

被写体である人物を複数の方向から撮影する撮影手段によって撮影された撮影画像を用いて生成された前記被写体の三次元形状データを取得する取得手段と、
前記取得した三次元形状データから前記人物の両足に相当する部位をそれぞれ抽出する抽出手段と、
前記両足に相当する部位のそれぞれの位置に基づいて、それぞれの前記部位に識別子を設定する設定手段と、
前記両足に相当する部位のそれぞれの位置に基づいて、被写体位置を決定する決定手段と、
前記被写体位置と前記識別子と前記抽出された部位の位置とに基づいて、前記三次元形状データのトラッキングを行うトラッキング手段と
を有することを特徴とする画像処理装置。

【請求項2】

前記抽出手段は、前記三次元形状データの一部を切り出して前記人物の両足に相当する部位を抽出することを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記トラッキング手段のトラッキング結果に基づいて同一の識別子を付与された前記三次元形状データの代表位置を求めて出力する出力手段をさらに有することを特徴とする請求項１または２に記載の画像処理装置。

【請求項4】

前記設定手段は、前記三次元形状データの前記部位同士の距離に基づいて、各部位に識別子を設定することを特徴とする、請求項１または２に記載の画像処理装置。

【請求項5】

前記設定手段は、複数の三次元形状データが取得された場合に、前記三次元形状データの前記部位がいずれかの前記三次元形状データの外接直方体の中に含まれるか否かを判定し、同じ外接直方体に含まれる部位について同一の識別子を設定することを特徴とする請求項１または２に記載の画像処理装置。

【請求項6】

前記設定手段は、所定の識別子を付与する領域を設定し、前記領域に含まれる抽出形状に対して前記領域に設定された所定の識別子を設定することを特徴する請求項１または２に記載の画像処理装置。

【請求項7】

前記設定手段は、識別子が割り当てられた前記三次元形状データに対してユーザの指示に応じて識別子の再割り当てを行うことを特徴とする請求項１または２に記載の画像処理装置。

【請求項8】

前記三次元形状データの前記人物の両足に相当する部位を床面に相当する二次元平面に投影した二次元画像を生成する生成手段と、
前記二次元画像上で前記部位に相当する領域ごとの位置情報を出力する出力手段とをさらに有する
ことを特徴とする請求項１に記載の画像処理装置。

【請求項9】

前記抽出手段は、前記三次元形状データの外接直方体の底面から所定の高さまでの形状を抽出することを特徴とする請求項１に記載の画像処理装置。

【請求項10】

前記抽出手段は、前記三次元形状データの撮影領域の床面から所定の高さまでに相当する形状を抽出することを特徴とする請求項１に記載の画像処理装置。

【請求項11】

前記抽出手段は、撮影領域に設置している構造物の上に前記三次元形状データが位置している場合には、前記三次元形状データの前記構造物の上面から所定の高さまでに相当する形状を抽出することを特徴とする請求項１に記載の画像処理装置。

【請求項12】

前記トラッキング手段は、前記部位と、当該部位が抽出された時刻のひとつ前の時刻の位置と、識別子と、に基づいて、前記部位の識別子を決定することを特徴とする請求項１に記載の画像処理装置。

【請求項13】

前記トラッキング手段は、前記部位と、当該部位が抽出された時刻のひとつ前の時刻の被写体位置と、識別子と、に基づいて、前記部位の識別子を決定することを特徴とする請求項１に記載の画像処理装置。

【請求項14】

前記取得手段は、仮想視点情報をさらに取得し、
前記仮想視点情報と前記三次元形状データと前記トラッキング手段によるトラッキング結果とから仮想視点映像を生成する生成手段をさらに有する
ことを特徴とする請求項１に記載の画像処理装置。

【請求項15】

前記設定手段は、ひとつ前の時刻の被写体位置に位置する前記抽出された部位に前記被写体位置の識別子を付与し、識別子を付与されていない部位に対して、ひとつ前の時刻の部位との重なりを確認し、重なる場合には前記ひとつ前の時刻の部位の識別子を付与し、それでも識別子が付与されていない抽出形状に対して、所定の範囲内でもっとも近傍にある部位の識別子を付与することを特徴とする請求項１に記載の画像処理装置。

【請求項16】

被写体である人物を複数の方向から撮影する撮影手段によって撮影された撮影画像を用いて生成された前記被写体の三次元形状データを取得する取得工程と、
前記取得した三次元形状データから前記人物の両足に相当する部位をそれぞれ抽出する抽出工程と、
前記両足に相当する部位のそれぞれの位置に基づいて、それぞれの前記部位に識別子を設定する設定工程と、
前記両足に相当する部位のそれぞれの位置に基づいて、被写体位置を決定する決定工程と、
前記被写体位置と前記識別子と前記抽出された部位の位置とに基づいて、前記三次元形状データのトラッキングを行うトラッキング工程と
を有することを特徴とする画像処理装置の制御方法。

【請求項17】

被写体である人物を複数の方向から撮影する撮影手段によって撮影された撮影画像を用いて生成された前記被写体の三次元形状データを取得する取得工程と、
前記取得した三次元形状データから前記人物の両足に相当する部位をそれぞれ抽出する抽出工程と、
前記両足に相当する部位のそれぞれの位置に基づいて、それぞれの前記部位に識別子を設定する設定工程と、
前記両足に相当する部位のそれぞれの位置に基づいて、被写体位置を決定する決定工程と、
前記被写体位置と前記識別子と前記抽出された部位の位置とに基づいて、前記三次元形状データのトラッキングを行うトラッキング工程と
を有する制御方法をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、仮想視点映像を生成する画像処理装置に関する。

【背景技術】

【0002】

複数のカメラを用いた撮影システムで撮像された画像をもとに、ユーザが指定した仮想視点から見た画像である仮想視点映像を生成する仮想視点映像生成システムがある。特許文献１では、複数のカメラで撮像した画像を伝送したのち、画像コンピューティングサーバ（画像処理装置）で、撮像した画像のうち変化が大きいものを前景画像とし、変化が小さいものを背景画像として抽出するシステムが記載されている。

【0003】

また、近年、ヘッドマウントディスプレイ（ＨＭＤ）などを用いた仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ：ＶＲ）などにおいて、３ＤＣＧで作られた仮想空間内にいるような視聴体験が行えるようになってきている。また、その仮想現実の中でアバターなどを用いたバーチャルアーティストがコンサートを開催することもなされてきている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１７－２１１８２８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

このようなコンサートにおいて、前述の仮想視点映像によって、実際のアーティストのコンサートを仮想の３Ｄ空間に再現することが求められてきている。実際のアーティストのコンサートを仮想視点映像によって仮想の３Ｄ空間に再現する場合では、例えばアーティストの位置に合わせて音源を合成するために、アーティストの位置の追跡が必要である。しかし、特にアーティストが複数人いる場合において、個々の人物の位置を追跡することが難しい場合があった。

【課題を解決するための手段】

【0006】

本発明の画像処理装置は、被写体である人物を複数の方向から撮影する撮影手段によって撮影された撮影画像を用いて生成された前記被写体の三次元形状データを取得する取得手段と、前記取得した三次元形状データから前記人物の両足に相当する部位をそれぞれ抽出する抽出手段と、前記両足に相当する部位のそれぞれの位置に基づいて、それぞれの前記部位に識別子を設定する設定手段と、前記両足に相当する部位のそれぞれの位置に基づいて、被写体位置を決定する決定手段と、前記被写体位置と前記識別子と前記抽出された部位の位置とに基づいて、前記三次元形状データのトラッキングを行うトラッキング手段とを有する。

【発明の効果】

【0007】

本発明によれば、仮想視点映像の生成において、人物の位置の追跡を容易にする。

【図面の簡単な説明】

【0008】

【図1】画像処理システムの一例を示すブロック図である。

【図2】（ａ）被写体の位置の一例を示す図である。（ｂ）形状抽出部によって抽出された被写体の一例を表す図である。（ｃ）状態のことなる被写体の位置の一例を示す図である。（ｄ）形状抽出部によって抽出された被写体の一例を表す図である。（ｅ）抽出形状の一例を示す図である。

【図3】（ａ）識別子を付与された抽出形状の一例である。（ｂ）抽出形状および識別子を表示するためのグラフィカルユーザインタフェースの一例である。

【図4】代表位置の一例を示す図である。

【図5】追跡部による追跡解析の処理の一例を示すフローチャートである。

【図6】抽出形状に識別子を付与する方法の一例である。

【図7】グラフィカルユーザインターフェースから識別子の再割り当てを行うことを説明するための図である。

【図8】視点指示部が被写体位置情報を利用することを説明するための図である。

【図9】コンピュータのハードウェアの構成例を示すブロック図である。

【発明を実施するための形態】

【0009】

［第一の実施形態］
（画像処理装置のシステム構成と動作）
本実施形態に係わる仮想視点映像を生成する画像処理システムの構成の一例を図１に示す。画像処理システムは例えば撮像部１、同期部２、三次元形状推定部３、蓄積部４、視点指示部５、映像生成部６、表示部７、収音部８、音響信号生成部９，音響出力部１０、形状抽出部１１、追跡部１２、被写体位置算出部１３，識別設定部１４を含んで構成される。なお、画像処理システムは、１つの画像処理装置によって構成されてもよいし、複数の画像処理装置によって構成されるシステムでもよい。以下の説明では、画像処理システムは、１つの画像処理装置であるとして説明する。

【0010】

本システムを適用する仮想視点映像を生成する画像処理装置における、各構成の動作の概略を説明する。まず複数の撮像部１が、同期部２による同期信号に基づいて互いに同期して撮像を行う。撮像部１は撮影した撮影画像を三次元形状推定部３に出力する。なお、撮像部１は、被写体を複数の方向から撮影可能とするため、被写体を含む撮影領域を囲むように設置される。三次元形状推定部３は、入力された複数視点からの撮影画像を用いて、たとえば被写体のシルエットを抽出したうえで、視体積交差法などを用いて被写体の三次元形状を生成する。また三次元形状推定部３は生成した被写体の三次元形状及び、撮影画像を蓄積部４に出力する。ここで、被写体は三次元形状生成の対象となる物体のことであり、人物や人物が扱う物品などを含む。

【0011】

収音部８は、撮影領域内の複数個所の音声または各被写体の音声を収音し、収音した音響データを蓄積部４に出力する。

【0012】

蓄積部４は、仮想視点映像の生成に用いられるデータ（素材データ）として以下のデータ群を保存し、蓄積する。仮想視点映像の生成に用いられるデータは、具体的には、三次元形状推定部３から入力された撮影画像及び被写体の三次元形状を含む。また、仮想視点映像の生成に用いられるデータは、各撮像部の位置姿勢及び光学特性などのカメラパラメータ、および、収音部８で取得した音響データを含む。なお、仮想視点映像の背景の生成に用いられるデータとして、あらかじめ背景モデルと背景テクスチャ画像が蓄積部４に保存（記録）されている。

【0013】

視点指示部５は、図示しないジョイスティックやジョグダイヤルなどの物理的なユーザインターフェースである視点操作部と、仮想視点映像を表示するための表示部からなる。ここで表示されている仮想視点映像の仮想視点は、視点操作部によって変更可能である。視点操作部による仮想視点の変更に応じて、後述の映像生成部６によって随時仮想視点映像が生成され、表示部に表示される。この表示部は後述の表示部７を共用してもよいし、別途表示装置を備える形としてもよい。視点指示部５は、視点操作部の入力に基づき仮想視点情報を生成し、生成した仮想視点情報を映像生成部６へ出力する。仮想視点情報とは、仮想視点の位置姿勢などのカメラの外部パラメータに相当する情報、焦点距離や画角といったカメラの内部パラメータに相当する情報、および再生する撮影時刻を指定する時刻情報を含む。

【0014】

映像生成部６は、入力された仮想視点情報に含まれる時刻情報に基づき、蓄積部４から当該撮影時刻の素材データを取得する。映像生成部６は取得した素材データのうち被写体の三次元形状および撮影画像を用いて、設定された仮想視点における仮想視点映像を生成し表示部７に出力する。

【0015】

表示部７は、映像生成部６から入力された映像を表示する表示手段である。表示部７は、ディスプレイまたは、ヘッドマウントディスプレイ（ＨＭＤ）などで構成される。

【0016】

音響信号生成部９は、入力された仮想視点情報に含まれる時刻情報に基づき、蓄積部４から当該撮影時刻の音響データを取得する。音響信号生成部９は、取得した音響データを、三次元空間上に仮想的な音源として配置する。また、音響信号生成部９は、仮想的な音源と仮想視点位置との距離および仮想視点の方向に基づき音響信号を生成し、音響出力部１０に出力する。

【0017】

音響出力部１０はスピーカやヘッドホンなどで構成され、入力された音響信号にもとづき音響出力（再生）を行う。

【0018】

（被写体位置の追跡方法）
次に本実施形態における被写体位置の追跡方法に関して説明する。

【0019】

まず、三次元形状推定部３が、被写体の三次元形状を生成し、生成された三次元形状を蓄積部４に出力するとともに、生成された三次元形状を形状抽出部１１にも出力する。

【0020】

形状抽出部１１は、図２（ａ）に示すような被写体の三次元形状のうち、図２（ｂ）に示すように被写体の三次元形状の下部を切り出す。本実施形態においては被写体の三次元形状の外接直方体の底面から所定の高さ（例えば５０ｃｍに相当する高さ）までを切り出すものとする。例えば図２（ｃ）に示すように、被写体の一人が立っており、被写体の一人が跳躍などして撮影領域の床面から離れている場合には、被写体の三次元形状は図２（ｄ）の示す範囲のように三次元形状が切り出される。すなわち、どちらの被写体の三次元形状も、足元に相当する部分から所定の高さまでの三次元形状が切り出される。

【0021】

次に図２（ｅ）に示すように、形状抽出部１１は、切り出した三次元形状を、被写体の三次元形状を真上から見た平面投影して二次元画像を生成する。本実施形態では、形状抽出部１１は、足元（床面）相当に相当する二次元平面に、切り出した三次元形状を平行投影する。本実施形態では、平面投影された画像は、切り出した三次元形状の部分を白、それ以外の部分を黒とする二値画像とする。形状抽出部１１は、この二次元画像を独立した領域ごとに分割しそれらの図２（ｅ）に示す外接矩形２０１～２０４を求める。形状抽出部１１は、この外接矩形の頂点情報を抽出された三次元形状（抽出形状）として出力する。ここで、形状抽出部１１は、外接矩形の頂点情報を、撮影領域の三次元空間と同じ座標系および単位に変換したうえで出力する。また、形状抽出部１１で独立した形状の判定には、投影された二次元画像に対して例えば連続成分分析などの手法が用いられる。このような手法を用いることで、形状抽出部１１は、三次元形状を一つ一つの領域に分割することができる。

【0022】

識別設定部１４は、形状抽出部１１が出力した抽出形状に対して識別子を付与する。具体的には、識別設定部１４は、各抽出形状間の距離の計算を行い、抽出形状間の距離に応じて識別子を付与する。例えば、図３（ａ）に示すように、識別設定部１４は、抽出形状間の距離が所定の距離未満（実線矢印）の抽出形状には同一の識別子を割り当て、抽出形状間の距離が所定の距離以上（破線矢印）のものには異なる識別子を割り当てる。判定の基準として用いられる所定の距離の閾値は被写体が立った状態の足の開き幅に相当するような距離が望ましい。本実施形態では、所定の距離の閾値は５０ｃｍとして設定されるものとして説明する。

【0023】

識別設定部１４は、割り当てた識別子を、識別設定部１４に備えられた表示部上に図３（ｂ）に示すようなグラフィカルインターフェース（ＧＵＩ）によって表示する。ユーザは、このＧＵＩを見ながら画像処理システムを操作する。具体的には、識別設定部１４は、グラフィカルインターフェース上で現在の識別子の割り当て（初期状態の識別子の割り当て）を、文字および色分けの少なくとも一方で区別して表示する。図３（ｂ）では、識別設定部１４は、識別子ごとに文字および色分けの両方を行って表示している。ユーザはＧＵＩを確認し、初期状態として所望の識別子の割り当てになっているか否かを確認する。所望の識別子の割り当てとなっていない場合は、ユーザは被写体に対して立ち位置の変更や足を閉じてもらうなどの指示をし、所望の割り当てとなるまで繰り返す。または、ユーザはＧＵＩを介して画像処理システムを操作し、所望の識別子の割り当てとなるように変更指示を行う。所望の識別子の割り当てである場合、ユーザは、例えば図３（ｂ）に示すようなグラフィカルインターフェース上の決定ボタン（初期識別子決定ボタン）を押下する。この操作に応じて、識別設定部１４は、初期状態の識別子を決定する。そして、識別設定部１４は、各抽出形状に割り当てた識別子を追跡部１２に出力する。

【0024】

追跡部１２は、識別設定部１４から識別子を入力されたことに応じて、初期状態として各抽出形状に当該識別子を付与する。以後、追跡部１２は、この識別子が付与された抽出形状の追跡を行う。なお、追跡中に抽出形状に付与される識別子は、識別設定部１４によって決定された識別子ではなく、追跡部１２による各抽出形状の位置の追跡結果に基づき決定された識別子が用いられる。抽出形状の追跡（追跡解析）では、追跡部１２は、当該抽出形状の撮影時刻に対してひとつ前の時刻における各抽出形状の位置、各抽出形状の識別子、および後述する被写体位置算出部から入力される被写体位置の情報に基づき、抽出形状の追跡を行う。なお、追跡部１２による追跡の具体的な処理に関しては後述する。追跡部１２は、追跡解析の結果に基づき当該時刻における、各抽出形状に対して識別子を付与し、各抽出形状を被写体位置算出部１３に出力する。

【0025】

被写体位置算出部１３は、追跡部１２より入力された、識別子の付与された各抽出形状に対して、代表位置を求める。例えば、図４に示すように、被写体位置算出部１３は、代表位置４０１、４０２のように、同一識別子が付与された抽出形状群ごとに、各抽出形状群を示す位置を求める。本実施形態では、代表位置は抽出形状群の中心位置とする。

【0026】

ただし、この代表位置は形状推定誤差や形状抽出部１１で形状を切り出した際の境界部分の揺らぎの影響を受けるため、被写体が静止していても各時刻で位置が揺らぐことがある。そのため、本実施形態では、被写体位置算出部１３は、各時刻の中心位置情報に対して時間方向にローパスフィルタや移動平均などの処理を行い、高周波成分を抑制した位置情報を生成する。そして、被写体位置算出部１３は、被写体の位置として識別子とともに代表位置の位置情報を追跡部１２に出力する。また、被写体位置算出部１３は、追跡解析のもととなった三次元形状の撮影された時刻の情報を代表位置の位置情報に付与した情報を、被写体一の情報（被写体位置情報）として蓄積部４に記録（蓄積）する。

【0027】

音響信号生成部９は、仮想視点情報に含まれる時刻情報に基づき、該当撮影時刻の音響データ、および被写体位置情報を蓄積部４から取得する。本実施形態では、被写体位置情報には高さ方向の情報が含まれていないため、音響信号生成部９は、被写体に対応した高さ情報を被写体位置情報に追加する。例えば、本実施形態の場合は、音響信号生成部９は、被写体の口や楽器に相当する高さ情報を、被写体位置情報に追加する。そして、音響信号生成部９は、高さ情報が含まれた被写体位置情報に付与された識別子に対応する収音部（マイク）で収音した音響データを紐づける。これにより、音響信号生成部９は、被写体位置情報によって示される位置に、当該音響データ再生する仮想的な音源の位置を付与することができる。

【0028】

以上のシステム構成により、画像処理システム１は、仮想視点映像の視点位置と、仮想視点映像中の被写体の位置に基づいた立体的な音響を生成することができる。画像処理システム１によって生成された仮想視点映像により、ユーザは臨場感の高い映像音声体験が行える。

【0029】

（追跡部１２による追跡解析処理）
次に追跡部１２における抽出形状位置の追跡解析処理の一例を図５のフローチャートを用いて説明する。

【0030】

ステップＳ５０１では、追跡部１２は、識別設定部１４からの入力を受け初期化処理を行う。具体的には追跡部１２は、識別設定部１４から入力される各抽出形状の識別子を取得する。

【0031】

ステップＳ５０２では、追跡部１２は、次に形状抽出部１１から入力される抽出形状を取得する。

【0032】

ステップＳ５０３では、追跡部１２は、取得した各抽出形状に対して識別設定部１４から取得した各識別子を付与し、識別子を付与した各抽出形状を、被写体位置算出部１３に出力する。

【0033】

ステップＳ５０４では、被写体位置算出部１３は、同一識別子がつけられた抽出形状群から被写体位置を求め、被写体位置を追跡部１２に出力する。

【0034】

以上のステップＳ５０１～Ｓ５０４までの処理が初期化処理に相当する。

【0035】

以降のステップＳ５０５～Ｓ５０９の処理は毎時刻の処理であり撮像部１が被写体を撮像している間は繰り返し実行される。撮像部１による被写体の撮像処理が終了した場合、ステップＳ５０９の処理が完了したことに応じて、本フローチャートの処理が終了される。

【0036】

ステップＳ５０５では、追跡部１２は、形状抽出部１１から入力される抽出形状と、被写体位置算出部１３が算出したひとつ前の時刻（前時刻）の被写体位置を取得する。ひとつ前の時刻は例えば、現在処理されている抽出形状の１フレーム前に生成された抽出形状の撮影時刻である。ここで、対比のために現在の時刻のことを現時刻とも記載する。ここで現在の時刻とは、現在処理されている抽出形状が生成されるために使われた画像の撮影時刻のことである。

【0037】

ステップＳ５０６では、追跡部１２は、前時刻における被写体位置と現時刻の各抽出形状の代表位置とが重なっている場合、抽出形状に対し、その代表位置と重なっている被写体位置に付与された識別子を付与する。ここで、ステップＳ５０６において、追跡部１２は、一つの抽出形状の代表位置が複数の被写体位置と重なっている場合、当該抽出形状に対し、現時刻では「判定不能」を示す識別子を付与する。これは、例えば、２人の被写体が近接している状態のように、異なる識別子が付与された複数の抽出形状が現時刻で重畳している可能性があるため、本ステップの処理では「判定不能」を示す識別子を付与する。「判定不能」を示す識別子を含む識別子が付与された抽出形状は、後述のＳ５０９の処理が実行される。

【0038】

ステップＳ５０７では、追跡部１２は、まだ識別子が付与されていない抽出形状の代表位置が、前時刻の抽出形状と重なっている場合、前時刻の抽出形状に付与されている識別子を当該の現時刻の抽出形状に対して付与する。

【0039】

ステップＳ５０８では、追跡部１２は、まだ識別子が付与されていない抽出形状から所定の範囲内に、現時刻ですでに識別子が付与された他の抽出形状がある場合、当該の他の抽出形状に付与された識別子を、付与する。所定の範囲内は、被写体が立った状態の足の開き幅に相当する範囲が望ましい。例えば、所定の範囲は、抽出形状の中心から半径５０ｃｍの範囲である。ここで、ある抽出形状から所定の範囲内に識別子が付与された他の抽出形状が複数ある場合、追跡部１２は、その他の抽出形状のうち最も近傍にある抽出形状の識別子を当該抽出形状に付与する。ステップＳ５０８までの処理を終えた段階で識別子を付与されていない抽出形状については、追跡部１２は、当該の抽出形状を追跡対象外と判定する。この場合、追跡部１２は、追跡対象外と判定された抽出形状は、被写体位置算出部１３へ出力しない。

【0040】

ステップＳ５０９では、追跡部１２は、ステップＳ５０６からステップＳ５０８の処理で識別子が付与された抽出形状、およびそれに付与された識別子を被写体位置算出部１３に出力する。

【0041】

ステップＳ５１０では、不図示の制御部によって、撮像部１による被写体の撮像処理が終了されたか否かが判定される。撮像部１による被写体の撮像処理が終了されていないと判定された場合、ステップＳ５０８の処理が実行される。撮像部１による被写体の撮像処理が終了されたと判定された場合、本フローチャートの処理は終了される。

【0042】

なお、ステップＳ５０６からステップＳ５０８の処理に関しては各処理において、抽出形状ごとに対して処理が行われる。ステップＳ５０６からステップＳ５０９の処理を繰り返すことで、識別設定部１４で設定された識別子が各時刻の抽出形状と紐づけられる。この識別子を用いて、被写体位置算出部１３は被写体ごとに区別して被写体位置を求めることができる。

【0043】

また、追跡部１２において識別子として、「判定不能」の識別子が抽出形状に付与された場合、ある時刻において、初期設定で定められた識別子のうち、一部の識別子が付与されない可能性がある。このような場合、被写体位置算出部１３において、抽出形状に付与されていない識別子と同一の識別子である被写体位置情報は更新しない。これにより、複数の被写体が近づくなどにより抽出形状が重畳した場合でも、複数の被写体位置情報が同一の位置にならない。この場合、複数の被写体位置は、前時刻までのそれぞれの位置が維持される。その後、被写体同士が離れることにより、重畳した複数の抽出形状が再度分離した場合、それぞれの抽出形状に対して、もっとも最近の被写体位置に基づき識別子が割り当てされる。すなわち、複数の抽出形状の重畳が解消されたことに応じて、それぞれの被写体位置情報の更新が再開される。

【0044】

以上の処理により、画像処理システムは、複数の被写体が撮影領域にいる場合でも、個々の被写体を追跡することや個々の被写体の位置情報を取得することができる。さらには、以上の処理により、画像処理システムは、被写体が近づいたり離れたりするなどして、生成された三次元形状モデルに重畳や分離が発生する場合においても、個々の被写体を追跡することができる。これにより、画像処理システムは、例えば、複数のアーティストが、歌唱に合わせて立ち位置が入れ替わったり、近接して手つないだりしても、個々の被写体の口元等から音が発せられているような立体的な音響を有する仮想視点映像を生成することができる。ユーザはこのような仮想視点映像を視聴することで、臨場感の高い映像体験および音声体験が行える。

【0045】

（第一の実施形態のその他の形態）
第一の実施形態において、画像処理システム１について具体的な実施形態を示したが必ずしも今回示した具体的な形態に限定するものではない。

【0046】

例えば、第一の実施形態において、形状抽出部１１は三次元形状推定部３の形状推定結果を、三次元形状推定部３から入力される構成としているがこれに限定するものではない。例えば、形状抽出部１１は、三次元形状推定部３の形状推定結果を、三次元形状推定部３が蓄積部４に蓄積した形状推定結果から取得ししてもよい。

【0047】

そのほかに、第一の実施形態において形状抽出部１１が三次元形状の外接直方体の底面から切り出される所定の高さを５０ｃｍとしたが、必ずしも５０ｃｍである必要はない。例えば、所定の高さは、２０ｃｍ～１００ｃｍといった範囲に設定されてもよい。また、所定の高さは、被写体の身長に基づいて、膝から腰の間付近の高さとなるように自動的に設定されてもよい。

【0048】

また、第一の実施形態では、形状抽出部１１は外接直方体の底面から所定の高さを切り出すように処理しているが、これも限定するものではなく、一律に撮影範囲の床面から所定の高さを切り出してもよい。また、この場合、撮影領域にある踏み台などの構造物の上に被写体が乗っている状態では、形状抽出部１１は、その被写体を抽出する際には、その構造物の上面から所定の高さを抽出してもよい。

【0049】

また、第一の実施形態において、形状抽出部１１は、抽出形状を独立した形状に分割する際に、二次元画像上に投影して処理を行ったが、これに限定するものではない。例えば、形状抽出部１１は、三次元形状のまま、形状の独立を判定したうえで分割してもよい。この場合、以後の処理において、追跡部１２は、被写体の三次元形状に基づいて被写体の追跡を行う。

【0050】

第一の実施形態の識別設定部１４よって、複数の抽出形状に対して同じ識別子の割り当てが行われる距離の一例として被写体が立った状態の足の開き幅に相当する距離（５０ｃｍ）が望ましいとしたが必ずしもこれに限定するものではない。例えば、被写体人数が多く被写体間の距離が近い場合など、被写体が足の開き幅を狭くする場合では、複数の抽出形状に対して同じ識別子の割り当てが行われる距離は３０ｃｍ等の短い距離でもよい。一方で、広い撮影領域である場合など、足の開き幅を大きくしてもよい場合では、複数の抽出形状に対して同じ識別子の割り当てが行われる距離は１００ｃｍ等の長い距離にしてもよい。

【0051】

第一の実施形態において、識別設定部１４は各抽出形状間の距離に基づいて識別子を割り当てる構成としたが必ずしもこれに限定するものではない。例えば、識別設定部１４は、三次元形状の外接直方体のいずれの中に含まれるか否かを判定して、識別子を割り当ててもよい。例えば、図６（ａ）に示す例では、識別設定部１４は、外接直方体６０１に含まれる抽出形状６０３，６０４の識別子をＡとし、外接直方体６０２に含まれる抽出形状６０５，６０６に識別子Ｂを割り当てる。ほかにも、識別設定部１４に対して所定の識別子を付与する領域をユーザが事前に決定してもよい。例えば、図６（ｂ）に示すように、ユーザは、まず識別子Ａが付与された判定領域６１１と識別子Ｂを付与した判定領域６１２の情報を不図示の入力部から画像処理システム１に入力する。そして識別設定部１４は、判定領域６１１内に含まれる抽出形状６１３，６１４に識別子Ａを、判定領域６１２に含まれる抽出形状６０５，６０６に識別子Ｂを割り当てる。

【0052】

また、第一の実施形態では識別設定部１４が自動的に設定する識別子を割り当てていたが必ずしもこれに限定するものではない。ユーザが抽出形状に付与される識別子を決定してもよい。たとえば、複数人の被写体がいる状態で、識別子の割り当て後に、被写体ごとにユーザが識別子を付与する場合について説明する。この場合、例えば、ユーザは図７（ａ）に示すようなグラフィカルユーザインターフェースから識別子再割り当てモードへの遷移を指示する。そして、ユーザは、図７（ａ）に示すような画面上に表示されている各被写体位置７０１～７０３を、順番にクリックするなどして割り当てる識別子を指定する。例えば、先に被写体位置７０１に識別子Ｃが、被写体位置７０２に識別子Ｂが、被写体位置７０３に識別子Ｃが付与されているとする。これに対し、被写体位置７０１～７０３に識別子Ａ～Ｃの順序に割り当てる場合には、ユーザは被写体位置７０１～７０３を順番にクリックする。識別設定部１４はこのクリックされた順序を入力として、その順序に基づき図７（ｂ）に示すように識別子の再割り当てを行う。そして、識別設定部１４は、抽出形状とその抽出形状に再割り当てされた識別子を追跡部１２に出力する。

【0053】

また第一の実施形態として追跡解析を行った被写体位置の情報を音源再生位置として利用する構成としたが必ずしもこの用途に限定するものではない。例えば、蓄積部４に蓄積された被写体位置情報を視点指示部５が取得し利用してもよい。この場合、視点指示部５は、たとえば図８（ａ）に示すように仮想視点の回転中心の位置を被写体位置８００として、被写体が移動しても常に被写体の周囲を周回できるような仮想視点を生成してもよい。また、視点指示部５は、例えば、図８（ｂ）に示すように仮想視点の視線方向を被写体位置８００にするような構成としてもよい。この場合、画像処理システム１は、半固定な位置に配置された仮想視点が被写体の移動に伴い水平方向に視点を自動で旋回するような視点の仮想視点映像を生成できる。

【0054】

（その他の構成）
図１に示した各処理部はハードウェアで構成しているものとして上記実施形態では説明した。しかし、これらの図に示した各処理部で行う処理をコンピュータプログラムで構成しても良い。

【0055】

図９は、上記各実施形態に係る間接位置推定装置に適用可能なコンピュータのハードウェアの構成例を示すブロック図である。

【0056】

ＣＰＵ９０１は、ＲＡＭ９０２やＲＯＭ９０３に格納されているコンピュータプログラムやデータを用いてコンピュータ全体の制御を行うと共に、上記各実施形態に係る間接位置推定装置が行うものとして上述した各処理を実行する。即ち、ＣＰＵ９０１は、図１に示した各処理部として機能することになる。

【0057】

ＲＡＭ９０２は、外部記憶装置９０６からロードされたコンピュータプログラムやデータ、Ｉ／Ｆ（インターフェース）９０７を介して外部から取得したデータなどを一時的に記憶するためのエリアを有する。更に、ＲＡＭ９０２は、ＣＰＵ９０１が各種の処理を実行する際に用いるワークエリアを有する。即ち、ＲＡＭ９０２は、例えば、フレームメモリとして割り当てたり、その他の各種のエリアを適宜提供したりすることができる。

【0058】

ＲＯＭ９０３には、本コンピュータの設定データや、ブートプログラムなどが格納されている。操作部９０４は、キーボードやマウスなどにより構成されており、本コンピュータのユーザが操作することで、各種の指示をＣＰＵ９０１に対して入力することができる。出力部９０５は、ＣＰＵ９０１による処理結果を表示する。また出力部９０５は例えば液晶ディスプレイで構成される。たとえば視点指示部５は操作部９０４で、表示部７は出力部９０５で構成される。

【0059】

外部記憶装置９０６は、ハードディスクドライブ装置に代表される、大容量情報記憶装置である。外部記憶装置９０６には、ＯＳ（オペレーティングシステム）や、図１に示した各部の機能をＣＰＵ９０１に実現させるためのコンピュータプログラムが保存されている。更には、外部記憶装置９０６には、処理対象としての各画像データが保存されていても良い。

【0060】

外部記憶装置９０６に保存されているコンピュータプログラムやデータは、ＣＰＵ９０１による制御に従って適宜、ＲＡＭ９０２にロードされ、ＣＰＵ９０１による処理対象となる。Ｉ／Ｆ９０７には、ＬＡＮやインターネット等のネットワーク、投影装置や表示装置などの他の機器を接続することができ、本コンピュータはこのＩ／Ｆ９０７を介して様々な情報を取得したり、送出したりすることができる。第一の実施形態においては、撮像部１がこれに接続され、撮像された画像を入力したり、それぞれを制御したりする。９０８は上述の各部を繋ぐバスである。

【0061】

上述の構成からなる作動は前述の実施形態で説明した作動をＣＰＵ９０１が中心となってその制御を行う。

【0062】

その他の構成では、前述した機能を実現するコンピュータプログラムのコードを記録した記憶媒体を、システムに供給し、そのシステムがコンピュータプログラムのコードを読み出し実行することによっても達成される。この場合、記憶媒体から読み出されたコンピュータプログラムのコード自体が前述した実施形態の機能を実現し、そのコンピュータプログラムのコードを記憶した記憶媒体は本発明を構成する。また、そのプログラムのコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した機能が実現される場合も含まれる。

【0063】

さらに、以下の形態で実現しても構わない。すなわち、記憶媒体から読み出されたコンピュータプログラムコードを、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込む。そして、そのコンピュータプログラムのコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行って、前述した機能が実現される場合も含まれる。

【0064】

本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明した処理に対応するコンピュータプログラムのコードが格納されることになる。

【0065】

なお、本実施形態の開示は、以下の構成および方法を含む。
（構成１）
被写体を複数の方向から撮像する撮像手段と、
前記撮像手段によって取得された撮影画像を用いて前記被写体の三次元形状を推定する推定手段と、
仮想視点情報を出力する視点指示手段と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成手段と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出手段と、
前記抽出形状に識別子を設定する識別設定手段と、
前記抽出形状の位置の追跡を行う追跡手段と、
前記追跡手段の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出手段と
を有する画像処理装置。
（構成２）
前記識別設定手段は、前記抽出形状に対して、初期状態の識別子を設定することを特徴とする、構成１に記載の画像処理装置。
（構成３）
前記識別設定手段は、各抽出形状間の距離に基づいて、各抽出形状に識別子を設定することを特徴とする、構成１または２に記載の画像処理装置。
（構成４）
前記識別設定手段は、各抽出形状がいずれの前記三次元形状の外接直方体の中に含まれるか否かを判定し、同じ外接直方体に含まれる場合には同一の識別子を設定することを特徴とする、構成１から３のいずれか１項に記載の画像処理装置。
（構成５）
前記識別設定手段は、所定の識別子を付与する領域を設定し、該領域に含まれる抽出形状に対して該領域に設定された所定の識別子を設定することを特徴する、構成１から４のいずれか１項に記載の画像処理装置。
（構成６）
前記識別設定手段は、割り当てた識別子に対してユーザの指示に応じて識別子の再割り当てを行うことを特徴とする、構成１から５のいずれか１項に記載の画像処理装置。
（構成７）
前記形状抽出手段は、前記抽出形状を床面に相当する二次元平面に平行投影した二次元画像としたうえで、二次元画像上で独立した領域ごとに切り出すとともに、該二次元画像上の各領域の外接矩形を抽出形状として出力することを特徴とする、構成１から６のいずれか１項に記載の画像処理装置。
（構成８）
前記形状抽出手段は、各三次元形状の外接直方体の底面から所定の高さまでの形状を切り出すことを特徴とする、構成１から７のいずれか１項に記載の画像処理装置。
（構成９）
前記形状抽出手段は、撮影領域の床面から所定の高さまでの形状を切り出すことを特徴とする、構成１から８のいずれか１項に記載の画像処理装置。
（構成１０）
前記形状抽出手段は、撮影領域に設置している構造物の上に前記三次元形状が位置している場合には、前記構造物の上面から所定の高さまでの形状を抽出することを特徴とする、構成１から９のいずれか１項に記載の画像処理装置。
（構成１１）
前記追跡手段が、各時刻において当該時刻の前記抽出形状と、ひとつ前の時刻の抽出形状の位置と識別子とに基づき、当該時刻の前記抽出形状の識別子を決定することを特徴とする、構成１から１０のいずれか１項に記載の画像処理装置。
（構成１２）
前記追跡手段は、各時刻において当該時刻の前記抽出形状と、ひとつ前の時刻の前記被写体位置とその識別子に基づき、当該時刻の前記抽出形状の識別子を決定することを特徴とする、構成１から１１のいずれか１項に記載の画像処理装置。
（構成１３）
前記追跡手段は、ひとつ前の時刻の被写体位置に位置する前記抽出形状に前記被写体位置の識別子を付与し、識別子を付与されていない抽出形状に対して、ひとつ前の時刻の抽出形状との重なりを確認し、重なる場合には前記ひとつ前の時刻の抽出形状の識別子を付与し、それでも識別子が付与されていない抽出形状に対して、所定の範囲内でもっとも近傍にある抽出形状の識別子を付与することを特徴とする、構成１から１２のいずれか１項に記載の画像処理装置。
（構成１４）
前記追跡手段は、前記抽出形状に、ひとつ前の時刻の２つ以上の被写体位置が重なる場合、前記抽出形状には識別子を付与せず、また前記被写体位置すべての位置情報の更新も行わないことを特徴とする、構成１から１３のいずれか１項に記載の画像処理装置。
（構成１５）
仮想的な音源の再生位置と仮想視点の位置に基づき音響信号を生成する音響信号生成手段を更に備え、前記音響信号生成手段が前記被写体位置に基づき、仮想視点映像に付与する音源の仮想的な再生位置を更新することを特徴とする、構成１から１４のいずれか１項に記載の画像処理装置。
（構成１６）
前記視点指示手段が前記被写体位置に基づき仮想視点の向きまたは位置の少なくとも一方を更新することを特徴とする、構成１から１５のいずれか１項に記載の画像処理装置。
（方法１）
被写体を複数の方向から撮像する撮像工程と、
前記撮像工程において取得された撮影画像を用いて前記被写体の三次元形状を推定する推定工程と、
仮想視点情報を出力する視点指示工程と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成工程と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出工程と、
前記抽出形状に識別子を設定する識別設定工程と、
前記抽出形状の位置の追跡を行う追跡工程と、
前記追跡工程の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出工程と
を有することを特徴とする制御方法。
（プログラム１）
被写体を複数の方向から撮像する撮像工程と、
前記撮像工程において取得された撮影画像を用いて前記被写体の三次元形状を推定する推定工程と、
仮想視点情報を出力する視点指示工程と、
前記撮影画像、前記三次元形状、および前記仮想視点情報に基づいて仮想視点映像を生成する映像生成工程と、
前記三次元形状の一部を切り出して抽出形状として出力する形状抽出工程と、
前記抽出形状に識別子を設定する識別設定工程と、
前記抽出形状の位置の追跡を行う追跡工程と、
前記追跡工程の追跡結果に基づき同一識別子を付与された抽出形状の代表位置を求めそれを被写体位置として出力する被写体位置算出工程と
をコンピュータに実行させるためのプログラム。

【図1】