(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-15
(45)【発行日】2023-12-25
(54)【発明の名称】情報処理装置、映像生成装置、画像処理システム、それらの制御方法及びプログラム
(51)【国際特許分類】
G06T 15/20 20110101AFI20231218BHJP
G06T 19/00 20110101ALI20231218BHJP
H04N 7/18 20060101ALI20231218BHJP
【FI】
G06T15/20 500
G06T19/00 A
H04N7/18 U
(21)【出願番号】P 2019075361
(22)【出願日】2019-04-11
【審査請求日】2022-04-11
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】古川 剛史
【審査官】粕谷 満成
(56)【参考文献】
【文献】国際公開第2019/039282(WO,A1)
【文献】米国特許出願公開第2014/0361909(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 15/20
G06T 19/00
H04N 7/18
(57)【特許請求の範囲】
【請求項1】
時系列に入力される撮像画像に映るオブジェクトであって撮像期間中において動体である第1オブジェクトのシルエットを表すシルエット画像を、前記撮像画像と撮像期間中に更新される背景画像との差分に基づき生成する第1生成手段と、
前記第1生成手段によって生成された前記シルエット画像を用いて、前記第1オブジェクトの3次元形状を表す形状データを生成する第2生成手段と、
前記撮像画像に映るオブジェクトであって撮像期間中において少なくとも一定時間は静体である第2オブジェクトの位置を特定するための位置情報を、前記第2オブジェクトに含まれる位置情報通知装置または前記第2オブジェクトに取り付けられた位置情報通知装置から取得する取得手段と、
前記第1オブジェクトについては、前記シルエット画像に基づき生成された形状データを出力し、前記第2オブジェクトについては、その3次元形状を表す予め用意された形状データを、前記取得手段によって取得された前記位置情報に基づき、出力する出力手段と、
を備えたことを特徴とする情報処理装置。
【請求項2】
前記位置情報通知
装置は、RFタグであり、
前記取得手段は、前記RFタグが発する電波を受信するアンテナが当該電波を受信したときの電磁界強度から得られる、前記アンテナから前記RFタグまでの距離と、前記アンテナからみた前記RFタグが存在する方向の情報を、前記位置情報として取得する、
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記アンテナの数は複数であり、
前記取得手段は、複数の
前記アンテナそれぞれが前記電波を受信したときの電磁界強度から得られる、複数の位置情報を取得し、
前記出力手段は、前記複数の位置情報に基づいて導出された、前記
第2オブジェクト
の位置を特定する情報と対応付けて、前記
第2オブジェクト
の形状データを出力する、
ことを特徴とする請求項
2に記載の情報処理装置。
【請求項4】
前記
第2オブジェクトに付される前記RFタグの数は複数であり、
前記出力手段は、複数の
前記RFタグから得られた複数の位置情報に基づいて導出された、前記
第2オブジェクト
の位置を特定する情報と対応付けて、前記
第2オブジェクト
の形状データを出力する、
ことを特徴とする請求項
2に記載の情報処理装置。
【請求項5】
前記
第2オブジェクトをユーザが選択するためのUI画面を表示する表示手段をさらに備えたことを特徴とする請求項1乃至
4のいずれか1項に記載の情報処理装置。
【請求項6】
仮想視点映像を生成する映像生成手段をさらに有し、
前記出力手段は、前記
第2オブジェクト
の形状データ
を、前記第2オブジェクトの位置を特定する情報と対応付けて、前記映像生成手段に出力し、
前記映像生成手段は
、前記第2オブジェクトの位置を特定する情報と対応付けられた前記
第2オブジェクト
の形状データを用いて、前記仮想視点映像を生成する、
ことを特徴とする請求項1
乃至5のいずれか1項に記載の情報処理装置。
【請求項7】
時系列に入力される撮像画像に映るオブジェクトであって撮像期間中において動体である第1オブジェクトのシルエットを表すシルエット画像を、前記撮像画像と撮像期間中に更新される背景画像との差分に基づき生成する第1生成ステップと、
前記第1生成ステップにて生成された前記シルエット画像を用いて、前記第1オブジェクトの3次元形状を表す形状データを生成する第2生成ステップと、
前記撮像画像に映るオブジェクトであって撮像期間中において少なくとも一定時間は静体である第2オブジェクトの位置を特定するための位置情報を、前記第2オブジェクトに含まれる位置情報通知装置または前記第2オブジェクトに取り付けられた位置情報通知装置から取得する取得ステップと、
前記第1オブジェクトについては、前記シルエット画像に基づき生成された形状データを出力し、前記第2オブジェクトについては、その3次元形状を表す予め用意された形状データを、前記取得ステップにて取得された前記位置情報に基づき、出力する出力ステップと、
を含むことを特徴とする情報処理方法。
【請求項8】
コンピュータを、請求項1乃至
6のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理技術に関する。
【背景技術】
【0002】
昨今、オブジェクト(被写体)をさまざまな視点や角度から捉えた映像として視聴できる仮想視点映像という技術が注目されている。この仮想視点映像によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の映像と比較してユーザに高臨場感を与えることが出来る。このような仮想視点映像は、オブジェクトを取り囲むように設置した複数のカメラを用い、同一のタイミングで多方向から撮影した映像から生成される。
【0003】
特許文献1に開示されるように、通常、仮想視点映像の生成の際には、まず、撮影シーンに存在するオブジェクトの3次元形状を表す3次元形状データが生成される。具体的には、まず、複数のカメラで撮影された映像の各フレーム(静止画像)を対象に、前景となるオブジェクトとそれ以外の背景に分離する前景背景分離処理を行って、オブジェクトのシルエットを抽出したシルエット画像を生成する。そして、得られたシルエット画像から、オブジェクトの3次元形状を表す3次元形状データを生成する。そして、ユーザが指示した仮想視点の情報と、3次元形状データとに基づき、仮想視点からの見えを表した映像が得られる。
【0004】
ここで、シルエット画像の生成においては、背景差分法やフレーム間差分法等が用いられる。そして、背景差分法では、新たに撮影した映像に基づき背景を更新することで、照明条件等の変化による背景変化にも対応できるようにする技術が知られている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示に係る情報処理装置は、時系列に入力される撮像画像に映るオブジェクトであって撮像期間中において動体である第1オブジェクトのシルエットを表すシルエット画像を、前記撮像画像と撮像期間中に更新される背景画像との差分に基づき生成する第1生成手段と、前記第1生成手段によって生成された前記シルエット画像を用いて、前記第1オブジェクトの3次元形状を表す形状データを生成する第2生成手段と、前記撮像画像に映るオブジェクトであって撮像期間中において少なくとも一定時間は静体である第2オブジェクトの位置を特定するための位置情報を、前記第2オブジェクトに含まれる位置情報通知装置または前記第2オブジェクトに取り付けられた位置情報通知装置から取得する取得手段と、前記第1オブジェクトについては、前記シルエット画像に基づき生成された形状データを出力し、前記第2オブジェクトについては、その3次元形状を表す予め用意された形状データを、前記取得手段によって取得された前記位置情報に基づき、出力する出力手段と、を備えたことを特徴とする。
【0007】
そこで、本発明では、仮想視点映像において存在していたオブジェクトが突然消失することを低減することを目的とする。
【課題を解決するための手段】
【0008】
本開示に係る情報処理総落ちは。特定のオブジェクトに付された位置情報通知手段から、当該特定のオブジェクトの位置情報を取得する取得手段と、前記位置情報に基づき、前記特定のオブジェクトの3次元形状データを3次元空間における前記特定のオブジェクトの位置を特定する情報と対応付けて出力する出力手段と、を備えたことを特徴とする。
【発明の効果】
【0009】
本発明によれば、仮想視点映像において存在すべきオブジェクトが突然消失することを低減することができる。
【図面の簡単な説明】
【0010】
【
図2】画像処理装置のハードウェア構成の一例を示す図
【
図3】(a)はラグビーを行う実世界空間のフィールドを俯瞰で見た図、(b)はその一部の拡大図
【
図5】画像処理装置における処理の流れを示すフローチャート
【
図6】(a)は仮想視点映像空間にコーナーフラッグの3次元形状を表すボクセル群が配置された様子を示す図、(b)はコーナーフラッグのボクセル群を示す図
【
図7】(a)及び(b)は、複数のアンテナを配置した一例を示す図
【
図8】(a)~(c)は、1つの器具オブジェクトに複数のRFタグを埋め込んだ一例を示す図
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
【0012】
[実施形態1]
図1は、本実施形態における、仮想視点映像を生成する画像処理システムの構成の一例を示す図である。なお、仮想視点映像とは、エンドユーザ及び/又は選任のオペレータ等が自由に仮想視点(現実には存在しない仮想カメラ)の位置及び姿勢を操作することによって生成される映像であり、自由視点映像や任意視点映像などとも呼ばれる。また、本実施形態では動画を想定しているが、静止画であってもよい。
図1に示す画像処理システムは、画像処理装置100、カメラ群110、アンテナ120、仮想視点映像生成装置130を有する。
【0013】
画像処理装置100は、カメラ群110から映像データを受信する。この映像データは、複数の異なる視点で撮影された映像(以下、「複数視点映像」と呼ぶ)データである。そして、受信した複数視点映像データから、オブジェクトの3次元形状を表すデータ(3次元形状データ、以下、「3次元モデル」とも表記)や、オブジェクトの色や質感を表す情報(以下、「テクスチャ情報」と呼ぶ)を生成する。生成された3次元モデルとテクスチャ情報は、仮想視点映像生成装置130に送られる。送信されるテクスチャ情報は、オブジェクトの表面の色情報と輝度情報と彩度情報のうち少なくとも1つの情報を有している。テクスチャ情報としては、撮像画像や前景画像の形式で送信されてもよいし、3次元モデルに対応して、3次元モデルを構成する要素ごとにテクスチャ情報を対応付けたテクスチャ画像の形式で送信されてもよい。
【0014】
カメラ群110は、複数のデジタルビデオカメラ(以下、単に「カメラ」と表記)で構成される。各カメラは、シリアルデジタルインタフェース(SDI)に代表される映像信号インタフェースを備えており、映像信号インタフェースを介して、撮影した動画像データを画像処理装置100に出力する。
【0015】
アンテナ120は、RFID(Radio Frequency Identification)用のアンテナであり、撮影シーンに存在する特定のオブジェクトに付された位置情報通知手段としてのRFタグから発信される電波を受信し、その電磁界強度により位置情報を取得する。ここで、位置情報の取得対象となる特定のオブジェクトは、一定時間動きのない静止状態のオブジェクトである。具体的には、仮想視点映像の元となる複数視点映像の撮影シーンにおいて基本的に静止しているオブジェクト、或いは動画像のフレーム間で動きのあるオブジェクトではあるが一定時間その動きが止まり静止することもあるオブジェクトが含まれる。例えばラグビーの試合を撮影シーンとする場合であれば、前者のオブジェクトの例としては、フィールド上に設置されるコーナーフラッグが該当し、後者のオブジェクトの例としては、ラグビーボールが該当する。以下、位置情報の取得対象となるコーナーフラッグやボールなどのオブジェクトを、選手や審判といった典型的な前景オブジェクトやスタジアムの客席といった典型的な背景オブジェクトと区別するために、「器具オブジェクト」と呼ぶこととする。なお、位置情報の取得方法は上述のRFIDに限定されるものではなく、例えばGPSや無線LAN等を用いてもよい。さらには、電波に代えて、光を含む電磁波や音を用いてもよい。要は、器具オブジェクトの位置情報が、器具オブジェクトに付された位置情報通知手段からの通知によって得られればよい。
【0016】
仮想視点映像生成装置130は、画像処理装置100から受け取った3次元モデル及びテクスチャ情報を用いてレンダリング処理を行って、ユーザが指定した仮想視点から見えを表す仮想視点映像を生成する。本実施形態の3次元モデルは、仮想視点映像空間としての3次元空間上に、オブジェクトの3次元形状を表すボクセル群が配置された状態で、仮想視点映像生成装置130に入力されるものとする。そして、レンダリング処理では、別途入力された仮想視点情報に従って、3次元モデルが表すオブジェクトの3次元形状の表面にテクスチャを貼り付ける処理を行うことで、仮想視点映像を得るものとする。生成された仮想視点映像データは、液晶ディスプレイ等に代表される不図示の表示装置に出力・表示され、ユーザの視聴に供される。
【0017】
(画像処理装置のハードウェア構成)
図2は、画像処理装置100のハードウェア構成の一例を示す図である。画像処理装置100は、一般的な情報処理装置が有している構成、具体的には、CPU201、メインメモリ202、HDD203、入力部204、表示部205、外部I/F206を備え、各部がバス207を介して接続されている。まず、CPU201は、画像処理装置100を統括的に制御する演算処理装置であり、HDD203等に格納された各種プログラムを実行して、後述する様々な画像処理を行う。メインメモリ202は、各種処理で用いるデータやパラメータなどを一時的に格納するほか、CPU201に作業領域を提供する。HDD203は、各種プログラムや入力された映像データなどを記憶する不揮発性の大容量記憶装置であり、例えばSSD等でもよい。入力部204は、キーボードやマウス、電子ペン、タッチパネル等の装置であり、様々なユーザ入力を受け付ける。表示部205は、液晶パネルなどで構成され、UI画面の表示などを行う。外部I/F部206は、カメラ群110を構成する各カメラ及び仮想視点映像装置130とネットワーク(ここではLAN208)を介して、複数視点映像データや3次元モデルといった各種データの送受信を行う通信インタフェースである。バス207は上述の各部を接続し、データ転送を行う。
【0018】
なお、仮想視点映像装置130も、画像処理装置100と同様の構成を備え、CPUやメインメモリを用いて上述のレンダリング処理などを行う。
【0019】
(画像処理装置のソフトウェア構成)
次に、前述の
図1を参照して、画像処理装置100のソフトウェア構成について説明する。
図1において、画像処理装置100を示す枠内には、4つの機能部、すなわち、シルエット画像生成部101、位置情報取得部102、3次元形状導出部103及び形状データ取得部104が示されている。以下、各部について説明する。
【0020】
シルエット画像生成部101は、カメラ群110から入力された複数視点映像データを対象として、前景となるオブジェクトのシルエット画像を生成する。シルエット画像とは、オブジェクトの輪郭内側を塗り潰し、各画素2値で表すことで当該オブジェクトの2次元形状を表した単色の画像である。本実施形態のシルエット画像生成部101は、背景差分法を用いて、すなわち、時系列に入力される各フレーム(静止画像)と予め用意した背景画像との差分を求めて2値化することでシルエット画像を得る。なお、2値化に限らず、前景領域が他の領域と区別される画像であれば、どのようなものでもよい。また、シルエット画像生成部101は、照明条件の変化があった場合など、背景との差分が同じ内容で一定時間継続する場合に、背景画像を更新する。これにより、照明条件の変化等の影響を受けずに、シルエット画像を導出することができる。さらに、シルエット画像生成部101は、導出した各シルエット画像が表す2次元形状の色や質感を表現する画像データを、テクスチャ情報として生成する。導出・生成されたシルエット画像データやテクスチャ情報は、3次元形状導出部103に入力される。
【0021】
位置情報取得部102は、アンテナ120から器具オブジェクトの位置情報を取得する。さらに、位置情報取得部102は、取得した位置情報を、実世界空間における座標情報に変換した上で、仮想視点映像空間における座標情報に変換する処理を行う。この変換処理の詳細については後述する。変換によって得られた器具オブジェクトの仮想視点映像空間における座標情報は、3次元形状導出部103に入力される。
【0022】
3次元形状導出部103は、シルエット画像生成部101で生成されたシルエット画像と位置情報取得部102で生成された器具オブジェクトの仮想視点映像空間における座標情報とに基づき、オブジェクトの3次元形状データを生成し、出力する。3次元形状データの生成対象となるオブジェクトは、前景であり、少なくとも複数のフレームを通して、動体として振る舞うオブジェクトである。3次元形状データのデータ形式としては、ボクセル形式、点群形式などがあり、オブジェクトの3次元形状を特定可能な形式であればどのようなデータ形式でもよい。シルエット画像からの3次元形状の導出には、一般的に使用されている視体積交差法などを用いる。視体積交差法は、複数のカメラで撮像された視点の異なる複数のシルエット画像を、3次元空間に逆投影し、それぞれの視体積の交差部分を求めることにより、オブジェクトの3次元形状を得る手法である。なお、本実施形態における3次元形状データの生成処理の詳細については後述する。
【0023】
形状データ取得部104は、予め用意されHDD203に保存されている器具オブジェクトの3次元形状データを、3次元形状導出部102からの要求に応じて読み出して取得する処理を行う。本実施形態では、予め生成したコーナーフラッグの3次元形状を表す要素(ここではボクセル群)のデータがその位置情報と対応付けてHDD203に保存されているものとする。なお、器具オブジェクトの3次元形状を表す要素データは、例えば外部ストレージなど画像処理装置100とは別個の装置に保存されていてもよい。
【0024】
(器具オブジェクト位置情報)
本実施形態における3次元モデルの生成方法について説明する前に、アンテナ120が取得する器具オブジェクト位置情報について、ラグビーの試合を撮影シーンとした場合を例に説明する。
図3(a)はラグビーを行う実世界空間のフィールド300を俯瞰で見た図であり、フィールド300の周囲には、仮想視点映像の元となる複数視点映像を撮影するための複数のカメラ301が配置されている。複数のカメラ301がそれぞれ異なる方向から同期して撮影を行うことで複数視点映像が得られる。なお、
図3(a)ではカメラ台数は4台であるが、スタジアムのような実環境ではより多くのカメラが配置される。また、フィールド300の脇には、器具オブジェクトとしてのコーナーフラッグ303a~303dの位置情報を取得するためのアンテナ120が設置されている。
図4は、このアンテナ120とその周辺を真上から見た図であり、アンテナ120は、ハーフウェイライン305の延長線上の位置400に配置されている。
図3(b)に示す拡大図は、ゴールライン306とタッチライン307との交点に設置されたコーナーフラッグ303aの底に、位置情報取得用のRFタグ304が埋め込まれている様子を示している。他のコーナーフラッグ303b~303dにも同様にRFタグが埋め込まれている。また、各RFタグ303a~303dにはIDが付与されており、それぞれのRFタグを識別できるようになっている。なお、RFタグは、RFIDタグ、ICタグ、非接触タグ、電子タグなどとも呼ばれる。
【0025】
アンテナ120は、各コーナーフラッグ303a~303dまでの距離と、各コーナーフラッグ303a~303dが存在する方向の情報を取得する。例えばコーナーフラッグ303aの場合は、アンテナ120の設置位置からRFタグ304までの距離401の情報と、基準となるハーフウェイライン305に対する角度402の情報が取得されることになる。
【0026】
(3次元モデルの生成)
続いて、本実施形態に係る、画像処理装置100における処理について、
図5のフローチャートを参照しつつ説明する。このフローチャートに示す各処理は、HDD203に格納された制御プログラムがメインメモリ202に読み出され、CPU201がこれを実行することによって実現される。なお、以下の説明において「S」はステップを意味する。
【0027】
S501では、仮想視点映像の対象3次元空間(以下、「仮想視点映像空間」と呼ぶ)上に配置する器具オブジェクトが選択される。すなわち、複数視点映像の撮影シーンに登場する、上述のRFタグが付された器具オブジェクトが選択される。本実施形態の場合、選択候補となる器具オブジェクトがリスト化されており、UI画面上に表示されたリストをオペレータが参照しながらマウス等を用いて器具オブジェクトを選択する。ラグビーの試合を撮影シーンとする場合、例えば、コーナーフラッグ、ボール、ゴールポストといった器具オブジェクトがリストに登録されており、その中から仮想視点映像空間に配置したいものを選択する。ここでは、
図3(a)に示したコーナーフラッグ303a~303dが選択されたものとして説明を続ける。
【0028】
次のS502では、S501で選択された器具オブジェクトの位置情報、すなわち、アンテナ120までの距離と角度の情報が取得される。本実施形態の場合、コーナーフラッグ303a~303dそれぞれの位置情報が、アンテナ120から送信されることになる。取得した位置情報は、位置情報取得部102に入力される。
【0029】
次のS503では、位置情報取得部102が、入力された位置情報を、仮想視点映像空間上の座標情報に変換する。具体的には、まず、距離と方向(角度)の情報を、実世界上の座標情報に変換する。ここでは、説明を簡単にするため、2次元の座標情報に変換する場合を例に説明するが、3次元の座標情報に変換する場合も考え方は同じである。いま、
図4で示す原点Oの位置400の座標を、O(X,Y)=(0,0)とする。原点Oの位置400は、アンテナ120の設置されている位置401に対して、距離D1が72.9m、角度θ1が75°の位置にあるとする。角度と距離が分かっているので、三角関数を用いて、原点Oの位置400からアンテナ120の設置されている位置401までの水平方向の距離X1と垂直方向の距離Y1を求めることができる。この場合の距離X1及び距離Y1は、それぞれ以下の式(1)及び式(2)で表される。
X1=D1・cosθ1 ・・・式(1)
Y1=D1・simθ1 ・・・式(2)
【0030】
いま、距離D1が72.9m、角度θ1が75°であるので、上記式(1)及び(2)から、距離X1=18.9m、距離Y1=70.0mとなる。同様に、原点Oの位置400からコーナーフラッグ303a(≒RFタグ304)の設置されている位置402までの水平方向の距離と垂直方向の距離を求めることができる。アンテナ120の設置されている位置401に対して、RFタグ304の位置402は、距離D2が57.8m、角度θ2は60°の位置にある。この場合、RFタグ304の位置402までの水平方向の距離X2と垂直方向の距離Y2は、上記式(1)及び(2)から、距離X2=28.9m、距離Y2=50.0mとなる。そして、原点Oの位置400からRFタグ304の位置402までの水平方向の距離X3と垂直方向の距離Y3を、以下の式(3)及び式(4)を用いて求める。
X3=X2-X1 ・・・式(3)
Y3=Y1-Y2 ・・・式(4)
【0031】
いま、X2=28.9m、X1=18.9mなので、X3=10.0mとなり、Y2=50.0m、Y1=70.0mなので、Y3=20.0mとなる。
【0032】
そして、求めた原点Oからの距離X3及び距離Y3を、仮想視点映像空間の座標に変換する。ここで、0.1m単位で空間座標に変換するとした場合、距離X3は“100”、距離Y3は“200”となる。つまり、コーナーフラッグ303aの設置位置としてのRFタグ304の位置402は、(X,Y)=(100,200)の座標情報で表すことができる。こうして得られた各RFタグの位置を表す実世界空間上の座標情報を、必要に応じて、仮想視点映像空間上の座標情報にさらに変換する。本実施形態では、実世界空間上の座標を、そのまま仮想視点映像空間上の座標とする。すなわち、実世界空間上のRFタグ304の位置402を表す座標(X,Y)=(100,200)は、仮想視点映像空間上の座標(X,Y)=(100,200)に対応している。したがって、上述のようにして得られた実世界空間の座標情報が、仮想視点映像空間における座標情報として、3次元形状導出部103に入力される。なお、実世界空間と仮想視点映像空間とで、原点が異なる場合や座標の単位が異なる場合は、本ステップにおいてさらに必要な変換処理を行えばよい。
【0033】
次に、S504において、3次元形状導出部103は、選択されている器具オブジェクトの3次元形状を特定するデータを、形状データ取得部104を介してHDD203から読み出し、S503で得られた座標情報に基づき、仮想視点映像空間上に配置する。本実施形態のコーナーフラッグ303aの場合、仮想視点映像空間上の座標(X,Y)=(100,200)の位置に、コーナーフラッグ303aの3次元形状を表すボクセル群が配置されることになる。
図6は、仮想視点映像空間にコーナーフラッグ303aの3次元形状を表すボクセル群600が配置された様子を示す図である。
【0034】
S505では、配置すべき未選択の器具オブジェクトがあるかどうかが判定される。他にも配置すべき器具オブジェクトがあれば、S501に戻って、器具オブジェクトの選択を続行する。一方、器具オブジェクトの配置が完了していれば、S506に進む。なお、配置対象の器具オブジェクトを予め登録しておき自動で選択されるようにしてもよいし、前述したユーザ指示によって都度指定してもよい。このようにして、コーナーフラッグ303a以外の他のコーナーフラッグ303b~303dなど他の器具オブジェクトの3次元モデルも仮想視点映像空間に配置される。
【0035】
S506では、3次元形状導出部103が、シルエット画像生成部101から入力された異なる視点に対応する複数のシルエット画像を用いて、選手等の前景オブジェクトの3次元形状を導出する。こうして、前景オブジェクトの3次元形状を表すボクセル群に加え、器具オブジェクトの3次元形状を表すボクセル群が仮想視点映像空間上に配置されたオブジェクト配置データが得られる。得られたオブジェクト配置データは、仮想視点映像生成装置130に出力される。
【0036】
そして、S507では、すべてのフレームデータについて処理が完了したかどうかが判定される。未処理のフレームがあればS501に戻って、次のフレームデータを対象とした処理が続行される。
【0037】
以上が、本実施形態に係る、3次元形状導出処理の内容である。このようにして、シルエット画像にそのシルエットが現れない静止したオブジェクトについても、その3次元形状を表す要素(ボクセル群など)が仮想視点空間上に配置されたオブジェクト配置データを得ることができる。
【0038】
<変形例>
なお、本実施形態では、アンテナの数が1つの場合を例に説明を行ったが、例えば、
図7(a)に示すように、フィールドを囲むように複数のアンテナを配置してもよい。また、バスケットボールのような屋内競技を対象に撮影を行う場合であれば、
図7(b)に示すように、体育館の床下に複数のアンテナをアレイ上に配置してもよい。複数のアンテナを用いることで、器具オブジェクトの位置情報を高精度に取得することができる。
【0039】
また、本実施形態では、1つの器具オブジェクトに対し1つのRFタグを付した場合を例に説明を行ったが、複数のRFタグを付してもよい。1つの器具オブジェクトに対して複数のRFタグを付すことで、その位置だけでなく向きや姿勢といったより詳しい状況を特定することが可能となる。
図8(a)~(c)に、1つの器具オブジェクトに対して複数のRFタグを埋め込んだ一例を示す。
図8(a)は、2つのRFタグを付した場合の例であり、走り高跳びのバー800の両端にそれぞれRFタグ801、802を埋め込んでいる。このように2つのRFタグを使用することで、仮想視点空間上の2点の座標を得ることができる。つまり、仮想視点空間上の線分が得られるため、走り高跳びのバーが設置されている状況や落下している状況などを仮想視点空間上で再現することができる。
図8(b)は、3つのRFタグを付した場合の例であり、アメリカンフットボールで使用されるボール810の中心に1つのRFタグ811と表面付近に2つのRFタグ812、813を埋め込んでいる。ボール810は楕円形をしており、さらに側面に縫い目814が施されている。この場合、2点の座標情報だけでは、例えばボールが立っている状態なのか、縫い目814がどこを向いているのか、といったことまでは特定することができない。しかし、
図8(b)に示されるように、3箇所にRFタグを埋め込んだ場合には、3点を通る平面が導出でき、当該平面に合わせてその3次元モデル(ボクセル群や点群など)を配置することができる。これにより、複雑な形状のオブジェクトであっても仮想視点映像空間上に正確な向きで配置することが可能となる。例えば、本実施形態の説明で用いたコーナーフラッグについても、
図8(c)に示すように、3つのRFタグ821~823を3箇所に埋め込むことにより、正しい向きで仮想視点映像空間上に配置することができる。なお、オブジェクトに付すRFタグの数は4つ以上でもよく、例えば、形状が変化し得るオブジェクトについてはより多くのRFタグを埋め込むことで、各RFタグの座標からそのときの形状を近似して仮想視点映像空間上に配置することも可能となる。また、位置情報だけでなくその向いている方向の情報も得られるRFタグを用いれば、より高精度な配置が実現できる。
【0040】
以上のとおり、本実施形態によれば、撮影シーンにおいて静止している器具オブジェクトから位置情報を取得して、当該器具オブジェクトの3次元モデルを仮想視点映像空間に配置する。これにより、器具オブジェクトが突然消失することのない自然な仮想視点映像を生成することができる。
【0041】
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【符号の説明】
【0042】
100 画像処理装置
101 シルエット画像生成部
102 位置情報取得部
103 3次元形状導出部
104 形状データ取得部