特許7403967 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ キヤノン株式会社の特許一覧

特許7403967情報処理装置、映像生成装置、画像処理システム、それらの制御方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-15

(45)【発行日】2023-12-25

(54)【発明の名称】情報処理装置、映像生成装置、画像処理システム、それらの制御方法及びプログラム

(51)【国際特許分類】

G06T 15/20 20110101AFI20231218BHJP

G06T 19/00 20110101ALI20231218BHJP

H04N 7/18 20060101ALI20231218BHJP

【ＦＩ】

G06T15/20 500

G06T19/00 A

H04N7/18 U

【請求項の数】 8

(21)【出願番号】P 2019075361

(22)【出願日】2019-04-11

(65)【公開番号】P2020173628

(43)【公開日】2020-10-22

【審査請求日】2022-04-11

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】古川剛史

【審査官】粕谷満成

(56)【参考文献】

【文献】国際公開第２０１９／０３９２８２（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１４／０３６１９０９（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１５／２０

Ｇ０６Ｔ１９／００

Ｈ０４Ｎ７／１８

(57)【特許請求の範囲】

【請求項1】

時系列に入力される撮像画像に映るオブジェクトであって撮像期間中において動体である第１オブジェクトのシルエットを表すシルエット画像を、前記撮像画像と撮像期間中に更新される背景画像との差分に基づき生成する第１生成手段と、
前記第１生成手段によって生成された前記シルエット画像を用いて、前記第１オブジェクトの３次元形状を表す形状データを生成する第２生成手段と、
前記撮像画像に映るオブジェクトであって撮像期間中において少なくとも一定時間は静体である第２オブジェクトの位置を特定するための位置情報を、前記第２オブジェクトに含まれる位置情報通知装置または前記第２オブジェクトに取り付けられた位置情報通知装置から取得する取得手段と、
前記第１オブジェクトについては、前記シルエット画像に基づき生成された形状データを出力し、前記第２オブジェクトについては、その３次元形状を表す予め用意された形状データを、前記取得手段によって取得された前記位置情報に基づき、出力する出力手段と、
を備えたことを特徴とする情報処理装置。

【請求項2】

前記位置情報通知装置は、ＲＦタグであり、
前記取得手段は、前記ＲＦタグが発する電波を受信するアンテナが当該電波を受信したときの電磁界強度から得られる、前記アンテナから前記ＲＦタグまでの距離と、前記アンテナからみた前記ＲＦタグが存在する方向の情報を、前記位置情報として取得する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記アンテナの数は複数であり、
前記取得手段は、複数の前記アンテナそれぞれが前記電波を受信したときの電磁界強度から得られる、複数の位置情報を取得し、
前記出力手段は、前記複数の位置情報に基づいて導出された、前記第２オブジェクトの位置を特定する情報と対応付けて、前記第２オブジェクトの形状データを出力する、
ことを特徴とする請求項２に記載の情報処理装置。

【請求項4】

前記第２オブジェクトに付される前記ＲＦタグの数は複数であり、
前記出力手段は、複数の前記ＲＦタグから得られた複数の位置情報に基づいて導出された、前記第２オブジェクトの位置を特定する情報と対応付けて、前記第２オブジェクトの形状データを出力する、
ことを特徴とする請求項２に記載の情報処理装置。

【請求項5】

前記第２オブジェクトをユーザが選択するためのＵＩ画面を表示する表示手段をさらに備えたことを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。

【請求項6】

仮想視点映像を生成する映像生成手段をさらに有し、
前記出力手段は、前記第２オブジェクトの形状データを、前記第２オブジェクトの位置を特定する情報と対応付けて、前記映像生成手段に出力し、
前記映像生成手段は、前記第２オブジェクトの位置を特定する情報と対応付けられた前記第２オブジェクトの形状データを用いて、前記仮想視点映像を生成する、
ことを特徴とする請求項１乃至５のいずれか１項に記載の情報処理装置。

【請求項7】

時系列に入力される撮像画像に映るオブジェクトであって撮像期間中において動体である第１オブジェクトのシルエットを表すシルエット画像を、前記撮像画像と撮像期間中に更新される背景画像との差分に基づき生成する第１生成ステップと、
前記第１生成ステップにて生成された前記シルエット画像を用いて、前記第１オブジェクトの３次元形状を表す形状データを生成する第２生成ステップと、
前記撮像画像に映るオブジェクトであって撮像期間中において少なくとも一定時間は静体である第２オブジェクトの位置を特定するための位置情報を、前記第２オブジェクトに含まれる位置情報通知装置または前記第２オブジェクトに取り付けられた位置情報通知装置から取得する取得ステップと、
前記第１オブジェクトについては、前記シルエット画像に基づき生成された形状データを出力し、前記第２オブジェクトについては、その３次元形状を表す予め用意された形状データを、前記取得ステップにて取得された前記位置情報に基づき、出力する出力ステップと、
を含むことを特徴とする情報処理方法。

【請求項8】

コンピュータを、請求項１乃至６のいずれか１項に記載の情報処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理技術に関する。

【背景技術】

【0002】

昨今、オブジェクト（被写体）をさまざまな視点や角度から捉えた映像として視聴できる仮想視点映像という技術が注目されている。この仮想視点映像によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の映像と比較してユーザに高臨場感を与えることが出来る。このような仮想視点映像は、オブジェクトを取り囲むように設置した複数のカメラを用い、同一のタイミングで多方向から撮影した映像から生成される。

【0003】

特許文献１に開示されるように、通常、仮想視点映像の生成の際には、まず、撮影シーンに存在するオブジェクトの３次元形状を表す３次元形状データが生成される。具体的には、まず、複数のカメラで撮影された映像の各フレーム（静止画像）を対象に、前景となるオブジェクトとそれ以外の背景に分離する前景背景分離処理を行って、オブジェクトのシルエットを抽出したシルエット画像を生成する。そして、得られたシルエット画像から、オブジェクトの３次元形状を表す３次元形状データを生成する。そして、ユーザが指示した仮想視点の情報と、３次元形状データとに基づき、仮想視点からの見えを表した映像が得られる。

【0004】

ここで、シルエット画像の生成においては、背景差分法やフレーム間差分法等が用いられる。そして、背景差分法では、新たに撮影した映像に基づき背景を更新することで、照明条件等の変化による背景変化にも対応できるようにする技術が知られている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１８－６７１０６号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

本開示に係る情報処理装置は、時系列に入力される撮像画像に映るオブジェクトであって撮像期間中において動体である第１オブジェクトのシルエットを表すシルエット画像を、前記撮像画像と撮像期間中に更新される背景画像との差分に基づき生成する第１生成手段と、前記第１生成手段によって生成された前記シルエット画像を用いて、前記第１オブジェクトの３次元形状を表す形状データを生成する第２生成手段と、前記撮像画像に映るオブジェクトであって撮像期間中において少なくとも一定時間は静体である第２オブジェクトの位置を特定するための位置情報を、前記第２オブジェクトに含まれる位置情報通知装置または前記第２オブジェクトに取り付けられた位置情報通知装置から取得する取得手段と、前記第１オブジェクトについては、前記シルエット画像に基づき生成された形状データを出力し、前記第２オブジェクトについては、その３次元形状を表す予め用意された形状データを、前記取得手段によって取得された前記位置情報に基づき、出力する出力手段と、を備えたことを特徴とする。

【0007】

そこで、本発明では、仮想視点映像において存在していたオブジェクトが突然消失することを低減することを目的とする。

【課題を解決するための手段】

【0008】

本開示に係る情報処理総落ちは。特定のオブジェクトに付された位置情報通知手段から、当該特定のオブジェクトの位置情報を取得する取得手段と、前記位置情報に基づき、前記特定のオブジェクトの３次元形状データを３次元空間における前記特定のオブジェクトの位置を特定する情報と対応付けて出力する出力手段と、を備えたことを特徴とする。

【発明の効果】

【0009】

本発明によれば、仮想視点映像において存在すべきオブジェクトが突然消失することを低減することができる。

【図面の簡単な説明】

【0010】

【図1】画像処理システムの構成の一例を示す図

【図2】画像処理装置のハードウェア構成の一例を示す図

【図3】（ａ）はラグビーを行う実世界空間のフィールドを俯瞰で見た図、（ｂ）はその一部の拡大図

【図4】位置情報を説明する図

【図5】画像処理装置における処理の流れを示すフローチャート

【図6】（ａ）は仮想視点映像空間にコーナーフラッグの３次元形状を表すボクセル群が配置された様子を示す図、（ｂ）はコーナーフラッグのボクセル群を示す図

【図7】（ａ）及び（ｂ）は、複数のアンテナを配置した一例を示す図

【図8】（ａ）～（ｃ）は、１つの器具オブジェクトに複数のＲＦタグを埋め込んだ一例を示す図

【発明を実施するための形態】

【0011】

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

【0012】

［実施形態１］
図１は、本実施形態における、仮想視点映像を生成する画像処理システムの構成の一例を示す図である。なお、仮想視点映像とは、エンドユーザ及び／又は選任のオペレータ等が自由に仮想視点（現実には存在しない仮想カメラ）の位置及び姿勢を操作することによって生成される映像であり、自由視点映像や任意視点映像などとも呼ばれる。また、本実施形態では動画を想定しているが、静止画であってもよい。図１に示す画像処理システムは、画像処理装置１００、カメラ群１１０、アンテナ１２０、仮想視点映像生成装置１３０を有する。

【0013】

画像処理装置１００は、カメラ群１１０から映像データを受信する。この映像データは、複数の異なる視点で撮影された映像（以下、「複数視点映像」と呼ぶ）データである。そして、受信した複数視点映像データから、オブジェクトの３次元形状を表すデータ（３次元形状データ、以下、「３次元モデル」とも表記）や、オブジェクトの色や質感を表す情報（以下、「テクスチャ情報」と呼ぶ）を生成する。生成された３次元モデルとテクスチャ情報は、仮想視点映像生成装置１３０に送られる。送信されるテクスチャ情報は、オブジェクトの表面の色情報と輝度情報と彩度情報のうち少なくとも１つの情報を有している。テクスチャ情報としては、撮像画像や前景画像の形式で送信されてもよいし、３次元モデルに対応して、３次元モデルを構成する要素ごとにテクスチャ情報を対応付けたテクスチャ画像の形式で送信されてもよい。

【0014】

カメラ群１１０は、複数のデジタルビデオカメラ（以下、単に「カメラ」と表記）で構成される。各カメラは、シリアルデジタルインタフェース（ＳＤＩ）に代表される映像信号インタフェースを備えており、映像信号インタフェースを介して、撮影した動画像データを画像処理装置１００に出力する。

【0015】

アンテナ１２０は、ＲＦＩＤ（Radio Frequency Identification）用のアンテナであり、撮影シーンに存在する特定のオブジェクトに付された位置情報通知手段としてのＲＦタグから発信される電波を受信し、その電磁界強度により位置情報を取得する。ここで、位置情報の取得対象となる特定のオブジェクトは、一定時間動きのない静止状態のオブジェクトである。具体的には、仮想視点映像の元となる複数視点映像の撮影シーンにおいて基本的に静止しているオブジェクト、或いは動画像のフレーム間で動きのあるオブジェクトではあるが一定時間その動きが止まり静止することもあるオブジェクトが含まれる。例えばラグビーの試合を撮影シーンとする場合であれば、前者のオブジェクトの例としては、フィールド上に設置されるコーナーフラッグが該当し、後者のオブジェクトの例としては、ラグビーボールが該当する。以下、位置情報の取得対象となるコーナーフラッグやボールなどのオブジェクトを、選手や審判といった典型的な前景オブジェクトやスタジアムの客席といった典型的な背景オブジェクトと区別するために、「器具オブジェクト」と呼ぶこととする。なお、位置情報の取得方法は上述のＲＦＩＤに限定されるものではなく、例えばＧＰＳや無線ＬＡＮ等を用いてもよい。さらには、電波に代えて、光を含む電磁波や音を用いてもよい。要は、器具オブジェクトの位置情報が、器具オブジェクトに付された位置情報通知手段からの通知によって得られればよい。

【0016】

仮想視点映像生成装置１３０は、画像処理装置１００から受け取った３次元モデル及びテクスチャ情報を用いてレンダリング処理を行って、ユーザが指定した仮想視点から見えを表す仮想視点映像を生成する。本実施形態の３次元モデルは、仮想視点映像空間としての３次元空間上に、オブジェクトの３次元形状を表すボクセル群が配置された状態で、仮想視点映像生成装置１３０に入力されるものとする。そして、レンダリング処理では、別途入力された仮想視点情報に従って、３次元モデルが表すオブジェクトの３次元形状の表面にテクスチャを貼り付ける処理を行うことで、仮想視点映像を得るものとする。生成された仮想視点映像データは、液晶ディスプレイ等に代表される不図示の表示装置に出力・表示され、ユーザの視聴に供される。

【0017】

（画像処理装置のハードウェア構成）
図２は、画像処理装置１００のハードウェア構成の一例を示す図である。画像処理装置１００は、一般的な情報処理装置が有している構成、具体的には、ＣＰＵ２０１、メインメモリ２０２、ＨＤＤ２０３、入力部２０４、表示部２０５、外部Ｉ／Ｆ２０６を備え、各部がバス２０７を介して接続されている。まず、ＣＰＵ２０１は、画像処理装置１００を統括的に制御する演算処理装置であり、ＨＤＤ２０３等に格納された各種プログラムを実行して、後述する様々な画像処理を行う。メインメモリ２０２は、各種処理で用いるデータやパラメータなどを一時的に格納するほか、ＣＰＵ２０１に作業領域を提供する。ＨＤＤ２０３は、各種プログラムや入力された映像データなどを記憶する不揮発性の大容量記憶装置であり、例えばＳＳＤ等でもよい。入力部２０４は、キーボードやマウス、電子ペン、タッチパネル等の装置であり、様々なユーザ入力を受け付ける。表示部２０５は、液晶パネルなどで構成され、ＵＩ画面の表示などを行う。外部Ｉ／Ｆ部２０６は、カメラ群１１０を構成する各カメラ及び仮想視点映像装置１３０とネットワーク（ここではＬＡＮ２０８）を介して、複数視点映像データや３次元モデルといった各種データの送受信を行う通信インタフェースである。バス２０７は上述の各部を接続し、データ転送を行う。

【0018】

なお、仮想視点映像装置１３０も、画像処理装置１００と同様の構成を備え、ＣＰＵやメインメモリを用いて上述のレンダリング処理などを行う。

【0019】

（画像処理装置のソフトウェア構成）
次に、前述の図１を参照して、画像処理装置１００のソフトウェア構成について説明する。図１において、画像処理装置１００を示す枠内には、４つの機能部、すなわち、シルエット画像生成部１０１、位置情報取得部１０２、３次元形状導出部１０３及び形状データ取得部１０４が示されている。以下、各部について説明する。

【0020】

シルエット画像生成部１０１は、カメラ群１１０から入力された複数視点映像データを対象として、前景となるオブジェクトのシルエット画像を生成する。シルエット画像とは、オブジェクトの輪郭内側を塗り潰し、各画素２値で表すことで当該オブジェクトの２次元形状を表した単色の画像である。本実施形態のシルエット画像生成部１０１は、背景差分法を用いて、すなわち、時系列に入力される各フレーム（静止画像）と予め用意した背景画像との差分を求めて２値化することでシルエット画像を得る。なお、２値化に限らず、前景領域が他の領域と区別される画像であれば、どのようなものでもよい。また、シルエット画像生成部１０１は、照明条件の変化があった場合など、背景との差分が同じ内容で一定時間継続する場合に、背景画像を更新する。これにより、照明条件の変化等の影響を受けずに、シルエット画像を導出することができる。さらに、シルエット画像生成部１０１は、導出した各シルエット画像が表す２次元形状の色や質感を表現する画像データを、テクスチャ情報として生成する。導出・生成されたシルエット画像データやテクスチャ情報は、３次元形状導出部１０３に入力される。

【0021】

位置情報取得部１０２は、アンテナ１２０から器具オブジェクトの位置情報を取得する。さらに、位置情報取得部１０２は、取得した位置情報を、実世界空間における座標情報に変換した上で、仮想視点映像空間における座標情報に変換する処理を行う。この変換処理の詳細については後述する。変換によって得られた器具オブジェクトの仮想視点映像空間における座標情報は、３次元形状導出部１０３に入力される。

【0022】

３次元形状導出部１０３は、シルエット画像生成部１０１で生成されたシルエット画像と位置情報取得部１０２で生成された器具オブジェクトの仮想視点映像空間における座標情報とに基づき、オブジェクトの３次元形状データを生成し、出力する。３次元形状データの生成対象となるオブジェクトは、前景であり、少なくとも複数のフレームを通して、動体として振る舞うオブジェクトである。３次元形状データのデータ形式としては、ボクセル形式、点群形式などがあり、オブジェクトの３次元形状を特定可能な形式であればどのようなデータ形式でもよい。シルエット画像からの３次元形状の導出には、一般的に使用されている視体積交差法などを用いる。視体積交差法は、複数のカメラで撮像された視点の異なる複数のシルエット画像を、３次元空間に逆投影し、それぞれの視体積の交差部分を求めることにより、オブジェクトの３次元形状を得る手法である。なお、本実施形態における３次元形状データの生成処理の詳細については後述する。

【0023】

形状データ取得部１０４は、予め用意されＨＤＤ２０３に保存されている器具オブジェクトの３次元形状データを、３次元形状導出部１０２からの要求に応じて読み出して取得する処理を行う。本実施形態では、予め生成したコーナーフラッグの３次元形状を表す要素（ここではボクセル群）のデータがその位置情報と対応付けてＨＤＤ２０３に保存されているものとする。なお、器具オブジェクトの３次元形状を表す要素データは、例えば外部ストレージなど画像処理装置１００とは別個の装置に保存されていてもよい。

【0024】

（器具オブジェクト位置情報）
本実施形態における３次元モデルの生成方法について説明する前に、アンテナ１２０が取得する器具オブジェクト位置情報について、ラグビーの試合を撮影シーンとした場合を例に説明する。図３（ａ）はラグビーを行う実世界空間のフィールド３００を俯瞰で見た図であり、フィールド３００の周囲には、仮想視点映像の元となる複数視点映像を撮影するための複数のカメラ３０１が配置されている。複数のカメラ３０１がそれぞれ異なる方向から同期して撮影を行うことで複数視点映像が得られる。なお、図３（ａ）ではカメラ台数は４台であるが、スタジアムのような実環境ではより多くのカメラが配置される。また、フィールド３００の脇には、器具オブジェクトとしてのコーナーフラッグ３０３ａ～３０３ｄの位置情報を取得するためのアンテナ１２０が設置されている。図４は、このアンテナ１２０とその周辺を真上から見た図であり、アンテナ１２０は、ハーフウェイライン３０５の延長線上の位置４００に配置されている。図３（ｂ）に示す拡大図は、ゴールライン３０６とタッチライン３０７との交点に設置されたコーナーフラッグ３０３ａの底に、位置情報取得用のＲＦタグ３０４が埋め込まれている様子を示している。他のコーナーフラッグ３０３ｂ～３０３ｄにも同様にＲＦタグが埋め込まれている。また、各ＲＦタグ３０３ａ～３０３ｄにはＩＤが付与されており、それぞれのＲＦタグを識別できるようになっている。なお、ＲＦタグは、ＲＦＩＤタグ、ＩＣタグ、非接触タグ、電子タグなどとも呼ばれる。

【0025】

アンテナ１２０は、各コーナーフラッグ３０３ａ～３０３ｄまでの距離と、各コーナーフラッグ３０３ａ～３０３ｄが存在する方向の情報を取得する。例えばコーナーフラッグ３０３ａの場合は、アンテナ１２０の設置位置からＲＦタグ３０４までの距離４０１の情報と、基準となるハーフウェイライン３０５に対する角度４０２の情報が取得されることになる。

【0026】

（３次元モデルの生成）
続いて、本実施形態に係る、画像処理装置１００における処理について、図５のフローチャートを参照しつつ説明する。このフローチャートに示す各処理は、ＨＤＤ２０３に格納された制御プログラムがメインメモリ２０２に読み出され、ＣＰＵ２０１がこれを実行することによって実現される。なお、以下の説明において「Ｓ」はステップを意味する。

【0027】

Ｓ５０１では、仮想視点映像の対象３次元空間（以下、「仮想視点映像空間」と呼ぶ）上に配置する器具オブジェクトが選択される。すなわち、複数視点映像の撮影シーンに登場する、上述のＲＦタグが付された器具オブジェクトが選択される。本実施形態の場合、選択候補となる器具オブジェクトがリスト化されており、ＵＩ画面上に表示されたリストをオペレータが参照しながらマウス等を用いて器具オブジェクトを選択する。ラグビーの試合を撮影シーンとする場合、例えば、コーナーフラッグ、ボール、ゴールポストといった器具オブジェクトがリストに登録されており、その中から仮想視点映像空間に配置したいものを選択する。ここでは、図３（ａ）に示したコーナーフラッグ３０３ａ～３０３ｄが選択されたものとして説明を続ける。

【0028】

次のＳ５０２では、Ｓ５０１で選択された器具オブジェクトの位置情報、すなわち、アンテナ１２０までの距離と角度の情報が取得される。本実施形態の場合、コーナーフラッグ３０３ａ～３０３ｄそれぞれの位置情報が、アンテナ１２０から送信されることになる。取得した位置情報は、位置情報取得部１０２に入力される。

【0029】

次のＳ５０３では、位置情報取得部１０２が、入力された位置情報を、仮想視点映像空間上の座標情報に変換する。具体的には、まず、距離と方向（角度）の情報を、実世界上の座標情報に変換する。ここでは、説明を簡単にするため、２次元の座標情報に変換する場合を例に説明するが、３次元の座標情報に変換する場合も考え方は同じである。いま、図４で示す原点Ｏの位置４００の座標を、Ｏ（Ｘ，Ｙ）＝（０，０）とする。原点Ｏの位置４００は、アンテナ１２０の設置されている位置４０１に対して、距離Ｄ１が７２．９ｍ、角度θ１が７５°の位置にあるとする。角度と距離が分かっているので、三角関数を用いて、原点Ｏの位置４００からアンテナ１２０の設置されている位置４０１までの水平方向の距離Ｘ１と垂直方向の距離Ｙ１を求めることができる。この場合の距離Ｘ１及び距離Ｙ１は、それぞれ以下の式（１）及び式（２）で表される。
Ｘ１＝Ｄ１・cosθ１・・・式（１）
Ｙ１＝Ｄ１・simθ１・・・式（２）

【0030】

いま、距離Ｄ１が７２．９ｍ、角度θ１が７５°であるので、上記式（１）及び（２）から、距離Ｘ１＝１８．９ｍ、距離Ｙ１＝７０．０ｍとなる。同様に、原点Ｏの位置４００からコーナーフラッグ３０３ａ（≒ＲＦタグ３０４）の設置されている位置４０２までの水平方向の距離と垂直方向の距離を求めることができる。アンテナ１２０の設置されている位置４０１に対して、ＲＦタグ３０４の位置４０２は、距離Ｄ２が５７．８ｍ、角度θ２は６０°の位置にある。この場合、ＲＦタグ３０４の位置４０２までの水平方向の距離Ｘ２と垂直方向の距離Ｙ２は、上記式（１）及び（２）から、距離Ｘ２＝２８．９ｍ、距離Ｙ２＝５０．０ｍとなる。そして、原点Ｏの位置４００からＲＦタグ３０４の位置４０２までの水平方向の距離Ｘ３と垂直方向の距離Ｙ３を、以下の式（３）及び式（４）を用いて求める。
Ｘ３＝Ｘ２－Ｘ１・・・式（３）
Ｙ３＝Ｙ１－Ｙ２・・・式（４）

【0031】

いま、Ｘ２＝２８．９ｍ、Ｘ１＝１８．９ｍなので、Ｘ３＝１０．０ｍとなり、Ｙ２＝５０．０ｍ、Ｙ１＝７０．０ｍなので、Ｙ３＝２０．０ｍとなる。

【0032】

そして、求めた原点Ｏからの距離Ｘ３及び距離Ｙ３を、仮想視点映像空間の座標に変換する。ここで、０．１ｍ単位で空間座標に変換するとした場合、距離Ｘ３は“１００”、距離Ｙ３は“２００”となる。つまり、コーナーフラッグ３０３ａの設置位置としてのＲＦタグ３０４の位置４０２は、（Ｘ，Ｙ）＝（１００，２００）の座標情報で表すことができる。こうして得られた各ＲＦタグの位置を表す実世界空間上の座標情報を、必要に応じて、仮想視点映像空間上の座標情報にさらに変換する。本実施形態では、実世界空間上の座標を、そのまま仮想視点映像空間上の座標とする。すなわち、実世界空間上のＲＦタグ３０４の位置４０２を表す座標（Ｘ，Ｙ）＝（１００，２００）は、仮想視点映像空間上の座標（Ｘ，Ｙ）＝（１００，２００）に対応している。したがって、上述のようにして得られた実世界空間の座標情報が、仮想視点映像空間における座標情報として、３次元形状導出部１０３に入力される。なお、実世界空間と仮想視点映像空間とで、原点が異なる場合や座標の単位が異なる場合は、本ステップにおいてさらに必要な変換処理を行えばよい。

【0033】

次に、Ｓ５０４において、３次元形状導出部１０３は、選択されている器具オブジェクトの３次元形状を特定するデータを、形状データ取得部１０４を介してＨＤＤ２０３から読み出し、Ｓ５０３で得られた座標情報に基づき、仮想視点映像空間上に配置する。本実施形態のコーナーフラッグ３０３ａの場合、仮想視点映像空間上の座標（Ｘ，Ｙ）＝（１００，２００）の位置に、コーナーフラッグ３０３ａの３次元形状を表すボクセル群が配置されることになる。図６は、仮想視点映像空間にコーナーフラッグ３０３ａの３次元形状を表すボクセル群６００が配置された様子を示す図である。

【0034】

Ｓ５０５では、配置すべき未選択の器具オブジェクトがあるかどうかが判定される。他にも配置すべき器具オブジェクトがあれば、Ｓ５０１に戻って、器具オブジェクトの選択を続行する。一方、器具オブジェクトの配置が完了していれば、Ｓ５０６に進む。なお、配置対象の器具オブジェクトを予め登録しておき自動で選択されるようにしてもよいし、前述したユーザ指示によって都度指定してもよい。このようにして、コーナーフラッグ３０３ａ以外の他のコーナーフラッグ３０３ｂ～３０３ｄなど他の器具オブジェクトの３次元モデルも仮想視点映像空間に配置される。

【0035】

Ｓ５０６では、３次元形状導出部１０３が、シルエット画像生成部１０１から入力された異なる視点に対応する複数のシルエット画像を用いて、選手等の前景オブジェクトの３次元形状を導出する。こうして、前景オブジェクトの３次元形状を表すボクセル群に加え、器具オブジェクトの３次元形状を表すボクセル群が仮想視点映像空間上に配置されたオブジェクト配置データが得られる。得られたオブジェクト配置データは、仮想視点映像生成装置１３０に出力される。

【0036】

そして、Ｓ５０７では、すべてのフレームデータについて処理が完了したかどうかが判定される。未処理のフレームがあればＳ５０１に戻って、次のフレームデータを対象とした処理が続行される。

【0037】

以上が、本実施形態に係る、３次元形状導出処理の内容である。このようにして、シルエット画像にそのシルエットが現れない静止したオブジェクトについても、その３次元形状を表す要素（ボクセル群など）が仮想視点空間上に配置されたオブジェクト配置データを得ることができる。

【0038】

＜変形例＞
なお、本実施形態では、アンテナの数が１つの場合を例に説明を行ったが、例えば、図７（ａ）に示すように、フィールドを囲むように複数のアンテナを配置してもよい。また、バスケットボールのような屋内競技を対象に撮影を行う場合であれば、図７（ｂ）に示すように、体育館の床下に複数のアンテナをアレイ上に配置してもよい。複数のアンテナを用いることで、器具オブジェクトの位置情報を高精度に取得することができる。

【0039】

また、本実施形態では、１つの器具オブジェクトに対し１つのＲＦタグを付した場合を例に説明を行ったが、複数のＲＦタグを付してもよい。１つの器具オブジェクトに対して複数のＲＦタグを付すことで、その位置だけでなく向きや姿勢といったより詳しい状況を特定することが可能となる。図８（ａ）～（ｃ）に、１つの器具オブジェクトに対して複数のＲＦタグを埋め込んだ一例を示す。図８（ａ）は、２つのＲＦタグを付した場合の例であり、走り高跳びのバー８００の両端にそれぞれＲＦタグ８０１、８０２を埋め込んでいる。このように２つのＲＦタグを使用することで、仮想視点空間上の２点の座標を得ることができる。つまり、仮想視点空間上の線分が得られるため、走り高跳びのバーが設置されている状況や落下している状況などを仮想視点空間上で再現することができる。図８（ｂ）は、３つのＲＦタグを付した場合の例であり、アメリカンフットボールで使用されるボール８１０の中心に１つのＲＦタグ８１１と表面付近に２つのＲＦタグ８１２、８１３を埋め込んでいる。ボール８１０は楕円形をしており、さらに側面に縫い目８１４が施されている。この場合、２点の座標情報だけでは、例えばボールが立っている状態なのか、縫い目８１４がどこを向いているのか、といったことまでは特定することができない。しかし、図８（ｂ）に示されるように、３箇所にＲＦタグを埋め込んだ場合には、３点を通る平面が導出でき、当該平面に合わせてその３次元モデル（ボクセル群や点群など）を配置することができる。これにより、複雑な形状のオブジェクトであっても仮想視点映像空間上に正確な向きで配置することが可能となる。例えば、本実施形態の説明で用いたコーナーフラッグについても、図８（ｃ）に示すように、３つのＲＦタグ８２１～８２３を３箇所に埋め込むことにより、正しい向きで仮想視点映像空間上に配置することができる。なお、オブジェクトに付すＲＦタグの数は４つ以上でもよく、例えば、形状が変化し得るオブジェクトについてはより多くのＲＦタグを埋め込むことで、各ＲＦタグの座標からそのときの形状を近似して仮想視点映像空間上に配置することも可能となる。また、位置情報だけでなくその向いている方向の情報も得られるＲＦタグを用いれば、より高精度な配置が実現できる。

【0040】

以上のとおり、本実施形態によれば、撮影シーンにおいて静止している器具オブジェクトから位置情報を取得して、当該器具オブジェクトの３次元モデルを仮想視点映像空間に配置する。これにより、器具オブジェクトが突然消失することのない自然な仮想視点映像を生成することができる。

【0041】

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【符号の説明】

【0042】

１００画像処理装置
１０１シルエット画像生成部
１０２位置情報取得部
１０３３次元形状導出部
１０４形状データ取得部

【図1】