特許7393092 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許7393092仮想視点映像生成装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-28

(45)【発行日】2023-12-06

(54)【発明の名称】仮想視点映像生成装置、方法およびプログラム

(51)【国際特許分類】

G06T 19/00 20110101AFI20231129BHJP

G06T 17/10 20060101ALI20231129BHJP

【ＦＩ】

G06T19/00 A

G06T17/10

【請求項の数】 12

(21)【出願番号】P 2020142813

(22)【出願日】2020-08-26

(65)【公開番号】P2022038354

(43)【公開日】2022-03-10

【審査請求日】2022-07-07

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100092772

【弁理士】

【氏名又は名称】阪本清孝

(74)【代理人】

【識別番号】100119688

【弁理士】

【氏名又は名称】田邉壽二

(72)【発明者】

【氏名】渡邊良亮

【審査官】粕谷満成

(56)【参考文献】

【文献】特開２００８－１９１０７２（ＪＰ，Ａ）

【文献】特開２０２０－０９１５３４（ＪＰ，Ａ）

【文献】特開２０１８－１３３０５９（ＪＰ，Ａ）

【文献】特開２０１２－１８５７７２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１９／００

Ｇ０６Ｔ１７／１０

(57)【特許請求の範囲】

【請求項1】

被写体を複数の視点で撮影したカメラ映像に基づいて仮想視点映像を生成する仮想視点映像生成装置において、
寄りカメラおよび引きカメラの各カメラ映像に基づいて3Dモデルを生成する手段と、
被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する手段と、
前記3Dモデルに対して各カメラ映像からテクスチャをマッピングする手段とを具備し、
前記判定する手段は、前記3Dモデルを内包する3Dバウンディングボックスの全ての頂点が寄りカメラの画角範囲内または寄りカメラの画角範囲外である3Dモデル以外の3Dモデルを寄りカメラの画角境界上に存在するものと判定し、
前記マッピングする手段は、寄りカメラの画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングすることを特徴とする仮想視点映像生成装置。

【請求項2】

前記3Dモデルを生成する手段は、寄りカメラおよび引きカメラの各カメラ映像に基づく視体積交差法により3Dモデルを生成し、
被写体のシルエットに基づいて低解像ボクセルモデルを構築する手段と、
被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築する手段とを具備し、
前記判定する手段は、3Dモデルごとに、その低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項１に記載の仮想視点映像生成装置。

【請求項3】

前記3Dモデルを生成する手段は、各低解像ボクセルモデルを内包する3Dバウンディングボックスが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項２に記載の仮想視点映像生成装置。

【請求項4】

前記3Dモデルがポリゴンモデルであり、
前記3Dモデルの各ポリゴンが各カメラから可視／不可視のいずれであるかを記録したオクルージョン情報を生成する手段を具備し、
前記オクルージョン情報を生成する手段は、前記画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、
前記マッピングする手段は、各ポリゴンに当該ポリゴンが可視のカメラからテクスチャをマッピングすることを特徴とする請求項１ないし３のいずれかに記載の仮想視点映像生成装置。

【請求項5】

各カメラを寄りカメラまたは引きカメラに分類する手段を具備し、
前記判定する手段は、前記分類の結果に基づいて被写体の各3Dモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項１ないし４のいずれかに記載の仮想視点映像生成装置。

【請求項6】

前記分類する手段は、各カメラをカメラパラメータに基づいて寄りカメラまたは引きカメラに分類することを特徴とする請求項５に記載の仮想視点映像生成装置。

【請求項7】

コンピュータが、被写体を複数の視点で撮影したカメラ映像に基づいて仮想視点映像を生成する仮想視点映像生成方法において、
寄りカメラおよび引きカメラの各カメラ映像に基づいて被写体の3Dモデルを生成し、
被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定し、
前記3Dモデルに対して各カメラ映像からテクスチャをマッピングし、
前記判定する際に、前記3Dモデルを内包する3Dバウンディングボックスの全ての頂点が寄りカメラの画角範囲内または寄りカメラの画角範囲外である3Dモデル以外の3Dモデルを寄りカメラの画角境界上に存在するものと判定し、
前記テクスチャをマッピングする際に、寄りカメラの画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングすることを特徴とする仮想視点映像生成方法。

【請求項8】

前記3Dモデルを、寄りカメラおよび引きカメラの各カメラ映像に基づく視体積交差法により生成し、
被写体のシルエットに基づいて低解像ボクセルモデルを構築し、
被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築し、
3Dモデルごとに、その低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項７に記載の仮想視点映像生成方法。

【請求項9】

前記3Dモデルがポリゴンモデルであり、
前記3Dモデルの各ポリゴンが各カメラから可視／不可視のいずれであるかを記録したオクルージョン情報を生成し、
前記画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、
各ポリゴンにテクスチャをマッピングする際に、当該ポリゴンが可視のカメラからテクスチャをマッピングすることを特徴とする請求項７または８に記載の仮想視点映像生成方法。

【請求項10】

被写体を複数の視点で撮影したカメラ映像に基づいて仮想視点映像を生成する仮想視点映像生成プログラムにおいて、
寄りカメラおよび引きカメラの各カメラ映像に基づいて被写体の3Dモデルを生成する手順と、
被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する手順と、
前記3Dモデルに対して各カメラ映像からテクスチャをマッピングする手順とをコンピュータに実行させ、
前記判定する手順では、前記3Dモデルを内包する3Dバウンディングボックスの全ての頂点が寄りカメラの画角範囲内または寄りカメラの画角範囲外である3Dモデル以外の3Dモデルを寄りカメラの画角境界上に存在するものと判定し、
前記マッピングする手順では、寄りカメラの画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングすることを特徴とする仮想視点映像生成プログラム。

【請求項11】

前記3Dモデルを生成する手順は、寄りカメラおよび引きカメラの各カメラ映像に基づく視体積交差法により3Dモデルを生成し、
被写体のシルエットに基づいて低解像ボクセルモデルを構築する手順と、
被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築する手順とを含み、
前記判定する手順は、3Dモデルごとに、その低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定することを特徴とする請求項１０に記載の仮想視点映像生成プログラム。

【請求項12】

前記3Dモデルがポリゴンモデルであり、
前記3Dモデルの各ポリゴンが各カメラから可視／不可視のいずれであるかを記録したオクルージョン情報を生成する手順を含み、
前記オクルージョン情報を生成する手順は、前記画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、
前記マッピングする手順は、各ポリゴンに当該ポリゴンが可視のカメラからテクスチャをマッピングすることを特徴とする請求項１０または１１に記載の仮想視点映像生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、被写体の3Dモデルを生成し、その仮想視点映像を合成する際に、引きカメラと寄りカメラとが混在する環境でも違和感の無い高品質の仮想視点映像を提供できる仮想視点映像生成装置、方法およびプログラムに関する。

【背景技術】

【0002】

自由視点（仮想視点）映像技術は、複数台のカメラ映像を取得し、カメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。自由視点映像を実現する一手法として、非特許文献１が開示する視体積交差法に基づく3Dモデルベースの自由視点映像生成手法が存在する。

【0003】

視体積交差法は、図9に示すように各カメラ映像から被写体の部分だけを抽出した2値のシルエット画像を3D空間に投影し、その積集合となる部分のみを3DCGのモデルとして残すことによって3Dモデルを生成する手法である。

【0004】

視体積交差法は、特許文献1が開示するフルモデル方式自由視点（3Dモデルの形状を忠実に表現する方式）や、非特許文献2が開示するビルボード方式自由視点（3Dモデルをビルボードと呼ばれる板の形状で制作し、近いカメラからのテクスチャをビルボードにマッピングする方式）を実現する上での基礎技術として利用されている。

【0005】

非特許文献1が開示する自由視点制作では、まず自由視点映像を制作したい3D空間を立方体の格子で区切ったボクセルグリッドで埋め尽くす。次いで、各ボクセルグリッドの3次元位置を各カメラのシルエット画像上に逆投影し、対応する位置のシルエット画像を参照する。そして、多くのカメラでシルエットが白（被写体が存在する）と判定されたボクセルグリッドがモデル化される。

【0006】

このような自由視点映像は、リアルタイムでインタラクティブに任意の視点からスポーツを視聴して楽しむような用途や、任意の視点の映像を作り出せるという特徴を利用して、決定されたカメラワークに基づいて臨場感のあるリプレイ動画を作ることなどを目的に利用されてきた。

【先行技術文献】

【特許文献】

【0007】

【文献】特開2018-063635号公報

【文献】特願2020-133176号

【非特許文献】

【0008】

【文献】Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994).

【文献】H. Sankoh, S. Naito, K. Nonaka, H. Sabirin, J. Chen, "Robust Billboard-based, Free-viewpoint Video Synthesis Algorithm to Overcome Occlusions under Challenging Outdoor Sport Scenes", Proceedings of the 26th ACM international conference on Multimedia, pp. 1724-1732, (2018)

【文献】J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), WeAT17.2, (2019).

【文献】Qiang Yao, Hiroshi Sankoh, Nonaka Keisuke, Sei Naito. "Automatic camera self-calibration for immersive navigation of free viewpoint sports video," 2016 IEEE 18th International Workshop on Multimedia Signal Processing (MMSP), 1-6, 2016.

【文献】C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252 Vol. 2 (1999).

【文献】R. S. Yang et al., "Multi-Kinect scene reconstruction: Calibration and depth inconsistencies," 2013 28th International Conference on Image and Vision Computing New Zealand (IVCNZ 2013), Wellington, 2013, pp. 47-52.

【文献】Shuang Sun et al.,"Parametric Human Shape Reconstruction via Bidirectional Silhouette Guidance," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019.

【発明の概要】

【発明が解決しようとする課題】

【0009】

自由視点映像の制作ではカメラの配置が重要となる。例えば、大きく被写体に寄ったカメラがある場合には引きカメラの画角をスタートに当該寄りカメラをゴールとするようなカメラワークを作ることで、徐々に被写体に近付いていくようなワークを高い鮮明度を持ったテクスチャで実現することが可能である。

【0010】

カメラが被写体に近ければ近いほど鮮明なテクスチャが得られる一方、カメラが被写体に近づくほどカメラに映り込むスタジアム上の領域が小さくなってしまう。特に、特定のカメラだけが大きく被写体に近づいているようなケースでは、寄りカメラの画角範囲外にある被写体が3Dモデル形成されずに消失してしまう。

【0011】

図10は、全てのカメラが引きカメラの場合[同図(a)]と寄りカメラを一つ含む場合[同図(b)]との積集合の形成される範囲を比較した図であり、同図(b)では同図(a)に比べて積集合の範囲が小さくなり、寄りカメラの画角範囲外にある被写体の3Dモデルが形成されずに消失し得ることが解る。

【0012】

このような技術課題は、カメラがN台ある環境でN-1台から見えている部分は3Dモデル化するなど、3Dモデル生成に関するカメラ台数の閾値を変更することで解決できる。

【0013】

あるいは、本発明の発明者等が発明して既に特許出願（特許文献2）したように、寄りカメラおよび引きカメラの各カメラ映像を用いて視体積交差法により被写体の3Dボクセルモデルを生成する際、図11に示すように、寄りカメラの画角範囲外には被写体が存在するものとして処理する一方、引きカメラでは被写体が存在しないものとして処理することで3Dモデルの消失を防ぐようにしても良い。

【0014】

一方、上記の各手法を駆使することで引きカメラと寄りカメラとが混在する環境で3Dモデルを生成できたとしても、寄りカメラに写っている被写体は寄りカメラから、引きカメラにしか映っていない被写体は引きカメラから、それぞれマッピングするようなレンダリングプロセスが必要になる。

【0015】

加えて、寄りカメラと引きカメラとの画角境界に存在する被写体に対して各カメラからテクスチャをマッピングすると、図12に示したように、各カメラの解像度の差やマッピングするカメラの違いが原因で画角境界に切れ目がはっきりと目立ってしまい、視聴品質に違和感が生まれるという課題があった。

【0016】

本発明の目的は、引きカメラと寄りカメラとが混在する環境で制作した3Dモデルにテクスチャをマッピングして仮想視点映像を生成する際に、3Dモデルごとに寄りカメラの画角境界との位置関係に応じて、引きカメラおよび寄りカメラの一方のみからマッピングことで、画角境界に切れ目を生じさせない仮想視点映像生成装置、方法およびプログラムを提供することにある。

【課題を解決するための手段】

【0017】

上記の目的を達成するために、本発明は、被写体を複数の視点で撮影したカメラ映像に基づいて仮想視点映像を生成する仮想視点映像生成装置において、以下の構成を具備した点に特徴がある。

【0018】

(1) 寄りカメラおよび引きカメラの各カメラ映像に基づいて3Dモデルを生成する手段と、被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する手段と、3Dモデルに対して各カメラ映像からテクスチャをマッピングする手段とを具備し、マッピングする手段は、画角境界上に存在する3Dモデルに対しては寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャをマッピングするようにした。

【0019】

(2) 判定する手段は、3Dモデルを内包する3Dバウンディングボックスが寄りカメラの画角境界上に存在するか否かを判定するようにした。

【0020】

(3) 3Dモデルを生成する手段は、寄りカメラおよび引きカメラの各カメラ映像に基づく視体積交差法を採用し、被写体のシルエットに基づいて低解像ボクセルモデルを構築する手段と、被写体のシルエットに基づいて低解像ボクセルモデルの領域に高解像ボクセルモデルを構築する手段とを具備し、判定する手段は、3Dモデルごとにその低解像ボクセルモデルが寄りカメラの画角境界上に存在するか否かを判定するようにした。

【0021】

(4) 3Dモデルがポリゴンモデルであると、3Dモデルの各ポリゴンが各カメラから可視／不可視のいずれであるかを記録したオクルージョン情報を生成する一方、画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替え、マッピングする手段は、各ポリゴンに当該ポリゴンが可視のカメラからテクスチャをマッピングするようにした。

【発明の効果】

【0022】

(1) 本発明の仮想視点映像生成装置は、寄りカメラの画角境界上に存在する3Dモデルに対しては、寄りカメラの画角内を含めて引きカメラのカメラ映像からテクスチャマッピングを行うようにしたので、一つの3Dモデルに寄りカメラおよび引きカメラの双方からテクスチャがマッピングされることで生じ得る品質低下を防止できるようになる。

【0023】

(2) 被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを、当該3Dモデルを内包する3Dバウンディングボックスが寄りカメラの画角境界上に存在するか否かに基づいて判定するので、3Dバウンディングボックスの8頂点全てが寄りカメラの画角範囲内あるいは8頂点全てが寄りカメラの画角範囲外であれば画角境界上に存在しないと判定できる。したがって、非常に高速な判定が可能になる。

【0024】

(3) 被写体の3Dモデルが寄りカメラの画角境界上に存在するか否かを、低解像ボクセルモデルの時点で判定を行うようにしたので、高解像ボクセルモデル生成の結果を待たずに並列して境界判定を行うことが可能となり、高速に処理を動作させることができるようになる。

【0025】

(4) 画角境界上に存在する3Dモデルのポリゴンに関する寄りカメラのオクルージョン情報を不可視に書き替えるようにしたので、境界判定の結果を参照することなくオクルージョン情報を参照するのみで適正なカメラ映像からテクスチャをマッピングできるようになる。

【図面の簡単な説明】

【0026】

【図1】本発明の第1実施形態に係る仮想視点映像生成装置の機能ブロック図である。

【図2】3Dモデルをバウンディングボックスにより被写体ごとに分割する例を示した図である。

【図3】各3Dモデルへのテクスチャマッピングを画角に応じたカメラ映像から行う方法を示した図である。

【図4】本発明の第2実施形態に係る仮想視点映像生成装置の機能ブロック図である。

【図5】カメラパラメータの例を示した図である。

【図6】本発明の第3実施形態に係る仮想視点映像生成装置の機能ブロック図である。

【図7】本発明の第4実施形態に係る仮想視点映像生成装置の機能ブロック図である。

【図8】オクルージョン情報を境界判定の結果に基づいて書き替える例を示した図である。

【図9】視体積交差法による3Dモデルの生成方法を示した図である。

【図10】寄りカメラの画角範囲外にある被写体が3Dモデル形成されずに消失される例を示した図である。

【図11】特許文献２による3Dモデルの制作方法を説明する図である。

【図12】一つの3Dモデルに対して寄りカメラおよび引きカメラからテクスチャがマッピングされることで映像品質が低下する例を示した図である。

【発明を実施するための形態】

【0027】

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の第1実施形態に係る仮想視点映像生成装置1の主要部の構成を示した機能ブロック図であり、3Dモデル制作サーバ10およびレンダリングサーバ20を主要な構成としている。ここではスポーツシーンをN台のカメラCam1～CamNで撮影し、その一部が寄りカメラ、残りが引きカメラである場合を例にして説明する。

【0028】

このような仮想視点映像生成装置1は、汎用のコンピュータやサーバに各機能を実現するアプリケーション（プログラム）を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。

【0029】

3Dモデル制作サーバ10は、シルエット画像取得部101、3Dモデル生成部102および境界判定部103を含み、被写体ごとに3Dモデルを生成してレンダリングサーバ20へ提供する。更に、3Dモデルごとに寄りカメラの画角境界との位置関係を判定し、判定結果をレンダリングサーバ20へ提供する。

【0030】

シルエット画像取得部101は、寄りカメラおよび引きカメラの各カメラ映像から視体積交差法による3Dモデル生成に用いるシルエット画像をシルエット画像データベース30から取得する。視体積交差法により3Dモデルを生成するためには3台以上のカメラからシルエット画像を取得することが望ましい。

【0031】

シルエット画像は3Dモデルを生成する被写体領域を白（=1）、それ以外の領域を黒（=0）で表した2値のマスク画像の形式で与えられる。このようなシルエット画像の生成には、非特許文献5に開示された背景差分法に代表される任意の既存手法を利用できる。

【0032】

3Dモデル生成部102は、シルエット画像取得部101が取得したシルエット画像および別途に与えられるカメラ分類情報に基づいて、N枚のシルエット画像を用いた視体積交差法により被写体の3Dボクセルモデルを計算する。ここで、カメラ分類情報とは各カメラが寄りカメラおよび引きカメラのいずれであるかを識別する情報である。

【0033】

視体積交差法は、N枚のシルエット画像を3次元ワールド座標に投影した際の視錐体の共通部分を視体積（Visual Hull）VH(I)として獲得するものであり、次式(1)で示される。ここで、集合Iは各カメラのシルエット画像の集合であり、Viはi番目のカメラから得られるシルエット画像から計算される視錐体である。

【0034】

【数1】

【0035】

こうして生成されたボクセルモデルは、ボクセルのままで扱われてもよいが、マーチンキューブ法などに基づいてポリゴンモデルに変換されてもよい。ここではポリゴンモデルに変換されるものとして説明を続ける。

【0036】

境界判定部103は、3Dモデル生成部102が生成した3Dモデルが寄りカメラの画角境界上に存在するか否かを判定する。本実施形態では、図2に示したように独立した各3Dモデルの塊を内包する3Dバウンディングボックスを定義し、当該3Dバウンディングボックス単位で3Dモデルが画角境界上に存在するか否かを判定する。

【0037】

3Dバウンディングボックスを対象とした判定では、その8頂点全てが寄りカメラの画角範囲内あるいは8頂点全てが寄りカメラの画角範囲外であれば、当該3Dバウンディングボックスは画角境界上に存在しないと判定する。バウンディングボックス単位での判定によれば8頂点のチェックで済むため非常に高速な判定が可能になる。

【0038】

一方、3Dバウンディングボックスは3Dモデルの形状と厳密には同一ではない。このため内包された3Dモデルは寄りカメラの画角内に収まっているにも関わらず3Dバウンディングボックスの頂点だけが寄りカメラの画角外に漏れていると境界判定にミスが発生し得る。

【0039】

精度面を考慮すれば3Dバウンディングボックス単位ではなく、3Dバウンディングボックスに内包されているボクセルモデルを使って判定することが望ましい。例えば、ボクセルモデル内の全てのボクセルの中心点を寄りカメラ方向に逆投影し、寄りカメラの画角内に収まる中心点と収まらない中心点とが存在すれば、この被写体は境界領域に存在するものとして判定を行う。境界判定の結果は、寄りカメラが複数台であれば被写体数×寄りカメラ数だけ計算されてもよい。

【0040】

レンダリングサーバ20は、3Dモデル制作サーバ10が制作した被写体3Dモデルの形状情報と各カメラ映像（テクスチャ）とを用いて仮想視点から見た合成映像をレンダリングする。本実施例では、フルモデルでの自由視点レンダリングを行う。

【0041】

なお、レンダリングサーバ20は3Dモデル制作サーバ10と同一の計算機上に構成されても良いし、別々のサーバで構成しても良い。一般に、3Dモデルは特定のフレームに対して1回計算されればよいのでハイエンドなPCなどで高速に計算を行って保存しておき、この3Dモデルを、レンダリング機能を備えた仮想視点視聴端末に配信するように構成することで、ハイエンドなPC1台と低スペック端末も含む多端末への映像配信を実現することができる。

【0042】

レンダリングサーバ20において、仮想視点選択部201は、作業者による視点選択操作を検知して仮想視点p_vの位置および向きを取得する。境界依存マッピング部202は、仮想視点p_vおよび境界判定の結果に基づいて、3Dモデルの各ポリゴンへ各カメラ映像からテクスチャをマッピングする。仮想視点映像出力部203は、レンダリングされた合成映像を仮想視点映像として出力する。

【0043】

図3は、境界依存マッピング部202によるテクスチャのマッピング方法を模式的に示した図である。画角境界を跨がずに寄りカメラの画角内に収まっていると判定された3Dモデルに対しては、寄りカメラのカメラ映像から抽出したテクスチャのみがマッピングされる。また、画角境界を跨がずに引きカメラの画角内に収まっていると判定された3Dモデルに対しては、引きカメラのカメラ映像から抽出したテクスチャのみがマッピングされる。

【0044】

なお、画角境界を跨がずに引きカメラの画角内に収まっていると判定された3Dモデルのうち寄りカメラの画角内にも収まっている3Dモデルに対しては、寄りカメラのみからテクスチャがマッピングされるようにしても良い。

【0045】

これに対して、寄りカメラの画角境界上にあると判定された3Dモデルに対しては、寄りカメラの画角内に収まっている領域も含めて引きカメラのカメラ映像から抽出したテクスチャのみがマッピングされる。これにより画角境界上の3Dモデルに対して、寄りカメラおよび引きカメラの双方のテクスチャがマッピングされることにより生じ得る映像品質の劣化（図12）を防止できるようになる。

【0046】

なお、上記の第1実施形態ではカメラ分類情報が別途に与えられるものとして説明したが、本発明はこれのみに限定されるものではなく、図4に示した第2実施形態のように、カメラパラメータに基づいてカメラ分類情報を出力するカメラ分類部104を設け、ズーム操作等により変化する焦点距離に応じて適応的に分類結果が変化するようにしても良い。

【0047】

カメラ分類部104は、次式(2)で与えられるカメラパラメータを利用することでN台のカメラを寄りカメラまたは引きカメラに自動で分類する。

【0048】

【数2】

【0049】

カメラパラメータは、ワールド座標上の点(X, Y, Z)をカメラ映像上の2Dの点(u, v)に変換するために用いられ、r₁₁～r₃₃はカメラの向きを示す回転行列、t₁～t₃はカメラの位置を表す並進行列であり、二つを合わせてカメラの外部パラメータと呼ばれる。

【0050】

f_x，f_yはズーム具合を示すピクセル単位の焦点距離、c_x，c_yは画像の主点であり、通常は画像中心となることが多い。この焦点距離や主点などのパラメータはカメラの内部パラメータと呼ばれる（カメラのレンズによって画像上に生じる歪に関するパラメータを含むことも多いが、ここでは簡単のため省略する）。

【0051】

sは[u, v, 1]とするためのスケーリングに用いる変数である。このカメラパラメータは事前に非特許文献4が開示する技術を使って計算できる。実際に入力されるカメラパラメータの例を図5に示す。

【0052】

ここで、f_x，f_yはズーム具合を示すピクセル単位の焦点距離であるから、この値が大きいカメラは大きくズームされている可能性が高い。よって、カメラ分類部104はf_xおよびf_yをチェックすることで自動的に寄りカメラを分類できる。

【0053】

寄りカメラへの分類数は1台に限定されず、f_x，f_yが一定の値より大きい数台（≦N台）のカメラを全て寄りカメラへ分類しても良いし、f_x，f_yが大きい方からN1台（≦N台）を寄りカメラに分類しても良い。さらに、f_x，f_yが大きい方から優先的に全カメラ台数のL%（Lは0～100の任意の定数）のカメラを寄りカメラに分類しても良い。さらにはf_x，f_yではなく外部パラメータから計算されるカメラの位置に基づいて分類が行われるようにしても良い。

【0054】

あるいは、前のフレームで制作した被写体3Dモデルや、事前に用意されたゴールポストなどの汎用3Dモデルが各カメラに映りこむサイズを計測することで各カメラを分類しても良い。例えば、寄りカメラを含めた全カメラが捉える領域に、事前に用意された3Dモデルを配置し、この3Dモデルをカメラ方向に逆投影したときに現れるシルエットの大きさに基づいて分類することができる。

【0055】

図6は、本発明の第3実施形態に係る仮想視点映像生成装置1の主要部の構成を示した機能ブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態は、3Dモデル生成部102が低解像ボクセルモデル生成部102aおよび高解像ボクセルモデル生成部102bを具備し、低解像ボクセルモデルに基づいて境界判定が行われるようにした点に特徴がある。

【0056】

低解像ボクセルモデル生成部102aは、単位ボクセルサイズがMの粗いボクセルグリッドを対象にボクセルモデルを生成する。単位ボクセルサイズMは高解像ボクセル生成部102bにおける単位ボクセルサイズLよりも大きな値であり、例えばM=5cmなどに設定される。本実施形態では、3Dモデル生成の対象範囲（例えば、スポーツ映像なら当該スポーツが行われるフィールド等）に単位ボクセルサイズMでボクセルグリッドを配置しておき、このボクセルグリッドを対象に3Dモデルを形成するか否かを視体積交差法に基づき判定する。

【0057】

次いで、形成された粗いボクセルモデルを対象に、連結しているボクセルは同一の被写体であるとみなす作業を繰り返すことで粗いボクセルモデルの塊ごとにラベリング処理が行われる。

【0058】

次いで、こうして得られた塊に対して、それを内包するような形で3Dバウンディングボックスを定義し、この3Dバウンディングボックスの内部のみに単位ボクセルサイズLのボクセルグリッドを生成し、上記と同様にして細かいボクセル生成を行う。このような2段階のボクセル生成手法は非特許文献3に開示されている。前記境界判定部103は、低解像ボクセルモデル生成部102aが生成した3Dバウンディングボックス単位で境界判定を行う。

【0059】

このように、低解像ボクセルモデルの時点で判定を行うようにすれば、高解像ボクセルモデル生成の結果を待たずに並列して境界判定を行うことができるため、高速に処理を動作させることができる。ただし、本発明は高解像ボクセルモデルに基づいて境界判定を行うことを妨げるものはない。

【0060】

このように、高解像ボクセルモデルを用いて境界判定を行えば、低解像ボクセルモデルを用いる場合よりも精緻なモデル形状が得られることから、境界判定をより正確に実施できるようになる。

【0061】

図7は、本発明の第4実施形態に係る仮想視点映像生成装置1の主要部の構成を示した機能ブロック図であり、第3実施形態と同一の符号は同一または同等部分を表しているので、その説明は省略する。

【0062】

本実施形態は、3Dモデル制作サーバ10がオクルージョン情報生成部105を具備し、前記境界判定部103による判定結果に基づいてオクルージョン情報を書き替え、レンダリングサーバ20の境界依存マッピング部202が書き替え後のオクルージョン情報に基づいてテクスチャのマッピングを行うようにした点に特徴がある。

【0063】

オクルージョン情報生成部105は、3Dモデルの各頂点を可視のカメラと不可視のカメラとに分別するオクルージョン情報を生成する。本実施形態のようにN台のカメラが存在する環境では、3Dモデルの頂点ごとにN個のオクルージョン情報が計算され、可視のカメラには「1」、不可視のカメラには「0」などの情報が記録される。

【0064】

サッカーの競技シーンで選手が二人重なり、あるカメラ映像において選手Aが選手Bを覆い隠す場合、選手Bの3Dモデルに選手Aのテクスチャが映り込まないようにテクスチャをマッピングする必要がある。このような場合、選手Bの3Dモデルの遮蔽される部分の頂点に関しては、当該カメラに関するオクルージョン情報が「不可視」として記録されている。このオクルージョン情報は、例えば特許文献1のようなデプスマップを用いた手法等を用いて計算される。

【0065】

前記境界依存マッピング部202は、境界判別の結果に応じて仮想視点近傍の2台のカメラ（c₁, c₂）を選択し、これらのカメラ映像を3Dモデルのポリゴンgにマッピングする。すなわち、マッピング対象の3Dモデルが画角境界上になく、その全てが寄りカメラの画角内に収まっていれば、寄りカメラを対象に仮想視点近傍の2台のカメラが選択される。これに対して、マッピング対象の3Dモデルが画角境界上にあるか、あるいはその全てが引きカメラの画角内に収まっていれば、引きカメラを対象に仮想視点近傍の2台のカメラが選択される。

【0066】

なお、本実施形態ではその前処理として、あるポリゴンgを構成する3頂点のオクルージョン情報を用いて当該ポリゴンの可視判定を行う（3頂点は3Dモデルが三角ポリゴンで形成される場合であり、実際にはそれぞれのポリゴンを構成する頂点数に依存する）。

【0067】

例えば、カメラc_1に対するポリゴンgの可視判定フラグをg_(c_1 )と表現する場合、ポリゴンgを構成する3頂点すべてが可視であればg_(c_1 )は可視、3頂点のうちいずれかでも不可視であればg_(c_1 )は不可視と設定する。本実施形態では、このようなカメラごとのポリゴンの可視判定の結果に応じて、以下のようにテクスチャマッピングを行う。

【0068】

ケース1：ポリゴンgに関するカメラc₁，c₂の可視判定フラグg_c1，g_c2がいずれも「可視」の場合
次式(3)に基づいてアルファブレンドによるマッピングを行う。

【0069】

【数3】

【0070】

ここで、texture_c1(g)，texture_c2(g)はポリゴンgがカメラc₁，c₂において対応するカメラ映像領域を示し、texture(g)は当該ポリゴンにマッピングされるテクスチャを示す。アルファブレンドの比率aは仮想視点p_vと各カメラ位置p_(c_1 ), p_(c_2 )との距離（アングル）の比に応じて算出される。

【0071】

ケース2：可視判定フラグg_c1，g_c2の一方のみが可視の場合
ポリゴンgを可視であるカメラのテクスチャのみを用いてレンダリングを行う。すなわち上式(3)において、可視であるカメラのtexture_(c_i )に対応する比率aの値を1とする。あるいは仮想視点p_vからみて次に近い第3のカメラc_3を不可視である一方のカメラの代わりに参照し、ケース1の場合と同様に上式(3)に基づくアルファブレンドによりマッピングを行う。

【0072】

ケース3：可視判定フラグg_c1，g_c2のいずれもが不可視の場合
仮想視点p_v近傍（一般には、アングルが近いもの）の他のカメラを選択することを、少なくとも一方の可視判定フラグが可視となるまで繰り返し、各カメラ映像の参照画素位置のテクスチャを、ケース1の場合と同様に上式(3)に基づくアルファブレンドによりポリゴンgにマッピングする。

【0073】

なお、上記の実施形態では初期参照する近傍カメラ台数を2台としているが、ユーザ設定により変更してもよい。その際は、初期参照カメラ台数bに応じて、上式(1)はb台のカメラの線形和（重みの総和が1）とする拡張が行われる。また、すべてのカメラにおいて不可視となったポリゴンについてはテクスチャをマッピングしない。

【0074】

ここで、本実施形態では前記境界依存マッピング部202がオクルージョン情報を参照するのみでオクルージョンおよび境界条件に基づいて適正なカメラ映像からテクスチャをマッピングできるように、オクルージョン情報が前記境界判定部103の判定結果に応じて書き替えられるようにしている。

【0075】

図8は、オクルージョン情報の書き換え例を示した図であり、ここでは寄りカメラの可視／不可視（遮蔽）が最下位ビットに割り当てられており、境界上に位置する3Dモデルを構成する各ポリゴンについては、各頂点が可視／不可視（遮蔽）のいずれであるかを問わず、常に遮蔽状態を示す「0」に書き換えられている。

【0076】

なお、上記の各実施形態では3Dモデル生成部102が寄りカメラおよび引きカメラの各カメラ映像に基づくシルエット画像を用いた視体積交差法により3Dモデルを生成するものとして説明した。しかしながら、本発明はこれのみに限定されるものではなく、デプスセンサベースで生成した3Dモデル（非特許文献６）やニューラルネットワークベースで生成した3Dモデル（非特許文献７）へのテクスチャマッピングにも適用できる。

【0077】

非特許文献６では、Kinect（登録商標）のように物体までの距離を取得可能なデプスセンサを用いることで物体の3D形状が取得される。複数台のKinect（登録商標）を組み合わせれば360度から高精度の形状取得が可能になる。なお、Kinect（登録商標）にはデプスセンサの他にRGBカメラも付属するので、テクスチャマッピングにはKinect（登録商標）のRGBカメラを利用できる。すなわち、形状のみをデプスセンサで取得し、テクスチャマッピングには通常のカメラを利用できる。

【0078】

非特許文献７には、単眼または複数カメラから3Dモデル形状をニューラルネットワークで推定する手法が開示されている。

【符号の説明】

【0079】

1…仮想視点映像生成装置，10…3Dモデル制作サーバ，20…レンダリングサーバ，101…シルエット画像取得部，102…3Dモデル生成部，102a…低解像ボクセルモデル生成部，102b…高解像ボクセルモデル生成部，103…境界判定部，104…カメラ分類部，105…オクルージョン情報生成部，201…仮想視点選択部，202…境界依存マッピング部，203…仮想視点映像出力部

【図1】