IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7236403自由視点映像生成方法、装置およびプログラム
<>
  • 特許-自由視点映像生成方法、装置およびプログラム 図1
  • 特許-自由視点映像生成方法、装置およびプログラム 図2
  • 特許-自由視点映像生成方法、装置およびプログラム 図3
  • 特許-自由視点映像生成方法、装置およびプログラム 図4
  • 特許-自由視点映像生成方法、装置およびプログラム 図5
  • 特許-自由視点映像生成方法、装置およびプログラム 図6
  • 特許-自由視点映像生成方法、装置およびプログラム 図7
  • 特許-自由視点映像生成方法、装置およびプログラム 図8
  • 特許-自由視点映像生成方法、装置およびプログラム 図9
  • 特許-自由視点映像生成方法、装置およびプログラム 図10
  • 特許-自由視点映像生成方法、装置およびプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-01
(45)【発行日】2023-03-09
(54)【発明の名称】自由視点映像生成方法、装置およびプログラム
(51)【国際特許分類】
   G06T 15/20 20110101AFI20230302BHJP
   G06T 19/00 20110101ALI20230302BHJP
【FI】
G06T15/20 500
G06T19/00 A
【請求項の数】 13
(21)【出願番号】P 2020054123
(22)【出願日】2020-03-25
(65)【公開番号】P2021157237
(43)【公開日】2021-10-07
【審査請求日】2022-02-07
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】渡邊 良亮
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2019-106170(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 15/00-19/20
(57)【特許請求の範囲】
【請求項1】
被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成装置において、
カメラごとに遮蔽物デプスマップを取得する手段と、
被写体の3Dモデルを生成する手段と、
前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成する手段と、
前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成する手段と、
前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングする手段とを具備したことを特徴とする自由視点映像生成装置。
【請求項2】
前記遮蔽物デプスマップを取得する手段は、予め用意した遮蔽物の3Dモデルおよび各カメラパラメータに基づいてカメラごとに遮蔽物デプスマップを生成することを特徴とする請求項1に記載の自由視点映像生成装置。
【請求項3】
カメラ画像に基づいて被写体シルエット画像を生成する手段と、
遮蔽物デプスマップに基づいて遮蔽物シルエット画像を生成する手段とを具備し、
前記3Dモデルを生成する手段は、前記被写体および遮蔽物の各シルエット画像に基づいて3Dモデルを生成することを特徴とする請求項1または2に記載の自由視点映像生成装置。
【請求項4】
前記3Dモデルを生成する手段は、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、
前記遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないことを特徴とする請求項3に記載の自由視点映像生成装置。
【請求項5】
前記3Dモデルを生成する手段は、
被写体および遮蔽物の各シルエット画像を用いた視体積交差法によりボクセルグリッドのサイズが第1サイズの低解像ボクセルモデルを計算する手段と、
前記低解像ボクセルモデルの領域を対象に、前記各シルエット画像を用いた視体積交差法によりボクセルグリッドのサイズが前記第1サイズよりも小さい第2サイズの高解像ボクセルモデルを計算する手段とを具備し、
前記低解像ボクセルモデルのうち、遮蔽物の3Dモデルが存在し得る領域では前記判定をスキップしてモデル化しないことを特徴とする請求項4に記載の自由視点映像生成装置。
【請求項6】
前記3Dモデルがポリゴンモデルであり、
前記オクルージョン情報には、各ポリゴンの頂点部位ごとに各カメラの視点で可視および不可視のいずれであるかが登録されたことを特徴とする請求項1ないし5のいずれかに記載の自由視点映像生成装置。
【請求項7】
前記カメラパラメータは、遮蔽物に代表される既知の構造物から抽出した各特徴点とカメラ画像から抽出した遮蔽物の各特徴点とのマッチング結果に基づいて推定されることを特徴とする請求項2に記載の自由視点映像生成装置。
【請求項8】
コンピュータが、被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成方法において、
カメラごとに遮蔽物デプスマップを取得し、
被写体の3Dモデルを生成し、
前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成し、
前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成し、
前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングすることを特徴とする自由視点映像生成方法。
【請求項9】
カメラ画像に基づいて被写体シルエット画像を生成し、
遮蔽物デプスマップに基づいて遮蔽物シルエット画像を生成し、
前記被写体および遮蔽物の各シルエット画像に基づいて3Dモデルを生成することを特徴とする請求項8に記載の自由視点映像生成方法。
【請求項10】
前記3Dモデルを生成する際に、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、
前記遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないことを特徴とする請求項9に記載の自由視点映像生成方法。
【請求項11】
被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成プログラムにおいて、
カメラごとに遮蔽物デプスマップを取得する手順と、
被写体の3Dモデルを生成する手順と、
前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成する手順と、
前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成する手順と、
前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングする手順と、
をコンピュータに実行させる自由視点映像生成プログラム。
【請求項12】
カメラ画像に基づいて被写体シルエット画像を生成する手順と、
遮蔽物デプスマップに基づいて遮蔽物シルエット画像を生成する手順とを更に含み、
前記3Dモデルを生成する手順では、前記被写体および遮蔽物の各シルエット画像に基づいて3Dモデルを生成することを特徴とする請求項11に記載の自由視点映像生成プログラム。
【請求項13】
前記3Dモデルを生成する手順では、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、
前記遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないことを特徴とする請求項12に記載の自由視点映像生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視点の異なる複数のカメラ画像に基づいて自由視点映像を生成する方法、装置およびプログラムに係り、特に、オクルージョン部分に欠損が生じない3Dモデルを生成し、オクルージョン部分への適切なテクスチャマッピングを実現する自由視点映像生成方法、装置およびプログラムに関する。
【背景技術】
【0002】
自由視点映像技術は、視点の異なる複数台のカメラ映像に基づいてカメラが存在しない視点も含めた任意の視点からの映像視聴を可能とする技術である。自由視点映像を実現する一手法として、非特許文献1に開示される視体積交差法に基づく3Dモデルベースの自由視点映像生成手法が存在する。
【0003】
視体積交差法は、図10に示したように各カメラcamの映像から被写体の部分だけを抽出した2値のシルエット画像を用いて、各カメラcamのシルエット画像を3D空間に投影して視体積を求め、その積集合となる部分のみを3DCGのモデルとして残すことによって3Dモデルを生成する手法である。
【0004】
このような視体積交差法は、非特許文献2に開示されるフルモデル方式自由視点(=3Dモデルの形状を忠実に表現する方式)や、非特許文献3に開示されるビルボード方式自由視点(=3Dモデルをビルボードと呼ばれる板の形状で制作し、近いカメラからのテクスチャをビルボードにマッピングする方式)を実現する上での基礎技術として利用されている。
【0005】
視体積交差法で利用する積集合を得るためのシルエット画像の抽出手法としては、非特許文献4に代表される背景差分法ベースの手法が知られている。背景差分法は、背景モデルと呼ばれる被写体が存在しない状態のモデルと、入力画像の差分を基に被写体を抽出する手法である。
【0006】
ところで、例えばスポーツシーンなどでは、フィールド上に移動しない構造物(例えば、サッカーのゴールポストやバレーのネット)が登場するケースがある。背景差分法ベースのシルエット抽出により取得したシルエット画像を用いて視体積交差法を適用する場合、このような構造物が自由視点の品質に悪影響を与える場合がある。
【0007】
例えば、スポーツ選手などの被写体の前にゴールポストなどの構造物が覆いかぶさる場合、これらの構造物は静止していることから背景差分法では背景と判定され、シルエットを抽出できない。
【0008】
視体積交差法では、シルエット部分がモデル化されるか否かはボクセルグリッドと呼ばれる単位で判定される。ボクセルグリッドは、3Dモデル化を行う3D空間を細かい3次元の立方格子で埋め尽くして構成され、各格子の中にモデル生成がされるか否かを判定することで3Dモデルが生成される。判定方法としては、立方格子ごとに複数台のカメラのシルエット画像の対応画素を参照し、多くのシルエット画像で前景である場合にボクセルグリッドがモデル化される。したがって、構造物によってシルエット画像に欠損が生じていると、図11に示したように、あるカメラから見て構造物の裏側に存在する被写体に欠損が生じ得る。
【0009】
このような技術課題は、背景差分法を用いたシルエット抽出において現れやすい傾向にあるが、例えば非特許文献5や非特許文献6が開示するDeep Learningをベースとした背景差分法以外のシルエット抽出手法でも、構造物に遮蔽された部分がシルエットとして抽出されない可能性があり、背景差分法に限定されるものではない。
【0010】
特許文献1は、このような技術課題を解決するために、サッカーのゴールポストなどの被写体を遮蔽する構造物のシルエット画像(=以後「遮蔽物シルエット画像」と表現する場合もある)をカメラごとに用意し、背景差分法で取得した被写体シルエット画像に遮蔽物シルエット画像を加算して得られる統合シルエット画像を用いて視体積交差法を行うことで、遮蔽物による欠損のない3Dモデルの生成を可能にしている。
【0011】
しかしながら、統合シルエット画像を用いた視体積交差法では、ゴールポストの3Dモデルもモデル化されてしまう。ゴールポストがモデル化されると、例えば非特許文献3のビルボード自由視点を実現する際に、ゴールポストモデルに接触している人物がゴールポストのモデルと一体化して巨大なビルボードが生成され、被写体の表示位置の誤差が大きくなってしまう課題がある。
【0012】
すなわち、ビルボード自由視点では、被写体の位置にビルボードというボードを立てて表現を行う都合上、視体積交差法により生成されるモデルの塊ごとに3Dオブジェクトをラベリングし、各々の塊に応じてビルボードが形成される。被写体が巨大な構造物などに触れた場合、被写体と構造物のモデルは一つの大きな塊として扱われ、一つのビルボードにまとめられる。
【0013】
このビルボードは、ボードの中心を軸にユーザの選択視点に正対するように回転することから、構造物と人物がくっついたまま回転するような違和感を与える。また、この塊が解消された瞬間に人物の表示位置が大幅に変わるなどの違和感の原因となる。加えて、統合シルエット画像を用いた視体積交差法では、ゴールポストモデルがフレーム毎に形成されることになるので3Dモデルのデータサイズが増大する。
【0014】
このような技術課題に対して、特許文献1には視体積交差法で被写体および遮蔽物を統合したモデルを生成すると共に遮蔽物の3Dモデルも独立して生成しておき、その後、統合された3Dモデルから遮蔽物の3Dモデルを減算して除去する技術が開示されている。特許文献1によれば、遮蔽物が被写体を覆い隠す場合であっても欠損のない被写体の3Dシェイプの再構成が可能となる。
【0015】
なお、構造物の3Dモデルを削除すると3D空間内に本来あるべき構造物が存在しなくなるが、自由視点映像を視聴する際には、このような構造物は静的な汎用3DCGモデルなどを用いて配置すればよく、このような実装により視体積交差法由来の構造物モデルを用いるよりも形状が正確な3Dモデルを表示させることが可能になる。
【先行技術文献】
【特許文献】
【0016】
【文献】特開2019-106170号公報
【非特許文献】
【0017】
【文献】Laurentini, A. "The visual hull concept for silhouette based image understanding.", IEEE Transactions on Pattern Analysis and Machine Intelligence, 16, 150-162, (1994).
【文献】J. Kilner, J. Starck, A. Hilton and O. Grau, "Dual-Mode Deformable Models for Free-Viewpoint Video of Sports Events," Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), Montreal, QC, 2007, pp. 177-184.
【文献】H. Sankoh, S. Naito, K. Nonaka, H. Sabirin, J. Chen, "Robust Billboard-based, Free-viewpoint Video Synthesis Algorithm to Overcome Occlusions under Challenging Outdoor Sport Scenes", Proceedings of the 26th ACM international conference on Multimedia, pp. 1724-1732, (2018)
【文献】C. Stauffer and W. E. L. Grimson, "Adaptive background mixture models for real-time tracking," 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 246-252 Vol. 2 (1999).
【文献】D. Bolya, C. Zhou, F. Xiao, Y. J. Lee, "YOLACT: Real-Time Instance Segmentation", The IEEE International Conference on Computer Vision (ICCV), pp. 9157-9166, (2019).
【文献】L. A. Lim and H. Y. Keles, "Learning multi-scale features for foreground segmentation," Pattern Analysis and Applications, pp. 1-12, (2019).
【文献】J. Chen, R. Watanabe, K. Nonaka, T. Konno, H. Sankoh, S. Naito, "A Fast Free-viewpoint Video Synthesis Algorithm for Sports Scenes", 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2019), WeAT17.2, (2019)
【文献】Qiang Yao, Hiroshi Sankoh, Nonaka Keisuke, Sei Naito. "Automatic camera self-calibration for immersive navigation of free viewpoint sports video," 2016 IEEE 18th International Workshop on Multimedia Signal Processing (MMSP), 1-6, 2016.
【発明の概要】
【発明が解決しようとする課題】
【0018】
特許文献1では、遮蔽物のシルエット画像と被写体のシルエット画像とを統合した統合シルエット画像を用いて3Dモデルを生成した後に遮蔽物の3Dモデルを減算する。このように、被写体のみならず遮蔽物までも視体積交差法でモデル化すると、3Dモデルの総生成量が多くなり、計算時間の増大を招く可能性がある。
【0019】
特に、3Dモデルを生成する際に、非特許文献7のような2段階の視体積交差法で高速にモデル化を行う手法を適用すると、1段階目の視体積交差法で生成された粗いボクセルモデルの領域内に、2段階目の視体積交差法で精細なモデルを生成することになる。このとき、1段階目で粗いボクセルモデルの生成量が増えるほど2段階目の細かいボクセルモデルの生成時間も増大する。したがって、遮蔽物の3Dモデルのサイズが大きくなると、そのサイズに比例して全体の処理時間も増大してしまう。
【0020】
加えて、特許文献1は3Dモデルの生成(3Dモデルの形状を得る処理)に関する機構を開示するのみで、遮蔽物を考慮したテクスチャマッピングの方法については開示していない。
【0021】
遮蔽物としてサッカーのゴールポストを例にして説明すると、ゴールポストの背後に存在する人物モデルにはゴールポストのテクスチャが映り込まないようにする必要がある。しかしながら、特許文献1が開示する機構を用いてテクスチャマッピングを行うと、ゴールポストのテクスチャが人物の3Dモデルにマッピングされてしまう。
【0022】
なお、本発明者等による別出願(特願2020-053507号)では、遮蔽物を考慮してテクスチャマッピングを行う際に、遮蔽物を3Dモデル化する工程を経て遮蔽を判定するのに対して、本発明では遮蔽物を3Dモデル化せずにデプスマップを利用して遮蔽を判定する。デプスマップを利用した遮蔽判定では処理時間がモデルの生成量などに依存しない。したがって、遮蔽物が小さい場合には別出願が、遮蔽物が大きい場合には本発明が、それぞれ処理時間の観点で優位であることが期待される。
【0023】
加えて、別出願では遮蔽物を3Dモデル化し、この3Dモデルに基づいて遮蔽情報を計算し、自由視点レンダリング時のテクスチャマッピングを実施する。したがって、遮蔽物を3Dモデル化できないと遮蔽情報を適切に計算できないという技術課題があった。
【0024】
本発明の目的は、上記の技術課題を解決し、遮蔽物を3Dモデル化することなく、オクルージョン部分に欠損が生じない3Dモデルを生成し、かつオクルージョン部分への適切なテクスチャマッピングを実現できる自由視点映像生成方法、装置およびプログラムを提供することにある。
【課題を解決するための手段】
【0025】
上記の目的を達成するために、本発明は、被写体および遮蔽物を視点の異なる複数のカメラで同期撮影したカメラ画像に基づいて自由視点映像を生成する自由視点映像生成装置において、以下の構成を具備した点に特徴がある。
【0026】
(1) カメラごとに遮蔽物デプスマップを取得する手段と、被写体の3Dモデルを生成する手段と、前記3Dモデルに基づいてカメラごとに被写体デプスマップを生成する手段と、前記被写体デプスマップおよび遮蔽物デプスマップに基づいて、前記3Dモデルの各部位が各カメラの視点で可視および不可視のいずれであるかを登録したオクルージョン情報を生成する手段と、前記オクルージョン情報に基づいて、前記3Dモデルの部位ごとに一部のカメラで不可視の部位へ当該部位が可視のカメラで取得したテクスチャをマッピングする手段とを具備した。
【0027】
(2) 3Dモデルを生成する手段は、被写体および遮蔽物の各シルエット画像を用いた視体積交差法により、3D空間に確保した各ボクセルグリッドをモデル化するか否かを判定し、遮蔽物の3Dモデルが存在し得る領域に対応したボクセルグリッドでは前記判定をスキップしてモデル化しないようにした。
【発明の効果】
【0028】
本発明によれば、以下のような効果が達成される。
【0029】
(1) 本発明によれば、遮蔽物を考慮して欠損のない3Dモデル生成を行えることに加えて、遮蔽物が存在することによる遮蔽を考慮したテクスチャマッピングが可能になるので、品質面に優れた自由視点映像を生成することができる。
【0030】
(2) 本発明によれば、被写体および遮蔽物のデプスマップをベースにオクルージョンを生成するので、遮蔽物が少ないカメラにしか映り込まないような場合においても遮蔽を考慮したテクスチャマッピングを行えるようになる。
【0031】
(3) 本発明によれば、遮蔽物の3Dモデルが視体積交差法にて形成されないようにしたので、特に遮蔽物のサイズが大きい場合に視体積交差法の計算処理が増大してしまうことを抑制できる。
【図面の簡単な説明】
【0032】
図1】発明の第1実施形態に係る自由視点映像生成装置の所要部の構成を示した機能ブロック図である。
図2】遮蔽物デプスマップの生成方法を示した図である。
図3】カメラパラメータの例を示した図である。
図4】統合シルエット画像の生成方法を示した図である。
図5】レンダリング方法を模式的に示した図である。
図6】本発明により生成されるレンダリングモデルを従来技術により生成されるレンダリングモデルと比較した図である。
図7】発明の第2実施形態に係る自由視点映像生成装置の所要部の構成を示した機能ブロック図である。
図8】複数の視聴端末へ仮想視点の異なるレンダリング画像を配信する多端末配信システムへの適用例(その1)を示した図である。
図9】複数の視聴端末へ仮想視点の異なるレンダリング画像を配信する多端末配信システムへの適用例(その2)を示した図である。
図10】視体積交差法を説明するための図である。
図11】遮蔽物により被写体シルエット画像に欠損が生じる例を示した図である。
【発明を実施するための形態】
【0033】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の第1実施形態に係る自由視点映像生成装置1の主要部の構成を示した機能ブロック図であり、ここではスポーツシーンとしてサッカーに注目し、サッカーの競技シーンを視点の異なる複数のカメラで同期撮影した映像に基づいて自由視点映像を生成する場合を例にして説明する。なお、本発明はフィールド上に移動しない構造物が存在するスポーツであれば、例えばゴールポストが存在するラグビー、ネットが存在するバレーボールあるいは卓球台が存在する卓球にも同様に適用できる。
【0034】
このような自由視点映像生成装置1は、CPU、メモリ、インタフェースおよびこれらを接続するバス等を備えた汎用のコンピュータやモバイル端末に、後述する各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいは、アプリケーションの一部をハードウェア化またはプログラム化した専用機や単能機としても構成できる。
【0035】
カメラ映像取得部101は、競技フィールドを撮影する複数のカメラCamからカメラ映像を取得する。本実施形態では、フルモデル自由視点を制作することとし、全てのカメラCamが固定されており、試合中に各カメラの画角が変化することは想定しない。
【0036】
被写体シルエット画像生成部102は、フレーム間で動きのある動的オブジェクト(以下、被写体と表現する)のシルエット画像を、例えば背景差分法によりカメラ画像ごとにフレーム単位で生成する。
【0037】
遮蔽物デプスマップ生成部103は、フレーム間で動きの無い静的オブジェクト(以下、遮蔽物と表現する)のデプスマップを、予め定義された汎用の遮蔽物3Dモデルおよびカメラパラメータを用いてカメラごとに生成する。前記カメラパラメータは、遮蔽物に代表される既知の構造物から抽出した各特徴点とカメラ画像から抽出した遮蔽物の各特徴点とのマッチング結果に基づいて推定できる。
【0038】
例えば、サッカーの試合におけるゴールポストがスタジアムの3次元空間中のどこに配置されるかという情報は既知である。ゴールポストのサイズも規格で決定されていることを加味すれば、ゴールポストの角などの特徴点の3次元位置は既知である。各カメラから得られる2D画像中からこのような特徴点を特定し、特定した特徴点と既知の3次元位置とのマッチングを取ることで、カメラの位置や向きを特定(=カメラキャリブレーション)できる。
【0039】
本実施形態では、カメラが固定されているので遮蔽物デプスマップの生成は最初に一度だけ行えば良い。生成された遮蔽物デプスマップは遮蔽物デプスマップDB104に蓄積される。
【0040】
前記汎用の遮蔽物3Dモデルは、.objや.fbxなどの汎用3Dモデル形式として用意できるが、本実施形態ではゴールポストが遮蔽物と見なされるところ、その形状は競技規定等により既知である。したがって、汎用3Dモデルを用意する代わりに、複数の直方体や円柱の3Dモデルを組み合わせてゴールポストを模した遮蔽物3Dモデルを生成しても良い。
【0041】
前記遮蔽物デプスマップ生成部103は、競技場を模した3D空間中の所定位置に前記遮蔽物3Dモデルを配置し、図2に示したように、カメラパラメータを用いて各画素に光線を飛ばし、3Dモデルと衝突する点までの距離を測定することでデプスマップを得ることができる。ここで言うカメラパラメータとは、カメラ行列(内部パラメータ行列)及び外部パラメータ行列のことを指し、例えば、図3のような形式で与えられる。
【0042】
カメラパラメータは手動で取得しても良いし、非特許文献8に開示されるように、オートキャリブレーションにより取得しても良い。非特許文献8のようにコートの形状からオートキャリブレーションを行う手法と組み合わせればキャリブレーションまで含めた全過程を全自動で行うことができる。
【0043】
遮蔽物シルエット画像生成部107は、前記遮蔽物デプスマップに基づいて、遮蔽物が存在する領域を白(255)、デプスマップが存在しない領域を黒(0)にした2値画像などで表現される遮蔽物シルエット画像を生成する。
【0044】
この遮蔽物シルエット画像には、本発明者等による先の特許出願(特願2019-231270号)の発明を適用することで、その輪郭を膨張する等の画像加工を行ってもよい。例えば、3Dモデルを逆投影することによって得られるシルエット画像は、シルエット画像自体が離散的な位置しか表現できないことから、誤差が発生して不正確になる可能性がある。このようなシルエットを用いて再び視体積交差法で3Dモデルを生成すると、実際のゴールポストよりも小さいポストモデルが生成されてしまう可能性がある。このような誤差を軽減する観点で、得られたシルエットの輪郭を膨張させるなどのシルエット画像加工を行ってもよい。
【0045】
シルエット統合部105は、図4に一例を示したように、カメラごとにフレーム単位で遮蔽物シルエット画像と被写体シルエット画像とを統合して統合シルエット画像を生成する。この統合処理は、例えばシルエットの前景が255、背景が0で表現される際に、入力される二つのマスクのいずれかが255であれば被写体を前景とする論理和によって行われる。
【0046】
3Dモデル選択的生成部106は、シルエット統合部105が出力するN枚の統合シルエット画像を用いた視体積交差法により、遮蔽による欠損の無い被写体の3Dボクセルモデルを選択的に生成する。本実施形態では、3Dモデル生成の対象範囲(例えば、スポーツ映像なら当該スポーツが行われるフィールド等)に単位ボクセルサイズMでボクセルグリッドを配置しておき、ボクセルグリッドごとに3Dモデルを形成するか否かが視体積交差法に基づいて判定される。
【0047】
視体積交差法は、N枚のシルエット画像を3次元ワールド座標に投影した際の視錐体の共通部分を次式(1)に基づいて視体積(Visual Hull)VH(I)として獲得する技術である。
【0048】
【数1】
【0049】
上式(1)にて、集合Iは各カメラのシルエット画像の集合であり、Viはi番目のカメラから得られるシルエット画像に基づいて計算される視錐体である。また、通常はN枚全てのカメラの共通部分となる部分がモデル化されるが、N-1枚が共通する場合にモデル化するなど、モデル化が成されるカメラ台数に関しては変更してもよい。視体積が生成されるカメラ台数の閾値を下げることで、少ない枚数のシルエット画像で被写体が欠けた場合にも3Dモデルの復元が可能になる一方、ノイズが多くなるなどの副作用が現れる可能性がある。このカメラ台数の閾値は手動で設定される。
【0050】
統合シルエット画像を用いた視体積交差法により生成される3Dモデルでは、ゴールポスト部分のシルエットが統合できているため、遮蔽物の背後に隠れる被写体について遮蔽による欠損のない3Dモデルを生成することが可能となる。
【0051】
本実施形態では、3Dモデル選択的生成部106が遮蔽物3Dモデルを参照し、遮蔽物3Dモデルが存在する領域に関してはボクセルグリッド内のモデル形成に関する計算を行わないようにしている。すなわち、遮蔽物3Dモデルが存在する領域ではモデル形成処理がスキップされる。
【0052】
3Dモデル選択的生成部106が参照する遮蔽物3Dモデルは、遮蔽物デプスマップ生成部103がデプスマップを生成するために利用した遮蔽物3Dモデルでも良いし、別途に遮蔽物シルエット画像を用いて視体積交差法により計算した遮蔽物3Dモデルでも良い。後者の場合、視体積交差法の計算過程で遮蔽物のボクセルモデルが得られるので、スキップすべきボクセルグリッドの位置が明確になる。また、別途に遮蔽物3Dモデルを求める場合、その計算はカメラごとに最初のフレームで1回だけ行い、その位置を記憶できれば良い。したがって、別途に必要となる計算量は、フレームごとに遮蔽物3Dモデルが存在する領域のモデル形成処理をスキップすることで減ぜられる計算量との比較では極僅かでしかない。
【0053】
ただし、遮蔽物の生成位置によっては、遮蔽物が少ないカメラにしか映り込まないケースが存在する。このような場合、視体積交差法ではそもそも遮蔽物の3Dモデルは生成されず、このスキップ処理自体を行う必要がない。したがって、遮蔽物が映り込むカメラ台数を判定し、視体積交差法のモデル形成に用いるカメラ台数の閾値Nthより少ないカメラにしか遮蔽物が映り込まない場合は、スキップ処理自体を行わなくてもよい。
【0054】
この視体積交差法の処理は、非特許文献8に示されるような2段階の視体積交差法に対して行ってもよい。この場合、2段階の視体積交差法のいずれの段階でも、シルエット統合部で生成した統合シルエット画像を利用して視体積交差法でモデル化を行う。
【0055】
このとき、前記遮蔽物3Dモデルが存在する位置へのボクセル形成をスキップする処理は、粗いボクセル生成の段階で行われることが望ましい。粗いボクセル生成の段階でスキップすることで、細かいボクセル生成判定も行われないため高速計算が可能である。ただし、判定位置の粒度が粗くなることから被写体のモデルの品質に悪影響を及ぼす可能性がある。
【0056】
このとき、例えばマーチンキューブ法などのボクセルモデルをポリゴンモデルに変換する手法を用いてボクセルモデルをポリゴンモデルに変換する機能を追加し、ポリゴンモデルとして3Dモデルを出力する機能を有していても良い。本実施例では、3Dモデル選択的生成部106で視体積交差法を行った後、マーチンキューブ法に基づいてボクセルモデルがポリゴンモデルに変換される。
【0057】
被写体デプスマップ生成部108は、3Dモデル選択的生成部106が生成した被写体の3Dモデルに基づいて各カメラ平面での被写体デプスマップを計算する。デプスマップ計算は、例えばレイキャスティング法などによって行われる。レイキャスティング法では、あるカメラ平面の画素を通る光線を追跡し、いずれかの被写体との衝突を検知した際に、その被写体までの距離を計算することで深度が得られる。
【0058】
オクルージョン情報生成部109は、3Dモデルのオクルージョン情報の計算を行う。オクルージョン情報とは、生成された3Dモデルの各部位が各カメラから可視または遮蔽による不可視のいずれの状態であるかを記録した情報であり、後述する自由視点レンダリング部110は、当該オクルージョン情報を参照することによって、不可視部位のテクスチャマッピングを可視のカメラ映像に基づいて行えるようになる。
【0059】
本実施例では、3Dモデル選択的生成部106により3Dのポリゴンモデルが生成されるため、3Dポリゴンモデルの各頂点部位に関する遮蔽関係がオクルージョン情報として記録される。例えば、N台のカメラが存在する環境であれば、3Dポリゴンモデルの頂点部位ごとにN個のオクルージョン情報が記録される。
【0060】
本実施形態では、頂点部位が可視であれば「1」、不可視であれば「0」などの形式でオクルージョン情報が記録される。これにより各頂点部位のオクルージョン情報を可視/不可視の1bitで表現できる。オクルージョン情報は、遮蔽物に起因した遮蔽のみならず、他の被写体に起因した遮蔽も含めて全ての遮蔽関係が考慮される。
【0061】
例えば、二人の選手A,Bがあるカメラ視点で重なることでオクルージョンが発生し、このとき選手Aが選手Bを覆い隠していれば選手Bに選手Aのテクスチャが映り込まないようにテクスチャをマッピングする必要がある。このような場合、選手Bの不可視となる頂点部位もオクルージョン情報が「0」(不可視)として記録される。
【0062】
ところで、被写体と遮蔽物の3Dモデルが全て生成されていれば、オクルージョン情報は各頂点からカメラ平面を見た際に、その間に他の3Dモデルが挟まるかどうかに基づいて簡単に判定できる。しかしながら、本実施形態では3Dモデル選択的生成部106が遮蔽物の3Dモデルを生成しないことから遮蔽物との遮蔽関係は計算できない。
【0063】
そこで、本実施形態ではオクルージョン情報を得るために遮蔽物のデプスマップを利用する。以下、遮蔽物および被写体の各デプスマップを用いてオクルージョン判定を行う手順を説明する。
【0064】
手順1:遮蔽物のデプスマップと被写体のデプスマップとを比較し、遮蔽物および被写体の両方が存在する領域では、カメラにより近い深度にあるオブジェクトの深度値を記録することによって遮蔽物と被写体とを統合したデプスマップを得る。遮蔽物および被写体のいずれか一方のみしか存在しない領域については、そのまま遮蔽物または被写体のデプスマップ値を反映させる。
【0065】
手順2:被写体の各頂点の深度を、この統合したデプスマップと比較する。統合したデプスマップは、あるカメラから見える最前面の深度が記録されているため、各頂点の深度と最前面の深度とを比較し、その差が小さければオクルージョンが発生していないと判定し、その差が大きければオクルージョンが発生していると判定する。
【0066】
この深度比較を行う際に、遮蔽物の3Dモデルおよび被写体の3Dモデルの各形成位置が接近していると、離散化された遮蔽物と被写体のデプス値が同一になってしまうことで、正常にオクルージョンの判定が行えない可能性がある。
【0067】
特に、少ないメモリ量で高速に判定を行いたい場合、デプスマップの深度値を0-255の間の整数などの少ない値(256パターン/1バイト)で離散化することが考えられるが、競技空間が広いと、その深度値が1だけ変化した際に変わる深さも大きくなってしまい、デプスマップを生成する際に深度値を丸めた結果、同一の値となってしまうことで正しい前後判定が行えないケースなどが起こり得る。
【0068】
このような課題を解決するために、本実施形態では、ゴールポストが存在する付近の深度が、より細かい粒度で扱われるようにデプスマップを構成している。この場合、ゴールポスト及び被写体のデプスマップ共に、生成時にゴールポスト付近をより細かく扱うという事前情報を有しており、それに基づきデプスマップを生成するものとする。
【0069】
自由視点レンダリング部110は、3Dモデル選択的生成部106が出力する被写体の3Dモデル、オクルージョン情報生成部109が生成したオクルージョン情報および各カメラ画像(テクスチャ)を用いて、任意の仮想視点pvから見た合成映像をレンダリングする。
【0070】
図5は、自由視点レンダリング部110によるレンダリング方法を模式的に示した図である。本実施形態では、遮蔽物を含まない実質的に被写体の3Dモデルの各部位(本実施形態では、ポリゴン)の可視/不可視をオクルージョン情報に基づいてカメラごとに判断し、一部のカメラ画像で不可視の部位を他の可視のカメラ画像を用いてテクスチャマッピングするようにしている。
【0071】
本実施形態では、初めに要求された仮想視点pvに最近傍の2台のカメラCam1,Cam2を選択し、各カメラ画像Ic1,Ic2を3DモデルMjのポリゴンgにマッピングする。その前処理として、本実施形態ではポリゴンgを構成する全ての頂点のオクルージョン情報を用いて当該ポリゴンgの可視判定を行う。ポリゴンgが三角ポリゴンであれば、3つの頂点の各オクルージョン情報に基づいて可視判定が行われる。
【0072】
例えば、カメラCam1に対するポリゴンgの可視判定フラグをgc1と表現するとき、三角ポリゴンgを構成する3頂点の全てが可視であればフラグgc1は可視、3頂点のうちいずれか一つでも不可視であればフラグgc1は不可視とされる。このようにして各ポリゴンの可視判定の結果が得られると、以下のようにケース別でテクスチャマッピングが行われる。
【0073】
ケース1.フラグgc1,gc2がいずれも可視の場合:
次式(2)によりアルファブレンドによるマッピングが行われる。
【0074】
【数2】
【0075】
ここで、texturec1(g)、texturec2(g)はポリゴンgがカメラCam1,Cam2において対応するカメラ画像領域を示し、texture(g)は当該ポリゴンにマッピングされるテクスチャを示す。また、アルファブレンドの比率aは仮想視点pvと各カメラ視点pc1,pc2との距離(アングル)の比に応じて算出される。
【0076】
ケース2.フラグgc1,gc2のいずれかのみが可視の場合:
可視であるカメラのテクスチャのみを用いてポリゴンgがレンダリングされる。すなわち上式(2)において、可視であるカメラのtextureci(g)に対応するアルファブレンド比率aの値を1とする。その他の形態としては、仮想視点pvからみて次に近いカメラCam3を、カメラCam1,Cam2うち不可視であるカメラの代わりとして参照する。この際、テクスチャのアルファブレンドの方法は上式(2)と同様である。
【0077】
ケース3.フラグgc1,gc2の全てが不可視である場合:
仮想視点pvからみて次に近いカメラCam3のテクスチャを用いてレンダリングする。カメラCam3も不可視である場合は、さらに次に近いカメラCam4…といったように、距離の近いカメラから順にカメラテクスチャを参照する。この際、順次参照するカメラの台数を2以上として、上式(2)に則ってブレンディング処理を行っても良い。
【0078】
上記の例では、初期参照する近傍カメラ台数を2台としているが、ユーザ設定により変更しても良い。その際、初期参照カメラ台数bに応じて、上式(2)はb台のカメラの線形和(重みの総和が1)とする拡張が行われる。また、全てのカメラにおいて不可視となったポリゴンについてはテクスチャがマッピングされない。
【0079】
なお、自由視点レンダリング部110における遮蔽物3Dモデルの表示は、予め用意された汎用3Dモデルなどを入力として、それを配置することで行われる。これは、ゴールポストなどの3Dモデルは一般的に時刻と共に大きく変化することがないことに加え、視体積交差法由来のモデルはあくまでN台のカメラから合成することで生成された3Dモデルのため、品質面でも事前に用意されたものに劣る可能性が高いからである。
【0080】
図6は、本実施形態により生成されるレンダリングモデル[同図(b)]を従来技術により生成されるレンダリング画像[同図(a)]と比較した図である。
【0081】
従来技術では、ゴールポストにより遮蔽されるシルエット画像の左脚部分に欠損が生じているのに対して、本実施形態により生成されたレンダリングモデルでは左脚部分にテクスチャが正確にマッピングされており、欠損や違和感のない正確な自由視点映像が再現されていることが判る。
【0082】
なお、上記の第1実施形態では遮蔽物デプスマップ生成部103を設け、遮蔽物3Dモデルに基づいて遮蔽物デプスマップを生成するものとして説明した。しかしながら、本発明はこれのみに限定されるものではなく、図7に示した第2実施形態のように、遮蔽物デプスマップ生成部103を省略し、予め用意した遮蔽物デプスマップを用いて遮蔽物シルエット画像やオクルージョン情報を生成するようにしても良い。
【0083】
図8,9は、複数の視聴端末へ仮想視点の異なるレンダリング画像を配信する多端末配信システムへの適用例を示した図である。
【0084】
一般に、3Dモデルの生成やオクルージョン情報は各フレームに対して1回計算されればよいため、ハイエンドなPCなどで高速に計算を行って保存しておく。そして、この3Dモデルやオクルージョン情報を、自由視点を視聴したい視聴端末に配信し、各視聴端末にレンダリング部を配置するような構成とすることで、ハイエンドなPCが1台と、低スペックな複数の視聴端末とで多端末配信を実現できる。
【0085】
3Dモデルの遮蔽関係自体は、自由視点レンダリング部110に入力される3Dモデルを用いて当該レンダリング部で改めて計算することも可能である。しかしながら、事前にオクルージョン情報という形で保存しておくことで、レンダリング部はオクルージョン情報を参照するだけで遮蔽関係を読み解くことが可能になることから、自由視点レンダリング部110の処理負荷を低減できる効果が期待される。
【0086】
図8の例では、レンダリングに特化した複数の専用PCを用意し、各視聴端末からの視聴要求に応答して視点の異なる自由視点映像をレンダリングして配信している。
【0087】
図9の例では、各視聴端末に自由視点レンダリング部100を実装し、視聴端末ごとにレンダリングが実行されるようにしている。
【符号の説明】
【0088】
1…自由視点映像生成装置,101…カメラ映像取得部,102…被写体シルエット画像生成部,103…遮蔽物デプスマップ生成部,104…遮蔽物デプスマップDB,105…シルエット統合部,106…3Dモデル選択的生成部,107…遮蔽物シルエット画像生成部,108…被写体デプスマップ生成部,109…オクルージョン情報生成部,110…自由視点レンダリング部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11