IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7165254自由視点映像のリプレイ映像を再生するシステムおよび方法
<>
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図1
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図2
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図3
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図4
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図5
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図6
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図7
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図8
  • 特許-自由視点映像のリプレイ映像を再生するシステムおよび方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-25
(45)【発行日】2022-11-02
(54)【発明の名称】自由視点映像のリプレイ映像を再生するシステムおよび方法
(51)【国際特許分類】
   G06T 19/00 20110101AFI20221026BHJP
   G06T 15/20 20110101ALI20221026BHJP
   H04N 21/431 20110101ALI20221026BHJP
   H04N 21/435 20110101ALI20221026BHJP
【FI】
G06T19/00 A
G06T15/20 500
H04N21/431
H04N21/435
【請求項の数】 14
(21)【出願番号】P 2021206217
(22)【出願日】2021-12-20
(62)【分割の表示】P 2018030991の分割
【原出願日】2018-02-23
(65)【公開番号】P2022036123
(43)【公開日】2022-03-04
【審査請求日】2021-12-20
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】渡邊 良亮
(72)【発明者】
【氏名】野中 敬介
【審査官】佐野 潤一
(56)【参考文献】
【文献】特開2017-212593(JP,A)
【文献】特開2012-109719(JP,A)
【文献】特開2015-225529(JP,A)
【文献】特開2004-033703(JP,A)
【文献】特開2001-300131(JP,A)
【文献】特開2015-114716(JP,A)
【文献】特開2007-150747(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 15/00-19/00
H04N 7/18
H04N 21/00
H04N 13/00
G09G 5/00
(57)【特許請求の範囲】
【請求項1】
視聴端末と自由視点映像生成装置とをネットワークで接続して構成され、自由視点映像のリプレイ映像を再生するシステムにおいて、
視聴端末が、
自由視点映像の再生を要求する手段と、
再生中の自由視点映像についてリプレイ映像の記録を要求する手段とを具備し、
前記自由視点映像生成装置が、
前記再生の要求に応答して、複数のカメラ映像および仮想視点の視点情報に基づいて自由視点映像を生成する手段と、
前記記録の要求に応答して、自由視点映像の生成プロセスにおいて、リプレイ映像の再生時刻ごとに仮想視点が記述されたリプレイ用フォーマットを記録する手段と、
記録したリプレイ用フォーマットを視聴端末へ転送する手段とを具備し、
前記視聴端末が更に、
前記リプレイ用フォーマットに基づいてリプレイに必要な情報を取得する手段と、
前記リプレイ用フォーマットおよび取得した情報に基づいてレンダリングを実行し、リプレイ映像を再生する手段とを具備し、
前記リプレイに必要な情報が、背景3Dモデルおよび当該背景3Dモデル上にオブジェクトをレンダリングするための空間情報であることを特徴とする自由視点映像のリプレイ映像を再生するシステム。
【請求項2】
前記リプレイ用フォーマットがヘッダ情報および時系列情報を含み、
前記時系列情報は、所定の周期で記録される複数の時系列情報を連結して構成され、
各時系列情報に当該時系列情報に基づくリプレイ映像の再生位置に固有の再生時刻IDが記録されたことを特徴とする請求項1に記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項3】
前記生成プロセスが自由視点映像の背景3Dモデルの生成プロセスを含み、
前記リプレイ用フォーマットには前記自由視点映像のIDが記録され、
前記取得する手段は、前記自由視点映像のIDに基づいて前記背景3Dモデルを取得することを特徴とする請求項1または2に記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項4】
前記生成プロセスが視点情報の生成プロセスを含み、
前記リプレイ用フォーマットに前記視点情報が記録されることを特徴とする請求項1ないし3のいずれかに記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項5】
前記自由視点映像を生成する手段が、ビルボード方式の自由視点技術を採用したことを特徴とする請求項1ないし4のいずれかに記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項6】
前記生成プロセスが仮想視点で見えるオブジェクトを識別するプロセスを含み、
前記リプレイ用フォーマットに前記見えるオブジェクトに紐付いた総括IDが記録され、
前記取得する手段は、前記総括IDに基づいて各オブジェクトのレンダリング情報を取得することを特徴とする請求項5に記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項7】
前記生成プロセスが各オブジェクトのマスク画像を生成するプロセスを含み、
前記マスク画像が前記総括IDに紐付けられ、
前記取得する手段は、前記総括IDに基づいて各オブジェクトのマスク画像を取得することを特徴とする請求項6に記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項8】
前記生成プロセスが各オブジェクトのテクスチャをカメラ映像から抽出するプロセスを含み、
前記テクスチャが前記総括IDに紐付けられ、
前記取得する手段は、前記総括IDに基づいて各オブジェクトのテクスチャを取得することを特徴とする請求項6に記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項9】
前記自由視点映像を生成する手段が、逆投影面を用いたフルモデル方式の自由視点技術を採用したことを特徴とする請求項1ないし4のいずれかに記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項10】
前記生成プロセスが、オブジェクトの位置に仮想視点と正対する複数の逆投影面を並べて当該オブジェクトのマスク画像を投影し、当該逆投影面ごとに3Dモデル化を行って3Dモデルを復元するプロセスを含み、
前記リプレイ用フォーマットに、前記3Dモデルが存在する逆投影面のインデックスを記録し、
前記取得する手段は、前記逆投影面のインデックスに基づいてリプレイに必要な情報を取得することを特徴とする請求項9に記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項11】
前記自由視点映像を生成する手段およびリプレイ用フォーマットを記録する手段がクラウド上のサーバに実装され、
前記リプレイに必要な情報を取得する手段およびリプレイ映像を再生する手段がリプレイ映像の視聴端末に実装され、
前記リプレイ用フォーマットがサーバから視聴端末へ転送されて当該視聴端末上に蓄積されることを特徴とする請求項1ないし10のいずれかに記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項12】
前記自由視点映像を生成する手段、リプレイ用フォーマットを記録する手段および前記リプレイに必要な情報を取得する手段がクラウド上のサーバに実装され、
前記リプレイ映像を再生する手段が視聴端末に実装され、
前記リプレイ用フォーマットがサーバから視聴端末へ転送されて当該視聴端末上に蓄積されることを特徴とする請求項1ないし10のいずれかに記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項13】
前記リプレイ用フォーマットを記録する手段は、前記リプレイ用フォーマットの記録を、視聴端末からの記録開始要求に応答して開始し、記録終了要求に応答して終了することを特徴とする請求項11または12に記載の自由視点映像のリプレイ映像を再生するシステム。
【請求項14】
視聴端末と自由視点映像生成装置とをネットワークで接続して構成され、自由視点映像のリプレイ映像を再生する方法において、
視聴端末が、
自由視点映像の再生を要求し、
再生中の自由視点映像についてリプレイ映像の記録を要求し、
前記自由視点映像生成装置が、
前記再生の要求に応答して、複数のカメラ映像および仮想視点の視点情報に基づいて自由視点映像を生成し、
前記記録の要求に応答して、自由視点映像の生成プロセスにおいて、リプレイ映像の再生時刻ごとに仮想視点が記述されたリプレイ用フォーマットを記録し、
記録したリプレイ用フォーマットを視聴端末へ転送し、
前記視聴端末が更に、
前記リプレイ用フォーマットに基づいてリプレイに必要な情報を取得し、
前記リプレイ用フォーマットおよび取得した情報に基づきレンダリングを実行してリプレイ映像を再生し、
前記リプレイに必要な情報が、背景3Dモデルおよび当該背景3Dモデル上にオブジェクトをレンダリングするための空間情報であることを特徴とする自由視点映像のリプレイ映像を再生する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自由視点映像のリプレイ映像を再生するシステムおよび方法に係り、特に、自由視点映像のリプレイ映像の構築に係る負荷を軽減することで、処理能力に劣る視聴端末でも自由視点映像のリプレイ映像を再生できるようにするシステムおよび方法に関する。
【背景技術】
【0002】
複数のカメラから撮影した映像に基づいて、実際にはカメラが置かれていない仮想視点からの映像視聴を可能とする技術として、特許文献1や非特許文献1のような自由視点映像技術が提案されてきた。スポーツの競技場などに複数のカメラを配置し、これら複数のカメラからの映像を基に自由視点映像を生成することによって、ユーザは自分が観たい任意の仮想視点からの映像視聴を楽しむことが可能である。
【0003】
このような自由視点映像技術を用いて、ユーザが選択した仮想視点からの映像を記録することを考えた場合、表示されている画面をキャプチャし、例えば非特許文献2に記載されるH.264 (MPEG-4 AVC) のような既存の動画フォーマットで動画ファイルにして保存を行うことが考えられる。こうして記録された動画ファイルはストレージなどに保存され、再び見たいときに再生を行ったり、保存されたファイルを他ユーザへ送ることで他ユーザとの動画の共有を行ったりすることができる。
【0004】
また、直接動画を記録せずに、ユーザが選択した特定の視点からの映像を記録し、後から再生する例としては、特許文献2に示されているようなゲーム装置及びゲームのリプレイ方法がある。この発明は、プレイヤのゲーム操作に関する履歴をリプレイデータとして保存し、後にリプレイデータに基づいてプレイヤのプレイ画像を再現するものである。
【先行技術文献】
【特許文献】
【0005】
【文献】特願2017-167472号
【文献】特開2010-264173号公報
【非特許文献】
【0006】
【文献】T. Koyama, I. Kitahara and Y. ohta, "Live Mixed-Reality 3D Video in Soccer Stadium"In Proc of IEEE/ACM Conference on ISMAR, pp. 178-187(2003)
【文献】ITU-T Recommendation H.264 "Advanced video coding for generic audiovisual services, "2003年5月
【発明の概要】
【発明が解決しようとする課題】
【0007】
自由視点映像技術を用いることで、ユーザは専用のコントローラやスマートフォン、タブレットの画面のタッチ操作に基づいて自由に視点を選択し、任意の視点からの映像視聴を楽しむことが可能となった。通常放送されている地上波等のテレビの映像とは異なり、自由視点映像ではユーザ各々が自由に視点を選択して動かすことが可能であることから、同じ自由視点映像であっても各ユーザの見ている映像はその視点位置や視点の動かし方によって異なってくる。したがって、このようなユーザが見ている視点からの映像を記録することで、オリジナルな映像コンテンツを生み出すことが可能である。
【0008】
自由視点映像技術が普及した未来を考えたときに、当然このような特定の視点からの映像はインターネットを介して交換され、SNSなどを介して評価やコメントが付くなど、新しい楽しみ方が誕生すると考えられる。
【0009】
このように、ある特定の端末にて録画した、特定の視点からの映像(以下、リプレイ映像)を後からもう一度再生したり、他の端末で再生したり、多数のユーザで共有したりしたいという需要に対し、非特許文献2に記載されるような既存の映像符号化フォーマットで保存を行い、作成した動画をやり取りすることは可能であるが、動画の容量が大きくなってしまうという課題が存在していた。
【0010】
特に、自由視点映像はユーザがそれぞれの視点からの映像を生成することができ、一つの自由視点映像から膨大な種類の動画コンテンツを生み出すことが可能であることから、このような問題は顕著に現れるものと考えられる。
【0011】
また、視点の動きがわかれば、自由視点映像生成装置に視点の情報を渡すことで特定の視点からの画像を得ることができる。例えば特許文献2に示されているようなゲームのリプレイ機能のように、予め記録された視点の情報を基に、与えられた視点からの映像を再計算して表示を行うことは可能である。
【0012】
しかしながら、ゲームと異なり自由視点映像では最初に複数台のカメラの映像から3次元空間を再構成する必要があり、この3D空間を再構成するための計算コストは非常に大きい。特に、多数のユーザが同時にリプレイ映像の再構成をサーバに依頼するようなケースを考えた場合、遅延なくリプレイ映像を再構成することは困難である。
【0013】
本発明の目的は、上記の技術課題を解決し、自由視点映像のリプレイ映像の構築に係る負荷を軽減し、処理能力に劣る視聴端末でも自由視点映像のリプレイ映像を再生できるようにするシステムおよび方法を提供することにある。
【課題を解決するための手段】
【0014】
上記の目的を達成するために、本発明は、視聴端末と自由視点映像生成装置とをネットワークで接続して構成され、自由視点映像のリプレイ映像を再生するシステムにおいて、以下の構成を具備した点に特徴がある。
【0015】
(1) 視聴端末が、自由視点映像の再生を要求する手段と、再生中の自由視点映像についてリプレイ映像の記録を要求する手段とを具備し、
前記自由視点映像生成装置が、前記再生の要求に応答して、複数のカメラ映像および仮想視点の視点情報に基づいて自由視点映像を生成する手段と、自由視点映像の生成プロセスにおいて、リプレイ映像の再生時刻ごとに仮想視点が記述されたリプレイ用フォーマットを記録する手段と、記録したリプレイ用フォーマットを視聴端末へ転送する手段とを具備し、
前記視聴端末が更に、前記リプレイ用フォーマットに基づいてリプレイに必要な情報を取得する手段と、前記リプレイ用フォーマットおよび取得した情報に基づいてリプレイ映像を再生する手段とを具備し、前記リプレイに必要な情報が、背景3Dモデルおよび当該背景3Dモデル上にオブジェクトをレンダリングするための空間情報を含むようにした。
【0016】
(2) 前記空間情報が、各オブジェクトのマスク画像および各オブジェクトのモデルを配置する位置情報を含むようにした。
【0017】
(3) 自由視点映像を生成する手段およびリプレイ用フォーマットを記録する手段がクラウド上のサーバに実装され、リプレイに必要な情報を取得する手段およびリプレイ映像を再生する手段がリプレイ映像の視聴端末に実装され、リプレイ用フォーマットがサーバから視聴端末へ転送されて当該視聴端末上に蓄積されるようにした。
【発明の効果】
【0018】
本発明によれば、以下のような効果が達成される。
【0019】
(1) 自由視点映像の生成プロセスにおいて、そのリプレイ映像の再構成に流用できる情報の識別子およびリプレイ映像の再構成に必要なパラメータ等の情報がリプレイ用フォーマットに記録される。したがって、リプレイ映像を再構成する際は、リプレイ用フォーマットに記録された識別情報に基づいてリプレイ映像の再構成に流用できる情報を取得し、またリプレイ用フォーマットに記録された情報をパラメータとすることで、リプレイ映像を軽負荷で再生できるようになる。
【0020】
(2) リプレイ映像の再構成に必要な情報として、背景3Dモデルおよび当該背景3Dモデル上にオブジェクトをレンダリングするための空間情報を取得するので、リプレイ映像を再構成する際の処理負荷が軽減される。
【0021】
(3) 空間情報が、各オブジェクトのマスク画像および各オブジェクトのモデルを配置する位置情報を含むので、リプレイ映像を再構成する際に、処理負荷の高いこれらの情報を得るための計算が不要になる。
【0022】
(4) 自由視点映像を生成する手段およびリプレイ用フォーマットを記録する手段をクラウド上のサーバに実装し、リプレイに必要な情報を取得する手段およびリプレイ映像を再生する手段をリプレイ映像の視聴端末に実装すれば、一般的に処理能力の高いサーバに処理負荷の高い計算を負わせることができる。したがって、一般的に処理能力の低い視聴端末でも自由視点映像のリプレイが可能になる。
【図面の簡単な説明】
【0023】
図1】本発明の一実施形態に係る自由視点映像配信システムの主要部の構成を示したブロック図である。
図2】仮想視点Pに応じてポリゴンの設置対象となるオブジェクトを切り換える方法を説明するための図である。
図3】リプレイ用フォーマットの第1の例を示した図である。
図4】視点情報の定義を説明するための図である。
図5】リプレイ用フォーマットの構築からリプレイ映像の再生までの手順を示したシーケンスフローである。
図6】リプレイ用フォーマットの第2の例を示した図である。
図7】リプレイ用フォーマットの第3の例を示した図である。
図8】本発明の第2実施形態における自由視点映像の生成方法を示した図である。
図9】リプレイ用フォーマットの第3の例を示した図である。
【発明を実施するための形態】
【0024】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の一実施形態に係る自由視点映像配信システムの主要部の構成を示したブロック図であり、ここでは、本発明の説明に不要な構成は図示が省略されている。
【0025】
本発明の自由視点映像配信システムは、競技場などに配置されて競技者などのオブジェクトを異なる視点で撮影する複数台のカメラcam、各カメラcamで撮影した映像およびカメラパラメータを記憶するコンテンツサーバ1、複数のカメラ映像、カメラパラメータおよび視点情報に基づいて自由視点映像を生成する自由視点映像生成装置2、および端末ユーザUの操作に応じて仮想視点Pの情報(視点情報)を自由視点映像生成装置2へ提供し、自由視点映像生成装置2が生成した自由視点映像を取得して再生する視聴端末3を主要な構成としている。
【0026】
前記コンテンツサーバ1、自由視点映像生成装置2および視聴端末3は、汎用のコンピュータに後述する各機能を実現するアプリケーション(プログラム)を実装して構成しても良いし、あるいはアプリケーションの一部がハードウェア化またはROM化された専用機や単能機として構成しても良い。
【0027】
前記コンテンツサーバ1では、撮影されたカメラ映像およびそのカメラパラメータを含むコンテンツが固有のIDで管理されている。図示の例では、サッカーの自由視点コンテンツにはID1、バレーの自由視点コンテンツにはID2、柔道の自由視点コンテンツにはID3が、それぞれ割り当てられている。
【0028】
自由視点映像生成装置2は、自由視点映像生成部201およびフォーマット記録部202を含み、これらの機能をクラウド上に置かれたサーバに実装することで、自由視点映像生成用サーバとして構成することができる。
【0029】
前記自由視点映像生成部201は、視点の異なる複数のカメラ映像、各カメラパラメータおよび視聴端末3において端末ユーザUが選択した視点情報を、公知の自由視点技術に適用することで自由視点映像を生成する。
【0030】
本発明の第1実施形態では、非特許文献1と同様に、3次元空間中のオブジェクトを1枚の長方形ポリゴンで近似し、ユーザが選択する仮想視点Pに応じて、複数のカメラ映像から獲得したテクスチャ情報を長方形ポリゴンに適切にマッピングするビルボード方式を採用した自由視点技術への適用例について説明する。
【0031】
自由視点映像生成部201は、複数のカメラ映像からオブジェクトを抽出し、その位置を推定する。サッカーの試合の自由視点映像であれば、スタジアム上に登場している選手等の人物がオブジェクトとなる。なお、オブジェクト以外のスタジアムのピッチや観客席などの背景は、プリセットとして予め3Dモデルが手動で作成されて存在しているものとする。
【0032】
自由視点映像生成部201は更に、図2に示したように、選択されている仮想視点Pに応じて、各オブジェクトが存在すると推定される位置に、前記仮想視点Pの視線方向と正対する1枚の長方形ポリゴンを設置し、当該長方形ポリゴンに、前記仮想視点Pと視線方向の角度が最も近い実カメラcamのカメラ映像から抽出した当該オブジェクトのテクスチャを表示する。
【0033】
図2の例では、仮想視点Pの視線角度が実カメラcam3の視線角度に最も近いので、実カメラcam3のカメラ映像から対象オブジェクトのテクスチャを切り出して長方形ポリゴンに張り付ける。このテクスチャの表示を行う際には、対象オブジェクトの形状を表現した二値のマスク画像などを用いることで、長方形ポリゴンのうち対象オブジェクトの存在する部分のみが表示され、他の部分は透過される。そして、仮想視点Pが移動すると、この移動に応じて長方形ポリゴンも回転させ、常に仮想視点Pと正対させることで仮想視点Pからの視聴を違和感なく実現できる。
【0034】
フォーマット記録部202は、前記自由視点映像生成部201が生成した自由視点映像を、後に視聴端末3が少ない計算負荷でリプレイできるようにするための各種パラメータを、前記自由視点映像生成部201が自由視点映像を生成するプロセスにおいて取得し、リプレイ用フォーマットに記録する。
【0035】
前記リプレイ用フォーマットの記録は、自由視点映像を再生中の視聴端末3による記録開始要求RQ2に応答して開始され、記録終了要求RQ3に応答して終了する。完成したリプレイ用フォーマットは、前記各要求RQ2,RQ3を送信した視聴端末3へ転送されてストレージ301上で管理される。
【0036】
前記フォーマット記録部202において、自由視点情報記録部202aは、端末ユーザUが視聴端末3を操作することで選択する仮想視点Pの位置、向き、姿勢を含む視点情報を前記リプレイ用フォーマットに記録する。
【0037】
空間情報記録部202bは、選択されている仮想視点Pから見える画像を視聴端末3がレンダリングする際に、その処理負荷を減らすことができる空間情報を記録する。本実施形態では、前記視点情報に基づいて当該視点から見えているオブジェクトを特定し、見えているオブジェクトのみをレンダリングして3次元空間に再構成することを考える。
【0038】
また、レンダリング処理において処理負荷の高いパラメータ、具体的には各オブジェクトを表示するビルボードの位置および各ビルボードにテクスチャを張り付ける際に、その一部をオブジェクト形状に合わせて透過させるためのマスク画像については、視聴端末3がこれらのパラメータを自由視点映像生成装置2から取得するための識別子のみが記録される。
【0039】
図2の場合、背景モデル上に4つのオブジェクト(ID1~ID4)が立っているが、選択されている仮想視点Pから見えるオブジェクトは2つ(ID3,ID4)のみである。また、仮想視点Pの視線方向の角度は実カメラcam3の角度に近いので、オブジェクトID3,ID4の位置に設置するビルボードには、実カメラcam3のカメラ映像から取得したテクスチャが張り付けられることを想定する。
【0040】
このような場合、本実施形態では2つのオブジェクトのみを3次元空間に再構成するものとし、これらのビルボード位置、テクスチャおよびマスク画像のみを取得する。なお、オブジェクト、そのビルボード位置、当該ビルボードに張り付けるテクスチャおよびその実カメラならびに当該テクスチャをマスキングするためのマスク画像は相互に紐付けることができるので、これら全てをリプレイ用フォーマットに記録することは冗長となる。
【0041】
そこで、本実施形態では後に詳述する図3に示したように、空間情報としては「カメラ番号」,「テクスチャ番号」および「ビルボード位置」のみを記録し、マスク画像の識別子は「テクスチャ番号」で総括している。なお、各ビルボードの位置に関しても、自由視点映像生成装置2がテクスチャ番号と紐付けて記録しているのであれば、必ずしも記録する必要はない。
【0042】
視聴端末3は、映像を再生できるテレビに専用のコントローラを接続して視点を選択する機能、スマホやタブレットのディスプレイに設けられたタッチスクリーンに対するタッチ操作やスワイプ操作等で視点を選択する機能、あるいは加速度センサを備えたVR端末などで自由視点映像を視聴し、ユーザの動きに合わせて視点を選択する機能で実現できる。
【0043】
前記視聴端末3において、ストレージ301には、前記自由視点映像生成装置2からネットワーク経由で送信されたリプレイ用フォーマットおよび各種の空間情報が蓄積される。ユーザ操作検知部302は、端末ユーザUによる仮想視点の操作RQ1、リプレイ用フォーマットの記録開始要求RQ2および記録終了要求RQ3ならびにリプレイ要求RQ4の各操作を検知して、ネットワーク経由で自由視点映像生成装置2へ送信する。
【0044】
レンダリング情報取得部303は、前記リプレイ要求RQ4に応答して、前記ストレージ301に蓄積されているリプレイ用フォーマットを参照し、当該フォーマットがどの自由視点映像のものなのかを特定する。そして、特定した自由視点映像の背景3Dモデルを自由視点映像生成装置2から取得し、更にその背景3Dモデルに基づいて、各フレームの再構成に必要なテクスチャ、マスク画像、ビルボードの位置などの空間情報を自由視点映像生成装置2から取得する。取得した各情報はストレージ301に一時記憶される。
【0045】
前記リプレイ映像再生部304は、前記リプレイ用フォーマットおよび前記自由視点映像生成装置2から取得した空間情報に基づいてレンダリングを実行し、前記自由視点映像のリプレイ映像を再生する。
【0046】
本実施例では、自由視点映像のレンダリングを視聴端末3で行うことになるが、視聴端末3では、視点情報によって得られる仮想視点Pからの映像をレンダリングする処理が必要となる。すなわち、取得した背景3Dモデルの各ビルボードの立ち位置に、仮想視点Pに正対するような形でビルボードを立て、そこに取得したテクスチャをマスク画像によりマスクして張り付けることで3D空間を再構成する。
【0047】
一方、複数のカメラ映像からビルボードの立ち位置を推定し、マスク画像を生成するといったコストの高い処理は行わないことから、近年のスマートフォン等のスペックを鑑みれば、視聴端末側で上記のレンダリングを行うことは十分に可能である。
【0048】
本実施形態によれば、レンダリングを自由視点映像生成装置2において行う場合と比較べて、背景3Dモデルの伝送が一度で済むのみならず、その他のフレームでも、見えているオブジェクトの空間情報のみを伝送すれば良い。例えば、サッカーの映像などを考えたときに、全体の絵に対して選手の存在する領域は非常に小さい場合が多く、毎回レンダリング後の映像を送るよりも、テクスチャやマスク画像だけを伝送した方がデータ量としては軽量で済むケースが多い。
【0049】
また、各テクスチャは一度伝送された後、視聴端末において保存され続けるようにすれば、一度リプレイ再構成を行った視聴端末3にはテクスチャが残り続けるため、既にダウンロードされているテクスチャ番号については再度ダウンロードする必要がなく、ネットワークがなくてもリプレイ映像を再構成することが可能になる。
【0050】
図3は、前記リプレイ用フォーマットの第1の例を示した図であり、ヘッダ情報と時系列情報とで構成されている。
【0051】
ヘッダ情報において、「自由視点映像ID」は、各リプレイ用フォーマットを一意に識別するために用いられる。この自由視点映像IDは一度記録されればよいことから、フォーマットのヘッダに書き込まれる情報となる。「合計フレーム数」は、当該リプレイ用フォーマットに基づいて再構成されるリプレイ映像のフレーム数であり、再生時間に対応している。
【0052】
時系列情報はフレームごとに生成され、「再生時刻識別子」には、リプレイ映像における各フレームの位置(時刻)を特定する情報が記録される。図示の例では、2フレーム分の視点時系列情報(21,22)のみが示されているが、「合計フレーム数」が200であれば、200フレーム分の時系列情報が連結されることになる。
【0053】
例えば、毎秒30フレームで1分間の自由視点映像に関して、その開始から10秒のタイミングで記録開始要求RQ2が検知され、20秒のタイミングで記録終了要求RQ3が検知されると、時系列情報は、「再生時刻識別子」が300の情報から600の情報までを時系列で連結して構成される。なお、「再生時刻識別子」はフレーム番号に限定されるものではなく、絶対的な時刻情報または相対的な時間情報であっても良い。このように、本実施形態では各フレームをリプレイするための情報が時系列で管理されるので、コンテンツサーバに記録されている音声が時刻情報で管理されていれば、時刻ベースで映像及び音声を簡単に同期再生できるようになる。
【0054】
また、本実施形態では仮想視点Pを特定する情報として、図4に示したように、視点の3次元位置座標を表す「視点位置E(ex,ey,ez)」、視点の方向(視線)を表す「視線方向D(dx,dy,dz)」および視点の姿勢情報を表す「姿勢方向U(ux,uy,uz)」を採用し、視点情報が3つの3次元ベクトルの計9つのパラメータで特定される。
【0055】
なお「姿勢方向」とは、ある視点位置からある方向を見ている場合に、表示に用いるスクリーンのどちらが上になるのかを示す情報である。視点位置および視線方向が同じであっても、直立した状態で観た映像と、逆立ちした状態で観た映像とでは映像が上下反転するので、どちらが上になるのかという姿勢情報があって初めて、リプレイ動画の再構成が可能となる。
【0056】
前記「カメラ番号」は、仮想視点Pと方向が最も近い実カメラcamの識別子である。「テクスチャ番号」は、現在の仮想視点Pにおいて見えているオブジェクトのテクスチャの番号である。「ビルボード位置」は、現在の仮想視点において見えているオブジェクトをモデル化するビルボードの座標位置と当該ビルボードに張り付けるテクスチャの識別子との関係を表している。本実施形態では、このような時系列情報が所定の周期、例えばフレーム単位で構築され、前記「再生時刻識別子」で管理されて順次に連結される。
【0057】
図5は、前記リプレイ用フォーマットの構築から当該リプレイ用フォーマットに基づくリプレイ映像の再生までの手順を示したシーケンスフローである。
【0058】
時刻t1では、視聴端末3から自由視点映像生成装置2へ映像の視聴要求RQ1が送信される。自由視点映像生成装置2は、前記視聴要求RQ1に応答して、時刻t2において映像コンテンツの配信を開始する。時刻t3では、前記映像コンテンツを取得した視聴端末3において前記映像が再生される。
【0059】
時刻t4において、端末ユーザUが視聴端末3に対して自由視点映像を視聴するための視点操作を行い、これが前記ユーザ操作検知部302により検知されると、時刻t5では、端末ユーザUが選択した仮想視点Pを特定する視点情報が視聴端末3から自由視点映像生成装置2へ転送される。自由視点映像生成装置2では、時刻t6において、自由視点映像生成部201が前記視点情報および各カメラ映像に基づいてレンダリングを実施し、自由視点映像を生成する。時刻t7では、前記自由視点映像が視聴端末3へ配信され、時刻t8で再生される。
【0060】
時刻t9において、端末ユーザUが視聴端末3を操作してリプレイ映像の記録開始を要求し、これが前記ユーザ操作検知部302により検知されると、時刻t10では、記録開始要求RQ2が視聴端末3から自由視点映像生成装置2へ送信される。自由視点映像生成装置2では、時刻t11において、前記フォーマット記録部202が前記記録開始要求RQ2に応答して、再生中の自由視点映像に関してリプレイ用フォーマットの記録を開始する。当該リプレイ用フォーマットの記録は、視聴端末3からの記録終了要求RQ3が検知されるまでフレーム単位で繰り返される。
【0061】
一般に、自由視点映像生成部201が自由視点映像を再生している場合、ユーザが選択している仮想視点Pの情報は自由視点映像生成部201から取得することが可能である。本実施形態でも、リプレイ映像の記録開始RQ2が検知されると、フォーマット記録部202が自由視点映像生成部201から視点情報をフレーム単位で取得し、そのパラメータをリプレイ用フォーマットに記録する。
【0062】
本実施形態では、フレーム単位で「視点位置E(ex,ey,ez)」、「視線方向D(dx,dy,dz)」および「姿勢方向U(ux,uy,uz)」が記録される。さらに、現在の視点で見えるオブジェクトのビルボードを立てる位置の位置情報が記録される。さらに、各ビルボードに張り付ける対応オブジェクトのテクスチャ番号およびカメラ番号が記録される。
【0063】
その後、時刻t12において、端末ユーザUが視聴端末3を操作してリプレイ映像の記録終了を要求し、これが前記ユーザ操作検知部302により検知されると、時刻t13では、記録終了要求RQ3が視聴端末3から自由視点映像生成装置2へ送信される。自由視点映像生成装置2では、時刻t14において、フォーマット記録部202がリプレイ用フォーマットの記録を終了する。時刻t15では、前記生成されたリプレイ用フォーマットが視聴端末3へ転送され、時刻t16において、視聴端末3のストレージ301に蓄積される。
【0064】
その後、時刻t17において、前記自由視点映像のリプレイを所望するユーザが、前記ストレージ上のリプレイ用フォーマットを指定してリプレイを要求し、これが前記ユーザ操作検知部302により検知されると、前記レンダリング情報取得部303が前記リプレイ用フォーマットを解釈し、フォーマットに記述されている自由視点映像IDに基づいて、当該フォーマットがどの自由視点映像のリプレイ動画なのかを突き止める。
【0065】
時刻t18では、視聴端末3が映像のリプレイに必要な情報を前記リプレイ用フォーマットに基づいて自由視点映像生成装置2へ要求(RQ4)する。本実施形態では、リプレイ用フォーマットの自由視点映像IDに紐付けられている背景3Dモデルが要求され、時刻t19では、自由視点映像生成装置2が当該要求に応答して背景3Dモデルを配信する。
【0066】
時刻t20では、前記リプレイ用フォーマットおよび取得した背景3Dモデルに基づいて、前記リプレイ映像再生部304がレンダリングを実施し、自由視点映像のリプレイ映像の再生が開始される。リプレイ映像の再生中、レンダリング情報取得部303はフレーム単位で前記リプレイ用フォーマットに基づき、ビルボードの位置、マスク画像およびテクスチャなどの空間情報を自由視点映像生成装置2に要求して取得する。
【0067】
そして、リプレイ映像再生部304が前記フォーマットに記載されている自由視点空間情報に基づいて高効率に3D空間の再構成を行い、その再構成を行った空間に対して、フォーマットに記録されている視点位置から見た画像を、取得した空間情報に基づいてレンダリングすることでリプレイ映像が再構成される。
【0068】
図6は、前記リプレイ用フォーマットの他の例を示した図である。上記の実施形態では、視点情報が視点位置E(ex,ey,ez)、視線方向D(dx,dy,dz)、姿勢方向U(ux,uy,uz)の各3次元ベクトル、9パラメータで表現されるものとして説明した。しかしながら、パラメータが変化しないときに、その冗長性を排除してデータサイズの削減を行う機能を備えてもよく、これはフレーム間でパラメータが変化しないときに、後のパラメータを記述しないことで実現できる。
【0069】
例えば、視点が平行移動する際は視線方向Dや姿勢方向Uは変化せず、視点位置Eのみが変化する場合がある。本実施形態では、このような視点の動きが検知されると、図6に示したように、次フレームの時系列情報に関しては視線方向Dおよび姿勢方向Uの記録を省略することにより、データサイズの削減および処理負荷の軽減が可能になる。また、記録するパラメータはデータサイズの削減のために、一定の桁数で丸めて近似値として記録してもよい。
【0070】
図7は、前記リプレイ用フォーマットの更に他の例を示した図である。本実施形態では、前記視線方向D(dx,dy,dz)に代えて注視点位置F(fx,fy,fz)を保存するようにした点に特徴がある。注視点位置Fとは、視線方向D上にある特定の一点の位置を示している。視線方向Dは、視点位置Eおよび注視点位置Fから次式(1)で求められる。
【0071】
【数1】
【0072】
このように、視点方向D(dx,dy,dz)の代わりに注視点位置F(fx,fy,fz)を採用することにより冗長性を排除できる場合がある。例えば、注視点Fを中心に回転するような動きが視聴端末3のスワイプ操作などに割り当てられていると、注視点Fを中心に回転する動きが多く登場することが考えられる。このような場合、本実施形態によれば注視点位置F(fx,fy,fz)が変化しないので冗長性の排除が可能になる。
【0073】
前記視点情報の更に他の例として、回転移動量(回転角度)および平行移動量を視点情報のパラメータとして採用しても良い。
【0074】
ある視点を得るためには、ワールド座標系の原点を中心としてx軸を中心に回転量θx、y軸を中心に回転量θy、z軸を中心に回転量θzだけ視点を回転させ、さらに視点位置までの平行移動T(tx,ty,tz)を行うことで視点の位置、視線方向および姿勢を特定できる。したがって、回転量θx、θy、θzおよび平行移動量T(tx,ty,tz)の6つのパラメータから視点を再構成できる。
【0075】
なお、この例では少ないパラメータから視点を再構成できるが、回転や平行移動を施す前の、視点のデフォルトの位置や方向、姿勢が明確に決められている必要がある。これはつまり、回転や平行移動などを何も施さない場合、「視点位置はワールド座標系の原点にあり、z軸の正の方向を向いており、姿勢はy軸の正方向を上にしている」といったような初期値が決まっている必要があることを意味しており、視聴端末3のリプレイ映像再生部304でも、初期の視点情報を認識している必要がある。この情報はフォーマット自体に書き込んでやり取りしてもよいが、自由視点映像生成部201において自由視点映像の再生を行う場合の初期位置を、そのまま初期位置として定めてもよい。
【0076】
前記視点情報の更に他の例として、ビュー変換行列を記録する形態を採用しても良い。ビュー変換行列とは、ワールド座標系から視点の座標系(カメラ座標系)への変換を行う変換行列を指し示すものであり、この変換行列を用いれば、視点の位置と方向、姿勢情報について特定することが可能である。ここでは、ビュー座標行列は同次座標系で示されるものすると、4×4の変換行列Mは次式(2)で表される。
【0077】
【数2】
【0078】
このような行列はOpenGLやDirectXなどの一般に普及した3D表示を行うライブラリにおいて頻繁に使われるものであり、視点位置E(ex,ey,ez)、視線方向D(dx,dy,dz)、姿勢方向U(ux,uy,uz)などからビュー変換行列Mを計算することが多い。したがって、予めビュー変換行列を保存しておけば、ライブラリなどで用いることを考えた場合に、最も簡単に変換行列を取得できるため処理コストが少なくなる。
【0079】
さらに、上記の各フォーマットの例では、原則として視点情報をそのまま記録したが、図7に示したように、前フレームとの差分値のみを記録するようにしても良い。
【0080】
このような形式のフォーマットでは、フレーム間の差分値は小さくなりやすいため、小さい値が多く書き込まれるという特徴がある。値が小さくなる場合、通常「0」などの同じ値の並びが発生しやすくなることが考えられる。このような、同じ値の並びが発生しやすくなる符号列に対して、ハフマン符号化に代表されるようなエントロピー符号化を行うことによって、更なるデータサイズの削減を実施できる可能性がある。
【0081】
しかしながら、途中から再生を行いたい場合などには、最初のフレームからの差分を足し合わせて途中のフレームの値を計算しなければならないため、計算コストが大きくなりがちである。したがって、数フレームかに1枚は通常の差分ではないパラメータを記載し、他のフレームでは、前のフレームからの差分値を記録するようなフォーマットとすることも可能である。
【0082】
この場合には、どのフレームが全ての情報を保持したフレームで、どのフレームが差分情報を保持したフレームなのかがわかるようなフォーマットとする必要がある。図7の例では、差分フレームには識別子「D」、差分フレーム以外には識別子「I」を付することで各フレームを区別するようにしている。
【0083】
前記フォーマット記録部202は、上記の各方式で各種のパラメータを各フレームに渡って記述していくことで視点の情報を記録する。自由視点情報記録部202aは、自由視点映像生成部201から受け取る視点に関する情報を、フォーマットに記載する形式になるように変換や整形する機能を持たなくてはならない。
【0084】
ここでいう変換や整形とは、例えば自由視点映像生成部201で、ユーザの視点を得るためにワールド座標系からカメラ座標系への視点の変換行列(ビュー変換行列)を用いて特定視点からの映像を生成しているとすると、この変換行列を取得して、変換行列から視点の位置座標の3次元ベクトルなどの情報を得るまでの計算処理や、あるいは決まった桁数で記録する数値を切り捨て、丸める処理などの、フォーマットに適した形式へと変換する処理を指す。
【0085】
図8は、本発明の第2実施形態が採用する自由視点技術を説明するための図であり、図8は、第2実施形態におけるリプレイ用フォーマットの例を示した図である。
【0086】
第1実施形態では、自由視点映像生成部201がビルボード方式を採用して自由視点映像を生成するものとして説明した。これに対して、本実施形態は特許文献1に示されているように、オブジェクトの3Dモデルの形状を正確に復元する方式(ここでは、「逆投影面を用いたフルモデル方式」と表現する)を採用して自由視点映像を生成する点に特徴がある。
【0087】
自由視点映像生成部201がフルモデル方式を採用する場合、オブジェクトの3D形状を復元するために多数の逆投影面P1,P2…を仮想視点Pに正対する形で並べる。次いで、各逆投影面P1,P2…に対して、背景差分法などで得られた対象オブジェクトのマスク画像を投影し、その視体積を計算することで、逆投影面ごとに3Dモデル化を行い、更に対象オブジェクトのテクスチャ画像をマッピングすることで逆投影面の色付けを行う。したがって、逆投影面を適切に削り出すことで3Dモデルの復元が可能である。
【0088】
このような手法では、各逆投影面P1,P2…が常に仮想視線Pと直交する形で配置されるため、各逆投影面P1,P2…の位置は仮想視点Pの位置に依存して変化する。フォーマット記録部202は、視聴端末3からのリプレイ映像の記録開始要求RQ2に応答してフォーマットの記録を開始する。この際、第1実施形態と同様に、自由視点映像IDおよび合計フレーム数がヘッダに記録され、視点情報も第1実施形態と同様の手法でフレームごとに記録する。
【0089】
空間情報記録部202bは、多数の逆投影面P1,P2…の中で、モデルが生成される面のインデックスのみを空間情報として記録する。すなわち、本実施形態ではモデルが生成されない面のインデックスは記録されない。例えば、図8に示した例では、円筒状のオブジェクトが空間に存在しているが、そのモデルが生成されるのはP2,P3,P4のみである。したがって、図9に示したように、そのインデックスとして「2 3 4」のみが記録される。
【0090】
例えばサッカーのように、選手が広いフィールド内の一部に離散的に存在する自由視点映像では、フィールド全体に逆投影面を配置するとモデルの生成されない無駄な逆投影面が多く発生し、このような面の計算を、リプレイ動画再生時に再度行うことは無駄である。
【0091】
これに対して、本実施形態では予めモデルの生成される逆投影面と生成されない逆投影面とを識別できるので、効率的なメモリ確保が可能となり、またモデルの生成されない逆投影面に関してはマスク画像を逆投影する計算も不要となるので計算負荷が減ぜられる。
【0092】
特に、本実施形態が採用する特許文献1のフルモデル方式は、GPUを用いて並列計算を行うことが特許文献1でも触れられており、逆投影面の枚数を減らすことは省メモリ化につながる。その結果、メモリのアクセスに要する時間なども減らすことができることから、計算資源の節約と計算の高速化を実現できる。
【0093】
空間情報記録部202bは、3D空間を再現する際に計算する必要のある投影面のインデックスを記録することで、計算の高速化および計算資源の節約を図る。逆投影面に付するインデックスについては、視点に正対する逆投影面が1000枚存在する場合、視点に近い方から順番に1~1000のようにインデックスを振っていく方式が考えられる。図9に示したフォーマットの例では、モデルが生成される3枚の逆投影面P2,P3、P4を代表するインデックスとして「2 3 4」が記録されている。このようにして記録されたリプレイ用フォーマットは、第1実施形態と同様に視聴端末3へ転送されて蓄積され、後にリプレイ時に参照されることになる。
【0094】
視聴端末3では、リプレイ動画再生部304が蓄積されているリプレイ用フォーマットに基づいてリプレイ映像を再構成する。この際、リプレイ映像フォーマットの視点情報に基づいて視点を確定し、この視点に基づいて逆投影面を配置するが、前記インデックスを参照することでモデルが生成されない逆投影面を識別し、当該逆投影面については配置と計算を行わない。
【0095】
これにより、モデルが生成されることが約束されている逆投影面のみ計算を行って3D空間を再現することができる。その後、この3D空間に対して視点からの映像のレンダリングを行い、レンダリング画像を視聴端末3へと伝送することでリプレイ映像の再生を実現する。
【0096】
なお、本実施例では自由視点映像生成装置2においてレンダリングを行っているが、例えば自由視点映像を構成するための全ての動画を視聴端末3に予め配信し、端末側でレンダリングを行うようにしても良い。この場合でも、予めモデルの生じない逆投影面のインデックスを記録しておけば、計算の高速化と計算資源の節約を行うことが可能である。
【0097】
また、このような構成では自由視点映像生成装置2にリプレイ映像再生機能が設けられ、3D空間の完全な再構成が可能となる。このため、リプレイ動画再生機能が視聴端末3のスペックに関する情報を受信し、再生デバイスの解像度や画面サイズに応じて、視点は同じであるが見える視野や画像の縦横比が変わるようにレンダリング画像を出力する機能を備えてもよい。
【0098】
加えて、複数の視聴端末3が自由視点映像生成装置2に対して同時にリプレイ映像の再生を要求した場合に、同一の視点位置かつ同一の時刻のフレームのレンダリング要求があった場合には、レンダリング結果を保存し、使い回すなどの機構を備えてもよい。
【符号の説明】
【0099】
1…コンテンツサーバ,2…自由視点映像生成装置,3…視聴端末,201…自由視点映像生成部,202…フォーマット記録部,202a…自由視点情報記録部,202b…空間情報記録部,301…ストレージ,302…ユーザ操作検知部,303…レンダリング情報取得部,304…リプレイ映像再生部
図1
図2
図3
図4
図5
図6
図7
図8
図9