IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コーニンクレッカ フィリップス エヌ ヴェの特許一覧

<>
  • 特表-画像生成 図1
  • 特表-画像生成 図2
  • 特表-画像生成 図3
  • 特表-画像生成 図4
  • 特表-画像生成 図5
  • 特表-画像生成 図6
  • 特表-画像生成 図7
  • 特表-画像生成 図8
  • 特表-画像生成 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-19
(54)【発明の名称】画像生成
(51)【国際特許分類】
   H04N 21/234 20110101AFI20240711BHJP
   H04N 21/258 20110101ALI20240711BHJP
   H04N 13/279 20180101ALI20240711BHJP
   H04N 13/117 20180101ALI20240711BHJP
   G06T 19/00 20110101ALI20240711BHJP
   G06T 15/20 20110101ALI20240711BHJP
【FI】
H04N21/234
H04N21/258
H04N13/279
H04N13/117
G06T19/00 A
G06T15/20 500
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023580771
(86)(22)【出願日】2022-06-24
(85)【翻訳文提出日】2024-01-15
(86)【国際出願番号】 EP2022067371
(87)【国際公開番号】W WO2023274879
(87)【国際公開日】2023-01-05
(31)【優先権主張番号】21182528.6
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
【住所又は居所原語表記】High Tech Campus 52, 5656 AG Eindhoven,Netherlands
(74)【代理人】
【識別番号】110001690
【氏名又は名称】弁理士法人M&Sパートナーズ
(72)【発明者】
【氏名】ヴァーエカンプ クリスティアン
(72)【発明者】
【氏名】ファン へースト バルトロメウス ウィルヘルムス ダミアヌス
【テーマコード(参考)】
5B050
5C164
【Fターム(参考)】
5B050BA06
5B050BA09
5B050BA11
5B050BA13
5B050CA07
5B050CA08
5B050DA07
5B050DA10
5B050EA07
5B050EA12
5B050EA18
5B050EA19
5B050EA27
5B050FA02
5B050FA09
5B050GA08
5C164SB01P
5C164SB41S
5C164SC11P
5C164YA12
5C164YA21
(57)【要約】
装置が、現実世界シーンに対するキャプチャされたビデオデータを受け取る受信機601を備え、ビデオデータはキャプチャポーズ領域とリンクされている。ストア615が、現実世界シーンの3Dメッシュモデルを記憶する。レンダラ605が、視聴ポーズに対するビューポートに対する出力画像を生成する。レンダラ605は、キャプチャされたビデオデータの視聴ポーズへの投影により、出力画像に対する第1の画像データを生成するように構成された第1の回路607と、3次元メッシュモデルに応答して出力画像の第1の領域に対する第2の画像データを決定するように構成された第2の回路とを備える。第3の回路611は、第1の画像データの少なくとも一部と第1の領域に対する第2の画像データとを含むように、出力画像を生成する。第4の回路613は、キャプチャポーズ領域に対する視聴ポーズの偏差に基づいて、第1の領域を決定する。
【特許請求の範囲】
【請求項1】
現実世界シーンに対するキャプチャされたビデオデータを受け取る第1の受信機であって、前記ビデオデータはキャプチャポーズ領域とリンクされている、第1の受信機と、
前記現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するストアと、
視聴ポーズを受け取る第2の受信機と、
前記視聴ポーズに対するビューポートに対する出力画像を生成するレンダラと、
を備えている装置であって、前記レンダラは、
キャプチャされたビデオデータの前記視聴ポーズへの投影により、前記出力画像の少なくとも一部に対するビューポートに対する第1の画像データを生成する第1の回路と、
前記3次元メッシュモデルから、前記出力画像の少なくとも第1の領域に対する前記ビューポートに対する第2の画像データを生成する第2の回路と、
前記第1の画像データの少なくとも一部と前記第1の領域に対する前記第2の画像データとを含むように、前記出力画像を生成する第3の回路と、
前記キャプチャポーズ領域に対する前記視聴ポーズの偏差に応じて、前記第1の領域を決定する第4の回路と
を備える、装置。
【請求項2】
前記レンダラは、前記第1の回路によって生成される第1の画像データの品質が品質基準を満たさない領域として、前記第1の領域を決定する、請求項1に記載の装置。
【請求項3】
前記第3の回路は、前記視聴ポーズと前記キャプチャポーズ領域と間の差に応じて、前記第1の領域を決定する、請求項1又は2に記載の装置。
【請求項4】
前記差は角度の差である、請求項3に記載の装置。
【請求項5】
前記レンダラは、前記第2の画像データを、前記キャプチャされたビデオデータに応じて適応させる、請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記レンダラは、前記第1の画像データを、前記3次元メッシュデータに応じて適応させる、請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記レンダラは、前記第2の画像データを、前記第1の画像データに応じて適応させる、請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記レンダラは、前記第1の画像データを、前記第2の画像データに応じて適応させる、請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記レンダラは、前記3次元メッシュモデルを、前記第1の画像データに応じて適応させる、請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記キャプチャされたビデオデータに応じて前記3次元メッシュモデルを生成するためのモデル生成器を更に備える、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記第1の受信機は、前記ビデオデータをリモートソースから受け取り、前記3次元メッシュモデルを前記リモートソースから更に受け取る、請求項1から10のいずれか一項に記載の装置。
【請求項12】
前記第2の回路は、前記キャプチャポーズ領域に対する前記視聴ポーズの前記偏差に応じて前記第1の領域のための詳細レベルを変動させる、請求項1から11のいずれか一項に記載の装置。
【請求項13】
前記第1の受信機は、更に、前記現実世界シーンに対するキャプチャされた第2のビデオデータを受け取り、前記第2のビデオデータは第2のキャプチャポーズ領域とリンクされていて、
前記第1の回路は、更に、前記キャプチャされた第2のビデオデータの前記視聴ポーズへの投影により、前記出力画像の少なくとも一部に対する第3の画像データを決定し、
前記第3の回路は、前記第2のキャプチャポーズ領域に対する前記視聴ポーズの偏差に応じて、前記第1の領域を決定する、請求項1から12のいずれか一項に記載の装置。
【請求項14】
現実世界シーンに対するキャプチャされたビデオデータを受け取るステップであって、前記ビデオデータはキャプチャポーズ領域とリンクされている、ステップと、
前記現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するステップと、
視聴ポーズを受け取るステップと、
前記視聴ポーズに対するビューポートに対する出力画像を生成するステップと
を有する方法であって、前記出力画像を生成するステップは、
キャプチャされたビデオデータの前記視聴ポーズへの投影により、前記出力画像の少なくとも一部に対する前記ビューポートに対する第1の画像データを生成するステップと、
前記3次元メッシュモデルから、前記出力画像の少なくとも第1の領域に対する前記ビューポートに対する第2の画像データを生成するステップと、
前記第1の画像データの少なくとも一部と前記第1の領域に対する前記第2の画像データとを含むように、前記出力画像を生成するステップと、
前記キャプチャポーズ領域に対する前記視聴ポーズの偏差に応じて、前記第1の領域を決定するステップと
を有する、方法。
【請求項15】
コンピュータプログラムコードを含むコンピュータプログラムであって、前記コンピュータプログラムコードは、前記コンピュータプログラムがコンピュータ上で動作されると、請求項14に記載の方法のすべてのステップを実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像生成アプローチに関し、特に、排他的にではないが、異なる視点のための三次元ビデオ信号用の画像の生成に関する。
【背景技術】
【0002】
最近、画像と動画とを利用し消費する新たなサービスと方法とが連続的に開発され紹介されると共に、画像アプリケーションと動画アプリケーションとの多様性及び範囲が大幅に増大してきている。
【0003】
例えば、ますます人気が高まっている1つのサービスとして、提示される動画が変更後の位置又は方向からの視野を提示するように適応するため、シーンにおいて見ている位置又は方向を視聴者が変更することが可能であるように、視聴者が能動的かつ動的に視野と対話可能であるような態様で、画像シーケンスを提供するものがある。
【0004】
3次元ビデオのキャプチャ、配布、及び提示は、一部のアプリケーション及びサービスにおいて、ますます人気が高まり魅力的なものとなっている。特定のアプローチが、没入型ビデオとして知られており、典型的には、頭部の比較的小さな動き及び回転など、視聴者の小さな動きを許容する現実世界シーンと、しばしばリアルタイムでのイベントの視野との提供を含む。例えば、視聴者の頭部の小さな動きに続くローカルなクライアントベースの視野生成を許容するスポーツイベントなど、リアルタイムでのビデオブロードキャストは、スタンドに座ってそのスポーツイベントを観戦しているという印象をユーザに提供する。ユーザは、周囲を見回すことができるなど、スタンドのその位置に存在している観客と同様の自然な経験を有することになる。最近では、現実世界シーンの3Dキャプチャリングに基づく位置追跡と3D対話とをサポートするアプリケーションを備えた表示デバイスの普及が拡がってきている。そのような表示デバイスは、強化された3次元ユーザ経験を提供する没入型ビデオアプリケーションに特に適している。
【0005】
現実世界シーンのためにそのようなサービスを提供するためには、シーンは、典型的には、異なる位置から、そして異なるカメラキャプチャポーズが用いられることで、キャプチャされる。結果として、マルチカメラキャプチャリングと6DoF(6自由度)処理などの妥当性及び重要性が、急速に高まってきている。アプリケーションには、ライブコンサート、ライブスポーツ、及びテレプレゼンスが含まれる。自分自身の視点を選択する自由度は、通常のビデオよりもプレゼンスの感覚を増加させることによって、これらのアプリケーションを豊かにしている。更に、没入型のシナリオが、想像されることが可能になり、その場合、観察者は、キャプチャされるライブシーンをナビゲートして、それらと対話することができる。ブロードキャストアプリケーションのためには、これは、制作側におけるリアルタイムの深度評価と、クライアントデバイスでのリアルタイムの視野合成とを要求する。深度評価と視野合成との両方が誤差を生じさせ、これらの誤差は、用いられているアルゴリズムの実装の詳細に依存する。多くのそのようなアプリケーションにおいて、基準となる(複数の)視点に比較的近接する視点のために高画質の視野画像の合成を可能にする3次元シーン情報が多くの場合に提供されるが、その視点が基準となる視点から逸脱しすぎている場合には、高画質の視野画像の合成を劣化させる。
【0006】
例えば、オフセットされた位置からの複数の2D画像の形式で、及び/又は画像データプラス深度データとして、3次元画像データを提供するためには、相互にオフセットされた1組のビデオカメラが、シーンをキャプチャする。レンダリングデバイスが、変化しつつある異なる視野位置/方向に対する画像を生成するために、その3次元データを動的に処理する。レンダリングデバイスは、ユーザの動きに動的に従うための視点シフト又は投影などを、動的に行うことが可能である。
【0007】
没入型ビデオなどの問題点は、視聴者が十分な画質の経験を有する空間である視界空間が限定される、ということである。視聴者が視界空間の外部に移動すると、視野画像を合成することの結果として生じる劣化及びエラーがますます顕著になり、受入不可能なユーザ経験が結果的に生じる。生成された視野画像におけるエラー、アーチファクト、及び不正確なものは、特に、視野合成のために十分な情報(例えば、非閉塞データ)を提供していない3Dビデオデータが提供されているということに起因して生じる。
【0008】
例えば、典型的には、あるシーンの3D表現をキャプチャするために複数のカメラが用いられるときには、仮想現実ヘッドセットでの再生は、元のカメラ位置の近くに位置する仮想的な視点に空間的に限定される傾向がある。これにより、仮想的な視点のレンダ品質がアーチファクトを、典型的には欠けている情報(閉塞されたデータ)又は3D評価エラーの結果を、示さないことが保証される。
【0009】
いわゆるスウィートスポット視界領域の内部では、レンダリングは、視野ブレンディングと組み合わされた標準的なテクスチャマッピングを用いた関連する深度マップ又はメッシュを伴う1つ又は複数の基準カメラ画像から、直接的に行われることが可能である。
【0010】
スウィートスポット視界領域の外部では、画質が低下するが、多くの場合には受入不可能な程度まで低下する。現行のアプリケーションでは、これは、十分に正確にレンダリングされることが不可能であるシーンの部分については、視聴者に、ぼやけた写真又は更には黒い写真が与えられることで対処される。しかし、そのようなアプローチは、最適ではない傾向があり、最適ではないユーザ経験を提供する傾向がある。ヨーロッパ特許出願公開第3422711A1号は、シーンの不完全な表現によって表されないシーンの部分から離れるようにユーザにバイアスを与えるために、ぼけが導入されているレンダリングシステムの一例を開示している。
【発明の概要】
【発明が解決しようとする課題】
【0011】
よって、改善されたアプローチが、有利であり得る。特に、改善された操作、向上した柔軟性、改善された没入型ユーザ経験、縮小された複雑性、容易化された実現性、向上した知覚され合成される画質、改善されたレンダリング、ユーザのための増加された(おそらくは仮想的な)運動自由度、改善されたユーザ経験、並びに/又は改善されたパフォーマンス及び/若しくは操作を可能にするアプローチであれば、有利であろう。
【0012】
したがって、本発明は、好ましくは、上述された短所のうちの1つ又は複数を、単独で又はいずれかの組合せで、軽減、緩和、又は除去することを目指す。
【課題を解決するための手段】
【0013】
本発明の一態様によると、現実世界シーンに対するビデオデータを受け取るように構成された第1の受信機であって、ビデオデータはキャプチャされキャプチャポーズ領域とリンクされている、第1の受信機と、現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するように構成されたストアと、視聴ポーズを受け取るように構成された第2の受信機と、視聴ポーズに対するビューポートに対する出力画像を生成するように構成されたレンダラとを備えている装置が提供されるが、レンダラは、キャプチャされたビデオデータの視聴ポーズへの投影により、出力画像の少なくとも一部に対するビューポートに対する第1の画像データを生成するように構成された第1の回路と、3次元メッシュモデルから、出力画像の少なくとも第1の領域に対する出力ビューポートに対する第2の画像データを生成するように構成された第2の回路と、第1の画像データの少なくとも一部と第1の領域に対する第2の画像データとを含むように、出力画像を生成するように構成された第3の回路と、キャプチャポーズ領域に対する視聴ポーズの偏差に応じて、第1の領域を決定するように構成された第4の回路とを備えている。
【0014】
本発明は、多くの実施形態及びシナリオにおいて、改善されたユーザ経験を提供する。それは、多くのアプリケーションのために、画質と動きの自由度との間における改善されたトレードオフを可能にする。このアプローチは、多くの場合に、より没入的なユーザ経験を提供し、没入型のビデオアプリケーションに特に適している。このアプローチは、異なる視聴ポーズに対して、知覚される画質の劣化を減少させる。このアプローチは、例えば、ユーザに、位置及び/又は向きの変化のより大きな範囲に関して、改善された経験を提供する。多くの実施形態において、このアプローチは、現実世界シーンのキャプチャのための要件を緩和させる。例えば、より少数のカメラが用いられる。シーンのどれだけ多くがキャプチャされるかに関する要件が、緩和される。このアプローチは、多くの実施形態において、データ通信の要件を緩和し、例えば、より低い遅滞対話サービスを許容する。
【0015】
このアプローチは、例えば、改善された没入型ビデオ経験を可能にする。
【0016】
ポーズとは、位置及び/又は向きである。ポーズ領域とは、ポーズの連続的な組である。キャプチャポーズ領域とは、品質基準を満たす品質を有する画像データが生成されるのを可能にするデータをキャプチャされたビデオデータが提供する領域である。出力画像とは、画像シーケンスの画像であり、特に、ビデオシーケンスのフレーム/画像である。
【0017】
3次元メッシュモデルは、更に、その3次元メッシュモデルの3次元メッシュの頂点にリンクされているピクセル値を有する少なくとも1つのピクセルマップを含む。
【0018】
本発明の任意選択の特徴によると、レンダラは、第1の回路によって生成される第1の画像データの品質が品質基準を満たさない領域として、第1の領域を決定するように構成されている。
【0019】
いくつかの実施形態では、レンダラは、第1の画像データを含む中間画像を決定し、中間画像の画像データの品質が品質基準を満たさない領域として、第1の領域を決定するように構成されている。
【0020】
これは、多くの実施形態において、改善された及び/又は容易化された動作を提供する。それは、魅力的なユーザ経験を提供するのに特に適切な第1の領域を決定するために、特に効率的なアプローチを提供する。
【0021】
本発明の任意選択の特徴によると、第3の回路は、視聴ポーズとキャプチャポーズ領域と間の差に応じて、第1の領域を決定するように構成されている。
【0022】
これは、多くの実施形態において、改善された及び/又は容易化された動作を提供する。それは、魅力的なユーザ経験を提供するのに特に適切な第1の領域を決定するために、特に効率的なアプローチを提供する。
【0023】
多くの実施形態では、第3の回路は、視聴ポーズとキャプチャポーズ領域と間の距離に応じて、第1の領域を決定するように構成されている。この距離は、適切な距離測度(distance measure)に従って、決定される。この距離測度は、キャプチャポーズ領域に対する視聴ポーズの位置及び/又は向きとしての距離を反映する。
【0024】
本発明の任意選択の特徴によると、この差は、角度の差である。
【0025】
これは、多くの実施形態において、改善された及び/又は容易化された動作を提供する。
【0026】
本発明の任意選択の特徴によると、レンダラは、第2の画像データを、キャプチャされたビデオデータに応じて適応させるように構成されている。
【0027】
これは、多くの実施形態において、改善されたユーザ経験を提供する。それは、多くのシナリオにおいて、より矛盾なく一貫して生成される出力画像を提供し、ビデオデータから生成される出力画像の部分と3次元メッシュモデルから生成される出力画像の部分との間の差の知覚される視認性を減少させる。
【0028】
本発明の任意選択の特徴によると、レンダラは、第1の画像データを、3次元メッシュデータに応じて適応させるように構成されている。
【0029】
これは、多くの実施形態において、改善されたユーザ経験を提供する。それは、多くのシナリオにおいて、より矛盾なく一貫して生成される出力画像を提供し、ビデオデータから生成される出力画像の部分と3次元メッシュモデルから生成される出力画像の部分との間の差の知覚される視認性を減少させる。
【0030】
本発明の任意選択の特徴によると、レンダラは、第2の画像データを、第1の画像データに応じて適応させるように構成されている。
【0031】
これは、多くの実施形態において、改善されたユーザ経験を提供する。それは、多くのシナリオにおいて、より矛盾なく一貫して生成される出力画像を提供し、ビデオデータから生成される出力画像の部分と3次元メッシュモデルから生成される出力画像の部分との間の差の知覚される視認性を減少させる。
【0032】
本発明の任意選択の特徴によると、レンダラは、第1の画像データを、第2の画像データに応じて適応させるように構成されている。
【0033】
これは、多くの実施形態において、改善されたユーザ経験を提供する。それは、多くのシナリオにおいて、より矛盾なく一貫して生成される出力画像を提供し、ビデオデータから生成される出力画像の部分と3次元メッシュモデルから生成される出力画像の部分との間の差の知覚される視認性を減少させる。
【0034】
本発明の任意選択の特徴によると、レンダラは、3次元メッシュモデルを、第1の画像データに応じて適応させるように構成されている。
【0035】
これは、多くの実施形態において、改善されたユーザ経験を提供する。それは、多くのシナリオにおいて、より矛盾なく一貫して生成される出力画像を提供し、ビデオデータから生成される出力画像の部分と3次元メッシュモデルから生成される出力画像の部分との間の差の知覚される視認性を減少させる。
【0036】
本発明の任意選択の特徴によると、この装置は、キャプチャされたビデオデータに応じて3次元メッシュモデルを生成するためのモデル生成器を更に備える。
【0037】
これは、多くの実施形態において、改善された動作及び/又は容易化された実装を提供する。
【0038】
本発明の任意選択の特徴によると、第1の受信機は、ビデオデータをリモートソースから受け取り、3次元メッシュモデルをそのリモートソースから更に受け取るように構成されている。
【0039】
これは、多くの実施形態において、改善された動作及び/又は容易化された実装を提供する。
【0040】
本発明の任意選択の特徴によると、第2の回路は、キャプチャポーズ領域に対する視界ポーズの偏差に応じて、第1の領域のための詳細レベルを変動させるように構成されている。
【0041】
これは、多くの実施形態において、更なる改善されたユーザ経験を提供し、視聴者のポーズ変更への改善された知覚的適応を提供する。
【0042】
本発明の任意選択の特徴によると、第1の受信機は、更に、現実世界シーンに対するキャプチャされた第2のビデオデータを受け取るように構成され、第2のビデオデータは第2のキャプチャポーズ領域とリンクされていて、第1の回路は、更に、キャプチャされた第2のビデオデータの視聴ポーズへの投影により、出力画像の少なくとも一部に対する第3の画像データを決定するように構成され、第3の回路は、第2のキャプチャポーズ領域に対する視聴ポーズの偏差に応じて、第1の領域を決定するように構成されている。
【0043】
これは、多くのシナリオ及び実施形態において、強化されたユーザ経験を提供する。
【0044】
本発明の一態様によると、現実世界シーンに対するキャプチャされたビデオデータを受け取るステップであって、ビデオデータはキャプチャポーズ領域とリンクされている、ステップと、現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するステップと、視聴ポーズを受け取るステップと、視聴ポーズに対するビューポートに対する出力画像を生成するステップとを有する方法が提供され、出力画像を生成するステップは、キャプチャされたビデオデータの視聴ポーズへの投影により、出力画像の少なくとも一部に対するビューポートに対する第1の画像データを生成するステップと、3次元メッシュモデルから、出力画像の少なくとも第1の領域に対する出力ビューポートに対する第2の画像データを生成するステップと、第1の画像データの少なくとも一部と第1の領域に対する第2の画像データとを含むように、出力画像を生成するステップと、キャプチャポーズ領域に対する視聴ポーズの偏差に応じて、第1の領域を決定するステップとを有する。
【0045】
本発明のこれらの並びに他の態様、特徴、及び長所は、本明細書において以後に記載されている実施形態から明らかになり、それらの実施形態を用いて説明される。
【0046】
本発明の実装形態は、単なる例により、以下の図面を参照して説明される。
【図面の簡単な説明】
【0047】
図1】本発明のいくつかの実施形態によるビデオ配信システムの要素の一例の図解である。
図2】3Dシーンのキャプチャの一例の図解である。
図3】特定の視聴ポーズのために生成される視野の一例の図解である。
図4】特定の視聴ポーズのために生成される視野の一例の図解である。
図5】特定の視聴ポーズのために生成される視野の一例の図解である。
図6】本発明のいくつかの実施形態によるビデオレンダリングデバイスの要素の一例の図解である。
図7】特定の視聴ポーズのために生成される視野の一例の図解である。
図8】特定の視聴ポーズのために生成される視野の一例の図解である。
図9】2組のキャプチャカメラを用いる3Dシーンのキャプチャの一例の図解である。
【発明を実施するための形態】
【0048】
以下の説明は、没入型ビデオアプリケーションに焦点を合わせるが、説明されている原理及び概念は多くの他のアプリケーション及び実施形態において用いられ得る、ということが理解されるだろう。
【0049】
多くのアプローチにおいて、没入型ビデオが、例えば、どのようなリモートビデオサーバも用いない、又はどのようなリモートビデオサーバへのどのようなアクセスさえも有していないスタンドアロンデバイスによって、視聴者に対し、ローカルに提供される。しかし、他のアプリケーションでは、没入型アプリケーションは、リモート又は中央サーバから受け取られるデータに基づくことがあり得る。例えば、ビデオデータは、リモートにある中央サーバからビデオレンダリングデバイスに提供され、所望の没入型ビデオ経験を生成するようにローカルに処理される。
【0050】
図1は、没入型ビデオシステムのそのような例を図解しており、この例では、ビデオレンダリングデバイス101が、例えばインターネットなどのネットワーク105を経由して、リモートの没入型ビデオサーバ103と連絡している。サーバ103は、潜在的に多数のクライアントであるビデオレンダリングデバイス101を同時にサポートするように構成される。
【0051】
没入型ビデオサーバ103は、例えば、現実世界シーンを記述する3次元ビデオデータを送信することによって、没入型ビデオ経験をサポートする。このデータは、1組の(おそらくは3D)カメラによって現実世界のリアルタイムキャプチャから生成されるシーンの視覚的特徴と幾何学的性質とを、具体的に記述している。
【0052】
例えば、図2に図解されているように、1組のカメラが、(例えば、直線状など)適切なキャプチャ設定として、個々にオフセットするように配列され、それぞれがシーン203の画像をキャプチャする。キャプチャされたデータは、3Dビデオデータストリームを生成させるのに用いられ、3Dビデオデータストリームは、没入型ビデオサーバ103からリモートのビデオレンダリングデバイスに送信される。
【0053】
3Dビデオデータは、例えばビデオストリームであり、例えば、複数のカメラからのキャプチャされた画像を直接的に含む、及び/又は画像とキャプチャされた画像から生成される深度データなどの処理されたデータを含む。3Dビデオデータを生成するための技術及びアプローチは多く知られており、いずれかの適切なアプローチと3Dビデオデータフォーマット/表現とが本発明の価値を低下させることなく用いられ得る、ということが理解されるだろう。
【0054】
没入型ビデオレンダリングデバイス101は、3Dビデオデータを受け取り、受け取られた3Dビデオデータを、出力ビデオストリームを生成するために処理するように構成されているのであるが、ここで、生成される出力ビデオストリームは、ユーザのポーズにおける変化を動的に反映することにより、提供される光景が視界/ユーザのポーズ/配置の変化に適応する没入型ビデオ経験を提供する。
【0055】
この分野において、配置及びポーズという用語は、位置及び/又は方向/向きのための一般的な用語として用いられる。例えば、物体、カメラ、頭部、又はビューの位置と方向/向きとの組合せは、ポーズ又は配置と称される。よって、配置又はポーズの指示は、6つの値/成分/自由度を含んでおり、それぞれの値/成分は、典型的には、対応する物体の位置/場所又は向き/方向の個別的な性質を記述する。もちろん、多くの状況において、例えば、1つ又は複数の成分が固定されている又は無意味であると考えられる場合には、配置又はポーズは、より少ない成分を用いて考察される又は表現されることになる(例えば、全部の物体が同じ高さにあり、水平方向の向きを有すると考えられる場合には、4つの成分が、物体のポーズの完全な表現を提供する)。以下では、ポーズという用語は、1つから(可能な最大の自由度に対応する)6つの値によって表現され得る位置及び/又は向きを指すために用いられる。ポーズという用語は、配置という用語と交換されることが可能である。ポーズという用語は、位置及び/又は向きという用語と交換されることが可能である。ポーズという用語は、(ポーズが、位置と向きとの両方の情報を提供する場合には)位置及び向きという用語と、(ポーズが、(おそらくは単に)位置に関する情報を提供する場合には)位置という用語と、(ポーズが、(おそらくは単に)向きに関する情報を提供する場合には)向きという用語と、交換されることが可能である。
【0056】
生成されるビュー画像の品質は、視野合成動作に利用可能な画像及び深度情報に依存する。それは、更に、要求される再投影と視野シフティングとの量に依存する。
【0057】
例えば、視野シフティングは、典型的には、例えば視野シフティングに用いられているメインの画像で見ることができない画像の部分のオクルージョン除去を結果的に生じさせる。そのようなホールは、他の画像からのデータによって、これらがオクルージョン除去された物体をキャプチャしている場合には、充填されるが、新たな視点のためにオクルージョン除去されている画像の部分も他のソース視野から欠けている、ということも典型的にあり得る。そのような場合、視野合成は、例えば周囲のデータに基づいてデータを推定する必要がある。オクルージョン除去のプロセスは、本質的に、不正確さ、アーチファクト、及びエラーを導入するプロセスとなる傾向を有する。更に、これは、視野シフトの量と共に増加する傾向があり、特に、視野合成の間には、データが欠ける(ホール)蓋然性が、画像のキャプチャポーズからの距離の増加と共に上昇する。
【0058】
可能な歪みの他のソースは、不完全な深度情報である。多くの場合、深度情報は、深度値が深度推定(例えば、ソース画像の間の視差推定)又は測定(例えば、レンジング)によって生成された深度マップによって提供されるが、これは完全ではないため、深度値は誤差及び不正確さを含む。視野シフティングは、深度情報に基づいており、不完全な深度情報は、合成された画像における誤差又は不正確さを生じさせる。合成された視点が元のカメラの視点から離れれば離れるほど、合成されたターゲット視野画像における歪みは、ますます深刻になる。
【0059】
したがって、視聴ポーズがキャプチャポーズからますます遠くへ移動するにつれて、合成された画像の品質は、劣化する傾向にある。視聴ポーズがキャプチャポーズから十分に離れている場合には、画質は、受入不可能な程度まで低下し、程度の低いユーザ経験を経験することになる。
【0060】
図3から図5は、キャプチャポーズから離れる方向に移動することに関連する問題点を図解している。図3は、合成されたビューポートがキャプチャカメラのビューポートと近接して整列しているため、視聴ポーズビューポートに対する特定の画像が、深度画像ベースのレンダリングを用いてキャプチャカメラから予測されることが可能であり、結果的に高画質の画像が生じている例を図解している。対照的に、図4及び図5の例では、視聴ポーズとキャプチャポーズとが、キャプチャビューポートとは異なるビューポートの角度方向だけ、異なっている。図解されているように、視野方向の角度変化の結果として、画像の大部分(この例における画像の右側又は左側)に、適切な画像データが提供されていない。更に、画像データから未知の範囲への外挿のための情報が、いくらかの改善された知覚を提供するかもしれないが、図解されているように、非常に著しい劣化及び歪みを結果的に生じさせており、シーンの非現実的な表現に至っている。
【0061】
視聴ポーズとキャプチャポーズとは、視野の位置及び/又は角度における偏差だけ異なっており、これらの効果は異なる。移動など位置の変化は、前景の物体の背後におけるオクルージョン除去範囲を増加させる傾向があり、3D(深度/幾何学的形状)推定の不確実性に起因して、視野合成の不信頼性を増加させる。キャプチャカメラの角度から回転して遠ざかる視点の角度変化の結果として、例えば、(図4及び図5に図解されているように)新たなビューポートの大きな範囲で画像データが利用可能でないという状態が生じる。
【0062】
上記の問題の結果として、不十分な没入効果が生じるのであるが、その理由は、ディスプレイの視野全体(例えば、典型的には110度)が満たされてしまい、頭部の回転は新たなコンテンツを導かないからである。また、しばしば空間的なコンテンツが失われるし、画像がぼけている又はそれ以外の低画質のときには、ナビゲートすることがより困難であり得る。これらの問題に対処するために、いくつかの異なったアプローチが提案されてきたが、それらは、最適ではない傾向があり、特に、ユーザの動きを望ましくなく制限する、又は不所望のユーザ効果をもたらす。
【0063】
図6は、多くのシナリオにおいてより望ましいユーザ経験を達成することが可能であるパフォーマンス及びアプローチを提供する、ビデオレンダリング装置/システム/デバイスを図解している。この装置は、具体的には、図1のビデオレンダリングデバイス101であり得る。
【0064】
このビデオレンダリングデバイスは、現実世界シーンに対するキャプチャされたビデオデータを受け取るように構成されている第1の受信機601を備える。この例では、ビデオデータは、ビデオサーバ103によって提供される。
【0065】
ビデオデータは、現実世界シーンに対するキャプチャされたビデオデータであり、典型的には、相互にオフセットされた複数のカメラによるシーンのキャプチャから生成される3次元のビデオデータである。ビデオデータは、例えば、異なる複数のカメラからの複数のビデオストリームであり得るし、又は深度情報を伴う1つ若しくは複数のキャプチャ位置に対するビデオデータであり得る。現実世界シーンに対するビデオデータをキャプチャし、そのキャプチャを表す(3次元)ビデオデータを生成し、ビデオデータを通信/配信するための多くの異なるアプローチが知られていること、そして、本発明の価値を低下させることなくいずれかの適切のアプローチが用いられ得ることは、理解されるだろう。
【0066】
多くの実施形態において、3Dビデオデータは、複数視野の画像を含み、したがって、異なる視点からのシーンの複数の(同時的な)画像を含む。多くの実施形態において、3Dビデオデータは、画像と深度マップ表現との形式を有していて、その場合に、画像/フレームは、関連する深度マップと共に提供される。3D画像データは、特に、複数の視野に深度表現を追加したものであり、それぞれのフレームに対して、異なる視点からの少なくとも2つの画像を含み、これらの画像の少なくとも1つは関連する深度マップを有する。受け取られたデータが、例えば、複数視野データ表現であって明示的な深度マップを伴わない場合には、深度マップは、具体的には複数視野の表現の異なる画像を用いた視差推定ベースのアプローチなど、適切な深度推定アルゴリズムを用いて、生成されることが可能である。
【0067】
この具体的な例では、第1の受信機601は、一連の複数の同時画像と深度マップとを用いて3Dシーンを記述するMVD(複数視野及び深度)ビデオデータを受け取るが、これらは、以下では、ソース画像及びソース深度マップとも称される。ビデオストリームのためには、時間的に一連のそのような3D画像が提供されることが理解されるだろう。
【0068】
受け取られたビデオデータは、キャプチャポーズ領域にリンクされる。キャプチャポーズ領域とは、典型的には、シーンにおいてキャプチャポーズに近接するシーンの領域であり、典型的には、キャプチャポーズを含む領域である。キャプチャポーズ領域は、キャプチャポーズ及び/又は視界ポーズを表す1つ、複数、又は全部のパラメータに対する区間の範囲である。例えば、ポーズが2次元の位置によって表される場合には、キャプチャポーズ領域は、対応する2つの位置の範囲によって、すなわち2次元の範囲として、表される。他の実施形態では、ポーズが、典型的には3つの位置パラメータ及び3つの向きパラメータという6つのパラメータによって表され、その場合、キャプチャポーズ領域は、これらの6つのパラメータにおける限界によって、すなわち、ポーズの完全な6DoF表現によって与えられる。
【0069】
いくつかの例では、キャプチャポーズ領域は、提供されているキャプチャされたビデオデータのためのビューポート(視野の位置及び向き)に対応する単一のポーズに対応する単一のキャプチャポーズである。キャプチャポーズ領域とは、シーンがキャプチャされた1つ又は複数のポーズを指示する/含む1組のポーズであり得る。
【0070】
いくつかの実施形態では、キャプチャポーズ領域は、ビデオデータのソースから直接に提供され、それは、具体的には、受け取られたビデオデータストリームに含まれている。いくつかの実施形態では、それは、具体的には、ビデオデータストリームのメタデータとして、提供される。図2の例では、ビデオレンダリングデバイス101に通信されるビデオデータは、キャプチャポーズ領域205の内部に位置決めされているカメラの列205に基づいて、提供される。
【0071】
ビデオレンダリングデバイスは、いくつかの実施形態では、直接に受け取られたままキャプチャポーズ領域を用いるように構成されている。他の実施形態では、ビデレンダリングデバイスが、キャプチャポーズ領域を修正するように構成されることがあるし、又はそれ自体がキャプチャポーズ領域を生成することもある。
【0072】
例えば、いくつかの実施形態では、受け取られたデータは、与えられたキャプチャポーズに対応するビデオデータを含むだけであり、キャプチャポーズそれ自体の指示、どのような拡大された領域の指示、又は与えられたキャプチャポーズ以外のポーズのための合成を見るためにその画像データがいかに適切であるかの指示を伴わない。そのような場合には、受信機601は、例えば、受け取られたキャプチャポーズに基づいてキャプチャポーズ領域を生成することになる。例えば、それは、提供されているビデオデータは基準ポーズにリンクされているから、ビデオデータは、この基準ポーズに対し、どのような視野シフティングや投影もなく直接的にレンダリングされる、と考える。次に、すべてのポーズが、この基準ポーズとの関係で測定され、キャプチャポーズ領域が、基準ポーズとして、又は例えば基準ポーズを中心とする予め決定された領域として、決定される。ユーザが動くと、次に、視聴ポーズが、この基準ポーズとの関係で表される/測定される。
【0073】
いくつかの実施形態では、キャプチャポーズ領域は、単純に、例えば受け取られたビデオデータのものなど、単一のポーズに対応すると考えられる。他の実施形態では、受信機401は、例えば、キャプチャポーズとの差又はキャプチャポーズへの距離の関数として品質劣化の評価を行うことによって、拡張されたキャプチャポーズ領域を生成することになる。例えば、異なる量だけキャプチャポーズ領域から逸脱している様々なテストポーズに対し、第1の受信機601は、対応するビューポートのどれだけ大きな割合が画像データによってカバーされているか、そして、キャプチャカメラによってカバーされていないシーンの部分までビューポートが拡張していることに起因して、どれだけ大きな割合が例えばオクルージョン解除された範囲/物体に又はデータが提供されていない範囲/物体に対応するか、を評価する。キャプチャポーズ領域は、例えば、画像データによってカバーされていない対応するビューポートの割合が与えられている閾値未満である6次元領域として、決定される。キャプチャポーズと視聴ポーズとの間の偏差の関数として品質レベル又は劣化を評価する多くの他のアプローチが可能であり、いずれかの適切な操作が用いられ得る、ということが理解されるだろう。
【0074】
他の例として、第1の受信機601は、例えば、キャプチャポーズ領域を、最も近いキャプチャポーズまでの距離が与えられている閾値未満である全部のポーズを含む領域に、例えば複数のカメラポーズが提供される場合には最も近いカメラポーズに、又はビデオ画像が提供されている受け取られたキャプチャポーズ領域の最も近いポーズに、修正する。距離は、位置的な距離と角度的な(向きとしての)距離との両方の考慮を可能な限り含むいずれかの適切な距離測度に従って、決定される。
【0075】
他の実施形態ではキャプチャポーズ領域を決定する他のアプローチが用いられ、画像が適切な品質を伴って生成されることが可能であると考えられる1組のポーズを反映してキャプチャポーズ領域を決定する特定のアプローチは、その特定の実施形態の要件及び選好に依存する、ということが理解されるだろう。
【0076】
図6のビデオレンダリング装置は、更に、視聴者のための(そして特に3次元シーンにおける)視聴ポーズを受け取るように構成されている第2の受信機603を備えている。視聴ポーズは、視聴者がシーンを見る位置及び/又は向きを表し、シーンの視野が生成されるべきポーズを具体的に提供する。
【0077】
視聴ポーズを決定し提供する多くの異なるアプローチが知られており、いずれかの適切なアプローチが用いられる、ということが理解されるだろう。例えば、第2の受信機603は、ユーザによって装着されているVRヘッドセットやアイトラッカなどからポーズデータを受け取るように構成されている。いくつかの実施形態では、相対的な視聴ポーズが決定され(例えば、初期ポーズからの変化が決定される)、これは、例えばカメラポーズ又はキャプチャポーズ領域の中心などの基準ポーズと関係し得る。
【0078】
第1及び第2の受信機601、603は、いずれかの適切な様態で実施され、ローカルメモリ、ネットワーク接続、無線接続、データ媒体などを含むいずれかの適切なソースから、データを受け取る。
【0079】
これらの受信機は、特定用途向き集積回路(ASIC)など、1つ又は複数の集積回路として実施される。いくつかの実施形態では、これらの受信機は、例えば、中央処理装置、デジタル信号処理装置、若しくはマイクロコントローラなどの適切なプロセッサ上で動作するファームウェア若しくはソフトウェアなど、1つ又は複数のプログラムされた処理装置として実施される。そのような実施形態では、処理装置は、オンボード又は外部メモリ、クロック駆動回路、インターフェース回路、ユーザインターフェース回路などを含む、ということが理解されるだろう。それらの回路は、更に、処理装置の一部として、集積回路として、及び/又は離散的な電子回路として実施される。
【0080】
第1及び第2の受信機601、603は、受け取られた3次元ビデオデータから視野フレーム/画像を生成するように構成されている視野合成又は投影回路すなわちレンダラ605に結合されており、この場合に、視野画像は、視聴ポーズからの3次元シーンの視野を表すように生成される。こうして、レンダラ605は、受け取られたビデオデータ及び視聴ポーズから、3Dシーンのための視野画像/フレームのビデオストリームを生成する。以下では、レンダラ605の動作が、単一の画像の生成を参照して説明される。しかし、多くの実施形態において、画像は一連の画像の一部であり、具体的には、ビデオシーケンスのフレームである、ということが理解されるだろう。実際に、説明されているアプローチは、出力ビデオシーケンスの複数のフレーム/画像に、多くの場合には全部のフレーム/画像に、適用される。
【0081】
多くの場合、右目に対するビデオシーケンスと左目に対するビデオシーケンスとを含むステレオビデオシーケンスが生成される、ということが理解されるだろう。よって、例えばAR/VRヘッドセットを経由して画像がユーザに提示される場合には、あたかも視聴ポーズから3Dシーンが見られているかのように見える。
【0082】
レンダラ605は、典型的には、深度情報に基づいて、受け取られたビデオ画像の視野シフティング又は投影を行うように構成されている。これは、典型的には、当業者に知られているように、ピクセルのシフティング(視差変更に対応する適切な不均衡を反映させるようにピクセル位置を変化させる)、オクルージョン除去(典型的には、他の画像からの充填に基づく)、異なる画像からのピクセルの組合せなどの技術を含む。
【0083】
画像の合成のためには多くのアルゴリズム及びアプローチが知られており、いずれかの適切なアプローチがレンダラ605によって用いられる、ということが理解されるだろう。
【0084】
画像合成装置は、よって、シーンのための視野画像/ビデオを生成する。更に、シーンの中でユーザが動き回るのに対応して、視聴ポーズが動的に変化するにつれて、シーンの視野は、視聴ポーズの変化を反映するように連続的に更新される。静的なシーンに関しては、出力視野画像を生成するのに、同じソース視野画像が用いられるが、ビデオアプリケーションの場合には、異なる視野画像を生成するために、異なるソース画像が用いられ、例えば、新たな1組のソース画像及び深度が、それぞれの出力画像のために受け取られる。よって、処理は、フレームに基づく。
【0085】
レンダラ605は、視聴ポーズの横方向への動きに対して、異なる角度からのシーンの視野を生成するように構成されている。視聴ポーズが、異なる方向/向きとなるように変化する場合には、レンダラ605は、異なる角度からの3次元シーン物体の視野を生成するように構成される。よって、視聴ポーズが変化するにつれて、シーンの物体は、静的でありシーンの中で固定された向きを有するように知覚されることがある。視聴者は、効果的に動き、物体を異なる方向から見ることができる。
【0086】
視野合成回路205は、特定用途向け集積回路(ASIC)など、1つ又は複数の集積回路を含むいずれかの適切な様態で、実施される。いくつかの実施形態では、これらの受信機は、例えば、中央処理装置、デジタル信号処理装置、若しくはマイクロコントローラなどの適切なプロセッサ上で動作するファームウェア若しくはソフトウェアなど、1つ又は複数のプログラムされた処理装置として実施される。そのような実施形態では、処理装置は、オンボード又は外部メモリ、クロック駆動回路、インターフェース回路、ユーザインターフェース回路などを含む、ということが理解されるだろう。それらの回路は、更に、処理装置の一部として、集積回路として、及び/又は離散的な電子回路として実施される。
【0087】
上述されたように、視野合成に伴う問題は、視野が合成される視聴ポーズが提供されているシーンのビデオデータのキャプチャポーズとますます異なるようになると、品質が低下するということである。実際に、視聴ポーズがキャプチャポーズ領域から遠く離れすぎると、生成される画像は、大幅なアーチファクト及びエラーを伴い、受入不可能となる。
【0088】
ビデオレンダリングデバイスは、更に、現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するためのストア615を備えている。
【0089】
メッシュモデルは、シーンの少なくとも一部の3次元の記述を提供する。メッシュモデルは、面を生成するエッジによって相互接続された1組の頂点で構成されている。メッシュモデルは、シーンの要素の3次元表現を提供する例えば3角形又は矩形の多数の面を提供する。典型的には、メッシュは、例えば、頂点の3次元位置によって記述される。
【0090】
多くの実施形態では、メッシュモデルは、更に、テクスチャデータとテクスチャ情報とを含んでいるが、その理由は、メッシュが、メッシュの面に対するテクスチャを指示するように提供されているからである。多くの実施形態では、3次元メッシュモデルは、3次元メッシュモデルの3次元メッシュの頂点にリンクされているピクセル値を有する少なくとも1つのピクセルマップを含む。
【0091】
現実世界シーンのメッシュモデルは、ビデオレンダリングデバイスにおいてはキャプチャポーズ領域とは大きな角度だけ異なる視聴ポーズに対する改善された画像データを提供するのに用いられるシーンの3次元情報の、正確ではあるが実際的な表現を提供する。
【0092】
メッシュモデルは、多くの実施形態では、シーンの静的な表現を提供し、多くの実施形態では、ビデオ信号が、シーンの動的な(典型的にはリアルタイムの)表現を提供する。
【0093】
例えば、シーンは、フットボールのピッチすなわちスタジアムであり、モデルは、ピッチ、ゴール、ライン、スタンドなど、シーンの恒久的な部分を表すために生成される。提供されるビデオデータは、特定の試合のキャプチャであり、選手、コーチ、観客など、動的な要素を含む。
【0094】
レンダラ605は、受け取られたビデオデータの視聴ポーズへの投影によって出力画像の少なくとも一部に対する画像データを決定するように構成されている第1の回路607を備えている。第1の回路607は、よって、現在の視聴ポーズの視点に対する画像データを、受け取られたビデオデータから生成するように構成されている。第1の回路607は、視聴ポーズのビューポートに対する画像データを生成するため、いずれかの適切な視野シフティングと再投影処理とを適用し、具体的には、(現在の視聴ポーズに対するビューポートである)現在のビューポートに対応する完全な又は部分的な中間画像を生成する。投影/ビューシフティングは、ビデオデータのキャプチャポーズからのものであり、具体的には、1つ又は複数のキャプチャカメラのキャプチャポーズから現在の視聴ポーズへの投影である。上述されたように、視差シフティング、オクルージョン除去などの技術を含む、いずれかの適切なアプローチが、用いられる。
【0095】
レンダラ605は、更に、3次元メッシュモデルに応答して少なくとも第1の領域に対する出力ビューポートに対する第2の画像データを決定するように構成されている第2の回路609を備えている。第2の回路609は、よって、現在の視聴ポーズに対するビューポートに対する画像データを、典型的にはテクスチャ情報を考慮して、記憶されているメッシュモデルから生成するように構成されている。第2の回路609は、視聴者のポーズに応じて頂点を出力画像における画像位置にマッピングする技術を用い、頂点位置及びテクスチャなどに基づいて範囲に充填することを含め、与えられている視聴ポーズに対してメッシュモデルから画像データを生成するためのいずれかの適切なアプローチを適用する。第2の回路609は、具体的には、現在の視聴ポーズに対するビューポートに対応する第2の中間画像を生成する。この第2の中間画像は、部分的な画像であり、ビューポートの1つ又は複数の領域のみのための画像データを含む。
【0096】
キャプチャされた画像データと3次元メッシュモデルからのものとを含めて3次元データから画像データを合成するためには、多くの異なるアプローチ、アルゴリズム、及び技術が知られており、いずれかの適切なアプローチ及びアルゴリズムが、本発明の価値を低下させることなく用いられる、ということは理解されるだろう。
【0097】
適切な視野合成アルゴリズムの例は、例えば、
“A review on image-based rendering”
Yuan HANG,Guo-Ping ANG
Virtual Reality & Intelligent Hardware,Volume 1,Issue 1,February 2019,Pages 39-54
https://doi.org/10.3724/SP.J.2096-5796.2018.0004
又は
“A Review of Image-Based Rendering Techniques”
Shum; Kang
Proceedings of SPIE - The International Society for Optical Engineering 4067:2-13, May 2000
DOI:10.1117/12.386541
又は、例えば、3Dレンダリングに関するウィキペディアの記事である
https://en.wikipedia.org/wiki/3D_rendering
において見つけられる。
【0098】
レンダラ605は、こうして、受信されたビデオデータに基づく様態と記憶されているメッシュモデルに基づく様態という2つの別個の様態で、現在の視点に対する画像データを生成する。
【0099】
レンダラ605は、更に、第1の画像データと第2の画像データとを含むように出力画像を生成するように構成されている第3の回路611を備えている。具体的には、少なくとも第1の領域に関しては、出力画像は、メッシュモデルから生成された第2の画像データを含むように生成され、第1の領域の外側の出力画像の少なくとも一部に関しては、出力画像は、ビデオ信号から生成される第1の画像データを含むように生成される。
【0100】
多くのシナリオにおいて、出力画像は、結果的に得られる画質が十分に高いと考えられるすべての範囲のための第1の画像データを含むように生成され、第2の画像データは、画質が十分に高いとは考えられない範囲のために含まれる。
【0101】
レンダラ605は、第2の画像データが用いられるべき、すなわちビデオデータからよりもメッシュモデルから生成される画像データが出力画像に含まれるべき出力画像の1つ又は複数の領域を決定するように構成されている第4の回路613を備えている。第4の回路613は、キャプチャポーズ領域に対する視聴ポーズの偏差に応答して、第1のそのような領域を決定するように構成されている。よって、レンダラ605は、ビデオベースの画像データがモデルベースの画像データによって置き換えられる出力画像の領域を決定するように構成されているのだが、この領域は、視聴ポーズと、それがキャプチャポーズ領域からどのくらい異なっているかとに依存する。
【0102】
いくつかの実施形態では、第4の回路613は、視聴ポーズとキャプチャポーズ領域との間の差に応じて、第1の領域を決定するように構成されている。例えば、これらの間の距離が(適切な距離測度に従って)与えられている閾値未満である場合には、どの領域も定義されない、すなわち、出力画像の全体が、受信されたビデオデータから生成される。しかし、この距離が閾値よりも大きな場合には、第4の回路613は、不十分な品質であると考えられる蓋然性が高い領域を決定し、第2の画像データをこの領域のために用いるように、第2の回路609を制御する。この領域は、例えば、(典型的には、6つのDoF空間における)変化の方向に基づいて、決定される。
【0103】
例えば、ビデオレンダリングデバイスは、グラフィクスパッケージを用いてシーンをモデル化するように構成されており、このデータが視聴ポーズとキャプチャポーズ領域との差が大きすぎるときに1つ又は複数の領域において生成されるモデルによって置き換えられるように、グラフィクスモデルは、キャプチャによって導かれる合成画像の後で、ビューポートにレンダリングされる。
【0104】
具体的な例として、第4の回路613は、(視聴者が彼/彼女の頭部を回転させることを反映して)視聴ポーズの水平方向の角度の向きを考慮するように構成されている。視聴ポーズが、与えられている閾値角度未満である水平方向の角度回転を反映している限り、視聴ポーズのビューポートに対応する出力画像は、ビデオデータにだけに排他的に基づいて、生成される。しかし、視聴ポーズがこの閾値を上回る角度回転を示す場合には、第4の回路613は、第2の画像データによって占められることになる画像の左側又は右側領域が存在することを決定する。この領域が出力画像の左側にあるのか右側にあるのかは、視聴ポーズによって示される回転の方向(すなわち、視聴者が頭部を左側に回転させるか右側に回転させるか)と、角度回転がどのくらい大きいかに依存する領域のサイズと、に依存する。図7及び図8は、このアプローチが図4及び図5の画像をどのような改善するかに関する例を示す。
【0105】
視聴ポーズがキャプチャポーズ領域から遠すぎるところまで移動する場合には、合成された視野の画質は、劣化する。この場合には、ユーザ経験は、典型的には、低品質、又は例えばシーンの静的なグラフィクスモデルを評価することによって生成されるデータを提供するぼけたデータなどの代わりに、大幅に改善される。これは、特に、視聴者に、彼/彼女がシーンの中に存在することに関する改善された空間的なコンテンツを提供する。
【0106】
典型的な実際上のシステムでは、限られた視野を有するキャプチャカメラを用いることができることが望ましい、ということが注意されるべきであるが、その理由は、それにより、与えられたセンサ解像度に対して、より遠くの物体が、より高解像度でキャプチャされることが可能になるからである。例えば180度の広角レンズを用いて同じ解像度を得るには、非常に高い解像度を有するセンサが要求されるが、それは、常に現実的であるとは限らない。その理由は、そのようなセンサは、カメラ及び処理ハードウェアという観点からより高コストであり、処理及び通信に関して、リソースに対する要求が高くなるからである。
【0107】
上述されたように、いくつかの実施形態では、ビデオレンダリングデバイスは、モデルベースの画像データが用いられる領域を、具体的には、視聴ポーズとキャプチャポーズ領域との間の距離に基づいてそのような領域が含まれるべきかどうかを決定する。いくつかの実施形態では、視聴ポーズからキャプチャポーズ領域までに偏差に基づく領域の決定は、ビデオデータを用いて視聴ポーズのために合成されることが可能である画像データの品質に対する、偏差の影響を考慮することに基づく。
【0108】
いくつかの実施形態では、第1の回路607は、適切なキャプチャポーズからの受信されたビデオデータの視聴ポーズへの投影に基づいて、中間画像を生成する。
【0109】
第4の回路613は、次に、結果的な中間画像を評価することに進み、得に画像の異なる部分/範囲/領域に対する品質測度を決定する。品質測度は、例えば、画像データを生成するのに用いられるアルゴリズム又はプロセスに基づいて決定される。例えば、視差シフトによって生成されることが可能な画像データには、高い品質値が割り当てられ、この値は、そのシフトがどれだけ大きいかに応じて、更に等級が付される(例えば、リモート背景の場合には、視差シフトはゼロであるから、例えば視差推定においては、エラー及びノイズに対して敏感ではない)。他の画像データからオクルージョン除去された範囲への外挿によって生成される画像データには、より低い品質値が配分され、この値は、データの外挿がどの程度必要とされるか、隣接する範囲におけるテクスチャ変動の程度、などに応じて、更に等級が付される。
【0110】
次に、第4の回路613は、品質が品質基準を満たさない1つ又は複数の領域を決定するために、決定された品質測度を評価する。単純な基準は、単に、品質基準が閾値よりも低い範囲として、領域を決定するということである。より複雑な基準は、例えば、領域の最小サイズ又は形状に対する要件を含む。
【0111】
第2の回路609は、次に、中間画像からのビデオベースの(合成された)画像データとモデルベースの画像データとの組合せとして、出力画像を生成することに進む。例えば、出力画像は、中間的なビデオベースの画像の画像データを、十分な画質を有していないと第4の回路613によって決定された領域におけるモデルベースの画像データによって上書きすることによって、生成される。
【0112】
一般に、品質を評価する複数の異なるアプローチが用いられる、ということが理解されるだろう。
【0113】
例えば、異なる理由による深度品質が決定され、モデルデータを用いる領域が、具体的には閾値未満の品質を有すると考えられる深度データを用いて生成される画像領域など、深度品質に基づいて決定される。
【0114】
深度データを明示的に決定するためには、(エンコーダ側又はデコーダ側において)再投影エラーが計算され得る。これは、特に複数視野のデータセットである画像データからの視野が、複数視野のセットから、他の既知の視野に(深度を用いて)再投影されることを意味する。次に、(ピクセルごとの、又はある領域において平均化された)色差測度が、品質を指示するものとして用いられることが可能である。オクルージョン/オクルージョン除去は、望ましくないのであるが、このエラー計算に影響する。これは、ピクセルの深度とワープされた深度との間の絶対的な差が閾値未満であるときに、エラーを計量において集積することだけにより、回避される。そのようなプロセスは、例えば、十分に信頼性が高いとは考えられない深度データを識別するのに、用いられる。所望の任意の視点のために新たな画像を生成するときには、そのような信頼性の低い深度データの使用の結果として生成される領域が識別され、モデルから生成される画像データによって上書きされる。
【0115】
いくつかの場合には、小さな全体のワープエラーは、任意の新たな視点のためのレンダリング品質の十分な指示ではない。例えば、任意の新たな視点が、視聴領域の中心に近いなど、元のキャプチャ視点に近いときには、レンダリングの品質は、典型的には、用いられる深度データの深度品質が相対的に低い場合であっても、相対的に高い品質が結果的に生じる。よって、領域は、深度品質を考慮し、低品質の深度データから結果的に生じる領域を識別することにより、決定されるが、更に、どのくらい大きなシフトが行われるかなど、他のパラメータにも(そして、具体的には、画像が生成される視点とその画像データに対して定義されるキャプチャポーズ領域との間の距離に)左右される。
【0116】
任意の視点へのレンダリング品質を決定する他の様態は、その視点に対する合成された画像の画像特徴統計と1つ又は複数の基準画像の画像特徴統計とを比較することである。妥当な統計は、例えば、曲率である。曲率は、色チャネルのうちの1つに対して、又はローカルなフィルタウィンドウを用いる加算の際に、直接に計算されることが可能である。代替的には、エッジ/輪郭検出が最初に用いられることが可能であり、その後で、曲率統計が計算されることが可能である。統計は、合成された視野における与えられた領域の全体で計算され得る。この領域は、次に、1つ又は複数の基準視野にワープされ、そこの領域において見つけられる統計と比較されることができる。(より大きな)領域が用いられるため、評価は、厳密なピクセル対応への依存が少なくなる。曲率のような物理的に意味のある特徴の代わりに、視野不変な品質特徴を、複数の基準視野に基づいて計算するために、ディープニューラルネットが用いられ得る。そのようなアプローチが適用され、領域において評価されることにより、低品質の領域が決定されることが可能になる。
【0117】
いくつかの場合には、いわゆる「基準なし」計量が、どのような基準もなしで、合成された視野の品質を評価するのに用いられる。画質を予測するニューラルネットワークが、典型的には、トレーニングされる。
【0118】
そのような品質速度は、視聴ポーズとキャプチャポーズ領域との間の偏差又は差を明示的に決定することなく、決定される(すなわち、そのような決定は、視聴ポーズがキャプチャポーズ領域から逸脱していることを反映する品質測定においては、間接的である)。
【0119】
上述されたように、ビデオレンダリングデバイスは、シーンのメッシュモデルを記憶しており、典型的には、3次元メッシュモデルの3次元メッシュの頂点にリンクされたピクセル値を有するピクセルマップもまた記憶している。ピクセルマップとは、具体的には、ローカルな視覚的性質を反映するピクセルマップの一部にメッシュをリンクするマッピングを用いて視覚的性質(強度、色、テクスチャ)を示す、マップである。ピクセルマップは、具体的には、テクスチャマップであり得るのであって、シーンのモデルは、メッシュにテクスチャモデル及び表現をプラスしたものであり得る。
【0120】
いくつかの実施形態では、サーバ103は、モデル情報をビデオレンダリングデバイスに送信するように構成されており、よって、第1の受信機601は、サーバ103からモデルデータを受け取るように構成されている。いくつかの実施形態では、モデルデータは、ビデオデータと組み合わされて単一のデータストリームになり、第1の受信機601は、受け取られると、データをローカルに記憶するように構成されている。いくつかの実施形態では、モデルデータは、ビデオデータとは独立に、例えば異なる時点で及び/又は異なるソースから、受け取られる。
【0121】
いくつかの実施形態では、ビデオレンダリングデバイスは、モデルをローカルに生成するように構成されており、具体的には、受信されたビデオデータからモデルを生成するように構成されている。ビデオレンダリングデバイスは、具体的には、キャプチャされたビデオデータに応答して、3次元メッシュモデルを生成するように構成されたモデル生成器617を備えている。
【0122】
モデル生成器617は、例えば、シーンが何らかの所定の物体などをその中に有する部屋であるという期待などの、何らかの所定の情報(例えば、ゴール)を備えており、これらのパラメータを組み合わせて適応させることによってモデルを生成するように構成されている。例えば、その部屋のテクスチャ及び寸法は、受け取られたビデオデータに基づいて決定され、部屋の中の所定の物体の位置は、ビデオデータに基づいて決定される。
【0123】
いくつかの実施形態では、(単純な)グラフィクスモデルが、受け取られた複数視野ビデオから推論される。例えば、床、天井、壁のような平坦な表面は、検出されグラフィクスに変換されることが可能である。付属するテクスチャは、任意選択として、ビデオデータから抽出されることが可能である。そのような推論は、フレームごとに基づいて導かれる必要はなく、時間経過に伴い集積され改善されることが可能である。視聴者に提示/レンダリングされると、そのような比較的単純な視覚的要素は、詳細は欠けているが、どの画像とも又は歪みを有する画像と比較されることがないため、それほど興味を起こさせるものではなく、よりよい経験を提供する。それらは、視聴者に没入感を与え、混乱を感じさせることなくナビゲート可能(VR)な状態に保つ。
【0124】
いくつかの実施形態では、モデル生成器は、シーンの中に存在する物体又は人間を認識するための物体検出技術を用いるように、構成されている。そして、そのような物体は、既存のグラフィカルなモデル又はアバタによって表される。物体又は身体のポーズは、任意選択で、決定され、グラフィカルな表現に適用されることが可能である。
【0125】
物体とシーンの特性とを検出するための様々な技術とアプローチとが知られており、本発明の価値を低下させることなく、いずれかの適切なアプローチが用いられる、ということが理解されるだろう。
【0126】
いくつかの実施形態では、メッシュモデルが、リモートソースから提供されるが、このリモートソースとは、具体的には、サーバ103である。そのような場合に、サーバ103は、例えば、上述されたアプローチのうちのいくつかを用いる。
【0127】
いくつかの実施形態では、メッシュモデルは、予め生成されていて、上述したように、シーンの静的な部分を表す。例えば、(フットボールの試合などの)イベントのキャプチャに先立って、第2の共通ネットワーク要素707の静的部分の専用のキャプチャが行われる。例えば、より正確なメッシュモデルを開発するための画像を提供するために、カメラをシーンの周囲で移動させる。モデルの開発は、更に、例えば専用の3Dスキャナからの入力及び/又はモデルの手動での適応に基づく。そのようなアプローチは、より面倒であるが、より正確なモデルを提供する。それは、同一のモデルが多くのユーザ及び/又はイベントのために再利用可能なイベントの場合に、特に有用である。例えば、フットボールスタジアムの正確なモデルの開発には、多くの努力が投入されるが、これは、数百万人もの視聴者のために、そして多くの試合/イベントのために再利用されることが可能である。
【0128】
いくつかの実施形態では、レンダラ605は、モデル処理及び/又はデータに応じて、ビデオデータベースの処理及び/又はデータを適応させるように、構成されている。その代わりに又はそれに加えて、レンダラ605は、ビデオデータベースの処理及び/又はデータに応じて、モデル処理及び/又はデータを適応させるように構成されている。
【0129】
例えば、メッシュモデルは、ゴールポスト及びクロスバーなど、ゴールの成分を定義する。ビデオデータは、現在の視聴ポーズから見ることができるゴールの一部のためのデータを含み、これは、ゴールの残りに対するデータを提供するメッシュモデルによって補完される。しかし、生成された画像データは、異なるデータがより密接に一致するように、適応される。例えば、クロスバーの一部はビデオデータから生成され、クロスバーの一部はメッシュモデルから生成される。そのような例では、データは、これらの部分の間におけるより良好なインターフェースを提供するように適応される。例えば、データは、生成された出力画像においてクロスバーが直線状の物体を形成するように、適応される。これは、例えば、あるソースから生成されたクロスバーのための画像データを、それがクロスバーのための他のソースからの画像データと一致し同じ方向を有するように、シフトさせることによって、行われる。レンダラ605は、モデルベースの画像データを受け取られたビデオベースの画像データと一致するように、適応させるように構成されており、受け取られたビデオベースの画像データをモデルベースの画像データと一致するように構成されており、又はそれらが相互に一致するように適応させる。
【0130】
いくつかの実施形態では、この適応は、生成された画像データに直接的に基づくが、他の実施形態では、この適応は、適切なアプローチを用いるメッシュモデルデータに直接的に基づく。同様に、いくつかの実施形態では、ビデオレンダリングデバイスは、生成されたビデオベースの画像データに応じて、メッシュモデルを適応させるように構成されている。例えば、ビデオベースの画像データと一致するためにモデルベースの画像データを適応させるのではなく、ビデオレンダリングデバイスは、例えばビデオベースの画像データと一致するモデルベースの画像データが結果的に生成されるまでいくつかの頂点を移動させることによって、モデルを修正することができる。
【0131】
具体的には、いくつかの実施形態では、レンダラ605は、キャプチャされたビデオデータに応答して、生成されたモデルベースの画像データを適応させるように構成されている。例えば、モデルベースの画像からの色は、実際のキャプチャされた色から逸脱していることがあり得る。これは、照明又は遮光条件などの(動的な)状況又はモデルの精度の限界に起因し得る。従って、レンダラ605は、キャプチャされたデータの色と(より近く)一致するように、色を修正する。
【0132】
モデルベースの画像を適応させる例として、色分布が、両方の中間画像すなわちビデオベースの中間画像とモデルベースの中間画像との両方について、画像範囲の全体にわたりサンプリングされることがある。結果的に、色分布における差を最小化する単一の色オフセットが、モデルベースの画像に適応される。改善は、色分布における成分又はクラスタにリンクされている複数の色のオフセットを適応させることである。他の改善は、分布のサンプリングと特定の空間的視覚要素(例えば表面)へのオフセットの適応との両方を行うことである。
【0133】
いくつかの実施形態では、レンダラ605は、3次元メッシュモデルに応答して、生成されたビデオベースの画像データを適応させるように構成されている。
【0134】
例えば、生成されたビデオベースの画像の色は、メッシュモデルによって記録されたものとより近く一致するように修正され、又はビデオベースの画像は、メッシュモデルの結果として得られる直線とより近く一致するように、回転される。
【0135】
いくつかの実施形態では、レンダラ605は、生成されたモデルベースの画像データに応答して、生成されたビデオベースの画像データを適応させるように構成されている。
【0136】
例えば、モデルベースの画像データにおける直線的な画像構造の方向は、ビデオベースの画像データにおける同じタイプの構造の歪みを訂正するのに用いられることが可能である。具体的には、これは、モデルベースの画像において検出される直線の向き及び位置に関する知識を用いるフィルタリング動作を用いて行われることが可能である。
【0137】
いくつかの実施形態では、レンダラ605は、生成されたビデオベースの画像データに応答して、生成されたモデルベースの画像データを適応させるように構成されている。
【0138】
例えば、モデルベースの画像の色を適応させることに関する先に提供された例は、記憶されている色(例えば、テクスチャマップ)をモデルのために直接的に修正するのにも用いられ、それにより、将来の画像/フレームのために適応される訂正を可能にする。
【0139】
いくつかの実施形態では、レンダラ605は、生成されたビデオベースの画像データに応答して、3次元メッシュモデルを適応させるように構成されている。
【0140】
例えば、モデルを照明するのに用いられる光源の位置は、スタジアムでの照明条件と一致するように修正されることが可能である(しかし、おそらくは、光源の位置に関する知識を、それは利用可能ではないために、用いることなく)。他の例として、頂点の位置は、ビデオベースの画像データと一致する生成されたモデルベースの中間画像を結果的に生じるように適応される。例えば、モデルベースの異なる画像は、移行に近い頂点のわずかに変動された位置に対して生成され、結果的にビデオベースの画像に最も近く一致する(例えば、エッジを横断する直線を最も近く整列させる)画像が選択される。次に、メッシュモデルにおける頂点の位置は、選択された画像のための位置に修正される。
【0141】
いくつかの実施形態では、第2の回路609は、キャプチャポーズ領域への視聴ポーズの偏差に応答して、第1の領域のための詳細レベルを変動させるように構成されている。特に、この詳細レベルは、視聴ポーズとキャプチャポーズ領域との間の差が増加すると、低下される。詳細レベルは、例えば、物体の個数によって反映され、モデルの特徴は、生成される画像データに含まれる。
【0142】
いくつかの実施形態では、中間画像は、徐々に相互にブレンドされる。
【0143】
いくつかの実施形態では、第1の受信機601は、第2のキャプチャポーズ領域のためのシーンの更にキャプチャされたビデオデータを受け取るように構成されている。例えば、図9に図解されているように、シーンは、異なる位置にある2つの異なるカメラリグ901、903によってキャプチャされる。
【0144】
そのような実施形態では、ビデオレンダリングデバイスは、同様のアプローチを両方のキャプチャポーズ領域に適用し、特に、第1の回路607は、現在の視聴ポーズのビューポートの出力画像のための第3の画像データを、第2のキャプチャポーズのためのビデオデータに基づいて決定するように構成されている。次に、出力画像が、第1の画像データと第2の画像データとを考慮して、生成される。例えば、画像データは、第1のキャプチャポーズから導かれるものと第2のキャプチャポーズから導かれるものとの間で、どちらが最良の合成が行われることを可能にするかに基づいて、選択される。
【0145】
いくつかの実施形態では、第2の回路609は、単純に、ソースのうちの1つを、画像ごとを基礎にして(又は画像のグループに対して)選択する。しかし、別の実施形態では、この選択は、異なる領域に対して個別的に、又はそれぞれの個別のピクセルに対してさえも、行われる。
【0146】
例えば、出力画像は、最も近いキャプチャポーズ領域からのビデオデータから、これが結果的にオクルージョン除去を生じさせる場合を除いて、生成される。これらの範囲については、画像データは、代わりに、これがその範囲のピクセルに対してオクルージョン除去を結果的に生じさせない場合には、最も遠いキャプチャポーズ領域からのビデオデータから生成される。
【0147】
このようなアプローチでは、第4の回路613は、更に、第1及び第2の両方のキャプチャポーズ領域に対する視聴ポーズの考察に応じて、出力画像の第1の領域を、すなわち、メッシュモデルに基づいて出力画像が密である領域を生成するように、構成されている。
【0148】
複雑性が低い例として、メッシュモデルベースのデータは、現在の視聴ポーズが両方のキャプチャポーズ領域に関してオクルージョン除去であるすべての範囲に対して、用いられ得る。
【0149】
いくつかの実施形態では、シーンのキャプチャは、2つ又はそれより多くの別個の領域からの場合があり、2つの異なるキャプチャポーズ領域にリンクされているビデオデータが提供されることがあり得る。ある与えられた視聴ポーズに対して、ビデオレンダリングデバイスは、メッシュモデルデータに基づいて生成され得る又は生成されるべき画像の範囲を決定するために、複数の異なるキャプチャポーズ領域への偏差又は差を考慮する。
【0150】
次が提供され得るのであって、すなわち、
現実世界シーンに対するキャプチャされたビデオデータを受け取るように構成された第1の受信機(601)であって、ビデオデータはキャプチャポーズ領域とリンクされている、第1の受信機(601)と、
現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するように構成されたストア(615)と、
視聴ポーズを受け取るように構成された第2の受信機(603)と、
視聴ポーズに対するビューポートに対する出力画像を生成するように構成されたレンダラ(605)と、を備えている装置が提供され、レンダラ(605)は、
キャプチャされたビデオデータの視聴ポーズへの投影により、出力画像の少なくとも一部に対するビューポートに対する第1の画像データを生成するように構成された第1の回路(607)と、
3次元メッシュモデルに応答して、出力画像の少なくとも第1の領域に対する出力ビューポートに対する第2の画像データを決定するように構成された第2の回路(609)と、
第1の画像データの少なくとも一部と第1の領域に対する第2の画像データとを含むように、出力画像を生成するように構成された第3の回路(611)と
を備えている。
【0151】
この装置は、
第1の領域に対する第1の画像データに対する画質測度に応答して、第1の領域を決定するように構成された第4の回路(613)、
第1の画像データを含む中間画像を決定し、中間画像の画像データの品質が品質基準を満たさない領域として第1の領域を決定するように構成された第4の回路(613)、及び/又は
第1の画像データに対する品質測度に応答して、第1の領域を決定するように構成された第4の回路(613)を含み得る。
【0152】
この装置及び/又は第4の回路は、キャプチャポーズ領域に対する視聴ポーズの偏差及び/又は差を決定しないこともあり得る。
【0153】
このアプローチは、多くの実施形態において、特に魅力的なユーザ経験を提供する。一例として、センタラインにおけるカメラリグとゴールに近い第2のカメラリグとによってキャプチャされるフットボールの試合について、考察する。視聴者は、センタラインに近い視聴ポーズを取り、その試合の高画質の画像が提示される。ユーザは、次に、ゴールの近くへ仮想的に移動すると決めて、この目的地に到着すると、ゴールの近くに位置決めされたカメラリグに基づく試合の高品質のビデオが提供される。しかし、複数の位置の間でのテレポーテーションという従来型のアプローチとは対照的に、ユーザには、(例えば、これらの位置の間を物理的に歩くユーザをエミュレートすることで)センタラインからゴールに至る位置の連続的な変化に関する経験が提供される。しかし、センタラインとゴールとの間の位置からの視野を正確にレンダリングするために十分なビデオデータは存在していない可能性があるため、画像の少なくとも一部に関しては、モデルデータから、ビデオデータがレンダリングされる。これにより、多くのシナリオにおいて、ユーザがある位置から他の位置に単純にテレポーテーションによって移動するという従来型の経験と比較して、改善され、より没入的な経験が提供される。
【0154】
説明されているアプローチは、このようにして、視聴ポーズ/ビューポートのための画像を生成する。画像は、2つの基本的に異なるタイプのデータから生成され、具体的には、これらの異なるタイプのデータから生成される領域、すなわち、現実世界シーンのキャプチャされたビデオデータから生成されるある領域と、現実世界シーンのために3Dメッシュモデルのデータから生成される他の領域と、を含むように、適応的に生成される。
【0155】
このアプローチは、具体的には、多くのシナリオにおいて、現実世界シーンのキャプチャが多くの場合に不完全であるという問題に対処する。このアプローチによると、シーンの改善された出力画像/視野が生成されることが可能になり、及び/又は現実世界シーンのビデオキャプチャを減少させることが可能になる。
【0156】
キャプチャされたビデオデータが利用可能ではないシーン領域のための画像は、利用可能なデータの外挿によって生成される従来型のアプローチとは対照的に、説明されているアプローチは、シーンの2つの基本的に異なる表現を用い、単一の画像を生成する際に、これらを組み合わせる。第1のタイプはキャプチャされたビデオデータであり、第2のタイプは3次元メッシュモデルである。このように、キャプチャされたビデオデータと3Dメッシュモデルのデータとの両方が、用いられる。特に、メッシュモデルのデータは、キャプチャされたビデオデータが何も情報を提供しない生成される画像の部分が依然として提示されることが可能であるように、キャプチャされたビデオデータを補完するのに用いられる。
【0157】
このアプローチは、改善された画質を提供するために、2つの基本的に異なるタイプのシーン表現を適応的に組み合わせるのであって、特に、キャプチャされたビデオデータが情報を全く有していないシーンの視野に対する画像データが生成されることを、可能にする。
【0158】
一例として、説明されているアプローチは、例えば、キャプチャされたビデオデータが全く存在しないシーンの一部を含む画像が、ある与えられた視点に対して生成されることを可能にし、その場合に、生成される画像には、キャプチャされたデータが一切存在しないシーンの特徴及び物体さえも含まれる。
【0159】
説明されているアプローチは、多くの有利な効果を提供する。
【0160】
特に、より多くの視聴ポーズに対する現実世界シーンの特徴の改善された視野を提供する画像が生成されることが可能であり、与えられたキャプチャに対して、シナリオが達成されることが可能である。例えば、与えられた視聴ポーズに対してこのアプローチでなければ可能ではないシーンの一部が表示されることが可能になり、これには、キャプチャされたビデオがデータを全く含んでいない物体の提示も含まれる。このアプローチは、実際に、キャプチャを容易にしており、これには、シーンの大きな部分(潜在的には全部)が何らかの形式で見られることを可能にしながら、キャプチャのためにより少数のカメラが用いられることを可能にすることが含まれる。
【0161】
このアプローチは、また、あるシーンのためのビデオデータの通信に要求されるデータレートを低下させる。キャプチャは、シーンのより小さな部分まで縮小されるが、その理由は、シーンの一部をモデルデータによって置き換えることが受入可能であると考えられるからである(例えば、フットボールのピッチのプレイ範囲が、ビデオカメラによってリアルタイムでキャプチャされるのに対し、スタジアムの上部については、静的な3Dメッシュモデルのデータによって表現される)。ビデオデータは典型的には動的でリアルタイムであるため、それは、実際に、はるかにずっと高いデータレートを要求する傾向にある。3Dメッシュモデルのデータによって例えばスタジアムの上部を表現するのに要求されるデータレートは、実際には、それがビデオカメラによってキャプチャされビデオデータによって表現される必要がある場合と比較して、はるかに低い。
【0162】
このアプローチによると、典型的には自由が増大することを含め、大幅に改善されたユーザ経験が可能になる。技術的な効果は、ビデオデータの不完全なキャプチャによって生じる動きに対する制限が、軽減される(例えば、D1と比較してほしい)。
【0163】
このアプローチは、また、多くの場合において、実施を容易化し及び/又は複雑性を低下させ、並びに/若しくは計算量の負担を軽減する。例えば、ビデオキャプチャのエンコード/デコードの軽減が達成され、容易化されたレンダリングが達成される(3Dメッシュモデルに基づくレンダリングは、典型的に、複雑性が低く、キャプチャされたビデオのレンダリングより計算集約的である)。
【0164】
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組合せを含む、どのような適切な形態でも実施されることが可能である。本発明は、オプションとして、1つ又は複数のデータプロセッサ及び/若しくはデジタル信号プロセッサで動作するコンピュータソフトウェアとして、少なくとも部分的に実施され得る。本発明の実施形態の要素及びコンポーネントは、どのような適切な方法でも、物理的、機能的、及び論理的に実施され得る。実際に、その機能は、単一のユニットとして、複数のユニットとして、又は他の機能ユニットの一部として、実施され得る。したがって、本発明は、単一のユニットで実施され得るし、又は異なる複数のユニット、回路、及びプロセッサの間で、物理的及び機能的に分散され得る。
【0165】
本出願では、「応答して」、「基づいて」、「応じて」、及び「機能として」などの用語のうちの1つに言及するどの場合も、「応答して/基づいて/応じて/機能として」という用語を参照しているものと考えられるべきである。これらの用語のどれもが、それ以外の用語のいずれかの開示であると考えられるべきであって、単一の用語のみの使用でも、他の選択肢/用語を含む短縮形の概念であると考えられるべきである。
【0166】
本発明は、いくつかの実施形態との関係で説明されてきたが、本明細書に記載されている特定の形態に限定されることは、意図されていない。むしろ、本発明の範囲は、添付の特許請求の範囲のみによって限定される。更に、ある特徴が特定の実施形態との関係で説明されているように見えるかもしれないが、当業者であれば、説明されている実施形態の様々な特徴は本発明に従って組み合わされ得る、ということを認識するだろう。特許請求の範囲における「有する」、「備える」という用語は、他の要素又はステップの存在を排除しない。
【0167】
更に、個別的に列挙されている場合でも、複数の手段、要素、回路、又は方法のステップが、単一の回路、ユニット、又はプロセッサなどによって実施されることがあり得る。追加すると、個別的な特徴が異なる複数の請求項に含まれることがあり得るが、これらは有利に組み合わされる場合があるし、異なる複数の請求項に含まれているとしても、複数の特徴の組合せが実現不可能及び/又は不利であることなどは、意味しない。また、ある特徴が請求項の1つのカテゴリに含まれていても、このカテゴリへの限定を意味することはなく、むしろ、その特徴が必要に応じて他の請求項のカテゴリに等しく適用可能であることを示す。更に、請求項における特徴の順序は、その特徴が実施されなければならない特定の順序を意味しておらず、特に、方法の請求項での個別的なステップの順序は、それらのステップがこの順序で行われなければならないことを意味しない。むしろ、それらのステップは、任意の適切な順序で行われ得る。追加すると、単数形への言及は、複数形を排除しない。したがって、「1つの」、「第1の」、「第2の」などへの言及は、複数を排除しない。請求項での参照符号は、単に明確化のための例として提供されているだけであり、どのような意味でも、請求項の範囲を限定するものと解釈してはならない。
【0168】
一般的に、装置及び方法の例が、下記の実施形態によって、示される。
【0169】
実施形態:
請求項1.現実世界シーンに対するキャプチャされたビデオデータを受け取るように構成された第1の受信機(601)であって、ビデオデータはキャプチャポーズ領域とリンクされている、第1の受信機(601)と、
現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するように構成されたストア(615)と、
視聴ポーズを受け取るように構成された第2の受信機(603)と、
視聴ポーズに対するビューポートに対する出力画像を生成するように構成されたレンダラ(605)と、
を備えている装置であって、レンダラ(605)は、
キャプチャされたビデオデータの視聴ポーズへの投影により、出力画像の少なくとも一部に対するビューポートに対する第1の画像データを生成するように構成された第1の回路(607)と、
3次元メッシュモデルに応答して、出力画像の少なくとも第1の領域に対する出力ビューポートに対する第2の画像データを決定するように構成された第2の回路(609)と、
第1の画像データの少なくとも一部と第1の領域に対する第2の画像データとを含むように、出力画像を生成するように構成された第3の回路(611)と、
キャプチャポーズ領域に対する視聴ポーズの偏差に応答して、第1の領域を決定するように構成された第4の回路(613)と
を備えている、装置。
【0170】
請求項2.レンダラ(605)は、
第1の画像データを含む中間画像を決定し、
中間画像の画像データの品質が品質基準を満たさない領域として、第1の領域を決定するように構成されている、請求項1に記載の装置。
【0171】
請求項3.第3の回路(609)は、視聴ポーズとキャプチャポーズ領域と間の差に応答して、第1の領域を決定するように構成されている、請求項1又は2に記載の装置。
【0172】
請求項4.差は角度の差である、請求項3に記載の装置。
【0173】
請求項5.レンダラ(605)は、第2の画像データを、キャプチャされたビデオデータに応答して適応させるように構成されている、請求項1から4のいずれか一項に記載の装置。
【0174】
請求項6.レンダラ(605)は、第1の画像データを、3次元メッシュデータに応答して適応させるように構成されている、請求項1から5のいずれか一項に記載の装置。
【0175】
請求項7.レンダラ(605)は、第2の画像データを、第1の画像データに応答して適応させるように構成されている、請求項1から6のいずれか一項に記載の装置。
【0176】
請求項8.レンダラ(605)は、第1の画像データを、第2の画像データに応答して適応させるように構成されている、請求項1から7のいずれか一項に記載の装置。
【0177】
請求項9.レンダラ(605)は、3次元メッシュモデルを、第1の画像データに応答して適応させるように構成されている、請求項1から8のいずれか一項に記載の装置。
【0178】
請求項10.キャプチャされたビデオデータに応答して3次元メッシュモデルを生成するためのモデル生成器(617)を更に備える、請求項1から9のいずれか一項に記載の装置。
【0179】
請求項11.第1の受信機(601)は、ビデオデータをリモートソース(103)から受け取り、3次元メッシュモデルをリモートソース(103)から更に受け取るように構成されている、請求項1から10のいずれか一項に記載の装置。
【0180】
請求項12.第2の回路(609)は、キャプチャポーズ領域に対する視聴ポーズの偏差に応答して第1の領域のための詳細レベルを変動させるように構成されている、請求項1から11のいずれか一項に記載の装置。
【0181】
請求項13.第1の受信機(601)は、更に、現実世界シーンに対するキャプチャされた第2のビデオデータを受け取るように構成され、第2のビデオデータは第2のキャプチャポーズ領域とリンクされていて、
第1の回路(607)は、更に、キャプチャされた第2のビデオデータの視聴ポーズへの投影により、出力画像の少なくとも一部に対する第3の画像データを決定するように構成され、
第3の回路は、第2のキャプチャポーズ領域に対する視聴ポーズの偏差に応答して、第1の領域を決定するように構成されている、請求項1から12のいずれか一項に記載の装置。
【0182】
請求項14.現実世界シーンに対するキャプチャされたビデオデータを受け取るステップであって、ビデオデータはキャプチャポーズ領域とリンクされている、ステップと、
現実世界シーンの少なくとも一部の3次元メッシュモデルを記憶するステップと、
視聴ポーズを受け取るステップと、
視聴ポーズに対するたビューポートに対する出力画像を生成するステップと、
を有する方法であって、出力画像を生成するステップは、
キャプチャされたビデオデータの視聴ポーズへの投影により、出力画像の少なくとも一部に対するたビューポートに対する第1の画像データを生成するステップと、
3次元メッシュモデルに応答して、出力画像の少なくとも第1の領域に対する出力ビューポートに対する第2の画像データを決定するステップと、
第1の画像データの少なくとも一部と第1の領域に対する第2の画像データとを含むように、出力画像を生成するステップと、
キャプチャポーズ領域に対する視聴ポーズの偏差に応答して、第1の領域を決定するステップと
を有する、方法。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】