IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴィド スケール インコーポレイテッドの特許一覧

<>
  • 特許-全方位ビデオに対する視点メタデータ 図1A
  • 特許-全方位ビデオに対する視点メタデータ 図1B
  • 特許-全方位ビデオに対する視点メタデータ 図2
  • 特許-全方位ビデオに対する視点メタデータ 図3
  • 特許-全方位ビデオに対する視点メタデータ 図4
  • 特許-全方位ビデオに対する視点メタデータ 図5
  • 特許-全方位ビデオに対する視点メタデータ 図6
  • 特許-全方位ビデオに対する視点メタデータ 図7
  • 特許-全方位ビデオに対する視点メタデータ 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-11
(45)【発行日】2023-12-19
(54)【発明の名称】全方位ビデオに対する視点メタデータ
(51)【国際特許分類】
   H04N 21/442 20110101AFI20231212BHJP
【FI】
H04N21/442
【請求項の数】 10
(21)【出願番号】P 2020554240
(86)(22)【出願日】2019-04-04
(65)【公表番号】
(43)【公表日】2021-08-19
(86)【国際出願番号】 US2019025784
(87)【国際公開番号】W WO2019195547
(87)【国際公開日】2019-10-10
【審査請求日】2022-04-04
(31)【優先権主張番号】62/653,363
(32)【優先日】2018-04-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/675,524
(32)【優先日】2018-05-23
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514041959
【氏名又は名称】ヴィド スケール インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】フ、ヨン
(72)【発明者】
【氏名】ユー、ヤン
(72)【発明者】
【氏名】ハムザ、アーマッド
【審査官】松元 伸次
(56)【参考文献】
【文献】米国特許出願公開第2018/0063505(US,A1)
【文献】特開2017-184114(JP,A)
【文献】国際公開第2017/159063(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N5/262-5/28
5/66-5/775
5/80-5/907
7/10
7/14-7/173
7/20-7/56
21/00-21/858
(57)【特許請求の範囲】
【請求項1】
サーバから、それぞれの視点からキャプチャされた全方位ビデオを識別する情報を含むマニフェストを受信するステップであって、前記マニフェストは、第1の視点からキャプチャされた第1の全方位ビデオおよび第2の視点からキャプチャされた第2の全方位ビデオを含む、ステップと
前記サーバから、ソース視点としての前記第1の視点および宛先視点としての前記第2の視点に関連付けられ、1つ以上の視点識別子を含む遷移効果を識別する情報を受信するステップと、
前記マニフェストの中で識別され、および、前記遷移効果の中に含まれた前記1つ以上の視点識別子によって識別されたそれぞれの視点からキャプチャされた1つ以上の全方位ビデオを使用して、前記第1の全方位ビデオから前記第2の全方位ビデオへ遷移するステップと
を備える方法。
【請求項2】
前記遷移効果は、黒へのフェード効果である請求項1に記載の方法。
【請求項3】
前記遷移効果を識別する前記情報は、前記第1の全方位ビデオから前記第2の全方位ビデオへの前記遷移のために使用される前記視点に渡る経路の遷移の速度を識別する請求項1に記載の方法。
【請求項4】
前記第1の視点および前記第2の視点の少なくとも1つに対して、それぞれの視点の有効範囲を識別する情報を受信するステップ
をさらに備える請求項1に記載の方法。
【請求項5】
ユーザインターフェースをユーザに表示するステップをさらに備え、前記ユーザインターフェースは、前記第2の視点に基づいて、前記第2の全方位ビデオを前記ユーザが選択できるようにする請求項1に記載の方法。
【請求項6】
前記第2の全方位ビデオのユーザ選択に応じて、前記第2の全方位ビデオを前記ユーザに表示するステップをさらに備える請求項に記載の方法。
【請求項7】
前記ユーザインターフェースを表示する前記ステップは、
前記第1の全方位ビデオを前記ユーザに表示することと、
前記第2の全方位ビデオの前記第2の視点に対応する、前記第1の全方位ビデオにおける位置に、前記第2の全方位ビデオのインジケーションを表示することと
を含む請求項に記載の方法。
【請求項8】
前記第2の全方位ビデオの前記インジケーションは、前記第1の視点から前記第2の視点への距離に基づいたサイズを有している請求項7に記載の方法
【請求項9】
前記遷移効果を識別する前記情報は、前記第1の全方位ビデオから前記第2の全方位ビデオへの前記遷移に使用される中間ビューをレンダリングするために適用される補助情報を識別する請求項1に記載の方法
【請求項10】
請求項1乃至9いずれかに記載の方法を実施するように構成された、少なくとも1つのプロセッサ
を備えたシステム。
【発明の詳細な説明】
【技術分野】
【0001】
全方位ビデオに対する視点メタデータに関する。
【背景技術】
【0002】
関連出願への相互参照
本出願は、共に「Viewpoint Metadata for Omnidirectional Video」という題が付され、かつその全体が参照により本明細書に組み込まれる、米国特許仮出願第62/653,363号明細書(2018年4月5日出願)、米国特許仮出願第62/675,524号明細書(2018年5月23日出願)の非仮特許出願であり、米国特許法第119条(e)の下の利益を主張するものである。
【0003】
全方位ビデオまたは360°ビデオは、メディア産業において出現しつつある急成長の新フォーマットである。それは、VRデバイスの成長する可用性により使用可能となり、視聴者に、より大きな存在感を提供することができる。
【先行技術文献】
【非特許文献】
【0004】
【文献】ISO/IEC14496-12、「Coding of Audio-Visual Objects、Part12:ISO Base Media File Format」、2015年
【文献】ISO/IEC23009-1、「Dynamic adaptive streaming over HTTP(DASH)、Part1:Media Presentation Description and Segment Formats」、2014年5月
【文献】ISO/IEC JTC1/SC29/WG11 N17399「FDIS 23090-2 Omnidirectional Media Format」、2018年2月
【文献】ISO/IEC JTC1/SC29/WG11 N17331「MPEG-I Phase 1b Requirements」、2018年2月
【文献】「Extended VSRS for 360-degree video」、 MPEG121、Gwangju、Korea、2018年1月、m41990
【文献】C.Fehn、「Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV」、SPIE Stereoscopic Displays and Virtual Reality Systems XI、vol.5291、2004年5月、93~104ページ
【文献】Paul Rosenthal、Lars Linsen、「Image-space point cloud rendering」、 Proceedings of Computer Graphics International、136~143ページ、2008年
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来のレクティリニア(rectilinear)ビデオ(2Dまたは3D)と比較して、360°ビデオは、ビデオ処理および送達に対して、新規の困難な技術的課題のセットを提示する。快適なかつ没入型のユーザ体験を可能にすることは、高いビデオ品質および非常に低い待ち時間を必要とするが、大きなビデオサイズは、高品質で360°ビデオを送達することへの障害になり得る。
【課題を解決するための手段】
【0006】
ISOベースメディアファイルフォーマット
ISO/IEC14496 MPEG-4規格内に、時間ベースのメディアの記憶(storage)を行うためのファイルフォーマットを定義するいくつかの部分がある。これらのものは、ISO/IEC14496-12、「Coding of Audio-Visual Objects、Part12:ISO Base Media File Format」、2015年に記載された、ISOベースメディアファイルフォーマット(ISO BMFF)にすべて基づいており、そこから導出されたものである。ISO BMFFは、構造的なメディア独立の定義である。ISO BMFFは、主として、オーディオ、ビデオなどのメディアデータの時間指定のある(timed)プレゼンテーションに対する構造およびメディアデータ情報を含む。ファイル構造内の異なるレベルにおけるメタデータなど、時間指定のない(un-timed)データに対するサポートも存在する。次に、ファイルの論理構造は、時間に並列なトラックのセットを含む動画のものである。ファイルの時間構造は、トラックが、時間におけるサンプルのシーケンスを含み、これらのシーケンスは、動画全体のタイムラインへとマップされる。ISO BMFFは、ボックス構造ファイルの概念に基づく。ボックス構造ファイルは、あるサイズおよびタイプを有する一連のボックス(アトム(atom)とも呼ばれる)からなる。タイプは、32ビット値であり、4文字コード(4CC)としても知られている4つのプリント可能な文字であるように通常選択される。時間指定のないデータ(un-timed data)は、ファイルレベルでメタデータボックスに含まれる、または動画ボックスにもしくは動画内のトラックと呼ばれる時間指定のあるデータ(timed data)のストリームの1つに加えることができる。
【0007】
HTTPを介する動的ストリーミング(DASH)
HTTPを介するMPEG動的適応型ストリーミング(MPEG-DASH)は、変化するネットワーク状態に動的に適応する配信フォーマットである。MPEG-DASHは、ISO/IEC23009-1、「Dynamic adaptive streaming over HTTP(DASH)、Part1:Media Presentation Description and Segment Formats」、2014年5月で述べられており、動的HTTPストリーミングは、サーバで利用可能であるように、マルチメディアコンテンツの様々なビットレート代替形態を必要とする。加えて、マルチメディアコンテンツは、異なる特性をそれぞれが有することのできるいくつかのメディアコンポーネント(例えば、オーディオ、ビデオ、テキストなど)から構成され得る。MPEG-DASHにおいては、これらの特性が、メディアプレゼンテーション記述(MPD:Media Presentation Description)により記述される。
【0008】
図2は、MPD階層的データモデルを示す。MPDは、Periodのシーケンスを記述しており、メディアコンテンツのコンポーネントのエンコードされたバージョンの一貫性のあるセットは、Priod中変化しない。各Periodは、開始時間および持続期間(duration)を有し、1つまたは複数の適合セット(AdaptationSet)からなる。
【0009】
適合セットは、言語、メディアタイプ、ピクチャの縦横比、役割、アクセス可能性、およびレーティング特性など、共通の特性を有する1つまたはいくつかのメディアコンテンツコンポーネントのエンコードされたバージョンのセットを表す。例えば、適合セットは、同じマルチメディアコンテンツのビデオコンポーネントの異なるビットレートを含むことができる。別の適合セットは、同じマルチメディアコンテンツのオーディオコンポーネントの異なるビットレート(例えば、低品質のステレオ、および高品質のサラウンド音響など)を含むことができる。各適合セットは、通常、複数の表現を含む。
【0010】
表現(representation)は、ビットレート、解像度、チャネルの数、または他の特性により、他の表現とは異なる1つまたはいくつかのメディアコンポーネントの送達可能なエンコードされたバージョンを記述する。各表現は、1つまたは複数のセグメントからなる。関連する表現のプロパティを指定するために、@id、@bandwidth、@qualityRanking、および@dependencyIdなどのRepresentation要素の属性が使用される。Representationはまた、表現から部分的な情報を記述し、かつ抽出するために、表現の一部であるサブ表現を含むことができる。サブ表現は、それらが含まれている表現の低品質バージョンにアクセスする能力を提供することができる。
【0011】
セグメントは、単一のHTTP要求で取得され得るデータの最大の単位である。各セグメントは、サーバ上でアドレス指定可能な場所であるURLを有し、それは、HTTP GET、またはバイト範囲を有するHTTP GETを用いてダウンロードすることができる。
【0012】
このデータモデルを使用するためには、DASHクライアントは、MPD XML文書を構文解析し、AdaptationSet要素のそれぞれで提供される情報に基づいて、その環境に適した適合セットの集合を選択する。各適合セット内で、クライアントは、通常、@bandwidth属性の値に基づくが、さらにクライアントの復号およびレンダリング機能も考慮して1つの表現を選択する。クライアントは、選択された表現の初期化セグメントをダウンロードし、次いで、セグメント全体、またはセグメントのバイト範囲を要求することにより、コンテンツにアクセスする。プレゼンテーションが開始した後、クライアントは、メディアセグメント、またはメディアセグメントの部分を連続的に要求し、かつメディアプレゼンテーションタイムラインに従ってコンテンツを再生することにより、メディアコンテンツを消費し続ける。クライアントは、その環境からの更新された情報を考慮して、表現(representation)を切り換えることができる。クライアントは、期間にわたって、コンテンツを連続的に再生するはずである。クライアントが、セグメントに含まれたメディアを、表現において通知されたメディアの終了に向けて消費することになると、メディアのプレゼンテーションが終了する、新しい期間が開始する、またはMPDが再度取り込まれる。
【0013】
DASHにおける記述子
MPEG-DASHは、記述子を使用して、メディアコンテンツに関するアプリケーション特有の情報を提供する。記述子要素は、すべて同様に構造化される、すなわち、それらは、URIを提供して方式を識別するための@schemeIdUri属性と、任意選択の属性@valueと、任意選択の属性@idとを含む。要素のセマンティクスは、使用される方式に特有のものである。方式を識別するURIは、URNまたはURLとすることができる。MPDは、これらの要素をどのように使用するかに関する何らかの具体的な情報を提供しない。それは、適切な方式情報で記述要素をインスタンス化するためにDASHフォーマットを使用するアプリケーション次第である。これらの要素の1つを使用するDASHアプリケーションは、まずURIの形の方式識別子を定義し、次いで、その方式識別子が使用されるとき、要素に対する値空間を定義する。構造化データが使用される場合、いずれの拡張要素または属性も、別の名前空間で定義され得る。記述子は、MPD内のいくつかのレベルで出現することができる。MPDレベルにおける要素の存在は、その要素がMPD要素の子供であることを意味する。適合セットレベルにおける要素の存在は、その要素が、AdaptationSet要素の子要素であることを示す。表現レベルにおける要素の存在は、その要素が、Representation要素の子要素であることを示す。
【0014】
全方位メディアフォーマット
全方位メディアフォーマット(OMAF)は、MPEG-Iのパート2としてMPEGにより開発されたシステム規格であり、没入型メディアの符号化、表現、記憶、および送達(delivery)のための規格のセットである。OMAFは、全方位メディアアプリケーションを可能にし、かつ主として360°ビデオ、画像、オーディオ、および関連する時間指定メタデータ(timed-metadata track)に焦点を当てるメディアフォーマットを定義する。OMAFの国際規格の最終的なドラフト(FDIS)は、2018年の早期にリリースされており、ISO/IEC JTC1/SC29/WG11 N17399「FDIS 23090-2 Omnidirectional Media Format」、2018年2月に記載されている。
【0015】
MPEG-Iのフェーズ1bの一部として、3DoFプラス運動視差、および複数の視点に対するサポートを含むいくつかの新しい機能をサポートするOMAFの拡張が、2019年に計画された。フェーズ1bに対する要件は、2018年2月にリリースされており、ISO/IEC JTC1/SC29/WG11 N17331「MPEG-I Phase 1b Requirements」、2018年2月に記載されている。OMAFおよびMPEG-Iフェーズ1b要件は、以下の概念を述べている、
・視野(FoV:Field-of-view)は、取り込まれた/記録されたコンテンツ、または物理的な表示デバイスにおける観察可能な世界の広がりである。
【0016】
・視点(Viewpoint)は、ユーザがシーンをそこから眺める点であり、それは、通常、カメラ位置に対応する。わずかな頭の動きは、必ずしも異なる視点を示唆するものではない。
・サンプルは、単一の時間に関連付けられたすべてのデータである。
・トラックは、ISOベースメディアファイルにおいて関連するサンプルの時間指定のあるシーケンス(timed sequence)である。メディアデータの場合、トラックは、画像またはサンプリングされたオーディオのシーケンスに対応する。
・ボックスは、一意のタイプ識別子および長さにより定義されるISOベースのメディアファイルにおけるオブジェクト指向ビルディングブロックである。
【0017】
いくつかの実施形態では、全方位ビデオプレゼンテーションにおいて、1つまたは複数の視点に対する位置情報をシグナリングするためのシステムおよび方法が提供される。いくつかの実施形態では、方法は、全方位ビデオプレゼンテーションに対するマニフェスト(例えば、MPEG-DASH MPD)を受信するステップであって、ビデオプレゼンテーションは、視点に関連付けられた少なくとも1つの全方位ビデオを有する、ステップと、マニフェストに基づいて、視点位置の時間指定メタデータトラック(timed-metadata track)が、視点に対して提供されるかどうかを決定するステップと、時間指定メタデータトラックが提供されるとの決定に応じて、時間指定メタデータトラックにおける情報に基づき、視点位置を決定するステップとを含む。
【0018】
いくつかの実施形態では、視点位置の時間指定メタデータトラックが提供されるかどうかを決定するステップは、マニフェストにおけるフラグが、視点位置が動的であると示しているかどうかを決定するステップを含む。
【0019】
いくつかの実施形態では、マニフェストは、第1の視点位置を示す座標を含む。
【0020】
いくつかの実施形態では、時間指定メタデータトラックは、マニフェストにおいて識別され、また方法は、時間指定メタデータトラックを取り込むステップをさらに含む。
【0021】
いくつかの実施形態では、時間指定メタデータトラックは、直交座標における視点位置を含む。他の実施形態では、時間指定メタデータトラックは、経度および緯度座標における視点位置を含む。
【0022】
いくつかの実施形態では、方法は、ユーザインターフェースをユーザに表示するステップをさらに含み、ユーザインターフェースは、全方位ビデオの視点位置に基づいて、全方位ビデオをユーザに選択できるようにする。全方位ビデオは、全方位ビデオのユーザ選択に応じて、ユーザに表示される。
【0023】
いくつかの実施形態では、全方位ビデオプレゼンテーションは、少なくとも第1の全方位ビデオ、および第2の全方位ビデオを含む。このような実施形態では、ユーザインターフェースを表示するステップは、第1の全方位ビデオをユーザに表示するステップと、第2の全方位ビデオのユーザインターフェース要素または他のインジケーションを、第2の全方位ビデオの視点の位置に対応する位置である第1の全方位ビデオの位置に表示するステップとを含むことができる。
【0024】
多視点全方位メディアプレゼンテーションにおける様々な視点に関する情報をシグナリングするための方法が本明細書で述べられる。いくつかの実施形態では、いくつかのトラックを含むコンテナファイル(それは、ISOベースメディアファイルフォーマットを使用することができる)が生成される。トラックは、トラックグループ識別子を用いてグループ化され、各トラックグループ識別子は、異なる視点に関連付けられる。いくつかの実施形態では、マニフェスト(MPEG-DASH MPDなど)が生成され、ここでマニフェストは、各ストリームに関連付けられた視点を識別する視点識別子を含む。いくつかの実施形態では、コンテナファイルおよび/またはマニフェストに含まれるメタデータは、以下のうちの1つまたは複数のものに関する情報を提供する、すなわち、各視点の位置、各視点の有効範囲、各視点が利用可能である間隔、視点間の遷移に対する遷移効果(transition effect)、および異なる視野範囲に対して推奨される投影フォーマットである。
【0025】
いくつかの実施形態では、方法は、コンテナファイル(例えば、ISOベースメディアファイルフォーマットファイル)を生成するステップを備える。少なくとも第1および第2の360度ビデオデータが受信され、第1のビデオデータは、第1の視点からのビューを表し、また第2の360度ビデオデータは、第2の視点からのビューを表す。コンテナファイルは、少なくとも第1のビデオデータおよび第2のビデオデータに対して生成される。コンテナファイルにおいて、第1のビデオデータは、トラックの第1のセットに編成され、また第2のビデオデータは、トラックの第2のセットに編成される。トラックの第1のセットにおけるトラックのそれぞれは、第1の視点に関連付けられた第1のトラックグループ識別子を含み、またトラックの第2のセットにおけるトラックのそれぞれは、第2の視点に関連付けられた第2のトラックグループ識別子を含む。
【0026】
いくつかのこのような実施形態では、トラックの第1のセットにおけるトラックのそれぞれは、第1のトラックグループ識別子を含む視点グループタイプボックスの各インスタンスを含み、またトラックの第2のセットにおけるトラックのそれぞれは、第2のトラックグループ識別子を含む視点グループタイプボックスの各インスタンスを含む。
【0027】
いくつかの実施形態では、コンテナファイルは、階層的なボックス構造に編成され、またコンテナファイルは、少なくとも第1の視点情報ボックス、および第2の視点情報ボックスを識別する視点リストボックスを含む。第1の視点情報ボックスは、少なくとも(i)第1のトラックグループ識別子、および(ii)第1の視点からのビデオが利用可能な時間期間のインジケーションを含む。第2の視点情報ボックスは、少なくとも(i)第2のトラックグループ識別子、および(ii)第2の視点からのビデオが利用可能な時間期間のインジケーションを含む。時間間隔のインジケーションは、各視点利用可能間隔ボックスのインスタンスのリストとすることができる。
【0028】
いくつかの実施形態では、コンテナファイルは、階層的なボックス構造に編成され、コンテナファイルは、少なくとも第1の視点情報ボックス、および第2の視点情報ボックスを識別する視点リストボックスを含む。第1の視点情報ボックスは、少なくとも(i)第1のトラックグループ識別子、および(ii)第1の視点の位置のインジケーションを含む。第2の視点情報ボックスは、少なくとも(i)第2のトラックグループ識別子、および(ii)第2の視点の位置のインジケーションを含む。位置のインジケーションは、いくつかの選択肢の中で特に、直交座標、または緯度および経度座標を含むことができる。
【0029】
いくつかの実施形態では、コンテナファイルは、階層的なボックス構造に編成され、またコンテナファイルは、少なくとも第1の視点情報ボックス、および第2の視点情報ボックスを識別する視点リストボックスを含む。第1の視点情報ボックスは、少なくとも(i)第1のトラックグループ識別子、および(ii)第1の視点の有効範囲のインジケーションを含む。第2の視点情報ボックスは、少なくとも(i)第2のトラックグループ識別子、および(ii)第2の視点の有効範囲のインジケーションを含む。
【0030】
いくつかの実施形態では、コンテナファイルは、階層的なボックス構造に編成され、コンテナファイルは、少なくとも1つの遷移効果ボックスを識別する遷移効果リストボックスを含み、また各遷移効果ボックスは、(i)ソース視点の識別子、(ii)宛先視点の識別子、および(iii)遷移タイプの識別子を含む。遷移タイプの識別子は、いくつかの選択肢の中で特に、基本的な遷移、視点経路の遷移、または補助情報視点遷移を識別することができる。視点経路遷移の場合、視点識別子のリストを含む経路視点遷移ボックスが提供され得る。補助情報視点遷移の場合、トラック識別子を含む補助情報視点遷移ボックスが提供され得る。
【0031】
いくつかの実施形態では、コンテナファイルは、メタボックスを含む階層的なボックス構造に編成され、またメタボックスは、少なくとも1つの推奨される投影リストボックスを識別する。各推奨される投影リストボックスは、(i)投影タイプ、および(ii)投影タイプに対応する視野範囲を識別する情報を含むことができる。視野範囲を識別する情報は、(i)最小の水平視野角、(ii)最大の水平視野角、(iii)最小の垂直視野角、および(iv)最大の垂直視野角を含むことができる。
【0032】
いくつかの実施形態では、MPEG-DASH MPDなどのマニフェストを生成するための方法が提供される。第1の視点からのビューを表す少なくとも第1の360度ビデオデータ、および第2の視点からのビューを表す第2の360度ビデオデータが受信される。マニフェストが生成される。マニフェストにおいては、ストリームの第1のセットにおける少なくとも1つのストリームが識別され、第1のセットにおける各ストリームは、第1のビデオデータの少なくとも一部を表す。マニフェストにおいて、ストリームの第2のセットにおける少なくとも1つのストリームがまた識別され、第2のセットにおける各ストリームは、第2のビデオデータの少なくとも一部を表す。第1のセットにおけるストリームのそれぞれは、マニフェストにおいて、第1の視点識別子に関連付けられ、また第2のセットにおけるストリームのそれぞれは、マニフェストにおいて、第2の視点識別子に関連付けられる。
【0033】
いくつかの実施形態では、第1のセットにおけるストリームのそれぞれは、マニフェストにおいて、第1の視点識別子を属性として有する各適合セットに関連付けられ、また第2のセットにおけるストリームのそれぞれは、マニフェストにおいて、第2の視点識別子を属性として有する各適合セットに関連付けられる。
【0034】
いくつかの実施形態では、第1のセットにおけるストリームのそれぞれは、マニフェストにおいて、第1の記述子に第1の視点識別子を有する各適合セットに関連付けられ、また第2のセットにおけるストリームのそれぞれは、マニフェストにおいて、第2の記述子に第2の視点識別子を有する各適合セットに関連付けられる。
【0035】
いくつかの実施形態では、マニフェストは、視点のそれぞれに対する有効範囲を示す属性をさらに含む。いくつかの実施形態では、マニフェストは、視点のそれぞれに対する位置を示す属性をさらに含む。位置を示す属性は、直交座標、または緯度および経度座標を含むことができる。
【0036】
いくつかの実施形態では、マニフェストは、各視点に対して、各視点に対するビデオが利用可能である少なくとも1つの時間期間を示す情報をさらに含む。
【0037】
マニフェストを生成するための方法のいくつかの実施形態では、第1のビデオデータおよび第2のビデオデータは、コンテナファイルで受信され、コンテナファイル中で、第1のビデオデータは、トラックの第1のセットへと編成され、また第2のビデオデータは、トラックの第2のセットに編成され、トラックの第1のセットにおけるトラックのそれぞれは、第1の視点に関連付けられた第1のトラックグループ識別子を含み、またトラックの第2のセットにおけるトラックのそれぞれは、第2の視点に関連付けられた第2のトラックグループ識別子を含む。マニフェストにおいて使用される視点識別子は、コンテナファイルにおける各トラックグループ識別子に等しいものとすることができる。
【0038】
いくつかの実施形態は、頭部搭載型ディスプレイ、または360度ビデオに対する他の表示デバイスを備えるデバイスなど、クライアントデバイスにより実施され得る。いくつかのこのような方法では、複数の360度ビデオストリームを識別するマニフェストが受信される、ここで、マニフェストは、各それぞれのストリームの視点位置を識別する情報を含む。マニフェストにおいて識別される第1のビデオストリームが取得され、表示される。マニフェストにおいて識別される第2のビデオストリームの視点位置を示すユーザインターフェース要素は、第1のビデオストリームの表示上にオーバレイされる。ユーザインターフェース要素の選択に応じて、第2のビデオストリームが取得されて表示される。
【0039】
いくつかのこのような実施形態では、マニフェストは、識別されたストリームの少なくとも1つの有効範囲を識別する情報をさらに含み、クライアントは、有効範囲のインジケーションをさらに表示する。
【0040】
いくつかの実施形態では、マニフェストは、第2のビデオストリームの利用可能な期間を識別する情報をさらに含み、ユーザインターフェース要素が、利用可能な期間中に限って表示される。
【0041】
いくつかの実施形態では、マニフェストは、第1のビデオストリームから、第2のビデオストリームへの遷移に対する遷移タイプを識別する情報をさらに含む。ユーザインターフェース要素の選択に応じて、クライアントは、識別された遷移タイプを有する遷移を提示し、遷移の提示の後、第2のビデオストリームが表示される。
【0042】
いくつかの実施形態では、マニフェストは、少なくとも1つの仮想視点の位置を識別する情報をさらに含む。仮想視点の選択に応じて、クライアントは、仮想視点からのビューを合成し、合成されたビューを表示する。1つまたは複数の合成されたビューは、遷移において使用することができる。
【0043】
投影フォーマットを選択するための方法がさらに述べられる。いくつかの実施形態では、クライアントは、複数の360度ビデオストリームを識別するマニフェストを受信する。マニフェストは、ビデオストリームのそれぞれの各投影フォーマットを識別する情報を含む。マニフェストは、投影フォーマットのそれぞれに対する視野サイズの各範囲を識別する情報をさらに含む。クライアントは、表示のための視野サイズを決定する。クライアントは、次いで、決定された視野サイズが、選択されたビデオストリームの投影フォーマットに対して、視野サイズの識別された範囲に含まれるように、ビデオストリームの少なくとも1つを選択する。クライアントは、選択されたビデオストリームの少なくとも1つを取得し、決定された視野サイズを用いて、取得されたビデオストリームを表示する。
【0044】
本開示にさらに含まれるものは、プロセッサと、プロセッサで実行されたとき、本明細書で述べられる方法のいずれかを実施するように動作可能な命令を記憶する非一時的なコンピュータ可読媒体とを備えるシステムである。本開示にさらに含まれるものは、本明細書で開示される方法を用いて生成される1つまたは複数のコンテナファイル、またはマニフェストを記憶する非一時的なコンピュータ可読記憶媒体である。
【図面の簡単な説明】
【0045】
図1A】1つ以上の実施形態を実施できる例示的通信システムの図である。
図1B】実施形態に従って図1Aの通信システム内で使用できる例示的無線送受信ユニット(WTRU)を示すシステム図である。
図2】MPDの階層的なデータモデルを示す図である。
図3】プレゼンテーション例で、利用可能な視点を示すユーザインターフェース(UI)を示す図である。
図4】利用可能な視点アイコンをHMDディスプレイ上にオーバレイすることで複数の視点を示す別のUI設計例を示す図である。
図5】様々な有効範囲を有する視点の例を示す図である。
図6】時間経過に伴う視点の利用可能性の変化を示す図である。
図7】実際の視点と中間の仮想視点の例を示す図である。
図8】基準視点からターゲット仮想視点へのピクセルマッピングを示す図である。
【発明を実施するための形態】
【0046】
実施形態を実施するための例示的なネットワーク
図1Aは、1つまたは複数の開示される実施形態が実施され得る例示的な通信システム100を示す図である。通信システム100は、複数の無線ユーザに、音声、データ、ビデオ、メッセージング、同報通信などのコンテンツを提供する複数のアクセスシステムとすることができる。通信システム100は、複数の無線ユーザに、無線帯域幅を含むシステムリソースを共用することにより、このようなコンテンツにアクセスできるようにする。例えば、通信システム100は、符号分割多元接続(CDMA)、時分割多元接続(TDMA)、周波数分割多元接続(FDMA)、直交FDMA(OFDMA)、シングルキャリアFDMA(SC-FDMA)、ゼロテールユニークワードDFT拡散OFDM(ZT UW DTS-s OFDM)、ユニークワードOFDM(UW-OFDM)、リソースブロック-フィルタ処理されたOFDM(resource block-filtered OFDM)、フィルタバンクマルチキャリア(FBMC)、および同様のものなど、1つまたは複数のチャネルアクセス法を使用することができる。
【0047】
図1Aで示すように、通信システム100は、無線送受信ユニット(WTRU)102a、102b、102c、102d、RAN104、CN106、公衆交換電話網(PSTN)108、インターネット110、および他のネットワーク112を含むことができるが、開示される実施形態は、任意の数のWTRU、基地局、ネットワーク、および/またはネットワーク要素を企図していることが理解されよう。WTRU102a、102b、102c、102dのそれぞれは、無線環境で動作し、かつ/または通信するように構成された任意のタイプのデバイスとすることができる。例として、WTRU102a、102b、102c、102dは、そのいずれも「ステーション」および/または「STA」と呼ばれ得るが、無線信号を送信かつ/または受信するように構成され、またユーザ機器(UE)、移動局、固定または移動加入者ユニット、サブスクリプションベースのユニット、ページャ、セルラ式電話、携帯情報端末(PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポットもしくはMi-Fiデバイス、モノのインターネット(IoT)デバイス、時計もしくは他の装着可能なもの、頭部搭載型ディスプレイ(HMD)、車両、ドローン、医用デバイスおよび応用(例えば、遠隔手術)、産業用デバイスおよび応用(例えば、産業および/または自動化処理チェーン状況で動作するロボットおよび/または他の無線デバイス)、家庭用電子デバイス、商用および/または産業用無線ネットワークで動作するデバイスなどを含むことができる。WTRU102a、102b、102c、および102dのいずれも、相互に交換可能にUEと呼ぶことができる。
【0048】
通信システム100はまた、基地局114aおよび/または基地局114bを含むことができる。基地局114a、114bのそれぞれは、CN106/115、インターネット110、および/または他のネットワーク112などの1つまたは複数の通信ネットワークへのアクセスを容易するために、WTRU102a、102b、102c、102dの少なくとも1つと無線でインターフェースをとるように構成された任意のタイプのデバイスとすることができる。例として、基地局114a、114bは、送受信機基地局(BTS)、ノードB、eNodeB、ホームノードB、ホームeNodeB、gNB、NRノードB、サイトコントローラ、アクセスポイント(AP)、無線ルータ、および同様のものとすることができる。基地局114a、114bが、それぞれ、単一の要素として示されているが、基地局114a、114bは、任意の数の相互接続された基地局および/またはネットワーク要素を含み得ることが理解されよう。
【0049】
基地局114aは、RAN104/113の一部とすることができ、それはまた、基地局制御装置(BSC)、無線ネットワーク制御装置(RNC)、中継ノードなどの他の基地局および/またはネットワーク要素(図示せず)を含むことができる。基地局114aおよび/または基地局114bは、セル(図示せず)と呼ばれ得る1つまたは複数のキャリア周波数で無線信号を送信および/または受信するように構成され得る。これらの周波数は、認可スペクトル、未認可スペクトル、または認可および未認可スペクトルの組合せとすることができる。セルは、時間経過に対して比較的固定され得る、または変化し得る特定の地理学的エリアに対して無線サービスを行うためのカバリッジを提供することができる。セルは、セルセクタへとさらに分割され得る。例えば、基地局114aに関連付けられたセルは、3つのセクタに分割することができる。したがって、一実施形態では、基地局114aは、3つの送受信機、すなわち、セルの各セクタに対して1つを含むことができる。実施形態では、基地局114aは、多入力多出力(MIMO)技術を使用することができ、またセルの各セクタに対して複数の送受信機を利用することができる。例えば、望ましい空間方向において、信号を送信および/または受信するために、ビーム形成を使用することができる。
【0050】
基地局114a、114bは、無線インターフェース116を介して、WTRU102a、102b、102c、102dの1つまたは複数のものと通信することができ、それは、任意の適切な無線通信リンクとすることができる(例えば、無線周波数(RF)、マイクロ波、センチメートル波、マイクロメートル波、赤外線(IR)、紫外線(UV)、可視光など)。無線インターフェース116は、任意の適切な無線アクセス技術(RAT)を用いて確立することができる。
【0051】
より具体的には、上記のように、通信システム100は、複数のアクセスシステムとすることができ、またCDMA、TDMA、FDMA、OFDMA、SC-FDMA、および同様のものなど、1つまたは複数のチャネルアクセス方式を使用することができる。例えば、RAN104/113における基地局114a、およびWTRU102a、102b、102cは、広帯域CDMA(WCDMA)を用いて無線インターフェース115/116/117を確立できるユニバーサル移動体通信システム(UMTS)地上無線アクセス(UTRA)などの無線技術を実施することができる。WCDMAは、高速パケットアクセス(HSPA)および/または進化型HSPA(HSPA+)などの通信プロトコルを含むことができる。HSPAは、高速ダウンリンク(DL)パケットアクセス(HSDPA)および/または高速ULパケットアクセス(HSUPA)を含むことができる。
【0052】
実施形態では、基地局114aおよびWTRU102a、102b、102cは、進化型UMTS地上無線アクセス(E-UTRA)などの無線技術を実施することができ、それは、ロングタームエボリューション(LTE)、および/またはLTEアドバンスト(LTE-A)、および/またはLTEアドバンストプロ(LTE-A Pro)を用いて、無線インターフェース116を確立することができる。
【0053】
実施形態では、基地局114aおよびWTRU102a、102b、102cは、新無線(NR)を用いる無線インターフェース116を確立できるNR無線アクセスなどの無線技術を実施することができる。
【0054】
実施形態では、基地局114aおよびWTRU102a、102b、102cは、複数の無線アクセス技術を実施することができる。例えば、基地局114aおよびWTRU102a、102b、102cは、例えば、デュアルコネクティビティ(DC)原理を用いて、LTE無線アクセス、およびNR無線アクセスを共に実施することができる。したがって、WTRU102a、102b、102cにより利用される無線インターフェースは、複数タイプの無線アクセス技術により、かつ/または複数タイプの基地局(例えば、eNBおよびgNB)との間で送られる送信により特徴付けることができる。
【0055】
他の実施形態では、基地局114aおよびWTRU102a、102b、102cは、IEEE802.11(すなわち、無線の忠実度(Wireless Fidelity)(WiFi)、IEEE802.16(すなわち、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暫定基準2000(IS-2000)、暫定基準95(IS-95)、暫定基準856(IS-856)、グローバルシステムフォーモバイル通信(GSM)、GSMエボリューション拡張データレート(EDGE)、GSM EDGE(GERAN)、および同様のものなどの無線技術を実施することができる。
【0056】
図1Aの基地局114bは、例えば、無線ルータ、ホームノードB、ホームeNodeB、またはアクセスポイントとすることができ、また職場、家庭、車両、キャンパス、産業施設、空中回廊(例えば、ドローンで使用される)、車道、および同様の場所など、局所化されたエリアにおける無線接続を容易にするために任意の適切なRATを利用することができる。一実施形態では、基地局114bおよびWTRU102c、102dは、無線ローカルエリアネットワーク(WLAN)を確立するために、IEEE802.11などの無線技術を実施することができる。実施形態では、基地局114bおよびWTRU102c、102dは、無線パーソナルエリアネットワーク(WPAN)を確立するために、IEEE802.15などの無線技術を実施することができる。さらに別の実施形態では、基地局114bおよびWTRU102c、102dは、ピコセルまたはフェムトセルを確立するために、セルラベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NRなど)を利用することができる。図1Aで示されるように、基地局114bは、インターネット110への直接接続を有することができる。したがって、基地局114bは、CN106/115を介してインターネット110にアクセスする必要のないこともあり得る。
【0057】
RAN104/113は、CN106/115と通信することができ、それは、WTRU102a、102b、102c、102dの1つまたは複数のものに対して、音声、データ、アプリケーション、および/またはボイスオーバインターネットプロトコル(VoIP)サービスを提供するように構成された任意のタイプのネットワークとすることができる。データは、異なるスループット要件、待ち時間要件、誤り許容要件、信頼性要件、データスループット要件、移動性要件、および同様のものなど、様々なサービス品質(QoS)要件を有することができる。CN106/115は、呼制御、課金サービス、モバイル位置ベースサービス、プリペイドコーリング、インターネット接続、ビデオ配信などを提供し、かつ/またはユーザ認証などの高水準のセキュリティ機能を実施することができる。図1Aで示されていないが、RAN104/113および/またはCN106/115は、RAN104/113と同じRAT、または異なるRATを使用する他のRANと直接または間接的に通信できることが理解されよう。例えば、NR無線技術を利用できるRAN104/113に接続されるのに加えて、CN106/115はまた、GSM、UMTS、CDMA2000、WiMAX、E-UTRA、またはWiFi無線技術を使用する別のRAN(図示せず)と通信することもできる。
【0058】
CN106/115はまた、PSTN108、インターネット110、および/または他のネットワーク112にアクセスするための、WTRU102a、102b、102c、102dに対するゲートウェイとして働くことができる。PSTN108は、基本電話サービス(POTS)を提供する回線交換電話網を含むことができる。インターネット110は、TCP/IPインターネットプロトコル群における伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、および/またはインターネットプロトコル(IP)などの共通の通信プロトコルを使用する相互接続されたコンピュータネットワークおよびデバイスの大域システムを含むことができる。ネットワーク112は、他のサービスプロバイダにより所有され、かつ/または運営される有線および/または無線通信ネットワークを含むことができる。例えば、ネットワーク112は、RAN104/113と同じRAT、または異なるRATを使用できる1つまたは複数のRANに接続された別のCNを含むことができる。
【0059】
通信システム100におけるWTRU102a、102b、102c、102dのいくつか、またはすべては、マルチモード機能を含むことができる(例えばWTRU102a、102b、102c、102dは、様々な無線リンクを介して、様々な無線ネットワークと通信するための複数の送受信機を含むことができる)。例えば、図1Aで示されるWTRU102cは、セルラベースの無線技術を使用できる基地局114aと、かつIEEE802無線技術を使用できる基地局114bと通信するように構成することができる。
【0060】
図1Bは、例示的なWTRU102を示すシステム図である。図1Bで示されるように、WTRU102は、いくつかある中で特に、プロセッサ118、送受信機120、送信/受信エレメント122、スピーカ/マイクロフォン124、キーパッド126、ディスプレイ/タッチパッド128、取外し不能メモリ130、取外し可能メモリ132、電源134、全地球測位システム(GPS)チップセット136、および/または他の周辺装置138を含むことができる。WTRU102は、前述の要素の任意の下位の組合せを含むことができるが、なお実施形態との一貫性を有していることが理解されよう。
【0061】
プロセッサ118は、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DCPコアと関連付けられた1つまたは複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、書替え可能ゲートアレイ(FPGA)回路、任意の他のタイプの集積回路(IC)、状態機械、および同様のものとすることができる。プロセッサ118は、信号符号化、データ処理、電力制御、入力/出力処理、および/またはWTRU102を無線環境で動作できるようにする任意の他の機能を実施することができる。プロセッサ118は、送受信機120に結合され得るが、送受信機120は、送信/受信エレメント122に結合され得る。図1Bは、プロセッサ118と送受信機120とを別々の構成要素として示しているが、プロセッサ118および送受信機120は、電子パッケージまたはチップにおいて共に一体化され得ることが理解されよう。
【0062】
送信/受信エレメント122は、無線インターフェース116を介して、基地局(例えば、基地局114a)に信号を送信する、または信号を受信するように構成され得る。例えば、一実施形態では、送信/受信エレメント122は、RF信号を送信および/または受信するように構成されたアンテナとすることができる。実施形態では、送信/受信エレメント122は、例えば、IR、UV、または可視光信号を送信および/または受信するように構成された発光体/検出器とすることができる。さらに別の実施形態では、送信/受信エレメント122は、RFおよび光信号を共に送信および/または受信するように構成することができる。送信/受信エレメント122は、無線信号の任意の組合せを送信および/または受信するように構成できることが理解されよう。
【0063】
送信/受信エレメント122が、図1Bで単一の要素として示されているが、WTRU102は、任意の数の送信/受信エレメント122を含むことができる。より具体的には、WTRU102は、MIMO技術を使用することができる。したがって、一実施形態では、WTRU102は、無線インターフェース116を介して、無線信号を送信および受信するために、2つ以上の送信/受信エレメント122(例えば、複数のアンテナ)を含むことができる。
【0064】
送受信機120は、送信/受信エレメント122により送信される信号を変調し、かつ送信/受信エレメント122により受信される信号を復調するように構成され得る。前述のように、WTRU102は、マルチモード機能を有することができる。したがって、送受信機120は、WTRU102が、例えば、NRおよびIEEE802.11などの複数のRATにより通信できるようにするための複数の送受信機を含むことができる。
【0065】
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128(例えば、液晶表示(LCD)ディスプレイユニット、または有機発光ダイオード(OLED)ディスプレイユニット)に結合され得るが、またそこからユーザ入力データを受信することができる。プロセッサ118はまた、ユーザデータを、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128に出力することができる。加えて、プロセッサ118は、取外し不能メモリ130、および/または取外し可能メモリ132など、任意のタイプの適切なメモリからの情報にアクセスし、かつデータをそこに記憶することができる。取外し不能メモリ130は、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、ハードディスク、または任意の他のタイプのメモリ記憶デバイスを含むことができる。取外し可能メモリ132は、加入者識別モジュール(SIM)カード、メモリスティック、セキュアデジタル(SD)メモリカード、および同様のものを含むことができる。他の実施形態では、プロセッサ118は、サーバまたは家庭用コンピュータ(図示せず)上など、WTRU102上に物理的に位置していないメモリからの情報にアクセスし、かつそこにデータを記憶することができる。
【0066】
プロセッサ118は、電源134から電力を受け取ることができ、またWTRU102における他の構成要素に電力を配布し、かつ/または制御するように構成され得る。電源134は、WTRU102に電力を供給するための任意の適切なデバイスとすることができる。例えば、電源134は、1つまたは複数の乾電池(例えば、ニッケルカドミウム(NiCd)、ニッケル亜鉛(NiZn)、ニッケル水素(NiMH)、リチウムイオン(Li-ion)など)、太陽電池、燃料電池、および同様のものを含むことができる。
【0067】
プロセッサ118はまた、WTRU102の現在位置に関する位置情報(例えば、経度および緯度)を提供するように構成され得るGPSチップセット136に結合することができる。GPSチップセット136からの情報に加えて、またはそれに代えて、WTRU102は、基地局(例えば、基地局114a、114b)から無線インターフェース116を介して位置情報を受け取り、かつ/または2つ以上の近傍の基地局から受信される信号のタイミングに基づき、その位置を決定することができる。WTRU102は、実施形態との一貫性を有しながら、任意の適切な位置決定法により位置情報を取得できることが理解されよう。
【0068】
プロセッサ118は、さらなる特徴、機能性、および/または有線もしくは無線接続性を提供する1つまたは複数のソフトウェアおよび/またはハードウェアモジュールを含むことのできる他の周辺装置138にさらに結合され得る。例えば、周辺装置138は、加速度計、電子コンパス、衛星送受信機、デジタルカメラ(写真および/またはビデオ用)、ユニバーサルシリアルバス(USB)ポート、振動デバイス、テレビジョン送受信機、手を使用しないヘッドセット、Bluetooth(登録商標)モジュール、周波数変調(FM)無線ユニット、デジタルミュージックプレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ、仮想現実および/または拡張現実感(VR/AR)デバイス、活動量計(activity tracker)、および同様のものを含むことができる。周辺装置138は、1つまたは複数のセンサを含むことができ、センサは、ジャイロスコープ、加速度計、ホール効果センサ、磁力計、方向センサ、近接センサ、温度センサ、時間センサ、ジオロケーションセンサ、高度計、光センサ、タッチセンサ、気圧計、ジェスチャセンサ、生物測定センサ、および/または湿度センサのうちの1つまたは複数のものとすることができる。
【0069】
WTRU102は、全二重無線を含むことができ、その場合、(例えば、UL(例えば、送信用)とダウンリンク(例えば、受信用)の両方に対して特定のサブフレームに関連付けられた)信号のいくつか、またはすべての送信および受信は一致しており、かつ/または同時に行うことができる。全二重無線は、干渉管理ユニットを含み、ハードウェア(例えば、チョーク)による、またはプロセッサによる(例えば、別個のプロセッサ(図示せず)もしくはプロセッサ118による)信号処理による自己干渉を低減する、かつ/または実質的になくすことができる。実施形態では、WRTU102は、半二重無線を含むことができ、その場合、(例えば、UL(例えば、送信用)またはダウンリンク(例えば、受信用)に対して特定のサブフレームに関連付けられた)信号のいくつか、またはすべての送信および受信。
【0070】
図1A図1Bでは、WTRUが無線端末として示されているが、いくつかの代表的な実施形態では、このような端末は、通信ネットワークとの有線通信インターフェースを(例えば、一時的に、または恒久的に)使用できることも企図される。
【0071】
代表的な実施形態では、他のネットワーク112は、WLANとすることができる。
【0072】
インフラストラクチャ基本サービスセット(BSS)モードにおけるWLANは、BSSに対するアクセスポイント(AP)と、APに関連付けられた1つまたは複数のステーション(STA)とを有することができる。APは、配信システム(DS)に対して、またはトラフィックをBSSにかつ/もしくはBSSから搬送する別タイプの有線/無線ネットワークに対してアクセスできる、またはインターフェースを有することができる。BSSの外側から生じたSTAへのトラフィックは、APを通して達することができ、またSTAに送達され得る。BSSの外側の宛先へのSTAから生じたトラフィックは、APに送られて、各宛先へ送達され得る。BSS内のSTA間のトラフィックは、例えば、APを通して送ることができ、その場合、ソースSTAは、トラフィックをAPに送ることができ、またAPは、トラフィックを宛先STAに送達することができる。BSS内のSTA間のトラフィックは、ピアツーピアトラフィックであると見なされる、かつ/またはそのように呼ぶことができる。ピアツーピアトラフィックは、ダイレクトリンク設定(DLS)を用いてソースと宛先STAの間で(例えば、その間で直接)送ることができる。いくつかの代表的な実施形態では、DLSは、802.11e DLS、または802.11zトンネルDLS(TDLS)を用いることができる。独立BSS(IBSS)モードを用いるWLANは、APを有しないこともあり、またIBSS内の、またはIBSSを用いるSTA(例えば、STAのすべて)は、互いに直接通信することができる。通信のIBSSモードは、本明細書で、通信の「アドホック」モードと呼ぶこともある。
【0073】
802.11acインフラストラクチャ動作モード、または同様の動作モードを使用するとき、APは、プライマリチャネルなどの固定チャネルでビーコンを送信することができる。プライマリチャネルは、固定幅(例えば、20MHzの広さの帯域幅)、またはシグナリングを介して動的に設定される幅とすることができる。プライマリチャネルは、BSSの動作チャネルとすることができ、またAPとの接続を確立するためにSTAによって使用され得る。いくつかの代表的な実施形態では、例えば、802.11システムにおいて、衝突回避を備えたキャリア感知多重アクセス(CSMA/CA)を実施することができる。CSMA/CAの場合、APを含むSTA(例えば、あらゆるSTA)は、プライマリチャネルを感知することができる。特定のSTAにより、プライマリチャネルが、ビジーであると感知/検出される、かつ/または決定された場合、特定のSTAは、後退することになり得る。1つのSTA(例えば、1つのステーションだけ)が、所与のBSSにおける任意の所与の時間に送信することができる。
【0074】
高スループット(HT)STAは、通信のために40MHz幅チャネルを使用することができるが、それは、例えば、プライマリ20MHzチャネルを、隣接または非隣接の20MHzチャネルと組み合わせることにより、40MHz幅チャネルを形成する。
【0075】
超高スループット(VHT)STAは、20MHz、40MHz、80MHz、および/または160MHz幅チャネルをサポートすることができる。40MHz、および/または80MHzチャネルは、隣接する20MHzチャネルを組み合わせることにより形成することができる。160MHzチャネルは、8個の隣接する20MHzチャネルを組み合わせることにより、または2つの非隣接の80MHzチャネルを組み合わせることにより形成することができるが、それは、80+80構成と呼ぶことができる。80+80構成の場合、チャネルエンコーディングの後、データを、2つのストリームへと分割できるセグメントパーサを通すことができる。逆高速フーリエ変換(IFFT)処理、および時間領域処理を、各ストリームに対して別々に行うことができる。ストリームは、2つの80MHzチャネルにマップすることができ、またデータは、送信STAにより送信され得る。受信STAの受信機において、80+80構成に対する上記で述べた動作は、逆にすることができ、また組み合わされたデータを、メディアアクセス制御(MAC)に送ることができる。
【0076】
サブ1GHz動作モードが、802.11afおよび802.11ahによりサポートされる。チャネル動作帯域幅、およびキャリアは、802.11nおよび802.11acで使用されるものに対して、802.11afおよび802.11ahにおいて低減される。802.11afは、TVホワイトスペース(TVWS)スペクトルにおける5MHz、10MHz、および20MHz帯域幅をサポートし、また802.11ahは、非TVWSスペクトルを用いて1MHz、2MHz、4MHz、8MHz、および16MHz帯域幅をサポートする。代表的な実施形態によれば、802.11ahは、マクロカバレッジエリアにおけるMTCデバイスなど、メータタイプ制御/マシンタイプ通信をサポートすることができる。MTCデバイスは、例えば、いくつかの、かつ/または限られた帯域幅に対するサポート(例えば、それに対するサポートだけ)を含む限定された機能など、いくつかの機能を有することができる。MTCデバイスは、(例えば、非常に長い電池寿命を維持するために)閾値を超える電池寿命を有する電池を含むことができる。
【0077】
802.11n、802.11ac、802.11af、および802.11ahなど、複数のチャネル、およびチャネル帯域幅をサポートできるWLANシステムは、プライマリチャネルと指定できるチャネルを含む。プライマリチャネルは、BSSにおけるすべてのSTAによりサポートされる最大の共通動作帯域幅に等しい帯域幅を有することができる。プライマリチャネルの帯域幅は、BSSにおいて動作するすべてのSTAの中から、最少の帯域幅動作モードをサポートするSTAにより設定され、かつ/または制限され得る。802.11ahの例では、プライマリチャネルは、AP、およびBSSにおける他のSTAが、2MHz、4MHz、8MHz、16MHz、および/または他のチャネル帯域幅動作モードをサポートする場合であっても、1MHzモードをサポートする(例えば、サポートするだけ)STA(例えば、MTCタイプデバイス)に対する1MHz幅とすることができる。キャリア感知および/またはネットワーク割当てベクトル(NAV)設定は、プライマリチャネルの状態に依存することがある。例えば、STA(1MHz動作モードだけをサポートする)がAPに送信することに起因して、プライマリチャネルがビジーである場合、利用可能な周波数帯域全体は、周波数帯域の大部分がアイドル状態のままであり、かつ利用可能であるとしても、ビジーであると見なされ得る。
【0078】
米国では、802.11ahにより使用され得る利用可能な周波数帯は、902MHzから928MHzである。韓国では、利用可能な周波数帯は、917.5MHzから923.5MHzである。日本では、利用可能な周波数帯は、916.5MHzから927.5MHzである。802.11ahに利用可能な全体の帯域幅は、国の法規に応じて6MHzから26MHzである。
【0079】
図1A図1Bの図、および図1A図1Bの対応する記述において、WTRU102a~d、基地局114a~b、eNodeB160a~c、MME162、SGW164、PGW166、gNB180a~c、AMF182a~b、UPF184a~b、SMF183a~b、DN185a~b、および/または本明細書で述べられる任意の他のデバイスのうちの1つまたは複数のものに関して本明細書で述べられる機能のうちの1つもしくは複数のもの、またはすべては、1つまたは複数のエミュレーションデバイス(図示せず)によって実施することができる。エミュレーションデバイスは、本明細書で述べられる機能のうちの1つまたは複数のもの、またはすべてをエミュレートするように構成された1つまたは複数のデバイスとすることができる。例えば、エミュレーションデバイスは、他のデバイスを試験するために、ならびに/またはネットワークおよび/またはWTRU機能をシミュレートするために使用することができる。
【0080】
エミュレーションデバイスは、実験室環境で、かつ/または運営者ネットワーク環境で他のデバイスの1つまたは複数の試験を実施するように設計され得る。例えば、1つまたは複数のエミュレーションデバイスは、1つまたは複数の、またはすべての機能を実施できるが、通信ネットワーク内の他のデバイスを試験するために、有線および/または無線通信ネットワークの一部として、完全に、または部分的に実施される、かつ/または展開される。1つまたは複数のエミュレーションデバイスは、1つまたは複数の、またはすべての機能を実施できるが、有線および/または無線通信ネットワークの一部として一時的に実施/または展開される。エミュレーションデバイスは、試験を行うために別のデバイスに直接結合され得る、かつ/または空中を介する無線通信を用いて試験を実施することができる。
【0081】
1つまたは複数のエミュレーションデバイスは、1つまたは複数の、すべても含む機能を実施することができるが、有線および/または無線通信ネットワークの一部としては実施/展開されない。例えば、エミュレーションデバイスは、1つまたは複数の構成要素の試験を実施するために、試験用実験室、および/または展開されない(例えば、試験用の)有線および/または無線通信ネットワークにおける試験シナリオで利用することができる。1つまたは複数のエミュレーションデバイスは、試験装置とすることができる。データを送信および/または受信するために、直接RF結合、および/またはRF回路(例えば、1つまたは複数のアンテナを含むことができる)を介する無線通信が、エミュレーションデバイスによって使用され得る。
【0082】
詳細な記述
いくつかの実施形態で対処される問題
全方位ビデオは、視聴者が、中心の視聴位置の周囲の全方向において、ビデオを見ることができるようにする360度体験を提供する。しかし、視聴者は、概して、単一の視点に限定されてきており、視聴者の視点を変化させることによりシーンをナビゲートすることはできない。オリンピック競技開会式、NFLまたはNBAトーナメント、カーニバルのパレードなどの大規模なイベントに対しては、シーン全体を捉えるには単一の360°カメラは十分ではない。複数の視点からシーンを捉えることにより、またユーザが、ビデオを見ながら、異なる視点間を切り換えられるようにすることにより、より向上させた体験を提供することができる。図3は、いくつかの実施形態でユーザに提示されて、利用可能な視点を示すことのできるユーザインターフェースを示す。この例では、ユーザインターフェースは、会場の上から見下ろした図を表示し、かつ利用可能な視点の位置のインジケーションを提供する。この場合、視点302は、アクティブな視点(ユーザが、現在プレゼンテーションを体験している視点)であり、強調して表示される。視点304、306、308、310、312、314、316などの他の視点が表示され、それらの利用可能性を示すことができるが、現在、ユーザによって選択されていない。
【0083】
再生中、図3で示されるものなど、ユーザインターフェースは、例えば、4つのコーナのうちの1つにおいてレンダリングされたフレーム上に重畳され、ユーザは、タッチスクリーンまたはHMDコントローラなどのユーザ入力デバイスを用いて、様々な視点を選択することができる。次に視点の切換えがトリガされ、ユーザのビューが、ターゲット視点からのフレームが表示上にレンダリングされるように遷移される。いくつかの実施形態では、遷移効果(Transition effect:例えば、フェードアウト/フェードイン)が、視点間の遷移に付随する。
【0084】
図4は、頭部搭載型ディスプレイに表示されたコンテンツ400上のオーバレイとして示されたアイコンを用いて、利用可能な視点の位置が示されている別のユーザ設計例を示す。ユーザのビューにおける各視点アイコンの位置は、利用可能な視点の空間位置に対応する。図4の例では、アイコン406、414は、それぞれ、図3の視点306、314に対応するように表示することができる。視点アイコンは、ユーザが、シーン内の3次元空間において各視点位置を知覚できるようにする正しい深さ効果を用いてレンダリングされ得る。例えば、アイコン416(視点位置316に相当する)は、アイコン406、414よりも大きな寸法で表示されて、アイコン416に対応する視点が、現在の視点により近いことを示すことができる。ユーザは、レンダリングされたシーンのユーザのビューを、関連する視点に切り換えるために、視点アイコンを選択することができる。
【0085】
例示的な実施形態では、複数の視点に対するサポートを可能にするために、利用可能な視点に関する情報は、プレーヤ(例えば、HMDなどのユーザデバイスで動作するDASHクライアントを備えた全方位メディアプレーヤとすることができる)にシグナリングされる。この情報は、利用可能な視点の数、各視点の位置および範囲、ならびにビデオデータが視点に対していつ利用できるかなどの諸態様を含むことができる。さらに、大部分の全方位メディアプレゼンテーションは、頭部搭載型ディスプレイを介して体験されるので、視点の突然の変化は、仮想環境に没入している視聴者には不自然に感じられるおそれがある。したがって、ユーザがその視点を変更するとき、滑らかな遷移を提供することになる視点遷移効果をサポートすることが好ましい。これらの遷移はまた、コンテンツ制作者によって使用されて、ユーザ体験をガイドすることもできる。
【0086】
視点メディアコンポーネントのグループ化
いくつかの実施形態では、複数の視点を有する全方位メディアコンテンツに対するメディアサンプルは、コンテナファイル内のいくつかのトラックに記憶される。コンテンツを再生する、またはストリーミングするビデオプレーヤは、どのトラックがどの視点に属するかを識別するように動作する。これを可能にするために、ファイル内のメディアトラックと、それらが属する視点との間でマッピングが行われる。いくつかの実施形態では、このマッピングは、メディアコンテナ(ファイルフォーマット)レベルでシグナリングされる。いくつかの実施形態では、このマッピングは、トランスポートプロトコルレベル(DASH)でシグナリングされる。
【0087】
メディアコンテナレベルのシグナリング(ファイルフォーマット)
ISO/IEC 14496-12(ISO BMFF)では、TrackGroupBoxが、一定の特性を共用する、または特定の関係を有するコンテナファイルにおけるいくつかのトラックをグループ化できるようにするために定義される。トラックグループボックスは、ゼロまたは複数のボックスを含み、また特定の特性または関係は、含まれるボックスのボックスタイプにより示される。含まれるボックスは、トラックが、同じトラックグループに属すると結論付けるために使用できる識別子を含む。TrackGroupBox内に含まれたボックスの同じタイプを含み、かつこれらの含まれたボックス内で同じ識別子値を有するトラックは、同じトラックグループに属する。
aligned(8) class TrackGroupBox extends Box(’trgr’) {

トラックグループタイプは、track_group_id識別子と、グループタイプを識別する4文字コードを記憶するtrack_group_typeとを含むTrackGroupTypeBoxを拡張して定義される。track_group_idおよびtrack_group_typeの対は、ファイル内のトラックグループを識別する。
【0088】
単一の視点に属するいくつかのメディアトラックを共にグループ化するために、いくつかの実施形態では、新しいグループタイプ(ViewpointGroupTypeBox)が以下のように定義される、すなわち、
aligned(8) class ViewpointGroupTypeBox extends TrackGroupTypeBox(’vpgr’) {
// additional viewpoint data can be defined here
【0089】
いくつかの実施形態では、メディアは、TrackGroupBox内のViewpointGroupTypeBoxを有し、また同じ視点に属するトラックは、各ViewpointGroupTypeBoxにおいて、同じ値のtrack_group_idを有する。3DoF+全方位メディアプレーヤは、したがって、コンテナにおける各トラックを構文解析し、かつ各トラックに対するViewpointGroupTypeBox内の一意のtrack_group_id値の数を調べることにより、利用可能な視点を識別することができる。
【0090】
トランスポートレベルのシグナリング(DASH)
OMAF規格は、DASHのための送達に関連するインターフェースを定義する。いくつかの実施形態では、異なる視点に関連する情報は、メディアプレゼンテーション記述子でシグナリングされる。DASHにおいては、各メディアコンポーネントは、MPDにおけるAdaptationSet要素により表される。いくつかの実施形態では、同じ視点に属するAdaptationSet要素は、AdaptationSet要素に対するさらなる属性を定義することにより、または視点識別子が提供されるAdaptationSetに記述子を加えることによりグループ化される。
【0091】
いくつかの記述子は、MPEG-DASH規格で定義される。これらのものは、メディアプレゼンテーション作者により使用され得るSupplementalProperty記述子を含み、記述子が、最適化された処理に向けてDASHクライアントにより使用され得る補助情報を含むことを表す。シグナリングされる情報のセマンティクスは、使用される方式に特有のものであり、それは、@schemeIdUri属性によって識別される。本開示においては、いくつかの新しいXML要素および属性が、視点に関連する情報をシグナリングするために述べられる。新しい要素は、OMAF規格(urn:mpeg:mpegI:omaf:2017)の最新のバージョンで定義されたものと同じ名前空間で、またはOMAF v1機能と、OMAF v2機能の間を区別するために、別個の新しい名前空間(urn:mpeg:mpegI:omaf:2019)で定義することができる。説明のために、名前空間(urn:mpeg:mpegI:omaf:2017)が、本文書の残りで使用される。
【0092】
メディアコンポーネントが属する視点を識別し、かつ述べるために、「urn:mpeg:mpegI:omaf:2017:ovp」と等しい、SupplementalProperty要素に@schemeIdUri属性が追加される実施形態が述べられる。このような記述子は、本明細書で、OMAF視点(OVP)記述子と呼ばれる。いくつかの実施形態では、適合セットレベルにおいて、多くても1つのOVP記述子が存在し得る。OVP記述子は、一意の視点識別子を表す値を備える@viewpoint_id属性を有することができる。@viewpoint_idに対するセマンティクスの例は、表1で与えられる。同じ@viewpoint_id値を有するAdaptationSet要素は、同じ視点に属するものとしてプレーヤにより認識され得る。
【0093】
【表1】
【0094】
視点情報のシグナリング
プレーヤが、異なる視点に属する属性を識別するために(例えば、視点間の空間的な関係、視点の利用可能性など)、本明細書で述べられるいくつかの方法では、視点を記述するさらなるメタデータが、コンテナファイルで(またストリーミングの場合、MPDファイルで)シグナリングされる。いくつかの実施形態においてシグナリングされる視点属性の例は、視点位置、視点の有効範囲、視点タイプ、および視点の利用可能性を含む。視点位置は、取り込まれたシーンの3D空間内の視点位置を指定する。視点の有効範囲は、オブジェクトが、その内部で、一定の品質レベルでレンダリングされ得る視点からの距離である。一定の品質レベルは、例えば、最小の品質レベル、知られた品質閾値を超える品質レベル、保証された品質レベル、または全方位メディアコンテンツの提供者に認められる、または受け入れ可能であると見なされる品質レベルとすることができる。例えば、有効範囲内にあるオブジェクトは、レンダリングされた画像において十分なサイズのものであり、良好な品質を提供する解像度を提供し、かつユーザに対して受け入れ可能な視聴体験を保証するものである。視点の有効範囲は、取込みデバイスの特性(例えば、カメラセンサ解像度、視野など)に依存する。有効範囲は、360度ビデオカメラに統合されるレンズの数を表すカメラレンズ密度により少なくとも部分的に決定され得る。
【0095】
図5は、様々なカメラの有効範囲の例を示す。この例では、視点502、504、506、508、510、512、514,および516が、点線の円503、505、507、509、511、513、515、および517と共に示され、各視点の有効範囲を示している。視点502および510に位置する全方位カメラは、広いエリアをカバーするためにより多くのレンズを含むことができ、したがって、視点502および510の有効範囲は、図5で示されるように、ペナルティエリア520、522をカバーすることができる。この例において、フィールドの側面に沿ったカメラは、より少ないレンズを有することができ、したがって、これらの視点(504、506、508、512、514、516)の有効範囲は、視点502および510のものよりも小さくなり得る。概して、より多くのレンズ、より多くのコンポーネントカメラを有する、または高品質のコンポーネントカメラ(例えば、高品質の光学系、高解像度、および/または高フレームレートを有するコンポーネントカメラなど)を有する全方位カメラは、より高い有効範囲に関連付けることができる。
【0096】
別の実施形態では、視点有効範囲は、焦点距離、口径、被写界深度、およびフォーカス距離など、カメラレンズのパラメータによって、少なくとも部分的に決定され得る。有効範囲は、最小範囲および最大範囲を定義することができ、有効範囲は、スティッチングエラー(stitching error)の生じない最小範囲と最大範囲の間である。
【0097】
視点は、実際の視点または仮想視点として分類することができる。実際の視点は、実際の取込みデバイスが配置されて、その視点位置からシーンを取り込む視点である。仮想視点は、その位置におけるビューポートのレンダリングが、ビュー合成などのさらなる処理を行う必要のある視点を指し、補助情報および/または1つまたは複数の他の(例えば、実際の)視点からのビデオデータを利用することができる
視点の利用可能性は、プレゼンテーション中のどの時間に、メディアデータが、視点に対して利用できるかを指定する。
【0098】
ズームインまたはズームアウトなど、ビューポートシーンとのユーザ対話は、有効範囲内でサポートされ得る。仮想視点は、1つまたは複数のカメラの有効範囲内で識別できるだけである。有効範囲はまた、遷移経路を生成するための基準としても使用することもできる。例えば、視点Aから視点Bへの遷移は、視点の有効範囲が遷移経路をカバーしている場合、複数の遷移視点を含むことができる。
【0099】
視点情報のメディアコンテナレベルシグナリング
ISO BMFFでは、静的な視点に対する視点に関連する情報は、ファイルレベルにおいて、「メタ」ボックス(MetaBox)でシグナリングすることができる。「メタ」ボックスは、静的なメタデータを保持し、かつ1つだけの強制的な「hdlr」ボックス(HandlerBox)を含み、それは、MetaBoxの構造またはフォーマットを宣言する。いくつかの実施形態では、OMAF v2メタデータの場合、「hdlr」ボックスにおけるhandler_type値に対して、4文字コード「omv2」が使用される。ファイルにおいて利用可能な視点を識別するために、いくつかの実施形態は、OMAFViewpointListBoxと呼ばれるボックスを使用し、それは、OMAFViewpointInfoBoxインスタンスのリストを含む。各OMAFViewpointInfoBoxは、一定の視点に関する情報を保持する。OMAFViewpointListBoxのシンタックスの例は次のようになる。
Box Type: ’ovpl’
Container: MetaBox
Mandatory: No
Quantity: Zero or one
aligned(8) class OMAFViewpointListBox extends Box(’ovpl’) {
unsigned int(16) num_viewpoints;
OMAFViewpointInfoBox viewpoints[];
【0100】
OMAFViewpointListBoxのセマンティクスの例は、以下のようになる、
num_viewpointsは、メディアファイルにおける視点の数を示す。
viewpointsは、OMAFViewpointInfoBoxインスタンスのリストである。
【0101】
OMAFViewpointInfoBoxのシンタックスの例は、以下で与えられる。
Box Type: ’ovpi’
Container: OMAFViewpointListBox
Mandatory: No
Quantity: Zero or more
aligned(8) class OMAFViewpointInfoBox extends Box(’ovpi’) {
unsigned int(16) viewpoint_id;
bit(1) effective_range_flag;
bit(1) virtual_viewpoint_flag;
bit(1) dynamic_position_flag;
bit(5) reserved;
if (effective_range_flag == 1) {
unsigned int(32) effective_range;

unsigned int(32) num_availability_intervals;
OMAFViewpointPositionGlobalBox();
// optional
OMAFViewpointPositionCartesianBox();
// optional
OMAFViewpointAvailabilityIntervalBox availability_intervals[];
Box other_boxes[];}
【0102】
OMAFViewpointInfoBoxのセマンティクスの例は、以下のようになる、
viewpoint_idは、視点に対する一意の識別子である。
【0103】
virtual_viewpoint_flagは、視点が、仮想視点(視点位置に配置される取込みデバイスがない)であるか、それとも取り込まれた視点であるかを示す。仮想視点を生成するために必要な情報は、OMAFVirtualViewpointConfigBoxでシグナリングされる。
【0104】
dynamic_position_flagは、位置が、静的であるか、それとも動的であるかを示す。このフラグが設定された場合、時間指定メタデータトラック(timed-metadata track)を用いて、視点の位置が提供される。その他の場合、位置は、このOMAFViewpointInfoBoxにおけるOMAFViewpointPositionGlobalBox、および/またはOMAFViewpointPositionCartesianBoxにより示される。
【0105】
effective_rangeは、視点が、一定の品質(例えば、最小レベルの品質、知られた品質閾値を超える品質、保証された品質レベル、または全方位メディアコンテンツの提供者により認められた、または受け入れ可能であると見なされた品質レベルなど)でレンダリングを提供する視点に中心のある体積的な球体を画定する半径である。
【0106】
num_availability_intervalsは、この視点が利用可能である時間間隔の数を示す。
【0107】
availability_intervalsは、OMAFViewpointAvailabilityIntervalBoxインスタンスのリストである。
【0108】
いくつかの実施形態では、空間内の視点位置が時間経過と共に変化したとき、位置情報は、時間指定メタデータトラックを用いてシグナリングされる。時間指定メタデータトラックは、メディアコンテナ(ISO BMFF)ファイル内のトラックであり、サンプルは、動的なメタデータ情報を表現する。動的な視点位置情報の場合、いくつかの実施形態は、サンプルエントリタイプ「vpps」を備える時間指定メタデータトラックを使用する。このトラックに対するサンプルエントリは、以下のようになり得る。
aligned(8) class OMAFDynamicViewpointSampleEntry extends MetadataSampleEntry(‘vpps’) {
unsigned int(16) viewpoint_id;
unsigned int(3) coordinate_system_type;
bit(5) reserved;

OMAFDynamicViewpointSampleEntryのセマンティクスの例は以下のようになる。
【0109】
viewpoint_idは、この時間指定メタデータトラックのサンプルが位置を定義する視点の識別子である。
【0110】
coordinate_system_typeは、視点の位置を定義するために使用される座標系を示す。
【0111】
いくつかの実施形態では、視点位置メタデータトラックに対するサンプルは、以下の構造を有する。
aligned(8) class OMAFViewpointPositionSample {
if (coordinate_system_type == 1) {
ViewpointPositionGlobalStruct();
}else if (coordinate_system_type == 2) {
ViewpointPositionCartesianStruct();

【0112】
サンプルフォーマットは、時間指定メタデータトラック(timed-metadata track)のサンプルエントリで定義された座標系タイプに依存することができる。ViewpointPositionGlobalStructおよびViewpointPositionCartesianStructは、以下でさらに詳細に述べられる。
【0113】
視点情報のトランスポートプロトコルレベルのシグナリング
メディアプレゼンテーションで利用可能な視点のセットを識別し、かつ記述するために、いくつかの実施形態は、PeriodレベルにおいてSupplementaryProperty記述子を含む。この記述子は、“urn:mpeg:mpegI:omaf:2017:ovl”に等しい@schemeIdUriを有することができ、また本明細書で、OMAF視点リスト(OVL)記述子と呼ばれる。いくつかの実施形態では、Periodレベルにおいて、多くても1つのOVL記述子が存在し得る。OVL記述子は、少なくとも1つのovp要素を含むことができる。ovp要素は、一意の視点識別子を表す値を有する@id属性を有し、かつ視点に関する情報を有するサブ要素を含むことができる。
【0114】
表2は、DASHクライアントに向けたMPDファイルにおいて、視点情報をシグナリングするために使用される要素および属性の例の一覧である。さらなる詳細は、以下で与えられる。
【0115】
【表2-1】
【0116】
【表2-2】
【0117】
本開示における表2および他の表は、要素は太字であり、属性は太字ではなく、@が前に付されている。「M」は、表で示された特定の実施形態において、属性が強制的であることを示し、「O」は、表で示された特定の実施形態において、属性が任意選択であることを示し、「OD」は、表で示された特定の実施形態において、属性がデフォルト値を有する任意選択のものであり、「CM」は、表で示された特定の実施形態において、属性が条件付きで強制的であることを示す。<minOccurs>..<maxOccurs>(N=制限されない)。
【0118】
様々な要素および属性に対するデータタイプは、XMLスキーマで定義されるものである。ovpに対するXMLスキーマは、以下のセクション「DASHシグナリングのためのXMLスキーマ」で提供される。
【0119】
視点位置
「実際の」視点は、様々な位置に配置されて、異なる有利な点からシーンを取り込む360°ビデオカメラに対応する。いくつかの実施形態では、視点は、仮想位置からのビューを表すことができる。仮想位置は、物理的なカメラの場所に関連付けられていない点を表すことができる。仮想位置は、合成コンテンツがレンダリングされ得る点、または他の(実際の)視点における1つまたは複数のカメラにより取り込まれたコンテンツが、仮想ビューを合成するために変換され、処理され、または組み合わされ得る点を表すことができる。シーンを取り込むために使用されるカメラの設定、およびそのレイアウトに関する有用な情報をプレーヤに提供するために、いくつかの実施形態では、視点間の空間的関係が、各視点の位置を提供することによりシグナリングされる。位置情報は、様々な実施形態において、様々な方法で表すことができる。いくつかの実施形態では、GPSシステムにより使用されるものと同様のグローバルジオロケーション座標が、カメラ/視点の場所を識別するために使用され得る。あるいは、直交座標系を、位置決めに使用することができる。
【0120】
視点位置のメディアコンテナレベルのシグナリング
ここで述べられるのは、OMAFViewpointInfoBoxに存在するとき、視点の位置を識別するために使用され得るボックスの2つの例である、すなわち、OMAFViewpointPositionGlobalBoxおよびOMAFViewpointPositionCartesianBoxである。いくつかの実施形態では、これらのボックスは任意選択のものである。提案される位置ボックスの例示的なシンタックスは以下で与えられる。他の座標系に基づいた位置情報を提供するために、さらなるボックスを導入することもできる。

Box Type: ’vpgl’
Container: OMAFViewpointInfoBox
Mandatory: No
Quantity: Zero or one

aligned(8) class ViewpointPositionGlobalStruct() {
signed int(32) longitude;
signed int(32) latitude;
signed int(32) altitude;

aligned(8) class OMAFViewpointPositionGlobalBox extends Box(’vpgl’) {
ViewpointPositionGlobalStruct();
【0121】
いくつかの実施形態では、倍精度または浮動小数点タイプが、経度、緯度、および/または高度値に対して使用される。
Box Type: ’vpcr’
Container: OMAFViewpointInfoBox
Mandatory: No
Quantity: Zero or one

aligned(8) class ViewpointPositionCartesianStruct() {
signed int(32) x;
signed int(32) y;
signed int(32) z;

aligned(8) class OMAFViewpointPositionCartesianBox extends Box(’vpcr’) {
ViewpointPositionCartesianStruct();
【0122】
視点位置のトランスポートプロトコルレベルのシグナリング
視点の位置をシグナリングするために、いくつかの実施形態では、ovp:position要素を、ovp要素に追加することができる。この要素は、ovp:position:global要素、および/またはovp:position:cartesian要素を含むことができる。いくつかの実施形態では、これらの要素のそれぞれの多くても1つが、ovp:position要素内に存在する。ovp:position:global要素の属性は、度の単位で、グローバルジオロケーション座標に関して、視点の位置を提供する。いくつかの実施形態では、ovp:position:global要素は、3つの属性を、すなわち、@longitude,@latitude,および@altitudeを有する。いくつかの実施形態では、@altitude属性は任意選択であり、存在しないこともあり得る。ovp:position:cartesian属性の属性は、直交座標に関して視点の位置を提供する。いくつかの実施形態では、3つの属性が、ovp:position:cartesian要素:@x,@y,および@zに対して定義され、ここで、@zだけは任意選択である。
【0123】
視点の利用可能性
いくつかの場合、視点は、メディアプレゼンテーションの持続期間全体に対して利用可能ではない可能性がある。したがって、いくつかの実施形態では、その視点に対するメディアサンプルが処理される前に、視点の利用可能性がシグナリングされる。こうすることは、プレーヤが、視点が利用可能なときに限って、特定の視点に属するトラックに対するサンプルを処理できるようにする。
【0124】
時間の経過に伴う視点の利用可能性の変化が図6で示されている。時間t1では、視点601、602、603、および604だけが利用可能である。その後、時間t2におけるプレゼンテーション中では、ペナルティショットが、チームの一方に与えられ、大部分の競技者は、右側のゴールの近くにいる。その時間点において、2つのさらなる視点605および606が、時間t3までユーザに利用可能になる。t2とt3の間の時間間隔は、視点605および606に対して利用可能な間隔である。視点の利用可能性情報(例えば、サーバから受信される)を用いて、プレーヤまたはストリーミングクライアントは、例えば、図3または図4で示されたUIを用いるなど、再生中に、時間t2におけるさらなる視点の利用可能性をユーザに示すように動作する。利用可能な間隔が開始すると、プレーヤは、利用可能な間隔中に利用可能な(例えば、新たに使用可能な)視点のいずれか、またはすべてに切り換えるための選択肢をユーザに提示することができる。図6で示されるように、ユーザには、時間t2から開始する視点605または606へと切り換える選択肢が与えられ得る。利用可能な間隔の最後に、プレーヤは、利用可能な間隔が終了した後はもう利用できない視点に切り換える選択肢を取り除くことができる。いくつかの実施形態では、利用可能な間隔が終了したとき(例えば、図6で示された時間t3において)、ユーザがなお、これらの視点の1つにある場合、ユーザは、もはや利用可能ではない視点(例えば、図6で示された視点605または606)に切り換える前にユーザが存在した視点に戻ることができる。いくつかの実施形態では、視点の利用可能な間隔はまた、仮想視点に対してもシグナリングされ得る。しかし、これらの視点の利用可能性は、仮想視点のレンダリングをサポートするために使用される他の基準視点ならびにいずれかの補助情報の利用可能性に依存する。
【0125】
視点利用可能性のメディアコンテナレベルのシグナリング
いくつかの実施形態では、利用可能な間隔をシグナリングするために、ボックス(OMAFViewpointAvailaibilityIntervalBox)が導入される。このボックスのゼロまたは複数のインスタンスが、OMAFViewpointInfoBoxに存在し得る。OMAFViewpointAvailaibilityIntervalBoxインスタンスが視点に対して存在しないとき、これは、視点が、プレゼンテーションの持続期間全体に対して利用可能であることを示す。
Box Type: ’vpai’
Container: OMAFViewpointInfoBox
Mandatory: No
Quantity: Zero or more

aligned(8) class OMAFViewpointAvailabilityIntervalBox extends Box(‘vpai’) {
bit(1) open_interval_flag;
bit(7) reserved;
unsigned int(64) start_time; // mandatory
unsigned int(64) end_time;
【0126】
OMAFViewpointAvailabilityIntervalBoxに対するセマンティクスの例は、以下のようになる、
open_inverval_flagはフラグであり、利用可能間隔は、視点が、start_timeからプレゼンテーションの終了まで利用可能であるオープン間隔(値1)である、または閉じた間隔(値0)であることを示す。フラグが設定された(値1)場合、このボックスに、end_timeフィールドは存在しない。
【0127】
start_timeは、視点が利用可能なプレゼンテーション時間である(間隔における第1のサンプルに対する構成時間に対応する)。
【0128】
end_timeは、その後には、視点をもはや利用できないプレゼンテーション時間である(間隔における最後のサンプルの構成時間に対応する)。
【0129】
視点利用可能性のトランスポートプロトコルレベルのシグナリング
いくつかの実施形態では、MPDファイルにおいて視点の利用可能性をシグナリングするために、1つまたは複数のovp:availability要素が、ovp要素のインスタンスに追加され得る。この要素は、利用可能な期間を意味し、@startおよび@endの2つの属性を有し。それぞれ、視点が利用可能なプレゼンテーション時間と、利用可能な間隔の最後のサンプルのプレゼンテーション時間とを示す。
【0130】
仮想視点
いくつかの実施形態では、全方位仮想ビュー合成プロセスを用いて、仮想視点が生成される。いくつかの実施形態では、このプロセスは、1つまたは複数の入力(基準)視点、それらの関連する深さマップ、および入力視点位置と仮想視点位置の間の変換ベクトルを記述するさらなるメタデータを利用する。いくつかのこのような実施形態では、入力全方位視点の各ピクセルは、基準視点の正距離円筒図法(equirectangular)フレームのピクセルを、3D空間の点にマップし、次いで、それらをターゲット仮想視点に投影することにより、仮想視点球体における位置にマップされる。1つのこのようなビュー合成プロセスは、「Extended VSRS for 360-degree video」、MPEG121、Gwangju、Korea、2018年1月、m41990で非常に詳細に述べられ、図8で示される。図8の例では、点802は、入力視点804に対して、角度座標(φ、θ)、および深さzで記述された位置を有する。入力視点804から、ベクトル(Tx、Ty、Tz)だけ変位された仮想視点806の生成において、点802に対する角度座標(φ’,θ’)が、仮想視点806に関して見出される。変位ベクトル(Tx、Ty、Tz)は、コンテナファイル、マニフェスト、時間指定メタデータトラック、またはその他のものでシグナリングされた視点位置に基づいて決定され得る。
【0131】
様々な実施形態において、仮想視点を生成するために、様々な技法を使用することができる。様々な基準視点から合成された仮想視点フレームは、次いで、仮想視点における最終的な正距離円筒図法フレームを生成するために、ブレンドプロセスを用いて共にマージすることができる。基準視点の閉塞に起因して最終フレームに出現する穴は、修復および穴埋めステップを用いて処理することができる。
【0132】
仮想視点は、取り込まれない視点である。ビューポートは、他の視点からのビデオデータ、および/または他の補助情報を用いて仮想視点においてレンダリングすることができる。いくつかの実施形態では、仮想視点からのシーンをレンダリングするために使用される情報は、virtual_viewpointフラグが設定されたとき、OMAFViewpointInfoBoxに存在するOMAFVirtualViewpointConfigBoxにおいてシグナリングされる。いくつかの実施形態では、OMAFVirtualViewpointConfigBoxは、以下のように定義され得る。

Box Type: vvpc’
Container: OMAFViewpointInfoBox
Mandatory: No
Quantity: Zero or more

aligned(8) class OMAFVirtualViewpointConfigBox extends Box(‘vvpc’) {
unsigned int(5) synthesis_method;
unsigned int(3) num_reference_viewpoints;
unsigned int(16) reference_viewpoints[];
// optional boxes but no fields
【0133】
OMAFVirtualViewpointConfigBoxフィールドに対するセマンティクスの例は、以下で与えられる。
【0134】
synthesis_methodは、仮想視点を生成するためにどの合成法が使用されるかを示す。synthesis_methodの値は、ビュー合成法の一覧表に対するインデックスとすることができる。例えば、深さ-画像ベースのレンダリング、画像-ワーピングベースの合成などである。
【0135】
num_reference_viewpointsは、仮想視点の合成における基準として使用される視点の数を示す。
【0136】
reference_viewpointsは、この視点に対するビューポートを合成するとき、基準として使用される視点idsのリストである。
【0137】
別の実施形態では、合成プロセスに必要な情報を含むトラックの識別子は、仮想視点構成ボックスにおいて直接シグナリングされ、それは、以下のように実施され得る。
aligned(8) class OMAFVirtualViewpointConfigBox extends Box(‘vvpc’) {
unsigned int(5) synthesis_method;
unsigned int(3) num_reference_tracks;
unsigned int(16) reference_track_ids[];
// optional boxes but no fields
【0138】
この実施形態に対するOMAFVirtualViewpointConfigBoxフィールドのセマンティクスの例は、以下のようになる。
【0139】
synthesis_methodは、仮想視点を生成するためにどの合成法が使用されるかを示す。synthesis_methodの値は、ビュー合成法の一覧表に対するインデックスである。例えば、深さ-画像ベースのレンダリング、画像-ワーピングベースの合成などである。
【0140】
num_reference_tracksは、仮想視点の合成における基準として使用されるコンテナファイル内のトラックの数を示す。
【0141】
reference_track_idsは、この視点に対するビューポートの合成において使用されるトラックに対するトラック識別子のリストである。
【0142】
視点グループのシグナリング
FIFAワールドカップなどの大規模イベントにおいて、いくつかのイベントが、異なる開催地または場所で並列に行われることがあり得る。例えば、いくつかの競技が、異なるスタジアムで、おそらく異なる都市において行われる可能性がある。いくつかの実施形態では、視点は、イベント/開催地のジオロケーションに基づいてグループ化することができる。いくつかの実施形態では、メディアコンテナファイル内の視点のグループに関する情報を記憶するために、ViewpointGroupStruct構造が使用される。この構造のシンタックスの例は、以下のようになる。
aligned(8) class ViewpointGroupStruct() {
unsigned int(8) viewpoint_group_id;
signed int(32) longitude;
signed int(32) latitude;
unsigned int(8) num_viewpoints;
unsigned int(16) viewpoint_ids[];
string viewpoint_group_name;
【0143】
ViewpointGroupStructのフィールドのセマンティクスの例は、以下のようになる。
【0144】
viewpoint_group_idは、視点グループを識別する一意のidである。
【0145】
longitudeは、視点が位置するイベント/開催地のジオロケーションの経度座標である。
【0146】
latitudeは、視点が位置するイベント/開催地のジオロケーションの緯度座標である。
【0147】
num_viewpointsは、視点グループ内の視点の数である。
【0148】
viewpoint_idsは、視点グループの一部である視点のidsを有するアレイである。
【0149】
viewpoint_group_nameは、グループを記述する名前を有するストリングである。
【0150】
メディアコンテナファイル内で利用可能な視点グループをシグナリングするために、OMAFViewpointGroupsBoxを、ISO BMFFコンテナファイル内のMetaBoxに追加することができる。OMAFViewpointGroupsBoxのシンタックスの例は、以下で与えられる。
Box Type: ’ovpg’
Container: MetaBox
Mandatory: No
Quantity: Zero or one

aligned(8) class OMAFViewpointGroupsBox extends Box(’ovpg’) {
unsigned int(8) num_viewpoint_groups;
ViewpointGroupStruct viewpoint_groups[];
【0151】
このボックスのフィールドに対するセマンティクスの例は、以下のものである、
num_viewpoint_groupsは、視点グループの数である。
【0152】
viewpoint_groupsは、ViewpointGroupStructインスタンスのアレイであり、各視点グループに関する情報を提供する。
【0153】
トランスポートプロトコルレベルのシグナリング(例えば、DASH)の場合、メディアプレゼンテーションにおいて利用可能な視点グループをシグナリングするために、ovg要素が定義され、上記で述べたOVL記述子においてシグナリングされ得る。OVL記述子は、1つまたは複数のovg要素を含むことができる。ovg要素は、一意の視点グループ識別子と、グループを記述する他の属性を表す値とを備えた@id属性を有する。表3は、ovg要素の例の属性を列挙している。
【0154】
【表3】
【0155】
視点遷移効果のシグナリング
本明細書では、遷移タイプの以下の例が開示される、すなわち、基本的な遷移、視点経路遷移、および補助情報遷移である。基本的な遷移は、1つの視点から別のものへと切り換えたとき使用され得る事前定義の遷移である。このような遷移の例は、黒へのフェード遷移であり、その場合、レンダリングされたビューは、徐々に黒へとフェードアウトし、次いで、新しい視点からのフレームにフェードインする。視点経路遷移は、ターゲット視点に切り換えたとき、プレーヤが他の視点を横断して追従できる経路をコンテンツ制作者が指定できるようにする。補助情報遷移は、コンテンツ制作者が別のトラックで提供する補助情報に依拠する遷移である。例えば、補助トラックは、ビューポートが第1の視点からターゲット視点へと移動するとき、中間の仮想ビューをレンダリングするために使用できる深さ情報を含むことができる。
【0156】
いくつかの実施形態では、遷移は、中間的な仮想ビューのレンダリングに基づくことができる。これは、例えば、C.Fehn、「Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV」、SPIE Stereoscopic Displays and Virtual Reality Systems XI、vol.5291、2004年5月、93~104ページにおいて述べられた深さ画像ベースのレンダリング(DIBR)など、ビュー合成プロセスを用いて行うことができる。DIBRは、深さ情報を使用して、2D平面におけるピクセルを3D空間におけるそれらの位置へ投影し、かつそれらを別の平面に再投影する。これらの中間的な視点に、取込みデバイスは存在しない(例えば、360度カメラがない)ので、それらは、本明細書で仮想視点と呼ばれる。ソースと宛先視点の間でレンダリングされる中間的な仮想視点の数は、遷移の滑らかさを決定し、またプレーヤ/デバイスの能力およびこれらの中間的な視点に対する補助情報の利用可能性に依存する。
【0157】
図7は、仮想視点を用いる実施形態を示す。図7の例では、視点702、704、706、708、710、712、714、716だけが取込みデバイスを用いた視点であり、残りの中間視点(703、705、707、709、711、713、715、717)は、仮想視点である。他のタイプの補助情報は次のものを含む、すなわち、点群ストリーム、近傍の視点からのさらなる参照フレーム(仮想ビューの品質を向上させるため)、および閉塞情報(ビュー合成プロセスにおける穴埋めステップをサポートし、かつ中間視点において得られた仮想ビューの品質を向上させるため)。いくつかの実施形態では、点群ストリームは、ソースと宛先視点の間の任意の視点位置において、仮想ビューのレンダリングを可能にするために使用される。いくつかの実施形態では、点群は、Paul Rosenthal、Lars Linsen、「Image-space point cloud rendering」、Proceedings of Computer Graphics International、136~143ページ、2008年に記載の技法を用いてレンダリングされる。
【0158】
視点遷移効果のメディアコンテナレベルのシグナリング
いくつかの実施形態は、ファイルレベルにおいてMetaBoxに配置され得る新しいOMAFViewpointTransitionEffectListBoxにおけるボックスのリストとして、コンテナファイルにおける視点の対間の遷移効果をシグナリングするように動作する。いくつかの実施形態では、このボックスの多くとも1つのインスタンスがMetaBox内に存在する。OMAFViewpointTransitionEffectListBoxにおけるボックスは、OMAFViewpointTransitionBoxのインスタンスである。2つのボックスのシンタックスの例が、以下で与えられる。
Box Type: ’vptl’
Container: MetaBox
Mandatory: No
Quantity: Zero or one

aligned(8) class OMAFViewpointTransitionEffectListBox extends Box(‘vptl’) {
OMAFViewpointTransitionBox transitions[];


Box Type: ’vpte’
Container: OMAFViewpointTransitionEffectListBox
Mandatory: No
Quantity: One or more

aligned(8) class OMAFViewpointTransitionEffectBox extends Box(‘vpte’) {
unsigned int(16) src_viewpoint_id; // mandatory
unsigned int(16) dst_viewpoint_id; // mandatory
unsigned int(8) transition_type; // mandatory
// additional box to specify the parameters of the transition
【0159】
OMAFViewpointTransitionBoxのフィールドに対するセマンティクスの例は、以下のようになる、
src_viewpoint_idはソース視点のidである。
【0160】
dst_viewpoint_idは、宛先視点のidである。
【0161】
transition_typeは、遷移のタイプを識別する整数である。値0は基本的な遷移を示す。値1は視点経路遷移を示す。値2は補助情報遷移を示す。残りの値は、将来の遷移用にリザーブされる。
【0162】
いくつかの実施形態では、特定タイプの遷移に関連し、かつさらなる情報を提供するさらなるボックスが、OMAFViewpointTransitionBoxに存在することができる。さらなるボックスは、前に定義された遷移タイプのそれぞれに対して定義することができる。OMAFViewpointTransitionBoxのtransition_typeフィールドが0に等しい場合、OMAFBasicViewpointTransitionBoxが存在する。このボックスは、1つのフィールド、すなわち、basic_transition_typeだけを含み、その値は、事前に定義された基本的な遷移のセットからの特定の遷移を示す。OMAFPathViewpointTransitionBoxは、OMAFViewpointTransitionBoxのtransition_typeフィールドが1に等しいとき存在する。このボックスは、ユーザが、ターゲット視点への遷移を要求したとき、プレーヤが追従できる視点識別子のリストを含む。いくつかの実施形態では、フィールドはまた、経路に沿った遷移の速度を示すように提供され得る。OMAFAuxiliaryInfoViewpointTransitionBoxは、OMAFViewpointTransitionBoxのtransition_typeフィールドが2に等しいとき存在する。このボックスは、2つのフィールドを含む、すなわち、遷移の性質(例えば、仮想視点を生成するなど)を指定するタイプフィールド、および遷移効果を実施するために使用される時間指定補助情報を含むファイルにおけるトラックの1つへの参照を提供するaux_track_idである。3つの前述のボックスのシンタックスの例が、以下で与えられる。
aligned(8) class OMAFBasicViewpointTransitionBox extends Box(‘vptb’) {
unsigned int(8) basic_transition_type;


aligned(8) class OMAFPathViewpointTransitionBox extends Box(‘vptp’) {
unsigned int(16) intermediate_viewpoints[];


aligned(8) class OMAFAuxiliaryInfoViewpointTransitionBox extends Box(‘vpta’) {
unsigned int(8) type;
unsigned int(32) aux_track_id;
【0163】
視点遷移効果のトランスポートプロトコルレベルのシグナリング(例えば、DASH)
コンテナレベルでシグナリングされる視点遷移効果情報はまた、マニフェストファイルにおけるトランスポートプロトコルレベルにおいてもシグナリングされ得る。コンテナファイルが視点遷移効果情報を含む場合、この情報は、マニフェストファイルにおいてシグナリングされた情報に一致することが好ましい。いくつかの実施形態では、視点遷移効果は、上記で述べられたものなど、OVL記述子内でシグナリングされる。視点の対間の遷移効果は、ovp:transition要素によりシグナリングされ得る。一例では、この要素は、@src、@dst、および@typeの3つの属性を有する。これらの属性は、ソース視点のid、宛先視点のid、および遷移効果のタイプをそれぞれ指定する。遷移効果のいくつかのタイプに関して、ovp:transition要素は、これらの遷移をレンダリングするためにクライアントによって使用されるさらなる情報を提供する子要素を含むことができる。
【0164】
表4は、MPDファイルにおいて視点遷移効果をシグナリングするために使用され得る要素および属性の例を列挙する。
【0165】
【表4】
【0166】
FoVに対して推奨される投影フォーマットのシグナリング
異なるFoV範囲内では、異なる投影フォーマットが有利であり得る。例えば、90°の視野においては、直線投影ファーマットが良好に動作できるが、130°などのより大きい視野において直線投影を用いると、望ましくない延伸効果が視認され得る。反対に、「小惑星」立体投影、または魚眼投影フォーマットなどの投影フォーマットは、90°のFoVでは良好に動作できないが、より高いFoV度において、適切なレンダリング体験を提示することができる。
【0167】
いくつかの実施形態では、デバイスの視野(FoV)値の範囲に対して推奨される投影フォーマットをシグナリングするために、「meta」ボックスにおけるさらなるメタデータ情報として、OMAFRecommendedProjectionListBoxが提供される。このボックスは、1つまたは複数のOMAFRecommendedProjectionBoxインスタンスを含む。OMAFRecommendedProjectionBoxは、水平および垂直のFoV範囲を画定し、指定されたFoV範囲に対して推奨される投影タイプを提供する。このシグナリングを受信するプレーヤまたはストリーミングクライアントは、プレーヤまたはストリーミングクライアントが動作しているデバイスの視野のサイズを決定することができる(例えば、それは、ローカルなデータベースからデバイスのFoV能力を参照することができる、またはHMDのオペレーティングシステムに対するAPIコールを介して、この特性を取得することができる)。プレーヤまたはストリーミングクライアントは、推奨される投影タイプのどれが、デバイスの視野に対応するかを決定するために、この決定された視野サイズを、OMAFRecommendedProjectionBoxesで定義されたFoV範囲と比較することができる。プレーヤまたはストリーミングクライアントは、次いで、決定された推奨される投影フォーマットにおけるコンテンツを要求することができる。これらのボックスに対するシンタックスの例が以下で提供される。
Box Type: ’orpl’
Container: MetaBox
Mandatory: No
Quantity: Zero or one

aligned(8) class OMAFRecommendedProjectionListBox extends Box(‘orpl’) {
OMAFRecommendedProjectionBox recommendations[];


Box Type: ’orpr’
Container: OMAFRecommendedProjectionListBox
Mandatory: No
Quantity: One or more

aligned(8) class OMAFRecommendedProjectionBox extends Box(‘orpr’) {
bit(3) reserved = 0;
unsigned int(5) projection_type;
unsigned int(32) min_hor_fov;
unsigned int(32) min_ver_fov;
unsigned int(32) max_hor_fov;
unsigned int(32) max_ver_fov;
【0168】
フィールドOMAFRecommendedProjectionBoxのセマンティクスの例は、以下のようになる、
projection_typeは、OMAF規格により指定されているように、投影されるピクチャの球面座標系へのマッピングタイプを示す。projection_typeの値は、直線投影、小惑星投影、正距方位図法、魚眼投影などを含むレンダリング投影法のリストのインデックスとすることができる。
【0169】
min_hor_fovおよびmin_ver_fovは、2-16度の単位で、最小の水平および垂直表示視野を提供する。min_hor_fovは、両端を含めて、0から360×216の範囲とすることができる。min_ver_fovは、両端を含めて、0から180×216の範囲とすることができる。
【0170】
max_hor_fovおよびmax_ver_fovは、2-16度の単位で、最大の水平および垂直表示視野を提供する。max_hor_fovは、両端を含めて、0から360×216の範囲とすることができる。max_ver_fovは、両端を含めて、0から180×216の範囲とすることができる。
【0171】
特定のFoVに対して、投影フォーマットが推奨される場合、min_hor_fovは、max_hor_fovに等しく、またmin_ver_fovは、max_ver_fovに等しい。
【0172】
別の実施形態では、コンテンツ作者またはコンテンツ提供者は、適切な投影推奨を有する様々なFoV構成を備えたデバイスに対して、推奨されるビューポートを識別する情報を提供することができる。様々なFoVを備えた様々なデバイスは、推奨されるビューポートに従い、360ビデオコンテンツをレンダリングするために、推奨される投影フォーマットを使用することができる。
【0173】
OMAFは、以下のように、推奨されるビューポート情報ボックス(RcvpInfoBox)を記述する。
class RcvpInfoBox extends FullBox(’rvif’,0,0) {
unsigned int(8) viewport_type;
string viewport_description;

viewport_typeは、表5に列挙されるように、推奨されるビューポートのタイプを指定する。
【0174】
【表5】
【0175】
いくつかの実施形態では、推奨されるビューポート(例えば、タイプ2などに割り当てられ得る)のさらなるタイプが、レンダリングデバイスのFOVに基づいて使用される。いくつかの実施形態では、RcvpInfoBoxのviewport_descriptionを使用して、推奨されるレンダリング投影法、および対応するレンダリングFOV範囲を示すことができる。いくつかの実施形態では、viewport_typeに基づいて任意選択ボックスがRcvpInfoBoxに追加されて、対応する推奨タイプに使用されるさらなるパラメータを示す。例えば、OMAFRecommendedProjectionBoxは、ビューポートタイプがFOVに関連付けられたとき、シグナリングされ得る。
class RcvpInfoBox extends FullBox(’rvif’,0,0) {
unsigned int(8) viewport_type;
string viewport_description;
Box[] other_boxes; // optional
【0176】
別の実施形態では、推奨されるビューポートは、ユーザに柔軟な選択を提供するために、複数の推奨されるタイプ、またはサブタイプに適合することができる。例えば、視聴統計は、測定期間(例えば、毎週、毎月)、地理(国、都市)、または年齢(若者、成人)による統計量へとさらに分割され得る。表6は、いくつかの実施形態で使用できる階層的な推奨構造を示す。
【0177】
【表6】
【0178】
いくつかの実施形態において、階層的な推奨構造をサポートするために、帰納的RcvpInfoBox構造が使用される。RcvpInfoBox構造で提案されるother_boxesフィールドは、以下のようなサブタイプを指定するためのRcvpInfoBoxを含むことができる。
class RcvpInfoBox extends FullBox(’rvif’,0,0) {
unsigned int(8) viewport_type;
string viewport_description;
RcvpInfoBox(); // optional ;
【0179】
単一のディレクターズカット推奨ビューポートは、複数のトラックを提案することができ、それぞれは、FOV範囲に対する1つまたは複数の推奨されるレンダリング投影法をサポートすることができる。RcvpInfoBoxの例示的な構造が以下で示される。第1のRcvpInfoBoxのviewport_typeの値は0であり、このような推奨ビューポートがディレクターズカットによるものであることを示しており、また第2のRcvpInfoBoxにおけるviewport_typeの値(例えば、1)は、このディレクターズカット推奨ビューポートに関連付けられたトラックが、特定のレンダリングFOVを備えるデバイスに対して推奨されることを示すことができる。OMAFRecommendedProjectionBoxの1つまたは複数のインスタンスが、対応するFOV範囲に対して推奨される投影法を提供するようにシグナリングされ得る。
RcvpInfoBox{
viewport_type = 0; // recommended director’s cut
RcvpInfoBox {
Viewport_type=1; // recommeded for device FOV
OMAFRecommendedProjectionBox(); // projection method 1
OMAFRecommendedProjectionBox(); // projection method 2
viewport_description;

viewport_description;
【0180】
DASH MPDにおいては、「urn:mpeg:dash:crd」に等しい@schemeIdUriを備えるSupplementalPropertyおよび/またはEssentialProperty記述子を、コンテンツ推奨記述(CRD)を提供するために使用することができる。CRD方式を使用するSupplementalPropertyまたはEssentialProperty要素の@valueは、表7で示されるように、CRDパラメータに対する値のコンマで区切られたリストとして実施され得る。
【0181】
【表7】
【0182】
DASHシグナリングのためのXMLスキーマ
いくつかの実施形態で使用できるDASHシグナリングのためのXMLスキーマの例は以下のものである。
<?xml version="1.0" encoding="UTF-8"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
targetNamespace="urn:mpeg:mpegI:omaf:2017"
xmlns:omaf="urn:mpeg:mpegI:omaf:2017"
elementFormDefault="qualified">

<xs:element name="ovp" type="omaf:viewpointType"/>
<xs:element name="ovg" type="omaf:viewpointGroupType"/>

<xs:complexType name="viewpointType">
<xs:attribute name="id" type="xs:string" use="required" />
<xs:attribute name="effective_range" type="xs:unsignedInt" use="optional" />
<xs:attribute name="virtual" type="xs:boolean" use="optional" default="false" />
<xs:attribute name="synthesisMethod" type="xs:unsignedByte" use="optional" />
<xs:attribute name="refViewpointIds" type="xs:boolean" use="optional" />
<xs:attribute name="dynamicPosition" type="xs:boolean" use="optional" default="false" />
<xs:element name="position" type="omaf:viewpointPositionType" minOccurs="0" maxOccurs="1"/>
<xs:element name="availability" type="omaf:viewpointAvailabilityType" maxOccurs="unbounded" />
<xs:element name="transition" type="omaf:vpTransitionType" minOccurs="0" maxOccurs="unbounded" />
</xs:complexType>

<xs:complexType name="viewpointPositionType">
<xs:element name="global" type="omaf:viewpointGlobalPositionType" maxOccurs="1" />
<xs:element name="cartesian" type="omaf:viewpointCartesianPositionType" maxOccurs="1" />
</xs:complexType>

<xs:complexType name="viewpointGlobalPositionType" use="optional" maxOccurs="1">
<xs:attribute name="longitude" type="xs:double" use="required" />
<xs:attribute name="latitude" type="xs:double" use="required" />
<xs:attribute name="altitude" type="xs:double" use="optional" default="0" />
</xs:complexType>

<xs:complexType name="viewpointCartesianPositionType" use="optional" maxOccurs="1">
<xs:attribute name="x" type="xs:int" use="required" />
<xs:attribute name="y" type="xs:int" use="required" />
<xs:attribute name="z" type="xs:int" use="optional" default="0" />
</xs:complexType>

<xs:complexType name="viewpointAvailabilityType" use="optional" maxOccurs="unbounded">
<xs:attribute name="start" type="xs:unsignedLong" use="required" />
<xs:attribute name="end" type="xs:unsignedLong" use="optional" />
</xs:complexType>

<xs:complexType name="vpTransitionType" use="optional" maxOccurs="unbounded">
<xs:attribute name="src" type="xs:string" use="required" />
<xs:attribute name="dst" type="xs:string" use="required" />
<xs:attribute name="type" type="xs:unsignedByte" use="required" />
<xs:element name="omaf:vpBasicTransitionType" use="optional" maxOccurs="1" />
<xs:element name="omaf:vpPathTransitionType" use="optional" maxOccurs="1" />
<xs:element name="omaf:vpAuxTransitionType" use="optional" maxOccurs="1" />
</xs:complexType>

<xs:complexType name="vpBasicTransitionType">
<xs:attribute name="type" type="unsignedByte" use="required" />
</xs:complexType>

<xs:complextType name="vpPathTransitionType">
<xs:attribute name="viewpoints" type="xs:string" use="required" />
</xs:complextType>

<xs:complexType name="vpAuxTransitionType">
<xs:attribute name="auxIdList" type="xs:string" use="required" />
</xs:complexType>

<xs:complexType name="viewpointGroupType">
<xs:attribute name="id" type="xs:string" use="required" />
<xs:attribute name="name" type="xs:string" use="optional" />
<xs:attribute name="longitude" type="xs:double" use="required" />
<xs:attribute name="latitude" type="xs:double" use="required" />
<xs:attribute name="viewpointIds" type="xs:string" use="required" />
</xs:complexType>

</xs:schema>
【0183】
さらなる実施形態
いくつかの実施形態では、第1の視点からのビューを表す少なくとも第1の360度ビデオデータ、および第2の視点からのビューを表す第2の360度ビデオデータを受信するステップと、少なくとも第1のビデオデータおよび第2のビデオデータに対してコンテナファイル(例えば、ISOベースメディアファイルフォーマットファイル)を生成するステップとを含む。コンテナファイルにおいて、第1のビデオデータが、トラックの第1のセットへと編成され、また第2のビデオデータは、トラックの第2のセットに編成され、トラックの第1のセットにおけるトラックのそれぞれは、第1の視点に関連付けられた第1のトラックグループ識別子を含み、またトラックの第2のセットにおけるトラックのそれぞれは、第2の視点に関連付けられた第2のトラックグループ識別子を含む。
【0184】
いくつかのこのような実施形態では、トラックの第1のセットにおけるトラックのそれぞれは、第1のトラックグループ識別子を含む視点グループタイプボックスの各インスタンスを含み、またトラックの第2のセットにおけるトラックのそれぞれは、第2のトラックグループ識別子を含む視点グループタイプボックスの各インスタンスを含む。
【0185】
コンテナファイルが、階層的なボックス構造に編成され、かつコンテナファイルが、少なくとも第1の視点情報ボックスと第2の視点情報ボックスを識別する視点リストボックスを含むいくつかの実施形態では、第1の視点情報ボックスは、少なくとも(i)第1のトラックグループ識別子、および(ii)第1の視点からビデオが利用可能な時間間隔のインジケーションを含み、また第2の視点情報ボックスは、少なくとも(i)第2のトラックグループ識別子、および(ii)第2の視点からビデオが利用可能な時間間隔のインジケーションを含む。時間間隔のインジケーションは、各視点の利用可能間隔ボックスのインスタンスのリストとすることができる。
【0186】
コンテナファイルが、階層的なボックス構造に編成され、またコンテナファイルが、少なくとも第1の視点情報ボックスと第2の視点情報ボックスを識別する視点リストボックスを含むいくつかの実施形態では、第1の視点情報ボックスは、少なくとも(i)第1のトラックグループ識別子、および(ii)第1の視点の位置のインジケーションを含み、また第2の視点情報ボックスは、少なくとも(i)第2のトラックグループ識別子、および(ii)第2の視点の位置のインジケーションを含む。位置のインジケーションは、直交座標、または緯度および経度座標を含むことができる。
【0187】
コンテナファイルが、階層的なボックス構造に編成され、またコンテナファイルが、少なくとも第1の視点情報ボックスと第2の視点情報ボックスを識別する視点リストボックスを含むいくつかの実施形態では、第1の視点情報ボックスは、少なくとも(i)第1のトラックグループ識別子、および(ii)第1の視点の有効範囲のインジケーションを含み、また第2の視点情報ボックスは、少なくとも(i)第2のトラックグループ識別子、および(ii)第2の視点の有効範囲のインジケーションを含む。
【0188】
コンテナファイルが、階層的なボックス構造に編成され、かつコンテナファイルが、少なくとも1つの遷移効果ボックスを識別する遷移効果リストボックスを含むいくつかの実施形態では、各遷移効果ボックスは、ソース視点の識別子、宛先視点の識別子、および遷移タイプの識別子を含む。遷移タイプの識別子は、基本的な遷移、または視点経路遷移を識別することができる。遷移タイプの識別子が、経路視点遷移ボックスを識別した場合、経路視点遷移ボックスは、視点識別子のリストを含むことができる。遷移タイプの識別子が、補助情報視点遷移ボックスを識別した場合、補助情報視点遷移ボックスは、トラック識別子を含むことができる。
【0189】
コンテナファイルがメタボックスを含む階層的なボックス構造に編成されるいくつかの実施形態では、メタボックスは、少なくとも1つの推奨される投影リストボックスを識別し、各推奨される投影リストボックスは、(i)投影タイプ、および(ii)対応する視野範囲を識別する情報を含む。対応する視野範囲を識別する情報は、最小の水平視野角、最大の水平視野角、最小の垂直視野角、および最大の垂直視野角を含むことができる。
【0190】
いくつかの実施形態は、本明細書で述べられた方法のいずれかに従って生成されたコンテナファイルを記憶する非一時的なコンピュータ記憶媒体を含む。
【0191】
いくつかの実施形態では、方法は、第1の視点からのビューを表す少なくとも第1の360度ビデオデータ、および第2の視点からのビューを表す第2の360度ビデオデータを受信するステップと、MPEG-DASH MPDなどのマニフェストを生成するステップとを含む。マニフェストにおいて、ストリームの第1のセットにおける少なくとも1つのストリームが識別され、第1のセットにおける各ストリームは、第1のビデオデータの少なくとも一部を表しており、ストリームの第2のセットにおける少なくとも1つのストリームが識別され、第2のセットにおける各ストリームは、第2のビデオデータの少なくとも一部を表しており、第1のセットにおけるストリームのそれぞれは、マニフェストにおいて、第1の視点識別子に関連付けられ、また第2のセットにおけるストリームのそれぞれは、マニフェストにおいて、第2の視点識別子に関連付けられる。
【0192】
いくつかのこのような実施形態では、第1のセットにおけるストリームのそれぞれは、マニフェストにおいて、属性として第1の視点識別子を有する各適合セットに関連付けられ、また第2のセットにおけるストリームのそれぞれは、マニフェストにおいて、属性として第2の視点識別子を有する各適合セットに関連付けられる。属性は、@viewpoint_id属性とすることができる。
【0193】
いくつかの実施形態では、第1のセットにおけるストリームのそれぞれは、マニフェストにおいて、第1の記述子に第1の視点識別子を有する各適合セットに関連付けられ、また第2のセットにおけるストリームのそれぞれは、マニフェストにおいて、第2の記述子に第2の視点識別子を有する各適合セットに関連付けられる。第1および第2の記述子は、SupplementalProperty記述子とすることができる。
【0194】
いくつかの実施形態では、マニフェストは、視点のそれぞれの有効範囲を示す属性を含む。いくつかの実施形態では、マニフェストは、視点のそれぞれに対する位置を示す属性を含む。位置を示す属性は、直交座標、または緯度および経度座標を含むことができる。いくつかの実施形態では、マニフェストは、各視点に対してビデオが利用可能な少なくとも1つの時間期間を示す情報を含む。
【0195】
いくつかの実施形態では、第1のビデオデータおよび第2のビデオデータは、コンテナファイル(ISOベースメディアファイルフォーマットファイルなど)において受信され、その場合、第1のビデオデータは、トラックの第1のセットへと編成され、また第2のビデオデータは、トラックの第2のセットに編成され、トラックの第1のセットにおけるトラックのそれぞれは、第1の視点に関連付けられた第1のトラックグループ識別子を含み、またトラックの第2のセットにおけるトラックのそれぞれは、第2の視点に関連付けられた第2のトラックグループ識別子を含む。マニフェストにおいて使用される視点識別子は、コンテナファイルにおける各トラックグループ識別子に等しい。
【0196】
いくつかの実施形態では、方法は、複数の360度ビデオストリームを識別するマニフェストを受信するステップであって、マニフェストは、各識別されたストリームに対して、各ストリームの視点位置を識別する情報を含む、ステップと、マニフェストで識別された第1のビデオストリームを取得し、かつ表示するステップと、第1のビデオストリームの表示上に、マニフェストで識別された第2のビデオストリームの視点位置を示すユーザインターフェース要素をオーバレイするステップとを含む。いくつかの実施形態では、方法は、ユーザインターフェース要素の選択に応じて、第2のビデオストリームを取得し、かつ表示するステップを含む。
【0197】
マニフェストが、識別されたストリームの少なくとも1つの有効範囲を識別する情報をさらに含むいくつかの実施形態では、方法は、有効範囲のインジケーションを表示するステップをさらに含む。マニフェストが第2のビデオストリームの使用可能な期間を識別する情報をさらに含むいくつかの実施形態では、ユーザインターフェース要素は、使用可能な期間の間に限って表示される。
【0198】
いくつかの実施形態では、マニフェストは、第1のビデオストリームから第2のビデオストリームへの遷移に対する遷移タイプを識別する情報を含む。ユーザインターフェース要素の選択に応じて、方法は、識別された遷移タイプを有する遷移を提示するステップと、第2のビデオストリームを取得し、かつ表示するステップであって、第2のビデオストリームは、遷移の提示の後に表示される、ステップとを含む。
【0199】
マニフェストが、少なくとも1つの仮想視点の位置を識別する情報をさらに含むいくつかの実施形態では、方法は、仮想視点の選択に応じて仮想視点からのビューを合成するステップと、合成されたビューを表示するステップとをさらに含む。
【0200】
いくつかの実施形態では、方法は、複数の360度ビデオストリームを識別するマニフェスト(MPEG-DASH MPD)を受信するステップであって、マニフェストは、ビデオストリームのそれぞれの各投影フォーマットを識別する情報を含み、マニフェストは、投影フォーマットのそれぞれに対する視野サイズの各範囲を識別する情報をさらに含む、ステップと、表示するための視野サイズを決定するステップと、決定された視野サイズが、選択されたビデオストリームの投影フォーマットに対する視野サイズの識別された範囲に含まれるように、ビデオストリームの少なくとも1つを選択するステップと、選択されたビデオストリームの少なくとも1つを取得し、かつ決定された視野サイズを用いて、取得されたビデオストリームを表示するステップとを含む。
【0201】
さらなる実施形態は、プロセッサと、プロセッサで実行されたとき、本明細書で述べられる方法のいずれかを実施するように動作可能な命令を記憶する非一時的なコンピュータ可読媒体とを備えるシステムを含む。
【0202】
述べられた実施形態のうちの1つまたは複数のものの様々なハードウェア要素は、「モジュール」と呼ばれ、それは、各モジュールに関連して本明細書で述べられた様々な機能を遂行する(すなわち、実施する、実行する、および同様のものなど)ことに留意されたい。本明細書で使用される場合、モジュールは、所与の実装に対して当業者が適切であると考えるハードウェア(例えば、1つまたは複数のプロセッサ、1つまたは複数のマイクロプロセッサ、1つまたは複数のマイクロコントローラ、1つまたは複数のマイクロチップ、1つまたは複数の特定用途向け集積回路(ASIC)、1つまたは複数の書替え可能ゲートアレイ(FPGA)、1つまたは複数のメモリデバイスなど)を含む。それぞれ述べられたモジュールはまた、各モジュールにより遂行されるものとして述べられた1つまたは複数の機能を遂行するための実行可能な命令を含むことができ、またこれらの命令は、ハードウェア(すなわち、ハードワイヤード)命令、ファームウェア命令、ソフトウェア命令、および/または同様のものの形態をとる、または含むこともでき、またRAM、ROMなどと一般に呼ばれる1つまたは複数の任意の適切な非一時的コンピュータ可読媒体に記憶され得ることに留意されたい。
【0203】
機能および要素が特定の組合せにより上記で述べられているが、当業者であれば、各機能または要素は、単独で、または他の機能および要素との任意の組合せで使用され得ることが理解されよう。加えて、本明細書で述べられる方法は、コンピュータまたはプロセッサにより実行するために、コンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア、またはファームウェアで実施することができる。コンピュータ可読記憶媒体の例は、これだけに限らないが、読出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスクおよび取外し可能ディスクなどの磁気媒体、光磁気媒体、ならびにCD-ROMディスクおよびデジタル多用途ディスク(DVD)などの光媒体を含む。ソフトウェアに関連してプロセッサが使用され、WTRU,UE、端末、基地局、RNC、または任意のホストコンピュータで使用される無線周波数送受信機を実装することができる。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8