特許7212622 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ドルビー・インターナショナル・アーベーの特許一覧 ▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特許7212622コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-01-17

(45)【発行日】2023-01-25

(54)【発明の名称】コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム

(51)【国際特許分類】

H04S 7/00 20060101AFI20230118BHJP

【ＦＩ】

H04S7/00 340

【請求項の数】 21

(21)【出願番号】P 2019543305

(86)(22)【出願日】2018-06-15

(65)【公表番号】

(43)【公表日】2020-08-13

(86)【国際出願番号】 US2018037887

(87)【国際公開番号】W WO2018232327

(87)【国際公開日】2018-12-20

【審査請求日】2021-05-27

(31)【優先権主張番号】17176248.7

(32)【優先日】2017-06-15

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】62/519,952

(32)【優先日】2017-06-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/680,678

(32)【優先日】2018-06-05

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(73)【特許権者】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】フェルシュ，クリストフ

(72)【発明者】

【氏名】ツィンゴス，ニコラスアール．

【審査官】辻勇貴

(56)【参考文献】

【文献】特開２０１５－２３３２５２（ＪＰ，Ａ）

【文献】特表２０１２－５１８３１３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／００１８１２１（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｓ７／００

(57)【特許請求の範囲】

【請求項1】

オーディオ・コンテンツを処理する方法であって：
一つまたは複数のプロセッサによって、ユーザーの第一の位置または向きを示す第一の姿勢情報を取得する段階と；
前記一つまたは複数のプロセッサによって、前記第一の姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と；
前記一つまたは複数のプロセッサによって、前記予測姿勢情報に基づいて前記オーディオ・コンテンツをレンダリングして、レンダリングされたオーディオ・コンテンツを得る段階と；
前記一つまたは複数のプロセッサによって、前記レンダリングされたオーディオ・コンテンツおよび予測姿勢情報を再生のために第一の装置に送信する段階とを含み、前記予測姿勢情報および第二の姿勢情報が、更新されたレンダリングされたオーディオ・コンテンツを前記第一の装置において再生する前に、前記レンダリングされたオーディオ・コンテンツを更新するために使用される、
方法。

【請求項2】

前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、請求項１記載の方法。

【請求項3】

前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、請求項１記載の方法。

【請求項4】

前記予測姿勢情報および第二の姿勢情報を、前記レンダリングされたオーディオ・コンテンツを更新するために使用することが：
前記予測姿勢情報を前記第二の姿勢情報と比較する段階と；
前記比較の結果に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階とをさらに含む、
請求項１記載の方法。

【請求項5】

前記予測姿勢情報は、前記レンダリングされたオーディオ・コンテンツが再生のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記第二の姿勢情報は、前記レンダリングされたオーディオ・コンテンツが前記第一の装置によって再生のために実際に処理される時点で得られる姿勢情報である、
請求項４記載の方法。

【請求項6】

前記レンダリングされたオーディオ・コンテンツは、圧縮されていない形で前記第一の装置に送信される、請求項１記載の方法。

【請求項7】

前記第一の装置への送信の前に前記レンダリングされたオーディオ・コンテンツをエンコードし、前記第一の装置における受信後に、前記エンコードされたレンダリングされたオーディオ・コンテンツをデコードすることをさらに含む、
請求項１記載の方法。

【請求項8】

前記レンダリングされたオーディオ・コンテンツが再生のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたオーディオ・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、請求項５記載の方法。

【請求項9】

前記予測姿勢情報は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたオーディオ・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、請求項１記載の方法。

【請求項10】

前記オーディオ・コンテンツをレンダリングするために使用された前記予測姿勢情報を前記第二の姿勢情報と比較する段階と；
前記比較の結果に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階とをさらに含む、
請求項１記載の方法。

【請求項11】

第二の装置において、前記姿勢情報の変化に応じて前記レンダリングされたオーディオ・コンテンツがどのように変化するかを示す勾配情報を決定する段階と；
前記勾配情報を前記レンダリングされたオーディオ・コンテンツと一緒に前記第一の装置に送信する段階と；
前記第一の装置において、前記オーディオ・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階と；
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階とをさらに含む、
請求項１記載の方法。

【請求項12】

当該方法はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を第二の装置に送信する段階を含み、
前記オーディオ・コンテンツのレンダリングは、さらに前記環境情報に基づく、
請求項１記載の方法。

【請求項13】

当該方法はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を第二の装置に送信する段階を含み、
前記オーディオ・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
請求項１記載の方法。

【請求項14】

一つまたは複数のプロセッサと；
一つまたは複数のプロセッサによって実行されたときに、該一つまたは複数のプロセッサに動作を実行させる命令を記憶しているメモリとを有するシステムであって、前記動作は：
ユーザーの第一の位置または向きを示す第一の姿勢情報を取得し；
前記第一の姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し；
前記予測姿勢情報に基づいてオーディオ・コンテンツをレンダリングして、レンダリングされたオーディオ・コンテンツを得て；
前記レンダリングされたオーディオ・コンテンツおよび予測姿勢情報を再生のために第一の装置に送信することを含み、前記予測姿勢情報および第二の姿勢情報は、更新されたレンダリングされたオーディオ・コンテンツを前記第一の装置において再生する前に、前記レンダリングされたオーディオ・コンテンツを更新するために使用される、
システム。

【請求項15】

【請求項16】

第一の装置による再生のためにメディア・コンテンツを処理する方法であって：
一つまたは複数のプロセッサによって、ユーザーの位置または向きを示す姿勢情報を取得する段階と；
前記一つまたは複数のプロセッサによって、前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と；
前記一つまたは複数のプロセッサによって、前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得る段階と；
前記一つまたは複数のプロセッサによって、前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を取得する段階と；
前記一つまたは複数のプロセッサによって、前記レンダリングされたメディア・コンテンツおよび勾配情報を、更新されたレンダリングされたメディア・コンテンツを前記第一の装置によって更新し、再生することにおいて使用するために、前記第一の装置に送信する段階とを含む、
方法。

【請求項17】

前記一つまたは複数のプロセッサによって、前記予測姿勢情報を、更新されたレンダリングされたメディア・コンテンツを前記第一の装置によって更新し、再生することにおいて使用するために、前記第一の装置に送信する段階をさらに含む、
請求項１６記載の方法。

【請求項18】

第一の装置の一つまたは複数のプロセッサによって、ユーザーの第一の位置または向きを示す第一の姿勢情報を取得する段階と；
前記一つまたは複数のプロセッサによって、前記第一の姿勢情報を第二の装置に送信する段階と；
前記一つまたは複数のプロセッサによって、レンダリングされたオーディオ・コンテンツを前記第二の装置から受領する段階であって、前記レンダリングされたオーディオ・コンテンツは前記第二の装置によって予測姿勢情報を使ってレンダリングされたものであり、前記予測姿勢情報は前記第一の姿勢情報に基づく、段階と；
前記一つまたは複数のプロセッサによって、ユーザーの第二の位置または向きを示す第二の姿勢情報を取得する段階と；
前記一つまたは複数のプロセッサによって、前記第二の姿勢情報に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階と；
前記一つまたは複数のプロセッサによって、更新されたレンダリングされたオーディオ・コンテンツを再生する段階とを含む、
方法。

【請求項19】

前記一つまたは複数のプロセッサによって、予測された姿勢を前記第二の装置から取得する段階と；
前記一つまたは複数のプロセッサによって、前記レンダリングされたオーディオ・コンテンツを、予測された姿勢と前記第二の姿勢情報との間の差に基づいて更新する段階とをさらに含む、
請求項１８記載の方法。

【請求項20】

レンダリングされたオーディオ・コンテンツを再生するための第一の装置と、前記レンダリングされたオーディオ・コンテンツを生成するための第二の装置とを有するシステムであって、
前記第一の装置は：
ユーザーの第一の位置または向きを示す第一の姿勢情報を取得し；
前記第一の姿勢情報を前記第二の装置に送信し；
レンダリングされたオーディオ・コンテンツを前記第二の装置から受領し；
ユーザーの第二の位置または向きを示す第二の姿勢情報を取得し；
少なくとも前記第二の姿勢情報に基づいて前記レンダリングされたオーディオ・コンテンツを更新し；、
更新されたレンダリングされたオーディオ・コンテンツを再生するように構成されている
システム。

【請求項21】

前記第一の装置がさらに、予測された姿勢を前記第一の装置から受領し、前記レンダリングされたオーディオ・コンテンツを、予測された姿勢と前記第二の姿勢情報との間の差に基づいて更新するように構成されている、請求項２０記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願への相互参照
本願は、2018年6月5日に出願された米国仮特許出願第62/680,678号ならびにいずれも2017年6月15日に出願された米国仮特許出願第62/519,952号および欧州特許出願第17176248.7号の優先権を主張するものである。これらのすべては、その全体が参照により援用される。

【0002】

技術分野
本開示は、たとえば仮想現実（VR）、拡張現実（AR）、および混合現実（MR）アプリケーションのようなコンピュータ媒介される現実アプリケーションに関する。これらのアプリケーションには、クライアント／受信器のバイノーラル化されたおよび非バイノーラル化されたオーディオおよびビデオ・アプリケーションを含みうるが、これらに限定されない。

【背景技術】

【0003】

コンピュータ媒介される現実感空間（たとえば、VR、ARおよびMR空間）におけるアプリケーションおよびプロダクトは、音源およびシーンのますます洗練された音響モデルを含むように急速に進化しつつある。限定を意図することなく、本稿の残りの部分ではVR、ARおよびMRが言及される。コンピュータ媒介される現実体験を最適化するために、ユーザーの動き（たとえば頭の動き）と、この動きに適応した音（レンダリングされた音）の知覚との間の遅延を最小化することが好ましい。この遅延は、動きから音声へのレイテンシー（motion-to-sound latency）または動きから耳までの遅延（motion-to-ear lag）としても知られている。さらに、計算複雑さおよび電力消費を最適化することが重要であるスマートフォンのような一般的な受信器デバイスについては、音声をデコードし、レンダリングするために必要な命令の数を最小化することも望ましい。オーディオ・シーン全体が送信されるとき、たとえば通信でない場合については、受信器のレンダリング・レイテンシーに焦点がおかれる。たとえば、線形アプリケーション（たとえば映画）は、ユーザーの動作に動的に反応しない。しかしながら、対話型コンテンツについては、すべての累積された往復レイテンシーが考慮される必要があろう（たとえば、ユーザーが、レンダリングのためにサーバーに送り返される必要のあるイベントをトリガーする場合）。動きとその結果生じる効果との間のレイテンシーをユーザーが認識しないよう、またコンテンツのオーディオとビデオとの間にずれがないよう、コンテンツが消費される前に、動的に変更されたコンテンツは、十分なリードタイムをもってエンコードされるべきである。ユーザーの動き（位置および／または方向）はコンテンツ自体には影響しないため、線形アプリケーションの場合、動きから音声へのレイテンシーについてはエンコードおよびデコード・レイテンシーは考慮されない。むしろ、これらの動きは、コンテンツを見る視点に影響するだけである。よって、線形コンテンツについては、ユーザーの動きはレンダリングに影響するだけであって、出力される音声のエンコードおよび／またはデコードには影響しない。通信の場合は、システムはコンテンツ（たとえば発話）が発生するときにメディアをエンコード、送信、およびデコードすることを開始できるので、異なってくる。同じことは、（たとえば、ゲーム・エンジンからの）対話型コンテンツが、クラウドにあるリモート・サーバーによってリアルタイムにレンダリングされ、エンコードされる場合にも当てはまる。さらに、ビデオ・システムおよびオーディオ・システムの全体的なレイテンシーが同じであることが非常に重要である。違いがあると動き酔い（motion-sickness）が生じることがあるからである。よって、ビデオ・システムのレイテンシーに依存して、オーディオ・システム・レイテンシーの同レベルを達成する必要がある。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本稿は、説得力のある経験を提供するためにはあまりに高いレイテンシーおよびあまりに高い計算複雑さが要求されるという、一般的なAR、VRおよびMRシステムの技術的問題に対処する。この問題に対処するために、本稿は、それぞれの独立請求項の特徴を有する、メディア・コンテンツを処理する方法、メディア・コンテンツを処理するシステムおよび対応する装置を提案する。

【課題を解決するための手段】

【0005】

本開示のある側面は、第一の装置による再現のためにメディア・コンテンツを処理する方法に関する。第一の装置は、たとえば、受信器、受信器装置、または再生装置のうちの一つであってもよい。前記第一の装置は、たとえば、AR／VR／MRヘッドセットのようなAR／VR／MR設備に対応してもよく、かかるAR／VR／MR設備を含んでいてもよく、あるいはAR／VR／MR設備と連携して動作してもよい。よって、第一の装置は、メディア・コンテンツを再現するための再現設備（たとえば、スピーカー、ヘッドフォン）と、該再現設備に結合されるプロセッサとを含んでいてもよい。メディア・コンテンツは、オーディオ・コンテンツおよび／またはビデオ・コンテンツであってもよいし、それらを含んでいてもよい。処理はレンダリングを伴ってもよいし、レンダリングに対応していてもよい。再現（reproduction）は、再生（replay）を含んでいてもよく、あるいは再生に対応していてもよい。本方法は、ユーザーの位置および／または向きを示す姿勢情報を得ることを含んでいてもよい。姿勢情報の取得は、第一の装置において実行されてもよい。ユーザーは、第一の装置のユーザーであってもよい。姿勢情報は、たとえば、ユーザーの頭部に関係していてもよい。前記姿勢情報は、ユーザーと位置合わせして配置されうるセンサー、たとえば姿勢センサーによって得られてもよい。よって、姿勢情報は、センサー・データと称されてもよい。姿勢情報は、姿勢の一つまたは複数の一階微分および／または姿勢の一つまたは複数の二階微分をさらに含んでいてもよい。ユーザーは、たとえば、AR／VR／MR設備を装着してもよい。本方法はさらに、メディア・コンテンツを提供する（たとえば記憶する、中継する）第二の装置に姿勢情報を送信することを含んでいてもよい。第二の装置は、たとえば、送信側装置、サーバー装置、またはコンテンツ配送装置のうちの一つであってもよい。第二の装置は、メディア・コンテンツを第一の装置に提供するための装置であってもよい。第一および第二の装置は、互いに空間的に分離されていてもよい。本方法は、姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得ることをさらに含んでいてもよい。レンダリングは、第二の装置において実行されてもよい。前記レンダリングされたメディア・コンテンツは、プリレンダリングされたメディア・コンテンツと呼ばれることがある。レンダリングは、たとえばオーディオ・コンテンツの場合、二つ以上のチャネルに対してでありうる。本方法はさらに、レンダリングされたメディア・コンテンツを再現のために第一の装置に送信することを含んでいてもよい。レンダリングされたメディア・コンテンツを送信することは、第二の装置によって実行されてもよい。本方法は、さらに、レンダリングされたメディア・コンテンツを（第一の装置によって）再現（たとえば再生）することを含んでいてもよい。

【0006】

レンダリングされたメディア・コンテンツのみが送信される必要がある場合、無損失データ送信のための送信ビットレートは、完全なメディア・コンテンツの圧縮バージョンのビットレートと同様であるか、または同等でありうる。よって、圧縮は提案される方法のコンテキストにおいて必要ないことがありうる。非圧縮または無損失のメディア・ストリームを送信することは、エンコードおよびデコードのためのレイテンシーをなくすか、低減する。たとえば、エンコード／デコードから生じるレイテンシーはゼロに低減されてもよく、これは、動きから耳へのレイテンシー（motion-to-ear latency）および／または動きから目へのレイテンシー（motion-to-eye latency）の全体的な低下にもつながる。さらに、プリレンダリングされたメディア・コンテンツの圧縮がない場合、第一の装置（受信器）は、デコードまたはレンダリングすることなく、オーディオ／ビデオを出力することができる。これは、デコードを実行する必要がない、および／または、レンダリングが送信側ですでに完了されているため、受信器における計算複雑さの低減につながる。このように、提案される方法は、動きから耳へのレイテンシーおよび／または動きから目へのレイテンシーを減らすことができ、さらに受信側での計算複雑さを減らすことができる。

【0007】

いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。代替的または追加的に、メディア・コンテンツはビデオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたビデオ・コンテンツを含んでいてもよい。

【0008】

いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。その際、本方法は、レンダリングされたオーディオ・コンテンツの可聴（たとえば、音響）表現を生成することをさらに含んでいてもよい。可聴表現の生成は、第一の装置で実行されてもよい。前記生成は、たとえば、オーディオ・コンテンツの場合、第一の装置の二つ以上のスピーカーを介して実行されてもよい。

【0009】

いくつかの実施形態では、オーディオ・コンテンツは、一次アンビソニクス（FOA: First Order Ambisonics）ベース、高次アンビソニクス（HOA: Higher Order Ambisonics）ベース、オブジェクト・ベース、またはチャネル・ベースのオーディオ・コンテンツのうちの一つ、またはFOAベース、HOAベース、オブジェクト・ベース、またはチャネル・ベースのオーディオ・コンテンツのうちの二つ以上の組み合わせであってもよい。

【0010】

いくつかの実施形態では、レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツ、またはチャネル・ベースのオーディオ・コンテンツのうちの一つ、またはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツ、またはチャネル・ベースのオーディオ・コンテンツのうちの二つ以上の組み合わせであってもよい。

【0011】

いくつかの実施形態では、レンダリングは、姿勢情報に基づき、以前の姿勢情報および／または一つまたは複数の一階および／または二階微分にさらに基づいて、予測された姿勢情報を取得することを含んでいてもよい。予測された姿勢情報は、将来の時点についての姿勢情報であってもよい。以前の姿勢情報は、前の時点において第一の装置において取得された、または第一の装置から受信された姿勢情報であってもよい。この予測は、第二の装置で実行されてもよい。あるいはまた、予測は、第一の装置で実行されてもよい。後者の場合、第一の装置は、予測された姿勢情報を第二の装置に送信してもよい。レンダリングは、さらに、予測された姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得ることを含んでいてもよい。

【0012】

予測された姿勢情報を考慮することによって、レンダリングされたメディア・コンテンツのエンコード／デコード、および／またはレンダリングされたメディア・コンテンツの第一の装置への送信から生じうる遅延が対処されることができる。換言すれば、前記遅延は、適切に予測された姿勢情報のために隠されることができ、それにより、ユーザーは、この遅延に気づかず、オーディオ、ビデオ、および動きの間のいかなるミスマッチも感知しないことがありうる。

【0013】

いくつかの実施形態では、本方法は、予測された姿勢情報を、レンダリングされたメディア・コンテンツと一緒に第一の装置に送信することをさらに含んでいてもよい。

【0014】

これにより、第一の装置は、予測された姿勢情報（すなわち、この場合、メディア・コンテンツをレンダリングするために使用された姿勢情報）が、実際の／現在の姿勢情報（すなわち、第一の装置において現在得られている姿勢情報）と同じ（または実質的に同じ）であるかどうかの検査を実行して、予測された姿勢情報と実際の／現在の姿勢情報との間に不一致がある場合には、レンダリングされたメディア・コンテンツを適切に適応させることができる。

【0015】

いくつかの実施形態では、本方法は、予測された姿勢情報を実際の姿勢情報と比較することをさらに含んでいてもよい。この方法は、さらに、比較の結果に基づいてレンダリングされたメディア・コンテンツを更新することを含んでいてもよい。前記比較および前記更新は、第一の装置で実行されてもよい。実際の姿勢情報は、レンダリングされたメディア・コンテンツが、たとえば、第一の装置によって再生される時点における（たとえば、該時点において得られる）姿勢情報であってもよい。更新は、たとえば、予測された姿勢情報と実際の姿勢情報との間の差に基づいて実行されてもよい。前記更新は、たとえば、回転、レベル変化および／またはブラインド・アップミックスによる、レンダリングされたメディア・コンテンツの外挿に関わってもよい。

【0016】

いくつかの実施形態では、予測された姿勢情報は、レンダリングされたメディア・コンテンツが再現のために第一の装置によって処理されることが期待される時点の推定値について予測されてもよい。第一の装置によるレンダリングされたメディア・コンテンツの処理は、レンダリングされたメディア・コンテンツの再現（たとえば再生）に関わってもよい。実際の姿勢情報（たとえば、現在の姿勢情報）は、レンダリングされたメディア・コンテンツが再現のために第一の装置によって実際に処理される時点において得られる姿勢情報であってもよい。実際の姿勢情報は、レンダリングされたメディア・コンテンツが第一の装置によって実際に処理される時点において得られてもよい。

【0017】

それにより、予測された姿勢情報と実際の姿勢情報との間のミスマッチがあっても対処され、それにより、レンダリングされたメディア・コンテンツをユーザーの姿勢（たとえば、ユーザーの頭部の姿勢）に対し、より良好に適合させ、ユーザーにとっての知覚されるオーディオ／ビデオ・シーンと期待されるオーディオ／ビデオ・シーンとの間の食い違いを回避することができる。予測された姿勢情報と実際の姿勢情報との間のミスマッチは小さいことが期待されるので、そのような適合は、扱いうる計算複雑さで、第一の装置に安全に委ねることができる。

【0018】

いくつかの実施形態では、レンダリングされたメディア・コンテンツは、非圧縮の形で第一の装置に送信されてもよい。

【0019】

これは、第一の装置（受信器）における計算複雑さを低減することを可能にし、さらに、姿勢の変化と、変化した姿勢に従ってレンダリングされたメディア・コンテンツの再現との間の往復遅延を短縮する。

【0020】

いくつかの実施形態では、本方法は、レンダリングされたメディア・コンテンツを、第一の装置への送信の前に、エンコード（たとえば、圧縮）することをさらに含んでいてもよい。本方法はさらにまた、エンコードされたレンダリングされたメディア・コンテンツを、第一の装置での受信後に、デコード（たとえば、圧縮解除）することを含んでいてもよい。エンコード／デコードは、レンダリングされたメディア・コンテンツを圧縮／圧縮解除することを含むか、またはそれに対応していてもよい。エンコード／デコードは、低遅延エンコード／デコードであってもよい。

【0021】

いくつかの実施形態では、レンダリングされたオーディオ・コンテンツが再現のために第一の装置によって処理されることが期待される時点の推定値は、レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定、および／またはレンダリングされたメディア・コンテンツを第一の装置に送信するために必要な時間の推定値を含んでいてもよい。

【0022】

いくつかの実施形態では、予測された姿勢情報は、レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／またはレンダリングされたメディア・コンテンツを第一の装置に送信するために必要な時間の推定値にさらに基づいて取得されてもよい。

【0023】

それにより、エンコード／デコードおよび／または送信から生じる遅延は、ユーザーがこれらの遅延に気づかないという意味で、隠されることができる。

【0024】

いくつかの実施形態では、本方法は、メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較することをさらに含んでいてもよい。現在の姿勢情報は、たとえば、レンダリングされたメディア・コンテンツを再現する時点で得られる姿勢情報であってもよい。本方法はさらにまた、比較の結果に基づいて、レンダリングされたメディア・コンテンツを更新することを含んでいてもよい。更新は、メディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて実行されてもよい。前記更新は、たとえば、回転、レベル変化および／またはブラインド・アップミックスによる、レンダリングされたメディア・コンテンツの外挿に関わってもよい。

【0025】

いくつかの実施形態では、本方法はさらに、第二の装置において、姿勢情報の変化（たとえば、姿勢の変化）に応答して、レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定することを含んでいてもよい。勾配情報は、（オーディオ・コンテンツについて）ユーザー（たとえば、ユーザーの頭部）の並進および／または回転に応答する（たとえば各チャネルの）サブバンド・エネルギー・レベルの変化を示してもよい。本方法はさらに、レンダリングされたメディア・コンテンツと一緒に勾配情報を第一の装置に送信することを含んでいてもよい。本方法はさらに、第一の装置において、メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較することを含んでいてもよい。メディア・コンテンツをレンダリングするために（第二の装置によって）使用された姿勢情報は、レンダリングされたメディア・コンテンツと一緒に、第一の装置に送信されてもよい。この姿勢情報がレンダリングされたメディア・コンテンツと一緒に第一の装置に送られない場合には、第一の装置は、自分が第二の装置に送った姿勢情報を参照してもよい。現在の姿勢情報は、たとえば、レンダリングされたメディア・コンテンツを再現する時点において得られる姿勢情報であってもよい。本方法はさらにまた、勾配情報および前記比較の結果に基づいて、レンダリングされたメディア・コンテンツを更新することを含んでいてもよい。レンダリングされたメディア・コンテンツの更新は、メディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて実行されてもよい。前記更新は、たとえば、回転、レベル変化および／またはブラインド・アップミックスによる、レンダリングされたメディア・コンテンツの外挿に関わってもよい。

【0026】

それにより、姿勢情報の予測における小さな不備が補正されることができ、姿勢と再現されるメディア・コンテンツとの間のいかなるミスマッチも回避できる。

【0027】

いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。その際、本方法は、第一の装置が位置している環境の音響特性を示す環境情報を第二の装置に送信することをさらに含んでいてもよい。この場合、メディア・コンテンツのレンダリングは、該環境情報にさらに基づいていてもよい。環境情報は、部屋特性および／または両耳室内インパルス応答（BRIR: Binaural Room Impulse Response）関数を含んでいてもよい。

【0028】

これは、再現されたメディア・コンテンツを、ユーザーが位置している特定の環境に特に適合させることを可能にし、それにより、ユーザーのコンピュータ媒介される現実体験を向上させる。

【0029】

いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。その際、本方法は、ユーザーまたはユーザーの一部の形態を示す形態学的情報を第二の装置に送信することをさらに含んでいてもよい。この場合、メディア・コンテンツのレンダリングは、形態学的情報にさらに基づいていてもよい。形態は、形またはサイズ、たとえば、ユーザーの頭部の形またはサイズを含んでもよく、またはそれに対応していてもよい。形態学的情報は、頭部伝達関数（HRTF: Head-Related Transfer Functions）を含んでいてもよい。レンダリングはバイノーラル・レンダリングであってもよい。

【0030】

これは、再現されたメディア・コンテンツをユーザーまたはユーザーの一部の特定の形態に特に適合させることを可能にし、それによりユーザーのコンピュータ媒介される現実体験を向上させる。

【0031】

本開示のさらなる諸側面は、上記の側面およびその実施形態に基づく（たとえばそれを実装する）第一の装置、第二の装置および第一の装置と第二の装置のシステムに関する。

【0032】

このように、本開示の別の側面は、メディア・コンテンツを再現するための第一の装置と、メディア・コンテンツを記憶している第二の装置とを有するシステムに関する。第一の装置は、ユーザーの位置および／または向きを示す姿勢情報を得るように適応（構成）されてもよい。第一の装置は、さらに、姿勢情報を第二の装置に送信するように適応（構成）されてもよい。第二の装置は、姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得るように適応（構成）されてもよい。第二の装置は、レンダリングされたメディア・コンテンツを、再現のために第一の装置に送信するようにさらに適応（構成）されてもよい。たとえば、第一および第二の装置は、それぞれのプロセッサ（またはそれぞれのプロセッサの組）およびそれぞれのプロセッサ（またはそれぞれのプロセッサの組）に結合されたメモリを含んでいてもよい。それらのプロセッサは、上記の動作を実行するよう適応（構成）されてもよい。

【0033】

本開示の別の側面は、第一の装置による再現のためにメディア・コンテンツを提供するための第二の装置に関する。第二の装置は、第一の装置のユーザーの位置および／または向きを示す姿勢情報を受信するよう適応（構成）されてもよい。第二の装置は、姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得るようにさらに適応（構成）されてもよい。第二の装置は、さらにまた、レンダリングされたメディア・コンテンツを再現のために第一の装置に送信するように適応（構成）されてもよい。たとえば、第二の装置は、プロセッサ（または一組のプロセッサ）および該プロセッサ（または一組のプロセッサ）に結合されたメモリを含んでいてもよい。プロセッサ（または一組のプロセッサ）は、上記の動作を実行するように適応（構成）されてもよい。

【0034】

本開示の別の側面は、第二の装置によって提供されるメディア・コンテンツを再現するための第一の装置に関する。第一の装置は、第一の装置のユーザーの位置および／または向きを示す姿勢情報を得るように適応（構成）されてもよい。第一の装置は、さらに、姿勢情報を第二の装置に送信するように適応（構成）されてもよい。第一の装置は、さらに、レンダリングされたメディア・コンテンツを第二の装置から受信するよう適応（構成）されてもよい。レンダリングされたメディア・コンテンツは、姿勢情報に基づいてメディア・コンテンツをレンダリングすることによって取得されたものであってもよい。第一の装置は、さらにまた、レンダリングされたメディア・コンテンツを再現するように適応（構成）されてもよい。たとえば、第一の装置は、プロセッサ（または一組のプロセッサ）および該プロセッサ（または一組のプロセッサ）に結合されたメモリを含んでいてもよい。プロセッサ（または一組のプロセッサ）は、上記の動作を実行するように適応（構成）されてもよい。

【0035】

方法に関してなされた陳述は、同様に、そのような方法／システムにおいて使用されている対応するシステムおよび装置にも適用され、その逆も成り立つことを注意しておく。

【0036】

本開示のさらなる諸側面は、送信器（S）装置によってユーザー位置および／または向きデータを受信し、典型的にはオブジェクト・ベースまたはFOA／HOA表現から導出される対応するプリレンダリングされたコンテンツを送信することを含む、オーディオ・コンテンツをレンダリングするための方法を実行するよう構成されたシステム、装置、方法、およびコンピュータ可読記憶媒体に関する。送信器によって生成されるプリレンダリングされた信号は、バイノーラル、FOA、HOA、または任意の型のチャネル・ベースのレンダリングであることができる。本方法はさらに、圧縮されていないプリレンダリングされたコンテンツを送信することを含んでいてもよい。本方法はさらに、プリレンダリングされたコンテンツをエンコードし、エンコードされたプリレンダリングされたコンテンツを送信することを含んでいてもよい。本方法はさらに、プリレンダリングされたコンテンツを、受信器によって受信することをさらに含んでいてもよい。本方法は、さらに、プリレンダリングされた、プリエンコードされたバイノーラル化されたコンテンツを受信器によってデコードすることを含んでいてもよい。ユーザー位置および／または向きデータは、世界空間におけるユーザーの位置および向きを示すローカルな姿勢を含んでいてもよい。ユーザー位置データは、受信器から送信器に送信されてもよい。本方法は、プリレンダリングされたバイノーラル化されたコンテンツのために使用されたユーザー位置データを受信器に送り返すことをさらに含んでいてもよい。本方法はさらに、受信されたユーザー位置データおよびローカル位置データに基づいて、プリレンダリングされたコンテンツを外挿して、更新されたコンテンツを決定することを含んでいてもよい。本方法はさらに、個別化されたバイノーラル処理のために、ユーザーについての形態学的データ（たとえば、頭部サイズ）を送信することを含んでいてもよい。本方法はさらに、BRIRおよび部屋の特徴付けについてのデータを送信することを含んでいてもよい。本方法はさらに、コンテンツが聴取者非依存的な仕方（たとえば、HRTFを含まない）で送信されるという決定に基づいて、受信側でバイノーラル・レンダリングおよび個別化（individualization）を実行することを含んでいてもよい。本方法はさらに、時点t1において、ユーザー位置および／または向きデータP(t0)を提供することを含んでいてもよい。圧縮されていないプリレンダリングされたコンテンツは、バイノーラル化された圧縮されていないプリレンダリングされたコンテンツであってもよい。

【図面の簡単な説明】

【0037】

本開示の実施形態は、添付の図面を参照して以下に説明される。

【図1】受信器の第一の例を示す。

【図2】受信器の第二の例を示す。

【図3】受信器およびサーバー・システムの第一の例を示す。

【図4】送信器および受信器システムの第二の例を示す。

【図5】送信器および受信器システムの第三の例を示す。

【図6】送信器および受信器システムの第四の例を示す。

【図7】メディア・コンテンツの処理方法の第一の例を示す。

【図8】メディア・コンテンツの処理方法の第二の例を示す。

【図9】メディア・コンテンツの処理方法の第三の例を示す。

【図10】メディア・コンテンツの処理方法の第四の例を示す。

【発明を実施するための形態】

【0038】

当業者には理解されるように、バーチャルな世界への完全な没入は、脳を「だまして」感知されているものを信じさせる。視覚が視野によって制限されるとき、見えないものについての次元を音が加える（たとえば、後ろからの牛の突進、右側のガラガラヘビ、さらには左耳から頭の後ろから右耳へと動くささやきなど）よって、コンテンツ制作者は、サウンドを利用してユーザーの視線を方向付けることができ、それにより効果的にストーリーを語ることができる。現在、映画館やホームシアターでは、オブジェクト・ベースまたは一次／高次アンビソニックス（FOA／HOA）ベースのサウンド生成、コンテンツのパッケージングおよび再生を通じて、没入的なオーディオ体験が提供されている。VRサウンドは、バーチャルな世界に完全に浸るためには、サウンドの精密さを必要とする。VRコンテンツの制作者は、オブジェクト・ベースおよび／またはHOAベースのサウンドを三次元空間で生成する機能を要求とする。さらに、そのようなコンテンツは、ユーザーがコンテンツを楽しむことができるよう、精密さおよび効率をもって、バイノーラルに（ヘッドフォンまたはラウドスピーカーで）エンコードされ、配送され、デコードされ、レンダリングされる必要がある。

【0039】

受信器は、たとえば帯域幅およびメディア・ビットレートのようなさまざまなパラメータに基づいて、MPEG-DASHまたはMPEG-MMTフォーマットを介して配送されるオーバー・ザ・トップ（OTT: over-the-top）コンテンツのような、コンテンツのメディア・フォーマット表現を選択しうる。受信器はまた、メディアの消費に関する情報を受け取ることもできる。メディア・フォーマット表現の選択は、そのようなメディア消費に基づいていてもよい。たとえば、プリレンダリングされたバイノーラル化されたデータは、ヘッドフォンまたはステレオ・ラウドスピーカー（たとえばクロストーク打ち消しがある）出力の指示に基づいて選択されてもよい。

【0040】

本明細書に記載される例示的実施形態は、メディア・コンテンツを処理する（たとえば、オーディオ・コンテンツをレンダリングする）ように適応された方法、装置およびプロセスを記載する。例示的実施形態は、一般に、メディア・コンテンツ（たとえば、オーディオ・コンテンツおよび／またはビデオ・コンテンツを含む）を処理することに関するが、限定する意図なしに、本稿の残りの部分ではオーディオ・コンテンツが言及される。

【0041】

図１は、バイノーラル・レンダリングのための受信器／クライアント・システム１００の例を示している。システム１００はオーディオ入力１０１を受け取ることができる。オーディオ入力１０１は、送信器からのエンコードされたビットストリームに含まれる完全なシーンを含んでいてもよい。受信器システム１００は、ユーザーの動きおよび／またはユーザー頭部の向きに関係するセンサー・データ（姿勢情報）１１０を受信または検出することができる。センサー・データ１１０は、たとえばヨー、ピッチ、ロール、および／または（x,y,z）座標のような向きおよび位置に関する情報を含んでいてもよい。受信器システム１００は、さらに、オーディオ入力１０１を非圧縮オーディオおよび／またはメタデータ１２０にデコードしうるデコーダ１０２を含んでいてもよい。受信器システム１００は、さらに、非圧縮オーディオおよび／またはメタデータ１２０をバイノーラル出力１５０にレンダリングしうるレンダラー１０３を含んでいてもよい。受信器システム１００はバイノーラル出力１５０を、たとえばヘッドフォン出力に出力することができる。

【0042】

図１に示された受信器／クライアント・システム１００は、本稿の冒頭で述べたレイテンシーおよび／または計算複雑さに関係する問題に悩まされることがある。

【0043】

これらの問題に対処するために、本開示は、メディア・コンテンツ（たとえば、オーディオおよび／またはビデオ・コンテンツ）を処理するためのシステムにおいて、受信器においてユーザーについての姿勢情報を取得し、姿勢情報を送信器に送信し、姿勢情報に基づいてメディア・コンテンツをレンダリングし、レンダリングされたメディア・コンテンツを受信器に送信することを提案する。それにより、受信器側で実行される動作の計算量を大幅に低減することができる。さらに、レンダリングされたメディア・コンテンツは、非圧縮の形で送信されてもよく、これは、姿勢の変化（たとえば頭部の動き）と、この姿勢の変化に適合した再現されたメディア・コンテンツの知覚（たとえば、音の知覚）との間の遅延を減らすことができる、
図７は、上記の考察に従ったメディア・コンテンツを処理する方法７００の一例を概略的に示すフローチャートである。メディア・コンテンツは、オーディオ・コンテンツおよび／またはビデオ・コンテンツを含んでいてもよい。オーディオ・コンテンツは、たとえば、FOAベースのオーディオ・コンテンツ、HOAベースのオーディオ・コンテンツ、オブジェクト・ベースのオーディオ・コンテンツ、チャネル・ベースのオーディオ・コンテンツ、またはそれらの組み合わせであってもよい。メディア・コンテンツの処理は、メディア・コンテンツをレンダリングすることに関わってもよい。本方法は、メディア・コンテンツを再現するための第一の装置と、メディア・コンテンツを提供するための第二の装置とを有するシステムにおいて実行されてもよい。メディア・コンテンツを再現することは、メディア・コンテンツを再生することに関わってもよい。第一の装置は、たとえば、受信器、受信器装置、クライアント、クライアント装置、または再生装置と称されてもよい。第一の装置は、たとえば、VR／AR／MRヘッドセット（たとえば、ゴーグル）のような、コンピュータ媒介される現実（たとえば、VR、AR、MR）設備を有していてもよく、それに対応していてもよく、またはそれと関連して動作してもよく、ユーザーに関連していてもよい。ユーザーは、かかるコンピュータ媒介現実設備を身につけてもよい。第一の装置は、ユーザーまたはユーザーの一部（たとえば、ユーザーの頭部）の姿勢（たとえば、位置および／または向き）を検出するためのセンサー（たとえば、姿勢センサー）を有していてもよく、またはそれと（通信上）結合されてもよい。センサーはさらに、姿勢の変化率（一階微分、たとえば、速度、角速度（単数または複数）、ヨー／ロール／ピッチ率（単数または複数））を検出してもよい。センサーはさらにまた、変化率の変化率（二階微分、たとえば、加速度、角加速度）を検出してもよい。センサーによって出力されるセンサー・データは、姿勢情報と呼ばれることがある。一般に、姿勢情報は、ユーザーまたはユーザーの一部（たとえば、ユーザーの頭部）の位置および／または向き（姿勢）を示すものであることが理解される。さらに、姿勢情報は、姿勢の一つまたは複数の変化率（一階微分）を示してもよい。さらにまた、姿勢情報は、変化率の一つまたは複数の変化率（二階微分）、たとえば姿勢の一つまたは複数の変化率の変化率を示してもよい。センサーは、たとえば、コンピュータ媒介現実設備（たとえば、VR／AR／MRヘッドセット／ゴーグル）の一部として、またはユーザーによって携行されるモバイル（コンピューティング）装置（たとえば、スマートフォン、ゲーム・コントローラ）の一部として、ユーザーまたはユーザーの関連する部分（たとえば頭部）と位置合わせされて配置されてもよい。この場合、センサーは、埋め込みセンサーと称されることがある。あるいはまた、センサーは、ユーザー（またはユーザーの一部）の姿勢を追跡する位置サーバー（たとえば、OptiTrackシステムまたはOptiTrackタイプのシステム）に備えられてもよく、または、かかる位置サーバーによって具現されてもよい。一般に、センサーは、ユーザー（またはユーザーの一部）の姿勢を追跡する追跡システムの一部であってもよく、またはかかる追跡システムによって具現されてもよい。そのような位置サーバーは、複数のユーザーの姿勢を追跡してもよい。第二の装置は、たとえば、送信器、送信器装置、サーバー、サーバー装置、またはコンテンツ配送装置と呼ばれることがある。第一および第二の装置のそれぞれは、それぞれのメモリに結合され、後述するそれぞれの動作を行うように適応（構成）されたプロセッサ（または一組のプロセッサ）を有していてもよい。たとえば、前記プロセッサ（またはプロセッサの組）は、後述する方法７００の各ステップを実行するように適応（構成）されてもよい。代替的または追加的に、前記プロセッサ（またはプロセッサの組）は、後述する方法８００、方法９００、および方法１０００のうちのいずれか一つのそれぞれのステップを実行するよう適応（構成）されてもよい。

【0044】

ステップS710では、ユーザー（またはユーザーの一部、たとえば、ユーザーの頭）の位置および／または向きを示す姿勢情報が得られる（たとえば、決定される）。この動作は、たとえば、センサー（たとえば、姿勢センサー）によって実行されてもよい。ステップS720では、姿勢情報は、第二の装置に送信される。ステップS730では、姿勢情報に基づいてメディア・コンテンツがレンダリングされて、レンダリングされたメディア・コンテンツを得る。すなわち、メディア・コンテンツは、ユーザーまたはユーザーの一部の位置および／または向きに基づいてレンダリングされる。レンダリングされたメディア・コンテンツは、プリレンダリングされたメディア・コンテンツ（たとえば、プリレンダリングされたオーディオ・コンテンツおよび／またはプリレンダリングされたビデオ・コンテンツ）と呼ばれることもある。メディア・コンテンツがオーディオ・コンテンツを含む場合、オーディオ・コンテンツは、たとえば、バイノーラル・オーディオ・コンテンツ、Bフォーマットのオーディオ・コンテンツ、HOAオーディオ・コンテンツ、チャネル・ベースのオーディオ・コンテンツ、またはそれらの組み合わせにレンダリングされうる。一般に、オーディオ・コンテンツは、二つ以上のチャネルおよび／または成分にレンダリングされうる。メディア・コンテンツがビデオ・コンテンツを含む場合、ビデオ・コンテンツはタイル状にされてもよく、全体的なビデオ・シーンのうちの関心領域が、たとえばレンダリングされたビデオ・コンテンツとして出力されてもよい。ステップS740では、レンダリングされたメディア・コンテンツは、再現のために第一の装置に送信される。ステップS710およびS720は、第一の装置において／第一の装置によって、たとえばそれぞれセンサー（たとえば、姿勢センサー）および（第一の）送信ユニットによって、実行されてもよい。ステップS730およびS740は、第二の装置において／第二の装置によって、たとえばレンダラーおよび（第二の）送信ユニットにおいて実行されてもよい。

【0045】

オーディオ・コンテンツについては、方法７００は、レンダリングされたオーディオ・コンテンツの可聴（たとえば、音響）表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含むことができる。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法７００は、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップをさらに含んでいてもよい。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表現の生成は、第一の装置において／によって実行されてもよい。

【0046】

上述の方法によるバイノーラル・レンダリングのための受信器／クライアント・システム２００の一例が図２に概略的に示されている。本システムは、方法７００の第一の装置を具現することができる。システム２００は、レンダリングされたメディア・コンテンツ（レンダリングされたオーディオ・コンテンツ）の例として、オーディオ入力２０１を受信してもよい。オーディオ入力２０１は、たとえば、バイノーラル化された非圧縮オーディオの形であってもよい。受信器システム２００は、ユーザーの動きおよび／またはユーザーの頭部の向きに関係するセンサー・データを（姿勢情報の一例として）を出力することができる。頭部姿勢／センサー・データ２２０は、たとえば、ヨー、ピッチ、ロールおよび／または（x,y,z）座標に関する情報を含んでいてもよい。受信器システム２００は、センサー・データを送信器／サーバーに出力することができる。送信器／サーバーは、方法７００における第二の装置を具体化することができる。受信器システム２００はさらに、オーディオ入力２０１の可聴表現を生成してもよい。たとえば、受信器システムは、非圧縮オーディオ入力２０１をヘッドフォン出力に出力することができる。

【0047】

後により詳細に説明するように、図３、図４、図５および図６に示されるシステムのいずれも方法７００を実装することができる。

【0048】

姿勢の変化と、ユーザーに呈示されるメディア・コンテンツの表現の対応する適応との間の遅延をさらに低減するために、第二の装置は、第一の装置への伝送および／またはエンコード／デコード（後述）の結果として生じうる遅延を予期するために、姿勢情報を予測することができる。たとえば、方法７００におけるステップS730におけるメディア・コンテンツのレンダリングは、予測された姿勢情報を取得（たとえば、決定、計算）し、（第一の装置から受信された姿勢情報に基づいてではなく）予測された姿勢情報に基づいてメディア・コンテンツをレンダリングすることに関わってもよい。

【0049】

図８は、姿勢情報の予測を適用する、メディア・コンテンツを処理する方法８００の一例を概略的に示すフローチャートである。特に断わりのない限り、上記の方法７００に関連してなされた陳述は、ここでも当てはまる。

【0050】

ステップS810およびステップS820は、それぞれ、方法７００のステップS710およびS720に対応する。ステップS830aでは、ステップS820で受信された姿勢情報および前の姿勢情報に基づいて、予測姿勢情報が取得される（たとえば、決定される、計算される）。姿勢情報が姿勢の一階および／または二階微分を含む場合、予測は、前の姿勢情報に加えて、またはその代わりに、前記一階および／または二階微分に基づくことができる。予測姿勢情報は、将来の時点についての姿勢情報であってもよく、たとえば、将来の時点におけるユーザーおよび／またはユーザーの一部（たとえば頭部）の位置を示す。ある種の実装では、予測姿勢情報は、レンダリングされたメディア・コンテンツが再現のために第一の装置によって処理されることが期待される時点の推定値について予測されてもよい。第一の装置が再現のためにレンダリングされたメディアを処理することが期待される時点の推定値は、レンダリングされたメディア・コンテンツを第一の装置に送信するために必要な時間（継続時間）の推定値を含むことができる。代替的または追加的に、エンコード／デコード（たとえば、圧縮／圧縮解除）が適用される場合（後述）、前記時点の推定値は、レンダリングされたメディア・コンテンツをエンコード／デコードするために必要な時間（継続時間）の推定値を含むことができる。すなわち、予測姿勢情報は、レンダリングされたメディア・コンテンツを送信するために必要な時間および／またはレンダリングされたメディア・コンテンツをエンコード／デコードするために必要な時間の推定値にさらに基づいて取得されてもよい。前の姿勢情報は、前の時点に第一の装置から受信された姿勢情報であってもよい。前の姿勢情報の一つまたは複数の項目が、たとえば、外挿またはモデルに基づく予測技法を介して、予測姿勢情報を得るために使用されてもよい。この目的のために、前の姿勢情報の項目（たとえば、所定の数の項目）が記憶されてもよい。ステップS830bにおいて、メディア・コンテンツは、予測姿勢情報に基づいてレンダリングされて、レンダリングされたメディア・コンテンツを得る。この動作は、姿勢情報（ステップS720またはステップS820で受信される）の代わりに、予測姿勢情報が使用されるという点で、方法７００のステップS730とは異なりうるが、他の点では、ステップS730と同じようにして実行されてもよい。ステップS840では、レンダリングされたメディア・コンテンツは、再現のために第一の装置に送信される。ステップS810およびS820は、第一の装置において／によって実行されてもよい。ステップS830a、S830b、およびS840は、第二の装置において／によって実行されてもよい。ステップS830aは、たとえば、姿勢予測器によって実行されてもよい。

【0051】

オーディオ・コンテンツについては、方法８００は、レンダリングされたオーディオ・コンテンツの可聴（たとえば、音響）表現を、たとえば第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含むことができる。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法８００は、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップをさらに含んでいてもよい。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表現の生成は、第一の装置において／によって実行されてもよい。

【0052】

方法８００のある修正では、予測姿勢情報は、第一の装置において予測されてもよい。すなわち、第一の装置は、ステップS830aを参照して上述したような処理を実行し、その後、予測された姿勢情報を第二の装置に送信してもよい。この場合、ステップS820が省略されてもよいことが理解される。第一の装置から予測姿勢情報を受信した後、第二の装置は、上述した仕方でステップS830bおよびその後のステップでその処理を継続することができる。

【0053】

後により詳細に説明するように、図３、図４、図５および図６に示されるシステムのいずれも方法８００または方法８００の上記修正を実装することができる。

【0054】

上記のメディア・コンテンツをレンダリングするための姿勢情報の予測は、ユーザーの動きとレンダリングされたメディア・コンテンツの呈示との間の良好な整列が達成できるよう、送信および／またはエンコード／デコードによって生じる遅延を「隠す」ことを可能にする。よって、ユーザーが動き酔いに影響されるリスクを低減するか、または完全に回避することができ、ユーザーの没入的なコンピュータ媒介現実体験を改善することができる。方法８００の場合、動きと、レンダリングされたメディア・コンテンツの呈示との間の整列の改善は、サーバー／送信側で実行されるプロセスによって、すなわち、姿勢情報を予測し、予測された姿勢情報を、メディア・コンテンツをレンダリングするために受信側／再生側から受信される姿勢情報の代わりに使用することによって、達成される。しかしながら、ある種の条件下では、受信器または再生側で実行される施策によって、動きと、レンダリングされたメディア・コンテンツの呈示との間の整列のそのような改善を達成することが望ましいことがある。

【0055】

図９は、上述の考察に従った、すなわち、受信器／再生側で実行される施策によって動きとレンダリングされたメディア・コンテンツの呈示との間の整列を改善する、メディア・コンテンツを処理する方法９００の一例を概略的に示すフローチャートである。

【0056】

ステップS910、ステップS920、ステップS930、およびステップS940は、それぞれ、方法７００のステップS710～S740に対応する。ステップS950では、メディア・コンテンツをレンダリングするために使用された姿勢情報（たとえば、第一の装置から受信された姿勢情報）が、第一の装置に送信される。前記姿勢情報は、レンダリングされたメディア・コンテンツと一緒に、たとえばレンダリングされたメディア・コンテンツと関連付けて、送信されてもよい。ステップS960では、メディア・コンテンツをレンダリングするために使用された姿勢情報が、現在の姿勢情報と比較される。現在の姿勢情報は、レンダリングされたメディア・コンテンツを再現（たとえば、再生）する時に得られる姿勢情報であってもよい。現在の姿勢情報は、異なる（より後の）時点にではあるが、ステップS710を参照して上記した仕方で取得されうる。ステップS970では、レンダリングされたメディア・コンテンツは比較の結果に基づいて更新される。たとえば、レンダリングされたメディア・コンテンツは、メディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて更新されてもよい。前記更新は、レンダリングされたメディア・コンテンツの外挿に関わっていてもよい。そのような更新の限定しない例は、図３を参照して下記で述べる。ステップS910、S920、S960およびS970は、第一の装置において／によって実行されてもよい。ステップS930、S940およびS950は、第二の装置において／によって実行されてもよい。

【0057】

ある種の実装では、ステップS950は省略されてもよく、すなわち、メディア・コンテンツをレンダリングするために使用された姿勢情報は、第一の装置に送信されないことがある。この場合、ステップS960では、ステップS920で第二の装置に送信された姿勢情報を、メディア・コンテンツをレンダリングするために使用された姿勢情報として参照することができる。

【0058】

さらに、ある種の実装では、方法９００は、姿勢情報の変化に応じて（たとえば、ユーザーの姿勢またはユーザーの頭部の姿勢の変化に応じて）レンダリングされたメディア・コンテンツがどのように変化するかの勾配情報を決定することを含んでいてもよい。次いで、方法９００はさらにまた、勾配情報を第一の装置に送信することをさらに含んでもよい。たとえば、勾配情報は、レンダリングされたメディア・コンテンツおよび任意的にはメディア・コンテンツをレンダリングするために使用された姿勢情報と一緒に（たとえば、関連付けて）、第一の装置に送信されてもよい。これらの追加的なステップは、第二の装置において実行されてもよい。オーディオ・コンテンツについては、勾配情報は、ユーザーまたはユーザーの一部の並進および／または回転に応答して（たとえば各チャネルまたは各成分の）サブバンド・エネルギー・レベルの変化を示すことができる。次いで、勾配情報はステップS970で、レンダリングされたメディア・コンテンツを更新／調整するために使用されてもよい。たとえば、レンダリングされたオーディオ・コンテンツのサブバンド・エネルギー・レベルは、勾配情報ならびにメディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて調整されてもよい。一般的な言い方では、レンダリングされたメディア・コンテンツは、姿勢の差と、姿勢の変化に応じたレンダリングされたメディア・コンテンツの変化を示す勾配とに基づいて、更新／調整することができる。

【0059】

オーディオ・コンテンツについては、方法９００は、レンダリングされたオーディオ・コンテンツの可聴（たとえば、音響）表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含むことができる。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法９００は、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップをさらに含むことができる。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表示の生成は、第一の装置において／によって実行されてもよい。

【0060】

後により詳細に説明するように、図３、図４、図５および図６に示されるシステムのいずれも方法９００を実装することができる。

【0061】

ユーザーの動きとレンダリングされたメディア・コンテンツの呈示との間の整列をさらに改善するために、サーバー／送信側での姿勢情報の予測と受信器／再生側でのレンダリングされたメディア・コンテンツの更新が組み合わされてもよい。

【0062】

図１０は、上述の考察に従った、すなわち、サーバー／送信側で実行される施策と受信器／再生側で実行される施策とによって、動きとレンダリングされたメディア・コンテンツの呈示との間の整列を改善する、メディア・コンテンツを処理する方法１０００の例を概略的に示すフローチャートである。

【0063】

ステップS1010、ステップS1020、ステップS1040は、それぞれ、方法７００のステップS710、S720、S740に対応する。ステップS1030aおよびステップS1030bは、それぞれ、方法８００のステップS830およびS830bに対応する。ステップS1050では、予測された姿勢情報（すなわち、メディア・コンテンツをレンダリングするために使用された姿勢情報）が、第一の装置に送信される。予測姿勢情報は、レンダリングされたメディア・コンテンツと一緒に、たとえばレンダリングされたメディア・コンテンツと関連付けて、送信されてもよい。ステップS1060では、予測された姿勢情報が、実際の／現在の姿勢情報と比較される。実際の姿勢情報は、レンダリングされたメディア・コンテンツを再現（たとえば、再生）する時に得られる姿勢情報であってもよい。実際の姿勢情報は、異なる（より後の）時点にではあるが、ステップS710を参照して上述した仕方で取得されてもよい。ステップS1070では、レンダリングされたメディア・コンテンツは、比較の結果に基づいて更新される。たとえば、レンダリングされたメディア・コンテンツは、予測された姿勢情報と実際の姿勢情報との間の差に基づいて更新されてもよい。一般に、更新は、方法９００のステップS970と同じ仕方で実行されてもよい。ステップS1010、S1020、S1060およびS1070は、第一の装置において／によって実行されてもよい。ステップS1030a、S1030b、S1040およびS1050は、第二の装置において／によって実行されてもよい。

【0064】

ある種の実装では、方法１０００は、姿勢情報の変化に応答して（たとえば、ユーザーの姿勢またはユーザーの頭部の姿勢の変化に応じて）レンダリングされたメディア・コンテンツがどのように変化するかの勾配情報を決定することを含んでいてもよい。次いで、方法１０００はさらにまた、勾配情報を第一の装置に送信することを含んでいてもよい。たとえば、勾配情報は、レンダリングされたメディア・コンテンツおよび任意的にはメディア・コンテンツをレンダリングするために使用された姿勢情報と一緒に（たとえば、関連付けて）第一の装置に送信されてもよい。これらの追加的なステップは、第二の装置において実行されてもよい。オーディオ・コンテンツについては、勾配情報は、ユーザーまたはユーザーの一部の並進および／または回転に応答する（たとえば、各チャネルまたは各成分の）サブバンド・エネルギー・レベルの変化を示してもよい。次いで、勾配情報はステップS1070で、レンダリングされたメディア・コンテンツを更新／調整するために使用されうる。たとえば、レンダリングされたオーディオ・コンテンツのサブバンド・エネルギー・レベルは、勾配情報ならびにメディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて調整されてもよい。一般的な言い方では、レンダリングされたメディア・コンテンツは、姿勢の差と、姿勢の変化に応じたレンダリングされたメディア・コンテンツの変化を示す勾配とに基づいて、更新／調整されてもよい。

【0065】

オーディオ・コンテンツについては、方法１０００は、レンダリングされたオーディオ・コンテンツの可聴（たとえば、音響）表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含んでいてもよい。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法１０００はさらに、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップを含んでいてもよい。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表現の生成は、第一の装置において／によって実行されてもよい。

【0066】

方法１０００のある修正では、予測姿勢情報は、第一の装置において予測されてもよい。すなわち、第一の装置が、ステップS1030aを参照して上述した処理を実行し、その後、予測された姿勢情報を第二の装置に送信してもよい。この場合、ステップS1020が省略されてもよいことが理解される。第一の装置から予測姿勢情報を受信した後、第二の装置は、予測姿勢情報を使って、ステップS1030bを参照して上述した仕方で、メディア・コンテンツをレンダリングし、ステップS1040を参照して上述した仕方で、レンダリングされたメディア・コンテンツを第一の装置に送信してもよい。この場合、ステップS1050は省略されてもよい。レンダリングされたメディア・コンテンツを受信した後、第一の装置は、ステップS1060およびS1070を、上述した仕方で実行してもよい。特に、この場合、第一の装置において姿勢情報の予測が実行されるので、第一の装置は、第二の装置から予測された姿勢情報を受信する必要がない。

【0067】

後により詳細に説明するように、図３、図４、図５および図６に示されるシステムのいずれも、方法１０００または方法１０００の上記の修正を実装しうる。

【0068】

上記の方法のいずれにおいても、レンダリングされたメディア・コンテンツは、圧縮されていない形で第一の装置に送信されてもよい。これは、第二の装置におけるプリレンダリングによって可能にされ、フル・メディア・コンテンツ（たとえば、オーディオ／ビデオ・シーンの完全な表現）の送信は必要ない。レンダリングされたメディア・コンテンツを圧縮されていない形で送信することは、圧縮／圧縮解除に通常費やされる時間が節約できるので、往復遅延を低減することに貢献する。他方、レンダリングされたメディア・コンテンツは、帯域幅制限によって要求される場合は、第一の装置への送信前にエンコード（圧縮）されてもよい。この場合、上述したように、予測される姿勢情報を得る際に、エンコード／デコード（たとえば、圧縮／圧縮解除）に必要な時間が考慮されてもよい。

【0069】

さらに、オーディオ・コンテンツについては、上記の方法のいずれもさらに、第一の装置が位置する環境の音響特性を示す環境情報を第二の装置に送信することを含んでいてもよい。環境情報は、部屋特性および／または両耳室内インパルス応答（BRIR）関数を含んでいてもよい。このステップは、第一の装置において／によって、たとえばセットアップ時に実行されてもよい。次いで、オーディオ・コンテンツは、環境情報にさらに基づいてレンダリングされてもよい。代替的または追加的に、上記方法のいずれも、ユーザーまたはユーザーの一部の形態を示す形態学的情報を第二の装置に送信することをさらに含んでいてもよい。形態は、形状またはサイズ、たとえば、ユーザーの頭部の形状またはサイズを含んでいてもよく、またはそれに対応していてもよい。形態学的情報は、頭部伝達関数（HRTF）を含んでいてもよい。レンダリングはバイノーラル・レンダリングであってもよい。このステップは、第一の装置において／によって、たとえばセットアップ時に、実行されてもよい。その際、オーディオ・コンテンツは、形態学的情報にさらに基づいてレンダリングされてもよい。

【0070】

図３は、サーバー／送信器３００およびクライアント／受信器３５０を含む例示的なシステムのさらなる詳細を示している。上述のように、このシステムは、方法７００、８００、９００および１０００のいずれも実装しうる。（たとえば第二の装置を実装する）サーバー／送信器３００は、レンダラー３２０（たとえば、オーディオ・レンダラー）およびエンコーダ３３０を含んでいてもよい。（たとえば第一の装置を実装する）クライアント／受信器３５０は、時点t0で現在の姿勢（たとえば頭部の姿勢）P(t0)をサーバー／送信器３００に送ることができる。現在の姿勢P(t0)は、現在の姿勢P(t0)が生成された時刻を指定するタイムスタンプt0自体をも含んでいてもよい。姿勢P(t0)は、姿勢３５０ブロックによって決定され、送られてもよい。

【0071】

（たとえば第二の装置を実装する）サーバー／送信器３００は、位置予測器３１０をさらに含んでいてもよい。サーバー／送信器３００は、時点t1（ここでt1＞t0）においてユーザー位置および（頭部の向きに対応する）現在の姿勢P(t0)を受信してもよい。受信された現在の姿勢P(t0)およびt0自体は、位置P(t1)を予測するために位置予測器３１０によって使用されてもよい。位置予測器３１０は、位置P(t1)を予測するために、先に受信した姿勢P（tn）およびtnを考慮に入れてもよく、ここで、nは0ないし－無限大（より早い時点からの姿勢およびタイムスタンプ値）でありうる。位置P(t1)は、姿勢P(t0)と同様であってもよい。位置P(t1)は、時点t1におけるオーディオ・シーンをレンダリングし、それにより、レンダリングされたオーディオ・データR(t1) ３４０を決定するために、オーディオ・レンダラー３２０によって使用されてもよい。レンダリングされたオーディオ・データR(t1) ３４０は、オーディオ・エンコーダ３３０を使ってエンコードされて、オーディオ・データA(t1)を決定することができる。サーバー／送信器３００は、オーディオ・データA(t1)および位置P(t1)をクライアント／受信器３５０に送信してもよい。位置P(t1)は、オーディオ・ビットストリームの一部としてエンコードされてもよい。クライアント／受信器３５０は、t2＞t1である時点t2において、サーバー／送信器３００からオーディオ・データA(t1)および（たとえばメタデータの形の）位置P(t1)を受信してもよい。クライアント／受信器３５０は、オーディオ・データA(t1)および位置P(t1)を、非圧縮オーディオU(t1)を決定しうるオーディオ・デコーダ３５１において受信してもよい。頭部姿勢／センサー・データ３５２ブロックは、時点t2における姿勢P(t2)を決定することができる。オーディオ外挿器３５３は、受信されたP(t1)を使用して、時点t2での姿勢P(t2)から姿勢P(t1)を減算することによって、姿勢差DeltaPを計算することができる。DeltaPは、出力３９０の前に、非圧縮オーディオU(t1)を適応／外挿するためにオーディオ外挿器３５３によって使用されてもよい。クライアント／受信器３５０は、オーディオ・コンテンツがFOAであり、その動きがヨー、ピッチおよび／またはロール運動に制約されている場合、外挿の一部としてローカルな回転を適用してもよい。クライアント／受信器３５０はさらに、オーディオ・コンテンツがプリレンダリングされたバイノーラル・コンテンツまたはプリレンダリングされたチャネル・ベースのコンテンツである場合、外挿の一部としてブラインド・アップミックスを適用してもよい。

【0072】

位置P(t1)を予測する代わりに、クライアント／受信器３５０がオーディオ・データを受信または処理することが期待される時点t2'について、位置P（t2'）が予測されてもよい。時点t2'は、時点t1から始めて、オーディオ・データの送信および／またはエンコード／デコードに必要な時間（持続時間）を考慮して、推定されうる。その際、上記のP(t1)、R(t1)、A(t1)およびU(t1)は、それぞれ、P（t2'）、R（t2'）、A（t2'）およびU（t2'）に置き換えられなければならなくなる。上述の要素のいずれも、それぞれの装置のプロセッサ（または一組のプロセッサ）によって実装されてもよい。

【0073】

MPEG-H 3D Audio（ISO／IEC 23008-3）および／またはMPEG規格の将来のバージョンからの以下のシンタックスが、P(t)の3自由度（3DoF: 3 Degrees of Freedom）データを送信するために使用されてもよい。

【表1】

【0074】

意味内容はMPEG-H 3D Audio（ISO／IEC 23008-3）および／またはMPEG規格の将来のバージョンに従って定義されうる。

【0075】

6DoFデータおよびタイムスタンプを送信するための完全なシンタックスは、次のようになりうる。

【表2】

【0076】

意味内容は、MPEG-H 3D Audio（ISO／IEC 23008-3）および／またはMPEG規格の将来のバージョンに従って定義されうる。

【0077】

図４は、送信器４００および受信器４５０を含む例示的なシステムを示している。図４に記載されるシステムは、図１～図３に記載されるシステムの諸側面を全体的にまたは部分的に含んでいてもよい。特に、本システムは、上述の方法７００、８００、９００および１０００の任意のものまたは全部を実装しうる。（たとえば第二の装置を実装する）送信器／サーバー４００は、完全なオーディオ・シーン（たとえば、FOA／HOAまたはオブジェクト・ベースのシーン）４０１および完全なビデオ・シーン（たとえば、360°ビデオ）４０２（メディア・コンテンツの例として）を受け取ることができる。オーディオ・シーン４０１は、オーディオ・エンコーダ４１０によって処理されて、完全なオーディオ・シーン配送４４１を決定することができる。完全なオーディオ・シーン４４１は、オーディオ・シーン全体および／または付随するメタデータ（オーディオ・オブジェクト位置、方向など）から構成されてもよい。完全なビデオ４０２は、コンテンツ配送選択４２０によって処理されてもよい。完全なビデオ４０２は、コンテンツ選択４２０によって、諸関心領域などの種々の部分に分割され、それに応じて「タイル」状にされ（360°のビデオがタイルに分割されてもよい）、タイル４０２ａを決定してもよい。コンテンツ配送および選択４２０は、図３の位置予測器３１０からの出力として説明された、予測される位置P(t1)（または予測される位置P(t2')）を使ってもよく、または、未変更の頭部姿勢／センサー・データ４５４を使ってもよい。たとえば、完全な360°ビデオ４０２のうちのタイル４０２ａは、受信器４５０から受信されたセンサー・データ４５４に基づいて、コンテンツ配送選択４２０において選択されてもよい。この選択は、ビデオ・コンテンツのレンダリングと称されてもよい。ビデオ・エンコーダ４３０は、タイル４０２ａをエンコードして、（たとえば第一の装置を実装する）クライアント／受信器４５０に送信されうる関心領域のビデオ４４２を出力する。受信器４５０は、関心領域のビデオ４４２を受信することができるビデオ・デコーダ４５２を含んでいてもよい。ビデオ・デコーダ４５２は、関心領域４４２を使用してビデオをデコードし、ビデオ出力４９２に出力することができる。完全なオーディオ・シーン４４１はオーディオ・デコーダ４５１によって受信され、該オーディオ・デコーダ４５１が、コンテンツをデコードし、デコードされたオーディオ・シーンをオーディオ・レンダラー４５３に提供してもよい。オーディオ・デコーダ４５１は、非圧縮オーディオおよびメタデータ４５５（これが、デコードされたオーディオ・シーンに対応しうる）をオーディオ・レンダラー４５３に提供することができる。オーディオ・レンダラー４５３は、センサー・データ４５４に基づいて、デコードされたオーディオをレンダリングしてもよく、オーディオ出力４９１を出力することができる。センサー・データ４５４は、ユーザーの動きおよび／またはユーザーの頭部の向きを検出することができるセンサー（たとえば、ジャイロスコープ・ベースのセンサー）から受信されてもよい。それは次いで、完全なオーディオ・シーン４４１をユーザーの現在の頭部の向きおよび／または位置に適応させるためにオーディオ・レンダラー４５３に、また、完全なビデオ・シーン４０２をユーザーの現在の頭部の向きおよび／または位置に適応させるためにコンテンツ配送選択４２０に、提供されてもよい。特に、図４の例示的システムでは、ビデオ・コンテンツはサーバー／送信側でレンダリングされ（すなわち、受信器／再生側での再生の準備ができたビデオ・コンテンツがサーバー／送信側で生成される）、オーディオ・コンテンツは受信器／再生側でレンダリングされる。上述の要素のいずれも、それぞれの装置のプロセッサ（または一組のプロセッサ）によって実装されてもよい。

【0078】

図５は、送信器５００および受信器５５０を含む例示的なシステムを示している。本システムは、上記の方法７００、８００、９００および１０００の任意のものまたは全部を実装しうる。（たとえば第二の装置を実装する）送信器／サーバー５００は、完全なオーディオ・シーン（たとえばHOAまたはオブジェクト・ベースのシーン）５０１および完全なビデオ・シーン（たとえば、360°のビデオ）５０２（メディア・コンテンツの例として）を受け取ることができる。オーディオ・シーン５０１は、オーディオ・レンダラー５１０によって処理されて、バイノーラル・オーディオ・データ５４１を決定することができる。オーディオ・レンダラー５１０は、センサー・データ５４５を考慮に入れて、バイノーラル・オーディオ・データ５４１を決定することができる。センサー・データ５４５は、ヨー、ピッチ、ロール、x、y、z情報を含んでいてもよい。バイノーラル・オーディオ・データ５４１は、非圧縮であっても、可逆圧縮されていても、または可逆低遅延圧縮されていてもよい。たとえば、バイノーラル・オーディオ・データ５５１は、（たとえば第一の装置を実装する）受信器５５０によって受信され、バイノーラル・オーディオ出力５９１に提供されうる非圧縮オーディオ５８０であってもよい。完全なビデオ５０２は、コンテンツ配送選択５２０によって処理されてもよい。完全なビデオ５０２は、コンテンツ配送選択５２０において、諸関心領域のような種々の部分に分割され、それに応じて「タイリング」され（360°のビデオがタイルに分割される）、タイル５０２ａを決定してもよい。完全な360°ビデオ５０２のうちのタイル５０２ａは、受信器５５０から受信されたセンサー・データ５４５に基づいて、コンテンツ配送選択５２０において選択されてもよい。この選択は、ビデオ・コンテンツのレンダリングと称されることがある。ビデオ・エンコーダ５３０は、タイル５０２ａをエンコードして、クライアント／受信器５５０に送信されうる関心領域のビデオ５４２を出力する。受信器５５０は、関心領域のビデオ５４２を受信することができるビデオ・デコーダ５５２を含んでいてもよい。ビデオ・デコーダ５５２は、関心領域５４２を使用して、ビデオをデコードし、ビデオ出力５９２に出力することができる。センサー・データ５４５は、ユーザーの動きおよび／またはユーザーの頭部の向きを検出することができるセンサー（たとえば、ジャイロスコープ・ベースのセンサー）から受信されてもよい。次いで、それは、完全なビデオ・シーン５０２をユーザーの現在の頭部の向きおよび／または位置に適応させるために、コンテンツ配送選択５２０にさらに提供されてもよい。次いで、それは、完全なオーディオ・シーン５０１をユーザーの現在の頭部の向きおよび／または位置に適応させるために、コンテンツ・オーディオ・レンダラー５１０に提供されてもよい。上述の要素のいずれも、それぞれの装置のプロセッサ（または一組のプロセッサ）によって実装されてもよい。

【0079】

図６は、送信器６００および受信器６５０を含む例示的なシステムを示している。本システムは、上記の方法７００、８００、９００および１０００の任意のものまたは全部を実施しうる。（たとえば第二の装置を実装する）送信器／サーバー６００は、完全なオーディオ・シーン（たとえば、HOAまたはオブジェクト・ベースのシーン）６０１および完全なビデオ・シーン（たとえば、360°のビデオ）６０２（メディア・コンテンツの例として）を受け取ることができる。オーディオ・シーン６０１は、オーディオ・レンダラー６１０によって処理されてもよく、オーディオ・レンダラー６１０の出力は次いで、低遅延オーディオ・エンコーダ６６０によって処理されてもよい。オーディオ・レンダラー６１０は、センサー・データ６４５を考慮に入れてもよい。低遅延オーディオ・エンコーダ６６０は、バイノーラル・オーディオ・データ６４１を出力することができ、このデータは次いで、（たとえば第一の装置を実装する）受信器６５０に送られてもよい。バイノーラル・オーディオ・データ６４１は受信器６５０において低遅延オーディオ・デコーダ６７０によって受信され、該低遅延オーディオ・デコーダ６７０がバイノーラル・オーディオ・データ６４１を非圧縮オーディオ６８０に変換する。次いで、非圧縮オーディオ６８０はバイノーラル・オーディオ出力６９１に提供されてもよい。完全なビデオ６０２は、コンテンツ配送選択６２０によって処理されてもよい。完全なビデオ６０２は、コンテンツ配送選択６２０において、諸関心領域のような種々の部分に分割されてもよく、それに応じて「タイリング」されてもよく（360°のビデオがタイルに分割されてもよい）、受信器６５０から受信されたセンサー・データ６４５に基づいて、コンテンツ配送選択６２０において選択されうるタイルを決定してもよい。この選択は、ビデオ・コンテンツのレンダリングと称されることがある。ビデオ・エンコーダ６３０は、タイルおよび／またはビデオをエンコードして、クライアント／受信器６５０に送信されうる関心領域ビデオ６４２を出力する。受信器６５０は、関心領域ビデオ６４２を受信することができるビデオ・デコーダ６５２を含んでいてもよい。ビデオ・デコーダ６５２は、関心領域６４２を使用して、ビデオをデコードし、ビデオ出力６９２に出力してもよい。センサー・データ６４５は、ユーザーの動きおよび／またはユーザーの頭部の向きを検出することができるセンサー（たとえば、ジャイロスコープ・ベースのセンサー）から受信されてもよい。それは次いで、完全なビデオ・シーン６０２をユーザーの現在の頭部の向きおよび／または位置に適応させるために、コンテンツ配送選択６２０にさらに提供されてもよい。それは次いで、完全なオーディオ・シーン６０１をユーザーの現在の頭部の向きおよび／または位置に適応させるために、コンテンツ・オーディオ・レンダラー６１０にさらに提供されてもよい。上述の要素のいずれも、それぞれの装置のプロセッサ（または一組のプロセッサ）によって実装されてもよい。

【0080】

通常は、送信器（S）から受信器（R）に送信される（メディア・コンテンツの限定しない例としての）オーディオは、図１および図４に示されるように受信器においてレンダリングされる。受信器側で柔軟性を最大化するために、オーディオ・シーンの複雑な表現を送ることが可能である。該複雑な表現はオブジェクトまたはHOAなどであり、これはたとえばローカルな聴取者の視点／姿勢に適合するように、受信器側で適応的にレンダリングされることができる。しかしながら、そのような表現をエンコードすることが要求しうる大きなレイテンシーは、これらの手法が通信または対話型アプリケーションのために使用されることを妨げる。

【0081】

本開示は、上述のレイテンシーを減少させるため、および／または受信器における計算の複雑さを減少させるための方法、システム、および装置を提供する。受信器から送信器に送信されるユーザー位置および向きが、サーバー／送信器が受信者の現在の姿勢／視点に密接に適合する、当該コンテンツのよりコンパクトな、プリレンダリングされたバージョンを計算することを許容する。しかしながら、送信器から受信器への送信レイテンシーは、ローカルな受信姿勢とサーバー上でレンダリングが計算された姿勢との間のミスマッチを導入する可能性がある。本開示は、受信器がレンダリングされた信号を現在のローカルな姿勢に外挿できるように、レンダリングが実行された位置を送信器が信号伝達することを提案する。加えて、送信器は、システム内のエンコードおよびデコード・レイテンシーをなくすために、オーディオ・シーンのプリレンダリングされた、圧縮されていないまたは可逆圧縮された表現を送信することができる。送信器はレンダリング・アルゴリズムを実行し、たとえばバイノーラル・ステレオ、FOAまたはHOAにする。レンダリング・アルゴリズムは、二つのチャネルへのオーディオ・オブジェクトのようなオーディオ・データ（たとえばプリレンダリングされたバイノーラル化されたコンテンツ）を、出力チャネルにレンダリングすることができる。次いで、それらのチャネルは、特に（たとえばシステムの帯域幅に依存して）圧縮が必要とされる場合、エンコードされて、エンコードされたオーディオ・データ・ビットストリームを出力してもよい。信号は、クライアントまたは受信器に送信されることができ、ヘッドフォンまたはステレオ・ラウドスピーカー・システムを介して出力されることができる。

【0082】

バイノーラル化された再生がユーザーの頭部の物理的特性に適合される必要があるとき、受信器はユーザーの頭部の特性に対応する頭部伝達関数（HRTF）を送信することができる。受信器はさらに、再現することを意図された部屋に対応する両側室内インパルス応答（BRIR）関数を送信することができる。この情報は、伝送のセットアップ中に伝送されてもよい。

【0083】

本開示の実施形態は、少なくとも以下の利点を提供しうる：
●バイノーラル化された（ステレオ）データのみが送信される場合、無損失オーディオ・データ伝送のための伝送ビットレートは、完全な圧縮オーディオ・シーンのビットレートと同様であるか、または同等でありうる。
●非圧縮または無損失のオーディオ・ストリームを送信することは、エンコードおよびデコードのためのレイテンシーをなくすまたは低減する。たとえば、エンコード／デコードから生じるレイテンシーはゼロまで低減されることがあり、これは、動きから耳へのレイテンシーの全体的な減少をもたらす。
●オーディオ・データの圧縮がない場合、受信器は、デコードまたはレンダリングすることなく、オーディオを出力するだけである。これは、デコードを実行する必要がない、および／または、レンダリングが送信側ですでに完了されているため、受信器における計算の複雑さを低減する結果となる。
●より高いビットレートでの最小限のレイテンシーおよび最小限の受信器計算複雑さと、より高いレイテンシーおよびより高い受信器計算複雑さでの最小限のビットレートとの間で種々のトレードオフを採用しうる。たとえば：
○最小のレイテンシーおよび計算量のための非圧縮データの伝送、しかし圧縮されていないデータを伝送するのに十分な帯域幅
○帯域幅が圧縮されていないデータを伝送するのに十分でない場合、最小のレイテンシーおよびやや高い計算量のための可逆圧縮されたデータの伝送
○帯域幅が制限されている場合、低遅延およびより高い計算量のための、不可逆だが低遅延の圧縮をされたデータの伝送。

【0084】

RおよびSが同時に受信器および送信器であるときも、RとSの間の双方向通信に上記が当てはまる。

【0085】

表３は、そのようなトレードオフを例解するシステム比較の例を示している。

【表3】

【0086】

ある種のコンテキストでは、本開示の実施形態は、コンテンツ外挿に基づいて伝送レイテンシーを隠蔽することに関わってもよい。全体的なレイテンシー（たとえば伝送レイテンシー）が高すぎる（典型的には、20msecを超える）場合、エンコード・フォーマットおよび／または再生システムは、次の更新されたコンテンツ・フレームの配送を待つ間に、受信者のローカル姿勢（位置および向き）にマッチするようにコンテンツを外挿する手段を提供することが望ましい。全体的なレイテンシーは、オーディオ・データの往復におけるすべてのレイテンシーの合計に基づいて決定することができる。たとえば、全体的なレイテンシーは、往復レイテンシー、エンコード・レイテンシー、デコード・レイテンシー、およびレンダリング・レイテンシーに基づくことができる。

【0087】

このレイテンシーを隠すことは、レンダリングのために（たとえば、ステップS920およびS1020を参照して上述したように）受信器から送信器／サーバーにローカル姿勢を送信し、（たとえば、ステップS950およびS1050を参照して上述したように）コンテンツのレンダリングされた各フレームについてどの姿勢が使用されたかを送信器／サーバーに返送させることによって達成することができる。送信器／送信者は、以前に受信された位置を考慮に入れることを含めて、コンテンツが送信器によってレンダリングされる時と受信器において受信される時との間に導入される追加的なレイテンシーを補償するために、ユーザーの動きを予測することができる。

【0088】

次いで、受信器は、（たとえば、現在のまたは実際の姿勢）（たとえば、ステップS970およびS1070を参照して上述したように）送信側でコンテンツをレンダリングするために使用された姿勢と受信者Rのローカル姿勢との間のデルタを与えられて、サーバーから受信されたプリレンダリングされたオーディオを外挿することができる。

【0089】

この外挿は、レンダリングされたコンテンツの柔軟性に基づいていくつかの仕方で実装することができる。一例では、コンテンツがプリレンダリングされたアンビソニックスBフォーマットであり、動きが3自由度の動きであるとき、外挿は、再生前のFOAまたはBフォーマット・コンテンツのクライアント側のローカル回転に基づいていてもよい。別の例では、プリレンダリングされたバイノーラル・コンテンツについて、外挿は、ブラインド・アップミックス（付属書A参照）によって、またはバイノーラル・ストリームへのメタデータの追加（付属書B参照）によって達成できる。別の例では、プリレンダリングされたチャネル・ベースのコンテンツについては、低レイテンシーのブラインド・アップミキサーが受信端で適用されることができる。

【0090】

レンダリングおよびエンコードが送信側で緊密に統合されている場合、メタデータ・エンコード、たとえば、現在のレンダリング位置Pに基づく種々のサブバンドの方向／またはエネルギー勾配∇E(P)を加えることにより、プリレンダリングされたコンテンツの柔軟性を高めることが可能である。

【0091】

レンダリングされるもとのコンテンツがオブジェクト・ベースである場合、所望される位置のまわりの複数のレンダリングを計算し、レベル勾配をエンコードすることが可能である。このレベル勾配Gは、典型的には、3Dベクトル（3つの軸x、y、zのそれぞれについて一つの値）から構成される。すると、受信器は、E(P')＝E(P)・(P'－P)・∇E(P)として、プリレンダリングされた位置Pと現在の受信器位置P'との間の差に基づいて、受信信号におけるサブバンド・エネルギーE(P)を簡単に調整することができる。

【0092】

この余分な情報は、たとえば（距離情報を使って）視差効果を考慮に入れたりまたは（レベル勾配情報を使って）レンダリングのレベルを調整して、プリレンダリングされたストリーム（すなわち、プリレンダリングされたメディア・コンテンツ）をさらに外挿するために受信器によって使用されてもよい。

【0093】

一例では、受信器が計算パワーの点で制約される場合、アップミックスは、送信側でのエンコードの間に実行されてもよい。たとえば、Bフォーマットまたはチャネルがオブジェクトに変換されてもよい。これは、エンコード経路レイテンシーを増加させる可能性があるが、結果として得られるコンテンツは、より柔軟でありえ、受信端で外挿されうる。

【0094】

ゲーム用途については、ユーザーのアクション（たとえばボタン・トリガー）がゲーム・プレイに影響を与えることができる場合、全体的なシステム・レイテンシーはいまだ20msec未満である必要があり、このことは、複雑なアップミックス動作の実行を妨げることがありうる。結果として、Bフォーマットのような柔軟なフォーマットが、低レイテンシーの可逆または不可逆コーデックを使ったレンダリング／伝送のための最良の候補でありうる。受信端でも低レイテンシーでレンダリングおよび回転されることができるからである。

【0095】

さまざまなオーディオ・コーデックが、上述のデータ伝送モードを組み込むことができる。コーデックは、次のことのために適応されてもよい：（i）無損失符号化（ゼロ・レイテンシー符号化）されたステレオ・オーディオ・データまたは低レイテンシーの損失のあるデータを送信する可能性；（ii）「通常の」レンダリング（たとえば、デバイスにおけるバイノーラル化）がオフにされる必要がある場合、コンテンツがすでにプリレンダリングされていることを信号伝達する手段（たとえば、ビットストリーム・シンタックス・フィールド；Dolby AC-4およびMPEG-H Part 3, 3Dオーディオは、すでにそのようなビットフィールドを含んでいる；たとえばDolby AC-4におけるb_pre_virtualized）；（iii）必要であればHRTFおよびBRIRを送信する手段。

【0096】

このように、本開示のコンテキストにおいて、送信器は、受信器に、プリレンダリングされたオーディオ・コンテンツを提供するという指示（たとえば、フラグ、ビットフィールド、シンタックス・フィールド／要素、パラメータ）をも提供してもよい。そのような指示が受信器によって受信される場合、受信器は、オーディオ・コンテンツの（受信器側の）レンダリングを一切差し控えることができる。たとえば、バイノーラルのプリレンダリングされたオーディオ・コンテンツについては、受信器は、送信器から受信されたプリレンダリングされたオーディオ・コンテンツを、それ以上レンダリングすることなく、再現のためにヘッドフォン（のスピーカー）に直接ルーティングしてもよい。そのような指示は、ビットストリーム内で受信器に信号伝達されるパラメータdirectHeadphoneの形であってもよい。directHeadphoneパラメータは、バイノーラル出力がレンダリングされる場合に、（type）チャネルの対応する信号グループが、直接ヘッドフォン出力に行くことを定義することができる。信号は、左右のヘッドフォン・チャネルにルーティングされてもよい。

【0097】

このパラメータについてのシンタックスの可能な例が表４に再現される。

【表4】

【0098】

意味内容は、MPEG-H 3D Audio （ISO／IEC 23008-3）および／またはMPEG規格の将来のバージョンに従って定義されうる。
いくつかの態様を記載しておく。
〔態様１〕
第一の装置による再現のためにメディア・コンテンツを処理する方法であって：
ユーザーの位置および／または向きを示す姿勢情報を取得する段階と；
前記メディア・コンテンツを提供する第二の装置に前記姿勢情報を送信する段階と；
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得る段階と；
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信する段階とを含む、
方法。
〔態様２〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様１記載の方法。
〔態様３〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成することを含む、
態様１記載の方法。
〔態様４〕
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様２記載の方法。
〔態様５〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様２記載の方法。
〔態様６〕
前記レンダリングは：
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と；
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得する段階とを含む、
態様１記載の方法。
〔態様７〕
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階をさらに含む、
態様６記載の方法。
〔態様８〕
前記予測姿勢情報を実際の姿勢情報と比較する段階と；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
態様７記載の方法。
〔態様９〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
態様８記載の方法。
〔態様１０〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、態様１記載の方法。
〔態様１１〕
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードし、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードすることをさらに含む、
態様１記載の方法。
〔態様１２〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様９記載の方法。
〔態様１３〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、態様６記載の方法。
〔態様１４〕
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階と；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
態様１記載の方法。
〔態様１５〕
前記第二の装置において、前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定する段階と；
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階と；
前記第一の装置において、前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階とをさらに含む、
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
態様１記載の方法。
〔態様１６〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様１記載の方法。
〔態様１７〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様１記載の方法。
〔態様１８〕
メディア・コンテンツを再現するための第一の装置と、前記メディア・コンテンツを記憶する第二の装置とを有するシステムであって、
前記第一の装置は：
・ユーザーの位置および／または向きを示す姿勢情報を取得し；
・前記姿勢情報を前記第二の装置に送信するよう適応されており；
前記第二の装置は：
・前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て；
・前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
システム。
〔態様１９〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様１８記載のシステム。
〔態様２０〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
態様１８記載のシステム。
〔態様２１〕
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様１９記載のシステム。
〔態様２２〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様１９記載のシステム。
〔態様２３〕
前記第二の装置はさらに：
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し；
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
態様１８記載のシステム。
〔態様２４〕
前記第二の装置がさらに：
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
態様２３記載のシステム。
〔態様２５〕
前記第一の装置がさらに：
前記予測姿勢情報を実際の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様２４記載のシステム。
〔態様２６〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
態様２５記載のシステム。
〔態様２７〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、態様１８記載のシステム。
〔態様２８〕
前記第二の装置がさらに、前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするよう適応されており、
前記第一の装置がさらに、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、
態様１８記載のシステム。
〔態様２９〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様２６記載のシステム。
〔態様３０〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、態様２３記載のシステム。
〔態様３１〕
前記第一の装置がさらに：
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
態様１８記載のシステム。
〔態様３２〕
前記第二の装置がさらに：
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し；
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されており；
前記第一の装置がさらに：
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
態様１８記載のシステム。
〔態様３３〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様１８記載のシステム。
〔態様３４〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様１８記載のシステム。
〔態様３５〕
第一の装置による再現のためにメディア・コンテンツを提供する第二の装置であって：
前記第一の装置のユーザーの位置および／または向きを示す姿勢情報を受信し；
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て；
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
第二の装置。
〔態様３６〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様３５記載の第二の装置。
〔態様３７〕
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様３６記載の第二の装置。
〔態様３８〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様３６記載の第二の装置。
〔態様３９〕
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し；
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
態様３５記載の第二の装置。
〔態様４０〕
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
態様３９記載の第二の装置。
〔態様４１〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、態様３９記載の第二の装置。
〔態様４２〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、態様３５記載の第二の装置。
〔態様４３〕
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするようさらに適応されている、態様３５記載の第二の装置。
〔態様４４〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様４１記載の第二の装置。
〔態様４５〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、態様３９記載の第二の装置。
〔態様４６〕
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し；
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するようさらに適応されている、
態様３５記載の第二の装置。
〔態様４７〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様３５記載の第二の装置。
〔態様４８〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様３５記載の第二の装置。
〔態様４９〕
第二の装置によって提供されるメディア・コンテンツを再現する第一の装置であって：
前記第一の装置のユーザーの位置および／または向きを示す姿勢情報を取得する段階と；
前記姿勢情報を前記第二の装置に送信する段階と；
前記第二の装置からレンダリングされたメディア・コンテンツを受信する段階であって、前記レンダリングされたメディア・コンテンツは、前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングすることによって得られたものである、段階と；
前記レンダリングされたメディア・コンテンツを再現する段階とを実行するよう適応されている、
第一の装置。
〔態様５０〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様４９記載の第一の装置。
〔態様５１〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
態様４９記載の第一の装置。
〔態様５２〕
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様５０記載の第一の装置。
〔態様５３〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様５０記載の第一の装置。
〔態様５４〕
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し；
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を実際の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様４９記載の第一の装置。
〔態様５５〕
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために処理される時点で得られる姿勢情報である、態様５４記載の第一の装置。
〔態様５６〕
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し；
前記予測姿勢情報を前記第二の装置に送信するようさらに適応されている、
態様４９記載の第一の装置。
〔態様５７〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、態様５６記載の第一の装置。
〔態様５８〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第二の装置から受信される、態様４９記載の第一の装置。
〔態様５９〕
前記第一の装置がさらに、エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、態様４９記載の第一の装置。
〔態様６０〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様５７記載の第一の装置。
〔態様６１〕
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様４９記載の第一の装置。
〔態様６２〕
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を、前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し；
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様４９記載の第一の装置。
〔態様６３〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様４９記載の第一の装置。
〔態様６４〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様４９記載の第一の装置。

【0099】

本開示のさらなる例示的実施形態は、以下に列挙される箇条書き実施例（EEE: Enumerated Example Embodiment）に要約される。

【0100】

ＥＥＥ１は、
第一の装置による再現のためにメディア・コンテンツを処理する方法であって：
ユーザーの位置および／または向きを示す姿勢情報を取得する段階と；
前記メディア・コンテンツを提供する第二の装置に前記姿勢情報を送信する段階と；
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得る段階と；
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信する段階とを含む、
方法に関する。
ＥＥＥ２は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
ＥＥＥ１記載の方法に関する。
ＥＥＥ３は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、当該方法はさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成することを含む、
ＥＥＥ１記載の方法に関する。
ＥＥＥ４は、
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ２記載の方法に関する。
ＥＥＥ５は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ２または３記載の方法に関する。
ＥＥＥ６は、
前記レンダリングは：
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と；
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得する段階とを含む、
ＥＥＥ１ないし５のうちいずれか一項記載の方法に関する。
ＥＥＥ７は、
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階をさらに含む、
ＥＥＥ６記載の方法に関する。
ＥＥＥ８は、
前記予測姿勢情報を実際の姿勢情報と比較する段階と；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
ＥＥＥ７記載の方法に関する。
ＥＥＥ９は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
ＥＥＥ８記載の方法に関する。
ＥＥＥ１０は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、ＥＥＥ１ないし９のうちいずれか一項記載の方法に関する。
ＥＥＥ１１は、
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードし、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードすることをさらに含む、
ＥＥＥ１ないし１０のうちいずれか一項記載の方法に関する。
ＥＥＥ１２は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、ＥＥＥ９またはＥＥＥ９の事項を含む任意のＥＥＥに記載の方法に関する。
ＥＥＥ１３は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、ＥＥＥ６またはＥＥＥ６の事項を含む任意のＥＥＥに記載の方法に関する。
ＥＥＥ１４は、
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階と；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
ＥＥＥ１ないし１３のうちいずれか一項記載の方法に関する。
ＥＥＥ１５は、
前記第二の装置において、前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定する段階と；
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階と；
前記第一の装置において、前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階とをさらに含む、
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
ＥＥＥ１ないし１４のうちいずれか一項記載の方法に関する。
ＥＥＥ１６は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
ＥＥＥ１ないし１５のうちいずれか一項記載の方法に関する。
ＥＥＥ１７は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
ＥＥＥ１ないし１６のうちいずれか一項記載の方法に関する。
ＥＥＥ１８は、
メディア・コンテンツを再現するための第一の装置と、前記メディア・コンテンツを記憶する第二の装置とを有するシステムであって、
前記第一の装置は：
・ユーザーの位置および／または向きを示す姿勢情報を取得し；
・前記姿勢情報を前記第二の装置に送信するよう適応されており；
前記第二の装置は：
・前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て；
・前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
システムに関する。
ＥＥＥ１９は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
ＥＥＥ１８記載のシステムに関する。
ＥＥＥ２０は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
ＥＥＥ１８記載のシステムに関する。
ＥＥＥ２１は、
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ１９記載のシステムに関する。
ＥＥＥ２２は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ１９ないし２１のうちいずれか一項記載のシステムに関する。
ＥＥＥ２３は、
前記第二の装置はさらに：
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し；
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
ＥＥＥ１８ないし２２のうちいずれか一項記載のシステムに関する。
ＥＥＥ２４は、
前記第二の装置がさらに：
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
ＥＥＥ２３記載のシステムに関する。
ＥＥＥ２５は、
前記第一の装置がさらに：
前記予測姿勢情報を実際の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
ＥＥＥ２４記載のシステムに関する。
ＥＥＥ２６は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
ＥＥＥ２５記載のシステムに関する。
ＥＥＥ２７は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、ＥＥＥ１８ないし２６のうちいずれか一項記載のシステムに関する。
ＥＥＥ２８は、
前記第二の装置がさらに、前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするよう適応されており、
前記第一の装置がさらに、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、
ＥＥＥ１８ないし２７のうちいずれか一項の記載のシステムに関する。
ＥＥＥ２９は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、ＥＥＥ２６またはＥＥＥ２６の事項を含む任意のＥＥＥに記載のシステムに関する。
ＥＥＥ３０は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、ＥＥＥ２３またはＥＥＥ２３の事項を含む任意のＥＥＥに記載のシステムに関する。
ＥＥＥ３１は、
前記第一の装置がさらに：
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
ＥＥＥ１８ないし３０のうちいずれか一項記載のシステムに関する。
ＥＥＥ３２は、
前記第二の装置がさらに：
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し；
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されており；
前記第一の装置がさらに：
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
ＥＥＥ１８ないし３１のうちいずれか一項記載のシステムに関する。
ＥＥＥ３３は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
ＥＥＥ１８ないし３２のうちいずれか一項記載のシステムに関する。
ＥＥＥ３４は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
ＥＥＥ１８ないし３３のうちいずれか一項記載のシステムに関する。
ＥＥＥ３５は、
第一の装置による再現のためにメディア・コンテンツを提供する第二の装置であって：
前記第一の装置のユーザーの位置および／または向きを示す姿勢情報を受信し；
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て；
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
第二の装置に関する。
ＥＥＥ３６は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
ＥＥＥ３５記載の第二の装置に関する。
ＥＥＥ３７は、
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ３６記載の第二の装置に関する。
ＥＥＥ３８は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ３６記載の第二の装置に関する。
ＥＥＥ３９は、
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し；
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
ＥＥＥ３５ないし３８のうちいずれか一項記載の第二の装置に関する。
ＥＥＥ４０は、
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
ＥＥＥ３９記載の第二の装置に関する。
ＥＥＥ４１は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、ＥＥＥ３９または４０記載の第二の装置に関する。
ＥＥＥ４２は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、ＥＥＥ３５ないし４１のうちいずれか一項記載の第二の装置に関する。
ＥＥＥ４３は、
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするようさらに適応されている、ＥＥＥ３５ないし４２のうちいずれか一項記載の第二の装置に関する。
ＥＥＥ４４は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、ＥＥＥ４１またはＥＥＥ４１の事項を含む任意のＥＥＥに記載の第二の装置に関する。
ＥＥＥ４５は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、ＥＥＥ３９またはＥＥＥ３９の事項を含む任意のＥＥＥに記載の第二の装置に関する。
ＥＥＥ４６は、
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し；
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するようさらに適応されている、
ＥＥＥ３５ないし４５のうちいずれか一項記載の第二の装置に関する。
ＥＥＥ４７は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
ＥＥＥ３５ないし４６のうちいずれか一項記載の第二の装置に関する。
ＥＥＥ４８は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
ＥＥＥ３５記載の第二の装置に関する。
ＥＥＥ４９は、
第二の装置によって提供されるメディア・コンテンツを再現する第一の装置であって：
前記第一の装置のユーザーの位置および／または向きを示す姿勢情報を取得する段階と；
前記姿勢情報を前記第二の装置に送信する段階と；
前記第二の装置からレンダリングされたメディア・コンテンツを受信する段階であって、前記レンダリングされたメディア・コンテンツは、前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングすることによって得られたものである、段階と；
前記レンダリングされたメディア・コンテンツを再現する段階とを実行するよう適応されている、
第一の装置に関する。
ＥＥＥ５０は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む；および／または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
ＥＥＥ４９記載の第一の装置に関する。
ＥＥＥ５１は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
ＥＥＥ４９記載の第一の装置に関する。
ＥＥＥ５２は、
前記オーディオ・コンテンツが、一次アンビソニックス（FOA）ベース、高次アンビソニックス（HOA）ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ５０または５１記載の第一の装置に関する。
ＥＥＥ５３は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、ＥＥＥ５０ないし５２のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ５４は、
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し；
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を実際の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
ＥＥＥ４９ないし５３のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ５５は、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために処理される時点で得られる姿勢情報である、ＥＥＥ５４記載の第一の装置に関する。
ＥＥＥ５６は、
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し；
前記予測姿勢情報を前記第二の装置に送信するようさらに適応されている、
ＥＥＥ４９ないし５５のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ５７は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、ＥＥＥ５６記載の第一の装置に関する。
ＥＥＥ５８は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第二の装置から受信される、ＥＥＥ４９ないし５７のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ５９は、
前記第一の装置がさらに、エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、ＥＥＥ４９ないし５８のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ６０は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および／または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、ＥＥＥ５７またはＥＥＥ５７の事項を含む任意のＥＥＥに記載の第一の装置に関する。
ＥＥＥ６１は、
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
ＥＥＥ４９ないし６０のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ６２は、
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を、前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し；
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し；
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
ＥＥＥ４９ないし６１のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ６３は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
ＥＥＥ４９ないし６２のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ６４は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
ＥＥＥ４９ないし６３のうちいずれか一項記載の第一の装置に関する。
ＥＥＥ６５は、オーディオ・コンテンツをレンダリングする方法に関する。当該方法は、送信器（S）装置によって、ユーザー位置および／または配向データを受信し、典型的には、オブジェクト-5ベースまたはHOA表現から導出された、対応するプレレンダリングされたコンテンツを送信することを含む。
ＥＥＥ６６は、ＥＥＥ６５記載の方法であって、送信器によって生成されたプリレンダリング信号が、バイノーラル、FOA／Bフォーマット、HOA、または任意の型のチャネル・ベースのレンダリングでありうる、方法に関する。
ＥＥＥ６７は、ＥＥＥ６５または６６記載の方法であって、さらに、非圧縮のプリレンダリングされたコンテンツを送信することを含む、方法に関する。
ＥＥＥ６８は、ＥＥＥ６５または６６記載の方法であって、さらに、前記プレレンダリングされたコンテンツをエンコードし、エンコードされたプレレンダリングされたコンテンツを送信することを含む、方法に関する。
ＥＥＥ６９は、ＥＥＥ６５ないし６８のうちいずれか一項記載の方法であって、さらに、受信器によって前記プリレンダリングされたコンテンツを受信することを含む、方法に関する。
ＥＥＥ７０は、ＥＥＥ６５ないし６９のうちいずれか一項記載の方法であって、さらに、受信器によって前記プリレンダリングされ、プリエンコードされたバイノーラル化されたコンテンツをデコードすることを含む、方法に関する。
ＥＥＥ７１は、ＥＥＥ６５ないし７０のうちいずれか一項記載の方法であって、ユーザー位置および／または配向データが、世界空間におけるユーザーの位置および配向を示すローカルな姿勢を含む、方法に関する。
ＥＥＥ７２は、ＥＥＥ６５ないし７１のうちいずれか一項記載の方法であって、ユーザー位置データが受信器から送信器に送信される、方法に関する。
ＥＥＥ７３は、ＥＥＥ６５ないし７２のうちいずれか一項記載の方法であって、さらに、前記プリレンダリングされたバイノーラル化されたコンテンツのために使用されたユーザー位置データを受信器に送り返すことを含む、方法に関する。
ＥＥＥ７４は、ＥＥＥ６５ないし７３のうちいずれか一項記載の方法であって、さらに、受信されたユーザー位置データおよびローカルな位置データに基づいて、前記プリレンダリングされたコンテンツを外挿して、更新されたコンテンツを決定することを含む、方法に関する。
ＥＥＥ７５は、ＥＥＥ６５ないし７４のうちいずれか一項記載の方法であって、さらに、個別化されたバイノーラル処理のために、ユーザーについての形態学的データ（たとえば、頭のサイズ、頭の形状）を送信することを含む、方法に関する。
ＥＥＥ７６は、ＥＥＥ６５ないし７５のうちいずれか一項記載の方法であって、さらに、BRIR関数および／または部屋の特徴付けについてのデータを送信することを含む、方法に関する。
ＥＥＥ７７は、ＥＥＥ６５ないし７６のうちいずれか一項記載の方法であって、さらに、コンテンツが聴取者に関知しない仕方（たとえば、HRTFを含まない）で送信されるという判別に基づいて、受信側でバイノーラル・レンダリングおよび個別化が実行されることを含む、方法に関する。
ＥＥＥ７８は、ＥＥＥ６５ないし７７のうちいずれか一項記載の方法であって、さらに、時点t1において、ユーザー位置および／または配向データP(t0)を提供することを含む、方法に関する。
ＥＥＥ７９は、ＥＥＥ６７の方法であって、圧縮されていないプリレンダリングされたコンテンツは、バイノーラル化された圧縮されていないプリレンダリングされたコンテンツである、方法に関する。

【図1】