(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-17
(45)【発行日】2023-01-25
(54)【発明の名称】コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム
(51)【国際特許分類】
H04S 7/00 20060101AFI20230118BHJP
【FI】
H04S7/00 340
(21)【出願番号】P 2019543305
(86)(22)【出願日】2018-06-15
(86)【国際出願番号】 US2018037887
(87)【国際公開番号】W WO2018232327
(87)【国際公開日】2018-12-20
【審査請求日】2021-05-27
(32)【優先日】2017-06-15
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2017-06-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-06-05
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】フェルシュ,クリストフ
(72)【発明者】
【氏名】ツィンゴス,ニコラス アール.
【審査官】辻 勇貴
(56)【参考文献】
【文献】特開2015-233252(JP,A)
【文献】特表2012-518313(JP,A)
【文献】米国特許出願公開第2017/0018121(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
オーディオ・コンテンツを処理する方法であって:
一つまたは複数のプロセッサによって、ユーザーの第一の位置または向きを示す第一の姿勢情報を取得する段階と;
前記一つまたは複数のプロセッサによって、前記第一の姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と;
前記一つまたは複数のプロセッサによって、前記予測姿勢情報に基づいて前記オーディオ・コンテンツをレンダリングして、レンダリングされたオーディオ・コンテンツを得る段階と;
前記一つまたは複数のプロセッサによって、前記レンダリングされたオーディオ・コンテンツおよび予測姿勢情報を再生のために第一の装置に送信する段階とを含み、前記予測姿勢情報および第二の姿勢情報が、更新されたレンダリングされたオーディオ・コンテンツを前記第一の装置において再生する前に、前記レンダリングされたオーディオ・コンテンツを更新するために使用される、
方法。
【請求項2】
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、請求項1記載の方法。
【請求項3】
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、請求項1記載の方法。
【請求項4】
前記予測姿勢情報および第二の姿勢情報を、前記レンダリングされたオーディオ・コンテンツを更新するために使用することが:
前記予測姿勢情報を前記第二の姿勢情報と比較する段階と;
前記比較の結果に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階とをさらに含む、
請求項1記載の方法。
【請求項5】
前記予測姿勢情報は、前記レンダリングされたオーディオ・コンテンツが再生のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記第二の姿勢情報は、前記レンダリングされたオーディオ・コンテンツが前記第一の装置によって再生のために実際に処理される時点で得られる姿勢情報である、
請求項4記載の方法。
【請求項6】
前記レンダリングされたオーディオ・コンテンツは、圧縮されていない形で前記第一の装置に送信される、請求項1記載の方法。
【請求項7】
前記第一の装置への送信の前に前記レンダリングされたオーディオ・コンテンツをエンコードし、前記第一の装置における受信後に、前記エンコードされたレンダリングされたオーディオ・コンテンツをデコードすることをさらに含む、
請求項1記載の方法。
【請求項8】
前記レンダリングされたオーディオ・コンテンツが再生のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたオーディオ・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、請求項5記載の方法。
【請求項9】
前記予測姿勢情報は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたオーディオ・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、請求項1記載の方法。
【請求項10】
前記オーディオ・コンテンツをレンダリングするために使用された前記予測姿勢情報を前記第二の姿勢情報と比較する段階と;
前記比較の結果に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階とをさらに含む、
請求項1記載の方法。
【請求項11】
第二の装置において、前記姿勢情報の変化に応じて前記レンダリングされたオーディオ・コンテンツがどのように変化するかを示す勾配情報を決定する段階と;
前記勾配情報を前記レンダリングされたオーディオ・コンテンツと一緒に前記第一の装置に送信する段階と;
前記第一の装置において、前記オーディオ・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階と;
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階とをさらに含む、
請求項1記載の方法。
【請求項12】
当該方法はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報
を第二の装置に送信する段階を含み、
前記オーディオ・コンテンツのレンダリングは、さらに前記環境情報に基づく、
請求項1記載の方法。
【請求項13】
当該方法はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報
を第二の装置に送信する段階を含み、
前記オーディオ・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
請求項1記載の方法。
【請求項14】
一つまたは複数のプロセッサと;
一つまたは複数のプロセッサによって実行されたときに、該一つまたは複数のプロセッサに動作を実行させる命令を記憶しているメモリとを有するシステムであって、前記動作は:
ユーザーの第一の位置または向きを示す第一の姿勢情報を取得し;
前記第一の姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し;
前記予測姿勢情報に基づい
てオーディオ・コンテンツをレンダリングして、レンダリングされたオーディオ・コンテンツを得て;
前記レンダリングされたオーディオ・コンテンツおよび予測姿勢情報を再生のため
に第一の装置に送信することを含み、前記予測姿勢情報および第二の姿勢情報は、更新されたレンダリングされたオーディオ・コンテンツを前記第一の装置において再生する前に、前記レンダリングされたオーディオ・コンテンツを更新するために使用される、
システム。
【請求項15】
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、請求項14記載のシステム。
【請求項16】
第一の装置による再生のためにメディア・コンテンツを処理する方法であって:
一つまたは複数のプロセッサによって、ユーザーの位置または向きを示す姿勢情報を取得する段階と;
前記一つまたは複数のプロセッサによって、前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と;
前記一つまたは複数のプロセッサによって、前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得る段階と;
前記一つまたは複数のプロセッサによって、前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を取得する段階と;
前記一つまたは複数のプロセッサによって、前記レンダリングされたメディア・コンテンツおよび勾配情報を、更新されたレンダリングされたメディア・コンテンツを前記第一の装置によって更新し、再生することにおいて使用するために、前記第一の装置に送信する段階とを含む、
方法。
【請求項17】
前記一つまたは複数のプロセッサによって、前記予測姿勢情報を、更新されたレンダリングされたメディア・コンテンツを前記第一の装置によって更新し、再生することにおいて使用するために、前記第一の装置に送信する段階をさらに含む、
請求項16記載の方法。
【請求項18】
第一の装置の一つまたは複数のプロセッサによって、ユーザーの第一の位置または向きを示す第一の姿勢情報を取得する段階と;
前記一つまたは複数のプロセッサによって、前記第一の姿勢情報を第二の装置に送信する段階と;
前記一つまたは複数のプロセッサによって、レンダリングされたオーディオ・コンテンツを前記第二の装置から受領する段階であって、前記レンダリングされたオーディオ・コンテンツは前記第二の装置によって予測姿勢情報を使ってレンダリングされたものであり、前記予測姿勢情報は前記第一の姿勢情報に基づく、段階と;
前記一つまたは複数のプロセッサによって、ユーザーの第二の位置または向きを示す第二の姿勢情報を取得する段階と;
前記一つまたは複数のプロセッサによって、前記第二の姿勢情報に基づいて前記レンダリングされたオーディオ・コンテンツを更新する段階と;
前記一つまたは複数のプロセッサによって、更新されたレンダリングされたオーディオ・コンテンツを再生する段階とを含む、
方法。
【請求項19】
前記一つまたは複数のプロセッサによって、予測された姿勢を前記第二の装置から取得する段階と;
前記一つまたは複数のプロセッサによって、前記レンダリングされたオーディオ・コンテンツを、予測された姿勢と前記第二の姿勢情報との間の差に基づいて更新する段階とをさらに含む、
請求項18記載の方法。
【請求項20】
レンダリングされたオーディオ・コンテンツを再生するための第一の装置と、前記レンダリングされたオーディオ・コンテンツを生成するための第二の装置とを有するシステムであって、
前記第一の装置は:
ユーザーの第一の位置または向きを示す第一の姿勢情報を取得し;
前記第一の姿勢情報を前記第二の装置に送信し;
レンダリングされたオーディオ・コンテンツを前記第二の装置から受領し;
ユーザーの第二の位置または向きを示す第二の姿勢情報を取得し;
少なくとも前記第二の姿勢情報に基づいて前記レンダリングされたオーディオ・コンテンツを更新し;、
更新されたレンダリングされたオーディオ・コンテンツを再生するように構成されている
システム。
【請求項21】
前記第一の装置がさらに、予測された姿勢を前記第一の装置から受領し、前記レンダリングされたオーディオ・コンテンツを、予測された姿勢と前記第二の姿勢情報との間の差に基づいて更新するように構成されている、請求項20記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2018年6月5日に出願された米国仮特許出願第62/680,678号ならびにいずれも2017年6月15日に出願された米国仮特許出願第62/519,952号および欧州特許出願第17176248.7号の優先権を主張するものである。これらのすべては、その全体が参照により援用される。
【0002】
技術分野
本開示は、たとえば仮想現実(VR)、拡張現実(AR)、および混合現実(MR)アプリケーションのようなコンピュータ媒介される現実アプリケーションに関する。これらのアプリケーションには、クライアント/受信器のバイノーラル化されたおよび非バイノーラル化されたオーディオおよびビデオ・アプリケーションを含みうるが、これらに限定されない。
【背景技術】
【0003】
コンピュータ媒介される現実感空間(たとえば、VR、ARおよびMR空間)におけるアプリケーションおよびプロダクトは、音源およびシーンのますます洗練された音響モデルを含むように急速に進化しつつある。限定を意図することなく、本稿の残りの部分ではVR、ARおよびMRが言及される。コンピュータ媒介される現実体験を最適化するために、ユーザーの動き(たとえば頭の動き)と、この動きに適応した音(レンダリングされた音)の知覚との間の遅延を最小化することが好ましい。この遅延は、動きから音声へのレイテンシー(motion-to-sound latency)または動きから耳までの遅延(motion-to-ear lag)としても知られている。さらに、計算複雑さおよび電力消費を最適化することが重要であるスマートフォンのような一般的な受信器デバイスについては、音声をデコードし、レンダリングするために必要な命令の数を最小化することも望ましい。オーディオ・シーン全体が送信されるとき、たとえば通信でない場合については、受信器のレンダリング・レイテンシーに焦点がおかれる。たとえば、線形アプリケーション(たとえば映画)は、ユーザーの動作に動的に反応しない。しかしながら、対話型コンテンツについては、すべての累積された往復レイテンシーが考慮される必要があろう(たとえば、ユーザーが、レンダリングのためにサーバーに送り返される必要のあるイベントをトリガーする場合)。動きとその結果生じる効果との間のレイテンシーをユーザーが認識しないよう、またコンテンツのオーディオとビデオとの間にずれがないよう、コンテンツが消費される前に、動的に変更されたコンテンツは、十分なリードタイムをもってエンコードされるべきである。ユーザーの動き(位置および/または方向)はコンテンツ自体には影響しないため、線形アプリケーションの場合、動きから音声へのレイテンシーについてはエンコードおよびデコード・レイテンシーは考慮されない。むしろ、これらの動きは、コンテンツを見る視点に影響するだけである。よって、線形コンテンツについては、ユーザーの動きはレンダリングに影響するだけであって、出力される音声のエンコードおよび/またはデコードには影響しない。通信の場合は、システムはコンテンツ(たとえば発話)が発生するときにメディアをエンコード、送信、およびデコードすることを開始できるので、異なってくる。同じことは、(たとえば、ゲーム・エンジンからの)対話型コンテンツが、クラウドにあるリモート・サーバーによってリアルタイムにレンダリングされ、エンコードされる場合にも当てはまる。さらに、ビデオ・システムおよびオーディオ・システムの全体的なレイテンシーが同じであることが非常に重要である。違いがあると動き酔い(motion-sickness)が生じることがあるからである。よって、ビデオ・システムのレイテンシーに依存して、オーディオ・システム・レイテンシーの同レベルを達成する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本稿は、説得力のある経験を提供するためにはあまりに高いレイテンシーおよびあまりに高い計算複雑さが要求されるという、一般的なAR、VRおよびMRシステムの技術的問題に対処する。この問題に対処するために、本稿は、それぞれの独立請求項の特徴を有する、メディア・コンテンツを処理する方法、メディア・コンテンツを処理するシステムおよび対応する装置を提案する。
【課題を解決するための手段】
【0005】
本開示のある側面は、第一の装置による再現のためにメディア・コンテンツを処理する方法に関する。第一の装置は、たとえば、受信器、受信器装置、または再生装置のうちの一つであってもよい。前記第一の装置は、たとえば、AR/VR/MRヘッドセットのようなAR/VR/MR設備に対応してもよく、かかるAR/VR/MR設備を含んでいてもよく、あるいはAR/VR/MR設備と連携して動作してもよい。よって、第一の装置は、メディア・コンテンツを再現するための再現設備(たとえば、スピーカー、ヘッドフォン)と、該再現設備に結合されるプロセッサとを含んでいてもよい。メディア・コンテンツは、オーディオ・コンテンツおよび/またはビデオ・コンテンツであってもよいし、それらを含んでいてもよい。処理はレンダリングを伴ってもよいし、レンダリングに対応していてもよい。再現(reproduction)は、再生(replay)を含んでいてもよく、あるいは再生に対応していてもよい。本方法は、ユーザーの位置および/または向きを示す姿勢情報を得ることを含んでいてもよい。姿勢情報の取得は、第一の装置において実行されてもよい。ユーザーは、第一の装置のユーザーであってもよい。姿勢情報は、たとえば、ユーザーの頭部に関係していてもよい。前記姿勢情報は、ユーザーと位置合わせして配置されうるセンサー、たとえば姿勢センサーによって得られてもよい。よって、姿勢情報は、センサー・データと称されてもよい。姿勢情報は、姿勢の一つまたは複数の一階微分および/または姿勢の一つまたは複数の二階微分をさらに含んでいてもよい。ユーザーは、たとえば、AR/VR/MR設備を装着してもよい。本方法はさらに、メディア・コンテンツを提供する(たとえば記憶する、中継する)第二の装置に姿勢情報を送信することを含んでいてもよい。第二の装置は、たとえば、送信側装置、サーバー装置、またはコンテンツ配送装置のうちの一つであってもよい。第二の装置は、メディア・コンテンツを第一の装置に提供するための装置であってもよい。第一および第二の装置は、互いに空間的に分離されていてもよい。本方法は、姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得ることをさらに含んでいてもよい。レンダリングは、第二の装置において実行されてもよい。前記レンダリングされたメディア・コンテンツは、プリレンダリングされたメディア・コンテンツと呼ばれることがある。レンダリングは、たとえばオーディオ・コンテンツの場合、二つ以上のチャネルに対してでありうる。本方法はさらに、レンダリングされたメディア・コンテンツを再現のために第一の装置に送信することを含んでいてもよい。レンダリングされたメディア・コンテンツを送信することは、第二の装置によって実行されてもよい。本方法は、さらに、レンダリングされたメディア・コンテンツを(第一の装置によって)再現(たとえば再生)することを含んでいてもよい。
【0006】
レンダリングされたメディア・コンテンツのみが送信される必要がある場合、無損失データ送信のための送信ビットレートは、完全なメディア・コンテンツの圧縮バージョンのビットレートと同様であるか、または同等でありうる。よって、圧縮は提案される方法のコンテキストにおいて必要ないことがありうる。非圧縮または無損失のメディア・ストリームを送信することは、エンコードおよびデコードのためのレイテンシーをなくすか、低減する。たとえば、エンコード/デコードから生じるレイテンシーはゼロに低減されてもよく、これは、動きから耳へのレイテンシー(motion-to-ear latency)および/または動きから目へのレイテンシー(motion-to-eye latency)の全体的な低下にもつながる。さらに、プリレンダリングされたメディア・コンテンツの圧縮がない場合、第一の装置(受信器)は、デコードまたはレンダリングすることなく、オーディオ/ビデオを出力することができる。これは、デコードを実行する必要がない、および/または、レンダリングが送信側ですでに完了されているため、受信器における計算複雑さの低減につながる。このように、提案される方法は、動きから耳へのレイテンシーおよび/または動きから目へのレイテンシーを減らすことができ、さらに受信側での計算複雑さを減らすことができる。
【0007】
いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。代替的または追加的に、メディア・コンテンツはビデオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたビデオ・コンテンツを含んでいてもよい。
【0008】
いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。その際、本方法は、レンダリングされたオーディオ・コンテンツの可聴(たとえば、音響)表現を生成することをさらに含んでいてもよい。可聴表現の生成は、第一の装置で実行されてもよい。前記生成は、たとえば、オーディオ・コンテンツの場合、第一の装置の二つ以上のスピーカーを介して実行されてもよい。
【0009】
いくつかの実施形態では、オーディオ・コンテンツは、一次アンビソニクス(FOA: First Order Ambisonics)ベース、高次アンビソニクス(HOA: Higher Order Ambisonics)ベース、オブジェクト・ベース、またはチャネル・ベースのオーディオ・コンテンツのうちの一つ、またはFOAベース、HOAベース、オブジェクト・ベース、またはチャネル・ベースのオーディオ・コンテンツのうちの二つ以上の組み合わせであってもよい。
【0010】
いくつかの実施形態では、レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツ、またはチャネル・ベースのオーディオ・コンテンツのうちの一つ、またはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツ、またはチャネル・ベースのオーディオ・コンテンツのうちの二つ以上の組み合わせであってもよい。
【0011】
いくつかの実施形態では、レンダリングは、姿勢情報に基づき、以前の姿勢情報および/または一つまたは複数の一階および/または二階微分にさらに基づいて、予測された姿勢情報を取得することを含んでいてもよい。予測された姿勢情報は、将来の時点についての姿勢情報であってもよい。以前の姿勢情報は、前の時点において第一の装置において取得された、または第一の装置から受信された姿勢情報であってもよい。この予測は、第二の装置で実行されてもよい。あるいはまた、予測は、第一の装置で実行されてもよい。後者の場合、第一の装置は、予測された姿勢情報を第二の装置に送信してもよい。レンダリングは、さらに、予測された姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得ることを含んでいてもよい。
【0012】
予測された姿勢情報を考慮することによって、レンダリングされたメディア・コンテンツのエンコード/デコード、および/またはレンダリングされたメディア・コンテンツの第一の装置への送信から生じうる遅延が対処されることができる。換言すれば、前記遅延は、適切に予測された姿勢情報のために隠されることができ、それにより、ユーザーは、この遅延に気づかず、オーディオ、ビデオ、および動きの間のいかなるミスマッチも感知しないことがありうる。
【0013】
いくつかの実施形態では、本方法は、予測された姿勢情報を、レンダリングされたメディア・コンテンツと一緒に第一の装置に送信することをさらに含んでいてもよい。
【0014】
これにより、第一の装置は、予測された姿勢情報(すなわち、この場合、メディア・コンテンツをレンダリングするために使用された姿勢情報)が、実際の/現在の姿勢情報(すなわち、第一の装置において現在得られている姿勢情報)と同じ(または実質的に同じ)であるかどうかの検査を実行して、予測された姿勢情報と実際の/現在の姿勢情報との間に不一致がある場合には、レンダリングされたメディア・コンテンツを適切に適応させることができる。
【0015】
いくつかの実施形態では、本方法は、予測された姿勢情報を実際の姿勢情報と比較することをさらに含んでいてもよい。この方法は、さらに、比較の結果に基づいてレンダリングされたメディア・コンテンツを更新することを含んでいてもよい。前記比較および前記更新は、第一の装置で実行されてもよい。実際の姿勢情報は、レンダリングされたメディア・コンテンツが、たとえば、第一の装置によって再生される時点における(たとえば、該時点において得られる)姿勢情報であってもよい。更新は、たとえば、予測された姿勢情報と実際の姿勢情報との間の差に基づいて実行されてもよい。前記更新は、たとえば、回転、レベル変化および/またはブラインド・アップミックスによる、レンダリングされたメディア・コンテンツの外挿に関わってもよい。
【0016】
いくつかの実施形態では、予測された姿勢情報は、レンダリングされたメディア・コンテンツが再現のために第一の装置によって処理されることが期待される時点の推定値について予測されてもよい。第一の装置によるレンダリングされたメディア・コンテンツの処理は、レンダリングされたメディア・コンテンツの再現(たとえば再生)に関わってもよい。実際の姿勢情報(たとえば、現在の姿勢情報)は、レンダリングされたメディア・コンテンツが再現のために第一の装置によって実際に処理される時点において得られる姿勢情報であってもよい。実際の姿勢情報は、レンダリングされたメディア・コンテンツが第一の装置によって実際に処理される時点において得られてもよい。
【0017】
それにより、予測された姿勢情報と実際の姿勢情報との間のミスマッチがあっても対処され、それにより、レンダリングされたメディア・コンテンツをユーザーの姿勢(たとえば、ユーザーの頭部の姿勢)に対し、より良好に適合させ、ユーザーにとっての知覚されるオーディオ/ビデオ・シーンと期待されるオーディオ/ビデオ・シーンとの間の食い違いを回避することができる。予測された姿勢情報と実際の姿勢情報との間のミスマッチは小さいことが期待されるので、そのような適合は、扱いうる計算複雑さで、第一の装置に安全に委ねることができる。
【0018】
いくつかの実施形態では、レンダリングされたメディア・コンテンツは、非圧縮の形で第一の装置に送信されてもよい。
【0019】
これは、第一の装置(受信器)における計算複雑さを低減することを可能にし、さらに、姿勢の変化と、変化した姿勢に従ってレンダリングされたメディア・コンテンツの再現との間の往復遅延を短縮する。
【0020】
いくつかの実施形態では、本方法は、レンダリングされたメディア・コンテンツを、第一の装置への送信の前に、エンコード(たとえば、圧縮)することをさらに含んでいてもよい。本方法はさらにまた、エンコードされたレンダリングされたメディア・コンテンツを、第一の装置での受信後に、デコード(たとえば、圧縮解除)することを含んでいてもよい。エンコード/デコードは、レンダリングされたメディア・コンテンツを圧縮/圧縮解除することを含むか、またはそれに対応していてもよい。エンコード/デコードは、低遅延エンコード/デコードであってもよい。
【0021】
いくつかの実施形態では、レンダリングされたオーディオ・コンテンツが再現のために第一の装置によって処理されることが期待される時点の推定値は、レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定、および/またはレンダリングされたメディア・コンテンツを第一の装置に送信するために必要な時間の推定値を含んでいてもよい。
【0022】
いくつかの実施形態では、予測された姿勢情報は、レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/またはレンダリングされたメディア・コンテンツを第一の装置に送信するために必要な時間の推定値にさらに基づいて取得されてもよい。
【0023】
それにより、エンコード/デコードおよび/または送信から生じる遅延は、ユーザーがこれらの遅延に気づかないという意味で、隠されることができる。
【0024】
いくつかの実施形態では、本方法は、メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較することをさらに含んでいてもよい。現在の姿勢情報は、たとえば、レンダリングされたメディア・コンテンツを再現する時点で得られる姿勢情報であってもよい。本方法はさらにまた、比較の結果に基づいて、レンダリングされたメディア・コンテンツを更新することを含んでいてもよい。更新は、メディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて実行されてもよい。前記更新は、たとえば、回転、レベル変化および/またはブラインド・アップミックスによる、レンダリングされたメディア・コンテンツの外挿に関わってもよい。
【0025】
いくつかの実施形態では、本方法はさらに、第二の装置において、姿勢情報の変化(たとえば、姿勢の変化)に応答して、レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定することを含んでいてもよい。勾配情報は、(オーディオ・コンテンツについて)ユーザー(たとえば、ユーザーの頭部)の並進および/または回転に応答する(たとえば各チャネルの)サブバンド・エネルギー・レベルの変化を示してもよい。本方法はさらに、レンダリングされたメディア・コンテンツと一緒に勾配情報を第一の装置に送信することを含んでいてもよい。本方法はさらに、第一の装置において、メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較することを含んでいてもよい。メディア・コンテンツをレンダリングするために(第二の装置によって)使用された姿勢情報は、レンダリングされたメディア・コンテンツと一緒に、第一の装置に送信されてもよい。この姿勢情報がレンダリングされたメディア・コンテンツと一緒に第一の装置に送られない場合には、第一の装置は、自分が第二の装置に送った姿勢情報を参照してもよい。現在の姿勢情報は、たとえば、レンダリングされたメディア・コンテンツを再現する時点において得られる姿勢情報であってもよい。本方法はさらにまた、勾配情報および前記比較の結果に基づいて、レンダリングされたメディア・コンテンツを更新することを含んでいてもよい。レンダリングされたメディア・コンテンツの更新は、メディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて実行されてもよい。前記更新は、たとえば、回転、レベル変化および/またはブラインド・アップミックスによる、レンダリングされたメディア・コンテンツの外挿に関わってもよい。
【0026】
それにより、姿勢情報の予測における小さな不備が補正されることができ、姿勢と再現されるメディア・コンテンツとの間のいかなるミスマッチも回避できる。
【0027】
いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。その際、本方法は、第一の装置が位置している環境の音響特性を示す環境情報を第二の装置に送信することをさらに含んでいてもよい。この場合、メディア・コンテンツのレンダリングは、該環境情報にさらに基づいていてもよい。環境情報は、部屋特性および/または両耳室内インパルス応答(BRIR: Binaural Room Impulse Response)関数を含んでいてもよい。
【0028】
これは、再現されたメディア・コンテンツを、ユーザーが位置している特定の環境に特に適合させることを可能にし、それにより、ユーザーのコンピュータ媒介される現実体験を向上させる。
【0029】
いくつかの実施形態では、メディア・コンテンツはオーディオ・コンテンツを含んでいてもよく、レンダリングされたメディア・コンテンツはレンダリングされたオーディオ・コンテンツを含んでいてもよい。その際、本方法は、ユーザーまたはユーザーの一部の形態を示す形態学的情報を第二の装置に送信することをさらに含んでいてもよい。この場合、メディア・コンテンツのレンダリングは、形態学的情報にさらに基づいていてもよい。形態は、形またはサイズ、たとえば、ユーザーの頭部の形またはサイズを含んでもよく、またはそれに対応していてもよい。形態学的情報は、頭部伝達関数(HRTF: Head-Related Transfer Functions)を含んでいてもよい。レンダリングはバイノーラル・レンダリングであってもよい。
【0030】
これは、再現されたメディア・コンテンツをユーザーまたはユーザーの一部の特定の形態に特に適合させることを可能にし、それによりユーザーのコンピュータ媒介される現実体験を向上させる。
【0031】
本開示のさらなる諸側面は、上記の側面およびその実施形態に基づく(たとえばそれを実装する)第一の装置、第二の装置および第一の装置と第二の装置のシステムに関する。
【0032】
このように、本開示の別の側面は、メディア・コンテンツを再現するための第一の装置と、メディア・コンテンツを記憶している第二の装置とを有するシステムに関する。第一の装置は、ユーザーの位置および/または向きを示す姿勢情報を得るように適応(構成)されてもよい。第一の装置は、さらに、姿勢情報を第二の装置に送信するように適応(構成)されてもよい。第二の装置は、姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得るように適応(構成)されてもよい。第二の装置は、レンダリングされたメディア・コンテンツを、再現のために第一の装置に送信するようにさらに適応(構成)されてもよい。たとえば、第一および第二の装置は、それぞれのプロセッサ(またはそれぞれのプロセッサの組)およびそれぞれのプロセッサ(またはそれぞれのプロセッサの組)に結合されたメモリを含んでいてもよい。それらのプロセッサは、上記の動作を実行するよう適応(構成)されてもよい。
【0033】
本開示の別の側面は、第一の装置による再現のためにメディア・コンテンツを提供するための第二の装置に関する。第二の装置は、第一の装置のユーザーの位置および/または向きを示す姿勢情報を受信するよう適応(構成)されてもよい。第二の装置は、姿勢情報に基づいてメディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得るようにさらに適応(構成)されてもよい。第二の装置は、さらにまた、レンダリングされたメディア・コンテンツを再現のために第一の装置に送信するように適応(構成)されてもよい。たとえば、第二の装置は、プロセッサ(または一組のプロセッサ)および該プロセッサ(または一組のプロセッサ)に結合されたメモリを含んでいてもよい。プロセッサ(または一組のプロセッサ)は、上記の動作を実行するように適応(構成)されてもよい。
【0034】
本開示の別の側面は、第二の装置によって提供されるメディア・コンテンツを再現するための第一の装置に関する。第一の装置は、第一の装置のユーザーの位置および/または向きを示す姿勢情報を得るように適応(構成)されてもよい。第一の装置は、さらに、姿勢情報を第二の装置に送信するように適応(構成)されてもよい。第一の装置は、さらに、レンダリングされたメディア・コンテンツを第二の装置から受信するよう適応(構成)されてもよい。レンダリングされたメディア・コンテンツは、姿勢情報に基づいてメディア・コンテンツをレンダリングすることによって取得されたものであってもよい。第一の装置は、さらにまた、レンダリングされたメディア・コンテンツを再現するように適応(構成)されてもよい。たとえば、第一の装置は、プロセッサ(または一組のプロセッサ)および該プロセッサ(または一組のプロセッサ)に結合されたメモリを含んでいてもよい。プロセッサ(または一組のプロセッサ)は、上記の動作を実行するように適応(構成)されてもよい。
【0035】
方法に関してなされた陳述は、同様に、そのような方法/システムにおいて使用されている対応するシステムおよび装置にも適用され、その逆も成り立つことを注意しておく。
【0036】
本開示のさらなる諸側面は、送信器(S)装置によってユーザー位置および/または向きデータを受信し、典型的にはオブジェクト・ベースまたはFOA/HOA表現から導出される対応するプリレンダリングされたコンテンツを送信することを含む、オーディオ・コンテンツをレンダリングするための方法を実行するよう構成されたシステム、装置、方法、およびコンピュータ可読記憶媒体に関する。送信器によって生成されるプリレンダリングされた信号は、バイノーラル、FOA、HOA、または任意の型のチャネル・ベースのレンダリングであることができる。本方法はさらに、圧縮されていないプリレンダリングされたコンテンツを送信することを含んでいてもよい。本方法はさらに、プリレンダリングされたコンテンツをエンコードし、エンコードされたプリレンダリングされたコンテンツを送信することを含んでいてもよい。本方法はさらに、プリレンダリングされたコンテンツを、受信器によって受信することをさらに含んでいてもよい。本方法は、さらに、プリレンダリングされた、プリエンコードされたバイノーラル化されたコンテンツを受信器によってデコードすることを含んでいてもよい。ユーザー位置および/または向きデータは、世界空間におけるユーザーの位置および向きを示すローカルな姿勢を含んでいてもよい。ユーザー位置データは、受信器から送信器に送信されてもよい。本方法は、プリレンダリングされたバイノーラル化されたコンテンツのために使用されたユーザー位置データを受信器に送り返すことをさらに含んでいてもよい。本方法はさらに、受信されたユーザー位置データおよびローカル位置データに基づいて、プリレンダリングされたコンテンツを外挿して、更新されたコンテンツを決定することを含んでいてもよい。本方法はさらに、個別化されたバイノーラル処理のために、ユーザーについての形態学的データ(たとえば、頭部サイズ)を送信することを含んでいてもよい。本方法はさらに、BRIRおよび部屋の特徴付けについてのデータを送信することを含んでいてもよい。本方法はさらに、コンテンツが聴取者非依存的な仕方(たとえば、HRTFを含まない)で送信されるという決定に基づいて、受信側でバイノーラル・レンダリングおよび個別化(individualization)を実行することを含んでいてもよい。本方法はさらに、時点t1において、ユーザー位置および/または向きデータP(t0)を提供することを含んでいてもよい。圧縮されていないプリレンダリングされたコンテンツは、バイノーラル化された圧縮されていないプリレンダリングされたコンテンツであってもよい。
【図面の簡単な説明】
【0037】
本開示の実施形態は、添付の図面を参照して以下に説明される。
【
図3】受信器およびサーバー・システムの第一の例を示す。
【
図4】送信器および受信器システムの第二の例を示す。
【
図5】送信器および受信器システムの第三の例を示す。
【
図6】送信器および受信器システムの第四の例を示す。
【
図7】メディア・コンテンツの処理方法の第一の例を示す。
【
図8】メディア・コンテンツの処理方法の第二の例を示す。
【
図9】メディア・コンテンツの処理方法の第三の例を示す。
【
図10】メディア・コンテンツの処理方法の第四の例を示す。
【発明を実施するための形態】
【0038】
当業者には理解されるように、バーチャルな世界への完全な没入は、脳を「だまして」感知されているものを信じさせる。視覚が視野によって制限されるとき、見えないものについての次元を音が加える(たとえば、後ろからの牛の突進、右側のガラガラヘビ、さらには左耳から頭の後ろから右耳へと動くささやきなど)よって、コンテンツ制作者は、サウンドを利用してユーザーの視線を方向付けることができ、それにより効果的にストーリーを語ることができる。現在、映画館やホームシアターでは、オブジェクト・ベースまたは一次/高次アンビソニックス(FOA/HOA)ベースのサウンド生成、コンテンツのパッケージングおよび再生を通じて、没入的なオーディオ体験が提供されている。VRサウンドは、バーチャルな世界に完全に浸るためには、サウンドの精密さを必要とする。VRコンテンツの制作者は、オブジェクト・ベースおよび/またはHOAベースのサウンドを三次元空間で生成する機能を要求とする。さらに、そのようなコンテンツは、ユーザーがコンテンツを楽しむことができるよう、精密さおよび効率をもって、バイノーラルに(ヘッドフォンまたはラウドスピーカーで)エンコードされ、配送され、デコードされ、レンダリングされる必要がある。
【0039】
受信器は、たとえば帯域幅およびメディア・ビットレートのようなさまざまなパラメータに基づいて、MPEG-DASHまたはMPEG-MMTフォーマットを介して配送されるオーバー・ザ・トップ(OTT: over-the-top)コンテンツのような、コンテンツのメディア・フォーマット表現を選択しうる。受信器はまた、メディアの消費に関する情報を受け取ることもできる。メディア・フォーマット表現の選択は、そのようなメディア消費に基づいていてもよい。たとえば、プリレンダリングされたバイノーラル化されたデータは、ヘッドフォンまたはステレオ・ラウドスピーカー(たとえばクロストーク打ち消しがある)出力の指示に基づいて選択されてもよい。
【0040】
本明細書に記載される例示的実施形態は、メディア・コンテンツを処理する(たとえば、オーディオ・コンテンツをレンダリングする)ように適応された方法、装置およびプロセスを記載する。例示的実施形態は、一般に、メディア・コンテンツ(たとえば、オーディオ・コンテンツおよび/またはビデオ・コンテンツを含む)を処理することに関するが、限定する意図なしに、本稿の残りの部分ではオーディオ・コンテンツが言及される。
【0041】
図1は、バイノーラル・レンダリングのための受信器/クライアント・システム100の例を示している。システム100はオーディオ入力101を受け取ることができる。オーディオ入力101は、送信器からのエンコードされたビットストリームに含まれる完全なシーンを含んでいてもよい。受信器システム100は、ユーザーの動きおよび/またはユーザー頭部の向きに関係するセンサー・データ(姿勢情報)110を受信または検出することができる。センサー・データ110は、たとえばヨー、ピッチ、ロール、および/または(x,y,z)座標のような向きおよび位置に関する情報を含んでいてもよい。受信器システム100は、さらに、オーディオ入力101を非圧縮オーディオおよび/またはメタデータ120にデコードしうるデコーダ102を含んでいてもよい。受信器システム100は、さらに、非圧縮オーディオおよび/またはメタデータ120をバイノーラル出力150にレンダリングしうるレンダラー103を含んでいてもよい。受信器システム100はバイノーラル出力150を、たとえばヘッドフォン出力に出力することができる。
【0042】
図1に示された受信器/クライアント・システム100は、本稿の冒頭で述べたレイテンシーおよび/または計算複雑さに関係する問題に悩まされることがある。
【0043】
これらの問題に対処するために、本開示は、メディア・コンテンツ(たとえば、オーディオおよび/またはビデオ・コンテンツ)を処理するためのシステムにおいて、受信器においてユーザーについての姿勢情報を取得し、姿勢情報を送信器に送信し、姿勢情報に基づいてメディア・コンテンツをレンダリングし、レンダリングされたメディア・コンテンツを受信器に送信することを提案する。それにより、受信器側で実行される動作の計算量を大幅に低減することができる。さらに、レンダリングされたメディア・コンテンツは、非圧縮の形で送信されてもよく、これは、姿勢の変化(たとえば頭部の動き)と、この姿勢の変化に適合した再現されたメディア・コンテンツの知覚(たとえば、音の知覚)との間の遅延を減らすことができる、
図7は、上記の考察に従ったメディア・コンテンツを処理する方法700の一例を概略的に示すフローチャートである。メディア・コンテンツは、オーディオ・コンテンツおよび/またはビデオ・コンテンツを含んでいてもよい。オーディオ・コンテンツは、たとえば、FOAベースのオーディオ・コンテンツ、HOAベースのオーディオ・コンテンツ、オブジェクト・ベースのオーディオ・コンテンツ、チャネル・ベースのオーディオ・コンテンツ、またはそれらの組み合わせであってもよい。メディア・コンテンツの処理は、メディア・コンテンツをレンダリングすることに関わってもよい。本方法は、メディア・コンテンツを再現するための第一の装置と、メディア・コンテンツを提供するための第二の装置とを有するシステムにおいて実行されてもよい。メディア・コンテンツを再現することは、メディア・コンテンツを再生することに関わってもよい。第一の装置は、たとえば、受信器、受信器装置、クライアント、クライアント装置、または再生装置と称されてもよい。第一の装置は、たとえば、VR/AR/MRヘッドセット(たとえば、ゴーグル)のような、コンピュータ媒介される現実(たとえば、VR、AR、MR)設備を有していてもよく、それに対応していてもよく、またはそれと関連して動作してもよく、ユーザーに関連していてもよい。ユーザーは、かかるコンピュータ媒介現実設備を身につけてもよい。第一の装置は、ユーザーまたはユーザーの一部(たとえば、ユーザーの頭部)の姿勢(たとえば、位置および/または向き)を検出するためのセンサー(たとえば、姿勢センサー)を有していてもよく、またはそれと(通信上)結合されてもよい。センサーはさらに、姿勢の変化率(一階微分、たとえば、速度、角速度(単数または複数)、ヨー/ロール/ピッチ率(単数または複数))を検出してもよい。センサーはさらにまた、変化率の変化率(二階微分、たとえば、加速度、角加速度)を検出してもよい。センサーによって出力されるセンサー・データは、姿勢情報と呼ばれることがある。一般に、姿勢情報は、ユーザーまたはユーザーの一部(たとえば、ユーザーの頭部)の位置および/または向き(姿勢)を示すものであることが理解される。さらに、姿勢情報は、姿勢の一つまたは複数の変化率(一階微分)を示してもよい。さらにまた、姿勢情報は、変化率の一つまたは複数の変化率(二階微分)、たとえば姿勢の一つまたは複数の変化率の変化率を示してもよい。センサーは、たとえば、コンピュータ媒介現実設備(たとえば、VR/AR/MRヘッドセット/ゴーグル)の一部として、またはユーザーによって携行されるモバイル(コンピューティング)装置(たとえば、スマートフォン、ゲーム・コントローラ)の一部として、ユーザーまたはユーザーの関連する部分(たとえば頭部)と位置合わせされて配置されてもよい。この場合、センサーは、埋め込みセンサーと称されることがある。あるいはまた、センサーは、ユーザー(またはユーザーの一部)の姿勢を追跡する位置サーバー(たとえば、OptiTrackシステムまたはOptiTrackタイプのシステム)に備えられてもよく、または、かかる位置サーバーによって具現されてもよい。一般に、センサーは、ユーザー(またはユーザーの一部)の姿勢を追跡する追跡システムの一部であってもよく、またはかかる追跡システムによって具現されてもよい。そのような位置サーバーは、複数のユーザーの姿勢を追跡してもよい。第二の装置は、たとえば、送信器、送信器装置、サーバー、サーバー装置、またはコンテンツ配送装置と呼ばれることがある。第一および第二の装置のそれぞれは、それぞれのメモリに結合され、後述するそれぞれの動作を行うように適応(構成)されたプロセッサ(または一組のプロセッサ)を有していてもよい。たとえば、前記プロセッサ(またはプロセッサの組)は、後述する方法700の各ステップを実行するように適応(構成)されてもよい。代替的または追加的に、前記プロセッサ(またはプロセッサの組)は、後述する方法800、方法900、および方法1000のうちのいずれか一つのそれぞれのステップを実行するよう適応(構成)されてもよい。
【0044】
ステップS710では、ユーザー(またはユーザーの一部、たとえば、ユーザーの頭)の位置および/または向きを示す姿勢情報が得られる(たとえば、決定される)。この動作は、たとえば、センサー(たとえば、姿勢センサー)によって実行されてもよい。ステップS720では、姿勢情報は、第二の装置に送信される。ステップS730では、姿勢情報に基づいてメディア・コンテンツがレンダリングされて、レンダリングされたメディア・コンテンツを得る。すなわち、メディア・コンテンツは、ユーザーまたはユーザーの一部の位置および/または向きに基づいてレンダリングされる。レンダリングされたメディア・コンテンツは、プリレンダリングされたメディア・コンテンツ(たとえば、プリレンダリングされたオーディオ・コンテンツおよび/またはプリレンダリングされたビデオ・コンテンツ)と呼ばれることもある。メディア・コンテンツがオーディオ・コンテンツを含む場合、オーディオ・コンテンツは、たとえば、バイノーラル・オーディオ・コンテンツ、Bフォーマットのオーディオ・コンテンツ、HOAオーディオ・コンテンツ、チャネル・ベースのオーディオ・コンテンツ、またはそれらの組み合わせにレンダリングされうる。一般に、オーディオ・コンテンツは、二つ以上のチャネルおよび/または成分にレンダリングされうる。メディア・コンテンツがビデオ・コンテンツを含む場合、ビデオ・コンテンツはタイル状にされてもよく、全体的なビデオ・シーンのうちの関心領域が、たとえばレンダリングされたビデオ・コンテンツとして出力されてもよい。ステップS740では、レンダリングされたメディア・コンテンツは、再現のために第一の装置に送信される。ステップS710およびS720は、第一の装置において/第一の装置によって、たとえばそれぞれセンサー(たとえば、姿勢センサー)および(第一の)送信ユニットによって、実行されてもよい。ステップS730およびS740は、第二の装置において/第二の装置によって、たとえばレンダラーおよび(第二の)送信ユニットにおいて実行されてもよい。
【0045】
オーディオ・コンテンツについては、方法700は、レンダリングされたオーディオ・コンテンツの可聴(たとえば、音響)表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含むことができる。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法700は、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップをさらに含んでいてもよい。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表現の生成は、第一の装置において/によって実行されてもよい。
【0046】
上述の方法によるバイノーラル・レンダリングのための受信器/クライアント・システム200の一例が
図2に概略的に示されている。本システムは、方法700の第一の装置を具現することができる。システム200は、レンダリングされたメディア・コンテンツ(レンダリングされたオーディオ・コンテンツ)の例として、オーディオ入力201を受信してもよい。オーディオ入力201は、たとえば、バイノーラル化された非圧縮オーディオの形であってもよい。受信器システム200は、ユーザーの動きおよび/またはユーザーの頭部の向きに関係するセンサー・データを(姿勢情報の一例として)を出力することができる。頭部姿勢/センサー・データ220は、たとえば、ヨー、ピッチ、ロールおよび/または(x,y,z)座標に関する情報を含んでいてもよい。受信器システム200は、センサー・データを送信器/サーバーに出力することができる。送信器/サーバーは、方法700における第二の装置を具体化することができる。受信器システム200はさらに、オーディオ入力201の可聴表現を生成してもよい。たとえば、受信器システムは、非圧縮オーディオ入力201をヘッドフォン出力に出力することができる。
【0047】
後により詳細に説明するように、
図3、
図4、
図5および
図6に示されるシステムのいずれも方法700を実装することができる。
【0048】
姿勢の変化と、ユーザーに呈示されるメディア・コンテンツの表現の対応する適応との間の遅延をさらに低減するために、第二の装置は、第一の装置への伝送および/またはエンコード/デコード(後述)の結果として生じうる遅延を予期するために、姿勢情報を予測することができる。たとえば、方法700におけるステップS730におけるメディア・コンテンツのレンダリングは、予測された姿勢情報を取得(たとえば、決定、計算)し、(第一の装置から受信された姿勢情報に基づいてではなく)予測された姿勢情報に基づいてメディア・コンテンツをレンダリングすることに関わってもよい。
【0049】
図8は、姿勢情報の予測を適用する、メディア・コンテンツを処理する方法800の一例を概略的に示すフローチャートである。特に断わりのない限り、上記の方法700に関連してなされた陳述は、ここでも当てはまる。
【0050】
ステップS810およびステップS820は、それぞれ、方法700のステップS710およびS720に対応する。ステップS830aでは、ステップS820で受信された姿勢情報および前の姿勢情報に基づいて、予測姿勢情報が取得される(たとえば、決定される、計算される)。姿勢情報が姿勢の一階および/または二階微分を含む場合、予測は、前の姿勢情報に加えて、またはその代わりに、前記一階および/または二階微分に基づくことができる。予測姿勢情報は、将来の時点についての姿勢情報であってもよく、たとえば、将来の時点におけるユーザーおよび/またはユーザーの一部(たとえば頭部)の位置を示す。ある種の実装では、予測姿勢情報は、レンダリングされたメディア・コンテンツが再現のために第一の装置によって処理されることが期待される時点の推定値について予測されてもよい。第一の装置が再現のためにレンダリングされたメディアを処理することが期待される時点の推定値は、レンダリングされたメディア・コンテンツを第一の装置に送信するために必要な時間(継続時間)の推定値を含むことができる。代替的または追加的に、エンコード/デコード(たとえば、圧縮/圧縮解除)が適用される場合(後述)、前記時点の推定値は、レンダリングされたメディア・コンテンツをエンコード/デコードするために必要な時間(継続時間)の推定値を含むことができる。すなわち、予測姿勢情報は、レンダリングされたメディア・コンテンツを送信するために必要な時間および/またはレンダリングされたメディア・コンテンツをエンコード/デコードするために必要な時間の推定値にさらに基づいて取得されてもよい。前の姿勢情報は、前の時点に第一の装置から受信された姿勢情報であってもよい。前の姿勢情報の一つまたは複数の項目が、たとえば、外挿またはモデルに基づく予測技法を介して、予測姿勢情報を得るために使用されてもよい。この目的のために、前の姿勢情報の項目(たとえば、所定の数の項目)が記憶されてもよい。ステップS830bにおいて、メディア・コンテンツは、予測姿勢情報に基づいてレンダリングされて、レンダリングされたメディア・コンテンツを得る。この動作は、姿勢情報(ステップS720またはステップS820で受信される)の代わりに、予測姿勢情報が使用されるという点で、方法700のステップS730とは異なりうるが、他の点では、ステップS730と同じようにして実行されてもよい。ステップS840では、レンダリングされたメディア・コンテンツは、再現のために第一の装置に送信される。ステップS810およびS820は、第一の装置において/によって実行されてもよい。ステップS830a、S830b、およびS840は、第二の装置において/によって実行されてもよい。ステップS830aは、たとえば、姿勢予測器によって実行されてもよい。
【0051】
オーディオ・コンテンツについては、方法800は、レンダリングされたオーディオ・コンテンツの可聴(たとえば、音響)表現を、たとえば第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含むことができる。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法800は、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップをさらに含んでいてもよい。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表現の生成は、第一の装置において/によって実行されてもよい。
【0052】
方法800のある修正では、予測姿勢情報は、第一の装置において予測されてもよい。すなわち、第一の装置は、ステップS830aを参照して上述したような処理を実行し、その後、予測された姿勢情報を第二の装置に送信してもよい。この場合、ステップS820が省略されてもよいことが理解される。第一の装置から予測姿勢情報を受信した後、第二の装置は、上述した仕方でステップS830bおよびその後のステップでその処理を継続することができる。
【0053】
後により詳細に説明するように、
図3、
図4、
図5および
図6に示されるシステムのいずれも方法800または方法800の上記修正を実装することができる。
【0054】
上記のメディア・コンテンツをレンダリングするための姿勢情報の予測は、ユーザーの動きとレンダリングされたメディア・コンテンツの呈示との間の良好な整列が達成できるよう、送信および/またはエンコード/デコードによって生じる遅延を「隠す」ことを可能にする。よって、ユーザーが動き酔いに影響されるリスクを低減するか、または完全に回避することができ、ユーザーの没入的なコンピュータ媒介現実体験を改善することができる。方法800の場合、動きと、レンダリングされたメディア・コンテンツの呈示との間の整列の改善は、サーバー/送信側で実行されるプロセスによって、すなわち、姿勢情報を予測し、予測された姿勢情報を、メディア・コンテンツをレンダリングするために受信側/再生側から受信される姿勢情報の代わりに使用することによって、達成される。しかしながら、ある種の条件下では、受信器または再生側で実行される施策によって、動きと、レンダリングされたメディア・コンテンツの呈示との間の整列のそのような改善を達成することが望ましいことがある。
【0055】
図9は、上述の考察に従った、すなわち、受信器/再生側で実行される施策によって動きとレンダリングされたメディア・コンテンツの呈示との間の整列を改善する、メディア・コンテンツを処理する方法900の一例を概略的に示すフローチャートである。
【0056】
ステップS910、
ステップS920、
ステップS930、および
ステップS940は、それぞれ、方法700のステップS710~S740に対応する。
ステップS950では、メディア・コンテンツをレンダリングするために使用された姿勢情報(たとえば、第一の装置から受信された姿勢情報)が、第一の装置に送信される。前記姿勢情報は、レンダリングされたメディア・コンテンツと一緒に、たとえばレンダリングされたメディア・コンテンツと関連付けて、送信されてもよい。
ステップS960では、メディア・コンテンツをレンダリングするために使用された姿勢情報が、現在の姿勢情報と比較される。現在の姿勢情報は、レンダリングされたメディア・コンテンツを再現(たとえば、再生)する時に得られる姿勢情報であってもよい。現在の姿勢情報は、異なる(より後の)時点にではあるが、ステップS710を参照して上記した仕方で取得されうる。
ステップS970では、レンダリングされたメディア・コンテンツは比較の結果に基づいて更新される。たとえば、レンダリングされたメディア・コンテンツは、メディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて更新されてもよい。前記更新は、レンダリングされたメディア・コンテンツの外挿に関わっていてもよい。そのような更新の限定しない例は、
図3を参照して下記で述べる。ステップS910、S920、S960およびS970は、第一の装置において/によって実行されてもよい。ステップS930、S940およびS950は、第二の装置において/によって実行されてもよい。
【0057】
ある種の実装では、ステップS950は省略されてもよく、すなわち、メディア・コンテンツをレンダリングするために使用された姿勢情報は、第一の装置に送信されないことがある。この場合、ステップS960では、ステップS920で第二の装置に送信された姿勢情報を、メディア・コンテンツをレンダリングするために使用された姿勢情報として参照することができる。
【0058】
さらに、ある種の実装では、方法900は、姿勢情報の変化に応じて(たとえば、ユーザーの姿勢またはユーザーの頭部の姿勢の変化に応じて)レンダリングされたメディア・コンテンツがどのように変化するかの勾配情報を決定することを含んでいてもよい。次いで、方法900はさらにまた、勾配情報を第一の装置に送信することをさらに含んでもよい。たとえば、勾配情報は、レンダリングされたメディア・コンテンツおよび任意的にはメディア・コンテンツをレンダリングするために使用された姿勢情報と一緒に(たとえば、関連付けて)、第一の装置に送信されてもよい。これらの追加的なステップは、第二の装置において実行されてもよい。オーディオ・コンテンツについては、勾配情報は、ユーザーまたはユーザーの一部の並進および/または回転に応答して(たとえば各チャネルまたは各成分の)サブバンド・エネルギー・レベルの変化を示すことができる。次いで、勾配情報はステップS970で、レンダリングされたメディア・コンテンツを更新/調整するために使用されてもよい。たとえば、レンダリングされたオーディオ・コンテンツのサブバンド・エネルギー・レベルは、勾配情報ならびにメディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて調整されてもよい。一般的な言い方では、レンダリングされたメディア・コンテンツは、姿勢の差と、姿勢の変化に応じたレンダリングされたメディア・コンテンツの変化を示す勾配とに基づいて、更新/調整することができる。
【0059】
オーディオ・コンテンツについては、方法900は、レンダリングされたオーディオ・コンテンツの可聴(たとえば、音響)表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含むことができる。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法900は、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップをさらに含むことができる。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表示の生成は、第一の装置において/によって実行されてもよい。
【0060】
後により詳細に説明するように、
図3、
図4、
図5および
図6に示されるシステムのいずれも方法900を実装することができる。
【0061】
ユーザーの動きとレンダリングされたメディア・コンテンツの呈示との間の整列をさらに改善するために、サーバー/送信側での姿勢情報の予測と受信器/再生側でのレンダリングされたメディア・コンテンツの更新が組み合わされてもよい。
【0062】
図10は、上述の考察に従った、すなわち、サーバー/送信側で実行される施策と受信器/再生側で実行される施策とによって、動きとレンダリングされたメディア・コンテンツの呈示との間の整列を改善する、メディア・コンテンツを処理する方法1000の例を概略的に示すフローチャートである。
【0063】
ステップS1010、ステップS1020、ステップS1040は、それぞれ、方法700のステップS710、S720、S740に対応する。ステップS1030aおよびステップS1030bは、それぞれ、方法800のステップS830およびS830bに対応する。ステップS1050では、予測された姿勢情報(すなわち、メディア・コンテンツをレンダリングするために使用された姿勢情報)が、第一の装置に送信される。予測姿勢情報は、レンダリングされたメディア・コンテンツと一緒に、たとえばレンダリングされたメディア・コンテンツと関連付けて、送信されてもよい。ステップS1060では、予測された姿勢情報が、実際の/現在の姿勢情報と比較される。実際の姿勢情報は、レンダリングされたメディア・コンテンツを再現(たとえば、再生)する時に得られる姿勢情報であってもよい。実際の姿勢情報は、異なる(より後の)時点にではあるが、ステップS710を参照して上述した仕方で取得されてもよい。ステップS1070では、レンダリングされたメディア・コンテンツは、比較の結果に基づいて更新される。たとえば、レンダリングされたメディア・コンテンツは、予測された姿勢情報と実際の姿勢情報との間の差に基づいて更新されてもよい。一般に、更新は、方法900のステップS970と同じ仕方で実行されてもよい。ステップS1010、S1020、S1060およびS1070は、第一の装置において/によって実行されてもよい。ステップS1030a、S1030b、S1040およびS1050は、第二の装置において/によって実行されてもよい。
【0064】
ある種の実装では、方法1000は、姿勢情報の変化に応答して(たとえば、ユーザーの姿勢またはユーザーの頭部の姿勢の変化に応じて)レンダリングされたメディア・コンテンツがどのように変化するかの勾配情報を決定することを含んでいてもよい。次いで、方法1000はさらにまた、勾配情報を第一の装置に送信することを含んでいてもよい。たとえば、勾配情報は、レンダリングされたメディア・コンテンツおよび任意的にはメディア・コンテンツをレンダリングするために使用された姿勢情報と一緒に(たとえば、関連付けて)第一の装置に送信されてもよい。これらの追加的なステップは、第二の装置において実行されてもよい。オーディオ・コンテンツについては、勾配情報は、ユーザーまたはユーザーの一部の並進および/または回転に応答する(たとえば、各チャネルまたは各成分の)サブバンド・エネルギー・レベルの変化を示してもよい。次いで、勾配情報はステップS1070で、レンダリングされたメディア・コンテンツを更新/調整するために使用されうる。たとえば、レンダリングされたオーディオ・コンテンツのサブバンド・エネルギー・レベルは、勾配情報ならびにメディア・コンテンツをレンダリングするために使用された姿勢情報と現在の姿勢情報との間の差に基づいて調整されてもよい。一般的な言い方では、レンダリングされたメディア・コンテンツは、姿勢の差と、姿勢の変化に応じたレンダリングされたメディア・コンテンツの変化を示す勾配とに基づいて、更新/調整されてもよい。
【0065】
オーディオ・コンテンツについては、方法1000は、レンダリングされたオーディオ・コンテンツの可聴(たとえば、音響)表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された二つ以上のラウドスピーカーを介して生成するステップをさらに含んでいてもよい。二つ以上のラウドスピーカーは、たとえば、コンピュータ媒介現実設備の一部であってもよい。ビデオ・コンテンツについては、方法1000はさらに、レンダリングされたビデオ・コンテンツの視覚的表現を、たとえば、第一の装置の一部であるかまたは第一の装置に結合された表示装置を介して生成するステップを含んでいてもよい。表示装置は、たとえば、コンピュータ媒介現実設備の一部であってもよい。一般に、そのような表現の生成は、第一の装置において/によって実行されてもよい。
【0066】
方法1000のある修正では、予測姿勢情報は、第一の装置において予測されてもよい。すなわち、第一の装置が、ステップS1030aを参照して上述した処理を実行し、その後、予測された姿勢情報を第二の装置に送信してもよい。この場合、ステップS1020が省略されてもよいことが理解される。第一の装置から予測姿勢情報を受信した後、第二の装置は、予測姿勢情報を使って、ステップS1030bを参照して上述した仕方で、メディア・コンテンツをレンダリングし、ステップS1040を参照して上述した仕方で、レンダリングされたメディア・コンテンツを第一の装置に送信してもよい。この場合、ステップS1050は省略されてもよい。レンダリングされたメディア・コンテンツを受信した後、第一の装置は、ステップS1060およびS1070を、上述した仕方で実行してもよい。特に、この場合、第一の装置において姿勢情報の予測が実行されるので、第一の装置は、第二の装置から予測された姿勢情報を受信する必要がない。
【0067】
後により詳細に説明するように、
図3、
図4、
図5および
図6に示されるシステムのいずれも、方法1000または方法1000の上記の修正を実装しうる。
【0068】
上記の方法のいずれにおいても、レンダリングされたメディア・コンテンツは、圧縮されていない形で第一の装置に送信されてもよい。これは、第二の装置におけるプリレンダリングによって可能にされ、フル・メディア・コンテンツ(たとえば、オーディオ/ビデオ・シーンの完全な表現)の送信は必要ない。レンダリングされたメディア・コンテンツを圧縮されていない形で送信することは、圧縮/圧縮解除に通常費やされる時間が節約できるので、往復遅延を低減することに貢献する。他方、レンダリングされたメディア・コンテンツは、帯域幅制限によって要求される場合は、第一の装置への送信前にエンコード(圧縮)されてもよい。この場合、上述したように、予測される姿勢情報を得る際に、エンコード/デコード(たとえば、圧縮/圧縮解除)に必要な時間が考慮されてもよい。
【0069】
さらに、オーディオ・コンテンツについては、上記の方法のいずれもさらに、第一の装置が位置する環境の音響特性を示す環境情報を第二の装置に送信することを含んでいてもよい。環境情報は、部屋特性および/または両耳室内インパルス応答(BRIR)関数を含んでいてもよい。このステップは、第一の装置において/によって、たとえばセットアップ時に実行されてもよい。次いで、オーディオ・コンテンツは、環境情報にさらに基づいてレンダリングされてもよい。代替的または追加的に、上記方法のいずれも、ユーザーまたはユーザーの一部の形態を示す形態学的情報を第二の装置に送信することをさらに含んでいてもよい。形態は、形状またはサイズ、たとえば、ユーザーの頭部の形状またはサイズを含んでいてもよく、またはそれに対応していてもよい。形態学的情報は、頭部伝達関数(HRTF)を含んでいてもよい。レンダリングはバイノーラル・レンダリングであってもよい。このステップは、第一の装置において/によって、たとえばセットアップ時に、実行されてもよい。その際、オーディオ・コンテンツは、形態学的情報にさらに基づいてレンダリングされてもよい。
【0070】
図3は、サーバー/送信器300およびクライアント/受信器350を含む例示的なシステムのさらなる詳細を示している。上述のように、このシステムは、方法700、800、900および1000のいずれも実装しうる。(たとえば第二の装置を実装する)サーバー/送信器300は、レンダラー320(たとえば、オーディオ・レンダラー)およびエンコーダ330を含んでいてもよい。(たとえば第一の装置を実装する)クライアント/受信器350は、時点t0で現在の姿勢(たとえば頭部の姿勢)P(t0)をサーバー/送信器300に送ることができる。現在の姿勢P(t0)は、現在の姿勢P(t0)が生成された時刻を指定するタイムスタンプt0自体をも含んでいてもよい。姿勢P(t0)は、姿勢350ブロックによって決定され、送られてもよい。
【0071】
(たとえば第二の装置を実装する)サーバー/送信器300は、位置予測器310をさらに含んでいてもよい。サーバー/送信器300は、時点t1(ここでt1>t0)においてユーザー位置および(頭部の向きに対応する)現在の姿勢P(t0)を受信してもよい。受信された現在の姿勢P(t0)およびt0自体は、位置P(t1)を予測するために位置予測器310によって使用されてもよい。位置予測器310は、位置P(t1)を予測するために、先に受信した姿勢P(tn)およびtnを考慮に入れてもよく、ここで、nは0ないし-無限大(より早い時点からの姿勢およびタイムスタンプ値)でありうる。位置P(t1)は、姿勢P(t0)と同様であってもよい。位置P(t1)は、時点t1におけるオーディオ・シーンをレンダリングし、それにより、レンダリングされたオーディオ・データR(t1) 340を決定するために、オーディオ・レンダラー320によって使用されてもよい。レンダリングされたオーディオ・データR(t1) 340は、オーディオ・エンコーダ330を使ってエンコードされて、オーディオ・データA(t1)を決定することができる。サーバー/送信器300は、オーディオ・データA(t1)および位置P(t1)をクライアント/受信器350に送信してもよい。位置P(t1)は、オーディオ・ビットストリームの一部としてエンコードされてもよい。クライアント/受信器350は、t2>t1である時点t2において、サーバー/送信器300からオーディオ・データA(t1)および(たとえばメタデータの形の)位置P(t1)を受信してもよい。クライアント/受信器350は、オーディオ・データA(t1)および位置P(t1)を、非圧縮オーディオU(t1)を決定しうるオーディオ・デコーダ351において受信してもよい。頭部姿勢/センサー・データ352ブロックは、時点t2における姿勢P(t2)を決定することができる。オーディオ外挿器353は、受信されたP(t1)を使用して、時点t2での姿勢P(t2)から姿勢P(t1)を減算することによって、姿勢差DeltaPを計算することができる。DeltaPは、出力390の前に、非圧縮オーディオU(t1)を適応/外挿するためにオーディオ外挿器353によって使用されてもよい。クライアント/受信器350は、オーディオ・コンテンツがFOAであり、その動きがヨー、ピッチおよび/またはロール運動に制約されている場合、外挿の一部としてローカルな回転を適用してもよい。クライアント/受信器350はさらに、オーディオ・コンテンツがプリレンダリングされたバイノーラル・コンテンツまたはプリレンダリングされたチャネル・ベースのコンテンツである場合、外挿の一部としてブラインド・アップミックスを適用してもよい。
【0072】
位置P(t1)を予測する代わりに、クライアント/受信器350がオーディオ・データを受信または処理することが期待される時点t2'について、位置P(t2')が予測されてもよい。時点t2'は、時点t1から始めて、オーディオ・データの送信および/またはエンコード/デコードに必要な時間(持続時間)を考慮して、推定されうる。その際、上記のP(t1)、R(t1)、A(t1)およびU(t1)は、それぞれ、P(t2')、R(t2')、A(t2')およびU(t2')に置き換えられなければならなくなる。上述の要素のいずれも、それぞれの装置のプロセッサ(または一組のプロセッサ)によって実装されてもよい。
【0073】
MPEG-H 3D Audio(ISO/IEC 23008-3)および/またはMPEG規格の将来のバージョンからの以下のシンタックスが、P(t)の3自由度(3DoF: 3 Degrees of Freedom)データを送信するために使用されてもよい。
【表1】
【0074】
意味内容はMPEG-H 3D Audio(ISO/IEC 23008-3)および/またはMPEG規格の将来のバージョンに従って定義されうる。
【0075】
6DoFデータおよびタイムスタンプを送信するための完全なシンタックスは、次のようになりうる。
【表2】
【0076】
意味内容は、MPEG-H 3D Audio(ISO/IEC 23008-3)および/またはMPEG規格の将来のバージョンに従って定義されうる。
【0077】
図4は、送信器400および受信器450を含む例示的なシステムを示している。
図4に記載されるシステムは、
図1~
図3に記載されるシステムの諸側面を全体的にまたは部分的に含んでいてもよい。特に、本システムは、上述の方法700、800、900および1000の任意のものまたは全部を実装しうる。(たとえば第二の装置を実装する)送信器/サーバー400は、完全なオーディオ・シーン(たとえば、FOA/HOAまたはオブジェクト・ベースのシーン)401および完全なビデオ・シーン(たとえば、360°ビデオ)402(メディア・コンテンツの例として)を受け取ることができる。オーディオ・シーン401は、オーディオ・エンコーダ410によって処理されて、完全なオーディオ・シーン配送441を決定することができる。完全なオーディオ・シーン441は、オーディオ・シーン全体および/または付随するメタデータ(オーディオ・オブジェクト位置、方向など)から構成されてもよい。完全なビデオ402は、コンテンツ配送選択420によって処理されてもよい。完全なビデオ402は、コンテンツ選択420によって、諸関心領域などの種々の部分に分割され、それに応じて「タイル」状にされ(360°のビデオがタイルに分割されてもよい)、タイル402aを決定してもよい。コンテンツ配送および選択420は、
図3の位置予測器310からの出力として説明された、予測される位置P(t1)(または予測される位置P(t2'))を使ってもよく、または、未変更の頭部姿勢/センサー・データ454を使ってもよい。たとえば、完全な360°ビデオ402のうちのタイル402aは、受信器450から受信されたセンサー・データ454に基づいて、コンテンツ配送選択420において選択されてもよい。この選択は、ビデオ・コンテンツのレンダリングと称されてもよい。ビデオ・エンコーダ430は、タイル402aをエンコードして、(たとえば第一の装置を実装する)クライアント/受信器450に送信されうる関心領域のビデオ442を出力する。受信器450は、関心領域のビデオ442を受信することができるビデオ・デコーダ452を含んでいてもよい。ビデオ・デコーダ452は、関心領域442を使用してビデオをデコードし、ビデオ出力492に出力することができる。完全なオーディオ・シーン441はオーディオ・デコーダ451によって受信され、該オーディオ・デコーダ451が、コンテンツをデコードし、デコードされたオーディオ・シーンをオーディオ・レンダラー453に提供してもよい。オーディオ・デコーダ451は、非圧縮オーディオおよびメタデータ455(これが、デコードされたオーディオ・シーンに対応しうる)をオーディオ・レンダラー453に提供することができる。オーディオ・レンダラー453は、センサー・データ454に基づいて、デコードされたオーディオをレンダリングしてもよく、オーディオ出力491を出力することができる。センサー・データ454は、ユーザーの動きおよび/またはユーザーの頭部の向きを検出することができるセンサー(たとえば、ジャイロスコープ・ベースのセンサー)から受信されてもよい。それは次いで、完全なオーディオ・シーン441をユーザーの現在の頭部の向きおよび/または位置に適応させるためにオーディオ・レンダラー453に、また、完全なビデオ・シーン402をユーザーの現在の頭部の向きおよび/または位置に適応させるためにコンテンツ配送選択420に、提供されてもよい。特に、
図4の例示的システムでは、ビデオ・コンテンツはサーバー/送信側でレンダリングされ(すなわち、受信器/再生側での再生の準備ができたビデオ・コンテンツがサーバー/送信側で生成される)、オーディオ・コンテンツは受信器/再生側でレンダリングされる。上述の要素のいずれも、それぞれの装置のプロセッサ(または一組のプロセッサ)によって実装されてもよい。
【0078】
図5は、送信器500および受信器550を含む例示的なシステムを示している。本システムは、上記の方法700、800、900および1000の任意のものまたは全部を実装しうる。(たとえば第二の装置を実装する)送信器/サーバー500は、完全なオーディオ・シーン(たとえばHOAまたはオブジェクト・ベースのシーン)501および完全なビデオ・シーン(たとえば、360°のビデオ)502(メディア・コンテンツの例として)を受け取ることができる。オーディオ・シーン501は、オーディオ・レンダラー510によって処理されて、バイノーラル・オーディオ・データ541を決定することができる。オーディオ・レンダラー510は、センサー・データ545を考慮に入れて、バイノーラル・オーディオ・データ541を決定することができる。センサー・データ545は、ヨー、ピッチ、ロール、x、y、z情報を含んでいてもよい。バイノーラル・オーディオ・データ541は、非圧縮であっても、可逆圧縮されていても、または可逆低遅延圧縮されていてもよい。たとえば、バイノーラル・オーディオ・データ551は、(たとえば第一の装置を実装する)受信器550によって受信され、バイノーラル・オーディオ出力591に提供されうる非圧縮オーディオ580であってもよい。完全なビデオ502は、コンテンツ配送選択520によって処理されてもよい。完全なビデオ502は、コンテンツ配送選択520において、諸関心領域のような種々の部分に分割され、それに応じて「タイリング」され(360°のビデオがタイルに分割される)、タイル502aを決定してもよい。完全な360°ビデオ502のうちのタイル502aは、受信器550から受信されたセンサー・データ545に基づいて、コンテンツ配送選択520において選択されてもよい。この選択は、ビデオ・コンテンツのレンダリングと称されることがある。ビデオ・エンコーダ530は、タイル502aをエンコードして、クライアント/受信器550に送信されうる関心領域のビデオ542を出力する。受信器550は、関心領域のビデオ542を受信することができるビデオ・デコーダ552を含んでいてもよい。ビデオ・デコーダ552は、関心領域542を使用して、ビデオをデコードし、ビデオ出力592に出力することができる。センサー・データ545は、ユーザーの動きおよび/またはユーザーの頭部の向きを検出することができるセンサー(たとえば、ジャイロスコープ・ベースのセンサー)から受信されてもよい。次いで、それは、完全なビデオ・シーン502をユーザーの現在の頭部の向きおよび/または位置に適応させるために、コンテンツ配送選択520にさらに提供されてもよい。次いで、それは、完全なオーディオ・シーン501をユーザーの現在の頭部の向きおよび/または位置に適応させるために、コンテンツ・オーディオ・レンダラー510に提供されてもよい。上述の要素のいずれも、それぞれの装置のプロセッサ(または一組のプロセッサ)によって実装されてもよい。
【0079】
図6は、送信器600および受信器650を含む例示的なシステムを示している。本システムは、上記の方法700、800、900および1000の任意のものまたは全部を実施しうる。(たとえば第二の装置を実装する)送信器/サーバー600は、完全なオーディオ・シーン(たとえば、HOAまたはオブジェクト・ベースのシーン)601および完全なビデオ・シーン(たとえば、360°のビデオ)602(メディア・コンテンツの例として)を受け取ることができる。オーディオ・シーン601は、オーディオ・レンダラー610によって処理されてもよく、オーディオ・レンダラー610の出力は次いで、低遅延オーディオ・エンコーダ660によって処理されてもよい。オーディオ・レンダラー610は、センサー・データ645を考慮に入れてもよい。低遅延オーディオ・エンコーダ660は、バイノーラル・オーディオ・データ641を出力することができ、このデータは次いで、(たとえば第一の装置を実装する)受信器650に送られてもよい。バイノーラル・オーディオ・データ641は受信器650において低遅延オーディオ・デコーダ670によって受信され、該低遅延オーディオ・デコーダ670がバイノーラル・オーディオ・データ641を非圧縮オーディオ680に変換する。次いで、非圧縮オーディオ680はバイノーラル・オーディオ出力691に提供されてもよい。完全なビデオ602は、コンテンツ配送選択620によって処理されてもよい。完全なビデオ602は、コンテンツ配送選択620において、諸関心領域のような種々の部分に分割されてもよく、それに応じて「タイリング」されてもよく(360°のビデオがタイルに分割されてもよい)、受信器650から受信されたセンサー・データ645に基づいて、コンテンツ配送選択620において選択されうるタイルを決定してもよい。この選択は、ビデオ・コンテンツのレンダリングと称されることがある。ビデオ・エンコーダ630は、タイルおよび/またはビデオをエンコードして、クライアント/受信器650に送信されうる関心領域ビデオ642を出力する。受信器650は、関心領域ビデオ642を受信することができるビデオ・デコーダ652を含んでいてもよい。ビデオ・デコーダ652は、関心領域642を使用して、ビデオをデコードし、ビデオ出力692に出力してもよい。センサー・データ645は、ユーザーの動きおよび/またはユーザーの頭部の向きを検出することができるセンサー(たとえば、ジャイロスコープ・ベースのセンサー)から受信されてもよい。それは次いで、完全なビデオ・シーン602をユーザーの現在の頭部の向きおよび/または位置に適応させるために、コンテンツ配送選択620にさらに提供されてもよい。それは次いで、完全なオーディオ・シーン601をユーザーの現在の頭部の向きおよび/または位置に適応させるために、コンテンツ・オーディオ・レンダラー610にさらに提供されてもよい。上述の要素のいずれも、それぞれの装置のプロセッサ(または一組のプロセッサ)によって実装されてもよい。
【0080】
通常は、送信器(S)から受信器(R)に送信される(メディア・コンテンツの限定しない例としての)オーディオは、
図1および
図4に示されるように受信器においてレンダリングされる。受信器側で柔軟性を最大化するために、オーディオ・シーンの複雑な表現を送ることが可能である。該複雑な表現はオブジェクトまたはHOAなどであり、これはたとえばローカルな聴取者の視点/姿勢に適合するように、受信器側で適応的にレンダリングされることができる。しかしながら、そのような表現をエンコードすることが要求しうる大きなレイテンシーは、これらの手法が通信または対話型アプリケーションのために使用されることを妨げる。
【0081】
本開示は、上述のレイテンシーを減少させるため、および/または受信器における計算の複雑さを減少させるための方法、システム、および装置を提供する。受信器から送信器に送信されるユーザー位置および向きが、サーバー/送信器が受信者の現在の姿勢/視点に密接に適合する、当該コンテンツのよりコンパクトな、プリレンダリングされたバージョンを計算することを許容する。しかしながら、送信器から受信器への送信レイテンシーは、ローカルな受信姿勢とサーバー上でレンダリングが計算された姿勢との間のミスマッチを導入する可能性がある。本開示は、受信器がレンダリングされた信号を現在のローカルな姿勢に外挿できるように、レンダリングが実行された位置を送信器が信号伝達することを提案する。加えて、送信器は、システム内のエンコードおよびデコード・レイテンシーをなくすために、オーディオ・シーンのプリレンダリングされた、圧縮されていないまたは可逆圧縮された表現を送信することができる。送信器はレンダリング・アルゴリズムを実行し、たとえばバイノーラル・ステレオ、FOAまたはHOAにする。レンダリング・アルゴリズムは、二つのチャネルへのオーディオ・オブジェクトのようなオーディオ・データ(たとえばプリレンダリングされたバイノーラル化されたコンテンツ)を、出力チャネルにレンダリングすることができる。次いで、それらのチャネルは、特に(たとえばシステムの帯域幅に依存して)圧縮が必要とされる場合、エンコードされて、エンコードされたオーディオ・データ・ビットストリームを出力してもよい。信号は、クライアントまたは受信器に送信されることができ、ヘッドフォンまたはステレオ・ラウドスピーカー・システムを介して出力されることができる。
【0082】
バイノーラル化された再生がユーザーの頭部の物理的特性に適合される必要があるとき、受信器はユーザーの頭部の特性に対応する頭部伝達関数(HRTF)を送信することができる。受信器はさらに、再現することを意図された部屋に対応する両側室内インパルス応答(BRIR)関数を送信することができる。この情報は、伝送のセットアップ中に伝送されてもよい。
【0083】
本開示の実施形態は、少なくとも以下の利点を提供しうる:
●バイノーラル化された(ステレオ)データのみが送信される場合、無損失オーディオ・データ伝送のための伝送ビットレートは、完全な圧縮オーディオ・シーンのビットレートと同様であるか、または同等でありうる。
●非圧縮または無損失のオーディオ・ストリームを送信することは、エンコードおよびデコードのためのレイテンシーをなくすまたは低減する。たとえば、エンコード/デコードから生じるレイテンシーはゼロまで低減されることがあり、これは、動きから耳へのレイテンシーの全体的な減少をもたらす。
●オーディオ・データの圧縮がない場合、受信器は、デコードまたはレンダリングすることなく、オーディオを出力するだけである。これは、デコードを実行する必要がない、および/または、レンダリングが送信側ですでに完了されているため、受信器における計算の複雑さを低減する結果となる。
●より高いビットレートでの最小限のレイテンシーおよび最小限の受信器計算複雑さと、より高いレイテンシーおよびより高い受信器計算複雑さでの最小限のビットレートとの間で種々のトレードオフを採用しうる。たとえば:
○最小のレイテンシーおよび計算量のための非圧縮データの伝送、しかし圧縮されていないデータを伝送するのに十分な帯域幅
○帯域幅が圧縮されていないデータを伝送するのに十分でない場合、最小のレイテンシーおよびやや高い計算量のための可逆圧縮されたデータの伝送
○帯域幅が制限されている場合、低遅延およびより高い計算量のための、不可逆だが低遅延の圧縮をされたデータの伝送。
【0084】
RおよびSが同時に受信器および送信器であるときも、RとSの間の双方向通信に上記が当てはまる。
【0085】
表3は、そのようなトレードオフを例解するシステム比較の例を示している。
【表3】
【0086】
ある種のコンテキストでは、本開示の実施形態は、コンテンツ外挿に基づいて伝送レイテンシーを隠蔽することに関わってもよい。全体的なレイテンシー(たとえば伝送レイテンシー)が高すぎる(典型的には、20msecを超える)場合、エンコード・フォーマットおよび/または再生システムは、次の更新されたコンテンツ・フレームの配送を待つ間に、受信者のローカル姿勢(位置および向き)にマッチするようにコンテンツを外挿する手段を提供することが望ましい。全体的なレイテンシーは、オーディオ・データの往復におけるすべてのレイテンシーの合計に基づいて決定することができる。たとえば、全体的なレイテンシーは、往復レイテンシー、エンコード・レイテンシー、デコード・レイテンシー、およびレンダリング・レイテンシーに基づくことができる。
【0087】
このレイテンシーを隠すことは、レンダリングのために(たとえば、ステップS920およびS1020を参照して上述したように)受信器から送信器/サーバーにローカル姿勢を送信し、(たとえば、ステップS950およびS1050を参照して上述したように)コンテンツのレンダリングされた各フレームについてどの姿勢が使用されたかを送信器/サーバーに返送させることによって達成することができる。送信器/送信者は、以前に受信された位置を考慮に入れることを含めて、コンテンツが送信器によってレンダリングされる時と受信器において受信される時との間に導入される追加的なレイテンシーを補償するために、ユーザーの動きを予測することができる。
【0088】
次いで、受信器は、(たとえば、現在のまたは実際の姿勢)(たとえば、ステップS970およびS1070を参照して上述したように)送信側でコンテンツをレンダリングするために使用された姿勢と受信者Rのローカル姿勢との間のデルタを与えられて、サーバーから受信されたプリレンダリングされたオーディオを外挿することができる。
【0089】
この外挿は、レンダリングされたコンテンツの柔軟性に基づいていくつかの仕方で実装することができる。一例では、コンテンツがプリレンダリングされたアンビソニックスBフォーマットであり、動きが3自由度の動きであるとき、外挿は、再生前のFOAまたはBフォーマット・コンテンツのクライアント側のローカル回転に基づいていてもよい。別の例では、プリレンダリングされたバイノーラル・コンテンツについて、外挿は、ブラインド・アップミックス(付属書A参照)によって、またはバイノーラル・ストリームへのメタデータの追加(付属書B参照)によって達成できる。別の例では、プリレンダリングされたチャネル・ベースのコンテンツについては、低レイテンシーのブラインド・アップミキサーが受信端で適用されることができる。
【0090】
レンダリングおよびエンコードが送信側で緊密に統合されている場合、メタデータ・エンコード、たとえば、現在のレンダリング位置Pに基づく種々のサブバンドの方向/またはエネルギー勾配∇E(P)を加えることにより、プリレンダリングされたコンテンツの柔軟性を高めることが可能である。
【0091】
レンダリングされるもとのコンテンツがオブジェクト・ベースである場合、所望される位置のまわりの複数のレンダリングを計算し、レベル勾配をエンコードすることが可能である。このレベル勾配Gは、典型的には、3Dベクトル(3つの軸x、y、zのそれぞれについて一つの値)から構成される。すると、受信器は、E(P')=E(P)・(P'-P)・∇E(P)として、プリレンダリングされた位置Pと現在の受信器位置P'との間の差に基づいて、受信信号におけるサブバンド・エネルギーE(P)を簡単に調整することができる。
【0092】
この余分な情報は、たとえば(距離情報を使って)視差効果を考慮に入れたりまたは(レベル勾配情報を使って)レンダリングのレベルを調整して、プリレンダリングされたストリーム(すなわち、プリレンダリングされたメディア・コンテンツ)をさらに外挿するために受信器によって使用されてもよい。
【0093】
一例では、受信器が計算パワーの点で制約される場合、アップミックスは、送信側でのエンコードの間に実行されてもよい。たとえば、Bフォーマットまたはチャネルがオブジェクトに変換されてもよい。これは、エンコード経路レイテンシーを増加させる可能性があるが、結果として得られるコンテンツは、より柔軟でありえ、受信端で外挿されうる。
【0094】
ゲーム用途については、ユーザーのアクション(たとえばボタン・トリガー)がゲーム・プレイに影響を与えることができる場合、全体的なシステム・レイテンシーはいまだ20msec未満である必要があり、このことは、複雑なアップミックス動作の実行を妨げることがありうる。結果として、Bフォーマットのような柔軟なフォーマットが、低レイテンシーの可逆または不可逆コーデックを使ったレンダリング/伝送のための最良の候補でありうる。受信端でも低レイテンシーでレンダリングおよび回転されることができるからである。
【0095】
さまざまなオーディオ・コーデックが、上述のデータ伝送モードを組み込むことができる。コーデックは、次のことのために適応されてもよい:(i)無損失符号化(ゼロ・レイテンシー符号化)されたステレオ・オーディオ・データまたは低レイテンシーの損失のあるデータを送信する可能性;(ii)「通常の」レンダリング(たとえば、デバイスにおけるバイノーラル化)がオフにされる必要がある場合、コンテンツがすでにプリレンダリングされていることを信号伝達する手段(たとえば、ビットストリーム・シンタックス・フィールド;Dolby AC-4およびMPEG-H Part 3, 3Dオーディオは、すでにそのようなビットフィールドを含んでいる;たとえばDolby AC-4におけるb_pre_virtualized);(iii)必要であればHRTFおよびBRIRを送信する手段。
【0096】
このように、本開示のコンテキストにおいて、送信器は、受信器に、プリレンダリングされたオーディオ・コンテンツを提供するという指示(たとえば、フラグ、ビットフィールド、シンタックス・フィールド/要素、パラメータ)をも提供してもよい。そのような指示が受信器によって受信される場合、受信器は、オーディオ・コンテンツの(受信器側の)レンダリングを一切差し控えることができる。たとえば、バイノーラルのプリレンダリングされたオーディオ・コンテンツについては、受信器は、送信器から受信されたプリレンダリングされたオーディオ・コンテンツを、それ以上レンダリングすることなく、再現のためにヘッドフォン(のスピーカー)に直接ルーティングしてもよい。そのような指示は、ビットストリーム内で受信器に信号伝達されるパラメータdirectHeadphoneの形であってもよい。directHeadphoneパラメータは、バイノーラル出力がレンダリングされる場合に、(type)チャネルの対応する信号グループが、直接ヘッドフォン出力に行くことを定義することができる。信号は、左右のヘッドフォン・チャネルにルーティングされてもよい。
【0097】
このパラメータについてのシンタックスの可能な例が表4に再現される。
【表4】
【0098】
意味内容は、MPEG-H 3D Audio (ISO/IEC 23008-3)および/またはMPEG規格の将来のバージョンに従って定義されうる。
いくつかの態様を記載しておく。
〔態様1〕
第一の装置による再現のためにメディア・コンテンツを処理する方法であって:
ユーザーの位置および/または向きを示す姿勢情報を取得する段階と;
前記メディア・コンテンツを提供する第二の装置に前記姿勢情報を送信する段階と;
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得る段階と;
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信する段階とを含む、
方法。
〔態様2〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様1記載の方法。
〔態様3〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成することを含む、
態様1記載の方法。
〔態様4〕
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様2記載の方法。
〔態様5〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様2記載の方法。
〔態様6〕
前記レンダリングは:
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と;
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得する段階とを含む、
態様1記載の方法。
〔態様7〕
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階をさらに含む、
態様6記載の方法。
〔態様8〕
前記予測姿勢情報を実際の姿勢情報と比較する段階と;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
態様7記載の方法。
〔態様9〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
態様8記載の方法。
〔態様10〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、態様1記載の方法。
〔態様11〕
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードし、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードすることをさらに含む、
態様1記載の方法。
〔態様12〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様9記載の方法。
〔態様13〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、態様6記載の方法。
〔態様14〕
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階と;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
態様1記載の方法。
〔態様15〕
前記第二の装置において、前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定する段階と;
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階と;
前記第一の装置において、前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階とをさらに含む、
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
態様1記載の方法。
〔態様16〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様1記載の方法。
〔態様17〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様1記載の方法。
〔態様18〕
メディア・コンテンツを再現するための第一の装置と、前記メディア・コンテンツを記憶する第二の装置とを有するシステムであって、
前記第一の装置は:
・ユーザーの位置および/または向きを示す姿勢情報を取得し;
・前記姿勢情報を前記第二の装置に送信するよう適応されており;
前記第二の装置は:
・前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て;
・前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
システム。
〔態様19〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様18記載のシステム。
〔態様20〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
態様18記載のシステム。
〔態様21〕
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様19記載のシステム。
〔態様22〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様19記載のシステム。
〔態様23〕
前記第二の装置はさらに:
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し;
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
態様18記載のシステム。
〔態様24〕
前記第二の装置がさらに:
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
態様23記載のシステム。
〔態様25〕
前記第一の装置がさらに:
前記予測姿勢情報を実際の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様24記載のシステム。
〔態様26〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
態様25記載のシステム。
〔態様27〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、態様18記載のシステム。
〔態様28〕
前記第二の装置がさらに、前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするよう適応されており、
前記第一の装置がさらに、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、
態様18記載のシステム。
〔態様29〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様26記載のシステム。
〔態様30〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、態様23記載のシステム。
〔態様31〕
前記第一の装置がさらに:
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
態様18記載のシステム。
〔態様32〕
前記第二の装置がさらに:
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し;
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されており;
前記第一の装置がさらに:
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
態様18記載のシステム。
〔態様33〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様18記載のシステム。
〔態様34〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様18記載のシステム。
〔態様35〕
第一の装置による再現のためにメディア・コンテンツを提供する第二の装置であって:
前記第一の装置のユーザーの位置および/または向きを示す姿勢情報を受信し;
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て;
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
第二の装置。
〔態様36〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様35記載の第二の装置。
〔態様37〕
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様36記載の第二の装置。
〔態様38〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様36記載の第二の装置。
〔態様39〕
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し;
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
態様35記載の第二の装置。
〔態様40〕
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
態様39記載の第二の装置。
〔態様41〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、態様39記載の第二の装置。
〔態様42〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、態様35記載の第二の装置。
〔態様43〕
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするようさらに適応されている、態様35記載の第二の装置。
〔態様44〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様41記載の第二の装置。
〔態様45〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、態様39記載の第二の装置。
〔態様46〕
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し;
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するようさらに適応されている、
態様35記載の第二の装置。
〔態様47〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様35記載の第二の装置。
〔態様48〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様35記載の第二の装置。
〔態様49〕
第二の装置によって提供されるメディア・コンテンツを再現する第一の装置であって:
前記第一の装置のユーザーの位置および/または向きを示す姿勢情報を取得する段階と;
前記姿勢情報を前記第二の装置に送信する段階と;
前記第二の装置からレンダリングされたメディア・コンテンツを受信する段階であって、前記レンダリングされたメディア・コンテンツは、前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングすることによって得られたものである、段階と;
前記レンダリングされたメディア・コンテンツを再現する段階とを実行するよう適応されている、
第一の装置。
〔態様50〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
態様49記載の第一の装置。
〔態様51〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
態様49記載の第一の装置。
〔態様52〕
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様50記載の第一の装置。
〔態様53〕
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、態様50記載の第一の装置。
〔態様54〕
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し;
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を実際の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様49記載の第一の装置。
〔態様55〕
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために処理される時点で得られる姿勢情報である、態様54記載の第一の装置。
〔態様56〕
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し;
前記予測姿勢情報を前記第二の装置に送信するようさらに適応されている、
態様49記載の第一の装置。
〔態様57〕
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、態様56記載の第一の装置。
〔態様58〕
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第二の装置から受信される、態様49記載の第一の装置。
〔態様59〕
前記第一の装置がさらに、エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、態様49記載の第一の装置。
〔態様60〕
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、態様57記載の第一の装置。
〔態様61〕
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様49記載の第一の装置。
〔態様62〕
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を、前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し;
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
態様49記載の第一の装置。
〔態様63〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
態様49記載の第一の装置。
〔態様64〕
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
態様49記載の第一の装置。
【0099】
本開示のさらなる例示的実施形態は、以下に列挙される箇条書き実施例(EEE: Enumerated Example Embodiment)に要約される。
【0100】
EEE1は、
第一の装置による再現のためにメディア・コンテンツを処理する方法であって:
ユーザーの位置および/または向きを示す姿勢情報を取得する段階と;
前記メディア・コンテンツを提供する第二の装置に前記姿勢情報を送信する段階と;
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得る段階と;
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信する段階とを含む、
方法に関する。
EEE2は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
EEE1記載の方法に関する。
EEE3は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、当該方法はさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成することを含む、
EEE1記載の方法に関する。
EEE4は、
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE2記載の方法に関する。
EEE5は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE2または3記載の方法に関する。
EEE6は、
前記レンダリングは:
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得する段階と;
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得する段階とを含む、
EEE1ないし5のうちいずれか一項記載の方法に関する。
EEE7は、
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階をさらに含む、
EEE6記載の方法に関する。
EEE8は、
前記予測姿勢情報を実際の姿勢情報と比較する段階と;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
EEE7記載の方法に関する。
EEE9は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
EEE8記載の方法に関する。
EEE10は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、EEE1ないし9のうちいずれか一項記載の方法に関する。
EEE11は、
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードし、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードすることをさらに含む、
EEE1ないし10のうちいずれか一項記載の方法に関する。
EEE12は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、EEE9またはEEE9の事項を含む任意のEEEに記載の方法に関する。
EEE13は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、EEE6またはEEE6の事項を含む任意のEEEに記載の方法に関する。
EEE14は、
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階と;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
EEE1ないし13のうちいずれか一項記載の方法に関する。
EEE15は、
前記第二の装置において、前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定する段階と;
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信する段階と;
前記第一の装置において、前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較する段階とをさらに含む、
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新する段階とをさらに含む、
EEE1ないし14のうちいずれか一項記載の方法に関する。
EEE16は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
EEE1ないし15のうちいずれか一項記載の方法に関する。
EEE17は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
当該方法はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信する段階を含み、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
EEE1ないし16のうちいずれか一項記載の方法に関する。
EEE18は、
メディア・コンテンツを再現するための第一の装置と、前記メディア・コンテンツを記憶する第二の装置とを有するシステムであって、
前記第一の装置は:
・ユーザーの位置および/または向きを示す姿勢情報を取得し;
・前記姿勢情報を前記第二の装置に送信するよう適応されており;
前記第二の装置は:
・前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て;
・前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
システムに関する。
EEE19は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
EEE18記載のシステムに関する。
EEE20は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
EEE18記載のシステムに関する。
EEE21は、
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE19記載のシステムに関する。
EEE22は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE19ないし21のうちいずれか一項記載のシステムに関する。
EEE23は、
前記第二の装置はさらに:
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し;
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
EEE18ないし22のうちいずれか一項記載のシステムに関する。
EEE24は、
前記第二の装置がさらに:
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
EEE23記載のシステムに関する。
EEE25は、
前記第一の装置がさらに:
前記予測姿勢情報を実際の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
EEE24記載のシステムに関する。
EEE26は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測され、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために実際に処理される時点で得られる姿勢情報である、
EEE25記載のシステムに関する。
EEE27は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、EEE18ないし26のうちいずれか一項記載のシステムに関する。
EEE28は、
前記第二の装置がさらに、前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするよう適応されており、
前記第一の装置がさらに、前記第一の装置における受信後に、前記エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、
EEE18ないし27のうちいずれか一項の記載のシステムに関する。
EEE29は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、EEE26またはEEE26の事項を含む任意のEEEに記載のシステムに関する。
EEE30は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、EEE23またはEEE23の事項を含む任意のEEEに記載のシステムに関する。
EEE31は、
前記第一の装置がさらに:
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
EEE18ないし30のうちいずれか一項記載のシステムに関する。
EEE32は、
前記第二の装置がさらに:
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し;
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されており;
前記第一の装置がさらに:
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するよう適応されている、
EEE18ないし31のうちいずれか一項記載のシステムに関する。
EEE33は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
EEE18ないし32のうちいずれか一項記載のシステムに関する。
EEE34は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
EEE18ないし33のうちいずれか一項記載のシステムに関する。
EEE35は、
第一の装置による再現のためにメディア・コンテンツを提供する第二の装置であって:
前記第一の装置のユーザーの位置および/または向きを示す姿勢情報を受信し;
前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、レンダリングされたメディア・コンテンツを得て;
前記レンダリングされたメディア・コンテンツを再現のために前記第一の装置に送信するよう適応されている、
第二の装置に関する。
EEE36は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
EEE35記載の第二の装置に関する。
EEE37は、
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE36記載の第二の装置に関する。
EEE38は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE36記載の第二の装置に関する。
EEE39は、
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し;
前記予測姿勢情報に基づいて前記メディア・コンテンツをレンダリングして、前記レンダリングされたメディア・コンテンツを取得するよう適応されている、
EEE35ないし38のうちいずれか一項記載の第二の装置に関する。
EEE40は、
前記予測姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するよう適応されている、
EEE39記載の第二の装置に関する。
EEE41は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、EEE39または40記載の第二の装置に関する。
EEE42は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第一の装置に送信される、EEE35ないし41のうちいずれか一項記載の第二の装置に関する。
EEE43は、
前記第一の装置への送信の前に前記レンダリングされたメディア・コンテンツをエンコードするようさらに適応されている、EEE35ないし42のうちいずれか一項記載の第二の装置に関する。
EEE44は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、EEE41またはEEE41の事項を含む任意のEEEに記載の第二の装置に関する。
EEE45は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値にさらに基づいて得られる、EEE39またはEEE39の事項を含む任意のEEEに記載の第二の装置に関する。
EEE46は、
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を決定し;
前記勾配情報を前記レンダリングされたメディア・コンテンツと一緒に前記第一の装置に送信するようさらに適応されている、
EEE35ないし45のうちいずれか一項記載の第二の装置に関する。
EEE47は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
EEE35ないし46のうちいずれか一項記載の第二の装置に関する。
EEE48は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第二の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第一の装置から受信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
EEE35記載の第二の装置に関する。
EEE49は、
第二の装置によって提供されるメディア・コンテンツを再現する第一の装置であって:
前記第一の装置のユーザーの位置および/または向きを示す姿勢情報を取得する段階と;
前記姿勢情報を前記第二の装置に送信する段階と;
前記第二の装置からレンダリングされたメディア・コンテンツを受信する段階であって、前記レンダリングされたメディア・コンテンツは、前記姿勢情報に基づいて前記メディア・コンテンツをレンダリングすることによって得られたものである、段階と;
前記レンダリングされたメディア・コンテンツを再現する段階とを実行するよう適応されている、
第一の装置に関する。
EEE50は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含む;および/または
前記メディア・コンテンツがビデオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたビデオ・コンテンツを含む、
EEE49記載の第一の装置に関する。
EEE51は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置がさらに、前記レンダリングされたオーディオ・コンテンツの可聴表現を生成するよう適応されている、
EEE49記載の第一の装置に関する。
EEE52は、
前記オーディオ・コンテンツが、一次アンビソニックス(FOA)ベース、高次アンビソニックス(HOA)ベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツまたはFOAベース、HOAベース、オブジェクト・ベースもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE50または51記載の第一の装置に関する。
EEE53は、
前記レンダリングされたオーディオ・コンテンツは、バイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツまたはバイノーラル・オーディオ・コンテンツ、FOAオーディオ・コンテンツ、HOAオーディオ・コンテンツもしくはチャネル・ベースのオーディオ・コンテンツの二つ以上の組み合わせのうちの一つである、EEE50ないし52のうちいずれか一項記載の第一の装置に関する。
EEE54は、
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し;
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を実際の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
EEE49ないし53のうちいずれか一項記載の第一の装置に関する。
EEE55は、
前記実際の姿勢情報は、前記レンダリングされたメディア・コンテンツが前記第一の装置によって再現のために処理される時点で得られる姿勢情報である、EEE54記載の第一の装置に関する。
EEE56は、
前記姿勢情報および以前の姿勢情報に基づいて、予測姿勢情報を取得し;
前記予測姿勢情報を前記第二の装置に送信するようさらに適応されている、
EEE49ないし55のうちいずれか一項記載の第一の装置に関する。
EEE57は、
前記予測姿勢情報は、前記レンダリングされたメディア・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の推定値について予測される、EEE56記載の第一の装置に関する。
EEE58は、
前記レンダリングされたメディア・コンテンツは、圧縮されていない形で前記第二の装置から受信される、EEE49ないし57のうちいずれか一項記載の第一の装置に関する。
EEE59は、
前記第一の装置がさらに、エンコードされたレンダリングされたメディア・コンテンツをデコードするよう適応されている、EEE49ないし58のうちいずれか一項記載の第一の装置に関する。
EEE60は、
前記レンダリングされたオーディオ・コンテンツが再現のために前記第一の装置によって処理されることが期待される時点の前記推定値は、前記レンダリングされたオーディオ・コンテンツをエンコードおよびデコードするために必要な時間の推定値、および/または前記レンダリングされたメディア・コンテンツを前記第一の装置に送信するために必要な時間の推定値を含む、EEE57またはEEE57の事項を含む任意のEEEに記載の第一の装置に関する。
EEE61は、
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
EEE49ないし60のうちいずれか一項記載の第一の装置に関する。
EEE62は、
前記姿勢情報の変化に応じて前記レンダリングされたメディア・コンテンツがどのように変化するかを示す勾配情報を、前記レンダリングされたメディア・コンテンツと一緒に前記第二の装置から受信し;
前記メディア・コンテンツをレンダリングするために使用された姿勢情報を現在の姿勢情報と比較し;
前記勾配情報および前記比較の結果に基づいて前記レンダリングされたメディア・コンテンツを更新するようさらに適応されている、
EEE49ないし61のうちいずれか一項記載の第一の装置に関する。
EEE63は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、前記第一の装置が位置する環境の音響特性を示す環境情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記環境情報に基づく、
EEE49ないし62のうちいずれか一項記載の第一の装置に関する。
EEE64は、
前記メディア・コンテンツがオーディオ・コンテンツを含み、前記レンダリングされたメディア・コンテンツがレンダリングされたオーディオ・コンテンツを含み、
前記第一の装置はさらに、ユーザーまたはユーザーの一部の形態を示す形態学的情報を前記第二の装置に送信するよう適応されており、
前記メディア・コンテンツのレンダリングは、さらに前記形態学的情報に基づく、
EEE49ないし63のうちいずれか一項記載の第一の装置に関する。
EEE65は、オーディオ・コンテンツをレンダリングする方法に関する。当該方法は、送信器(S)装置によって、ユーザー位置および/または配向データを受信し、典型的には、オブジェクト-5ベースまたはHOA表現から導出された、対応するプレレンダリングされたコンテンツを送信することを含む。
EEE66は、EEE65記載の方法であって、送信器によって生成されたプリレンダリング信号が、バイノーラル、FOA/Bフォーマット、HOA、または任意の型のチャネル・ベースのレンダリングでありうる、方法に関する。
EEE67は、EEE65または66記載の方法であって、さらに、非圧縮のプリレンダリングされたコンテンツを送信することを含む、方法に関する。
EEE68は、EEE65または66記載の方法であって、さらに、前記プレレンダリングされたコンテンツをエンコードし、エンコードされたプレレンダリングされたコンテンツを送信することを含む、方法に関する。
EEE69は、EEE65ないし68のうちいずれか一項記載の方法であって、さらに、受信器によって前記プリレンダリングされたコンテンツを受信することを含む、方法に関する。
EEE70は、EEE65ないし69のうちいずれか一項記載の方法であって、さらに、受信器によって前記プリレンダリングされ、プリエンコードされたバイノーラル化されたコンテンツをデコードすることを含む、方法に関する。
EEE71は、EEE65ないし70のうちいずれか一項記載の方法であって、ユーザー位置および/または配向データが、世界空間におけるユーザーの位置および配向を示すローカルな姿勢を含む、方法に関する。
EEE72は、EEE65ないし71のうちいずれか一項記載の方法であって、ユーザー位置データが受信器から送信器に送信される、方法に関する。
EEE73は、EEE65ないし72のうちいずれか一項記載の方法であって、さらに、前記プリレンダリングされたバイノーラル化されたコンテンツのために使用されたユーザー位置データを受信器に送り返すことを含む、方法に関する。
EEE74は、EEE65ないし73のうちいずれか一項記載の方法であって、さらに、受信されたユーザー位置データおよびローカルな位置データに基づいて、前記プリレンダリングされたコンテンツを外挿して、更新されたコンテンツを決定することを含む、方法に関する。
EEE75は、EEE65ないし74のうちいずれか一項記載の方法であって、さらに、個別化されたバイノーラル処理のために、ユーザーについての形態学的データ(たとえば、頭のサイズ、頭の形状)を送信することを含む、方法に関する。
EEE76は、EEE65ないし75のうちいずれか一項記載の方法であって、さらに、BRIR関数および/または部屋の特徴付けについてのデータを送信することを含む、方法に関する。
EEE77は、EEE65ないし76のうちいずれか一項記載の方法であって、さらに、コンテンツが聴取者に関知しない仕方(たとえば、HRTFを含まない)で送信されるという判別に基づいて、受信側でバイノーラル・レンダリングおよび個別化が実行されることを含む、方法に関する。
EEE78は、EEE65ないし77のうちいずれか一項記載の方法であって、さらに、時点t1において、ユーザー位置および/または配向データP(t0)を提供することを含む、方法に関する。
EEE79は、EEE67の方法であって、圧縮されていないプリレンダリングされたコンテンツは、バイノーラル化された圧縮されていないプリレンダリングされたコンテンツである、方法に関する。