(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-22
(45)【発行日】2023-10-02
(54)【発明の名称】仮想現実環境における聴取位置間のグローバル遷移を扱う方法およびシステム
(51)【国際特許分類】
H04S 7/00 20060101AFI20230925BHJP
【FI】
H04S7/00 330
(21)【出願番号】P 2020530489
(86)(22)【出願日】2018-12-18
(86)【国際出願番号】 EP2018085641
(87)【国際公開番号】W WO2019121775
(87)【国際公開日】2019-06-27
【審査請求日】2021-12-10
(32)【優先日】2017-12-18
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2017-12-18
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】テレンティフ,レオン
(72)【発明者】
【氏名】フェルシュ,クリストフ
(72)【発明者】
【氏名】フィッシャー,ダニエル
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特開2014-222306(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01
G06F 3/048-3/04895
H04R 3/00- 3/14
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
3DoFレンダラー(162)を使って仮想現実レンダリング環境(180)においてオーディオをレンダリングする方法(900)であって、前記仮想現実レンダリング環境(180)は起点オーディオ・シーン(111)および異なる終点オーディオ・シーン(112)を含む複数の異なるオーディオ・シーン(111、112)に細分されており、当該方法は、
・前記3DoFレンダラーによって、前記起点オーディオ・シーン(111)の起点オーディオ源(113)の起点オーディオ信号を、仮想現実レンダリング環境(180)内の聴取者(181)の起点聴取位置(201)のまわりの球(114)上の起点源位置からレンダリングする段階(901)と;
・聴取者(181)が仮想現実レンダリング環境(180)内で起点オーディオ・シーン(111)内の前記起点聴取位置(201)から前記終点オーディオ・シーン(112)内の終点聴取位置(202)に移動することを判別する段階(902)と;
・聴取者(181)が起点オーディオ・シーン(111)内の前記起点聴取位置(201)から終点オーディオ・シーン(112)内の終点聴取位置(202)に移動することを判別するのに応答して、起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定する段階(903)と;
・前記3DoFレンダラーによって、起点オーディオ源(113)の修正された起点オーディオ信号を、前記起点聴取位置(201)のまわりの球(114)上の起点源位置からレンダリングする段階(904)とを含み、
当該方法がさらに、
・前記終点オーディオ・シーン(112)の終点オーディオ源(113)の終点オーディオ信号を決定し;
・前記終点聴取位置(202)のまわりの球(114)上の終点源位置を決定し;
・前記終点オーディオ信号にフェードイン利得を適用して、修正された終点オーディオ信号を決定し;
・前記3DoFレンダラーによって、前記終点オーディオ源(113)の前記修正された終点オーディオ信号を、前記終点聴取位置(202)のまわりの球(114)上の前記終点源位置からレンダリングすることを含み、
前記終点オーディオ・シーン(112)は前記起点オーディオ源(113)を含まず、前記起点オーディオ・シーン(111)は前記終点オーディオ源(113)を含まない、
方法。
【請求項2】
起点オーディオ・シーン(111)内の前記起点聴取位置(201)から終点オーディオ・シーン(112)内の前記終点聴取位置(202)への移動の間じゅう、前記修正された起点オーディオ信号は、聴取者に対して同じ位置からレンダリングされる、請求項1記載の方法。
【請求項3】
当該方法が:
・遷移時間区間の間に聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することを判別する段階と;
・前記遷移時間区間内の中間時点(213)を決定する段階と;
・前記遷移時間区間内における前記中間時点(213)の相対位置に基づいて前記フェードアウト利得を決定する段階とを含み、
任意的に、
・前記遷移時間区間内の複数の中間時点のそれぞれについてそれぞれのフェードアウト利得が、前記遷移
時間区間内における前記それぞれの中間時点の相対位置に基づいて決定され;
・前記それぞれの決定されたフェードアウト利得が前記起点オーディオ信号に適用されて、前記遷移時間区間内の前記複数の中間時点のそれぞれについて、それぞれの修正された起点オーディオ信号を決定し、
任意的に、
・当該方法が、前記遷移時間区間内の種々の中間時点(213)における前記フェードアウト利得を示すフェードアウト関数(211)を提供することを含み、
・前記フェードアウト関数(211)は、前記フェードアウト利得が、進行する中間時点(213)とともに減少するようなものであり、
任意的に、
前記フェードアウト関数(211)は、
・前記起点オーディオ信号が前記遷移時間区間の始めにおいて修正されないままである;および/または
・前記起点オーディオ信号が、進行する中間時点(213)においてますます減衰される;およびまたは
・前記起点オーディオ信号が前記遷移時間区間の終わりにおいて完全に減衰される、
ようなものである、
請求項1または2記載の方法。
【請求項4】
当該方法が、
・聴取者(181)が前記仮想現実レンダリング環境(180)内で起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記起点聴取位置(201)のまわりの球(114)上の起点オーディオ源(113)の起点源位置を維持すること;および/または
・聴取者(181)が前記仮想現実レンダリング環境(180)内で起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記起点聴取位置(201)を不変に維持することを含む、
請求項1ないし3のうちいずれか一項記載の方法。
【請求項5】
起点オーディオ・シーン(111)内の前
記起
点聴取位置(201)から終点オーディオ・シーン(112)内の終点聴取位置(202)への移動の間じゅう、前記修正された終点オーディオ信号は、聴取者に対して同じ位置からレンダリングされる、請求項1ないし4のうちいずれか一項記載の方法。
【請求項6】
当該方法が:
・遷移時間区間の間に聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することを判別する段階と;
・前記遷移時間区間内の中間時点(213)を決定する段階と;
・前記遷移時間区間内における前記中間時点(213)の相対位置に基づいて前記フェードイン利得を決定する段階とを含み、
任意的に、
・前記遷移時間区間内の複数の中間時点のそれぞれについてそれぞれのフェードイン利得が、前記遷移
時間区間内における前記それぞれの中間時点の相対位置に基づいて決定され;
・前記それぞれの決定されたフェードイン利得が前記
終点オーディオ信号に適用されて、前記遷移時間区間内の前記複数の中間時点のそれぞれについて、それぞれの修正された終点オーディオ信号を決定し、
任意的に、
・当該方法が、前記遷移時間区間内の種々の中間時点(213)における前記フェードイン利得を示すフェードイン関数(212)を提供することを含み、
・前記フェードイン関数(212)は、前記フェードイン利得が、進行する中間時点(213)とともに増大するようなものであり、
任意的に、
前記フェードイン関数(211)は、
・前記終点オーディオ信号が前記遷移時間区間の終わりにおいて修正されないままである;および/または
・前記終点オーディオ信号が、進行する中間時点(213)においてますます減衰が少なくなる;およびまたは
・前記終点オーディオ信号が前記遷移時間区間の始まりにおいて完全に減衰される、
ようなものである、
請求項1ないし5のうちいずれか一項記載の方法。
【請求項7】
当該方法が、
・聴取者(181)が前記仮想現実レンダリング環境(180)内で起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記終点聴取位置(202)のまわりの球(114)上の終点オーディオ源(113)の終点源位置を維持すること;および/または
・聴取者(181)が前記仮想現実レンダリング環境(180)内で起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記終点聴取位置(202)を不変に維持することを含む、
請求項1ないし6のうちいずれか一項記載の方法。
【請求項8】
前記フェードアウト関数(211)および前記フェードイン関数(212)が組み合わさって、複数の異なる中間時点(213)について一定の利得を与える、または
前記フェードアウト関数(211)および/または前記フェードイン関数(212)が、
・前記起点オーディオ信号および/または前記終点オーディオ信号を示すビットストリーム(140)から導出される;および/または
・仮想現実レンダリング環境(180)内で前記起点オーディオ信号および/または前記終点オーディオ信号をレンダリングするよう構成された仮想現実オーディオ・レンダラー(160)の記憶ユニットから導出される、
請求項6が請求項3を引用する場合の請求項6記載の方法。
【請求項9】
当該方法が、聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することの指標を受領することを含み、
任意的に、前記指標がフラグを含む、
請求項1ないし8のうちいずれか一項記載の方法。
【請求項10】
当該方法が、聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することの指標をエンコーダ(130)に送ることを含み;前記エンコーダ(130)が、前記起点オーディオ信号を示すビットストリーム(140)を生成するよう構成される、請求項1ないし9のうちいずれか一項記載の方法。
【請求項11】
第一のオーディオ信号が3Dオーディオ・レンダラー(162)、特にMPEG-Hオーディオ・レンダラーを使ってレンダリングされる、請求項1ないし10のうちいずれか一項記載の方法。
【請求項12】
当該方法が、
・対応する複数の起点オーディオ源(113)の複数の起点オーディオ信号を、前記
起点聴取位置または前記終点聴取位置(201、202)のまわりの球(114)上の複数の異なる起点源位置からレンダリングし;
・前記フェードアウト利得を前記複数の起点オーディオ信号に適用して、複数の修正された起点オーディオ信号を決定し;
・前記起点オーディオ源(113)の前記複数の修正された起点オーディオ信号を、前記
起点聴取位置または前記終点聴取位置(201、202)のまわりの球(114)上の前記対応する複数の起点源位置からレンダリングすることを含む、
請求項1ないし11のうちいずれか一項記載の方法。
【請求項13】
当該方法が、
・前記終点オーディオ・シーン(112)の対応する複数の終点オーディオ源(113)の複数の終点オーディオ信号を決定し;
・前記終点聴取位置(202)のまわりの球(114)上の複数の終点源位置を決定し;
・前記フェードイン利得を前記複数の終点オーディオ信号に適用して、対応する複数の修正された終点オーディオ信号を決定し;
・前記複数の終点オーディオ源(113)の前記複数の修正された終点オーディオ信号を、前記終点聴取位置(202)のまわりの球(114)上の前記対応する複数の終点源位置からレンダリングすることを含む、
請求項1ないし12のうちいずれか一項記載の方法。
【請求項14】
前記起点オーディオ信号が複数の起点オーディオ源(113)のオーディオ信号の重なりである、請求項1ないし13のうちいずれか一項記載の方法。
【請求項15】
3DoFレンダラー(162)を有する、仮想現実レンダリング環境(180)においてオーディオをレンダリングするための仮想現実オーディオ・レンダラー(160)であって、前記仮想現実レンダリング環境(180)は起点オーディオ・シーン(111)および異なる終点オーディオ・シーン(112)を含む複数の異なるオーディオ・シーン(111、112)に細分されており、当該仮想現実オーディオ・レンダラー(160)は、
・前記3DoFレンダラーによって、前記起点オーディオ・シーン(111)の起点オーディオ源(113)の起点オーディオ信号を、仮想現実レンダリング環境(180)内の聴取者(181)の起点聴取位置(201)のまわりの球(114)上の起点源位置からレンダリングし;
・聴取者(181)が仮想現実レンダリング環境(180)内で起点オーディオ・シーン(111)内の前記起点聴取位置(201)から前記終点オーディオ・シーン(112)内の終点聴取位置(202)に移動することを判別し;
・聴取者(181)が起点オーディオ・シーン(111)内の前記起点聴取位置(201)から終点オーディオ・シーン(112)内の終点聴取位置(202)に移動することを判別するのに応答して、前記起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定し;
・前記3DoFレンダラーによって、前記起点オーディオ源(113)の前記修正された起点オーディオ信号を、前記起点聴取位置(201)のまわりの球(114)上の起点源位置からレンダリングするよう構成されており、
当該仮想現実オーディオ・レンダラー(160)はさらに、
・前記終点オーディオ・シーン(112)の終点オーディオ源(113)の終点オーディオ信号を決定し;
・前記終点聴取位置(202)のまわりの球(114)上の終点源位置を決定し;
・前記終点オーディオ信号にフェードイン利得を適用して、修正された終点オーディオ信号を決定し;
・前記3DoFレンダラーによって、前記終点オーディオ源(113)の前記修正された終点オーディオ信号を、前記終点聴取位置(202)のまわりの球(114)上の前記終点源位置からレンダリングするよう構成されている、
仮想現実オーディオ・レンダラー。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2017年12月18日に出願された米国仮出願第62/599,841号(整理番号D17085USP1)、2017年12月18日に出願された欧州出願第17208088.9号(整理番号D17085EP)という基礎出願の優先権を主張するものである。これらの出願の内容はここに参照によって組み込まれる。
【0002】
技術分野
本稿は、仮想現実(VR)レンダリング環境における聴覚ビューポートおよび/または聴取位置の間の遷移を効率的かつ一貫した仕方で扱うことに関する。
【背景技術】
【0003】
仮想現実(VR)、拡張現実(AR)および混合現実(MR)アプリケーションは、異なる視点/観点または聴取位置から享受できる音源およびシーンのますます洗練された音響モデルを含むよう、急速に発達しつつある。柔軟なオーディオ表現の二つの異なるクラスがたとえばVRアプリケーションのために用いられることがある:音場表現およびオブジェクト・ベースの表現である。音場表現は聴取位置に入射する波面をエンコードする物理ベースの手法である。たとえば、Bフォーマットまたは高次アンビソニックス(HOA)のような手法は球面調和関数分解を使って空間的な波面を表現する。オブジェクト・ベースの手法は複雑な聴覚シーンを、オーディオ波形もしくはオーディオ信号と可能性としては時間変化する関連するパラメータもしくはメタデータとを含む単独要素の集合として表現する。
【0004】
VR、ARおよびMRアプリケーションを享受することは、ユーザーが異なる聴覚的な視点または観点を経験することを含みうる。たとえば、部屋ベースの仮想現実は、6つの自由度(DoF)を使う機構に基づいて提供されてもよい。
図1は、並進移動(前後、上下および左右)および回転移動(ピッチ、ヨー、ロール)を示す6 DoF相互作用の例を示している。頭の回転に制限される3 DoFの球状ビデオ経験とは異なり、6 DoF相互作用のために作成されたコンテンツは、頭の回転に加えて、仮想環境内のナビゲーション(たとえば室内を物理的に歩くこと)をも許容する。これは、位置追跡器(たとえばカメラ・ベースのもの)および配向追跡器(たとえばジャイロスコープおよび/または加速度計)に基づいて達成できる。6 DoF追跡技術は、ハイエンドのモバイルVRプラットフォーム(たとえばグーグル・タンゴ)のほかハイエンドのモバイルVRプラットフォーム(たとえばプレイステーション(登録商標)VR、Oculus Rift、HTC Vive)上で利用可能でありうる。音源またはオーディオ源の方向性および空間的広がりのユーザーによる経験は、6 DoF経験、特にシーン内の、仮想オーディオ源のまわりのナビゲーションの経験のリアルさにとって決定的に重要である。
【0005】
利用可能なオーディオ・レンダリング・システム(たとえばMPEG-H 3Dレンダラー)は典型的には3 DoF(すなわち、聴取者の頭部の動きによって引き起こされるオーディオ・シーンの回転移動)のレンダリングに制限される。聴取者の聴取位置の並進的な変化および関連するDoFは典型的には、そのようなレンダラーによっては扱うことができない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本稿は、オーディオ・レンダリングのコンテキストにおいて並進移動を扱うための資源効率のよい方法およびシステムを提供するという技術的課題に向けられる。
【課題を解決するための手段】
【0007】
ある側面によれば、仮想現実レンダリング環境においてオーディオをレンダリングする方法が記述される。本方法は、起点オーディオ・シーンの起点オーディオ源の起点オーディオ信号を、聴取者の聴取位置のまわりの球上の起点源位置からレンダリングすることを含む。さらに、本方法は、聴取者が起点オーディオ・シーン内の前記聴取位置から異なる終点オーディオ・シーン内の聴取位置に移動することを判別することを含む。加えて、本方法は、起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定することを含む。本方法はさらに、起点オーディオ源の修正された起点オーディオ信号を、聴取位置のまわりの球上の起点源位置からレンダリングすることを含む。
【0008】
あるさらなる側面によれば、仮想現実レンダリング環境においてオーディオをレンダリングするための仮想現実オーディオ・レンダラーが記述される。本仮想現実オーディオ・レンダラーは、起点オーディオ・シーンの起点オーディオ源の起点オーディオ信号を、聴取者の聴取位置のまわりの球上の起点源位置からレンダリングするよう構成される。加えて、仮想現実オーディオ・レンダラーは、聴取者が起点オーディオ・シーン内の前記聴取位置から異なる終点オーディオ・シーン内の聴取位置に移動することを判別するよう構成される。さらに、本仮想現実オーディオ・レンダラーは、前記起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定し、前記起点オーディオ源の前記修正された起点オーディオ信号を、前記聴取位置のまわりの球上の起点源位置からレンダリングするよう構成されている。
【0009】
あるさらなる側面によれば、仮想現実レンダリング環境内でレンダリングされるオーディオ信号を示すビットストリームを生成する方法が記述される。本方法は:起点オーディオ・シーンの起点オーディオ源の起点オーディオ信号を決定し;前記起点オーディオ源の起点源位置に関する起点位置データを決定し;前記起点オーディオ信号および前記起点位置データを含むビットストリームを生成し;前記仮想現実レンダリング環境内で聴取者が前記起点オーディオ・シーンから終点オーディオ・シーンに移動することの指標を受領し;前記終点オーディオ・シーンの終点オーディオ源の終点オーディオ信号を決定し;前記終点オーディオ源の終点源位置に関する終点位置データを決定し;前記終点オーディオ信号および前記終点位置データを含むビットストリームを生成することを含む。
【0010】
もう一つの側面によれば、仮想現実レンダリング環境内でレンダリングされるオーディオ信号を示すビットストリームを生成するよう構成されたエンコーダが記述される。本エンコーダは、起点オーディオ・シーンの起点オーディオ源の起点オーディオ信号を決定し;前記起点オーディオ源の起点源位置に関する起点位置データを決定し;前記起点オーディオ信号および前記起点位置データを含むビットストリームを生成し;前記仮想現実レンダリング環境内で聴取者が前記起点オーディオ・シーンから終点オーディオ・シーンに移動することの指標を受領し;前記終点オーディオ・シーンの終点オーディオ源の終点オーディオ信号を決定し;前記終点オーディオ源の終点源位置に関する終点位置データを決定し;前記終点オーディオ信号および前記終点位置データを含むビットストリームを生成するよう構成される。
【0011】
あるさらなる側面によれば、仮想現実レンダリング環境においてオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラーが記述される。本オーディオ・レンダラーは、オーディオ源のオーディオ信号を、仮想現実レンダリング環境内の聴取者の聴取位置のまわりの球上の源位置からレンダリングするよう構成された3Dオーディオ・レンダラーを有する。さらに、本仮想現実オーディオ・レンダラーは、仮想現実レンダリング環境内の聴取者の新たな聴取位置を決定するよう構成された前処理ユニットを有する。さらに、前処理ユニットは、前記オーディオ信号と、前記新たな聴取位置のまわりの球に関する前記オーディオ源の前記源位置とを更新するよう構成される。前記3Dオーディオ・レンダラーは、前記オーディオ源の更新されたオーディオ信号を、前記新たな聴取位置のまわりの球上の更新された源位置からレンダリングするよう構成される。
【0012】
さらなる側面によれば、ソフトウェア・プログラムが記述される。
【0013】
ソフトウェア・プログラムは、プロセッサ上での実行のために適応されてもよく、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されてもよい。
【0014】
もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上での実行のために適応され、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されたソフトウェア・プログラムを有していてもよい。
【0015】
さらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を含んでいてもよい。
【0016】
本特許出願において概説される好ましい実施形態を含む方法およびシステムは、単独で使われてもよく、本稿に開示される他の方法およびシステムとの組み合わせで使われてもよい。さらに、本特許出願において概説される方法およびシステムのすべての側面は任意に組み合わされうる。特に、請求項の特徴は任意の仕方で互いに組み合わされてもよい。
【図面の簡単な説明】
【0017】
本発明は、付属の図面を参照して例示的な仕方で下記で説明される。
【
図1a】6DoFオーディオを提供する例示的なオーディオ処理システムを示す。
【
図1b】6DoFオーディオおよび/またはレンダリング環境内の例示的な状況を示す。
【
図1c】起点オーディオ・シーンから終点オーディオ・シーンへの例示的な遷移を示す。
【
図2】異なるオーディオ・シーンの間の遷移中の空間的オーディオ信号を決定する例示的な方式を示す。
【
図4a】オーディオ・シーン内の聴取位置の変化に反応してのオーディオ源の再マッピングを示す。
【
図5a】非一様な指向性プロファイルをもつオーディオ源を示す。
【
図5b】オーディオ源の例示的な指向性関数を示す。
【
図6】音響的に有意な障害物のある例示的なオーディオ・シーンを示す。
【
図8】オーディオ・シーン内での聴取位置の変化の場合の周囲音オーディオの扱いを示す。
【
図9a】異なるオーディオ・シーンの間の遷移中に3Dオーディオ信号をレンダリングするための例示的な方法のフローチャートを示す。
【
図9b】異なるオーディオ・シーンの間の遷移のためのビットストリームを生成するための例示的な方法のフローチャートを示す。
【
図9c】オーディオ・シーン内の遷移中に3Dオーディオ信号をレンダリングするための例示的な方法のフローチャートを示す。
【
図9d】ローカル遷移についてビットストリームを生成するための例示的な方法のフローチャートを示す。
【発明を実施するための形態】
【0018】
上記で概説したように、本稿は、3D(三次元)オーディオ環境における6DoFの効率的な提供に関する。
図1aは、例示的なオーディオ処理システム100のブロック図を示す。スタジアムのような音響環境110は、さまざまな異なるオーディオ源113を含む。スタジアム内の例示的なオーディオ源113は個々の観客、スタジアム・スピーカー、フィールド上の選手などである。音響環境110は異なるオーディオ・シーン111、112に細分されてもよい。例として、第一のオーディオ・シーン111はホームチーム応援ブロックに対応してもよく、第二のオーディオ・シーン111はゲストチーム応援ブロックに対応してもよい。オーディオ環境内のどこに聴取者が位置しているかに依存して、聴取者は第一のオーディオ・シーン111からのオーディオ源113または第二のオーディオ・シーン112からのオーディオ源を知覚する。
【0019】
オーディオ環境110の異なるオーディオ源113は、オーディオ・センサー120を使って、特にマイクロフォン・アレイを使って捕捉されてもよい。特に、オーディオ環境110の前記一つまたは複数のオーディオ・シーン111、112は、マルチチャネル・オーディオ信号、一つまたは複数のオーディオ・オブジェクトおよび/または高次アンビソニックス(HOA)信号を使って記述されてもよい。以下では、オーディオ源113はオーディオ・センサー120によって捕捉されたオーディオ・データに関連付けられていると想定される。ここで、オーディオ・データは、オーディオ信号と、オーディオ源113の位置とを時間の関数として(特定のサンプリング・レート、たとえば20msで)示す。
【0020】
MPEG-H 3Dオーディオ・レンダラーのような3Dオーディオ・レンダラーは、典型的には、聴取者がオーディオ・シーン111、112内の特定の聴取位置に位置していると想定する。オーディオ・シーン111、112の種々のオーディオ源113についてのオーディオ・データは典型的には、聴取者がこの特定の聴取位置に位置しているという想定のもとに提供される。オーディオ・エンコーダ130は、一つまたは複数のオーディオ・シーン111、112のオーディオ源113のオーディオ・データをエンコードするよう構成された3Dオーディオ・エンコーダ131を有していてもよい。
【0021】
さらに、VR(仮想現実)メタデータが提供されてもよい。これは、聴取者がオーディオ・シーン111、112内で聴取位置を変えることおよび/または異なるオーディオ・シーン111、112の間で移動することを可能にする。エンコーダ130は、VRメタデータをエンコードするよう構成されたメタデータ・エンコーダ132を有していてもよい。エンコードされたVRメタデータおよびオーディオ源113のエンコードされたオーディオ・データは、組み合わせユニット133において組み合わされて、オーディオ・データおよびVRメタデータを示すビットストリーム140を提供してもよい。VRメタデータは、たとえば、オーディオ環境110の音響特性を記述する環境データを含んでいてもよい。
【0022】
ビットストリーム140は、デコーダ150を使ってデコードされて、(デコードされた)オーディオ・データおよび(デコードされた)VRメタデータを与えてもよい。6DoFを許容するレンダリング環境180内のオーディオをレンダリングするためのオーディオ・レンダラー160は、前処理ユニット161および(通常の)3Dオーディオ・レンダラー162(MPEG-H 3Dオーディオのような)を有していてもよい。前処理ユニット161は、聴取環境180内での聴取者181の聴取位置182を決定するよう構成されてもよい。聴取位置182は、聴取者181が位置しているオーディオ・シーン111を示してもよい。さらに、聴取位置182は、オーディオ・シーン111内の厳密な位置を示してもよい。前処理ユニット161はさらに、(デコードされた)オーディオ・データに基づき、可能性としては(デコードされた)VRメタデータに基づいて、現在の聴取位置182のための3Dオーディオ信号を決定するよう構成されてもよい。次いで、3Dオーディオ信号は3Dオーディオ・レンダラー162を使ってレンダリングされてもよい。
【0023】
本稿に記述される概念および方式は、周波数変化する仕方で指定されてもよく、グローバルにまたはオブジェクト/メディア依存の仕方で定義されてもよく、スペクトル領域または時間領域で直接適用されてもよく、および/またはVRレンダラー160にハードコードされてもよく、または対応する入力インターフェースを介して指定されてもよいことを注意しておくべきである。
【0024】
図1bは、例示的なレンダリング環境180を示す。聴取者181は、起点オーディオ・シーン111内に位置されてもよい。レンダリング目的のためには、オーディオ源113、194は、聴取者181のまわりの(単位)球114上の種々のレンダリング位置に配置されていると想定されてもよい。種々のオーディオ源113、194のレンダリング位置は、(所与のサンプリング・レートに従って)時間とともに変化してもよい。VRレンダリング環境180内では種々の状況が生起しうる:聴取者181は起点オーディオ・シーン111から終点オーディオ・シーン112へのグローバル遷移191を実行してもよい。代替的または追加的に、聴取者181は同じオーディオ・シーン111内の異なる聴取位置182へのローカル遷移192を実行してもよい。代替的または追加的に、オーディオ・シーン111は、音響的に有意な環境特性(たとえば壁)を示してもよく、これは環境データ193を使って記述されてもよく、聴取位置182の変化が起こるときに考慮に入れられるべきである。代替的または追加的に、オーディオ・シーン111は、(たとえば背景雑音についての)一つまたは複数の周囲音オーディオ源194を含んでいてもよく、それは聴取位置182の変化が起こるときに考慮に入れられるべきである。
【0025】
図1cは、オーディオ源113A
1ないしA
nをもつ起点オーディオ・シーン111からオーディオ源113B
1ないしB
mをもつ終点オーディオ・シーン112への例示的なグローバル遷移191を示している。特に、各オーディオ源113は、起点オーディオ・シーン111および終点オーディオ・シーン112の一方のみに含まれうる。たとえば、オーディオ源113A
1ないしA
nは起点オーディオ・シーン111に含まれるが、終点オーディオ・シーン112には含まれず、オーディオ源113B
1ないしB
mは終点オーディオ・シーン112に含まれるが起点オーディオ・シーン111には含まれない。オーディオ源113は、対応する位置間オブジェクト特性(座標、指向性、距離音減衰関数など)によって特徴付けられてもよい。グローバル遷移191はある遷移時間区間内(たとえば5秒、1秒またはそれ未満の範囲内)に実行されてもよい。グローバル遷移191の始めにおける起点シーン111内の聴取位置182は「A」でマークされる。さらに、グローバル遷移191の終わりにおける終点シーン112内の聴取位置182は「B」でマークされる。さらに、
図1cは、聴取位置「B」と聴取位置「C」の間の、終点シーン112内のローカル遷移192を示している。
【0026】
図2は、遷移時間区間tの間の起点シーン111(または起点ビューポート)から終点シーン112(または終点ビューポート)へのグローバル遷移191を示している。そのような遷移191は、聴取者181が、たとえばスタジアム内で、異なるシーンまたはビューポート111、112の間で切り換えるときに生起しうる。よって、起点シーン111から終点シーン112へのグローバル遷移191は、聴取者181の実際の物理的な移動に対応する必要はなく、単に、別のビューポート111、112に切り換えるまたは遷移するという聴取者のコマンドによって開始されるのでもよい。にもかかわらず、本開示は聴取者の位置に言及する。これは、VR/AR/MR環境における聴取者の位置であると理解される。
中間時点213では、聴取者181は起点シーン111と終点シーン112との間の中間位置に位置されてもよい。中間位置におよび/または中間時点213においてレンダリングされる3Dオーディオ信号203は、各オーディオ源113の音伝搬を考慮に入れながら、起点シーン111のオーディオ源113A
1ないしA
nのそれぞれおよび終点シーン112のオーディオ源113B
1ないしB
mのそれぞれの寄与を決定することによって決定されてもよい。しかしながら、これは比較的高い計算量に結びつくことになる(特に、比較的多数のオーディオ源113の場合)。
【0027】
グローバル遷移191の始めにおいて、聴取者181は起点聴取位置201に位置されてもよい。遷移191全体の間、起点聴取位置201に関して3D起点オーディオ信号AGが生成されてもよい。ここで、起点オーディオ信号は、起点シーン111のオーディオ源113に依存するだけである(終点シーン112のオーディオ源113には依存しない)。グローバル遷移191は、起点シーン111のオーディオ源113の見かけの源位置に影響しない。よって、起点シーン111の静的なオーディオ源113を想定すると、聴取位置201に対する、グローバル遷移191の間のオーディオ源113のレンダリング位置は、(聴取者に対して)聴取位置が起点シーンから終点シーンに遷移しても、変化しない。
さらに、グローバル遷移191の始めにおいて、聴取者181がグローバル遷移191の終わりには終点シーン112内の終点聴取位置202に到着することが固定されてもよい。遷移191全体の間、3D終点オーディオ信号BGが終点聴取位置202に関して生成されてもよい。ここで、終点オーディオ信号は終点シーン112のオーディオ源113に依存するだけである(源シーン111のオーディオ源113には依存しない)。グローバル遷移191は(聴取者に対する)終点シーン112のオーディオ源113の見かけの源位置に影響しない。
【0028】
グローバル遷移191の間の中間位置および/または中間時点213における中間オーディオ信号203を決定するために、中間時点213における起点オーディオ信号は、中間時点213における終点オーディオ信号と組み合わされてもよい。特に、フェードアウト関数211から導出されるフェードアウト因子または利得が起点オーディオ信号に適用されてもよい。フェードアウト関数211は、フェードアウト因子または利得「a」が起点シーン111からの中間位置の増大する距離内で減少するようなものであってもよい。さらに、フェードイン関数212から導出されるフェードイン因子または利得が終点オーディオ信号に適用されてもよい。フェードイン関数212は、フェードイン因子または利得「b」が終点シーン112からの中間位置の減少する距離とともに増大するようなものであってもよい。例示的なフェードアウト関数211および例示的なフェードイン関数212が
図2に示されている。次いで、中間オーディオ信号は、起点オーディオ信号および終点オーディオ信号の重み付けされた和によって与えられてもよく、重みはそれぞれフェードアウト利得およびフェードイン利得に対応する。
【0029】
よって、フェードイン関数または曲線212およびフェードアウト関数または曲線211が、異なる3DoFビューポート201、202の間のグローバル遷移191について定義されうる。関数211、212は、起点オーディオ・シーン111および終点オーディオ・シーン112を表わすあらかじめレンダリングされた仮想オブジェクトまたは3Dオーディオ信号に適用されてもよい。こうすることにより、異なるオーディオ・シーン111、112の間のグローバル遷移191の際に、低下したVRオーディオ・レンダリング計算で、一貫したオーディオ経験が提供されうる。
【0030】
中間位置xiにおける中間オーディオ信号203は、起点オーディオ信号および終点オーディオ信号の線形補間を使って決定されてもよい。オーディオ信号の強度FはF(xi)=a*F(AG)+(1-a)*F(BG)によって与えられてもよい。因子「a」および「b=1-a」は、起点聴取位置201、終点聴取位置202および中間位置に依存するノルム関数a=a()によって与えられてもよい。
【0031】
関数への代替として、種々の中間位置についてルックアップテーブルa=[1,…,0]が与えられてもよい。
上記において、起点シーン111から終点シーン112へのなめらかな遷移を許容するために、複数の中間位置xiについて、中間オーディオ信号203が決定され、レンダリングされることができることが理解される。
【0032】
グローバル遷移191の際、追加的な効果(たとえばドップラー効果および/または残響)が考慮に入れられてもよい。関数211、212は、たとえば芸術的意図を反映するよう、コンテンツ・プロバイダーによって適応されてもよい。関数211、212に関する情報は、メタデータとしてビットストリーム140に含まれてもよい。よって、エンコーダ130は、フェードイン関数212および/またはフェードアウト関数211に関する情報をメタデータとしてビットストリーム140内で与えるよう構成されてもよい。代替的または追加的に、オーディオ・レンダラー160は、オーディオ・レンダラー160において記憶されている関数211、212を適用してもよい。
【0033】
起点シーン111から終点シーン112へグローバル遷移191が実行されることをレンダラー160に対して示すために、フラグが聴取者からレンダラー160に、特にVR前処理ユニット161に伝達されてもよい。フラグは、遷移フェーズの間の中間オーディオ信号を生成するための本稿に記載されるオーディオ処理をトリガーしてもよい。フラグは、明示的に、または関係した情報を通じて暗黙的に(たとえば新たなビューポートまたは聴取位置202の座標を介して)信号伝達されうる。フラグは、いかなるデータ・インターフェース側から送られてもよい(たとえばサーバー/コンテンツ、ユーザー/シーン、補助)。フラグとともに、起点オーディオ信号AGおよび終点オーディオ信号BGについての情報が与えられてもよい。例として、一つまたは複数のオーディオ・オブジェクトまたはオーディオ源のIDが与えられてもよい。あるいはまた、起点オーディオ信号および/または終点オーディオ信号を計算する要求がレンダラー160に与えられてもよい。
【0034】
よって、3DoFレンダラー162のための前処理ユニット161を有するVRレンダラー160であって、資源効率のよい仕方で6DoF機能を可能にするものが記述される。前処理ユニット161は、MPEG-H 3Dオーディオ・レンダラーのような標準的な3DoFレンダラー162の使用を許容する。VR前処理ユニット161は、それぞれ起点シーン111および終点シーン112を表わす事前レンダリングされた仮想オーディオ・オブジェクトAGおよびBGを使ってグローバル遷移191のための計算を効率的に実行するよう構成されてもよい。グローバル遷移191の間、二つの事前レンダリングされた仮想オブジェクトのみを利用することにより、計算量が削減される。各仮想オブジェクトは、複数のオーディオ源についての複数のオーディオ信号を含んでいてもよい。さらに、遷移191の間、事前レンダリングされた仮想オーディオ・オブジェクトAGおよびBGのみがビットストリーム140内で与えられうるので、ビットレート要件が低減されうる。さらに、処理遅延が低減されうる。
【0035】
グローバル遷移軌跡に沿ったすべての中間位置について3DoF機能が提供されてもよい。これは、フェードアウト/フェードイン関数211、212を使って起点オーディオ・オブジェクトおよび終点オーディオ・オブジェクトを重ねることによって達成されてもよい。さらに、追加的なオーディオ・オブジェクトがレンダリングされてもよく、および/または追加のオーディオ効果が含められてもよい。
【0036】
図3は、同じオーディオ・シーン111内での起点聴取位置B 301から終点聴取位置C 302への例示的なローカル遷移192を示している。オーディオ・シーン111は、異なるオーディオ源またはオブジェクト311、312、313を含む。異なるオーディオ源またはオブジェクト311、312、313は異なる指向性プロファイル332を有していてもよい。さらに、オーディオ・シーン111は、オーディオ・シーン111内でのオーディオの伝搬に対して影響をもつ環境特性、特に一つまたは複数の障害物を有していてもよい。環境特性は、環境データ193を使って記述されうる。さらに、オーディオ・オブジェクト311の聴取位置301、302への相対距離321、322は既知であってもよい。
【0037】
図4aおよび4bは、異なるオーディオ源またはオブジェクト311、312、313の強度に対するローカル遷移192の効果を扱うための方式を示している。上記で概説したように、オーディオ・シーン111のオーディオ源311、312、313は典型的には、3Dオーディオ・レンダラー162によって、聴取位置301のまわりの球114上に位置していると想定される。よって、ローカル遷移192の始めには、オーディオ源311、312、313は、起点聴取位置301のまわりの起点球114上に配置されていてもよく、ローカル遷移192の終わりには、オーディオ源311、312、313は、終点聴取位置302のまわりの終点球114上に配置されていてもよい。
【0038】
オーディオ源311、312、313は、起点球114から終点球114に再マッピングされてもよい。この目的のために、終点聴取位置302から起点球114上のオーディオ源311、312、313の源位置に行く射線〔レイ〕が考慮されてもよい。オーディオ源311、312、313は、その射線の、終点球114との交点に配置されてもよい。
【0039】
終点球114上のオーディオ源311、312、313の強度Fは典型的には、起点球114上での強度とは異なる。強度Fは、聴取位置301、302からのオーディオ源311、312、313の距離420の関数として距離利得410を与える強度利得関数または距離関数415を使って修正されてもよい。距離関数415は典型的には、それ以遠ではゼロの距離利得410が適用されるカットオフ距離421を示す。オーディオ源311の起点聴取位置301までの起点距離321が、起点利得411を与える。さらに、オーディオ源311の終点聴取位置302までの終点距離322は、終点利得412を与える。オーディオ源311の強度Fは、起点利得411および終点利得412を使って再スケーリングされてもよく、それにより終点球114上でのオーディオ源311の強度Fを与える。特に、起点球114上のオーディオ源311の起点オーディオ信号の強度Fが、起点利得411により除算され、終点利得412を乗算されて、終点球114上のオーディオ源311の終点オーディオ信号の強度Fを与えてもよい。
【0040】
よって、ローカル遷移192後のオーディオ源311の位置は、(たとえば幾何学的変換を使って)Ci=source_remap_function(Bi,C)として決定されてもよい。さらに、ローカル遷移192後のオーディオ源311の強度はF(Ci)=F(Bi)*distance_function(Bi,Ci,C)として決定されてもよい。したがって、距離減衰は、距離関数415によって与えられる対応する強度利得によってモデル化されうる。
【0041】
図5aおよび5bは、非一様な指向性プロファイル332をもつオーディオ源312を示している。指向性プロファイルは、種々の方向または指向性角520について利得値を示す指向性利得510を使って定義されうる。特に、オーディオ源312の指向性プロファイルは、指向性角520の関数として指向性利得510を示す指向性利得関数515を使って定義されてもよい(ここで、角520は0°から360°の範囲でありうる)。3Dオーディオ源312について、指向性角520は典型的には方位角および仰角を含む二次元角である。よって、指向性利得関数515は典型的には、二次元の指向性角520の二次元関数である。
【0042】
オーディオ源312の指向性プロファイル332は、ローカル遷移192のコンテキストにおいて、オーディオ源312と起点聴取位置301との間の起点射線の起点指向性角521(オーディオ源は、起点聴取位置301のまわりの起点球114上に配置される)と、オーディオ源312と終点聴取位置302との間の終点射線の終点指向性角522(オーディオ源は、終点聴取位置302のまわりの終点球114上に配置される)とを決定することによって考慮に入れられてもよい。オーディオ源312の指向性利得関数515を使って、起点指向性利得511および終点指向性利得512は、それぞれ起点指向性角521および終点指向性角522についての指向性利得関数515の関数値として決定されうる(
図5b参照)。次いで、終点聴取位置302でのオーディオ源312の強度Fを決定するよう、起点聴取位置301におけるオーディオ源312の強度Fは、起点指向性利得511によって除算され、終点指向性利得512を乗算されてもよい。
【0043】
よって、音源指向性が、指向性利得関数515によって示される指向性因子または利得510によってパラメータ化されてもよい。指向性利得関数515は、何らかの距離にあるオーディオ源312の強度を、聴取位置301、302に対する角度520の関数として示してもよい。指向性利得510は、同じ距離にあり同じ全パワーをもつ、オーディオ源312であって、該全パワーはすべての方向に一様に放射される、オーディオ源312の利得に対する比として定義されてもよい。指向性プロファイル332は、オーディオ源312の中心に発し、オーディオ源312の中心のまわりの単位球上に分布した諸点で終わる諸ベクトルに対応する利得510の集合によってパラメータ化されてもよい。オーディオ源312の指向性プロファイル332は、使用事例シナリオおよび利用可能なデータ(たとえば、3D飛行事例のための一様分布、2D+使用事例のための平坦化された分布など)に依存してもよい。
【0044】
終点聴取位置302におけるオーディオ源312の、結果として得られるオーディオ強度は、F(Ci)=F(Bi)*Distance_function()*Directivity_gain_function(Ci,C,Directivity_parametrization)として推定されてもよい。ここで、Directivity_gain_function〔指向性利得関数〕はオーディオ源312の指向性プロファイル332に依存する。Distance_function()〔距離関数〕は、オーディオ源312の遷移に起因するオーディオ源312の距離321、322の変化によって引き起こされる修正された強度を考慮に入れる。
【0045】
図6は、異なる聴取位置301、302の間のローカル遷移192のコンテキストにおいて考慮に入れられる必要がありうる例示的な障害物603を示している。具体的には、オーディオ源313は、終点聴取位置302において障害物603の背後に隠されることがありうる。障害物603は、一組のパラメータを含む環境データ193によって記述されてもよい。パラメータは、障害物603の空間的寸法および障害物603によって引き起こされる音の減衰を示す障害物減衰関数などである。
【0046】
オーディオ源313は、終点聴取位置302までの無障害物距離602(obstacle-free distance、OSD)を示しうる。OFD 602は、オーディオ源313と終点聴取位置302との間の、障害物603を通らない最短経路の長さを示しうる。さらに、オーディオ源313は、終点聴取位置302までの通過距離601(going-through distance、GHD)を示しうる。GHD 601は、オーディオ源313と終点聴取位置302との間の、典型的には障害物603を通る最短経路の長さを示しうる。障害物減衰関数は、OFD 602およびGHD 601の関数でありうる。さらに、障害物減衰関数は、オーディオ源313の強度F(Bi)の関数であってもよい。
【0047】
終点聴取位置302におけるオーディオ源Ciの強度は、障害物603のまわりを通るオーディオ源313からの音と障害物603を通過するオーディオ源313からの音の組み合わせでありうる。
【0048】
よって、VRレンダラー160は、環境幾何および媒体の影響を制御するためのパラメータを与えられてもよい。障害物幾何/媒体データ193またはパラメータは、コンテンツ・プロバイダーおよび/またはエンコーダ130によって提供されてもよい。オーディオ源313のオーディオ強度は:F(Ci)=F(Bi)*Distance_function(OFD)*Directivity_gain_function(OFD)+Obstacle_attenuation_function(F(Bi),OFD,GHD)として推定されうる。第一項は、障害物603を迂回する音の寄与に対応する。第二項は、障害物603を通る音の寄与に対応する。
【0049】
最小の無障害物距離(OFD)602は、A* Dijkstraの経路発見アルゴリズムを使って決定されてもよく、直接音減衰を制御するために使われてもよい。通過距離(GHD)601は、残響および歪みを制御するために使われてもよい。代替的または追加的に、オーディオ源313の強度に対する障害物603の効果を記述するために、レイキャスティング手法が使われてもよい。
【0050】
図7は、終点聴取位置302に配置された聴取者181の例示的な視野701を示している。さらに、
図7は、終点聴取位置302に配置された聴取者の例示的な関心焦点702を示している。視野701および/または関心焦点702は、視野701および/または関心焦点702内にあるオーディオ源からくるオーディオを増強する(たとえば増幅する)ために使用されてもよい。視野701は、ユーザー駆動の効果であると考えられてもよく、ユーザーの視野(field of view)701に関連するオーディオ源311についての音増強器を可能にするために使用されてもよい。特に、聴取者の視野701内にあるオーディオ源311に関連する発話信号の理解可能性を向上するために背景オーディオ源からの周波数タイルを除去することによって、「カクテルパーティー効果」シミュレーションが実行されてもよい。関心焦点(attention focus)702は、コンテンツ駆動の効果と見ることができ、関心対象のコンテンツ領域に関連するオーディオ源311のための音増強器を可能にする(たとえば、オーディオ源311の方向を見るおよび/またはその方向に進むようユーザーの注意を引きつける)ために使用されてもよい。
【0051】
オーディオ源311のオーディオ強度は:F(Bi)=Field_of_view_function(C,F(Bi),Field_of_view_data)として修正されてもよい。ここで、Field_of_view_function〔視野関数〕は、聴取者181の視野701内にあるオーディオ源311のオーディオ信号に適用される修正を記述する。さらに、聴取者の関心焦点702内にあるオーディオ源のオーディオ強度は:F(Bi)=Attention_focus_function(F(Bi),Attention_focus_data)として修正されてもよい。ここで、attention_focus_function〔関心焦点関数〕は、関心焦点702内にあるオーディオ源311のオーディオ信号に適用される修正を記述する。
【0052】
起点聴取位置301から終点聴取位置302への聴取者181の遷移を扱うための本稿に記載される関数は、同様の仕方で、オーディオ源311、312、313の位置変化に適用されてもよい。
【0053】
よって、本稿は、任意の聴取位置301、302におけるローカルなVRオーディオ・シーン111を表わす仮想オーディオ・オブジェクトまたはオーディオ源311、312、313の座標および/またはオーディオ強度を計算するための効率的な手段を記述する。座標および/または強度は、音源距離減衰曲線、音源配向および指向性、環境幾何/媒体影響および/または追加的なオーディオ信号向上のための「視野」および「関心焦点」データを考慮に入れて決定されうる。記述される諸方式は、聴取位置301、302および/またはオーディオ・オブジェクト/源311、312、313の位置が変化する場合にのみ計算を実行することによって、計算量を有意に低減しうる。
【0054】
さらに、本稿は、VRレンダラー160のための距離、指向性、幾何関数、処理および/または信号伝達機構の指定のための概念を記述する。さらに、直接音減衰を制御するための最小「無障害物距離」および残響および歪みを制御するための「通過距離」についての概念が記述される。さらに、音源指向性パラメータ化の概念が記述される。
【0055】
図8は、ローカル遷移192のコンテキストにおける周囲音源801、802、803の扱いを示している。具体的には、
図8は三つの異なる周囲音源801、802、803を示している。ここで、周囲音は、点オーディオ源に帰されてもよい。点オーディオ源311が周囲音オーディオ源801であることを示すために、前処理ユニット161に周囲音フラグが与えられてもよい。聴取位置301、302のローカルおよび/またはグローバルな遷移の間の処理は、周囲音フラグの値に依存してもよい。
【0056】
グローバル遷移191のコンテキストでは、周囲音源801は、通常のオーディオ源311のように扱われてもよい。
図8は、ローカル遷移192を示す。周囲音源801、802、803の位置は、起点球114から終点球114にコピーされてもよく、それにより、終点聴取位置302における周囲音源811、812、813の位置を与える。さらに、環境条件が不変のままであれば、周囲音源801の強度は不変のままに保たれてもよい。すなわち、F(C
Ai)=F(B
Ai)である。他方、障害物603の場合、周囲音源803、813の強度は、障害物減衰関数を使って、たとえばF(C
Ai)=F(B
Ai)*Distance_function
Ai(OFD)+Obstacle_attenuation_function(F(B
Ai),OFD,GHD)として決定されてもよい。
【0057】
図9aは、仮想現実レンダリング環境180においてオーディオをレンダリングするための例示的方法900のフローチャートを示している。方法900は、VRオーディオ・レンダラー160によって実行されてもよい。方法900は、聴取者181の聴取位置201のまわりの球114上の起点源位置から起点オーディオ・シーン111のオーディオ源113の起点オーディオ信号をレンダリングすること901を含む。レンダリング901は、3DoFだけを扱うことに限定されてもよい、特に聴取者181の頭の回転移動のみを扱うことに限定されてもよい3Dオーディオ・レンダラー162を使って実行されてもよい。特に、3Dオーディオ・レンダラー162は、聴取者の頭部の並進運動を扱うよう構成されてはいない。3Dオーディオ・レンダラー162は、MPEG-Hオーディオ・レンダラーを含んでいてもよく、あるいはMPEG-Hオーディオ・レンダラーであってもよい。
【0058】
「特定の源位置からオーディオ源113のオーディオ信号をレンダリングする」という表現は、聴取者が、オーディオ信号を、その特定の源位置からくるものとして知覚することを示すことを注意しておく。この表現は、オーディオ信号が実際にどのようにレンダリングされるかに対する限定として理解されるべきではない。「特定の源位置からオーディオ信号をレンダリングする」ために、すなわち、聴取者181に、特定の源位置からオーディオ信号がきているという知覚を提供するために、さまざまな異なるレンダリング技法が使用されうる。
【0059】
さらに、方法900は、聴取者181が起点オーディオ・シーン111内の聴取位置201から異なる終点オーディオ・シーン112内の聴取位置202に移動することを判別すること902を含む。よって、起点オーディオ・シーン111から終点オーディオ・シーン112へのグローバル遷移191が検出されうる。このコンテキストにおいて、方法900は、聴取者181が起点オーディオ・シーン111から終点オーディオ・シーン112に移動するという指標を受領することを含んでいてもよい。該指標は、フラグを含んでいてもよく、あるいはフラグであってもよい。指標は、聴取者181からVRオーディオ・レンダラー160に、たとえばVRオーディオ・レンダラー160のユーザー・インターフェースを介して伝えられてもよい。
【0060】
典型的には、起点オーディオ・シーン111および終点オーディオ・シーン112はそれぞれ、互いに異なる一つまたは複数のオーディオ源113を含む。具体的には、前記一つまたは複数の起点オーディオ源113の起点オーディオ信号は、終点オーディオ・シーン112内で可聴でないことがあり、および/または前記一つまたは複数の終点オーディオ源113の終点オーディオ信号は、起点オーディオ・シーン111内で可聴でないことがある。
【0061】
方法900は、(新たな終点オーディオ・シーン112へのグローバル遷移191が実行されることを判別することに反応して)起点オーディオ信号にフェードアウト利得を適用903して、修正された起点オーディオ信号を決定することを含んでいてもよい。特に、起点オーディオ信号は、起点オーディオ・シーン111内の聴取位置201から終点オーディオ・シーン112内の聴取位置202への聴取者181の移動に関わりなく、起点オーディオ・シーン内の聴取位置で知覚されるであろうように生成される。さらに、方法900は、(新たな終点オーディオ・シーン112へのグローバル遷移191が実行されることを判別することに反応して)起点オーディオ源113の前記修正された起点オーディオ信号を、聴取者位置201、202のまわりの球114上の起点源位置からレンダリング904することを含んでいてもよい。これらの動作は、グローバル遷移191の間に繰り返し、たとえば規則的な時間間隔で、実行されてもよい。
【0062】
よって、起点オーディオ・シーン111の前記一つまたは複数の起点オーディオ源113の起点オーディオ信号を漸進的にフェードアウトさせることによって、異なるオーディオ・シーン111、112の間のグローバル遷移191が実行されうる。この結果として、異なるオーディオ・シーン111、112の間の、計算効率がよく、音響的に一貫したグローバル遷移191が提供される。
【0063】
聴取者181がある遷移時間区間の間に、起点オーディオ・シーン111から終点オーディオ・シーン112に移動することが判別されることがありうる。ここで、遷移時間区間は典型的にはある継続時間(たとえば2s、1s、500msまたはそれ未満)をもつ。グローバル遷移191は、該遷移時間区間内に漸進的に実行されてもよい。具体的には、グローバル遷移191の間、遷移時間区間内の中間時点213が(たとえば、100ms、50ms、20msまたはそれ未満などのあるサンプリング・レートに従って)決定されてもよい。すると、フェードアウト利得は、遷移時間区間内の中間時点213の相対位置に基づいて決定されうる。
【0064】
具体的には、グローバル遷移191のための遷移時間区間は、中間時点213のシーケンスに細分されてもよい。中間時点213のシーケンスの各中間時点213について、前記一つまたは複数の起点オーディオ源の起点オーディオ信号を修正するためのフェードアウト利得が決定されてもよい。さらに、中間時点213のシーケンスの各中間時点213において、前記一つまたは複数の起点オーディオ源113の修正された起点オーディオ信号が、聴取位置201、202のまわりの球114上の起点源位置からレンダリングされてもよい。こうすることにより、音響的に一貫したグローバル遷移191が、計算効率のよい仕方で実行されうる。
【0065】
方法900は、遷移時間区間内の種々の中間時点213におけるフェードアウト利得を示すフェードアウト関数211を提供することを含んでいてもよい。ここで、フェードアウト関数211は典型的には、フェードアウト利得が、進行する中間時点213とともに減少し、それにより終点オーディオ・シーン112へのなめらかなグローバル遷移191を提供するようなものである。具体的には、フェードアウト関数211は、起点オーディオ信号が遷移時間区間の始めには無修正のままである、起点オーディオ信号が進行する中間時点213においてますます減衰されていく、および/または起点オーディオ信号が遷移時間区間の終わりには完全に減衰される、というものでありうる。
【0066】
聴取位置201、202のまわりの球114上の起点オーディオ源113の起点源位置は、聴取者181が起点オーディオ・シーン111から終点オーディオ・シーン112に移動する際に(特に、前記遷移時間区間全体の間)維持されてもよい。代替的または追加的に、聴取者181が(前記遷移時間区間全体の間)同じ聴取位置201、202に留まることが想定されてもよい。こうすることにより、オーディオ・シーン111、112の間のグローバル遷移191のための計算量がさらに低減されうる。
【0067】
方法900はさらに、終点オーディオ・シーン112の終点オーディオ源113の終点オーディオ信号を決定することを含んでいてもよい。さらに、方法900は、聴取位置201、202のまわりの球114上の終点源位置を決定することを含んでいてもよい。特に、終点オーディオ信号は、起点オーディオ・シーン111内の聴取位置201から終点オーディオ・シーン112内の聴取位置202への聴取者181の移動に関わりなく、終点オーディオ・シーン内の聴取位置で知覚されるであろうように生成される。さらに、方法900は、終点オーディオ信号にフェードイン利得を適用して、修正された終点オーディオ信号を決定することを含んでいてもよい。次いで、終点オーディオ源113の前記修正された終点オーディオ信号が、聴取位置201、202のまわりの球114上の終点源位置からレンダリングされうる。これらの動作は、グローバル遷移191の間に繰り返し、たとえば規則的な時間間隔で実行されうる。
【0068】
よって、起点シーン111の前記一つまたは複数の起点オーディオ源113の起点オーディオ信号のフェードアウトと同様に、終点シーン112の一つまたは複数の終点オーディオ源113の終点オーディオ信号がフェードインされて、それにより、オーディオ・シーン111、112の間のなめらかなグローバル遷移191を提供してもよい。
【0069】
上記のように、聴取者181は、遷移時間区間の間、起点オーディオ・シーン111から終点オーディオ・シーン112に移動してもよい。フェードイン利得は、遷移時間区間内の中間時点213の相対位置に基づいて決定されてもよい。具体的には、フェードイン利得のシーケンスが、グローバル遷移191の間の中間時点213の対応するシーケンスについて、決定されてもよい。
【0070】
フェードイン利得は、遷移時間区間内の種々の中間時点213におけるフェードイン利得を示すフェードイン関数212を使って決定されてもよい。ここで、フェードイン関数212は典型的には、フェードイン利得が、進行する中間時点213とともに増大するようなものである。具体的には、フェードイン関数212は、終点オーディオ信号が遷移時間区間の始めには完全に減衰されている、終点オーディオ信号が進行する中間時点213において減衰が少なくなっていく、および/または終点オーディオ信号が遷移時間区間の終わりには無修正のままとなる、というものであってもよく、それにより、オーディオ・シーン111、112の間のなめらかなグローバル遷移191を、計算効率のよい仕方で提供しうる。
【0071】
起点オーディオ源113の起点源位置と同様に、聴取位置201、202のまわりの球114上の終点オーディオ源113の終点源位置は、聴取者181が起点オーディオ・シーン111から終点オーディオ・シーン112に移動する際に、特に、前記遷移時間区間全体の間、維持されてもよい。代替的または追加的に、(前記遷移時間区間全体の間)聴取者181が同じ聴取位置201、202に留まることが想定されてもよい。こうすることにより、オーディオ・シーン111、112の間のグローバル遷移191のための計算量がさらに低減されうる。
【0072】
フェードアウト関数211および/またはフェードイン関数212は、起点オーディオ信号および/または終点オーディオ信号を示すビットストリームから導出されてもよい。ビットストリーム140は、エンコーダ130によってVRオーディオ・レンダラー160に提供されてもよい。よって、グローバル遷移191は、コンテンツ・プロバイダーによって制御されうる。代替的または追加的に、フェードアウト関数211および/またはフェードイン関数212は、仮想現実レンダリング環境180内で起点オーディオ信号および/または終点オーディオ信号をレンダリングするよう構成されている仮想現実(VR)オーディオ・レンダラー160の記憶ユニットから導出されてもよく、それによりオーディオ・シーン111、112の間のグローバル遷移191の間の信頼性の高い動作を提供しうる。
【0073】
方法900は、聴取者181が起点オーディオ・シーン111から終点オーディオ・シーン112に移動するという指標(たとえばそのことを示すフラグ)をエンコーダ130に送ることを含んでいてもよい。ここで、エンコーダ130は、起点オーディオ信号および/または終点オーディオ信号を示すビットストリーム140を生成するよう構成されてもよい。前記指標により、エンコーダ130は、起点オーディオ・シーン111の前記一つまたは複数のオーディオ源113のためのおよび/または終点オーディオ・シーン112の前記一つまたは複数のオーディオ源113のための前記オーディオ信号を選択的に、ビットストリーム140内で提供することができる。よって、これからくるグローバル遷移191についての指標を提供することで、ビットストリーム140のための要求される帯域幅の低減が可能になる。
【0074】
上記ですでに示したように、起点オーディオ・シーン111は複数の起点オーディオ源113を含みうる。よって、方法900は、対応する複数の起点オーディオ源113の複数の起点オーディオ信号を、聴取位置201、202のまわりの球114上の複数の異なる起点源位置からレンダリングすることを含みうる。さらに、方法900は、複数の起点オーディオ信号にフェードアウト利得を適用して、複数の修正された起点オーディオ信号を決定することを含んでいてもよい。さらに、方法900は、起点オーディオ源113の複数の修正された起点オーディオ信号を、聴取位置201、202のまわりの球114上の対応する複数の異なる起点源位置からレンダリングすることを含みうる。
【0075】
同様に、方法900は、終点オーディオ・シーン112の対応する複数の終点オーディオ源113の複数の終点オーディオ信号を決定することを含みうる。さらに、方法900は、聴取位置201、202のまわりの球114上の複数の終点源位置を決定することを含みうる。さらに、方法900は、複数の終点オーディオ信号にフェードイン利得を適用して、対応する複数の修正された終点オーディオ信号を決定することを含んでいてもよい。さらに、方法900は、複数の終点オーディオ源113の複数の修正された終点オーディオ信号を、聴取位置201、202のまわりの球114上の対応する複数の終点源位置からレンダリングすることを含む。
【0076】
代替的または追加的に、グローバル遷移191の間にレンダリングされる起点オーディオ信号は、複数の起点オーディオ源113のオーディオ信号の重なりであってもよい。具体的には、遷移時間区間の始めには、起点オーディオ・シーン111の(すべての)オーディオ源113のオーディオ信号が組み合わされて、組み合わされた起点オーディオ信号を与えてもよい。この起点オーディオ信号が、フェードアウト利得を用いて修正されてもよい。さらに、起点オーディオ信号は、遷移時間区間の間にある特定のサンプリング・レート(たとえば20ms)で更新されてもよい。同様に、終点オーディオ信号は、複数の終点オーディオ源113(特に、すべての終点オーディオ源113)のオーディオ信号の組み合わせに対応してもよい。次いで、組み合わされた終点オーディオ源はフェードイン利得を使って遷移時間区間の間に修正されてもよい。起点オーディオ・シーン111と終点オーディオ・シーン112のオーディオ信号それぞれを組み合わせることによって、計算量がさらに低減されうる。
【0077】
さらに、仮想現実レンダリング環境180においてオーディオをレンダリングするための仮想現実オーディオ・レンダラー160が記述される。本稿で概説されているように、VRオーディオ・レンダラー160は、前処理ユニット161および3Dオーディオ・レンダラー162を有していてもよい。仮想現実オーディオ・レンダラー160は、起点オーディオ・シーン111の起点オーディオ源113の起点オーディオ信号を、聴取者181の聴取位置201のまわりの球114上の起点源位置からレンダリングするよう構成されてもよい。さらに、VRオーディオ・レンダラー160は、聴取者181が起点オーディオ・シーン内111の聴取位置201から異なる終点オーディオ・シーン112内の聴取位置202に移動することを判別するよう構成される。さらに、VRオーディオ・レンダラー160は、起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定し、起点オーディオ源113の修正された起点オーディオ信号を、聴取位置201、202のまわりの球114上の起点源位置からレンダリングするよう構成される。
【0078】
さらに、仮想現実レンダリング環境180内でレンダリングされるべきオーディオ信号を示すビットストリーム140を生成するよう構成されたエンコーダ130が記述される。レンダラー130は、起点オーディオ・シーン111の起点オーディオ源113の起点オーディオ信号を決定するよう構成されてもよい。さらに、エンコーダ130は、起点オーディオ源113の起点源位置に関する起点位置データを決定するよう構成されてもよい。エンコーダ130は、次いで、起点オーディオ信号および起点位置データを含むビットストリーム140を生成してもよい。
【0079】
エンコーダ130は、聴取者181が仮想現実レンダリング環境180内で起点オーディオ・シーン111から終点オーディオ・シーン112に移動するという指標を(VRオーディオ・レンダラー160からエンコーダ130へのフィードバック・チャネルを介して)受信してもよい。
【0080】
エンコーダ130は次いで、終点オーディオ・シーン112の終点オーディオ源113の終点オーディオ信号と、終点オーディオ源113の終点源位置に関する終点位置データとを(特に、そのような指標を受信することに反応してのみ)決定してもよい。さらに、エンコーダ130は、終点オーディオ信号および終点位置データを含むビットストリーム140を生成してもよい。よって、エンコーダ130は、終点オーディオ源112の一つまたは複数の終点オーディオ源113の終点オーディオ信号を、終点オーディオ・シーン112へのグローバル遷移191についての指標を受信することを受けてのみ、提供するよう構成されてもよい。こうすることにより、ビットストリーム140についての要求される帯域幅が低減されうる。
【0081】
図9bは、仮想現実レンダリング環境180内でレンダリングされるべきオーディオ信号を示すビットストリーム140を生成するための対応する方法930のフローチャートを示している。方法930は、起点オーディオ・シーン111の起点オーディオ源113の起点オーディオ信号を決定931することを含む。さらに、方法930は、起点オーディオ源113の起点源位置に関する起点位置データを決定932することを含む。さらに、方法930は、起点オーディオ信号および起点位置データを含むビットストリーム140を生成933することを含む。
【0082】
方法930は、聴取者181が仮想現実レンダリング環境180内で起点オーディオ・シーン111から終点オーディオ・シーン112に移動するという指標を受信934することを含む。これに反応して、方法930は、終点オーディオ・シーン112の終点オーディオ源113の終点オーディオ信号を決定935し、終点オーディオ源113の終点源位置に関する終点位置データを決定936することを含んでいてもよい。さらに、方法930は、終点オーディオ信号および終点位置データを含むビットストリーム140を生成937することを含む。
【0083】
図9cは、仮想現実レンダリング環境180においてオーディオ信号をレンダリングするための例示的な方法910のフローチャートを示している。方法910は、VRオーディオ・レンダラー160によって実行されてもよい。
【0084】
方法910は、オーディオ源311、312、313の起点オーディオ信号を、聴取者181の起点聴取位置301のまわりの起点球114上の起点源位置からレンダリング911することを含む。レンダリング911は、3Dオーディオ・レンダラー162を使って実行されてもよい。特に、レンダリング911は、起点聴取位置301が固定されているという想定のもとで実行されてもよい。よって、レンダリング911は、三自由度に(特に、聴取者181の頭部の回転運動に)制限されうる。
【0085】
(聴取者181の並進移動についての)追加的な三つの自由度を考慮に入れるため、方法910は、聴取者181が起点聴取位置301から終点聴取位置302に移動することを判別912することを含んでいてもよい。ここで、終点聴取位置302は典型的には同じオーディオ・シーン111内にある。よって、聴取者181は、同じオーディオ・シーン111内でのローカル遷移192を実行すると判別912されてもよい。
【0086】
聴取者181がローカル遷移192を実行することを判別するのに反応して、方法910は、終点聴取位置302のまわりの終点球114上のオーディオ源311、312、313の終点源位置を、起点源位置に基づいて決定913することを含んでいてもよい。換言すれば、オーディオ源311、312、313の源位置が、起点聴取位置301のまわりの起点球114から終点位置302のまわりの終点球114に転写されてもよい。これは、起点源位置を起点球114から終点球に投影することによって達成されてもよい。特に、終点源位置が、終点聴取位置302と起点源位置との間の射線の、終点球114との交点に対応するよう、終点源位置が決定されてもよい。
【0087】
さらに、方法910は、(聴取者181がローカル遷移192を実行することを判別することに反応して)起点オーディオ信号に基づいてオーディオ源311、312、313の終点オーディオ信号を決定914することを含んでいてもよい。特に、終点オーディオ信号の強度は、起点オーディオ信号の強度に基づいて決定されてもよい。代替的または追加的に、終点オーディオ信号のスペクトル組成が、起点オーディオ信号のスペクトル組成に基づいて決定されてもよい。よって、オーディオ源311、312、313のオーディオ信号が終点聴取位置302からどのように知覚されるかが決定されてもよい(特に、オーディオ信号の強度および/またはスペクトル組成が決定されてもよい)。
【0088】
上述した決定する段階913、914は、VRオーディオ・レンダラー160の前処理ユニット161によって実行されてもよい。前処理ユニット161は、起点聴取位置301のまわりの起点球114から終点聴取位置302のまわりの終点球114に一つまたは複数のオーディオ源311、312、313のオーディオ信号を移転することによって、聴取者181の並進運動を扱ってもよい。この結果として、前記一つまたは複数のオーディオ源311、312、313の移転されたオーディオ信号も、(3DoFに制限されていてもよい)3Dオーディオ・レンダラー162を使ってレンダリングされうる。よって、方法910は、VRオーディオ・レンダリング環境180内で6DoFの効率的な提供を許容する。
【0089】
結果として、方法910は、(たとえばMPEG-Hオーディオ・レンダラーのような3Dオーディオ・レンダラーを使って)オーディオ源311、312、313の終点オーディオ信号を、終点聴取位置302のまわりの終点球114上の終点源位置からレンダリング915することを含んでいてもよい。
【0090】
終点オーディオ信号を決定914することは、起点源位置と終点聴取位置302との間の終点距離322を決定することを含んでいてもよい。次いで、終点オーディオ信号(特に、終点オーディオ信号の強度)は、終点距離322に基づいて決定されてもよい(特にスケーリングされてもよい)。特に、終点オーディオ信号を決定914することは、起点オーディオ信号に距離利得410を適用することを含んでいてもよい。ここで、距離利得410は終点距離322に依存する。
【0091】
距離利得410をオーディオ信号311、312、313の源位置と聴取者181の聴取位置301、302との間の距離321、322の関数として示す距離関数415が提供されてもよい。(終点オーディオ信号を決定するために)起点オーディオ信号に適用される距離利得410は、距離関数415の、終点距離322についての関数値に基づいて決定されてもよい。こうすることにより、終点オーディオ信号は、効率的かつ精密に決定されてもよい。
【0092】
さらに、終点オーディオ信号を決定914することは、起点源位置と起点聴取位置301との間の起点距離321を決定することを含んでいてもよい。次いで、終点オーディオ信号は、起点距離321に(も)基づいて決定されてもよい。特に、起点オーディオ信号に適用される距離利得410は、距離関数415の、起点距離321についての関数値に基づいて決定されてもよい。ある好ましい例では、距離関数415の、起点距離321についての関数値と、距離関数415の、終点距離322についての関数値とが、終点オーディオ信号を決定するために起点オーディオ信号の強度を再スケーリングするために使用される。よって、オーディオ・シーン111内の効率的かつ精密なローカル遷移191が提供されうる。
【0093】
終点オーディオ信号を決定914することは、オーディオ源311、312、313の指向性プロファイル332を決定することを含んでいてもよい。指向性プロファイル332は、種々の方向での起点オーディオ信号の強度を示してもよい。すると、終点オーディオ信号は、指向性プロファイル332に(も)基づいて決定されうる。指向性プロファイル332を考慮に入れることによって、ローカル遷移192の音響品質が改善されうる。
【0094】
指向性プロファイル332は、終点オーディオ信号を決定するために起点オーディオ信号に適用される指向性利得510を示してもよい。特に、指向性プロファイル332は、指向性利得関数515を示していてもよい。ここで、指向性利得関数515は、指向性利得510を、オーディオ源311、312、313の源位置と聴取者181の聴取位置301、302との間の(可能性としては二次元の)指向性角520の関数として示してもよい。
【0095】
よって、終点オーディオ信号を決定914することは、終点源位置と終点聴取位置302との間の終点角522を決定することを含んでいてもよい。次いで、終点オーディオ信号は、終点角522に基づいて決定されてもよい。特に、終点オーディオ信号は、指向性利得関数515の、終点角522についての関数値に基づいて決定されてもよい。
【0096】
代替的または追加的に、終点オーディオ信号を決定914することは、起点源位置と起点聴取位置301との間の起点角521を決定することを含んでいてもよい。すると、終点オーディオ信号は、起点角521に基づいて決定されてもよい。特に、終点オーディオ信号は、指向性利得関数515の、起点角521についての関数値に基づいて決定されてもよい。ある好ましい例では、終点オーディオ信号は、指向性利得関数515の、起点角521についておよび終点角522についての関数値を使って起点オーディオ信号の強度を修正して、終点オーディオ信号の強度を決定することによって決定されてもよい。
【0097】
さらに、方法910は、終点源位置と終点聴取位置302との間の媒体のオーディオ伝搬特性を示す終点環境データ193を含んでいてもよい。終点環境データ193は、終点源位置と終点聴取位置302との間の直接経路上に位置される障害物603を示す;障害物603の空間的寸法に関する情報を示す;および/または終点源位置と終点聴取位置302との間の直接経路上でオーディオ信号が被る減衰を示すものであってもよい。特に、終点環境データ193は、障害物603の障害物減衰関数を示していてもよく、減衰関数は、終点源位置と終点聴取位置302との間の直接経路上にある障害物603を通過するオーディオ信号が受ける減衰を示してもよい。
【0098】
終点オーディオ信号は終点環境データ193に基づいて決定されてもよく、それによりさらに、VRレンダリング環境180内でレンダリングされるオーディオの品質を高める。
【0099】
上記に示したように、終点環境データ193は、終点源位置と終点聴取位置302との間の直接経路上の障害物603を示していてもよい。方法910は、直接経路上での、終点源位置と終点聴取位置302との間の通過距離601を決定することを含んでいてもよい。次いで、終点オーディオ信号は、通過距離601に基づいて決定されてもよい。代替的または追加的に、障害物603を通らない間接経路上での、終点源位置と終点聴取位置302との間の無障害物距離602が決定されてもよい。次いで、終点オーディオ信号は、無障害物距離602に基づいて決定されてもよい。
【0100】
具体的には、終点オーディオ信号の間接成分が、間接経路に沿って伝搬する起点オーディオ信号に基づいて決定されてもよい。さらに、終点オーディオ信号の直接成分が、直接経路に沿って伝搬する起点オーディオ信号に基づいて決定されてもよい。次いで、終点オーディオ信号は、間接成分と直接成分とを組み合わせることによって決定されてもよい。こうすることにより、障害物603の音響効果が、精密かつ効率的な仕方で考慮に入れられうる。
【0101】
さらに、方法910は、聴取者181の視野701および/または関心焦点702に関する焦点情報を判別することを含んでいてもよい。次いで、終点オーディオ信号は焦点情報に基づいて決定されてもよい。具体的には、オーディオ信号のスペクトル組成が、焦点情報に依存して適応されてもよい。こうすることにより、聴取者181のVR経験がさらに改善されうる。
【0102】
さらに、方法910は、オーディオ源311、312、313が周囲音(ambience)オーディオ源であることを判別することを含んでいてもよい。このコンテキストにおいて、エンコーダ130からビットストリーム140内で指標(たとえばフラグ)が受領されてもよい。たとえば、該指標は、オーディオ源311、312、313が周囲音オーディオ源であることを示す。周囲音オーディオ源は典型的には背景オーディオ信号を提供する。周囲音オーディオ源の起点源位置は、終点源位置として維持されてもよい。代替的または追加的に、周囲音オーディオ源の起点オーディオ信号の強度は、終点オーディオ信号の強度として維持されてもよい。こうすることにより、周囲音オーディオ源は、ローカル遷移192のコンテキストにおいて、効率的かつ一貫性をもって扱うことができる。
【0103】
上述した諸側面は、複数のオーディオ源311、312、313を含むオーディオ・シーン111に適用可能である。特に、方法910は、対応する複数のオーディオ源311、312、313の複数の起点オーディオ信号を、起点球114上の複数の異なる起点源位置からレンダリングすることを含んでいてもよい。さらに、方法910は、終点球114上の対応する複数のオーディオ源311、312、313についての複数の終点源位置を、それぞれ該複数の起点源位置に基づいて決定することを含んでいてもよい。さらに、方法910は、対応する複数のオーディオ源311、312、313の複数の終点オーディオ信号を、それぞれ該複数の起点オーディオ信号に基づいて決定することを含んでいてもよい。次いで、対応する複数のオーディオ源311、312、313の前記複数の終点オーディオ信号は、終点聴取位置302のまわりの終点球114上の対応する複数の終点源位置からレンダリングされうる。
【0104】
さらに、仮想現実レンダリング環境180におけるオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラー160が記述される。オーディオ・レンダラー160は、(特にVRオーディオ・レンダラー160の3Dオーディオ・レンダラー162を使って)オーディオ源311、312、313の起点オーディオ信号を、聴取者181の起点聴取位置301のまわりの起点球114上の起点源位置からレンダリングするよう構成される。
【0105】
さらに、VRオーディオ・レンダラー160は、聴取者181が起点聴取位置301から終点聴取位置302に移動することを判別するよう構成されてもよい。これに反応して、VRオーディオ・レンダラー160は、(たとえばVRオーディオ・レンダラー160の前処理ユニット161内で)終点聴取位置302のまわりの終点球114上のオーディオ源311、312、313の終点源位置を、起点源位置に基づいて決定し、オーディオ源311、312、313の終点オーディオ信号を起点オーディオ信号に基づいて決定するよう構成されてもよい。
【0106】
さらに、VRオーディオ・レンダラー160(たとえば3Dオーディオ・レンダラー162)は、オーディオ源311、312、313の終点オーディオ信号を、終点聴取位置302のまわりの終点球114上の終点源位置からレンダリングするよう構成されてもよい。
【0107】
よって、仮想現実オーディオ・レンダラー160は、オーディオ源311、312、313の終点源位置および終点オーディオ信号を決定するよう構成される前処理ユニット161を有していてもよい。さらに、VRオーディオ・レンダラー160は、オーディオ源311、312、313の終点オーディオ信号をレンダリングするよう構成される3Dオーディオ・レンダラー162を有していてもよい。3Dオーディオ・レンダラー162は、聴取者181の聴取位置301、302のまわりの(単位)球114上でのオーディオ源311、312、313のオーディオ信号のレンダリングを、聴取者181の頭部の回転運動に応じて適応させる(レンダリング環境180内の3DoFを提供するため)よう構成されてもよい。他方、3Dオーディオ・レンダラー162は、オーディオ源311、312、313のオーディオ信号のレンダリングを聴取者181の頭部の並進運動に応じて適応させるようには構成されなくてもよい。このように、3Dオーディオ・レンダラー162は3DoFに制限されていてもよい。すると、並進DoFは、前処理ユニット161を使って効率的な仕方で提供されうる。それにより、6DoFをもつ全体的なVRオーディオ・レンダラー160が提供される。
【0108】
さらに、ビットストリーム140を生成するよう構成されたオーディオ・エンコーダ130が記述される。ビットストリーム140は、少なくとも一つのオーディオ源311、312、313のオーディオ信号を示し、レンダリング環境180内での前記少なくとも一つのオーディオ源311、312、313の位置を示すように生成される。さらに、ビットストリーム140は、レンダリング環境180内でのオーディオのオーディオ伝搬特性に関する環境データ193を示してもよい。オーディオ伝搬特性に関する環境データ193を信号伝達することによって、レンダリング環境180内のローカル遷移192が精密な仕方で可能にされうる。
【0109】
さらに、少なくとも一つのオーディオ源311、312、313のオーディオ信号;レンダリング環境180内での前記少なくとも一つのオーディオ源311、312、313の位置;およびレンダリング環境180内でのオーディオのオーディオ伝搬特性に関する環境データ193を示すビットストリーム140が記述される。代替的または追加的に、ビットストリーム140は、オーディオ源311、312、313が周囲音オーディオ源801であるか否かを示してもよい。
【0110】
図9dは、ビットストリームを生成する例示的方法920のフローチャートを示している。方法920は、少なくとも一つのオーディオ源311、312、313のオーディオ信号を決定921することを含む。さらに、方法920は、レンダリング環境180内での前記少なくとも一つのオーディオ源311、312、313の位置に関する位置データを決定922することを含む。さらに、方法920は、レンダリング環境180内でのオーディオのオーディオ伝搬特性に関する環境データ193を決定923することを含んでいてもよい。方法920はさらに、前記オーディオ信号、前記位置データおよび前記環境データ193をビットストリーム140中に挿入934することを含む。代替的または追加的に、オーディオ源311、312、313が周囲音オーディオ源801であるか否かの指標がビットストリーム140内に挿入されてもよい。
【0111】
よって、本稿では、仮想現実レンダリング環境180におけるオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラー160(対応する方法)オーディオ源311、312、313が記述される。オーディオ・レンダラー160は、オーディオ源113、311、312、313のオーディオ信号を、仮想現実レンダリング環境180内の聴取者181の聴取位置301、302のまわりの球114上の源位置からレンダリングするよう構成された3Dオーディオ・レンダラー162を有する。さらに、仮想現実オーディオ・レンダラー160は、(同じまたは異なるオーディオ・シーン111、112内の)仮想現実レンダリング環境180内の聴取者181の新たな聴取位置301、302を決定するよう構成された前処理ユニット161を有する。さらに、前処理ユニット161は、前記オーディオ信号と、前記新たな聴取位置301、302のまわりの球114に関する前記オーディオ源113、311、312、313の源位置とを、更新するよう構成される。3Dオーディオ・レンダラー162は、オーディオ源311、312、313の更新されたオーディオ信号を、新たな聴取位置301、302のまわりの球114上の更新された源位置からレンダリングするよう構成される。
【0112】
本稿に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されうる。ある種のコンポーネントはデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、ハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダムアクセスメモリまたは光記憶媒体のような媒体に記憶されてもよい。該信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットといったネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。
【0113】
本稿の付番実施例(enumerated example、EE)は、次のとおり:
〔EE1〕
仮想現実レンダリング環境(180)においてオーディオをレンダリングする方法(900)であって、当該方法は、
・起点オーディオ・シーン(111)の起点オーディオ源(113)の起点オーディオ信号を、聴取者(181)の聴取位置(201)のまわりの球(114)上の起点源位置からレンダリングする段階(901)と;
・聴取者(181)が起点オーディオ・シーン(111)内の前記聴取位置(201)から異なる終点オーディオ・シーン(112)内の聴取位置(202)に移動することを判別する段階(902)と;
・起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定する段階(903)と;
・起点オーディオ源(113)の修正された起点オーディオ信号を、聴取位置(201、202)のまわりの球(114)上の起点源位置からレンダリングする段階(904)とを含む、
方法。
〔EE2〕
当該方法が:
・遷移時間区間の間に聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することを判別する段階と;
・前記遷移時間区間内の中間時点(213)を決定する段階と;
・前記遷移時間区間内における前記中間時点(213)の相対位置に基づいて前記フェードアウト利得を決定する段階とを含む、
EE1記載の方法。
〔EE3〕
・当該方法が、前記遷移時間区間内の種々の中間時点(213)における前記フェードアウト利得を示すフェードアウト関数(211)を提供することを含み、
・前記フェードアウト関数(211)は、前記フェードアウト利得が、進行する中間時点(213)とともに減少するようなものである、
EE2記載の方法。
〔EE4〕
前記フェードアウト関数(211)は、
・前記起点オーディオ信号が前記遷移時間区間の始めにおいて修正されないままである;および/または
・前記起点オーディオ信号が、進行する中間時点(213)においてますます減衰される;およびまたは
・前記起点オーディオ信号が前記遷移時間区間の終わりにおいて完全に減衰される、
ようなものである、EE3記載の方法。
〔EE5〕
当該方法が、
・聴取者(181)が起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記聴取位置(201、202)のまわりの球(114)上の起点オーディオ源(113)の起点源位置を維持すること;および/または
・聴取者(181)が起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記聴取位置(201、202)を不変に維持することを含む、
EE1ないし4のうちいずれか一項記載の方法。
〔EE6〕
当該方法が、
・前記終点オーディオ・シーン(112)の終点オーディオ源(113)の終点オーディオ信号を決定し;
・前記聴取位置(201、202)のまわりの球(114)上の終点源位置を決定し;
・前記終点オーディオ信号にフェードイン利得を適用して、修正された終点オーディオ信号を決定し;
・前記終点オーディオ源(113)の前記修正された終点オーディオ信号を、前記聴取位置(201、202)のまわりの球(114)上の前記終点源位置からレンダリングすることを含む、
EE1ないし5のうちいずれか一項記載の方法。
〔EE7〕
当該方法が:
・遷移時間区間の間に聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することを判別する段階と;
・前記遷移時間区間内の中間時点(213)を決定する段階と;
・前記遷移時間区間内における前記中間時点(213)の相対位置に基づいて前記フェードイン利得を決定する段階とを含む、
EE6記載の方法。
〔EE8〕
・当該方法が、前記遷移時間区間内の種々の中間時点(213)における前記フェードイン利得を示すフェードイン関数(212)を提供することを含み、
・前記フェードイン関数(212)は、前記フェードイン利得が、進行する中間時点(213)とともに増大するようなものである、
EE7記載の方法。
〔EE9〕
前記フェードイン関数(211)は、
・前記終点オーディオ信号が前記遷移時間区間の終わりにおいて修正されないままである;および/または
・前記終点オーディオ信号が、進行する中間時点(213)においてますます減衰が少なくなる;およびまたは
・前記終点オーディオ信号が前記遷移時間区間の始まりにおいて完全に減衰される、
ようなものである、EE8記載の方法。
〔EE10〕
当該方法が、
・聴取者(181)が起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記聴取位置(201、202)のまわりの球(114)上の終点オーディオ源(113)の終点源位置を維持すること;および/または
・聴取者(181)が起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動する際に、前記聴取位置(201、202)を不変に維持することを含む、
EE6ないし9のうちいずれか一項記載の方法。
〔EE11〕
前記フェードアウト関数(211)および前記フェードイン関数(212)が組み合わさって、複数の異なる中間時点(213)について一定の利得を与える、EE8がEE3を引用する場合のEE8記載の方法。
〔EE12〕
前記フェードアウト関数(211)および/または前記フェードイン関数(212)が、
・前記起点オーディオ信号および/または前記終点オーディオ信号を示すビットストリーム(140)から導出される;および/または
・仮想現実レンダリング環境(180)内で前記起点オーディオ信号および/または前記終点オーディオ信号をレンダリングするよう構成された仮想現実オーディオ・レンダラー(160)の記憶ユニットから導出される、
EE8がEE3を引用する場合のEE8記載の方法。
〔EE13〕
当該方法が、聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することの指標を受領することを含む、EE1ないし12のうちいずれか一項記載の方法。
〔EE14〕
前記指標がフラグを含む、EE13記載の方法。
〔EE15〕
当該方法が、聴取者(181)が前記起点オーディオ・シーン(111)から前記終点オーディオ・シーン(112)に移動することの指標をエンコーダ(130)に送ることを含み;前記エンコーダ(130)が、前記起点オーディオ信号を示すビットストリーム(140)を生成するよう構成される、EE1ないし14のうちいずれか一項記載の方法。
〔EE16〕
前記第一のオーディオ信号が3Dオーディオ・レンダラー(162)、特にMPEG-Hオーディオ・レンダラーを使ってレンダリングされる、EE1ないし15のうちいずれか一項記載の方法。
〔EE17〕
当該方法が、
・対応する複数の起点オーディオ源(113)の複数の起点オーディオ信号を、前記聴取位置(201、202)のまわりの球(114)上の複数の異なる起点源位置からレンダリングし;
・前記フェードアウト利得を前記複数の起点オーディオ信号に適用して、複数の修正された起点オーディオ信号を決定し;
・前記起点オーディオ源(113)の前記複数の修正された起点オーディオ信号を、前記聴取位置(201、202)のまわりの球(114)上の前記対応する複数の起点源位置からレンダリングすることを含む、
EE1ないし16のうちいずれか一項記載の方法。
〔EE18〕
当該方法が、
・前記終点オーディオ・シーン(112)の対応する複数の終点オーディオ源(113)の複数の終点オーディオ信号を決定し;
・前記聴取位置(201、202)のまわりの球(114)上の複数の終点源位置を決定し;
・前記フェードイン利得を前記複数の終点オーディオ信号に適用して、対応する複数の修正された終点オーディオ信号を決定し;
・前記複数の終点オーディオ源(113)の前記複数の修正された終点オーディオ信号を、前記聴取位置(201、202)のまわりの球(114)上の前記対応する複数の終点源位置からレンダリングすることを含む、
EE6ないし17のうちいずれか一項記載の方法。
〔EE19〕
前記起点オーディオ信号が複数の起点オーディオ源(113)のオーディオ信号の重なりである、EE1ないし18のうちいずれか一項記載の方法。
〔EE20〕
仮想現実レンダリング環境(180)においてオーディオをレンダリングするための仮想現実オーディオ・レンダラー(160)であって、当該仮想現実オーディオ・レンダラー(160)は、
・起点オーディオ・シーン(111)の起点オーディオ源(113)の起点オーディオ信号を、聴取者(181)の聴取位置(201)のまわりの球(114)上の起点源位置からレンダリングし;
・聴取者(181)が起点オーディオ・シーン(111)内の前記聴取位置(201)から異なる終点オーディオ・シーン(112)内の聴取位置(202)に移動することを判別し;
・前記起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定し;
・前記起点オーディオ源(113)の前記修正された起点オーディオ信号を、前記聴取位置(201、202)のまわりの球(114)上の起点源位置からレンダリングするよう構成されている、
仮想現実オーディオ・レンダラー。
〔EE21〕
仮想現実レンダリング環境(180)内でレンダリングされるオーディオ信号を示すビットストリーム(140)を生成するよう構成されたエンコーダ(130)であって、当該エンコーダ(130)は、
・起点オーディオ・シーン(111)の起点オーディオ源(113)の起点オーディオ信号を決定し;
・前記起点オーディオ源(113)の起点源位置に関する起点位置データを決定し;
・前記起点オーディオ信号および前記起点位置データを含むビットストリーム(140)を生成し;
・前記仮想現実レンダリング環境(180)内で聴取者(181)が前記起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動することの指標を受領し;
・前記終点オーディオ・シーン(112)の終点オーディオ源(113)の終点オーディオ信号を決定し;
・前記終点オーディオ源(113)の終点源位置に関する終点位置データを決定し;
・前記終点オーディオ信号および前記終点位置データを含むビットストリーム(140)を生成するよう構成されている、
エンコーダ。
〔EE22〕
仮想現実レンダリング環境(180)内でレンダリングされるオーディオ信号を示すビットストリーム(140)を生成する方法(930)であって、当該方法は、
・起点オーディオ・シーン(111)の起点オーディオ源(113)の起点オーディオ信号を決定し(931);
・前記起点オーディオ源(113)の起点源位置に関する起点位置データを決定し(932);
・前記起点オーディオ信号および前記起点位置データを含むビットストリーム(140)を生成し(933);
・前記仮想現実レンダリング環境(180)内で聴取者(181)が前記起点オーディオ・シーン(111)から終点オーディオ・シーン(112)に移動することの指標を受領し(934);
・前記終点オーディオ・シーン(112)の終点オーディオ源(113)の終点オーディオ信号を決定し(935);
・前記終点オーディオ源(113)の終点源位置に関する終点位置データを決定し(936);
・前記終点オーディオ信号および前記終点位置データを含むビットストリーム(140)を生成する(937)ことを含む、
方法。
〔EE23〕
仮想現実レンダリング環境(180)においてオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラー(160)であって、当該オーディオ・レンダラーは、
・オーディオ源(113)のオーディオ信号を、仮想現実レンダリング環境(180)内の聴取者(181)の聴取位置(201、202)のまわりの球(114)上の源位置からレンダリングするよう構成された3Dオーディオ・レンダラー(162)と;
・前処理ユニット(161)であって、
・仮想現実レンダリング環境(180)内の聴取者(181)の新たな聴取位置(201、202)を決定し;
・前記オーディオ信号と、前記新たな聴取位置(201、202)のまわりの球(114)に関する前記オーディオ源(201、202)の前記源位置とを更新するよう構成された前処理ユニット(161)とを有しており、
前記3Dオーディオ・レンダラー(162)は、前記オーディオ源(113)の更新されたオーディオ信号を、前記新たな聴取位置(201、202)のまわりの球(114)上の更新された源位置からレンダリングするよう構成される、
仮想現実オーディオ・レンダラー。