特開2024-23682 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ドルビー・インターナショナル・アーベーの特許一覧

特開2024-23682仮想現実環境における聴取位置間のローカル遷移を扱う方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1a
1b
1c
2
3
4a
4b
5a
5b
6
7
8
9a
9b
9c
9d

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024023682

(43)【公開日】2024-02-21

(54)【発明の名称】仮想現実環境における聴取位置間のローカル遷移を扱う方法およびシステム

(51)【国際特許分類】

H04S 7/00 20060101AFI20240214BHJP

【ＦＩ】

H04S7/00 330

【審査請求】有

【請求項の数】1

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023211621

(22)【出願日】2023-12-15

(62)【分割の表示】P 2020530488の分割

【原出願日】2018-12-18

(31)【優先権主張番号】62/599,848

(32)【優先日】2017-12-18

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17208087.1

(32)【優先日】2017-12-18

(33)【優先権主張国・地域又は機関】EP

(71)【出願人】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】テレンティフ，レオン

(72)【発明者】

【氏名】フェルシュ，クリストフ

(72)【発明者】

【氏名】フィッシャー，ダニエル

(57)【要約】（修正有）

【課題】仮想現実環境において、オーディオ信号をレンダリングする方法を提供する。
【解決手段】方法は、オーディオ源（３１１、３１２、３１３）の起点オーディオ信号を、聴取者の起点聴取位置（３０１）のまわりの起点球上の起点源位置からレンダリングすることと、聴取者が起点聴取位置（３０１）から終点聴取位置（３０２）に移動することを判別することと、終点聴取位置（３０２）のまわりの終点球上の前記オーディオ源（３１１、３１２、３１３）の終点源位置を、起点源位置に基づいて決定し、起点オーディオ信号に基づいてオーディオ源（３１１、３１２、３１３）の終点オーディオ信号を決定することと、オーディオ源（３１１、３１２、３１３）の終点オーディオ信号を、終点聴取位置（３０２）のまわりの終点球上の終点源位置からレンダリングすることと、を含む。
【選択図】図３

【特許請求の範囲】

【請求項1】

仮想現実レンダリング環境（１８０）においてオーディオ信号をレンダリングする方法（９１０）であって、当該方法は、
・オーディオ源（３１１、３１２、３１３）の起点オーディオ信号を、聴取者（１８１）の起点聴取位置（３０１）のまわりの起点球（１１４）上の起点源位置からレンダリングする段階（９１１）と；
・聴取者（１８１）が起点聴取位置（３０１）から終点聴取位置（３０２）に移動することを判別する段階（９１２）と；
・終点聴取位置（３０２）のまわりの終点球（１１４）上の前記オーディオ源（３１１、３１２、３１３）の終点源位置を、前記起点源位置に基づいて、前記起点源位置を前記起点球から前記終点球に投影することによって決定する段階（９１３）と；
・前記起点オーディオ信号に基づいて前記オーディオ源（３１１、３１２、３１３）の終点オーディオ信号を決定する段階（９１４）と；
・前記オーディオ源（３１１、３１２、３１３）の終点オーディオ信号を、終点聴取位置（３０２）のまわりの終点球上の終点源位置からレンダリングする段階（９１５）とを含み、
前記起点源位置は、前記終点聴取位置（３０２）に関する透視投影によって前記起点球から前記終点球上に投影され、
前記起点球および前記終点球は同じ半径をもつ、
方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願への相互参照
本願は、2017年12月18日に出願された米国仮出願第62/599,848号（整理番号D17086USP1）、2017年12月18日に出願された欧州出願第17208087.1号（整理番号D17086EP）の優先権を主張するものである。これらの出願の内容はここに参照によって組み込まれる。

【0002】

技術分野
本稿は、仮想現実（VR）レンダリング環境における聴覚ビューポートおよび／または聴取位置の間の遷移を効率的かつ一貫した仕方で扱うことに関する。

【背景技術】

【0003】

仮想現実（VR）、拡張現実（AR）および混合現実（MR）アプリケーションは、異なる視点／観点または聴取位置から享受できる音源およびシーンのますます洗練された音響モデルを含むよう、急速に発達しつつある。柔軟なオーディオ表現の二つの異なるクラスがたとえばVRアプリケーションのために用いられることがある：音場表現およびオブジェクト・ベースの表現である。音場表現は聴取位置に入射する波面をエンコードする物理ベースの手法である。たとえば、Bフォーマットまたは高次アンビソニックス（HOA）のような手法は球面調和関数分解を使って空間的な波面を表現する。オブジェクト・ベースの手法は複雑な聴覚シーンを、オーディオ波形もしくはオーディオ信号と可能性としては時間変化する関連するパラメータもしくはメタデータとを含む単独要素の集合として表現する。

【0004】

VR、ARおよびMRアプリケーションを享受することは、ユーザーが異なる聴覚的な視点または観点を経験することを含みうる。たとえば、部屋ベースの仮想現実は、6つの自由度（DoF）を使う機構に基づいて提供されてもよい。図１は、並進移動（前後、上下および左右）および回転移動（ピッチ、ヨー、ロール）を示す6 DoF相互作用の例を示している。頭の回転に制限される3 DoFの球状ビデオ経験とは異なり、6 DoF相互作用のために作成されたコンテンツは、頭の回転に加えて、仮想環境内のナビゲーション（たとえば室内を物理的に歩くこと）をも許容する。これは、位置追跡器（たとえばカメラ・ベースのもの）および配向追跡器（たとえばジャイロスコープおよび／または加速度計）に基づいて達成できる。6 DoF追跡技術は、ハイエンドのモバイルVRプラットフォーム（たとえばグーグル・タンゴ）のほかハイエンドのモバイルVRプラットフォーム（たとえばプレイステーション（登録商標）VR、Oculus Rift、HTC Vive）上で利用可能でありうる。音源またはオーディオ源の方向性および空間的広がりのユーザーによる経験は、6 DoF経験、特にシーン内の、仮想オーディオ源のまわりのナビゲーションの経験のリアルさにとって決定的に重要である。

【0005】

利用可能なオーディオ・レンダリング・システム（たとえばMPEG-H 3Dレンダラー）は典型的には3 DoF（すなわち、聴取者の頭部の動きによって引き起こされるオーディオ・シーンの回転移動）のレンダリングに制限される。聴取者の聴取位置の並進的な変化および関連するDoFは典型的には、そのようなレンダラーによっては扱うことができない。

【発明の概要】

【発明が解決しようとする課題】

【0006】

本稿は、オーディオ・レンダリングのコンテキストにおいて並進移動を扱うための資源効率のよい方法およびシステムを提供するという技術的課題に向けられる。

【課題を解決するための手段】

【0007】

ある側面によれば、仮想現実レンダリング環境においてオーディオ信号をレンダリングする方法が記述される。本方法は、聴取者の起点聴取位置のまわりの起点球上の起点源位置からオーディオ源の起点オーディオ信号をレンダリングすることを含む。さらに、本方法は、起点聴取位置から終点聴取位置に聴取者が移動することを判別することを含む。さらに、本方法は、終点聴取位置のまわりの終点球上の前記オーディオ源の終点源位置を、起点源位置に基づいて決定することを含む。前記終点球上の前記オーディオ源の終点源位置は、起点球上の起点源位置の、終点球上への投影によって決定されてもよい。この投影は、たとえば、前記終点聴取位置に関する透視投影であってもよい。起点球および終点球は同じ半径を有していてもよい。たとえば、両方の球は、レンダリングのコンテキストにおける単位球、たとえば半径1メートルの球に対応しうる。さらに、本方法は、オーディオ源の終点オーディオ信号を、起点オーディオ信号に基づいて決定することを含む。本方法はさらに、終点聴取位置のまわりの終点球上の終点源位置から、オーディオ源の終点オーディオ信号をレンダリングすることを含む。

【0008】

さらなる側面によれば、仮想現実レンダリング環境においてオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラーが記述される。本オーディオ・レンダラーは、聴取者の起点聴取位置のまわりの起点球上の起点源位置からオーディオ源の起点オーディオ信号をレンダリングするよう構成される。さらに、本仮想現実オーディオ・レンダラーは、起点聴取位置から終点聴取位置に聴取者が移動することを判別するよう構成される。さらに、本仮想現実オーディオ・レンダラーは、終点聴取位置のまわりの終点球上の前記オーディオ源の終点源位置を、起点源位置に基づいて決定するよう構成される。さらに、仮想現実オーディオ・レンダラーは、オーディオ源の終点オーディオ信号を、起点オーディオ信号に基づいて決定するよう構成される。仮想現実オーディオ・レンダラーはさらに、終点聴取位置のまわりの終点球上の終点源位置から、オーディオ源の終点オーディオ信号をレンダリングするよう構成される。

【0009】

もう一つの側面によれば、ビットストリームを生成する方法が記述される。本方法は：少なくとも一つのオーディオ源のオーディオ信号を決定し；レンダリング環境内の前記少なくとも一つのオーディオ源の位置に関する位置データを決定し；レンダリング環境内のオーディオのオーディオ伝搬特性を示す環境データを決定し；前記オーディオ信号、前記位置データおよび前記環境データを前記ビットストリームに挿入することを含む。

【0010】

さらなる側面によれば、オーディオ・エンコーダが記述される。本オーディオ・エンコーダは：少なくとも一つのオーディオ源のオーディオ信号と；レンダリング環境内の前記少なくとも一つのオーディオ源の位置と；レンダリング環境内のオーディオのオーディオ伝搬特性を示す環境データとを示すビットストリームを生成するよう構成される。

【0011】

もう一つの側面によれば、ビットストリームが記述される。本ビットストリームは：少なくとも一つのオーディオ源のオーディオ信号と；レンダリング環境内の前記少なくとも一つのオーディオ源の位置と；レンダリング環境内のオーディオのオーディオ伝搬特性を示す環境データとを示す。

【0012】

さらなる側面によれば、仮想現実レンダリング環境においてオーディオ信号をレンダリングする仮想現実オーディオ・レンダラーが記述される。本オーディオ・レンダラーは、仮想現実レンダリング環境内の聴取者の聴取位置のまわりの球上の源位置からオーディオ源のオーディオ信号をレンダリングすることを含む。さらに、本仮想現実オーディオ・レンダラーは、仮想現実レンダリング環境内の聴取者の新たな聴取位置を判別するよう構成された前処理ユニットを有する。さらに、前処理ユニットは、新たな聴取位置のまわりの球に関する前記オーディオ源のオーディオ信号および源位置を更新するよう構成される。3Dオーディオ・レンダラーは、新たな聴取位置のまわりの球上の更新された源位置から、オーディオ信号の更新されたオーディオ信号をレンダリングするよう構成される。

【0013】

さらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために適応されてもよく、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されてもよい。

【0014】

もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上での実行のために適応され、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されたソフトウェア・プログラムを有していてもよい。

【0015】

さらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を含んでいてもよい。

【0016】

本特許出願において概説される好ましい実施形態を含む方法およびシステムは、単独で使われてもよく、本稿に開示される他の方法およびシステムとの組み合わせで使われてもよい。さらに、本特許出願において概説される方法およびシステムのすべての側面は任意に組み合わされうる。特に、請求項の特徴は任意の仕方で互いに組み合わされてもよい。

【図面の簡単な説明】

【0017】

本発明は、付属の図面を参照して例示的な仕方で下記で説明される。

【図1a】6DoFオーディオを提供する例示的なオーディオ処理システムを示す。

【図1b】6DoFオーディオおよび／またはレンダリング環境内の例示的な状況を示す。

【図1c】起点オーディオ・シーンから終点オーディオ・シーンへの例示的な遷移を示す。

【図2】異なるオーディオ・シーンの間の遷移中の空間的オーディオ信号を決定する例示的な方式を示す。

【図3】例示的なオーディオ・シーンを示す。

【図4a】オーディオ・シーン内の聴取位置の変化に反応してのオーディオ源の再マッピングを示す。

【図4b】例示的な距離関数を示す。

【図5a】非一様な指向性プロファイルをもつオーディオ源を示す。

【図5b】オーディオ源の例示的な指向性関数を示す。

【図6】音響的に有意な障害物のある例示的なオーディオ・シーンを示す。

【図7】聴取者の視野および関心焦点を示す。

【図8】オーディオ・シーン内での聴取位置の変化の場合の周囲音オーディオの扱いを示す。

【図9a】異なるオーディオ・シーンの間の遷移中に3Dオーディオ信号をレンダリングするための例示的な方法のフローチャートを示す。

【図9b】異なるオーディオ・シーンの間の遷移のためのビットストリームを生成するための例示的な方法のフローチャートを示す。

【図9c】オーディオ・シーン内の遷移中に3Dオーディオ信号をレンダリングするための例示的な方法のフローチャートを示す。

【図9d】ローカル遷移についてビットストリームを生成するための例示的な方法のフローチャートを示す。

【発明を実施するための形態】

【0018】

上記で概説したように、本稿は、3D（三次元）オーディオ環境における6DoFの効率的な提供に関する。図１ａは、例示的なオーディオ処理システム１００のブロック図を示す。スタジアムのような音響環境１１０は、さまざまな異なるオーディオ源１１３を含む。スタジアム内の例示的なオーディオ源１１３は個々の観客、スタジアム・スピーカー、フィールド上の選手などである。音響環境１１０は異なるオーディオ・シーン１１１、１１２に細分されてもよい。例として、第一のオーディオ・シーン１１１はホームチーム応援ブロックに対応してもよく、第二のオーディオ・シーン１１１はゲストチーム応援ブロックに対応してもよい。オーディオ環境内のどこに聴取者が位置しているかに依存して、聴取者は第一のオーディオ・シーン１１１からのオーディオ源１１３または第二のオーディオ・シーン１１２からのオーディオ源を知覚する。

【0019】

オーディオ環境１１０の異なるオーディオ源１１３は、オーディオ・センサー１２０を使って、特にマイクロフォン・アレイを使って捕捉されてもよい。特に、オーディオ環境１１０の前記一つまたは複数のオーディオ・シーン１１１、１１２は、マルチチャネル・オーディオ信号、一つまたは複数のオーディオ・オブジェクトおよび／または高次アンビソニックス（HOA）信号を使って記述されてもよい。以下では、オーディオ源１１３はオーディオ・センサー１２０によって捕捉されたオーディオ・データに関連付けられていると想定される。ここで、オーディオ・データは、オーディオ信号と、オーディオ源１１３の位置とを時間の関数として（特定のサンプリング・レート、たとえば20msで）示す。

【0020】

MPEG-H 3Dオーディオ・レンダラーのような3Dオーディオ・レンダラーは、典型的には、聴取者がオーディオ・シーン１１１、１１２内の特定の聴取位置に位置していると想定する。オーディオ・シーン１１１、１１２の種々のオーディオ源１１３についてのオーディオ・データは典型的には、聴取者がこの特定の聴取位置に位置しているという想定のもとに提供される。オーディオ・エンコーダ１３０は、一つまたは複数のオーディオ・シーン１１１、１１２のオーディオ源１１３のオーディオ・データをエンコードするよう構成された3Dオーディオ・エンコーダ１３１を有していてもよい。

【0021】

さらに、VR（仮想現実）メタデータが提供されてもよい。これは、聴取者がオーディオ・シーン１１１、１１２内で聴取位置を変えることおよび／または異なるオーディオ・シーン１１１、１１２の間で移動することを可能にする。エンコーダ１３０は、VRメタデータをエンコードするよう構成されたメタデータ・エンコーダ１３２を有していてもよい。エンコードされたVRメタデータおよびオーディオ源１１３のエンコードされたオーディオ・データは、組み合わせユニット１３３において組み合わされて、オーディオ・データおよびVRメタデータを示すビットストリーム１４０を提供してもよい。VRメタデータは、たとえば、オーディオ環境１１０の音響特性を記述する環境データを含んでいてもよい。

【0022】

ビットストリーム１４０は、デコーダ１５０を使ってデコードされて、（デコードされた）オーディオ・データおよび（デコードされた）VRメタデータを与えてもよい。6DoFを許容するレンダリング環境１８０内のオーディオをレンダリングするためのオーディオ・レンダラー１６０は、前処理ユニット１６１および（通常の）3Dオーディオ・レンダラー１６２（MPEG-H 3Dオーディオのような）を有していてもよい。前処理ユニット１６１は、聴取環境１８０内での聴取者１８１の聴取位置１８２を決定するよう構成されてもよい。聴取位置１８２は、聴取者１８１が位置しているオーディオ・シーン１１１を示してもよい。さらに、聴取位置１８２は、オーディオ・シーン１１１内の厳密な位置を示してもよい。前処理ユニット１６１はさらに、（デコードされた）オーディオ・データに基づき、可能性としては（デコードされた）VRメタデータに基づいて、現在の聴取位置１８２のための3Dオーディオ信号を決定するよう構成されてもよい。次いで、3Dオーディオ信号は3Dオーディオ・レンダラー１６２を使ってレンダリングされてもよい。

【0023】

本稿に記述される概念および方式は、周波数変化する仕方で指定されてもよく、グローバルにまたはオブジェクト／メディア依存の仕方で定義されてもよく、スペクトル領域または時間領域で直接適用されてもよく、および／またはVRレンダラー１６０にハードコードされてもよく、または対応する入力インターフェースを介して指定されてもよいことを注意しておくべきである。

【0024】

図１ｂは、例示的なレンダリング環境１８０を示す。聴取者１８１は、起点オーディオ・シーン１１１内に位置されてもよい。レンダリング目的のためには、オーディオ源１１３、１９４は、聴取者１８１のまわりの（単位）球１１４上の種々のレンダリング位置に配置されていると想定されてもよい。種々のオーディオ源１１３、１９４のレンダリング位置は、（所与のサンプリング・レートに従って）時間とともに変化してもよい。VRレンダリング環境１８０内では種々の状況が生起しうる：聴取者１８１は起点オーディオ・シーン１１１から終点オーディオ・シーン１１２へのグローバル遷移１９１を実行してもよい。代替的または追加的に、聴取者１８１は同じオーディオ・シーン１１１内の異なる聴取位置１８２へのローカル遷移１９２を実行してもよい。代替的または追加的に、オーディオ・シーン１１１は、音響的に有意な環境特性（たとえば壁）を示してもよく、これは環境データ１９３を使って記述されてもよく、聴取位置１８２の変化が起こるときに考慮に入れられるべきである。代替的または追加的に、オーディオ・シーン１１１は、（たとえば背景雑音についての）一つまたは複数の周囲音オーディオ源１９４を含んでいてもよく、それは聴取位置１８２の変化が起こるときに考慮に入れられるべきである。

【0025】

図１ｃは、オーディオ源１１３A₁ないしA_nをもつ起点オーディオ・シーン１１１からオーディオ源１１３B₁ないしB_mをもつ終点オーディオ・シーン１１２への例示的なグローバル遷移１９１を示している。オーディオ源１１３は、対応する位置間オブジェクト特性（座標、指向性、距離音減衰関数など）によって特徴付けられてもよい。グローバル遷移１９１はある遷移時間区間内（たとえば5秒、1秒またはそれ未満の範囲内）に実行されてもよい。グローバル遷移１９１の始めにおける起点シーン１１１内の聴取位置１８２は「A」でマークされる。さらに、グローバル遷移１９１の終わりにおける終点シーン１１２内の聴取位置１８２は「B」でマークされる。さらに、図１ｃは、聴取位置「B」と聴取位置「C」の間の、終点シーン１１２内のローカル遷移１９２を示している。

【0026】

図２は、遷移時間区間tの間の起点シーン１１１（または起点ビューポート）から終点シーン１１２（または終点ビューポート）へのグローバル遷移１９１を示している。そのような遷移１９１は、聴取者１８１が、たとえばスタジアム内で、異なるシーンまたはビューポート１１１、１１２の間で切り換えるときに生起しうる。中間時点２１３では、聴取者１８１は起点シーン１１１と終点シーン１１２との間の中間位置に位置されてもよい。中間位置におよび／または中間時点２１３においてレンダリングされる3Dオーディオ信号２０３は、各オーディオ源１１３の音伝搬を考慮に入れながら、起点シーン１１１のオーディオ源１１３A₁ないしA_nのそれぞれおよび終点シーン１１２のオーディオ源１１３B₁ないしB_mのそれぞれの寄与を決定することによって決定されてもよい。しかしながら、これは比較的高い計算量に結びつくことになる（特に、比較的多数のオーディオ源１１３の場合）。

【0027】

グローバル遷移１９１の始めにおいて、聴取者１８１は起点聴取位置２０１に位置されてもよい。遷移１９１全体の間、起点聴取位置２０１に関して3D起点オーディオ信号A_Gが生成されてもよい。ここで、起点オーディオ信号は、起点シーン１１１のオーディオ源１１３に依存するだけである（終点シーン１１２のオーディオ源１１３には依存しない）。さらに、グローバル遷移１９１の始めにおいて、聴取者１８１がグローバル遷移１９１の終わりには終点シーン１１２内の終点聴取位置２０２に到着することが固定されてもよい。遷移１９１全体の間、3D終点オーディオ信号B_Gが終点聴取位置２０２に関して生成されてもよい。ここで、終点オーディオ信号は終点シーン１１２のオーディオ源１１３に依存するだけである（源シーン１１１のオーディオ源１１３には依存しない）。

【0028】

グローバル遷移１９１の間の中間位置および／または中間時点２１３における中間オーディオ信号２０３を決定するために、中間時点２１３における起点オーディオ信号は、中間時点２１３における終点オーディオ信号と組み合わされてもよい。特に、フェードアウト関数２１１から導出されるフェードアウト因子または利得が起点オーディオ信号に適用されてもよい。フェードアウト関数２１１は、フェードアウト因子または利得「a」が起点シーン１１１からの中間位置の増大する距離内で減少するようなものであってもよい。さらに、フェードイン関数２１２から導出されるフェードイン因子または利得が終点オーディオ信号に適用されてもよい。フェードイン関数２１２は、フェードイン因子または利得「b」が終点シーン１１２からの中間位置の減少する距離とともに増大するようなものであってもよい。例示的なフェードアウト関数２１１および例示的なフェードイン関数２１２が図２に示されている。次いで、中間オーディオ信号は、起点オーディオ信号および終点オーディオ信号の重み付けされた和によって与えられてもよく、重みはそれぞれフェードアウト利得およびフェードイン利得に対応する。

【0029】

よって、フェードイン関数または曲線２１２およびフェードアウト関数または曲線２１１が、異なる3DoFビューポート２０１、２０２の間のグローバル遷移１９１について定義されうる。関数２１１、２１２は、起点オーディオ・シーン１１１および終点オーディオ・シーン１１２を表わすあらかじめレンダリングされた仮想オブジェクトまたは3Dオーディオ信号に適用されてもよい。こうすることにより、異なるオーディオ・シーン１１１、１１２の間のグローバル遷移１９１の際に、低下したVRオーディオ・レンダリング計算で、一貫したオーディオ経験が提供されうる。

【0030】

中間位置x_iにおける中間オーディオ信号２０３は、起点オーディオ信号および終点オーディオ信号の線形補間を使って決定されてもよい。オーディオ信号の強度FはF(x_i)＝a*F(A_G)＋(1－a)*F(B_G)によって与えられてもよい。因子「a」および「b＝1－a」は、起点聴取位置２０１、終点聴取位置２０２および中間位置に依存するノルム関数a＝a()によって与えられてもよい。

【0031】

関数への代替として、種々の中間位置についてルックアップテーブルa＝[1,…,0]が与えられてもよい。

【0032】

グローバル遷移１９１の際、追加的な効果（たとえばドップラー効果および／または残響）が考慮に入れられてもよい。関数２１１、２１２は、たとえば芸術的意図を反映するよう、コンテンツ・プロバイダーによって適応されてもよい。関数２１１、２１２に関する情報は、メタデータとしてビットストリーム１４０に含まれてもよい。よって、エンコーダ１３０は、フェードイン関数２１２および／またはフェードアウト関数２１１に関する情報をメタデータとしてビットストリーム１４０内で与えるよう構成されてもよい。代替的または追加的に、オーディオ・レンダラー１６０は、オーディオ・レンダラー１６０において記憶されている関数２１１、２１２を適用してもよい。

【0033】

起点シーン１１１から終点シーン１１２へグローバル遷移１９１が実行されることをレンダラー１６０に対して示すために、フラグが聴取者からレンダラー１６０に、特にVR前処理ユニット１６１に伝達されてもよい。フラグは、遷移フェーズの間の中間オーディオ信号を生成するための本稿に記載されるオーディオ処理をトリガーしてもよい。フラグは、明示的に、または関係した情報を通じて暗黙的に（たとえば新たなビューポートまたは聴取位置２０２の座標を介して）信号伝達されうる。フラグは、いかなるデータ・インターフェース側から送られてもよい（たとえばサーバー／コンテンツ、ユーザー／シーン、補助）。フラグとともに、起点オーディオ信号A_Gおよび終点オーディオ信号B_Gについての情報が与えられてもよい。例として、一つまたは複数のオーディオ・オブジェクトまたはオーディオ源のIDが与えられてもよい。あるいはまた、起点オーディオ信号および／または終点オーディオ信号を計算する要求がレンダラー１６０に与えられてもよい。

【0034】

よって、3DoFレンダラー１６２のための前処理ユニット１６１を有するVRレンダラー１６０であって、資源効率のよい仕方で6DoF機能を可能にするものが記述される。前処理ユニット１６１は、MPEG-H 3Dオーディオ・レンダラーのような標準的な3DoFレンダラー１６２の使用を許容する。VR前処理ユニット１６１は、それぞれ起点シーン１１１および終点シーン１１２を表わす事前レンダリングされた仮想オーディオ・オブジェクトA_GおよびB_Gを使ってグローバル遷移１９１のための計算を効率的に実行するよう構成されてもよい。グローバル遷移１９１の間、二つの事前レンダリングされた仮想オブジェクトのみを利用することにより、計算量が削減される。各仮想オブジェクトは、複数のオーディオ源についての複数のオーディオ信号を含んでいてもよい。さらに、遷移１９１の間、事前レンダリングされた仮想オーディオ・オブジェクトA_GおよびB_Gのみがビットストリーム１４０内で与えられうるので、ビットレート要件が低減されうる。さらに、処理遅延が低減されうる。

【0035】

グローバル遷移軌跡に沿ったすべての中間位置について3DoF機能が提供されてもよい。これは、フェードアウト／フェードイン関数２１１、２１２を使って起点オーディオ・オブジェクトおよび終点オーディオ・オブジェクトを重ねることによって達成されてもよい。さらに、追加的なオーディオ・オブジェクトがレンダリングされてもよく、および／または追加のオーディオ効果が含められてもよい。

【0036】

図３は、同じオーディオ・シーン１１１内での起点聴取位置B ３０１から終点聴取位置C ３０２への例示的なローカル遷移１９２を示している。オーディオ・シーン１１１は、異なるオーディオ源またはオブジェクト３１１、３１２、３１３を含む。異なるオーディオ源またはオブジェクト３１１、３１２、３１３は異なる指向性プロファイル３３２を有していてもよい。さらに、オーディオ・シーン１１１は、オーディオ・シーン１１１内でのオーディオの伝搬に対して影響をもつ環境特性、特に一つまたは複数の障害物を有していてもよい。環境特性は、環境データ１９３を使って記述されうる。さらに、オーディオ・オブジェクト３１１の聴取位置３０１、３０２への相対距離３２１、３２２は既知であってもよい。

【0037】

図４ａおよび４ｂは、異なるオーディオ源またはオブジェクト３１１、３１２、３１３の強度に対するローカル遷移１９２の効果を扱うための方式を示している。上記で概説したように、オーディオ・シーン１１１のオーディオ源３１１、３１２、３１３は典型的には、3Dオーディオ・レンダラー１６２によって、聴取位置３０１のまわりの球１１４上に位置していると想定される。よって、ローカル遷移１９２の始めには、オーディオ源３１１、３１２、３１３は、起点聴取位置３０１のまわりの起点球１１４上に配置されていてもよく、ローカル遷移１９２の終わりには、オーディオ源３１１、３１２、３１３は、終点聴取位置３０２のまわりの終点球１１４上に配置されていてもよい。球１１４の半径は聴取位置とは独立であってもよい。すなわち、起点球１１４および終点球１１４は同じ半径を有していてもよい。たとえば、それらの球は（たとえばレンダリングのコンテキストにおいて）単位球であってもよい。一例では、それらの球の半径は1メートルであってもよい。

【0038】

オーディオ源３１１、３１２、３１３は、起点球１１４から終点球１１４に再マッピング（たとえば幾何学的に再マッピング）されてもよい。この目的のために、終点聴取位置３０２から起点球１１４上のオーディオ源３１１、３１２、３１３の源位置に行く射線〔レイ〕が考慮されてもよい。オーディオ源３１１、３１２、３１３は、その射線の、終点球１１４との交点に配置されてもよい。

【0039】

終点球１１４上のオーディオ源３１１、３１２、３１３の強度Fは典型的には、起点球１１４上での強度とは異なる。強度Fは、聴取位置３０１、３０２からのオーディオ源３１１、３１２、３１３の距離４２０の関数として距離利得４１０を与える強度利得関数または距離関数４１５を使って修正されてもよい。距離関数４１５は典型的には、それ以遠ではゼロの距離利得４１０が適用されるカットオフ距離４２１を示す。オーディオ源３１１の起点聴取位置３０１までの起点距離３２１が、起点利得４１１を与える。たとえば、起点距離３２１は起点球１１４の半径に対応してもよい。さらに、オーディオ源３１１の終点聴取位置３０２までの終点距離３２２は、終点利得４１２を与える。たとえば、終点距離３２２は、終点聴取位置３０２から、起点球１１４上のオーディオ源３１１、３１２、３１３の源位置までの距離であってもよい。オーディオ源３１１の強度Fは、起点利得４１１および終点利得４１２を使って再スケーリングされてもよく、それにより終点球１１４上でのオーディオ源３１１の強度Fを与える。特に、起点球１１４上のオーディオ源３１１の起点オーディオ信号の強度Fが、起点利得４１１により除算され、終点利得４１２を乗算されて、終点球１１４上のオーディオ源３１１の終点オーディオ信号の強度Fを与えてもよい。

【0040】

よって、ローカル遷移１９２後のオーディオ源３１１の位置は、（たとえば幾何学的変換を使って）C_i＝source_remap_function(B_i,C)として決定されてもよい。さらに、ローカル遷移１９２後のオーディオ源３１１の強度はF(C_i)＝F(B_i)*distance_function(B_i,C_i,C)として決定されてもよい。したがって、距離減衰は、距離関数４１５によって与えられる対応する強度利得によってモデル化されうる。

【0041】

図５ａおよび５ｂは、非一様な指向性プロファイル３３２をもつオーディオ源３１２を示している。指向性プロファイルは、種々の方向または指向性角５２０について利得値を示す指向性利得５１０を使って定義されうる。特に、オーディオ源３１２の指向性プロファイルは、指向性角５２０の関数として指向性利得５１０を示す指向性利得関数５１５を使って定義されてもよい（ここで、角５２０は0°から360°の範囲でありうる）。3Dオーディオ源３１２について、指向性角５２０は典型的には方位角および仰角を含む二次元角である。よって、指向性利得関数５１５は典型的には、二次元の指向性角５２０の二次元関数である。

【0042】

オーディオ源３１２の指向性プロファイル３３２は、ローカル遷移１９２のコンテキストにおいて、オーディオ源３１２と起点聴取位置３０１との間の起点射線の起点指向性角５２１（オーディオ源は、起点聴取位置３０１のまわりの起点球１１４上に配置される）と、オーディオ源３１２と終点聴取位置３０２との間の終点射線の終点指向性角５２２（オーディオ源は、終点聴取位置３０２のまわりの終点球１１４上に配置される）とを決定することによって考慮に入れられてもよい。オーディオ源３１２の指向性利得関数５１５を使って、起点指向性利得５１１および終点指向性利得５１２は、それぞれ起点指向性角５２１および終点指向性角５２２についての指向性利得関数５１５の関数値として決定されうる（図５ｂ参照）。次いで、終点聴取位置３０２でのオーディオ源３１２の強度Fを決定するよう、起点聴取位置３０１におけるオーディオ源３１２の強度Fは、起点指向性利得５１１によって除算され、終点指向性利得５１２を乗算されてもよい。

【0043】

よって、音源指向性が、指向性利得関数５１５によって示される指向性因子または利得５１０によってパラメータ化されてもよい。指向性利得関数５１５は、何らかの距離にあるオーディオ源３１２の強度を、聴取位置３０１、３０２に対する角度５２０の関数として示してもよい。指向性利得５１０は、同じ距離にあり同じ全パワーをもつ、オーディオ源３１２であって、該全パワーはすべての方向に一様に放射される、オーディオ源３１２の利得に対する比として定義されてもよい。指向性プロファイル３３２は、オーディオ源３１２の中心に発し、オーディオ源３１２の中心のまわりの単位球上に分布した諸点で終わる諸ベクトルに対応する利得５１０の集合によってパラメータ化されてもよい。オーディオ源３１２の指向性プロファイル３３２は、使用事例シナリオおよび利用可能なデータ（たとえば、3D飛行事例のための一様分布、2D+使用事例のための平坦化された分布など）に依存してもよい。

【0044】

終点聴取位置３０２におけるオーディオ源３１２の、結果として得られるオーディオ強度は、F(C_i)＝F(B_i)*Distance_function()*Directivity_gain_function(C_i,C,Directivity_parametrization)として推定されてもよい。ここで、Directivity_gain_function〔指向性利得関数〕はオーディオ源３１２の指向性プロファイル３３２に依存する。Distance_function()〔距離関数〕は、オーディオ源３１２の遷移に起因するオーディオ源３１２の距離３２１、３２２の変化によって引き起こされる修正された強度を考慮に入れる。

【0045】

図６は、異なる聴取位置３０１、３０２の間のローカル遷移１９２のコンテキストにおいて考慮に入れられる必要がありうる例示的な障害物６０３を示している。具体的には、オーディオ源３１３は、終点聴取位置３０２において障害物６０３の背後に隠されることがありうる。障害物６０３は、一組のパラメータを含む環境データ１９３によって記述されてもよい。パラメータは、障害物６０３の空間的寸法および障害物６０３によって引き起こされる音の減衰を示す障害物減衰関数などである。

【0046】

オーディオ源３１３は、終点聴取位置３０２までの無障害物距離６０２（obstacle-free distance、OSD）を示しうる。OFD ６０２は、オーディオ源３１３と終点聴取位置３０２との間の、障害物６０３を通らない最短経路の長さを示しうる。さらに、オーディオ源３１３は、終点聴取位置３０２までの通過距離６０１（going-through distance、GHD）を示しうる。GHD ６０１は、オーディオ源３１３と終点聴取位置３０２との間の、典型的には障害物６０３を通る最短経路の長さを示しうる。障害物減衰関数は、OFD ６０２およびGHD ６０１の関数でありうる。さらに、障害物減衰関数は、オーディオ源３１３の強度F(B_i)の関数であってもよい。

【0047】

終点聴取位置３０２におけるオーディオ源C_iの強度は、障害物６０３のまわりを通るオーディオ源３１３からの音と障害物６０３を通過するオーディオ源３１３からの音の組み合わせでありうる。

【0048】

よって、VRレンダラー１６０は、環境幾何および媒体の影響を制御するためのパラメータを与えられてもよい。障害物幾何／媒体データ１９３またはパラメータは、コンテンツ・プロバイダーおよび／またはエンコーダ１３０によって提供されてもよい。オーディオ源３１３のオーディオ強度は：F(C_i)＝F(B_i)*Distance_function(OFD)*Directivity_gain_function(OFD)＋Obstacle_attenuation_function(F(Bi),OFD,GHD)として推定されうる。第一項は、障害物６０３を迂回する音の寄与に対応する。第二項は、障害物６０３を通る音の寄与に対応する。

【0049】

最小の無障害物距離（OFD）６０２は、A* Dijkstraの経路発見アルゴリズムを使って決定されてもよく、直接音減衰を制御するために使われてもよい。通過距離（GHD）６０１は、残響および歪みを制御するために使われてもよい。代替的または追加的に、オーディオ源３１３の強度に対する障害物６０３の効果を記述するために、レイキャスティング手法が使われてもよい。

【0050】

図７は、終点聴取位置３０２に配置された聴取者１８１の例示的な視野７０１を示している。さらに、図７は、終点聴取位置３０２に配置された聴取者の例示的な関心焦点７０２を示している。視野７０１および／または関心焦点７０２は、視野７０１および／または関心焦点７０２内にあるオーディオ源からくるオーディオを増強する（たとえば増幅する）ために使用されてもよい。視野７０１は、ユーザー駆動の効果であると考えられてもよく、ユーザーの視野（field of view）７０１に関連するオーディオ源３１１についての音増強器を可能にするために使用されてもよい。特に、聴取者の視野７０１内にあるオーディオ源３１１に関連する発話信号の理解可能性を向上するために背景オーディオ源からの周波数タイルを除去することによって、「カクテルパーティー効果」シミュレーションが実行されてもよい。関心焦点（attention focus）７０２は、コンテンツ駆動の効果と見ることができ、関心対象のコンテンツ領域に関連するオーディオ源３１１のための音増強器を可能にする（たとえば、オーディオ源３１１の方向を見るおよび／またはその方向に進むようユーザーの注意を引きつける）ために使用されてもよい。

【0051】

オーディオ源３１１のオーディオ強度は：F(B_i)＝Field_of_view_function(C,F(B_i),Field_of_view_data)として修正されてもよい。ここで、Field_of_view_function〔視野関数〕は、聴取者１８１の視野７０１内にあるオーディオ源３１１のオーディオ信号に適用される修正を記述する。さらに、聴取者の関心焦点７０２内にあるオーディオ源のオーディオ強度は：F(B_i)＝Attention_focus_function(F(B_i),Attention_focus_data)として修正されてもよい。ここで、attention_focus_function〔関心焦点関数〕は、関心焦点７０２内にあるオーディオ源３１１のオーディオ信号に適用される修正を記述する。

【0052】

起点聴取位置３０１から終点聴取位置３０２への聴取者１８１の遷移を扱うための本稿に記載される関数は、同様の仕方で、オーディオ源３１１、３１２、３１３の位置変化に適用されてもよい。

【0053】

よって、本稿は、任意の聴取位置３０１、３０２におけるローカルなVRオーディオ・シーン１１１を表わす仮想オーディオ・オブジェクトまたはオーディオ源３１１、３１２、３１３の座標および／またはオーディオ強度を計算するための効率的な手段を記述する。座標および／または強度は、音源距離減衰曲線、音源配向および指向性、環境幾何／媒体影響および／または追加的なオーディオ信号向上のための「視野」および「関心焦点」データを考慮に入れて決定されうる。記述される諸方式は、聴取位置３０１、３０２および／またはオーディオ・オブジェクト／源３１１、３１２、３１３の位置が変化する場合にのみ計算を実行することによって、計算量を有意に低減しうる。

【0054】

さらに、本稿は、VRレンダラー１６０のための距離、指向性、幾何関数、処理および／または信号伝達機構の指定のための概念を記述する。さらに、直接音減衰を制御するための最小「無障害物距離」および残響および歪みを制御するための「通過距離」についての概念が記述される。さらに、音源指向性パラメータ化の概念が記述される。

【0055】

図８は、ローカル遷移１９２のコンテキストにおける周囲音源８０１、８０２、８０３の扱いを示している。具体的には、図８は三つの異なる周囲音源８０１、８０２、８０３を示している。ここで、周囲音は、点オーディオ源に帰されてもよい。点オーディオ源３１１が周囲音オーディオ源８０１であることを示すために、前処理ユニット１６１に周囲音フラグが与えられてもよい。聴取位置３０１、３０２のローカルおよび／またはグローバルな遷移の間の処理は、周囲音フラグの値に依存してもよい。

【0056】

グローバル遷移１９１のコンテキストでは、周囲音源８０１は、通常のオーディオ源３１１のように扱われてもよい。図８は、ローカル遷移１９２を示す。周囲音源８０１、８０２、８０３の位置は、起点球１１４から終点球１１４にコピーされてもよく、それにより、終点聴取位置３０２における周囲音源８１１、８１２、８１３の位置を与える。さらに、環境条件が不変のままであれば、周囲音源８０１の強度は不変のままに保たれてもよい。すなわち、F(C_Ai)＝F(B_Ai)である。他方、障害物６０３の場合、周囲音源８０３、８１３の強度は、障害物減衰関数を使って、たとえばF(C_Ai)＝F(BAi)*Distance_function_Ai(OFD)＋Obstacle_attenuation_function(F(B_Ai),OFD,GHD)として決定されてもよい。

【0057】

図９ａは、仮想現実レンダリング環境１８０においてオーディオをレンダリングするための例示的方法９００のフローチャートを示している。方法９００は、VRオーディオ・レンダラー１６０によって実行されてもよい。方法９００は、聴取者１８１の聴取位置２０１のまわりの球１１４上の起点源位置から起点オーディオ・シーン１１１のオーディオ源１１３の起点オーディオ信号をレンダリングすること９０１を含む。レンダリング９０１は、3DoFだけを扱うことに限定されてもよい、特に聴取者１８１の頭の回転移動のみを扱うことに限定されてもよい3Dオーディオ・レンダラー１６２を使って実行されてもよい。特に、3Dオーディオ・レンダラー１６２は、聴取者の頭部の並進運動を扱うよう構成されてはいない。3Dオーディオ・レンダラー１６２は、MPEG-Hオーディオ・レンダラーを含んでいてもよく、あるいはMPEG-Hオーディオ・レンダラーであってもよい。

【0058】

「特定の源位置からオーディオ源１１３のオーディオ信号をレンダリングする」という表現は、聴取者が、オーディオ信号を、その特定の源位置からくるものとして知覚することを示すことを注意しておく。この表現は、オーディオ信号が実際にどのようにレンダリングされるかに対する限定として理解されるべきではない。「特定の源位置からオーディオ信号をレンダリングする」ために、すなわち、聴取者１８１に、特定の源位置からオーディオ信号がきているという知覚を提供するために、さまざまな異なるレンダリング技法が使用されうる。

【0059】

さらに、方法９００は、聴取者１８１が起点オーディオ・シーン１１１内の聴取位置２０１から異なる終点オーディオ・シーン１１２内の聴取位置２０２に移動することを判別すること９０２を含む。よって、起点オーディオ・シーン１１１から終点オーディオ・シーン１１２へのグローバル遷移１９１が検出されうる。このコンテキストにおいて、方法９００は、聴取者１８１が起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動するという指標を受領することを含んでいてもよい。該指標は、フラグを含んでいてもよく、あるいはフラグであってもよい。指標は、聴取者１８１からVRオーディオ・レンダラー１６０に、たとえばVRオーディオ・レンダラー１６０のユーザー・インターフェースを介して伝えられてもよい。

【0060】

典型的には、起点オーディオ・シーン１１１および終点オーディオ・シーン１１２はそれぞれ、互いに異なる一つまたは複数のオーディオ源１１３を含む。具体的には、前記一つまたは複数の起点オーディオ源１１３の起点オーディオ信号は、終点オーディオ・シーン１１２内で可聴でないことがあり、および／または前記一つまたは複数の終点オーディオ源１１３の終点オーディオ信号は、起点オーディオ・シーン１１１内で可聴でないことがある。

【0061】

方法９００は、（新たな終点オーディオ・シーン１１２へのグローバル遷移１９１が実行されることを判別することに反応して）起点オーディオ信号にフェードアウト利得を適用９０３して、修正された起点オーディオ信号を決定することを含んでいてもよい。さらに、方法９００は、（新たな終点オーディオ・シーン１１２へのグローバル遷移１９１が実行されることを判別することに反応して）起点オーディオ源１１３の前記修正された起点オーディオ信号を、聴取者位置２０１、２０２のまわりの球１１４上の起点源位置からレンダリング９０４することを含んでいてもよい。

【0062】

よって、起点オーディオ・シーン１１１の前記一つまたは複数の起点オーディオ源１１３の起点オーディオ信号を漸進的にフェードアウトさせることによって、異なるオーディオ・シーン１１１、１１２の間のグローバル遷移１９１が実行されうる。この結果として、異なるオーディオ・シーン１１１、１１２の間の、計算効率がよく、音響的に一貫したグローバル遷移１９１が提供される。

【0063】

聴取者１８１がある遷移時間区間の間に、起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動することが判別されることがありうる。ここで、遷移時間区間は典型的にはある継続時間（たとえば2s、1s、500msまたはそれ未満）をもつ。グローバル遷移１９１は、該遷移時間区間内に漸進的に実行されてもよい。具体的には、グローバル遷移１９１の間、遷移時間区間内の中間時点２１３が（たとえば、100ms、50ms、20msまたはそれ未満などのあるサンプリング・レートに従って）決定されてもよい。すると、フェードアウト利得は、遷移時間区間内の中間時点２１３の相対位置に基づいて決定されうる。

【0064】

具体的には、グローバル遷移１９１のための遷移時間区間は、中間時点２１３のシーケンスに細分されてもよい。中間時点２１３のシーケンスの各中間時点２１３について、前記一つまたは複数の起点オーディオ源の起点オーディオ信号を修正するためのフェードアウト利得が決定されてもよい。さらに、中間時点２１３のシーケンスの各中間時点２１３において、前記一つまたは複数の起点オーディオ源１１３の修正された起点オーディオ信号が、聴取位置２０１、２０２のまわりの球１１４上の起点源位置からレンダリングされてもよい。こうすることにより、音響的に一貫したグローバル遷移１９１が、計算効率のよい仕方で実行されうる。

【0065】

方法９００は、遷移時間区間内の種々の中間時点２１３におけるフェードアウト利得を示すフェードアウト関数２１１を提供することを含んでいてもよい。ここで、フェードアウト関数２１１は典型的には、フェードアウト利得が、進行する中間時点２１３とともに減少し、それにより終点オーディオ・シーン１１２へのなめらかなグローバル遷移１９１を提供するようなものである。具体的には、フェードアウト関数２１１は、起点オーディオ信号が遷移時間区間の始めには無修正のままである、起点オーディオ信号が進行する中間時点２１３においてますます減衰されていく、および／または起点オーディオ信号が遷移時間区間の終わりには完全に減衰される、というものでありうる。

【0066】

聴取位置２０１、２０２のまわりの球１１４上の起点オーディオ源１１３の起点源位置は、聴取者１８１が起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動する際に（特に、前記遷移時間区間全体の間）維持されてもよい。代替的または追加的に、聴取者１８１が（前記遷移時間区間全体の間）同じ聴取位置２０１、２０２に留まることが想定されてもよい。こうすることにより、オーディオ・シーン１１１、１１２の間のグローバル遷移１９１のための計算量がさらに低減されうる。

【0067】

方法９００はさらに、終点オーディオ・シーン１１２の終点オーディオ源１１３の終点オーディオ信号を決定することを含んでいてもよい。さらに、方法９００は、聴取位置２０１、２０２のまわりの球１１４上の終点源位置を決定することを含んでいてもよい。さらに、方法９００は、終点オーディオ信号にフェードイン利得を適用して、修正された終点オーディオ信号を決定することを含んでいてもよい。次いで、終点オーディオ源１１３の前記修正された終点オーディオ信号が、聴取位置２０１、２０２のまわりの球１１４上の終点源位置からレンダリングされうる。

【0068】

よって、起点シーン１１１の前記一つまたは複数の起点オーディオ源１１３の起点オーディオ信号のフェードアウトと同様に、終点シーン１１２の一つまたは複数の終点オーディオ源１１３の終点オーディオ信号がフェードインされて、それにより、オーディオ・シーン１１１、１１２の間のなめらかなグローバル遷移１９１を提供してもよい。

【0069】

上記のように、聴取者１８１は、遷移時間区間の間、起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動してもよい。フェードイン利得は、遷移時間区間内の中間時点２１３の相対位置に基づいて決定されてもよい。具体的には、フェードイン利得のシーケンスが、グローバル遷移１９１の間の中間時点２１３の対応するシーケンスについて、決定されてもよい。

【0070】

フェードイン利得は、遷移時間区間内の種々の中間時点２１３におけるフェードイン利得を示すフェードイン関数２１２を使って決定されてもよい。ここで、フェードイン関数２１２は典型的には、フェードイン利得が、進行する中間時点２１３とともに増大するようなものである。具体的には、フェードイン関数２１２は、終点オーディオ信号が遷移時間区間の始めには完全に減衰されている、終点オーディオ信号が進行する中間時点２１３において減衰が少なくなっていく、および／または終点オーディオ信号が遷移時間区間の終わりには無修正のままとなる、というものであってもよく、それにより、オーディオ・シーン１１１、１１２の間のなめらかなグローバル遷移１９１を、計算効率のよい仕方で提供しうる。

【0071】

起点オーディオ源１１３の起点源位置と同様に、聴取位置２０１、２０２のまわりの球１１４上の終点オーディオ源１１３の終点源位置は、聴取者１８１が起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動する際に、特に、前記遷移時間区間全体の間、維持されてもよい。代替的または追加的に、（前記遷移時間区間全体の間）聴取者１８１が同じ聴取位置２０１、２０２に留まることが想定されてもよい。こうすることにより、オーディオ・シーン１１１、１１２の間のグローバル遷移１９１のための計算量がさらに低減されうる。

【0072】

フェードアウト関数２１１および／またはフェードイン関数２１２は、起点オーディオ信号および／または終点オーディオ信号を示すビットストリームから導出されてもよい。ビットストリーム１４０は、エンコーダ１３０によってVRオーディオ・レンダラー１６０に提供されてもよい。よって、グローバル遷移１９１は、コンテンツ・プロバイダーによって制御されうる。代替的または追加的に、フェードアウト関数２１１および／またはフェードイン関数２１２は、仮想現実レンダリング環境１８０内で起点オーディオ信号および／または終点オーディオ信号をレンダリングするよう構成されている仮想現実（VR）オーディオ・レンダラー１６０の記憶ユニットから導出されてもよく、それによりオーディオ・シーン１１１、１１２の間のグローバル遷移１９１の間の信頼性の高い動作を提供しうる。

【0073】

方法９００は、聴取者１８１が起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動するという指標（たとえばそのことを示すフラグ）をエンコーダ１３０に送ることを含んでいてもよい。ここで、エンコーダ１３０は、起点オーディオ信号および／または終点オーディオ信号を示すビットストリーム１４０を生成するよう構成されてもよい。前記指標により、エンコーダ１３０は、起点オーディオ・シーン１１１の前記一つまたは複数のオーディオ源１１３のためのおよび／または終点オーディオ・シーン１１２の前記一つまたは複数のオーディオ源１１３のための前記オーディオ信号を選択的に、ビットストリーム１４０内で提供することができる。よって、これからくるグローバル遷移１９１についての指標を提供することで、ビットストリーム１４０のための要求される帯域幅の低減が可能になる。

【0074】

上記ですでに示したように、起点オーディオ・シーン１１１は複数の起点オーディオ源１１３を含みうる。よって、方法９００は、対応する複数の起点オーディオ源１１３の複数の起点オーディオ信号を、聴取位置２０１、２０２のまわりの球１１４上の複数の異なる起点源位置からレンダリングすることを含みうる。さらに、方法９００は、複数の起点オーディオ信号にフェードアウト利得を適用して、複数の修正された起点オーディオ信号を決定することを含んでいてもよい。さらに、方法９００は、起点オーディオ源１１３の複数の修正された起点オーディオ信号を、聴取位置２０１、２０２のまわりの球１１４上の対応する複数の異なる起点源位置からレンダリングすることを含みうる。

【0075】

同様に、方法９００は、終点オーディオ・シーン１１２の対応する複数の終点オーディオ源１１３の複数の終点オーディオ信号を決定することを含みうる。さらに、方法９００は、聴取位置２０１、２０２のまわりの球１１４上の複数の終点源位置を決定することを含みうる。さらに、方法９００は、複数の終点オーディオ信号にフェードイン利得を適用して、対応する複数の修正された終点オーディオ信号を決定することを含んでいてもよい。さらに、方法９００は、複数の終点オーディオ源１１３の複数の修正された終点オーディオ信号を、聴取位置２０１、２０２のまわりの球１１４上の対応する複数の終点源位置からレンダリングすることを含む。

【0076】

代替的または追加的に、グローバル遷移１９１の間にレンダリングされる起点オーディオ信号は、複数の起点オーディオ源１１３のオーディオ信号の重なりであってもよい。具体的には、遷移時間区間の始めには、起点オーディオ・シーン１１１の（すべての）オーディオ源１１３のオーディオ信号が組み合わされて、組み合わされた起点オーディオ信号を与えてもよい。この起点オーディオ信号が、フェードアウト利得を用いて修正されてもよい。さらに、起点オーディオ信号は、遷移時間区間の間にある特定のサンプリング・レート（たとえば20ms）で更新されてもよい。同様に、終点オーディオ信号は、複数の終点オーディオ源１１３（特に、すべての終点オーディオ源１１３）のオーディオ信号の組み合わせに対応してもよい。次いで、組み合わされた終点オーディオ源はフェードイン利得を使って遷移時間区間の間に修正されてもよい。起点オーディオ・シーン１１１と終点オーディオ・シーン１１２のオーディオ信号それぞれを組み合わせることによって、計算量がさらに低減されうる。

【0077】

さらに、仮想現実レンダリング環境１８０においてオーディオをレンダリングするための仮想現実オーディオ・レンダラー１６０が記述される。本稿で概説されているように、VRオーディオ・レンダラー１６０は、前処理ユニット１６１および3Dオーディオ・レンダラー１６２を有していてもよい。仮想現実オーディオ・レンダラー１６０は、起点オーディオ・シーン１１１の起点オーディオ源１１３の起点オーディオ信号を、聴取者１８１の聴取位置２０１のまわりの球１１４上の起点源位置からレンダリングするよう構成されてもよい。さらに、VRオーディオ・レンダラー１６０は、聴取者１８１が起点オーディオ・シーン内１１１の聴取位置２０１から異なる終点オーディオ・シーン１１２内の聴取位置２０２に移動することを判別するよう構成される。さらに、VRオーディオ・レンダラー１６０は、起点オーディオ信号にフェードアウト利得を適用して、修正された起点オーディオ信号を決定し、起点オーディオ源１１３の修正された起点オーディオ信号を、聴取位置２０１、２０２のまわりの球１１４上の起点源位置からレンダリングするよう構成される。

【0078】

さらに、仮想現実レンダリング環境１８０内でレンダリングされるべきオーディオ信号を示すビットストリーム１４０を生成するよう構成されたエンコーダ１３０が記述される。レンダラー１３０は、起点オーディオ・シーン１１１の起点オーディオ源１１３の起点オーディオ信号を決定するよう構成されてもよい。さらに、エンコーダ１３０は、起点オーディオ源１１３の起点源位置に関する起点位置データを決定するよう構成されてもよい。エンコーダ１３０は、次いで、起点オーディオ信号および起点位置データを含むビットストリーム１４０を生成してもよい。

【0079】

エンコーダ１３０は、聴取者１８１が仮想現実レンダリング環境１８０内で起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動するという指標を（VRオーディオ・レンダラー１６０からエンコーダ１３０へのフィードバック・チャネルを介して）受信してもよい。

【0080】

エンコーダ１３０は次いで、終点オーディオ・シーン１１２の終点オーディオ源１１３の終点オーディオ信号と、終点オーディオ源１１３の終点源位置に関する終点位置データとを（特に、そのような指標を受信することに反応してのみ）決定してもよい。さらに、エンコーダ１３０は、終点オーディオ信号および終点位置データを含むビットストリーム１４０を生成してもよい。よって、エンコーダ１３０は、終点オーディオ源１１２の一つまたは複数の終点オーディオ源１１３の終点オーディオ信号を、終点オーディオ・シーン１１２へのグローバル遷移１９１についての指標を受信することを受けてのみ、提供するよう構成されてもよい。こうすることにより、ビットストリーム１４０についての要求される帯域幅が低減されうる。

【0081】

図９ｂは、仮想現実レンダリング環境１８０内でレンダリングされるべきオーディオ信号を示すビットストリーム１４０を生成するための対応する方法９３０のフローチャートを示している。方法９３０は、起点オーディオ・シーン１１１の起点オーディオ源１１３の起点オーディオ信号を決定９３１することを含む。さらに、方法９３０は、起点オーディオ源１１３の起点源位置に関する起点位置データを決定９３２することを含む。さらに、方法９３０は、起点オーディオ信号および起点位置データを含むビットストリーム１４０を生成９３３することを含む。

【0082】

方法９３０は、聴取者１８１が仮想現実レンダリング環境１８０内で起点オーディオ・シーン１１１から終点オーディオ・シーン１１２に移動するという指標を受信９３４することを含む。これに反応して、方法９３０は、終点オーディオ・シーン１１２の終点オーディオ源１１３の終点オーディオ信号を決定９３５し、終点オーディオ源１１３の終点源位置に関する終点位置データを決定９３６することを含んでいてもよい。さらに、方法９３０は、終点オーディオ信号および終点位置データを含むビットストリーム１４０を生成９３７することを含む。

【0083】

図９ｃは、仮想現実レンダリング環境１８０においてオーディオ信号をレンダリングするための例示的な方法９１０のフローチャートを示している。方法９１０は、VRオーディオ・レンダラー１６０によって実行されてもよい。

【0084】

方法９１０は、オーディオ源３１１、３１２、３１３の起点オーディオ信号を、聴取者１８１の起点聴取位置３０１のまわりの起点球１１４上の起点源位置からレンダリング９１１することを含む。レンダリング９１１は、3Dオーディオ・レンダラー１６２を使って実行されてもよい。特に、レンダリング９１１は、起点聴取位置３０１が固定されているという想定のもとで実行されてもよい。よって、レンダリング９１１は、三自由度に（特に、聴取者１８１の頭部の回転運動に）制限されうる。

【0085】

（聴取者１８１の並進移動についての）追加的な三つの自由度を考慮に入れるため、方法９１０は、聴取者１８１が起点聴取位置３０１から終点聴取位置３０２に移動することを判別９１２することを含んでいてもよい。ここで、終点聴取位置３０２は典型的には同じオーディオ・シーン１１１内にある。よって、聴取者１８１は、同じオーディオ・シーン１１１内でのローカル遷移１９２を実行すると判別９１２されてもよい。

【0086】

聴取者１８１がローカル遷移１９２を実行することを判別するのに反応して、方法９１０は、終点聴取位置３０２のまわりの終点球１１４上のオーディオ源３１１、３１２、３１３の終点源位置を、起点源位置に基づいて決定９１３することを含んでいてもよい。換言すれば、オーディオ源３１１、３１２、３１３の源位置が、起点聴取位置３０１のまわりの起点球１１４から終点聴取位置３０２のまわりの終点球１１４に転写されてもよい。これは、起点源位置を起点球１１４から終点球に投影することによって達成されてもよい。たとえば、起点球上の起点源位置の終点球への、終点聴取位置３０２に関する透視投影が実行されてもよい。特に、終点源位置が、終点聴取位置３０２と起点源位置との間の射線の、終点球１１４との交点に対応するよう、終点源位置が決定されてもよい。上記において、起点球１１４および終点球は同じ半径を有していてもよい。この半径は、たとえば所定の半径であってもよい。所定の半径は、レンダリングを実行するレンダラーのデフォルト値であってもよい。

【0087】

さらに、方法９１０は、（聴取者１８１がローカル遷移１９２を実行することを判別することに反応して）起点オーディオ信号に基づいてオーディオ源３１１、３１２、３１３の終点オーディオ信号を決定９１４することを含んでいてもよい。特に、終点オーディオ信号の強度は、起点オーディオ信号の強度に基づいて決定されてもよい。代替的または追加的に、終点オーディオ信号のスペクトル組成が、起点オーディオ信号のスペクトル組成に基づいて決定されてもよい。よって、オーディオ源３１１、３１２、３１３のオーディオ信号が終点聴取位置３０２からどのように知覚されるかが決定されてもよい（特に、オーディオ信号の強度および／またはスペクトル組成が決定されてもよい）。

【0088】

上述した決定する段階９１３、９１４は、VRオーディオ・レンダラー１６０の前処理ユニット１６１によって実行されてもよい。前処理ユニット１６１は、起点聴取位置３０１のまわりの起点球１１４から終点聴取位置３０２のまわりの終点球１１４に一つまたは複数のオーディオ源３１１、３１２、３１３のオーディオ信号を移転することによって、聴取者１８１の並進運動を扱ってもよい。この結果として、前記一つまたは複数のオーディオ源３１１、３１２、３１３の移転されたオーディオ信号も、（3DoFに制限されていてもよい）3Dオーディオ・レンダラー１６２を使ってレンダリングされうる。よって、方法９１０は、VRオーディオ・レンダリング環境１８０内で6DoFの効率的な提供を許容する。

【0089】

結果として、方法９１０は、（たとえばMPEG-Hオーディオ・レンダラーのような3Dオーディオ・レンダラーを使って）オーディオ源３１１、３１２、３１３の終点オーディオ信号を、終点聴取位置３０２のまわりの終点球１１４上の終点源位置からレンダリング９１５することを含んでいてもよい。

【0090】

終点オーディオ信号を決定９１４することは、起点源位置と終点聴取位置３０２との間の終点距離３２２を決定することを含んでいてもよい。次いで、終点オーディオ信号（特に、終点オーディオ信号の強度）は、終点距離３２２に基づいて決定されてもよい（特にスケーリングされてもよい）。特に、終点オーディオ信号を決定９１４することは、起点オーディオ信号に距離利得４１０を適用することを含んでいてもよい。ここで、距離利得４１０は終点距離３２２に依存する。

【0091】

距離利得４１０をオーディオ信号３１１、３１２、３１３の源位置と聴取者１８１の聴取位置３０１、３０２との間の距離３２１、３２２の関数として示す距離関数４１５が提供されてもよい。（終点オーディオ信号を決定するために）起点オーディオ信号に適用される距離利得４１０は、距離関数４１５の、終点距離３２２についての関数値に基づいて決定されてもよい。こうすることにより、終点オーディオ信号は、効率的かつ精密に決定されてもよい。

【0092】

さらに、終点オーディオ信号を決定９１４することは、起点源位置と起点聴取位置３０１との間の起点距離３２１を決定することを含んでいてもよい。次いで、終点オーディオ信号は、起点距離３２１に（も）基づいて決定されてもよい。特に、起点オーディオ信号に適用される距離利得４１０は、距離関数４１５の、起点距離３２１についての関数値に基づいて決定されてもよい。ある好ましい例では、距離関数４１５の、起点距離３２１についての関数値と、距離関数４１５の、終点距離３２２についての関数値とが、終点オーディオ信号を決定するために起点オーディオ信号の強度を再スケーリングするために使用される。よって、オーディオ・シーン１１１内の効率的かつ精密なローカル遷移１９１が提供されうる。

【0093】

終点オーディオ信号を決定９１４することは、オーディオ源３１１、３１２、３１３の指向性プロファイル３３２を決定することを含んでいてもよい。指向性プロファイル３３２は、種々の方向での起点オーディオ信号の強度を示してもよい。すると、終点オーディオ信号は、指向性プロファイル３３２に（も）基づいて決定されうる。指向性プロファイル３３２を考慮に入れることによって、ローカル遷移１９２の音響品質が改善されうる。

【0094】

指向性プロファイル３３２は、終点オーディオ信号を決定するために起点オーディオ信号に適用される指向性利得５１０を示してもよい。特に、指向性プロファイル３３２は、指向性利得関数５１５を示していてもよい。ここで、指向性利得関数５１５は、指向性利得５１０を、オーディオ源３１１、３１２、３１３の源位置と聴取者１８１の聴取位置３０１、３０２との間の（可能性としては二次元の）指向性角５２０の関数として示してもよい。

【0095】

よって、終点オーディオ信号を決定９１４することは、終点源位置と終点聴取位置３０２との間の終点角５２２を決定することを含んでいてもよい。次いで、終点オーディオ信号は、終点角５２２に基づいて決定されてもよい。特に、終点オーディオ信号は、指向性利得関数５１５の、終点角５２２についての関数値に基づいて決定されてもよい。

【0096】

代替的または追加的に、終点オーディオ信号を決定９１４することは、起点源位置と起点聴取位置３０１との間の起点角５２１を決定することを含んでいてもよい。すると、終点オーディオ信号は、起点角５２１に基づいて決定されてもよい。特に、終点オーディオ信号は、指向性利得関数５１５の、起点角５２１についての関数値に基づいて決定されてもよい。ある好ましい例では、終点オーディオ信号は、指向性利得関数５１５の、起点角５２１についておよび終点角５２２についての関数値を使って起点オーディオ信号の強度を修正して、終点オーディオ信号の強度を決定することによって決定されてもよい。

【0097】

さらに、方法９１０は、終点源位置と終点聴取位置３０２との間の媒体のオーディオ伝搬特性を示す終点環境データ１９３を判別することを含んでいてもよい。終点環境データ１９３は、終点源位置と終点聴取位置３０２との間の直接経路上に位置される障害物６０３を示す；障害物６０３の空間的寸法に関する情報を示す；および／または終点源位置と終点聴取位置３０２との間の直接経路上でオーディオ信号が被る減衰を示すものであってもよい。特に、終点環境データ１９３は、障害物６０３の障害物減衰関数を示していてもよく、減衰関数は、終点源位置と終点聴取位置３０２との間の直接経路上にある障害物６０３を通過するオーディオ信号が受ける減衰を示してもよい。

【0098】

終点オーディオ信号は終点環境データ１９３に基づいて決定されてもよく、それによりさらに、VRレンダリング環境１８０内でレンダリングされるオーディオの品質を高める。

【0099】

上記に示したように、終点環境データ１９３は、終点源位置と終点聴取位置３０２との間の直接経路上の障害物６０３を示していてもよい。方法９１０は、直接経路上での、終点源位置と終点聴取位置３０２との間の通過距離６０１を決定することを含んでいてもよい。次いで、終点オーディオ信号は、通過距離６０１に基づいて決定されてもよい。代替的または追加的に、障害物６０３を通らない間接経路上での、終点源位置と終点聴取位置３０２との間の無障害物距離６０２が決定されてもよい。次いで、終点オーディオ信号は、無障害物距離６０２に基づいて決定されてもよい。

【0100】

具体的には、終点オーディオ信号の間接成分が、間接経路に沿って伝搬する起点オーディオ信号に基づいて決定されてもよい。さらに、終点オーディオ信号の直接成分が、直接経路に沿って伝搬する起点オーディオ信号に基づいて決定されてもよい。次いで、終点オーディオ信号は、間接成分と直接成分とを組み合わせることによって決定されてもよい。こうすることにより、障害物６０３の音響効果が、精密かつ効率的な仕方で考慮に入れられうる。

【0101】

さらに、方法９１０は、聴取者１８１の視野７０１および／または関心焦点７０２に関する焦点情報を判別することを含んでいてもよい。次いで、終点オーディオ信号は焦点情報に基づいて決定されてもよい。具体的には、オーディオ信号のスペクトル組成が、焦点情報に依存して適応されてもよい。こうすることにより、聴取者１８１のVR経験がさらに改善されうる。

【0102】

さらに、方法９１０は、オーディオ源３１１、３１２、３１３が周囲音（ambience）オーディオ源であることを判別することを含んでいてもよい。このコンテキストにおいて、エンコーダ１３０からビットストリーム１４０内で指標（たとえばフラグ）が受領されてもよい。たとえば、該指標は、オーディオ源３１１、３１２、３１３が周囲音オーディオ源であることを示す。周囲音オーディオ源は典型的には背景オーディオ信号を提供する。周囲音オーディオ源の起点源位置は、終点源位置として維持されてもよい。代替的または追加的に、周囲音オーディオ源の起点オーディオ信号の強度は、終点オーディオ信号の強度として維持されてもよい。こうすることにより、周囲音オーディオ源は、ローカル遷移１９２のコンテキストにおいて、効率的かつ一貫性をもって扱うことができる。

【0103】

上述した諸側面は、複数のオーディオ源３１１、３１２、３１３を含むオーディオ・シーン１１１に適用可能である。特に、方法９１０は、対応する複数のオーディオ源３１１、３１２、３１３の複数の起点オーディオ信号を、起点球１１４上の複数の異なる起点源位置からレンダリングすることを含んでいてもよい。さらに、方法９１０は、終点球１１４上の対応する複数のオーディオ源３１１、３１２、３１３についての複数の終点源位置を、それぞれ該複数の起点源位置に基づいて決定することを含んでいてもよい。さらに、方法９１０は、対応する複数のオーディオ源３１１、３１２、３１３の複数の終点オーディオ信号を、それぞれ該複数の起点オーディオ信号に基づいて決定することを含んでいてもよい。次いで、対応する複数のオーディオ源３１１、３１２、３１３の前記複数の終点オーディオ信号は、終点聴取位置３０２のまわりの終点球１１４上の対応する複数の終点源位置からレンダリングされうる。

【0104】

さらに、仮想現実レンダリング環境１８０におけるオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラー１６０が記述される。オーディオ・レンダラー１６０は、（特にVRオーディオ・レンダラー１６０の3Dオーディオ・レンダラー１６２を使って）オーディオ源３１１、３１２、３１３の起点オーディオ信号を、聴取者１８１の起点聴取位置３０１のまわりの起点球１１４上の起点源位置からレンダリングするよう構成される。

【0105】

さらに、VRオーディオ・レンダラー１６０は、聴取者１８１が起点聴取位置３０１から終点聴取位置３０２に移動することを判別するよう構成されてもよい。これに反応して、VRオーディオ・レンダラー１６０は、（たとえばVRオーディオ・レンダラー１６０の前処理ユニット１６１内で）終点聴取位置３０２のまわりの終点球１１４上のオーディオ源３１１、３１２、３１３の終点源位置を、起点源位置に基づいて決定し、オーディオ源３１１、３１２、３１３の終点オーディオ信号を起点オーディオ信号に基づいて決定するよう構成されてもよい。

【0106】

さらに、VRオーディオ・レンダラー１６０（たとえば3Dオーディオ・レンダラー１６２）は、オーディオ源３１１、３１２、３１３の終点オーディオ信号を、終点聴取位置３０２のまわりの終点球１１４上の終点源位置からレンダリングするよう構成されてもよい。

【0107】

よって、仮想現実オーディオ・レンダラー１６０は、オーディオ源３１１、３１２、３１３の終点源位置および終点オーディオ信号を決定するよう構成される前処理ユニット１６１を有していてもよい。さらに、VRオーディオ・レンダラー１６０は、オーディオ源３１１、３１２、３１３の終点オーディオ信号をレンダリングするよう構成される3Dオーディオ・レンダラー１６２を有していてもよい。3Dオーディオ・レンダラー１６２は、聴取者１８１の聴取位置３０１、３０２のまわりの（単位）球１１４上でのオーディオ源３１１、３１２、３１３のオーディオ信号のレンダリングを、聴取者１８１の頭部の回転運動に応じて適応させる（レンダリング環境１８０内の3DoFを提供するため）よう構成されてもよい。他方、3Dオーディオ・レンダラー１６２は、オーディオ源３１１、３１２、３１３のオーディオ信号のレンダリングを聴取者１８１の頭部の並進運動に応じて適応させるようには構成されなくてもよい。このように、3Dオーディオ・レンダラー１６２は3DoFに制限されていてもよい。すると、並進DoFは、前処理ユニット１６１を使って効率的な仕方で提供されうる。それにより、6DoFをもつ全体的なVRオーディオ・レンダラー１６０が提供される。

【0108】

さらに、ビットストリーム１４０を生成するよう構成されたオーディオ・エンコーダ１３０が記述される。ビットストリーム１４０は、少なくとも一つのオーディオ源３１１、３１２、３１３のオーディオ信号を示し、レンダリング環境１８０内での前記少なくとも一つのオーディオ源３１１、３１２、３１３の位置を示すように生成される。さらに、ビットストリーム１４０は、レンダリング環境１８０内でのオーディオのオーディオ伝搬特性に関する環境データ１９３を示してもよい。オーディオ伝搬特性に関する環境データ１９３を信号伝達することによって、レンダリング環境１８０内のローカル遷移１９２が精密な仕方で可能にされうる。

【0109】

さらに、少なくとも一つのオーディオ源３１１、３１２、３１３のオーディオ信号；レンダリング環境１８０内での前記少なくとも一つのオーディオ源３１１、３１２、３１３の位置；およびレンダリング環境１８０内でのオーディオのオーディオ伝搬特性に関する環境データ１９３を示すビットストリーム１４０が記述される。代替的または追加的に、ビットストリーム１４０は、オーディオ源３１１、３１２、３１３が周囲音オーディオ源８０１であるか否かを示してもよい。

【0110】

図９ｄは、ビットストリームを生成する例示的方法９２０のフローチャートを示している。方法９２０は、少なくとも一つのオーディオ源３１１、３１２、３１３のオーディオ信号を決定９２１することを含む。さらに、方法９２０は、レンダリング環境１８０内での前記少なくとも一つのオーディオ源３１１、３１２、３１３の位置に関する位置データを決定９２２することを含む。さらに、方法９２０は、レンダリング環境１８０内でのオーディオのオーディオ伝搬特性に関する環境データ１９３を決定９２３することを含んでいてもよい。方法９２０はさらに、前記オーディオ信号、前記位置データおよび前記環境データ１９３をビットストリーム１４０中に挿入９３４することを含む。代替的または追加的に、オーディオ源３１１、３１２、３１３が周囲音オーディオ源８０１であるか否かの指標がビットストリーム１４０内に挿入されてもよい。

【0111】

よって、本稿では、仮想現実レンダリング環境１８０におけるオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラー１６０（対応する方法）オーディオ源３１１、３１２、３１３が記述される。オーディオ・レンダラー１６０は、オーディオ源１１３、３１１、３１２、３１３のオーディオ信号を、仮想現実レンダリング環境１８０内の聴取者１８１の聴取位置３０１、３０２のまわりの球１１４上の源位置からレンダリングするよう構成された3Dオーディオ・レンダラー１６２を有する。さらに、仮想現実オーディオ・レンダラー１６０は、（同じまたは異なるオーディオ・シーン１１１、１１２内の）仮想現実レンダリング環境１８０内の聴取者１８１の新たな聴取位置３０１、３０２を決定するよう構成された前処理ユニット１６１を有する。さらに、前処理ユニット１６１は、前記オーディオ信号と、前記新たな聴取位置３０１、３０２のまわりの球１１４に関する前記オーディオ源１１３、３１１、３１２、３１３の源位置とを、更新するよう構成される。3Dオーディオ・レンダラー１６２は、オーディオ源３１１、３１２、３１３の更新されたオーディオ信号を、新たな聴取位置３０１、３０２のまわりの球１１４上の更新された源位置からレンダリングするよう構成される。

【0112】

本稿に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されうる。ある種のコンポーネントはデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、ハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダムアクセスメモリまたは光記憶媒体のような媒体に記憶されてもよい。該信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットといったネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。

【0113】

本稿の付番実施例（enumerated example、EE）は、次のとおり：
〔EE１〕
仮想現実レンダリング環境（１８０）においてオーディオ信号をレンダリングする方法（９１０）であって、当該方法は、
・オーディオ源（３１１、３１２、３１３）の起点オーディオ信号を、聴取者（１８１）の起点聴取位置（３０１）のまわりの起点球（１１４）上の起点源位置からレンダリングする段階（９１１）と；
・聴取者（１８１）が起点聴取位置（３０１）から終点聴取位置（３０２）に移動することを判別する段階（９１２）と；
・終点聴取位置（３０２）のまわりの終点球（１１４）上の前記オーディオ源（３１１、３１２、３１３）の終点源位置を、前記起点源位置に基づいて決定する段階（９１３）と；
・前記起点オーディオ信号に基づいて前記オーディオ源（３１１、３１２、３１３）の終点オーディオ信号を決定する段階（９１４）と；
・前記オーディオ源（３１１、３１２、３１３）の終点オーディオ信号を、終点聴取位置（３０２）のまわりの終点球上の終点源位置からレンダリングする段階（９１５）とを含む、
方法。
〔EE２〕
当該方法（９１０）は、前記起点源位置を、前記起点球から前記終点球上に投影して、前記終点源位置を決定することを含む、EE１記載の方法。
〔EE３〕
前記終点源位置が、前記終点聴取位置（３０２）と前記起点源位置との間の射線の、前記終点球との交点に対応するよう、前記終点源位置が決定される、EE１または２記載の方法。
〔EE４〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記起点源位置と前記終点聴取位置（３０２）との間の終点距離（３２２）を決定する段階と；
・前記終点オーディオ信号を、前記終点距離（３２２）に基づいて決定（９１４）することを含む、
EE１ないし３のうちいずれか一項記載の方法。
〔EE５〕
・前記終点オーディオ信号を決定すること（９１４）が、前記起点オーディオ信号に距離利得（４１０）を適用することを含み；
・前記距離利得（４１０）が前記終点距離（３２２）に依存する、
EE４記載の方法。
〔EE６〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記距離利得（４１０）を、オーディオ信号（３１１、３１２、３１３）の源位置と聴取者（１８１）の聴取位置（３０１、３０２）との間の距離（３２１、３２２）の関数として示す距離関数（４１５）を提供する段階と；
・前記起点オーディオ信号に適用される前記距離利得（４１０）を、前記距離関数（４１５）の、前記終点距離（３２２）についての関数値に基づいて決定する段階とを含む、
EE５記載の方法。
〔EE７〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記起点源位置と前記起点聴取位置（３０１）との間の起点距離（３２１）を決定する段階と；
・前記終点オーディオ信号を、前記起点距離（３２１）に基づいて決定する段階とを含む、
EE４ないし６のうちいずれか一項記載の方法。
〔EE８〕
前記起点オーディオ信号に適用される前記距離利得（４１０）が、前記距離関数（４１５）の、前記起点距離（３２１）についての関数値に基づいて決定される、EE７がEE６を引用する場合のEE７記載の方法。
〔EE９〕
前記終点オーディオ信号を決定すること（９１４）が、前記終点オーディオ信号の強度を、前記起点オーディオ信号の強度に基づいて決定することを含む、EE１ないし８のうちいずれか一項記載の方法。
〔EE１０〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記オーディオ源（３１１、３１２、３１３）の指向性プロファイル（３３２）を決定する段階であって、前記指向性プロファイル（３３２）は、前記起点オーディオ信号の種々の方向での強度を示す、段階と；
・前記終点オーディオ信号を、前記指向性プロファイル（３３２）に基づいて決定する段階（９１４）とを含む、
EE１ないし９のうちいずれか一項記載の方法。
〔EE１１〕
前記指向性プロファイル（３３２）は、前記終点オーディオ信号を決定するために前記起点オーディオ信号に適用される指向性利得（５１０）を示す、EE１０記載の方法。
〔EE１２〕
・前記指向性プロファイル（３３２）は、指向性利得関数（５１５）を示し；
・前記指向性利得関数（５１５）は、指向性利得（５１０）を、オーディオ源（３１１、３１２、３１３）の源位置と聴取者（１８１）の聴取位置（３０１、３０２）との間の指向性角（５２０）の関数として示す、
EE１０または１１記載の方法。
〔EE１３〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記終点源位置と前記終点聴取位置（３０２）との間の終点角（５２２）を決定し；
・前記終点オーディオ信号を、前記終点角（５２２）に基づいて決定すること（９１４）を含む、
EE１０ないし１２のうちいずれか一項記載の方法。
〔EE１４〕
前記終点オーディオ信号が、前記指向性利得関数（５１５）の、前記終点角（５２２）についての関数値に基づいて決定される、EE１３がEE１２を引用する場合のEE１３記載の方法。
〔EE１５〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記起点源位置と前記起点聴取位置（３０１）との間の起点角（５２１）を決定し；
・前記終点オーディオ信号を、前記起点角（５２１）に基づいて決定する（９１４）ことを含む、
EE１０ないし１４のうちいずれか一項記載の方法。
〔EE１６〕
前記終点オーディオ信号が、前記指向性利得関数（５１５）の、前記起点角（５２１）についての関数値に基づいて決定される、EE１５がEE１２を引用する場合のEE１５記載の方法。
〔EE１７〕
前記終点オーディオ信号を決定すること（９１４）が、前記指向性利得関数（５１５）の、前記起点角（５２１）についておよび前記終点角（５２２）についての関数値を使って前記起点オーディオ信号の強度を修正して、前記終点オーディオ信号の強度を決定することを含む、EE１６記載の方法。
〔EE１８〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記終点源位置と前記終点聴取位置（３０２）との間の媒体のオーディオ伝搬特性を示す終点環境データ（１９３）を判別し；
・前記終点環境データ（１９３）に基づいて前記終点オーディオ信号を決定することを含む、
EE１ないし１７のうちいずれか一項記載の方法。
〔EE１９〕
前記終点環境データ（１９３）は、
・前記終点源位置と前記終点聴取位置（３０２）との間の直接経路上に位置される障害物（６０３）；および／または
・前記障害物（６０３）の空間的寸法に関する情報；および／または
・前記終点源位置と前記終点聴取位置（３０２）との間の直接経路上でオーディオ信号が被る減衰を示す、
EE１８記載の方法。
〔EE２０〕
・前記終点環境データ（１９３）は、障害物減衰関数を示し；
・前記減衰関数は、前記終点源位置と前記終点聴取位置（３０２）との間の直接経路上にある障害物（６０３）を通過するオーディオ信号が受ける減衰を示す、
EE１８または１９記載の方法。
〔EE２１〕
・前記終点環境データ（１９３）は、前記終点源位置と前記終点聴取位置（３０２）との間の直接経路上の障害物（６０３）を示し；
・前記終点オーディオ信号を決定すること（９１４）は、前記直接経路上での、前記終点源位置と前記終点聴取位置（３０２）との間の通過距離（６０１）を決定することを含み；
・前記終点オーディオ信号は、前記通過距離（６０１）に基づいて決定される、
EE１８ないし２０のうちいずれか一項記載の方法。
〔EE２２〕
・前記終点環境データ（１９３）は、前記終点源位置と前記終点聴取位置（３０２）との間の直接経路上の障害物（６０３）を示し；
・前記終点オーディオ信号を決定すること（９１４）は、前記障害物（６０３）を通らない間接経路上での、前記終点源位置と前記終点聴取位置（３０２）との間の無障害物距離（６０２）を決定することを含み；
・前記終点オーディオ信号は、前記無障害物距離（６０２）に基づいて決定される、
EE１８ないし２１のうちいずれか一項記載の方法。
〔EE２３〕
前記終点オーディオ信号を決定すること（９１４）が、
・前記終点オーディオ信号の間接成分を、前記間接経路に沿って伝搬する前記起点オーディオ信号に基づいて決定し；
・前記終点オーディオ信号の直接成分を、前記直接経路に沿って伝搬する前記起点オーディオ信号に基づいて決定し；
・前記間接成分と前記直接成分とを組み合わせて前記終点オーディオ信号を決定することを含む、
EE２２がEE２１を引用する場合のEE２２記載の方法。
〔EE２４〕
前記終点オーディオ信号を決定すること（９１４）が、
・聴取者（１８１）の視野（７０１）および／または関心焦点（７０２）に関する焦点情報を判別し；
・前記終点オーディオ信号を前記焦点情報に基づいて決定することを含む、
EE１ないし２３のうちいずれか一項記載の方法。
〔EE２５〕
・前記オーディオ源（３１１、３１２、３１３）が周囲音オーディオ源であることを判別し前記；
・周囲音オーディオ源（３１１、３１２、３１３）の前記起点源位置を、前記終点源位置として維持し；
・前記周囲音オーディオ源（３１１、３１２、３１３）の前記起点オーディオ信号の強度を、前記終点オーディオ信号の強度として維持することをさらに含む、
EE１ないし２４のうちいずれか一項記載の方法。
〔EE２６〕
前記終点オーディオ信号を決定すること（９１４）が、前記終点オーディオ信号のスペクトル組成を、前記起点オーディオ信号のスペクトル組成に基づいて決定することを含む、EE１ないし２５のうちいずれか一項記載の方法。
〔EE２７〕
前記起点オーディオ信号および前記終点オーディオ信号が3Dオーディオ・レンダラー（１６２）、特にMPEG-Hオーディオ・レンダラーを使ってレンダリングされる、EE１ないし２６のうちいずれか一項記載の方法。
〔EE２８〕
当該方法（９１０）が、
・対応する複数のオーディオ源（３１１、３１２、３１３）の複数の起点オーディオ信号を、前記起点球（１１４）上の複数の異なる起点源位置からレンダリングする段階と；
・前記終点球（１１４）上の前記対応する複数のオーディオ源（３１１、３１２、３１３）についての複数の終点源位置を、それぞれ前記複数の起点源位置に基づいて決定する段階と；
・前記対応する複数のオーディオ源（３１１、３１２、３１３）の複数の終点オーディオ信号を、それぞれ前記複数の起点オーディオ信号に基づいて決定する段階と；
・前記対応する複数のオーディオ源（３１１、３１２、３１３）の前記複数の終点オーディオ信号を、前記終点聴取位置（３０２）のまわりの前記終点球（１１４）上の前記対応する複数の終点源位置からレンダリングすることを含む、
EE１ないし２７のうちいずれか一項記載の方法。
〔EE２９〕
仮想現実レンダリング環境（１８０）においてオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラー（１６０）であって、当該オーディオ・レンダラー（１６０）は、
・オーディオ源（３１１、３１２、３１３）の起点オーディオ信号を、聴取者（１８１）の起点聴取位置（３０１）のまわりの起点球（１１４）上の起点源位置からレンダリングする段階と；
・聴取者（１８１）が前記起点聴取位置（３０１）から終点聴取位置（３０２）に移動することを判別する段階と；
・前記終点聴取位置（３０２）のまわりの終点球（１１４）上の前記オーディオ源（３１１、３１２、３１３）の終点源位置を、前記起点源位置に基づいて決定する段階と；
・前記オーディオ源（３１１、３１２、３１３）の終点オーディオ信号を前記起点オーディオ信号に基づいて決定する段階と；
・前記オーディオ源（３１１、３１２、３１３）の前記終点オーディオ信号を、前記終点聴取位置（３０２）のまわりの前記終点球（１１４）上の前記終点源位置からレンダリングする段階とを実行するよう構成されている、
仮想現実オーディオ・レンダラー。
〔EE３０〕
当該仮想現実オーディオ・レンダラー（１６０）は、
・前記オーディオ源（３１１、３１２、３１３）の前記終点源位置および前記終点オーディオ信号を決定するよう構成される前処理ユニット（１６１）と；
・前記オーディオ源（３１１、３１２、３１３）の前記終点オーディオ信号をレンダリングするよう構成される3Dオーディオ・レンダラー（１６２）とを有する、
EE２９記載の仮想現実オーディオ・レンダラー。
〔EE３１〕
前記3Dオーディオ・レンダラー（１６２）は、
・聴取者（１８１）の聴取位置（３０１、３０２）のまわりの球（１１４）上でのオーディオ源（３１１、３１２、３１３）のオーディオ信号のレンダリングを、聴取者（１８１）の頭部の回転運動に応じて適応させるよう構成されている、および／または
・前記オーディオ源（３１１、３１２、３１３）の前記オーディオ信号のレンダリングを、聴取者（１８１）の頭部の並進運動に応じて適応させるようには構成されていない、
EE３０記載の仮想現実オーディオ・レンダラー。
〔EE３２〕
ビットストリーム（１４０）を生成するよう構成されたオーディオ・エンコーダ（１３０）であって、前記ビットストリーム（１４０）は、
・少なくとも一つのオーディオ源（３１１、３１２、３１３）のオーディオ信号；
・レンダリング環境（１８０）内での前記少なくとも一つのオーディオ源（３１１、３１２、３１３）の位置；および
・前記レンダリング環境（１８０）内でのオーディオのオーディオ伝搬特性を示す環境データ（１９３）を示す、
オーディオ・エンコーダ。
〔EE３３〕
・少なくとも一つのオーディオ源（３１１、３１２、３１３）のオーディオ信号；
・レンダリング環境（１８０）内での前記少なくとも一つのオーディオ源（３１１、３１２、３１３）の位置；および
・前記レンダリング環境（１８０）内でのオーディオのオーディオ伝搬特性を示す環境データ（１９３）を示す、
ビットストリーム（１４０）。
〔EE３４〕
ビットストリーム（１４０）を生成する方法（９２０）であって、
・少なくとも一つのオーディオ源（３１１、３１２、３１３）のオーディオ信号を決定し（９２１）；
・レンダリング環境（１８０）内での前記少なくとも一つのオーディオ源（３１１、３１２、３１３）の位置に関する位置データを決定し（９２２）；
・前記レンダリング環境（１８０）内でのオーディオのオーディオ伝搬特性を示す環境データ（１９３）を決定し（９２３）；
・前記オーディオ信号、前記位置データおよび前記環境データ（１９３）を前記ビットストリーム（１４０）中に挿入する（９３４）ことを含む、
方法。
〔EE３５〕
仮想現実レンダリング環境（１８０）においてオーディオ信号をレンダリングするための仮想現実オーディオ・レンダラー（１６０）であって、当該オーディオ・レンダラーは、
・オーディオ源（３１１、３１２、３１３）のオーディオ信号を、仮想現実レンダリング環境（１８０）内の聴取者（１８１）の聴取位置（３０１、３０２）のまわりの球（１１４）上の源位置からレンダリングするよう構成された3Dオーディオ・レンダラー（１６２）と；
・前処理ユニット（１６１）であって、
・仮想現実レンダリング環境（１８０）内の聴取者（１８１）の新たな聴取位置（３０１、３０２）を決定し；
・前記オーディオ信号および前記新たな聴取位置（３０１、３０２）のまわりの球（１１４）に関する前記オーディオ源（３１１、３１２、３１３）の源位置を更新するよう構成された前処理ユニット（１６１）とを有しており、
前記3Dオーディオ・レンダラー（１６２）は、前記オーディオ源（３１１、３１２、３１３）の更新されたオーディオ信号を、前記新たな聴取位置（３０１、３０２）のまわりの球（１１４）上の更新された源位置からレンダリングするよう構成される、
仮想現実オーディオ・レンダラー。

【図1a】