IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許7371003オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム
<>
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図1
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図2
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図3
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図4
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図5
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図6
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図7
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図8
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図9
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図10
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図11
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図12
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図13
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図14
  • 特許-オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-20
(45)【発行日】2023-10-30
(54)【発明の名称】オーディオ・レンダリングのための事前レンダリングされた信号のための方法、装置およびシステム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20231023BHJP
   G10L 19/008 20130101ALI20231023BHJP
【FI】
H04S7/00 300
G10L19/008 200
【請求項の数】 19
(21)【出願番号】P 2020555105
(86)(22)【出願日】2019-04-08
(65)【公表番号】
(43)【公表日】2021-08-26
(86)【国際出願番号】 EP2019058833
(87)【国際公開番号】W WO2019197349
(87)【国際公開日】2019-10-17
【審査請求日】2022-02-15
(31)【優先権主張番号】62/656,163
(32)【優先日】2018-04-11
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/755,957
(32)【優先日】2018-11-05
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】テレンティフ,レオン
(72)【発明者】
【氏名】フェルシュ,クリストフ
(72)【発明者】
【氏名】フィッシャー,ダニエル
【審査官】上田 雄
(56)【参考文献】
【文献】特表2016-521532(JP,A)
【文献】特表2016-538585(JP,A)
【文献】国際公開第2016/208406(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00- 7/00
G10L 19/00-19/26
(57)【特許請求の範囲】
【請求項1】
一つまたは複数のレンダリング・ツールをもつオーディオ・レンダラーを含むデコーダによってビットストリームからオーディオ・シーン・コンテンツをデコードする方法であって、当該方法は:
前記ビットストリームを受領する段階と;
前記ビットストリームから音響環境を含むオーディオ・シーンの記述をデコードする段階と;
前記オーディオ・シーンの記述から一つまたは複数の有効オーディオ要素を決定する段階であって、前記一つまたは複数の有効オーディオ要素は前記音響環境の影響をカプセル化し、前記オーディオ・シーンを表わす一つまたは複数の仮想オーディオ・オブジェクトに対応する、段階と;
前記オーディオ・シーンの記述から、前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を決定する段階であって、前記有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含む、段階と;
前記ビットストリームからレンダリング・モード指示をデコードする段階であって、前記レンダリング・モード指示は、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、所定のレンダリング・モードを使用してレンダリングされるべきであるかどうかを示す、段階と;
前記レンダリング・モード指示が、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、所定のレンダリング・モードを使用してレンダリングされるべきであることを示すことに応答して、前記一つまたは複数の有効オーディオ要素を前記所定のレンダリング・モードを用いてレンダリングする段階とを含み、
前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、前記有効オーディオ要素情報および前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す前記情報を考慮に入れ、前記所定のレンダリング・モードは、レンダリング出力に対するオーディオ・シーンの前記音響環境の影響を制御するための前記レンダリング・ツールの所定の構成を定義する、
方法。
【請求項2】
音響環境における聴取者の頭部の位置を示す聴取者位置情報、および/または音響環境における聴取者の頭部の配向を示す聴取者配向情報を得る段階をさらに含み、
所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、前記聴取者位置情報および/または聴取者配向情報をさらに考慮に入れる、
請求項1に記載の方法。
【請求項3】
前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、聴取者位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間のそれぞれの距離に従って、音減衰モデリングを適用する、
請求項1または2に記載の方法。
【請求項4】
少なくとも2つの有効オーディオ要素が、前記オーディオ・シーンの記述から決定され;
前記レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示し;
当該方法は、それぞれの所定のレンダリング・モードを使用して、前記少なくとも2つの有効オーディオ要素をレンダリングすることを含み;
それぞれの所定のレンダリング・モードを使用して各有効オーディオ要素をレンダリングすることは、その有効オーディオ要素の有効オーディオ要素情報を考慮に入れ、その有効オーディオ要素についてのレンダリング・モードは、その有効オーディオ要素についてのレンダリング出力に対するオーディオ・シーンの音響環境の影響を制御するためのレンダリング・ツールのそれぞれの所定の構成を定義する、
請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
前記オーディオ・シーンの記述から一つまたは複数のもとのオーディオ要素を決定する段階と;
前記オーディオ・シーンの記述から、前記一つまたは複数のオーディオ要素のオーディオ要素位置を示すオーディオ要素情報を決定する段階と;
前記一つまたは複数の有効オーディオ要素について使用される所定のレンダリング・モードとは異なる前記一つまたは複数のオーディオ要素についてのレンダリング・モードを使用して、前記一つまたは複数のオーディオ要素をレンダリングする段階とをさらに含み、
前記一つまたは複数のオーディオ要素についてのレンダリング・モードを使用して前記一つまたは複数のオーディオ要素をレンダリングすることは、前記オーディオ要素情報を考慮に入れる、
請求項1ないし4のうちいずれか一項に記載の方法。
【請求項6】
前記所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を取得することをさらに含む、
請求項1ないし5のうちいずれか一項に記載の方法。
【請求項7】
前記レンダリング・モード指示によって示される所定のレンダリング・モードは、聴取者位置に依存し;
当該方法は、前記聴取者位置領域情報によって示される前記聴取者位置領域について、前記レンダリング・モード指示によって示されるその所定のレンダリング・モードを使用して、前記一つまたは複数の有効オーディオ要素をレンダリングすることを含む、
請求項6に記載の方法。
【請求項8】
オーディオ・シーン・コンテンツを生成する方法であって、当該方法は:
音響環境を含むオーディオ・シーンからの捕捉された信号を表す一つまたは複数のオーディオ要素を取得する段階と;
生成される一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を得る段階であって、前記一つまたは複数の有効オーディオ要素は前記音響環境の影響をカプセル化し、前記オーディオ・シーンを表わす一つまたは複数の仮想オーディオ・オブジェクトに対応し、前記有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含む、段階と;
前記捕捉された信号が捕捉された位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間の距離に従って音減衰モデリングを適用することによって、前記捕捉された信号を表わす前記一つまたは複数のオーディオ要素から前記一つまたは複数の有効オーディオ要素を決定する段階とを含む、
方法。
【請求項9】
オーディオ・シーン・コンテンツをビットストリームにエンコードする方法であって、当該方法は:
オーディオ・シーンの記述を受領する段階であって、前記オーディオ・シーンは、音響環境と、それぞれのオーディオ要素位置にある一つまたは複数のオーディオ要素とを含む、段階と;
前記一つまたは複数のオーディオ要素からそれぞれの有効オーディオ要素位置における一つまたは複数の有効オーディオ要素を決定する段階であって、前記一つまたは複数の有効オーディオ要素は一つまたは複数のもとのオーディオ・オブジェクトに対応し、前記一つまたは複数の有効オーディオ要素は前記音響環境の影響をカプセル化し、前記オーディオ・シーンを表わす一つまたは複数の仮想オーディオ・オブジェクトに対応する、段階と;
前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を生成する段階であって、前記有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含むように生成される、段階と;
前記一つまたは複数の有効オーディオ要素が、事前レンダリングされたオーディオ要素から得られた音場を表わし、デコーダにおけるレンダリング出力に対する音響環境の影響を制御するためのデコーダのレンダリング・ツールの所定の構成を定義する所定のレンダリング・モードを使用してレンダリングされるべきであることを示すレンダリング・モード指示を生成する段階と;
前記一つまたは複数のオーディオ要素、前記オーディオ要素位置、前記一つまたは複数の有効オーディオ要素、前記有効オーディオ要素情報、および前記レンダリング・モード指示をビットストリームにエンコードする段階を含む、
方法。
【請求項10】
音響環境における聴取者の頭部の位置を示す聴取者位置情報、および/または音響環境における聴取者の頭部の配向を示す聴取者配向情報を得る段階と;
前記聴取者位置情報および/または聴取者配向情報を前記ビットストリームにエンコードする段階とをさらに含む、
請求項9に記載の方法。
【請求項11】
いくつかの実施形態では、少なくとも2つの有効オーディオ要素が生成され、前記ビットストリームにエンコードされ;
レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示す、
請求項9または10に記載の方法。
【請求項12】
前記所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を取得する段階と;
前記聴取者位置領域情報を前記ビットストリームにエンコードする段階とをさらに含む、
請求項9ないし11のうちいずれか一項に記載の方法。
【請求項13】
前記レンダリング・モード指示によって示される前記所定のレンダリング・モードは、聴取者位置に依存し、前記レンダリング・モード指示は、複数の聴取者位置のそれぞれについてそれぞれの所定のレンダリング・モードを示す、請求項12に記載の方法。
【請求項14】
プロセッサのための命令を記憶しているメモリに結合されたプロセッサを含むオーディオ・デコーダであって、前記プロセッサは、請求項1ないし7のうちいずれか一項に記載の方法を実行するように適応されている、オーディオ・デコーダ。
【請求項15】
命令を含んでいるコンピュータ・プログラムであって、前記命令は、前記命令を実行するプロセッサに、請求項1ないし7のうちいずれか一項に記載の方法を実行させるものである、コンピュータ・プログラム。
【請求項16】
請求項15に記載のコンピュータ・プログラムを記憶しているコンピュータ可読記憶媒体。
【請求項17】
プロセッサのための命令を記憶しているメモリに結合されたプロセッサを含むオーディオ・エンコーダであって、前記プロセッサは、請求項8ないし13のうちいずれか一項に記載の方法を実行するように適応されている、オーディオ・エンコーダ。
【請求項18】
命令を含んでいるコンピュータ・プログラムであって、前記命令は、前記命令を実行するプロセッサに、請求項8ないし13のうちいずれか一項に記載の方法を実行させるものである、コンピュータ・プログラム。
【請求項19】
請求項18に記載のコンピュータ・プログラムを記憶しているコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、次の優先権出願の優先権を主張する:米国仮出願第62/656,163号(整理番号:D18040USP1)、2018年4月11日出願、および米国仮出願第62/755,957号(整理番号:D18040USP2)、2018年11月5日出願。これらは参照により本明細書に組み込まれる。
【0002】
技術分野
本開示は、オーディオ・レンダリングのための装置、システムおよび方法を提供することに関する。
【背景技術】
【0003】
図1は、メタデータおよびオーディオ・レンダラー拡張を処理するように構成された例示的なエンコーダを示す。
【0004】
いくつかの場合、6DoFレンダラーは、仮想現実/拡張現実/混合現実(VR/AR/MR)空間におけるある位置(単数または複数)(領域、軌跡)において、コンテンツ制作者の希望する音場を再生することができない。これは下記の事情のためである:
1.音源およびVR/AR/MR環境を記述する不十分なメタデータ
2.6DoFレンダラーおよびリソースの制限された機能。
【0005】
(もとのオーディオ源信号とVR/AR/MR環境記述のみに基づいて音場を生成する)ある種の6DoFレンダラーは、以下の理由により、意図される信号を所望の位置に再生できない場合がある:
1.1)VR/AR/MR環境および対応するオーディオ信号を記述するパラメータ化された情報(メタデータ)についてのビットレート制限;
1.2)逆6DoFレンダリングのためのデータが利用可能でないこと(たとえば、一つまたは複数の関心ポイントにおける参照レコーディングが利用可能であるが、この信号を6DoFレンダラーによってどのように再生成するか、およびそのためにどんなデータ入力が必要であるかは不明);
2.1)6DoFレンダラーのデフォルトの(たとえば物理法則に整合する)出力とは異なる可能性のある芸術的意図(たとえば、「芸術的ダウンミックス」概念に似る);
2.2)デコーダ(6DoFレンダラー)実装における機能限界(たとえば、ビットレート、複雑さ、遅延などの制約)。
【0006】
同時に、VR/AR/MR空間内の所与の位置(単数または複数)について、高いオーディオ品質(および/または、あらかじめ定義された参照信号に対する忠実度)のオーディオ再生(すなわち、6DoFレンダラー出力)を要求することがある。たとえば、これは、3DoF/3DoF+の互換性制約条件、または6DoFレンダリングの(たとえば、「ベースライン」モードとVR/AR/MR幾何構成の影響を考慮しない「低パワー」モードの間の)種々の処理モードに対する互換性要求のために必要とされることがありうる。
【発明の概要】
【発明が解決しようとする課題】
【0007】
このように、VR/AR/MR空間におけるコンテンツ制作者の所望の音場の再生を改善するエンコード/デコード方法および対応するエンコーダ/デコーダが必要である。
【課題を解決するための手段】
【0008】
本開示のある側面は、一つまたは複数のレンダリング・ツールをもつオーディオ・レンダラーを含むデコーダによってビットストリームからオーディオ・シーン・コンテンツをデコードする方法に関する。本方法は、ビットストリームを受領することを含んでいてもよい。本方法は、ビットストリームからオーディオ・シーンの記述をデコードすることをさらに含んでいてもよい。オーディオ・シーンは、たとえばVR/AR/MR音響環境のような音響環境を含んでいてもよい。本方法は、オーディオ・シーンの記述から一つまたは複数の有効オーディオ要素を決定することをさらに含んでいてもよい。本方法は、オーディオ・シーンの記述から、前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を決定することをさらに含んでいてもよい。本方法は、ビットストリームからレンダリング・モード指示をデコードすることをさらに含んでいてもよい。レンダリング・モード指示は、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、所定のレンダリング・モードを使用してレンダリングされるべきであるかどうかを示してもよい。本方法は、さらに、前記レンダリング・モード指示が、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、所定のレンダリング・モードを使用してレンダリングされるべきであることを示すことに応答して、前記一つまたは複数の有効オーディオ要素を前記所定のレンダリング・モードを用いてレンダリングすることを含んでいてもよい。前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、前記有効オーディオ要素情報を考慮に入れてもよい。前記所定のレンダリング・モードは、レンダリング出力に対するオーディオ・シーンの音響環境の影響を制御するためのレンダリング・ツールの所定の構成を定義してもよい。前記有効オーディオ要素は、たとえば、参照位置にレンダリングされてもよい。前記所定のレンダリング・モードは、ある種のレンダリング・ツールを有効または無効にしてもよい。また、前記所定のレンダリング・モードは、前記一つまたは複数の有効オーディオ要素についての音響効果を高めることができる(たとえば、人工音響を加える)。
【0009】
前記一つまたは複数の有効オーディオ要素は、たとえばエコー、残響、および音響隠蔽のような音響環境の影響を、いわばカプセル化する。これは、デコーダにおいて特に単純なレンダリング・モード(すなわち、前記所定のレンダリング・モード)の使用を可能にする。同時に、芸術的意図を保存することができ、ユーザー(聴取者)は、低パワー・デコーダであっても、豊富な没入的音響経験を提供されることができる。さらに、デコーダのレンダリング・ツールは、音響効果の追加的な制御を提供するレンダリング・モード指示に基づいて個別に構成されることができる。音響環境の影響をカプセル化することにより、最終的に、音響環境を示すメタデータの効率的な圧縮が可能になる。
【0010】
いくつかの実施形態では、本方法は、さらに、音響環境における聴取者の頭部の位置を示す聴取者位置情報、および/または音響環境における聴取者の頭部の配向を示す聴取者配向情報を得ることを含んでいてもよい。対応するデコーダは、聴取者位置情報および/または聴取者配向情報を受領するためのインターフェースを含んでいてもよい。次いで、所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、聴取者位置情報および/または聴取者配向情報をさらに考慮に入れてもよい。この追加情報を参照することにより、ユーザーの音響体験は、より没入的で意味のあるものとなりうる。
【0011】
いくつかの実施形態では、有効オーディオ要素情報は、一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含んでいてもよい。その場合、前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報をさらに考慮に入れてもよい。たとえば、それぞれの有効オーディオ要素の音放射パターンと、それぞれの有効オーディオ要素と聴取者位置との間の相対配置とに基づいて減衰因子が計算されてもよい。放射パターンを考慮に入れることによって、ユーザーの音響経験は、より没入的で意味のあるものとなりうる。
【0012】
いくつかの実施形態では、前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、聴取者位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間のそれぞれの距離に従って、音減衰モデリングを適用してもよい。すなわち、前記所定のレンダリング・モードは、音響環境におけるいかなる音響要素も考慮せず、(空の空間における)音減衰モデリングを適用する(だけ)でもよい。これは、低パワー・デコーダでも適用できる単純なレンダリング・モードを定義する。加えて、音指向性モデリングが、たとえば前記一つまたは複数の有効オーディオ要素の音放射パターンに基づいて適用されてもよい。
【0013】
いくつかの実施形態では、少なくとも2つの有効オーディオ要素が、前記オーディオ・シーンの記述から決定されてもよい。その際、前記レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示してもよい。さらに、本方法は、それぞれの所定のレンダリング・モードを使用して、前記少なくとも2つの有効オーディオ要素をレンダリングすることを含んでいてもよい。それぞれの所定のレンダリング・モードを使用して各有効オーディオ要素をレンダリングすることは、その有効オーディオ要素の有効オーディオ要素情報を考慮に入れてもよい。さらに、その有効オーディオ要素についての所定のレンダリング・モードは、その有効オーディオ要素についてのレンダリング出力に対するオーディオ・シーンの音響環境の影響を制御するためのレンダリング・ツールのそれぞれの所定の構成を定義してもよい。それにより、個々の有効オーディオ要素に適用される音響効果に対する追加的な制御が提供でき、こうしてコンテンツ制作者の芸術的意図に対する非常に密接なマッチが可能になる。
【0014】
いくつかの実施形態では、本方法は、前記オーディオ・シーンの記述から一つまたは複数のもとのオーディオ要素を決定することをさらに含んでいてもよい。本方法は、前記オーディオ・シーンの記述から、前記一つまたは複数のオーディオ要素のオーディオ要素位置を示すオーディオ要素情報を決定することをさらに含んでいてもよい。本方法は、さらに、前記一つまたは複数の有効オーディオ要素について使用される所定のレンダリング・モードとは異なる前記一つまたは複数のオーディオ要素についてのレンダリング・モードを使用して、前記一つまたは複数のオーディオ要素をレンダリングすることを含んでいてもよい。前記一つまたは複数のオーディオ要素についてのレンダリング・モードを使用して前記一つまたは複数のオーディオ要素をレンダリングすることは、前記オーディオ要素情報を考慮に入れてもよい。前記レンダリングは、レンダリング出力に対する音響環境の影響をさらに考慮に入れてもよい。よって、音響環境の影響をカプセル化する有効オーディオ要素が、たとえば単純レンダリング・モードを用いてレンダリングされることができ、一方、(もとの)オーディオ要素は、より洗練された、たとえば参照の、レンダリング・モードを用いてレンダリングできる。
【0015】
いくつかの実施形態では、本方法は、前記所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を取得することをさらに含んでいてもよい。前記聴取者位置領域情報は、たとえば、前記ビットストリームにおいてエンコードされてもよい。それにより、前記所定のレンダリング・モードは、有効オーディオ要素がもとのオーディオ・シーンの(たとえば、もとのオーディオ要素の)意味のある表現を提供する聴取者位置領域についてのみ使用されることを保証できる。
【0016】
いくつかの実施形態では、前記レンダリング・モード指示によって示される所定のレンダリング・モードは、聴取者位置に依存してもよい。さらに、本方法は、前記聴取者位置領域情報によって示される聴取者位置領域について、前記レンダリング・モード指示によって示されるその所定のレンダリング・モードを使用して、前記一つまたは複数の有効オーディオ要素をレンダリングすることを含んでいてもよい。すなわち、レンダリング・モード指示は、異なる聴取者位置領域について異なる(所定の)レンダリング・モードを示してもよい。
【0017】
本開示の別の側面は、オーディオ・シーン・コンテンツを生成する方法に関する。本方法は、オーディオ・シーンからの捕捉された信号を表す一つまたは複数のオーディオ要素を取得することを含んでいてもよい。本方法は、生成される一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を得ることをさらに含んでいてもよい。本方法は、さらに、捕捉された信号が捕捉された位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間の距離に従って音減衰モデリングを適用することによって、捕捉された信号を表わす前記一つまたは複数のオーディオ要素から前記一つまたは複数の有効オーディオ要素を決定することを含んでいてもよい。
【0018】
この方法により、参照位置または捕捉位置にレンダリングされると、もとのオーディオ・シーンから発するであろう音場の、知覚的に近い近似を与えるオーディオ・シーン・コンテンツが生成できる。しかしながら、このオーディオ・シーン・コンテンツは、参照位置または捕捉位置とは異なる聴取者位置にレンダリングされることができ、よって、没入的な音響体験を許容する。
【0019】
本開示の別の側面は、オーディオ・シーン・コンテンツをビットストリームにエンコードする方法に関する。本方法は、オーディオ・シーンの記述を受領することを含んでいてもよい。オーディオ・シーンは、音響環境と、それぞれのオーディオ要素位置にある一つまたは複数のオーディオ要素とを含んでいてもよい。本方法は、前記一つまたは複数のオーディオ要素からそれぞれの有効オーディオ要素位置における一つまたは複数の有効オーディオ要素を決定することをさらに含んでいてもよい。この決定は、レンダリング出力に対する音響環境の影響を考慮に入れない(たとえば、空の空間における距離減衰モデリングを適用する)レンダリング・モードを使用して、それぞれの有効オーディオ要素位置での前記一つまたは複数の有効オーディオ要素を参照位置にレンダリングすることにより、レンダリング出力に対する音響環境の影響を考慮に入れる参照レンダリング・モードを使用して、それぞれのオーディオ要素位置での前記一つまたは複数のオーディオ要素を前記参照位置にレンダリングすることから生じるであろう、前記参照位置における参照音場の心理音響学的近似を与えるように実行されてもよい。本方法は、前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を生成することをさらに含んでいてもよい。本方法は、さらに、前記一つまたは複数の有効オーディオ要素が、事前レンダリングされたオーディオ要素から得られた音場を表わし、デコーダにおけるレンダリング出力に対する音響環境の影響を制御するためのデコーダのレンダリング・ツールの所定の構成を規定する所定のレンダリング・モードを使用してレンダリングされるべきであることを示すレンダリング・モード指示を生成することを含んでいてもよい。本方法は、さらに、前記一つまたは複数のオーディオ要素、前記オーディオ要素位置、前記一つまたは複数の有効オーディオ要素、前記有効オーディオ要素情報、および前記レンダリング・モード指示をビットストリームにエンコードすることを含んでいてもよい。
【0020】
前記一つまたは複数の有効オーディオ要素は、たとえばエコー、残響、および音響隠蔽のような、音響環境の影響をいわばカプセル化する。これは、デコーダにおいて特に単純なレンダリング・モード(すなわち、前記所定のレンダリング・モード)の使用を可能にする。同時に、芸術的意図を保存することができ、ユーザー(聴取者)は、低パワー・デコーダであっても、豊富な没入的音響経験を提供されることができる。さらに、デコーダのレンダリング・ツールは、音響効果の追加的な制御を提供するレンダリング・モード指示に基づいて個別に構成できる。音響環境の影響をカプセル化することにより、最終的に、音響環境を示すメタデータの効率的な圧縮が可能になる。
【0021】
いくつかの実施形態では、本方法は、さらに、音響環境における聴取者の頭部の位置を示す聴取者位置情報、および/または音響環境における聴取者の頭部の配向を示す聴取者配向情報を得ることを含んでいてもよい。本方法は、さらに、聴取者位置情報および/または聴取者配向情報をビットストリームにエンコードすることを含んでいてもよい。
【0022】
いくつかの実施形態では、前記有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含むように生成されてもよい。いくつかの実施形態では、少なくとも2つの有効オーディオ要素が生成され、ビットストリームにエンコードされてもよい。その際、レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示してもよい。
【0023】
いくつかの実施形態では、本方法は、前記所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を取得することをさらに含んでいてもよい。本方法は、さらに、聴取者位置領域情報をビットストリームにエンコードすることを含んでいてもよい。
【0024】
いくつかの実施形態では、レンダリング・モード指示によって示される所定のレンダリング・モードは、聴取者位置に依存してもよく、そのため、レンダリング・モード指示は、複数の聴取者位置のそれぞれについてそれぞれの所定のレンダリング・モードを示す。
【0025】
本開示の別の側面は、プロセッサのための命令を記憶しているメモリに結合されたプロセッサを含むオーディオ・デコーダに関する。プロセッサは、上記の諸側面または実施形態のそれぞれによる方法を実行するように適応されてもよい。
【0026】
本開示の別の側面は、プロセッサのための命令を記憶しているメモリに結合されたプロセッサを含むオーディオ・エンコーダに関する。プロセッサは、上記の諸側面または実施形態のそれぞれによる方法を実行するように構成されてもよい。
【0027】
本開示のさらなる側面は、対応するコンピュータ・プログラムおよびコンピュータ可読記憶媒体に関する。
【0028】
方法ステップおよび装置の特徴は、多くの仕方で交換されうることが理解されるであろう。特に、開示された方法の詳細は、当業者が理解するように、方法の一部または全部のステップを実行するように適応された装置として実装されることができ、その逆も可能である。特に、方法に関してなされたそれぞれの陳述は、対応する装置にも同様に適用され、その逆も成り立つことが理解される。
【図面の簡単な説明】
【0029】
本開示の例示的な実施形態が、添付の図面を参照して以下に説明される。ここで、同様の参照番号は、同様のまたは類似の要素を示す。
図1】エンコーダ/デコーダ・システムの一例を概略的に示す図である。
図2】オーディオ・シーンの例を概略的に示す。
図3】オーディオ・シーンの音響環境における位置の例を概略的に示す。
図4】本開示の実施形態によるエンコーダ/デコーダ・システムの例を概略的に示す。
図5】本開示の実施形態によるエンコーダ/デコーダ・システムの別の例を概略的に示す。
図6】本開示の実施形態によるオーディオ・シーン・コンテンツをエンコードする方法の例を概略的に示すフローチャートである。
図7】本開示の実施形態によるオーディオ・シーン・コンテンツをデコードする方法の例を概略的に示すフローチャートである。
図8】本開示の実施形態によるオーディオ・シーン・コンテンツを生成する方法の例を概略的に示すフローチャートである。
図9図8の方法を実行することができる環境の例を概略的に示す。
図10】本開示の実施形態によるデコーダの出力を試験するための環境の例を概略的に示す。
図11】本開示の実施形態によるビットストリーム内で転送されるデータ要素の例を概略的に示す。
図12】オーディオ・シーンを参照して、種々のレンダリング・モードの例を概略的に示す。
図13】オーディオ・シーンを参照して、本開示の実施形態によるエンコーダおよびデコーダ処理の例を概略的に示す。
図14】本開示の実施形態による、有効オーディオ要素を異なる聴取者位置にレンダリングする例を概略的に示す。
図15】本開示の実施形態による、音響環境におけるオーディオ要素、有効オーディオ要素、および聴取者位置の例を概略的に示す。
【発明を実施するための形態】
【0030】
上述のように、本開示における同一または同様の参照番号は、同一または同様の要素を示し、その繰り返しの説明は、簡潔さの理由から省略されることがある。
【0031】
本開示は、VR/AR/MRレンダラーまたはオーディオ・レンダラー(たとえば、そのレンダリングがMPEGオーディオ標準と互換性があるオーディオ・レンダラー)に関する。本開示は、さらに、エンコーダが事前に定義した3DoF+領域(単数または複数)内の音場の品質およびビットレート効率の良い表現を提供する、芸術的な事前レンダリング概念に関する。
【0032】
一例では、6DoFオーディオ・レンダラーは、特定の位置(単数または複数)における参照信号(音場)へのマッチを出力してもよい。6DoFオーディオ・レンダラーは、VR/AR/MR関連メタデータをMPEG-H 3Dオーディオ・レンダラー入力フォーマットなどのネイティブ・フォーマットに変換することを拡張してもよい。
【0033】
ねらいは、3DoF位置(単数または複数)でのあらかじめ定義された参照信号としてオーディオ出力を生成するために、標準準拠の(たとえば、MPEG規格に準拠の、または、将来のMPEG規格に準拠する)オーディオ・レンダラーを提供することである。
【0034】
そのような要件をサポートするためのストレートなアプローチは、あらかじめ定義された(事前レンダリングされた)信号(単数または複数)をデコーダ/レンダラー側に直接転送することであろう。このアプローチには次のような明らかな欠点がある:
1.ビットレートの増加(すなわち、もとのオーディオ源信号に加えて、事前レンダリングされた信号(単数または複数)が送られる);
2.限られた妥当性(すなわち、事前レンダリングされた信号(単数または複数)は3DoF位置(単数または複数)についてのみ有効である)。
【0035】
大まかに言えば、本開示は、6DoFレンダリング機能を提供するために、そのような信号(単数または複数)を効率的に生成、エンコード、デコード、およびレンダリングすることに関する。よって、本開示は、以下を含む、前述の欠点を克服する方法を記述する:
1.もとのオーディオ源信号の代わりに(またはそれに対する相補的な追加として)事前レンダリングされた信号を使用すること;
2.高レベルの音場近似を保存することにより、3DoF位置(単数または複数)から事前レンダリングされた信号(単数または複数)についての3DoF+領域までの適用可能範囲の増大(6DoFレンダリングの使用)。
【0036】
本開示が適用可能な例示的なシナリオが図2に示される。図2は、例示的な空間、たとえば、エレベーターおよび聴取者を示す。一例では、聴取者は、そのドアを開閉するエレベーターの前に立っていてもよい。エレベーターのかごの中には、何人かの話している人々と周囲の音楽がある。聴取者は動き回ることができるが、エレベーターのキャビンにはいることはできない。図2は、エレベーター・システムの平面図および正面図である。
【0037】
このように、図2のエレベーターおよび音源(話している人々、周囲の音楽)は、オーディオ・シーンを定義すると言える。
【0038】
一般に、本開示のコンテキストにおけるオーディオ・シーン(audio scene)は、シーン内の音をレンダリングするために必要なすべてのオーディオ要素、音響要素および音響環境、すなわち、オーディオ・レンダラー(たとえば、MPEG-Iオーディオ・レンダラー)によって必要とされる入力データを意味すると理解される。本開示の文脈において、オーディオ要素(audio element)は、一つまたは複数のオーディオ信号および関連するメタデータを意味すると理解される。オーディオ要素は、たとえば、オーディオ・オブジェクト、チャネルまたはHOA信号であってもよい。オーディオ・オブジェクト(audio object)は、オーディオ源の音を再生するための必要な情報を含む、関連する静的/動的メタデータを伴うオーディオ信号を意味すると理解される。音響要素(acoustic element)は、オーディオ要素と相互作用し、ユーザーの位置および配向に基づいてオーディオ要素のレンダリングに影響を与える、空間内の物理オブジェクトを意味すると理解される。音響要素は、オーディオ・オブジェクトとメタデータを共有してもよい(たとえば、位置と配向)。音響環境(acoustic environment)は、レンダリングされるべき仮想シーン、たとえば、部屋または局所の音響特性を記述するメタデータを意味すると理解される。
【0039】
そのようなシナリオ(または実際には他の任意のオーディオ・シーン)について、オーディオ・レンダラーが、少なくとも参照位置でもとの音場の忠実な表現である、芸術的意図を満たす、および/またはそのレンダリングがオーディオ・レンダラーの(限られた)レンダリング能力で実施できるようなオーディオ・シーンの音場表現をレンダリングできるようにすることが望ましい。さらに、エンコーダからデコーダへのオーディオ・コンテンツの伝送におけるビットレートの制限があればそれを満たすことが望ましい。
【0040】
図3は、聴取環境に関連したオーディオ・シーンの概要を概略的に示す。オーディオ・シーンは、音響環境100を含む。音響環境100は、それぞれの位置にある一つまたは複数のオーディオ要素102を含む。前記一つまたは複数のオーディオ要素は、前記一つまたは複数のオーディオ要素の位置と必ずしも等しくないそれぞれの位置において、一つまたは複数の有効オーディオ要素101を生成するために使用されてもよい。たとえば、オーディオ要素の所与の集合について、有効オーディオ要素の位置は、それらのオーディオ要素の位置の中心(たとえば、重心)に設定されてもよい。生成された有効オーディオ要素(effective audio element)は、該有効オーディオ要素を、所定のレンダリング機能(たとえば、空の空間において距離減衰を適用するだけの単純なレンダリング機能)を用いて、聴取者位置領域110内の参照位置111にレンダリングすることが、参照レンダリング機能(たとえば、音響要素(たとえば、エコー、残響、隠蔽など)を含む音響環境の特性(たとえば、インパクト)を考慮に入れるレンダリング機能)を用いてオーディオ要素102をレンダリングすることから生じるであろう、参照位置111における音場と(実質的に)知覚的に等価な音場を生じる、という特性を有していてもよい。当然のことながら、いったん生成されると、有効オーディオ要素101は、所定のレンダリング機能を使用して、参照位置111とは異なる聴取者位置領域110内の聴取者位置112にもレンダリングされうる。聴取者位置は、有効オーディオ要素101の位置から距離103のところにあってもよい。オーディオ要素102から有効オーディオ要素101を生成するための一例を、のちに、より詳細に説明する。
【0041】
いくつかの実施形態では、有効オーディオ要素102は、代替的に、聴取者位置領域110内の捕捉位置で捕捉される一つまたは複数の捕捉された信号120に基づいて決定されてもよい。たとえば、音楽演奏の聴衆のうちのユーザーは、ステージ上のオーディオ要素(たとえば、ミュージシャン)から発される音を捕捉してもよい。次いで、有効オーディオ要素の所望の位置(たとえば、有効オーディオ要素101と捕捉位置との間の距離121を、可能性としては有効オーディオ要素101と捕捉位置との間の距離ベクトルの方向を示す角度との関連で指定することなどによる、捕捉位置に対する位置)が与えられて、有効オーディオ要素101は、捕捉された信号120に基づいて生成できる。生成された有効オーディオ要素101は、所定のレンダリング機能(たとえば、空の空間における距離減衰を適用するだけの単純なレンダリング機能)を用いて、有効オーディオ要素101を参照位置111(必ずしも捕捉位置と等しくない)にレンダリングすることが、もとのオーディオ要素102(たとえば、ミュージシャン)から発した参照位置111における音場と(実質的に)知覚的に等価な音場を与えるような特性を有していてもよい。そのような使用事例の例が、のちにより詳細に説明される。
【0042】
特に、参照位置111は、いくつかの場合には、捕捉位置と同じであってもよく、参照信号(すなわち、参照位置111における信号)は、捕捉信号120と等しくてもよい。これは、ユーザーがアバター頭内レコーディング・オプションを使用できるVR/AR/MR用途については有効な想定である。現実世界のアプリケーションでは、この想定は有効ではないことがある。なぜなら、参照受領部はユーザーの耳であり、信号捕捉装置(たとえば、携帯電話またはマイクロフォン)はユーザーの耳からかなり遠く離れていることがあるからである。次に、最初に言及したニーズに対応するための方法および装置について述べる。
【0043】
図4は、本開示の実施形態によるエンコーダ/デコーダ・システムの例を示す。エンコーダ210(たとえばMPEG-Iエンコーダ)は、オーディオ出力240を生成するためにデコーダ230(たとえばMPEG-Iデコーダ)によって使用できるビットストリーム220を出力する。デコーダ230は、さらに聴取者情報233を受領することができる。聴取者情報233は、必ずしもビットストリーム220に含まれず、任意の源に由来することができる。たとえば、聴取者情報は、頭部追跡装置によって生成および出力され、デコーダ230の(専用の)インターフェースに入力されてもよい。
【0044】
デコーダ230はオーディオ・レンダラー250を含み、該オーディオ・レンダラー250は一つまたは複数のレンダリング・ツール251を含む。本開示の文脈において、オーディオ・レンダラーは、たとえばMPEG-Iの規範的なオーディオ・レンダリング・モジュールを意味するものと理解され、レンダリング・ツールおよび外部レンダリング・ツールへのインターフェース、ならびに外部リソースのためのシステム層へのインターフェースを含む。レンダリング・ツールは、レンダリングの諸側面、たとえば、部屋モデル・パラメータ化、隠蔽、残響、バイノーラル・レンダリングなどを実行するオーディオ・レンダラーのコンポーネントを意味すると理解される。
【0045】
レンダラー250は、一つまたは複数の有効オーディオ要素、有効オーディオ要素情報231、およびレンダリング・モード指示232が入力として与えられる。有効オーディオ要素、有効オーディオ要素情報、およびレンダリング・モード指示232は、下記で、より詳細に記載される。有効オーディオ要素情報231およびレンダリング・モード指示232は、ビットストリーム220から導出(たとえば、決定/デコード)されることができる。レンダラー250は、一つまたは複数のレンダリング・ツール251を用いて、有効オーディオ要素および有効オーディオ要素情報に基づいてオーディオ・シーンの表現をレンダリングする。ここで、レンダリング・モード指示232は、一つまたは複数のレンダリング・ツール251が動作するレンダリング・モードを示す。たとえば、ある種のレンダリング・ツール251は、レンダリング・モード指示232に従ってアクティブ化または非アクティブ化されうる。さらに、ある種のレンダリング・ツール251は、レンダリング・モード指示232に従って構成されてもよい。たとえば、ある種のレンダリング・ツール251の制御パラメータは、レンダリング・モード指示232に従って選択(たとえば、設定)されてもよい。
【0046】
本開示の文脈において、エンコーダ(たとえば、MPEG-Iエンコーダ)は、6DoFメタデータおよび制御データを決定するタスク、有効オーディオ要素を決定するタスク(たとえば、各有効オーディオ要素についてモノラル・オーディオ信号を含む)、有効オーディオ要素についての位置(たとえば、x、y、z)を決定するタスク、およびレンダリング・ツールを制御するためのデータを決定するタスク(たとえば、フラグおよび構成データを有効/無効にするタスク)を有する。レンダリング・ツールを制御するためのデータは、前述のレンダリング・モード指示に対応する、前述のレンダリング・モード指示を含む、または前述のレンダリング・モード指示に含まれることができる。
【0047】
上記に加えて、本開示の実施形態によるエンコーダは、参照位置111についての参照信号R(存在する場合)に対する、出力信号240の知覚的な差を最小化してもよい。すなわち、デコーダによって使用されるレンダリング・ツール/レンダリング関数F()と、処理された信号Aと、有効オーディオ要素の位置(x,y,z)とについて、エンコーダは次の最適化を実施してもよい:
{x,y,z;F}:||Output(参照位置)(F(x,y,z)(A))-R||知覚的->min
【0048】
さらに、本開示の実施形態によるエンコーダは、処理された信号Aの「直接」部分をもとのオブジェクト102の推定された位置に割り当ててもよい。デコーダについては、これは、たとえば、該デコーダが単一の捕捉信号120からいくつかの有効オーディオ要素101を再作成することができることを意味する。
【0049】
いくつかの実施形態では、6DoFのための単純な距離モデリングによって拡張されたMPEG-H 3Dオーディオ・レンダラーが使用されてもよい。ここで、有効オーディオ要素位置は、方位角、仰角、動径、およびレンダリング・ツールF()を用いて表現される。オーディオ要素位置および利得は、手動で(たとえばエンコーダのチューニングによって)または自動で(たとえば力づくの最適化によって)取得されることができる。
【0050】
図5は、本開示の実施形態によるエンコーダ/デコーダ・システムの別の例を概略的に示す。
【0051】
エンコーダ210は、オーディオ・シーンAの指示(処理済み信号)を受領し、それが次いで、本開示に記載される仕方でエンコードにかけられる(たとえば、MPEG-Hエンコード)。加えて、エンコーダ210は、音響環境に関する情報を含むメタデータ(たとえば、6DoFメタデータ)を生成してもよい。エンコーダはさらに、可能性としてはメタデータの一部として、デコーダ230のオーディオ・レンダラー250のレンダリング・ツールを構成するためのレンダリング・モード指示を生成してもよい。レンダリング・ツールは、たとえば、有効オーディオ要素についての信号修正ツールを含んでいてもよい。レンダリング・モード指示に依存して、オーディオ・レンダラーの個々のレンダリング・ツールがアクティブ化または非アクティブ化されうる。たとえば、レンダリング・モード指示が有効オーディオ要素がレンダリングされるべきであることを示している場合、他のすべてのレンダリング・ツールが非アクティブ化される一方、信号修正ツールがアクティブ化されてもよい。デコーダ230はオーディオ出力240を出力し、これは、参照レンダリング機能を使用して、もとのオーディオ要素を参照位置111にレンダリングすることから生じる参照信号Rと比較されることができる。オーディオ出力240を参照信号Rと比較するための構成の例が、図10に概略的に示されている。
【0052】
図6は、本開示の実施形態による、オーディオ・シーン・コンテンツをビットストリームにエンコードする方法600の例を示すフローチャートである。
【0053】
ステップS610では、オーディオ・シーンの記述が受領される。オーディオ・シーンは、音響環境と、それぞれのオーディオ要素位置にある一つまたは複数のオーディオ要素とを含む。
【0054】
ステップS620では、それぞれの有効オーディオ要素位置における一つまたは複数の有効オーディオ要素が、前記一つまたは複数のオーディオ要素から決定される。前記一つまたは複数の有効オーディオ要素は、レンダリング出力に対する音響環境の影響を考慮しないレンダリング・モードを用いて、それぞれの有効オーディオ要素位置にある前記一つまたは複数の有効オーディオ要素を参照位置にレンダリングすることによって、レンダリング出力に対する音響環境の影響を考慮した参照レンダリング・モードを用いて、それぞれのオーディオ要素位置にある前記一つまたは複数の(もとの)オーディオ要素を前記参照位置にレンダリングすることによって生じる、前記参照位置における参照音場の心理音響学的近似をもたらすように決定される。音響環境の影響は、エコー、残響、反射などを含みうる。レンダリング出力に対する音響環境の影響を考慮しないレンダリング・モードは、(空の空間における)距離減衰モデリングを適用してもよい。そのような有効オーディオ要素を決定する方法の非限定的な例は、のちにさらに記述される。
【0055】
ステップS630では、前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報が生成される。
【0056】
ステップS640では、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、デコーダにおけるレンダリング出力に対する音響環境の影響を制御するためのデコーダのレンダリング・ツールの所定の構成を定義する所定のレンダリング・モードを使用してレンダリングされるべきであることを示すレンダリング・モード指示が生成される。
【0057】
ステップS650では、前記一つまたは複数のオーディオ要素、前記オーディオ要素位置、前記一つまたは複数の有効オーディオ要素、前記有効オーディオ要素情報、および前記レンダリング・モード指示がビットストリームにエンコードされる。
【0058】
最も単純な場合、レンダリング・モード指示は、すべての音響(すなわち、音響環境の影響)が前記一つまたは複数の有効オーディオ要素に含まれる(すなわち、カプセル化される)ことを示すフラグであってもよい。よって、レンダリング・モード指示は、デコーダ(またはデコーダのオーディオ・レンダラー)が、(たとえば、距離依存利得の乗算によって)距離減衰のみが適用され、他のすべてのレンダリング・ツールが非アクティブ化される単純なレンダリング・モードを使用するための指示であってもよい。より洗練された場合には、レンダリング・モード指示は、レンダリング・ツールを構成するための一つまたは複数の制御値を含んでいてもよい。これは、個々のレンダリング・ツールのアクティブ化および非アクティブ化を含みうるが、レンダリング・ツールのより粒度の細かい制御も含みうる。たとえば、レンダリング・ツールは、前記一つまたは複数の有効オーディオ要素をレンダリングするときに音響効果を高めるために、前記レンダリング・モード指示によって構成されてもよい。これは、たとえば(たとえば、コンテンツ制作者の)芸術的意図に従って、エコー、残響、反射などの(人工的な)音響効果を加えるために使用されてもよい。
【0059】
換言すれば、方法600は、オーディオ・データをエンコードする方法に関連してもよく、オーディオ・データは、一つまたは複数の音響要素(たとえば、物理的なオブジェクトの表現)を含む音響環境内のそれぞれのオーディオ要素位置にある一つまたは複数のオーディオ要素を表わす。この方法は、音響環境における有効オーディオ要素位置における有効オーディオ要素を、有効オーディオ要素位置と参照位置との間の距離減衰を考慮するが、音響環境における音響要素を考慮しないレンダリング機能を使用するときに、有効オーディオ要素を参照位置にレンダリングすることが、それぞれのオーディオ要素位置における前記一つまたは複数のオーディオ要素の前記参照位置への参照レンダリングから生じるであろう前記参照位置における参照音場を近似するように決定することを含んでいてもよい。次いで、有効オーディオ要素および有効オーディオ要素位置がビットストリーム中にエンコードされてもよい。
【0060】
上述の状況では、有効オーディオ要素位置における有効オーディオ要素の決定は、第1のレンダリング機能を用いて、音響環境における参照位置に前記一つまたは複数のオーディオ要素をレンダリングして、それにより、参照位置における参照音場を得る段階であって、第1のレンダリング機能は、音響要素位置と参照位置との間の距離減衰のほかに音響環境における音響要素を考慮に入れる、段階と;参照位置における参照音場に基づいて、音響環境における有効オーディオ要素位置における有効オーディオ要素を、第2のレンダリング機能を用いて有効オーディオ要素を前記参照位置にレンダリングすることが前記参照音場を近似するように、決定する段階であって、前記第2のレンダリング機能は、有効オーディオ要素位置と参照位置との間の距離減衰を考慮に入れるが、音響環境における音響要素は考慮しない、段階とに関わってもよい。
【0061】
上述の方法600は、聴取者データのない0DoF使用事例に関係していてもよい。一般に、方法600は、「スマート」エンコーダおよび「単純」デコーダの概念をサポートする。
【0062】
聴取者データに関しては、いくつかの実装における方法600は、音響環境における(たとえば、聴取者位置領域における)聴取者の頭部の位置を示す聴取者位置情報を取得することを含んでいてもよい。追加的または代替的に、方法600は、音響環境における(たとえば、聴取者位置領域における)聴取者の頭部の配向を示す聴取者配向情報を取得することを含んでいてもよい。次いで、聴取者位置情報および/または聴取者配向情報は、ビットストリームにエンコードされてもよい。聴取者位置情報および/または聴取者配向情報は、前記一つまたは複数の有効オーディオ要素をしかるべくレンダリングするためにデコーダによって使用されることができる。たとえば、デコーダは、前記一つまたは複数の有効オーディオ要素を(参照位置ではなく)聴取者の実際の位置にレンダリングすることができる。同様に、特にヘッドフォン・アプリケーションについては、デコーダは、聴取者の頭部の配向に応じて、レンダリングされた音場の回転を実行することができる。
【0063】
いくつかの実装では、方法600は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含むように、前記有効オーディオ要素情報を生成することができる。次いで、この情報は、前記一つまたは複数の有効オーディオ要素をしかるべくレンダリングするためにデコーダによって使用されることができる。たとえば、前記一つまたは複数の有効オーディオ要素をレンダリングするとき、デコーダは、前記一つまたは複数の有効オーディオ要素のそれぞれにそれぞれの利得を適用してもよい。これらの利得は、それぞれの放射パターンに基づいて決定されてもよい。各利得は、それぞれの有効オーディオ要素と聴取者位置(または参照位置へのレンダリングが実行される場合は参照位置)との間の距離ベクトルと、それぞれのオーディオ要素の放射方向を示す放射方向ベクトルとの間の角度に基づいて決定されてもよい。複数の放射方向ベクトルおよび対応する重み付け係数を有する、より複雑な放射パターンについては、利得は、距離ベクトルとそれぞれの放射方向ベクトルとの間の角度に基づいて決定される各利得の重み付けされた和に基づいて決定されてもよい。和における重みは、前記重み付け係数に対応してもよい。放射パターンに基づいて決定された利得は、所定のレンダリング・モードによって適用される距離減衰利得に加えられてもよい。
【0064】
いくつかの実装では、少なくとも2つの有効オーディオ要素が生成され、ビットストリームに符号化されてもよい。次いで、レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示してもよい。前記少なくとも2つの所定のレンダリング・モードは、相異なっていてもよい。それにより、たとえばコンテンツ制作者の芸術的意図に従って、異なる有効オーディオ要素について異なる量の音響効果を示すことができる。
【0065】
いくつかの実装では、方法600は、所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を得ることをさらに含んでいてもよい。次いで、この聴取者位置領域情報がビットストリーム中にエンコードされることができる。デコーダでは、レンダリングが所望される聴取者位置が、聴取者位置情報によって示される聴取者位置領域内であれば、前記所定のレンダリング・モードが使用されるべきである。そうでなければ、デコーダは、たとえばデフォルトのレンダリング・モードのような、自分が選んだレンダリング・モードを適用することができる。
【0066】
さらに、レンダリングが望まれる聴取者位置に依存して、異なる所定のレンダリング・モードが予見されてもよい。よって、前記レンダリング・モード指示によって示される前記所定のレンダリング・モードは、聴取者位置に依存してもよく、前記レンダリング・モード指示は、複数の聴取者位置のそれぞれについてそれぞれの所定のレンダリング・モードを示す。同様に、レンダリングが望まれる聴取者位置領域に依存して、異なる所定のレンダリング・モードが予見されてもよい。特に、異なる聴取者位置(または聴取者位置領域)について異なる有効オーディオ要素が存在してもよい。そのようなレンダリング・モード指示を提供することにより、各聴取者位置(または聴取者位置領域)に適用される(人工的な)エコー、残響、反射などの(人工的な)音響の制御が可能になる。
【0067】
図7は、本開示の実施形態による、デコーダによってビットストリームからオーディオ・シーン・コンテンツをデコードする対応する方法700の例を示すフローチャートである。デコーダは、一つまたは複数のレンダリング・ツールを有するオーディオ・レンダラーを含んでいてもよい。
【0068】
ステップS710では、ビットストリームが受領される。ステップS720では、オーディオ・シーンの記述がビットストリームからデコードされる。ステップS730では、一つまたは複数の有効オーディオ要素が、オーディオ・シーンの記述から決定される。
【0069】
ステップS740では、一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報が、オーディオ・シーンの記述から決定される。
【0070】
ステップS750では、レンダリング・モード指示がビットストリームからデコードされる。レンダリング・モード指示は、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、所定のレンダリング・モードを使用してレンダリングされるべきであるかどうかを示す。
【0071】
ステップS760では、前記レンダリング・モード指示が、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、前記所定のレンダリング・モードを使用してレンダリングされるべきであることを示すことに応答して、前記一つまたは複数の有効オーディオ要素が前記所定のレンダリング・モードを使用してレンダリングされる。前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、前記有効オーディオ要素情報を考慮に入れる。さらに、前記所定のレンダリング・モードは、レンダリング出力に対するオーディオ・シーンの音響環境の影響を制御するための前記レンダリング・ツールの所定の構成を定義する。
【0072】
いくつかの実装では、方法700は、音響環境における(たとえば、聴取者位置領域における)聴取者の頭部の位置を示す聴取者位置情報、および/または、音響環境における(たとえば、聴取者位置領域における)聴取者の頭部の配向を示す聴取者配向情報を得ることを含んでいてもよい。次いで、前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、たとえば方法600を参照して上述した仕方で、聴取者位置情報および/または聴取者配向情報をさらに考慮に入れてもよい。対応するデコーダは、聴取者位置情報および/または聴取者配向情報を受信するためのインターフェースを含んでいてもよい。
【0073】
方法700のいくつかの実装では、有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含んでいてもよい。前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、さらに、たとえば方法600を参照して上述した仕方で、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を考慮に入れてもよい。
【0074】
方法700のいくつかの実装では、前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、聴取者位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間のそれぞれの距離に応じて、(空の空間における)音減衰モデリングを適用してもよい。そのような所定のレンダリング・モードは、単純レンダリング・モードと呼ばれる。音響環境の影響が前記一つまたは複数の有効オーディオ要素に「カプセル化」されるので、前記単純レンダリング・モード(すなわち、空の空間における距離減衰のみ)を適用することが可能である。そうすることにより、デコーダの処理負荷の一部がエンコーダに委任されることができ、低パワー・デコーダでも芸術的意図に沿った没入的音場のレンダリングを可能にする。
【0075】
方法700のいくつかの実装では、少なくとも2つの有効オーディオ要素が、オーディオ・シーンの記述から決定されてもよい。その際、レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示してもよい。そのような状況では、方法700は、それぞれの所定のレンダリング・モードを使用して前記少なくとも2つの有効オーディオ要素をレンダリングすることをさらに含んでいてもよい。それぞれの所定のレンダリング・モードを使用して各有効オーディオ要素をレンダリングすることは、その有効オーディオ要素についての有効オーディオ要素情報を考慮に入れてもよく、その有効オーディオ要素についてのレンダリング・モードは、その有効オーディオ要素についてのレンダリング出力に対するオーディオ・シーンの音響環境の影響を制御するためのレンダリング・ツールのそれぞれの所定の構成を定義してもよい。前記少なくとも2つの所定のレンダリング・モードは、区別されうる。それにより、たとえばコンテンツ制作者の芸術的意図に従って、異なる有効オーディオ要素について異なる音響効果の量を示すことができる。
【0076】
いくつかの実装では、有効オーディオ要素および(実際の/もとの)オーディオ要素の両方が、デコードされるべきビットストリームにおいてエンコードされてもよい。その際、方法700は、オーディオ・シーンの記述から一つまたは複数のオーディオ要素を決定し、オーディオ・シーンの記述から前記一つまたは複数のオーディオ要素のオーディオ要素位置を示すオーディオ要素情報を決定することを含んでいてもよい。前記一つまたは複数のオーディオ要素のレンダリングは、前記一つまたは複数の有効オーディオ要素に使用される前記所定のレンダリング・モードとは異なる、前記一つまたは複数のオーディオ要素のためのレンダリング・モードを使用して実行される。前記一つまたは複数のオーディオ要素についての前記レンダリング・モードを使用して前記一つまたは複数のオーディオ要素をレンダリングすることは、オーディオ要素情報を考慮に入れてもよい。これにより、(実際の/もとの)オーディオ要素をたとえば前記参照レンダリング・モードでレンダリングしつつ、有効オーディオ要素をたとえば前記単純レンダリング・モードでレンダリングすることができる。また、前記所定のレンダリング・モードは、オーディオ要素のために使用されるレンダリング・モードとは別個に構成されることができる。より一般的には、オーディオ要素および有効オーディオ要素についてのレンダリング・モードは、関連するレンダリング・ツールの異なる構成を含意することがある。オーディオ要素には音響レンダリング(音響環境の影響を考慮に入れる)が適用されてもよく、一方、有効オーディオ要素には、(空の空間における)距離減衰モデリングが、可能性としては人工音響(必ずしもエンコードのために想定される音響環境によって決定されるのではない)と一緒に、適用されてもよい。
【0077】
いくつかの実装では、方法700は、所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を得ることをさらに含んでいてもよい。聴取者位置領域内の聴取者位置領域情報によって示される聴取者位置へのレンダリングについては、所定のレンダリング・モードが使用されるべきである。それ以外については、デコーダは、たとえばデフォルトのレンダリング・モードのような、自分が選んだレンダリング・モード(これは実装依存であってよい)を適用することができる。
【0078】
方法700のいくつかの実装では、レンダリング・モード指示によって示される所定のレンダリング・モードは、聴取者位置(または聴取者位置領域)に依存してもよい。次いで、デコーダは、聴取者位置領域情報によって示される聴取者位置領域についてのレンダリング・モード指示によって示されるその所定のレンダリング・モードを使用して、前記一つまたは複数の有効オーディオ要素をレンダリングすることを実行してもよい。
【0079】
図8は、オーディオ・シーン・コンテンツを生成する方法800の例を示すフローチャートである。
【0080】
ステップS810では、オーディオ・シーンからの捕捉された信号を表わす一つまたは複数のオーディオ要素が得られる。これは、たとえば、レコーディング機能を有するマイクロフォンまたはモバイルデバイスなどを使用する音捕捉によって行なうことができる。
【0081】
ステップS820では、生成される一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報が得られる。有効オーディオ要素位置は、推定されてもよく、またはユーザー入力として受領されてもよい。
【0082】
ステップS830において、前記一つまたは複数の有効オーディオ要素は、捕捉された信号が捕捉された位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間の距離に従う音減衰モデリングを適用することによって、捕捉された信号を表わす前記一つまたは複数のオーディオ要素から決定される。
【0083】
方法800は、離散的な捕捉位置(図3参照)からのオーディオ要素102を表わす捕捉されたオーディオ信号120の現実世界でのA(/V)レコーディングを可能にする。本開示による方法および装置は、聴取者位置領域110内の参照位置111または他の位置112および配向(すなわち、6DoFフレームワークにおける配向)からの(たとえば、3DoF+、3DoF、0DoFプラットフォームを使用して、可能な限り有意義なユーザー経験を有する)この素材の消費を可能にする。これは図9に概略的に示される。
【0084】
オーディオ・シーン内の(実際の/もとの)オーディオ要素から有効オーディオ要素を決定するための一つの非限定的な例を次に述べる。
【0085】
上述したように、本開示の実施形態は、あらかじめ定義された参照信号(これは音波伝搬の物理法則と整合していてもいなくてもよい)に対応する仕方で「3DoF位置」での音場を再現することに関する。この音場は、すべてのもとの「オーディオ源」(オーディオ要素)に基づき、対応する音響環境(たとえば、VR/AR/MR環境、すなわち、「ドア」、「壁」など)の複雑な(および可能性としては動的に変化する)幾何構成の影響を反映するべきである。たとえば、図2の例を参照するに、音場は、エレベーター内のすべての音源(オーディオ要素)に関係してもよい。
【0086】
さらに、「6DoF空間」のための高レベルのVR/AR/MR没入を提供するために、対応するレンダラー(たとえば、6DoFレンダラー)出力音場は、十分に良好に再現されるべきである。
【0087】
よって、本開示の実施形態は、いくつかのもとのオーディオ・オブジェクト(オーディオ要素)をレンダリングし、複雑な音響環境の影響を考慮する代わりに、エンコーダで事前レンダリングされ、全体的なオーディオ・シーンを表わす(すなわち、オーディオ・シーンの音響環境の影響を考慮に入れる)仮想オーディオ・オブジェクト(有効オーディオ要素)を導入することに関する。音響環境のすべての効果(たとえば、音響隠蔽、残響、直接反射、エコーなど)は、エンコードされてレンダラー(たとえば、6DoFレンダラー)に伝送される仮想オブジェクト(有効オーディオ要素)波形において直接捕捉される。
【0088】
対応するデコーダ側のレンダラー(たとえば、6DoFレンダラー)は、そのようなオブジェクト・タイプ(要素タイプ)については、6DoF空間全体で、「単純レンダリング・モード」(VR/AR/MR環境を考慮しない)で動作してもよい。単純レンダリング・モード(上述の所定のレンダリング・モードの一例として)は、(空の空間における)距離減衰を考慮に入れるだけであってもよく、残響、エコー、直接反射、音響隠蔽などのような音響環境の影響(たとえば、音響環境における音響要素の影響)を考慮に入れなくてもよい。
【0089】
あらかじめ定義された参照信号の適用可能範囲を拡張するために、仮想オブジェクト(単数または複数)(有効オーディオ要素)は、音響環境(VR/AR/MR空間)内の特定の位置に(たとえば、もとのオーディオ・シーンまたはもとのオーディオ要素の音強度の中心に)配置されてもよい。この位置は、エンコーダにおいて逆オーディオ・レンダリングによって自動的に決定される、またはコンテンツ・プロバイダーによって手動で指定されることができる。この場合、エンコーダが転送するのは下記のみである:
1.b)仮想オーディオ・オブジェクトの「事前レンダリング・タイプ」(または一般的には前記レンダリング・モード指示)を信号伝達するフラグ;
2.b)少なくとも事前レンダリングされた参照(たとえば、モノ・オブジェクト)から得られた仮想オーディオ・オブジェクト信号(有効オーディオ要素);および
3.b)「3DoF位置」の座標および「6DoF空間」の記述(たとえば、有効オーディオ要素位置を含む有効オーディオ要素情報)。
【0090】
従来の手法についてのあらかじめ定義された参照信号は、提案される手法についての仮想オーディオ・オブジェクト信号(2.b)と同じではない。すなわち、仮想オーディオ・オブジェクト信号(2.b)の「単純な」6DoFレンダリングが、与えられた「3DoF位置」(単数または複数)についてできるだけ良好に、あらかじめ定義された参照信号を近似すべきである。
【0091】
一例では、以下のエンコード方法が、オーディオ・エンコーダによって実行されてもよい:
1.所望の「3DoF位置」(単数または複数)および対応する「3DoF+領域」(単数または複数)(たとえば、レンダリングが所望される聴取者位置および/または聴取者位置領域)の決定
2.「3DoF位置」(単数または複数)についての参照レンダリング(または直接レコーディング)
3.逆オーディオ・レンダリング、「3DoF位置」(単数または複数)における得られた参照信号の最良の可能な近似をもたらす仮想オーディオ・オブジェクト(単数または複数)(有効オーディオ要素)の信号(単数または複数)および位置(単数または複数)の決定
4.結果として生じる仮想オーディオ・オブジェクト(単数または複数)(有効オーディオ要素)とその位置(単数または複数)を、対応する6DoF空間(音響環境)の信号伝達および6DoFレンダラーの「単純レンダリング・モード」を可能にする「事前レンダリング・オブジェクト」属性(レンダリング・モード指示)とともにエンコードすること。
【0092】
逆オーディオ・レンダリング(上記項目3参照)の複雑さは、6DoFレンダラーの「単純レンダリング・モード」の6DoF処理の複雑さに直接相関する。さらに、この処理は、計算パワーの点で制限がより少ないと想定されるエンコーダ側で発生する。
【0093】
ビットストリームにおいて転送される必要のあるデータ要素の例が、図11のAに概略的に示されている。図11Bは、従来のエンコード/デコード・システムにおいてビットストリーム内で転送されるデータ要素を概略的に示す。
【0094】
図12は、直接的な「単純」および「参照」レンダリング・モードの使用事例を示している。図12の左側は、前述のレンダリング・モードの動作を示し、右側は、(図2の例に基づいて)いずれかのレンダリング・モードを使用して、オーディオ・オブジェクトを聴取者位置にレンダリングすることを概略的に示す。
・「単純レンダリング・モード」は、音響環境(たとえば、音響VR/AR/MR環境)を考慮しないことがある。すなわち、単純レンダリング・モードは、(たとえば、空の空間における)距離減衰のみを考慮してもよい。たとえば、図12の左側の上パネルに示されるように、単純レンダリング・モードでは、Fsimpleは距離減衰のみを考慮し、ドアの開閉(たとえば、図2を参照)のようなVR/AR/MR環境の効果を考慮しない。
・「参照レンダリング・モード」(図12の左側の下パネル)は、VR/AR/MR環境効果の一部または全部を考慮に入れてもよい。
【0095】
図13は、単純レンダリング・モードの例示的なエンコーダ/デコーダ側処理を示す。左側の上のパネルはエンコーダ処理を示し、左側の下のパネルはデコーダ処理を示す。右側は、聴取者位置でのオーディオ信号の、有効オーディオ要素の位置への逆レンダリングを概略的に示す。
【0096】
レンダラー(たとえば、6DoFレンダラー)出力は、3DoF位置(単数または複数)における参照オーディオ信号を近似しうる。この近似は、オーディオ・コア・コーダの影響と、オーディオ・オブジェクト集約(すなわち、いくつかの空間的に相異なるオーディオ源(オーディオ要素)の、より少数の仮想オブジェクト(有効オーディオ要素)による表現)の効果とを含みうる。たとえば、近似された参照信号は、6DoF空間における聴取者位置の変化を考慮してもよく、同様に、より少数の仮想オブジェクト(有効オーディオ要素)に基づいて、いくつかのオーディオ源(オーディオ要素)を表わしてもよい。これを図14に概略的に示される。
【0097】
一例では、図15は、音源/オブジェクト信号(オーディオ要素)101、仮想オブジェクト信号(有効オーディオ要素)100、3DoFにおける所望されるレンダリング出力102
【数1】
および所望されるレンダリングの近似103
【数2】
を示す。
【0098】
さらなる用語は下記を含む:
・3DoF 所与の参照互換位置(単数または複数)∈6DoF空間
・6DoF 任意の許容される位置(単数または複数)∈VR/AR/MRシーン
・Freference(x) エンコーダで決定される参照レンダリング
・Fsimple(x) デコーダで指定される6DoF「単純モード・レンダリング」
・x(NDoF) 3DoF位置/6DoF空間における音場表現
・xreference (3DoF) エンコーダで決定される、3DoF位置(単数または複数)についての参照信号(単数または複数):
・xreference (3DoF):=3DoFについてのFreference(x)
・xreference (6DoF) 一般的参照レンダリング出力
・xreference (6DoF):=6DoFについてのFreference(x)
与えられるもの(エンコーダ側で):
・オーディオ源信号(単数または複数) x
・3DoF位置(単数または複数)についての参照信号(単数または複数) xreference (3DoF)
利用可能なもの(レンダラーで):
・仮想オブジェクト信号(単数または複数) xvirtual
・デコーダ6DoF「単純レンダリング・モード」 6DoFについてのFsimple、∃F-1 simple
問題:下記を提供するxvirtualおよびx(6DoF)を定義する
・3DoFでの所望されるレンダリング出力x(3DoF)→xreference (3DoF)
・所望されるレンダリングの近似
【数3】
解決策:
【数4】
【0099】
提案される手法の次の主な利点が識別できる:
芸術的レンダリング機能サポート:6DoFレンダラーの出力は、任意の(エンコーダ側で既知の)芸術的事前レンダリングされた参照信号に対応することができる。
計算量:6DoFオーディオ・レンダラー(たとえば、MPEG-Iオーディオ・レンダラー)は、複雑な音響VR/AR/MR環境について「単純レンダリング・モード」で動作できる。
符号化効率:この手法については、事前レンダリングされた信号についてのオーディオ・ビットレートは、もとのオーディオ源の数にではなく、3DoF位置の数(より正確には、対応する仮想オブジェクトの数)に比例する。これは、オブジェクトの数が多く、6DoF移動自由度が制限されている場合に非常に有益でありうる。
・あらかじめ決定された位置(単数または複数)におけるオーディオ品質制御:最良の知覚的オーディオ品質が、VR/AR/MR空間における任意の位置および対応する3DoF+領域(単数または複数)についてエンコーダによって明示的に保証されることができる。
【0100】
本発明は、参照レンダリング/レコーディング(すなわち、「芸術的意図」)概念をサポートする。すなわち、任意の複雑な音響環境(または芸術的レンダリング効果)が、事前レンダリングされたオーディオ信号(単数または複数)によってエンコードされ(かかる信号において送信され)ることができる。
【0101】
以下の情報は、参照レンダリング/レコーディングを許容するために、ビットストリームにおいて信号伝達されうる:
・事前レンダリングされた信号タイプ・フラグ(単数または複数)。これは、対応する仮想オブジェクトについての音響VR/AR/MR環境の影響を無視した「単純レンダリング・モード」を可能にする。
・仮想オブジェクト信号レンダリングのための適用可能領域(すなわち、6DoF空間)を記述するパラメータ表現。
【0102】
6DoFオーディオ処理(たとえば、MPEG-Iオーディオ処理)の間に、以下が指定されてもよい:
・いかにして6DoFレンダラーがそのような事前レンダリングされた信号を互いに、また通常の信号と混合するか。
【0103】
よって、本発明は:
・デコーダで指定される「単純モード・レンダリング」機能(すなわち、Fsimple)の定義に関して一般的である;それは任意の複雑さであってもよいが、デコーダ側で対応する近似が存在するべきである(すなわち、∃Fsimple -1);理想的には、この近似は、数学的に「性質のよい」(well-defined)(たとえば、アルゴリズム的に安定な)ものであるべきである
・一般的な音場および音源表現(およびそれらの組み合わせ):オブジェクト、チャネル、FOA、HOAに拡張可能かつ適用可能である
・(距離減衰モデリングに加えて)オーディオ源指向性の諸側面を考慮することができる
・事前レンダリングされる信号について複数の(重なり合っていてもよい)3DoF位置に適用可能である
・事前レンダリングされた信号が通常の信号(周囲音、オブジェクト、FOA、HOAなど)と混合されるシナリオに適用可能である
・3DoF位置についての参照信号xreference (3DoF)
-コンテンツ制作者側で適用される任意の(任意の複雑さの)「プロダクション・レンダラー」の出力
-実際のオーディオ信号/フィールド・レコーディング(およびその芸術的修正)
として定義し、取得することを許容する。
【0104】
本開示のいくつかの実施形態は、
【数5】
に基づいて3DoF位置を決定することに向けられうる。
【0105】
本明細書に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されうる。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で動作するソフトウェアとして実装されてもよい。他のコンポーネントは、ハードウェアとして、および/または特定用途向け集積回路として実装されてもよい。上述の方法およびシステムで遭遇する信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。該信号は、電波ネットワーク、衛星ネットワーク、無線ネットワーク、またはインターネットなどの有線ネットワークなどのネットワークを介して転送されてもよい。本明細書に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使用される可搬式電子装置または他の消費者装置である。
【0106】
いくつかの態様を記載しておく。
〔態様1〕
一つまたは複数のレンダリング・ツールをもつオーディオ・レンダラーを含むデコーダによってビットストリームからオーディオ・シーン・コンテンツをデコードする方法であって、当該方法は:
前記ビットストリームを受領する段階と;
前記ビットストリームから音響環境を含むオーディオ・シーンの記述をデコードする段階と;
前記オーディオ・シーンの記述から一つまたは複数の有効オーディオ要素を決定する段階であって、前記一つまたは複数の有効オーディオ要素は前記音響環境の影響をカプセル化し、前記オーディオ・シーンを表わす一つまたは複数の仮想オーディオ・オブジェクトに対応する、段階と;
前記オーディオ・シーンの記述から、前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を決定する段階であって、前記有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含む、段階と;
前記ビットストリームからレンダリング・モード指示をデコードする段階であって、前記レンダリング・モード指示は、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、所定のレンダリング・モードを使用してレンダリングされるべきであるかどうかを示す、段階と;
前記レンダリング・モード指示が、前記一つまたは複数の有効オーディオ要素が事前レンダリングされたオーディオ要素から得られた音場を表わし、所定のレンダリング・モードを使用してレンダリングされるべきであることを示すことに応答して、前記一つまたは複数の有効オーディオ要素を前記所定のレンダリング・モードを用いてレンダリングする段階とを含み、
前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、前記有効オーディオ要素情報および前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す前記情報を考慮に入れ、前記所定のレンダリング・モードは、レンダリング出力に対するオーディオ・シーンの前記音響環境の影響を制御するための前記レンダリング・ツールの所定の構成を定義する、
方法。
〔態様2〕
音響環境における聴取者の頭部の位置を示す聴取者位置情報、および/または音響環境における聴取者の頭部の配向を示す聴取者配向情報を得る段階をさらに含み、
所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、前記聴取者位置情報および/または聴取者配向情報をさらに考慮に入れる、
態様1に記載の方法。
〔態様3〕
前記所定のレンダリング・モードを使用して前記一つまたは複数の有効オーディオ要素をレンダリングすることは、聴取者位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間のそれぞれの距離に従って、音減衰モデリングを適用する、
態様1または2に記載の方法。
〔態様4〕
少なくとも2つの有効オーディオ要素が、前記オーディオ・シーンの記述から決定され;
前記レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示し;
当該方法は、それぞれの所定のレンダリング・モードを使用して、前記少なくとも2つの有効オーディオ要素をレンダリングすることを含み;
それぞれの所定のレンダリング・モードを使用して各有効オーディオ要素をレンダリングすることは、その有効オーディオ要素の有効オーディオ要素情報を考慮に入れ、その有効オーディオ要素についてのレンダリング・モードは、その有効オーディオ要素についてのレンダリング出力に対するオーディオ・シーンの音響環境の影響を制御するためのレンダリング・ツールのそれぞれの所定の構成を定義する、
態様1ないし3のうちいずれか一項に記載の方法。
〔態様5〕
前記オーディオ・シーンの記述から一つまたは複数のもとのオーディオ要素を決定する段階と;
前記オーディオ・シーンの記述から、前記一つまたは複数のオーディオ要素のオーディオ要素位置を示すオーディオ要素情報を決定する段階と;
前記一つまたは複数の有効オーディオ要素について使用される所定のレンダリング・モードとは異なる前記一つまたは複数のオーディオ要素についてのレンダリング・モードを使用して、前記一つまたは複数のオーディオ要素をレンダリングする段階とをさらに含み、
前記一つまたは複数のオーディオ要素についてのレンダリング・モードを使用して前記一つまたは複数のオーディオ要素をレンダリングすることは、前記オーディオ要素情報を考慮に入れる、
態様1ないし4のうちいずれか一項に記載の方法。
〔態様6〕
前記所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を取得することをさらに含む、
態様1ないし5のうちいずれか一項に記載の方法。
〔態様7〕
前記レンダリング・モード指示によって示される所定のレンダリング・モードは、前記聴取者位置に依存し;
当該方法は、前記聴取者位置領域情報によって示される前記聴取者位置領域について、前記レンダリング・モード指示によって示されるその所定のレンダリング・モードを使用して、前記一つまたは複数の有効オーディオ要素をレンダリングすることを含む、
態様6に記載の方法。
〔態様8〕
オーディオ・シーン・コンテンツを生成する方法であって、当該方法は:
音響環境を含むオーディオ・シーンからの捕捉された信号を表す一つまたは複数のオーディオ要素を取得する段階と;
生成される一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を得る段階であって、前記一つまたは複数の有効オーディオ要素は前記音響環境の影響をカプセル化し、前記オーディオ・シーンを表わす一つまたは複数の仮想オーディオ・オブジェクトに対応し、前記有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含む、段階と;
前記捕捉された信号が捕捉された位置と前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置との間の距離に従って音減衰モデリングを適用することによって、前記捕捉された信号を表わす前記一つまたは複数のオーディオ要素から前記一つまたは複数の有効オーディオ要素を決定する段階とを含む、
方法。
〔態様9〕
オーディオ・シーン・コンテンツをビットストリームにエンコードする方法であって、当該方法は:
オーディオ・シーンの記述を受領する段階であって、前記オーディオ・シーンは、音響環境と、それぞれのオーディオ要素位置にある一つまたは複数のオーディオ要素とを含む、段階と;
前記一つまたは複数のオーディオ要素からそれぞれの有効オーディオ要素位置における一つまたは複数の有効オーディオ要素を決定する段階であって、前記一つまたは複数の有効オーディオ要素は一つまたは複数のもとのオーディオ・オブジェクトに対応し、前記一つまたは複数の有効オーディオ要素は前記音響環境の影響をカプセル化し、前記オーディオ・シーンを表わす一つまたは複数の仮想オーディオ・オブジェクトに対応する、段階と;
前記一つまたは複数の有効オーディオ要素の有効オーディオ要素位置を示す有効オーディオ要素情報を生成する段階であって、前記有効オーディオ要素情報は、前記一つまたは複数の有効オーディオ要素のそれぞれの音放射パターンを示す情報を含むように生成される、段階と;
前記一つまたは複数の有効オーディオ要素が、事前レンダリングされたオーディオ要素から得られた音場を表わし、デコーダにおけるレンダリング出力に対する音響環境の影響を制御するためのデコーダのレンダリング・ツールの所定の構成を定義する所定のレンダリング・モードを使用してレンダリングされるべきであることを示すレンダリング・モード指示を生成する段階と;
前記一つまたは複数のオーディオ要素、前記オーディオ要素位置、前記一つまたは複数の有効オーディオ要素、前記有効オーディオ要素情報、および前記レンダリング・モード指示をビットストリームにエンコードする段階を含む、
方法。
〔態様10〕
音響環境における聴取者の頭部の位置を示す聴取者位置情報、および/または音響環境における聴取者の頭部の配向を示す聴取者配向情報を得る段階と;
前記聴取者位置情報および/または聴取者配向情報を前記ビットストリームにエンコードする段階とをさらに含む、
態様9に記載の方法。
〔態様11〕
いくつかの実施形態では、少なくとも2つの有効オーディオ要素が生成され、前記ビットストリームにエンコードされ;
レンダリング・モード指示は、前記少なくとも2つの有効オーディオ要素のそれぞれについて、それぞれの所定のレンダリング・モードを示す、
態様9または10に記載の方法。
〔態様12〕
前記所定のレンダリング・モードが使用される聴取者位置領域を示す聴取者位置領域情報を取得する段階と;
前記聴取者位置領域情報を前記ビットストリームにエンコードする段階とをさらに含む、
態様9ないし11のうちいずれか一項に記載の方法。
〔態様13〕
前記レンダリング・モード指示によって示される前記所定のレンダリング・モードは、前記聴取者位置に依存し、前記レンダリング・モード指示は、複数の聴取者位置のそれぞれについてそれぞれの所定のレンダリング・モードを示す、態様12に記載の方法。
〔態様14〕
プロセッサのための命令を記憶しているメモリに結合されたプロセッサを含むオーディオ・デコーダであって、前記プロセッサは、態様1ないし7のうちいずれか一項に記載の方法を実行するように適応されている、オーディオ・デコーダ。
〔態様15〕
命令を含んでいるコンピュータ・プログラムであって、前記命令は、前記命令を実行するプロセッサに、態様1ないし7のうちいずれか一項に記載の方法を実行させるものである、コンピュータ・プログラム。
〔態様16〕
態様15に記載のコンピュータ・プログラムを記憶しているコンピュータ可読記憶媒体。
〔態様17〕
プロセッサのための命令を記憶しているメモリに結合されたプロセッサを含むオーディオ・エンコーダであって、前記プロセッサは、態様8ないし13のうちいずれか一項に記載の方法を実行するように適応されている、オーディオ・エンコーダ。
〔態様18〕
命令を含んでいるコンピュータ・プログラムであって、前記命令は、前記命令を実行するプロセッサに、態様8ないし13のうちいずれか一項に記載の方法を実行させるものである、コンピュータ・プログラム。
〔態様19〕
態様18に記載のコンピュータ・プログラムを記憶しているコンピュータ可読記憶媒体。

本開示による方法および装置の例示的実装は、以下の箇条書き実施例(enumerated example embodiment、EEE)から明らかになるが、これらは特許請求の範囲ではない。
【0107】
EEE1は、少なくとも事前レンダリングされた参照信号から得られた仮想オーディオ・オブジェクト信号をエンコードするステップと;3DoF位置および6DoF空間の記述を示すメタデータをエンコードするステップと;エンコードされた仮想オーディオ信号および3DoF位置および6DoF空間の記述を示すメタデータを送信するステップと、を含む、オーディオ・データをエンコードする方法に関する。
EEE2は、EEE1の方法に関し、さらに、前記仮想オーディオ・オブジェクトの事前レンダリングされたタイプの存在を示す信号を送信することを含む。
EEE3は、EEE1またはEEE2の方法に関し、少なくとも事前レンダリングされた参照が、3DoF位置および対応する3DoF+領域の参照レンダリングに基づいて決定される。
EEE4は、EEE1~EEE3のいずれか1つの方法に関し、前記6DoF空間に対する前記仮想オーディオ・オブジェクトの位置を決定することをさらに含む。
EEE5は、EEE1~EEE4のいずれか1つの方法に関し、前記仮想オーディオ・オブジェクトの位置が、逆オーディオ・レンダリングまたはコンテンツ・プロバイダーによる手動指定のうちの少なくとも一方に基づいて決定される。
EEE6は、EEE1~EEE5のいずれか1つの方法に関し、前記仮想オーディオ・オブジェクトは、3DoF位置についてあらかじめ定義された参照信号を近似する。
EEE7は、EEE1~EEE6のいずれか1つの方法に関し、前記仮想オブジェクトは
【数6】
に基づいて定義され、ここで、仮想オブジェクト信号はxvirtualであり、デコーダ6DoF「単純レンダリング・モード」
6DoFについてFsimple、∃Fsimple -1
であり、前記仮想オブジェクトは、3DoF位置と前記仮想オブジェクトについての単純レンダリング・モード決定との間の差の絶対値を最小化するように決定される。
【0108】
EEE8は、仮想オーディオ・オブジェクトをレンダリングする方法に関し、この方法は、前記仮想オーディオ・オブジェクトに基づいて6DoFオーディオ・シーンをレンダリングすることを含む。
EEE9は、EEE8の方法に関し、前記仮想オブジェクトのレンダリングは:
【数7】
に基づき、ここで、xvirtualは仮想オブジェクト信号に対応し、x(6DoF)は6DoFにおける近似されたレンダリングされたオブジェクトに対応し、Fsimpleはデコーダで指定された単純モード・レンダリング機能に対応する。
EEE10は、EEE8またはEEE9の方法に関し、前記仮想オブジェクトのレンダリングは、前記仮想オーディオ・オブジェクトの事前レンダリングされたタイプを信号伝達するフラグに基づいて実行される。
EEE11は、EEEE8~EEE10のいずれか1つの方法に関し、さらに、事前レンダリングされた3DoF位置および6DoF空間の記述を示すメタデータを受領することを含み、前記レンダリングは、3DoF位置および6DoF空間の記述に基づく。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15