IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許7270634MPEG-H 3Dオーディオの3自由度(3DOF+)拡張のための方法、装置およびシステム
<>
  • 特許-MPEG-H  3Dオーディオの3自由度(3DOF+)拡張のための方法、装置およびシステム 図1
  • 特許-MPEG-H  3Dオーディオの3自由度(3DOF+)拡張のための方法、装置およびシステム 図2
  • 特許-MPEG-H  3Dオーディオの3自由度(3DOF+)拡張のための方法、装置およびシステム 図3
  • 特許-MPEG-H  3Dオーディオの3自由度(3DOF+)拡張のための方法、装置およびシステム 図4
  • 特許-MPEG-H  3Dオーディオの3自由度(3DOF+)拡張のための方法、装置およびシステム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-27
(45)【発行日】2023-05-10
(54)【発明の名称】MPEG-H 3Dオーディオの3自由度(3DOF+)拡張のための方法、装置およびシステム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20230428BHJP
【FI】
H04S7/00 320
【請求項の数】 9
(21)【出願番号】P 2020549001
(86)(22)【出願日】2019-04-09
(65)【公表番号】
(43)【公表日】2021-08-05
(86)【国際出願番号】 EP2019058954
(87)【国際公開番号】W WO2019197403
(87)【国際公開日】2019-10-17
【審査請求日】2022-03-18
(31)【優先権主張番号】62/654,915
(32)【優先日】2018-04-09
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/695,446
(32)【優先日】2018-07-09
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/823,159
(32)【優先日】2019-03-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】フェルシュ,クリストフ
(72)【発明者】
【氏名】テレンティフ,レオン
(72)【発明者】
【氏名】フィッシャー,ダニエル
【審査官】大石 剛
(56)【参考文献】
【文献】特開2001-251698(JP,A)
【文献】特開平09-046800(JP,A)
【文献】国際公開第2017/098949(WO,A1)
【文献】特開2013-031145(JP,A)
【文献】特開平08-237790(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理する方法であって、前記処理はMPEG-H 3D Audioデコーダを使って実行され、前記オブジェクト位置は前記オーディオ・オブジェクトのレンダリングのために使用可能であり、当該方法は:
聴取者の頭部の配向を示す聴取者配向情報を得る段階と;
聴取者の頭部の、公称聴取位置に対する変位を示す聴取者変位情報をMPEG-H 3D Audioデコーダ入力インターフェースを介して得る段階と;
前記位置情報から前記オブジェクト位置を決定する段階と;
前記オブジェクト位置に並進を適用することによって、前記聴取者変位情報に基づいて前記オブジェクト位置を修正する段階と;
前記聴取者配向情報に基づいて、修正されたオブジェクト位置をさらに修正する段階とを含み、
前記聴取者変位情報が、聴取者の頭部の前記公称聴取位置からの、小さな位置変位による変位を示し、該小さな位置変位が0.5メートル以下の絶対値をもつときは、前記修正されたオーディオ・オブジェクト位置と聴取者の頭部の変位後の聴取位置との間の距離が、前記オーディオ・オブジェクト位置と公称聴取位置との間のもとの距離に等しく保たれる、
方法。
【請求項2】
前記オブジェクト位置を修正し、修正されたオブジェクト位置をさらに修正することは、前記オーディオ・オブジェクトが、前記さらに修正されたオブジェクト位置に従って一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングされた後、公称聴取位置からの聴取者の頭部の変位や公称配向に関する聴取者の頭部の配向に関わりなく、公称聴取位置に対する固定位置から発するものとして、音響心理学的に聴取者によって知覚されるように実行される、請求項1に記載の方法。
【請求項3】
前記聴取者変位情報に基づいてオブジェクト位置を修正することは、公称聴取位置からの聴取者の頭部の等しいが反対方向の変位の前記オブジェクト位置の並進によって実行される、請求項1または2に記載の方法。
【請求項4】
前記聴取者変位情報は、聴取者が上半身および/または頭部を動かすことによって達成可能な、公称聴取位置からの聴取者の頭部の変位を示す、請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
ウェアラブルなおよび/または静的な設備によって聴取者の頭部の配向を検出することをさらに含む、請求項1ないしのうちいずれか一項に記載の方法。
【請求項6】
ウェアラブルなおよび/または静的な設備によって、公称聴取位置からの聴取者の頭部の変位を検出することをさらに含む、請求項1ないしのうちいずれか一項に記載の方法。
【請求項7】
前記修正されたオーディオ・オブジェクト位置と変位後の聴取位置との間の距離が、オーディオ・レベルの修正のための利得にマッピングされる、請求項1ないしのうちいずれか一項に記載の方法。
【請求項8】
オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理するMPEG-H 3D Audioデコーダであって、前記オブジェクト位置は、前記オーディオ・オブジェクトのレンダリングのために使用可能であり、当該デコーダはプロセッサおよび該プロセッサに結合されたメモリを有しており、前記プロセッサは:
聴取者の頭部の配向を示す聴取者配向情報を得る段階と;
聴取者の頭部の、公称聴取位置に対する変位を示す聴取者変位情報をMPEG-H 3D Audioデコーダ入力インターフェースを介して得る段階と;
前記位置情報から前記オブジェクト位置を決定する段階と;
前記オブジェクト位置に並進を適用することによって、前記聴取者変位情報に基づいて前記オブジェクト位置を修正する段階と;
修正されたオブジェクト位置を、前記聴取者配向情報に基づいて、さらに修正する段階とを実行するよう適応されており、
前記聴取者変位情報が、聴取者の頭部の前記公称聴取位置からの、小さな位置変位による変位を示し、該小さな位置変位が0.5メートル以下の絶対値をもつときは、前記プロセッサは、前記修正されたオーディオ・オブジェクト位置と聴取者の頭部の変位後の聴取位置との間の距離を、前記オーディオ・オブジェクト位置と公称聴取位置との間のもとの距離に等しく保つように構成されている、
デコーダ。
【請求項9】
デジタル信号プロセッサまたはマイクロプロセッサによって実行されたときに該デジタル信号プロセッサまたはマイクロプロセッサに請求項1ないし7のうちのいずれか一項に記載の方法を実行させる命令を有するコンピュータ・ソフトウェア。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、次の優先権出願の優先権を主張する:米国仮出願第62/654,915号(参照番号D18045USP1)、2018年4月9日出願;米国仮出願第62/695,446号(参照番号D18045USP2)、2018年7月9日出願;米国仮出願第62/823,159号(参照番号D18045USP3)、2019年3月25日出願。これらの出願は、参照により本明細書中に組み込まれる。
【0002】
技術分野
本開示は、オーディオ・オブジェクト位置を示す位置情報、および聴取者の頭部の位置変位を示す情報を処理するための方法および装置に関する。
【背景技術】
【0003】
ISO/IEC23008-3 MPEG-H 3D Audio規格の第1版(2015年10月15日)および補正1~4では、3自由度(Three Degrees of Freedom、3DoF)環境におけるユーザーの頭部の小さな並進運動を許容することは提供していない。
【発明の概要】
【課題を解決するための手段】
【0004】
ISO/IEC23008-3 MPEG-H 3D Audio規格の第1版(2015年10月15日)および補正1~4は、ユーザー(聴取者)が頭部回転動作を行なう3DoF環境の可能性のための機能を提供する。しかしながら、そのような機能は、せいぜい、回転シーン変位の信号伝達および対応するレンダリングをサポートするだけである。これは、オーディオ・シーンが、3DoF属性に対応する聴取者の頭部配向の変化の下で、空間的に静止したままでありうることを意味する。しかしながら、現在のMPEG-H 3D Audioエコシステム内では、ユーザーの頭部の小さな並進運動を考慮に入れる可能性はない。
【0005】
よって、潜在的にはユーザーの頭部の回転運動との関連で、ユーザーの頭部の小さな並進運動を考慮に入れることができる、オーディオ・オブジェクトの位置情報を処理する方法および装置が必要とされている。
【0006】
本開示は、それぞれの独立請求項および従属請求項の特徴を有する、位置情報を処理するための装置およびシステムを提供する。
【0007】
本開示のある側面によれば、オーディオ・オブジェクトの位置を示す位置情報を処理する方法が記載される。この処理はMPEG-H 3D Audio規格に準拠していてもよい。オブジェクト位置は、オーディオ・オブジェクトのレンダリングのために使用可能でありうる。オーディオ・オブジェクトは、その位置情報とともに、オブジェクト・ベースのオーディオ・コンテンツに含まれてもよい。位置情報は、オーディオ・オブジェクトのメタデータ(の一部)であってもよい。オーディオ・コンテンツ(たとえば、その位置情報を伴うオーディオ・オブジェクト)は、エンコードされたオーディオ・ビットストリームにおいて伝達されてもよい。本方法は、オーディオ・コンテンツ(たとえば、エンコードされたオーディオ・ビットストリーム)を受領することを含んでいてもよい。本方法は、聴取者の頭部の配向を示す聴取者配向情報を得ることを含んでいてもよい。聴取者は、たとえば本方法を実行するオーディオ・デコーダの、ユーザーと称されてもよい。聴取者の頭部の配向(聴取者配向)は、公称配向に関する聴取者の頭部の配向であってもよい。本方法は、さらに、聴取者の頭部の変位を示す聴取者変位情報を得ることを含んでいてもよい。聴取者の頭部の変位は、公称聴取位置に関する変位であってもよい。公称聴取位置(または公称聴取者位置)は、デフォルト位置(たとえば、あらかじめ決定された位置、聴取者の頭部についての期待される位置、またはスピーカー配置のスイートスポット)であってもよい。聴取者配向情報および聴取者変位情報は、MPEG-H 3D Audioデコーダ入力インターフェースを介して得られてもよい。聴取者配向情報および聴取者変位情報は、センサー情報に基づいて導出されてもよい。配向情報と位置情報の組み合わせは、姿勢情報と称されてもよい。本方法は、さらに、位置情報からオブジェクト位置を決定することを含んでいてもよい。たとえば、位置情報からオブジェクト位置が抽出されてもよい。オブジェクト位置の決定(たとえば、抽出)は、さらに、聴取環境における一つまたは複数のスピーカーのスピーカー配置の幾何構成に関する情報に基づいていてもよい。オブジェクト位置は、オーディオ・オブジェクトのチャネル位置と称されることもある。本方法は、さらに、オブジェクト位置に並進を適用することによって、聴取者変位情報に基づいてオブジェクト位置を修正することを含んでいてもよい。オブジェクト位置を修正することは、公称聴取位置からの聴取者の頭部の変位についてオブジェクト位置を補正することに関係してもよい。換言すれば、オブジェクト位置を修正することは、オブジェクト位置に位置変位補正を適用することに関係してもよい。本方法は、さらに、たとえば、修正されたオブジェクト位置への回転変換(たとえば、聴取者の頭部または公称聴取位置に関する回転)を適用することによって、聴取者配向情報に基づいて、修正されたオブジェクト位置をさらに修正することを含んでいてもよい。オーディオ・オブジェクトをレンダリングするために前記修正されたオブジェクト位置をさらに修正することは、回転オーディオ・シーン変位に関わってもよい。
【0008】
上述のように構成されることで、提案される方法は、特に、聴取者の頭部近くに位置するオーディオ・オブジェクトについて、より現実的な聴取体験を提供する。3DoF環境において通常、聴取者に提供される3つの(回転)自由度に加えて、提案される方法は聴取者の頭部の並進運動も考慮に入れることができる。これにより、聴取者は、異なる角度、さらには側から、近いオーディオ・オブジェクトに近づくことができる。たとえば、聴取者は、頭部を回転させることに加えて、頭部をわずかに動かすことによって、聴取者の頭部に近い「蚊」オーディオ・オブジェクトを種々の角度から聴取することができる。結果として、提案される方法は、聴取者のための改良された、より現実的な、没入的な聴取体験を可能にすることができる。
【0009】
いくつかの実施形態では、オブジェクト位置を修正し、修正されたオブジェクト位置をさらに修正することは、オーディオ・オブジェクトが、さらに修正されたオブジェクト位置に従って一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングされた後、公称聴取位置からの聴取者の頭部の変位や公称配向に関する聴取者の頭部の配向に関わりなく、公称聴取位置に対する固定位置から発するものとして、音響心理学的に聴取者によって知覚されるように実行されてもよい。よって、オーディオ・オブジェクトは、聴取者の頭部が公称聴取位置からの変位を受けるとき、聴取者の頭部に対して移動すると知覚されうる。同様に、オーディオ・オブジェクトは、聴取者の頭部が公称配向からの配向の変化を受けるとき、聴取者の頭部に対して回転するように知覚されうる。前記一つまたは複数のスピーカーは、たとえばヘッドセットの一部であってもよく、またはスピーカー配置(たとえば、2.1、5.1、7.1などのスピーカー配置)の一部であってもよい。
【0010】
いくつかの実施形態では、聴取者変位情報に基づいてオブジェクト位置を修正することは、絶対値に正に相関し、かつ公称聴取位置からの聴取者の頭部の変位ベクトルの方向に負に相関するベクトルによってオブジェクト位置を並進させることによって実行されてもよい。
【0011】
それにより、近いオーディオ・オブジェクトが、聴取者によって、聴取者の頭部の動きに一致して動くように知覚されることが保証される。これは、それらのオーディオ・オブジェクトについての、より現実的な聴取体験に寄与する。
【0012】
いくつかの実施形態では、聴取者変位情報は、小さな位置変位による公称聴取位置からの聴取者の頭部の変位を示してもよい。たとえば、変位の絶対値は0.5m以下であってもよい。変位は、デカルト座標(たとえば、x、y、z)または球面座標(たとえば、方位角、仰角、動径)で表わされてもよい。
【0013】
いくつかの実施形態では、聴取者変位情報は、聴取者が上半身および/または頭部を動かすことによって達成可能な、公称聴取位置からの聴取者の頭部の変位を示してもよい。よって、変位は、聴取者にとって、下半身を動かすことなく、達成可能でありうる。たとえば、聴取者の頭部の前記変位は、聴取者が椅子に座っているときに達成可能であってもよい。
【0014】
いくつかの実施形態では、位置情報は、公称聴取位置からのオーディオ・オブジェクトの距離の指示を含んでいてもよい。距離(動径)は、0.5m未満であってもよい。たとえば、距離は1cm未満であってもよい。あるいはまた、公称聴取位置からのオーディオ・オブジェクトの距離は、デコーダによってデフォルト値に設定されてもよい。
【0015】
いくつかの実施形態では、聴取者配向情報は、聴取者の頭部のヨー、ピッチ、およびロールに関する情報を含んでいてもよい。ヨー、ピッチ、ロールは、聴取者の頭部の公称配向(たとえば、基準配向)に対して与えられてもよい。
【0016】
いくつかの実施形態では、聴取者変位情報は、デカルト座標または球面座標で表わされる公称聴取位置からの聴取者の頭部変位に関する情報を含んでいてもよい。よって、変位は、デカルト座標についてはx、y、z座標、球面座標については方位角、仰角、動径座標で表わされてもよい。
【0017】
いくつかの実施形態では、本方法は、着用可能〔ウェアラブル〕なおよび/または静的な設備によって聴取者の頭部の配向を検出することをさらに含んでいてもよい。同様に、本方法は、ウェアラブルなおよび/または静的な設備によって、公称聴取位置からの聴取者の頭部の変位を検出することをさらに含んでいてもよい。ウェアラブルな設備は、たとえば、ヘッドセットまたは拡張現実(AR)/仮想現実(VR)ヘッドセットであってもよく、これに対応していてもよく、および/またはこれを含んでいてもよい。静的な設備は、たとえば、カメラ・センサーであっても、カメラ・センサーに対応していてもよく、および/またはカメラ・センサーを含んでいてもよい。これは、聴取者の頭部の変位および/または配向に関する正確な情報を得ることを許容し、それにより、配向および/または変位に応じた近接したオーディオ・オブジェクトの現実的な処理が可能となる。
【0018】
いくつかの実施形態では、本方法は、さらに修正されたオブジェクト位置に従って、オーディオ・オブジェクトを一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングすることをさらに含んでいてもよい。たとえば、オーディオ・オブジェクトは、ヘッドセットの左右のスピーカーにレンダリングされてもよい。
【0019】
いくつかの実施形態では、レンダリングは、聴取者の頭部についての頭部伝達関数(HRTF)に基づいて、聴取者の頭部からのオーディオ・オブジェクトの小さな距離についての音隠蔽(sonic occlusion)を考慮に入れるように実行されてもよい。それにより、近接したオーディオ・オブジェクトのレンダリングは、聴取者によって、より一層現実的なものとして知覚される。
【0020】
いくつかの実施形態では、さらに修正されたオブジェクト位置は、MPEG-H 3D Audioレンダラーによって使用される入力フォーマットに調整されてもよい。いくつかの実施形態では、レンダリングは、MPEG-H 3D Audioレンダラーを使用して実行されてもよい。いくつかの実施形態において、処理は、MPEG-H 3D Audioデコーダを使用して実行されてもよい。いくつかの実施形態では、処理は、MPEG-H 3D Audioデコーダのシーン変位ユニットによって実行されてもよい。よって、提案される方法は、MPEG-H 3D Audio規格の枠組みにおいて、制限された6自由度(6DoF)経験(すなわち、3DoF+)を実装することを許容する。
【0021】
本開示のもう一つの側面によれば、オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理するさらなる方法が記載される。オブジェクト位置は、オーディオ・オブジェクトのレンダリングのために使用可能でありうる。本方法は、聴取者の頭部の変位を示す聴取者変位情報を得ることを含んでいてもよい。本方法は、さらに、位置情報から前記オブジェクト位置を決定することを含んでいてもよい。本方法は、さらに、オブジェクト位置に並進を適用することによって、聴取者変位情報に基づいて前記オブジェクト位置を修正することを含んでいてもよい。
【0022】
上述のように構成されることで、提案される方法は、特に、聴取者の頭部近くに位置するオーディオ・オブジェクトについて、より現実的な聴取体験を提供する。聴取者の頭部の小さな並進運動を考慮に入れることができることにより、提案される方法は、聴取者が、異なる角度、さらには側面から、近いオーディオ・オブジェクトに近づくことができるようにする。結果として、提案される方法は、聴取者のための改良された、より現実的な、没入的な聴取体験を可能にすることができる。
【0023】
いくつかの実施形態では、聴取者変位情報に基づいてオブジェクト位置を修正することは、オーディオ・オブジェクトが、修正されたオブジェクト位置に従って一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングされた後、公称聴取位置からの聴取者の頭部の変位に関わりなく、公称聴取位置に対する固定位置から発するものとして、音響心理学的に聴取者によって知覚されるように実行されてもよい。
【0024】
いくつかの実施形態では、聴取者変位情報に基づいてオブジェクト位置を修正することは、絶対値に正に相関し、かつ公称聴取位置からの聴取者の頭部の変位ベクトルの方向に負に相関するベクトルによってオブジェクト位置を並進させることによって実行されてもよい。
【0025】
本開示のもう一つの側面によれば、オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理するさらなる方法が記載される。オブジェクト位置は、オーディオ・オブジェクトのレンダリングのために使用可能でありうる。本方法は、聴取者の頭部の配向を示す聴取者配向情報を得ることを含んでいてもよい。本方法は、さらに、前記位置情報からオブジェクト位置を決定することを含んでいてもよい。本方法は、さらに、たとえば、前記オブジェクト位置への回転変換(たとえば、聴取者の頭部または公称聴取位置に関する回転)を適用することによって、聴取者配向情報に基づいて、オブジェクト位置を修正することを含んでいてもよい。
【0026】
上述のように構成されることで、提案される方法は、聴取者の頭部の配向を考慮に入れて、より現実的な聴取体験を聴取者に提供することができる。
【0027】
いくつかの実施形態では、聴取者配向情報に基づいてオブジェクト位置を修正することは、オーディオ・オブジェクトが、修正されたオブジェクト位置に従って一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングされた後、公称配向に関する聴取者の頭部の配向に関わりなく、公称聴取位置に対する固定位置から発するものとして、音響心理学的に聴取者によって知覚されるように実行されてもよい。
【0028】
本開示のもう一つの側面によれば、オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理する装置が記載される。オブジェクト位置は、オーディオ・オブジェクトのレンダリングのために使用可能でありうる。本装置は、プロセッサおよび該プロセッサに結合されたメモリを含んでいてもよい。プロセッサは、聴取者の頭部の配向を示す聴取者配向情報を得るよう適応されていてもよい。プロセッサは、さらに、聴取者の頭部の変位を示す聴取者変位情報を得るよう適応されていてもよい。プロセッサは、さらに、前記位置情報から前記オブジェクト位置を決定するよう適応されていてもよい。プロセッサは、さらに、オブジェクト位置に並進を適用することによって、聴取者変位情報に基づいてオブジェクト位置を修正するよう適応されていてもよい。プロセッサは、さらに、たとえば、修正されたオブジェクト位置への回転変換(たとえば、聴取者の頭部または公称聴取位置に関する回転)を適用することによって、聴取者配向情報に基づいて、修正されたオブジェクト位置をさらに修正するよう適応されていてもよい。
【0029】
いくつかの実施形態では、プロセッサは、オブジェクト位置を修正し、修正されたオブジェクト位置をさらに修正することを、オーディオ・オブジェクトが、さらに修正されたオブジェクト位置に従って一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングされた後、公称聴取位置からの聴取者の頭部の変位や公称配向に関する聴取者の頭部の配向に関わりなく、公称聴取位置に対する固定位置から発するものとして、音響心理学的に聴取者によって知覚されるように、実行するよう適応されていてもよい。
【0030】
いくつかの実施形態では、プロセッサは、聴取者変位情報に基づいてオブジェクト位置を修正することを、絶対値に正に相関し、かつ公称聴取位置からの聴取者の頭部の変位ベクトルの方向に負に相関するベクトルによってオブジェクト位置を並進させることによって実行するよう適応されていてもよい。
【0031】
いくつかの実施形態では、聴取者変位情報は、小さな位置変位による公称聴取位置からの聴取者の頭部の変位を示してもよい。
【0032】
いくつかの実施形態では、聴取者変位情報は、聴取者が上半身および/または頭部を動かすことによって達成可能な、公称聴取位置からの聴取者の頭部の変位を示してもよい。
【0033】
いくつかの実施形態では、位置情報は、公称聴取位置からのオーディオ・オブジェクトの距離の指示を含んでいてもよい。
【0034】
いくつかの実施形態では、聴取者配向情報は、聴取者の頭部のヨー、ピッチ、およびロールに関する情報を含んでいてもよい。
【0035】
いくつかの実施形態では、聴取者変位情報は、デカルト座標または球面座標で表わされる公称聴取位置からの聴取者の頭部変位に関する情報を含んでいてもよい。
【0036】
いくつかの実施形態では、本装置は、聴取者の頭部の配向を検出するための着用可能〔ウェアラブル〕なおよび/または静的な設備をさらに含んでいてもよい。いくつかの実施形態では、本装置は、公称聴取位置からの聴取者の頭部の変位を検出するためのウェアラブルなおよび/または静的な設備をさらに含んでいてもよい。
【0037】
いくつかの実施形態では、プロセッサは、さらに修正されたオブジェクト位置に従って、オーディオ・オブジェクトを一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングするようさらに適応されていてもよい。
【0038】
いくつかの実施形態では、プロセッサは、聴取者の頭部についてのHRTFに基づいて、聴取者の頭部からのオーディオ・オブジェクトの小さな距離についての音隠蔽(sonic occlusion)を考慮に入れて、前記レンダリングを実行するよう適応されていてもよい。
【0039】
いくつかの実施形態では、プロセッサは、さらに修正されたオブジェクト位置を、MPEG-H 3D Audioレンダラーによって使用される入力フォーマットに調整するよう適応されていてもよい。いくつかの実施形態では、レンダリングは、MPEG-H 3D Audioレンダラーを使用して実行されてもよい。いくつかの実施形態において、プロセッサは、MPEG-H 3D Audioデコーダを実装するよう適応されていてもよい。いくつかの実施形態では、プロセッサは、MPEG-H 3D Audioデコーダのシーン変位ユニットを実装するよう適応されていてもよい。
【0040】
本開示のもう一つの側面によれば、オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理するさらなる装置が記載される。オブジェクト位置は、オーディオ・オブジェクトのレンダリングのために使用可能でありうる。本装置は、プロセッサおよび該プロセッサに結合されたメモリを含んでいてもよい。プロセッサは、聴取者の頭部の変位を示す聴取者変位情報を得るよう適応されていてもよい。プロセッサは、さらに、前記位置情報から前記オブジェクト位置を決定するよう適応されていてもよい。プロセッサは、さらに、オブジェクト位置に並進を適用することによって、聴取者変位情報に基づいて前記オブジェクト位置を修正するよう適応されていてもよい。
【0041】
いくつかの実施形態では、プロセッサは、聴取者変位情報に基づいてオブジェクト位置を修正することを、オーディオ・オブジェクトが、修正されたオブジェクト位置に従って一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングされた後、公称聴取位置からの聴取者の頭部の変位に関わりなく、公称聴取位置に対する固定位置から発するものとして、音響心理学的に聴取者によって知覚されるように実行するよう適応されていてもよい。
【0042】
いくつかの実施形態では、プロセッサは、聴取者変位情報に基づいてオブジェクト位置を修正することを、絶対値に正に相関し、かつ公称聴取位置からの聴取者の頭部の変位ベクトルの方向に負に相関するベクトルによってオブジェクト位置を並進させることによって実行するよう適応されていてもよい。
【0043】
本開示のもう一つの側面によれば、オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理するさらなる装置が記載される。オブジェクト位置は、オーディオ・オブジェクトのレンダリングのために使用可能でありうる。本装置は、プロセッサおよび該プロセッサに結合されたメモリを含んでいてもよい。プロセッサは、聴取者の頭部の配向を示す聴取者配向情報を得るよう適応されていてもよい。プロセッサは、さらに、前記位置情報から前記オブジェクト位置を決定するよう適応されていてもよい。プロセッサは、さらに、たとえば、前記修正されたオブジェクト位置への回転変換(たとえば、聴取者の頭部または公称聴取位置に関する回転)を適用することによって、聴取者配向情報に基づいて、オブジェクト位置を修正するよう適応されていてもよい。
【0044】
いくつかの実施形態では、プロセッサは、聴取者配向情報に基づいてオブジェクト位置を修正することを、オーディオ・オブジェクトが、修正されたオブジェクト位置に従って一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングされた後、公称配向に関する聴取者の頭部の配向に関わりなく、公称聴取位置に対する固定位置から発するものとして、音響心理学的に聴取者によって知覚されるように実行するよう適応されていてもよい。
【0045】
さらにもう一つの側面によれば、システムが記載される。本システムは、上記の側面のいずれかによる装置、ならびに、聴取者の頭部の配向を検出し、かつ、聴取者の頭部の変位を検出することができるウェアラブルおよび/または静的な設備を含んでいてもよい。
【0046】
方法ステップおよび装置の特徴は、多くの仕方で入れ換えられてもよいことが理解されるであろう。特に、開示された方法の詳細は、当業者が理解するように、方法の一部または全部またはステップを実行するように適応された装置として実装されることができ、その逆も可能である。特に、本開示による装置は、上記の実施形態およびその変形による方法を実現または実行するための装置に関するものであってよく、方法に関してなされたそれぞれの陳述は、対応する装置にも同様に当てはまることが理解される。同様に、本開示による方法は、上記の実施形態およびその変形による装置の動作方法に関連することができ、装置に関してなされたそれぞれの陳述は、対応する方法にも同様に当てはまることが理解される。
【図面の簡単な説明】
【0047】
本発明は、添付の図面を参照して、例示的な仕方で下記で説明される。
図1】MPEG-H 3D Audioシステムの例を概略的に示す。
図2】本発明によるMPEG-H 3D Audioシステムの例を概略的に示す。
図3】本発明によるオーディオ・レンダリング・システムの例を概略的に示す。
図4】デカルト座標軸の例示的なセットおよびその球面座標との関係を概略的に示す。
図5】本発明による、オーディオ・オブジェクトについての位置情報を処理する方法の例を概略的に示すフローチャートである。
【発明を実施するための形態】
【0048】
本明細書で使用されるところでは、3DoFは、典型的には、3つのパラメータ(たとえば、ヨー、ピッチ、ロール)で指定された、ユーザーの頭部の動き、特に頭部の回転を正しく扱うことができるシステムである。そのようなシステムは、仮想現実(VR)/拡張現実(AR)/混合現実(MR)システムのようなさまざまなゲーム・システムにおいて、またはそのようなタイプの他の音響環境においてしばしば利用可能である。
【0049】
本明細書で使用されるところでは、ユーザー(たとえば、オーディオ・デコーダまたはオーディオ・デコーダを含む再生システムのユーザー)は、「聴取者」とも呼ばれる。
【0050】
本明細書で使用されるところでは、3DoF+は、3DoFシステムで正しく扱えるユーザーの頭部の動きに加えて、小さな並進運動も扱うことができることを意味する。
【0051】
本明細書で使用されるところでは、「小さな」とは、移動が典型的には0.5メートルである閾値未満に限定されることを示す。これは、動きがユーザーのもとの頭部位置から0.5メートル以下であることを意味する。たとえば、ユーザーの動きは、ユーザーが椅子に座っていることによって制約される。
【0052】
本明細書で使用されるところでは、「MPEG-H 3D Audio」とは、ISO/IEC23008-3および/またはISO/IEC23008-3規格の任意の将来の補正、版または他のバージョンで標準化された仕様をいう。
【0053】
MPEG機関によって提供されるオーディオ標準のコンテキストでは、3DoFと3DoF+の区別は以下のように定義できる:
・3DoF:ユーザーが(たとえば、ユーザーの頭の)ヨー、ピッチ、ロールの動きを体験できる;
・3DoF+:ユーザーが、椅子に座っているときなどに、(たとえば、ユーザーの頭の)ヨー、ピッチ、ロールの動きおよび限定された並進運動を体験できる。
【0054】
限られた(小さな)頭部の並進運動は、ある動き半径に制約された動きであってもよい。たとえば、動きは、ユーザーが、たとえば下半身を使用しない、座った位置にあるために、制約されることがある。小さな頭部の並進運動は、公称聴取位置に対するユーザーの頭部の変位に関係するか、または対応することがありうる。公称聴取位置(または公称聴取者位置)は、デフォルト位置(たとえば、あらかじめ決定された位置、聴取者の頭部の期待される位置、またはスピーカー配置のスイートスポットなど)であってもよい。
【0055】
3DoF+体験は、制約された6DoF体験に匹敵しうるものであり、この場合、並進運動は制限されたまたは小さな頭部の動きとして記述できる。一例では、オーディオはまた、可能性のある音隠蔽を含めて、ユーザーの頭部の位置および配向に基づいてレンダリングされる。レンダリングは、たとえば聴取者の頭部についての頭部伝達関数(HRTF)に基づいて、聴取者の頭部からのオーディオ・オブジェクトの小さな距離についての音隠蔽を考慮に入れるように実行されてもよい。
【0056】
MPEG-H 3D Audio規格によって規定されている機能に適合する方法、システム、装置および他のデバイスに関し、そのことは、3DoF+が、MPEG規格の任意の将来のバージョン、たとえば(たとえば、MPEG-Iの将来のバージョンで標準化されるような)オムニディレクショナル・メディア・フォーマット将来のバージョンについて、および/またはMPEG-H Audioの任意の更新(たとえば、MPEG-H 3D Audio規格に基づく補正またはより新しい規格)、または更新を必要とする可能性のある他の任意の関連するまたはサポートする規格(たとえば、ある腫のタイプのメタデータおよびSEIメッセージを指定する規格)において有効にされることを意味する。
【0057】
たとえば、MPEG-H 3D Audio規格で規定されているオーディオ標準に対して義務的であるオーディオ・レンダラーが、オーディオ・シーンのレンダリングを含むように拡張されてもよい。たとえばユーザーが頭をわずかに横に動かすときに、オーディオ・シーンとのユーザー相互作用を正確に考慮に入れるためである。
【0058】
本発明は、3DoF+使用事例を扱うことができるMPEG-H 3D Audioを提供する利点を含む、さまざまな技術的利点を提供する。本発明は、MPEG-H 3D Audio規格を、3DoF+機能をサポートするよう拡張する。
【0059】
3DoF+機能をサポートするために、オーディオ・レンダリング・システムは、ユーザー/聴取者の頭部の限定された/小さな位置変位を考慮に入れるべきである。位置変位は、初期位置(すなわち、デフォルト位置/公称聴取位置)からの相対オフセットに基づいて決定されるべきである。一例では、このオフセットの大きさ(たとえば、P0が公称聴取位置であり、P1が聴取者の頭部の変位した位置であるとして、roffset=||P0-P1|||に基づいて決定されうる動径のオフセット)は、最大で約0.5mである。別の例では、オフセットの大きさは、ユーザーが椅子に座っていて、下半身の動きを実行しない(だが、頭は身体に対して動いている)間に達成できるだけのオフセットに制限される。この(小さな)オフセット距離は、遠くのオーディオ・オブジェクトについては、(知覚的な)レベルおよびパンの違いはほとんど生じない。しかしながら、近接したオブジェクトについては、そのような小さなオフセット距離でさえ知覚的に有意になることがある。実際、聴取者の頭の動きは、正しいオーディオ・オブジェクト局在の位置がどこであるかを知覚することに対して、知覚的効果を及ぼすことがある。この知覚的効果は、(i)ユーザーの頭部の変位(たとえば、roffset=||P0-P1||)とオーディオ・オブジェクトまでの距離(たとえば、r)との間の比が、三角法的に、ユーザーが音の方向を検出する音響心理学的能力の範囲内にある角度をもたらす限り、有意であり続ける(すなわち、ユーザー/聴取者によって知覚的に感知できる)。そのような範囲は、異なるオーディオ・レンダラー設定、オーディオ素材、および再生構成については変化する可能性がある。たとえば、局在精度範囲が、たとえば±3°であり、聴取者の頭の横方向の動きの自由が±0.25mあるとすると、これは、約5mのオブジェクト距離に対応する。
【0060】
聴取者に近いオブジェクト(たとえば、ユーザーから1m未満の距離にあるオブジェクト)については、3DoF+シナリオのためには、パンとレベル変化の両方の際に大きな知覚的効果があるので、聴取者の頭部の位置変位を適切に処理することが重要である。
【0061】
聴取者に近いオブジェクトの処理の一例は、たとえば、オーディオ・オブジェクト(たとえば、蚊)が聴取者の顔に非常に近く位置される場合である。VR/AR/MR機能を提供するオーディオ・システムのようなオーディオ・システムは、ユーザーが小さな並進頭部運動をする間でも、ユーザーがあらゆる側面および角度から(from all sides and angles)このオーディオ・オブジェクトを知覚することを許容するべきである。たとえば、ユーザーが下半身を動かさずに頭を動かしている間でも、ユーザーがオブジェクト(たとえば蚊)を正確に知覚できるべきである。
【0062】
しかしながら、現在のMPEG-H 3D Audio仕様と互換性のあるシステムは、これを正しく処理することができない。その代わりに、MPEG-H 3D Audioシステムと互換性のあるシステムを使用すると、「蚊」がユーザーに対して間違った位置から知覚されることになってしまう。3DoF+パフォーマンスに関わるシナリオでは、小さな並進運動は、オーディオ・オブジェクトの認識に有意差を生じさせるべきである(たとえば、頭を左に動かすと、「蚊」のオーディオ・オブジェクトは、ユーザーの頭に対して右側から知覚されるべきである)。
【0063】
MPEG-H 3D Audio規格は、ビットストリーム・シンタックスを介して、たとえばobject_metadata()シンタックス要素を介して、(0.5mから始まる)オブジェクト距離情報の信号伝達を許容するビットストリーム・シンタックスを含む。
【0064】
シンタックス要素prodMetadataConfig()が、MPEG-H 3D Audio規格によって提供されるビットストリームに導入されることがありうる。これは、オブジェクト距離が聴取者に非常に近いことを信号伝達するために使用できる。たとえば、シンタックスprodMetadataConfig()は、ユーザーとオブジェクトの間の距離がある閾値距離未満である(たとえば<1cm)ことを信号伝達してもよい。
【0065】
図1および図2は、ヘッドフォン・レンダリング(すなわち、スピーカーが聴取者の頭部と共動する)に基づいて本発明を示す。
【0066】
図1は、MPEG-H 3D Audioシステムに準拠したシステム挙動100の例を示す。この例は、聴取者の頭部が時刻t0で位置P0 103にあり、時刻t1>t0で位置P1 104に移動すると想定する。位置P0およびP1のまわりの破線の円は、許容できる3DoF+の移動領域(たとえば、半径0.5m)を示す。位置A 101は、信号オブジェクト位置を示す(時刻t0および時刻t1における位置;すなわち、信号伝達されるオブジェクト位置は、時間的に一定であると想定される)。位置Aはまた、時刻t0においてMPEG-H 3D Audioレンダラーによってレンダリングされるオブジェクト位置を示す。位置B 102は、時刻t1においてMPEG-H 3D Audioによってレンダリングされるオブジェクト位置を示す。位置P0およびP1から上方に延びる垂直線は、時間t0および時間t1における聴取者の頭部のそれぞれの配向(たとえば、見る方向)を示す。位置P0と位置P1の間のユーザーの頭部の変位は、roffset=||P0-P1|| 106で表わせる。聴取者が時間t0にデフォルト位置(公称聴取位置)P0 103に位置しているとすると、聴取者は、オーディオ・オブジェクト(たとえば、蚊)を正しい位置A 101において知覚することになる。ユーザーが時刻t1で位置P1 104に移動する場合、MPEG-H 3D Audio処理が現在標準化されているように適用され、示される誤差δAB 105を導入するならば、ユーザーは位置B 102においてオーディオ・オブジェクトを知覚することになる。すなわち、聴取者の頭部の動きにもかかわらず、オーディオ・オブジェクト(たとえば、蚊)は、依然として、聴取者の頭部の直前に位置する(すなわち、聴取者の頭部と実質的に共動する)と知覚される。注目すべきことに、導入された誤差δAB 105は、聴取者の頭部の配向にかかわりなく生じる。
【0067】
図2は、本発明によるMPEG-H 3D Audioのシステム200に対するシステム挙動の例を示す。図2において、聴取者の頭部は、時刻t0で位置P0 203に位置し、時刻t1>t0で位置P1 204に移動する。位置P0とP1のまわりの破線の円は、ここでも、許容可能な3DoF+移動領域(たとえば、半径0.5m)を示す。201では、位置A=Bであることが示される。つまり、信号伝達されるオブジェクト位置(時刻t0および時刻t1での位置;すなわち、信号伝達されるオブジェクト位置は、時間を追って一定であると想定される)。位置A=B 201は、時刻t0および時刻t1においてMPEG-H 3D Audioによってレンダリングされるオブジェクトの位置も示す。位置P0 203およびP1 204から上方に延びる垂直矢印は、時刻t0およびt1における聴取者の頭部のそれぞれの配向(たとえば、見る方向)を示す。聴取者は、時間t0において、初期/デフォルト位置(公称聴取位置)P0 203に位置するので、聴取者は、オーディオ・オブジェクト(たとえば、蚊)を正しい位置A 201において知覚する。ユーザーが時刻t1で位置P1 203に移動する場合でも、本発明のもとで、ユーザーは依然として、オーディオ・オブジェクトを、位置A 201に類似する(たとえば、実質的に等しい)位置B 201において認識することになる。このように、本発明は、依然として同じ(空間的に固定された)位置(たとえば、位置A=B 201、など)から音を知覚しながら、ユーザーの位置が(たとえば、位置P0 203から位置P1 204に)時間とともに変化することを許容する。換言すれば、オーディオ・オブジェクト(たとえば、蚊)は、聴取者の頭部の動きに応じて(たとえば、負に相関して)、聴取者の頭部に対して移動する。これにより、ユーザーは、オーディオ・オブジェクト(たとえば、蚊)のまわりを移動し、異なる角度または側面からオーディオ・オブジェクトを知覚することができる。位置P0と位置P1の間のユーザーの頭部の変位は、roffset=||P0-P1|| 206で表せる。
【0068】
図3は、本発明によるオーディオ・レンダリング・システム300の例を示す。オーディオ・レンダリング・システム300は、たとえば、MPEG-H 3Dオーディオ・デコーダのようなデコーダに対応する、またはこれを含むことができる。オーディオ・レンダリング・システム300は、対応するオーディオ・シーン変位処理インターフェース(たとえば、MPEG-H 3D Audio規格に従ったシーン変位データのためのインターフェース)を有するオーディオ・シーン変位ユニット310を含んでいてもよい。オーディオ・シーン変位ユニット310は、それぞれのオーディオ・オブジェクトをレンダリングするためにオブジェクト位置321を出力してもよい。たとえば、シーン変位ユニットは、それぞれのオーディオ・オブジェクトをレンダリングするためにオブジェクト位置メタデータを出力してもよい。
【0069】
オーディオ・レンダリング・システム300は、さらに、オーディオ・オブジェクト・レンダラー320を含んでいてもよい。たとえば、レンダラーは、ハードウェア、ソフトウェア、および/または、たとえばソフトウェア開発プラットフォーム、サーバー、ストレージおよびソフトウェアのような、しばしば「クラウド」と呼ばれるインターネット上のさまざまなサービスを含むクラウド・コンピューティングを介して実行される任意の部分的なまたは完全な処理であって、MPEG-H 3D Audio規格によって規定された仕様と互換性のあるものから構成されうる。オーディオ・オブジェクト・レンダラー320は、それぞれのオブジェクト位置(これらのオブジェクト位置は、以下に記載される修正されたまたはさらに修正されたオブジェクト位置であってもよい)に従って、オーディオ・オブジェクトを一つまたは複数の(実のまたは仮想の)スピーカーにレンダリングしてもよい。オーディオ・オブジェクト・レンダラー320は、オーディオ・オブジェクトをヘッドフォンおよび/またはラウドスピーカーにレンダリングしてもよい。すなわち、オーディオ・オブジェクト・レンダラー320は、所与の再生フォーマットに従ってオブジェクト波形を生成してもよい。この目的に向け、オーディオ・オブジェクト・レンダラー320は、圧縮されたオブジェクト・メタデータを利用してもよい。各オブジェクトは、そのオブジェクト位置(たとえば、修正されたオブジェクト位置、またはさらに修正されたオブジェクト位置)に従って、ある種の出力チャネルにレンダリングされうる。したがって、オブジェクト位置は、それらのオーディオ・オブジェクトのチャネル位置と称されてもよい。オーディオ・オブジェクト位置321は、シーン変位ユニット310によって出力されるオブジェクト位置メタデータまたはシーン変位メタデータに含まれてもよい。
【0070】
本発明の処理は、MPEG-H 3D Audio規格に準拠してもよい。よって、該処理は、MPEG-H 3D Audioデコーダ、またはより具体的には、MPEG-Hシーン変位ユニットおよび/またはMPEG-H 3D Audioレンダラーによって実行されてもよい。よって、図3のオーディオ・レンダリング・システム300は、MPEG-H 3D Audioデコーダ(すなわち、MPEG-H 3D Audio規格によって規定される仕様に準拠するデコーダ)に対応するか、またはこれを含むことができる。一例では、オーディオ・レンダリング・システム300は、プロセッサと、プロセッサに結合されたメモリとを有する装置であってもよく、プロセッサは、MPEG-H 3D Audioデコーダを実装するように適応される。特に、プロセッサは、MPEG-Hシーン変位ユニットおよび/またはMPEG-H 3D Audioレンダラーを実装するように適応されてもよい。よって、プロセッサは、本開示に記載される処理ステップ(たとえば、図5を参照して後述される方法500のステップS510~S560)を実行するように適応されてもよい。別の例では、処理またはオーディオ・レンダリング・システム300は、クラウド内で実行されてもよい。
【0071】
オーディオ・レンダリング・システム300は、聴取位置データ301を取得(たとえば、受領)してもよい。オーディオ・レンダリング・システム300は、MPEG-H 3D Audioデコーダ入力インターフェースを介して聴取位置データ301を得てもよい。聴取位置データ301は、聴取者の頭部の方向および/または位置(たとえば、変位)を示してもよい。よって、聴取位置データ301(姿勢情報とも呼ばれる)は、聴取者配向情報および/または聴取者変位情報を含んでいてもよい。
【0072】
聴取者変位情報は、聴取者の頭部の変位(たとえば、公称聴取位置からの変位)を示してもよい。聴取者変位情報は、図2に示されるように、公称聴取位置からの聴取者の頭部の変位の絶対値roffset=||P0-P1|| 206に対応するか、またはその指標を含むことができる。本発明の文脈では、聴取者変位情報は、公称聴取位置からの聴取者の頭部の小さな位置変位を示す。たとえば、変位の絶対値は0.5m以下であってもよい。典型的には、これは、聴取者が上半身および/または頭部を動かすことによって達成可能な、公称聴取位置からの聴取者の頭部の変位である。すなわち、変位は、聴取者にとって、下半身を動かすことなく達成可能であってもよい。たとえば、聴取者の頭部の変位は、上述のように、聴取者が椅子に座っているときに達成可能であってもよい。変位は、たとえば、デカルト座標(たとえば、x、y、zに関して)または球面座標(たとえば、方位角、仰角、動径に関して)のような多様な座標系で表わせる。聴取者の頭部の変位を表現するための代替的な座標系も実現可能であり、本開示に包含されると理解されるべきである。
【0073】
聴取者配向情報は、聴取者の頭部の配向(たとえば、聴取者の頭部の公称配向/基準配向に関する聴取者の頭部の配向)を示してもよい。たとえば、聴取者配向情報は、聴取者の頭部のヨー、ピッチ、およびロールに関する情報を含んでいてもよい。ここで、ヨー、ピッチ、およびロールは、公称配向に関して与えられてもよい。
【0074】
聴取位置データ301は、ユーザーの並進運動に関する情報を提供しうる受領器(receiver)から連続的に収集されてもよい。たとえば、ある時点において使用される聴取位置データ301は、受領器から最近収集されたものであってもよい。聴取位置データは、センサー情報に基づいて導出/収集/生成されてもよい。たとえば、聴取位置データ301は、適切なセンサーを有するウェアラブルなおよび/または静的な設備によって、導出/収集/生成されてもよい。すなわち、ウェアラブルなおよび/または静的な設備によって、聴取者の頭部の配向が検出されてもよい。同様に、聴取者の頭部の変位(たとえば、公称聴取位置からの変位)は、ウェアラブルなおよび/または静的な設備によって検出されてもよい。ウェアラブルな設備は、たとえば、ヘッドセット(たとえば、AR/VRヘッドセット)であっても、それに対応していても、および/または、それを含んでいてもよい。静的な設備は、たとえば、カメラ・センサーであっても、カメラ・センサーに対応していても、および/またはカメラ・センサーを含んでいてもよい。静的な設備は、たとえば、TVセットまたはセットトップボックスに含まれてもよい。いくつかの実施形態では、聴取位置データ301は、オーディオ・エンコーダ(たとえば、MPEG-H 3D Audio準拠エンコーダ)から受領されてもよく、該オーディオ・エンコーダは、センサー情報を取得(たとえば、受領)したのでもよい。
【0075】
一例では、聴取位置データ301を検出するためのウェアラブルなおよび/または静的な設備は、頭部位置推定/検出および/または頭部配向推定/検出をサポートするトラッキング装置と称されてもよい。コンピュータまたはスマートフォンのカメラを使って、ユーザーの頭の動きを正確に追跡できるようにする多様な解決策がある(たとえば、顔認識と追跡に基づく「FaceTrackNoIR」、「opentrack」)。また、いくつかのヘッドマウントディスプレイ(HMD)仮想現実システム(たとえば、HTC VIVE、Oculus Rift)は、統合された頭部追跡技術を有する。これらの解決策のいずれも、本開示の文脈において使用されうる。
【0076】
また、物理的な世界における頭部変位距離は、聴取位置データ301によって示される変位に1対1で対応する必要がないことに留意することが重要である。超現実的効果(たとえば、過剰増幅されたユーザー運動視差効果)を達成するために、ある種のアプリケーションは、異なるセンサー較正設定を使用するか、または実空間と仮想空間における動きの間の異なるマッピングを指定することができる。よって、いくつかの使用事例においては、小さな物理的移動が、仮想現実における、より大きな変位を生じることを期待できる。いずれにせよ、物理的な世界と仮想現実における変位の絶対値(すなわち、聴取位置データ301によって示される変位)は、正に相関すると言える。同様に、物理的な世界と仮想現実における変位の方向も正に相関する。
【0077】
オーディオ・レンダリング・システム300は、さらに、(オブジェクト)位置情報(たとえば、オブジェクト位置データ)302およびオーディオ・データ322を受領してもよい。オーディオ・データ322は、一つまたは複数のオーディオ・オブジェクトを含んでいてもよい。位置情報302は、オーディオ・データ322のメタデータの一部であってもよい。位置情報302は、一つまたは複数のオーディオ・オブジェクトのそれぞれのオブジェクト位置を示してもよい。たとえば、位置情報302は、ユーザー/聴取者の公称聴取位置に対するそれぞれのオーディオ・オブジェクトの距離の指示を含んでいてもよい。距離(動径)は、0.5m未満でもよい。たとえば、距離は1cm未満であってもよい。位置情報302が、公称聴取位置からの所与のオーディオ・オブジェクトの距離の指示を含まない場合、オーディオ・レンダリング・システムは、公称聴取位置からのこのオーディオ・オブジェクトの距離をデフォルト値(たとえば、1m)に設定してもよい。位置情報302は、それぞれのオーディオ・オブジェクトの仰角および/または方位角の指示をさらに含んでいてもよい。
【0078】
各オブジェクト位置は、対応するオーディオ・オブジェクトをレンダリングするために使用可能であってもよい。よって、位置情報302およびオーディオ・データ322は、オブジェクト・ベースのオーディオ・コンテンツに含まれてもよく、または、オブジェクト・ベースのオーディオ・コンテンツの形であってもよい。オーディオ・コンテンツ(たとえば、オーディオ・オブジェクト/オーディオ・データ322とその位置情報302)は、エンコードされたオーディオ・ビットストリームにおいて伝達されうる。たとえば、オーディオ・コンテンツは、ネットワークを通じた送信から受信されたビットストリームのフォーマットであってもよい。この場合、オーディオ・レンダリング・システムは、オーディオ・コンテンツを(たとえば、エンコードされたオーディオ・ビットストリームから)を受領すると言ってもよい。
【0079】
本発明の一例では、3DoFおよび3DoF+のための後方互換性のある向上の、ある使用事例の処理を補正するために、メタデータ・パラメータが使用されてもよい。メタデータは、聴取者配向情報に加えて、聴取者変位情報を含んでいてもよい。そのようなメタデータ・パラメータは、図2および図3に示されるシステム、ならびに本発明の任意の他の実施形態によって利用されうる。
【0080】
後方互換な向上は、規範的なMPEG-H 3D Audioシーン変位インターフェースに基づいて、使用事例の処理(たとえば、本発明の実装)を補正することを許容しうる。これは、レガシーMPEG-H 3D Audioデコーダ/レンダラーが、たとえ正しくなくても、依然として出力を生成することを意味する。しかしながら、本発明による向上されたMPEG-H 3D Audioデコーダ/レンダラーは、拡張データ(たとえば、拡張メタデータ)および処理を正しく適用し、よって、正しい仕方で聴取者に近接して位置されたオブジェクトのシナリオを処理することができる。
【0081】
一例において、本発明は、以下に概説するフォーマットとは異なるフォーマットで、ユーザーの頭部の小さな並進運動のためのデータを提供することに関し、これらの公式はしかるべく適応されうる。たとえば、データは、(球面座標系における)方位角、仰角および動径の代わりに、(デカルト座標系における)x、y、z座標のようなフォーマットで提供されてもよい。これらの座標系の相互関係の例を図4に示す。
【0082】
一例では、本発明は、聴取者の頭部の並進運動を入力するためのメタデータ(たとえば、図3に示される聴取位置データ301に含まれる聴取者変位情報)を提供することに向けられる。メタデータは、たとえば、シーン変位データのためのインターフェースのために使用され得る。メタデータ(たとえば、聴取者変位情報)は、3DoF+または6DoFトラッキングをサポートするトラッキング装置の展開によって得ることができる。
【0083】
一例では、メタデータ(たとえば、聴取者変位情報、特に聴取者の頭部の変位、または等価だがシーン変位(scene displacement))は、次の3つのパラメータsd_azimuth、sd_elevation、およびsd_radiusによって表わされてもよく、これらは、聴取者の頭部の変位(またはシーン変位)の方位角、仰角、および動径(球面座標)に関連する。
【0084】
これらのパラメータについてのシンタックスは、次の表によって与えられる。
【表1】
【0085】
もう一つの例では、メタデータ(たとえば、聴取者変位情報)は、デカルト座標における以下の3つのパラメータsd_x、sd_y、およびsd_zによって表わされてもよく、これは、球面座標からデカルト座標へのデータの処理を低減する。メタデータは、次のシンタックスに基づいていてもよい:
【表2】
上述のように、上述のシンタックスまたはその等化物は、x,y,z軸のまわりの回転に関連する情報を信号伝達してもよい。
【0086】
本発明の一例では、チャネルおよびオブジェクトについてのシーン変位角の処理は、ユーザーの頭部の位置変化を考慮に入れる式を拡張することによって向上されうる。すなわち、オブジェクト位置の処理は、聴取者変位情報を考慮に入れてもよい(たとえば、少なくとも部分的に聴取者偏移情報に基づいていてもよい)。
【0087】
オーディオ・オブジェクトのオブジェクト位置を示す位置情報を処理する方法500の例が図5のフローチャートに示されている。この方法は、MPEG-H 3Dオーディオ・デコーダなどのデコーダによって実行されてもよい。図3のオーディオ・レンダリング・システム300は、そのようなデコーダの一例となることができる。
【0088】
第1のステップとして(図5には示されていない)、オーディオ・オブジェクトおよび対応する位置情報を含むオーディオ・コンテンツが、たとえば、エンコードされたオーディオのビットストリームから受領される。次いで、本方法は、エンコードされたオーディオ・コンテンツをデコードして、オーディオ・オブジェクトおよび位置情報を取得することをさらに含んでいてもよい。
【0089】
ステップS510では、聴取者配向情報が取得される(たとえば、受領される)。聴取者配向情報は、聴取者の頭部の配向を示してもよい。
【0090】
ステップS520では、聴取者変位情報が取得される(たとえば、受領される)。聴取者変位情報は、聴取者の頭部の変位を示してもよい。
【0091】
ステップS530では、位置情報からオブジェクト位置が決定される。たとえば、オブジェクト位置(たとえば、方位角、仰角、動径、またはx、y、zまたはそれらの等価物)は、位置情報から抽出されてもよい。オブジェクト位置の決定は、少なくとも部分的には、聴取環境における一つまたは複数の(実または仮想)スピーカーのスピーカー配置の幾何構成に関する情報にも基づいてもよい。動径がそのオーディオ・オブジェクトについての位置情報に含まれない場合、デコーダは動径をデフォルト値(たとえば、1m)に設定してもよい。
【0092】
いくつかの実施形態では、デフォルト値は、スピーカー配置の幾何構成に依存してもよい。
【0093】
特に、ステップS510、S520、S520は、任意の順序で実行可能である。
【0094】
ステップS540では、ステップS530で決定されたオブジェクト位置が、聴取者変位情報に基づいて修正される。これは、変位情報に従って(たとえば、聴取者の頭部の変位に応じて)、オブジェクト位置に並進を適用することによって行なわれてもよい。したがって、オブジェクト位置を修正することは、聴取者の頭部の変位(たとえば、公称聴取位置からの変位)についてオブジェクト位置を補正することに関連すると言える。特に、聴取者変位情報に基づいてオブジェクト位置を修正することは、公称聴取者位置からの聴取者の頭部の変位ベクトルの方向に負に相関し、絶対値に正に相関するベクトルによって、オブジェクト位置を並進させることによって実行されてもよい。そのような並進の例が図2に概略的に示されている。
【0095】
ステップS550では、ステップS540で得られた修正されたオブジェクト位置は、聴取者配向情報に基づいてさらに修正される。たとえば、これは、聴取者配向情報に従って、修正されたオブジェクト位置に回転変換を適用することによってなされてもよい。この回転は、たとえば、聴取者の頭部または公称聴取位置に対する回転であってもよい。回転変換は、シーン変位アルゴリズムによって実行されてもよい。
【0096】
上述のように、ユーザー・オフセット補償(すなわち、聴取者変位情報に基づくオブジェクト位置の修正)は、回転変換を適用する際に考慮に入れられる。たとえば、回転変換の適用は、下記を含みうる:
・回転変換行列の計算(ユーザー配向、たとえば聴取者配向情報に基づく)、
・オブジェクト位置の、球面座標からデカルト座標への変換、
・ユーザー位置オフセット補償されたオーディオ・オブジェクトへの(すなわち、修正されたオブジェクト位置への)回転変換の適用、
・回転変換後のオブジェクト位置を、デカルト座標から球面座標に戻す変換。
【0097】
さらなるステップS560図5には示されていない)として、方法500は、さらに修正されたオブジェクト位置に従って、オーディオ・オブジェクトを一つまたは複数の実スピーカーまたは仮想スピーカーにレンダリングすることを含んでいてもよい。
【0098】
この目的のために、さらに修正されたオブジェクト位置は、MPEG-H 3D Audioレンダラー(たとえば、上述のオーディオ・オブジェクト・レンダラー320)によって使用される入力フォーマットに調整されてもよい。前述の一つまたは複数の(実または仮想)スピーカーは、たとえば、ヘッドセットの一部であってもよく、またはスピーカー配置(たとえば、2.1スピーカー配置、5.1スピーカー配置、7.1スピーカー配置など)の一部であってもよい。いくつかの実施形態では、オーディオ・オブジェクトは、たとえば、ヘッドセットの左右のスピーカーにレンダリングされてもよい。
【0099】
上述のステップS540およびS550のねらいは、以下の通りである。すなわち、オブジェクト位置を修正し、修正されたオブジェクト位置をさらに修正することは、オーディオ・オブジェクトが、さらに修正されたオブジェクト位置に従って一つまたは複数の(実または仮想)スピーカーにレンダリングされた後、公称聴取位置に対する固定位置から生じるものとして聴取者によって音響心理学的に知覚されるように、実行される。オーディオ・オブジェクトのこの固定位置は、公称聴取位置からの聴取者の頭部の変位にかかわりなく、かつ公称配向に関する聴取者の頭部の配向にかかわりなく、音響心理学的に知覚される。換言すれば、オーディオ・オブジェクトは、聴取者の頭部が公称聴取位置からの変位を受けるときに、聴取者の頭部に対して移動する(並進する)と知覚されうる。同様に、オーディオ・オブジェクトは、聴取者の頭部が公称配向からの配向の変化を受けるときに、聴取者の頭部に対して動く(回転する)と知覚されうる。それにより、聴取者は、頭を動かすことによって、近接したオーディオ・オブジェクトを、さまざまな角度および距離から知覚することができる。
【0100】
ステップS540およびS550における、オブジェクト位置の修正および修正されたオブジェクト位置のさらなる修正は、たとえば、上述のオーディオ・シーン変位ユニット310によって、(回転/並進)オーディオ・シーン変位のコンテキストにおいて実行されてもよい。
【0101】
直面している特定の使用事例に依存して、ある種のステップが省略されてもよいことを注意しておくべきである。たとえば、聴取位置データ301が、聴取者変位情報のみを含む(ただし、聴取者配向情報は含まない、または、聴取者の頭部の配向が公称配向からずれていないことを示す聴取者配向情報のみを含む)場合、ステップS550は省略されてもよい。次いで、ステップS560でのレンダリングは、ステップS540で決定された修正されたオブジェクト位置に従って実行される。同様に、聴取者位置情報301が聴取者配向情報のみを含む(ただし、聴取者変位情報は含まない、または、聴取者頭部の位置が公称聴取者位置からずれていないことを示す聴取者変位情報のみを含む)場合、ステップS540は省略されてもよい。次いで、ステップS550は、聴取者配向情報に基づいてステップS530で決定されたオブジェクト位置を修正することに関する。ステップS560でのレンダリングは、ステップS550で決定された修正オブジェクト位置に従って実行される。
【0102】
大まかに言えば、本発明は、聴取者についての聴取位置データ301に基づいて、オブジェクト・ベースのオーディオ・コンテンツの一部として受領されたオブジェクト位置(たとえば、オーディオ・データ322に伴う位置情報302)の位置更新を提案する。
【0103】
まず、オブジェクトの位置(またはチャネル位置)p(az,el,r)が決定される。これは、方法500のステップ530のコンテキストにおいて(たとえば、その一部として)実行されてもよい。
【0104】
チャネルベースの信号については、動径rは以下のように決定されてもよい:
・(チャネルベースの入力信号のチャネルの)意図されたスピーカーが再生スピーカー・セットアップに存在し、再生セットアップの距離が既知である場合、動径rは、ラウドスピーカーの距離(たとえば、cm単位)に設定される。
・意図されるラウドスピーカーが再生スピーカー・セットアップに存在しないが、諸再生スピーカーの距離(たとえば、公称聴取位置からの距離)が既知である場合は、動径rは最大再生スピーカー距離に設定される。
・意図されるラウドスピーカーが再生スピーカー・セットアップに存在せず、知られている再生スピーカー距離がない場合は、動径rはデフォルト値(1023cmなど)に設定される。
【0105】
オブジェクト・ベースの信号については、動径rは以下のように決定される:
・オブジェクト距離が既知である(たとえば、プロダクション・ツールおよびプロダクション・フォーマットから、prodMetadataConfig()において伝達される)場合、動径rは既知のオブジェクト距離(たとえば、MPEG-H 3D Audio規格のテーブルAMD5.7に従い、goa_bsObjectDistance[](cm単位)によって信号伝達される)に設定される。
【表3】
・オブジェクト距離が位置情報から知られている(たとえば、オブジェクト・メタデータから、object_metadata()において伝達される)場合、動径rは位置情報において信号伝達されたオブジェクト距離(たとえば、オブジェクト・メタデータで伝達されるradius[](cm単位))に設定される。動径rは、以下に示す「オブジェクト・メタデータのスケーリング」および「オブジェクト・メタデータの制限」の節に従って信号伝達されてもよい。
【0106】
オブジェクト・メタデータのスケーリング
オブジェクト位置を決定するコンテキストにおける任意的なステップとして、位置情報から決定されたオブジェクト位置p=(az,el,r)がスケーリングされてもよい。これは、各コンポーネントについての入力データのエンコーダ・スケーリングを逆転させるためにスケーリング因子を適用することに関わってもよい。これは、すべてのオブジェクトについて実行されてもよい。オブジェクト位置の実際のスケーリングは、以下の擬似コードに沿って実装されてもよい:
【表4】
【0107】
オブジェクト・メタデータの制限
オブジェクト位置p=(az,el,r)を決定するコンテキストにおけるさらなる任意的なステップとして、位置情報から決定された(可能性としてはスケーリングされた)オブジェクト位置が制限されてもよい。これは、値を有効範囲内に維持するために、各コンポーネントについてのデコードされた値に制限を適用することに関わってもよい。これは、すべてのオブジェクトについて実行されてもよい。オブジェクト位置の実際の制限は、以下の擬似コードの機能に従って実装されてもよい:
【表5】
【0108】
その後、決定された(および任意的にスケーリングおよび/または制限された)オブジェクト位置は所定の座標系に変換されてもよい。たとえば、方位角0°が右耳(反時計回りが正の値)にあり、仰角0°が頭頂(下方に向かって正の値)である「一般的慣習」に従った座標系である。よって、オブジェクト位置pは、「一般的」慣習に従った位置に変換されてもよい。これは、次のようなオブジェクト位置p'を与える:
p'(az',el',r)
az'=az+90°
el'=90°-el
動径rは変わらない。
【0109】
同時に、聴取者変位情報(azoffset,eloffset,roffset)によって示される聴取者の頭部の変位が所定の座標系に変換されてもよい。「一般的慣習」を使用すると、これは次のようになる。
【0110】
az'offset=azoffset+90°
el'offset=90°-eloffset
動径rは変わらない。
【0111】
特に、オブジェクト位置および聴取者の頭部の変位の両方についての前記所定の座標系への変換は、ステップS530またはステップS540の文脈で実行されてもよい。
【0112】
実際の位置更新は、方法500のステップS540のコンテキストで(たとえば、その一部として)実行されてもよい。位置更新は、以下のステップを含んでいてもよい。
【0113】
第1のステップとして、位置p、または、所定の座標系への転換が実行されている場合には位置p'が、デカルト座標(x,y,z)に転換される。以下では、限定の意図なしに、本プロセスが、所定の座標系における位置p'について記述される。また、限定の意図なしに、座標軸の次の配向/方向が想定されてもよい:x軸は右を向く(公称配向にあるときの聴取者の頭部から見て)、y軸は真正面を向く、z軸は真上を向く。同時に、聴取者の変位情報(az'offset,el'offset,roffset)によって示される聴取者の頭部の変位がデカルト座標に変換される。
【0114】
第2のステップとして、デカルト座標におけるオブジェクト位置が、上述した仕方で、聴取者の頭部の変位(シーン変位)に応じてシフト(並進)される。これは、次のように進められてもよい。
【数1】
上述の並進は、方法500のステップS540における聴取者変位情報に基づくオブジェクト位置の修正の一例である。
【0115】
デカルト座標におけるシフトされたオブジェクト位置は、球面座標に変換され、p"と称されてもよい。シフトされたオブジェクト位置は、一般的慣習に従って所定の座標系でp"=(az",el",r)と表わせる。
【0116】
小さな動径パラメータ変化をもたらす
【数2】
聴取者の頭部の変位があるとき、オブジェクトの修正された位置はp"=(az",el",r)として再定義できる。
【0117】
もう一つの例では、かなりの動径パラメータ変化をもたらしうる(すなわち、r'≫r)大きな聴取者の頭部変位があるときは、オブジェクトの修正された位置p"は、修正された動径パラメータr'を用いて、p"=(az",el",r)の代わりに、p"=(az",el",r')としても定義できる。
【0118】
修正された動径パラメータr'の対応する値は、聴取者の頭部変位距離(すなわち、roffset=||P0-P1||)および初期動径パラメータ(すなわち、r=||P0-A||)から得ることができる(たとえば、図1および2を参照)。たとえば、修正された動径パラメータr'は、次の三角関係に基づいて決定できる:
【数3】
【0119】
この修正された動径パラメータr'のオブジェクト/チャネル利得へのマッピングと、その後のオーディオ・レンダリングのためのその適用により、ユーザーの動きによるレベル変化の知覚的な効果を有意に改善できる。動径パラメータr'のそのような修正を許容することにより、「適応的なスイートスポット」が可能となる。これは、MPEGレンダリング・システムが、聴取者の現在位置に応じてスイートスポット位置を動的に調整することを意味する。一般に、修正された(またはさらに修正された)オブジェクト位置に従ったオーディオ・オブジェクトのレンダリングは、修正された動径パラメータr'に基づいてもよい。特に、オーディオ・オブジェクトをレンダリングするためのオブジェクト/チャネル利得は、修正された動径パラメータr'に基づいていてもよい(たとえば、それに基づいて修正されてもよい)。
【0120】
もう一つの例では、ラウドスピーカー再生セットアップおよびレンダリングの間(たとえば、上記のステップS560において)、シーン変位を無効にすることができる。しかしながら、シーン変位の任意的な有効化が利用可能であってもよい。これにより、3DoF+レンダラーは、聴取者の現在位置および配向に応じて、動的に調整可能なスイートスポットを生成できる。
【0121】
特に、オブジェクト位置および聴取者の頭部の変位をデカルト座標に変換するステップは任意的であり、聴取者の頭部の変位(シーン変位)に応じた並進/シフト(修正)は、任意の好適な座標系で実行されうる。換言すれば、上記におけるデカルト座標の選択は、限定しない例として理解されるべきである。
【0122】
いくつかの実施形態では、シーン変位処理(オブジェクト位置の修正および/または修正されたオブジェクト位置のさらなる修正を含む)は、ビットストリームにおけるフラグ(フィールド、要素、設定されたビット)(たとえば、useTrackingMode要素)によって有効または無効できる。ISO/IEC23008-3における下位条項「17.3 ローカル・ラウドスピーカー・セットアップおよびレンダリングのためのインターフェース」および「17.4 両耳室内インパルス応答(BRIR)のためのインターフェース」は、シーン変位処理をアクティブ化するuseTrackingMode要素の記述を含む。本開示の文脈においては、useTrackingMode要素は、mpegh3daSceneDisplacementData()およびmpegh3daPositionalSceneDisplacementData()インターフェースを介して送信されるシーン変位値の処理が行なわれるか否かを定義する(下位条項17.3)。代替的または追加的に(下位条項17.4)、useTrackingModeフィールドは、トラッカー装置が接続され、バイノーラル・レンダリングが特別なヘッドトラッキングモードで処理されるかどうかを定義する。つまり、mpegh3daSceneDisplacementData()およびmpegh3daPositionalSceneDisplacementData()インターフェースを介して送信されるシーン変位値の処理が行なわれることを意味する。
【0123】
本明細書に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されうる。ある種のコンポーネントは、たとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で動作するソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアとして、および/または特定用途向け集積回路として実装されてもよい。上述の方法およびシステムで遭遇する信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。それらの信号は、電波ネットワーク、衛星ネットワーク、無線ネットワーク、またはインターネットなどの有線ネットワークなどのネットワークを介して転送されうる。本明細書に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。
【0124】
本稿は、MPEG、特にMPEG-H 3D Audioに言及しているが、本開示は、これらの規格に限定されると解釈されてはならない。むしろ、当業者には理解されるように、本開示は、オーディオ符号化の他の標準においても有利な用途を見出すことができる。さらに、本稿は、聴取者の(たとえば公称聴取位置からの)頭部の小さな位置変位に頻繁に言及しているが、本開示は、小さな位置変位に限定されるものではなく、一般に、聴取者の頭部の任意の位置変位に適用できる。
【0125】
明細書および図面は、提案される方法、システムおよび装置の原理を例解するに過ぎないことを注意しておくべきである。当業者は、本明細書に明示的に記載または示されていないが、本発明の原理を具現し、その精神および範囲に含まれるさまざまな構成を実施することができるであろう。さらに、本稿で概説されているすべての例および実施形態は、主として、提案される方法の原理を理解することにおいて読者を助けるための説明目的のためのみに明確に意図されている。さらに、本発明の原理、側面、および実施形態を提供する本稿におけるすべての陳述、ならびにそれらの個別的な例は、それらの均等物を包含することが意図されている。
【0126】
上記に加えて、本発明のさまざまな例示的な実装および例示的な実施形態は、以下に列挙した箇条書き実施例(enumerated example embodiment、EEE)から明白になるが、これらは請求項ではない。
【0127】
第1のEEEは、エンコードされたオーディオ信号ビットストリームをデコードするための方法に関し、前記方法は、オーディオ・デコード装置300によって、エンコードされたオーディオ信号ビットストリーム(302、322)を受領するステップであって、前記エンコードされたオーディオ信号ビットストリームは、エンコードされたオーディオ・データ(322)と、少なくとも1つのオブジェクト・オーディオ信号(302)に対応するメタデータとを含む、ステップと;前記オーディオ・デコード装置(300)によって、前記エンコードされたオーディオ信号ビットストリーム(302、322)をデコードして、複数の音源の表現を得るステップと;前記前記オーディオ・デコード装置(300)によって、聴取位置データ(301)を受領するステップと;前記オーディオ・デコード装置(300)によって、オーディオ・オブジェクト位置データ(321)を生成するステップであって、前記オーディオ・オブジェクト位置データ(321)は、前記聴取位置データ(301)に基づいて、聴取位置に対する複数の音源を記述する、ステップとを含む。
【0128】
第2のEEEは、第1のEEEの方法に関するものであり、前記聴取位置データ(301)は、第1の並進位置データの第1のセットと、第2の並進位置および配向データの第2のセットとに基づく。
【0129】
第3のEEEは、第2のEEEの方法に関するものであり、第1の並進位置データまたは第2の並進位置データのいずれかは、球面座標のセットまたはデカルト座標のセットのうちの少なくとも1つに基づく。
【0130】
第4のEEEは、第1のEEEの方法に関するものであり、聴取位置データ(301)が、MPEG-H 3D Audioデコーダ入力インターフェースを介して取得される
第5のEEEは、第1のEEEの方法に関するものであり、前記エンコードされたオーディオ信号ビットストリームは、MPEG-H 3D Audioビットストリーム・シンタックス要素を含み、前記MPEG-H 3D Audioビットストリーム・シンタックス要素は、エンコードされたオーディオ・データ(322)および少なくとも1つのオブジェクト・オーディオ信号に対応するメタデータ(302)を含む。
【0131】
第6のEEEは、前記第1のEEEの方法に関するものであり、前記オーディオ・デコード装置(300)によって、複数のラウドスピーカーに前記複数の音源をレンダリングするステップをさらに含み、前記レンダリング・プロセスは、少なくともMPEG-H 3D Audio規格に準拠する。
【0132】
第7のEEEは、第1のEEEの方法に関するものであり、前記オーディオ・デコード装置(300)によって、聴取位置データ(301)の並進に基づいて、前記少なくとも1つのオブジェクト・オーディオ信号に対応する位置(302)を、オーディオ・オブジェクト位置に対応する第2の位置(321)に変換するステップをさらに含む。
【0133】
第8のEEEは、第7のEEEの方法に関するものであり、前記オーディオ・オブジェクト位置のうちの位置p'が、所定の座標系において(たとえば、一般的慣習に従って)
p'=(az',el',r)
az'=az+90°
el'=90°-el
az'offset=azoffset+90°
el'offset=90°-eloffset
に基づいて決定され、
ここで、azは第1の方位角パラメータに対応し、elは第1の仰角パラメータに対応し、rは第1の動径パラメータに対応し、ここで、az'は第2の方位角パラメータに対応し、el'は第2の仰角パラメータに対応し、r'は第2の動径パラメータに対応し、azoffsetは第3の方位角パラメータに対応し、eloffsetは第3の仰角パラメータに対応し、azoffsetは第4の方位角パラメータに対応し、eloffsetは第4の仰角パラメータに対応する。
【0134】
第9のEEEは、第8のEEEの方法に関するものであり、ここで、オーディオ・オブジェクト位置(302)のシフトされたオーディオ・オブジェクト位置(321)は、デカルト座標(x,y,z)において、
【数4】
に基づいて決定され、
ここで、デカルト位置(x,y,z)は、x,y,zパラメータからなり、xoffsetは第1のx軸オフセット・パラメータに関し、yoffsetは第1のy軸オフセット・パラメータに関し、zoffsetは第1のz軸オフセット・パラメータに関する。
【0135】
第10のEEEは、第9のEEEの方法に関するものであり、ここで、パラメータxoffset,yoffset,zoffsetは、
【数5】
に基づく。
【0136】
第11のEEEは、第7のEEEの方法に関するものであり、方位パラメータazoffsetは、シーン変位方位角位置に関するものであって、
【数6】
に基づき、
ここで、sd_azimuthはMPEG-H 3DA方位角シーン変位を示す方位角メタデータ・パラメータであり、仰角パラメータeloffsetはシーン変位仰角位置に関するものであって、
【数7】
に基づき、
ここで、sd_elevationはMPEG-H 3DA仰角シーン変位を示す仰角メタデータ・パラメータであり、動径パラメータroffsetはシーン変位動径に関係し、
【数8】
に基づき、
ここで、sd_radiusはMPEG-H 3DA動径シーン変位を示す動径メタデータ・パラメータであり、パラメータXおよびYはスカラー変数である。
【0137】
第12のEEEは、第10のEEEの方法に関するものであり、ここで、xoffsetパラメータは、シーン変位オフセット位置sd_xをx軸の方向に関係付け;yoffsetパラメータは、シーン変位オフセット位置sd_yをy軸の方向に関係付け;zoffsetパラメータは、シーン変位オフセット位置sd_zをz軸の方向に関係付ける。
【0138】
第13のEEEは、前記第1のEEEの方法に関するものであり、前記オーディオ・デコード装置によって、前記聴取位置データ(301)に関係する前記第1の位置データおよび前記オブジェクト・オーディオ信号(102)を、更新レートで補間するステップをさらに含む。
【0139】
第14のEEEは、第1のEEEの方法に関するものであり、さらに、前記オーディオ・デコード装置300によって、聴取位置データ(301)の効率的なエントロピー符号化を決定することを含む。
【0140】
第15のEEEは、前記第1のEEEの方法に関するものであり、前記聴取位置に関する位置データ(301)は、センサー情報に基づいて導出される。
図1
図2
図3
図4
図5