IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特開2022-1201906DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造
<>
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図1
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図2
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図3
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図4
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図5
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図6
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図7A
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図7B
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図7C
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図8
  • 特開-6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022120190
(43)【公開日】2022-08-17
(54)【発明の名称】6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造
(51)【国際特許分類】
   G10L 19/008 20130101AFI20220809BHJP
   H04S 7/00 20060101ALI20220809BHJP
【FI】
G10L19/008 100
G10L19/008 200
H04S7/00 300
【審査請求】有
【請求項の数】14
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022098792
(22)【出願日】2022-06-20
(62)【分割の表示】P 2020543842の分割
【原出願日】2019-04-09
(31)【優先権主張番号】62/655,990
(32)【優先日】2018-04-11
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】テレンティフ,レオン
(72)【発明者】
【氏名】フェルシュ,クリストフ
(72)【発明者】
【氏名】フィッシャー,ダニエル
(57)【要約】
【課題】6DOFオーディオ・レンダリングのための方法、装置およびシステムならびに6DOFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造を提供する。
【解決手段】本開示は、特にエンコーダにおいてオーディオ信号をビットストリームにエンコードするための方法、装置およびシステムに関し、この方法は、3DoFオーディオ・レンダリングに関連するオーディオ信号データを、ビットストリームの一つまたは複数の第1ビットストリーム部分にエンコードする、または含め、6DoFオーディオ・レンダリングに関連するメタデータを、ビットストリームの一つまたは複数の第2ビットストリーム部分にエンコードする、または含めることを含む。本開示はさらに、ビットストリームに基づく、オーディオ信号のデコードおよびオーディオ・レンダリングのための方法、装置およびシステムに関する。
【選択図】図1
【特許請求の範囲】
【請求項1】
三自由度(3DoF)オーディオ・レンダリングに関連するエンコードされたオーディオ信号データおよび六自由度(6DoF)オーディオ・レンダリングに関連するメタデータを含むビットストリームをデコードする方法であって、当該方法は:
前記ビットストリームを受領する段階と;
3DoFに関連する前記エンコードされたオーディオ信号データをデコードして、デコードされた3DoFオーディオ信号を決定する段階と;
前記デコードされた3DoFオーディオ信号を、3DoFオーディオ・レンダリングおよび6DoFオーディオ・レンダリングのうちの少なくとも一方に基づいてレンダリングする段階であって、該レンダリングは、前記デコードされた3DoFオーディオ信号および6DoFに関連する前記メタデータに基づいて6DoFオーディオ信号データを生成する、段階とを含む、
方法。
【請求項2】
前記レンダリングは、一つまたは複数のオーディオ源のもとのオーディオ信号を、デフォルトの3DoF聴取者位置のまわりの一つまたは複数の球上に位置された対応するオーディオ・オブジェクトにマッピングする逆変換関数にさらに基づく、請求項1に記載の方法。
【請求項3】
前記逆変換関数は、前記一つまたは複数のオーディオ源の前記もとのオーディオ信号を近似するように構成されている、請求項2に記載の方法。
【請求項4】
3DoFオーディオ・レンダリングを実行するときは、前記3DoFオーディオ・レンダリングは6DoFオーディオ・レンダリングに関連する前記メタデータを使用せず、
6DoFオーディオ・レンダリングを実行するときは、前記6DoFオーディオ・レンダリングは6DoFオーディオ・レンダリングに関連する前記メタデータに基づいて実行される、
請求項1に記載の方法。
【請求項5】
3DoFオーディオ・レンダリングに関連する前記エンコードされたオーディオ信号データは、一つまたは複数のオーディオ・オブジェクト、前記一つまたは複数のオーディオ・オブジェクトの方向データおよび前記一つまたは複数のオーディオ・オブジェクトの距離データのうちの少なくとも一つを含む、請求項1に記載の方法。
【請求項6】
前記一つまたは複数のオーディオ・オブジェクトは、デフォルトの3DoF聴取者位置のまわりの一つまたは複数の球上に位置される、請求項5に記載の方法。
【請求項7】
6DoFオーディオ・レンダリングに関連する前記メタデータは、一つまたは複数のデフォルトの3DoF聴取者位置を示す、請求項1に記載の方法。
【請求項8】
6DoFオーディオ・レンダリングに関連する前記メタデータは:6DoF空間の記述、一つまたは複数のオーディオ・オブジェクトのオーディオ・オブジェクト方向、仮想現実環境、距離減衰、隠蔽、および残響のうちの少なくとも一つに関する少なくとも一つのパラメータ、のうちの少なくとも1つを示す、請求項1に記載の方法。
【請求項9】
3DoFオーディオ・レンダリングに関連する前記エンコードされたオーディオ信号データは、一つまたは複数のオーディオ源からの前記もとのオーディオ信号と、変換関数とに基づいて決定されたものである、請求項1に記載の方法。
【請求項10】
3DoFオーディオ・レンダリングに関連する前記エンコードされたオーディオ信号データは、前記変換関数を使用して、前記一つまたは複数のオーディオ源からの前記オーディオ信号を3DoFオーディオ信号に変換することによって決定されたものであり、前記変換関数が、前記一つまたは複数のオーディオ源の前記オーディオ信号を、デフォルトの3DoF聴取者位置のまわりの一つまたは複数の球上に位置されたそれぞれのオーディオ・オブジェクトにマッピングした、請求項9に記載の方法。
【請求項11】
前記ビットストリームは、MPEG-H 3D Audio規格と互換である、請求項1に記載の方法。
【請求項12】
3DoFオーディオ・レンダリングに関連する前記エンコードされたオーディオ信号データは前記ビットストリームのペイロードの一部であり、
6DoFオーディオ・レンダリングに関連する前記メタデータは前記ビットストリームの一つまたは複数の拡張コンテナの一部である、
請求項1に記載の方法。
【請求項13】
プロセッサによって実行されたときに該プロセッサに請求項1に記載の方法を実行させる命令を含んでいる非一時的なコンピュータ・プログラム製品。
【請求項14】
3DoFオーディオ・レンダリングに関連するエンコードされたオーディオ信号データおよび6DoFオーディオ・レンダリングに関連するメタデータを含むビットストリームをデコードするオーディオ・デコーダ装置であって、当該装置は:
前記ビットストリームを受領する受領器と;
3DoFに関連する前記エンコードされたオーディオ信号データをデコードして、デコードされた3DoFオーディオ信号を決定するデコーダと;
前記デコードされた3DoFオーディオ信号を、3DoFオーディオ・レンダリングおよび6DoFオーディオ・レンダリングのうちの少なくとも一方に基づいてレンダリングするレンダラーであって、該レンダリングは、前記デコードされた3DoFオーディオ信号および6DoFに関連する前記メタデータに基づいて6DoFオーディオ信号データを生成する、レンダラーとを有する、
装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本願は、2018年4月11日に出願された米国仮出願第62/655,990号の利益を主張し、同出願は、その全体が参照により本明細書に組み込まれる。
【0002】
技術分野
本開示は、特に6DoFオーディオ・レンダリングのためのデータ表現およびビットストリーム構造との関連での、6自由度(6DoF)オーディオ・レンダリングのための装置、システムおよび方法を提供することに関する。
【背景技術】
【0003】
現在のところ、ユーザーの6自由度(6DoF)の動きと組み合わせてオーディオをレンダリングするための十分な解決策がない。3自由度(3DoF)の動き(ヨー、ピッチ、ロール)と組み合わせたチャネル信号、オブジェクト信号、および一次/高次アンビソニックス(HOA)信号をレンダリングするための解決策があるが、ユーザーの6自由度(6DoF)の動き(ヨー、ピッチ、ロール、および並進運動)と組み合わせて、そのような信号を処理するためのサポートがない。
【0004】
一般に、3DoFオーディオ・レンダリングは、一つまたは複数のオーディオ源が所定の聴取者位置(3DoF位置と呼ばれる)を囲む角度位置でレンダリングされる音場を提供する。3DoFオーディオ・レンダリングの一例は、MPEG-H 3Dオーディオ規格(略MPEG-H 3DA)に含まれる。
【0005】
MPEG-H 3DAは、3DoF用のチャネル信号、オブジェクト信号、およびHOA信号をサポートするために開発されたが、まだ真の6DoFオーディオを処理することはできない。構想されているMPEG-I 3Dオーディオ実装は、好ましくは3DoFレンダリングの後方互換性を提供しつつ、3DoF(および3DoF+)機能を効率的な仕方(好ましくは、効率的な信号生成、エンコード、デコードおよび/またはレンダリングを含む)で6DoF 3Dオーディオ機器に向けて拡張することが望まれている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記に鑑み、本開示の目的は、効率的な6DoFオーディオ・エンコードおよび/またはレンダリングを許容する、3Dオーディオ・エンコードおよび/または3Dオーディオ・レンダリングのための方法、装置およびデータ表現および/またはビットストリーム構造を、好ましくはたとえばMPEG-H 3DA標準に基づく3DoFオーディオ・レンダリングのための後方互換性とともに、提供することである。
【0007】
本開示の別の目的は、効率的な6DoFオーディオ・エンコードおよび/またはレンダリングを許容する、3DoFオーディオ・エンコードおよび/または3Dオーディオ・レンダリングのためのデータ表現および/またはビットストリーム構造を、好ましくはたとえばMPEG-H 3DA標準に基づく3DoFオーディオ・レンダリングのための後方互換性とともに、提供すること、および/または効率的な6DoFオーディオ・エンコードおよび/またはレンダリングのためのエンコードおよび/またはレンダリング装置を、好ましくはたとえばMPEG-H 3DA標準に基づく3DoFオーディオ・レンダリングのための後方互換性とともに、提供することでありうる。
【課題を解決するための手段】
【0008】
例示的な諸側面によれば、オーディオ信号をビットストリームに、特にエンコーダにおいてエンコードするための方法であって、3DoFオーディオ・レンダリングと関連するオーディオ信号データを、前記ビットストリームの一つまたは複数の第1ビットストリーム部分にエンコードするおよび/または含める段階;および/または6DoFオーディオ・レンダリングと関連するメタデータを前記ビットストリームの一つまたは複数の第2ビットストリーム部分にエンコードするおよび/または含める段階とを含む、方法が提供されてもよい。
【0009】
例示的な諸側面によれば、3DoFオーディオ・レンダリングに関連するオーディオ信号データは、一つまたは複数のオーディオ・オブジェクトのオーディオ信号データを含む。
【0010】
例示的な諸側面によれば、前記一つまたは複数のオーディオ・オブジェクトは、デフォルトの3DoF聴取者位置を囲む一つまたは複数の球上に位置される。
【0011】
例示的な諸側面によれば、3DoFオーディオ・レンダリングに関連する前記オーディオ信号データは、一つまたは複数のオーディオ・オブジェクトの方向データおよび/または一つまたは複数のオーディオ・オブジェクトの距離データを含む。
【0012】
例示的な諸側面によれば、6DoFオーディオ・レンダリングに関連するメタデータは、一つまたは複数のデフォルト3DoF聴取者位置を示す。
【0013】
例示的な諸側面によれば、6DoFオーディオ・レンダリングに関連するメタデータは:任意的にオブジェクト座標を含む6DoF空間の記述;一つまたは複数のオーディオ・オブジェクトのオーディオ・オブジェクト方向;仮想現実(VR)環境;および/または距離減衰、隠蔽および/または残響に関するパラメータのうちの少なくとも1つを含むか、またはそれを示す。
【0014】
例示的な諸側面によれば、本方法は、さらに:一つまたは複数のオーディオ源からのオーディオ信号を受領する段階;および/または前記一つまたは複数のオーディオ源からの前記オーディオ信号および変換関数に基づいて、3DoFオーディオ・レンダリングに関連する前記オーディオ信号データを生成する段階をさらに含んでいてもよい。
【0015】
例示的な諸側面によれば、3DoFオーディオ・レンダリングに関連するオーディオ信号データは、前記変換関数を使用して、前記一つまたは複数のオーディオ源からの前記オーディオ信号を3DoFオーディオ信号に変換することによって生成される。
【0016】
例示的な諸側面によれば、前記変換関数は、前記一つまたは複数のオーディオ源の前記オーディオ信号を、デフォルトの3DoF聴取者位置を取り囲む一つまたは複数の球上に位置されたそれぞれのオーディオ・オブジェクトにマッピングまたは投影する。
【0017】
例示的な諸側面によれば、本方法は、さらに:環境特性および/または距離減衰、隠蔽、および/または残響に関するパラメータに基づいて、前記変換関数のパラメータ化を決定することを含んでいてもよい。
【0018】
例示的な諸側面によれば、前記ビットストリームは、MPEG-H 3D AudioビットストリームまたはMPEG-H 3D Audioシンタックスを使用するビットストリームである。
【0019】
例示的な諸側面によれば、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分は、前記ビットストリームのペイロードを表わす、および/または
前記一つまたは複数の第2ビットストリーム部分は前記ビットストリームの一つまたは複数の拡張コンテナを表わす。
【0020】
さらに別の例示的な側面によれば、特にデコーダまたはレンダラーにおける、デコードおよび/またはオーディオ・レンダリングのための方法が提供されてもよい。本方法は:ビットストリームを受領する段階であって、前記ビットストリームは、前記ビットストリームの一つまたは複数の第1ビットストリーム部分において3DoFオーディオ・レンダリングと関連するオーディオ信号データを含み、前記ビットストリームの一つまたは複数の第2ビットストリーム部分において6DoFオーディオ・レンダリングと関連するメタデータをさらに含む、段階、および/または受領されたビットストリームに基づいて3DoFオーディオ・レンダリングおよび6DoFオーディオ・レンダリングのうちの少なくとも一方を実行する段階を含む。
【0021】
例示的な諸側面によれば、3DoFオーディオ・レンダリングを実行するときは、3DoFオーディオ・レンダリングは、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分における、3DoFオーディオ・レンダリングに関連するオーディオ信号データに基づいて実行され、一方、前記ビットストリームの前記一つまたは複数の第2ビットストリーム部分における6DoFオーディオ・レンダリングに関連するメタデータは破棄される。
【0022】
例示的な諸側面によれば、6DoFオーディオ・レンダリングを実行するときは、6DoFオーディオ・レンダリングは、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分における、3DoFオーディオ・レンダリングに関連するオーディオ信号データと、前記ビットストリームの前記一つまたは複数の第2ビットストリーム部分における、6DoFオーディオ・レンダリングに関連するメタデータとに基づいて実行される。
【0023】
例示的な諸側面によれば、3DoFオーディオ・レンダリングに関連するオーディオ信号データは、一つまたは複数のオーディオ・オブジェクトのオーディオ信号データを含む。
【0024】
例示的な諸側面によれば、前記一つまたは複数のオーディオ・オブジェクトは、デフォルトの3DoF聴取者位置を囲む一つまたは複数の球上に位置される。
【0025】
例示的な諸側面によれば、3DoFオーディオ・レンダリングに関連するオーディオ信号データは、一つまたは複数のオーディオ・オブジェクトの方向データおよび/または一つまたは複数のオーディオ・オブジェクトの距離データを含む。
【0026】
例示的な諸側面によれば、6DoFオーディオ・レンダリングに関連するメタデータは、一つまたは複数のデフォルト3DoF聴取者位置を示す。
【0027】
例示的な諸側面によれば、6DoFオーディオ・レンダリングに関連するメタデータは:任意的にオブジェクト座標を含む6DoF空間の記述;一つまたは複数のオーディオ・オブジェクトのオーディオ・オブジェクト方向;仮想現実(VR)環境;および/または距離減衰、隠蔽、および/または残響に関するパラメータのうちの少なくとも1つを含むか、またはそれを示す。
【0028】
例示的な諸側面によれば、3DoFオーディオ・レンダリングに関連するオーディオ信号データは、前記一つまたは複数のオーディオ源からの前記オーディオ信号および変換関数に基づいて生成される。
【0029】
例示的な諸側面によれば、3DoFオーディオ・レンダリングに関連するオーディオ信号データは、前記変換関数を使用して、前記一つまたは複数のオーディオ源からのオーディオ信号を3DoFオーディオ信号に変換することによって生成される。
【0030】
例示的な諸側面によれば、前記変換関数は、前記一つまたは複数のオーディオ源のオーディオ信号を、デフォルトの3DoF聴取者位置を取り囲む一つまたは複数の球上に位置されたそれぞれのオーディオ・オブジェクトにマッピングまたは投影する。
【0031】
例示的な諸側面によれば、前記ビットストリームは、MPEG-H 3D AudioビットストリームまたはMPEG-H 3D Audioシンタックスを使用するビットストリームである。
【0032】
例示的な諸側面によれば、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分は、前記ビットストリームのペイロードを表わし、および/または前記一つまたは複数の第2ビットストリーム部分は、前記ビットストリームの一つまたは複数の拡張コンテナを表わす。
【0033】
例示的な諸側面によれば、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分における、3DoFオーディオ・レンダリングに関連するオーディオ信号データと、前記ビットストリームの前記一つまたは複数の第2ビットストリーム部分における6DoFオーディオ・レンダリングに関連するメタデータとに基づいて、6DoFオーディオ・レンダリングを実行することは、前記3DoFオーディオ・レンダリングに関連するオーディオ信号データと逆変換関数とに基づいて、6DoFオーディオ・レンダリングに関連するオーディオ信号データを生成することを含む。
【0034】
例示的な諸側面によれば、6DoFオーディオ・レンダリングに関連するオーディオ信号データは、前記逆変換関数および6DoFオーディオ・レンダリングに関連する前記メタデータを使用して、3DoFオーディオ・レンダリングに関連するオーディオ信号データを変換することによって生成される。
【0035】
例示的な諸側面によれば、前記逆変換関数は、前記一つまたは複数のオーディオ源のオーディオ信号を、デフォルトの3DoF聴取者位置を囲む一つまたは複数の球上に位置されたそれぞれのオーディオ・オブジェクトにマッピングまたは投影する変換関数の逆関数である。
【0036】
例示的な諸側面によれば、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分における、3DoFオーディオ・レンダリングに関連するオーディオ信号データに基づいて3DoFオーディオ・レンダリングを実行することは、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分における、3DoFオーディオ・レンダリングに関連するオーディオ信号データと、前記ビットストリームの一つまたは複数の第2ビットストリーム部分における、6DoFオーディオ・レンダリングに関連するメタデータとに基づいて、デフォルトの3DoF聴取者位置において、6DoFオーディオ・レンダリングを実行するのと同じ生成された音場を生じる。
【0037】
さらに別の例示的側面によれば、オーディオ・レンダリングのためのビットストリームが提供されてもよい。該ビットストリームは、ビットストリームの一つまたは複数の第1ビットストリーム部分において、3DoFオーディオ・レンダリングに関連するオーディオ信号データを含み、さらに、ビットストリームの一つまたは複数の第2ビットストリーム部分において、6DoFオーディオ・レンダリングに関連するメタデータを含む。この側面は、上記の例示的な諸側面の任意の一つまたは複数と組み合わされてもよい。
【0038】
さらに別の例示的側面によれば、装置、特にエンコーダであって:3DoFオーディオ・レンダリングと関連するオーディオ信号データを、ビットストリームの一つまたは複数の第1ビットストリーム部分にエンコードするおよび/または含め;6DoFオーディオ・レンダリングと関連するメタデータをビットストリームの一つまたは複数の第2ビットストリーム部分にエンコードするおよび/または含め;および/またはエンコードされたビットストリームを出力するように構成されたプロセッサを含むものが提供されうる。この側面は、上記の例示的な諸側面の任意の一つまたは複数と組み合わされてもよい。
【0039】
さらに別の例示的な側面によれば、装置、特にデコーダまたはオーディオ・レンダラーであって:ビットストリームの一つまたは複数の第1ビットストリーム部分において3DoFオーディオ・レンダリングに関連するオーディオ信号データを含み、ビットストリームの一つまたは複数の第2ビットストリーム部分において6DoFオーディオ・レンダリングに関連するメタデータをさらに含むビットストリームを受領する、および/または受領されたビットストリームに基づいて3DoFオーディオ・レンダリングおよび6DoFオーディオ・レンダリングのうちの少なくとも1つを実行するように構成されたプロセッサを含むものが提供されてもよい。この側面は、上記の例示的な諸側面の任意の一つまたは複数と組み合わされてもよい。
【0040】
例示的な諸側面によれば、3DoFオーディオ・レンダリングを実行するとき、プロセッサは、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分における3DoFオーディオ・レンダリングに関連するオーディオ信号データに基づいて3DoFオーディオ・レンダリングを実行し、一方、前記ビットストリームの前記一つまたは複数の第2ビットストリーム部分における6DoFオーディオ・レンダリングに関連するメタデータを破棄するよう構成される。
【0041】
例示的な諸側面によれば、6DoFオーディオ・レンダリングを実行するとき、プロセッサは、前記ビットストリームの前記一つまたは複数の第1ビットストリーム部分における、3DoFオーディオ・レンダリングに関連するオーディオ信号データと、前記ビットストリームの前記一つまたは複数の第2ビットストリーム部分における、6DoFオーディオ・レンダリングに関連するメタデータとに基づいて、6DoFオーディオ・レンダリングを実行するように構成される。
【0042】
さらに別の例示的側面によれば、特にエンコーダにおいて、プロセッサによって実行されると、該プロセッサにオーディオ信号をビットストリームにエンコードする方法を実行させる命令を含む非一時的なコンピュータ・プログラム製品が提供されてもよい。前記方法は:3DoFオーディオ・レンダリングと関連するオーディオ信号データを前記ビットストリームの一つまたは複数の第1ビットストリーム部分にエンコードするまたは含めること;および/または6DoFオーディオ・レンダリングと関連するメタデータを前記ビットストリームの一つまたは複数の第2ビットストリーム部分にエンコードするまたは含めることを含む。この側面は、上記の例示的な諸側面の任意の一つまたは複数と組み合わされてもよい。
【0043】
さらに別の例示的側面によれば、特にデコーダまたはオーディオ・レンダラーにおいて、プロセッサによって実行されるとき、該プロセッサにデコードおよび/またはオーディオ・レンダリングのための方法を実行させる命令を含む非一時的なコンピュータ・プログラム製品を提供が提供されてもよい。前記方法は、ビットストリームの一つまたは複数の第1ビットストリーム部分において、3DoFオーディオ・レンダリングに関連するオーディオ信号データを含み、さらに、ビットストリームの一つまたは複数の第2ビットストリーム部分において、6DoFオーディオ・レンダリングに関連するメタデータを含むビットストリームを受領すること、および/または受領されたビットストリームに基づいて3DoFオーディオ・レンダリングおよび6DoFオーディオ・レンダリングのうちの少なくとも一方を実行することを含む。この側面は、上記の例示的な諸側面の任意の一つまたは複数と組み合わされてもよい。
【0044】
本開示のさらなる側面は、対応するコンピュータ・プログラムおよびコンピュータで読み取り可能な記憶媒体に関する。
【0045】
方法段階および装置の特徴は、多くの仕方で入れ換えられてもよいことが理解されるであろう。特に、開示される方法の詳細は、当業者が理解するように、方法の一部または全部または段階を実行するように適応された装置として実装されることができ、その逆も可能である。特に、方法に関してなされたそれぞれの記述は、対応する装置にも同様に当てはまり、その逆も成り立つことが理解される。
【図面の簡単な説明】
【0046】
本開示の例示的な実施形態は、添付の図面を参照して以下に説明される。同様の参照符号は、同様のまたは類似した要素を示しうる。
図1】本開示の例示的な諸側面による、MPEG-H 3Dオーディオ・デコーダ/エンコーダ・インターフェースを含む例示的なシステムを概略的に示す。
図2】部屋(6DoF空間)の6DoFシーンの例示的な平面図を概略的に示す。
図3】本開示の例示的な諸側面による、図2の6DoFシーンならびに3DoFオーディオ・データおよび6DoF拡張メタデータの例示的な平面図を概略的に示す。
図4】Aは、本開示の例示的な諸側面による、3DoF、6DoFおよびオーディオ・データを処理するための例示的システムを概略的に示す。Bは、本開示の例示的な諸側面による、6DoFオーディオ・レンダリングおよび3DoFオーディオ・レンダリングのための例示的なデコードおよびレンダリング方法を概略的に示す。
図5図2図4の一つまたは複数によるシステムにおける、3DoF位置における6DoFオーディオ・レンダリングおよび3DoFオーディオ・レンダリングのマッチング条件の例を概略的に示す。
図6】Aは、本開示の例示的な諸側面による例示的なデータ表現および/またはビットストリーム構造を概略的に示す。Bは、本開示の例示的な諸側面による、図6のAのデータ表現および/またはビットストリーム構造に基づく例示的な3DoFオーディオ・レンダリングを概略的に示す。Cは、本開示の例示的な諸側面による、図6のAのデータ表現および/またはビットストリーム構造に基づく例示的な6DoFオーディオ・レンダリングを概略的に示す。
図7A】本開示の例示的な諸側面による、3DoFオーディオ信号データに基づく6DoFオーディオ・エンコード変換Aを概略的に示す。
図7B】本開示の例示的な諸側面による、3DoFオーディオ信号データに基づく6DoFオーディオ信号データを近似/復元するための6DoFオーディオ・デコーダ変換A-1を概略的に示す。
図7C】本開示の例示的な諸側面による、図7Bの近似/復元された6DoFオーディオ信号データに基づく例示的な6DoFオーディオ・レンダリングを概略的に示す。
図8】本開示の例示的な諸側面による3DoF/6DoFビットストリーム・エンコードの方法の例示的なフローチャートを概略的に示す。
図9】本開示の例示的な諸側面による3DoFおよび/または6DoFオーディオ・レンダリングの方法の例示的なフローチャートを概略的に示す。
【発明を実施するための形態】
【0047】
以下では、添付の図面を参照して、好ましい例示的な諸側面をより詳細に説明する。異なる図面および実施形態における同じまたは同様の特徴は、同様の参照符号で参照されることがある。さまざまな好ましい例示的な側面に関する以下の詳細な説明は、本発明の範囲を限定することは意図されていないことを理解しておくべきである。
【0048】
本稿で使用するところでは、「MPEG-H 3D Audio」とは、ISO/IEC23008-3、および/またはISO/IEC23008-3規格のいずれかの過去および/または将来の修正、版、または他のバージョンで標準化された仕様をいう。
【0049】
本稿で使用するところでは、MPEG-I 3Dオーディオ実装は、好ましくは3DoFレンダリング後方互換性を提供しつつ、3DoF(および3DoF+)機能を6DoF 3Dオーディオに向けて拡張することを望まれる。
【0050】
本稿で使用されるところでは、3DoFは、典型的には、3つのパラメータ(たとえば、ヨー、ピッチ、ロール)で指定される、ユーザーの頭部の動き、特に頭部の回転を正しく扱うことができるシステムである。そのようなシステムは、しばしば、仮想現実(VR)/拡張現実(AR)/混合現実(MR)システム、または他のそのような型の音響環境のようなさまざまなゲーム・システムにおいて利用可能である。
【0051】
本稿で使用されるところでは、6DoFは、典型的には、3DoFおよび並進移動を正しく扱うことができるシステムである。
【0052】
本開示の例示的な諸側面は、オーディオ・システム(たとえば、MPEG-Iオーディオ規格と互換なオーディオ・システム)に関するものであり、ここで、オーディオ・レンダラーは、関連するメタデータを、MPEG規格(たとえば、MPEG-H 3DA規格)と互換なオーディオ・レンダラー入力フォーマットのような3DoFフォーマットに変換することによって、6DoFに向けて機能性を拡張する。
【0053】
図1は、6DoF体験を可能にするために、既存の3DoFシステムに加えて、メタデータ拡張および/またはオーディオ・レンダラー拡張を使用するように構成された例示的なシステム100を示す。システム100は、もとの環境101(これは例として、一つまたは複数のオーディオ源101aを含んでいてもよい)、コンテンツ・フォーマット102(たとえば、3Dオーディオ・データを含むビットストリーム)、エンコーダ103、および提案されるメタデータ・エンコーダ拡張106を含む。システム100はまた、3Dオーディオ・レンダラー105(たとえば、3DoFレンダラー)と、提案者レンダラー拡張107(たとえば、再現される環境108のための6DoFレンダラー拡張)とを含んでいてもよい。
【0054】
3DoFによる3Dオーディオ・レンダリングの方法では、所定の3DoF位置におけるユーザーの角度配向の角度(たとえば、ヨー角y、ピッチ角p、ロール角r)のみが3DoFオーディオ・レンダラー105に入力されうる。拡張6DoF機能により、ユーザーの位置座標(たとえば、x、yおよびz)が追加的に、6DoFオーディオ・レンダラー(拡張レンダラー)に入力されうる。
【0055】
本開示の利点は、エンコーダとデコーダとの間で伝送されるビットストリームについてのビットレート改善を含む。ビットストリームは、標準、たとえば、MPEG-I Audio標準および/またはMPEG-H 3D Audio標準に準拠してエンコードおよび/またはデコードされてもよく、あるいは少なくとも、MPEG-H 3D Audio標準のような標準と後方互換性があってもよい。
【0056】
いくつかの例において、本開示の例示的な諸側面は、複数のシステムと互換な単一のビットストリーム(たとえば、MPEG-H 3D Audio(3DA)ビットストリーム(BS)、またはMPEG-H 3DA BSのシンタックスを使用するビットストリーム)の処理に向けられる。
【0057】
たとえば、いくつかの例示的な側面において、オーディオ・ビットストリームは、2つ以上の異なるレンダラー、たとえば、ある標準(たとえば、MPEG-H 3D Audio標準)と互換であってもよい3DoFオーディオ・レンダラーと第2の異なる標準(たとえば、MPEG-I Audio標準)と互換であってもよい新たに定義された6DoFオーディオ・レンダラーまたはレンダラー拡張と互換性があってもよい。
【0058】
本開示の例示的な諸側面は、好ましくは同じオーディオ出力を生成するために、同じオーディオ・ビットストリームのデコードおよびレンダリングを実行するように構成された異なるデコーダに向けられる。
【0059】
たとえば、本開示の例示的な諸側面は、3DoFデコーダおよび/または3DoFレンダラーおよび/または同じビットストリーム(たとえば、3DA BSまたは3DA BSを使用するビットストリーム)について同じ出力を生成するように構成された6DoFデコーダおよび/または6DoFレンダラーに関する。例として、ビットストリームは、たとえば6DoFメタデータの一部として、VR/AR/MR(仮想現実/拡張現実/混合現実)空間における聴取者の定義された諸位置に関する情報を含んでいてもよい。
【0060】
本開示は、例として、さらに、6DoF情報をそれぞれエンコードおよび/またはデコードするように構成された(たとえば、MPEG-I Audio環境と互換性がある)エンコーダおよび/またはデコーダに関する。ここで、本開示のエンコーダおよび/またはデコーダは、以下の利点の一つまたは複数を提供する:
・VR/AR/MR関連のオーディオ・データの品質およびビットレート効率のよい表現、およびオーディオ・ビットストリーム・シンタックス(たとえばMPEG-H 3D Audio BS)へのそのカプセル化;
・さまざまなシステム間の後方互換性(たとえば、MPEG-H 3DA規格および構想されるMPEG-I Audio規格)。
【0061】
好ましくは3DoF解決策と6DoF解決策との間の競合を回避し、現在と将来の技術間のスムーズな移行を提供するために、後方互換性は非常に有益である。
【0062】
たとえば、3DoFオーディオ・システムと6DoFオーディオ・システムの間の後方互換性は非常に有益であり、たとえば、MPEG-I Audioのような6DoFオーディオ・システムにおいて、MPEG-H 3D Audioのような3DoFオーディオ・システムへの後方互換性を提供する。
【0063】
本開示の例示的な諸側面によれば、これは:
・3DoFオーディオ素材の符号化されたデータおよび関連したメタデータ;および
・6DoF関連メタデータ
からなる6DoF関連システムについて後方互換性を、たとえばビットストリーム・レベルで提供することによって実現できる。
【0064】
本開示の例示的な諸側面は、たとえば、第1の型のオーディオ・ビットストリーム(たとえば、MPEG-H 3DA BS)シンタックスのような、6DoFビットストリーム要素をカプセル化する標準的な3DoFビットストリーム・シンタックスに関する。かかる6DoFビットストリーム要素は、たとえば第1の型のオーディオ・ビットストリーム(たとえば、MPEG-H 3DA BS)の一つまたは複数の拡張コンテナ内の、MPEG-I Audioビットストリーム要素である。
【0065】
パフォーマンス・レベルで後方互換性を保証するシステムを提供するために、以下のシステムおよび/または構造が有意であってもよく、存在してもよい:
1a.3DoFシステム(たとえば、MPEG-H 3DAの標準と互換なシステム)は、6DoF関連のシンタックス要素をすべて無視することができなければならない(たとえば、MPEG-H 3D Audioビットストリーム・シンタックスの"mpegh3daExtElementConfig()"または"mpegh3daExtElement()"の機能性に基づくMPEG-I Audioビットストリーム・シンタックス要素を無視する)。すなわち、3DoFシステム(デコーダ/レンダラー)は、好ましくは、追加的な6DoF関連のデータおよび/またはメタデータを(たとえば、6DoF関連のデータおよび/またはメタデータを読み取らないことにより)無視するように構成されてもよい;
2a.ビットストリームペイロード(たとえば、MPEG-H 3DAビットストリーム・パーサーと互換性のあるデータおよび/またはメタデータを含むMPEG-I Audioビットストリームペイロード)の残りの部分は、所望のオーディオ出力を生成するために、3DoFシステム(たとえば、レガシーMPEG-H 3DAシステム)によってデコード可能でなければならない。すなわち、3DoFシステム(デコーダ/レンダラー)は、好ましくは、BSの3DoF部分をデコードするように構成されうる;
3a.6DoFシステム(たとえば、MPEG-I Audioシステム)は、オーディオ・ビットストリームの3DoF関連部分と6DoF関連部分の両方を処理し、VR/AR/MR空間におけるあらかじめ定義された後方互換な3DoF位置(単数または複数)において3DoFシステムの(たとえばMPEG-H 3DAシステムの)オーディオ出力に一致するオーディオ出力を生成することができなければならない。すなわち、6DoFシステム(デコーダ/レンダラー)は、好ましくは、3DoFレンダリングされた音場/オーディオ出力に一致する音場/オーディオ出力を、デフォルトの3DoF位置(単数または複数)においてレンダリングするように構成されてもよい;
4a.6DoFシステム(たとえば、MPEG-I Audioシステム)は、あらかじめ定義された後方互換な3DoF位置(単数または複数)のまわりのオーディオ出力のなめらかな変化(遷移)を提供する(すなわち、6DoF空間において連続的な音場を提供する)。すなわち、6DoFシステム(デコーダ/レンダラー)は、デフォルトの3DoF位置(単数または複数)の周囲において、デフォルトの3DoF位置(単数または複数)においてなめらかに遷移する音場/オーディオ出力を3DoFレンダリングされた音場/オーディオ出力にレンダリングするように構成されてもよい。
【0066】
いくつかの例では、本開示は、3DoFオーディオ・レンダラー(たとえば、MPEG-H 3D Audioレンダラー)と同じオーディオ出力を、1つ、それ以上、またはいくつかの3DoF位置において生成する6DoFオーディオ・レンダラー(たとえば、MPEG-Iオーディオ・レンダラー)を提供することに関する。
【0067】
現在のところ、3DoF関連のオーディオ信号とメタデータを6DoFオーディオ・システムに直接転送するときには、次のような欠点がある:
1.ビットレートの増加(すなわち、6DoF関連のオーディオ信号およびメタデータに加えて、3DoF関連のオーディオ信号およびメタデータが送信される);
2.限られた有効性(すなわち、3DoF関連のオーディオ信号(単数または複数)およびメタデータは、3DoF位置(単数または複数)についてのみ有効である)。
【0068】
本開示の例示的な諸側面は、上記の欠点を克服することに関する。
【0069】
いくつかの例において、本開示は次のことに向けられる:
1.3DoF互換のオーディオ信号(単数または複数)およびメタデータ(たとえば、MPEG-H 3D Audioに対して互換な信号およびメタデータ)を、もとのオーディオ源信号およびメタデータの代わりに(または、その補足的な追加として)使用する;および/または
2.高レベルの音場近似を維持しながら、3DoF位置(単数または複数)から6DoF空間(コンテンツ制作者によって定義される)へ適用範囲(6DoFレンダリングのための使用)を増大する。
【0070】
本開示の例示的な諸側面は、これらの目標を達成するために、および6DoFレンダリング機能を提供するために、そのような信号(単数または複数)を効率的に生成、エンコード、デコードおよびレンダリングすることに向けられる。
【0071】
図2は、例示的な部屋201の例示的な平面図202を示す。図2に示されるように、例示的な聴取者は、いくつかのオーディオ源および自明でない壁の幾何学的形状を有する部屋の中央に立っている。6DoF機器(たとえば、6DoF機能のための備えを提供するシステム)では、例示的な聴取者は動き回ることができるが、いくつかの例では、デフォルトの3DoF位置206は、(たとえば、コンテンツ制作者の設定または意図により)最良のVR/AR/MRオーディオ体験の意図された領域に対応しうると想定される。
【0072】
特に、図2は、壁203、6DoF空間204、例示的的な(任意的)指向性ベクトル205(たとえば、一つまたは複数の音源が方向的に音を発する場合)、3DoF聴取者位置206(デフォルトの3DoF位置206)、および図2に例示的に星形で示されるオーディオ源207を示す。
【0073】
図3は、たとえば図2のような例示的な6DoF VR/AR/MRシーン、ならびに3DoFオーディオ・ビットストリーム302(たとえばMPEG-H 3D Audioビットストリーム)に含まれるオーディオ・オブジェクト(オーディオ・データ+メタデータ)320と、拡張コンテナ303とを示す。オーディオ・ビットストリーム302および拡張コンテナ303は、MPEG標準(たとえば、MPEG-HまたはMPEG-I)と互換性のある装置またはシステムを介して(たとえば、ソフトウェア、ハードウェアまたはクラウドを介して)エンコードされてもよい。
【0074】
本開示の例示的な諸側面は、6DoFオーディオ・レンダラー(たとえば、MPEG-I Audioレンダラー)を使用するときに、3DoFオーディオ・レンダラー(たとえば、MPEG-H Audioレンダラー)出力信号に対応する仕方で、音場を「3DoF位置」に再現することに関する(これは物理法則による音の伝搬と整合していてもいなくてもよい)。この音場は、好ましくは、もとの「オーディオ源」に基づいており、対応するVR/AR/MR環境の複雑な幾何形状の影響(たとえば、「壁」、構造、音反射、残響、および/または隠蔽などの効果)を反映するべきである。
【0075】
本開示の例示的な諸側面は、上記の対応する要求(1a)~(4a)の1つ、複数、または好ましくはすべてを満たすことを確実にする仕方で、このシナリオを記述するすべての関連情報のエンコーダによるパラメータ化に関する。
【0076】
2つのオーディオ・レンダリング・モード(すなわち、3DoFおよび6DoF)が並列に実行され、6DoF空間における対応する出力に補間アルゴリズムが適用される場合、そのようなアプローチは、次のことを必要とするため、最適ではない:
・2つの相異なるレンダリング・アルゴリズム(すなわち、1つは特定の3DoF位置用、もう1つは6DoF空間用)の並列実行;
・大量のオーディオ・データ(3DoF Audioレンダラーのための追加的なオーディオ・データを転送するため)。
【0077】
本開示の例示的な諸側面は、好ましくは、(たとえば2つのオーディオ・レンダリング・モードの並列実行の代わりに)単一のオーディオ・レンダリング・モードのみが実行される、および/または、(たとえば3DoF Audioデータおよびもとの音源データを送信する代わりに)好ましくは3DoFオーディオ・データが、もとの音源(単数または複数)信号(単数または複数)を復元および/または近似するための追加的メタデータと一緒に、6DoFオーディオ・レンダリングのために使用されるという点において、上記の欠点を回避する。
【0078】
本開示の例示的な諸側面は、(1)好ましくは特定の位置(単数または複数)において3DoFオーディオ・レンダリング・アルゴリズム(たとえば、MPEG-H 3DAと互換)と正確に同じ出力を生成する単一の6DoFオーディオ・レンダリング・アルゴリズム(たとえば、MPEG-I Audioと互換)、および/または(2)6DoFオーディオ・ビットストリーム・データ(たとえば、MPEG-Iオーディオ・ビットストリーム・データ)の3DoF関連部分およびVR/AR/MR関連部分における冗長性を最小限にするよう、オーディオ(たとえば3DoFオーディオ・データ)および6DoF関連のオーディオ・メタデータを表現することに、関する。
【0079】
本開示の例示的な諸側面は、第1の標準化されたフォーマットのビットストリーム(たとえば、MPEG-H 3DA BS)シンタックスを使用して、第2の標準化されたフォーマットのビットストリーム(将来の規格、たとえばMPEG-I)またはその一部および6DoF関連メタデータをカプセル化して:
・好ましくは3DoF オーディオ・システムによってデコードされる際に、好ましくは(デフォルトの)3DoF位置(単数または複数)において所望の音場を十分によく近似する、オーディオ源信号およびメタデータを(たとえば、3DoFオーディオ・ビットストリーム・シンタックスのコア部分において)転送し;
・6DoFオーディオ・レンダリングのためのもとのオーディオ源信号を近似(復元)するために使用される、6DoF関連メタデータおよび/またはさらなるデータ(たとえばパラメトリックまたは/および信号データ)を(たとえば3DoFオーディオ・ビットストリーム・シンタックスの拡張部分において)転送する
ことに関する。
【0080】
本開示のある側面は、エンコーダ側での、所望される「3DoF位置」(単数または複数)および3DoFオーディオ・システム(たとえば、MPEG-H 3DAシステム)互換な信号の決定に関する。
【0081】
たとえば、図3に関連して示されるように、3DAについての仮想3DAオブジェクト信号は、特定の3DoF位置における同じ音場を(信号x3DAに基づいて)生成しうる。いくつかの3DoFシステム(たとえば、MPEG-H 3DAシステム)は、VR/AR/MR環境の効果(たとえば、隠蔽、残響等)を取り入れることができないので、該音場は、好ましくは特定の3DoF位置(単数または複数)についてのVR環境の効果を含む(「ウェットな」信号)べきである。図3に示される方法およびプロセスは、多様なシステムおよび/または製品を介して実行されうる。
【0082】
逆関数A-1は、いくつかの例示的な側面において、これらの信号を好ましくは「非ウェット化」するべきである(すなわち、VR環境の影響を除去する)。それは、もとの「ドライな」信号(VR環境の効果がない)を近似するために必要であるので、良好であるべきである。
【0083】
3DoFレンダリングのためのオーディオ信号((x3DA))は、好ましくは、3DoFおよび6DoF両方のオーディオ・レンダリングについて同じ/同様の出力を提供するために、たとえば下記に基づいて定義されることが好ましい:
【数1】
オーディオ・オブジェクトは、標準化されたビットストリームに含まれてもよい。このビットストリームは、MPEG-H 3DAおよび/またはMPEG-Iのような多様な標準に準拠してエンコードされうる。
【0084】
BSは、オブジェクト信号、オブジェクト方向、およびオブジェクト距離に関する情報を含んでいてもよい。
【0085】
図3は、たとえば、BS内に拡張メタデータを含みうる拡張コンテナ303をさらに例示的に示す。BSの拡張コンテナ303は、次のメタデータ:(i)3DoF(デフォルト)位置パラメータ;(ii)6DoF空間記述パラメータ(オブジェクト座標);(iii)(任意的)オブジェクト方向性パラメータ;(iv)(任意的)VR/AR/MR環境パラメータ;および/または(v)(任意的)距離減衰パラメータ、隠蔽パラメータ、および/または残響パラメータ等のうちの少なくとも1つを含んでいてもよい。
【0086】
下記に基づく、含まれる所望のオーディオ・レンダリングの近似があってもよい:
【数2】
近似は、VR環境に基づいていてもよく、環境特性は、拡張コンテナ・メタデータに含まれてもよい。
【0087】
追加的にまたは任意的に、6DoFオーディオ・レンダラー(たとえば、MPEG-Iオーディオ・レンダラー)出力についての平滑性が、好ましくは、下記に基づいて提供されてもよい:
【数3】
【0088】
本開示の例示的な諸側面は、エンコーダ側の3DoFオーディオ・オブジェクト(たとえば、MPEG-H 3DAオブジェクト)を、好ましくは下記に基づいて定義することに向けられる:
【数4】
【0089】
本開示のある側面は、下記に基づいてデコーダ上でもとのオブジェクトを回復することに関する:
【数5】
ここで、xは音源/オブジェクト信号に関し、x*は音源/オブジェクト信号の近似に関し、F(x) for 3DoF/for 6DoFは、3DoF/6DoF聴取者位置(単数または複数)についてのオーディオ・レンダリング機能に関するものであり、3DoFは所与の参照互換位置(単数または複数)∈6DoF空間に関するものであり;6DoFは任意の許容される位置(単数または複数)∈VRシーンに関するものである;
・F6DoF(x)は、デコーダで指定された6DoFオーディオ・レンダリング(たとえばMPEG-Iオーディオ・レンダリング)に関する;
・F3DoF(x3DA)は、デコーダで指定された3DoFレンダリング(たとえばMPEG-H 3DAレンダリング)に関する;
・A、A-1は信号xに基づいて信号x3DAを近似する関数(A)およびその逆(A-1)に関する。
【0090】
近似された音源/オブジェクト信号は、好ましくは、3DoFオーディオ・レンダラー出力信号に対応する仕方で、「3DoF位置」において、6DoFオーディオ・レンダラーを使用して再生成される。
【0091】
音源/オブジェクト信号は、好ましくは、もとの「オーディオ源」に基づき、対応するVR/AR/MR環境の複雑な幾何形状(たとえば、「壁」、構造、残響、隠蔽など)の影響を反映する音場に基づいて近似される。
【0092】
すなわち、3DAについての仮想3DAオブジェクト信号は、好ましくは、(信号x3DAに基づいて)特定の3DoF位置において、特定の3DoF位置(単数または複数)についてのVR環境の効果を含む同じ音場を生成する。
【0093】
レンダリング側では、下記が(たとえば、MPEG-HまたはMPEG-I規格などの規格に準拠したデコーダにとって)利用可能でありうる:
・3DoFオーディオ・レンダリングのためのオーディオ信号(単数または複数):x3DA
・3DoFまたは6DoFオーディオのどちらかのレンダリング機能:
F3DoF(x3DA)またはF6DoF(x) 式(6)
【0094】
6DoFオーディオ・レンダリングについては、追加的に、6DoFオーディオ・レンダリング機能のために(たとえば3DoFオーディオ信号および6DoFメタデータに基づいて、前記一つまたは複数のオーディオ源のオーディオ信号xを近似/復元するために)レンダリング側で利用可能な6DoFメタデータがあってもよい。
【0095】
本開示の例示的な諸側面は、(i)3DoFオーディオ・オブジェクト(たとえば、MPEG-H 3DAオブジェクト)の定義、および/または(ii)もとのオーディオ・オブジェクトの復元(近似)に関する。
【0096】
オーディオ・オブジェクトは、例として、3DoFオーディオ・ビットストリーム(たとえば、MPEG-H 3DA BS)に含まれてもよい。
【0097】
ビットストリームは、オブジェクト・オーディオ信号、オブジェクト方向、および/またはオブジェクト距離に関する情報を含んでいてもよい。
【0098】
(たとえば、MPEG-H 3DA BSのようなビットストリームの)拡張コンテナは、次のメタデータ:(i)3DoF(デフォルト)位置パラメータ;(ii)6DoF空間記述パラメータ(オブジェクト座標);(iii)(任意的)オブジェクト方向性パラメータ;(iv)(任意的)VR/AR/MR環境パラメータ;および/または(v)(任意的)距離減衰パラメータ、隠蔽パラメータ、残響パラメータ等のうちの少なくとも1つを含んでいてもよい。
【0099】
本開示は、以下の利点を提供しうる:
・3DoFオーディオ・デコードおよびレンダリング(たとえばMPEG-H 3DAデコードおよびレンダリング)に対する後方互換性:6DoFオーディオ・レンダラー(たとえばMPEG-Iオーディオ・レンダラー)出力は、所定の3DoF位置(単数または複数)については、3DoFレンダリング・エンジン(たとえばMPEG-H 3DAレンダリング・エンジンなど)の3DoFレンダリング出力に対応する。
符号化効率:このアプローチについては、レガシー3DoFオーディオ・ビットストリーム・シンタックス(たとえば、MPEG-H 3DAビットストリーム・シンタックス)構造が効率的に再利用できる。
・所定の(3DoF)位置(単数または複数)でのオーディオ品質制御:最良の知覚的オーディオ品質が、任意の位置(単数または複数)および対応する6DoF空間について、エンコーダによって明示的に保証されることができる。
【0100】
本開示の例示的な諸側面は、MPEG標準(たとえば、MPEG-I標準)ビットストリームと互換性のあるフォーマットでの下記の信号伝達に関連しうる:
・拡張コンテナ機構(たとえばMPEG-H 3DA BS)を介した暗黙的な3DoFオーディオ・システム(たとえばMPEG-H 3DA)互換性信号伝達。これにより、6DoFオーディオ(たとえばMPEG-I Audio互換)処理アルゴリズムがもとのオーディオ・オブジェクト信号を復元できるようになる。
・もとのオーディオ・オブジェクト信号の近似のためのデータを記述するパラメータ化。
【0101】
6DoFオーディオ・レンダラーは、たとえばMPEG互換システム(たとえばMPEG-Iオーディオ・システム)において、もとのオーディオ・オブジェクト信号をいかにして復元するかを指定しうる。
【0102】
この提案されるコンセプトは:
・近似関数(すなわちA(x))の定義に関して一般的である;
・任意に複雑であってもよいが、デコーダ側において、対応する近似が存在するべきである(すなわち∃A-1);
・近似的に、数学的に「よく定義されている」(well-defined)(たとえばアルゴリズム的に安定であるなど);
・近似関数(すなわちA(x))の型に関して一般的である;
・近似関数は、下記の近似型またはこれらのアプローチ(ビットレート消費の昇順に挙げる)の任意の組み合わせに基づいてもよい:
-信号x3DAについて適用されるパラメータ化されたオーディオ効果(たとえば、パラメトリックに制御されるレベル、残響、反射、隠蔽など)
-パラメトリックに符号化された修正(たとえば、送信された信号x3DAについての時間/周波数変異修正利得(time/frequency variant modification gains))
-信号符号化修正(たとえば、残差波形(x-x3DA)を近似する符号化された信号)
・一般的な音場および音源表現(およびそれらの組み合わせ):オブジェクト、チャネル、FOA、HOAに拡張可能および適用可能である。
【0103】
図6のAは、本開示の例示的な諸側面による例示的なデータ表現および/またはビットストリーム構造を概略的に示す。データ表現および/またはビットストリーム構造は、MPEG規格(たとえば、MPEG-HまたはMPEG-I)と互換性のある装置またはシステム(たとえば、ソフトウェア、ハードウェアまたはクラウド)を介してエンコードされていてもよい。
【0104】
ビットストリームBSは、例として、(たとえば、ビットストリームの主要部分またはコア部分において)3DoFエンコードされたオーディオ・データを含む第1ビットストリーム部分302を含む。好ましくは、ビットストリームBSのビットストリーム・シンタックスは、たとえばMPEG-H 3DAビットストリーム・シンタックスのような、3DoFオーディオ・レンダリングのBSシンタックスと互換である、またはそれに準拠する。3DoFエンコードされたオーディオ・データは、ビットストリームBSの一つまたは複数のパケットにおいてペイロードとして含まれてもよい。
【0105】
たとえば上述の図3に関連して先に述べたように、3DoFエンコードされたオーディオ・データは、(たとえば、デフォルトの3DoF位置のまわりの球上の)一つまたは複数のオーディオ・オブジェクトのオーディオ・オブジェクト信号を含んでいてもよい。方向性オーディオ・オブジェクトについては、3DoFエンコードされたオーディオ・データは、さらに、任意的に、オブジェクト方向を含んでいてもよく、および/または任意的にさらに、オブジェクト距離を(たとえば、利得および/または一つまたは複数の減衰パラメータの使用により)示してもよい。
【0106】
例として、BSは、例示的に、6DoFオーディオ・エンコードのための6DoFメタデータを(たとえば、ビットストリームのメタデータ部分または拡張部分において)含む第2ビットストリーム部分303を含む。好ましくは、ビットストリームBSのビットストリーム・シンタックスは、たとえばMPEG-H 3DAビットストリーム・シンタックスのような、3DoFオーディオ・レンダリングのBSシンタックスと互換である、またはそれに準拠する。6DoFメタデータは、ビットストリームBSの一つまたは複数のパケットにおける拡張メタデータとして(たとえば、MPEG-H 3DAビットストリーム構造によってすでに提供されている一つまたは複数の拡張コンテナにおいて)含まれていてもよい。
【0107】
たとえば図3に関連して上記したように、6DoFメタデータは、一つまたは複数の3DoF(デフォルト)位置の位置データ(たとえば、座標)、さらに任意的に6DoF空間記述(たとえば、オブジェクト座標)、さらに任意的にオブジェクト方向性、さらに任意的にVR環境を記述および/またはパラメータ化するメタデータを含んでいてもよく、および/または、さらに任意的に、減衰、隠蔽、および/または残響などに関するパラメータ情報および/またはパラメータを含んでいてもよい。
【0108】
図6のBは、本開示の例示的な諸側面による、図6のAのデータ表現および/またはビットストリーム構造に基づく例示的な3DoFオーディオ・レンダリングを概略的に示す。図6のAにおけるように、データ表現および/またはビットストリーム構造は、MPEG標準(たとえば、MPEG-HまたはMPEG-I)と互換性のある装置またはシステム(たとえば、ソフトウェア、ハードウェアまたはクラウド)を介してエンコードされていてもよい。
【0109】
具体的には、図6のBにおいては、3DoFオーディオ・レンダリングが、6DoFメタデータを破棄して、第1ビットストリーム部分302から得られた3DoFエンコードされたオーディオ・データのみに基づいて3DoFオーディオ・レンダリングを実行しうる3DoFオーディオ・レンダラーによって達成されうることが例示的に示されている。すなわち、たとえばMPEG-H 3DA後方互換性の場合、MPEG-H 3DAレンダラーは、第1ビットストリーム部分302から得られた3DoFエンコードされたオーディオ・データのみに基づいて効率的な通常のMPEG-H 3DA 3DoF(または3DoF+)オーディオ・レンダリングを実行するよう、ビットストリームの拡張部分(たとえば、拡張コンテナ(単数または複数))内の6DoFメタデータを効率的かつ確実に無視/破棄することができる。
【0110】
図6のCは、本開示の例示的な諸側面による、図6のAのデータ表現および/またはビットストリーム構造に基づく例示的な6DoFオーディオ・レンダリングを概略的に示す。図6のAにおけるように、データ表現および/またはビットストリーム構造は、MPEG標準(たとえば、MPEG-HまたはMPEG-I)と互換性のある装置またはシステム(たとえば、ソフトウェア、ハードウェアまたはクラウド)を介してエンコードされていてもよい。
【0111】
具体的には、図6のCにおいては、6DoFオーディオ・レンダリングが、第1ビットストリーム部分302から得られた3DoFエンコードされたオーディオ・データを、第2ビットストリーム部分303から得られた6DoFメタデータと一緒に使用して、第1ビットストリーム部分302から得られた3DoFエンコードされたオーディオ・データと第2ビットストリーム部分303から得られた6DoFメタデータとに基づいて6DoFオーディオ・レンダリングを実行する新規の6DoFオーディオ・レンダラー(たとえば、MPEG-Iまたはその後の標準に従う)によって達成されうることが例示的に示されている。
【0112】
よってビットストリームにおける冗長性なしに、または少なくとも冗長性を減らして、同じビットストリームが、3DoFオーディオ・レンダリングのための、単純で有益な後方互換性を許容するレガシー3DoFオーディオ・レンダラーと、6DoFオーディオ・レンダリングのための新規な6DoFオーディオ・レンダラーとによって使用されることができる。
【0113】
図7Aは、本開示の例示的な諸側面による、3DoFオーディオ信号データに基づく6DoFオーディオ・エンコード変換Aを概略的に示す。変換(および任意の逆変換)は、MPEG規格(たとえば、MPEG-HまたはMPEG-I)と互換性のある方法、プロセス、装置またはシステム(たとえば、ソフトウェア、ハードウェアまたはクラウド)に従って実行されうる。
【0114】
例示的に、上記の図2および図3と同様に、図7Aは、例示的に複数のオーディオ源207(これは壁203の背後に位置されてもよく、またはその音信号が他の構造によって妨害されてもよく、そのため減衰、残響および/または隠蔽効果が生じうる)を含む部屋の例示的な上面図202を示す。
【0115】
3DoFオーディオ・レンダリングの目的のために、複数のオーディオ源207のオーディオ信号xは、デフォルトの3DoF位置206(たとえば3DoF音場における聴取者位置)のまわりの球S上の3DoFオーディオ信号(オーディオ・オブジェクト)を得るように変換される。上述のように、3DoFオーディオ信号は、x3DAと称され、
X3DA=A(x) 式(6)
のように変換関数Aを使用して得られてもよい。
【0116】
上式において、xは音源(単数または複数)/オブジェクト信号(単数または複数)を表わし、x3DAはデフォルトの3DoF位置206で同じ音場を生成する3DAについての対応する仮想3DAオブジェクト信号を表わし、Aはオーディオ信号xに基づいてオーディオ信号x3DAを近似する変換関数を表わす。逆変換関数A-1が、6DoFオーディオ・レンダリングのために音源信号を復元/近似するために使用されてもよい。これについては上記で論じてあり、下記でさらに論じられる。AA-1=1かつA-1A=1、または少なくとも
【数6】
であることを注意しておく。
【0117】
一般的な仕方では、変換関数Aは、本開示のいくつかの例示的な側面において、オーディオ信号xを、デフォルトの3DoF位置206のまわりの球S上に投影する、または少なくともマッピングするマッピング/投影関数とみなされてもよい。
【0118】
さらに、3DoFオーディオ・レンダリングは、VR環境(減衰、残響、隠蔽効果等につながりうる既存の壁203等または他の構造など)を認識しないことを注意しておく。よって、変換関数Aは、好ましくは、そのようなVR環境特性に基づく効果を含んでいてもよい。
【0119】
図7Bは、本開示の例示的な諸側面による、3DoFオーディオ信号データに基づく6DoFオーディオ信号データを近似/復元するための6DoFオーディオ・デコード変換A-1を概略的に示す。
【0120】
逆変換関数A-1および上記の図7Aにおけるようにして得られた近似された3DoFオーディオ信号x3DAを使用することによって、もとのオーディオ源207のもとのオーディオ信号x*が次のように復元/近似されることができる:
x*=A-1(x3DA) 式(7)
よって、図7Bにおけるオーディオ・オブジェクト320のオーディオ信号x*は、もとの源207のオーディオ信号xと同様または同じに、特にもとの源207と同じ位置で、復元されることができる。
【0121】
図7Cは、本開示の例示的な諸側面による、図7Bの近似/復元された6DoFオーディオ信号データに基づく例示的な6DoFオーディオ・レンダリングを概略的に示す。
【0122】
図7Bにおけるオーディオ・オブジェクト320のオーディオ信号x*は、6DoFオーディオ・レンダリングにおいて使用されることができ、このレンダリングでは、聴取者の位置も可変となる。
【0123】
聴取者の聴取者位置が位置206(デフォルトの3DoF位置と同じ位置)であると仮定すると、6DoFオーディオ・レンダリングは、オーディオ信号x3DAに基づいて3DoFオーディオ・レンダリングと同じ音場をレンダリングする。
よって、想定される聴取者位置であるデフォルトの3DoF位置での6DoFレンダリングF6DoF(x*)は、3DoFレンダリングF3DoF(x3DA)と等しい(または少なくとも近似的に等しい)。
さらに、聴取者位置が、たとえば図7Cの位置206'にシフトされると、6DoFオーディオ・レンダリングにおいて生成される音場は異なるものになるが、好ましくはなめらかに生起してもよい。
【0124】
別の例として、第3の聴取者位置206"が想定されてもよく、6DoFオーディオ・レンダリングにおいて生成された音場は、特に左上のオーディオ信号について異なるものとなり、これは、第3の聴取者位置206"にとっては壁203によって妨げられない。好ましくは、逆関数A-1がもとの音源(VR環境特性のような環境効果なし)を復元するので、これが可能となる。
【0125】
図8は、本開示の例示的な諸側面による、3DoF/6DoFビットストリーム・エンコードの方法の例示的なフローチャートを概略的に示す。段階の順序は限定するものではなく、状況に応じて変更されてもよいことを注意しておくべきである。また、この方法のいくつかの段階は任意的であることに注意しておくべきである。この方法は、たとえば、デコーダ、オーディオ・デコーダ、オーディオ/ビデオ・デコーダまたはデコーダ・システムによって実行されてもよい。
【0126】
段階S801では、方法は(たとえば、デコーダ側で)、一つまたは複数のオーディオ源のもとのオーディオ信号xを受領する。
【0127】
段階S802では、本方法は(任意的に)、環境特性(部屋の形状、壁、壁の音反射特性、オブジェクト、障害物など)を決定し、および/またはパラメータ(減衰、利得、隠蔽、残響などのパラメータ化する効果)を決定する。
【0128】
段階S803では、この方法は(任意的に)、たとえば段階S802の結果に基づいて、変換関数Aのパラメータ化を決定する。好ましくは、段階S803は、パラメータ化された、またはあらかじめ設定された変換関数Aを提供する。
【0129】
段階S804では、この方法は、変換関数Aに基づいて、一つまたは複数のオーディオ源のもとのオーディオ信号(単数または複数)xを、対応する一つまたは複数の近似される3DoFオーディオ信号(単数または複数)x3DAに変換する。
【0130】
段階S805では、この方法は、6DoFメタデータを決定する(該メタデータは、一つまたは複数の3DoF位置、VR環境情報、および/または減衰、利得、隠蔽、残響などのような環境効果のパラメータおよびパラメータ化を含みうる)。
【0131】
段階S806では、この方法は、3DoFオーディオ信号x3DAを第1ビットストリーム部分(または複数の第1ビットストリーム部分)に含める(埋め込む)。
【0132】
段階S807では、この方法は、6DoFメタデータを第2ビットストリーム部分(または複数の第2ビットストリーム部分)に含める(埋め込む)。
【0133】
次いで、段階S808では、この方法は、第1ビットストリーム部分および第2ビットストリーム部分に基づいてビットストリームをエンコードし、第1ビットストリーム部分(または複数の第1ビットストリーム部分)における3DoFオーディオ信号x3DAおよび第2ビットストリーム部分(または複数の第2ビットストリーム部分)における6DoFメタデータを含む、エンコードされたビットストリームを提供することに続く。
【0134】
エンコードされたビットストリームは、その後、第1ビットストリーム部分(または複数の第1ビットストリーム部分)における3DoFオーディオ信号x3DAのみに基づく3DoFオーディオ・レンダリングのために3DoFデコーダ/レンダラーに提供される、または第1ビットストリーム部分(または複数の第1ビットストリーム部分)における3DoFオーディオ信号x3DAおよび第2ビットストリーム部分(または複数の第2ビットストリーム部分)における6DoFメタデータに基づく6DoFオーディオ・レンダリングのために6DoFデコーダ/レンダラーに提供されることができる。
【0135】
図9は、本開示の例示的な諸側面による3DoFおよび/または6DoFオーディオ・レンダリングの方法の例示的なフローチャートを概略的に示す。段階の順序は限定するものではなく、状況に応じて変更されてもよいことを注意しておくべきである。また、方法のいくつかの段階は任意的であることを注意しておくべきである。この方法は、たとえば、エンコーダ、レンダラー、オーディオ・エンコーダ、オーディオ・レンダラー、オーディオ/ビデオ・エンコーダ、またはエンコーダ・システムまたはレンダラー・システムによって実行されてもよい。
【0136】
段階S901では、第1ビットストリーム部分(または複数の第1ビットストリーム部分)における3DoFオーディオ信号x3DAと、第2ビットストリーム部分(または複数の第2ビットストリーム部分)における6DoFメタデータとを含む、エンコードされたビットストリームが受領される。
【0137】
段階S902では、3DoFオーディオ信号x3DAが、第1ビットストリーム部分(または複数の第1ビットストリーム部分)から取得される。これは、3DoFデコーダ/レンダラーによって、また6DoFデコーダ/レンダラーによっても行なうことができる。
【0138】
デコーダ/レンダラーが3DoFオーディオ・レンダリング目的のためのレガシー装置(または3DoFオーディオ・レンダリング・モードに切り換えられた新しい3DoF/6DoFデコーダ/レンダラー)である場合、この方法は段階S903に進み、6DoFメタデータが破棄/無視され、次いで第1ビットストリーム部分(または複数の第1ビットストリーム部分)から得られる3DoFオーディオ信号x3DAに基づいて3DoFオーディオをレンダリングする3DoFオーディオ・レンダリング動作に進む。
すなわち、後方互換性が有利に保証される。
【0139】
他方、デコーダ/レンダラーが6DoFオーディオ・レンダリング目的のもの(たとえば、新しい6DoFデコーダ/レンダラーまたは6DoFオーディオ・レンダリング・モードに切り換えられた3DoF/6DoFデコーダ/レンダラー)である場合、この方法は段階S905に進み、第2ビットストリーム部分から6DoFメタデータを得る。
【0140】
段階S906では、この方法は、第2ビットストリーム部分(または複数の第2ビットストリーム部分)から得られた6DoFメタデータおよび逆変換関数A-1に基づいて、第1ビットストリーム部分(または複数の第1ビットストリーム部分)から得られた3DoFオーディオ信号x3DAから、オーディオ・オブジェクト/源のオーディオ信号x*を近似/復元する。
【0141】
次いで、段階S907において、この方法は、オーディオ・オブジェクト/源の近似/復元されたオーディオ信号x*に基づいて、かつ聴取者位置(これはVR環境内で可変であってもよい)に基づいて、6DoFオーディオ・レンダリングを実行することに進む。
【0142】
上記の例示的な諸側面において、3Dオーディオ・エンコードおよび/または3Dオーディオ・レンダリングのための効率的で信頼性のある方法、装置およびデータ表現および/またはビットストリーム構造が提供されることができ、それにより、たとえばMPEG-H 3DA標準に従った、3DoFオーディオ・レンダリングのための後方互換性を有益に備えた、効率的な6DoFオーディオ・エンコードおよび/またはレンダリングができるようになる。具体的には、3DoFオーディオ・エンコードおよび/または3Dオーディオ・レンダリングのためのデータ表現および/またはビットストリーム構造を提供することが可能であり、これにより、たとえばMPEG-H 3DA標準に従った、3DoFオーディオ・レンダリングのための後方互換性を好ましくは備えた、効率的な6DoFオーディオ・エンコードおよび/またはレンダリングができるようになる。また、たとえばMPEG-H 3DA標準に従った、3DoFオーディオ・レンダリングのための後方互換性を備えた、効率的な6DoFオーディオ・エンコードおよび/またはレンダリングのための対応するエンコードおよび/またはレンダリング装置が提供される。
【0143】
本明細書に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されうる。ある種のコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサ上で動作するソフトウェアとして実装されてもよい。他のコンポーネントは、ハードウェアとして、および/または特定用途向け集積回路として実装されてもよい。上述の方法およびシステムで出てくる信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。それらは、無線ネットワーク、衛星ネットワーク、ワイヤレス・ネットワーク、または有線ネットワーク、たとえばインターネットといったネットワークを介して転送されてもよい。本明細書に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使用される可搬な電子装置または他の消費者装置である。
【0144】
本開示による方法および装置の例示的実装は、以下の箇条書き実施例(enumerated example embodiment、EEE)から明白となるであろうが、これらは特許請求の範囲ではない。
【0145】
EEE1は、例示的に、オーディオ源信号を含むオーディオ、3DoF関連データ、および6DoF関連データをエンコードするための方法であって:たとえば特にエンコーダ内のようなオーディオ源装置によって、3DoF位置(単数または複数)における所望される音場を近似するオーディオ源信号をエンコードして、3DoFデータを決定すること;および/またはたとえば特にエンコーダ内のようなオーディオ源装置によって、6DoF関連データをエンコードして6DoFメタデータを決定することを含み、該メタデータは、6DoFレンダリングのためにもとのオーディオ源信号を近似するために使用されうる、方法に関する。
【0146】
EEE2は、例示的に、EEE1の方法に関し、前記3DoFデータは、オブジェクト・オーディオ信号、オブジェクト方向、およびオブジェクト距離のうちの少なくとも1つに関する。
【0147】
EEE3は、例示的に、EEE1またはEEE2の方法に関し、前記6DoFデータは、3DoF(デフォルト)位置パラメータ、6DoF空間記述(オブジェクト座標)パラメータ、オブジェクト方向性パラメータ、VR環境パラメータ、距離減衰パラメータ、隠蔽パラメータ、および残響パラメータのうちの少なくとも1つに関する。
【0148】
EEE4は、例示的に、データ、特に3DoFおよび6DoFレンダリング可能なオーディオ・データを転送するための方法に関し、この方法は:たとえばオーディオ・ビットストリーム・シンタックスにおいて、たとえば3DoFオーディオ・システムによってデコードされたときに、3DoF位置(単数または複数)において所望される音場を好ましくは近似しうるオーディオ源信号を転送すること;および/または、たとえばオーディオ・ビットストリーム・シンタックスの拡張部分において、6DoFレンダリングのためにもとのオーディオ源信号を近似および/または復元するための6DoF関連メタデータを転送すること、を含み、ここで、6DoF関連メタデータは、パラメトリック・データおよび/または信号データであってもよい。
【0149】
EEE5は、例示的に、EEE4の方法に関し、たとえば3DoFメタデータおよび/または6DoFメタデータを含むオーディオ・ビットストリーム・シンタックスは、MPEG-H Audio規格の少なくともあるバージョンに準拠する。
【0150】
EEE6は、例示的に、ビットストリームを生成するための方法に関し、この方法は:3DoF位置(単数または複数)において所望される音場を近似するオーディオ源信号に基づく3DoFメタデータを決定する段階;6DoF関連メタデータを決定する段階であって、前記メタデータは、6DoFレンダリングのためにもとのオーディオ源信号を近似するために使用されてもよい、段階;および/または、前記オーディオ源信号および前記6DoF関連メタデータをビットストリームに挿入する段階とを含む、方法に関する。
【0151】
EEE7は、例示的に、オーディオ・レンダリングの方法に関する。前記方法は:
3DoF位置(単数または複数)におけるもとのオーディオ信号の近似オーディオ信号の6DoFメタデータを前処理する段階を含み、6DoFレンダリングは、3DoF位置(単数または複数)において所望される音場を近似する3DoFレンダリングのために、転送されたオーディオ源信号の3DoFレンダリングと同じ出力を提供しうる。
【0152】
EEE8は、例示的に、EEE7の方法に関し、オーディオ・レンダリングは:
【数7】
に基づいて決定され、ここで、F6DoF(x*)は、6DoF聴取者位置(単数または複数)のためのオーディオ・レンダリング機能に関し、F3DoF(x3DA)は、3DoF聴取者位置(単数または複数)のためのオーディオ・レンダリング機能に関し、x3DAは特定の3DoF位置(単数または複数)についてのVR環境の効果を含むオーディオ信号であり、x*は近似されたオーディオ信号に関する。
【0153】
EEE9は、例示的に、EEE8の方法に関し、もとのオーディオ信号の近似オーディオ信号は:
X*:=A-1(x3DA)
に基づき、A-1は近似関数Aの逆関数に関する。
【0154】
EEE10は、例示的に、EEE8またはEEE9の方法に関し、近似方法を使用してもとのオーディオ源信号の近似オーディオ信号を得るために使用されるメタデータは、
【数8】
に基づいて定義され、ここで、メタデータの量は、もとオーディオ源信号を転送するのに必要とされるオーディオ・データの量よりも小さく、
前記オーディオ・レンダリングは:
【数9】
に基づいて決定され、ここで、F6DoF(x*)は、6DoF聴取者位置(単数または複数)のためのオーディオ・レンダリング機能に関し、F3DoF(x3DA)は、3DoF聴取者位置(単数または複数)のためのオーディオ・レンダリング機能に関し、x3DAは特定の3DoF位置(単数または複数)についてのVR環境の効果を含むオーディオ信号であり、x*は近似されたオーディオ信号に関する。
【0155】
本開示の例示的側面および実施形態は、ハードウェア、ファームウェア、またはソフトウェア、またはその両方の組み合わせにおいて(たとえば、プログラマブル論理アレイとして)で実装されうる。特に断わりのない限り、本開示の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していることはない。特に、さまざまな汎用マシンが、本明細書の教示に従って書かれたプログラムとともに使用されてもよく、あるいは、要求される方法段階を実行するために、より特化した装置(たとえば、集積回路)を構築することがより便利でありうる。このように、本開示は、少なくとも1つのプロセッサと、少なくとも1つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶要素を含む)と、少なくとも1つの入力装置またはポートと、少なくとも1つの出力装置またはポートとをそれぞれ含む、一つまたは複数のプログラマブルなコンピュータ・システム上で実行される一つまたは複数のコンピュータ・プログラム(たとえば、図の要素のいずれかの実装)において実装されてもよい。プログラム・コードは、本明細書に記載される機能を実行し、出力情報を生成するために入力データに適用される。出力情報は、公知の仕方で一つまたは複数の出力装置に適用される。
【0156】
そのような各プログラムは、コンピュータ・システムと通信するために、任意の所望のコンピュータ言語(機械、アセンブリ、またはハイレベルの手続き的、論理的、またはオブジェクト指向のプログラミング言語を含む)で実装されうる。いずれの場合においても、言語は、コンパイルされる言語またはインタープリットされる言語でありうる。
【0157】
たとえば、コンピュータ・ソフトウェア命令シーケンスによって実装されるとき、本開示の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアで実行されるマルチスレッド・ソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能は、ソフトウェア命令の諸部分に対応しうる。
【0158】
そのような各コンピュータ・プログラムは、好ましくは、本明細書に記載される手順を実行するためにコンピュータ・システムによって記憶媒体またはデバイスが読まれるときに、コンピュータを構成し、動作させるために、汎用または特殊目的のプログラム可能なコンピュータによって読み出し可能な記憶媒体またはデバイス(たとえば、固体メモリまたは媒体、または磁気または光学媒体)に記憶されるまたはダウンロードされる。本発明のシステムは、コンピュータ・プログラムを構成された(すなわち、記憶している)コンピュータ読取可能な記憶媒体として実装されてもよく、そのように構成された記憶媒体は、コンピュータ・システムを、本明細書に記載の機能を実行するために、特定のあらかじめ定義された仕方で動作させる。
【0159】
本開示のいくつかの例示的な側面および例示的実施形態を上述した。それにもかかわらず、本開示の本発明の精神および範囲から逸脱することなく、さまざまな修正がなされてもよいことが理解されるであろう。本発明の多くの修正および変形が、上記の教示に照らして可能である。付属の請求項の範囲内で、本開示の発明が、本明細書に具体的に記載されている以外の仕方で実施されてもよいことを理解しておくべきである。
図1
図2
図3
図4
図5
図6
図7A
図7B
図7C
図8
図9
【外国語明細書】