(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-15
(54)【発明の名称】オーディオ・オブジェクトのクラスタリング
(51)【国際特許分類】
H04S 7/00 20060101AFI20240207BHJP
【FI】
H04S7/00 300
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023549829
(86)(22)【出願日】2022-02-15
(85)【翻訳文提出日】2023-08-17
(86)【国際出願番号】 US2022016388
(87)【国際公開番号】W WO2022177871
(87)【国際公開日】2022-08-25
(31)【優先権主張番号】PCT/CN2021/077110
(32)【優先日】2021-02-20
(33)【優先権主張国・地域又は機関】CN
(32)【優先日】2021-03-24
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-06-02
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-06-08
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ヤーン,ズーユイ
(72)【発明者】
【氏名】ルゥ,リエ
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA10
5D162AA11
5D162CD07
5D162CD13
5D162EG02
(57)【要約】
オーディオ・オブジェクトをクラスタリングする方法は、複数のオーディオ・オブジェクトを識別することに関わってもよく、複数のオーディオ・オブジェクトの各オーディオ・オブジェクトは、それぞれの空間位置情報およびそれぞれのレンダリング・メタデータを示すそれぞれのメタデータに関連付けられる。方法は、複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトをレンダリング・メタデータの複数のカテゴリーのうちのレンダリング・メタデータのカテゴリーに割り当てることに関わっていてもよく、レンダリング・メタデータの少なくとも1つのカテゴリーは、保存されるべきレンダリング・メタデータの複数のタイプを含む。方法は、レンダリング・メタデータの各カテゴリーへの複数のオーディオ・オブジェクト・クラスターの割り振りを決定することに関わっていてもよい。方法は、空間位置情報を示すメタデータに基づいて、およびレンダリング・メタデータのカテゴリーへのオーディオ・オブジェクトの割り当てに基づいて、前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを、割り振られた複数のオーディオ・オブジェクト・クラスターにレンダリングすることに関わっていてもよい。
【特許請求の範囲】
【請求項1】
オーディオ・オブジェクトをクラスタリングする方法であって:
複数のオーディオ・オブジェクトを識別する段階であって、複数のオーディオ・オブジェクトのオーディオ・オブジェクトは、それぞれの空間位置情報およびそれぞれのレンダリング・メタデータを示すそれぞれのメタデータに関連付けられる、段階と;
前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトをレンダリング・メタデータの複数のカテゴリーのうちのレンダリング・メタデータのカテゴリーに割り当てる段階であって、レンダリング・メタデータの少なくとも1つのカテゴリーは、保存されるべきレンダリング・メタデータの複数のタイプを含む、段階と;
レンダリング・メタデータの各カテゴリーへの複数のオーディオ・オブジェクト・クラスターの割り振りを決定する段階であって、オーディオ・オブジェクト・クラスターは、同様の属性を有する前記複数のオーディオ・オブジェクトのうちの一つまたは複数のオーディオ・オブジェクトを含む、段階と;
空間位置情報を示すメタデータに基づいて、およびレンダリング・メタデータのカテゴリーへの前記オーディオ・オブジェクトの前記割り当てに基づいて、前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを、割り振られた複数のオーディオ・オブジェクト・クラスターにレンダリングする段階とを含む、
方法。
【請求項2】
レンダリング・メタデータの前記カテゴリーは、バイパス・モード・カテゴリーおよび仮想化カテゴリーを含む、請求項1に記載の方法。
【請求項3】
前記仮想化カテゴリーに含まれる前記複数のタイプのレンダリング・メタデータは仮想化の複数のタイプを含み、各タイプは、頭部中心から前記オーディオ・オブジェクトまでの距離を表す、請求項2に記載の方法。
【請求項4】
レンダリング・メタデータの前記カテゴリーは、ゾーン・カテゴリーまたはスナップ・カテゴリーのうちの1つを含む、請求項1に記載の方法。
【請求項5】
レンダリング・メタデータの第1のカテゴリーに割り当てられたオーディオ・オブジェクトは、レンダリング・メタデータの第2のカテゴリーに割り振られた前記複数のオーディオ・オブジェクト・クラスターのうちのオーディオ・オブジェクト・クラスターに割り当てられることを禁止される、請求項1ないし4のうちいずれか一項に記載の方法。
【請求項6】
前記割り振られた複数のオーディオ・オブジェクト・クラスターの各オーディオ・オブジェクト・クラスターに関連付けられた空間情報および利得情報を含むオーディオ信号を送信する段階をさらに含み、前記オーディオ信号は、レンダリング・メタデータの前記第1のカテゴリーに割り当てられたあるオーディオ・オブジェクトがレンダリング・メタデータの前記第2のカテゴリーに関連付けられたオーディオ・オブジェクト・クラスターに割り当てられる諸オーディオ・オブジェクト・クラスターに関連付けられた空間情報および利得情報を含むオーディオ信号よりも少ない空間歪みを有する、請求項1ないし5のうちいずれか一項に記載の方法。
【請求項7】
レンダリング・メタデータの各カテゴリーへの前記複数のオーディオ・オブジェクト・クラスターの前記割り振りを決定することは:
(i)レンダリング・メタデータの各カテゴリーへの初期の複数のオーディオ・オブジェクト・クラスターの初期割り振りを決定し;
(ii)空間位置情報を示すメタデータに基づいて、およびレンダリング・メタデータの前記カテゴリーへの前記オーディオ・オブジェクトの前記割り当てに基づいて、前記オーディオ・オブジェクトを前記初期の複数のオーディオ・オブジェクト・クラスターに割り当て;
(iii)レンダリング・メタデータの各カテゴリーについて、前記オーディオ・オブジェクトの、前記初期の複数のオーディオ・オブジェクト・クラスターへの前記割り当てのカテゴリー・コストを決定し;
(iv)レンダリング・メタデータの各カテゴリーについての前記カテゴリー・コストに少なくとも部分的に基づいて、前記初期の複数のオーディオ・オブジェクト・クラスターの、レンダリング・メタデータの各カテゴリーへの更新された割り振りを決定し;
(iv)停止基準に達するまで(ii)~(iv)を繰り返すことを含む、
請求項1ないし6のうちいずれか一項に記載の方法。
【請求項8】
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、レンダリング・メタデータの前記カテゴリーに割り振られたオーディオ・オブジェクト・クラスターの位置と、レンダリング・メタデータの前記カテゴリーに割り振られた前記オーディオ・オブジェクト・クラスターに割り当てられたオーディオ・オブジェクトの位置とに基づく、請求項7に記載の方法。
【請求項9】
前記カテゴリー・コストは、オーディオ・オブジェクトが割り当てられたオーディオ・オブジェクト・クラスターの左対右の配置に対する、前記オーディオ・オブジェクトの左対右の配置に基づく、請求項8に記載の方法。
【請求項10】
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、前記オーディオ・オブジェクトのラウドネスに基づく、請求項7ないし9のうちいずれか一項に記載の方法。
【請求項11】
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、オーディオ・オブジェクトから、前記オーディオ・オブジェクトが割り当てられたオーディオ・オブジェクト・クラスターまでの距離に基づく、請求項7ないし10のうちいずれか一項に記載の方法。
【請求項12】
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、オーディオ・オブジェクトのレンダリング・メタデータのタイプと、前記オーディオ・オブジェクトが割り当てられたオーディオ・オブジェクト・クラスターのレンダリング・メタデータのタイプとの類似性に基づく、請求項7ないし11のうちいずれか一項に記載の方法。
【請求項13】
レンダリング・メタデータの各カテゴリーについての前記カテゴリー・コストに基づいてグローバル・コストを決定する段階をさらに含み、前記初期の複数のオーディオ・オブジェクト・クラスターの更新された割り振りは、前記グローバル・コストに基づく、請求項7ないし12のうちいずれか一項に記載の方法。
【請求項14】
停止基準に達するまで(ii)~(iv)を繰り返すことが、前記グローバル・コストの最小が達成されたことを判別することを含む、請求項12に記載の方法。
【請求項15】
前記更新された割り振りを決定することは、レンダリング・メタデータの前記複数のカテゴリーのうちのレンダリング・メタデータの少なくとも1つのカテゴリーに割り振られたオーディオ・オブジェクト・クラスターの数を変更することを含む、請求項7ないし14のうちいずれか一項に記載の方法。
【請求項16】
レンダリング・メタデータの各カテゴリーについての前記カテゴリー・コストに基づいてグローバル・コストを決定する段階をさらに含み、オーディオ・オブジェクト・クラスターの数は、前記グローバル・コストに基づいて決定される、請求項15に記載の方法。
【請求項17】
オーディオ・オブジェクト・クラスターの数を決定することは、追加されうるオーディオ・オブジェクト・クラスターの最大数を示すオーディオ・オブジェクト・クラスターの数に対する制約条件のもとで前記グローバル・コストを最小化することを含む、請求項16に記載の方法。
【請求項18】
前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを、前記割り振られた複数のオーディオ・オブジェクト・クラスターにレンダリングすることは、オーディオ・オブジェクトが割り当てられるレンダリング・メタデータのカテゴリーに割り振られた一つまたは複数のオーディオ・オブジェクト・クラスターにレンダリングされるときの、前記複数のオーディオ・オブジェクトのうちの各オーディオ・オブジェクトについてのオブジェクト対クラスター利得を決定することを含む、請求項1ないし17のうちいずれか一項に記載の方法。
【請求項19】
レンダリング・メタデータの前記複数のカテゴリーのうちの第1のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得は、レンダリング・メタデータの前記複数のカテゴリーのうちの第2のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得とは別個に決定される、請求項18に記載の方法。
【請求項20】
レンダリング・メタデータの前記複数のカテゴリーのうちの第1のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得は、レンダリング・メタデータの前記複数のカテゴリーのうちの第2のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得と一緒に決定される、請求項18に記載の方法。
【請求項21】
前記割り振られた複数のオーディオ・オブジェクト・クラスターの各オーディオ・オブジェクト・クラスターに関連付けられた空間情報および利得情報を含むオーディオ信号を送信する段階をさらに含み、前記オーディオ信号を送信することは、前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトに関連付けられた空間情報および利得情報を含むオーディオ信号よりも帯域幅の要求が少ない、請求項1ないし20のうちいずれか一項に記載の方法。
【請求項22】
請求項1ないし21のうちいずれか一項に記載の方法を実施するように構成された装置。
【請求項23】
請求項1ないし21のうちいずれか一項に記載の方法を実施するように構成されたシステム。
【請求項24】
ソフトウェアを記憶している一つまたは複数の非一時的なコンピュータ可読な記憶媒体であって、前記ソフトウェアは、請求項1ないし21のうちいずれか一項に記載の方法を実行するよう一つまたは複数のデバイスを制御するための命令を含む、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、以下の優先権出願の優先権を主張する:国際特許出願第PCT/CN2021/077110号(2021年2月20日出願);米国仮特許出願第63/165,220号(2021年3月24日出願);米国仮特許出願第63/202,227号(2021年6月2日出願)、および欧州特許出願第21178179.4号(2021年6月8日出願)(これらは参照により本明細書に組み込まれる)。
【0002】
技術分野
本開示は、オーディオ・オブジェクトをクラスタリングするためのシステム、方法、および媒体に関する。
【背景技術】
【0003】
空間的に配置されたオーディオ・コンテンツを呈示することができるオーディオ・コンテンツ呈示デバイスは、ますます普及しつつある。たとえば、そのようなオーディオ・コンテンツ呈示デバイスは、聴取者の3次元環境内のさまざまな空間位置にあると知覚されるオーディオ・コンテンツを呈示することが可能でありうる。いくつかの既存のオーディオ・コンテンツ呈示方法およびデバイスは、いくつかの条件下で受け入れ可能な性能を提供するが、改善された方法およびデバイスが望ましい場合がある。
【0004】
記法および名称
特許請求の範囲を含め、本開示全体を通じて、用語「スピーカー」、「ラウドスピーカー」、「オーディオ再生トランスデューサ」は、任意の放音トランスデューサ(またはトランスデューサの集合)を表すために同義で使用される。ヘッドフォンの典型的なセットは、2つのスピーカーを含む。スピーカーは、単一の共通スピーカー・フィードによって、または複数のスピーカー・フィードによって駆動されうる複数のトランスデューサ(たとえば、ウーファーおよびツイーター)を含むように実装されうる。いくつかの例では、スピーカー・フィードは、異なるトランスデューサに結合された異なる回路分枝において異なる処理を受けることができる。
【0005】
特許請求の範囲を含め、本開示全体を通じて、信号またはデータ「に対して」動作を実行するという表現(たとえば、信号またはデータのフィルタリング、スケーリング、変換、または利得の適用)は、広い意味で使用され、信号またはデータに対して該動作を直接実行すること、または信号またはデータの処理されたバージョンに対して(たとえば、該動作の実行前に予備的なフィルタリングまたは前処理を受けた該信号のバージョンに対して)該動作を実行することを示す。
【0006】
特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、広い意味でデバイス、システム、またはサブシステムを示すために使用される。たとえば、デコーダを実装するサブシステムがデコーダ・システムと称されることがあり、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、そのサブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部ソースから受領されるシステム)もデコーダ・システムと称されることがある。
【0007】
特許請求の範囲を含む本開示全体を通じて、用語「プロセッサ」は、データ(たとえば、オーディオ、ビデオまたは他の画像データ)に対して動作を実行するために、プログラム可能なまたは他の仕方で(たとえば、ソフトウェアまたはファームウェアを用いて)構成可能なシステムまたはデバイスを示すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他の音声データに対してパイプライン処理を実行するようにプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットを含む。
【0008】
特許請求の範囲を含む本開示全体を通して、「クラスター」または「諸クラスター」という用語は、オーディオ・オブジェクトのクラスターを意味するために使用される。「クラスター」および「オーディオ・オブジェクト・クラスター」という用語は同義であり、交換可能に使用されると理解されるべきである。オーディオ・オブジェクトのクラスターは、同様の空間位置および/または同様のレンダリング・メタデータを有するオーディオ・オブジェクトなど、一つまたは複数の同様の属性を有するオーディオ・オブジェクトの組み合わせである。いくつかの事例では、オーディオ・オブジェクトは、単一のクラスターに割り当てられてもよいが、他の事例では、オーディオ・オブジェクトは、複数のクラスターに割り当てられてもよい。
【発明の概要】
【課題を解決するための手段】
【0009】
本開示の少なくともいくつかの側面は、方法を介して実装されうる。いくつかの方法は、複数のオーディオ・オブジェクトを識別することに関わってもよく、複数のオーディオ・オブジェクトの各オーディオ・オブジェクトは、それぞれの空間位置情報およびそれぞれのレンダリング・メタデータを示すそれぞれのメタデータに関連付けられる。いくつかの方法は、複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトをレンダリング・メタデータの複数のカテゴリーのうちのレンダリング・メタデータのカテゴリーに割り当てることに関わっていてもよく、レンダリング・メタデータの少なくとも1つのカテゴリーは、保存されるべきレンダリング・メタデータの複数のタイプを含む。いくつかの方法は、レンダリング・メタデータの各カテゴリーへの複数のオーディオ・オブジェクト・クラスターの割り振りを決定することに関わっていてもよく、オーディオ・オブジェクト・クラスターは、同様の属性を有する前記複数のオーディオ・オブジェクトのうちの一つまたは複数のオーディオ・オブジェクトを含む。いくつかの方法は、空間位置情報を示すメタデータに基づいて、およびレンダリング・メタデータのカテゴリーへのオーディオ・オブジェクトの割り当てに基づいて、前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを、割り振られた複数のオーディオ・オブジェクト・クラスターにレンダリングすることに関わっていてもよい。
【0010】
いくつかの例では、レンダリング・メタデータのカテゴリーは、バイパス・モード・カテゴリーおよび仮想化カテゴリーを含む。いくつかの例では、仮想化カテゴリーに含まれる複数のタイプのレンダリング・メタデータは、仮想化の複数のタイプを含み、各タイプは、頭部中心から前記オーディオ・オブジェクトまでの距離を表す。
【0011】
いくつかの例では、レンダリング・メタデータのカテゴリーは、ゾーン・カテゴリーまたはスナップ・カテゴリーのうちの1つを含む。
【0012】
いくつかの例では、レンダリング・メタデータの第1のカテゴリーに割り当てられたオーディオ・オブジェクトは、レンダリング・メタデータの第2のカテゴリーに割り振られた前記複数のオーディオ・オブジェクト・クラスター内のオーディオ・オブジェクト・クラスターに割り当てられることを禁止される。
【0013】
いくつかの例では、レンダリング・メタデータの各カテゴリーへの複数のオーディオ・オブジェクト・クラスターの割り振りを決定することは、(i)レンダリング・メタデータの各カテゴリーへの初期の複数のオーディオ・オブジェクト・クラスターの初期割り振りを決定し、(ii)空間位置情報を示すメタデータに基づいて、およびレンダリング・メタデータのカテゴリーへのオーディオ・オブジェクトの割り当てに基づいて、オーディオ・オブジェクトを初期の複数のオーディオ・オブジェクト・クラスターに割り当て、(iii)レンダリング・メタデータの各カテゴリーについて、オーディオ・オブジェクトの、初期の複数のオーディオ・オブジェクト・クラスターへの割り当てのカテゴリー・コストを決定し、(iv)レンダリング・メタデータの各カテゴリーについてのカテゴリー・コストに少なくとも部分的に基づいて、初期の複数のオーディオ・オブジェクト・クラスターの、レンダリング・メタデータの各カテゴリーへの更新された割り振りを決定し、(iv)停止基準に達するまで(ii)~(iv)を繰り返すことを含む。いくつかの例では、初期の複数のオーディオ・オブジェクト・クラスターへのオーディオ・オブジェクトの割り当てのカテゴリー・コストを決定することは、レンダリング・メタデータのカテゴリーに割り振られたオーディオ・オブジェクト・クラスターの位置と、レンダリング・メタデータのカテゴリーに割り振られたオーディオ・オブジェクト・クラスターに割り当てられたオーディオ・オブジェクトの位置とに基づく。いくつかの例では、カテゴリー・コストは、オーディオ・オブジェクトが割り当てられたオーディオ・オブジェクト・クラスターの左対右の配置に対する、前記オーディオ・オブジェクトの左対右の配置に基づく。いくつかの例では、初期の複数のオーディオ・オブジェクト・クラスターへのオーディオ・オブジェクトの割り当てのカテゴリー・コストを決定することは、オーディオ・オブジェクトのラウドネスに基づく。いくつかの例では、初期の複数のオーディオ・オブジェクト・クラスターへのオーディオ・オブジェクトの割り当てのカテゴリー・コストを決定することは、オーディオ・オブジェクトから、オーディオ・オブジェクトが割り当てられているオーディオ・オブジェクト・クラスターまでの距離に基づく。いくつかの例では、初期の複数のオーディオ・オブジェクト・クラスターへのオーディオ・オブジェクトの割り当てのカテゴリー・コストを決定することは、オーディオ・オブジェクトのレンダリング・メタデータのタイプと、オーディオ・オブジェクトが割り当てられているオーディオ・オブジェクト・クラスターのレンダリング・メタデータのタイプとの類似性に基づく。いくつかの例では、方法は、レンダリング・メタデータの各カテゴリーについてのカテゴリー・コストに基づいてグローバル・コストを決定することに関わっていてもよく、初期の複数のオーディオ・オブジェクト・クラスターの更新された割り振りは、グローバル・コストに基づく。いくつかの例では、更新された割り振りを決定することは、レンダリング・メタデータの複数のカテゴリーのうちのレンダリング・メタデータの少なくとも1つのカテゴリーに割り振られたオーディオ・オブジェクト・クラスターの数を変更することを含む。いくつかの例では、方法は、レンダリング・メタデータの各カテゴリーについてのカテゴリー・コストに基づいてグローバル・コストを決定することにさらに関わってもよく、オーディオ・オブジェクト・クラスターの数は、グローバル・コストに基づいて決定される。いくつかの例では、オーディオ・オブジェクト・クラスターの数を決定することは、追加されうるオーディオ・オブジェクト・クラスターの最大数を示すオーディオ・オブジェクト・クラスターの数に対する制約条件のもとでグローバル・コストを最小化することを含む。
【0014】
いくつかの例では、複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを、割り振られた複数のオーディオ・オブジェクト・クラスターにレンダリングすることは、オーディオ・オブジェクトが割り当てられるレンダリング・メタデータのカテゴリーに割り振られた一つまたは複数のオーディオ・オブジェクト・クラスターにレンダリングされるときの、複数のオーディオ・オブジェクトのうちの各オーディオ・オブジェクトについてのオブジェクト対クラスター利得〔オブジェクトからクラスターへの利得〕(object-to-cluster gain)を決定することを含む。いくつかの例では、レンダリング・メタデータの複数のカテゴリーのうちの第1のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得は、レンダリング・メタデータの複数のカテゴリーのうちの第2のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得とは別個に決定される。いくつかの例では、レンダリング・メタデータの複数のカテゴリーのうちの第1のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得は、レンダリング・メタデータの複数のカテゴリーのうちの第2のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得と一緒に決定される。
【0015】
本明細書で説明される動作、機能、および/または方法の一部または全部は、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれらに限定されない、本明細書で説明するものなどのメモリデバイスを含みうる。よって、本開示で説明する主題のいくつかの発明的側面は、ソフトウェアが記憶された一つまたは複数の非一時的媒体を介して実装されうる。
【0016】
本開示の少なくともいくつかの側面は、装置を介して実装されうる。たとえば、一つまたは複数のデバイスは、本明細書で開示される方法を少なくとも部分的に実行することが可能でありうる。いくつかの実装では、装置は、インターフェース・システムおよび制御システムを有するオーディオ処理システムであるか、またはそれを含む。制御システムは、一つまたは複数の汎用の単一チップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、離散的ゲートまたはトランジスタ論理、離散的ハードウェア構成要素、またはそれらの組み合わせを含んでいてもよい。
【0017】
本開示は、さまざまな技術的利点を提供する。たとえば、空間位置情報と、オーディオ・オブジェクトがレンダリングされる方式を示すレンダリング・メタデータとに関連付けられうるオーディオ・オブジェクトは、レンダリング・メタデータの異なるカテゴリーにわたってレンダリング・メタデータを保存する方式でクラスタリングされうる。場合によっては、レンダリング・メタデータの同じカテゴリー内のオーディオ・オブジェクトをクラスタリングするとき、レンダリング・メタデータは保存されないことがある。レンダリング・メタデータのカテゴリーに基づいてレンダリング・メタデータを保存するハイブリッド手法を使用してオーディオ・オブジェクトをクラスタリングすることによって、本明細書で説明する技法は、オーディオ信号をレンダリングするときの空間歪みを低減するとともに、そのようなオーディオ信号を送信するために必要とされる帯域幅を低減する、クラスタリングされたオーディオ・オブジェクトをもつオーディオ信号が生成されることを許容する。そのようなオーディオ信号は、有利なことに、オーディオ信号に関連付けられたオーディオ・コンテンツの作成者の意図に、より忠実でありうる。
【0018】
本明細書で説明される主題の一つまたは複数の実装の詳細は、添付の図面および以下の説明に記載される。他の特徴、側面、および利点は、本稿、図面、および特許請求の範囲から明白になるであろう。以下の図の相対的な寸法は、一定の縮尺で描かれていない場合があることに留意されたい。
【図面の簡単な説明】
【0019】
【
図1A】いくつかの実装による、レンダリング・メタデータおよび空間位置決めメタデータに基づくオーディオ・オブジェクトの例示的なクラスターの表現を示す。
【
図1B】いくつかの実装による、レンダリング・メタデータおよび空間位置決めメタデータに基づくオーディオ・オブジェクトの例示的なクラスターの表現を示す。
【0020】
【
図2】いくつかの実装による、レンダリング・メタデータを保存しながら空間位置決めメタデータに基づいてオーディオ・オブジェクトをクラスタリングするためのプロセスの例を示す。
【0021】
【
図3】いくつかの実装による、クラスターの割り振りを決定するためのプロセスの例を示す。
【0022】
【
図4】いくつかの実装による、割り振られたクラスターにオーディオ・オブジェクトを割り当てるためのプロセスの例を示す。
【0023】
【
図5】本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図を示す。
【0024】
さまざまな図面における同様の参照番号および記号は、同様の要素を示す。
【発明を実施するための形態】
【0025】
空間的に配置されたオーディオ・コンテンツを呈示することができるオーディオ・コンテンツ呈示デバイスは(ラウドスピーカーを介して呈示されるか、ヘッドフォンを介して呈示されるかにかかわらず)、ますます普及しつつある。たとえば、そのようなオーディオ・コンテンツ呈示デバイスは、聴取者の3次元環境内のさまざまな空間位置にあると知覚されるオーディオ・コンテンツを呈示することが可能でありうる。そのようなオーディオ・コンテンツは、固定された空間位置においてレンダリングされるべきオーディオ・コンテンツを含む「オーディオ・ベッド」と、さまざまな空間位置においておよび/またはさまざまな持続時間にわたってレンダリングされうるオーディオ・コンテンツを含む「オーディオ・オブジェクト」とを含むオーディオ・フォーマットでエンコードされうる。たとえば、オーディオ・オブジェクトは、動いているオブジェクト(たとえば、羽音を立てる昆虫、動いている車両など)、動いている楽器(たとえば、マーチングバンドにおける動いている楽器など)からの音楽、または位置が移動しうる他のオーディオ・コンテンツに関連するサウンド効果を表しうる。
【0026】
各オーディオ・オブジェクトは、オーディオ・オブジェクトがどのようにレンダリングされるべきかを記述するメタデータ(概して、本明細書では「レンダリング・メタデータ」と呼ばれる)および/またはオーディオ・オブジェクトがレンダリングされるときに知覚されるべき空間位置を記述するメタデータ(概して、本明細書では「空間位置メタデータ」と呼ばれる)に関連付けられていてもよい。たとえば、空間位置メタデータは、オーディオ・オブジェクトがレンダリングされるときに聴取者によって知覚されるべき3次元(3D)空間内の位置を示しうる。空間位置メタデータは、オーディオ・オブジェクトの方位角位置および/またはオーディオ・オブジェクトの仰角位置を指定してもよい。別の例として、レンダリング・メタデータは、オーディオ・オブジェクトがレンダリングされるべき仕方を示してもよい。ヘッドフォン・レンダリング・モードのためのレンダリング・メタデータの例示的なタイプは、スピーカー・レンダリング・モードのためのレンダリング・メタデータのタイプとは異なりうることに留意されたい。いくつかの実装では、レンダリング・メタデータは、レンダリング・メタデータのカテゴリーに関連付けられていてもよい。たとえば、ヘッドフォン・レンダリング・モードに関連付けられたレンダリング・メタデータは、「バイパス・モード」に対応する第1のカテゴリー(第1のカテゴリーに割り当てられたオーディオ・オブジェクトをレンダリングするときに部屋仮想化が適用されない)と、「部屋仮想化」カテゴリーに対応する第2のカテゴリー(第2のカテゴリーに割り当てられたオーディオ・オブジェクトをレンダリングするときに部屋仮想化技法が適用される)とに関連付けられうる。この例をさらに続けると、いくつかの実施形態では、レンダリング・メタデータのカテゴリーは、そのカテゴリー内にレンダリング・メタデータのタイプを有しうる。より具体的な例として、レンダリング・メタデータの「部屋仮想化」カテゴリーに関連するレンダリング・メタデータは、「近」、「中間」、および「遠」などの複数のタイプのレンダリング・メタデータを有することができ、これらはそれぞれ、聴取者の頭部から、オーディオ・オブジェクトがレンダリングされることになる部屋内の位置までの相対距離を示すことができる。別の例として、スピーカー・レンダリング・モードに関連するレンダリング・メタデータは、点源タイプのレンダリングを達成するためにオーディオ・オブジェクトが特定のスピーカーにレンダリングされるべきであることを示す「スナップ」モードに対応するレンダリング・メタデータの第1のカテゴリーと、オーディオ・オブジェクトがスピーカーの特定のグループに含まれる特定のスピーカーにレンダリングされないべきであることを示す「ゾーン・マスク」モードに対応するレンダリング・メタデータの第2のカテゴリー(本明細書では概して「ゾーン・マスク」と呼ばれる)とに関連付けられうる。より具体的な例として、いくつかの実施形態では、レンダリング・メタデータの「スナップ」カテゴリーは、特定のスピーカーに対応するレンダリング・メタデータのタイプを含むことができる。いくつかの実施形態では、レンダリング・メタデータの「スナップ」カテゴリーはバイナリ値を含んでいてもよく、レンダリング・メタデータが「1」または「はい」(yes)(「スナップ」が有効にされることを示す)であることに応答して、オーディオ・オブジェクトが最も近いスピーカーによってレンダリングされてもよい。別のより具体的な例として、レンダリング・メタデータの「ゾーン・マスク」カテゴリーは、オーディオ・オブジェクトをレンダリングするために使用されないスピーカーの種々のグルーピングに対応するレンダリング・メタデータのタイプ(たとえば、「左横サラウンドおよび右横サラウンド」、「左および右」など)を含みうる。いくつかの実施形態では、レンダリング・メタデータの「ゾーン・マスク」カテゴリーは、オーディオ・オブジェクトがレンダリングされるべき一つまたは複数のスピーカー(たとえば、「前方」、「後方」など)を示してもよく、他のスピーカーは、オーディオ・オブジェクトをレンダリングすることから除外または禁止される。
【0027】
オーディオ・オブジェクトに関連付けられたメタデータは、空間位置メタデータであろうとレンダリング・メタデータであろうと、オーディオ・コンテンツ作成者によって指定されてもよく、したがって、オーディオ・コンテンツ作成者の芸術的な希望を表しうる。よって、オーディオ・コンテンツ作成者の芸術的な希望を忠実に表すために、空間位置メタデータおよび/またはレンダリング・メタデータを保存することが重要でありうる。しかしながら、場合によっては、映画またはテレビ番組のサウンドトラックなどにおいて、オーディオ・コンテンツは、数十または数百のオーディオ・オブジェクトを含むことがある。よって、オーディオ・オブジェクトを含むようにフォーマットされたオーディオ・コンテンツは、サイズが大きく、非常に複雑でありうる。よって、レンダリングのためにそのようなオーディオ・コンテンツを送信することは困難であることがあり、かなりの帯域幅を必要とすることがある。帯域幅要件の増加は、家庭でのそのようなオーディオ・コンテンツの視聴者または聴取者にとって特に問題でありうる。そうした視聴者・聴取者は、映画館などと比較して、家庭でそのようなオーディオ・コンテンツを視聴するときに、帯域幅の事情によって、より制約されうる。
【0028】
オーディオ・コンテンツの複雑さを低減するために、オーディオ・オブジェクトは、位置(たとえば、方位角位置および/または仰角位置)が比較的近いオーディオ・オブジェクトが同じオーディオ・オブジェクト・クラスターに割り当てられるように、空間位置決めメタデータに少なくとも部分的に基づいてクラスタリングされうる。オーディオ・オブジェクト・クラスターは、次いで、送信および/またはレンダリングされうる。同じオーディオ・オブジェクト・クラスターに割り当てられたオーディオ・オブジェクトを、そのオーディオ・オブジェクト・クラスターに関連付けられた集約メタデータを使用してレンダリングすることによって、空間的複雑さが低減され、それにより、オーディオ信号を送信および/またはレンダリングするための帯域幅が低減されうる。
【0029】
しかしながら、レンダリング・メタデータや各オーディオ・オブジェクトが割り当てられたレンダリング・メタデータのカテゴリーを考慮せずにオーディオ・オブジェクトをクラスタリングすると、知覚的不連続性が生じることがある。たとえば、レンダリング・メタデータの「バイパス・モード」カテゴリーに割り当てられたオーディオ・オブジェクトをレンダリング・メタデータの「部屋仮想化」カテゴリーに関連付けられたクラスターに割り当てることは、たとえそのオーディオ・オブジェクトおよびクラスターに割り当てられた他のオーディオ・オブジェクトが同様の方位角および/または仰角空間位置に関連付けられている場合であっても、知覚的歪みを引き起こす可能性がある。特に、オーディオ・オブジェクトは、レンダリング・メタデータの「部屋仮想化」カテゴリーに関連付けられたクラスターに割り当てられることによって、音源から聴取者の耳への伝搬経路をシミュレートするために頭部伝達関数(HRTF)を使用する変換を受けることがある。HRTF変換は、たとえば、オーディオ・オブジェクトのレンダリングに関連する音色変化を導入することによって、および/またはオーディオ・コンテンツの数個のフレームが異なるカテゴリーに割り当てられる事例において時間的不連続性を導入することによって、オーディオ・オブジェクトの知覚品質を歪めることがある。さらに、第1のオーディオ・オブジェクトはオーディオ・コンテンツ作成者によって「バイパス・モード」カテゴリーに割り当てられたので、オーディオ・オブジェクトの「部屋仮想化」カテゴリーに割り当てられたオーディオ・オブジェクトに適用されることになるHRTFを使用して第1のオーディオ・オブジェクトをレンダリングすることは、第1のオーディオ・オブジェクトが、オーディオ・コンテンツ作成者の意図に忠実でない仕方でレンダリングされることを引き起こしうる。
【0030】
レンダリング・メタデータのカテゴリーを厳密に保存するように、および/またはレンダリング・メタデータの特定のカテゴリー内のレンダリング・メタデータのタイプを厳密に保存するようにオーディオ・オブジェクトをクラスタリングすることも、重要性をもちうる。たとえば、厳密に保存されたレンダリング・メタデータを用いてオーディオ・オブジェクトをクラスタリングすることは、比較的多数のクラスターを必要とすることがあり、それは、オーディオ信号の複雑さを増加させ、オーディオ信号のエンコードおよび伝送のために、より高い帯域幅を必要としうる。あるいはまた、厳密に保存されたレンダリング・メタデータおよび限られた数のクラスターを用いてオーディオ・オブジェクトをクラスタリングすることは、同じレンダリング・メタデータを有するが互いに比較的遠くに位置する2つのオーディオ・オブジェクトが同じクラスターにレンダリングされるようにすることによって、空間的歪みを引き起こしうる。
【0031】
本明細書で説明される技法、システム、方法、および媒体は、いくつかの事例においてはレンダリング・メタデータのカテゴリーを保存する一方で、他の事例においては、レンダリング・メタデータのあるカテゴリー、またはレンダリング・メタデータのあるカテゴリー内のレンダリング・メタデータのタイプに関連付けられたオーディオ・オブジェクトが、レンダリング・メタデータの異なるカテゴリーまたはレンダリング・メタデータの異なるタイプに関連付けられたオーディオ・オブジェクトと一緒にクラスタリングされることを許容する、オーディオ・オブジェクト・クラスターの割り当ておよび/または生成を記述する。本明細書で説明される技法、システム、方法、および媒体は、オーディオ・オブジェクトをクラスタリングすることによって空間的複雑さが低減されることを許容することができ、それにより、そのようなオーディオ・オブジェクトを送信および/またはレンダリングするために必要とされる帯域幅を低減する一方で、いくつかの事例ではレンダリング・メタデータを保存し、他の事例ではレンダリング・メタデータを保存しないことによって、レンダリングされたオーディオ・オブジェクトの知覚的品質も改善する。特に、オーディオ・オブジェクトをオーディオ・オブジェクト・クラスターに割り当てるときにレンダリング・メタデータ・カテゴリーまたはタイプの使用における柔軟性を許容することによって、クラスタリング中に厳密なレンダリング・メタデータ制約条件によって生成される空間的歪みは、そのようなオーディオ・コンテンツを送信するために必要とされる帯域幅の低減をもたらすオーディオ・コンテンツ複雑度の低減を依然として達成しながら、低減または除去されうる。オーディオ・オブジェクト・クラスターは、類似の属性を有するオーディオ・オブジェクトに関連付けられていると見なされてもよく、類似の属性は、類似の空間位置および/または類似のレンダリング・メタデータ(たとえば、同じレンダリング・メタデータ・カテゴリー、同じレンダリング・メタデータ・タイプなど)を含んでいてもよい。空間位置における類似性は、オーディオ・オブジェクトと、そのオーディオ・オブジェクトが割り振られるクラスターの重心との間の距離(たとえば、ユークリッド距離、および/または任意の他の好適な距離メトリック)に基づいて決定されうる。オーディオ・オブジェクトが複数のオーディオ・オブジェクト・クラスターにレンダリングされうる実施形態では、オーディオ・オブジェクトは複数の重みに関連付けられていてもよく、各重みはオーディオ・オブジェクト・クラスターに対応し、重みは、オーディオ・オブジェクトが特定のクラスターにレンダリングされる度合いを示す。この例を続けると、オーディオ・オブジェクトが特定のオーディオ・オブジェクト・クラスターから比較的遠い(たとえば、オーディオ・オブジェクトに関連付けられた空間位置がオーディオ・オブジェクト・クラスターに関連付けられた重心から比較的遠い)場合、オーディオ・オブジェクト・クラスターに関連付けられた重みは比較的小さくてもよい(たとえば、0に近いかまたは等しい)。いくつかの実施形態では、2つのオーディオ・オブジェクトは、各オーディオ・オブジェクトが特定のオーディオ・オブジェクト・クラスターにレンダリングされる程度を示す、2つのオーディオ・オブジェクトのそれぞれに関連付けられた重みの類似性に基づいて、同様の属性を有すると見なされうる。
【0032】
いくつかの実装では、オーディオ・オブジェクト・クラスターは、レンダリング・メタデータの特定のカテゴリー(たとえば、「バイパス・モード」)に割り当てられたオーディオ・オブジェクトが、レンダリング・メタデータの他のカテゴリー(たとえば、「仮想化モード」)に割り当てられたオーディオ・オブジェクトを有するクラスターに割り当てられることが禁止されるように生成されうる。いくつかのそのような実装では、レンダリング・メタデータの特定のカテゴリー内のオーディオ・オブジェクトは、その特定のカテゴリー内のレンダリング・メタデータの同じタイプを有するオーディオ・オブジェクトをもつ、および/またはその特定のカテゴリー内のレンダリング・メタデータの異なるタイプを有するオーディオ・オブジェクトをもつクラスターに割り当てられてもよい。たとえば、いくつかの実装では、「仮想化モード」カテゴリーに割り当てられ、「近」というレンダリング・メタデータのタイプ(たとえば、第1のオーディオ・オブジェクトが聴取者の頭部に比較的近いものとしてレンダリングされるべきであることを示す)を有する第1のオーディオ・オブジェクトは、「仮想化モード」カテゴリーに割り当てられ、「中間」というレンダリング・メタデータのタイプ(たとえば、第2のオーディオ・オブジェクトが音源から聴取者の頭部までの距離の中間範囲内にあるものとしてレンダリングされるべきであることを示す)を有する第2のオーディオ・オブジェクトを含むクラスターに割り当てられてもよい。この例を続けると、いくつかの実装では、第1のオーディオ・オブジェクトは、「仮想化モード」カテゴリーに割り当てられ、「遠」というレンダリング・メタデータのタイプ(たとえば、第3のオーディオ・オブジェクトが聴取者の頭部から比較的遠いものとしてレンダリングされるべきであることを示す)を有する第3のオーディオ・オブジェクトを含むクラスターに割り当てられることを禁止されてもよい。
【0033】
図1Aは、レンダリング・メタデータの特定のカテゴリーに割り当てられたオーディオ・オブジェクトが、レンダリング・メタデータの他のカテゴリーに割り当てられたオーディオ・オブジェクトと一緒にクラスタリングされることを許されない、オーディオ・オブジェクトのクラスタリングの表現の例100を示す。
【0034】
例100では、レンダリング・メタデータの2つのカテゴリーがある。カテゴリー102(
図1Aでは「カテゴリー1」として示される)は、「バイパス・モード」レンダリング・メタデータに関連付けられたオーディオ・オブジェクトに対応する。カテゴリー104(
図1Aでは「カテゴリー2」として示される)は、「仮想化モード」レンダリング・メタデータに関連付けられたオーディオ・オブジェクトに対応する。レンダリング・メタデータの「仮想化モード」カテゴリーは、聴取者の頭部からの「近」、「中間」、および/または「遠」距離など、レンダリング・メタデータのさまざまな潜在的なタイプを有しうる。よって、レンダリング・メタデータの「仮想化モード」カテゴリーに割り当てられたオーディオ・オブジェクトは、
図1Aに示されるように、および各オーディオ・オブジェクトに適用されるシェーディングのタイプによって
図1A内に示されるように、「近」、「中間」、または「遠」のうちの1つから選択されるレンダリング・メタデータのタイプを有しうる。
【0035】
図1Aは、オーディオ・オブジェクトに関連付けられた空間位置メタデータに基づいて、およびオーディオ・オブジェクトに関連付けられたレンダリング・メタデータのカテゴリーに基づいてクラスタリングされたオーディオ・オブジェクト(たとえば、オーディオ・オブジェクト106)のグループを示す。割り当てられたクラスターは、各オーディオ・オブジェクトを示す円内の数字として示される。たとえば、オーディオ・オブジェクト106は、
図1Aに示されるように、クラスター「1」に割り当てられている。別の例として、カテゴリー104内では、オーディオ・オブジェクト108がクラスター「4」に割り当てられている。
【0036】
図1Aの例100では、レンダリング・メタデータのカテゴリーは、オーディオ・オブジェクト・クラスターの生成において厳密に保存される。たとえば、レンダリング・メタデータの「バイパス・モード」カテゴリーに割り当てられたオーディオ・オブジェクトは、レンダリング・メタデータの「仮想化モード」カテゴリーに割り振られたクラスターに割り当てられることを禁止される。同様に、レンダリング・メタデータの「仮想化モード」カテゴリーに割り当てられたオーディオ・オブジェクトは、レンダリング・メタデータの「バイパス・モード」カテゴリーに割り振られたクラスターに割り当てられることを禁止される。
【0037】
図1Aの例100において、レンダリング・メタデータの特定のカテゴリーに割り当てられたオーディオ・オブジェクトは、レンダリング・メタデータの同じカテゴリーに割り当てられているが、そのカテゴリー内のレンダリング・メタデータの異なるタイプを有する他のオーディオ・オブジェクトと一緒にクラスタリングされてもよい。たとえば、カテゴリー104内で、「仮想化モード」カテゴリー内の「近」タイプのレンダリング・メタデータに関連付けられたオーディオ・オブジェクト110は、それぞれが「仮想化モード」カテゴリー内の「中間」タイプのレンダリング・メタデータに関連付けられたオーディオ・オブジェクト112および114と一緒にクラスタリングされてもよい。別の例として、カテゴリー104内で、レンダリング・メタデータの「仮想化モード」カテゴリー内のレンダリング・メタデータの「中間」タイプに関連付けられたオーディオ・オブジェクト116は、レンダリング・メタデータの「仮想化モード」カテゴリー内のレンダリング・メタデータの「遠」タイプにそれぞれ関連付けられたオーディオ・オブジェクト118および120と一緒にクラスタリングされてもよい。
【0038】
例100に示されたオーディオ・オブジェクトのクラスタリングは、クラスタリング・アルゴリズムまたは技法の結果でありうることに留意されたい。たとえば、例100に示されるオーディオ・オブジェクトのクラスタリングは、
図2のプロセス200に関連して示され、以下で説明される技法を使用して生成されうる。いくつかの実装では、
図1Aに示される各カテゴリーに割り振られるオーディオ・オブジェクト・クラスターの数および/または各クラスターの空間重心位置は、最適化アルゴリズムまたは技法を使用して決定されうる。たとえば、オーディオ・オブジェクト・クラスターの割り振りは、
図3のプロセス300に関連して以下に示され説明される技法を使用して最適な割り振りを生成するために逐次反復的に決定されてもよい。加えて、いくつかの実装では、特定のクラスターへのオーディオ・オブジェクトの割り当ては、
図4のプロセス400に関連して以下で説明するように、特定のクラスターにレンダリングされるときのオーディオ・オブジェクトの比または利得を記述するオブジェクト対クラスター利得を決定することによって達成されうる。
【0039】
対照的に、
図1Bは、いくつかの事例において、レンダリング・メタデータの特定のカテゴリーに割り当てられたオーディオ・オブジェクトが、レンダリング・メタデータの他のカテゴリーに割り振られたクラスターに割り当てられることが許される、オーディオ・オブジェクトのクラスタリングの表現の例150を示す。
【0040】
図1Bに示されるように、レンダリング・メタデータの特定のカテゴリーに割り当てられたオーディオ・オブジェクトは、レンダリング・メタデータの異なるカテゴリーに割り振られたクラスターに割り当てられることを許されてもよい。たとえば、「仮想化モード」カテゴリーにそれぞれ割り当てられたオーディオ・オブジェクト152および154は、「バイパス・モード」カテゴリー(たとえば、
図1Bのカテゴリー102)に割り振られたクラスターに割り当てられる。別の例として、「バイパス・モード」カテゴリーにそれぞれ割り当てられたオーディオ・オブジェクト156および158は、「仮想化モード」カテゴリー(たとえば、
図1Bのカテゴリー104)に割り振られたクラスターに割り当てられる。
【0041】
図1Aおよび
図1Bは、単一のクラスターに割り当てられた各オーディオ・オブジェクトを示すが、オーディオ・オブジェクトは、
図2および
図4に関連して以下で説明されるように、複数のクラスターに割り当てられる、またはレンダリングされてもよいことに留意されたい。特定のオーディオ・オブジェクトが特定のクラスターに割り当てられるおよび/またはレンダリングされる度合いは、本明細書では一般に、「オブジェクト対クラスター利得(object-to-cluster gain)」と称される。たとえば、オーディオ・オブジェクトjおよびクラスターcについて、オブジェクト対クラスター利得1は、オーディオ・オブジェクトjがクラスターcに完全に割り当てられるかまたはレンダリングされることを示す。別の例として、オブジェクト対クラスター利得0.5は、オーディオ・オブジェクトjが0.5の利得でクラスターcに割り当てられるかまたはレンダリングされ、オーディオ・オブジェクトjに関連付けられた残りの信号が他のクラスターにレンダリングされることを示す。さらに別の例として、0のオブジェクト対クラスター利得は、オーディオ・オブジェクトjがクラスターcに割り当てられたりレンダリングされたりしないことを示す。
【0042】
図2は、いくつかの実施形態による、レンダリング・メタデータの種々のカテゴリーにクラスターを割り振り、割り振られたクラスターにオーディオ・オブジェクトを割り当てるためのプロセス200の一例を示す。プロセス200は、オーディオ・オブジェクトと、オーディオ・コンテンツ作成者によって提供された関連付けられたメタデータとに基づいてオーディオ信号をエンコードするサーバーなど、さまざまなデバイス上で実行されうる。プロセス200は、概して、オーディオ・コンテンツの単一フレームに関するプロセスを記述することに留意されたい。しかしながら、いくつかの実施形態では、プロセス200のブロックは、たとえば、入力オーディオ信号の圧縮されたバージョンである完全な出力オーディオ信号を生成するために、オーディオ・コンテンツの一つまたは複数の他のフレームについて繰り返されてもよいことを理解されたい。いくつかの実装では、プロセス200の一つまたは複数のブロックは省略されてもよい。さらに、いくつかの実装では、プロセス200の2つ以上のブロックは、実質的に並列に実行されてもよい。プロセス200のブロックは、
図2に示される順序に限定されない任意の順序で実行されうる。
【0043】
プロセス200は、202において、オーディオ・オブジェクトのグループを識別することによって開始することができ、ここで、各オーディオ・オブジェクトは、空間位置メタデータおよびレンダリング・メタデータに関連付けられる。オーディオ・オブジェクトのグループ内のオーディオ・オブジェクトは、入力オーディオ信号の特定のフレームについて識別されうる。オーディオ・オブジェクトは、たとえば、入力オーディオ信号のフレームに関連付けられたリストまたはテーブルにアクセスすることによって識別されうる。空間位置メタデータは、オーディオ・オブジェクトのレンダリングに関連付けられた空間位置情報(たとえば、3D空間内の位置)を示しうる。たとえば、空間位置情報は、オーディオ・オブジェクトの方位角位置および/または仰角位置を示しうる。別の例として、空間位置情報は、デカルト座標(たとえば、(x,y,z)座標)における空間位置を示しうる。レンダリング・メタデータは、オーディオ・オブジェクトがレンダリングされるべき仕方を示しうる。
【0044】
204において、プロセス200は、各オーディオ・オブジェクトをレンダリング・メタデータのカテゴリーに割り当てることができる。ヘッドフォン・レンダリング・モードのためのレンダリング・メタデータの例示的なカテゴリーは、レンダリング・メタデータの「バイパス・モード」カテゴリーおよびレンダリング・メタデータの「仮想化モード」カテゴリーを含む。スピーカー・レンダリング・モードのためのレンダリング・メタデータの例示的なカテゴリーは、レンダリング・メタデータの「スナップ・モード」カテゴリーおよびレンダリング・メタデータの「ゾーン・マスク」カテゴリーを含む。レンダリング・メタデータのあるカテゴリー内で、レンダリング・メタデータは、レンダリング・メタデータのタイプに関連付けられてもよい。
【0045】
いくつかの実装では、レンダリング・メタデータの少なくとも1つのカテゴリーは、一つまたは複数(たとえば、2つ、3つ、5つ、10個など)のタイプのレンダリング・メタデータを含みうる。ヘッドフォン・レンダリング・モードにおけるレンダリング・メタデータの「仮想化モード」カテゴリー内のレンダリング・メタデータの例示的なタイプは、「近」、「中間」、および「遠」仮想化を含む。レンダリング・メタデータの「仮想化モード」カテゴリー内のレンダリング・メタデータのタイプは、レンダリング・メタデータにおいて示される仮想化を生成するためにオーディオ・オブジェクトに適用されるべき特定のHRTFを示しうることに留意されたい。たとえば、「近」仮想化に対応するレンダリング・メタデータは、第1のHRTFが使用されるべきであることを指定してもよく、一方、「中間」仮想化に対応するレンダリング・メタデータは、第2のHRTFが使用されるべきであることを指定してもよい。レンダリング・メタデータの「スナップ」カテゴリー内のレンダリング・メタデータの例示的なタイプは、スナップが有効にされるべきかどうかを示すバイナリ値、および/またはオーディオ・オブジェクトがレンダリングされるべきスピーカーの特定の識別子(たとえば、「左スピーカー」、「右スピーカー」、または任意の他の特定のスピーカー)を含みうる。レンダリング・メタデータの「ゾーン・マスク」カテゴリー内のレンダリング・メタデータの例示的なタイプは、「左横サラウンドおよび右横サラウンド」、「左スピーカーおよび右スピーカー」、またはオーディオ・オブジェクトのレンダリングに含まれるかもしくはオーディオ・オブジェクトのレンダリングから除外されるべき一つまたは複数のスピーカーを示すスピーカーの任意の他の適切な組み合わせを含む。
【0046】
206では、プロセス200は、レンダリング・メタデータの各カテゴリーへのクラスターの割り振りを決定することができる。プロセス200は、各カテゴリーに割り振られたクラスターの数が、ブロック202で識別されたオーディオ・オブジェクトのグループ内のオーディオ・オブジェクトを最適に包含するように、任意の適切な制約条件のもとで、レンダリング・メタデータの各カテゴリーへのクラスターの割り振りを決定することができる。たとえば、プロセス200は、レンダリング・メタデータのすべてのカテゴリーにわたるクラスターの総数がクラスターの所定の最大数(本明細書では一般にMtotalと表される)以下であるように、クラスターの割り振りを決定することができる。いくつかの実施形態では、レンダリング・メタデータのすべてのカテゴリーにわたるクラスターの所定の最大数は、クラスターの所定の最大数を有するエンコードされたオーディオ信号を送信するために必要とされる帯域幅など、さまざまな基準または要件に基づいて決定されうる。
【0047】
別の例として、プロセス200は、各クラスターに割り当てられるオーディオ・オブジェクトに関連付けられたコスト関数に少なくとも部分的に基づいて、クラスターの割り振りを逐次反復的に最適化することによって、クラスターの割り振りを決定することができる。いくつかの実施形態では、コスト関数は、特定のクラスターに割り当てられたオーディオ・オブジェクトからクラスターの重心までの距離、(たとえば、オーディオ・コンテンツ作成者によって示されるような)オーディオ・オブジェクトの意図されたラウドネスに対する、特定のクラスターにレンダリングされたときのオーディオ・オブジェクトのラウドネスなどのさまざまな基準を表しうる。コスト関数に組み込まれうるさまざまな基準は、
図3に関連して以下でより詳細に説明される。いくつかの実装では、クラスターは、特定のカテゴリーに割り当てられたオーディオ・オブジェクトが、異なるカテゴリーに割り振られたクラスターに割り当てられることを許されないという仮定のもとで割り振られてもよい。レンダリング・メタデータの各カテゴリーへのオーディオ・オブジェクト・クラスターの割り振りを決定するためのプロセスの例が、
図3に示され、
図3に関連して以下で説明されることに留意されたい。
【0048】
208では、プロセス200は、空間位置メタデータと、レンダリング・メタデータのカテゴリーへのオーディオ・オブジェクトの割り当てとに基づいて、オーディオ・オブジェクトを割り振られたクラスターに割り当てる、および/またはレンダリングすることができる。空間位置メタデータに基づいて、割り振られたクラスターにオーディオ・オブジェクトを割り当てることおよび/またはレンダリングすることは、割り振られたクラスターの空間位置に対するオーディオ・オブジェクトの空間位置(たとえば、仰角および/または方位角位置、デカルト座標位置など)に基づいて、オーディオ・オブジェクトをクラスターに割り当てることに関わってもよい。たとえば、いくつかの実施形態では、プロセス200は、同様の空間位置をもつオーディオ・オブジェクトが同じクラスターに割り振られるように、空間位置メタデータに基づいて、および各割り振られたクラスターの重心に基づいて、オーディオ・オブジェクトを割り振られたクラスターに割り当てる、および/またはレンダリングすることができる。いくつかの実施形態では、オーディオ・オブジェクトの空間位置の類似性は、オーディオ・オブジェクトに関連付けられた空間位置メタデータにおいて示される空間位置とクラスターの重心との間の距離(たとえば、ユークリッド距離など)に基づいて決定されうる。
【0049】
レンダリング・メタデータのカテゴリーへのオーディオ・オブジェクトの割り当てに基づいて、オーディオ・オブジェクトを割り振られたクラスターに割り当てることおよび/またはレンダリングすることは、レンダリング・メタデータの同じカテゴリーに関連付けられたクラスターにオーディオ・オブジェクトを割り振ることによって、レンダリング・メタデータのカテゴリーを保存することに関わってもよい。たとえば、いくつかの実施形態では、プロセス200は、
図1Aに関連して示され、上述されたように、レンダリング・メタデータの第1のカテゴリー(たとえば、「バイパスモード」)に割り当てられたオーディオ・オブジェクトが、レンダリング・メタデータの第2のカテゴリー(たとえば、「仮想化モード」)に割り振られたクラスターに割り当てられる、および/またはレンダリングされることを禁止されるように、オーディオ・オブジェクトを割り振られたクラスターに割り当てることができる。いくつかの実装では、レンダリング・メタデータのカテゴリーへのオーディオ・オブジェクトの割り当てに基づいて、オーディオ・オブジェクトを割り振られたクラスターに割り当てることおよび/またはレンダリングすることは、オーディオ・オブジェクトがレンダリング・メタデータの異なるカテゴリーに関連付けられたクラスターに割り当てられることを許すことに関わってもよい。たとえば、いくつかの実施形態では、プロセス200は、
図1Bに関連して示され、上述されたように、レンダリング・メタデータの第1のカテゴリー(たとえば、「バイパスモード」)に割り当てられたオーディオ・オブジェクトが、レンダリング・メタデータの第2のカテゴリー(たとえば、「仮想化モード」)に割り振られたオーディオ・オブジェクト・クラスターに割り当てられることを許されるように、オーディオ・オブジェクトを、割り振られたオーディオ・オブジェクト・クラスターに割り当てる、および/またはレンダリングすることができる。例として、オーディオ・オブジェクトのカテゴリー横断割り当ては、オーディオ・オブジェクトのカテゴリー横断割り当てが(たとえば、オーディオ・オブジェクトの位置に対するオーディオ・オブジェクト・クラスターの位置に起因する)空間的歪みを低減する場合に望ましいことがある。オーディオ・オブジェクトのカテゴリー横断割り当ては、レンダリング・メタデータの異なるカテゴリーに関連付けられたオーディオ・オブジェクト・クラスターにレンダリングされるときに、オーディオ・オブジェクトの知覚される品質における音色変化を導入しうることに留意されたい。別の例として、いくつかの実施形態では、プロセス200は、
図1Aおよび
図1Bのカテゴリー104に関して示されるように、レンダリング・メタデータの特定のカテゴリー内のレンダリング・メタデータの第1のタイプ(たとえば、「近」仮想化)に関連付けられたオーディオ・オブジェクトが、レンダリング・メタデータの第2のタイプ(たとえば、「中間」仮想化)に関連付けられた他のオーディオ・オブジェクトと一緒にクラスタリングされることを許されるように、オーディオ・オブジェクトを割り当てることができる。さまざまな制約条件のもとで、割り振られたオーディオ・オブジェクト・クラスターにオーディオ・オブジェクトを割り当てるおよび/またはレンダリングするための例示的なプロセスが、
図4に関連して示され、以下で説明されることに留意されたい。
【0050】
オーディオ・オブジェクトを特定のクラスターに割り当てることおよび/またはレンダリングすることは、そのオーディオ・オブジェクト・クラスターの一部としてレンダリングされるときにオブジェクトに適用されるべき利得を示すオーディオ・オブジェクト対クラスター利得を決定することを含みうる。特定のオーディオ・オブジェクトjおよびオーディオ・オブジェクト・クラスターcについて、オーディオ・オブジェクト対クラスター利得は、本明細書では一般に
【数1】
と表される。上記で説明したように、オーディオ・オブジェクトjは複数のオーディオ・オブジェクト・クラスターにレンダリングされてもよく、ここで、特定のオーディオ・オブジェクトjおよび特定のクラスターcについてのオーディオ・オブジェクト対クラスター利得は、オーディオ・オブジェクトjをクラスターcの一部としてレンダリングするときにオーディオ・オブジェクトに適用される利得を示すことに留意されたい。いくつかの実装では、利得
【数2】
は、0から1の範囲内であってもよい。ここで、値は、オーディオ・オブジェクトjをオーディオ・オブジェクト・クラスターcにレンダリングするときに適用されるべきオーディオ・オブジェクトjのための入力オーディオ信号の比を示す。いくつかの実装では、すべてのクラスターcにわたる特定のオーディオ・オブジェクトjについての利得の和は1であり、オーディオ・オブジェクトjに関連付けられた入力オーディオ信号の全体が諸クラスターにわたって分散されなければならないことを示す。
【0051】
図3は、いくつかの実装による、レンダリング・メタデータの複数のカテゴリーにわたるクラスターの割り振り/配分を生成するためのプロセス300の一例を示す。プロセス300のブロックは、入力オーディオ信号に含まれるオーディオ・オブジェクトに基づいて、エンコードされたオーディオ信号を生成するサーバーなど、任意の適切なデバイス上で実装されうる。プロセス300は、概して、オーディオ・コンテンツの単一のフレームに関するプロセスを記述することに留意するべきだが、いくつかの実施形態では、プロセス300のブロックは、たとえばオーディオ・コンテンツの複数のフレームについてクラスター割り振りに向けて、オーディオ・コンテンツの一つまたは複数の他のフレームについて繰り返されてもよいことを理解されたい。いくつかの実装では、プロセス300の一つまたは複数のブロックは省略されうる。さらに、いくつかの実装では、プロセス300の2つ以上のブロックは、実質的に並列に実行されうる。プロセス300のブロックは、
図3に示される順序に限定されない任意の順序で実行されうる。
【0052】
一般に、プロセス300は、レンダリング・メタデータのカテゴリーへのクラスターの初期割り振りから開始することができる。いくつかの実装では、プロセス300は、初期割り振りから開始した後、レンダリング・メタデータのカテゴリーにクラスターを最適に割り振るために、以下で説明するブロック304~318を通じて逐次反復的にループしてもよい。いくつかの実装では、割り振りは、レンダリング・メタデータの各カテゴリーについてのコスト関数を組み合わせるグローバル・コスト関数を最小化することによって最適化されてもよい。レンダリング・メタデータのカテゴリーについてのコスト関数は、本明細書では一般に「カテゴリー内コスト関数」と呼ばれる。レンダリング・メタデータのカテゴリーについてのカテゴリー内コスト関数は、ブロック304~318を通じた現在の反復工程中にレンダリング・メタデータのカテゴリーに割り振られた特定のクラスターへのオーディオ・オブジェクトの割り当てに関連付けられたコストを示すことができる。いくつかの実装では、カテゴリー内コスト関数は、ブロック314に関連して以下で説明するように、対応するカテゴリー内ペナルティ関数に基づいていてもよい。カテゴリー内ペナルティ関数は、ブロック304~310に関連して以下で説明するように、一つまたは複数のカテゴリー内ペナルティ項に依存しうる。各カテゴリー内ペナルティ項は、本明細書で一般に
【数3】
と表される特定のオーディオ・オブジェクトjおよびクラスターcについてのオーディオ・オブジェクト対クラスター利得に依存してもよい。オブジェクト対クラスター利得は、(たとえば、ブロック312に関連して以下で説明されるように)レンダリング・メタデータの特定のカテゴリーについての総グループ内ペナルティ関数を最小化することによって決定されてもよく、ここで、カテゴリーに関連付けられた総グループ内ペナルティ関数は、個々のカテゴリー内ペナルティ項の和である。言い換えれば、プロセス300は、ブロック304~318を通じた現在の反復工程中のレンダリング・メタデータのカテゴリーへのクラスターの現在の割り振りについて、プロセス300のブロック304~312を介してレンダリング・メタデータの各カテゴリーについてカテゴリー内ペナルティ関数を最小化するオブジェクト対クラスター利得を決定することができる。オブジェクト対クラスター利得は、レンダリング・メタデータの各カテゴリーについてカテゴリー内コスト関数を決定するために使用されうる。次いで、カテゴリー内コスト関数を組み合わせて、グローバル・コスト関数を生成することができる。次いで、グローバル・コスト関数を最小化することによって、クラスターを割り振りし直してもよい。
【0053】
プロセス300は、302において、レンダリング・メタデータのカテゴリーへのクラスターの初期割り振りを決定することによって開始することができ、ここで、レンダリング・メタデータの各カテゴリーはクラスターのサブセットを割り振られる。いくつかの実装では、クラスターは、割り振られたクラスターの総数が、本明細書で一般にMtotalと表されるクラスターの所定の最大数以下であるように割り振られることができる。たとえば、レンダリング・メタデータの第1のカテゴリーがm個のクラスターを割り振られ、レンダリング・メタデータの第2のカテゴリーがn個のクラスターを割り振られる例では、m+n≦Mtotalである。Mtotalは、クラスタリングされるべきオーディオ・オブジェクトの総数、クラスタリングされたオーディオ・オブジェクトに基づいて、エンコードされたオーディオ信号を送信するために利用可能な帯域幅など、任意の適切な基準に基づいて決定されうる。たとえば、Mtotalは、Mtotal個のクラスターを用いて、エンコードされたオーディオ信号を送信するための帯域幅が閾値帯域幅未満であるように決定されうる。いくつかの実装では、少なくとも1つのクラスターが、レンダリング・メタデータの各カテゴリーに割り振られうる。
【0054】
プロセス300は、初期に割り振られたクラスターごとに重心を決定することができる。たとえば、いくつかの実装では、クラスターの重心は、クラスターに関連付けられたレンダリング・メタデータのカテゴリーに割り当てられた最も知覚的に顕著なオーディオ・オブジェクトに基づいて決定されうる。より具体的な例として、m個のクラスターが初期に割り振られるレンダリング・メタデータの第1のカテゴリー(たとえば、「バイパスモード」)について、m個のクラスターのそれぞれについての重心は、レンダリング・メタデータの第1のカテゴリーに割り当てられたオーディオ・オブジェクトの知覚的顕著性に少なくとも部分的に基づいて決定されうる。たとえば、いくつかの実装では、レンダリング・メタデータの第1のカテゴリーを割り当てられたm個の最も知覚的に顕著なオーディオ・オブジェクトが識別されてもよい。m個の最も知覚的に顕著なオーディオ・オブジェクトは、それらのラウドネス、レンダリング・メタデータの第1のカテゴリーに割り当てられた他のオーディオ・オブジェクトからの空間距離、レンダリング・メタデータの第1のカテゴリー内のオーディオ・オブジェクトに関連付けられた音色の差など、さまざまな基準に基づいて識別されうる。いくつかの実装では、オーディオ・オブジェクトの知覚的顕著性は、オーディオ・オブジェクト間の差に基づいて決定されうる。たとえば、発話コンテンツを含むオーディオ・オブジェクトについて、2つのオーディオ・オブジェクトに関連付けられた発話コンテンツが異なる言語である事例において、該2つのオーディオ・オブジェクトが、互いから知覚的に顕著であると決定されてもよい。レンダリング・メタデータの各カテゴリーに割り振られたオーディオ・オブジェクト・クラスターの重心は、同様の仕方で決定されうる。
【0055】
304では、プロセス300は、レンダリング・メタデータのカテゴリーのそれぞれについて、カテゴリー内の初期に割り振られたオーディオ・オブジェクト・クラスターに割り当てられたまたはレンダリングされたオーディオ・オブジェクトの位置と、初期に割り振られたオーディオ・オブジェクト・クラスターの位置(たとえば、重心位置)との間の差を示す第1のカテゴリー内ペナルティ項を生成することができる。
【0056】
オーディオ・オブジェクトjの位置は、本明細書では一般にpjと呼ばれる。いくつかの実装では、オーディオ・オブジェクトjの位置は、オーディオ・コンテンツ作成者によって指定される。クラスターcの位置は、本明細書では一般にpcと呼ばれる。クラスターcの位置は、ブロック302に関連して上記で説明したように、クラスターcの重心の位置を示してもよい。
【0057】
一つまたは複数のクラスターにレンダリングされた後のオーディオ・オブジェクトjの再構成された位置は、本明細書では一般に
【数4】
と呼ばれる。
【数5】
を計算するための式の一例は、
【数6】
によって与えられる。いくつかの実装では、p
j、p
c、および
【数7】
は、一つまたは複数のクラスターにレンダリングされたときのオーディオ・オブジェクトjの空間位置を表す3次元ベクトルでありうる。空間位置は、デカルト座標で表されてもよい。
【0058】
第1のカテゴリー内ペナルティ項は、一つまたは複数のクラスターに割り当てられるかまたはレンダリングされたときのオーディオ・オブジェクトの位置と、オーディオ・オブジェクトのもとの位置との間の総差分(本明細書では一般にE
pと呼ばれる)を示しうる。一つまたは複数のクラスターにレンダリングされたときのオーディオ・オブジェクトの位置と、オーディオ・オブジェクトのもとの位置との間の総差分を示す第1のカテゴリー内ペナルティ項を決定するための例示的な式は、
【数8】
によって与えられる。
【0059】
上記で説明した第1のカテゴリー内ペナルティ項、およびブロック306~310に関連して以下で説明する他のカテゴリー内ペナルティ項に関して、それらのカテゴリー内ペナルティ項は、概して、単一のオーディオ・オブジェクトjに関して説明されることに留意されたい。カテゴリー内ペナルティ項は、各オーディオ・オブジェクトについて計算されてもよく、レンダリング・メタデータの特定のカテゴリーに割り当てられたオーディオ・オブジェクトのすべてにわたって和が計算されてもよい。
【0060】
306において、プロセス300は、レンダリング・メタデータのカテゴリーのそれぞれについて、カテゴリー内の初期に割り振られたクラスターに割り当てられたまたはレンダリングされたオーディオ・オブジェクトとカテゴリー内のクラスターとの間の距離を示す第2のカテゴリー内ペナルティ項を生成することができる。第2のカテゴリー内コストは、本明細書では一般にE
Dと呼ばれる。第2のカテゴリー内コストE
Dは、オーディオ・オブジェクトjと、オーディオ・オブジェクトjが割り当てられるクラスターcとの間の距離指標に基づいて決定されうる。E
Dを計算するための例示的な式は、
【数9】
によって与えられる。
【0061】
上式において、
【数10】
は、オーディオ・オブジェクトjの位置とクラスターcの位置との間の距離を示す。左ゾーンに位置するオーディオ・オブジェクトが右ゾーンのクラスターにレンダリングされると(またはその逆)、知覚的アーチファクトを生じるので、オーディオ・オブジェクトjの位置とクラスターcの位置との間の距離は、バイノーラル・レンダリングにおいて異なる方位角半球に位置するクラスターcへのオーディオ・オブジェクトjの割り当てに効果的にペナルティを課す修正された距離である。オーディオ・オブジェクトjとクラスターcとの間の修正された距離を計算するための例示的な式は、
【数11】
によって与えられる。
【0062】
上式において、Λは、
【数12】
によって与えられる3×3の対角行列を表しうる。
【0063】
上記において、λ
xxは、オーディオ・オブジェクトjおよびクラスターcの位置が異なる左/右ゾーン内にあるかどうかに依存して変化しうる。λ
xxの値を決定するための式の例は、
【数13】
によって与えられる。上式において、x
j、x
cはそれぞれオーディオ・オブジェクト位置、クラスター位置のx座標である。上記において、aは0から1までの間の定数である。
【0064】
308では、プロセス300は、レンダリング・メタデータのカテゴリーのそれぞれについて、レンダリング・メタデータのカテゴリーに割り振られたさまざまなクラスターに割り当てられるかまたはレンダリングされたときのオーディオ・オブジェクトのラウドネスの保存を示す第3のカテゴリー内ペナルティ項を生成することができる。言い換えれば、第3のカテゴリー内ペナルティ項は、さまざまなクラスターにレンダリングされたときのオーディオ・オブジェクトのエネルギーまたは振幅の変化を示してもよく、ここで、エネルギーまたは振幅は、聴取者によってラウドネスとして知覚される。よって、第3のカテゴリー内ペナルティ項を最小化することによって、増幅または減衰された振幅(よって、増幅または減衰されたラウドネス)をもつオーディオ・オブジェクトをレンダリングすることによって導入される知覚的アーチファクトが最小化されうる。第3のカテゴリー内ペナルティ項は、本明細書では一般にE
Nと呼ばれる。第3のカテゴリー内ペナルティ項を計算するための式の例は、
【数14】
によって与えられる。
【0065】
いくつかの実装では、310において、プロセス300は、オーディオ・オブジェクトに関連付けられたレンダリング・メタデータのタイプと、オーディオ・オブジェクトが割り当てられるかまたはレンダリングされるクラスターのレンダリング・メタデータのタイプとの間の不一致を示す第4のカテゴリー内ペナルティ項を生成することができる。ブロック310は、カテゴリー内にレンダリング・メタデータの複数のタイプを含まないレンダリング・メタデータのカテゴリーについては省略されうることに留意されたい。たとえば、第4のカテゴリー内ペナルティ項は、レンダリング・メタデータの「バイパス・モード」カテゴリーについては計算されなくてもよい。
【0066】
一例として、ヘッドフォン・レンダリング事例において、第4のカテゴリー内項は、オーディオ・オブジェクトのレンダリング・メタデータの「仮想化モード」カテゴリーに関連付けられた仮想化のタイプ(たとえば、「近」、「中間」、または「遠」)と、オーディオ・オブジェクトが割り当てられるかまたはレンダリングされる一つまたは複数のクラスターの仮想化のタイプとの間の不一致を示すことができる。事実上、第4のカテゴリー内ペナルティ項は、たとえば、特定のタイプの仮想化(たとえば、「近」、「中間」、または「遠」)を有するオーディオ・オブジェクトの、異なるタイプの仮想化に関連付けられたクラスターへの割り当てにペナルティを課すことができる。いくつかの実装では、ペナルティ量は、仮想化の異なるタイプの間の距離に依存しうる。たとえば、「近」タイプの仮想化を有する第1のオーディオ・オブジェクトの、「遠」タイプの仮想化に関連付けられたクラスターへの割り当ては、「近」タイプの仮想化を有する第2のオーディオ・オブジェクトの、「中間」タイプの仮想化に関連付けられたクラスターへの割り当てに比して、より大きなペナルティに関連付けられてもよい。第4のカテゴリー内ペナルティ項(本明細書では一般にE
Gと呼ばれる)を計算するための式の例は、以下の通りである:
【数15】
【0067】
上記で与えられた式において、U
HRM(j)HRM(c)は、オーディオ・オブジェクトjおよびクラスターcのための仮想化のタイプのさまざまな組み合わせについてのペナルティ重みを定義する行列Uの要素を表しうる。行列Uの各行は、オーディオ・オブジェクトに関連付けられた仮想化のタイプを示してもよく、行列Uの各列は、オーディオ・オブジェクトが割り当てられたまたはレンダリングされたクラスターに関連付けられた仮想化のタイプを示しうる。たとえば、行列要素[HRM(j),HRM(c)]は、仮想化のタイプHRM(c)を有するクラスターcに割り当てられるかまたはレンダリングされるとき、HRM(j)によって示されるオーディオ・オブジェクトjの仮想化のタイプについてのペナルティ重みを示しうる。いくつかの実装では、行列Uは対称的であってもよく、第2のタイプの仮想化を有するクラスターに割り当てられるかまたはレンダリングされるときの第1のタイプの仮想化を有するオーディオ・オブジェクトについて、第1のタイプの仮想化を有するクラスターに割り当てられるかまたはレンダリングされるときのそのタイプの仮想化を有するオーディオ・オブジェクトについてと同じペナルティ重みが使用される。いくつかの実装では、行列Uの対角線は0であってもよく、オーディオ・オブジェクトに関連付けられた仮想化のタイプとクラスターに関連付けられた仮想化のタイプとの類似性を示す。使用されうる行列Uの具体的な例は次のとおり:
【数16】
【0068】
312では、プロセス300は、オーディオ・オブジェクトに関連付けられたレンダリング・メタデータのカテゴリーに割り振られた各オーディオ・オブジェクトおよびクラスターについて、オブジェクト対クラスター利得を決定することができる。オブジェクト対クラスター利得は、オーディオ・オブジェクトが関連付けられるレンダリング・メタデータのカテゴリーに対応するカテゴリー・ペナルティ関数を最小化することによって決定されうる。たとえば、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられたオーディオ・オブジェクトについて、オブジェクト対クラスター利得は、そのオーディオ・オブジェクトについて、レンダリング・メタデータの「バイパス・モード」カテゴリーに割り振られた一つまたは複数のクラスターについて、決定されうる。別の例として、レンダリング・メタデータの「仮想化モード」カテゴリーに関連付けられたオーディオ・オブジェクトについて、オブジェクト対クラスター利得は、そのオーディオ・オブジェクトについて、レンダリング・メタデータの「仮想化モード」カテゴリーに割り振られた一つまたは複数のクラスターについて、決定されうる。
【0069】
レンダリング・メタデータの特定のカテゴリーについてのカテゴリー・ペナルティ関数は、ブロック304~310において決定されたカテゴリー内ペナルティ項のいずれかの和(たとえば、重み付けされた和)として決定されうる。たとえば、いくつかの実装では、レンダリング・メタデータの「仮想化モード」カテゴリーのためのカテゴリー・ペナルティ関数は、ブロック304において決定された第1のカテゴリー内ペナルティ項、ブロック306において決定された第2のカテゴリー内ペナルティ項、ブロック308において決定された第3のカテゴリー内ペナルティ項、および/またはブロック310において決定された第4のカテゴリー内ペナルティ項の重み付き和でありうる。ブロック304~310で決定されたカテゴリー内ペナルティ項の重み付けされた和である(そして、いくつかの実装ではレンダリング・メタデータの「仮想化モード」カテゴリーのためのカテゴリー・ペナルティ関数として使用されうる)カテゴリー・ペナルティ関数のための式の例は、
【数17】
によって与えられる。
【0070】
いくつかの実装では、オーディオ・オブジェクトに関連付けられたレンダリング・メタデータのタイプと、オーディオ・オブジェクトが割り当てられるかまたはレンダリングされるクラスターのレンダリング・メタデータのタイプとの間の不一致を示すペナルティ項を含まないカテゴリー・ペナルティ関数が計算されてもよい。たとえば、そのようなカテゴリー・ペナルティ関数は、「バイパス・モード」カテゴリーについて決定されうる。いくつかの実装では、そのようなカテゴリー・ペナルティ関数は、ブロック304において決定された第1のカテゴリー内ペナルティ項、ブロック306において決定された第2のカテゴリー内ペナルティ項、および/または308において決定された第3のカテゴリー内ペナルティ項の重み付けされた和でありうる。ブロック304~308で決定されたカテゴリー内ペナルティ項の重み付けされた和である(そして、いくつかの実装ではレンダリング・メタデータの「バイパス・モード」カテゴリーについてのカテゴリー・ペナルティ関数として使用されうる)カテゴリー・ペナルティ関数のための式の例は、
【数18】
によって与えられる。カテゴリー・ペナルティ関数E
cat2の計算についての上記の例では、カテゴリー・ペナルティ関数は、カテゴリー・ペナルティ関数E
cat1から、第4のカテゴリー内ペナルティ項E
Gを0に設定することによって導出されうることに留意されたい。
【0071】
上述した例示的なカテゴリー・ペナルティ関数は単なる例示的であることに留意されたい。いくつかの実装では、カテゴリー・ペナルティ関数は、第1のカテゴリー内ペナルティ項と第2のカテゴリー内ペナルティ項、第2のカテゴリー内ペナルティ項と第4のカテゴリー内ペナルティ項など、任意の好適なカテゴリー内ペナルティの重み付けされた和でありうる。
【0072】
上記で説明したように、レンダリング・メタデータの特定のカテゴリーに関連付けられた所与のオーディオ・オブジェクトjについて、(たとえば、ベクトルの要素として示される)一つまたは複数のクラスターにレンダリングされたときのオーディオ・オブジェクトjについての利得を示すオブジェクト対クラスター利得のベクトルは、レンダリング・メタデータのそのカテゴリーに関連付けられたカテゴリー・ペナルティ関数を最小化することによって決定されうる。たとえば、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられたオーディオ・オブジェクトについて、オブジェクト対クラスター利得は、「バイパス・モード」カテゴリー・ペナルティ関数(たとえば、上記の式中のE
cat2)を最小化することによって決定されうる。オーディオ・オブジェクトjについての利得ベクトルは、
【数19】
と呼ばれ、関連するカテゴリー・ペナルティ関数Eを最小化することによって計算されうる。たとえば、方程式∂E/∂g=0を解いてもよい。ここで、Eは、オーディオ・オブジェクトjに関連付けられたレンダリング・メタデータのカテゴリーについてのカテゴリー・コスト関数である。
【0073】
314において、プロセス300は、レンダリング・メタデータの各カテゴリーについて、レンダリング・メタデータのカテゴリーに関連付けられたオーディオ・オブジェクトのオブジェクト対クラスター利得に基づいてカテゴリー内コスト関数を計算することができる。いくつかの実装では、カテゴリー内コスト関数は、レンダリング・メタデータのカテゴリー内のオーディオ・オブジェクトのラウドネスに基づいて決定されうる。追加的または代替的に、いくつかの実装では、カテゴリー内コスト関数は、対応するカテゴリー内ペナルティ関数(たとえば、上記で説明したようなE
cat1および/またはE
cat2など)に基づいて決定されうる。カテゴリー内ペナルティ関数Eに基づいて決定されるカテゴリー内コスト関数を計算するための例示的な式は、
【数20】
によって与えられる。上式では、N
j'は、オーディオ・オブジェクトjの部分ラウドネス(partial loudness)を示す。カテゴリー内コスト関数は、1)オーディオ・オブジェクト・クラスターに割り振られたオーディオ・オブジェクトの位置に対するオーディオ・オブジェクト・クラスターの位置(たとえば、ブロック304で上述した第1のカテゴリー内ペナルティ項に基づく)、2)オーディオ・オブジェクトが割り当てられたクラスターの左右配置に対するオーディオ・オブジェクトの左右配置(たとえば、ブロック306で上述した第2のカテゴリー内ペナルティ項に基づく)、3)オーディオ・オブジェクトの、該オーディオ・オブジェクトが割り当てられたクラスターまでの距離(たとえば、ブロック306で上述した第3のカテゴリー内ペナルティ項に基づく)、4)オーディオ・オブジェクトのラウドネス(たとえば、ブロック308で上述した第3のカテゴリー内ペナルティ項に基づく)、および/または5)オーディオ・オブジェクトが割り当てられたクラスターに関連付けられたレンダリング・メタデータのタイプに対する、オーディオ・オブジェクトに関連付けられたレンダリング・メタデータのタイプの類似性(たとえば、ブロック310で上述した第4のカテゴリー内ペナルティ項に基づく)、の任意の組み合わせに少なくとも部分的に基づきうることに留意されたい。
【0074】
いくつかの実装では、カテゴリー内コスト関数は、オーディオ・オブジェクトとクラスターとの間の位置差のラウドネスで重み付けされた和として決定されてもよい。位置差に基づいてカテゴリー内コスト関数を計算するための例示的な式は、次式によって与えられる:
【数21】
【0075】
カテゴリー内コスト関数は、レンダリング・メタデータの各カテゴリーについて決定されうることに留意されたい。たとえば、第1のカテゴリー内コスト関数l1は、レンダリング・メタデータの「仮想化モード」カテゴリーについて決定されてもよく、第2のカテゴリー内コスト関数l2は、レンダリング・メタデータの「バイパス・モード」カテゴリーについて決定されてもよい。同様に、スピーカー・レンダリング・モードでレンダリングするためにオーディオ・オブジェクトをクラスタリングするとき、ゾーン・マスク・カテゴリー、スナップ・カテゴリーなどのためのカテゴリー内コスト関数が計算されうる。
【0076】
316において、プロセス300は、レンダリング・メタデータの異なるカテゴリーにわたるカテゴリー・コスト関数を組み合わせるグローバル・コスト関数を計算することができる。たとえば、グローバル・コスト関数は、レンダリング・メタデータの「仮想化モード」カテゴリーに関連付けられた第1のカテゴリー・コスト関数(たとえば、上記の例ではl1)と、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられた第2のカテゴリー・コスト関数(たとえば、上記の例ではl2)とを組み合わせることができる。グローバル・コスト関数(本明細書では一般にlglobalと呼ばれる)を計算するための例示的な式は、次式によって与えられる:
lglobal=al1++(1-a)l2
上記の式において、aは、レンダリング・メタデータの各カテゴリーの重みまたは重要性を示す重み定数である。
【0077】
318において、プロセス300は、ブロック316で決定されたグローバル・コスト関数に少なくとも部分的に基づいて、レンダリング・メタデータのカテゴリーにクラスターを割り振りし直すことができる〔再割り振り〕。たとえば、いくつかの実装では、プロセス300は、グローバル・コスト関数lglobalを最小化する各カテゴリーについてのクラスターの数を選択することによって、クラスターを割り振りし直すことができる。より具体的な例として、いくつかの実装では、プロセス300は、レンダリング・メタデータの第1のカテゴリーに割り振られるクラスター数mと、レンダリング・メタデータの第2のカテゴリーに割り振られるクラスター数nとを選択することができる。
【0078】
いくつかの実装では、現在フレームにおけるレンダリング・メタデータの特定のカテゴリーに割り振られるべきクラスターの数は、(たとえば、プロセス300が前のフレームに適用された結果として)前のフレームにおけるレンダリング・メタデータの特定のカテゴリーに割り振られたクラスターの数とは異なりうる。いくつかの実装では、現在フレームに割り振られたクラスターの数の、前のフレームに対する変化は、現在フレームにおいて示されるオーディオ・オブジェクトの、前のフレームとは異なる数の結果、現在フレームにおいて示されたアクティブなオーディオ・オブジェクトの、前のフレームとは異なる数の結果、および/またはアクティブなオーディオ・オブジェクトの空間位置の、オーディオ信号の諸フレームにわたる変化の結果でありうる。一例として、m個のクラスターは、現在フレームにおけるレンダリング・メタデータの第1のカテゴリーに割り振られてもよく、ここで、m'個のクラスターが、前のフレームにおけるレンダリング・メタデータの第1のカテゴリーに割り当てられた。レンダリング・メタデータの異なるカテゴリーに割り当てられたオーディオ・オブジェクトを含む2つの重複信号が現在フレームに追加されるべきであり、現在フレームにおいて第1のカテゴリーに割り振られる利用可能な空きクラスターがない場合、レンダリング・アーチファクトが導入されうる。レンダリング・メタデータのいずれのカテゴリーにも以前に割り振られていなかった追加のクラスターを追加することによって、レンダリング・メタデータの特定のカテゴリーに追加のクラスターを追加することが、レンダリング・アーチファクトを導入することなく、レンダリング・メタデータの特定のカテゴリーに割り当てられたオーディオ・オブジェクトがより正確にクラスタリングされることを許容しうる。
【0079】
いくつかの実装では、前のフレーム中のレンダリング・メタデータの第1のカテゴリーに割り振られたm'個のクラスター、前のフレーム中のレンダリング・メタデータの第2のカテゴリーに割り振られたn'個のクラスター、現在フレーム中のレンダリング・メタデータの第1のカテゴリーに割り振られたm個のクラスター、および現在フレーム中のレンダリング・メタデータの第2のカテゴリーに割り振られたn個のクラスターが与えられると、レンダリング・メタデータの第1のカテゴリーおよびレンダリング・メタデータの第2のカテゴリーについてのクラスターの増加は、それぞれ、次式によって与えられる:
Δm=max(0,m-m') およびΔn=max(0,n-n')
【0080】
レンダリング・メタデータの第1のカテゴリーまたはレンダリング・メタデータの第2のカテゴリーのいずれかへの割り振りのために利用可能なクラスターの数は、mfree=Mtotal-(m'+n')によって与えられてもよい。いくつかの実装では、プロセス300は、m+n≦MtotalかつΔm+Δn≦mfreeとなるようにlglobal(m,n)を最小化することによって、クラスターを、レンダリング・メタデータの第1のカテゴリーおよびレンダリング・メタデータの第2のカテゴリーに割り振りし直してもよい。プロセス300は、オーディオ・オブジェクトのカテゴリー横断割り当て(たとえば、オーディオ・オブジェクトに関連付けられたレンダリング・メタデータのカテゴリー以外のレンダリング・メタデータのカテゴリーに関連付けられたクラスターへの割り当て)が許されない場合、この制約条件に従ってクラスターを割り振りし直してもよいことに留意されたい。
【0081】
例として、Mtotalが21であり(たとえば、最大21個のクラスターがレンダリング・メタデータのすべてのカテゴリーにわたって割り振られてもよい)、m'が11であり、n'が10である事例では、m'+n'=Mtotalであるので、mfreeは0である。この例を続けると、次いで、プロセス300は、ブロック318において、割り振りのための利用可能なクラスターがないので、mもnも増加されえないと決定しうる。特定の例として、(たとえば、m+n≦Mtotalという基準を満たすために)mが13に設定され、nが8に設定されるとしたら、Δmは2であり、Δnは0である。しかしながら、Δm+Δn=2であり、これはmfree(0である)よりも大きいので、プロセス300は、13が現在フレームについてのmの有効な値ではないと決定しうる。
【0082】
上記の例はレンダリング・メタデータの2つのカテゴリーについて説明しているが、同じ技法が、レンダリング・メタデータの任意の好適な数のカテゴリー(たとえば、3つ、4つなど)に適用されうることに留意されたい。たとえば、プロセス300は、Σimi≦MtotalかつΣiΔmi≦mfreeとなるようにlglobal(mi)を最小化することができる。
【0083】
次いで、プロセス300は、ブロック304にループバックすることができる。プロセス300は、停止基準に達するまで、ブロック304~318をループすることができる。停止基準の例は、ブロック316において決定されたグローバル・コスト関数の最小値に到達した、ブロック304~318を通して所定の閾値を超える反復工程が実行されたなどの判定を含む。いくつかの実装では、停止基準に達するまでブロック304~318を通じてループした結果として決定された割り振りは、「最適な割り振り」と呼ばれることがある。
【0084】
プロセス300のブロックは、入力オーディオ信号の特定のフレームについてのレンダリング・メタデータのカテゴリーへのクラスターの割り振りを決定するために実行されうることに留意されたい。プロセス300のブロックは、入力オーディオ信号の他のフレームについてのレンダリング・メタデータのカテゴリーへの、クラスターの割り振りを決定するために、入力オーディオ信号の他のフレームについて繰り返されてもよい。たとえば、いくつかの実装では、プロセス300は、入力オーディオ信号の各フレームについて、入力オーディオ信号の1つおきのフレームについて、など、プロセス300のブロックを繰り返すことができる。
【0085】
図4は、いくつかの実装による、オーディオ・オブジェクトをクラスターにレンダリングするためのプロセス400の一例を示す。プロセス400のブロックは、入力オーディオ信号に含まれるオーディオ・オブジェクトに基づいて、エンコードされたオーディオ信号を生成するサーバーなど、任意の適切なデバイス上で実装されうる。プロセス400は、概して、オーディオ・コンテンツの単一のフレームに関するプロセスを記述することに留意するべきだが、いくつかの実施形態では、プロセス400のブロックは、たとえば、入力オーディオ信号の圧縮バージョンであるフル出力オーディオ信号を生成するために、オーディオ・コンテンツの一つまたは複数の他のフレームについて繰り返されうることを理解されたい。いくつかの実装では、プロセス400の一つまたは複数のブロックは省略されうる。さらに、いくつかの実装では、プロセス400の2つ以上のブロックは、実質的に並列に実行されうる。プロセス400のブロックは、
図4に示される順序に限定されない任意の順序で実行されうる。
【0086】
プロセス400は、402において、レンダリング・メタデータのカテゴリーへのクラスターの割り振りを取得することによって開始することができる。たとえば、割り振りは、レンダリング・メタデータの各カテゴリーに割り振られたクラスターの数を示しうる。より具体的な例として、割り振りは、レンダリング・メタデータの第1のカテゴリー(たとえば、レンダリング・メタデータの「バイパス・モード」カテゴリー)に割り振られたクラスターの第1の数と、レンダリング・メタデータの第2のカテゴリー(たとえば、レンダリング・メタデータの「仮想化モード」カテゴリー)に割り振られたクラスターの第2の数とを示しうる。レンダリング・メタデータの他のカテゴリーは、スピーカー・レンダリング・モードでは、レンダリング・メタデータの「スナップ」カテゴリー、レンダリング・メタデータの「ゾーン・マスク」カテゴリーなどを含みうる。いくつかの実装では、クラスターの割り振りは、各クラスターの重心位置をさらに示しうる。いくつかの実装では、各クラスターの重心位置は、ブロック404においてオブジェクト対クラスター利得を決定するために使用されるペナルティ関数を計算する際に使用されうる。
【0087】
いくつかの実装では、レンダリング・メタデータのカテゴリーへのクラスターの割り振りは、さまざまな制約条件または基準のもとで(たとえば、クラスターのある最大数のもとで)レンダリング・メタデータのカテゴリーへのクラスターの最適な割り振りを決定する最適化プロセスの結果でありうる。レンダリング・メタデータのカテゴリーへのクラスターの割り振りを決定するための例示的なプロセスは、
図3に関連して示され、上で説明されている。
【0088】
レンダリング・メタデータのカテゴリーへのクラスターの割り振りは、入力オーディオ信号の個々のフレームについて指定されうることに留意されたい。たとえば、取得された割り振りは、m'個のクラスターが入力オーディオ信号の第1のフレームのためのレンダリング・メタデータの第1のカテゴリーに割り振られるべきであることと、m個のクラスターが入力オーディオ信号の第2のフレームのためのレンダリング・メタデータの第1のカテゴリーに割り振られるべきであることとを示しうる。入力オーディオ信号の第1のフレームおよび入力オーディオ信号の第2のフレームは、連続するフレームであってもなくてもよい。
【0089】
404において、プロセス400は、入力オーディオ信号のフレーム内の各オーディオ・オブジェクトについて、オーディオ・オブジェクトに関連付けられたレンダリング・メタデータのカテゴリーに割り振られたクラスターについてのオブジェクト対クラスター利得を決定することができる。たとえば、オーディオ・オブジェクトがレンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられており、m個のクラスターがレンダリング・メタデータの「バイパス・モード」カテゴリーに割り振られている事例では、プロセス400は、レンダリング・メタデータの「バイパス・モード」カテゴリーに割り振られたm個のクラスターにレンダリングされたときのオーディオ・オブジェクトについてのオブジェクト対クラスター利得を決定しうる。特定のクラスターにレンダリングされる特定のオーディオ・オブジェクトについてのオブジェクト対クラスター利得は0であってもよく、それは、オーディオ・オブジェクトがそのクラスターに割り当てられない、またはレンダリングされないことを示すことに留意されたい。
【0090】
いくつかの実装では、プロセス400は、レンダリング・メタデータの各カテゴリーについてのカテゴリー・ペナルティ関数を別々に最小化することによって、オブジェクト対クラスター利得を決定することができる。レンダリング・メタデータの各カテゴリーについてペナルティ関数を別々に最小化することによってオブジェクト対クラスター利得を決定することは、レンダリング・メタデータの第1のカテゴリーに関連付けられたオーディオ・オブジェクトの、レンダリング・メタデータの第2のカテゴリーに割り振られたクラスターへの割り当てまたはレンダリングを禁止することになり、レンダリング・メタデータの第1のカテゴリーはレンダリング・メタデータの第2のカテゴリーとは異なることに留意されたい。たとえば、そのような実装では、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられたオーディオ・オブジェクトは、レンダリング・メタデータの「仮想化モード」カテゴリーに割り振られたクラスターに割り当てられるおよび/またはレンダリングされることを禁止される。そのようなクラスタリングの例は、
図1Aに関連して示され、上で説明されている。
【0091】
いくつかの実装では、カテゴリー・ペナルティ関数は、
図3のブロック312に関連して説明したカテゴリー・ペナルティ関数でありうる。たとえば、カテゴリー・ペナルティ関数は、プロセス300のブロックの逐次反復に関連して停止基準に達したときの最終割り振りについて決定される最終カテゴリー・ペナルティ関数であってもよい。特定の例として、4つのカテゴリー内ペナルティ項が決定される事例では(たとえば、ヘッドフォン・レンダリング・モード事例において、レンダリング・メタデータの「仮想化モード」カテゴリーについて)、カテゴリー・ペナルティ関数は、(
図3のブロック312に関連して説明したように)次のとおりでありうる:
E=w
PE
P+w
DE
D+w
NE
N+w
GE
G
【0092】
別の特定の例として、3つのカテゴリー内ペナルティ項が決定される事例では(たとえば、ヘッドフォン・レンダリング・モード事例において、レンダリング・メタデータの「バイパス・モード」カテゴリーについて)、カテゴリー・ペナルティ関数は、(
図3のブロック312に関連して説明したように)以下のようでありうる:
E=w
PE
P+w
DE
D+w
NE
N
【0093】
例として、ヘッドフォン・レンダリング・モード事例では、プロセス400は、(たとえば、ブロック402において得られた割り振りにおいて示される)「バイパス・モード」カテゴリーに割り振られたクラスターについて、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられたオーディオ・オブジェクトの第1の集合について、「バイパス・モード」カテゴリーに関連付けられた第1のペナルティ関数を最小化することによって、オブジェクト対クラスター利得の第1の集合を決定しうる。この例を続けると、プロセス400は、(たとえば、ブロック402において得られた割り振りにおいて示される)「仮想化モード」カテゴリーに割り振られたクラスターについて、レンダリング・メタデータの「仮想化モード」カテゴリーに関連付けられたオーディオ・オブジェクトの第2の集合について、「仮想化モード」カテゴリーに関連付けられた第2のペナルティ関数を最小化することによって、オブジェクト対クラスター利得の第2の集合を決定しうる。
【0094】
代替的に、いくつかの実装では、プロセス400は、(たとえば、レンダリング・メタデータのすべてのカテゴリーを考慮する)合同ペナルティ関数を最小化することによって、オブジェクト対クラスター利得を決定することができる。そのような実装では、レンダリング・メタデータの第1のカテゴリーに関連付けられたオーディオ・オブジェクトは、レンダリング・メタデータの第2のカテゴリーに割り振られたクラスターに割り当てられる、またはレンダリングされてもよく、レンダリング・メタデータの第1のカテゴリーは、レンダリング・メタデータの第2のカテゴリーとは異なる。たとえば、そのような実装では、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられたオーディオ・オブジェクトは、レンダリング・メタデータの「仮想化モード」カテゴリーに割り振られたクラスターに割り当てられ、および/またはレンダリングされうる。そのようなクラスターの例は、
図1Bに関連して示され、上述されている。
【0095】
合同ペナルティ関数を表す例示的な式は、次のとおり:
E=wP'EP+wD'ED+wN'EN+wG'EG'
【0096】
上式において、E
P、E
D、およびE
Nは、それぞれ、ブロック304、306、および308に記載された第1のペナルティ項、第2のペナルティ項、および第3のペナルティ項を表す。よって、E
P、E
D、およびE
Nは、
図3のブロック304、306、および308に関連して上記で説明した技法を使用し、レンダリング・メタデータのすべてのカテゴリーにわたるオーディオ・オブジェクトおよびクラスターを考慮して決定されうる。ブロック312に関連して上述したものと同様に、w
P'、w
D'、w
N'およびw
G'は、全体的な合同ペナルティ関数に対する各ペナルティ項の相対的重要性を表す。
【0097】
E
G'は、1)第1のカテゴリーに関連付けられたオーディオ・オブジェクトの、レンダリング・メタデータの第2のカテゴリーに割り振られたクラスターへの割り当てまたはレンダリングの間の不一致に関連するペナルティと、2)オーディオ・オブジェクトのレンダリング・メタデータのタイプと、オーディオ・オブジェクトが割り当てられるかまたはレンダリングされるクラスターのレンダリング・メタデータのタイプとの間の不一致に関連するペナルティとを表す(ここで、オーディオ・オブジェクトおよびクラスターのレンダリング・メタデータのタイプは、レンダリング・メタデータの同じカテゴリー内にある)。例として、ヘッドフォン・レンダリング事例ではE
G'は、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられたオーディオ・オブジェクトがレンダリング・メタデータの「仮想化モード」カテゴリーに割り当てられる、および/またはレンダリングされることについてのペナルティを示すことができる。この例を続ける。E
G'は、追加的または代替的に、「近」タイプの仮想化に関連付けられたオーディオ・オブジェクトが、「中間」または「遠」タイプの仮想化に主に関連付けられたクラスターに割り当てられることについてのペナルティを示しうる。E
G'を決定するための例示的な式は、次式によって与えられる:
【数22】
【0098】
上記の式において、Uは、レンダリング・モードmode(j)に関連付けられたオーディオ・オブジェクトjがレンダリング・モードmode(c)に関連付けられたクラスターに割り当てられる、および/またはレンダリングされることのペナルティを示す行列を表す。例として、ヘッドフォン・レンダリング事例では、モードの例(たとえば、mode(j)およびmode(c)の例示的な値)は、「バイパス・モード」、「近」仮想化、「中間」仮想化、および「遠」仮想化を含みうる。ヘッドフォン・レンダリング事例では、Uは、4×4行列であってもよく、ここで、行は、オーディオ・オブジェクトに関連付けられたモードを示し、列は、オーディオ・オブジェクトが割り当てられているまたはレンダリングされているクラスターに関連付けられたモードを示す。より具体的な例として、いくつかの実装では、Uの最初の3つの行および列は、異なるタイプの仮想化(たとえば、「近」、「中間」、および「遠」)に対応してもよく、Uの4番目の行および列は、バイパス・モードに対応してもよい。そのような行列Uの例は、次のとおり:
【数23】
【0099】
上記の例示的なU行列に示されているように、レンダリング・メタデータの「バイパス・モード」カテゴリーに関連付けられたオーディオ・オブジェクトは、レンダリング・メタデータの「仮想化モード」カテゴリーに割り振られたクラスターに割り当てられたとき、重くペナルティを課されうる(Uの最後の行の1によって示されているように)。同様に、レンダリング・メタデータの任意のタイプの「仮想化モード」カテゴリー(たとえば、「近」、「中間」、および/または「遠」タイプの仮想化のいずれか)に関連付けられたオーディオ・オブジェクトは、レンダリング・メタデータの「バイパス・モード」カテゴリーに割り振られたクラスターに割り当てられるとき、重くペナルティを課されうる(Uの最後の列の1によって示されるように)。言い換えれば、オーディオ・オブジェクトのカテゴリー横断割り当てまたはレンダリングは、レンダリング・メタデータの同じカテゴリー内の他のタイプのレンダリング・メタデータへのオーディオ・オブジェクトの割り当てまたはレンダリングよりも、相対的に大きなペナルティが課される。例として、「近」タイプの仮想化に関連付けられたオーディオ・オブジェクトは、ペナルティ0.3で「中間」タイプの仮想化に関連付けられたクラスターに割り当てられ、ペナルティ0.7で「遠」タイプの仮想化に関連付けられたクラスターに割り当てられ、ペナルティ1で「バイパス・モード」レンダリング・メタデータに関連付けられたカテゴリー横断クラスターに割り当てられうる。
【0100】
406において、プロセス400は、(たとえば、ブロック404において決定された)各オーディオ・オブジェクトのためのオブジェクト対クラスター利得に基づいて出力オーディオ信号を生成しうる。出力オーディオ信号は、各オーディオ・オブジェクトについて決定されたオブジェクト対クラスター利得に従って一つまたは複数のクラスターに割り当てられた、またはレンダリングされた各オーディオ・オブジェクトを含みうる。特定のクラスターcについての出力オーディオ信号(本明細書では一般にI
out,cと呼ぶ)を生成するための例示的な式は、次のとおりである:
【数24】
【0101】
上記の式に示されるように、入力オーディオ信号I
in,jに示されるj個のオーディオ・オブジェクト・クラスターにわたって逐次反復され、それぞれは、オブジェクト対クラスター利得
【数25】
に基づいて一つまたは複数のクラスターcにレンダリングされる。
【0102】
プロセス400のブロックは、入力オーディオ信号の一つまたは複数の他のフレームにおいて示されるオーディオ・オブジェクトが、入力オーディオ信号の複数のフレーム(たとえば、入力オーディオ信号のフレームのすべて)を含む完全な出力オーディオ信号を生成するためにさまざまなクラスターに割り当てられるかまたはレンダリングされるように、入力オーディオ信号の一つまたは複数の他のフレームについて繰り返されてもよいことに留意されたい。いくつかの実装では、完全な出力オーディオ信号は、保存され、レンダリングのためにデバイス(たとえば、モバイルデバイス、テレビ、スピーカーなどのユーザーデバイス)に送信されるなどしてもよい。
【0103】
図5は、本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。本明細書で提供される他の図と同様に、
図5に示される要素のタイプおよび数は、単に例として与えられている。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。いくつかの例によれば、装置500は、本明細書において開示される方法のうちの少なくともいくつかを実行するように構成されうる。いくつかの実装では、装置500は、テレビジョン、オーディオシステムの一つまたは複数の構成要素、モバイルデバイス(セルラー電話など)、ラップトップコンピュータ、タブレットデバイス、スマートスピーカー、または別のタイプのデバイスであってもよく、またはそれらを含んでいてもよい。
【0104】
いくつかの代替的な実装によれば、装置500は、サーバーであってもよく、またはサーバーを含んでいてもよい。いくつかのそのような例では、装置500は、エンコーダであってもよく、またはエンコーダを含んでいてもよい。よって、いくつかの事例では、装置500は、ホームオーディオ環境などのオーディオ環境内で使用するように構成されたデバイスでありうるが、他の事例では、装置500は、「クラウド」、たとえば、サーバー内で使用するように構成されたデバイスでありうる。
【0105】
この例では、装置500は、インターフェース・システム505および制御システム510を含む。インターフェース・システム505は、いくつかの実装では、オーディオ環境の一つまたは複数の他のデバイスと通信するように構成されうる。オーディオ環境は、いくつかの例では、ホームオーディオ環境でありうる。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、街路または歩道環境、公園環境など、別のタイプの環境でありうる。インターフェース・システム505は、いくつかの実装では、オーディオ環境のオーディオデバイスと制御情報および関連するデータを交換するように構成されうる。制御情報および関連するデータは、いくつかの例では、装置500が実行している一つまたは複数のソフトウェアアプリケーションに関係しうる。
【0106】
インターフェース・システム505は、いくつかの実装では、コンテンツ・ストリームを受信または提供するように構成されてもよい。コンテンツ・ストリームは、オーディオ・データを含んでいてもよい。オーディオ・データは、オーディオ信号を含んでいてもよいが、これに限定されない。いくつかの事例では、オーディオ・データは、チャネル・データおよび/または空間メタデータなどの空間データを含みうる。いくつかの例では、コンテンツ・ストリームは、ビデオ・データと、ビデオ・データに対応するオーディオ・データとを含みうる。
【0107】
インターフェース・システム505は、一つまたは複数のネットワーク・インターフェースおよび/または一つまたは複数の外部デバイス・インターフェース(一つまたは複数のユニバーサルシリアルバス(USB)インターフェース等)を含んでいてもよい。いくつかの実装によれば、インターフェース・システム505は、一つまたは複数のワイヤレス・インターフェースを含みうる。インターフェース・システム505は、一つまたは複数のマイクロフォン、一つまたは複数のスピーカー、ディスプレイシステム、タッチセンサーシステム、および/またはジェスチャーセンサーシステム等のユーザーインターフェースを実装するための一つまたは複数のデバイスを含んでいてもよい。いくつかの例では、インターフェース・システム505は、制御システム510と、
図5に示される任意的なメモリシステム515などのメモリシステムとの間の一つまたは複数のインターフェースを含むことができる。しかしながら、制御システム510は、場合によってはメモリシステムを含んでいてもよい。インターフェース・システム505は、いくつかの実装では、環境内の一つまたは複数のマイクロフォンから入力を受信するように構成されうる。
【0108】
制御システム510は、たとえば、汎用のシングルチップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、および/またはディスクリートハードウェアコンポーネントを含んでいてもよい。
【0109】
いくつかの実装では、制御システム510は、2つ以上のデバイス内に存在しうる。たとえば、いくつかの実装では、制御システム510の一部は、本明細書に示される環境のうちの1つの中のデバイス内に存在してもよく、制御システム510の別の部分は、サーバー、モバイルデバイス(たとえば、スマートフォンまたはタブレットコンピュータ)などの前記環境の外のデバイス内に存在してもよい。他の例では、制御システム510の一部は、1つの環境内のデバイス内に存在してもよく、制御システム510の別の部分は、前記環境の一つまたは複数の他のデバイス内に存在してもよい。たとえば、制御システム510の一部は、サーバー等のクラウドベースのサービスを実装しているデバイス内に存在してもよく、制御システム510の別の部分は、別のサーバー、メモリデバイス等のクラウドベースのサービスを実装している別のデバイス内に存在してもよい。インターフェース・システム505はまた、いくつかの例では、2つ以上のデバイス内に存在してもよい。
【0110】
いくつかの実装では、制御システム510は、本明細書で開示される方法を少なくとも部分的に実行するように構成されうる。いくつかの例によれば、制御システム510は、オーディオ・オブジェクトをクラスタリングする方法を実装するように構成されうる。
【0111】
本明細書で説明する方法の一部または全部は、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがこれらに限定されない、本明細書で説明されるものなどのメモリデバイスを含むことができる。一つまたは複数の非一時的媒体は、たとえば、
図5に示される任意的なメモリシステム515および/または制御システム510内に存在することができる。よって、本開示で説明する主題のさまざまな発明的側面は、ソフトウェアが記憶された一つまたは複数の非一時的媒体において実装されうる。ソフトウェアは、たとえば、レンダリング・メタデータのさまざまなカテゴリーへのクラスターの割り振りを決定し、割り振られたクラスターにオーディオ・オブジェクトを割り当てまたはレンダリングするための命令を含んでいてもよい。ソフトウェアは、たとえば、
図5の制御システム510などの制御システムの一つまたは複数の構成要素によって実行可能であってもよい。
【0112】
いくつかの例では、装置500は、
図5に示される任意的なマイクロフォンシステム520を含むことができる。任意的なマイクロフォンシステム520は、一つまたは複数のマイクロフォンを含むことができる。いくつかの実装では、マイクロフォンのうちの一つまたは複数は、スピーカーシステムのスピーカー、スマートオーディオデバイスなど、別のデバイスの一部であるか、またはそれに関連付けられうる。いくつかの例では、装置500はマイクロフォンシステム520を含まないことがある。しかしながら、いくつかのそのような実装では、装置500は、それでもなお、インターフェース・システム510を介してオーディオ環境における一つまたは複数のマイクロフォンのためのマイクロフォンデータを受信するように構成されうる。いくつかのそのような実装では、装置500のクラウドベースの実装は、インターフェース・システム510を介してオーディオ環境内の一つまたは複数のマイクロフォンからマイクロフォンデータ、または該マイクロフォンデータに少なくとも部分的に対応する雑音メトリックを受信するように構成されうる。
【0113】
いくつかの実装によれば、装置500は、
図5に示される任意的なラウドスピーカーシステム525を含むことができる。任意的なラウドスピーカーシステム525は、本明細書では「スピーカー」またはより一般的には「オーディオ再生トランスデューサ」と呼ばれることもある一つまたは複数のラウドスピーカーを含むことができる。いくつかの例(たとえば、クラウドベースの実装)では、装置500はラウドスピーカーシステム525を含まなくてもよい。いくつかの実装では、装置500はヘッドフォンを含んでいてもよい。ヘッドフォンは、ヘッドフォンジャックを介して、またはワイヤレス接続(たとえば、BLUETOOTH(登録商標))を介して装置500に接続または結合されうる。
【0114】
本開示のいくつかの側面は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)システムまたはデバイスと、開示された方法またはそのステップの一つまたは複数の例を実装するためのコードを記憶する有形のコンピュータ可読媒体(たとえば、ディスク)とを含む。たとえば、いくつかの開示されたシステムは、開示された方法の実施形態またはそのステップを含む、データに対する多様な動作のうちのいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであるか、またはそれらを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して、開示される方法(またはそのステップ)の一つまたは複数の例を実行するようにプログラムされる(および/または他の仕方で構成される)処理サブシステムとを含む、コンピュータシステムであってもよく、またはそれを含んでいてもよい。
【0115】
いくつかの実施形態は、開示された方法の一つまたは複数の例の実行を含む、オーディオ信号(複数可)に対して必要な処理を実行するように構成された(たとえば、プログラムされ、他の仕方で構成された)構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装されてもよい。代替的に、開示されるシステム(またはその要素)の実施形態は、開示される方法の一つまたは複数の例を含む多様な動作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された汎用プロセッサ(たとえば、入力デバイスおよびメモリを含みうるパーソナルコンピュータ(PC)または他のコンピュータシステムまたはマイクロプロセッサ)として実装されうる。代替的に、本発明のシステムのいくつかの実施形態の要素は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムはまた、他の要素(たとえば、一つまたは複数のラウドスピーカーおよび/または一つまたは複数のマイクロフォン)を含む。開示される方法の一つまたは複数の例を実行するように構成された汎用プロセッサは、入力デバイス(たとえば、マウスおよび/またはキーボード)、メモリ、およびディスプレイデバイスに結合されうる。
【0116】
本開示の別の側面は、開示された方法またはそのステップの一つまたは複数の例を実行するためのコード(たとえば、実行するように実行可能なコーダ)を記憶するコンピュータ可読媒体(たとえば、ディスクまたは他の有形記憶媒体)である。
【0117】
本開示の特定の実施形態および本開示の用途が本明細書で説明されてきたが、本明細書で説明され、特許請求される本開示の範囲から逸脱することなく、本明細書で説明される実施形態および用途に対する多くの変形が可能であることが当業者には明らかであろう。本開示のある種の形が示され説明されてきたが、本開示は、説明され示される特定の実施形態または説明される特定の方法に限定されるべきではないことを理解されたい。
【0118】
箇条書き例示的実施形態(Enumerated Example Embodiment)
〔実施例1〕
オーディオ・オブジェクトをクラスタリングする方法であって: 複数のオーディオ・オブジェクトを識別する段階であって、オーディオ・オブジェクトは、空間位置情報およびレンダリング・メタデータを示すメタデータに関連付けられる、段階と; 前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトをレンダリング・メタデータの複数のカテゴリーのうちのレンダリング・メタデータのカテゴリーに割り当てる段階であって、レンダリング・メタデータの少なくとも1つのカテゴリーは、保存されるべきレンダリング・メタデータの複数のタイプを含む、段階と; レンダリング・メタデータの各カテゴリーへの複数のオーディオ・オブジェクト・クラスターの割り振りを決定する段階であって、オーディオ・オブジェクト・クラスターは、同様の属性を有する前記複数のオーディオ・オブジェクトのうちの一つまたは複数のオーディオ・オブジェクトを含む、段階と; 空間位置情報を示すメタデータに基づいて、およびレンダリング・メタデータのカテゴリーへの前記オーディオ・オブジェクトの前記割り当てに基づいて、前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを、割り振られた複数のオーディオ・オブジェクト・クラスターにレンダリングする段階とを含む、方法。
〔実施例2〕
レンダリング・メタデータの前記カテゴリーは、バイパス・モード・カテゴリーおよび仮想化カテゴリーを含む、実施例1に記載の方法。
〔実施例3〕
前記仮想化カテゴリーに含まれる前記複数のタイプのレンダリング・メタデータは仮想化の複数のタイプを含み、各タイプは、頭部中心から前記オーディオ・オブジェクトまでの距離を表す、実施例2に記載の方法。
〔実施例4〕
レンダリング・メタデータの前記カテゴリーは、ゾーン・カテゴリーまたはスナップ・カテゴリーのうちの1つを含む、実施例1に記載の方法。
〔実施例5〕
レンダリング・メタデータの第1のカテゴリーに割り当てられたオーディオ・オブジェクトは、レンダリング・メタデータの第2のカテゴリーに割り振られた前記複数のオーディオ・オブジェクト・クラスターのうちのオーディオ・オブジェクト・クラスターに割り当てられることを禁止される、実施例1ないし4のうちいずれか一項に記載の方法。
〔実施例6〕
前記割り振られた複数のオーディオ・オブジェクト・クラスターの各オーディオ・オブジェクト・クラスターに関連付けられた空間情報および利得情報を含むオーディオ信号を送信する段階をさらに含み、前記オーディオ信号は、レンダリング・メタデータの前記第1のカテゴリーに割り当てられたあるオーディオ・オブジェクトがレンダリング・メタデータの前記第2のカテゴリーに関連付けられたオーディオ・オブジェクト・クラスターに割り当てられる諸オーディオ・オブジェクト・クラスターに関連付けられた空間情報および利得情報を含むオーディオ信号よりも少ない空間歪みを有する、実施例1ないし5のうちいずれか一項に記載の方法。
〔実施例7〕
レンダリング・メタデータの各カテゴリーへの前記複数のオーディオ・オブジェクト・クラスターの前記割り振りを決定することは: (i)レンダリング・メタデータの各カテゴリーへの初期の複数のオーディオ・オブジェクト・クラスターの初期割り振りを決定し; (ii)空間位置情報を示すメタデータに基づいて、およびレンダリング・メタデータの前記カテゴリーへの前記オーディオ・オブジェクトの前記割り当てに基づいて、前記オーディオ・オブジェクトを前記初期の複数のオーディオ・オブジェクト・クラスターに割り当て; (iii)レンダリング・メタデータの各カテゴリーについて、前記オーディオ・オブジェクトの、前記初期の複数のオーディオ・オブジェクト・クラスターへの前記割り当てのカテゴリー・コストを決定し; (iv)レンダリング・メタデータの各カテゴリーについての前記カテゴリー・コストに少なくとも部分的に基づいて、前記初期の複数のオーディオ・オブジェクト・クラスターの、レンダリング・メタデータの各カテゴリーへの更新された割り振りを決定し; (iv)停止基準に達するまで(ii)~(iv)を繰り返すことを含む、実施例1ないし6のうちいずれか一項に記載の方法。
〔実施例8〕
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、レンダリング・メタデータの前記カテゴリーに割り振られたオーディオ・オブジェクト・クラスターの位置と、レンダリング・メタデータの前記カテゴリーに割り振られた前記オーディオ・オブジェクト・クラスターに割り当てられたオーディオ・オブジェクトの位置とに基づく、実施例7に記載の方法。
〔実施例9〕
前記カテゴリー・コストは、オーディオ・オブジェクトが割り当てられたオーディオ・オブジェクト・クラスターの左対右の配置に対する、前記オーディオ・オブジェクトの左対右の配置に基づく、実施例8に記載の方法。
〔実施例10〕
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、前記オーディオ・オブジェクトのラウドネスに基づく、実施例7ないし9のうちいずれか一項に記載の方法。
〔実施例11〕
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、オーディオ・オブジェクトから、前記オーディオ・オブジェクトが割り当てられたオーディオ・オブジェクト・クラスターまでの距離に基づく、実施例7ないし10のうちいずれか一項に記載の方法。
〔実施例12〕
前記初期の複数のオーディオ・オブジェクト・クラスターへの前記オーディオ・オブジェクトの前記割り当ての前記カテゴリー・コストを決定することは、オーディオ・オブジェクトのレンダリング・メタデータのタイプと、前記オーディオ・オブジェクトが割り当てられたオーディオ・オブジェクト・クラスターのレンダリング・メタデータのタイプとの類似性に基づく、実施例7ないし11のうちいずれか一項に記載の方法。
〔実施例13〕
レンダリング・メタデータの各カテゴリーについての前記カテゴリー・コストに基づいてグローバル・コストを決定する段階をさらに含み、前記初期の複数のオーディオ・オブジェクト・クラスターの更新された割り振りは、前記グローバル・コストに基づく、実施例7ないし12のうちいずれか一項に記載の方法。
〔実施例14〕
停止基準に達するまで(ii)~(iv)を繰り返すことが、前記グローバル・コストの最小が達成されたことを判別することを含む、実施例12に記載の方法。
〔実施例15〕
前記更新された割り振りを決定することは、レンダリング・メタデータの前記複数のカテゴリーのうちのレンダリング・メタデータの少なくとも1つのカテゴリーに割り振られたオーディオ・オブジェクト・クラスターの数を変更することを含む、実施例7ないし14のうちいずれか一項に記載の方法。
〔実施例16〕
レンダリング・メタデータの各カテゴリーについての前記カテゴリー・コストに基づいてグローバル・コストを決定する段階をさらに含み、オーディオ・オブジェクト・クラスターの数は、前記グローバル・コストに基づいて決定される、実施例15に記載の方法。
〔実施例17〕
オーディオ・オブジェクト・クラスターの数を決定することは、追加されうるオーディオ・オブジェクト・クラスターの最大数を示すオーディオ・オブジェクト・クラスターの数に対する制約条件のもとで前記グローバル・コストを最小化することを含む、実施例16に記載の方法。
〔実施例18〕
前記複数のオーディオ・オブジェクトのうちのオーディオ・オブジェクトを、前記割り振られた複数のオーディオ・オブジェクト・クラスターにレンダリングすることは、オーディオ・オブジェクトが割り当てられるレンダリング・メタデータのカテゴリーに割り振られた一つまたは複数のオーディオ・オブジェクト・クラスターにレンダリングされるときの、前記複数のオーディオ・オブジェクトのうちの各オーディオ・オブジェクトについてのオブジェクト対クラスター利得を決定することを含む、実施例1ないし17のうちいずれか一項に記載の方法。
〔実施例19〕
レンダリング・メタデータの前記複数のカテゴリーのうちの第1のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得は、レンダリング・メタデータの前記複数のカテゴリーのうちの第2のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得とは別個に決定される、実施例18に記載の方法。
〔実施例20〕
レンダリング・メタデータの前記複数のカテゴリーのうちの第1のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得は、レンダリング・メタデータの前記複数のカテゴリーのうちの第2のカテゴリーに割り当てられたオーディオ・オブジェクトについてのオブジェクト対クラスター利得と一緒に決定される、実施例18に記載の方法。
〔実施例21〕
前記割り振られた複数のオーディオ・オブジェクト・クラスターの各オーディオ・オブジェクト・クラスターに関連付けられた空間情報および利得情報を含むオーディオ信号を送信する段階をさらに含み、前記オーディオ信号を送信することは、前記複数のオーディオ・オブジェクトの各オーディオ・オブジェクトに関連付けられた空間情報および利得情報を含むオーディオ信号よりも帯域幅の要求が少ない、実施例1ないし20のうちいずれか一項に記載の方法。
〔実施例22〕
実施例1ないし21のうちいずれか一項に記載の方法を実施するように構成された装置。
〔実施例23〕
実施例1ないし21のうちいずれか一項に記載の方法を実施するように構成されたシステム。
〔実施例24〕
ソフトウェアを記憶している一つまたは複数の非一時的なコンピュータ可読な記憶媒体であって、前記ソフトウェアは、実施例1ないし21のうちいずれか一項に記載の方法を実行するよう一つまたは複数のデバイスを制御するための命令を含む、記憶媒体。
【国際調査報告】