IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特開2024-105657空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024105657
(43)【公開日】2024-08-06
(54)【発明の名称】空間的に拡散したまたは大きなオーディオ・オブジェクトの処理
(51)【国際特許分類】
   H04S 7/00 20060101AFI20240730BHJP
【FI】
H04S7/00 300
【審査請求】有
【請求項の数】22
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024082267
(22)【出願日】2024-05-21
(62)【分割の表示】P 2022120409の分割
【原出願日】2014-07-24
(31)【優先権主張番号】P201331193
(32)【優先日】2013-07-31
(33)【優先権主張国・地域又は機関】ES
(31)【優先権主張番号】61/885,805
(32)【優先日】2013-10-02
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ブリーバルト,ディルク ジェロエン
(72)【発明者】
【氏名】ルー,リエ
(72)【発明者】
【氏名】トウィンゴ,ニコラ エール.
(72)【発明者】
【氏名】マテオス ソレ,アントニオ
(57)【要約】
【課題】空間的に拡散したまたは大きなオーディオ・オブジェクトの処理を提供する。
【解決手段】拡散したまたは空間的に大きなオーディオ・オブジェクトが特殊な処理のために特定されてもよい。脱相関プロセスが該大きなオーディオ・オブジェクトに対応するオーディオ信号に対して実行されて、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成してもよい。これらの脱相関された大きなオーディオ・オブジェクトのオーディオ信号はオブジェクト位置と関連付けられていてもよい。オブジェクト位置は静的なまたは時間変化する位置でありうる。たとえば、脱相関された大きなオーディオ・オブジェクトのオーディオ信号は、仮想的なまたは実際のスピーカー位置にレンダリングされてもよい。脱相関、関連付けおよび/またはシーン単純化プロセスは、オーディオ・データをエンコードするプロセスの前に実行されてもよい。
【選択図】図6A
【特許請求の範囲】
【請求項1】
少なくとも一つのオーディオ・オブジェクトを含むオーディオ・データを受領する段階であって、前記オーディオ・データは少なくとも一つのオーディオ信号およびオーディオ・オブジェクト・メタデータを含み、前記少なくとも一つのオーディオ信号は、前記少なくとも一つのオーディオ・オブジェクトに関連し、前記オーディオ・オブジェクト・メタデータは、前記少なくとも一つのオーディオ・オブジェクトに関連し、前記オーディオ・オブジェクト・メタデータは前記少なくとも一つのオーディオ・オブジェクトのサイズおよび前記少なくとも一つのオーディオ・オブジェクトが空間的に拡散しているかどうかを示すフラグを含む、段階と;
前記少なくとも一つのオーディオ・オブジェクトが再生環境において閾値より大きな知覚されるサイズをもつことを示す、前記少なくとも一つのオーディオ・オブジェクトが空間的に拡散しているとの判別に基づいて、前記少なくとも一つのオーディオ・オブジェクトに対して脱相関フィルタリングを実行して、脱相関されたオーディオ・オブジェクト・オーディオ信号を決定する段階であって、前記脱相関されたオーディオ・オブジェクト・オーディオ信号のそれぞれは複数の再生スピーカーのうちの少なくとも一つの再生スピーカーに対応する、段階と;
前記脱相関されたオーディオ・オブジェクト・オーディオ信号を出力する段階とを含む、
方法。
【請求項2】
スピーカー・ゾーン制約条件に基づいて、前記脱相関されたオーディオ・オブジェクト・オーディオ信号を前記複数の再生スピーカーにレンダリングする段階をさらに含む、請求項1に記載の方法。
【請求項3】
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは静的である、請求項1記載の方法。
【請求項4】
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは時間とともに変化する、請求項1記載の方法。
【請求項5】
前記再生環境の実際の再生スピーカー配位に基づいて前記脱相関されたオーディオ・オブジェクト・オーディオ信号をレンダリングことをさらに含む、請求項1記載の方法。
【請求項6】
前記脱相関されたオーディオ・オブジェクト・オーディオ信号にレベル調整プロセスを適用する段階をさらに含む、請求項1記載の方法。
【請求項7】
脱相関を実行することが、遅延およびフィルタのうちの少なくとも一方を含む、請求項1記載の方法。
【請求項8】
脱相関を実行することが、全域通過フィルタおよび擬似ランダム・フィルタのうちの少なくとも一方を含む、請求項1記載の方法。
【請求項9】
脱相関を実行することが、残響プロセスを含む、請求項1記載の方法。
【請求項10】
前記脱相関されたオーディオ・オブジェクト・オーディオ信号を仮想スピーカー位置に従ってレンダリングすることをさらに含む、請求項1記載の方法。
【請求項11】
前記脱相関されたオーディオ・オブジェクト・オーディオ信号をクラスタリングして、前記脱相関されたオーディオ・オブジェクト・オーディオ信号の一つまたは複数のグループを生成する段階をさらに含み、グループの数は前記脱相関されたオーディオ・オブジェクト・オーディオ信号の数よりも少ない、請求項1に記載の方法。
【請求項12】
請求項1に記載の方法を実行するための命令を記憶している物理的な非一時的なコンピュータ読み取り可能な媒体を有するコンピュータ・プログラム・プロダクト。
【請求項13】
少なくとも一つのオーディオ・オブジェクトを含むオーディオ・データを受領するように構成された受領器であって、前記オーディオ・データは少なくとも一つのオーディオ信号およびオーディオ・オブジェクト・メタデータを含み、前記少なくとも一つのオーディオ信号は、前記少なくとも一つのオーディオ・オブジェクトに関連し、前記オーディオ・オブジェクト・メタデータは、前記少なくとも一つのオーディオ・オブジェクトに関連し、前記オーディオ・オブジェクト・メタデータは、前記少なくとも一つのオーディオ・オブジェクトのサイズおよび前記少なくとも一つのオーディオ・オブジェクトが空間的に拡散しているかどうかを示すフラグを含む、受領器と;
前記少なくとも一つのオーディオ・オブジェクトが再生環境において閾値より大きな知覚されるサイズをもつことを示す、前記少なくとも一つのオーディオ・オブジェクトが空間的に拡散しているとの判別に基づいて、前記少なくとも一つのオーディオ・オブジェクトに対して脱相関フィルタリングを実行して、脱相関されたオーディオ・オブジェクト・オーディオ信号を決定する段階であって、前記脱相関されたオーディオ・オブジェクト・オーディオ信号のそれぞれは複数の再生スピーカーのうちの少なくとも一つの再生スピーカーに対応する、段階と、前記脱相関されたオーディオ・オブジェクト・オーディオ信号を出力する段階とを実行するように構成された脱相関器とを有する、
装置。
【請求項14】
スピーカー・ゾーン制約条件に基づいて、前記脱相関されたオーディオ・オブジェクト・オーディオ信号を前記複数の再生スピーカーにレンダリングするためのレンダラーをさらに有する、請求項13に記載の装置。
【請求項15】
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは静的である、請求項13記載の装置。
【請求項16】
前記少なくとも一つのオーディオ・オブジェクトが少なくとも一つのオブジェクト位置に関連付けられており、前記少なくとも一つのオブジェクト位置のうち少なくとも一つは時間とともに変化する、請求項13記載の装置。
【請求項17】
前記再生環境の実際の再生スピーカー配位に基づいて前記脱相関されたオーディオ・オブジェクト・オーディオ信号をレンダリングするレンダラーをさらに有する、請求項13記載の装置。
【請求項18】
前記脱相関されたオーディオ・オブジェクト・オーディオ信号にレベル調整プロセスを適用するためのレベル調整器をさらに有する、請求項13記載の装置。
【請求項19】
前記脱相関器が、遅延およびフィルタのうちの少なくとも一方を含む、請求項13記載の装置。
【請求項20】
前記脱相関器が、全域通過フィルタおよび擬似ランダム・フィルタのうちの少なくとも一方を含む、請求項13記載の装置。
【請求項21】
前記脱相関器が、残響プロセスを含む、請求項13記載の装置。
【請求項22】
仮想スピーカー位置に従って前記脱相関されたオーディオ・オブジェクト・オーディオ信号をレンダリングするためのレンダラーをさらに有する、請求項13に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2013年7月31日に出願されたスペイン特許出願第P201331193号および2013年10月2日に出願された米国仮出願第61/885,805号からの優先権を主張する。各出願の内容はここに参照によってその全体において組み込まれる。
【0002】
技術分野
本開示は、オーディオ・データを処理することに関する。特に、本開示は、拡散したまたは空間的に大きなオーディオ・オブジェクトに対応するオーディオ・データを処理することに関する。
【背景技術】
【0003】
1927年に映画に音声が導入されて以来、映画サウンドトラックの芸術的な意図を捉えてその内容を再現するために使われる技術は着実に進歩を遂げてきた。1970年代には、ドルビーは、3つのスクリーン・チャネルおよびモノのサラウンド・チャネルとの混合をエンコードおよび配布するコスト効率のよい手段を導入した。ドルビーは1990年代に、離散的な左、中央および右スクリーン・チャネル、左および右のサラウンド・アレイおよび低域効果のためのサブウーファー・チャネルを与える5.1チャネル・フォーマットをもって映画館にデジタル・サウンドをもたらした。2010年に導入されたドルビー・サラウンド7.1は、既存の左および右サラウンド・チャネルを四つの「ゾーン」に分割することによって、サラウンド・チャネルの数を増やした。
【0004】
映画館およびホームシアターのオーディオ再生システムはいずれもますます多用途かつ複雑になりつつある。ホームシアターのオーディオ再生システムはますます多くのスピーカーを含むようになってきている。チャネル数が増し、ラウドスピーカー・レイアウトが平面的な二次元(2D)アレイから高さを含む三次元(3D)アレイに移行するにつれ、再生環境における音の再現はますます複雑なプロセスになりつつある。改善されたオーディオ処理方法が望ましいであろう。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】V. Pulkki、Compensating Displacement of Amplitude-Panned Virtual Sources、Audio Engineering Society (AES) International Conference on Virtual, Synthetic and Entertainment Audio
【非特許文献2】Robinson and Vinton、"Automated Speech/Other Discrimination for Loudness Monitoring"、Audio Engineering Society, Preprint number 6437 of Convention 118, May 2005
【発明の概要】
【発明が解決しようとする課題】
【0006】
拡散したまたは空間的に大きなオーディオ・オブジェクトを処理するための改善された方法が提供される。本稿での用法では、用語「オーディオ・オブジェクト」は、オーディオ信号(本稿では「オーディオ・オブジェクト信号」とも称される)および関連するメタデータを指してもよい。関連するメタデータは、いかなる特定の再生環境も参照することなく生成または「オーサリング」されてもよい。関連するメタデータは、オーディオ・オブジェクト位置データ、オーディオ・オブジェクト利得データ、オーディオ・オブジェクト・サイズ・データ、オーディオ・オブジェクト軌跡データなどを含んでいてもよい。本稿での用法では、用語「レンダリング」は、オーディオ・オブジェクトを、特定の再生環境のためのスピーカー・フィード信号に変換するプロセスを指しうる。レンダリング・プロセスは、少なくとも部分的には、前記関連するメタデータに従って、かつ再生環境データに従って実行されてもよい。再生環境データは、再生環境中のスピーカーの数の指示および再生環境内の各スピーカーの位置の指示を含んでいてもよい。
【0007】
空間的に大きなオーディオ・オブジェクトは、点音源として知覚されることは意図されておらず、その代わり、大きな空間領域をカバーするものとして知覚されるべきである。いくつかの事例では、大きなオーディオ・オブジェクトは聴取者を取り囲むものとして知覚されるべきである。そのようなオーディオ効果は、単なるパンによっては達成可能でないことがあり、むしろ追加的な処理を必要とすることがある。説得力のある空間的なオブジェクト・サイズまたは空間的な拡散性を生成するためには、再生環境におけるスピーカー信号のかなりの割合が互いに独立である、または少なくとも無相関(たとえば、一次の相互相関または共分散に関して独立)であるべきである。シアター用のレンダリング・システムのような十分に複雑なレンダリング・システムはそのような脱相関を提供することができることがある。しかしながら、ホームシアター・システムのために意図されたもののようなそれほど複雑でないレンダリング・システムは十分な脱相関を提供することができないことがありうる。
【課題を解決するための手段】
【0008】
本稿に記載されるいくつかの実装は、拡散的なまたは空間的に大きなオーディオ・オブジェクトを特殊な処理のために特定することに関わっていてもよい。脱相関プロセスが該大きなオーディオ・オブジェクトに対応するオーディオ信号に対して実行されて、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成してもよい。これらの脱相関された大きなオーディオ・オブジェクトのオーディオ信号はオブジェクト位置と関連付けられていてもよい。オブジェクト位置は静的なまたは時間変化する位置でありうる。関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。たとえば、脱相関された大きなオーディオ・オブジェクトのオーディオ信号は、仮想スピーカー位置にレンダリングされてもよい。いくつかの実装では、そのようなレンダリング・プロセスの出力はシーン単純化プロセスに入力されてもよい。
【0009】
よって、本開示の少なくともいくつかの側面は、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わってもよい方法において実装されてもよい。オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含んでいてもよい。メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含んでいてもよい。
【0010】
本方法は、オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別し、該大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付けることに関わっていてもよい。関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。実際の再生スピーカー配位は、最終的に、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われてもよい。
【0011】
本発明は、大きなオーディオ・オブジェクトについての脱相関メタデータを受領することに関わっていてもよい。脱相関プロセスは、少なくとも部分的には、脱相関メタデータに従って実行されてもよい。本方法は、関連付けプロセスから出力されるオーディオ・データをエンコードすることに関わってもよい。いくつかの実装では、エンコード・プロセスは、大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。
【0012】
前記オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置データの少なくとも一部に対応する位置を含んでいてもよい。前記オブジェクト位置の少なくとも一部は、静的であってもよい。しかしながら、いくつかの実装では、前記オブジェクト位置の少なくとも一部は時間とともに変化してもよい。
【0013】
関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を仮想スピーカー位置に従ってレンダリングすることに関わっていてもよい。いくつかの例では、受領プロセスは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を受領することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、受領されたオーディオ・ベッド信号または受領されたオーディオ・オブジェクト信号の少なくとも一部と混合することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力することに関わっていてもよい。
【0014】
本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用することに関わっていてもよい。いくつかの実装では、大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよく、レベル調整プロセスは少なくとも部分的には、該大きなオーディオ・オブジェクトのオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存してもよい。
【0015】
本方法は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除することに関わっていてもよい。しかしながら、いくつかの実装では、本方法は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持することに関わってもよい。
【0016】
大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよい。いくつかのそのような実装では、本方法は、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することに関わってもよい。本方法は、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することに関わっていてもよい。本方法は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合することに関わっていてもよい。
【0017】
いくつかの実装では、本方法は、脱相関プロセス後にオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わっていてもよい。いくつかのそのような実装では、オーディオ・オブジェクト・クラスタリング・プロセスは、関連付けプロセス後に実行されてもよい。
【0018】
本方法はさらに、コンテンツ型を判別するためにオーディオ・データを評価することに関わっていてもよい。いくつかのそのような実装では、脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、実行されるべき脱相関の量はコンテンツ型に依存してもよい。脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタおよび/または残響アルゴリズムに関わってもよい。
【0019】
本稿に開示される方法は、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび/またはそれらの組み合わせを介して実装されてもよい。たとえば、本開示の少なくともいくつかの側面は、インターフェース・システムおよび論理システムを含む装置において実装されてもよい。インターフェース・システムはユーザー・インターフェースおよび/またはネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本装置は、メモリ・システムを含んでいてもよい。インターフェース・システムは、論理システムとメモリ・システムとの間の少なくとも一つのインターフェースを含んでいてもよい。
【0020】
論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような少なくとも一つのプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理、離散的なハードウェア・コンポーネントおよび/またはそれらの組み合わせを含んでいてもよい。
【0021】
いくつかの実装では、論理システムは、インターフェース・システムを介して、オーディオ・オブジェクトを含むオーディオ・データを受領することができてもよい。オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含んでいてもよい。いくつかの実装では、メタデータは、少なくともオーディオ・オブジェクト・サイズ・データを含んでいてもよい。論理システムは、オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きなオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別し、該大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付けることができてもよい。
【0022】
関連付けプロセスは、実際の再生スピーカー配位とは独立であってもよい。たとえば、関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、仮想スピーカー位置にレンダリングすることに関わっていてもよい。実際の再生スピーカー配位は、最終的に、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われてもよい。
【0023】
論理システムは、大きなオーディオ・オブジェクトについての脱相関メタデータを、インターフェース・システムを介して受領することができてもよい。脱相関プロセスは、少なくとも部分的には、脱相関メタデータに従って実行されてもよい。
【0024】
論理システムは、関連付けプロセスから出力されるオーディオ・データをエンコードすることができてもよい。いくつかの実装では、エンコード・プロセスは、大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。
【0025】
前記オブジェクト位置の少なくとも一部は、静的であってもよい。大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含んでいてもよい。オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置メタデータの少なくとも一部に対応する位置を含んでいてもよい。
【0026】
受領プロセスは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を受領することに関わっていてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、受領されたオーディオ・ベッド信号または受領されたオーディオ・オブジェクト信号の少なくとも一部と混合することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力することができてもよい。
【0027】
論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用することができてもよい。レベル調整プロセスは少なくとも部分的には、該大きなオーディオ・オブジェクトのオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存してもよい。
【0028】
論理システムは、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除することができてもよい。しかしながら、本装置は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持することができてもよい。
【0029】
論理システムは、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することができてもよい。論理システムは、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することができてもよい。論理システムは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合することに関わっていてもよい。
【0030】
論理システムは、脱相関プロセス後にオーディオ・オブジェクト・クラスタリング・プロセスを実行することができてもよい。いくつかの実装では、オーディオ・オブジェクト・クラスタリング・プロセスは、関連付けプロセス後に実行されてもよい。
【0031】
論理システムは、コンテンツ型を判別するためにオーディオ・データを評価することができてもよい。脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、実行されるべき脱相関の量はコンテンツ型に依存してもよい。脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタおよび/または残響アルゴリズムに関わってもよい。
【0032】
本明細書に記載される主題の一つまたは複数の実装の詳細が、付属の図面および以下の記述において記載される。他の特徴、側面および利点は、該記述、図面および請求項から明白になるであろう。以下の図の相対的な寸法は縮尺通りに描かれていないことがあることを注意しておく。
【図面の簡単な説明】
【0033】
図1】ドルビー・サラウンド5.1配位をもつ再生環境の例を示す図である。
図2】ドルビー・サラウンド7.1配位をもつ再生環境の例を示す図である。
図3】AおよびBは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示す図である。
図4A】仮想再生環境においてさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース(GUI)の例を示す図である。
図4B】別の再生環境の例を示す図である。
図5】空間的に大きなオーディオ・オブジェクトのためのオーディオ処理の例を与える流れ図である。
図6A】大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。
図6B】大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。
図6C】大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。
図6D】大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。
図6E】大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。
図6F】大きなオーディオ・オブジェクトを処理することができるオーディオ処理装置のコンポーネントの例を示す図である。
図7】クラスタリング・プロセスを実行できるシステムの例を示すブロック図である。
図8】適応的なオーディオ処理システムにおいてオブジェクトおよび/またはベッドをクラスタリングすることのできるシステムの例を示すブロック図である。
図9】大きなオブジェクトのための脱相関処理後のクラスタリング・プロセスの例を与えるブロック図である。
図10A】再生環境に対する仮想源位置の例を示す図である。
図10B】再生環境に対する仮想源位置の代替的な例を示す図である。
図11】オーディオ処理装置のコンポーネントの例を与えるブロック図である。 さまざまな図面における同様の参照符号および指定は同様の要素を示す。
【発明を実施するための形態】
【0034】
以下の記述は、本開示のいくつかの斬新な側面およびこれら斬新な側面が実装されうるコンテキストの例を記述する目的のためのある種の実装に向けられる。しかしながら、本稿の教示はさまざまな異なる仕方で適用されることができる。たとえば、さまざまな実装が具体的な再生環境を使って記述されているが、本稿の教示は他の既知の再生環境および将来導入されうる再生環境に広く適用可能である。さらに、記載される実装は、ハードウェア、ソフトウェア、ファームウェア、クラウド・ベースのシステム等のようなさまざまな装置およびシステムにおいて少なくとも部分的には実装されてもよい。したがって、本開示の教示は、図面に示されるおよび/または本稿で記述される実装に限定されることは意図されておらず、むしろ広い適用可能性をもつものである。
【0035】
図1は、ドルビー・サラウンド5.1配位をもつ再生環境の例を示している。この例において、再生環境は映画館再生環境である。ドルビー・サラウンド5.1は1990年代に開発されたが、この配位はいまだ広く家庭および映画館の再生環境に配備されている。映画館再生環境では、プロジェクター105が、たとえば映画のためのビデオ画像をスクリーン150に投影するよう構成されていてもよい。オーディオ・データは、該ビデオ画像と同期され、サウンド・プロセッサ110によって処理されてもよい。電力増幅器115はスピーカー・フィード信号を再生環境100のスピーカーに与えてもよい。
【0036】
ドルビー・サラウンド5.1配位は、左サラウンド・アレイ122のための左サラウンド・チャネル120および右サラウンド・アレイ127のための右サラウンド・チャネル125を含む。ドルビー・サラウンド5.1配位は左スピーカー・アレイ132のための左チャネル130、中央スピーカー・アレイ137のための中央チャネル135および右スピーカー・アレイ142のための右チャネル140をも含む。映画館環境では、これらのチャネルはそれぞれ左スクリーン・チャネル、中央スクリーン・チャネルおよび右スクリーン・チャネルと称されることがある。サブウーファー145について別個の低域効果(LFE: low-frequency effects)チャネル144が設けられる。
【0037】
2010年に、ドルビーはドルビー・サラウンド7.1を導入することによってデジタル映画館サウンドに対する向上を提供した。図2は、ドルビー・サラウンド7.1配位をもつ再生環境の例を示している。デジタル・プロジェクター205はデジタル・ビデオ・データを受領し、ビデオ画像をスクリーン150上に投影するよう構成されていてもよい。オーディオ・データは、サウンド・プロセッサ210によって処理されてもよい。電力増幅器215がスピーカー・フィード信号を再生環境200のスピーカーに提供してもよい。
【0038】
ドルビー・サラウンド5.1と同様に、ドルビー・サラウンド7.1配位は、左スピーカー・アレイ132のための左チャネル、中央スピーカー・アレイ137のための中央チャネル135、右スピーカー・アレイ142のための右チャネル140およびサブウーファー145のためのLFEチャネル144を含む。ドルビー・サラウンド7.1配位は、左側方サラウンド(Lss: left side surround)・アレイ220および右側方サラウンド(Rss: right side surround)・アレイ225を含み、そのそれぞれは単一チャネルによって駆動されてもよい。
【0039】
しかしながら、ドルビー・サラウンド7.1は、ドルビー・サラウンド5.1の左および右のサラウンド・チャネルを四つのゾーンに分割することによって、サラウンド・チャネルの数を増している。すなわち、左側方サラウンド・アレイ220および右側方サラウンド・アレイ225に加えて、左後方サラウンド(Lrs: left rear surround)・スピーカー224および右後方サラウンド(Rrs: right rear surround)・スピーカー226のために別個のチャネルが含まれる。再生環境200内のサラウンド・ゾーンの数を増すことは、音の定位を著しく改善できる。
【0040】
より没入的な環境を生成しようとする努力において、いくつかの再生環境は、増加した数のチャネルによって駆動される増加した数のスピーカーをもって構成されることがある。さらに、いくつかの再生環境は、さまざまな高さに配備されるスピーカーを含むことがあり、そのようなスピーカーの一部は再生環境の座席領域より上方のエリアからの音を生成するよう構成された「高さスピーカー(height speaker)」であることがある。
【0041】
図3のAおよびBは、高さスピーカー配位を含むホームシアター再生環境の二つの例を示している。これらの例では、再生環境300aおよび300bは、左サラウンド・スピーカー322、右サラウンド・スピーカー327、左スピーカー332、右スピーカー342、中央スピーカー337およびサブウーファー145を含むドルビー・サラウンド5.1配位の主な特徴を含む。しかしながら、再生環境300は、高さスピーカーのためのドルビー・サラウンド5.1配位の拡張を含み、これはドルビー・サラウンド5.1.2配位と称されることがある。
【0042】
図3のAは、ホームシアター再生環境の天井360に取り付けられた高さスピーカーをもつ再生環境の例を示している。この例では、再生環境300aは、左上中間(Ltm: left top middle)位置にある高さスピーカー352および右上中間(Rtm: right top middle)位置にある高さスピーカー357を含んでいる。図3のBに示される例では、左スピーカー332および右スピーカー342は、天井360から音を反射させるよう構成されたドルビー・エレベーション(Dolby Elevation)・スピーカーである。適正に構成されれば、反射音は、聴取者365によって、あたかも音源が天井360から発しているかのように知覚されうる。しかしながら、これらのスピーカーの数および配位は単に例として挙げられている。いくつかの現行のホームシアター実装は、34個までのスピーカー位置を提供しており、構想されているホームシアター実装はさらに多くのスピーカー位置を許容することがありうる。
【0043】
よって、現在のトレンドは、より多くのスピーカーおよびより多くのチャネルを含めるだけでなく、異なる高さのスピーカーをも含めるものである。チャネルの数が増し、スピーカー・レイアウトが2Dから3Dに移行するにつれて、サウンドを位置決めし、レンダリングするタスクはますます難しくなる。
【0044】
よって、ドルビーは、3Dオーディオ・サウンド・システムのための機能を高めるおよび/またはオーサリング複雑さを軽減する、ユーザー・インターフェースを含むがそれに限られないさまざまなツールを開発した。いくつかのそのようなツールは、オーディオ・オブジェクトおよび/またはオーディオ・オブジェクトのためのメタデータを生成するために使用されうる。
【0045】
図4Aは、仮想再生環境におけるさまざまな高さにあるスピーカー・ゾーンを描くグラフィカル・ユーザー・インターフェース(GUI)の例を示している。GUI 400はたとえば、論理システムからの命令に従って、ユーザー入力装置から受領される信号に従って、などにより表示装置上に表示されてもよい。いくつかのそのような装置は図11を参照して後述する。
【0046】
仮想再生環境404のような仮想再生環境への言及に関する本稿での用法では、用語「スピーカー・ゾーン」は概括的に、実際の再生環境の再生スピーカーと一対一対応があってもなくてもよい論理的な構造体を指す。たとえば、「スピーカー・ゾーン位置」は、映画館再生環境の特定の再生スピーカー位置に対応してもしなくてもよい。その代わり、用語「スピーカー・ゾーン位置」は概括的に、仮想再生環境のゾーンを指してもよい。いくつかの実装では、仮想再生環境のスピーカー・ゾーンは、たとえば、二チャネル・ステレオ・ヘッドホンの組を使ってリアルタイムに仮想サラウンド・サウンド環境を生成するドルビー・ヘッドホン(商標)(時にモバイル・サラウンド(商標)と称される)のような仮想化技術の使用を通じて、仮想スピーカーに対応してもよい。GUI 400には、第一の高さに七つのスピーカー・ゾーン402aがあり、第二の高さに二つのスピーカー・ゾーン402bがあり、仮想再生環境404内のスピーカー・ゾーンは合計九つとなっている。この例では、スピーカー・ゾーン1~3は仮想再生環境404の前方領域405にある。前方領域405はたとえば、映画館再生環境の、スクリーン150が位置する領域、家庭の、テレビジョン・スクリーンが位置する領域などに対応してもよい。
【0047】
ここで、スピーカー・ゾーン4は概括的には左領域410のスピーカーに対応し、スピーカー・ゾーン5は仮想再生環境404の右領域415のスピーカーに対応する。スピーカー・ゾーン6は左後方領域412に対応し、スピーカー・ゾーン7は仮想再生環境404の右後方領域414に対応する。スピーカー・ゾーン8は上領域420aのスピーカーに対応し、スピーカー・ゾーン9は上領域420bのスピーカーに対応し、これは仮想天井領域であってもよい。したがって、図4Aに示されるスピーカー・ゾーン1~9の位置は実際の再生環境の再生スピーカーの位置に対応してもしなくてもよい。さらに、他の実装はより多数またはより少数のスピーカー・ゾーンおよび/または高さを含んでいてもよい。
【0048】
本稿に記載されるさまざまな実装において、GUI 400のようなユーザー・インターフェースが、オーサリング・ツールおよび/またはレンダリング・ツールの一部として使用されてもよい。いくつかの実装では、オーサリング・ツールおよび/またはレンダリング・ツールは、一つまたは複数の非一時的な媒体上に記憶されるソフトウェアを介して実装されてもよい。オーサリング・ツールおよび/またはレンダリング・ツールは、(少なくとも部分的には)図11を参照して後述する論理システムおよび他の装置のようなハードウェア、ファームウェアなどによって実装されてもよい。いくつかのオーサリング実装では、関連するオーサリング・ツールが関連するオーディオ・データについてのメタデータを生成するために使用されてもよい。メタデータは、たとえば、三次元空間におけるオーディオ・オブジェクトの位置および/または軌跡を示すデータ、スピーカー・ゾーン制約条件データなどを含んでいてもよい。メタデータは、実際の再生環境の特定のスピーカー・レイアウトに関してではなく、仮想再生環境404のスピーカー・ゾーン402に関して生成されてもよい。レンダリング・ツールは、オーディオ・データおよび関連するメタデータを受領してもよく、再生環境のためのオーディオ利得およびスピーカー・フィード信号を計算してもよい。そのようなオーディオ利得およびスピーカー・フィード信号は、振幅パン・プロセスに従って計算されてもよい。振幅パン・プロセスは、音が再生環境中の位置Pから来ているような知覚を創り出すことができるものである。たとえば、スピーカー・フィード信号は、次式
xi(t)=gix(t) i=1,…,N (式1)
に従って再生環境の再生スピーカー1ないしNに与えられてもよい。
【0049】
式(1)において、xi(t)はスピーカーiに加えられるスピーカー・フィード信号を表し、giは対応するチャネルの利得因子を表し、x(t)はオーディオ信号を表し、tは時間を表す。利得因子はたとえばここに参照により組み込まれる非特許文献1のSection 2、pp.3-4に記載される振幅パン方法(amplitude panning methods)に従って決定されてもよい。いくつかの実装では、利得は周波数依存であってもよい。いくつかの実装では、x(t)をx(t-Δt)で置き換えることによって時間遅延が導入されてもよい。
【0050】
いくつかのレンダリング実装では、スピーカー・ゾーン402を参照して生成されたオーディオ再生データは、ドルビー・サラウンド5.1配位、ドルビー・サラウンド7.1配位、浜崎22.2配位または他の配位であってもよい幅広い範囲の再生環境のスピーカー位置にマッピングされうる。たとえば、図2を参照するに、レンダリング・ツールは、スピーカー・ゾーン4および5についてのオーディオ再生データを、ドルビー・サラウンド7.1配位をもつ再生環境の左側方サラウンド・アレイ220および右側方サラウンド・アレイ225にマッピングしてもよい。スピーカー・ゾーン1、2および3についてのオーディオ再生データは、それぞれ左スクリーン・チャネル230、右スクリーン・チャネル240および中央スクリーン・チャネル235にマッピングされてもよい。スピーカー・ゾーン6および7についてのオーディオ再生データは、左後方サラウンド・スピーカー224および右後方サラウンド・スピーカー226にマッピングされてもよい。
【0051】
図4Bは、別の再生環境の例を示している。いくつかの実装では、レンダリング・ツールは、スピーカー・ゾーン1、2および3についてのオーディオ再生データを再生環境450の対応するスクリーン・スピーカー455にマッピングしてもよい。レンダリング・ツールは、スピーカー・ゾーン4および5についてのオーディオ再生データを、左側方サラウンド・アレイ460および右側方サラウンド・アレイ465にマッピングしてもよく、スピーカー・ゾーン8および9についてのオーディオ再生データを、左頭上スピーカー470aおよび右頭上スピーカー470bにマッピングしてもよい。スピーカー・ゾーン6および7についてのオーディオ再生データは、左後方サラウンド・スピーカー480aおよび右後方サラウンド・スピーカー480bにマッピングされてもよい。
【0052】
いくつかのオーサリング実装では、オーサリング・ツールは、オーディオ・オブジェクトについてのメタデータを生成するために使われてもよい。メタデータは、オブジェクトの3D位置、レンダリング制約条件、コンテンツ型(たとえばダイアログ、効果など)および/または他の情報を指示してもよい。実装に依存して、メタデータは、幅データ、利得データ、軌跡データなどの他の型のデータを含んでいてもよい。いくつかのオーディオ・オブジェクトは静的であってもよく、一方、他のオーディオ・オブジェクトは動いてもよい。
【0053】
オーディオ・オブジェクトは、所与の時点における三次元空間内でのオーディオ・オブジェクトの位置を示す位置メタデータを一般に含む関連するメタデータに従ってレンダリングされる。オーディオ・オブジェクトが再生環境においてモニタリングまたは再生されるとき、オーディオ・オブジェクトは、ドルビー5.1およびドルビー7.1のような伝統的なチャネル・ベースのシステムの場合のようにあらかじめ決められた物理的チャネルに出力されるのではなく、前記位置メタデータに従って、再生環境に存在するスピーカーを使ってレンダリングされる。
【0054】
位置メタデータに加えて、意図されるオーディオ効果を生成するために他の型のメタデータが必要とされることがある。たとえば、いくつかの実装では、オーディオ・オブジェクトに関連付けられたメタデータは、「幅」と称されることもあるオーディオ・オブジェクト・サイズを示してもよい。サイズ・メタデータは、オーディオ・オブジェクトが占める空間的な面積または体積を示すために使用されてもよい。空間的に大きなオーディオ・オブジェクトは、単にオーディオ・オブジェクト位置メタデータによってのみ定義される位置をもつ点音源としてではなく、大きな空間的領域をカバーするものとして知覚されるべきである。たとえば、いくつかの事例では、大きなオーディオ・オブジェクトは、再生環境のかなりの部分、可能性としては聴取者を取り囲みさえする部分を占めるものとして知覚されるべきである。
【0055】
人間の聴覚系は、両方の耳に到達する信号の相関またはコヒーレンスの変化に非常に敏感であり、規格化された相関が+1の値より小さければ、この相関を知覚されるオブジェクト・サイズ属性にマッピングする。したがって、説得力のある空間的オブジェクト・サイズまたは空間的拡散性を作り出すためには、再生環境におけるスピーカー信号のかなりの割合が相互に独立であるまたは少なくとも無相関である(たとえば、一次相互相関または共分散の点で独立)べきである。満足のいく脱相関プロセスは典型的にはかなり複雑であり、通常は時間変化するフィルタに関わる。
【0056】
映画館サウンドトラックは、数百のオブジェクトを含むことがあり、それぞれが関連付けられた位置メタデータ、サイズ・メタデータおよび可能性としては他の空間的メタデータをもつ。さらに、映画館サウンド・システムは数百のスピーカーを含むことができ、それらのスピーカーは、オーディオ・オブジェクト位置およびサイズの満足のいく知覚を与えるよう個々に制御されうる。したがって、映画館では、数百のスピーカーによって数百のオブジェクトが再生されることがあり、オブジェクトからスピーカーへの信号マッピングは、パン係数の非常に大きな行列からなる。オブジェクトの数がMによって与えられ、スピーカーの数がNによって与えられるとき、この行列はN×N個までの要素をもつ。このことは、拡散したまたは大きなサイズのオブジェクトの再生に関わってくる。説得力のある空間的オブジェクト・サイズまたは空間的拡散性を作り出すためには、N個のスピーカー信号の有意な割合が相互に独立であるまたは少なくとも無相関であるべきである。このことは一般に、多数の(N個までの)独立な脱相関プロセスの使用に関わり、レンダリング・プロセスについての有意な処理負荷を引き起こす。さらに、脱相関の量は各オブジェクトについて異なることがあり、このことがレンダリング・プロセスをさらに複雑にする。商業シアターのためのレンダリング・システムのような十分複雑なレンダリング・システムは、そのような脱相関を与えることができることがある。
【0057】
しかしながら、ホームシアター・システムのために意図されたもののようなそれほど複雑でないレンダリング・システムは、十分な脱相関を提供できないことがありうる。いくつかのそのようなレンダリング・システムは全く脱相関を提供できない。ホームシアター・システム上で実行されるのに十分単純な脱相関プログラムはアーチファクトを導入することがある。たとえば、ダウンミックス・プロセスに続いて低計算量の脱相関プロセスが用いられる場合には、櫛形フィルタ・アーチファクトが導入されることがある。
【0058】
もう一つの潜在的な問題は、いくつかの用途では、オブジェクト・ベースのオーディオが後方互換な混合(ドルビー・デジタルまたはドルビー・デジタル・プラスなど)の形で、該後方互換の混合から一つまたは複数のオブジェクトを取り出すための追加的情報で増強されて伝送されるということである。後方互換の混合は通常、脱相関の効果を含めない。いくつかのそのようなシステムでは、オブジェクトの再構成が信頼できるように機能するのは、後方互換な混合が単純なパン手順を使って生成された場合のみである。そのようなプロセスにおける脱相関器の使用は、オーディオ・オブジェクト再構成プロセスを、時には厳しく、損なうことがある。過去には、このことは、後方互換な混合においては脱相関を適用しないことにして、それによりその混合の芸術的意図を損なうか、あるいはオブジェクト再構成プロセスにおける劣化を受け入れるかしかできないということだった。
【0059】
そのような潜在的な問題に対処するために、本稿に記載されるいくつかの実装は、特殊な処理のために拡散したまたは空間的に大きなオーディオ・オブジェクトを識別することに関わる。そのような方法および装置は、ホームシアターにおいてレンダリングされるべきオーディオ・データのために特に好適でありうる。しかしながら、これらの方法および装置は、ホームシアター用途に限定されるものではなく、広い適用可能性をもつものである。
【0060】
空間的に拡散した性質のため、大きなサイズをもつオブジェクトは、コンパクトかつ簡潔な位置をもつ点源としては知覚されない。したがって、そのように空間的に拡散したオブジェクトを再生するためには複数のスピーカーが使われる。しかしながら、大きなオーディオ・オブジェクトを再生するために使われる再生環境中のスピーカーの厳密な位置は、コンパクトで小さなサイズのオーディオ・オブジェクトを再生するために使われるスピーカーの位置ほど決定的に重要ではない。よって、大きなオーディオ・オブジェクトの高品質の再生は、脱相関された大きなオーディオ・オブジェクトの信号を再生環境の実際のスピーカーに最終的にレンダリングするために使われる実際の再生スピーカー配位についての事前の知識なしでも可能である。結果として、大きなオーディオ・オブジェクトについての脱相関プロセスは、ホームシアター・システムのような再生環境において聴取者のための再生のためにオーディオ・データをレンダリングするプロセスの前に、「上流」で実行されることができる。いくつかの例では、大きなオーディオ・オブジェクトについての脱相関プロセスは、そのような再生環境への伝送のためにオーディオ・データをエンコードする前に実行される。
【0061】
そのような実装は、再生環境のレンダラーが高い複雑さの脱相関の機能をもつことを要求しない。それにより、比較的より単純であり、より効率的であり、より安価でありうるレンダリング・プロセスを許容する。後方互換なダウンミックスは、レンダリング側脱相関のためにオブジェクトを再構成する必要なしに、可能な最善の芸術的意図を維持するよう、脱相関の効果を含みうる。高品質脱相関器は、最終的なレンダリング・プロセスの上流で、たとえばサウンド・スタジオにおけるオーサリングまたはポストプロダクション・プロセスの間に、大きなオーディオ・オブジェクトに適用されることができる。そのような脱相関器は、ダウンミックスおよび/または他の下流のオーディオ処理に関して堅牢であってもよい。
【0062】
図5は、空間的に大きなオーディオ・オブジェクトについてのオーディオ処理の例を与える流れ図である。方法500の動作は、本稿に記載される他の方法と同様に、必ずしも示された順序で実行されない。さらに、これらの方法は、図示および/または記述されるより多数または少数のブロックを含んでいてもよい。これらの方法は、少なくとも部分的には、図11に示され、後述する論理システム1110のような論理システムによって実装されてもよい。そのような論理システムは、オーディオ処理システムのコンポーネントであってもよい。代替的または追加的に、そのような方法は、ソフトウェアが記憶されている非一時的媒体を介して実装されてもよい。ソフトウェアは、少なくとも部分的には、本稿に記載される方法を実行するよう一つまたは複数の装置を制御するための命令を含んでいてもよい。
【0063】
この例では、方法500は、オーディオ・オブジェクトを含むオーディオ・データを受領することに関わるブロック505で始まる。該オーディオ・データはオーディオ処理システムによって受領されてもよい。この例では、オーディオ・オブジェクトは、オーディオ・オブジェクト信号および関連するメタデータを含む。ここで、関連するメタデータは、オーディオ・オブジェクト・サイズ・データを含む。関連するメタデータは、三次元空間におけるオーディオ・オブジェクトの位置を示すオーディオ・オブジェクト位置データ、脱相関メタデータ、オーディオ・オブジェクト利得情報なども含んでいてもよい。オーディオ・データは、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号も含んでいてもよい。
【0064】
この実装では、ブロック510は、オーディオ・オブジェクト・サイズ・データに基づいて、閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別することに関わる。たとえば、ブロック510は、数値的なオーディオ・オブジェクト・サイズ値が所定のレベルを超えるかどうかを判定することに関わっていてもよい。数値的なオーディオ・オブジェクト・サイズ値はたとえば、オーディオ・オブジェクトが占める再生環境の部分に対応してもよい。代替的または追加的に、ブロック510は、フラグ、脱相関メタデータなどのような別の型の指示が、オーディオ・オブジェクトが閾値サイズより大きいオーディオ・オブジェクト・サイズをもつことを示しているかどうかを判定することに関わっていてもよい。方法500の議論の多くは単一の大きなオーディオ・オブジェクトを処理することに関わるが、同じ(または同様の)処理が複数の大きなオーディオ・オブジェクトに適用されてもよいことは認識されるであろう。
【0065】
この例では、ブロック515は、大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行し、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成することに関わる。いくつかの実装では、脱相関プロセスは、少なくとも部分的には、受領された脱相関メタデータに従って実行されてもよい。脱相関プロセスは、遅延、全域通過フィルタ、擬似ランダム・フィルタおよび/または残響アルゴリズムに関わってもよい。
【0066】
ここで、ブロック520では、脱相関された大きなオーディオ・オブジェクトのオーディオ信号はオブジェクト位置と関連付けられる。この例では、関連付けプロセスは、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境の実際の再生スピーカーに最終的にレンダリングするために使用されうる実際の再生スピーカー配位とは独立である。しかしながら、いくつかの代替的な実装では、オブジェクト位置は、実際の再生スピーカー位置と対応してもよい。たとえば、いくつかのそのような代替的な実装によれば、オブジェクト位置は、一般的に使われる再生スピーカー配位の再生スピーカー位置と対応していてもよい。ブロック505においてオーディオ・ベッド信号が受領される場合、前記オブジェクト位置は、前記オーディオ・ベッド信号の少なくともいくつかに対応する再生スピーカー位置と対応してもよい。代替的または追加的に、オブジェクト位置は、受領されたオーディオ・オブジェクトのオーディオ・オブジェクト位置データの少なくとも一部に対応する位置であってもよい。よって、前記オブジェクト位置の少なくともいくつかが静的であってもよく、前記オブジェクト位置の少なくともいくつかが時間とともに変化してもよい。いくつかの実装では、ブロック520は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値距離だけ空間的に隔てられたオーディオ・オブジェクトについてのオーディオ信号と混合することに関わってもよい。
【0067】
いくつかの実装では、ブロック520は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、仮想スピーカー位置に応じてレンダリングすることに関わってもよい。いくつかのそのような実装は、大きなオーディオ・オブジェクト位置データおよび大きなオーディオ・オブジェクト・サイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算することに関わってもよい。そのような実装は、少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定することに関わっていてもよい。いくつかの例が後述される。
【0068】
いくつかの実装は、関連付けプロセスから出力されたオーディオ・データをエンコードすることに関わっていてもよい。いくつかのそのような実装によれば、エンコード・プロセスは、オーディオ・オブジェクトのオーディオ信号および関連するメタデータをエンコードすることに関わる。いくつかの実装では、エンコード・プロセスはデータ圧縮プロセスを含む。データ圧縮プロセスは可逆であっても、不可逆であってもよい。いくつかの実装では、データ圧縮プロセスは量子化プロセスに関わる。いくつかの例によれば、エンコード・プロセスは大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることには関わらなくてもよい。
【0069】
いくつかの実装は、本稿で「シーン単純化」プロセスとも称されるオーディオ・オブジェクト・クラスタリング・プロセスを実行することに関わる。たとえば、オーディオ・オブジェクト・クラスタリング・プロセスはブロック520の一部であってもよい。エンコードに関わる実装については、エンコード・プロセスは、オーディオ・オブジェクト・クラスタリング・プロセスから出力されるオーディオ・データをエンコードすることに関わってもよい。いくつかのそのような実装では、オーディオ・オブジェクト・クラスタリング・プロセスは脱相関プロセス後に実行されてもよい。シーン単純化プロセスを含め方法500の諸ブロックに対応するプロセスのさらなる例は後述する。
【0070】
図6A図6Fは、本稿に記載される大きなオーディオ・オブジェクトを処理することのできるオーディオ処理システムのコンポーネントの例を示すブロック図である。これらのコンポーネントは、たとえば、ハードウェア、ファームウェア、一つまたは複数の非一時的媒体に記憶されたソフトウェアおよび/またはそれらの組み合わせを介して実装されてもよいオーディオ処理システムの論理システムのモジュールに対応していてもよい。論理システムは、汎用の単一チップまたは複数チップ・プロセッサのような一つまたは複数のプロセッサを含んでいてもよい。論理システムは、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイスを含んでいてもよい。
【0071】
図6Aでは、オーディオ処理システム600は、大きなオーディオ・オブジェクト605のような大きなオーディオ・オブジェクトを検出することができる。検出プロセスは、図5のブロック510を参照して述べたプロセスの一つと実質的に同様であってもよい。この例では、大きなオーディオ・オブジェクト605のオーディオ信号は、脱相関システム610によって脱相関されて、脱相関された大きなオーディオ・オブジェクト信号611を生成する。脱相関システム610は、少なくとも部分的には、大きなオーディオ・オブジェクト605についての受領された脱相関メタデータに従って脱相関プロセスを実行してもよい。脱相関プロセスは、遅延、全域通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムの一つまたは複数に関わってもよい。
【0072】
オーディオ処理システム600は、この例では他のオーディオ・オブジェクトおよび/またはベッド615である他のオーディオ信号を受領することもできる。ここで、他のオーディオ・オブジェクトは、オーディオ・オブジェクトを大きなオーディオ・オブジェクトとして特徴付けるための閾値サイズを下回るサイズをもつオーディオ・オブジェクトである。
【0073】
この例では、オーディオ処理システム600は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号611を他のオブジェクト位置と関連付けることができる。オブジェクト位置は静的であってもよく、あるいは時間とともに変化してもよい。関連付けプロセスは、図5のブロック520を参照して上述したプロセスの一つまたは複数と同様であってもよい。
【0074】
関連付けプロセスは混合プロセスに関わってもよい。混合プロセスは、少なくとも部分的には、大きなオーディオ・オブジェクト位置と別のオブジェクト位置との間の距離に基づいていてもよい。図6Aに示される実装では、オーディオ処理システム600は、脱相関された大きなオーディオ・オブジェクト信号611を、オーディオ・オブジェクトおよび/またはベッド615に対応する少なくともいくつかのオーディオ信号と混合することができる。たとえば、オーディオ処理システム600は、脱相関された大きなオーディオ・オブジェクトのオーディオ信号611を、その大きなオーディオ・オブジェクトからある閾値量の距離だけ空間的に離れている他のオーディオ・オブジェクトについてのオーディオ信号と混合することができてもよい。
【0075】
いくつかの実装では、関連付けプロセスはレンダリング・プロセスに関わっていてもよい。たとえば、関連付けプロセスは、仮想スピーカー位置に従って脱相関された大きなオーディオ・オブジェクトのオーディオ信号をレンダリングすることに関わってもよい。レンダリング・プロセス後は、脱相関システム610によって受領された大きなオーディオ・オブジェクトに対応するオーディオ信号を保持する必要がないことがある。よって、オーディオ処理システム600は、脱相関プロセスが脱相関システム610によって実行された後、大きなオーディオ・オブジェクト605のオーディオ信号を減衰させるまたは削除するよう構成されていてもよい。あるいはまた、オーディオ処理システム600は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクト605のオーディオ信号の少なくとも一部(たとえば、大きなオーディオ・オブジェクト605の点源寄与に対応するオーディオ信号)を保持するよう構成されていてもよい。
【0076】
この例では、オーディオ処理システム600は、オーディオ・データをエンコードすることができるエンコーダ620を含む。ここで、エンコーダ620は、関連付けプロセス後にオーディオ・データをエンコードするよう構成される。この実装では、エンコーダ620は、オーディオ圧縮プロセスをオーディオ・データに適用することができる。エンコードされたオーディオ・データ622は、記憶されるおよび/または下流の処理、再生などのために他のオーディオ処理システムに伝送されることができる。
【0077】
図6Bに示される実装では、オーディオ処理システム600はレベル調整の機能をもつ。この例では、レベル調整システム612は、脱相関システム610の出力のレベルを調整するよう構成される。レベル調整プロセスは、もとの内容でのオーディオ・コンテンツのメタデータに依存してもよい。この例では、レベル調整プロセスは、少なくとも部分的には、大きなオーディオ・オブジェクト605のオーディオ・オブジェクト・サイズ・メタデータおよびオーディオ・オブジェクト位置メタデータに依存する。そのようなレベル調整は、オーディオ・オブジェクトおよび/またはベッド615のような他のオーディオ・オブジェクトへの脱相関器出力の配送を最適化するために使用されることができる。結果として得られるレンダリングの空間的な拡散性を改善するために、空間的に遠い他のオブジェクト信号への複数の脱相関器出力を混合することを選んでもよい。
【0078】
代替的または追加的に、レベル調整プロセスは、脱相関された大きなオーディオ・オブジェクト605に対応する音が、ある方向から諸スピーカーによって再生されるだけであることを保証するために使われてもよい。これは、所望される方向または位置の近傍におけるオブジェクトに脱相関器出力を加えるだけであることによって達成されうる。そのような実装では、大きなオーディオ・オブジェクト605の位置メタデータは、その音が到来する知覚される方向に関する情報を保存するために、レベル調整プロセスの考慮に入れられる。そのような実装は、中間サイズのオブジェクトについて、たとえば大きいと見なされるが、そのサイズが再現/再生環境全体を含むほどには大きくないオーディオ・オブジェクトについて、適切でありうる。
【0079】
図6Cに示される実装では、オーディオ処理システム600は脱相関プロセスの間に追加的なオブジェクトまたはベッド・チャネルを生成することができる。そのような機能は、たとえば前記他のオーディオ・オブジェクトおよび/またはベッド615が好適または最適でない場合に、望ましいことがありうる。たとえば、いくつかの実装では、脱相関された大きなオーディオ・オブジェクトの信号611は、仮想スピーカー位置に対応してもよい。前記他のオーディオ・オブジェクトおよび/またはベッド615が、所望される仮想スピーカー位置に十分に近い位置に対応しない場合、脱相関された大きなオーディオ・オブジェクトの信号611は、新たな仮想スピーカー位置に対応してもよい。
【0080】
この例では、大きなオーディオ・オブジェクト605はまず、脱相関システム610によって処理される。その後、脱相関されたオーディオ・オブジェクトの信号611に対応する追加的なオブジェクトまたはベッド・チャネルがエンコーダ620に提供される。この例では、脱相関された大きなオーディオ・オブジェクトの信号611は、エンコーダ620に送られる前にレベル調整を受ける。脱相関された大きなオーディオ・オブジェクトの信号611は、ベッド・チャネル信号および/またはオーディオ・オブジェクト信号であってもよく、この後者は静的なまたは動きのあるオブジェクトに対応しうる。
【0081】
いくつかの実装では、エンコーダ620に出力されるオーディオ信号は、もとの大きなオーディオ・オブジェクトの信号の少なくとも一部を含んでいてもよい。上記のように、オーディオ処理システム600は、脱相関プロセスが実行された後、大きなオーディオ・オブジェクト605の点源寄与に対応するオーディオ信号を保持することができてもよい。これは、たとえば、種々の信号が異なる度合いで互いに相関していることがありうるので、有益でありうる。したがって、大きなオーディオ・オブジェクト605に対応するもとのオーディオ信号の少なくとも一部(たとえば点源寄与)をそのまま通過させて、それを別個にレンダリングすることが有益でありうる。そのような実装では、脱相関された諸信号および大きなオーディオ・オブジェクト605に対応するもとの諸信号を平準化することが有利であることがある。
【0082】
一つのそのような例が図6Dに示されている。この例では、もとの大きなオーディオ・オブジェクトの信号613の少なくとも一部が、レベル調整システム612aによる第一の平準化プロセスにかけられ、脱相関された大きなオーディオ・オブジェクトの信号611がレベル調整システム612bによる平準化プロセスにかけられる。ここで、レベル調整システム612aおよびレベル調整システム612bは、出力オーディオ信号をエンコーダ620に与える。レベル調整システム612bの出力は、この例では、前記他のオーディオ・オブジェクトおよび/またはベッド615と混合もされる。
【0083】
いくつかの実装では、オーディオ処理システム600は、コンテンツ型を判別する(または少なくとも推定する)ために入力オーディオ・データを評価することができてもよい。脱相関プロセスは、少なくとも部分的にはコンテンツ型に基づいていてもよい。いくつかの実装では、脱相関プロセスは、コンテンツ型に応じて選択的に実行されてもよい。たとえば、入力オーディオ・データに対して実行されるべき脱相関の量は、少なくとも部分的にはコンテンツ型に依存してもよい。たとえば、一般に、発話については脱相関の量を下げることが望まれるであろう。
【0084】
一つの例が図6Eに示されている。この例では、メディア・インテリジェンス・システム625が、オーディオ信号を評価して、コンテンツ型を推定することができる。たとえば、メディア・インテリジェンス・システム625は、大きなオーディオ・オブジェクト605に対応するオーディオ信号を評価して、コンテンツ型が発話、音楽、サウンド効果などであるかどうかを推定することができてもよい。図6Eに示される例では、メディア・インテリジェンス・システム625は、コンテンツ型の推定に応じてオブジェクトの脱相関もしくはサイズ処理の量を制御するために制御信号627を送ることができる。
【0085】
たとえば、メディア・インテリジェンス・システム625が、大きなオーディオ・オブジェクト605のオーディオ信号が発話に対応すると推定する場合、メディア・インテリジェンス・システム625は、これらの信号についての脱相関の量は低減されるべきであることまたはこれらの信号は脱相関されるべきではないことを示す制御信号627を送ってもよい。信号が発話信号である確からしさを自動的に決定するさまざまな方法が使用されうる。ある実施形態によれば、メディア・インテリジェンス・システム625は、少なくとも部分的には中央チャネルにおけるオーディオ情報に基づいて発話確からしさ値を生成することができる発話確からしさ推定器を含んでいてもよい。いくつかの例は、非特許文献2によって記述されている。
【0086】
いくつかの実装では、制御信号627は、レベル調整の量を指示してもよく、および/または脱相関された大きなオーディオ・オブジェクトの信号611をオーディオ・オブジェクトおよび/またはベッド615についてのオーディオ信号と混合するためのパラメータを指示してもよい。
【0087】
代替的または追加的に、大きなオーディオ・オブジェクトについての脱相関の量は、「ステム」、「タグ」またはコンテンツ型の他の明示的な指示に基づいていてもよい。コンテンツ型のそのような明示的な指示はたとえば、コンテンツ制作者によって(たとえばポストプロダクション・プロセスの間に)生成されて、対応するオーディオ信号と一緒にメタデータとして伝送されてもよい。いくつかの実装では、そのようなメタデータは人間が読むことができるものであってもよい。たとえば、人間が読むことのできるステムまたはタグは、事実上、「これはダイアログである」、「これは特殊効果である」、「これは音楽である」などを明示的に示すものであってもよい。
【0088】
いくつかの実装は、何らかの観点で、たとえば空間位置、空間的サイズまたはコンテンツ型に関して同様であるオブジェクトを組み合わせるクラスタリング・プロセスに関わっていてもよい。クラスタリングのいくつかの例が図7および図8を参照して下記で記述される。図6Fに示される例では、オブジェクトおよび/またはベッド615aがクラスタリング・プロセス630に入力される。クラスタリング・プロセス630からは、より少数のオブジェクトおよび/またはベッド615bが出力される。オブジェクトおよび/またはベッド615bに対応するオーディオ・データは、平準化された脱相関された大きなオーディオ・オブジェクトの信号611と混合される。いくつかの代替的な実装では、クラスタリング・プロセスは脱相関プロセスに後続してもよい。一つの例が図9を参照して後述される。そのような実装はたとえば、ダイアログが、中央スピーカーに近くない位置または大きなクラスター・サイズなど、望ましくないメタデータをもつクラスターに混合されることを防ぎうる。
【0089】
〈オブジェクト・クラスタリングを通じたシーン単純化〉
以下の記述の目的のためには、用語「クラスタリング」および「グループ化」または「組み合わせ」は、適応的なオーディオ再生システムにおける伝送およびレンダリングのために適応的なオーディオ・コンテンツのユニット中のデータの量を低減するために、オブジェクトおよび/またはベッド(チャネル)を組み合わせることを記述するために交換可能に使われ;用語「低減」は、オブジェクトおよびベッドのそのようなクラスタリングを通じて適応的なオーディオのシーン単純化を実行する工程を指すために使用されうる。本記述を通じた用語「クラスタリング」「グループ化」または「組み合わせ」は、オブジェクトまたはベッド・チャネルの単一のクラスターへの厳密に一意的な割り当てのみに限定されず、オブジェクトまたはベッド・チャネルは、オブジェクトまたはベッド信号の出力クラスターまたは出力ベッド信号への相対的な寄与を決定する重みまたは利得ベクトルを使って、二つ以上の出力ベッドまたはクラスターにわたって分散されてもよい。
【0090】
ある実施形態では、適応的なオーディオ・システムは、オブジェクト・クラスタリングおよびチャネル・ベッドおよびオブジェクトの組み合わせによって作り出される空間的シーンの知覚的に透明な単純化を通じて、オブジェクト・ベースのオーディオ・コンテンツの帯域幅を低減するよう構成される少なくとも一つのコンポーネントを含む。該コンポーネント(単数または複数)によって実行されるオブジェクト・クラスタリング・プロセスは、空間位置、オブジェクト・コンテンツ型、時間的属性、オブジェクト・サイズおよび/またはその他を含みうるオブジェクトについてのある種の情報を使って、同様のオブジェクトを、もとのオブジェクトを置き換えるオブジェクト・クラスターにグループ化することによって、空間的シーンの複雑さを低減する。
【0091】
もとの複雑なベッドおよびオーディオ・トラックに基づいて説得力のあるユーザー経験を配送し、レンダリングするための標準的なオーディオ符号化のための追加的なオーディオ処理は、一般に、シーン単純化および/またはオブジェクト・クラスタリングと称される。この処理の主要な目的は、再生装置に送達される個々のオーディオ要素(ベッドおよびオブジェクト)の数を減らすが、それでももともとオーサリングされたコンテンツとレンダリングされる出力との間の知覚される差が最小化されるように十分な空間的情報を保持するクラスタリングまたはグループ化技法を通じて、空間的シーンを低減することである。
【0092】
シーン単純化プロセスは、空間位置、時間的属性、コンテンツ型、サイズおよび/または他の適切な特性といったオブジェクトについての情報を使って動的にオブジェクトを低減された数にクラスタリングして、低減された帯域幅のチャネルまたは符号化システムにおいてオブジェクト+ベッドのコンテンツのレンダリングを容易にすることができる。このプロセスは、次のクラスタリング動作のうちの一つまたは複数を実行することによって、オブジェクトの数を減らすことができる:(1)オブジェクトをオブジェクトにクラスタリングする;(2)オブジェクトをベッドとクラスタリングする;(3)オブジェクトおよび/またはベッドをオブジェクトにクラスタリングする。さらに、オブジェクトは、二つ以上のクラスターにわたって分配されることができる。プロセスは、オブジェクトのクラスタリングおよびクラスタリング解除を制御するために、オブジェクトについての時間的情報を使ってもよい。
【0093】
いくつかの実装では、オブジェクト・クラスターは構成要素となるオブジェクトの個々の波形およびメタデータ要素を、単一の等価な波形およびメタデータのセットで置き換えて、N個のオブジェクトについてのデータが、単一のオブジェクトについてのデータで置き換えられるようにする。これにより本質的にはオブジェクト・データをNから1に圧縮する。代替的または追加的に、オブジェクトまたはベッド・チャネルは、(たとえば振幅パン技法を使って)二つ以上のクラスターにわたって分配されてもよい。これは、M<Nとして、オブジェクト・データをNからMに減らす。クラスタリング・プロセスは、クラスタリングによる圧縮とクラスタリングされたオブジェクトの音の劣化との間のトレードオフを決定するために、クラスタリングされるオブジェクトの位置、ラウドネスまたは他の特性における変化に起因する歪みに基づく誤差メトリックを使ってもよい。いくつかの実施形態では、クラスタリング・プロセスは、同期的に実行されることができる。代替的または追加的に、クラスタリング・プロセスは、クラスタリングを通じたオブジェクト単純化を制御するために聴覚的シーン解析(ASA: auditory scene analysis)および/またはイベント境界検出を使うことによるなどの、イベント駆動であってもよい。
【0094】
いくつかの実施形態では、プロセスは、エンドポイント・レンダリング・アルゴリズムおよび/または装置の知識を、クラスタリングを制御するために利用してもよい。このようにして、再生装置のある種の特性または属性が、クラスタリング・プロセスに情報を与えるために使用されてもよい。たとえば、スピーカーとヘッドフォンあるいは他のオーディオ・ドライバとで異なるクラスタリング方式が利用されてもよく、可逆符号化と不可逆符号化とで異なるクラスタリング方式が使われてもよい、などとなる。
【0095】
図7は、クラスタリング・プロセスを実行することのできるシステムの例を示すブロック図である。図7に示されるように、システム700は、低下した帯域幅で出力オーディオ信号を生成するために入力オーディオ信号を処理するエンコーダ704およびデコーダ706段を含む。いくつかの実装では、部分720および部分730は異なる位置にあってもよい。たとえば、部分720はポスト・プロダクション・オーサリング・システムに対応してもよく、部分730はホームシアター・システムのような再生環境に対応してもよい。図7に示される例では、入力信号の一部709が既知の圧縮技法を通じて処理されて、圧縮されたオーディオ・ビットストリーム705を生成する。この圧縮されたオーディオ・ビットストリーム705がデコーダ段706によってデコードされて出力707の少なくとも一部を生成してもよい。そのような既知の圧縮技法は、入力オーディオ・コンテンツ709を解析し、オーディオ・データを量子化し、次いでオーディオ・データ自身に対してマスキングなどの圧縮技法を実行することに関わってもよい。圧縮技法は不可逆であっても可逆であってもよく、ユーザーが192kbps、256kbps、512kbpsなどといった圧縮された帯域幅を選択することを許容しうるシステムにおいて実装されてもよい。
【0096】
適応オーディオ・システムにおいて、入力オーディオの少なくとも一部は、オーディオ・オブジェクトを含む入力信号701を含み、該オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含む。メタデータは、オブジェクト空間位置、オブジェクト・サイズ、コンテンツ型、ラウドネスなどといった、関連するオーディオ・コンテンツのある種の特性を定義する。いかなる実際的な数のオーディオ・オブジェクト(たとえば数百のオブジェクト)が再生のために上記システムを通じて処理されてもよい。幅広い多様な再生システムおよび伝送媒体における多数のオブジェクトの正確な再生を容易にするために、システム700は、もとのオブジェクトをより少数のオブジェクト・グループに組み合わせることによってオブジェクトの数を、オブジェクトのより少ない、より扱いやすい数まで削減するクラスタリング・プロセスまたはコンポーネント702を含む。
【0097】
このように、クラスタリング・プロセスはオブジェクトのグループを構築して、個々の入力オブジェクト701のもとのセットから、より少数の出力グループ703を生成する。クラスタリング・プロセス702は本質的には、オーディオ・データ自身のほかにオブジェクトのメタデータを処理して、削減された数のオブジェクト・グループを生成する。任意の時点におけるどのオブジェクトが他のオブジェクトと最も適切に組み合わされるかを決定するために、メタデータが解析され、組み合わされる諸オブジェクトについての対応する諸オーディオ波形が合計されて、代替オブジェクトまたは組み合わされたオブジェクトを生成してもよい。この例では、組み合わされたオブジェクト・グループは次いでエンコーダ704に入力され、該エンコーダ704が、デコーダ706への伝送のためのオーディオおよびメタデータを含むビットストリーム705を生成するよう構成される。
【0098】
一般に、オブジェクト・クラスタリング・プロセス702を組み込む適応オーディオ・システムは、もとの空間的オーディオ・フォーマットからメタデータを生成する諸コンポーネントを含む。システム700は、通常のチャネル・ベースのオーディオ要素およびオーディオ・オブジェクト符号化要素の両方を含む一つまたは複数のビットストリームを処理するよう構成されたオーディオ処理システムの一部を含む。諸オーディオ・オブジェクト符号化要素を含む拡張層が、チャネル・ベースのオーディオ・コーデック・ビットストリームまたはオーディオ・オブジェクト・ビットストリームに加えられてもよい。よって、この例では、ビットストリーム705は、既存のスピーカーおよびドライバ設計または個々に指定可能なドライバおよびドライバ定義を利用する次世代スピーカーと一緒に使うためのレンダラーによって処理されるべき拡張層を含む。
【0099】
この空間的オーディオ・プロセッサからの空間的オーディオ・コンテンツは、オーディオ・オブジェクト、チャネルおよび位置メタデータを含んでいてもよい。オブジェクトがレンダリングされるとき、該オブジェクトは、位置メタデータおよび再生スピーカーの位置に従って、一つまたは複数のスピーカーに割り当てられてもよい。サイズ・メタデータのような追加的なメタデータがオブジェクトに関連付けられていて、再生位置を変更したりまたは他の仕方で再生のために使われるスピーカーを制限したりしてもよい。メタデータは、空間的パラメータ(たとえば位置、サイズ、速度、強度、音色など)を制御するレンダリング手がかりを提供し、聴取環境におけるどのドライバ(単数または複数)またはスピーカー(単数または複数)が披露の間にそれぞれの音を再生するかを指定するエンジニアのミキシング入力に応答して、オーディオ・ワークステーションにおいて生成されてもよい。該メタデータは、空間的オーディオ・プロセッサによるパッケージングおよび転送のために、ワークステーションにおいてそれぞれのオーディオ・データと関連付けられてもよい。
【0100】
図8は、適応オーディオ処理システムにおけるオブジェクトおよび/またはベッドをクラスタリングできるシステムの例を示すブロック図である。図8に示される例では、シーン単純化タスクを実行することのできるオブジェクト処理コンポーネント806は、任意の数の入力オーディオ・ファイルおよびメタデータを読み込む。入力オーディオ・ファイルは入力オブジェクト802および関連付けられたオブジェクト・メタデータを含み、ベッド804および関連付けられたベッド・メタデータを含んでいてもよい。このように、この入力ファイル/メタデータは、「ベッド」または「オブジェクト」トラックに対応する。
【0101】
この例では、オブジェクト処理コンポーネント806は、より少数の出力オブジェクトおよびベッド・トラックを生成するために、メディア・インテリジェンス/コンテンツ分類、空間的歪み解析およびオブジェクト選択/クラスタリング情報を組み合わせることができる。具体的には、オブジェクトは一緒にクラスタリングされて、新たな等価な諸オブジェクトまたは諸オブジェクト・クラスター808を、関連付けられたオブジェクト/クラスター・メタデータとともに生成することができる。これらのオブジェクトは、ベッドへのダウンミックス〔下方混合〕のために選択されることもできる。これは、図8では、出力ベッド・オブジェクトおよび関連付けられたメタデータ820を形成するためにベッド812との組み合わせ818のためにレンダラー816に入力される下方混合されたオブジェクト810の出力として示されている。出力ベッド構成820(たとえば、ドルビー5.1配位)は必ずしも、たとえばAtmos映画館については9.1であることができる入力ベッド構成と一致する必要はない。この例では、入力トラックからのメタデータを組み合わせることによって、出力トラックについて新しいメタデータが生成され、入力トラックからのオーディオを組み合わせることによって、出力トラックについて新しいオーディオ・データも生成される。
【0102】
この実装では、オブジェクト処理コンポーネント806はある種の処理構成設定情報822を使うことができる。そのような処理構成設定情報822は出力オブジェクトの数、フレーム・サイズおよびある種のメディア・インテリジェンス設定を含んでいてもよい。メディア・インテリジェンスとは、コンテンツ型(すなわち、ダイアログ/音楽/効果/など)、領域(セグメント/分類)、前処理結果、聴覚的シーン解析結果および他の同様の情報といった、オブジェクトの(またはオブジェクトに関連付けられた)パラメータまたは特性を含むことができる。たとえば、オブジェクト処理コンポーネント806は、どのオーディオ信号が発話、音楽および/または特殊効果音に対応するかを判別することができてもよい。この実装では、オブジェクト処理コンポーネント806は、オーディオ信号を解析することによって、少なくともいくつかのそのような特性を決定することができる。代替的または追加的に、オブジェクト処理コンポーネント806は、タグ、ラベルなどといった関連付けられたメタデータに従って少なくともいくつかのそのような特性を決定することができてもよい。
【0103】
ある代替的な実施形態では、単純化メタデータ(たとえば、どのオブジェクトがどのクラスターに属するか、どのオブジェクトがベッドにレンダリングされるか、など)のほかにすべてのもとのトラックへの参照を保持することによって、オーディオ生成は猶予されることができる。そのような情報は、たとえば、スタジオとエンコード・ハウスとの間で、または他の同様のシナリオにおいてシーン単純化プロセスの機能を分散させるために有用であることがある。
【0104】
図9は、大きなオブジェクトについての脱相関プロセスに後続するクラスタリング・プロセスの例を与えるブロック図である。オーディオ処理システム600のブロックは、非一時的媒体に記憶されているハードウェア、ファームウェア、ソフトウェアなどの任意の適切な組み合わせを介して実装されうる。たとえば、オーディオ処理システム600のブロックは、図11を参照して後述するような論理システムおよび/または他の要素を介して実装されてもよい。
【0105】
この実装では、オーディオ処理システム600は、オーディオ・オブジェクトO1ないしOMを含むオーディオ・データを受領する。ここで、オーディオ・オブジェクトはオーディオ・オブジェクト信号と、少なくともオーディオ・オブジェクト位置メタデータを含む関連するメタデータとを含む。この例では、大きなオブジェクト検出モジュール905は、少なくとも部分的には、オーディオ・オブジェクト・サイズ・メタデータに基づいて、ある閾値サイズより大きいサイズをもつ大きなオーディオ・オブジェクト605を判別することができる。該大きなオーディオ・オブジェクト検出モジュール905は、たとえば図5のブロック510を参照して上記したように機能してもよい。
【0106】
この実装では、モジュール910は、大きなオーディオ・オブジェクト605のオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号611を生成することができる。この例では、モジュール910はまた、大きなオーディオ・オブジェクト605のオーディオ信号を仮想スピーカー位置にレンダリングすることができる。よって、この例では、モジュール910によって出力される脱相関された大きなオーディオ・オブジェクトのオーディオ信号611は、仮想スピーカー位置と対応する。オーディオ・オブジェクト信号を仮想スピーカー位置にレンダリングすることのいくつかの例についてここで図10Aおよび図10Bを参照して記述する。
【0107】
図10Aは、再生環境に対する仮想源位置の例を示している。再生環境は実際の再生環境または仮想再生環境でありうる。仮想源位置1005およびスピーカー位置1025は単に例である。しかしながら、この例では、再生環境は仮想再生環境であり、スピーカー位置1025は仮想スピーカー位置に対応する。
【0108】
いくつかの実装では、仮想源位置1005はすべての方向において一様に離間されていてもよい。図10Aに示した例では、仮想源位置1005はx、y、z軸に沿って一様に離間している。仮想源位置1005はNxかけるNyかけるNz個の仮想源位置1005の直方体グリッドをなしてもよい。いくつかの実装では、Nの値は5ないし100の範囲であってもよい。Nの値は、少なくとも部分的には、再生環境における(または再生環境にあると期待される)スピーカー数に依存してもよい。すなわち、各スピーカー位置の間に二つ以上の仮想源位置1005を含めることが望ましいことがありうる。
【0109】
しかしながら、代替的な実装では、仮想源位置1005は異なる仕方で離間されていてもよい。たとえば、いくつかの実装では、仮想源位置1005はxおよびy軸に沿って第一の一様な離間を、z軸に沿って第二の一様な離間を有していてもよい。他の実装では、仮想源位置1005は非一様に離間されていてもよい。
【0110】
この例では、オーディオ・オブジェクト体積1020aは、オーディオ・オブジェクトのサイズに対応する。オーディオ・オブジェクト1010は、オーディオ・オブジェクト体積1020aによって囲まれる諸仮想源位置1005に従ってレンダリングされてもよい。図10Aに示される例では、オーディオ・オブジェクト体積1020aは、再生環境1000aの全部ではなく一部を占める。大きなオーディオ・オブジェクトは再生環境1000aのより多くの部分(またはその全部)を占めてもよい。いくつかの例では、オーディオ・オブジェクト1010が点源に対応する場合には、オーディオ・オブジェクト1010はサイズ0を有していてもよく、オーディオ・オブジェクト体積1020aは0に設定されてもよい。
【0111】
いくつかのそのような実装によれば、オーサリング・ツールは、オーディオ・オブジェクト・サイズがあるサイズ閾値以上であるときに脱相関がオンにされるべきであり、オーディオ・オブジェクト・サイズが該サイズ閾値を下回っている場合には脱相関がオフにされるべきであることを(たとえば関連するメタデータに含まれる脱相関フラグを介して)指示することによって、オーディオ・オブジェクト・サイズを脱相関とリンクさせてもよい。いくつかの実装では、脱相関は、サイズ閾値および/または他の入力値に関するユーザー入力に従って制御されてもよい(たとえば、増大、減少または無効化されてもよい)。
【0112】
この例では、仮想源位置1005は、仮想源体積1002内で定義される。いくつかの実装では、仮想源体積は、その中でオーディオ・オブジェクトが動くことができる体積と対応してもよい。図10Aに示される例では、再生環境1000aおよび仮想源体積1002aは同一の広がりをもち、よって仮想源位置1005のそれぞれは再生環境1000a内のある位置に対応する。しかしながら、代替的な実装では、再生環境1000aおよび仮想源体積1002は同一の広がりでなくてもよい。
【0113】
たとえば、仮想源位置10005のいくつかは再生環境の外部の位置に対応してもよい。図10Bは、再生環境に対する仮想源位置の代替的な例を示している。この例では、仮想源体積1002bは再生環境1000bの外側に広がっている。オーディオ・オブジェクト体積1020b内の仮想源位置1005のいくつかは再生環境1000bの内部に位置しており、オーディオ・オブジェクト体積1020b内の他の仮想源位置1005は再生環境1000bの外部に位置している。
【0114】
他の実装では、仮想源位置1005はxおよびy軸に沿って第一の一様な離間を有し、z軸に沿って第二の一様な離間を有していてもよい。仮想源位置1005はNxかけるNyかけるNz個の仮想源位置1005の直方体グリッドをなしてもよい。たとえば、いくつかの実装では、xまたはy軸に沿ってよりもz軸に沿ってより少数の仮想源位置1005があってもよい。いくつかのそのような実装では、Nの値は10ないし100の範囲であってもよい。一方、Mの値は5ないし10の範囲であってもよい。
【0115】
いくつかの実装は、オーディオ・オブジェクト体積1020内の仮想源位置1005のそれぞれについて利得値を計算することに関わる。いくつかの実装では、再生環境(これは実際の再生環境であっても仮想再生環境であってもよい)の複数の出力チャネルの各チャネルについて利得値が、オーディオ・オブジェクト体積1020内の仮想源位置1005のそれぞれについて、計算される。いくつかの実装では、利得値は、オーディオ・オブジェクト体積1020内の各仮想源位置1005に位置する点源についての利得値を計算するためにベクトル・ベースの振幅パン(VBAP: vector-based amplitude panning)アルゴリズム、ペア毎パン(pairwise panning)アルゴリズムまたは同様のアルゴリズムを適用することによって計算されてもよい。他の実装では、オーディオ・オブジェクト体積1020内の各仮想源位置1005に位置する点源についての利得値を計算するために分離可能(separable)アルゴリズム。本稿での用法では、「分離可能」アルゴリズムというのは、所与のスピーカーの利得が複数の因子(たとえば三つの因子)の積として表現でき、各因子が仮想源位置1005の座標の一つのみに依存するものである。例は、ProTools(商標)ソフトウェアを含むがそれに限られないさまざまな既存のミキシング・コンソール・パナーおよびAMS Neveによって提供されるデジタル・フィルム・コンソールにおいて実装されるパナーにおいて実装されているアルゴリズムを含む。
【0116】
再び図9に戻ると、この例では、オーディオ処理システム600はベッド・チャネルB1ないしBNならびに低域効果(LFE)チャネルをも受領する。オーディオ・オブジェクトおよびベッド・チャネルは、たとえば図7および図8を参照して上述したような、シーン単純化または「クラスタリング」プロセスに従って処理される。しかしながら、この例では、LFEチャネルはクラスタリング・プロセスに入力されず、代わりにエンコーダ620にそのまま渡される。
【0117】
この実装では、ベッド・チャネルB1ないしBNはモジュール915によって静的なオーディオ・オブジェクト917に変換される。モジュール920は、大きなオブジェクト検出モジュール905が大きなオーディオ・オブジェクトではないと判定したオーディオ・オブジェクトに加えて静的なオーディオ・オブジェクト917を受領する。ここで、モジュール920は、この例では仮想スピーカー位置に対応する脱相関された大きなオーディオ・オブジェクトの信号611をも受領する。
【0118】
この実装では、モジュール920は、静的なオブジェクト917、受領されたオーディオ・オブジェクトおよび脱相関された大きなオーディオ・オブジェクトの信号611をクラスターC1ないしCPにレンダリングすることができる。一般に、モジュール920は、受領されたオーディオ・オブジェクトの数より少数のクラスターを出力する。この実装では、モジュール920は、たとえば図5のブロック520を参照して上記したように、脱相関された大きなオーディオ・オブジェクトの信号611を適切なクラスターの位置と関連付けることができる。
【0119】
この例では、クラスターC1ないしCPおよびLFEチャネルのオーディオ・データがエンコーダ620によってエンコードされて、再生環境925に伝送される。いくつかの実装では、再生環境925はホームシアター・システムを含んでいてもよい。オーディオ処理システム930は、エンコードされたオーディオ・データを受領し、デコードするとともに、デコードされたオーディオ・データを、再生環境925の実際の再生スピーカー構成、たとえば再生環境925の実際の再生スピーカーのスピーカー位置、スピーカー機能(たとえばベース再生能力)などに応じてレンダリングすることができる。
【0120】
図11は、オーディオ処理システムのコンポーネントの例を与えるブロック図である。この例では、オーディオ処理システム1100はインターフェース・システム1105を含む。インターフェース・システム1105は無線ネットワーク・インターフェースのようなネットワーク・インターフェースを含んでいてもよい。代替的または追加的に、インターフェース・システム1105は、ユニバーサル・シリアル・バス(USB)インターフェースまたは他のそのようなインターフェースを含んでいてもよい。
【0121】
オーディオ処理システム1100は論理システム1110を含む。論理システム1110は、汎用の単一チップまたは複数チップ・プロセッサのようなプロセッサを含んでいてもよい。論理システム1110は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)または他のプログラム可能型論理デバイス、離散的なゲートもしくはトランジスタ論理または離散的なハードウェア・コンポーネントまたはそれらの組み合わせを含んでいてもよい。論理システム1110は、オーディオ処理システム1100の他のコンポーネントを制御するよう構成されていてもよい。図11にはオーディオ処理システム1100のコンポーネント間のインターフェースは示されていないが、論理システム1110は、他のコンポーネントとの通信のためのインターフェースをもって構成されていてもよい。それらの他のコンポーネントは、適宜互いとの通信のために構成されていてもいなくてもよい。
【0122】
論理システム1110は、本稿に記載される型の機能を含むがそれに限られないオーディオ処理機能を実行するよう構成されていてもよい。いくつかのそのような実装では、論理システム1110は、(少なくとも部分的には)一つまたは複数の非一時的な媒体に記憶されているソフトウェアに従って動作するよう構成されていてもよい。非一時的媒体は、ランダム・アクセス・メモリ(RAM)および/または読み出し専用メモリ(ROM)のような、論理システム1110に付随するメモリを含んでいてもよい。非一時的媒体は、メモリ・システム1115のメモリを含んでいてもよい。メモリ・システム1115は、フラッシュメモリ、ハードドライブなどといった一つまたは複数の好適な型の非一時的記憶媒体を含んでいてもよい。
【0123】
表示システム1130は、オーディオ処理システム1100の具現に依存して、一つまたは複数の好適な型のディスプレイを含んでいてもよい。たとえば、表示システム1130は液晶ディスプレイ、プラズマ・ディスプレイ、双安定ディスプレイなどを含んでいてもよい。
【0124】
ユーザー入力システム1135は、ユーザーからの入力を受け入れるよう構成された一つまたは複数の装置を含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、表示システム1130のディスプレイにかぶさるタッチスクリーンを含んでいてもよい。ユーザー入力システム1135はマウス、トラックボール、ジェスチャー検出システム、ジョイスティック、一つまたは複数のGUIおよび/または表示システム1130上に呈示されるメニュー、ボタン、キーボード、スイッチなどを含んでいてもよい。いくつかの実装では、ユーザー入力システム1135は、マイクロホン1125を含んでいてもよい:ユーザーは、マイクロホン1125を介してオーディオ処理システム1100についての音声コマンドを提供してもよい。論理システムは、音声認識のために、そしてそのような音声コマンドに従ってオーディオ処理システム1100の少なくともいくつかの動作を制御するために構成されていてもよい。いくつかの実装では、ユーザー入力システム1135はユーザー・インターフェースであり、したがってインターフェース・システム1105の一部であると考えられてもよい。
【0125】
電力システム1140は、ニッケル‐カドミウム電池またはリチウム・イオン電池のような一つまたは複数の好適なエネルギー蓄積装置を含んでいてもよい。電力システム1140は電気コンセントから電力を受領するよう構成されていてもよい。
【0126】
本開示に記載される実装へのさまざまな修正が、当業者にはすぐに明白となりうる。本稿において定義される一般的な原理は、本開示の精神または範囲から外れることなく、他の実装に適用されてもよい。このように、特許請求の範囲は、本稿に示される実装に限定されることは意図されておらず、本稿に開示される開示、原理および新規な特徴と整合する最も広い範囲を与えられるべきものである。
【0127】
いくつかの態様を記載しておく。
〔態様1〕
オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と;
前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と;
前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と;
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と;
前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスはデータ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを含む、
方法。
〔態様2〕
前記大きなオーディオ・オブジェクトについての脱相関メタデータを受領する工程をさらに含み、前記脱相関プロセスは、少なくとも部分的には、前記脱相関メタデータに従って実行される、態様1記載の方法。
〔態様3〕
前記オブジェクト位置のうち少なくともいくつかは静的である、態様1または2記載の方法。
〔態様4〕
前記オブジェクト位置のうち少なくともいくつかは時間とともに変化する、態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記関連付けるプロセスは、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を仮想スピーカー位置に従ってレンダリングすることを含む、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記実際の再生スピーカー配位が、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を再生環境のスピーカーにレンダリングするために使われる、態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を追加的なオーディオ・ベッド信号またはオーディオ・オブジェクト信号として出力する工程をさらに含む、態様1ないし6のうちいずれか一項記載の方法。
〔態様8〕
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号にレベル調整プロセスを適用する工程をさらに含む、態様1ないし7のうちいずれか一項記載の方法。
〔態様9〕
前記大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含み、前記レベル調整プロセスは少なくとも部分的には、前記大きなオーディオ・オブジェクトの前記オーディオ・オブジェクト・サイズ・メタデータおよび前記オーディオ・オブジェクト位置メタデータに依存する、態様8記載の方法。
〔態様10〕
前記脱相関プロセスが実行された後、前記大きなオーディオ・オブジェクトのオーディオ信号を減衰させるまたは削除する工程をさらに含む、態様1ないし9のうちいずれか一項記載の方法。
〔態様11〕
前記脱相関プロセスが実行された後、前記大きなオーディオ・オブジェクトの点源寄与に対応するオーディオ信号を保持する工程をさらに含む、態様1ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記大きなオーディオ・オブジェクトのメタデータは、オーディオ・オブジェクト位置メタデータを含み、当該方法はさらに:
前記大きなオーディオ・オブジェクトの位置データおよび前記大きなオーディオ・オブジェクトのサイズ・データによって定義されるオーディオ・オブジェクト面積または体積内の仮想源からの寄与を計算する工程と;
少なくとも部分的には計算されたそれらの寄与に基づいて、複数の出力チャネルのそれぞれについてのオーディオ・オブジェクト利得値の集合を決定する工程とを含む、
態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
前記脱相関プロセスの後にオーディオ・オブジェクト・クラスタリング・プロセスを実行する工程をさらに含む、態様1ないし12のうちいずれか一項記載の方法。
〔態様14〕
前記オーディオ・オブジェクト・クラスタリング・プロセスは、前記関連付けるプロセスの後に実行される、態様13記載の方法。
〔態様15〕
コンテンツ型を判別するために前記オーディオ・データを評価する工程をさらに含み、前記脱相関プロセスは、コンテンツ型に応じて選択的に実行される、態様1ないし14のうちいずれか一項記載の方法。
〔態様16〕
実行される脱相関の量がコンテンツ型に依存する、態様15記載の方法。
〔態様17〕
前記脱相関プロセスは遅延、全域通過フィルタ、擬似ランダム・フィルタまたは残響アルゴリズムのうちの一つまたは複数に関わる、態様1ないし16のうちいずれか一項記載の方法。
〔態様18〕
前記大きなオーディオ・オブジェクトのメタデータがオーディオ・オブジェクト位置メタデータを含み、当該方法は、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、該大きなオーディオ・オブジェクトから閾値量の距離だけ空間的に離間されているオーディオ・オブジェクトについてのオーディオ信号と混合する工程をさらに含む、態様1ないし17のうちいずれか一項記載の方法。
〔態様19〕
インターフェース・システムと;
論理システムとを有する装置であって、前記論理システムは:
前記インターフェース・システムを介して、オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは、少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と;
前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きなオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と;
前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して、脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と;
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と;
前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスはデータ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを実行可能である、
装置。
〔態様20〕
ソフトウェアが記憶されている非一時的媒体であって、前記ソフトウェアは、少なくとも一つを制御して:
オーディオ・オブジェクトを含み、スピーカー位置に対応する一つまたは複数のオーディオ・ベッド信号を含むオーディオ・データを受領する工程であって、前記オーディオ・オブジェクトはオーディオ・オブジェクト信号および関連するメタデータを含み、前記メタデータは少なくともオーディオ・オブジェクト・サイズ・データを含む、工程と;
前記オーディオ・オブジェクト・サイズ・データに基づいて、ある閾値サイズより大きいオーディオ・オブジェクト・サイズをもつ大きなオーディオ・オブジェクトを判別する工程と;
前記大きなオーディオ・オブジェクトのオーディオ信号に対して脱相関プロセスを実行して脱相関された大きなオーディオ・オブジェクトのオーディオ信号を生成する工程と;
前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号をオブジェクト位置と関連付ける工程であって、該関連付けるプロセスは、実際の再生スピーカー配位とは独立であり、前記脱相関された大きなオーディオ・オブジェクトのオーディオ信号を、前記オーディオ・ベッド信号または前記オーディオ・オブジェクト信号の少なくとも一部と混合することを含む、工程と;
前記関連付けるプロセスから出力されるオーディオ・データをエンコードする工程であって、該エンコードするプロセスは、データ圧縮プロセスを含み、前記大きなオーディオ・オブジェクトについての脱相関メタデータをエンコードすることは含まない、工程とを実行させるための命令を含む、
非一時的媒体。
図1
図2
図3
図4A
図4B
図5
図6A
図6B
図6C
図6D
図6E
図6F
図7
図8
図9
図10A
図10B
図11
【外国語明細書】