IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許7434610効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験
<>
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図1
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図2A
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図2B
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図2C
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図3A
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図3B
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図3C
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図3D
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図4
  • 特許-効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-09
(45)【発行日】2024-02-20
(54)【発明の名称】効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験
(51)【国際特許分類】
   G10L 19/008 20130101AFI20240213BHJP
   G10L 19/00 20130101ALI20240213BHJP
   H04S 7/00 20060101ALI20240213BHJP
【FI】
G10L19/008 100
G10L19/00 330B
G10L19/008 200
H04S7/00 300
【請求項の数】 20
(21)【出願番号】P 2022572359
(86)(22)【出願日】2021-05-20
(65)【公表番号】
(43)【公表日】2023-06-20
(86)【国際出願番号】 EP2021063427
(87)【国際公開番号】W WO2021239562
(87)【国際公開日】2021-12-02
【審査請求日】2022-11-24
(31)【優先権主張番号】63/029,920
(32)【優先日】2020-05-26
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】20176543.5
(32)【優先日】2020-05-26
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ポップ,イェンス
(72)【発明者】
【氏名】スペンジャー,クラウス-クリスティアン
(72)【発明者】
【氏名】メルピラット,セリーヌ
(72)【発明者】
【氏名】ミューラー,トビアス
(72)【発明者】
【氏名】ホエリッヒ,ホルガー
【審査官】堀 洋介
(56)【参考文献】
【文献】特表2016-525714(JP,A)
【文献】国際公開第2016/203994(WO,A1)
【文献】特開2009-147702(JP,A)
【文献】米国特許出願公開第2016/0163321(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/008
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
プロセッサによって実行される方法であって、当該方法は:
オーディオ・ビットストリームを、一つまたは複数のオーディオ・オブジェクトのセットと、オーディオ・オブジェクトの前記セットについてのオーディオ・メタデータとにデコードする段階であって、一つまたは複数のオーディオ・オブジェクトの前記セットは、特定のオーディオ・オブジェクトを含み、前記オーディオ・メタデータは、前記オーディオ・ビットストリームにおける第1のオーディオ・フレームおよび第2のオーディオ・フレームについてそれぞれ第1の利得および第2の利得を含む、フレーム・レベル利得の第1のセットを指定する、段階と;
少なくとも部分的には前記第1および第2のオーディオ・フレームについての前記第1および第2の利得に基づいて、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されるべきかどうかを決定する段階と;
少なくとも部分的には前記第1および第2のオーディオ・フレームについての前記第1および第2の利得に基づいて、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されるべきであることを決定することに応答して:
前記特定のオーディオ・オブジェクトについての前記サブフレーム利得を生成するために使用されるランプについてのランプ長を決定する段階と;
前記ランプ長の前記ランプを使用して、利得の第2のセットを生成する段階であって、利得の前記第2のセットは、前記特定のオーディオ・オブジェクトについての前記サブフレーム利得を含む、段階と;
前記第2のセットの利得が適用される、オーディオ・オブジェクトの前記セットによって表される音場を、特定の再生環境において動作するオーディオ・スピーカーのセットによってレンダリングさせる段階とを含む、
方法。
【請求項2】
オーディオ・オブジェクトの前記セットは:
メイン・オーディオ・プログラムを表すオーディオ・オブジェクトの第1のサブセットと;
関連オーディオ・プログラムを表すオーディオ・オブジェクトの第2のサブセットとを含み、前記特定のオーディオ・オブジェクトは、オーディオ・オブジェクトの前記第1のサブセットまたはオーディオ・オブジェクトの前記第2のサブセットの一方に含まれる、
請求項1に記載の方法。
【請求項3】
前記第1のオーディオ・フレームおよび前記第2のオーディオ・フレームは:前記特定のオーディオ・オブジェクトにおける2つの連続するオーディオ・フレーム、または前記特定のオーディオ・オブジェクトにおける一つまたは複数の介在するオーディオ・フレームによって隔てられた前記特定のオーディオ・オブジェクトにおける2つの非連続のオーディオ・フレームのうちの一方である、請求項1または2に記載の方法。
【請求項4】
前記第1の利得および前記第2の利得は:ダッキング動作、ダイアログ向上動作、ユーザー制御される利得遷移動作、ダウンミックス動作、音楽および効果(M&E)に適用される利得平滑化動作、ダイアログに適用される利得平滑化動作、M&Eおよびダイアログ(M&E+dialog)に適用される利得平滑化動作、または他の利得遷移動作のうちの1つに関連する、請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
オーディオ・オブジェクトの空間的動きを扱うために使用される内蔵ランプが、前記特定のオーディオ・オブジェクトについての前記サブフレーム利得を生成するための前記ランプとして再利用される、請求項1ないし4のうちいずれか一項に記載の方法。
【請求項6】
前記第1の利得および前記第2の利得が、前記メイン・オーディオ・プログラムを表すオーディオ・オブジェクトの前記第1のサブセットのラウドネス・レベルを、前記関連オーディオ・プログラムを表すオーディオ・オブジェクトの前記第2のサブセットのラウドネス・レベルに対して下げるためのダッキング利得であり、オーディオ・オブジェクトの空間的動きを扱うために使用される内蔵ランプは、前記メイン・オーディオ・プログラムまたは前記関連オーディオ・プログラムについてのサブフレーム・ダッキング利得を生成するために再利用される、請求項2に記載の方法。
【請求項7】
前記第1のオーディオ・フレームは、前記特定のオーディオ・オブジェクトの第1のオーディオ・データ部分を含み、前記第2のオーディオ・フレームは、前記特定のオブジェクトの前記第1のオーディオ・データ部分とは異なる、前記特定のオーディオ・オブジェクトの第2のオーディオ・データ部分を含む、請求項1ないし6のうちいずれか一項に記載の方法。
【請求項8】
前記オーディオ・メタデータには前記ランプ長の指定がない、請求項1ないし6のうちいずれか一項に記載の方法。
【請求項9】
前記オーディオ・メタデータは、前記ランプ長とは異なるエンコーダ送信ランプ長を指定する、請求項1ないし8のうちいずれか一項に記載の方法。
【請求項10】
利得の前記第1のセットは、前記ランプによって表される時間区間内のある時点に対応する中間利得を含み;該中間利得は、デコードされた呈示においてオーディオ・オブジェクトの前記セットに適用される利得の前記第2のセットから除外される、請求項1ないし9のうちいずれか一項に記載の方法。
【請求項11】
利得の前記第1のセットは、前記ランプによって表される時間区間内のある時点に対応する中間利得を含み;該中間利得は、デコードされた呈示においてオーディオ・オブジェクトの前記セットに適用される利得の前記第2のセットから含まれる、請求項1ないし10のうちいずれか一項に記載の方法。
【請求項12】
オーディオ・オブジェクトの前記セットは、第2のオーディオ・オブジェクトを含み;前記オーディオ・ストリームとともに受領される前記オーディオ・メタデータにおいてエンコーダ送信ランプ長が指定され、前記エンコーダ送信ランプ長は、前記第2のオーディオ・オブジェクトについてのサブフレーム利得を生成するためのランプ長として使用される、請求項1ないし11のうちいずれか一項に記載の方法。
【請求項13】
利得の前記第2のセットは、第1のオーディオ処理装置によって生成され、前記音場は、第2のオーディオ処理装置によってレンダリングされる、請求項1ないし12のうちいずれか一項に記載の方法。
【請求項14】
利得の前記第2のセットは、補間によって生成される、請求項1ないし13のうちいずれか一項に記載の方法。
【請求項15】
少なくとも部分的には前記第1および第2のオーディオ・フレームについての前記第1および第2の利得に基づいて、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されるべきかどうかを決定する前記段階が:
前記第1の利得と前記第2の利得との間の差が最小利得差閾値を超える場合に、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されることを決定すること;および/または
前記第1の利得と前記第2の利得との間の差が前記最小利得差閾値を超えない場合に、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されないことを決定することを含む、
請求項1ないし14のうちいずれか一項に記載の方法。
【請求項16】
前記第2の利得値が前記第1の利得よりも大きい正の利得変化については、前記第2の利得値が前記第1の利得よりも小さい負の利得変化についてとは異なる最小利得差閾値が使用される、請求項15に記載の方法。
【請求項17】
少なくとも部分的には前記第1および第2のオーディオ・フレームについての前記第1および第2の利得に基づいて、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されるべきかどうかを決定する前記段階が:
前記第1の利得と前記第2の利得との間の変化率の絶対的な値が最小利得変化率閾値を超える場合に、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されるべきであることを決定すること、および/または
前記第1の利得と前記第2の利得との間の変化率の絶対的な値が前記最小利得変化率閾値を超えない場合に、前記特定のオーディオ・オブジェクトについてサブフレーム利得が生成されないことを決定することを含む
請求項1ないし14のうちいずれか一項に記載の方法。
【請求項18】
正の変化率については、負の変化率についてとは異なる最小利得変化率閾値が使用される、請求項17に記載の方法。
【請求項19】
一つまたは複数のプロセッサと、命令を含む一つまたは複数のプログラムを記憶するメモリとを備える装置であって、前記命令は、前記一つまたは複数のプロセッサによって実行されると、請求項1ないし18のうちいずれか一項に記載の方法を当該装置に実行させるものである、装置。
【請求項20】
一つまたは複数のプロセッサによって実行されると、請求項1ないし18のうちいずれか一項に記載の方法の実行を引き起こすソフトウェア命令を含む、非一時的なコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、次の優先権出願の優先権を主張する:2020年5月26日に出願された米国仮出願第63/029,920号(参照番号:D20015USP1)および2020年5月26日に出願された欧州特許出願第20176543.5号(参照番号:D20015EP)。これらは参照により本明細書に組み込まれる。
【0002】
技術
本発明は、一般に、オーディオ信号を処理することに関し、より具体的には、効率的なダッキング利得適用によるメイン‐関連オーディオ体験の改善に関する。
【背景技術】
【0003】
オーディオ・コンテンツをエンドユーザー装置に送達するために、複数のオーディオ・プロセッサが、エンドツーエンドのオーディオ処理チェーンにわたって分散される。異なるオーディオ・プロセッサは、異なる、類似の、および/またはさらには繰り返されたメディア処理動作を実行することがある。これらの動作のいくつかは、可聴アーチファクトを導入しがちであることがある。たとえば、上流のエンコード装置によって生成されたオーディオ・ビットストリームは、「メイン・オーディオ」と「関連オーディオ」で構成されるオーディオ・コンテンツの呈示を提供するようにデコードされてもよい。デコードされた呈示におけるメイン・オーディオと関連オーディオとの間のバランスを制御するために、オーディオ・ビットストリームは、オーディオ・フレーム・レベルで「ダッキング利得(ducking gain)」を指定するオーディオ・メタデータを搬送してもよい。オーディオ・レンダリング動作における利得値を十分に平滑化していない、フレームからフレームへのダッキング利得の大きな変化は、デコードされた呈示における「ジッパー(zipper)」アーチファクトのような可聴な劣化につながる。
【0004】
本節で述べたアプローチは、追求することができたアプローチであるが、必ずしも以前に考案または追求されたアプローチではない。したがって、別段の指示がない限り、本節に記載されているアプローチのどれも、単に本節に含まれているというだけの理由で先行技術として適格であるとみなすべきではない。同様に、一つまたは複数のアプローチに関して特定された問題は、特に断らない限り、本節に基づいて何らかの先行技術において認識されていたと想定すべきではない。
【図面の簡単な説明】
【0005】
本発明は、添付の図面の図に、限定ではなく例として示されており、同様の参照符号は同様の要素を指す。
【0006】
図1】例示的なオーディオ・エンコード装置を示す。
【0007】
図2A】例示的な下流のオーディオ・プロセッサを示す。
図2B】例示的な下流のオーディオ・プロセッサを示す。
図2C】例示的な下流のオーディオ・プロセッサを示す。
【0008】
図3A】例示的なサブフレーム利得平滑化動作を示す。
図3B】例示的なサブフレーム利得平滑化動作を示す。
図3C】例示的なサブフレーム利得平滑化動作を示す。
図3D】例示的なサブフレーム利得平滑化動作を示す。
【0009】
図4】例示的なプロセス・フローを示す。
【0010】
図5】本明細書に記載されるコンピュータまたはコンピューティング装置がその上に実装されうる例示的なハードウェア・プラットフォームを示す。
【発明を実施するための形態】
【0011】
本明細書では、効率的なダッキング利得適用によるメイン‐関連オーディオ体験の改善に関連する例示的な実施形態が記載される。以下の説明では、説明の目的で、本発明の完全な理解を提供するために、多数の個別的詳細が記載されている。しかしながら、本発明は、これらの個別的詳細なしに実施されうることは明らかであろう。他方、本発明を不必要に隠蔽し、不明瞭にし、または難読化することを避けるために、周知の構造および装置は、詳細には説明されていない。
【0012】
例示的実施形態は、以下の概略に従ってここに記載される。
1. 一般的概観
2. 上流のオーディオ・プロセッサ
3. 下流のオーディオ・プロセッサ
4. サブフレーム利得生成
5. 例示的なプロセス・フロー
6. 実装機構‐ハードウェアの概要
7. 等価物、拡張、代替物およびその他
【0013】
1. 一般的概観
この概観は、本発明の実施形態のいくつかの側面の基本的な記述を提示する。この概観は、実施形態の諸側面の広範なまたは網羅的な要約ではないことに留意されたい。さらに、この概観は、実施形態のいずれかの特に重要な側面または要素を特定するものとして、あるいは特定的には実施形態の、または一般には本発明の何らかの範囲を画定するものとして理解されることは意図されていないことに留意されたい。この概観は、単に、例示的な実施形態に関するいくつかの概念を、圧縮され簡略化されたフォーマットで提示するに過ぎず、以下の例示的な実施形態の、より詳細な説明に対する概念的な導入として理解されるべきである。別個の諸実施形態が本明細書で議論されるが、本明細書で議論される実施形態および/または部分的実施形態の任意の組み合わせが、さらなる実施形態を形成するために組み合わされてもよいことに留意されたい。
【0014】
本明細書に記載されるオーディオ・ビットストリームは、オーディオ・オブジェクトのオブジェクト・エッセンスと、オーディオ・オブジェクトを再構成するためのサイド情報を含むがこれに限定されない、オーディオ・オブジェクトについてのオーディオ・メタデータ(またはオブジェクト・オーディオ・メタデータ)とを含むオーディオ信号をエンコードされてもよい。オーディオ・ビットストリームは、AC-4符号化構文、MPEG-H符号化構文等のようなメディア符号化構文に従って符号化されてもよい。
【0015】
オーディオ・ビットストリーム内のオーディオ・オブジェクトは、静的オーディオ・オブジェクトのみ、動的オーディオ・オブジェクトのみ、または静的オーディオ・オブジェクトと動的オーディオ・オブジェクトの組み合わせでありうる。例示的な静的オーディオ・オブジェクトは、ベッド・オブジェクト、チャネル・コンテンツ、オーディオ・ベッド、それぞれがオーディオ・チャネル構成におけるオーディオ・スピーカーへの割り当てによって空間位置が固定されるオーディオ・オブジェクトなどの任意のものを含みうるが、必ずしもこれらに限定されない。例示的な動的オーディオ・オブジェクトは:時間変化する空間情報をもつオーディオ・オブジェクト、時間変化する動き情報をもつオーディオ・オブジェクト、オーディオ・チャネル構成におけるオーディオ・スピーカーへの割り当てによって位置が固定されていないオーディオ・オブジェクトなどの任意のものを含みうるが、これらに限定されない。
【0016】
静的オーディオ・オブジェクトの空間位置のような静的オーディオ・オブジェクトの空間情報は、静的オーディオ・オブジェクトの(オーディオ)チャネルIDから推定されうる。動的オーディオ・オブジェクトの時間変化するまたは時間的に一定な空間位置などの動的オーディオ・オブジェクトの空間情報は、動的オーディオ・オブジェクトのためのオーディオ・メタデータまたはその特定の部分において指示または指定されうる。
【0017】
一つまたは複数のオーディオ・プログラムが、オーディオ・ビットストリームに表現される、または含まれることがある。オーディオ・ビットストリーム内の各オーディオ・プログラムは、オーディオ・ビットストリーム内に表現されるすべてのオーディオ・オブジェクトのうちのオーディオ・オブジェクトの対応するサブセットまたは組み合わせを含んでいてもよい。
【0018】
オーディオ・ビットストリームは、直接的または間接的に、受信側デコード装置に送信/送達され、デコードされてもよい。デコード装置は、オーディオ・ビットストリームのオーディオ・オブジェクトによって表現される音源を描く音場(またはサウンド・シーン)を再現するためにオーディオ・レンダリング環境においてオーディオ・スピーカー(または出力チャネル)を駆動するオブジェクト・オーディオ・レンダラーのようなオーディオ・レンダラーとともに動作してもよい。
【0019】
いくつかの動作シナリオでは、オーディオ・ビットストリームのオーディオ・メタデータは、オーディオ・ビットストリーム内の一つまたは複数のオーディオ・オブジェクトについての時間変化するフレーム・レベルの利得値を示すために、オーディオ・メタデータ・パラメータ――メディア符号化構文に従って上流の符号化装置によってオーディオ・ビットストリームに符号化されたまたは埋め込まれる――を含むことができる。
【0020】
たとえば、オーディオ・ビットストリーム内のオーディオ・オブジェクトは、オーディオ・ビットストリーム内の前のオーディオ・フレームから後のオーディオ・フレームにかけての利得値の時間的変化を受けることを、オーディオ・メタデータにおいて指定されてもよい。オーディオ・オブジェクトは、ダッキング動作における時間変化する利得値を通して、「関連オーディオ」プログラムと同時並行して混合される「メイン・オーディオ」プログラムの一部であってもよい。いくつかの実施形態では、「メイン・オーディオ」プログラムまたはコンテンツは、「関連オーディオ」プログラムまたはコンテンツとはそれぞれ異なる、別個の「音楽および効果」コンテンツ/プログラミングと、別個の「ダイアログ」コンテンツ/プログラミングとを含む。いくつかの実施形態では、「メイン・オーディオ」プログラムまたはコンテンツは、「音楽および効果」コンテンツ/プログラミング(たとえば、「ダイアログ」コンテンツ/プログラミングなどを含まない)を含み、「関連オーディオ」プログラムは、「ダイアログ」コンテンツ/プログラミング(たとえば、「音楽および効果」コンテンツ/プログラミングなどを含まない)を含む。
【0021】
上流のエンコード装置は、「メイン・オーディオ」のラウドネス・レベルを逐次的に下げるよう、「メイン・オーディオ」内のいくつかのまたはすべてのオーディオ・オブジェクトについて、時間変化するダッキング(減衰)利得を生成してもよい。対応して、上流のエンコード装置は、「関連オーディオ」のラウドネス・レベルを逐次的に上昇させるよう、「関連オーディオ」内のいくつかのまたはすべてのオーディオ・オブジェクトについて、時間変化するダッキング(ブースティング)利得を生成してもよい。
【0022】
フレーム・レベルで示される利得の時間的変化は、オーディオ・ビットストリームの受信側オーディオ・デコード装置によって実行されてもよい。いくつかのアプローチの下では、受信側オーディオ・デオード装置による十分な平滑化を伴わない利得の比較的大きな変化は、デコードされた呈示における「ジッパー」効果のような可聴アーチファクトを導入する傾向がある。
【0023】
対照的に、本明細書に記載の技法は、これらの可聴アーチファクトを防止または低減する平滑化動作を提供するために使用できる。これらの技法の下では、受信側オーディオ・デコード装置内のオーディオ・レンダラーは、オーディオ・オブジェクトの動きに関連してオーディオ・オブジェクトの動的な変化を扱う内蔵機能を備えており、かかる内蔵機能を利用して、オーディオ・フレームよりもはるかに細かい時間スケールでオーディオ・オブジェクトについて指定された利得の時間的変化を平滑化するように適応されることができる。たとえば、オーディオ・レンダラーは、内蔵ランプ(built-in ramp)を実装するように適応されて、該内蔵ランプにわたって計算された追加的な複数のサブフレーム利得を用いてオーディオ・オブジェクトの利得の変化を平滑化するように適応されてもよい。ランプ長は、内蔵ランプについてオーディオ・レンダラーに入力されてもよい。ランプ長は、エンコーダ送信のフレーム・レベルの利得に加えて、またはその代わりに、一つまたは複数の利得平滑化/補間アルゴリズムを用いてサブフレーム利得が計算または生成されうる時間区間を表す。フレーム内のすべてのサブフレーム単位に同じフレーム・レベル利得を適用する代わりに、ここでのサブフレーム利得は、同じオーディオ・フレーム内の異なるQFMスロットおよび/または異なるPCMサンプルについてなめらかに差分化された(differentiated)値を含むことができる。本明細書で使用されるところでは、エンコーダ送信のフレーム・レベルの利得のような「エンコーダ送信の」(encoder-sent)動作パラメータは、上流の装置(オーディオ・エンコーダを含むが、これに限定されない)によってその中でオーディオ・ビットストリームまたはオーディオ・メタデータ中にエンコードされる動作パラメータまたは利得を指すことができる。一例では、そのような「エンコーダ送信の」動作パラメータまたは利得は、パラメータ/利得またはそのための特定の値を受領することなく、上流装置によって生成され、オーディオ・ビットストリーム中にエンコードされてもよい。別の例では、そのような「エンコーダ送信の」動作パラメータまたは利得は、入力パラメータ/利得(またはそのための入力値)から、上流の装置によって、受領され、変換され、翻訳され、および/またはオーディオ・ビットストリーム中にエンコードされることができる。入力パラメータ/利得(またはそのための)は、上流の装置によって受領されるユーザー入力または入力内容において受領または指定されることができる。
【0024】
ダッキング利得のような時間変化する利得がそれについてオーディオ・ビットストリームとともに受領されるところのオーディオ・オブジェクトは、チャネル・コンテンツの一部としての静的オーディオ・オブジェクト(またはベッド・オブジェクト)であってもよい。ビットストリームから受領されたオーディオ・メタデータは、静的オーディオ・オブジェクトについてのランプ長を指定しなくてもよい。オーディオ・デコード装置は、受領されたオーディオ・メタデータを修正して、内蔵ランプのためのランプ長の指定を追加することができる。受領されたオーディオ・メタデータにおけるフレーム・レベルのダッキング利得は、目標利得を設定または導出するために使用されることができる。ランプ長と目標利得は、オーディオ・レンダラーが、内蔵のランプを使用して静的オーディオ・オブジェクトについての利得平滑化動作を実行できるようにする。
【0025】
ダッキング利得のような時間変化する利得がそれについてオーディオ・ビットストリームとともに受領されるところのオーディオ・オブジェクトは、オブジェクト・オーディオの一部としての動的オーディオ・オブジェクトであってもよい。静的オーディオ・オブジェクトと同様に、オーディオ・ビットストリームにおいて受領されるフレーム・レベルのダッキング利得は、目標利得を設定または導出するために使用されることができる。
【0026】
いくつかの動作シナリオでは、動的オーディオ・オブジェクトについては、エンコーダ送信ランプ長がオーディオ・ビットストリームとともに受領される。エンコーダ送信ランプ長および目標利得は、内蔵ランプを使用して動的オーディオ・オブジェクトについての利得平滑化動作を実行するためにオーディオ・レンダラーによって使用されてもよい。エンコーダ送信ランプ長の使用は、効果的に可聴アーチファクトを防止することもあれば、防止しないこともある。さまざまな実施形態において、ランプ長は、エンコーダによってオーディオ・オブジェクトについて直接的にまたは完全に生成されてもよいし、されなくてもよいことに留意されたい。映画館コンテンツに関わるいくつかの動作シナリオでは、ランプ長は、エンコーダによってオーディオ・オブジェクトについて直接的にまたは完全には生成されないことがある。ランプ長は、入力――オーディオ・サンプルおよびメタデータを含むオーディオ・コンテンツ自身を含むがそれに限定されない――の一部としてエンコーダによってエンコーダに受領されてもよく、エンコーダは、次いで、適用可能なビットストリーム構文に従って、オーディオ・オブジェクトについてのランプ長を含む入力をエンコード、変換、または翻訳して出力ビットストリームにする。放送コンテンツに関わるいくつかの動作シナリオでは、ランプ長は、エンコーダによって、オーディオ・オブジェクトについて直接的にまたは完全に生成されてもよく、エンコーダは、適用可能なビットストリーム構文に従って、オーディオ・オブジェクトについてのランプ長を、オーディオ・サンプルおよび入力から導出されたメタデータとともにエンコードして、出力ビットストリームにする。
【0027】
いくつかの動作シナリオでは、エンコーダ送信ランプ長が受領されるかどうかにかかわらず、オーディオ・デコード装置はいまだ、内蔵ランプについてデコーダ生成ランプ長の指定を追加するためにオーディオ・メタデータを修正する。デコーダ生成ランプ長の使用は、効果的に可聴アーチファクトを防止することができるが、可能性としては、動的オーディオ・オブジェクトのオーディオ・レンダリングのいくつかの側面を変更するリスクがある。これは、中間的なフレーム・レベルの利得が、デコーダ生成ランプ長に対応する時間区間内にオーディオ・ビットストリームにおいて受領されることがあり、それが動的オーディオ・オブジェクトのオーディオ・レンダリングにおいて無視されうるからである。
【0028】
いくつかの動作シナリオでは、エンコーダ送信ランプ長が受領されたかどうかにかかわらず、オーディオ・デコード装置はいまだ、内蔵ランプについてデコーダ生成ランプ長の指定を追加するためにオーディオ・メタデータを修正する。デコーダ生成ランプ長の使用は、可聴アーチファクトを効果的に防止することができる。追加的に、任意的に、または代替的に、オーディオ・レンダラーは、デコーダ生成ランプ長に対応する時間区間内にオーディオ・ビットストリームとともに受領された中間的なフレーム・レベル利得を組み込む、または実施する平滑化/補間アルゴリズムを実装することができる。これは、効果的に可聴アーチファクトを防止し、コンテンツ制作者によって意図されたような動的オーディオ・オブジェクトのオーディオ・レンダリングを維持することができる。
【0029】
記載されたいくつかのまたはすべての技法は、AC-4、DD+JOC、MPEG-H等に関するものを含むが、これらに限定されない、幅広い多様なオーディオ処理技法を実装する幅広い多様なメディア・システムに広く適用可能でありうる。
【0030】
いくつかの実施形態では、本明細書に記載される機構は、限定されるものではないが、オーディオビジュアルデバイス、フラットパネルTV、ハンドヘルド・デバイス、ゲーム機、テレビジョン、ホームシアターシステム、サウンドバー、タブレット、モバイルデバイス、ラップトップコンピュータ、ネットブックコンピュータ、セルラー無線電話、電子書籍リーダー、ポイントオブセール端末、デスクトップコンピュータ、コンピュータワークステーション、メディアストリーミングデバイス、コンピュータキオスク、さまざまな他の種類の端末およびメディアプロセッサなどを含むメディア処理システムの一部をなす。
【0031】
本明細書に記載される好ましい実施形態および一般的な原理および特徴に対するさまざまな修正が、当業者には容易に明らかになるであろう。よって、本開示は、示された実施形態に限定されることは意図されておらず、本明細書に記載された原理および特徴と整合する最も広い範囲を付与されるべきである。
【0032】
2. 上流のオーディオ・プロセッサ
図1は、オーディオ・エンコード装置(またはオーディオ・エンコーダ)150のような、例示的な上流のオーディオ・プロセッサを示す。オーディオ・エンコード装置(150)は、ソース・オーディオ・コンテンツ・インターフェース152、オーディオ・メタデータ生成器154、オーディオ・ビットストリーム・エンコーダ158などを含んでいてもよい。オーディオ・エンコード装置150は、放送システム、インターネット・ベースのメディア・ストリーミング・サーバー、無線ネットワーク・オペレータ・システム、映画制作システム、ローカル・メディア・コンテンツ・サーバー、メディア・トランスコード・システム等の一部であってもよい。オーディオ・エンコード装置(150)内のコンポーネントの一部または全部は、ハードウェア、ソフトウェア、ハードウェアとソフトウェアの組み合わせなどで実装されうる。
【0033】
オーディオ・エンコード装置は、ソース・オーディオ・コンテンツ・インターフェース(152)を使用して、一つまたは複数のコンテンツ・ソースおよび/またはシステムから、一つまたは複数のソース・オーディオ・オブジェクトのオブジェクト・エッセンスを表す一つまたは複数のソース・オーディオ信号160、該一つまたは複数のオーディオ・オブジェクトについてのソース・オブジェクト空間情報162などを含むソース・オーディオ・コンテンツを取得または受領する。
【0034】
受領されたソース・オーディオ・コンテンツは、その中のオーディオ・エンコード装置(150)またはビットストリーム・エンコーダ(158)によって使用されて、単一のオーディオ・プログラム、いくつかのオーディオ・プログラム、コマーシャル、ムービー、同時並行のメインおよび関連オーディオ・プログラム、連続する諸オーディオ・プログラム、メディア・プログラム(たとえば、ビデオ・プログラム、オーディオビジュアル・プログラム、オーディオのみのプログラムなど)のオーディオ部分のうちの一つまたは複数をエンコードされたオーディオ・ビットストリーム102を生成することができる。
【0035】
受領されたソース・オーディオ・コンテンツの前記一つまたは複数のソース・オーディオ信号(160)内のソース・オーディオ・オブジェクトのオブジェクト・エッセンスは、位置のない(position-less)PCM符号化オーディオ・サンプル・データを含んでいてもよい。受領されたソース・オーディオ・コンテンツ内のソース・オブジェクト空間情報(162)は、オーディオ・エンコード装置(150)によって、別個に(たとえば、補助ソース・データ入力などにおいて)、または、前記一つまたは複数のソース・オーディオ信号(160)内のソース・オーディオ・オブジェクトのオブジェクト・エッセンスと一緒に受領されてもよい。本明細書に記載されるようなオーディオ・オブジェクトのオブジェクト・エッセンス(および可能性としてはオーディオ・オブジェクトの空間情報)を運ぶ例示的なソース・オーディオ信号は、ソースチャネルコンテンツ信号、ソースオーディオベッドチャネル信号、ソースオブジェクトオーディオ信号、オーディオフィード、オーディオトラック、ダイアログ信号、周囲音信号などの一部または全部を含むことができるが、これらに限定されるものではない。
【0036】
ソース・オーディオ・オブジェクトは、静的オーディオ・オブジェクト(これは「ベッド・オブジェクト」または「チャネル・コンテンツ」と呼ばれることがある)、動的オーディオ・オブジェクトなどのうちの一つまたは複数を含みうる。静的オーディオ・オブジェクトまたはベッド・オブジェクトは、(たとえば、出力の、入力の、中間的な、などの)オーディオ・チャネル構成において特定のスピーカーまたはチャネル位置にマッピングされる、動かないオブジェクトを指しうる。本明細書に記載される静的オーディオ・オブジェクトは、オーディオ・ビットストリーム(102)中にエンコードされるオーディオ・ベッドの一部または全部を表すか、またはそれに対応してもよい。本明細書に記載される動的オーディオ・オブジェクトは、オーディオビットストリーム(102)におけるオーディオ・データのレンダリングによって描写されるべき2Dまたは3Dの音場の一部または全部において自由に動き回ることができる。
【0037】
ソース・オブジェクト空間情報(162)は、ソース・オーディオ・オブジェクトの位置および広がり、重要性、空間的排除(spatial exclusions)、発散(divergence)などの一部または全部を含む。
【0038】
オーディオ・メタデータ生成器(154)は、ソース・オーディオ信号(160)およびソース・オブジェクト空間情報(162)のような受領されたソース・オーディオ・コンテンツから、オーディオビットストリーム(102)に含まれるまたは埋め込まれるオーディオ・メタデータを生成する。オーディオ・メタデータは、オブジェクト・オーディオ・メタデータ、サイド情報などを含み、それらの一部または全部は、オーディオ・メタデータ・コンテナ、フィールド、パラメータなどにおいて、AC-4、MPEG-Hなどのようなビットストリーム符号化構文に従ってオーディオビットストリーム(102)にエンコードされるオーディオ・サンプル・データとは別個に搬送されることができる。
【0039】
受領側オーディオ再生システムに伝送されるオーディオ・メタデータは、受領側再生システムが動作する特定の再生(またはオーディオレンダリング)環境において、オーディオ・メタデータが対応するオーディオ・データをレンダリングするよう、受領側再生システムのオブジェクト・オーディオ・レンダラー(オーディオ・レンダリング・ステージの一部または全部を実装する)を案内するオーディオ・メタデータ部分を含んでいてもよい。異なるオーディオ・シーンにおける変化を反映する異なるオーディオ・メタデータ部分は、オーディオ・シーンまたはその細分をレンダリングするために受領側再生システムに送られてもよい。
【0040】
オーディオ・ビットストリーム(102)内のオブジェクトオーディオメタデータ(OAMD)は、オーディオ・オブジェクトをレンダリングするために、オーディオビットストリーム(102)の受領側装置についてのオーディオ動作パラメータを指定してもよく、または、それを導出するために使用されてもよい。オーディオ・ビットストリーム(102)内のサイド情報は、オーディオ符号化装置(150)によってオーディオ・ビットストリーム(102)内にエンコードされ、受領側装置によってオーディオビットストリーム(102)からデコードされるオーディオ信号からオーディオ・オブジェクトを再構成するために、オーディオビットストリーム(102)の受領側装置についてのオーディオ動作パラメータを指定してもよく、またはそれを導出するために使用されてもよい。
【0041】
オーディオビットストリーム(102)のオーディオ・メタデータにおいて表現される例示的な(たとえば、エンコーダ送信の、上流の装置で生成された、などの)オーディオ動作パラメータは、オブジェクト利得、ダッキング利得、ダイアログ正規化利得、ダイアログ正規化利得、ダイナミックレンジ制御利得、ピーク制限利得、フレーム・レベル/分解能利得、位置、メディア記述データ、レンダラー・メタデータ、パン係数、サブミックス利得、ダウンミックス係数、アップミックス係数、再構成マトリクス係数、タイミング制御データ等を含みうるが必ずしもこれらに限定されず、これらの一部または全部は、時間の一つまたは複数の関数として動的に変化しうる。
【0042】
いくつかの動作シナリオでは、オーディオビットストリーム(102)で表されるオーディオ動作パラメータの一部または全部のそれぞれ(たとえば、利得、タイミング制御データなど)は、オーディオ・フレーム内のすべての周波数、サンプル、またはサブバンドに適用可能なブロードバンドまたは広帯域であってもよい。
【0043】
オーディオ・エンコード装置(150)によって生成されたオーディオ・ビットストリーム(102)内で表現またはエンコードされたオーディオ・オブジェクトは、オーディオ・エンコード装置(150)によって受領されたソース・オーディオ・コンテンツ内で表現されたソース・オーディオ・オブジェクトと同一であってもなくてもよい。いくつかの動作シナリオでは、ソース・オーディオ・オブジェクトに対して空間解析が実行されて、一つまたは複数のソース・オーディオ・オブジェクトを、エンコードされたオーディオ・オブジェクトの空間情報とともにオーディオビットストリーム(102)において表現される(エンコードされた)オーディオ・オブジェクトに組み合わせる、またはクラスタリングする。前記一つまたは複数のソース・オーディオ・オブジェクトが組み合わされるまたはクラスタリングされるエンコードされたオーディオ・オブジェクトの空間情報は、ソース・オブジェクト空間情報(162)内の前記一つまたは複数のソース・オーディオ・オブジェクトのソース空間情報から導出されてもよい。
【0044】
オーディオ・オブジェクトを表すオーディオ信号――これはソース・オーディオ・オブジェクトと同じであってもよいし、ソース・オーディオ・オブジェクトから導出またはクラスタリングされてもよい――は、基準オーディオ・チャネル構成(たとえば、2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.2、10.2、10-60スピーカー構成、60+スピーカー構成など)に基づいて、オーディオビットストリーム(102)においてエンコードされてもよい。たとえば、オーディオ・オブジェクトは、基準オーディオ・チャネル構成における一つまたは複数の基準オーディオチャネル(またはスピーカー)にパンされてもよい。基準オーディオ・チャネル構成における基準オーディオチャネル(またはスピーカー)のサブミックス(またはダウンミックス)は、一部または全部のオーディオ・オブジェクトからの一部または全部の寄与からパンを通じて生成されてもよい。サブミックスは、基準オーディオ・チャネル構成内の基準チャネル(またはスピーカー)について対応するオーディオ信号を生成するために使用されてもよい。再構成動作パラメータは、少なくとも部分的に、エンコーダ側パンおよびサブミックス/ダウンミックス動作で使用される、パン係数、オーディオ・オブジェクトの空間情報などから導出され、オーディオ・メタデータ(たとえば、サイド情報など)において渡されて、オーディオ・ビットストリーム(102)の受領側装置がオーディオビットストリーム(102)において表されるオーディオ・オブジェクトを再構成できるようにする。
【0045】
オーディオビットストリーム(102)は、一連の伝送フレームにおいて、直接的または間接的に受領側装置に伝送されるか、または他の仕方で受領側装置に送達されうる。各伝送フレームは、基準オーディオ・チャネル構成内のすべてのオーディオチャネル(またはスピーカー)について、同じ(フレーム)時間区間(たとえば、20ミリ秒、10ミリ秒、短いまたは長いフレーム時間区間など)についてのQMFマトリクスのような一連のPCMサンプルまたはエンコードされたオーディオ・データを運ぶ一つまたは複数のオーディオ・フレームを含むことができる。オーディオ・ビットストリーム(102)は、連続する(フレーム)時間区間のシーケンスをカバーするPCMサンプルまたはエンコードされたオーディオ・データを含む、連続するオーディオ・フレームのシーケンスを含んでいてもよい。連続する(フレーム)時間区間のシーケンスは、メディア・プログラムの(たとえばリプレイ、再生、ライブブロードキャスト、ライブストリーミングなどの)継続時間を構成してもよく、そのオーディオ・コンテンツは、少なくとも部分的にはオーディオビットストリーム(102)においてエンコードされる、または提供される。
【0046】
本明細書に記載されるオーディオ・フレームによって表される時間区間は、複数の対応するQMF(時間)スロットによって表す複数のサブフレーム時間区間を含んでいてもよい。オーディオ・フレームの前記複数のサブフレーム時間区間における各サブフレーム時間区間は、前記複数の対応するQMFスロットにおけるそれぞれのQMFスロットに対応しうる。本明細書に記載されるQFMスロットは、オーディオ・フレームのQMFマトリクス内のマトリクス列によって表されてもよく、集合的に周波数のブロードバンドまたは広帯域を構成する(たとえば、人間の聴覚系にとって可聴な周波数帯域全体の一部または全部をカバーする、などの)複数の周波数またはサブバンドのためのスペクトル要素を含む。
【0047】
オーディオ・エンコード装置(150)は、オーディオ・ビットストリーム(102)において表される一つまたは複数のオーディオ・オブジェクト(すべてのオーディオ・オブジェクトのうちの)についての利得を変化させるいくつかの(エンコーダ側の)オーディオ処理動作を実行することができる。これらの利得は、オーディオ・レンダリング動作において、オーディオビットストリーム(102)の受領側装置によって、――前記一つまたは複数のオーディオ・オブジェクトに直接的または間接的に適用されて、たとえば、前記一つまたは複数のオーディオ・オブジェクトのラウドネス・レベルまたはダイナミクスを変更してもよい。
【0048】
例示的な(エンコーダ側)オーディオ処理動作には、ダッキング動作、ダイアログ向上動作、ユーザー制御される利得遷移動作(たとえば、コンテンツ作成者または制作者によって提供されるユーザー入力などに基づく)、ダウンミックス動作、ダイナミックレンジ制御動作、ピーク制限動作、クロスフェージング、連続するまたは同時並行するプログラム混合、利得平滑化、フェードアウト/フェードイン、プログラム切り換え、または他の利得遷移動作を含みうるが、これらに限定されない。
【0049】
限定ではなく例として、オーディオビットストリーム(102)は、(利得が遷移する)時間セグメントをカバーすることができ、該時間セグメントには、「メイン・オーディオ」タイプの第1のオーディオ・プログラム(「メイン・オーディオ」プログラムと称される)と「関連オーディオ」タイプの第2のオーディオ・プログラム(「関連オーディオ」プログラムと称される)がオーディオビットストリーム(102)においてエンコードされる、または含まれ、それらをオーディオビットストリーム(102)の受領側装置が同時並行してレンダリングする。「メイン・オーディオ」プログラムは、オーディオ・ビットストリーム(102)またはその一つまたは複数の第1のオーディオ・サブストリームにおいてエンコードされたまたは表現された、前記オーディオ・オブジェクトにおけるオーディオ・オブジェクトの第1のサブセットを含んでいてもよい。「関連オーディオ」プログラムは、前記オーディオ・ビットストリーム(102)またはその一つまたは複数の第2のオーディオ・サブストリームにおいてエンコードまたは表現された、前記オーディオ・オブジェクトにおける――オーディオ・オブジェクトの前記第1のサブセットとは異なる――オーディオ・オブジェクトの第2のサブセットを含んでいてもよい。オーディオ・オブジェクトの第1のサブセットは、オーディオ・オブジェクトの第2のサブセットと相互に排他的であってもよく、あるいは代替的に、部分的にオーディオ・オブジェクトの第2のサブセットと重複してもよい。
【0050】
オーディオ・エンコード装置(150)またはその中のフレーム・レベル利得生成器(156)――これは、限定されるわけではないが、オーディオ・メタデータ生成器(154)の一部であってもよい――は、ダッキング動作を実行して、「メイン・オーディオ」プログラムと「関連オーディオ」プログラムとの間の(ラウドネスの)動的なバランスを、前記(利得遷移)時間セグメントにわたって(たとえば、動的に、該時間セグメントにわたって、などで)変更または制御することができる。たとえば、これらのダッキング動作は、「メイン・オーディオ」プログラムの前記一つまたは複数の第1のサブストリームにおいて搬送されるオーディオ・オブジェクトの第1のサブセット内の一部または全部のオーディオ・オブジェクトのラウドネス・レベルを減少させ、一方で、「関連オーディオ」プログラムの前記一つまたは複数の第2のサブストリーム内のオーディオ・オブジェクトの第2のサブセット内の一部または全部のオーディオ・オブジェクトのラウドネス・レベルを同時並行して増加させるように実行されることができる。
【0051】
デコードされた呈示における「メイン・オーディオ」プログラムと「関連オーディオ」プログラムとの間のバランスを制御するために、オーディオビットストリーム(102)に含まれるオーディオ・メタデータは、ビットストリーム符号化構文に従って、「メイン・オーディオ」プログラムにおけるオーディオ・オブジェクトの第1のサブセットおよび「関連オーディオ」プログラムにおけるオーディオ・オブジェクトの第2のサブセットのためのダッキング利得を提供または指定することができる。コンテンツ作成者または制作者は、ダッキング利得を使用して、「メイン・オーディオ」プログラム・コンテンツをスケーリングまたは「ダッキング」し、同時並行して「関連オーディオ」プログラム・コンテンツをスケーリングまたは「ブースト」することにより、「関連オーディオ」プログラム・コンテンツをより理解しやすいものとすることができる。
【0052】
ダッキング利得は、フレーム・レベルで、またはフレーム毎に、オーディオ・ビットストリーム(102)において伝送されることができる(たとえば、各フレームについてのメインおよび関連オーディオについてそれぞれ2つの利得、前の値から次の異なる値へと利得が変化する各フレームについての利得など)。本明細書で使用されるところでは、「フレーム・レベルで」(または「…のフレーム分解能で」)は、動作パラメータの個々のインスタンス/値が単一のオーディオ・フレームまたは複数のオーディオ・フレームについて提供または指定されること――たとえばフレーム毎に動作パラメータの単一のインスタンス/値――を意味しうる。フレーム・レベルで利得を指定することは、オーディオ・ビットストリーム(102)のエンコード、送信、受信および/またはデコードに関連して、ビットレート使用を低減することができる(たとえば、より高い分解能で利得を指定することに比して)。
【0053】
オーディオ・エンコード装置(150)は、ユーザーの聴取体験を改善するために、フレームからフレームへの(たとえば、一つまたは複数のオーディオ・オブジェクトなどについての)ダッキング利得の大きな変化を回避または低減してもよい。オーディオ・エンコード装置(150)は、連続する2つのオーディオ・フレームの間の最大許容可能な利得変化値以下の利得変化に上限を課すことができる。たとえば、-12dBの利得変化は、たとえばオーディオ・エンコード装置(150)のフレーム・レベルの利得生成器(156)によって、-2dBきざみで6つの連続するオーディオ・フレームにわたって分散されてもよく、それぞれは最大許容可能な利得変化値を下回る。
【0054】
3. 下流のオーディオ・プロセッサ
図2Aは、オーディオ・ビットストリーム・デコーダ104、サブフレーム利得計算器106、(たとえば、統合された、分散されたなどの)オーディオ・レンダラー108等を有するオーディオ・デコード装置100のような、例示的な下流のオーディオ・プロセッサを示す。オーディオ・デコード装置(100)内のコンポーネントの一部または全部は、ハードウェア、ソフトウェア、ハードウェアとソフトウェアの組み合わせなどで実装されうる。
【0055】
ビットストリーム・デコーダ(104)は、オーディオ・ビットストリーム(102)を受領し、オーディオ・エンコード装置(150)によってオーディオ・ビットストリーム(102)にエンコードされたオーディオ信号およびオーディオ・メタデータを抽出するために、オーディオ・ビットストリーム(102)に対して多重分離およびデコード動作を実行する。
【0056】
オーディオ・ビットストリーム(102)から抽出されたオーディオ・メタデータは、必ずしもこれらに限定されないが、オブジェクト利得、ダッキング利得、ダイアログ正規化利得、ダイナミックレンジ制御利得、ピーク制限利得、フレーム・レベル/分解能利得、位置、メディア記述データ、レンダラー・メタデータ、パン係数、サブミックス利得、ダウンミックス係数、アップミックス係数、再構成マトリクス係数、タイミング制御データなどを含み、それらの一部または全部は、時間の一つまたは複数の関数として動的に変化しうる。
【0057】
抽出されたオーディオ信号と、サイド情報を含むがこれに限定されない抽出されたオーディオ・メタデータの一部または全部が、オーディオ・ビットストリーム(102)において表されているオーディオ・オブジェクトを再構成するために使用されうる。いくつかの動作シナリオでは、抽出されたオーディオ信号は、基準オーディオ・チャネル構成において表現されていてもよい。時間変化するまたは時間的に一定な再構成マトリクスは、サイド情報に基づいて作成され、基準オーディオ・チャネル構成内の抽出されたオーディオ信号に適用されて、オーディオ・オブジェクトを生成または導出することができる。再構成されたオーディオ・オブジェクトは、静的オーディオ・オブジェクト(たとえば、オーディオ・ベッド・オブジェクト、チャネル・コンテンツなど)、動的オーディオ・オブジェクト(たとえば、時間変化するまたは時間的に一定な空間位置などをもつ)などのうちの一つまたは複数を含んでいてもよい。位置および広がり、重要性、空間的排除、発散などのオブジェクト特性は、オーディオ・ビットストリーム(102)によって受領される、オーディオ・メタデータまたはその中のオブジェクト・オーディオ・メタデータ(OAMD)の一部として指定されてもよい。
【0058】
オーディオ・デコード装置(100)は、出力オーディオ・チャネル構成(たとえば、2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.2、10.2、10-60スピーカー構成、60+スピーカー構成など)における、オーディオ・オブジェクトのデコードおよびレンダリングに関連するいくつかの(デコード側の)オーディオ処理動作を実行することができる。例示的な(デコーダ側)オーディオ処理動作は、ダッキング動作、ダイアログ向上動作、ユーザー制御される利得遷移動作(たとえば、コンテンツ消費者またはエンドユーザーによって提供されるユーザー入力などに基づく)、ダウンミックス動作、または他の利得遷移動作を含みうるが、これらに限定されない。
【0059】
これらのデコーダ側動作の一部または全部は、フレーム・レベルよりも細かい時間分解能で、デコーダ側でオーディオ・オブジェクトに差分化された利得(または差分化された利得値)を適用することを含みうる。フレーム・レベルよりも細かい例示的な時間分解能は、サブフレーム・レベル、QMFスロット毎、PCMサンプル毎などのうちの一つまたは複数に関するものを含みうるが、これらに限定されない。比較的細かい時間分解能で適用されるこれらのデコーダ側動作は、利得平滑化動作と称されてもよい。
【0060】
たとえば、オーディオ・ビットストリーム(102)は、オーディオビットストリーム(102)の受領側装置が時間変化する利得を用いて同時並行してレンダリングする「メイン・オーディオ」プログラムおよび「関連オーディオ」プログラムが、オーディオビットストリーム(102)においてエンコードされるまたは含まれる、利得が変化/遷移する継続時間(たとえば、時間セグメント、区間、部分区間など)をカバーしてもよい。前述のように、「メイン・オーディオ」および「関連オーディオ」プログラムは、それぞれ、オーディオ・ビットストリーム(102)またはそのオーディオ・サブストリームにおいてエンコードまたは表現される、前記オーディオ・オブジェクトのうちのオーディオ・オブジェクトの第1のサブセットおよび第2のサブセットを含んでいてもよい。
【0061】
上流のオーディオ・エンコード装置(たとえば、図1の150など)は、ダッキング動作を実行して、「メイン・オーディオ」プログラムと「関連オーディオ」プログラムとの間の(ラウドネスの)動的バランスを(利得遷移)時間セグメントにわたって変化させるまたは制御する(たとえば動的に、利得が変化/遷移する継続時間にわたって、など)ことができる。結果として、時間変化する利得(たとえば、ダッキング等の利得)が、オーディオビットストリーム(102)のオーディオ・メタデータにおいて指定されうる。これらの利得は、オーディオビットストリーム(102)において、フレーム・レベルで、またはフレーム毎に提供されてもよい。
【0062】
エンコーダ送信の、ビットストリームで伝送されるフレーム・レベルの利得――これは、本例ではダッキング動作に関連するが、一般には上流のエンコード装置によって実行される任意の利得変化/遷移動作に関連する時間変化する利得に拡張することができる――は、オーディオ・ビットストリーム(102)からオーディオ・デコード装置100によってデコードされうる。
【0063】
コンテンツ作成者によって意図される、オーディオ・ビットストリーム(102)内のオーディオ・コンテンツのデコードされた呈示(またはオーディオ・レンダリング)において、ダッキング利得は、オーディオ・ビットストリーム(102)内で表される「メイン・オーディオ」プログラムまたはコンテンツに適用されてもよく、一方、対応する利得(たとえば、ブースト等の利得)は、同時並行して、オーディオ・ビットストリーム(102)内で表される付随する「関連オーディオ」プログラムまたはコンテンツに同時に適用されてもよい。
【0064】
追加的、任意的または代替的に、いくつかの動作シナリオでは、オーディオ・デコード装置(100)は、オーディオ・デコード装置(100)に設けられ、聴取者と対話する一つまたは複数のユーザー・コントロール(またはユーザー・インターフェース・コンポーネント)から、ユーザー入力118を受領してもよい。ユーザー入力(118)は、本例におけるダッキング利得のような、オーディオ・ビットストリーム(102)において受領される時間変化するフレーム・レベルの利得に適用されるユーザー調整を指定してもよく、またはこれを導出するために使用されてもよい。前記一つまたは複数のユーザー・コントロールを通じて、聴取者は、たとえば「メイン・オーディオ」を「関連オーディオ」よりも聞こえやすいようにする、またはその逆にするように、メイン/関連バランスを変更させることができ、または「メイン・オーディオ」と「関連オーディオ」の間の別のバランスを引き起こすことができる。聴取者はまた、「メイン・オーディオ」または「関連オーディオ」のいずれかを単独でまたは全体的に聞くことを選択することができる;この場合、「メイン・オーディオ」および「関連オーディオ」プログラム両方がオーディオ・ビットストリーム(102)内で表現される継続時間にわたって、デコードされ、オーディオビットストリーム(102)のデコードされた呈示においてレンダリングされる必要があるのは、「メイン・オーディオ」および「関連オーディオ」プログラムのうちの1つのみである。
【0065】
単に例示の目的のために、オーディオビットストリーム(102)からデコードまたは生成されるオーディオ・オブジェクトは、そのためのフレーム・レベルの時間変化する利得がオーディオ・ビットストリーム(102)内のオーディオ・メタデータにおいて指定されているまたはそこから導出されるところの特定のオーディオ・オブジェクトを含み、これは、可能性としては、少なくとも部分的にユーザー入力(118)に基づいて、さらに適応され、または修正されうる。
【0066】
該特定のオーディオ・オブジェクトは、それについての時間変化する利得がオーディオ・ビットストリーム(102)内のオーディオ・メタデータにおいて指定されるところの任意のオーディオ・オブジェクトを指しうる。いくつかの動作シナリオでは、オーディオビットストリーム(102)からデコードまたは生成されるオーディオ・オブジェクトのうちのオーディオ・オブジェクトの第1のサブセットは「メイン・オーディオ」プログラムを表し、一方、オーディオビットストリーム(102)からデコードまたは生成されたオーディオ・オブジェクトのうちのオーディオ・オブジェクトの第2のサブセットは「関連オーディオ」プログラムを表す。該特定のオーディオ・オブジェクトは:オーディオ・オブジェクトの第1のサブセット、またはオーディオ・オブジェクトの第2のサブセットの一方に属してもよい。
【0067】
該特定のオーディオ・オブジェクトのためのフレーム・レベルの時間変化する利得は、それぞれ、オーディオ・ビットストリーム(102)内で搬送されるオーディオ・フレームのシーケンスにおける第1のオーディオ・フレームおよび第2のオーディオ・フレームのための第1の利得(値)および第2の利得(値)を含んでいてもよい。
【0068】
第1のオーディオ・フレームは、デコードされた呈示における一連の時点(たとえば、フレーム・インデックスなど)における第1の時点(たとえば、第1のフレーム・インデックスなどによって論理的に表される)に対応し、該特定のオーディオ・オブジェクトの第1のオブジェクト・エッセンス部分(たとえば、PCMサンプル、変換係数、位置のないオーディオ・データ部分など)を導出するために使用される第1のオーディオ信号部分を含んでいてもよい。同様に、第2のオーディオ・フレームは、デコードされた呈示における一連の時点(たとえば、フレーム・インデックスなど)における第2の時点(たとえば、第1の時点より後の、または第1の時点に続く第2のフレーム・インデックスによって論理的に表される)に対応し、該特定のオーディオ・オブジェクトの第2のオブジェクト・エッセンス部分(たとえば、PCMサンプル、変換係数、位置のないオーディオ・データ部分など)を導出するために使用される第2のオーディオ信号部分を含んでいてもよい。
【0069】
一例では、第1のオーディオ・フレームと第2のオーディオ・フレームは、オーディオ・ビットストリーム(102)においてエンコードされたオーディオ・フレームのシーケンスにおける2つの連続するオーディオ・フレームであってもよい。別の例では、第1のオーディオ・フレームと第2のオーディオ・フレームは、オーディオビットストリーム(102)においてエンコードされたオーディオ・フレームのシーケンス内の2つの連続しないオーディオ・フレームであってもよく;第1のオーディオ・フレームと第2のオーディオ・フレームは、オーディオ・フレームのシーケンスにおける一つまたは複数の介在するオーディオ・フレームによって分離されていてもよい。
【0070】
第1の利得および第2の利得は、ダッキング動作、ダイアログ向上動作、ユーザー制御される利得遷移動作、ダウンミックス動作、または他の利得遷移動作、たとえば上記の任意の組み合わせのうちの1つに関連していてもよい。
【0071】
オーディオ・デコード装置(100)またはその中のサブフレーム利得計算器(106)は、サブフレーム利得平滑化動作が第1の利得および第2の利得について実行されるべきかどうかを決定してもよい。この決定は、少なくとも部分的には、ゼロまたは非ゼロ値でありうる最小利得差閾値に基づいて実行されてもよい。第1の利得と第2の利得との間の差(たとえば、絶対的な値、大きさなど)が、最小利得差分閾値(たとえば、絶対的な値、大きさなど)を超えると判定することに応答して、サブフレーム利得計算器(106)は、第1のオーディオ・フレームと第2のオーディオ・フレームとの間のオーディオ・フレーム(たとえば、両端を含む、含まない、など)に対してサブフレーム利得平滑化動作を適用する。
【0072】
いくつかの動作シナリオでは、最小利得差閾値はゼロではなくてもよく、よって、第1の利得および第2の利得の差がゼロでない最小閾値と比較して相対的に小さい場合には、小さな差が聴覚アーチファクトを生じさせる可能性が低いため、利得平滑化動作または対応する計算は呼び出されなくてもよい。
【0073】
追加的に、任意的に、または代替的に、この決定は、少なくとも部分的に、最小利得変化率閾値に基づいて実行されてもよい。第1の利得と第2の利得との間の変化率(たとえば、絶対的な値、大きさなど)が、最小利得変化率閾値(たとえば、絶対的な値、大きさなど)を超えると判定することに応答して、サブフレーム利得計算器(106)は、第1のオーディオ・フレームと第2のオーディオ・フレームとの間のオーディオ・フレーム(たとえば、両端を含む、含まない、など)に対してサブフレーム利得平滑化動作を適用する。第1の利得と第2の利得との間の変化率は、第1の利得と第2の利得との間の差を、第1の利得と第2の利得との間の時間差で割ったものとして計算されてもよい。いくつかの動作シナリオでは、時間差は、第1のオーディオ・フレームの第1のフレーム・インデックスと第2のオーディオ・フレームの第2のフレーム・インデックスとの間の差に基づいて論理的に表現または計算されてもよい。
【0074】
いくつかの動作シナリオでは、最小利得変化率閾値はゼロではなくてもよく;よって、第1利得と第2利得との間の変化率が最小利得変化率閾値と比較して相対的小さい場合には、小さな変化率が聴覚アーチファクトを生じさせる可能性が低いため、利得平滑化動作または対応する計算が呼び出されなくてもよい。
【0075】
いくつかの動作シナリオでは、サブフレーム利得平滑化動作を実行するかどうかの決定は、対称的であってもよい。たとえば、同じ最小利得差閾値または同じ最小利得変化率閾値を使用して、利得値の変化または変化率が正であるか(たとえば、ブーストまたは上昇など)または負であるか(たとえば、ダッキングまたは下降など)の判定をしてもよい。判定において、差の絶対的な値は、絶対値で閾値と比較されてもよい。
【0076】
人間の聴覚系は、増大するラウドネス・レベルおよび減少するラウドネス・レベルに対して異なる積分時間で反応することがある。いくつかの動作シナリオでは、サブフレーム利得平滑化動作を実行するかどうかの判定は非対称でありうる。たとえば、利得値の変化または変化率が正であるか(たとえば、ブーストまたは上昇など)または負であるか(たとえば、ダッキングまたは下降など)に依存して、判定をするために異なる最小利得差閾値または異なる最小利得変化率閾値(絶対的な値または大きさに変換されたときに)が使用されてもよい。利得値の変化または変化率は、絶対的な値または大きさに変換され、次いで、異なる最小利得差閾値または異なる最小利得変化率閾値のうちの特定の1つと比較されてもよい。
【0077】
追加的、任意的、または代替的に、補間のような利得平滑化動作が実行されるべきかどうかを決定するために、一つまたは複数の他の判定要因が使用されてもよい。例示的な判定要因には、オーディオ・コンテンツの諸側面および/または特性、オーディオ・オブジェクトの諸側面および/または特性、オーディオ・デコードおよび/またはエンコード装置またはその中の処理コンポーネントのシステム資源の利用可能性、オーディオ・デコードおよび/またはエンコード装置またはその中の処理コンポーネントのシステム資源の利用、などの任意のものを含みうるが、必ずしもこれらに限定されない。
【0078】
第1のオーディオ・フレームについて指定された第1の利得と、第2のオーディオ・フレームについて指定された第2の利得に関連して、利得平滑化動作が特定のオーディオ・オブジェクトに対して実行されることを決定することに応答して、サブフレーム利得計算器は、第1のオーディオ・フレームについて指定された第1の利得と、第2のオーディオ・フレームについて指定された第2の利得との間でその特定のオーディオ・オブジェクトに適用される諸利得を平滑化または補間するために使用されるランプの(たとえば、デコーダ側で挿入される、タイミング・データなど)ランプ長を決定する。本明細書に記載されるような例示的な利得平滑化/補間アルゴリズムは、区分的に一定な補間、線形補間、多項式補間、スプライン補間などのうちの一つまたは複数の組み合わせを含んでいてもよいが、必ずしもこれらに限定されるものではない。追加的、任意的、または代替的に、利得平滑化/補間動作は、個々のオーディオ・チャネル、個々のオーディオ・オブジェクト、個々の時間期間/区間などに個々に適用されてもよい。いくつかの動作シナリオでは、本明細書に記載される平滑化/補間アルゴリズムは、人間の聴覚系の知覚モデルを描写または表現する非線形関数であってもよい心理音響関数で修正または変調された平滑化/補間関数を実装してもよい。そこで実装される平滑化/補間アルゴリズムまたはタイミング制御は、「ジッパー」効果のような知覚可能なオーディオ・アーチファクトが全くまたはほとんどなしに、平滑化されたラウドネス・レベルを提供するように特に設計されうる。
【0079】
上流のエンコード装置によって提供されるオーディオ・ビットストリーム(102)内のオーディオ・メタデータは、ランプ長の指定がないことがある。いくつかの動作シナリオでは、オーディオ・メタデータは、特定のオーディオ・オブジェクトについて別個のエンコーダ送信ランプ長を指定してもよく、この別個のエンコーダ送信ランプ長は、サブフレーム利得計算器(106)によって決定される(たとえば、デコーダ生成等の)ランプ長とは異なっていてもよい。一例では、特定のオーディオ・オブジェクトは、映画館メディア・プログラムにおける動的オーディオ・オブジェクト(たとえば、時間変化する空間情報をもつ非ベッド・オブジェクト、非チャネル・コンテンツなど)である。別の例では、特定のオーディオ・オブジェクトは、放送メディア・プログラム内の静的オーディオ・オブジェクトである。比較のために、いくつかの動作シナリオでは、オーディオ・メタデータは、特定のオーディオ・オブジェクトについていかなる別個のエンコーダ送信ランプ長も指定しなくてもよい。一例では、特定のオーディオ・オブジェクトは、エンコーダがオーディオ・オブジェクトのためのランプ長を指定していない放送メディア・プログラムにおける、または非放送メディア・プログラムにおける静的オーディオ・オブジェクト(たとえば、オーディオ・チャネル構成においてチャネルIDに対応する固定した位置をもつベッド・オブジェクト、チャネル・コンテンツなど)である。別の例では、特定のオーディオ・オブジェクトは、エンコーダがオーディオ・オブジェクトについてのランプ長を指定していない非映画館メディア・プログラムにおける動的オーディオ・オブジェクトである。
【0080】
本明細書に記載されるような利得平滑化動作を実装するために、サブフレーム利得計算器(106)は、第1の利得、第2の利得、およびランプ長に基づいてサブフレーム利得を計算または生成することができる。例示的なサブフレーム利得は:ブロードバンド利得、広帯域利得、狭帯域利得、周波数特異的利得、ビン特異的利得、時間領域利得、変換領域利得、周波数領域利得、QFMマトリクス内のエンコードされたオーディオ・データに適用可能な利得、PCMサンプル・データに適用可能な利得などの任意のものを含みうるが、必ずしもこれらに限定されない。サブフレーム利得は、オーディオ・ビットストリーム(102)から得られるフレーム・レベル利得とは異なっていてもよい。たとえば、そのランプ長のランプをカバーする時間区間について生成または計算されるサブフレーム利得は、オーディオ・ストリーム(102)内の同じ時間区間について指定される任意のフレーム・レベル利得のスーパーセットであってもよい。サブフレーム利得は、サブフレーム・レベルで、QFMスロット毎に、PCMサンプル毎に、等で、一つまたは複数の補間された利得を含んでいてもよい。第1のフレームと第2のフレームとの間(両端含む)のあるオーディオ・フレーム内で、2つの異なるQFMスロット・ベース、2つの異なるPCMサンプルなどの2つの異なるサブフレーム単位が、2つの異なるサブフレーム利得(または異なるサブフレーム利得値)に割り当てられてもよい。
【0081】
いくつかの動作シナリオでは、サブフレーム利得計算器(106)は、そのランプ長をもつランプによって表される時間区間にわたって特定のオーディオ・オブジェクトについての諸サブフレーム利得を生成するために、第1のオーディオ・フレームについて指定された第1の利得を、第2のオーディオ・フレームについて指定された第2の利得まで補間する。第1のオーディオ・フレームと第2のオーディオ・フレームとの間の、QMFスロットまたはPCMサンプルのような異なるサブフレーム単位からの特定のオーディオ・オブジェクトへの寄与は、計算されたサブフレーム利得のうちの異なる(または差分化された)サブフレーム利得を割り当てられてもよい。
【0082】
サブフレーム利得計算器(106)は、オーディオ・オブジェクトに対するオーディオ・データの寄与を含むオーディオ・フレームについて指定されたフレーム・レベル利得に少なくとも部分的に基づいて、オーディオビットストリーム(102)において表現されるオーディオ・オブジェクトの一部または全部についてサブフレーム利得を生成または導出することができる。オーディオ・ビットストリーム(102)において表されるオーディオ・オブジェクトの一部または全部についてのこれらのサブフレーム利得――たとえば、特定のオーディオ・オブジェクトについてのサブフレーム利得を含む――は、サブフレーム利得計算器(106)によってオーディオ・レンダラー(108)に提供されてもよい。
【0083】
オーディオ・オブジェクトについてのサブフレーム利得を受領するのに応答して、オーディオ・レンダラー(108)は、利得平滑化動作を実行して、フレーム・レベルよりも細かい時間分解能で、たとえばサブフレーム・レベルで、QMFスロット毎に、PCMサンプル毎になどで、差分化されたサブレベル利得をオーディオ・オブジェクトに適用する。追加的、任意的または代替的に、オーディオ・レンダラー(108)は、サブフレーム利得がオーディオ・オブジェクトに適用されたときのオーディオ・オブジェクトによって表される音場を、オーディオ・デコード装置(100)をもつ特定の再生環境で動作するオーディオ・スピーカーのセット(または特定の出力オーディオ・チャネル構成)によってレンダリングさせる。
【0084】
いくつかのアプローチの下では、デコーダは、フレーム・レベルで「関連オーディオ」プログラムを同時並行してブーストする一方で「メイン・オーディオ」プログラムをダッキングすることに関連するもののような利得値の変化を適用してもよい。オーディオ・ビットストリームにおいて指定されたフレーム・レベルの利得は、フレーム毎に適用されてもよい。よって、オーディオ・フレーム内のQMFスロットまたはPCMサンプルのような各サブフレーム単位は、利得平滑化または補間なしで、オーディオ・フレームについて指定されたのと同じブロードバンドまたは広帯域の(たとえば、知覚的、非知覚的等の)利得を実装してもよい。サブフレーム利得平滑化がなければ、これは、ラウドネス・レベルの不連続な変化が聴取者によって(可聴アーチファクトとして)知覚されうる「ジッパー」アーチファクトにつながるであろう。
【0085】
対照的に、本明細書に記載される技法の下では、利得平滑化動作は、少なくとも部分的に、フレーム・レベルよりも細かい時間分解能で計算されたサブフレーム利得に基づいて実装または実行されることができる。結果として、「ジッパー」アーチファクトのような可聴アーチファクトが解消されるか、または著しく減少されることができる。
【0086】
いくつかのアプローチの下では、オーディオ・レンダラー以外の上流装置が、オーディオ・フレーム内のQMFスロットまたはPCMサンプルに対する線形利得の線形補間のような補間演算を実装または適用することがある。しかしながら、オーディオ・フレームが多くのオーディオ信号、多くのオーディオ・オブジェクトなどへのオーディオ・データ部分の多くの寄与を含みうることを考えると、これは計算コストが高く、複雑で、および/または反復的であろう。
【0087】
対照的に、本明細書に記載される技法の下では、利得平滑化動作――これに限定されないが、ランプの時間期間または区間にわたってなめらかに変化するサブフレーム利得を生成する補間の実行を含む――は、部分的に、フレーム・レベルよりも細かい時間スケールでオーディオ・オブジェクトのオーディオ・データを処理することをすでに負わされていてもよいオーディオ・レンダラー(たとえば、オブジェクト・オーディオ・レンダラーなど)によって実行されてもよい。それは、オーディオ・オブジェクトのデコードされた呈示またはオーディオ・レンダリングにおいて、ある空間位置から別の空間位置への任意のオーディオ・オブジェクトの移動を処理するために、オーディオ・レンダラーによってすでに実装されていてもよい内蔵のランプ(単数または複数)に基づく。これらの技法は、上流の装置から受領されたフレーム・レベルの利得を使用して、オーディオ・レンダラーに提供されるいくつかのまたはすべてのオーディオ・オブジェクトのうちの各オーディオ・オブジェクトについてサブフレーム利得を生成または計算するために実装できる。時間変化するフレーム・レベルの利得に応答しての、これらのサブフレーム利得に基づくサブフレーム利得平滑化動作は、オーディオ・レンダラーによって実行されるサブフレーム・オーディオ・レンダリング動作の一部として実装されてもよく、またはそれに併合されてもよい。
【0088】
追加的、任意的または代替的に、オーディオ・オブジェクトのオーディオ・データを表すPCMオーディオ・データのようなオーディオ・サンプル・データは、本明細書に記載されるサブフレーム利得をオーディオ・サンプル・データに適用する前にデコードされる必要はない。オーディオ・レンダラーに入力されるまたは使用されるオーディオ・メタデータまたはOAMDは、修正または生成されてもよい。換言すれば、これらのサブフレーム利得は、いくつかの動作シナリオでは、オーディオ・ビットストリームで運ばれたエンコードされたオーディオ・データをオーディオ・サンプル・データにデコードすることなく生成されうる。次いで、オーディオ・レンダラーは、エンコードされたオーディオ・データをオーディオ・サンプル・データにデコードし、(実際の)出力オーディオ・チャネル構成のオーディオ・スピーカーを用いてオーディオ・オブジェクトをレンダリングすることの一部として、サブフレーム利得をオーディオ・サンプル・データ内のサブフレーム単位内のオーディオ・データ部分に適用することができる。
【0089】
結果として、本明細書に記載される技法の下では、追加的な計算コストは、全く、またはほとんど発生しない。加えて、上流の装置(たとえば、オーディオ・レンダラーの前など)は、時間変化するフレーム・レベルの利得に応答して、これらのサブフレーム・オーディオ処理動作を実施する必要がない。よって、サブフレーム・レベルでの反復的かつ複雑な計算または操作は、本明細書に記載される技法の下では回避されるまたは大幅に低減されうる。
【0090】
4. サブフレーム利得生成
いくつかの動作シナリオでは、本明細書に記載されるようなオーディオ・ストリーム(たとえば、図1または図2Aの102など)は、一組のオーディオ・オブジェクトおよびオーディオ・オブジェクトのためのオーディオ・メタデータを含む。オーディオ・ストリーム(102)からデコードされたオーディオ・オブジェクトのデコードされた呈示またはオーディオ・レンダリングを生成するために、オブジェクト・オーディオ・レンダラーのようなオーディオ・レンダラー(たとえば、図2Aの108など)は、オーディオ・デコード装置(たとえば、図2Aの100など)と、またはオーディオ・デコード装置(たとえば、図2Bの100-1など)とともに動作する装置(たとえば、図2Cの100-2など)と統合されることができる。
【0091】
オーディオ・デコード装置(100、100-1)は、オーディオ・オブジェクトをレンダリングするオーディオ処理動作を実行するよう統合オーディオ・レンダラー(108)を案内するために、オブジェクト・オーディオ・メタデータをオーディオ・レンダラー(108)への入力としてセットアップすることができる。オブジェクト・オーディオ・メタデータは、オーディオ・ビットストリーム(102)において受領されたオーディオ・メタデータから少なくとも部分的に生成されうる。
【0092】
動的オーディオ・オブジェクトのようなオーディオ・オブジェクトは、オーディオ・レンダリング環境(たとえば、家庭、映画館、アミューズメントパーク、音楽バー、オペラハウス、コンサートホール、バー、家庭、講堂など)において動くことができる。オーディオ・デコード装置(100)は、オブジェクト・オーディオ・メタデータの一部としてオーディオ・レンダラー(108)に入力されるタイミング・データを生成することができる。デコーダで生成されたタイミング・データは、オーディオ・オブジェクトの移動によって引き起こされるオーディオ・オブジェクトの空間的および/または時間的な変動(たとえば、オブジェクト利得、パン係数、サブミックス/ダウンミックス係数などにおける変動)などの遷移を処理するために、オーディオ・レンダラー(108)によって実装される内蔵ランプのためのランプ長を指定してもよい。
【0093】
内蔵ランプは、サブフレームの時間スケール(たとえば、いくつかの動作シナリオではサンプル・レベルくらい短い、など)で動作し、オーディオ・レンダリング環境においてオーディオ・オブジェクトをある場所から別の場所へなめらかに遷移させることができる。ひとたびオーディオ・レンダラー(108)またはそのアルゴリズムが、オーディオ・オブジェクトの利得を平滑化するためのランプの最終的な目的地を反映するまたは表す目標利得を決定したら、オーディオ・レンダラー(108)における内蔵ランプを適用して、QMFスロット、PCMサンプルなどの諸サブフレーム単位にわたって利得を計算または補間することができる。
【0094】
オーディオ・レンダラー(108)の外の任意のランプと比較して、この内蔵ランプは、オーディオ・レンダラー(108)とともに動作する(実際の)出力オーディオ・チャネル構成へのすべてのオーディオ・オブジェクトの(実際の)オーディオ・レンダリングのための信号経路においてアクティブであるという明確な利点を提供する。結果として、「ジッパー」効果のような可聴アーチファクトが、オーディオ・デコード装置において実装された内蔵ランプによって比較的効果的かつ容易に防止または低減できる。
【0095】
比較として、他のアプローチの下では、オーディオ・エンコード装置(150)のような上流の装置で、たとえばフレーム・レベルで実装される任意のランプまたは補間プロセスは、実際のオーディオ・チャネル構成に関する情報に基づかないことがあり、実際のオーディオ・チャネル構成(またはオーディオ・レンダリング機能)とは異なる推定基準オーディオ・チャネル構成に基づくものであってもよい。結果として、「ジッパー」効果のような可聴アーチファクトは、上流装置におけるそのようなランプまたは補間プロセスによって効果的に防止または低減されない可能性がある。
【0096】
本明細書に記載されるような(たとえば、内蔵ランプなどを使用する)サブフレーム利得平滑化動作は、オーディオ・オブジェクトおよび/またはオーディオ・オブジェクト・タイプの異なる組み合わせを有する、幅広い多様なレンダリングされるべき入力オーディオ・コンテンツに適用されうる。例示的な入力オーディオ・コンテンツは、チャネル・コンテンツ、オブジェクト・コンテンツ、チャネル・コンテンツとオブジェクト・コンテンツの組み合わせ等の任意のものを含みうるが、これらに限定されるものではない。
【0097】
一つまたは複数の静的オーディオ・オブジェクト(またはベッド・オブジェクト)によって表されるチャネル・コンテンツについて、オーディオ・レンダラー(108)に入力されるオブジェクト・オーディオ・メタデータは、静的オーディオ・オブジェクトが関連付けられるチャネルIDを指定するオーディオ・メタデータ・パラメータ(たとえば、エンコーダ送信(encoder sent)、ビットストリーム伝送(bitstream transmitted)など)を含んでいてもよい。静的オーディオ・オブジェクトの空間位置は、静的オーディオ・オブジェクトについて指定されたチャネルIDによって与えられたり、またはそれから推測されたりすることができる。
【0098】
オーディオ・デコード装置(100)は、オーディオ・メタデータ・パラメータを生成または再生成し、デコーダで生成されたオーディオ・メタデータ・パラメータ(またはパラメータ値)を、チャネル・コンテンツまたはその中の静的オーディオ・オブジェクトのオーディオ・レンダリング動作を、(たとえば統合された、別個の、などの)オーディオ・レンダラー(108)によって制御するために使用することができる。たとえば、チャネル・コンテンツ内の静的オーディオ・オブジェクトの一部または全部について、オーディオ・デコード装置(100)は、オーディオ・レンダラー(108)において実装された内蔵ランプによって使用されるランプ長(単数または複数)などのタイミング制御データを設定または生成することができる。よって、出力オーディオ・チャネル構成内のチャネルに対応する静的オーディオ・オブジェクトについて、オーディオ・デコード装置(100)は、オーディオ・ビットストリーム(102)において受領されたダッキング利得およびデコーダで生成されたランプ長(単数または複数)などのフレーム・レベルの利得を、オーディオ・レンダラー(108)に入力されるオブジェクト・オーディオ・メタデータにおいて、チャネルIDに対応するこれらの静的オーディオ・オブジェクトの空間情報とともに提供することができる。デコーダ生成ランプ長を有するランプを使用して利得平滑化を実行するためである。
【0099】
たとえば、オーディオ・ビットストリーム(102)において表現される「メイン・オーディオ」プログラムおよび「関連オーディオ」プログラムに関連したダッキング動作については、オーディオ・デコード装置(100)――たとえば、サブフレーム利得計算器(106)、オーディオ・レンダラー(108)、オーディオ・デコード装置(100)内の処理要素の組み合わせ等――は、「メイン・オーディオ」プログラムを構成するオーディオ・オブジェクトの第1のサブセットに適用されるべき第1のデコーダ生成サブフレーム利得を含む利得の第1のセットを計算または生成し、「関連オーディオ」プログラムを構成するオーディオ・オブジェクトの第2のサブセットに同時並行して適用されるべき第2のデコーダ生成サブフレーム利得を含む利得の第2のセットを計算または生成することができる。利得の第1および第2のセットは、「メイン・オーディオ」コンテンツの全体的なレンダリングにおける伝送されるダッキング量の減衰、ならびに「関連オーディオ」コンテンツの全体的なレンダリングにおける伝送されるブースティング量の対応する強化を反映することができる。
【0100】
図3Aは、チャネル・コンテンツの一部としての静的オーディオ・オブジェクトのようなオーディオ・オブジェクトに関する例示的な利得平滑化動作を示す。これらの動作は、少なくとも部分的には、オーディオ・レンダラー(108)によって実行されてもよい。図示の目的で、図3Aから図3Dまでの横軸は、時間200を表す。図3Aから図3Dまでの垂直軸は、利得204を表す。
【0101】
静的オーディオ・オブジェクトについてのフレーム・レベルの利得は、オーディオ・ビットストリーム(たとえば、図1または図2Aの102など)において受領されたオーディオ・メタデータのいて指定されてもよい。これらのフレーム・レベルの利得は、第1のオーディオ・フレームについての第1のフレーム・レベル利得206-1と、第2の異なるオーディオ・フレームについての第2のフレーム・レベル利得206-2とを含んでいてもよい。第1のオーディオ・フレームと第2のフレームは、オーディオ・ビットストリーム(102)内のオーディオ・フレームのシーケンスの一部であってもよい。オーディオ・フレームのシーケンスは、再生継続時間をカバーしうる。一例では、第1のオーディオ・フレームと第2のフレームは、オーディオ・フレームのシーケンスにおける2つの連続するオーディオ・フレームであってもよい。別の例では、第1のオーディオ・フレームと第2のフレームは、オーディオ・フレームのシーケンスにおける一つまたは複数の介在するオーディオ・フレームによって隔てられる2つの連続しないオーディオ・フレームであってもよい。第1のオーディオ・フレームは、第1の再生時点202-1で始まる第1のフレーム時間区間についての第1のオーディオ・データ部分を含んでいてもよく、第2のオーディオ・フレームは、第2の再生時点202-2で始まる第2のフレーム時間区間についての第2のオーディオ・データ部分を含んでいてもよい。
【0102】
オーディオ・ビットストリーム(102)において受領されるオーディオ・メタデータは、指定がなくてもよく、あるいは第1および第2のフレーム・レベル利得(206-1および206-2)に関して利得平滑化を適用するためのランプ長などのタイミング制御データを搬送しなくてもよい。
【0103】
オーディオ・レンダラー(108)を含む、および/またはオーディオ・レンダラー(108)とともに動作するオーディオ・デコード装置(100)は、サブフレーム利得平滑化動作が、第1および第2の利得に関して実行されるべきかどうかを(たとえば、閾値に基づいて、第1および第2の利得が等しくないことに基づいて、追加的な決定要因に基づいて、などで)決定してもよい。サブフレーム利得平滑化動作が第1および第2の利得に関して実行されるべきであることを決定するために、オーディオ・デコード装置(100)は、第1および第2のフレーム・レベル利得(206-1および206-2)に関してサブフレーム利得平滑化を適用するために、ランプ216のランプ長などのタイミング制御データを生成する。追加的、任意的または代替的に、オーディオ・デコード装置(100)は、ランプ(216)の終わりに最終または目標利得212を設定してもよい。最終または目標利得(212)は、第2のフレーム・レベル利得(206-2)と同じであってもよいが、これに限定されない。
【0104】
ランプ(216)についてのランプ長は、オーディオレンダラー(108)に入力されるオブジェクト・オーディオ・メタデータにおいて、サブフレーム利得平滑化動作が実行される(利得変化/遷移)時間区間として指定されてもよい。ランプ(216)についてのランプ長または時間区間は、オーディオレンダラー(108)に入力されてもよく、またはランプ(216)の終端を表す最終または目標時点208を決定するためにオーディオレンダラー(108)によって使用されてもよい。ランプ(216)についての最終または目標時点(208)は、第2の時点(202-2)と同じであってもなくてもよい。ランプ(216)についての最終または目標時点(208)は、2つの隣接するオーディオ・フレームを分離するフレーム境界に整列されても、されなくてもよい。たとえば、ランプ(216)の最終または目標時点(208)は、QFMスロットまたはPCMサンプルのようなサブフレーム単位と位置合わせされてもよい。
【0105】
オブジェクト・オーディオ・メタデータの受領に応答して、オーディオ・レンダラー(108)は、利得平滑化動作を実行して、ランプ(216)にわたる個々のサブフレーム利得を計算または取得する。たとえば、これらの個々のサブフレーム利得は、ランプ(216)内のサブフレーム時点210に対応するサブフレーム単位のような異なるサブフレーム単位についてのサブフレーム利得214のような異なる利得(または異なる利得値)を含んでいてもよい。
【0106】
一つまたは複数の動的オーディオ・オブジェクトによって表されるオブジェクト・コンテンツ(たとえば、非チャネル・コンテンツ、非ベッド・オブジェクトなど)について、オーディオレンダラー(108)に入力されるオブジェクト・オーディオ・メタデータは、時間変化するフレーム・レベルの利得とともに(たとえば、エンコーダ送信、ビットストリーム伝送などの)ランプ長を指定する(たとえば、エンコーダ送信、ビットストリーム伝送などの)オーディオ・メタデータ・パラメータを含んでいてもよい。上流のオーディオ処理装置(たとえば、図1の150など)によって指定されるランプ長(単数または複数)の一部または全部は、動的オーディオ・オブジェクトのレンダリングまたはそのようなレンダリングのタイミング側面のために重要でありうる。いくつかの動作シナリオでは、映画館アプリケーションをサポートするエンコーダは、オブジェクト・コンテンツについてのランプ長(単数または複数)を指定しなくてもよいことに注意すべきである。追加的、任意的、または代替的に、いくつかの動作シナリオにおいて、放送アプリケーションをサポートするエンコーダは、チャネル・コンテンツについてのランプ長(単数または複数)を(自由に)指定してもよい。
【0107】
いくつかの動作シナリオでは、時間変化する利得のために、オーディオ・ビットストリーム内のオーディオ・メタデータ(たとえば、図1の102または図2Aなど)に指定されるエンコーダ送信ランプ長が、本明細書に記載されるようなオーディオ・レンダラー(たとえば、図2Aの108など)によって使用され、実装されてもよい。
【0108】
図3Bは、オブジェクト・コンテンツにおける動的オーディオ・オブジェクトなどのオーディオ・オブジェクトに関する例示的な利得平滑化動作を示す。これらの動作は、少なくとも部分的には、オーディオレンダラー(108)によって実行されてもよい。
【0109】
オーディオ・オブジェクト(たとえば、静的または動的)についてのフレーム・レベル利得は、オーディオ・ビットストリーム(102)とともに受領されるオーディオ・メタデータにおいて指定されてもよい。これらのフレーム・レベル利得は、第3のオーディオ・フレームについての第3のフレーム・レベル利得206-3と、第4の異なるオーディオ・フレームについての第4のフレーム・レベル利得206-4とを含んでいてもよい。第3のオーディオ・フレームと第4のフレームは、オーディオ・ビットストリーム(102)におけるオーディオ・フレームのシーケンスの一部であってもよい。オーディオ・フレームのシーケンスは、再生継続時間をカバーしうる。一例では、第3のオーディオ・フレームと第4のフレームは、オーディオ・フレームのシーケンスにおける2つの連続するオーディオ・フレームであってもよい。別の例では、第3のオーディオ・フレームと第4のフレームは、オーディオ・フレームのシーケンスにおける一つまたは複数の介在するオーディオ・フレームによって隔てられた2つの非連続のオーディオ・フレームであってもよい。第3のオーディオ・フレームは、第3の再生時点202-3で始まる第3のフレーム時間区間についての第3のオーディオ・データ部分を含んでいてもよく、第4のオーディオ・フレームは、第4の再生時点202-4で始まる第4のフレーム時間区間についての第4のオーディオ・データ部分を含んでいてもよい。
【0110】
オーディオビットストリーム(102)において受領されたオーディオ・メタデータは、第3および第4のフレーム・レベル利得(206-3および206-4)に関して利得平滑化を適用するために、ランプ216-1についてのランプ長などのタイミング制御データを指定するか、または搬送することができる。
【0111】
ランプ(216-1)についての(たとえば、エンコーダ送信、ビットストリーム伝送などの)ランプ長は、サブフレーム利得平滑化動作が実行される(利得変化/遷移)時間区間として、オーディオレンダラー(108)に入力されるオブジェクト・オーディオ・メタデータにおいて指定されてもよい。ランプ(216-1)についてのランプ長または時間区間は、オーディオレンダラー(108)に入力されるか、またはランプ(216-1)の終端を表す最終または目標時点208-1を決定するためにオーディオレンダラ(108)によって使用されてもよい。追加的、任意的、または代替的に、オーディオ・デコード装置(100)は、ランプ(216-1)の終わりに、最終または目標利得212-1を設定してもよい。
【0112】
エンコーダ送信ランプ長を指定するオブジェクト・オーディオ・メタデータの受領に応答して、オーディオレンダラー(108)は、たとえば内蔵ランプ機能を使用して、ランプ(216-1)にわたる個々のサブフレーム利得を計算または取得するために利得平滑化動作を実行する。これらの個々のサブフレーム利得は、ランプ(216-1)内の異なるサブフレーム単位について異なる利得(または異なる利得値)を含んでいてもよい。
【0113】
いくつかの動作シナリオでは、時間変化する利得のために、オーディオ・ビットストリーム(たとえば、図1または図2Aの102など)内のオーディオ・メタデータにおいてエンコーダ送信ランプ長が指定される。時間変化する利得のためのオーディオ・ビットストリーム(たとえば、図1または図2Aの102)内のオーディオ・メタデータにおいて指定されないデコーダ生成ランプ長は、受領されたオーディオ・メタデータを修正することによって生成され、本明細書に記載されるようなオーディオ・レンダラー(たとえば、図2Aの108)によって使用または実装されてもよい。
【0114】
図3Cは、オブジェクト・コンテンツの一部としての動的オーディオ・オブジェクトなどのオーディオ・オブジェクトに関する例示的な利得平滑化動作を示す。これらの動作は、少なくとも部分的には、オーディオレンダラー(108)によって実行されてもよい。
【0115】
単に例示のために、図3Bに示されるのと同じフレーム・レベルの利得が、ここで図3Cにおいて、オーディオビットストリーム(102)とともに受領されたオーディオ・メタデータ内の動的オーディオ・オブジェクトについて指定されてもよい。これらのフレーム・レベル利得は、第3のオーディオ・フレームについての第3のフレーム・レベル利得(206-3)と、第4のオーディオ・フレームについての第4のフレーム・レベル利得(206-4)とを含んでいてもよい。第3のオーディオ・フレームは、第3の再生時点(202-3)で始まるフレーム時間区間に対応してもよく、第4のオーディオ・フレームは、第4の再生時点(202-4)で始まるフレーム時間区間に対応してもよい。
【0116】
オーディオ・ビットストリーム(102)において受領されたオーディオ・メタデータは、第3および第4のフレーム・レベル利得(206-3および206-4)に関して利得平滑化を適用するために、異なる(たとえば、エンコーダ送信、ビットストリーム伝送などの)ランプ長を指定してもよい。
【0117】
オーディオ・レンダラー(108)を含む、および/または、オーディオ・レンダラ(108)とともに動作するオーディオ・デコード装置(100)は、サブフレーム利得平滑化動作が第3および第4の利得に関して実行されるべきかどうかを(たとえば、閾値に基づいて、第1および第2の利得が等しくないことに基づいて、追加的な決定要因に基づいて、などで)判断してもよい。第3および第4の利得に関してサブフレーム利得平滑化動作が実行されるべきであると判断することに応答して、オーディオ・デコード装置(100)は、第3および第4のフレーム・レベル利得(206-3および206-4)に関してサブフレーム利得平滑化を適用するために、ランプ216-2の(デコーダで生成された)ランプ長などのタイミング制御データを生成する。追加的、任意的、または代替的に、オーディオ・デコード装置(100)は、ランプ(216-2)の終端に最終または目標利得212-2を設定してもよい。最終または目標利得(212-2)は、第4のフレーム・レベル利得(206-4)と同じであってもよいが、これに限定されない。
【0118】
ランプ(216-2)についてのランプ長は、オーディオレンダラー(108)に入力されるオブジェクト・オーディオ・メタデータにおいて、サブフレーム利得平滑化動作が実行されるべき(利得変化/遷移)時間区間として指定されてもよい。ランプ(216-2)についてのランプ長または時間区間は、オーディオレンダラー(108)に入力されてもよく、またはランプ(216-2)の終端を表す最終または目標時点208-2を決定するためにオーディオレンダラー(108)によって使用されてもよい。ランプ(216-2)についての最終または目標時点(208-2)は、第4の時点(202-4)と同じであってもなくてもよい。ランプ(216-2)についての最終または目標時点(208-2)は、2つの隣接するオーディオ・フレームを隔てるフレーム境界に位置合わせされてもしなくてもよい。たとえば、ランプ(216-2)についての最終または目標時点(208-2)は、QFMスロットまたはPCMサンプルのようなサブフレーム単位と位置合わせされてもよい。
【0119】
オブジェクト・オーディオ・メタデータの受領に応答して、オーディオレンダラー(108)は、ランプ(216-2)にわたる個々のサブフレーム利得を計算または取得するよう利得平滑化動作を実行してもよい。たとえば、これらの個々のサブフレーム利得は、ランプ(216-2)内のサブフレーム時点210-2に対応するサブフレーム単位のような異なるサブフレーム単位についてのサブフレーム利得214-2のような異なる利得(または異なる利得値)を含んでいてもよい。
【0120】
内蔵のランプは、オブジェクト・コンテンツ内の動的オーディオ・オブジェクトのようなオーディオ・オブジェクトについてオーディオレンダラー(108)によって利用されることができるが、単にダッキング関係の利得平滑化のような利得平滑化動作の目的のためにランプ長を修正することは、これらのオーディオ・オブジェクトのオーディオ・レンダリングを変更することになりうる。よって、いくつかの動作シナリオでは、ダッキングに対応する利得平滑化の量は、オーディオ・ビットストリーム(102)のオーディオ・メタデータにおいて指定されるフレーム・レベル利得のようなダッキング関連利得を単に、オーディオ・オブジェクトに対してオーディオ・レンダラー108によって適用される全体的なオブジェクト利得に統合することによって達成されうる。該全体的なオブジェクト利得は――オーディオ・レンダラー(108)によって補間または平滑化されたサブフレーム利得と統合され、またはそれと一緒に実装されて――オーディオ・レンダリング環境においてオーディオ・レンダラー(108)とともに動作する出力オーディオ・チャネル構成におけるオーディオ・スピーカーを駆動するために使用されるものである。ビットストリーム伝送されるランプ長のないオーディオ・オブジェクト(たとえば、チャネル・コンテンツ内など)については、オーディオ・デコード装置(100)は、図3Aに示されるような、オーディオ・レンダラー(108)に入力され、オーディオ・レンダラー(108)によって実装されるランプ長を生成することができる。ビットストリーム伝送されるランプ長を有するオーディオ・オブジェクト(たとえば、チャネル・コンテンツ内など)については、オーディオ・デコード装置(100)は、伝送されたランプ長を、サブフレーム利得平滑化動作を実行するために、オーディオ・レンダラー(108)に入力することができる。
【0121】
利得平滑化動作に関連するタイミング制御データの生成および適用は、ダッキングのようなフレーム・レベルの利得およびオーディオ・デコード装置(100)によって受領されるオーディオ・メタデータの両方の更新レートを考慮に入れてもよい。たとえば、本明細書に記載されるランプ長は、少なくとも部分的には、オーディオ・デコード装置(100)によって受領されるオーディオ・メタデータおよび利得情報の更新レートに基づいて、設定、生成および/または使用されうる。ランプ長は、オーディオ・オブジェクトについて最適に決定されてもされなくてもよい。しかしながら、利得変化/遷移動作における可聴アーチファクト(たとえば、ダッキング動作における「ジッパー」効果など)の発生を防止または低減するため、ランプ長は、たとえば十分に長い時間区間として選択されてもよい。
【0122】
いくつかの動作シナリオでは、本明細書に記載される利得平滑化動作は、いくつかの中間の利得(たとえば、中間のダッキング利得または値など)がなくされうることが可能であるという点で、最適であっても、そうでなくてもよい。たとえば、上流のエンコーダは、オーディオ・デコード装置によって決定されるのに比べ、ランプにおける、より多くの更新を送信してもよい。ランプがエンコーダ送信利得の更新の時間よりも長いランプ長で設計または指定されることが可能でありうる。図3Cに示されるように、ランプ(216-2)の内部時点についてのオーディオ・オブジェクトのダッキング利得を更新するために、中間の(たとえば、フレーム・レベル、サブフレーム・レベル等の)利得218が、オーディオ・ビットストリーム(102)において受領されてもよい。この中間利得(218)は、いくつかの動作シナリオではなくされてもよい。中間的な利得の脱落は、ダッキング利得適用の知覚される品質を変化させることもあれば、させないこともある。
【0123】
いくつかの動作シナリオでは、サブフレーム利得平滑化動作に対するさらなる改良が、オーディオ・デコード装置(100)またはその内部のオーディオ・レンダラー(108)において実装されてもよい。たとえば、オーディオ・デコード装置(100)は、中間OAMDペイロードまたは部分のような中間オーディオ・メタデータを内部的に生成することができ、その結果、オーディオビットストリーム(102)において信号伝達または受領されたすべての中間利得値が、その中のオーディオ・デコード装置(100)またはオーディオ・レンダラー(108)によって適用され、その結果、より良好な利得平滑化曲線(たとえば、一つまたは複数の線形セグメントなど)が得られる。オーディオ・デコード装置(100)は、動的オーディオ・オブジェクトを含むがこれに限定されないオーディオ・オブジェクトが、オーディオ・オブジェクトによって表現されるオーディオ・コンテンツのコンテンツ作成者の意図に従って正しくレンダリングされるように、内部OAMDペイロードまたは部分を生成することができる。
【0124】
たとえば、図3Cのランプ(216-2)は、図3Dに示されるような異なるランプ(216-3)に修正されてもよい。図3Dのランプ(216-3)は、図3Cに示されるように、同じ目標利得(たとえば、212-2など)および同じランプ長(たとえば、時点208-2から202-3までの間など)を設定されてもよい。しかしながら、図3Dのランプ(216-3)は、ランプ(216-3)によってカバーされる時間区間内の内部の時点について受領された中間利得(218)が、オーディオ・デコード装置(100)またはその中のオーディオ・レンダラー(108)によって実装されるまたは実施されるという点で、図3Cのランプ(216-2)とは異なる。
【0125】
本明細書に記載される技法の下では、ダッキング利得のような時間変化する利得に応答して、チャネル・コンテンツおよび/またはオブジェクト・コンテンツに対するサブフレーム利得平滑化が、メディア・コンテンツ送達パイプラインの終端近くで実行されてもよく、チャネル・コンテンツおよび/またはオブジェクト・コンテンツから音を生成するために、(実際の)出力オーディオ・チャネル構成(たとえば、オーディオ・スピーカーのセットなど)とともに動作するオーディオ・レンダラーによって実行されてもよい。
【0126】
この解決策は、AC-4オーディオ・システムのようないかなる特定のオーディオ処理システムにも限定されず、オーディオ・コンテンツ送達および消費パイプラインの終端またはその近傍のオーディオ・レンダラーなどがチャネル・オーディオおよび/またはオブジェクト・オーディオを表す時間変化する(または時時間的に一定な)オーディオ・オブジェクトを扱うまたは処理する、幅広い多様なオーディオ処理システムに適用可能である。本明細書に記載される技法を実装する例示的なオーディオ処理システムは、ドルビー・デジタル・プラス統合オブジェクト符号化(Dolby Digital Plus Joint Object Coding、DD+ JOC)、MPEG-Hなどのうちの一つまたは複数を実装するものを含むが、これらのみに限定されるものではない。
【0127】
追加的、任意的または代替的に、本明細書に記載されるいくつかのまたはすべての技法が実装されるのは、出力オーディオ・チャネル構成で動作するオーディオ・レンダラーが、オーディオ・ビットストリームにおいて受領されるオーディオ・コンテンツに適用されるダッキング利得のようなオブジェクトまたはチャネルの特性を変更するために使用できるユーザー入力を扱う装置から分離されるオーディオ処理システムにおいてであってもよい。
【0128】
図2Bおよび図2Cは、オーディオ・ビットストリーム(たとえば、102等)から受領されたオーディオ・コンテンツをレンダリングする(またはそれから対応する音を生成する)ために、互いに関連して動作しうる2つの例示的なオーディオ処理装置100-1および100-2を示す。
【0129】
いくつかの動作シナリオでは、第1のオーディオ処理装置(100-1)は、オーディオ・オブジェクトのセットと、該オーディオ・オブジェクトについてのオーディオ・メタデータとを含むオーディオ・ビットストリーム(102)を受領するセットトップボックスであってもよい。追加的、任意的または代替的に、第1のオーディオ処理装置(100-1)は、オーディオ・オブジェクトのレンダリング側面および/または特性を調整するために使用できるユーザー入力(たとえば、118など)を受領してもよい。たとえば、オーディオビットストリーム(102)は、オーディオ・メタデータにおいて指定されたダッキング利得が適用される「関連オーディオ」プログラムと「メイン・オーディオ」プログラムとを含んでいてもよい。
【0130】
第1のオーディオ処理装置(100-1)は、オーディオ・メタデータを調整して、第2のオーディオ処理装置(100-2)によって実装されるオーディオ・レンダラーに入力される、新しいまたは修正されたオーディオ・メタデータまたはOAMDを生成してもよい。第2のオーディオ処理装置(100-1)は、オーディオビットストリーム(102)においてエンコードされたオーディオ・データから音を生成するために、出力オーディオ・チャネル構成またはそのオーディオ・スピーカーとともに動作するオーディオ/ビデオ・レシーバー(AVR)であってもよい。
【0131】
いくつかの動作シナリオでは、第1のオーディオ処理装置は、オーディオビットストリーム(102)をデコードし、オーディオ・メタデータにおいて指定されたダッキング利得のような時間変化するフレーム・レベルの利得に少なくとも部分的には基づいてサブフレーム利得を生成することを実行してもよい。サブフレーム利得は、第1のオーディオ処理装置(100-1)によって第2のオーディオ処理装置(100-2)に出力されるOAMDの一部として含められてもよい。オーディオ・オブジェクトについての、少なくとも部分的には第1のオーディオ処理装置(100-1)によって生成された、新しいまたは修正されたOAMDと、第1のオーディオ処理装置(100-1)によって受領されたオーディオ・オブジェクトについてのオーディオ・データは、第1のオーディオ処理装置(100-1)内のメディア信号エンコーダ110によって、HDMI(登録商標)信号のような出力オーディオ/ビデオ信号112にエンコードされ、または含められてもよい。A/V信号(112)は、第1のオーディオ処理装置(100-1)から第2のオーディオ処理装置(100-2)へ、たとえばHDMI(登録商標)接続を介して、(たとえば、ワイヤレスで、有線接続などを通じて、などで)送達または伝送されてもよい。
【0132】
第2のオーディオ処理装置(100-2)内のメディア信号デコーダ114は、A/V信号(112)を受領し、デコードして、オーディオ・オブジェクトについてのオーディオ・データと、オーディオ・オブジェクトについてのダッキングのために生成されたもののようなサブフレーム利得を含むOAMDとにする。オーディオ・オブジェクトについてのオーディオ・データ。第2のオーディオ処理装置(100-2)内のオーディオ・レンダラー(108)は、第1のオーディオ処理装置(100-1)からの入力OAMDを使用して、オーディオ・レンダリング動作を実行する。オーディオ・レンダリング動作は、サブフレーム利得をオーディオ・オブジェクトのうちのそのオーディオ・オブジェクトに適用し、出力オーディオ・チャネル構成におけるオーディオ・スピーカーを駆動して、オーディオ・オブジェクトによって表される音源を描写する音を生成することを含むが、これに限定されない。
【0133】
単に例解の目的で、時間変化する利得は、ダッキング動作に関連してもよいことが記載されてきた。さまざまな実施形態では、本明細書に記載されるいくつかのまたはすべての技法が、ダッキング動作以外の他のオーディオ処理動作、たとえばダイアログ向上利得、ダウンミックス利得などの適用に関連するオーディオ処理動作などに関連するサブフレーム利得動作を実装または実行するために使用されることができることに留意されたい。
【0134】
5. 例示的なプロセス・フロー
図4は、本明細書に記載されるように、オーディオ・デコード装置によって実装されうる例示的なプロセス・フローを示す。ブロック402では、オーディオ・デコード装置(たとえば、図2Aの100、図2Bの100-1および図2Cの100-2など)のような下流のオーディオ・システムが、オーディオ・ビットストリームを、一つまたは複数のオーディオ・オブジェクトのセットと、オーディオ・オブジェクトの該セットについてのオーディオ・メタデータとにデコードする。一つまたは複数のオーディオ・オブジェクトのセットは、特定のオーディオ・オブジェクトを含む。オーディオ・メタデータは、オーディオ・ビットストリーム内の第1のオーディオ・フレームおよび第2のオーディオ・フレームについて、それぞれ第1の利得および第2の利得を含む、フレーム・レベル利得の第1のセットを指定する。
【0135】
ブロック404では、下流のオーディオ・システムは、少なくとも部分的には第1および第2のオーディオ・フレームについての第1および第2の利得に基づいて、特定のオーディオ・オブジェクトについてサブフレーム利得が生成されるべきかどうかを決定する。
【0136】
ブロック406では、下流のオーディオ・システムは、少なくとも部分的には第1および第2のオーディオ・フレームについての第1および第2の利得に基づいて、特定のオーディオ・オブジェクトについてサブフレーム利得が生成されるべきであることを決定することに応答して、特定のオーディオ・オブジェクトについてのサブフレーム利得を生成するために使用されるランプについてのランプ長を決定する。
【0137】
ブロック408では、下流のオーディオ・システムは、該ランプ長のランプを使用して、利得の第2のセットを生成する。ここで、利得の第2のセットは、特定のオーディオ・オブジェクトについてのサブフレーム利得を含む。
【0138】
ブロック410では、下流のオーディオ・システムは、第2のセットの利得が適用される、オーディオ・オブジェクトの前記セットによって表される音場を、特定の再生環境において動作するオーディオ・スピーカーのセットによってレンダリングさせる。
【0139】
ある実施形態では、オーディオ・オブジェクトの前記セットは:メイン・オーディオ・プログラムを表すオーディオ・オブジェクトの第1のサブセットと;関連オーディオ・プログラムを表すオーディオ・オブジェクトの第2のサブセットとを含み、前記特定のオーディオ・オブジェクトは、オーディオ・オブジェクトの第1のサブセットまたはオーディオ・オブジェクトの第2のサブセットの一方に含まれる。
【0140】
ある実施形態では、第1のオーディオ・フレームおよび第2のオーディオ・フレームは:前記特定のオーディオ・オブジェクトにおける2つの連続するオーディオ・フレーム、または前記特定のオーディオ・オブジェクトにおける一つまたは複数の介在するオーディオ・フレームによって隔てられた前記特定のオーディオ・オブジェクトにおける2つの非連続のオーディオ・フレームのうちの一方である。
【0141】
ある実施形態では、第1の利得および第2の利得は:ダッキング動作、ダイアログ向上動作、ユーザー制御される利得遷移動作、ダウンミックス動作、音楽および効果(M&E)に適用される利得平滑化動作、ダイアログに適用される利得平滑化動作、M&Eおよびダイアログ(M&E+dialog)に適用される利得平滑化動作、または他の利得遷移動作のうちの1つに関連する。
【0142】
ある実施形態では、オーディオ・オブジェクトの空間的動きを扱うために使用される内蔵ランプが、前記特定のオーディオ・オブジェクトについてのサブフレーム利得を生成するためにランプとして再利用される。
【0143】
ある実施形態では、第1のオーディオ・フレームは、前記特定のオーディオ・オブジェクトの第1のオーディオ・データ部分を含み、第2のオーディオ・フレームは、前記特定のオブジェクトの該第1のオーディオ・データ部分とは異なる、前記特定のオーディオ・オブジェクトの第2のオーディオ・データ部分を含む。
【0144】
ある実施形態では、オーディオ・メタデータには前記ランプ長の指定がない。
【0145】
ある実施形態では、オーディオ・メタデータは、前記ランプ長とは異なるエンコーダ送信ランプ長を指定する。
【0146】
ある実施形態では、利得の前記セットは、前記ランプによって表される時間区間内のある時点に対応する中間利得を含み;該中間利得は、デコードされた呈示においてオーディオ・オブジェクトのセットに適用される利得の前記第2のセットから除外される。
【0147】
ある実施形態では、利得の前記セットは、前記ランプによって表される時間区間内のある時点に対応する中間利得を含み、該中間利得は、デコードされた呈示においてオーディオ・オブジェクトの前記セットに適用される利得の前記第2のセットから含まれる。
【0148】
ある実施形態では、オーディオ・オブジェクトの前記セットは、第2のオーディオ・オブジェクトを含み;前記オーディオ・ストリームとともに受領される前記オーディオ・メタデータにおいてエンコーダ送信ランプ長が指定され、前記エンコーダ送信ランプ長は、前記第2のオーディオ・オブジェクトについてのサブフレーム利得を生成するためのランプ長として使用される。
【0149】
ある実施形態では、利得の前記第2のセットは、第1のオーディオ処理装置によって生成され、音場は、第2のオーディオ処理装置によってレンダリングされる。
【0150】
ある実施形態では、利得の前記第2のセットは、補間によって生成される。
【0151】
ある実施形態では、ソフトウェア命令を含む非一時的なコンピュータ読み取り可能な記憶媒体であって、該ソフトウェア命令は、一つまたは複数のプロセッサによって実行されると、本明細書に記載される方法のいずれか1つの実行を引き起こすものである、記憶媒体。別個の実施形態が本明細書で議論されているが、本明細書で議論される実施形態および/または部分的実施形態の任意の組み合わせが組み合わされてさらなる実施形態を形成してもよいことに留意されたい。
【0152】
6. 実装機構――ハードウェアの概観
ある実施形態によれば、本明細書に記載される技法は、一つまたは複数の特殊目的のコンピューティング装置によって実装される。特殊目的のコンピューティング装置は、それらの技法を実行するために固定構成にされてもよく、またはそれらの技法を実行するために永続的にプログラムされた一つまたは複数の特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)のようなデジタル電子装置を含んでいてもよく、またはファームウェア、メモリ、他の記憶、または組み合わせにおけるプログラム命令に従ってそれらの技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的のコンピューティング装置はまた、カスタムの固定構成論理、ASIC、またはFPGAをカスタム・プログラミングと組み合わせて、それらの技法を達成してもよい。特殊目的のコンピューティング装置は、デスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置、またはこれらの技法を実装するよう固定構成および/またはプログラム論理を組み込んだ他の任意の装置であってもよい。
【0153】
たとえば、図5は、本発明の例示的な実施形態が実装されうるコンピュータ・システム500を示すブロック図である。コンピュータ・システム500は、情報を通信するためのバス502または他の通信機構と、情報を処理するための、バス502に結合されたハードウェア・プロセッサ504とを含む。ハードウェア・プロセッサ504はたとえば汎用マイクロプロセッサであってもよい。
【0154】
コンピュータ・システム500は、ランダム・アクセス・メモリ(RAM)または他の動的記憶装置のような、情報およびプロセッサ504によって実行されるべき命令を記憶するための、バス502に結合されたメイン・メモリ506をも含む。メイン・メモリ506はまた、一時変数または他の中間的な情報を、プロセッサ504によって実行されるべき命令の実行の間、記憶しておくために使われてもよい。そのような命令は、プロセッサ504にとってアクセス可能な非一時的な記憶媒体に記憶されたとき、コンピュータ・システム500を、前記命令において指定されている動作を実行するための装置固有の特殊目的機械にする。
【0155】
コンピュータ・システム500はさらに、バス502に結合された、静的な情報およびプロセッサ504のための命令を記憶するための読み出し専用メモリ(ROM)508または他の静的記憶装置を含む。磁気ディスクまたは光ディスクのような記憶装置510が提供され、情報および命令を記憶するためにバス502に結合される。
【0156】
コンピュータ・システム500は、コンピュータ・ユーザーに対して情報を表示するための、液晶ディスプレイ(LCD)のようなディスプレイ512にバス502を介して結合されていてもよい。英数字その他のキーを含む入力装置514が、情報およびコマンド選択をプロセッサ504に伝えるためにバス502に結合される。もう一つの型のユーザー入力装置は、方向情報およびコマンド選択をプロセッサ504に伝えるとともにディスプレイ512上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのようなカーソル・コントロール516である。この入力装置は典型的には、第一軸(たとえばx)および第二軸(たとえばy)の二つの軸方向において二つの自由度をもち、これにより該装置は平面内での位置を指定できる。
【0157】
コンピュータ・システム500は、本稿に記載される技法を実施するのに、装置固有の固定構成論理、一つまたは複数のASICもしくはFPGA、コンピュータ・システムと組み合わさってコンピュータ・システム500を特殊目的機械にするまたはプログラムするファームウェアおよび/またはプログラム論理を使ってもよい。ある実施形態によれば、本稿の技法は、プロセッサ504がメイン・メモリ506に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して、コンピュータ・システム500によって実行される。そのような命令は、記憶装置510のような別の記憶媒体からメイン・メモリ506に読み込まれてもよい。メイン・メモリ506に含まれる命令のシーケンスの実行により、プロセッサ504は、本稿に記載されるプロセス段階を実行する。代替的な実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて固定構成の回路が使用されてもよい。
【0158】
本稿で用いられる用語「記憶媒体」は、データおよび/または機械に特定の仕方で動作させる命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含んでいてもよい。不揮発性媒体は、たとえば、記憶装置510のような光学式または磁気ディスクを含む。揮発性媒体は、メイン・メモリ506のような動的メモリを含む。記憶媒体の一般的な形は、たとえば、フロッピーディスク、フレキシブルディスク、ハードディスク、半導体ドライブ、磁気テープまたは他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学式データ記憶媒体、孔のパターンをもつ任意の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、NVRAM、他の任意のメモリ・チップまたはカートリッジを含む。
【0159】
記憶媒体は、伝送媒体とは異なるが、伝送媒体と関連して用いられてもよい。伝送媒体は、記憶媒体間で情報を転送するのに参加する。たとえば、伝送媒体は同軸ケーブル、銅線および光ファイバーを含み、バス502をなすワイヤを含む。伝送媒体は、電波および赤外線データ通信の際に生成されるような音響波または光波の形を取ることもできる。
【0160】
さまざまな形の媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ504に搬送するのに関与しうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスクまたは半導体ドライブ上に担持されていてもよい。リモート・コンピュータは該命令をその動的メモリにロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム500にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。赤外線検出器が赤外線信号において担持されるデータを受信することができ、適切な回路がそのデータをバス502上に載せることができる。バス502はそのデータをメイン・メモリ506に搬送し、メイン・メモリ506から、プロセッサ504が命令を取り出し、実行する。メイン・メモリ506によって受信される命令は、任意的に、プロセッサ504による実行の前または後に記憶装置510上に記憶されてもよい。
【0161】
コンピュータ・システム500は、バス502に結合された通信インターフェース518をも含む。通信インターフェース518は、ローカル・ネットワーク522に接続されているネットワーク・リンク520への双方向データ通信結合を提供する。たとえば、通信インターフェース518は、対応する型の電話線へのデータ通信接続を提供するための、統合サービス・デジタル通信網(ISDN)カード、ケーブル・モデム、衛星モデムまたはモデムであってもよい。もう一つの例として、通信インターフェース518は、互換LANへのデータ通信接続を提供するためのローカル・エリア・ネットワーク(LAN)カードであってもよい。無線リンクも実装されてもよい。そのようないかなる実装でも、通信インターフェース518は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気的、電磁的または光学的信号を送受信する。
【0162】
ネットワーク・リンク520は典型的には、一つまたは複数のネットワークを通じた他のデータ装置へのデータ通信を提供する。たとえば、ネットワーク・リンク520は、ローカル・ネットワーク522を通じてホスト・コンピュータ524またはインターネット・サービス・プロバイダー(ISP)526によって運営されているデータ設備への接続を提供してもよい。ISP 526は、現在一般に「インターネット」528と称される世界規模のパケット・データ通信網を通じたデータ通信サービスを提供する。ローカル・ネットワーク522およびインターネット528はいずれも、デジタル・データ・ストリームを担持する電気的、電磁的または光学的信号を使う。コンピュータ・システム500に/からデジタル・データを搬送する、さまざまなネットワークを通じた信号およびネットワーク・リンク520上および通信インターフェース518を通じた信号は、伝送媒体の例示的な形である。
【0163】
コンピュータ・システム500は、ネットワーク(単数または複数)、ネットワーク・リンク520および通信インターフェース518を通じて、メッセージを送り、プログラム・コードを含めデータを受信することができる。インターネットの例では、サーバー530は、インターネット528、ISP 526、ローカル・ネットワーク522および通信インターフェース518を通じてアプリケーション・プログラムのための要求されたコードを送信してもよい。
【0164】
受信されたコードは、受信される際にプロセッサ504によって実行されても、および/または、のちの実行のために記憶装置510または他の不揮発性記憶に記憶されてもよい。
【0165】
8.等価物、拡張、代替その他
以上の明細書では、本発明の例示的な諸実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、特徴、利点もしくは属性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。
図1
図2A
図2B
図2C
図3A
図3B
図3C
図3D
図4
図5