IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特許7543386多様な再生環境のためのダイナミックレンジ制御
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-23
(45)【発行日】2024-09-02
(54)【発明の名称】多様な再生環境のためのダイナミックレンジ制御
(51)【国際特許分類】
   H04S 1/00 20060101AFI20240826BHJP
   H04S 3/00 20060101ALI20240826BHJP
【FI】
H04S1/00 700
H04S3/00 800
【請求項の数】 8
【外国語出願】
(21)【出願番号】P 2022202769
(22)【出願日】2022-12-20
(62)【分割の表示】P 2022123273の分割
【原出願日】2014-09-08
(65)【公開番号】P2023024570
(43)【公開日】2023-02-16
【審査請求日】2022-12-20
(31)【優先権主張番号】61/877,230
(32)【優先日】2013-09-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】61/891,324
(32)【優先日】2013-10-15
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】61/938,043
(32)【優先日】2014-02-10
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】コッペンス,イェルン
(72)【発明者】
【氏名】リードミラー,ジェフリー
(72)【発明者】
【氏名】クヨーリング,クリストファー
(72)【発明者】
【氏名】グロエシェル,アレクサンダー
(72)【発明者】
【氏名】ホーリッヒ,ホルガー
(72)【発明者】
【氏名】シーフェルドット,アラン ジェイ
【審査官】冨澤 直樹
(56)【参考文献】
【文献】米国特許出願公開第2012/0310654(US,A1)
【文献】米国特許出願公開第2010/0286988(US,A1)
【文献】特表2012-504260(JP,A)
【文献】特開2012-034295(JP,A)
【文献】特表2013-521539(JP,A)
【文献】特表2010-537233(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00-7/00
G10L 19/00-19/26
(57)【特許請求の範囲】
【請求項1】
オーディオ信号のダイナミックレンジ制御(DRC)のための方法であって、当該方法は:
参照チャネル構成とは異なる再生チャネル構成において動作するオーディオ・デコーダによって、前記参照チャネル構成のためのオーディオ信号を受領する段階であって、前記オーディオ信号は前記参照チャネル構成の各チャネルのためのオーディオ・サンプル・データおよびエンコーダで生成されたDRCメタデータを含み、前記エンコーダで生成されたDRCメタデータは複数のチャネル構成のためのDRC利得を含み、該複数のチャネル構成のためのDRC利得は、前記再生チャネル構成のためのDRC利得の集合および前記参照チャネル構成のためのDRC利得の集合を含む、段階と;
前記オーディオ・サンプル・データをダウンミックスして、前記再生チャネル構成の前記オーディオ・チャネルのためのダウンミックスされたオーディオ・サンプル・データにする段階と;
前記複数のチャネル構成のためのDRC利得から、前記再生チャネル構成のためのDRC利得の前記集合を選択する段階と;
前記再生チャネル構成のためのDRC利得の前記集合を、前記ダウンミックスされたオーディオ・サンプル・データに適用される全体的な利得の一部として適用して、前記再生チャネル構成の各チャネルのための出力オーディオ・サンプル・データを生成する段階とを含み、
DRC利得の各集合はDRC利得プロファイルに対応する、
方法。
【請求項2】
前記全体的な利得は、ダウンミックスに関連する利得、前記オーディオ・サンプル・データのダイナミックレンジが変換されるもとになったもとのダイナミックレンジを復元することに関連する利得、利得制限に関連する利得、利得平滑化に関連する利得またはダイアログ・ラウドネス正規化に関連する利得のうちの一つまたは複数を含む、請求項1に記載の方法。
【請求項3】
前記再生チャネル構成は、前記参照チャネル構成とは異なる数のオーディオ・チャネルを有する、請求項1に記載の方法。
【請求項4】
前記全体的な利得は、部分的/個々に適用される、直列的に適用される、並列に適用される、または部分的には直列に部分的には並列に適用される、請求項1に記載の方法。
【請求項5】
記再チャネル構成が2チャネル構成である、請求項1に記載の方法。
【請求項6】
ソフトウェア命令を記憶している非一時的なコンピュータ可読記憶媒体であって、前記ソフトウェア命令は、一つまたは複数のプロセッサによって実行されると:
参照チャネル構成とは異なる再生チャネル構成において動作するオーディオ・デコーダによって、前記参照チャネル構成のためのオーディオ信号を受領する段階であって、前記オーディオ信号は前記参照チャネル構成の各チャネルのためのオーディオ・サンプル・データおよびエンコーダで生成されたダイナミックレンジ制御(DRC)メタデータを含み、前記エンコーダで生成されたDRCメタデータは複数のチャネル構成のためのDRC利得を含み、該複数のチャネル構成のためのDRC利得は、前記再生チャネル構成のためのDRC利得の集合および前記参照チャネル構成のためのDRC利得の集合を含む、段階と;
前記オーディオ・サンプル・データをダウンミックスして、前記再生チャネル構成の前記オーディオ・チャネルのためのダウンミックスされたオーディオ・サンプル・データにする段階と;
前記複数のチャネル構成のためのDRC利得から、前記再生チャネル構成のためのDRC利得の前記集合を選択する段階と;
前記再生チャネル構成のためのDRC利得の前記集合を、前記ダウンミックスされたオーディオ・サンプル・データに適用される全体的な利得の一部として適用して、前記再生チャネル構成の各チャネルのための出力オーディオ・サンプル・データを生成する段階とを含み、
DRC利得の各集合はDRC利得プロファイルに対応する、
非一時的なコンピュータ可読記憶媒体。
【請求項7】
オーディオ信号のダイナミックレンジ制御のためのオーディオ信号処理装置であって、当該オーディオ信号処理装置は:
参照チャネル構成とは異なる再生チャネル構成において動作するオーディオ・デコーダによって、前記参照チャネル構成のためのオーディオ信号を受領する段階であって、前記オーディオ信号は前記参照チャネル構成の各チャネルのためのオーディオ・サンプル・データおよびエンコーダで生成されたDRCメタデータを含み、前記エンコーダで生成されたDRCメタデータは複数のチャネル構成のためのDRC利得を含み、該複数のチャネル構成のためのDRC利得は、前記再生チャネル構成のためのDRC利得の集合および前記参照チャネル構成のためのDRC利得の集合を含む、段階と;
前記オーディオ・サンプル・データをダウンミックスして、前記再生チャネル構成の前記オーディオ・チャネルのためのダウンミックスされたオーディオ・サンプル・データにする段階と;
前記複数のチャネル構成のためのDRC利得から、前記再生チャネル構成のためのDRC利得の前記集合を選択する段階と;
前記再生チャネル構成のためのDRC利得の前記集合を、前記ダウンミックスされたオーディオ・サンプル・データに適用される全体的な利得の一部として適用して、前記再生チャネル構成の各チャネルのための出力オーディオ・サンプル・データを生成する段階とを実行し、
前記再生チャネル構成のためのDRC利得の前記集合は、DRC利得プロファイルに対応する、
装置。
【請求項8】
コンピュータ請求項1に記載の方法を実行させるためのコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2013年9月12日に出願された米国仮特許出願第61/877,230号、2013年10月15日に出願された米国仮特許出願第61/891,324号および2014年2月10日に出願された米国仮特許出願第61/938,043号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
【0002】
技術
本発明は、概括的にはオーディオ信号の処理に、より詳細にはダイナミックレンジ制御および他の型のオーディオ処理動作を幅広い多様な再生環境のうちの任意のものにおいてオーディオ信号に適用することに使用されうる技法に関する。
【背景技術】
【0003】
メディア消費装置の高まる人気は、そうした装置での再生のためのメディア・コンテンツのクリエーターおよび頒布者にとって、またはそうした装置の設計者および製造業者にとって新たな機会と課題を作り出した。多くの消費者装置は幅広いメディア・コンテンツの型およびフォーマットを再生でき、中にはHDTV、ブルーレイまたはDVDのためのしばしば高品質、広帯域幅および広いダイナミックレンジのオーディオ・コンテンツに関連するものも含まれる。メディア処理装置は、この型のオーディオ・コンテンツを、自らの内部音響トランスデューサ上でまたはヘッドフォンのような外部トランスデューサ上で再生するために使用されうる。しかしながら、メディア処理装置は一般には、多様なメディア・フォーマットおよびコンテンツ型にわたる一貫したラウドネスおよび了解性をもってこのコンテンツを再生することはできない。
【0004】
このセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、このセクションにおいて記述されるアプローチはいずれも、このセクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、このセクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。
【図面の簡単な説明】
【0005】
本発明は、限定ではなく例として、付属の図面において示される。図面において、同様の参照符号は同様の要素を指す。
図1A】例示的なオーディオ・デコーダを示す図である。
図1B】例示的なオーディオ・エンコーダを示す図である。
図2A】例示的なダイナミックレンジ圧縮曲線を示す図である。
図2B】例示的なダイナミックレンジ圧縮曲線を示す図である。
図3】組み合わされたDRCおよび制限利得の決定/計算の例示的な処理論理を示す図である。
図4】利得の例示的な差分符号化を示す図である。
図5】オーディオ・エンコーダおよびオーディオ・デコーダを有する例示的なコーデック・システムを示す図である。
図5A】例示的なオーディオ・デコーダを示す図である。
図6A】例示的なプロセス・フローを示す図である。
図6B】例示的なプロセス・フローを示す図である。
図6C】例示的なプロセス・フローを示す図である。
図6D】例示的なプロセス・フローを示す図である。
図7】本稿に記載されるコンピュータまたはコンピューティング装置が実装されうる例示的なハードウェア・プラットフォームを示す図である。
【発明を実施するための形態】
【0006】
ダイナミックレンジ制御および他の型のオーディオ処理動作を幅広い多様な再生環境のうちの任意のものにおいてオーディオ信号に適用することに関する例示的実施形態が本稿で記述される。以下の記述では、説明の目的のため、本発明の十全な理解を提供するために、説明の目的で数多くの個別的詳細が記載される。しかしながら、本発明がそうした個別的詳細なしでも実施されうることは明白であろう。他方、本発明を無用に隠蔽し、かすませ、あるいは埋没させるのを避けるために、よく知られた構造および装置は網羅的な詳細さでは記述されない。
【0007】
例示的実施形態は本稿では以下のアウトラインに従って記述される。
1.全般的概観
2.ダイナミックレンジ制御
3.オーディオ・デコーダ
4.オーディオ・エンコーダ
5.ダイナミックレンジ圧縮曲線
6.DRC利得、利得制限および利得平滑化
7.入力平滑化および利得平滑化
8.複数周波数帯域にわたるDRC
9.ラウドネス領域でのボリューム調整
10.差分利得による利得プロファイル
11.利得に関係した追加的動作
12.特定的およびブロードバンド(または広帯域)のラウドネス・レベル
13.チャネルの個々の部分集合のための個々の利得
14.聴覚シーン解析
15.ラウドネス・レベル遷移
16.リセット
17.エンコーダによって提供される利得
18.例示的なシステムおよびプロセス・フロー
19.実装機構――ハードウェアの概観
20.等価物、拡張、代替その他。
【0008】
〈1.全般的概観〉
この概観は、本発明の実施形態のいくつかの側面の基本的な記述を提示する。この概観は該実施形態の諸側面の包括的ないし網羅的な要約ではないことは注意しておくべきである。さらに、この概観は、該実施形態の何らかの特に有意な側面もしくは要素を特定するものと理解されることも、一般には本発明の、特に該実施形態の何らかの範囲を画定するものと理解されることも、意図されていないことを注意しておくべきである。この概観は単に、その例示的実施形態に関係するいくつかの概念を凝縮された単純化された形式で提示するものであり、単に後続の例示的な諸実施形態のより詳細な説明への概念的な導入部として理解されるべきである。別個の諸実施形態が本稿において論じられるが、本稿で論じられる実施形態および/または部分実施形態の任意の組み合わせがさらなる実施形態をなすよう組み合わされてもよいことを注意しておく。
【0009】
いくつかのアプローチでは、エンコーダは、ダイナミックレンジ制御の目的のためにオーディオ・コンテンツが特定の環境のためにエンコードされていることを想定し、その特定の環境のために、ダイナミックレンジ制御などのための利得のようなオーディオ処理パラメータを決定する。これらのアプローチのもとでエンコーダによって決定される利得は、典型的には、何らかの時定数をもって(たとえば指数関数型減衰関数などにおいて)、何らかの時間区間にわたってなどで平滑化されたものである。さらに、これらのアプローチのもとでエンコーダによって決定される利得は、想定される環境について信号がクリッピング・レベルを上回らないことを保証する利得制限のために組み込まれたものであってもよい。よって、これらのアプローチのもとでエンコーダによってオーディオ情報とともにオーディオ信号中にエンコードされる利得は、多くの異なる影響の結果であり、不可逆である。これらのアプローチのもとで利得を受け取るデコーダは、利得のどの部分がダイナミックレンジ制御のためで、利得のどの部分が利得平滑化のためで、利得のどの部分が利得制限のためであるかなどを区別できないであろう。
【0010】
本稿に記載される技法のもとでは、オーディオ・エンコーダは、オーディオ・デコーダにおける特定の再生環境がサポートされるだけでよいとは想定しない。ある実施形態では、オーディオ・エンコーダは、(たとえばクリッピングなどのない)正しいラウドネス・レベルが決定できるもとになるオーディオ・コンテンツをもつエンコードされたオーディオ信号を送信する。オーディオ・エンコーダは一つまたは複数のダイナミックレンジ圧縮曲線もオーディオ・デコーダに送信してもよい。該一つまたは複数のダイナミックレンジ圧縮曲線のいずれも、標準ベースのものでも、独自のものでも、カスタマイズされたものでも、コンテンツ・プロバイダー固有のものなどでもよい。参照ラウドネス・レベル、アタック時間、リリース時間などがオーディオ・エンコーダによって、前記一つまたは複数のダイナミックレンジ圧縮曲線の一部としてまたは前記一つまたは複数のダイナミックレンジ圧縮曲線との関連で送信されてもよい。
【0011】
いくつかの実施形態では、オーディオ・エンコーダは、聴覚シーン解析(ASA: auditory scene analysis)技法を実装し、該ASA技法をオーディオ・コンテンツにおける聴覚イベントを検出するために使い、検出された聴覚イベントを記述する一つまたは複数のASAパラメータをオーディオ・デコーダに送る。
【0012】
いくつかの実施形態では、オーディオ・エンコーダは、オーディオ・コンテンツにおけるリセット・イベントを検出し、該リセット・イベントの指標を時間同期的な仕方でオーディオ・コンテンツと一緒にオーディオ・デコーダなどのような下流の装置に送るようにも構成されることができる。
【0013】
いくつかの実施形態では、オーディオ・エンコーダは、オーディオ・コンテンツの個々の部分(たとえばオーディオ・データ・ブロック、オーディオ・データ・フレームなど)のための利得(たとえばDRC利得など)の一つまたは複数の集合を計算し、該利得の集合を、オーディオ・コンテンツの該個々の部分と一緒に、エンコードされたオーディオ信号中にエンコードするよう構成されることができる。いくつかの実施形態では、オーディオ・エンコーダによって生成される利得の集合は、一つまたは複数の利得プロファイル(たとえば表1に示されるようなもの)に対応する。いくつかの実施形態では、ハフマン符号化、差分符号化などが前記利得の集合を諸オーディオ・データ・フレームの構成要素、細分などに符号化し、あるいは該構成要素、細分などから前記利得の集合を読み取るために使用されてもよい。これらの構成要素、細分などは、オーディオ・データ・フレームのサブフレームと称されることがある。利得の異なる集合がサブフレームの異なる集合に対応してもよい。利得の各集合またはサブフレームの各集合が二つ以上の時間的構成要素(たとえばサブフレームなど)を有していてもよい。いくつかの実施形態では、本稿に記載されるオーディオ・エンコーダにおけるビットストリーム・フォーマット器は、一つまたは複数のforループを用いて、利得の一つまたは複数の集合を、差分データ符号として、オーディオ・データ・フレームにおけるサブフレームの一つまたは複数の集合中に一緒に書き込んでもよい。対応して、本稿に記載されるオーディオ・デコーダにおけるビットストリーム・パーサーは、オーディオ・データ・フレームにおけるサブフレームの前記一つまたは複数の集合から、前記差分データ符号として符号化された利得の前記一つまたは複数の集合のいずれかを読んでもよい。
【0014】
いくつかの実施形態では、オーディオ・エンコーダは、エンコードされたオーディオ信号中にエンコードされるべきオーディオ・コンテンツにおけるダイアログ・ラウドネス・レベルを決定し、ダイアログ・ラウドネス・レベルをオーディオ・コンテンツと一緒にオーディオ・デコーダに送る。
【0015】
いくつかの実施形態では、オーディオ・エンコーダは、下流の受領側オーディオ・デコーダに、再生環境またはシナリオにおけるデフォルト利得プロファイルについてのデフォルト・ダイナミック圧縮曲線を送る。いくつかの実施形態では、オーディオ・エンコーダは、下流の受領側オーディオ・デコーダが再生環境またはシナリオにおけるデフォルト利得プロファイルについてのデフォルト・ダイナミック圧縮曲線を使うと想定する。いくつかの実施形態では、オーディオ・エンコーダは、下流の受領側オーディオ・デコーダにおいて定義されている一つまたは複数のダイナミック圧縮曲線のうちのどれが再生環境またはシナリオにおいて使われるべきかについての下流の受領側オーディオ・デコーダへの指標を送る。いくつかの実施形態では、一つまたは複数の非デフォルト利得プロファイルのそれぞれについて、オーディオ・エンコーダは、エンコードされたオーディオ信号によって担持されるメタデータの一部として、その非デフォルト・プロファイルに対応する(たとえば非デフォルトなどの)ダイナミック圧縮曲線を送る。本稿に記載される技法は、デフォルト圧縮曲線に関係した差分利得の複数の集合が、上流のエンコーダによって生成され下流のデコーダに送られることを許容する。このことは、フル利得値を伝送することに比べ要求されるビットレートを比較的低く保ちつつ、デコーダにおけるDRC圧縮器(たとえば、圧縮曲線に基づく利得を計算するプロセスおよび平滑化動作など)の設計における多大な自由を許容する。単に例解のために、デフォルト・プロファイルまたはデフォルトDRC曲線は、それとの関係で非デフォルト・プロファイルまたは非デフォルトDRC曲線のための差分利得が具体的に計算できるものとして言及された。しかしながら、これは単に例解のためであり、(たとえばメディア・データ・ストリームなどにおいて)デフォルト・プロファイルと非デフォルト・プロファイルを区別する厳密な必要性はない。さまざまな実施形態において、他のすべてのプロファイルは、同じ特定の(たとえば「デフォルト」などの)圧縮曲線に比した差分利得でありうるからである。本稿での用法では、「利得プロファイル」は、DRC動作を実行する圧縮器の動作モードとしてDRCモードということがある。いくつかの実施形態では、DRCモードは、再生装置の具体的な型(AVRかTVかタブレットか)および/または環境(騒々しいか静穏か深夜か)に関係する。各DRCモードは利得プロファイルに関連付けられることができる。利得プロファイルは、定義データによって表現されてもよく、該定義データに基づいて、圧縮器はDRC動作を実行する。いくつかの実施形態では、利得プロファイルは、DRC動作において使用されるDRC曲線(可能性としてはパラメータ表現されている)および時定数であることができる。いくつかの実施形態では、利得プロファイルは、オーディオ信号に応答したDRC動作の出力としてのDRC利得の集合であることができる。異なるDRCモードのプロファイルは、異なる量の圧縮に対応してもよい。
【0016】
いくつかの実施形態では、オーディオ・エンコーダは、デフォルト利得プロファイルに対応するデフォルト・ダイナミックレンジ圧縮曲線に基づいてオーディオ・コンテンツのためのデフォルトの(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合を決定し、一つまたは複数の非デフォルト利得プロファイルのそれぞれについて、同じオーディオ・コンテンツについての非デフォルトの(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合を決定する。次いで、オーディオ・エンコーダは、デフォルト利得プロファイルについてのデフォルト(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合と、非デフォルト利得プロファイルについての非デフォルト(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合との間の利得の差を決定し、該利得の差を差分利得の集合に含めるなどすることができる。非デフォルト再生環境またはシナリオに関係した非デフォルト・プロファイルについて(たとえば非デフォルトなどの)ダイナミック圧縮曲線を送る代わりに、オーディオ・エンコーダは、差分利得の集合を、非デフォルト・ダイナミック圧縮曲線の代わりにまたはそれに加えて、エンコードされたオーディオ信号によって担持されるメタデータの一部として、送ることができる。
【0017】
差分利得の集合は、非デフォルト(たとえばフルDRCおよび非DRC、フルDRCなど)利得の集合より大きさが小さくてもよい。このように、非差分(たとえばフルDRCおよび非DRC、フルDRCなど)利得ではなく差分利得を伝送することは、非差分(たとえばフルDRCおよび非DRC、フルDRCなど)利得を直接伝送することに比べ、要求するビットレートが低いことがありうる。
【0018】
本稿に記載されるエンコードされたオーディオ信号を受領するオーディオ・デコーダは、異なる製造業者によって提供されたものであってもよく、異なるコンポーネントおよび設計をもって実装されている。オーディオ・デコーダは、異なる時点でエンドユーザーにリリースされたものであってもよく、あるいは異なるバージョンのハードウェア、ソフトウェア、ファームウェアをもって更新されたものであってもよい。結果として、それらのオーディオ・デコーダは、異なるオーディオ処理機能を有していてもよい。いくつかの実施形態では、多数のオーディオ・デコーダが、標準、独自の要求などによって規定されるデフォルト利得プロファイルのような利得プロファイルの制限された集合をサポートする機能を備えることがある。多数のオーディオ・デコーダは、デフォルト利得プロファイルを表わすデフォルト・ダイナミックレンジ圧縮曲線に基づいて、該デフォルト利得プロファイルについての利得を生成するための関連する利得生成動作を実行する機能をもって構成されていてもよい。デフォルト利得プロファイルについてのデフォルト・ダイナミックレンジ圧縮曲線をオーディオ信号において伝送することは、デフォルト利得プロファイルについて生成/計算された利得をオーディオ信号において伝送することよりも、効率的でありうる。
【0019】
他方、非デフォルト利得プロファイルについて、オーディオ・エンコーダは、特定のデフォルト利得プロファイルに対応する特定のデフォルト・ダイナミックレンジ圧縮曲線を参照して、差分利得を事前生成することができる。該オーディオ・エンコーダによって生成されたオーディオ信号において該差分利得を受領することに応答して、オーディオ・デコーダは、オーディオ信号において受領されたデフォルト・ダイナミックレンジ圧縮曲線に基づいてデフォルト利得を生成し、受領された差分利得と生成されたデフォルト利得を非デフォルト利得プロファイルについての非デフォルト利得に組み合わせ、該非デフォルト利得をオーディオ信号からデコードされたオーディオ・コンテンツに適用するなどしつつ、受領されたオーディオ・コンテンツをレンダリングすることができる。いくつかの実施形態では、非デフォルト利得プロファイルはデフォルト・ダイナミックレンジ圧縮曲線の制限を保証するために使用されてもよい。
【0020】
本稿に記載される技法は、新たな利得プロファイル、特徴または向上のための柔軟なサポートを提供するために使用できる。いくつかの実施形態では、少なくとも一つの利得プロファイルは、デフォルトであれ非デフォルトであれダイナミックレンジ圧縮曲線を用いて簡単に表現できない。いくつかの実施形態では、少なくとも一つの利得プロファイルは、特定のオーディオ・コンテンツ(たとえば特定の映画など)に固有であってもよい。非デフォルト利得プロファイルの表現(たとえばパラメータ化されたDRC曲線)が、エンコードされたオーディオ信号において担持できるより多くのパラメータ、平滑化定数などを該エンコードされたオーディオ信号において伝送することを必要とすることがあることもありうる。いくつかの実施形態では、少なくとも一つの利得プロファイルが特定のオーディオ・コンテンツ・プロバイダー(たとえば特定のスタジオなど)に固有であってもよい。
【0021】
このように、本稿に記載されるオーディオ・エンコーダは、新たな利得プロファイルをサポートすることにおいて主導することができる。それは、該新たな利得プロファイルのための利得生成動作および該新たな利得プロファイルが関係するデフォルト利得プロファイルについての利得生成動作を実装することによる。下流の受領側オーディオ・デコーダは、新たな利得プロファイルについての利得生成動作をする必要がない。むしろ、オーディオ・デコーダは、該オーディオ・デコーダが新たな利得プロファイルについての利得生成動作を実行することなく、オーディオ・エンコーダによって生成された非デフォルト差分利得を活用することによって、新たな利得プロファイルをサポートできる。
【0022】
いくつかの実施形態では、エンコードされたオーディオ信号においてエンコードされているプロファイル関係メタデータにおいて、一つまたは複数の(たとえばデフォルトなどの)ダイナミックレンジ圧縮曲線および(たとえば非デフォルトなどの)差分利得の一つまたは複数の集合が、たとえば前記一つまたは複数の(たとえばデフォルトなどの)ダイナミックレンジ圧縮曲線および(たとえば非デフォルトなどの)差分利得の一つまたは複数の集合が対応するそれぞれの利得プロファイルに従って、構造化、インデックス付けなどされる。いくつかの実施形態では、非デフォルト差分利得の集合とデフォルト・ダイナミックレンジ圧縮曲線との間の関係が前記プロファイル関係メタデータにおいて指示されてもよい。これは、該メタデータにおいて二つ以上のデフォルト・ダイナミックレンジ圧縮曲線が存在する、あるいは該メタデータにはなくても下流のデコーダにおいて定義されるときに特に有用でありうる。該プロファイル関係メタデータにおいて指示された関係に基づいて、受領側オーディオ・デコーダは、デフォルト利得の集合を生成するためにどのデフォルト・ダイナミックレンジ圧縮曲線が使用されるべきかを決定することができる。生成された利得は次いで、たとえばデフォルト・ダイナミックレンジ圧縮曲線の制限を補償するために、非デフォルト利得を生成するために、非デフォルト差分利得の受領された集合と組み合わされることができる。
【0023】
本稿に記載される技法は、オーディオ・デコーダが、仮定のオーディオ・デコーダにおける仮定の再生環境、シナリオなどを想定しつつ、オーディオ・エンコーダなどのような上流の装置によって実行されたかもしれない(たとえば不可逆などの)オーディオ処理とロックインされることを要求しない。本稿に記載されるデコーダは、たとえばオーディオ・コンテンツにおいて存在する種々のラウドネス・レベルを区別し、境界ラウドネス・レベルまたはその近くでのオーディオ知覚品質の損失を最小限にし、チャネルまたはチャネルの部分集合の間での空間的バランスを維持するなどのために、特定の再生シナリオに基づいてオーディオ処理動作をカスタマイズするよう構成されていてもよい。
【0024】
ダイナミックレンジ圧縮曲線、参照ラウドネス・レベル、アタック時間、リリース時間などをもつエンコードされたオーディオ信号を受領するオーディオ・デコーダは、デコーダにおいて使われている特定の再生環境を決定し、該特定の再生環境に対応する、対応する参照ラウドネス・レベルをもつ特定の圧縮曲線を選択することができる。
【0025】
デコーダは、エンコードされたオーディオ信号から抽出されたオーディオ・コンテンツの個々の部分(たとえばオーディオ・データ・ブロック、オーディオ・データ・フレームなど)におけるラウドネス・レベルを計算/決定する、あるいはオーディオ・エンコーダがラウドネス・レベルを計算してエンコードされたオーディオ信号において提供していた場合にはオーディオ・コンテンツの個々の部分におけるラウドネス・レベルを取得することができる。オーディオ・コンテンツの個々の部分におけるラウドネス・レベル、オーディオ・コンテンツの以前の部分におけるラウドネス・レベル、利用可能であればオーディオ・コンテンツのその後の部分におけるラウドネス・レベル、前記特定の圧縮曲線、前記特定の再生環境またはシナリオに関係した特定のプロファイルなどのうちの一つまたは複数に基づいて、デコーダは、ダイナミックレンジ制御のための利得(DRC利得)、アタック時間、リリース時間などのようなオーディオ処理パラメータを決定する。オーディオ処理パラメータは、特定の再生環境についての特定の参照ラウドネス・レベル(これはユーザー調整可能であってもよい)にダイアログ・ラウドネス・レベルを揃えるための調整をも含むことができる。
【0026】
デコーダは、前記オーディオ処理パラメータをもって、(たとえばマルチチャネル、マルチ帯域などの)ダイナミックレンジ制御、ダイアログ・レベル調整などを含むオーディオ処理動作を適用する。デコーダによって実行されるオーディオ処理動作はさらに、選択されたダイナミックレンジ圧縮曲線の一部としてまたはそれとの関連で提供されるアタック時間およびリリース時間に基づく利得平滑化、クリッピングを防止するための利得制限などを含んでいてもよいが、それだけに限られるものではない。異なるオーディオ処理動作は、異なる(たとえば調整可能、閾値依存、制御可能などの)時定数をもって実行されてもよい。たとえば、クリッピングを防止するための利得制限は、比較的短い時定数(たとえば瞬間的、約5.3ミリ秒など)をもって個々のオーディオ・データ・ブロック、個々のオーディオ・データ・フレームなどに適用されてもよい。
【0027】
いくつかの実施形態では、デコーダは、エンコードされたオーディオ信号におけるメタデータからASAパラメータ(たとえば、聴覚イベント境界の時間的位置、イベント確実性指標の時間依存値など)を抽出し、抽出されたASAパラメータに基づいて聴覚イベントにおける利得平滑化の速度を制御する(たとえば、聴覚イベント境界ではアタックについて短い時定数を使う、聴覚イベント内の利得平滑化を遅くするために長い時定数を使うなど)よう構成されることができる。
【0028】
いくつかの実施形態では、デコーダは、ある時間区間または窓についての瞬時ラウドネス・レベルのヒストグラムも維持し、該ヒストグラムを、プログラムとプログラムの間、プログラムとコマーシャルの間などのラウドネス・レベル遷移における利得変化の速度をたとえば時定数を修正することによって制御するために使う。
【0029】
いくつかの実施形態では、デコーダは、二つ以上のスピーカー構成(たとえば、スピーカーでのポータブル・モード、ヘッドフォンでのポータブル・モード、ステレオ・モード、マルチチャネル・モードなど)をサポートする。デコーダは、たとえば同じオーディオ・コンテンツを再生するときに、二つの異なるスピーカー構成の間で(たとえばステレオ・モードとマルチチャネル・モードの間などで)同じラウドネス・レベルを維持するよう構成されていてもよい。オーディオ・デコーダは、ある参照スピーカー構成についてのエンコードされたオーディオ信号から受領されるマルチチャネル・オーディオ・コンテンツを、該オーディオ・デコーダにおける特定のスピーカー構成にダウンミックスするために、一つまたは複数のダウンミックスの式を使ってもよい。前記マルチチャネル・オーディオ・コンテンツは、前記参照スピーカー構成のために符号化されたものである。
【0030】
いくつかの実施形態では、本稿に記載されるオーディオ・デコーダにおいて自動利得制御(AGC)が無効にされてもよい。
【0031】
いくつかの実施形態では、オーディオビジュアル装置、フラットパネルTV、ハンドヘルド装置、ゲーム機、テレビジョン、ホームシアター・システム、タブレット、モバイル装置、ラップトップ・コンピュータ、ネットブック・コンピュータ、セルラー無線電話、電子書籍リーダー、ポイントオブセール端末、デスクトップ・コンピュータ、コンピュータ・ワークステーション、コンピュータ・キオスク、さまざまな他の種類の端末およびメディア処理ユニットなどを含むがそれに限られない、メディア処理システムの一部をなす。
【0032】
本稿に記載される好ましい実施携帯および一般的な原理および特徴に対するさまざまな修正が、当業者にはすぐに明白となるであろう。よって、本開示は、示されている実施形態に限定されることは意図されておらず、本稿に記載される原理および特徴と整合する最も広い範囲を与えられるものである。
【0033】
〈2.ダイナミックレンジ制御〉
カスタマイズされたダイナミックレンジ制御なしでは、入力オーディオ情報(たとえばPCMサンプル、QMFマトリクスにおける時間‐周波数サンプルなど)はしばしば、再生装置の特定の再生環境(すなわち、装置の物理的および/または機械的な再生限界を含む)には不適切なラウドネス・レベルで再生される。再生装置の特定の再生環境は、エンコードされたオーディオ・コンテンツがエンコード装置において符号化されたときに目標とされた再生環境とは異なることがありうるからである。
【0034】
本稿に記載される技法は、オーディオ・コンテンツの知覚的品質を維持しつつ、幅広い多様な再生環境の任意のものにカスタマイズされた幅広い多様なオーディオ・コンテンツのダイナミックレンジ制御をサポートするために使用できる。
【0035】
ダイナミックレンジ制御(DRC)とは、オーディオ・コンテンツにおけるラウドネス・レベルの入力ダイナミックレンジを、該入力ダイナミックレンジとは異なる出力ダイナミックレンジに変える(たとえば圧縮する、カットする、拡張する、ブーストするなど)時間依存のオーディオ処理動作をいう。たとえば、ダイナミックレンジ制御のシナリオにおいて、ソフトな音はより高いラウドネス・レベルにマッピング(たとえばブーストなど)されてもよく、ラウドな音はより低いラウドネス値にマッピング(たとえばカットなど)されてもよい。結果として、ラウドネス領域において、この例では、ラウドネス・レベルの出力範囲は、ラウドネス・レベルの入力範囲より小さくなる。しかしながら、いくつかの実施形態では、ダイナミックレンジ制御は、もとの範囲が復元されるよう可逆であることがある。たとえば、もとのラウドネス・レベルからマッピングされた出力ダイナミックレンジにおけるマッピングされたラウドネス・レベルがクリッピング・レベル以下である、各一意的なもとのラウドネス・レベルが一意的な出力ラウドネス・レベルにマッピングされるなどである限り、もとの範囲を復元するために伸張動作が実行されうる。
【0036】
本稿に記載されるDRC技法は、ある種の再生環境または状況における、よりよい聴取経験を提供するために使用されることができる。たとえば、騒々しい環境におけるソフトな音は、該ソフトな音を聞こえなくするノイズによってマスクされてしまうことがありうる。逆に、たとえばやかましい隣人のようないくつかの状況においては、ラウドな音が望まれないことがありうる。典型的には小さな形状因子のラウドスピーカーをもつ多くの装置は、高い出力レベルで音を再生できない。いくつかの場合には、低めの信号レベルは人間の聴覚閾値より下で再生されることがありうる。DRC技法は、ダイナミックレンジ圧縮曲線を用いて見出されたDRC利得(たとえばオーディオ振幅をスケーリングするスケーリング因子、ブースト比、カット比など)に基づいて、入力ラウドネス・レベルを出力ラウドネス・レベルにマッピングすることを実行しうる。
【0037】
ダイナミックレンジ圧縮曲線とは、個々のオーディオ・データ・フレームから決定される(たとえばダイアログ以外の音などの)個々の入力ラウドネス・レベルを、個々の利得またはダイナミックレンジ制御のための利得にマッピングする関数(たとえばルックアップテーブル、曲線、多セグメントの区分直線など)をいう。個々の利得のそれぞれは、対応する個々の入力ラウドネス・レベルに適用されるべき利得の大きさを指示する。個々の利得を適用した後の出力ラウドネス・レベルは、特定の再生環境における、当該個々のオーディオ・データ・フレームにおけるオーディオ・コンテンツのための、目標ラウドネス・レベルを表わす。
【0038】
利得とラウドネス・レベルの間のマッピングを指定することに加えて、ダインミックレンジ圧縮曲線は、特定の利得を適用する際の特定のリリース時間およびアタック時間を含んでいてもよく、あるいはそれらを提供されてもよい。アタックとは、相続く時間サンプルの間の信号エネルギー(またはラウドネス)の増大をいう。一方、リリースとは、相続く時間サンプルの間の信号エネルギー(またはラウドネス)の減少をいう。アタック時間(たとえば10ミリ秒、20ミリ秒など)は、対応する信号がアタック・モードにあるときにDRC利得を平滑化する際に使われる時定数をいう。リリース時間(たとえば80ミリ秒、100ミリ秒など)は、対応する信号がリリース・モードにあるときにDRC利得を平滑化する際に使われる時定数をいう。いくつかの実施形態では、追加的、任意的または代替的に、これらの時定数は、DRC利得を決定する前の信号エネルギー(ラウドネス)の平滑化のために使われる。
【0039】
異なる再生環境には異なるダイナミックレンジ圧縮曲線が対応しうる。たとえば、フラットパネルTVの再生環境についてのダイナミックレンジ圧縮曲線は、ポータブル装置の再生環境のためのダイナミックレンジ圧縮曲線とは異なっていてもよい。いくつかの実施形態では、再生装置は、二つ以上の再生環境を有していてもよい。たとえば、スピーカーを用いるあるポータブル装置の第一の再生環境のための第一のダイナミックレンジ圧縮曲線は、ヘッドセットを用いる同じポータブル装置の第二の再生環境のための第二のダイナミックレンジ圧縮曲線とは異なっていてもよい。
【0040】
〈3.オーディオ・デコーダ〉
図1Aは、データ抽出器104、ダイナミックレンジ・コントローラ106、オーディオ・レンダラー108などを有する例示的なオーディオ・デコーダ100を示している。
【0041】
いくつかの実施形態では、データ抽出器(104)はエンコードされた入力信号102を受領するよう構成されている。本稿に記載されるところのエンコードされた入力信号は、エンコードされた(たとえば圧縮などされた)入力オーディオ・データ・フレームおよびメタデータを含むビットストリームであってもよい。データ抽出器(104)は、エンコードされた入力信号(102)から入力オーディオ・データ・フレームおよびメタデータを抽出/デコードするよう構成されている。入力オーディオ・データ・フレームのそれぞれは、複数の符号化されたオーディオ・データ・ブロックを有し、そのそれぞれは複数のオーディオ・サンプルを表わす。各フレームはある数のオーディオ・サンプルを含む(たとえば一定の)時間区間を表わす。フレーム・サイズは、サンプル・レートおよび符号化データ・レートとともに変わりうる。オーディオ・サンプルは、一つ、二つまたはそれ以上の(オーディオ)周波数帯域または周波数範囲においてスペクトル内容を表わす量子化されたオーディオ・データ要素(たとえば、入力PCMサンプル、QMFマトリクスにおける入力時間‐周波数サンプルなど)である。入力オーディオ・データ・フレームにおける量子化されたオーディオ・データ要素は、圧力波をデジタルの(量子化された)領域において表わしてもよい。量子化されたオーディオ・データ要素は、最大可能な値(たとえば、クリッピング・レベル、最大ラウドネス・レベルなど)以下のラウドネス・レベルの有限範囲をカバーしうる。
【0042】
メタデータは、入力オーディオ・データ・フレームを処理するための幅広い多様な受領側デコーダによって使用されることができる。メタデータは、デコーダ(100)によって実行されるべき一つまたは複数の動作に関係する多様な動作パラメータ、入力オーディオ・データ・フレームにおいて表わされているダイアログ・ラウドネス・レベルに関係する正規化パラメータなどを含んでいてもよい。ダイアログ・ラウドネス・レベルとは、プログラム(たとえば映画、テレビ番組、ラジオ放送など)全体、プログラムの一部、プログラムのダイアログなどにおける、ダイアログ・ラウドネス、プログラム・ラウドネス、平均ダイアログ・ラウドネスなどの(たとえば音響心理学的、知覚的などの)レベルを指しうる。
【0043】
デコーダ(100)またはそのモジュール(たとえばデータ抽出器104、ダイナミックレンジ・コントローラ106など)の一部または全部の動作および機能は、エンコードされた入力信号(102)から抽出されたメタデータに応答して適応されてもよい。たとえば、メタデータ――ダイナミックレンジ圧縮曲線、ダイアログ・ラウドネス・レベルなどを含むがそれに限定されない――がデコーダ(100)によってデジタル領域の出力オーディオ・データ要素(たとえば出力PCMサンプル、QMFマトリクスにおける出力時間‐周波数サンプルなど)を生成するために使用されてもよい。次いで、出力データ要素は、特定の再生環境における再生中の指定されたラウドネスまたは参照再生レベルを達成するためにオーディオ・チャネルまたはスピーカーを駆動するために使われることができる。
【0044】
いくつかの実施形態では、ダイナミックレンジ・コントローラ(106)は、入力オーディオ・データ・フレーム中のオーディオ・データ要素およびメタデータの一部または全部を受領し、少なくとも部分的にはエンコードされたオーディオ信号(102)から抽出されたメタデータに基づいて、入力オーディオ・データ・フレーム中のオーディオ・データ要素に対してオーディオ処理動作(たとえば、ダイナミックレンジ制御動作、利得平滑化動作、利得制限動作など)を実行するなどするよう構成される。
【0045】
いくつかの実施形態では、ダイナミックレンジ・コントローラ(106)は、選択器110、ラウドネス計算器112、DRC利得ユニット114などを有していてもよい。選択器(110)は、デコーダ(100)における特定の再生環境に関係するスピーカー構成(たとえば、フラットパネル・モード、スピーカーと一緒のポータブル装置、ヘッドフォンと一緒のポータブル装置、5.1スピーカー構成、7.1スピーカー構成など)を決定し、エンコードされた入力信号(102)から抽出された諸ダイナミックレンジ圧縮曲線から特定のダイナミックレンジ圧縮曲線を選択するなどするよう構成されていてもよい。
【0046】
ラウドネス計算器(112)は、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる一つまたは複数の型のラウドネス・レベルを計算するよう構成されていてもよい。ラウドネス・レベルの例示的な型は、これだけに限られるものではないが、個々の時間区間にわたる個々のチャネルにおける個々の周波数帯域にわたる個別ラウドネス・レベル、個々のチャネルにおける広い(または幅広い)周波数範囲にわたるブロードバンド(または広帯域)ラウドネス・レベル、あるオーディオ・データ・ブロックまたはフレームから決定されるまたはあるオーディオ・データ・ブロックまたはフレームにわたって平滑化されるラウドネス・レベル、二つ以上のオーディオ・データ・ブロックまたはフレームから決定されるまたは二つ以上のオーディオ・データ・ブロックまたはフレームにわたって平滑化されるラウドネス・レベル、一つまたは複数の時間区間にわたって平滑化されるラウドネス・レベルなどの任意のものを含む。これらのラウドネス・レベルの0個、一つまたは複数がデコーダ(100)によってダイナミックレンジ制御のために変更されてもよい。
【0047】
ラウドネス・レベルを決定するために、ラウドネス計算器(112)は、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる、特定のオーディオ周波数における空間的圧力レベルなどのような一つまたは複数の時間依存の物理的音波属性を決定することができる。ラウドネス計算器(112)は、人間のラウドネス知覚をモデル化する一つまたは複数の音響心理学的関数に基づいて一つまたは複数の型のラウドネス・レベルを導出するために、前記一つまたは複数の時間変化する物理的波属性を使うことができる。音響心理学的関数は、特定のオーディオ周波数における特定の空間的圧力レベルを該特定のオーディオ周波数についての特定的ラウドネスに変換する非線形関数――人間の聴覚系のモデルに基づいて構築される――などであってもよい。
【0048】
複数の(オーディオ周波数)または複数の周波数帯域にわたる(たとえばブロードバンド、広帯域などの)ラウドネス・レベルは、複数の(オーディオ)周波数または複数の周波数帯域にわたる特定的ラウドネス・レベルの積分を通じて導出されてもよい。一つまたは複数の時間区間(たとえば、オーディオ・データ・ブロックまたはフレーム中のオーディオ・データ要素によって表わされるよりも長いなど)にわたる時間平均、平滑化などされたラウドネス・レベルは、デコーダ(100)におけるオーディオ処理動作の一部として実装される一つまたは複数の平滑化フィルタを使って得られてもよい。
【0049】
ある例示的実施形態では、異なる周波数帯域についての諸特定的ラウドネス・レベルは、ある(たとえば256個などの)サンプルのオーディオ・データ・ブロック毎に計算されてもよい。諸特定的ラウドネス・レベルを積分してブロードバンド(広帯域)ラウドネス・レベルにすることにおいて諸特定的ラウドネス・レベルに周波数重み付け(たとえばIEC B重み付けと同様のものなど)を適用するために前置フィルタが使われてもよい。二つ以上のチャネル(たとえば、左前方、右前方、中央、左サラウンド、右サラウンドなど)にわたる広いラウドネス・レベルの和が、該二つ以上のチャネルの全体的なラウドネス・レベルを提供するために実行されてもよい。
【0050】
いくつかの実施形態では、全体的ラウドネス・レベルとは、あるスピーカー構成のあるチャネル(たとえば中央など)におけるブロードバンド(広帯域)ラウドネス・レベルを指してもよい。いくつかの実施形態では、全体的ラウドネス・レベルとは、複数のチャネルにおけるブロードバンド(または広帯域)ラウドネス・レベルを指してもよい。前記複数のチャネルは、あるスピーカー構成におけるすべてのチャネルであってもよい。追加的、任意的または代替的に、前記複数のチャネルは、あるスピーカー構成におけるチャネルの部分集合(たとえば、左前方、右前方および低域効果(LFE)を含むチャネルの部分集合、左サラウンドおよび右サラウンドを含むチャネルの部分集合、中央を含むチャネルの部分集合など)を含んでいてもよい。
【0051】
(たとえばブロードバンド、広帯域、全体的、特定的などの)ラウドネス・レベルは、選択されたダイナミックレンジ圧縮曲線から対応する(たとえば静的な、平滑化前、制限前などの)DRC利得を見出すための入力として使われてもよい。DRC利得を見出すための入力として使われるラウドネス・レベルはまず、エンコードされたオーディオ信号(102)から抽出されたメタデータからのダイアログ・ラウドネス・レベルに関して調整または正規化されてもよい。いくつかの実施形態では、ダイアログ・ラウドネス・レベルの調整に関係する調整および正規化は、これに限られないが、非ラウドネス領域(たとえばSPL領域など)において、エンコードされたオーディオ信号(102)中のオーディオ・コンテンツの一部に対して、エンコードされたオーディオ信号(102)中のオーディオ・コンテンツの前記一部において表わされている特定の空間的圧力レベルがエンコードされたオーディオ信号(102)中のオーディオ・コンテンツの前記一部の特定的ラウドネス・レベルに変換またはマッピングされる前に、実行されてもよい。
【0052】
いくつかの実施形態では、DRC利得ユニット(114)は、DRCアルゴリズムをもって構成され、(たとえばダイナミックレンジ制御のため、利得制限のため、利得平滑化のためなどの)利得を生成し、該利得を、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる一つまたは複数の型のラウドネス・レベルにおける一つまたは複数のラウドネス・レベルに適用して、その特定の再生環境のための目標ラウドネス・レベルを達成するなどしてもよい。本稿に記載されるような利得(たとえばDRC利得など)の適用は、必須ではないが、ラウドネス領域で生起してもよい。いくつかの実施形態では、利得はラウドネス計算(これは、ソーンまたは単にたとえば変換なしのダイアログ・ラウドネス・レベルについて補償されたSPLで表わされてもよい)に基づいて生成され、平滑化され、入力信号に直接適用されてもよい。いくつかの実施形態では、本稿に記載されるような技法は、利得をラウドネス領域の信号に適用し、次いで該信号をラウドネス領域からもとの(線形)SPL領域に変換し、ラウドネス領域において該信号に該利得が適用された前および後の該信号を評価することによって、該信号に適用されるべき対応する利得を計算してもよい。すると、比(または対数dB表現で表わされるときは差)がその信号についての対応する利得を決定する。
【0053】
いくつかの実施形態では、DRCアルゴリズムは複数のDRCパラメータと一緒に動作する。DRCパラメータは、上流のエンコーダ(たとえば150など)によってすでに計算されて、エンコードされたオーディオ信号(102)中に埋め込まれており、デコーダ(100)によって、該エンコードされたオーディオ信号(102)中のメタデータから取得されることができるダイアログ・ラウドネス・レベルを含む。上流のエンコーダからのダイアログ・ラウドネス・レベルは、(たとえばプログラム毎の、フルスケール1kHz正弦波のエネルギーに対する、参照矩形波のエネルギーに対する、など)平均ダイアログ・ラウドネス・レベルを示す。いくつかの実施形態では、エンコードされたオーディオ信号(102)から抽出されたダイアログ・ラウドネス・レベルは、プログラム間でのラウドネス・レベルの相違を減らすために使用されてもよい。ある実施形態では、参照ダイアログ・ラウドネス・レベルは、デコーダ(100)における同じ特定の再生環境における異なるプログラムの間で同じ値に設定されてもよい。プログラムの複数のオーディオ・データ・ブロックにわたって平均された出力ダイアログ・ラウドネス・レベルがそのプログラムについての(たとえば事前構成設定された、システム・デフォルトの、ユーザー構成設定可能な、プロファイル依存などの)参照ダイアログ・ラウドネス・レベルまで上げられる/下げられるよう、メタデータからのダイアログ・ラウドネス・レベルに基づいて、DRC利得ユニット(114)は、ダイアログ・ラウドネス関係利得を、プログラム中の各オーディオ・データ・ブロックに適用することができる。
【0054】
いくつかの実施形態では、DRC利得は、選択されたダイナミックレンジ圧縮曲線に従ってソフトおよび/またはラウドな音における諸信号部分をブーストまたはカットすることによって、プログラム内のラウドネス・レベルの相違に対処するために使用されてもよい。これらのDRC利得の一つまたは複数は、対応するオーディオ・データ・ブロック、オーディオ・データ・フレームなどの一つまたは複数から決定される選択されたダイナミックレンジ圧縮曲線および(ブロードバンド、広帯域、全体的、特定的などの)ラウドネス・レベルに基づいてDRCアルゴリズムによって計算/決定されてもよい。
【0055】
選択されたダイナミックレンジ圧縮曲線を検索することによって(たとえば静的な、平滑化前の、利得制限前の、などの)DRC利得を決定するために使われるラウドネス・レベルは、短い区間(たとえば約5.3ミリ秒など)上で計算されてもよい。人間の聴覚系の積分時間(たとえば約200ミリ秒など)はずっと長いことがありうる。選択されたダイナミックレンジ圧縮曲線から得られるDRC利得は、人間の聴覚系の長い積分時間を考慮に入れるため、ある時定数をもって平滑化されてもよい。ラウドネス・レベルにおける変化(増大または減少)の速いレートを実施するためには、短い時定数に対応する短い時間区間においてラウドネス・レベルの変化を引き起こすよう、短い時定数が使われてもよい。逆に、ラウドネス・レベルにおける変化(増大または減少)の遅いレートを実施するためには、長い時定数に対応する長い時間区間においてラウドネス・レベルを変化させるよう、長い時定数が使われてもよい。
【0056】
人間の聴覚系は、増大するラウドネス・レベルと減少するラウドネス・レベルに異なる積分時間をもって反応することがある。いくつかの実施形態では、選択されたダイナミックレンジ圧縮曲線から検索される静的なDRC利得を平滑化するために、ラウドネス・レベルが増大しているのか減少しているのかに依存して異なる時定数が使われてもよい。たとえば、人間の聴覚系の特性に相応して、アタック(ラウドネス・レベルの増大)は相対的に短い時定数(たとえばアタック時間など)をもって平滑化され、一方、リリース(ラウドネス・レベルの減少)は相対的に長い時定数(たとえばリリース時間など)をもって平滑化される。
【0057】
オーディオ・コンテンツの一部(たとえば、オーディオ・データ・ブロック、オーディオ・データ・フレームなどの一つまたは複数)についてのDRC利得は、オーディオ・コンテンツの前記一部から決定されるラウドネス・レベルを使って計算されてもよい。選択されたダイナミックレンジ圧縮曲線における検索のために使われるべきラウドネス・レベルは、まず、エンコードされたオーディオ信号(102)から抽出されたメタデータにおける(たとえばそのオーディオ・コンテンツが一部をなすプログラムなどの)ダイアログ・ラウドネス・レベルに関して(たとえばそれとの関係で、など)調整されてもよい。
【0058】
参照ダイアログ・ラウドネス・レベル(たとえば、「ライン」モードでは-31dBFS、「RF」モードでは-20dBFSなど)は、デコーダ(100)における特定の再生環境のために指定または確立されてもよい。追加的、代替的または任意的に、いくつかの実施形態では、ユーザーは、デコーダ(100)における参照ダイアログ・ラウドネス・レベルを設定または変更することに対して制御を与えられてもよい。
【0059】
DRC利得ユニット(114)は、入力ダイアログ・ラウドネス・レベルから、出力ダイアログ・ラウドネス・レベルとしての参照ダイアログ・ラウドネス・レベルへの変化を引き起こすよう、オーディオ・コンテンツに対するダイアログ・ラウドネス関係利得を決定するよう構成されることができる。
【0060】
いくつかの実施形態では、DRC利得ユニット(114)は、デコーダ(100)における特定の再生環境におけるピーク・レベルを扱うよう構成されていてもよく、クリッピングを防止するようDRC利得を調整する。いくつかの実施形態では、第一のアプローチのもとでは、エンコードされたオーディオ信号(102)から抽出されたオーディオ・コンテンツが、デコーダにおける特定のスピーカー構成のチャネルより多くのチャネルをもつ参照マルチチャネル構成のためのオーディオ・データ要素を含む場合には、クリッピング防止のためにピーク・レベルを判別して処理する前に、参照マルチチャネル構成から特定のスピーカー構成ダウンミックスが実行されてもよい。追加的、任意的または代替的に、いくつかの実施形態では、第二のアプローチのもとでは、エンコードされたオーディオ信号(102)から抽出されたオーディオ・コンテンツが、デコーダにおける特定のスピーカー構成のチャネルより多くのチャネルをもつ参照マルチチャネル構成のためのオーディオ・データ要素を含む場合には、デコーダ(100)における特定のスピーカー構成のためのピーク・レベルを得るために、ダウンミックスの式(たとえば、ITUステレオ・ダウンミックス、行列処理されるサラウンド互換ダウンミックス(matrixed-surround compatible downmix)など)が使われてもよい。ピーク・レベルは、入力ダイアログ・ラウドネス・レベルから、出力ダイアログ・ラウドネス・レベルとしての参照ダイアログ・ラウドネス・レベルへの変化を反映するよう調整されてもよい。(たとえばあるオーディオ・データ・ブロックについての、あるオーディオ・データ・フレームについての、などの)クリッピングを引き起こさない最大許容される利得が、少なくとも部分的にはピーク・レベルの逆数(たとえば-1を乗算されるなどする)に基づいて決定されてもよい。このように、本稿に記載される技法のもとのオーディオ・デコーダは、正確にピーク・レベルを決定し、デコーダ側の再生構成のために特にクリッピング防止を適用するよう構成されることができる。オーディオ・デコーダもオーディオ・エンコーダも、仮定のデコーダにおける最悪ケースのシナリオについての仮定の想定をする必要はない。特に、上記の第一のアプローチにおけるデコーダは、ダウンミックスの式、ダウンミックス・チャネル利得など(これは上記のように第二のアプローチのもとでは使われる)を使うことなく、正確にピーク・レベルを決定し、ダウンミックス後のクリッピング防止を適用することができる。
【0061】
いくつかの実装では、ダイアログ・ラウドネス・レベルおよびDRC利得への調整の組み合わせが、たとえ最悪ケースのダウンミックス(たとえば、ダウンミックス後の最大ピーク・レベルを生成するもの、最大のダウンミックス・チャネル利得を生成するものなど)においてでも、ピーク・レベルのクリッピングを防止する。しかしながら、他のいくつかの実施形態では、ダイアログ・ラウドネス・レベルおよびDRC利得への調整の組み合わせでも、ピーク・レベルのクリッピングを防止するのに十分ではないことがある。これらの実施形態では、DRC利得は、ピーク・レベルにおけるクリッピングを防止する最高の利得によって置換されてもよい(たとえばキャップされてもよい、など)。
【0062】
いくつかの実施形態では、DRC利得ユニット(114)は、エンコードされたオーディオ信号(102)から抽出されたメタデータから時定数(たとえばアタック時間、リリース時間など)を得るよう構成される。DRC利得、時定数、最大許容利得などは、DRC、利得平滑化、利得制限などを実行するために、DRC利得ユニット(114)によって使用されてもよい。
【0063】
たとえば、DRC利得の適用は、ある時定数によって制御されるフィルタをもって平滑化されてもよい。利得制限動作は、適用されるべき利得と最大許容利得との小さなほうを該利得について取るmin()関数によって実装されてもよい。この関数を通じて、(たとえば制限前の、DRCなどの)利得はすぐに、比較的短い時間区間にわたって、などで、最大許容利得によって置換されてもよい。それによりクリッピングが防止される。
【0064】
いくつかの実施形態では、オーディオ・レンダラー(108)は、DRC、利得制限、利得平滑化などに基づいて決定された利得をエンコードされたオーディオ信号(102)から抽出された入力オーディオ・データに適用した後、その特定のスピーカー構成についての(たとえばマルチチャネルなどの)チャネル固有のオーディオ・データ(116)を生成するよう構成される。チャネル固有のオーディオ・データ(118)は、当該スピーカー構成において表わされているスピーカー、ヘッドフォンなどを駆動するために使われてもよい。
【0065】
追加的および/または任意的に、いくつかの実施形態では、デコーダ(100)は、入力オーディオ・データに関係する前処理、後処理、レンダリングなどに関係する、一つまたは複数の他の動作を実行するよう構成されることができる。
【0066】
本稿に記載される技法は、多様な異なるサラウンドサウンド構成に対応する多様なスピーカー構成(たとえば、2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.2、10.2、10-60スピーカー構成、60+スピーカー構成、オブジェクト信号または諸オブジェクト信号の組み合わせなど)および多様な異なるレンダリング環境構成(たとえば、映画館、公園、歌劇場、コンサートホール、バー、家庭、講堂など)と一緒に使用されることができる。
【0067】
〈4.オーディオ・エンコーダ〉
図1Bは例示的なエンコーダ150を示している。エンコーダ(150)は、オーディオ・コンテンツ・インターフェース152、ダイアログ・ラウドネス解析器154、DRC参照貯蔵部156、オーディオ信号エンコーダ158などを有していてもよい。エンコーダ150は、放送システム、インターネット・ベースのコンテンツ・サーバー、無線経由(over-the-air)ネットワーク事業者システム、映画制作システムなどの一部であってもよい。
【0068】
いくつかの実施形態では、オーディオ・コンテンツ・インターフェース(152)は、オーディオ・コンテンツ160、オーディオ・コンテンツ制御入力162などを受領し、少なくとも部分的にはオーディオ・コンテンツ(160)、オーディオ・コンテンツ制御入力(162)の一部または全部に基づいて、エンコードされたオーディオ信号(たとえば102)を生成するなどするよう構成されている。たとえば、オーディオ・コンテンツ・インターフェース(152)は、オーディオ・コンテンツ(160)、オーディオ・コンテンツ制御入力(162)をコンテンツ・クリエーター、コンテンツ・プロバイダーなどから受領するために使われてもよい。
【0069】
オーディオ・コンテンツは、オーディオのみ、オーディオビジュアルなどを含む全体的なメディア・データの一部または全部をなしてもよい。オーディオ・コンテンツ(160)は、プログラムの諸部分、プログラム、いくつかのプログラム、一つまたは複数のコマーシャルなどのうちの一つまたは複数を含んでいてもよい。
【0070】
いくつかの実施形態では、ダイアログ・ラウドネス解析器(154)は、オーディオ・コンテンツ(152)の一つまたは複数の部分(たとえば一つまたは複数のプログラム、一つまたは複数のコマーシャルなど)の一つまたは複数のダイアログ・ラウドネス・レベルを決定/確立するよう構成されている。いくつかの実施形態では、オーディオ・コンテンツは、オーディオ・トラックの一つまたは複数の集合によって表わされる。いくつかの実施形態では、オーディオ・コンテンツのダイアログ・オーディオ・コンテンツは、別個のオーディオ・トラックにある。いくつかの実施形態では、オーディオ・コンテンツの少なくとも一部は、非ダイアログ・オーディオ・コンテンツを含むオーディオ・トラックにある。
【0071】
オーディオ・コンテンツ制御入力(162)は、ユーザー制御入力、エンコーダ(150)にとって外部のシステム/装置によって提供される制御入力、コンテンツ・クリエーターからの制御入力、コンテンツ・プロバイダーからの制御入力などの一部または全部を含んでいてもよい。たとえば、ミキシング・エンジニアなどのようなユーザーが、一つまたは複数のダイナミックレンジ圧縮曲線識別子を提供/指定することができる。それらの識別子は、DRC参照貯蔵部(156)などのようなデータ貯蔵部からオーディオ・コンテンツ(160)に最もよく当てはまる一つまたは複数のダイナミックレンジ圧縮曲線を取り出すために使われてもよい。
【0072】
いくつかの実施形態では、DRC参照貯蔵部(156)は、DRC参照パラメータ集合などを記憶するよう構成されている。それらのDRC参照パラメータ集合は、一つまたは複数のダイナミックレンジ圧縮曲線などについての定義データを含んでいてもよい。いくつかの実施形態では、エンコーダ(150)は、(たとえば同時並行などで)二つ以上のダイナミックレンジ圧縮曲線をエンコードされたオーディオ信号(102)中にエンコードしてもよい。それらのダイナミックレンジ圧縮曲線のうちの0個、一つまたは複数は標準ベースのもの、独自のもの、カスタマイズされたもの、デコーダで修正可能なものなどであってもよい。ある例示的実施形態では、図2Aおよび図2Bのダイナミックレンジ圧縮曲線両方が、エンコードされたオーディオ信号(102)中に(たとえば同時並行などで)エンコードされることができる。
【0073】
いくつかの実施形態では、オーディオ信号エンコーダ(158)は、オーディオ・コンテンツ・インターフェース(152)からのオーディオ・コンテンツ、ダイアログ・ラウドネス解析器(154)からのダイアログ・ラウドネス・レベルなどを受領し、DRC参照貯蔵部(156)から一つまたは複数のDRC参照パラメータ集合を取り出し、オーディオ・コンテンツをオーディオ・データ・ブロック/フレームにフォーマットし、ダイアログ・ラウドネス・レベル、DRC参照パラメータ集合などをメタデータ(たとえば、メタデータ・コンテナ、メタデータ・フィールド、メタデータ構造など)にフォーマットし、オーディオ・データ・ブロック/フレームおよびメタデータを、エンコードされたオーディオ信号(102)にエンコードするなどするよう構成されることができる。
【0074】
本稿に記載されるようにエンコードされたオーディオ信号中にエンコードされるべきオーディオ・コンテンツは、無線で、有線接続を介して、ファイルを通じて、インターネット・ダウンロードを介してなどの多様な方法の一つまたは複数で多様な源オーディオ・フォーマットの一つまたは複数において受領されうる。
【0075】
本稿に記載されるエンコードされたオーディオ信号は、(たとえばオーディオ放送、オーディオ・プログラム、オーディオビジュアル・プログラム、オーディオビジュアル放送などのための)全体的なメディア・データ・ビットストリームの一部であることができる。メディア・データ・ビットストリームは、サーバー、コンピュータ、メディア記憶装置、メディア・データベース、メディア・ファイルなどからアクセスされることができる。メディア・データ・ビットストリームは、一つまたは複数の無線または有線のネットワーク・リンクを通じて放送、送信または受信されてもよい。メディア・データ・ビットストリームは、ネットワーク接続、USB接続、広域ネットワーク、ローカル・エリア・ネットワーク、無線接続、光学式接続、バス、クロスバー接続、シリアル接続などの一つまたは複数のような媒介部を通じて通信されてもよい。
【0076】
(たとえば図1A図1Bなどに)描かれているコンポーネントの任意のものは、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、一つまたは複数のプロセスおよび/または一つまたは複数のIC回路(たとえばASIC、FPGAなど)として実装されてもよい。
【0077】
〈5.ダイナミックレンジ圧縮曲線〉
図2Aおよび図2Bは、入力ラウドネス・レベルからDRC利得を導出するためにデコーダ(100)中のDRC利得ユニット(104)によって使用されることのできる例示的なダイナミックレンジ圧縮曲線を示している。図のように、ダイナミックレンジ圧縮曲線は、特定の再生環境のために適切な全体的な利得を提供するために、プログラムにおける参照ラウドネス・レベルを中心としていてもよい。ダイナミックレンジ圧縮曲線の例示的な定義データ(たとえば、エンコードされたオーディオ信号102のメタデータ内など)(たとえば、これだけに限られないが、ブースト比、カット比、アタック時間、リリース時間などを含む)が下記の表に示される。ここで、複数のプロファイル(たとえば、フィルム・スタンダード(film standard)、フィルム・ライト(film light)、音楽スタンダード(music standard)、音楽ライト(music light)、発話(speech)など)における各プロファイルは、(たとえばデコーダ100などにおける)特定の再生環境を表わす。
【0078】
【表1】
いくつかの実施形態は、dBSPLまたはdBFSで表わされたラウドネス・レベルおよびdBSPLに関するdBで表わされた利得を用いて記述される一つまたは複数の圧縮曲線を受領してもよい。一方、DRC利得は、dBSPLラウドネス・レベルと非線形関係をもつ異なるラウドネス表現(たとえばソーン)で実行される。その際、DRC利得計算において使われる圧縮曲線は、該異なるラウドネス表現(たとえばソーン)を用いて記述されるよう変換されてもよい。
【0079】
〈6.DRC利得、利得制限および利得平滑化〉
図3は、組み合わされたDRCおよび制限利得の決定/計算の例示的な処理論理を示す。処理論理は、デコーダ(100)、エンコーダ(150)などによって実装されてもよい。単に例解のため、デコーダ(たとえば100など)におけるDRC利得ユニット(たとえば114)が該処理論理を実装するために使われてもよい。
【0080】
オーディオ・コンテンツの一部(たとえば、オーディオ・データ・ブロック、オーディオ・データ・フレームの一つまたは複数など)についてのDRC利得は、オーディオ・コンテンツの該一部から決定されたラウドネス・レベルを使って計算されてもよい。ラウドネス・レベルはまず、エンコードされたオーディオ信号(102)から抽出されたメタデータにおける(たとえばそのオーディオ・コンテンツが一部となるプログラムなどの)ダイアログ・ラウドネス・レベルに関して(たとえば、それとの関係で、など)調整されてもよい。図3に示した例では、オーディオ・コンテンツの前記一部のラウドネス・レベルと前記ダイアログ・ラウドネス・レベル(「dialnorm」)との間の差が、選択されたダイナミックレンジ圧縮曲線からDRC利得を見出すための入力として使用されてもよい。
【0081】
その特定の再生環境における出力オーディオ・データ要素のクリッピングを防止するために、DRC利得ユニット(114)は、(たとえばエンコードされたオーディオ信号102およびデコーダ100における再生環境の特定の組み合わせに固有の、などの)特定の再生シナリオにおけるピーク・レベルを扱うよう構成されていてもよい。該再生シナリオは、多様な可能な再生シナリオ(たとえばマルチチャネル・シナリオ、ダウンミックス・シナリオなど)のうちの一つであってもよい。
【0082】
いくつかの実施形態では、特定の時間分解能でのオーディオ・コンテンツの個々の部分(たとえば、オーディオ・データ・ブロック、いくつかのオーディオ・データ・ブロック、オーディオ・データ・フレームなど)についての個々のピーク・レベルが、エンコードされたオーディオ信号(102)から抽出されたメタデータの一部として提供されてもよい。
【0083】
いくつかの実施形態では、DRC利得ユニット(114)は、これらのシナリオにおけるピーク・レベルを判別するよう構成されていることができ、必要ならDRC利得を調整する。DRC利得の計算の間、オーディオ・コンテンツのピーク・レベルを決定するために、DRC利得ユニット(114)によって並列プロセスが使用されてもよい。たとえば、オーディオ・コンテンツは、デコーダ(100)によって使用される特定のスピーカー構成のチャネルより多くのチャネルをもつ参照マルチチャネル構成のためにエンコードされてもよい。参照マルチチャネル構成の該より多くのチャネルのためのオーディオ・コンテンツは、ダウンミックスされたオーディオ・データ(たとえば、ITUステレオ・ダウンミックス、行列処理されるサラウンド互換ダウンミックス(matrixed-surround compatible downmix)など)に変換されて、デコーダ(100)における特定のスピーカー構成のためのより少ないチャネルを導出してもよい。いくつかの実施形態では、第一のアプローチのもとでは、参照マルチチャネル構成から特定のスピーカー構成へのダウンミックスは、クリッピング防止のためにピーク・レベルを判別して処理する前に実行されてもよい。追加的、任意的または代替的に、いくつかの実施形態では、第二のアプローチのもとでは、オーディオ・コンテンツをダウンミックスすることに関係するダウンミックス・チャネル利得が、その特定のスピーカー構成のためのピーク・レベルを調整、導出、計算などするための入力の一部として使われてもよい。ある例示的実施形態では、ダウンミックス・チャネル利得は、参照マルチチャネル構成からデコーダ(100)における再生環境における特定のスピーカー構成へのダウンミックス動作を実行するために使われる一つまたは複数のダウンミックスの式に少なくとも部分的には基づいて導出されてもよい。
【0084】
いくつかのメディア・アプリケーションでは、参照ダイアログ・ラウドネス・レベル(たとえば、「ライン」モードでは-31dBFS、「RF」モードでは-20dBFSなど)は、デコーダ(100)における特定の再生環境のために指定または想定されてもよい。いくつかの実施形態では、ユーザーは、デコーダ(100)における参照ダイアログ・ラウドネス・レベルを設定または変更することに対して制御を与えられてもよい。
【0085】
(たとえば出力の)ダイアログ・ラウドネス・レベルを参照ダイアログ・ラウドネス・レベルに調整するために、ダイアログ・ラウドネス関係利得がオーディオ・コンテンツに適用されてもよい。この調整を反映するために、ピーク・レベルはしかるべく調整されるべきである。一例では、(入力)ダイアログ・ラウドネス・レベルは-23dBFSであってもよい。参照ダイアログ・ラウドネス・レベルが-31dBFSの「ライン」モードでは、参照ダイアログ・ラウドネス・レベルの出力ダイアログ・ラウドネス・レベルを生じるために、(入力)ダイアログ・ラウドネス・レベルへの調整は-8dBである。この「ライン」モードでは、ピーク・レベルへの調整も-8dBであり、ダイアログ・ラウドネス・レベルへの調整と同じである。参照ダイアログ・ラウドネス・レベルが-20dBFSの「RF」モードでは、参照ダイアログ・ラウドネス・レベルの出力ダイアログ・ラウドネス・レベルを生じるために、(入力)ダイアログ・ラウドネス・レベルへの調整は3dBである。この「RF」モードでは、ピーク・レベルへの調整も3dBであり、ダイアログ・ラウドネス・レベルへの調整と同じである。
【0086】
ピーク・レベルと、参照ダイアログ・ラウドネス・レベル(「dialref」と記される)とエンコードされたオーディオ信号(102)からのメタデータ内のダイアログ・ラウドネス・レベル(「dialnorm」)との間の差の和が、DRC利得についての最大(たとえば許容されるなど)利得を計算するための入力として使われてもよい。調整されたピーク・レベルは(0dBFSのクリッピング・レベルに対して)dBFSで表わされるので、(たとえば、現在のオーディオ・データ・ブロックについての、現在のオーディオ・データ・フレームについての、などの)クリッピングを起こさない最大許容利得は、単に調整されたピーク・レベルの逆数である(たとえば、-1を乗算されるなど)。
【0087】
いくつかの実施形態では、たとえDRC利得が導出されるもとになったダイナミックレンジ圧縮曲線がラウドな音をある程度カットするよう設計されていたとしても、ピーク・レベルはクリッピング・レベル(0dBFSで表わされる)を超えることがある。いくつかの実施形態では、ダイアログ・ラウドネス・レベルとDRC利得への調整の組み合わせは、たとえ最悪ケースのダウンミックス(たとえば、最大のダウンミックス・チャネル利得を生成するものなど)においてでも、ピーク・レベルのクリッピングを防止する。しかしながら、他のいくつかの実施形態では、ダイアログ・ラウドネス・レベルおよびDRC利得への調整の組み合わせでも、ピーク・レベルのクリッピングを防止するのに十分ではないことがある。これらの実施形態では、DRC利得は、ピーク・レベルにおけるクリッピングを防止する最高の利得によって置換されてもよい(たとえばキャップされてもよい、など)。
【0088】
いくつかの実施形態では、DRC利得ユニット(114)は、エンコードされたオーディオ信号(102)から抽出されたメタデータから時定数(たとえばアタック時間、リリース時間など)を得るよう構成される。これらの時定数は、オーディオ・コンテンツのダイアログ・ラウドネス・レベルまたは現在のラウドネス・レベルのうちの一つまたは複数とともに変わっても変わらなくてもよい。ダイナミックレンジ圧縮曲線から検索されるDRC利得、時定数、最大利得は、利得平滑化および制限動作を実行するために使用されてもよい。
【0089】
いくつかの実施形態では、可能性としては利得制限されていてもよいDRC利得は、特定の再生環境における最大ピーク・ラウドネス・レベルを超えない。ラウドネス・レベルから導出される静的なDRC利得は、時定数によって制御されるフィルタをもって平滑化されてもよい。制限動作は、一つまたは複数のmin()関数によって実装されてもよい。この関数を通じて、(たとえば制限前の)DRC利得はすぐに、比較的短い時間区間にわたって、などで、最大許容利得によって置換されてもよい。それによりクリッピングが防止される。DRCアルゴリズムは、はいってくるオーディオ・コンテンツのピーク・レベルがクリッピング・レベル超からクリッピング・レベル未満に移行するにつれ、前記クリッピング利得からより低い利得へとなめらかにリリースするよう構成されていてもよい。
【0090】
図3に示されるDRC利得の決定/計算/適用を実行するために、一つまたは複数の異なる(たとえばリアルタイム、2パスなどの)実装が使用されてもよい。単に例解のため、ダイアログ・ラウドネス・レベル、(たとえば静的などの)DRC利得、平滑化に起因する時間依存する利得変動、制限に起因する利得クリッピングなどへの調整は、上記のDRCアルゴリズムからの組み合わされた利得として記述されてきた。しかしながら、さまざまな実施形態において、(たとえば異なるプログラムの間などの)ダイアログ・ラウドネス・レベルの制御のため、(たとえば同じプログラムの異なる部分のためなどの)ダイナミックレンジ制御のため、クリッピングを防止するため、利得平滑化のためなどでオーディオ・コンテンツに利得を適用する他のアプローチが使用されてもよい。たとえば、ダイアログ・ラウドネス・レベル、(たとえば静的などの)DRC利得、平滑化に起因する時間依存する利得変動、制限に起因する利得クリッピングなどへの調整の一部または全部は、部分的/個々に適用される、直列的に適用される、並列に適用される、部分的には直列に部分的には並列に適用されるなどすることができる。
【0091】
〈7.入力平滑化および利得平滑化〉
DRC利得平滑化に加えて、さまざまな実施形態において、本稿に記載される技法のもとでの他の平滑化プロセスが実装されてもよい。一例では、入力平滑化が使われてもよく、エンコードされたオーディオ信号(102)から抽出された入力オーディオ・データをたとえば単純な単極平滑化フィルタを用いて平滑化して、入力平滑化なしの特定的ラウドネス・レベルのスペクトルよりよい時間的特性をもつ(たとえば、時間的によりなめらかである、時間的にスパイクがより少ない、など)特定的ラウドネス・レベルのスペクトルを得てもよい。
【0092】
いくつかの実施形態では、本稿に記載される異なる平滑化プロセスは異なる時定数(たとえば1秒、4秒など)を使うことができる。いくつかの実施形態では、二つ以上の平滑化プロセスは同じ時定数を使うことができる。いくつかの実施形態では、本稿に記載される平滑化プロセスにおいて使われる時定数は周波数依存であってもよい。いくつかの実施形態では、本稿に記載される平滑化プロセスで使われる時定数は周波数独立であってもよい。
【0093】
一つまたは複数の平滑化プロセスは、該一つまたは複数の平滑化プロセスの自動的または手動のリセットをサポートするリセット・プロセスに接続されてもよい。いくつかの実施形態では、リセット・プロセスにおいてリセットが生起するとき、平滑化プロセスは、より小さな時定数に切り換えるまたは移行することによって平滑化動作を速くしてもよい。いくつかの実施形態では、リセット・プロセスにおいてリセットが生起するとき、平滑化プロセスのメモリはある値にリセットされてもよい。この値は、平滑化プロセスへの最後の入力サンプルであってもよい。
【0094】
〈8.複数周波数帯域にわたるDRC〉
いくつかの実施形態では、特定的な諸周波数帯域における特定的な諸ラウドネス・レベルが、それらの特定の周波数帯域における対応するDRC利得を導出するために使われることができる。しかしながら、これは、音色の変化につながることがある。それらの特定的ラウドネス・レベルは異なる帯域において著しく変わることがあり、よって、たとえ全周波数帯域にわたるブロードバンド(または広帯域)ラウドネス・レベルが一定のままであるときでも、異なるDRC利得を被ることがあるからである。
【0095】
いくつかの実施形態では、個々の周波数帯域とともに変わるDRC利得を適用するのではなく、周波数帯域とともには変わらないが時間とともに変わるDRC利得が代わりに適用される。同じ時間変化するDRC利得が、周波数帯域すべてにわたって適用される。時間変化するDRC利得の時間平均されたDRC利得は、ブロードバンド(または広帯域)範囲または複数の周波数帯域にわたるブロードバンド、広帯域および/または全体的なラウドネス・レベルに基づいて前記選択されたダイナミックレンジ圧縮曲線から導出される静的なDRC利得と同じに設定されてもよい。結果として、他のアプローチにおいて異なる周波数帯域において異なるDRC利得を適用することによって引き起こされうる音色効果への変化を防ぐことができる。
【0096】
いくつかの実施形態では、個々の周波数帯域におけるDRC利得は、ブロードバンド(または広帯域)ラウドネス・レベルに基づいて決定されるブロードバンド(または広帯域)DRC利得を用いて制御される。個々の周波数帯域におけるDRC利得は、ブロードバンド(または広帯域)ラウドネス・レベルに基づいてダイナミックレンジ圧縮曲線において見出されるブロードバンド(または広帯域)DRCのまわりで動作してもよい。よって、ある時間区間(たとえば、5.3ミリ秒、20ミリ秒、50ミリ秒、80ミリ秒、100ミリ秒などより長い)にわたって時間平均された個々の周波数帯域におけるDRC利得は、ダイナミックレンジ圧縮曲線において示されるブロードバンド(広帯域)レベルと同じである。いくつかの実施形態では、時間平均されたDRC利得から逸脱する、前記ある時間区間に対する短い時間区間にわたるラウドネス・レベル揺動は、諸チャネルおよび/または諸周波数帯域の間で、許容可能である。このアプローチは、ダイナミックレンジ圧縮曲線において示される正しいマルチチャネルおよび/またはマルチ帯域の時間平均されたDRC利得の適用を保証し、短い時間区間におけるDRC利得が、ダイナミックレンジ圧縮曲線において示されるそのような時間平均されたDRC利得からあまりに大きく逸脱することを防止する。
【0097】
〈9.ラウドネス領域でのボリューム調整〉
本稿に記載される技法を実装しない他のアプローチのもとでのオーディオ励起信号にボリューム調整のための線形処理を適用することは、低い可聴信号レベルを聞こえなくすることがありうる(たとえば、人間の聴覚系の周波数依存の聴覚閾値を下回るなど)。
【0098】
本稿に記載される技法のもとでは、オーディオ・コンテンツのボリューム調整は、物理領域(たとえばdBSPL表現などをもつ)ではなくラウドネス領域(たとえばソーン表現などをもつ)でなされるまたは実装されることができる。いくつかの実施形態では、すべてのボリューム・レベルにおいてすべての帯域の間でラウドネス・レベル関係の知覚的品質および/または無欠性(integrity)を維持するために、すべての帯域のラウドネス・レベルがラウドネス領域において同じ因子をもってスケーリングされる。本稿に記載される、ラウドネス領域で利得を設定および調整することに基づくボリューム調整は、異なる周波数帯域におけるオーディオ励起信号に異なるスケーリング因子を適用する物理領域における(または物理領域を表わすデジタル領域における)非線形処理に変換し戻され、該非線形処理を通じて実装されてもよい。本稿に記載される技法のもとでのラウドネス領域におけるボリューム調整から変換された物理領域における非線形処理は、オーディオ・コンテンツにおける低い可聴レベルの大半または全部が聞こえなくなることを防ぐDRC利得をもって、オーディオ・コンテンツのラウドネス・レベルを減衰させるまたは向上させる。いくつかの実施形態では、プログラム内でのラウドな音とソフトな音の間のラウドネス・レベルの差が、低い可聴信号レベルを人間の聴覚系の聴覚閾値より上に維持するこれらのDRC利得を用いて、低減される――だが知覚的になくされはしない。いくつかの実施形態では、大きな範囲のボリューム・レベルにわたってスペクトル知覚および知覚される音色などの類似性を維持するために、低いボリューム・レベルにおいて、聴覚の閾値に近い励起信号レベルをもつ周波数または周波数帯域は、より少なく減衰させられ、よって、知覚的に可聴である。
【0099】
本稿に記載される技法は、物理領域(または物理領域を表わすデジタル領域)における信号レベル、利得などと、ラウドネス領域におけるラウドネス・レベル、利得などとの間の変換(たとえば行ったり来たりの変換など)を実装してもよい。これらの変換は、人間の聴覚系のモデルに基づいて構築された一つまたは複数の非線形関数(たとえば、マッピング、曲線、区分線形セグメント、ルックアップテーブルなど)の順変換および逆変換バージョンに基づいていてもよい。
【0100】
〈10.差分利得による利得プロファイル〉
いくつかの実施形態では、本稿に記載されるオーディオ・エンコーダ(たとえば150など)は、下流のオーディオ・デコーダにプロファイル関係メタデータを提供するよう構成される。たとえば、プロファイル関係メタデータは、オーディオ・コンテンツと一緒にオーディオ関係メタデータの一部として、エンコードされたオーディオ信号中で担持されてもよい。
【0101】
本稿に記載されるプロファイル関係メタデータは、複数の利得プロファイルについての定義データを含むがそれに限定されるものではない。前記複数の利得プロファイルにおける一つまたは複数の第一の利得プロファイル(一つまたは複数のデフォルト利得プロファイルと記される)は、一つまたは複数の対応するDRC曲線(一つまたは複数のデフォルトDRC曲線と記される)によって表わされる。その定義データは、プロファイル関係メタデータに含まれる。前記複数の利得プロファイルにおける一つまたは複数の第二の利得プロファイル(一つまたは複数の非デフォルト利得プロファイルと記される)は、前記一つまたは複数のデフォルトDRC曲線に関する差分利得の一つまたは複数の対応する集合によって表わされる。その定義データは、プロファイル関係メタデータに含まれる。より具体的には、(たとえば、プロファイル関係メタデータ中などの)デフォルトDRC曲線は、デフォルト利得プロファイルを表わすために使用でき、デフォルト利得プロファイルに関する(たとえば、プロファイル関係メタデータ中などの)差分利得の集合は、非デフォルト利得プロファイルを表わすために使用されることができる。
【0102】
いくつかの実施形態では、デフォルト利得プロファイルを表わすデフォルトDRC曲線との関係で非デフォルト利得プロファイルを表わす差分利得の集合は、前記非デフォルト利得プロファイルのために生成された非差分の(たとえば非デフォルトなど)利得の集合と、前記デフォルト利得プロファイルのために生成された非差分の(たとえばデフォルトなど)利得の集合との間の利得差(または利得調整)を含む。非差分利得の例は、これだけに限られないが、ヌル利得、DRC利得または減衰、ダイアログ正規化に関する利得または減衰、利得制限に関する利得または減衰、利得平滑化に関する利得または減衰などを含む。本稿に記載される利得(たとえば非差分利得、差分利得など)は、時間依存であってもよく、時間とともに変化する値を有していてもよい。
【0103】
利得プロファイル(たとえば、デフォルト利得プロファイル、非デフォルト利得プロファイルなど)についての非差分利得の集合を生成するために、本稿に記載されるオーディオ・エンコーダは、利得プロファイルに固有の一組の利得生成動作を実行してもよい。該一組の利得生成動作は、DRC動作、利得制限動作、利得平滑化動作などを含んでいてもよい。これは、(1)すべての利得プロファイルにグローバルに適用可能;(2)一つまたは複数だが全部ではない利得プロファイルに固有、一つまたは複数のデフォルトDRC曲線に固有;(3)一つまたは複数の非デフォルトDRC曲線に固有;(4)対応する(たとえばデフォルト、非デフォルトなど)利得プロファイルに固有;(5)メディア符号化フォーマット、メディア規格、メディア独自仕様などによってサポートされるパラメータ化の限界を超えるアルゴリズム、曲線、関数、動作、パラメータなどの一つまたは複数に関係する;(6)出回っているオーディオ・デコード装置においてまだ一般には実装されていないアルゴリズム、曲線、関数、動作、パラメータなどの一つまたは複数に関係する、動作のうちの任意のものを含むがそれに限定されるものではない。
【0104】
いくつかの実施形態では、オーディオ・デコーダ(150)は、少なくとも部分的には(たとえば、エンコードされたオーディオ信号のプロファイル関係メタデータにおける定義データなどによる)デフォルトDRC曲線によって表わされるデフォルト利得プロファイルおよび該デフォルト利得プロファイルとは異なる非デフォルト利得プロファイルに基づいて、オーディオ・コンテンツ(152)のための差分利得の集合を決定し、差分利得の前記集合を、前記非デフォルト利得プロファイルの(たとえば前記デフォルトDRC曲線などに対する)表現として、エンコードされたオーディオ信号におけるプロファイル関係メタデータの一部として含めるよう構成されることができる。デフォルトDRC曲線との関係での、エンコードされたオーディオ信号におけるプロファイル関係メタデータから抽出された差分利得の前記集合は、受領側オーディオ・デコーダによって、デフォルトDRC曲線との関係で差分利得の前記集合によって表わされる特定の利得プロファイルについての再生環境またはシナリオにおいて利得動作(または減衰動作)を効率的かつ一貫して実行するために、使用されることができる。これは、受領側のオーディオ・デコーダが一組の利得生成動作を実装することを要求することなく、受領側のオーディオ・デコーダがその特定の利得プロファイルについての利得または減衰を適用できるようにする。該利得または減衰を生成するために、一組の利得生成動作は、オーディオ・エンコーダ(150)において実装されることができる。
【0105】
いくつかの実施形態では、差分利得の一つまたは複数の集合が、オーディオ・エンコーダ(150)によってプロファイル関係メタデータに含められてもよい。差分利得の一つまたは複数の集合のそれぞれは、一つまたは複数のデフォルト利得プロファイルの一つにおける対応するデフォルト利得プロファイルとの関係で一つまたは複数の非デフォルト利得プロファイルにおける対応する非デフォルト利得プロファイルから導出されてもよい。たとえば、差分利得の前記一つまたは複数の集合における差分利得の第一の集合が、第一のデフォルト利得プロファイルとの関係での第一の非デフォルト利得プロファイルから導出されてもよく、一方、差分利得のそれらの集合における差分利得の第二の集合が、第二のデフォルト利得プロファイルとの関係での第二の非デフォルト利得プロファイルから導出されてもよい。
【0106】
いくつかの実施形態では、差分利得の前記第一の集合は、前記第一の非デフォルト利得プロファイルに基づいて生成された非差分非デフォルト利得の第一の集合と、前記第一のデフォルト利得プロファイルに基づいて生成された非差分デフォルト利得の第一の集合との間で決定される第一の利得差分(または利得調整)を含む。一方、差分利得の前記第二の集合は、前記第二の非デフォルト利得プロファイルに基づいて生成された非差分非デフォルト利得の第二の集合と、前記第二のデフォルト利得プロファイルに基づいて生成された非差分デフォルト利得の第二の集合との間で決定される第二の利得差分を含む。
【0107】
前記第一のデフォルト利得プロファイルおよび前記第二のデフォルト利得プロファイルは同じであってもよく(たとえば、同じ一組の利得生成動作とともに同じデフォルトDRC曲線によって表わされるなど)、あるいは異なっていてもよい(たとえば、異なるデフォルトDRC曲線によって表わされる、異なる組の利得生成動作とともに、あるデフォルトDRCによって表わされるなどなど)。さまざまな実施形態において、追加的、任意的または代替的に、前記第一の非デフォルト利得プロファイルは、前記第二の非デフォルト利得プロファイルと同じであってもなくてもよい。
【0108】
オーディオ・エンコーダ(150)によって生成されるプロファイル関係メタデータは、一つまたは複数の対応する非デフォルト利得プロファイルについての差分利得の一つまたは複数の集合の存在を示すために、一つまたは複数の特定のフラグ、インジケータ、データ・フィールドなどを担持することができる。プロファイル関係データはまた、特定の再生環境またはシナリオにおいて当該オーディオ・コンテンツをレンダリングするためにどの非デフォルト利得プロファイルが好ましいかを示すために、選好フラグ、インジケータ、データ・フィールドなどをも含んでいてもよい。
【0109】
いくつかの実施形態では、本稿に記載されるオーディオ・デコーダ(たとえば100など)は、エンコードされたオーディオ信号(102)からの(たとえばマルチチャネルなどの)オーディオ・コンテンツをデコードするよう構成され、該オーディオ・コンテンツとともに送達されるラウドネス・メタデータからダイアログ・ラウドネス・レベル(たとえば「dialnorm」など)を抽出するなどする。
【0110】
いくつかの実施形態では、オーディオ・デコーダ(たとえば100など)は、前記第一のデフォルト・プロファイル、前記第二のデフォルト・プロファイルなどのような利得プロファイルについて少なくとも一組の利得生成動作を実行するよう構成される。たとえば、オーディオ・デコーダ(100)は、ダイアログ・ラウドネス・レベル(たとえば「dialnorm」など)をもつエンコードされたオーディオ信号(102)をデコードし;一組の利得生成動作を実行して、エンコードされたオーディオ信号(102)からオーディオ・デコーダ(100)によって定義データが抽出されることのできるデフォルトDRC曲線によって表わされるデフォルト利得プロファイルについて、非差分デフォルト利得(または減衰)の集合を取得し;デコードの間に該デフォルト利得プロファイルについての非差分デフォルト利得(たとえば、参照ラウドネス・レベルと「dialnorm」の間の差など)の前記集合を適用して、サウンド出力の出力ダイアログ・ラウドネス・レベルを参照ラウドネス・レベルに揃える/調整する;などすることができる。
【0111】
追加的、任意的または代替的に、いくつかの実施形態では、オーディオ・デコーダ(100)は、エンコードされたオーディオ信号(102)から差分利得の少なくとも一つの集合を抽出するよう構成される。該差分利得の集合は、オーディオ・コンテンツと一緒に送達されたメタデータの一部として上記で論じたようなデフォルトDRC曲線との関係で非デフォルト利得プロファイルを表わすものである。いくつかの実施形態では、プロファイル関係メタデータは、差分利得の一つまたは複数の異なる集合を含み、該差分利得の一つまたは複数の異なる集合のそれぞれは、デフォルト利得プロファイルを表わすそれぞれのデフォルトDRC曲線との関係で非デフォルト利得プロファイルを表わす。DRC曲線または差分利得の集合がプロファイル関係メタデータに存在することは、プロファイル関係メタデータにおいて担持される一つまたは複数のフラグ、インジケータ、データ・フィールドによって示されてもよい。
【0112】
差分利得の前記一つまたは複数の集合が存在することを判別するのに応答して、オーディオ・デコーダ(100)は、差分利得の前記一つまたは複数の異なる集合のうちから、特定の非デフォルト利得プロファイルに対応する差分利得の集合を決定/選択することができる。オーディオ・デコーダ(100)はさらに、――たとえばプロファイル関係メタデータ中の一つまたは複数の異なるデフォルトDRC曲線についての定義データのうちで――差分利得の前記集合が前記特定の利得プロファイルを表わす基準としているデフォルトDRC曲線を特定するよう構成されることができる。
【0113】
いくつかの実施形態では、オーディオ・デコーダ(100)は、一組の利得生成動作を実行して、前記デフォルト利得プロファイルについての非差分デフォルト利得(または減衰)の集合を取得するよう構成される。デフォルトDRC曲線に基づいて非差分デフォルト利得の前記集合を取得するためにオーディオ・デコーダ(100)によって実行される前記一組の利得生成動作は、標準、独自仕様などの一つまたは複数に関係する一つまたは複数の動作を含んでいてもよい。いくつかの実施形態では、オーディオ・デコーダ(100)は、プロファイル関係メタデータから定義データが抽出される差分利得の前記集合と、デフォルトDRC曲線に基づいて前記一組の利得生成動作によって生成された非差分デフォルト利得の前記集合とに基づいて、前記特定の非デフォルト利得プロファイルについての非差分非デフォルト利得の集合を生成し;デコードの間に該デフォルト利得プロファイルについての非差分非デフォルト利得(たとえば、参照ラウドネス・レベルと「dialnorm」の間の差など)の前記集合を適用して、サウンド出力の出力ダイアログ・ラウドネス・レベルを参照ラウドネス・レベルに揃える/調整する;などするよう構成される。
【0114】
いくつかの実施形態では、オーディオ・デコーダ(100)は、一つまたは複数の利得プロファイルについて利得関係動作を実行することができる。オーディオ・デコーダ(100)は、一つまたは複数の因子に基づいて、特定の利得プロファイルについての利得関係動作を決定し、実行するよう構成されることができる。これらの因子は、これだけに限られないが:特定のユーザー選択された利得プロファイルについての選好を指定するユーザー入力、システム選択された利得プロファイルについての選好を指定するユーザー入力、オーディオ・デコーダ(100)によって使われる特定のスピーカーまたはオーディオ・チャネル構成の機能、オーディオ・デコーダ(100)の機能、前記特定の利得プロファイルについてのプロファイル関係メタデータの利用可能性、利得プロファイルについての任意のエンコーダ生成された選好フラグなどの一つまたは複数を含みうる。いくつかの実施形態では、これらの因子どうしの間で衝突がある場合には特定の利得プロファイルを決定または選択するために、オーディオ・デコーダ(100)は、一つまたは複数の手順規則を実装してもよく、さらなるユーザー入力を求めるなどしてもよい。
【0115】
〈11.利得に関係した追加的動作〉
本稿に記載される技法のもとでは、動的等化、ノイズ補償などといった他の処理も、物理領域(または物理領域を表わすデジタル領域)ではなくラウドネス(たとえば知覚的)領域で実行されることができる。
【0116】
いくつかの実施形態では、DRC、等化ノイズ補償、クリップ防止、利得平滑化などといった多様な処理の一部または全部からの利得が、ラウドネス領域における同じ利得に組み合わされてもよく、および/または並列に適用されてもよい。他のいくつかの実施形態では、DRC、等化ノイズ補償、クリップ防止、利得平滑化などといった多様な処理の一部または全部からの利得は、ラウドネス領域における別個の利得であってもよく、および/または少なくとも部分的には直列に適用されてもよい。他のいくつかの実施形態では、DRC、等化ノイズ補償、クリップ防止、利得平滑化などといった多様な処理の一部または全部からの利得は、順に適用されてもよい。
【0117】
〈12.特定的およびブロードバンド(または広帯域)のラウドネス・レベル〉
伝送フィルタ、聴覚的フィルタバンク、合成フィルタバンク、短時間フーリエ変換などといった一つまたは複数のオーディオ処理要素、ユニット、コンポーネントなどが、本稿に記載されるオーディオ処理動作を実行するためにエンコーダまたはデコーダによって使われてもよい。
【0118】
いくつかの実施形態では、人間の聴覚系の外耳および中耳のフィルタリングをモデル化する一つまたは複数の伝達フィルタが、はいってくるオーディオ信号(たとえば、エンコードされたオーディオ信号102、コンテンツ・プロバイダーからのオーディオ・コンテンツなど)をフィルタリングするために使われてもよい。いくつかの実施形態では、聴覚的フィルタバンクは、人間の聴覚系の周波数選択性および周波数広がりをモデル化するために使われてもよい。これらのフィルタの一部または全部からの励起信号レベルは、人間の聴覚系におけるエネルギーの積分をモデル化するために、より高い周波数にかけてより短くなる周波数依存の時定数をもって決定/計算され、平滑化されてもよい。その後、励起信号と特定的ラウドネス・レベルとの間の非線形関数(たとえば関係、曲線など)が、周波数依存の特定的ラウドネス・レベルのプロファイルを取得するために、使われてもよい。ブロードバンド(または広帯域)ラウドネス・レベルは、諸周波数帯域にわたって特定的ラウドネスを積分することによって取得できる。
【0119】
特定的ラウドネス・レベルの素直な(たとえばすべての周波数帯域に等しい重みを用いるなど)総和/積分は、ブロードバンド信号についてはうまく機能しうる。しかしながら、そのようなアプローチは、狭帯域信号についての(たとえば知覚的などの)ラウドネス・レベルを過小評価することがある。いくつかの実施形態では、異なる周波数におけるまたは異なる周波数帯域における特定的ラウドネス・レベルは異なる重みを与えられる。
【0120】
いくつかの実施形態では、上述したような聴覚的フィルタバンクおよび/または伝達フィルタは、一つまたは複数の短時間フーリエ変換(STFT)によって置換されてもよい。伝達フィルタおよび聴覚的フィルタバンクの応答は、高速フーリエ変換(FFT)領域において適用されてもよい。いくつかの実施形態では、たとえば一つまたは複数の(たとえば順方向など)伝達フィルタが物理領域(または物理領域を表わすデジタル領域)からラウドネス領域への変換においてまたは該変換前に使われるとき、一つまたは複数の逆伝達フィルタが使用される。いくつかの実施形態では、たとえば聴覚的フィルタバンクおよび/または伝達フィルタの代わりにSTFTが使われるときは、逆伝達フィルタは使用されない。いくつかの実施形態では、聴覚的フィルタバンクは省略される;その代わりに、一つまたは複数の直交ミラー・フィルタ(QMF)が使用される。これらの実施形態において、人間の聴覚系のモデルにおける基底膜の拡散効果は、本稿に記載されるオーディオ処理動作の事項に著しく影響することなく、省略されうる。
【0121】
本稿に記載される技法のもとで、さまざまな実施形態において異なる数の周波数帯域(たとえば20個の周波数帯域、40個の周波数帯域など)が使用されうる。追加的、任意的または代替的に、さまざまな実施形態において、異なる帯域幅が使用されてもよい。
【0122】
〈13.チャネルの個々の部分集合のための個々の利得〉
いくつかの実施形態では、特定のスピーカー構成がマルチチャネル構成であるとき、物理領域(または物理領域を表わすデジタル領域)からラウドネス領域への変換の前にすべてのチャネルの励起信号をまず加算することによって、全体的ラウドネス・レベルが得られてもよい。しかしながら、特定のスピーカー構成におけるすべてのチャネルに同じ利得を適用することは、その特定のスピーカー構成の異なるチャネルの間の空間的バランス(異なるチャネルの間の相対的なラウドネス・レベルなどに関するバランス)を保存しないことがある。
【0123】
いくつかの実施形態では、異なるチャネルの間の相対的な知覚的ラウドネス・レベルが最適にまたは正しく維持されうるよう空間的バランスを保存するために、それぞれのラウドネス・レベルおよび該それぞれのラウドネス・レベルに基づいて得られる対応する利得はチャネル毎に決定または計算されてもよい。いくつかの実施形態では、それぞれのラウドネス・レベルに基づいて得られる対応する利得は、同じ全体的利得に等しくはない。たとえば、該対応する利得の一部または全部のそれぞれは、全体的利得に(たとえばチャネル固有の)小さな補正を加えたものに等しくてもよい。
【0124】
いくつかの実施形態では、空間的バランスを保存するために、それぞれのラウドネス・レベルおよび該それぞれのラウドネス・レベルに基づいて得られる対応する利得はチャネルの部分集合毎に決定または計算されてもよい。いくつかの実施形態では、それぞれのラウドネス・レベルに基づいて得られる対応する利得は、同じ全体的利得に等しくはない。たとえば、該対応する利得の一部または全部のそれぞれは、全体的利得に(たとえばチャネル固有の)小さな補正を加えたものに等しくてもよい。いくつかの実施形態では、チャネルの部分集合は、その特定のスピーカー構成における全チャネルの真部分集合をなす二つ以上のチャネルを含んでいてもよい(たとえば、左前方、右前方および低域効果(LFE)を含むチャネルの部分集合、左サラウンドおよび右サラウンドを含むチャネルの部分集合など)。チャネルの部分集合についてのオーディオ・コンテンツは、エンコードされたオーディオ信号(102)において担持される全体的な混合のサブミックスをなしてもよい。サブミックス内の諸チャネルは同じ利得を適用されることができる。
【0125】
いくつかの実施形態では、特定のスピーカー構成から(たとえば実際に知覚されるなどの)実際のラウドネスを生成するために、デジタル領域の信号レベルを該デジタル領域によって表わされる物理領域での対応する物理(たとえば、dBSPLなどによる空間的圧力)レベルに関係付けるために、一つまたは複数の較正パラメータが使用されてもよい。該一つまたは複数の較正パラメータは、特定のスピーカー構成における物理的なサウンド設備に固有の値を与えられてもよい。
【0126】
〈14.聴覚シーン解析〉
いくつかの実施形態では、本稿に記載されるエンコーダは、(たとえばエンコードされたオーディオ信号102中にエンコードされているなどの)オーディオ・コンテンツにおける聴覚イベント境界を検出し、一つまたは複数のASAパラメータを生成し、該一つまたは複数のASAパラメータを、下流の装置(たとえばデコーダ100など)に送達されるエンコードされたオーディオ信号(たとえば102など)の一部としてフォーマットするために、コンピュータ・ベースの聴覚シーン解析(ASA)を実装してもよい。ASAパラメータは、これだけに限られるものではないが、聴覚イベント境界の位置、聴覚イベント確実性指標の値(下記でさらに説明する)などを含みうる。
【0127】
いくつかの実装では、聴覚イベント境界の(たとえば時間的な)位置は、エンコードされたオーディオ信号(102)内にエンコードされたメタデータにおいて示されてもよい。追加的、任意的または代替的に、聴覚イベント境界の(たとえば時間的な)位置は、該聴覚イベント境界の位置が検出されるオーディオ・データ・ブロックおよび/またはフレームにおいて(たとえばフラグ、データ・フィールドなどを用いて)指示されてもよい。
【0128】
本稿での用法では、聴覚イベント境界は、先行する聴覚イベントが終わるおよび/または後続の聴覚イベントが始まる点を指す。各聴覚イベントは、二つの相続く聴覚イベント境界の間に生起する。
【0129】
いくつかの実施形態では、エンコーダ(150)は、二つの(たとえば時間的などの)連続するオーディオ・データ・フレームの間の特定的ラウドネス・スペクトルにおける差によって、聴覚イベント境界を検出するよう構成される。各特定的ラウドネス・スペクトルは、それらの連続するオーディオ・データ・フレームのうちの対応するオーディオ・データ・フレームから計算される、平滑化されていないラウドネスのスペクトルを含んでいてもよい。
【0130】
いくつかの実施形態では、特定的ラウドネス・スペクトルN[b,t]は、次式に示されるように、規格化された特定的ラウドネス・スペクトルNNORM[b,t]を得るよう規格化されてもよい。
【0131】
NNORM[b,t]=N[b,t]/maxb{N[b,t]} (1)
ここで、bは帯域を示し、tは時間またはオーディオ・フレーム・インデックスを示し、maxb{N[b,t]}はすべての周波数帯域にわたる最大の特定的ラウドネス・レベルである。
【0132】
規格化された特定的ラウドネス・スペクトルは、次式に示されるように、互いに減算され、差分絶対値和D[t]を導出するために使われる。
【0133】
D[t]=Σb|NNORM[b,t]-NNORM[b,t-1]| (2)
差分絶対値和は、次のように、0から1の値範囲をもつ聴覚イベント確実性指標にマッピングされる。
【0134】
【数1】

ここで、DminおよびDmaxは最小および最大の閾値である(たとえば、ユーザー構成設定可能、システム構成設定可能、当該オーディオ・コンテンツにおけるD[t]の過去の値分布に関係して設定される、など)。
【0135】
いくつかの実施形態では、エンコーダ(150)は、(たとえば特定のtにおけるなどの)D[t]がDminを上回るときに(たとえば前記特定のtにおけるなどの)聴覚イベント境界を検出するよう構成される。
【0136】
いくつかの実施形態では、本稿に記載されるデコーダ(たとえば100など)は、エンコードされたオーディオ信号(たとえば102など)からASAパラメータを抽出し、該ASAパラメータを、聴覚イベントの知覚的な歪みを引き起こす、ソフトな音の意図しないブーストおよび/またはラウドな音の意図しないカット防止するために使う。
【0137】
デコーダ(100)は、聴覚イベント内では利得はより一定に近いことを保証し、利得変化の多くを聴覚イベント境界の近傍に制約することによって、聴覚イベントの意図しない歪みを軽減または防止するよう構成されてもよい。たとえば、デコーダ(100)は、聴覚イベント境界におけるアタック(たとえばラウドネス・レベル増など)における利得変化に応答して、比較的小さな時定数(たとえば諸聴覚イベントの最小継続時間に匹敵するまたはそれより短いものなど)を使うよう構成されてもよい。よって、アタックにおける利得変化は、デコーダ(100)によって、比較的迅速に実装されることができる。他方、デコーダ(100)は、聴覚イベントにおけるリリース(たとえばラウドネス・レベル減など)における利得変化に応答して、聴覚イベントの継続時間に比して比較的長い時定数を使うよう構成されてもよい。よって、リリースにおける利得変化は、デコーダ(100)によって、比較的ゆっくり実装されることができ、それにより、一定に感じられるべきまたは徐々に減衰するべき音は聴覚的または知覚的に乱されないことがある。聴覚イベント境界におけるアタックにおける迅速な応答および聴覚イベントにおけるリリースにおけるゆっくりした応答は、聴覚イベントの到達の高速な知覚を許容するとともに、ピアノ和音などのような聴覚イベント――これは特定のラウドネス・レベル関係および/または特定の時間関係によってリンクされたラウドな音およびソフトな音を含む――の間の知覚的な品質および/または無欠性を保存する。
【0138】
いくつかの実施形態では、聴覚イベントおよびASAパラメータによって指示される聴覚イベント境界は、デコーダ(100)における特定のスピーカー構成におけるチャネルの一つ、二つ、一部または全部における利得変化を制御するために、デコーダ(100)によって使われる。
【0139】
〈15.ラウドネス・レベル遷移〉
ラウドネス・レベル遷移はたとえば、二つのプログラムの間、プログラムとラウドなコマーシャルの間などで起こりうる。いくつかの実施形態では、デコーダ(100)は、(たとえば、過去4秒にわたってエンコードされたオーディオ信号102から受領されたなどの)過去のオーディオ・コンテンツに基づく瞬時ラウドネス・レベルのヒストグラムを維持するよう構成される。ラウドネス・レベル遷移前からラウドネス・レベル遷移後にかけての時間区間にわたって、高められた確率をもつ二つの領域がヒストグラムに記録されうる。それらの領域の一方は、前のラウドネス・レベルを中心としており、一方、それらの領域の他方は、新しいラウドネス・レベルを中心としている。
【0140】
デコーダ(100)は、オーディオ・コンテンツが処理される際に、平滑化されたラウドネス・レベルを動的に決定し、該平滑化されたラウドネス・レベルに基づいてヒストグラムの対応するビン(たとえば、平滑化されたラウドネス・レベルと同じ値を含む瞬時ラウドネス・レベルのビン)を決定してもよい。デコーダ(100)はさらに、該対応するビンにおける確率を閾値(たとえば、6%、7%、7.5%など)と比較するよう構成される。ここで、ヒストグラム曲線の全面積(たとえば、すべてのビンの和)は、100%の確率を表わす。デコーダは、対応するビンが閾値を下回る確率を決定することによって、ラウドネス・レベル遷移の発生を検出するよう構成されることができる。応答して、デコーダ(100)は、新しいラウドネス・レベルに比較的速く適応するために、比較的小さな時定数を選択するよう構成されていてもよい。結果として、ラウドネス・レベル遷移内のラウド(またはソフト)な始まりの継続時間は短縮されることができる。
【0141】
いくつかの実施形態では、デコーダ(100)は、低い瞬時ラウドネス・レベルがヒストグラムにはいってヒストグラムにおける高確率ビンとなるのを防ぐために無音/ノイズ・ゲートを使う。追加的、任意的または代替的に、デコーダ(100)は、ヒストグラムに含められるべき聴覚イベントを検出するために前記ASAパラメータを使うよう構成されていてもよい。いくつかの実施形態では、デコーダ(100)は、時間平均された聴覚イベント確実性指標の時間依存する値
【数2】

をASAパラメータから決定してもよい。いくつかの実施形態では、デコーダ(100)は、ASAパラメータからの(たとえば瞬時などの)聴覚イベント確実性指標の時間依存する値A[t]などに基づいて、時間平均された聴覚イベント確実性指標の値
【数3】

を計算してもよい。デコーダ(100)は、ラウドネス・レベルと同時の前記時間平均された聴覚イベント確実性指標
【数4】

がヒストグラム包含閾値(たとえば0.1、0.12など)を下回る場合に、該ラウドネス・レベルをヒストグラムにはいることから除外するよう構成されていてもよい。
【0142】
いくつかの実施形態では、ヒストグラムに含められることが許される(たとえば瞬時などの)ラウドネス・レベル(たとえば、対応する ̄付きのA[t]の値が前記ヒストグラム包含閾値より上であるなど)について、ラウドネス・レベルは、それらのラウドネス・レベルと同時の前記時間平均された聴覚イベント確実性指標〔 ̄付きのA[t]〕の時間依存の値と同じである、またはそれに比例するなどである重みを割り当てられる。結果として、聴覚イベント境界に近いラウドネス・レベルは、聴覚イベント境界に近くない他のラウドネス・レベルよりも、ヒストグラムに対して多くの影響をもつ(たとえば、 ̄付きのA[t]が相対的に大きな値をもつなど)。
【0143】
〈16.リセット〉
いくつかの実施形態では、本稿に記載されるエンコーダ(たとえば150など)は、リセット・イベントを検出し、該リセット・イベントの指標を、エンコードされたオーディオ信号(たとえば102など)に含めるよう構成される。第一の例では、エンコーダ(150)は、相対的な無音の連続的な(たとえばシステムおよび/またはユーザーによって構成設定可能な250ミリ秒など)期間が生じると判別することに応答してリセット・イベントを検出する。第二の例では、エンコーダ(150)は、すべての周波数帯域を横断して励起レベルの大きな瞬間的な降下が生じることを判別するのに応答してリセット・イベントを検出する。第三の例では、エンコーダは、リセットを要求する、コンテンツ遷移(たとえばプログラム開始/終了、シーン変化など)が生じるところで入力(たとえばユーザー入力、システム制御されるメタデータなど)を与えられる。
【0144】
いくつかの実施形態では、本稿に記載されるデコーダ(たとえば100など)は、瞬時に利得平滑化を高速化するために使用できるリセット機構を実装する。該リセット機構は有用であり、チャネルとオーディオビジュアル入力の間の切り換えが起こるときに呼び出されてもよい。
【0145】
いくつかの実施形態では、デコーダ(100)は、相対的な無音の連続的な(たとえばシステムおよび/またはユーザーによって構成設定可能な250ミリ秒など)期間が生じるかどうか、すべての周波数帯域を横断した励起レベルの大きな瞬間的な降下が生じるかどうかなどを判定することによって、リセット・イベントが生じるかどうかを判定するよう構成されることができる。
【0146】
いくつかの実施形態では、デコーダ(100)は、上流のエンコーダ(たとえば150など)によって、エンコードされたオーディオ信号(102)において提供された(たとえばリセット・イベントなどの)指標を受領することに応答して、リセット・イベントが生じることを判別するよう構成されている。
【0147】
リセット機構は、デコーダ(100)がリセット・イベントが生じることを判別するときに、リセットを発するようにされてもよい。いくつかの実施形態では、リセット機構は、(たとえばラウドなプログラム/チャネル/オーディオビジュアル源などの)ハードな開始を防止するよう、DRC圧縮曲線のもう少し積極的なカット挙動を使うよう構成される。追加的、任意的または代替的に、デコーダ(100)は、デコーダ(100)がリセットが誤ってトリガーされたことを検出するときに優雅に回復するためのセーフガードを実装するよう構成されもよい。
【0148】
〈17.エンコーダによって提供される利得〉
いくつかの実施形態では、オーディオ・デコーダは、エンコードされたオーディオ信号中にエンコードされるべきオーディオ・コンテンツの個々の部分(たとえば、オーディオ・データ・ブロック、オーディオ・データ・フレームなど)について利得(たとえばDRC利得など)の一つまたは複数の集合を計算するよう構成されることができる。オーディオ・エンコーダによって生成された利得のそれらの集合は、すべてのチャネル(たとえば左前方、右前方、低域効果もしくはLFE、中央、左サラウンド、右サラウンドなど)についての単一のブロードバンド(または広帯域)利得を含む利得の第一の集合;チャネルの個々の部分集合についての個々のブロードバンド(または広帯域)利得を含む利得の第二の集合;チャネルの個々の部分集合についておよび第一の数(たとえば二つなど)の個々の帯域(たとえば各チャネルにおける二つの帯域など)のそれぞれについての個々のブロードバンド(または広帯域)利得を含む利得の第三の集合;チャネルの個々の部分集合についておよび第二の数(たとえば四つなど)の個々の帯域(たとえば各チャネルにおける四つの帯域など)のそれぞれについての個々のブロードバンド(または広帯域)利得を含む利得の第四の集合;などを含んでいてもよい。ここに記載されるチャネルの部分集合は、左前方、右前方およびLFEチャネルを含む部分集合、中央チャネルを含む部分集合、左サラウンドおよび右サラウンド・チャネルを含む部分集合などの一つであってもよい。
【0149】
いくつかの実施形態では、オーディオ・エンコーダは、オーディオ・コンテンツの一つまたは複数の部分(たとえばオーディオ・データ・ブロック、オーディオ・データ・フレームなど)およびオーディオ・コンテンツの前記一つまたは複数の部分について計算された利得の一つまたは複数の集合を時間同期的な仕方で伝送するよう構成される。オーディオ・コンテンツの前記一つまたは複数の部分を受領するオーディオ・デコーダは、ほとんどまたは全く遅延なしに、利得の前記一つまたは複数の集合のうちの利得のある集合を選択し、適用することができる。いくつかの実施形態では、オーディオ・エンコーダは、利得の前記一つまたは複数の集合が図4に示されるような一つまたは複数のサブフレームにおいて(たとえば差分符号化などを用いて)担持されるサブフレーミング技法を実装することができる。一例では、サブフレームは、それらの利得が計算されるオーディオ・データ・ブロックまたはオーディオ・データ・フレーム内にエンコードされてもよい。もう一つの例では、サブフレームは、それらの利得が計算されるオーディオ・データ・ブロックまたはオーディオ・データ・フレームに先行する諸オーディオ・データ・ブロックまたは諸オーディオ・データ・フレーム内にエンコードされてもよい。もう一つの限定しない例では、サブフレームは、それらの利得が計算されるオーディオ・データ・ブロックまたはオーディオ・データ・フレームからある時間内の諸オーディオ・データ・ブロックまたは諸オーディオ・データ・フレーム内にエンコードされてもよい。いくつかの実施形態では、利得のそれらの集合を担持するサブフレームにデータを入れるおよび/または該サブフレームを圧縮するために、ハフマンおよび差分符号化が使われてもよい。
【0150】
〈18.例示的なシステムおよびプロセス・フロー〉
図5は、限定しない例示的実施形態における例示的なコーデック・システムを示している。150などのようなオーディオ・エンコーダ内の処理ユニットであってもよいコンテンツ・クリエーターは、オーディオ・コンテンツ(「オーディオ」)をエンコーダ・ユニット(「NGCエンコーダ」)に提供するよう構成される。エンコーダ・ユニットは、オーディオ・コンテンツをオーディオ・データ・ブロックおよび/またはフレームにフォーマットし、オーディオ・データ・ブロックおよび/またはフレームをエンコードされたオーディオ信号にエンコードする。コンテンツ・クリエーターは、オーディオ・コンテンツにおける一つまたは複数のプログラム、コマーシャルなどの一つまたは複数のダイアログ・ラウドネス・レベル(「dialnorm」)および一つまたは複数のダイナミックレンジ圧縮曲線識別子(「圧縮曲線ID」)を確立/生成するようにも構成される。コンテンツ・クリエーターは、オーディオ・コンテンツにおける一つまたは複数のダイアログ・オーディオ・トラックからダイアログ・ラウドネス・レベルを決定してもよい。ダイナミックレンジ圧縮曲線識別子は、少なくとも部分的にはユーザー入力、システム構成設定パラメータなどに基づいて選択されてもよい。コンテンツ・クリエーターは、オーディオ・コンテンツおよびdialnormを生成するためにツールを使う人間(たとえばアーチスト、オーディオ・エンジニアなど)であってもよい。
【0151】
ダイナミックレンジ圧縮曲線識別子に基づいて、エンコーダ(150)は、前記一つまたは複数のダイナミックレンジ圧縮曲線によってサポートされる複数の再生環境についての対応する参照ダイアログ・ラウドネス・レベル(「参照レベル」)を含むがそれに限定されない一つまたは複数のDRCパラメータ集合を生成する。これらのDRCパラメータ集合は、オーディオ・コンテンツと一緒にインバンドで、オーディオ・コンテンツとはアウトオブバンドでなどで、エンコードされたオーディオ信号のメタデータ中にエンコードされてもよい。圧縮、フォーマット多重化(「MUX」)などのような動作は、100などのようなオーディオ・デコーダに送達されうるエンコードされたオーディオ信号を生成することの一部として実行されてもよい。エンコードされたオーディオ信号は、オーディオ・データ要素、DRCパラメータ集合、参照ラウドネス・レベル、ダイナミックレンジ圧縮曲線、関数、ルックアップテーブル、圧縮において使われるハフマン符号、サブフレームなどの担持をサポートするシンタックスをもってエンコードされてもよい。いくつかの実施形態では、シンタックスは、上流の装置(たとえばエンコーダ、デコーダ、トランスコーダなど)が利得を下流の装置(たとえば、デコーダ、トランスコーダなど)に伝送することを許容する。いくつかの実施形態では、エンコードされたオーディオ信号にデータをエンコードするおよび/またはエンコードされたオーディオ信号から該データをデコードするために使われるシンタックスは、上流の装置によって計算された利得に依拠する装置が任意的にそのようにし続けてもよいよう、後方互換性をサポートするよう構成される。
【0152】
いくつかの実施形態では、エンコーダ(150)は、オーディオ・コンテンツについての利得(たとえば適切な参照ダイアログ・ラウドネス・レベルを用いる利得平滑化、DRC利得など)の二つ以上の集合を計算する。利得についてのこれらの集合は、オーディオ・コンテンツと一緒にエンコードされたオーディオ信号中にエンコードされたメタデータにおいて、前記一つまたは複数のダイナミックレンジ圧縮曲線を提供されてもよい。利得の第一の集合は、(たとえばデフォルトなどの)スピーカー構成またはプロファイルにおけるすべてのチャネルについてのブロードバンド(または広帯域)利得に対応してもよい。利得の第二の集合は、スピーカー構成またはプロファイルにおけるすべてのチャネルのそれぞれについてのブロードバンド(または広帯域)利得に対応してもよい。利得の第三の集合は、スピーカー構成またはプロファイルにおけるすべてのチャネルのそれぞれにおける二つの帯域のそれぞれについてのブロードバンド(または広帯域)利得に対応してもよい。利得の第四の集合は、スピーカー構成またはプロファイルにおけるすべてのチャネルのそれぞれにおける四つの帯域のそれぞれについてのブロードバンド(または広帯域)利得に対応してもよい。いくつかの実施形態では、あるスピーカー構成について計算された利得の集合は、メタデータにおいて該スピーカー構成についての(たとえばパラメータ化されたなどの)ダイナミックレンジ圧縮曲線と一緒に伝送されてもよい。いくつかの実施形態では、あるスピーカー構成について計算された利得の集合は、メタデータにおいて該スピーカー構成についての(たとえばパラメータ化されたなどの)ダイナミックレンジ圧縮曲線を置換してもよい。追加的なスピーカー構成またはプロファイルは、本稿に記載される技法のもとでサポートされてもよい。
【0153】
デコーダ(100)は、エンコードされたオーディオ信号から、オーディオ・データ・ブロックおよび/またはフレームならびにメタデータを、たとえば圧縮解除、フォーマット解除、多重分離(「DEMUX」)などの動作を通じて、抽出するよう構成される。抽出されたオーディオ・データ・ブロックおよび/またはフレームは、デコーダ・ユニット(「NGCデコーダ」)によってオーディオ・データ要素またはサンプルにデコードされてもよい。デコーダ(100)はさらに、デコーダ(100)における、オーディオ・コンテンツがレンダリングされる特定の再生環境のためのプロファイルを決定し、エンコードされたオーディオ信号から抽出されたメタデータからダイナミックレンジ圧縮曲線を選択するよう構成される。デジタル・オーディオ処理ユニット(「DAP」)は、特定の再生環境においてオーディオ・チャネルを駆動するオーディオ信号を生成する目的でオーディオ・データ要素またはサンプルに対してDRCまたは他の動作を適用するよう構成される。デコーダ(100)は、オーディオ・データ・ブロックまたはフレームに基づくDRC利得および選択されたダイナミックレンジ圧縮曲線を計算し、適用することができる。デコーダ(100)はまた、選択されたダイナミックレンジ圧縮曲線に関連付けられた参照ダイアログ・ラウドネス・レベルと、エンコードされたオーディオ信号から抽出されたメタデータにおけるダイアログ・ラウドネス・レベルとに基づいて、出力ダイアログ・ラウドネス・レベルを調整することもできる。デコーダ(100)は、その後、オーディオ・コンテンツおよび特定の再生環境に関係した再生シナリオに固有の利得制限器を適用することができる。このように、デコーダ(100)は、再生シナリオに合わせて調整されたようにオーディオ・コンテンツをレンダリング/再生することができる。
【0154】
図5Aは、もう一つの例示的なデコーダを示している(これは図5のデコーダ100と同じであってもよい)。図5Aに示されるように、図5Aのデコーダは、エンコードされたオーディオ信号から、オーディオ・データ・ブロックおよび/またはフレームならびにメタデータを、たとえば圧縮解除、フォーマット解除、多重分離(「DEMUX」)などの動作を通じて、抽出するよう構成される。抽出されたオーディオ・データ・ブロックおよび/またはフレームは、デコーダ・ユニット(「デコード」)によってオーディオ・データ要素またはサンプルにデコードされてもよい。図5Aのデコーダはさらに、デフォルト利得の集合に対してデフォルト圧縮曲線、該デフォルト圧縮曲線に関係する平滑化定数などに基づいてDRC利得計算を実行するよう構成される。図5Aのデコーダはさらに、特定の再生環境においてオーディオ・チャネルを駆動するDRC向上されたオーディオ出力を生成するために、メタデータ中のプロファイル関係メタデータから非デフォルト利得プロファイルについての差分利得の集合を抽出し、オーディオ・コンテンツがレンダリングされる図5Aのデコーダにおける非デフォルト利得プロファイルについての非差分利得の集合を決定し、オーディオ・データ要素またはサンプルに対して非差分利得の前記集合および他の動作を適用するよう構成される。図5Aのデコーダは、図5Aのデコーダ自身が一組の利得生成動作を実行して非デフォルト利得プロファイルについて直接、非差分利得の集合を得ることのサポートを実装していてもいなくても、非デフォルト利得プロファイルに従ってオーディオ・コンテンツをレンダリング/再生することができる。
【0155】
図6Aないし図6Dは、例示的なプロセス・フローを示す。いくつかの実施形態では、メディア処理システムにおける一つまたは複数のコンピューティング装置またはユニットは、このプロセス・フローを実行してもよい。
【0156】
図6Aは、本稿に記載されるオーディオ・デコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Aのブロック602では、第一の装置(たとえば、図1Aのオーディオ・デコーダ100など)が、オーディオ・コンテンツと、一つまたは複数のダイナミックレンジ圧縮曲線についての定義データとを含むオーディオ信号を受領する。
【0157】
ブロック604では、第一の装置は特定の再生環境を判別する。
【0158】
ブロック606では、第一の装置は、その特定の再生環境についての特定のダイナミックレンジ圧縮曲線を、オーディオ信号から抽出された前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データに基づいて確立する。
【0159】
ブロック608では、第一の装置は、オーディオ信号から抽出されるオーディオ・コンテンツの一つまたは複数の部分に対する一つまたは複数のダイナミックレンジ制御(DRC)動作を実行する。前記一つまたは複数のDRC動作は、少なくとも部分的には特定のダイナミックレンジ圧縮曲線から得られた一つまたは複数のDRC利得に基づく。
【0160】
ある実施形態では、前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データは、アタック時間、リリース時間または前記一つまたは複数のダイナミックレンジ圧縮曲線のうちの少なくとも一つに関係する参照ラウドネス・レベルを含む。
【0161】
ある実施形態では、第一の装置は:オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のラウドネス・レベルを計算する段階;前記特定のダイナミックレンジ圧縮曲線および前記オーディオ・コンテンツの前記一つまたは複数の部分についての前記一つまたは複数のラウドネス・レベルに基づいて、前記一つまたは複数のDRC利得を決定する段階などを実行するようさらに構成される。
【0162】
ある実施形態では、前記オーディオ・コンテンツの前記一つまたは複数の部分について計算された前記ラウドネス・レベルの少なくとも一つは、一つまたは複数の周波数帯域に関係する特定的ラウドネス・レベル、ブロードバンド範囲を横断するブロードバンド・ラウドネス・レベル、広帯域範囲を横断する広帯域ラウドネス・レベル、複数の周波数帯域を横断するブロードバンド・ラウドネス・レベル、複数の周波数帯域を横断する広帯域ラウドネス・レベルなどの一つまたは複数である。
【0163】
ある実施形態では、前記オーディオ・コンテンツの前記一つまたは複数の部分について計算されたラウドネス・レベルの少なくとも一つは、瞬時ラウドネス・レベルまたは一つまたは複数の時間区間にわたって平滑化されたラウドネス・レベルの一つまたは複数である。
【0164】
ある実施形態では、前記一つまたは複数の動作は、ダイアログ・ラウドネス・レベルを調整すること、利得平滑化、利得制限、ダイナミック等化、ノイズ補償などの一つまたは複数に関係する。
【0165】
ある実施形態では、第一の装置はさらに:エンコードされたオーディオ信号から一つまたは複数のダイアログ・ラウドネス・レベルを抽出する段階;前記一つまたは複数のダイアログ・ラウドネス・レベルを一つまたは複数の参照ダイアログ・ラウドネス・レベルに調整する段階;などを実行するよう構成される。
【0166】
ある実施形態では、第一の装置はさらに:エンコードされたオーディオ信号から一つまたは複数の聴覚シーン解析(ASA)パラメータを抽出する段階;前記オーディオ・コンテンツに適用された利得を平滑化することにおいて使われる一つまたは複数の時定数を変化させる段階であって該利得は前記一つまたは複数のDRC利得のうちの一つまたは複数に関係する、段階;利得平滑化または利得制限などを実行するよう構成される。
【0167】
ある実施形態では、第一の装置はさらに:リセット・イベントの指標に基づいて前記オーディオ・コンテンツの前記一つまたは複数の部分にリセット・イベントが生じることを判別する段階であって、前記リセットの前記指標は、前記エンコードされたオーディオ信号から抽出される、段階と;前記オーディオ・コンテンツの前記一つまたは複数の部分に前記リセット・イベントが生じることを判別することに応答して、前記オーディオ・コンテンツの前記一つまたは複数の部分において前記リセット・イベントが生じることを判別する時点において実行されている一つまたは複数の利得平滑化動作に対して一つまたは複数のアクションを行なう段階;などを実行するよう構成される。
【0168】
ある実施形態では、第一の装置はさらに:瞬時ラウドネス・レベルのヒストグラムを維持する段階であって、前記ヒストグラムは前記オーディオ・コンテンツにおけるある時間区間から計算された瞬時ラウドネス・レベルが入れられている、段階;特定的ラウドネス・レベルが前記ヒストグラムの高確率領域における閾値より上であるかどうかを判定する段階であって、前記特定的ラウドネス・レベルは前記オーディオ・コンテンツの一部から計算されている、段階;前記特定的ラウドネス・レベルが前記ヒストグラムの前記高確率領域における前記閾値より上であると判定することに応答して、ラウドネス遷移が生じていることを判別し、該ラウドネス遷移を高速化するために利得平滑化において使われる時定数を短くするなどする段階;などを実行するよう構成される。
【0169】
図6Bは、本稿に記載されるオーディオ・エンコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Bのブロック652では、第二の装置(たとえば図1Bのオーディオ・エンコーダ150など)が源オーディオ・フォーマットにおけるオーディオ・コンテンツを受領する。
【0170】
ブロック654では、第二の装置は、一つまたは複数のダイナミックレンジ圧縮曲線についての定義データを取得する。
【0171】
ブロック656では、第二の装置は、前記オーディオ・コンテンツと、前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データとを含むオーディオ信号を生成する。
【0172】
ある実施形態では、第二の装置はさらに、前記一つまたは複数のダイナミックレンジ圧縮曲線についての一つまたは複数の識別子を決定する段階と;前記一つまたは複数の識別子に基づいて参照データ貯蔵部から前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データを取り出す段階;などを実行するよう構成される。
【0173】
ある実施形態では、第二の装置はさらに:前記オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のダイアログ・ラウドネス・レベルを計算する段階と;前記一つまたは複数のダイアログ・ラウドネス・レベルを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階;などを実行するよう構成される。
【0174】
ある実施形態では、第二の装置は:前記オーディオ・コンテンツの前記一つまたは複数の部分に対して聴覚イベント・シーン(ASA)を実行する段階;前記オーディオ・コンテンツの前記一つまたは複数の部分に対するASAの結果に基づいて一つまたは複数のASAパラメータを生成する段階;前記一つまたは複数のASAパラメータを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階;などを実行するよう構成される。
【0175】
ある実施形態では、第二の装置はさらに:前記オーディオ・コンテンツの前記一つまたは複数の部分において一つまたは複数のリセット・イベントが生起することを判別する段階と;前記一つまたは複数のリセット・イベントの一つまたは複数の指標を、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階;などを実行するよう構成される。
【0176】
ある実施形態では、第二の装置はさらに、前記オーディオ・コンテンツの前記一つまたは複数の部分を、オーディオ・データ・フレームまたはオーディオ・データ・ブロックの一つまたは複数にエンコードするよう構成される。
【0177】
ある実施形態では、前記一つまたは複数のDRC利得の第一のDRC利得は、その特定の再生環境に対応する特定のスピーカー構成におけるすべてのチャネルの集合における第一の真部分集合における各チャネルに当てはまり、一方、前記一つまたは複数のDRC利得の第二の異なるDRC利得は、その特定の再生環境に対応する前記特定のスピーカー構成におけるすべてのチャネルの前記集合における第二の真部分集合における各チャネルに当てはまる。
【0178】
ある実施形態では、前記一つまたは複数のDRC利得の第一のDRC利得は第一の周波数帯域に当てはまり、前記一つまたは複数のDRC利得の第二の異なるDRC利得は第二の異なる周波数帯域に当てはまる。
【0179】
ある実施形態では、前記オーディオ・コンテンツの前記一つまたは複数の部分がオーディオ・データ・フレームまたはオーディオ・データ・ブロックの一つまたは複数を含む。ある実施形態では、エンコードされたオーディオ信号は、オーディオビジュアル信号の一部である。
【0180】
ある実施形態では、前記一つまたは複数のDRC利得はラウドネス領域で定義される。
【0181】
図6Cは、本稿に記載されるオーディオ・デコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Cのブロック662では、第三の装置(たとえば、図1Aのオーディオ・デコーダ100、図5のオーディオ・デコーダ、図5Aのオーディオ・デコーダなど)が、オーディオ・コンテンツと、一つまたは複数のダイナミックレンジ圧縮(DRC)曲線についての定義データと、差分利得の一つまたは複数の集合とを含むオーディオ信号を受領する。
【0182】
ブロック664では、第三の装置は、差分利得の一つまたは複数の集合のうちで、特定の再生環境における利得プロファイルのための差分利得の特定の集合を同定する。第三の装置はまた、前記一つまたは複数のDRC曲線のうちで、差分利得の前記特定の集合に関係したデフォルトDRC曲線をも同定する。
【0183】
ブロック666では、第三の装置は、少なくとも部分的にはデフォルトDRC曲線に基づいてデフォルト利得の集合を生成する。
【0184】
ブロック668では、少なくとも部分的にはデフォルト利得の前記集合と差分利得の前記特定の集合の組み合わせに基づいて、第三の装置は、前記オーディオ信号から抽出された前記オーディオ・コンテンツの一つまたは複数の部分に対して一つまたは複数の動作を実行する。
【0185】
ある実施形態では、デフォルト利得の前記集合は、少なくとも部分的には前記デフォルトDRC曲線に基づいて一組の利得生成動作を実行することによって生成された非差分利得を含む。
【0186】
ある実施形態では、前記デフォルトDRC曲線は、デフォルト利得プロファイルを表わす。ある実施形態では、前記デフォルトDRC曲線との関係での差分利得の前記特定の集合は、非デフォルト利得プロファイルを表わす。ある実施形態では、前記オーディオ信号は、前記非デフォルト利得プロファイルに対応する非デフォルトDRC曲線についての定義データを含まない。
【0187】
ある実施形態では、差分利得の前記特定の集合は、非デフォルト利得プロファイルについて生成された非差分非デフォルト利得の集合と、前記デフォルトDRC曲線によって表わされた前記デフォルト利得プロファイルについて生成された非差分デフォルト利得の集合との間の利得差を含む。前記非差分非デフォルト利得の集合と、前記非差分デフォルト利得の集合とは、前記オーディオ信号をエンコードする上流のオーディオ・デコーダによって生成されてもよい。
【0188】
ある実施形態では、前記非差分非デフォルト利得の少なくとも一つの集合または前記非差分デフォルト利得の集合は、前記オーディオ信号の一部として提供されない。
【0189】
図6Dは、本稿に記載されるオーディオ・デコーダによって実装されてもよい例示的なプロセス・フローを示している。図6Dのブロック672では、第四の装置(たとえば図1Aのオーディオ・エンコーダ150、図5のオーディオ・エンコーダなど)が源オーディオ・フォーマットにおけるオーディオ・コンテンツを受領する。
【0190】
ブロック674では、第四の装置は、少なくとも部分的には、デフォルト利得プロファイルを表わすデフォルト・ダイナミックレンジ圧縮(DRC)曲線に基づいてデフォルト利得の集合を生成する。
【0191】
ブロック676では、第四の装置は、非デフォルト利得プロファイルについての非デフォルト利得の集合を生成する。
【0192】
ブロック678では、少なくとも部分的にはデフォルト利得の前記集合および非デフォルト利得の前記集合に基づいて、第四の装置は、差分利得の集合を生成する。差分利得の前記集合は、前記デフォルトDRC曲線との関係での前記非デフォルト利得プロファイルを表わす。
【0193】
ブロック680では、第四の装置は、前記オーディオ・コンテンツと、一つまたは複数のDRC曲線についておよび差分利得の一つまたは複数の集合についての前記定義データを含むオーディオ信号を生成する。差分利得の前記一つまたは複数の集合は、差分利得の前記集合を含む。
【0194】
いくつかの実施形態では、前記非デフォルト利得プロファイルはDRC曲線によって表わされる。ある実施形態では、前記オーディオ信号は、前記非デフォルト利得プロファイルを表わす前記DRC曲線についての定義データを含まない。いくつかの実施形態では、前記非デフォルト利得プロファイルは、DRC曲線によって表わされない。
【0195】
ある実施形態では、プロセッサを有し、本稿に記載される方法のいずれかを実行するよう構成された装置。
【0196】
ある実施形態では、一つまたは複数のプロセッサによって実行されたときに、本稿に記載される方法の任意のものの実行を引き起こすソフトウェア命令を含む非一時的なコンピュータ可読記憶媒体。別個の複数の実施形態が本稿において論じられているものの、本稿で論じられる実施形態および/または部分実施形態の任意の組み合わせが組み合わされてさらなる実施形態を形成してもよいことを注意しておく。
【0197】
〈19.実装機構――ハードウェアの概観〉
ある実施形態によれば、本稿に記載される技法は、一つまたは複数の特殊目的コンピューティング装置によって実装される。特殊目的コンピューティング装置は、本技法を実行するよう固定構成とされていてもよいし、あるいは一つまたは複数の特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)のような、本技法を実行するよう持続的にプログラムされたデジタル電子デバイスを含んでいてもよいし、あるいはファームウェア、メモリ、他の記憶または組み合わせにおけるプログラム命令に従って本技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的コンピューティング装置は、カスタムの固定構成論理、ASICまたはFPGAをカスタムのプログラミングと組み合わせて本技法を達成してもよい。特殊目的コンピューティング装置はデスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置または本技法を実装するために固定構成および/またはプログラム論理を組み込んでいる他の任意の装置であってもよい。
【0198】
たとえば、図7は、本発明のある実施形態が実装されうるコンピュータ・システム700を示すブロック図である。コンピュータ・システム700は、情報を通信するためのバス702または他の通信機構と、情報を処理するための、バス702に結合されたハードウェア・プロセッサ704とを含む。ハードウェア・プロセッサ704はたとえば汎用マイクロプロセッサであってもよい。
【0199】
コンピュータ・システム700は、ランダム・アクセス・メモリ(RAM)または他の動的記憶装置のような、情報およびプロセッサ704によって実行されるべき命令を記憶するための、バス702に結合されたメイン・メモリ706をも含む。メイン・メモリ706はまた、一時変数または他の中間的な情報を、プロセッサ704によって実行されるべき命令の実行の間、記憶しておくために使われてもよい。そのような命令は、プロセッサ704にとってアクセス可能な非一時的な記憶媒体に記憶されたとき、コンピュータ・システム700を、前記命令において指定されている処理を実行するよう装置固有の特殊目的機械にする。
【0200】
コンピュータ・システム700はさらに、バス702に結合された、静的な情報およびプロセッサ704のための命令を記憶するための読み出し専用メモリ(ROM)708または他の静的記憶装置を含む。磁気ディスクまたは光ディスクのような記憶装置710が提供され、情報および命令を記憶するためにバス702に結合される。
【0201】
コンピュータ・システム700は、コンピュータ・ユーザーに対して情報を表示するための、液晶ディスプレイ(LCD)のようなディスプレイ712にバス702を介して結合されていてもよい。英数字その他のキーを含む入力装置714が、情報およびコマンド選択をプロセッサ704に伝えるためにバス702に結合される。もう一つの型のユーザー入力装置は、方向情報およびコマンド選択をプロセッサ704に伝えるとともにディスプレイ712上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのようなカーソル・コントロール716である。この入力装置は典型的には、第一軸(たとえばx)および第二軸(たとえばy)の二つの軸方向において二つの自由度をもち、これにより該装置は平面内での位置を指定できる。
【0202】
コンピュータ・システム700は、本稿に記載される技法を実施するのに、装置固有の固定構成論理、一つまたは複数のASICもしくはFPGA、コンピュータ・システムと組み合わさってコンピュータ・システム700を特殊目的機械にするまたはプログラムするファームウェアおよび/またはプログラム論理を使ってもよい。ある実施形態によれば、本稿の技法は、プロセッサ704がメイン・メモリ706に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して、コンピュータ・システム700によって実行される。そのような命令は、記憶装置710のような別の記憶媒体からメイン・メモリ706に読み込まれてもよい。メイン・メモリ706に含まれる命令のシーケンスの実行により、プロセッサ704は、本稿に記載されるプロセス段階を実行する。代替的な実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて固定構成の回路が使用されてもよい。
【0203】
本稿で用いられる用語「記憶媒体」は、データおよび/または機械に特定の仕方で動作させる命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体および/または揮発性媒体を含んでいてもよい。不揮発性媒体は、たとえば、記憶装置710のような光学式または磁気ディスクを含む。揮発性媒体は、メイン・メモリ706のような動的メモリを含む。記憶媒体の一般的な形は、たとえば、フロッピーディスク、フレキシブルディスク、ハードディスク、半導体ドライブ、磁気テープまたは他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学式データ記憶媒体、孔のパターンをもつ任意の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、NVRAM、他の任意のメモリ・チップまたはカートリッジを含む。
【0204】
記憶媒体は、伝送媒体とは異なるが、伝送媒体と関連して用いられてもよい。伝送媒体は、記憶媒体間で情報を転送するのに参加する。たとえば、伝送媒体は同軸ケーブル、銅線および光ファイバーを含み、バス702をなすワイヤを含む。伝送媒体は、電波および赤外線データ通信の際に生成されるような音響波または光波の形を取ることもできる。
【0205】
さまざまな形の媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ704に搬送するのに関与しうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスクまたは半導体ドライブ上に担持されていてもよい。リモート・コンピュータは該命令をその動的メモリにロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム700にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。赤外線検出器が赤外線信号において担持されるデータを受信することができ、適切な回路がそのデータをバス702上に載せることができる。バス702はそのデータをメイン・メモリ706に搬送し、メイン・メモリ706から、プロセッサ704が命令を取り出し、実行する。メイン・メモリ706によって受信される命令は、任意的に、プロセッサ704による実行の前または後に記憶装置710上に記憶されてもよい。
【0206】
コンピュータ・システム700は、バス702に結合された通信インターフェース718をも含む。通信インターフェース718は、ローカル・ネットワーク722に接続されているネットワーク・リンク720への双方向データ通信結合を提供する。たとえば、通信インターフェース718は、統合サービス・デジタル通信網(ISDN)カード、ケーブル・モデム、衛星モデムまたは対応する型の電話線へのデータ通信接続を提供するためのモデムであってもよい。もう一つの例として、通信インターフェース718は、互換LANへのデータ通信接続を提供するためのローカル・エリア・ネットワーク(LAN)カードであってもよい。無線リンクも実装されてもよい。そのようないかなる実装でも、通信インターフェース718は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気的、電磁的または光学的信号を送受信する。
【0207】
ネットワーク・リンク720は典型的には、一つまたは複数のネットワークを通じた他のデータ装置へのデータ通信を提供する。たとえば、ネットワーク・リンク720は、ローカル・ネットワーク722を通じてホスト・コンピュータ724またはインターネット・サービス・プロバイダー(ISP)726によって運営されているデータ設備への接続を提供してもよい。ISP 726は、現在一般に「インターネット」728と称される世界規模のパケット・データ通信網を通じたデータ通信サービスを提供する。ローカル・ネットワーク722およびインターネット728はいずれも、デジタル・データ・ストリームを担持する電気的、電磁的または光学的信号を使う。コンピュータ・システム700に/からデジタル・データを搬送する、さまざまなネットワークを通じた信号およびネットワーク・リンク720上および通信インターフェース718を通じた信号は、伝送媒体の例示的な形である。
【0208】
コンピュータ・システム700は、ネットワーク(単数または複数)、ネットワーク・リンク720および通信インターフェース718を通じて、メッセージを送り、プログラム・コードを含めデータを受信することができる。インターネットの例では、サーバー730は、インターネット728、ISP 726、ローカル・ネットワーク722および通信インターフェース718を通じてアプリケーション・プログラムのための要求されたコードを送信してもよい。
【0209】
受信されたコードは、受信される際にプロセッサ704によって実行されても、および/または、のちの実行のために記憶装置710または他の不揮発性記憶に記憶されてもよい。
【0210】
〈20.等価物、拡張、代替その他〉
以上の明細書では、本発明の例示的実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。
【0211】
いくつかの態様を記載しておく。
〔態様1〕
オーディオ・コンテンツと、差分利得の一つまたは複数の集合とを含むオーディオ信号を受領する段階と;
差分利得の前記一つまたは複数の集合のうちで、特定の再生環境における利得プロファイルのための差分利得の特定の集合を同定する段階と;
差分利得の前記特定の集合に関係したデフォルト・ダイナミックレンジ圧縮(DRC)曲線に少なくとも基づいてデフォルト利得の集合を生成する段階と;
少なくとも部分的にはデフォルト利得の前記集合と差分利得の前記特定の集合の組み合わせに基づいて、前記オーディオ信号から抽出された前記オーディオ・コンテンツの一つまたは複数の部分に対して一つまたは複数の動作を実行する段階とを含む、
一つまたは複数のコンピュータによって実行される方法。
〔態様2〕
デフォルト利得の前記集合は、少なくとも部分的には前記デフォルトDRC曲線に基づいて一組の利得生成動作を実行することによって生成された非差分利得を含む、態様1記載の方法。
〔態様3〕
前記デフォルトDRC曲線は、デフォルト利得プロファイルを表わす、態様1または2記載の方法。
〔態様4〕
前記デフォルトDRC曲線との関係での差分利得の前記特定の集合は、非デフォルト利得プロファイルを表わす、態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記オーディオ信号は、前記非デフォルト利得プロファイルに対応する非デフォルトDRC曲線についての定義データを含まない、態様4記載の方法。
〔態様6〕
差分利得の前記特定の集合は、非デフォルト利得プロファイルについて生成された非差分非デフォルト利得の集合と、前記デフォルトDRC曲線によって表わされた前記デフォルト利得プロファイルについて生成された非差分デフォルト利得の集合との間の利得差を含む、態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
前記非差分非デフォルト利得の集合と、前記非差分デフォルト利得の集合とは、前記オーディオ信号をエンコードする上流のオーディオ・デコーダによって生成される、態様6記載の方法。
〔態様8〕
前記非差分非デフォルト利得の集合または前記非差分デフォルト利得の集合の少なくとも一方は、前記オーディオ信号の一部として提供されない、態様6記載の方法。
〔態様9〕
前記一つまたは複数のDRC曲線についての前記定義データが、前記一つまたは複数のDRC曲線のうちの少なくとも一つに関係したアタック時間、リリース時間または参照ラウドネス・レベルのうちの一つまたは複数を含む、態様1ないし8のうちいずれか一項記載の方法。
〔態様10〕
前記参照ラウドネス・レベルが、前記オーディオ・コンテンツをオーディオ・デコーダによってレンダリングするための再生レベルの目標とされる範囲を表わす、態様9記載の方法。
〔態様11〕
前記オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のラウドネス・レベルを計算する段階と;
前記非差分デフォルト利得の集合および差分利得の前記特定の集合に基づいて非差分非デフォルト利得の集合を生成する段階と;
前記オーディオ・コンテンツの前記一つまたは複数の部分に前記非差分非デフォルト利得の集合を適用する段階とをさらに含む、
態様1ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記オーディオ・コンテンツの前記一つまたは複数の部分について計算された前記一つまたは複数のラウドネス・レベルの少なくとも一つが、一つまたは複数の周波数帯域に関する特定的ラウドネス・レベル、ブロードバンド範囲にわたるブロードバンド・ラウドネス・レベル、広帯域範囲にわたる広帯域ラウドネス・レベル、複数の周波数範囲にわたるブロードバンド・ラウドネス・レベルまたは複数の周波数範囲にわたる広帯域ラウドネス・レベルのうちの一つまたは複数である、態様11記載の方法。
〔態様13〕
前記オーディオ・コンテンツの前記一つまたは複数の部分について計算された前記一つまたは複数のラウドネス・レベルの少なくとも一つが、瞬時ラウドネス・レベルまたは一つまたは複数の時間区間にわたって平滑化されたラウドネス・レベルの一つまたは複数である、態様11記載の方法。
〔態様14〕
前記一つまたは複数の動作は、ダイアログ・ラウドネス・レベルを調整すること、利得平滑化、利得制限、ダイナミック等化またはノイズ補償のうちの一つまたは複数に関係する一つまたは複数の動作を含む、態様1ないし13のうちいずれか一項記載の方法。
〔態様15〕
当該方法がオーディオ・デコード装置によって実行され、前記デフォルトDRC曲線が前記オーディオ・デコード装置において定義されている、態様1ないし14のうちいずれか一項記載の方法。
〔態様16〕
一つまたは複数のダイナミックレンジ圧縮(DRC)曲線についての定義データを受領する段階と;
前記一つまたは複数のDRC曲線のうちで、差分利得の前記特定の集合に関係したデフォルトDRC曲線を同定する段階とをさらに含む、
態様1ないし15のうちいずれか一項記載の方法。
〔態様17〕
前記エンコードされたオーディオ信号から一つまたは複数の聴覚シーン解析(ASA)パラメータを抽出する段階と;
前記オーディオ・コンテンツに適用された利得を平滑化することにおいて使われる一つまたは複数の時定数を変化させる段階とをさらに含む、
態様1ないし16のうちいずれか一項記載の方法。
〔態様18〕
リセット・イベントの指標に基づいて前記オーディオ・コンテンツの前記一つまたは複数の部分にリセット・イベントが生じることを判別する段階であって、前記リセットの前記指標は、前記エンコードされたオーディオ信号から抽出される、段階と;
前記オーディオ・コンテンツの前記一つまたは複数の部分に前記リセット・イベントが生じることを判別することに応答して、前記オーディオ・コンテンツの前記一つまたは複数の部分において前記リセット・イベントが生じることを判別する時点において実行されている一つまたは複数の利得平滑化動作に対して一つまたは複数のアクションを行なう段階とをさらに含む、
態様1ないし17のうちいずれか一項記載の方法。
〔態様19〕
前記一つまたは複数の平滑化動作の少なくとも一つが、前記リセット・イベントの前には第一の平滑化時定数を使い、前記一つまたは複数の平滑化動作の前記少なくとも一つが、前記リセット・イベントが生じることを判別することに応答して前記第一の平滑化時定数より小さい第二の平滑化時定数を使う、態様18記載の方法。
〔態様20〕
瞬時ラウドネス・レベルのヒストグラムを維持する段階であって、前記ヒストグラムは前記オーディオ・コンテンツにおけるある時間区間から計算された瞬時ラウドネス・レベルが入れられる、段階と;
特定的ラウドネス・レベルが前記ヒストグラムの高確率領域における閾値より下であるかどうかを判定する段階であって、前記特定的ラウドネス・レベルは前記オーディオ・コンテンツの一部から計算される、段階と;
前記特定的ラウドネス・レベルが前記ヒストグラムの前記高確率領域における前記閾値より下であると判定することに応答して:
ラウドネス遷移が生じていることを判別し、
該ラウドネス遷移を高速化するために利得平滑化において使われる時定数を短くする、段階とをさらに含む、
態様1ないし19のうちいずれか一項記載の方法。
〔態様21〕
差分利得の前記特定の集合は、ある特定のスピーカー構成におけるすべてのチャネルの集合における第一の真部分集合における各チャネルに関係する第一の差分利得を含み、差分利得の前記特定の集合は、前記特定のスピーカー構成におけるすべてのチャネルの前記集合における第二の真部分集合における各チャネルに関係する第二の差分利得を含む、態様1ないし20のうちいずれか一項記載の方法。
〔態様22〕
差分利得の前記特定の集合が第一の周波数帯域に関係する第一の差分利得を含み、差分利得の前記特定の集合が第二の異なる周波数帯域に関係する第二の異なる差分利得を含む、態様1ないし21のうちいずれか一項記載の方法。
〔態様23〕
前記オーディオ・コンテンツの前記一つまたは複数の部分がオーディオ・データ・フレーム、オーディオ・データ・ブロックまたはオーディオ・サンプルの一つまたは複数を含む、態様1ないし22のうちいずれか一項記載の方法。
〔態様24〕
差分利得の前記特定の集合はラウドネス領域で定義される、態様1ないし23のうちいずれか一項記載の方法。
〔態様25〕
前記エンコードされたオーディオ信号がオーディオビジュアル信号の一部である、態様1ないし24のうちいずれか一項記載の方法。
〔態様26〕
源オーディオ・フォーマットにおけるオーディオ・コンテンツを受領する段階と;
少なくとも部分的にはデフォルト・ダイナミックレンジ圧縮(DRC)曲線に基づいてデフォルト利得の集合を生成する段階であって、前記デフォルトDRC曲線はデフォルト利得プロファイルを表わす、段階と;
非デフォルト利得プロファイルについての非デフォルト利得の集合を生成する段階と;
少なくとも部分的にはデフォルト利得の前記集合および非デフォルト利得の前記集合に基づいて、差分利得の前記集合を生成する段階であって、差分利得の前記集合は、前記デフォルトDRC曲線との関係での前記非デフォルト利得プロファイルを表わす、段階と;
前記オーディオ・コンテンツと、差分利得の前記集合を含む差分利得の前記一つまたは複数の集合とを含むオーディオ信号を生成する段階とを含む、
一つまたは複数のコンピューティング装置によって実行される方法。
〔態様27〕
前記非デフォルト利得プロファイルはDRC曲線によって表わされる、態様26記載の方法。
〔態様28〕
前記オーディオ信号は、前記非デフォルト利得プロファイルを表わす前記DRC曲線についての定義データを含まない、態様27記載の方法。
〔態様29〕
前記非デフォルト利得プロファイルは、DRC曲線によって表わされない、態様26ないし28のうちいずれか一項記載の方法。
〔態様30〕
前記一つまたは複数のダイナミックレンジ圧縮曲線についての一つまたは複数の識別子を決定する段階と;
前記一つまたは複数の識別子に基づいて参照データ貯蔵部から前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データを取り出す段階とをさらに含む、
態様26ないし29のうちいずれか一項記載の方法。
〔態様31〕
前記デフォルト利得の集合が、少なくとも部分的には前記デフォルトDRC曲線に基づいて第一の組の利得生成動作を実行することによって生成された第一の非差分利得を含み、前記非デフォルト利得の集合が、前記非デフォルト利得プロファイルについての第二の組の利得生成動作を実行することによって生成された第二の非差分利得を含む、態様26ないし30のうちいずれか一項記載の方法。
〔態様32〕
前記オーディオ・コンテンツの一つまたは複数の部分についての一つまたは複数のダイアログ・ラウドネス・レベルを計算する段階と;
前記一つまたは複数のダイアログ・ラウドネス・レベルを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階とをさらに含む、
態様26ないし31のうちいずれか一項記載の方法。
〔態様33〕
前記一つまたは複数のダイアログ・ラウドネス・レベルの少なくとも一つが、ダイアログ・オーディオ・コンテンツを含む一つまたは複数のオーディオ・トラックから決定される、態様32記載の方法。
〔態様34〕
前記オーディオ・コンテンツの前記一つまたは複数の部分に対して聴覚シーン解析(ASA)を実行する段階と;
前記オーディオ・コンテンツの前記一つまたは複数の部分に対する前記ASAの結果に基づいて一つまたは複数のASAパラメータを生成する段階と;
前記一つまたは複数のASAパラメータを、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階とをさらに含む、
態様26ないし33のうちいずれか一項記載の方法。
〔態様35〕
前記オーディオ・コンテンツの一つまたは複数の部分において一つまたは複数のリセット・イベントが生起することを判別する段階と;
前記一つまたは複数のリセット・イベントの一つまたは複数の指標を、前記オーディオ・コンテンツの前記一つまたは複数の部分と一緒に、前記エンコードされたオーディオ信号中にエンコードする段階とをさらに含む、
態様26ないし34のうちいずれか一項記載の方法。
〔態様36〕
前記オーディオ・コンテンツの一つまたは複数の部分を、オーディオ・データ・フレームまたはオーディオ・データ・ブロックの一つまたは複数にエンコードする段階をさらに含む、態様26ないし35のうちいずれか一項記載の方法。
〔態様37〕
前記一つまたは複数のダイナミックレンジ圧縮曲線の少なくとも一つはラウドネス領域で定義される、態様26ないし36のうちいずれか一項記載の方法。
〔態様38〕
前記エンコードされたオーディオ信号はオーディオビジュアル信号の一部である、態様26ないし37のうちいずれか一項記載の方法。
〔態様39〕
前記一つまたは複数のダイナミックレンジ圧縮曲線についての前記定義データはパラメータの一つまたは複数の集合を含み、パラメータの前記一つまたは複数の集合における少なくとも一つの集合は、ルックアップテーブル、曲線または複数セグメント区分直線のうちの一つまたは複数を表わす、態様26ないし38のうちいずれか一項記載の方法。
〔態様40〕
前記エンコードされたオーディオ信号が、受領側装置において定義されているDRC曲線を前記デフォルトDRC曲線として選択するための指標を含む、態様26ないし39のうちいずれか一項記載の方法。
〔態様41〕
諸DRC曲線についての定義データを前記エンコードされたオーディオ信号において送る段階と;
前記一つまたは複数のDRC曲線のうちで前記デフォルトDRC曲線を選択するための指標を含める段階とをさらに含む、
態様26ないし40のうちいずれか一項記載の方法。
〔態様42〕
態様1ないし41のうちいずれか一項記載の方法を実行するよう構成されたメディア処理システム。
〔態様43〕
態様1ないし41のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
〔態様44〕
一つまたは複数のプロセッサによって実行されたときに、態様1ないし41のうちいずれか一項記載の方法の実行を引き起こすソフトウェア命令を含む非一時的なコンピュータ可読記憶媒体。
図1A
図1B
図2A
図2B
図3
図4
図5
図5A
図6A
図6B
図6C
図6D
図7