(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024156955
(43)【公開日】2024-11-06
(54)【発明の名称】効率的なDRCプロファイル伝送
(51)【国際特許分類】
H04S 7/00 20060101AFI20241029BHJP
H04R 3/00 20060101ALI20241029BHJP
【FI】
H04S7/00 300
H04R3/00 310
【審査請求】有
【請求項の数】5
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024133178
(22)【出願日】2024-08-08
(62)【分割の表示】P 2023074399の分割
【原出願日】2015-09-29
(11)【特許番号】
(45)【特許公報発行日】2024-10-15
(31)【優先権主張番号】62/058,228
(32)【優先日】2014-10-01
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】ホーリッヒ,ホルガー
(72)【発明者】
【氏名】コッペンス,イェルン
(57)【要約】 (修正有)
【課題】効率的なDRCプロファイル伝送をする装置及びシステムを提供する。
【解決手段】オーディオ・デコーダ100において、エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示し、複数の異なるレンダリング・モードから第一のレンダリング・モードを決すし、フレームのシーケンスの現在フレーム内に含まれているDRCプロファイルの部分集合から一つ又は複数のDRCプロファイルを決定し、一つ又は複数のDRCプロファイルのうちの少なくとも一つが第一のレンダリング・モードに適用可能であるかどうかを判定し、一つ又は複数のDRCプロファイルのうちのどれも第一のレンダリング・モードに適用可能でない場合、現在DRCプロファイルとして、デフォルトDRCプロファイルを選択し、現在DRCプロファイルを使って現在フレームをデコードする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は、エンコードされたオーディオ・データおよびメタデータを含むフレームのシーケンスを有し、前記メタデータはダイナミックレンジ制御(DRCと称される)利得の複数の異なる集合を含み、前記エンコードされたオーディオ信号は、前記オーディオ信号のラウドネスの指標と、前記フレームのシーケンスの一つまたは複数のフレームにおけるDRC構成メタデータとをさらに含み、前記DRC構成メタデータは、前記エンコードされたオーディオ信号に関連付けられた複数のDRCプロファイルと、各DRCプロファイルについて、そのDRCプロファイルが適用可能な出力参照レベルの範囲とを示し、DRC利得の各集合が前記複数のDRCプロファイルのうちの一つに対応し、当該方法は、
・デコードされたオーディオ信号のための所望される出力参照レベルを設定する段階と;
・前記DRCプロファイルのうちの、前記適用可能な出力参照レベルの範囲がデコードされたオーディオ信号のための前記所望される出力参照レベルを含む一つまたは複数のDRCプロファイルを識別する段階と;
・前記識別されたDRCプロファイルのうちの一つを選択する段階と;
・前記エンコードされたオーディオ信号をデコードする段階と;
・デコードされたオーディオ信号に選択されたDRCプロファイルに対応するDRC利得を適用することによって、デコードされたオーディオ信号のダイナミックレンジを調整する段階と;
・前記オーディオ信号のラウドネスの指標およびデコードされたオーディオ信号のための前記所望される出力参照レベルに応答して、ラウドネス関係利得を決定する段階と;
・前記調整されたデコードされたオーディオ信号に前記ラウドネス関係利得を適用して、前記所望される出力参照レベルをもつラウドネス調整されたデコードされたオーディオ信号を得る段階とを含み、
前記DRCプロファイルのうちの一つまたは複数は、深夜モードでの再生のために適用可能である、方法。
【請求項2】
前記識別されたDRCプロファイルのうちの一つを選択することが、深夜環境での再生のために適用可能な、前記DRCプロファイルのうちの一つを選択することを含む、請求項1に記載の方法。
【請求項3】
エンコードされたオーディオ信号をデコードするデコーダであって、前記エンコードされたオーディオ信号は、エンコードされたオーディオ・データおよびメタデータを含むフレームのシーケンスを有し、前記メタデータはダイナミックレンジ制御(DRCと称される)利得の複数の異なる集合を含み、前記エンコードされたオーディオ信号は、前記オーディオ信号のラウドネスの指標と、前記フレームのシーケンスの一つまたは複数のフレームにおけるDRC構成メタデータとをさらに含み、前記DRC構成メタデータは、前記エンコードされたオーディオ信号に関連付けられた複数のDRCプロファイルと、各DRCプロファイルについて、そのDRCプロファイルが適用可能な出力参照レベルの範囲とを示し、DRC利得の各集合が前記複数のDRCプロファイルのうちの一つに対応し、当該デコーダは、
・デコードされたオーディオ信号のための所望される出力参照レベルを設定する段階と;
・前記DRCプロファイルのうちの、前記適用可能な出力参照レベルの範囲がデコードされたオーディオ信号のための前記所望される出力参照レベルを含む一つまたは複数のDRCプロファイルを識別する段階と;
・前記識別されたDRCプロファイルのうちの一つを選択する段階と;
・前記エンコードされたオーディオ信号をデコードする段階と;
・デコードされたオーディオ信号に選択されたDRCプロファイルに対応するDRC利得を適用することによって、デコードされたオーディオ信号のダイナミックレンジを調整する段階と;
・前記オーディオ信号のラウドネスの指標およびデコードされたオーディオ信号のための前記所望される出力参照レベルに応答して、ラウドネス関係利得を決定する段階と;
・前記調整されたデコードされたオーディオ信号に前記ラウドネス関係利得を適用して、前記所望される出力参照レベルをもつラウドネス調整されたデコードされたオーディオ信号を得る段階と
を実行する一つまたは複数のプロセッサを有しており、
前記DRCプロファイルのうちの一つまたは複数は、深夜モードでの再生のために適用可能である、デコーダ。
【請求項4】
前記識別されたDRCプロファイルのうちの一つを選択することが、深夜環境での再生のために適用可能な、前記DRCプロファイルのうちの一つを選択することを含む、請求項3に記載のデコーダ。
【請求項5】
命令のシーケンスを有する非一時的なコンピュータ可読記憶媒体であって、前記命令のシーケンスは、オーディオ信号処理装置によって実行されると、前記オーディオ信号処理装置に請求項1記載の方法を実行させるものである、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2014年10月1日に出願された米国仮特許出願第62/058,228号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
【0002】
技術分野
本稿はオーディオ信号の処理に関する。特に、本稿は、ダイナミックレンジ制御(DRC: Dynamic Range Control)プロファイルを帯域幅効率のよい仕方で伝送するための方法および対応するシステムに関する。
【背景技術】
【0003】
メディア消費装置の高まる人気は、そうした装置での再生のためのメディア・コンテンツのクリエーターおよび頒布者にとって、またそうした装置の設計者および製造業者にとって新たな機会と課題を作り出した。多くの消費者装置は幅広いメディア・コンテンツの型およびフォーマットを再生でき、中にはHDTV、ブルーレイまたはDVDのためのしばしば高品質、広帯域幅および広いダイナミックレンジのオーディオ・コンテンツに関連するものも含まれる。メディア処理装置は、この型のオーディオ・コンテンツを、自らの内部音響トランスデューサ上でまたはヘッドフォンもしくは高品質ホームシアター・システムのような外部トランスデューサ上で再生するために使用されうる。しかしながら、これらすべての再生システムおよび環境は、環境におけるさまざまなノイズ・レベルのため、または要求される音圧レベルを歪みなしに再生するための再生システムの限られた能力のため、オーディオ信号のダイナミックレンジに対して著しく異なる要求を課す。環境に依存してダイナミックレンジを制限することは、異なるレンダリング機能および聴取環境をもつ幅広い異なるレンダリング装置を横断して、すなわち幅広いレンダリング・モードを横断して、高い品質および了解性を提供するためのアプローチである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本稿は、メディア・コンテンツのクリエーターおよび頒布者の技術的課題に対し、異なるレンダリング機能をもつ幅広い異なるレンダリング装置で、高い品質および了解性でオーディオ信号の再生を可能にするための帯域幅効率のよい手段によって対処する。
【課題を解決するための手段】
【0005】
ある側面によれば、エンコードされたオーディオ信号を生成するための方法が記述される。エンコードされたオーディオ信号はフレームのシーケンスを有する。エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示す。本方法は、前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合を、フレームの前記シーケンスの異なるフレームに挿入して、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含むようにすることを含む。
【0006】
あるさらなる側面によれば、エンコードされたオーディオ信号をデコードする方法が記述される。エンコードされたオーディオ信号はフレームのシーケンスを有する。さらに、エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示す。前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合が、フレームの前記シーケンスの異なるフレーム内に含まれており、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含む。本方法は、前記複数の異なるレンダリング・モードから第一のレンダリング・モードを決定し、フレームの前記シーケンスの現在フレーム内に含まれているDRCプロファイルの部分集合から一つまたは複数のDRCプロファイルを決定することを含む。さらに、本方法は、前記一つまたは複数のDRCプロファイルのうちの少なくとも一つが前記第一のレンダリング・モードに適用可能であるかどうかを判定することを含む。さらに、本方法は、前記一つまたは複数のDRCプロファイルのうちのどれも前記第一のレンダリング・モードに適用可能でない場合、現在DRCプロファイルとして、デフォルトDRCプロファイルを選択することを含む。ここで、前記デフォルトDRCプロファイルの定義データは、前記エンコードされたオーディオ信号をデコードするためのデコーダにおいて既知である。さらに、本方法は、現在DRCプロファイルを使って現在フレームをデコードすることを含む。
【0007】
さらなる側面によれば、エンコードされたオーディオ信号を含むビットストリームが記述される。エンコードされたオーディオ信号はフレームのシーケンスを有する。エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示す。前記複数のDRCプロファイルからのDRCプロファイルの前記異なる部分集合は、フレームの前記シーケンスの異なるフレーム内に含まれており、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含む。
【0008】
もう一つの側面によれば、エンコードされたオーディオ信号を生成するためのエンコーダが記述される。エンコードされたオーディオ信号はフレームのシーケンスを有する。エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示す。エンコーダは、前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合を、フレームの前記シーケンスの異なるフレームに挿入するよう構成され、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含むようにする。
【0009】
あるさらなる側面によれば、エンコードされたオーディオ信号をデコードするデコーダが記述される。エンコードされたオーディオ信号はフレームのシーケンスを有する。エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示す。前記複数のDRCプロファイルからのDRCプロファイルの前記異なる部分集合が、フレームの前記シーケンスの異なるフレーム内に含まれており、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含む。本デコーダは、前記複数の異なるレンダリング・モードから第一のレンダリング・モードを決定し、フレームの前記シーケンスの現在フレーム内に含まれているDRCプロファイルの部分集合から一つまたは複数のDRCプロファイルを決定し、前記一つまたは複数のDRCプロファイルのうちの少なくとも一つが前記第一のレンダリング・モードに適用可能であるかどうかを判定し、前記一つまたは複数のDRCプロファイルのうちのどれも前記第一のレンダリング・モードに適用可能でない場合、現在DRCプロファイルとして、デフォルトDRCプロファイルを選択するよう構成されている。ここで、前記デフォルトDRCプロファイルの定義データは、前記デコーダにおいて既知である。本デコーダはさらに、前記現在DRCプロファイルを使って現在フレームをデコードするよう構成されている。
【0010】
あるさらなる側面によれば、ソフトウェア・プログラムが記述される。本ソフトウェア・プログラムは、プロセッサ上での実行のためおよびプロセッサ上で実行されたときに本稿で概説される方法段階を実行するために適応されていてもよい。
【0011】
もう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のためおよびプロセッサ上で実行されたときに本稿で概説される方法段階を実行するために適応されたソフトウェア・プログラムを有していてもよい。
【0012】
あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を有していてもよい。
【0013】
本特許出願において概説される好ましい実施形態を含む方法およびシステムが単独でまたは本稿に開示される他の方法およびシステムとの組み合わせにおいて使用されうることを注意しておくべきである。さらに、本特許出願において概説された方法およびシステムのすべての側面は任意に組み合わされてもよい。特に、請求項の特徴は、任意の仕方で互いに組み合わされてもよい。
【図面の簡単な説明】
【0014】
本発明は、付属の図面を参照して例示的な仕方で下記に説明される。
【
図1】例示的なオーディオ・デコーダを示す図である。
【
図2】例示的なオーディオ・エンコーダを示す図である。
【
図3】例示的なダイナミックレンジ圧縮曲線を示す図である。
【
図4】例示的なダイナミックレンジ圧縮曲線を示す図である。
【
図5】例示的なフレームのシーケンスを示す図である。
【
図6a】DRCプロファイルを選択するための例示的な方法のフローチャートの前半である。
【
図6b】DRCプロファイルを選択するための例示的な方法のフローチャートの後半である。
【発明を実施するための形態】
【0015】
上記のように、本稿は、オーディオ・コンテンツのデザイナーおよび/または頒布者が、種々の型のレンダリング・モードについてオーディオ・コンテンツの品質および了解性を制御できるようにするという技術的課題に対処する。例示的なレンダリング・モードは、ホームシアター・レンダリング・モードである。ここでは、オーディオ・コンテンツは、典型的には静穏な環境において非常に広いダイナミックレンジを許容するトランスデューサを使って再生される。別の例示的なレンダリング・モードはフラットパネル・モードである。ここでは、オーディオ・コンテンツは、典型的にはホームシアターに比べて縮小されたダイナミックレンジを許容する、たとえばTVセットのトランスデューサを使って再生される。さらなる例示的なレンダリング・モードはポータブル・スピーカー・モードである。ここでは、オーディオ・コンテンツは(スマートフォンのような)ポータブル電子装置のスピーカーを使って再生される。このレンダリング・モードのダイナミックレンジは典型的には、上述したレンダリング・モードに比べて小さく、しばしば環境はノイズが多い。もう一つの例示的なレンダリング・モードは、ポータブル・ヘッドフォン・モードである。ここでは、オーディオ・コンテンツはポータブル電子装置に関連するヘッドフォンを使って再生される。ダイナミックレンジは制限されているが、典型的にはポータブル電子装置のスピーカーによって提供されるダイナミックレンジよりは高い。
【0016】
種々のレンダリング・モードについて高い品質および高い了解性を許容するために、種々のレンダリング・モードについての種々のDRC(ダイナミックレンジ制御)プロファイルが、オーディオ・コンテンツとともに提供されてもよい。オーディオ・コンテンツはフレームのシーケンスにおいて伝送されてもよい。フレームのシーケンスは、先行するまたは後続のフレームとは独立してデコードされうるI(すなわち独立)フレームを含んでいてもよい。さらに、フレームのシーケンスは、典型的には先行および/または後続するフレームに関する依存性を示す他の型のフレーム(たとえばPおよび/またはBフレーム)を含んでいてもよい。フレームのシーケンスのうち少なくともいくつかのフレームは、複数の異なるレンダリング・モードについての複数の異なるDRCプロファイルを含んでいてもよい。特に、フレームのシーケンスのIフレームが前記複数のDRCプロファイルを含んでいてもよい。
【0017】
複数の異なるDRCプロファイルをオーディオ・フレームのシーケンス中に挿入することによって、オーディオ・デコーダは、特定のレンダリング・モードについての適切なDRCプロファイルを選択できるようになる。結果として、レダリングされるオーディオ信号が高い品質(特に、トランスデューサによって導入されるクリッピングや歪みなし)および高い了解性をもつことが保証されうる。
【0018】
以下では、ダイナミックレンジ制御のさまざまな側面が記述される。カスタマイズされたダイナミックレンジ制御なしでは、入力オーディオ情報(たとえばPCMサンプル、QMFマトリクスにおける時間‐周波数サンプルなど)はしばしば、再生装置において、その再生装置の特定の再生環境(すなわち、その装置の物理的および/または機械的な再生限界を含む)にとって適切でないラウドネス・レベルで再生される。再生装置の特定の再生環境は、エンコードされたオーディオ・コンテンツがエンコード装置において符号化された目標再生環境とは異なることがありうるからである。
【0019】
本稿に記載される技法は、オーディオ・コンテンツの知覚的品質を維持しつつ、かつコンテンツを種々の再生環境に適合させるアーチストの意図を維持しつつ、幅広い多様な再生環境の任意のものにカスタマイズされた幅広い多様なオーディオ・コンテンツのダイナミックレンジ制御をサポートするために使用できる。
【0020】
ダイナミックレンジ制御(DRC)は、オーディオ・コンテンツにおけるラウドネス・レベルの入力ダイナミックレンジを、入力ダイナミックレンジとは異なる出力ダイナミックレンジに変換するために信号を変更する(たとえば圧縮する、カットする、伸張する、ブーストするなど)時間変化する、レベル依存のオーディオ処理動作をいう。たとえば、あるダイナミックレンジ制御シナリオにおいて、小さな音がより高いラウドネス・レベルにマッピングされ(たとえばブーストなどされ)てもよく、大きな音がより低いラウドネス値にマッピングされ(たとえばカットなどされ)てもよい。結果として、ラウドネス領域では、ラウドネス・レベルの出力レンジは、この例では、ラウドネス・レベルの入力レンジより小さくなる。しかしながら、いくつかの実施形態では、もとのレンジが復元されうるよう、ダイナミックレンジ制御は可逆であってもよい。たとえば、もとのラウドネス・レベルからマッピングされた出力ダイナミックレンジにおけるマッピングされたラウドネス・レベルがクリッピング・レベル以下であり、それぞれ一意的なもとのラウドネス・レベルが一意的な出力ラウドネス・レベルにマッピングされているなどである限り、もとのレンジを復元するよう伸張動作が実行されうる。
【0021】
本稿に記載されるDRC技法は、ある種の再生環境または状況においてよりよい聴取経験を提供するために使用できる。たとえば、ノイズのある環境における小さな音は、該小さな音を聞こえなくするノイズによってマスクされることがありうる。逆に、たとえば隣人をわずらわせるようないくつかの状況においては(たとえば「深夜」聴取モード内では)大きな音が望まれないことがありうる。典型的には小さな形状因子のスピーカーをもつ多くの装置は、高い出力レベルで音を再生することができない、あるいは知覚できる歪みなしに音を再生することができない。いくつかの場合、より低い信号レベルは人間の聴覚閾値より下で再生されることがありうる。DRC技法は、ダイナミックレンジ圧縮曲線を用いて見出されたDRC利得(たとえば、オーディオ振幅をスケーリングする、比をブーストする、比をカットするなどのスケーリング因子)に基づいて、入力ラウドネス・レベルの出力ラウドネス・レベルへのマッピングを実行しうる。
【0022】
ダイナミックレンジ圧縮曲線とは、個々のオーディオ・データ・フレームから決定される(たとえばダイアログ以外の音などの)個々の入力ラウドネス・レベルを対応する出力ラウドネス・レベルに、よって結果として、該入力ラウドネス・レベルを該対応する出力ラウドネス・レベルに変換するためのダイナミックレンジ制御のための個々の利得(単数または複数)に、マッピングする関数(たとえばルックアップテーブル、曲線、複数セグメントの区分的直線)をいう。個々の利得のそれぞれは、対応する個々の入力ラウドネス・レベルを意図された出力ラウドネス・レベルにマッピングするよう信号に適用されるべき利得の量を示す。個々の利得を適用した後の出力ラウドネス・レベルは、特定の再生環境における個々のオーディオ・データ・フレームにおけるオーディオ・コンテンツについての目標ラウドネス・レベルを表わす。
【0023】
利得とラウドネス・レベルとの間のマッピングを指定することに加えて、ダイナミックレンジ圧縮曲線は、特定の利得を適用することにおける特定のリリース時間およびアタック時間を含んでいてもよく、あるいはそれらを提供されてもよい。アタックとは、相続く時間サンプルの間での信号エネルギー(またはラウドネス)の増大をいう。一方、リリースとは、相続く時間サンプルの間でのエネルギー(またはラウドネス)の減少をいう。アタック時間(たとえば10ミリ秒、20ミリ秒など)とは、対応する信号がアタック・モードにあるときにDRC利得を平滑化することにおいて使われる時定数をいう。リリース時間(たとえば80ミリ秒、100ミリ秒など)とは、対応する信号がリリース・モードにあるときにDRC利得を平滑化することにおいて使われる時定数をいう。いくつかの実施形態では、追加的、任意的または代替的に、これらの時定数は、DRC利得を決定するのに先立って信号エネルギー(またはラウドネス)の平滑化のために使われる。
【0024】
異なるダイナミックレンジ圧縮曲線が異なる再生環境に(すなわち異なるレンダリング・モードに)対応することがありうる。たとえば、フラットパネルTVの再生環境のためのダイナミックレンジ圧縮曲線は、ポータブル装置の再生環境のためのダイナミックレンジ圧縮曲線とは異なっていてもよい。たとえば、スピーカーをもつポータブル装置の第一の再生環境のための第一のダイナミックレンジ圧縮曲線は、ヘッドセットをもつ同じポータブル装置の第二の再生環境のための第二のダイナミックレンジ圧縮曲線とは異なっていてもよい。
【0025】
図1は、オーディオ・デコーダ100の例示的コンポーネントのブロック図を示している。オーディオ・デコーダ100は、データ抽出器104、ダイナミックレンジ・コントローラ106およびオーディオ・レンダラー108を有する。データ抽出器104はエンコードされた入力信号102を受領するよう構成される。本稿に記載されるエンコードされた入力信号102は、エンコードされた(たとえば圧縮された)入力オーディオ・データ・フレーム(特にオーディオ・フレームのシーケンス)および可能性としてはメタデータを含むビットストリームであってもよい。ビットストリームはAC-4ビットストリームであってもよい。データ抽出器104は、エンコードされた入力信号102から、入力オーディオ・データ・フレームおよびメタデータを抽出/デコードするよう構成されている。入力オーディオ・データ・フレームのそれぞれは、それぞれが複数のオーディオ・サンプルを表わす複数の符号化されたオーディオ・データ・ブロックを有する。各フレームは、ある数のオーディオ・サンプルを含む(たとえば一定の)時間区間を表わす。フレーム・サイズはサンプル・レートおよび符号化されたデータ・レートとともに変わりうる。オーディオ・サンプルは、一つ、二つまたはそれ以上の(オーディオ)周波数帯域または周波数範囲においてスペクトル内容を表わす量子化されたオーディオ・データ要素(たとえば、入力PCMサンプル、QMFマトリクスにおける入力時間‐周波数サンプルなど)である。入力オーディオ・データ・フレーム内の量子化されたオーディオ・データ要素は、デジタル(量子化)領域における音圧波を表わしうる。量子化されたオーディオ・データ要素は、可能な最大値(たとえばクリッピング・レベル、最大ラウドネス・レベルなど)以下のラウドネス・レベルの有限な範囲をカバーしてもよい。
【0026】
メタデータは、入力オーディオ・データ・フレームを処理するために、オーディオ・デコーダ100によって使用されることができる。メタデータは、デコーダ100によって実行されるべき一つまたは複数の動作に関係する多様な動作パラメータ、一つまたは複数のダイナミックレンジ圧縮曲線(すなわち一つまたは複数のDRCプロファイル)、入力オーディオ・データ・フレームにおいて表わされているダイアログ・ラウドネス・レベルに関係する正規化パラメータなどを含んでいてもよい。ダイアログ・ラウドネス・レベルとは、プログラム(たとえば映画、テレビ番組、ラジオ放送など)全体、プログラムの一部、プログラムのダイアログなどにおける、ダイアログ・ラウドネス、プログラム・ラウドネス、平均ダイアログ・ラウドネスなどの(たとえば音響心理学的、知覚的などの)レベルを指しうる。
【0027】
デコーダ100またはそのモジュール(たとえばデータ抽出器104、ダイナミックレンジ・コントローラ106など)の一部または全部の動作および機能は、エンコードされた入力信号102から抽出されたメタデータに応答して適応されてもよい。たとえば、メタデータ――ダイナミックレンジ圧縮曲線、ダイアログ・ラウドネス・レベルなどを含むがそれに限定されない――がデコーダ100によってデジタル領域の出力オーディオ・データ要素(たとえば出力PCMサンプル、QMFマトリクスにおける出力時間‐周波数サンプルなど)を生成するために使用されてもよい。次いで、出力データ要素は、特定の再生環境における再生中の指定されたラウドネスまたは参照再生レベルを達成するためにオーディオ・チャネルまたはスピーカーを駆動するために使われることができる。
【0028】
ダイナミックレンジ・コントローラ106は、入力オーディオ・データ・フレーム中のオーディオ・データ要素およびメタデータの一部または全部を受領し、少なくとも部分的にはエンコードされたオーディオ信号102から抽出されたメタデータに基づいて、入力オーディオ・データ・フレーム中のオーディオ・データ要素に対してオーディオ処理動作(たとえば、ダイナミックレンジ制御動作、利得平滑化動作、利得制限動作など)を実行するなどするよう構成されていてもよい。
【0029】
特に、ダイナミックレンジ・コントローラ106は、選択器110、ラウドネス計算器112、DRC利得ユニット114を有していてもよい。選択器110は、デコーダ100における特定の再生環境に関係するスピーカー構成(たとえば、ホームシアター・モード、フラットパネル・モード、スピーカーと一緒のポータブル装置モード、ヘッドフォンと一緒のポータブル装置モード、5.1スピーカー構成モード、7.1スピーカー構成モードなど)を決定するよう構成されていてもよい。さらに、選択器110は、エンコードされた入力信号102のメタデータから抽出された諸ダイナミックレンジ圧縮曲線から(すなわち前記複数のDRCプロファイルから)特定のダイナミックレンジ圧縮曲線(すなわち、あるDRCプロファイル)を選択するよう構成されていてもよい。
【0030】
ラウドネス計算器112は、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる一つまたは複数の型のラウドネス・レベルを計算するよう構成されていてもよい。ラウドネス・レベルの型の例は、これだけに限られるものではないが、個々の時間区間にわたる個々のチャネルにおける個々の周波数帯域にわたる個別ラウドネス・レベル、個々のチャネルにおける広い(または幅広い)周波数範囲にわたるブロードバンド(または広帯域)ラウドネス・レベル、あるオーディオ・データ・ブロックまたはフレームから決定されるまたはあるオーディオ・データ・ブロックまたはフレームにわたって平滑化されるラウドネス・レベル、二つ以上のオーディオ・データ・ブロックまたはフレームから決定されるまたは二つ以上のオーディオ・データ・ブロックまたはフレームにわたって平滑化されるラウドネス・レベル、一つまたは複数の時間区間にわたって平滑化されるラウドネス・レベルなどの任意のものを含む。これらのラウドネス・レベルの0個、一つまたは複数がデコーダ100によってダイナミックレンジ制御のために変更されてもよい。
【0031】
ラウドネス・レベルを決定するために、ラウドネス計算器112は、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる、特定のオーディオ周波数における空間的および/または局所的圧力レベルなどのような一つまたは複数の時間依存の物理的音波属性を決定することができる。ラウドネス計算器112は、人間のラウドネス知覚をモデル化する一つまたは複数の音響心理学的関数に基づいて一つまたは複数の型のラウドネス・レベルを導出するために、前記一つまたは複数の時間変化する物理的波属性を使うことができる。音響心理学的関数は、特定のオーディオ周波数における特定の空間的圧力レベルを該特定のオーディオ周波数についての特定的ラウドネスに変換/マッピングする非線形関数――人間の聴覚系のモデルに基づいて構築される――であってもよい。
【0032】
複数の(オーディオ)周波数または複数の周波数帯域にわたる(たとえばブロードバンド、広帯域などの)ラウドネス・レベルは、複数の(オーディオ)周波数または複数の周波数帯域にわたる特定的ラウドネス・レベルの積分を通じて導出されてもよい。一つまたは複数の時間区間(たとえば、オーディオ・データ・ブロックまたはフレーム中のオーディオ・データ要素によって表わされるよりも長いなど)にわたる時間平均、平滑化などされたラウドネス・レベルは、デコーダ100におけるオーディオ処理動作の一部として実装される一つまたは複数の平滑化フィルタを使って得られてもよい。(ブロードバンド)ラウドネス・レベルを決定するためのもう一つの例示的方法は、ITU-R BS.1770において指定されている。ITU-R BS.1770において指定されている方法は、時間領域の入力オーディオ信号に対して時間領域フィルタリングを適用し、次いで、入力オーディオ信号の各チャネルでRMS(二乗平均平方根)レベルを計算し、その後、結果として得られるラウドネス・レベルを諸チャネルにわたって積分し、ゲーティングする。
【0033】
異なる周波数帯域についての諸特定的ラウドネス・レベルは、ある(たとえば256個などの)サンプルのオーディオ・データ・ブロック毎に計算されてもよい。諸特定的ラウドネス・レベルを積分してブロードバンド(または広帯域)ラウドネス・レベルにすることにおいて諸特定的ラウドネス・レベルに周波数重み付け(たとえばIEC B重み付けと同様のものなど)を適用するために前置フィルタが使われてもよい。二つ以上のチャネル(たとえば、左前方、右前方、中央、左サラウンド、右サラウンドなど)にわたる広いラウドネス・レベルの和が、該二つ以上のチャネルの全体的なラウドネス・レベルを提供するために実行されてもよい。
【0034】
全体的ラウドネス・レベルとは、あるスピーカー構成の単一のチャネル(たとえば中央など)におけるブロードバンド(広帯域)ラウドネス・レベルを指してもよい。全体的ラウドネス・レベルとは、複数のチャネルにおけるブロードバンド(または広帯域)ラウドネス・レベルを指してもよい。前記複数のチャネルは、あるスピーカー構成における(すなわち、あるレンダリング・モードについての)すべてのチャネルであってもよい。追加的、任意的または代替的に、前記複数のチャネルは、あるスピーカー構成におけるチャネルの部分集合(たとえば、左前方、右前方および低域効果(LFE)を含むチャネルの部分集合、左サラウンドおよび右サラウンドを含むチャネルの部分集合;中央を含むチャネルの部分集合など)を含んでいてもよい。
【0035】
(たとえばブロードバンド、広帯域、全体的、特定的などの)ラウドネス・レベルは、選択されたダイナミックレンジ圧縮曲線から対応する(たとえば静的な、平滑化前、制限前などの)DRC利得を見出すための入力として使われてもよい。DRC利得を見出すための入力として使われるラウドネス・レベルはまず、エンコードされたオーディオ信号102から抽出されたメタデータからのダイアログ・ラウドネス・レベルに関しておよび/またはレンダリング・モードの出力参照レベルに関して、調整または正規化されてもよい。ダイアログ・ラウドネス・レベル/出力参照レベルに関係した調整および正規化は、エンコードされたオーディオ信号102におけるオーディオ・コンテンツのある部分において表わされている特定的空間的圧力レベルが、エンコードされたオーディオ信号102におけるオーディオ・コンテンツの該部分の特定的ラウドネス・レベルに変換される前に、非ラウドネス領域(たとえばSPL領域など)において、エンコードされたオーディオ信号102内のオーディオ信号の該部分に対して実行されてもよい。
【0036】
DRC利得ユニット114は、DRCアルゴリズムをもって構成され、(たとえばダイナミックレンジ制御のため、利得制限のため、利得平滑化のためなどの)利得を生成し、該利得を、入力オーディオ・データ・フレーム中のオーディオ・データ要素によって表わされる一つまたは複数の型のラウドネス・レベルにおける一つまたは複数のラウドネス・レベルに適用して、その特定の再生環境のための目標ラウドネス・レベルを達成するよう構成されていてもよい。本稿に記載されるような利得(たとえばDRC利得など)の適用は、ラウドネス領域で生起してもよい。例として、利得はラウドネス計算(これは、ソーンまたは単にたとえば変換なしのダイアログ・ラウドネス・レベルについて補償されたSPLで表わされてもよい)に基づいて生成され、平滑化され、入力信号に直接適用されてもよい。本稿に記載されるような技法は、利得をラウドネス領域の信号に適用し、次いで該信号をラウドネス領域からもとの(線形)SPL領域に変換し、ラウドネス領域において該信号に該利得が適用された前および後の該信号を評価することによって、該信号に適用されるべき対応する利得を計算してもよい。すると、比(または対数dB表現で表わされるときは差)がその信号についての対応する利得を決定する。
【0037】
DRCアルゴリズムは複数のDRCパラメータと一緒に動作してもよい。DRCパラメータは、上流のエンコーダ150(たとえば
図2のコンテキストで記述される)によってすでに計算されて、エンコードされたオーディオ信号102中に埋め込まれており、デコーダ100によって、該エンコードされたオーディオ信号102中のメタデータから取得されることができるダイアログ・ラウドネス・レベルを含む。上流のエンコーダ150からのダイアログ・ラウドネス・レベルは、(たとえばプログラム毎の、フルスケール1kHz正弦波のエネルギーに対する、参照矩形波のエネルギーに対する、など)平均ダイアログ・ラウドネス・レベルを示す。エンコードされたオーディオ信号102から抽出されたダイアログ・ラウドネス・レベルは、プログラム間でのラウドネス・レベルの相違を減らすために使用されてもよい。参照ダイアログ・ラウドネス・レベルは、デコーダ100における同じ特定の再生環境における異なるプログラムの間で同じ値に設定されてもよい。プログラムの複数のオーディオ・データ・ブロックにわたって平均された出力ダイアログ・ラウドネス・レベル(または出力参照レベル)がそのプログラムについての(たとえば事前構成設定された、システム・デフォルトの、ユーザー構成設定可能な、プロファイル依存などの)参照ダイアログ・ラウドネス・レベルまで上げられる/下げられるよう、メタデータからのダイアログ・ラウドネス・レベルに基づいて、DRC利得ユニット114は、ダイアログ・ラウドネス関係利得を、プログラム中の各オーディオ・データ・ブロックに適用することができる。ダイアログ・ラウドネス・レベルは、DRCアルゴリズムを較正するために使用されてもよい。特に、DRCアルゴリズムのヌル帯域がダイアログ・ラウドネス・レベルに調整されてもよい。あるいはまた、所望される出力参照レベルに等しくなるようダイアログ・ラウドネス・レベルを変更するために利得が適用された信号にDRCアルゴリズムが適用されるときに、DRCアルゴリズムを較正するために所望される出力参照レベルが使われてもよい。ダイアログ・ラウドネス・レベルは、いわゆるdialnormパラメータに対応してもよい。これは、dialnormパラメータを決定するために発話ゲーティングが適用された場合である。いくつかの実施形態では、ダイアログ・ラウドネス・レベルは、発話ゲーティングを使うことによってではなくラウドネス・レベル閾値に基づくゲーティングによって決定されたdialnormパラメータに対応する。
【0038】
DRC利得は、選択されたダイナミックレンジ圧縮曲線に従ってソフトおよび/またはラウドな音における諸信号部分をブーストまたはカットすることによって、プログラム内のラウドネス・レベルの相違に対処するために使用されてもよい。これらのDRC利得の一つまたは複数は、対応するオーディオ・データ・ブロック、オーディオ・データ・フレームなどの一つまたは複数から決定される選択されたダイナミックレンジ圧縮曲線および(たとえばブロードバンド、広帯域、全体的、特定的などの)ラウドネス・レベルに基づいてDRCアルゴリズムによって計算/決定されてもよい。
【0039】
選択されたダイナミックレンジ圧縮曲線を検索することによって(たとえば静的な、平滑化前の、利得制限前の、などの)DRC利得を決定するために使われるラウドネス・レベルは、短い区間(たとえば約5.3ミリ秒など)上で計算されてもよい。人間の聴覚系の積分時間(たとえば約200ミリ秒など)はずっと長いことがありうる。選択されたダイナミックレンジ圧縮曲線から得られるDRC利得は、人間の聴覚系の長い積分時間を考慮に入れるため、ある時定数をもって平滑化されてもよい。ラウドネス・レベルにおける変化(増大または減少)の速いレートを実施するためには、短い時定数に対応する短い時間区間においてラウドネス・レベルの変化を引き起こすよう、短い時定数が使われてもよい。逆に、ラウドネス・レベルにおける変化(増大または減少)の遅いレートを実施するためには、長い時定数に対応する長い時間区間においてラウドネス・レベルを変化させるよう、長い時定数が使われてもよい。
【0040】
人間の聴覚系は、増大するラウドネス・レベルと減少するラウドネス・レベルに異なる積分時間をもって反応することがある。選択されたダイナミックレンジ圧縮曲線から検索される静的なDRC利得を平滑化するために、ラウドネス・レベルが増大しているのか減少しているのかに依存して異なる時定数が使われてもよい。たとえば、人間の聴覚系の特性に相応して、アタック(ラウドネス・レベルの増大)は相対的に短い時定数(たとえばアタック時間など)をもって平滑化され、一方、リリース(ラウドネス・レベルの減少)は相対的に長い時定数(たとえばリリース時間など)をもって平滑化される。
【0041】
オーディオ・コンテンツの一部(たとえば、オーディオ・データ・ブロック、オーディオ・データ・フレームなどの一つまたは複数)についてのDRC利得は、オーディオ・コンテンツの前記一部から決定されるラウドネス・レベルを使って計算されてもよい。選択されたダイナミックレンジ圧縮曲線における検索のために使われるべきラウドネス・レベルは、まず、エンコードされたオーディオ信号102から抽出されたメタデータにおける(たとえばそのオーディオ・コンテンツが一部をなすプログラムなどの)ダイアログ・ラウドネス・レベルに関して(たとえばそれとの関係で、など)調整されてもよい。
【0042】
参照ダイアログ・ラウドネス・レベル/出力参照レベル(たとえば、「ライン」モードでは-31dBFS、「RF」モードでは-20dBFSなど)は、デコーダ100における特定の再生環境のために指定または確立されてもよい。追加的、代替的または任意的に、いくつかの実施形態では、ユーザーは、デコーダ100における参照ダイアログ・ラウドネス・レベルを設定または変更することに対して制御を与えられてもよい。
【0043】
DRC利得ユニット114は、入力ダイアログ・ラウドネス・レベルから、出力ダイアログ・ラウドネス・レベルとしての参照ダイアログ・ラウドネス・レベルへの変化を引き起こすよう、オーディオ・コンテンツに対するダイアログ・ラウドネス関係利得を決定するよう構成されてもよい。
【0044】
オーディオ・レンダラー108は、DRC、利得制限、利得平滑化などに基づいて決定された利得を、エンコードされたオーディオ信号102から抽出された入力オーディオ・データに適用した後、その特定のスピーカー構成についての(たとえばマルチチャネルなどの)チャネル固有のオーディオ・データ116を生成するよう構成されていてもよい。チャネル固有のオーディオ・データ116は、当該スピーカー構成において表わされているスピーカー、ヘッドフォンなどを駆動するために使われてもよい。
【0045】
追加的および/または任意的に、デコーダ100は、入力オーディオ・データに関係する処理、レンダリング、ダウンミックス、再サンプリングなどに関係する、一つまたは複数の他の動作を実行するよう構成されることができる。
【0046】
本稿に記載される技法は、多様な異なるサラウンドサウンド構成に対応する多様なスピーカー構成(たとえば、2.0、3.0、4.0、4.1、4.1、5.1、6.1、7.1、7.2、10.2、10-60スピーカー構成、60+スピーカー構成、オブジェクト信号またはオブジェクト信号の組み合わせなど)および多様な異なるレンダリング環境構成(たとえば、映画館、公園、歌劇場、コンサートホール、バー、家庭、講堂など)と一緒に使用されることができる。
【0047】
図2は例示的なエンコーダ150を示している。エンコーダ150は、オーディオ・コンテンツ・インターフェース152、ダイアログ・ラウドネス解析器154、DRC参照貯蔵部156およびオーディオ信号エンコーダ158を有していてもよい。エンコーダ150は、放送システム、インターネット・ベースのコンテンツ・サーバー、無線経由(over-the-air)ネットワーク事業者システム、映画制作システムなどの一部であってもよい。
【0048】
オーディオ・コンテンツ・インターフェース152は、オーディオ・コンテンツ160およびオーディオ・コンテンツ制御入力162を受領し、少なくとも部分的にはオーディオ・コンテンツ160およびオーディオ・コンテンツ制御入力162の一部または全部に基づいて、エンコードされたオーディオ信号102を生成するよう構成されていてもよい。たとえば、オーディオ・コンテンツ・インターフェース152は、オーディオ・コンテンツ160およびオーディオ・コンテンツ制御入力162をコンテンツ・クリエーター、コンテンツ・プロバイダーなどから受領するために使われてもよい。
【0049】
オーディオ・コンテンツ160は、オーディオのみ、オーディオビジュアルなどを含む全体的なメディア・データの一部または全部をなしてもよい。オーディオ・コンテンツ160は、プログラムの諸部分、プログラム、いくつかのプログラム、一つまたは複数のコマーシャルなどのうちの一つまたは複数を含んでいてもよい。
【0050】
ダイアログ・ラウドネス解析器154は、オーディオ・コンテンツ152の一つまたは複数の部分(たとえば一つまたは複数のプログラム、一つまたは複数のコマーシャルなど)の一つまたは複数のダイアログ・ラウドネス・レベルを決定/確立するよう構成されていてもよい。オーディオ・コンテンツは、オーディオ・トラックの一つまたは複数の集合によって表わされてもよい。オーディオ・コンテンツのダイアログ・オーディオ・コンテンツは、別個のオーディオ・トラックにあってもよく、および/またはオーディオ・コンテンツのダイアログ・オーディオ・コンテンツの少なくとも一部は、非ダイアログ・オーディオ・コンテンツを含むオーディオ・トラックにあってもよい。
【0051】
オーディオ・コンテンツ制御入力162は、ユーザー制御入力、エンコーダ150にとって外部のシステム/装置によって提供される制御入力、コンテンツ・クリエーターからの制御入力、コンテンツ・プロバイダーからの制御入力などの一部または全部を含んでいてもよい。たとえば、ミキシング・エンジニアなどのようなユーザーが、一つまたは複数のダイナミックレンジ圧縮曲線識別子を提供/指定することができる。それらの識別子は、DRC参照貯蔵部(156)などのようなデータ貯蔵部からオーディオ・コンテンツ160に最もよく当てはまる一つまたは複数のダイナミックレンジ圧縮曲線を取り出すために使われてもよい。
【0052】
DRC参照貯蔵部156は、DRC参照パラメータ集合などを記憶するよう構成されていてもよい。それらのDRC参照パラメータ集合は、一つまたは複数のダイナミックレンジ圧縮曲線などについての定義データを含んでいてもよい。エンコーダ150は、(たとえば同時並行して)二つ以上のダイナミックレンジ圧縮曲線をエンコードされたオーディオ信号102中にエンコードしてもよい。それらのダイナミックレンジ圧縮曲線のうちの0個、一つまたは複数は標準ベースのもの、独自のもの、カスタマイズされたもの、デコーダで修正可能なものなどであってもよい。例として、
図3および
図4のダイナミックレンジ圧縮曲線が、エンコードされたオーディオ信号102中に(たとえば同時並行して)エンコードされてもよい。
【0053】
オーディオ信号エンコーダ158は、オーディオ・コンテンツ・インターフェース152からのオーディオ・コンテンツ、ダイアログ・ラウドネス解析器154からのダイアログ・ラウドネス・レベルを受領し、DRC参照貯蔵部156から一つまたは複数のDRC参照パラメータ集合(すなわち、DRCプロファイル)を取り出し、オーディオ・コンテンツをオーディオ・データ・ブロック/フレームにフォーマットし、ダイアログ・ラウドネス・レベル、DRC参照パラメータ集合などをメタデータ(たとえば、メタデータ・コンテナ、メタデータ・フィールド、メタデータ構造など)にフォーマットし、オーディオ・データ・ブロック/フレームおよびメタデータを、エンコードされたオーディオ信号102にエンコードするよう構成されていてもよい
本稿に記載されるようにエンコードされたオーディオ信号中にエンコードされるべきオーディオ・コンテンツは、無線で、有線接続を介して、ファイルを通じて、インターネット・ダウンロードを介してなどの多様な方法の一つまたは複数で多様な源オーディオ・フォーマットの一つまたは複数において受領されうる。
【0054】
本稿に記載されるエンコードされたオーディオ信号102は、(たとえばオーディオ放送、オーディオ・プログラム、オーディオビジュアル・プログラム、オーディオビジュアル放送などのための)全体的なメディア・データ・ビットストリームの一部であることができる。メディア・データ・ビットストリームは、サーバー、コンピュータ、メディア記憶装置、メディア・データベース、メディア・ファイルなどからアクセスされることができる。メディア・データ・ビットストリームは、一つまたは複数の無線または有線のネットワーク・リンクを通じて放送、送信または受信されてもよい。メディア・データ・ビットストリームは、ネットワーク接続、USB接続、広域ネットワーク、ローカル・エリア・ネットワーク、無線接続、光学式接続、バス、クロスバー接続、シリアル接続などの一つまたは複数のような媒介部を通じて通信されてもよい。
【0055】
(たとえば
図1、
図2に)描かれているコンポーネントの任意のものは、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、一つまたは複数のプロセスおよび/または一つまたは複数のIC回路(たとえばASIC、FPGAなど)として実装されてもよい。
【0056】
図3および
図4は、入力ラウドネス・レベルからDRC利得を導出するためにデコーダ100中のDRC利得ユニット104によって使用されることのできる例示的なダイナミックレンジ圧縮曲線を示している。図のように、ダイナミックレンジ圧縮曲線は、特定の再生環境のために適切な全体的な利得を提供するために、プログラムにおける参照ラウドネス・レベル(たとえば出力参照レベル)を中心としていてもよい。ダイナミックレンジ圧縮曲線の例示的な定義データ(たとえば、エンコードされたオーディオ信号102のメタデータ内など)(たとえば、これだけに限られないが、ブースト比、カット比、アタック時間、リリース時間などを含む)が下記の表に示される。異なるプロファイル(たとえば、フィルム・スタンダード(film standard)、フィルム・ライト(film light)、音楽スタンダード(music standard)、音楽ライト(music light)、発話(speech)など)が(たとえばデコーダ100における)異なる再生環境を表わす。
【0057】
【表1】
dB
SPLまたはdB
FSで表わされたラウドネス・レベルおよびdB
SPLに関するdBで表わされた利得を用いて記述される一つまたは複数の圧縮曲線が受領されてもよい。一方、DRC利得計算は、dB
SPLラウドネス・レベルと非線形関係をもつ異なるラウドネス表現(たとえばソーン)で実行される。その際、DRC利得計算において使われる圧縮曲線は、該異なるラウドネス表現(たとえばソーン)を用いて記述されるよう変換されてもよい。
【0058】
図5は、(nは整数であるとしてn+1からn+30まで番号付けられた)フレームのシーケンスを含む例示的なエンコードされたオーディオ信号102を示している。図示した例では、5番目毎のフレームがIフレームである。図示した例では、Iフレーム(n+1)は複数のDRCプロファイル(ホームシアター用AVR(オーディオ/ビデオ・レシーバー)、フラットパネル、ポータブルHP(ヘッドフォン)およびポータブルSP(スピーカー)として同定されている)を有する。各DRCプロファイルは
図3および
図4に示されるようなダイナミックレンジ圧縮曲線を有する。
【0059】
前記複数のDRCプロファイルは、フレームのシーケンスのIフレーム内に繰り返し挿入されうる。このことは、デコーダ100が、エンコードされたオーディオ信号102について、および現在のレンダリング・モードについて適切なDRCプロファイルを、デコードされたオーディオ信号102のスタートアップ時、放送中のオーディオ・プログラムへのチューンイン時および/または接合点後に、決定できるようにする。他方、DRCプロファイルの完全な集合の反復的な伝送は比較的高いビットストリーム・オーバーヘッドにつながる。これに鑑み、エンコードされたオーディオ信号102のIフレーム内においてDRCプロファイルの変化する部分集合を伝送することが提案される。
【0060】
図5は、フレームのシーケンス内でDRCプロファイルを挿入するための例を示している。図示した例では、DRCプロファイルの完全な集合からの単一のDRCプロファイルのみがIフレームに挿入されている。Iフレームに挿入されるDRCプロファイルはIフレームごとに変わり、その結果、N個のIフレーム(図示した例ではN=4)後には、デコーダ100はN個のDRCプロファイルの完全な集合を受領したことになる。こうすることにより、デコーダ100が合理的な時間内にDRCプロファイルの完全な集合を受領することを保証しつつ、DRCプロファイルの完全な集合を伝送するためのデータ・レートが削減できる。
【0061】
図6aおよび6bは、エンコードされたオーディオ信号102のフレームをデコードするためのDRCプロファイルを決定する例示的方法600のフローチャートを示している。方法600はデコーダ100(特に選択器110)によって実行されてもよい。エンコードされたオーディオ信号102の受領開始に際して、デコーダ100によって使用されるDRCプロファイルが初期化されてもよい。エンコードされたオーディオ信号102の現在フレームをデコードするために使われるDRCプロファイルは、現在DRCプロファイルと称されてもよい。よって、スタートアップ時には、現在DRCプロファイルは初期化されてもよい。特に、(デコーダ100において利用可能な)デフォルトDRCプロファイルが、現在フレームをレンダリングするために使用される現在DRCプロファイルであるよう設定されてもよい(方法段階601)。よって、変数「profile」がデフォルトDRCプロファイルに設定されてもよい(profile=デフォルトDRCプロファイル)。さらに、デコーダ100は、以前に使われたプロファイルを追跡してもよい。以前に使われたプロファイルは未定義に設定されてもよい(prev_profile=undefined)。
【0062】
方法600はさらに、エンコードされたオーディオ信号102からデコードされるべき新たなフレーム(すなわち現在フレーム)を取ってくる段階602を含んでいてもよい。段階603では、該新たなフレームが、DRCプロファイルを含みうるIフレームであるかどうか検証される。該新たなフレームがIフレームでなければ、方法600は段階604に進んで、現在DRCプロファイルを使って該新たなフレームを処理する。さらに、方法段階605において、以前に使われたプロファイルが現在DRCプロファイルに設定される(prev_profile=profile)。
【0063】
新たなフレームがIフレームであれば、方法段階606で、該IフレームがDRCデータを含むかどうかが検査されてもよい。例として、Iフレームのメタデータは、該IフレームがDRCデータを含むかどうかを示すフラグを含んでいてもよい。DRCデータが存在しない場合には、方法300は段階604、605に進んでもよい。それ以外の場合には、方法は方法段階607に進んでもよい。
【0064】
方法段階607では、新たなフレームが、デコードされるべきエンコードされたオーディオ信号102の最初のフレームであるかどうかが検証されてもよい。
図6aおよび6bのフローチャートから見て取れるように、これは、prev_profile〔以前のプロファイル〕変数を検査することによって検証されうる。prev_profile変数が未定義であれば、その新たなフレームはデコードされるべき最初のフレームである。その新たなフレームがデコードされるべき最初のフレームである場合、デコーダ100はデフォルトDRCプロファイル以外のあらかじめ定義されたDRCプロファイルを使ってもよい。この目的のために、新たなフレームのメタデータはそのようなあらかじめ定義されたDRCプロファイルについての識別子(ID)を含んでいてもよい。そのようなあらかじめ定義されたDRCプロファイルは、デコーダ100においてデータベース内に記憶されていてもよい。あらかじめ定義されたDRCプロファイルの使用は、使用されるべきDRCプロファイルをデコーダ100に信号伝達するためのビットレート効率のよい手段を提供しうる。あらかじめ定義されたプロファイルのIDだけが伝送される必要があるからである(方法段階608)。IDを使って信号伝達されるあらかじめ定義された諸DRCプロファイルは、黙示的DRCプロファイルと称されてもよい。
【0065】
いくつかの場合には、デフォルトDRCプロファイル以外の単一のあらかじめ定義されたDRCプロファイルを使うだけであることが有益であることがある。そのような場合、デコーダ100は、新たなフレームのメタデータ内でいかなるIDを受領することもなく、プロファイル変数をそのあらかじめ定義された(すなわち黙示的な)DRCプロファイルに設定するよう構成されていてもよい。
【0066】
方法600はさらに、新たなフレームのメタデータが一つまたは複数の明示的なDRCプロファイルを含むかどうかを検証することを含んでいてもよい(段階609)。明示的なDRCプロファイルは、該明示的なDRCプロファイルを同定するためのIDを含む。さらに、明示的なDRCプロファイルは典型的には、
図3および
図4に示されるようなダイナミックレンジ圧縮曲線についての定義データを含む。ダイナミックレンジ圧縮曲線は区分線形関数として定義されてもよい。さらに、明示的なDRCプロファイルは、該明示的なDRCプロファイルが適用可能な出力参照レベル(ORL: output reference level)の範囲を示してもよい。例として、デフォルトDRCプロファイルおよび/または前記あらかじめ定義された(黙示的)DRCプロファイルは、-31dB FSから0dB FSまでの範囲の出力参照レベルについて適用可能であってもよい。
【0067】
レンダリング装置のORLは、レンダリング装置のダイナミックレンジ機能を示してもよい。典型的には、ダイナミックレンジ機能はORLが増すとともに減少する。高いORLの場合、クリッピングなしに了解可能な仕方でオーディオ信号をレンダリングするためには、高い度合いの圧縮をもつ圧縮曲線が使われるべきである。他方、低いORLの場合、高いダイナミックレンジをもってオーディオ信号をレンダリングするために圧縮は低減されてもよい。レンダリング装置の高いダイナミックレンジ機能のため、それでもオーディオ信号の了解性は保証される。
【0068】
新たなフレームのメタデータが少なくとも一つの明示的なDRCプロファイルを含む場合、第一のDRCプロファイルのプロファイル・データが読まれる(段階610)。さらに、第一のDRCプロファイルのORLの範囲が、現在使われているレンダリング装置に適用可能であるかどうかが検証される(段階611)。そうでない場合には、方法600は、該新たなフレームのメタデータ内で別の明示的なDRCプロファイルを探すことに進む。他方、ある明示的なDRCプロファイルが当該レンダリング装置に適用可能であれば、この明示的なDRCプロファイルが、該新たなフレームを処理するために使われるべき現在DRCプロファイルに設定されてもよい(段階614)。
【0069】
方法600はさらに、ヘッドフォン・レンダリング・モードが使われるかどうかおよび明示的なDRCプロファイルがヘッドフォン・レンダリング・モードに適用可能かどうかを検証することを含んでいてもよい(段階612)。さらに、方法600は、明示的なDRCプロファイルが、以前に使用されたプロファイルに比べて、更新されたプロファイルであるかどうかを検証することを含んでいてもよい(段階613)。この目的のために、明示的なDRCプロファイルのIDが、現在使われているプロファイルのIDと比較されてもよい。こうすることにより、デコーダ100が常に、最新の現在DRCプロファイルを使うことが保証できる。
【0070】
方法600を使って、たとえデータがまだ現在のレンダリング・モードについての(すなわち現在のレンダリング装置についての)DRCプロファイルを受領していない場合でも、デコーダ100が常に、エンコードされたオーディオ信号102のフレームをレンダリングするためのDRCプロファイルを識別することが保証されうる。さらに、現在のレンダリング・モードについてのDRCプロファイルが、デコーダ100が対応するDRCプロファイルを受領するとすぐに適用されることが保証される。
【0071】
よって、エンコードされたオーディオ信号102をデコードする方法600が記述される。エンコードされたオーディオ信号102はフレームのシーケンスを有する。さらに、エンコードされたオーディオ信号102は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示す。異なるレンダリング・モード(または異なる再生環境)についての例は、ホームシアター・レンダリング・モードにおいて使うための第一のDRCプロファイル;フラットパネル・レンダリング・モードにおいて使うための第二のDRCプロファイル;ポータブル装置スピーカー・レンダリング・モードにおいて使うための第三のDRCプロファイル;および/またはヘッドフォン・レンダリング・モードにおいて使うための第四のDRCプロファイルである。DRCプロファイルは特定のDRC挙動を定義する。DRC挙動は、圧縮曲線(および時定数)によっておよび/またはDRC利得によって記述されてもよい。諸DRC利得は、DRCを配備するために前記エンコードされたオーディオ信号102に適用されうる時間的に等距離の利得であってもよい。圧縮曲線は、一緒になってDRCアルゴリズムを構成する諸時定数が伴っていてもよい。DRCは典型的には、大きな音のボリュームを低減し、静かな音を増幅し、それにより、理想的でない再生環境における改善された経験のためにオーディオ信号のダイナミックレンジを圧縮する。
【0072】
フレームのシーケンスは典型的には、オーディオ信号をなす複数の相続くフレームを含む。オーディオ・プログラム(たとえば放送されるテレビまたはラジオ・プログラム)は、接合点において連結されている複数のオーディオ信号を含んでいてもよい。例として、メインのオーディオ・プログラムが、コマーシャル休みによって繰り返し中断されることがある。フレームのシーケンスは完全なオーディオ・プログラムに対応してもよい。あるいはまた、フレームのシーケンスは、完全なオーディオ・プログラムをなす前記複数のオーディオ信号のうちの一つに対応していてもよい。
【0073】
前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合が、フレームのシーケンスの異なるフレーム内に含まれてもよい。それにより、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含む。上記のように、フレームのシーケンスの複数のフレームにまたがってのDRCプロファイルの配送は、前記複数のDRCプロファイルを信号伝達するためのビットストリーム・オーバーヘッドの削減につながる。
【0074】
方法600は、前記複数の異なるレンダリング・モードから第一のレンダリング・モードを決定することを含んでいてもよい。特に、エンコードされたオーディオ信号102をレンダリングするためにどのレンダリング・モードが使われるかが判別されてもよい。さらに、方法600は、フレームの前記シーケンスの現在フレーム内に含まれている前記複数のDRCプロファイルからの一つまたは複数のDRCプロファイルを決定する609、610ことを含んでいてもよい。換言すれば、現在フレーム内に含まれているDRCプロファイルの部分集合からの一つまたは複数のDRCプロファイルが決定されてもよい。さらに、前記一つまたは複数のDRCプロファイルのうちの少なくとも一つが前記第一のレンダリング・モードに適用可能であるかどうかが判定されてもよい611。前記一つまたは複数のDRCプロファイルのうちの少なくとも一つが前記第一のレンダリング・モードに適用可能であるかどうかの判定611は、前記第一のレンダリング・モードについての第一の出力参照レベルを判別し、前記一つまたは複数のDRCプロファイルからのDRCプロファイルが適用可能な出力参照レベルの範囲を決定し、前記第一の出力参照レベルが出力参照レベルの該範囲内にはいるかどうかを判定することを含んでいてもよい。
【0075】
方法600はさらに、前記一つまたは複数のDRCプロファイルのうちのどれも前記第一のレンダリング・モードに適用可能でない場合、現在DRCプロファイルとして、デフォルトDRCプロファイルを選択すること604を含んでいてもよい。前記デフォルトDRCプロファイルの定義データは、典型的には、前記エンコードされたオーディオ信号102をデコードするためのデコーダにおいて既知である。さらに、方法600は、前記現在DRCプロファイルを使って現在フレームをデコードする(および/またはレンダリングする)ことを含んでいてもよい。よって、たとえデコーダ100がエンコードされたオーディオ信号102に固有のDRCプロファイルをまだ受領していなかったとしても、デコーダ100がDRCプロファイル(およびダイナミックレンジ圧縮曲線)を利用することが保証されうる。
【0076】
代替的または追加的に、方法600は、前記一つまたは複数のDRCプロファイルからの第一のDRCプロファイルを、該第一のDRCプロファイルが前記第一のレンダリング・モードに適用可能であると判定される場合に、現在DRCプロファイルとして選択する604ことを含んでいてもよい。この結果、デコーダ100は、デコーダ100が前記第一のDRCプロファイルを受領するとすぐに、エンコードされたオーディオ信号102についておよび前記第一のレンダリング・モードについて最適な第一のDRCプロファイルを使うよう構成される。
【0077】
方法600はさらに、フレームのシーケンスの現在フレームが、前記複数のDRCプロファイルからの一つまたは複数のDRCプロファイルを含むかどうか、すなわち現在フレームがDRCプロファイルの部分集合を含むかどうかを判定すること603、606を含んでいてもよい。
図5のコンテキストにおいて概説したように、DRCプロファイルの部分集合は典型的にはフレームのシーケンスのIフレーム内に含まれる。よって、現在フレームが、前記複数のDRCプロファイルからの一つまたは複数のDRCプロファイルを含むかどうか、あるいは現在フレームがDRCプロファイルの部分集合を含むかどうかを決定すること603、606は、現在フレームがIフレームであるかどうかを判定すること603を含んでいてもよい。上記のように、Iフレームは、フレームのシーケンスからの他のどのフレームとも独立してデコード可能なフレームであってもよい。これは、そのようなIフレームに含まれるデータが、以前のまたはその後のフレームからのデータに依存しない仕方で伝送されるという事実のためであってもよい。特に、Iフレーム内のデータは、以前のまたはその後のフレーム内に含まれるデータに対して差分符号化されていない。
【0078】
さらに、現在フレームが前記複数のDRCプロファイルからの一つまたは複数のDRCプロファイルを含むかどうか、あるいは現在フレームがDRCプロファイルの部分集合を含むかどうかを判定すること603、606は、現在フレーム内に含まれているDRCプロファイル・フラグを検証すること606を含んでいてもよい。エンコードされたオーディオ信号のビットストリーム内のDRCプロファイル・フラグは、DRCプロファイルを搬送するフレームを同定するための帯域幅効率および計算効率のよい手段を提供する。
【0079】
方法600はさらに、現在フレームが複数の黙示的DRCプロファイルからのある黙示的DRCプロファイルを示すかどうかを判定することを含んでいてもよい。黙示的DRCプロファイルは、E-AC-3にトランスコードするために使用されうるあらかじめ定義されたレガシー圧縮曲線および時定数を含んでいてもよい。上記のように、黙示的DRCプロファイルの定義データは、入力オーディオ信号102をデコードするためのデコーダ100において既知であってもよい。デフォルトDRCプロファイルとは対照的に、黙示的DRCプロファイルはオーディオ信号の(たとえば表1に示されるような)種々の型に固有であってもよい。フレームのシーケンスの現在フレームは、(たとえば識別子IDを使って)特定の黙示的DRCプロファイルを示してもよい。これは、エンコードされたオーディオ信号102について適切なDRCプロファイルを信号伝達するための帯域幅効率のよい手段を提供してもよい。黙示的DRCプロファイルは、現在フレームが黙示的DRCプロファイルプロファイルを示すと判定される場合には、現在DRCプロファイルとして選択されてもよい608。
【0080】
現在フレームのデコードは、フレームの前記シーケンスを、前記第一のレンダリング・モードの前記第一の出力参照レベルにレベリングする(leveling)ことを含んでいてもよい。さらに、現在フレームのデコードは、現在DRCプロファイル内で指定されているダイナミックレンジ圧縮曲線を使って現在フレームのラウドネス・レベルを適応させることを含んでいてもよい。ラウドネス・レベルの適応は、
図1のコンテキストにおいて概説したように実行されてもよい。
【0081】
フレームのシーケンスからのフレームの数に依存して、現在DRCプロファイルはデフォルトDRCプロファイル(これは典型的には入力オーディオ信号102とは独立である)、黙示的DRCプロファイル(これは制限された仕方で入力オーディオ信号102に適合されうる)または前記第一の明示的DRCプロファイル(これは入力オーディオ信号102および/または前記第一のレンダリング・モードのために設計されていてもよい)に対応してもよい。
【0082】
典型的には、フレームの部分集合のみがDRCプロファイルを含む。ひとたび現在DRCプロファイルが選択されたら、現在DRCプロファイルは、DRCプロファイルを全く含まないフレームの前記シーケンスのフレームをデコードするために維持されてもよい。さらに、たとえDRCプロファイルをもつフレームが受領されても、現在DRCプロファイルよりも新しいおよび/またはエンコードされたオーディオ信号102についてより高い関連性をもつDRCプロファイルが受領されない限り、現在DRCプロファイルが維持されてもよい(ここで、選択された第一の明示的なDRCプロファイルは選択された黙示的なDRCプロファイルよりも関連性が高く、選択された黙示的なDRCプロファイルはデフォルトDRCプロファイルよりも関連性が高い)。こうすることにより、使用されるDRCプロファイルの連続性および最適性が保証できる。
【0083】
エンコードされたオーディオ信号102をデコードするための方法600の相補として、エンコードされたオーディオ信号102を生成またはエンコードするための方法が記述される。エンコードされたオーディオ信号102はフレームのシーケンスを有する。さらに、エンコードされたオーディオ信号102は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示す。本方法は、前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合を、フレームの前記シーケンスの異なるフレームに挿入して、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含むようにすることを含む。換言すれば、DRCプロファイルの総数よりも少ないDRCプロファイルの諸部分集合が、フレームの前記シーケンスの種々のフレームと一緒に提供されてもよい。こうすることにより、DRCプロファイルの完全な集合を対応するデコーダ100に提供しつつ、エンコードされたオーディオ信号102のオーバーヘッドが低減されうる。換言すれば、この手法の利点は、エンコーダ150が、DRCデータをどのように伝送するかにおける増大した自由度をもつということである。この自由度はビットレートを低減するために使用できる。
【0084】
フレームのシーケンスはIフレームからなる部分シーケンスを含んでいてもよい(たとえばフレームの前記シーケンスのX番目毎のフレームがIフレームであってもよい)。DRCプロファイルの種々の部分集合は、Iフレームの部分シーケンスの種々の(たとえば相続く)Iフレームに挿入されてもよい。帯域幅をさらに低減するために、Iフレームがスキップされてもよい。すなわち、Iフレームの一部はDRCプロファイル・データを含まなくてもよい。
【0085】
DRCプロファイルの部分集合(たとえば各部分集合)は、単一のDRCプロファイルのみを含んでいてもよい。特に、前記複数のDRCプロファイルはN個のDRCプロファイルを含んでいてもよい。ここで、Nは整数で、N>1である。N個のDRCプロファイルは、フレームの前記シーケンスからのN個の異なるフレームに挿入されてもよい。こうすることにより、DRCプロファイルの伝送のために要求されるビットレートが最小化されうる。
【0086】
本方法はさらに、前記複数のDRCプロファイルの全部をフレームの前記シーケンスのある第一のフレーム中に(たとえば、オーディオ信号のフレームの前記シーケンスの最初のフレーム中に)挿入することを含んでいてもよい。この結果として、エンコードされたオーディオ信号102のレンダリングは、正しい明示的なDRCプロファイルを用いて直接開始されうる。上記のように、オーディオ・プログラムは複数の部分オーディオ・プログラムに分割されてもよい。たとえば、メインのオーディオ・プログラムがコマーシャル休止によって中断される。前記複数のDRCプロファイルの全部を各部分オーディオ・プログラムの最初のフレームに挿入することが有益でありうる。換言すれば、前記複数のDRCプロファイルの全部を、複数の部分オーディオ・プログラムを含むオーディオ・プログラムの前記一つまたは複数の接合点の直後に挿入することが有益でありうる。
【0087】
前記複数のDRCプロファイルからのDRCプロファイルの種々の部分集合は、フレームの前記シーケンスの異なるフレームに挿入されてもよい。それにより、フレームの前記シーケンスからのM個の直接連続する各部分シーケンスが合同して前記複数のDRCプロファイルを含む。ここで、Mは整数であり、M>1である。換言すれば、前記複数のDRCプロファイルは、Mフレームのブロック内において繰り返し伝送されてもよい。この結果として、デコーダ100は、エンコードされたオーディオ信号102について最適な明示的なDRCプロファイルを取得するまでに最大でMフレーム待つ必要がある。
【0088】
本方法はさらに、フレームの前記シーケンスのフレームにフラグを挿入することを含んでいてもよい。ここで、フラグは、そのフレームがDRCプロファイルを含むか否かを示す。そのようなフラグを提供することにより、対応するデコーダ100は、DRCプロファイル・データを含むフレームを効率的に識別することができる。
【0089】
前記複数のDRCプロファイルのDRCプロファイルは、ダイナミックレンジ圧縮曲線を定義するための定義データを含む(すなわち担持する)明示的なDRCプロファイルであってもよい。
【0090】
本稿で概説したように、ダイナミックレンジ圧縮曲線は、入力ラウドネスと出力ラウドネスとの間のマッピングおよび/またはオーディオ信号に適用されるべき利得を与える。特に、定義データは:入力ラウドネスをブーストするためのブースト利得;前記ブースト利得が適用可能な入力ラウドネスについての範囲を示すブースト利得範囲;0dBの利得が適用可能な入力ラウドネスの範囲を示すヌル帯域範囲;入力ラウドネスを減衰させるためのカット利得;前記カット利得が適用可能な入力ラウドネスの範囲を示すカット利得範囲;ヌル利得と前記ブースト利得との間の遷移を示すブースト利得比;および/または前記ヌル利得と前記カット利得との間の遷移を示すカット利得比、のうちの一つまたは複数を含んでいてもよい。
【0091】
本方法はさらに、黙示的DRCプロファイルの指示(たとえば識別子、ID)を挿入することを含んでいてもよい。ここで、黙示的DRCプロファイルの定義データは典型的には、エンコードされたオーディオ信号102のデコーダ100に知られている。黙示的なDRCプロファイルの指示は、エンコードされたオーディオ信号102に(限られた仕方で)適合したDRCプロファイルを信号伝達するための帯域幅効率のよい手段を提供しうる。
【0092】
上記で概説したように、フレームの前記シーケンスのフレームは典型的にはオーディオ・データおよびメタデータを含む。DRCプロファイルの部分集合が典型的にはメタデータとして挿入される。
【0093】
DRCプロファイルは、該DRCプロファイルが適用可能な出力参照レベルの範囲を定義する定義データを含んでいてもよい。出力参照レベルは典型的には、あるレンダリング・モードのダイナミックレンジを示す。特に、レンダリング・モードのダイナミックレンジは、出力参照レベルの増大とともに減少してもよく、逆も成り立つ。さらに、DRCプロファイルのダイナミックレンジ圧縮曲線の最大ブースト利得および最大カット利得は、出力参照レベルの増大とともに増大してもよく、逆も成り立つ。よって、出力参照レベルは、特定のレンダリング・モードについての(適切なダイナミックレンジ圧縮曲線をもつ)適切なDRCプロファイルを選択するための効率的な手段を提供する。
【0094】
本方法はさらに、エンコードされたオーディオ信号102を含むビットストリームを生成することを含んでいてもよい。ビットストリームはAC4ビットストリームであってもよい。すなわち、ビットストリームはAC4ビットストリーム・フォーマットに準拠していてもよい。
【0095】
本方法はさらに、エンコードされたオーディオ信号102についての明示的なDRC利得を、フレームの前記シーケンスのフレーム中に挿入することを含んでいてもよい。特に、フレームの前記シーケンスの特定のフレームに適用可能なDRC利得が該特定のフレームに挿入されてもよい。よって、フレームの前記シーケンスの各フレームは、それぞれのフレームに適用されるべき一つまたは複数の明示的なDRC利得を含むDRCデータ・コンポーネントを含んでいてもよい。特に、各フレームは、異なるレンダリング・モードについての異なる明示的なDRC利得を含んでいてもよい。この目的のために、異なるレンダリング・モードについてのDRCアルゴリズムがエンコーダ150内で適用されてもよく、異なるレンダリング・モードについての異なるDRC利得がエンコーダ150において決定されてもよい。次いで異なるDRC利得はフレームの前記シーケンス内に明示的に挿入されてもよい。この結果として、対応するデコーダ100は、ダイナミックレンジ圧縮曲線を使ってDRCアルゴリズムを実行することなく明示的なDRC利得を直接適用できる。
【0096】
よって、フレームのシーケンスは、複数の対応するレンダリング・モードについてのダイナミックレンジ圧縮曲線を信号伝達するために複数の明示的なDRCプロファイルを含んでいてもよく、あるいはそのようなDRCプロファイルを示してもよい。前記複数のDRCプロファイルはフレームのシーケンスのフレームの一部(全部ではない)(たとえばIフレーム)に挿入されてもよい。さらに、フレームのシーケンスは、対応する一つまたは複数のレンダリング・モードについての一つまたは複数のDRCプロファイルを含んでいてもよく、あるいはそのようなDRCプロファイルを示してもよい。ここで、前記一つまたは複数のDRCプロファイルは、一つまたは複数のレンダリング・モードについての明示的なDRC利得がフレームの前記シーケンスの諸フレームに挿入されていることを示す。例として、明示的なDRC利得を信号伝達するための前記一つまたは複数のDRCプロファイルは、フレームのシーケンスの諸フレームに明示的なDRC利得が含まれるかどうかを示すフラグを含んでいてもよい。前記DRC利得は、フレームのシーケンスの各フレーム中に挿入されてもよい。特に、各フレームは、そのフレームをデコードするために使われるべき前記一つまたは複数のDRC利得を含んでいてもよい。
【0097】
本方法は、明示的なDRC利得についてのDRCプロファイルをフレームの前記シーケンスからのフレームの部分集合に挿入することを含んでいてもよい。例として、それについてのDRC利得が伝送されているDRCプロファイルが、明示的な利得についてのDRC構成データを示していてもよい。特に、それについてのDRC利得が伝送されているDRCプロファイルは、DRCプロファイルの前記部分集合すべてに含まれていてもよい。DRC構成データ(たとえばフラグ)は、フレームの前記シーケンスが特定のレンダリング・モードについての明示的なDRC利得を含むことを示してもよい。こうすることにより、デコーダ100は、その特定のレンダリング・モードについて、明示的なDRC利得がフレームの前記シーケンスのフレームから直接導出されるという事実について知らされる。
【0098】
よって、本方法はさらに、ある特定のレンダリング・モードについて、エンコードされたオーディオ信号102について明示的なDRC利得を決定することを含んでいてもよい。さらに、本方法は、前記明示的なDRC利得を、フレームの前記シーケンスのフレーム中に挿入することを含んでいてもよい。明示的なDRC利得は、該明示的なDRC利得が適用可能なフレームの前記シーケンスからのフレーム中に挿入されてもよい。さらに、フレームの前記シーケンスからのフレームが、その特定のレンダリング・モード内でそのフレームをデコードするために必要とされる前記一つまたは複数の明示的なDRC利得を含んでいてもよい。
【0099】
本方法はさらに、前記特定のレンダリング・モードについてDRC構成データを示すDRCプロファイルをフレームの前記シーケンスからのフレームの部分集合に(たとえば、Iフレームに)挿入することを含んでいてもよい。DRC構成データ(たとえばフラグを含む)は、その特定のレンダリング・モードについて、明示的なDRC利得がフレームの前記シーケンスのフレーム内に含まれているという事実を示してもよい。よって、デコーダ100は、ダイナミックレンジ圧縮曲線を信号伝達するために複数のDRCプロファイルからの圧縮曲線を使うか、あるいは明示的なDRC利得を使うかを効率的に決定しうる。
【0100】
ダイナミックレンジ圧縮曲線を信号伝達するための前記DRCプロファイルおよび明示的なDRC利得をポイントする前記一つまたは複数のDRCプロファイルは、フレームの前記シーケンスのIフレームの専用のシンタックス要素(たとえばDRCプロファイル・シンタックス要素と称される)内に含まれてもよい。
【0101】
本稿で記載された方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されうる。ある種のコンポーネントは、たとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、たとえば、ハードウェアおよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体といった媒体上に記憶されてもよく、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。
【0102】
いくつかの態様を記載しておく。
〔態様1〕
エンコードされたオーディオ信号を生成するための方法であって、前記エンコードされたオーディオ信号はフレームのシーケンスを有し、前記エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示し、当該方法は、
・前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合を、フレームの前記シーケンスの異なるフレームに挿入して、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含むようにすることを含む、
方法。
〔態様2〕
・フレームの前記シーケンスがIフレームからなるサブシーケンスを含み;
・DRCプロファイルの前記異なる部分集合はIフレームからなる前記サブシーケンスの異なるIフレームに挿入される、
態様1記載の方法。
〔態様3〕
DRCプロファイルの部分集合が単一のDRCプロファイルのみを含む、態様1または2記載の方法。
〔態様4〕
・前記複数のDRCプロファイルがN個のDRCプロファイルを含み、Nは整数であり、N>1であり;
・前記N個のDRCプロファイルはフレームの前記シーケンスからのN個の異なるフレームに挿入される、
態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記複数のDRCプロファイルすべてをフレームの前記シーケンスの最初のフレームに挿入することをさらに含む、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
・前記複数のDRCプロファイルからのDRCプロファイルの前記異なる部分集合は、フレームの前記シーケンスからのM個の連続するフレームからなる各サブシーケンスが合同して前記複数のDRCプロファイルを含むように、フレームの前記シーケンスの異なるフレームに挿入され;
・Mは整数であり、M>1である、
態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
フレームの前記シーケンスのフレームにフラグを挿入することをさらに含み、前記フラグは、そのフレームがDRCプロファイルを含むか否かを示す、態様1ないし6のうちいずれか一項記載の方法。
〔態様8〕
・前記複数のDRCプロファイルのうちのあるDRCプロファイルが、ダイナミックレンジ圧縮曲線を定義する定義データを含む明示的なDRCプロファイルであり;
・ダイナミックレンジ圧縮曲線は入力ラウドネスと信号に適用されるべき利得との間のマッピングを与える、
態様1ないし7のうちいずれか一項記載の方法。
〔態様9〕
前記複数のDRCプロファイルのすべてが明示的なDRCプロファイルである、態様8記載の方法。
〔態様10〕
前記定義データは:
・前記入力ラウドネスをブーストするためのブースト利得;
・前記ブースト利得が適用可能な前記入力ラウドネスについての範囲を示すブースト利得範囲;
・0dBの利得が適用可能な前記入力ラウドネスの範囲を示すヌル帯域範囲;
・前記入力ラウドネスを減衰させるためのカット利得;
・前記カット利得が適用可能な前記入力ラウドネスの範囲を示すカット利得範囲;
・ヌル利得と前記ブースト利得との間の遷移を示すブースト利得比;および/または
・前記ヌル利得と前記カット利得との間の遷移を示すカット利得比、
のうちの一つまたは複数を含む、態様8または9記載の方法。
〔態様11〕
黙示的DRCプロファイルの指示を挿入することをさらに含み、黙示的DRCプロファイルの定義データは前記エンコードされたオーディオ信号のデコーダに知られている、態様8ないし10のうちいずれか一項記載の方法。
〔態様12〕
・フレームの前記シーケンスのフレームはオーディオ・データおよびメタデータを含み;
・DRCプロファイルの部分集合がメタデータとして挿入される、
態様1ないし11のうちいずれか一項記載の方法。
〔態様13〕
・DRCプロファイルは、該DRCプロファイルが適用可能な出力参照レベルの範囲を定義する定義データを含み;
・前記出力参照レベルは、あるレンダリング・モードのダイナミックレンジを示す、
態様1ないし12のうちいずれか一項記載の方法。
〔態様14〕
前記レンダリング・モードの前記ダイナミックレンジは、出力参照レベルの増大とともに減少してもよく、逆も成り立つ、態様13記載の方法。
〔態様15〕
DRCプロファイルのダイナミックレンジ圧縮曲線の最大ブースト利得および最大カット利得は、出力参照レベルの増大とともに増大してもよく、逆も成り立つ、態様13または14記載の方法。
〔態様16〕
前記複数のDRCプロファイルは:
・ホームシアター・レンダリング・モードにおいて使うための第一のDRCプロファイル;
・フラットパネル・レンダリング・モードにおいて使うための第二のDRCプロファイル;
・ポータブル装置スピーカー・レンダリング・モードにおいて使うための第三のDRCプロファイル;および/または
・ヘッドフォン・レンダリング・モードにおいて使うための第四のDRCプロファイル
のうちの一つまたは複数を含む、態様1ないし15のうちいずれか一項記載の方法。
〔態様17〕
前記エンコードされたオーディオ信号を含むビットストリームを生成することをさらに含み、前記ビットストリームはAC4ビットストリームである、態様1ないし16のうちいずれか一項記載の方法。
〔態様18〕
・特定のレンダリング・モードについて前記エンコードされたオーディオ信号についての明示的なDRC利得を決定し;
・フレームの前記シーケンスのフレームに前記明示的なDRC利得を挿入することをさらに含む、
態様1ないし17のうちいずれか一項記載の方法。
〔態様19〕
・前記特定のレンダリング・モードについてDRC構成データをもつDRCプロファイルをフレームの前記シーケンスのフレームの部分集合に挿入することをさらに含み、前記DRC構成データは、前記特定のレンダリング・モードについて、フレームの前記シーケンスのフレーム内に明示的なDRC利得が含まれているという事実を示すものである、態様18記載の方法。
〔態様20〕
・明示的なDRC利得が、該明示的なDRC利得が適用可能なフレームの前記シーケンスからのフレームに挿入される;および/または
・フレームの前記シーケンスからのフレームが、その特定のレンダリング・モード内でそのフレームをデコードするために必要とされる前記一つまたは複数の明示的なDRC利得を含む、
態様18または19記載の方法。
〔態様21〕
エンコードされたオーディオ信号を含むビットストリームであって、前記エンコードされたオーディオ信号はフレームのシーケンスを有し、前記エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示し、前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合は、フレームの前記シーケンスの異なるフレーム内に含まれており、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含む、ビットストリーム。
〔態様22〕
エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号はフレームのシーケンスを有し、前記エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示し、前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合が、フレームの前記シーケンスの異なるフレーム内に含まれており、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含み、当該方法は、
・前記複数の異なるレンダリング・モードから第一のレンダリング・モードを決定する段階と;
・フレームの前記シーケンスの現在フレーム内に含まれているDRCプロファイルの部分集合から一つまたは複数のDRCプロファイルを決定する段階と;
・前記一つまたは複数のDRCプロファイルのうちの少なくとも一つが前記第一のレンダリング・モードに適用可能であるかどうかを判定する段階と;
・前記一つまたは複数のDRCプロファイルのうちのどれも前記第一のレンダリング・モードに適用可能でない場合、現在DRCプロファイルとして、デフォルトDRCプロファイルを選択する段階であって、前記デフォルトDRCプロファイルの定義データは、前記エンコードされたオーディオ信号をデコードするためのデコーダにおいて既知である、段階と;
・前記現在DRCプロファイルを使って現在フレームをデコードする段階とを含む、
方法。
〔態様23〕
前記一つまたは複数のDRCプロファイルのうちの少なくとも一つが前記第一のレンダリング・モードに適用可能であるかどうかを判定する段階(611)が、
・前記第一のレンダリング・モードについての第一の出力参照レベルを決定し;
・前記一つまたは複数のDRCプロファイルからのDRCプロファイルが適用可能な出力参照レベルの範囲を決定し;
・前記第一の出力参照レベルが出力参照レベルの前記範囲内にはいるかどうかを判定することを含む、
態様22記載の方法。
〔態様24〕
前記一つまたは複数のDRCプロファイルからの第一のDRCプロファイルを、該第一のDRCプロファイルが前記第一のレンダリング・モードに適用可能であると判定される場合に、現在DRCプロファイルとして選択する段階(604)をさらに含む、態様22または23記載の方法。
〔態様25〕
フレームの前記シーケンスのうちの現在フレームがDRCプロファイルの部分集合を含んでいるかどうかを判定する段階をさらに含む、態様22ないし24のうちいずれか一項記載の方法。
〔態様26〕
・DRCプロファイルの部分集合がフレームの前記シーケンスのIフレーム内に含まれており;
・前記現在フレームがDRCプロファイルの部分集合を含んでいるかどうかを判定する段階が、現在フレームがIフレームであるかどうかを判定すること(603)を含む、
態様25記載の方法。
〔態様27〕
・前記現在フレームがDRCプロファイルの部分集合を含んでいるかどうかを判定する段階が、現在フレーム内に含まれるDRCプロファイル・フラグを検証すること(606)を含む、
態様25または26記載の方法。
〔態様28〕
・現在フレームが複数の黙示的DRCプロファイルからの黙示的DRCプロファイルを示すかどうかを判定する段階であって、黙示的DRCプロファイルの定義データは前記入力オーディオ信号をデコードするデコーダにおいて既知である、段階と;
・現在フレームが黙示的DRCプロファイルを示すと判定される場合、該黙示的DRCプロファイルを現在DRCプロファイルとして選択する段階(608)とをさらに含む、
態様22ないし27のうちいずれか一項記載の方法。
〔態様29〕
前記現在フレームのデコードする段階が、フレームの前記シーケンスを、前記第一のレンダリング・モードの第一の出力参照レベルにレベリングすることを含む、態様22ないし28のうちいずれか一項記載の方法。
〔態様30〕
前記現在フレームのデコードする段階が、現在DRCプロファイル内で指定されているダイナミックレンジ圧縮曲線を使って現在フレームのラウドネス・レベルを適応させることを含む、態様22ないし29のうちいずれか一項記載の方法。
〔態様31〕
エンコードされたオーディオ信号を生成するためのエンコーダであって、前記エンコードされたオーディオ信号はフレームのシーケンスを有し、前記エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示し、当該エンコーダは、
・前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合を、フレームの前記シーケンスの異なるフレームに挿入し、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含むようにするよう構成されている、
エンコーダ。
〔態様32〕
エンコードされたオーディオ信号をデコードするデコーダであって、前記エンコードされたオーディオ信号はフレームのシーケンスを有し、前記エンコードされたオーディオ信号は、対応する複数の異なるレンダリング・モードについての複数の異なるダイナミックレンジ制御(DRC)プロファイルを示し、前記複数のDRCプロファイルからのDRCプロファイルの異なる部分集合が、フレームの前記シーケンスの異なるフレーム内に含まれており、フレームの前記シーケンスの二つ以上のフレームが合同して前記複数のDRCプロファイルを含み、当該デコーダは、
・前記複数の異なるレンダリング・モードから第一のレンダリング・モードを決定する段階と;
・フレームの前記シーケンスの現在フレーム内に含まれているDRCプロファイルの部分集合から一つまたは複数のDRCプロファイルを決定する段階と;
・前記一つまたは複数のDRCプロファイルのうちの少なくとも一つが前記第一のレンダリング・モードに適用可能であるかどうかを判定する段階と;
・前記一つまたは複数のDRCプロファイルのうちのどれも前記第一のレンダリング・モードに適用可能でない場合、現在DRCプロファイルとして、デフォルトDRCプロファイルを選択する段階であって、前記デフォルトDRCプロファイルの定義データは、前記デコーダにおいて既知である、段階と;
・前記現在DRCプロファイルを使って現在フレームをデコードする段階とを実行するよう構成されている、
デコーダ。
【外国語明細書】