特許第6133263号(P6133263)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特許6133263携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法
<>
  • 特許6133263-携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 図000002
  • 特許6133263-携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 図000003
  • 特許6133263-携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 図000004
  • 特許6133263-携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 図000005
  • 特許6133263-携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 図000006
  • 特許6133263-携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6133263
(24)【登録日】2017年4月28日
(45)【発行日】2017年5月24日
(54)【発明の名称】携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法
(51)【国際特許分類】
   G10L 19/02 20130101AFI20170515BHJP
   G10L 19/00 20130101ALI20170515BHJP
【FI】
   G10L19/02 170Z
   G10L19/02 180A
   G10L19/00 330B
【請求項の数】6
【全頁数】19
(21)【出願番号】特願2014-249460(P2014-249460)
(22)【出願日】2014年12月10日
(62)【分割の表示】特願2012-552907(P2012-552907)の分割
【原出願日】2011年2月3日
(65)【公開番号】特開2015-45886(P2015-45886A)
(43)【公開日】2015年3月12日
【審査請求日】2015年1月8日
(31)【優先権主張番号】61/303,643
(32)【優先日】2010年2月11日
(33)【優先権主張国】US
【前置審査】
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】リードミラー,ジェフリー シー
(72)【発明者】
【氏名】ミュント,ハーラルト ハー
(72)【発明者】
【氏名】シューグ,ミヒャエル
(72)【発明者】
【氏名】ヴォルタース,マルティン
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 特開2007−109328(JP,A)
【文献】 特表2008−505586(JP,A)
【文献】 伏木雅昭,身近になったオーディオ符号化 映画,DVDにおける符号化−Dolby Digital−,日本音響学会誌,日本,2003年12月25日,第60巻 第1号,pp.41-46
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
(57)【特許請求の範囲】
【請求項1】
エンコードされた入力信号をデコードしてオーディオ出力信号を生成する方法であって:
エンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する段階であって、前記メタデータは、一つまたは複数のデコード制御パラメータと、第一の再生レベルを使う第一のデコード・モードによって使うのに好適なダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータと、第二の基準再生レベルを使う第二のデコード・モードによって使うのに好適なダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータとを含む、段階と;
前記エンコードされたオーディオ情報にデコード・プロセスを適用してサブバンド信号を得る段階であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、段階と;
前記サブバンド信号を修正して、変化したダイナミックレンジ特性をもつ修正されたサブバンド信号を得る段階であって、前記修正は、前記一つまたは複数の第二のパラメータに応答して適応される、段階と;
前記修正されたサブバンド信号に合成フィルタバンクを適用して時間領域オーディオ信号を得る段階と;
前記時間領域オーディオ信号に固定利得および制限器を適用する段階であって、前記固定利得の適用は前記オーディオ出力信号の有効基準再生レベルを前記第二の基準再生レベルより上に上昇させ、前記制限器の適用は前記オーディオ出力信号の振幅がクリッピング・レベルを超えることを防止する、段階とを含む、
方法。
【請求項2】
前記第一の基準再生レベルは前記クリッピング・レベルより31dB低い振幅に対応し、前記第二の基準再生レベルは前記クリッピング・レベルより20dB低い振幅に対応し、前記有効基準再生レベルはクリッピング・レベルより14dBないし8dB低い振幅に対応する、請求項1記載の方法。
【請求項3】
前記有効基準再生レベルはクリッピング・レベルより11dB低い振幅に対応する、請求項2記載の方法。
【請求項4】
エンコードされた入力信号をデコードしてオーディオ出力信号を生成する装置であって:
エンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する手段であって、前記メタデータは、一つまたは複数のデコード制御パラメータと、第一の再生レベルを使う第一のデコード・モードによって使うのに好適なダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータと、第二の基準再生レベルを使う第二のデコード・モードによって使うのに好適なダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータとを含む、手段と;
前記エンコードされたオーディオ情報にデコード・プロセスを適用してサブバンド信号を得る手段であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、手段と;
前記サブバンド信号を修正して、変化したダイナミックレンジ特性をもつ修正されたサブバンド信号を得る手段であって、前記修正は、前記一つまたは複数の第二のパラメータに応答して適応される、手段と;
前記修正されたサブバンド信号に合成フィルタバンクを適用して時間領域オーディオ信号を得る手段と;
前記時間領域オーディオ信号に固定利得および制限器を適用する手段であって、前記固定利得の適用は前記オーディオ出力信号の有効基準再生レベルを前記第二の基準再生レベルより上に上昇させ、前記制限器の適用は前記オーディオ出力信号の振幅がクリッピング・レベルを超えることを防止する、手段とを有する、
装置。
【請求項5】
前記第一の基準再生レベルは前記クリッピング・レベルより31dB低い振幅に対応し、前記第二の基準再生レベルは前記クリッピング・レベルより20dB低い振幅に対応し、前記有効基準再生レベルはクリッピング・レベルより14dBないし8dB低い振幅に対応する、請求項4記載の装置。
【請求項6】
前記有効基準再生レベルはクリッピング・レベルより11dB低い振幅に対応する、請求項5記載の装置
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、ここに参照によってその全体において組み込まれる2010年2月11日に出願された米国特許仮出願第61/303,643号の優先権を主張する。
【0002】
技術分野
本発明は、概括的にはオーディオ信号のエンコードおよびデコードに関し、より詳細には、より幅広い範囲の再生装置および聴取環境のためにオーディオ信号をエンコードおよびデコードするために使用されうる技法に関する。
【背景技術】
【0003】
ハンドヘルドおよび他の型のポータブル装置の人気が高まることは、そうした装置での再生用のメディア・コンテンツのクリエーターや頒布者にとって、またそうした装置の設計者および製造業者にとって、新たな機会と課題を創り出した。多くのポータブル装置は、しばしばHDTV、ブルーレイまたはDVDのための高品質、広帯域幅および広いダイナミックレンジのオーディオ・コンテンツに関連付けられるものを含め、幅広い範囲のメディア・コンテンツの型およびフォーマットを再生できる。ポータブル装置は、この型のオーディオ・コンテンツを、自分の内蔵音響トランスデューサ上でまたはヘッドホンのような外部トランスデューサ上で再生するために使用されうる。しかしながら、ポータブル装置は一般に、このコンテンツを、多様なメディア・フォーマットおよびコンテンツ型にわたって一貫したラウドネス(loudness)および了解可能性(intelligibility)をもって再生することはできない。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】"Digital Audio Compression Standard (AC-3, E-AC-3)," Revision B, Document A/52B、14 June 2005、Advanced Television Systems Committee, Inc.
【非特許文献2】ISO/IEC 13818-7, Advanced Audio Coding (AAC)、International Standards Organization (ISO)
【非特許文献3】ISO/IEC 14496-3, subpart 4、International Standards Organization (ISO)
【非特許文献4】"ATSC Recommended Practice: Techniques for Establishing and Maintaining Audio Loudness for Digital Television," Document A/85、4 November 2009、Advanced Television Systems Committee, Inc.、特にSection 9およびAnnex F
【非特許文献5】Robinson et al., "Dynamic Range Control via Metadata," preprint no.5028, 107th AES Convention, New York, September 1999
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、ハンドヘルドおよび他の型のポータブル装置を含む多様な装置での再生のためにオーディオ信号をエンコードおよびデコードする改善された方法を提供することに向けられる。
【課題を解決するための手段】
【0006】
本発明のさまざまな側面は、独立請求項に記載される。
【0007】
本発明のさまざまな特徴およびその好ましい実施形態は、以下の議論および付属の図面を参照することによってよりよく理解されうる。図面において、いくつかの図で同様の参照符号は同様の要素を指す。以下の議論および図面の内容は単に例として記載されているのであって、本発明の範囲に対する限定を表すと理解すべきではない。
【図面の簡単な説明】
【0008】
図1】再生装置の概略的なブロック図である。
図2】エンコード装置の概略的なブロック図である。
図3】トランスコード装置の概略的なブロック図である。
図4】トランスコード装置の概略的なブロック図である。
図5】トランスコード装置の概略的なブロック図である。
図6】本発明のさまざまな側面を実装するために使われうる装置の概略的なブロック図である。
【発明を実施するための形態】
【0009】
〈A.序〉
本発明は、ハンドヘルドおよび他の型のポータブル装置のユーザーが遭遇するようなチャレンジングな聴取環境における再生のためにオーディオ情報をエンコードおよびデコードすることに向けられる。オーディオ・エンコードおよびデコードの若干の例は、非特許文献1(本稿では「ATSC規格」と称する)、非特許文献2(本稿では「MPEG-2 AAC規格」と称する)および非特許文献3(本稿では「MPEG-4オーディオ規格」と称する)に記載されるような公開された規格によって記述されている。これらの規格に準拠するエンコードおよびデコード・プロセスは単に例として言及されている。本発明の原理は、他の規格に準拠する符号化システムと一緒に使われてもよい。
【0010】
発明者は、いくつかの符号化規格に準拠する装置の利用可能な機能はしばしば、ハンドヘルドおよびその他の型のポータブル装置に典型的な応用および聴取環境にとっては十分でないことを発見した。これらの型の装置が、これらの規格に準拠するエンコードされた入力信号のオーディオ・コンテンツをデコードするために使われる場合、デコードされたオーディオ・コンテンツはしばしば、これらの装置での再生のために特別に用意されたエンコードされた入力信号をデコードすることによって得られるオーディオ・コンテンツについてのラウドネス・レベルより有意に低いラウドネス・レベルで再生される。
【0011】
たとえばATSC規格に準拠するエンコードされた入力信号(本稿では「ATSC準拠エンコード信号」と称する)は、エンコードされたオーディオ情報と、この情報をどのようにしてデコードできるかを記述するメタデータとを含む。メタデータ・パラメータのいくつかは、エンコードされたオーディオ情報がデコードされるときにオーディオ情報のダイナミックレンジがいかにして圧縮されうるかを指定するダイナミックレンジ圧縮プロファイルを同定する。デコードされた信号のフル・ダイナミックレンジが保持されることもできるし、あるいは種々の応用および聴取環境の要求を満たすためにさまざまな度合いで圧縮されることもできる。他のメタデータは、平均プログラム・レベルまたはエンコードされた信号におけるダイアログのレベルのような、エンコードされたオーディオ情報のラウドネスの何らかの指標を特定する。このメタデータは、再生中に、指定されたラウドネスまたは基準再生レベルを達成するためにデコードされた信号の振幅を調整するためにデコーダによって使用されてもよい。いくつかの応用では、一つまたは複数の基準再生レベルが指定または想定されてもよく、一方、他のアプリケーションでは、基準再生レベルを設定することに対してユーザーがコントロールを与えられてもよい。たとえば、ATSC準拠エンコード信号をエンコードおよびデコードするために使われる符号化プロセスは、ダイアログが二つの基準再生レベルの一つで再生されることを想定する。一方のレベルは、可能な最大のデジタル値またはフル・スケール(FS: full scale)値であるクリッピング・レベルより31dB下であり、ここでは−31dBFSと記される。このレベルを使うデコードのモードは時に「ライン・モード」と称され、より広いダイナミックレンジが好適な応用および環境において使われることが意図される。もう一方のレベルは−20dBFSに設定される。この第二のレベルを使うデコードのモードは時に「RFモード」と称され、これは、過変調(over modulation)を避けるためにより狭いダイナミックレンジが必要とされる、無線周波(RF: radio frequency)信号の変調による放送において遭遇するような応用および環境において使用されることが意図される。
【0012】
もう一つの例として、MPEG-2 AAC規格およびMPEG-4オーディオ規格に準拠するエンコードされた信号は、エンコードされたオーディオ情報についての平均ラウドネス・レベルを同定するメタデータを含む。MPEG-2 AACおよびMPEG-4オーディオに準拠するエンコードされた信号をデコードするプロセスは、聴取者に、所望される再生レベルを指定することを許容してもよい。デコーダは、所望される再生レベルおよび平均ラウドネス・メタデータを使って、所望される再生レベルが達成されるよう、デコードされた信号の振幅を調整する。
【0013】
ハンドヘルドおよび他の型のポータブル装置がこれらのメタデータ・パラメータに従ってATSC準拠、MPEG-2 AAC準拠およびMPEG-4オーディオ準拠のエンコードされた信号のオーディオ・コンテンツをデコードおよび再生するために使われる場合、ダイナミックレンジおよびラウドネス・レベルもしばしば好適ではない。これは、これらの型の装置で遭遇される劣悪な聴取環境のため、あるいはこれらの装置で使われるより低い動作電圧に起因する電気的な制限のためである。
【0014】
他の規格に準拠するエンコードされた信号は、同様の型のメタデータを使い、意図された再生ラウドネス・レベルを指定するための規定を含むこともある。同じ問題は、これらの信号をデコードするポータブル装置でもしばしば遭遇される。
【0015】
本発明は、ハンドヘルドおよびポータブル装置のユーザーにとっての聴取経験を、これらの装置について特に用意されたコンテンツを必要とすることなく、改善するために使用されうる。
【0016】
〈B.装置の概観〉
図1は、本発明のさまざまな側面を組み込む受信側/デコーダ装置10の一つの型の概略的なブロック図である。装置10は信号経路11からエンコードされた入力信号を受領し、フォーマット解除器12において好適なプロセスを適用して前記入力信号からエンコードされたオーディオ情報および関連するメタデータを抽出し、該メタデータを信号経路13に沿って渡す。エンコードされたオーディオ情報は、聴覚的な刺激のスペクトル内容を表すエンコードされたサブバンド信号を含み、メタデータは、一つまたは複数のデコード制御パラメータおよびダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数のパラメータを含む多様なパラメータについての値を指定する。「ダイナミックレンジ圧縮プロファイル」という用語は、利得因子、圧縮アタック時(compression attack times)および圧縮リリース時(compression release times)といった、ダイナミックレンジ圧縮器の動作特性を定義する特徴を指す。
【0017】
デコーダ14は、エンコードされたオーディオ情報にデコード・プロセスを適用し、デコードされたサブバンド信号を得る。デコードされたサブバンド信号はダイナミックレンジ・コントロール16に渡される。デコード・プロセスの動作および機能は、信号経路13から受領されるデコード制御パラメータに応答して適応されてもよい。デコード・プロセスの動作および機能を適応させるために使用されうるデコード制御パラメータの例は、エンコードされたオーディオ情報によって表されるオーディオ・チャネルの数および配位を同定するパラメータである。
【0018】
ダイナミックレンジ・コントロール16は任意的に、デコードされたオーディオ情報のダイナミックレンジを調整する。調整は、信号経路13から受領されるメタデータに応答して、および/または聴取者からの入力に応答して与えられうる制御信号から、オンまたはオフにされてもよく、適応されてもよい。たとえば、制御信号は、聴取者がスイッチを操作したり、あるいは装置10についての操作オプションを選択したりするのに応答して与えられてもよい。
【0019】
たとえばATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠する実装では、エンコードされた入力信号は、エンコードされたオーディオ信号がセグメントまたはフレームのシーケンスに配列されたものを含む。各フレームは、フル・ダイナミックレンジでのオーディオ信号のスペクトル成分を表現するエンコードされたサブバンド信号を含む。ダイナミックレンジ・コントロール16は何のアクションも行わなくてもよい。これは、オーディオ信号が最大量のダイナミックレンジをもって再生されることを許容する。あるいはダイナミックレンジ・コントロール16はデコードされたサブバンド信号を修正して、さまざまな度合いでダイナミックレンジを圧縮してもよい。
【0020】
合成フィルタバンク18は、ダイナミックレンジ・コンとトール16によって調整されていてもよいデコードされたサブバンド信号に対して合成フィルタのバンクを適用し、その出力において、デジタルまたはアナログ信号でありうる時間領域のオーディオ信号を与える。
【0021】
利得制限器20は、本発明のいくつかの実装において、時間領域オーディオ信号の振幅を調整するために使われる。利得制限器20の出力は、音響トランスデューサによるその後の呈示のために経路21に沿って渡される。
【0022】
図2は、本発明のさまざまな側面を組み込むエンコーダ/送信側装置30の概略的なブロック図である。装置30は、聴覚的な刺激を表すオーディオ入力信号を信号経路31から受領する。装置30は、該オーディオ信号に分解フィルタのバンクを適用して、入力オーディオ信号の周波数領域表現の形の、または入力オーディオ信号を表す帯域幅制限された信号の集合の形のサブバンド信号を得る。メタデータ計算器34は、オーディオ入力信号および/または該オーディオ入力信号の修正されたバージョンもしくは分解フィルタバンク32からのサブバンド信号のような該オーディオ入力信号から導出される一つまたは複数の信号を解析して、エンコード制御パラメータ、一つまたは複数のデコード制御パラメータおよびダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数のパラメータを含む多様なパラメータについての値を指定するメタデータを計算する。メタデータ計算器34が解析するのは、時間領域信号、周波数領域信号または時間領域および周波数領域信号の組み合わせでありうる。メタデータ計算器34によって実行される計算も、経路33から受領される一つまたは複数のメタデータ・パラメータに応答して適応されてもよい。エンコーダ36は分解フィルタバンク32の出力にエンコード・プロセスを適用して、エンコードされたサブバンド信号を含むエンコードされたオーディオ情報を得、エンコードされたオーディオ情報はフォーマット器38に渡される。エンコード・プロセスは、経路33から受領されるエンコード制御パラメータに応答して適応されてもよい。エンコード・プロセスも、他のデコード制御パラメータを経路33に沿って生成してもよい。エンコードされたオーディオ情報をデコードするために前記装置10において実行されるプロセスによって使うためである。フォーマット器38はエンコードされたオーディオ情報と、前記一つまたは複数のデコード制御パラメータおよびダイナミックレンジ圧縮を指定する前記一つまたは複数のパラメータを含む前記メタデータの少なくとも一部を集めて、伝送または記憶に好適なフォーマットをもつエンコードされた出力信号にする。
【0023】
たとえばATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠する実装では、エンコードされた出力信号は、エンコードされたオーディオ信号がセグメントまたはフレームのシーケンスに配列されたものを含む。各フレームは、フル・ダイナミックレンジでのオーディオ信号のスペクトル成分を表現し、基準再生レベルでの再生のための振幅を有するエンコードされたサブバンド信号を含む。
【0024】
フォーマット解除器12、デコーダ14、合成フィルタバンク18、分解フィルタバンク32、エンコーダ36およびフォーマット器38は設計および動作において通常のものであってもよい。若干の例は、上述した公開された規格に準拠する対応するコンポーネントを含む。これらの規格において規定または提案されるコンポーネントの実装は、本発明と一緒に使うのに好適であるが、必須ではない。これらのコンポーネントのいかなる特定の実装も決定的ではない。
【0025】
図3ないし図5は、上記の装置10および装置30におけるコンポーネントのいくつかを含むトランスコーダ装置40の種々の実装の概略的なブロック図である。これらのコンポーネントはそれぞれの対応物と実質的に同様に動作する。図3に示した装置40は、経路11から受領されるエンコードされた入力信号を、同じ符号化規格に準拠する修正されたバージョンにトランスコードすることができる。この実装では、装置40は信号経路11からエンコードされた入力信号を受領し、フォーマット解除器12において好適なプロセスを適用して前記エンコードされた入力信号から第一のエンコードされたオーディオ情報および関連するメタデータを抽出し、該第一のエンコードされたオーディオ情報をデコーダ14およびフォーマット器38に渡し、該メタデータを信号経路43に沿って渡す。第一のエンコードされたオーディオ情報は、聴覚的な刺激のスペクトル内容を表すエンコードされたサブバンド信号を含み、メタデータは、一つまたは複数のデコード制御パラメータおよび第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数のパラメータを含む多様なパラメータについての値を指定する。デコーダ14は、第一のエンコードされたオーディオ情報にデコード・プロセスを適用し、デコードされたサブバンド信号を得る。デコード・プロセスの動作および機能は、信号経路43から受領される前記一つまたは複数のデコード制御パラメータに応答して適応されてもよい。サブバンド信号は、前記聴覚的刺激の周波数領域表現、または前記聴覚的刺激を表す帯域幅制限された信号の集合でありうる。
【0026】
メタデータ計算器44は、デコードされたサブバンド信号および/または該デコードされたサブバンド信号から導出される一つまたは複数の信号を解析して、第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数のパラメータ値を計算する。たとえば、前記一つまたは複数の信号は、合成フィルタバンク18をデコードされたサブバンド信号に適用することによって導出されてもよい。メタデータ計算器44によって実行される計算は、経路43から受領されるメタデータに応答して適応されてもよい。合成フィルタバンク18は、その出力がメタデータ計算のために必要とされないなら、この実装から省略してもよい。
【0027】
装置40のもう一つの実装が図4に示されている。この実装は図3に示されるものと同様だが、エンコーダ36を含む。エンコーダ36を含むことで、装置40は、経路11から受領される、第一の符号化規格に準拠するエンコードされた入力信号を、前記第一の符号化規格と同じであっても異なっていてもよい第二の符号化規格に準拠するエンコードされた出力信号にトランスコードすることができる。ただし、それら二つの符号化規格のサブバンド信号が互換であればである。これは、この実装では、エンコーダ36をして、サブバンド信号にエンコード・プロセスを適用して第二の符号化規格に準拠する第二のエンコードされたオーディオ情報を得させることによってなされてもよい。第二のエンコードされたオーディオ情報はフォーマット器38に渡される。エンコード・プロセスは経路43から受領されるメタデータに応答して適応されてもよい。エンコード・プロセスはまた、エンコードされたオーディオ情報をデコードするために前記装置10において実行されるプロセスが使うために、経路43に沿って他のメタデータをも生成してもよい。フォーマット器38は、経路43から受領されるメタデータおよび受領されるエンコードされたオーディオ情報を集めて、伝送または記憶に好適なフォーマットをもつエンコードされた出力信号にする。
【0028】
装置40のさらにもう一つの実装が図5に示されている。この実装は、デコードされたサブバンド信号に適用されてエンコードされたオーディオ情報の時間領域または広帯域表現を得る合成フィルタバンク18を含む。合成フィルタバンク18および分解フィルタバンク32を含むことで、装置40は、符号化規格の本質的にいかなる選択の間でもトランスコードできる。合成フィルタバンク18の出力は分解フィルタバンク32に渡され、分解フィルタバンク32がエンコーダ36によってエンコードするためのサブバンド信号を生成する。エンコーダ36は分解フィルタバンク32の出力にエンコード・プロセスを適用して、第二のエンコードされたオーディオ情報を得、これがフォーマット器38に渡される。エンコード・プロセスは、エンコードされたオーディオ情報をデコードするために前記装置10において実行されるプロセスによって使用するために、経路43に沿って他のメタデータをも生成してもよい。メタデータ計算器44は、デコーダ14から受領されたサブバンド信号、合成フィルタバンク18の出力および分解フィルタバンク32の出力のうちの任意のものまたは全部の解析から、メタデータ・パラメータ値を計算してもよい。
【0029】
装置10および装置30のいくつかの側面が以下でより詳細に記述される。これらの記述は、上述したATSC規格に準拠する方法および装置の特徴および特性を使って記述される。これらの特定の特徴および特性は単に例として論じられている。これらの実装の根底にある原理は、他の規格に準拠する方法および装置にも直接適用可能である。
【0030】
〈C.受信機/デコーダ〉
上記の再生の問題は、以下に述べる三つの異なる技法の一つまたは複数を使うことによって対処されうる。第一の技法は、利得制限を使い、装置10のみの機能によって実装されうる。第二および第三の技法はダイナミックレンジ圧縮を使い、その実装は装置10と装置30の両方の機能を必要とする。
【0031】
1.利得制限器(Gain-Limiter)
第一の技法はライン・モードではなくRFモードで装置10を動作させる。それにより、装置10はATSC準拠のエンコードされた入力信号をデコードし、ダイナミックレンジ・コントロール16はより高いレベルのダイナミックレンジ圧縮およびより高い基準再生レベルを提供する。利得制限器20は追加的な利得を提供し、有効基準再生レベルを−14dBFSから−8dBFSの値に上昇させる。経験的な結果は、−11dBFSに等しい基準レベルが多くの応用にとって良好な結果を与えることを示している。
【0032】
利得制限器20はまた、増幅されたデジタル信号が0dBFSを超えることを防ぐよう制限動作を適用する。制限器の動作特性は、再生されるオーディオの知覚される品質に影響することがあるが、いかなる特定の制限器も本発明にとって決定的ではない。制限器は、本質的には所望されうるいかなる仕方で実装されてもよい。好ましくは、制限器は、「硬〔ハード〕」クリッピング機能ではなく「軟〔ソフト〕」制限機能を提供するよう設計される。
【0033】
2.差分圧縮値(Differential Compression Values)
第二の技法は、装置10が、ダイナミックレンジ・コントロール16において一つまたは複数の修正されたダイナミックレンジ圧縮パラメータを適用することを許容する。フォーマット解除器12は、エンコードされた入力信号から差分ダイナミックレンジ圧縮(DRC: dynamic range compression)パラメータ値を得て、該差分パラメータ値を、通常のDRCパラメータ値と一緒に経路13に沿ってダイナミックレンジ・コントロール16に渡す。ダイナミックレンジ・コントロール16は、通常のDRCパラメータ値を対応する差分DRCパラメータ値と算術的に組み合わせることによって、必要とする前記一つまたは複数のDRCパラメータ値を計算する。この状況では利得制限器20は使われる必要はない。
【0034】
差分DRCパラメータ値は、エンコードされた入力信号を生成したエンコーダ/送信側装置30によって、エンコードされた入力信号中に与えられる。
【0035】
エンコードされた入力信号がこれらの差分DRC値を含まない場合、装置10は上記の第一の技法に従って利得制限器20を使うことができる。
【0036】
3.異なる圧縮プロファイル
第三の技法は、装置10が、ダイナミックレンジ・コントロール16において新しいダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を適用することを許容する。フォーマット解除器12は、エンコードされた入力信号から新しいプロファイルについての一つまたは複数のDRCパラメータ値を得て、それらのパラメータ値を経路13に沿ってダイナミックレンジ・コントロール16に渡す。この状況では利得制限器20は使われる必要はない。
【0037】
新しいダイナミックレンジ圧縮プロファイルについてのDRCパラメータ値は、エンコードされた入力信号を生成したエンコーダ/送信側装置30によって、エンコードされた入力信号中に与えられる。
【0038】
エンコードされた入力信号が前記新しいDRCプロファイルについての前記一つまたは複数のDRCパラメータ値を含まない場合、装置10は上記の第一の技法に従って利得制限器20を使うことができる。
【0039】
〈D.エンコーダ/送信機〉
1.差分圧縮値
上で論じた第二の技法についてのプロセスは、エンコードされた入力信号から抽出される差分DRCパラメータ値を使うことによって、装置10において実装される。これらの差分パラメータ値は、エンコードされた信号を生成した装置30によって与えられる。
【0040】
装置30は、エンコードされた信号中に存在することになるDRCパラメータ値の集合と、高めの基準再生レベルについてデコードされたオーディオ信号サンプルが0dBFSを超えることを防ぐために必要とされる新しいDRCプロファイルについての対応する基本パラメータ値の集合との間の差を表す差分DRCパラメータ値の集合を提供する。DRCパラメータ値を計算するためのいかなる特定の方法も本発明にとって決定的ではない。ATSC規格に準拠するパラメータ値を計算する既知の諸方法は、非特許文献4および非特許文献5において開示されている。
【0041】
エンコードされた出力信号がATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠する場合、基準再生レベルは−14dBFSから−8dBFSまでの値に増大させられる。経験的な結果は、−11dBFSに等しい基準レベルが多くの応用にとって良好な結果を与えることを示している。
【0042】
ATSC準拠のエンコードされた出力信号については、メタデータ計算器34は、規格において規定されている対応する基本パラメータ「compr」について差分パラメータ値を計算する。フォーマット器38は該差分パラメータ値を、「addbsi」(additional bit stream information[追加的ビットストリーム情報])および/または「auxdata」(auxiliary data[補助データ])と記される各エンコードされた信号フレームの部分に集めてもよい。差分パラメータ値がこれら「addbsi」または「auxdata」部分に集められる場合、エンコードされた信号はすべてのATSC準拠デコーダと互換になる。該差分パラメータ値を認識しないデコーダでも、「addbsi」および「auxdata」部分を無視することによって、エンコードされた信号フレームを正しく処理し、デコードすることができる。さらなる詳細については非特許文献1を参照されたい。
【0043】
MPEG-2規格またはMPEG-4オーディオ規格に準拠するエンコードされた出力信号については、フォーマット器38は該差分パラメータ値を、両規格において「Fill_Element〔充填エレメント〕」または「Data_Stream_Element〔データストリーム・エレメント〕」と記される各エンコードされた信号フレームの部分に集めてもよい。差分パラメータ値がこれらの部分のいずれかに集められる場合、エンコードされた信号はすべてのMPEG-2 AACおよびMPEG-4オーディオ規格準拠デコーダと互換になる。さらなる詳細については非特許文献2および3を参照されたい。
【0044】
差分パラメータ値が計算され、エンコードされた信号に挿入されるレートは、対応する基本パラメータ値がエンコードされた信号中にあるレートより大きくても、該レートに等しくても、該レートより小さくてもよい。差分値についてのレートは変動してもよい。前の差分値が再利用されるべきか否かを示すフラグまたはビットもエンコードされた信号に含められてもよい。
【0045】
2.異なる圧縮プロファイル
上記で論じた第三の技法についてのプロセスは、装置10によって、エンコードされた入力信号から抽出される新しいダイナミックレンジ圧縮プロファイルについてのDRCパラメータ値を使って実装される。これらのパラメータ値は、エンコードされた信号を生成した装置30によって与えられる。
【0046】
装置30は新しいDRCプロファイルについてのDRCパラメータ値を、高めの基準再生レベルについてデコードされたオーディオ信号サンプルが0dBFSを超えることを防ぐために必要とされるパラメータ値を計算することによって導出する。
【0047】
エンコードされた出力信号がATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠する場合、メタデータ計算器34は、基準再生レベルが−14dBFSから−8dBFSまでの値に増大させられるとの想定に基づいてDRC圧縮値を計算する。経験的な結果は、−11dBFSに等しい基準レベルが多くの応用にとって良好な結果を与えることを示している。フォーマット器38は、DRCプロファイルについてのパラメータ値を、各エンコードされた信号フレームの、差分パラメータのための上記のような諸部分中に集めてもよい。フレームのこれらの部分の使用は、エンコードされた信号が、それぞれの規格に準拠するすべてのデコーダと互換であることを許容する。
【0048】
〈E.実装〉
本発明のさまざまな側面を組み込む装置は、コンピュータ、または、より特化したコンポーネントを含む、汎用コンピュータに見出されるのと同様のコンポーネントに結合されたデジタル信号プロセッサ(DSP)回路のような他の何らかの装置による実行のためのソフトウェアを含む多様な仕方で実装されうる。図6は、本発明の諸側面を実装するために使用されうる装置70の概略的なブロック図である。プロセッサ72はコンピューティング資源を提供する。RAM 73は処理のためにプロセッサ72によって使用されるシステム・ランダム・アクセス・メモリ(RAM)である。ROM 74は、装置70を動作させるためにおよび可能性としては本発明のさまざまな側面を実行するために必要とされるプログラムを記憶する、読み出し専用メモリ(ROM)のような何らかの形の持続性記憶を表す。I/Oコントロール75は、通信チャネル76、77によって入力信号を受領し、出力信号を送出するためのインターフェース回路を表す。図示した実施形態では、すべての主要なシステム・コンポーネントはバス71に接続される。バス71は二つ以上の物理的または論理的なバスを表していてもよい。しかしながら、バス・アーキテクチャは本発明を実装するために必須ではない。
【0049】
汎用コンピュータ・システムによって実装される実施形態では、キーボードまたはマウスおよびディスプレイのような装置とインターフェースをもつために、および磁気テープまたはディスクまたは光学式媒体のような記憶媒体をもつ記憶装置78を制御するために、追加的なコンポーネントが含められてもよい。記憶媒体は、オペレーティング・システム、ユーティリティーおよびアプリケーションのための命令のプログラムを記録するために使われてもよく、本発明のさまざまな側面を実装するプログラムを含んでいてもよい。
【0050】
本発明のさまざまな側面を実施するために必要とされる機能は、離散的な論理コンポーネント、集積回路、一つまたは複数のASICおよび/またはプログラム制御されるプロセッサを含む幅広い多様な仕方で実装されるコンポーネントによって実行されることができる。これらのコンポーネントが実装される仕方は本発明にとって重要ではない。
【0051】
本発明のソフトウェア実装は、スーパーソニックから紫外周波数を含むスペクトルを通じたベースバンドまたは変調された通信経路、あるいは磁気テープ、カードもしくはディスク、光学式カードもしくはディスクおよび紙を含む媒体上の検出可能なマーク付けを含む本質的に任意の記録技術を使って情報を担持する記憶媒体のような多様な機械可読媒体によって担持されうる。
【0052】
いくつかの態様を記載しておく。
〔態様1〕
エンコードされた入力信号をデコードしてオーディオ出力信号を生成する方法であって:
エンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する段階であって、前記メタデータは、一つまたは複数のデコード制御パラメータおよび第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータを含み、任意的に第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ聴覚的刺激を表すよう前記エンコードされたオーディオ情報を生成したエンコード・プロセスに従って設定された値をもち、前記一つまたは複数の第二のパラメータは、前記第一の基準再生レベルより高い第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう前記エンコードされたオーディオ情報を生成した前記エンコード・プロセスに従って設定された値をもつ、段階と;
前記エンコードされたオーディオ情報にデコード・プロセスを適用して、前記聴覚的刺激のスペクトル内容を表すサブバンド信号を得る段階であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、段階と;
前記サブバンド信号を修正して、変化したダイナミックレンジ特性をもつ修正されたサブバンド信号を得る段階であって、前記修正は、前記メタデータが前記一つまたは複数の第二のパラメータを含む場合には前記一つまたは複数の第二のパラメータに応答して適応され、前記メタデータが前記一つまたは複数の第二のパラメータを含まない場合には前記一つまたは複数の第一のパラメータに応答して適応される、段階と;
前記修正されたサブバンド信号に合成フィルタバンクを適用して時間領域オーディオ信号を得る段階と;
前記メタデータが前記一つまたは複数の第二のパラメータを含まない場合、前記メタデータに応答して前記時間領域オーディオ信号に利得および制限器を適用し、前記利得の適用は前記時間領域オーディオ信号を、前記第二の基準再生レベルでの再生のための振幅をもつ前記オーディオ出力信号を得るよう修正し、前記制限器の適用は前記オーディオ出力信号の前記振幅が前記クリッピング・レベルを超えることを防止する、段階とを含む、
方法。
〔態様2〕
前記一つまたは複数の第二のパラメータが、前記第一のダイナミックレンジ圧縮プロファイルと前記第二のダイナミックレンジ圧縮プロファイルについての対応するパラメータ間の差分を表す、態様1記載の方法。
〔態様3〕
前記エンコードされた入力信号がATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠し、前記第一の基準再生レベルは前記クリッピング・レベルより20dB低い振幅に対応し、前記第二の基準再生レベルは前記クリッピング・レベルより11dB低い振幅に対応する、態様1または2記載の方法。
〔態様4〕
聴覚的刺激を表すオーディオ入力信号をエンコードする方法であって:
前記オーディオ入力信号を受領する段階と;
前記オーディオ入力信号に分解フィルタバンクを適用して前記オーディオ入力信号のスペクトル内容を表すサブバンド信号を生成する段階と;
前記オーディオ入力信号から導出された一つまたは複数の信号を解析してメタデータを計算する段階であって、前記メタデータは、第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータおよび第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもち、前記一つまたは複数の第二のパラメータは、第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもつ、段階と;
前記サブバンド信号にエンコード・プロセスを適用して、エンコードされたオーディオ情報を得る段階と;
前記エンコードされたオーディオ情報および前記メタデータを集めて、伝送または記憶に好適なフォーマットを有するエンコードされた出力信号にする段階とを含み、
前記一つまたは複数の第二のパラメータが、前記第一のダイナミックレンジ圧縮プロファイルと前記第二のダイナミックレンジ圧縮プロファイルについての対応するパラメータ間の差分を表す、
方法。
〔態様5〕
前記エンコードされた出力信号がATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠し、前記第一の基準再生レベルは前記クリッピング・レベルより20dB低い振幅に対応し、前記第二の基準再生レベルは前記クリッピング・レベルより11dB低い振幅に対応する、態様4記載の方法。
〔態様6〕
エンコードされた入力信号をトランスコードしてエンコードされた出力信号を生成する方法であって:
第一のエンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する段階であって、前記メタデータは、一つまたは複数のデコード制御パラメータおよび第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ聴覚的刺激を表すよう前記第一のエンコードされたオーディオ情報を生成した第一のエンコード・プロセスに従って設定された値をもつ、段階と;
前記第一のエンコードされたオーディオ情報にデコード・プロセスを適用して、前記聴覚的刺激のスペクトル内容を表すサブバンド信号を得る段階であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、段階と;
前記サブバンド信号から得られる一つまたは複数の信号を解析して、第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを計算する段階であって、前記一つまたは複数の第二のパラメータは、第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもつ、段階と;
第二のエンコードされたオーディオ情報、前記一つまたは複数の第一のパラメータおよび前記一つまたは複数の第二のパラメータを集めて、伝送または記憶に好適なフォーマットを有するエンコードされた出力信号にする段階とを含み、
前記第二のエンコードされたオーディオ情報は前記サブバンド信号のエンコードされた表現である、
方法。
〔態様7〕
前記一つまたは複数の第二のパラメータが、前記第一のダイナミックレンジ圧縮プロファイルと前記第二のダイナミックレンジ圧縮プロファイルについての対応するパラメータ間の差分を表す、態様6記載の方法。
〔態様8〕
前記サブバンド信号に合成フィルタバンクを適用して、ダイナミックレンジ圧縮を指定する前記一つまたは複数の第二のパラメータを計算するために解析される前記一つまたは複数の信号を得る段階を含む、態様6または7記載の方法。
〔態様9〕
前記サブバンド信号に第二のエンコード・プロセスを適用して前記第二のエンコードされたオーディオ情報を生成する段階を含む、態様6ないし8のうちいずれか一項記載の方法。
〔態様10〕
前記第二のエンコードされたオーディオ情報が前記第一のエンコードされたオーディオ情報である、態様6ないし8のうちいずれか一項記載の方法。
〔態様11〕
前記エンコードされた入力信号がATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠し、前記第一の基準再生レベルは前記クリッピング・レベルより20dB低い振幅に対応する、態様6ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記エンコードされた出力信号がATSC規格、MPEG-2 AAC規格またはMPEG-4オーディオ規格に準拠し、前記第二の基準再生レベルは前記クリッピング・レベルより11dB低い振幅に対応する、態様6ないし10のうちいずれか一項記載の方法。
〔態様13〕
エンコードされた入力信号をデコードしてオーディオ出力信号を生成する装置であって:
エンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する手段であって、前記メタデータは、一つまたは複数のデコード制御パラメータおよび第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータを含み、任意的に第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ聴覚的刺激を表すよう前記エンコードされたオーディオ情報を生成したエンコード・プロセスに従って設定された値をもち、前記一つまたは複数の第二のパラメータは、前記第一の基準再生レベルより高い第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう前記エンコードされたオーディオ情報を生成した前記エンコード・プロセスに従って設定された値をもつ、手段と;
前記エンコードされたオーディオ情報にデコード・プロセスを適用して、前記聴覚的刺激のスペクトル内容を表すサブバンド信号を得る手段であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、手段と;
前記サブバンド信号を修正して、変化したダイナミックレンジ特性をもつ修正されたサブバンド信号を得る手段であって、前記修正は、前記メタデータが前記一つまたは複数の第二のパラメータを含む場合には前記一つまたは複数の第二のパラメータに応答して適応され、前記メタデータが前記一つまたは複数の第二のパラメータを含まない場合には前記一つまたは複数の第一のパラメータに応答して適応される、手段と;
前記修正されたサブバンド信号に合成フィルタバンクを適用して時間領域オーディオ信号を得る手段と;
前記メタデータが前記一つまたは複数の第二のパラメータを含まない場合、前記メタデータに応答して前記時間領域オーディオ信号に利得および制限器を適用し、前記利得の適用は前記時間領域オーディオ信号を、前記第二の基準再生レベルでの再生のための振幅をもつ前記オーディオ出力信号を得るよう修正し、前記制限器の適用は前記オーディオ出力信号の前記振幅が前記クリッピング・レベルを超えることを防止する、手段とを含む、
装置。
〔態様14〕
聴覚的刺激を表すオーディオ入力信号をエンコードする装置であって:
前記オーディオ入力信号を受領する手段と;
前記オーディオ入力信号に分解フィルタバンクを適用して前記オーディオ入力信号のスペクトル内容を表すサブバンド信号を生成する手段と;
前記オーディオ入力信号から導出された一つまたは複数の信号を解析してメタデータを計算する手段であって、前記メタデータは、第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータおよび第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもち、前記一つまたは複数の第二のパラメータは、第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもつ、手段と;
前記サブバンド信号にエンコード・プロセスを適用して、エンコードされたオーディオ情報を得る手段と;
前記エンコードされたオーディオ情報および前記メタデータを集めて、伝送または記憶に好適なフォーマットを有するエンコードされた出力信号にする手段とを含み、
前記一つまたは複数の第二のパラメータが、前記第一のダイナミックレンジ圧縮プロファイルと前記第二のダイナミックレンジ圧縮プロファイルについての対応するパラメータ間の差分を表す、
装置。
〔態様15〕
エンコードされた入力信号をトランスコードしてエンコードされた出力信号を生成する装置であって:
第一のエンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する手段であって、前記メタデータは、一つまたは複数のデコード制御パラメータおよび第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ聴覚的刺激を表すよう前記第一のエンコードされたオーディオ情報を生成した第一のエンコード・プロセスに従って設定された値をもつ、手段と;
前記第一のエンコードされたオーディオ情報にデコード・プロセスを適用して、前記聴覚的刺激のスペクトル内容を表すサブバンド信号を得る手段であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、手段と;
前記サブバンド信号から得られる一つまたは複数の信号を解析して、第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを計算する手段であって、前記一つまたは複数の第二のパラメータは、第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもつ、手段と;
第二のエンコードされたオーディオ情報、前記一つまたは複数の第一のパラメータおよび前記一つまたは複数の第二のパラメータを集めて、伝送または記憶に好適なフォーマットを有するエンコードされた出力信号にする手段とを含み、
前記第二のエンコードされたオーディオ情報は前記サブバンド信号のエンコードされた表現である、
装置。
〔態様16〕
エンコードされた入力信号をデコードしてオーディオ出力信号を生成する方法の下記の段階、すなわち:
エンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する段階であって、前記メタデータは、一つまたは複数のデコード制御パラメータおよび第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータを含み、任意的に第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ聴覚的刺激を表すよう前記エンコードされたオーディオ情報を生成したエンコード・プロセスに従って設定された値をもち、前記一つまたは複数の第二のパラメータは、前記第一の基準再生レベルより高い第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう前記エンコードされたオーディオ情報を生成した前記エンコード・プロセスに従って設定された値をもつ、段階と;
前記エンコードされたオーディオ情報にデコード・プロセスを適用して、前記聴覚的刺激のスペクトル内容を表すサブバンド信号を得る段階であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、段階と;
前記サブバンド信号を修正して、変化したダイナミックレンジ特性をもつ修正されたサブバンド信号を得る段階であって、前記修正は、前記メタデータが前記一つまたは複数の第二のパラメータを含む場合には前記一つまたは複数の第二のパラメータに応答して適応され、前記メタデータが前記一つまたは複数の第二のパラメータを含まない場合には前記一つまたは複数の第一のパラメータに応答して適応される、段階と;
前記修正されたサブバンド信号に合成フィルタバンクを適用して時間領域オーディオ信号を得る段階と;
前記メタデータが前記一つまたは複数の第二のパラメータを含まない場合、前記メタデータに応答して前記時間領域オーディオ信号に利得および制限器を適用し、前記利得の適用は前記時間領域オーディオ信号を、前記第二の基準再生レベルでの再生のための振幅をもつ前記オーディオ出力信号を得るよう修正し、前記制限器の適用は前記オーディオ出力信号の前記振幅が前記クリッピング・レベルを超えることを防止する、段階とを実行するよう、装置によって実行されることのできる命令のプログラムを記録した記憶媒体。
〔態様17〕
聴覚的刺激を表すオーディオ入力信号をエンコードする方法の下記の段階、すなわち:
前記オーディオ入力信号を受領する段階と;
前記オーディオ入力信号に分解フィルタバンクを適用して前記オーディオ入力信号のスペクトル内容を表すサブバンド信号を生成する段階と;
前記オーディオ入力信号から導出された一つまたは複数の信号を解析してメタデータを計算する段階であって、前記メタデータは、第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータおよび第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもち、前記一つまたは複数の第二のパラメータは、第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもつ、段階と;
前記サブバンド信号にエンコード・プロセスを適用して、エンコードされたオーディオ情報を得る段階と;
前記エンコードされたオーディオ情報および前記メタデータを集めて、伝送または記憶に好適なフォーマットを有するエンコードされた出力信号にする段階とを実行するよう、装置によって実行されることのできる命令のプログラムを記録した記憶媒体であって、
前記一つまたは複数の第二のパラメータが、前記第一のダイナミックレンジ圧縮プロファイルと前記第二のダイナミックレンジ圧縮プロファイルについての対応するパラメータ間の差分を表す、
記憶媒体。
〔態様18〕
エンコードされた入力信号をトランスコードしてエンコードされた出力信号を生成する方法の下記の段階、すなわち:
第一のエンコードされたオーディオ情報および関連するメタデータを含むエンコードされた入力信号を受領する段階であって、前記メタデータは、一つまたは複数のデコード制御パラメータおよび第一のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第一のパラメータを含み、前記一つまたは複数の第一のパラメータは、第一の基準再生レベルでの再生についてクリッピング・レベルを超えない振幅をもつ聴覚的刺激を表すよう前記第一のエンコードされたオーディオ情報を生成した第一のエンコード・プロセスに従って設定された値をもつ、段階と;
前記第一のエンコードされたオーディオ情報にデコード・プロセスを適用して、前記聴覚的刺激のスペクトル内容を表すサブバンド信号を得る段階であって、前記デコード・プロセスは、前記一つまたは複数のデコード制御パラメータに応答して適応される、段階と;
前記サブバンド信号から得られる一つまたは複数の信号を解析して、第二のダイナミックレンジ圧縮プロファイルに従ってダイナミックレンジ圧縮を指定する一つまたは複数の第二のパラメータを計算する段階であって、前記一つまたは複数の第二のパラメータは、第二の基準再生レベルでの再生について前記クリッピング・レベルを超えない振幅をもつ前記聴覚的刺激を表すよう設定された値をもつ、段階と;
第二のエンコードされたオーディオ情報、前記一つまたは複数の第一のパラメータおよび前記一つまたは複数の第二のパラメータを集めて、伝送または記憶に好適なフォーマットを有するエンコードされた出力信号にする段階とを実行するよう、装置によって実行されることのできる命令のプログラムを記録した記憶媒体であって、
前記第二のエンコードされたオーディオ情報は前記サブバンド信号のエンコードされた表現である、
記憶媒体。
図1
図2
図3
図4
図5
図6