特許6474845 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧 ▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特許6474845軽減された計算量の変換器ＳＮＲ計算

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4a
4b
4c
4d
4e
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6474845

(24)【登録日】2019年2月8日

(45)【発行日】2019年2月27日

(54)【発明の名称】軽減された計算量の変換器ＳＮＲ計算

(51)【国際特許分類】

G10L 19/00 20130101AFI20190218BHJP

G10L 19/035 20130101ALI20190218BHJP

【ＦＩ】

G10L19/00 330D

G10L19/035 A

【請求項の数】5

【外国語出願】

【全頁数】37

(21)【出願番号】特願2017-48191(P2017-48191)

(22)【出願日】2017年3月14日

(62)【分割の表示】特願2015-538514(P2015-538514)の分割

【原出願日】2013年11月4日

(65)【公開番号】特開2017-138610(P2017-138610A)

(43)【公開日】2017年8月10日

【審査請求日】2017年3月14日

(31)【優先権主張番号】61/723,687

(32)【優先日】2012年11月7日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(73)【特許権者】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】シュフーグ，ミヒャエル

(72)【発明者】

【氏名】ウイリアムズ，フィリップ

【審査官】菊池智紀

(56)【参考文献】

【文献】特表２００６−５１８８７３（ＪＰ，Ａ）

【文献】特表２００７−５２４１２４（ＪＰ，Ａ）

【文献】特開２０１０−２５０３２８（ＪＰ，Ａ）

【文献】 Louis D. Fielder et al.，"Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System"，Proc. of 117th Convention of AES，２００４年１０月１日

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−１９／２６

(57)【特許請求の範囲】

【請求項1】

オーディオ・トランスコーダであって、
・第一のデータレートでの第一のビットストリームを受領するよう構成されており、
・前記第一のビットストリームは、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号のフレームを示し、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含み、
・前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合は前記オーディオ信号の前記フレームのスペクトル成分を示し、
・前記第一の制御パラメータは、前記量子化されたスケーリングされた値の集合を量子化するために使われた量子化器の分解能を示し、
・前記第二の制御パラメータは、第二の目標データレートでの第二のビットストリームのために前記量子化されたスケーリングされた値を再量子化するために当該トランスコーダによって使用される量子化器を示し、
・前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致し、
当該トランスコーダはさらに、
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定し、
・前記第一のビットストリームに含まれる前記第一の制御パラメータから導出される前記第二の制御パラメータの値が前記第一のビットストリームに含まれる前記第二の制御パラメータに等しいかどうかを判定し、
・前記第一のデータレートが前記第二の目標データレートに等しく、かつ前記第一のビットストリームに含まれる前記第一の制御パラメータから導出される前記第二の制御パラメータの値が前記第一のビットストリームに含まれる前記第二の制御パラメータに等しい場合、前記量子化されたスケーリングされた値の集合、前記エンコードされたスケール因子の集合および前記第二の制御パラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定するよう構成されている、
オーディオ・トランスコーダ。

【請求項2】

前記第一のデータレートが前記第二の目標データレートより小さく、かつ、前記第一のビットストリームに含まれる前記第一の制御パラメータから導出される前記第二の制御パラメータの値が前記第一のビットストリームに含まれる前記第二の制御パラメータに等しい場合、さらに、
・前記第一のビットストリームが結合チャネルおよび／またはフル・チャネルを含むかどうかを判定し、
・前記量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値および前記エンコードされたスケール因子の集合のエンコードされたスケール因子であって前記フル・チャネルに関連付けられているものを、前記第二のビットストリームにコピーするよう構成されている、
請求項１記載のオーディオ・トランスコーダ。

【請求項3】

・前記量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値および前記エンコードされたスケール因子の集合のエンコードされたスケール因子であって前記結合チャネルに関連付けられているものを分離し、それにより量子化されたスケーリングされた値の第一の集合およびエンコードされたスケール因子の第一の集合を与え、
・前記第一の制御パラメータを使って前記量子化されたスケーリングされた値の第一の集合を量子化解除して量子化解除されたスケーリングされた値の第一の集合を与え、
・前記第二の制御パラメータを使って前記量子化解除されたスケーリングされた値の第一の集合を再量子化し、それにより再量子化されたスケーリングされた値の第一の集合を与え、
・前記再量子化されたスケーリングされた値の第一の集合を、前記第二のビットストリーム中に挿入するようさらに構成されている、
請求項２記載のオーディオ・トランスコーダ。

【請求項4】

第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号を示す第一のビットストリームを、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに基づく第二のビットストリームにトランスコードする方法であって、
・第一のデータレートでの前記第一のビットストリームを受領する段階であって、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含み、
・前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合は、前記オーディオ信号のスペクトル成分を示し、
・前記第一の制御パラメータは、前記量子化されたスケーリングされた値の集合を量子化するために使われた量子化器を示し、
・前記第二の制御パラメータは、第二の目標データレートの第二のビットストリームのために前記量子化されたスケーリングされた値の集合を再量子化するためにトランスコーダによって使われるべき量子化器を示す、段階と；
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定する段階と；
・前記第一のビットストリームに含まれる前記第一の制御パラメータから導出される前記第二の制御パラメータの値が前記第一のビットストリームに含まれる前記第二の制御パラメータに等しいかどうかを判定する段階と；
・前記第一のデータレートが前記第二の目標データレートに等しく、前記第一のビットストリームに含まれる前記第一の制御パラメータから導出される前記第二の制御パラメータの値が前記第一のビットストリームに含まれる前記第二の制御パラメータに等しい場合、前記量子化されたスケーリングされた値の集合、前記エンコードされたスケール因子の集合および前記第二の制御パラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定する段階とを含む、
方法。

【請求項5】

オーディオ・トランスコーダであって、
・第一のデータレートでの第一のビットストリームを受領する段階であって、
・前記第一のビットストリームは、ドルビー・デジタル・プラス・コーデック・システムに基づいてエンコードされたオーディオ信号を示し、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、snroffsetパラメータおよびconvsnroffsetパラメータを含み、
・前記convsnroffsetパラメータは、第二の目標データレートの第二のビットストリームを生成するために当該トランスコーダによって使われるべき量子化器を指示し、
・前記第二のビットストリームはドルビー・デジタル・オーディオ・コーデック・システムに従う、段階と；
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定する段階と；
・前記第一のビットストリームに含まれる前記snroffsetパラメータから導出される前記convsnroffsetパラメータの値が前記第一のビットストリームに含まれる前記convsnroffsetパラメータに等しいかどうかを判定する段階と；
前記第一のデータレートが前記第二の目標データレートに等しく、前記第一のビットストリームに含まれる前記snroffsetパラメータから導出される前記convsnroffsetパラメータの値が前記第一のビットストリームに含まれる前記convsnroffsetパラメータに等しい場合、前記量子化されたスケーリングされた値の集合および前記convsnroffsetパラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定する段階とを実行するよう構成されている、
トランスコーダ。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願への相互参照
本願は2012年11月7日に出願された米国仮特許出願第61/723,687号の優先権を主張する。同出願の内容はここに参照によりその全体において組み込まれる。

【0002】

技術分野
本稿は、オーディオ・エンコード／デコードに関する。特に、本稿はオーディオ・エンコード／デコードのコンテキストにおいて使用されるビット割り当てプロセスの複雑さを軽減するための方法およびシステムに関する。

【背景技術】

【0003】

5.1、7.1または9.1マルチチャネル・オーディオ・レンダリング・システムのようなさまざまな単一チャネルおよび／またはマルチチャネルのオーディオ・レンダリング・システムが現在使われている。オーディオ・レンダリング・システムはたとえば、5＋1、7＋1または9＋1スピーカー位置から発するサラウンドサウンドの生成を許容する。対応する単一チャネルまたはマルチチャネルのオーディオ信号の効率的な伝送または効率的な記憶のために、ドルビー・デジタル（DD）またはドルビー・デジタル・プラス（DD+）のようなオーディオ・コーデック（エンコーダ／デコーダ）システムが使われている。

【0004】

特定のオーディオ・コーデック・システム（たとえばドルビー・デジタル）を使ってエンコードされたオーディオ信号をデコードするよう構成されているオーディオ・レンダリング装置のかなりの設置済みの基盤がある。この特定のオーディオ・コーデック・システムはたとえば、第二のオーディオ・コーデックと称されてもよい。他方、オーディオ・コーデック・システムの進化は更新されたオーディオ・コーデック・システム（たとえばドルビー・デジタル・プラス）をもたらすことがある。これはたとえば第一のオーディオ・コーデック・システムと称されてもよい。更新されたオーディオ・コーデック・システムは、追加的な機能（たとえば増大した数のチャネル）および／または改善された符号化品質を提供しうる。よって、コンテンツ・プロバイダーは、自らのコンテンツを、更新されたオーディオ・コーデック・システムに基づいて提供する傾向があることがある。

【0005】

にもかかわらず、第二のオーディオ・コーデック・システムのデコーダをもつオーディオ・レンダリング装置を有するユーザーも、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ・コンテンツをレンダリングできるべきである。これは、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ・コンテンツを第二のオーディオ・コーデック・システムに基づいてエンコードされた修正されたオーディオ・コンテンツに変換するよう構成されているいわゆるトランスコーダまたは変換器によって達成されうる。（たとえばセットトップボックス内に実装される）そのようなトランスコーダ／変換器のコストを軽減するために、変換の計算量は比較的低いべきである。この目的のために、第一のオーディオ・コーデック・システムに基づいて動作するエンコーダは、エンコードされたオーディオ・コンテンツをなすビットストリーム中に一つまたは複数の制御パラメータを挿入するよう構成されてもよい。前記一つまたは複数の制御パラメータは、トランスコーダによって、低下した計算量で当該変換を実行するために使用されうる。他方、前記一つまたは複数の制御パラメータの生成は、典型的には、エンコーダの計算量を増す。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】Advanced Television Systems Committee (ATSC)、"Digital Audio Compression Standard (AC-3, E-AC-3)", Document A/52:2010, 2010年11月22日

【非特許文献2】Fielder, L.D. et al.、"Introduction to Dolby Digital Plus, and Enhancement to the Dolby Digital Coding System"、AEC Convention, 28-31 October 2004

【発明の概要】

【発明が解決しようとする課題】

【0007】

本稿では、オーディオ・コンテンツの、（第一のオーディオ・コーデック・システムに基づく）第一のフォーマットから（第二のオーディオ・コーデック・システムに基づく）第二のフォーマットへの変換を低下した計算量で可能にする方法およびシステムが記述される。本稿に記載される方法およびシステムは、エンコーダおよび／またはトランスコーダにおける計算量を減らすために使用されてもよい。

【課題を解決するための手段】

【0008】

ある側面によれば、第一のオーディオ・コーデック・システムに基づくオーディオ信号のフレームをエンコードするよう構成されているオーディオ・エンコーダが記述される。オーディオ信号はマルチチャネル・オーディオ信号、たとえば5.1、7.1または9.1マルチチャネル・オーディオ信号を含んでいてもよい。オーディオ信号は一連のフレームに分割されてもよい。ここで、フレームはオーディオ信号の所定数のサンプル、たとえば1536サンプルを含んでいてもよい。第一のオーディオ・コーデック・システムは、ドルビー・デジタル・プラス・コーデック・システム、たとえば低計算量ドルビー・デジタル・プラス（Low Complexity Dolby Digital Plus）・システムを含んでいてもよく、あるいはそれに準拠していてもよい。オーディオ・エンコーダはオーディオ信号を第一の目標データレートの第一のビットストリームにエンコードするよう構成されていてもよい。第一の目標データレート（または第一のデータレート）の例は384kbps、448kbpsまたは640kbpsである（特に5.1マルチチャネル・オーディオ信号において）。特に他の型のマルチチャネル・オーディオ信号については、他の第一の目標データレートが可能であることを注意しておくべきである。

【0009】

オーディオ・エンコーダは、オーディオ信号のフレームに基づいてスペクトル係数の集合を決定するよう構成された変換ユニットを有していてもよい。換言すれば、変換ユニットは、オーディオ信号の一つまたは複数のスペクトル成分を決定するよう構成されていてもよい。変換ユニットは、オーディオ信号のフレームから複数のブロックを決定するよう構成されていてもよい。さらに、変換ユニットは、時間領域からのサンプルのブロックを周波数領域に変換するよう構成されていてもよい。例として、変換ユニットは、オーディオ信号の当該フレームから導出される一つまたは複数のブロックに対して、修正離散コサイン変換（MDCT: Modified Discrete Cosine Transform）を実行するよう構成されていてもよい。

【0010】

エンコーダは、前記スペクトル係数の集合に基づいて、スケール因子（scale factor）の集合およびスケーリングされた値（scaled value）の集合を決定するよう構成された浮動小数点エンコード・ユニットを有していてもよい。スケール因子は指数eに対応してもよく、スケーリングされた値は仮数mに対応してもよい。浮動小数点エンコード・ユニットは、公式X＝m・2^-eを使って変換係数Xについて指数eおよび仮数mを決定するよう構成されていてもよい。前記スペクトル係数の集合からのすべてのスペクトル係数についてこれを行なうことによって、前記スケール因子の集合および前記スケーリングされた値の集合が決定されうる。

【0011】

さらに、浮動小数点エンコード・ユニットは、前記スケール因子の集合をエンコードして、エンコードされたスケール因子の集合を与えるよう構成されていてもよい。前記スケール因子の集合のエンコードはたとえば、オーディオ信号のあるフレームのすべてのブロックについてのスケール因子に基づいていてもよい。エンコードは、結果としてスケール因子の修正につながり、エンコードされたスケール因子が前記スケール因子の値とは異なる値を表わすことがある。

【0012】

エンコーダは、第一の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合について使われるビット数に基づき、前記スケーリングされた値の集合を量子化するための利用可能なビットの総数を決定するよう構成されているビット割り当ておよび量子化ユニットを有していてもよい。この目的のために、第一の目標データレートはフレーム当たりのビットの総数に変換されてもよく、エンコードされたスケール因子の集合のために使われるビット（および他の目的のためにリザーブされていることがありうるまたは他の目的のためにすでに使用されていることがありうるビット）の数が、ビットの総数から減算されてもよく、それによりスケーリングされた値の集合を量子化するための利用可能なビットの総数を与える。

【0013】

ビット割り当ておよび量子化ユニットは、スケーリングされた値を量子化するための量子化器の分解能を決定するための逐次反復式のビット割り当てプロセスを実行するよう構成されていてもよい。量子化器の分解能は、スケーリングされた値の集合を量子化するための利用可能なビットの総数を超過しないよう、かつ、知覚的な量子化ノイズが最小化される（または軽減される）よう決定されるべきである。この要件を満たす量子化器は、第一の制御パラメータを使って同定されうる。換言すれば、ビット割り当ておよび量子化ユニットは、スケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの総数の割り当てを示す、すなわちスケーリングされた値の集合のスケーリングされた値を量子化するための量子化器を示す、第一の制御パラメータを決定するよう構成されていてもよい。第一の制御パラメータは、たとえば、ドルビー・デジタル・プラスsnroffset（またはSNRオフセット）値であってもよく、あるいはそれを含んでいてもよい。

【0014】

例として、ビット割り当ておよび量子化ユニットは、エンコードされたスケール因子の集合に基づいて前記集合の変換係数のパワースペクトル密度（PSD: power spectral density）分布を決定することによって前記第一の制御パラメータを決定するよう構成されていてもよい。エンコードされたスケール因子の集合は典型的には第一のビットストリーム中に挿入され、よって対応するデコーダ（またはトランスコーダ）にとって既知である。よって、PSD分布は対応するデコーダ（またはトランスコーダ）においても決定されうる。さらに、ビット割り当ておよび量子化ユニットは、エンコードされたスケール因子の集合に基づいてマスキング曲線を決定するよう構成されていてもよい。よって、マスキング曲線も典型的には対応するデコーダ（またはトランスコーダ）において導出可能である。マスキング曲線は、オーディオ信号の近隣のスペクトル成分（すなわち隣接周波数におけるスペクトル成分）または変換係数の間のマスキングを示してもよい。さらに、ビット割り当ておよび量子化ユニットは、中間的な第一の制御パラメータを使ってマスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定するよう構成されていてもよい。特に、中間的な第一の制御パラメータは、オフセット・マスキング曲線を上下に動かすために使用されてもよく、それによりマスクされているより少ない／より多いスペクトル成分を与える、すなわちそれにより量子化される必要があるより少ない／より多いスペクトル成分を与える。ビット割り当ておよび量子化ユニットはさらに、PSD分布とオフセット・マスキング曲線の比較に基づいて、スケーリングされた値の集合のスケーリングされた値を量子化するための必要とされるビットの数を決定するよう構成されていてもよい。中間的な第一の制御パラメータは、必要とされるビットの数と利用可能なビットの総数との間の差が小さくなるよう（たとえば最小化されるよう）（逐次反復的に）調整されてもよく、それにより、差を小さくする（たとえば最小化する）中間的な第一の制御パラメータとして、第一の制御パラメータを与える。典型的には、差は、必要とされるビットの数が利用可能なビットの総数を超過しないようなものであるべきである。

【0015】

上述した逐次反復式のビット割り当てプロセスの結果として、スケーリングされた値の集合を量子化するための量子化器を定義する第一の制御パラメータが得られる。ビット割り当ておよび量子化ユニットは、第一の制御パラメータに基づいて、スケーリングされた値の集合を量子化して、量子化されたスケーリングされた値の集合を与えるよう構成されていてもよい。

【0016】

エンコーダはさらに、トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするための第二の制御パラメータを導出するよう構成されたトランスコード・シミュレーション・ユニットをさらに有していてもよい。第二のビットストリームは典型的には、第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致する。例として、第二のコーデック・システムはドルビー・デジタル・コーデック・システムに準拠していてもよく、第二の制御パラメータはドルビー・デジタルSNRオフセット値に対応していてもよく、あるいはそれを含んでいてもよい。第二の目標データレートはたとえば640kbps（特に5.1マルチチャネル・オーディオ信号の場合において）であってもよい。第二の目標データレートは第一の目標データレート以上であってもよい。他の型のマルチチャネル・オーディオ信号については、他の第二の目標データレートが可能であることを注意しておくべきである。

【0017】

トランスコード・シミュレーション・ユニットは、第一の制御パラメータから第二の制御パラメータを導出するよう構成されていてもよい。特に、トランスコード・シミュレーション・ユニットは、第一の制御パラメータのみから第二の制御パラメータを導出するよう構成されていてもよい。ある実施形態では、トランスコード・シミュレーション・ユニットは、第二のオーディオ・コーデック・システムに基づくビット割り当てプロセスを実行することなく、第二の制御パラメータを導出するよう構成される。ある個別的な実施形態では、トランスコード・シミュレーション・ユニットは、第一の制御パラメータの値に等しい第二の制御パラメータの値を設定するよう構成されていてもよい。よって、エンコーダは、低下した計算量で第二の制御パラメータを決定するよう構成されうる。第一の制御パラメータは、粗い（coarse）成分および細かい（fine）成分を含んでいてもよい。例として（DD／DD+オーディオ・コーデック・システムの場合、csnroffsetおよびfsnroffsetパラメータ）。トランスコード・シミュレーション・ユニットは、前記粗い成分および細かい成分を組み合わせて、第二の制御パラメータ（たとえば、convsnroffsetパラメータ）を与えるよう構成されていてもよい。

【0018】

さらに、エンコーダは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび／または第二の制御パラメータを含む第一のビットストリームを生成するよう構成されたビットストリーム・パッキング・ユニットを有していてもよい。第一のビットストリームは、対応するデコーダに提供されてもよい。代替的または追加的に、第一のビットストリームは、第一のビットストリームを第二のビットストリームに変換するよう構成されたトランスコーダに提供されてもよい。ビットストリーム・パッキング・ユニットは、第一のビットストリームが第一の目標データレートに準拠するよう、一つまたは複数のスキップ・ビット（これは余剰（waste）ビットまたは不使用ビットまたは充填ビットとも称されうる）を第一のビットストリーム中に挿入するよう構成されていてもよい。

【0019】

第一のビットストリームは第一のフォーマットに準拠してもよく、第二のビットストリームは第二のフォーマットに準拠してもよい。トランスコード・シミュレーション・ユニットは、量子化されたスケーリングされた値の集合およびエンコードされたスケール因子の集合を表現するために第二のフォーマットによって要求される超過ビットの数を決定するよう構成されていてもよい。換言すれば、トランスコード・シミュレーション・ユニットは、第一のフォーマットに基づく表現に比べた第二のフォーマットに基づいて当該オーディオ信号を表現するのに必要とされる追加的なビットの数として、超過ビットの数を決定するよう構成されていてもよい。超過ビットの数は、オーディオ信号の当該フレームについて個別的に決定されてもよく、あるいは超過ビットの数はあらかじめ決定された値、たとえば最悪ケースの値であってもよい。エンコーダのビット割り当ておよび量子化ユニットは、超過ビットの数にも基づいて利用可能なビットの総数を決定するよう構成されていてもよい。特に、ビット割り当ておよび量子化ユニットは、利用可能なビットの総数を、超過ビットの数だけ減らすよう構成されていてもよい。こうすることによって、第二のビットストリームが、第二の目標データレートを超過しないことが保証されることができる（特に、第一の目標データレートが第二の目標データレートに対応するまたはそれに等しい場合）。

【0020】

トランスコード・シミュレーション・ユニットは、第一の制御パラメータに基づくデフォルトの第二の制御パラメータ、たとえば第一の制御パラメータに対応するまたはそれに等しいデフォルトの第二の制御パラメータを決定するよう構成されていてもよい。さらに、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータに基づいてトランスコードされているデフォルトの第二のビットストリームが第二の目標データレートを超過するかどうかを判定するよう構成されていてもよい。換言すれば、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータを使って、第一のビットストリームを第二のビットストリームに変換するトランスコーダをシミュレートするよう構成されていてもよい。この目的のために、トランスコード・シミュレーション・ユニットは、第一の制御パラメータを使って、量子化されたスケーリングされた値の集合を量子化解除して、量子化解除されたスケーリングされた値の集合を与え、デフォルトの第二の制御パラメータを使って量子化解除されたスケーリングされた値の集合を再量子化して再量子化されたスケーリングされた値の集合を与えるよう構成されていてもよい。

【0021】

デフォルトの第二のビットストリームが第二の目標データレートを超過しない場合、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータに基づいて第二の制御パラメータを決定するよう構成されていてもよい。例として、第二の制御パラメータは、デフォルトの第二の制御パラメータに等しく設定されてもよい。よって、第二のオーディオ・コーデック・システムに基づく明示的なおよび／または逐次反復的なビット割り当てプロセスを実行する必要なしに、第二のビットストリームが第二の目標データレートを超過しないことが保証される。

【0022】

他方、デフォルトの第二のビットストリームが第二の目標データレートを超過する場合、トランスコード・シミュレーション・ユニットは、第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化を実行して、第二の制御パラメータに基づいてトランスコードされる第二のビットストリームが第二の目標データレートを超過しないよう第二の制御パラメータを決定するよう構成されていてもよい。換言すれば、デフォルトの第二のビットストリームが第二の目標データレートを超過すると判定される場合にのみ、第二のオーディオ・コーデック・システムに基づいてビット割り当ておよび量子化プロセスを実行することが必要となりうる。

【0023】

第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化プロセスは、第二の目標データレートに基づき、かつエンコードされたスケール因子の集合を第二のオーディオ・コーデック・システムに基づいて再エンコードするために使われるビットの数に基づいて、量子化解除されたスケーリングされた値の集合を量子化するための利用可能なビットの第二の総数を決定することを含んでいてもよい。さらに、ビット割り当ておよび量子化プロセスは、量子化解除されたスケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの第二の総数の割り当てを示す第二の制御パラメータを決定することを含んでいてもよい。

【0024】

第二の制御パラメータの決定は、逐次反復式のビット割り当てプロセスとの関連で実行されてもよい。逐次反復式のビット割り当てプロセスは、エンコードされたスケール因子の集合に基づいて（たとえば、第二のオーディオ・コーデック・システムに基づいてエンコードされているエンコードされたスケール因子の集合に基づいて）パワースペクトル密度（PSD）分布を決定することを含んでいてもよい。さらに、逐次反復式のビット割り当てプロセスは、エンコードされたスケール因子の集合に基づいてマスキング曲線を決定することを含んでいてもよい。中間的な第二の制御パラメータを使ってマスキング曲線をオフセットすることによってオフセット・マスキング曲線が決定されてもよい。さらに、PSD分布とオフセット・マスキング曲線の比較に基づいて、量子化解除されたスケーリングされた値の集合の量子化解除されたスケーリングされた値を量子化するための必要とされるビットの数が決定されてもよい。中間的な第二の制御パラメータは、必要とされるビットの数と利用可能なビットの第二の総数との間の差が小さくなるよう（たとえば最小化されるよう）逐次反復プロセスにおいて調整されてもよく、それにより、第二の制御パラメータを与える。換言すれば、トランスコード・シミュレーション・ユニットは、第一のオーディオ・コーデック・システムに基づくビット割り当てプロセスと同様の（たとえばそれに等しい）第二のオーディオ・コーデック・システムに基づいて逐次反復式のビット割り当てプロセスを実行するよう構成されていてもよい。

【0025】

トランスコード・シミュレーション・ユニットは、中間的な第二の制御パラメータを、第一の制御パラメータで初期化するよう構成されていてもよい。それにより、第二の目標データレートに関するおよび／または量子化ノイズに関する要求を満たす第二の制御パラメータを決定するために必要とされる逐次反復数を潜在的に減らすことになる。代替的にまたは追加的に、トランスコード・シミュレーション・ユニットは、PSD分布とオフセット・マスキング曲線の比較に基づいて決定された量子化ノイズが所定のノイズ閾値を下回る場合に、逐次反復手順を停止するよう構成されていてもよい。それにより、必要とされる反復工程の数を潜在的に減らすことになる。

【0026】

代替的または追加的に、デフォルトの第二のビットストリームが第二の目標データレートを超過すると判定される場合、トランスコード・シミュレーション・ユニットは、デフォルトの第二の制御パラメータを所定の制御パラメータ・オフセット値だけオフセットすることによって、第二の制御パラメータを決定するよう構成されていてもよい。所定の制御パラメータ・オフセット値は、たとえば、第一のオーディオ・コーデック・システムに基づいて実行されるビット割り当ておよび量子化プロセスに基づいて決定されてもよい。ビット割り当ておよび量子化ユニットによって実行されるこのビット割り当ておよび量子化プロセスは、第二のビットストリームが第二の目標データレートを満足させる（たとえば第二の目標データレートを超過しない）よう、第二の制御パラメータがどのくらいオフセットされるべきかについての指示を提供してもよい。

【0027】

あるさらなる側面によれば、第一のデータ・レート（たとえば第一の目標データ・レート）の第一のビットストリームを受領するよう構成されているオーディオ・トランスコーダ（オーディオ変換器とも称される）が記述される。上記で概説されているように、第一のビットストリームは、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号のフレームを示していてもよい。第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含んでいてもよい。量子化されたスケーリングされた値の集合およびエンコードされたスケール因子の集合は、オーディオ信号のそのフレームのスペクトル成分を示していてもよく、第一の制御パラメータは量子化されたスケーリングされた値の集合を量子化するために使われた量子化器の分解能を示していてもよい。第二の制御パラメータは、第二の目標データレートの第二のビットストリームについての量子化されたスケーリングされた値の集合を再量子化するためにトランスコーダによって使用されるべき量子化器を示していてもよい。ここで、第二のビットストリームは第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致する。

【0028】

トランスコーダは、第一のデータレートが第二の目標データレートに等しいかどうかを判定し、第一の制御パラメータが第二の制御パラメータに対応するかどうかを判定するよう構成されていてもよい。第一のデータレートが第二の目標データレート等しく、第一の制御パラメータが第二の制御パラメータに等しい場合、トランスコーダは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合および第二の制御パラメータを第二のビットストリームにコピーすることによって、第二のビットストリームを決定するよう構成されていてもよい。よって、トランスコーダは、量子化されたスケーリングされた値の集合を（第一の制御パラメータを使って）量子化解除する必要なしに、かつ（第二の制御パラメータを使って）量子化解除されたスケーリングされた値を再量子化する必要なしに、第二のビットストリームを生成するよう構成されていてもよい。結果として、トランスコーダの計算量が軽減されうる。

【0029】

第一のデータレートが第二の目標データレートより小さく、第一の制御パラメータが第二の制御パラメータに対応する場合、トランスコーダは、第一のビットストリームが結合チャネル（a coupling channel）および／またはフル・チャネル（a full channel）を含むかどうかを判定するよう構成されていてもよい（たとえば、マルチチャネル・オーディオ信号の場合）。トランスコーダは、量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値およびエンコードされたスケール因子の集合のエンコードされたスケール因子であってフル・チャネルに関連付けられているものを、第二のビットストリームにコピーするよう構成されていてもよい。よって、フル・チャネルについては、トランスコーダは、（フル・チャネルに関連付けられている）量子化されたスケーリングされた値の集合を量子化解除し、（フル・チャネルに関連付けられている）量子化解除されたスケーリングされた値を再量子化する必要がない。それにより、トランスコーダの計算量が軽減される。

【0030】

さらに、オーディオ・トランスコーダは、量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値およびエンコードされたスケール因子の集合のエンコードされたスケール因子であって結合チャネルに関連付けられているものを分離し、それにより量子化されたスケーリングされた値の第一の集合およびエンコードされたスケール因子の第一の集合を与えるよう構成されていてもよい。さらに、トランスコーダは、第一の制御パラメータを使って量子化されたスケーリングされた値の第一の集合を量子化解除して量子化解除されたスケーリングされた値の第一の集合を与え、第二の制御パラメータを使って量子化解除されたスケーリングされた値の第一の集合を再量子化し、それにより再量子化されたスケーリングされた値の第一の集合を与えるよう構成されていてもよい。再量子化されたスケーリングされた値の第一の集合は、第二のビットストリーム中に挿入されてもよい。よって、第二のオーディオ・コーデック・システムのデコーダは、結合チャネルを含まない、すなわちフル・チャネルのみを含む第二のビットストリームを提供される。

【0031】

もう一つの側面によれば、第一のオーディオ・コーデック・システムに基づいてオーディオ信号を第一のビットストリームにエンコードする方法（および対応するエンコーダ）が記述される。本方法は、オーディオ信号のスペクトル成分に基づいて（たとえば変換係数の集合に基づいて）スケール因子の集合およびスケーリングされた値の集合を決定することを含む。本方法は、第一のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを使ってスケーリングされた値の集合を量子化するための量子化器の分解能を示す第一の制御パラメータを決定することに進む。量子化器の分解能は、第一のビットストリームの第一の目標データレートに依存してもよい。さらに、本方法は、第一のビットストリームの、第二の目標データレートの第二のビットストリームへの変換を可能にするための第二の制御パラメータを決定することを含んでいてもよい。上記で概説したように、第二のビットストリームは、第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致してもよい。第二の制御パラメータを決定する段階は、第一の制御パラメータに基づいて、たとえば第二のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを実行することなく、第二の制御パラメータを決定することを含んでいてもよい。上記で概説したように、第一の制御パラメータに基づく第二の制御パラメータの決定は、（たとえば第二のビットストリームが第二の目標データレートを満足させることに関する）一つまたは複数の条件を課されてもよい。第一のビットストリームは、第一および第二の制御パラメータを示してもよい。

【0032】

あるさらなる側面によれば、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号を示す第一のビットストリームを、第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに基づく第二のビットストリームにトランスコードする方法（および対応するトランスコーダ）が記述される。本方法は、第一のデータレートの第一のビットストリームを受領することを含む。第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含んでいてもよい。量子化されたスケーリングされた値の集合およびエンコードされたスケール因子の集合は、オーディオ信号のスペクトル成分を示していてもよく、第一の制御パラメータは、量子化されたスケーリングされた値の集合を量子化するために使われた量子化器を示していてもよい。第二の制御パラメータは、第二の目標データレートの第二のビットストリームのために量子化されたスケーリングされた値の集合を再量子化するためにトランスコーダによって使われるべき量子化器を示していてもよい。本方法はさらに、第一のデータレートが第二の目標データレートに等しいかどうかを判定し、第一の制御パラメータが第二の制御パラメータに対応するかどうかを判定することを含んでいてもよい。第一のデータレートが第二の目標データレートに等しく、第一の制御パラメータが第二の制御パラメータに対応する（たとえば、値において等しい）場合、本方法は、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合および第二の制御パラメータを第二のビットストリームにコピーすることによって、第二のビットストリームを決定することに進んでもよい。

【0033】

もう一つの側面によれば、ドルビー・デジタル・プラス・コーデック・システムに基づくオーディオ信号をエンコードし、それにより第一の目標データレートの第一のビットストリームを与えるよう構成されたオーディオ・エンコーダ（および対応する方法）が記述される。オーディオ・エンコーダは、ドルビー・デジタル・プラス・コーデック・システムに基づいて第一の目標データレートについてのsnroffsetパラメータを決定するよう構成されていてもよい。さらに、エンコーダは、トランスコーダが第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするため、snroffsetパラメータからconvsnroffsetパラメータを導出するよう構成されていてもよい。第二のビットストリームは、ドルビー・デジタル・コーデック・システムに一致していてもよく、第一のビットストリームはsnroffsetパラメータおよびconvsnroffsetパラメータを含んでいてもよい。

【0034】

あるさらなる側面によれば、第一のフォーマットに対応する第一のビットストリームの、第二のフォーマットに対応する第二のビットストリームへの変換を可能にする方法が記述される。さらに、該変換を可能にする方法を実行するよう構成されている対応する装置（特に対応するオーディオ・エンコーダ）が記述される。第一のビットストリームの第二のビットストリームへの実際の変換は、異なるエンティティによって（たとえばトランスコーダによって）実行されてもよい。

【0035】

第一および第二のフォーマットは、本稿において記述される第一および第二のオーディオ・コーデック・システムのフォーマットに対応していてもよい。第一および第二のビットストリームは典型的には、エンコードされたオーディオ信号の少なくとも一つの同一のフレームに関係している。換言すれば、第一および第二のビットストリームは典型的には、オーディオ信号の対応する一つまたは複数のフレームを記述する。第一のビットストリームは、該第一のビットストリームに関連付けられた第一のビット割り当てプロセスを示す第一の制御パラメータを含む。第一のビット割り当てプロセスは第一のオーディオ・コーデック・システムに従って実行されてもよい。本稿で概説されているように、第一の制御パラメータは粗い成分および細かい成分を含んでいてもよい。

【0036】

第二のビットストリームは、該第二のビットストリームに関連付けられた第二のビット割り当てプロセスを示す第二の制御パラメータを含む。第二のビット割り当てプロセスは第二のオーディオ・コーデック・システムに従って実行されてもよい。さらに、第二のビットストリームは、第二の制御パラメータを使って第一のビットストリームから生成されてもよい。特に、第二の制御パラメータは、第一のビットストリームを第二のビットストリームに変換するためにトランスコーダ（これはエンコーダに対してリモートであってもよい）によって使用されてもよい。

【0037】

本方法は、第一の制御パラメータのみに基づいて第二の制御パラメータを決定することを含んでいてもよい。特に、第二の制御パラメータは、単に第一の制御パラメータの粗いおよび細かい成分の組み合わせに基づいて決定されてもよい。さらに、本方法は、第二の制御パラメータを第一のビットストリーム中に挿入することを含んでいてもよい。よって、（第一および第二の制御パラメータを含む）第一のビットストリームは、トランスコーダに送信されて、トランスコーダが、低下した計算量で（かつ第二のビットストリームを送信する必要なしに）第一のビットストリームから第二のビットストリームを決定できるようにしてもよい。

【0038】

あるさらなる側面によれば、オーディオ・トランスコーダ（および対応するトランスコード方法）が記述される。オーディオ・トランスコーダは、第一のデータレートの第一のビットストリームを受領するよう構成されている。第一のビットストリームは、ドルビー・デジタル・プラス・コーデック・システムに基づいてエンコードされたオーディオ信号を示していてもよい。第一のビットストリームは、量子化されたスケーリングされた値の集合、snroffsetパラメータおよびconvsnroffsetパラメータを含んでいてもよい。convsnroffsetパラメータは、第二の目標データレートの第二のビットストリームを生成するためにトランスコーダによって使用される量子化器を示していてもよい。ここで、第二のビットストリームは、ドルビー・デジタル・オーディオ・コーデック・システムに一致する。トランスコーダは、第一のデータレートが第二の目標データレートに等しいかどうかを判定し、snroffsetパラメータがconvsnroffsetパラメータに対応するかどうかを判定するよう構成されていてもよい。第一のデータレートが第二の目標データレートに等しく、snroffsetパラメータがconvsnroffsetパラメータに対応する場合、トランスコーダは、量子化されたスケーリングされた値の集合およびconvsnroffsetパラメータを第二のビットストリームにコピーすることによって第二のビットストリームを決定するよう構成されていてもよい。

【0039】

あるさらなる側面によれば、ソフトウェア・プログラムが記述される。ソフトウェア・プログラムは、プロセッサ上での実行のために適応されていてもよく、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されていてもよい。

【0040】

もう一つの側面によれば、記憶媒体が記述される。記憶媒体は、プロセッサ上での実行のために適応され、プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されているソフトウェア・プログラムを有していてもよい。

【0041】

あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿において概説される方法段階を実行するための実行可能命令を含んでいてもよい。

【0042】

本特許出願において概説されている好ましい実施形態を含む方法およびシステムは、単体で使用されてもよく、あるいは本稿に開示される他の方法およびシステムとの組み合わせにおいて使用されてもよいことを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、任意に組み合わされてもよい。特に、請求項の事項は、任意の仕方で互いと組み合わされてもよい。

【図面の簡単な説明】

【0043】

本発明は、付属の図面を参照して例示的な仕方で下記で説明される。

【図1】ａは、例示的なマルチチャネル・オーディオ・エンコーダの高レベルのブロック図である。ｂは、エンコードされたフレームの例示的なシーケンスを示す図である。

【図2】ａは、例示的なマルチチャネル・オーディオ・デコーダの高レベルのブロック図である。ｂは、7.1マルチチャネル・オーディオ信号についての例示的なラウドスピーカー配置を示す図である。

【図3】マルチチャネル・オーディオ・エンコーダの例示的な構成要素を示すブロック図である。

【図4a】例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。

【図4b】例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。

【図4c】例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。

【図4d】例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。

【図4e】例示的なマルチチャネル・オーディオ・エンコーダの個別的な側面を示す図である。

【図5】複数の例示的なフレームについて、DD+ビットストリーム・フォーマットのためおよびDDビットストリーム・フォーマットのために使用される固定されたビットの数を示す図である。

【図6】聴取試験の例示的な実験結果を示す図である。

【発明を実施するための形態】

【0044】

特定のマルチチャネル・オーディオ・デコーダによってデコードされるチャネルの数に関して下方互換なビットストリームを生成するマルチチャネル・オーディオ・コーデック・システムを提供することが望ましい。特に、N＜Mであるとして、N.1マルチチャネル・オーディオ・デコーダによってデコードされることができるよう、M.1マルチチャネル・オーディオ信号をエンコードすることが望ましい。例として、5.1オーディオ・デコーダによってデコードできるように7.1オーディオ信号をエンコードすることが望ましい。下方互換性を許容するために、マルチチャネル・オーディオ・コーデック・システムは典型的にはM.1マルチチャネル・オーディオ信号を、低下した数のチャネル（たとえばN.1チャネル）を含む独立（サブ）ストリーム（「IS」）およびフルM.1オーディオ信号をデコードおよびレンダリングするための置換および／または拡張チャネルを含む一つまたは複数の従属（サブ）ストリーム（「DS」）にエンコードする。

【0045】

さらに、オーディオ・デコーダの前のバージョンが、オーディオ・エンコーダの更新されたバージョンによって生成されたビットストリームをデコードできるようにするビットストリームを提供することが望ましい。換言すれば、（同じN.1個のチャネルを表わすビットストリームについてでさえ）ビットストリームのデコードに関して下方互換性を許容することが望ましい。これは、オーディオ・エンコーダの更新されたバージョンを使ってエンコードされたビットストリームを、オーディオ・デコーダの前のバージョンによってデコードされることができるビットストリームに変換するいわゆるトランスコーダまたは変換器の使用によって達成されてもよい。そのようなトランスコーダは、たとえば、（オーディオ・エンコーダの更新されたバージョンを使ってエンコードされた）ビットストリームを受領するよう構成されており、オーディオ・デコーダの前のバージョンによってデコードされることができる修正されたビットストリームを提供するよう構成されているセットトップボックスにおいて提供される。例として、トランスコーダは、ドルビー・デジタル・プラス（DD+）ビットストリームを受領し、受領されたビットストリームを、ドルビー・デジタル・オーディオ・デコーダによってデコードされることができるドルビー・デジタル（DD）ビットストリームにトランスコードするよう構成されていてもよい。よって、オーディオ・デコーダの（たとえばテレビジョン受信機内のドルビー・デジタル・オーディオ・デコーダの）設置済みの基盤が保護されることができる。一方、同時に、（ドルビー・デジタル・プラス・コーデック・システムのような）改善されたオーディオ・エンコード／デコード・システムへの発展を妨げない。

【0046】

このコンテキストにおいて、ビットストリームのエンコードに結びついたおよび／またはビットストリームのトランスコードに結びついた計算量を軽減することが望ましい。本稿では、低下した計算量でビットストリームの生成を可能にする方法およびシステムが記述される。方法およびシステムはドルビー・デジタル・プラス（DD+）コーデック・システム（エンハンストAC-3とも称される）に基づいて記述される。DD+コーデック・システムは、その内容が参照によって組み込まれる非特許文献１において規定されている。しかしながら、本稿に記載される方法およびシステムは、一般に適用可能であり、オーディオ信号をエンコードし、ビットストリームが該ビットストリームの低計算量トランスコードを可能にするよう、ビットストリームをトランスコーダに提供する他のオーディオ・コーデック・システムに適用されてもよい。

【0047】

よく使われるマルチチャネル構成（およびマルチチャネル・オーディオ信号）は7.1構成および5.1構成である。5.1マルチチャネル構成は典型的には、L（左前方）、C（中央前方）、R（右前方）、Ls（左サラウンド）、Rs（右サラウンド）およびLFE（低域効果）チャネルを含む。7.1マルチチャネル構成はさらにLb（左サラウンド後方）およびRb（右サラウンド後方）チャネルを含む。例示的な7.1マルチチャネル構成が図２のｂに示されている。DD+において7.1チャネルを送信するために、二つのサブストリームが使用される。第一のサブストリーム（独立サブストリーム「IS」と称される）は5.1チャネル・ミックスを含み、第二のサブストリーム（従属サブストリーム「DS」と称される）は拡張チャネルおよび置換チャネルを含む。たとえば、7.1マルチチャネル・オーディオ信号をサラウンド後方チャネルLbおよびRbと一緒にエンコードして送信するために、独立サブストリームはチャネルL（左前方）、C（中央前方）、R（右前方）、Lst（左サラウンド下方混合）、Rst（ミグサラウンド下方混合）、LFE（低域効果）を担持し、従属チャネルは拡張チャネルLb（左サラウンド後方）、Rb（右サラウンド後方）および置換チャネルLs（左サラウンド）、Rs（右サラウンド）を担持する。完全な7.1信号デコードが実行されるときには、従属サブストリームからのLsおよびRsチャネルが独立サブストリームからのLstおよびRstチャネルを置き換える。

【0048】

図１のａは、5.1チャネルと7.1チャネルの間の関係を示す例示的なDD+ 7.1マルチチャネル・オーディオ・エンコーダ１００の高レベルのブロック図を示している。マルチチャネル・オーディオ信号の７プラス１のオーディオ・チャネル１０１（L、C、R、Ls、Lb、RsおよびRbプラスLFE）は二つのグループのオーディオ・チャネルに分割される。基本群１２１のチャネルはオーディオ・チャネルL、C、RおよびLFEおよび下方混合されたサラウンド・チャネルLst １０２およびRst １０３を含む。該下方混合されたサラウンド・チャネルは典型的には7.1サラウンド・チャネルLs、Rsおよび7.1後方チャネルLb、Rbから導出される。例として、下方混合されたサラウンド・チャネル１０２、１０３は、LbおよびRbチャネルおよび7.1サラウンド・チャネルLs、Rsの一部または全部を下方混合ユニット１０９において加算することによって導出される。下方混合されたサラウンド・チャネルLst １０２およびRst １０３は他の仕方で決定されてもよいことを注意しておくべきである。例として、下方混合されたサラウンド・チャネルLst １０２およびRst １０３は、7.1チャネルの二つ、たとえば7.1サラウンド・チャネルLs、Rsから直接決定されてもよい。

【0049】

基本群１２１のチャネルはDD+ 5.1オーディオ・エンコーダ１０５においてエンコードされ、それによりDD+コア・フレーム１５１（図１のｂ参照）において伝送される独立サブストリーム（「IS」）１１０を与える。コア・フレーム１５１はISフレームとも称される。第二群１２２のオーディオ・チャネルは7.1サラウンド・チャネルLs、Rsおよび7.1サラウンド後方チャネルLb、Rbを含む。第二群１２２のチャネルはDD+ 4.0オーディオ・エンコーダ１０６においてエンコードされ、それにより一つまたは複数のDD+拡張フレーム１５２、１５３（図１のｂ参照）において伝送される従属サブストリーム（「DS」）１２０を与える。チャネルの第二群１２２は本稿ではチャネルの拡張群１２２と称され、拡張フレーム１５２、１５３はDSフレーム１５２、１５３と称される。

【0050】

図１のｂは、エンコードされたオーディオ・フレーム１５１、１５２、１５３、１６１、１６２の例示的なシーケンス１５０を示している。図示した例は、それぞれISフレーム１５１および１６１を含む二つの独立サブストリームIS0およびIS1を含んでいる。複数のIS（およびそれぞれのDS）が（たとえば映画の異なる言語のためのまたは異なるプログラムのための）複数の関連したオーディオ信号を提供するために使用されてもよい。各独立サブストリームは、それぞれ一つまたは複数の従属サブストリームDS0、DS1を含む。各従属サブストリームはそれぞれのDSフレーム１５２、１５３および１６２を含む。さらに、図１のｂは、マルチチャネル・オーディオ信号の完全なオーディオ・フレームの時間的長さ１７０を示している。オーディオ・フレームの時間的長さ１７０は、（たとえばサンプリング・レートfs＝48kHzにおける）32msであってもよい。換言すれば、図１のｂは、一つまたは複数のISフレーム１５１、１６１およびそれぞれのDSフレーム１５２、１５３、１６２にエンコードされるオーディオ・フレームの時間的長さ１７０を示している。

【0051】

エンコーダ１００は、サブストリームの、異なる符号化フォーマットへの効率的なトランスコードを許容するデータを、サブストリーム中に含めるよう構成されていてもよい。例として、サブストリームは、DD+独立サブストリームIS0をDDビットストリームにトランスコードすることを許容するデータを含んでいてもよい。より一般的な表現では、エンコーダ１００は、第一のオーディオ・コーデック（たとえばDD+）と互換である第一のビットストリームを生成するよう構成されていてもよい。第一のビットストリームは、トランスコーダが低下した計算量で第二のオーディオ・コーデック（たとえばDD）と互換な第二のビットストリームを生成することを許容するデータを含んでいてもよい。この目的のために、エンコーダ１００は、第二のオーディオ・コーデック（たとえばDD）に基づいてオーディオ・チャネル１０１の一部または全部をエンコードし、トランスコーダが効率的な仕方で第一のビットストリームから第二のビットストリームを生成できるようにする一つまたは複数の制御パラメータを決定するよう構成されていてもよい。帯域幅効率に鑑み、第一のビットストリームは、第一のオーディオ・コーデックに基づいてエンコードされているオーディオ・データのみを含み、第二のオーディオ・コーデックに基づいてエンコードされたオーディオ・データは含まないべきであることを注意しておく。換言すれば、前記一つまたは複数のパラメータは、オーディオ・データのトランスコードに関係するだけであるべきである。

【0052】

図２のａは、例示的なマルチチャネル・デコーダ・システム２００、２１０の高レベルのブロック図を示している。特に、図２のａは、エンコードされた基本群１２１のチャネルを含むエンコードされたIS ２０１を受領する例示的な5.1マルチチャネル・デコーダ・システム２００を示している。エンコードされたIS ２０１は受領されたビットストリームのISフレーム１５１から（たとえば図示しないデマルチプレクサを使って）取られる。ISフレーム１５１は、エンコードされた基本群１２１のチャネルを含み、5.1マルチチャネル・デコーダ２０５を使ってデコードされ、それにより、デコードされた基本群２２１のチャネルを含むデコードされた5.1マルチチャネル・オーディオ信号を与える。さらに、図２のａは、エンコードされた基本群１２１のチャネルを含むエンコードされたIS ２０１およびエンコードされた拡張群１２２のチャネルを含むエンコードされたDS ２０２を受領する例示的な7.1マルチチャネル・デコーダ・システム２１０を示している。上記で概説したように、エンコードされたIS ２０１はISフレーム１５１から取られてもよく、エンコードされたDS ２０２は受領されたビットストリームのDSフレーム１５２、１５３から（たとえば図示しないデマルチプレクサを使って）取られてもよい。デコード後、デコードされた基本群２２１のチャネルおよびデコードされた拡張群２２２のチャネルを含むデコードされた7.1マルチチャネル・オーディオ信号が得られる。下方混合されたサラウンド・チャネルLst、Rst ２１１は落とされてもよいことを注意しておくべきである。7.1マルチチャネル・デコーダ２１５はその代わりにデコードされた拡張群２２２のチャネルを利用するからである。7.1マルチチャネル・オーディオ信号の典型的なレンダリング位置２３２が図２のｂのマルチチャネル構成２３０に示されている。図２のｂは、聴取者の例示的な位置２３１およびビデオ・レンダリングのための画面の例示的な位置２３３も示している。

【0053】

現在のところ、DD+での7.1チャネル・オーディオ信号のエンコードは、第一のコア5.1チャネルDD+エンコーダ１０５および第二のDD+エンコーダ１０６によって実行される。第一のDD+エンコーダ１０５は基本群１２１の5.1チャネルをエンコードし（よって5.1チャネル・エンコーダと称されてもよい）、第二のDD+エンコーダ１０６は拡張群１２２の4.0チャネルをエンコードする（よって、4.0チャネル・エンコーダと称されてもよい）。基本群１２１および拡張群１２２のチャネルのためのエンコーダ１０５、１０６は典型的には、互いについて何も知らない。二つのエンコーダ１０５、１０６のそれぞれは、全利用可能データレートの固定された部分に対応するデータレートを与えられる。換言すれば、ISのためのエンコーダ１０５およびDSのためのエンコーダ１０６は、全利用可能データレートのある固定割合を与えられる（たとえば、ISエンコーダ１０５のための全利用可能データレートのZ%（「ISデータレート」と称される）およびDSエンコーダ１０６のための全利用可能データレートの100%−Z%（「DSデータレート」と称される）、たとえばZ＝50）。それぞれ割り当てられたデータレート（すなわちISデータレートおよびDSデータレート）を使って、ISエンコーダ１０５およびDSエンコーダ１０６は基本群１２１のチャネルおよび拡張群１２２のチャネルの独立なエンコードをそれぞれ実行する。

【0054】

以下では、ISエンコーダ１０５およびDSエンコーダ１０６のコンポーネントに関するさらなる詳細が図３のコンテキストにおいて記述される。図３は、例示的なDD+マルチチャネル・エンコーダ３００のブロック図を示している。ISエンコーダ１０５および／またはDSエンコーダ１０６は図３のDD+マルチチャネル・エンコーダ３００によって具現されうる。エンコーダ３００のコンポーネントを記述したあとに、マルチチャネル・エンコーダ３００がどのようにして、第一のビットストリーム（第一のオーディオ・コーデック・システムを使ってエンコードされている）から第二のビットストリーム（第二のオーディオ・コーデック・システムを使ってエンコードされている）への効率的なトランスコードを可能にするよう適応されうるかが記述される。

【0055】

マルチチャネル・エンコーダ３００は、（たとえば5.1入力信号の）マルチチャネル入力信号の種々のチャネルに対応するPCMサンプルのストリーム３１１を受領する。PCMサンプルのストリーム３１１はPCMサンプルの諸フレームに配置されてもよい。各フレームは、マルチチャネル・オーディオ信号の特定のチャネルの所定数のPCMサンプル（たとえば1536個のサンプル）を含んでいてもよい。よって、マルチチャネル・オーディオ信号の各時間セグメントについて、マルチチャネル・オーディオ信号の異なるチャネルのそれぞれについて、異なるオーディオ・フレームが与えられる。マルチチャネル・オーディオ・エンコーダ３００は、マルチチャネル・オーディオ信号の特定のチャネルについて、下記で記述される。しかしながら、結果として得られるAC-3フレーム３１８は典型的には、マルチチャネル・オーディオ信号のすべてのチャネルのエンコードされたデータを含む。

【0056】

PCMサンプル３１１を含むオーディオ・フレームは、入力信号整形（conditioning）ユニット３０１においてフィルタリングされてもよい。その後、（フィルタリングされた）サンプル３１１は、時間から周波数への変換ユニット３０２において、時間領域から周波数領域に変換されてもよい。この目的のために、オーディオ・フレームは、サンプルの複数のブロックに細分されてもよい。それらのブロックは、所定の長さL（たとえばブロック当たり256個のサンプル）を有していてもよい。さらに、隣り合うブロックが、オーディオ・フレームからのサンプルのある程度の重なり（たとえば50%の重なり）をもっていてもよい。オーディオ・フレーム当たりのブロック数は、そのオーディオ・フレームの特性（たとえば過渡成分の存在）に依存してもよい。典型的には、時間から周波数への変換ユニット３０２は、時間から周波数への変換（たとえばMDCT（修正離散コサイン変換）変換）を、オーディオ・フレームから導出されたPCMサンプルの各ブロックに適用する。よって、サンプルの各ブロックについて、時間から周波数への変換ユニット３０２の出力において、変換係数３１２のブロックが得られる。

【0057】

マルチチャネル入力信号の各チャネルは別個に処理されて、それによりマルチチャネル入力信号の異なるチャネルについて変換係数３１２のブロックの別個のシーケンスを提供してもよい。マルチチャネル入力信号のチャネルのいくつかの間の相関（たとえばサラウンド信号LsとRsの間の相関）に鑑み、統合チャネル処理ユニット３０３において統合的なチャネル処理が実行されてもよい。ある例示的な実施形態では、統合チャネル処理ユニット３０３はチャネル結合を実行し、それにより結合されたチャネルの群を単一の合成チャネルおよび結合サイド情報に変換する。該結合サイド情報は、単一の合成チャネルから個々のチャネルを再構成するために、対応するデコーダ・システム２０２、２１０によって使用されうる。例として、5.1オーディオ信号のLsおよびRsチャネルが結合されてもよく、あるいはL、C、R、LsおよびRsチャネルが結合されてもよい。ユニット３０３において結合が使われる場合、単一の合成チャネルのみが、図３に示されるさらなる処理ユニットに提出される。そうでない場合には、個々のチャネル（すなわち、変換係数３１２のブロックの個々のシーケンス）が、エンコーダ３００のさらなる処理ユニットに渡される。

【0058】

以下では、エンコーダのさらなる処理ユニットが、変換係数３１２のブロックの例示的なシーケンスについて記述される。該記述は、エンコードされるべきチャネルのそれぞれに（たとえば、マルチチャネル入力信号の個々のチャネルに、あるいはチャネル結合から帰結する一つまたは複数の合成チャネルに）当てはまる。

【0059】

ブロック浮動小数点エンコード・ユニット３０４は、あるチャネル（フル帯域幅チャネル（たとえばL、CおよびRチャネル）、LFE（低域効果）チャネルおよび結合チャネルを含むすべてのチャネルに適用可能）の変換係数３１２を指数／仮数フォーマットに変換するよう構成されている。変換係数３１２を指数／仮数フォーマットに変換することによって、変換係数３１２の量子化から帰結する量子化ノイズが、絶対的な入力信号レベルから独立にされることができる。

【0060】

典型的には、ユニット３０４において実行されるブロック浮動小数点エンコードは、変換係数３１２のそれぞれを指数および仮数に変換しうる。指数は、エンコードされた指数３１３を伝送するために必要とされるデータレート・オーバーヘッドを減らすために、できるだけ効率的にエンコードされるべきものである。同時に、指数は、変換係数３１２のスペクトル分解能を失うのを避けるために、できるだけ精確にエンコードされるべきである。以下では、DD+において（そしてDDにおいて）上述した目標を達成するために使われる例示的なブロック浮動小数点エンコード方式について簡単に述べる。DD+エンコード方式（および特にDD+において使用されるブロック浮動小数点エンコード方式）に関するさらなる詳細については、非特許文献２が参照される。その内容は参照によって組み込まれる。

【0061】

ブロック浮動小数点エンコードの第一段階では、変換係数３１２のブロックについて生の指数が決定されうる。これは図４ａにおいて示されている。ここでは、例示的な変換係数４０２のブロックについて、生の指数４０１のブロックが示されている。変換係数４０２は値Xをもち、変換係数４０２はXが1以下であるよう正規化されうることが想定される。値Xは仮数／指数フォーマットX＝m・2^−eで表現されうる。ここで、mが仮数（m≦1）（スケーリングされた値とも称される）であり、eは指数（スケール因子とも称される）である。ある実施形態では、生の指数４０１は0から24までの間の値を取ってもよく、それにより144dB（すなわち、2(-0)から2(-24)）にわたるダイナミックレンジをカバーする。

【0062】

（生の）指数４０１をエンコードするために必要とされるビット数をさらに減らすために、完全なオーディオ・フレーム（典型的にはオーディオ・フレーム当たり6個のブロック）の変換係数３１２のブロックを横断しての指数の時間共有（time sharing）など、さまざまな方式が適用されうる。さらに、指数は周波数を横断して（すなわち、変換／周波数領域における隣り合う周波数ビンを横断して）共有されてもよい。例として、指数は、二つまたは四つの周波数ビンを横断して共有されてもよい。さらに、変換係数３１２のあるブロックの諸指数は、隣り合う指数の間の差があらかじめ決定された最大値、たとえば±2を超えないことを保証するために、テンティングされ（tented）てもよい。これは、変換係数３１２のブロックの指数の効率的な差分エンコードを許容する（たとえば五つの差分を使う）。指数をエンコードするために必要とされるデータレートを低下させるための上述した諸方式（すなわち、時間共有、周波数共有（frequency sharing）、テンティングおよび差分エンコード）は、種々の仕方で組み合わされてもよく、そうして定義される種々の指数符号化モードの結果として指数をエンコードするために使われる種々のデータレートが得られる。上述した指数符号化の結果として、オーディオ・フレームの変換係数３１２のブロック（たとえばオーディオ・フレーム当たり6個のブロック）について、エンコードされた指数３１３のシーケンスが得られる。

【0063】

ユニット３０４において実行されるブロック浮動小数点エンコード方式のさらなる段階として、もとの変換係数４０２の仮数m'は、対応する、結果として得られるエンコードされた指数e'によって正規化される。該結果として得られるエンコードされた指数e'は、上述した生の指数eとは異なることがある（時間共有、周波数共有および／またはテンティング段階のため）。図４ａの各変換係数４０２について、正規化された仮数m'が、X＝m'・2^-e'として決定されてもよい。ここで、Xはもとの変換係数４０２の値である。オーディオ・フレームのブロックについての正規化された仮数m' ３１４は、仮数３１４の量子化のために量子化ユニット３０６に渡される。仮数３１４の量子化、すなわち量子化された仮数３１７の精度は、仮数量子化のために利用可能なデータレートに依存する。利用可能なデータレートは、ビット割り当てユニット３０５において決定される。

【0064】

ユニット３０５において実行されるビット割り当てプロセスは、音響心理学的原理に基づいて、正規化された仮数３１４のそれぞれに割り当てられることのできるビット数を決定する。ビット割り当てプロセスは、オーディオ・フレームの正規化された仮数を量子化するための利用可能なビット・カウントを決定する段階を含む。さらに、ビット割り当てプロセスは、パワースペクトル密度（PSD）分布および周波数領域マスキング曲線を（音響心理学的モデルに基づいて）、各チャネルについて決定する。PSD分布および周波数領域マスキング曲線は、オーディオ・フレームの種々の正規化された仮数３１４への、利用可能なビットの実質的に最適な分配を決定するために使われる。

【0065】

ビット割り当てプロセスにおける第一段階は、正規化された仮数３１４をエンコードするために利用可能な仮数ビットが何ビットあるかを決定することである。目標データレートは、現在のオーディオ・フレームをエンコードするために利用可能な全ビット数に変換される。特に、目標データレートは、エンコードされたマルチチャネル・オーディオ信号についてk個のビット毎秒を指定する。T秒のフレーム長を考えると、総ビット数はT*kとして決定されてもよい。利用可能な仮数ビット数は、総ビット数から、メタデータ、ブロック切り換えフラグ（検出された過渡成分および選択されたブロック長を信号伝達するため）、結合スケール因子、指数などといったオーディオ・フレームをエンコードするためにすでに使用済みのビットを引き去ることによって決定されてもよい。メタデータはたとえば、トランスコード目的のために使用されうる情報を含んでいてもよい。ビット割り当てプロセスは、ビット割り当てパラメータ３１５（後述）のような他の側面にまだ割り当てられる必要がありうるビットをも引き去ってもよい。結果として、利用可能な仮数ビットの総数が決定されうる。次いで、利用可能な仮数ビットの総数が、オーディオ・フレームのすべての（たとえば1個、2個、3個または6個の）ブロックにわたってすべてのチャネル（たとえば、諸メイン・チャネル、LFEチャネルおよび結合チャネル）の間で分配されてもよい。

【0066】

さらなる段階として、変換係数３１２のブロックのパワースペクトル密度（「PSD」）分布が決定されてもよい。PSDは、入力信号の各変換係数周波数ビン内の信号エネルギーの尺度である。PSDは、エンコードされた指数３１３に基づいて決定されてもよく、それにより対応するマルチチャネル・オーディオ・デコーダ・システム２００、２１０がマルチチャネル・オーディオ・エンコーダ３００と同じ仕方でPSDを決定できるようにする。図４ｂは、エンコードされた指数３１３から導出された変換係数３１２のブロックのPSD分布４１０を示す。PSD分布４１０は、変換係数３１２のそのブロックについて周波数領域マスキング曲線４３１（図４ｄ参照）を計算するために使用されてもよい。周波数領域マスキング曲線４３１は、マスカー周波数が該マスカー周波数の直近の周波数をマスクするという現象を記述する音響心理学的なマスキング効果を考慮に入れ、それによりマスカー周波数の直近の周波数を、そのエネルギーがあるマスキング閾値未満であれば、聞こえないようにする。図４ｃは、マスカー周波数４２１および近隣の周波数についてのマスキング閾値曲線４２２を示している。実際のマスキング閾値曲線４２２は、DD+エンコーダにおいて使用される（二セグメント）（区分線形）マスキング・テンプレート４２３によってモデル化されてもよい。

【0067】

マスキング閾値曲線４２２の形が（および結果としてマスキング・テンプレート４２３も）、たとえばZwickerによって定義されるような臨界帯域スケール上で（または対数スケール上で）種々のマスカー周波数について実質的に不変のままであることが観察された。この観察に基づいて、DD+エンコーダはマスキング・テンプレート４２３を帯域分割された（banded）PSD分布に適用する（ここで、帯域分割されたPSD分布は、諸帯域がほぼ臨界帯域の半分の幅である臨界帯域スケール上のPSD分布に対応する）。帯域分割されたPSD分布の場合、単一のPSD値が臨界帯域スケール上の（または対数スケール上の）複数の帯域のそれぞれについて決定される。図４ｄは、図４ｂの線形離間された（linear-spaced）PSD分布４１０についての例示的な帯域分割されたPSD分布４３０を示している。帯域分割されたPSD分布４３０は、線形離間されたPSD分布４１０からの、臨界帯域スケール上で（または対数スケール上で）同じ帯域内にはいるPSD値を（たとえば対数‐加算演算を使って）組み合わせることによって、線形離間されたPSD分布４１０から決定されてもよい。マスキング・テンプレート４２３は、帯域分割されたPSD分布４３０の各PSD値に適用されてもよい。それにより、臨界帯域スケール上で（または対数スケール上で）変換係数４０２のブロックについて全体的な周波数領域マスキング曲線４３１が与えられる（図４ｄ参照）。

【0068】

図４ｄの全体的な周波数領域マスキング曲線４３１は、線形周波数分解能に展開し戻されてもよく、図４ｂに示した変換係数４０２のブロックの線形PSD分布４１０と比較されてもよい。これは図４ｅに示されている。この図は、線形分解能上での周波数領域マスキング曲線４４１とともに線形分解能上でのPSD分布４１０を示している。周波数領域マスキング曲線４４１は聴力曲線の絶対的な閾値をも考慮に入れてもよいことを注意しておくべきである。

【0069】

特定の周波数ビンの変換係数４０２の仮数をエンコードするためのビット数は、PSD分布４１０に基づいて、かつマスキング曲線４４１に基づいて決定されてもよい。特に、PSD分布４１０のうちマスキング曲線４４１を下回るPSD値は、知覚的に有意でない仮数に対応する（そのような周波数ビンにおけるオーディオ信号の周波数成分はその近傍におけるマスカー周波数によってマスクされるから）。結果として、そのような変換係数４０２の仮数は全くビットを割り当てられる必要がない。他方、PSD分布４１０のうちマスキング曲線４４１より上のPSD値は、これらの周波数ビンにおける変換係数４０２の仮数がエンコードのためのビットを割り当てられるべきであることを示す。そのような仮数に割り当てられるビット数は、PSD分布４１０のPSD値とマスキング曲線４４１の値との間の差が増すにつれて増えるべきである。上述したビット割り当てプロセスの結果として、図４ｅに示されるような種々の変換係数４０２へのビットの割り当て４４２が得られる。

【0070】

上述したビット割り当てプロセスは、すべてのチャネル（たとえば直接チャネル、LFEチャネルおよび結合チャネル）について、かつ当該オーディオ・フレームのすべてのブロックについて実行され、それにより全体的な（予備的な）割り当てられたビット数を与える。この全体的な予備的な割り当てられたビット数が利用可能な仮数ビットの総数に一致する（たとえば等しくなる）可能性は低い。いくつかの場合には（たとえば複雑なオーディオ信号について）、全体的な予備的な割り当てられたビット数は、利用可能な仮数ビットの数を超えることがありうる（ビット飢餓）。他の場合には（たとえば、単純なオーディオ信号の場合）、全体的な予備的な割り当てられたビット数は利用可能な仮数ビット数より少ないことがありうる（ビット余剰）。エンコーダ３００は典型的には、全体的な（最終的な）割り当てられるビット数を利用可能な仮数ビット数にできるだけ近く一致させようとする。この目的のために、エンコーダ３００は、いわゆるSNRオフセット・パラメータを利用してもよい。SNRオフセットは、マスキング曲線４４１をPSD分布４１０に対して上または下に移動させることによって、マスキング曲線４４１の調整を許容する。マスキング曲線４４１を上または下に移動させることによって、割り当てられるビットの（予備的な）数はそれぞれ減少または増加させられることができる。よって、SNRオフセットは、終了基準（たとえば、予備的な割り当てられるビット数が利用可能なビット数に可能な限り近い（ただし利用可能なビット数より少ない）という基準；または所定の最大の逐次反復回数が実行されたという基準）が満たされるまで逐次反復的な仕方で調整されてもよい。

【0071】

上記で示したように、割り当てられるビットの最終的な数と利用可能なビット数との間の最良一致を許容するSNRオフセットの逐次反復的な探索は、二分探索を利用してもよい。各反復工程において、予備的な割り当てられるビット数が利用可能なビット数を超えるか否かが判定される。この判定段階に基づいて、SNRオフセットが修正され、さらなる反復工程が実行される。二分探索は、(log₂(K)＋1)回の反復工程を使って最良一致（および対応するSNRオフセット）を決定するよう構成される。ここで、Kは可能なSNRオフセットの数である。逐次反復的な探索の終了後、最終的な割り当てられるビット数が得られる（これは典型的には、以前に決定された予備的な割り当てられるビット数の一つに対応する）。最終的な割り当てられるビット数は利用可能なビット数より（やや）少なくてもよいことを注意しておくべきである。そのような場合、最終的な割り当てられるビット数を利用可能なビット数と完全に整列させるためにスキップ・ビットまたは充填ビットが使用されてもよい。

【0072】

SNRオフセットは、SNRオフセット0が、もとのオーディオ信号とエンコードされた信号との間の「最小可知差異（just-noticeable difference）」として知られるエンコード条件につながるエンコードされた仮数につながるよう、定義されてもよい。換言すれば、SNRオフセット0では、エンコーダ３００は知覚的モデルに従って動作する。SNRオフセットの正の値はマスキング曲線４４１を下に動かして、それにより（典型的には気づかれるほどの品質改善なしに）割り当てられるビット数を増やしてもよい。SNRオフセットの負の値はマスキング曲線４４１を上に動かして、それにより割り当てられるビット数を減らし（それにより典型的には耳に聞こえる量子化ノイズを増大させ）てもよい。SNRオフセットはたとえば、−48ないし＋144dBの有効範囲をもつ10ビットのパラメータであってもよい。最適なSNRオフセット値を見出すために、エンコーダ３００は逐次反復的な二分探索を実行してもよい。逐次反復的な二分探索は、PSD分布４１０／マスキング曲線４４１比較の（10ビット・パラメータの場合）最大11回の逐次反復を必要とすることがありうる。実際に使われるSNRオフセット値は、ビット割り当てパラメータ３１５として、対応するデコーダに伝送されてもよい。さらに、仮数は、（最終的な）割り当てられるビットに従ってエンコードされ、それにより量子化された仮数３１７の集合を与える。

【0073】

DDおよびDD+オーディオ・コーデック・システムの場合、各ブロックについて、csnroffsetと呼ばれる6ビットの粗いSNRオフセットがあってもよく、各チャネルについて、fsnroffsetと呼ばれる4ビットの細かいSNRオフセット値があってもよい。csnroffset値は、フレームのすべてのブロックについて同じであってもよく、fsnroffset値はフレームのすべてのブロックおよびチャネルについて同じであってもよい。DD+オーディオ・コーデック・システムでは、その値は、パラメータcsnroffsetおよびfsnroffsetをフレーム（frame）当たり一度だけ、6ビットのfrmcsnroffsetおよび4ビットのfrmfsnroffsetパラメータとして送信するために選択されてもよい。

【0074】

本稿で概説されるように、DD+オーディオ・コーデック・システムでは、convsnroffsetパラメータが提供されてもよい。convsnroffsetパラメータは典型的には、二つの部分に分割されず、convsnroffsetは典型的にはDD+ビットストリーム内の各オーディオ・ブロックについての10ビット値である。よって、（本稿に記載されるように）convsnroffsetパラメータがcsnroffsetおよびfsnroffsetパラメータに基づいて決定される場合、convsnroffsetパラメータは、6ビットのcsnroffsetおよび4ビットのfsnroffsetを単一の値に組み合わせることによって決定されてもよい。

【0075】

このように、SNR（信号対雑音比）オフセット・パラメータは、エンコードされたマルチチャネル・オーディオ信号の符号化品質の指標として使われてもよい。SNRオフセットの上述した取り決めによれば、SNRオフセット0は、もとのマルチチャネル・オーディオ信号に対する「最小可知差異」を有するエンコードされたマルチチャネル・オーディオ信号を示す。正のSNRオフセットは、もとのマルチチャネル・オーディオ信号に対する、少なくとも「最小可知差異」の品質を有するエンコードされたマルチチャネル・オーディオ信号を示す。負のSNRオフセットは、もとのマルチチャネル・オーディオ信号に対する「最小可知差異」より低い品質を有するエンコードされたマルチチャネル・オーディオ信号を示す。SNRオフセット・パラメータの他の取り決めも可能でありうることを注意しておくべきである（たとえば逆の取り決め）。

【0076】

エンコーダ３００はさらに、エンコードされた指数３１３、量子化された仮数３１７、ビット割り当てパラメータ３１５および他のエンコード・データ（たとえば、ブロック切り換えフラグ、仮数、結合スケール因子など）を所定のフレーム構造（たとえばAC3フレーム構造）中に配列し、それによりマルチチャネル・オーディオ信号のオーディオ・フレームについてのエンコードされたフレーム３１８を与えるよう構成されているビットストリーム・パッキング・ユニット３０７を有する。

【0077】

上記で示したように、エンコーダ１００、３００は、トランスコーダが、第一のオーディオ・コーデック・システム（たとえばDD+）に基づいてエンコードされたエンコードされたフレーム３１８を、第二のオーディオ・コーデック・システム（たとえばDD）のデコーダによってデコードされうる修正されたフレームにトランスコードできるようにする一つまたは複数の制御パラメータを決定するよう構成されていてもよい。この目的のために、エンコーダ１００、３００は、第二のオーディオ・コーデック・システムに基づいて動作するオーディオ・エンコーダをシミュレートし、それにより前記制御パラメータを決定するよう構成されていてもよい。

【0078】

このことは、トランスコード・シミュレーション・ユニット３２０を有する図３のエンコーダ３００に示されている。トランスコード・シミュレーション・ユニット３２０は、エンコードされた指数３１３と、量子化された仮数３１７と、第一のオーディオ・コーデック・システムに基づいてオーディオ信号のフレームをエンコードするためにエンコーダ３００によって使用された一つまたは複数のビット割り当てパラメータ３１５とを受領してもよい。さらに、トランスコード・シミュレーション・ユニット３２０は、トランスコーダの機能（たとえば、量子化された仮数３１７を量子化解除し、仮数３１７を第二のオーディオ・コーデック・システムに従って量子化する）をシミュレートするよう構成されていてもよい。特に、トランスコード・シミュレーション・ユニット３２０は、トランスコードの計算量を軽減するためにトランスコーダに伝送されうる第二の制御パラメータ３２１（たとえば、一つまたは複数の第二のビット割り当てパラメータ）を決定するよう構成されていてもよい。

【0079】

例として、DD+エンコーダは典型的には、トランスコーダがDD+ビットストリーム（複数のエンコードされたフレーム３１８を含む）を640kbps DDビットストリームに変換できるようにするいわゆるconvsnroffsetパラメータ（すなわち、制御パラメータ）を決定するよう構成されている。convsnroffsetパラメータは、変換SNRオフセット・パラメータまたはより一般に制御パラメータとも称されうる。convsnroffsetパラメータの計算は、トランスコーダ（デコーダ変換器または変換器とも称される）におけるDDフォーマットへの変換の計算量を減らすのを助けるために、DD+エンコード・プロセスのコンテキストにおいて実行されてもよい。convsnroffsetパラメータの計算は典型的には、エンコーダ１００、３００による、DD+ビットストリームの部分的なデコードおよび640kbps DDエンコードのシミュレーションを要求する。エンコーダ１００、３００がDD+エンコーダのためだけでなくDDエンコーダのためにも図３および図４ａないし４ｅのコンテキストにおいて記述されたエンコード・プロセスを実行しなければならないので、これはかなりの計算量につながる。convsnroffsetパラメータは典型的には、640kb/sの目標ビットレートで動作するDDエンコーダのために導出された上述したSNRオフセットに対応する。本稿では、convsnroffsetパラメータを決定するための計算量を軽減することを許容する方法およびシステムが記述される。さらに、記述される方法およびシステムは、DD+ビットストリームからDDビットストリームへのトランスコードを実行する計算量を減らすことを許容しうる。

【0080】

DD+エンコーダ３００は、（所与の品質の）エンコードされたオーディオ信号のビットレートを減らすまたは（所与のビットレートの）エンコードされたオーディオ信号の品質を上げるための一つまたは複数の符号化ツールを利用してもよい。そのような符号化ツールは、たとえば、AHT（Adaptive Hybrid Transform［適応ハイブリッド変換］）の使用、ECPS（Enhanced Coupling［向上結合］）の使用、SPX（Spectral Extension［スペクトル拡張］）の使用および／またはTPNP（Temporal Pre-Noise Processing［時間的プレノイズ処理］）の使用である。（たとえばモバイル装置のような限られた計算量をもつコンピューティング装置との関連で使われる）低計算量DD+エンコーダとして知られる変形は、典型的には、上述したDD+符号化ツールを利用しない。よって、DD+ LCエンコーダは、エンコードされた指数、量子化された仮数、ビット割り当てパラメータなどを、典型的にはDDビットストリーム・フォーマットとは異なるDD+ビットストリーム・フォーマットにエンコードするDDエンコーダと同様であるまたはそのようなDDエンコーダに対応する。よって、（低計算量）DD+エンコーダとDDエンコーダとの間にはかなりの重複があることが観察された。この重複または類似性は、convsnroffsetパラメータを決定するための計算量を軽減するために使用できる。

【0081】

上記で示したように、典型的なDD+エンコーダ３００は、トランスコーダにおけるDD+ビットストリームの640kbps DDビットストリームへの効率的な変換を可能にするためにconvsnroffsetパラメータを決定する。convsnroffsetパラメータをDD+ビットストリームに挿入することによって、トランスコーダは、convsnroffsetパラメータによって与えられる分解能をもつ量子化器を使って仮数を直接再量子化できるので、上述した逐次反復的なビット割り当てプロセス（たとえば11回の反復工程を含む）を実行する必要がなくなる。よって、DDビットストリームについての複雑なSNRオフセット計算が、変換器／トランスコーダからエンコーダに移され、その結果がconvsnroffsetパラメータとしてDD+ビットストリーム内で伝送される。エンコーダ３００において（いわゆる詰め物器〔スタッファー〕（stuffer）内で実行される）convsnroffsetパラメータの計算は、全DD+エンコーダ計算量の約25〜40%を要求する。よって、convsnroffsetパラメータを計算するための複雑さを軽減することが望ましい。

【0082】

本稿では、低下した計算量でconvsnroffsetパラメータを決定することを許容する単純化された詰め物器が記載される。上記で概説したように、典型的にはDD+エンコーダとDDエンコーダの間には大きな重複がある。特に、図３および図４ａないし４ｅのコンテキストで述べた浮動小数点エンコードに関して大きな重複がある。これは、低計算量（LC: low complexity）DD+エンコーダについて特に正しい。その場合、DDエンコーダとLC DD+エンコーダとの間の唯一の違いはビットストリーム・フォーマットでありうる。指数および仮数を決定する方式および指数をエンコードし仮数を量子化する方式は典型的には同じである。よって、詰め物器のためにDD+ SNRオフセットを再利用し、同じSNRオフセット・パラメータを使ってDD+ビットストリームをDDビットストリームに変換することが可能でありうる。換言すれば、（DD+コーデックのコンテキストにおいて使用される）SNRオフセット・パラメータをconvsnroffsetパラメータとして再利用し、それにより、明示的なconvsnroffsetパラメータ計算を無用にし、それにより（LC）DD+エンコーダの計算量を有意に軽減することが可能でありうる。

【0083】

さらに、SNRオフセット・パラメータのconvsnroffsetパラメータとしての再利用は、トランスコードされたDDエンコードされたオーディオ信号のオーディオ品質の点でも有益でありうる。特に、もとのDD+表現が維持されるので、トランスコーダはオーディオ品質に影響しないことがありうる。特に、DD+目標ビットレートがDD目標ビットレートに対応する場合、すなわち、DD+ビットストリームとDDビットストリームの目標ビットレートが同じ（たとえば640kbps）である場合、トランスコーダは、DD+ビットストリームからの指数および／または量子化された仮数を、DDビットストリームを生成するために再利用するよう構成されていてもよい。結果として、DD+ビットストリーム内に含まれるオーディオ信号のオーディオ品質およびDDビットストリーム内に含まれるオーディオ信号のオーディオ品質は、同じになる。さらに、トランスコーダは、DDビットストリームを生成するときに仮数を量子化解除して再量子化する必要がないので、トランスコーダの複雑さが軽減される。

【0084】

上記で示したように、LC DD+エンコーダは、エンコードされた指数、量子化された仮数などをDD+ビットストリーム・フォーマットにエンコードするDDエンコーダと見ることができる。DD+ビットストリーム・フォーマットは典型的にはDDビットストリーム・フォーマットとは異なる。特に、DDビットストリーム・フォーマットについての（同期情報（si）；ビットストリーム情報（bsi）；オーディオ・フレーム（audfrm）；補助データ（auxdata）；誤り検査；指数；などについての）固定されたビットの量は典型的にはDD+ビットストリーム・フォーマットに比べて大きい。このことは図５で見て取れる。ここで、DD+ビットストリーム・フォーマットとDDビットストリーム・フォーマットにおいて使われる固定されたビットの数の間の差５００が複数のフレームについて示されている。DDビットストリーム・フォーマットがDD+ビットストリーム・フォーマットより平均で約80ないし100の固定されたビットだけ多く必要とすることが見て取れる。結果として、DDビットストリームを生成するためにDD+ SNRオフセットを使うことは、640kbpsフレーム・サイズ（640kbps＝20480ビット／フレーム）で利用可能なよりも多くのビットを要求するビットストリームを与える。換言すれば、DD+のために決定されたSNRオフセット・パラメータをconvsnroffsetパラメータとして使うとき、このことは、目標ビットレート640kbit/sをわずかに超えるDDビットストリームにつながる。しかしながら、これは、通例は、受け容れ可能ではない。トランスコーダは典型的には20480ビット／フレームの固定したフレーム・サイズ、すなわち目標ビットレートに対応する固定したフレーム・サイズを提供するからである。

【0085】

この問題を克服するために、DD+目標ビットレートに依存する種々のアプローチが使用されうる。640kbits/sのDD+目標ビットレートの場合、すなわちDD目標ビットレートに対応するDD+目標ビットレートの場合、上述した問題は、DD+エンコーダ３００のビット割り当てプロセスのコンテキストにおいてDD／DD+の固定されたビットの差を考慮に入れることによって克服されうる。上記で概説したように、逐次反復式のビット割り当てプロセスは、利用可能な仮数ビットの総数、すなわち仮数の量子化に割り当てられてもよいビットの総数を決定することで始まる。本稿では、利用可能な仮数ビットのDD+固有の総数から、DD／DD+の固定されたビットの差を減算し、それにより可能性のあるDDへのトランスコードを考慮に入れた、利用可能な仮数ビットの低下した総数を与えることが提案される。減算されるDD／DD+の固定されたビットの差は、フレーム固有の仕方で決定されてもよいし、あるいは平均または最悪ケースの値に対応していてもよい。次いで、DD+ SNRオフセット計算は、利用可能な仮数ビットの低下した総数を使って実行されてもよい。

【0086】

結果として、DD+エンコードされたオーディオ信号の品質は、わずかに低下する。しかしながら、オーディオ品質への影響は低い。観察される最悪ケースのペナルティーが、フレーム当たりのDD／DD+の固定されたビットの差の102ビットの範囲内であり、これは3kbpsのビットレート、あるいは総DD+目標ビットレートの0.5%に対応するという事実のためである。上記で示したように、利用可能な仮数ビットの低下した総数のためDD+ビットストリーム内で使用されないビットは、スキップ・ビットまたは充填ビットで満たされて、それにより640kbits/sというDD+目標ビットレートにおけるDD+互換フレームを与えてもよい。

【0087】

さらなる結果として、DD+エンコード・プロセスのコンテキストにおいて計算されたSNRオフセットは、今や、convsnroffsetパラメータとして使用されることができる。今や、トランスコードされたDDビットストリームが640kbpsのDD目標ビットレートを満たすことが保証される。

【0088】

さらなる恩恵として、トランスコーダ（または変換器）の複雑さが軽減されることができることを注意しておくべきである。トランスコーダは、部分的なDD+デコードおよびDD再エンコードを実行する必要なしに、DD+エンコードされた指数およびDD+量子化された仮数をDDビットストリーム中にコピーしてもよい。

【0089】

DD+目標ビットレートがDD目標ビットレートより小さい状況では別のアプローチを取ることができる。例として、DD+目標ビットレートは448kbpsまたは384kbpsであってもよい。変換器は典型的には、一つだけのDD目標ビットレート（たとえば640kbps）に限定されており、そのため前記の低下した諸DD+目標ビットレートは利用可能ではない。にもかかわらず、DD+エンコードのコンテキストにおいて決定されたSNRオフセットは、convsnroffsetパラメータとして再利用されてもよい。これは、いずれにせよDD+エンコードされたオーディオ信号の品質はDD+目標ビットレートによって制限されるという事実のため、可能である。DD目標ビットレートより低いDD+目標ビットレートでエンコードされたDD+エンコードされたオーディオ信号のトランスコードは、そのDD+エンコードされたオーディオ信号より高いオーディオ品質をもつDDエンコードされたオーディオ信号を提供することはできない。

【0090】

しかしながら、比較的低いDD+目標ビットレートで動作させられるDD+エンコーダは、DDエンコーダによって使われない符号化ツールを利用することがある。よって、これらの符号化ツールの影響が考慮に入れられるべきである。DD+エンコーダがフル・チャネルのエンコードされた指数および量子化された仮数を提供する場合、これらのフル・チャネル（すなわちエンコードされた指数および量子化された仮数）はDDビットストリーム中にコピーされ、それにより、通常のトランスコーダに比べてオーディオ品質（すなわち信号対雑音比）を改善することができる。DD+デコードおよびDD再エンコードの段階が無用になるからである。

【0091】

DD+エンコーダが一つまたは複数の結合チャネルを提供する場合（典型的には、DDおよびDD+エンコーダは単一の結合チャネルしか提供しない）、結合チャネルは典型的には、DDビットストリーム内のフル・チャネル（full channels）として個々にデコードされ、再エンコードされる必要がある。（640kbpsの）DD目標ビットレートでのDDエンコーダは典型的には結合を利用しないからである。このトランスコードは、DD+エンコードされたオーディオ信号に比べてのDDエンコードされたオーディオ信号の品質損失につながりうる（DD+デコードおよびDD再エンコード動作のため）。さらに、複数のフル・チャネルのDDエンコードは、典型的には、低下した数の結合チャネルのDD+エンコードに比べて増加した量のビットを必要とする。例として、5.1マルチチャネル・オーディオ信号の全五つの信号は結合されていてもよく、そうすれば単一のもとの結合チャネルがDDエンコーダによって五回エンコードされる必要がある状況になる。もとの結合チャネルを複数回（たとえば五回）エンコードするために必要とされる追加的なビットは、（結合チャネルについてのビット需要に比べての）フル・チャネルについてのより小さなビット需要によって補償されうる。

【0092】

図６は、複数の異なるオーディオ信号のオーディオ品質が解析される例示的なMUSHRA（MUltiple Stimuli with Hidden Reference and Anchor［隠された参照およびアンカーのある複数刺激］）試験を示している。特に、明示的に計算されたconvsnroffsetパラメータを使ってトランスコードされたトランスコード信号のオーディオ品質６０１が、DD+エンコードされたオーディオ信号のSNRオフセットに対応するconvsnroffsetパラメータを使ってトランスコードされたトランスコード信号のオーディオ品質６０２と比較される。図示した例では、DD+目標ビットレートは384kbpsであり、DD目標ビットレートは640kbpsである。図示した例では、DD+エンコーダ３００は結合を利用する（結合開始周波数は約10kHz）。図示した複数の異なるオーディオ信号について、有意な品質劣化は観察できないことが観察できる。他方、エンコーダ３００における計算量および可能性としてはトランスコーダにおける計算量は有意に低下している。

【0093】

変換された（すなわちトランスコードされた）ビットストリームのビットレートは（たとえば640kbpsの）DD目標ビットレートを超過することがあることを注意しておくべきである。これは、640kbpsのDD+の場合について（すなわち、DD+目標ビットレートがDD目標ビットレートに対応する場合について）最悪ケースのDD+／DDの固定されたビットの差が正しく決定されない（すなわち、低すぎると想定される）場合に起こりうる。代替的または追加的に、このことは、より低いデータレートについて（すなわち、DD+目標ビットレートがDD目標ビットレートより低い場合について）、前記一つまたは複数の展開された結合チャネルが前記変換において利用可能なよりも多くのビットを必要とする場合に、起こりうる。

【0094】

エンコーダ３００は、DD+ SNRオフセットがconvsnroffsetパラメータとして使われるとしたら変換されたDDビットストリームがDD目標ビットレートを超過することになる上述した状況を検出するよう構成されていてもよい。特に、DD+エンコーダ３００は、（convsnroffsetパラメータの明示的な決定のために必要とされる11回の反復工程に比べ）単一のビット割り当て反復工程をもって、変換されたDDビットストリームについてのDD+ SNRオフセットを有効確認するよう構成されていてもよい。これは、フレームごとに検証されることができる。

【0095】

（ある特定のフレームについて）DD+ SNRオフセットをconvsnroffsetパラメータとして使うことがDD目標ビットレートを超過するビット数につながると判定される場合、エンコーダ３００は、一つまたは複数の回復戦略を適用することができる：例として、エンコーダ３００は、予備の備えとして、明示的なconvsnroffset計算を実行するよう構成されることができる。DD+ SNRオフセットは、改善された出発点として使用されることができる。それにより、必要とされる反復工程の数を潜在的に減らす。代替的または追加的に、経験的な解析が、DD+ SNRオフセットに基づいて初期SNRオフセットを決定するために使われることができる。ここで、初期SNRオフセットはビット割り当て反復工程の数を減らす（たとえば最小化する）。代替的または追加的に、明示的なconvsnroffset計算が使用されてもよいが、逐次反復プロセスは、十分良好と考えられる（たとえば、マスキング閾値より6dB低い量子化ノイズにつながる）中間結果が得られたときに停止されてもよい。

【0096】

本稿では、DD+のSNRオフセット値をトランスコーダ／変換器においてDDエンコードのために使用されるconvsnroffset値にコピーすることが提案されている。このアプローチは、640kbpsで動作するLC DD+エンコーダにとって特に重要である。LC DD+エンコーダはこの目標ビットレートについては上記のDD+ツールまたは結合のいずれも使用しないからである。より低いビットレートについては、LC DD+エンコーダは典型的には結合を使う。にもかかわらず、DD+ SNRオフセット値はconvsnroffset値のために使用されることができ、オーディオ品質は小さな潜在的な劣化があるだけである。

【0097】

上記で概説したように、640kbps DDフォーマットは典型的には、640kbps DD+フォーマットよりもサイド情報を記憶するためにより多くのビットを必要とする。本稿では、DD+エンコード・プロセスの間のビット差を考えることが提案される。DD+についての失われたビットレートの最大量は、3kbpsまたは総ビットレートの0.5%であると測定された。これはDD+ビットストリームの可聴な劣化につながるものではない。しかしながら、DD+エンコードの間にビット差を考慮に入れることによって、DD+エンコードについてとDD+からDDへのトランスコードについてとで、同じSNRオフセットを使うことが可能になる。DD+ビットストリームおよびトランスコードされたDDビットストリームの結果として得られるデコーダ出力は、典型的には、DD+デコーダおよびDDデコーダによって適用される異なるディザリングを除いて、同じである。

【0098】

LC DD+エンコーダのより低いビットレート（たとえば448kbpsおよび384kbps）については、結合は典型的にはLC DD+エンコーダによって使用される。変換器は典型的には、結合なしに、DD+ビットストリームを640kbps DDビットストリームに変換する。聴取試験は、変換器についてDD+ SNRオフセットを使うこと（すなわち、convsnroffsetをDD+ SNRオフセットに等しく設定すること）は、明示的に計算されたconvsnroffsetパラメータを使って変換器によって導出されたトランスコード信号のオーディオ品質に匹敵するトランスコード信号のオーディオ品質を与えることを示している。実験結果は、結合チャネルのフル・チャネルとしてのエンコードによって引き起こされるビットの増加は、典型的には、（たとえば640kbpsの）DD目標ビットレートによって設定される限界を超過しないことをも示している。

【0099】

DD+エンコーダは、DD+ SNRオフセットが変換されたDDビットストリームについて無効であるかどうか（すなわち、DDビットストリームを生成するために変換器内でDD+ SNRオフセットを使うときに、過多な数のビットがあるかどうか）を判定するよう構成されていてもよい。もしそうであれば、そのようなビットあふれが起こる特定のフレームについて予備の備えとして、明示的な変換器snroffset（すなわちconvsnroffset）パラメータ計算を使うことが可能である。にもかかわらず、DD+ snroffset値をconvsnroffsetパラメータ計算のためのよりよい出発点として使うことによって、および／または最適結果を見出す前に、たとえば中間結果がすでにあらかじめ決定された品質基準を満たすときに、逐次反復を停止することによって、計算量を減らすことが可能でありうる。

【0100】

本稿で記載した方法、およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載された方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体のような媒体に記憶されてもよい。該信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたはインターネットのような有線ネットワークのようなネットワークを介して転送されてもよい。本稿で記述された方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使用されるポータブル電子装置または他の消費者設備である。

【0101】

いくつかの態様を記載しておく。
〔態様１〕
第一のオーディオ・コーデック・システムに基づくオーディオ信号のフレームをエンコードして、それにより第一の目標データレートの第一のビットストリームを与えるよう構成されているオーディオ・エンコーダであって、当該オーディオ・エンコーダは：
・前記オーディオ信号のフレームに基づいてスペクトル係数の集合を決定するよう構成された変換ユニットと；
・前記スペクトル係数の集合に基づいて、スケール因子の集合およびスケーリングされた値の集合を決定し、
前記スケール因子の集合をエンコードしてエンコードされたスケール因子の集合を与えるよう構成された
浮動小数点エンコード・ユニットと；
・前記第一の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合について使われるビット数に基づき、前記スケーリングされた値の集合を量子化するための利用可能なビットの総数を決定し、
前記スケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの総数の割り当てを示す第一の制御パラメータを決定し、
前記第一の制御パラメータに基づいて、前記スケーリングされた値の集合を量子化して、量子化されたスケーリングされた値の集合を与えるよう構成されている、
ビット割り当ておよび量子化ユニットと；
・トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするための第二の制御パラメータを導出するよう構成されたトランスコード・シミュレーション・ユニットであって、前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致し、前記トランスコード・シミュレーション・ユニットは、前記第一の制御パラメータから前記第二の制御パラメータを導出するよう構成されている、トランスコード・シミュレーション・ユニットと；
・量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、前記第一の制御パラメータおよび前記第二の制御パラメータを含む前記第一のビットストリームを生成するよう構成されたビットストリーム・パッキング・ユニットを有する、
オーディオ・エンコーダ。
〔態様２〕
前記トランスコード・シミュレーション・ユニットが、前記第一の制御パラメータだけから前記第二の制御パラメータを導出するよう構成されている、態様１記載のオーディオ・エンコーダ。
〔態様３〕
前記トランスコード・シミュレーション・ユニットは、第一の制御パラメータに等しい前記第二の制御パラメータの値を設定するよう構成されている、態様１または２記載のオーディオ・エンコーダ。
〔態様４〕
前記トランスコード・シミュレーション・ユニットは、前記第二のオーディオ・コーデック・システムに基づくビット割り当てプロセスを実行することなく前記第二の制御パラメータを導出するよう構成されている、態様１ないし３のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様５〕
・前記第一の制御パラメータは粗い成分および細かい成分を含み、
・前記トランスコード・シミュレーション・ユニットは、前記粗い成分および細かい成分を組み合わせて前記第二の制御パラメータを導出するよう構成されている、
態様１ないし４のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様６〕
・前記第一のビットストリームは第一のフォーマットに準拠し；
・前記第二のビットストリームは第二のフォーマットに準拠し；
・前記トランスコード・シミュレーション・ユニットは、前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合を表現するために前記第二のフォーマットによって要求される超過ビットの数を決定するよう構成されており；
・前記ビット割り当ておよび量子化ユニットは、超過ビットの数にも基づいて利用可能なビットの前記総数を決定するよう構成されている、
態様１ないし５のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様７〕
前記ビット割り当ておよび量子化ユニットが、利用可能なビットの前記総数を、前記超過ビットの数だけ減らすよう構成されている、態様６記載のオーディオ・エンコーダ。
〔態様８〕
前記超過ビットの数が、
・前記オーディオ信号の当該フレームについて特定的に決定される、または
・あらかじめ決定された値、たとえば最悪ケースの値である、
態様６または７記載のオーディオ・エンコーダ。
〔態様９〕
前記第一の目標データレートが前記第二の目標データレートに等しい、態様５ないし８のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様１０〕
前記トランスコード・シミュレーション・ユニットが、
・前記第一の制御パラメータに基づくデフォルトの第二の制御パラメータ、たとえば前記第一の制御パラメータに対応するデフォルトの第二の制御パラメータを決定し、
・前記デフォルトの第二の制御パラメータに基づいてトランスコードされるデフォルトの第二のビットストリームが前記第二の目標データレートを超過するかどうかを判定し、
・前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過しない場合、前記デフォルトの第二の制御パラメータに基づいて前記第二の制御パラメータを決定するよう構成されている、
態様１ないし９のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様１１〕
前記トランスコード・シミュレーション・ユニットは、
・前記第一の制御パラメータを使って、前記量子化されたスケーリングされた値の集合を量子化解除して、量子化解除されたスケーリングされた値の集合を与え、
・前記デフォルトの第二の制御パラメータを使って量子化解除されたスケーリングされた値の集合を再量子化して再量子化されたスケーリングされた値の集合を与えるよう構成されている、
態様１０記載のオーディオ・エンコーダ。
〔態様１２〕
前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過すると判定される場合、前記トランスコード・シミュレーション・ユニットは、前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化を実行して、前記第二の制御パラメータに基づいてトランスコードされる前記第二のビットストリームが前記第二の目標データレートを超過しないよう前記第二の制御パラメータを決定するよう構成されている、態様１１記載のオーディオ・エンコーダ。
〔態様１３〕
前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化が、
・前記第二の目標データレートに基づき、かつ前記エンコードされたスケール因子の集合を前記第二のオーディオ・コーデック・システムに基づいて再エンコードするために使われるビットの数に基づいて、量子化解除されたスケーリングされた値の集合を量子化するための利用可能なビットの第二の総数を決定し；
・量子化解除されたスケーリングされた値の集合のスケーリングされた値を量子化するための利用可能なビットの前記第二の総数の割り当てを示す第二の制御パラメータを決定することを含む、
態様１２記載のオーディオ・エンコーダ。
〔態様１４〕
前記第二のオーディオ・コーデック・システムに基づくビット割り当ておよび量子化がさらに、
・前記エンコードされたスケール因子の集合に基づいてパワースペクトル密度（PSD）分布を決定し；
・前記エンコードされたスケール因子の集合に基づいてマスキング曲線を決定し；
・中間的な第二の制御パラメータを使って前記マスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定し；
・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて、量子化解除されたスケーリングされた値の集合の量子化解除されたスケーリングされた値を量子化するための必要とされるビットの数を決定し；
・前記中間的な第二の制御パラメータを、必要とされるビットの数と利用可能なビットの前記第二の総数との間の差が縮小されるよう、かつ、必要とされるビットの数が利用可能なビットの前記第二の総数を超過しないよう、逐次反復プロセスにおいて調整し、それにより前記第二の制御パラメータを与えることを含む、
態様１３記載のオーディオ・エンコーダ。
〔態様１５〕
前記トランスコード・シミュレーション・ユニットが、
・前記中間的な第二の制御パラメータを、前記第一の制御パラメータで初期化し；
・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて決定される量子化ノイズが所定のノイズ閾値を下回る場合に、前記逐次反復手順を停止するよう構成されている、
態様１４記載のオーディオ・エンコーダ。
〔態様１６〕
前記デフォルトの第二のビットストリームが前記第二の目標データレートを超過すると判定される場合、前記トランスコード・シミュレーション・ユニットは、前記デフォルトの第二の制御パラメータを所定の制御パラメータ・オフセット値だけオフセットすることによって、前記第二の制御パラメータを決定するよう構成されている、態様１１ないし１５のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様１７〕
前記変換ユニットが、前記オーディオ信号の当該フレームから導出される一つまたは複数のブロックに対して、修正離散コサイン変換を実行するよう構成されている、態様１ないし１６のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様１８〕
・前記スケール因子が指数eに対応し、
・前記スケーリングされた値が仮数mに対応し、
・前記浮動小数点エンコード・ユニットは、公式X＝m・2^-eを使って変換係数Xについて指数eおよび仮数mを決定するよう構成されている、
態様１ないし１７のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様１９〕
前記ビット割り当ておよび量子化ユニットが、前記第一の制御パラメータを決定することを、
・前記エンコードされたスケール因子の集合に基づいてパワースペクトル密度（PSD）分布を決定し；
・前記エンコードされたスケール因子の集合に基づいてマスキング曲線を決定し；
・中間的な第一の制御パラメータを使って前記マスキング曲線をオフセットすることによってオフセット・マスキング曲線を決定し；
・前記PSD分布と前記オフセット・マスキング曲線の比較に基づいて、前記スケーリングされた値の集合のスケーリングされた値を量子化するための必要とされるビットの数を決定し；
・前記中間的な第一の制御パラメータを、必要とされるビットの数と利用可能なビットの前記総数との間の差が縮小されるよう、かつ、必要とされるビットの数が利用可能なビットの前記総数を超過しないよう調整し、それにより前記第一の制御パラメータを与えることによって行なうよう構成されている、
態様１ないし１８のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様２０〕
前記ビットストリーム・パッキング・ユニットは、前記第一のビットストリームが前記第一の目標データレートに準拠するよう、一つまたは複数の充填ビットを前記第一のビットストリーム中に挿入するよう構成されている、態様１ないし１９のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様２１〕
前記オーディオ信号がマルチチャネル・オーディオ信号、たとえば5.1チャネル・オーディオ信号である、態様１ないし２０のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様２２〕
前記フレームが、前記オーディオ信号の所定の数のサンプル、たとえば1536個のサンプルを含む、態様１ないし２１のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様２３〕
・前記第一のオーディオ・コーデック・システムがドルビー・デジタル・プラス・コーデック・システム、たとえば低計算量ドルビー・デジタル・プラス・システムに準拠する；および／または
・前記第一の制御パラメータがドルビー・デジタル・プラスSNRオフセット値を含む；および／または
・前記第二のコーデック・システムがドルビー・デジタル・コーデック・システムに準拠する；および／または
・前記第二の制御パラメータがドルビー・デジタルSNRオフセット値を含む、
態様１ないし２２のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様２４〕
・前記第一の目標データレートが384kbps、448kbps、640kbpsのうちの一つである；および／または
・前記第二の目標データレートが640kbpsである、
態様１ないし２３のうちいずれか一項記載のオーディオ・エンコーダ。
〔態様２５〕
オーディオ・トランスコーダであって、
・第一のデータレートでの第一のビットストリームを受領するよう構成されており、
・前記第一のビットストリームは、第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号のフレームを示し、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含み、
・前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合は前記オーディオ信号の前記フレームのスペクトル成分を示し、
・前記第一の制御パラメータは、前記量子化されたスケーリングされた値の集合を量子化するために使われた量子化器の分解能を示し、
・前記第二の制御パラメータは、第二の目標データレートでの第二のビットストリームのために前記量子化されたスケーリングされた値を再量子化するために当該トランスコーダによって使用される量子化器を示し、
・前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致し、
当該トランスコーダはさらに、
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定し、
・前記第一の制御パラメータが前記第二の制御パラメータに対応するかどうかを判定し、
・前記第一のデータレートが前記第二の目標データレートに等しく、かつ前記第一の制御パラメータが前記第二の制御パラメータに対応する場合、前記量子化されたスケーリングされた値の集合、前記エンコードされたスケール因子の集合および前記第二の制御パラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定するよう構成されている、
オーディオ・トランスコーダ。
〔態様２６〕
前記第一のデータレートが前記第二の目標データレートより小さく、かつ、前記第一の制御パラメータが前記第二の制御パラメータに対応する場合、さらに、
・前記第一のビットストリームが結合チャネルおよび／またはフル・チャネルを含むかどうかを判定し、
・前記量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値および前記エンコードされたスケール因子の集合のエンコードされたスケール因子であって前記フル・チャネルに関連付けられているものを、前記第二のビットストリームにコピーするよう構成されている、
態様２５記載のオーディオ・トランスコーダ。
〔態様２７〕
・前記量子化されたスケーリングされた値の集合の量子化されたスケーリングされた値および前記エンコードされたスケール因子の集合のエンコードされたスケール因子であって前記結合チャネルに関連付けられているものを分離し、それにより量子化されたスケーリングされた値の第一の集合およびエンコードされたスケール因子の第一の集合を与え、
・前記第一の制御パラメータを使って前記量子化されたスケーリングされた値の第一の集合を量子化解除して量子化解除されたスケーリングされた値の第一の集合を与え、
・前記第二の制御パラメータを使って前記量子化解除されたスケーリングされた値の第一の集合を再量子化し、それにより再量子化されたスケーリングされた値の第一の集合を与え、
・前記再量子化されたスケーリングされた値の第一の集合を、前記第二のビットストリーム中に挿入するようさらに構成されている、
態様２６記載のオーディオ・トランスコーダ。
〔態様２８〕
第一のオーディオ・コーデック・システムに基づいてオーディオ信号を第一のビットストリームにエンコードする方法であって、
・前記オーディオ信号のスペクトル成分に基づいてスケール因子の集合およびスケーリングされた値の集合を決定する段階と；
・前記第一のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを使って前記スケーリングされた値の集合を量子化するための量子化器の分解能を示す第一の制御パラメータを決定する段階であって、前記分解能は、前記第一のビットストリームの第一の目標データレートに依存する、段階と；
・前記第一のビットストリームの、第二の目標データレートの第二のビットストリームへの変換を可能にするための第二の制御パラメータを決定する段階であって、前記第二のビットストリームは、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに一致するものであり、前記第二の制御パラメータを決定する段階は、前記第二のオーディオ・コーデック・システムに基づく逐次反復式のビット割り当てプロセスを実行することなく、前記第一の制御パラメータに基づいて前記第二の制御パラメータを決定することを含み、前記第一のビットストリームは、前記第一および第二の制御パラメータを示す、段階とを含む、
方法。
〔態様２９〕
第一のオーディオ・コーデック・システムに基づいてエンコードされたオーディオ信号を示す第一のビットストリームを、前記第一のオーディオ・コーデック・システムとは異なる第二のオーディオ・コーデック・システムに基づく第二のビットストリームにトランスコードする方法であって、
・第一のデータレートでの前記第一のビットストリームを受領する段階であって、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、エンコードされたスケール因子の集合、第一の制御パラメータおよび第二の制御パラメータを含み、
・前記量子化されたスケーリングされた値の集合および前記エンコードされたスケール因子の集合は、前記オーディオ信号のスペクトル成分を示し、
・前記第一の制御パラメータは、前記量子化されたスケーリングされた値の集合を量子化するために使われた量子化器を示し、
・前記第二の制御パラメータは、第二の目標データレートの第二のビットストリームのために前記量子化されたスケーリングされた値の集合を再量子化するためにトランスコーダによって使われるべき量子化器を示す、段階と；
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定する段階と；
・前記第一の制御パラメータが前記第二の制御パラメータに対応するかどうかを判定する段階と；
・前記第一のデータレートが前記第二の目標データレートに等しく、前記第一の制御パラメータが前記第二の制御パラメータに対応する場合、前記量子化されたスケーリングされた値の集合、前記エンコードされたスケール因子の集合および前記第二の制御パラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定する段階とを含む、
方法。
〔態様３０〕
ドルビー・デジタル・プラス・コーデック・システムに基づくオーディオ信号をエンコードし、それにより第一の目標データレートでの第一のビットストリームを与えるよう構成されたオーディオ・エンコーダであって、当該オーディオ・エンコーダは、
・ドルビー・デジタル・プラス・コーデック・システムに基づいて前記第一の目標データレートについてのsnroffsetパラメータを決定し、トランスコーダが前記第一のビットストリームを第二の目標データレートの第二のビットストリームに変換できるようにするため、前記snroffsetパラメータからconvsnroffsetパラメータを導出するよう構成されており、
前記第二のビットストリームは、ドルビー・デジタル・コーデック・システムに一致し、前記第一のビットストリームは前記snroffsetパラメータおよび前記convsnroffsetパラメータを含む、
オーディオ・エンコーダ。
〔態様３１〕
第一のフォーマットに対応する第一のビットストリームの、第二のフォーマットに対応する第二のビットストリームへの変換を可能にする方法であって、前記第一および第二のビットストリームは、エンコードされたオーディオ信号の少なくとも一つの同一のフレームに関係し、前記第一のビットストリームは、該第一のビットストリームに関連する第一のビット割り当てプロセスを示す第一の制御パラメータを含み、前記第一の制御パラメータは粗い成分および細かい成分を含み、前記第二のビットストリームは、該第二のビットストリームに関連する第二のビット割り当てプロセスを示す第二の制御パラメータを含み、前記第二のビットストリームは、前記第二の制御パラメータを使って前記第一のビットストリームから生成され、当該方法は：
・前記粗い成分および細かい成分の組み合わせのみに基づいて前記第二の制御パラメータを決定し；
・前記第二の制御パラメータを前記第一のビットストリーム中に挿入することを含む、
方法。
〔態様３２〕
オーディオ・トランスコーダであって、
・第一のデータレートでの第一のビットストリームを受領する段階であって、
・前記第一のビットストリームは、ドルビー・デジタル・プラス・コーデック・システムに基づいてエンコードされたオーディオ信号を示し、
・前記第一のビットストリームは、量子化されたスケーリングされた値の集合、snroffsetパラメータおよびconvsnroffsetパラメータを含み、
・前記convsnroffsetパラメータは、第二の目標データレートの第二のビットストリームを生成するために当該トランスコーダによって使われるべき量子化器を指示し、
・前記第二のビットストリームはドルビー・デジタル・オーディオ・コーデック・システムに従う、段階と；
・前記第一のデータレートが前記第二の目標データレートに等しいかどうかを判定する段階と；
・前記snroffsetパラメータが前記convsnroffsetパラメータに対応するかどうかを判定する段階と；
前記第一のデータレートが前記第二の目標データレートに等しく、前記snroffsetパラメータが前記convsnroffsetパラメータに対応する場合、前記量子化されたスケーリングされた値の集合および前記convsnroffsetパラメータを前記第二のビットストリームにコピーすることによって、前記第二のビットストリームを決定する段階とを実行するよう構成されている、
トランスコーダ。

【図1】