(58)【調査した分野】(Int.Cl.,DB名)
前記入力信号が五つの全範囲オーディオ・チャネルを含み、前記ダウンミックスは三つの非無音チャネルをもち、段階(a)は、前記入力信号の前記全範囲オーディオ・チャネルのうちの二つのチャネルの低周波数成分を値0で置き換える、請求項1記載の方法。
低周波数成分およびより高い周波数成分をもつマルチチャネル・オーディオ入力信号をエンコードすることによって、エンコードされたオーディオ信号を生成するよう構成されたオーディオ・エンコーダであって:
前記入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化してそれにより前記ダウンミックスのオーディオ内容を示す波形符号化されたダウンミックスされたデータを生成し、前記入力信号の各チャネルの前記より高い周波数成分の少なくともいくつかに対してパラメトリック符号化を実行してそれにより前記入力信号の前記各チャネルの前記より高い周波数成分の前記少なくともいくつかを示すパラメトリック符号化されたデータを生成するよう構成されたエンコード・サブシステムと;
前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータに応答して、前記エンコードされたオーディオ信号が前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すよう、前記エンコードされたオーディオ信号を生成するよう結合され、構成されたフォーマット・サブシステムとを含み、
前記入力信号はN個の全範囲オーディオ・チャネルを含み、前記ダウンミックスはN個より少ない非無音チャネルをもち、前記ダウンミックスを生成する処理は、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換える、
エンコーダ。
前記エンコード・サブシステムは、前記入力信号に対して時間領域から周波数領域への変換を実行して、前記入力信号の少なくともいくつかのチャネルの低周波数成分および前記入力信号の前記各チャネルの前記より高い周波数成分を含む周波数領域データを生成するよう構成されている、請求項6記載のエンコーダ。
前記より高い周波数成分が中間周波数成分および高周波数成分を含み、前記エンコード・サブシステムが、前記中間周波数成分のチャネル結合符号化および前記高周波数成分のスペクトル拡張符号化を実行することによって前記パラメトリック符号化されたデータを生成するよう構成されている、請求項6記載のエンコーダ。
前記入力信号が少なくとも二つの全範囲オーディオ・チャネルを含み、前記エンコード・サブシステムは、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換えることによって前記ダウンミックスを生成するよう構成されている、請求項6記載のエンコーダ。
当該エンコーダが、前記エンコードされたオーディオ信号が前記入力信号より少数のビットを有するように前記エンコードされた入力信号を生成するよう構成されている、請求項6記載のエンコーダ。
波形符号化されたデータおよびパラメトリック符号化されたデータを示すエンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は、N個の全範囲オーディオ・チャネルを含むマルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記波形符号化されたデータが前記ダウンミックスのオーディオ内容を示すよう前記波形符号化されたデータを生成し、前記入力信号の各チャネルの少なくともいくつかのより高い周波数成分に対してパラメトリック符号化を実行し、前記パラメトリック符号化されたデータが前記入力信号の前記各チャネルの前記少なくともいくつかのより高い周波数成分を示すよう前記パラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものであり、
前記ダウンミックスはN個より少ない非無音チャネルをもち、前記ダウンミックスを生成する処理は、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換えることを含み、
当該方法は:
(a)前記エンコードされたオーディオ信号から、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータを抽出する段階と;
(b)段階(a)において抽出された前記波形符号化されたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成する段階と;
(c)段階(a)において抽出された前記パラメトリック符号化されたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、少なくともいくつかのより高い周波数のオーディオ内容を示す復元された周波数成分の第二の集合を生成する段階とを含む、
方法。
デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成する段階をさらに含む、請求項14記載の方法。
波形符号化されたデータおよびパラメトリック符号化されたデータを示すエンコードされたオーディオ信号をデコードするよう構成されたオーディオ・デコーダであって、前記エンコードされたオーディオ信号は、Nが整数であるとしてN個の全範囲オーディオ・チャネルをもつマルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記波形符号化されたデータが前記ダウンミックスのオーディオ内容を示すよう前記波形符号化されたデータを生成し、前記入力信号の各チャネルの少なくともいくつかのより高い周波数成分に対してパラメトリック符号化を実行し、それにより前記パラメトリック符号化されたデータが前記入力信号の前記各チャネルの前記少なくともいくつかのより高い周波数成分を示すよう前記パラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものであり、
前記ダウンミックスはN個より少ない非無音チャネルをもち、前記ダウンミックスを生成する処理は、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換えることを含み、
当該デコーダは:
前記エンコードされたオーディオ信号から、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータを抽出するよう構成された第一のサブシステムと;
前記第一のサブシステムによって抽出された前記波形符号化されたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成し、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、少なくともいくつかのより高い周波数のオーディオ内容を示す復元された周波数成分の第二の集合を生成するよう結合され、構成された第二のサブシステムとを含む、
デコーダ。
前記第二のサブシステムはさらに、復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を組み合わせることによることを含め、Nチャネルのデコードされた周波数領域データを生成し、前記デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、前記デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにするよう構成されている、請求項20記載のデコーダ。
前記第二のサブシステムが、デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成するよう構成されている、請求項21記載のデコーダ。
前記第二のサブシステムが、復元された周波数成分の前記第一の集合に対して盲目的なアップミックスを実行してアップミックスされた周波数成分を生成し、前記アップミックスされた周波数成分と復元された周波数成分の前記第二の集合とを組み合わせて前記Nチャネルのデコードされた周波数領域データを生成するよう構成されている、請求項21記載のデコーダ。
前記第二のサブシステムが、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してチャネル結合デコードを実行し、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してスペクトル拡張デコードを実行するよう構成されている、請求項20記載のデコーダ。
【背景技術】
【0003】
ドルビー・ラボラトリーズは、それぞれドルビー・デジタルおよびドルビー・デジタル・プラスとして知られる、AC-3およびE-AC-3の独自の実装を提供している。ドルビー、ドルビー・デジタルおよびドルビー・デジタル・プラスはドルビー・ラボラトリーズ・ライセンシング・コーポレイションの商標である。
【0004】
本発明はE-AC-3(またはAC-3)フォーマットに従ってオーディオ・データをエンコードすることにおける使用に限定されないが、便宜上、E-AC-3フォーマットに従ってオーディオ・ビットストリームをエンコードする実施形態において記述される。
【0005】
AC-3またはE-AC-3エンコードされたビットストリームはメタデータおよび一ないし六個のチャネルのオーディオ・コンテンツを含む。オーディオ・コンテンツは、知覚的オーディオ符号化を使って圧縮されたオーディオ・データである。AC-3符号化の詳細はよく知られており、非特許文献1、特許文献1、2、3、4、5を含む多くの刊行物で記述されている。
【0006】
ドルビー・デジタル・プラス(E-AC-3)の詳細は、たとえば非特許文献2に記載されている。
【0007】
AC-3エンコードされたオーディオ・ビットストリームの各フレームは、デジタル・オーディオの1536サンプルについてのオーディオ・コンテンツおよびメタデータを含む。48kHzのサンプリング・レートについては、これは32ミリ秒のデジタル・オーディオまたはオーディオの31.25フレーム毎秒のレートを表わす。
【0008】
E-AC-3エンコードされたオーディオ・ビットストリームの各フレームは、フレームに含まれるオーディオ・データが一、二、三または六ブロックのいずれであるかに依存して、それぞれデジタル・オーディオの256、512、768または1536サンプルについてのオーディオ・コンテンツおよびメタデータを含む。
【0009】
オーディオ入力信号の波形エンコード(典型的には、エンコードされた信号が入力信号より少数のビットを有するように信号を圧縮するために実行される)は、入力信号を、入力信号の波形を、該当する制約条件の下で、できるだけ保存するような仕方でエンコードする(たとえば、エンコードされた信号の波形が入力信号の波形に可能な限り一致するようにする)。たとえば、通常のE-AC-3エンコードでは、波形エンコードは、マルチチャネル入力信号の各チャネルの低周波数成分(典型的には3.5kHzまたは4.6kHzまで)に対して実行される。それは、入力信号の各チャネルの各低周波数帯域の各サンプル(これが周波数成分である)の量子化された表現(量子化された仮数および指数)を(周波数領域において)生成することによる。
【0010】
より具体的には、E-AC-3エンコーダ(および他の何らかの通常のオーディオ・エンコーダ)の典型的な実装は、それぞれの仮数へのビットの最適な割り当てを決定するために、帯域化ベース(すなわち、典型的にはバーク・スケールとして知られる周知の音響心理学的スケールの周波数帯域を近似する50個の非一様な帯域)で入力信号を示す周波数領域データを解析するための音響心理学的モデルを実装する。入力信号の低周波数成分に対して波形エンコードを実行するために、(低周波数成分を示す)仮数データは決定されたビット割り当てに対応する数のビットに量子化される。量子化された仮数データは(対応する指数データおよび典型的には対応するメタデータも)次いで、エンコードされた出力ビットストリームにフォーマットされる。
【0011】
もう一つのよく知られた型のオーディオ信号エンコードであるパラメトリック・エンコードは、入力オーディオ信号の特徴パラメータを抽出し、エンコードする。それにより、(エンコードおよびその後のデコード後の)再構成された信号は(該当する制約条件のもとで)できるだけ高い了解性をもつが、エンコードされた信号の波形は入力信号の波形とは非常に異なることがある。
【0012】
たとえば、特許文献6、7はスペクトル拡張符号化として知られるパラメトリック符号化の型を記述している。スペクトル拡張符号化(spectral extension coding)では、全周波数範囲のオーディオ入力信号の周波数成分は、限られた周波数範囲の信号(ベースバンド信号)のシーケンスおよび(ベースバンド信号とともに)全周波数範囲の入力信号の近似バージョンを決定する(残差信号を示す)エンコード・パラメータの対応するシーケンスとしてエンコードされる。
【0013】
パラメトリック・エンコードのもう一つのよく知られた型はチャネル結合符号化(channel coupling coding)である。チャネル結合符号化では、オーディオ入力信号のチャネルのモノフォニック・ダウンミックスが構築される。入力信号はこのダウンミックス(周波数成分のシーケンス)および結合パラメータの対応するシーケンスとしてエンコードされる。結合パラメータは、(前記ダウンミックスとともに)入力信号の各チャネルの近似されたバージョンを決定するレベル・パラメータである。結合パラメータは、モノフォニック・ダウンミックスのエネルギーを入力信号の各チャネルのエネルギーにマッチさせる周波数帯域化されたメタデータである。
【0014】
たとえば、5.1チャネル入力信号の(エンコードされた信号の送達のための利用可能なビットレート192kbpsでの)通常のE-AC-3エンコードは典型的には、入力信号の各チャネルの中間周波数成分(F1<f≦F2の範囲内、ここでF1は典型的には3.5kHzまたは4.6kHzに等しく、F2は典型的には10kHzまたは10.2kHzに等しい)をエンコードするためにチャネル結合符号化を実装し、入力信号の各チャネルの高周波数成分(F2<f≦F3の範囲内、ここで、F2は典型的には10kHzまたは10.2kHzに等しく、F3は典型的には14.8kHzまたは16kHzに等しい)をエンコードするためにスペクトル拡張符号化を実装する。チャネル結合エンコードの実行中に決定されたモノフォニック・ダウンミックスは波形符号化され、波形符号化されたダウンミックスは結合パラメータとともに(エンコードされた出力信号において)送達される。チャネル結合エンコードの実行中に決定されたダウンミックスは、スペクトル拡張符号化のためのベースバンド信号として用いられる。スペクトル拡張符号化は(入力信号の各チャネルのベースバンド信号および高周波数成分から)、別の一組のエンコード・パラメータ(SPXパラメータ)を決定する。SPXパラメータは、エンコードされた出力信号中に含められ、該エンコードされた出力信号とともに送達される。
【0015】
時に空間的オーディオ符号化(spatial audio coding)と称されるパラメトリック符号化のもう一つの型では、マルチチャネル・オーディオ入力信号のチャネルのダウンミックス(たとえばモノまたはステレオのダウンミックス)が生成される。入力信号は、このダウンミックス(周波数成分のシーケンス)および空間的パラメータの対応するシーケンスを含む出力信号として(または前記ダウンミックスの各チャネルの波形符号化されたバージョンと空間的パラメータの対応するシーケンスとして)エンコードされる。空間的パラメータは、入力信号の前記ダウンミックスから、オーディオ入力信号の各チャネルの振幅包絡〔エンベロープ〕およびオーディオ入力信号のチャネルどうしの間のチャネル間相関の両方を復元することを許容する。この型のパラメトリック符号化は、入力信号の全周波数範囲の部分範囲内の周波数成分だけに対してではなく、入力信号のすべての周波数成分に対して(すなわち、入力信号の全周波数範囲に対して)実行されてもよい(すなわち、入力信号のエンコードされたバージョンは、入力信号の部分集合ではなく全周波数範囲のすべての周波数についてのダウンミックスおよび空間的パラメータを含む)。
【0016】
オーディオ・ビットストリームのE-AC-3またはAC-3エンコードでは、エンコードされるべき入力オーディオ・サンプルのブロックは、時間‐周波数領域変換を受け、その結果、一様に離間した周波数ビン内に位置する一般に変換係数(または周波数係数または周波数成分)と称される周波数領域データのブロックを生じる。次いで各ビン内の周波数係数が指数および仮数を含む浮動小数点フォーマットに変換される(たとえば、
図1のシステムのBFPE段7において)。
【0017】
典型的には、仮数ビット割り当ては、粒度の細かい信号スペクトル(各周波数ビンについてのパワースペクトル密度(「PSD」値によって表わされる))と粒度の粗いマスキング曲線(各周波数帯域についてのマスク値によって表わされる)との間の差に基づく。
【0018】
図1は、時間領域入力オーディオ・データ1に対して通常のE-AC-3エンコードを実行するよう構成されたエンコーダである。エンコーダの分解フィルタバンク2は時間領域入力オーディオ・データ1を周波数領域オーディオ・データ3に変換し、ブロック浮動小数点エンコード(BFPE: block floating point encoding)段7が、データ3の各周波数成分の、各周波数ビンについて指数および仮数を含む浮動小数点表現を生成する。段7から出力される周波数領域データは本稿では時に周波数領域オーディオ・データ3と称される。段7から出力される周波数領域オーディオ・データは次いでエンコードされる。それは、段7から出力される周波数領域データの低周波数成分(「F1」以下の周波数をもつ、ここで、F1は典型的には3.5kHzまたは4.6kHzに等しい)に対して波形符号化を(
図1のシステムの要素4、6、10および11において)実行することにより、かつ段7から出力される周波数領域データの残りの周波数成分(F1より高い周波数をもつ成分)に対してはパラメトリック符号化を(パラメトリック・エンコード段12において)実行することによることを含む。
【0019】
波形エンコードは、量子化器6における(段7から出力される低周波数成分の)仮数の量子化と、テンティング(tenting)段10における(段7から出力される低周波数成分の)指数のテンティングと、段10において生成されたテンティングされた指数の(指数符号化段11における)エンコードとを含む。量子化器6から出力される量子化されたデータ、段11から出力される符号化された差分指数データおよび段12から出力されるパラメトリック・エンコードされたデータに応答して、フォーマット器8が、E-AC-3エンコードされたビットストリーム9を生成する。
【0020】
量子化器6は、コントローラ4によって生成される(マスキング・データを含む)制御データに基づくビット割り当ておよび量子化を実行する。(マスキング曲線を決定する)マスキング・データは、周波数領域データ3から、人間の聴覚および聴覚知覚の(コントローラ4によって実装される)音響心理学モデルに基づいて生成される。音響心理学モデリングは、人間の聴覚の周波数依存の閾値と、一つまたは複数のより弱い周波数成分に近い強い周波数成分が該より弱い成分をマスクし、人間の聴取者に聞こえなくするという、マスキングと称される音響心理学的現象とを考慮に入れる。これにより、エンコードされたオーディオ・データ(ビットストリーム9)の知覚される品質に悪影響を与えることなく、オーディオ・データをエンコードするときに前記より弱い周波数成分を省略し、それにより、より高い圧縮率を達成することが可能になる。マスキング・データは、周波数領域オーディオ・データ3の各周波数帯域についてマスキング曲線値を含む。これらマスキング曲線値は、各周波数帯域において人間の耳によってマスクされる信号のレベルを表わす。量子化器6はこの情報を使って、入力オーディオ信号の各周波数帯域の周波数領域データを表わすために、利用可能な数のデータ・ビットをどのように使うのが最もよいかを決定する。
【0021】
通常のE-AC-3エンコードにおいて、絶対的な指数ではなく差分指数(すなわち、相続く指数の間の差)が符号化されることが知られている。差分指数は、五つの値2、1、0、−1および−2のうちの一つを取ることができるだけである。この範囲外の差分指数が見出される場合には、減算される指数の一つが修正されて、(修正後の)差分指数が上記の範囲内になるようにする(この通常の方法は、「指数テンティング(exponent tenting)」または「テンティング(tenting)」として知られている)。
図1のエンコーダのテンティング段10は、そのようなテンティング動作を実行することにより、それに加えられる生の指数に応答してテンティングされた指数を生成する。
【発明を実施するための形態】
【0037】
本発明の符号化方法および該方法を実装するよう構成されたシステムのある実施形態について
図2を参照して述べる。
図2のシステムは、マルチチャネル・オーディオ入力信号(21)に応答してE-AC-3エンコードされたオーディオ・ビットストリーム(31)を生成するよう構成されたE-AC-3エンコーダである。信号21は、オーディオ・コンテンツの五つの全範囲〔フル・レンジ〕チャネルを含む「5.0チャネル」の時間領域信号であってもよい。
【0038】
図2のシステムは、五つの全範囲チャネルおよび一つの低域効果(LFE)チャネルを含む5.1チャネルのオーディオ入力信号21に応答してE-AC-3エンコードされたオーディオ・ビットストリーム31を生成するようにも構成される。
図2に示される要素は、五つの全範囲入力チャネルをエンコードし、エンコードされた全範囲チャネルを示すビットを、出力ビットストリーム31に含めるためにフォーマット段30に提供することができる。(通常の仕方で)LFEチャネルをエンコードし、エンコードされたLFEチャネルを示すビットを、出力ビットストリーム31に含めるためにフォーマット段30に提供するための本システムの通常の要素は、
図2には示していない。
【0039】
図2の時間領域から周波数領域への変換段22は、時間領域入力信号21の各チャネルを周波数領域オーディオ・データのチャネルに変換するよう構成されている。
図2のシステムがE-AC-3エンコーダであるので、各チャネルの周波数成分は、バーク・スケールとして知られる周知の音響心理学スケールの周波数帯域を近似する50個の非一様な帯域に周波数帯域化される。(エンコードされた出力オーディオ31がE-AC-3準拠フォーマットをもたないような)
図2の実施形態に対する諸変形では、入力信号の各チャネルの周波数成分は別の仕方で(すなわち、一様または非一様な周波数帯域の任意の集合に基づいて)周波数帯域化される。
【0040】
段22から出力されるチャネルの全部または一部の低周波数成分がダウンミックス段23においてダウンミックスを受ける。低周波数成分は、最大周波数「F1」以下の周波数をもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内である。
【0041】
段22から出力される全チャネルの中間周波数成分は、段26においてチャネル結合符号化を受ける。中間周波数成分は範囲F1<f≦F2内の周波数fをもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内であり、F2は典型的には約8kHzから約12.5kHzの範囲内である(たとえば、F2は8kHzまたは10kHzまたは10.2kHzに等しい)。
【0042】
段22から出力される全チャネルの高周波数成分は、段28においてスペクトル拡張符号化を受ける。高周波数成分は範囲F2<f≦F3内の周波数fをもつ。ここで、F2は典型的には約8kHzから約12.5kHzの範囲内であり、F3は典型的には約10.2kHzか約18kHzの範囲内である。
【0043】
本発明者らは、マルチチャネル入力信号の一部または全部のチャネルのオーディオ内容の低周波数成分のダウンミックス(たとえば五つの全範囲チャネルをもつ入力信号の三チャネル・ダウンミックス)を波形符号化し(五つの全範囲入力チャネル全部のオーディオ内容の低周波数成分を離散的に波形符号化するのではなく)、入力信号の各チャネルの残りの周波数成分をパラメトリック・エンコードすることが、低下したビットレートにおいて、標準的なE-AC-3符号化を使って得られる品質に比べて改善された品質をもつエンコードされた出力信号を与え、好ましくない空間的つぶれを回避するということを判別した。
図2のシステムは、本発明のエンコード方法のそのような実施形態を実行するよう構成されたシステムである。たとえば、
図2のシステムは、マルチチャネル入力信号21が五つの全範囲チャネルをもち(すなわち、5チャネルまたは5.1チャネル・オーディオ信号である)、低下したビットレート(たとえば160kbps、あるいは約96kbpsより高く192kbpsより実質的に低い別のビットレート;ここで、「kbps」はキロビット毎秒を表わす)でエンコードされる場合に、改善された品質をもって(かつ好ましくない空間的つぶれを回避する仕方で)、エンコードされた出力信号31を生成するために、本発明の方法のそのような実施形態を実行することができる。ここで、「低下した」ビットレートは、そのビットレートが、同じ入力信号のエンコードの際に標準的なE-AC-3エンコーダが典型的に動作するビットレートより低いことを示す。本発明の方法の上記の実施形態および通常のE-AC-3エンコード方法はいずれも入力信号のオーディオ内容の中間およびより高い周波数成分をパラメトリック技法(すなわち、
図2のシステムの段26で実行されるようなチャネル結合符号化および
図2のシステムの段28で実行されるようなスペクトル拡張符号化)を使ってエンコードするが、本発明の方法は、入力オーディオ信号の五つすべての離散的なチャネルではなく、低下した数の(たとえば三つの)ダウンミックス・チャネルのみの内容の低周波数成分の波形符号化を実行する。これは、空間的情報の損失(チャネルのうちのいくつか、典型的にはサラウンド・チャネルの低周波数データが他のチャネル、典型的には前方チャネル中に混合されるため)を代償としての、ダウンミックス・チャネルにおける符号化ノイズが低減される(たとえば波形符号化が五つではなく五つより少ないチャネルの低周波数成分に対して実行されるため)有益なトレードオフにつながる。本発明者らは、このトレードオフが典型的には、低下したビットレートで入力信号に対して標準的なE-AC-3符号化を実行することによって生成されるよりも、よい品質の出力信号を与える(該出力信号がエンコードされた出力信号の送達、デコードおよびレンダリング後のよりよい音質を提供する)ことを判別した。
【0044】
典型的な実施形態では、
図2のシステムのダウンミックス段23は、入力信号のチャネルの第一の部分集合(典型的には、左右のサラウンド・チャネルLsおよびRs)の各チャネルの低周波数成分を値0で置き換え、入力信号の残りのチャネル(たとえば、
図2に示されるように左前方チャネルL、中央チャネルCおよび右前方チャネルR)の低周波数成分を不変のまま、入力信号の低周波数成分のダウンミックスとして、(波形エンコード段24に)通過させる。あるいはまた、別の仕方で低周波数内容のダウンミックスが生成されてもよい。たとえば、ある代替的な実装では、ダウンミックスを生成する動作は、前記第一の部分集合の少なくとも一つのチャネルの低周波数成分を、前記入力信号の残りのチャネルの少なくとも一つのチャネルの低周波数成分と混合する段階を含む(たとえば、段23は、それに呈された右サラウンド・チャネルRsと右前方チャネルRを混合してダウンミックスの右チャネルを生成し、それに呈された左サラウンド・チャネルLsと左前方チャネルLを混合してダウンミックスの左チャネルを生成するよう実装されることができる)。
【0045】
段23において生成されたダウンミックスの各チャネルは、波形エンコード段24において(通常の仕方の)波形符号化を受ける。ダウンミックス段23が前記入力信号のチャネルの第一の部分集合(たとえば、
図2に示される左右のサラウンド・チャネルLsおよびRs)の各チャネルの低周波数成分を、値0を含む低周波数成分チャネルで置き換える典型的な実装では、値0を含むそのような各チャネル(本稿では時に「無音」チャネルと称される)が段23から、ダウンミックスの0でない(非無音の)各チャネルと一緒に、出力される。(段23において生成された)ダウンミックスの0でない各チャネルが段24において波形符号化を受けるとき、段23から段24に呈示される各「無音」チャネルも典型的には波形符号化される(非常に低い処理およびビット・コストで)。段24において生成された波形エンコードされたチャネルすべては(波形エンコードされた無音チャネルがあればそれも含め)、エンコードされた出力信号31に適切なフォーマットで含めるために、段24からフォーマット段30に出力される。
【0046】
典型的な実施形態では、エンコードされた出力信号31がデコーダ(たとえば
図3を参照して記述されるデコーダ)に送達される(たとえば伝送される)とき、デコーダは、低周波数オーディオ内容の全数の波形符号化されたチャネル(たとえば五つの波形符号化されたチャネル)を見るが、そのうちの部分集合(たとえば、三チャネル・ダウンミックスの場合はそのうちの二つ、あるいは二チャネル・ダウンミックスの場合はそのうちの三つ)は、完全に0からなる「無音」チャネルである。
【0047】
低周波数内容のダウンミックスを生成するために、本発明の異なる実施形態(たとえば
図2の段23の異なる実装)は異なる方法を用いる。入力信号が五つの全範囲チャネル(左前方、左サラウンド、右前方、右サラウンドおよび中央)をもち三チャネルのダウンミックスが生成されるいくつかの実施形態では、入力信号の左サラウンド・チャネル信号の低周波数成分が入力信号の左前方チャネルの低周波数成分に混合されてダウンミックスの左前方チャネルを生成し、入力信号の右サラウンド信号の低周波数成分は入力信号の右前方チャネルの低周波数成分に混合されてダウンミックスの右前方チャネルを生成する。入力信号の中央チャネルは、波形およびパラメトリック符号化の前には、不変であり(すなわち、混合を受けない)、ダウンミックスの左右のサラウンド・チャネルの低周波数成分は0に設定される。
【0048】
あるいはまた、二チャネルのダウンミックスが生成される(すなわち、一層低いビットレートのために)場合には、入力信号の左サラウンド・チャネルの低周波数成分を入力信号の左前方チャネルの低周波数成分に混合するのに加えて、入力信号の中央チャネルの低周波数成分も入力信号の左前方チャネルの低周波数成分に混合され、入力信号の右サラウンド・チャネルおよび中央チャネルの低周波数成分は、入力信号の右前方チャネルの低周波数成分と混合される。これは典型的には入力チャネルの中央チャネルの低周波数成分のレベルを3dB下げた後で行なわれる(中央チャネルのパワーを左右のチャネルの間で分割することを考慮に入れるため)。
【0049】
他の代替的な実施形態では、モノフォニック(一チャネル)ダウンミックスが生成される、あるいは二チャネルまたは三チャネル以外の何らかの数(たとえば四つ)のチャネルをもつダウンミックスが生成される。
【0050】
再び
図2を参照するに、段22から出力されるすべてのチャネルの中間周波数成分(すなわち、五つの全範囲チャネルをもつ入力信号21に応答して生成される中間周波数成分の五つすべてのチャネル)は、チャネル結合符号化段26において通常のチャネル結合符号化を受ける。段26の出力は、中間周波数成分のモノフォニック・ダウンミックス(
図2では「モノ・オーディオ」とラベル付けされている)および結合パラメータの対応するシーケンスである。
【0051】
モノフォニック・ダウンミックスは、波形符号化段27において(通常の仕方で)波形符号化され、段27から出力される波形符号化されたダウンミックスおよび段26から出力される結合パラメータの対応するシーケンスが、エンコードされた出力信号31に適切なフォーマットで含めるために、フォーマット段30に呈される。
【0052】
チャネル結合エンコードの結果として段26によって生成されたモノフォニック・ダウンミックスはスペクトル符号化段28にも呈される。このモノフォニック・ダウンミックスは段28によって、段22から出力されたすべてのチャネルの高周波数成分のスペクトル拡張符号化のためのベースバンド信号として用いられる。段28は、段26からのモノフォニック・ダウンミックスを使って、段22から出力されたすべてのチャネルの高周波数成分(すなわち、五つの全範囲チャネルをもつ入力信号21に応答して生成された高周波数成分の五つのチャネルすべて)のスペクトル拡張符号化を実行するよう構成される。スペクトル拡張符号化は、高周波数成分に対応するエンコード・パラメータ(SPXパラメータ)の集合を決定することを含む。
【0053】
SPXパラメータは、入力信号21の各チャネルのオーディオ・コンテンツの高周波数成分の良好な近似を再構築するために、(段26から出力される)ベースバンド信号とともにデコーダ(たとえば
図3のデコーダ)によって処理されることができる。SPXパラメータは、エンコードされた出力信号31に適切なフォーマットで含めるために、符号化段28からフォーマット段30に呈される。
【0054】
次に、
図3を参照して、
図2のエンコーダによって生成されたエンコードされた出力信号31をデコードするための本発明の方法およびシステムの実施形態について述べる。
【0055】
図3のシステムは、本発明のデコード・システムおよび方法の実施形態を実装し、E-AC-3エンコードされたオーディオ・ビットストリーム(たとえば、
図2のエンコーダによって生成され、次いで
図3のデコーダに送信されたまたは他の仕方で送達されたE-AC-3エンコードされた信号31)に応答してマルチチャネル・オーディオ出力信号41を復元するよう構成されているE-AC-3デコーダである。信号41は、オーディオ・コンテンツの五つの全範囲〔フル・レンジ〕チャネルを含む5.0チャネルの時間領域信号であってもよい。信号31は、そのような5.0チャネル信号のオーディオ内容を示す。
【0056】
あるいはまた、信号41は、五つの全範囲チャネルおよび一つの低域効果(LFE)チャネルを含む5.1チャネルの時間領域オーディオ信号であってもよい。これは、信号31がそのような5.1チャネル信号のオーディオ内容を示す場合である。
図3に示される要素は、そのような信号31によって示される五つの全範囲チャネルをデコードする(およびデコードされた全範囲チャネルを示すビットを、出力信号41の生成において使うために段40に提供する)ことができる。5.1チャネル信号のオーディオ内容を示す信号31をデコードするためには、
図3のシステムは、(通常の仕方で)そのような5.1チャネル信号のLFEチャネルをデコードし、デコードされたLFEチャネルを示すビットを、出力信号41の生成において使うために段40に提供するための要素を含むことになる(
図3には示していない)。
【0057】
図3のデコーダのフォーマット解除段32は、信号31から、信号21のもとのチャネルの全部または一部の低周波数成分のダウンミックスの(
図2のエンコーダの段24によって生成された)波形エンコードされた低周波数成分と、(
図2のエンコーダの段27によって生成された)信号21の中間周波数成分の波形エンコードされたモノフォニック・ダウンミックスと、
図2のエンコーダのチャネル結合符号化段26によって生成された結合パラメータのシーケンスと、
図2のエンコーダのスペクトル拡張符号化段28によって生成されたSPXパラメータのシーケンスとを抽出するよう構成される。
【0058】
段32は、波形エンコードされた低周波数成分の抽出された各ダウンミックス・チャネルを、波形デコード段34に呈するよう結合され、構成されている。段34は、波形エンコードされた低周波数成分のそのような各ダウンミックス・チャネルに対して波形デコードを実行して、
図2のエンコーダのダウンミックス段23から出力された低周波数成分の各ダウンミックス・チャネルを復元するよう構成されている。典型的には、低周波数成分のこれらの復元されたダウンミックス・チャネルは、無音チャネル(たとえば、
図3に示される無音の左サラウンド・チャネルLs=0および
図3に示される無音の右サラウンド・チャネルRs=0)と、
図2のエンコーダの段23によって生成されるダウンミックスの低周波数成分の無音でない各チャネル(たとえば、
図3において示される左前方チャネルL、中央チャネルCおよび右前方チャネルR)とを含む。段34から出力される各ダウンミックス・チャネルの低周波数成分は、「F1」以下の周波数をもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内である。
【0059】
低周波数成分の復元されたダウンミックス・チャネルは、段34から、周波数領域組み合わせおよび周波数領域から時間領域への変換段40に呈される。
【0060】
段32によって抽出された中間周波数成分の波形エンコードされたモノフォニック・ダウンミックスに応答して、
図3のデコーダの波形デコード段36は、それに対して波形デコードを実行して、
図2のエンコーダのチャネル結合エンコード段26から出力された中間周波数成分のモノフォニック・ダウンミックスを復元するよう構成されている。段36によって復元された中間周波数成分のモノフォニック・ダウンミックスおよび段32によって抽出された結合パラメータのシーケンスに応答して、
図3のチャネル結合デコード段37は、チャネル結合デコードを実行して、信号21のもとのチャネルの中間周波数成分(
図2のエンコーダの段26の入力に呈されたもの)を復元するよう構成されている。これらの中間周波数成分は、範囲F1<f≦F2内の周波数をもつ。ここで、F1は典型的には約1.2kHzから約4.6kHzの範囲内であり、F2は典型的には約8kHzから約12.5kHzの範囲内である(たとえば、F2は8kHzまたは10kHzまたは10.2kHzに等しい)。
【0061】
復元された中間周波数成分は、段37から、周波数領域組み合わせおよび周波数領域から時間領域への変換段40に呈される。
【0062】
波形デコード段36によって生成された中間周波数成分のモノフォニック・ダウンミックスは、スペクトル拡張デコード段38にも呈される。中間周波数成分のモノフォニック・ダウンミックスおよび段32によって抽出されたSPXパラメータのシーケンスに応答して、スペクトル拡張デコード段38は、スペクトル拡張デコードを実行して、信号21のもとのチャネルの高周波数成分(
図2のエンコーダの段28の入力に呈されたもの)を復元するよう構成されている。これらの高周波数成分は範囲F2<f≦F3内の周波数をもつ。ここで、F2は典型的には約8kHzから約12.5kHzの範囲内であり、F3は典型的には約10.2kHzか約18kHzの範囲内(たとえば約14.8kHzから約16kHz)である。
【0063】
復元された高周波数成分は、段38から、周波数領域組み合わせおよび周波数領域から時間領域への変換段40に呈される。
【0064】
段40は、もとのマルチチャネル信号21の左前方チャネルに対応する復元された中間周波数成分、高周波数成分および低周波数成分を組み合わせて(たとえば、加算して)、左前方チャネルの全周波数範囲の周波数領域の復元バージョンを生成するよう構成されている。
【0065】
同様に、段40は、もとのマルチチャネル信号21の右前方チャネルに対応する復元された中間周波数成分、高周波数成分および低周波数成分を組み合わせて(たとえば、加算して)、右前方チャネルの全周波数範囲の周波数領域の復元バージョンを生成し、もとのマルチチャネル信号21の中央に対応する復元された中間周波数成分、高周波数成分および低周波数成分を組み合わせて(たとえば、加算して)、中央チャネルの全周波数範囲の周波数領域の復元バージョンを生成するよう構成されている。
【0066】
段40はまた、もとのマルチチャネル信号21の左サラウンド・チャネルの復元された低周波数成分(低周波数成分ダウンミックスの左サラウンド・チャネルは無音チャネルなので、これは値0をもつ)をもとのマルチチャネル信号21の左サラウンド・チャネルに対応する復元された中間周波数成分および高周波数成分と組み合わせて(たとえば、加算して)、(
図2のエンコーダの段23において実行されたダウンミックスのため低周波数内容を欠いているものの)全周波数範囲をもつ、左サラウンド前方チャネルの周波数領域の復元バージョンを生成するよう構成されている。
【0067】
段40は、周波数成分のそれぞれの復元された(周波数領域の)全周波数範囲のチャネルに対して周波数領域から時間領域への変換をも実行して、デコードされた出力信号41の各チャネルを生成するよう構成されている。信号41は時間領域のマルチチャネル・オーディオ信号であり、そのチャネルはもとのマルチチャネル信号21のチャネルの復元されたバージョンである。
【0068】
より一般には、本発明のデコード方法およびシステムの典型的な実施形態は、(本発明のある実施形態に従って生成されたエンコードされたオーディオ信号から)、もとのマルチチャネル入力信号のチャネル(一部または全部のチャネル)のオーディオ・コンテンツの低周波数成分の波形エンコードされたダウンミックスの各チャネルを復元するとともに、もとのマルチチャネル入力信号の各チャネルの内容の、パラメトリックにエンコードされた中間周波数および高周波数成分の各チャネルをも復元する。該デコードを実行するために、ダウンミックスの復元された低周波数成分は波形デコードを受け、次いで、復元された中間周波数および高周波数成分のパラメトリック・デコードされたバージョンと、いくつかの異なる仕方の任意のもので組み合わされることができる。第一のクラスの実施形態では、各ダウンミックス・チャネルの低周波数成分は対応するパラメトリック符号化されたチャネルの中間周波数および高周波数成分と組み合わされる。たとえば、エンコードされた信号が、五チャネル入力信号の低周波数成分の三チャネル・ダウンミックス(左前方、中央および右前方チャネル)を含み、エンコーダが入力信号の左サラウンドおよび右サラウンド・チャネルの低周波数成分の代わりに(低周波数成分ダウンミックスの生成に関連して)値0を出力した場合を考える。デコーダの左出力は、パラメトリック・デコードされた左チャネル信号(中間周波数および高周波数成分を含む)と組み合わされた波形デコードされた左前方ダウンミックス・チャネル(低周波数成分を含む)となる。デコーダから出力される中央チャネルは、パラメトリック・デコードされた中央チャネルと組み合わされた波形デコードされた中央ダウンミックス・チャネルとなる。デコーダの右出力は、パラメトリック・デコードされた右チャネルと組み合わされた波形デコードされた右前方ダウンミックス・チャネルとなる。デコーダの左サラウンド・チャネル出力は、単に左サラウンドのパラメトリック・デコードされた信号となる(すなわち、0でない低周波数の左サラウンド・チャネル内容はない)。同様に、デコーダの右サラウンド・チャネル出力は、単に右サラウンドのパラメトリック・デコードされた信号となる(すなわち、0でない低周波数の右サラウンド・チャネル内容はない)。
【0069】
いくつかの代替的な実施形態では、本発明のデコード方法は、もとのマルチチャネル入力信号のチャネル(一部または全部のチャネル)のオーディオ内容の低周波数成分の波形エンコードされたダウンミックスの各チャネルの復元と、ダウンミックスの低周波数成分の各ダウンミックス・チャネルの波形デコードされたバージョンに対して盲目的なアップミックス(すなわち、エンコーダから受領される何らかのパラメトリック・データに応答してではなく実行されるという意味で「盲目的」)と、それに続く、アップミックスされた低周波数成分の各チャネルを、エンコードされた信号から復元されたパラメトリック・デコードされた中間周波数および高周波数内容の対応するチャネルと再結合することとの段階を含む(そして、本発明のデコード・システムはそれを実行するよう構成される)。盲目的アップミックス器〔アップミキサー〕は当技術分野においてよく知られており、盲目的アップミックスの例は、2011年11月10日に公開された米国特許出願公開第2011/0274280号において記述されている。本発明では特定の盲目的アップミックス器が必要とされることはなく、種々の盲目的アップミックス方法が本発明の種々の実施形態を実装するために用いられてもよい。たとえば、五チャネル入力信号(左前方、左サラウンド、中央、右サラウンドおよび右前方チャネルを含む)の低周波数成分の三チャネル・ダウンミックス(左前方、中央および右前方チャネル)を含むエンコードされたオーディオ信号を受領し、デコードする実施形態を考える。この実施形態では、デコーダは、三チャネル・ダウンミックスの低周波数成分の各ダウンミックス・チャネル(左前方、中央および右前方)の波形デコードされたバージョンに対して盲目的アップミックスを実行するよう構成されている盲目的アップミックス器(
図3の段40によって周波数領域で実装される)を含む。デコーダはまた、デコーダの盲目的アップミックス器の左前方出力チャネル(低周波数成分を含む)を、デコーダによって受領されたエンコードされたオーディオ信号のパラメトリック・デコードされた左前方チャネル(中間周波数および高周波数成分を含む)と組み合わせ、盲目的アップミックス器の左サラウンド出力チャネル(低周波数成分を含む)を、デコーダによって受領されたオーディオ信号のパラメトリック・デコードされた左サラウンド・チャネル(中間周波数および高周波数成分を含む)と組み合わせ、盲目的アップミックス器の中央出力チャネル(低周波数成分を含む)を、デコーダによって受領されたオーディオ信号のパラメトリック・デコードされた中央チャネル(中間周波数および高周波数成分を含む)と組み合わせ、盲目的アップミックス器の右前方出力チャネル(低周波数成分を含む)を、前記オーディオ信号のパラメトリック・デコードされた右前方チャネル(中間周波数および高周波数成分を含む)と組み合わせ、盲目的アップミックス器の右サラウンド出力チャネルを、デコーダによって受領されたエンコードされたオーディオ信号のパラメトリック・デコードされた右サラウンド・チャネルと組み合わせるよう構成されている(たとえば、
図3の段40がそのような組み合わせを実行するよう構成される)。
【0070】
本発明のデコーダの典型的な実施形態では、エンコードされたオーディオ信号のデコードされた低周波数内容の、当該信号のパラメトリック・デコードされた中間周波数および高周波数内容との再結合は、周波数領域で(たとえば
図3のデコーダの段40において)実行され、次いで、単一の周波数領域から時間領域への変換が(たとえば
図3のデコーダの段40において)各再結合チャネルに適用されて、完全にデコードされた時間領域信号を生成する。あるいはまた、本発明のデコーダは、そのような再結合を時間領域で実行するよう構成される。それは、波形デコードされた低周波数成分を第一の変換を使って逆変換し、パラメトリック・デコードされた中間周波数および高周波数成分を第二の変換を使って逆変換し、次いでそれらの結果を加算することによる。
【0071】
本発明のある例示的実施形態では、
図2のシステムは、192kbpsから192kbpsより実質的に低いビットレート(たとえば96kbps)までの範囲内の(エンコードされた出力信号の伝送のために)利用可能なビットレートを想定する仕方で、聴衆の喝采を示す5.1チャネル・オーディオ入力信号のE-AC-3エンコードを実行するよう動作可能である。次の例示的なビット・コスト計算は、そのようなシステムが、聴衆の喝采を示し、五つの全範囲チャネルをもつマルチチャネル入力信号をエンコードするよう動作させられること、入力信号の各全範囲チャネルの周波数成分が周波数の関数として少なくとも実質的に同じ分布をもつことを想定する。例示的なビット・コスト計算は、本システムが入力信号をE-AC-3エンコードすることを実行することをも想定する。それは、入力信号の各全範囲チャネルの4.6kHzまでの周波数をもつ周波数成分に対して波形エンコードを実行し、入力信号の各全範囲チャネルの4.6kHzから10.2kHzの周波数成分に対してチャネル結合符号化を実行し、入力信号の各全範囲チャネルの10.2kHzから14.8kHzの周波数成分に対してスペクトル拡張符号化を実行することによることを含む。エンコードされた出力信号に含まれる結合パラメータ(結合サイドチェーン(sidechain)・メタデータ)は、全範囲チャネル当たり約1.5kbpsを消費し、結合チャネルの仮数および指数は約25kbps(すなわち、エンコードされた出力信号の192kbpsのビットレートでの伝送を想定すると、個々の全範囲チャネルの伝送が消費する場合の約1/5の数のビット)を消費すると想定される。チャネル結合を実行することから帰結するビット節約は、(関連する範囲内の周波数成分について)仮数および指数の五つのチャネルではなく、仮数および指数の単一のチャネル(結合チャネル)の伝送のためである。
【0072】
このように、システムが5.1からステレオにすべてのオーディオ内容をダウンミックスしてから、ダウンミックスのすべての周波数成分を(4.6kHzまでの周波数成分に対して波形エンコードを使い、4.6kHzから10.2kHzの周波数成分に対してチャネル結合符号化を使い、ダウンミックスの各全範囲チャネルの10.2kHzから14.8kHzの周波数成分に対してスペクトル拡張符号化を使って)エンコードするとしたら、結合されたチャネルは、放送品質を達成するためには、これでも約25kbpsを消費する必要があることになる。このように、ダウンミックスから帰結する(チャネル混合を実装するための)ビット節約は、もはや結合パラメータを必要としない三つのチャネルについての結合パラメータの省略に起因するものだけとなる。これは三つのチャネルのそれぞれ毎に約1.5kbpsになり、合計で約4.5kbpsとなる。このように、ステレオ・ダウンミックスに対してチャネル結合を実行するコストは、入力信号のもとの五つの全範囲チャネルに対してチャネル結合を実行するのとほとんど同じである(約4.5kbps少ないだけ)。
【0073】
例示的な入力信号の五つの全範囲チャネル全てに対してスペクトル拡張符号化を実行することは、エンコードされた出力信号にスペクトル拡張(「SPX」)パラメータ(SPX再度チェーン・メタデータ)を含めることを必要とすることになる。これは、引き続き192kbpsのビットレートでのエンコードされた出力信号の伝送を想定すると、エンコードされた出力信号に、全範囲チャネル当たり約3kbpsのSPXメタデータ(五つすべての全範囲チャネルについて合計約15kbps)を含めることを必要とする。
【0074】
このように、システムが入力信号の五つの全範囲チャネルを二つのチャネルにダウンミックスして(ステレオ・ダウンミックス)から、該ダウンミックスのすべての周波数成分を(4.6kHzまでの周波数成分に対して波形エンコードを使い、4.6kHzから10.2kHzの周波数成分に対してチャネル結合符号化を使い、ダウンミックスの各全範囲チャネルの10.2kHzから14.8kHzの周波数成分に対してスペクトル拡張符号化を使って)エンコードするとしたら、ダウンミックスから帰結する(スペクトル拡張結合を実装するための)ビット節約は、もはやSPXパラメータを必要としない三つのチャネルについてのSPXパラメータの省略に起因するものだけとなる。これは三つのチャネルのそれぞれ毎に約3kbpsになり、合計で約9kbpsとなる。
【0075】
この例における結合およびSPX符号化のコストは下記の表1にまとめられる。
【0076】
【表1】
表1から、結合およびスペクトル拡張周波数帯域において、エンコードの前に5.1チャネル入力信号入力を3/0ダウンミックス(三つの全範囲チャネル)にするフル・ダウンミックスは9kbpsの節約にしかならず、エンコードの前に5.1チャネル入力信号入力を2/0ダウンミックス(二つの全範囲チャネル)にするフル・ダウンミックスは13.5kbpsの節約にしかならないことが明白である。もちろん、そのようなダウンミックスはダウンミックスの低周波数成分(チャネル符号化の最低周波数より下の周波数をもつ)の波形エンコードのために必要とされるビット数をも減らすが、空間的つぶれの代償を伴う。
【0077】
本発明者らは、複数チャネル(たとえば、上記の例のようにいつつ、三つまたは二つのチャネル)の結合符号化およびスペクトル拡張符号化を実行するビット・コストがそれほど似通っているなら、マルチチャネル・オーディオ信号のできるだけ多くのチャネルをパラメトリック符号化(たとえば上記の例における結合符号化およびスペクトル拡張符号化)を用いて符号化することが望ましいことを認識するに至った。よって、本発明の典型的な実施形態は、エンコードされるべきマルチチャネル入力信号のチャネル(すなわち一部または全部のチャネル)の(チャネル符号化のための最低周波数より下の)低周波数成分のみをダウンミックスし、ダウンミックスの各チャネルに対して波形エンコードを実行し、入力信号の各もとの信号の、(パラメトリック符号化のための最低周波数より上の)より高い周波数成分に対してパラメトリック符号化(たとえば結合符号化およびスペクトル拡張符号化)をも実行する。これは、エンコードされる出力信号から離散的なチャネル指数および仮数を除去することにより、多数のビットを節約する一方、入力信号のすべてのもとのチャネルの高周波数内容のパラメトリック符号化されたバージョンを含めるおかげで、空間的つぶれを最小にする。
【0078】
本発明の二つの実施形態から帰結するビット・コストおよび節約の、上記の例を参照して述べた5.1チャネル信号のE-AC-3エンコードを実行する通常の方法に対する比較は次の通りである。
【0079】
5.1チャネル信号の通常のE-AC-3エンコードの全コストは172.5kbpsである。これは、表1の左の列においてまとめられている(入力信号の4.6kHzより上の高周波数内容のパラメトリック符号化のための)47.5kbpsに、五つのチャネルの指数についての25kbps(入力信号の各チャネルの4.6kHzより下の低周波数内容を波形エンコードすることから帰結する)を加え、五つのチャネルの仮数についての100kbps(入力信号の各チャネルの低周波数内容を波形エンコードすることから帰結する)を加えたものである。
【0080】
入力信号の五つの全範囲チャネルの低周波数成分(4.6kHz未満)の三チャネル・ダウンミックスが生成され、E-AC-3準拠のエンコードされた出力信号が生成される(ダウンミックスを波数エンコードし、入力信号の各もとの全範囲チャネルの高周波数成分をパラメトリック・エンコードすることによることを含む)本発明のある実施形態に従って5.1チャネル入力信号をエンコードする全コストは、122.5kbpsである。これは、表1の左の列においてまとめられている(入力信号の各チャネルの4.6kHzより上の高周波数内容のパラメトリック符号化のための)47.5kbpsに、三つのチャネルの指数についての15kbps(ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する)を加え、三つのチャネルの仮数についての60kbps(ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する)を加えたものである。これは、通常の方法に対する50kbpsの節約を表わす。この節約は、通常にエンコードされた出力信号の伝送のために必要とされる192kbpsではなく、(通常のエンコードされた出力信号と等価な品質で)142kbpsのビットレートで、エンコードされた出力信号の伝送を許容する。
【0081】
前段落で述べた本発明の方法の実際の実装では、入力信号の高周波数(4.6kHzより上)内容のパラメトリック・エンコードが要求するのは、結合パラメータ・メタデータのための表1に示した7.5kbpsおよびSPXパラメータ・メタデータのための表1に示した15kbpsよりいくらか少ない。これは、無音チャネルにおける値0のデータの最大限のタイムシェアリングのためである。よって、そのような実際の実装は、通常の方法に比べて50kbpsよりいくらか多い節約を提供することになる。
【0082】
同様に、入力信号の五つの全範囲チャネルの低周波数成分(4.6kHz未満)の二チャネル・ダウンミックスが生成され、E-AC-3準拠のエンコードされた出力信号が次いで生成される(ダウンミックスを波数エンコードし、入力信号の各もとの全範囲チャネルの高周波数成分をパラメトリック・エンコードすることによることを含む)本発明のある実施形態に従って5.1チャネル入力信号をエンコードする全コストは、102.5kbpsである。これは、表1の左の列においてまとめられている(入力信号の各チャネルの4.6kHzより上の高周波数内容のパラメトリック符号化のための)47.5kbpsに、二つのチャネルの指数についての10kbps(ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する)を加え、二つのチャネルの仮数についての45kbps(ダウンミックスの各チャネルの低周波数内容を波形エンコードすることから帰結する)を加えたものである。これは、通常の方法に対する70kbpsの節約を表わす。この節約は、通常にエンコードされた出力信号の伝送のために必要とされる192kbpsではなく、(通常のエンコードされた出力信号と等価な品質で)122kbpsのビットレートで、エンコードされた出力信号の伝送を許容する。
【0083】
前段落で述べた本発明の方法の実際の実装では、入力信号の高周波数(4.6kHzより上)内容のパラメトリック・エンコードが要求するのは、結合パラメータ・メタデータのための表1に示した7.5kbpsおよびSPXパラメータ・メタデータのための表1に示した15kbpsよりいくらか少ない。これは、無音チャネルにおける値0のデータの最大限のタイムシェアリングのためである。よって、そのような実際の実装は、通常の方法に比べて70kbpsよりいくらか多い節約を提供することになる。
【0084】
いくつかの実施形態では、本発明のエンコード方法は、ダウンミックスされ、次いで波形符号化を受ける低周波数成分が、典型的な最小周波数(通常のE-AC-3エンコーダでは3.5kHzまたは4.6kHz)ではなく低下した(典型より低い)最大周波数(たとえば1.2kHz)をもつという意味で「向上された結合」符号化を実装する。入力オーディオ・コンテンツに対して、その周波数より上ではチャネル結合が実行され、下では波形エンコードが実行される。そのような実施形態では、典型より広い周波数範囲(たとえば、1.2kHzから10kHzまたは1.2kHzから10.2kHz)内の入力オーディオの周波数成分がチャネル結合符号化を受ける。また、そのような実施形態では、チャネル・エンコードから帰結するエンコードされたオーディオ・コンテンツとともにエンコードされた出力信号に含められる結合パラメータ(レベル・パラメータ)が、典型的な(より狭い)範囲内の周波数成分のみがチャネル結合符号化を受けるとした場合とは異なる仕方で(当業者には明白であろう仕方で)量子化されてもよい。
【0085】
向上された結合符号化を実装する本発明の実施形態は、典型的には、チャネル結合符号化のための最小周波数より低い周波数をもつ周波数成分について値0の指数を(エンコードされた出力信号において)送達するので、望ましいことがありうる。(向上された結合符号化を実装することによって)この最小周波数を低下させることは、このように、エンコードされた出力信号に含められる無駄にされる余剰ビット(wasted bits)(0のビット)の全体的な数を減らし、ビットレート・コストのわずかな増大だけで(エンコードされた信号がデコードされてレンダリングされるときに)向上された空間的広がりを提供する。
【0086】
上記のように、本発明のいくつかの実施形態では、入力信号のチャネルの第一の部分集合(たとえば、
図2に示されるようなL、CおよびRチャネル)の低周波数成分が波形エンコードを受けるダウンミックスとして選択され、入力信号のチャネルの第二の部分集合(典型的にはサラウンド・チャネル、たとえば
図2に示されるようなLsおよびRsチャネル)の各チャネルの低周波数成分が0に設定される(そしてやはり波形エンコードを受けてもよい)。本発明に従って生成されたエンコードされたオーディオ信号がE-AC-3規格に準拠するいくつかのそのような実施形態では、たとえE-AC-3エンコードされた信号のチャネルの第一の部分集合の低周波数オーディオ内容だけが有用な、波形エンコードされた低周波数オーディオ内容であっても(そしてE-AC-3エンコードされた信号のチャネルの第二の部分集合の低周波数オーディオ内容が無用な、波形エンコードされた「無音」オーディオ・コンテンツであっても)、チャネルの完全な集合(第一および第二の部分集合両方)がE-AC-3信号としてフォーマットされ、送達される必要がある。たとえば、E-AC-3エンコードされた信号に左右のサラウンド・チャネルが存在するが、その低周波数内容は無音であり、それは伝送のためのいくらかのオーバーヘッドを必要とする。(チャネルの上記の第二の部分集合に対応する)「無音」チャネルは、そのようなオーバーヘッドを最小化するために以下のガイドラインに従って構成されてもよい。
【0087】
過渡信号を示すE-AC-3エンコードされた信号のチャネルには通常、ブロック・スイッチが現われる。これらのブロック・スイッチは、そのようなチャネルの波形エンコードされたコンテンツのMDCTブロックの(E-AC-3エンコーダにおける)より多数のより小さなブロック(これらはその後波形デコードを受ける)への分割につながり、そのようなチャネルの高周波数内容のパラメトリック(チャネル結合およびスペクトル拡張)デコードを無効にする。無音チャネル(「無音」の低周波数内容を含むチャネル)におけるブロック・スイッチの信号伝達はより多くのオーバーヘッドを必要とし、無音チャネルの高周波数内容(最小「チャネル結合デコード」周波数より上の周波数をもつ)のパラメトリック・デコードを防止もする。このように、本発明の典型的な実施形態に従って生成されたE-AC-3エンコードされた信号の各無音チャネルについてのブロック・スイッチは無効にされるべきである。
【0088】
同様に、通常のAHTおよびTPNP処理(通常のE-AC-3エンコーダの動作において時に実行される)は、本発明の実施形態に従って生成されたE-AC-3エンコードされた信号の無音チャネルのデコードの際には何の恩恵ももたらさない。よって、AHTおよびTPNP処理は好ましくは、そのようなE-AC-3エンコードされた信号の各無音チャネルのデコードの間は無効にされる。
【0089】
E-AC-3エンコードされた信号のチャネルに通常含まれるdithflagパラメータは、エンコーダによって0のビットを割り当てられた(チャネル内の)仮数をランダム・ノイズを用いて再構成するかどうかをE-AC-3デコーダに示す。ある実施形態に従って生成されたE-AC-3エンコードされた信号の各無音チャネルは真に無音であることが意図されているので、そのような各無音チャネルについてのdithflagは、E-AC-3エンコードされた信号の生成の際に0に設定されるべきである。結果として、(そのような各無音チャネルにおける)0のビットを割り当てられる仮数は、デコードの際にノイズを使って再構成されない。
【0090】
E-AC-3エンコードされた信号のチャネルに通常含まれる指数戦略パラメータは、E-AC-3デコーダによって、そのチャネルの指数の時間および周波数分解能を制御するために使われる。ある実施形態に従って生成されたE-AC-3エンコードされた信号の各無音チャネルについて、指数のための伝送コストを最小にする指数戦略が選択されることが好ましい。これを達成する指数戦略は「D45」戦略として知られており、エンコードされたフレームの最初のブロックについて四つの周波数ビン当たり一つの指数を含む(そのフレームの残りのブロックは直前のブロックについての指数を再利用する)。
【0091】
本発明のエンコード方法の、周波数領域で実装されるいくつかの実施形態に伴う一つの問題は、(入力信号チャネルの低周波数成分の)ダウンミックスが、時間領域に変換し戻されるときに飽和することがあり、純粋に周波数領域の解析を使ってこれがいつ起こるかを予測するすべがないということである。この問題は、いくつかのそのような実施形態(たとえば、E-AC-3エンコードを実装するいくつか)において、(周波数領域において実際に生成する前に)時間領域においてダウンミックスをシミュレートしてクリッピングが発生するかどうかを評価することによって、対処される。伝統的なピーク制限器を使ってスケール因子を計算することができ、該スケール因子は次いでダウンミックスにおけるすべての目的チャネルに適用される。ダウンミックスされたチャネルのみが、クリッピング防止スケール因子によって減衰させられる。たとえば、入力信号の左および左サラウンド・チャネルの内容が左ダウンミックス・チャネルにダウンミックスされ、入力信号の右および右サラウンド・チャネルの内容が右ダウンミックス・チャネルにダウンミックスされるダウンミックスでは、中央チャネルは、ダウンミックスにおける源チャネルでも目的チャネルでもないので、スケーリングされない。そのようなダウンミックス・クリッピング保護が適用された後、その効果は、通常のE-AC-3 DRC/ダウンミックス保護を適用することによって補償されることができる。
【0092】
本発明の他の諸側面は、マルチチャネル・オーディオ入力信号に応答して(たとえば、マルチチャネル・オーディオ入力信号を示すオーディオ・データに応答して)、エンコードされたオーディオ信号を生成する本発明のエンコード方法の任意の実施形態を実行するよう構成されたエンコーダ、そのようなエンコードされた信号をデコードするよう構成されたデコーダおよびそのようなエンコーダおよびそのようなデコーダを含むシステムを含む。
図4のシステムは、そのようなシステムの例である。
図4のシステムは、本発明のエンコード方法の任意の実施形態を実行して、(マルチチャネル・オーディオ入力信号を示す)オーディオ・データに応答して、エンコードされたオーディオ信号を生成するよう構成された(たとえばプログラムされた)エンコーダ90と、送達サブシステム91と、デコーダ92とを含む。送達サブシステム91は、エンコーダ90によって生成されたエンコードされたオーディオ信号を記憶する(たとえば、エンコードされたオーディオ信号を示すデータを記憶する)および/またはエンコードされたオーディオ信号を送信するよう構成されている。デコーダ92は、サブシステム91からエンコードされたオーディオ信号(またはエンコードされたオーディオ信号を示すデータ)を(たとえば、そのようなデータをサブシステム91内の記憶部から読むもしくは取り出すまたはサブシステム91によって送信されたそのようなエンコードされたオーディオ信号を受け取ることによって)受領し、エンコードされたオーディオ信号(またはそれを示すデータ)をデコードするよう結合され、構成されている(たとえばプログラムされている)。デコーダ92は典型的には、もとのマルチチャネル入力信号のオーディオ内容を示すデコードされたオーディオ信号を生成し、(たとえばレンダリング・システムに)出力するよう構成されている。
【0093】
いくつかの実施形態では、本発明は、マルチチャネル・オーディオ入力信号をエンコードすることによって、エンコードされたオーディオ信号を生成するよう構成されたオーディオ・エンコーダである。本エンコーダは:
入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、ダウンミックスの各チャネルを波形符号化して該ダウンミックスのオーディオ内容を示す波形符号化されたダウンミックスされたデータを生成し、入力信号の各チャネルの中間周波数成分および高周波数成分に対してパラメトリック・エンコードを実行してそれにより入力信号の前記各チャネルの中間周波数成分および高周波数成分を示すパラメトリック符号化されたデータを生成するよう構成されたエンコード・サブシステム(たとえば、
図2の要素22、23、24、26、27、28)と;
波形符号化されたダウンミックスされたデータおよびパラメトリック符号化されたデータに応答して、前記エンコードされたオーディオ信号が前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すよう、前記エンコードされたオーディオ信号を生成するよう結合され、構成されたフォーマット・サブシステム(たとえば
図2の要素30)とを含む。
【0094】
いくつかのそのような実施形態では、エンコード・サブシステムは、入力信号に対して時間領域から周波数領域への変換を(たとえば
図2の要素22において)実行して、入力信号の少なくともいくつかのチャネルの低周波数成分および入力信号の前記各チャネルの中間周波数成分および高周波数成分を含む周波数領域データを生成するよう構成されている。
【0095】
いくつかの実施形態では、本発明は、波形符号化データおよびパラメトリック符号化データを示すエンコードされたオーディオ信号(たとえば
図2または
図3の信号31)をデコードするよう構成されたオーディオ・デコーダである。エンコードされたオーディオ信号は、Nが整数であるとしてN個のチャネルをもつマルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記ダウンミックスのオーディオ内容を示すよう波形符号化されたデータを生成し、前記入力信号の各チャネルの中間周波数成分および高周波数成分に対してパラメトリック・エンコードを実行し、それにより前記入力信号の前記各チャネルの前記中間周波数成分および高周波数成分を示すようパラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものである。これらの実施形態において、本デコーダは:
前記エンコードされたオーディオ信号から、前記波形エンコードされたデータおよび前記パラメトリック・エンコードされたデータを抽出するよう構成された第一のサブシステム(たとえば
図3の要素32)と;
前記第一のサブシステムによって抽出された波形エンコードされたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成し、前記第一のサブシステムによって抽出されたパラメトリック・エンコードされたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、中間周波数および高周波数オーディオ内容を示す復元された周波数成分の第二の集合を生成するよう結合され、構成された第二のサブシステム(たとえば
図3の要素34、36、37、38、40)とを含む。
【0096】
いくつかのそのような実施形態では、デコーダの第二のサブシステムは、復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を(たとえば
図3の要素40において)組み合わせることを含め、Nチャネルのデコードされた周波数領域データを生成し、デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにする。
【0097】
いくつかの実施形態では、デコーダの第二のサブシステムは、デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を(たとえば
図3の要素40において)実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成するよう構成されている。
【0098】
本発明のもう一つの側面は、本発明のエンコード方法のある実施形態に基づいて生成されたエンコードされたオーディオ信号をデコードする方法(たとえば、
図4のデコーダ92または
図3のデコーダによって実行される方法)である。
【0099】
本発明は、ハードウェア、ファームウェアまたはソフトウェアまたは両者の組み合わせにおいて(たとえばプログラム可能な論理アレイとして)実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していない。特に、さまざまな汎用機械が、本願の教示に従って書かれたプログラムとともに使用されてもよく、あるいは必要とされる方法ステップを実行するためにより特化した装置(たとえば集積回路)を構築することがより便利であることがある。このように、本発明は、一つまたは複数のプログラム可能なコンピュータ・システム(たとえば、
図2のエンコーダまたは
図3のデコーダを実装するコンピュータ・システム)上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは、少なくとも一つのプロセッサ、少なくとも一つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶要素を含む)、少なくとも一つの入力装置またはポートおよび少なくとも一つの出力装置またはポートを有する。本稿に記載される機能を実行し、出力情報を生成するようプログラム・コードが入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。
【0100】
そのような各プログラムは、コンピュータ・システムと通信するためにいかなる所望されるコンピュータ言語(機械、アセンブリーまたは高水準手続き型、論理的またはオブジェクト指向のプログラミング言語を含む)において実装されてもよい。いずれの場合にも、言語はコンパイルされる言語でもインタープリットされる言語でもよい。
【0101】
たとえば、コンピュータ・ソフトウェア命令のシーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて実行されるマルチスレッド式のソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能は、ソフトウェア命令の諸部分に対応してもよい。
【0102】
そのような各コンピュータ・プログラムは好ましくは、汎用または専用のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス(たとえば半導体メモリまたはメディアまたは磁気式もしくは光学式メディア)に記憶されるまたはダウンロードされ、記憶媒体またはデバイスがコンピュータ・システムによって読まれたときに、本稿に記載される手順を実行するようコンピュータを構成するまたは動作させる。本発明のシステムは、コンピュータ・プログラムをもって構成された(すなわちコンピュータ・プログラムを記憶している)コンピュータ可読記憶媒体として実装されてもよく、そのように構成された記憶媒体はコンピュータ・システムに、本稿に記載される機能を実行するよう特定のあらかじめ定義された仕方で動作させる。
【0103】
本発明のいくつかの実施形態を記述してきたが、本発明の精神および範囲から外れることなくさまざまな修正がなしうることは理解されるであろう。上記の教示に照らして、本発明の数多くの修正および変形が可能である。付属の請求項の範囲内で、本発明が、本稿で具体的に記載される以外の仕方で実施されてもよいことは理解される。
いくつかの態様を記載しておく。
〔態様1〕
低周波数成分およびより高い周波数成分をもつマルチチャネル・オーディオ入力信号をエンコードする方法であって:
(a)前記入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成する段階と;
(b)前記ダウンミックスの各チャネルを波形符号化して、それにより、前記ダウンミックスのオーディオ内容を示す、波形符号化された、ダウンミックスされたデータを生成する段階と;
(c)前記入力信号の各チャネルの前記より高い周波数成分のうちの少なくともいくつかに対してパラメトリック符号化を実行し、それにより前記入力信号の前記各チャネルの前記より高い周波数成分のうちの前記少なくともいくつかを示すパラメトリック符号化されたデータを生成する段階と;
(d)前記波形符号化された、ダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すエンコードされたオーディオ信号を生成する段階とを含む、
方法。
〔態様2〕
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、態様1記載の方法。
〔態様3〕
前記より高い周波数成分が中間周波数成分および高周波数成分を含み、段階(c)が:
前記中間周波数成分のチャネル結合符号化を実行する段階と;
前記高周波数成分のスペクトル拡張符号化を実行する段階とを含む、
態様1記載の方法。
〔態様4〕
前記低周波数成分が、約1.2kHzから約4.6kHzの範囲内の最大値F1より大きくない周波数をもち、前記中間周波数成分が範囲F1<f≦F2内の周波数fをもち、F2は約8kHzから約12.5kHzの範囲内であり、前記高周波数成分が範囲F2<f≦F3内の周波数fをもち、F3は約10.2kHzから約18kHzの範囲内である、態様3記載の方法。
〔態様5〕
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、態様4記載の方法。
〔態様6〕
前記入力信号がN個の全範囲オーディオ・チャネルを含み、前記ダウンミックスはN個より少ない非無音チャネルをもち、段階(a)は、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換える、態様1記載の方法。
〔態様7〕
前記入力信号が五つの全範囲オーディオ・チャネルを含み、前記ダウンミックスは三つの非無音チャネルをもち、段階(a)は、前記入力信号の前記全範囲オーディオ・チャネルのうちの二つのチャネルの低周波数成分を値0で置き換える、態様1記載の方法。
〔態様8〕
前記エンコードが、前記エンコードされたオーディオ信号が前記入力信号より少数のビットを有するように前記入力信号を圧縮する、態様1記載の方法。
〔態様9〕
低周波数成分およびより高い周波数成分をもつマルチチャネル・オーディオ入力信号をエンコードすることによって、エンコードされたオーディオ信号を生成するよう構成されたオーディオ・エンコーダであって:
前記入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化してそれにより前記ダウンミックスのオーディオ内容を示す波形符号化されたダウンミックスされたデータを生成し、前記入力信号の各チャネルの前記より高い周波数成分の少なくともいくつかに対してパラメトリック符号化を実行してそれにより前記入力信号の前記各チャネルの前記より高い周波数成分の前記少なくともいくつかを示すパラメトリック符号化されたデータを生成するよう構成されたエンコード・サブシステムと;
前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータに応答して、前記エンコードされたオーディオ信号が前記波形符号化されたダウンミックスされたデータおよび前記パラメトリック符号化されたデータを示すよう、前記エンコードされたオーディオ信号を生成するよう結合され、構成されたフォーマット・サブシステムとを含む、
エンコーダ。
〔態様10〕
前記エンコード・サブシステムは、前記入力信号に対して時間領域から周波数領域への変換を実行して、前記入力信号の少なくともいくつかのチャネルの低周波数成分および前記入力信号の前記各チャネルの前記より高い周波数成分を含む周波数領域データを生成するよう構成されている、態様9記載のエンコーダ。
〔態様11〕
前記より高い周波数成分が中間周波数成分および高周波数成分を含み、前記エンコード・サブシステムが、前記中間周波数成分のチャネル結合符号化および前記高周波数成分のスペクトル拡張符号化を実行することによって前記パラメトリック符号化されたデータを生成するよう構成されている、態様9記載のエンコーダ。
〔態様12〕
前記低周波数成分が、約1.2kHzから約4.6kHzの範囲内の最大値F1より大きくない周波数をもち、前記中間周波数成分が範囲F1<f≦F2内の周波数fをもち、F2は約8kHzから約12.5kHzの範囲内であり、前記高周波数成分が範囲F2<f≦F3内の周波数fをもち、F3は約10.2kHzから約18kHzの範囲内である、態様11記載のエンコーダ。
〔態様13〕
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、態様12記載のエンコーダ。
〔態様14〕
前記入力信号が少なくとも二つの全範囲オーディオ・チャネルを含み、エンコード・サブシステムは、前記入力信号の前記全範囲オーディオ・チャネルのうちの少なくとも一つのチャネルの低周波数成分を値0で置き換えることによって前記ダウンミックスを生成するよう構成されている、態様9記載のエンコーダ。
〔態様15〕
当該エンコーダが、前記エンコードされたオーディオ信号が前記入力信号より少数のビットを有するように前記エンコードされた入力信号を生成するよう構成されている、態様9記載のエンコーダ。
〔態様16〕
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、態様9記載のエンコーダ。
〔態様17〕
当該エンコーダがデジタル信号プロセッサである、態様9記載のエンコーダ。
〔態様18〕
波形符号化されたデータおよびパラメトリック符号化されたデータを示すエンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は、マルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記波形符号化されたデータが前記ダウンミックスのオーディオ内容を示すよう前記波形符号化されたデータを生成し、前記入力信号の各チャネルの少なくともいくつかのより高い周波数成分に対してパラメトリック符号化を実行し、前記パラメトリック符号化されたデータが前記入力信号の前記各チャネルの前記少なくともいくつかのより高い周波数成分を示すよう前記パラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものであり、当該方法は:
(a)前記エンコードされたオーディオ信号から、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータを抽出する段階と;
(b)段階(a)において抽出された前記波形符号化されたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成する段階と;
(c)段階(a)において抽出された前記パラメトリック符号化されたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、少なくともいくつかのより高い周波数のオーディオ内容を示す復元された周波数成分の第二の集合を生成する段階とを含む、
方法。
〔態様19〕
前記マルチチャネル・オーディオ入力信号がN個のチャネルをもち、Nは整数であり、当該方法はさらに:
(d)復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を組み合わせることによることを含め、Nチャネルのデコードされた周波数領域データを生成し、前記デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、前記デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにする、段階を含む、
態様18記載の方法。
〔態様20〕
デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成する段階をさらに含む、態様19記載の方法。
〔態様21〕
段階(d)が:
復元された周波数成分の前記第一の集合に対して盲目的なアップミックスを実行してアップミックスされた周波数成分を生成する段階と;
前記アップミックスされた周波数成分と復元された周波数成分の前記第二の集合とを組み合わせて前記Nチャネルのデコードされた周波数領域データを生成する段階とを含む、
態様19記載の方法。
〔態様22〕
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、態様18記載の方法。
〔態様23〕
段階(c)が:
段階(a)において抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してチャネル結合デコードを実行する段階と;
段階(a)において抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してスペクトル拡張デコードを実行する段階とを含む、
態様18記載の方法。
〔態様24〕
復元された周波数成分の前記第一の集合が、約1.2kHzから約4.6kHzの範囲内の最大値F1以下の周波数をもつ、態様18記載の方法。
〔態様25〕
波形符号化されたデータおよびパラメトリック符号化されたデータを示すエンコードされたオーディオ信号をデコードするよう構成されたオーディオ・デコーダであって、前記エンコードされたオーディオ信号は、Nが整数であるとしてN個のチャネルをもつマルチチャネル・オーディオ入力信号の少なくともいくつかのチャネルの低周波数成分のダウンミックスを生成し、前記ダウンミックスの各チャネルを波形符号化して、それにより、前記波形符号化されたデータが前記ダウンミックスのオーディオ内容を示すよう前記波形符号化されたデータを生成し、前記入力信号の各チャネルの少なくともいくつかのより高い周波数成分に対してパラメトリック符号化を実行し、それにより前記パラメトリック符号化されたデータが前記入力信号の前記各チャネルの前記少なくともいくつかのより高い周波数成分を示すよう前記パラメトリック符号化されたデータを生成し、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータに応答して前記エンコードされたオーディオ信号を生成することによって生成されたものであり、当該デコーダは:
前記エンコードされたオーディオ信号から、前記波形符号化されたデータおよび前記パラメトリック符号化されたデータを抽出するよう構成された第一のサブシステムと;
前記第一のサブシステムによって抽出された前記波形符号化されたデータに対して波形デコードを実行して、前記ダウンミックスの各チャネルの低周波数オーディオ内容を示す復元された周波数成分の第一の集合を生成し、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータに対してパラメトリック・デコードを実行して、前記マルチチャネル・オーディオ入力信号の各チャネルの、少なくともいくつかのより高い周波数のオーディオ内容を示す復元された周波数成分の第二の集合を生成するよう結合され、構成された第二のサブシステムとを含む、
デコーダ。
〔態様26〕
前記第二のサブシステムはさらに、復元された周波数成分の前記第一の集合および復元された周波数成分の前記第二の集合を組み合わせることによることを含め、Nチャネルのデコードされた周波数領域データを生成し、前記デコードされた周波数領域データの各チャネルが、前記マルチチャネル・オーディオ入力信号のチャネルのうちの異なるチャネルの中間周波数および高周波数オーディオ内容を示し、前記デコードされた周波数領域データのチャネルの少なくとも部分集合の各チャネルが前記マルチチャネル・オーディオ入力信号の低周波数オーディオ内容を示すようにするよう構成されている、態様25記載のデコーダ。
〔態様27〕
前記第二のサブシステムが、デコードされた周波数領域データの各チャネルに対して周波数領域から時間領域への変換を実行して、Nチャネルの時間領域のデコードされたオーディオ信号を生成するよう構成されている、態様26記載のデコーダ。
〔態様28〕
前記第二のサブシステムが、復元された周波数成分の前記第一の集合に対して盲目的なアップミックスを実行してアップミックスされた周波数成分を生成し、前記アップミックスされた周波数成分と復元された周波数成分の前記第二の集合とを組み合わせて前記Nチャネルのデコードされた周波数領域データを生成するよう構成されている、態様26記載のデコーダ。
〔態様29〕
前記エンコードされたオーディオ信号がE-AC-3エンコードされたオーディオ信号である、態様25記載のデコーダ。
〔態様30〕
前記第二のサブシステムが、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してチャネル結合デコードを実行し、前記第一のサブシステムによって抽出された前記パラメトリック符号化されたデータの少なくとも一部に対してスペクトル拡張デコードを実行するよう構成されている、態様25記載のデコーダ。
〔態様31〕
復元された周波数成分の前記第一の集合が、約1.2kHzから約4.6kHzの範囲内の最大値F1以下の周波数をもつ、態様25記載のデコーダ。
〔態様32〕
前記デコーダがデジタル信号プロセッサである、態様25記載のデコーダ。