(58)【調査した分野】(Int.Cl.,DB名)
前記フロントエンド・コンポーネントが、オーディオ・モードおよび声固有モードで動作可能であり、前記フロントエンド・コンポーネントの前記オーディオ・モードから前記声固有モードへのモード変化は前記逆変換段の最大フレーム長を短縮することを含む、請求項1記載のオーディオ処理システム。
前記サンプル・レート変換器が、前記処理されたオーディオ信号の前記時間領域表現の内部サンプリング・レートから高々5%異なるターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を与えるよう動作可能である、請求項2記載のオーディオ処理システム。
前記処理段に並列に配置され、前記処理段の一定の前記総合遅延に等しい遅延を受けるよう構成された第二の遅延段を有するバイパス・ラインをさらに有する、請求項1ないし3のうちいずれか一項記載のオーディオ処理システム。
前記パラメトリック・アップミックス段がさらに、少なくとも、M=3かつN=5であるモードで動作可能である、請求項1ないし4のうちいずれか一項記載のオーディオ処理システム。
前記フロントエンド・コンポーネントが、M=3かつN=5である前記パラメトリック・アップミックス段のモードにおいて、ダウンミックス信号を含む中間信号を与えるよう構成されており、前記フロントエンド・コンポーネントは、前記M=3個のチャネルのうちの二つのチャネルを前記オーディオ・ビットストリーム中の合同符号化されたチャネルから導出する、請求項5記載のオーディオ処理システム。
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段の上流に配置され、高周波数内容を再構成するよう動作可能なスペクトル帯域複製モジュールをさらに含み、前記スペクトル帯域複製モジュールは
・少なくとも、前記パラメトリック・アップミックス段のM<Nであるモードにおいてアクティブであるよう構成され、
・前記パラメトリック・アップミックス段がM=Nであるモードのいずれかにあるときは前記パラメトリック・アップミックス段の現在モードとは独立に動作可能である、
請求項1ないし6のうちいずれか一項記載のオーディオ処理システム。
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段と並列にまたは前記パラメトリック・アップミックス段の下流に配置され、前記N個のチャネルのそれぞれを波形符号化された低周波数内容で補強するよう動作可能な波形符号化段を含み、前記波形符号化段は、前記パラメトリック・アップミックス段および前記スペクトル帯域複製モジュールの現在モードとは独立にアクティブ化可能かつ非アクティブ化可能である、請求項7記載のオーディオ処理システム。
少なくとも、前記パラメトリック・アップミックス段がM>2であるM=Nモードにあるデコード・モードにおいて動作可能である、請求項8記載のオーディオ処理システム。
前記オーディオ・ビットストリームに基づいて少なくとも一つの追加的チャネルを用意し、前記追加的チャネルを前記再構成されたオーディオ信号に含めるよう構成されたLfeデコーダをさらに有する、請求項1ないし11のうちいずれか一項記載のオーディオ処理システム。
前記逆量子化および/または周波数から時間への変換は、少なくともオーディオ・モードおよび声固有モードで動作可能なハードウェア・コンポーネントにおいて実行され、現在モードは前記量子化されたスペクトル係数に関連付けられたメタデータに従って選択され、前記オーディオ・モードから前記声固有モードへのモード変化は前記周波数から時間への変換の最大フレーム長を短縮することを含む、請求項13記載の方法。
【発明を実施するための形態】
【0008】
オーディオ処理システムは、オーディオ・データを担持するフレームにセグメント分割されたオーディオ・ビットストリームを受け入れる。オーディオ・データは、音波をサンプリングして、こうして得られた電子的な時間サンプルをスペクトル係数に変換することによって用意されたものであってもよい。スペクトル係数はその後、量子化され、伝送または記憶に好適なフォーマットで符号化される。オーディオ処理システムは、サンプリングされた音波を、単一チャネル、ステレオまたはマルチチャネルのフォーマットで再構成するよう適応される。本稿での用法では、オーディオ信号は純粋なオーディオ信号またはビデオ、オーディオビジュアルまたはマルチメディア信号のオーディオ部分に関係しうる。
【0009】
オーディオ処理システムは概して、フロントエンド・コンポーネントと、処理段と、サンプル・レート変換器とに分割される。フロントエンド・コンポーネントは、量子化されたスペクトル係数を受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段と;前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段とを含む。いくつかの実施形態では完全にバイパスしてもよい処理段は:前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンクと;前記中間信号の前記第二の周波数領域表現を受領して処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネントと;前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクとを含む。最後に、前記サンプル・レート変換器は、前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するよう構成される。
【0010】
ある例示的実施形態によれば、本オーディオ処理システムは、単一レート構成であり、前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しい。
【0011】
フロントエンド段がコア符号化器を有し、処理段がパラメトリック・アップミックス段を有する個別的な例示的実施形態では、コア符号化器およびパラメトリック・アップミックス段は等しいサンプリング・レートで動作する。追加的または代替的に、コア符号化器は、変換長のより広い範囲を扱うよう拡張されてもよく、サンプリング・レート変換器は、ビデオ同期的なオーディオ・フレームの復号を許容するために標準的なビデオ・フレーム・レートにマッチングするよう構成されていてもよい。これはオーディオ・モード符号化の節でのちにより詳細に述べる。
【0012】
さらなる個別的な例示的実施形態では、フロントエンド・コンポーネントは、オーディオ・モードおよびオーディオ・モードとは異なる声モードで動作可能である。声モードは声コンテンツに特に適応しているので、そのような信号がより忠実に再生できる。オーディオ・モードでは、フロントエンド・コンポーネントは、
図6および本記述の関連する節において開示されるものと同様に動作してもよい。声モードでは、フロントエンド・コンポーネントは、声モード符号化の節でのちに具体的に論じるように動作してもよい。
【0013】
例示的実施形態では、一般に、声モードはフロントエンド・コンポーネントのオーディオ・モードとは、逆変換段がより短いフレーム長(または変換サイズ)で動作するという点で異なる。短縮されたフレーム長は、より効率的に声コンテンツを捕捉することが示されている。いくつかの例示的実施形態では、フレーム長はオーディオ・モード内およびビデオ・モード内で可変であり、たとえば信号中の過渡成分を捕捉するために断続的に短縮されてもよい。そのような状況では、オーディオ・モードから声モードへのモード変化は――他のすべての要因が等しければ――逆変換段のフレーム長の短縮を含意する。別の言い方をすれば、オーディオ・モードから声モードへのそのようなモード変化は、(オーディオ・モードおよび声モードのそれぞれの中での選択可能なフレーム長のうちの)最大フレーム長の短縮を含意する。特に、声モードにおけるフレーム長は、オーディオ・モードにおける現在フレーム長のある固定割合(たとえば1/8)であってもよい。
【0014】
ある例示的実施形態では、処理段に並列なバイパス・ラインは、所望される周波数領域処理がないデコード・モードにおいて処理段がバイパスされることを許容する。これは、システムが離散的に符号化されたステレオまたはマルチチャネル信号、特にフル・スペクトル範囲が波形符号化されている(よってスペクトル帯域複製が必要とされなくてもよい)信号をデコードするときに好適でありうる。バイパス・ラインが切り換えにより処理経路に入れられたり外されたりする機会における時間シフトを回避するために、バイパス・ラインは好ましくは、その現在モードにおける処理段の遅延(またアルゴリズム遅延)にマッチする遅延段を有する。処理段がその現在の動作モードとは独立に一定の(アルゴリズム)遅延をもつよう構成されている実施形態では、バイパス・ライン上の遅延段は一定のあらかじめ決定された遅延を被ることがある。そうでない場合には、バイパス・ラインにおける遅延段は好ましくは適応的であり、処理段の現在動作モードに応じて変化する。
【0015】
ある例示的実施形態では、パラメトリック・アップミックス段は、3チャネル・ダウンミックス信号を受領し、5チャネル信号を返すモードで動作可能である。任意的に、スペクトル帯域複製コンポーネントがパラメトリック・アップミックス段の上流に配置されていてもよい。三つの前方チャネル(たとえばL、R、C)および二つのサラウンド・チャネル(たとえばLs、Rs)をもつ再生チャネル構成では、符号化された信号が「前方ヘビー」である場合、この例示的実施形態はより効率的な符号化を達成しうる。実際、オーディオ・ビットストリームの利用可能な帯域幅は、主として、三つの前方チャネルのできるだけ多くを波形符号化しようとする試みに費やされる。オーディオ処理システムによってデコードされるべきオーディオ・ビットストリームを準備するエンコード装置は、エンコードされるべきオーディオ信号の属性を測定することによって、このモードにおけるデコードを適応的に選択してもよい。一つのダウンミックス信号を二つのチャネルにアップミックスするアップミックス手順および対応するダウンミックス手順のある例示的実施形態について、ステレオ符号化という見出しのもとでのちに論じる。
【0016】
上記の例示的実施形態のあるさらなる発展では、ダウンミックス信号における前記三つのチャネルのうちの二つは、オーディオ・ビットストリームにおける合同符号化されたチャネルに対応する。そのような合同符号化は、たとえば、一方のチャネルのスケーリングが他方のチャネルとの比較で表わされることに関わってもよい。同様のアプローチは、AACインテンシティー・ステレオ符号化において実装されている。その場合、二つのチャネルがチャネル対要素としてエンコードされうる。聴取実験により、所与のビットレートでは、ダウンミックス信号のうちのいくつかのチャネルが合同で符号化されるときに、再構成されたオーディオ信号の知覚される品質が改善されることが証明されている。
【0017】
ある例示的実施形態では、オーディオ処理システムはさらに、スペクトル帯域複製モジュールを有する。スペクトル帯域複製モジュール(または高周波数再構成段)は、ステレオ符号化という見出しのもとでのちにより詳細に論じる。スペクトル帯域複製モジュールは好ましくは、パラメトリック・アップミックス段がアップミックス動作を実行するとき、すなわち受け取る信号より多くのチャネルをもつ信号を返すときにアクティブである。しかしながら、パラメトリック・アップミックス段がパススルー・コンポーネントとして機能するときは、スペクトル帯域複製モジュールは、パラメトリック・アップミックス段の特定の現在モードとは独立に動作させられることができる。すなわち、非パラメトリック・デコード・モードでは、スペクトル帯域複製機能は任意的である。
【0018】
ある例示的実施形態では、前記少なくとも一つの処理コンポーネントはさらに、波形符号化段を含む。これについてはのちにマルチチャネル符号化の節でより詳細に述べる。
【0019】
ある例示的実施形態では、オーディオ処理システムは、レガシー再生設備に好適なダウンミックス信号を提供するよう動作可能である。より正確には、ダウンミックス信号における第一のチャネルには同相のサラウンド・チャネル・コンテンツを加え、第二のチャネルには(たとえば90度)位相シフトされたサラウンド・チャネル・コンテンツを加えることによって、ステレオ・ダウンミックス信号が得られる。これは、再生設備が、組み合わされた逆位相シフトおよび減算動作によってサラウンド・チャネル・コンテンツを導出することを許容する。ダウンミックス信号は、左総合/右総合のダウンミックス信号を受け入れるよう構成された再生設備にとって受け入れ可能でありうる。好ましくは、位相シフト機能はオーディオ処理システムのデフォルト設定ではなく、オーディオ処理システムがこの型の再生設備のために意図されていないダウンミックス信号を準備するときには非アクティブ化されることができる。実際、位相シフトされたサラウンド信号では貧弱に再生される既知の特殊なコンテンツ型がある。特に、限られた空間的広がりをもつ音源から記録された音がその後左前方および左サラウンド信号の間でパンされるものは、期待されるように対応する左前方および左サラウンド・スピーカーの間に位置されるよう知覚されるのではなく、多くの聴取者によれば、よく定義された空間位置に関連付けられない。このアーチファクトは、サラウンド・チャネル位相シフトを任意的な、非デフォルト機能として実装することによって回避できる。
【0020】
ある例示的実施形態では、フロントエンド・コンポーネントは予測器と、スペクトル・デコーダと、加算ユニットと、逆平坦化ユニットとを有する。声型信号を処理したときにシステムのパフォーマンスを向上させるこれらの要素は、声モード符号化の見出しのもとでのちにより詳細に述べる。
【0021】
ある例示的実施形態では、オーディオ処理システムはさらに、オーディオ・ビットストリーム中の情報に基づいて少なくとも一つの追加的チャネルを準備するLfeデコーダを有する。好ましくは、Lfeデコーダは、オーディオ・ビットストリームによって担持される他のチャネルとは別個に、波形符号化される低周波数効果(low-frequency effects)チャネルを提供する。該追加的チャネルが再構成されるオーディオ信号の他のチャネルと一緒に離散的に符号化される場合、対応する処理経路はオーディオ処理システムの残りとは独立になることができる。各追加的チャネルは再構成されるオーディオ信号のチャネルの総数に対する追加となり、たとえば、パラメトリック・アップミックス段――それが設けられるとして――がN=5モードで動作し、一つの追加的チャネルがある使用事例では、再構成されるオーディオ信号におけるチャネルの総数はN+1=6となる。
【0022】
さらなる例示的実施形態は、使用中に上記のオーディオ処理システムによって実行される動作に対応する段階を含む方法およびプログラム可能なコンピュータにそのような方法を実行させるためのコンピュータ・プログラム・プロダクトを提供する。
【0023】
本発明の概念はさらに、オーディオ信号を、上記の(デコーダ型)オーディオ処理システムにおけるデコードのために好適なフォーマットを有するオーディオ・ビットストリームにエンコードするエンコーダ型オーディオ処理システムに関する。第一の発明概念はさらに、エンコード方法およびオーディオ・ビットストリームを準備するためのコンピュータ・プログラム・プロダクトを包含する。
【0024】
図1は、ある例示的実施形態に基づくオーディオ処理システム100を示している。コア・デコーダ101はオーディオ・ビットストリームを受領し、少なくとも、量子化されたスペクトル係数を出力し、該量子化されたスペクトル係数は量子化解除段102および逆変換段103を有するフロントエンド・コンポーネントに供給される。フロントエンド・コンポーネントは、いくつかの例示的実施形態ではデュアル・モード型であってもよい。それらの実施形態では、フロントエンド・コンポーネントは、汎用オーディオ・モードと個別的オーディオ・モード(たとえば声モード)において選択的に動作させることができる。フロントエンド・コンポーネントの下流では、処理段が、その上流端では分解フィルタバンク104によって、その下流端では合成フィルタバンク108によって画定される。分解フィルタバンク104と合成フィルタバンク108の間に配置されたコンポーネントは周波数領域処理を実行する。
図1に示した第一の概念の実施形態では、これらのコンポーネントは:
・圧伸(companding)コンポーネント105;
・高周波数再構成、パラメトリック・ステレオおよびアップミックスのための組み合わされたコンポーネント106;および
・ダイナミックレンジ制御コンポーネント107
を含む。
【0025】
コンポーネント106はたとえば、本稿のステレオ符号化の節で後述するアップミックスを実行してもよい。
【0026】
処理段の下流では、オーディオ処理システム100はさらに、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を提供するよう構成されたサンプル・レート変換器109を有する。
【0027】
下流端では、システム100は、任意的に、非クリップ(non-clip)条件を充足することを受け持つ信号制限コンポーネント(図示せず)を含んでいてもよい。
【0028】
さらに、任意的に、システム100は、一つまたは複数の追加的チャネル(たとえば低周波数効果チャネル)を提供するための並列処理経路を有していてもよい。並列処理経路は、オーディオ・ビットストリームまたはその一部を受領し、このように準備された追加的なチャネル(単数または複数)を再構成されるオーディオ信号中に挿入するよう構成されているLfeデコーダ(
図1および
図3〜11には示さず)として実装されてもよい。挿入点は、サンプル・レート変換器109のすぐ上流であってもよい。
【0029】
図2は、
図1に示したオーディオ処理システムの二つのモノ・デコード・モードを対応するラベル付けとともに示している。より正確には、
図2は、デコード中にアクティブであり、オーディオ・ビットストリームに基づいて再構成された(モノ)オーディオ信号を準備するための処理経路を形成するシステム・コンポーネントを示している。
図2の処理経路はさらに、非クリップ条件を満たすよう信号値をダウンスケールするよう構成された最終的な信号制限コンポーネント(「Lim」)を含んでいることを注意しておく。
図2における上のデコード・モードは、高周波数再構成を使用し、一方、
図2における下のデコード・モードは、完全に波形符号化されたチャネルをデコードする。よって、下のデコード・モードでは、高周波数再構成コンポーネント(「HFR」)は、HFRコンポーネントのアルゴリズム遅延に等しい遅延を受ける遅延段(「Delay」)によって置き換えられている。
【0030】
図2の下部が示唆するように、処理段(「QMF」「Delay」「DRC」「QMF
-1」)を完全にバイパスすることも可能である;これは、信号に対してダイナミックレンジ制御(DRC)処理が実行されないときに適用可能でありうる。処理段をバイパスすることは、完璧でない再構成を伴いうるQMF分解およびその後のQMF合成に起因する信号の潜在的な劣化をなくす。バイパス・ラインは、処理段の全(アルゴリズム)遅延に等しい量だけ信号を遅延させるよう構成された第二の遅延線段を含む。
【0031】
図3は、二つのパラメトリック・ステレオ・デコード・モードを示している。両方のモードにおいて、ステレオ・チャネルは、高周波数再構成を第一のチャネルに適用し、脱相関器(「D」)を使ってこれの脱相関されたバージョンを生成し、次いで両者の線形結合を形成してステレオ信号を得ることによって得られる。線形結合は、DRC段の上流に配置されたアップミックス段(「Upmix」)によって計算される。これらのモードの一方――図の下部に示されるほう――では、オーディオ・ビットストリームはさらに、両チャネルについて波形符号化された低周波数コンテンツ(右下がりの斜線を付した領域)を担持する。後者のモードの実装上の詳細は、
図7〜
図10および本稿の対応する節によって記述される。
【0032】
図4は、オーディオ処理システムが離散的に符号化されたチャネルをもつ完全に波形符号化されたステレオ信号を処理するデコード・モードを示している。これは、高ビットレート・ステレオ・モードである。DRC処理が必要と見なされないなら、
図4に示されるそれぞれの遅延段をもつ二つのバイパス・ラインを使って、処理段を完全にバイパスすることができる。遅延段は好ましくは、他のデコード・モードにあるときの処理段の遅延に等しい遅延を受ける。よって、モード切り換えは、信号コンテンツに関して連続的に起こりうる。
【0033】
図5は、オーディオ処理システムが、スペクトル帯域複製を適用したあとに三チャネル・ダウンミックス信号をパラメトリック・アップミックスすることによって五チャネル信号を提供するデコード・モードを示している。すでに述べたように、チャネルのうちの二つ(右上がりの斜線を付した領域)を合同して(たとえばチャネル対要素として)符号化することが有利であり、オーディオ処理システムは好ましくはこの属性をもつビットストリームを扱うよう設計される。この目的のため、オーディオ処理システムは二つの受領部を有し、下のほうはチャネル対要素をデコードするよう構成され、上のほうは残りのチャネル(右下がりの斜線を付した領域)をデコードするよう構成される。QMF領域における高周波数再構成後、チャネル対の各チャネルは別個に脱相関され、その後、第一のアップミックス段は第一のチャネルとその脱相関されたバージョンとの第一の線形結合を形成し、第二のアップミックス段は第二のチャネルとその脱相関されたバージョンとの第二の線形結合を形成する。この処理の実装詳細は、
図7〜
図10および本稿の対応する節によって記述される。全部で五チャネルが次いでQMF合成の前にDRC処理にかけられる。
【0034】
〈オーディオ・モード符号化〉
図6は、エンコードされたオーディオ・ビットストリームPを受領し、
図6ではステレオ・ベースバンド信号L、Rの対として示されている再構成されたオーディオ信号をその最終出力としてもつオーディオ処理システム100の一般化されたブロック図である。この例では、ビットストリームPは量子化された、変換符号化された二チャネルのオーディオ・データを含むことが想定される。オーディオ処理システム100は、通信ネットワーク、無線受信機またはメモリ(図示せず)からオーディオ・ビットストリームPを受領してもよい。システム100の出力は、再生のためにラウドスピーカーに供給されてもよく、あるいは通信ネットワークまたは無線リンクを通じたさらなる伝送のためまたはメモリにおける記憶のために同じまたは異なるフォーマットで再エンコードされてもよい。
【0035】
オーディオ処理システム100は、ビットストリームPを量子化されたスペクトル係数および制御データにデコードするためのデコーダ108を有する。その構造についてのちにより詳細に論じるフロントエンド・コンポーネント110は、これらのスペクトル係数を量子化解除し、処理段120によって処理されるべき中間オーディオ信号の時間領域表現を供給する。中間オーディオ信号は分解フィルタバンク122
L、122
Rによって、先述した符号化変換に関連付けられたものとは異なる第二の周波数領域に変換される。第二の周波数領域表現は、直交ミラー・フィルタ(QMF)表現であってもよく、その場合、分解フィルタバンク122
L、122
RはQMFフィルタバンクとして提供されてもよい。分解フィルタバンク122
L、122
Rの下流では、高周波数再構成を受け持つスペクトル帯域複製(SBR)モジュール124およびダイナミックレンジ制御(DRC)モジュール126が、中間オーディオ信号の第二の周波数領域表現を処理する。その下流では、合成フィルタバンク128
L、128
Rがこのように処理されたオーディオ信号の時間領域表現を生成する。本開示を吟味した当業者は理解するであろうが、スペクトル帯域複製モジュール124もダイナミックレンジ制御モジュール126も本発明の必須要素ではない。逆に、異なる例示的実施形態に基づくオーディオ処理システムは、処理段120内の追加的または代替的なモジュールを含んでいてもよい。処理段120の下流では、サンプル・レート変換器130が、処理されたオーディオ信号のサンプリング・レートを調整して、意図された再生設備(図示せず)が指定されている所望されるオーディオ・サンプリング・レート、たとえば44.1kHzまたは48kHzにするよう動作可能である。出力におけるアーチファクトが少ないサンプル・レート変換器130をどのように設計するか自身は当技術分野において既知である。サンプル・レート変換器130は、該サンプル・レート変換器130が必要とされない時、すなわち処理段120が供給する処理されたオーディオ信号がすでにターゲット・サンプリング周波数をもつ時には非アクティブ化されてもよい。サンプル・レート変換器130の下流に配置される任意的な信号制限モジュール140が、クリップなし(no-clip)条件に従って必要に応じてベースバンド信号値を制限するよう構成される。クリップなし条件はやはり特定の意図される再生設備に鑑みて選ばれてもよい。
【0036】
図6の下部に示されるように、フロントエンド・コンポーネント110は、異なるブロック・サイズをもついくつかのモードの一つで動作できる量子化解除段114と、やはり異なるブロック・サイズに対して動作できる逆変換段118
L、118
Rとを有する。好ましくは、量子化解除段114および逆変換段118
L、118
Rのモード変化は同期的であり、よってブロック・サイズはすべての時点においてマッチする。これらのコンポーネントの上流では、フロントエンド・コンポーネント110は、制御データから量子化されたスペクトル係数を分離するためのデマルチプレクサ112を有する。典型的には、それは制御データを逆変換段118
L、118
Rに転送し、量子化されたスペクトル係数(および任意的には前記制御データ)を量子化解除段114に転送する。量子化解除段114は、(典型的には整数として表わされる)量子化インデックスの一つのフレームから(典型的には浮動小数点数として表わされる)スペクトル係数の一つのフレームへのマッピングを実行する。各量子化インデックスは、量子化レベル(または再構成点)に関連付けられている。オーディオ・ビットストリームが上記で論じたように非一様量子化を使って準備されたとすると、量子化インデックスがどの周波数帯域を指すかが指定されない限り、その関連付けは一意的ではない。別の言い方をすれば、量子化解除プロセスは、各周波数帯域についての異なるコードブックに従ってもよく、コードブックの集合がフレーム長および/またはビットレートの関数として変わってもよい。
図6では、これは概略的に示されている。ここで、縦軸は周波数を表わし、横軸は単位周波数当たりの割り当てられた符号化ビットの量を表わす。周波数帯域は典型的にはより高い周波数についてはより広くなり、内部サンプリング周波数f
iの半分で終わることを注意しておく。内部サンプリング周波数は、サンプル・レート変換器130における再サンプリングの結果として、数値的に異なる物理的なサンプリング周波数にマッピングされてもよい。たとえば、4.3%のアップサンプリングはf
i=46.034kHzを近似的な物理的周波数48kHzにマッピングし、低いほうの周波数帯域境界を同じ因子だけ増大させる。
図6がさらに示唆するように、オーディオ・ビットストリームを準備するエンコーダは典型的には、異なる周波数帯域には、符号化される信号の複雑さおよび人間の聴覚の期待される感度変動に従って、異なる量の符号化ビットを割り当てる。
【0037】
オーディオ処理システム100、特にフロントエンド・コンポーネント110の動作モードを特徴付ける定量的データが表1に与えられている。
【0038】
【表1】
表1における三つの強調された列は、制御可能な量の値を含んでいる。残りの量はこれらに依存するものと見なされてよい。さらに、再サンプリング(SRC)因子の理想的な値が(24/25)×(1000/1001)≒0.9560、24/25=0.96および1000/1001≒0.9990であることを注意しておく。表1に挙げたSRC因子の値は丸められている。フレーム・レート値も同様である。再サンプリング因子1.000は厳密であり、SRC 130が非アクティブ化されているまたは完全に存在しないことに対応する。例示的実施形態では、オーディオ処理システム100は、そのうちの一つまたは複数が表1のエントリーに一致してもよい異なるフレーム長をもつ少なくとも二つのモードで動作可能である。
【0039】
フロントエンド・コンポーネントのフレーム長が1920サンプルに設定されるモードa〜dは、普及している符号化フォーマットのビデオ・フレーム・レートに厳密に一致するよう選択された(オーディオ)フレーム・レート23.976、24.000、24.975および25.000Hzを扱うために使われる。異なるフレーム長のため、モードa〜dでは、内部サンプリング周波数(フレーム・レート×フレーム長)は約46.034kHzから48.000kHzまで変わる。臨界サンプリングおよび均等に離間した周波数ビンを想定すると、これは11.988Hzから12.500Hzの範囲内のビン幅値(内部サンプリング周波数の半分/フレーム長)に対応する。内部サンプリング周波数の変動は制限されているので(フレーム・レートの変動範囲が約5%である結果、それは約5%)、オーディオ処理システム100は、はいってくるオーディオ・ビットストリームが準備された物理的なサンプリング周波数に厳密にマッチしないにもかかわらず、四つのモードa〜dのすべてにおいて合理的な出力品質を与える。
【0040】
フロントエンド・コンポーネント110の下流に続けると、分解(QMF)フィルタバンク122は、すべてのモードa〜dにおいて64個の帯域またはQMFフレーム当たり30個のサンプルをもつ。物理的には、これは各分解周波数帯域のわずかに変動する幅に対応するが、変動はやはり無視できるほど限られている。特に、SBRおよびDRC処理モジュール124、126は、出力品質に不都合なく、現在モードについて不可知であってもよい。しかしながら、SRC 130はモード依存であり、処理されたオーディオ信号の各フレームが物理的単位において48kHzのターゲット外部サンプリング周波数に対応する数のサンプルを含むことを保証するために―ターゲット外部サンプリング周波数と内部サンプリング周波数の商に一致するよう選ばれる―特定の再サンプリング因子を使う。
【0041】
モードa〜dのそれぞれにおいて、オーディオ処理システム100は、ビデオ・フレーム・レートと外部サンプリング周波数両方に厳密にマッチする。すると、オーディオ処理システム100はマルチメディア・ビットストリームT1およびT2のオーディオ部分を扱いうる。ここで、オーディオ・フレームA11、A12、A13、…;A22、A23、A24、…およびビデオ・フレームV11、V12、V13、…;V22、V23、V24は各ストリーム内において時間的に一致する。このとき、進んでいるストリームにおけるオーディオ・フレームおよび関連付けられたビデオ・フレームを削除することによって、ストリームT1、T2の同期を改善することができる。あるいはまた、遅れているストリームにおけるオーディオ・フレームおよび関連付けられたビデオ・フレームが複製され、もとの位置の次に挿入される。この際、可能性としては知覚可能なアーチファクトを軽減するために補間措置が組み合わされる。
【0042】
フレーム・レート29.97Hzおよび30.00Hzを扱うよう意図されたモードeおよびfは、第二のサブグループとして見分けられる。すでに説明したように、オーディオ・データの量子化は、約48kHzの内部サンプリング周波数のために適応される(または最適化される)。よって、各フレームがより短いので、フロントエンド・コンポーネント110のフレーム長はより小さな値、1536サンプルに設定され、それにより約46.034および46.080kHzの内部サンプリング周波数となる。分解フィルタバンク122が64個の周波数帯域をもちモード独立であれば、各QMFフレームは24サンプルを含む。
【0043】
同様に、50Hzおよび60Hz(標準化されたテレビジョン・フォーマットにおけるリフレッシュ・レートの二倍に対応)および120Hzまたはその付近のフレーム・レートは、それぞれモードg〜i(フレーム長960サンプル)、モードj〜k(フレーム長768サンプル)およびモードl(フレーム長384サンプル)によってカバーされる。内部サンプリング周波数はそれぞれの場合において48kHzに近いままであり、よってオーディオ・ビットストリームが生成されたときの量子化プロセスのいかなる音響心理学的チューニングも少なくとも近似的には有効なままであることを注意しておく。64帯域フィルタバンクにおけるそれぞれのQMFフレーム長は15、12および6サンプルである。
【0044】
上述したように、オーディオ処理システム100は、オーディオ・フレームをより短いサブフレームに細分するよう動作可能であってもよい。こうする理由は、オーディオ過渡成分をより効率的に捕捉することであってもよい。48kHzサンプリング周波数および表1で与えられた設定については、下記の表2〜表4が2、4、8および16サブフレームへの細分から帰結するビン幅およびフレーム長を示している。表1に基づく設定は時間および周波数分解能の有利なバランスを達成すると思われる。
【0047】
【表4】
フレームの細分に関係する決定は、オーディオ・エンコード・システム(図示せず)におけるようなオーディオ・ビットストリームを準備するプロセスの一部として行なわれてもよい。表1においてモードmによって示されるように、オーディオ処理システム100はさらに、96kHzの増大した外部サンプリング周波数および128QMF帯域で動作することを可能にされてもよい。これはQMFフレーム当たり30サンプルに対応する。外部サンプリング周波数はたまたま内部サンプリング周波数と一致するので、SRC因子は1である。これは再サンプリングが必要ないことに相当する。
【0048】
〈マルチチャネル符号化〉
本節での用法では、オーディオ信号は、純粋なオーディオ信号、オーディオビジュアル信号またはマルチメディア信号のオーディオ部分またはこれらの任意のものをメタデータと組み合わせたものでありうる。
【0049】
本節での用法では、複数の信号のダウンミックスは、たとえば線形結合を形成することによって該複数の信号を組み合わせることを意味する。それより、より少数の信号が得られる。ダウンミックスに対する逆の動作はアップミックスと称される。すなわち、より少数の信号に対して動作を実行してより多数の信号を得ることである。
【0050】
図7は、M個のエンコードされたチャネルを再構成するためのマルチチャネル・オーディオ処理システムにおけるデコーダ100の一般化されたブロック図である。デコーダ100は、のちに
図17〜
図19との関連でより詳細に説明される三つの概念部分200、300、400を有する。第一の概念部分200では、エンコーダは、デコードされるべきマルチチャネル・オーディオ信号を表わす、N個の波形符号化されたダウンミックス信号およびM個の波形符号化された信号を受領する。ここで、1<N<Mである。図示した例ではN=2に設定されている。第二の概念部分300では、M個の波形符号化された信号がダウンミックスされ、N個の波形符号化されたダウンミックス信号と組み合わされる。次いで、組み合わされたダウンミックス信号について高周波数再構成(HFR)が実行される。第三の概念部分400では、高周波数再構成された信号がアップミックスされ、M個の波形符号化された信号がアップミックス信号と組み合わされて、M個のエンコードされたチャネルを再構成する。
【0051】
図8〜
図10との関連で記述される例示的実施形態では、エンコードされた5.1サラウンド・サウンドの再構成が記述される。低周波数効果信号が記載される実施形態や図面で言及されていないことを注意しておいてもよいだろう。これは、いかなる低周波数効果も無視されることを意味するのではない。低周波数効果(Lfe)は、当業者によく知られている任意の好適な仕方で再構成された五チャネルに加えられてもよい。記載されるデコーダは、7.1または9.1サラウンド・サウンドのような他の型のエンコードされたサラウンド・サウンドにも等しく好適であることを注意しておいてもよいだろう。
【0052】
図8は、
図7におけるデコーダ100の第一の概念部分200を示している。デコーダは、二つの受領段212、214を有する。第一の受領段212では、ビットストリーム202がデコードされて、量子化解除されて二つの波形符号化されたダウンミックス信号208a〜bにされる。これら二つの波形符号化されたダウンミックス信号208a〜bのそれぞれは、第一のクロスオーバー周波数k
yと第二のクロスオーバー周波数k
xとの間の周波数に対応するスペクトル係数を含む。
【0053】
第二の受領段214では、ビットストリーム202がデコードされて、量子化解除されて五つの波形符号化された信号210a〜eにされる。これら五つの波形符号化された信号210a〜eのそれぞれは、第一のクロスオーバー周波数k
xまでの周波数に対応するスペクトル係数を含む。
【0054】
例として、信号210a〜eは、二つのチャネル対要素および中央チャネルについての一つの単独チャネル要素を含む。チャネル対要素はたとえば、左前方および左サラウンド信号の組み合わせであってもよく、右前方および右サラウンド信号の組み合わせであってもよい。さらなる例は、左前方および右前方信号の組み合わせおよび左サラウンドおよび右サラウンド信号の組み合わせである。これらのチャネル対要素はたとえば、和差フォーマットで符号化されてもよい。五つの信号210a〜eすべてが、独立窓掛けをもつ重複窓掛け変換を使って符号化され、デコーダによってデコード可能であってもよい。これは、改善された符号化品質を、よってデコードされた信号の改善された品質を許容しうる。
【0055】
例として、第一のクロスオーバー周波数k
yは1.1kHzである。例として、第二のクロスオーバー周波数k
xは5.6〜8kHzの範囲内にある。第一のクロスオーバー周波数k
yは、個々の信号ベースでも変わりうることを注意しておくべきである。すなわち、エンコーダは、ある特定の出力信号中のある信号成分がステレオ・ダウンミックス信号208a〜bによって忠実に再生されないことがありうることを検出することができ、その特定の時点について、信号成分の適正な波形符号化を行なうために、関連する波形符号化された信号、すなわち210a〜eの帯域幅、すなわち第一のクロスオーバー周波数k
yを増すことができる。
【0056】
本稿において後述するように、エンコーダ100の残りの諸段は典型的には直交ミラー・フィルタ(QMF)領域で動作する。このため、第一および第二の受領段212、214によって受領される信号208a〜b、210a〜eのそれぞれは、修正離散コサイン変換(MDCT)形式で受領されるが、逆MDCT 216を適用することによって時間領域に変換される。次いで各信号はQMF変換218を適用することによって周波数領域に変換し戻される。
【0057】
図9では、ダウンミックス段308において、五つの波形符号化された信号210がダウンミックスされて、第一のクロスオーバー周波数k
yまでの周波数に対応するスペクトル係数を含む二つのダウンミックス信号310、312にされる。これらのダウンミックス信号310、312は、
図8に示した二つのダウンミックス信号208a〜bを生成するためにエンコーダにおいて使われたのと同じダウンミックス方式を使って低域通過マルチチャネル信号210a〜eに対してダウンミックスを実行することによって形成されてもよい。
【0058】
二つの新しいダウンミックス信号310、312は次いで第一の組み合わせ段320、322において、対応するダウンミックス信号208a〜bと組み合わされ、組み合わされたダウンミックス信号302a〜bを形成する。組み合わされたダウンミックス信号302a〜bのそれぞれは、このように、ダウンミックス信号310、312に由来する第一のクロスオーバー周波数k
yまでの周波数に対応するスペクトル係数と、第一の受領段212(
図8に示す)において受領される波形符号化されたダウンミックス信号208a〜bに由来する第一のクロスオーバー周波数k
yと第二のクロスオーバー周波数k
xとの間の周波数に対応するスペクトル係数を含む。
【0059】
エンコーダはさらに、高周波数再構成(HFR)段314を有する。HFR段は、高周波数再構成を実行することにより、組み合わせ段からの二つの組み合わされたダウンミックス信号302a〜bを、第二のクロスオーバー周波数k
xより上の周波数範囲に拡張するよう構成されている。実行される高周波数再構成は、いくつかの実施形態によれば、スペクトル帯域複製(SBR)を実行することを含んでいてもよい。高周波数再構成は、任意の好適な仕方でHFR段314によって受領されうる高周波数再構成パラメータを使って行なわれてもよい。
【0060】
高周波数再構成段314からの出力は、適用されるHFR拡張316、318とともにダウンミックス信号208a〜bを含む二つの信号304a〜bである。上記のように、HFR段314は、上記二つのダウンミックス信号208a〜bと組み合わされた第二の受領段214(
図8に示す)からの入力信号210a〜eに存在する周波数に基づいて高周波数再構成を実行する。いくらか単純化されて、HFR範囲316、318は、上の該HFR範囲316、318にコピーされたダウンミックス信号310、312からのスペクトル係数の部分を含んでいる。結果として、五つの波形符号化された信号210a〜eの諸部分がHFR段314からの出力304のHFR範囲316、318に現われる。
【0061】
高周波数再構成段314に先立つダウンミックス段308におけるダウンミックスおよび第一の組み合わせ段320、322における組み合わせが時間領域で、すなわち各信号が逆修正離散コサイン変換(MDCT)216(
図8に示す)を適用することによって時間領域に変換された後で、なされることができることを注意しておくべきである。しかしながら、波形符号化された信号210a〜eおよび波形符号化されたダウンミックス信号208a〜bが、独立窓掛けをもつ重複窓掛け変換を使って波形符号化器によって符号化されることができることを与えられると、信号210a〜eおよび208a〜bは時間領域においてはシームレスに組み合わされないことがありうる。よって、少なくとも第一の組み合わせ段320、322における組み合わせがQMF領域で行なわれる場合によりよい制御されたシナリオが達成される。
【0062】
図10は、
デコーダ100の第三にして最後の概念部分400を示している。HFR段314からの出力304はアップミックス段402への入力をなす。アップミックス段402は、周波数拡張された信号304a〜bに対してパラメトリック・アップミックスを実行することにより、五つの信号出力404a〜eを生成する。五つのアップミックス信号404a〜eのそれぞれは、第一のクロスオーバー周波数k
yより上の周波数についてのエンコードされた5.1サラウンド・サウンドにおける五つのエンコードされたチャネルのうちの一つに対応する。例示的なパラメトリック・アップミックス手順によれば、アップミックス段402はまずパラメトリック混合パラメータを受領する。アップミックス段402はさらに、二つの周波数拡張された組み合わされたダウンミックス信号304a〜bの脱相関されたバージョンを生成する。アップミックス段402はさらに、二つの周波数拡張された組み合わされたダウンミックス信号304a〜bと、該二つの周波数拡張された組み合わされたダウンミックス信号304a〜bの脱相関されたバージョンとを行列演算にかける。ここで、行列演算のパラメータは前記アップミックス・パラメータによって与えられる。あるいはまた、当技術分野において既知の他の任意のパラメトリック・アップミックス手順が適用されてもよい。適用可能なパラメトリック・アップミックス手順はたとえば非特許文献1に記載されている。
【0063】
アップミックス段402からの出力404a〜eはこのように、第一のクロスオーバー周波数k
yより下の周波数を含まない。第一のクロスオーバー周波数k
yまでの周波数に対応する残りの周波数係数は、アップミックス段404のタイミングにマッチするよう遅延段412によって遅延された五つの波形符号化された信号210a〜eに存在する。
【0064】
エンコーダ100はさらに、第二の組み合わせ段416、418を有する。第二の組み合わせ段416、418は、五つのアップミックス信号404a〜eを、第二の受領段214(
図8に示す)によって受領された五つの波形符号化された信号210a〜eと組み合わせるよう構成される。
【0065】
結果として得られる組み合わされた信号422に、別個の信号として任意の存在するLfe信号が加えられてもよいことを注意しておいてもよいだろう。信号422のそれぞれは次いで、逆QMF変換420を適用することによって時間領域に変換される。逆QMF変換414からの出力はこのように、フルにデコードされた5.1チャネル・オーディオ信号である。
【0066】
図11は、
図7のデコード・システムの修正であるデコード・システム100’を示している。デコード・システム100’は、
図16の概念部分100、200および300に対応する概念部分200’、300’および400’を有する。
図11のデコード・システム100’と
図7のデコード・システムとの間の相違は、概念部分200’における第三の受領段616および第三の概念部分400’におけるインターリーブ段714があることである。
【0067】
第三の受領段616は、さらなる波形符号化された信号を受領するよう構成される。さらなる波形符号化された信号は、第一のクロスオーバー周波数より上の周波数のある部分集合に対応するスペクトル係数を含む。さらなる波形符号化された信号は、逆MDCT 216を適用することによって時間領域に変換されてもよい。それは次いで、QMF変換218を適用することによって周波数領域に変換し戻されてもよい。
【0068】
さらなる波形符号化された信号は別個の信号として受領されてもよいことは理解される。しかしながら、さらなる波形符号化された信号は五つの波形符号化された信号210a〜eの一つまたは複数の一部をなしてもよい。換言すれば、さらなる波形符号化された信号は、五つの波形符号化された信号201a〜eの一つまたは複数と一緒に、たとえば同じMCDT変換を使って合同符号化されてもよい。もしそうなら、第三の符号化段616は第二の受領段に対応する。すなわち、さらなる波形符号化された信号は、第二の受領段214を介して、五つの波形符号化された信号210a〜eと一緒に受領される。
【0069】
図12は、
図11のデコーダ100’の第三の概念部分300’をより詳細に示している。高周波数拡張されたダウンミックス信号304a〜bおよび五つの波形符号化された信号210a〜eに加えて、さらなる波形符号化された信号710は、第三の概念部分400’に入力される。図示した例では、さらなる波形符号化された信号710は五つのチャネルの第三のチャネルに対応する。さらなる波形符号化された信号710はさらに、第一のクロスオーバー周波数k
yから始まる周波数区間に対応するスペクトル係数を含む。しかしながら、さらなる波形符号化された信号710によってカバーされる第一のクロスオーバー周波数より上の周波数範囲の前記部分集合の形は、もちろん、種々の実施形態において変わりうる。複数の波形符号化された信号710a〜eが受領されることがあることも注意しておく。ここで、異なる波形符号化された信号は異なる出力チャネルに対応してもよい。前記複数のさらなる波形符号化された信号710a〜eによってカバーされる周波数範囲の前記部分集合は、前記複数のさらなる波形符号化された信号710a〜eのうちの異なるものの間で変わりうる。
【0070】
さらなる波形符号化された信号710は、アップミックス段402から出力されるアップミックス信号404のタイミングにマッチするよう遅延段712によって遅延されてもよい。アップミックス信号404およびさらなる波形符号化された信号710は次いで、インターリーブ段714に入力される。インターリーブ段714は、アップミックス信号404をさらなる波形符号化された信号710とインターリーブする、すなわち組み合わせて、インターリーブされた信号704を生成する。今の例では、インターリーブ段714はこうして第三のアップミックス信号404cを、さらなる波形符号化された信号710とインターリーブする。インターリーブは、二つの信号を一緒に加えることによって実行されてもよい。しかしながら、典型的には、インターリーブは、信号が重複する周波数範囲および時間範囲においてアップミック信号404をさらなる波形符号化された信号710で置き換えることによって実行される。
【0071】
インターリーブされる信号704は次いで第二の組み合わせ段416、418に入力され、そこで波形符号化された信号201a〜eと組み合わされて、
図19を参照して述べるのと同じ仕方で出力信号722を生成する。インターリーブ段714と第二の組み合わせ段416、418の順序は逆にされ、組み合わせがインターリーブより前に実行されてもよいことを注意しておく。
【0072】
また、さらなる波形符号化された信号710が五つの波形符号化された信号210a〜eのうちの一つまたは複数の一部をなす状況では、第二の組み合わせ段416、418およびインターリーブ段714は単一の段に組み合わされてもよい。特に、そのような組み合わされた段は、第一のクロスオーバー周波数k
yまでの周波数について五つの波形符号化された信号210a〜eのスペクトル内容を使う。第一のクロスオーバー周波数より上の周波数については、組み合わされた段は、さらなる波形符号化された信号710とインターリーブされたアップミックス信号404を使う。
【0073】
インターリーブ段714は、制御信号の制御のもとで動作してもよい。この目的のために、デコーダ100’は、さらなる波形符号化された信号をどのようにしてM個のアップミックス信号のうちの一つとインターリーブするかを示す制御信号を、たとえば第三の受領段616を介して、受領してもよい。たとえば、制御信号は、さらなる波形符号化された信号710がアップミックス信号404の一つとインターリーブされる周波数範囲および時間範囲を指示してもよい。たとえば、周波数範囲および時間範囲は、インターリーブがなされるべき時間/周波数タイルで表わされてもよい。時間/周波数タイルは、インターリーブが行なわれるところのQMF領域の時間/周波数格子に関する時間/周波数タイルであってもよい。
【0074】
制御信号は、インターリーブがなされる時間/周波数タイルを指示するために二進ベクトルのようなベクトルを使ってもよい。特に、インターリーブが実行されるべき周波数を示す、周波数方向に関係する第一のベクトルがあってもよい。指示はたとえば、第一のベクトルにおける対応する周波数区間について論理的な1を示すことによってなされてもよい。また、インターリーブが実行されるべき時間区間を示す、時間方向に関係する第二のベクトルがあってもよい。指示はたとえば、第二のベクトルにおける対応する時間区間について論理的な1を示すことによってなされてもよい。この目的のために、時間フレームは典型的には複数の時間スロットに分割され、時間指示はフレームより小さい単位で行なわれてもよい。第一および第二のベクトルの交わりを取ることにより、時間/周波数マトリクスが構築されてもよい。たとえば、時間/周波数マトリクスは、第一および第二のベクトルが論理的な1を示す各時間/周波数タイルについて論理的な1を有する二進マトリクスであってもよい。すると、インターリーブ段714は、インターリーブを実行する際に、時間/周波数マトリクスを使ってもよい。たとえば、時間/周波数マトリクスにおいて論理的な1などにより指示される時間/周波数タイルについて、アップミックス信号704の一つまたは複数がさらなる波形符号化された信号710によって置き換えられる。
【0075】
インターリーブが行なわれるべき時間/周波数タイルを示すために、ベクトルは、二進方式以外の他の方式を使ってもよいことを注意しておく。たとえば、ベクトルは0のような第一の値によってインターリーブが行なわれないことを示すことや、第二の値によって、該第二の値によって同定されるあるチャネルに関してインターリーブが行なわれることを示すこともできる。
【0076】
〈ステレオ符号化〉
この節での用法では、左右符号化またはエンコードは、左(L)および右(R)のステレオ信号が、信号間のいかなる変換も実行することなく符号化されることを意味する。
【0077】
この節での用法では、和差符号かまたはエンコードは、左および右のステレオ信号の和Mが一つの信号(和)として符号化され、左右のステレオ信号の差Sが一つの信号(差)として符号化されることを意味する。和差符号化は中央/サイド符号化と呼ばれることもある。よって、左右形式と和差形式の間の関係は、M=L+RおよびS=L−Rとなる。左右ステレオ信号を和差形式に変換し、逆に和差形式を左右ステレオ信号に変換するとき、両方向における変換がマッチする限り、種々の規格化またはスケーリングが可能であることが注意されうる。本開示では、M=L+RおよびS=L−Rが主として使われるが、異なるスケーリング、たとえばM=(L+R)/2およびS=(L−R)/2を使うシステムも同じようにうまく機能する。
【0078】
この節での用法では、ダウンミックス相補的(dmx/comp)符号化またはエンコードは、左右ステレオ信号を、符号化前に、重み付けパラメータaに依存する行列乗算を受けさせることを意味する。よって、dmx/comp符号化は、dmx/comp/a符号化と呼ばれることもある。ダウンミックス相補形式と左右形式および和差形式の間の関係は、典型的には、dmx=L+R=Mおよびcomp=(1−a)L−(1+a)R=−aM+Sである。注目すべきことに、このように、ダウンミックス相補表現でのダウンミックス信号は和差表現の和信号Mと等価である。
【0079】
この節での用法では、オーディオ信号は純粋なオーディオ信号、オーディオビジュアル信号またはマルチメディア信号のオーディオ部分またはこれらの任意のものをメタデータと組み合わせたものでありうる。
【0080】
図13は、のちに
図14〜
図16との関連でより詳細に説明する三つの概念部分200、300、400を有するデコード・システム100の一般化されたブロック図である。第一の概念部分200では、ビットストリームが受領され、第一および第二の信号にデコードされる。第一の信号は、第一のクロスオーバー周波数までの周波数に対応するスペクトル・データを含む第一の波形符号化された信号と、前記第一のクロスオーバー周波数より上の周波数に対応するスペクトル・データを含む波形符号化されたダウンミックス信号とを両方含む。第二の信号は、前記第一のクロスオーバー周波数までの周波数に対応するスペクトル・データを含む第二の波形符号化された信号のみを含む。
【0081】
第二の概念部分300では、前記第一および第二の信号の波形符号化された部分が和差形式でなく、たとえばM/S形式である場合、前記第一および第二の信号の波形符号化された部分が和差形式に変換される。その後、前記第一および第二の信号は時間領域に、次いで直交ミラー・フィルタ(QMF)領域に変換される。第三の概念部分400では、第一の信号は高周波数再構成される(HFR)。前記第一および第二の部分の両方は次いでアップミックスされて、デコード・システム100によってデコードされるエンコードされた信号の周波数帯域全体に対応するスペクトル係数をもつ左右のステレオ信号出力を生成する。
【0082】
図14は、
図13におけるデコード・システム100の第一の概念部分200を示している。デコード・システム100は受領段212を有する。受領段212では、ビットストリーム・フレーム202がデコードされて、量子化解除されて第一の信号204aおよび第二の信号204bにされる。ビットストリーム・フレーム202は、デコードされる前記二つのオーディオ信号の時間フレームに対応する。第一の信号204aは、第一のクロスオーバー周波数k
yまでの周波数に対応するスペクトル・データを含む第一の波形符号化された信号208と、前記第一のクロスオーバー周波数より上の周波数に対応するスペクトル・データを含む波形符号化されたダウンミックス信号206とを含む。例として、第一のクロスオーバー周波数k
yは1.1kHzである。
【0083】
いくつかの実施形態によれば、前記波形符号化されたダウンミックス信号206は、前記第一のクロスオーバー周波数k
yと第二のクロスオーバー周波数k
xとの間の周波数に対応するスペクトル・データを含む。例として、第二のクロスオーバー周波数k
xは5.6〜8kHzの範囲内にある。
【0084】
受領された第一および第二の波形符号化された信号208、210は、左右形式、和差形式および/またはダウンミックス相補形式で波形符号化されていてもよい。ここで、相補信号は、信号適応的である重み付けパラメータaに依存する。波形符号化されたダウンミックス信号206は、パラメトリック・ステレオに好適なダウンミックスに対応し、これは上記によれば和形式に対応する。しかしながら、信号204bは第一のクロスオーバー周波数k
yより上には内容をもたない。各信号206、208、210は修正離散コサイン変換(MDCT)領域で表現される。
【0085】
図15は、
図13のデコード・システム100の第二の概念部分300を示している。デコード・システム100は混合段302を有する。デコード・システム100の設計は、のちにより詳細に述べる高周波数再構成段への入力が和フォーマットである必要があることを要求する。結果として、混合段は、第一および第二の波形符号化された信号208、210が和差形式であるかどうかを検査するよう構成される。第一および第二の信号波形符号化された信号208、210が前記第一のクロスオーバー周波数k
yまでのすべての周波数について和差形式であるのでなければ、混合段302は、波形符号化された信号208、210全体を和差形式に変換する。混合段302への入力信号208、210の周波数の少なくとも部分集合がダウンミックス相補形式である場合には、混合段302への入力として、重み付けパラメータaが要求される。入力信号208、210がダウンミックス相補形式で符号化されたいくつかの部分集合の周波数を含んでいてもよいこと、その場合には各部分集合が重み付けパラメータaの同じ値を使って符号化される必要はないことを注意してもよい。この場合、いくつかの重み付けパラメータaが混合段302への入力として要求される。
【0086】
上述したように、混合段302は常に入力信号204a〜bの和差表現を出力する。MDCT領域で表現された信号を和差表現に変換できるためには、MDCT符号化された信号の窓掛けが同じである必要がある。これは、第一および第二の信号波形符号化された信号208、210がL/Rまたはダウンミックス相補形式である場合には、信号204aについての窓掛けと信号204bについての窓掛けが独立であることができないことを含意する。
【0087】
結果として、第一および第二の信号波形符号化された信号208、210が和差形式である場合、信号204aについての窓掛けと信号204bについての窓掛けは独立であってもよい。
【0088】
混合段302のあと、和差信号は、逆修正離散コサイン変換(MDCT
-1)312を適用することによって、時間領域に変換される。
【0089】
次いで、二つの信号304a〜bは、二つのQMFバンク314を用いて解析される。ダウンミックス信号306が前記低周波数を含まないので、周波数分解能を増すために信号をナイキスト・フィルタバンクを用いて解析する必要はない。これは、ダウンミックス信号が低周波数を含むシステム、たとえばMPEG-4パラメトリック・ステレオのような通常のパラメトリック・ステレオ・デコードに比較されうる。そうしたシステムでは、ダウンミックス信号は、周波数分解能をQMFバンクによって達成されるより高くし、それによりたとえばバーク周波数スケールによって表わされる人間の聴覚系の周波数選択性によりよくマッチするために、ナイキスト・フィルタバンクを用いて解析される必要がある。
【0090】
QMFバンク314からの出力信号304は、第一のクロスオーバー周波数k
yまでの周波数に対応するスペクトル・データを含む波形符号化された和信号308と、第一のクロスオーバー周波数k
yと第二のクロスオーバー周波数k
xとの間の周波数に対応するスペクトル・データを含む波形符号化されたダウンミックス信号306との組み合わせである第一の信号304aを含む。出力信号304はさらに、第一のクロスオーバー周波数k
yまでの周波数に対応するスペクトル・データを含む波形符号化された差信号310を含む第二の信号304bを含む。信号304bは、第一のクロスオーバー周波数k
yより上には内容をもたない。
【0091】
のちに述べるように、高周波数再構成段416(
図16との関連で示す)は、前記低周波数、すなわち前記出力信号304からの前記第一の波形符号化された信号308および前記波形符号化されたダウンミックス信号306を、第二のクロスオーバー周波数k
xより上の周波数を再構成するために使う。高周波数再構成段416が作用する信号が、前記低周波数にわたって同様の型の信号であることが有利である。この観点から、混合段302に、常に前記第一および第二の信号波形符号化された信号208、210の和差表現を出力させることが有利である。これが、出力される第一の信号304aの第一の波形符号化された信号308および波形符号化されたダウンミックス信号306が同様の性質であることを含意するからである。
【0092】
図16は、
図13のデコード・システム100の第三の概念部分400を示している。高周波数再構成(HFR)段416は、高周波数再構成を実行することにより、第一の信号入力信号304aのダウンミックス信号306を第二のクロスオーバー周波数k
xより上の周波数範囲に拡張する。HFR段416の構成設定に依存して、HFR段416への入力は信号304a全体またはダウンミックス信号306だけである。高周波数再構成は、任意の好適な仕方で高周波数再構成段416によって受領されうる高周波数再構成パラメータを使うことによってなされる。ある実施形態によれば、実行される高周波数再構成は、スペクトル帯域複製(SBR)を実行することを含む。
【0093】
高周波数再構成段314からの出力は、SBR拡張412が適用されたダウンミックス信号406を含む信号404である。高周波数再構成された信号404および信号403bは次いで、左Lおよび右Rステレオ信号412a〜bを生成するよう、アップミックス段420にフィードされる。第一のクロスオーバー周波数k
yより下の周波数に対応するスペクトル係数については、アップミックスは、第一および第二の信号408、310の逆和差変換を実行することを含む。これは単に、先に概説したように中央‐サイド表現から左‐右表現に移行することを意味する。第一のクロスオーバー周波数k
yまでの周波数に対応するスペクトル係数については、ダウンミックス信号406およびSBR拡張412は脱相関器418を通じてフィードされる。ダウンミックス信号406およびSBR拡張412ならびにダウンミックス信号406およびSBR拡張412の脱相関されたバージョンは、次いで、パラメトリック混合パラメータを使ってアップミックスされ、第一のクロスオーバー周波数k
yより上の周波数についての左および右のチャネル416、414を再構成する。当技術分野において知られている任意のパラメトリック・アップミックス手順が適用されうる。
【0094】
図13〜
図16に示したエンコーダの上記の例示的な実施形態100では、第一の受領される信号204aが第二のクロスオーバー周波数k
xまでの周波数に対応するスペクトル・データしか含まないので、高周波数再構成が必要とされていることを注意しておくべきである。さらなる実施形態では、第一の受領された信号は、エンコードされた信号の全周波数に対応するスペクトル・データを含む。この実施形態によれば、高周波数再構成は必要とされない。当業者は、この場合に例示的なエンコーダ100をどのように適応させるべきかを理解する。
【0095】
図17は、ある実施形態に基づくエンコード・システム500の一般化されたブロック図を例として示している。
【0096】
このエンコード・システムでは、エンコードされるべき第一および第二の信号540、542が受領段(図示せず)によって受領される。これらの信号540、542は、左540および右542のステレオ・オーディオ・チャネルの時間フレームを表わす。信号540、542は時間領域で表現されている。エンコード・システムは、変換段510を有する。信号540、542は変換段510において和差フォーマット544、546に変換される。
【0097】
エンコード・システムはさらに、変換段510から第一および第二の変換された信号544、546を受領するよう構成されている波形符号化段514を含む。波形変換段は典型的には、MDCT領域で動作する。この理由により、変換された信号544、546は、波形符号化段514の前にMDCT変換512にかけられる。波形符号化段では、第一および第二の変換された信号544、546は波形符号化されて、それぞれ第一および第二の波形符号化された信号518、520にされる。
【0098】
第一のクロスオーバー周波数k
yより上の周波数については、波形符号化段514は、第一の変換された信号544を波形符号化して、第一の波形符号化された信号518の波形符号信号552にするよう構成されている。波形符号化段514は、第一のクロスオーバー周波数k
yより上では第二の波形符号化された信号520を0に設定するよう、あるいはこれらの周波数を全くエンコードしないよう、構成されていてもよい。第一のクロスオーバー周波数k
yより上の周波数については、波形符号化段514は、第一の変換された信号544を波形符号化して、第一の波形符号化された信号518の波形符号化された信号552にするよう構成されている。
【0099】
第一のクロスオーバー周波数k
yより下の周波数については、前記二つの信号548、550についてどの種類のステレオ符号化を使うべきかについて、波形符号化段514において決定がなされる。第一のクロスオーバー周波数k
yより下での変換された信号544、546の特性に依存して、波形符号化された信号548、550の異なる部分集合について異なる決定がされることができる。符号化は、左/右符号化、中央/サイド符号化、すなわち和と差の符号化またはdmx/comp/a符号化であることができる。信号548、550が波形符号化段514において和差符号化によって波形符号化される場合、波形符号化された信号518、520は、それぞれ信号518、520についての独立な窓掛けを用いる重複窓掛け変換を使って符号化されてもよい。
【0100】
例示的な第一のクロスオーバー周波数k
yは1.1kHzであるが、この周波数はステレオ・オーディオ・システムのビット伝送レートに依存して、あるいはエンコードされるべきオーディオの特性に依存して変わりうる。
【0101】
こうして、波形符号化段514から少なくとも二つの信号518、520が出力される。第一のクロスオーバー周波数k
yより下の信号の一つまたは複数の部分集合または周波数帯域全体が重み付けパラメータaに依存して行列演算を実行することによってダウンミックス/相補形式で符号化される場合、このパラメータも信号522として出力される。いくつかの部分集合がダウンミックス/相補形式でエンコードされる場合、各部分集合は重み付けパラメータaの同じ値を使って符号化される必要はない。この場合、いくつかの重み付けパラメータが信号522として出力される。
【0102】
これら二つまたは三つの信号518、520、522はエンコードおよび量子化524されて単一の合成信号558にされる。
【0103】
デコーダ側で第一のクロスオーバー周波数より上の周波数について第一および第二の信号540、542のスペクトル・データを再構成できるために、パラメトリック・ステレオ・パラメータ536が信号540、542から抽出される必要がある。この目的のために、エンコーダ500は、パラメトリック・ステレオ(PS)エンコード段530を有する。PSエンコード段530は典型的にはQMF領域で動作する。したがって、PSエンコード段530に入力される前に、第一および第二の信号540、542はQMF分解段526によってQMF領域に変換される。PSエンコーダ段530は、第一のクロスオーバー周波数k
yより上の周波数についてパラメトリック・ステレオ・パラメータ536を抽出するだけであるよう適応される。
【0104】
パラメトリック・ステレオ・パラメータ536がパラメトリック・ステレオ・エンコードされる信号の特性を反映することを注意しておいてもいいだろう。よって、これらのパラメータは周波数選択的である、すなわち、パラメータ536の各パラメータは、左または右の入力信号540、542の周波数の部分集合に対応しうる。PSエンコード段530はパラメトリック・ステレオ・パラメータ536を計算し、これらを一様または非一様な仕方で量子化する。パラメータは上述したように周波数選択的に計算され、ここで、入力信号540、542の周波数範囲全体はたとえば15個のパラメータ帯域に分割される。これらは人間の聴覚系の周波数分解能のモデル、たとえばバーク・スケールに従って離間されていてもよい。
【0105】
図17に示したエンコーダ500の例示的な実施形態では、波形符号化段514は、第一のクロスオーバー周波数k
yと第二のクロスオーバー周波数k
xとの間の周波数について第一の変換された信号544を波形符号化し、第二のクロスオーバー周波数k
xより上では第一の波形符号化された信号518を0に設定するよう構成されている。これは、エンコーダ500を一部とするオーディオ・システムの要求される伝送レートをさらに軽減するためになされてもよい。第二のクロスオーバー周波数k
xより上の信号を再構成できるために、高周波数再構成パラメータ538が生成される必要がある。この例示的実施形態によれば、これはダウンミックス段534においてQMF領域で表わされる二つの信号540、542をダウンミックスすることによってなされる。結果として得られるダウンミックス信号はたとえば信号540、542の和に等しく、次いで、高周波数パラメータ538を生成するために、高周波数再構成(HFR)エンコード段532における高周波数再構成エンコードにかけられる。パラメータ538はたとえば、当業者によく知られるように、第二のクロスオーバー周波数k
xより上の周波数のスペクトル包絡、ノイズ加算情報などを含んでいてもよい。
【0106】
例示的な第二のクロスオーバー周波数k
xは5.6〜8kHzであるが、この周波数はステレオ・オーディオ・システムのビット伝送レートに依存して、あるいはエンコードされるオーディオの特性に依存して変えられてもよい。
【0107】
エンコーダ500はさらに、ビットストリーム生成段、すなわちビットストリーム・マルチプレクサ524を有する。エンコーダ500の例示的な実施形態によれば、ビットストリーム生成段は、エンコードされ、量子化された信号544および二つのパラメータ信号536、538を受領するよう構成されている。これらは、ステレオ・オーディオ・システムにおいてさらに頒布されるため、ビットストリーム生成段562によってビットストリーム560に変換される。
【0108】
もう一つの実施形態によれば、波形符号化段514が、第一のクロスオーバー周波数k
yより上のすべての周波数について第一の変換された信号544を波形符号化するよう構成されている。この場合、HFRエンコード段532は必要とされず、結果として、高周波数再構成パラメータ538はビットストリームに含められない。
【0109】
図18は、例として、もう一つの実施形態に基づくエンコーダ・システム600の一般化されたブロック図を示している。
【0110】
〈声モード符号化〉
図19aは、例示的な変換ベースの発話エンコーダ100のブロック図を示している。エンコーダ100は、入力として、変換係数のブロック131(符号化単位とも称される)を受領する。変換係数のブロック131は、入力オーディオ信号のサンプルのシーケンスを時間領域から変換領域に変換するよう構成された変換ユニットによって得られたものであってもよい。変換ユニットは、MDCTを実行するよう構成されていてもよい。変換ユニットは、AACまたはHE-AACのような一般的オーディオ・コーデックの一部であってもよい。そのような一般的オーディオ・コーデックは、異なるブロック・サイズ、たとえば長ブロックおよび短ブロックを利用してもよい。例示的なブロック・サイズは長ブロックについては1024サンプル、短ブロックについては256サンプルである。サンプリング・レート44.1kHzおよび50%の重複を想定すると、長ブロックは入力オーディオ信号の約20msをカバーし、短ブロックは入力オーディオ信号の約5msをカバーする。長ブロックは典型的には、入力オーディオ信号の静的セグメントのために使われ、短ブロックは典型的には入力オーディオ信号の過渡的セグメントのために使われる。
【0111】
発話信号は、約20msの時間的セグメントにおいて静的であると考えられてもよい。特に、発話信号のスペクトル包絡は、約20msの時間的セグメントにおいて静的であると考えられてもよい。そのような20msセグメントについて変換領域において意味のある統計量を導出できるためには、変換ベースの発話エンコーダ100に、変換係数の(たとえば5msの長さをもつ)諸短ブロック131を提供することが有用でありうる。そうすることにより、複数の短ブロック131は、たとえば20msの時間セグメント(たとえば長ブロックの時間セグメント)に関して統計を導出するために使用されることができる。さらに、これは、発話信号について十分な時間分解能を提供する利点がある。
【0112】
よって、変換ユニットは、入力オーディオ信号の現在セグメントが発話に分類される場合には、変換係数の短ブロック131を提供するよう構成されていてもよい。エンコーダ100は、ブロック131の集合132と称される変換係数の複数のブロック131を抽出するよう構成されたフレーミング・ユニット101を有していてもよい。ブロックの集合132はフレームと称されてもよい。例として、ブロック131の集合132は、256個の変換係数の四つの短ブロックを含んでいてもよく、それにより入力オーディオ信号の約20msのセグメントをカバーする。
【0113】
ブロックの集合132は、包絡推定ユニット102に提供されてもよい。包絡推定ユニット102は、ブロックの集合132に基づいて包絡133を決定するよう構成されていてもよい。包絡133は、ブロックの集合132内に含まれる複数のブロック131の対応する変換係数の二乗平均平方根(RMS)値に基づいていてもよい。ブロック131は典型的には、対応する複数の周波数ビン301(
図21a参照)において複数の変換係数(たとえば256個の変換係数)を与える。複数の周波数ビン301は、複数の周波数帯域302にグループ化されてもよい。複数の周波数帯域302は、音響心理学的考察に基づいて選択されてもよい。例として、周波数ビン301は、対数スケールまたはバーク・スケールに従って周波数帯域302にグループ化されてもよい。ブロックの現在集合132に基づいて決定された包絡134は、それぞれ複数の周波数帯域302についての複数のエネルギー値を含んでいてもよい。特定の周波数帯域302についての特定のエネルギー値は、その特定の周波数帯302内にはいる周波数ビン301に対応する、集合132の諸ブロック131の変換係数に基づいて決定されてもよい。特定のエネルギー値は、これらの変換係数のRMS値に基づいて決定されてもよい。よって、ブロックの現在の集合132についての包絡133(現在の包絡133とも称される)は、ブロックの現在集合132内に含まれる変換係数の諸ブロック131の平均包絡を示してもよく、あるいは包絡133を決定するために使われる変換係数の諸ブロック132の平均包絡を示してもよい。
【0114】
現在の包絡133が、ブロックの現在集合132に隣接する変換係数の一つまたは複数のさらなるブロック131に基づいて決定されてもよいことを注意しておくべきである。これは
図20において示されている。そこでは、現在の包絡133(量子化された現在の包絡134によって示される)がブロックの現在集合132の諸ブロック131に基づき、かつブロックの現在集合132に先行するブロックの集合からのブロック201に基づいて決定される。図示した例では、現在の包絡133は、五つのブロック131に基づいて決定される。現在の包絡133を決定するときに隣接するブロックを考慮に入れることにより、ブロックの隣接する諸集合132の諸包絡の連続性が保証されうる。
【0115】
現在の包絡133を決定するとき、異なるブロック131の変換係数が重み付けされてもよい。特に、現在の包絡133を決定するために考慮に入れられた最も外側のブロック201、202は、残りのブロック131より低い重みを有していてもよい。例として、最も外側のブロック201、202の変換係数は、0.5で重み付けされてもよく、他のブロック131の変換係数は1で重み付けされてもよい。
【0116】
ブロックの先行する集合132の諸ブロック201を考慮するのと同様の仕方で、ブロックの直後の集合132の一つまたは複数のブロック(いわゆる先読みブロック)が、現在の包絡133を決定するために考慮されてもよいことを注意しておくべきである。
【0117】
現在の包絡133のエネルギー値は、対数スケールで(たとえばdBスケールで)表わされてもよい。現在の包絡133は、現在の包絡133のエネルギー値を量子化するよう構成されている包絡量子化ユニット103に提供されてもよい。包絡量子化ユニット103は、所定の量子化器分解能、たとえば3dBの分解能を提供してもよい。包絡133の量子化インデックスは、エンコーダ100によって生成されたビットストリーム内の包絡データ161として提供されてもよい。さらに、量子化された包絡134、すなわち包絡133の量子化されたエネルギー値を有する包絡は、補間ユニット104に提供されてもよい。
【0118】
補間ユニット104は、量子化された現在の包絡134に基づき、かつ量子化された以前の包絡135(ブロックの現在集合132の直前のブロックの集合132について決定されたもの)に基づいてブロックの現在の集合132の各ブロック131について包絡を決定するよう構成されている。補間ユニット104の動作は
図20、
図21aおよび
図21bに示されている。
図20は、変換係数の諸ブロック131のシーケンスを示している。ブロック131のシーケンスはブロックの相続く諸集合132にグループ化される。ここで、ブロックの各集合132は、量子化された包絡、たとえば量子化された現在の包絡134および量子化された以前の包絡135を決定するために使われる。
図21aは、量子化された以前の包絡135および量子化された現在の包絡134の例を示している。上記で示したように、これらの包絡は、スペクトル・エネルギー303を(たとえばdBスケールで)示していてもよい。同じ周波数帯域302についての量子化された以前の包絡135および量子化された現在の包絡134の対応するエネルギー値303が(たとえば線形補間を使って)補間されて、補間された包絡136を決定してもよい。換言すれば、ある特定の周波数帯域302の諸エネルギー値303が補間されて、その特定の周波数帯域302内の補間された包絡136のエネルギー値303を提供してもよい。
【0119】
補間された包絡136が決定され、適用されるブロックの集合は、量子化された現在の包絡134が決定されるもとになったブロックの現在の集合132とは異なることがあることを注意しておくべきである。これは
図20に示されている。
図20は、ブロックのシフトされた集合332を示している。これは、ブロックの現在の集合132に比してシフトされており、ブロックの以前の集合132のブロック3および4(それぞれ参照符号203および201によって示されている)およびブロックの現在の集合132のブロック1および2(それぞれ参照符号204および205によって示されている)を含む。実のところ、量子化された現在の包絡134に基づき、かつ量子化された以前の包絡135に基づいて決定された補間された包絡136は、ブロックの現在の集合132のブロックについての関連性に比べ、ブロックのシフトされた集合332のブロックについて増大した関連性を有することがある。
【0120】
よって、
図21bに示される補間された包絡が、ブロックのシフトされた集合332のブロック131を平坦化するために使われてもよい。これは、
図20と組み合わせて
図21bによって示されている。
図21bの補間された包絡341が
図20のブロック203に適用されてもよいこと、
図21bの補間された包絡342が
図20のブロック201に適用されてもよいこと、
図21bの補間された包絡343が
図20のブロック204に適用されてもよいこと、
図21bの補間された包絡344(図示した例ではこれは量子化された現在の包絡136に対応)が
図20のブロック205に適用されてもよいこと、が見て取れる。よって、量子化された現在の包絡134を決定するためのブロックの集合132は、補間された包絡136がそれについて決定され、補間された包絡136が(平坦化のために)それに適用されるところのブロックのシフトされた集合332とは異なることがある。特に、量子化された現在の包絡136は、ブロックのシフトされた集合332のブロック203、201、204、205に関してある種の先読みを使って決定されてもよい。これらのブロックは、量子化された現在の包絡134を使って平坦化される。これは、連続性の観点から有益である。
【0121】
補間された包絡136を決定するためのエネルギー値303の補間は、
図21bに示される。量子化された以前の包絡135のエネルギー値から量子化された現在の包絡134の対応するエネルギー値の間の補間により、補間された包絡136のエネルギー値が、ブロックのシフトされた集合332の諸ブロック131について決定されうることが見て取れる。特に、シフトされた集合332の各ブロック131について、補間された包絡136が決定されてもよく、それによりブロックのシフトされた集合332の複数のブロック203、201、204、205について複数の補間された包絡136を提供する。変換係数のあるブロック131(たとえば、ブロックのシフトされた集合332のブロック203、201、204、205のうちの任意のもの)の補間された包絡136は、変換係数のブロック131をエンコードするために使われてもよい。現在の包絡133の量子化インデックス161がビットストリーム内の対応するデコーダに提供されることを注意しておくべきである。結果として、対応するデコーダは、エンコーダ100の補間ユニット104と類似の仕方で前記複数の補間された包絡136を決定するよう構成されていてもよい。
【0122】
フレーミング・ユニット101、包絡推定ユニット103、包絡量子化ユニット103および補間ユニット104はブロックの集合(すなわち、ブロックの現在の集合132および/またはブロックのシフトされた集合332)に対して動作する。他方、変換係数の実際のエンコードはブロックごとに実行されてもよい。以下では、ブロックのシフトされた集合332(または変換ベースの発話エンコーダ100の他の実装において可能性としてはブロックの現在の集合132)の複数のブロック131のうちの任意のものであってよい変換係数の現在ブロック131のエンコードが参照される。
【0123】
現在ブロック131についての現在の補間された包絡136は、現在ブロック131の変換係数のスペクトル包絡の近似を提供してもよい。エンコーダ100は、事前平坦化ユニット105および包絡利得決定ユニット106を有していてもよい。これらは、現在の補間された包絡136に基づき、かつ現在ブロック131に基づいて、現在ブロック131についての調整された包絡139を決定するよう構成される。特に、現在ブロック131の平坦化された変換係数の分散が調整されるよう、現在ブロック131についての包絡利得が決定されてもよい。X(k)、k=1,…,Kは現在ブロック131の変換係数であってもよく(たとえばK=256)、E(k)、k=1,…,Kは現在の補間された包絡136の平均スペクトル・エネルギー値であってもよい(同じ周波数帯域302のエネルギー値E(k)は等しい)。包絡利得aは、平坦化された変換係数の分散
【数1】
が調整されるよう決定されてもよい。特に、包絡利得aは分散が1になるよう決定されてもよい。
【0124】
包絡利得aが、変換係数の現在ブロック131の完全な周波数範囲のサブ範囲について決定されてもよいことを注意しておく。換言すれば、包絡利得aは、周波数ビン301の部分集合のみに基づいておよび/または周波数帯域302の部分集合のみに基づいて決定されてもよい。例として、包絡利得aは、開始周波数ビン304(開始周波数ビンは0または1より大きい)より大きい諸周波数ビン301に基づいて決定されてもよい。結果として、現在ブロック131についての調整された包絡139は、包絡利得aを、開始周波数ビン304より上にある諸周波数ビン301に関連付けられた現在の補間された包絡136の平均スペクトル・エネルギー値303にのみ適用することによって決定されてもよい。よって、現在のブロック131についての調整された包絡139は、開始周波数ビン以下の諸周波数ビン301については現在の補間された包絡136に対応してもよく、開始周波数より上の諸周波数ビン301については現在の補間された包絡136を包絡利得aによりオフセットしたものに対応してもよい。これは、調整された包絡339によって
図21aに示されている(破線で示す)。
【0125】
包絡利得a 137(レベル補正利得とも称される)の、現在の補間された包絡136への適用137は、現在の補間された包絡136の調整またはオフセットに対応し、それにより
図21aに示されるように調整された包絡139が与えられる。包絡利得a 137は、利得データ162として、ビットストリーム中にエンコードされてもよい。
【0126】
エンコーダ100はさらに、包絡利得a 137に基づき、かつ現在の補間された包絡136に基づいて、調整された包絡139を決定するよう構成される包絡洗練ユニット107を有していてもよい。調整された包絡139は、変換係数のブロック131の信号処理のために使われてもよい。包絡利得a 137は、(3dBのきざみで量子化されていてもよい)現在の補間された包絡136に比べ、より高い分解能に(たとえば1dBきざみで)量子化されてもよい。よって、調整された包絡139は、包絡利得a 137の前記より高い分解能まで(たとえば、1dBきざみで)量子化されてもよい。
【0127】
さらに、包絡洗練ユニット107は、割り当て包絡138を決定するよう構成されていてもよい。割り当て包絡138は、調整された包絡139の量子化されたバージョン(たとえば3dB量子化レベルまで量子化)に対応してもよい。割り当て包絡138は、ビット割り当て目的のために使われてもよい。特に、割り当て包絡138は、――現在ブロック131のある特定の変換係数について――所定の一組の量子化器からある特定の量子化器を決定するために使われてもよい。ここで、前記特定の量子化器が、前記特定の変換係数を量子化するために使われる。
【0128】
エンコーダ100は、調整された包絡139を使って現在ブロック131を平坦化し、それにより平坦化された変換係数のブロック140を与えるよう構成されている平坦化ユニット108を有する。平坦化された変換係数のブロック140は、変換領域内で予測ループを使ってエンコードされてもよい。よって、ブロック140は、サブバンド予測器117を使ってエンコードされてもよい。予測ループは、平坦化された変換係数
【数2】
のブロック140に基づき、かつ推定された変換係数
【数3】
のブロック150に基づき、予測誤差係数Δ(k)のブロック141を決定するよう構成された差分ユニット115を有する。たとえば、
【数4】
ブロック140が平坦化された変換係数、すなわち調整された包絡139のエネルギー値303を使って正規化または平坦化された変換係数を含むという事実のため、推定された変換係数のブロック150も平坦化された変換係数の推定値を含むことを注意しておくべきである。換言すれば、差分ユニット115はいわゆる平坦化領域(flattened domain)で動作する。結果として、予測誤差係数Δ(k)のブロック141は平坦化された領域で表わされる。
【0129】
予測誤差係数Δ(k)のブロック141は、1とは異なる分散を示すことがある。エンコーダ100は、予測誤差係数Δ(k)を再スケーリングして、再スケーリングされた誤差係数のブロック142を与えるよう構成された再スケーリング・ユニット111を有していてもよい。再スケーリング・ユニット111は、再スケーリングを実行するために一つまたは複数の所定のヒューリスティック規則を利用してもよい。結果として、再スケーリングされた誤差係数のブロック142は、(予測誤差係数のブロック141に比べて)(平均で)1により近い分散を示す。これは、その後の量子化およびエンコードにとって有益であることがある。
【0130】
エンコーダ100は、予測誤差係数のブロック141または再スケーリングされた誤差係数のブロック142を量子化するよう構成された係数量子化ユニット112を有する。係数量子化ユニット112は、一組の所定の量子化器を有していてもよく、あるいはそれを利用してもよい。前記一組の所定の量子化器は、異なる精密度または異なる分解能を諸量子化器に与えてもよい。このことは、種々の量子化器321、322、323が示される
図22に示されている。種々の量子化器は異なるレベルの精度(異なるdB値によって示される)を提供しうる。前記複数の量子化器321、322、323のうちの特定の量子化器が、割り当て包絡138の特定の値に対応してもよい。よって、割り当て包絡138のエネルギー値は、前記複数の量子化器の対応する量子化器をポイントしてもよい。よって、割り当て包絡138の決定は、ある特定の誤差係数について使われるべき量子化器の選択プロセスを簡略化しうる。換言すれば、割り当て包絡138はビット割り当てプロセスを簡略化しうる。
【0131】
前記一組の量子化器は、量子化誤差をランダム化するためのディザリングを利用する一つまたは複数の量子化器322を有していてもよい。これは
図22に示されている。この図は、ディザリングされる量子化器(dithered quantizer)の部分集合324を含む所定の量子化器の第一の集合326と、ディザリングされる量子化器の部分集合325を含む所定の量子化器の第二の集合327とを示している。よって、係数量子化ユニット112は、所定の量子化器の異なる集合326、327を利用しうる。ここで、係数量子化ユニット112によって使用される所定の量子化器の集合は、予測器117によって提供されるおよび/またはエンコーダにおいておよび対応するデコーダにおいて利用可能な他のサイド情報に基づいて決定される制御パラメータ146に依存してもよい。特に、係数量子化ユニット112は、制御パラメータ146に基づいて、再スケーリングされた誤差係数のブロック142を量子化するための所定の量子化器の集合326、327を選択するよう構成されていてもよい。ここで、制御パラメータ146は、予測器117によって提供される一つまたは複数の予測パラメータに依存してもよい。前記一つまたは複数の予測器パラメータは、予測器117によって提供される推定される変換係数のブロック150の品質を示してもよい。
【0132】
量子化された誤差係数は、たとえばハフマン符号を使ってエントロピー符号化されてもよく、それによりエンコーダ100によって生成されるビットストリーム中に含められる係数データ163を与える。
【0133】
以下では、一組326の量子化器321、322、323の選択または決定に関するさらなる詳細を述べる。一組326の量子化器は、量子化器の順序付けられた集合326に対応してもよい。量子化器の順序付けられた集合326はN個の量子化器を含み、各量子化器は異なる歪みレベルに対応してもよい。よって、量子化器の集合326は、N個の可能な歪みレベルを提供しうる。集合326の量子化器は、歪みの降順に従って(あるいは等価だがSNRの昇順に従って)順序付けされてもよい。さらに、量子化器は、整数ラベルでラベル付けされてもよい。例として、量子化器は0,1,2などとラベル付けされてもよい。ここで、整数ラベルの増大はSNRの増大を示してもよい。
【0134】
量子化器の集合326は、二つの連続する量子化器の間のSNRギャップが少なくともほぼ一定であるようなものであってもよい。たとえば、ラベル「1」をもつ量子化器のSNRは1.5dBであってもよく、ラベル「2」をもつ量子化器のSNRは3.0dBであってもよい。よって、量子化器の順序付けられた集合326の量子化器は、第一の量子化器から隣接する第二の量子化器に変わることによって、第一および第二の量子化器のすべての対について、SNR(信号対雑音比)が実質的に一定値(たとえば1.5dB)だけ増大するようなものであってもよい。
【0135】
量子化器の集合326は、次の量子化器を含んでいてもよい。
・ノイズ充填量子化器321。これは、0dBよりやや低いまたは0dBに等しいSNRを与えうる。該SNRはレート割り当てプロセスについては0dBと近似されてもよい。
・N
dith個の量子化器322。これは減算的ディザリングを使ってもよく、典型的には中間的なSNRレベルに対応する。(たとえばN
dith>0)
・N
cq個の古典的量子化器323。これは減算的ディザリングを使わず、典型的には比較的高いSNRレベルに対応する(たとえばN
cq>0)。ディザリングされない量子化器323はスカラー量子化器に対応しうる。
【0136】
量子化器の総数NはN=1+N
dith+N
cqによって与えられる。
【0137】
量子化器集合326の例が
図24aに示されている。量子化器の集合326のノイズ充填量子化器321はたとえば、あらかじめ定義された統計モデルに従ってランダム変数の実現を出力する乱数発生器を使って実装されてもよい。
【0138】
加えて、量子化器の集合326は、一つまたは複数のディザリングされる量子化器322を含んでいてもよい。前記一つまたは複数のディザリングされる量子化器は、
図24aに示されるように、擬似数ディザ信号602の実現を使って生成されてもよい。擬似数ディザ信号602は、擬似ランダム・ディザ値のブロック602に対応してもよい。ディザ数のブロック602は、量子化されるべき、再スケーリングされた誤差係数のブロック142の次元と同じ次元を有していてもよい。ディザ信号602(またはディザ値のブロック602)は、ディザ生成器601を使って生成されてもよい。特に、ディザ信号602は、一様に分布したランダム・サンプルを含むルックアップテーブルを使って生成されてもよい。
【0139】
図24bのコンテキストにおいて示されるように、ディザ値のブロック602の個々のディザ値632は、量子化されるべき対応する係数に(たとえば、再スケーリングされた誤差係数のブロック142の対応する再スケーリングされた誤差係数に)ディザを適用するために使われる。再スケーリングされた誤差係数のブロック142は、総数K個の再スケーリングされた誤差係数を含んでいてもよい。同様にして、ディザ値のブロック602はK個のディザ値632を含んでいてもよい。ディザ値のブロック602のk番目のディザ値632、k=1,…,Kは、再スケーリングされた誤差係数のブロック142のk番目の再スケーリングされた誤差係数に適用されてもよい。
【0140】
上記で示したように、ディザ値のブロック602は、量子化されるべき再スケーリングされた誤差係数のブロック142と同じ次元を有していてもよい。これは量子化器の集合326のすべてのディザリングされる量子化器322についてディザ値の単一のブロック602を使うことを許容するので、有益である。換言すれば、再スケーリングされた誤差係数の所与のブロック142を量子化し、エンコードするために、擬似ランダム・ディザ602は、量子化器のすべての許容可能な集合326、327について、歪みについてのすべての可能な割り当てについて、一回生成されればよい。これは、エンコーダ100と対応するデコーダの間の同期を達成することを容易にする。単一のディザ信号602の使用は対応するデコーダに明示的に信号伝達される必要がないからである。特に、エンコーダ100および対応するデコーダは、再スケーリングされた誤差係数のブロック142についてのディザ値の同じブロック602を生成するよう構成されている同じディザ生成器601を利用してもよい。
【0141】
量子化器の集合326の組成は、好ましくは、音響心理学的な考察に基づく。低レートの変換符号化は、変換係数に適用される通常の量子化方式において行なわれる逆注水(reverse-water filling)プロセスの性質によって引き起こされる、スペクトル上の穴および帯域制限を含むスペクトル・アーチファクトにつながりうる。スペクトルの穴の可聴性は、ノイズを、短期間にわたってたまたま水位より低かった、よって0ビットレートを割り当てられた周波数帯域302にノイズを注入することによって、低減されることができる。
【0142】
一般に、ディザリングされる量子化器322を用いて任意に低いビットレートを達成することが可能である。たとえば、スカラーの場合、非常に大きな量子化きざみサイズを使うことを選んでもよい。にもかかわらず、0ビットレート動作は実際上は現実的ではない。可変長符号化器と一緒に量子化器の動作を可能にするために必要とされる数値精度に対して、強い要求を課すからである。これは、0dB SNRの歪みレベルに対して、ディザリングされる量子化器322を適用するのではなく、一般的なノイズ充填量子化器321を適用する動機を与える。量子化器の提案される集合326は、ディザリングされる量子化器322が、比較的小さなきざみサイズに関連付けられている歪みレベルについて使われ、可変長符号化が、数値精度を維持することに関する問題に対処する必要なしに実装できるよう、設計される。
【0143】
スカラー量子化の場合、減算的ディザリングのある量子化器322は、ほぼ最適なMSEパフォーマンスを提供する事後利得を使って実装されてもよい。減算的にディザリングされるスカラー量子化器322の例が
図24bに示されている。ディザリングされる量子化器322は、減算的ディザリング構造内で使われる一様スカラー量子化器Q 612を有している。減算的ディザリング構造は、(再スケーリングされた誤差係数のブロック142からの)対応する誤差係数から(ディザ値のブロック602からの)ディザ値632を減算するよう構成されているディザ減算ユニット611を有する。さらに、減算的ディザリング構造は、対応するスカラー量子化された誤差係数に(ディザ値のブロック602からの)ディザ値632を加算するよう構成された対応する加算ユニット613を有する。図示した例では、ディザ減算ユニット611は、スカラー量子化器Q 612の上流に置かれ、ディザ加算ユニット613はスカラー量子化器Q 612の下流に置かれる。ディザ値のブロック602からのディザ値632は、区間[−0.5,0.5)または[0,1)からの値にスカラー量子化器612のきざみサイズをかけた値を取ってもよい。ディザリングされる量子化器322の代替的な実装では、ディザ減算ユニット611とディザ加算ユニット613は互いに交換されうることを注意しておく。
【0144】
減算的ディザリング構造には、量子化器事後利得γによって前記量子化された誤差係数を再スケーリングするよう構成されているスケーリング・ユニット614が続いてもよい。量子化された誤差係数のスケーリングのあと、量子化された誤差係数のブロック145が得られる。ディザリングされる量子化器322への入力Xは典型的には、ディザリングされた量子化器322を使って量子化されるべき特定の周波数帯域中にはいる、再スケーリングされた誤差係数のブロック142の係数に対応することを注意しておくべきである。同様にして、ディザリングされる量子化器322の出力は典型的には、その特定の周波数帯域中にはいる、量子化された誤差係数のブロック145の量子化された係数に対応する。
【0145】
ディザリングされる量子化器322への入力Xは零平均であり、入力Xの分散σ
X2=E{X
2}は既知であると想定されてもよい。(たとえば、信号の分散は、信号の包絡から決定されうる。)さらに、ディザ値632を含む擬似ランダム・ディザ・ブロックZ 602がエンコーダ100および対応するデコーダに対して利用可能であると想定されてもよい。さらに、ディザ値632は入力Xとは独立であると想定されてもよい。さまざまな異なるディザ602が使われうるが、以下では、ディザZ 602は、0とΔの間に一様に分布していると想定する。それは、U(0,Δ)によって表わされてもよい。実際には、いわゆるSchuchman条件を満たすいかなるディザが使用されてもよい(たとえば、[−0.5,05.)かけるスカラー量子化器612のきざみサイズΔの間に一様に分布しているディザ602)。
【0146】
量子化器Q 612は、格子〔ラティス〕であってもよく、そのボロノイ・セルの広がりはΔであってもよい。この場合、ディザ信号は使用されるラティスのボロノイ・セルの広がりにわたって一様分布をもつことになる。
【0147】
量子化器事後利得γは、信号の分散および量子化きざみサイズが当てられて導出されうる。ディザ量子化器は、任意のきざみサイズ(すなわちビットレート)について解析的に扱えるからである。特に、事後利得は、減算的ディザをもつ量子化器のMSEパフォーマンスを改善するよう導出されてもよい。事後利得は次式によって与えられてもよい。
【0148】
【数5】
たとえ事後利得γの適用によってディザリングされる量子化器322のMSEパフォーマンスが改善されうるとしても、ディザリングされる量子化器322は典型的には、ディザリングなしの量子化器より低いMSEパフォーマンスをもつ(このパフォーマンス損失はビットレートが増すと消失するが)。結果として、一般に、ディザリングされる量子化器は、ディザリングされないバージョンよりノイズが多い。よって、ディザリングされる量子化器322の使用がディザリングされる量子化器322の知覚的に有益なノイズ充填属性によって正当化されるときにのみ、ディザリングされる量子化器322を使うことが望ましいことがありうる。
【0149】
よって、三つの型の量子化器を含む量子化器の集合326が提供されてもよい。順序付けられた量子化器集合326は、単一のノイズ充填量子化器321と、減算的ディザリングのある一つまたは複数の量子化器322と、一つまたは複数の古典的な(ディザリングされない)量子化器323を含んでいてもよい。連続する量子化器321、322、323はSNRに対して段階的な改善を提供しうる。量子化器の順序付けられた集合326の隣り合う一対の量子化器の間の段階的な改善は、隣り合う量子化器の対の一部または全部について実質的に一定であってもよい。
【0150】
量子化器の特定の集合326は、ディザリングされる量子化器322の数によって、かつ特定の集合326内に含まれるディザリングされない量子化器323の数によって定義されてもよい。さらに、量子化器の特定の集合326は、ディザ信号602の特定の実現によって定義されてもよい。集合326は、変換係数の知覚的に効率的な量子化を提供するために設計されてもよく、0レート・ノイズ充填(0dBよりわずかに低いまたは0dBに等しいSNRを与える);中間的な歪みレベル(中間的なSNR)での減算的ディザリングによるノイズ充填;および低歪みレベル(高いSNR)でのノイズ充填の欠如を与える。集合326は、レート割り当てプロセスの間に選択されうる一組の許容可能な量子化器を提供する。量子化器の集合326からの特定の量子化器の、ある特定の周波数帯域302の係数への適用は、レート割り当てプロセスの間に決定される。特定の周波数帯域302の係数を量子化するためにどの量子化器が使われるかは典型的には事前には知られていない。しかしながら、典型的には、量子化器の集合326の組成がどうなっているかは事前に知られている。
【0151】
誤差係数のブロック142の異なる周波数帯域302について異なる型の量子化器を使う側面が
図24cに示されている。ここでは、レート割り当てプロセスの例示的な帰結が示されている。この例では、レート割り当てはいわゆる逆注水原理に従うと想定される。
図24cは、入力信号のスペクトル625(または量子化されるべき係数のブロックの包絡線)を示している。周波数帯域623が比較的高いスペクトル・エネルギーをもち、比較的低い歪みレベルを与える古典的量子化器323を使って量子化されることが見て取れる。周波数帯域622は水レベル624より上のスペクトル・エネルギーを示す。これらの周波数帯域622における係数は、中程度の歪みレベルを与えるディザリングされる量子化器322を使って量子化されてもよい。周波数帯域621は水レベル624より下のスペクトル・エネルギーを示す。これらの周波数帯域621における係数は、0レートのノイズ充填を使って量子化されてもよい。(スペクトル625によって表わされる)係数の特定のブロックを量子化するために使われる異なる量子化器は、その特定の係数ブロックについて決定された、量子化器の特定の集合326の一部であってもよい。
【0152】
よって、三つの異なる型の量子化器321、322、323は選択的に適用されてもよい(たとえば、周波数に関して選択的に)。特定の型の量子化器の適用についての決定は、下記で述べるレート割り当て手順のコンテキストにおいて決定されてもよい。レート割り当て手順は、入力信号のRMS包絡から(またはたとえば信号のパワースペクトル密度から)導出できる知覚的基準を利用してもよい。特定の周波数帯域302において適用される量子化器の型は、対応するデコーダに明示的に信号伝達される必要がない。量子化器の選択された型を信号伝達する必要性がなくなるのは、対応するデコーダが、入力信号のブロックを量子化するために使われた量子化器の特定の集合326を、根底にある知覚的基準(たとえば割り当て包絡138)から、量子化器の集合の所定の組成(たとえば、量子化器の種々の集合の所定のセット)からおよび単一のグローバルなレート割り当てパラメータ(オフセット・パラメータとも称される)から決定できるからである。
【0153】
エンコーダ100によって使用された量子化器の集合326のデコーダにおける決定は、量子化器の集合326を、量子化器がその歪み(たとえばSNR)に従って順序付けられるように設計することによって容易にされる。集合326の各量子化器は、一定値だけ直前の量子化器の歪みを減少させてもよい(SNRを洗練してもよい)。さらに、量子化器の特定の集合326は、レート割り当てプロセス全体の間、擬似ランダム・ディザ信号602の単一の実現に関連付けられていてもよい。この結果として、レート割り当て手順の帰結は、ディザ信号602の実現に影響しない。これは、レート割り当て手順の収束を保証するために有益である。さらに、これは、デコーダがディザ信号602の単一の実現を知っている場合にデコーダがデコードを実行することを可能にする。デコーダは、エンコーダ100においてと対応するデコーダにおいてとで同じ擬似ランダム・ディザ生成器601を使うことによって、ディザ信号602の実現を知らされてもよい。
【0154】
上記で示したように、エンコーダ100は、ビット割り当てプロセスを実行するよう構成されていてもよい。この目的のために、エンコーダ100は、ビット割り当てユニット109、110を有していてもよい。ビット割り当てユニット109は、再スケーリングされた誤差係数の現在ブロック142をエンコードするために利用可能である総ビット数143を決定するよう構成されていてもよい。総ビット数143は、割り当て包絡138に基づいて決定されてもよい。ビット割り当てユニット110は、割り当て包絡138における対応するエネルギー値に依存して、種々の再スケーリングされた誤差係数へのビットの相対的な割り当てを提供するよう構成されていてもよい。
【0155】
ビット割り当てプロセスは、逐次反復的な割り当て手順を利用してもよい。割り当て手順の過程で、割り当て包絡138は、オフセット・パラメータを使ったオフセットされてもよい。それにより、増大/減少した分解能をもつ量子化器が選択される。よって、オフセット・パラメータは、全体的な量子化を洗練するまたは粗くするために使われてもよい。オフセット・パラメータは、オフセット・パラメータおよび割り当て包絡138によって与えられる量子化器を使って得られる係数データ163が、現在ブロック131に割り当てられた総ビット数143に対応する(またはそれを超えない)ビット数を含むように決定されてもよい。現在ブロック131をエンコードするためにエンコーダ100によって使われたオフセット・パラメータは、係数データ163としてビットストリーム中に含められる。結果として、対応するデコーダは、再スケーリングされた誤差係数のブロック142を量子化するために係数量子化ユニット112によって使用された量子化器を決定することができるようにされる。
【0156】
よって、レート割り当てプロセスは、エンコーダ100において実行されてもよく、知覚的モデルに従って利用可能なビット143を分配することをねらいとする。知覚的モデルは、変換係数のブロック131から導出された割り当て包絡138に依存してもよい。レート割り当てアルゴリズムは利用可能なビット143を、異なる型の量子化器、すなわち0レートのノイズ充填321、前記一つまたは複数のディザリングされる量子化器322および前記一つまたは複数の古典的なディザリングされない量子化器323の間で分配する。スペクトルの特定の周波数帯域302の係数を量子化するために使われる量子化器の型についての最終的な決定は、知覚的信号モデル、擬似ランダム・ディザの実現およびビットレート制約条件に依存しうる。
【0157】
対応するデコーダでは、ビット割り当て(割り当て包絡138およびオフセット・パラメータによって示される)は、無損失のデコードを容易にするために、量子化インデックスの確率を計算するために使われてもよい。量子化インデックスの確率の計算方法であって、フル帯域擬似ランダム・ディザ602の実現、単一の包絡138およびレート割り当てパラメータ(すなわちオフセット・パラメータ)によってパラメータ化される知覚的モデルの使用を用いるものが使われてもよい。割り当て包絡138、オフセット・パラメータおよびディザ値のブロック602に関する知識を使って、デコーダにおける量子化器の集合326の組成が、エンコーダ100において使われた集合326と同期しうる。
【0158】
上記で概説したように、ビットレート制約条件は、フレーム当たりの最大許容されるビット数143を用いて指定されてもよい。これはたとえば、たとえばハフマン符号を使ってその後、エントロピー符号化される量子化インデックスに適用される。特に、これは、一時に単一のパラメータが量子化される、逐次的な仕方でビットストリームが生成される符号化シナリオにおいて適用され、対応する量子化インデックスがバイナリー符号語に変換されてビットストリームにアペンドされる。
【0159】
算術符号化(または範囲符号化)が使われている場合、原理は異なる。算術符号化のコンテキストでは、典型的には量子化インデックスの長いシーケンスに単一の符号語が割り当てられる。ビットストリームの特定の部分をある特定のパラメータと厳密に関連付けることは、典型的には可能ではない。特に、算術符号化のコンテキストでは、信号のランダムな実現をエンコードするために必要とされるビット数は典型的には未知である。これは、たとえ信号の統計モデルが既知であったとしても成り立つ。
【0160】
上述した技術的課題に対処するために、算術符号化器をレート割り当てアルゴリズムの一部とすることが提案される。レート割り当てプロセスの間に、エンコーダは一つまたは複数の周波数帯域302の係数の集合を量子化し、エンコードしようとする。そのようなすべての試行について、算術符号化器の状態の変化を観察し、(ビット数を計算する代わりに)ビットストリーム中で進む位置の数を計算することが可能である。最大ビットレート制約条件が設定されている場合、この最大ビットレート制約条件は、レート割り当て手順において使用されてもよい。算術符号の終端ビット(termination bits)のコストは、最後の符号化されたパラメータのコストに含められてもよく、一般に、終端ビットのコストは算術符号化器の状態に依存して変わる。にもかかわらず、ひとたび終端コストが利用可能になれば、前記一つまたは複数の周波数帯域302の係数の集合に対応する量子化インデックスをエンコードするために必要とされるビット数を決定することができる。
【0161】
算術符号化のコンテキストでは、ディザ602の単一の実現が(係数の特定のブロック142の)レート割り当てプロセス全体について使用されてもよいことを注意しておくべきである。上記で概説したように、算術符号化器は、レート割り当て手順内で特定の量子化器選択のビットレート・コストを推定するために使われてもよい。算術符号化器の状態の変化が観察されてもよく、状態変化が、量子化を実行するために必要とされるビット数を計算するために使われてもよい。さらに、算術符号の終端のプロセスが、レート割り当てプロセス内で使われてもよい。
【0162】
上記で示したように、量子化インデックスは、算術符号またはエントロピー符号を使ってエンコードされてもよい。量子化インデックスがエントロピー符号化される場合、個々の量子化インデックスまたは量子化インデックスのグループに可変長の符号語を割り当てるために、量子化インデックスの確率分布が考慮に入れられてもよい。ディザリングの使用は、量子化インデックスの確率分布に対する影響をもつことがある。特に、ディザ信号602の特定の実現は、量子化インデックスの確率分布に影響をもつことがある。ディザ信号602の実現の事実上無制限の数のため、一般的な場合において、符号語確率は事前に知られてはおらず、ハフマン符号化を使うことは可能ではない。
【0163】
可能なディザ実現の数を、ディザ信号602の実現の比較的小さい、扱える程度の集合にまで減らすことが可能であることが発明者によって観察された。例として、各周波数帯域302について、ディザ値の限られた集合が提供されてもよい。この目的のために、エンコーダ100(および対応するデコーダ)は、M個の所定のディザ実現のうちの一つを選択することによってディザ信号602を生成するよう構成された離散的ディザ生成器801を有していてもよい(
図26参照)。例として、M個の異なる所定のディザ実現は、すべての周波数帯域302について使用されてもよい。所定のディザ実現の数はM<5であってもよい(たとえばM=4またはM=3)。
【0164】
ディザ実現の限られた数Mのため、各ディザ実現について(可能性としては多次元の)ハフマン・コードブックをトレーニングすることが可能である。それにより、M個のコードブックの集合603が与えられる。エンコーダ100は、選択されたディザ実現に基づいて、M個の所定のコードブックの集合803のうちの一つを選択するよう構成されているコードブック選択ユニット802を有していてもよい。そうすることにより、エントロピー符号化がディザ生成と同期していることが保証される。選択されたコードブック811は、選択されたディザ実現を使って量子化された個々の量子化インデックスまたは量子化インデックスのグループをエンコードするために使われてもよい。結果として、ディザリングされる量子化器を使うときエントロピー符号化のパフォーマンスが改善されることができる。
【0165】
所定のコードブックの集合803および離散的ディザ生成器801は、(
図26に示されるように)対応するデコーダにおいても使用されてもよい。擬似ランダム・ディザが使われる場合、およびデコーダがエンコーダ100と同期したままである場合、デコードは実現可能である。この場合、デコーダにおいて離散的ディザ生成器801はディザ信号602を生成し、特定のディザ実現はコードブックの集合803から特定のハフマン・コードブック811に一意的に関連付けられている。音響心理学的モデル(たとえば、割り当て包絡138およびレート割り当てパラメータによって表わされる)および選択されたコードブック811を与えられて、デコーダはハフマン・デコーダ551を使ったデコードを実行し、デコードされた量子化インデックス812を与えることができる。
【0166】
よって、算術符号化の代わりに、ハフマン・コードブックの比較的小さな集合803が使われてもよい。ハフマン・コードブックの集合813からの特定のコードブック811の使用は、ディザ信号602の所定の実現に依存してもよい。同時に、M個の所定のディザ実現を形成する許容可能なディザ値の限られた集合が使われてもよい。その際、レート割り当てプロセスは、ディザリングされない量子化器、ディザリングされる量子化器およびハフマン符号化の使用に関わっていてもよい。
【0167】
再スケーリングされた誤差係数の量子化の結果として、量子化された誤差係数のブロック145が得られる。量子化された誤差係数のブロック145は、対応するデコーダにおいて利用可能な誤差係数のブロックに対応する。結果として、量子化された誤差係数のブロック145は推定された変換係数のブロック150を決定するために使用されうる。エンコーダ100は、再スケーリング・ユニット113によって実行された再スケーリング動作の逆を実行して、それによりスケーリングされた量子化された誤差係数のブロック147を与えるよう構成された逆再スケーリング・ユニット113を有していてもよい。推定された変換係数のブロック150をスケーリングされた量子化された誤差係数のブロック147に加えることによって、再構成された平坦化された係数のブロック148を決定するために、加算ユニット116が使われてもよい。さらに、再構成された平坦化された係数のブロック148に調整された包絡139を適用し、それにより再構成された係数のブロック149を与えるために、逆平坦化ユニット114が使われてもよい。再構成された係数のブロック149は、対応するデコードにおいて利用可能な変換係数のブロック131のバージョンに対応する。結果として、再構成された係数のブロック149は、予測器117において、推定された係数のブロック150を決定するために使われてもよい。
【0168】
再構成された係数のブロック149は、平坦化されていない領域で表現されている。すなわち、再構成された係数のブロック149は、現在ブロック131のスペクトル包絡をも表わす。下記で概説するように、これは、予測器117のパフォーマンスにとって有益であることがある。
【0169】
予測器117は、再構成された係数の一つまたは複数の以前のブロック149に基づいて、推定された変換係数のブロック150を推定するよう構成されていてもよい。特に、予測器117は、所定の予測誤差基準が低減される(たとえば最小化される)よう一つまたは複数の予測器パラメータを決定するよう構成されていてもよい。例として、前記一つまたは複数の予測器パラメータは、予測誤差係数のブロック141のエネルギーまたは知覚的に重み付けされたエネルギーが低減される(たとえば最小化される)よう決定されてもよい。前記一つまたは複数の予測器パラメータは、予測器データ164として、エンコーダ100によって生成されるビットストリーム中に含められてもよい。
【0170】
予測器117は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において記述されているような信号モデルを利用してもよい。前記一つまたは複数の予測器パラメータは、信号モデルの一つまたは複数のモデル・パラメータに対応してもよい。
【0171】
図19bは、さらなる例示的な変換ベースの発話エンコーダ170のブロック図を示している。
図19bの変換ベースの発話エンコーダ170は、
図19aのエンコーダ100のコンポーネントの多くを有するが、
図19bの変換ベースの発話エンコーダ170は可変ビットレートをもつビットストリームを生成するよう構成されている。この目的のために、エンコーダ170は、先行する諸ブロック131によってすでに使用されたビットレートを追跡するよう構成された平均ビットレート(ABR)状態ユニット172を有する。ビット割り当てユニット171は、変換係数の現在ブロック131をエンコードするために利用可能な総ビット数143を決定するためにこの情報を使う。
【0172】
以下では、対応する変換ベースの発話デコーダ500が
図23aないし23dのコンテキストにおいて記述される。
図23aは、例示的な変換ベースの発話デコーダ500のブロック図を示している。ブロック図は、再構成された係数のブロック149を変換領域から時間領域に変換し、それによりデコードされたオーディオ信号のサンプルを与えるために使われる合成フィルタバンク504(逆変換ユニットとも称される)を示している。合成フィルタバンク504は、所定のストライド(たとえば、約5msまたは256サンプルのストライド)をもつ逆MDCTを利用してもよい。
【0173】
デコーダ500の主ループは、このストライドの単位で動作する。各ステップは、システムの所定の帯域幅設定に対応する長さまたは次元をもつ変換領域ベクトル(ブロックとも称される)を生成する。合成フィルタバンク504の変換サイズにするゼロ・パディングに際し、変換領域ベクトルは、合成フィルタバンク504の重複/加算プロセスへの所定の長さ(たとえば5ms)の時間領域信号更新を合成するために使われる。
【0174】
上記で示したように、一般的な変換ベースのオーディオ・コーデックは、典型的には、過渡成分の扱いのための5ms範囲の短ブロックのシーケンスをもつ諸フレームを用いる。よって、一般的な変換ベースのオーディオ・コーデックは、短ブロックおよび長ブロックのシームレスな共存のための必要な変換および窓切り換えツールを提供する。したがって、
図23aの合成フィルタバンク504を省略することによって定義される声スペクトル・フロントエンドは、追加的な切り換えツールを導入する必要なしに、汎用の変換ベースのオーディオ・コーデックに便利に統合されうる。換言すれば、
図23aの変換ベースの発話デコーダ500は、一般的な変換ベースのオーディオ・デコーダと便利に組み合わされてもよい。特に、
図23aの変換ベースの発話デコーダ500は、一般的な変換ベースのオーディオ・デコーダ(たとえばAACまたはHE-AACデコーダ)によって提供される合成フィルタバンク504を利用してもよい。
【0175】
はいってくるビットストリームから(特にビットストリーム内に含まれる包絡データ161からおよび利得データ162から)、包絡デコーダ503によって、信号包絡が決定されてもよい。特に、包絡デコーダ503は、包絡データ161および利得データ162に基づいて、調整された包絡139を決定するよう構成されてもよい。よって、包絡デコーダ503は、エンコーダ100、170の補間ユニット104および包絡洗練ユニット107と同様のタスクを実行してもよい。上記で概説したように、調整された包絡109は、あらかじめ定義された周波数帯域302の集合における信号分散のモデルを表わす。
【0176】
さらに、デコーダ500は、調整された包絡139を、名目上分散1であってもよい要素をもつ平坦化領域ベクトルに適用するよう構成されている逆平坦化ユニット114を有する。平坦化領域ベクトルは、エンコーダ100、170のコンテキストにおいて記述された再構成された平坦化された係数のブロック148に対応する。逆平坦化ユニット114の出力において、再構成された係数のブロック149が得られる。再構成された係数のブロック149は、(デコードされたオーディオ信号を生成するための)合成フィルタバンク504およびサブバンド予測器517に与えられる。
【0177】
サブバンド予測器517は、エンコーダ100、170の予測器117と同様の仕方で動作する。特に、サブバンド予測器517は、(ビットストリーム内で信号伝達される前記一つまたは複数の予測器パラメータを使って)再構成された係数の一つまたは複数の以前のブロック149に基づいて、(平坦化された領域における)推定された変換係数のブロック150を決定するよう構成されている。換言すれば、サブバンド予測器517は、予測器ラグおよび予測器利得のような予測器パラメータに基づいて、以前にデコードされた出力ベクトルおよび信号包絡のバッファから、予測された平坦化領域ベクトルを出力するよう構成されている。デコーダ500は、予想器データ164をデコードして前記一つまたは複数の予測器パラメータを決定するよう構成された予測器デコーダ501を有する。
【0178】
デコーダ500はさらに、典型的にはビットストリームの最大の部分に基づいて(すなわち、係数データ163に基づいて)予測された平坦化領域ベクトルに加算的補正を備えるよう構成されているスペクトル・デコーダ502を有する。スペクトル・デコード・プロセスは、前記包絡および伝送された割り当て制御パラメータ(オフセット・パラメータとも称される)から導出される割り当てベクトルによって主として制御される。
図23aに示されるように、スペクトル・デコーダ502の予測器パラメータ520への直接的な依存性があってもよい。よって、スペクトル・デコーダ502は、受領された係数データ163に基づいてスケーリングされた量子化された誤差係数のブロック147を決定するよう構成されていてもよい。エンコーダ100、170のコンテキストで概説したように、再スケーリングされた誤差係数のブロック142を量子化するために使われる量子化器321、322、323は、典型的には、割り当て包絡138(これは調整された包絡139から導出できる)およびオフセット・パラメータに依存する。さらに、量子化器321、322、323は、予測器117によって提供される制御パラメータに依存してもよい。制御パラメータ146は、(エンコーダ100、170と類似の仕方で)予測器パラメータ520を使ってデコーダ500によって導出されてもよい。
【0179】
上記で示したように、受領されるビットストリームは、包絡データ161および利得データ162を含み、これは調整された包絡139を決定するために使用されうる。特に、包絡デコーダ503のユニット531は、包絡データ161から、量子化された現在の包絡134を決定するよう構成されていてもよい。例として、量子化された現在の包絡134は、(
図21aに示されるように)あらかじめ定義された周波数帯域302における3dBの分解能を有していてもよい。量子化された現在の包絡134は、ブロックの集合132、332毎に(たとえば四つの符号化単位、すなわちブロック毎に、あるいは20ms毎に)、特にブロックのシフトされた集合332毎に更新されてもよい。量子化された現在の包絡134の周波数帯域302は、人間の聴覚の属性に適合するために、周波数の関数として、周波数ビン301の増大する数を有していてもよい。
【0180】
量子化された現在の包絡134は、ブロックのシフトされた集合332の(あるいは可能性としてはブロックの現在の集合132の)各ブロック131について、量子化された以前の包絡135から補間された包絡136に、線形に補間されてもよい。補間された包絡136は、量子化された3dB領域で決定されてもよい。これは、補間されたエネルギー値303が最も近い3dBレベルに丸められてもよいことを意味する。例示的な補間された包絡136は
図21aの点線のグラフによって示されている。各量子化された現在の包絡134について、四レベルの補正利得a 137(包絡利得とも称される)が利得データ162として提供される。利得デコード・ユニット532は、利得データ162からレベル補正利得a 137を決定するよう構成されていてもよい。レベル補正利得は、1dBきざみで量子化されてもよい。各レベル補正利得は、種々のブロック131について調整された包絡139を提供するために対応する補間された包絡136に適用される。レベル補正利得137の増大した分解能のため、調整された包絡139は増大した分解能(たとえば1dB分解能)をもつことがある。
【0181】
図21bは、量子化された以前の包絡135と量子化された現在の包絡134との間の例示的な線形または幾何的補間を示している。包絡135、134は、対数スペクトルの平均レベル部分および形状部分に分離されてもよい。これらの部分は、線形、幾何的または調和的(並列な抵抗器)戦略のような独立な戦略を用いて補間されてもよい。よって、補間された包絡136を決定するために種々の補間方式が使用されうる。デコーダ500によって使われる補間方式は典型的には、エンコーダ100、170によって使われた補間方式に対応する。
【0182】
包絡デコーダ503の包絡洗練ユニット107は、調整された包絡139を(たとえば3dBきざみに)量子化することによって、調整された包絡139から割り当て包絡138を決定するよう構成されていてもよい。割り当て包絡138は、割り当て制御パラメータまたはオフセット・パラメータ(係数データ163内に含まれる)との関連で使われて、スペクトル・デコード、すなわち係数データ163のデコードを制御するために使用される名目整数割り当てベクトルを生成してもよい。特に、名目整数割り当てベクトルは、係数データ163内に含まれる量子化インデックスを逆量子化するための量子化器を決定するために使われてもよい。割り当て包絡138および名目整数割り当てベクトルは、エンコーダ100、170においてとデコーダ500においてとで類似の仕方で決定されてもよい。
【0183】
図27は、割り当て包絡138に基づく例示的なビット割り当てプロセスを示している。上記で概説したように、割り当て包絡138は、所定の分解能(たとえば3dB分解能)に従って量子化されてもよい。割り当て包絡138の各量子化されたスペクトル・エネルギー値は対応する整数値に割り当てられてもよい。ここで、隣接する整数値は、所定の分解能(たとえば3dB分解能)に対応するスペクトル・エネルギーにおける差を表わしていてもよい。結果として得られる整数の集合は、整数割り当て包絡1004(iEnvと称する)と称されてもよい。整数割り当て包絡1004は、オフセット・パラメータによってオフセットされて、名目整数割り当てベクトル(iAllocと称される)を与えてもよい。このiAllocが、特定の周波数帯域302(周波数帯域インデックスbandIdxによって同定される)の係数を量子化するために使われるべき量子化器の直接的な指示を与える。
【0184】
図27は、描画1003において、整数割り当て包絡1004を周波数帯域302の関数として示している。周波数帯域1002(bandIdx=7)について、整数割り当て包絡1004が整数値−17を取ることが見て取れる(iEnv[7]=−17)。整数割り当て包絡1004は、ある最大値(iMaxと称される;たとえばiMax=−15)に制限されてもよい。ビット割り当てプロセスは、整数割り当て包絡1004およびオフセット・パラメータ(AllocOffsetと称される)の関数として量子化器インデックス1006(iAlloc[bandIdx]と称される)を与えるビット割り当て公式を利用してもよい。上記で概説したように、オフセット・パラメータ(すなわち、AllocOffset)は対応するデコーダ500に伝送され、それにより、デコーダ500がビット割り当て公式を使って量子化器インデックス1006を決定できるようにする。ビット割り当て公式は
iAlloc[bandIdx]=iEnv[bandIdx]−(iMax−CONSTANT_OFFSET)+AllocOffset
によって与えられてもよい。ここで、CONSTANT_OFFSETは一定のオフセットであってもよく、たとえばCONSTANT_OFFSET=20である。例として、ビット割り当てプロセスが、ビットレート制約条件がオフセット・パラメータAllocOffset=−13を使って達成できると判定したとすると、七番目の周波数帯域の量子化器インデックス1007はiAlloc[7]=−17−(−15−20)−13=5として得られうる。上述したビット割り当て公式をすべての周波数帯域302について使うことによって、すべての周波数帯域302についての量子化器インデックス1006(および結果として量子化器321、322、323)が決定されうる。0より小さい量子化器インデックスは量子化器インデックス0に丸められてもよい。同様に、最大の利用可能な量子化器インデックスより大きい量子化器インデックスは、最大の利用可能な量子化器インデックスまで丸められてもよい。
【0185】
さらに、
図27は、本稿に記載される量子化方式を使って達成されうる例示的なノイズ包絡1011を示している。ノイズ包絡1011は、量子化の間に導入される量子化ノイズの包絡を示している。(
図27において整数割り当て包絡1004によって表わされる)信号包絡と一緒にプロットされたら、ノイズ包絡1011は、量子化ノイズの分布が信号包絡に関して知覚的に最適化されているという事実を示す。
【0186】
デコーダ500が受領されたビットストリームと同期できるようにするために、種々の型のフレームが伝送されうる。フレームは、ブロックの集合132、332、特にブロックのシフトされたブロック332に対応しうる。特に、以前のフレームに対して相対的な仕方でエンコードされる、いわゆるPフレームが伝送されてもよい。上記において、デコーダ500は量子化された以前の包絡135を知っていることが想定された。量子化された以前の包絡135は以前のフレーム内で与えられてもよく、よって、現在の集合132または対応するシフトされた集合332がPフレームに対応しうる。しかしながら、スタートアップ・シナリオでは、デコーダ500は典型的には量子化された以前の包絡135を知らない。この目的のために、(たとえばスタートアップ時にまたは定期的に)Iフレームが伝送されてもよい。Iフレームは二つの包絡を含んでいてもよく、その一方が量子化された以前の包絡135として使われ、他方が量子化された現在の包絡134として使われる。Iフレームは、声スペクトル・フロントエンドの(すなわち、変換ベースの発話デコーダ500の)スタートアップの場合のために、たとえば異なるオーディオ符号化モードを用いるフレームに続くときに、および/またはオーディオ・ビットストリームの接合点を明示的に可能にするためのツールとして、使われてもよい。
【0187】
サブバンド予測器517の動作が
図23dに示されている。図示した例では、予測器パラメータ520はラグ・パラメータおよび予測器利得パラメータgである。予測器パラメータ520は、ラグ・パラメータおよび予測器利得パラメータについての可能な値の所定のテーブルを使って、予測器データ164から決定されてもよい。これは、予測器パラメータ520のビットレート効率のよい伝送を可能にする。
【0188】
前記一つまたは複数の以前にデコードされた変換係数ベクトル(すなわち、再構成された係数の前記一つまたは複数の以前のブロック149)は、サブバンド(またはMDCT)信号バッファ541内に記憶されてもよい。バッファ541は、ストライドに従って(たとえば5ms毎に)更新されてもよい。予測器抽出器543は、規格化されたラグ・パラメータTに依存してバッファ541に対して作用するよう構成されていてもよい。規格化されたラグ・パラメータTは、ラグ・パラメータ520をストライド単位に(たとえばMDCTストライド単位に)規格化することによって決定されてもよい。ラグ・パラメータTが整数であれば、抽出器543は、T時間単位バッファ541にはいったところの一つまたは複数の以前にデコードされた変換係数ベクトルを取ってきてもよい。換言すれば、ラグ・パラメータTは、再構成された係数の前記一つまたは複数の以前のブロック149のうちのどれが推定される変換係数のブロック150を決定するために使われるかを示してもよい。抽出器543の可能な実装に関する詳細な議論は、その内容が参照によって組み込まれる特許出願US61750052およびその優先権を主張する諸特許出願において提供されている。
【0189】
抽出器543は、フル信号包絡を担持するベクトル(またはブロック)に対して作用してもよい。他方、(サブバンド予測器517によって与えられる)推定された変換係数のブロック150は、平坦化された領域で表わされてもよい。結果的に、抽出器543の出力は、平坦化領域ベクトルに整形されてもよい。これは、再構成された係数の前記一つまたは複数の以前のブロック149の調整された包絡139を利用する整形器544を使って達成されてもよい。再構成された係数の前記一つまたは複数の以前のブロック149の調整された包絡139は、包絡バッファ542に記憶されていてもよい。整形器ユニット544は、T
0時間単位だけ包絡バッファ542にはいったところから平坦化において使われる遅延された信号包絡を取ってくるよう構成されていてもよい。ここで、T
0はTに最も近い整数である。次いで、平坦化領域ベクトルは、利得パラメータgによってスケーリングされて、(平坦化領域での)推定された変換係数のブロック150を与えてもよい。
【0190】
代替として、平坦化領域で作用するサブバンド予測器517、たとえば再構成された平坦化された係数のブロック148に対して作用するサブバンド予測器517を使うことによって、整形器544によって実行される遅延された平坦化プロセスは省略されてもよい。しかしながら、平坦化領域ベクトル(またはブロック)のシーケンスが、変換(たとえばMDCT変換)の時間エイリアシングされた(time-aliased)諸側面のため、時間信号にはうまくマップしないことが見出されている。結果として、抽出器543の根底にある信号モデルへのフィットが低減され、より高いレベルの符号化ノイズがこの代替構成から帰結する。換言すれば、サブバンド予測器517によって使用される信号モデル(たとえば正弦波または周期的モデル)は、(平坦化された領域に比して)平坦化されない領域において増大したパフォーマンスを与えることが見出されている。
【0191】
ある代替的な例では、予測器517の出力(すなわち、推定された変換係数のブロック150)は、逆平坦化ユニット114の出力において(すなわち再構成された係数のブロック149に)加えられてもよいことを注意しておくべきである(
図23a参照)。その場合、
図23cの整形器ユニット544は、遅延された平坦化および逆平坦化の組み合わされた動作を実行するよう構成されていてもよい。
【0192】
受領されたビットストリーム中の要素が、サブバンド・バッファ541および包絡バッファ541を、たとえばIフレームの最初の符号化単位(すなわち、最初のブロック)の場合に、時折フラッシュすることを制御してもよい。これは、以前のデータを知ることなくIフレームをデコードすることを可能にする。最初の符号化単位は典型的には予測寄与を利用できないが、それでも予測器情報520を伝達するために比較的少数のビットを使ってもよい。予測利得の喪失は、この最初の符号化単位の予測誤差符号化により多くのビットを割り当てることによって補償されてもよい。典型的には、予測器寄与はIフレームの第二の符号化単位(すなわち第二のブロック)についてやはり実質的である。これらの側面のため、たとえIフレームを非常に頻繁に使ったとしても、比較的小さなビットレート増で品質を維持できる。
【0193】
換言すれば、ブロックの集合132,332(フレームとも称される)は、予測符号化を使ってエンコードされうる複数のブロック131を含む。Iフレームをエンコードするとき、ブロックの集合332の最初のブロック203だけは、予測エンコーダによって達成される符号化利得を使ってエンコードされることができない。すでに直後のブロック201は予測エンコードの恩恵を利用しうる。つまり、符号化効率に関するIフレームの欠点は、フレーム332の変換係数の最初のブロック203のエンコードに限定され、フレーム332の他のブロック201、204、205には当てはまらないということである。よって、本稿に記載される変換ベースの発話符号化方式は、符号化効率に対する著しい影響なしに、Iフレームの比較的頻繁な使用を許容する。よって、本稿に記載される変換ベースの発話符号化方式は、比較的高速および/またはデコーダとエンコーダの間の比較的頻繁な同期を必要とする用途に特に好適である。
【0194】
図23dは、例示的なスペクトル・デコーダ502のブロック図を示している。スペクトル・デコーダ502は、エントロピー符号化された係数データ163をデコードするよう構成されている無損失デコーダ551を有する。さらに、スペクトル・デコーダ502は、係数データ163内に含まれる量子化インデックスに係数値を割り当てるよう構成されている逆量子化器552を有する。エンコーダ100、170のコンテキストにおいて概説したように、所定の量子化器の集合、たとえばモデル・ベースのスカラー量子化器の有限な集合から選択される異なる量子化器を使って異なる変換係数が量子化されてもよい。
図22に示されるように、量子化器321、322、323の集合は、量子化器の種々の型を含んでいてもよい。量子化器の集合は、(0ビットレートの場合)ノイズ合成を提供する量子化器321、(比較的低い信号対雑音比SNRのためおよび中間的なビットレートのための)一つまたは複数のディザリングされる量子化器322および/または(比較的高いSNRおよび比較的高いビットレートのための)一つまたは複数の普通の量子化器323を含んでいてもよい。
【0195】
包絡洗練ユニット107は、割り当てベクトルを与えるために係数データ163内に含まれるオフセット・パラメータと組み合わされてもよい割り当て包絡138を提供するよう構成されていてもよい。割り当てベクトルは、各周波数帯302について整数値を含む。特定の周波数帯域302についての整数値は、特定の周波数帯域302の変換係数の逆量子化のために使われるべきレート‐歪み点を指す。換言すれば、特定の周波数帯域302についての整数値は、特定の周波数帯域302の変換係数の逆量子化のために使われるべき量子化器を指す。整数値が1増すことは、SNRにおける1.5dBの増加に対応する。ディザリングされる量子化器322および普通の量子化器323について、ラプラシアン確率分布モデルが、算術符号化を用いてもよい無損失符号化において使われてもよい。低ビットレートと高ビットレートの場合の間でシームレスな仕方でギャップを埋めるために、一つまたは複数のディザリングされる量子化器322が使われてもよい。ディザリングされる量子化器322は、静的なノイズ様信号について十分になめらかな出力オーディオ品質を生成することにおいて有益でありうる。
【0196】
換言すれば、逆量子化器522は、変換係数の現在のブロック131の係数量子化インデックスを受領するよう構成されていてもよい。特定の周波数帯域302の前記一つまたは複数の係数量子化インデックスは、所定の一組の量子化器からの対応する量子化器を使って決定されている。特定の周波数帯域302についての(オフセット・パラメータを用いて割り当て包絡138をオフセットすることによって決定されうる)割り当てベクトルの値は、特定の周波数帯域302の前記一つまたは複数の係数量子化インデックスを決定するために使われた量子化器を示す。量子化器を同定したら、前記一つまたは複数の係数量子化インデックスは、逆量子化されて、量子化された誤差係数のブロック145を与えてもよい。
【0197】
さらに、スペクトル・デコーダ502は、スケーリングされた量子化された誤差係数のブロック147を提供する逆再スケーリング・ユニット113を有していてもよい。
図23dの無損失デコーダ551および逆量子化器552のまわりの追加的なツールおよび相互接続は、
図23aに示される全体的なデコーダ500におけるその使用にスペクトル・デコードを適応させるために使われてもよい。ここで、スペクトル・デコーダ502の出力(すなわち量子化された誤差係数のブロック145)は、予測された平坦化領域ベクトルに(すなわち、推定された変換係数のブロック150)加算的補正を提供するために使われる。特に、追加的なツールは、デコーダ500によって実行される処理がエンコーダ100、170によって実行された処理に対応することを保証してもよい。
【0198】
特に、スペクトル・デコーダ502は、ヒューリスティック・スケーリング・ユニット111を有していてもよい。エンコーダ100、170との関連で示したように、ヒューリスティック・スケーリング・ユニット111はビット割り当てに対する影響をもつことがある。エンコーダ100、170では、予測誤差係数の現在ブロック141が、ヒューリスティック規則によって分散1までスケール・アップされてもよい。結果として、デフォルトの割り当ては、ヒューリスティック・スケーリング・ユニット111の最終的なダウンスケーリングされた出力の細かすぎる量子化につながることがある。よって、割り当ては、予測誤差係数の修正と同様の仕方で修正されるべきである。
【0199】
しかしながら、下記で概説するように、低周波数ビン(または低周波数帯域)の一つまたは複数についての符号化資源の低減を避けることが有益であることがある。特に、これは、実は有声状況において(すなわち、比較的大きな制御パラメータ146,rfuをもつ信号について)最も顕著であるLF(低周波数)ランブル/ノイズ・アーチファクトに対応するために有益であることがある。よって、後述する制御パラメータ146に依存したビット割り当て/量子化器選択は、「有声適応LF品質ブースト」と考えられてもよい。
【0200】
スペクトル・デコーダは、rfuと名付けられる制御パラメータ146に依存してもよい。rfuは予測器利得gの制限されたバージョンであってもよく、たとえば
rfu=min(1,max(g,0))
である。
【0201】
制御パラメータ146を使って、エンコーダ100、170の係数量子化ユニット112において使われるおよび逆量子化器552において使われる量子化器の集合が適応されてもよい。特に、量子化器の集合のノイズ性が、制御パラメータ146に基づいて適応されてもよい。例として、1に近い制御パラメータ146 rfuの値は、ディザリングされる量子化器を使って割り当てレベルの範囲の制限をトリガーしてもよく、ノイズ合成レベルの分散の低減をトリガーしてもよい。一例では、rfu=0.75におけるディザ決定閾値および1−rfuに等しいノイズ利得が設定されてもよい。ディザ適応は、無損失デコードおよび逆量子化器の両方に影響しうる一方、ノイズ利得適応は典型的には逆量子化器のみに影響する。
【0202】
予測器寄与は有声/トーン性状況について実質的であることが想定されてもよい。よって、比較的高い予測器利得g(すなわち、比較的高い制御パラメータ146)は有声またはトーン性の発話信号を示していてもよい。そのような状況では、ディザに関係したまたは明示的な(0割り当ての場合)ノイズの追加は、経験的に、エンコードされた信号の知覚される品質に対して逆効果であることが示されている。結果として、ディザリングされる量子化器322の数および/またはノイズ合成量子化器321のために使われるノイズの型は、予測器利得gに基づいて適応され、それによりエンコードされた発話信号の知覚される品質を改善してもよい。
【0203】
よって、制御パラメータ146は、ディザリングされる量子化器322が使用されるSNRの範囲324、325を修正するために使われてもよい。例として、制御パラメータ146 rfu<0.75である場合には、ディザリングされる量子化器の範囲324が使われてもよい。換言すれば、制御パラメータ146が所定の閾値より下であれば、量子化器の第一の集合326が使用されてもよい。他方、制御パラメータ146 rfu≧0.75であれば、ディザリングされる量子化器のための範囲325が使われてもよい。換言すれば、制御パラメータ146が前記所定の閾値以上であれば、量子化器の第二の集合327が使用されてもよい。
【0204】
さらに、制御パラメータ146は、分散およびビット割り当ての修正のために使われてもよい。その理由は、典型的には、うまくいった予測では必要とされる補正も小さく、特に0〜1kHzの低周波数範囲ではそうであるということである。より高い周波数帯域302に符号化資源を解放するために、単位分散モデルからのこの逸脱を量子化器に明示的に知らせることが有利であることがありうる。
【0205】
〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本発明のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本発明はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本発明の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
【0206】
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働していくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様1〕
オーディオ・ビットストリームを受け入れるよう構成されたオーディオ処理システム(図1、100)であって:
フロントエンド・コンポーネントであって:
・量子化されたスペクトル係数を受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段;および
・前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段を含む、
フロントエンド・コンポーネントと;
処理段であって:
・前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンク;
・前記中間信号の前記第二の周波数領域表現を受領して処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネント;および
・前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクを含む、
処理段と;
サンプル・レート変換器であって、前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するサンプル・レート変換器とを有し、
前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しい、
オーディオ処理システム。
〔態様2〕
前記フロントエンド・コンポーネントが、オーディオ・モードおよび該オーディオ・モードとは異なる声モードで動作可能である、態様1記載のオーディオ処理システム。
〔態様3〕
前記フロントエンド・コンポーネントの前記オーディオ・モードから前記声モードへのモード変化は前記逆変換段の最大フレーム長を短縮することを含む、態様2記載のオーディオ処理システム。
〔態様4〕
前記少なくとも一つの処理コンポーネントが:
M個のチャネルをもつダウンミックス信号を受領し、それに基づいてN個のチャネルをもつ信号を出力するパラメトリック・アップミックス段であって、少なくとも、1≦M<Nであるモードおよび1≦M=Nであるモードにおいて動作可能である、パラメトリック・アップミックス段と;
前記処理段が一定の総合遅延をもつために前記パラメトリック・アップミックス段の現在モードを補償するよう構成された第一の遅延段とを含む、
態様1ないし3のうちいずれか一項記載のオーディオ処理システム。
〔態様5〕
前記処理段に並列に配置され、前記処理段の一定の前記総合遅延に等しい遅延を受けるよう構成された第二の遅延段を有するバイパス・ラインをさらに有する、態様4記載のオーディオ処理システム。
〔態様6〕
前記パラメトリック・アップミックス段がさらに、少なくとも、M=3かつN=5であるモードで動作可能である、態様4または5記載のオーディオ処理システム。
〔態様7〕
前記フロントエンド・コンポーネントが、M=3かつN=5である前記パラメトリック・アップミックス段のモードにおいて、ダウンミックス信号を含む中間信号を与えるよう構成されており、前記フロントエンド・コンポーネントは、前記オーディオ・ビットストリーム中の合同符号化されたチャネルから前記M=3個のチャネルのうちの二つのチャネルを導出する、態様6記載のオーディオ処理システム。
〔態様8〕
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段の上流に配置され、高周波数内容を再構成するよう動作可能なスペクトル帯域複製モジュールをさらに含み、前記スペクトル帯域複製モジュールは
・少なくとも、前記パラメトリック・アップミックス段のM<Nであるモードにおいてアクティブであるよう構成され、
・前記パラメトリック・アップミックス段がM=Nであるモードのいずれかにあるときは前記パラメトリック・アップミックス段の現在モードとは独立に動作可能である、
態様4ないし7のうちいずれか一項記載のオーディオ処理システム。
〔態様9〕
前記少なくとも一つの処理コンポーネントがさらに、前記パラメトリック・アップミックス段と並列にまたは前記パラメトリック・アップミックス段の下流に配置され、前記N個のチャネルのそれぞれを波形符号化された低周波数内容で補強するよう動作可能な波形符号化段(図8、214)を含み、前記波形符号化段は、前記パラメトリック・アップミックス段および前記スペクトル帯域複製モジュールの現在モードとは独立にアクティブ化可能かつ非アクティブ化可能である、態様8記載のオーディオ処理システム。
〔態様10〕
少なくとも、前記パラメトリック・アップミックス段がM>2であるM=Nモードにあるデコード・モードにおいて動作可能である、態様9記載のオーディオ処理システム。
〔態様11〕
少なくとも次のデコード・モード、すなわち:
i)パラメトリック・アップミックス段がM=N=1モードにある;
ii)パラメトリック・アップミックス段がM=N=1モードにあり、スペクトル帯域複製モジュールがアクティブ;
iii)パラメトリック・アップミックス段がM=1、N=2モードにあり、スペクトル帯域複製モジュールがアクティブ;
iv)パラメトリック・アップミックス段がM=1、N=2モードにあり、スペクトル帯域複製モジュールがアクティブであり、波形符号化段がアクティブ;
v)パラメトリック・アップミックス段がM=2、N=5モードにあり、スペクトル帯域複製モジュールがアクティブ;
vi)パラメトリック・アップミックス段がM=2、N=5モードにあり、スペクトル帯域複製モジュールがアクティブであり、波形符号化段がアクティブ;
vii)パラメトリック・アップミックス段がM=3、N=5モードにあり、スペクトル帯域複製モジュールがアクティブ;
viii)パラメトリック・アップミックス段がM=N=2モードにある;
ix)パラメトリック・アップミックス段がM=N=2モードにあり、スペクトル帯域複製モジュールがアクティブ;
x)パラメトリック・アップミックス段がM=N=7モードにある;
xi)パラメトリック・アップミックス段がM=N=7モードにあり、スペクトル帯域複製モジュールがアクティブ
において動作可能な態様10記載のオーディオ処理システム。
〔態様12〕
前記処理段の下流に配置された次のコンポーネント、すなわち
少なくとも一つのチャネルがサラウンド・チャネルを表わす前記処理されたオーディオ信号の前記時間領域表現を受領し、前記少なくとも一つのサラウンド・チャネルに対して90度の位相シフトを実行するよう構成された位相シフト・コンポーネント;および
前記位相シフト・コンポーネントから前記処理されたオーディオ信号を受領し、それに基づいて二つのチャネルをもつダウンミックス信号を出力するよう構成されたダウンミックス・コンポーネント
をさらに有する、態様1ないし11のうちいずれか一項記載のオーディオ処理システム。
〔態様13〕
前記フロントエンド・コンポーネントが:
再構成された変換係数の一つまたは複数の以前のブロック(図23a、149)に基づき、かつ前記ビットストリームから導出された一つまたは複数の予測器パラメータ(図23a、520)に基づいて、推定された平坦化された変換係数の現在ブロック(図23a、150)を決定するよう構成されている予測器(図23a、517)と;
所定の量子化器の集合(図22、326、327)を使って前記ビットストリーム内に含まれる係数データ(図23a、163)に基づいて、量子化された予測誤差係数の現在ブロック(図17a、147)を決定するよう構成されたスペクトル・デコーダであって、前記スペクトル・デコーダは前記一つまたは複数の予測器パラメータに依存して所定の量子化器の前記集合を決定するよう構成されている、スペクトル・デコーダ(図23a、502)と;
推定された平坦化された変換係数の前記現在ブロック(図23a、150)に基づき、かつ量子化された予測誤差係数の前記現在ブロック(図23a、147)に基づいて、再構成された平坦化された変換係数の現在ブロック(図23a、148)を決定するよう構成された加算ユニット(図23a、116)と;
現在ブロック包絡(図23b、136)を使って、再構成された平坦化された変換係数の前記現在ブロックにスペクトル形状を与えることによって、再構成された変換係数の現在ブロック(図23a、149)を決定するよう構成された逆平坦化ユニット(図23a、114)とをさらに含み、前記再構成された発話信号は再構成された変換係数の前記現在ブロックに基づいて決定される、
態様1ないし12のうちいずれか一項記載のオーディオ処理システム。
〔態様14〕
前記オーディオ・ビットストリームに基づいて少なくとも一つの追加的チャネルを用意し、前記追加的チャネルを前記再構成されたオーディオ信号に含めるよう構成されたLfeデコーダをさらに有する、態様1ないし13のうちいずれか一項記載のオーディオ処理システム。
〔態様15〕
オーディオ・ビットストリームを処理する方法であって:
量子化されたスペクトル係数を受領し、周波数から時間への変換が後続する逆量子化を実行し、それにより中間オーディオ信号の表現が得られる、段階と;
前記中間オーディオ信号に対して周波数領域において少なくとも一つの処理ステップを実行する段階と;
処理されたオーディオ信号のサンプリング・レートをターゲット・サンプリング周波数に変え、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含み、
前記中間オーディオ信号の前記時間領域表現および前記処理されたオーディオ信号の前記時間領域表現のそれぞれの内部サンプリング・レートは等しく、
前記逆量子化および/または周波数から時間への変換は、少なくともオーディオ・モードおよび声モードで動作可能なハードウェア・コンポーネントにおいて実行され、現在モードは前記量子化されたスペクトル係数に関連付けられたメタデータに従って選択される、
方法。
〔態様16〕
態様15記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。