IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特開2024-56001デコーダシステム、デコーディング方法及びコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024056001
(43)【公開日】2024-04-19
(54)【発明の名称】デコーダシステム、デコーディング方法及びコンピュータプログラム
(51)【国際特許分類】
   G10L 19/008 20130101AFI20240412BHJP
   G10L 19/022 20130101ALI20240412BHJP
【FI】
G10L19/008 100
G10L19/022
【審査請求】有
【請求項の数】7
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024033809
(22)【出願日】2024-03-06
(62)【分割の表示】P 2022196162の分割
【原出願日】2011-04-06
(31)【優先権主張番号】61/322,458
(32)【優先日】2010-04-09
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】カルルスソン,ポンタス
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
(72)【発明者】
【氏名】ヴィレモーズ,ラルス
(57)【要約】
【課題】高ビットレートレンジにおいても計算効率の高いステレオ符号化をする方法と装置を提供する。
【解決手段】
本発明は、周波数領域における複素予測を用いたステレオ符号化及び復号の方法及び装置を提供する。一実施形態において、複素予測符号化によりエンコードされた、2つの入力チャンネルを表す第1の周波数領域表示を有する入力ステレオ信号から出力ステレオ信号を求める復号方法は、(i)第1の入力チャンネルの第2の周波数領域表示を計算するアップミキシングステップと、(ii)前記第1の入力チャンネルの第1と第2の周波数領域表示と、前記第2の入力チャンネルの第1の周波数領域表示と、複素予測係数とに基づいて、出力チャンネルを計算するアップミキシングステップとを有する。アップミキシングは制御データに応じて中断できる。
【選択図】図2
【特許請求の範囲】
【請求項1】
複素予測ステレオコーディングによってステレオ信号を提供するためのデコーダシステムであって、
ダウンミックス信号および残差信号の第1の周波数領域表現に基づいて前記ステレオ信号を生成するように適合されたアップミックス段階であって、前記第1の周波数領域表現の各々は、多次元空間の第1の部分空間において表現される対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を含む、アップミックス段階を有し、前記アップミックス段階は、
前記ダウンミックス信号の前記第1の周波数領域表現に基づいて前記ダウンミックス信号の第2の周波数領域表現を計算するモジュールであって、前記第2の周波数領域表現は、前記第1の部分空間に含まれない前記多次元空間の一部を含む前記多次元空間の第2の部分空間において表現される前記信号のスペクトルコンテンツを表す第2のスペクトル成分を含み、前記モジュールは、前記ダウンミックス信号の前記第1のスペクトル成分に有限インパルス応答フィルタを適用することによって前記ダウンミックス信号の前記第2のスペクトル成分を決定するように適合される、モジュールと、
前記ダウンミックス信号の前記第1および第2の周波数領域表現、前記残差信号の前記第1の周波数領域表現、および前記デコーダシステムによって受信されたビットストリーム信号において符号化された複素予測係数に基づいて、サイド信号の第1の周波数領域表現を計算する重み付き加算器であって、前記サイド信号の前記第1の周波数領域表現は、前記多次元空間の前記第1の部分空間において表現された前記サイド信号のスペクトルコンテンツを表す第1のスペクトル成分を含み、各スペクトル成分は周波数の範囲を表し、前記サイド信号の前記第1のスペクトル成分の各々は、前記サイド信号の前記第1のスペクトル成分と同じ周波数の範囲を表す前記ダウンミックス信号および前記残差信号のスペクトル成分から決定される、重み付き加算器と、
前記ダウンミックス信号の前記第1の周波数領域表現と前記サイド信号とに基づいて前記ステレオ信号を計算する和・差段階と
を有し、
前記アップミックス段階は、前記ダウンミックス信号および前記残差信号に対して独立した帯域幅制限を適用するように適合されている、
デコーダシステム。
【請求項2】
適用される前記帯域幅制限は、前記信号の各々について、デコードされるべき最高周波数帯域を示す2つのデータフィールドによってシグナリングされる、
請求項1に記載のデコーダシステム。
【請求項3】
前記データフィールドの各々がmax_sfbの値として符号化されているMPEGビットストリームを受信するように適合されている、
請求項2に記載のデコーダシステム。
【請求項4】
前記ダウンミックス信号の第2の周波数領域表現を計算する前記モジュールは、少なくとも2つの時間的に隣接するおよび/または周波数的に隣接する第1のスペクトル成分の組み合わせによって決定される近似的な第2のスペクトル成分を含む近似的な第2のスペクトル表現を計算するように適合されている、
請求項1ないし3いずれか一項に記載のデコーダシステム。
【請求項5】
入力ステレオ信号を複素予測ステレオコーディングにより出力ステレオ信号にアップミックスするデコーディング方法であって
前記入力ステレオ信号は、ダウンミックス信号の第1の周波数領域表現と、残差信号と、複素予測係数とを含み、
前記第1の周波数領域表現の各々は、多次元空間の第1の部分空間において表現される対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を含み、
前記デコーディング方法は、アップミックス段階によって実行され、
前記ダウンミックス信号の前記第1の周波数領域表現に基づいて前記ダウンミックス信号の第2の周波数領域表現を計算するステップであって、前記第2の周波数領域表現は、前記第1の部分空間に含まれない前記多次元空間の一部を含む前記多次元空間の第2の部分空間において表現される前記信号のスペクトルコンテンツを表す第2のスペクトル成分を含み、前記ダウンミックス信号の第2の周波数領域表現を計算することは、前記ダウンミックス信号の前記第1のスペクトル成分に有限インパルス応答フィルタを適用することによって前記ダウンミックス信号の前記第2のスペクトル成分を決定することを含む、ステップと、
前記ダウンミックス信号の前記第1および第2の周波数領域表現、前記残差信号の前記第1の周波数領域表現、および前記複素予測係数に基づいて、サイド信号の第1の周波数領域表現を計算するステップであって、前記サイド信号の前記第1の周波数領域表現は、前記多次元空間の前記第1の部分空間において表現される前記サイド信号のスペクトルコンテンツを表す第1のスペクトル成分を含み、各スペクトル成分は周波数の範囲を表し、前記サイド信号の前記第1のスペクトル成分の各々は、前記サイド信号の前記第1のスペクトル成分と同じ周波数の範囲を表す前記ダウンミックス信号および前記残差信号のスペクトル成分から決定される、ステップと
を含み、
前記ダウンミックス信号および前記残差信号に対して独立した帯域幅制限が適用される、
デコーディング方法。
【請求項6】
プロセッサ上での実行に適合され、コンピューティングデバイス上で実行されると、請求項5に記載の方法ステップを実行させるソフトウェアプログラムを含む記憶媒体。
【請求項7】
コンピュータ上で実行されると、請求項5に記載の方法を実行させる実行可能命令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
ここに開示する発明は概してステレオオーディオ符号化に関し、より詳しくは周波数領域における複素予測を用いるステレオ符号化の手法に関する。
【背景技術】
【0002】
ステレオ信号の左(L)チャンネルと右(R)チャンネルの同時符号化(joint coding)により、LとRを独立に符号化するのと比較して、符号化が効率的になる。同時ステレオ符号化に対する一般的なアプローチはミッド/サイド(M/S)符号化である。ここで、ミッド(M)信号はL信号とR信号を加えることにより構成され、例えばM信号は
【数1】
により得られる。また、サイド(S)信号は2つのチャンネルLRを引くことにより構成され、例えばS信号は
【数2】
により得られる。M/S符号化の場合、L信号とR信号ではなく、M信号とS信号が符号化される。
【0003】
MPEG(Moving Picture Experts Group)のAAC(Advanced Audio Coding)標準(標準文書ISO/IEC 13818-7を参照)では、時間および周波数可変で、L/Rステレオ符号化とM/Sステレオ符号化を選択できる。このように、ステレオエンコーダは、ステレオ信号のある周波数帯域にL/R符号化を適用でき、そのステレオ信号の他の周波数帯域のエンコードにはM/S符号化が使われる(周波数可変)。さらに、エンコーダは時間的にL/R符号化とM/S符号化を切り替えられる(時間可変)。MPEG AACでは、ステレオエンコーディングは周波数領域で、より具体的にはMDCT(修正離散余弦変換)領域で行われる。これにより、周波数的および時間的に可変に、L/R符号化またはM/S符号化のいずれかを適応的に選択できる。
【0004】
パラメトリックステレオ符号化は、ステレオオーディオ信号を、モノラル信号と、ステレオパラメータとなる少量のサイド情報として、効率的に符号化する手法である。これはMPEG-4オーディオ標準(標準文書ISO/IEC14496-3を参照)の一部である。モノラル信号はどのオーディオ符号化器を用いてもエンコードできる。ステレオパラメータはモノビットストリーム(mono bit stream)の付属部分に組み込まれるので、完全に前方互換かつ後方互換となる。デコーダでは、モノラル信号が最初に復号され、その後にステレオパラメータを用いてステレオ信号が再構成される。復号されたモノ信号を無相関化した信号(decorrelated version)は、モノ信号との相互相関がゼロである。この無相関化信号を、無相関化器(decorrelator)により、例えば遅延ラインを含む適当なオールパスフィルタ(all-pass filter)により生成する。基本的に、無相関化信号はモノ信号と同じスペクトル的・時間的エネルギー分布を有する。モノラル信号は無相関化信号とともにアップミックスプロセスに入力される。このプロセスは、ステレオパラメータにより制御され、ステレオ信号を再構成する。さらに詳しい情報は、非特許文献1を参照されたい。
【0005】
MPEGサラウンド(MPS;ISO/IEC 23003-1及び非特許文献2を参照)は、パラメトリックステレオ符号化の原理に残差符号化の原理を組み合わせるものであり、無相関化信号を送信される残差で置き換え、知覚できる音質を改善している。残差符号化は、マルチチャンネル信号をダウンミックスし、任意的に空間的キューを抽出することにより行われる。ダウンミックスプロセスにおいて、エラー信号を表す残差信号が計算され、エンコードされて送信される。残差信号はデコーダにおいて無相関化信号の代わりになる。ハイブリッドアプローチでは、残差信号は一定の周波数帯域において、好ましくは比較的低い帯域において、無相関化信号に取って代わる。
【0006】
現在のMPEG Unified Speech and Audio Coding(USAC)システムは、図1に2つの例を示したが、デコーダはコアデコーダの下流に位置する複素値直交ミラーフィルタ(QMF)バンクを有する。このフィルタバンクの出力として得られるQMF表現は、複素値であり、それゆえ2倍にオーバーサンプルされており、ダウンミックス信号(すなわちミッド信号)Mと残差信号Dとして構成できる。これには複素値成分を有するアップミックス行列を使うことができる。(QMF領域の)L信号とR信号は
【数3】
として得られる。ここで、gは実数値のゲインファクタであり、αは複素値の予測係数である。αは残差信号Dのエネルギーが最小になるように選択するのが好ましい。ゲインファクタは規格化により、すなわち和信号のパワーが左右信号のパワーの和と等しくなるようにして決定できる。L信号とR信号それぞれの実部と虚部は互いに冗長性があり、原理的には一方を他方に基づき計算できる。しかし、後で可聴なエイリアシングアーティファクトを生ぜずにスペクトル帯域レプリケーション(SBR)デコーダを使えるという利益がある。モノ・ステレオアップミックスなどその他の時間または周波数適応的信号処理(図示せず)と関連するアーティファクトを防止する目的で、オーバーサンプルされた信号表現の利用も同様の理由で選択される。逆QMFフィルタリングがデコーダにおける最後の処理ステップである。信号の帯域制限的QMF表現により、帯域制限残差手法と「残差フィル」手法が使える。これらの手法をこのタイプのデコーダに組み込むことができる。
【0007】
上記の符号化構成は低ビットレートの場合、一般的には80kb/s未満の場合には良く適合するが、計算複雑性の点で高ビットレートの場合には最適なものではない。より詳しく言うと、高ビットレートでは、一般的にSBRツールは(符号化効率の改善にならないので)使われない次に、SBR段階を有さないデコーダでは、複素値アップミックス行列があるが故にQMFフィルタバンクを使うが、これは計算量が多く遅延を生じる(1024サンプルのフレーム長では、QMF分析/合成フィルタバンクにより961サンプルの遅延が生じる)。これは、もっと効率的な符号化構成の必要性を明らかに示している。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】H. Purnhagen著「Low Complexity Parametric Stereo Coding in MPEG-4」, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168
【非特許文献2】J. Herre et al.著「MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi- Channel Audio Coding」, Audio Engineering Convention Paper 7084, 122<nd> Convention, May 5-8, 2007
【発明の概要】
【課題を解決するための手段】
【0009】
本発明の一目的は、高ビットレートレンジにおいても計算効率の高いステレオ符号化をする方法と装置を提供することである。
【0010】
本発明は、独立請求項に規定した、符号化及び復号をするための、それぞれコーダ及びデコーダ、コーディング及びデコーディング方法、及びコンピュータプログラム製品を提供することにより、この目的を達成する。従属項は本発明の実施形態を規定している。
【0011】
第1の態様では、本発明は次のシステムを提供する。すなわち、複素予測ステレオ符号化によりステレオ信号を提供するデコーダシステムであって:
ダウンミックス信号(M)と残差信号(D)の第1の周波数領域表示に基づいて、前記ステレオ信号を生成するように構成されたアップミックス段階であって、各第1の周波数領域表示は多次元空間の第1の副空間で表された対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を有するアップミックス段階を有し、前記アップミックス段階は、
前記ダウンミックス信号の第1の周波数領域表示に基づき、前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールであって、前記第2の周波数領域表示は、前記第1の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第2の副空間で表された信号のスペクトルコンテンツを表す第2のスペクトル成分を有する、モジュールと、
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第1と第2の周波数領域表示と、前記残差信号の第1の周波数領域表示と、複素予測係数(α)とに基づいてサイド信号(S)を計算する重み付け加算器とを有するアップミックス段階と、
前記ダウンミックス信号と前記サイド信号の第1の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階を有し、
前記アップミックス段階は、さらに、前記ダウンミックス信号と残差信号が前記和・差段階に直接供給されるパススルーモードで動作可能である。
【0012】
第2の態様では、本発明は次のシステムを提供する。すなわち、
複素予測ステレオ符号化によりビットストリーム信号によりステレオ信号をエンコードするエンコーダシステムであって、
複素予測係数を推定する推定器と、
(a)前記ステレオ信号を、前記複素予測係数の値により決定される関係を有するダウンミックス信号と残差信号の周波数領域表示に変換するように動作可能な符号化段階と、
前記符号化段階と推定器から出力を受け取り、これを前記ビットストリーム信号にエンコードするマルチプレクサとを有する。
【0013】
本発明の第3と第4の態様では、ステレオ信号をビットストリームにエンコードする方法と、ビットストリームを少なくとも1つのステレオ信号に復号する方法が提供される。各方法の技術的特徴は、それぞれエンコーダシステムとデコーダシステムの技術的特徴を同様である。第5と第6の態様では、本発明は、各方法をコンピュータで実行する命令を含むコンピュータプログラム製品を提供する。
【0014】
本発明は、MPEG USACシステムにおける統一ステレオ符号化の優位性からの利益を受ける。これらの優位性は、SBRが一般的には利用されない、QMFベースアプローチに伴う計算上の複雑さを大幅に増大することなく、高ビットレートでも保存され、これが可能になる理由は、クリティカルサンプリングされたMDCT変換は、MPEG USAC変換の基本であるが、ダウンミックス及び残差チャンネルの符号オーディオ帯域が同じであり、アップミックスプロセスが非相関化を含まない場合には少なくとも、本発明により、複素予測ステレオ符号化でも使える。これは、追加的なQMF変換がもはや必要ないことを意味する。QMF領域における複素予測ステレオ符号化の代表的な実施形態は、従来のL/RまたはM/Sステレオと比較して、1単位時間当たりの演算数を大幅に増やす。そのため、本発明による符号化装置は、控えめな計算負荷により高音質を提供するため、かかるビットレートで競争力があるように思われる。
【0015】
当業者は気づくように、アップミックス段階はパススルーモードでも動作可能であるという事実により、デコーダは、エンコーダ側での判断により、従来の直接符号化または同時符号化、及び複素予測符号化により、適応的に復号できる。よって、デコーダが音質レベルを従来の直接L/Rステレオ符号化や同時M/Sステレオ符号化より積極的に挙げられない場合に、少なくとも、同じレベルを維持することを保証できる。よって、本発明のこの態様によるデコーダは、機能的観点から、背景技術に対して上位集合(superset)と見なせる。
【0016】
QMFベース予測符号化ステレオに対する優位性として、(任意に小さくできる量子化誤差を除いて)信号の完全再構成が可能である。
【0017】
このように、本発明は、複素予測による変換ベースのステレオ符号化をする符号化装置を提供する。好ましくは、本発明による装置は、複素予測ステレオ符号化に限定されず、背景技術による直接L/Rステレオ符号化や同時M/Sすれてお符号化でも動作可能であり、具体的なアプリケーションや特定の時間中に最も適した符号化方法を選択できる。
【0018】
信号のオーバーサンプリングされた表示(例えば、複素表示)は、第1と第2のスペクトル成分を両方とも含み、本発明による複素予測の基礎として用いられ、よって、かかるオーバーサンプリングされた表示を計算するモジュールが、本発明によるエンコーダシステムとデコーダシステムに構成される。 スペクトル成分は、多次元空間の第1と第2の副空間を指す。これは、有限のサンプリング周波数でサンプリングされた、所与の時間的長さ(例えば、所定の時間フレームの長さ)の、一組の時間依存関数である。この多次元空間中の関数は基底関数の有限の重み付け和により近似できることは周知である。
【0019】
当業者には明らかなように、デコーダと協働するように構成されたエンコーダは、エンコードされた信号の忠実な再生を可能とするように、予測符号化のベースとなるオーバーサンプリングされた表示を提供する等価なモジュールが備えられている。かかる等価なモジュールは、同じ又は類似したモジュールか、同じ又は類似した伝達特性を有するモジュールである。特に、エンコーダとデコーダのモジュールは、それぞれ、等価な数学的演算を実行するコンピュータプログラムを実行する類似した、または非類似のユニットであってもよい。
【0020】
デコーダシステムやエンコーダシステムのある実施形態では、第1のスペクトル成分は第1の副空間で表された実数値を有し、第2のスペクトル成分は第2の副空間で表された虚数値を有する。第1と第2のスペクトル成分は共に、信号の複素スペクトル表示を構成する。第1の副空間は第1の組の基底関数の線形スパンであり、第2の副空間は第2の基底関数の組の線形スパンであり、その一部は第1の組の基底関数とは線形独立である。
【0021】
一実施形態では、複素表示を計算するモジュールは、実・虚変換、すなわち、信号の実スペクトル表示に基づき、離散時間信号のスペクトルの虚数府を計算するモジュールである。この変換は、高調波分析やヒューリスティック関係からの式など、厳密な、又は近似的な数学的関係に基づく。
【0022】
デコーダシステム又はエンコーダシステムのある実施形態では、第1のスペクトル成分は、離散時間領域信号の時間・周波数領域変換により、好ましくはフーリエ変換により、例えば離散余弦変換(DCT)、修正離散余弦変換(MDCT)、離散正弦変換(DST)、修正離散正弦変換(MDCT)、高速フーリエ変換(FFT)、素因子ベース(prime-factor-based)フーリエアルゴリズムなどにより求められる。最初の4つの場合には、第2のスペクトル成分はDST、MDST、DCT、及びMDCTによりそれぞれ求められる。周知なように、単位期間で周期的なコサインのリニアスパンは、同じ期間で周期的なサインのリニアスパンに完全には含まれない副空間を構成する。好ましくは、第1のスペクトル成分はMDCTにより求められ、第2のスペクトル成分はMDSTにより求められる。
【0023】
一実施形態では、デコーダシステムは、少なくとも1つの時間的ノイズシェーピングモジュール(TNSモジュール、すなわちTNSフィルタ)を含み、これはアップミックス段階の上流に配置される。一般的に言って、TNSの使用により、過渡状成分を有する信号の知覚される音質が改善され、TNSを有する本発明のデコーダシステムの実施形態にも当てはまる。従来のL/R及びM/Sステレオ符号化では、TNSフィルタは周波数領域における最後の処理ステップとして、逆変換の直前に適用される。しかし、複素予測ステレオ符号化の場合には、TNSフィルタをダウンミックス信号と残差信号に、すなわちアップミックス行列の前に適用すると有利であることが多い。言い換えると、TNSは左右チャンネルの線形結合に適用され、これにはいくつかの利点がある。最初に、ある状況では、TNSが例えばダウンミックス信号に対してのみ有利であることが分かる。次に、残差信号についてはTNSフィルタリングは省略でき、これは利用できる帯域幅の経済的な使用を意味する。TNSフィルタ係数は、ダウンミックス信号についてだけ送信されればよい。第2に、ダウンミックス信号のオーバーサンプリングされた表示の計算は(例えば、複素周波数領域表示を構成するために、MDSTデータはMDCTデータから求められる)、複素予測符号化では必要であるが、ダウンミックス信号の時間領域表示が計算可能であることを要する。これは、ダウンミックス信号が、好ましくは一様に求めたMDCTスペクトルの時間シーケンスとして利用できることを意味する。TNSフィルタが、ダウンミックス/残差表示を左/右表示に変換するアップミックス行列の後にデコーダで適用された場合、ダウンミックス信号のTNS残差MDCTスペクトルのシーケンスのみが得られる。これにより、対応するMDSTスペクトルの効率的な計算が非常に難しくなる。特に、左/右チャンネルが特性が異なるTNSフィルタを用いている場合にそうである。
【0024】
強調しておくが、MDCTスペクトルの時間シーケンスが得られるかは、複素予測符号化の基礎として機能するようにフィットしたMDST表示を得るための絶対的な基準ではない。実験的な証拠に加えて、この事実は、一般的に、TNSによりフィルタされた残差信号が低周波のフィルタされていない残差信号に近似的に対応するように、TNSが、例えば数キロヘルツより高い高周波のみに適用されるということにより説明できる。このように、本発明は、以下に説明するように、TNSフィルタがアップミックス段階の上流以外に配置される、複素予測ステレオ符号化をするデコーダとして実施できる。
【0025】
一実施形態では、デコーダシステムは、アップミックス段階の下流に配置された少なくとも1つのさらないTNSモジュールを含む。セレクタ装置により、アップミックス段階の上流のTNSモジュールまたはアップミックス段階の下流のTNSモジュール。ある状況下では、複素周波数領域表示の計算は、ダウンミックス信号の時間領域表示が計算可能である必要はない。さらに、上記の通り、デコーダは、複素予測符号化を適用せずに、直接または同時符号化モードで選択的に動作可能であり、TNSモジュールを従来の場所に用いる、すなわち周波数領域における最後の処理ステップの1つとして用いる方が適している。
【0026】
一実施形態では、デコーダシステムは、ダウンミックス信号の第2の周波数領域表示を計算するモジュールを非アクティブ化することにより、処理リソース及び場合によってはエネルギーを節約するように構成されている。前記ダウンミックス信号は連続した時間ブロックにパーティションされ、各時間ブロックは複素予測係数の値に関連する。この値は、デコーダと協働するエンコーダにより各時間ブロックに対する決定により決まる。さらに、この実施形態では、ダウンミックス信号の第2の周波数領域表示を計算するモジュールは、所与の時間ブロックについて、複素予測係数の虚部の絶対値がゼロであるか、所定の許容値より小さい場合、自分自身を非アクティブ化するように構成されている。モジュールの非アクティブ化は、この時間ブロックについてダウンミックス信号の第2の周波数領域表示を計算しないことを意味する。非アクティブ化をしない場合、第2の周波数領域表示(例えば、一組のMDST係数)にはゼロ、またはデコーダのマシンイプシロン(四捨五入単位)又はその他の好適な閾値とほぼ同じオーダーの数がかけられる。
【0027】
前記の実施形態をさらに発展させたものでは、ダウンミックス信号がパーティションされる時間ブロックのサブレベルで処理リソースの節約が為される。例えば、時間ブロック内のかかるサブレベルは周波数帯域であり、エンコーダは時間ブロック内の各周波数帯域に対して、複素予測係数の値を決定する。同様に、第2の周波数領域表示を生成する方法は、複素予測係数がゼロであるか、大きさが許容値より小さい、時間ブロック内の周波数帯域に対する演算を抑制するように構成されている。
【0028】
一実施形態において、前記第1のスペクトル成分は変換係数の時間ブロックに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成される。さらに、前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールは、
・前記第1のスペクトル成分から第1の中間成分を求め、
・インパルス応答の少なくとも一部により前記第1のスペクトル成分の結合を構成して第2の中間成分を求め、
・前記第2の中間成分から第2のスペクトル成分を求めるように構成されている。
この手順により、米国特許第6,980,933B2号に、特にコラム8乃至28に、特に式41に詳細に記載されているように、第1の周波数領域表示から直接第2の周波数領域表示を計算することができる。当業者は気づくように、例えば、異なる変換が続く逆変換とは反対に、計算は、時間領域によっては実行されない。
【0029】
本発明による複素予測ステレオ符号化の実施例の場合、計算の複雑さは、従来のL/RまたはM/Sステレオと比較してほんの少ししか増加しない(QMF領域における複素予測ステレオ符号化により生じる増加よりも大幅に少ない)ことが推測されている。第2のスペクトル成分の厳密な計算を含むこのタイプの実施形態では、QMFベースの実施形態により生じるより数パーセント長いだけの遅延が生じる(時間ブロックの長さは1024サンプルであると仮定し、QMF分析/合成フィルタバンクの961サンプルの遅延と比較した)。
【0030】
好適にも、少なくとも前出の実施形態の一部では、インパルス応答は、第1の周波数領域表示を求められる、より正確には、その周波数応答特性により求められる変換に適応される。
【0031】
実施形態によっては、ダウンミックス信号の第1の周波数領域表示は、1つ又はそれ以上の分析窓関数(又は、カットオフ関数、例えば矩形窓、正弦窓、カイザー・ベッセル窓など)に対して適用される変換により得られ、その一目的は、危険なノイズ音量を生じたり、スペクトルに好ましくない変化を与えたりすることなく、時間的セグメント化を実現することである。場合によっては、かかる窓関数は、部分的にオーバーラップしている。次に、好ましくは、変換の周波数応答特性は、前記の1つ又はそれ以上の分析窓関数の特性に依存する。
【0032】
周波数領域における第2の周波数領域表示の計算を特徴とする実施形態をさらに参照して、近似的な第2の周波数領域表示を用いることにより、計算負荷を減らすことができる。かかる近似は、計算の基礎とする情報に完全性を求めないことにより実現できる。例えば、米国特許第6,980,933B2号の教示によると、3つの時間ブロック、すなわち出力ブロックと同時のブロック、先行するブロック、及び後続のブロックからの第1の周波数領域データは、一ブロック中のダウンミックス信号の第2の周波数領域表示の厳密な計算に必要である。本発明による複素予測符号化を目的として、後続ブロック及び/又は先行するブロックからのデータを省略、またはゼロで置き換える(モジュールの動作が原因となる、すなわち遅延に貢献しない)ことにより、好適な近似を得られ、第2の周波数領域表示の計算が1つ又は2つの時間ブロックのみに基づくようにする。留意点として、入力データの省略は、例えば、もはや同じパワーを表さないという意味で、第2の周波数領域表示のリスケーリングを意味するが、上記の通り、エンコーダ側とデコーダ側の両方で等価な方法で計算されている限り、複素予測符号化の基礎として用いることができる。確かに、この種のリスケーリングは、予測係数値の対応する変化により、補償される。
【0033】
ダウンミックス信号の第2の周波数領域表示の一部を構成するスペクトル成分を計算するさらに他の近似方法は、第1の周波数領域表示からの少なくとも2つの成分の結合を含む。後者の成分は時間及び/又は周波数に関して隣接している。代替案として、後者の成分は、比較的少数のステップで、有限インパルス応答(FIR)フィルタリングにより結合できる。例えば、1024の時間ブロックサイズを用いるシステムでは、かかるFIRフィルタは2、3、4個等のタップを含む。この種の近似的計算方法の説明は、例えば、米国特許出願公開第2005/0197831A1号に見いだすことができる。各時間ブロック境界の近傍に比較的小さい重みを与える窓関数を、例えば非矩形関数を用いた場合、時間ブロックの第2のスペクトル成分を同じ時間ブロックの第1のスペクトル成分の組み合わせのみに基づかせると都合がよいが、最も外側の成分については同量の情報は得られないことになる。かかるプラクティスにより生じる可能性のある近似誤差は、ある程度抑えることができ、または窓関数の形状により隠蔽することができる。
【0034】
時間領域ステレオ信号を出力するように設計されたデコーダの一実施形態では、直接または同時ステレオ符号化と複素予測符号化との間で切り換える可能性がある。これは次のものを備えることにより実現できる。すなわち、
・(信号を変化させない)パススルー段階として、または和・差変換として選択的に動作可能なスイッチ;
・周波数・時間変換を行う逆変換段階;及び
・直接(または同時)符号化した信号を、または複素予測により符号化された信号を、逆変換段階に入力するセレクタ装置。
当業者が気づくように、デコーダの側にこのようなフレキシビリティがあるので、エンコーダは、従来の直接または同時符号化と、複素予測符号化とを選択する自由度を有する。よって、この実施形態は、従来の直接L/Rステレオ符号化や同時M/Sステレオ符号化の音質レベルを越えられない場合には、少なくとも、同じレベルを維持することを保証できる。よって、本実施形態によるデコーダは、関連技術に対して上位集合(superset)であるとみなすことができる。
【0035】
デコーダシステムの他の一群の実施形態は、時間領域を介して、第2の周波数領域表示の第2のスペクトル成分の計算を行う。より正確には、第1のスペクトル成分を求めた(又は求め得る)変換の逆変換を適用し、次に、出力として第2のスペクトル成分を有する異なる変換を行う。具体的に、逆MDCTの後にMDSTを行う。かかる実施形態では、変換と逆変換の数を減らすため、逆MDCTの出力を、MDSTと、復号システムの出力端子(場合によっては、さらにべつの処理ステップが前置されている)とに送る。
【0036】
本発明による複素予測ステレオ符号化の実施例の場合、計算の複雑さは、従来のL/RまたはM/Sステレオと比較してほんの少ししか増加しない(QMF領域における複素予測ステレオ符号化により生じる増加よりも大幅に少ない)ことが推測されている。
【0037】
前記パラグラフで言及した実施形態のさらなる発展として、アップミックス段階はサイド信号を処理するさらなる逆変換段階を有しても良い。そして、和・差段階に、前記さらなる逆変換段階により生成されたサイド信号の時間領域表示と、前述の逆変換により生成されたダウンミックス信号の時間領域表示とを供給する。再度述べるが、計算の複雑性の観点から、都合良く、後者の信号は、上述の和・差段階と異なる変換段階との両方に供給される。
【0038】
一実施形態では、時間領域ステレオ信号を出力するように設計されたデコーダは、直接L/Rステレオ符号化または同時M/Sステレオ符号化と、複素予測ステレオ符号化との間で切り換えが可能である。これは次のものを備えることにより実現できる。すなわち、
・パススルー段階として、または和・差段階として動作できるスイッチ;
・サイド信号の時間領域表示を計算するさらなる逆変換段階;
・逆変換段階を、(好ましくは、複素予測符号化により生成されたステレオ信号を復号する場合のように、スイッチがアクティブ化されパスフィルタとして機能するときに、)アップミックスの上流にあり、かつスイッチの下流にあるポイントに接続されたさらなる和・差段階に、または(好ましくは、直接符号化されたステレオ信号を復号する場合のように、スイッチがアクティブ化され、和・差段階として機能するときに、)スイッチからのダウンミックス信号と、重み付け加算器からのサイド信号との組み合わせに、接続するセレクタ装置。
当業者は気づくように、これはエンコーダに、従来の直接又は同時符号化と、複素予測符号化との間を選択する自由度を与え、すなわち直接又は同時ステレオ符号化と少なくとも等しい音質レベルを保証できる。
【0039】
一実施形態では、本発明の第2の態様によるエンコーダシステムは、残差信号の信号パワー又は平均信号パワーを低減又は最小化する目的で、複素予測係数を推定する推定器を有する。最小化はある時間にわたり、好ましくは符号化する時間セグメント又は時間ブロック又は時間フレームにわたり行われる。振幅の二乗を瞬間信号パワーの尺度とでき、振幅の二乗の一時間区間にわたる積分をその時間区間における平均信号パワーの尺度とできる。好適にも、複素予測係数は時間ブロックごとに、及び周波数帯域ごとに決定できる。すなわち、その値は、その時間ブロック及び周波数帯域における残差信号の平均パワー(すなわち、全エネルギー)を低減するように設定される。具体的に、IID、ICC及びIPD又は同様のパラメータなどのパラメトリックステレオ符号化パラメータを推定するモジュールは、当業者には知られた数学的関係により複素予測係数を計算できる出力を提供する。
【0040】
一実施形態では、エンコーダシステムの符号化段階は、直接ステレオ符号化を可能とするため、さらに、パススルー段階として機能する。直接ステレオ符号化がより高い音質を提供すると期待される状況では、これを選択することにより、エンコーダシステムは、符号化されたステレオ信号が少なくとも直接符号化と同じ音質を有することを保証できる。同様に、音質が大幅に向上しても複素予測符号化により生じる大きな計算負荷が望ましくない状況では、エンコーダシステムには、計算リソースを節約するオプションが容易に利用できる。コーダにおける同時、直接実予測符号化と、複素予測符号化との間の決定は、一般的に、レート/歪み最適化の原理に基づく。
【0041】
一実施形態では、エンコーダシステムは、第1のスペクトル成分に直接基づき(すなわち、時間領域に逆変換を適用せず、かつ信号の時間領域データを用いずに)第2の周波数領域表示を計算するモジュールを有する。上述のデコーダシステムの対応する実施形態に関して、このモジュールは、同様の構成を有する、すなわち、同様の、しかし異なる順序の処理動作を有し、エンコーダがデコーダ側の入力に適したデータを出力するように構成される。この実施形態を説明する目的で、符号化するステレオ信号は、ミッド及びサイドチャンネルを有し、又はこの構成に変換され、符号化段階は、第1の周波数領域表示を受け取るように構成されているものと仮定する。符号化段階は、ミッドチャンネルの第2の周波数領域表示を計算するモジュールを有する。(ここで参照する第1と第2の周波数領域表示は、上で定義した通りである;具体的に、第1の周波数領域表示はMDCT表示であってもよく、第2の周波数領域表示はMDST表示であってもよい。)符号化段階は、さらに、サイド信号と、ミッド信号の2つの周波数領域表示とから構成され、複素予測係数の実部と虚部により重み付けされた線形結合として、残差信号を計算する重み付け加算器を有する。ミッド信号は、または好適にもその第1の周波数領域表示は、ダウンミックス信号として直接用いられる。この実施形態では、さらに、残差信号のパワー又は平均信号パワーを最小化する目的で、推定器が複素予測係数の値を決定する。最終動作(最適化)は、フィードバック制御により、さらに必要であれば、推定器が、調整すべき現在の予測係数値により得られる残差信号を受け取るフィードバック制御により、またはフィードフォワード的に、元のステレオ信号の左/右チャンネルに又はミッド/サイドチャンネルで直接行った計算により、行われる。ミッド信号の第1と第2の周波数領域表示と、サイド信号の第1の周波数領域表示とに基づいて、複素予測係数が直接的に(特に、非反復的又は非フィードバック的に)計算されるフィードフォワード法が好ましい。留意点として、複素予測係数の決定後、各オプションで得られる品質(好ましくは、例えば信号対マスク効果を考慮した知覚的品質)を考慮して、直接、同時実予測符号化をするか、または複素予測符号化をするかの決定を行う。よって、上記のステートメントは、エンコーダにフィードバックメカニズムが存在しないという旨と解釈してはならない。
【0042】
一実施形態では、エンコーダシステムは、時間領域を介して、ミッド(すなわちダウンミックス)信号の第2の周波数領域表示を計算するモジュールを有する。この実施形態に関する実施の詳細事項は、少なくとも第2の周波数領域表示の計算に関する限り、同様であり、対応するデコーダの実施形態と同様に行うことができる。この実施形態では、符号化段階は、次のものを有する。すなわち:
・ステレオ信号をミッドチャンネルとサイドチャンネルに変換する和・差段階;
・サイドチャンネルの周波数領域表示と、ミッドチャンネルの複素値(すなわち、オーバーサンプリングされた)周波数領域表示とを提供する変換段階;及び
・複素予測係数を重みとして用いる、残差信号を計算する重み付け加算器。
ここで、推定器は、残差信号を受け取り、場合によってはフィードバック制御形式で、残差信号のパワーまたは平均パワーを低減または最小化する複素予測係数を決定する。しかし、好ましくは、推定器は、符号化するステレオ信号を受け取り、それに基づいて予測係数を決定する。サイドチャンネルのクリティカルサンプリングされた周波数領域表示を用いることは、計算の経済性の観点から有利である。この実施形態では、サイドチャンネルは複素数との乗算をされないからである。好適にも、変換段階は、並列に構成されたMDCT段階とMDST段階とを含み得る。両者は、ミッドチャンネルの時間領域表示を入力として有する。このように、ミッドチャンネルのオーバーサンプリングされた周波数領域表示と、サイドチャンネルのクリティカルサンプリングされた周波数領域表示とを生成する。
【0043】
留意点として、このセクションで開示した方法と装置は、通常の実験を含む当業者の能力の範囲内で適当な修正をして、2より多いチャンネルを有する信号の符号化に適用できる。かかるマルチチャンネルオペラビリティへの変更は、例えば、上で引用したJ.Herre等による論文のセクション4、5に即して行える。
【0044】
さらに別の実施形態では、上記の2つ以上の実施形態の特徴を、明らかに補完的でない限り、組み合わせられる。2つの特徴が異なるクレームに記載されていても、それらを組み合わせられないと言うわけではない。同様に、さらに別の実施形態では、所望の目的に対して必要でない、または本質的でない特徴を省略してもよい。一例として、本発明による復号システムは、処理する符号化信号が量子化されていない場合、又はアップミックス段階での処理に好適な形式にすでになっている場合、逆量子化段階無しに実施してもよい。
【図面の簡単な説明】
【0045】
添付した図面を参照して、次のセクションで説明する実施形態により、本発明をさらに説明する。
図1A】背景技術によるQMFベースデコーダを示すブロック図である。
図1B】背景技術によるQMFベースデコーダを示すブロック図である。
図2】本発明の一実施形態による複素予測を有するMDCTベースステレオデコーダシステムを示すブロック図である。復号される信号のチャンネルの複素表示は周波数領域で計算される。
図3】本発明の一実施形態による複素予測を有するMDCTベースステレオデコーダシステムを示すブロック図である。復号される信号のチャンネルの複素表示は時間領域で計算される。
図4図2のデコーダシステムの別の一実施形態を示す図である。アクティブTNS段階の位置は選択可能である。
図5】本発明の他の一態様の実施形態による、複素予測を有するMDCTベースステレオエンコーダシステムを示すブロック図である。
図6】本発明の一実施形態による複素予測を有するMDCTベースステレオエンコーダシステムを示すブロック図である。符号化される信号のチャンネルの複素表示はその時間領域表現に基づき計算される。
図7図6に示したエンコーダシステムの別の一実施形態を示す図である。このシステムは直接L/R符号化モードでも動作可能である。
図8】本発明の一実施形態による複素予測を有するMDCTベースステレオエンコーダシステムを示すブロック図である。符号化される信号のチャンネルの複素表示はその第1周波数領域表現に基づき計算される。このシステムは直接L/R符号化モードでも動作可能である。
図9図7に示したエンコーダシステムの別の一実施形態を示す図である。このシステムは、符号化段階の下流に配置されたTNS段階をさらに含む。
図10図2図8にラベルAで示した部分の別の実施形態を示す図である。
図11図8に示したエンコーダシステムの別の一実施形態を示す図である。このシステムは、符号化段階の上流と下流にそれぞれ配置された周波数領域修正デバイスをさらに含む。
図12】6サブジェクトからの96kb/sにおけるリスニングテスト結果を示すグラフであり、MDSTスペクトルの計算または近似のための異なる複雑性対音質トレードオフオプションを示している。ここで、ラベル「+」で示されたデータ点は隠れた基準を示す。「×」は3.5kHz帯域制限アンカーを示す。「*」はUSACによる従来のステレオ(M/SまたはL/R)を示す。「□」は、予測係数の虚部をディスエーブルした(すなわち、MDSTを必要としない実数値予測による)複素予測によるMDCT領域ユニファイドステレオ符号化を示す。「■」は、現在のMDCTフレームを用いてMDSTの近似値を計算する複素予測によるMDCT領域ユニファイドステレオ符号化を示す。「○」は、現在と前のMDCTフレームを用いてMDSTの近似値を計算する複素予測によるMDCT領域ユニファイドステレオ符号化を示す。「●」は、現在と前と次のMDCTフレームを用いてMDSTを計算する複素予測によるMDCT領域ユニファイドステレオ符号化を示す。
図13】現在のMDCTフレームを用いてMDSTの近似値を計算する複素予測によるMDCT領域ユニファイドステレオ符号化に関する差分スコアとして図12のデータを示す図である。
図14A】本発明の実施形態によるデコーダシステムの一実施形態を示すブロック図である。
図14B】本発明の実施形態によるデコーダシステムの他の一実施形態を示すブロック図である。
図14C】本発明の実施形態によるデコーダシステムのさらに他の一実施形態を示すブロック図である。
図15】本発明の一実施形態による復号方法を示すフローチャートである。
図16】本発明の一実施形態による符号化方法を示すフローチャートである。
【発明を実施するための形態】
【0046】
I.デコーダシステム
図2は、概略的なブロック図の形式で、少なくとも1つの複素予測係数値α=α+iαを有するビットストリームを復号する復号システムを示す。ステレオ信号のMDCT表現はダウンミックスMチャンネルと残差Dチャンネルを有する。予測係数の実部とαと虚部αは量子化され、及び/または同時符号化(coded jointly)されている。しかし、好ましくは、実部と虚部は独立かつ均一に、一般的にはステップサイズ0.1(無次元数)で、量子化される。MPEG標準によると、複素予測係数に用いる周波数帯域の解像度は、スケールファクタ帯域(sfb、すなわち同じMDCT量子化ステップサイズと量子化範囲を用いる一群のMDCTライン)の解像度と同じである必要はない。特に、予測係数の周波数帯域解像度は、バークスケール(Bark scale)のように音響心理学的に妥当なものである。デマルチプレクサ201は、供給されるビットストリームから、これらのMDCT表現と予測係数(図示した制御情報の一部)を取り出すように構成されている。実際、ビットストリームには、それを予測モードと非予測モードのどちらで復号するかという命令やTNS情報などの、複素予測係数以上の制御情報がエンコードされているTNS情報は、デコーダシステムのTNS(合成)フィルタにより使われるTNSパラメータの値を含む。両チャンネルなどの複数のTNSフィルタに同じ一組のTNSパラメータを用いる場合、パラメータの組のアイデンティティを示すビットの形式でこの情報を受け取る方が、二組のパラメータを別々に受け取るよりも、経済的である。例えば、2つのオプションの音響心理学的評価に基づき、TNSをアップミックス段階の前または後に適用するかの情報も含まれうる。さらに、制御情報はダウンミックス信号と残差信号の個別に制限された帯域幅を示す。各チャンネルに対して、帯域幅制限より上の周波数帯域は復号されず、ゼロに設定される。場合によっては、最も高い周波数帯域のエネルギーコンテンツは小さいので、量子化されたときにすでにゼロになっている。通常のプラクティス(MPEG標準のmax_sfbパラメータを参照)では、ダウンミックス信号と残差信号の両方に、同じ帯域幅制限を用いなければならない。しかし、残差信号は、ダウンミックス信号よりも大幅に、低周波数帯域に局限されたエネルギーコンテンツを有する。そのため、残差信号に専用の帯域幅上限を課すことにより、音質を大幅に損なわずに、ビットレートの削減が可能である。例えば、これは、ビットストリームにエンコードされた、ダウンミックス信号用と残差信号用の2つの独立なmax_sfbパラメータにより調節される。
【0047】
この実施形態では、ステレオ信号のMDCT表現は、一定数のデータポイント(例えば、1024ポイント)、複数の一定数のデータポイントのうちの1つ(例えば、128ポイント又は1024ポイント)、または可変数のポイントを含む、連続した時間フレーム(すなわち時間ブロック)にセグメント化される。当業者には既知であるが、MDCTはクリティカルにサンプリングされる。復号システムの出力は、図の右側部分に示したが、左Lチャンネルと右Rチャンネルを有する時間領域のステレオ信号である。逆量子化モジュール202は、復号システムに入力されたビットストリームを、必要に応じて、元のビットストリームを逆多重化後に得られるダウンミックスチャンネルと残差チャンネルのそれぞれに対応する2つのビットストリームを処理するように構成されている。逆量子化されたチャンネル信号は、変換行列
【数4】
に対応するパススルーモードで、又は変換行列
【数5】
に対応する和と差モードで動作できるスイッチングアセンブリ203に提供される。
次のパラグラフでさらに説明するように、デコーダシステムは第2のスイッチングアセンブリ205を含む。両スイッチングアセンブリ203、205は、この実施形態及びこれから説明する実施形態におけるその他のほとんどのスイッチやスイッチングアセンブリのように、周波数選択的に動作可能である。これにより、例えば、関連技術として知られているように、周波数依存のL/RまたはM/S復号などの非常に様々な復号モードの復号が可能になる。よって、本発明によるデコーダは、関連技術に対して上位集合(superset)であるとみなすことができる。
【0048】
ここでスイッチングアセンブリ203がパススルーモードであると仮定して、この実施形態では、逆量子化されたチャンネル信号はそれぞれのTNSフィルタ204をパススルーされる。TNSフィルタ204は、復号システムの動作には本質的ではなく、パススルー要素により置き換えることもできる。この後、信号は、上流に配置されたスイッチングアセンブリ203と同じ機能を有する第2のスイッチングアセンブリ205に供給される。上記の通り入力信号を入力され、パススルーモードに設定されていると、第2のスイッチングアセンブリ205の出力はダウンミックスチャンネル信号と残差チャンネル信号である。ダウンミックス信号は、時間的に連続したMDCTスペクトルで表されているが、ダウンミックス信号のMDSTスペクトルを計算するように構成された実・虚変換206に供給される。この実施形態では、1つのMDSTフレームは3つのMDCTフレームと、1つの前フレームと、1つの現在(すなわち同時)フレームと、1つの後フレームとに基づく。実・虚変換206の入力側が遅延コンポーネントを有することがシンボリックに(Z-1,Z)示されている。
【0049】
実・虚変換206から得られるダウンミックス信号のMDST表示は、予測係数の虚部αにより重み付けされ、予測係数の実部αと残差信号のMDCT表示により重み付けされたダウンミックス信号のMDCT表示に加えられる。2つの加算と乗算は、重み付け加算器210、211を(機能的に)構成する加算器及び乗算器により行われる。これらには、デコーダシステムにより最初に受け取られたビットストリームにエンコードされていた複素予測係数αの値が供給される。複素予測係数は時間フレームごとに1つ決定される。複素予測係数は、もっと頻繁に決定してもよく、フレーム中の周波数帯域ごとに1つ決定してもよい。周波数帯域は音響心理学的に動機付けされたパーティションである。本発明の符号化システムに関して後で説明するように、複素予測係数は、それほど頻繁に決定しなくてもよい。実・虚変換206は、ダウンミックスチャンネル信号の現在のMDSTフレームがダウンミックスチャンネル信号と残差チャンネル信号のそれぞれの同時MDCTフレームと結合されるように、重み付け加算器と同期している。これら3つの信号の和はサイド信号S=Re{αM}+Dである。この式で、Mはダウンミックス信号のMDCT表示とMDST表示を両方とも含み、すなわちM=MMDCT-iMMDSTである。D=DMDCTは実数値である。このように、ダウンミックスチャンネルとサイドチャンネルを有するステレオ信号が得られ、和差変換207は、このステレオ信号から
【数6】
により左チャンネルと右チャンネルを回復する。これらの信号はMDCT領域で表される。復号システムの最後のステップでは、各チャンネルに逆MDCT209を適用して、左右ステレオ信号の時間領域表示を求める。
【0050】
実・虚変換206の可能な実装は、上記の通り、出願人の米国特許第6,980,933B2号に詳しく説明されている。上記文献に記載された式41により、変換は有限インパルス応答フィルタとして表せる。例えば、偶数のポイントに対して、
【数7】
【数8】
である。その他の分かりやすいアプローチは米国特許出願公開第2005/0197831A1号に載っている。
【0051】
計算の基礎にする入力データ量をさらに減らすことが可能である。説明のため、図では「A」で示した部分である、実・虚変換206とその上流の接続を、単純化した変形例により置き換えてもよい。そのうちの2つ、A′とA′′を図10に示す。変形例A′は信号の虚数表示の近似を与える。ここで、MDST計算は現在フレーム及び前のフレームのみを考慮する。この段落の上記の式を参照して、p=0,...,N-1に対してXIII(p)=0と設定することにより行う(インデックスIIIは後の時間フレームを示す)。変形例A′は後のフレームのMDCTスペクトルを入力として必要としないので、MDST計算は時間遅延を生じない。明らかに、この近似により、得られるMDST信号の正確性はいくぶん低下するが、この信号のエネルギーも減少することを示唆する。予測符号化の性質として、後者はαを大きくすることにより完全に補償できる。
【0052】
変形例A′′を図10に示した。これは、現在の時間フレームのMDCTデータのみを入力として用いる。変形例A′′により得られるMDST表示は、変形例A′により得られるものより正確性で劣る。他方、変形例A′′は変形例A′のようにゼロ遅延で動作し、計算の複雑性が低い。前述の通り、エンコーダシステムとデコーダシステムで同じ近似を使っている限りでは、波形符号化特性には影響はない。
【0053】
留意点として、変形例A、A′またはA′′、またはこれらをさらに発展させたもののどれを使うかにかかわらず、MDSTスペクトルの複素予測係数の虚部がゼロでない、すなわちα≠0である部分のみを計算すればよい。実際的な状況では、これは、係数の虚部の絶対値|α|が所定閾値より大きいことを意味すると解することができる。この所定閾値は用いるハードウェアの単位の丸め(unit round-off)に関する。時間フレーム中のすべての周波数帯域の係数の虚部がゼロである場合、そのフレームについてMDSTデータを計算する必要はない。よって、やはり、実・虚変換206は、MDST出力を生成しないことにより、|α|の値が非常に小さい場合に応答するように構成されている。これにより計算資源を節約できる。しかし、現在フレーム以上のフレームを使ってMDSTデータの1フレームを生成する実施形態では、非ゼロ予測係数に関連する次の時間フレームが生じた時に、実・虚変換206に対して十分な入力データがあるように、変換206の上流のユニットは、MDSTスペクトルが必要なくても動作し続けなければならず、特に、第2スイッチングアセンブリ205は、MDCTスペクトルを転送し続けなければならない。これはもちろん次の時間ブロックである。
【0054】
図2に戻り、スイッチングアセンブリ203、205が両方ともそれぞれパススルーモードに設定されていると仮定して、復号システムの機能を説明した。ここで説明するように、デコーダシステムは予測符号化されたものではない信号も復号できる。この利用のために、第2のスイッチングアセンブリ205は、和・差モード(sum-and-difference mode)に設定され、図に示したように、セレクタ装置208は下ポジションに設定され、信号が、TNSフィルタ204と第2のスイッチングアセンブリ205の間のソースポイントから逆変換209に直接入力されるようになっている。正しい復号をするため、信号は適切にソースポイントにおいてL/R形式を有する。それゆえ、実・虚変換に(例えば、左信号により簡潔てきにではなく)常に正しいミッド(すなわち、ダウンミックス)信号を供給するため、非予測符号化ステレオ信号の復号時には、第2のスイッチングアセンブリ205を和・差モードに設定することが好ましい。上記の通り、予測符号化は、例えばデータレート対音質決定などに基づいて、従来の直接符号化または複数フレームの同時符号化により置き換えられる。かかる決定の結果は、いろいろな方法で、例えば各フレーム中の専用インジケータビットの値により、または予測係数値の存否により、エンコーダからデコーダに送られる。これら事実を立証すれば、第1のスイッチングアセンブリ203の役割は容易に実現できる。事実、非予測符号化モードでは、デコーダシステムは、直接(L/R)ステレオ符号化による信号と、同時(M/S)符号化による信号を両方とも処理できる。第1のスイッチングアセンブリ203をパススルーモードまたは和・差モードのいずれかで動作させることにより、直接符号化された信号とともに常にソースポイントが提供されるようにすることが可能である。明らかに、スイッチングアセンブリ203は、和・差段階で機能するとき、M/S形式の入力信号をL/R形式の出力信号に変換する(任意的なTNSフィルタ204に供給される)。
【0055】
デコーダシステムは、そのデコーダシステムによりある時間フレームを予測符号化モードで復号するか、非予測符号化モードで復号するかを示す信号を受け取る。非予測モードは、各フレーム中の専用インジケータビットの値により、または予測係数の存否(または値がゼロ)により、シグナリングされる。予測モードは同様にシグナリングすることができる。特に有利な実施形態は、オーバーヘッド無しのフォールバックを可能とするが、2ビットフィールドms_mask_present(MPEG-2 AAC、ISO/IEC 13818-7文書参照)の予約された第4の値を利用する。これは、時間フレームごとに送信され、次のように規定されており、次のように規定されている:
【表1】
値11を「複素予測符号化」を意味すると再定義することにより、デコーダは、ビットレートを損なわずに全レガシーモードで、特にM/S及びL/R符号化モードで、動作でき、関連するフレームの複素予測符号化モードを示す信号を受け取ることができる。
【0056】
図4は、一般的構成のデコーダシステムを示し、図2に示したものと同様であるが、少なくとも2つの異なる構成を含む。最初に、図4のシステムは、アップミックス段階の上流及び/又は下流に、周波数領域修正を含む処理ステップの適用を可能にするスイッチ404、411を含む。これは、一方で、逆量子化モジュール401と第1のスイッチングアセンブリ402の下流にあり、かつアップミックス段階406、407、408、409のすぐ上流に配置された第2のスイッチングアセンブリ405の上流にある、第1のスイッチ404とともに設けられた第1組の周波数領域モディファイア403(この図ではTNS合成フィルタとして描いた)により実現される。他方、デコーダシステムは、アップミックス段階406、407、408、409の下流にあり、逆変換段階412の上流にある、第2のスイッチ411とともに設けられた第2の組の周波数領域モディファイア410を含む。有利にも、図に示したように、各周波数領域モディファイアは、上流では周波数領域モディファイアの入力側に接続され、下流では関連スイッチに接続されたパススルーラインと並行して配置されている。この構成により、周波数領域モディファイアには常に信号データが供給され、現在の時間フレームだけでなくより多くの時間フレームに基づいた周波数領域における処理が可能になる。第1の組の周波数領域モディファイア403または第2の組の周波数領域モディファイア410のどちらを適用するかの決定は、エンコーダによりなされ(ビットストリームで送られ)、又は予測符号化が適用されるかに基づき、又は実際的な状況に適しているその他の基準に基づいてもよい。一例として、周波数領域モディファイアがTNSフィルタである場合、第1の組403はある種の信号に対する利用に有利であり、一方第2の組410は他の種類の信号に対する利用に有利である。この選択の結果がビットストリームにエンコードされている場合、デコーダシステムはTNSフィルタの各組を適宜アクティブ化する。
【0057】
図4に示したデコーダシステムの理解を容易にするため、明示的に留意しておくが、直接(L/R)符号化信号の復号はα=0(擬似L/RとL/Rは同じであり、サイドチャンネルと残差チャンネルが違わないことを示唆する)であり、第1のスイッチングアセンブリ402がパスモードであり、第2のスイッチングアセンブリが和・差モードであり、アップミックス段階の第2スイッチングアセンブル405と和・差段階409の間で信号がM/S形式である時に行われる。この時、アップミックス段階は有効にパスするステップであるから、(各スイッチ404、411を用いて)第1の組の周波数領域モディファイアまたは第2の組の周波数領域モディファイアがアクティブ化されているかは重要ではない。
【0058】
図3は、図2図4のデコーダシステムに関連して、アップミキシングに必要なMDSTデータの供給への異なるアプローチを表す、本発明の一実施形態によるデコーダシステムを示す。すでに説明したデコーダシステムと同様に、図3のシステムは、逆量子化モジュール301、パススルーモード又は和・差モードで動作可能な第1のスイッチングアセンブリ302、及びTNS(合成)フィルタ303を有する。これらはすべてデコーダシステムの入力端から直列に配置されている。このポイントの下流にあるモジュールは、2つの第2のスイッチ305、310により選択的に利用される。これらの第2のスイッチは、図示したように、両方が上ポジションか下ポジションになるよう、同時に動作することが好ましい。デコーダシステムの出力端には、和・差段階312があり、そのすぐ上流には、各チャンネルのMDCT領域表示を時間領域表示に変換する2つの逆MDCTモジュール306、311がある。
【0059】
複素予測復号では、デコーダシステムにダウンミックス/残差ステレオ信号と複素予測係数をエンコードしたビットストリームが供給され、第1のスイッチングアセンブリ302はパススルーモードに設定され、第2のスイッチ305、310は上ポジションに設定される。TNSフィルタの下流では、(逆量子化され、TNSフィルタされたMDCT)ステレオ信号の2つのチャンネルには違う処理がなされる。ダウンミックスチャンネルは、一方では、乗算器及び加算器308に供給される。乗算器及び加算器308は、予測係数の実部αで重み付けされたダウンミックスチャンネルのMDCT表示を、残差チャンネルのMDCT表示に加算する。他方では、複数のMDCT変換モジュールの1つ306に供給される。ダウンミックスチャンネルMの時間領域表示は、逆MDCT変換モジュール306からの出力であり、最終和・差段階312とMDST変換モジュール307の両方に供給される。このようにダウンミックスチャンネルの時間領域表示を二重で使うことは、計算の複雑性の観点から有利である。このように得られたダウンミックスチャンネルのMDST表示は、さらに別の乗算器及び加算器309に供給される。この乗算器及び加算器309は、予測係数の虚部αにより重み付けしてから、この信号を加算器308からの線形結合出力に加える。よって、加算器309の出力はサイドチャンネル信号S=Re{αM}+Dである。同様に、乗算器及び加算器308、309は、図2に示したデコーダシステムに結合され、ダウンミックス信号のMDCT表示とMDST表示、残差信号のMDCT表示、及び複素予測係数値を入力とする重み付けマルチ信号加算器を形成する。本実施形態において、このポイントの下流では、サイドチャンネル信号が最終和・差段階312に供給される前に、逆MDCT変換モジュール311を通る経路のみが残る。
【0060】
デコーダシステムにおいて必要な同期性は、両方の逆MDCT変換モジュール306、311において適用する変換長と窓形状を同じにすることにより、実現できる。これは、周波数選択的M/SおよびL/R符号化ですでに実用されている。逆MDCTモジュール306のある実施形態と、MDSTモジュール307のある実施形態を組み合わせると、1フレームの遅延が生じる。そのため、5つの任意的な遅延ブロック313(またはコンピュータ実施の場合にこの効果を発揮するソフトウェア命令)が設けられ、システムのうち破線の右側にある部分を、必要に応じて、左側にある部分に対して1フレーム遅延できる。明らかに、破線と接続ラインの間のすべての交点には遅延ブロックが設けられているが、逆MDCTモジュール306とMDST変換モジュール307の間の接続は例外であり、ここでは補償を要する遅延が生じる。
【0061】
1つの時間フレームのMDSTデータの計算には、時間領域表示の1フレームからのデータが必要である。しかし、逆MDCT変換には、1つのフレーム(現在フレーム)、2つの連続したフレーム(好ましくは、前のフレームと現在フレーム)、又は3つの連続したフレーム(好ましくは、前のフレーム、現在フレーム、及び後のフレーム)に基づく。MDCTに関連する周知の時間領域エイリアスキャンセレーション(TDAC)のため、3フレームオプションは入力フレームの完全なオーバーラップを実現し、少なくとも時間領域エイリアスを含むフレームでは、最も(場合によっては完全に)正確である。明らかに、3フレーム逆MDCTは1フレーム遅れで動作する。MDST変換への入力として近似的な時間領域表示の利用を許容することにより、この遅延を回避して、それにより、デコーダシステムの異なる部分間の遅延を補償する必要性を回避できる。2フレームオプションでは、フレームの前半でオーバーラップ/アッド・イネーブリングTDACが行われ、エイリアスは後半にのみ存在する。1フレームオプションでは、TDACが無いので、エイリアスはフレーム全体で生じる。しかし、このように実現され複素予測符号化で昼間信号として用いられるMDST表示は、十分なクオリティを提供できる。
【0062】
図3に示した復号システムは、2つの非予測復号モードでも動作できる。直接L/R符号化ステレオ信号を復号するため、第2のスイッチ305、310は下ポジションに設定され、第1のスイッチングアセンブリ302はパススルーモードに設定される。このように、この信号は、和・差段階304の上流では、L/R形式である。和・差段階304はこれをM/S形式に変換する。このM/S形式に逆MDCT変換と最終和・差演算が行われる。同時M/S符号化形式で提供されたステレオ信号を復号するため、第1のスイッチングアセンブリ302は和・差モードに設定され、第1のスイッチングアセンブリ302と和・差段階304の間で信号がL/R形式となるようにする。L/R形式は、TNSフィルタリングの観点から、M/S形式よりも適している。和・差段階304の下流における処理は、直接L/R復号の場合と同じである。
【0063】
図14(14Aないし14C)は、本発明の実施形態によるデコーダを示す3つのブロック図である。本願に添付した他のブロック図とは異なり、図14の接続線はマルチチャンネル信号を示す。具体的に、かかる接続線は、左/右、ミッド/サイド、ダウンミックス/残差、擬似左/擬似右のチャンネルその他の組み合わせを有するステレオ信号を送信するように構成されている。
【0064】
図14Aは、入力信号の周波数領域表示(この図の目的において、MDCT表示として示した)を復号するデコーダシステムを示す。デコーダシステムは、その出力として、ステレオ信号の時間領域表示を供給するように構成される。この表示は入力信号に基づき生成される。複素予測ステレオ符号化により符号化された入力信号を復号できるようにするため、デコーダシステムにはアップミックス段階1410が設けられている。しかし、他のフォーマットで符号化され、場合によっては時間の経過と共に複数の符号化フォーマット間で切り替わる入力信号を、例えば複素予測符号化により符号化された時間フレームのシーケンスに直接左/右符号化により符号化された時間部分が続く入力信号を、処理することも可能である。異なる符号化フォーマットを処理するデコーダシステムの機能は、前記アップミックス段階1410と並列に接続ライン(パススルー)を設けることにより実現される。スイッチ1411により、アップミックス段階1410からの出力(図の下スイッチポジション)と、接続ラインにより得られる処理されていない信号(図の上スイッチポジション)とのどちらを、さらに下流に配置されたデコーダモジュールに供給するか選択できる。この実施形態では、逆MDCTモジュール1412はスイッチの下流に配置されている。MDCTモジュール1412は、信号のMDCT表示を時間領域表示に変換する。一例として、アップミックス段階1410に供給される信号は、ダウンミックス/残差形式のステレオ信号であってもよい。次に、サイド信号を求め、(MDCT領域で)左/右ステレオ信号を出力するように和・差演算を行うため、アップミックス段階1410が適用される。
【0065】
図14Bは、図14Aに示したものと同様のデコーダシステムを示す。本システムは入力信号としてビットストリームを受け取るように構成されている。ビットストリームは、最初、結合されたデマルチプレクサ及び逆量子化モジュール1420により処理される。この結合されたデマルチプレクサ及び逆量子化モジュール1420は、図14Aに示したスイッチ1411と同様の機能を果たすスイッチ1422のポジションにより決まるように、第1の出力信号として、さらなる処理のため、マルチチャンネルステレオ信号のMDCT表示を提供する。より正確には、スイッチ1422は、デマルチプレクサ及び逆量子化からの第1の出力を、アップミックス段階1421と逆MDCTモジュール1423により処理するか(下ポジション)、逆MDCTモジュール1423のみにより処理するか(上ポジション)決定する。結合されたデマルチプレクサ及び逆量子化モジュール1420は制御情報も出力する。このケースでは、ステレオ信号に関連する制御情報は、スイッチ1422の上ポジション又は下ポジションが信号の復号に適しているか、より抽象的には、そのステレオ信号をどの符号化フォーマットに復号するか示すデータを含む。制御情報は、例えば、すでに説明したように、複素予測符号化で用いる複素予測係数αの値などの、アップミックス段階の特性を調節するパラメータも含む。
【0066】
図14Cは、図14Bに示したものと同様のエンティティに加えて、アップミックス段階1433の上流と下流にそれぞれ配置された第1と第2の周波数領域修正デバイス1431、1435を有する。この図面の目的において、各周波数領域修正デバイスはTNSフィルタにより例示されている。しかし、周波数領域修正デバイスとの用語は、TNSフィルタリング以外の、アップミックス段階の前後で適用できるプロセスであると理解することもできる。周波数領域修正の例には、予測、ノイズ付加、帯域幅拡張、非線形処理が含まれる。場合によっては、処理する信号の特性及び/又はかかる周波数領域修正デバイスの設定を含む、音響心理学的考察及び類似の理由から、前記周波数領域修正を、アップミックス段階1433の下流ではなく、その上流で適用する方が有利である。他の場合には、同様の考察から、周波数領域修正の下流での位置は、上流の方が好ましい。スイッチ1432、1436により、周波数領域修正デバイス1431,1435は、制御情報に応じて、デコーダシステムが所望の構成を選択できるように、選択的にアクティブ化される。一例として、図14Cは、結合されたデマルチプレクサ及び逆量子化モジュール1430からのステレオ信号が、第2の周波数領域調整デバイス1435を通らずに、最初に第1の周波数領域修正デバイス1431により処理され、次にアップミックス段階1433に供給され、最後に逆MDCTモジュール1437に直接転送される構成を示す。発明の概要欄に説明したように、この構成は、複素予測符号化におけるアップミックス後にTNSを行うオプションより好ましい。
【0067】
II.エンコーダシステム
本発明によるエンコーダシステムを、図5を参照して説明する。図5は、複素予測符号化により、出力ビットストリームとして、左/右(L/R)ステレオ信号を符号化するエンコーダシステムを示すブロック図である。このエンコーダシステムは、信号の時間領域または周波数領域の表示を受け取り、これをダウンミックス段階と予測係数推定器の両方に供給する。予測係数の実部と虚部は、左右チャンネルのダウンミックス及び残差チャンネルへの変換を制御するために、ダウンミックス段階に供給される。次に、ダウンミックス及び残差チャンネルは、最終的マルチプレクサMUXに供給される。信号は、周波数領域表示としてエンコーダに供給されなかった場合、ダウンミックス段階またはマルチプレクサで、かかる表示に変換される。
【0068】
予測符号化の原理の1つは、左/右信号をミッド/サイド形式に変換することであり、すなわち
【数9】
次にこれらのチャンネル間に残っている相関を用いる、すなわち
【数10】
と設定する。ここで、αは決定する複素予測係数であり、Dは残差信号である。残差信号のエネルギーD=S-Re{αM}を最小化するためにαを選択できる。エネルギーの最小化は、瞬間パワー、短期的エネルギー、又は長期的エネルギー(パワー平均)によりもたらされる。これは、離散信号の場合には、平均二乗の意味で最適化される。
【0069】
予測係数の実部とαと虚部αは量子化され、及び/または同時符号化(coded jointly)される。しかし、好ましくは、実部と虚部は独立かつ均一に、一般的にはステップサイズ0.1(無次元数)で、量子化される。MPEG標準によると、複素予測係数に用いる周波数帯域の解像度は、スケールファクタ帯域(sfb、すなわち同じMDCT量子化ステップサイズと量子化範囲を用いる一群のMDCTライン)の解像度と同じである必要はない。特に、予測係数の周波数帯域解像度は、バークスケール(Bark scale)のように音響心理学的に妥当なものである。留意点として、変換長が変わると、周波数帯域の解像度が変化する。
【0070】
前述の通り、本発明によるエンコーダシステムは、予測ステレオ符号化を適用するか否かの自由度を有する。後者の場合は、L/R又はM/S符号化へのフォールバックを示唆する。かかる決定は、時間フレームまたはそれより細かいベースで、または時間フレーム内の周波数帯域ベースで行える。上記の通り、その決定の否定的な結果は、いろいろな方法で、例えば各フレーム中の専用インジケータビットの値により、または予測係数値の存否(またはゼロ値)により、復号エンティティに送られる。肯定的決定も同様に送られる。特に有利な実施形態は、オーバーヘッド無しのフォールバックを可能とするが、2ビットフィールドms_mask_present(MPEG-2 AAC、ISO/IEC 131818-7文書参照)の予約された第4の値を利用する。これは、時間フレームごとに送信され、次のように規定されており、次のように規定されている:
【表2】
値11を「複素予測符号化」を意味すると再定義することにより、エンコーダは、ビットレートを損なわずに全レガシーモードで、特にM/S及びL/R符号化モードで、動作でき、有利であれば、フレームの信号複素予測符号化を示す信号を受け取ることができる。
【0071】
実質的な決定は、データレート対音質原理に基づいてもよい。(入手可能なMDCTベースのオーディオエンコーダの場合にはよくあることだが、)音質の尺度として、エンコーダに含まれる音響心理学的モデルを用いて得られたデータを使っても良い。具体的に、エンコーダの実施形態には、予測係数のレート歪み最適化選択をするものもある。したがって、かかる実施形態では、予測ゲインの増加により残差信号の符号化のために十分なビットを節約せず、予測係数の符号化に必要なビットの使用を正当化できない場合、予測係数の虚部は、及び場合によっては実部も、ゼロに設定される。
【0072】
エンコーダの実施形態は、TNS関連の情報をビットストリームにエンコードする。かかる情報は、デコーダサイドでTNS(合成)フィルタにより使われるTNSパラメータの値を含む。両方のチャンネルで同じTNSパラメータの組を使う場合、2つの組のパラメータを別々に送信するよりも、パラメータが同じ事を示すシグナリングビットを含めると経済的である。例えば、2つのオプションの音響心理学的評価に基づき、TNSをアップミックス段階の前または後に適用するかの情報も含まれうる。
【0073】
さらに他の任意的な一特徴として、これは複雑性とビットレートの観点から潜在的に有益なものであるが、エンコーダは残差信号の符号化のために、個別に制限された帯域幅を使うように構成される。この限界より上の周波数帯域はデコーダに送信されず、ゼロに設定される。場合によっては、最も高い周波数帯域のエネルギーコンテンツは小さいので、量子化されたときにすでにゼロになっている。通常のプラクティス(MPEG標準のmax_sfbパラメータを参照)では、ダウンミックス信号と残差信号の両方に、同じ帯域幅制限の使用を必要とする。ここで、発明者は経験的に、残差信号が、ダウンミックス信号よりも大幅に、低周波数帯域に局限されたエネルギーコンテンツを有することを見いだした。そのため、残差信号に専用の帯域幅上限を課すことにより、音質を大幅に損なわずに、ビットレートの削減が可能である。例えば、これは、ダウンミックス信号用と残差信号用の2つの独立なmax_sfbパラメータにより送信することにより実現される。
【0074】
指摘しておくが、図5に示したデコーダシステムを参照して予測係数、量子化とその符号化、M/S又はL/Rモードへのフォールバック、TNSフィルタリング、及び帯域幅上限などの最適な決定の問題を説明したが、同じ事が、後続の図面を参照して説明する実施形態において開示する実施形態にも等しく適用可能である。
【0075】
図6は、複素予測ステレオ符号化を行うように構成された、本発明による他のエンコーダシステムを示す。このシステムは、連続した、場合によってはオーバーラップした時間フレームに分割され、左右チャンネルを含むステレオ信号の時間領域表示を入力として受け取る。和・差段階601は、この信号をミッドチャンネルとサイドチャンネルに変換する。ミッドチャンネルはMDCTモジュール602とMDSTモジュール603の両方に供給され、サイドチャンネルはMDCTモジュール604のみに供給される。予測係数水滴605は、上記の通り、各時間フレームに対して、及び場合によってはフレーム内の個々の周波数帯域に対して、複素予測係数の値を推定する。係数の値αは、重み付け加算器606、607に重みとして供給される。重み付け加算器606,607は、ミッド信号のMDCT及びMDST表示と、サイド信号のMDCT表示の線形結合として、残差信号Dを構成する。好ましくは、複素予測係数は、それがビットストリームにエンコードされる時に用いられる同じ量子化スキームにより表された重み付け加算器606、607に供給される。これは、エンコーダとデコーダが両方とも同じ予測係数の値を用いるので、明らかに、より忠実な再構成を提供する。残差信号、ミッド信号(残差信号と組み合わせて現れる時にはダウンミックス信号と呼んだ方がより適切である)、及び予測係数は結合された量子化及びマルチプレクサ段階608に供給される。結合された量子化及びマルチプレクサ段階608は、これらの信号及び場合によってはさらに別の情報を出力ビットストリームとしてエンコードする。
【0076】
図7は、図6に示したエンコーダの変形例である。図の記号が同様なことから分かるように、図7に示したエンコーダの構成は同様であるが、直接L/R符号化フォールバックモードで動作するという機能が付加されている。エンコーダシステムは、結合された量子化及びマルチプレクサ段階709のすぐ上流に設けられたスイッチ710により、複素予測符号化モードとフォールバックモードとの間でアクティブ化される。スイッチ710が上ポジションにあると、エンコーダはフォールバックモードで動作する。ミッド・サイド信号は、MDCTモジュール702,704のすぐ下流のポイントから、和・差段階705に供給される。和・差段階705は、その信号を左/右信号に変換した後、スイッチ710に送る。スイッチ710は、その信号を結合された量子化及びマルチプレクサ段階709に接続する。
【0077】
図8は、本発明によるエンコーダシステムを示す図である。図6図7に示したエンコーダシステムと異なり、この実施形態は、複素予測符号化に必要なMDSTデータをMDCTデータから直接的に、すなわち周波数領域における実・虚変換により求める。実・虚変換は、図2図4のデコーダシステムに関して説明したいずれかのアプローチを適用する。忠実な復号を行えるように、デコーダの計算方法をエンコーダの計算方法と一致させることが重要である。エンコーダ側とデコーダ側とで同じ実・虚変換方法を用いる。デコーダの実施形態について、破線で囲んだ、実・虚変換804を有する部分Aは、これに近い変形例や、使う入力時間フレームを少なくすることにより置き換えできる。同様に、上記のいずれかの近似アプローチを用いて符号化を単純化できる。
【0078】
高レベルでは、図8のエンコーダシステムは、(適切に接続された)実・虚モジュールにより、図7のMDSTモジュールを単に置き換えることにより得られるだろう構成とは異なる構成を有する。このアーキテクチャはきれいであり、ロバストかつ計算量的に経済的に、予測符号化と直接L/R符号化との間の切り替え機能を実現できる。入力ステレオ信号はMDCT変換モジュール801に入力され、MDCT変換モジュール801は各チャンネルの周波数領域表示を出力する。これは、エンコーダシステムを予測符号化モードと直接符号化モードの間で起動するファイナルスイッチ808と、和・差段階802との両方に送られる。直接L/R符号化、または予測係数αがゼロに設定された時間フレームで行われる同時M/S符号化において、この実施形態は、入力信号をMDCT変換、量子化、及び多重化のみする。後から2つのステップは、システムの出力端に配置された結合された量子化及びマルチプレクサ段階807により行われ、ビットストリームが供給される。予測符号化では、各チャンネルは、和・差段階802とスイッチ808との間でさらに処理される。実・虚変換804は、ミッド信号のMDCT表示からMDSTデータを求め、それを予測係数推定器803と重み付け加算器806の両方に送る。図6図7に示したエンコーダシステムと同様に、別の重み付け加算器805を用いて、サイド信号をミッド信号の重み付けMDCTとMDST表示と結合し、残差チャンネル信号を構成する。残差チャンネル信号は、結合された量子化及びマルチプレクサ段階807により、ミッド(すなわち、ダウンミックス)チャンネル信号と予測係数とともにエンコードされる。
【0079】
ここで図9を参照して、エンコーダシステムの各実施形態は1つまたはそれ以上のTNS(分析)フィルタと結合できることを説明する。前述の通り、TNSフィルタリングをダウンミックス形式の信号に適用することは有利であることが多い。よって、図9に示したように、図7のエンコーダシステムをTNSを含むように適応させることは、結合された量子化及びマルチプレクサ段階909のすぐ上流にTNSフィルタ911を加えることにより行われる。
【0080】
右/残差TNSフィルタ911bの替わりに、右チャンネルまたは残差チャンネルを処理するように構成された2つのTNSフィルタ(図示せず)をスイッチ910の部分のすぐ上流に設けてもよい。このように、2つのTNSフィルタのそれぞれには、常に各チャンネル信号が供給され、現在フレームだけより多い時間フレームに基づくTNSフィルタリングが可能である。前述の通り、TNSフィルタは、周波数領域修正デバイスの一例であり、特に現在時間フレームより多いフレームの処理に基づくデバイスである。これは、TNSフィルタと同じくらいまたはそれ以上に、かかる配置から利益を得る。
【0081】
図9に示した実施形態の他の一代替として、選択的アクティブ化のためのTNSフィルタを、各チャンネルに対して1つ以上のポイントで構成できる。これは、スイッチにより異なる組のTNSフィルタを接続できる、図4に示したデコーダシステムの構成と同様である。これにより、各時間フレームに対して、TNSフィルタリングのために最も適した段階を選択できる。特に、複素予測ステレオ符号化モードとその他の符号化モードとの間の切り替えに関して、異なるTNSロケーションの間でスイッチすることは、有利である。
【0082】
図11は、図8のエンコーダシステムに基づく変形例であって、ダウンミックス信号の第2の周波数領域表示を実・虚変換1105により求めるものを示す。図4に示したデコーダシステムと同様に、このエンコーダシステムも、選択的にアクティブ化可能な周波数領域モディファイアモジュールを含み、そのうちの1つ1102はダウンミックス段階の上流に設けられ、1つ1109はその下流に設けられている。周波数領域モジュール1102、1109は、この図ではTNSフィルタにより例示したが、4つのスイッチ1103a,1103b,1109a及び1109bを用いて各信号経路に接続できる。
【0083】
III.非装置実施形態
本発明の第3と第4の態様の実施形態を図15と16に示す。図15は、ビットストリームをステレオ信号に復号する方法を示し、次のステップを有する:
1.ビットストリームを入力する。
2.ビットストリームを逆量子化し、それによりステレオ信号のダウンミックスチャンネルと残差チャンネルの第1の周波数領域表示を求める。
3.ダウンミックスチャンネルの第2の周波数領域表示を計算する。
4.チャンネルの3つの周波数領域表示に基づき、サイドチャンネル信号を計算する。
5.ステレオ信号を、好ましくは左/右形式のものを、サイドチャンネルとダウンミックスチャンネルに基づき計算する。
6.こうして求めたステレオ信号を出力する。
ステップ3乃至ステップ5は、アップミキシングのプロセスと考えてもよい。ステップ1から6はそれぞれ、本書類の前出の部分で開示したいずれかのデコーダシステムの対応する機能と同様であり、実装に関する詳細事項は同部分から読み取ることができる。
【0084】
図16は、ステレオ信号をビットストリーム信号にエンコードする方法を示し、次のステップを有する:
1.ステレオ信号を入力する。
2.ステレオ信号を第1周波数領域表示に変換する。
3.複素予測係数を決定する。
4.周波数領域表示をダウンミックスする。
5.ダウンミックスチャンネルと残差チャンネルを、複素予測係数とともにビットストリームとしてエンコードする。
6.ビットストリームを出力する。
ステップ1から5はそれぞれ、本書類の前出の部分で開示したいずれかのエンコーダシステムの対応する機能と同様であり、実装に関する詳細事項は同部分から読み取ることができる。
【0085】
両方法は、ソフトウェアプログラムの形式のコンピュータ読み取り可能命令として表現でき、コンピュータで実行できる。本発明の保護の範囲は、かかるソフトウェアと、かかるソフトウェアを配布するためのコンピュータプログラム製品とに及ぶ。
【0086】
IV.実験的評価
ここに開示した実施形態を実験的に評価した。このプロセスで得られた実験的資料の最も重要な部分を以下にまとめる。
【0087】
実験に用いた実施形態は次の特徴を有する:
(i)(時間フレームの)各MDSTスペクトルを、現在の、前の、及び次のMDCTスペクトルから2次元有限インパルス応答フィルタリングにより計算した。
(ii)USACステレオエンコーダからの音響心理学的モデルを用いた。
(iii)PSパラメータICC、CLD及びIPDの代わりに、複素予測係数αの実部と虚部が送信を送信した。実部と虚部は、別々に処理され、[-3.0, 3.0]の範囲に制限され、0.1のステップサイズを用いて量子化される。時間微分符号化し、最終的にUSACのスケールファクタコードブックを用いてハフマン符号化する。予測係数は1スケールファクタ帯域おきに更新され、周波数解像度がMPEGサラウンド(例えば、ISO/IEC23003-1参照)と同様になった。この量子化および符号化スキームにより、目標ビットレートが96kb/sの一般的な構成において、ステレオサイド情報の平均ビットレートが約2kb/sになった。
(iv)2ビットのms_mask_presentビットストリーム要素の取り得る値は3つしかないので、現在のUSACビットストリームを壊すことなく、ビットストリームフォーマットを修正した。複素予測を示す第4の値を用いることにより、ビットを無駄にせずに、基本的なミッド/サイド符号化のフォールバックモードを許した(これについては、本開示の前のサブセクションを参照されたい)。
【0088】
ヘッドホンで再生し、サンプリングレートが48kHzの8テストアイテムを用いたMUSHRA法によりリスニングテストを行った。各テストには3人、5人または6人の被験者が参加した。
【0089】
MDST近似が異なることによるインパクトを評価して、これらのオプションの間にある実際的な複雑さ対音質のトレードオフを示した。結果を図12図13に示した。前者は得られた絶対スコアを示し、後者は96s USAC cplfに対する、すなわちMDSTの近似値を計算するために現在のMDCTフレームを用いた複素予測によるMDCT領域統一ステレオ符号化に対する差分スコアを示す。MDCTベース統一ステレオ符号化により実現される音質ゲインは、MDSTスペクトルを計算するのに計算的により複雑なアプローチを用いると、増加することが分かる。 テスト全体の平均を考えると、単一フレームベースシステム96s USAC cplfにより、従来のステレオ符号化に対して、符号化効率が大幅に上昇する。同様に、96s USAC cp3fの場合、すなわち、MDSTを計算するために、現在の、前の、及び次のMDCTフレームを用いる複素予測によるMDCT領域統一ステレオ符号化の場合、さらによい結果が得られる。
【0090】
V. 実施形態
さらに、本発明は、次のように実施できる。
【0091】
複素予測ステレオ符号化によりビットストリーム信号を復号してステレオ信号にするデコーダシステムであって:
前記ビットストリームに基づきダウンミックス信号(M)と残差信号(D)の第1の周波数領域表示を提供する逆量子化段階(202,401)であって、各周波数領域表示は多次元空間の第1の副空間で表された対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を有し、前記第1のスペクトル成分は変換係数の時間フレームに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成される、逆量子化段階;および
前記逆量子化段階の下流に配置された、前記ダウンミックス信号と前記残差信号に基づき前記ステレオ信号を生成するように構成され:
前記ダウンミックス信号の前記第1の周波数領域表示に基づいて前記ダウンミックス信号の第2の周波数領域表示を計算するモジュール(206;408)であって、前記第2の周波数領域表示は前記第1の副空間には含まれない前記多次元空間の一部を含む前記多次元空間の第2の副空間で表現された前記信号のスペクトルコンテンツを表す第2のスペクトル成分を有し、前記モジュールは、前記第1のスペクトル成分から第1の中間成分を求め;インパルス応答の少なくとも一部により前記第1のスペクトル成分の結合を構成して第2の中間成分を求め;および前記第2の中間成分から前記第2のスペクトル成分を求めるように構成された、モジュール;
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第1と第2の周波数領域表示と、前記残差信号の第1の周波数領域表示と、複素予測係数(α)とに基づいてサイド信号を計算する重み付け加算器(210,211;406,407);および
前記ダウンミックス信号と前記サイド信号の第1の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階(207;409)、を有するアップミックス段階(206,207,210,211,406,407,408,409)を有する。
【0092】
さらに、本発明は、次のように実施できる。すなわち、複素予測ステレオ符号化によりビットストリーム信号を復号してステレオ信号にするデコーダシステムであって:
前記ビットストリーム信号に基づきダウンミックス信号(M)と残差信号(D)の第1の周波数領域表示を提供する逆量子化段階(301)であって、前記第1の周波数領域表示の各々は多次元空間の第1の副空間で表された対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を有する、逆量子化段階;及び
前記逆量子化段階の下流に配置された、前記ダウンミックス信号と前記残差信号に基づき前記ステレオ信号を生成するように構成され:
前記ダウンミックス信号の第1の周波数領域表示に基づき、前記ダウンミックス信号の第2の周波数領域表示を計算するモジュール(306,307)であって、前記第2の周波数領域表示は第1の副空間に含まれない前記多次元空間の部分を含む前記多次元空間の第2の副空間で表された前記信号のスペクトルコンテンツを有し、前記多次元空間の第1の副空間の前記ダウンミックス信号の第1の周波数領域表示に基づき、前記ダウンミックス信号の時間領域表示を計算する逆変換段階(306);及び前記信号の時間領域表示に基づき前記ダウンミックス信号の第2の周波数領域表示を計算する変換段階(307)を有する、モジュール;
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第1と第2の周波数領域表示と、前記残差信号の第1の周波数領域表示と、複素予測係数(α)とに基づいてサイド信号を計算する重み付け加算器(308,309);および
前記ダウンミックス信号と前記サイド信号の第1の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階(312)、を有するアップミックス段階(306,307,308,309,312)を有する。
【0093】
また、本発明は、次のように実施できる。独立のデコーダシステムの請求項に記載した特徴を有するデコーダシステムであって、ダウンミックス信号の第2の周波数領域表示を計算するモジュールは:
前記多次元空間の第1の副空間における各信号の第1の周波数領域表示に基づき、前記ダウンミックス信号及び/又は彩度信号の時間領域の表示を計算する逆変換段階(306);及び
前記信号の時間領域表示に基づき各信号の第2の周波数領域表示を計算する変換段階(307)を有し、
好ましくは、前記逆変換段階(306)は逆修正離散余弦変換を行い、前記変換段階は修正離散余弦変換を行う。
【0094】
上記のデコーダシステムにおいて、ステレオ信号は時間領域で表されてもよく、デコーダシステムはさらに次のものを有してもよい:
(a)同時ステレオ符号化に用いるパススルー段階;又は(b)直接ステレオ符号化に用いる和・差段階のいずれかとして機能できる、前記逆量子化段階と前記アップミックス段階の間に配置されたスイッチングアセンブリ(302);
前記サイド信号の時間領域表示を計算する、前記アップミックス段階に配置されたさらなる逆変換段階(311);
(a)前記スイッチングアセンブリ(302)の下流かつ前記アップミックス段階の上流のポイントに接続されたさらなる和・差段階(304);または(b)前記スイッチングアセンブリ(302)から得られるダウンミックス信号と前記重み付け加算器(308,309)から得られるサイド信号のいずれかに選択的に接続されるように構成された、前記逆変換段階(306,301)の上流に配置されたセレクタ装置(305,310)。
【0095】
VI.結語
本発明のさらなる実施形態は、上記の説明を読めば、当業者には明らかになるだろう。本明細書と図面は実施形態と実施例を開示しているが、本発明はこれらの具体的な例に制約されない。添付した特許請求の範囲で規定した本発明の範囲から逸脱することなく、多数の修正や変形をすることができる。
【0096】
留意点として、この出願で開示した方法と装置は、通常の実験を含む当業者の能力の範囲内で適当な修正をして、2より多いチャンネルを有する信号の符号化に適用できる。強調しておくが、説明した実施形態に関連して述べた信号、パラメータ、及び行列は、周波数可変または周波数不変及び/又は時間可変または時間不変であってもよい。説明した計算ステップは、周波数ごとに、または一度にすべての周波数に対して行え、すべてのエンティティは周波数選択的動作を有するように実施できる。出願の目的において、任意の量子化スキームを音響心理学モデルにより適応できる。さらに、留意点として、様々な和・差変換、すなわちダウンミックス/残差形式から擬似L/R形式への変換及びL/R-to-M/S変換及びM/S-to-L/R変換はすべて次の形式
【数11】
であり、単にゲインファクタgのみが変化する。よって、ゲインファクタを個別に調整することにより、復号ゲインを適切に選択することにより、符号化ゲインを補正することができる。さらに、当業者には明らかなように、偶数個の直列に配置された差・差変換は、パススルー段階に影響を及ぼし、場合によってゲインは1ではない。
【0097】
ここに開示したシステムと方法は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせとして実施できる。一部または全部のコンポーネントは、デジタルシグナルプロセッサやマイクロプロセッサにより実行されるソフトウェアとして実施でき、またはハードウェアまたは特定目的集積回路として実施できる。かかるソフトウェアは、コンピュータ読み取り可能媒体で配布可能である。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と通信媒体を含む。当業者には周知だが、コンピュータ記憶媒体には、コンピュータ読み取り可能命令、データ構造、プログラムモジュールその他のデータなどの情報を記憶するための任意の方法や技術で実施された、揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリその他のメモリ技術、CD-ROM、デジタルバーサタイルディスク(DVD)その他の光ディスク記憶媒体、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶デバイス、またはその他の、所望の情報の記憶に使える任意の媒体を含むが、これらに限定されない。さらに、当業者には知られているように、通信媒体は、一般的に、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、その他の搬送波その他の伝送メカニズムなどの変調データ信号中のデータを化体し、任意の情報配信媒体を含む。
なお、次の付記を記す。
(付記1) 複素予測ステレオ符号化によりステレオ信号を提供するデコーダシステムであって、
ダウンミックス信号と残差信号の第1の周波数領域表示に基づいて、前記ステレオ信号を生成するように構成されたアップミックス段階であって、各第1の周波数領域表示は多次元空間の第1の副空間で表された対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を有するアップミックス段階を有し、前記アップミックス段階は、
前記ダウンミックス信号の第1の周波数領域表示に基づき、前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールであって、前記第2の周波数領域表示は、前記第1の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第2の副空間で表された信号のスペクトルコンテンツを表す第2のスペクトル成分を有する、モジュールと、
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第1と第2の周波数領域表示と、前記残差信号の第1の周波数領域表示と、複素予測係数とに基づいてサイド信号を計算する重み付け加算器と、
前記ダウンミックス信号と前記サイド信号の第1の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階を有するアップミックス段階とを有し、
前記アップミックス段階は、さらに、前記ダウンミックス信号と残差信号が前記和・差段階に直接供給されるパススルーモードで動作可能である、デコーダシステム。
(付記2) 前記ダウンミックス信号と残差信号は時間フレームにセグメント化され、前記アップミックス段階は、各時間フレームについて、そのフレームに関連する2ビットデータフィールドを受け取り、前記データフィールドの値に応じて、アクティブモードまたはパススルーモードで動作するように構成された、
付記1に記載のデコーダシステム。
(付記3) 前記ダウンミックス信号と残差信号は時間フレームにセグメント化され、
前記アップミックス段階は、さらに、MPEGビットストリームにおいて、各時間フレームについて、そのフレームに関連するms_mask_presentフィールドを受け取り、前記ms_mask_presentフィールドの値に応じて、アクティブモードまたはパススルーモードで動作するように構成された、
付記1に記載のデコーダシステム。
(付記4) ビットストリーム信号に基づいて、前記ダウンミックス信号と残差信号の前記第1の周波数領域表示を提供する、前記アップミックス段階の上流に配置された逆量子化段階をさらに有する、
付記1ないし3いずれか一項に記載のデコーディングシステム。
(付記5) 前記第1のスペクトル成分は前記第1の副空間で表された実数値を有し、
前記第2のスペクトル成分は前記第2の副空間で表された虚数値を有し、
任意的に、前記第1のスペクトル成分は、離散余弦変換DCT又は修正離散余弦変換MDCTのうち一方により求められ、
任意的に、前記第2のスペクトル成分は、離散正弦変換DST又は修正離散正弦変換MDSTのうち一方により求められる、
付記1ないし4いずれか一項に記載のデコーダシステム。
(付記6) 前記アップミックス段階の上流に配置された少なくとも1つの時間的ノイズシェーピングTNSモジュールと、
前記アップミックス段階の下流に配置された少なくとも1つのさらなるTNSモジュールと、
(a)前記アップミックス段階の上流の前記TNSモジュール、または(b)前記アップミックス段階の下流にある前記さらなるTNSモジュールのうちいずれかを選択的にアクティブ化するセレクタ装置とを有する
付記1ないし5いずれか一項に記載のデコーダシステム。
(付記7) 前記ダウンミックス信号は連続した時間フレームにパーティションされ、各時間フレームは複素予測係数の値に関連し、
前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールは、前記複素予測係数の虚部の絶対値が時間フレームの所定の許容値より小さいことに応じて、自身を非アクティブ化して、その時間フレームに対して出力を生成しないようにするように構成された、
付記5に記載のデコーダシステム。
(付記8) 前記ダウンミックス信号時間フレームはさらに周波数帯域にパーティションされ、各周波数帯域には前記複素予測係数の値が伴い、
前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールは、前記複素予測係数の虚部の絶対値が時間フレームの周波数帯域の所定の許容値より小さいことに応じて、自身を非アクティブ化して、その周波数帯域に対して出力を生成しないようにするように構成された、
付記7に記載のデコーダシステム。
(付記9) 前記第1のスペクトル成分は変換係数の時間フレームに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成され、
前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールは、前記第1のスペクトル成分から第1の中間成分を求め、インパルス応答の少なくとも一部により前記第1のスペクトル成分の結合を構成して第2の中間成分を求め、前記第2の中間成分から第2のスペクトル成分を求める、
付記1ないし8いずれか一項に記載のデコーダシステム。
(付記10) インパルス応答の一部は、前記変換の周波数応答特性に基づき、
任意的に、前記変換の周波数応答特性は、前記信号の時間セグメントへの変換に適用された分析窓関数の特性に応じる、
付記9に記載のデコーダシステム。
(付記11) 前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールは、
(a)第1のスペクトル成分の同時時間フレーム、
(b)第1のスペクトル成分の同時および前の時間フレーム、及び
(c)第1のスペクトル成分の同時、前の、及び後の時間フレームのうちの1つに基づいて、第2のスペクトル成分の各時間フレームを求めるように構成された、
付記9または10に記載のデコーダシステム。
(付記12) 前記ダウンミックス信号の第2の周波数領域表示を計算するモジュールは、少なくとも2つの時間的に隣接した、及び/又は周波数的に隣接した第1のスペクトル成分の組み合わせにより決定された近似的な第2のスペクトル成分を有する近似的第2のスペクトル表示を計算するように構成されている、
付記1ないし11いずれか一項に記載のデコーダシステム。
(付記13) 前記ステレオ信号は時間領域で表され、デコーダシステムはさらに、
(a)パススルー段階、又は(b)和・差段階のいずれかとして機能でき、それにより直接及び同時符号化ステレオ入力信号の間を切り替えられる、前記逆量子化段階と前記アップミックス段階の間に配置されたスイッチングアセンブリと、
前記ステレオ信号の時間領域表示を計算するように構成された逆変換段階と、
前記逆変換段階の上流に配置され、これを、(a)複素予測により求めたステレオ信号が前記逆変換段階に供給される、前記アップミックス段階の下流のポイントに、又は(b)直接ステレオ符号化により求めたステレオ信号が前記逆変換段階に供給される、前記スイッチングアセンブリの下流であり、かつ前記アップミックス段階の上流であるポイントのいずれかに選択的に接続するように構成されたセレクタ装置とを有する、
付記1ないし12いずれか一項に記載のデコーダシステム。
(付記14) 複素予測を用いてステレオ信号を、ダウンミックスチャンネル、残差チャンネル、及び複素予測係数を有する信号としてエンコードするエンコーダシステムであって、
複素予測係数を推定する推定器と、
(a)前記ステレオ信号を、前記複素予測係数の値により決定される関係を有するダウンミックス信号と残差信号の周波数領域表示に変換し、(b)パススルー段階として動作して、エンコードする前記ステレオ信号をマルチプレクサに直接供給するように動作可能な符号化段階とを有する、エンコーダシステム。
(付記15) 複素予測ステレオ符号化によりビットストリーム信号によりステレオ信号をエンコードするように構成され、さらに
前記符号化段階と推定器からの出力を受け取り、前記ビットストリーム信号によりエンコードするマルチプレクサをさらに有する、
付記14に記載のエンコーダシステム。
(付記16) 前記推定器は、前記残差信号のパワーの時間または前記残差信号の平均パワーに対する最小化により、前記複素予測係数を決定する、
付記14または15に記載のエンコーダシステム。
(付記17) 前記ステレオ信号はダウンミックスチャンネルとサイドチャンネルを有し、
前記符号化段階は前記ステレオ信号の第1の周波数領域表示を受け取るように構成され、前記第1の周波数領域表示は多次元空間の第1の副空間で表された対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を有し、
前記符号化段階はさらに、
前記ダウンミックス信号の第1の周波数領域表示に基づき、前記ダウンミックスチャンネルの第2の周波数領域表示を計算するモジュールであって、前記第2の周波数領域表示は、前記第1の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第2の副空間で表された信号のスペクトルコンテンツを表す第2のスペクトル成分を有する、モジュールと、
前記ダウンミックスチャンネルの第1と第2の周波数領域表示と、前記サイドチャンネルの第1の周波数領域表示と、前記複素予測係数とに基づいて、残差信号を計算する重み付け加算器とを有し、
前記推定器は、前記ダウンミックスチャンネルとサイドチャンネルを受け取り、ある時間にわたる、前記残差信号のパワーを最小化するために、または前記残差信号の平均パワーを最小化するために、前記複素予測係数を決定する、
付記14ないし16いずれか一項に記載のエンコーダシステム。
(付記18) 前記符号化段階は、
前記ステレオ信号を、ダウンミックスチャンネルとサイドチャンネルを有する同時符号化ステレオ信号に変換する和・差段階と、
前記ダウンミックスチャンネルのオーバーサンプリングされた周波数領域表示と、前記サイドチャンネルのクリティカルサンプリングされた周波数領域表示とを提供する変換段階であって、前記オーバーサンプリングされた周波数領域表示は好ましくは複素スペクトル成分を有する、変換段階と、
前記ダウンミックスチャンネルの前記オーバーサンプリングされた周波数領域表示と、前記サイドチャンネルの前記クリティカルサンプリングされた周波数領域表示と、前記複素予測係数とに基づいて、残差信号を計算する重み付け加算器とを有し、
前記推定器は、前記残差信号を受け取り、前記残差信号のパワーを最小化するために、または前記残差信号の平均パワーを最小化するために、前記複素予測係数を決定し、
好ましくは、前記変換段階は、前記ダウンミックスチャンネルの前記オーバーサンプリングされた周波数領域表示を共に提供する、修正離散正弦変換MDST段階と並列に配置された修正離散余弦変換MDCT段階を有する、
付記14ないし16いずれか一項に記載のエンコーダシステム。
(付記19) 複素予測ステレオ符号化によりステレオ信号を提供する復号方法であって、
ダウンミックス信号と残差信号の第1の周波数領域表示を受け取るステップであって、前記第1の周波数領域表示の各々は多次元空間の第1の副空間で表された対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を有する、ステップと、
制御信号を受け取るステップと、
前記制御信号の値に応じて、
(a)アップミックス段階を用いて、前記ダウンミックス信号と残差信号をアップミックスし、前記ステレオ信号を求めるステップであって、
前記ダウンミックス信号の第1の周波数領域表示に基づき、前記ダウンミックス信号の第2の周波数領域表示を計算するサブステップであって、前記第2の周波数領域表示は、前記第1の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第2の副空間で表された信号のスペクトルコンテンツを表す第2のスペクトル成分を有する、サブステップと、
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第1と第2の周波数領域表示と、前記残差信号の第1の周波数領域表示と、複素予測係数とに基づいてサイド信号を計算するサブステップと、
和・差変換に、前記ダウンミックス信号とサイド信号の第1の周波数領域表示を適用することにより、前記ステレオ信号を計算するサブステップとを有する、ステップと、
(b)アップミックスするステップを中断するステップとを有する、復号方法。
(付記20) 前記第1のスペクトル成分は前記第1の副空間で表された実数値を有し、
前記第2のスペクトル成分は前記第2の副空間で表された虚数値を有し、
任意的に、前記第1のスペクトル成分は、離散余弦変換DCT又は修正離散余弦変換MDCTのうち一方により求められ、
任意的に、前記第2のスペクトル成分は、離散正弦変換DST又は修正離散正弦変換MDSTのうち一方により求められる、
付記19に記載の復号方法。
(付記21) 前記ダウンミックス信号は連続した時間フレームにパーティションされ、各時間フレームは複素予測係数の値に関連し、
前記ダウンミックス信号の第2の周波数領域表示を計算するステップは、前記複素予測係数の虚部の絶対値が時間フレームの所定の許容値より小さいことに応じて、中断され、その時間フレームに対して出力を生成しないようにする、
付記20に記載の復号方法。
(付記22) 前記ダウンミックス信号時間フレームはさらに周波数帯域にパーティションされ、各周波数帯域には前記複素予測係数の値が伴い、
前記ダウンミックス信号の第2の周波数領域表示を計算するステップは、前記複素予測係数の虚部の絶対値が時間フレームの周波数帯域の所定の許容値より小さいことに応じて、中断され、その周波数帯域に対して出力を生成しないようにする、
付記21に記載の復号方法。
(付記23) 前記第1のスペクトル成分は変換係数の時間フレームに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成され、
前記ダウンミックス信号の第2の周波数領域表示を計算するステップは、
前記第1のスペクトル成分から第1の中間成分を求めるサブステップと、
インパルス応答の少なくとも一部分により前記第1のスペクトル成分の組み合わせを構成して、第2の中間成分を求めるサブステップと、
前記第2の中間成分から前記第2のスペクトル成分を求めるサブステップとを有する、
付記20に記載の復号方法。
(付記24) インパルス応答の一部は、前記変換の周波数応答特性に基づき、
任意的に、前記変換の周波数応答特性は、前記信号の時間セグメントへの変換に適用された分析窓関数の特性に応じる、
付記23に記載の復号方法。
(付記25) 第2の周波数領域表示を計算するステップは、(a)第1のスペクトル成分の同時時間フレーム、(b)第1のスペクトル成分の同時および前の時間フレーム、及び(c)第1のスペクトル成分の同時、前の、及び後の時間フレームのうちの1つを入力として用いて、第2のスペクトル成分の各時間フレームを求める、
付記24に記載の復号方法。
(付記26) 前記ダウンミックス信号の第2の周波数領域表示を計算するステップは、少なくとも2つの時間的に隣接した、及び/又は周波数的に隣接した第1のスペクトル成分の組み合わせにより決定された近似的な第2のスペクトル成分を有する近似的第2のスペクトル表示を計算するステップを含む、
付記19ないし25いずれか一項に記載の復号方法。
(付記27) 前記ステレオ信号は時間領域で表され、前記方法はさらに、
前記ビットストリーム信号が直接ステレオ符号化により、又は同時ステレオ符号化により符号化されているのに応じて、前記アップミックスするステップを省略するステップと、
前記ビットストリーム信号を逆変換して前記ステレオ信号を求めるステップをを有する、
付記19ないし26いずれか一項に記載の復号方法。
(付記28) 前記ビットストリームが直接ステレオ符号化または同時ステレオ符号化により符号化されていることに応じて、前記ダウンミックス信号の前記時間領域表示を送信するステップと、サイド信号を計算するステップとを省略するステップと、
前記ビットストリーム信号によりエンコードされた各チャンネルの周波数領域表示を逆変換して前記ステレオ信号を求めるステップとをさらに有する、
付記27に記載の復号方法。
(付記29) 複素予測ステレオ符号化によりビットストリームによりステレオ信号をエンコードするするエンコード方法であって、
複素予測係数を決定するステップと、
前記ステレオ信号を変換して、前記複素予測係数により決まる関係を有するダウンミックス信号と残差信号の第1の周波数領域表示にするステップであって、前記第1の周波数領域表示は多次元空間の第1の副空間で表された対応する信号のスペクトルコンテンツを表す第1のスペクトル成分を有する、ステップと、
前記ダウンミックスチャンネルと残差チャンネルと複素予測係数とを前記ビットストリームとしてエンコードするステップとを有する、エンコーディング方法。
(付記30) 複素予測係数を決定するステップは、前記残差信号のパワー又はある時間にわたる前記残差信号の平均パワーを最小化するために、行われる、
付記29に記載のエンコーディング方法。
(付記31) 前記ステレオ信号のパーティションを時間フレームに画定または認識するステップと、
各時間セグメントについて、直接ステレオ符号化、同時ステレオ符号化、及び複素予測ステレオ符号化のオプションのうちの少なくとも1つにより、この時間セグメントにおいてステレオ信号を符号化するか、選択するステップとをさらに有し、
直接ステレオ符号化が選択された場合、前記ステレオ信号は左チャンネルと右チャンネルの周波数領域表示に変換され、前記ビットストリームとしてエンコードされ、
同時ステレオ符号化が選択された場合、前記ステレオ信号はダウンミックスチャンネルとサイドチャンネルの周波数領域表示に変換され、前記ビットストリームとしてエンコードされる、
付記29または30に記載のエンコーディング方法。
(付記32) 所定の音響心理学的モデルにより最も高い音質を提供するオプションが選択される、
付記31に記載のエンコーディング方法。
(付記33) 前記ステレオ信号のパーティションを時間フレームに画定または認識するステップをさらに有し、
前記ステレオ信号はダウンミックスチャンネルとサイドチャンネルを有し、
前記ステレオ信号を、ダウンミックスチャンネルと残差チャンネルの第1の周波数領域表示に変換するステップは、
前記ダウンミックスチャンネルの第1の周波数領域表示に基づき、前記ダウンミックス信号の第2の周波数領域表示を計算するサブステップであって、前記第2の周波数領域表示は、前記第1の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第2の副空間で表された信号のスペクトルコンテンツを表す第2のスペクトル成分を有する、サブステップと、
前記ダウンミックスチャンネルの第1と第2の周波数領域表示と、前記サイドチャンネルの第1の周波数領域表示と、前記複素予測係数とに基づいて、残差信号を構成するステップと、
前記複素予測係数を決定するステップは、各時間フレームにおいて残差信号の平均パワーを最小化することにより、一度に一時間フレームに対して行われる、
付記29または30に記載のエンコーディング方法。
(付記34) 前記ステレオ信号をダウンミックスチャンネルとサイドチャンネルを有する同時符号化ステレオ信号に変換するステップと、
前記ダウンミックスチャンネルを、好ましくは複素スペクトル成分を有するオーバーサンプリングされた周波数領域表示に変換するステップと、
前記サイドチャンネルをクリティカルサンプリングされた、好ましくは実数値の周波数領域表示に変換するステップと、
前記ダウンミックスチャンネルの前記オーバーサンプリングされた周波数領域表示と、前記サイドチャンネルの前記クリティカルサンプリングされた周波数領域表示と、前記複素予測係数とに基づいて、残差信号を計算するステップとをさらに有し、
前記複素予測係数の決定は、パワー又は平均パワーを最小化するために、このように計算された前記残差信号に関するフィードバック制御により行われる、
付記29ないし33いずれか一項に記載のエンコーディング方法。
(付記35) 前記ダウンミックスチャンネルのオーバーサンプリングされた周波数領域表示への変換は、MDCT及びMDSTの適用、及びその出力の連結により行われる、
付記34に記載のエンコーディング方法。
(付記36) 汎用コンピュータにより実行されたとき、付記19ないし35いずれか一項に記載の方法を実行する命令を格納したコンピュータ読み取り可能媒体を有するコンピュータプログラム製品。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14A
図14B
図14C
図15
図16
【外国語明細書】