(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024153628
(43)【公開日】2024-10-29
(54)【発明の名称】符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ
(51)【国際特許分類】
G10L 19/022 20130101AFI20241022BHJP
G10L 19/00 20130101ALI20241022BHJP
G10L 19/02 20130101ALI20241022BHJP
G10L 19/008 20130101ALI20241022BHJP
【FI】
G10L19/022
G10L19/00 330B
G10L19/02 160A
G10L19/008 100
【審査請求】有
【請求項の数】30
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024103916
(22)【出願日】2024-06-27
(62)【分割の表示】P 2022128735の分割
【原出願日】2016-03-08
(31)【優先権主張番号】15158236.8
(32)【優先日】2015-03-09
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】15172542.1
(32)【優先日】2015-06-17
(33)【優先権主張国・地域又は機関】EP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
(71)【出願人】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】110003915
【氏名又は名称】弁理士法人岡田特許事務所
(72)【発明者】
【氏名】ヘルムリッヒ クリスティアン
(72)【発明者】
【氏名】エドラー ベルント
(57)【要約】 (修正有)
【課題】オーディオ信号を処理するデコーダ、エンコーダ、復号方法、符号化方法及びプログラムを提供する。
【解決手段】デコーダ2は、適応型スペクトル-時間変換器6とオーバーラップ加算プロセッサ8と、を含む。適応型スペクトル-時間変換器6は、連続するスペクトル値4’のブロックを例えば周波数-時間変換を介して、時間値の連続するブロック10に変換し、制御情報12を受信し、且つ、制御情報12に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で切り替える。オーバーラップ加算プロセッサ8は、時間値10の連続するブロックをオーバーラップして加算し、復号されたオーディオ値14を得る。復号されたオーディオ値14は、復号されたオーディオ信号であってもよい。
【選択図】
図1
【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号(4)を復号するためのデコーダ(2)であって、
前記デコーダは、
スペクトル値(4’、4’’)の連続するブロックを時間値(10)の連続するブロックに変換する適応型スペクトル-時間変換器(6)、および
復号化されたオーディオ値(14)を得るために、時間値(10)の連続するブロックを重ね合わせて加算するためのオーバーラップ加算プロセッサ(8)を含み、
前記適応型スペクトル-時間変換器(6)は、制御情報(12)を受信し、前記制御情報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、切り替えるように構成される、デコーダ。
【請求項2】
前記変換カーネルの第1のグループは、前記カーネルの左側に奇数対称性を有し、右側に偶数対称性を有する、またはその逆の1つ以上の変換カーネルを有する、あるいは前記変換カーネルの第2のグループは、前記カーネルの両側に偶数対称性または奇数対称性を有する1つ以上の変換カーネルを有する、請求項1に記載のデコーダ(2)。
【請求項3】
前記変換カーネルの第1のグループは、逆MDCT-IV変換カーネルまたは逆MDST-IV変換カーネルを含む、あるいは前記変換カーネルの第2のグループは、逆MDCT-II変換カーネルまたは逆MDST-II変換カーネルを含む、請求項1または請求項2に記載のデコーダ(2)。
【請求項4】
前記第1のグループおよび前記第2のグループの前記変換カーネルは、以下の式に基づいていて、
前記第1のグループの前記少なくとも1つの変換カーネルは、
cs( )=cos( )および k
0 =0.5
または
cs( )=sin( )および k
0 =0.5
のパラメータに基づいており、
または
前記第2のグループの少なくとも1つの変換カーネルは、
cs( )=cos( )および k
0 =0
または
cs( )=sin( )および k
0 =1
のパラメータに基づいており、
ここで、x
i,n は時間領域出力であり、Cは定数パラメータであり、Nは時間窓長であり、specはブロックについてM個の値を有するスペクトル値であり、MはN/2に等しく、iは時間ブロックインデックスであり、kはスペクトル値を示すスペクトルインデックスであり、nはブロックiにおける時間値を示す時間インデックスであり、n
0 は整数またはゼロである定数パラメータである、請求項1~請求項3のいずれか1項に記載のデコーダ(2)。
【請求項5】
前記制御情報(12)は、現在のフレームについての現在の対称性を示す現在のビットを含み、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前のフレームで使用されたのと同じ対称性を示すとき、前記第1のグループから前記第2のグループに切り替わらないように構成され、
前記適応型スペクトル-時間変換器は、前記現在のビットが前記前のフレームで使用されたものとは異なる対称性を示すとき、前記第1のグループから前記第2のグループに切り替えるように構成される、請求項1~請求項4のいずれか1項に記載のデコーダ(2)。
【請求項6】
前記適応型スペクトル-時間変換器(6)は、現在のフレームの現在の対称性を示す現在のビットが前記前のフレームで使用されたものと同じ対称性を示すとき、前記第2のグループを前記第1のグループに切り替えるように構成され、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前記前のフレームで使用されていたものとは異なる対称性を有する前記現在のフレームの現在の対称性を示すとき、前記第2のグループから前記第1のグループに切り替わらないように構成される、請求項1~請求項5のいずれか1項に記載のデコーダ(2)。
【請求項7】
前記適応型スペクトル-時間変換器(6)は、前のフレームについての制御情報(12)を符号化されたオーディオ信号(4)から、および前記前のフレームに続く現在のフレームについての制御情報を前記現在のフレームの制御データセクション内の前記符号化されたオーディオ信号から読み出すように構成される、あるいは
前記適応型スペクトル-時間変換器(6)は、前記現在のフレームの前記制御データセクションから前記制御情報(12)を読み出し、前記前のフレームの制御データセクションから、または前記前のフレームに適用されたデコーダ設定から、前記前のフレームについての前記制御情報(12)を取り出すように構成されている、請求項1~請求項6のい
ずれか1項に記載のデコーダ(2)。
【請求項8】
前記適応型スペクトル-時間変換器(6)は、以下の表に基づいて変換カーネルを適用するように構成されており:
ここでsymm
i は、インデックスiにおける前記現在のフレームの制御情報であり、前記symm
i-1 は、インデックスi
-1 における前記前のフレームの制御情報である、
請求項1~請求項7のいずれか1項に記載のデコーダ(2)。
【請求項9】
第1のマルチチャネルおよび第2のマルチチャネルについてのスペクトル値の処理されたブロックを得るために、前記第1および前記第2のマルチチャネルを表すスペクトル値のブロックを受信し、ジョイントマルチチャネル処理技術に従って前記受信したブロックを処理するためのマルチチャネルプロセッサ(40)をさらに含み、前記適応型スペクトル-時間プロセッサ(6)は、前記第1のマルチチャネルのための制御情報を使用して前記第1のマルチチャネルのための前記処理されたブロックを、および前記第2のマルチチャネルのための制御情報を使用して前記第2のマルチチャネルのための前記処理されたブ
ロックを処理するように構成される、請求項1~請求項8のいずれか1項に記載のデコーダ(2)。
【請求項10】
前記マルチチャネルプロセッサは、前記第1および前記第2のマルチチャネルを表す前記スペクトル値のブロックに関連する複素予測制御情報を使用して複素予測を適用するように構成される、請求項9に記載のデコーダ(2)。
【請求項11】
前記マルチチャネルプロセッサは、前記ジョイントマルチチャネル処理技術に従って前記受信したブロックを処理するように構成され、前記受信されたブロックは、前記第1のマルチチャネルの表現の符号化された残差信号と前記第2のマルチチャネルの表現とを含み、前記マルチチャネルプロセッサは、前記残差信号およびさらなる符号化された信号を使用して、前記第1のマルチチャネル信号および前記第2のマルチチャネル信号を計算するように構成される、請求項9または請求項10のいずれか1項に記載のデコーダ。
【請求項12】
オーディオ信号(24)を符号化するためのエンコーダ(22)であって、
前記エンコーダは、
時間値(30)の重複ブロックをスペクトル値(4’、4’’)の連続するブロックに変換するための適応型時間-スペクトル変換器、および
変換カーネルの第1のグループの変換カーネルと、変換カーネルの第2のグループの変換カーネルとを切り替えるように、前記時間-スペクトル変換器を制御するコントローラ(28)を含み、
前記適応型時間-スペクトル変換器は、制御情報(12)を受信して、前記制御情報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、切り替えるように構成される、エンコーダ。
【請求項13】
現在のフレームについて、前記現在のフレームを生成するために使用される前記変換カーネルの対称性を示す制御情報(12)を有する符号化されたオーディオ信号(4)を生成するための出力インタフェース(32)をさらに含む、請求項12に記載のエンコーダ(22)。
【請求項14】
前記出力インターフェース(32)は、前記現在のフレームが独立したフレームである場合、前記現在のフレームの制御データセクションに、前記現在のフレームのおよび前記前のフレームの対称情報を含み、あるいは
前記現在のフレームが従属フレームである場合、前記現在のフレームの前記制御データセクションに、前記現在のフレームのための対称情報のみを含み、前記前のフレームの対称情報を含まないように構成される、請求項12または請求項13に記載のエンコーダ(22)。
【請求項15】
前記変換カーネルの第1のグループは、左側に奇数対称性を有し、且つ、右側に偶数対称性を有する、あるいはその逆の1つ以上の変換カーネルを有し、あるいは前記変換カーネルの第2のグループは、両側に偶数対称性または奇数対称性を有する1つ以上の変換カーネルを有する、請求項12~請求項14のいずれか1項に記載のエンコーダ(22)。
【請求項16】
前記変換カーネルの第1のグループは、MDCT-IV変換カーネルまたはMDST-IV変換カーネルを含み、あるいは、前記第2のグループの変換カーネルは、MDCT-II変換カーネルまたはMDST-II変換カーネルを含む、請求項12~請求項15のいずれか1項に記載のエンコーダ。
【請求項17】
前記コントローラ(28)は、MDCT-IVの後にMDCT-IVまたはMDST-IIが続くように構成されている、あるいは、MDST-IVの後にはMDST-IVまたはMDCT-IIが続くように、あるいは、MDCT-IIの後にMDCT-IVまたはMDST-IIが続くように、あるいは、前記MDST-IIの後にMDST-IVまたはMDCT-IIが続くように構成されている、請求項12~請求項16のいずれか1項に記載のエンコーダ(22)。
【請求項18】
前記コントローラ(28)は、前記第1のチャネルのフレームと、対応する前記第2のチャネルのフレームとについて、前記変換カーネルを決定するために、第1のチャネルおよび第2のチャネルを有する前記時間値(30)の重複ブロックを分析するように構成される、請求項12~請求項17のいずれか1項に記載のエンコーダ(22)。
【請求項19】
前記時間-スペクトル変換器(26)は、マルチチャネル信号の第1のチャネルおよび第2のチャネルを処理するように構成され、前記エンコーダ(22)は、処理されたスペクトル値のブロックを得るために、ジョイントマルチチャネル処理技術を用いて、前記第1のチャネルおよび前記第2のチャネルのスペクトル値の前記連続するブロックを処理するためのマルチチャネルプロセッサ(40)と、符号化されたチャネルを得るために、前記処理されたスペクトル値のブロックを処理するための符号化プロセッサ(46)とをさらに含む、請求項12~請求項18のいずれか1項に記載のエンコーダ(22)。
【請求項20】
前記第1の処理されたスペクトル値のブロックは、前記ジョイントマルチチャネル処理技術の第1の符号化表現を表し、前記第2の処理されたスペクトル値のブロックは、前記ジョイントマルチチャネル処理技術の第2の符号化表現を表し、前記符号化プロセッサ(46)は、量子化およびエントロピー符号化を使用して前記第1の処理済みブロックを処理して、第1の符号化された表現を形成するように構成され、前記符号化プロセッサ(46)は量子化およびエントロピー符号化を使用して前記第2の処理済みブロックを処理して、第2の符号化された表現を形成するように構成され、前記符号化プロセッサは、前記第1の符号化された表現および前記第2の符号化された表現を使用して、前記符号化されたオーディオ信号のビットストリームを形成するように構成される、
請求項12~19のいずれか1項のいずれかに記載のエンコーダ(22)。
【請求項21】
符号化されたオーディオ信号を復号する方法(1500)であって、
スペクトル値の連続ブロックを時間値の連続ブロックに変換するステップと、
復号されたオーディオ値を得るために時間値の連続するブロックを重ね合わせて加算するステップと、
制御情報を受信して、前記制御情報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で切り替えるステップを含む、方法。
【請求項22】
オーディオ信号を符号化する方法(1600)であって、
時間値のオーバーラップするブロックをスペクトル値の連続するブロックに変換するステップと、
変換カーネルの第1のグループの変換カーネルと変換カーネルの第2のグループの変換カーネルとを切り替えるために、前記時間-スペクトル変換を制御するステップと、
制御情報を受信して、前記制御情報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、切り替えるステップを含む、方法
【請求項23】
コンピュータまたはプロセッサ上で動作する時に、請求項21または請求項22に記載の方法を実行するためのコンピュータプログラム。
【請求項24】
マルチチャネル処理とは、ジョイントステレオ処理または2つ以上のチャネルのジョイント処理を意味し、マルチチャネル信号は、2つのチャネルまたは2つ以上のチャネルを有する、請求項1~請求項23のいずれかに記載の装置、方法またはコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、本発明は、符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダに関する。実施形態は、オーディオ符号化における信号適応変換カーネルスイッチングのための方法および装置を示す。言い換えると、本発明は、オーディオ符号化に関し、特に、例えば、修正された離散コサイン変換(MDCT)[1]等のラップ変換による知覚オーディオ符号化に関する。
【背景技術】
【0002】
MP3、Opus、(Celt)、HE-AACファミリ、新しいMPEG-H 3Dオーディオおよび3GPPエンハンスドボイスサービス(EVS)コーデックを含む現代的な知覚オーディオコーデックはすべて、スペクトル領域の量子化と符号化にMDCTを採用しているか、または、それ以上のチャネル波形を生成する。長さ-Mスペクトルspec[]を使用するこの重複変換の合成バージョンは、M=N/2で時間窓の長さである次式(1)によって与えられる。
窓掛け処理の後、時間出力x
i,n はオーバーラップ・アンド・アッド(OLA)プロセスによって前の時間出力x
i-1,n と組み合わされる。Cは、0より大きいか又は1以下の定数パラメータであってもよく、例えば、2/Nとなる。
【0003】
上式(1)のMDCTは、様々なビットレートで任意のチャネルの高品質オーディオコーディングに適しているが、コーディング品質が不十分な場合がある。
例えば、
・各高調波が複数のMDCTビンによって表されるように、MDCTを介してサンプリン
グされた特定の基本周波数を有する高調波信号である。これは、スペクトル領域におい
て準最適エネルギー圧縮、すなわち低い符号化利得を導く。
・従来のM/Sステレオベースのジョイントチャネルコーディングでは利用できない、チ
ャネルのMDCTビン間で約90度の位相シフトを持つステレオ信号を生成する。チャ
ネル間位相差(IPD)の符号化を含むより高度なステレオ符号化は、例えば、HE-
AACのパラメトリックステレオまたはMPEGサラウンドを使用しているが、このよ
うなツールは別のフィルタバンクドメインで動作し、複雑さが増している。
【0004】
いくつかの学術論文や論文には、MDCTやMDSTのような操作が記述されている。これらの操作には、「重複直交変換(LOT)」、「拡張重複変換(ELT)」、「変調重複変換(MLT)」などがあります。[4]だけが同時にいくつかの異なる重複変換を述べているが、MDCTの前述の欠点を克服していない。
【0005】
したがって、改善されたアプローチが必要である。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992.
【非特許文献2】J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc., 1986.
【非特許文献3】J.P. Princen, A. W. Johnson, and A. B. Bradley,"Subband/transform coding using filter bank design based on time domain aliasing ancellation," in IEEE ICASSP, vol. 12, 1987.
【非特許文献4】H.S.Malvar,"Lapped Transforms for Efficient Transform/Subband Coding,"IEEE Trans.Acoustics,Speech,and Signal Proc., 1990.
【非特許文献5】http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、オーディオ信号を処理するための改良された概念を提供することである。この目的は、独立請求項の主題によって解決される。
【課題を解決するための手段】
【0008】
本発明は、変換カーネルの信号適応的変化または置換が、本MDCT符号化の前述の種類の課題を克服する可能性があるという知見に基づいている。実施形態によれば、本発明は、3つの他の同様の変換を含むようにMDCT符号化原則を一般化することによって、従来の変換符号化に関する上記2つの課題に対処する。上記した式(1)の合成式に従って、この提案された一般化を次式(2)と定義する。
【0009】
1/2定数はk0定数に置き換えられ、cos(...)関数はcs(...)関数で置き換
えられていることに注意して下さい。k0とcs(...)はどちらも信号とコンテキスト適応的に選択される。
【0010】
実施形態によれば、MDCT符号化パラダイムの提案された修正は、例えば、前述の課題またはケースが扱われるように、フレームごとの瞬時入力特性に適応することができる。
【0011】
実施形態は、符号化オーディオ信号を復号するためのデコーダを示す。デコーダは、スペクトル値の連続するブロックを時間値の連続するブロックに変換するために、例えば、周波数から時間への変換を介して行われる、適応型スペクトル-時間変換器を含む。デコーダは、復号されたオーディオ値を得るために、時間値の連続するブロックを重ね合わせて加算するオーバーラップ加算プロセッサをさらに含む。前記適応型スペクトル-間変換器は、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、制御情報を受信し、前記制御情報に応じて切り替えるように構成される。変換カーネルの第1グループは、例えば逆MDCT-IV変換または逆MDST-IV変換カーネルのような、変換カーネルの左側に奇数対称性を有し、変換カーネルの右側に偶数対称性を有する、又はその逆の1つ以上の変換カーネルを含むことができ、逆も同様である。第2のグループの変換カーネルは、例えば逆MDCT-II変換カーネルまたは逆MDST-II変換カーネルなどの、変換カーネルの両側で偶対称性を有する変換カーネル、または変換カーネルの両側で奇数対称性を有する変換カーネルを含むことができる。変換カーネルタイプIIおよびIVについては、以下でより詳細に説明する。
【0012】
このため、古典的なMDCTで信号を符号化するのと比較したとき、信号を符号化する
ために、スペクトル領域における1つの変換ビンの帯域幅とすることができる変換の周波数分解能の整数倍に少なくともほぼ等しいピッチを有する高調波信号に対して、変換カーネルの第2グループの変換カーネル、例えばMDCT-IIまたはMDST-IIを使用することが有利である。言い換えれば、MDCT-IIまたはMDST-IIの1つを使用することは、MDCT-IVと比較した場合、変換の周波数分解能の整数倍に近い高調波信号を符号化するのに有利である。
【0013】
さらなる実施形態は、デコーダが、例えばステレオ信号などのマルチチャネル信号を復号するように構成されていることを示している。例えば、ステレオ信号の場合、通常、ミッド/サイド(M/S)ステレオ処理は、古典的な左右(L/R)ステレオ処理よりも優れている。しかしながら、両方の信号が90度または270度の位相シフトを有する場合、このアプローチは機能しないか、少なくとも劣っている。実施形態によれば、MDST-IVベースの符号化を用いて2つのチャネルのうちの1つを符号化し、第2のチャネルを符号化するために従来のMDCT-IV符号化を使用することが有利である。これは、オーディオチャネルの90度または270度位相シフトを補償する符号化方式によって組み込まれた2つのチャネル間で90度の位相シフトをもたらす。
【0014】
さらなる実施形態は、オーディオ信号を符号化するためのエンコーダを示した。エンコーダは、時間値の重複ブロックをスペクトル値の連続するブロックに変換するための適応型時間-スペクトル変換器を含む。エンコーダは、変換カーネルの第1のグループの変換カーネルと、変換カーネルの第2のグループの変換カーネルとを切り替えるように、時間-スペクトル変換器を制御するコントローラをさらに備える。そのため、適応型スペクトル-間変換器(6)は、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、制御情報(12)を受信し、制御情報に応じて切り替える。エンコーダは、オーディオ信号の分析に関して異なる変換カーネルを適用するように構成することができる。したがって、エンコーダは、デコーダに関して既に説明した方法で変換カーネルを適用することができ、実施形態によれば、エンコーダはMDCTまたはMDST演算を適用し、デコーダは関連する逆演算、すなわちIMDCTまたはIMDST変換を適用する。異なる変換カーネルについては、以下で詳細に説明する。
【0015】
さらなる実施形態によれば、エンコーダは、現在のフレームについて、現在のフレームを生成するために使用される変換カーネルの対称性を示す制御情報を有する符号化されたオーディオ信号を生成するための出力インターフェースを備える。出力インターフェースは、正しい変換カーネルで符号化されたオーディオ信号を復号することができるデコーダのための制御情報を生成することができる。言い換えれば、デコーダは、エンコーダによって使用される変換カーネルの逆変換カーネルを適用して、各フレームおよびチャネルにおいてオーディオ信号を符号化する必要がある。この情報は、例えば、符号化されたオーディオ信号のフレームの制御データセクションを使用して、制御情報に格納され、エンコーダからデコーダに送信されてもよい。
【0016】
本発明の実施形態は、添付の図面を参照して引き続き議論される。
【図面の簡単な説明】
【0017】
【
図1】符号化されたオーディオ信号を復号するためのデコーダの概略ブロック図を示す。
【
図2】一実施形態によるデコーダにおける信号の流れを示す概略ブロック図である。
【
図3】一実施形態によるオーディオ信号を符号化するためのエンコーダの概略ブロック図を示す。
【
図4A】例示的なMDCTエンコーダによって得られた一連のスペクトル値のブロックの概略を示す。
【
図4B】例示的なMDCTエンコーダに入力される時間領域信号の概略図を示す。
【
図5A】一実施形態による例示的なMDCTエンコーダの概略ブロック図を示す。
【
図5B】一実施形態による例示的なMDCTデコーダの概略ブロック図を示す。
【
図6】4つの記述されたラップ変換の暗黙の逆畳み込み特性および対称性を概略的に示す。
【
図7】完全な再構成を可能にしながら、信号適応変換核スイッチングが1つのフレームから次のフレームへ変換カーネルに適用されるユースケースの2つの実施形態を概略的に示す。
【
図8】一実施形態による、マルチチャネルオーディオ信号を復号するためのデコーダの概略ブロック図を示す。
【
図9】一実施形態によるマルチチャネル処理に拡張された
図3のエンコーダの概略ブロック図である。
【
図10】一実施形態による、2つ以上のチャネル信号を有するマルチチャネルオーディオ信号を符号化するための概略オーディオエンコーダを示す図である。
【
図11A】一実施形態によるエンコーダ計算機の概略ブロック図を示す。
【
図11B】一実施形態による別のエンコーダ計算機の概略ブロック図を示す。
【
図11C】一実施形態によるコンバイナにおける第1および第2のチャネルの例示的な組み合わせルールの概略図を示す。
【
図12A】一実施形態によるデコーダ計算器の概略ブロック図を示す。
【
図12B】一実施形態による行列計算器の概略ブロック図を示す。
【
図12C】一実施形態による
図11Cの組合せルールに対する例示的な逆結合ルールの概略図を示す。
【
図13A】一実施形態によるオーディオエンコーダの実装の概略ブロック図を示す。
【
図13B】一実施形態による、
図13Aに示されたオーディオエンコーダに対応するオーディオデコーダの概略ブロック図を示す。
【
図14A】一実施形態によるオーディオエンコーダのさらなる実装の概略ブロック図を示す。
【
図14B】一実施形態による、
図14Aに示されるオーディオエンコーダに対応するオーディオデコーダの概略ブロック図を示す。
【
図15】符号化されたオーディオ信号を復号する方法の概略ブロック図である。
【
図16】オーディオ信号を符号化する方法の概略ブロック図を示す。
【発明を実施するための形態】
【0018】
以下では、本発明の実施形態をさらに詳細に説明する。同一または類似の機能を有するそれぞれの図に示された要素は、同じ参照符号と関連付けられている。
【0019】
図1は、符号化オーディオ信号4を復号するためのデコーダ2の概略ブロック図を示す。デコーダは、適応型スペクトル-時間変換器6とオーバーラップ加算器8を含む。適応型スペクトル-時間変換器は、スペクトル値4’の連続するブロックを例えば周波数-時間変換を介して時間値の連続するブロック10に変換する。さらに、前記適応型スペクトル-間変換器(6)は、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、制御情報(12)を受信し、前記制御情報に応じて切り替える。さらに、オーバーラップ加算プロセッサ8は、連続する時間値ブロック10をオーバーラップして加算し、復号されたオーディオ値14を得る。復号されたオーディオ値14は、復号されたオーディオ信号であってもよい。
【0020】
実施形態によれば、制御情報12は、現在のフレームの現在の対称性を示す現在ビットを含むことができ、適応型スペクトル-時間変換器6は、現在のビットが前のフレームで使用されていたのと同じ対称性を示すとき、現在のビットが第1グループから第2グループに切り替わらないように構成される。換言すれば、例えば制御情報12は、前のフレームに対して第1のグループの変換カーネルを使用することを示し、現在のフレームおよび前のフレームが同じ対称性を含む場合、例えば、現在のフレームの現在のビットと前のフレームが同じ状態を有する場合に示される第1のグループの変換カーネルが適用され、これは、適応型スペクトル-時間変換器が第1の変換カーネルグループから第2の変換カーネルグループに切り替わらないことを意味する。他の方法、すなわち、第2のグループに留まる、または第2のグループから第1のグループに切り替わらないために、現在のフレームの現在の対称性を示す現在のビットは、前のフレームで使用されたものとは異なる対称性を示す。言い換えれば、現在の対称性と以前の対称性が等しい場合、前のフレームが第2のグループからの変換カーネルを用いて符号化されていれば、現在のフレームは第2のグループの逆変換カーネルを用いて復号される。
【0021】
さらに、現在のフレームの現在の対称性を示す現在のビットが、前のフレームで使用されたものとは異なる対称性を示す場合、適応型スペクトル-時間変換器6は、第1のグループから第2のグループに切り替わるように構成される。より具体的には、現在のフレームの現在の対称性を示す現在のビットが前のフレームで使用されたものとは異なる対称性を示すとき、適応型スペクトル-時間変換器6は、第1のグループを第2のグループに切り替えるように構成される。さらに、現在のフレームの現在の対称性を示す現在のビットが、前のフレームで使用されたのと同じ対称性を示す場合に、適応型スペクトル-時間変換器6は、第2のグループを第1のグループに切り替えることができる。より具体的には、現在のフレームと前のフレームが同じ対称性を含み、前のフレームが変換カーネルの第2のグループの変換カーネルを使用して符号化されている場合、現在のフレームは、変換カーネルの第1のグループの変換カーネルを使用して復号されてもよい。制御情報12は、以下に明らかになるように、符号化されたオーディオ信号4から導出されてもよく、または別個の伝送チャネルまたは搬送波信号を介して受信されてもよい。さらに、現在のフレームの現在の対称性を示す現在のビットは、変換カーネルの右側の対称性であってもよい。
【0022】
PrincenとBradleyの1986年の論文[2]では、コサイン関数かサイン関数の三角関数を使った2つのラップ変換が記述されている。その記事で「DCTベース」と呼ばれる最初のものは、(2)cs()=cos()とko=0を設定することによって取得でき
、もう1つは「DSTベース」と呼ばれ、cs()=sin()およびko=1の場合に
(2)によって与えられ、定義されている。画像符号化でよく使用されるDCT-IIとDST-IIとのそれぞれの類似性のために、この文書では、(2)の一般的な定式化のこれらの特定のケースが、それぞれ「MDCTタイプII」変換および「MDSTタイプII」変換として宣言される。PrincenとBradleyは、1987年の論文[3]で調査を続け、cs()=cos()とko=0.5の共通ケースを提案し、(1)で導入され、一
般に「MDCT」として知られている。説明を明確にするために、そしてDCT-IVとの関係のために、この変換を本明細書では「MDCTタイプIV」と呼ぶ。観察者は、DST-IVに基づいて、cs()=cos()およびko=0.5を用いて(2)を用い
て得られた、「MDSTタイプIV」と呼ばれる残りの可能な組み合わせを既に特定している。実施形態は、これらの4つの変換の間で信号-適応的にいつ切り替えるかを説明する。
【0023】
[1-3]で指摘したように、完全な再構成特性(スペクトル量子化または他の歪みの導入がない分析および合成変換後の入力信号の同一の再構成)が保持されるように、4つ
の異なる変換カーネル間の本質的な切り替えがどのように達成されるかに関するいくつかの規則を定義することは価値がある。この目的のために、(2)に従う合成変換の対称的な拡張特性を調べることが有用であり、これは
図6に関して示されている。
・MDCT-IVは、その左側で奇数対称性を示し、その右側で偶数対称性を示す。合成された信号は、この変換の信号の逆畳み込みの間、その左側で反転される。
・MDST-IVは、その左側で偶数対称性を示し、その右側で偶数対象性を示す。合成された信号は、この変換の信号の逆畳み込みの間、その右側で反転される。
・MDCT-IIは、その左側で偶数対称性を示し、その右側で奇数対称性を示す。合成された信号は、この変換の信号の逆折畳みの間のいずれの側でも反転されない。
・MDST-IIは、その左側で奇数対称を示し、その右側で偶数対称性を示す。合成された信号は、この変換の信号の逆畳み込みの間、両側で反転される。
【0024】
さらに、デコーダにおいて制御情報12を導出するための2つの実施形態について説明する。制御情報は、例えば、上述の4つの変換のうちの1つを示すためにk0の値とcs
()とを含んでもよい。したがって、適応型スペクトル-時間変換部は、符号化されたオーディオ信号から、前のフレームの制御情報および前のフレームに続く制御情報を、現在のフレームの制御データセクションの符号化されたオーディオ信号から読み出すことができる。オプションで、適応型スペクトル-時間変換部6は、現在のフレームの制御データ部から制御情報12を読み出すようにしてもよく、また、前のフレームの制御データ部から、あるいは前のフレームに適用されたデコーダ設定から、前のフレームについての制御情報を読み出すようにしてもよい。言い換えると、制御情報は、制御データセクションから直接導出されてもよく、ヘッダーにおいて、現在のフレームまたは前のフレームのデコーダ設定から導出されてもよい。
【0025】
以下、好ましい実施形態に従って、エンコーダとデコーダとの間で交換される制御情報を説明する。このセクションは、サイド情報(すなわち、制御情報)がどのように符号化されたビットストリームでシグナリングされ、導出されるかについて、および、ロバスト(例えば、フレーム損失に対して)の方法で適切な変換カーネルを導出して適用する方法について説明する。
【0026】
好ましい実施形態によれば、本発明は、MPEG-D USAC(拡張HE-AAC)
またはMPEG-H 3Dオーディオコーデックに統合することができる。決定された副情報は、各周波数領域(FD)チャネルおよびフレームに対して利用可能な、いわゆるfd channel stream要素内で送信することができる。より具体的には、scale_factor_data()ビットストリーム要素の直前または直後に、1ビットのcurrAliasingSymmetryフラグが(エンコーダによって)書き込まれ、(デコーダによって)読み出される。所与のフレームが独立フレーム、すなわちindepFlag == 1である場合、別のビット prevAliasingSymmetry が書き込まれ、読み出される。これにより、左側と右側の両方の対称性、および結
果として得られる変換カーネルは前記フレームおよびチャネル内で使用され、ビットストリーム伝送中に前のフレームが失われても、デコーダ内で識別され(適切に復号され)得る。フレームが独立したフレームでない場合、prevAliasingSymmetry は書き込まれず読
み出されないが、前のフレームで currAliasingSymmetry が保持していた値に等しく設定される。さらなる実施形態によれば、異なるビットまたはフラグを使用して、制御情報(すなわち、副情報)を示すことができる。
【0027】
次に、cs()およびk
0のそれぞれの値は、currAliasingSymmetry およびprevAliasingSymmetry フラグから導出される(currAliasingSymmetryはsymm
i と、prevAliasingSymmetryはsymm
i-1と、略される)。換言すれば、symm
iはインデックスiにお
ける現在のフレームの制御情報であり、symm
i-1 はインデックスi-1における前のフレームの制御情報である。表1は、送信および/または他の方法で導出された対称性に関
するサイド情報に基づいておよびcs(...)の値を指定するデコーダ側決定マトリクス
を示す。したがって、適応型スペクトル-時間変換器は、以下の表1に基づいて変換カーネルを適用することができる。
【0028】
最後に、cs()およびk0 がデコーダにおいて決定されると、所与のフレームおよびチャネルに対する逆変換は、式(2)を使用して適切なカーネルで実行され得る。この合成変換の前および後に、デコーダは、窓掛けに関しても従来技術のように通常通り動作することが可能である。
【0029】
図2は、一実施形態によるデコーダにおける信号フローを示す概略ブロック図を示し、ここで、実線は信号を示し、破線はサイド情報を示し、iはフレームインデックスを示し、xiはフレーム時間-信号出力を示す。ビットストリームデマルチプレクサ16は、スペクトル値4’および制御情報12の連続ブロックを受信する。一実施形態によれば、スペクトル値4’’および制御情報12の連続するブロックは、共通信号に多重化され、ビットストリームデマルチプレクサは、共通信号から連続するスペクトル値のブロックおよび制御情報を導出するように構成される。スペクトル値の連続するブロックはさらにスペクトルデコーダ18に入力されてもよい。さらに、現在のフレーム12および前のフレーム12’の制御情報がマッパ20に入力され、表1に示すマッピングを適用する。実施形態によれば、前のフレーム12’の制御情報は、符号化されたオーディオ信号、すなわちスペクトル値の前のブロック、または前のフレームに対して適用されたデコーダの現在のプリセットを使用して導出されてもよい。スペクトル値4’’のスペクトル的に復号化された連続したブロックと、パラメータcsおよびk
0 を含む処理された制御情報12’は、
図1の適応型スペクトル-時間変換器6である逆カーネル適応ラップトランスに入力される。出力は、例えば時間値の連続するブロックの境界における不連続性を克服するために、合成窓7を使用して随意的に処理することができる時間値10の連続するブロックであってもよく、オーバーラップ加算アルゴリズムを実行してデコードされたオーディオ値14を導出するためにオーバーラップ加算プロセッサ8に入力される。マッパ20および適応型スペクトル-時間変換器6は、オーディオ信号の復号化の別の位置にさらに移動することができる。したがって、これらのブロックの位置は単なる提案に過ぎない。さらに、制御情報は、対応するエンコーダを使用して計算されてもよく、その実施形態は、例えば、
図3に関して記載される。
【0030】
図3は、一実施形態によるオーディオ信号を符号化するためのエンコーダの概略ブロック図を示す。エンコーダは、適応型時間-スペクトル変換器26およびコントローラ28を備える。適応型時間-スペクトル変換器26は、例えばブロック30’および30’’を含む時間値30の重複ブロックをスペクトル値4’の連続するブロックに変換する。さらに、適応型スペクトル-時間変換器(6)は、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、制御情報(12)を受信し、制御情報に応じて切り替える。さらに、コントローラ2
8は、時間-スペクトル変換器を制御して、変換カーネルの第1のグループの変換カーネルと、変換カーネルの第2のグループの変換カーネルとを切り替えるように構成される。任意選択的に、エンコーダ22は、現在のフレームについて、符号化されたオーディオ信号を生成するために、符号化されたオーディオ信号を生成する出力インターフェース32と、現在のフレームを生成するために使用される変換カーネルの対称性を示す制御情報12とを含む。現在のフレームは、スペクトル値の連続するブロックの現在のブロックであってもよい。出力インターフェースは、現在のフレームの制御データセクションに、現在のフレームと独立したフレームである前のフレームとの対称性情報を含むことができ、または現在のフレームの制御データセクションに含めることができる。そして、現フレームが従属フレームである場合には、現フレームの対称情報のみ、前フレームの対称情報は存在しない。出力インターフェースは、現在のフレームの制御データセクションに、現在のフレームおよび前のフレームのための対称情報を含むことができ、現在のフレームは独立フレームであり、または現在のフレームの制御データセクションに現在のフレームの対称情報のみを含み、現在のフレームが従属フレームである場合、前のフレームの対称情報を含まない。独立したフレームは、たとえば独立したフレームヘッダを含み、これにより、前のフレームの知識なしに現在のフレームを確実に読み取ることができる。依存するフレームは、例えば、可変ビットレートスイッチングを有するオーディオファイルである。したがって、従属フレームは、1つまたは複数の前のフレームの知識だけで読み取ることができる。独立したフレームは、たとえば独立したフレームヘッダを含み、これにより、前のフレームの知識なしに現在のフレームを確実に読み取ることができる。従属するフレームは、例えば、可変ビットレートスイッチングを有するオーディオファイルである。したがって、従属フレームは、1つまたは複数の前のフレームの知識だけで読み取ることができる。
【0031】
コントローラは、例えば、少なくとも変換の周波数分解能の整数倍に近い基本周波数に関して、オーディオ信号24を分析するように構成することができる。従って、制御装置は、制御情報12を用いて、適応型時間-スペクトル変換器26および任意に出力インターフェース32に供給する制御情報12を導出することができる。制御情報12は、変換カーネルの第1グループまたは変換カーネルの第2グループの適切な変換カーネルを示すことができる。変換カーネルの第1のグループは、カーネルの左側に奇数対称性を有し、且つ、カーネルの右側に偶数対称性を有する、あるいはその逆の1つ以上の変換カーネルを有してもよく、あるいは、変換カーネルの第2グループが、カーネルの両側で偶対称性を有するか、またはカーネルの両側で奇数対称性を有する1つ以上の変換カーネルを含むことができる。換言すれば、変換カーネルの第1のグループは、MDCT-IV変換カーネルまたはMDST-IV変換カーネルを含むことができ、変換カーネルの第2のグループは、MDCT-II変換カーネルまたはMDST-II変換カーネルを含むことができる。符号化されたオーディオ信号を復号するために、デコーダは、それぞれの逆変換をエンコーダの変換カーネルに適用することができる。したがって、デコーダは、変換カーネルの第1のグループが、逆MDCT-IV変換カーネルまたは逆MDST-IV変換カーネルを含むことができ、または変換カーネルの第2のグループが、逆MDCT-II変換カーネルまたは逆MDST-II変換カーネルを含むことができる。
【0032】
言い換えれば、制御情報12は、現在のフレームに対する現在の対称性を示す現在のビットを含むことができる。さらに、適応型スペクトル-時間変換器6は、現在のビットが前のフレームで使用されたものと同じ対称性を示すとき、第1のグループから第2のグループの変換カーネルに切り替えないように構成されてもよく、現在のビットが前のフレームで使用されたものとは異なる対称性を示すとき、適応型スペクトル-時間変換器は、第1のグループから第2のグループの変換カーネルに切り替えるように構成される。
【0033】
さらに、適応型スペクトル-時間変換器6は、現在のビットが前のフレームで使用され
たものとは異なる対称性を示すとき、第2のグループから第1のグループの変換カーネルに切り替えないように構成することができ、現在のビットが前のフレームで使用されたのと同じ対称性を示すとき、適応型スペクトル時間変換器は、第2のグループから第1のグループの変換カーネルに切り替わるように構成される。
【0034】
エンコーダ側または分析側またはデコーダ側または合成側のいずれかの時間部分とブロックとの関係を示すために、
図4Aおよび
図4Bを参照する。
【0035】
図4Bは、0番目の時間部分から3番目の時間部分の概略図を示し、これらの次の時間部分の各時間部分は、ある重複範囲170を有する。これらの時間部分に基づいて、重複時間部分を表す連続する一連のブロックは、エイリアシング-導入変換動作の分析側を示す
図5Aに関してより詳細に説明する処理によって生成される。
【0036】
特に、
図4Bが分析側に適用されるときの
図4Bに示される時間領域信号は、分析窓を適用する窓掛け部201によって窓掛けされる。したがって、0番目の時間部分を得るために、例えば、2048サンプル、特にサンプル1~サンプル2048に分析窓を適用する。従って、Nは1024に等しく、窓掛けは2Nサンプルの長さを有し、この例は2048である。次に、窓掛け部が、ブロックの第1のサンプルとしてのサンプル2049ではなく、第1の時間部分を得るためにブロック内の第1のサンプルとしてのサンプル1025に対して、さらなる分析操作を適用される。したがって、50%の重なりについて1024サンプル長である第1の重なり範囲170が得られる。この手順は、第2および第3の時間部分に対して付加的に適用されるが、ある重なり範囲170を得るために常に重なり合う。
【0037】
オーバーラップは、必ずしも50%のオーバーラップである必要はないが、オーバーラップは、より高くても低くてもよく、マルチオーバーラップであってもよいことが強調されるべきである。すなわち、時間領域のオーディオ信号のサンプルが2つの窓および結果としてスペクトル値のブロックに寄与しないように2つ以上の窓のオーバーラップが得られるが、サンプルはスペクトル値の2つ以上の窓/ブロックに寄与する。一方、当業者であれば、0の部分および/または1の値を有する部分を備えた
図5Aの窓掛け部201によって適用可能な他の窓掛け形状が存在することがさらに理解される。このような単一の値を有する部分に対して、そのような部分は、典型的には、先行または後続の窓の0部分と重複し、したがって、単一の値を有する窓の一定部分に位置する特定のオーディオサンプルは、単一のスペクトル値のブロックにのみ寄与する。
【0038】
図4Bによって得られた窓掛けされた(窓化済み)時間部分は、畳み込み操作を実行するためにフォルダ202に伝送される。この畳み込み操作は、例えば、フォルダ202の出力において、ブロック当たりN個のサンプルを有するサンプリング値のブロックのみが存在するように、畳み込みを実行することができる。そして、フォルダ202による畳み操作に続いて、時間-周波数変換器が適用され、そして、それは、入力側のブロック当たりN個のサンプルを時間-周波数変換器203の出力側でN個のスペクトル値に変換するDCT-IV変換器である。
【0039】
したがって、ブロック203の出力で得られたスペクトル値の一連のブロックが
図4Aに示されており、具体的には、
図1Aおよび
図1Bに102で示す第1の変更値を関連付け、
図1Aおよび1Bに示す第2の変更値に関連する第2の変更値192を有する第1のブロック191を示している。当然のことながら、シーケンスは、第2のブロックに先行する、または図示のように第1のブロックに先行するブロック193または194をさらに有する。第1および第2のブロック191,192は、例えば、
図4Bの窓掛けされた第1の時間部分を変換して第1のブロックを得ることによって得られ、そして、第2のブ
ロックは
図5Aの時間-周波数変換器203によって、
図4Bの窓掛けされた第2の時間部分を変換することによって得られる。したがって、一連のスペクトル値のブロックにおいて、時間的に隣接するスペクトル値の両方のブロックは、第1の時間部分および第2の時間部分をカバーするオーバーラップ範囲を表す。
【0040】
続いて、
図5Bは、
図5Aのエンコーダまたは分析側処理の結果の合成側またはデコーダ側の処理を示すために説明される。
図5Aの周波数変換器203によって出力された一連のスペクトル値のブロックは、変更子211に入力される。概説したように、スペクトル値の各ブロックは、
図4A~
図5Bに示される例についてN個のスペクトル値を有する(これは、Mが使用される式(1)および(2)とは異なることに留意されたい)。各ブロックは、
図1Aおよび1Bに示す102,104のような変更値を関連付けている。次に、典型的なIMDCT動作または冗長性低減合成変換では、周波数-時間変換器212、逆畳み込みのためのフォルダ213、合成窓を適用するための窓掛け部214、および、オーバーラップ/加算操作が、重複範囲内の時間領域信号を得るために実行されるブロック215によって示される。この例では、ブロックごとに2N個の値があるので、各オーバーラップ・アンド・オペレーションの後に、変更値102,104が時間または周波数に亘って可変ではない場合、N個の新しいエイリアシングのない時間領域サンプルが得られる。しかし、これらの値が時間と周波数によって変動する場合、ブロック215の出力信号はエイリアシングフリーではなく、この課題は、
図1Bおよび1Aの文脈で議論され、本明細書の他の図の文脈で議論されるように、本発明の第1および第2の態様によって対処される。
【0041】
続いて、
図5Aおよび
図5Bのブロックによって実行される手順のさらなる説明が与えられる。
【0042】
この図は、M
DCTを参照することによって例示されているが、他のエイリアシング導入変換も同様の類似の方法で処理することができる。重複変換として、MDCTは、(同じ数ではなく)入力の半分の出力を持つ点で、他のフーリエ関連変換に比べて少し珍しい。特に、それは線形関数F:R
2N → R
N である(Rは実数の集合を表している)。2N個の実数x0,...,x2N-1は、次の式に従ってN個の実数X0,...,XN-1に変換される。
【0043】
(この変換の前の正規化係数、ここでは単一性は任意の慣例であり、処理ごとに異なる。下記のMDCTとIMDCTの正規化の積のみが制約される)。
【0044】
逆MDCTは、IMDCTとして知られている。一見すると、入力と出力の数が異なるため、MDCTが反転できないように見えるかも知れない。しかし、完全な可逆性は、時間的に隣接するオーバーラップするブロックのオーバーラップされたIMDCTを加算し、エラーをキャンセルし、元のデータを取り出すことによって達成される。この技術は、時間領域エイリアシングキャンセル(TDAC)として知られている。
【0045】
IMDCTは、N個の実数X0,...,XN-1を2N個の実数y0,...,y2N-1に変換する次の式に従う。
【0046】
(直交変換であるDCT-IVの場合と同様に、逆関数も順変換と同じ形式である。)
【0047】
通常の正規化窓(下記参照)を有する窓掛けされたMDCT(窓掛け済みMDCT)の場合、IMDCTの前の正規化係数は2倍(すなわち、2/Nになる)にすべきである。
【0048】
典型的な信号圧縮アプリケーションでは、変換特性は、MDCTおよびIMDCT公式においてxnおよびynと乗算される窓関数wn(n=0,...,2N-1)を使用することによってさらに改善され、n=0および2N境界における不連続性を回避するために、これらの点で関数がゼロに滑らかに進むようにする。(つまり、MDCTの前とIMDCTの後にデータを窓掛けする。)原理的には、xとyは異なる窓関数を持つことができ、窓関数はあるブロックから次のブロックに変更することもできる(特に、異なるサイズのデータブロックが結合されている場合)が、簡略化のために、等しいサイズのブロックに対して同一の窓関数の一般的なケースを考慮している。
【0049】
【0050】
MDCTに適用される窓は、Princen-Bradley条件を満たさなければならないため、他
の種類の信号分析に使用される窓とは異なる。この違いの理由の1つは、MDCT(解析)とIMDCT(合成)の両方に対して、MDCT窓が2回適用されることである。
【0051】
定義を調べることによって分かるように、Nについても、MDCTは、入力がN/2だけシフトされ、2つのNブロックのデータが一度に変換されるDCT-IVと本質的に同等である。この同等性をより慎重に検討することにより、TDACのような重要な特性を容易に導出することができる。
【0052】
DCT-IVとの正確な関係を定義するために、DCT-IVは偶数/奇数境界条件(すなわち対称条件)を交互にすることに対応することを認識しなければならない。左境界(約n=-1/2)、(n=N=-1/2の周りの)右境界線で奇数であり、DFTのよ
うに周期的境界の代わりに続くようにしてもよい。これは、次式に従う。
および
【0053】
したがって、その入力が長さNの配列xである場合、この配列を(x,-xR,-x,xR,...)に拡張すると想像することができる。ここで、xRはxを逆順に表す。
【0054】
2N個の入力とN個の出力を有するMDCTを考えてみる。ここでは、入力をサイズN/2の4つのブロック(a,b,c,d)に分割する。MDCT定義の+N/2項からN/2だけ右にシフトすると、(b,c,d)はN個のDCT-IV入力の終わりを超えて延び、上記の境界条件に従ってそれらを「畳み込む」必要があります。
【0055】
したがって、2N入力(a,b,c,d)のMDCTは、N入力のDCT-IVと正確に等価である(-cR-d、a-bR)。
【0056】
これは、
図5Aの窓関数202について例示されている。aは部分204bであり、bは部分205aであり、cは部分205bであり、dは部分206aである。
【0057】
(このようにして、DCT-IVを計算するアルゴリズムは、MDCTに自明に適用できる。)同様に、上のIMDCTの公式は、DCT-IV(それ自身の逆数)の正確に1/2であり、出力は(境界条件を介して)長さ2Nに拡張され、左にN/2だけ戻される。逆DCT-IVは、上から入力(-cR-d、a-bR)を返すだけである。これが境界条件によって拡張され、シフトされると、
IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2
となる。
【0058】
したがって、IMDCT出力の半分は、b-aR=-(a-bR)Rのように冗長であり、最後の2つの項についても同様である。入力をA=(a,b)およびB=(c,d)のサイズNのより大きなブロックA、Bにグループ化すると、この結果をより簡単な方法
IMDCT(MDCT(A,B))=(A-AR,B+BR)/2
で書くことができる。
【0059】
TDACの仕組みを理解できるようになる。時間的に隣接し、50%重複した2Nブロック(B、C)のMDCTを計算すると仮定する。IMDCTは、上記と同様に(B-BR,C+CR)/2となる。これが以前のIMDCT結果と重複する半分で加算されると、逆の項はキャンセルされ、単純にBを取得して元のデータを回復する。
【0060】
「時間領域エイリアシングキャンセル」という用語の由来は現在はっきりしている。論理DCT-IVの境界を越えて伸びる入力データの使用は、ナイキスト周波数を超える周波数が低い周波数にエイリアシングされるのと同じ方法(拡張対称性に関して)でエイリアスを引き起こし、(a,b,c,d)のMDCTへの寄与とbRの寄与を区別することができないか、または等価的に、IMDCT(MDCT(a,b,c,d))=(a-b
R、b-aR、c+dR、d+cR)/2の結果に変換する。組み合わせc-dRなどは
、組み合わせが追加されたときに取り消す正しい記号を正確に持っている。
【0061】
奇数N(実際にはめったに使用されない)の場合、N/2は整数ではないので、MDCTは単なるDCT-IVのシフト置換ではない。この場合、サンプルの半分の追加シフトは、MDCT/IMDCTがDCT-III/IIと同等になることを意味し、分析は上記と同様である。
【0062】
2N個の入力(a,b,c,d)のMDCTは、N個の入力(-cR-d、a-bR)のDCT-IVと等価であることを上記から見てきた。DCT-IVは、右境界の関数が奇数の場合に設計されているため、右境界付近の値は0に近い値になる。入力信号が滑らかであれば、入力シーケンス(a,b,c,d)ではaとbRの右端の成分が連続しているため、その差は小さい。区間の中央を見てみましょう。上の式を(-cR-d,a-bR)=(-d,a)-(b,c)Rと書き換えると、第2の(b,c)Rは真ん中である。しかし、第1項(-d,a)では、-dの右端がaの左端と一致する不連続点がある。これは、入力シーケンス(a,b,c,d)の境界付近の成分を0に向かって減らす窓関数を使用する理由である。
【0063】
上記のように、通常のMDCTではTDACプロパティが証明され、時間的に隣接するブロックのIMDCTをオーバーラップする半分に追加すると元のデータが回復することが示されている。窓掛けされたMDCT(窓掛け済みMDCT)に対するこの逆特性の導出は、わずかに複雑であるだけである。
【0064】
【0065】
【0066】
したがって、MDCT(A,B)を実行する代わりに、すべての乗算が要素ごとに実行されたMDCTS(WA,WRB)が現在存在する。これがIMDCTに入力され、窓関数によって再び(要素ごとに)乗算されると、最後のNの半分は次のようになる。
WR・(WRB+(WRB)R)=WR・(WRB+WBR)=WR
2B+WWRBR
【0067】
(IMDCTの正規化は、窓掛けされたケースでは2倍異なるため、乗算は1/2にならない)。
【0068】
同様に、窓掛けされた(B,C)のMDCTおよびIMDCTは、最初のNの半分で次のようになる。
W・(WB-WRBR)=W2B-WWRBR
【0069】
これらの2つの半分を一緒に追加すると元のデータが復元される。再構成は、2つのオーバーラップする窓の半分がPrincen-Bradley条件を満たすとき、窓の切り替えのコンテ
キストでも可能である。エイリアシング解除は、この場合、上記と全く同じ方法で行うことができる。複数の重複変換では、関連するすべてのゲイン値を使用して3つ以上の分岐が必要になる。
【0070】
これまでは、MDCT、より具体的にはMDCT-IVの対称性または境界条件について説明してきた。MDCT-II、MDST-II、およびMDST-IVという他の変換カーネルについても説明が有効である。しかし、他の変換カーネルの異なる対称性または境界条件を考慮する必要があることに留意しなければならない。
【0071】
図6は、4つの記述された重複変換の暗黙の逆畳み込み特性および対称性(すなわち境界条件)を概略的に示す。変換は、4つの変換のそれぞれについての第1の合成基底関数を介して(2)から導出される。IMDCT-IV34a、IMDCT-II34b、IMDST-IV34cおよびIMDST-II34dは、経時的な振幅サンプルの模式図で示されている。
図6は、上述のような変換カーネルの間の対称軸35(すなわち折りたたみ点)での変換カーネルの偶数および奇数対称性を明確に示している。
【0072】
時間領域エイリアシングキャンセル(TDAC)プロパティは、OLA(オーバーラップアンドアド)処理中に偶数および奇数対称拡張が合計されるとき、そのエイリアシングがキャンセルされることを示す。換言すれば、TDACが発生するためには、奇数の右側対称性を有する変換の後に、偶数の左側対称性を有する変換が行われなければならず、その逆もまた同様である。
したがって、
・(逆の)MDCT-IVの後には、逆MDCT-IVまたは逆MDST-IIを続ける。
・(逆の)MDST-IVの後には、逆MDST-IVまたは逆MDCT-IIを続ける。
・(逆の)MDCT-IIの後には、逆MDCT-IVまたは逆MDST-IIを続ける。
・(逆の)MDST-IIの後には、逆MDST-IVまたは逆MDCT-IIを続ける。
【0073】
図7の(a)、
図7の(b)は、完全な再構成を可能にしながら、信号適応型変換カーネルスイッチングが1つのフレームから次のフレームへ変換カーネルに適用されるユースケースの2つの実施形態を概略的に示す。言い換えれば、上述の変換シーケンスの2つの可能なシーケンスが
図7に例示されている。ここで、実線(線38cなど)は変換窓を示し、破線38aは変換窓の左側エイリアシング対称性を示し、点線38bは変換窓の右側エイリアシング対称性を示す。さらに、対称ピークは偶対称を示し、対称谷は奇対称を示す。
図7の(a)において、フレームiの36aおよびフレームi+1の36bは、MDCT-IV変換カーネルであり、フレームi+2の36cにおいて、フレームi+3の36dで使用されるMDCT-II変換カーネルへの遷移としてMST-IIが使用される。フレームi+4の36eは、MDST-IIを再び使用し、例えば
図7の(a)には示されていないフレームi+5のMDCT-IIにMDST-IVを再び使用する。しかしながら、
図7の(a)は、破線38aおよび点線38bが、後続の変換カーネルを補償することを明確に示している。言い換えれば、現フレームの左側エイリアシング対称性と前のフレームの右側エイリアシング対称性を合計すると、点線と点線の和が0に等しいので、完全な時間領域エイリアシングキャンセル(TDAC)が得られる。左右のエイリアシング対称性(または境界条件)は、例えば
図5Aおよび
図5Bに記載された畳み込み特性に関連し、MDCTが2N個のサンプルを含む入力からN個のサンプルを含む出力を生成
した結果である。
【0074】
図7の(b)は、
図7の(a)と同様であり、フレームiからフレームi+4に対する異なる一連の変換カーネルを使用するのみである。フレームi36aでは、MDCT-IVが使用され、フレームi+1の36bは、フレームi+2の36cで使用されるMDST-IVへの遷移としてMDST-IIを使用する。フレームi+3は、フレームi+2の36dで使用されるMDST-IV変換カーネルからフレームi+4の36eのMDCT-IV変換カーネルへの遷移としてMDCT-II変換カーネルを使用する。
【0075】
変換シーケンスに対する関連決定マトリクスを表1に示す。
【0076】
実施形態は、HE-AACのようなオーディオコーデックにおいて提案された適応型変換カーネルスイッチングがどのようにして有利に採用されて、冒頭に述べた2つの課題を最小限に抑え、あるいは回避するかをさらに示している。以下は、従来のMDCTによって準最適にコード化された高調波信号に対処する。MDCT-IIまたはMDST-IIへの適応的遷移は、例えば入力信号の基本周波数に基づいてエンコーダによって実行されてもよい。より具体的には、入力信号のピッチが、変換の周波数分解能の整数倍(すなわち、スペクトル領域における1つの変換ビンの帯域幅)に厳密にまたは非常に近い場合、MDCT-IIまたはMDST-IIは、影響を受けるフレームおよびチャネルに対して使用されてもよい。しかしながら、MDCT-IVからMDCT-II変換カーネルへの直接遷移は不可能であるか、少なくとも時間領域エイリアシングキャンセル(TDAC)を保証しない。したがって、MDCT-IIはそのような場合に両者間の遷移変換として利用されなければならない。逆に、MDST-IIから伝統的なMDCT-IVへの移行(すなわち、伝統的なMDCTコーディングへの切り替え)には、中間体MDCT-IIが有利である。
【0077】
これまで、高調波オーディオ信号の符号化を強化するため、提案された適応型変換カーネルスイッチングは単一のオーディオ信号について記述されていた。さらに、例えばステレオ信号などのマルチチャネル信号に容易に適合させることができる。ここで、例えば、マルチチャネル信号の2つ以上のチャネルがおおよそ互いに±90度の位相シフトを有する場合、適応型変換カーネルスイッチングも有利である。
【0078】
マルチチャンネルオーディオ処理の場合、1つのオーディオチャネルに対してMDCT-IV符号化を使用し、第2のオーディオチャネルに対してMDST-IV符号化を使用することが適切であり得る。特に、両方のオーディオチャンネルが符号化前に約±90度の位相シフトを含む場合、この概念は有利である。MDCT-IVとMDST-IVとは、互いに比較して符号化信号に90度の位相シフトを与えるので、オーディオ信号の2チャンネル間で±90度の位相シフトが符号化後に補償され、すなわち、MDCT-IVのコサインベース関数とMDST-IVの正弦関数との間の90度の位相差によって、0度または180度の位相シフトに変換される。したがって、例えばM/Sステレオ符号化では、オーディオ信号の両方のチャネルが中間信号で符号化されてもよく、0度の位相シフトへの上述の変換の場合、サイド信号に最小残差情報のみを符号化する必要があり、180度の位相シフトへの反転の場合にはその逆(中間信号の最小情報)が得られ、それによって最大のチャネル圧縮が達成される。これにより、両方のオーディオチャンネルの古典的なMDCT-IVコーディングと比較して、ロスレスコーディングスキームを使用しながら、最大50%の帯域幅削減が達成される可能性がある。さらに、複雑なステレオ予測と組み合わせてMDCTステレオ符号化を使用することも考えられる。両方のアプローチは、オーディオ信号の2つのチャネルから残差信号を計算し、符号化し、送信する。さらに、複雑な予測は、オーディオ信号を符号化するための予測パラメータを計算し、デコーダは、送信されたパラメータを使用してオーディオ信号を復号する。しかし、例えば、2
つのオーディオチャネルを符号化するためのMDCT-IVおよびMDST-IVは、既に上述したように、デコーダが関連する符号化方式を適用できるように、使用される符号化方式(MDCT-II、MDST-II、MDCT-IVまたはMDST-IV)に関する情報のみが送信されるべきである。複雑なステレオ予測パラメータは、比較的高い解像度を使用して量子化されるべきであるので、使用される符号化方式に関する情報は、例えば、4ビット符号化されてもよい。理論的には、第1および第2のチャネルは、4つの異なる符号化方式のうちの1つを使用してそれぞれ符号化されてもよく、これにより16の異なる可能な状態が導かれる。
【0079】
したがって、
図8は、マルチチャネルオーディオ信号を復号するためのデコーダ2の概略ブロック図を示す。
図1のデコーダと比較して、デコーダは、第1および第2のマルチチャネルを表すスペクトル値4a’’’、4b’’’のブロックを受信するためのマルチチャネルプロセッサ40をさらに備え、第1のマルチチャネルおよび第2のマルチチャネルのスペクトル値4a’、4b’の処理済みブロックを得るために、受信したブロックをジョイントマルチチャネル処理技術に従って、適応型スペクトル-時間プロセッサは、第1のマルチチャネル用の制御情報12aと、第2のマルチチャネル用の制御情報12bを使用する第2のマルチチャネル用の処理済みブロック4b'とを使用して、第1のマルチ
チャネルの処理済みブロック4a’を処理するように構成される。マルチチャンネルプロセッサ40は、例えば、左右ステレオ処理、和差ステレオ処理を適用してもよいし、あるいは、マルチチャネルプロセッサは、第1および第2のマルチチャネルを表すスペクトル値のブロックに関連する複素予測制御情報を用いて複素予測を適用する。したがって、マルチチャネルプロセッサは、例えばオーディオ信号を符号化するためにどの処理が使用されたかを示す、制御情報から固定されたプリセットを含むことができ、または情報を得ることができる。制御情報内の別個のビットまたはワードの他に、マルチチャネルプロセッサは、例えばマルチチャネル処理パラメータの不存在または存在によって、この情報を現在の制御情報から得ることができる。換言すれば、マルチチャネルプロセッサ40は、エンコーダで実行されるマルチチャネル処理に逆動作を適用して、マルチチャネル信号の別々のチャネルを回復することができる。さらなるマルチチャネル処理技術は、
図10~
図14に関して説明される。さらに、参照符号は、マルチチャネル処理に適用され、文字「a」によって拡張された参照符号は第1マルチチャネルを示し、参照符号は文字「b」によって拡張されて第2マルチチャネルを示す。さらに、マルチチャンネルは、2チャンネル、またはステレオ処理に限定されず、しかし、2チャンネルの図示された処理を拡張することによって、3つ以上のチャネルに適用することができる。
【0080】
実施形態によれば、デコーダのマルチチャネルプロセッサは、共同マルチチャネル処理技術に従って、受信したブロックを処理することができる。さらに、受信されたブロックは、第1のマルチチャネルの表現の符号化残差信号および第2のマルチチャネルの表現を含むことができる。さらに、マルチチャネルプロセッサは、残余信号およびさらなる符号化信号を使用して第1のマルチチャネル信号および第2のマルチチャネル信号を計算するように構成されてもよい。言い換えれば、残差信号は、M/Sで符号化されたオーディオ信号のサイド信号であってもよいし、または、使用時にオーディオ信号のさらなるチャネルに基づくオーディオ信号のチャネルとチャネルの予測との間の残差、例えば複雑なステレオ予測であってもよい。したがって、マルチチャネルプロセッサは、例えば逆変換カーネルを適用するなどのさらなる処理のために、M/Sまたは複素予測オーディオ信号をL/Rオーディオ信号に変換することができる。従って、マルチチャネルプロセッサは、残差信号と、M/S符号化されたオーディオ信号の中間信号又はオーディオ信号の(例えば、MDCT符号化された)チャネルであってもよい更なる符号化されたオーディオ信号を用いることができる。
【0081】
図9は、マルチチャネル処理に拡張された
図3のエンコーダ22を示す。制御情報12
が符号化されたオーディオ信号4に含まれることが予測されるが、制御情報12は、例えば別個の制御情報チャネルを使用してさらに送信されてもよい。マルチチャネルエンコーダのコントローラ28は、第1のチャネルのフレームおよび第2のチャネルの対応するフレームの変換カーネルを決定するために、第1のチャネルおよび第2のチャネルを有するオーディオ信号の時間値30a、30bのオーバーラップするブロックを分析することができる。したがって、コントローラは、変換カーネルの各組み合わせを試みて、例えばM/S符号化または複素数予測の残差信号(またはM/S符号化に関してサイド信号)を最小化する変換カーネルのオプションを導き出すことができる。最小化された残差信号は、例えば、残りの残差信号と比較して最も低いエネルギーを有する残差信号を生成する。これは、例えば、より大きな信号を量子化するのと比較して、残余信号のさらなる量子化が小信号を量子化するためにより少ないビットを使用する場合に有利である。さらに、コントローラ28は、前述の変換カーネルのうちの1つを適用する適応型時間-スペクトル変換器26に入力されている第1のチャネルの第1の制御情報12aと第2のチャネルの第2の制御情報12bを決定することができる。したがって、時間スペクトル変換器26は、マルチチャネル信号の第1のチャネルおよび第2のチャネルを処理するように構成されてもよい。さらに、マルチチャネルエンコーダは、第1のチャネルおよび第2のチャネルのスペクトル値4a’、4b’の連続するブロックを、例えば、以下のようなジョイントマルチチャネル処理技術を用いて処理するためのマルチチャネルプロセッサ42をさらに備えることができる。例えば、和差ステレオ符号化、または複素予測を用いて、スペクトル値40a’’’、40b’’’の処理されたブロックを得ることができる。エンコーダは、符号化されたチャネル40a’’’、40b’’’を得るために、スペクトル値の処理されたブロックを処理するための符号化プロセッサ46をさらに備えることができる。符号化プロセッサは、例えば損失性オーディオ圧縮または無損失オーディオ圧縮方式を使用してオーディオ信号を符号化することができ、例えば、スペクトル線のスカラー量子化、エントロピー符号化、ハフマン符号化、チャネル符号化、ブロック符号または畳み込み符号、または順方向誤り訂正または自動繰り返し要求を適用することができる。さらに、不可逆的オーディオ圧縮は、心理音響モデルに基づく量子化を使用することを指してもよい。
【0082】
さらなる実施形態によれば、第1の処理されたスペクトル値のブロックは、ジョイントマルチチャネル処理技術の第1の符号化された表現を表し、第2の処理されたスペクトル値のブロックは、ジョイントマルチチャネル処理技術の第2の符号化された表現を表す。したがって、符号化プロセッサ46は、量子化およびエントロピー符号化を使用して第1の処理済みブロックを処理して第1の符号化された表現を形成し、量子化およびエントロピー符号化を使用して第2の処理済みブロックを処理して第2の符号化された表現を形成するように構成される。第1の符号化された表現および第2の符号化された表現は、符号化されたオーディオ信号を表すビットストリーム内に形成されてもよい。言い換えると、第1の処理ブロックは、複素ステレオ予測を使用して、エンコードされたオーディオ信号のM/Sエンコードされたオーディオ信号またはMDCTエンコードされたチャネルの中間信号を含むことができる。さらに、第2の処理ブロックは、複素予測のためのパラメータまたは残差信号、またはM/S符号化されたオーディオ信号のサイド信号を含むことができる。
【0083】
図10は、2つ以上のチャネル信号を有するマルチチャネルオーディオ信号200を符号化するためのオーディオエンコーダを示しており、第1のチャネル信号は符号201で示され、第2のチャネルは符号202で示されている。両方の信号は、第1のチャネル信号201と第2のチャネル信号202と予測情報206とを用いて第1の合成信号204と予測残差信号205を計算するためのエンコーダ計算器203に入力され、予測残差信号205となる。このとき、第1の合成信号204および予測情報206から得られた予測信号と組み合わされると、第2の合成信号が得られる。そこにおいて、第1の合成信号
および第2の合成信号は、結合規則を使用して第1のチャネル信号201および第2のチャネル信号202から導出可能である。
【0084】
予測情報は、予測残差信号が最適化ターゲット208を満たすように予測情報206を計算するためのオプティマイザ207によって生成される。第1の合成信号204および残余信号205は、第1の合成信号204を符号化するために信号エンコーダ209に入力され、符号化された第1の合成信号210を取得し、残余信号20を符号化して符号化された残差信号211を得る。符号化された第1の合成信号210を符号化された予測残余信号211と予測情報206とを組み合わせてエンコードされたマルチチャネル信号213を得るために、符号化された信号210,211の両方が出力インターフェース212に入力される。
【0085】
実装に応じて、オプティマイザ207は、第1のチャネル信号201および第2のチャネル信号202のいずれかを受信するか、またはライン214および215によって示されるように、第1の合成信号214および第2の合成信号215は、後述する
図11Aの結合器2031から得られる。
【0086】
図10には、符号化利得が最大化される、すなわちビットレートが可能な限り低減される最適化ターゲットが示されている。この最適化目標では、残差信号Dはαに対して最小化される。これは、言い換えると、予測情報αは、||S-αM||
2が最小になるように選
択されることを意味する。これにより、
図10に示すαの解が得られる。信号S、Mは、ブロック単位で与えられ、スペクトル領域の信号であり、表記||…||の引数の2ノルムを意味し、<…>はドットプロダクトを通常どおりに示す。第1のチャネル信号201および第2のチャネル信号202がオプティマイザ207に入力されると、オプティマイザは結合規則を適用する必要があり、例示的な結合規則が
図11Cに示されている。しかしながら、第1の合成信号214と第2の合成信号215がオプティマイザ207に入力された場合、オプティマイザ207はそれ自体で組み合わせルールを実装する必要はない。
【0087】
他の最適化ターゲットは、知覚品質に関連してもよい。最適化目標は、最大知覚品質が得られることであり得る。次に、オプティマイザは、知覚モデルから追加の情報を必要とする。最適化ターゲットの他の実装形態は、最小ビットレートまたは固定ビットレートを得ることに関する。次に、オプティマイザ207は、特定のα値について必要とされるビットレートを決定するために量子化/エントロピー符号化動作を実行するように実施される。そのため、αは、最小ビットレートまたは固定ビットレートなどの要件を満たすように設定することができる。最適化ターゲットの他の実装形態は、エンコーダまたはデコーダリソースの最小限の使用に関連し得る。そのような最適化ターゲットの実施の場合、ある最適化のために必要とされるリソースに関する情報は、オプティマイザ207において利用可能である。さらに、これらの最適化ターゲットまたは他の最適化ターゲットの組み合わせを、予測情報206を計算するオプティマイザ207を制御するために適用することができる。
【0088】
図10のエンコーダ計算器203は異なる方法で実施することができ、例示的な第1の実施態様が
図11Aに示されており、明示的な結合規則が結合器2031において実行される。マトリックス計算機2039が使用される代替的な例示的な実施が
図11Bに示されている。
図11Aの結合器2031は、
図11Cに例示されている結合規則を実行するように実装されてもよく、これは、よく知られている中間側の符号化規則であり、すべてのブランチに0.5の重み付け係数が適用される。しかし、実装に応じて、他の重み付け係数または重み付け係数を全く実装することはできない。さらに、他の線形結合規則や非線形結合規則などの他の結合規則を適用することも可能であり、
図12Aに示すデコーダ結合器1162に適用することができる対応する逆の結合規則が存在する限り、エンコー
ダによって適用される結合規則とは逆の結合規則を適用する。ジョイントステレオ予測のために、波形への影響が予測によって「平衡」される、すなわちエラーが送信された残差信号に含まれるので、任意の可逆予測規則を使用することができる。オプティマイザ207によるエンコーダ演算器203との予測演算が波形保存処理であるためである。
【0089】
結合器2031は、第1の合成信号204および第2の合成信号2032を出力する。第1の合成信号は、予測器2033に入力され、第2の合成信号2032は、残差計算器2034に入力される。予測器2033は予測信号2035を計算し、これは第2の合成信号2032と合成されて最終的に残差信号205を得る。具体的には、結合器2031は、マルチチャネルオーディオ信号の2つのチャネル信号201および202を2つの異なる方法で結合して第1の合成信号204および第2の合成信号2032を得るように構成され、2つの異なる方法が
図11Cの例示的な実施形態で示されている。予測器2033は、予測信号2035を得るために、予測情報を第1の合成信号204または第1の合成信号から得られた信号に適用するように構成される。合成信号から得られる信号は、任意の非線形または線形演算によって導出することができ、ある値の加重加算を行うFIRフィルタのような線形フィルタを用いて実現することができる、実数から虚数への変換/虚数から実数への変換が有利である。
【0090】
図11Aの残差計算器2034は、予測信号2035が第2の合成信号から減算されるように減算演算を実行することができる。しかし、残りの計算機における他の動作も可能である。これに対応して、
図12Aの合成信号計算器1161は、第2の組合せ信号1165を得るために、復号された残差信号114と予測信号1163とが加算される加算演算を実行することができる。
【0091】
デコーダ計算器116は、異なる方法で実装することができる。第1の実施が
図12Aに示されている。この実施例は、予測器1160と、合成信号計算器1161と、結合器1162とを備える。予測器は、復号された第1の合成信号112と予測情報108とを受け取り、予測信号1163を出力する。具体的には、予測器1160は、復号された第1の合成信号112または復号された第1の合成信号から導出された信号に予測情報108を適用するように構成される。予測情報108が適用される信号を導出するための導出ルールは、実数から虚数の変換であってもよく、等価的には、虚数-実数変換または重み付け演算、もしくは同程度に、実装、位相シフト演算、または結合重み付け/位相シフト演算に依存する。予測信号1163は、復号された第2の合成信号1165を計算するために、復号された残差信号と共に合成信号計算器1161に入力される。信号112および1165は、復号化された第1の合成信号および第2の合成信号を結合して、復号された第1のチャネル信号および復号された第2のチャネル信号を出力線1166および1167上に有する復号化マルチチャネルオーディオ信号を得る結合器1162にそれぞれ入力される。あるいは、デコーダ計算器は、復号化された第1の合成信号または信号M、復号された残差信号または信号Dおよび予測情報α108を入力として受け取る行列計算器1168として実装される。行列演算器1168は、1169として示す変換行列を信号M、Dに適用して、出力信号L、Rを得る。ここで、Lは復号された第1のチャネル信号であり、Rは復号された第2のチャネル信号である。
図12Bの表記は、左チャネルLおよび右チャネルRを用いたステレオ表記に似ている。この表記は、理解を容易にするために適用されているが、信号L、Rは、3つ以上のチャネル信号を有するマルチチャネル信号内の2つのチャネル信号の任意の組み合わせであり得ることは、当業者には明らかである。行列演算1169は、
図12Aのブロック1160,1161および1162の演算を一種の「シングルショット」の行列計算に統一し、
図12Aの回路への入力および
図12Aの回路からの出力は、マトリクス演算器1168への入力およびマトリクス演算器1168からの出力とそれぞれ同一である。
【0092】
図12Cは、
図12Aの結合器1162によって適用される逆結合規則の例を示す。特に、結合規則は、L=M+Sであり、R=M-Sである周知のミッドサイドコーディングにおけるデコーダ側の結合規則に類似している。
図12Cの逆の結合規則によって使用される信号Sは、合成信号計算器によって計算された信号、すなわちライン1163上の予測信号とライン114上の復号済み残差信号の組み合わせであることが理解されるべきである。本明細書では、ライン上の信号は、ラインの参照番号によって時々命名されることがあり、時にはラインに起因する参照番号自体によって示されることが理解されるべきである。したがって、ある信号を有するラインが信号そのものを示すような表記である。回線はハードワイヤード実装の物理回線にすることができる。しかし、コンピュータ化された実装では、物理的な線は存在しないが、線によって表される信号は、ある計算モジュールから他の計算モジュールに伝送される。
【0093】
図13Aは、オーディオエンコーダの実装を示す。
図11Aに示すオーディオエンコーダと比較して、第1のチャネル信号201は、時間領域の第1のチャネル信号55aのスペクトル表現である。同様に、第2のチャネル信号202は、時間領域チャネル信号55bのスペクトル表現である。時間領域からスペクトル表現への変換は、第1のチャネル信号用の時間/周波数変換器50と、第2のチャネル信号用の時間/周波数変換器51によって実行される。スペクトル変換器50,51は実数変換器として実現されることが好ましいが、必ずしもそうである必要はない。変換アルゴリズムは、離散コサイン変換、実数部分のみが使用されるFFT変換、MDCT、または実数値のスペクトル値を提供する他の変換とすることができる。代替的に、両方の変換は、虚数部のみが使用され、実数部が破棄されるDST、MDST、またはFFTのような虚数変換として実施することができる。虚数値のみを提供する他の変換も同様に使用することができる。純粋な実数値変換または純粋な虚数変換を使用する1つの目的は計算上の複雑さであり、なぜなら、各スペクトル値に対して、大きさまたは実数部などの単一の値のみが処理されなければならないか、あるいは、位相または虚数部が処理されなければならないからである。FFTなどの完全に複雑な変換とは対照的に、2つの値は、すなわち、各スペクトル線の実数部および虚数部を処理しなければならず、これは少なくとも2つの因数による計算上の複雑さの増加である。ここで実数値変換を使用する別の理由は、このような変換シーケンスは、通常、相互変換オーバーラップの存在下でもクリティカルにサンプリングされることであり、したがって、信号量子化およびエントロピー符号化(「MP3」、AAC、または同様のオーディオ符号化システムで実施される標準的な「知覚的オーディオ符号化」パラダイム)に適切な(および一般的に使用される)領域を提供する。
【0094】
図13Aは、「プラス」入力でサイド信号を受信し、「マイナス」入力でプレディクタ2033によって出力された予測信号を受信する加算器としての残差計算器2034をさらに示している。さらに、
図13Aは、予測子制御情報がオプティマイザから符号化されたマルチチャネルオーディオ信号を表す多重化されたビットストリームを出力するマルチプレクサ212に伝送される状況を示す。特に、予測動作は、
図13Aの右側の式によって示されるように、中間信号からサイド信号が予測されるように実行される。
【0095】
予測子制御情報206は、
図11Bの右側に示すような因子である。予測制御情報が、複素数値αの実数部または複素数値αの大きさなどの実数部のみを含む実施形態では、この部分がゼロ以外の因子に相当する場合には、中間信号とサイド信号との波形構造が類似しているが、振幅が異なる場合に顕著な符号化利得が得られる。
【0096】
しかし、予測制御情報が、複素数ファクタの虚数部または複素数ファクタの位相情報となり得る第2の部分のみを含む場合、虚数部または位相情報がゼロとは異なる場合、本発明は、0度または180度とは異なる値だけ互いに位相シフトされた信号に対して有意な符号化利得を達成し、位相シフトを除いて、同様の波形特性および類似の振幅関係を有す
る。
【0097】
予測制御情報は複素値である。そして、振幅が異なり、位相シフトされた信号に対して、有意な符号化利得を得ることができる。時間/周波数変換が複雑なスペクトルを提供する状況では、オペレーション2034が、予測子制御情報の実数部が複素スペクトルMの実数部に適用され、複素数予測情報の虚数部が複素数スペクトルの虚数部に適用される複素演算である。次に、加算器2034において、この予測演算の結果は、予測実スペクトルと予測虚スペクトルであり、予測された実数スペクトルは、副信号Sの実数スペクトル(バンド単位)から差し引かれ、予測された虚スペクトルは、Sのスペクトルの虚部から減算され、複素残差スペクトルDを得る。
【0098】
時間領域信号LおよびRは実数値信号であるが、周波数領域信号は実数または複素数値とすることができる。周波数領域信号が実数値である場合、変換は実数値変換である。周波数領域信号が複素数である場合、変換は複素数変換である。これは、時間-周波数変換への入力と周波数-時間変換の出力が実数値であることを意味し、周波数領域信号は、例えば、複素数値のQMFドメイン信号になる。
【0099】
図13Bは、
図13Aに示したオーディオエンコーダに対応するオーディオデコーダを示す。
【0100】
図13Aのビットストリームマルチプレクサ212によるビットストリーム出力は、
図13Bのビットストリームデマルチプレクサ102に入力される。ビットストリームデマルチプレクサ102は、ビットストリームをダウンミックス信号Mと残差信号Dとに分離する。ダウンミックス信号Mは、逆量子化器110aに入力される。残差信号Dは、逆量子化器110bに入力される。さらに、ビットストリーム逆多重化器102は、ビットストリームからの予測子制御情報108を逆多重化して、予測器1160に入力する。予測器1160は予測サイド信号α・Mを出力し、結合器1161は逆量子化器110bが出力した残差信号を予測サイド信号と合成して最終的に再構成されたサイド信号Sを得る。次いで、サイド信号は、ミッド/サイドエンコーディングに関して
図12Cに示すように、例えば和差分処理を行うコンバイナ1162に入力される。具体的には、ブロック1162は、左チャネルの周波数領域表現および右チャネルの周波数領域表現を得るために、(逆の)ミッド/サイド復号を実行する。次に、周波数領域表現は、対応する周波数/時間変換器52および53によって時間領域表現に変換される。
【0101】
システムの実装に応じて、周波数領域表現が実数値表現である場合、周波数/時間変換器52,53は実数値周波数/時間変換器であり、周波数領域表現が複素値表現である場合には、複素数値の周波数/時間変換器である。
【0102】
しかしながら、効率を高めるために、実数値変換を実行することは、エンコーダについては
図14Aに、デコーダについては
図14Bに示す別の実施例に示すように有利である。実数値変換50および51は、MDCT、すなわちMDCT-IV、あるいは本発明によれば、MDCT-IIまたはMDST-IIまたはMDST-IVによって実現される。また、予測情報は、実部と虚部とを有する複素値として算出される。両方のスペクトルM、Sは実数値スペクトルであるので、したがって、スペクトルの虚数部は存在せず、実数/虚数変換器2070が提供され、信号Mの実数スペクトルから推定虚数スペクトル600を計算する。この実数-虚数変換器2070は、オプティマイザ207の一部であり、ブロック2070で推定された虚数スペクトル600は実数スペクトルMと共にαオプティマイザステージ2071に入力され、ここでは2073で示される実数値ファクタおよび2074で示される虚数ファクタを有する予測情報206を計算する。ここで、この実施形態によれば、第1の合成信号Mの実数値スペクトルは、実数部のサイドスペクトル
から差し引かれる予測信号を得るために、実数部α
R2073と乗算される。さらに、虚
数スペクトル600は、2074で示された虚数部α
Iと乗算されてさらなる予測信号が
得られ、この予測信号は次に2034bに示すように実数値のサイドスペクトルから減算される。次に、予測残差信号Dが量子化器209bにおいて量子化され、Mの実数値スペクトルがブロック209aにおいて量子化/符号化される。さらに、
図13Aのビットストリームマルチプレクサ212に伝送される符号化された複素数α値を得るために、量子化器/エントロピーエンコーダ2072において予測情報αを量子化して符号化することが有利であり、例えば、最終的に予測情報としてビットストリームに入力される。
【0103】
αに対する量子化/符号化(Q/C)モジュール2072の位置に関して、乗算器2073および2074は、デコーダにおいても同様に使用される(量子化された)αを正確に使用することに留意されたい。したがって、22072を直接2071の出力に移行さ
せることができ、あるいは、αの量子化が2071の最適化プロセスにおいてすでに考慮されていると考えることができる。
【0104】
エンコーダ側では複雑なスペクトルを計算することができるが、全ての情報が利用可能であるため、
図14Bに示されたデコーダに関する同様の条件が生成されるように、エンコーダのブロック2070で実数から複素への変換を実行することが有利である。デコーダは、第1の合成信号の実数値符号化スペクトルと、符号化残差信号の実数値スペクトル表現とを受け取る。さらに、108で符号化された複素予測情報が得られ、ブロック65においてエントロピー復号化および逆量子化が行われ、1160bに示される実数部α
R
および1160cに示される虚数部α
Iが得られる。重み付け要素1160bおよび11
60cによって出力された中間信号は、復号化および逆量子化された予測残差信号に加算される。具体的には、複素予測係数の虚数部を重み付け係数とする重み付け器1160cに入力されたスペクトル値は、実数/虚数変換器1160aによって実数値スペクトルMから導出され、これはエンコーダ側に関する
図20のブロック2070と同じ方法で実施される。デコーダ側では、中間信号またはサイド信号の複素値表現は利用できない。エンコーダ側とは対照的である。その理由は、符号化された実数値のスペクトルのみが、ビットレートおよび複雑さの理由によりエンコーダからデコーダに送信されたためである。
【0105】
実数から虚数の変圧器1160aまたは
図14Aの対応するブロック2070は、国際公開第2004/013839号パンフレットまたは国際公開第2008/014853号パンフレットまたは米国特許第6,980,933号に公開されているように実施することができる。あるいは、当技術分野で知られている任意の他の実装を適用することができる。
【0106】
実施形態は、提案された適応型変換カーネルスイッチングがHE-AACのようなオーディオコーデックにおいてどのようにして有利に使用され、「課題ステートメント」の項で述べた2つの課題を最小限に抑え、あるいは回避するかをさらに示している。以下では、約90度のチャネル間位相シフトを有するステレオ信号に対処する。ここでは、MDST-IVベースの符号化への切り替えは、2つのチャネルのうちの一方において使用され得るが、旧式のMDCT-IV符号化は、他方のチャネルにおいて使用され得る。あるいは、MDCT-IIコーディングは、あるチャンネルで使用し、MDST-IIコーディングを他のチャンネルで使用することができる。余弦関数と正弦関数が互いに90度の位相シフトされた変形(cos(x)=sin(x+π/2))であると仮定すると、入力チャネルスペクトル間の対応する位相シフトは、このようにして、従来のM/Sベースのジョイントステレオ符号化を介して非常に効率的に符号化することができる0度または180度の位相シフトに変換することができる。従来のMDCTで準最適にコード化された高調波信号の場合と同様に、中間遷移変換が影響を受けるチャネルで有利である可能性がある。
【0107】
どちらの場合も、約90度のチャネル間位相シフトを伴う高調波信号およびステレオ信号の場合、エンコーダは、各変換に対して4つのカーネルのうちの1つを選択する(
図7も参照)。本発明の変換カーネルスイッチングを適用するそれぞれのデコーダは、同じカーネルを使用して、信号を適切に再構成することができる。このようなデコーダが、所与のフレーム内の1つまたは複数の逆変換でどの変換カーネルを使用するかを知るためには、変換カーネルの選択を説明するサイド情報、あるいは、左右の対称性は、フレームごとに少なくとも1回、対応するエンコーダによって伝送されるべきである。次のセクションでは、MPEG-H 3Dオーディオコーデックへの統合(すなわち、修正)を説明する
。
【0108】
さらなる実施形態は、オーディオ符号化に関し、特に、修正離散コサイン変換(MDCT)のようなラップ変換を用いた低レート知覚オーディオ符号化に関する。実施形態は、3つの他の同様の変換を含むようにMDCT符号化原理を一般化することにより、従来の変換符号化に関する2つの特定の課題に関する。実施形態はさらに、各符号化されたチャネルまたはフレームにおけるこれらの4つの変換カーネル間の、または各符号化されたチャネルまたはフレームにおける各変換のための信号適応およびコンテキスト適応型スイッチングを示す。カーネル選択を対応するデコーダにシグナリングするために、それぞれのサイド情報が符号化されたビットストリームで送信されてもよい。
【0109】
図15は、符号化オーディオ信号を復号する方法1500の概略ブロック図を示す。
方法1500は、スペクトル値の連続するブロックを時間値の重なり合う連続ブロックに変換するステップ1505と、復号されたオーディオ値を得るために時間値の連続するブロックを重ね合わせて加算するステップ1510と、制御情報を受信し且つ制御情報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、切り替えるステップ1515と、を含む。
【0110】
図16は、オーディオ信号を符号化する方法1600の概略ブロック図を示す。方法1600は、時間値のオーバーラップするブロックをスペクトル値の連続するブロックに変換するステップ1605と、第1のグループの変換カーネルの変換カーネルと第2のグループの変換カーネルの変換カーネルとを切り替えるために、時間-スペクトル変換を制御するステップ1610と、制御情報を受信して且つ制御情報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で、切り替えるステップ1615と、を含む。
【0111】
本明細書では、ライン上の信号は、ラインの参照番号によって時々命名されることがあり、時にはラインに起因する参照番号自体によって示されることが理解されるべきである。したがって、ある信号を有するラインが信号そのものを示すような表記である。回線はハードワイヤードの実装の物理回線にすることができる。しかし、コンピュータ化された実装では、物理的なラインは存在しないが、ラインによって表される信号は、ある計算モジュールから他の計算モジュールに伝送される。
【0112】
本発明は、ブロックが実際のまたは論理的なハードウェア構成要素を表すブロック図の文脈で説明されているが、本発明は、また、コンピュータ実装方法によって実施することもできる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対応する論理ハードウェアブロックまたは物理ハードウェアブロックによって実行される機能を表す。
【0113】
いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する場合には、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈において説明される態様は、対応するブロックまたは対応する装置のアイテムまたは特徴の記述も表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって実行されてもよい(または使用されてもよい)。いくつかの実施形態では、最も重要な方法ステップのうちのいくつか1つまたは複数を、そのような装置によって実行することができる。
【0114】
本発明の送信または符号化された信号は、デジタル記憶媒体に格納することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送することができる。
【0115】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実装は、電子的に読み取り可能な制御信号が格納されたフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、およびEPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、その上に、それらは、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)。従って、デジタル記憶媒体はコンピュータ可読であってもよい。
【0116】
本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働することができる電気的に読み取り可能な制御信号を有するデータキャリアを備え、本明細書に記載の方法の1つが実行される。
【0117】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに、方法の1つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。 プログラムコードは、例えば、機械読み
取り可能なキャリアに格納することができる。
【0118】
他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラ
ムを含み、機械読み取り可能なキャリアに格納される。
【0119】
換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0120】
したがって、本発明の方法のさらなる実施形態は、データキャリア(またはデジタル記憶媒体のような非一時的な記憶媒体またはコンピュータ可読媒体)を含み、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録している。データ担体、デジタル記憶媒体または記録媒体は、典型的には有形および/または非一時的である。
【0121】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して伝送されるように構成することができ、例えばインターネットを介して伝送される。
【0122】
さらなる実施形態は、本明細書で説明される方法のうちの1つを実行するように構成された、または適応される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。
【0123】
さらなる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0124】
本発明によるさらなる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムを受信機に伝送するように構成された装置またはシステムを含む(例えば、電子的にまたは光学的に)。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に伝送するためのファイルサーバを備えることができる。
【0125】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
【0126】
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の説明および説明によって示される特定の詳細によっては限定されないことが意図される。
【0127】
参考文献
[1] H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992.
[2] J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time
Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc., 1986.
[3] J. P. Princen, A. W. Johnson, and A. B. Bradley, "Subband/transform coding using filter
bank design based on time domain aliasing cancellation," in IEEE ICASSP, vol. 12, 1987.
[4] H. S. Malvar, "Lapped Transforms for Efficient Transform/Subband Coding," IEEE Trans. Acoustics, Speech, and Signal Proc., 1990.
[5] http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform
【手続補正書】
【提出日】2024-07-29
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号(4)を復号化するためのデコーダ(2)であって、
前記デコーダは、
連続するスペクトル値のブロック(4'、4'')を連続する時間値のブロック(10)に変換する適応型スペクトル-時間変換器(6)と、
前記時間値(10)の連続するブロックを重畳加算して復号化されたオーディオ値(14)を得るための重畳加算プロセッサ(8)と
を含み、
前記適応型スペクトル-時間変換器(6)は、制御情報(12)を受信し、前記制御情報(12)に応答して、
第1の変換カーネルグループの変換カーネルであって、前記第1の変換カーネルグループの前記変換カーネルは、対称性が異なる1つ以上の変換カーネルを両側に含む、前記第1の変換カーネルグループの前記変換カーネルと、第2の変換カーネルグループの変換カーネルであって、前記第2の変換カーネルグループの前記変換カーネルは、対称性が等しい1つ以上の変換カーネルを両側に含む、前記第2の変換カーネルグループの前記変換カーネルとの間で切り替えるように構成される、
デコーダ。
【請求項2】
前記第1の変換カーネルグループは、カーネルの左側が奇対称で右側が偶対称、またはその逆の1つ以上の変換カーネルを有する、あるいは
前記第2の変換カーネルグループは、カーネルの両側が偶対称または奇対称の1つ以上の変換カーネルを有する、
請求項1に記載のデコーダ(2)。
【請求項3】
前記第1の変換カーネルグループは、逆MDCT-IV変換カーネルまたは逆MDST-IV変換カーネルを含む、あるいは
前記第2の変換カーネルグループは、逆MDCT-II変換カーネルまたは逆MDST-II変換カーネルを含む、
請求項1に記載のデコーダ(2)。
【請求項4】
前記第1の
変換カーネルグループおよび前記第2の
変換カーネルグループの前記変換カーネル
は、
に基づいていて、
前記第1の
変換カーネルグループの前記少なくとも1つの変換カーネルは、
パラメータ
cs( )=cos( )
且つk
0=0.5
、または
cs( )=sin( )
且つk
0=0.
5に基づいて
いる、あるいは
前記第2の
変換カーネルグループの
前記少なくとも1つの変換カーネルは、パラメータ
cs( )=cos( )
且つk
0=0
、または
cs( )=sin( )且つk
0=
1に基づいており、
ここで、x
i,nは時間領域出力であり、Cは定数パラメータであり、Nは時間窓長であり、specはブロックについてM個の値を有するスペクトル値であり、MはN/2に等しく、iは時間ブロックインデックスであり、kはスペクトル値を示すスペクトルインデックスであり、nはブロックiにおける時間値を示す時間インデックスであり、n
0は整数またはゼロである定数パラメータである、
請求項
1に記載のデコーダ(2)。
【請求項5】
前記制御情報(12)は、現在のフレームについての現在の対称性を示す現在のビットを含み、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前のフレームで使用されたのと同じ対称性を示すとき、前記第1の変換カーネルグループから前記第2の変換カーネルグループに切り替わらないように構成され、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前記前のフレームで使用されたものとは異なる対称性を示すとき、前記第1の変換カーネルグループから前記第2の変換カーネルグループに切り替えるように構成される、
請求項1に記載のデコーダ(2)。
【請求項6】
前記適応型スペクトル-時間変換器(6)は、現在のフレームの現在の対称性を示す現在のビットが前のフレームで使用されたものと同じ対称性を示すとき、前記第2の変換カーネルグループから前記第1の変換カーネルグループに切り替えるように構成され、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前記前のフレームで使用されていたものとは対照性が異なる、前記現在のフレームの現在の対称性を示すとき、前記第2の変換カーネルグループから前記第1の変換カーネルグループに切り替わらないように構成される、
請求項1に記載のデコーダ(2)。
【請求項7】
前記適応型スペクトル-時間変換器(6)は、前記符号化されたオーディオ信号(4)から前のフレームの前記制御情報(12)を、および前記前のフレームに続く現在のフレームの制御データセクション内の前記符号化されたオーディオ信号(4)から前記現在のフレームの制御情報(12)を読み出すように構成される、あるいは
前記適応型スペクトル-時間変換器(6)は、前記現在のフレームの前記制御データセクションから前記制御情報(12)を読み出し、前記前のフレームの制御データセクションから、または前記前のフレームに適用されたデコーダ設定から、前記前のフレームの前記制御情報(12)を取り出すように構成される、
請求項1に記載のデコーダ(2)。
【請求項8】
前記適応型スペクトル-時間変換器(6)は、以下の表に基づいて変換カーネルを適用するように構成
され、
ここでsymm
iは、インデックスiにおけ
る現在のフレームの制御情報
(12)であり
、symm
i-1は、インデックスi
-1におけ
る前のフレームの制御情報
(12)である、
請求項
1に記載のデコーダ(2)。
【請求項9】
第1のマルチチャネルおよび第2のマルチチャネルを表すスペクトル値のブロックを受信して、受信した前記ブロックを結合マルチチャネル処理技術に従って処理して、前記第1のマルチチャネル及び前記第2のマルチチャネルのための処理されたスペクトル値のブロックを得るためのマルチチャネルプロセッサ(40)をさらに含み、前記適応型スペクトル-時間変換器(6)は、前記第1のマルチチャネルのための前記処理されたスペクトル値のブロックを前記第1のマルチチャネルのための制御情報(12)を使用して、および前記第2のマルチチャネルのための前記処理されたスペクトル値のブロックを前記第2のマルチチャネルのための制御情報(12)を使用して処理するように構成される、
請求項1に記載のデコーダ(2)。
【請求項10】
前記マルチチャネルプロセッサ(40)は、前記第1および前記第2のマルチチャネルを表す前記スペクトル値のブロックに関連する複素予測制御情報を使用して複素予測を適用するように構成される、請求項9に記載のデコーダ(2)。
【請求項11】
前記マルチチャネルプロセッサ(40)は、前記受信したブロックを前記結合マルチチャネル処理技術に従って処理するように構成され、前記受信したブロックは、前記第1のマルチチャネルの表現および前記第2のマルチチャネルの表現の符号化された残差信号を含み、前記マルチチャネルプロセッサ(40)は、前記符号化された残差信号および別の符号化された信号を使用して、前記第1のマルチチャネルの処理されたスペクトル値のブロックおよび前記第2のマルチチャネルの処理されたスペクトル値のブロックを計算するように構成される、請求項9に記載のデコーダ(2)。
【請求項12】
前記第1の変換カーネルグループは逆MDCT-IV変換カーネル又は逆MDST-IV変換カーネルを含む、または前記第2の変換カーネルグループは逆MDCT-II変換カーネル又は逆MDST-II変換カーネルを含み、
MDCT-IV変換カーネルは左側が奇対称、右側が偶対称であって、この変換の信号畳み込みの間に左側に合成信号が反転される、または
MDST-IV変換カーネルは左側が偶対称、右側が奇対称であって、この変換の信号畳み込みの間に右側に合成信号が反転される、または
MDCT-II変換カーネルは左側が偶対称、右側が偶対称であって、この変換の信号畳み込みの間にいずれの側でも合成信号が反転されることはない、または
MDST-II変換カーネルは左側が奇対称、右側が奇対称であって、この変換の信号畳み込みの間に両側で合成信号が反転される、
請求項1に記載のデコーダ(2)。
【請求項13】
前記マルチチャネルプロセッサ(40)は、前記結合マルチチャネル処理技術として、結合ステレオ処理または2つ以上のチャネルの結合処理を実行するように構成され、マルチチャネル信号には2つのチャネルまたは2つ以上のチャネルがある、請求項9に記載のデコーダ(2)。
【請求項14】
前記適応型スペクトル-時間変換器(6)は、ピッチが変換の周波数分解能の整数倍に少なくともほぼ等しい高調波信号を表す符号化された信号について、前記第2の変換カーネルグループの変換カーネルを用いるように構成される、または
前記適応型スペクトル-時間変換器(6)は、前記符号化された信号が表す2つのチャネルのうちの1つのチャネルについて、MDST-IVベースの変換カーネルを使用し、前記2つのチャネルのうちの第2のチャネルについてはMDCT-IVベースの変換カーネルを使用するように構成される、
請求項1に記載のデコーダ(2)。
【請求項15】
オーディオ信号(24)を符号化するためのエンコーダ(22)であって、
前記エンコーダは、
重畳する時間値のブロック(30)を連続するスペクトル値のブロック(4'、4'')に変換するための適応型時間-スペクトル変換器(26)と、
前記適応型時間-スペクトル変換器(26)を制御して、第1の変換カーネルグループの変換カーネルと、第2の変換カーネルグループの変換カーネルとの間で切り替えるためのコントローラ(28)と
を含み、
前記適応型時間-スペクトル変換器(26)は、制御情報(12)を受信して、前記制御情報(12)に応答して、第1の変換カーネルグループの変換カーネルの両側に対称性が異なる1つ以上の変換カーネルを含む前記第1の変換カーネルグループの前記変換カーネルと、第2の変換カーネルグループの変換カーネルの両側に対称性が等しい1つ以上の変換カーネルを含む前記第2の変換カーネルグループの前記変換カーネルとの間で切り替えるように構成される、
エンコーダ(22)。
【請求項16】
現在のフレームについて、前記現在のフレームを生成するために使用される前記変換カーネルの対称性を示す制御情報(12)を有する符号化されたオーディオ信号(4)を生成するための出力インタフェース(32)をさらに含む、請求項15に記載のエンコーダ(22)。
【請求項17】
前記出力インターフェース(32)は、前記現在のフレームが独立したフレームである場合、前記現在のフレームの制御データセクションに、前記現在のフレームおよび前のフレームの対称情報を含めるように構成される、あるいは
前記現在のフレームが従属フレームである場合、前記現在のフレームの前記制御データセクションに、前記現在のフレームの対称情報のみを含め、前記前のフレームの対称情報を含めないように構成される、
請求項16に記載のエンコーダ(22)。
【請求項18】
前記第1の変換カーネルグループは、左側が奇対称で、右側が偶対称、あるいはその逆の、1つ以上の変換カーネルを有する、あるいは
前記第2の変換カーネルグループは、両側が偶対称または両側が奇対称の1つ以上の変換カーネルを有する、
請求項15に記載のエンコーダ(22)。
【請求項19】
前記第1の変換カーネルグループは、MDCT-IV変換カーネルまたはMDST-IV変換カーネルを含む、あるいは、
前記第2の変換カーネルグループは、MDCT-II変換カーネルまたはMDST-II変換カーネルを含む、
請求項15に記載のエンコーダ(22)。
【請求項20】
前記コントローラ(28)は、MDCT-IV変換カーネルの後にMDCT-IV変換カーネルまたはMDST-II変換カーネルが続く、あるいは、MDST-IV変換カーネルの後にMDST-IV変換カーネルまたはMDCT-II変換カーネルが続く、あるいは、MDCT-II変換カーネルの後にMDCT-IV変換カーネルまたはMDST-II変換カーネルが続く、あるいは、前記MDST-II変換カーネルの後にMDST-IV変換カーネルまたはMDCT-II変換カーネルが続くように構成される、請求項15に記載のエンコーダ(22)。
【請求項21】
前記コントローラ(28)は、第1のチャネルおよび第2のチャネルを有する前記重畳する時間値のブロック(30)を分析して、前記第1のチャネルのフレームおよび対応する前記第2のチャネルのフレームについて前記変換カーネルを決定するように構成される、請求項15に記載のエンコーダ(22)。
【請求項22】
前記適応型時間-スペクトル変換器(26)は、マルチチャネル信号の第1のチャネルおよび第2のチャネルを処理するように構成され、前記エンコーダ(22)は、結合マルチチャネル処理技術を用いて前記第1のチャネルおよび前記第2のチャネルの前記連続するスペクトル値のブロックを処理して、処理されたスペクトル値のブロックを得るためのマルチチャネルプロセッサ(40)と、前記処理されたスペクトル値のブロックを処理して符号化されたチャネルを得るための符号化プロセッサ(46)とをさらに含む、請求項15に記載のエンコーダ(22)。
【請求項23】
第1の処理されたスペクトル値のブロックは前記結合マルチチャネル処理技術の第1の符号化表現を表し、第2の処理されたスペクトル値のブロックは前記結合マルチチャネル処理技術の第2の符号化表現を表し、前記符号化プロセッサ(46)は、量子化およびエントロピー符号化を使用して前記第1の処理されたブロックを処理して第1の符号化表現を形成するように構成され、前記符号化プロセッサ(46)は量子化およびエントロピー符号化を使用して前記第2の処理されたブロックを処理して第2の符号化表現を形成するように構成され、符号化プロセッサ(46)は、前記第1の符号化表現および前記第2の符号化表現を使用して符号化されたオーディオ信号(4)のビットストリームを形成するように構成される、請求項22に記載のエンコーダ(22)。
【請求項24】
前記第1の変換カーネルグループはMDCT-IV変換カーネル又はMDST-IV変換カーネルを含む、または前記第2の変換カーネルグループはMDCT-II変換カーネル又はMDST-II変換カーネルを含み、
前記コントローラはMDCT-IV変換カーネルの後にMDST-II変換カーネルが続く、あるいは、MDST-IV変換カーネルの後にMDCT-II変換カーネルが続く、あるいは、MDCT-II変換カーネルの後にMDCT-IV変換カーネルが続く、あるいは、前記MDST-II変換カーネルの後にMDST-IV変換カーネルが続くように構成される、請求項15に記載のエンコーダ(22)。
【請求項25】
MDCT-IV変換カーネルは左側が奇対称、右側が偶対称であって、この変換の信号畳み込みの間に左側に合成信号が反転される、または
MDST-IV変換カーネルは左側が偶対称、右側が奇対称であって、この変換の信号畳み込みの間に右側に合成信号が反転される、または
MDCT-II変換カーネルは左側が偶対称、右側が偶対称であって、この変換の信号畳み込みの間にいずれの側でも合成信号が反転されることはない、または
MDST-II変換カーネルは左側が奇対称、右側が奇対称であって、この変換の信号畳み込みの間に両側で合成信号が反転される、
請求項24に記載のエンコーダ(22)。
【請求項26】
前記マルチチャネルプロセッサ(40)は、前記結合マルチチャネル処理技術として、結合ステレオ処理または2つ以上のチャネルの結合処理を実行するように構成され、マルチチャネル信号には2つのチャネルまたは2つ以上のチャネルがある、請求項22に記載のエンコーダ(22)。
【請求項27】
前記適応型時間-スペクトル変換器(26)は、ピッチが変換の周波数分解能の整数倍に少なくともほぼ等しい高調波信号を表すオーディオ信号(24)について、前記第2の変換カーネルグループの変換カーネルを用いるように構成される、または
前記適応型時間-スペクトル変換器(26)は、前記オーディオ信号(24)が表す2つのチャネルのうちの1つのチャネルについて、MDST-IVベースの変換カーネルを使用し、前記2つのチャネルのうちの第2のチャネルについてはMDCT-IVベースの変換カーネルを使用するように構成される、
請求項22に記載のエンコーダ(22)。
【請求項28】
符号化されたオーディオ信号(4)を復号する方法(1500)であって、
連続するスペクトル値のブロックを連続する時間値のブロック(10)にスペクトル-時間変換するステップと、
連続する時間値のブロック(10)を重畳加算して復号化されたオーディオ値(14)を得るステップと、
制御情報(12)を受信して、前記制御情報(12)に応答して、且つ前記スペクトル-時間変換するステップにおいて、
第1の変換カーネルグループの変換カーネルであって、前記第1の変換カーネルグループの前記変換カーネルは、対称性が異なる1つ以上の変換カーネルを両側に含む、前記第1の変換カーネルグループの前記変換カーネルと、第2の変換カーネルグループの変換カーネルであって、前記第2の変換カーネルグループの前記変換カーネルは、対称性が等しい1つ以上の変換カーネルを両側に含む、前記第2の変換カーネルグループの前記変換カーネルとの間で切り替えるステップを含む、方法。
【請求項29】
オーディオ信号(24)を符号化する方法(1600)であって、
重畳する時間値のブロック(30)を連続するスペクトル値のブロックに時間-スペクトル変換するステップと、
前記時間-スペクトル変換するステップを制御して、第1の変換カーネルグループの変換カーネルと第2の変換カーネルのグループの変換カーネルとの間で切り替えるステップと、
制御情報(12)を受信して、前記制御情報(12)に応じて、且つ前記時間-スペクトル変換するステップにおいて、
第1の変換カーネルグループの変換カーネルであって、前記第1の変換カーネルグループの前記変換カーネルは、対称性が異なる1つ以上の変換カーネルを両側に含む、前記第1の変換カーネルグループの前記変換カーネルと、第2の変換カーネルグループの変換カーネルであって、前記第2の変換カーネルグループの前記変換カーネルは、対称性が等しい1つ以上の変換カーネルを両側に含む、前記第2の変換カーネルグループの前記変換カーネルとの間で切り替えるステップを含む、方法。
【請求項30】
コンピュータまたはプロセッサ上で動作する時に、請求項28または請求項29のいずれか1項に記載の方法を実行するためのコンピュータプログラム。
【外国語明細書】