IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特開2022-174061符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022174061
(43)【公開日】2022-11-22
(54)【発明の名称】符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ
(51)【国際特許分類】
   G10L 19/022 20130101AFI20221115BHJP
   G10L 19/00 20130101ALI20221115BHJP
   G10L 19/02 20130101ALI20221115BHJP
   G10L 19/008 20130101ALI20221115BHJP
【FI】
G10L19/022
G10L19/00 330B
G10L19/02 160A
G10L19/008 100
【審査請求】有
【請求項の数】22
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022128735
(22)【出願日】2022-08-12
(62)【分割の表示】P 2020114013の分割
【原出願日】2016-03-08
(31)【優先権主張番号】15158236.8
(32)【優先日】2015-03-09
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】15172542.1
(32)【優先日】2015-06-17
(33)【優先権主張国・地域又は機関】EP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
(71)【出願人】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(72)【発明者】
【氏名】ヘルムリッヒ クリスティアン
(72)【発明者】
【氏名】エドラー ベルント
(57)【要約】      (修正有)
【課題】オーディオ信号を処理するデコーダ、エンコーダ、復号方法、符号化方法及びプログラムを提供する。
【解決手段】デコーダ2は、適応型スペクトル-時間変換器6とオーバーラップ加算プロセッサ8と、を含む。適応型スペクトル-時間変換器6は、連続するスペクトル値4’のブロックを例えば周波数-時間変換を介して、時間値の連続するブロック10に変換し、制御情報12を受信し、且つ、制御情報12に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間で切り替える。オーバーラップ加算プロセッサ8は、時間値10の連続するブロックをオーバーラップして加算し、復号されたオーディオ値14を得る。復号されたオーディオ値14は、復号されたオーディオ信号であってもよい。
【選択図】図1
【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号(4)を復号するためのデコーダ(2)であって、
前記デコーダは、
スペクトル値(4’、4’’)の連続するブロックを時間値(10)の連続するブロッ
クに変換する適応型スペクトル-時間変換器(6)、および
復号化されたオーディオ値(14)を得るために、時間値(10)の連続するブロック
を重ね合わせて加算するためのオーバーラップ加算プロセッサ(8)を含み、
前記適応型スペクトル-時間変換器(6)は、制御情報(12)を受信し、前記制御情
報に応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換
カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換
カーネルを含む変換カーネルの第2のグループとの間で、切り替えるように構成される、
デコーダ。
【請求項2】
前記変換カーネルの第1のグループは、前記カーネルの左側に奇数対称性を有し、右側
に偶数対称性を有する、またはその逆の1つ以上の変換カーネルを有する、あるいは前記
変換カーネルの第2のグループは、前記カーネルの両側に偶数対称性または奇数対称性を
有する1つ以上の変換カーネルを有する、請求項1に記載のデコーダ(2)。
【請求項3】
前記変換カーネルの第1のグループは、逆MDCT-IV変換カーネルまたは逆MDS
T-IV変換カーネルを含む、あるいは前記変換カーネルの第2のグループは、逆MDC
T-II変換カーネルまたは逆MDST-II変換カーネルを含む、請求項1または請求
項2に記載のデコーダ(2)。
【請求項4】
前記第1のグループおよび前記第2のグループの前記変換カーネルは、以下の式に基づ
いていて、
前記第1のグループの前記少なくとも1つの変換カーネルは、
cs( )=cos( )および k0 =0.5
または
cs( )=sin( )および k0 =0.5
のパラメータに基づいており、
または
前記第2のグループの少なくとも1つの変換カーネルは、
cs( )=cos( )および k0 =0
または
cs( )=sin( )および k0 =1
のパラメータに基づいており、
ここで、xi,n は時間領域出力であり、Cは定数パラメータであり、Nは時間窓長であ
り、specはブロックについてM個の値を有するスペクトル値であり、MはN/2に等
しく、iは時間ブロックインデックスであり、kはスペクトル値を示すスペクトルインデ
ックスであり、nはブロックiにおける時間値を示す時間インデックスであり、n0 は整
数またはゼロである定数パラメータである、請求項1~請求項3のいずれか1項に記載の
デコーダ(2)。
【請求項5】
前記制御情報(12)は、現在のフレームについての現在の対称性を示す現在のビット
を含み、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前のフレームで使用
されたのと同じ対称性を示すとき、前記第1のグループから前記第2のグループに切り替
わらないように構成され、
前記適応型スペクトル-時間変換器は、前記現在のビットが前記前のフレームで使用さ
れたものとは異なる対称性を示すとき、前記第1のグループから前記第2のグループに切
り替えるように構成される、請求項1~請求項4のいずれか1項に記載のデコーダ(2)
【請求項6】
前記適応型スペクトル-時間変換器(6)は、現在のフレームの現在の対称性を示す現
在のビットが前記前のフレームで使用されたものと同じ対称性を示すとき、前記第2のグ
ループを前記第1のグループに切り替えるように構成され、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前記前のフレームで
使用されていたものとは異なる対称性を有する前記現在のフレームの現在の対称性を示す
とき、前記第2のグループから前記第1のグループに切り替わらないように構成される、
請求項1~請求項5のいずれか1項に記載のデコーダ(2)。
【請求項7】
前記適応型スペクトル-時間変換器(6)は、前のフレームについての制御情報(12
)を符号化されたオーディオ信号(4)から、および前記前のフレームに続く現在のフレ
ームについての制御情報を前記現在のフレームの制御データセクション内の前記符号化さ
れたオーディオ信号から読み出すように構成される、あるいは
前記適応型スペクトル-時間変換器(6)は、前記現在のフレームの前記制御データセ
クションから前記制御情報(12)を読み出し、前記前のフレームの制御データセクショ
ンから、または前記前のフレームに適用されたデコーダ設定から、前記前のフレームにつ
いての前記制御情報(12)を取り出すように構成されている、請求項1~請求項6のい
ずれか1項に記載のデコーダ(2)。
【請求項8】
前記適応型スペクトル-時間変換器(6)は、以下の表に基づいて変換カーネルを適用
するように構成されており:
ここでsymmi は、インデックスiにおける前記現在のフレームの制御情報であり、
前記symmi-1 は、インデックスi-1 における前記前のフレームの制御情報である、
請求項1~請求項7のいずれか1項に記載のデコーダ(2)。
【請求項9】
第1のマルチチャネルおよび第2のマルチチャネルについてのスペクトル値の処理され
たブロックを得るために、前記第1および前記第2のマルチチャネルを表すスペクトル値
のブロックを受信し、ジョイントマルチチャネル処理技術に従って前記受信したブロック
を処理するためのマルチチャネルプロセッサ(40)をさらに含み、前記適応型スペクト
ル-時間プロセッサ(6)は、前記第1のマルチチャネルのための制御情報を使用して前
記第1のマルチチャネルのための前記処理されたブロックを、および前記第2のマルチチ
ャネルのための制御情報を使用して前記第2のマルチチャネルのための前記処理されたブ
ロックを処理するように構成される、請求項1~請求項8のいずれか1項に記載のデコー
ダ(2)。
【請求項10】
前記マルチチャネルプロセッサは、前記第1および前記第2のマルチチャネルを表す前
記スペクトル値のブロックに関連する複素予測制御情報を使用して複素予測を適用するよ
うに構成される、請求項9に記載のデコーダ(2)。
【請求項11】
前記マルチチャネルプロセッサは、前記ジョイントマルチチャネル処理技術に従って前
記受信したブロックを処理するように構成され、前記受信されたブロックは、前記第1の
マルチチャネルの表現の符号化された残差信号と前記第2のマルチチャネルの表現とを含
み、前記マルチチャネルプロセッサは、前記残差信号およびさらなる符号化された信号を
使用して、前記第1のマルチチャネル信号および前記第2のマルチチャネル信号を計算す
るように構成される、請求項9または請求項10のいずれか1項に記載のデコーダ。
【請求項12】
オーディオ信号(24)を符号化するためのエンコーダ(22)であって、
前記エンコーダは、
時間値(30)の重複ブロックをスペクトル値(4’、4’’)の連続するブロックに
変換するための適応型時間-スペクトル変換器、および
変換カーネルの第1のグループの変換カーネルと、変換カーネルの第2のグループの変
換カーネルとを切り替えるように、前記時間-スペクトル変換器を制御するコントローラ
(28)を含み、
前記適応型時間-スペクトル変換器は、制御情報(12)を受信して、前記制御情報に
応じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カー
ネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カー
ネルを含む変換カーネルの第2のグループとの間で、切り替えるように構成される、エン
コーダ。
【請求項13】
現在のフレームについて、前記現在のフレームを生成するために使用される前記変換カ
ーネルの対称性を示す制御情報(12)を有する符号化されたオーディオ信号(4)を生
成するための出力インタフェース(32)をさらに含む、請求項12に記載のエンコーダ
(22)。
【請求項14】
前記出力インターフェース(32)は、前記現在のフレームが独立したフレームである
場合、前記現在のフレームの制御データセクションに、前記現在のフレームのおよび前記
前のフレームの対称情報を含み、あるいは
前記現在のフレームが従属フレームである場合、前記現在のフレームの前記制御データ
セクションに、前記現在のフレームのための対称情報のみを含み、前記前のフレームの対
称情報を含まないように構成される、請求項12または請求項13に記載のエンコーダ(
22)。
【請求項15】
前記変換カーネルの第1のグループは、左側に奇数対称性を有し、且つ、右側に偶数対
称性を有する、あるいはその逆の1つ以上の変換カーネルを有し、あるいは前記変換カー
ネルの第2のグループは、両側に偶数対称性または奇数対称性を有する1つ以上の変換カ
ーネルを有する、請求項12~請求項14のいずれか1項に記載のエンコーダ(22)。
【請求項16】
前記変換カーネルの第1のグループは、MDCT-IV変換カーネルまたはMDST-
IV変換カーネルを含み、あるいは、前記第2のグループの変換カーネルは、MDCT-
II変換カーネルまたはMDST-II変換カーネルを含む、請求項12~請求項15の
いずれか1項に記載のエンコーダ。
【請求項17】
前記コントローラ(28)は、MDCT-IVの後にMDCT-IVまたはMDST-
IIが続くように構成されている、あるいは、MDST-IVの後にはMDST-IVま
たはMDCT-IIが続くように、あるいは、MDCT-IIの後にMDCT-IVまた
はMDST-IIが続くように、あるいは、前記MDST-IIの後にMDST-IVま
たはMDCT-IIが続くように構成されている、請求項12~請求項16のいずれか1
項に記載のエンコーダ(22)。
【請求項18】
前記コントローラ(28)は、前記第1のチャネルのフレームと、対応する前記第2の
チャネルのフレームとについて、前記変換カーネルを決定するために、第1のチャネルお
よび第2のチャネルを有する前記時間値(30)の重複ブロックを分析するように構成さ
れる、請求項12~請求項17のいずれか1項に記載のエンコーダ(22)。
【請求項19】
前記時間-スペクトル変換器(26)は、マルチチャネル信号の第1のチャネルおよび
第2のチャネルを処理するように構成され、前記エンコーダ(22)は、処理されたスペ
クトル値のブロックを得るために、ジョイントマルチチャネル処理技術を用いて、前記第
1のチャネルおよび前記第2のチャネルのスペクトル値の前記連続するブロックを処理す
るためのマルチチャネルプロセッサ(40)と、符号化されたチャネルを得るために、前
記処理されたスペクトル値のブロックを処理するための符号化プロセッサ(46)とをさ
らに含む、請求項12~請求項18のいずれか1項に記載のエンコーダ(22)。
【請求項20】
前記第1の処理されたスペクトル値のブロックは、前記ジョイントマルチチャネル処理
技術の第1の符号化表現を表し、前記第2の処理されたスペクトル値のブロックは、前記
ジョイントマルチチャネル処理技術の第2の符号化表現を表し、前記符号化プロセッサ(
46)は、量子化およびエントロピー符号化を使用して前記第1の処理済みブロックを処
理して、第1の符号化された表現を形成するように構成され、前記符号化プロセッサ(4
6)は量子化およびエントロピー符号化を使用して前記第2の処理済みブロックを処理し
て、第2の符号化された表現を形成するように構成され、前記符号化プロセッサは、前記
第1の符号化された表現および前記第2の符号化された表現を使用して、前記符号化され
たオーディオ信号のビットストリームを形成するように構成される、
請求項12~19のいずれか1項のいずれかに記載のエンコーダ(22)。
【請求項21】
符号化されたオーディオ信号を復号する方法(1500)であって、
スペクトル値の連続ブロックを時間値の連続ブロックに変換するステップと、
復号されたオーディオ値を得るために時間値の連続するブロックを重ね合わせて加算する
ステップと、
制御情報を受信して、前記制御情報に応じて、カーネルの両側に異なる対称性を有する
1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に
同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間
で切り替えるステップを含む、方法。
【請求項22】
オーディオ信号を符号化する方法(1600)であって、
時間値のオーバーラップするブロックをスペクトル値の連続するブロックに変換するス
テップと、
変換カーネルの第1のグループの変換カーネルと変換カーネルの第2のグループの変換
カーネルとを切り替えるために、前記時間-スペクトル変換を制御するステップと、
制御情報を受信して、前記制御情報に応じて、カーネルの両側に異なる対称性を有する
1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に
同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間
で、切り替えるステップを含む、方法
【請求項23】
コンピュータまたはプロセッサ上で動作する時に、請求項21または請求項22に記載
の方法を実行するためのコンピュータプログラム。
【請求項24】
マルチチャネル処理とは、ジョイントステレオ処理または2つ以上のチャネルのジョイ
ント処理を意味し、マルチチャネル信号は、2つのチャネルまたは2つ以上のチャネルを
有する、請求項1~請求項23のいずれかに記載の装置、方法またはコンピュータプログ
ラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、本発明は、符号化されたオーディオ信号を復号するためのデコーダおよびオ
ーディオ信号を符号化するためのエンコーダに関する。実施形態は、オーディオ符号化に
おける信号適応変換カーネルスイッチングのための方法および装置を示す。言い換えると
、本発明は、オーディオ符号化に関し、特に、例えば、修正された離散コサイン変換(M
DCT)[1]等のラップ変換による知覚オーディオ符号化に関する。
【背景技術】
【0002】
MP3、Opus、(Celt)、HE-AACファミリ、新しいMPEG-H 3Dオ
ーディオおよび3GPPエンハンスドボイスサービス(EVS)コーデックを含む現代的
な知覚オーディオコーデックはすべて、スペクトル領域の量子化と符号化にMDCTを採
用しているか、または、それ以上のチャネル波形を生成する。長さ-Mスペクトルspe
c[]を使用するこの重複変換の合成バージョンは、M=N/2で時間窓の長さである次
式(1)によって与えられる。

窓掛け処理の後、時間出力xi,n はオーバーラップ・アンド・アッド(OLA)プロセ
スによって前の時間出力xi-1,n と組み合わされる。Cは、0より大きいか又は1以下の
定数パラメータであってもよく、例えば、2/Nとなる。
【0003】
上式(1)のMDCTは、様々なビットレートで任意のチャネルの高品質オーディオコ
ーディングに適しているが、コーディング品質が不十分な場合がある。
例えば、
・各高調波が複数のMDCTビンによって表されるように、MDCTを介してサンプリン
グされた特定の基本周波数を有する高調波信号である。これは、スペクトル領域におい
て準最適エネルギー圧縮、すなわち低い符号化利得を導く。
・従来のM/Sステレオベースのジョイントチャネルコーディングでは利用できない、チ
ャネルのMDCTビン間で約90度の位相シフトを持つステレオ信号を生成する。チャ
ネル間位相差(IPD)の符号化を含むより高度なステレオ符号化は、例えば、HE-
AACのパラメトリックステレオまたはMPEGサラウンドを使用しているが、このよ
うなツールは別のフィルタバンクドメインで動作し、複雑さが増している。
【0004】
いくつかの学術論文や論文には、MDCTやMDSTのような操作が記述されている。
これらの操作には、「重複直交変換(LOT)」、「拡張重複変換(ELT)」、「変調
重複変換(MLT)」などがあります。[4]だけが同時にいくつかの異なる重複変換を
述べているが、MDCTの前述の欠点を克服していない。
【0005】
したがって、改善されたアプローチが必要である。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech House, 1992.
【非特許文献2】J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc., 1986.
【非特許文献3】J.P. Princen, A. W. Johnson, and A. B. Bradley,"Subband/transform coding using filter bank design based on time domain aliasing ancellation," in IEEE ICASSP, vol. 12, 1987.
【非特許文献4】H.S.Malvar,"Lapped Transforms for Efficient Transform/Subband Coding,"IEEE Trans.Acoustics,Speech,and Signal Proc., 1990.
【非特許文献5】http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の目的は、オーディオ信号を処理するための改良された概念を提供することであ
る。この目的は、独立請求項の主題によって解決される。
【課題を解決するための手段】
【0008】
本発明は、変換カーネルの信号適応的変化または置換が、本MDCT符号化の前述の種
類の課題を克服する可能性があるという知見に基づいている。実施形態によれば、本発明
は、3つの他の同様の変換を含むようにMDCT符号化原則を一般化することによって、
従来の変換符号化に関する上記2つの課題に対処する。上記した式(1)の合成式に従っ
て、この提案された一般化を次式(2)と定義する。
【0009】
1/2定数はk0定数に置き換えられ、cos(...)関数はcs(...)関数で置き換
えられていることに注意して下さい。k0とcs(...)はどちらも信号とコンテキスト適
応的に選択される。
【0010】
実施形態によれば、MDCT符号化パラダイムの提案された修正は、例えば、前述の課
題またはケースが扱われるように、フレームごとの瞬時入力特性に適応することができる
【0011】
実施形態は、符号化オーディオ信号を復号するためのデコーダを示す。デコーダは、ス
ペクトル値の連続するブロックを時間値の連続するブロックに変換するために、例えば、
周波数から時間への変換を介して行われる、適応型スペクトル-時間変換器を含む。デコ
ーダは、復号されたオーディオ値を得るために、時間値の連続するブロックを重ね合わせ
て加算するオーバーラップ加算プロセッサをさらに含む。前記適応型スペクトル-間変換
器は、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネ
ルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネ
ルを含む変換カーネルの第2のグループとの間で、制御情報を受信し、前記制御情報に応
じて切り替えるように構成される。変換カーネルの第1グループは、例えば逆MDCT-
IV変換または逆MDST-IV変換カーネルのような、変換カーネルの左側に奇数対称
性を有し、変換カーネルの右側に偶数対称性を有する、又はその逆の1つ以上の変換カー
ネルを含むことができ、逆も同様である。第2のグループの変換カーネルは、例えば逆M
DCT-II変換カーネルまたは逆MDST-II変換カーネルなどの、変換カーネルの
両側で偶対称性を有する変換カーネル、または変換カーネルの両側で奇数対称性を有する
変換カーネルを含むことができる。変換カーネルタイプIIおよびIVについては、以下
でより詳細に説明する。
【0012】
このため、古典的なMDCTで信号を符号化するのと比較したとき、信号を符号化する
ために、スペクトル領域における1つの変換ビンの帯域幅とすることができる変換の周波
数分解能の整数倍に少なくともほぼ等しいピッチを有する高調波信号に対して、変換カー
ネルの第2グループの変換カーネル、例えばMDCT-IIまたはMDST-IIを使用
することが有利である。言い換えれば、MDCT-IIまたはMDST-IIの1つを使
用することは、MDCT-IVと比較した場合、変換の周波数分解能の整数倍に近い高調
波信号を符号化するのに有利である。
【0013】
さらなる実施形態は、デコーダが、例えばステレオ信号などのマルチチャネル信号を復
号するように構成されていることを示している。例えば、ステレオ信号の場合、通常、ミ
ッド/サイド(M/S)ステレオ処理は、古典的な左右(L/R)ステレオ処理よりも優
れている。しかしながら、両方の信号が90度または270度の位相シフトを有する場合
、このアプローチは機能しないか、少なくとも劣っている。実施形態によれば、MDST
-IVベースの符号化を用いて2つのチャネルのうちの1つを符号化し、第2のチャネル
を符号化するために従来のMDCT-IV符号化を使用することが有利である。これは、
オーディオチャネルの90度または270度位相シフトを補償する符号化方式によって組
み込まれた2つのチャネル間で90度の位相シフトをもたらす。
【0014】
さらなる実施形態は、オーディオ信号を符号化するためのエンコーダを示した。エンコ
ーダは、時間値の重複ブロックをスペクトル値の連続するブロックに変換するための適応
型時間-スペクトル変換器を含む。エンコーダは、変換カーネルの第1のグループの変換
カーネルと、変換カーネルの第2のグループの変換カーネルとを切り替えるように、時間
-スペクトル変換器を制御するコントローラをさらに備える。そのため、適応型スペクト
ル-間変換器(6)は、カーネルの両側に異なる対称性を有する1つ以上の変換カーネル
を含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ
以上の変換カーネルを含む変換カーネルの第2のグループとの間で、制御情報(12)を
受信し、制御情報に応じて切り替える。エンコーダは、オーディオ信号の分析に関して異
なる変換カーネルを適用するように構成することができる。したがって、エンコーダは、
デコーダに関して既に説明した方法で変換カーネルを適用することができ、実施形態によ
れば、エンコーダはMDCTまたはMDST演算を適用し、デコーダは関連する逆演算、
すなわちIMDCTまたはIMDST変換を適用する。異なる変換カーネルについては、
以下で詳細に説明する。
【0015】
さらなる実施形態によれば、エンコーダは、現在のフレームについて、現在のフレーム
を生成するために使用される変換カーネルの対称性を示す制御情報を有する符号化された
オーディオ信号を生成するための出力インターフェースを備える。出力インターフェース
は、正しい変換カーネルで符号化されたオーディオ信号を復号することができるデコーダ
のための制御情報を生成することができる。言い換えれば、デコーダは、エンコーダによ
って使用される変換カーネルの逆変換カーネルを適用して、各フレームおよびチャネルに
おいてオーディオ信号を符号化する必要がある。この情報は、例えば、符号化されたオー
ディオ信号のフレームの制御データセクションを使用して、制御情報に格納され、エンコ
ーダからデコーダに送信されてもよい。
【0016】
本発明の実施形態は、添付の図面を参照して引き続き議論される。
【図面の簡単な説明】
【0017】
図1】符号化されたオーディオ信号を復号するためのデコーダの概略ブロック図を示す。
図2】一実施形態によるデコーダにおける信号の流れを示す概略ブロック図である。
図3】一実施形態によるオーディオ信号を符号化するためのエンコーダの概略ブロック図を示す。
図4A】例示的なMDCTエンコーダによって得られた一連のスペクトル値のブロックの概略を示す。
図4B】例示的なMDCTエンコーダに入力される時間領域信号の概略図を示す。
図5A】一実施形態による例示的なMDCTエンコーダの概略ブロック図を示す。
図5B】一実施形態による例示的なMDCTデコーダの概略ブロック図を示す。
図6】4つの記述されたラップ変換の暗黙の逆畳み込み特性および対称性を概略的に示す。
図7】完全な再構成を可能にしながら、信号適応変換核スイッチングが1つのフレームから次のフレームへ変換カーネルに適用されるユースケースの2つの実施形態を概略的に示す。
図8】一実施形態による、マルチチャネルオーディオ信号を復号するためのデコーダの概略ブロック図を示す。
図9】一実施形態によるマルチチャネル処理に拡張された図3のエンコーダの概略ブロック図である。
図10】一実施形態による、2つ以上のチャネル信号を有するマルチチャネルオーディオ信号を符号化するための概略オーディオエンコーダを示す図である。
図11A】一実施形態によるエンコーダ計算機の概略ブロック図を示す。
図11B】一実施形態による別のエンコーダ計算機の概略ブロック図を示す。
図11C】一実施形態によるコンバイナにおける第1および第2のチャネルの例示的な組み合わせルールの概略図を示す。
図12A】一実施形態によるデコーダ計算器の概略ブロック図を示す。
図12B】一実施形態による行列計算器の概略ブロック図を示す。
図12C】一実施形態による図11Cの組合せルールに対する例示的な逆結合ルールの概略図を示す。
図13A】一実施形態によるオーディオエンコーダの実装の概略ブロック図を示す。
図13B】一実施形態による、図13Aに示されたオーディオエンコーダに対応するオーディオデコーダの概略ブロック図を示す。
図14A】一実施形態によるオーディオエンコーダのさらなる実装の概略ブロック図を示す。
図14B】一実施形態による、図14Aに示されるオーディオエンコーダに対応するオーディオデコーダの概略ブロック図を示す。
図15】符号化されたオーディオ信号を復号する方法の概略ブロック図である。
図16】オーディオ信号を符号化する方法の概略ブロック図を示す。
【発明を実施するための形態】
【0018】
以下では、本発明の実施形態をさらに詳細に説明する。同一または類似の機能を有する
それぞれの図に示された要素は、同じ参照符号と関連付けられている。
【0019】
図1は、符号化オーディオ信号4を復号するためのデコーダ2の概略ブロック図を示す
。デコーダは、適応型スペクトル-時間変換器6とオーバーラップ加算器8を含む。適応
型スペクトル-時間変換器は、スペクトル値4’の連続するブロックを例えば周波数-時
間変換を介して時間値の連続するブロック10に変換する。さらに、前記適応型スペクト
ル-間変換器(6)は、カーネルの両側に異なる対称性を有する1つ以上の変換カーネル
を含む変換カーネルの第1のグループと、変換カーネルの両側に同じ対称性を有する1つ
以上の変換カーネルを含む変換カーネルの第2のグループとの間で、制御情報(12)を
受信し、前記制御情報に応じて切り替える。さらに、オーバーラップ加算プロセッサ8は
、連続する時間値ブロック10をオーバーラップして加算し、復号されたオーディオ値1
4を得る。復号されたオーディオ値14は、復号されたオーディオ信号であってもよい。
【0020】
実施形態によれば、制御情報12は、現在のフレームの現在の対称性を示す現在ビット
を含むことができ、適応型スペクトル-時間変換器6は、現在のビットが前のフレームで
使用されていたのと同じ対称性を示すとき、現在のビットが第1グループから第2グルー
プに切り替わらないように構成される。換言すれば、例えば制御情報12は、前のフレー
ムに対して第1のグループの変換カーネルを使用することを示し、現在のフレームおよび
前のフレームが同じ対称性を含む場合、例えば、現在のフレームの現在のビットと前のフ
レームが同じ状態を有する場合に示される第1のグループの変換カーネルが適用され、こ
れは、適応型スペクトル-時間変換器が第1の変換カーネルグループから第2の変換カー
ネルグループに切り替わらないことを意味する。他の方法、すなわち、第2のグループに
留まる、または第2のグループから第1のグループに切り替わらないために、現在のフレ
ームの現在の対称性を示す現在のビットは、前のフレームで使用されたものとは異なる対
称性を示す。言い換えれば、現在の対称性と以前の対称性が等しい場合、前のフレームが
第2のグループからの変換カーネルを用いて符号化されていれば、現在のフレームは第2
のグループの逆変換カーネルを用いて復号される。
【0021】
さらに、現在のフレームの現在の対称性を示す現在のビットが、前のフレームで使用さ
れたものとは異なる対称性を示す場合、適応型スペクトル-時間変換器6は、第1のグル
ープから第2のグループに切り替わるように構成される。より具体的には、現在のフレー
ムの現在の対称性を示す現在のビットが前のフレームで使用されたものとは異なる対称性
を示すとき、適応型スペクトル-時間変換器6は、第1のグループを第2のグループに切
り替えるように構成される。さらに、現在のフレームの現在の対称性を示す現在のビット
が、前のフレームで使用されたのと同じ対称性を示す場合に、適応型スペクトル-時間変
換器6は、第2のグループを第1のグループに切り替えることができる。より具体的には
、現在のフレームと前のフレームが同じ対称性を含み、前のフレームが変換カーネルの第
2のグループの変換カーネルを使用して符号化されている場合、現在のフレームは、変換
カーネルの第1のグループの変換カーネルを使用して復号されてもよい。制御情報12は
、以下に明らかになるように、符号化されたオーディオ信号4から導出されてもよく、ま
たは別個の伝送チャネルまたは搬送波信号を介して受信されてもよい。さらに、現在のフ
レームの現在の対称性を示す現在のビットは、変換カーネルの右側の対称性であってもよ
い。
【0022】
PrincenとBradleyの1986年の論文[2]では、コサイン関数かサイン関数の三角関
数を使った2つのラップ変換が記述されている。その記事で「DCTベース」と呼ばれる
最初のものは、(2)cs()=cos()とko=0を設定することによって取得でき
、もう1つは「DSTベース」と呼ばれ、cs()=sin()およびko=1の場合に
(2)によって与えられ、定義されている。画像符号化でよく使用されるDCT-IIと
DST-IIとのそれぞれの類似性のために、この文書では、(2)の一般的な定式化の
これらの特定のケースが、それぞれ「MDCTタイプII」変換および「MDSTタイプ
II」変換として宣言される。PrincenとBradleyは、1987年の論文[3]で調査を続
け、cs()=cos()とko=0.5の共通ケースを提案し、(1)で導入され、一
般に「MDCT」として知られている。説明を明確にするために、そしてDCT-IVと
の関係のために、この変換を本明細書では「MDCTタイプIV」と呼ぶ。観察者は、D
ST-IVに基づいて、cs()=cos()およびko=0.5を用いて(2)を用い
て得られた、「MDSTタイプIV」と呼ばれる残りの可能な組み合わせを既に特定して
いる。実施形態は、これらの4つの変換の間で信号-適応的にいつ切り替えるかを説明す
る。
【0023】
[1-3]で指摘したように、完全な再構成特性(スペクトル量子化または他の歪みの
導入がない分析および合成変換後の入力信号の同一の再構成)が保持されるように、4つ
の異なる変換カーネル間の本質的な切り替えがどのように達成されるかに関するいくつか
の規則を定義することは価値がある。この目的のために、(2)に従う合成変換の対称的
な拡張特性を調べることが有用であり、これは図6に関して示されている。
・MDCT-IVは、その左側で奇数対称性を示し、その右側で偶数対称性を示す。合
成された信号は、この変換の信号の逆畳み込みの間、その左側で反転される。
・MDST-IVは、その左側で偶数対称性を示し、その右側で偶数対象性を示す。合
成された信号は、この変換の信号の逆畳み込みの間、その右側で反転される。
・MDCT-IIは、その左側で偶数対称性を示し、その右側で奇数対称性を示す。合
成された信号は、この変換の信号の逆折畳みの間のいずれの側でも反転されない。
・MDST-IIは、その左側で奇数対称を示し、その右側で偶数対称性を示す。合成
された信号は、この変換の信号の逆畳み込みの間、両側で反転される。
【0024】
さらに、デコーダにおいて制御情報12を導出するための2つの実施形態について説明
する。制御情報は、例えば、上述の4つの変換のうちの1つを示すためにk0の値とcs
()とを含んでもよい。したがって、適応型スペクトル-時間変換部は、符号化されたオ
ーディオ信号から、前のフレームの制御情報および前のフレームに続く制御情報を、現在
のフレームの制御データセクションの符号化されたオーディオ信号から読み出すことがで
きる。オプションで、適応型スペクトル-時間変換部6は、現在のフレームの制御データ
部から制御情報12を読み出すようにしてもよく、また、前のフレームの制御データ部か
ら、あるいは前のフレームに適用されたデコーダ設定から、前のフレームについての制御
情報を読み出すようにしてもよい。言い換えると、制御情報は、制御データセクションか
ら直接導出されてもよく、ヘッダーにおいて、現在のフレームまたは前のフレームのデコ
ーダ設定から導出されてもよい。
【0025】
以下、好ましい実施形態に従って、エンコーダとデコーダとの間で交換される制御情報
を説明する。このセクションは、サイド情報(すなわち、制御情報)がどのように符号化
されたビットストリームでシグナリングされ、導出されるかについて、および、ロバスト
(例えば、フレーム損失に対して)の方法で適切な変換カーネルを導出して適用する方法
について説明する。
【0026】
好ましい実施形態によれば、本発明は、MPEG-D USAC(拡張HE-AAC)
またはMPEG-H 3Dオーディオコーデックに統合することができる。決定された副情
報は、各周波数領域(FD)チャネルおよびフレームに対して利用可能な、いわゆるfd c
hannel stream要素内で送信することができる。より具体的には、scale_factor_data(
)ビットストリーム要素の直前または直後に、1ビットのcurrAliasingSymmetryフラグが
(エンコーダによって)書き込まれ、(デコーダによって)読み出される。所与のフレー
ムが独立フレーム、すなわちindepFlag == 1である場合、別のビット prevAliasingSymm
etry が書き込まれ、読み出される。これにより、左側と右側の両方の対称性、および結
果として得られる変換カーネルは前記フレームおよびチャネル内で使用され、ビットスト
リーム伝送中に前のフレームが失われても、デコーダ内で識別され(適切に復号され)得
る。フレームが独立したフレームでない場合、prevAliasingSymmetry は書き込まれず読
み出されないが、前のフレームで currAliasingSymmetry が保持していた値に等しく設定
される。さらなる実施形態によれば、異なるビットまたはフラグを使用して、制御情報(
すなわち、副情報)を示すことができる。
【0027】
次に、cs()およびk0のそれぞれの値は、currAliasingSymmetry およびprevAliasi
ngSymmetry フラグから導出される(currAliasingSymmetryはsymmi と、prevAliasin
gSymmetryはsymmi-1と、略される)。換言すれば、symmiはインデックスiにお
ける現在のフレームの制御情報であり、symmi-1 はインデックスi-1における前のフ
レームの制御情報である。表1は、送信および/または他の方法で導出された対称性に関
するサイド情報に基づいておよびcs(...)の値を指定するデコーダ側決定マトリクス
を示す。したがって、適応型スペクトル-時間変換器は、以下の表1に基づいて変換カー
ネルを適用することができる。
【0028】
最後に、cs()およびk0 がデコーダにおいて決定されると、所与のフレームおよび
チャネルに対する逆変換は、式(2)を使用して適切なカーネルで実行され得る。この合
成変換の前および後に、デコーダは、窓掛けに関しても従来技術のように通常通り動作す
ることが可能である。
【0029】
図2は、一実施形態によるデコーダにおける信号フローを示す概略ブロック図を示し、
ここで、実線は信号を示し、破線はサイド情報を示し、iはフレームインデックスを示し
、xiはフレーム時間-信号出力を示す。ビットストリームデマルチプレクサ16は、ス
ペクトル値4’および制御情報12の連続ブロックを受信する。一実施形態によれば、ス
ペクトル値4’’および制御情報12の連続するブロックは、共通信号に多重化され、ビ
ットストリームデマルチプレクサは、共通信号から連続するスペクトル値のブロックおよ
び制御情報を導出するように構成される。スペクトル値の連続するブロックはさらにスペ
クトルデコーダ18に入力されてもよい。さらに、現在のフレーム12および前のフレー
ム12’の制御情報がマッパ20に入力され、表1に示すマッピングを適用する。実施形
態によれば、前のフレーム12’の制御情報は、符号化されたオーディオ信号、すなわち
スペクトル値の前のブロック、または前のフレームに対して適用されたデコーダの現在の
プリセットを使用して導出されてもよい。スペクトル値4’’のスペクトル的に復号化さ
れた連続したブロックと、パラメータcsおよびk0 を含む処理された制御情報12’は
図1の適応型スペクトル-時間変換器6である逆カーネル適応ラップトランスに入力さ
れる。出力は、例えば時間値の連続するブロックの境界における不連続性を克服するため
に、合成窓7を使用して随意的に処理することができる時間値10の連続するブロックで
あってもよく、オーバーラップ加算アルゴリズムを実行してデコードされたオーディオ値
14を導出するためにオーバーラップ加算プロセッサ8に入力される。マッパ20および
適応型スペクトル-時間変換器6は、オーディオ信号の復号化の別の位置にさらに移動す
ることができる。したがって、これらのブロックの位置は単なる提案に過ぎない。さらに
、制御情報は、対応するエンコーダを使用して計算されてもよく、その実施形態は、例え
ば、図3に関して記載される。
【0030】
図3は、一実施形態によるオーディオ信号を符号化するためのエンコーダの概略ブロッ
ク図を示す。エンコーダは、適応型時間-スペクトル変換器26およびコントローラ28
を備える。適応型時間-スペクトル変換器26は、例えばブロック30’および30’’
を含む時間値30の重複ブロックをスペクトル値4’の連続するブロックに変換する。さ
らに、適応型スペクトル-時間変換器(6)は、カーネルの両側に異なる対称性を有する
1つ以上の変換カーネルを含む変換カーネルの第1のグループと、変換カーネルの両側に
同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの第2のグループとの間
で、制御情報(12)を受信し、制御情報に応じて切り替える。さらに、コントローラ2
8は、時間-スペクトル変換器を制御して、変換カーネルの第1のグループの変換カーネ
ルと、変換カーネルの第2のグループの変換カーネルとを切り替えるように構成される。
任意選択的に、エンコーダ22は、現在のフレームについて、符号化されたオーディオ信
号を生成するために、符号化されたオーディオ信号を生成する出力インターフェース32
と、現在のフレームを生成するために使用される変換カーネルの対称性を示す制御情報1
2とを含む。現在のフレームは、スペクトル値の連続するブロックの現在のブロックであ
ってもよい。出力インターフェースは、現在のフレームの制御データセクションに、現在
のフレームと独立したフレームである前のフレームとの対称性情報を含むことができ、ま
たは現在のフレームの制御データセクションに含めることができる。そして、現フレーム
が従属フレームである場合には、現フレームの対称情報のみ、前フレームの対称情報は存
在しない。出力インターフェースは、現在のフレームの制御データセクションに、現在の
フレームおよび前のフレームのための対称情報を含むことができ、現在のフレームは独立
フレームであり、または現在のフレームの制御データセクションに現在のフレームの対称
情報のみを含み、現在のフレームが従属フレームである場合、前のフレームの対称情報を
含まない。独立したフレームは、たとえば独立したフレームヘッダを含み、これにより、
前のフレームの知識なしに現在のフレームを確実に読み取ることができる。依存するフレ
ームは、例えば、可変ビットレートスイッチングを有するオーディオファイルである。し
たがって、従属フレームは、1つまたは複数の前のフレームの知識だけで読み取ることが
できる。独立したフレームは、たとえば独立したフレームヘッダを含み、これにより、前
のフレームの知識なしに現在のフレームを確実に読み取ることができる。従属するフレー
ムは、例えば、可変ビットレートスイッチングを有するオーディオファイルである。した
がって、従属フレームは、1つまたは複数の前のフレームの知識だけで読み取ることがで
きる。
【0031】
コントローラは、例えば、少なくとも変換の周波数分解能の整数倍に近い基本周波数に
関して、オーディオ信号24を分析するように構成することができる。従って、制御装置
は、制御情報12を用いて、適応型時間-スペクトル変換器26および任意に出力インタ
ーフェース32に供給する制御情報12を導出することができる。制御情報12は、変換
カーネルの第1グループまたは変換カーネルの第2グループの適切な変換カーネルを示す
ことができる。変換カーネルの第1のグループは、カーネルの左側に奇数対称性を有し、
且つ、カーネルの右側に偶数対称性を有する、あるいはその逆の1つ以上の変換カーネル
を有してもよく、あるいは、変換カーネルの第2グループが、カーネルの両側で偶対称性
を有するか、またはカーネルの両側で奇数対称性を有する1つ以上の変換カーネルを含む
ことができる。換言すれば、変換カーネルの第1のグループは、MDCT-IV変換カー
ネルまたはMDST-IV変換カーネルを含むことができ、変換カーネルの第2のグルー
プは、MDCT-II変換カーネルまたはMDST-II変換カーネルを含むことができ
る。符号化されたオーディオ信号を復号するために、デコーダは、それぞれの逆変換をエ
ンコーダの変換カーネルに適用することができる。したがって、デコーダは、変換カーネ
ルの第1のグループが、逆MDCT-IV変換カーネルまたは逆MDST-IV変換カー
ネルを含むことができ、または変換カーネルの第2のグループが、逆MDCT-II変換
カーネルまたは逆MDST-II変換カーネルを含むことができる。
【0032】
言い換えれば、制御情報12は、現在のフレームに対する現在の対称性を示す現在のビ
ットを含むことができる。さらに、適応型スペクトル-時間変換器6は、現在のビットが
前のフレームで使用されたものと同じ対称性を示すとき、第1のグループから第2のグル
ープの変換カーネルに切り替えないように構成されてもよく、現在のビットが前のフレー
ムで使用されたものとは異なる対称性を示すとき、適応型スペクトル-時間変換器は、第
1のグループから第2のグループの変換カーネルに切り替えるように構成される。
【0033】
さらに、適応型スペクトル-時間変換器6は、現在のビットが前のフレームで使用され
たものとは異なる対称性を示すとき、第2のグループから第1のグループの変換カーネル
に切り替えないように構成することができ、現在のビットが前のフレームで使用されたの
と同じ対称性を示すとき、適応型スペクトル時間変換器は、第2のグループから第1のグ
ループの変換カーネルに切り替わるように構成される。
【0034】
エンコーダ側または分析側またはデコーダ側または合成側のいずれかの時間部分とブロ
ックとの関係を示すために、図4Aおよび図4Bを参照する。
【0035】
図4Bは、0番目の時間部分から3番目の時間部分の概略図を示し、これらの次の時間
部分の各時間部分は、ある重複範囲170を有する。これらの時間部分に基づいて、重複
時間部分を表す連続する一連のブロックは、エイリアシング-導入変換動作の分析側を示
図5Aに関してより詳細に説明する処理によって生成される。
【0036】
特に、図4Bが分析側に適用されるときの図4Bに示される時間領域信号は、分析窓を
適用する窓掛け部201によって窓掛けされる。したがって、0番目の時間部分を得るた
めに、例えば、2048サンプル、特にサンプル1~サンプル2048に分析窓を適用す
る。従って、Nは1024に等しく、窓掛けは2Nサンプルの長さを有し、この例は20
48である。次に、窓掛け部が、ブロックの第1のサンプルとしてのサンプル2049で
はなく、第1の時間部分を得るためにブロック内の第1のサンプルとしてのサンプル10
25に対して、さらなる分析操作を適用される。したがって、50%の重なりについて1
024サンプル長である第1の重なり範囲170が得られる。この手順は、第2および第
3の時間部分に対して付加的に適用されるが、ある重なり範囲170を得るために常に重
なり合う。
【0037】
オーバーラップは、必ずしも50%のオーバーラップである必要はないが、オーバーラ
ップは、より高くても低くてもよく、マルチオーバーラップであってもよいことが強調さ
れるべきである。すなわち、時間領域のオーディオ信号のサンプルが2つの窓および結果
としてスペクトル値のブロックに寄与しないように2つ以上の窓のオーバーラップが得ら
れるが、サンプルはスペクトル値の2つ以上の窓/ブロックに寄与する。一方、当業者で
あれば、0の部分および/または1の値を有する部分を備えた図5Aの窓掛け部201に
よって適用可能な他の窓掛け形状が存在することがさらに理解される。このような単一の
値を有する部分に対して、そのような部分は、典型的には、先行または後続の窓の0部分
と重複し、したがって、単一の値を有する窓の一定部分に位置する特定のオーディオサン
プルは、単一のスペクトル値のブロックにのみ寄与する。
【0038】
図4Bによって得られた窓掛けされた(窓化済み)時間部分は、畳み込み操作を実行す
るためにフォルダ202に伝送される。この畳み込み操作は、例えば、フォルダ202の
出力において、ブロック当たりN個のサンプルを有するサンプリング値のブロックのみが
存在するように、畳み込みを実行することができる。そして、フォルダ202による畳み
操作に続いて、時間-周波数変換器が適用され、そして、それは、入力側のブロック当た
りN個のサンプルを時間-周波数変換器203の出力側でN個のスペクトル値に変換する
DCT-IV変換器である。
【0039】
したがって、ブロック203の出力で得られたスペクトル値の一連のブロックが図4A
に示されており、具体的には、図1Aおよび図1Bに102で示す第1の変更値を関連付
け、図1Aおよび1Bに示す第2の変更値に関連する第2の変更値192を有する第1の
ブロック191を示している。当然のことながら、シーケンスは、第2のブロックに先行
する、または図示のように第1のブロックに先行するブロック193または194をさら
に有する。第1および第2のブロック191,192は、例えば、図4Bの窓掛けされた
第1の時間部分を変換して第1のブロックを得ることによって得られ、そして、第2のブ
ロックは図5Aの時間-周波数変換器203によって、図4Bの窓掛けされた第2の時間
部分を変換することによって得られる。したがって、一連のスペクトル値のブロックにお
いて、時間的に隣接するスペクトル値の両方のブロックは、第1の時間部分および第2の
時間部分をカバーするオーバーラップ範囲を表す。
【0040】
続いて、図5Bは、図5Aのエンコーダまたは分析側処理の結果の合成側またはデコー
ダ側の処理を示すために説明される。図5Aの周波数変換器203によって出力された一
連のスペクトル値のブロックは、変更子211に入力される。概説したように、スペクト
ル値の各ブロックは、図4A図5Bに示される例についてN個のスペクトル値を有する
(これは、Mが使用される式(1)および(2)とは異なることに留意されたい)。各ブ
ロックは、図1Aおよび1Bに示す102,104のような変更値を関連付けている。次
に、典型的なIMDCT動作または冗長性低減合成変換では、周波数-時間変換器212
、逆畳み込みのためのフォルダ213、合成窓を適用するための窓掛け部214、および
、オーバーラップ/加算操作が、重複範囲内の時間領域信号を得るために実行されるブロ
ック215によって示される。この例では、ブロックごとに2N個の値があるので、各オ
ーバーラップ・アンド・オペレーションの後に、変更値102,104が時間または周波
数に亘って可変ではない場合、N個の新しいエイリアシングのない時間領域サンプルが得
られる。しかし、これらの値が時間と周波数によって変動する場合、ブロック215の出
力信号はエイリアシングフリーではなく、この課題は、図1Bおよび1Aの文脈で議論さ
れ、本明細書の他の図の文脈で議論されるように、本発明の第1および第2の態様によっ
て対処される。
【0041】
続いて、図5Aおよび図5Bのブロックによって実行される手順のさらなる説明が与え
られる。
【0042】
この図は、M
DCTを参照することによって例示されているが、他のエイリアシング導入変換も同様の
類似の方法で処理することができる。重複変換として、MDCTは、(同じ数ではなく)
入力の半分の出力を持つ点で、他のフーリエ関連変換に比べて少し珍しい。特に、それは
線形関数F:R2N → RN である(Rは実数の集合を表している)。2N個の実数x0,
...,x2N-1は、次の式に従ってN個の実数X0,...,XN-1に変換される

【0043】
(この変換の前の正規化係数、ここでは単一性は任意の慣例であり、処理ごとに異なる
。下記のMDCTとIMDCTの正規化の積のみが制約される)。
【0044】
逆MDCTは、IMDCTとして知られている。一見すると、入力と出力の数が異なる
ため、MDCTが反転できないように見えるかも知れない。しかし、完全な可逆性は、時
間的に隣接するオーバーラップするブロックのオーバーラップされたIMDCTを加算し
、エラーをキャンセルし、元のデータを取り出すことによって達成される。この技術は、
時間領域エイリアシングキャンセル(TDAC)として知られている。
【0045】
IMDCTは、N個の実数X0,...,XN-1を2N個の実数y0,...,y2
N-1に変換する次の式に従う。
【0046】
(直交変換であるDCT-IVの場合と同様に、逆関数も順変換と同じ形式である。)
【0047】
通常の正規化窓(下記参照)を有する窓掛けされたMDCT(窓掛け済みMDCT)の
場合、IMDCTの前の正規化係数は2倍(すなわち、2/Nになる)にすべきである。
【0048】
典型的な信号圧縮アプリケーションでは、変換特性は、MDCTおよびIMDCT公式
においてxnおよびynと乗算される窓関数wn(n=0,...,2N-1)を使用す
ることによってさらに改善され、n=0および2N境界における不連続性を回避するため
に、これらの点で関数がゼロに滑らかに進むようにする。(つまり、MDCTの前とIM
DCTの後にデータを窓掛けする。)原理的には、xとyは異なる窓関数を持つことがで
き、窓関数はあるブロックから次のブロックに変更することもできる(特に、異なるサイ
ズのデータブロックが結合されている場合)が、簡略化のために、等しいサイズのブロッ
クに対して同一の窓関数の一般的なケースを考慮している。
【0049】
【0050】
MDCTに適用される窓は、Princen-Bradley条件を満たさなければならないため、他
の種類の信号分析に使用される窓とは異なる。この違いの理由の1つは、MDCT(解析
)とIMDCT(合成)の両方に対して、MDCT窓が2回適用されることである。
【0051】
定義を調べることによって分かるように、Nについても、MDCTは、入力がN/2だ
けシフトされ、2つのNブロックのデータが一度に変換されるDCT-IVと本質的に同
等である。この同等性をより慎重に検討することにより、TDACのような重要な特性を
容易に導出することができる。
【0052】
DCT-IVとの正確な関係を定義するために、DCT-IVは偶数/奇数境界条件(
すなわち対称条件)を交互にすることに対応することを認識しなければならない。左境界
(約n=-1/2)、(n=N=-1/2の周りの)右境界線で奇数であり、DFTのよ
うに周期的境界の代わりに続くようにしてもよい。これは、次式に従う。
および
【0053】
したがって、その入力が長さNの配列xである場合、この配列を(x,-xR,-x,
xR,...)に拡張すると想像することができる。ここで、xRはxを逆順に表す。
【0054】
2N個の入力とN個の出力を有するMDCTを考えてみる。ここでは、入力をサイズN
/2の4つのブロック(a,b,c,d)に分割する。MDCT定義の+N/2項からN
/2だけ右にシフトすると、(b,c,d)はN個のDCT-IV入力の終わりを超えて
延び、上記の境界条件に従ってそれらを「畳み込む」必要があります。
【0055】
したがって、2N入力(a,b,c,d)のMDCTは、N入力のDCT-IVと正確
に等価である(-cR-d、a-bR)。
【0056】
これは、図5Aの窓関数202について例示されている。aは部分204bであり、b
は部分205aであり、cは部分205bであり、dは部分206aである。
【0057】
(このようにして、DCT-IVを計算するアルゴリズムは、MDCTに自明に適用で
きる。)同様に、上のIMDCTの公式は、DCT-IV(それ自身の逆数)の正確に1
/2であり、出力は(境界条件を介して)長さ2Nに拡張され、左にN/2だけ戻される
。逆DCT-IVは、上から入力(-cR-d、a-bR)を返すだけである。これが境
界条件によって拡張され、シフトされると、
IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+
cR)/2
となる。
【0058】
したがって、IMDCT出力の半分は、b-aR=-(a-bR)Rのように冗長であ
り、最後の2つの項についても同様である。入力をA=(a,b)およびB=(c,d)
のサイズNのより大きなブロックA、Bにグループ化すると、この結果をより簡単な方法
IMDCT(MDCT(A,B))=(A-AR,B+BR)/2
で書くことができる。
【0059】
TDACの仕組みを理解できるようになる。時間的に隣接し、50%重複した2Nブロ
ック(B、C)のMDCTを計算すると仮定する。IMDCTは、上記と同様に(B-B
R,C+CR)/2となる。これが以前のIMDCT結果と重複する半分で加算されると
、逆の項はキャンセルされ、単純にBを取得して元のデータを回復する。
【0060】
「時間領域エイリアシングキャンセル」という用語の由来は現在はっきりしている。論
理DCT-IVの境界を越えて伸びる入力データの使用は、ナイキスト周波数を超える周
波数が低い周波数にエイリアシングされるのと同じ方法(拡張対称性に関して)でエイリ
アスを引き起こし、(a,b,c,d)のMDCTへの寄与とbRの寄与を区別すること
ができないか、または等価的に、IMDCT(MDCT(a,b,c,d))=(a-b
R、b-aR、c+dR、d+cR)/2の結果に変換する。組み合わせc-dRなどは
、組み合わせが追加されたときに取り消す正しい記号を正確に持っている。
【0061】
奇数N(実際にはめったに使用されない)の場合、N/2は整数ではないので、MDC
Tは単なるDCT-IVのシフト置換ではない。この場合、サンプルの半分の追加シフト
は、MDCT/IMDCTがDCT-III/IIと同等になることを意味し、分析は上
記と同様である。
【0062】
2N個の入力(a,b,c,d)のMDCTは、N個の入力(-cR-d、a-bR)
のDCT-IVと等価であることを上記から見てきた。DCT-IVは、右境界の関数が
奇数の場合に設計されているため、右境界付近の値は0に近い値になる。入力信号が滑ら
かであれば、入力シーケンス(a,b,c,d)ではaとbRの右端の成分が連続してい
るため、その差は小さい。区間の中央を見てみましょう。上の式を(-cR-d,a-b
R)=(-d,a)-(b,c)Rと書き換えると、第2の(b,c)Rは真ん中である
。しかし、第1項(-d,a)では、-dの右端がaの左端と一致する不連続点がある。
これは、入力シーケンス(a,b,c,d)の境界付近の成分を0に向かって減らす窓関
数を使用する理由である。
【0063】
上記のように、通常のMDCTではTDACプロパティが証明され、時間的に隣接する
ブロックのIMDCTをオーバーラップする半分に追加すると元のデータが回復すること
が示されている。窓掛けされたMDCT(窓掛け済みMDCT)に対するこの逆特性の導
出は、わずかに複雑であるだけである。
【0064】
【0065】
【0066】
したがって、MDCT(A,B)を実行する代わりに、すべての乗算が要素ごとに実行
されたMDCTS(WA,WRB)が現在存在する。これがIMDCTに入力され、窓関数
によって再び(要素ごとに)乗算されると、最後のNの半分は次のようになる。
R・(WRB+(WRB)R)=WR・(WRB+WBR)=WR 2B+WWRR
【0067】
(IMDCTの正規化は、窓掛けされたケースでは2倍異なるため、乗算は1/2にな
らない)。
【0068】
同様に、窓掛けされた(B,C)のMDCTおよびIMDCTは、最初のNの半分で次
のようになる。
W・(WB-WRR)=W2B-WWRR
【0069】
これらの2つの半分を一緒に追加すると元のデータが復元される。再構成は、2つのオ
ーバーラップする窓の半分がPrincen-Bradley条件を満たすとき、窓の切り替えのコンテ
キストでも可能である。エイリアシング解除は、この場合、上記と全く同じ方法で行うこ
とができる。複数の重複変換では、関連するすべてのゲイン値を使用して3つ以上の分岐
が必要になる。
【0070】
これまでは、MDCT、より具体的にはMDCT-IVの対称性または境界条件につい
て説明してきた。MDCT-II、MDST-II、およびMDST-IVという他の変
換カーネルについても説明が有効である。しかし、他の変換カーネルの異なる対称性また
は境界条件を考慮する必要があることに留意しなければならない。
【0071】
図6は、4つの記述された重複変換の暗黙の逆畳み込み特性および対称性(すなわち境
界条件)を概略的に示す。変換は、4つの変換のそれぞれについての第1の合成基底関数
を介して(2)から導出される。IMDCT-IV34a、IMDCT-II34b、I
MDST-IV34cおよびIMDST-II34dは、経時的な振幅サンプルの模式図
で示されている。図6は、上述のような変換カーネルの間の対称軸35(すなわち折りた
たみ点)での変換カーネルの偶数および奇数対称性を明確に示している。
【0072】
時間領域エイリアシングキャンセル(TDAC)プロパティは、OLA(オーバーラッ
プアンドアド)処理中に偶数および奇数対称拡張が合計されるとき、そのエイリアシング
がキャンセルされることを示す。換言すれば、TDACが発生するためには、奇数の右側
対称性を有する変換の後に、偶数の左側対称性を有する変換が行われなければならず、そ
の逆もまた同様である。
したがって、
・(逆の)MDCT-IVの後には、逆MDCT-IVまたは逆MDST-IIを続ける

・(逆の)MDST-IVの後には、逆MDST-IVまたは逆MDCT-IIを続ける

・(逆の)MDCT-IIの後には、逆MDCT-IVまたは逆MDST-IIを続ける

・(逆の)MDST-IIの後には、逆MDST-IVまたは逆MDCT-IIを続ける
【0073】
図7の(a)、図7の(b)は、完全な再構成を可能にしながら、信号適応型変換カー
ネルスイッチングが1つのフレームから次のフレームへ変換カーネルに適用されるユース
ケースの2つの実施形態を概略的に示す。言い換えれば、上述の変換シーケンスの2つの
可能なシーケンスが図7に例示されている。ここで、実線(線38cなど)は変換窓を示
し、破線38aは変換窓の左側エイリアシング対称性を示し、点線38bは変換窓の右側
エイリアシング対称性を示す。さらに、対称ピークは偶対称を示し、対称谷は奇対称を示
す。図7の(a)において、フレームiの36aおよびフレームi+1の36bは、MD
CT-IV変換カーネルであり、フレームi+2の36cにおいて、フレームi+3の3
6dで使用されるMDCT-II変換カーネルへの遷移としてMST-IIが使用される
。フレームi+4の36eは、MDST-IIを再び使用し、例えば図7の(a)には示
されていないフレームi+5のMDCT-IIにMDST-IVを再び使用する。しかし
ながら、図7の(a)は、破線38aおよび点線38bが、後続の変換カーネルを補償す
ることを明確に示している。言い換えれば、現フレームの左側エイリアシング対称性と前
のフレームの右側エイリアシング対称性を合計すると、点線と点線の和が0に等しいので
、完全な時間領域エイリアシングキャンセル(TDAC)が得られる。左右のエイリアシ
ング対称性(または境界条件)は、例えば図5Aおよび図5Bに記載された畳み込み特性
に関連し、MDCTが2N個のサンプルを含む入力からN個のサンプルを含む出力を生成
した結果である。
【0074】
図7の(b)は、図7の(a)と同様であり、フレームiからフレームi+4に対する
異なる一連の変換カーネルを使用するのみである。フレームi36aでは、MDCT-I
Vが使用され、フレームi+1の36bは、フレームi+2の36cで使用されるMDS
T-IVへの遷移としてMDST-IIを使用する。フレームi+3は、フレームi+2
の36dで使用されるMDST-IV変換カーネルからフレームi+4の36eのMDC
T-IV変換カーネルへの遷移としてMDCT-II変換カーネルを使用する。
【0075】
変換シーケンスに対する関連決定マトリクスを表1に示す。
【0076】
実施形態は、HE-AACのようなオーディオコーデックにおいて提案された適応型変
換カーネルスイッチングがどのようにして有利に採用されて、冒頭に述べた2つの課題を
最小限に抑え、あるいは回避するかをさらに示している。以下は、従来のMDCTによっ
て準最適にコード化された高調波信号に対処する。MDCT-IIまたはMDST-II
への適応的遷移は、例えば入力信号の基本周波数に基づいてエンコーダによって実行され
てもよい。より具体的には、入力信号のピッチが、変換の周波数分解能の整数倍(すなわ
ち、スペクトル領域における1つの変換ビンの帯域幅)に厳密にまたは非常に近い場合、
MDCT-IIまたはMDST-IIは、影響を受けるフレームおよびチャネルに対して
使用されてもよい。しかしながら、MDCT-IVからMDCT-II変換カーネルへの
直接遷移は不可能であるか、少なくとも時間領域エイリアシングキャンセル(TDAC)
を保証しない。したがって、MDCT-IIはそのような場合に両者間の遷移変換として
利用されなければならない。逆に、MDST-IIから伝統的なMDCT-IVへの移行
(すなわち、伝統的なMDCTコーディングへの切り替え)には、中間体MDCT-II
が有利である。
【0077】
これまで、高調波オーディオ信号の符号化を強化するため、提案された適応型変換カー
ネルスイッチングは単一のオーディオ信号について記述されていた。さらに、例えばステ
レオ信号などのマルチチャネル信号に容易に適合させることができる。ここで、例えば、
マルチチャネル信号の2つ以上のチャネルがおおよそ互いに±90度の位相シフトを有す
る場合、適応型変換カーネルスイッチングも有利である。
【0078】
マルチチャンネルオーディオ処理の場合、1つのオーディオチャネルに対してMDCT
-IV符号化を使用し、第2のオーディオチャネルに対してMDST-IV符号化を使用
することが適切であり得る。特に、両方のオーディオチャンネルが符号化前に約±90度
の位相シフトを含む場合、この概念は有利である。MDCT-IVとMDST-IVとは
、互いに比較して符号化信号に90度の位相シフトを与えるので、オーディオ信号の2チ
ャンネル間で±90度の位相シフトが符号化後に補償され、すなわち、MDCT-IVの
コサインベース関数とMDST-IVの正弦関数との間の90度の位相差によって、0度
または180度の位相シフトに変換される。したがって、例えばM/Sステレオ符号化で
は、オーディオ信号の両方のチャネルが中間信号で符号化されてもよく、0度の位相シフ
トへの上述の変換の場合、サイド信号に最小残差情報のみを符号化する必要があり、18
0度の位相シフトへの反転の場合にはその逆(中間信号の最小情報)が得られ、それによ
って最大のチャネル圧縮が達成される。これにより、両方のオーディオチャンネルの古典
的なMDCT-IVコーディングと比較して、ロスレスコーディングスキームを使用しな
がら、最大50%の帯域幅削減が達成される可能性がある。さらに、複雑なステレオ予測
と組み合わせてMDCTステレオ符号化を使用することも考えられる。両方のアプローチ
は、オーディオ信号の2つのチャネルから残差信号を計算し、符号化し、送信する。さら
に、複雑な予測は、オーディオ信号を符号化するための予測パラメータを計算し、デコー
ダは、送信されたパラメータを使用してオーディオ信号を復号する。しかし、例えば、2
つのオーディオチャネルを符号化するためのMDCT-IVおよびMDST-IVは、既
に上述したように、デコーダが関連する符号化方式を適用できるように、使用される符号
化方式(MDCT-II、MDST-II、MDCT-IVまたはMDST-IV)に関
する情報のみが送信されるべきである。複雑なステレオ予測パラメータは、比較的高い解
像度を使用して量子化されるべきであるので、使用される符号化方式に関する情報は、例
えば、4ビット符号化されてもよい。理論的には、第1および第2のチャネルは、4つの
異なる符号化方式のうちの1つを使用してそれぞれ符号化されてもよく、これにより16
の異なる可能な状態が導かれる。
【0079】
したがって、図8は、マルチチャネルオーディオ信号を復号するためのデコーダ2の概
略ブロック図を示す。図1のデコーダと比較して、デコーダは、第1および第2のマルチ
チャネルを表すスペクトル値4a’’’、4b’’’のブロックを受信するためのマルチ
チャネルプロセッサ40をさらに備え、第1のマルチチャネルおよび第2のマルチチャネ
ルのスペクトル値4a’、4b’の処理済みブロックを得るために、受信したブロックを
ジョイントマルチチャネル処理技術に従って、適応型スペクトル-時間プロセッサは、第
1のマルチチャネル用の制御情報12aと、第2のマルチチャネル用の制御情報12bを
使用する第2のマルチチャネル用の処理済みブロック4b'とを使用して、第1のマルチ
チャネルの処理済みブロック4a’を処理するように構成される。マルチチャンネルプロ
セッサ40は、例えば、左右ステレオ処理、和差ステレオ処理を適用してもよいし、ある
いは、マルチチャネルプロセッサは、第1および第2のマルチチャネルを表すスペクトル
値のブロックに関連する複素予測制御情報を用いて複素予測を適用する。したがって、マ
ルチチャネルプロセッサは、例えばオーディオ信号を符号化するためにどの処理が使用さ
れたかを示す、制御情報から固定されたプリセットを含むことができ、または情報を得る
ことができる。制御情報内の別個のビットまたはワードの他に、マルチチャネルプロセッ
サは、例えばマルチチャネル処理パラメータの不存在または存在によって、この情報を現
在の制御情報から得ることができる。換言すれば、マルチチャネルプロセッサ40は、エ
ンコーダで実行されるマルチチャネル処理に逆動作を適用して、マルチチャネル信号の別
々のチャネルを回復することができる。さらなるマルチチャネル処理技術は、図10~図
14に関して説明される。さらに、参照符号は、マルチチャネル処理に適用され、文字「
a」によって拡張された参照符号は第1マルチチャネルを示し、参照符号は文字「b」に
よって拡張されて第2マルチチャネルを示す。さらに、マルチチャンネルは、2チャンネ
ル、またはステレオ処理に限定されず、しかし、2チャンネルの図示された処理を拡張す
ることによって、3つ以上のチャネルに適用することができる。
【0080】
実施形態によれば、デコーダのマルチチャネルプロセッサは、共同マルチチャネル処理
技術に従って、受信したブロックを処理することができる。さらに、受信されたブロック
は、第1のマルチチャネルの表現の符号化残差信号および第2のマルチチャネルの表現を
含むことができる。さらに、マルチチャネルプロセッサは、残余信号およびさらなる符号
化信号を使用して第1のマルチチャネル信号および第2のマルチチャネル信号を計算する
ように構成されてもよい。言い換えれば、残差信号は、M/Sで符号化されたオーディオ
信号のサイド信号であってもよいし、または、使用時にオーディオ信号のさらなるチャネ
ルに基づくオーディオ信号のチャネルとチャネルの予測との間の残差、例えば複雑なステ
レオ予測であってもよい。したがって、マルチチャネルプロセッサは、例えば逆変換カー
ネルを適用するなどのさらなる処理のために、M/Sまたは複素予測オーディオ信号をL
/Rオーディオ信号に変換することができる。従って、マルチチャネルプロセッサは、残
差信号と、M/S符号化されたオーディオ信号の中間信号又はオーディオ信号の(例えば
、MDCT符号化された)チャネルであってもよい更なる符号化されたオーディオ信号を
用いることができる。
【0081】
図9は、マルチチャネル処理に拡張された図3のエンコーダ22を示す。制御情報12
が符号化されたオーディオ信号4に含まれることが予測されるが、制御情報12は、例え
ば別個の制御情報チャネルを使用してさらに送信されてもよい。マルチチャネルエンコー
ダのコントローラ28は、第1のチャネルのフレームおよび第2のチャネルの対応するフ
レームの変換カーネルを決定するために、第1のチャネルおよび第2のチャネルを有する
オーディオ信号の時間値30a、30bのオーバーラップするブロックを分析することが
できる。したがって、コントローラは、変換カーネルの各組み合わせを試みて、例えばM
/S符号化または複素数予測の残差信号(またはM/S符号化に関してサイド信号)を最
小化する変換カーネルのオプションを導き出すことができる。最小化された残差信号は、
例えば、残りの残差信号と比較して最も低いエネルギーを有する残差信号を生成する。こ
れは、例えば、より大きな信号を量子化するのと比較して、残余信号のさらなる量子化が
小信号を量子化するためにより少ないビットを使用する場合に有利である。さらに、コン
トローラ28は、前述の変換カーネルのうちの1つを適用する適応型時間-スペクトル変
換器26に入力されている第1のチャネルの第1の制御情報12aと第2のチャネルの第
2の制御情報12bを決定することができる。したがって、時間スペクトル変換器26は
、マルチチャネル信号の第1のチャネルおよび第2のチャネルを処理するように構成され
てもよい。さらに、マルチチャネルエンコーダは、第1のチャネルおよび第2のチャネル
のスペクトル値4a’、4b’の連続するブロックを、例えば、以下のようなジョイント
マルチチャネル処理技術を用いて処理するためのマルチチャネルプロセッサ42をさらに
備えることができる。例えば、和差ステレオ符号化、または複素予測を用いて、スペクト
ル値40a’’’、40b’’’の処理されたブロックを得ることができる。エンコーダ
は、符号化されたチャネル40a’’’、40b’’’を得るために、スペクトル値の処
理されたブロックを処理するための符号化プロセッサ46をさらに備えることができる。
符号化プロセッサは、例えば損失性オーディオ圧縮または無損失オーディオ圧縮方式を使
用してオーディオ信号を符号化することができ、例えば、スペクトル線のスカラー量子化
、エントロピー符号化、ハフマン符号化、チャネル符号化、ブロック符号または畳み込み
符号、または順方向誤り訂正または自動繰り返し要求を適用することができる。さらに、
不可逆的オーディオ圧縮は、心理音響モデルに基づく量子化を使用することを指してもよ
い。
【0082】
さらなる実施形態によれば、第1の処理されたスペクトル値のブロックは、ジョイント
マルチチャネル処理技術の第1の符号化された表現を表し、第2の処理されたスペクトル
値のブロックは、ジョイントマルチチャネル処理技術の第2の符号化された表現を表す。
したがって、符号化プロセッサ46は、量子化およびエントロピー符号化を使用して第1
の処理済みブロックを処理して第1の符号化された表現を形成し、量子化およびエントロ
ピー符号化を使用して第2の処理済みブロックを処理して第2の符号化された表現を形成
するように構成される。第1の符号化された表現および第2の符号化された表現は、符号
化されたオーディオ信号を表すビットストリーム内に形成されてもよい。言い換えると、
第1の処理ブロックは、複素ステレオ予測を使用して、エンコードされたオーディオ信号
のM/Sエンコードされたオーディオ信号またはMDCTエンコードされたチャネルの中
間信号を含むことができる。さらに、第2の処理ブロックは、複素予測のためのパラメー
タまたは残差信号、またはM/S符号化されたオーディオ信号のサイド信号を含むことが
できる。
【0083】
図10は、2つ以上のチャネル信号を有するマルチチャネルオーディオ信号200を符
号化するためのオーディオエンコーダを示しており、第1のチャネル信号は符号201で
示され、第2のチャネルは符号202で示されている。両方の信号は、第1のチャネル信
号201と第2のチャネル信号202と予測情報206とを用いて第1の合成信号204
と予測残差信号205を計算するためのエンコーダ計算器203に入力され、予測残差信
号205となる。このとき、第1の合成信号204および予測情報206から得られた予
測信号と組み合わされると、第2の合成信号が得られる。そこにおいて、第1の合成信号
および第2の合成信号は、結合規則を使用して第1のチャネル信号201および第2のチ
ャネル信号202から導出可能である。
【0084】
予測情報は、予測残差信号が最適化ターゲット208を満たすように予測情報206を
計算するためのオプティマイザ207によって生成される。第1の合成信号204および
残余信号205は、第1の合成信号204を符号化するために信号エンコーダ209に入
力され、符号化された第1の合成信号210を取得し、残余信号20を符号化して符号化
された残差信号211を得る。符号化された第1の合成信号210を符号化された予測残
余信号211と予測情報206とを組み合わせてエンコードされたマルチチャネル信号2
13を得るために、符号化された信号210,211の両方が出力インターフェース21
2に入力される。
【0085】
実装に応じて、オプティマイザ207は、第1のチャネル信号201および第2のチャ
ネル信号202のいずれかを受信するか、またはライン214および215によって示さ
れるように、第1の合成信号214および第2の合成信号215は、後述する図11A
結合器2031から得られる。
【0086】
図10には、符号化利得が最大化される、すなわちビットレートが可能な限り低減され
る最適化ターゲットが示されている。この最適化目標では、残差信号Dはαに対して最小
化される。これは、言い換えると、予測情報αは、||S-αM||2が最小になるように選
択されることを意味する。これにより、図10に示すαの解が得られる。信号S、Mは、
ブロック単位で与えられ、スペクトル領域の信号であり、表記||…||の引数の2ノルムを
意味し、<…>はドットプロダクトを通常どおりに示す。第1のチャネル信号201およ
び第2のチャネル信号202がオプティマイザ207に入力されると、オプティマイザは
結合規則を適用する必要があり、例示的な結合規則が図11Cに示されている。しかしな
がら、第1の合成信号214と第2の合成信号215がオプティマイザ207に入力され
た場合、オプティマイザ207はそれ自体で組み合わせルールを実装する必要はない。
【0087】
他の最適化ターゲットは、知覚品質に関連してもよい。最適化目標は、最大知覚品質が
得られることであり得る。次に、オプティマイザは、知覚モデルから追加の情報を必要と
する。最適化ターゲットの他の実装形態は、最小ビットレートまたは固定ビットレートを
得ることに関する。次に、オプティマイザ207は、特定のα値について必要とされるビ
ットレートを決定するために量子化/エントロピー符号化動作を実行するように実施され
る。そのため、αは、最小ビットレートまたは固定ビットレートなどの要件を満たすよう
に設定することができる。最適化ターゲットの他の実装形態は、エンコーダまたはデコー
ダリソースの最小限の使用に関連し得る。そのような最適化ターゲットの実施の場合、あ
る最適化のために必要とされるリソースに関する情報は、オプティマイザ207において
利用可能である。さらに、これらの最適化ターゲットまたは他の最適化ターゲットの組み
合わせを、予測情報206を計算するオプティマイザ207を制御するために適用するこ
とができる。
【0088】
図10のエンコーダ計算器203は異なる方法で実施することができ、例示的な第1の
実施態様が図11Aに示されており、明示的な結合規則が結合器2031において実行さ
れる。マトリックス計算機2039が使用される代替的な例示的な実施が図11Bに示さ
れている。図11Aの結合器2031は、図11Cに例示されている結合規則を実行する
ように実装されてもよく、これは、よく知られている中間側の符号化規則であり、すべて
のブランチに0.5の重み付け係数が適用される。しかし、実装に応じて、他の重み付け
係数または重み付け係数を全く実装することはできない。さらに、他の線形結合規則や非
線形結合規則などの他の結合規則を適用することも可能であり、図12Aに示すデコーダ
結合器1162に適用することができる対応する逆の結合規則が存在する限り、エンコー
ダによって適用される結合規則とは逆の結合規則を適用する。ジョイントステレオ予測の
ために、波形への影響が予測によって「平衡」される、すなわちエラーが送信された残差
信号に含まれるので、任意の可逆予測規則を使用することができる。オプティマイザ20
7によるエンコーダ演算器203との予測演算が波形保存処理であるためである。
【0089】
結合器2031は、第1の合成信号204および第2の合成信号2032を出力する。
第1の合成信号は、予測器2033に入力され、第2の合成信号2032は、残差計算器
2034に入力される。予測器2033は予測信号2035を計算し、これは第2の合成
信号2032と合成されて最終的に残差信号205を得る。具体的には、結合器2031
は、マルチチャネルオーディオ信号の2つのチャネル信号201および202を2つの異
なる方法で結合して第1の合成信号204および第2の合成信号2032を得るように構
成され、2つの異なる方法が図11Cの例示的な実施形態で示されている。予測器203
3は、予測信号2035を得るために、予測情報を第1の合成信号204または第1の合
成信号から得られた信号に適用するように構成される。合成信号から得られる信号は、任
意の非線形または線形演算によって導出することができ、ある値の加重加算を行うFIR
フィルタのような線形フィルタを用いて実現することができる、実数から虚数への変換/
虚数から実数への変換が有利である。
【0090】
図11Aの残差計算器2034は、予測信号2035が第2の合成信号から減算される
ように減算演算を実行することができる。しかし、残りの計算機における他の動作も可能
である。これに対応して、図12Aの合成信号計算器1161は、第2の組合せ信号11
65を得るために、復号された残差信号114と予測信号1163とが加算される加算演
算を実行することができる。
【0091】
デコーダ計算器116は、異なる方法で実装することができる。第1の実施が図12A
に示されている。この実施例は、予測器1160と、合成信号計算器1161と、結合器
1162とを備える。予測器は、復号された第1の合成信号112と予測情報108とを
受け取り、予測信号1163を出力する。具体的には、予測器1160は、復号された第
1の合成信号112または復号された第1の合成信号から導出された信号に予測情報10
8を適用するように構成される。予測情報108が適用される信号を導出するための導出
ルールは、実数から虚数の変換であってもよく、等価的には、虚数-実数変換または重み
付け演算、もしくは同程度に、実装、位相シフト演算、または結合重み付け/位相シフト
演算に依存する。予測信号1163は、復号された第2の合成信号1165を計算するた
めに、復号された残差信号と共に合成信号計算器1161に入力される。信号112およ
び1165は、復号化された第1の合成信号および第2の合成信号を結合して、復号され
た第1のチャネル信号および復号された第2のチャネル信号を出力線1166および11
67上に有する復号化マルチチャネルオーディオ信号を得る結合器1162にそれぞれ入
力される。あるいは、デコーダ計算器は、復号化された第1の合成信号または信号M、復
号された残差信号または信号Dおよび予測情報α108を入力として受け取る行列計算器
1168として実装される。行列演算器1168は、1169として示す変換行列を信号
M、Dに適用して、出力信号L、Rを得る。ここで、Lは復号された第1のチャネル信号
であり、Rは復号された第2のチャネル信号である。図12Bの表記は、左チャネルLお
よび右チャネルRを用いたステレオ表記に似ている。この表記は、理解を容易にするため
に適用されているが、信号L、Rは、3つ以上のチャネル信号を有するマルチチャネル信
号内の2つのチャネル信号の任意の組み合わせであり得ることは、当業者には明らかであ
る。行列演算1169は、図12Aのブロック1160,1161および1162の演算
を一種の「シングルショット」の行列計算に統一し、図12Aの回路への入力および図1
2Aの回路からの出力は、マトリクス演算器1168への入力およびマトリクス演算器1
168からの出力とそれぞれ同一である。
【0092】
図12Cは、図12Aの結合器1162によって適用される逆結合規則の例を示す。特
に、結合規則は、L=M+Sであり、R=M-Sである周知のミッドサイドコーディング
におけるデコーダ側の結合規則に類似している。図12Cの逆の結合規則によって使用さ
れる信号Sは、合成信号計算器によって計算された信号、すなわちライン1163上の予
測信号とライン114上の復号済み残差信号の組み合わせであることが理解されるべきで
ある。本明細書では、ライン上の信号は、ラインの参照番号によって時々命名されること
があり、時にはラインに起因する参照番号自体によって示されることが理解されるべきで
ある。したがって、ある信号を有するラインが信号そのものを示すような表記である。回
線はハードワイヤード実装の物理回線にすることができる。しかし、コンピュータ化され
た実装では、物理的な線は存在しないが、線によって表される信号は、ある計算モジュー
ルから他の計算モジュールに伝送される。
【0093】
図13Aは、オーディオエンコーダの実装を示す。図11Aに示すオーディオエンコー
ダと比較して、第1のチャネル信号201は、時間領域の第1のチャネル信号55aのス
ペクトル表現である。同様に、第2のチャネル信号202は、時間領域チャネル信号55
bのスペクトル表現である。時間領域からスペクトル表現への変換は、第1のチャネル信
号用の時間/周波数変換器50と、第2のチャネル信号用の時間/周波数変換器51によ
って実行される。スペクトル変換器50,51は実数変換器として実現されることが好ま
しいが、必ずしもそうである必要はない。変換アルゴリズムは、離散コサイン変換、実数
部分のみが使用されるFFT変換、MDCT、または実数値のスペクトル値を提供する他
の変換とすることができる。代替的に、両方の変換は、虚数部のみが使用され、実数部が
破棄されるDST、MDST、またはFFTのような虚数変換として実施することができ
る。虚数値のみを提供する他の変換も同様に使用することができる。純粋な実数値変換ま
たは純粋な虚数変換を使用する1つの目的は計算上の複雑さであり、なぜなら、各スペク
トル値に対して、大きさまたは実数部などの単一の値のみが処理されなければならないか
、あるいは、位相または虚数部が処理されなければならないからである。FFTなどの完
全に複雑な変換とは対照的に、2つの値は、すなわち、各スペクトル線の実数部および虚
数部を処理しなければならず、これは少なくとも2つの因数による計算上の複雑さの増加
である。ここで実数値変換を使用する別の理由は、このような変換シーケンスは、通常、
相互変換オーバーラップの存在下でもクリティカルにサンプリングされることであり、し
たがって、信号量子化およびエントロピー符号化(「MP3」、AAC、または同様のオ
ーディオ符号化システムで実施される標準的な「知覚的オーディオ符号化」パラダイム)
に適切な(および一般的に使用される)領域を提供する。
【0094】
図13Aは、「プラス」入力でサイド信号を受信し、「マイナス」入力でプレディクタ
2033によって出力された予測信号を受信する加算器としての残差計算器2034をさ
らに示している。さらに、図13Aは、予測子制御情報がオプティマイザから符号化され
たマルチチャネルオーディオ信号を表す多重化されたビットストリームを出力するマルチ
プレクサ212に伝送される状況を示す。特に、予測動作は、図13Aの右側の式によっ
て示されるように、中間信号からサイド信号が予測されるように実行される。
【0095】
予測子制御情報206は、図11Bの右側に示すような因子である。予測制御情報が、
複素数値αの実数部または複素数値αの大きさなどの実数部のみを含む実施形態では、こ
の部分がゼロ以外の因子に相当する場合には、中間信号とサイド信号との波形構造が類似
しているが、振幅が異なる場合に顕著な符号化利得が得られる。
【0096】
しかし、予測制御情報が、複素数ファクタの虚数部または複素数ファクタの位相情報と
なり得る第2の部分のみを含む場合、虚数部または位相情報がゼロとは異なる場合、本発
明は、0度または180度とは異なる値だけ互いに位相シフトされた信号に対して有意な
符号化利得を達成し、位相シフトを除いて、同様の波形特性および類似の振幅関係を有す
る。
【0097】
予測制御情報は複素値である。そして、振幅が異なり、位相シフトされた信号に対して
、有意な符号化利得を得ることができる。時間/周波数変換が複雑なスペクトルを提供す
る状況では、オペレーション2034が、予測子制御情報の実数部が複素スペクトルMの
実数部に適用され、複素数予測情報の虚数部が複素数スペクトルの虚数部に適用される複
素演算である。次に、加算器2034において、この予測演算の結果は、予測実スペクト
ルと予測虚スペクトルであり、予測された実数スペクトルは、副信号Sの実数スペクトル
(バンド単位)から差し引かれ、予測された虚スペクトルは、Sのスペクトルの虚部から
減算され、複素残差スペクトルDを得る。
【0098】
時間領域信号LおよびRは実数値信号であるが、周波数領域信号は実数または複素数値
とすることができる。周波数領域信号が実数値である場合、変換は実数値変換である。周
波数領域信号が複素数である場合、変換は複素数変換である。これは、時間-周波数変換
への入力と周波数-時間変換の出力が実数値であることを意味し、周波数領域信号は、例
えば、複素数値のQMFドメイン信号になる。
【0099】
図13Bは、図13Aに示したオーディオエンコーダに対応するオーディオデコーダを
示す。
【0100】
図13Aのビットストリームマルチプレクサ212によるビットストリーム出力は、図
13Bのビットストリームデマルチプレクサ102に入力される。ビットストリームデマ
ルチプレクサ102は、ビットストリームをダウンミックス信号Mと残差信号Dとに分離
する。ダウンミックス信号Mは、逆量子化器110aに入力される。残差信号Dは、逆量
子化器110bに入力される。さらに、ビットストリーム逆多重化器102は、ビットス
トリームからの予測子制御情報108を逆多重化して、予測器1160に入力する。予測
器1160は予測サイド信号α・Mを出力し、結合器1161は逆量子化器110bが出
力した残差信号を予測サイド信号と合成して最終的に再構成されたサイド信号Sを得る。
次いで、サイド信号は、ミッド/サイドエンコーディングに関して図12Cに示すように
、例えば和差分処理を行うコンバイナ1162に入力される。具体的には、ブロック11
62は、左チャネルの周波数領域表現および右チャネルの周波数領域表現を得るために、
(逆の)ミッド/サイド復号を実行する。次に、周波数領域表現は、対応する周波数/時
間変換器52および53によって時間領域表現に変換される。
【0101】
システムの実装に応じて、周波数領域表現が実数値表現である場合、周波数/時間変換
器52,53は実数値周波数/時間変換器であり、周波数領域表現が複素値表現である場
合には、複素数値の周波数/時間変換器である。
【0102】
しかしながら、効率を高めるために、実数値変換を実行することは、エンコーダについ
ては図14Aに、デコーダについては図14Bに示す別の実施例に示すように有利である
。実数値変換50および51は、MDCT、すなわちMDCT-IV、あるいは本発明に
よれば、MDCT-IIまたはMDST-IIまたはMDST-IVによって実現される
。また、予測情報は、実部と虚部とを有する複素値として算出される。両方のスペクトル
M、Sは実数値スペクトルであるので、したがって、スペクトルの虚数部は存在せず、実
数/虚数変換器2070が提供され、信号Mの実数スペクトルから推定虚数スペクトル6
00を計算する。この実数-虚数変換器2070は、オプティマイザ207の一部であり
、ブロック2070で推定された虚数スペクトル600は実数スペクトルMと共にαオプ
ティマイザステージ2071に入力され、ここでは2073で示される実数値ファクタお
よび2074で示される虚数ファクタを有する予測情報206を計算する。ここで、この
実施形態によれば、第1の合成信号Mの実数値スペクトルは、実数部のサイドスペクトル
から差し引かれる予測信号を得るために、実数部αR2073と乗算される。さらに、虚
数スペクトル600は、2074で示された虚数部αIと乗算されてさらなる予測信号が
得られ、この予測信号は次に2034bに示すように実数値のサイドスペクトルから減算
される。次に、予測残差信号Dが量子化器209bにおいて量子化され、Mの実数値スペ
クトルがブロック209aにおいて量子化/符号化される。さらに、図13Aのビットス
トリームマルチプレクサ212に伝送される符号化された複素数α値を得るために、量子
化器/エントロピーエンコーダ2072において予測情報αを量子化して符号化すること
が有利であり、例えば、最終的に予測情報としてビットストリームに入力される。
【0103】
αに対する量子化/符号化(Q/C)モジュール2072の位置に関して、乗算器20
73および2074は、デコーダにおいても同様に使用される(量子化された)αを正確
に使用することに留意されたい。したがって、22072を直接2071の出力に移行さ
せることができ、あるいは、αの量子化が2071の最適化プロセスにおいてすでに考慮
されていると考えることができる。
【0104】
エンコーダ側では複雑なスペクトルを計算することができるが、全ての情報が利用可能
であるため、図14Bに示されたデコーダに関する同様の条件が生成されるように、エン
コーダのブロック2070で実数から複素への変換を実行することが有利である。デコー
ダは、第1の合成信号の実数値符号化スペクトルと、符号化残差信号の実数値スペクトル
表現とを受け取る。さらに、108で符号化された複素予測情報が得られ、ブロック65
においてエントロピー復号化および逆量子化が行われ、1160bに示される実数部αR
および1160cに示される虚数部αIが得られる。重み付け要素1160bおよび11
60cによって出力された中間信号は、復号化および逆量子化された予測残差信号に加算
される。具体的には、複素予測係数の虚数部を重み付け係数とする重み付け器1160c
に入力されたスペクトル値は、実数/虚数変換器1160aによって実数値スペクトルM
から導出され、これはエンコーダ側に関する図20のブロック2070と同じ方法で実施
される。デコーダ側では、中間信号またはサイド信号の複素値表現は利用できない。エン
コーダ側とは対照的である。その理由は、符号化された実数値のスペクトルのみが、ビッ
トレートおよび複雑さの理由によりエンコーダからデコーダに送信されたためである。
【0105】
実数から虚数の変圧器1160aまたは図14Aの対応するブロック2070は、国際
公開第2004/013839号パンフレットまたは国際公開第2008/014853
号パンフレットまたは米国特許第6,980,933号に公開されているように実施する
ことができる。あるいは、当技術分野で知られている任意の他の実装を適用することがで
きる。
【0106】
実施形態は、提案された適応型変換カーネルスイッチングがHE-AACのようなオー
ディオコーデックにおいてどのようにして有利に使用され、「課題ステートメント」の項
で述べた2つの課題を最小限に抑え、あるいは回避するかをさらに示している。以下では
、約90度のチャネル間位相シフトを有するステレオ信号に対処する。ここでは、MDS
T-IVベースの符号化への切り替えは、2つのチャネルのうちの一方において使用され
得るが、旧式のMDCT-IV符号化は、他方のチャネルにおいて使用され得る。あるい
は、MDCT-IIコーディングは、あるチャンネルで使用し、MDST-IIコーディ
ングを他のチャンネルで使用することができる。余弦関数と正弦関数が互いに90度の位
相シフトされた変形(cos(x)=sin(x+π/2))であると仮定すると、入力
チャネルスペクトル間の対応する位相シフトは、このようにして、従来のM/Sベースの
ジョイントステレオ符号化を介して非常に効率的に符号化することができる0度または1
80度の位相シフトに変換することができる。従来のMDCTで準最適にコード化された
高調波信号の場合と同様に、中間遷移変換が影響を受けるチャネルで有利である可能性が
ある。
【0107】
どちらの場合も、約90度のチャネル間位相シフトを伴う高調波信号およびステレオ信
号の場合、エンコーダは、各変換に対して4つのカーネルのうちの1つを選択する(図7
も参照)。本発明の変換カーネルスイッチングを適用するそれぞれのデコーダは、同じカ
ーネルを使用して、信号を適切に再構成することができる。このようなデコーダが、所与
のフレーム内の1つまたは複数の逆変換でどの変換カーネルを使用するかを知るためには
、変換カーネルの選択を説明するサイド情報、あるいは、左右の対称性は、フレームごと
に少なくとも1回、対応するエンコーダによって伝送されるべきである。次のセクション
では、MPEG-H 3Dオーディオコーデックへの統合(すなわち、修正)を説明する
【0108】
さらなる実施形態は、オーディオ符号化に関し、特に、修正離散コサイン変換(MDC
T)のようなラップ変換を用いた低レート知覚オーディオ符号化に関する。実施形態は、
3つの他の同様の変換を含むようにMDCT符号化原理を一般化することにより、従来の
変換符号化に関する2つの特定の課題に関する。実施形態はさらに、各符号化されたチャ
ネルまたはフレームにおけるこれらの4つの変換カーネル間の、または各符号化されたチ
ャネルまたはフレームにおける各変換のための信号適応およびコンテキスト適応型スイッ
チングを示す。カーネル選択を対応するデコーダにシグナリングするために、それぞれの
サイド情報が符号化されたビットストリームで送信されてもよい。
【0109】
図15は、符号化オーディオ信号を復号する方法1500の概略ブロック図を示す。
方法1500は、スペクトル値の連続するブロックを時間値の重なり合う連続ブロックに
変換するステップ1505と、復号されたオーディオ値を得るために時間値の連続するブ
ロックを重ね合わせて加算するステップ1510と、制御情報を受信し且つ制御情報に応
じて、カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む変換カーネ
ルの第1のグループと、カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを
含む変換カーネルの第2のグループとの間で、切り替えるステップ1515と、を含む。
【0110】
図16は、オーディオ信号を符号化する方法1600の概略ブロック図を示す。方法1
600は、時間値のオーバーラップするブロックをスペクトル値の連続するブロックに変
換するステップ1605と、第1のグループの変換カーネルの変換カーネルと第2のグル
ープの変換カーネルの変換カーネルとを切り替えるために、時間-スペクトル変換を制御
するステップ1610と、制御情報を受信して且つ制御情報に応じて、カーネルの両側に
異なる対称性を有する1つ以上の変換カーネルを含む変換カーネルの第1のグループと、
変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む変換カーネルの
第2のグループとの間で、切り替えるステップ1615と、を含む。
【0111】
本明細書では、ライン上の信号は、ラインの参照番号によって時々命名されることがあ
り、時にはラインに起因する参照番号自体によって示されることが理解されるべきである
。したがって、ある信号を有するラインが信号そのものを示すような表記である。回線は
ハードワイヤードの実装の物理回線にすることができる。しかし、コンピュータ化された
実装では、物理的なラインは存在しないが、ラインによって表される信号は、ある計算モ
ジュールから他の計算モジュールに伝送される。
【0112】
本発明は、ブロックが実際のまたは論理的なハードウェア構成要素を表すブロック図の
文脈で説明されているが、本発明は、また、コンピュータ実装方法によって実施すること
もできる。後者の場合、ブロックは対応する方法ステップを表し、これらのステップは対
応する論理ハードウェアブロックまたは物理ハードウェアブロックによって実行される機
能を表す。
【0113】
いくつかの態様が装置の文脈で説明されているが、これらの態様は、ブロックまたはデ
バイスは、方法ステップまたは方法ステップの特徴に対応する場合には、対応する方法の
説明も表していることは明らかである。同様に、方法ステップの文脈において説明される
態様は、対応するブロックまたは対応する装置のアイテムまたは特徴の記述も表す。方法
ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュ
ータまたは電子回路のようなハードウェア装置によって実行されてもよい(または使用さ
れてもよい)。いくつかの実施形態では、最も重要な方法ステップのうちのいくつか1つ
または複数を、そのような装置によって実行することができる。
【0114】
本発明の送信または符号化された信号は、デジタル記憶媒体に格納することができ、ま
たは無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送する
ことができる。
【0115】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実
施することができる。実装は、電子的に読み取り可能な制御信号が格納されたフロッピー
ディスク、DVD、ブルーレイ、CD、ROM、PROM、およびEPROM、EEPR
OMまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、そ
の上に、それらは、それぞれの方法が実行されるように、プログラム可能なコンピュータ
システムと協働する(または協働することができる)。従って、デジタル記憶媒体はコン
ピュータ可読であってもよい。
【0116】
本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働す
ることができる電気的に読み取り可能な制御信号を有するデータキャリアを備え、本明細
書に記載の方法の1つが実行される。
【0117】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作す
るときに、方法の1つを実行するように動作するプログラムコードを有するコンピュータ
プログラム製品として実施することができる。 プログラムコードは、例えば、機械読み
取り可能なキャリアに格納することができる。
【0118】
他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラ
ムを含み、機械読み取り可能なキャリアに格納される。
【0119】
換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で
実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有
するコンピュータプログラムである。
【0120】
したがって、本発明の方法のさらなる実施形態は、データキャリア(またはデジタル記
憶媒体のような非一時的な記憶媒体またはコンピュータ可読媒体)を含み、本明細書に記
載の方法の1つを実行するためのコンピュータプログラムを記録している。データ担体、
デジタル記憶媒体または記録媒体は、典型的には有形および/または非一時的である。
【0121】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行
するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。デ
ータストリームまたは信号のシーケンスは、例えば、データ通信接続を介して伝送される
ように構成することができ、例えばインターネットを介して伝送される。
【0122】
さらなる実施形態は、本明細書で説明される方法のうちの1つを実行するように構成さ
れた、または適応される処理手段、例えばコンピュータまたはプログラマブル論理装置を
含む。
【0123】
さらなる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータ
プログラムがインストールされたコンピュータを含む。
【0124】
本発明によるさらなる実施形態は、本明細書で説明される方法の1つを実行するための
コンピュータプログラムを受信機に伝送するように構成された装置またはシステムを含む
(例えば、電子的にまたは光学的に)。受信機は、例えば、コンピュータ、モバイルデバ
イス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピ
ュータプログラムを受信機に伝送するためのファイルサーバを備えることができる。
【0125】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプロ
グラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部または全部を
実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレ
イは、本明細書で説明する方法の1つを実行するためにマイクロプロセッサと協働するこ
とができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実
行される。
【0126】
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成およ
び詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差
し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の説明および説明に
よって示される特定の詳細によっては限定されないことが意図される。
【0127】
参考文献
[1] H. S. Malvar, Signal Processing with Lapped Transforms, Norwood: Artech Hous
e, 1992.
[2] J. P. Princen and A. B. Bradley, "Analysis/Synthesis Filter Bank Design Base
d on Time
Domain Aliasing Cancellation," IEEE Trans. Acoustics, Speech, and Signal Proc.,
1986.
[3] J. P. Princen, A. W. Johnson, and A. B. Bradley, "Subband/transform coding u
sing filter
bank design based on time domain aliasing cancellation," in IEEE ICASSP, vol. 12
, 1987.
[4] H. S. Malvar, "Lapped Transforms for Efficient Transform/Subband Coding," IE
EE Trans. Acoustics, Speech, and Signal Proc., 1990.
[5] http://en.wikipedia.org/wiki/Modified_discrete_cosine_transform
図1
図2
図3
図4A
図4B
図5A
図5B
図6
図7
図8
図9
図10
図11A
図11B
図11C
図12A
図12B
図12C
図13A
図13B
図14A
図14B
図15
図16
【手続補正書】
【提出日】2022-09-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号(4)を復号するためのデコーダ(2)であって、
前記デコーダは、
連続するスペクトル値のブロック(4'、4'')を連続する時間値のブロック(10)に変換する適応型スペクトル-時間変換器(6)と、
前記連続する時間値のブロック(10)を重畳加算して復号化されたオーディオ値(14)を得るための重畳加算プロセッサ(8)と
を含み、
前記適応型スペクトル-時間変換器(6)は制御情報(12)を受信し、前記制御情報(12)に応答して、変換カーネルの第1のグループの変換カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第1のグループの変換カーネルと、変換カーネルの第2のグループの変換カーネルの両側に等しい対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第2のグループとの間で切り替えるように構成され、
前記第1のグループおよび前記第2のグループの1つ以上の前記変換カーネルは、式
に基づき、
ここで前記第1のグループの前記1つ以上の変換カーネルは、パラメータ
cs()=cos()およびk 0 =0.5、または
cs()=sin()およびk 0 =0.5
に基づいている、または
前記第2のグループの前記1つ以上の変換カーネルは、パラメータ
cs()=cos()およびk 0 =0、または
cs()=sin()およびk 0 =1
に基づき、
ここで、x i,n は時間領域出力であり、Cは定数パラメータであり、Nは時間窓長であり、specは1つのブロックに対してM個の値を有するスペクトル値であり、MはN/2に等しく、iは時間ブロックインデックスであり、kはスペクトル値を示すスペクトルインデックスであり、nはブロックiにおける時間値を示す時間インデックスであり、n 0 は整数またはゼロである定数パラメータである、
デコーダ。
【請求項2】
前記変換カーネルの第1のグループは、前記カーネルの左側が奇対称で右側が偶対称の、またはその逆の1つ以上の変換カーネルを有する、あるいは前記変換カーネルの第2のグループは、前記カーネルの両側で偶対称であるまたは前記カーネルの両側で奇対称である1つ以上の変換カーネルを有する、請求項1に記載のデコーダ(2)。
【請求項3】
前記変換カーネルの第1のグループは、逆MDCT-IV変換カーネルまたは逆MDST-IV変換カーネルを含む、あるいは前記変換カーネルの第2のグループは、逆MDCT-II変換カーネルまたは逆MDST-II変換カーネルを含む、請求項1に記載のデコーダ(2)。
【請求項4】
前記制御情報(12)は、現在のフレームについての現在の対称性を示す現在のビットを含み、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前のフレームで使用されたのと同じ対称性を示す場合には、前記第1のグループから前記第2のグループに切り替わらないように構成され、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前記前のフレームで使用されたものとは異なる対称性を示す場合には、前記第1のグループから前記第2のグループに切り替えるように構成される、
請求項1に記載のデコーダ(2)。
【請求項5】
前記適応型スペクトル-時間変換器(6)は、現在のフレームの現在の対称性を示す現在のビットが前記前のフレームで使用されたものと同じ対称性を示す場合は、前記第2のグループを前記第1のグループに信号適応的に切り替えるように構成され、
前記適応型スペクトル-時間変換器(6)は、前記現在のビットが前記前のフレームで使用されていたものとは異なる対称性を有する前記現在のフレームの現在の対称性を示す場合は、前記第2のグループから前記第1のグループに切り替わらないように構成される、
請求項1に記載のデコーダ(2)。
【請求項6】
前記適応型スペクトル-時間変換器(6)は、前のフレームについての制御情報(12)を前記符号化されたオーディオ信号(4)から、および前記前のフレームに続く現在のフレームについての前記制御情報(12)を前記現在のフレームのための制御データセクション内の前記符号化されたオーディオ信号(4)から読み出すように構成される、あるいは
前記適応型スペクトル-時間変換器(6)は、前記現在のフレームのための前記制御データセクションから前記制御情報(12)を読み出し、前記前のフレームのための制御データセクションから、または前記前のフレームに適用されたデコーダ設定から、前記前のフレームについての前記制御情報(12)を取り出すように構成される、
請求項1に記載のデコーダ(2)。
【請求項7】
前記適応型スペクトル-時間変換器(6)は、以下の表に基づいて前記変換カーネルを適用するように構成され、
ここでsymm i は、インデックスiにおける前記現在のフレームの制御情報(12)であり、前記symm i-1 は、インデックスi-1における前記前のフレームの制御情報(12)である、請求項1に記載のデコーダ(2)。
【請求項8】
第1のマルチチャネルおよび第2のマルチチャネルを表すスペクトル値のブロックを受信し、受信した前記ブロックをジョイントマルチチャネル処理技術に従って処理して前記第1のマルチチャネルおよび前記第2のマルチチャネルについての処理済みのスペクトル値のブロックを得るためのマルチチャネルプロセッサ(40)をさらに含み、前記適応型スペクトル-時間変換器(6)は、前記第1のマルチチャネルのための制御情報(12)を使用して前記第1のマルチチャネルのための前記処理済みブロックを、および前記第2のマルチチャネルのための制御情報(12)を使用して前記第2のマルチチャネルのための前記処理済みブロックを処理するように構成される、請求項1に記載のデコーダ(2)。
【請求項9】
前記マルチチャネルプロセッサ(40)は、前記第1および前記第2のマルチチャネルを表す前記スペクトル値のブロックに関連する複素予測制御情報を使用する複素予測を適用するように構成される、請求項8に記載のデコーダ(2)。
【請求項10】
前記マルチチャネルプロセッサ(40)は、前記ジョイントマルチチャネル処理技術に従って前記受信したブロックを処理するように構成され、前記受信されたブロックは、前記第1のマルチチャネルの表現の符号化された残差信号と前記第2のマルチチャネルの表現とを含み、前記マルチチャネルプロセッサ(40)は、前記符号化された残差信号およびさらなる符号化された信号を使用して、前記第1のマルチチャネルのための前記処理済みのスペクトル値のブロックと前記第2のマルチチャネルのための前記処理済みのスペクトル値のブロックを計算するように構成される、請求項8に記載のデコーダ(2)。
【請求項11】
前記変換カーネルの第1のグループは逆MDCT-IV変換カーネルまたは逆MDST-IV変換カーネルを含む、あるいは前記変換カーネルの第2のグループは、逆MDCT-II変換カーネルまたは逆MDST-II変換カーネルを含み、
MDCT-IVは左側に奇対称性を示し、右側に偶対称性を示し、且つ、この変換の信号畳み込みの間、合成信号が左側で反転され、
MDST-IVは左側に偶対称性を示し、右側に奇対称性を示し、且つ、この変換の信号畳み込みの間、合成信号が右側で反転され、
MDCT-IIは左側に偶対称性を示し、右側に偶対称性を示し、且つ、この変換の信号畳み込みの間、合成信号はいずれの側でも反転されず、
MDST-IIは左側に奇対称性を示し、右側に奇対称性を示し、且つ、この変換の信号畳み込みの間、合成信号が両側で反転される、
請求項1に記載のデコーダ(2)。
【請求項12】
オーディオ信号(24)を符号化するためのエンコーダ(22)であって、
前記エンコーダは、
時間値の重複ブロック(30)をスペクトル値の連続するブロック(4'、4'')に変換するための適応型時間-スペクトル変換器(26)と、
前記適応型時間-スペクトル変換器を(26)を、変換カーネルの第1のグループの変換カーネルと、変換カーネルの第2のグループの変換カーネルとで切り替えるように制御するコントローラ(28)と
を含み、
前記適応型時間-スペクトル変換器(26)は、制御情報(12)を受信して、前記制御情報(12)に応答して、変換カーネルの第1のグループの変換カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第1のグループの前記変換カーネルと、変換カーネルの第2のグループの変換カーネルの両側に同じ対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第2のグループの前記変換カーネルとの間で切り替えるように構成され、
前記変換カーネルの第1のグループはMDCT-IV変換カーネルまたはMDST-IV変換カーネルを含む、または前記変換カーネルの第2のグループはMDCT-II変換カーネルまたはMDST-II変換カーネルを含み、
前記MDCT-IV変換カーネルは、式
に基づき、
前記MDST-IV変換カーネルは、式
に基づき、
前記MDCT-II変換カーネルは、式
に基づき、
前記MDST-II変換カーネルは、式
に基づき、
ここで、Nは時間窓長であり、kはスペクトル値を示す時間インデックスであり、nは時間値を示す時間インデックスであり、n 0 は整数またはゼロである定数パラメータである、
エンコーダ。
【請求項13】
現在のフレームについて、前記現在のフレームを生成するために使用される前記変換カーネルの対称性を示す制御情報(12)を有する符号化されたオーディオ信号(4)を生成するための出力インタフェース(32)をさらに含む、請求項12に記載のエンコーダ(22)。
【請求項14】
前記出力インタフェース(32)は、前記現在のフレームが独立したフレームである場合、前記現在のフレームの制御データセクションに、前記現在のフレームのおよび前のフレームについての対称情報を含むように構成される、あるいは
前記現在のフレームが従属フレームである場合、前記現在のフレームの前記制御データセクションに、前記現在のフレームについての対称情報のみを含み、前記前のフレームについての対称情報は含まないように構成される、
請求項12に記載のエンコーダ(22)。
【請求項15】
前記変換カーネルの第1のグループは、左側が奇対称で、且つ、右側が偶対称性、あるいはその逆の、1つ以上の変換カーネルを有する、あるいは前記変換カーネルの第2のグループは、両側が偶対称の、または両側が奇対称の1つ以上の変換カーネルを有する、請求項12に記載のエンコーダ(22)。
【請求項16】
前記コントローラ(28)は、MDCT-IV変換カーネルの後にMDCT-IV変換カーネルまたはMDST-II変換カーネルが続く、あるいはMDST-IV変換カーネルの後にMDST-IV変換カーネルまたはMDCT-II変換カーネルが続く、あるいはMDCT-II変換カーネルの後にMDCT-IV変換カーネルまたはMDST-II変換カーネルが続く、あるいは前記MDST-II変換カーネルの後にMDST-IV変換カーネルまたはMDCT-II変換カーネルが続くように構成される、請求項12に記載のエンコーダ(22)
【請求項17】
前記コントローラ(28)は、第1のチャネルおよび第2のチャネルを有する重複する前記時間値のブロック(30)を分析して、前記第1のチャネルのフレームおよび前記第2のチャネルの対応するフレームのための変換カーネルを決定するように構成される、請求項12に記載のエンコーダ(22)。
【請求項18】
前記適応型時間-スペクトル変換器(26)は、マルチチャネル信号の第1のチャネルおよび第2のチャネルを処理するように構成され、前記エンコーダ(22)は、ジョイントマルチチャネル処理技術を用いて、前記第1のチャネルおよび前記第2のチャネルの連続する前記スペクトル値のブロックを処理して処理済みのスペクトル値のブロックを得るためのマルチチャネルプロセッサ(40)と、前記処理済みのスペクトル値のブロックを処理して符号化されたチャネルを得るための符号化プロセッサ(46)とをさらに含む、請求項12に記載のエンコーダ(22)。
【請求項19】
第1の処理済みのスペクトル値のブロックは、前記ジョイントマルチチャネル処理技術の第1の符号化された表現を表し、第2の処理済みのスペクトル値のブロックは、前記ジョイントマルチチャネル処理技術の第2の符号化された表現を表し、前記符号化プロセッサ(46)は、量子化およびエントロピー符号化を使用して前記第1の処理済みブロックを処理して第1の符号化された表現を形成するように構成され、前記符号化プロセッサ(46)は量子化およびエントロピー符号化を使用して前記第2の処理済みブロックを処理して第2の符号化された表現を形成するように構成され、符号化プロセッサ(46)は、前記第1の符号化された表現および前記第2の符号化された表現を使用して、符号化されたオーディオ信号(IV)のビットストリームを形成するように構成される、請求項12に記載のエンコーダ(22)。
【請求項20】
符号化されたオーディオ信号(4)を復号する方法(1500)であって、
連続するスペクトル値のブロックを連続する時間値のブロック(10)にスペクトル-時間変換するステップと、
連続する時間値のブロック(10)を重畳加算して、復号されたオーディオ値(14)を得るステップと、
制御情報(12)を受信し、前記制御情報(12)に応答して且つ前記スペクトル-時間変換するステップにおいて、変換カーネルの第1のグループの変換カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第1のグループの前記変換カーネルと、変換カーネルの第2のグループの変換カーネルの両側に等しい対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第2のグループの前記変換カーネルとの間で切り替えるステップ
を含み、
前記第1のグループおよび前記第2のグループの前記1つ以上の変換カーネルは、式
に基づき、
ここで前記第1のグループの前記1つ以上の変換カーネルは、パラメータ
cs()=cos()およびk 0 =0.5、または
cs()=sin()およびk 0 =0.5
に基づいている、または
前記第2のグループの前記1つ以上の変換カーネルは、パラメータ
cs()=cos()およびk 0 =0、または
cs()=sin()およびk 0 =1
に基づき、
ここで、x i,n は時間領域出力であり、Cは定数パラメータであり、Nは時間窓長であり、specは1つのブロックに対してM個の値を有するスペクトル値であり、MはN/2に等しく、iは時間ブロックインデックスであり、kはスペクトル値を示すスペクトルインデックスであり、nはブロックiにおける時間値を示す時間インデックスであり、n 0 は整数またはゼロである定数パラメータである、
方法。
【請求項21】
オーディオ信号(24)を符号化する方法(1600)であって、
重畳する時間値のブロック(30)を連続するスペクトル値のブロックに時間-スペクトル変換するステップと、
前記時間-スペクトル変換するステップを制御して、変換カーネルの第1のグループの変換カーネルと変換カーネルの第2のグループの変換カーネルとで切り替えるステップと、
制御情報(12)を受信し、前記制御情報に応答して、且つ前記時間-スペクトル変換するステップにおいて、変換カーネルの第1のグループの変換カーネルの両側に異なる対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第1のグループの前記変換カーネルと、変換カーネルの第2のグループの変換カーネルの両側に等しい対称性を有する1つ以上の変換カーネルを含む前記変換カーネルの第2のグループの前記変換カーネルとの間で切り替えるステップと
を含み、
前記変換カーネルの第1のグループはMDCT-IV変換カーネルまたはMDST-IV変換カーネルを含む、または前記変換カーネルの第2のグループはMDCT-II変換カーネルまたはMDST-II変換カーネルを含み、
前記MDCT-IV変換カーネルは、式
に基づき、
前記MDST-IV変換カーネルは、式
に基づき、
前記MDCT-II変換カーネルは、式
に基づき、
前記MDST-II変換カーネルは、式
に基づき、
ここで、Nは時間窓長であり、kはスペクトル値を示す時間インデックスであり、nは時間値を示す時間インデックスであり、n 0 は整数またはゼロである定数パラメータである、
方法。
【請求項22】
コンピュータまたはプロセッサ上で動作する時に、請求項20または請求項21に記載の方法を実行するためのコンピュータプログラム。
【外国語明細書】