IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特許7280306改良されたミッド/サイド決定を持つ包括的なILDを持つMDCT M/Sステレオのための装置および方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-15
(45)【発行日】2023-05-23
(54)【発明の名称】改良されたミッド/サイド決定を持つ包括的なILDを持つMDCT M/Sステレオのための装置および方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20230516BHJP
   G10L 19/035 20130101ALI20230516BHJP
   G10L 19/02 20130101ALI20230516BHJP
【FI】
G10L19/008 100
G10L19/035 A
G10L19/02 150
【請求項の数】 40
【外国語出願】
(21)【出願番号】P 2021052602
(22)【出願日】2021-03-26
(62)【分割の表示】P 2018538111の分割
【原出願日】2017-01-20
(65)【公開番号】P2021119383
(43)【公開日】2021-08-12
【審査請求日】2021-04-26
(31)【優先権主張番号】16152457.4
(32)【優先日】2016-01-22
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】16152454.1
(32)【優先日】2016-01-22
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】16199895.0
(32)【優先日】2016-11-21
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(72)【発明者】
【氏名】ラベリ エマニュエル
(72)【発明者】
【氏名】シュネル マルクス
(72)【発明者】
【氏名】ドーラ シュテファン
(72)【発明者】
【氏名】イエーガース ヴォルフガング
(72)【発明者】
【氏名】ディーツ マルティーン
(72)【発明者】
【氏名】ヘルムリッヒ クリスティアン
(72)【発明者】
【氏名】マルコビック ゴラン
(72)【発明者】
【氏名】フォトプゥルゥ エレニ
(72)【発明者】
【氏名】マルトラス マルクス
(72)【発明者】
【氏名】バイエル シュテファン
(72)【発明者】
【氏名】フックス ギヨーム
(72)【発明者】
【氏名】ヘッレ ユルゲン
【審査官】山下 剛史
(56)【参考文献】
【文献】特表2012-521012(JP,A)
【文献】特表2013-524281(JP,A)
【文献】特表2015-535620(JP,A)
【文献】特開平8-95599(JP,A)
【文献】特表2014-510306(JP,A)
【文献】特表2010-530079(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号を得るために、2つ以上のチャンネルを含むオーディオ入力信号の第1チャンネルおよび第2チャンネルを符号化するための装置であって、第1のオーディオ信号は前記オーディオ入力信号に依存し、前記装置は、
処理されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域が、前記第1のオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第1チャンネルの最低1つのスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記第1のオーディオ信号の前記第2チャンネルのスペクトル帯域に依存するミッド信号のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第2チャンネルの最低1つのスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記第1のオーディオ信号の前記第2チャンネルのスペクトル帯域に依存するサイド信号のスペクトル帯域であるように、前記第1チャンネルおよび前記第2チャンネルを持つ前記処理されたオーディオ信号を生成するように構成されている符号化ユニット(120)であって、前記符号化ユニット(120)は、前記処理されたオーディオ信号を符号化して前記符号化されたオーディオ信号を得るように構成される、符号化ユニット(120)を含むこと、
を特徴とする装置。
【請求項2】
前記符号化ユニット(120)は、前記第1のオーディオ信号の第1チャンネルの複数のスペクトル帯域に依存すると共に、前記第1のオーディオ信号の第2チャンネルの複数のスペクトル帯域に依存して、完全ミッド-サイド符号化モードと完全デュアル-モノ符号化モードおよび帯域に関する符号化モードおよびの中から選ぶように構成され、
前記完全ミッド-サイド符号化モードが選ばれた場合、前記符号化ユニット(120)は、前記第1のオーディオ信号の前記第1チャンネルおよび前記第2チャンネルからミッド信号をミッド-サイド信号の第1チャンネルとして生成し、そして、前記第1のオーディオ信号の前記第1チャンネルおよび前記第2チャンネルからサイド信号を前記ミッド-サイド信号の第2チャンネルとして生成し、そして、前記ミッド-サイド信号を符号化して符号化されたオーディオ信号を得るように構成され、
前記完全デュアル-モノ符号化モードが選ばれた場合、前記符号化ユニット(120)は、前記第1のオーディオ信号を符号化して前記符号化されたオーディオ信号を得るように構成され、
前記帯域に関する符号化モードが選ばれた場合、前記符号化ユニット(120)は、前記処理されたオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域が、前記第1のオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第1チャンネルの最低1つのスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記第1のオーディオ信号の前記第2チャンネルのスペクトル帯域に依存するミッド信号のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第2チャンネルの最低1つのスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記第1のオーディオ信号の前記第2チャンネルのスペクトル帯域に依存するサイド信号のスペクトル帯域であるように、前記処理されたオーディオ信号を生成するように構成され、前記符号化ユニット(120)は、前記処理されたオーディオ信号を符号化して前記符号化されたオーディオ信号を得るように構成されること、
を特徴とする請求項1に記載の装置。
【請求項3】
前記符号化ユニット(120)は、前記帯域に関する符号化モードが選ばれた場合、前記処理されたオーディオ信号の複数のスペクトル帯域の個々のスペクトル帯域について、ミッド-サイド符号化を採用するか、デュアル-モノ符号化を採用するかを決定するように構成され、
前記スペクトル帯域について前記ミッド-サイド符号化が採用された場合、前記符号化ユニット(120)は、前記第1のオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記第1のオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記処理されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域をミッド信号のスペクトル帯域として生成するように構成され、また、前記符号化ユニット(120)は、前記第1のオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記第1のオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記処理されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域をサイド信号のスペクトル帯域として生成するように構成され、
前記スペクトル帯域について前記デュアル-モノ符号化が採用された場合、前記符号化ユニット(120)は、前記第1のオーディオ信号の前記第1チャンネルの前記スペクトル帯域を前記処理されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域として使用するように構成されると共に、前記第1のオーディオ信号の前記第2チャンネルの前記スペクトル帯域を前記処理されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域として使用するように構成される、あるいは、前記符号化ユニット(120)は、前記第1のオーディオ信号の前記第2チャンネルの前記スペクトル帯域を前記処理されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域として使用するように構成されると共に、前記第1のオーディオ信号の前記第1チャンネルの前記スペクトル帯域を前記処理されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域として使用するように構成されていること、
を特徴とする請求項2に記載の装置。
【請求項4】
前記符号化ユニット(120)は、前記完全ミッド-サイド符号化モードが採用されるときに符号化のために必要となる第1ビット数を推定する第1推定を決定すること、前記完全デュアル-モノ符号化モードが採用されるときに、符号化のために必要となる第2ビット数を推定する第2推定を決定すること、前記帯域に関する符号化モードが採用されるときに、符号化のために必要となる第3ビット数を推定する第3推定を決定すること、そして、前記完全ミッド-サイド符号化モードおよび前記完全デュアル-モノ符号化モードおよび前記帯域に関する符号化モードのうち、前記第1推定および前記第2推定および前記第3推定のうちで最も小さいビット数を持つ符号化モードを選ぶことによって、前記完全ミッド-サイド符号化モードおよび前記完全デュアル-モノ符号化モードおよび前記帯域に関する符号化モードのうちから選ぶように構成されていること、
を特徴とする請求項2または請求項3に記載の装置。
【請求項5】
【請求項6】
前記符号化ユニット(120)は、前記完全ミッド-サイド符号化モードで符号化するときに、節約される第1ビット数を推定する第1推定を決定すること、前記完全デュアル-モノ符号化モードで符号化するときに、節約される第2ビット数を推定する第2推定を決定すること、前記帯域に関する符号化モードで符号化するときに、節約される第3ビット数を推定する第3推定を決定すること、そして前記完全ミッド-サイド符号化モードおよび前記完全デュアル-モノ符号化モードおよび前記帯域に関する符号化モードのうち、前記第1推定および前記第2推定および前記第3推定のうちで節約される最も大きなビット数を持つ符号化モードを選ぶことによって、前記完全ミッド-サイド符号化モードおよび前記完全デュアル-モノ符号化モードおよび前記帯域に関する符号化モードのうちから選ぶように構成されること、または、
前記符号化ユニット(120)は、前記完全ミッド-サイド符号化モードが採用されるときに生じる第1信号対雑音比を推定すること、前記完全デュアル-モノ符号化モードが採用されるときに生じる第2信号対雑音比を推定すること、前記帯域に関する符号化モードが採用されるときに生じる第3信号対雑音比を推定すること、そして前記完全ミッド-サイド符号化モードおよび前記完全デュアル-モノ符号化モードおよび前記帯域に関する符号化モードのうち、前記第1信号対雑音比および前記第2信号対雑音比および前記第3信号対雑音比のうちで最も大きな信号対雑音比を持つ符号化モードを選ぶことによって、前記完全ミッド-サイド符号化モードおよび前記完全デュアル-モノ符号化モードおよび前記帯域に関する符号化モードのうちから選ぶように構成されること、
を特徴とする請求項2または請求項3に記載の装置。
【請求項7】
前記符号化ユニット(120)は、前記処理されたオーディオ信号の前記第1チャンネルの前記最低1つのスペクトル帯域が、前記ミッド信号の前記スペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第2チャンネルの前記最低1つのスペクトル帯域が、前記サイド信号の前記スペクトル帯域であるように、前記処理されたオーディオ信号を生成するように構成され、
前記符号化されたオーディオ信号を得るために、前記符号化ユニット(120)は、前記サイド信号の前記スペクトル帯域のための補正ファクターを決定することによって、前記サイド信号の前記スペクトル帯域を符号化するように構成され、
前記符号化ユニット(120)は、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを残留に依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する前のミッド信号のスペクトル帯域に依存して決定するように構成され、前記前のミッド信号は、時間において前記ミッド信号に先行し、
前記符号化ユニット(120)は、前記残留を前記サイド信号の前記スペクトル帯域に依存すると共に、前記ミッド信号の前記スペクトル帯域に依存して決定するように構成されていること、
を特徴とする請求項2または請求項3に記載の装置。
【請求項8】
前記符号化ユニット(120)は、以下の式に従って、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを決定するように構成され、

correction_factorfb=EResfb/(EprevDmxfb+ε)

ここで、correction_factorfbは、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを示し、
EResfbは、前記ミッド信号の前記スペクトル帯域に対応する前記残留のスペクトル帯域のエネルギーに依存する残留エネルギーを示し、
EprevDmxfbは、前記前のミッド信号の前記スペクトル帯域のエネルギーに依存する前のエネルギーを示し、
ε=0、または、0.1>ε>0であること、
を特徴とする請求項7に記載の装置。
【請求項9】
前記残留は、以下の式に従って定義され、

Res R =S R -a R Dmx R -a I Dmx I

ここで、ResRは前記残留であり、SRは前記サイド信号であり、aRは係数であり、DmxRは前記ミッド信号であり、
前記符号化ユニット(120)は、以下の式に従って残留エネルギーを決定するように構成されること、
を特徴とする請求項7または請求項8に記載の装置。
【請求項10】
前記残留は以下の式に従って定義され、

ResR=SR-aRDmxR-aIDmxI

ここで、ResRは前記残留であり、SRは前記サイド信号であり、aRは複合係数の実数部であり、aIは前記複合係数の虚数部分であり、DmxRは前記ミッド信号であり、DmxIは、前記第1のオーディオ信号の前記第1チャンネルに依存すると共に、前記第1のオーディオ信号の前記第2チャンネルに依存する別のミッド信号であり、
前記第1のオーディオ信号の前記第1チャンネルに依存すると共に、前記第1のオーディオ信号の前記第2チャンネルに依存する別のサイド信号SIの別の残留は、以下の式に従って定義され、

ResI=SI-aRDmxR-aIDmxI

前記符号化ユニット(120)は、以下の式に従って前記残留エネルギーを決定するように構成され、

前記符号化ユニット(120)は、前記ミッド信号の前記スペクトル帯域に対応する前記残留の前記スペクトル帯域の前記エネルギーに依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する前記別の残留のスペクトル帯域のエネルギーに依存して前記前のエネルギーを決定するように構成されること、
を特徴とする請求項8に記載の装置。
【請求項11】
前記装置は、前記オーディオ入力信号の前記第1チャンネルに依存し、かつ、前記オーディオ入力信号の前記第2チャンネルに依存して、前記オーディオ入力信号のための正規化値を決定するように構成された正規化器(110)を備え、
前記正規化器(110)は、正規化されたオーディオ信号である前記第1のオーディオ信号の第1チャンネルおよび第2チャンネルを、前記オーディオ入力信号の前記第1チャンネルと前記第2チャンネルのうちの少なくとも1つを前記正規化値に依存して変調することによって、決定するように構成されること、
を特徴とする請求項1ないし請求項10のいずれかに記載の装置。
【請求項12】
前記正規化器(110)は、前記オーディオ入力信号の前記第1チャンネルのエネルギーに依存すると共に、前記オーディオ入力信号の前記第2チャンネルのエネルギーに依存して、前記オーディオ入力信号のための前記正規化値を決定するように構成されること、 を特徴とする請求項11に記載の装置。
【請求項13】
前記オーディオ入力信号は、スペクトル領域で表され、
前記正規化器(110)は、前記オーディオ入力信号の前記第1チャンネルの複数のスペクトル帯域に依存すると共に、前記オーディオ入力信号の前記第2チャンネルの複数のスペクトル帯域に依存して、前記オーディオ入力信号のための前記正規化値を決定するように構成され、
前記正規化器(110)は、前記正規化値に依存して、前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調することによって、前記第1のオーディオ信号を決定するように構成されること、
を特徴とする請求項11に記載の装置。
【請求項14】
前記正規化器(110)は、以下の式に基づいて前記正規化値を決定するように構成され、

ここで、MDCTL,kは、前記オーディオ入力信号の前記第1チャンネルのMDCTスペクトルのk番目の係数であり、MDCTR,kは、前記オーディオ入力信号の前記第2チャンネルのMDCTスペクトルのk番目の係数であり、
前記正規化器(110)は、ILDを量子化することによって、前記正規化値を決定するように構成されること、
を特徴とする請求項13に記載の装置。
【請求項15】
符号化のための前記装置は、変換ユニット(102)と前処理ユニット(105)とをさらに含み、
前記変換ユニット(102)は、時間領域オーディオ信号を時間領域から周波数領域に変換して、変換されたオーディオ信号を得るように構成され、
前記前処理ユニット(105)は、前記変換されたオーディオ信号にエンコーダ側周波数領域雑音シェーピング操作を適用することによって、前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルを生成するように構成されること、
を特徴とする請求項13または請求項14に記載の装置。
【請求項16】
前記前処理ユニット(105)は、前記変換されたオーディオ信号に前記エンコーダ側周波数領域雑音シェーピング操作を適用する前に、前記変換されたオーディオ信号にエンコーダ側時間的雑音シェーピング操作を適用することによって、前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルを生成するように構成されること、を特徴とする請求項15に記載の装置。
【請求項17】
前記正規化器(110)は、時間領域で表されている前記オーディオ入力信号の前記第1チャンネルに依存すると共に、前記時間領域で表されている前記オーディオ入力信号の前記第2チャンネルに依存して、前記オーディオ入力信号のための正規化値を決定するように構成され、
前記正規化器(110)は、前記時間領域で表されている前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つを前記正規化値に依存して変調することによって、前記第1のオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを決定するように構成され、
前記装置は、前記第1のオーディオ信号が前記スペクトル領域で表されるように、前記第1のオーディオ信号を前記時間領域から前記スペクトル領域に変換するように構成された変換ユニット(115)をさらに含み、
前記変換ユニット(115)は、前記スペクトル領域で表されている前記第1のオーディオ信号を前記符号化ユニット(120)に供給するように構成されること、
を特徴とする請求項13に記載の装置。
【請求項18】
前記装置は、第1チャンネルおよび第2チャンネルを含む時間領域オーディオ信号を受信するように構成される前処理ユニット(106)をさらに含み、
前記前処理ユニット(106)は、前記時間領域オーディオ信号の前記第1チャンネルに、第1の知覚的に白色化されたスペクトルを作成するフィルタを適用して前記時間領域で表されている前記オーディオ入力信号の前記第1チャンネルを得るように構成され、
前記前処理ユニット(106)は、前記時間領域オーディオ信号の前記第2チャンネルに、第2の知覚的に白色化されたスペクトルを作成するフィルタを適用して前記時間領域で表されている前記オーディオ入力信号の前記第2チャンネルを得るように構成されていること、
を特徴とする請求項17に記載の装置。
【請求項19】
前記変換ユニット(115)は、前記第1のオーディオ信号を前記時間領域から前記スペクトル領域に変換して、変換されたオーディオ信号を得るように構成され、
前記装置は、前記スペクトル領域で表されている前記第1のオーディオ信号を得るために、前記変換されたオーディオ信号にエンコーダ側時間的雑音シェーピングを実施するように構成されるスペクトル領域前処理器(118)をさらに含むこと、
を特徴とする請求項17または請求項18に記載の装置。
【請求項20】
前記符号化ユニット(120)は、前記第1のオーディオ信号または前記処理されたオーディオ信号にエンコーダ側ステレオインテリジェントギャップ充填を適用することによって、前記符号化されたオーディオ信号を得るように構成されること、
を特徴とする請求項1ないし請求項19のいずれかに記載の装置。
【請求項21】
前記オーディオ入力信号が、正確に2つのチャンネルを含むオーディオステレオ信号であること、
を特徴とする請求項1ないし請求項20のいずれかに記載の装置。
【請求項22】
4つ以上のチャンネルを含むオーディオ入力信号の4つのチャンネルを符号化して、符号化されたオーディオ信号を得るためのシステムであって、前記システムは、
前記オーディオ入力信号の前記4つ以上のチャンネルの第1チャンネルおよび第2チャンネルを符号化して、前記符号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るための、請求項1ないし請求項20のいずれかに記載の第1装置(170)と、
前記オーディオ入力信号の前記4つ以上のチャンネルの第3チャンネルおよび第4チャンネルを符号化して、前記符号化されたオーディオ信号の第3チャンネルおよび第4チャンネルを得るための、請求項1ないし請求項20のいずれかに記載の第2装置(180)と、を含むこと、
を特徴とするシステム。
【請求項23】
2つ以上のチャンネルを含む復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、第1チャンネルおよび第2チャンネルを含んでいる符号化されたオーディオ信号を復号化するための装置であって、
前記装置は、複数のスペクトル帯域の個々のスペクトル帯域について、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域、および、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化を使って符号化されたか、またはミッド-サイド符号化を使って符号化されたかを決定するように構成された復号化ユニット(210)を含み、
前記復号化ユニット(210)は、前記デュアル-モノ符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を中間オーディオ信号の第1チャンネルのスペクトル帯域として使うように構成されると共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を前記中間オーディオ信号の第2チャンネルのスペクトル帯域として使うように構成され、
前記復号化ユニット(210)は、前記ミッド-サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域を生成し、そして、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域を生成するように構成され、
前記装置は、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうち最低1つを非正規化することによって、前記中間オーディオ信号から前記復号化されたオーディオ信号を得るように構成されること、
を特徴とする装置。
【請求項24】
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が、完全ミッド-サイド符号化モードで符号化されかまたは完全デュアル-モノ符号化モードで符号化されかまたは帯域に関する符号化モードで符号化されかを決定するように構成され、
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が前記完全ミッド-サイド符号化モードで符号化されことが決定された場合、前記符号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルから前記中間オーディオ信号の前記第1チャンネルを生成すると共に、前記符号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルから前記中間オーディオ信号の前記第2チャンネルを生成するように構成され、
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が前記完全デュアル-モノ符号化モードで符号化されことが決定された場合、前記符号化されたオーディオ信号の前記第1チャンネルを前記中間オーディオ信号の前記第1チャンネルとして使うと共に、前記符号化されたオーディオ信号の前記第2チャンネルを前記中間オーディオ信号の前記第2チャンネルとして使うように構成され、
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が前記帯域に関する符号化モードで符号化されことが決定された場合、
複数のスペクトル帯域の個々のスペクトル帯域について、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域、および、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、前記デュアル-モノ符号化を使って符号化されたか、または前記完全ミッド-サイド符号化モードを使って符号化されたかを決定するように構成され、
前記デュアル-モノ符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域として使い、そして、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域として使うように構成され、
前記ミッド-サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域を生成し、そして、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域を生成するように構成されていること、
を特徴とする請求項23に記載の装置。
【請求項25】
前記復号化ユニット(210)は、前記複数のスペクトル帯域の個々のスペクトル帯域について、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域、および、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化を使って符号化されたか、またはミッド-サイド符号化を使って符号化されたかを決定するように構成され、
前記復号化ユニット(210)は、前記第2チャンネルの前記スペクトル帯域を再構成することによって、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を得るように構成され、
ミッド-サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域は、ミッド信号のスペクトル帯域であると共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域は、サイド信号のスペクトル帯域であり、
ミッド-サイド符号化が使われていた場合、前記復号化ユニット(210)は、前記サイド信号の前記スペクトル帯域のための補正ファクターに依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する、前のミッド信号のスペクトル帯域に依存して、前記サイド信号の前記スペクトル帯域を再構成するように構成され、ここで、前記前のミッド信号は、時間において、前記ミッド信号に先行すること、
を特徴とする請求項24に記載の装置。
【請求項26】
ミッド-サイド符号化が使われていた場合、前記復号化ユニット(210)は、以下の式に従って前記サイド信号の前記スペクトル帯域のスペクトル値を再構成することによって、前記サイド信号の前記スペクトル帯域を再構成するように構成され、

i=Ni+facDmxfb・prevDmxi,i∈[fb,fb+1]

ここで、Siは、前記サイド信号の前記スペクトル帯域のスペクトル値を示し、
prevDmxiは、前記前のミッド信号の前記スペクトル帯域のスペクトル値を示し、
iは、雑音が満ちたスペクトルのスペクトル値を示し、
facDmxfbは、以下の式に従って定義され、
correction_factorfbは、前記サイド信号の前記スペクトル帯域のための補正ファクターであり、
ENfbは、雑音が満ちたスペクトルのエネルギーであり、
EprevDmxfbは、前記前のミッド信号の前記スペクトル帯域のエネルギーであり、
ε=0、または、0.1>ε>0であること、
を特徴とする請求項25に記載の装置。
【請求項27】
前記装置は、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つを非正規化に依存して変調して、前記復号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを得るように構成される非正規化器(220)を含むこと、
を特徴とする、請求項23ないし請求項26のいずれかに記載の装置。
【請求項28】
前記非正規化器(220)は、前記非正規化値に依存して、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つの前記複数のスペクトル帯域を変調して、前記復号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを得るように構成され、
前記非正規化器(220)は、前記非正規化値に依存して、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つの前記複数のスペクトル帯域を変調して非正規化されたオーディオ信号を得るように構成され、
前記装置は、後処理ユニット(230)および変換ユニット(235)をさらに含み、
前記後処理ユニット(230)は、前記非正規化されたオーディオ信号に、デコーダ側時間的雑音シェーピングおよびデコーダ側周波数領域雑音シェーピングのうちの最低1つを実施して後処理されたオーディオ信号を得るように構成され、
前記変換ユニット(235)は、前記後処理されたオーディオ信号をスペクトル領域から時間領域に変換して前記復号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを得るように構成されていること、
を特徴とする請求項27に記載の装置。
【請求項29】
前記装置は、前記中間オーディオ信号をスペクトル領域から時間領域に変換するように構成された変換ユニット(215)をさらに含み、
前記非正規化器(220)は、前記非正規化値に依存して、時間領域で表されている前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つを変調して、前記復号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを得るように構成されていること、
を特徴とする請求項27に記載の装置。
【請求項30】
前記装置は、前記中間オーディオ信号をスペクトル領域から時間領域に変換するように構成された変換ユニット(215)をさらに含み、
前記非正規化器(220)は、前記非正規化値に依存して、時間領域で表されている前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つを変調して非正規化されたオーディオ信号を得るように構成され、
前記装置は、知覚的に白色化されたオーディオ信号である前記非正規化されたオーディオ信号を処理して、前記復号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを得るように構成された後処理ユニット(235)をさらに含むこと、
を特徴とする請求項27に記載の装置。
【請求項31】
前記装置は、前記中間オーディオ信号に、デコーダ側時間的雑音シェーピングを実施するように構成されたスペクトル領域後処理器(212)をさらに含み、
前記変換ユニット(215)は、前記中間オーディオ信号に対してデコーダ側時間的雑音シェーピングを実施した後に、前記中間オーディオ信号を前記スペクトル領域から前記時間領域に変換するように構成されていること、
を特徴とする請求項29または請求項30に記載の装置。
【請求項32】
前記復号化ユニット(210)は、デコーダ側ステレオインテリジェントギャップ充填を、符号化されたオーディオ信号に適用するように構成されていること、を特徴とする請求項23ないし請求項31のいずれかに記載の装置。
【請求項33】
前記復号化されたオーディオ信号は、正確に2つのチャンネルを含むオーディオステレオ信号であること、
を特徴とする請求項23ないし請求項32のいずれかに記載の装置。
【請求項34】
4つ以上のチャンネルを含む復号化されたオーディオ信号の4つのチャンネルを得るために、4つ以上のチャンネルを含む符号化されたオーディオ信号を復号化するためのシステムであって、前記システムは、
前記符号化されたオーディオ信号の前記4つ以上のチャンネルの第1チャンネルおよび第2チャンネルを復号化して前記復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るための、請求項23ないし請求項32のいずれかに記載の第1装置(270)と、
前記符号化されたオーディオ信号の前記4つ以上のチャンネルの第3チャンネルおよび第4チャンネルを復号化して前記復号化されたオーディオ信号の第3チャンネルおよび第4チャンネルを得るための、請求項23ないし請求項32のいずれかに記載の第2装置(280)と、を含むこと、
を特徴とするシステム。
【請求項35】
オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、前記符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムであって、前記システムは、
請求項1ないし請求項21のいずれかに記載の装置(310)であって、請求項1ないし請求項21のいずれかに記載の装置(310)は、前記オーディオ入力信号から、前記符号化されたオーディオ信号を生成するように構成される装置と、
請求項23ないし請求項33のいずれかに記載の装置(320)であって、請求項23ないし請求項33のいずれかに記載の装置(320)は、前記符号化されたオーディオ信号から、前記復号化されたオーディオ信号を生成するように構成される装置と、
を含むこと、
を特徴とするシステム。
【請求項36】
オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムであって、前記システムは、
請求項22に記載のシステムであって、請求項22に記載のシステムは、前記オーディオ入力信号から、前記符号化されたオーディオ信号を生成するように構成される、システムと、
請求項34に記載のシステムであって、請求項34に記載のシステムは、前記符号化されたオーディオ信号から、前記復号化されたオーディオ信号を生成するように構成されているシステムと、
を含むこと、
を特徴とするシステム。
【請求項37】
符号化されたオーディオ信号を得るために、2つ以上のチャンネルを含むオーディオ入力信号の第1チャンネルおよび第2チャンネルを符号化するための方法であって、第1のオーディオ信号は前記オーディオ入力信号に依存し、前記方法は、
処理されたオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域が、前記第1のオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第1チャンネルの最低1つのスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記第1のオーディオ信号の前記第2チャンネルのスペクトル帯域に依存するミッド信号のスペクトル帯域であり、かつ、前記処理されたオーディオ信号の前記第2チャンネルの最低1つのスペクトル帯域が、前記第1のオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記第1のオーディオ信号の前記第2チャンネルのスペクトル帯域に依存するサイド信号のスペクトル帯域であるように、前記第1チャンネルおよび前記第2チャンネルを持つ前記処理されたオーディオ信号を生成するステップと、
前記処理されたオーディオ信号を符号化して前記符号化されたオーディオ信号を得るステップを含むこと、
を特徴とする方法。
【請求項38】
2つ以上のチャンネルを含む復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、第1チャンネルおよび第2チャンネルを含む符号化されたオーディオ信号を復号化するための方法であって、
前記方法は、複数のスペクトル帯域の各スペクトル帯域について、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域および前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化を使用して符号化されたか、またはミッド-サイド符号化を使用して符号化されたかを決定するステップを含み、
前記デュアル-モノ符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を中間オーディオ信号の第1チャンネルのスペクトル帯域として使うと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を前記中間オーディオ信号の第2チャンネルのスペクトル帯域として使い、
前記方法は、前記ミッド-サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域を生成し、かつ、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域を生成するステップを含み、
前記方法は、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうち最低1つを非正規化することによって、前記復号化されたオーディオ信号を前記中間オーディオ信号から得るステップを含むこと、
を特徴とする方法。
【請求項39】
コンピュータまたは信号プロセッサにおいて実行されるとき、請求項37の方法を実行するためのコンピュータプログラム。
【請求項40】
コンピュータまたは信号プロセッサにおいて実行されるとき、請求項38の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号符号化およびオーディオ信号復号化に関連する、特に、改良されたミッド/サイド決定を持つ包括的なILDを持つMDCT M/Sステレオのための装置および方法に関する。
【背景技術】
【0002】
MDCTに基づいた符号器(MDCT=変調された離散的なコサイン変換)における帯域に関するM/S(Band-wise M/S、M/S=ミッド/サイド)処理は、ステレオ処理のための既知で効果的な方法である。しかし、まだ、それは、パンされた信号に対して十分ではなく、複合予測又はミッドチャンネルおよびサイドチャンネル間の角度の符号化などの付加的処理が要求される。
【0003】
[1]、[2]、[3]および[4]において、ウィンドウ表示(窓表示)され変換されて非正規化された(白色化されていない)信号におけるM/S処理が説明されている。
【0004】
[7]において、ミッドチャンネルおよびサイドチャンネル間の予測が説明されている。[7]において、2つのオーディオチャンネルの結合に基づいたオーディオ信号を符号化するエンコーダが開示されている。オーディオエンコーダは、ミッド信号である結合信号を得て、更に、ミッド信号から引き出された予測サイド信号である予測残留信号を得る。最初の結合信号と予測残留信号とは符号化されて、予測情報と共にデータストリームの中に記録される。さらに、[7]は、予測残留信号、最初の結合信号および予測情報を使って、復号化された第1オーディオチャンネルおよび第2オーディオチャンネルを生成するデコーダが開示されている。
【0005】
[5]において、帯域毎に別々に正規化された後にカップリングするM/Sステレオの応用が説明されている。特に[5]はオーパス(Opus)符号器に関する。オーパスは、正規化された信号m=M/||M||およびs=S/||S||として、ミッド信号とサイド信号とを符号化する。mおよびsからMおよびSを再生するために、角度θs=arctan(||S||/||M||)が符号化される。帯域のサイズであるNと、mおよびsに利用可能なビットの総数であるaとによって、mのための最適な割り当ては、amid=(a-(N-1)log2tanθs)/2である。
【0006】
既知のアプローチ(例えば[2]および[4])において、複合レート/歪みループが、チャンネル間の相互関係を減らすために、帯域チャンネルが、(例えば、[7]からMからSへの予測残留計算によってフォローされるM/Sを使って)変換されるべき決定によって結合される。この複合構造は高価なコンピュータ処理コストを持つ。([6a]、[6b]および[13]におけるように)レートループから知覚モデルを分離することは、システムをかなり簡素化する。
【0007】
また、個々の帯域の予測係数または角度の符号化は、(例えば[5]および[7]におけるように)大きなビット数を必要とする。
【0008】
[1]、[3]および[5]において、全体のスペクトルがM/S符号化またはL/R符号化されるか否かを決めるために、全体のスペクトルに亘って単一の決定だけが実行される。
【0009】
ILD(相互レベル差)が存在した場合、すなわち、チャンネルがパンされるならば、M/S符号化は効率的ではない。
【0010】
上で概説されるように、MDCTに基づいた符号器において、帯域に関するM/S処理が、ステレオ処理のための効果的な方法であることが知られている。M/S処理符号化ゲインは、無相関のチャンネルに対する0%から、モノラルまたはチャンネル間のπ/2位相差に対する50%まで変わる。ステレオの非マスキングおよび逆非マスキング([1]参照)のために、頑強なM/S決定を持つことは重要である。
【0011】
[2]において(左右間のマスキング閾値が2dB未満で変化する帯域毎において)、M/S符号化が符号化方法として選ばれる。
【0012】
[1]において、M/S決定は、チャンネルのM/S符号化およびL/R符号化(L/R=左/右)のために、推測されたビット消費に基づく。M/S符号化およびL/R符号化のためのビットレート需要は、知覚エントロピー(PE)を使って、スペクトルとマスキング閾値から推測される。マスキング閾値は左チャンネルおよび右チャンネルのために計算される。ミッドチャンネルおよびサイドチャンネルのためのマスキング閾値は、左閾値および右閾値の最小であると推測される。
【0013】
さらに、[1]は、符号化されるべき個々のチャンネルの符号化閾値が、どのように引き出されるかを記述する。特に、左チャンネルおよび右チャンネルの符号化閾値は、これらのチャンネルのための個々の知覚モデルによって計算される。[1]において、MチャンネルおよびSチャンネルのための符号化閾値が等しく選ばれて、左符号化閾値および右符号化閾値の最小として引き出される。
【0014】
さらに、[1]は、良好な符号化性能が達成されるように、L/R符号化とM/S符号化との間で決めることを説明する。特に、知覚エントロピーは、閾値を使ってL/R符号化とM/S符号化のために推測される。
【0015】
[3]および[4]と同様に、[1]および[2]において、M/S処理は、ウィンドウ表示され変換されて非正規化された(白色化されていない)信号において実施され、M/S決定はマスキング閾値および知覚エントロピー推測に基づく。
【0016】
[5]において、左チャンネルおよび右チャンネルのエネルギーは、明示的に符号化されて、符号化された角度は、異なる信号のエネルギーを守る。たとえL/R符号化がより効率的でも、M/S符号化が安全であることは[5]において仮定される。[5]に従うと、L/R符号化は、チャンネル間の相互関係が十分に強くないときを選ぶだけである。
【0017】
さらに、個々の帯域の予測係数または角度の符号化は、大きなビット数を必要とする(例えば[5]および[7]参照)。
【発明の概要】
【発明が解決しようとする課題】
【0018】
従って、オーディオ符号化およびオーディオ復号化のための改良された概念が提供されていた場合、それは高く認められる。
【0019】
それゆえに、本発明の目的は、オーディオ信号符号化、オーディオ信号処理およびオーディオ信号復号化のための改良された概念を提供することである。本発明の目的は、請求項1に応じたオーディオデコーダ、および請求項23に応じた装置、および請求項37に応じた方法、および請求項38に応じた方法、および請求項39に応じたコンピュータプログラムによって解決される。
【課題を解決するための手段】
【0020】
実施の形態によると、符号化されたオーディオ信号を得るために、2つ以上のチャンネルを含むオーディオ入力信号の第1チャンネルおよび第2チャンネルを符号化するための装置が提供される。
【0021】
符号化のための装置は、オーディオ入力信号の第1チャンネルに依存し、かつ、オーディオ入力信号の第2チャンネルに依存して、オーディオ入力信号のための正規化値を決定するように構成された正規化器を含む。正規化器は、正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成されている。
【0022】
さらに、符号化のための装置は、処理されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第1チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように、第1チャンネルおよび第2チャンネルを持つ処理されたオーディオ信号を生成するように構成されている符号化ユニットを含む。符号化ユニットは、符号化されたオーディオ信号を得るために、処理されたオーディオ信号を符号化するように構成されている。
【0023】
さらに、2つ以上のチャンネルを含む復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、第1チャンネルおよび第2チャンネルを含む符号化されたオーディオ信号を復号化するための装置が提供される。
【0024】
復号化のための装置は、複数のスペクトル帯域の個々のスペクトル帯域毎に、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域および符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化またはミッド-サイド符号化を使って符号化されたかを決定するように構成された復号化ユニットを含む。
【0025】
復号化ユニットは、デュアル-モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使うように構成されると共に、中間オーディオ信号の第2チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使うように構成される。
【0026】
さらに、復号化ユニットは、ミッド-サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第1チャンネルのスペクトル帯域を生成するように構成され、かつ、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第2チャンネルのスペクトル帯域を生成するように構成される。
【0027】
さらに、非正規化器を含む復号化のための装置は、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調するように構成されている。
【0028】
さらに、符号化されたオーディオ信号を得るために、2つ以上のチャンネルを含むオーディオ入力信号の第1チャンネルおよび第2チャンネルを符号化するための方法が提供される。方法は、以下を含む。
-オーディオ入力信号の第1チャンネルに依存すると共に、オーディオ入力信号の第2チャンネルに依存するオーディオ入力信号のための正規化値を決定すること。
-正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定すること。
-処理されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第1チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように、第1チャンネルおよび第2チャンネルを持つ処理されたオーディオ信号を生成し、そして、符号化されたオーディオ信号を得るために、処理されたオーディオ信号を符号化すること。
【0029】
さらに、2つ以上のチャンネルを含む復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、第1チャンネルおよび第2チャンネルを含む符号化されたオーディオ信号を復号化するための方法が提供される。方法は、以下を含む。
-符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域および符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化またはミッド-サイド符号化を使用して符号化されたかを、複数のスペクトル帯域の個々のスペクトル帯域毎に決定すること。
-デュアル-モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使うと共に、中間オーディオ信号の第2チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使うこと。
―ミッド-サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第1チャンネルのスペクトル帯域を生成し、かつ、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第2チャンネルのスペクトル帯域を生成すること。そして、
-復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調すること。
【0030】
さらに、コンピュータプログラムが提供される。コンピュータプログラムのそれぞれは、コンピュータまたは信号プロセッサにおいて実行されるとき、上で説明された方法のうちの1つを実行するように構成される。
【発明の効果】
【0031】
実施の形態によると、最小のサイド情報を使ってパンされた信号を扱うことができる新しい概念が提供される。
【0032】
いくつかの実施の形態によると、レートループを持つFDNS(FDNS=周波数領域雑音シェーピング)は、[8]において説明される、スペクトル包絡歪によって結合された[6a]および[6b]において説明されるように使われる。いくつかの実施の形態において、FDNS-白色化されたスペクトルの単一のILDパラメータは、符号化のためにM/S符号化またはL/R符号化が使われるかどうかの、帯域に関する決定によってフォローされて使われる。いくつかの実施の形態において、M/S決定は、推定されたビット節約に基づく。いくつかの実施の形態において、帯域に関するM/S処理チャンネルの間のビットレート分配は、例えばエネルギーに依存する。
【0033】
いくつかの実施の形態は、効率的なM/S決定機構および唯一の包括的なゲインを制御するレートループを持つ帯域に関するM/S処理によってフォローされて、白色化されたスペクトルに適用された単一の包括的なILDの結合を提供する。
【0034】
いくつかの実施の形態は、例えば[8]に基づいたスペクトル包絡歪と結合された、[6a]または[6b]に基づいたレートループを持つFDNSをとりわけ採用する。これらの実施の形態は、量子化雑音およびレートループの知覚シェーピングを分離するための効率的で非常に効果的な方法を提供する。上で説明したようなM/S処理の利点が存在した場合、FDNS-白色化されたスペクトルの単一のILDパラメータを使うことは、決定の簡単で効果的な方法を許す。スペクトルを白色化すること、および、ILDを取り除くことは、効率的なM/S処理を許す。説明されたシステムのための単一の包括的なILDを符号化することは十分であり、従って、ビットの節約は、既知のアプローチに対比して達成される。
【0035】
実施の形態によると、M/S処理は、知覚的に白色化された信号に基づいてなされる。実施の形態は、知覚的に白色化されてILD補正された信号を処理するとき、符号化閾値を決定し、L/R符号化またはM/S符号化が採用されるかどうかの決定を最適な方法で決定する。
【0036】
さらに、実施の形態によると、新しいビットレート推測が提供される。
【0037】
[1]~[5]と対比すると、実施の形態において、知覚のモデルは、[6a]、[6b]および[13]の中のレートループから分離される。
【0038】
たとえM/S決定が、[1]において提案されるように、推定されたビットレートに基づいても、[1]に対比すると、M/S符号化およびL/R符号化のビットレート需要の差は、知覚のモデルによって決定されたマスキング閾値に依存しない。代わりに、ビットレート需要は、使われている無損失エントロピー符号器によって決定される。すなわち、ビットレート需要をオリジナル信号の知覚のエントロピーから引き出す代わりに、ビットレート需要は、知覚的に白色化された信号のエントロピーから引き出される。
【0039】
[1]~[5]と対比すると、実施の形態において、M/S決定は、知覚的に白色化された信号に基づいて決定され、必要なビットレートの良好な推定が得られる。この目的のために、[6a]または[6b]において説明されるように、算術符号器ビット消費推測が適用される。マスキング閾値は明示的に考慮される必要がない。
【0040】
[1]において、ミッドチャンネルおよびサイドチャンネルのためのマスキング閾値は、左および右のマスキング閾値の最小であると仮定される。スペクトル雑音シェーピングは、ミッドチャンネルとサイドチャンネルにおいてなされ、例えばこれらのマスキング閾値に基づく。
【0041】
実施の形態によると、スペクトル雑音シェーピングは、例えば、左チャンネルおよび右チャンネルで実施することができ、知覚的包絡は、そのような実施の形態において、それが推定された所で正確に適用される。
【0042】
さらに、実施の形態は、ILDが存在した場合、すなわち、チャンネルがパンされた場合、M/S符号化は効率的ではないという発見に基づく。これを避けるために、実施の形態は、知覚的に白色化されたスペクトルの単一のILDパラメータを使う。
【0043】
いくつかの実施の形態によると、知覚的に白色化された信号を処理するM/S決定のための新しい概念が提供される。
【0044】
いくつかの実施の形態によると、符号器は、例えば[1]において説明されるような古典的なオーディオ符号器の一部分ではない新しい概念を使う。
【0045】
いくつかの実施の形態によると、知覚的に白色化された信号が、別の符号化のために、例えばそれらがスピーチ符号器において使われる方法と同様に使われる。
【0046】
そのようなアプローチは、いくつかの利点を持っている。例えば符号器構造が簡素化される。雑音シェーピング特性およびマスキング閾値のコンパクトな表現が、例えばLPC係数として達成される。さらに、変換およびスピーチ符号器構造が統合され、従って、結合されたオーディオ/スピーチ符号化が可能である。
【0047】
いくつかの実施の形態は、パンされたソースを効率的に符号化するために、包括的なILDパラメータを採用する。
【0048】
実施の形態において、符号器は、例えば[8]において説明されたスペクトル包絡歪と結合された[6a]または[6b]において説明されるように、レートループを持つ信号を知覚的に白色化するために、周波数領域雑音シェーピング(FDNS)を採用する。そのような実施の形態において、符号器は、例えば、帯域に関するM/S対L/R決定によってフォローされたFDNS-白色化されたスペクトルの単一のILDパラメータをさらに使う。帯域に関するM/S決定は、例えば、L/RモードおよびM/Sモードで符号化されるとき、個々の帯域の推定されたビットレートに基づく。少なくとも必要なビットを持つモードが選ばれる。帯域に関するM/S処理されたチャンネルの間のビットレート分配は、エネルギーに基づく。
【0049】
いくつかの実施の形態が、エントロピー符号器のための帯域毎に推定されたビット数を使って、知覚的に白色化されてILD補正されたスペクトルに、帯域に関するM/S決定を適用する。
【0050】
いくつかの実施の形態において、例えば、レートループを持つFDNSが、[8]において説明されたスペクトル包絡歪と結合された[6a]または[6b]において説明されるように採用される。これは、量子化雑音およびレートループの知覚的シェーピングを分離する効率的で非常に効果的な方法を提供する。説明されるようなM/S処理の利点が存在した場合、FDNS-白色化されたスペクトルの単一のILDパラメータを使うことは、決定の簡素で効果的な方法を許す。スペクトルを白色化し、ILDを取り除くことは、効率的なM/S処理を許す。
【0051】
説明されたシステムのための単一の包括的なILDを符号化することは十分であり、従って、ビット節約は、既知のアプローチと対比して達成される。
【0052】
実施の形態は、知覚的に白色化されILD補正された信号を処理するとき、[1]において提供された概念を修正する。特に、実施の形態は、FDNSと共に符号化閾値を形成するL、R、M、およびSのために、等しい包括的なゲインを採用する。包括的なゲインはSNR推定または幾つかの別の概念から引き出される。
【0053】
提案された帯域に関するM/S決定は、算術符号器で帯域毎に符号化することのために必要なビット数を正確に推定する。M/S決定は白色化されたスペクトルにおいて実行され、量子化によって直接にフォローされるので、これは可能である。閾値のための実験的な検索の必要はない。
【0054】
以下において、本発明の実施の形態は、図面を参照してより詳細に説明される。
【図面の簡単な説明】
【0055】
図1a図1aは、本発明の実施の形態に従う符号化のための装置の模式図である。
図1b図1bは、別の実施の形態に従う符号化のための装置の模式図である。装置は変換ユニットおよび前処理ユニットをさらに含む。
図1c図1cは、別の実施の形態に従う符号化のための装置の模式図である。装置は変換ユニットをさらに含む。
図1d図1dは、別の実施の形態に従う符号化のための装置の模式図である。装置は前処理ユニットおよび変換ユニットを含む。
図1e図1eは、別の実施の形態に従う符号化のための装置の模式図である。装置はスペクトル領域前プロセッサをさらに含む。
図1f図1fは、実施の形態に従って、符号化されたオーディオ信号の4つのチャンネルを得るために、4つ以上のチャンネルを含むオーディオ入力信号の4つのチャンネルを符号化するためのシステムの模式図である。
図2a図2aは、実施の形態に従う復号化のための装置の模式図である。
図2b図2bは、変換ユニットおよび後処理ユニットをさらに含む実施の形態に従う復号化のための装置の模式図である。
図2c図2cは、実施の形態に従う復号化のための装置の模式図である。復号化のための装置は変換ユニットをさらに含む。
図2d図2dは、実施の形態に従う復号化のための装置の模式図である。復号化のための装置は後処理ユニットをさらに含む。
図2e図2eは、実施の形態に従う復号化のための装置の模式図である。装置はスペクトル領域ポストプロセッサをさらに含む。
図2f図2fは、実施の形態に従って、4つ以上のチャンネルを含む復号化されたオーディオ信号の4つのチャンネルを得るために、4つ以上のチャンネルを含む符号化されたオーディオ信号を復号化するためのシステムの模式図である。
図3図3は、実施の形態に従うシステムの模式図である。
図4図4は、別の実施の形態に従う符号化のための装置の模式図である。
図5図5は実施の形態に従う符号化のための装置の中のステレオ処理モジュールの模式図である。
図6図6は、別の実施の形態に従う復号化するための装置の模式図である。
図7図7は、実施の形態に従う帯域に関するM/S決定のためのビットレートの計算を説明するフローチャートである。
図8図8は、実施の形態に従うステレオモード決定を説明するフローチャートである。
図9図9は、実施の形態に従う、ステレオ充填を採用するエンコーダ側のステレオ処理を説明する模式図である。
図10図10は、実施の形態に従う、ステレオ充填を採用するデコーダ側のステレオの処理を説明する模式図である。
図11図11は、特定の実施の形態に従うデコーダ側のサイド信号のステレオ充填を採用する処理を説明する模式図である。
図12図12は、実施の形態に従う、ステレオ充填を採用しないエンコーダ側のステレオ処理を説明する模式図である。
図13図13は、実施の形態に従う、ステレオ充填を採用しないデコーダ側のステレオの処理を説明する模式図である。
【発明を実施するための形態】
【0056】
図1aは、実施の形態に従って、符号化されたオーディオ信号を得るために、2つ以上のチャンネルを含むオーディオ入力信号の第1チャンネルおよび第2チャンネルを符号化するための装置を説明する。
【0057】
装置は、オーディオ入力信号の第1チャンネルに依存すると共に、オーディオ入力信号の第2チャンネルに依存して、オーディオ入力信号のための正規化値を決定するように構成された正規化器110を含む。正規化器110は、正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成されている。
【0058】
例えば、正規化器110は、実施の形態において、オーディオ入力信号の第1チャンネルおよび第2チャンネルの複数のスペクトル帯域に依存して、オーディオ入力信号のための正規化値を決定するように構成される。正規化器110は、例えば、正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成される。
【0059】
あるいは、例えば、正規化器110は、時間領域で表されているオーディオ入力信号の第1チャンネルに依存すると共に、時間領域で表されているオーディオ入力信号の第2チャンネルに依存して、オーディオ入力信号のための正規化値を決定するように構成される。さらに、正規化器110は、正規化値に依存して、時間領域で表されているオーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成される。装置は、さらに、正規化されたオーディオ信号がスペクトル領域で表わされるように、正規化されたオーディオ信号を時間領域からスペクトル領域に変換するように構成されている変換ユニット(図1aにおいて表示されてない)を含む。変換ユニットは、スペクトル領域で表されている正規化されたオーディオ信号を符号化ユニット120に供給するように構成される。例えば、オーディオ入力信号は、時間領域オーディオ信号のLPCフィルタリング(LPC=線形予測符号化)の2つのチャンネルから生じる時間領域残留信号である。
【0060】
さらに、装置は、処理されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第1チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように、第1チャンネルおよび第2チャンネルを持つ処理されたオーディオ信号を生成するように構成されている符号化ユニット120を含む。符号化ユニット120は、符号化されたオーディオ信号を得るために、処理されたオーディオ信号を符号化するように構成される。
【0061】
実施の形態において、符号化ユニット120は、例えば、正規化されたオーディオ信号の第1チャンネルの複数のスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルの複数のスペクトル帯域に依存して、完全ミッド-サイド(full-mid-side)符号化モードと完全デュアル-モノ(full-dual-mono)符号化モードと帯域に関する(band-wise)符号化モードとから選ぶように構成される。
【0062】
そのような実施の形態において、符号化ユニット120は、例えば、完全ミッド-サイド符号化モードが選ばれた場合、ミッド-サイド信号の第1チャンネルとして、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルからミッド信号を生成するように、そして、ミッド-サイド信号の第2チャンネルとして、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルからサイド信号を生成するように、そして、符号化されたオーディオ信号を得るためにミッド-サイド信号を符号化するように構成される。
【0063】
そのような実施の形態によると、符号化ユニット120は、例えば、完全デュアル-モノ符号化モードが選ばれる場合、符号化されたオーディオ信号を得るために、正規化されたオーディオ信号を符号化するように構成される。
【0064】
さらに、そのような実施の形態において、符号化ユニット120は、例えば、帯域に関する符号化モードが選ばれた場合、処理されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第1チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように、処理されたオーディオ信号を生成するように構成される。符号化ユニット120は、符号化されたオーディオ信号を得るために、処理されたオーディオ信号を符号化するように構成される。
【0065】
実施の形態によると、オーディオ入力信号は、例えば、正確に2つのチャンネルを含むオーディオステレオ信号である。例えば、オーディオ入力信号の第1チャンネルはオーディオステレオ信号の左チャンネルであり、オーディオ入力信号の第2チャンネルはオーディオステレオ信号の右チャンネルである。
【0066】
実施の形態において、符号化ユニット120は、例えば、帯域に関する符号化モードが選ばれた場合、処理されたオーディオ信号の複数のスペクトル帯域の個々のスペクトル帯域について、ミッド-サイド符号化が採用されるか、または、デュアル-モノ符号化が採用されるかどうかを決定するように構成される。
【0067】
ミッド-サイド符号化が前記スペクトル帯域のために採用された場合、符号化ユニット120は、例えば、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、ミッド信号のスペクトル帯域として、処理されたオーディオ信号の第1チャンネルの前記スペクトル帯域を生成するように構成される。符号化ユニット120は、例えば、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、サイド信号のスペクトル帯域として、処理されたオーディオ信号の第2チャンネルの前記スペクトル帯域を生成するように構成される。
【0068】
デュアル-モノ符号化が前記スペクトル帯域のために採用された場合、符号化ユニット120は、例えば、処理されたオーディオ信号の第1チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使用するように構成されると共に、処理されたオーディオ信号の第2チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使用するように構成される。あるいは、符号化ユニット120は、処理されたオーディオ信号の第1チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使用するように構成されると共に、処理されたオーディオ信号の第2チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使用するように構成される。
【0069】
実施の形態によると、符号化ユニット120は、例えば、完全ミッド-サイド符号化モードが採用されるときに、符号化のために必要となる第1ビット数を推定する第1推定を決定することによって、そして、完全デュアル-モノ符号化モードが採用されるときに、符号化のために必要となる第2ビット数を推定する第2推定を決定することによって、そして、帯域に関する符号化モードが採用されるときに、符号化のために必要となる第3ビット数を推定する第3推定を決定することによって、そして、完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードおよび帯域に関する符号化モードのうち、第1推定、第2推定および第3推定のうちで最も小さいビット数を持つ符号化モードを選ぶことによって、完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードおよび帯域に関する符号化モードのうちの1つを選ぶように構成される。
【0070】
【0071】
実施の形態において、完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードおよび帯域に関する符号化モードの中から選択するための目的品質手段が、例えば採用される。
【0072】
実施の形態によると、符号化ユニット120は、例えば、完全ミッド-サイド符号化モードで符号化するときに、節約される第1ビット数を推定する第1推定を決定することによって、そして完全デュアル-モノ符号化モードで符号化するときに、節約される第2ビット数を推定する第2推定を決定することによって、そして帯域に関する符号化モードで符号化するときに、節約される第3ビット数を推定する第3推定を決定することによって、そして完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードおよび帯域に関する符号化モードのうち、第1推定、第2推定および第3推定のうちから節約される最も大きなビット数を持つ符号化モードを選ぶことによって、完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードおよび帯域に関する符号化モードの中から選ぶように構成される。
【0073】
別の実施の形態において、符号化ユニット120は、例えば、完全ミッド-サイド符号化モードが採用されるときに生じる第1信号対雑音比を推定することによって、そして完全デュアル-モノ符号化モードで符号化するときに生じる第2信号対雑音比を推定することによって、そして帯域に関する符号化モードで符号化するときに生じる第3信号対雑音比を推定することによって、そして第1信号対雑音比、第2信号対雑音比および第3信号対雑音比のうちから最も大きな信号対雑音比を持つ完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードおよび帯域に関する符号化モードのうちの符号化モードを選ぶことによって、完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードおよび帯域に関する符号化モードの中から選ぶように構成される。
【0074】
実施の形態において、正規化器110は、例えば、オーディオ入力信号の第1チャンネルのエネルギーに依存すると共に、オーディオ入力信号の第2チャンネルのエネルギーに依存して、オーディオ入力信号のための正規化値を決定するように構成される。
【0075】
実施の形態によると、オーディオ入力信号は、例えば、スペクトル領域で表される。正規化器110は、例えば、オーディオ入力信号の第1チャンネルの複数のスペクトル帯域に依存すると共に、オーディオ入力信号の第2チャンネルの複数のスペクトル帯域に依存して、オーディオ入力信号のための正規化値を決定するように構成される。さらに、正規化器110は、例えば、正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調することによって、正規化されたオーディオ信号を決定するように構成される。
【0076】
実施の形態において、正規化器110は、例えば、以下の式に基づいて正規化値を決定するように構成される。
ここで、MDCTL,kは、オーディオ入力信号の第1チャンネルのMDCTスペクトルのk番目の係数である。MDCTR,kは、オーディオ入力信号の第2チャンネルのMDCTスペクトルのk番目の係数である。正規化器110は、例えば、ILDを量子化することによって、正規化値を決定するように構成される。
【0077】
図1bによって説明された実施の形態によると、符号化のための装置は、例えば変換ユニット102と前処理ユニット105とをさらに含む。変換ユニット102は、例えば変換されたオーディオ信号を得るために、時間領域から周波数領域に時間領域オーディオ信号を変換するように構成される。前処理ユニット105は、例えば、エンコーダ側周波数領域雑音シェーピング操作を、変換されたオーディオ信号に適用することによって、オーディオ入力信号の第1チャンネルおよび第2チャンネルを生成させるように構成される。
【0078】
特定の実施の形態において、前処理ユニット105は、例えば、エンコーダ側周波数領域雑音シェーピング操作を、変換されたオーディオ信号に適用する前に、エンコーダ側時間的雑音シェーピング操作を、変換されたオーディオ信号に適用することによって、オーディオ入力信号の第1チャンネルおよび第2チャンネルを生成させるように構成される。
【0079】
図1cは、変換ユニット115をさらに含んでいる別の実施の形態に従う符号化のための装置を説明する。正規化器110は、例えば、時間領域で表されているオーディオ入力信号の第1チャンネルに依存すると共に、時間領域で表されているオーディオ入力信号の第2チャンネルに依存して、オーディオ入力信号のための正規化値を決定するように構成される。さらに、正規化器110は、例えば、正規化値に依存して、時間領域で表されているオーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成される。変換ユニット115は、例えば、正規化されたオーディオ信号がスペクトル領域で表されるように、正規化されたオーディオ信号を時間領域からスペクトル領域に変換するように構成される。さらに、変換ユニット115は、例えば、スペクトル領域で表されている正規化されたオーディオ信号を符号化ユニット120に供給するように構成される。
【0080】
図1dは、別の実施の形態に従う符号化のための装置を説明する。装置は、第1チャンネルおよび第2チャンネルを含む時間領域オーディオ信号を受信するように構成されている前処理ユニット106をさらに含む。前処理ユニット106は、例えば、時間領域で表されているオーディオ入力信号の第1チャンネルを得るために、第1の知覚的に白色化されたスペクトルを作成する時間領域オーディオ信号の第1チャンネルに、フィルタを適用するように構成される。さらに、前処理ユニット106は、例えば、時間領域で表されているオーディオ入力信号の第2チャンネルを得るために、第2の知覚的に白色化されたスペクトルを作成する時間領域オーディオ信号の第2チャンネルに、フィルタを適用するように構成される。
【0081】
図1eによって説明された実施の形態において、変換ユニット115は、例えば、変換されたオーディオ信号を得るために、時間領域からスペクトル領域に、正規化されたオーディオ信号を変換するように構成される。図1eの実施の形態において、装置は、スペクトル領域で表されている正規化されたオーディオ信号を得るために、変換されたオーディオ信号にエンコーダ側時間的雑音シェーピングを実施するように構成されているスペクトル領域前処理器118をさらに含む。
【0082】
実施の形態によると、符号化ユニット120は、例えば、エンコーダ側ステレオインテリジェントギャップ充填(fillng)を、正規化されたオーディオ信号または処理されたオーディオ信号に適用することによって、符号化されたオーディオ信号を得るように構成される。
【0083】
図1fによって説明された別の実施の形態において、符号化されたオーディオ信号を得るために、4つ以上のチャンネルを含むオーディオ入力信号の4つのチャンネルを符号化するためのシステムが提供される。システムは、符号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、オーディオ入力信号の4つ以上のチャンネルの第1チャンネルおよび第2チャンネルを符号化するための、上で説明された実施の形態のうちの1つに記載の第1装置170を含む。さらに、システムは、符号化されたオーディオ信号の第3チャンネルおよび第4チャンネルを得るために、オーディオ入力信号の4つ以上のチャンネルの第3チャンネルおよび第4チャンネルを符号化するための、上で説明された実施の形態のうちの1つに記載の第2装置180を含む。
【0084】
図2aは、実施の形態に従って、復号化されたオーディオ信号を得るために、第1チャンネルおよび第2チャンネルを含んでいる符号化されたオーディオ信号を復号化するための装置を説明する。
【0085】
復号化のための装置は、複数のスペクトル帯域の個々のスペクトル帯域について、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域、および、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化またはミッド-サイド符号化を使って符号化されたかを決定するように構成された復号化ユニット210を含む。
【0086】
復号化ユニット210は、デュアル-モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使うように構成されると共に、中間オーディオ信号の第2チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使うように構成される。
【0087】
さらに、復号化ユニット210は、ミッド-サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第1チャンネルのスペクトル帯域を生成し、そして、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第2チャンネルのスペクトル帯域を生成するように構成される。
【0088】
さらに、復号化のための装置は、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調するように構成された非正規化器220を含む。
【0089】
実施の形態において、復号化ユニット210は、例えば、符号化されたオーディオ信号が、完全ミッド-サイド符号化モード、完全デュアル-モノ符号化モードまたは帯域に関する符号化モードで符号化されるかどうかを決定するように構成される。
【0090】
さらに、そのような実施の形態において、復号化ユニット210は、例えば、符号化されたオーディオ信号が完全ミッド-サイド符号化モードで符号化されることが決定された場合、符号化されたオーディオ信号の第1チャンネルおよび第2チャンネルから中間オーディオ信号の第1チャンネルを生成させると共に、符号化されたオーディオ信号の第1チャンネルおよび第2チャンネルから中間オーディオ信号の第2チャンネルを生成させるように構成される。
【0091】
そのような実施の形態によると、復号化ユニット210は、例えば、符号化されたオーディオ信号が完全デュアル-モノ符号化モードで符号化されることが決定された場合、中間オーディオ信号の第1チャンネルとして、符号化されたオーディオ信号の第1チャンネルを使うと共に、中間オーディオ信号の第2チャンネルとして、符号化されたオーディオ信号の第2チャンネルを使うように構成される。
【0092】
さらに、そのような実施の形態において、復号化ユニット210は、例えば、符号化されたオーディオ信号が帯域に関する符号化モードで符号化されることが決定された場合、
-複数のスペクトル帯域の個々のスペクトル帯域について、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域、および、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化またはミッド-サイド符号化モードを使って符号化されたかを決定するように構成され、
-デュアル-モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使い、そして、中間オーディオ信号の第2チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使うように構成され、
-ミッド-サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第1チャンネルのスペクトル帯域を生成し、そして、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第2チャンネルのスペクトル帯域を生成するように構成される。
【0093】
例えば、完全ミッド-サイド符号化モードにおいて、以下の式は、符号化されたオーディオ信号の第1チャンネルであるMと符号化されたオーディオ信号の第2チャンネルであるSとによって、中間オーディオ信号の第1チャンネルLおよび中間オーディオ信号の第2チャンネルRを得るように適用される。

L=(M+S)/sqrt(2)
R=(M-S)/sqrt(2)
【0094】
実施の形態によると、復号化されたオーディオ信号は、例えば、正確に2つのチャンネルを含んでいるオーディオステレオ信号である。例えば、復号化されたオーディオ信号の第1チャンネルは、オーディオステレオ信号の左チャンネルであり、復号化されたオーディオ信号の第2チャンネルは、オーディオステレオ信号の右チャンネルである。
【0095】
実施の形態によると、非正規化器220は、例えば、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調するように構成される。
【0096】
図2bにおいて示された別の実施の形態において、非正規化器220は、例えば、非正規化されたオーディオ信号を得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調するように構成される。そのような実施の形態において、装置は、例えば、後処理ユニット230および変換ユニット235をさらに含む。後処理ユニット230は、例えば、後処理されたオーディオ信号を得るために、非正規化されたオーディオ信号に、デコーダ側時間的雑音シェーピングおよびデコーダ側周波数領域雑音シェーピングのうちの最低1つを実施するように構成される。変換ユニット(235)は、例えば、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、後処理されたオーディオ信号をスペクトル領域から時間領域に変換するように構成される。
【0097】
図2cによって説明された実施の形態によると、装置は、中間オーディオ信号をスペクトル領域から時間領域に変換するように構成された変換ユニット215をさらに含む。非正規化器220は、例えば、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、時間領域で表されている中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調するように構成される。
【0098】
図2dによって説明された同様な実施の形態において、変換ユニット215は、例えば、中間オーディオ信号をスペクトル領域から時間領域に変換するように構成される。非正規化器220は、例えば、非正規化されたオーディオ信号を得るために、非正規化値に依存して、時間領域で表されている中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調するように構成される。装置は、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、例えば知覚的に白色化されたオーディオ信号である非正規化されたオーディオ信号を処理するように構成された後処理ユニット235をさらに含む。
【0099】
図2eによって説明される別の実施の形態によると、装置は、中間オーディオ信号に、デコーダ側時間的雑音シェーピングを実施するように構成されたスペクトル領域後処理器212をさらに含む。そのような実施の形態において、変換ユニット215は、デコーダ側時間的雑音シェーピングが中間オーディオ信号に実施された後に、中間オーディオ信号をスペクトル領域から時間領域に変換するように構成される。
【0100】
別の実施の形態において、復号化ユニット210は、例えば、デコーダ側ステレオインテリジェントギャップ充填を、符号化されたオーディオ信号に適用するように構成される。
【0101】
さらに、図2fにおいて説明されるように、4つ以上のチャンネルを含む復号化されたオーディオ信号の4つのチャンネルを得るために、4つ以上のチャンネルを含む符号化されたオーディオ信号を復号化するためのシステムが提供される。システムは、上で説明された実施の形態のうちの1つに応じて、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、符号化されたオーディオ信号の4つ以上のチャンネルの第1チャンネルおよび第2チャンネルを復号化するための第1装置270を含む。さらに、システムは、上で説明された実施の形態のうちの1つに応じて、復号化されたオーディオ信号の第3チャンネルおよび第4チャンネルを得るために、符号化されたオーディオ信号の4つ以上のチャンネルの第3チャンネルおよび第4チャンネルを復号化するための第2装置280を含む。
【0102】
図3は、実施の形態に従って、オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムを説明する。
【0103】
システムは、上で説明した実施の形態のうちの1つに従って、符号化のための装置310を含む。符号化のための装置310は、オーディオ入力信号から、符号化されたオーディオ信号を生成するように構成される。
【0104】
さらに、システムは、上で説明したように、復号化のための装置320を含む。復号化のための装置320は、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するように構成される。
【0105】
同様に、オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムが提供される。システムは、図1fの実施の形態に記載のシステム(ここで、図1fの実施の形態に記載のシステムは、オーディオ入力信号から、符号化されたオーディオ信号を生成するように構成されている)と、図2fの実施の形態に記載のシステム(ここで、図2fの実施の形態に記載のシステムは、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するように構成されている)とを含む。
【0106】
以下において、好ましい実施の形態が説明される。
【0107】
図4は、別の実施の形態に従う符号化のための装置を説明する。とりわけ、特定の実施の形態に従う前処理ユニット105および変換ユニット102が説明される。変換ユニット102は、時間領域からスペクトル領域へのオーディオ入力信号の変換を実施するようにとりわけ構成される。変換ユニットは、オーディオ入力信号に、エンコーダ側時間雑音シェーピングとエンコーダ側周波数領域雑音シェーピングとを実施するように構成される。
【0108】
さらに、図5は、実施の形態に従う符号化のための装置の中のステレオ処理モジュールを説明する。図5は、正規化器110および符号化ユニット120を説明する。
【0109】
さらに、図6は、別の実施の形態に従う復号化するための装置を説明する。とりわけ図6は、特定の実施の形態に従う後処理ユニット230を説明する。後処理ユニット230は、処理されたオーディオ信号を非正規化器220から得るようにとりわけ構成される。後処理ユニット230は、処理されたオーディオ信号に、デコーダ側時間雑音シェーピングおよびデコーダ側周波数領域雑音シェーピングのうちの最低1つを実施するように構成される。
【0110】
時間領域一時検出器(TD TD)およびウィンドウ化(窓化)およびMDCTおよびMDSTおよびOLAは、例えば、[6a]または[6b]において説明されるように実行される。MDCTおよびMDSTは、変調された複合重なり変換(MCLT)を形成する。MDCTとMDSTとを別々に実行することは、MCLTを実行することに等しい。「MCLTからMDCTへ」は、まさにMCLTのMDCT部分を取ることを表し、MDSTを捨てることを表わしている([12]参照)。
【0111】
左チャンネルおよび右チャンネルにおいて異なるウィンドウ長さを選ぶことは、例えば、そのフレームの中のデュアル-モノ符号化を強制する。
【0112】
時間雑音シェーピング(TNS)は、例えば、[6a]または[6b]において説明されたと同様に実行される。
【0113】
周波数領域雑音シェーピング(FDNS)およびFDNSパラメータの計算は、例えば、[8]において説明された手続と同様である。1つの違いは、例えば、TNSが非活動的なフレームのためのFDNSパラメータが、MCLTスペクトルから計算されることである。TNSが活動的なフレームにおいて、MDSTは例えばMDCTから推定される。
【0114】
FDNSは、また、時間領域において白色化する知覚スペクトルと取り替えられる(例えば、[13]において説明されるように)。
【0115】
ステレオ処理は、包括的なILD処理および帯域に関するM/S処理およびチャンネル間のビットレート分配を含む。
【0116】
【0117】
チャンネルのエネルギー比は以下の式である。
ratioILD>1である場合、右チャンネルが1/ratioILDによって縮尺される。さもなければ、左チャンネルがratioILDによって縮尺される。これは、より大きなチャンネルが縮尺されることを効果的に意味する。
【0118】
時間領域で白色化されている知覚スペクトルが使われていた場合(例えば、[13]において説明されるように)、単一の包括的なILDが、時間領域から周波数領域への変換の前に(すなわちMDCTの前に)時間領域で計算され、適用される。あるいは、代わりに、白色化されている知覚スペクトルは、周波数領域で単一の包括的なILDによってフォローされた、時間領域から周波数領域への変換によってフォローされる。あるいは、代わりに、単一の包括的なILDは、時間領域から周波数領域への変換の前に時間領域で計算され、時間領域から周波数領域への変換の後に周波数領域で適用される。
【0119】
【0120】
包括的なゲインGestは、連結された左チャンネルおよび右チャンネルを含む信号において推定される。従って、[6b]および[6a]とは異なる。例えば[6b]または[6a]の5.3.3.2.8.1.1章「包括的なゲイン推定器」において説明されるゲインの第1推定がスカラ量子化から、サンプル毎にビット毎に6dBのSNRゲインを仮定して使われる。
【0121】
推定されたゲインは、最終ゲインGestにおいて過少推定または過大推定を得るために、定数によって乗算される。左チャンネル、右チャンネル、ミッドチャンネルまたはサイドチャンネルにおける信号は、その時、量子化ステップサイズが1/GestであるGestを使って量子化される。
【0122】
量子化された信号は、その時、必要なビット数を得るために、算術符号器、ハフマン(Huffman)符号器または他のエントロピー符号器を使って符号化される。例えば、[6b]または[6a]の5.3.3.2.8.1.3章~5.3.3.2.8.1.7章において説明された算術符号器に基づいた文脈が使われる。レートループ(例えば、[6b]または[6a]の5.3.3.2.8.1.2章)はステレオ符号化の後に実行されるので、必要なビットの推定は十分である。
【0123】
1つの例として、量子化されたチャンネル毎に、算術符号化に基づいた文脈のために必要なビット数が、[6b]または[6a]の5.3.3.2.8.1.3章~5.3.3.2.8.1.7章において説明されるように推定される。
【0124】
実施の形態によると、個々の量子化されたチャンネル(左チャンネル、右チャンネル、ミッドチャンネルまたはサイドチャンネル)のためのビット推定は、以下の例のコードに基づいて決定される。
int context_based_arihmetic_coder_estimate(
int spectrum[],
int start_line,
int end_line,
int lastnz,//lastnz=last non-zero spectrum line
int&ctx,//ctx=context
int&probability,//14 bit fixed point probability
const unsigned int cum_freq[N_CONTEXTS][]
//cum_freq=cumulative frequency tables,14 bit fixed point
)
[
int nBits=0;

for(int k=start_line;k<min(lastnz,end_line);k+=2)
[
int a1=abs(spectrum[k]);
int b1=abs(spectrum[k+1]);

/*Signs Bits*/
nBits+=min(a1,1);
nBits+=min(b1,1);

while(max(a1,b1)>=4)
[
probability*=cum_freq[ctx][VAL_ESC];

int nlz=Number#of_leading_zeros(probability);
nBits+=2+nlz;
probability>>=14-nlz;

a1>>=1;
b1>>=1;

ctx=update_context(ctx,VAL_ESC);
]

int symbol=a1+4*b1;
probability*=(cum_freq[ctx][symbol]-
cum_freq[ctx][symbol+1]);

int nlz=Number_of_leading_zeros(probability);
nBits+=nlz;
hContextMem->proba>>=14-nlz;

ctx=update_context(ctx,a1+b1);
]

return nBits;
]

ここで、spectrumは、コード化されるべき量子化されたスペクトルを指し示すように設定される。start_lineは0に設定される。end_lineはスペクトルの長さに設定される。lastnzは、スペクトルの最後の非ゼロの要素のインデックスに設定される。ctxは0に設定される。確率は、14ビット固定ポイント表記法において1に設定される(16384=1<<14)。
【0125】
概説されるように、上記の例のコードが、例えば、左チャンネル、右チャンネル、ミッドチャンネルまたはサイドチャンネルのうちの最低1つに対してビット推定を得るために使用される。
【0126】
いくつかの実施の形態が、[6b]および[6a]において説明されるように算術符号器を使用する。より一層の詳細は、例えば[6b]の5.3.3.2.8章「算術符号器」に見られる。
【0127】
「完全デュアル-モノ」(bLR)に対して推定されたビット数は、右チャンネルおよび左チャンネルのために必要なビットの合計と等しい。
【0128】
「完全M/S」(bMS)に対して推定されたビット数は、ミッドチャンネルおよびサイドチャンネルのために必要なビットの合計と等しい。
【0129】
上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば、「完全デュアル-モノ」(bLR)に対して推定されたビット数を計算するために採用される。
【0130】
さらに、上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば、「完全M/S」(bMS)に対して推定されたビット数を計算するために採用される。
【0131】
【0132】
【0133】
「帯域に関するM/S」モードは、L/RまたはM/S符号化が使われるかどうかに関わらず、個々の帯域で信号化するための追加のnBandsビットが必要である。「帯域に関するM/S」および「完全デュアル-モノ」および「完全M/S」の間の選択は、例えば、ビットストリームの中のステレオモードとして符号化される。そして、信号化に対して、「完全デュアル-モノ」および「完全M/S」は、「帯域に関するM/S」に比べて追加のビットが必要でない。
【0134】
【0135】
上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば「完全デュアル-モノ」(bLR)に対して推定されたビット数を計算するために採用され、個々の帯域L/R符号化における信号化が使われる。
【0136】
さらに、上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば「完全M/S」(bMS)に対して推定されたビット数を計算するために採用され、個々の帯域M/S符号化における信号化が使われる。
【0137】
いくつかの実施の形態において、例えば、最初にゲインGが推定され、量子化ステップサイズが推定される。そのために、L/Rのチャンネルを符号化するために十分なビットが存在することが期待される。
【0138】
【0139】
既に概説したように、特定の実施の形態によると、個々の量子化されたチャンネルに対して、例えば[6b]の5.3.3.2.8.1.7章「ビット消費推定」において、または、[6a]の同様の章において説明されているように、算術符号化のために必要なビット数が推定される。
【0140】
【0141】
4つの文脈(ctxL、ctxR、ctxM、ctxM)および4つの確率(pL、pR、pM、pM)が初期化され、それから、繰り返しアップデートされる。
【0142】
推定の最初に(i=0に対して)、個々の文脈(ctxL、ctxR、ctxM、ctxM)が0に設定され、個々の確率(pL、pR、pM、pM)が、14ビット固定ポイント表記法の1に設定される(16384=1<<14)。
【0143】
【0144】
【0145】
【0146】
【0147】
代わりの実施の形態において、帯域に関するビット推定は、以下の通り得られる。
【0148】
M/S処理が実行された場合、スペクトルは帯域に分割され、個々の帯域に対して、それが決められる。M/Sが使われる全ての帯域に対して、MDCTL,kおよびMDCTR,kが、MDCTM,k=0.5(MDCTL,k+MDCTR,k)およびMDCTS,k=0.5(MDCTL,k-MDCTR,k)に取り替えられる。
【0149】
帯域に関するM/S対L/Rの決定は、例えば、M/S処理によって節約する推定ビットに基づく。
ここで、NRGR,iは、右チャンネルのi番目の帯域のエネルギーである。NRGL,iは、左チャンネルのi番目の帯域のエネルギーである。NRGM,iは、ミッドチャンネルのi番目の帯域のエネルギーである。NRGS,iは、サイドチャンネルのi番目の帯域のエネルギーである。nlinesiは、i番目の帯域のスペクトル係数の数である。ミッドチャンネルは左チャンネルおよび右チャンネルの合計であり、サイドチャンネルは左チャンネルおよび右チャンネルの差である。
【0150】
bitsSavediは、i番目の帯域のために使われる推定されたビット数によって制限される。
【0151】
図7は、実施の形態に従う帯域に関するM/S決定のためのビットレートを計算することを説明する。
【0152】
特に、図7において、bBWを計算するのためのプロセスが記載される。複雑さを減らすために、帯域i-1までアップするスペクトルを符号化するための算術符号器文脈が、節約され、帯域iにおいて再利用される。
【0153】
【0154】
図8は、実施の形態に従うステレオモードの決定を説明する。
【0155】
「完全デュアル-モノ」が選ばれた場合、完全なスペクトルはMDCTL,kおよびMDCTR,kから成る。「完全なM/S」が選ばれた場合、完全なスペクトルはMDCTM,kおよびMDCTS,kから成る。「帯域に関するM/S」が選ばれた場合、スペクトルのいくつかの帯域はMDCTL,kおよびMDCTR,kから成り、他の帯域はMDCTM,kおよびMDCTS,kから成る。
【0156】
ステレオモードはビットストリームにおいて符号化される。「帯域に関するM/S」モードにおいても、帯域に関するM/S決定が、ビットストリームにおいて符号化される。
【0157】
ステレオ処理後の2つのチャンネルの中のスペクトルの係数は、MDCTLM,kおよびMDCTRS,kとして示される。ステレオモードおよび帯域に関するM/S決定に依存して、MDCTLM,kは、M/S帯域の中のMDCTM,kまたはL/R帯域の中のMDCTL,kに等しく、MDCTRS,kは、M/S帯域の中のMDCTS,kまたはL/R帯域の中のMDCTR,kに等しい。MDCTLM,kから成るスペクトルは、例えば、結合して符号化されたチャンネル0(結合チャンネル0)と称され、または、第1チャンネルと称される。MDCTRS,kから成るスペクトルは、例えば、結合して符号化されたチャンネル1(結合チャンネル1)と称され、または、第2チャンネルと称される。
【0158】
ビットレート分割比は、ステレオ処理されたチャンネルのエネルギーを使って計算される。
【0159】
【0160】
チャンネル間のビットレート分配は以下の通りである。
【0161】
【0162】
レートループを含む量子化および雑音充填およびエントロピー符号化は、[6b]または[6a]の中の5.3.3「TCXに基づいたMDCT」の5.3.3.2「一般符号化手続」において説明される通りである。レートループは、推定されたGestを使って最適化できる。パワースペクトルP(MCLTのマグニチュード)は、[6a]または[6b]において説明されるように、量子化およびインテリジェントギャップ充填(IGF)の中の色調/雑音手段に対して使われる。白色化されて帯域に関するM/S処理されたMDCTスペクトルは、パワースペクトルに対して使われるので、同じFDNSおよびM/S処理は、MDSTスペクトルにおいて実行されるべきである。より大きなチャンネルの包括的なILDに基づいた同じ縮尺化は、MDCTのために実行されるように、MDSTのために実行されるべきである。TNSが活動的であるフレームに対して、パワースペクトル計算のために使われるMDSTスペクトルは、白色化されてM/S処理されたMDCTスペクトル:Pk=MDCTk 2+(MDCTk+1-MDCTk-12から推定される。
【0163】
復号化プロセスは、[6b]または[6a]の中の6.2.2「TCXに基づいたMDCT」において説明されるように、雑音充填によってフォローされて、結合して符号化されたチャンネルのスペクトルの復号化および逆量子化で始まる。個々のチャンネルに割り当てられたビット数は、ビットストリームの中で符号化されるウィンドウ長さおよびステレオモードおよびビットレート分割比に基づいて決定される。個々のチャンネルに割り当てられたビット数は、ビットストリームを完全に復号化する前に知られていなければならない。
【0164】
インテリジェントギャップ充填(IGF)ブロックの中で、スペクトルの特定の範囲においてゼロに量子化されたライン(目標タイルと称される)は、スペクトルの異なる範囲から処理された内容によって満たされ、ソースタイルと称される。帯域に関するステレオ処理のため、ステレオ表現(すなわち、L/RまたはM/Sのいずれか)は、ソースタイルと目標タイルに対して異なる。良い品質を保証するために、ソースタイルの表現が目標タイルの表現と異なる場合、ソースタイルは、デコーダの中のギャップ充填の前に、それを目標タイルの表現に変換するように処理される。この手続は[9]に既に説明されている。IGF自身は、[6a]および[6b]に対比して、オリジナルのスペクトル領域の代わりに、白色化されたスペクトル領域に適用される。既知のステレオ符号器(例えば[9])と対比すると、IGFは白色化されてILD補正されたスペクトル領域で適用される。
【0165】
【0166】
ratioILD>1である場合、右チャンネルがratioILDによって縮尺される。さもなければ、左チャンネルが1/ratioILDによって縮尺される。
【0167】
0による分割が発生する個々の場合に対して、小さいエプシロンが分母に追加される。
【0168】
例えば48kbpsの中間ビットレートに対して、MDCTに基づいた符号化は、ビット消費目標に合致するために、スペクトルの非常に劣悪な量子化を引き起こす。それは、同じスペクトル領域の中で離散的符号化と結合してフレーム-フレーム基礎に適用された、パラメータ符号化の必要を上げて忠実に増加する。
【0169】
以下において、ステレオ充填を採用するそれらの実施の形態のうちのいくつかの面が説明される。上記の実施の形態に対して、ステレオ充填が採用されることは必要でないことは、注目するべきである。従って、上で説明した実施の形態のうちのほんのいくつかが、ステレオ充填を採用する。上で説明した実施の形態の他の実施の形態は、ステレオ充填を全く採用しない。
【0170】
MPEG-H周波数領域ステレオの中のステレオ周波数充填は、例えば[11]において説明される。[11]において、個々の帯域のための目標エネルギーは、倍率という形で(例えばAACで)、エンコーダから送られた帯域エネルギーを利用することによって達成される。周波数領域雑音シェーピング(FDNS)が適用されて、スペクトル包絡がLSF(ラインスペクトル周波数)を使って符号化される場合([6a]、[6b]および[8]参照)、[11]において説明されたステレオ充填アルゴリズムから必要であるとして、いくつかの周波数帯域(スペクトル帯域)だけのための縮尺化を変えることは可能ではない。
【0171】
最初に、いくつかの予備情報が提供される。
【0172】
ミッド/サイド符号化が採用されるときには、異なる方法でサイド信号を符号化することが可能である。
【0173】
実施の形態の第1グループによると、サイド信号Sはミッド信号Mと同じ方法で符号化される。量子化は実施されるけれども、別のステップは必要なビットレートを減らすために実行されない。一般に、そのようなアプローチは、デコーダ側のサイド信号Sのまったく精密な復元を許すことを目的とするけれども、一方では、符号化のための大量のビットを必要とする。
【0174】
実施の形態の第2グループによると、残留サイド信号Sresが、M信号に基づいたオリジナルサイド信号Sから生成される。実施の形態では、残留サイド信号は、例えば以下の式に従って計算される。

res=S-g・M
【0175】
別の実施の形態は、例えば残留サイド信号のために別の定義を採用する。
【0176】
残留信号Sresは量子化されて、パラメータgと共にデコーダに送信される。オリジナルサイド信号Sの代わりに残留信号Sresを量子化することによって、一般に、もっと多くのスペクトル値が0まで量子化される。これは、一般に、量子化されたオリジナルサイド信号Sに比べて、符号化して送信するために必要なビット量を節約する。
【0177】
実施の形態の第2グループのこれらの実施の形態のうちのいくつかにおいて、単一のパラメータgが、完全なスペクトルのために決定され、デコーダに送信される。実施の形態の第2グループの別の実施の形態において、周波数スペクトルの複数の周波数帯域/スペクトル帯域のそれぞれが、例えば2つ以上のスペクトル値を含む。パラメータgは、周波数帯域/スペクトル帯域のそれぞれのために決定され、デコーダに送信される。
【0178】
図12は、ステレオ充填を採用しない実施の形態の第1グループまたは第2グループに従うエンコーダ側のステレオ処理を説明する。
【0179】
図13は、ステレオ充填を採用しない実施の形態の第1グループまたは第2グループに従うデコーダ側のステレオ処理を説明する。
【0180】
実施の形態の第3グループによると、ステレオ充填が採用される。これらの実施の形態のうちのいくつかにおいて、デコーダ側では、特定の時間ポイントtのためのサイド信号Sが、直ぐ前の時間ポイントt-1のミッド信号から生成される。
【0181】
デコーダ側の直ぐ前の時間ポイントt-1のミッド信号から、特定の時間ポイントtのためのサイド信号Sを生成することは、以下の式に従って実行される。

S(t)=hb・M(t-1)
【0182】
エンコーダ側において、パラメータhbは、スペクトルの複数の周波数帯域の個々の周波数帯域に対して決定される。パラメータhbを決定した後、エンコーダはパラメータhbをデコーダに送信する。いくつかの実施の形態において、サイド信号S自身またはその残留のスペクトル値は、デコーダに送信されない。そのようなアプローチは、必要なビットの数を節約することを目的とする。
【0183】
実施の形態の第3グループのいくつかの別の実施の形態において、サイド信号がミッド信号より大きいそれらの周波数帯域に対して少なくとも、それらの周波数帯域のサイド信号のスペクトル値が明示的に符号化され、デコーダに送信される。
【0184】
実施の形態の第4グループによると、サイド信号Sの周波数帯域のうちのいくつかが、オリジナルサイド信号S(実施の形態の第1グループを参照)または残留サイド信号Sresを明示的に符号化することによって符号化される。一方、別の周波数帯域に対して、ステレオ充填が採用される。そのようなアプローチは、実施の形態の第1グループまたは第2グループを、ステレオ充填を採用する実施の形態の第3グループに結合する。例えば、より低い周波数帯域は、オリジナルサイド信号Sまたは残留サイド信号Sresを量子化することによって符号化される。一方、別のより高い周波数帯域に対して、ステレオ充填が採用される。
【0185】
図9は、ステレオ充填を採用する実施の形態の第3グループまたは第4グループに従うエンコーダ側のステレオ処理を説明する。
【0186】
図10は、ステレオ充填を採用する実施の形態の第3グループまたは第4グループに従うデコーダ側のステレオ処理を説明する。
【0187】
ステレオ充填を採用する、上で説明された実施の形態のそれらは、例えば、MPEG-Hにおいて説明されるようにステレオ充填を採用する。MPEG-H周波数領域ステレオを参照しなさい(例えば[11]参照)。
【0188】
ステレオ充填を採用する実施の形態のうちのいくつかは、例えば、スペクトル包絡が、雑音充填と結合したLSFとして符号化されるシステムにおいて、[11]において説明されたステレオ充填アルゴリズムを適用する。スペクトル包絡を符号化することは、例えば、[6a]、[6b]および[8]において説明された例として実行される。雑音充填は、例えば、[6a]および[6b]において説明されるように実行される。
【0189】
いくつかの特定の実施の形態において、ステレオ充填パラメータ計算を含むステレオ充填処理は、0.08Fs(Fs=サンプリング周波数)のような下の周波数から上の周波数(例えばIGFクロスオーバー周波数)までの周波数領域内のM/S帯域の中で実行される。
【0190】
例えば、下の周波数(例えば、0.08Fs)より低い周波数部分に対して、オリジナルサイド信号Sまたはオリジナルサイド信号Sから派生した残留サイド信号が、量子化されてデコーダに送信される。上の周波数(例えばIGFクロスオーバー周波数)より大きい周波数部分に対して、インテリジェントギャップ充填(IGF)が実行される。
【0191】
より具体的には、実施の形態のうちのいくつかにおいて、サイドチャンネル(第2チャンネル)は、完全にゼロまで量子化されるステレオ充填範囲(例えばサンプリング周波数の0.08倍からIGFクロスオーバー周波数まで)内のそれらの周波数帯域に対して、「コピーオーバー」を使って前のフレームの白色化されたMDCTスペクトルダウンミックスから充填される(IGF=インテリジェントギャップ充填)。「コピーオーバー」は、例えば、雑音充填に無料で適用され、それに応じて、エンコーダから送信される補正ファクターに依存して縮尺される。別の実施の形態において、低い周波数は0.08Fsとは別の値を表わしてもよい。
【0192】
0.08Fsの代わりに、いくつかの実施の形態において、下の周波数は、0から0.50Fsの範囲内の値である。特定の実施の形態において、下の周波数は、0.01Fsから0.50Fsの範囲内の値である。例えば、下の周波数は、0.12Fs、0.20Fsまたは0.25Fsである。
【0193】
別の実施の形態において、インテリジェントギャップ充填に加えてまたは代わりに、上の周波数より大きい周波数に対して、雑音充填が実行される。
【0194】
別の実施の形態において、上の周波数が存在しないで、ステレオ充填が下の周波数より大きい個々の周波数部分に対して実行される。
【0195】
更に別の実施の形態において、下の周波数が存在しないで、ステレオ充填が最低周波数帯域から上の周波数までの周波数部分に対して実行される。
【0196】
更に別の実施の形態において、下の周波数および上の周波数が存在しないで、ステレオ充填が全体の周波数スペクトルに対して実行される。
【0197】
以下において、ステレオ充填を採用する特定の実施の形態が説明される。
【0198】
特に、特定の実施の形態に従う補正ファクターを持つステレオ充填が説明される。補正ファクターを持つステレオ充填は、例えば、図9(エンコーダ側)および図10(デコーダ側)のステレオ充填処理ブロックの実施の形態で採用される。
【0199】
以下において、
-DmxRは、例えば、白色化されたMDCTスペクトルのミッド信号を示す。
-SRは、例えば、白色化されたMDCTスペクトルのサイド信号を示す。
-DmxIは、例えば、白色化されたMDSTスペクトルのミッド信号を示す。
-SIは、例えば、白色化されたMDSTスペクトルのサイド信号を示す。
-prevDmxRは、例えば、1つのフレームにより遅延された、白色化されたMDCTスペクトルのミッド信号を示す。
-prevDmxIは、例えば、1つのフレームにより遅延された、白色化されたMDSTスペクトルのミッド信号を示す。
【0200】
ステレオ決定が、全ての帯域に対してM/S(完全M/S)であるとき、または、全てのステレオ充填帯域に対してM/S(帯域に関してM/S)であるとき、ステレオ充填符号化が適用される。
【0201】
完全デュアル-モノ処理を適用することが決定されたときは、ステレオ充填がバイパスされる。さらに、L/R符号化が、スペクトル帯域(周波数帯域)のうちのいくつかに対して選ばれるとき、ステレオ充填もまた、これらのスペクトル帯域について、バイパスされる。
【0202】
今や、ステレオ充填を採用する特定の実施の形態が考慮される。そこで、ブロック内の処理が、例えば以下の通り実行される。
【0203】
周波数帯域(fb)に対して、それは、下の周波数(例えば0.08Fs(Fs=サンプリング周波数))からスタートして、上の周波数(例えばIGFクロスオーバー周波数)に上がる周波数領域内に入る。
-サイド信号SRの残留ResRは、例えば、以下の式に従って計算される。

ResR=SR-aRDmxR-aIDmxI

ここで、aRは複合予測係数の実数部であり、aIは複合予測係数の虚数部である([10]参照)。
サイド信号SIの残留ResIは、例えば、以下の式に従って計算される。

ResI=SI-aRDmxR-aIDmxI

-エネルギー、例えば、残留Resの複合値されたエネルギーおよび前のフレームダウンミックス(ミッド信号)prevDmxの複合値されたエネルギーが以下の式によって計算される。
【0204】
【0205】
-これらの計算されたエネルギー(EResfb、EprevDmxfb)から、ステレオ充填補正ファクターが計算されて、サイド情報としてデコーダに送信される。

correction_factorfb=EResfb/(EprevDmxfb+ε)
【0206】
実施の形態において、ε=0。別の実施の形態において、例えば0による分割を避けるために0.1>ε>0。
【0207】
-帯域に関する倍率は、例えば、ステレオ充填が適用される個々のスペクトル帯域について、計算されたステレオ充填補正ファクターに依存して計算される。デコーダ側において、残留からサイド信号を再構成するための逆複合予測操作が存在しないので(aR=aI=0)、倍率による出力ミッド信号および出力サイド(残留)信号の帯域に関する縮尺が、エネルギー損失を補償するために導入される。
【0208】
特定の実施の形態において、帯域に関する倍率が、例えば以下の式に従って計算される。
ここで、EDmxfbは、上に説明したように計算される、現在のフレームダウンミックスの(例えば複合)エネルギーである。
【0209】
-いくつかの実施の形態において、等価の帯域に対してダウンミックス(ミッド)が残留(サイド)より大きい場合、ステレオ処理ブロックのステレオ充填処理の後、および、量子化の前に、ステレオ充填周波数範囲内に入っている残留のビン(格納箱)がゼロに設定される。
【0210】
従って、より多くのビットが、残留のダウンミックスおよび下の周波数ビンを符号化することに費やされ、全体の品質を高める。
【0211】
代わりの実施の形態において、残留(サイド)の全てのビットが、例えば0に設定される。そのような代わりの実施の形態は、例えば、ダウンミックスが、ほとんどの場合、残留より大きいという仮定に基づく。
【0212】
図11は、デコーダ側のいくつかの特定の実施の形態に従うサイド信号のステレオ充填を説明する。
【0213】
ステレオ充填は、復号化および逆量子化および雑音充填の後に、サイドチャンネルに適用される。ゼロに量子化されるステレオ充填範囲内の周波数帯域に対して、雑音充填後の帯域エネルギーが目標エネルギーに達しない場合、最後のフレームの白色化されたMDCTスペクトルダウンミックスからの「コピーオーバー」が、例えば、(図11において見られるように)適用される。周波数帯域毎の目標エネルギーは、例えば以下の式に従う、エンコーダからのパラメータとして送信されるステレオ補正ファクターから計算される。

ETfb=correction_factorfb・EprevDmxfb
【0214】
以下の式に従って、デコーダ側のサイド信号の生成(例えば、それは、前のダウンミックス「コピーオーバー」と称される)が実行される。
ここで、iは、周波数帯域fb内の周波数ビン(スペクトル値)を示す。Nは、雑音が満ちたスペクトルである。facDmxfbは、前のダウンミックスに適用されるファクターであり、それは、エンコーダから送信されたステレオ充填補正ファクターに依存する。
【0215】
facDmxfbは、特定の実施の形態において、例えば、個々の周波数帯域fbに対して以下の通り計算される。
ここで、ENfbは、帯域fbの雑音が満ちたスペクトルのエネルギーである。EprevDmxfbは、個々の前フレームダウンミックスエネルギーである。
【0216】
エンコーダ側では、代わりの実施の形態はMDSTスペクトル(または、MDCTスペクトル)を考慮しない。それらの実施の形態において、例えば、エンコーダ側の手続が以下の通り適用される。
【0217】
周波数帯域(fb)に対して、それは、下の周波数(例えば0.08Fs(Fs=サンプリング周波数))からスタートして上の周波数(例えばIGFクロスオーバー周波数)に上がる周波数領域内に入る。
-サイド信号SRの残留Resが、例えば、以下の式に従って計算される。

Res=SR-aRDmxR

ここで、aRは、(例えば実数)予測係数である。
【0218】
-残留Resのエネルギーおよび前のフレームダウンミックス(ミッド信号)prevDmxのエネルギーは、以下の式によって計算される。
【0219】
-これらの計算されたエネルギー(EResfb、EprevDmxfb)から、ステレオ充填補正ファクターが計算されて、サイド情報としてデコーダに送信される。

correction_factorfb=EResfb/(EprevDmxfb+ε)
【0220】
実施の形態において、ε=0。別の実施の形態において、例えばゼロによる分割を避けるために、0.1>ε>0。
【0221】
-帯域に関する倍率は、例えば、ステレオ充填が採用される個々のスペクトル帯域について、計算されたステレオ充填補正ファクターに依存して計算される。
【0222】
特定の実施の形態において、帯域に関する倍率が、例えば以下の式に従って計算される。
ここで、EDmxfbは、上に説明したように計算される現在のフレームダウンミックスのエネルギーである。
【0223】
-いくつかの実施の形態において、等価の帯域に対してダウンミックス(ミッド)が残留(サイド)より大きい場合、ステレオ処理ブロックのステレオ充填処理の後、および、量子化の前に、ステレオ充填周波数範囲内に入っている残留のビンがゼロに設定される。
【0224】
従って、より多くのビットが、残留のダウンミックスおよび下の周波数ビンを符号化することに費やされ、全体の品質を改良する。
【0225】
代わりの実施の形態において、残留(サイド)の全てのビットが、例えば0に設定される。そのような代わりの実施の形態は、例えば、ダウンミックスが、ほとんどの場合、残留より大きいという仮定に基づく。
【0226】
実施の形態のうちのいくつかによると、手段が、例えば、FDNSを持つシステムの中のステレオ充填を適用するために提供される。そこでは、スペクトル包絡が、LSF(または、単一の帯域で縮尺して、独立して変更することが可能ではない同様な符号化)を使って符号化される。
【0227】
実施の形態のうちのいくつかによると、手段が、例えば、複合の/実数の予測無しでシステムの中のステレオ充填を適用するために提供される。
【0228】
実施の形態のうちのいくつかは、例えば、明示的なパラメータ(ステレオ充填補正ファクター)がエンコーダからデコーダに送信されるという感覚で、白色化された左右のMDCTスペクトルのステレオ充填(例えば前のフレームのダウンミックスによって)を制御するために、パラメータステレオ充填を採用する。
【0229】
より一般的に、実施の形態のうちのいくつかにおいて、図1a~図1eの符号化ユニット120は、例えば、処理されたオーディオ信号の第1チャンネルの前記最低1つのスペクトル帯域が、前記ミッド信号の前記スペクトル帯域であるように、そして、処理されたオーディオ信号の第2チャンネルの前記最低1つのスペクトル帯域が、前記サイド信号の前記スペクトル帯域であるように、処理されたオーディオ信号を生成するように構成される。符号化されたオーディオ信号を得るために、符号化ユニット120は、例えば、前記サイド信号の前記スペクトル帯域のための補正ファクターを決定することによって、前記サイド信号の前記スペクトル帯域を符号化するように構成される。符号化ユニット120は、例えば、残留に依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する前のミッド信号のスペクトル帯域に依存して、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを決定するように構成される。前のミッド信号は、時間において、前記ミッド信号に先行する。さらに、符号化ユニット120は、例えば、前記サイド信号の前記スペクトル帯域に依存すると共に、前記ミッド信号の前記スペクトル帯域に依存して、残留を決定するように構成される。
【0230】
実施の形態のうちのいくつかによると、符号化ユニット120は、例えば、以下の式に従って、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを決定するように構成される。

correction_factorfb=EResfb/(EprevDmxfb+ε)

ここで、correction_factorfbは、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを示す。EResfbは、前記ミッド信号の前記スペクトル帯域に対応する前記残留のスペクトル帯域のエネルギーに依存する残留エネルギーを示す。EprevDmxfbは、前のミッド信号のスペクトル帯域のエネルギーに依存する前のエネルギーを示す。ε=0、または、0.1>ε>0。
【0231】
実施の形態のうちのいくつかにおいて、前記残留は、例えば、以下の式に従って定義される。

ResR=SR-aRDmxR

ここで、ResRは、前記残留である。SRは、前記サイド信号である。aRは、(例えば実数)係数(例えば予測係数)である。DmxRは、前記ミッド信号である。符号化ユニット(120)は、以下の式に従って前記残留エネルギーを決定するように構成される。
【0232】
実施の形態のうちのいくつかによると、前記残留は以下の式に従って定義される。

ResR=SR-aRDmxR-aIDmxI

ここで、ResRは前記残留である。SRは前記サイド信号である。aRは複合(予測)係数の実数部であり、aIは複合(予測)係数の虚数部分である。DmxRは前記ミッド信号である。DmxIは、正規化されたオーディオ信号の第1チャンネルに依存すると共に、正規化されたオーディオ信号の第2チャンネルに依存する別のミッド信号である。正規化されたオーディオ信号の第1チャンネルに依存すると共に、正規化されたオーディオ信号の第2チャンネルに依存する別のサイド信号SIの別の残留は、以下の式に従って定義される。

ResI=SI-aRDmxR-aIDmxI
【0233】
符号化ユニット120は、例えば、以下の式に従って前記残留エネルギーを決定するように構成される。
符号化ユニット120は、例えば、前記ミッド信号の前記スペクトル帯域に対応する前記残留のスペクトル帯域のエネルギーに依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する前記別の残留のスペクトル帯域のエネルギーに依存する前のエネルギーを決定するように構成される。
【0234】
実施の形態のうちのいくつかにおいて、図2a~図2eの復号化ユニット210は、例えば、前記複数のスペクトル帯域の個々のスペクトル帯域について、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域、および、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル-モノ符号化またはミッド-サイド符号化を使って符号化されたかを決定するように構成される。さらに、復号化ユニット210は、例えば、第2チャンネルの前記スペクトル帯域を再構成することによって、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を得るように構成される。ミッド-サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域は、ミッド信号のスペクトル帯域であると共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域は、サイド信号のスペクトル帯域である。さらに、ミッド-サイド符号化が使われていた場合、復号化ユニット210は、例えば、サイド信号の前記スペクトル帯域のための補正ファクターに依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する、前のミッド信号のスペクトル帯域に依存して、サイド信号の前記スペクトル帯域を再構成するように構成される。前のミッド信号は、時間において、前記ミッド信号に先行する。
【0235】
実施の形態のうちのいくつかによると、ミッド-サイド符号化が使われていた場合、復号化ユニット210は、例えば、以下の式に従ってサイド信号の前記スペクトル帯域のスペクトル値を再構成することによって、サイド信号の前記スペクトル帯域を再構成するように構成される。

i=Ni+facDmxfb・prevDmxi

ここで、Siはサイド信号の前記スペクトル帯域のスペクトル値を示す。prevDmxiは前記前のミッド信号のスペクトル帯域のスペクトルの値を示す。Niは雑音が満ちたスペクトルのスペクトル値を示す。facDmxfbは以下の式に従って定義される。
ここで、correction_factorfbは、サイド信号の前記スペクトル帯域の補正ファクターである。ENfbは、雑音が満たされたスペクトルのエネルギーである。EprevDmxfbは、前記前のミッド信号の前記スペクトル帯域のエネルギーである。ε=0、または、0.1>ε>0。
【0236】
実施の形態のうちのいくつかにおいて、残留は、例えば、エンコーダ側の複合ステレオ予測アルゴリズムから引き出される。一方、ステレオ予測(実数または複合)は、デコーダ側に存在しない。
【0237】
実施の形態のうちのいくつかによると、エンコーダ側のスペクトルのエネルギー補正縮尺化が、例えば、逆予測処理はデコーダ側に存在しないという事実を補償するために使用される。
【0238】
いくつかの面が装置の文脈において説明されたけれども、これらの面が、ブロックまたはデバイスが、方法ステップまたは方法ステップの機能に対応している方法の説明も表していることは明確である。相似的に、方法ステップの文脈において説明された面は、対応した装置の対応したブロックまたはアイテムまたは機能の説明も表している。方法ステップのいくつかまたは全てが、例えば、マイクロプロセッサー、プログラム化可能なコンピュータまたは電子回路のようなハードウェア装置によって(または使って)実行される。いくつかの実施の形態において、最も重要な方法ステップのうちの1つ以上が、そのような装置によって実行される。
【0239】
特定の実現要求に依存することによって、発明の実施の形態は、ハードウェア、ソフトウェア、ハードウェアの少なくとも一部またはソフトウェアの少なくとも一部において実現される。実現は、その上に記憶された電子的に読み取り可能な制御信号を持つデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイディスク、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使って実行される。それらは、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協力する、または、協力することができる。従って、デジタル記憶媒体は、コンピュータが読み取り可能である。
【0240】
発明に従ういくつかの実施の形態は、ここに、説明された方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協力することができる、電子的に読み取り可能な制御信号を持つデータキャリアを含む。
【0241】
一般に、本発明の実施の形態は、プログラムコードを持つコンピュータプログラム製品として実行される。プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働するとき、方法のうちの1つを実行するように働く。プログラムコードは、例えば、機械読み取り可能キャリアに記憶される。
【0242】
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを含む。コンピュータプログラムは、機械読み取り可能キャリアに記憶される。
【0243】
すなわち、本発明の方法の実施の形態は、コンピュータプログラムがコンピュータ上を稼働するとき、ここに説明された方法のうちの1つを実行するためのプログラムコードを持つコンピュータプログラムである。
【0244】
従って、本発明の方法の別の実施の形態は、データキャリア(または、デジタル記憶媒体またはコンピュータ読み取り可能媒体)が、その上に記録された、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0245】
従って、本発明の方法の別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを表わす信号のデータストリームまたはシーケンスである。信号のデータストリームまたはシーケンスは、例えば、データ通信接続を介して(例えばインターネットを介して)、送信されるように構成される。
【0246】
別の実施の形態は、処理手段、例えば、ここに説明された方法のうちの1つを実行するように構成された又は適応した、コンピュータまたはプログラム可能な論理デバイスを含む。
【0247】
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールされたコンピュータを含む。
【0248】
発明に従う別の実施の形態は、ここに説明された方法のうちの少なくとも1つを実行するためのコンピュータプログラムを、受信機に送信するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータまたはモバイル機器またはメモリデバイスまたは同様な機器である。装置またはシステムは、例えば、コンピュータプログラムを受信機に送信するためのファイルサーバーを含む。
【0249】
いくつかの実施の形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)は、ここに説明された方法の機能のうちのいくつかまたは全てを実行するために使用される。いくつかの実施の形態において、フィールドプログラマブルゲートアレイは、ここに説明された方法のうちの1つを実行するために、マイクロプロセッサーと協働する。一般に、方法は、どのようなハードウェア装置によっても好ましく実行される。
【0250】
ここに説明された装置は、ハードウェア装置を使って、またはコンピュータを使って、またはハードウェア装置とコンピュータとの結合を使うことによって実施される。
【0251】
ここに説明された方法は、ハードウェア装置を使って、またはコンピュータを使って、またはハードウェア装置とコンピュータとの結合を使うことによって実行される。
【0252】
上述の実施の形態は、単に、本発明の原則を説明しただけである。ここに、説明された配置と詳細の修正とバリエーションが、当業者に明白であることは理解される。従って、発明は、ここの実施の形態の記述と説明によって示された特定の詳細ではなく、付加された特許の請求項の範囲だけに制限されることが意思である。
【0253】
参考文献
[1] J. Herre, E. Eberlein and K. Brandenburg, “Combined Stereo Coding”, in 93rd AES Convention, San Francisco, 1992.

[2] J. D. Johnston and A. J. Ferreira, “Sum-difference stereo transform codi ng”, in Proc. ICASSP, 1992.

[3] ISO/IEC 11172-3, Information technology - Coding of moving pictures and a ssociated audio for digital storage media at up to about 1,5 Mbit/s - Part 3 : Audio, 1993.

[4] ISO/IEC 13818-7, Information technology - Generic coding of moving pictur es and associated audio information - Part 7: Advanced Audio Coding (AAC), 2 003.

[5] J.-M. Valin, G. Maxwell, T. B. Terriberry and K. Vos, “High-Quality, Lo w-Delay Music Coding in the Opus Codec”, in Proc. AES 135th Convention, New York, 2013.

[6a] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description, V 12.5.0, Dezember 2015.

[6b] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description, V 13.3.0, September 2016.

[7] H. Purnhagen, P. Carlsson, L. Villemoes, J. Robilliard, M. Neusinger, C. Helmrich, J. Hilpert, N. Rettelbach, S. Disch and B. Edler, “Audio encoder, audio decoder and related methods for processing multi-channel audio signal s using complex prediction”. US Patent 8,655,670 B2, 18 February 2014.

[8] G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich and B. Schubert, “ Linear prediction based coding scheme using spectral domain noise shaping” . European Patent 2676266 B1, 14 February 2011.

[9] S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler and C. Helmrich, “Audio Encoder, Audio Decoder and Relat ed Methods Using Two-Channel Processing Within an Intelligent Gap Filling Fr amework”. International Patent PCT/EP2014/065106, 15 07 2014.

[10] C. Helmrich, P. Carlsson, S. Disch, B. Edler, J. Hilpert, M. Neusi nger, H. Purnhagen, N. Rettelbach, J. Robilliard and L. Villemoes, “Effici ent Transform Coding Of Two-channel Audio Signals By Means Of Complex-valued Stereo Prediction”, in Acoustics, Speech and Signal Processing (ICASSP), 2 011 IEEE International Conference on, Prague, 2011.

[11] C. R. Helmrich, A. Niedermeier, S. Bayer and B. Edler, “Low-comp lexity semi-parametric joint-stereo audio transform coding”, in Signal Proc essing Conference (EUSIPCO), 2015 23rd European, 2015.

[12] H. Malvar, "A Modulated Complex Lapped Transform and its Applicati ons to Audio Processing", in Acoustics, Speech, and Signal Processing (ICASS P), 1999. Proceedings., 1999 IEEE International Conference on, Phoenix, AZ, 1999.

[13] B. Edler and G. Schuller, “Audio coding using a psychoacoustic pr e- and post-filter” Acoustics, Speech, and Signal Processing, 2000. ICASSP '00.
図1a
図1b
図1c
図1d
図1e
図1f
図2a
図2b
図2c
図2d
図2e
図2f
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13