(58)【調査した分野】(Int.Cl.,DB名)
前記符号化ユニット(120)は、前記正規化されたオーディオ信号の第1チャンネルの複数のスペクトル帯域に依存すると共に、前記正規化されたオーディオ信号の第2チャンネルの複数のスペクトル帯域に依存して、完全ミッド−サイド符号化モードおよび完全デュアル−モノ符号化モードおよび帯域に関する符号化モードの中から選ばれるように構成され、
前記完全ミッド−サイド符号化モードが選ばれた場合、前記符号化ユニット(120)は、ミッド−サイド信号の第1チャンネルとして、前記正規化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルからミッド信号を生成するように、そして、前記ミッド−サイド信号の第2チャンネルとして、前記正規化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルからサイド信号を生成するように、そして、符号化されたオーディオ信号を得るために前記ミッド−サイド信号を符号化するように構成され、
前記完全デュアル−モノ符号化モードが選ばれた場合、前記符号化ユニット(120)は、前記符号化されたオーディオ信号を得るために、前記正規化されたオーディオ信号を符号化するように構成され、
前記帯域に関する符号化モードが選ばれた場合、前記符号化ユニット(120)は、前記処理されたオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域が、前記正規化されたオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、前記処理されたオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域が、前記正規化されたオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、前記処理されたオーディオ信号の前記第1チャンネルの最低1つのスペクトル帯域が、前記正規化されたオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記正規化されたオーディオ信号の前記第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、前記処理されたオーディオ信号の前記第2チャンネルの最低1つのスペクトル帯域が、前記正規化されたオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記正規化されたオーディオ信号の前記第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように構成され、前記符号化ユニット(120)は、前記符号化されたオーディオ信号を得るために、前記処理されたオーディオ信号を符号化するように構成されていること、
を特徴とする請求項1に記載の装置。
前記符号化ユニット(120)は、前記帯域に関する符号化モードが選ばれた場合、前記処理されたオーディオ信号の複数のスペクトル帯域の個々のスペクトル帯域について、ミッド−サイド符号化が採用されるか、または、デュアル−モノ符号化が採用されるかどうかを決定するように構成され、
前記ミッド−サイド符号化が前記スペクトル帯域のために採用された場合、前記符号化ユニット(120)は、前記正規化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記正規化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、ミッド信号のスペクトル帯域として、前記処理されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を生成するように構成され、mた、前記符号化ユニット(120)は、前記正規化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記正規化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、サイド信号のスペクトル帯域として、前記処理されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を生成するように構成され、
前記デュアル−モノ符号化が前記スペクトル帯域のために採用された場合、前記符号化ユニット(120)は、前記処理されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域として、前記正規化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を使用するように構成されると共に、前記処理されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域として、前記正規化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を使用するように構成される、あるいは、前記符号化ユニット(120)は、前記処理されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域として、前記正規化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を使用するように構成されると共に、前記処理されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域として、前記正規化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を使用するように構成されていること、
を特徴とする請求項2に記載の装置。
前記符号化ユニット(120)は、前記完全ミッド−サイド符号化モードが採用されるときに符号化のために必要となる第1ビット数を推定する第1推定を決定することによって、そして、前記完全デュアル−モノ符号化モードが採用されるときに、符号化のために必要となる第2ビット数を推定する第2推定を決定することによって、そして、前記帯域に関する符号化モードが採用されるときに、符号化のために必要となる第3ビット数を推定する第3推定を決定することによって、そして、前記完全ミッド−サイド符号化モードおよび前記完全デュアル−モノ符号化モードおよび前記帯域に関する符号化モードのうち、前記第1推定および前記第2推定および前記第3推定のうちで最も小さいビット数を持つ符号化モードを選ぶことによって、前記完全ミッド−サイド符号化モードおよび前記完全デュアル−モノ符号化モードおよび前記帯域に関する符号化モードのうちから選ぶように構成されていること、
を特徴とする請求項2または請求項3に記載の装置。
前記符号化ユニット(120)は、前記完全ミッド−サイド符号化モードで符号化するときに、節約される第1ビット数を推定する第1推定を決定することによって、そして前記完全デュアル−モノ符号化モードで符号化するときに、節約される第2ビット数を推定する第2推定を決定することによって、そして前記帯域に関する符号化モードで符号化するときに、節約される第3ビット数を推定する第3推定を決定することによって、そして前記完全ミッド−サイド符号化モードおよび前記完全デュアル−モノ符号化モードおよび前記帯域に関する符号化モードのうち、前記第1推定および前記第2推定および前記第3推定のうちから節約される最も大きなビット数を持つ符号化モードを選ぶことによって、前記完全ミッド−サイド符号化モードおよび前記完全デュアル−モノ符号化モードおよび前記帯域に関する符号化モードのうちから選ぶように構成されていること、
を特徴とする請求項2または請求項3に記載の装置。
前記符号化ユニット(120)は、前記完全ミッド−サイド符号化モードが採用されるときに生じる第1信号対雑音比を推定することによって、そして前記完全デュアル−モノ符号化モードで符号化するときに生じる第2信号対雑音比を推定することによって、そして前記帯域に関する符号化モードで符号化するときに生じる第3信号対雑音比を推定することによって、そして前記完全ミッド−サイド符号化モードおよび前記完全デュアル−モノ符号化モードおよび前記帯域に関する符号化モードのうち、前記第1信号対雑音比および前記第2信号対雑音比および前記第3信号対雑音比のうちから最も大きな信号対雑音比を持つ符号化モードを選ぶことによって、前記完全ミッド−サイド符号化モードおよび前記完全デュアル−モノ符号化モードおよび前記帯域に関する符号化モードのうちから選ぶように構成されていること、
を特徴とする請求項2または請求項3に記載の装置。
前記符号化ユニット(120)は、前記処理されたオーディオ信号の前記第1チャンネルの前記最低1つのスペクトル帯域が、前記ミッド信号の前記スペクトル帯域であるように、そして、前記処理されたオーディオ信号の前記第2チャンネルの前記最低1つのスペクトル帯域が、前記サイド信号の前記スペクトル帯域であるように、前記処理されたオーディオ信号を生成するように構成され、
前記符号化されたオーディオ信号を得るために、前記符号化ユニット(120)は、前記サイド信号の前記スペクトル帯域のための補正ファクターを決定することによって、前記サイド信号の前記スペクトル帯域を符号化するように構成され、
前記符号化ユニット(120)は、残留に依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する前のミッド信号のスペクトル帯域に依存して、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを決定するように構成され、前記前のミッド信号は、時間において前記ミッド信号に先行し、
前記符号化ユニット(120)は、前記サイド信号の前記スペクトル帯域に依存すると共に、前記ミッド信号の前記スペクトル帯域に依存して、前記残留を決定するように構成されていること、
を特徴とする請求項1に記載の装置。
前記正規化器(110)は、前記オーディオ入力信号の前記第1チャンネルのエネルギーに依存すると共に、前記オーディオ入力信号の前記第2チャンネルのエネルギーに依存して、前記オーディオ入力信号のための前記正規化値を決定するように構成されること、を特徴とする請求項1ないし請求項11のいずれかに記載の装置。
符号化のための前記装置は、変換ユニット(102)と前処理ユニット(105)とをさらに含み、前記変換ユニット(102)は、変換されたオーディオ信号を得るために、時間領域から周波数領域に時間領域オーディオ信号を変換するように構成され、
前記前処理ユニット(105)は、エンコーダ側周波数領域雑音シェーピング操作を、前記変換されたオーディオ信号に適用することによって、前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルを生成させるように構成されていること、
を特徴とする請求項13または請求項14に記載の装置。
前記前処理ユニット(105)は、前記エンコーダ側周波数領域雑音シェーピング操作を、前記変換されたオーディオ信号に適用する前に、エンコーダ側時間的雑音シェーピング操作を、前記変換されたオーディオ信号に適用することによって、前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルを生成させるように構成されていること、を特徴とする請求項15に記載の装置。
前記正規化器(110)は、時間領域で表されている前記オーディオ入力信号の前記第1チャンネルに依存すると共に、前記時間領域で表されている前記オーディオ入力信号の前記第2チャンネルに依存して、前記オーディオ入力信号のための正規化値を決定するように構成され、
前記正規化器(110)は、前記正規化値に依存して、前記時間領域で表されている前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つを変調することによって、前記正規化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを決定するように構成され、
前記装置は、前記正規化されたオーディオ信号がスペクトル領域で表されるように、前記正規化されたオーディオ信号を前記時間領域から前記スペクトル領域に変換するように構成された変換ユニット(115)をさらに含み、
前記変換ユニット(115)は、前記スペクトル領域で表されている前記正規化されたオーディオ信号を前記符号化ユニット(120)に供給するように構成されていること、
を特徴とする請求項1ないし請求項12のいずれかに記載の装置。
前記変換ユニット(115)は、変換されたオーディオ信号を得るために、前記時間領域から前記スペクトル領域に、前記正規化されたオーディオ信号を変換するように構成され、
前記装置は、スペクトル領域で表されている正規化されたオーディオ信号を得るために、前記変換されたオーディオ信号にエンコーダ側時間的雑音シェーピングを実施するように構成されているスペクトル領域前処理器(118)をさらに含むこと、
を特徴とする請求項17または請求項18に記載の装置。
前記符号化ユニット(120)は、エンコーダ側ステレオインテリジェントギャップ充填を、前記正規化されたオーディオ信号または前記処理されたオーディオ信号に適用することによって、前記符号化されたオーディオ信号を得るように構成されていること、を特徴とする請求項1ないし請求項19のいずれかに記載の装置。
2つ以上のチャンネルを含む復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、第1チャンネルおよび第2チャンネルを含んでいる符号化されたオーディオ信号を復号化するための装置であって、
前記装置は、複数のスペクトル帯域の個々のスペクトル帯域について、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域、および、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、デュアル−モノ符号化を使って符号化されたか、またはミッド−サイド符号化を使って符号化されたかを決定するように構成された復号化ユニット(210)を含み、
前記復号化ユニット(210)は、前記デュアル−モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を使うように構成されると共に、前記中間オーディオ信号の第2チャンネルのスペクトル帯域として、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を使うように構成され、
前記復号化ユニット(210)は、前記ミッド−サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域を生成し、そして、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域を生成するように構成され、
前記装置は、単一の非正規化値に依存して、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つの前記複数のスペクトル帯域を変調して、前記非正規化値を前記複数のスペクトル帯域に適用することによって、非正規化されたオーディオ信号を得るように構成された非正規化器(220)を含むこと、
を特徴とする装置。
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が、完全ミッド−サイド符号化モードまたは完全デュアル−モノ符号化モードまたは帯域に関する符号化モードで符号化されるかどうかを決定するように構成され、
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が前記完全ミッド−サイド符号化モードで符号化されることが決定された場合、前記符号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルから前記中間オーディオ信号の前記第1チャンネルを生成させると共に、前記符号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルから前記中間オーディオ信号の前記第2チャンネルを生成させるように構成され、
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が前記完全デュアル−モノ符号化モードで符号化されることが決定された場合、前記中間オーディオ信号の前記第1チャンネルとして、前記符号化されたオーディオ信号の前記第1チャンネルを使うと共に、前記中間オーディオ信号の前記第2チャンネルとして、前記符号化されたオーディオ信号の前記第2チャンネルを使うように構成され、
前記復号化ユニット(210)は、前記符号化されたオーディオ信号が前記帯域に関する符号化モードで符号化されることが決定された場合、
複数のスペクトル帯域の個々のスペクトル帯域について、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域、および、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、前記デュアル−モノ符号化を使って符号化されたか、または前記ミッド−サイド符号化モードを使って符号化されたかを決定するように構成され、
前記デュアル−モノ符号化が使われていた場合、前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域として、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を使い、そして、前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域として、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を使うように構成され、
前記ミッド−サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域を生成し、そして、前記符号化されたオーディオ信号の第前記1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域を生成するように構成されていること、
を特徴とする請求項23に記載の装置。
前記復号化ユニット(210)は、前記複数のスペクトル帯域の個々のスペクトル帯域について、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域、および、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、デュアル−モノ符号化を使って符号化されたか、またはミッド−サイド符号化を使って符号化されたかを決定するように構成され、
前記復号化ユニット(210)は、前記第2チャンネルの前記スペクトル帯域を再構成することによって、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を得るように構成され、
ミッド−サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域は、ミッド信号のスペクトル帯域であると共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域は、サイド信号のスペクトル帯域であり、
ミッド−サイド符号化が使われていた場合、前記復号化ユニット(210)は、前記サイド信号の前記スペクトル帯域のための補正ファクターに依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する、前のミッド信号のスペクトル帯域に依存して、前記サイド信号の前記スペクトル帯域を再構成するように構成され、前記前のミッド信号は、時間において、前記ミッド信号に先行すること、
を特徴とする請求項23に記載の装置。
前記非正規化器(220)は、前記復号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを得るために、前記非正規化値に依存して、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つの前記複数のスペクトル帯域を変調するように構成されていること、
を特徴とする請求項23ないし請求項26のいずれかに記載の装置。
前記非正規化器(220)は、非正規化されたオーディオ信号を得るために、前記非正規化値に依存して、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つの前記複数のスペクトル帯域を変調するように構成され
前記装置は、後処理ユニット(230)および変換ユニット(235)をさらに含み、
前記後処理ユニット(230)は、後処理されたオーディオ信号を得るために、前記非正規化されたオーディオ信号に、デコーダ側時間的雑音シェーピングおよびデコーダ側周波数領域雑音シェーピングのうちの最低1つを実施するように構成され、
前記変換ユニット(235)は、前記復号化されたオーディオ信号の前記第1チャンネルおよび前記第2チャンネルを得るために、前記後処理されたオーディオ信号をスペクトル領域から時間領域に変換するように構成されていること、
を特徴とする請求項23ないし請求項26のいずれかに記載の装置。
前記復号化ユニット(210)は、デコーダ側ステレオインテリジェントギャップ充填を、符号化されたオーディオ信号に適用するように構成されていること、を特徴とする請求項23ないし請求項31のいずれかに記載の装置。
前記復号化されたオーディオ信号が、正確に2つのチャンネルを含むオーディオステレオ信号であること、を特徴とする請求項23ないし請求項32のいずれかに記載の装置。
4つ以上のチャンネルを含む復号化されたオーディオ信号の4つのチャンネルを得るために、4つ以上のチャンネルを含む符号化されたオーディオ信号を復号化するためのシステムであって、前記システムは、
前記復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、前記符号化されたオーディオ信号の前記4つ以上のチャンネルの第1チャンネルおよび第2チャンネルを復号化するための請求項23ないし請求項32のいずれかに記載の第1装置270と、
前記復号化されたオーディオ信号の第3チャンネルおよび第4チャンネルを得るために、前記符号化されたオーディオ信号の前記4つ以上のチャンネルの第3チャンネルおよび第4チャンネルを復号化するための請求項23ないし請求項32のいずれかに記載の第2装置280と、を含むこと、
を特徴とするシステム。
オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、前記符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムであって、前記システムは、
請求項1ないし請求項21のいずれかに記載の装置(310)を含み、請求項1ないし請求項21のいずれかに記載の装置(310)は、前記オーディオ入力信号から、前記符号化されたオーディオ信号を生成するように構成され、
請求項23ないし請求項33のいずれかに記載の装置(320)を含み、請求項23ないし請求項33のいずれかに記載の装置(320)は、前記符号化されたオーディオ信号から、前記復号化されたオーディオ信号を生成するように構成されていること、
を特徴とするシステム。
オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムであって、前記システムは、
請求項22に記載のシステムであって、請求項22に記載のシステムは、前記オーディオ入力信号から、前記符号化されたオーディオ信号を生成するように構成され、
請求項34に記載のシステムであって、請求項34に記載のシステムは、前記符号化されたオーディオ信号から、前記復号化されたオーディオ信号を生成するように構成されていること、
を特徴とするシステム。
符号化されたオーディオ信号を得るために、2つ以上のチャンネルを含むオーディオ入力信号の第1チャンネルおよび第2チャンネルを符号化するための方法であっって、前記方法は、
前記オーディオ入力信号の前記第1チャンネルに依存すると共に、前記オーディオ入力信号の前記第2チャンネルに依存して、前記オーディオ入力信号のための正規化値を決定し、
前記正規化値に依存して、前記オーディオ入力信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定し、
処理されたオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域が、前記正規化されたオーディオ信号の前記第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、前記処理されたオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域が、前記正規化されたオーディオ信号の前記第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、前記処理されたオーディオ信号の前記第1チャンネルの最低1つのスペクトル帯域が、前記正規化されたオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記正規化されたオーディオ信号の前記第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、前記処理されたオーディオ信号の前記第2チャンネルの最低1つのスペクトル帯域が、前記正規化されたオーディオ信号の前記第1チャンネルのスペクトル帯域に依存すると共に、前記正規化されたオーディオ信号の前記第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように、前記第1チャンネルおよび前記第2チャンネルを持つ前記処理されたオーディオ信号を生成し、そして、前記符号化されたオーディオ信号を得るために、前記処理されたオーディオ信号を符号化することを含むこと、
を特徴とする方法。
2つ以上のチャンネルを含む復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、第1チャンネルおよび第2チャンネルを含む符号化されたオーディオ信号を復号化するための方法であって、前記方法は、
前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域および前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域が、デュアル−モノ符号化を使用して符号化されたか、またはミッド−サイド符号化を使用して符号化されたかを、複数のスペクトル帯域の個々のスペクトル帯域毎に決定し、
デュアル−モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域を使うと共に、前記中間オーディオ信号の第2チャンネルのスペクトル帯域として、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域を使い、
ミッド−サイド符号化が使われていた場合、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第1チャンネルのスペクトル帯域を生成し、かつ、前記符号化されたオーディオ信号の前記第1チャンネルの前記スペクトル帯域に基づくと共に、前記符号化されたオーディオ信号の前記第2チャンネルの前記スペクトル帯域に基づいて、前記中間オーディオ信号の前記第2チャンネルのスペクトル帯域を生成し、そして、
非正規化値を前記複数のスペクトル帯域に適用することで、非正規化されたオーディオ信号を得るために、単一の非正規化値に依存して、前記中間オーディオ信号の前記第1チャンネルおよび前記第2チャンネルのうちの最低1つの前記複数のスペクトル帯域を変調するステップを含むこと、
を特徴とする方法。
【発明を実施するための形態】
【0056】
図1aは、実施の形態に従って、符号化されたオーディオ信号を得るために、2つ以上のチャンネルを含むオーディオ入力信号の第1チャンネルおよび第2チャンネルを符号化するための装置を説明する。
【0057】
装置は、オーディオ入力信号の第1チャンネルに依存すると共に、オーディオ入力信号の第2チャンネルに依存して、オーディオ入力信号のための正規化値を決定するように構成された正規化器110を含む。正規化器110は、正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成されている。
【0058】
例えば、正規化器110は、実施の形態において、オーディオ入力信号の第1チャンネルおよび第2チャンネルの複数のスペクトル帯域に依存して、オーディオ入力信号のための正規化値を決定するように構成される。正規化器110は、例えば、正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成される。
【0059】
あるいは、例えば、正規化器110は、時間領域で表されているオーディオ入力信号の第1チャンネルに依存すると共に、時間領域で表されているオーディオ入力信号の第2チャンネルに依存して、オーディオ入力信号のための正規化値を決定するように構成される。さらに、正規化器110は、正規化値に依存して、時間領域で表されているオーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成される。装置は、さらに、正規化されたオーディオ信号がスペクトル領域で表わされるように、正規化されたオーディオ信号を時間領域からスペクトル領域に変換するように構成されている変換ユニット(
図1aにおいて表示されてない)を含む。変換ユニットは、スペクトル領域で表されている正規化されたオーディオ信号を符号化ユニット120に供給するように構成される。例えば、オーディオ入力信号は、時間領域オーディオ信号のLPCフィルタリング(LPC=線形予測符号化)の2つのチャンネルから生じる時間領域残留信号である。
【0060】
さらに、装置は、処理されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第1チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように、第1チャンネルおよび第2チャンネルを持つ処理されたオーディオ信号を生成するように構成されている符号化ユニット120を含む。符号化ユニット120は、符号化されたオーディオ信号を得るために、処理されたオーディオ信号を符号化するように構成される。
【0061】
実施の形態において、符号化ユニット120は、例えば、正規化されたオーディオ信号の第1チャンネルの複数のスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルの複数のスペクトル帯域に依存して、完全ミッド−サイド(full−mid−side)符号化モードと完全デュアル−モノ(full−dual−mono)符号化モードと帯域に関する(band−wise)符号化モードとから選ぶように構成される。
【0062】
そのような実施の形態において、符号化ユニット120は、例えば、完全ミッド−サイド符号化モードが選ばれた場合、ミッド−サイド信号の第1チャンネルとして、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルからミッド信号を生成するように、そして、ミッド−サイド信号の第2チャンネルとして、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルからサイド信号を生成するように、そして、符号化されたオーディオ信号を得るためにミッド−サイド信号を符号化するように構成される。
【0063】
そのような実施の形態によると、符号化ユニット120は、例えば、完全デュアル−モノ符号化モードが選ばれる場合、符号化されたオーディオ信号を得るために、正規化されたオーディオ信号を符号化するように構成される。
【0064】
さらに、そのような実施の形態において、符号化ユニット120は、例えば、帯域に関する符号化モードが選ばれた場合、処理されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域が、正規化されたオーディオ信号の第2チャンネルの1つ以上のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第1チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、ミッド信号のスペクトル帯域であるように、かつ、処理されたオーディオ信号の第2チャンネルの最低1つのスペクトル帯域が、正規化されたオーディオ信号の第1チャンネルのスペクトル帯域に依存すると共に、正規化されたオーディオ信号の第2チャンネルのスペクトル帯域に依存して、サイド信号のスペクトル帯域であるように、処理されたオーディオ信号を生成するように構成される。符号化ユニット120は、符号化されたオーディオ信号を得るために、処理されたオーディオ信号を符号化するように構成される。
【0065】
実施の形態によると、オーディオ入力信号は、例えば、正確に2つのチャンネルを含むオーディオステレオ信号である。例えば、オーディオ入力信号の第1チャンネルはオーディオステレオ信号の左チャンネルであり、オーディオ入力信号の第2チャンネルはオーディオステレオ信号の右チャンネルである。
【0066】
実施の形態において、符号化ユニット120は、例えば、帯域に関する符号化モードが選ばれた場合、処理されたオーディオ信号の複数のスペクトル帯域の個々のスペクトル帯域について、ミッド−サイド符号化が採用されるか、または、デュアル−モノ符号化が採用されるかどうかを決定するように構成される。
【0067】
ミッド−サイド符号化が前記スペクトル帯域のために採用された場合、符号化ユニット120は、例えば、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、ミッド信号のスペクトル帯域として、処理されたオーディオ信号の第1チャンネルの前記スペクトル帯域を生成するように構成される。符号化ユニット120は、例えば、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、サイド信号のスペクトル帯域として、処理されたオーディオ信号の第2チャンネルの前記スペクトル帯域を生成するように構成される。
【0068】
デュアル−モノ符号化が前記スペクトル帯域のために採用された場合、符号化ユニット120は、例えば、処理されたオーディオ信号の第1チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使用するように構成されると共に、処理されたオーディオ信号の第2チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使用するように構成される。あるいは、符号化ユニット120は、処理されたオーディオ信号の第1チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使用するように構成されると共に、処理されたオーディオ信号の第2チャンネルの前記スペクトル帯域として、正規化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使用するように構成される。
【0069】
実施の形態によると、符号化ユニット120は、例えば、完全ミッド−サイド符号化モードが採用されるときに、符号化のために必要となる第1ビット数を推定する第1推定を決定することによって、そして、完全デュアル−モノ符号化モードが採用されるときに、符号化のために必要となる第2ビット数を推定する第2推定を決定することによって、そして、帯域に関する符号化モードが採用されるときに、符号化のために必要となる第3ビット数を推定する第3推定を決定することによって、そして、完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードおよび帯域に関する符号化モードのうち、第1推定、第2推定および第3推定のうちで最も小さいビット数を持つ符号化モードを選ぶことによって、完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードおよび帯域に関する符号化モードのうちの1つを選ぶように構成される。
【0071】
実施の形態において、完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードおよび帯域に関する符号化モードの中から選択するための目的品質手段が、例えば採用される。
【0072】
実施の形態によると、符号化ユニット120は、例えば、完全ミッド−サイド符号化モードで符号化するときに、節約される第1ビット数を推定する第1推定を決定することによって、そして完全デュアル−モノ符号化モードで符号化するときに、節約される第2ビット数を推定する第2推定を決定することによって、そして帯域に関する符号化モードで符号化するときに、節約される第3ビット数を推定する第3推定を決定することによって、そして完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードおよび帯域に関する符号化モードのうち、第1推定、第2推定および第3推定のうちから節約される最も大きなビット数を持つ符号化モードを選ぶことによって、完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードおよび帯域に関する符号化モードの中から選ぶように構成される。
【0073】
別の実施の形態において、符号化ユニット120は、例えば、完全ミッド−サイド符号化モードが採用されるときに生じる第1信号対雑音比を推定することによって、そして完全デュアル−モノ符号化モードで符号化するときに生じる第2信号対雑音比を推定することによって、そして帯域に関する符号化モードで符号化するときに生じる第3信号対雑音比を推定することによって、そして第1信号対雑音比、第2信号対雑音比および第3信号対雑音比のうちから最も大きな信号対雑音比を持つ完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードおよび帯域に関する符号化モードのうちの符号化モードを選ぶことによって、完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードおよび帯域に関する符号化モードの中から選ぶように構成される。
【0074】
実施の形態において、正規化器110は、例えば、オーディオ入力信号の第1チャンネルのエネルギーに依存すると共に、オーディオ入力信号の第2チャンネルのエネルギーに依存して、オーディオ入力信号のための正規化値を決定するように構成される。
【0075】
実施の形態によると、オーディオ入力信号は、例えば、スペクトル領域で表される。正規化器110は、例えば、オーディオ入力信号の第1チャンネルの複数のスペクトル帯域に依存すると共に、オーディオ入力信号の第2チャンネルの複数のスペクトル帯域に依存して、オーディオ入力信号のための正規化値を決定するように構成される。さらに、正規化器110は、例えば、正規化値に依存して、オーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調することによって、正規化されたオーディオ信号を決定するように構成される。
【0076】
実施の形態において、正規化器110は、例えば、以下の式に基づいて正規化値を決定するように構成される。
ここで、MDCT
L,kは、オーディオ入力信号の第1チャンネルのMDCTスペクトルのk番目の係数である。MDCT
R,kは、オーディオ入力信号の第2チャンネルのMDCTスペクトルのk番目の係数である。正規化器110は、例えば、ILDを量子化することによって、正規化値を決定するように構成される。
【0077】
図1bによって説明された実施の形態によると、符号化のための装置は、例えば変換ユニット102と前処理ユニット105とをさらに含む。変換ユニット102は、例えば変換されたオーディオ信号を得るために、時間領域から周波数領域に時間領域オーディオ信号を変換するように構成される。前処理ユニット105は、例えば、エンコーダ側周波数領域雑音シェーピング操作を、変換されたオーディオ信号に適用することによって、オーディオ入力信号の第1チャンネルおよび第2チャンネルを生成させるように構成される。
【0078】
特定の実施の形態において、前処理ユニット105は、例えば、エンコーダ側周波数領域雑音シェーピング操作を、変換されたオーディオ信号に適用する前に、エンコーダ側時間的雑音シェーピング操作を、変換されたオーディオ信号に適用することによって、オーディオ入力信号の第1チャンネルおよび第2チャンネルを生成させるように構成される。
【0079】
図1cは、変換ユニット115をさらに含んでいる別の実施の形態に従う符号化のための装置を説明する。正規化器110は、例えば、時間領域で表されているオーディオ入力信号の第1チャンネルに依存すると共に、時間領域で表されているオーディオ入力信号の第2チャンネルに依存して、オーディオ入力信号のための正規化値を決定するように構成される。さらに、正規化器110は、例えば、正規化値に依存して、時間領域で表されているオーディオ入力信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調することによって、正規化されたオーディオ信号の第1チャンネルおよび第2チャンネルを決定するように構成される。変換ユニット115は、例えば、正規化されたオーディオ信号がスペクトル領域で表されるように、正規化されたオーディオ信号を時間領域からスペクトル領域に変換するように構成される。さらに、変換ユニット115は、例えば、スペクトル領域で表されている正規化されたオーディオ信号を符号化ユニット120に供給するように構成される。
【0080】
図1dは、別の実施の形態に従う符号化のための装置を説明する。装置は、第1チャンネルおよび第2チャンネルを含む時間領域オーディオ信号を受信するように構成されている前処理ユニット106をさらに含む。前処理ユニット106は、例えば、時間領域で表されているオーディオ入力信号の第1チャンネルを得るために、第1の知覚的に白色化されたスペクトルを作成する時間領域オーディオ信号の第1チャンネルに、フィルタを適用するように構成される。さらに、前処理ユニット106は、例えば、時間領域で表されているオーディオ入力信号の第2チャンネルを得るために、第2の知覚的に白色化されたスペクトルを作成する時間領域オーディオ信号の第2チャンネルに、フィルタを適用するように構成される。
【0081】
図1eによって説明された実施の形態において、変換ユニット115は、例えば、変換されたオーディオ信号を得るために、時間領域からスペクトル領域に、正規化されたオーディオ信号を変換するように構成される。
図1eの実施の形態において、装置は、スペクトル領域で表されている正規化されたオーディオ信号を得るために、変換されたオーディオ信号にエンコーダ側時間的雑音シェーピングを実施するように構成されているスペクトル領域前処理器118をさらに含む。
【0082】
実施の形態によると、符号化ユニット120は、例えば、エンコーダ側ステレオインテリジェントギャップ充填(fillng)を、正規化されたオーディオ信号または処理されたオーディオ信号に適用することによって、符号化されたオーディオ信号を得るように構成される。
【0083】
図1fによって説明された別の実施の形態において、符号化されたオーディオ信号を得るために、4つ以上のチャンネルを含むオーディオ入力信号の4つのチャンネルを符号化するためのシステムが提供される。システムは、符号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、オーディオ入力信号の4つ以上のチャンネルの第1チャンネルおよび第2チャンネルを符号化するための、上で説明された実施の形態のうちの1つに記載の第1装置170を含む。さらに、システムは、符号化されたオーディオ信号の第3チャンネルおよび第4チャンネルを得るために、オーディオ入力信号の4つ以上のチャンネルの第3チャンネルおよび第4チャンネルを符号化するための、上で説明された実施の形態のうちの1つに記載の第2装置180を含む。
【0084】
図2aは、実施の形態に従って、復号化されたオーディオ信号を得るために、第1チャンネルおよび第2チャンネルを含んでいる符号化されたオーディオ信号を復号化するための装置を説明する。
【0085】
復号化のための装置は、複数のスペクトル帯域の個々のスペクトル帯域について、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域、および、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル−モノ符号化またはミッド−サイド符号化を使って符号化されたかを決定するように構成された復号化ユニット210を含む。
【0086】
復号化ユニット210は、デュアル−モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使うように構成されると共に、中間オーディオ信号の第2チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使うように構成される。
【0087】
さらに、復号化ユニット210は、ミッド−サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第1チャンネルのスペクトル帯域を生成し、そして、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第2チャンネルのスペクトル帯域を生成するように構成される。
【0088】
さらに、復号化のための装置は、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調するように構成された非正規化器220を含む。
【0089】
実施の形態において、復号化ユニット210は、例えば、符号化されたオーディオ信号が、完全ミッド−サイド符号化モード、完全デュアル−モノ符号化モードまたは帯域に関する符号化モードで符号化されるかどうかを決定するように構成される。
【0090】
さらに、そのような実施の形態において、復号化ユニット210は、例えば、符号化されたオーディオ信号が完全ミッド−サイド符号化モードで符号化されることが決定された場合、符号化されたオーディオ信号の第1チャンネルおよび第2チャンネルから中間オーディオ信号の第1チャンネルを生成させると共に、符号化されたオーディオ信号の第1チャンネルおよび第2チャンネルから中間オーディオ信号の第2チャンネルを生成させるように構成される。
【0091】
そのような実施の形態によると、復号化ユニット210は、例えば、符号化されたオーディオ信号が完全デュアル−モノ符号化モードで符号化されることが決定された場合、中間オーディオ信号の第1チャンネルとして、符号化されたオーディオ信号の第1チャンネルを使うと共に、中間オーディオ信号の第2チャンネルとして、符号化されたオーディオ信号の第2チャンネルを使うように構成される。
【0092】
さらに、そのような実施の形態において、復号化ユニット210は、例えば、符号化されたオーディオ信号が帯域に関する符号化モードで符号化されることが決定された場合、
−複数のスペクトル帯域の個々のスペクトル帯域について、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域、および、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル−モノ符号化またはミッド−サイド符号化モードを使って符号化されたかを決定するように構成され、
−デュアル−モノ符号化が使われていた場合、中間オーディオ信号の第1チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域を使い、そして、中間オーディオ信号の第2チャンネルのスペクトル帯域として、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を使うように構成され、
−ミッド−サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第1チャンネルのスペクトル帯域を生成し、そして、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域に基づくと共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域に基づいて、中間オーディオ信号の第2チャンネルのスペクトル帯域を生成するように構成される。
【0093】
例えば、完全ミッド−サイド符号化モードにおいて、以下の式は、符号化されたオーディオ信号の第1チャンネルであるMと符号化されたオーディオ信号の第2チャンネルであるSとによって、中間オーディオ信号の第1チャンネルLおよび中間オーディオ信号の第2チャンネルRを得るように適用される。
L=(M+S)/sqrt(2)
R=(M−S)/sqrt(2)
【0094】
実施の形態によると、復号化されたオーディオ信号は、例えば、正確に2つのチャンネルを含んでいるオーディオステレオ信号である。例えば、復号化されたオーディオ信号の第1チャンネルは、オーディオステレオ信号の左チャンネルであり、復号化されたオーディオ信号の第2チャンネルは、オーディオステレオ信号の右チャンネルである。
【0095】
実施の形態によると、非正規化器220は、例えば、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調するように構成される。
【0096】
図2bにおいて示された別の実施の形態において、非正規化器220は、例えば、非正規化されたオーディオ信号を得るために、非正規化値に依存して、中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つの複数のスペクトル帯域を変調するように構成される。そのような実施の形態において、装置は、例えば、後処理ユニット230および変換ユニット235をさらに含む。後処理ユニット230は、例えば、後処理されたオーディオ信号を得るために、非正規化されたオーディオ信号に、デコーダ側時間的雑音シェーピングおよびデコーダ側周波数領域雑音シェーピングのうちの最低1つを実施するように構成される。変換ユニット(235)は、例えば、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、後処理されたオーディオ信号をスペクトル領域から時間領域に変換するように構成される。
【0097】
図2cによって説明された実施の形態によると、装置は、中間オーディオ信号をスペクトル領域から時間領域に変換するように構成された変換ユニット215をさらに含む。非正規化器220は、例えば、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、非正規化値に依存して、時間領域で表されている中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調するように構成される。
【0098】
図2dによって説明された同様な実施の形態において、変換ユニット215は、例えば、中間オーディオ信号をスペクトル領域から時間領域に変換するように構成される。非正規化器220は、例えば、非正規化されたオーディオ信号を得るために、非正規化値に依存して、時間領域で表されている中間オーディオ信号の第1チャンネルおよび第2チャンネルのうちの最低1つを変調するように構成される。装置は、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、例えば知覚的に白色化されたオーディオ信号である非正規化されたオーディオ信号を処理するように構成された後処理ユニット235をさらに含む。
【0099】
図2eによって説明される別の実施の形態によると、装置は、中間オーディオ信号に、デコーダ側時間的雑音シェーピングを実施するように構成されたスペクトル領域後処理器212をさらに含む。そのような実施の形態において、変換ユニット215は、デコーダ側時間的雑音シェーピングが中間オーディオ信号に実施された後に、中間オーディオ信号をスペクトル領域から時間領域に変換するように構成される。
【0100】
別の実施の形態において、復号化ユニット210は、例えば、デコーダ側ステレオインテリジェントギャップ充填を、符号化されたオーディオ信号に適用するように構成される。
【0101】
さらに、
図2fにおいて説明されるように、4つ以上のチャンネルを含む復号化されたオーディオ信号の4つのチャンネルを得るために、4つ以上のチャンネルを含む符号化されたオーディオ信号を復号化するためのシステムが提供される。システムは、上で説明された実施の形態のうちの1つに応じて、復号化されたオーディオ信号の第1チャンネルおよび第2チャンネルを得るために、符号化されたオーディオ信号の4つ以上のチャンネルの第1チャンネルおよび第2チャンネルを復号化するための第1装置270を含む。さらに、システムは、上で説明された実施の形態のうちの1つに応じて、復号化されたオーディオ信号の第3チャンネルおよび第4チャンネルを得るために、符号化されたオーディオ信号の4つ以上のチャンネルの第3チャンネルおよび第4チャンネルを復号化するための第2装置280を含む。
【0102】
図3は、実施の形態に従って、オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムを説明する。
【0103】
システムは、上で説明した実施の形態のうちの1つに従って、符号化のための装置310を含む。符号化のための装置310は、オーディオ入力信号から、符号化されたオーディオ信号を生成するように構成される。
【0104】
さらに、システムは、上で説明したように、復号化のための装置320を含む。復号化のための装置320は、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するように構成される。
【0105】
同様に、オーディオ入力信号から、符号化されたオーディオ信号を生成すると共に、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するためのシステムが提供される。システムは、
図1fの実施の形態に記載のシステム(ここで、
図1fの実施の形態に記載のシステムは、オーディオ入力信号から、符号化されたオーディオ信号を生成するように構成されている)と、
図2fの実施の形態に記載のシステム(ここで、
図2fの実施の形態に記載のシステムは、符号化されたオーディオ信号から、復号化されたオーディオ信号を生成するように構成されている)とを含む。
【0106】
以下において、好ましい実施の形態が説明される。
【0107】
図4は、別の実施の形態に従う符号化のための装置を説明する。とりわけ、特定の実施の形態に従う前処理ユニット105および変換ユニット102が説明される。変換ユニット102は、時間領域からスペクトル領域へのオーディオ入力信号の変換を実施するようにとりわけ構成される。変換ユニットは、オーディオ入力信号に、エンコーダ側時間雑音シェーピングとエンコーダ側周波数領域雑音シェーピングとを実施するように構成される。
【0108】
さらに、
図5は、実施の形態に従う符号化のための装置の中のステレオ処理モジュールを説明する。
図5は、正規化器110および符号化ユニット120を説明する。
【0109】
さらに、
図6は、別の実施の形態に従う復号化するための装置を説明する。とりわけ
図6は、特定の実施の形態に従う後処理ユニット230を説明する。後処理ユニット230は、処理されたオーディオ信号を非正規化器220から得るようにとりわけ構成される。後処理ユニット230は、処理されたオーディオ信号に、デコーダ側時間雑音シェーピングおよびデコーダ側周波数領域雑音シェーピングのうちの最低1つを実施するように構成される。
【0110】
時間領域一時検出器(TD TD)およびウィンドウ化(窓化)およびMDCTおよびMDSTおよびOLAは、例えば、[6a]または[6b]において説明されるように実行される。MDCTおよびMDSTは、変調された複合重なり変換(MCLT)を形成する。MDCTとMDSTとを別々に実行することは、MCLTを実行することに等しい。「MCLTからMDCTへ」は、まさにMCLTのMDCT部分を取ることを表し、MDSTを捨てることを表わしている([12]参照)。
【0111】
左チャンネルおよび右チャンネルにおいて異なるウィンドウ長さを選ぶことは、例えば、そのフレームの中のデュアル−モノ符号化を強制する。
【0112】
時間雑音シェーピング(TNS)は、例えば、[6a]または[6b]において説明されたと同様に実行される。
【0113】
周波数領域雑音シェーピング(FDNS)およびFDNSパラメータの計算は、例えば、[8]において説明された手続と同様である。1つの違いは、例えば、TNSが非活動的なフレームのためのFDNSパラメータが、MCLTスペクトルから計算されることである。TNSが活動的なフレームにおいて、MDSTは例えばMDCTから推定される。
【0114】
FDNSは、また、時間領域において白色化する知覚スペクトルと取り替えられる(例えば、[13]において説明されるように)。
【0115】
ステレオ処理は、包括的なILD処理および帯域に関するM/S処理およびチャンネル間のビットレート分配を含む。
【0117】
チャンネルのエネルギー比は以下の式である。
ratio
ILD>1である場合、右チャンネルが1/ratio
ILDによって縮尺される。さもなければ、左チャンネルがratio
ILDによって縮尺される。これは、より大きなチャンネルが縮尺されることを効果的に意味する。
【0118】
時間領域で白色化されている知覚スペクトルが使われていた場合(例えば、[13]において説明されるように)、単一の包括的なILDが、時間領域から周波数領域への変換の前に(すなわちMDCTの前に)時間領域で計算され、適用される。あるいは、代わりに、白色化されている知覚スペクトルは、周波数領域で単一の包括的なILDによってフォローされた、時間領域から周波数領域への変換によってフォローされる。あるいは、代わりに、単一の包括的なILDは、時間領域から周波数領域への変換の前に時間領域で計算され、時間領域から周波数領域への変換の後に周波数領域で適用される。
【0120】
包括的なゲインG
estは、連結された左チャンネルおよび右チャンネルを含む信号において推定される。従って、[6b]および[6a]とは異なる。例えば[6b]または[6a]の5.3.3.2.8.1.1章「包括的なゲイン推定器」において説明されるゲインの第1推定がスカラ量子化から、サンプル毎にビット毎に6dBのSNRゲインを仮定して使われる。
【0121】
推定されたゲインは、最終ゲインG
estにおいて過少推定または過大推定を得るために、定数によって乗算される。左チャンネル、右チャンネル、ミッドチャンネルまたはサイドチャンネルにおける信号は、その時、量子化ステップサイズが1/G
estであるG
estを使って量子化される。
【0122】
量子化された信号は、その時、必要なビット数を得るために、算術符号器、ハフマン(Huffman)符号器または他のエントロピー符号器を使って符号化される。例えば、[6b]または[6a]の5.3.3.2.8.1.3章〜5.3.3.2.8.1.7章において説明された算術符号器に基づいた文脈が使われる。レートループ(例えば、[6b]または[6a]の5.3.3.2.8.1.2章)はステレオ符号化の後に実行されるので、必要なビットの推定は十分である。
【0123】
1つの例として、量子化されたチャンネル毎に、算術符号化に基づいた文脈のために必要なビット数が、[6b]または[6a]の5.3.3.2.8.1.3章〜5.3.3.2.8.1.7章において説明されるように推定される。
【0124】
実施の形態によると、個々の量子化されたチャンネル(左チャンネル、右チャンネル、ミッドチャンネルまたはサイドチャンネル)のためのビット推定は、以下の例のコードに基づいて決定される。
int context_based_arihmetic_coder_estimate(
int spectrum[],
int start_line,
int end_line,
int lastnz,//lastnz=last non-zero spectrum line
int&ctx,//ctx=context
int&probability,//14 bit fixed point probability
const unsigned int cum_freq[N_CONTEXTS][]
//cum_freq=cumulative frequency tables,14 bit fixed point
)
[
int nBits=0;
for(int k=start_line;k<min(lastnz,end_line);k+=2)
[
int a1=abs(spectrum[k]);
int b1=abs(spectrum[k+1]);
/*Signs Bits*/
nBits+=min(a1,1);
nBits+=min(b1,1);
while(max(a1,b1)>=4)
[
probability*=cum_freq[ctx][VAL_ESC];
int nlz=Number_of_leading_zeros(probability);
nBits+=2+nlz;
probability>>=14-nlz;
a1>>=1;
b1>>=1;
ctx=update_context(ctx,VAL_ESC);
]
int symbol=a1+4*b1;
probability*=(cum_freq[ctx][symbol]-
cum_freq[ctx][symbol+1]);
int nlz=Number_of_leading_zeros(probability);
nBits+=nlz;
hContextMem->proba>>=14-nlz;
ctx=update_context(ctx,a1+b1);
]
return nBits;
]
ここで、spectrumは、コード化されるべき量子化されたスペクトルを指し示すように設定される。start_lineは0に設定される。end_lineはスペクトルの長さに設定される。lastnzは、スペクトルの最後の非ゼロの要素のインデックスに設定される。ctxは0に設定される。確率は、14ビット固定ポイント表記法において1に設定される(16384=1<<14)。
【0125】
概説されるように、上記の例のコードが、例えば、左チャンネル、右チャンネル、ミッドチャンネルまたはサイドチャンネルのうちの最低1つに対してビット推定を得るために使用される。
【0126】
いくつかの実施の形態が、[6b]および[6a]において説明されるように算術符号器を使用する。より一層の詳細は、例えば[6b]の5.3.3.2.8章「算術符号器」に見られる。
【0127】
「完全デュアル−モノ」(b
LR)に対して推定されたビット数は、右チャンネルおよび左チャンネルのために必要なビットの合計と等しい。
【0128】
「完全M/S」(b
MS)に対して推定されたビット数は、ミッドチャンネルおよびサイドチャンネルのために必要なビットの合計と等しい。
【0129】
上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば、「完全デュアル−モノ」(b
LR)に対して推定されたビット数を計算するために採用される。
【0130】
さらに、上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば、「完全M/S」(b
MS)に対して推定されたビット数を計算するために採用される。
【0133】
「帯域に関するM/S」モードは、L/RまたはM/S符号化が使われるかどうかに関わらず、個々の帯域で信号化するための追加のnBandsビットが必要である。「帯域に関するM/S」および「完全デュアル−モノ」および「完全M/S」の間の選択は、例えば、ビットストリームの中のステレオモードとして符号化される。そして、信号化に対して、「完全デュアル−モノ」および「完全M/S」は、「帯域に関するM/S」に比べて追加のビットが必要でない。
【0135】
上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば「完全デュアル−モノ」(b
LR)に対して推定されたビット数を計算するために採用され、個々の帯域L/R符号化における信号化が使われる。
【0136】
さらに、上記の例のコードの代わりである、代わりの実施の形態において、式
が、例えば「完全M/S」(b
MS)に対して推定されたビット数を計算するために採用され、個々の帯域M/S符号化における信号化が使われる。
【0137】
いくつかの実施の形態において、例えば、最初にゲインGが推定され、量子化ステップサイズが推定される。そのために、L/Rのチャンネルを符号化するために十分なビットが存在することが期待される。
【0139】
既に概説したように、特定の実施の形態によると、個々の量子化されたチャンネルに対して、例えば[6b]の5.3.3.2.8.1.7章「ビット消費推定」において、または、[6a]の同様の章において説明されているように、算術符号化のために必要なビット数が推定される。
【0141】
4つの文脈(ctx
L、ctx
R、ctx
M、ctx
M)および4つの確率(p
L、p
R、p
M、p
M)が初期化され、それから、繰り返しアップデートされる。
【0142】
推定の最初に(i=0に対して)、個々の文脈(ctx
L、ctx
R、ctx
M、ctx
M)が0に設定され、個々の確率(p
L、p
R、p
M、p
M)が、14ビット固定ポイント表記法の1に設定される(16384=1<<14)。
【0147】
代わりの実施の形態において、帯域に関するビット推定は、以下の通り得られる。
【0148】
M/S処理が実行された場合、スペクトルは帯域に分割され、個々の帯域に対して、それが決められる。M/Sが使われる全ての帯域に対して、MDCT
L,kおよびMDCT
R,kが、MDCT
M,k=0.5(MDCT
L,k+MDCT
R,k)およびMDCT
S,k=0.5(MDCT
L,k−MDCT
R,k)に取り替えられる。
【0149】
帯域に関するM/S対L/Rの決定は、例えば、M/S処理によって節約する推定ビットに基づく。
ここで、NRG
R,iは、右チャンネルのi番目の帯域のエネルギーである。NRG
L,iは、左チャンネルのi番目の帯域のエネルギーである。NRG
M,iは、ミッドチャンネルのi番目の帯域のエネルギーである。NRG
S,iは、サイドチャンネルのi番目の帯域のエネルギーである。nlines
iは、i番目の帯域のスペクトル係数の数である。ミッドチャンネルは左チャンネルおよび右チャンネルの合計であり、サイドチャンネルは左チャンネルおよび右チャンネルの差である。
【0150】
bitsSaved
iは、i番目の帯域のために使われる推定されたビット数によって制限される。
【0151】
図7は、実施の形態に従う帯域に関するM/S決定のためのビットレートを計算することを説明する。
【0152】
特に、
図7において、b
BWを計算するのためのプロセスが記載される。複雑さを減らすために、帯域i−1までアップするスペクトルを符号化するための算術符号器文脈が、節約され、帯域iにおいて再利用される。
【0154】
図8は、実施の形態に従うステレオモードの決定を説明する。
【0155】
「完全デュアル−モノ」が選ばれた場合、完全なスペクトルはMDCT
L,kおよびMDCT
R,kから成る。「完全なM/S」が選ばれた場合、完全なスペクトルはMDCT
M,kおよびMDCT
S,kから成る。「帯域に関するM/S」が選ばれた場合、スペクトルのいくつかの帯域はMDCT
L,kおよびMDCT
R,kから成り、他の帯域はMDCT
M,kおよびMDCT
S,kから成る。
【0156】
ステレオモードはビットストリームにおいて符号化される。「帯域に関するM/S」モードにおいても、帯域に関するM/S決定が、ビットストリームにおいて符号化される。
【0157】
ステレオ処理後の2つのチャンネルの中のスペクトルの係数は、MDCT
LM,kおよびMDCT
RS,kとして示される。ステレオモードおよび帯域に関するM/S決定に依存して、MDCT
LM,kは、M/S帯域の中のMDCT
M,kまたはL/R帯域の中のMDCT
L,kに等しく、MDCT
RS,kは、M/S帯域の中のMDCT
S,kまたはL/R帯域の中のMDCT
R,kに等しい。MDCT
LM,kから成るスペクトルは、例えば、結合して符号化されたチャンネル0(結合チャンネル0)と称され、または、第1チャンネルと称される。MDCT
RS,kから成るスペクトルは、例えば、結合して符号化されたチャンネル1(結合チャンネル1)と称され、または、第2チャンネルと称される。
【0158】
ビットレート分割比は、ステレオ処理されたチャンネルのエネルギーを使って計算される。
【0160】
チャンネル間のビットレート分配は以下の通りである。
【0162】
レートループを含む量子化および雑音充填およびエントロピー符号化は、[6b]または[6a]の中の5.3.3「TCXに基づいたMDCT」の5.3.3.2「一般符号化手続」において説明される通りである。レートループは、推定されたG
estを使って最適化できる。パワースペクトルP(MCLTのマグニチュード)は、[6a]または[6b]において説明されるように、量子化およびインテリジェントギャップ充填(IGF)の中の色調/雑音手段に対して使われる。白色化されて帯域に関するM/S処理されたMDCTスペクトルは、パワースペクトルに対して使われるので、同じFDNSおよびM/S処理は、MDSTスペクトルにおいて実行されるべきである。より大きなチャンネルの包括的なILDに基づいた同じ縮尺化は、MDCTのために実行されるように、MDSTのために実行されるべきである。TNSが活動的であるフレームに対して、パワースペクトル計算のために使われるMDSTスペクトルは、ホワイされてM/S処理されたMDCTスペクトル:P
k=MDCT
k2+(MDCT
k+1−MDCT
k-1)
2から推定される。
【0163】
復号化プロセスは、[6b]または[6a]の中の6.2.2「TCXに基づいたMDCT」において説明されるように、雑音充填によってフォローされて、結合して符号化されたチャンネルのスペクトルの復号化および逆量子化で始まる。個々のチャンネルに割り当てられたビット数は、ビットストリームの中で符号化されるウィンドウ長さおよびステレオモードおよびビットレート分割比に基づいて決定される。個々のチャンネルに割り当てられたビット数は、ビットストリームを完全に復号化する前に知られていなければならない。
【0164】
インテリジェントギャップ充填(IGF)ブロックの中で、スペクトルの特定の範囲においてゼロに量子化されたライン(目標タイルと称される)は、スペクトルの異なる範囲から処理された内容によって満たされ、ソースタイルと称される。帯域に関するステレオ処理のため、ステレオ表現(すなわち、L/RまたはM/Sのいずれか)は、ソースタイルと目標タイルに対して異なる。良い品質を保証するために、ソースタイルの表現が目標タイルの表現と異なる場合、ソースタイルは、デコーダの中のギャップ充填の前に、それを目標
タイルの表現に変換するように処理される。この手続は[9]に既に説明されている。IGF自身は、[6a]および[6b]に対比して、オリジナルのスペクトル領域の代わりに、白色化されたスペクトル領域に適用される。既知のステレオ符号器(例えば[9])と対比すると、IGFは白色化されてILD補正されたスペクトル領域で適用される。
【0166】
ratio
ILD>1である場合、右チャンネルがratio
ILDによって縮尺される。さもなければ、左チャンネルが1/ratio
ILDによって縮尺される。
【0167】
0による分割が発生する個々の場合に対して、小さいエプシロンが分母に追加される。
【0168】
例えば48kbpの中間ビットレートに対して、MDCTに基づいた符号化は、ビット消費目標に合致するために、スペクトルの非常に劣悪な量子化を引き起こす。それは、同じスペクトル領域の中で離散的符号化と結合してフレーム−フレーム基礎に適用された、パラメータ符号化の必要を上げて忠実に増加する。
【0169】
以下において、ステレオ充填を採用するそれらの実施の形態のうちのいくつかの面が説明される。上記の実施の形態に対して、ステレオ充填が採用されることは必要でないことは、注目するべきである。従って、上で説明した実施の形態のうちのほんのいくつかが、ステレオ充填を採用する。上で説明した実施の形態の他の実施の形態は、ステレオ充填を全く採用しない。
【0170】
MPEG−H周波数領域ステレオの中のステレオ周波数充填は、例えば[11]において説明される。[11]において、個々の帯域のための目標エネルギーは、倍率という形で(例えばAACで)、エンコーダから送られた帯域エネルギーを利用することによって達成される。周波数領域雑音シェーピング(FDNS)が適用されて、スペクトル包絡がLSF(ラインスペクトル周波数)を使って符号化される場合([6a]、[6b]および[8]参照)、[11]において説明されたステレオ充填アルゴリズムから必要であるとして、いくつかの周波数帯域(スペクトル帯域)だけのための縮尺化を変えることは可能ではない。
【0171】
最初に、いくつかの予備情報が提供される。
【0172】
ミッド/サイド符号化が採用されるときには、異なる方法でサイド信号を符号化することが可能である。
【0173】
実施の形態の第1グループによると、サイド信号Sはミッド信号Mと同じ方法で符号化される。量子化は実施されるけれども、別のステップは必要なビットレートを減らすために実行されない。一般に、そのようなアプローチは、デコーダ側のサイド信号Sのまったく精密な復元を許すことを目的とするけれども、一方では、符号化のための大量のビットを必要とする。
【0174】
実施の形態の第2グループによると、残留サイド信号S
resが、M信号に基づいたオリジナルサイド信号Sから生成される。実施の形態では、残留サイド信号は、例えば以下の式に従って計算される。
S
res=S−g・M
【0175】
別の実施の形態は、例えば残留サイド信号のために別の定義を採用する。
【0176】
残留信号S
resは量子化されて、パラメータgと共にデコーダに送信される。オリジナルサイド信号Sの代わりに残留信号S
resを量子化することによって、一般に、もっと多くのスペクトル値が0まで量子化される。これは、一般に、量子化されたオリジナルサイド信号Sに比べて、符号化して送信するために必要なビット量を節約する。
【0177】
実施の形態の第2グループのこれらの実施の形態のうちのいくつかにおいて、単一のパラメータgが、完全なスペクトルのために決定され、デコーダに送信される。実施の形態の第2グループの別の実施の形態において、周波数スペクトルの複数の周波数帯域/スペクトル帯域のそれぞれが、例えば2つ以上のスペクトル値を含む。パラメータgは、周波数帯域/スペクトル帯域のそれぞれのために決定され、デコーダに送信される。
【0178】
図12は、ステレオ充填を採用しない実施の形態の第1グループまたは第2グループに従うエンコーダ側のステレオ処理を説明する。
【0179】
図13は、ステレオ充填を採用しない実施の形態の第1グループまたは第2グループに従うデコーダ側のステレオ処理を説明する。
【0180】
実施の形態の第3グループによると、ステレオ充填が採用される。これらの実施の形態のうちのいくつかにおいて、デコーダ側では、特定の時間ポイントtのためのサイド信号Sが、直ぐ前の時間ポイントt−1のミッド信号から生成される。
【0181】
デコーダ側の直ぐ前の時間ポイントt−1のミッド信号から、特定の時間ポイントtのためのサイド信号Sを生成することは、以下の式に従って実行される。
S(t)=h
b・M(t−1)
【0182】
エンコーダ側において、パラメータh
bは、スペクトルの複数の周波数帯域の個々の周波数帯域に対して決定される。パラメータh
bを決定した後、エンコーダはパラメータh
bをデコーダに送信する。いくつかの実施の形態において、サイド信号S自身またはその残留のスペクトル値は、デコーダに送信されない。そのようなアプローチは、必要なビットの数を節約することを目的とする。
【0183】
実施の形態の第3グループのいくつかの別の実施の形態において、サイド信号がミッド信号より大きいそれらの周波数帯域に対して少なくとも、それらの周波数帯域のサイド信号のスペクトル値が明示的に符号化され、デコーダに送信される。
【0184】
実施の形態の第4グループによると、サイド信号Sの周波数帯域のうちのいくつかが、オリジナルサイド信号S(実施の形態の第1グループを参照)または残留サイド信号S
resを明示的に符号化することによって符号化される。一方、別の周波数帯域に対して、ステレオ充填が採用される。そのようなアプローチは、実施の形態の第1グループまたは第2グループを、ステレオ充填を採用する実施の形態の第3グループに結合する。例えば、より低い周波数帯域は、オリジナルサイド信号Sまたは残留サイド信号S
resを量子化することによって符号化される。一方、別のより高い周波数帯域に対して、ステレオ充填が採用される。
【0185】
図9は、ステレオ充填を採用する実施の形態の第3グループまたは第4グループに従うエンコーダ側のステレオ処理を説明する。
【0186】
図10は、ステレオ充填を採用する実施の形態の第3グループまたは第4グループに従うデコーダ側のステレオ処理を説明する。
【0187】
ステレオ充填を採用する、上で説明された実施の形態のそれらは、例えば、MPEG−Hにおいて説明されるようにステレオ充填を採用する。MPEG−H周波数領域ステレオを参照しなさい(例えば[11]参照)。
【0188】
ステレオ充填を採用する実施の形態のうちのいくつかは、例えば、スペクトル包絡が、雑音充填と結合したLSFとして符号化されるシステムにおいて、[11]において説明されたステレオ充填アルゴリズムを適用する。スペクトル包絡を符号化することは、例えば、[6a]、[6b]および[8]において説明された例として実行される。雑音充填は、例えば、[6a]および[6b]において説明されるように実行される。
【0189】
いくつかの特定の実施の形態において、ステレオ充填パラメータ計算を含むステレオ充填処理は、0.08F
s(F
s=サンプリング周波数)のような下の周波数から上の周波数(例えばIGFクロスオーバー周波数)までの周波数領域内のM/S帯域の中で実行される。
【0190】
例えば、下の周波数(例えば、0.08F
s)より低い周波数部分に対して、オリジナルサイド信号Sまたはオリジナルサイド信号Sから派生した残留サイド信号が、量子化されてデコーダに送信される。上の周波数(例えばIGFクロスオーバー周波数)より大きい周波数部分に対して、インテリジェントギャップ充填(IGF)が実行される。
【0191】
より具体的には、実施の形態のうちのいくつかにおいて、サイドチャンネル(第2チャンネル)は、完全にゼロまで量子化されるステレオ充填範囲(例えばサンプリング周波数の0.08倍からIGFクロスオーバー周波数まで)内のそれらの周波数帯域に対して、「コピーオーバー」を使って前のフレームの白色化されたMDCTスペクトルダウンミックスから充填される(IGF=インテリジェントギャップ充填)。「コピーオーバー」は、例えば、雑音充填に無料で適用され、それに応じて、エンコーダから送信される補正ファクターに依存して縮尺される。別の実施の形態において、低い周波数は0.08F
sとは別の値を表わしてもよい。
【0192】
0.08F
sの代わりに、いくつかの実施の形態において、下の周波数は、0から0.50F
sの範囲内の値である。特定の実施の形態において、下の周波数は、0.01F
sから0.50F
sの範囲内の値である。例えば、下の周波数は、0.12F
s、0.20F
sまたは0.25F
sである。
【0193】
別の実施の形態において、インテリジェントギャップ充填に加えてまたは代わりに、上の周波数より大きい周波数に対して、雑音充填が実行される。
【0194】
別の実施の形態において、上の周波数が存在しないで、ステレオ充填が下の周波数より大きい個々の周波数部分に対して実行される。
【0195】
更に別の実施の形態において、下の周波数が存在しないで、ステレオ充填が最低周波数帯域から上の周波数までの周波数部分に対して実行される。
【0196】
更に別の実施の形態において、下の周波数および上の周波数が存在しないで、ステレオ充填が全体の周波数スペクトルに対して実行される。
【0197】
以下において、ステレオ充填を採用する特定の実施の形態が説明される。
【0198】
特に、特定の実施の形態に従う補正ファクターを持つステレオ充填が説明される。補正ファクターを持つステレオ充填は、例えば、
図9(エンコーダ側)および
図10(デコーダ側)のステレオ充填処理ブロックの実施の形態で採用される。
【0199】
以下において、
−Dmx
Rは、例えば、白色化されたMDCTスペクトルのミッド信号を示す。
−S
Rは、例えば、白色化されたMDCTスペクトルのサイド信号を示す。
−Dmx
Iは、例えば、白色化されたMDSTスペクトルのミッド信号を示す。
−S
Iは、例えば、白色化されたMDSTスペクトルのサイド信号を示す。
−prevDmx
Rは、例えば、1つのフレームにより遅延された、白色化されたMDCTスペクトルのミッド信号を示す。
−prevDmx
Iは、例えば、1つのフレームにより遅延された、白色化されたMDSTスペクトルのミッド信号を示す。
【0200】
ステレオ決定が、全ての帯域に対してM/S(完全M/S)であるとき、または、全てのステレオ充填帯域に対してM/S(帯域に関してM/S)であるとき、ステレオ充填符号化が適用される。
【0201】
完全デュアル−モノ処理を適用することが決定されたときは、ステレオ充填がバイパスされる。さらに、L/R符号化が、スペクトル帯域(周波数帯域)のうちのいくつかに対して選ばれるとき、ステレオ充填もまた、これらのスペクトル帯域について、バイパスされる。
【0202】
今や、ステレオ充填を採用する特定の実施の形態が考慮される。そこで、ブロック内の処理が、例えば以下の通り実行される。
【0203】
周波数帯域(fb)に対して、それは、下の周波数(例えば0.08F
s(F
s=サンプリング周波数))からスタートして、上の周波数(例えばIGFクロスオーバー周波数)に上がる周波数領域内に入る。
−サイド信号S
Rの残留Res
Rは、例えば、以下の式に従って計算される。
Res
R=S
R−a
RDmx
R−a
IDmx
I
ここで、a
Rは複合予測係数の実数部であり、a
Iは複合予測係数の虚数部である([10]参照)。
サイド信号S
Iの残留Res
Iは、例えば、以下の式に従って計算される。
Res
I=S
I−a
RDmx
R−a
IDmx
I
−エネルギー、例えば、残留Resの複合値されたエネルギーおよび前のフレームダウンミックス(ミッド信号)prevDmxの複合値されたエネルギーが以下の式によって計算される。
【0205】
−これらの計算されたエネルギー(ERes
fb、EprevDmx
fb)から、ステレオ充填補正ファクターが計算されて、サイド情報としてデコーダに送信される。
correction_factor
fb=ERes
fb/(EprevDmx
fb+ε)
【0206】
実施の形態において、ε=0。別の実施の形態において、例えば0による分割を避けるために0.1>ε>0。
【0207】
−帯域に関する倍率は、例えば、ステレオ充填が適用される個々のスペクトル帯域について、計算されたステレオ充填補正ファクターに依存して計算される。デコーダ側において、残留からサイド信号を再構成するための逆複合予測操作が存在しないので(a
R=a
I=0)、倍率による出力ミッド信号および出力サイド(残留)信号の帯域に関する縮尺が、エネルギー損失を補償するために導入される。
【0208】
特定の実施の形態において、帯域に関する倍率が、例えば以下の式に従って計算される。
ここで、EDmx
fbは、上に説明したように計算される、現在のフレームダウンミックスの(例えば複合)エネルギーである。
【0209】
−いくつかの実施の形態において、等価の帯域に対してダウンミックス(ミッド)が残留(サイド)より大きい場合、ステレオ処理ブロックのステレオ充填処理の後、および、量子化の前に、ステレオ充填周波数範囲内に入っている残留のビン(格納箱)がゼロに設定される。
【0210】
従って、より多くのビットが、残留のダウンミックスおよび下の周波数ビンを符号化することに費やされ、全体の品質を高める。
【0211】
代わりの実施の形態において、残留(サイド)の全てのビットが、例えば0に設定される。そのような代わりの実施の形態は、例えば、ダウンミックスが、ほとんどの場合、残留より大きいという仮定に基づく。
【0212】
図11は、デコーダ側のいくつかの特定の実施の形態に従うサイド信号のステレオ充填を説明する。
【0213】
ステレオ充填は、復号化および逆量子化および雑音充填の後に、サイドチャンネルに適用される。ゼロに量子化されるステレオ充填範囲内の周波数帯域に対して、雑音充填後の帯域エネルギーが目標エネルギーに達しない場合、最後のフレームの白色化されたMDCTスペクトルダウンミックスからの「コピーオーバー」が、例えば、(
図11において見られるように)適用される。周波数帯域毎の目標エネルギーは、例えば以下の式に従う、エンコーダからのパラメータとして送信されるステレオ補正ファクターから計算される。
ET
fb=correction_factor
fb・EprevDmx
fb
【0214】
以下の式に従って、デコーダ側のサイド信号の生成(例えば、それは、前のダウンミックス「コピーオーバー」と称される)が実行される。
ここで、iは、周波数帯域fb内の周波数ビン(スペクトル値)を示す。Nは、雑音が満ちたスペクトルである。facDmx
fbは、前のダウンミックスに適用されるファクターであり、それは、エンコーダから送信されたステレオ充填補正ファクターに依存する。
【0215】
facDmx
fbは、特定の実施の形態において、例えば、個々の周波数帯域fbに対して以下の通り計算される。
ここで、EN
fbは、帯域fbの雑音が満ちたスペクトルのエネルギーである。EprevDmx
fbは、個々の前フレームダウンミックスエネルギーである。
【0216】
エンコーダ側では、代わりの実施の形態はMDSTスペクトル(または、MDCTスペクトル)を考慮しない。それらの実施の形態において、例えば、エンコーダ側の手続が以下の通り適用される。
【0217】
周波数帯域(fb)に対して、それは、下の周波数(例えば0.08F
s(F
s=サンプリング周波数))からスタートして上の周波数(例えばIGFクロスオーバー周波数)に上がる周波数領域内に入る。
−サイド信号S
Rの残留Resが、例えば、以下の式に従って計算される。
Res=S
R−a
RDmx
R
ここで、a
Rは、(例えば実数)予測係数である。
【0218】
−残留Resのエネルギーおよび前のフレームダウンミックス(ミッド信号)prevDmxのエネルギーは、以下の式によって計算される。
【0219】
−これらの計算されたエネルギー(ERes
fb、EprevDmx
fb)から、ステレオ充填補正ファクターが計算されて、サイド情報としてデコーダに送信される。
correctionfactor
fb=ERes
fb/(EprevDmx
fb+ε)
【0220】
実施の形態において、ε=0。別の実施の形態において、例えばゼロによる分割を避けるために、0.1>ε>0。
【0221】
−帯域に関する倍率は、例えば、ステレオ充填が採用される個々のスペクトル帯域について、計算されたステレオ充填補正ファクターに依存して計算される。
【0222】
特定の実施の形態において、帯域に関する倍率が、例えば以下の式に従って計算される。
ここで、EDmx
fbは、上に説明したように計算される現在のフレームダウンミックスのエネルギーである。
【0223】
−いくつかの実施の形態において、等価の帯域に対してダウンミックス(ミッド)が残留(サイド)より大きい場合、ステレオ処理ブロックのステレオ充填処理の後、および、量子化の前に、ステレオ充填周波数範囲内に入っている残留のビンがゼロに設定される。
【0224】
従って、より多くのビットが、残留のダウンミックスおよび下の周波数ビンを符号化することに費やされ、全体の品質を改良する。
【0225】
代わりの実施の形態において、残留(サイド)の全てのビットが、例えば0に設定される。そのような代わりの実施の形態は、例えば、ダウンミックスが、ほとんどの場合、残留より大きいという仮定に基づく。
【0226】
実施の形態のうちのいくつかによると、手段が、例えば、FDNSを持つシステムの中のステレオ充填を適用するために提供される。そこでは、スペクトル包絡が、LSF(または、単一の帯域で縮尺して、独立して変更することが可能ではない同様な符号化)を使って符号化される。
【0227】
実施の形態のうちのいくつかによると、手段が、例えば、複合の/実数の予測無しでシステムの中のステレオ充填を適用するために提供される。
【0228】
実施の形態のうちのいくつかは、例えば、明示的なパラメータ(ステレオ充填補正ファクター)がエンコーダからデコーダに送信されるという感覚で、白色化された左右のMDCTスペクトルのステレオ充填(例えば前のフレームのダウンミックスによって)を制御するために、パラメータステレオ充填を採用する。
【0229】
より一般的に、実施の形態のうちのいくつかにおいて、
図1a〜
図1eの符号化ユニット120は、例えば、処理されたオーディオ信号の第1チャンネルの前記最低1つのスペクトル帯域が、前記ミッド信号の前記スペクトル帯域であるように、そして、処理されたオーディオ信号の第2チャンネルの前記最低1つのスペクトル帯域が、前記サイド信号の前記スペクトル帯域であるように、処理されたオーディオ信号を生成するように構成される。符号化されたオーディオ信号を得るために、符号化ユニット120は、例えば、前記サイド信号の前記スペクトル帯域のための補正ファクターを決定することによって、前記サイド信号の前記スペクトル帯域を符号化するように構成される。符号化ユニット120は、例えば、残留に依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する前のミッド信号のスペクトル帯域に依存して、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを決定するように構成される。前のミッド信号は、時間において、前記ミッド信号に先行する。さらに、符号化ユニット120は、例えば、前記サイド信号の前記スペクトル帯域に依存すると共に、前記ミッド信号の前記スペクトル帯域に依存して、残留を決定するように構成される。
【0230】
実施の形態のうちのいくつかによると、符号化ユニット120は、例えば、以下の式に従って、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを決定するように構成される。
correction_factor
fb=ERes
fb/(EprevDmx
fb+ε)
ここで、correction_factor
fbは、前記サイド信号の前記スペクトル帯域のための前記補正ファクターを示す。ERes
fbは、前記ミッド信号の前記スペクトル帯域に対応する前記残留のスペクトル帯域のエネルギーに依存する残留エネルギーを示す。EprevDmx
fbは、前のミッド信号のスペクトル帯域のエネルギーに依存する前のエネルギーを示す。ε=0、または、0.1>ε>0。
【0231】
実施の形態のうちのいくつかにおいて、前記残留は、例えば、以下の式に従って定義される。
Res
R=S
R−a
RDmx
R
ここで、Res
Rは、前記残留である。S
Rは、前記サイド信号である。a
Rは、(例えば実数)係数(例えば予測係数)である。Dmx
Rは、前記ミッド信号である。符号化ユニット(120)は、以下の式に従って前記残留エネルギーを決定するように構成される。
【0232】
実施の形態のうちのいくつかによると、前記残留は以下の式に従って定義される。
Res
R=S
R−a
RDmx
R−a
IDmx
I
ここで、Res
Rは前記残留である。S
Rは前記サイド信号である。a
Rは複合(予測)係数の実数部であり、a
Iは複合(予測)係数の虚数部分である。Dmx
Rは前記ミッド信号である。Dmx
Iは、正規化されたオーディオ信号の第1チャンネルに依存すると共に、正規化されたオーディオ信号の第2チャンネルに依存する別のミッド信号である。は、正規化されたオーディオ信号の第1チャンネルに依存すると共に、正規化されたオーディオ信号の第2チャンネルに依存する別のサイド信号S
Iの別の残留は、以下の式に従って定義される。
Res
I=S
I−a
RDmx
R−a
IDmx
I
【0233】
符号化ユニット120は、例えば、以下の式に従って前記残留エネルギーを決定するように構成される。
符号化ユニット120は、例えば、前記ミッド信号の前記スペクトル帯域に対応する前記残留のスペクトル帯域のエネルギーに依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する前記別の残留のスペクトル帯域のエネルギーに依存する前のエネルギーを決定するように構成される。
【0234】
実施の形態のうちのいくつかにおいて、
図2a〜
図2eの復号化ユニット210は、例えば、前記複数のスペクトル帯域の個々のスペクトル帯域について、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域、および、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域が、デュアル−モノ符号化またはミッド−サイド符号化を使って符号化されたかを決定するように構成される。さらに、復号化ユニット210は、例えば、第2チャンネルの前記スペクトル帯域を再構成することによって、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域を得るように構成される。ミッド−サイド符号化が使われていた場合、符号化されたオーディオ信号の第1チャンネルの前記スペクトル帯域は、ミッド信号のスペクトル帯域であると共に、符号化されたオーディオ信号の第2チャンネルの前記スペクトル帯域は、サイド信号のスペクトル帯域である。さらに、ミッド−サイド符号化が使われていた場合、復号化ユニット210は、例えば、サイド信号の前記スペクトル帯域のための補正ファクターに依存すると共に、前記ミッド信号の前記スペクトル帯域に対応する、前のミッド信号のスペクトル帯域に依存して、サイド信号の前記スペクトル帯域を再構成するように構成される。前のミッド信号は、時間において、前記ミッド信号に先行する。
【0235】
実施の形態のうちのいくつかによると、ミッド−サイド符号化が使われていた場合、復号化ユニット210は、例えば、以下の式に従ってサイド信号の前記スペクトル帯域のスペクトル値を再構成することによって、サイド信号の前記スペクトル帯域を再構成するように構成される。
S
i=N
i+facDmx
fb・prevDmx
i
ここで、S
iはサイド信号の前記スペクトル帯域のスペクトル値を示す。prevDmx
iは前記前のミッド信号のスペクトル帯域のスペクトルの値を示す。N
iは雑音が満ちたスペクトルのスペクトル値を示す。facDmx
fbは以下の式に従って定義される。
ここで、correction_factor
fbは、サイド信号の前記スペクトル帯域の補正ファクターである。EN
fbは、雑音が満たされたスペクトルのエネルギーである。EprevDmx
fbは、前記前のミッド信号の前記スペクトル帯域のエネルギーである。ε=0、または、0.1>ε>0。
【0236】
実施の形態のうちのいくつかにおいて、残留は、例えば、エンコーダ側の複合ステレオ予測アルゴリズムから引き出される。一方、ステレオ予測(実数または複合)は、デコーダ側に存在しない。
【0237】
実施の形態のうちのいくつかによると、エンコーダ側のスペクトルのエネルギー補正縮尺化が、例えば、逆予測処理はデコーダ側に存在しないという事実を補償するために使用される。
【0238】
いくつかの面が装置の文脈において説明されたけれども、これらの面が、ブロックまたはデバイスが、方法ステップまたは方法ステップの機能に対応している方法の説明も表していることは明確である。相似的に、方法ステップの文脈において説明された面は、対応した装置の対応したブロックまたはアイテムまたは機能の説明も表している。方法ステップのいくつかまたは全てが、例えば、マイクロプロセッサー、プログラム化可能なコンピュータまたは電子回路のようなハードウェア装置によって(または使って)実行される。いくつかの実施の形態において、最も重要な方法ステップのうちの1つ以上が、そのような装置によって実行される。
【0239】
特定の実現要求に依存することによって、発明の実施の形態は、ハードウェア、ソフトウェア、ハードウェアの少なくとも一部またはソフトウェアの少なくとも一部において実現される。実現は、その上に記憶された電子的に読み取り可能な制御信号を持つデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイディスク、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使って実行される。それらは、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協力する、または、協力することができる。従って、デジタル記憶媒体は、コンピュータが読み取り可能である。
【0240】
発明に従ういくつかの実施の形態は、ここに、説明された方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協力することができる、電子的に読み取り可能な制御信号を持つデータキャリアを含む。
【0241】
一般に、本発明の実施の形態は、プログラムコードを持つコンピュータプログラム製品として実行される。プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働するとき、方法のうちの1つを実行するように働く。プログラムコードは、例えば、機械読み取り可能キャリアに記憶される。
【0242】
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを含む。コンピュータプログラムは、機械読み取り可能キャリアに記憶される。
【0243】
すなわち、本発明の方法の実施の形態は、コンピュータプログラムがコンピュータ上を稼働するとき、ここに説明された方法のうちの1つを実行するためのプログラムコードを持つコンピュータプログラムである。
【0244】
従って、本発明の方法の別の実施の形態は、データキャリア(または、デジタル記憶媒体またはコンピュータ読み取り可能媒体)が、その上に記録された、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0245】
従って、本発明の方法の別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを表わす信号のデータストリームまたはシーケンスである。信号のデータストリームまたはシーケンスは、例えば、データ通信接続を介して(例えばインターネットを介して)、送信されるように構成される。
【0246】
別の実施の形態は、処理手段、例えば、ここに説明された方法のうちの1つを実行するように構成された又は適応した、コンピュータまたはプログラム可能な論理デバイスを含む。
【0247】
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールされたコンピュータを含む。
【0248】
発明に従う別の実施の形態は、ここに説明された方法のうちの少なくとも1つを実行するためのコンピュータプログラムを、受信機に送信するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータまたはモバイル機器またはメモリデバイスまたは同様な機器である。装置またはシステムは、例えば、コンピュータプログラムを受信機に送信するためのファイルサーバーを含む。
【0249】
いくつかの実施の形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)は、ここに説明された方法の機能のうちのいくつかまたは全てを実行するために使用される。いくつかの実施の形態において、フィールドプログラマブルゲートアレイは、ここに説明された方法のうちの1つを実行するために、マイクロプロセッサーと協働する。一般に、方法は、どのようなハードウェア装置によっても好ましく実行される。
【0250】
ここに説明された装置は、ハードウェア装置を使って、またはコンピュータを使って、またはハードウェア装置とコンピュータとの結合を使うことによって実施される。
【0251】
ここに説明された方法は、ハードウェア装置を使って、またはコンピュータを使って、またはハードウェア装置とコンピュータとの結合を使うことによって実行される。
【0252】
上述の実施の形態は、単に、本発明の原則を説明しただけである。ここに、説明された配置と詳細の修正とバリエーションが、当業者に明白であることは理解される。従って、発明は、ここの実施の形態の記述と説明によって示された特定の詳細ではなく、付加された特許の請求項の範囲だけに制限されることが意思である。
【0253】
参考文献
[1] J. Herre, E. Eberlein and K. Brandenburg, “Combined Stereo Coding”, in 93rd AES Convention, San Francisco, 1992.
[2] J. D. Johnston and A. J. Ferreira, “Sum-difference stereo transform codi ng”, in Proc. ICASSP, 1992.
[3] ISO/IEC 11172-3, Information technology - Coding of moving pictures and a ssociated audio for digital storage media at up to about 1,5 Mbit/s - Part 3 : Audio, 1993.
[4] ISO/IEC 13818-7, Information technology - Generic coding of moving pictur es and associated audio information - Part 7: Advanced Audio Coding (AAC), 2 003.
[5] J.-M. Valin, G. Maxwell, T. B. Terriberry and K. Vos, “High-Quality, Lo w-Delay Music Coding in the Opus Codec”, in Proc. AES 135th Convention, New York, 2013.
[6a] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description, V 12.5.0, Dezember 2015.
[6b] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description, V 13.3.0, September 2016.
[7] H. Purnhagen, P. Carlsson, L. Villemoes, J. Robilliard, M. Neusinger, C. Helmrich, J. Hilpert, N. Rettelbach, S. Disch and B. Edler, “Audio encoder, audio decoder and related methods for processing multi-channel audio signal s using complex prediction”. US Patent 8,655,670 B2, 18 February 2014.
[8] G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich and B. Schubert, “ Linear prediction based coding scheme using spectral domain noise shaping” . European Patent 2676266 B1, 14 February 2011.
[9] S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler and C. Helmrich, “Audio Encoder, Audio Decoder and Relat ed Methods Using Two-Channel Processing Within an Intelligent Gap Filling Fr amework”. International Patent PCT/EP2014/065106, 15 07 2014.
[10] C. Helmrich, P. Carlsson, S. Disch, B. Edler, J. Hilpert, M. Neusi nger, H. Purnhagen, N. Rettelbach, J. Robilliard and L. Villemoes, “Effici ent Transform Coding Of Two-channel Audio Signals By Means Of Complex-valued Stereo Prediction”, in Acoustics, Speech and Signal Processing (ICASSP), 2 011 IEEE International Conference on, Prague, 2011.
[11] C. R. Helmrich, A. Niedermeier, S. Bayer and B. Edler, “Low-comp lexity semi-parametric joint-stereo audio transform coding”, in Signal Proc essing Conference (EUSIPCO), 2015 23rd European, 2015.
[12] H. Malvar, "A Modulated Complex Lapped Transform and its Applicati ons to Audio Processing", in Acoustics, Speech, and Signal Processing (ICASS P), 1999. Proceedings., 1999 IEEE International Conference on, Phoenix, AZ, 1999.
[13] B. Edler and G. Schuller, “Audio coding using a psychoacoustic pr e- and post-filter” Acoustics, Speech, and Signal Processing, 2000. ICASSP '00.