特許5705964 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧 ▶ ドルビー・インターナショナル・アクチボラゲットの特許一覧

特許5705964オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4A
4B
4C
5A
5B
6A
6B
7A
7B
8A
8B
9A
9B
10A
10B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5705964

(24)【登録日】2015年3月6日

(45)【発行日】2015年4月22日

(54)【発明の名称】オーディオエンコーダ、オーディオデコーダ、及び複素数予測を使用したマルチチャンネルオーディオ信号処理方法

(51)【国際特許分類】

G10L 19/008 20130101AFI20150402BHJP

G10L 19/02 20130101ALI20150402BHJP

【ＦＩ】

G10L19/008 100

G10L19/02 150

【請求項の数】21

【全頁数】35

(21)【出願番号】特願2013-503057(P2013-503057)

(86)(22)【出願日】2011年3月23日

(65)【公表番号】特表2013-528822(P2013-528822A)

(43)【公表日】2013年7月11日

(86)【国際出願番号】EP2011054485

(87)【国際公開番号】WO2011124473

(87)【国際公開日】20111013

【審査請求日】2012年12月6日

(31)【優先権主張番号】61/363,906

(32)【優先日】2010年7月13日

(33)【優先権主張国】US

(31)【優先権主張番号】10169432.1

(32)【優先日】2010年7月13日

(33)【優先権主張国】EP

(31)【優先権主張番号】61/322,688

(32)【優先日】2010年4月9日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(73)【特許権者】

【識別番号】506427990

【氏名又は名称】ドルビー・インターナショナル・アクチボラゲット

【氏名又は名称原語表記】ＤＯＬＢＹＩＮＴＥＲＮＡＴＩＯＮＡＬＡＢ

(74)【代理人】

【識別番号】110001449

【氏名又は名称】特許業務法人プロフィック特許事務所

(72)【発明者】

【氏名】プルンハーゲン、ハイコ

(72)【発明者】

【氏名】カールソン、ポントゥス

(72)【発明者】

【氏名】ヴィレモース、ラルス

(72)【発明者】

【氏名】ロビラール、ジュリアン

(72)【発明者】

【氏名】ノイシンガー、マティアス

(72)【発明者】

【氏名】ヘルムリッヒ、クリスチャン

(72)【発明者】

【氏名】ヒルペルト、ヨハネス

(72)【発明者】

【氏名】レットルバック、ニコラウス

(72)【発明者】

【氏名】ディッシュ、サシャ

(72)【発明者】

【氏名】エドラー、バーント

【審査官】山下剛史

(56)【参考文献】

【文献】国際公開第２００９／１４１７７５（ＷＯ，Ａ１）

【文献】特表２００８−５１６２７５（ＪＰ，Ａ）

【文献】特表平４−５０６１４１（ＪＰ，Ａ）

【文献】特表２００２−５３８６４４（ＪＰ，Ａ）

【文献】特表２００８−５１８２５７（ＪＰ，Ａ）

【文献】国際公開第２０１０／００３５３２（ＷＯ，Ａ１）

【文献】 Heiko PURNHAGEN, et al.，"Technical description of proposed Unified Stereo Coding in USAC"，ISO/IEC JTC1/SC29/WG11，２００９年１０月，MPEG2009/M16921，pp.1-14

【文献】 Max NEUENDORF，"WD5 of USAC"，ISO/IEC JTC1/SC29/WG11，２００９年１０月，MPEG2009/N11040，pp.1-146

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−１９／２６

(57)【特許請求の範囲】

【請求項1】

マルチチャンネルオーディオ信号の第１チャンネルオーディオ信号と第２チャンネルオーディオ信号を結合するための結合ルールに基づき生成された符号化された第１結合信号と、符号化された予測残留信号と、予測情報とを含む符号化されたマルチチャンネルオーディオ信号（１００）を復号するためのオーディオデコーダであり、
復号された第１結合信号（１１２）を得るために符号化された第１結合信号（１０４）を復号し、復号された残留信号（１１４）を得るために符号化された残留信号（１０６）を復号するための信号デコーダ（１１０）と、
復号された残留信号（１１４）と、予測情報（１０８）と、復号された第１結合信号（１１２）とを使用して、復号された第１チャンネル信号（１１７）と復号された第２チャンネル信号（１１８）を有する復号されたマルチチャンネル信号を算出するためのデコーダ計算機（１１６）であり、復号された第１チャンネル信号（１１７）と復号された第２チャンネル信号（１１８）がマルチチャンネル信号の第１チャンネル信号と第２チャンネル信号の少なくとも近似であるように算出するデコーダ計算機（１１６）とを含み、
予測情報（１０８）は０ではない虚数値係数を含み、
デコーダ計算機（１１６）は、復号された第１結合信号（１１２）の実部を使用して、復号された第１結合信号（１１２）の虚部を推定する（１１６０ａ）よう構成された予測器（１１６０）を含み、
予測器（１１６０）は、予測信号を得る際に、復号された第１結合信号の虚部（６０１）に予測情報（１０８）の虚数値係数を掛けるよう構成され、
デコーダ計算機（１１６）は、第２結合信号（１１６５）を得るために、予測信号と復号された残留信号とを線形結合するよう構成された結合信号計算機（１１６１）をさらに含み、
デコーダ計算機（１１６）は、復号された第１チャンネル信号（１１７）と復号された第２チャンネル信号（１１８）を得るために、第２結合信号（１１６５）と復号された第１結合信号を結合するための結合器（１１６２）をさらに含む、
オーディオデコーダ。

【請求項2】

請求項１に記載のオーディオデコーダであり、デコーダ計算機（１１６）は、
予測信号（１１６３）を得るために、復号された第１結合信号（１１２）または第１結合信号から導き出された信号（６０１）に予測情報（１０８）を適用する予測器（１１６０）と、
復号された残留信号（１１４）と予測信号（１１６３）を結合することにより、第２結合信号（１１６５）を算出するための結合信号計算機（１１６１）と、
復号された第１チャンネル信号（１１７）と復号された第２チャンネル信号（１１８）を有する復号されたマルチチャンネルオーディオ信号を得るために、復号された第１結合信号（１１２）と第２結合信号（１１６５）を結合する結合器（１１６５）とを含む。

【請求項3】

請求項１または２に記載のオーディオデコーダであり、
符号化された結合信号（１０４）と符号化された残留信号（１０６）は、エイリアシングを発生させる時間−スペクトル変換により生成されたものであり、
該デコーダは、
前記時間−スペクトル変換のアルゴリズムに一致したスペクトル−時間変換アルゴリズムを使用して、時間領域第１チャンネル信号と時間領域第２チャンネル信号を生成するためのスペクトル−時間変換器（５２，５３）と、
エイリアシングフリーの第１時間領域信号とエイリアシングフリーの第２時間領域信号を得るために、時間領域第１チャンネル信号に対する重複加算処理と時間領域第２チャンネル信号に対する重複加算処理を行う重複／加算処理装置（５２２）をさらに含む。

【請求項4】

請求項１、２または３に記載のオーディオデコーダであり、
予測情報（１０８）は０ではない実数値係数を含み、
予測器（１１６０）は、予測信号の第１部分を得るために、復号された第１結合信号に実数値係数を掛けるよう構成されており、
結合信号計算機は、復号された残留信号と予測信号の第１部分とを線形結合するよう構成されている。

【請求項5】

請求項１、２、３または４に記載のオーディオデコーダであり、
符号化されたまたは復号された第１結合信号（１０４）と符号化されたまたは復号された予測残留信号（１０６）はそれぞれ、複数である第１の個数のサブバンド信号を含み、
予測情報は複数である第２の個数の予測情報パラメータを含み、第２の個数は第１の個数よりも少なく、
予測器（１１６０）は、復号された第１結合信号の少なくとも二つの異なるサブバンド信号に対して同じ予測パラメータを適用するよう構成され、
デコーダ計算機（１１６）または結合信号計算機（１１６１）または結合器（１１６２）は、サブバンドごとの処理を実行するよう構成され、
オーディオデコーダは、時間領域第１復号信号と時間領域第２復号信号を得るために、復号された第１結合信号と復号された第２結合信号のサブバンド信号を結合するための合成フィルターバンク（５２，５３）をさらに含む。

【請求項6】

請求項２に記載のオーディオデコーダであり、
予測器（１１６０）は、線形フィルター（１００４，１００５，１００６，１００７）を使用して第１結合信号の現在のフレームの推定虚部を得るために、少なくとも二つの時間的に連続するフレームをフィルタリングするよう構成され、これら二つの時間的に連続するフレームは、第１結合信号の現在のフレームに先行するかまたは後に続くものである。

【請求項7】

請求項２に記載のオーディオデコーダであり、
復号された第１結合信号は一連の実数値信号フレームを含み、
予測器（１１６０）は、現在の実数値信号フレームのみを使用するか、現在の実数値信号フレームと、一つまたはそれ以上の先行する実数値信号フレームか一つまたはそれ以上の後続の実数値信号フレームのどちらかを使用するか、あるいは、現在の実数値信号フレームと、一つまたはそれ以上の先行する実数値信号フレームと一つまたはそれ以上の後続の実数値信号フレームのどちらも使用して、現在の信号フレームの実部を推定する（１１６０ａ）よう構成されている。

【請求項8】

請求項２に記載のオーディオデコーダであり、
予測器（１１６０）は、ウィンドウ形状情報（１０９）を受け取り、虚数スペクトルを算出するための様々なフィルター係数を使用するよう構成され、様々なフィルター係数は、ウィンドウ形状情報（１０９）によって示される種々のウィンドウ形状によって決まる。

【請求項9】

請求項６、７または８に記載のオーディオデコーダであり、
復号された第１結合信号は、符号化されたマルチチャンネル信号（１００）に含まれる変換長さ指標によって示される様々な変換長さに関連し、
予測器（１１６０）は、第１結合信号の現在のフレームに関する虚部を推定するのに、第１結合信号のうちの関連変換長さが同じである一つまたはそれ以上のフレームのみを使用するよう構成されている。

【請求項10】

請求項２、３、４、５、６、７、８または９に記載のオーディオデコーダであり、
予測器（１１６０）は、第１結合信号の虚部を推定するのに、復号された第１結合信号のうちの周波数的に隣接した複数のサブバンドを使用するよう構成され、
低周波または高周波の場合には、０以下の周波数に関連するサブバンドまたは現在のフレームの基礎であるサンプリング周波数の半分以上の周波数に関連するサブバンドのために、第１結合信号の現在のフレームの周波数の対称拡張が使用されるか、あるいは、予測器（１１６０ａ）内のフィルターのフィルター係数は、欠損するサブバンドに関しては存在するサブバンドとは異なる値に設定されている。

【請求項11】

請求項１、２、３、４、５、６、７、８、９または１０に記載のオーディオデコーダであり、
予測情報（１０８）は、符号化されたマルチチャンネル信号内に、量子化されエントロピー符号化された表記で含まれ、
オーディオデコーダは、予測器（１１６０）によって使用される復号された予測情報を得るために、エントロピー復号またはデクオンタイズするための予測情報デコーダ（６５）をさらに含むか、または、
符号化されたマルチチャンネルオーディオ信号は、予測器（１１６０）は、復号された第１結合信号の現在のフレームの虚部の推定のために、復号された第１結合信号の現在のフレームよりも時間的に先行するかまたは後続の少なくとも一つのフレームを使用すべきであることを第１状態で示し、復号された第１結合信号の一つのフレームのみを使用すべきであることを第２状態で示すデータユニットを含み、予測器（１１６０）は該データユニットの状態を感知し、それに応じて動作するよう構成されている。

【請求項12】

請求項１、２、３、４、５、６、７、８、９、１０または１１に記載のオーディオデコーダであり、
予測情報（１０８）は、時間順次的複素数値間または周波数的に隣接する複素数値間の差分の符号語を含み、
オーディオデコーダは、時間順次的な量子化された複素数予測値または隣接する周波数帯域に関する複素数予測値を得るために、エントロピー復号ステップと、それに引き続き、差分復号ステップを行うよう構成されている。

【請求項13】

請求項１、２、３、４、５、６、７、８または９に記載のオーディオデコーダであり、
符号化されたマルチチャンネル信号は、サイド情報として、符号化されたマルチチャンネル信号の一つのフレームのための全ての予測係数は実数値であることを示す実数指標を含み、
オーディオデコーダは、符号化されたマルチチャンネル信号（１００）から実数指標を抽出するよう構成され、
実数指標が実数値予測係数のみであることを示している場合には、デコーダ計算機（１１６）は、一つのフレームに関して虚数信号を計算しないよう構成されている。

【請求項14】

二つまたはそれ以上のチャンネル信号を有するマルチチャンネルオーディオ信号を符号化するためのオーディオエンコーダであり、
第１チャンネル信号（２０１）と第２チャンネル信号（２０２）と予測情報（２０６）を使用して、第１結合信号（２０４）と予測残留信号（２０５）を算出するためのエンコーダ計算機（２０３）であり、予測残留信号が、第１結合信号から導き出された予測信号または第１結合信号と予測情報（２０６）とから導き出された信号と結合されて第２結合信号（２０３２）となり、第１結合信号（２０４）と第２結合信号（２０３２）は結合ルールを用いて第１チャンネル信号（２０１）と第２チャンネル信号（２０２）から導き出すことができるエンコーダ計算機（２０３）と、
予測残留信号（２０５）が最適化目標（２０８）を満たすように予測情報（２０６）を計算するための最適化装置（２０７）と、
符号化された第１結合信号（２１０）と符号化された残留信号（２１１）を得るために、第１結合信号（２０４）と予測残留信号（２０５）を符号化するための信号エンコーダ（２０９）と、
符号化されたマルチチャンネルオーディオ信号を得るために、符号化された第１結合信号（２１０）と符号化された予測残留信号（２１１）と予測情報（２０６）を結合するための出力インターフェース（２１２）とを含み、
第１チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
第２チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
どちらのスペクトル表記も、純粋な実数スペクトル表記または純粋な虚数スペクトル表記であり、
最適化装置（２０７）は、予測情報（２０６）を、０ではない実数値係数として及び／または０ではない虚数値係数として算出するよう構成され、
エンコーダ計算機（２０３）は、第１結合信号から変換スペクトル表記を導き出すための実数−虚数変換器（２０７０）または虚数−実数変換器を含み、
エンコーダ計算機（２０３）は、予測信号が虚数値係数を使用して、変換されたスペクトルから導き出されるように、第１結合信号（２０４）と第１残留信号（２０３２）を計算するよう構成されている、
オーディオエンコーダ。

【請求項15】

請求項１４に記載のオーディオエンコーダであり、
エンコーダ計算機（２０３）は、
第１結合信号（２０４）と第２結合信号（２０３２）を得るために、第１チャンネル信号（２０１）と第２チャンネル信号（２０２）を二つの異なる方法で結合する結合器（２０３１）と、
予測信号（２０３５）を得るために、予測情報（２０６）を第１結合信号（２０４）または第１結合信号（２０４）から導き出された信号（６００）に適用する予測器（２０３３）と、
予測信号（２０３５）と第２結合信号（２０３２）を結合することにより、予測残留信号（２０５）を算出するための残留信号計算機（２０３４）とを含む。

【請求項16】

請求項１５に記載のオーディオエンコーダであり、
予測器（２０３３）は、一つまたはそれ以上の量子化された信号を得るために、第１チャンネル信号と第２チャンネル信号と第１結合信号または第２結合信号とを量子化するための量子化器を含み、予測器（２０３３）は量子化された信号を使用して残留信号を算出するよう構成されている。

【請求項17】

請求項１４、１５または１６に記載のオーディオエンコーダであり、
第１チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
第２チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
どちらのスペクトル表記も、純粋な実数スペクトル表記または純粋な虚数スペクトル表記であり、
最適化装置（２０７）は、予測情報（２０６）を、０ではない実数値係数として及び／または０ではない虚数値係数として算出するよう構成され、
エンコーダ計算機（２０３）は、予測信号が実数値係数を使用して純粋な実数スペクトル表記または純粋な虚数スペクトル表記から導き出されるように、第１結合信号と予測残留信号を算出するよう構成されている。

【請求項18】

請求項１４、１５、１６または１７に記載のオーディオエンコーダであり、
予測器（２０３３）は、予測信号の第１部分を得るために、第１結合信号（２０４）に予測情報（２０７３）の実部を掛け、
第１結合信号（２０４）を使用して、第１結合信号の虚部（６００）を推定し（２０７０）、
予測信号の第２部分を得るために、第１結合信号の虚部に予測情報（２０７４）の虚部を掛けるよう構成され、
残留計算機（２０３４）は、予測残留信号（２０５）を得るために、予測信号の第１部分または予測信号の第２部分と第２結合信号を線形結合するよう構成されている。

【請求項19】

マルチチャンネルオーディオ信号の第１チャンネル信号と第２チャンネル信号を結合するための結合ルールに基づき生成された符号化された第１結合信号と、符号化された予測残留信号と、予測情報とを含む符号化されたマルチチャンネルオーディオ信号（１００）を復号する方法であり、
復号された第１結合信号（１１２）を得るために符号化された第１結合信号（１０４）を復号し、復号された残留信号（１１４）を得るために符号化された残留信号（１０６）を復号すること（１１０）と、
復号された残留信号（１１４）と、予測情報（１０８）と、復号された第１結合信号（１１２）とを使用して、復号された第１チャンネル信号（１１７）と復号された第２チャンネル信号（１１８）がマルチチャンネル信号の第１チャンネル信号と第２チャンネル信号の少なくとも近似であるように、復号された第１チャンネル信号（１１７）と復号された第２チャンネル信号（１１８）を有する復号されたマルチチャンネル信号を算出すること（１１６）であり、
予測情報（１０８）は０ではない虚数値係数を含み、
復号された第１結合信号（１１２）の虚部は、復号された第１結合信号（１１２）の実部を使用して推定され（１１６０ａ）、
予測信号を得る際に、復号された第１結合信号の虚部（６０１）に予測情報（１０８）の虚数値係数が掛けられ、
第２結合信号（１１６５）を得るために、予測信号と復号された残留信号とが線形結合され、
復号された第１チャンネル信号（１１７）と復号された第２チャンネル信号（１１８）を得るために、第２結合信号（１１６５）と復号された第１結合信号が結合される、
オーディオ信号復号方法。

【請求項20】

二つまたはそれ以上のチャンネル信号を有するマルチチャンネルオーディオ信号を符号化する方法であり、
第１チャンネル信号（２０１）と第２チャンネル信号（２０２）と予測情報（２０６）を使用して、第１結合信号（２０４）と予測残留信号（２０５）を算出すること（２０３）であり、予測残留信号が、第１結合信号から導き出された予測信号または第１結合信号と予測情報（２０６）とから導き出された信号と結合されて第２結合信号（２０３２）となり、第１結合信号（２０４）と第２結合信号（２０３２）は結合ルールを用いて第１チャンネル信号（２０１）と第２チャンネル信号（２０２）から導き出すことができる計算（２０３）と、
予測残留信号（２０５）が最適化目標（２０８）を満たすように予測情報（２０６）を計算すること（２０７）と、
符号化された第１結合信号（２１０）と符号化された残留信号（２１１）を得るために、第１結合信号（２０４）と予測残留信号（２０５）を符号化すること（２０９）と、
符号化されたマルチチャンネルオーディオ信号を得るために、符号化された第１結合信号（２１０）と符号化された予測残留信号（２１１）と予測情報（２０６）を結合すること（２１２）とを含み、
第１チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
第２チャンネル信号は一つのサンプルブロックのスペクトル表記であり、
どちらのスペクトル表記も、純粋な実数スペクトル表記または純粋な虚数スペクトル表記であり、
予測情報（２０６）は、０ではない実数値係数として及び／または０ではない虚数値係数として算出され、
第１結合信号から変換スペクトル表記を導き出すために、実数−虚数変換（２０７０）または虚数−実数変換が実行され、
予測信号が虚数値係数を使用して、変換されたスペクトルから導き出されるように、第１結合信号（２０４）と第１残留信号（２０３２）が計算される、
オーディオ信号符号化方法。

【請求項21】

コンピュータまたはプロセッサーで起動された際に、請求項１９または請求項２０に記載の方法を実行するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明はオーディオ処理に関し、特に、二つ以上のチャンネル信号を有するマルチチャンネル信号に対するマルチチャンネルオーディオ処理に関する。

【0002】

マルチチャンネルまたはステレオ処理の分野において、いわゆるミッド／サイドステレオコーディングを適用することは公知である。この概念では、ミッドまたはモノ信号Ｍを得るために、左側または第１のオーディオチャンネル信号と右側または第２のオーディオチャンネル信号との結合物が形成される。さらに、サイド信号Ｓを得るために、左側または第１のオーディオチャンネル信号と右側または第２のオーディオチャンネル信号との間の差が形成される。このミッド／サイドコーディング方法において、左側の信号と右側の信号が互いによく似ている場合には、サイド信号は非常に小さくなるのでコーディング利得が非常に大きくなる。典型的には、量子化／エントロピー符号化されるべき値の範囲が狭くなると、量子化器／エントロピーエンコーダ段階でのコーディング利得はより高くなる。従って、ＰＣＭまたはハフマンに基づくまたは演算的なエントロピーエンコーダに関して、サイド信号が小さくなるとコーディング利得は大きくなる。しかし、ミッド／サイドコーディングがコーディング利得をもたらさない場合もある。これは、両方のチャンネルの信号が、互いに例えば９０℃位相シフトされた場合に起こり得る。その場合、ミッド信号及びサイド信号がよく似た範囲にある可能性があり、それ故に、エントロピーエンコーダを使用したミッド及びサイド信号のコーディングはコーディング利得をもたらさず、ビットレートの増進という結果をさえもたらし得る。従って、帯域におけるミッド／サイドコーディングを停止させるために、周波数選択的なミッド／サイドコーディングを適用でき、例えばサイド信号は元の左側の信号に対してある程度まで小さくなることはない。

【0003】

左側と右側の信号が全く同じである場合には、サイド信号は０になり、サイド信号が排除されることにより、最大のコーディング利得を得ることになる。しかし、ミッド信号とサイド信号が波形に関して全く同じであるが、これらの信号の唯一の違いは全体的な振幅である場合には、状況は異なる。この場合、さらにサイド信号のミッド信号への位相シフトが全く行われないと仮定すると、ミッド信号はその値の範囲に関してそれほど低下はしないが、サイド信号はかなり増大する。このような状況がある周波数帯域で起こった場合、コーディング利得の欠如により、ミッド／サイドコーディングを停止させるであろう。ミッド／サイドコーディングは周波数選択的に適用可能であり、あるいは時間領域で適用可能である。

【0004】

これ以外にも、ミッド／サイドコーディングとしての一種の波形アプローチに依存せず、いくつかの両耳キューに基づくパラメータ処理に依存するマルチチャンネルコーディング技術がある。このような技術は、「両耳キューコーディング」、「パラメータステレオコーディング」または「ＭＰＥＧサラウンドコーディング」という言葉で知られている。ここでは、いくつかのキューが複数の周波数帯域に関して計算される。これらのキューには、チャンネル間レベル差、チャンネル間コヒーレンス度、チャンネル間時間差及び／またはチャンネル間位相差が含まれる。これらのアプローチは、リスナーが感じるマルチチャンネルの印象は必ずしも二つのチャンネルの細かな波形に依存するわけではなく、周波数選択的に与えられる正確なキューまたはチャンネル間情報に依存するという前提によるものである。これは、機器を提供する際に、キューを正確に反映するマルチチャンネル信号を送るように気をつけなければならないが、波形は決定的な重要性を持つものではないということを意味している。

【0005】

全てのチャンネルが一つの同じダウンミックスチャンネルから導き出されたものであるにもかかわらず、互いに相関関係のないステレオ信号を人工的に作り出すために、デコーダが非相関化処理を行わなければならない場合には、このアプローチは特に複雑である。この目的のための非相関化装置は、その実施態様に応じて複雑であり、特に過渡信号部分にアーチファクトを引き起こすかもしれない。さらに、波形コーディングと比較して、パラメータコーディングアプローチは損失の多いコーディングアプローチであり、典型的な量子化によりもたらされるだけではなく、特定の波形ではなく両耳キューを観察することでもたらされる情報損失が必ず起こる。このアプローチは非常に低いビットレートをもたらすが、質の点での妥協が必要となるかもしれない。

【0006】

スピーチとオーディオの統合的コーディング（ＵＳＡＣ）のために最近開発されたものを図７Ａに示す。主要デコーダ７００は、７０１で入力される符号化されたステレオ信号（ミッド／サイドコーディングされている可能性がある）のデコーディング処理を行う。この主要デコーダはライン７０２でミッド信号を出力し、ライン７０３でサイドまたは残留信号を出力する。これらの信号はＱＭＦフィルターバンク７０４，７０５によってＱＭＦ領域に変換される。そして、ＭＰＥＧサラウンドデコーダ７０６により、左チャンネル信号７０７と右チャンネル信号７０８が生成される。これらの低帯域信号は次にスペクトル帯域複製（ＳＢＲ）デコーダ７０９に導入され、このデコーダ７０９はライン７１０，７１１で広帯域の左信号と右信号を生成する。そして、これらの信号はＱＭＦ結合フィルターバンク７１２，７１３によって時間領域に変換され、広帯域左信号Ｌと広帯域右信号Ｒが得られる。

【0007】

図７Ｂは、ＭＰＥＧサラウンドデコーダ７０６がミッド／サイドデコーディングを行う状況を示している。あるいは、ＭＰＥＧサラウンドデコーダブロック７０６は、一つのモノラルの主要デコーダ信号からステレオ信号を生成するために、両耳キューに基づくパラメータデコーディングを行うことも可能である。当然、ＭＰＥＧサラウンドデコーダ７０６はまた、ＳＢＲデコーダブロック７０９に送られる複数の低域出力信号を、チャンネル間レベル差、チャンネル間コヒーレンス度などのパラメータ情報または他のこのようなチャンネル間情報パラメータを使用して生成することも可能である。

【0008】

ＭＰＥＧサラウンドデコーダブロック７０６が図７Ｂに示すミッド／サイドデコーディングを実行する際、実数値利得係数ｇが適用可能であり、ＤＭＸ／ＲＥＳとＬ／Ｒは、それぞれ、複素数ハイブリッドＱＭＦ領域で表されるダウンミックス／残留信号と左／右信号である。

【0009】

この信号の複素数ＱＭＦ表記はＳＢＲデコーダの一部としてすでに入手可能であるので、ブロック７０６とブロック７０９の結合物の利用は、基本的にステレオデコーダを使用する場合と比較して、計算量はわずかに増加するだけである。しかし非ＳＢＲ構造では、ＵＳＡＣとの関連で提案されているようなＱＭＦに基づくステレオコーディングは、計算量のかなりの増加を招くことになる。この例では、６４帯域解析バンクと６４帯域合成バンクを必要とするＱＭＦバンクが必要となるからである。これらのフィルターバンクはステレオコーディングのためだけに付加的に設置されなければならない。

【0010】

しかし、現在開発中のＭＰＥＧ−ＵＳＡＣシステムにおいては、ＳＢＲが通常では使用されないような高いビットレートでのコーディングモードも存在する。

【発明の概要】

【発明が解決しようとする課題】

【0011】

本発明の目的は、高いコーディング利得が得られ、また、良好なオーディオまたはビデオ品質が得られる及び／または計算量を少なくできる改良オーディオまたはビデオ処理概念を提供することである。

【課題を解決するための手段】

【0012】

この目的は、請求項１に係るオーディオデコーダ、請求項１４に係るオーディオエンコーダ、請求項１９に係るオーディオ復号化方法、請求項２０に係るオーディオ符号化方法、請求項２１に係るコンピュータプログラムによって達成される。

【0013】

本発明は、高品位波形コーディングアプローチのコーディング利得は、第１の結合信号を使用して第２の結合信号を予測することにより（どちらの結合信号も、ミッド／サイド結合ルールのような結合ルールを使用して、オリジナルのチャンネル信号から引き出される）非常に増大させることができるという発見に基づくものである。この予測情報はオーディオエンコーダ内の予測器により最適目標が達成されるように算出されるが、本発明の予測はそれでもなお波形に基づくコーディングであり、パラメータに基づくステレオまたはマルチチャンネルコーディングアプローチではないので、わずかなオーバーヘッドを被るだけであるが、オーディオ品質を全く損なわずにサイド信号に必要なビットレートをかなり低下させるということがわかった。計算量を減らすためには、周波数領域符号化を実行することが好ましく、周波数領域符号化においては、予測情報は周波数領域入力データから帯域選択方式で引き出される。時間領域表記をスペクトル表記に変換するための変換アルゴリズムは、修正離散余弦変換（ＭＤＣＴ）または修正離散正弦変換（ＭＤＳＴ）のようなじっくりと抽出された処理であることが好ましい。修正離散余弦変換（ＭＤＣＴ）や修正離散正弦変換（ＭＤＳＴ）では、複素数変換とは違い、実数または虚数のみが計算され、複素数変換では、スペクトルの実数と虚数が計算されるので、２倍のオーバーサンプリングという結果になる。

【0014】

エイリアシングの導入と解消に基づく変換が使用されることが好ましい。特に、ＭＤＣＴはこのような変換であり、デコーダ側での重複加算処理によって得られる周知の時間領域エイリアシング解消（ＴＤＡＣ）特性によるオーバーヘッドを被ることなく、連続するブロック間のクロスフェーディングが可能である。

【0015】

エンコーダで算出され、デコーダに送られ、デコーダで使用される予測情報は、０°から３６０°の間で任意に選択された二つのオーディオ信号間の位相差を有利に反映することができる虚部を含むことが好ましい。実数値変換のみ、あるいは概して、実数スペクトルだけかまたは虚数スペクトルだけをもたらす変換が適用されると、計算量はかなり軽減される。左信号のある帯域と右信号の同じ帯域間の位相シフトを示すこの虚数予測情報を利用するために、変換の実施態様に応じて、第１結合信号から予測残留信号（この結合信号を相回転させたもの）を算出するための実数から虚数への（実数−虚数）変換器または虚数から実数への（虚数−実数）変換器がデコーダに備えられている。この相回転予測信号は、その後、サイド信号を再生成するためにビットストリームで送られた予測残留信号と結合され、最終的には、ある帯域の復号された左チャンネルとその帯域の復号された右チャンネルを得るためにミッド信号と結合され得る。

【0016】

オーディオ品質向上のために、予測残留信号がエンコーダで算出される場合、デコーダ側で使用される実数−虚数変換器または虚数−実数変換器と同じものがエンコーダ側にも備えられている。

【0017】

本発明は、同じビットレートまたは同じオーディオ品質を有するシステムと比較して、オーディオ品質の向上とビットレートの低下をもたらすという点で有益である。

【0018】

また、高いビットレートのＭＰＥＧ−ＵＳＡＣシステム（通常ＳＢＲが使用されない）に有用な統合的ステレオコーディングの計算効率に関して有利である。これらのアプローチにおいては、複素数ハイブリッドＱＭＦ領域で信号を処理する代わりに、基本的なステレオ変換コーダーの固有のＭＤＣＴ領域で残留に基づく予測ステレオコーディングを実行する。

【0019】

本発明の一側面によれば、本発明はＭＤＣＴ領域での複素数予測によりステレオ信号を生成する装置または方法を含み、これらの装置や方法においては、複素数予測は実数−複素数変換を使用してＭＤＣＴ領域で行われ、このステレオ信号はエンコーダ側で符号化されたステレオ信号となるか、またはこのステレオ信号生成装置または方法がデコーダ側に適用される場合には、このステレオ信号は復号された／送信されたステレオ信号となり得る。

【図面の簡単な説明】

【0020】

【図1】オーディオデコーダの好ましい一実施形態の略図である。

【図2】オーディオエンコーダの好ましい一実施形態のブロック図である。

【図3A】図２のエンコーダ計算機の一実施例を示す。

【図3B】図２のエンコーダ計算機の他の実施例を示す。

【図3C】エンコーダ側で適用されるミッド／サイド結合ルールを示す。

【図4A】図１のデコーダ計算機の一実施例を示す。

【図4B】マトリクス計算機という形態でのデコーダ計算機の他の実施例を示す。

【図4C】図３Ｃに示した結合ルールに対応するミッド／サイド逆結合ルールを示す。

【図5A】実数値周波数領域であることが好ましい周波数領域で動作するオーディオエンコーダの一実施形態を示す。

【図5B】周波数領域で動作するオーディオデコーダの一実施形態を示す。

【図6A】ＭＤＣＴ領域で動作し、実数−虚数変換を使用するオーディオエンコーダの他の実施形態を示す。

【図6B】ＭＤＣＴ領域で動作し、実数−虚数変換を使用するオーディオデコーダの実施形態を示す。

【図7A】ステレオデコーダとその直後に接続されたＳＢＲデコーダを使用するオーディオ後処理装置を示す。

【図7B】ミッド／サイドアップミックスマトリクスを示す。

【図8A】図６ＡのＭＤＣＴブロックの詳細を示す。

【図8B】図６ＢのＭＤＣＴ^-1ブロックの詳細を示す。

【図9A】ＭＤＣＴ出力に関して低分解能で動作する最適化装置の一実施例を示す。

【図9B】ＭＤＣＴスペクトル表記と、予測情報が算出される低分解能帯域を示す。

【図10A】図６Ａまたは図６Ｂの実数−虚数変換器の一実施例を示す。

【図10B】図１０Ａの虚数スペクトル計算機の実施可能な例を示す。

【発明を実施するための形態】

【0021】

以下、本発明の好ましい実施形態を、添付図面を参照しながら説明する。

【0022】

図１は、入力ライン１００で得た符号化されたマルチチャンネルオーディオ信号を復号するためのオーディオデコーダを示している。符号化されたマルチチャンネルオーディオ信号は、マルチチャンネルオーディオ信号を表す第１チャンネル信号と第２チャンネル信号とを結合するための結合ルールを用いて生成された符号化された第１結合信号と、符号化された予測残留信号と、予測情報とを含む。符号化されたマルチチャンネル信号は、多重形態で三つの成分を有するビットストリームのようなデータストリームであってもよい。さらに付加的なサイド情報がライン１００の符号化されたマルチチャンネル信号に含まれていてもよい。この信号は入力インターフェース１０２に入力される。入力インターフェース１０２は、符号化された第１結合信号をライン１０４で出力し、符号化された残留信号をライン１０６で出力し、予測情報をライン１０８で出力するデータストリーム・デマルチプレクサーとして実施できる。予測情報は、０ではない実部及び／または０ではない虚部を有する係数である。符号化された結合信号と符号化された残留信号は、ライン１１２で復号された第１結合信号を得るために、第１結合信号を復号する信号デコーダ１１０に入力される。また、信号デコーダ１１０は、ライン１１４で復号された残留信号を得るために、符号化された残留信号を復号するように構成されている。オーディオエンコーダ側での符号化処理に応じて、信号デコーダは、ハフマンデコーダや演算デコーダなどのエントロピーデコーダまたは他の何らかのエントロピーデコーダと、その直後に接続され、関連するオーディオエンコーダにおける量子化処理に一致したデクオンタイゼーション処理を実行するデクオンタイゼーション段階を含む。ライン１１２，１１４の信号はデコーダ計算機１１５に入力され、このデコーダ計算機１１５はライン１１７で第１チャンネル信号を、ライン１１８で第２チャンネル信号を出力する。これら二つの信号はステレオ信号またはマルチチャンネルオーディオ信号の二つのチャンネルである。例えばマルチチャンネルオーディオ信号が五つのチャンネルを含む場合、これら二つの信号はこのマルチチャンネル信号のうちの二つのチャンネルである。このような五つのチャンネルを有するマルチチャンネル信号を完全に符号化するためには、図１に示すようなデコーダを二つ使用し、第１のデコーダは左チャンネルと右チャンネルを処理し、第２のデコーダは左サラウンドチャンネルと右サラウンドチャンネルを処理し、中央チャンネルのモノ符号化を行うために、第３のモノデコーダが使用されてもよい。別のグループ分けも可能であり、あるいは、波形コーダーとパラメータコーダーとの組み合わせも適用できる。三つ以上のチャンネルに対する予測スキームを一般化するための別の方法は、三つ（またはそれ以上）の信号を同時に処理する、例えば、ＭＰＥＧサラウンドの「２個から３個への」モジュールとよく似ているが、二つの予測係数を用いて第１及び第２の信号から第３の結合信号を予測することである。

【0023】

デコーダ計算機１１６は、復号された第１チャンネル信号１１７と復号された第２チャンネル信号１１８を有する復号されたマルチチャンネル信号を、復号された残留信号１１４と予測情報１０８と復号された第１結合信号１１２を用いて算出するよう構成されている。デコーダ計算機１１６は、特に、復号された第１チャンネル信号と復号された第２チャンネル信号が、対応するエンコーダへ入力されたマルチチャンネル信号の第１チャンネル信号と第２チャンネル信号（これらは、第１結合信号と予測残留信号を生成する際に、結合ルールにより結合されたものである）の少なくとも近似であるように演算するよう構成されている。詳しくは、ライン１０８の予測情報は、０ではない実部と及び／または０ではない虚部を含む。

【0024】

デコーダ計算機１１６は、いくつかの異なる方法で実施可能である。図４Ａにその第１実施例を示す。この実施例は、予測器１１６０と結合信号計算機１１６１と結合器１１６２を含む。予測器は復号された第１結合信号１１２と予測情報１０８を受け取り、予測信号１１６３を出力する。詳しくは、予測器１１６０は、予測情報１０８を復号された第１結合信号１１２または復号された第１結合信号から導き出された信号に適用するよう構成されている。予測情報１０８を適用すべき信号を導き出すための導出ルールは、実数−虚数変換または同じく虚数−実数変換、または重み付け処理、あるいは実施態様に応じて、位相シフト処理または重み付けと位相シフトの組み合わせ処理であってもよい。予測信号１１６３は、復号された第２結合信号１１６５を算出するために、復号された残留信号と共に結合信号計算機１１６１に入力される。信号１１２と信号１１６５はどちらも結合器１１６２に入力され、結合器１１６２は、復号された第１チャンネル信号と復号された第２チャンネル信号をそれぞれ出力ライン１１６６と１１６７で有する復号後のマルチチャンネルオーディオ信号を得るために、復号された第１結合信号と第２結合信号を結合する。あるいは、デコーダ計算機は、入力として、復号された第１結合信号または信号Ｍと、復号された残留信号または信号Ｄと、予測情報α１０８とを受信するマトリクス計算機１１６８として実施される。マトリクス計算機１１６８は、出力信号Ｌ（復号された第１チャンネル信号）とＲ（復号された第２チャンネル信号）を得るために、信号Ｍ，Ｄに対して１１６９で示されているような変換マトリクスを適用する。図４Ｂの表示は、左チャンネルＬと右チャンネルＲを有するステレオの表示と似ている。この表示は理解を簡単にするために用いられたものであるが、信号ＬとＲは二つ以上のチャンネルの信号を有するマルチチャンネル信号における二つのチャンネル信号の結合であり得ることは、当業者には明らかである。マトリクス処理１１６９は図４Ａのブロック１１６０，１１６１，１１６２での処理を一種の「一発」マトリクス計算に統合し、図４Ａの回路への入力と図４Ａの回路からの出力は、マトリクス計算機１１６８への入力またはマトリクス計算機１１６８からの出力と同じものである。

【0025】

図４Ｃは図４Ａの結合器１１６２によって用いられる逆結合ルールの一例を示す。特に、この結合ルールは、Ｌ＝Ｍ＋Ｓ、Ｒ＝Ｍ−Ｓである公知のミッド／サイドコーディングにおけるデコーダ側での結合ルールと同様のものである。図４Ｃの逆結合ルールで使用される信号Ｓは、結合信号計算機によって算出される信号、つまりライン１１６３の予測信号とライン１１４の復号された残留信号との結合であると理解すべきである。この明細書において、ライン上の信号は、ラインに対する参照符号で示される場合もあり、それらの信号自身に対する参照符号で示される場合もあるが、これらの参照符号はラインに起因するものである。従って、ある信号を有するラインは信号そのものを示しているということである。ラインは、配線実施例においては物理的なラインであり得る。しかし、コンピュータの実施例では物理的な線は存在しないが、線によって示されている信号は一つの計算モジュールから他の計算モジュールへ送られる。

【0026】

図２は、二つ以上のチャンネル信号を有するマルチチャンネルオーディオ信号２００を符号化するためのオーディオエンコーダを示し、第１チャンネル信号は２０１で示され、第２チャンネル信号は２０２で示されている。これらのどちらの信号もエンコーダ２０３に入力され、エンコーダ２０３は、第１チャンネル信号２０１と第２チャンネル信号２０２と予測情報２０６を使用して、第１結合信号２０４と予測残留信号２０５を算出する。そして、予測残留信号２０５が第１結合信号２０４と予測情報２０６から導き出された予測信号とに結合されると、第２結合信号となるが、第１結合信号と第２結合信号は、結合ルールを用いて第１チャンネル信号２０１と第２チャンネル信号２０２から導出可能である。

【0027】

予測情報は、予測残留信号が最適化目標２０８を満たすように予測情報２０６を算出するための最適化装置２０７によって生成される。第１結合信号２０４と残留信号２０５は、符号化された第１結合信号２１０を得るために第１結合信号２０４を符号化し、符号化された残留信号２１１を得るために残留信号２０５を符号化するための信号エンコーダ２０９に入力される。これらの符号化された信号２１０，２１１のどちらも、符号化されたマルチチャンネル信号２１３を得るために、符号化された第１結合信号２１０を符号化された予測残留信号２１１と予測情報２０６に結合するための出力インターフェース２１２に入力される。この符号化されたマルチチャンネル信号２１３は、図１に示されているオーディオデコーダの入力インターフェース１０２に入力される符号化されたマルチチャンネル信号１００と類似である。

【0028】

実施態様に応じて、最適化装置２０７は、第１チャンネル信号２０１と第２チャンネル信号２０２を受信するか、または、ライン２１４と２１５で示されているように、図３Ａの結合器２０３１から引き出された第１結合信号２１４と第２結合信号２１５を受信する。結合器２０３１については後述する。

【0029】

好ましい最適化目標が図２に示されているが、これにより、コーディング利得が最大となり、つまり、ビットレートができる限り低減される。この最適化目標では、残留信号Ｄはαに関して最小化されている。これは、換言すれば、予測情報αは‖Ｓ−αＭ‖²が最小となるように選択されるということである。これは図２に示されているようなαの解をもたらす。信号Ｓ，Ｍはブロックごとに与えられ、スペクトル領域信号であることが好ましく、表記‖…‖は引数の２−ノルムを意味し、＜…＞は通常通りドット積を示す。第１チャンネル信号２０１と第２チャンネル信号２０２が最適化装置２０７に入力されると、最適化装置は結合ルールを適用しなければならない。結合ルールの一例を図３Ｃに示す。しかし、第１結合信号２１４と第２結合信号２１５が最適化装置２０７に入力された場合には、最適化装置２０７は自動的に結合ルールを実施する必要はない。

【0030】

感覚的質には他の最適化目標が関係する場合もある。最適化目標は、感覚的な良質さが最大限に得られるようなものであってもよい。この場合、最適化装置は感覚的モデルからの付加的な情報を必要とするであろう。最適化目標の他の実施例は、最小限のまたは一定のビットレートを得ることに関連したものであってもよい。この場合、αが最小限のビットレートまたは一定のビットレートというような要件を満たすようなものとなるように、最適化装置２０７はいくつかのαの値のために必要なビットレートを決定するために量子化／エントロピー符号化を実行する。最適化目標の他の実施例は、エンコーダまたはデコーダの最小限の資料の使用に関係していてもよい。このような最適化目標の実施例では、ある最適化に必要な資料に関する情報は最適化装置２０７内で入手可能である。また、予測情報２０６を算出する最適化装置２０７を制御するために、これらの最適化目標や他の最適化目標の組み合わせを適用することもできる。

【0031】

図２のエンコーダ計算機２０３は様々な態様で実施することができる。明確な結合ルールが結合器２０３１で実行される第１実施例を図３Ａに示す。別の実施例を図３Ｂに示すが、ここではマトリクス計算機２０３９が使用される。図３Ａの結合器２０３１は図３Ｃに示す結合ルールを実行するよう構成されていてもよく、図３Ｃの結合ルールは、０．５の重み付け係数が全てのブランチに適用される公知のミッド／サイドエンコーディングルールを一例として挙げたものである。しかし、実施態様に応じて、他の重み付け係数を適用することも可能であり、あるいは、全く何の重み付け係数をも適用しなくもよい。さらに、他の線形結合ルールまたは非線形結合ルールのような他の結合ルールも、図４Ａに示されているデコーダ結合器１１６２で適用可能であるそれに対応する逆結合ルールが存在する限り使用可能であり、デコーダ結合器１１６２は、エンコーダで適用された結合ルールの逆の結合ルールを使用する。本発明に係る予測により、波形への影響が予測により「平衡状態に保たれる」ので、可逆的予測ルールが使用できる。つまり、最適化装置２０７とエンコーダ計算機２０３によって実行される予測は波形保存処理であるので、送信された残留信号に何らかのエラーが含まれる。

【0032】

結合器２０３１は第１結合信号２０４と第２結合信号２０３２を出力する。第１結合信号は予測器２０３３に入力され、第２結合信号２０３２は残留信号計算機２０３４に入力される。予測器２０３３は予測信号２０３５を出力し、この予測信号２０３５は第２結合信号２０３２と結合され、最終的に残留信号２０５を得る。特に、結合器２０３１は、第１結合信号２０４と第２結合信号２０３２を得るために、二つの異なる方法でマルチチャンネルオーディオ信号の二つのチャンネル信号２０１と２０２とを結合するよう構成されている。これら二つの異なる方法は図３Ｃの実施形態に示されている。予測器２０３３は、予測信号２０３５を得るために、予測情報を第１結合信号２０４または第１結合信号から導き出された信号に適用させるように構成されている。この結合信号から導き出された信号は、何らかの非線形または線形処理（実数−虚数変換または虚数−実数変換が好ましい）によって導き出すことができ、これは、いくつかの値の重み付け加算を行うＦＩＲフィルターのような線形フィルターを使用して実施することができる。

【0033】

図３Ａの残留信号計算機２０３４は、第２結合信号から予測信号を差し引くように減算処理を行ってもよい。しかし、残留信号計算機において他の演算も可能である。それに対応して、図４Ａの結合信号計算機１１６１は、第２結合信号１１６５を得るために、復号された残留信号１１１４と予測信号１１６３を合算する加算処理を実行してもよい。

【0034】

図５Ａはオーディオエンコーダの好ましい実施例を示している。図３Ａに示したオーディオエンコーダと比較して、第１チャンネル信号２０１は時間領域第１チャンネル信号５５ａのスペクトル表記である。それに対応して、第２チャンネル信号２０２は時間領域チャンネル信号５５ｂのスペクトル表記である。時間領域からスペクトル表記への変換は、第１チャンネル信号については時間／周波数変換器５０により、第２チャンネル信号については時間／周波数変換器５１により実行される。スペクトル変換器５０，５１は実数値変換器であることが好ましいが、必ずしもそうである必要はない。変換アルゴリズムは、実部だけが使用される離散余弦変換やＦＦＴ変換であってもよく、あるいは実数スペクトル値を出力するＭＤＣＴや他の変換であってもよい。別の例では、これら両方の変換は、虚部だけが使用され、実部は無視されるＭＤＳＴやＦＦＴなどの虚数変換として実施することもできる。虚数値だけを出力する他の変換も使用可能である。純粋に実数値のみの変換または純粋に虚数値のみの変換をすることの目的の一つは、計算量にある。各スペクトルに関して、大きさまたは実部のような一つの値、あるいは、位相または虚部のような一つの値だけを処理すればよいからである。ＦＦＴのような完全複素数変換においては、各スペクトルラインに関して二つの値、つまり実部と虚部が処理されなければならず、少なくとも２の係数で計算量が増加する。ここで実数値変換を使用する別の理由は、このような変換は通常じっくりと抽出され、従って信号量子化とエントロピー符号化（「ＭＰ３」、ＡＡＣまたは類似のオーディオコーディングシステムで実施されている標準的な「感覚的オーディオコーディング」パラダイム）に適切な（そして一般的に使用されている）領域を与えるということである。

【0035】

図５Ａはさらに、その「プラス」入力でサイド信号を受け取り、その「マイナス」入力で予測器２０３３から出力された予測信号を受け取る加算器として、残留信号計算機２０３４を示している。また、図５Ａは、予測制御情報が最適化装置から、符号化されたマルチチャンネルオーディオ信号を表す多重ビットストリームを出力するマルチプレクサー２１２へ送られている状態を示している。特に、図５Ａの右側の式で示されているように、サイド信号がミッド信号から予測されるような方法で、予測演算が行われる。

【0036】

予測制御情報２０６は、図３Ｂの右側に示されているような係数であることが好ましい。予測制御信号が複素数値αの実部または複素数値αの大きさというような実部のみを含み、この実部が０ではない係数に相当する実施形態において、ミッド信号とサイド信号がそれらの波形構造に関しては互いに似ているが、振幅が異なる場合には、かなりのコーディング利得が得られる。

【0037】

予測制御情報が、複素数値係数の虚部（０ではない）または複素数値係数の位相情報（０ではない）であり得る第２部分のみを含む場合、本発明では、０°及び１８０°以外の値で互いに位相シフトし、その位相シフトとは関係なく、波形特徴と振幅関係が類似している信号に関して、かなりのコーディング利得を得ることができる。

【0038】

予測制御情報は複素数値であることが好ましい。その場合、振幅が異なり、位相シフトしている信号に関して、かなりのコーディング利得が得られる。時間／周波数変換が複素数スペクトルをもたらす場合、演算２０３４は、予測制御情報の実部が複素数スペクトルＭの実部に適用され、予測制御情報の虚部が複素数スペクトルの虚部に適用される複素数演算となる。この場合、加算器２０３４では、この予測演算の結果は予測実数スペクトルと予測虚数スペクトルであり、複素数残留スペクトルＤを得るために、サイド信号Ｓ（帯域に関して）の実数スペクトルから予測実数スペクトルが減算され、サイド信号Ｓの虚数スペクトルから予測虚数スペクトルが減算される。

【0039】

時間領域信号ＬとＲは実数値信号であるが、周波数領域信号は実数値であっても複素数値であってもよい。周波数領域信号が実数値である場合、変換は実数値変換である。周波数領域信号が複素数値である場合、変換は複素数値変換である。これは、時間−周波数変換器に対する入力及び周波数−時間変換器からの出力は実数値であり、周波数領域信号は例えば複素数値ＱＭＦ領域信号であり得るということを意味している。

【0040】

図５Ｂは、図５Ａに示したオーディオエンコーダに対応するオーディオデコーダを示している。図１のオーディオデコーダに関するものと同様の素子には、同様の参照符号が与えられている。

【0041】

図５Ａのビットストリームマルチプレクサー２１２によって出力されたビットストリームは、図５Ｂのビットストリームデマルチプレクサー１０２に入力される。ビットストリームデマルチプレクサー１０２は、ビットストリームをダウンミックス信号Ｍと残留信号Ｄとに分離する。ダウンミックス信号Ｍはデクオンタイザー１１０ａに入力される。残留信号Ｄはデクオンタイザー１１０ｂに入力される。さらに、ビットストリームデマルチプレクサー１０２は、ビットストリームから予測制御情報１０８を分離し、それを予測器１１６０に入力する。予測器１１６０は予測サイド信号α・Ｍを出力し、結合器１１６１はデクオンタイザー１１０ｂによって出力された残留信号を予測サイド信号と結合し、最終的に再構築されたサイド信号Ｓを得る。この信号はその後、例えば、ミッド／サイドエンコーディングに関する図４Ｃに示されている和／差の処理を実行する結合器１１６２に入力される。詳しくは、ブロック１１６２は、左チャンネルの周波数領域表記と右チャンネルの周波数領域表記を得るために、（逆）ミッド／サイドデコーディングを実行する。周波数領域表記はその後、それぞれに対応する周波数／時間変換器５２，５３によって時間領域に変換される。

【0042】

システムの実施態様によるが、周波数領域表記が実数値表記の場合、周波数／時間変換器５２，５３は実数値周波数／時間変換器であり、周波数領域表記が複素数値表記の場合、周波数／時間変換器５２，５３は複素数値周波数／時間変換器である。

【0043】

しかし、効率向上のためには、図６Ａ（エンコーダ）と図６Ｂ（デコーダ）に示されている別の実施例のように、実数値変換を行うことの方が好ましい。実数値変換５０，５１はＭＤＣＴによって実施される。さらに、予測情報は、実部と虚部を有する複素数値として算出される。ＭとＳのどちらのスペクトルも実数値スペクトルであり、従って、スペクトルの虚部は存在しないので、信号Ｍの実数値スペクトルから虚数スペクトル６００を推定する実数−虚数変換器２０７０が設けられている。この実数−虚数変換器２０７０は最適化装置２０７の一部であり、ブロック２０７０によって推定された虚数スペクトルは、予測情報２０６を得るために、実数スペクトルＭと共にα最適化ステージ２０７１に入力される。そして、予測情報２０６は、２０７３で示されている実数値係数と２０７４で示されている虚数値係数を持つことになる。この実施形態においては、第１結合信号Ｍの実数値スペクトルには２０７３で示されている実部α_Rが掛けられ、これにより予測信号を得、その後、この予測信号は実数値サイド信号スペクトルから引き算される。また、さらに別の予測信号を得るために、虚数スペクトル６００には２０７４で示されている虚部α_Iが掛けられ、この予測信号はその後、２０３４ｂで示されているように、実数値サイド信号から引き算される。そして、予測残留信号Ｄは量子化器２０９ｂで量子化され、Ｍの実数値スペクトルはブロック２０９ａで量子化／符号化される。また、符号化された複素数値αを得るために、予測情報αを量子化器／エントロピーエンコーダ２０７２で量子化及び符号化することが好ましく、符号化された複素数値αは、例えば図５Ａのビットストリームマルチプレクサー２１２に送られ、最終的に予測情報としてビットストリームに入れられる。

【0044】

αのための量子化／符号化（Ｑ／Ｃ）モジュール２０７２の位置に関して、マルチプレクサー２０７３，２０７４は、デコーダでも使用されることになるものと全く同じ（量子化された）αを使用することが好ましいことに留意すべきである。従って、２０７２を２０７１の出力の直後に位置させるか、または、αの量子化が２０７１での最適化処理で既に考慮されてもよい。

【0045】

エンコーダ側で全ての情報が入手可能であるので、複素数スペクトルを計算することは可能であるが、図６Ｂに示されているデコーダに関しても同様の状態が生じるように、エンコーダ内のブロック２０７０で実数から複素数への変換が行われることが好ましい。デコーダは、第１結合信号の符号化された実数値スペクトルと符号化された残留信号の実数値スペクトル表記を受け取る。さらに、１０８で符号化された複素数予測信号が受け取られ、１１６０ｂで示されている実部α_Rと１１６０ｃで示されている虚部α_Iを得るために、ブロック６５でエントロピー復号とデクオンタイゼーションが行われる。重み付け素子１１６０ｂ，１１６０ｃによって出力されたミッド信号は、復号されデクオンタイズされた予測残留信号に加算される。詳しくは、重み付け器１１６０ｃに入力されたスペクトル値に関して、複素数予測係数の虚部が重み付け係数として使用されるが、これらのスペクトル値は、実数−虚数変換器１１６０ａによって実数値スペクトルから引き出されたものである。実数−虚数変換器１１６０ａは、エンコーダ側に関する図６Ａのブロック２０７０と同じように実施されることが好ましい。デコーダ側ではミッド信号またはサイド信号の複素数値表記は入手不可能であり、これがエンコーダ側との大きな違いである。符号化された実数値スペクトルのみがエンコーダからデコーダへ送られる理由は、ビットレートと計算量にある。

【0046】

図６Ａの実数−虚数変換器１１６０ａまたはそれに相当するブロック２０７０は、ＷＯ２００４／０１３８３９Ａ１またはＷＯ２００８／０１４８５３Ａ１または米国特許６，９８０，９３３で開示されているように実施できる。あるいは、この分野で公知である他のいかなる実施も適用可能である。図１０Ａ，１０Ｂを参照して好ましい実施例を説明する。

【0047】

特に、図１０Ａに示されているように、実数−虚数変換器１１６０ａは虚数スペクトル計算機１００１に接続されたスペクトルフレームセレクター１０００を含む。スペクトルフレームセレクター１０００は、入力１００２で現在のフレームｉの指標と、実施態様によるが、制御入力１００３で制御情報を受け取る。例えば、ライン１００２の指標が現在のフレームｉに関する虚数スペクトルを算出すべきであることを示している場合や、制御情報１００３がその計算には現在のフレームのみを使用すべきであることを示している場合には、スペクトルフレームセレクター１０００は現在のフレームｉだけを選択し、この情報を虚数スペクトル計算機に送る。そして、虚数スペクトル計算機は、現在のフレーム（ブロック１００８）内に位置するライン（周波数に関して、現在のスペクトルラインｋ付近のライン）の重み付け結合を実行するのに、現在のフレームのスペクトルラインだけを使用する。現在のスペクトルラインｋに関する虚数ラインは、図１０Ｂに１００４で示されているように算出される。しかし、スペクトルフレームセレクター１０００が、先行のフレームｉ−１と後続のフレームｉ＋１も虚数スペクトルの算出に使用されるべきであると示す制御情報１００３を受け取った場合には、虚数スペクトル計算機はさらにフレームｉ−１とｉ＋１から値を受け取り、フレームｉ−１に関しては１００５で、フレームｉ＋１に関しては１００６で、対応するフレーム内のラインの重み付け結合を実行する。重み付け処理の結果はブロック１００７で重み付け結合によって結合され、最終的にフレームｆ_iの虚数ラインｋが得られる。その後、素子１１６０ｃで、フレームｆ_iの虚数ラインｋに予測情報の虚部が掛けられ、このラインに関する予測信号が得られ、この予測信号は、その後、デコーダの加算器１１６１ｂでミッド信号の対応するラインに加算される。エンコーダで同様の処理が実行されるが、素子２０３４ｂでは減算が行われる。

【0048】

制御情報１００３はさらに、三つ以上の周囲のフレームを使用すること、あるいは、例えばシステムの遅延を抑えるために、現在のフレームと直前の一つまたは複数のフレームのみを使用し、「未来の」フレームを使用しないことを表示していてもよい。

【0049】

また、図１０Ｂに示されているステージごとの重み付け結合においては、第１の処理では一つのフレームからのラインが結合され、それに引き続き、これらのラインごとの結合処理の結果が結合されるが、このステージごとの重み付け結合は他の順序でも実行され得る。他の順序とは、第１のステップで、制御情報１０３によって示されている複数の隣接するフレームからの現在の周波数ｋに関するラインが、重み付け結合によって結合されることである。この重み付け結合は、虚数ラインを推定するのに使用されるべき隣接するラインの数に応じて、ラインｋ，ｋ−１，ｋ−２，ｋ＋１，ｋ＋２…に関して行われる。その後、これらの「時間ごとの」結合の結果は「周波数方向」で重み付け結合され、最終的にフレームｆ_iの虚数ラインｋを得る。重みは好ましくは−１と１の間の値に設定され、重み付けは、異なる周波数と異なるフレームからのスペクトルラインまたはスペクトル信号の線形結合を行う単純なＦＩＲまたはＩＩＲフィルターで実施可能である。

【0050】

図６Ａ，６Ｂに示すように、好ましい変換アルゴリズムは、図６Ａにおける素子５０，５１の前進方向に適用され、スペクトル領域で動作する結合器１１６２での結合処理の次の素子５２，５３の後退方向に適用されるＭＤＣＴ変換アルゴリズムである。

【0051】

図８Ａはブロック５０または５１のより詳細な実施例を示している。詳しくは、一連の時間領域オーディオサンプルがウィンドウ処理装置５００に入力される。このウィンドウ処理装置５００は、解析ウィンドウを使用してウィンドウ処理を行うが、特に、この処理をフレームごとではあるが、５０％のストライドまたは重複で行う。解析ウィンドウ処理部の結果、つまり一連のフレームのウィンドウ処理後のサンプルはＭＤＣＴ変換ブロック５０１に入力され、このブロック５０１は一連の実数値ＭＤＣＴフレームを出力するが、これらのフレームはエイリアシングの影響を受けている。一例として、解析ウィンドウ処理部は２０４８個のサンプル長さを有する解析ウィンドウを適用する。そして、ＭＤＣＴ変換ブロック５０１は１０２４個の実数スペクトルラインまたはＭＤＣＴ値を有するＭＤＣＴスペクトルを出力する。解析処理部５００及び／またはＭＤＣＴ変換器５０１は、例えば信号の過渡部に関してより良いコーディング結果を得るためにウィンドウ長さ／変換長さが短くなるように、ウィンドウ長さまたは変換長さ制御部５０２で制御可能であることが好ましい。

【0052】

図８Ｂはブロック５２，５３で実行される逆ＭＤＣＴ処理を示している。一例として、ブロック５２は、フレームごとの逆ＭＤＣＴ変換を行うブロック５２０を含む。例えばＭＤＣＴ値の一つのフレームが１０２４個の値を有する場合、このＭＤＣＴ逆変換の出力は２０４８個のエイリアシングの影響を受けた時間サンプルを有する。このようなフレームは合成ウィンドウ処理部５２１に送られ、この合成ウィンドウ処理部５２１は、この２０４８個のサンプルのフレームに合成ウィンドウ処理を行う。ウィンドウ処理後のフレームは、その後、重複／加算処理部５２２に送られ、重複／加算処理部５２２は、例えば二つの連続するフレーム間で５０％の重複を適用し、２０４８個のサンプルが最終的にエイリアシングフリーの出力信号の１０２４個の新たなサンプルをもたらすようにサンプルごとの加算を実行する。ここでも、例えば５２３で示されているような符号化されたマルチチャンネル信号のサイド情報に送られる情報を使用して、ウィンドウ／変換長さの制御が行われることが好ましい。

【0053】

α予測値はＭＤＣＴスペクトルのそれぞれのスペクトルラインに関して算出可能であった。しかし、これは不必要なことであり、予測情報の帯域ごとの計算を行うことにより莫大なサイド情報量が節約できることがわかった。換言すれば、図９に示すスペクトル変換器５０は例えば図８に関して述べたようなＭＤＣＴプロセッサーであるが、これは図９Ｂに示すようないくつかのスペクトルラインを有する高周波分解能スペクトルを出力する。この高周波分解能スペクトルは、いくつかの帯域Ｂ１，Ｂ２，Ｂ３，…，ＢＮを含む低周波分解能スペクトルを出力するスペクトルラインセレクター９０によって使用される。この低周波分解能スペクトルは、各スペクトルラインではなく各帯域に対して予測情報が算出されるように予測情報を計算するための最適化装置２０７に送られる。このために、最適化装置２０７は帯域ごとにスペクトルラインを受け取り、同じ値のαがその帯域の全てのスペクトルラインに使用されるという前提で、最適化処理を行う。

【0054】

図９Ｂに示すように、帯域は、低周波から高周波になるにつれて帯域幅が広くなるように、音響心理的に成形されていることが好ましい。別の例として、帯域幅が増加していく実施例ほど好ましくはないが、同じサイズの周波数帯域もまた使用でき、この場合、各周波数帯域は少なくとも２本またはそれ以上、典型的には少なくとも３０本の周波数ラインを有している。一般的に、１０２４本のスペクトルラインを有するスペクトルに関して、３０個未満であり好ましくは５個よりも多い複素数値αが算出される。１０２４本未満のスペクトルライン（例えば１２８本のライン）を有するスペクトルに関して、αのためにより少ない周波数帯域（例えば６個の周波数帯域）を使用することが好ましい。

【0055】

α値を算出するのに、高分解能ＭＤＣＴスペクトルは必ずしも必要ではない。別の例では、α値を算出するのに必要な分解能と同様の周波数分解能を有するフィルターバンクも使用できる。周波数とともに帯域幅が増大する実施例の場合、このフィルターバンクは異なる帯域幅を有していなければならない。しかし、低周波から高周波にかけて一定の帯域幅で十分な場合には、同じ帯域幅のサブバンドを有する従来のフィルターバンクが使用可能である。

【0056】

実施態様に応じて、図３Ｂ，４Ｂに示すように、α値の符号を逆転させてもよい。しかし、一貫性を保持するためには、符号の逆転はエンコーダ側でもデコーダ側でも行われる必要がある。図６Ａとは対照的に、図５Ａはエンコーダを一般化した図を示し、２０３３は予測制御情報２０６によって制御される予測器であり、この予測制御情報２０６は装置２０７で決定され、ビットストリームのサイド情報として含まれているものである。ブロック５０，５１で使用されるＭＤＣＴの代わりに、図５Ａでは、前述したような一般的な時間／周波数変換が用いられる。既に述べたように、図６Ａは図６Ｂのデコーダ処理に対応するエンコーダ処理を示し、Ｌは左チャンネル、Ｒは右チャンネル、Ｍはミッド信号またはダウンミックス信号、Ｓはサイド信号、Ｄは残留信号を表している。あるいは、Ｌは第１チャンネル信号２０１、Ｒは第２チャンネル信号２０２、Ｍは第１結合信号２０４、Ｓは第２結合信号２０３２とも称される。

【0057】

正確な波形コーディングを確実に行うためには、エンコーダ内のモジュール２０７０とデコーダ内のモジュール１１６０ａは厳密に一致することが好ましい。これらのモジュールが不完全フィルターのような何らかの近似形態を使用する場合、または、三つのＭＤＣＴフレーム、つまりライン６０上の現在のＭＤＣＴフレームとライン６１上の先行するＭＤＣＴフレームとライン６２上の次のＭＤＣＴフレームを使用する代わりに、一つまたは二つのＭＤＣＴフレームのみを使用する場合に、これが適用されることが好ましい。

【0058】

さらに、デコーダ内の実数−虚数変換（Ｒ２Ｉ）モジュール１１６０ａへの入力は量子化ＭＤＣＴスペクトルしか可能ではないが、図６Ａのエンコーダ内のモジュール２０７０は、非量子化ＭＤＣＴスペクトルＭを入力として使用することが好ましい。あるいは、エンコーダにおいてモジュール２０７０への入力として量子化ＭＤＣＴ係数が使用される実施態様も可能である。しかし、モジュール２０７０への入力として非量子化ＭＤＣＴスペクトルを使用することは、感覚的な点において好ましいアプローチである。

【0059】

以下に、本発明の実施形態のいくつかの側面を述べる。

【0060】

標準的なパラメータステレオコーディングは、オーバーサンプリングされた複素数（混合）ＱＭＦ領域の、エイリアシングアーチファクトをもたらさずに、時間及び周波数を変化させる感覚に基づく信号処理ができる可能性に頼っている。しかし、ダウンミックス／残留コーディング（ここで考慮されている高いビットレートに使用されるようなもの）の場合、それによる統合ステレオコーダーは波形コーダーとして動作する。これは、ＭＤＣＴ領域のようなじっくりとサンプリングされた領域での処理を可能にする。波形コーディングパラダイムは、確実にＭＤＣＴ−ＩＭＤＣＴ処理連鎖のエイリアシング解消特性を十分に保持するからである。

【0061】

しかし、チャンネル間の差、時間差または位相差を有するステレオ信号の場合に、複素数値予測係数αによって達成できる改良コーディング効率を引き出すためには、ダウンミックス信号ＤＭＸの複素数値周波数領域表記が複素数値アップミックスマトリクスへの入力として必要である。これは、ＤＭＸ信号に関するＭＤＣＴ変換に加えてＭＤＳＴ変換も使用することで得られる。ＭＤＳＴスペクトルは、ＭＤＣＴスペクトルから（正確にまたは近似値として）算出できる。

【0062】

さらに、アップミックスマトリクスのパラメータ化は、ＭＰＳパラメータの代わりに複素数予測係数αを送信することによって単純化できる。従って、三つ（ＩＣＣとＣＬＤとＩＰＤ）ではなく、二つのパラメータ（αの実部と虚部）のみが送信される。ダウンミックス／残留コーディングの場合にはＭＰＳパラメータ化における冗長性により、これが可能である。ＭＰＳパラメータ化はデコーダに加えられるべき非相関の相対量に関する情報（例えばＲＥＳ信号とＤＭＸ信号とのエネルギー比）を含み、ＤＭＸ信号及びＲＥＳ信号が実際に送信される際にはこの情報は冗長である。

【0063】

同じ理由により、上述のアップミックスマトリクスに示されている利得係数ｇは、ダウンミックス／残留コーディングにはもう使われていない。従って、複素数予測を伴うダウンミックス／残留コーディングのためのアップミックスマトリクスは今や以下のようなものである。

【0064】

【数1】

【0065】

図４Ｂの式１１６９と比較して、この式においてはαの符号が逆になっており、ＤＭＸ＝Ｍであり、ＲＥＳ＝Ｄである。従って、これは図４Ｂに関する別の実施態様／表記である。

【0066】

エンコーダで予測残留信号を算出するのに、二つの選択肢がある。一つはダウンミックスの量子化ＭＤＣＴスペクトル値を使用することである。この場合、エンコーダとデコーダが予測を生成するのに同じ値を使用するので、Ｍ／Ｓコーディングと同様の量子化エラー分布となる。もう一つは非量子化ＭＤＣＴスペクトル値を使用することである。これは、エンコーダとデコーダは予測を生成するのに同じデータを使用しないということであり、コーディング利得は幾分低下するが、信号の瞬間マスキング特性に応じたコーディングエラーの空間的再配分が可能となる。

【0067】

上述したような三つの隣接するＭＤＣＴフレームの二次元的ＦＩＲフィルタリングによって、ＭＤＳＴスペクトルを周波数領域で直接演算することが好ましい。後者は「実数から虚数への」（Ｒ２Ｉ）変換と考えられる。ＭＤＳＴの周波数領域での演算の計算量は以下のような様々な方法で軽減させることができ、これはＭＤＳＴスペクトルの近似値を求めるだけでもよいということである。

【0068】

・ＦＩＲフィルタータップの数を制限する。
・現在のＭＤＣＴフレームのみからＭＤＳＴを推定する。
・現在のＭＤＣＴフレームと前のＭＤＣＴフレームからＭＤＳＴを推定する。

【0069】

エンコーダとデコーダで同じ近似値が使用される限り、波形コーディング特性は影響を受けない。しかし、このようなＭＤＳＴスペクトルの近似値は複素数予測によって得られるコーディング利得の低下をもたらす可能性がある。

【0070】

基本的なＭＤＣＴコーダーがウィンドウ形状の切り替えを行う場合、ＭＤＳＴスペクトルを計算するための二次元的ＦＩＲフィルターは実際のウィンドウ形状に適応していなければならない。現在のフレームのＭＤＣＴスペクトルに適用されるフィルター係数はウィンドウ全体によって決まる。つまり、全てのウィンドウタイプに関してまた全てのウィンドウ転移に関して、一組の係数が必要である。前の／次のフレームのＭＤＣＴスペクトルに適用されるフィルター係数は、現在のフレームと半分重なっているウィンドウによってのみ決まる。つまり、それぞれのウィンドウタイプに関してのみ一組の係数が必要である（転移に関しての係数は必要ではない）。

【0071】

基本的なＭＤＣＴコーダーが変換長さの切り替えを行う場合、前の及び／または次のＭＤＣＴフレームを近似値に含ませると、異なる変換長さの間の転移辺りでより複雑化する。現在のフレームと前の／次のフレームとで異なる個数のＭＤＣＴ係数を使用するので、この場合には二次元フィルタリングはより複雑になる。それぞれのフレームに関する近似計算の精密さは低下するが、計算量の増加と構造的複雑化を避けるためには、変換長さの転移の際に前の／次のフレームをフィルタリングから除外してもよい。

【0072】

さらに、ＭＤＳＴスペクトルの最低部分と最高部分（ＤＣとｆｓ／２に近い）に関しては特に注意を払う必要がある。これらの部分では、ＦＩＲフィルタリングのために入手可能な周辺ＭＤＣＴ係数の個数は、必要な数よりも少ない。そこで、ＭＤＳＴスペクトルを正確に算出できるようにフィルタリング処理を適合させる必要がある。フィルタリング処理の適合は、欠落している係数のためにＭＤＣＴスペクトルの対称拡張を使用することにより（時間離散信号のスペクトルの周期に応じて）、またはこのようにフィルター係数を適合させることにより、行うことができる。ＭＤＳＴスペクトルの境界近辺の精密さは低下するが、これらの特別な場合の処理はもちろん簡素化することも可能である。

【0073】

デコーダにおいて、送信されたＭＤＣＴスペクトルから正確なＭＤＳＴスペクトルを算出することは、デコーダでの遅延を１フレーム分（ここでは１０２４個のサンプルであると仮定する）増大させる。

【0074】

入力として次のフレームのＭＤＣＴスペクトルを必要とはしないＭＤＳＴスペクトルの近似値を使用することにより、この遅延の増大を避けることができる。

【0075】

以下に、ＱＭＦに基づく統合ステレオコーディングに対するＭＤＣＴに基づく統合ステレオコーディングの利点を要約する。

【0076】

・計算量のほんのわずかな増大（ＳＢＲが使用されない場合）。
・ＭＤＣＴスペクトルが量子化されない場合には、完全な再構築までの規模拡大。ＱＭＦに基づく統合ステレオコーディングの場合はこのようなものではない。
・Ｍ／Ｓコーディングと強度ステレオコーディングの自然な拡張。
・ステレオ信号処理と量子化／符号化が密接に結びついていることによる、エンコーダチューニングを簡素化する明快な構造。ＱＭＦに基づく統合ステレオコーディングでは、ＭＰＥＧサラウンドフレームとＭＤＣＴフレームは整列されてはいず、スケールファクターバンドとパラメータバンドとは一致していない。
・ＭＰＥＧサラウンド（ＩＣＣ、ＣＬＤ、ＩＰＤ）においては三つのパラメータが送信されなければならないが、二つのパラメータ（複素数α）のみを必要とすることによる、ステレオパラメータの効率的なコーディング。
・ＭＤＳＴスペクトルが近似値として算出される場合（次のフレームを使用せずに）には、デコーダ遅延の増大はない。

【0077】

一実施例の重要な特徴を以下に要約する。

【0078】

ａ）ＭＤＳＴスペクトルは、現在の、前の及び次のＭＤＣＴスペクトルから、二次元的ＦＩＲフィルタリングによって算出される。ＦＩＲフィルタータップの個数及び／または使用するＭＤＣＴフレームの個数を減らすことにより、ＭＤＳＴ演算（推定）の際の計算量と質との間の種々のトレードオフが可能である。特に、送信の間のフレーム損失または変換長さの切り替えにより、隣接するフレームが入手不可である場合には、そのフレームはＭＤＳＴの推定から除外される。変換長さの切り替えの場合に関して、その除外はビットストリームで信号伝達される。

【0079】

ｂ）ＩＣＣとＣＬＤとＩＰＤの代わりに、二つのパラメータ、つまり複素数予測係数αの実部と虚部のみが送信される。αの実部と虚部は別々に処理されるが、［−３．０，３．０］の範囲に限られ、０．１の刻み幅で量子化される。どちらかのパラメータ（αの実部または虚部）がそのフレームで使用されていない場合には、このことがビットストリームで信号伝達され、その無意味なパラメータは送信されない。これらのパラメータは時間差分符号化または周波数差分符号化され、最終的に、スケールファクターコードブックを使用してハフマンコーディングが行われる。予測係数は、スケールファクターバンドの一つおきに更新され、これにより、ＭＰＥＧサラウンドの場合と同様の周波数分解能となる。この量子化符号化スキームにおいて、９６ｋｂ／ｓの目標ビットレートである一般的な構成では、ステレオサイド情報に関して約２ｋｂ／ｓの平均ビットレートとなる。

【0080】

別の好ましい実施例は以下の詳細を含む。

【0081】

ｃ）αの二つのパラメータそれぞれに関して、フレームごとまたはストリームごとの非差分（ＰＣＭ）または差分（ＤＰＣＭ）コーディングを選択してもよく、これはビットストリーム中の対応するビットで信号伝達される。ＤＰＣＭコーディングとしては、時間差分または周波数差分コーディングが可能である。これも１ビットフラグで信号伝達されてもよい。

【0082】

ｄ）αパラメータ値を符号化するために、ＡＡＣスケールファクターブックのような既定のコードブックを再利用する代わりに、専用で不変のまたは信号適応可能なコードブックを使用してもよく、あるいは、一定長さの（例えば４ビットの）符号なし符号語または二つの互いに補完的な符号語に戻ってもよい。

【0083】

ｅ）αのパラメータ値の範囲もパラメータ量子化の刻み幅も任意に選択でき、目前の信号の特徴に合わせて最適化してもよい。

【0084】

ｆ）アクティブなαパラメータバンドの個数とスペクトル幅及び／または時間幅は任意に選択でき、与えられた信号の特徴に合わせて最適化してもよい。特に、バンドの構成はフレームごとにまたはストリームごとに信号伝達されてもよい。

【0085】

ｇ）上記ａ）で述べたメカニズムに加えてあるいはその代わりに、ビットストリームの１フレームにつき１ビットで、ＭＤＳＴスペクトルの近似値の算出には現在のフレームのＭＤＣＴスペクトルのみを使用すること、つまり、隣接するＭＤＣＴフレームは考慮しないということを明確に示してもよい。

【0086】

実施形態は、ＭＤＣＴ領域での統合ステレオコーディングのための本発明のシステムに関するものである。それによると、高いビットレートでも（ＳＢＲを使用しない場合）計算量がそれほど増加することなく（ＱＭＦに基づくアプローチでは計算量がかなり増加する）、ＭＰＥＧ−ＵＳＡＣシステムにおけるステレオコーディングの利点を活用することが可能になる。

【0087】

以下の二つのリストは前述した好ましい構成を要約したものであるが、これらは互いに二者択一的にまたは他の態様に加えて使用することができる。

【0088】

１ａ）一般概念：ミッドＭＤＣＴとＭＤＳＴからのサイドＭＤＣＴの複素数予測
１ｂ）一つまたはそれ以上のフレームを使用して（３フレームの使用は遅延を生じさせる）周波数領域でのＭＤＣＴからＭＤＳＴの（Ｒ２Ｉ）算出／推定
１ｃ）計算量軽減のためのフィルター切り捨て（１フレーム２タップ、つまり［−１０１］までへの切り捨ても可能）
１ｄ）ＤＣとｆｓ／２の適切な処理
１ｅ）ウィンドウ形状切り替えの適切な処理
１ｆ）異なる変換サイズの場合の前の／次のフレームの不使用
１ｇ）エンコーダにおける非量子化ＭＤＣＴまたは量子化ＭＤＣＴ係数に基づく予測

【0089】

２ａ）複素数予測係数の実部と虚部の直接的な（つまり、ＭＥＰＧサラウンドパラメータ化を行わない）量子化及び符号化
２ｂ）このための均一な量子化器（例えば０．１の刻み幅）の使用
２ｃ）予測係数のための妥当な周波数分解能の使用（例えば二つのスケールファクターバンドに対し１個の係数）
２ｄ）全ての予測係数が実数である場合の節約的な信号伝達
２ｅ）１フレームのＲ２Ｉ演算を実行させるためのフレームごとの明示ビット

【0090】

一実施形態において、エンコーダはさらに、２チャンネル信号の時間領域表記を、その２チャンネル信号に関するサブバンド信号を有する２チャンネル信号スペクトル表記に変換するためのスペクトル変換器（５０，５１）を含み、結合器（２０３１）、予測器（２０３３）及び残留信号計算機（２０３４）は、複数のサブバンドに関して第１結合信号と残留信号が得られるように各サブバンド信号を処理するよう構成され、出力インターフェース（２１２）は、複数のサブバンドに関して符号化された第１結合信号と符号化された残留信号とを結合するよう構成されている。

【0091】

いくつかの態様を装置に関して説明してきたが、これらの態様は相応する方法として説明することもでき、このような方法においては、ブロックまたは装置は方法ステップまたは方法ステップの特徴に相応する。同様に、方法ステップに関して説明した態様は相応するブロックまたは素子あるいは相応する装置の特徴として説明することもできる。

【0092】

本発明の一実施形態において、ウィンドウ形状切り替えに対して適切な処理が行われる。図１０Ａの場合には、ウィンドウ形状情報１０９が虚数スペクトル計算機１００１に入力されてもよい。詳しくは、ＭＤＣＴスペクトルのような実数値スペクトルの実数−虚数変換を行う虚数スペクトル計算機（図６Ａの素子２０７０または図６Ｂの素子１１６０ａ）は、ＦＩＲまたはＩＩＲフィルターとして実施可能である。この実数−虚数変換モジュール１００１におけるＦＩＲまたはＩＩＲ係数は、現在のフレームの左半分または右半分のウィンドウ形状によって決まる。このウィンドウ形状は、サインウィンドウであるかＫＢＤ（カイザー・ベッセル派生）ウィンドウであるかによって異なり、また、与えられたウィンドウシーケンスの構成により、ロングウィンドウ、スタートウィンドウ、ストップウィンドウ、ストップ−スタートウィンドウまたはショートウィンドウであり得る。実数−虚数変換モジュールは二次元的ＦＩＲフィルターを含んでいてもよく、そのうち一つの次元は二つの連続的なＭＤＣＴフレームがＦＩＲフィルターに入力される時間次元であり、もう一つの次元はフレームの周波数係数が入力される周波数次元である。

【0093】

以下の表は、ウィンドウの左半分と右半分の様々なウィンドウ形状と様々な実施例における、現在のウィンドウシーケンスのための様々なＭＤＳＴフィルター係数を示している。

【0094】

【表1】

【0095】

さらに、ＭＤＣＴスペクトルからＭＤＳＴスペクトルを算出するのに、前のウィンドウが使用される場合、ウィンドウ形状情報１０９は前のウィンドウにウィンドウ形状情報を提供する。前のウィンドウのためのＭＤＳＴフィルター係数を以下の表に示す

【0096】

【表2】

【0097】

従って、図１０Ａの虚数スペクトル計算機１００１は、ウィンドウ形状情報１０９に基づき、様々なフィルター係数組を使用することで適応する。

【0098】

デコーダ側で使用されるウィンドウ形状情報はエンコーダ側で算出され、エンコーダの出力信号と共に、サイド情報として送られる。デコーダ側では、ウィンドウ形状情報１０９はビットストリームデマルチプレクサー（例えば図５Ｂの１０２）によってビットストリームから抽出され、図１０Ａに示されているような虚数スペクトル計算機１００１に送られる。

【0099】

ウィンドウ形状情報１０９が、前のフレームが異なる変換サイズであったことを示している場合には、実数値スペクトルから虚数スペクトルを算出するのに、前のフレームを使用しないことが好ましい。ウィンドウ形状情報１０９を読み取ることで、次のフレームが異なる変換サイズであることがわかる場合も同様に、実数値スペクトルから虚数スペクトルを算出するのに、次のフレームを使用しないことが好ましい。例えば、前のフレームが現在のフレームとは違う変換サイズであり、次のフレームも現在のフレームとは違う変換サイズである場合には、現在のフレームのみ、つまり現在のウィンドウのスペクトル値のみが虚数スペクトルの推定に使用される。

【0100】

エンコーダでの予測は、非量子化周波数係数またはＭＤＣＴ係数のような量子化周波数係数に基づく。図３Ａ中素子２０３３で示される予測が例えば非量子化データに基づくものである場合、残留信号計算機２０３４もまた非量子化データに基づき演算を行うことが好ましく、残留信号計算機の出力信号、つまり残留信号２０５は、エントロピー符号化されデコーダに送られる前に量子化される。あるいは別の実施形態においては、予測は量子化ＭＤＣＴ係数に基づき行われることが好ましい。そして、図３Ａの結合器２０３１の前で量子化が行われてもよく、この場合、第１量子化チャンネルと第２量子化チャンネルが残留信号計算の基礎となる。あるいは、量子化は結合器２０３１の直後に行われてもよく、この場合、第１結合信号と第２結合信号が非量子化状態で算出され、残留信号計算の前に量子化される。さらに別の例では、予測器２０３３は非量子化領域で動作してもよく、予測信号２０３５は残留信号計算機に入力される前に量子化される。そして、第２結合信号２０３２（これもまた残留信号計算機２０３４に入力される）もまた、図６Ａにおいて、残留信号計算機が残留信号を算出しデコーダ側で入手できるものと同じ量子化データで演算する前に量子化される（図３Ａでは予測器２０３３内で実施されてもよい）ことが有効である。これにより、残留信号算出を行うためにエンコーダで推量されたＭＤＳＴスペクトルは、デコーダで逆予測を行うために、つまり残留信号からサイド情報を算出するために使用されるＭＤＳＴスペクトルと全く同じであることが保障される。このために、図６Ａのライン２０４上の信号Ｍのような結合信号はブロック２０７０に入力される前に量子化される。そして、現在のフレームの量子化ＭＤＣＴスペクトルを使用して算出されたＭＤＳＴスペクトルと、制御情報に応じて、前のまたは次の量子化ＭＤＣＴスペクトルがマルチプレクサー２０７４に入力され、図６Ａのマルチプレクサー２０７０の出力は再び非量子化スペクトルとなる。この非量子化スペクトルは加算器２０３４ｂへ入力されたスペクトルから差し引かれ、最終的に量子化器２０９ｂで量子化される。

【0101】

一実施形態において、予測バンドごとの複素数予測係数の実部と虚部は、例えばＭＰＥＧサラウンドパラメータ化をしないで、直接量子化され、符号化される。この量子化は例えば０．１の刻み幅の均一量子化器を使用して行ってもよい。これは、対数量子化刻み幅のようなものは全く適用されず、何らかの線形刻み幅が適用されることを意味する。一実施例においては、複素数予測係数の実部と虚部の数値範囲は、−３〜３であり、これは、この実施例の詳細にもよるが、６０または６１個の量子化のステップが複素数予測係数の実部と虚部に使用されるということである。

【0102】

図６Ａのマルチプレクサー２０７３で使用される実部と図６Ａのマルチプレクサー２０７４で使用される虚部は、そこで使用される前に量子化され、デコーダ側で入手可能であるのと同じ値がエンコーダ側での予測のために使用される。これにより、量子化予測係数がデコーダ側で使用されている間に、非量子化予測係数がエンコーダ側で使用された際に生じ得たいかなるエラーをも（量子化によって引き起こされたエラーは別にして）、予測残留信号が確実にカバーする。エンコーダ側とデコーダ側で、できる限り同じ状況と同じ信号が入手可能であるように、量子化が行われることが好ましい。従って、量子化器２０９ａで適用されるのと同じ量子化方法を用いて、実数−虚数計算機２０７０への入力を量子化することが好ましい。また、素子２０７３と２０７４での掛け算のための予測係数αの実部と虚部を量子化することが好ましい。この量子化は、量子化器２０７２で行われるものと同じである。さらに、図６Ａのブロック２０３１によって出力されるサイド信号もまた、加算器２０３４ａ，２０３４ｂの前に量子化され得る。しかし、これらの加算器が非量子化サイド信号を用いて加算を行った直後に、量子化器２０９ｂによって量子化を行っても問題はない。

【0103】

本発明の別の実施形態において、全ての予測係数が実数である場合の節約的な信号伝達が適用される。ある一つのフレームつまりオーディオ信号の同じ時間部分のための予測係数が全て実数値として算出される場合がある。ミッド信号全体とサイド信号全体が互いに全くあるいはほとんど位相シフトしていない場合にこのような状況が起こり得る。ビットを節約するために、一つの実数値指標によってこの状況を示す。そして、予測係数の虚部は、ビットストリーム中で０の値を表す符号語で信号伝達される必要はない。デコーダ側では、ビットストリームデマルチプレクサーのようなビットストリームデコーダインターフェースはこの実数値指標を読み取り、虚部に関する符号語を検索せず、ビットストリームの相応する部分の全てのビットは実数値予測係数であると見なす。さらに、予測器２０３３がそのフレームの予測係数の全ての虚部は０であるという指標を受け取った場合、予測器２０３３は、実数値ＭＤＣＴスペクトルからＭＤＳＴスペクトル、あるいは一般的には虚数スペクトルを算出する必要がない。従って、図６Ｂのデコーダ内の素子１１６０ａの動作が停止され、図６Ｂのマルチプレクサー１１６０ｂで使用される実数値予測係数だけで逆予測が行われる。エンコーダ側でも同様に、素子２０７０の動作が停止され、マルチプレクサー２０７３のみを使用して予測が行われる。このサイド情報はフレームごとの付加的なビットとして使用されることが好ましく、デコーダは、実数−虚数変換器１１６０ａをそのフレームのために作動すべきかどうかを決定するために、フレームごとにこのビットを読み取る。このように、この情報の提供は、一つのフレームに関する予測係数の全ての虚部が０であることをより効率的に信号伝達することにより、ビットストリームサイズの縮小化をもたらし、さらに、例えばモバイルのバッテリー駆動装置で使用されるこのようなプロセッサーのバッテリー消費量の削減という結果をもたらす。

【0104】

本発明の好ましい実施形態に係る複素数ステレオ予測は、チャンネル間でレベル差及び／または位相差を有するチャンネル対の効率的なコーディングのためのツールである。複素数値パラメータαを使用して、左右のチャンネルが以下に示すマトリクスにより再構築される。ｄｍｘ_Imは、ダウンミックスチャンネルｄｍｘ_ReのＭＤＣＴに相当するＭＤＳＴを示す。

【0105】

【数2】

【0106】

上記式は別の表記であり、αの実部と虚部に関して分けられ、一体化された予測／結合処理のための式を表すものであり、予測信号Ｓは必ずしも算出されない。

【0107】

このツールのために、以下のデータ成分を使用することが好ましい。
ｃｐｌｘ＿ｐｒｅｄ＿ａｌｌ
０：いくつかのバンドは、ｃｐｌｘ＿ｐｒｅｄ＿ｕｓｅｄ［］によって信号伝達されるように、Ｌ／Ｒコーディングを使用している。
１：全てのバンドは、複素数ステレオ予測を使用している。

【0108】

ｃｐｌｘ＿ｐｒｅｄ＿ｕｓｅｄ［ｇ］［ｓｆｂ］
ウィンドウグループｇ及びスケールファクターバンドｓｆｂ（予測バンドからのマッピング後）ごとの１ビットフラグであり、以下のことを示す
０：複素数予測は使用されず、Ｌ／Ｒコーディングが使用されている。
１：複素数予測が使用されている。

【0109】

ｃｏｍｐｌｅｘ＿ｃｏｅｆ
０：全ての予測バンドに関してα_lm＝０である。
１：全ての予測バンドに関してα_lmが送信される。

【0110】

ｕｓｅ＿ｐｒｅｖ＿ｆｒａｍｅ
０：ＭＤＳＴ推定のために現在のフレームのみを使用する。
１：ＭＤＳＴ推定のために現在のフレームと前のフレームを使用する。

【0111】

ｄｅｌｔａ＿ｃｏｄｅ＿ｔｉｍｅ
０：予測係数の周波数差分コーディング
１：予測係数の時間差分コーディング

【0112】

ｈｃｏｄ＿ａｌｐｈａ＿ｑ＿ｒｅ
α_Reのハフマンコード

【0113】

ｈｃｏｄ＿ａｌｐｈａ＿ｑ＿ｉｍ
α_Imのハフマンコード

【0114】

これらのデータ成分はエンコーダで算出され、ステレオまたはマルチチャンネルオーディオ信号のサイド情報に入れられる。これらの成分はデコーダ側でサイド情報抽出器によりサイド情報から抽出され、デコーダ計算機に対応する処理を行わせるよう制御するのに使用される。

【0115】

複素数ステレオ予測には、現在のチャンネル対のダウンミックスＭＤＣＴスペクトルが必要であり、ｃｏｍｐｌｅｘ＿ｃｏｅｆ＝１の場合には、さらに現在のチャンネル対のダウンミックスＭＤＳＴスペクトルの推定、つまりＭＤＣＴスペクトルの虚数対応部分の推定が必要である。ダウンミックスＭＤＳＴスペクトルの推定は現在のフレームのＭＤＣＴダウンミックスから算出され、ｕｓｅ＿ｐｒｅｖ＿ｆｒａｍｅ＝１の場合、さらに前のフレームのＭＤＣＴダウンミックスからも計算される。ウィンドウグループｇとグループウィンドウｂの前のフレームのＭＤＣＴダウンミックスは、そのフレームの再構築された左右のスペクトルから得られる。

【0116】

ダウンミックスＭＤＳＴ推定計算のために、ウィンドウシーケンスとｆｉｌｔｅｒ＿ｃｏｅｆとｆｉｌｔｅｒ＿ｃｏｅｆ＿ｐｒｅｖ（フィルターカーネルのアレイであり、前記表に基づき引き出される）によって決まる偶数値のＭＤＣＴ変換長さが使用される。

【0117】

全ての予測係数に関して、前の（時間に関してまたは周波数に関して）値に対する変化がハフマンコードブックを用いて符号化される。予測係数は、ｃｐｌｘ＿ｐｒｅｄ＿ｕｓｅｄ＝０の場合には予測バンドに関して送信されない。

【0118】

逆量子化予測係数ａｌｐｈａ＿ｒｅとａｌｐｈａ＿ｉｍは以下によって与えられる。
ａｌｐｈａ＿ｒｅ＝ａｌｐｈａ＿ｑ＿ｒｅ？０．１
ａｌｐｈａ＿ｉｍ＝ａｌｐｈａ＿ｑ＿ｉｍ？０．１

【0119】

本発明は、ステレオ信号つまり二つだけのチャンネルを有するチャンネル信号だけでなく、５．１や７．１信号のような三つまたはそれ以上のチャンネルを有するマルチチャンネル信号のうちの二つのチャンネルに対しても応用可能であることを強調する。

【0120】

本発明の符号化されたオーディオ信号はデジタル記憶媒体に保存可能であり、また、インターネットのような無線や有線の送信媒体上で送信可能である。

【0121】

実施条件により、本発明はハードウェアまたはソフトウェアで実施可能である。この実施形態は、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭやＦＬＡＳＨメモリーなどの、電子読み取り制御可能な信号が中に保存されたデジタル記憶媒体を使用して実施することができ、これらの電子読み取り制御可能な信号は、それぞれの方法が実行できるように、プログラム可能なコンピュータシステムと協働する（または協働可能である）。

【0122】

本発明のいくつかの実施形態は、電子読み取り制御可能な信号を有する持続的または実体的なデータキャリアを含み、これらの電子読み取り制御可能な信号は、ここで説明した方法のうちの一つを実行できるように、プログラム可能なコンピュータシステムと協働可能である。

【0123】

概して、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実施でき、このプログラム製品がコンピュータで動作した際、このプログラムコードは前述の方法のうちの一つを実行するためのものである。このようなプログラムコードは、例えば機械読み取り可能なキャリアに保存されている。

【0124】

他の実施形態は、ここで説明した方法のうちの一つを実行するためのものであり、機械読み取り可能なキャリアに保存されているコンピュータプログラムを含む。

【0125】

つまり、本発明の方法の一実施形態は、コンピュータで動作した際、ここで説明した方法のうちの一つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0126】

本発明の方法の別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムが保存されているデータキャリア（またはデジタル記憶媒体またはコンピュータ読み取り可能な媒体）である。

【0127】

本発明の方法のさらに別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。このデータストリームまたは一連の信号は、例えばインターネットのようなデータ通信接続を介して送信されるように構成されていてもよい。

【0128】

さらに別の実施形態は、ここで説明した方法のうちの一つを実行するよう構成されるか適合されたコンピュータなどの処理装置またはプログラム可能な論理装置を含む。

【0129】

さらに別の実施形態は、ここで説明した方法のうちの一つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

【0130】

いくつかの実施形態において、プログラム可能な論理装置（例えばフィールド・プログラマブル・ゲート・アレイ）を、ここで説明した方法のいくつかまたは全ての機能を実行するために使用してもよい。フィールド・プログラマブル・ゲート・アレイは、ここで説明した方法のうちの一つを実行するためにマイクロプロセッサーと協働してもよい。概して、これらの方法は何らかのハードウェア装置によって実行されることが好ましい。

【0131】

上述の実施形態は単に本発明の原理を説明しているにすぎない。ここで説明した配置や詳細に関して様々な修正や変更が当業者には明らかであろう。従って、本発明は以下の特許請求項の範囲によってのみ制限され、上述の実施形態で示された詳細によっては制限されない。

【図1】