特許6705787 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6705787復号装置、復号方法およびコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
3A
3B
4A
4B
5A
5B
5C
6A
6B
6C
7A
7B
7C
7D
7E
8A
8B
8C
8D
8E
9A
9B
9C
9D
10A
10B
10C
10D
11A
11B
11C
11D
12A
12C
13A
13B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6705787

(24)【登録日】2020年5月18日

(45)【発行日】2020年6月3日

(54)【発明の名称】復号装置、復号方法およびコンピュータプログラム

(51)【国際特許分類】

G10L 19/02 20130101AFI20200525BHJP

G10L 21/0388 20130101ALI20200525BHJP

【ＦＩ】

G10L19/02 150

G10L21/0388 100

【請求項の数】11

【全頁数】60

(21)【出願番号】特願2017-182327(P2017-182327)

(22)【出願日】2017年9月22日

(62)【分割の表示】特願2016-528413(P2016-528413)の分割

【原出願日】2014年7月15日

(65)【公開番号】特開2018-13796(P2018-13796A)

(43)【公開日】2018年1月25日

【審査請求日】2017年9月22日

(31)【優先権主張番号】13177353.3

(32)【優先日】2013年7月22日

(33)【優先権主張国】EP

(31)【優先権主張番号】13177350.9

(32)【優先日】2013年7月22日

(33)【優先権主張国】EP

(31)【優先権主張番号】13177348.3

(32)【優先日】2013年7月22日

(33)【優先権主張国】EP

(31)【優先権主張番号】13177346.7

(32)【優先日】2013年7月22日

(33)【優先権主張国】EP

(31)【優先権主張番号】13189362.0

(32)【優先日】2013年10月18日

(33)【優先権主張国】EP

【前置審査】

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】110000121

【氏名又は名称】アイアット国際特許業務法人

(72)【発明者】

【氏名】ディッシュ，ザッシャ

(72)【発明者】

【氏名】ナゲル，フレデリク

(72)【発明者】

【氏名】ガイガー，ラルフ

(72)【発明者】

【氏名】トシュカーナ，バラユィ・ナゲントラン

(72)【発明者】

【氏名】シュミット，コンスタンティン

(72)【発明者】

【氏名】バイエル，シュテファン

(72)【発明者】

【氏名】ノイカム，クリスティアン

(72)【発明者】

【氏名】エトラー，ベアント

(72)【発明者】

【氏名】ヘルムリッヒ，クリスティアン

【審査官】岩田淳

(56)【参考文献】

【文献】特開２００６−３２３０３７（ＪＰ，Ａ）

【文献】国際公開第２０１３／０６１５３０（ＷＯ，Ａ１）

【文献】特表２０１０−５３８３１８（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−２１／１８

(57)【特許請求の範囲】

【請求項1】

符号化オーディオ信号を復号する復号装置において、
第１スペクトル解像度を有する、第１セットの第１スペクトル部の第１復号化表現を生成するスペクトル領域オーディオデコーダ（１１２）と、
前記第１解像度より低い第２解像度を有する、第２セットの第２スペクトル部の復号化表現であってスペクトル包絡線情報を含む第２復号化表現を生成するパラメトリックデコーダ（１１４）と、
前記第１スペクトル解像度を有する再構築第２スペクトル部（１１７）を、前記第１セットの第１スペクトル部のひとつの第１スペクトル部と前記第２セットの第２スペクトル部のひとつの第２スペクトル部に対するスペクトル包絡線情報とを用いて再構築する周波数再生器（１１６）と、
前記第１復号化表現と前記再構築第２スペクトル部（１１７）とを時間表現（１１９）に変換するスペクトル時間変換器（１１８）と
を備え、
前記スペクトル領域オーディオデコーダ（１１２）は、前記第１セットの第１スペクトル部の第１スペクトル部（３０６）が、周波数に関して、前記第２セットの第２スペクトル部の２つの第２スペクトル部（３０７ａ，３０７ｂ）の間に配置されるように、前記第１復号化表現を生成する構成である
復号装置。

【請求項2】

請求項１に記載の復号装置おいて、
前記符号化オーディオ信号は、第１スペクトル部が第２スペクトル部に整合することを示す整合情報をその第１スペクトル部のサイド情報として含み、
前記パラメトリックデコーダ（１１４）は、前記第２復号化表現を、前記第１セットの第１スペクトル部の前記第１スペクトル部が前記第２セットの第２スペクトル部の前記第２スペクトル部に整合することを示す前記整合情報を含んで生成する構成であり、
前記周波数再生器（１１６）は、前記再構築第２スペクトル部を、前記整合情報により識別される第１スペクトル部を用いて再生する構成である
ことを特徴とする復号装置。

【請求項3】

請求項１または２に記載の復号装置において、前記スペクトル領域オーディオデコーダ（１１２）は、スペクトル値の一連の復号化フレームを出力する構成であり、各復号化フレームは前記第１復号化表現で表現され、前記復号化フレームは、第１セットのスペクトル部に対するスペクトル値と前記第２セットの第２スペクトル部に対するゼロ指示とを含み、
前記復号装置は、前記周波数再生器（１１６）により前記第２セットの第２スペクトル部に対して生成されたスペクトル値と、再構築帯域内の前記第１セットの第１スペクトル部のスペクトル値とを合成して、前記第１セットの第１スペクトル部と第２セットの第２スペクトル部とに対するスペクトル値を含む再構築スペクトルフレームを得る合成器（２０８）をさらに備え、
前記スペクトル時間変換器（１１８）は、再構築スペクトルフレームを時間表現（１１９）に変換する構成である
ことを特徴とする復号装置。

【請求項4】

請求項１から３のいずれか１項に記載の復号装置において、前記スペクトル時間変換器（１１８）は、逆修正離散コサイン変換（５１２，５１４）を実行する構成であり、前記第１復号化表現と後続時間領域フレームとをオーバーラップおよび加算するオーバーラップ／加算段（５１６）を更に含み、各後続時間領域フレームは、第１復号化表現と前記再構築第２スペクトル部（１１７）とのスペクトル表現を含むことを特徴とする復号装置。

【請求項5】

請求項１から４のいずれか１項に記載の復号装置において、前記第１復号化表現内の最大周波数に対するスペクトル値により表現される最大周波数が、前記スペクトル時間変換器（１１８）により生成された時間表現（１１９）内に含まれる最大周波数と等しく、前記第１復号化表現内の最大周波数に対するスペクトル値は、ゼロまたはゼロとは異なることを特徴とする復号装置。

【請求項6】

請求項１から５のいずれか１項に記載の復号装置において、
前記符号化オーディオ信号は、前記第１セットの第１スペクトル部が周波数領域符号化された第１符号化表現と、前記第２セットの第２スペクトル部の符号化された第２符号化表現（１０９）とを含み、
前記復号装置は、前記第１符号化表現（１０７）を抽出し、前記第１符号化表現（１０７）を前記スペクトル領域オーディオデコーダ（１１２）に送り、前記第２符号化表現を抽出し、前記第２符号化表現を前記パラメトリックデコーダ（１１４）に送るデータストリーム構文解析器（２００）をさらに備える
ことを特徴とする復号装置。

【請求項7】

請求項１から６のいずれか１項に記載の復号装置において、
前記符号化オーディオ信号は、ノイズ充填により再構成される第３セットの第３スペクトル部（３０１）の符号化表現をさらに含み、
前記第３セットの第３スペクトル部の前記符号化表現からノイズ充填情報（３０８）を抽出し、前記第３セットの第３スペクトル部（３０１）に、異なる周波数レンジの第１スペクトル部を使用することなく、ノイズ充填を適用して、再構成第３スペクトル部を生成するノイズ充填手段をさらに備え、
前記スペクトル時間変換器（１１８）は、前記第３セットの第３スペクトル部を時間表現（１１９）に付加的に変換する構成である
ことを特徴とする復号装置。

【請求項8】

請求項１から７のいずれか１項に記載の復号装置において、前記スペクトル領域オーディオデコーダ（１１２）は、前記スペクトル時間変換器（１１８）により出力される時間表現（１１９）によりカバーされる周波数レンジの中央の周波数に等しい周波数より高い周波数値の第１スペクトル部を有する第１復号化表現を生成する構成であることを特徴とする復号装置。

【請求項9】

請求項１から８のいずれか１項に記載の復号装置において、
前記周波数再生器（１１６）は、再構築帯域の中央周波数とは異なる前記再構築帯域内の周波数に前記第１セットの第１スペクトル部のひとつのスペクトル部を有し、前記再構築帯域はスケールファクタ帯域であり、このスケールファクタ帯域に対して、スペクトル包絡線情報を示すエネルギ値が、前記第２スペクトル解像度を有する第２セットの第２スペクトル部内に示されることを特徴とする復号装置。

【請求項10】

符号化オーディオ信号を復号する復号方法において、
第１スペクトル解像度を有する、第１セットの第１スペクトル部の第１復号化表現を生成（１１２）し、
前記第１解像度より低い第２解像度を有する、第２セットの第２スペクトル部の符号化表現であってスペクトル包絡線情報を含む第２復号化表現を生成（１１４）し、
前記第１スペクトル解像度を有する再構築第２スペクトル部（１１７）を、前記第１セットの第１スペクトル部のひとつの第１スペクトル部と前記第２セットの第２スペクトル部のひとつの第２スペクトル部に対するスペクトル包絡線情報とを用いて再構築（１１６）し、
前記第１復号化表現と前記再構築第２スペクトル部（１１７）とを時間表現（１１９）に変換（１１８）し、
前記生成（１１２）は、前記第１セットの第１スペクトル部の第１スペクトル部（３０６）が、周波数に関して、前記第２セットの第２スペクトル部の２つの第２スペクトル部（３０７ａ，３０７ｂ）の間に配置されるように、前記第１復号化表現を生成する
復号方法。

【請求項11】

コンピュータまたはプロセッサで動作するとき、請求項１０に記載の方法を実行させるコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オーディオ復号化に関し、特に、インテリジェントギャップ充填（ＩＧＦ：Ｉｎｔｅｌｌｉｇｅｎｔｇａｐｆｉｌｌｉｎｇ）を用いるオーディオ復号化に関する。

【背景技術】

【0002】

オーディオ符号化は信号圧縮の一分野であり、音響心理学の知識を用いて、オーディオ信号における冗長性および非関連性を利用する処理を行う。今日において、オーディオコーデックは、典型的には、ほぼ全ての種のオーディオ信号の知覚的に透明な符号化のために、チャネルあたり６０ｋｂｐｓ程度を要する。さらに新しいコーデックは、帯域幅拡張（ＢＷＥ）などの技術を用いて、信号におけるスペクトルの類似性を活用して、符号化ビットレートの削減を試みている。あるＢＷＥスキームにおいては、オーディオ信号の高周波数（ＨＦ）成分を示すよう設定された低ビットレートパラメータが用いられる。ＨＦスペクトルは、低周波数（ＬＦ）域からのスペクトルコンテンツによって充足され、スペクトルの形状、傾きおよび時間的連続性が、オリジナル信号の音質および色彩を保つよう調整される。そのようなＢＷＥ手法によって、オーディオコーデックは、チャネルあたり２４ｋｂｐｓ程度の低ビットレートであっても、良好な品質を保つことができる。

【0003】

オーディオ信号の蓄積または送信については、厳格なビットレート制限が適用されることがよくある。過去においては、極めて低ビットレートしか利用可能でない場合には、符号化する側において、強制的に、送信オーディオ帯域幅を大幅に低減させられていた。

【0004】

今日における近代オーディオコーデックは、帯域幅拡張（ＢＷＥ）法を用いて、広帯域信号を符号化できる（非特許文献１）。これらのアルゴリズムは、高周波数コンテンツ（ＨＦ）のパラメトリック表現に依拠している。このパラメトリック表現は、復号信号の波形符号化された低周波数部（ＬＦ）から、ＨＦスペクトル領域に移転（「パッチング」）させて、パラメータ駆動の後処理を行うことにより、生成される。ＢＷＥスキームにおいては、所与のいわゆるクロスオーバー周波数の上へのＨＦスペクトル領域の再構築が、しばしば、スペクトルパッチングに基づいて行われる。一般的に、ＨＦ領域は、複数の近接パッチから構成され、これらのパッチのそれぞれは、所与のクロスオーバー周波数より下のＬＦスペクトルのバンドパス（ＢＰ）領域から供給される。最新のシステムは、例えば、近接するサブバンド係数一式をソースから対象領域にコピーすることによって、直交ミラーフィルタバンク（ＱＭＦ）などのフィルタバンク表現内において、パッチングを効率的に実施する。

【0005】

今日のオーディオコーデックに見られる、圧縮効率を向上させかつ低ビットレートでオーディオ帯域幅を拡張する別の技術としては、オーディオスペクトルの適宜な部分を、パラメータ駆動により合成置換する技術が挙げられる。例えば、オリジナルのオーディオ信号におけるノイズ様の信号部分は、デコーダ内で生成され副情報パラメータによりスケーリングされた人工ノイズによって、主観的品質を実質的に損なうことなく置換される。一例としては、ＭＰＥＧ−４アドバンストオーディオコーディング（ＡＡＣ）に含まれる、知覚的ノイズ置換（ＰＮＳ）ツールが挙げられる（非特許文献５）。

【0006】

低ビットレートでオーディオ帯域幅を拡張する他の規定としては、ＭＰＥＧ−Ｄの音声音響統合符号化方式（ＵＳＡＣ）に含まれる、ノイズ充填技術が挙げられる（非特許文献７）。粗すぎる量子化による量子化装置のデッドゾーンから推測されるスペクトルギャップ（ゼロ）は、デコーダにおける人工ノイズにより事後に充填され、パラメータによって決定される事後処理によってスケーリングされる。

【0007】

別の最新システムは、精密スペクトル置換（ＡＳＲ）と称される（非特許文献２−４）。波形コーデックに加えて、ＡＳＲは、専用の信号合成段階を採用し、この信号合成段階によって、信号内の知覚的に重要な正弦部分が、デコーダにより復元される。また、非特許文献５に記載のシステムは、波形符号器のＨＦ領域における正弦モデリングに依拠して、低ビットレートでも相当の知覚的品質を有する拡張オーディオ帯域幅を実現している。これらの方法は全て、修正離散コサイン変換（ＭＤＣＴ）とは別の第２領域へのデータ変換を含み、また、ＨＦ正弦成分の保存のためのかなり複雑な解析／合成段階を含む。

【0008】

図１３Ａは、例えば、高効率アドバンストオーディオコーディング（ＨＥ−ＡＡＣ）において使用されている帯域幅拡張技術用の、オーディオエンコーダの概略図である。ライン１３００上のオーディオ信号は、ローパス１３０２およびハイパス１３０４からなるフィルタシステムに入力される。ハイパスフィルタ１３０４から出力された信号は、パラメータ抽出器／符号器１３０６に入力される。パラメータ抽出器／符号器１３０６は、例えば、スペクトル包絡線パラメータやノイズ付加パラメータ、欠落高調波パラメータ、逆フィルタリングパラメータなどのパラメータを計算し、符号化するよう構成される。これらの抽出パラメータは、ビットストリーム多重変換器１３０８に入力される。ローパス出力信号は、ダウンサンプラ１３１０およびコア符号器１３１２の機能を一般的に有する処理器に入力される。ローパス１３０２は、帯域幅を制限して、ライン１３００上のオリジナル入力オーディオ信号よりも、相当に狭い帯域幅に符号化されるようにする。コア符号器において生じる全ての機能が、削減された帯域の信号上で機能すれば良いといという事実により、かなりの符号化利得が得られる。例えば、ライン１３００上のオーディオ信号の帯域幅が２０キロヘルツであり、かつローパスフィルタ１３０２が仮に４キロヘルツの帯域幅を有しているとすると、サンプリング定理を満たすためには、ダウンサンプラの後段の信号が８キロヘルツのサンプリング周波数を有することで理論上は十分であり、これは、オーディオ信号１３００において必要となる少なくとも４０キロヘルツのサンプリングレートの、実質的削減である。

【0009】

図１３Ｂは、対応する帯域幅拡張デコーダの概略図である。デコーダは、ビットストリーム多重変換器１３２０を有する。ビットストリーム多重分離器１３２０は、コアデコーダ１３２２用の入力信号、およびパラメトリックデコーダ１３２４用の入力信号を抽出する。コアデコーダ出力信号は、上述の例においては、８キロヘルツのサンプリングレートを有し、したがって、４キロヘルツの帯域幅を有する。一方、完全な帯域幅再構築のためには、高周波数再構築器１３３０の出力信号は、少なくとも４０キロヘルツのサンプリングレートを要する２０キロヘルツでなければならない。これを可能にするためには、デコーダ処理器が、アップサンプラ１３２５およびフィルタバンク１３２６の機能を有することが必要となる。そして高周波数再構築器１３３０は、フィルタバンク１３２６より出力され周波数解析された低周波数信号を受信して、図１３Ａのハイパスフィルタ１３０４によって定義された周波数範囲を、周波数帯域のパラメトリック表現を用いて再構築する。高周波数再構築器１３３０は、低周波数範囲におけるソース範囲を利用して上位の周波数範囲を再生したり、スペクトル包絡線を調整したり、ノイズを付与するなど、様々な機能を有している。また、高周波数再構築器１３３０には、欠落高調波を上位の周波数範囲に導入する機能や、図１３Ａの符号器において適用され算出された場合には逆フィルタを行い、高周波数範囲が一般的には低周波数範囲ほど音調がないという事実に対処する機能がある。ＨＥ−ＡＡＣにおいては、デコーダ側において欠落高調波が再合成され、再構築帯域のちょうど真ん中に配置される。したがって、所定の再構築帯域において決定された全ての欠落高調波線は、オリジナル信号で配置されていた周波数値には配置されない。その代わりに、これらの欠落高調波線は、所定帯域の中心周波数に配置される。よって、オリジナル信号中の欠落高調波線が、オリジナル信号中の再構築帯域の境界に非常に近接して配置されると、この欠落高調波線を再構築信号において帯域の中心に配置することにより生じる周波数エラーは、個別の再構築帯域の５０％近くになり、これについてパラメータが生成され送られる。

【0010】

さらに、一般的なオーディオコア符号器は、スペクトル領域で機能するにも関わらず、コアデコーダはなお時間領域信号を生成し、この時間領域信号が、再びフィルタバンク１３２６機能によりスペクトル領域に変換される。これによって追加的な処理遅延が発生し、またまずスペクトル領域から周波数領域に変形し、そして一般的には再び異なる周波数領域へと変形する直列処理によって、アーティファクトが発生する恐れがある。もちろん、これによって、計算が相当程度複雑になり、相当量の電力が必要となる。この電力の問題は、帯域幅拡張技術が携帯電話やタブレット、ノートパソコンなどの携帯機器に適用された場合、特に問題となる。

【0011】

現在のオーディオコーデックは、符号化スキームの不可分の一部として、ＢＷＥを用いて低ビットレートオーディオ符号化を実施する。しかしながら、ＢＷＥ技術は、高周波数（ＨＦ）コンテンツのみを置換することに限定されている。さらに、ＢＷＥ技術は、所定のクロスオーバー周波数より上の、知覚的に重要なコンテンツを、波形符号化することはできない。したがって、現代のオーディオコーデックは、信号の音の高調波の正確な配列がほとんどのシステムにおいて考慮されないため、ＢＷＥが実行されると、ＨＦの詳細または音質のいずれかが喪失される。

【0012】

ＢＷＥシステムの現代技術に関する別の課題としては、オーディオ信号を、ＢＷＥを実行するための新たな領域に変換する必要があることである（例：ＭＤＣＴからＱＭＦ領域への変換）。これによって、同期性の煩雑化、追加的計算の煩雑性およびメモリ要件の増加などにつながる。

【発明の概要】

【発明が解決しようとする課題】

【0013】

本発明の目的は、オーディオ信号を復号化または符号化するための改善された概念を提供することにある。

【課題を解決するための手段】

【0014】

この目的は、特許請求の範囲の各独立請求項に記載された復号装置、復号方法、またはコンピュータプログラムによって達成される。

【0015】

本発明は、帯域幅拡張の分離に関する問題と、コア符号化に関する問題が、コアデコーダが機能する同じスペクトル領域において帯域幅拡張を実施することにより、解決され克服されるという知見に基づいている。したがって、全てのオーディオ信号範囲を符号化し復号化するフルレートのコアデコーダが提供される。これは、エンコーダ側におけるダウンサンプラ、およびデコーダ側におけるアップサンプラを要しない。その代わりに、すべての処理がフルサンプリングレートまたはフル帯域幅領域において実施される。高符号化ゲインを得るために、オーディオ信号は、高解像度で符号化される第１セットの第１スペクトル部を見つけるべく解析される。一実施形態においては、この第１セットの第１スペクトル部には、オーディオ信号の音調部が含まれる。一方、第２セットの第２スペクトル部を構成するオーディオ信号における非音調成分またはノイズ成分は、低スペクトル解像度でパラメトリックに符号化される。そして、符号化オーディオ信号は、波形保存手法により高スペクトル解像度で符号化された第１セットの第１スペクトル部、および第１セットから供給される周波数「タイル」を用いて低解像度でパラメトリックに符号化された第２セットの第２スペクトル部のみを必要とする。デコーダ側においては、フル帯域デコーダとしてのコアデコーダは、波形保存手法により（つまり、何か追加的周波数の再生がなされたことを知らなくとも）、第１セットの第１スペクトル部を再構築する。しかしながら、そのように生成されたスペクトルは、たくさんのスペクトルギャップを有する。これらのギャップは、パラメトリックデータ適用する周波数再生、およびソーススペクトル範囲（つまり、フルレートオーディオデコーダによって再構築される第１スペクトル部）を用いて、発明的なインテリジェントギャップ充填（ＩＧＦ）技術により、事後に充填される。

【0016】

他の実施形態においては、帯域幅複製または周波数タイル充填よりもむしろ、ノイズ充填によってのみ再構築されたスペクトル部が、第３セットの第３スペクトル部を構成する。符号化概念は、コア符号化／復号化および周波数再生用の単一領域において機能するという事実のため、ＩＧＦは、周波数再生を伴わないノイズ充填をするか、または異なる周波数範囲の周波数タイルを使って周波数再生することのいずれかにより、より高周波数の範囲を充填するのに限定されるのみならず、より低周波数の範囲を充填することもできる。

【0017】

さらに、スペクトルエネルギに関する情報、個別エネルギに関する情報または個別エネルギ情報、残存エネルギに関する情報または残存エネルギ情報、タイルエネルギに関する情報またはタイルエネルギ情報、あるいは欠落エネルギに関する情報または欠落エネルギ情報は、エネルギ値を有するのみならず、（例えば絶対的な）振幅値、レベル値またはその他値をも有し、これらから最終的なエネルギ値が求められる。したがって、エネルギに関する情報は、例えばエネルギ情報それ自体、および／またはレベルおよび／または振幅および／または絶対振幅の値を含んでもよい。

【0018】

他の側面は、相関状況がソースレンジにとって重要であるのみならず、対象範囲にとっても重要であるという知見に基づく。さらに、本発明は、ソースレンジと対象レンジとで、異なる相関状況が生じ得る状況を加味している。例えば、高周波数ノイズを有する音声信号を検討してみると、スピーカを真ん中に配置したときに、少量の倍音を有する音声信号を含む低周波数帯域が、左チャンネルおよび右チャンネルにおいて相関が高い状況がありえる。しかしながら、高周波数部分については、左側には異なる高周波数ノイズがある一方、右側には別の高周波数ノイズがあるか、または高周波数ノイズがないということがありえるという事実から、強固な相関はありえない。よって、この状況を無視した直接的なギャップ充填が実施されてしまうと、高周波数部分も相関をもってしまい、これによって、再構築信号において、重大な空間分離アーティファクトが生成されるおそれがある。この問題を解決するためには、再構築帯域用のパラメトリックデータ、または、一般的に、第１セットの第１スペクトル部を使用して再構築されなければならない第２セットの第２スペクトル部用のパラメトリックデータを計算して、第２スペクトル部（換言すると、再構築帯域）の第１または第２の異な２チャンネル表現のいずれかを識別する。したがって、エンコーダ側において、２チャンネル識別は、第２スペクトル部、つまり、再構築帯域のためのエネルギ情報が追加的に計算される部分について、計算される。そして、デコーダ側における周波数再生器は、第１セットの第１スペクトル部の第１部分、つまりスペクトル包絡線エネルギ情報やその他スペクトル包絡線データなどのような第２部分のためのソースデータおよびパラメトリックデータに依拠して、さらに第２部分のための２チャンネル識別情報（再考下のこの再構築帯域のための２チャンネル識別情報）に依拠して、第２スペクトル部を再生する。

【0019】

２チャンネル識別情報は、各再構築帯域についてフラグとして送信されることが好ましく、またエンコーダからデコーダにデータが送信され、そしてデコーダが、コア帯域について好適に算出されたフラグが示すコア信号を復号する。実施においては、コア信号は、ステレオ表現（例えば、右／左、中央／サイド）の両方ともに蓄積され、そしてＩＧＦ周波数タイル充填については、インテリジェントギャップ充填または再構築帯域（つまり対象範囲）について２チャンネル識別情報フラグによって示される対象タイル表現に合うよう、ソースタイル表現が選択される。

【0020】

この手順は、ステレオ信号（つまり左チャンネルおよび右チャンネル）について機能するのみならず、多チャンネル信号についても機能する。多チャンネル信号の場合、異なるチャンネルの異なる組み合わせについて、左右チャンネルを第１組み合わせとし、左サラウンドチャンネルおよび右サラウンドチャンネルを第２組み合わせとし、中央チャンネルおよび重低音強調効果チャンネルを第３組み合わせとするなどして、処理をすることができる。７．１チャンネルや１１．１チャンネルなどのより高度な出力チャンネルフォーマットについては、その他の組み合わせとしてもよい。

【0021】

本発明の他の側面は、再構築信号のオーディオ品質が、ＩＧＦにより改善されるという発見に基づいている。その理由は、全スペクトルがコアエンコーダで処理でき、これにより、例えば、高スペクトル領域における知覚的に重要なトーン部も、パラメトリック差分ではなくコア符号器により符号化できるからである。さらに、例えば典型的には低周波数レンジからの第１セットのトーン部である第１セットの第１スペクトル部からの周波数タイル、さらには、可能な場合にはさらに高い周波数レンジからの周波数タイル、を使用するギャップ充填が実行される。しかしながら、デコーダ側でのスペクトル包絡線調整に対して、再構築帯域に配置される第１セットの第１スペクトル部からのスペクトル部には、例えばスペクトル包絡線調整のような、さらなる後処理は行われない。コアデコーダからのものではない再構築帯域の残りのスペクトル値は、包絡線情報を用いて包絡線調整される。包絡線情報は、望ましくは、再構築帯域内の第１セットの第１スペクトル部および同じ再構築帯域内の第２セットの第２スペクトル部の全エネルギを考慮した全帯域包絡線情報である。ここで、第２セットの第２スペクトル部のスペトル値はゼロと示され、したがって、コアデコーダでは符号化されず、低解像度エネルギ情報でパラメトリックに符号化される。

【0022】

エネルギの絶対値が、対応する帯域の帯域幅で正規化されたものでも、正規化されていないものでも有用であり、デコーダ側での適用に非常に有効であることが見出された。これは、特に、利得ファクタが、再構築帯域の残留エネルギ再構築帯域、消失エネルギおよび再構築帯域の周波数タイル情報に基づいて計算される場合にそうである。

【0023】

さらに、符号化されたビットストリームが、再構築帯域に対するエネルギ情報だけでなく、付加的に、最大周波数まで延びるスケールファクタ帯域に対するスケールファクタをカバーすることが望ましい。これは、特定のトーン部、すなわち第１スペクトル部がある各再構築帯域に対して、この第１セットの第１スペクトル部が実際に正しい振幅で符号化されることを確実にする。さらに、各再構築帯域に対するスケールファクタに加えて、この再構築帯域に対するエネルギが、エンコーダで生成され、デコーダに送信される。さらに、再構築帯域は、スケールファクタ帯域に一致し、またはエネルギをグループ分けする場合には、少なくとも再構築帯域の境界が、スケールファクタ帯域の境界に一致する。

【0024】

その他の側面は、信号適応周波数タイル充填スキームを適用することにより、オーディオ品質における所定の品質低下が改善されるという知見に基づく。このため、所定の目標領域にもっとも適合するソース領域候補を見つけるべく、エンコーダ側の解析がなされる。対象領域のために、所定のソース領域を選択的な追加情報とともに特定する整合情報は、サイド情報として生成されデコーダに対して送信される。デコーダは、整合情報を用いて、周波数タイル充填処理を行う。このため、デコーダは、送信済データストリームまたはデータファイルから整合情報を読み取り、所定の再構築帯域のために特定されたソース領域にアクセスする。そして、もし整合情報において示されている場合には、再構築帯域のためのスペクトル生データを生成するために、このソース領域データについて追加的に処理を実行する。そして、音調部などの第１スペクトル部も有する再構築帯域を最終的に入手するために、スペクトル包絡線情報を使って、周波数タイル充填処理の結果（つまり、再構築帯域のスペクトル生データ）を形作る。しかしながら、これらの音調部は、適応タイル充填スキームによって生成されるわけではなく、これらの第１スペクトル部は、オーディオデコーダまたはコアデコーダによって直接に出力される。

【0025】

適応スペクトルタイル選択スキームは、低粒度で実行してもよい。実施においては、ソース領域を、一般的なオーバーラップソース領域と対象領域とに細分化し、あるいは再構築帯域を、非オーバーラップ周波数対象領域により得る。そして、各ソース領域と各対象領域との間の類似性を符号器側で決定し、もっとも整合するソース領域と対象領域の組み合わせを整合情報として特定する。一方、デコーダ側において、整合情報で特定されたソース領域を、再構築帯域のためのスペクトル生データを生成するために用いる。

【0026】

高粒度化するために、各ソース領域は、類似性が最大の場合には、所定程度遅滞させるために、シフト可能とされる。この遅滞は、周波数ビンと同程度の精度を有してもよく、そしてソース領域と対象領域とのよりよい整合が図れる。

【0027】

さらに、もっともよく整合する組み合わせを特定することのみを追加して、この相関遅延も、整合情報内で送信されてもよく、またサイン（正負符合）さえもが送信されてもよい。このサインが符号器側において負であると判定された場合は、対応するサインフラグも整合情報内で送信され、そしてデコーダ側で、ソース領域のスペクトル値に対して−１が乗じられるか、あるいは複素数表現の場合には、１８０度「回転」させる。

【0028】

本発明のさらなる実施形態によると、タイル白色化手順を実施する。スペクトルの白色化によって、粗いスペクトル包絡線情報が除去され、タイル類似性を評価するのに主要なスペクトル微細構造が強調される。したがって、周波数タイルおよび／またはソース信号は、クロス相関度を計算する前に白色化される。所定の手順によってタイルのみが白色化される場合には、デコーダに対して、同様の所定の白色化手順がＩＧＦ内の周波数タイルについて適用されるべきであることを示す白色化フラグが送信される。

【0029】

タイルの選択に関して、相関の遅延を利用して、再生されたスペクトルを変形ビンの整数分だけシフトすることが好ましい。基礎となる変形によっては、スペクトルのシフトにおいては、追加的な修正を要する。奇数の遅延の場合には、時間的シーケンスの−１／１を変更することにより、タイルを乗数によって追加的に変調して、全てのその他帯域の周波数逆転表現がＭＤＣＴ内で相殺される。さらに、相関結果のサインは、周波数タイルを生成する際に適用される。

【0030】

さらに、迅速に変化するソース領域により同じ再構築領域または対象領域についてアーティファクトが生じるのを避けられるよう確保するために、タイルの切り詰めおよび安定化処理をすることが好ましい。このため、識別された異なるソース領域間の類似性解析を実施し、ソースタイルが類似性の閾値を超えて他のソースタイルと類似するときには、このソースタイルは、潜在的ソースタイルのセットから除外されてもよい。というのも、これは、他のソースタイルと高い相関を有するからである。また、タイル選択安定化処理の一種として、現在のフレームにおけるいずれのソースタイルも、現在のフレームにおける対象タイルと相関を有しない（所定の閾値を超えない）場合には、タイルの順番を前回フレームから保つことが好ましい。

【0031】

特に、オーディオ信号において頻繁に発生する過渡部を有する信号について、時間領域雑音整形（ＴＮＳ）技術または時間領域タイル整形（ＴＴＳ）技術と高周波数再構築とを組み合わせることにより、品質を改善しビットレートを削減することができるという知見に基づくものである。エンコーダ側のＴＮＳ／ＴＴＳ処理が、周波数の予測によって実行され、オーディオ信号の時間的包絡線を再構築する。実施次第では（つまり、時間領域雑音整形フィルタが、ソース周波数範囲だけでなく目的周波数範囲までをも対象とする周波数範囲において決定され、周波数再生デコーダにおいて再構築される場合には）、ギャップ充填開始周波数に達するまで、時間的包絡線がコアオーディオ信号に対して適用されるだけでなく、時間的包絡線が再構築第２スペクトル部のスペクトル範囲にも適用される。したがって、時間領域タイル整形がなければ生じていたプリエコーまたはポストエコーが減少または除去される。これは、所定のギャップ充填開始周波数に達するまでのコア周波数範囲内のみならず、コア周波数範囲を超えた周波数範囲内においても、周波数に対する逆予測を適用することにより達成される。このため、周波数の再生または周波数タイルの再生が、周波数に対する予測適用の前に、デコーダ側において実施される。しかしながら、周波数に対する予測は、フィルタリング後のまたは包絡線整形前の（全）スペクトル値の後のスペクトル残差値に対して、エネルギ情報計算が実施されたか否か次第で、スペクトル包絡線整形の前または後のいずれかに適用すればよい。

【0032】

１つ以上の周波数タイルに対するＴＴＳ処理によって、ソース範囲および再構築範囲間、または近接する２つ再構築範囲もしくは周波数タイル間の相関性の継続が追加的に設定される。

【0033】

実施においては、複素ＴＮＳ／ＴＴＳフィルタリングを使用するのが好ましい。それによって、ＭＤＣＴのようなクリティカルサンプルされた実数表現において、（時間的）エイリアシングアーティファクトが避けられる。複素ＴＮＳフィルタは、複素変形変換に加えて、修正離散コサイン変換だけでなく修正離散サイン変換を適用することにより、エンコーダ側で算出できる。それにも関わらず、修正離散コサイン変換値（つまり、複素変換の実数部分）のみが送信される。しかしながら、デコーダ側においては、前回のまたは後続のフレームのＭＤＣＴスペクトルを使って、当該変換の虚数部分を推定することができる。そして、それによってデコーダ側においては、周波数に対する逆予測、ならびに特にソース範囲と再構築範囲の境界線、および再構築範囲における周波数近接周波数タイル間の境界線に対する予測において、複素フィルタを再び適用することができる。

【0034】

本発明に係るオーディオ符号化システムは、広範囲のビットレートにより、任意のオーディオ信号を効率的に符号化する。高ビットレートにおいては、本発明のシステムは、透明性に集中する一方、低ビットレートにおいては、知覚的な不快感が最小限化される。そのため、利用可能なビットレートの主要な部分は、エンコーダにおいて、知覚的にもっとも適切な信号構造に波形符号化することに用いられる。そして、その結果としてのスペクトルギャップは、デコーダにおいて、元来のスペクトルに大まかに近接した信号コンテンツによって充填される。エンコーダからデコーダに対して送信される専用のサイド情報によって、相当に限られたビット配分のみが、パラメータ駆動されるいわゆるスペクトルインテリジェントギャップ充填（ＩＧＦ）を制御するのに消費される。

【0035】

本発明の好適な実施形態を、以下、添付図面を参照して説明する。

【図面の簡単な説明】

【0036】

【図1A】図１ａは、オーディオ信号を符号化する装置を示す図である。

【図1B】図１ｂは、図１ａのエンコーダと整合する符号化されたオーディオ信号を復号するデコーダを示す図である。

【図2A】図２ａは、デコーダの好適な実施形態を示す図である。

【図2B】図２ｂは、エンコーダの好適な実施形態を示す図である。

【図3A】図３ａは、図１ｂのスペクトル領域デコーダによって生成されたスペクトル表現を示す概略図である。

【図3B】図３ｂは、換算係数帯域用の換算係数と、再構築帯域用のエネルギと、ノイズ充填帯域用のノイズ充填情報との関係を示す表である。

【図4A】図４ａは、スペクトル部の選択を第１および第２セットのスペクトル部に対して適用するスペクトル領域エンコーダの機能を示す図である。

【図4B】図４ｂは、図４ａの機能の実施形態を示す図である。

【図5A】図５ａは、ＭＤＣＴエンコーダの機能を示す図である。

【図5B】図５ｂは、ＭＤＣＴ技術とデコーダの機能を示す図である。

【図5C】図５ｃは、周波数再生器の実施形態を示す図である。

【図6A】図６ａは、時間的ノイズ整形／時間的タイル整形機能を有するオーディオコーダを示す図である。

【図6B】図６ｂは、時間的ノイズ整形／時間的タイル整形技術を有するデコーダを示す図である。

【図6C】図６ｃは、時間的ノイズ整形／時間的タイル整形機能のさらなる機能を、異なる順番のスペクトル予測フィルタおよびスペクトル整形器とともに示す図である。

【図7A】図７ａは、時間的タイル整形（ＴＴＳ）機能の実施形態を示す図である。

【図7B】図７ｂは、図７ａのエンコーダの実施形態と整合するデコーダの実施形態を示す図である。

【図7C】図７ｃは、オリジナル信号のスペクトルと、ＴＴＳを有しない拡張信号のスペクトルを示す図である。

【図7D】図７ｄは、インテリジェントギャップ充填周波数と時間的タイル整形エネルギとの間の通信を示す周波数表現を示す図である。

【図7E】図７ｅは、オリジナル信号のスペクトルと、ＴＴＳを有する拡張信号のスペクトルを占めす図である。

【図8A】図８ａは、周波数生成を伴う２チャンネルデコーダを示す図である。

【図8B】図８ｂは、表現とソース／目標レンジの異なる組合せを示す表である。

【図8C】図８ｃは、図８ａの周波数生成を伴う２チャンネルデコーダの機能を示すフローチャートである。

【図8D】図８ｄは、図８ａのデコーダの詳細なる実施形態を示す図である。

【図8E】図８ｅは、図８ａのデコーダによって復号されるべき２チャンネル処理のためのエンコーダの実施形態を示す図である。

【図9A】図９ａは、エネルギ値を再生周波数範囲に使用する周波数生成技術を有するデコーダを示す図である。

【図9B】図９ｂは、図９ａの周波数再生器のさらに詳細なる実施形態を示す図である。

【図9C】図９ｃは、図９ｂの機能を概略的に示す図である。

【図9D】図９ｄは、図９ａのデコーダのさらなる実施形態を示す図である。

【図10A】図１０ａは、図９ａのデコーダと整合するエンコーダのブロック図である。

【図10B】図１０ｂは、図１０ａのパラメータ計算器のさらなる機能の実施形態を示すブロック図である。

【図10C】図１０ｃは、図１０ａのパラメータ計算器のさらなる機能の実施形態を示すブロック図である。

【図10D】図１０ｄは、図１０ａのパラメータ計算器のさらなる機能の実施形態を示すブロック図である。

【図11A】図１１ａは、デコーダにおけるスペクトルタイル充填手順のために、所定のソース範囲の特定をする別のデコーダを示す図である。

【図11B】図１１ｂは、図１１ａの周波数再生器のさらなる機能を示す図である。

【図11C】図１１ｃは、図１１ａのデコーダと連携して使用されるエンコーダを示す図である。

【図11D】図１１ｄは、図１１ｃのパラメータ計算器の実施形態を示すブロック図である。

【図12A】図１２ａおよび１２ｂは、ソース範囲および対象範囲を示す周波数図である。

【図12C】図１２ｃは、２つの信号の相関性例の見取り図である。

【図13A】図１３ａは、帯域幅拡張を有する従来の符号器を示す図である。

【図13B】図１３ｂは、帯域幅拡張を有する従来のデコーダを示す図である。

【発明を実施するための形態】

【0037】

図１ａは、オーディオ信号９９を符号化する装置を示す。オーディオ信号９９は、あるサンプリングレートを有するオーディオ信号をスペクトル表現１０１へと変換する時間スペクトル変換器１００に入力され、変換されたスペクトル表現１０１が、時間スペクトル変換器により出力される。スペクトル１０１は、スペクトル表現１０１を解析するスペクトル解析器１０２に入力される。スペクトル解析器１０１は、第１スペクトル解像度により符号化されるべき第１セットの第１スペクトル部１０３（第１スペクトル部の集合）と、第２スペクトル解像度により符号化されるべき別の第２セットの第２スペクトル部１０５（第２スペクトル部の集合）とを決定するよう構成される。第２スペクトル解像度は、第１スペクトル解像度よりも小さい。第２セットの第２スペクトル部１０５は、第２スペクトル解像度を有するスペクトル包絡線情報を計算するパラメータ計算器すなわちパラメトリック符号器１０４に入力される。さらに、第１スペクトル解像度を有する第１セットの第１スペクトル部の第１符号化表現１０７を生成するために、スペクトル領域オーディオコーダ１０６が設けられる。また、パラメータ計算器すなわちパラメトリック符号器１０４は、第２セットの第２スペクトル部の第２符号化表現１０９を生成するよう構成される。第１符号化表現１０７と第２符号化表現１０９とは、ビットストリーム多重変換装置またはビットストリーム形成器１０８に入力され、ビットストリーム形成器１０８は、最終的に、送信または蓄積装置における蓄積のために、符号化されたオーディオ信号を出力する。

【0038】

一般的に、図３ａの３０６などの第１スペクトル部は、３０７ａや３０７ｂのような２つの第２スペクトル部によって取り囲まれている。コア符号化周波数範囲が帯域的に制限されているＨＥＡＡＣの場合には、この限りではない。

【0039】

図１ｂは、図１ａのエンコーダと整合するデコーダを示す。第１符号化表現１０７は、第１セットの第１スペクトル部の第１復号化表現を生成するスペクトル領域オーディオデコーダ１１２に入力される。さらに、第２符号化表現１０９は、第１スペクトル解像度よりも低い第２スペクトル解像度を有する第２セットの第２スペクトル部の第２復号化表現を生成するパラメトリックデコーダ１１４に入力される。

【0040】

デコーダは、第１解像度を有する再構築第２スペクトル部を、第１スペクトル部を使って再生する周波数再生器１１６をさらに有する。周波数再生器１１６は、タイル充填手順を実行する。つまり、第１セットの第１スペクトル部のタイルまたは部分を使って、第１セットの第１スペクトル部を、第２スペクトル部を有する再構築レンジまたは再構築帯域にコピーする。そして、一般的には、パラメトリックデコーダ１１４により出力された復号された第２表現により示されるように、すなわち、第２セットの第２スペクトル部に関する情報を使って、スペクトル包絡線整形処理、またはその他の手順を実行する。復号化された第１セットの第１スペクトル部と、線１１７上の周波数再生器１１６の出力に示される再構築された第２セットのスペクトル部とは、スペクトル時間変換器１１８に入力される。このスペクトル時間変換器１１８は、第１復号表現と再構築された第２スペクトル部とを、所定の高サンプリングレートを有する時間表現１１９に変換するよう構成される。

【0041】

図２ｂは、図１ａのエンコーダの実施形態を示す。オーディオ入力信号９９は、図１ａの時間スペクトル変換器１００に対応する解析フィルタバンク２２０に入力される。そして、ＴＮＳブロック２２２において、時間ノイズ整形処理が実行される。したがって、図２ｂのブロック音調マスク２２６に対応する図１ａのスペクトル解析器１０２は、時間ノイズ整形／時間タイル整形処理が適用されないときには、全スペクトル値となり、図２ｂのブロック２２２に示すＴＮＳ処理が適用されるときには、スペクトル残差値となる。２チャンネル信号または多チャンネル信号の場合、ジョイントチャンネル符号化２２８が追加的に実施されてもよく、図１ａのスペクトル領域エンコーダ１０６には、ジョイントチャンネル符号化ブロック２２８が含まれてもよい。さらに、可逆データ圧縮を実施するエントロピー符号器２３２が設けられ、これは、図１ａのスペクトル領域エンコーダ１０６の一部となる。

【0042】

スペクトル解析器／音調マスク２２６は、ＴＮＳブロック２２２の出力を、コア帯域と、第１セットの第１スペクトル部１０３に対応する音調成分と、図１ａの第２セットの第２スペクトル部１０５に対応する残留成分とに分別する。ＩＧＦパラメータ抽出符号化手順として表示されるブロック２２４は、図１ａのパラメトリック符号器１０４に対応し、ビットストリーム多重変換装置２３０は、図１ａのビットストリーム多重変換装置１０８に対応する。

【0043】

解析フィルタバンク２２２がＭＤＣＴ（変更離散コサイン変換フィルタバンク）として実施され、ＭＤＣＴを使って、変更離散コサイン変換を周波数解析ツールとして機能させて、信号９９を時間−周波数領域に変換することが好ましい。

【0044】

スペクトル解析器２２６は、音調マスクを適用することが好ましい。この音調マスク推定段階は、信号中のノイズ様成分から音調成分を分別するのに用いられる。これによって、コア符号器２２８が全ての音調成分を心理音響モジュールによって符号化することができる。音調マスク推定段は、いくつもの異なる方法によって実施されてもよく、音声／オーディオ符号化（非特許文献８，９）用の正弦およびノイズモデリング、または非特許文献１０に記載されるＨＩＬＮモデル系オーディオコーダにおいて用いられる正弦トラック推定段と機能的に同様に実施されるのが好ましい。実施形態としては、生死軌跡を維持する必要なく簡単に実施できることが好ましいが、その他の音調またはノイズ検知器を用いてもよい。

【0045】

ＩＧＦモジュールは、ソース領域と対象領域との間に存在する類似性を計算する。対象領域は、ソース領域からのスペクトルにより表現される。ソース領域と対象領域との類似点を測ることは、クロス相関性アプローチを用いて行われる。対象領域は、非オーバーラップ周波数タイルｎＴａｒに分解される。対象領域における全てのタイルについて、固定開始周波数からソースタイルｎＳｒｃが整形される。これらのソースタイルは、０および１の間の要素によってオーバーラップし、ここで０とは０％のオーバーラップを、１とは１００％のオーバーラップを意味する。これらのソースタイルのそれぞれは、対象タイルに最もマッチするソースタイルを見つけるための様々な遅延において、対象タイルと相関性を有する。最もマッチするタイルの数は、ｔｉｌｅＮｕｍ［ｉｄｘ_ｔａｒ］に記憶され、対象と最も相関性を有する遅延は、ｘｃｏｒｒ_ｌａｇ［ｉｄｘ_ｔａｒ］［ｉｄｘ_ｓｒｃ］に記憶され、相関性のサインは、ｘｃｏｒｒ_ｓｉｇｎ［ｉｄｘ_ｔａｒ］［ｉｄｘ_ｓｒｃ］に記憶される。相関性が極めて否定的な場合には、ソースタイルは、デコーダにおけるタイル充填処理の前に、−１を乗じる必要がある。ＩＧＦモジュールはまた、音調成分が音調マスクを使って保存されていないため、スペクトルにおける音調成分を上書きしないよう注意する必要がある。帯域側のエネルギパラメータは、対象領域のエネルギを蓄積するのに用いられ、これによってスペクトルを正確に再構築することができる。

【0046】

この方法は、正弦曲線間のギャップがソース領域からの最も整合する「整形ノイズ」により充填される一方、マルチ音調信号の倍音グリットがコア符号器によって保存されるという点で、伝統的なＳＢＲ（非特許文献１）に対して利点がある。ＡＳＲ（精密スペクトル置換）（非特許文献２−４）と比べて、このシステムの別の利点としては、デコーダにおいて信号の重要部分を作り出する信号合成段がないということが挙げられる。その代わり、この作業はコア符号器によって実行される。よって、スペクトルの重要性分を保存できる。提案システムの別の利点としては、その機能が提案する継続的なスケーラビリティが挙げられる。全てのタイルについて単にｔｉｌｅＮｕｍ［ｉｄｘ_ｔａｒ］とｘｃｏｒｒ_ｌａｇ＝０とを使用することは、総粒度マッチングと称され、低ビットレートに使用することができる。一方、可変的なｘｃｏｒｒ_ｌａｇを全てのタイルに使用すると、対象スペクトルとソーススペクトルの整合性がより良くなる。

【0047】

さらに、トリリングやミュージカルノイズなどの周波数領域アーティファクトを除去するタイル選択安定化技術が提案されている。

【0048】

ステレオチャンネルのペアの場合には、追加的ジョイントステレオ処理が適用される。この処理は必要であり、というのも、ある目標レンジにおいては、信号が高い相関性を有する定位音源である場合があるためである。この特定の領域について選択された音源領域があまり相関を有しない場合には、目標領域についてエネルギが整合していても、相関しない音源領域によって空間像が悪化する場合がある。エンコーダは、一般的にはスペクトル値のクロス相関処理をして、各目標領域のエネルギ帯域を解析して、もし所定の閾値を超過している場合には、このエネルギ帯域にジョイントフラグを設定する。デコーダにおいて、左右チャンネルのエネルギ帯域は、このジョイントステレオフラグが設定されていない場合、個別に処理される。ジョイントステレオフラグが設定されている場合、両方のエネルギおよびパッチングがジョイントステレオ領域において実行される。ＩＧＦ領域におけるジョイントステレオ情報は、コア符号処理におけるジョイントステレオ情報と同様に信号化され、予測の場合には、予測の方向性がダウンミックスからの残差なのか、それともその逆なのか、を示すフラグが含まれる。

【0049】

エネルギは、Ｌ／Ｒ領域の送信済エネルギから計算することができる。
ｍｉｄＮｒｇ［ｋ］＝ｌｅｆｔＮｒｇ［ｋ］＋ｒｉｇｈｔＮｒｇ［ｋ］；
ｓｉｄｅＮｒｇ［ｋ］＝ｅｆｔＮｒｇ［ｋ］−ｒｉｇｈｔＮｒｇ［ｋ］；
ここで、ｋは変形領域における周波数指数である。

【0050】

その他の解決としては、ジョイントステレオが積極的な帯域については、ジョイントステレオ領域において直接エネルギを計算および送信し、デコーダ側にける追加的エネルギ変形を不要とすることが挙げられる。

【0051】

ソースタイルは、常に、ミッド／サイドマトリック：
ｍｉｄＴｉｌｅ［ｋ］＝０．５・（ｌｅｆｔＴｉｌｅ［ｋ］＋ｒｉｇｈｔＴｉｌｅ［ｋ］
ｓｉｄｅＴｉｌｅ［ｋ］＝０．５・（ｌｅｆｔＴｉｌｅ［ｋ］−ｒｉｇｈｔＴｉｌｅ［ｋ］
エネルギ調整：
ｍｉｄＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］＊ｍｉｄＮｒｇ［ｋ］；
ｓｉｄｅＴｉｌｅ［ｋ］＝ｓｉｄｅＴｉｌｅ［ｋ］＊ｓｉｄｅＮｒｇ［ｋ］；
ジョイントステレオ→ＬＲ変換：
何ら追加的予測パラメータが符号化されていない場合：
ｌｅｆｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］＋ｓｉｄｅＴｉｌｅ［ｋ］
ｒｉｇｈｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］−ｓｉｄｅＴｉｌｅ［ｋ］
追加的な予測パラメータが必要な場合で、信号化された方向性がミッドからサイドの場合：
ｓｉｄｅＴｉｌｅ［ｋ］＝ｓｉｄｅＴｉｌｅ［ｋ］−ｐｒｅｄｉｃｔｉｏｎＣｏｅｆｆ・ｍｉｄＴｉｌｅ［ｋ］
ｌｅｆｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］＋ｓｉｄｅＴｉｌｅ［ｋ］
ｒｉｇｈｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］−ｓｉｄｅＴｉｌｅ［ｋ］
信号化された方向性がサイドからミッドの場合：
ｍｉｄＴｉｌｅ１［ｋ］＝ｍｉｄＴｉｌｅ［ｋ］−ｐｒｅｄｉｃｔｉｏｎＣｏｅｆｆ・ｓｉｄｅＴｉｌｅ［ｋ］
ｌｅｆｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ１［ｋ］−ｓｉｄｅＴｉｌｅ［ｋ］
ｒｉｇｈｔＴｉｌｅ［ｋ］＝ｍｉｄＴｉｌｅ１［ｋ］＋ｓｉｄｅＴｉｌｅ［ｋ］
に従って生成される。

【0052】

この処理によって、相関性の高い目標領域と定位目標領域とを再生するのに用いられたタイルから生じた左右チャンネルが、たとえ音源領域が相関を有しないとしても、当該領域のステレオイメージを保存し、相関性を有する定位音源を示すよう確保できる。

【0053】

つまり、ビットストリームにおいては、例えばＬ／ＲまたはＭ／Ｓのいずれを総合ジョイントステレオ符号化処理に用いるべきかを示すジョイントステレオフラグが送信される。デコーダにおいては、まずコア帯域についてジョイントステレオフラグの示す通り、コア信号が復号される。第二に、コア信号は、Ｌ／ＲおよびＭ／Ｓ表現の両方に蓄積される。ＩＧＦタイル充填について、ソースタイル表現が選択され、ＩＧＦ帯域に関するジョイントステレオ情報の示す対象タイル表現に合うようされる。

【0054】

時間ノイズ整形（ＴＮＳ）は、標準技術であり、ＡＡＣ（非特許文献１１−１３）の一部である。ＴＮＳは、知覚符号化の基本スキームを延長したものと考えられ、フィルタバンクと量子化段の間に、オプションとしての処理工程を挿入する。ＴＮＳモジュールのメイン作業は、過渡的な信号の時間的マスキング領域において、生成された量子化ノイズを隠すことであり、これによって、効率的な符号化スキームとなる。まず、ＴＮＳは、例えばＭＤＣＴのような変形領域において、「前方予測」を用いて予測係数セットを算出する。そして、これらの係数は、信号の時間的包絡線をフラット化するのに用いられる。量子化によってＴＮＳフィルタスペクトルが影響を受けるため、量子化ノイズも一時的にフラットである。デコーダ側において、逆ＴＮＳフィルタリングを適用することで、量子化ノイズがＴＮＳフィルタの時間的包絡線に従って整形され、よって量子化ノイズがその過渡性によりマスクされる。

【0055】

ＩＧＦは、ＭＤＣＴ表現に基づく。効率的符号化のためには、好ましくは、約２０ｍｓの長ブロックを用いなければならない。このような長ブロック内における信号が過渡を含む場合、ＩＧＦスペクトル帯域において、タイル充填により、可聴のプリ・ポストエコーが発生する。図７ｃは、過渡開始前の、ＩＧＦによる一般的なプリエコー効果を示す。左側において、オリジナル信号のスペクトル写真が示され、右側において、ＴＮＳフィルタリングなしで拡張された帯域幅のスペクトル写真が示される。

【0056】

このプリエコー効果は、ＩＧＦ環境においてＴＮＳを用いることにより低減される。ここでＴＮＳは、デコーダにおけるスペクトル再生がＴＮＳ残差信号に対して実行されるため、時間タイル整形ツール（ＴＴＳ）として用いられている。必要となるＴＴＳ予測係数は、通常通り、エンコーダ側における全スペクトルを用いて計算され、適用される。ＴＮＳ／ＴＴＳ開始および停止周波数は、ＩＧＦツールのＩＧＦ開始周波数ｆ_{ＩＧＦｓｒａｒｔ}によって影響されない。伝統的なＴＮＳと比較して、ＴＴＳ停止周波数は、ｆ_{ＩＧＦｓｒａｒｔ}よりも高いＩＧＦツールの停止周波数まで増加される。デコーダ側において、ＴＮＳ／ＴＴＳ係数が再び全スペクトルにて適用される。つまり、コアスペクトル＋再生スペクトル＋音調マップからの音調成分である（図７ｅを参照）。ＴＴＳの適用は、再生スペクトルの時間包絡線がオリジナル信号の包絡線と整合するよう形成するのに必要である。したがって、示されたプリエコーは低減される。さらに、ＴＮＳには通常のことではあるが、それによってｆ_{ＩＧＦｓｒａｒｔ}より下の信号における量子化ノイズが依然として形成される。

【0057】

伝統的なデコーダにおいては、オーディオ信号に対するスペクトルパッチングは、パッチ境界におけるスペクトル相関を害する。それによって、分散が生じ、オーディオ信号の時間包絡線が害される。よって、残差信号に対してＩＧＦタイル充填を実施する別のメリットとしては、整形フィルタを適用した後、タイル境界がシームレスに相関し、信号をより忠実に時間的に再生することができることが挙げられる。

【0058】

本発明に係るエンコーダにおいては、ＴＮＳ／ＴＴＳフィルタリング処理、音調マスク処理およびＩＧＦパラメータ予測処理を経たスペクトルは、音調成分を除き、ＩＧＦ開始周波数より上の信号は存在しない。まばらなスペクトルが今、算術符号化および予測符号化の原則によって、コア符号器により符号化される。これらの符号化成分は、信号のビットとともに、オーディオのビットストリームを形成する。

【0059】

図２ａは、対応するデコーダの実施形態を示す。符号化オーディオ信号に相当する図２ａのビットストロームは、図１ｂであればブロック１１２および１１４に接続される多重分離装置／デコーダに入力される。ビットストリーム多重分離装置は、入力オーディオ信号を、図１ｂの第１符号化表現１０７と図１ｂの第２符号化表現１０９とに分離する。第１セットの第１スペクトル部を有する第１符号化表現は、図１ｂのスペクトル領域デコーダ１１２に対応するジョイントチャンネル復号ブロック２０４に入力される。第２符号化表現は、図２ａに図示されないパラメトリックデコーダ１１４に入力され、そして図１ｂの周波数再生器１１６に対応するＩＧＦブロック２０２に入力される。周波数再生に必要な第１セットの第１スペクトル部は、線２０３を経てＩＧＦブロック２０２に入力される。さらに、ジョイントチャンネル復号処理２０４の後、音調マスクブロック２０６において、音調マスク２０６の出力がスペクトル領域符号器１１２の出力と対応するよう、特定のコア復号処理が適用される、そして、合成器２０８による合成が実行され、合成器２０８の出力がフルレンジのスペクトルを有するが、それでいて、ＴＮＳ／ＴＴＳフィルタ領域内にあるというフレーム構成が作成される。そして、ブロック２１０において、逆ＴＮＳ／ＴＴＳ処理が、線１０９を介して供給されるＴＮＳ／ＴＴＳフィルタ情報を用いて実行される。つまり、好ましくは、ＴＴＳサイド情報が、スペクトル領域エンコーダ１０６によって生成される第１符号化表現に含まれる。スペクトル領域エンコーダ１０６は、例えば、直接的なＡＡＣまたはＵＳＡＣコアエンコーダであってもよく、あるいは第２符号化表現に含まれてもよい。ブロック２１０の出力において、最大周波数までの全スペクトルを得ることができ、これはオリジナル入力信号のサンプリングレートによって定められるフルレンジの周波数である。そして、スペクトル／時間変換が合成フィルタバンク２１２において実行され、オーディオ出力信号が最終的に得られる。

【0060】

図３ａは、スペクトル表現を表す概略図である。スペクトルは、スケールファクタ帯域ＳＣＢに分割され、図３ａにおける図示例においては、７つのスケールファクタ帯域ＳＣＢ１〜ＳＣＢ７がある。スケールファクタ帯域は、ＡＡＣ規格に定められるＡＡＣスケールファクタ帯域であってもよく、図３ａにその概略が図示される通り、上側の周波数まで増加する帯域を有してもよい。スペクトルの当初から（つまり低周波数から）インテリジェントギャップ充填を実行するのではなく、ＩＧＦ手順を３０９にて図示するＩＧＦ開始周波数で開始することが好ましい。したがって、コア周波数帯域は、最低周波数からＩＧＦ開始周波数まで存在する。ＩＧＦ開始周波数より上においては、スペクトル解析を適用して、高解像度のスペクトル成分３０４、３０５、３０６、３０７（第１セットの第１スペクトル部）を、第２セットの第２スペクトル部の示す低解像度成分から分離する。図３ａは、スペクトル領域エンコーダ１０６またはジョイントチャンネル符号器２２８に例示的に入力されるスペクトルを示し、つまりコアエンコーダがフルレンジで機能しているが、相当量のスペクトル値０を符号化している。これらのスペクトル値０は、ゼロに量子化されるか、または量子化の前または後にゼロに設定される。いずれにせよ、エンコーダは、フルレンジで動作し、スペクトルがその通り表現されているかのように、すなわち、いずれのインテリジェントギャップ充填についても、第２セットの第２スペクトル部の符号化が低スぺクトル解像度で符号化されていることも、知る必要なしに動作する。

【0061】

好適には、高解像度は、ＭＤＣＴ線のようなスペクトル線の線単位の符号化によって定義づけられ、一方、第２解像度または低解像度は、例えばいくつもの周波数線を対象とするスケールファクタ帯域について、そのスケールファクタ帯域あたりの単一スペクトル値のみを計算することにより定義づけられる。したがって、第２低解像度は、スペクトル解像度については、一般にＡＡＣやＵＳＡＣコアエンコーダなどのコアエンコーダによって適用される線単位符号化によって定義される第１または高解像度よりも、ずっと低い。

【0062】

スケールファクタまたはエネルギ計算について、その状況が図３ｂに図示される。エンコーダがコアエンコーダであるという事実、および各帯域において第１セットのスペクトル部の成分が含まれ得る（ただし、必ずしも含まれる必要はない）という事実に伴い、コアエンコーダは、ＩＧＦ開始周波数３０９より下のコア範囲のみならず、ＩＧＦ開始周波数より上の最大周波数ｆ_{ＩＧＦｓｔｏｐ}（これはサンプリング周波数、つまりｆｓ／２の半分以下である）に達するまでの帯域について、ＩＧＦ開始周波数各帯域についてスケールファクタを計算する。よって、本実施形態において、図３ａにおける符号化音調部３０２、３０４、３０５、３０６、３０７は、スケールファクタＳＣＢ１〜ＳＣＢ７とともに、高解像度スペクトルデータに対応する。低解像度スペクトルデータは、ＩＧＦ開始周波数から開始して計算され、スケールファクタＳＦ４〜ＳＦ７とともに送信される、エネルギ情報値Ｅ_１、Ｅ_２、Ｅ_３、Ｅ_４に対応する。

【0063】

特に、コアエンコーダが低ビットレート状況下にある場合、コア帯域、つまりＩＧＦ開始周波数よりも低い周波数（スケールファクタ帯域ＳＣＢ１〜ＳＣＢ３）において、追加的ノイズ充填手順が適用されてもよい。ノイズ充填においては、ゼロに量子化されたいくつもの近接するスペクトル線が存在する。デコーダ側においては、これらのゼロに量子化されたスペクトル値は再度合成され、この合成されたスペクトル値について、図３ｂに３０８として示されるＮＦ_２などのノイズ充填エネルギを用いて、その大きさが調整される。特に、ＵＳＡＣのように、スケールファクタについて絶対ベースまたは相対ベースで設定され得るノイズ充填エネルギは、ゼロに量子化されたスペクトル値のセットのエネルギに対応する。これらのノイズ充填スペクトル線はまた、第３セットの第３スペクトル部と考えられ、直接的なノイズ充填合成により、ソースレンジおよびエネルギ情報値Ｅ_１、Ｅ_２、Ｅ_３、Ｅ_４からのスペクトル値を用いた周波数タイルを再構築するためのその他の周波数からの周波数タイルを用いた周波数再生に依拠する周波数タイルＩＧＦ手順を適用せずに、再生される。

【0064】

エネルギ情報が計算される帯域は、スケールファクタ帯域と一致することが好ましい。別の実施形態においては、例えばスケールファクタ帯域４および５について単一のエネルギ情報値のみが送信されるよう、エネルギ情報値のグループ分けが適用されるが、この実施形態においても、グループ分けされた再構築帯域は、スケールファクタ帯域の境界と一致する。もし異なる帯域分別が適用された場合には、所定の再計算または同期化計算を適用してもよく、所定の実施形態によってはこれが合理的である。

【0065】

図１ａのスペクトル領域エンコーダ１０６は、図４ａに図示されるような心理音響的に駆動されるエンコーダであることが好ましい。一般的には、例えばＭＰＥＧ２／４のＡＡＣ規格またはＭＰＥＧ１／２レイヤ３規格に示される通り、スペクトル範囲（図４ａの４０１）に変換された後の符号化対象のオーディオ信号は、スケールファクタ算出器４００に転送される。スケールファクタ算出器は、心理音響モデルによる制御により、量子化対象のオーディオ信号をさらに受信するか、またはＭＰＥＧ１／２レイヤ３規格またはＭＰＥＧＡＡＣ規格の通り、オーディオ信号の復号スペクトル表現を受信する。心理音響モデルは、各スケールファクタ帯域について、心理音響閾値を表現するスケールファクタを算出する。さらに、スケールファクタは、公知の内側および外側反復ループの連携により、またはその他適切なエンコーディング手順により、所定のビットレート条件が満たされるよう調整される。そして、量子化対象スペクトル値と算出スケールファクタとが量子化処理器４０４に入力される。直接的なオーディオ符号化動作においては、量子化対象スペクトル値は、スケールファクタによって重み付けされ、この重み付けされたスペクトル値が、一般的に上位の振幅範囲まで圧縮する機能を有する固定量子化装置に入力される。そして、量子化処理器の出力においては、エントロピーエンコーダに転送される量子化インデックスが確かに存在する。一般的に、このエントロピーエンコーダは、近接する周波数値のためのゼロ量子化インデックスまたは当該分野におけるいわゆるゼロ値「ラン」のために、特定のかつ相当に効率のよい符号機能を有する。

【0066】

しかしながら、図１ａのオーディオエンコーダにおいては、量子化処理器は、一般的に、スペクトル解析器から第２スペクトル部に関する情報を受信する。したがって、量子化処理器４０４は、その出力において、スペクトル解析器１０２によって識別された第２スペクトル部がゼロであるか、またはエンコーダもしくはデコーダによってゼロ表現であると認められた表現（特にスペクトルにゼロ値の「ラン」が存在する場合に、相当に効率的に符号化できる表現）を有するよう確保する。

【0067】

図４ｂは、量子化処理器の実施形態を図示する。ＭＤＣＴスペクトル値は、ゼロ設定ブロック４１０に入力することができる。そして、ブロック４１２におけるスケールファクタによる重み付けが実施される前に、第２スペクトル部が既にゼロに設定される。追加的実施形態においては、ブロック４１０が設けられず、重み付けブロック４１２の後に、ブロック４１８においてゼロ設定の連携が実施される。さらに別の実施形態においては、量子化ブロック４２０における量子化の後に、ゼロ設定ブロック４２２においてゼロ設定手順が実施されてもよい。この実施形態においては、ブロック４１０および４１８は存在しない。概して、ブロック４１０、４１８および４２２のうち少なくとも１つが、具体的な実施形態に応じて設けられる。

【0068】

そして、ブロック４２２の出力において、図３ａに図示されるものに対応する量子化スペクトルが得られる。そして、この量子化スペクトルは、図２ｂにおける２３２のようなエントロピー符号器に入力される。このエントロピー符号器は、例えばＵＳＡＣ規格に定義されるハフマン符号器または演算符号器であってもよい。

【0069】

ゼロ設定ブロック４１０、４１８および４２２は、互いに交互に、または並列に設けられるが、スペクトル解析器４２４によって制御される。スペクトル解析器は、公知の音調検知器を有することが好ましく、またはスペクトルを高解像度で符号化される成分と低解像度で符号化される成分とに分別することができる異なる種の検知器を有することが好ましい。その他スペクトル解析器において実行されるアルゴリズムは、異なるスペクトル部に関する解像度要件を、スペクトル情報または関連メタデータに応じて決定する音声活動検出器、ノイズ検出器、音声検出器、その他検出器であってもよい。

【0070】

図５ａは、例えばＡＡＣやＵＳＡＣにおいて実施される、図１ａの時間スペクトル変換器１００の好ましい実施形態を図示する。時間スペクトル変換器１００は、過渡検知器５０４によって制御される窓回路５０２を有する。過渡検知器５０４が過渡を検知すると、長い窓から短い窓への切り替えが窓回路５０２に対して指示される。そして、窓回路５０２は、オーバーラップしているブロックについて、各窓フレームが一般的に２０４８値のような２つのＮ値を有する場合には、窓フレームを計算する。その後、ブロック変換器５０６内での変換が実施され、このブロック変換器が追加的デシメーションを提供する。そして、デシメーション／変換の結合が実行され、ＭＤＣＴスペクトル値などのＮ値を有するスペクトルフレームが得られる。そのため、長窓動作については、ブロック５０６の入力におけるフレームが、例えば２０４８値のような２つのＮ値を有し、そしてスペクトルフレームが１０２４値を有する。しかしながら、その後、長窓と比較して各短ブロックが１／８の窓時間領域値しか有さず、かつ各スペクトルブロックが長ブロックと比較して１／８のスペクトル値しか有さない場合に８つの短ブロックが実行されたときには、短ブロックに対する切替が実行される。そのため、このデシメーションが窓回路の５０％オーバーラップ動作と結合したとき、スペクトルは、時間領域オーディオ信号９９のクリティカルサンプルバージョンである。

【0071】

続いて、図１ｂの周波数再生器１１６およびスペクトル時間変換器１１８の特定の実施形態、または図２ａのブロック２０８および２１２の結合動作の具体的実施形態を示す図５ｂを参照する。図５ｂにおいて、特定の再構築帯域が、図３ａのスケールファクタ帯域６のように考慮される。この再構築帯域における第１スペクトル部（つまり図３ａの第１スペクトル部３０６）は、フレーム構築／調整ブロック５１０に入力される。その上、スケールファクタ帯域６のための再構築第２スペクトル部も、フレーム構築器／調整器５１０に入力される。また、図３ｂにおけるＥ_３のような、スケールファクタ帯域６のためのエネルギ情報もまた、ブロック５１０に入力される。再構築帯域における再構築第２スペクトル部は、ソースレンジを使って周波数タイル充填により既に生成されており、この再構築帯域が対象レンジに対応する。ここで、フレームのエネルギ調整を実行し、例えば、図２ａの結合器２０８の出力において得られる、Ｎ値を有する完全な再構築フレームを最終的に得る。そして、ブロック５１２において、逆ブロック変換／補間処理を実行して、例えば、ブロック５１２の入力における１２４スペクトル値について、２４８時間領域値を得る。その後、ブロック５１４において合成窓処理が実行され、これもまた、符号化されたオーディオ信号においてサイド情報として送信される長窓／短窓指示により制御される。そして、ブロック５１６において、前回時間フレームとのオーバーラップ／加算処理が実行される。各新規の時間フレームが２Ｎ値の場合、Ｎの時間領域値が最終的に出力されるよう、ＭＤＣＴは、５０％オーバーラップ処理を適用することが好ましい。５０％オーバーラップ処理によってクリティカルサンプルが提供され、あるフレームから次のフレームへの継続的クロスオーバーが、ブロック５１６におけるオーバーラップ／加算処理により提供されるという事実からすると、５０％オーバーラップ処理が特に好ましい。

【0072】

図３ａの３０１に示す通り、ノイズ充填処理は、ＩＧＦ開始周波数より下で追加的に適用されるのみならず、図３ａのスケールファクタ帯域６と合致する対象再構築帯域などのような、ＩＧＦ開始周波数より上においても追加的に適用されてもよい。そして、ノイズ充填スペクトル値も、フレーム構築器／調整器５１０に入力されてもよく、ノイズ充填スペクトル値がこのブロック内にて調整されてもよい。あるいは、ノイズ充填スペクトル値は、フレーム構築器／調整器５１０に入力されるよりも前に、ノイズ充填エネルギを用いて既に調整されていてもよい。

【0073】

好ましくは、ＩＧＦ処理（つまりその他の部分からのスペクトル値を使った周波数タイル充填処理）は、全スペクトルに対して適用されてもよい。したがって、スペクトルタイル充填処理は、ＩＧＦ開始周波数より上の高帯域のみならず、低帯域においても適用されてもよい。また、周波数タイル充填によらないノイズ充填もまた、ＩＧＦ開始周波数より下のみならず、ＩＧＦ開始周波数より上でも適用されてもよい。但し、ノイズ充填処理がＩＧＦ開始周波数よりも下に限定され、かつ図３ａに示される通り、周波数タイル充填処理がＩＧＦ開始周波数よりも上に限定されているときに、高品質および高効率のオーディオエンコーディングが得られることが判明している。

【0074】

対象タイル（ＴＴ）（ＩＧＦ開始周波数より大きい周波数を有する）は、フルレート符号器のスケールファクタ帯域境界に結合させることが好ましい。ソースタイル（ＳＴ）は、ここから情報を得られるが、ＩＧＦ開始周波数よりも低周波数であり、スケールファクタ帯域境界と結合していない。ＳＴの大きさは、関連するＴＴの大きさに対応すべきである。これを以下の例を使って示す。ＴＴ［０］は、１０ＭＤＣＴビンの長さを有する。これはまさに、２つの後続のＳＣＢの長さ（例えば４＋６）に相当する。そして、ＴＴ［０］と相関性を有する可能性のある全てのＳＴもまた、１０ビンの長さを有する。ＴＴ［０］に近接する第２対象タイルＴＴ［１］は、１５ビンの長さを有する（７＋８の長さを有するＳＣＢ）。そして、そのＳＴは、ＴＴ［０］用の１０ビンではなく、１５ビンの長さを有する。

【0075】

対象タイルの長さを有するＳＴについて、ＴＴを見つけられない場合が生じたとき（例えば、ＴＴの長さが利用可能なソースレンジよりも大きいとき）には、相関性は計算されず、対象タイルＴＴが完全に充填されるまで、ソースレンジが何度もこのＴＴにコピーされる（このコピーは、第２コピーの最も低い周波数を有する周波数線が、第１コピーの最も高い周波数を有する周波数線の直後に周波数的に来るよう、次から次になされる。）。

【0076】

そして、図１ｂの周波数生成器１１６または図２ａのＩＧＦブロック２０２のさらなる好適実施形態を示す図５ｃを参照する。ブロック５２２は、対象帯域ＩＤのみならず、さらにソース帯域ＩＤをも受信する周波数タイル生成器である。例示的に、エンコーダ側において、図３ａのスケールファクタ帯域３がスケールファクタ帯域７の再構築にかなり適していると決定されている。したがって、ソース帯域ＩＤは２であり、対象帯域ＩＤは７である。この情報に基づき、周波数タイル生成器５２２は、スペクトル成分５２３の生の第２部を生成するために、コピー処理や倍音タイル充填処理、その他タイル充填処理を適用する。スペクトル成分の生の第２部は、第１セットの第１スペクトル部に含まれる周波数解像度と同じ周波数解像度を有している。

【0077】

そして、図３ａの３０７などのような再構築帯域の第１スペクトル部は、フレーム構築器５２４に入力され、生の第２部５２３もフレーム構築器５２４に入力される。その後、再構築されたフレームは、ゲイン係数算出器５２８によって算出された再構築帯域のゲイン係数を利用して、調整器５２６により調整される。ただし、重要な点としては、フレームにおける第１スペクトル部は、調整器５２６による影響を受けず、再構築フレームのための生の第２部のみが調整器５２６の影響を受けることである。このため、ゲイン係数算出器５２８は、ソース帯域または生の第２部５２３を解析し、さらに、スケールファクタ帯域７が想定される場合には、調整器５２６によって出力される調整後フレームのエネルギがエネルギＥ_４を有するよう、再構築帯域における第１スペクトル部を追加的に解析して、正しいゲイン係数５２７を最終的に見出す。

【0078】

この意味では、ＨＥ−ＡＡＣと比べて、本発明による周波数再構築の正確性が高いことを評価することが非常に重要である。これは、図３ａにおけるスケールファクタ帯域７について説明される。図１３ａに図示される従来のエンコーダは、高解像度で符号化されるべきスペクトル部３０７を「欠落倍音」として検知する。そして、このスペクトル成分のエネルギが、スケールファクタ帯域７などの再構築帯域に関するスペクトル包線絡情報とともに、デコーダに送信される。その後、デコーダが欠落倍音を再生する。しかしながら、欠落倍音３０７が図１３ａに示す従来のデコーダによって再構築されるスペクトル値が、再構築周波数３９０によって示される周波数における帯域７の中央に存在する。よって、本発明は、図１３ｄの従来のデコーダによって生じる周波数エラー３９１を避けることができる。

【0079】

一実施形態において、スペクトル解析器を実行して、第１スペクトル部と第２スペクトル部の類似性を算出し、算出された類似性に基づき、再構築範囲の第２スペクトル部について、この第２スペクトル部とできる限りマッチする第１スペクトル部を決定する。そして、可変的ソース範囲／対象範囲の実行において、パラメトリックコーダは、第２符号化表現において、各対象範囲について整合する対象範囲を表現する整合情報を追加的に導入する。デコーダ側において、この情報は、図５ｃの周波数タイル生成器５２２によって用いられる。図５ｃは、ソース帯域ＩＤおよび対象帯域ＩＤに基づく生の第２部５２３の生成を図示する。

【0080】

さらに、図３ａに示す通り、スペクトル解析器は、最大限の解析周波数まで、スペクトル表現を解析するよう構成される。この最大限の解析周波数は、サンプリング周波数の半分を少しだけ下回り、少なくともサンプリング周波数の１／４かまたは一般的にはこれより高い方が好ましい。

【0081】

図示される通り、エンコーダは、低解像度処理をすることなく動作し、またデコーダは、高解像度処理をすることなく動作する。つまり、スペクトル領域オーディオコーダは、オリジナルの入力オーディオ信号のサンプリングレートにより定義されるナイキスト周波数を有するスペクトル表現を生成するよう構成される。

【0082】

さらに、図３ａに図示される通り、スペクトル解析器は、ギャップ充填開始周波数から開始し、スペクトル表現に含まれる最大周波数に示される最大周波数で終了するスペクトル表現を解析するよう構成される。そして、最大周波数からギャップ充填開始周波数までのスペクトル部が第１セットのスペクトル部に属し、例えば３０４、３０５、３０６、３０７などのギャップ充填周波数より上の周波数値を有するさらなるスペクトル部が、第１セットの第１スペクトル部に追加的に含まれている。

【0083】

上述の通り、スペクトル領域オーディオデコーダ１１２は、第１復号表現のスペクトル値によって示される最大周波数が、サンプリングレートを有する時間表現に含まれる最大周波数と等しくなるよう構成され、第１セットの第１スペクトル部における最大周波数のスペクトル値が、ゼロまたはゼロとは異なる値である。いずれにせよ、スペクトル成分の第１セットにおけるこの最大周波数については、スケールファクタ帯域のスケールファクタが存在する。このスケールファクタは、図３ａおよび３ｂの関係で議論された通り、このスケールファクタ帯域における全てのスペクトル値がゼロに設定されたか否かを問わず、生成され送信される。

【0084】

したがって、本発明は、ノイズ置換やノイズ充填（これらの技術は、ローカル信号コンテンツのようなノイズの効率的表現に特化している）などのような圧縮効率を向上させるその他のパラメータ技術について、本発明によると音調成分の正確な周波数再生が可能であるという利点を有する。今日まで、いずれの従来技術も、低帯域（ＬＦ）と高帯域（ＨＦ）における固定された演繹分割の制限のない、スペクトルギャップ充填による任意の信号コンテンツの効率的パラメトリック表現について、提案していない。

【0085】

本発明のシステムの実施形態は、従来技術のアプローチを改善し、高圧縮効率を実現し、知覚的な不快感をほとんどなくし、低ビットレートであっても全オーディオ帯域を提供する。

【0086】

一般的なシステムは、下記から構成される。
・全帯域コア符号化
・インテリジェントギャップ充填（タイル充填またはノイズ充填）
・音調マスクにより選択されたコア内におけるまばらな音調部分
・充填を含む、全帯域のためのジョイントステレオペア符号化
・タイル上のＴＮＳ
・ＩＧＦレンジにおけるスペクトル白色化

【0087】

より効率的なシステムに向かっての第１ステップとしては、スペクトルデータを、コア符号器の１つとは異なる第２変形領域に変換する必要性を除去することである。例えばＡＡＣなどの多くのオーディオコーデックは、ＭＤＣＴを基本的な変換として用いているので、ＭＤＣＴ領域においてＢＷＥも実行できると便利である。ＢＷＥシステムの第２要件としては、音調グリッドを保存する必要性がある。これによって、ＨＦ音調成分が保存され、符号化オーディオの質が既存のシステムよりも優れたものになる。ＢＷＥスキームについて、上記の要件の両方に対処するために、インテリジェントギャップ充填（ＩＧＦ）と称される新システムが提案されている。図２ｂは、エンコーダ側における提案システムのブロック図を示し、図２ａは、デコーダ側におけるシステムを示す。

【0088】

図６ａは、本発明の別の実施形態における符号化オーディオ信号を復号する装置を示す。この復号装置は、第１セットのスペクトル部の第１復号表現を生成するスペクトル領域オーディオデコーダ６０２と、スペクトル領域オーディオデコーダ６０２の下流に接続され、第１セットの第１スペクトル部に含まれる第１スペクトル部を用いて、再構築第２スペクトル部を生成する周波数再生器６０４とを備える。６０３として図示される通り、第１スペクトル部および第２スペクトル部におけるスペクトル値は、スペクトル予測残差値である。これらのスペクトル予測残差値を全スペクトル表現に変換するために、スペクトル予測フィルタ６０６が設けられる。逆予測フィルタは、第１セットの第１周波数および再構築された第２スペクトル部のスペクトル残差値を用いて、周波数に対して逆予測を行うよう構成される。スペクトル逆予測フィルタ６０６は、符号化オーディオ信号に含まれるフィルタ情報によって構成される。図６ｂは、図６ａの実施形態の詳細なる実施を図示する。スペクトル予測残差値６０３は、再構築帯域または所定の第２周波数部のための生のスペクトル値を生成する周波数タイル生成器６１２に入力される。この生データは、高解像度の第１スペクトル表現と同じ解像度を有し、スペクトル整形器６１４に入力される。スペクトル整形器は、ビットストリームに送信される包絡線情報を用いてスペクトルを整形する。このスペクトル整形されたデータは、スペクトル予測フィルタ６１６に適用される。スペクトル予測フィルタ６１６は、ビットストリームを介してエンコーダからデコーダに送信されるフィルタ情報６０７を使って、全スペクトル値のフレームを最終的に生成する。

【0089】

図６ｂにおいては、エンコーダ側において、ビットストリームを介して送信され、線６０７を介して使用されるフィルタ情報が、包絡線情報を計算した後に計算されると想定されている。したがって、換言すると、図６ｂのデコーダに整合するエンコーダは、スペクトル残差値をまず算出し、そして例えば図７ａに示す通り、スペクトル残差値を用いて包絡線情報を計算する。しかしながら、エンコーダ側においてＴＮＳまたはＴＴＳフィルタリングより前に包絡線情報が算出される場合、その他の実施形態が、所定の実施形態にとっても便利である。そして、スペクトル予測フィルタ６２２は、ブロック６２４においてスペクトル整形を実施するために適用される。よって、換言すると、全スペクトル値は、スペクトル整形処理６２４が適用される前に生成される。

【0090】

複素数値を有するＴＮＳフィルタまたはＴＴＳフィルタが算出されることが好ましい。これは図７ａに図示される。オリジナルオーディオ信号が複素ＭＤＣＴブロック７０２に入力される。そして、ＴＴＳフィルタ計算およびＴＴＳフィルタリングが複素領域において実行される。その後、ブロック７０６において、ＩＧＦサイド情報が算出され、符号化等のためのスペクトル解析などのその他処理も算出される。そして、ブロック７０６により生成された第１セットの第１スペクトル部は、７０８として図示される心理音響モデルにより駆動するエンコーダにより符号化され、図７ａにおいてＸ（ｋ）として示される第１セットの第１スペクトル部が得られる。これらの全てのデータは、ビットストリーム多重変換装置７１０に転送される。

【0091】

デコーダ側においては、符号化されたデータが多重分離装置７２０に入力され、ＩＧＦサイド情報およびＴＴＳサイド情報と、第１セットの第１スペクトル部の符号化表現とを分別する。

【0092】

そして、１つ以上の実数スペクトルから複素スペクトルを計算するために、ブロック７２４が用いられる。その後、実数スペクトルおよび複素スペクトルの両方が、ブロック７２６に入力され、再構築帯域のための第２セットの第２スペクトルにおける再構築周波数値が生成される。タイル充填された全帯域フレームが完全に入手できると、逆ＴＴＳ処理７２８が実行され、デコーダ側では、最終逆複素ＭＤＣＴ処理がブロック７３０において実行される。したがって、コア帯域または個別のタイル帯域において適用されたときのみならず、コア／タイル境界またはタイル／タイル境界に適用された場合にも、複素ＴＮＳフィルタ情報の利用によって、タイル境界処理が自動的に生成され、最終的にはタイル間のスペクトル相関が再導入される。このタイル境界に対するスペクトル相関は、周波数タイルを生成し、周波数タイルの生データに対してスペクトル包絡線調整を実施するだけでは得ることはできない。

【0093】

図７ｃは、オリジナル信号（左のパネル）とＴＴＳを有しない拡張信号との比較を示す。７５０で示される上部周波数範囲において、拡張部として示される強いアーティファクトが見られる。しかしながら、これは、７５０の同じスペクトル部が図７ｃのアーティファクト関連成分７５０と比較したとき、図７ｅにおいては生じない。

【0094】

本発明の実施形態またはオーディオ符号化システムは、利用可能なビットレートの主要部分を用いて、信号における知覚的に最も関連ある構造のみを、エンコーダにおいて波形符号化する。そして、それによって生じたスペクトルギャップは、オリジナルスペクトルにおおよそ近似する信号コンテンツを用いて、デコーダにおいて充填される。パラメータ駆動されるいわゆるスペクトルインテリジェントギャップ充填（ＩＧＦ）を制御するために、相当に限られたビット配分のみが、エンコーダからデコーダに送信される専用サイド情報により消費される。

【0095】

オーディオ信号の蓄積または送信については、厳格なビットレート制限が適用されることが多い。過去において、符号器は、相当な低ビットレートしか利用可能でない場合には、送信オーディオ帯域を徹底的に削減することを強制されていた。今日においては、近代のオーディオコーデックは、スペクトル帯域レプリケーション（ＳＢＲ）（非特許文献１）などの帯域幅拡張（ＢＷＥ）方法を使って、広帯域信号を符号化することができる。これらのアルゴリズムは、高周波数コンテンツ（ＨＦ）のパラメトリック表現に依存している。この周波数コンテンツは、ＨＦスペクトル領域への転換（「パッチング」）およびパラメータ駆動の後処理によって、復号信号の波形符号化された低周波数部分（ＬＦ）から生成される。ＢＷＥスキームにおいては、いわゆる所定のクロスオーバー周波数より上のＨＦスペクトル領域は、スペクトルパッチングに基づき再構築されることが多い。一般的に、ＨＦ領域は、複数の近接パッチから構成され、これらの各パッチは、所定のクロスオーバー周波数よりも下のＬＦスペクトルのバンドパス（ＢＰ）から供給される。従来のシステムは、近接するサブバンド係数のセットをソースから対象領域にコピーすることにより、フィルタバンク表現内において、効率的にパッチングを実施する。

【0096】

もしＢＷＥシステムがフィルタバンクまたは時間周波数変換領域において実施された場合、帯域幅拡張信号の時間的形状を制御する可能性はかなり限られている。一般的に、時間的粒度は、近接する変換窓間において用いられるホップサイズによって制限される。これによって、帯域幅拡張スペクトル範囲において、不要なプリエコーまたはポストエコーが生じ得る。

【0097】

知覚的オーディオ符号化から、オーディオ信号の時間包絡線の形は、時間包絡線整形（ＴＮＳ）（非特許文献１４）のようなスペクトルフィルタリング技術を用いて復元することができることが知られている。しかしながら、従来技術から知られているＴＮＳフィルタリングは、実数スペクトルに対する実数フィルタである。実数スペクトルに対する実数フィルタは、特に基礎となる実数変換が修正離散コサイン変換（ＭＤＣＴ）の場合には、エイリアジングアーティファクトによって著しく害される恐れがある。

【0098】

時間包絡線タイル整形処理は、複素修正離散コサイン変換（ＣＭＤＣＴ）などから得られたような複素数スペクトルに対して、複素フィルタリングを適用する。それによって、エイリアジングアーティファクトを避けることができる。

【0099】

時間タイル整形は、以下から構成される：
・複素フィルタ係数の推定と、エンコーダにおけるオリジナル信号のスペクトルに対する平坦化フィルタの適用
・サイド情報におけるフィルタ係数の送信
・デコーダにおけるタイル充填再構築スペクトルに対する整形フィルタの適用

【0100】

本発明は、オーディオ変換符号化から知られる従来技術を拡張するものである。特に、周波数方向に沿う直列予測により、時間ノイズ整形（ＴＮＳ）を拡張して、帯域幅拡張の点で変形使用できるようするものである。

【0101】

さらに、本発明による帯域幅拡張アルゴリズムは、インテリジェントギャップ充填（ＩＧＦ）に基づくものであるが、信号表現として、実数のクリティカルサンプルＭＤＣＴ表現に依拠するＩＧＦ規格設定に対して、オーバーサンプルの複素数変換（ＣＭＤＣＴ）を採用するものである。ＣＭＤＣＴは、実数部分におけるＭＤＣＴ係数と、各複素数スペクトル係数の虚数部分におおけるＭＤＳＴ係数との組合せと見ることができる。

【0102】

ＩＧＦの観点から新たなアプローチが記載されているが、本発明の方法は、オーディオ信号のフィルタバンク表現に基づくいかなるＢＷＥ方法とも組み合わせて用いることができる。

【0103】

新規性の観点では、周波数方向に沿った直列予測は、時間ノイズ整形としては使用されず、むしろ時間タイル整形（ＴＴＳ）技術として使用される。タイル充填された信号成分が、従来の知覚的変換コーデックのＴＮＳによる量子化ノイズ整形に対して、ＴＴＳによって時間的に整形されるという事実により、このようにリネームも正当化される。

【0104】

図７ａは、ＩＧＦおよび新たなＴＴＳアプローチを使用したＢＷＥエンコーダのブロック図である。

【0105】

基礎となるエンコーディングスキームは、次の通り機能する。
・時間領域信号ｘ（ｎ）のＣＭＤＣＴを計算して周波数領域信号Ｘ（ｋ）を求め、
・複素数ＴＴＳフィルタを算出し、
・ＢＷＥについてサイド情報を入手して、デコーダによって再生されるべきスペクトル情報を除去し、
・心理音響モジュール（ＰＡＭ）を用いて量子化を適用し、
・データを蓄積／送信し、実数ＭＤＣＴ係数のみが送信される。

【0106】

図７ｂは、対応するデコーダを示す。デコーダにおいては、エンコーダにおける処理を主に反対にしたものである。

【0107】

ここで、基礎的復号スキームは、次の通り機能する。
・ＭＤＣＴ値からＭＤＳＴ係数を予測し（この処理において、１ブロック復号遅延が追加される）、ＭＤＣＴおよびＭＤＳＴを結合して、複素数ＣＭＤＣＴ係数にし、
・後処理とともにタイル充填を実行し、
・送信されたＴＴＳフィルタ係数を利用して逆ＴＴＳフィルタリングを適用し、
・逆ＣＭＤＣＴを計算する。

【0108】

なお、上記の代わりに、ＴＴＳ解析とＩＧＦパラメータ予測がエンコーダにおいて一貫して反転されるのであれば、ＴＴＳ解析とＩＧＦ後処理のデコーダにおける順番を反対にしてもよい。

【0109】

効率的な変換符号化のために、約２０ｍｓのいわゆる「長ブロック」を使用して、合理的な変換ゲインを達成することが好ましい。当該長ブロック内の信号が過渡を含む場合には、タイル充填によって、可聴のプリ・ポストエコーが再構築スペクトル帯域において発生する。図７ｃは、ＩＧＦにより過渡を害する典型的なプリ・ポストエコー効果を示す。図７ｃの左パネルにおいて、オリジナル信号のスペクトルが示され、右パネルにおいて、本発明のＴＴＳフィルタリングを適用せずにタイル充足された信号のスペクトルが示される。この例においては、コア帯域およびタイル充填帯域間におけるＩＧＦ開始周波数ｆ_{ＩＧＦｓｔａｒｔ}またはｆ_{Ｓｐｌｉｔ}が、ｆ_ｓ／４に選択されている。図７ｃの右パネルにおいては、過渡を取り囲む、明確なプリ・ポストエコーを見ることでき、特に再現された周波数領域のスペクトル上端において顕著である。

【0110】

ＴＴＳモジュールにおける主なタスクとしては、これらの不要な信号成分を過渡の周囲に密接した近隣に閉じ込め、人間の知覚の時間的マスク効果により支配される時間領域においてこれらを隠すことが挙げられる。したがって、ＣＭＤＣＴ領域における「前方予測」を用いて、必要なＴＴＳ予測係数を計算し適用する。

【0111】

ＴＴＳとＩＧＦを組み合せてコーデックとした実施形態においては、ＩＧＦタイルが完全に１つのＴＴＳフィルタ（平坦化フィルタまたは整形フィルタ）によってフィルタされるか、またはされないよう、所定のＴＴＳパラメータとＩＧＦパラメータを並べることが重要である。したがって、全てのＴＴＳｓｔａｒｔ［．．］周波数またはＴＴＳｓｔｏｐ［．．］は、１つのＩＧＦタイルに含まれるのではなく、それぞれのｆ_{ＩＧＦ．．．}周波数について並べられる。図７ｄは、３つのＴＴＳフィルタについてのＴＴＳおよびＩＧＦ処理エリアの例を示す。

【0112】

ＴＴＳ停止周波数は、ＩＧＦツールの停止周波数に調整され、これはｆ_{ＩＧＦｓｔａｒｔ}よりも高い。もしＴＴＳが２つ以上のフィルタを用いる場合には、２つのＴＴＳフィルタ間におけるクロスオーバー周波数がＩＧＦ分割周波数とマッチするよう確保されなければならない。そうでなければ、１つのＴＴＳサブフィルタが、ｆ_{ＩＧＦｓｔａｒｔ}を超過して、オーバーシェイピングのように不要なアーティファクトにつながってしまう。

【0113】

図７ａおよび７ｂに示す変形実施形態においては、デコーダにおいてＩＧＦエネルギが正しく調整されるか追加的注意が必要である。特に、ＴＴＳおよびＩＧＦ処理の一環で、異なる予測ゲインを有する異なるＴＴＳフィルタがソース領域に対して平坦化フィルタとして適用され、１つのＩＧＦタイルの対象スペクトル領域に対して当該平坦化フィルタの正確な対面とではない整形フィルタとして適用される場合には、注意が必要である。この場合、二つの適用ＴＴＳフィルタの予測ゲイン比は、もはや等しいものではなく、この比に基づくエネルギ調整が適用されなければならない。

【0114】

別の変形実施形態においては、ＩＧＦ後処理とＴＴＳの順番が反対とされる。デコーダにおいて、これは、ＩＧＦ後処理によるエネルギ調整が、ＴＴＳフィルタリングの後に算出され、よって合成変換前の最終処理工程であることを意味する。したがって、符号化において、異なるＴＴＳフィルタゲインが１つのタイルについて適用されたか否かを問わず、最終エネルギは常に、ＩＧＦ処理によって正しく調整される。

【0115】

デコーダ側においては、ＴＴＳフィルタ係数が全スペクトルに対して再び適用され、つまり再生スペクトルによって拡張されたコアスペクトルに適用される。ＴＴＳの適用は、再生されたスペクトルの時間包絡線を、オリジナル信号の包絡線と再びマッチさせるよう変形するために必要である。したがって、プリエコーが低減される。また、それによって、過去のＴＮＳにはよくあるように、ｆ_{ＩＧＦｓｔａｒｔ}よりも下の信号における量子化ノイズが時間的になお形成される。

【0116】

伝統的な符号器のおいては、オーディオ信号に対するスペクトルパッチング（例：ＳＢＲ）は、パッチ境界におけるスペクトル相関性を害し、それによってオーディオ信号に分散がもたらされ、時間的包絡線が害される。したがって、ＩＧＦタイル充填を残差信号に対して実行する別のメリットとしては、ＴＴＳ整形フィルタの適用後、タイル境界がシームレスに相関され、より信号を忠実に時間的に再現することができる。

【0117】

このように処理された信号の結果が図７ｅに示される。フィルタされないバージョン（図７ｃの右パネル）と比較すると、ＴＴＳフィルタされた信号においては、不要なプリ・ポストエコー（図７ｅの右パネル）がよく低減されている。

【0118】

さらに、上述の通り、図７ａは、図７ｂのデコーダまたは図６ａのデコーダと一致するエンコーダを示す。基本的に、オーディオ信号を符号化する装置は、７０２のようなオーディオ信号をスペクトル表現に変換する時間スペクトル変換器を備える。スペクトル表現は実数スペクトル表現であってもよいし、またはブロック７０２に示すように、複素数スペクトル表現であってもよい。さらに、７０４などの周波数に対して予測を行う予測フィルタが、スペクトル残差値を生成するために設けられる。予測フィルタ７０４は、オーディオ信号から抽出される予測フィルタ情報によって定義され、図７ａに７１４で示す通り、ビットストリーム多重変換装置７１０に転送される。さらに、心理音響により駆動するオーディオエンコーダ７０４のようなオーディオ符号器が設けられる。オーディオ符号器は、スペクトル残差値の第１スペクトル部の第１セットを符号化して、第１スペクトル値の符号化された第１セットを得るよう構成される。さらに、図７ａにおいて７０６で示されるようなパラメトリック符号器が、第２セットの第２スペクトル部を符号化するために設けられる。第１セットの第１スペクトル部は、第２セットの第２スペクトル部と比較して、より高いスペクトル解像度で符号化されることが好ましい。

【0119】

最後に、図７ａに図示される通り、パラメトリック符号化された第２セットの第２スペクトル部、符号化された第１セットの第１スペクトル部、および「ＴＴＳサイド情報」として図７ａにおいて７１４として示されるフィルタ情報、を含む符号化された信号を出力するため、出力インターフェイスが設けられる。

【0120】

予想フィルタ７０４は、スペクトル表現のスペクトル値を使ってフィルタ情報を計算するよう構成されたフィルタ情報計算器を有することが好ましい。さらに、予想フィルタは、フィルタ情報を計算するために用いられるものと同じスペクトル表現のスペクトル値を使って、スペクトル残差値を計算するよう構成されることが好ましい。

【0121】

ＴＴＳフィルタ７０４は、従来のオーディオエンコーダと同様に、ＴＮＳツールをＡＡＣ規格に従って適用するよう構成されることが好ましい。

【0122】

以下、図８ａないし８ｅを参照して、２チャンネル復号処理を用いたさらなる実施形態を説明する。また、図２ａおよび２ｂにおける対応する構成（ジョイントチャンネル符号器２２８およびジョイントチャンネルデコーダ２０４）に関する記載も参照する。

【0123】

図８ａは、復号２チャンネル信号を生成するオーディオデコーダを示す。このオーディオデコーダは、符号化された２チャンネル信号を復号して第１セットの第１スペクトル部を得る４つのオーディオデコーダ８０２と、第２セットの第２スペクトル部のためのパラメトリックデータと、第２スペクトル部について第１か第２の異なる２チャンネル表現のいずれかを識別する２チャンネル識別情報とを提供するパラメトリックデコーダ８０４と、を有する。さらに、周波数再生器８０６が、第１セットの第１スペクトル部と、第２部のためのパラメトリックデータと、第２部のための２チャンネル識別情報とに基づいて、第２スペクトル部を再生するよう設けられる。図８ｂは、ソースレンジおよび目標レンジにおける２チャンネル表現の異なる組合せを示す。ソースレンジが第１の２チャンネル表現にある一方、目標レンジもまた第１の２チャンネル表現にあってもよい。あるいは、ソースレンジが第１の２チャンネル表現にある一方、目標レンジが第２の２チャンネル表現あってもよい。さらに、図８ｂの第２列に示す通り、ソースレンジが第２の２チャンネル表現にある一方、目標レンジが第１の２チャンネル表現にあってもよい。最後に、ソースレンジと目標レンジの両方が、第２の２チャンネル表現にあってもよい。一実施形態においては、第１の２チャンネル表現は、２チャンネル信号の２チャンネルが個別に表現されている別個の２チャンネル表現である。そして、第２の２チャンネル表現は、２チャンネル表現における２つのチャンネルが統合的に表現された統合表現（つまり、対応するスピーカに出力するのに必要なように、別個の２チャンネル表現を再計算するために、さらなる処理または表現変換が必要な表現）である。

【0124】

一実施形態において、第１の２チャンネル表現が左／右（Ｌ／Ｒ）表現である一方、第２の２チャンネル表現が統合ステレオ表現であってもよい。しかしながら、左／右またはＭ／Ｓまたはステレオ予測ではない他の２チャンネル表現が適用されてもよく、本発明において使用されてもよい。

【0125】

図８ｃは、図８ａのオーディオデコーダによって実施される処理のフローチャートである。ステップ８１２において、オーディオデコーダ８０２は、ソースレンジの復号をおこなう。図３ａについて、ソースレンジは、スケールファクタ帯域ＳＣＢ１ないしＳＣＢ３を含む。さらに、各スケールファクタ帯域について２チャンネル識別情報があってもよく、スケールファクタ帯域１が例えば第１表現（例えばＬ／Ｒ）である一方、第３スケールファクタ帯域がＭ／Ｓや予想ダウンミックス／残差のような第２の２チャンネル表現であってもよい。したがって、ステップ８１２に関しては、異なる帯域について異なる表現となることがありえる。そして、ステップ８１４において、周波数再生器８０６は、周波数再生のためにソースレンジを選択するよう構成される。ステップ８１６において、周波数再生器８０６は、ソースレンジの表現をチェックし、ブロック８１８において、周波数再生器８０６は、ソースレンジの２チャンネル表現と目標レンジの２チャンネル表現とを比較する。もし両方の表現が同じであれば、周波数再生器８０６は、２チャンネル信号の各チャンネルについて個別の周波数を再生する。しかしながら、ブロック８１８に示す通り、これらの表現が同じでない場合には、信号フロー８２４が取られ、ブロック８２２がソースレンジからの他方の２チャンネル表現を計算し、この計算した２チャンネル表現を使って目標レンジを再生する。したがって、図８ａのデコーダは、第１の２チャンネル表現となっているソースレンジを使って、第２の２チャンネル識別情報を有していると示される目標レンジを再生することができる。本発明によると、同様の２チャンネル識別情報を有するソースレンジを使って、目標レンジを再生することがおのずと追加的に可能となる。さらに、本発明によると、統合２チャンネル表現を示す２チャンネル識別情報を有する目標レンジを再生することが可能となり、またこの表現を、２チャンネル信号用の対応する拡声器に蓄積または送信するのに必要となる、個別のチャンネル表現に変換することも可能となる。

【0126】

２チャンネル表現の２チャンネルは、左チャンネルや右チャンネルのような二つのステレオチャンネルであってもよいことを強調しておく。しかしながら、信号は、例えば５チャンネルやサブウーファーチャンネル、またはもっと多くのチャンネルを有している多チャンネル信号であってもよい。そして、図８ａないし８ｅを参照して上述した通り、１対の２チャンネルが例えば、左チャンネルと右チャンネルの場合、左サラウンドチャンネルと右サラウンドチャンネルの場合、および中央チャンネルとＬＦＥ（サブウーファー）チャンネルの場合には、対による２チャンネル処理を実施することができる。その他の組合せを使って、例えば３つの２チャンネル処理手順により、６つの入力信号が表現されてもよい。

【0127】

図８ｄは、図８ａに対応する本発明のデコーダのブロック図である。ソースレンジすなわちコアのデコーダ８３０は、オーディオデコーダ８０２に対応する。その他のブロック８３２、８３４、８３６、８３８、８４０、８４２および８４６は、図８ａの周波数再生器８０６の一部である。特に、ブロック８３２は、ブロック８３２の出力において、第１表現におけるソースレンジと第２の２チャンネル表現におけるソースレンジとの完全なセットが存在するよう、ソースレンジ表現を個別の帯域に変換する表現変換器である。これらの２つの完全なソースレンジ表現は、ソースレンジの両方の表現について、蓄積部８３４に記憶することができる。

【0128】

そして、ブロック８３６は、ソースレンジＩＤを入力として使って、さらに対象レンジについて２チャンネルＩＤを入力として使用して、周波数タイル再生処理を適用する。対象レンジについての２チャンネルＩＤに基づいて、周波数タイル生成器は蓄積部８３４にアクセスして、８３５において周波数タイル生成器に入力された対象レンジに係る２チャンネルＩＤにマッチするソースレンジの２チャンネル表現を受信する。そのため、対象レンジについての２チャンネルＩＤが統合ステレオ処理を示すときには、周波数タイル生成器８３６は、蓄積部８３４にアクセスして、ソースレンジＩＤ８３３によって示されるソースレンジの統合ステレオ表現を得る。

【0129】

周波数タイル生成器８３６は、この処理を各対象レンジについて実行する。周波数タイル生成器の出力は、２チャンネル識別情報によって識別されたチャンネル表現における各チャンネルが存在するようになされる。そして、包絡線調整器８３８による包絡線調整が実施される。包絡線調整は、２チャンネル識別により識別された２チャンネル領域において実行される。このため、包絡線調整パラメータが必要となり、これらのパラメータは、上述と同様の２チャンネル表現において、エンコーダからデコーダに送信される。包絡線調整器による処理対象となる対象レンジにおける２チャンネル識別情報が、当該対象レンジについて包絡線データとは異なる２チャンネル表現を示す２チャンネル識別情報を有している場合には、パラメータ変換器８４０が包絡線パラメータの必要な２チャンネル表現に変換する。例えば、ある帯域の２チャンネル識別情報が統合ステレオ符号処理を示し、当該対象レンジのパラメータがＬ／Ｒ包絡線パラメータとして送信された場合には、正しいパラメトリック表現が対象レンジのスペクトル包絡線調整に使用されるよう、パラメータ変換器が上述のＬ／Ｒ包絡線パラメータから統合ステレオ包絡線パラメータを算出する。

【0130】

他の好適な実施形態においては、対象帯域において統合ステレオが用いられている場合、包絡線パラメータが統合ステレオパラメータとして既に送信されている。

【0131】

異なる２チャンネル表現を有する対象レンジのセットが包絡線調整器８３８へ入力されることが想定される場合には、包絡線調整器８３８の出力もまた、異なる２チャンネル表現を有する対象レンジのセットとなる。対象レンジが例えばＭ／Ｓのように統合表現を有する場合には、この対象レンジは、表現変換器８４２によって処理される。表現変換器８４２は、拡声器への蓄積または送信のために必要となる個別表現を算出する。しかしながら、対象レンジが既に個別の表現を有している場合には、信号フロー８４４がとられ、表現変換器８４２が迂回される。ブロック８４２の出力において、個別の２チャンネル表現である２チャンネルスペクトル表現が得られ、これはブロック８４６によって示される通りさらに処理される。このさらなる処理は、例えば周波数／時間変換処理やその他必要な処理であってもよい。

【0132】

第２スペクトル部が周波数帯域に対応することが好ましく、また２チャネル識別情報が、図８ｂの表に対応するフラグ配列（各周波数帯域について１つのフラグが存在するもの。）として提供されることが好ましい。そして、パラメトリックデコーダは、フラグが設定されたか否かをチェックし、フラグに従って、周波数再生器１０６が第１スペクトル部の第１表現または第２表現のいずれかを用いるよう制御する構成である。

【0133】

一実施形態においては、図３ａのＩＧＦ開始周波数３０９から開始する再構築レンジのみが、異なる再構築帯域について２チャンネル識別情報を有する。さらなる実施形態においては、これがＩＧＦ開始周波数３０９よりも下の周波数に適用されてもよい。

【0134】

またさらなる実施形態において、ソース帯域識別情報および対象帯域識別情報は、類似性解析によって最適に決定することができる。しかしながら、ソースレンジと対象レンジに固定の関連性がある場合には、本発明の２チャンネル処理が適用されてもよい。ソースレンジは、高効率のＡＡＣ処理から知られるマルチプルパッチの処理に類似する２以上の周波数タイル充填処理を用いる倍音周波数タイル充填処理またはコピー周波数タイル充填処理のいずれかによって、周波数についてより広い対象レンジを再形成するために使用することができる。

【0135】

図８ｅは、２チャンネルオーディオ信号を符号化するオーディオエンコーダを示す。エンコーダは、２チャンネルオーディオ信号をスペクトル表現に変換する時間スペクトル変換器８６０を有する。さらに、スペクトル解析器８６６は、２チャンネルオーディオチャンネルのオーディオ信号をスペクトル表現へと変換する。さらに、スペクトル解析器８６６は、いずれのスペクトル部が高解像度で符号化されるかを決定するため（つまり、第１スペクトル部の第１セットを見出し、さらに第２スペクトル部の第２セットを見出すため）に、解析をするよう設けられる。

【0136】

さらに、２チャンネル解析器８６４は、第２セットの第２スペクトル部を解析して、第１の２チャンネル表現かまたは第２の２チャンネル表現かを識別する２チャンネル識別情報を決定するよう設けられる。

【0137】

２チャンネル解析器の結果によっては、第２スペクトル表現おける帯域は、第１の２チャンネル表現または第２の２チャンネル表現を用いてパラメータ化され、これがパラメトリックエンコーダ８６８により実行される。コア周波数レンジ（つまり、図３ａにおけるＩＧＦ開始周波数３０９よりも下の周波数帯域）は、コアエンコーダ８７０によって符号化される。ブロック８６８および８７０の結果は、出力インターフェイス８７２に入力される。上述の通り、２チャンネル解析器は、ＩＧＦ開始周波数より上の各帯域かまたは全部の周波数帯域について、２チャンネル識別情報を提供し、この２チャンネル識別情報が出力インターフェイス８７２により出力される符号化された信号８７３に含まれるよう、この２チャンネル識別情報が出力インターフェイス８７２に対して送られる。

【0138】

さらに、オーディオエンコーダが帯域変換器８６２をさらに備えることが好ましい。２チャンネル解析器８６２の決定に基づき、時間スペクトル変換器８６２の出力信号が、２チャンネル解析器、特に２チャンネルＩＤ８３５によって示される表現に変換される。よって、帯域変換器８６２の出力は、各周波数帯域が第１の２チャンネル表現または第２の２チャンネル表現のいずれかにあってもよい周波数帯域のセットである。本発明が全帯域に適用された場合、つまりソースレンジと再構築レンジの両方が帯域変換器によって処理される場合、スペクトル解析器８６０は、この表現を解析する。しかしながら、その代わりに、スペクトル解析器８６０はまた、時間スペクトル変換器の信号出力を、制御線８６１の示すところにより、解析してもよい。したがって、スペクトル解析器８６０は、帯域変換器８６２の出力か、または帯域変換器８６２によって処理される前の時間スペクトル変換器８６０の出力かのいずれに対して、好適な音調解析を適用してもよい。さらに、スペクトル解析器は、所定の対象レンジに最も整合するソースレンジの識別を、帯域変換器８６２または時間スペクトル変換器８６０のいずれかの結果に基づいて行なってもよい。

【0139】

次に、図３ａおよび図３ｂを参照して既に説明したエネルギ情報値の好適な算出を図示する図９ないし９ｄを参照する。

【0140】

現在のオーディオコーダは、様々な技術を適用して、所定のオーディオ信号を表現するデータ量を最小限にしている。ＵＳＡＣ（非特許文献１）のようなオーディオコーデックは、ＭＤＣＴのような時間周波数変換を適用して、所定のオーディオ信号のスペクトル表現を得ている。これらのＭＤＣＴ係数は、人間の聴覚システムの心理音響的側面を活用して、量子化されている。利用可能なビットレートが減少した場合、量子化が粗くなり、ゼロのスペクトル値が大量にもたらされて、デコーダ側において可聴なアーティファクトを生成してしまう。知覚品質を改善するために、従来のデコーダは、これらのゼロスペクトルの部分をランダムノイズにより充填する。ＩＧＦ手法は、残りのゼロではない信号からタイルを採取し、スペクトルにおけるこれらのギャップを充填する。復号オーディオ信号の知覚品質にとって、スペクトル係数のスペクトル包絡線とエネルギ分散とが保存されることが重要である。ここで説明されるエネルギ調整方法においては、送信されたサイド情報を用いて、オーディオ信号のスペクトルＭＤＣＴ包絡線が再構築される。

【0141】

ｅＳＢＲ（非特許文献１５）においては、少なくとも２つのファクタにより、オーディオ信号が低解像度処理され，スペクトルの高周波数部分が完全にゼロ設定とされる（非特許文献１、１７）。この削除された部分は、デコーダ側においてパラメータ技術であるｅＳＢＲにより置き換えられる。ｅＳＢＲは、追加的変換として、ＱＭＦ変換（空の高周波数部分を置換してオーディオ信号を再サンプルするために利用される変換）の使用を示唆する（非特許文献１７）。これによって、オーディオコーダにおいては、計算がより複雑となり、またメモリ消費が増えてしまう。

【0142】

ＵＳＡＣ符号器（非特許文献１５）は、スペクトルホール（ゼロのスペクトル線）をランダムノイズにより充填する可能性を提供するが、ランダムノイズは過渡信号の時間的微細構造を保全することはできず、また、音調信号の倍音構造を保存することもできないという欠点がある。

【0143】

デコーダ側においてｅＳＢＲが動作するエリアは、エンコーダにより完全に削除された（非特許文献１）。したがって、ｅＳＢＲは、高周波数領域における音調線を削除し、オリジナル信号の倍音構造を歪ませがちである。ｅＳＢＲのＱＭＦ周波数解像度はかなり低く、正弦波成分の再挿入は基礎となるフィルタバンクの解像度が粗い場合にのみ可能なので、再生周波数レンジにおけるｅＳＢＲによる音調成分の再生は、その精度が非常に低いものとする。

【0144】

ｅＳＢＲは、パッチされたエリアのエネルギを調整する技術の、スペクトル包絡線調整（非特許文献１）を用いる。この技術は、ＱＭＦ周波数時間グリッド上の送信済エネルギ値を使って、スペクトル包絡線を再整形する。この従来技術は、部分的に削除されたスペクトルを取り扱わず、また高時間解像度のため、適切なエネルギ値を送信するのに相当量のビットを必要とするか、またはこのエネルギ値に粗い量子化を適用するかのいずれかになりがちである。

【0145】

ＩＧＦの手法は、非特許文献１５に記載されるように算出される伝統的なＭＤＣＴ変換を用いるため、追加的変換を要しない。

【0146】

ここで説明されるエネルギ調整方法は、エンコーダにより生成されたサイド情報を用いて、オーディオ信号のスペクトル包絡線を再構築する。サイド情報は、以下に概略を示すようにしてエンコーダにより生成される：
ａ）窓化されたＭＤＣＴ変換を入力オーディオ信号に対して適用し（非特許文献１６、セクション４．６）、選択的に窓化されたＭＤＳＴを算出するか、または窓化されたＭＤＳＴを、算出されたＭＤＣＴから予測し、
ｂ）ＴＮＳ／ＴＴＳをＭＤＣＴ係数に適用し（非特許文献１５、セクション７．８）、
ｃ）ＩＧＦ開始周波数ｆ_{ＩＧＦｓｔａｒｔ}より上でかつＩＧＦ停止周波数ｆ_{ＩＧＦｓｔｏｐ}までの各ＭＤＣＴスケールファクタ帯域について、平均エネルギを算出し、
ｄ）平均エネルギ値を量子化する。
ｆ_{ＩＧＦｓｔａｒｔ}およびｆ_{ＩＧＦｓｔｏｐ}は、ユーザの設定するパラメータである。

【0147】

ステップｃ）およびｄ）で算出された値は、サイド情報として損失なく符号化され、ビットストリームとともにデコーダに送信される。

【0148】

デコーダは、送信された値を受信し、これらを用いてスペクトル包絡線を調整する：
ａ）送信されたＭＤＣＴ値を逆量子化し、
ｂ）信号化される場合には伝統的なＵＳＡＣノイズ充填処理を適用し、
ｃ）ＩＧＦタイル充填処理を適用し、
ｄ）送信されたエネルギ値を逆量子化し、
ｅ）帯域側でスペクトル包絡線スケールファクタを調整し、
ｆ）信号化される場合には、ＴＮＳ／ＴＴＳを適用する。

【0149】

【数1】

を、窓長２Ｎの窓化されたオーディオ信号の、ＭＤＣＴ変換された実数スペクトル表現とする。この変換は、非特許文献１６に記載されている。エンコーダは、このｘ＾に対して選択的にＴＮＳを適用する。

【0150】

非特許文献１６、４．６．２において、スケールファクタ帯域におけるｘ＾の区画が記載されている。スケールファクタ帯域はインデックスのセットであり、ｓｃｂと示されている。

【0151】

ｋ＝０，１，２，…ｍａｘ＿ｓｆｂの各ｓｃｂ_ｋの限界は、配列ｓｗｂ＿ｏｆｆｓｅｔによって定義され（非特許文献１６、４．６．２）、そこでは、ｓｗｂ＿ｏｆｆｓｅｔ［ｋ］とｓｗｂ＿ｏｆｆｓｅｔ［ｋ＋１］−１とが、ｓｃｂｋに含まれる最低および最高スペクトル係数線について、第１および最後のインデックスを定義している。ここで、スケールファクタ帯域を次のように表現する。
ｓｃｂ_ｋ：＝｛ｓｗｂ＿ｏｆｆｓｅｔ［ｋ］，１＋ｓｗｂ＿ｏｆｆｓｅｔ［ｋ］，２＋ｓｗｂ＿ｏｆｆｓｅｔ［ｋ］，…，ｓｗｂ＿ｏｆｆｓｅｔ［ｋ＋１］−１｝

【0152】

もしエンコーダがＩＧＦツールを使用する場合には、ユーザがＩＧＦ開始周波数およびＩＧＦ停止周波数を定義する。これらの二つの値は、最もフィットするスケールファクタ帯域インデックスｉｇｆＳｔａｒｔＳｆｂおよびｉｇｆＳｔｏｐＳｆｂに対してマップされる。両方とも、ビットストリームにてデコーダへと信号伝達される。

【0153】

非特許文献１６には、長ブロックおよび短ブロック変換の両方が記載される。長ブロックについては、スペクトル係数の１セットのみが、スケールファクタの１セットとともにデコーダに送信される。短ブロックについては、異なる８つのスペクトル係数セットを有する８つの短窓が計算される。ビットレートを節約するために、これら８つの短ブロック窓のスケールファクタは、エンコーダによってグループ分けされる。

【0154】

ＩＧＦの場合、個々で説明される方法は、デコーダに送信されるスペクトル値をグループ分けするために、過去のスケールファクタ帯域

【数2】

を用いる。ここで、
ｋ＝ｉｇｆＳｔａｒｔＳｆｂ，１＋ｉｇｆＳｔａｒｔＳｆｂ，２＋ｉｇｆＳｔａｒｔＳｆｂ，…ｉｇｆＥｎｄＳｆｂ
である。量子化については、以下が計算される。

【数3】

全ての値Ｅ＾_ｋが、デコーダに送信される。

【0155】

ここで、エンコーダが、ｎｕｍ＿ｗｉｎｄｏｗ＿ｇｒｏｕｐスケールファクタセットをグループ分けすることを決定するものとする。８つの短窓のインデックスとしての集合｛０，１，２，．．，７｝におけるこのグループ区画を、ｗにより表現する。ｗ_ｌは、ｗにおけるｌ番目の部分集合を意味し、ｌは、窓グループのインデックス０≦ｌ≦ｎｕｍ＿ｗｉｎｄｏｗ＿ｇｒｏｕｐを意味する。

【0156】

短ブロック計算においては、ユーザが定義したＩＧＦ開始／停止周波数を、適切なスケールファクタ帯域にマップする。しかしながら、簡略化のため、短ブロックについても、ｋ＝ｉｇｆＳｔａｒｔＳｆｂ，１＋ｉｇｆＳｔａｒｔＳｆｂ，２＋ｉｇｆＳｔａｒｔＳｆｂ，…ｉｇｆＥｎｄＳｆｂと表現する。

【0157】

ＩＧＦエネルギ算出においては、グループ化情報を用いて、値Ｅ_ｋ，ｌをグループ分けする。

【数4】

量子化については、

【数5】

を計算する。全ての値Ｅ＾_ｋ，ｌが、デコーダに送信される。

【0158】

上述の符号化式は、実数ＭＤＣＴ係数ｘ＾のみを用いて動作する。ＩＧＦレンジにおいてより安定的なエネルギ分布を得るには、つまり時間的振幅のばらつきを低減させるには、代替的手法を用いて値Ｅ＾ｋを計算することができる。

【0159】

ｘ＾_ｒ

【数6】

を、窓長２Ｎの窓化されたオーディオ信号のＭＤＣＴ変換された実数スペクトル表現とし、ｘ＾_ｉ

【数7】

を、オーディオ信号の同じ部分のＭＤＳＴ変換実数スペクトル表現とする。ＭＤＳＴスペクトル表現ｘ＾_ｉは、ｘ＾_ｒから算出されるか、または予測されるかの、いずれであってもよい。

【数8】

は、実数部分としてｘ＾_ｒを有し、虚数部分としてｘ＾_ｉを有する窓化されたオーディオ信号の複素スペクトル表現を意味する。エンコーダは、ｘ＾_ｒおよびｘ＾_ｉに対してＴＮＳを選択的に適用する。

【0160】

ここで、ＩＧＦレンジにおけるオリジナル信号のエネルギは、以下をもって計ることができる。

【数9】

再構築帯域の実数および複素数エネルギ、つまりＩＧＦレンジｓｃｂｋの再構築においてデコーダ側で用いるべきタイルは、以下にしたがって算出される。

【数10】

ここで、ｔｒ_ｋは、ｓｃｂ_ｋに依拠する、関連ソースタイルレンジのインデックスセットである。上記２つの式において、インデックス集合ｓｃｂ_ｋの代わりに集合

【数11】

（「ｓｃｂ_ｋ⁻」とも表す。後で定義する）を使用して、ｔｒ_ｋを生成してより正確なＥ_ｔおよびＥ_ｒを達成することもできる。Ｅｔｋ＞０であれば、

【数12】

を算出し、それ以外は、ｆ_ｋ＝０とする。

【0161】

【数13】

を用いて、安定的な値Ｅ_ｋが計算される。その理由は、Ｅ_ｋをＭＤＣＴ値のみを用いて計算することは、ＭＤＣＴ値がパーセバルの定理に従わないという事実の障害があり、したがってＭＤＣＴ値は、スペクトル値の完全なエネルギ情報を反映していないためである。Ｅ＾_ｋは、上述の通り算出される。

【0162】

上述の通り、短ブロックについては、スケールファクタセットｎｕｍ＿ｗｉｎｄｏｗｓ＿ｇｒｏｕｐをグループ分けする決定は、エンコーダが行うものと想定する。上述の通り、ｗ_ｌは、ｗにおけるｌ番目の部分集合を意味し、ｌは、窓グループのインデックス０≦ｌ≦ｎｕｍ＿ｗｉｎｄｏｗ＿ｇｒｏｕｐを意味する。

【0163】

繰り返しになるが、より安定的なＥ_ｋ，ｌを算出する上述の代替バージョンを計算する。ここで、数８に示すｃ＾の定義を用いる。ｘ＾_ｒは、ＭＤＣＴ変換され窓化された長さ２Ｎのオーディオ信号、ｘ＾_ｉは、ＭＤＳＴ変換された窓化された長さ２Ｎのオーディオ信号である。この計算は、

【数14】

となる。

【0164】

同様に、

【数15】

を計算し、ファクタｆ_ｋ，ｌを、

【数16】

とし、これを用いて、前回算出されたＥ_ｒｋ，ｌを調節する。

【数17】

Ｅ＾_ｋ，ｌが、上述の通り算出される。

【0165】

複素再構築帯域またはＭＤＣＴ値のいずれかから抽出した再構築帯域のエネルギのみならず、ソースレンジからのエネルギ情報も使用する手順によって、エネルギ再構築が改善される。

【0166】

特に、パラメータ算出器１００６は、再構築帯域のエネルギに関する情報、および再構築帯域を再構築するのに使用されるソースレンジのエネルギに関する情報を使って、再構築帯域のためのエネルギ情報を算出するよう構成される。

【0167】

また、パラメータ算出器１００６は、オリジナル信号の複素スペクトルの再構築帯域に関するエネルギ情報（Ｅ_ｏｋ）を算出し、また再構築帯域の再構築に使用されるオリジナル信号の複素スペクトルの実数部分のソースレンジに関するさらなるエネルギ情報（Ｅ_ｒｋ）を算出するよう構成される。そして、パラメータ算出器は、エネルギ情報（Ｅ_ｏｋ）とさらなるエネルギ情報（Ｅ_ｒｋ）とを使って、再構築帯域についてエネルギ情報を算出するよう構成される。

【0168】

さらに、パラメータ算出器１００６は、オリジナル信号の複素スペクトルの再構築対象スケールファクタ帯域に関する第１エネルギ情報（Ｅ_ｏｋ）を決定し、再構築対象スケールファクタ帯域を再構築するのに使用されるオリジナル信号の複素スペクトルのソースレンジに関する第２エネルギ情報（Ｅ_ｔｋ）を決定し、再構築対象スケールファクタ帯域を再構築するのに使用されるオリジナル信号の複素スペクトルの実数部分のソースレンジに関する第３エネルギ（Ｅ_ｒｋ）を決定し、第１エネルギ情報、第２エネルギ情報および第３エネルギ情報の少なくとも２つにおける関係に基づき重み付け情報を決定し、この重み付け情報を使って第１エネルギ情報と第３エネルギ情報の１つに重みを付けて重み付けエネルギ情報を入手し、この重み付けエネルギ情報を当該再構築帯域のエネルギ情報として使用するよう構成される。

【0169】

計算の例を以下に示すが、上述の一般原則を参照すると、当業者にとっては、その他の多くも明らかであろう。
Ａ）
ｆ＿ｋ＝Ｅ＿ｏｋ／Ｅ＿ｔｋ；
Ｅ＿ｋ＝ｓｑｒｔ（ｆ＿ｋ＊Ｅ＿ｒｋ）；
Ｂ）
ｆ＿ｋ＝Ｅ＿ｔｋ／Ｅ＿ｏｋ；
Ｅ＿ｋ＝ｓｑｒｔ（（１／ｆ＿ｋ）＊Ｅ＿ｒｋ）；
Ｃ）
ｆ＿ｋ＝Ｅ＿ｒｋ／Ｅ＿ｔｋ；
Ｅ＿ｋ＝ｓｑｒｔ（ｆ＿ｋ＊Ｅ＿ｏｋ）
Ｄ）
ｆ＿ｋ＝Ｅ＿ｔｋ／Ｅ＿ｒｋ；
Ｅ＿ｋ＝ｓｑｒｔ（（１／ｆ＿ｋ）＊Ｅ＿ｏｋ）

【0170】

これら全ての例では、実数のＭＤＣＴ値のみがデコーダ側で処理されるが、実際の計算は、オーバーラップおよび追加に伴い、複素数を使って黙示的に実行される時間領域エイリアジングキャンセル手順により実施されるという事実に基づくものである。しかしながら、再構築帯域９２０のさらなるスペクトル部９２２、９２３のタイルエネルギ情報の決定処理９１８は、再構築帯域９２０において周波数を有する第１フペクトル部９２１とは異なる周波数値のために、実数のＭＤＣＴ値に依拠している。したがって、一般的に、デコーダに送信されるエネルギ情報は、オリジナル信号の複素スペクトルの再構築帯域に関するエネルギ情報Ｅ_ｏｋよりも小さくなる。例えば、上記Ｃの事例については、これは、ファクタｆ＿ｋ（重み付け情報）が１より小さいことを意味する。

【0171】

デコーダ側においては、もしＩＧＦツールがＯＮとして信号化された場合、送信された値Ｅ＾_ｋはビットストリームから入手され、ｋ＝ｉｇｆＳｔａｒｔＳｆｂ，１＋ｉｇｆＳｔａｒｔＳｆｂ，２＋ｉｇｆＳｔａｒｔＳｆｂ，…ｉｇｆＥｎｄＳｆｂなるすべてのｋに対して、

【数18】

に従って逆量子化される。

【0172】

デコーダは、送信ＭＤＣＴ値をｘ∈Ｒ^Ｎに逆量子化し、残りの残存エネルギ

【数19】

を算出する。ここで、ｋは、上述の定義のレンジ内にある。

【0173】

ここでは、

【数20】

とする。この集合には、スケールファクタ帯域ｓｃｂ_ｋの全インデックスが含まれ、エンコーダによってゼロに量子化される。

【0174】

ＩＧＦサブバンド入手手法（ここでは説明しない）を使って、送信されたＭＤＣＴの非ゼロ値を使うことにより、ＭＤＣＴスペクトル値の粗い量子化からエンコーダ側において生じるスペクトルギャップを充填する。ｘには、これまでの全てのゼロ値を置換する値が追加的に含まれている。このタイルエネルギは、

【数21】

によって算出される。ここで、ｋは、上述の定義のレンジ内にある。

【0175】

再構築帯域において欠落するエネルギは、
ｍＥ_ｋ：＝│ｓｃｂ_ｋ│Ｅ_ｋ^２−ｓＥ_ｋ
によって算出される。調整のためのゲインファクタは、

【数22】

によって得られる。
ｇ’＝ｍｉｎ（ｇ，１０）
を用い、スペクトル包絡線調整は、上述で定義されたレンジにおける全てのｉ∈ｓｃｂ_ｋ⁻とｋに対して、
ｘ_ｊ：＝ｇ’ｘ_ｉ
となる。これは、ｘのスペクトル包絡線を、オリジナルスペクトル包絡線ｘ＾の形状に再整形する。

【0176】

短窓シーケンスを用いる場合、上述の全ての計算は原則的に同じであるが、スケールファクタ帯域のグループ分けを考慮する必要がある。Ｅ_ｋ，ｌは、ビットストリームから得られた、逆量子化されグループ分けされたエネルギ値を示す。

【数23】

および

【数24】

を計算する。インデックスｊは、短ブロックシーケンスの窓インデックスを示す。

【0177】

ｍＥ_ｋ，ｌ：＝│ｓｃｂ_ｋ│Ｅ_ｋ，ｌ^２−ｓＥ_ｋ，ｌ
と、

【数25】

を計算し、
ｇ’＝ｍｉｎ（ｇ，１０）
を用い、ｉ∈ｓｃｂ_ｋ⁻に対して、
ｘ_ｊ：＝ｇ’ｘ_ｉ
を適用する。

【0178】

低ビットレート応用では、Ｅ_ｋの対グループ分けが、それほど大きな精度の低下を引き起こすことなく可能である。この方法は、長ブロックでのみ適用され、

【数26】

となる。ここで、ｋ＝ｉｇｆＳｔａｒｔＳｆｂ，１＋ｉｇｆＳｔａｒｔＳｆｂ，２＋ｉｇｆＳｔａｒｔＳｆｂ，…ｉｇｆＥｎｄＳｆｂである。繰り返しになるが、量子化の後、全ての値Ｅ_ｋ＞＞１がデコーダに送信される。

【0179】

図９ａは、符号化オーディオ信号を復号する装置を示す。このオーディオ信号は、第１セットの第１スペクトル部の符号化表現、および第２セットの第２スペクトル部についてのスペクトルエネルギを示すパラメトリックデータの符号化表現を含んでいる。第１セットの第１スペクトル部は、図９ａにおいて９０１ａで示され、パラメトリックデータの符号化表現は、図９ａの９０１ｂで示される。オーディオデコーダ９００は、第１セットの第１スペクトル部の符号化表現９０１ａを復号して、復号化された第１セットの第１スペクトル部９０４を得るよう設けられる。また、オーディオデコーダ９００は、パラメトリックデータの符号化表現を復号して、個別の再構築帯域について個別のエネルギを示す第２セットの第２スペクトル部についての復号パラメトリックデータ９０２を得る。ここで、第２スペクトル部は、再構築帯域内に存在している。さらに、周波数再生器９０６は、第２スペクトル部を有する再構築帯域のスペクトル値を再構築するために設けられる。さらに、周波数再生器９０６は、第１セットの第１スペクトル部に含まれる第１スペクトル部と、再構築帯域に係る個別のエネルギ情報を用いる。ここで、再構築帯域には、第１スペクトル部と第２スペクトル部が含まれる。周波数再生器９０６は、残存エネルギ情報を決定する算出器９１２を有する。この残存エネルギ情報には、再構築帯域内に周波数を有する第１スペクトル部の累積エネルギが含まれる。さらに、周波数再生器９０６は、再構築帯域のさらなるスペクトル部のタイルエネルギ情報を決定し、第１スペクトル部とは異なる周波数値のための計算器９１８を有する。これらの周波数値は、再構築帯域に周波数を有するものであり、さらなるスペクトル部は、再構築帯域の第１スペクトル部とは異なる第１スペクトル部を用いて、周波数再構築により生成されるものである。

【0180】

周波数再生器９０６は、再構築帯域における欠落エネルギのための計算器９１４をさらに有する。この計算器９１４は、再構築帯域についての個別エネルギおよびブロック９１２により生成された残存エネルギを用いて動作する。さらに、周波数再生器９０６は、欠落エネルギ情報、およびブロック９１８により生成されたタイルエネルギ情報に基づき、再構築帯域におけるさらなるスペクトル部を調整するスペクトル包絡線調整器９１６を有する。

【0181】

再構築帯域９２０の一例を示す図９ｃを参照する。再構築帯域は、図３ａにおける第１スペクトル部３０６などの再構築帯域における第１スペクトル部を有し、これは９２１としてその概略が示される。さらに、再構築帯域９２０における残りのスペクトル値は、例えば、図３ａのインテリジェントギャップ充填開始周波数３０９より下のスケールファクタ帯域１、２、３からのソース領域を用いて生成されることとなる。周波数生成器９０６は、第２スペクトル部９２２および９２３のための生スペクトル値を生成するよう構成される。そして、図９ｃに示される通り、周波数帯域９２２および９２３におけるスペクトル値を最終的に調整するために、そして再構築帯域９２０における再構築および調整第２スペクトル部を得るために、ゲインファクタｇが計算される。これらの第２スペクトル部は、第１スペクトル部９２１と同じスペクトル解像度、つまり同じ線距離を有している。図９ｃにおいて９２１で示される再構築帯域における第１スペクトル部は、オーディオデコーダ９００によって復号され、図９ｂのブロック９１６の実施する包絡線調整によっては影響を受けないことを理解することが重要である。その代わり、９２１で示される再構築帯域における第１スペクトル部は、線９０４を介して、全帯域または全レートのオーディオデコーダ９００により出力されるため、そのままに放置される。

【0182】

以下において、実数を用いた一例について説明する。ブロック９１２により算出された残りの残存エネルギは、例えば５エネルギ単位だとする。このエネルギは、第１スペクトル部９２１において例示的に示された４つのスペクトル線のエネルギである。

【0183】

さらに、図３ｂまたは図３ａのスケールファクタ帯域６に対応する再構築帯域に係るエネルギ数Ｅ３は、１０単位に等しい。重要なこととしては、エネルギ値には、スペクトル部９２２および９２３のエネルギのみならず、エンコーダ側で算出された再構築帯域９２０の全エネルギ（つまり、例えば、音調マスクを用いてスペクトル解析を実行する前のもの）も含まれる。したがって、１０エネルギ単位は、再構築帯域における第１および第２スペクトル部を対象とする。そして、ブロック９２２、９２３のソースレンジデータのエネルギまたはブロック９２２、９２３用の生の対象レンジデータのエネルギは、８エネルギ単位であるという前提とする。よって、５単位の欠落エネルギが計算される。

【0184】

タイルエネルギｔＥｋにより分割された欠落エネルギに基づき、０．７９のゲインファクタが計算される。そして、第２フペクトル部９２２、９２３の生のスペクトルラインに対して、算出されたゲインファクタを乗じる。よって、第２スペクトル部９２２、９２３のスペクトル値のみが調整され、第１スペクトル部９２１のスペクトル線は、この包絡線調整によって影響を受けない。第２スペクトル部９２２、９２３について生のスペクトル値を乗じた後、完全なる再構築帯域が計算される。これは、再構築帯域における第１スペクトル部から構成され、再構築帯域９２０における第２スペクトル部９２２、９２３のスペクトル線から構成される。

【0185】

帯域９２２、９２３の生のスペクトルデータを生成するためのソースレンジは、周波数について、ＩＧＦ開始周波数３０９より下であり、再構築帯域９２０はＩＧＦ開始周波数３０９よりも上であることが好ましい。

【0186】

さらに、再構築帯域境界がスケールファクタ帯域境界と一致することが好ましい。よって、一実施形態において、再構築帯域は、コアオーディオデコーダの対応スケールファクタ帯域の大きさを有するか、またはエネルギペアリングが適用されたとき、再構築帯域のエネルギ値が整数２以上のスケールファクタ帯域のエネルギを提供する大きさを有する。したがって、スケールファクタ帯域４、スケールファクタ帯域５およびスケールファクタ帯域６についてエネルギ蓄積が実施されるとの前提の場合には、再構築帯域９２０の低周波数境界は、スケールファクタ帯域４の下限境界と等しくなり、再構築帯域９２０の高周波数境界は、スケールファクタ帯域６の上限境界と一致する。

【0187】

以下において、図９ａのデコーダのさらなる機能を示すために、図９ｄについて説明する。オーディオデコーダ９００は、第１セットのスペクトル部の第１スペクトル部に対応する逆量子化スペクトル値を受信する。そして、図３ｂに示すようなスケールファクタ帯域のためのスケールファクタが、追加的に逆スケールブロック９４０に提供される。逆スケールブロック９４０は、図３ａのＩＧＦ開始周波数３０９より下の全ての第１セットの第１スペクトル部を提供し、さらにＩＧＦ開始周波数より上の第１スペクトル部（つまり、図３ａの第１スペクトル部３０４、３０５、３０６、３０７であり、これらは全て図９ｄの９４１に示す通り、再構築帯域内に位置している）を提供する。さらに、再構築帯域における周波数タイル充填に用いられるソース帯域の第１スペクトル部は、包絡線調整器／計算器９４２に提供され、このブロックは、図９ｄにおいて９４３で示す通り、符号化されたオーディオ信号に対してパラメータサイド情報として提供された再構築帯域のエネルギ情報を追加的に受信する。そして、包絡線調整器／計算器９４２は、図９ｂおよび９ｃの機能を提供し、再構築帯域における第２スペクトル部のために、調整されたスペクトル値を最終的に出力する。再構築帯域における第２スペクトル部に係るこれらの調整スペクトル値９２２、９２３、並びに図９ｄにおいて線９４１により示される再構築帯域の第１スペクトル部９２１は、統合すると、再構築帯域の全スペクトル表現をなしている。

【0188】

以下において、符号化されたオーディオ信号を提供または生成するために、オーディオ信号を符号化するオーディオエンコーダの好適実施形態を説明する図１０ａおよび１０ｂを参照する。このエンコーダは、スペクトル解析器１００４に供給する時間／スペクトル変換器１００２を有し、このスペクトル解析器１００４は、パラメータ計算器１００６に接続する一方、オーディオエンコーダ１００８にも他方で接続する。オーディオエンコーダ１００８は、第１セットの第１スペクトル部の符号化表現を提供し、第２セットの第２スペクトル部を対象としない。一方で、パラメータ計算器１００６は、第１および第２スペクトル部を対象とする再構築帯域のエネルギ情報を提供する。さらに、オーディオエンコーダ１００８は、第１スペクトル解像度を有する第１フペクトル部の第１セットの第１符号化表現を生成するよう構成される。ここで、オーディオエンコーダ１００８は、ブロック１００２によって生成されるスペクトル表現の全ての帯域に係るスケールファクタを提供する。これに加えて、図３ｂに示す通り、エンコーダは、図３ａに示すＩＧＦ開始周波数３０９よりも上の周波数に位置する再構築帯域については少なくとも、エネルギ情報を提供する。したがって、再構築帯域がスケールファクタ帯域またはスケールファクタ帯域群と好適に一致しているので、オーディオエンコーダ１００８からの対応スケールファクタと、パラメータ計算器１００６によって出力されるエネルギ情報という２つの値が与えられる。

【0189】

オーディオエンコーダは、異なる周波数帯域幅を有する（つまり異なる数のスペクトル値を有する）スケールファクタ帯域を有することが好ましい。したがって、パラメータ計算器は、特定の再構築帯域の帯域幅について、異なる帯域幅のためのエネルギを正規化する正規化器１０１２を有する。このため、正規化器１０１２は、入力として、帯域におけるエネルギと、帯域におけるいくつものスペクトル値を受信し、再構築／スケールファクタ帯域毎に正規化されたエネルギを出力する。

【0190】

さらに、図１０ａのパラメータ計算器１００６ａは、図１０ａにおける線１００７により示されるコアまたはオーディオエンコーダ１００８から制御情報を受信するエネルギ値計算器を有する。この制御信号には、オーディオエンコーダによって使用される長／短ブロックに関する情報、および／またはグループ化情報が含まれる場合がある。したがって、長／短ブロックに関する情報および短窓に関するグループ化情報が「時間」グループ分けに関するものである一方、グループ化情報はまた、スペクトルグループ分け（つまり、２つのスケールファクタ帯域を単一の再構築帯域にグルース分けすること）に言及してもよい。よって、エネルギ値計算器１０１４は、スペクトル部のみがグループ分けされているとき、第１予備第２スペクトル部を対象とするグループ分けされた各帯域について、単一のエネルギ値を出力する。

【0191】

図１０ｄは、スペクトルグループ分けを実施するためのさらなる実施形態を示す。このため、ブロック１０１６は、２つの近接帯域のエネルギ値を計算するよう構成される。そして、ブロック１０１８において、近接する帯域のエネルギ値を比較し、エネルギ値がそれほど異ならない場合、または例えば、閾値で規定したほど異ならない場合には、ブロック１０２０に示すように、両方の帯域について、単一の（正規化された）値が生成される。線１０１９に示す通り、ブロック１０１８を迂回してもよい。さらに、ブロック１０２０により実行される２つ以上の帯域に係る単一値の生成は、エンコーダビットレート制御１０２４により制御されてもよい。このため、ビットレートを低減する必要がある場合には、ブロック１０１８における比較において、エネルギ情報値のグループ分けが許されない場合であったとしても、符号化されたビットレート制御処理１０２４により、ブロック１０２０を制御して、２つ以上の帯域について単一の正規化値を生成させる。

【0192】

オーディオエンコーダが２つ以上の短窓のグループ分けを行っているときには、このグループ分けがエネルギ情報についても適用される。コアエンコーダが２つ以上の短ブロックのグループ分けを行うときには、これら２つ以上のブロックについて、スケールファクトの単一セットのみを計算し送出する。デコーダ側においては、オーディオデコーダは、スケールファクタの同じセットを両方のグループ分けされた窓に適用する。

【0193】

エネルギ情報計算に関して、再構築帯域におけるスペクトル値が２つ以上の短窓に対して蓄積される。つまり、短ブロックおよび後続の短ブロックについての所定の再構築帯域におけるスペクトル値は一緒に蓄積され、２つの短ブロックを対象とするこの再構築帯域については、単一のエネルギ情報値しか送信されないことを意味する。そして、デコーダ側においては、図９ａないし９ｄに関して説明された包絡線調整は、各短ブロックについて個別には実施されず、グループ分けされた短窓のセットについて一緒に実施される。

【0194】

周波数におけるグループ分けまたは時間におけるグループ分けが実施された場合であっても、正規化によって、デコーダ側のエネルギ値情報計算について、一方のエネルギ情報値と再構築帯域またはグループ分けされた再構築帯域のセットにおけるスペクトルライン量のみが簡単に知られるよう、対応する正規化が再び実施される。

【0195】

従来のＢＷＥスキームにおいては、いわゆる所定のクロスオーバー周波数より上のＨＦスペクトル領域は、スペクトルパッチングに基づき再構築されることが多い。一般的に、ＨＦ領域は、複数の近接パッチから構成され、これらの各パッチは、所定のクロスオーバー周波数よりも下のＬＦスペクトルのバンドパス（ＢＰ）から供給される。信号のフィルタバンク表現内において、このようなシステムは、近接するサブバンド係数のセットをＬＦスペクトルから対象領域にコピーする。一般的に、この選択されたセットの境界は、システムに依存するものであり、信号に依存するものではない。ある信号コンテンツについて、この静的パッチ選択が再構築信号の不快な音質や色合いにつながってしまう場合がある。

【0196】

その他のアプローチにおいては、信号適応単側波帯（ＳＳＢ）変調により、ＬＦ信号がＨＦへと変換される。そのようなアプローチは、時間領域サンプルにおいて高いサンプリングレートで動作するため、（非特許文献１）に比べて計算の複雑さは大きい。また、パッチングは、特に非音調信号（例：無声音声）の場合には、不安定になる可能性がある。よって、従来の信号適応パッチングは、信号を害する恐れがあった。

【0197】

本発明によるアプローチは、インテリジェントギャップ充填（ＩＧＦ）と称され、その好適実施形態においては、時間周波数変換（例：修正離散コサイン変換（ＭＤＣＴ））に基づくＢＷＥシステムにおいて適用される。それにも拘わらず、本発明の教示は、例えば直交ミラーフィルタバンク（ＱＭＦ）系のシステム内においても同様に、広く適用できる。

【0198】

ＭＤＣＴに基づくＩＧＦ構成の利点としては、ＭＤＣＴベースのオーディオコーダ（例：ＭＰＥＧアドバンストオーディオコーディング（ＡＡＣ））におけるシームレスな統合ができる点である。波形オーディオ符号化およびＢＷＥについて同じ変換を共有することで、オーディオコーデックの全体的な計算上の複雑性が、大幅に除去される。

【0199】

さらに、本発明によると、従来の適応パッチングスキームに内在する安定性の問題についての解決手段が提供される。

【0200】

提案に係るシステムは、ある信号についての制御不能なパッチ選択により、音質変化や信号着色が誘発され得るという知見に基づくものである。もし信号がスペクトルソース領域（ＳＳＲ）における音調ではあるが、スペクトル対象領域（ＳＴＲ）ではノイズに等しい場合には、ノイズのようなＳＴＲを音調ＳＳＲによりパッチングすることで、不自然な音質となってしまう恐れがある。信号の音調構造は、パッチング過程で不整列とされたり、さらには破壊されたりするため、信号の音質もまた変化し得る。

【0201】

提案に係るＩＧＦシステムは、特定のＳＳＲと特定のＳＴＲ間の類似性基準として、クロス相関性を用いて、インテリジェントタイル選択を実施する。２つの信号のクロス相関性によって、これらの信号の類似性に関する基準、および最大限の相関とそのサインの遅れに関する基準が提供される。したがって、相関性ベースのタイル選択のアプローチは、コピーされたスペクトルのスペクトルオフセットを正確に音調して、スペクトルがオリジナルスペクトルの構造に可能な限り近似するよう用いることができる。

【0202】

提案システムの基本的な貢献としては、適切な類似性基準の選択肢、およびタイル選択プロセスの安定化技術が挙げられる。提案技術は、瞬間信号適応性と時間的安定性との間の最適なバランスを同時に提供する。時間的安定性を提供することは、ＳＳＲおよびＳＴＲとはほとんど類似性を有しないため、低クロス相関性値を呈する信号にとっては特に重要であり、また採用される類似性基準が曖昧な場合にも重要である。このような場合、安定化によって、適応タイル選択の疑似ランダム挙動が防止される。

【0203】

例えば、従来のＢＷＥにおいてよく問題を生じる信号区分は、図１２ａ（左）に示される通り、エネルギを任意のスペクトル領域に明確に注力させていることがその特徴としてあげられる。対象領域におけるスペクトル包絡線および再構築スペクトルの音調を調整する方法はあるものの、一部の信号については、図１２ａ（右）に示す通り、これらの方法は音質を保全できない。図１２ａに示す例において、オリジナル信号の対象領域における、いわゆるクロスオーバー周波数ｆ_{ｘｏｖｅｒ}スペクトル（図１２ａ、左）よりも上のスペクトル振幅は、ほぼ直線的に減少する。一方で、再構築スペクトル（図１２ａ、右）においては、音質色彩アーティファクトとして知覚される沈下とピークとの明確なセットが存在する。

【0204】

新たなアプローチの重要なステップとしては、セットとなったタイルの中から類似性に基づく後続の選択がなされるよう、当該タイルのセットを定義することが上げられる。まず、ソース領域および対象領域のタイル境界を、それぞれに従って定義する必要がある。そのため、コア符号器のＩＧＦ開始周波数ｆ_{ＩＧＦｓｔａｒｔ}と可能な限りの高周波数ｆ_{ＩＧＦｓｔｏｐ}との間における対象領域を、任意の整数のタイルに分割し、これらのそれぞれが個別のあらかじめ設定された大きさを有する。そして、ターゲットタイルｔａｒ［ｉｄｘ＿ｔａｒ］のそれぞれについて、同サイズのソースタイルのセットｓｒｃ［ｉｄｘ＿ｓｒｃが生成される。これによって、ＩＧＦシステムの基本的自由度が決定される。ソースタイルｎＳｒｃの総数は、ソース領域の帯域幅
ｂｗ_ｓｒｃ＝（ｆ_{ＩＧＦｓｔａｒｔ}−ｆ_{ＩＧＦｍｉｎ}）
によって決定される。ここで、ｆ_{ＩＧＦｍｉｎ}は、整数ｎＳｒｃ個のソースタイルがｂｗ_ｓｒｃに適合するよう、タイル選択において利用可能な最低周波数である。ソースタイルの最小数は０である。

【0205】

さらに選択および調整の自由度を増すために、ソースタイルは、０および１の間のオーバーラップファクタにおいて、それぞれオーバーラップするよう定義されてもよく、ここで０とはオーバーラップがないこと、および１とは１００％オーバーラップしていることを意味する。１００％オーバーラップする場合とは、単一のソースタイルのみが利用可能か、あるいは利用可能なソースタイルが一切ないことを意味する。

【0206】

図１２ｂは、タイルセットのタイル境界の例を示す。この場合において、全ての対象タイルは、ソースタイルのそれぞれと相互に関連している。この例では、ソースタイルは、５０％オーバーラップしている。

【0207】

対象タイルについて、ｘｃｏｒｒ＿ｍａｘＬａｇビンまでの遅延をもって、様々なソースタイルを使ってクロス相関を算出する。ある対象タイルｉｄｘ＿ｔａｒおよびソースタイルｉｄｘ＿ｓｒｃについて、ｘｃｏｒｒ＿ｖａｌ［ｉｄｘ＿ｔａｒ］［ｉｄｘ＿ｓｒｃ｝が、タイル間の絶対クロス相関最大値を与え、一方、ｘｃｏｒｒ＿ｌａｇ［ｉｄｘ＿ｔａｒ］［ｉｄｘ＿ｓｒｃ］が、最大値が生じる遅延を与え、ｘｃｏｒｒ＿ｓｉｇｎ［ｉｄｘ＿ｔａｒ］［ｉｄｘ＿ｓｒｃ］が、ｘｃｏｒｒ＿ｌａｇ［ｉｄｘ＿ｔａｒ］［ｉｄｘ＿ｓｒｃ］におけるクロス相関のサインを与える。

【0208】

パラメータｘｃｏｒｒ＿ｌａｇは、ソースタイルと対象タイルとの整合の近さを制御するのに用いられる。このパラメータによって、アーティファクトが減少し、信号の音質と色彩の保全によりよく役立つ。

【0209】

あるシナリオでは、特定の対象タイルの大きさが、利用可能なソースタイルの大きさよりも大きいことがありえる。この場合、利用可能なソースタイルが必要な限りの頻度において繰り返され、当該特定タイルを完全に充填する。対象タイルにおいて、クロス相関遅延ｘｃｏｒｒ＿ｌａｇおよびサインｘｃｏｒｒ＿ｓｉｇｎという意味で、ソースタイルを最も良い位置に置くために、大きな対象タイルと小さなソースタイルとの間のクロス相関を実施することが依然として可能である。

【0210】

生のスペクトルタイルとオリジナル信号のクロス相関は、強固なフォルマント構造を有するオーディオスペクトルに対して適用される類似性基準としては、最適ではないかもしれない。スペクトルの白色化によって、粗いスペクトル包絡線情報が除去され、類似性を評価するのに重要なスペクトル微細構造が強調される。白色化によって、ＩＧＦにより処理される領域に関する、符号器でのＳＴＲ包絡線整形が容易になされる。したがって、クロス相関性度を計算する前に、タイルおよびソース信号は、選択的に白色化される。

【0211】

他の形態においては、タイルのみが事前に設定された手順に従って白色化される。送信される白色化フラグは、デコーダに対して、同様の所定の白色化手順がＩＧＦ内のタイルについて適用されるべきであることを示す。

【0212】

信号を白色化するためには、まずスペクトル包絡線予測が計算される。そして、ＭＤＣＴスペクトルは、スペクトル包絡線によって分割される。スペクトル包絡線予測は、ＭＤＣＴスペクトル、ＭＤＣＴスペクトル、ＭＤＣＴスペクトルエネルギ、ＭＤＣＴ系複素電力スペクトル、または電力スペクトル予測に基づき、予測される。包絡線が予測される信号を、以下「基礎信号」という。

【0213】

ＭＤＣＴ系複素電力スペクトルまたは電力スペクトル予測に基づき計算された包絡線は、音調成分に対して時間的ばらつきがないという利点を有する。

【0214】

もし基礎信号がエネルギ領域にあるのであれば、ＭＤＣＴスペクトルは、信号を正しく白色化するために、包絡線の平方根により分割される必要がある。包絡線の算出方法としては、以下のものがある。
・基礎信号を離散コサイン変換（ＤＣＴ）により変換し、低いＤＣＴ係数のみを保持し（最上をゼロにセットし）、逆ＤＣＴを計算する、
・時間領域オーディオフレームに基づき算出された線形予測係数（ＬＰＣ）セットのスペクトル包絡線を計算する、
・基礎信号をローパスフィルタによりフィルタリングする。

【0215】

最後のアプローチが選択されることが好ましい。計算上の複雑性が低いことを求めるアプリケーションについては、ＭＤＣＴスペクトルの白色化に対して簡略化がなされてもよい。まず、移動平均の手段により包絡線を計算する。これには、ＭＤＣＴビン毎に２つの処理器サイクルしか要しない。そして、分割および平方根の計算を避けるために、スペクトル包絡線は、＃＃２ｎに近接させられる。ここで、＃＃ｎは、包絡線の整数対数である。この領域において、平方根演算は、単にシフト演算となり、さらに包絡線による分割は、別のシフト演算により実行される。

【0216】

各ソースタイルと各対象タイルとの相関性を計算した後、全てのｎＴａｒ対象タイルについて、最も高い相関を有するソースタイルを選択してこれを置換する。オリジナルスペクトル構造と最も整合させるために、相関の遅延を利用して、再生されたスペクトルを変形ビンの整数分だけ調整する。奇数の遅延の場合には、ＭＤＣＴにおけるひとつおきの帯域の周波数反転表現を補てんするために、タイルは、−１／１の交互の時間的シーケンスにより、乗法を通じて追加的に調整される。

【0217】

図１２ｃは、ソースタイルと対象タイルとの相関の例を示す。この例において、相関の遅延は５である。そして、ソースタイルは、ＢＷＥアルゴリズムのコピー段において、高周波数ビンに向かって５ビンだけ調節される必要がある。また、最大相関値が負であり、上述の追加的調節は奇数遅延を対処するので、タイルのサインを反転させる必要がある。

【0218】

よって、エンコーダからデコーダに対して送信されるサイド情報の総量は、次のデータにより構成される。
・ｔｉｌｅＮｕｍ［ｎＴａｒ］：対象タイル毎に選択されたソースタイルのインデックス
・ｔｉｌｅＳｉｇｎ［ｎＴａｒ］：対象タイルのサイン
・ｔｉｌｅＭｏｄ［ｎＴａｒ］：対象タイル毎の相関遅延

【0219】

タイル除去および安定化は、ＩＧＦにおいて重要なステップである。その必要性と優位性を、例えば安定的なピッチパイプ音のような静的な音調オーディオ信号を想定した具体例により説明する。論理的には、所定の対象領域について、ソースタイルがフレームを超えた同じソース領域から常に選択される場合には、最小のアーティファクトしか導入されない。信号が静的だという想定であったとしても、この条件は、全てのフレームについてあてはまるわけではない。というのも、他の同程度に類似するソース領域の類似性基準（例えば、相関性）によって、類似結果（例えば、クロス相関性）が支配され得るからである。これによって、近接フレーム間のｔｉｌｅＮｕｍ［ｎＴａｒ］が、２つまたは３つの非常に類似する選択肢の間で迷うこととなる。これが、アーティファクトのような不快なミュージカルノイズの原因となりうる。

【0220】

このようなアーティファクトを除去するために、ソースタイルの集合について、残りのソース集合が最大限までに非類似となるよう除去処理を行わなければならない。これは、ソースタイルの集合
Ｓ＝｛ｓ１，ｓ２，．．．ｓｎ｝
の全体に対して、以下のように達成される。いずれのソースタイルｓ_ｉについても、他の全てのソースタイルと関連付けられ、ｓ_ｉとｓ_ｊとの最も良い相関を見つけ、これをマトリックスＳ_ｘに蓄積する。ここで、Ｓ_ｘ［ｉ］［ｊ］は、ｓ_ｉとｓ_ｊとの間の最大絶対クロス相関値を含む。段に沿ってマトリックスＳ_ｘを加えると、ソースタイルｓ_ｉとその他のソースタイルＴとのクロス相関の和が得られる。
Ｔ［ｉ］＝Ｓ_ｘ［ｉ］［１］＋Ｓ_ｘ［ｉ］［２］．．．＋Ｓ_ｘ［ｉ］［ｎ］
ここで、Ｔは、ソースがいかに他のソースタイルに類似しているかの基準を示す。いずれかのソースタイルｉについて、
Ｔ＞閾値
が成立しているならば、ソースタイルｉは、潜在的ソースのセットから除外される。というのも、他のソースと非常に相関しているからである。式の条件を満たすタイルセットから最も低い相関のタイルを選択し、この部分集合の代表的タイルとする。このように、ソースタイルがそれぞれ最大限にまで非類似となるよう確保される。

【0221】

タイル除去方法には、以前のフレームで用いられた除去タイルセットの記録が含まれる。以前のフレームにおいてアクティブであったタイルは、除去の候補が他に存在すれば、次のフレームでも維持される。

【0222】

フレームｋにおけるタイル｛ｓ_１，ｓ_２．．．，ｓ_５｝のうち、タイルｓ_３、ｓ_４、およびｓ_５がアクティブであるとすると、フレームｋ＋１においては、ｓ_３が他のタイルと最大限まで相関を有し、ｓ_１、ｓ_２、およびｓ_３が除去されるべき場合であったとしても、ｓ_３は前回のフレームにおいて有用なソースタイルであったため、保持される。したがって、ソースタイルのセットにおいてこれを保持することは、タイル選択の時間的継続性を実施するのに有益である。この方法は、Ｔ_ｘ［ｉ］［ｊ］と表すソースｉと対象ｊとの間のクロス相関が高い場合に適用される。

【0223】

タイル選択安定化処理の追加的方法として、現在のフレームにおけるいずれのソースタイルも対象タイルとあまり相関を有しない場合には、タイル順番を前回フレームｋ−１から保つ方法が挙げられる。この方法は、Ｔ_ｘ［ｉ］［ｊ］と表すソースｉと対象ｊとの間のクロス相関が、全てのｉ、ｊについて極めて低い場合に適用される。

【0224】

例えば、暫定的な閾値を用いて、
Ｔ_ｘ［ｉ］［ｊ］＜０．６
とすると、このフレームｋの全てのｎＴａｒについて、
ｔｉｌｅＮｕｍ［ｎＴａｒ］_ｋ＝ｔｉｌｅＮｕｍ［ｎＴａｒ］_ｋ−１
となる。

【0225】

上述の２つの技術は、フレームを超えて高速で変化するセットタイル数から生じるアーティファクトを大幅に削減する。このタイル削減および安定化方法の別の付加的メリットとしては、追加的情報を何らデコーダに送る必要がなく、またデコーダの構造を変更する必要がないことが挙げられる。この提案に係るタイル除去方法は、タイル化されたスペクトル領域におけるアーティファクトなどの潜在的なミュージカルノイズや過剰なノイズを除去する素晴らしい方法である。

【0226】

図１１ａは、符号化されたオーディオ信号を復号するオーディオデコーダを示す。オーディオデコーダは、第１セットの第１スペクトル部の第１復号表現を生成するオーディオ（コア）デコーダ１１０２を有し、この復号表現は、第１スペクトル解像度を有する。

【0227】

さらに、オーディオデコーダは、第１スペクトル解像度よりも低い第２スペクトル解像度を有する第２セットの第２スペクトル部の第２復号表現を生成するパラメトリックデコーダ１１０４を有する。さらに、第１入力１１０１として第１スペクトル部を受信し、１１０３で示す第２入力としてパラメトリック情報を受信する周波数生成器１１０６が設けられる。このパラメトリック情報には、各対象周波数タイルまたは対象再構築帯域についてのソースレンジ情報が含まれる。周波数生成器１１０６は、対象レンジのスペクトルデータを生成するために、整合情報にて特定されたソースレンジからのスペクトル値を使って、周波数再生を実行する。その後、第１スペクトル部１１０１と周波数再生器１１０７の出力との両方が、スペクトル時間変換器１１０８に入力され、最終的に復号オーディオ信号を生成する。

【0228】

オーディオデコーダ１１０２は、時間領域オーディオデコーダやパラメトリックオーディオデコーダなどのような他のオーディオ復号であってもよいが、スペクトル領域オーディオデコーダであることが好ましい。

【0229】

図１１ｂに示す通り、周波数再生器１１０６は、奇数遅延のためのソースレンジ選択タイル変調器を示すブロック１１２０の機能や、白色化フラグ１１２３が提供される場合には、白色化フィルタ１１２２、さらには、ブロック１１２８にて実行され図示される調節機能を有するスペクトル包絡線を有してもよい。なお、ブロック１１２８は、当該調節機能の実行に際しては、ブロック１１２０またはブロック１１２２のいずれか、またはこれら両ブロックの連携により生成された生のスペクトルデータを用いる。いずれにせよ、周波数再生器１１０６は、受信した白色化フラグ１１２３に反応するスイッチ１１２４を含んでもよい。白色化フラグがセットされると、奇数遅延のためのソースレンジ選択器／タイル調整器の出力が、白色化フィルタ１１２２に入力される。しかしながら、このとき、白色化フラグ１１２３は、所定の再構築帯域については設定されず、ブロック１１２０の出力が、白色化されることなくスペクトル包絡線調整ブロック１１２８へと提供されるよう、バイパス線１１２６が起動される。

【0230】

ビットストリームにおいては、２つ以上のレベルの白色化（１１２３）が信号化されており、これらのレベルは、タイル毎に信号化される。各タイルについて３つのレベルが信号化されている場合、これらは次の方法によって符号化される。
ｂｉｔ＝ｒｅａｄＢｉｔ（１）；
ｉｆ（ｂｉｔ＝＝１）｛
ｆｏｒ（ｔｉｌｅ＿ｉｎｄｅｘ＝０．．ｎＴ）
／＊ｓａｍｅｌｅｖｅｌｓａｓｌａｓｔｆｒａｍｅ＊／
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ＿ｐｒｅｖ＿ｆｒａｍｅ［ｔｉｌｅ＿ｉｎｄｅｘ］；
｝ｅｌｓｅ｛
／＊ｆｉｒｓｔｔｉｌｅ：＊／
ｔｉｌｅ＿ｉｎｄｅｘ＝０；
ｂｉｔ＝ｒｅａｄＢｉｔ（１）；
ｉｆ（ｂｉｔ＝＝１）｛
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ＭＩＤ＿ＷＨＩＴＥＮＩＮＧ；
｝ｅｌｓｅ｛
ｂｉｔ＝ｒｅａｄＢｉｔ（１）；
ｉｆ（ｂｉｔ＝＝１）｛
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ＳＴＲＯＮＧ＿ＷＨＩＴＥＮＩＮＧ；
｝ｅｌｓｅ｛
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ＯＦＦ；／＊ｎｏ−ｗｈｉｔｅｎｉｎｇ＊／
｝
｝
／＊ｒｅｍａｉｎｉｎｇｔｉｌｅｓ：＊／
ｂｉｔ＝ｒｅａｄＢｉｔ（１）；
ｉｆ（ｂｉｔ＝＝１）｛
／＊ｆｌａｔｔｅｎｉｎｇｌｅｖｅｌｓｆｏｒｒｅｍａｉｎｉｎｇｔｉｌｅｓｓａｍｅａｓｆｉｒｓｔ．＊／
／＊Ｎｏｆｕｒｔｈｅｒｂｉｔｓｈａｖｅｔｏｂｅｒｅａｄ＊／
ｆｏｒ（ｔｉｌｅ＿ｉｎｄｅｘ＝１．．ｎＴ）
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［０］；
｝ｅｌｓｅ｛
／＊ｒｅａｄｂｉｔｓｆｏｒｒｅｍａｉｎｉｎｇｔｉｌｅｓａｓｆｏｒｆｉｒｓｔｔｉｌｅ＊／
ｆｏｒ（ｔｉｌｅ＿ｉｎｄｅｘ＝１．．ｎＴ）｛
ｂｉｔ＝ｒｅａｄＢｉｔ（１）；
ｉｆ（ｂｉｔ＝＝１）｛
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ＭＩＤ＿ＷＨＩＴＥＮＩＮＧ；
｝ｅｌｓｅ｛
ｂｉｔ＝ｒｅａｄＢｉｔ（１）；
ｉｆ（ｂｉｔ＝＝１）｛
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ＳＴＲＯＮＧ＿ＷＨＩＴＥＮＩＮＧ；
｝ｅｌｓｅ｛
ｗｈｉｔｅｎｉｎｇ＿ｌｅｖｅｌ［ｔｉｌｅ＿ｉｎｄｅｘ］＝ＯＦＦ；／＊ｎｏ−ｗｈｉｔｅｎｉｎｇ＊／
｝
｝
｝
｝
｝

【0231】

ＭＩＤ＿ＷＨＩＴＥＮＩＮＧおよびＳＴＲＯＮＧ＿ＷＨＩＴＥＮＩＮＧは、包絡線が計算される方法（上述の通り）に違いを有する、異なる白色化フィルタ（１１２２）を意味する。

【0232】

デコーダ側の周波数再生器は、粗いスペクトルタイル選択スキームのみが適用された場合、ソースレンジＩＤ１１２１によって制御されてもよい。しかしながら、微細に調整したスペクトルタイル選択スキームが適用されると、追加的に、ソースレンジ遅延１１１９が提供される。さらに、相関計算が負の結果だった場合には、ページデータスペクトル線のそれぞれに対して−１を乗じて負のサインに対処するよう、相関のサインもブロック１１２０に対して追加的に適用される。

【0233】

したがって、図１１ａおよび１１ｂにて説明される本発明は、所定の目標または対象レンジについて最も整合するソースレンジがエンコーダ側で計算され、デコーダ側で適用されるという事実により、最適なオーディオ品質が得られるよう確保する。

【0234】

図１１ｃは、オーディオ信号を符号化するオーディオエンコーダであって、時間スペクトル変換器１１３０、その後段に接続されたペクトル解析器１１３２、パラメータ計算器１１３４およびコア符号器１１３６を有するものを示す。コア符号器１１３６は、符号化されたソースレンジを出力し、パラメータ計算器１１３４は、対象レンジの整合情報を出力する。

【0235】

符号化されたソースレンジは、図１１ａに示すデコーダが周波数再生を実施する位置に置かれるよう、対象レンジの整合情報とともにデコーダに送信される。

【0236】

パラメータ計算器１１３４は、第１スペクトル部と第２スペクトル部の類似性を算出し、算出された類似性に基づき、第２スペクトル部について、この第２スペクトル部とできる限り整合する第１スペクトル部を決定する。図１２ａおよび１２ｂに示される異なるソースレンジと対象レンジの整合結果が、第２スペクトル部を有する選択された整合ペアを決定するのが好ましく、またパラメータ計算器は、整合ペアを符号化されたオーディオ信号において特定する、この整合情報を提供するよう構成される。このパラメータ計算器１１３４は、第２セットの第２スペクトル部において事前に設定された対象領域、または例えば図１２ｂに示す、第１セットの第１スペクトル部において事前に設定されたソース領域を使用するよう構成されることが好ましい。事前に設定された対象領域がオーバーラップしないか、または事前に設定されたソース領域がオーバーラップすることが好ましい。事前に設定されたソース領域が、図３ａのギャップ充填開始周波数３０９より下の第１フペクトル部の第１セットの部分集合である場合には、低スペクトル領域を対象とする事前に設定された対象領域は、いずれの対象レンジもギャップ充填開始周波数より上に位置し、かつソースレンジがギャップ充填開始周波数より下に位置するよう、その低周波数側境界においてギャップ充填開始周波に一致することが好ましい。

【0237】

上述の通り、ソース領域に何ら遅延がないソース領域を有する対象領域と、ソース領域は同じだが所定の遅延があるものとを比較することにより、微細な粒度が得られる。これらの遅延は、図１１ｄのクロス相関性計算器１１４０において適用され、整合ペア選択は、タイル選択器１１４４によって最終的に行われる。

【0238】

さらに、ブロック１１４２に示される、ソースおよび／またはターゲットレンジの白色化を実施することが好ましい。そしてこのブロック１１４２は、図１１ｂのデコーダ側スイッチ１１２３を制御するのに用いられるビットストリームに対して、白色化フラグを提供する。さらに、クロス相関計算器１１４０が負の結果を出した場合には、この負の結果もデコーダに対して信号化される。したがって、好適実施形態においては、タイル選択器は、対象レンジ、遅延、サインのためのソースレンジＩＤを出力し、ブロック１１４２は、追加的に白色化フラグを提供する。

【0239】

さらに、パラメータ計算器１１３４は、類似性の閾値に基づきソースパッチを潜在的ソースタイルの集合から落とすよう潜在的ソースレンジの数を削減して、ソースタイル除去１１４６を実施するよう構成される。したがって、２つのソースタイルが類似性の閾値と同等にまたはこれを超過して類似する場合には、これらの２つのソースタイルのうち１つが潜在的ソースの集合から除去され、除去されたソースタイルは、以後の処理において一切使用されない。特に、タイル選択器１１４４は、この除去タイルを選択することはできないし、またブロック１１４０において実施される、異なるソースレンジと対象レンジとの間のクロス相関計算には使用されない。

【0240】

異なる図面を参照して異なる実施形態を説明した。図１ａないし５ｃは、全レートまたは全帯域エンコーダ／デコーダスキームに関する。図６ａないし７ｅは、ＴＮＳまたはＴＴＳ処理を有するエンコーダ／デコーダに関する。図８ａないし８ｅは、特定２チャンネル処理を有するエンコーダ／デコーダスキームに関する。図９ａないし１０ｄは、特定エネルギ情報計算および適用に関し、図１１ａないし１２ｃは、タイル選択の所定方法に関する。

【0241】

これらの異なる側面は、それぞれ独立して、発明として使用できるが、図２ａおよび２ｂに基本的に示すように、一緒に適用されてもよい。しかしながら、特定２チャンネル処理は、図１３に示すエンコーダ／デコーダスキームについても適用可能であり、デコーダ側における再構築帯域または適応ソースレンジ識別および対応アプリケーションにおける、ＴＮＳ／ＴＴＳ処理、包絡線エネルギ情報計算および適用についても同様のことがいえる。一方で、全レートの側面は、ＴＮＳ／ＴＴＳ処理とともに、またはこの処理を伴わずして適用されてもよく、また２チャンネル処理を伴っても伴わなくともよく、適応ソースレンジ識別を伴っても伴わなくともよい。あるいは、スペクトル包絡線表現の他の種のエネルギ計算とともに適用されてもよい。したがって、これらの個別の一側面の特徴は、他の側面にも適用できる。

【0242】

一部の側面については、エンコーディングまたは復号化の装置の文脈において説明されたが、これらの側面は、対応する方法の記載も示すことは明らかであり、ブロックや装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法の観点から説明された側面もまた、対応するブロックもしくは物品または対応する装置の特徴の説明としても機能するものである。一部のまたは全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（またはこれを用いて）実行されてもよい。一部の実施形態において、最も重要な方法ステップの１つ以上がこのような装置によって実行されてもよい。

【0243】

所定の実施に係る要件次第では、発明の実施形態は、ハードウェアで実行されてもよいし、ソフトウェアで実行されてもよい。実施は、例えばフレキシブルディスク、ハードディスクドライブ（ＨＤＤ）、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ（登録商標）、またはフラッシュメモリなどのような、電子的に読み取り可能な制御信号が蓄積されたデジタル蓄積媒体を用いてすることができ、当該方法が実行されるようこれらのデジタル蓄積媒体がプログラム可能なコンピュータシステムと連携する（または連携することできる）。したがって、デジタル蓄積媒体は、コンピュータに読み取り可能である。

【0244】

本発明による一部の実施形態では、電子的に読み取り可能な制御信号を有するデータキャリアを含み、当該キャリアは、開示される方法のいずれかが実施されるよう、プログラム可能なコンピュータシステムと連携することができる。

【0245】

概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実行されてもよく、このようなプログラムコードは、コンピュータプログラム製品がコンピュータにおいて実行されるとき、上記方法のいずれかを実施するよう動作する。このプログラムコードは、例えば機械で読み取り可能なキャリアに蓄積されてもよい。

【0246】

その他の実施形態においては、開示されるいずれかの方法を実行する、機械で読み取り可能なキャリアに蓄積されたコンピュータプログラムを有する。

【0247】

つまり、本発明に係る方法は、その一実施形態においては、コンピュータプログラムがコンピュータで実行されたとき、開示されるいずれかの方法を実行するプログラムコードを有するコンピュータプログラムとして構成される。

【0248】

本発明に係る方法のさらなる実施形態は、したがって、開示される方法のいずれかを実施するコンピュータプログラムが蓄積されたデータキャリア（またはデジタル蓄積媒体またはコンピュータに読み取り可能な媒体）として構成される。データキャリア、デジタル蓄積媒体、または蓄積媒体は、一般的には有形でおよび／または固定的である。

【0249】

本発明に係る方法のさらなる実施形態は、したがって、開示される方法のいずれかを実施するコンピュータプログラムを示すデータストリームまたは信号シーケンスとして構成される。このデータストリームまたは信号シーケンスは、例えば、データコミュニケーション接続（例えばインターネットなど）を介して送られるよう構成されてもよい。

【0250】

その他の実施形態においては、開示されるいずれかの方法を実行するよう構成または適応された処理手段、例えばコンピュータ、プログラム可能な論理機構を有する。

【0251】

その他の実施形態においては、開示されるいずれかの方法を実行するコンピュータプログラムをインストールしたコンピュータを有する。

【0252】

本発明によるその他の実施形態においては、開示されるいずれかの方法を実行するコンピュータプログラムを、受信器に対して移動（例えば電子的にまたは選択的に）させるよう構成された装置またはシステムを有する。受信器は、例えばコンピュータや携帯機器、メモリ機器などであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信器側に移動させるファイルサーバを有してもよい。

【0253】

一部の実施形態においては、開示される方法の機能の一部または全部を実行するために、プログラム可能な論理機構（例えば、フィールドプログラマブルゲートアレイ）を用いてもよい。一部の実施形態においては、開示される方法のいずれかを実行するために、フィールドプログラマブルゲートアレイとマイクロプロセッサとを連携させてもよい。一般に、これらの方法はハードウェア装置によって実行されることが好ましい。

【0254】

上述の実施形態は、本発明の原理を単に示すに過ぎない。この明細書に開示する構成や詳細に対して変更または変形を施すことができることは、当業者にとって明らかであると理解される。したがって、次に続く特許請求の範囲によってのみ制限される趣旨であり、実施形態の記載または説明によってなされた特定の詳細によっては、何ら限定されない。

【先行技術文献】

【非特許文献】

【0255】

【非特許文献1】Ｄｉｅｔｚ，Ｌ．Ｌｉｌｊｅｒｙｄ，Ｋ．ＫｊｏｅｒｌｉｎｇａｎｄＯ．Ｋｕｎｚ， “ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ，ａｎｏｖｅｌａｐｐｒｏａｃｈｉｎａｕｄｉｏｃｏｄｉｎｇ，” ｉｎ１１２ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｍｕｎｉｃｈ，Ｍａｙ２００２．

【非特許文献2】Ｆｅｒｒｅｉｒａ，Ｄ．Ｓｉｎｈａ， “ＡｃｃｕｒａｔｅＳｐｅｃｔｒａｌＲｅｐｌａｃｅｍｅｎｔ”，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ２００５．

【非特許文献3】Ｄ．Ｓｉｎｈａ，Ａ．Ｆｅｒｒｅｉｒａ１ａｎｄＥ．Ｈａｒｉｎａｒａｙａｎａｎ， “ＡＮｏｖｅｌＩｎｔｅｇｒａｔｅｄＡｕｄｉｏＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎＴｏｏｌｋｉｔ（ＡＢＥＴ）”，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，Ｐａｒｉｓ，Ｆｒａｎｃｅ２００６．

【非特許文献4】Ｒ．Ａｎｎａｄａｎａ，Ｅ．Ｈａｒｉｎａｒａｙａｎａｎ，Ａ．ＦｅｒｒｅｉｒａａｎｄＤ．Ｓｉｎｈａ， “ＮｅｗＲｅｓｕｌｔｓｉｎＬｏｗＢｉｔＲａｔｅＳｐｅｅｃｈＣｏｄｉｎｇａｎｄＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎ”，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ２００６．

【非特許文献5】Ｔ．Ｚｅｒｎｉｃｋｉ，Ｍ．Ｂａｒｔｋｏｗｉａｋ， “Ａｕｄｉｏｂａｎｄｗｉｄｔｈｅｘｔｅｎｓｉｏｎｂｙｆｒｅｑｕｅｎｃｙｓｃａｌｉｎｇｏｆｓｉｎｕｓｏｉｄａｌｐａｒｔｉａｌｓ”，ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ２００８．

【非特許文献6】Ｊ．Ｈｅｒｒｅ，Ｄ．Ｓｃｈｕｌｚ，ＥｘｔｅｎｄｉｎｇｔｈｅＭＰＥＧ−４ＡＡＣＣｏｄｅｃｂｙＰｅｒｃｅｐｔｕａｌＮｏｉｓｅＳｕｂｓｔｉｔｕｔｉｏｎ，１０４ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ａｍｓｔｅｒｄａｍ，１９９８，Ｐｒｅｐｒｉｎｔ４７２０．

【非特許文献7】Ｍ．Ｎｅｕｅｎｄｏｒｆ，Ｍ．Ｍｕｌｔｒｕｓ，Ｎ．Ｒｅｔｔｅｌｂａｃｈ，ｅｔａｌ．，ＭＰＥＧＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ−ＴｈｅＩＳＯ／ＭＰＥＧＳｔａｎｄａｒｄｆｏｒＨｉｇｈ−ＥｆｆｉｃｉｅｎｃｙＡｕｄｉｏＣｏｄｉｎｇｏｆａｌｌＣｏｎｔｅｎｔＴｙｐｅｓ，１３２ｎｄＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｂｕｄａｐｅｓｔ，Ｈｕｎｇａｒｙ，Ａｐｒｉｌ，２０１２．

【非特許文献8】ＭｃＡｕｌａｙ，ＲｏｂｅｒｔＪ．，Ｑｕａｔｉｅｒｉ，ＴｈｏｍａｓＦ． “ＳｐｅｅｃｈＡｎａｌｙｓｉｓ／ＳｙｎｔｈｅｓｉｓＢａｓｅｄｏｎａＳｉｎｕｓｏｉｄａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎ”．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ＡｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ３４（４），Ａｕｇｕｓｔ１９８６．

【非特許文献9】Ｓｍｉｔｈ，Ｊ．Ｏ．，Ｓｅｒｒａ，Ｘ． “ＰＡＲＳＨＬ：Ａｎａｎａｌｙｓｉｓ／ｓｙｎｔｈｅｓｉｓｐｒｏｇｒａｍｆｏｒｎｏｎ−ｈａｒｍｏｎｉｃｓｏｕｎｄｓｂａｓｅｄｏｎａｓｉｎｕｓｏｉｄａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ”，ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｍｐｕｔｅｒＭｕｓｉｃＣｏｎｆｅｒｅｎｃｅ，１９８７．

【非特許文献10】Ｐｕｒｎｈａｇｅｎ，Ｈ．；Ｍｅｉｎｅ，Ｎｉｋｏｌａｕｓ， “ＨＩＬＮ−ｔｈｅＭＰＥＧ−４ｐａｒａｍｅｔｒｉｃａｕｄｉｏｃｏｄｉｎｇｔｏｏｌｓ”，ＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ，２０００．Ｐｒｏｃｅｅｄｉｎｇｓ．ＩＳＣＡＳ２０００Ｇｅｎｅｖａ．Ｔｈｅ２０００ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎ，ｖｏｌ．３，ｎｏ．，ｐｐ．２０１，２０４ｖｏｌ．３，２０００

【非特許文献11】ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ１３８１８−３， “ＧｅｎｅｒｉｃＣｏｄｉｎｇｏｆＭｏｖｉｎｇＰｉｃｔｕｒｅｓａｎｄＡｓｓｏｃｉａｔｅｄＡｕｄｉｏ：Ａｕｄｉｏ”，Ｇｅｎｅｖａ，１９９８．

【非特許文献12】Ｍ．Ｂｏｓｉ，Ｋ．Ｂｒａｎｄｅｎｂｕｒｇ，Ｓ．Ｑｕａｃｋｅｎｂｕｓｈ，Ｌ．Ｆｉｅｌｄｅｒ，Ｋ．Ａｋａｇｉｒｉ，Ｈ．Ｆｕｃｈｓ，Ｍ．Ｄｉｅｔｚ，Ｊ．Ｈｅｒｒｅ，Ｇ．Ｄａｖｉｄｓｏｎ，Ｏｉｋａｗａ： “ＭＰＥＧ−２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ”，１０１ｓｔＡＥＳＣｏｎｖｅｎｔｉｏｎ，ＬｏｓＡｎｇｅｌｅｓ１９９６

【非特許文献13】Ｊ．Ｈｅｒｒｅ， “ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ，ＱｕａｎｔｉｚａｔｉｏｎａｎｄＣｏｄｉｎｇｍｅｔｈｏｄｓｉｎＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＣｏｄｉｎｇ：ＡＴｕｔｏｒｉａｌｉｎｔｒｏｄｕｃｔｉｏｎ”，１７ｔｈＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＱｕａｌｉｔｙＡｕｄｉｏＣｏｄｉｎｇ，Ａｕｇｕｓｔ１９９９

【非特許文献14】Ｊ．Ｈｅｒｒｅ， “ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ，ＱｕａｎｔｉｚａｔｉｏｎａｎｄＣｏｄｉｎｇｍｅｔｈｏｄｓｉｎＰｅｒｃｅｐｔｕａｌＡｕｄｉｏＣｏｄｉｎｇ：ＡＴｕｔｏｒｉａｌｉｎｔｒｏｄｕｃｔｉｏｎ”，１７ｔｈＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＱｕａｌｉｔｙＡｕｄｉｏＣｏｄｉｎｇ，Ａｕｇｕｓｔ１９９９

【非特許文献15】ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ２３００１−３：２０１０，ＵｎｉｆｉｅｄｓｐｅｅｃｈａｎｄａｕｄｉｏｃｏｄｉｎｇＡｕｄｉｏ，Ｇｅｎｅｖａ，２０１０．

【非特許文献16】ＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄＩＳＯ／ＩＥＣ１４４９６−３：２００５，Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｃｏｄｉｎｇｏｆａｕｄｉｏ−ｖｉｓｕａｌｏｂｊｅｃｔｓ − Ｐａｒｔ３：Ａｕｄｉｏ，Ｇｅｎｅｖａ，２００５．

【非特許文献17】Ｐ．Ｅｋｓｔｒａｎｄ， “ＢａｎｄｗｉｄｔｈＥｘｔｅｎｓｉｏｎｏｆＡｕｄｉｏＳｉｇｎａｌｓｂｙＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ”，ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆ１ｓｔＩＥＥＥＢｅｎｅｌｕｘＷｏｒｋｓｈｏｐｏｎＭＰＣＡ，Ｌｅｕｖｅｎ，Ｎｏｖｅｍｂｅｒ２００２

【非特許文献18】Ｆ．Ｎａｇｅｌ，Ｓ．Ｄｉｓｃｈ，Ｓ．Ｗｉｌｄｅ，Ａｃｏｎｔｉｎｕｏｕｓｍｏｄｕｌａｔｅｄｓｉｎｇｌｅｓｉｄｅｂａｎｄｂａｎｄｗｉｄｔｈｅｘｔｅｎｓｉｏｎ，ＩＣＡＳＳＰＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｄａｌｌａｓ，Ｔｅｘａｓ（ＵＳＡ），Ａｐｒｉｌ２０１０

【図1A】