(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-22
(45)【発行日】2023-10-02
(54)【発明の名称】独立したノイズ充填を用いた強化された信号を生成するための装置および方法
(51)【国際特許分類】
G10L 19/028 20130101AFI20230925BHJP
G10L 21/0388 20130101ALI20230925BHJP
【FI】
G10L19/028
G10L21/0388 100
【外国語出願】
(21)【出願番号】P 2021146839
(22)【出願日】2021-09-09
(62)【分割の表示】P 2018238686の分割
【原出願日】2015-07-24
【審査請求日】2021-10-11
(32)【優先日】2014-07-28
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【氏名又は名称】岡田 全啓
(72)【発明者】
【氏名】ディスヒ サッシャ
(72)【発明者】
【氏名】ガイガー ラルフ
(72)【発明者】
【氏名】ニーダーマイアー アンドレーアス
(72)【発明者】
【氏名】ノイズィンガー マティアス
(72)【発明者】
【氏名】シュミット コンスタンティン
(72)【発明者】
【氏名】ヴィルデ シュテファン
(72)【発明者】
【氏名】シューベルト ベンヤミン
(72)【発明者】
【氏名】ノイカム クリスティアン
【審査官】山下 剛史
(56)【参考文献】
【文献】特表2011-527451(JP,A)
【文献】特表2011-527455(JP,A)
【文献】特開2013-15598(JP,A)
【文献】米国特許出願公開第2014/0188464(US,A1)
【文献】米国特許出願公開第2013/0290003(US,A1)
【文献】欧州特許出願公開第2704142(EP,A1)
【文献】則松武志他,音声と楽音を統合した音響信号符号化,日本音響学会誌,2012年03月,第68巻,第3号,pp.123-128
【文献】Frederik NAGEL, et al.,A HARMONIC BANDWIDTH EXTENSION METHOD FOR AUDIO CODECS,ICASSP 2009,IEEE,2009年01月,pp.145-148
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
入力信
号から強化された信号を生成する装置であって、前記装置は、
前記入力信
号を前記装置に入力して、
前記入力信
号のソース・スペクトル領域を前記強化された信号の強化スペクトル領域内のターゲット・スペクトル領域にマッピングするためのマッパ
ーであって、前記強化された信号は強化スペクトル領域のためのスペクトル値を有し、前記強化スペクトル領域のための前記スペクトル値は前記入力信
号に含まれない、マッパ
ーと、
前記ターゲット・スペクトル領域内のノイズ領域についての第2のノイズ値を生成するように構成されたノイズ・フィラー(604)であって、ここで前記第2のノイズ値は前記入力信
号の前記ソース・スペクトル領域内の第1のノイズ値から
少なくとも部分的に独立している、ノイズ・フィラー(604)と、
を生成するための入力(600)を含む、装置。
【請求項2】
前記入力信
号の前記ソース・スペクトル領域は、前記ソース・スペクトル領域内の前記第1のノイズ
値に宛てられたノイズ充填領域(302)を含み、
前記ノイズ・フィラー
(604)は、前記入力信
号の前記ソース・スペクトル領域内の前記ノイズ充填領域(302)のための前記第1のノイズ値を生成するように構成される、
請求項1に記載の装置。
【請求項3】
前記入力信号は、前記入力信
号の前記ソース・スペクトル領域のためのノイズ充填パラメータを含む、符号化された信号であり、
前記ノイズ・フィラー(604)は、前記ノイズ充填パラメータを使用して前記第1のノイズ値を生成し、前記第1のノイズ値に関するエネルギー情報を使用して前記第2のノイズ値を生成するように構成される、請求項2に記載の装置。
【請求項4】
前記ノイズ・フィラー(604)は、
前記入力信
号内に前記第1のノイズ値を有する前記ノイズ充填領域(302)を識別し、
前記入力信
号の少なくとも1つの領域をソース・タイル・バッファにコピーし(902)、ここで前記領域は前記ソース・スペクトル領域を含み、前記ソース・スペクトル領域は前記ノイズ充填領域(302)を含み、
前記ソース・タイル・バッファにおいて、前記ノイズ充填領域を識別する過程において識別された前記第1のノイズ値を非相関ノイズ値で置き換える(904)
ように構成され、
前記マッパ
ーは、前記非相関ノイズ値を有する前記ソース・タイル・バッファを前記ターゲット・スペクトル領域にマッピングするように構成される、
請求項2または3に記載の装置。
【請求項5】
前記ノイズ・フィラー(604)は、前記非相関ノイズ値に関するエネルギー情報を計測し(1102)、前記第1のノイズ値に関するエネルギー情報を計測し(1100)、前記非相関ノイズ値に関する前記エネルギー情報および前記第1のノイズ値に関する前記エネルギー情報から導出されたスケーリング値を使用して前記非相関ノイズ値をスケーリングする(906)ように構成される、請求項4に記載の装置。
【請求項6】
前記ノイズ・フィラー(604)は、前記マッパ
ーの動作に続いて前記第2のノイズ値を生成するように構成される、または、前記ノイズ・フィラー(604)は、前記マッパ
ーの動作に続いて前記第1のノイズ値および前記第2のノイズ値を生成する(604)ように構成される、請求項1ないし請求項5の1項に記載の装置。
【請求項7】
前記マッパ
ーは、前記ソース・スペクトル領域を前記ターゲット・スペクトル領域にマッピングするように構成され、
前記ノイズ・フィラー(604)は、ノイズ充填動作とサイド情報として前記入力信
号に送信されたノイズ充填パラメータとを使用して前記第1のノイズ値を生成することによって、スペクトル領域におけるノイズ充填を実行し、また、前記ターゲット・スペクトル領域におけるノイズ充填動作を実行して、前記第1のノイズ値に関するエネルギー情報を使用して前記第2のノイズ値を生成するように構成される、
請求項1ないし請求項6の1項に記載の装置。
【請求項8】
前記入力信
号にサイド情報として含まれるスペクトル・エンベロープ情報を使用して、前記強化スペクトル領域における前記第2のノイズ値を調整する(1202)ためのエンベロープ調整器をさらに含む、請求項1ないし請求項7の1項に記載の装置。
【請求項9】
前記ノイズ・フィラー(604)は、前記入力信
号のサイド情報のみを使用して、ノイズ充填動作のためのスペクトル位置を識別するように構成される、または、
前記ノイズ・フィラー(604)は、前記ノイズ充填領域におけるスペクトル値の有無にかかわらず、前記入力信
号の時間またはスペクトル特性を解析して前記ノイズ充填動作のためのスペクトル位置を識別するように構成される、
請求項2に記載の装置。
【請求項10】
前記ノイズ・フィラー(604)は、前記ソース・スペクトル領域内のみにスペクトル位置についての入力を有する、または、前記ソース・スペクトル領域内および前記ターゲット・スペクトル領域内にスペクトル位置についての入力を有する識別ベクトル(706)を使用して、ノイズ位置を識別するように構成される、請求項1ないし請求項9の1項に記載の装置。
【請求項11】
前記ノイズ・フィラー(604)は、前記識別ベクトル(706)が指し示すノイズ値に関するエネルギー情報を計算するように構成され、
前記ノイズ・フィラー(604)は、前記ターゲット・スペクトル領域
のために挿入されたランダム値に関するエネルギー情報を計算するように構成され、
前記ノイズ・フィラー(604)は
、挿入された
前記ランダム値をスケーリングするためのゲイン・ファクタを計算するように構成され、
前記ノイズ・フィラー(604)は、前記ゲイン・ファクタを前記挿入されたランダム値に適用するように構成される、
請求項10に記載の装置。
【請求項12】
前記ノイズ・フィラー(604)は、コピー動作(902)において、前記入力信
号の全スペクトル部分または前記入力信
号の、前記マッパ
ーが利用することのできるノイズ充填境界周波数を超える全スペクトル部分を、前記ソース・タイル・バッファにコピーして
充填ソース・タイル・バッファを得て、前記
充填ソース・タイル・バッファに対して前記置き換え動作(904)を実行するように構成される、または
前記ノイズ・フィラー(604)は、コピー動作(902)において、識別されたターゲット・スペクトル領域について前記マッパ
ーが使用するソース・スペクトル領域のための1つ以上の特定ソース識別子によって識別される、前記入力信
号のスペクトル領域のみをコピーするように構成され、ここで異なる個別のマッピング動作のそれぞれについて、個別のソース・タイル・バッファが使用される、
請求項4または請求項5に記載の装置。
【請求項13】
前記マッパ
ーは、前記ターゲット・スペクトル領域を生成するためにギャップ充填動作を実行するように構成され、前記装置は、
第1のスペクトル部分の第1のセットの第1の復号化された表現を生成するためのスペクトル領域音声デコーダ(112)であって、前記第1の復号化された表現は第1のスペクトル解像度を有する、スペクトル領域音声デコーダ(112)と、
前記第1のスペクトル解像度より低い第2のスペクトル解像度を有する第2のスペクトル部分の第2のセットの第2の復号化された表現を生成するためのパラメトリック・デコーダ(114)と、
前記第1のスペクトル部分の第1のセットの第1のスペクトル部分と、前記第2のスペクトル部分の第2のセットの第2のスペクトル部分についてのスペクトル・エンベロープ情報とを使用して、前記第1のスペクトル解像度を有する、再構築された第2のスペクトル部分を再生成するための周波数再生器(116)と、
前記第1の復号化された表現と前記再構築された第2のスペクトル部分を時間表現に変換するためのスペクトル時間コンバータ(118)と、
を含み、
前記マッパ
ーおよび前記ノイズ・フィラー(604)は、少なくとも部分的に前記周波数再生器(116)に含まれる、請求項1ないし請求項
11の1項に記載の装置。
【請求項14】
前記スペクトル領域音声デコーダは、スペクトル値の復号化されたフレームのシーケンスを出力するように構成され、復号化されたフレームは前記第1の復号化された表現であり、前記復号化されたフレームは、前記
第1のスペクトル部分の第1のセットについてのスペクトル値と前記第2のスペクトル部分の第2のセットについてのゼロ表示とを含み、
前記装置は、前記第2のスペクトル部分の第2のセットについて前記周波数再生器(116)が生成したスペクトル値と再構築バンドにおける前記第1のスペクトル部分の第1のセット
についての
前記スペクトル値とを結合して
、第1のスペクトル部分の前記第1のセットのための
前記スペクトル値
と第2のスペクトル部分の
前記第2のセット
についての
前記スペクトル値を含む再構築されたスペクトル・フレームを得るためのコンバイナ(208)をさらに含み、
前記スペクトル時間コンバータ(118)は、前記再構築されたスペクトル・フレームを前記時間表現に変換するように構成される、
請求項13に記載の装置。
【請求項15】
前記ターゲット・スペクトル領域は、周波数値が前記ソース・スペクトル領域内のソース領域周波数コンテンツの周波数値とは異なる、ターゲット・スペクトル領域周波数コンテンツを含み、
前記ターゲット・スペクトル領域について、ソース・スペクトル領域識別が存在し、
前記マッパ
ーは、前記ソース・スペクトル領域識別を使用して前記ソース・スペクトル領域を選択し、また、前記選択されたソース・スペクトル領域を前記ターゲット・スペクトル領域にマッピングするように構成される、
請求項1ないし請求項14の1項に記載の装置。
【請求項16】
前記ノイズ・フィラー(604)は制御ベクトルによって制御されるように構成され、前記制御ベクトルは、ノイズ充填が実行されたスペクトル位置については値「1」を有し、ノイズ充填が実行されなかったスペクトル位置についてはゼロ値を有すると決定される、または前記制御ベクトルは、スペクトル線がノイズ線であると識別されたスペクトル位置については値「1」を有し、スペクトル線がノイズ線であると識別されなかったスペクトル位置についてはゼロ値を有すると決定される、請求項1または請求項2に記載の装置。
【請求項17】
前記ノイズ・フィラー(604)は前記入力信
号からノイズ位置を識別する(900)ように構成され、ここで前記ノイズ充填領域(302)はノイズ値を一切有さず、
前記マッパ
ーは前記入力信
号の前記ソース・スペクトル領域を、前記ソース・スペクトル領域の前記ノイズ充填領域(302)にノイズ充填値を一切含まずに、前記強化スペクトル領域内の前記ターゲット・スペクトル領域にマッピングする(1002)ように構成され、
前記ノイズ・フィラー(604)は、
前記入力信
号からノイズ充填情報に含まれるエネルギー情報を読み出し(1004)、
前記のノイズ充填情報からの前記エネルギー情報を使用して、前記ノイズ充填領域(302)のため
の第1のノイズ値を生成し(1006)、
ランダム値を前記ターゲット・スペクトル領域のノイズ位置に挿入して(1008)挿入されたランダム値を取得し、
前記挿入されたランダム値をスケーリングして(1010)、前記第2のノイズ値を取得する
ように構成される、請求項2に記載の装置。
【請求項18】
前記ノイズ・フィラー(604)は、前記入力信
号内のゼロスペクトル値を識別することによって、または前記入力信
号からのノイズ充填情報を使用することによって、前記ノイズ位置を識別する(900)ように構成される、請求項17に記載の装置。
【請求項19】
前記ノイズ・フィラー(604)は、
前記ノイズ充填領域(302)のための前記第1のノイズ値に関するエネルギー情報を計算し(1100)、
前記挿入されたランダム値に関するエネルギー情報を計算し(1102)、
前記第1のノイズ値に関する前記エネルギー情報および前記挿入されたランダム値に関する前記エネルギー情報を使用して、スケーリング係数を計算し(1104)、
前記挿入されたランダム値をスケーリングする過程において、前記挿入されたランダム値を前記スケーリング係数で乗算する(1106)
ように構成される、請求項17に記載の装置。
【請求項20】
入力信
号から強化された信号を生成するための方法であって、前記方法は、
前記入力信
号を受信するステップと、
前記入力信
号のソース・スペクトル領域を前記強化された信号の強化スペクトル領域内のターゲット・スペクトル領域にマッピングするステッ
プであって、前記強化された信号は強化スペクトル領域のためのスペクトル値を有し、前記強化スペクトル領域のための前記スペクトル値は前記入力信
号に含まれない、マッピングするステッ
プと、
前記ターゲット・スペクトル領域内のノイズ領域についての第2のノイズ値を生成するステップ(604)であって、前記第2のノイズ値は前記入力信
号の前記ソース・スペクトル領域内の第1のノイズ値から
少なくとも部分的に独立している、生成するステップ(604)と、
を含む、方法。
【請求項21】
前記入力信
号の前記ソース・スペクトル領域は、前記ソース・スペクトル領域内の前記第1のノイズ値に向けられたノイズ充填領域(302)を含み、
前記生成するステップ(604)は、前記入力信
号の前記ソース・スペクトル領域内の前記ノイズ充填領域(302)のための前記第1のノイズ値を生成するステップを含む、請求項20に記載の方法。
【請求項22】
音声信号を処理するためのシステムであって、前記システムは、
前記音声信号から符号化された信号を生成するためのエンコーダと、
請求項1ないし請求項19のいずれか1項に記載の、強化された信号を生成するための前記装置であって、前記符号化された信号は、前記強化された信号を生成するための前記装置に入力信
号を生成するために、ある処理(700)を受ける、前記装置と、
を含むシステム。
【請求項23】
音声信号を処理する方法であって、前記方法は、
前記音声信号から符号化された信号を生成するステップと、
請求項20または請求項21に記載の、強化された信号を生成する方法であって、前記符号化された信号は、前記強化された信号を生成するための前記方法に入力信
号を生成するために、既定の処理(700)に付される、方法と、
を含む、方法。
【請求項24】
コンピュータ上で動作する際に、請求項20、請求項21または請求項23に記載の方法を実行するためのコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、信号処理に関するものであり、特に、音声信号処理に関するものである。
【背景技術】
【0002】
効率的なストレージのためのデータ量減少を目的とした音声信号の知覚的な符号化、または、これらの信号の伝送は、広く実用的に使われている。特に、最低ビットレートを達成しようとする時に、使用される符号化は、伝送される音声信号帯域のエンコーダ側での制限によってしばしば主に起因する音声品質の低下につながる。現代のコーデックにおいて、周知な方法が、音声信号Band Width Extension(BWE;帯域幅拡張)(例えばSpectral Band Replication(SBR;スペクトル帯域複製))を用いるデコーダ側の信号復元のために存在する。
【0003】
低ビット・レートの符号化において、いわゆるノイズ充填が、使用される。厳しいビットレート制限のためにゼロに量子化された突出したスペクトル領域は、デコーダ内で合成されたノイズで充填される。
【0004】
通常、両方の技術は、低ビットレートの符号化の適用において同時に行われる。さらに、Intelligent Gap Filling(IGF;インテリジェントギャップ充填)のような、音声符号化、ノイズ充填およびスペクトル・ギャップ充填を同時に用いる統合的解決策が存在する。
【0005】
しかしながら、すべてのこれらの方法は、第一段階で、ベースバンドまたはコア音声信号が波形復号化およびノイズ充填を用いて再現され、第二段階で、BWEまたはIGF処理が直ちに再現された信号を用いて実行される、という共通点を有している。これは、再現の間ノイズ充填によってベースバンドにおいて充填された同じノイズ値が、(BWEにおいて)高周波帯域の失われた部分を再生するために、または、(IGFにおいて)残りのスペクトル・ギャップを充填するために、使用されるという事実に至る。BWEまたはIGFにおいて複数のスペクトル領域を再現するために高度に相関するノイズを用いることは、知覚的な障害に至る可能性がある。
【0006】
最先端の技術水準において関連するトピックは、以下のことを含む。
・波形復号化に対するポストプロセッサとしてのSBR[1-3]
・AAC PNS[4]
・MPEG-D USAC ノイズ充填[5]
・G.719およびG.722.1C[6]
・MPEG-H 3D IGF[8]
【0007】
以下の文献および特許出願は、本出願に関連すると考えられる方法を記載する:
[1] M. Dietz, L. Liljeryd, K. Kjoerling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, Germany, 2002.
[2] S. Meltzer, R. Boehm and F. Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," in 112th AES Convention, Munich, Germany, 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th AES Convention, Munich, Germany, 2002.
[4] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, Audio Engineering Society 104th Convention, Preprint 4720, Amsterdam, Netherlands, 1998
[5] 欧州特許出願公開第2304720号 USACノイズ充填
[6] ITU-T勧告G.719およびG.221C
[7] 欧州特許出願公開第2704142号
[8] 欧州特許出願公開第13177350号
【0008】
これらの方法によって処理された音声信号は、特に低ビットレートで、例えば粗さ、変調歪みおよび不快に知覚される音質といったアーチファクトに苦しむこととなる。そして、その結果、低い帯域幅および/またはLF範囲のスペクトルホールの発生をこうむる。その理由は主として、後述するように、拡張された又はギャップ充填されたスペクトルの再現された構成要素が、ベースバンドからのノイズを含んでいる一つ以上の直接的なコピーに基づくものであるという事実である。再現されたノイズにおける上記の望まれざる相関関係から生じている一時的な変調は、知覚的な粗さ又は不快なゆがみとして騒々しく聞き取ることができる。mp3+SBR、AAC+SBR、USAC、G.719およびG.722.1C、更にはMPEG-H 3D IGFのようなすべての既存の方法は、最初に、コアからコピーまたは反映されたスペクトル・データでスペクトル・ギャップまたはハイバンドを満たす前にノイズ充填を含んでいる完全なコア復号化を行う。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、強化された信号を生成することについて改良された概念を提供することである。
【0010】
この目的は、請求項1の強化された信号を生成する装置、請求項11の強化された信号を生成する方法、請求項13の符号化および復号化のシステム、請求項14の符号化および復号化の方法、または、請求項15のコンピュータ・プログラム、によって達成される。
【課題を解決するための手段】
【0011】
本発明は、帯域幅拡張又はインテリジェントギャップ充填により生成された強化された信号、または、入力信号には含まれていない強化スペクトル領域に対するスペクトル値を有する他の方法により生成された強化された信号、の音声品質の重大な改善が、入力信号のソース・スペクトル領域においてノイズ充填領域に対する第1のノイズ値を生成すること、および、デスティネーション(destination)またはターゲット領域における、すなわち、現在はノイズ値を有する強化領域におけるノイズ領域に対する第2の独立したノイズ値、すなわち、第1のノイズ値から独立した第2のノイズ値を生成すること、によって得られる、という事実に、基づくものである。
【0012】
したがって、スペクトル値マッピングのためにベースバンドおよび強化バンドに従属するノイズがあるという従来の技術的課題は除去される。そして、粗さ、変調歪みおよび特に低ビット・レートで不快に知覚される音質といったようなアーチファクトがあるという関連する課題は除去される。
【0013】
すなわち、第2のノイズ値のノイズ充填は、第1のノイズ値から非相関される。つまり、第1のノイズ値から少なくとも部分的には独立しているノイズ値は、アーチファクトがもはや生じないか、または、従来技術に関しては少なくとも減少される、ということを確認する。それ故、簡単な帯域幅拡張またはインテリジェントギャップ充填動作によるベースバンドにおけるノイズ充填スペクトル値の従来技術での処理は、ベースバンドからのノイズとは非相関であり、例えば、レベルを変えるのみである。しかしながら、一方ではソース・バンドにおいて、他方ではターゲット・バンドにおいて、好ましくは別個のノイズ処理に由来する、非相関のノイズ値を導入することは、最高の結果を提供する。しかしながら、完全に非相関ではない、または、完全に独立してはおらず、0(ゼロ)の非相関値が完全な非相関を示すときに例えば0.5以下の非相関値で少なくとも部分的に非相関であるノイズ値の導入さえ、従来技術の完全な相関問題を改善する。
【0014】
それゆえに、実施例は、知覚的なデコーダにおいて、波形復号化、帯域幅拡張、または、ギャップ充填およびノイズ充填、の組合せを述べている。
【0015】
更なる利点は、既存の概念とは対照的に、信号歪みおよび知覚的な粗さというアーチファクトの発生が回避されるということである。ここで、アーチファクトは、現在のところ波形復号化およびノイズ充填に続く帯域幅拡張またはギャップ充填を計算することに対して典型的なことである。
【0016】
これは、いくつかの実施例において、前述の処理ステップの過程で生じる変化によるものである。波形復号化の後に帯域幅拡張またはギャップ充填を直接的に実行することは好まれ、そして、無相関のノイズを使用して既に再構築された信号上にノイズ充填を引き続いて算出することは、さらに好まれる。
【0017】
更なる実施例においては、波形復号化およびノイズ充填は従来の順序で実行されることができ、さらに前記処理の流れに沿って、ノイズ値は適切にスケールされた無相関のノイズと置き換えられることができる。
【0018】
それゆえに、本発明は、ノイズ充填の段階を処理連鎖のまさにその終端へ移すことによって、そして、パッチングまたはギャップ充填のために無相関のノイズを使用することによって、ノイズ充填されたスペクトル上への複写動作または鏡像動作によって発生する課題に対処する。
【0019】
続いて、本発明の好ましい実施例は、添付の図面に関して述べられる。
【図面の簡単な説明】
【0020】
【
図1a】
図1aは、音声信号を符号化する装置を例示する図である。
【
図1b】
図1bは、
図1aのエンコーダと整合する符号化された音声信号を復号化するためのデコーダを例示する図である。
【
図2a】
図2aは、デコーダの好適な実施の形態を例示する図である。
【
図2b】
図2bは、エンコーダの好適な実施の形態を例示する図である。
【
図3a】
図3aは、
図1bのスペクトル領域デコーダによって生成されるスペクトルの概略図を例示する図である。
【
図3b】
図3bは、スケール・ファクタ・バンドのためのスケール・ファクタと再構築バンドのためのエネルギーとノイズ充填バンドのためのノイズ充填情報との関係を示している表を例示する図である。
【
図4a】
図4aは、スペクトル部分の選択をスペクトル部分の第1および第2のセットに適用するためのスペクトル領域エンコーダの機能を例示する図である。
【
図5a】
図5aは、MDCTエンコーダの機能を例示する図である。
【
図5b】
図5bは、MDCT技術を備えるデコーダの機能を例示する図である。
【
図5c】
図5cは、周波数再生器の実施の形態を例示する図である。
【
図6】
図6は、本発明による強化された信号を生成する装置を例示するブロック図である。
【
図7】
図7は、本発明の実施例によるデコーダにおいて選択情報によって導かれる独立したノイズ充填の信号フローを例示する図である。
【
図8】
図8は、ギャップ充填または帯域幅拡張の交換された順序およびデコーダのノイズ充填によって実施される独立したノイズ充填の信号フローを例示する図である。
【
図9】
図9は、本発明の更なる実施例による手順のフローチャートを例示する図である。
【
図10】
図10は、本発明の更なる実施例による手順のフローチャートを例示する図である。
【
図11】
図11は、ランダムな値のスケーリングを説明するためのフローチャートを例示する図である。
【
図12】
図12は、本発明を一般的な帯域幅拡張またはギャップ充填手順に組み込んだものを例示しているフローチャートを例示する図である。
【
図13a】
図13aは、帯域幅拡張パラメータの計算を伴うエンコーダを例示する図である。
【
図13b】
図13bは、
図1aまたは1bのような統合化された手順よりもむしろポストプロセッサとして実施される帯域幅拡張を伴うデコーダを例示する図である。
【発明を実施するための形態】
【0021】
図6は、音声信号にもなりえる入力信号から、例えば音声信号のような強化された信号を生成する装置を例示する。強化された信号は、強化スペクトル領域に対するスペクトル値を有する。ここで、強化スペクトル領域に対するスペクトル値は、入力信号である入力600で最初の入力信号には含まれない。当該装置は、入力信号のソース・スペクトル領域を強化スペクトル領域のターゲット領域にマップするためのマッパー602を備える。ここで、ソース・スペクトル領域は、ノイズ充填領域を含む。
【0022】
さらにまた、当該装置は、入力信号のソース・スペクトル領域のノイズ充填領域のための第1のノイズ値を生成するように構成された、そして、ターゲット領域のノイズ領域のための第2のノイズ値を生成するように構成されたノイズ・フィラー(noise filler)604を備える。ここで、第2のノイズ値、すなわち、ターゲット領域のノイズ値は、ノイズ充填領域において第1のノイズ値から独立しているか、無相関であるか、非相関である。
【0023】
一実施例は、次の状況に関する。その状況において、ノイズ充填は、実際はベースバンドにおいて実行される。つまり、その状況において、ソース領域のノイズ値は、ノイズ充填によって生成されたものである。更なる変形例において、ソース領域のノイズ充填は実行されなかったと推定される。にもかかわらず、ソース領域は、ソースまたはコア・エンコーダによってスペクトル値として例示的に符号化されるスペクトル値のようなノイズで実際は満たされるノイズ領域を有している。ソース領域のようなこのノイズを強化領域にマップすることは、ソース及びターゲット領域において従属するノイズをも生成する。この問題に対処するために、ノイズ・フィラー(noise filler)は、マッパーのターゲット領域に、当該ノイズを充填するだけである。すなわち、ノイズ・フィラー(noise filler)は、ターゲット領域におけるノイズ領域のために第2のノイズ値を生成する。ここで、第2のノイズ値は、ソース領域の第1のノイズ値から非相関される。この置換またはノイズ充填は、ソース・タイル・バッファにおいて起こることもでき、またはターゲットそのものにおいて起こることもできる。ノイズ領域は、ソース領域を分析することによって、または、ターゲット領域を分析することによって、分類器によって識別することができる。
【0024】
この目的を達成するために、
図3Aを参照して述べる。
図3Aは、充填領域として、入力信号のスケール・ファクタ・バンド301を例示する。そして、ノイズ・フィラー(noise filler)は、入力信号の復号化動作においてこのノイズ充填バンド301で第1のノイズ・スペクトル値を生成する。
【0025】
さらに、このノイズ充填バンド301は、ターゲット領域にマップされる。すなわち、従来技術と一致するように、生成されたノイズ値はターゲット領域にマップされる。そして、それゆえ、ターゲット領域は、ソース領域を伴うノイズに依存または相関している。
【0026】
本発明によれば、しかしながら、
図6のノイズ・フィラー(noise filler)604は、デスティネーション(destination)またはターゲット領域におけるノイズ領域のために第2のノイズ値を生成する。ここで、第2のノイズ値は、
図3Aのノイズ充填バンド301における第1のノイズ値から非相関であるか、無相関であるか、独立している。
【0027】
通常、ノイズ充填とソース・スペクトル領域をデスティネーション(destination)領域にマップするためのマッパーとは、統合化されたギャップ充填の範囲内で、
図1Aから
図5Cまで例示的に図示するように、高周波数再生器の範囲内に含まれていてもよく、または、
図13Bにて図示するようにポストプロセッサとして、そして
図13Aの対応エンコーダとして実施されることができる。
【0028】
通常、入力信号は、逆量子化700またはその他に、または、ブロック700の出力で、
図6の入力信号が得られることを意味する付加的な所定のデコーダ処理700を受ける。その結果、コア・コーダ・ノイズ充填ブロックまたはノイズ・フィラー・ブロック(noise filler block)704への入力は、
図6の入力600である。
図6のマッパーはギャップ充填または帯域幅拡張ブロック602に対応し、そして、独立したノイズ充填ブロック702は
図6のノイズ・フィラー(noise filler)604にも含まれる。このように、ブロック704および702は共に
図6のノイズ・フィラー(noise filler)ブロック604にも含まれ、そして、ブロック704はノイズ充填領域におけるノイズ領域のためにいわゆる第1のノイズ値を生成し、そして、ブロック702はデスティネーション(destination)またはターゲット領域におけるノイズ領域のために第2のノイズ値を生成する。そして、それはマッパーまたはギャップ充填または帯域幅拡張ブロック602によって実行される帯域幅拡張によるベースバンドにおけるノイズ充填領域に由来する。さらに、後ほど述べられるように、ブロック702によって実行される独立のノイズ充填動作は、制御ライン706で例示される制御ベクトルPHIによって制御される。
【0029】
1.ステップ:ノイズ識別
第1段階において、送信された音声フレームにおけるノイズを表す全てのスペクトル線は、識別される。識別処理は、ノイズ充填[4][5]に使用するノイズ位置についてのすでに既存の、送信された情報によって制御されてもよい、または追加分類子と識別されてもよい。ノイズ線識別の結果は、1の位置がノイズを表すスペクトル線を示す0および1を含むベクトルである。
【0030】
数学的に言えば、この手順は、次のように表現することができる:
【0031】
【0032】
【0033】
【0034】
【0035】
2.ステップ:独立したノイズ
第二段階において、送信されたスペクトルの特定の領域は、選択されて、ソース・タイルへコピーされる。このソース・タイルの範囲内で、識別されたノイズは、ランダム・ノイズに置き換えられる。挿入されたランダム・ノイズのエネルギーは、ソース・タイルにおけるオリジナルのノイズの同じエネルギーに適合される。
【0036】
数学的に言えば、この手順は、次のように表現することができる:
【0037】
【0038】
【0039】
【0040】
【0041】
【0042】
【0043】
【0044】
【0045】
図8は、
図1Bのブロック112において例示されるスペクトル領域の復号化のようないかなる後処理にも続く実施例を例示する。または、
図13Bのブロック1326で例示されるポストプロセッサの実施例において、入力信号は、最初に、ギャップ充填または帯域幅拡張に従う。すなわち、入力信号は、最初にマッピング動作に従い、そして、それから、独立したノイズ充填は、その後、すなわち、全スペクトルの範囲内で、実行される。
【0046】
【0047】
【0048】
【0049】
【0050】
【0051】
【0052】
本発明の独立したノイズ充填が、同様にステレオ・チャネル・ペア環境において用いられることができる。したがって、エンコーダは、周波数帯および任意の予測係数毎に、適切なチャネル・ペア表現、L/RまたはM/Sを計算する。デコーダは、上記の独立したノイズ充填を、L/R表現に向かうすべての周波数帯の最終変換の次の計算の前に、チャネルの適切に選ばれた表現に適用する。
【0053】
本発明は、完全な帯域幅が利用できないか、スペクトルホールを埋めるためのギャップ充填を使用するすべての音声アプリケーションに、適用できる、又は、適している。本発明は、例えばデジタル・ラジオ、インターネット・ストリーミングおよび音声通信アプリケーションで、例えば音声コンテンツの配布または放送で、使用形態を発見することができる。
【0054】
次に、本発明の実施例は、
図9-12に関して述べられる。ステップ900において、ノイズ領域は、ソース範囲において識別される。この手順、つまり「ノイズ識別」に関して以前から議論されていた手順は、完全にエンコーダ側から受け取られるノイズ充填サイド情報に依存することができ、または、強化スペクトル領域のためのスペクトル値なしで、すなわち、この強化スペクトル領域のためのスペクトル値なしで、既に生成された入力信号の信号分析に代替的に又は付加的に依存するように加えて構成されることもできる。
【0055】
それから、ステップ902において、当該技術分野において周知である直接のノイズ充填に既にしたがっているソース範囲、すなわち、完全なソース範囲は、ソース・タイル・バッファへコピーされる。
【0056】
それから、ステップ904において、第1のノイズ値、すなわち入力信号のノイズ充填領域の中で発生する直接のノイズ値は、ランダムな値によってソース・タイル・バッファにおいて置換される。それから、ステップ906において、これらのランダムな値は、ソース・タイル・バッファにおいてスケーリングされターゲット領域に対する第2のノイズ値を得る。それから、ステップ908において、マッピング動作が実行される、すなわち、ステップ904及び906の後に利用可能なソース・タイル・バッファのそれらの内容は、デスティネーション(destination)範囲にマップされる。このようにして、置換動作904によって、そして、マッピング動作908に続いて、ソース範囲およびターゲット範囲の独立したノイズ充填動作が、得られた。
【0057】
図10は、本発明の更なる実施例を例示する。また、ステップ900で、ソース範囲のノイズは、識別される。しかしながら;このステップ900の機能は
図9のステップ900の機能と異なる。なぜなら、
図9のステップ900は、ノイズ値をすでに受信した、すなわち、ノイズ充填動作がすでに実行された、入力信号スペクトルに作用することができる。
【0058】
しかしながら、
図10においては、入力信号に対するいかなるノイズ充填動作も実行されなかった、そして、入力信号は、ステップ902の入力でノイズ充填領域のいかなるノイズ値もまだ有しない。ステップ902において、ソース範囲は、デスティネーション(destination)またはターゲット範囲にマップされる。ここで、ノイズ充填値はソース範囲に含まれていない。
【0059】
このようにして、ステップ900のソース範囲におけるノイズの識別は、ノイズ充填領域に関して、信号の0スペクトル値を識別することによって、および/または、入力信号からのこのノイズ充填サイド情報を用いることによって、実行されることができる。すなわち、エンコーダ側はノイズ充填情報を生成した。それから、ステップ904において、ノイズ充填情報と、特に、デコーダ側の入力信号にもたらされるエネルギーを識別しているエネルギー情報とが、読み込まれる。
【0060】
それから、ステップ1006にて図示するように、ソース範囲におけるノイズ充填が実行され、そして、その後、または、並行して、ステップ1008は実行される。すなわち、ランダムな値は、全帯域にまたがるステップ900によって識別された、または、マッピング情報とともにベースバンドまたは入力信号情報を用いて識別された、デスティネーション(destination)範囲における位置に挿入される。そして、マッピング情報とは、すなわち、どの(複数の)ソース範囲が、どの(複数の)ターゲット範囲にマップされるかという情報である。
【0061】
最後に、挿入されたランダムな値は、2番目に独立であるか無相関であるか非相関のノイズ値を得るためにスケーリングされる。
【0062】
次に、
図11は、強化スペクトル領域におけるノイズ充填値のスケーリングに関する更なる情報を例示するために述べられる。すなわち、いかにしてランダムな値から、第2のノイズ値が得られるか、が述べられる。
【0063】
ステップ1100において、ソース範囲におけるノイズに関するエネルギー情報が、得られる。それから、エネルギー情報は、ランダムな値から、すなわち、ステップ1102にて図示するように、ランダム又は疑似ランダムの処理によって生成する値から、決定される。さらにまた、ステップ1104は、スケール・ファクタを計算する方法、すなわち、ソース範囲におけるノイズに関するエネルギー情報を用いる方法、そして、ランダムな値に関するエネルギー情報を用いる方法を説明する。それから、ステップ1106において、ランダムな値、すなわちステップ1102においてエネルギーが計算される根拠となったランダムな値は、ステップ1104によって生成されたスケール・ファクタを乗算される。それゆえ、
図11において例示される手順は、先に実施例において示されたスケール・ファクタgの計算に対応する。しかしながら、すべてのこれらの計算は、対数的領域において、または、他のいかなる領域において、実行されることもでき、そして、乗算ステップ1106は対数的範囲における加算または減算によって置換されることができる。
【0064】
更に、一般的なインテリジェントギャップ充填または帯域幅拡張スキームの範囲内で本発明の埋め込みを例示するために、
図12になされる。ステップ1200において、スペクトル・エンベロープ情報は、入力信号から回収される。スペクトル・エンベロープ情報は、例えば、
図13Aのパラメータ抽出器1306によって生成されることができ、そして、
図13bのパラメータ・デコーダ1324によって提供されることができる。それから、第2のノイズ値およびデスティネーション(destination)範囲における他の値は、1202に図示するようにこのスペクトル・エンベロープ情報を使用して、スケーリングされる。その後、いかなる更なる後処理1204も、帯域幅拡張の場合には増加した帯域幅を有する、もしくは、数が減らされた最終的な時間領域の強化された信号を得るために、または、インテリジェントギャップ充填の状況におけるスペクトルホールを得ないために、実行されることができる。
【0065】
この状況において、特に
図9の実施例のために、いくつかの変形例が適用されることができることが、概説される。実施例のために、ステップ902は、入力信号の全部のスペクトルで、または、少なくともノイズ充填境界周波数を越える入力信号のスペクトルの部分で、実行される。この周波数は、特定の周波数以下で、すなわち、この周波数以下で、いかなるノイズ充填も全く実行されないことを保証する。
【0066】
それから、いかなる特定のソース範囲/ターゲット範囲マッピング情報にかかわりなく、全部の入力信号スペクトル、すなわち完全な潜在的ソース範囲は、ソース・タイル・バッファ902へコピーされ、それからステップ904および906で処理される、そして、ステップ908はそれから特に必要とされる特定のソース領域をこのソース・タイル・バッファから選択する。
【0067】
他の実施例において、しかしながら、入力信号の部分だけでもよい特に必要とされるソース範囲だけは、単一のソース・タイル・バッファに、または、入力信号に含まれるソース範囲/ターゲット範囲情報に基づくいくつかの個々のソース・タイル・バッファに、すなわち、サイド情報としてこの音声入力信号に関連するソース・タイル・バッファに、コピーされる。特に必要とされるソース範囲だけはステップ902、904、906によって処理される当該状況つまり第2の変形例に応じて、複雑さ又は最低メモリ必要条件は、特定のマッピング状況から常に独立している状況であって、少なくともノイズ充填境界周波数を超える全部のソース範囲がステップ902、904、906によって処理される状況と比較して、減少されていてもよい。
【0068】
その後、周波数再生器116の範囲内で本発明の特定の実施の形態を例示するために、
図1a-5cが参照される。周波数再生器116は、スペクトル時間コンバータ118の前に配置される。
【0069】
図1aは、音声信号99を符号化する装置を例示する。音声信号99は、サンプリングレートを有する音声信号を、時間スペクトル・コンバータによって出力されるスペクトル表現101に変換するための、時間スペクトル・コンバータ100への入力である。当該スペクトル101は、スペクトル表現101を分析するためのスペクトル・アナライザ102への入力である。スペクトル・アナライザ101は、第1のスペクトル解像度で符号化されるように第1のスペクトル部分103の第1のセットを決定し、そして、第2のスペクトル解像度で符号化されるように第2のスペクトル部分105の異なる第2のセットを決定するように、構成される。第2のスペクトル解像度は、第1のスペクトル解像度より小さい。第2のスペクトル部分105の第2のセットは、第2のスペクトル解像度を有するスペクトル・エンベロープ情報を計算するためのパラメータ計算器またはパラメトリック・コーダ104への入力である。さらにその上、スペクトル領域音声コーダ106は、第1のスペクトル解像度を有する第1のスペクトル部分の第1のセットの第1の符号化された表現107を生成するために設けられている。さらにまた、パラメータ計算器/パラメトリック・コーダ104は、第2のスペクトル部分の第2のセットの第2の符号化された表現109を生成するように構成される。第1の符号化された表現107と第2の符号化された表現109とは、ビット・ストリーム・マルチプレクサまたはビット・ストリーム・フォーマ108への入力であり、そして、ブロック108は最終的に、伝送または記憶装置上の記憶のために符号化された音声信号を出力する。
【0070】
概して、
図3aのうちの306のような第1のスペクトル部分は、307a、307bのような2つの第2のスペクトル部分によって囲まれる。これは、HE AACにおけるケースではなく、ここで、コア・コーダ周波数範囲は、帯域制限されている。
【0071】
図1bは、
図1aのエンコーダと適合するデコーダを例示する。第1の符号化された表現107は、第1のスペクトル部分の第1のセットの第1の復号化された表現(第1のスペクトル解像度を有する復号化された表現)を生成するためのスペクトル領域音声デコーダ112への入力である。さらにまた、第2の符号化された表現109は、第1のスペクトル解像度より低い第2のスペクトル解像度を有する第2のスペクトル部分の第2のセットの第2の復号化された表現を生成するためのパラメトリック・デコーダ114への入力である。
【0072】
デコーダは、さらに、第1のスペクトル部分を使用している第1のスペクトル解像度を有する再構築された第2のスペクトル部分を再生するための周波数再生器116を有する。周波数再生器116は、タイル充填動作を実行する、すなわち、第1のスペクトル部分の第1のセットのタイルまたは部分を使用し、第2のスペクトル部分を有する再構築範囲または再構築バンドへの第1のスペクトル部分のこの第1のセットをコピーし、そして、概して、パラメトリック・デコーダ114によって復号化される第2の表現の出力によって、すなわち、第2のスペクトル部分の第2のセットに関する情報を用いて、示されるように、スペクトル・エンベロープの形成またはその他の動作を実行する。第1のスペクトル部分の復号化された第1のセットと、線117上の周波数再生器116の出力で示されるようなスペクトル部分の再構築された第2のセットとは、第1の復号化された表現と再構築された第2のスペクトル部分とを時間表現119(ある特定の高いサンプリング・レートを有する時間表現)へ変換するように構成されるスペクトル時間コンバータ118への入力である。
【0073】
図2bは、
図1aのエンコーダの実施の形態を例示する。音声入力信号99は、
図1aの時間スペクトル・コンバータ100に対応する分析フィルタバンク220への入力である。それから、TNSブロックでは、時間的なノイズ整形動作が行われる。従って、
図2bの1ブロックである音のマスク226に対応する
図1aのスペクトル・アナライザ102への入力は、時間的ノイズ整形動作/時間的タイル整形動作が適用されない時は完全なスペクトル値であり、
図2bで例示されるようなTNS動作であるブロック222が適用されるときは残余のスペクトル値である。2チャネル信号またはマルチチャネル信号のために、ジョイントチャネル符号化228が付加的に実行されることができる。その結果、
図1aのスペクトル領域エンコーダ106は、ジョイントチャネル符号化ブロック228を有していてもよい。さらに、ロスレスデータ圧縮を実行するためのエントロピー・コーダ232は設けられている。そして、それは
図1aのスペクトル領域エンコーダ106の一部でもある。
【0074】
スペクトル・アナライザ/音のマスク226は、TNSブロック222の出力を、コア・バンドと、第1のスペクトル部分103の第1のセットに対応する音の構成要素と、
図1aの第2のスペクトル部分105の第2のセットに対応する残余の構成要素と、に分離する。IGFパラメータ抽出符号化として示されるブロック224は、
図1aのパラメトリック・コーダ104に対応し、そして、ビット・ストリーム・マルチプレクサ230は、
図1aのビット・ストリーム・マルチプレクサ108に対応する。
【0075】
好ましくは、分析フィルタバンク222はMDCT(修正された離散コサイン変換フィルタバンク)として実施され、そして、MDCTは、信号99を、周波数分析ツールとして作用する修正された離散コサイン変換で時間周波数領域に変換するために用いられる。
【0076】
スペクトル・アナライザ226は、好ましくは音調マスクを適用する。この音調マスク評価ステージは、音の構成要素を信号中のノイズのような構成要素から分離するために用いられる。これは、コア・コーダ228に音響心理学的なモジュールを有するすべての音の構成要素を符号化させることができる。音調マスク評価ステージは、多数の異なる方法で実施されることができて、好ましくは、スピーチ/オーディオ符号化[8、9]のためのサイン(sine)およびノイズモデリングにおいて使用される正弦波トラック評価ステージ、または、〔10〕に記載した音声コーダに基づくHILNモデルと同様に、その機能において、実施される。好ましくは、出生死滅過程を維持する必要性なしに実施することが容易である実施の形態が用いられるが、他のいかなる音調またはノイズ検出器も同様に用いられることができる。
【0077】
【0078】
【0079】
加えて、例えばさえずりや音楽的なノイズのような周波数領域のアーチファクトを取り除くタイル選択安定化技術が提案されている。
【0080】
ステレオ・チャネル・ペアの場合には、付加的なジョイントステレオ処理が適用される。これは、必要なことである。なぜなら、ある特定のデスティネーション(destination)範囲のために、信号は、パンされた音源と高度に相関することができるからである。この特定領域のために選択されるソース領域がよく相関していない場合には、エネルギーがデスティネーション(destination)領域のために適合されるにもかかわらず、空間イメージは無相関のソース領域のために損なわれることができる。概してスペクトル値の相互相関を実行しつつ、エンコーダは、それぞれのデスティネーション(destination)領域エネルギー・バンドを分析し、そして、特定の閾値が上回られる場合には、このエネルギー・バンドのためのジョイントフラグをセットする。このジョイント・ステレオ・フラグがセットされない場合、デコーダにおいて、左右のチャネル・エネルギー・バンドは個々に処理される。ジョイント・ステレオ・フラグがセットされる場合には、エネルギーもパッチングも両方ともジョイントステレオ領域において実行される。予測の場合には、予測の方向がダウンミックスから残余であるか又はその逆の方向であるのかを指し示しているフラグを含みつつ、IGF領域のためのジョイントステレオ情報は、コア符号化のためジョイントステレオの情報と同様にシグナリングされる。
【0081】
【0082】
もう一つの解決策は、ジョイントステレオが作動中であるバンドに対してジョイントステレオ領域において直接的にエネルギーを計算し、伝送することである。その結果、付加的なエネルギー変換がデコーダ側では必要とされない。
【0083】
【0084】
【0085】
ジョイントステレオ->LR変換:
【0086】
【0087】
【0088】
【0089】
この処理は、たとえソース領域が相関していない場合であっても、高度に相関されるデスティネーション(destination)領域とパンされたデスティネーション(destination)領域とを再生するために使用されるタイルから、結果として生じる左右のチャネルはまだ、相関されパンされた音源を表現することを保証する。そして、そのような領域のためにステレオ画像を保存する。
【0090】
換言すれば、ビットストリームにおいて、一般的なジョイントステレオ符号化のための一例としてL/RかM/Sが使われるかどうかについて指し示すジョイント・ステレオ・フラグが送信される。デコーダにおいて、最初に、コア・バンドのためのジョイント・ステレオ・フラグによって示されるように、コア信号は復号化される。2番目に、コア信号は、L/RおよびM/S表現に格納される。IGFタイル充填のために、IGFバンドのためのジョイントステレオ情報によって示されるように、ソース・タイル表現はターゲット・タイル表現に適合するように選ばれる。
【0091】
時間的ノイズ形成(TNS)は、標準技術およびAAC[11-13]の一部である。TNSは、知覚的なコーダの基本スキームの拡張と考えることができる。そして、フィルタバンクと量子化ステージとの間に任意の処理ステップを挿入する。TNSモジュールのメイン・タスクは、生成された量子化ノイズを信号のような過渡現象の一時的なマスキング領域に隠すことである、そして、したがって、それは、より効率的な符号化スキームに至る。最初に、TNSは、変換領域(例えばMDCT)における「前方予測」を使用している一組の予測係数を計算する。これらの係数は、それから、信号の時間的エンベロープを平坦化するために使用される。量子化がTNSフィルタに通されたスペクトルに影響を及ぼすので、また、量子化ノイズは一時的に平坦である。デコーダ側で逆TNSフィルタリングを適用することによって、量子化ノイズはTNSフィルタの時間的エンベロープにしたがって形成され、したがって、量子化ノイズは過渡現象によってマスクされる。
【0092】
IGFは、MDCT表現に基づく。効果的な符号化のために、好ましくは、約20msの長いブロックが、用いられなければならない。そのような長いブロックの中の信号が過渡現象を含む場合、聞き取ることができる前および後エコーは、タイル充填によりIGFスペクトル・バンドで発生する。
図7cは、IGFにより一時的な開始の前に典型的な前エコー効果を示す。左側で、オリジナル信号のスペクトログラムが示され、そして、右側で、TNSフィルタリングを用いないで帯域幅拡張した信号のスペクトログラムは示される。
【0093】
【0094】
従来のデコーダにおいて、音声信号上のスペクトル・パッチングは、パッチ境界でスペクトル相関を崩し、このことにより、分散を導くことによって、音声信号の時間的エンベロープを損なう。それゆえ、残余信号上のIGFタイル充填を実行する他の利点は、フィルタ形成のアプリケーションの後、タイル境界がシームレスに相関しているということである。そして、このことは、信号のより忠実な時間的再生という結果になる。
【0095】
発明のエンコーダにおいて、TNS/TTSフィルタリング、音調マスク処理およびIGFパラメータ評価を受けていたスペクトルは、音の構成要素を除いてIGF開始周波数を上回る任意の信号を欠いている。このまばらなスペクトルは、算術符号化および予測符号化の原則を使用しているコア・コーダによって現在のところ符号化される。シグナリング・ビットと一緒にこれらの符号化された構成要素は、オーディオのビットストリームを形成する。
【0096】
図2aは、対応するデコーダの実施の形態を例示する。符号化された音声信号に対応する
図2aのビットストリームは、ブロック112および114まで、
図1bに関して、接続されるデマルチプレクサ/デコーダへの入力である。ビットストリーム・デマルチプレクサは、入力音声信号を
図1bの第1の符号化された表現107と
図1bの第2の符号化された表現109とに分割する。第1のスペクトル部分の第1のセットを有する第1の符号化された表現は、
図1bのスペクトル領域デコーダ112に対応するジョイントチャネル復号化ブロック204への入力である。第2の符号化された表現は、
図2aにおいて例示されていないパラメトリック・デコーダ114への入力であり、そしてそれから、
図1bの周波数再生器116に対応するIGFブロック202への入力である。周波数再生のために必要な第1のスペクトル部分の第1のセットは、線203を経由するIGFブロック202への入力である。さらにその上、ジョイントチャネル復号化204に続いて、特定のコア復号化は、音のマスク・ブロック206に適用される。その結果、音のマスク206の出力は、スペクトル領域デコーダ112の出力に対応する。それから、コンバイナ208による組合せは実行される。すなわち、コンバイナ208の出力が完全な範囲のスペクトルを有するが、しかしまだ、TNS/TTSフィルタに通された領域におけるフレーム構築が行われる。それから、ブロック210において、逆TNS/TTS動作は、線109を経由して提供されるTNS/TTSフィルタ情報を使用して実行される。すなわち、TTSサイド情報は、好ましくは、スペクトル領域エンコーダ106によって生成される第1の符号化された表現に含まれる。スペクトル領域エンコーダ106は、例えば、直接のAACまたはUSACコア・エンコーダでありえるか、又は、第2の符号化された表現に含まれることもできる。ブロック210の出力で、オリジナルの入力信号のサンプリング・レートで定義される完全な範囲の周波数である最大周波数までの完全なスペクトルが提供される。それから、スペクトル/時間変換は、最後に音声出力信号を得るために、合成フィルタバンク212において実行される。
【0097】
図3aは、スペクトルの概略図を例示する。スペクトルは、
図3aの例で図示するように、SCB1からSCB7までの7つのスケール・ファクタ・バンドが存在するスケール・ファクタ・バンドSCBにおいて再分割される。スケール・ファクタ・バンドは、AAC規格において定められるAACスケール・ファクタ・バンドであり得て、そして、模式的に
図3aにて図示するように、上側の周波数まで増加している帯域幅を有する。スペクトルのまさしくその始まりからではなくインテリジェントギャップ充填を実行することが、好ましい。すなわち、低周波数で、309で例示したIGF開始周波数でIGF動作を開始することが好ましい。したがって、コア周波数帯は、最低周波数からIGF開始周波数まで伸びる。IGF開始周波数を上回って、スペクトル分析は、高解像度スペクトル要素304、305、306、307(第1のスペクトル部分の第1のセット)を第2のスペクトル部分の第2のセットによって表現される低解像度要素から分離するために適用される。
図3aは、スペクトル領域エンコーダ106またはジョイント・チャネル・コーダ228への模式的な入力であるスペクトルを例示する。すなわち、コア・エンコーダは完全な範囲で動作するが、相当数の0スペクトル値を符号化する。すなわち、これらの0スペクトル値は0に量子化され、または、量子化する前または、量子化の後に0にセットされる。いずれにせよ、コア・エンコーダは完全な範囲で動作する。すなわち、スペクトルが図示されるように、すなわち、コア・デコーダは、必ずしも、任意のインテリジェントギャップ充填を認知する必要はなく、より低いスペクトル解像度を用いて第2のスペクトル部分の第2のセットの符号化をする必要もない。
【0098】
好ましくは、高解像度はMDCT線のようなスペクトル線の線的な符号化によって定義される。その一方で、第2の解像度または低解像度は、例えば、スケール・ファクタ・バンド毎に単一のスペクトル値のみを計算することによって定義される。ここで、スケール・ファクタ・バンドは、いくつかの周波数線をカバーする。このように、第2の低解像度は、そのスペクトル解像度に関して、例えばAACまたはUSACコア・エンコーダのようなコア・エンコーダによって典型的に適用される線的な符号化によって定義される第1の又は高解像度より非常に低い。
【0099】
【0100】
特に、コア・エンコーダが低ビットレートの状態の下にあるときに、コア・バンドにおける、すなわち、IGF開始周波数より低い周波数における、すなわち、SCB1からSCB3までのスケール・ファクタ・バンドにおける、付加的なノイズ充填動作は、加えて適用されることができる。ノイズ充填において、ゼロまで量子化された複数の隣接するスペクトル線が、存在する。デコーダ側で、0のスペクトル値まで量子化されたこれらは再合成され、そして、再合成されたスペクトル値は、
図3bにおける308で例示されるNF
2のようなノイズ充填エネルギーを用いて、それらの規模で適合させられる。絶対的な条件で与えられうる、又は、USACにおけるものとして特にスケール・ファクタに関する相対的な条件で与えられうる、ノイズ充填エネルギーは、0まで量子化されるスペクトル値のセットのエネルギーに対応する。これらのノイズ充填スペクトル線は、ソース範囲からのスペクトル値とエネルギー情報E1、E2、E3、E4とを使用している周波数タイルを再構築するための他の周波数から周波数タイルを使用している周波数再生に依存しているいかなるIGF動作もない直接のノイズ充填合成によって再生される第3のスペクトル部分の第3のセットである、と考慮されることもできる。
【0101】
好ましくは、エネルギー情報が計算される対象である、バンドは、スケール・ファクタ・バンドと一致する。他の実施例において、例えば、スケール・ファクタ・バンド4および5に対して、単一のエネルギー情報値だけが送信されるように、エネルギー情報値グループ化は適用されるが、しかし、本実施例においてさえ、グループ化された再構築バンドの境界はスケール・ファクタ・バンドの境界と一致する。異なるバンド分離が適用される場合、特定の再計算または同期計算は適用されてもよく、そして、これは特定の実施の形態に応じて意味をなすことができる。
【0102】
好ましくは、
図1aのスペクトル領域エンコーダ106は、
図4aにて図示するように、音響心理学的に駆動されるエンコーダである。概して、例えばMPEG2/4 AAC規格またはMPEG1/2,Layer 3規格において例示されるように、スペクトル範囲(
図4aの401)に変形された後に符号化された音声信号であることは、スケール・ファクタ計算器400に送られる。スケール・ファクタ計算器は、量子化された音声信号であることを付加的に受信する、又は、MPEG1/2 Layer 3またはMPEG AAC規格においてそうであるように、音声信号の複雑なスペクトル表現を受信する音響心理学的なモデルによってコントロールされる。音響心理学的なモデルは、各スケール・ファクタ・バンドに対して、音響心理学的な閾値を表現しているスケール・ファクタを計算する。加えて、よく知られた内側と外側との繰り返しループの協力によって、または、他の任意の適切な調整された符号化手順によって、スケール・ファクタは、特定のビットレート条件が完全に充たされるように調整される。それから、一方では量子化されたスペクトル値であることが、他方では計算されたスケール・ファクタが、クオンタイザ・プロセッサ404への入力である。直接の音声エンコーダ動作において、量子化されたスペクトル値であることはスケール・ファクタによって加重され、そして、加重されたスペクトル値は、それから、概して上の振幅範囲まで圧縮機能を有している固定クオンタイザへの入力である。それから、クオンタイザ・プロセッサの出力で、隣接した周波数値に対する0量子化インデックスのセットに対して、又は、この技術分野ではまたそう呼ばれるように0値の「ラン」に対して特定かつ効率的な符号化を概して有するエントロピーエンコーダへそれから送られる量子化インデックスがまさに存在する。
【0103】
図1aの音声エンコーダにおいて、しかしながら、クオンタイザ・プロセッサは、概してスペクトル・アナライザから第2のスペクトル部分に関する情報を受信する。このように、クオンタイザ・プロセッサ404は、クオンタイザ・プロセッサ404の出力において、スペクトル・アナライザ102によって識別される第2のスペクトル部分が、0であるか、又は、スペクトルにおいて0値の「ラン」が特に存在する時に非常に効率的に符号化されうる0表現としてエンコーダまたはデコーダによって認識される表現を有することを確認する。
【0104】
図4bは、クオンタイザ・プロセッサの実施の形態を例示する。MDCTスペクトル値は、0ブロック410のセットへの入力になりうる。それから、ブロック412のスケール・ファクタによる加重が実行される前に、第2のスペクトル部分はすでに0にセットされる。付加的な実施の形態において、ブロック410は設けられていない、しかし、0へのセットは、加重ブロック412に続くブロック418において実行される。更なる実施の形態において、0動作へのセットは、クオンタイザ・ブロック420における量子化に続く0ブロック422へのセットにおいて実行されることもできる。この実施の形態において、ブロック410および418は、存在しない。一般的に、ブロック410、418、422のうちの少なくとも1つは、特定の実施の形態に応じて設けられている。
【0105】
それから、ブロック422の出力で、量子化されたスペクトルは、
図3aにおいて例示されることに対応して得られる。この量子化されたスペクトルは、それから、例えばUSAC規格において定められるようにハフマン・コーダまたは算術コーダでありえる
図2bの232のようなエントロピー・コーダへの入力である。
【0106】
各々交代的に又は平行に設けられている0ブロック410、418、422へのセットは、スペクトル・アナライザ424によって制御される。スペクトル・アナライザは、好ましくは、周知の音調検出器のいかなる実施の形態も含むか、または、スペクトルを高解像度によって符号化される構成要素と低解像度によって符号化される構成要素とに分けるためのいかなる異なる種類の有効な検出器も含む。異なるスペクトル部分に対する解像度要件に関するスペクトル情報または関連するメタデータに応じて、スペクトル・アナライザにおいて実施される他の同様なアルゴリズムは、音声アクティビティ検出器、ノイズ検出器、スピーチ検出器、または決め手となるいかなる他の検出器でもありえる。
【0107】
例えば、AACまたはUSACにおいて実施されるように、
図5aは
図1aの時間スペクトル・コンバータ100の好ましい実施の形態を例示する。時間スペクトル・コンバータ100は、過渡検出器504によって制御されるウィンドウア502を有する。過渡検出器504が過渡現象を検出するとき、ロング・ウィンドウからショート・ウィンドウへの切り替えはウィンドウアに信号が送られる。ウィンドウア502は、それから、ブロックに重なるために、ウィンドウ化されたフレームを計算する。ここで、ウィンドウ化された各フレームは、概して、例えば2048個の値のような2N個の値を有する。それから、ブロック変換器506の範囲内の変換が実行される、そして、このブロック変換器は概して付加的に間引きを提供する。その結果、ジョイント間引き/変換は、MDCTスペクトル値のようなN個の値を伴うスペクトル・フレームを得るために実行される。このように、長い窓操作のために、ブロック506の入力でのフレームは、2048個の値のような2N個の値を含み、そして、スペクトル・フレームはそれから1024個の値を有する。しかしながら、それから、切り替えは短いブロックに実行される。そのとき、各短いブロックが長いウィンドウと比較して1/8にウィンドウ化された時間領域値を有し、各スペクトル・ブロックは長いブロックと比較して1/8のスペクトル値を有するところで、8つの短いブロックが実行される。このように、この間引きがウィンドウアの50%の重畳動作と結合されるときに、スペクトルは、時間領域音声信号99の重要なサンプリングされたバージョンである。
【0108】
その後、
図1bの、または、
図2aのブロック208、212の複合動作の周波数再生器116およびスペクトル時間コンバータ118の特定の実施の形態を例示している
図5bが参照される。
図5bにおいて、特定の再構築バンドは、例えば
図3aのスケール・ファクタ・バンド6として考えられている。この再構築バンドにおける第1のスペクトル部分すなわち
図3aの第1のスペクトル部分306は、フレーム組立器/調整器ブロック510への入力である。さらにまた、スケール・ファクタ・バンド6に対する再構築された第2のスペクトル部分は、同様にフレーム組立器/調整器510への入力である。さらにまた、スケール・ファクタ・バンド6に対する
図3bのE3のようなエネルギー情報は、ブロック510への入力でもある。再構築バンドにおける再構築された第2のスペクトル部分は、ソース範囲を使用する周波数タイル充填によってすでに発生し、そして、再構築バンドはそれからターゲット範囲に対応する。現在、フレームのエネルギー調整は、例えば、
図2aのコンバイナ208の出力で得られるようにN個の値を有する完全な再構築されたフレームを最終的に得るために実行される。ついで、ブロック512において、逆ブロック変換/補間は、例えばブロック512の入力での124スペクトル値に対する248時間領域値を得るために実行される。それから、合成窓化動作は、符号化された音声信号におけるサイド情報として送信される長い窓/短い窓表示によって再び制御されるブロック514において実行される。それから、ブロック516において、以前の時間フレームを有する重畳/加算動作は、実行される。好ましくは、MDCTは50%の重畳を適用する。その結果、2N個の値の各新しい時間フレームごとに対して、N時間領域値が最後に出力される。50%の重なりは、それがブロック516の重畳/加算動作のため1つのフレームから次のフレームまで重要なサンプリングと連続交差とを提供するという事実のため、非常に好まれる。
【0109】
図3aの301で図示するように、ノイズ充填動作は、付加的に、IGF開始周波数未満だけでなく、
図3aのスケール・ファクタ・バンド6と一致している期待された再構築バンドに対するようなIGF開始周波数を超えても、適用されることができる。それから、ノイズ充填スペクトル値はフレーム組立器/調整器510への入力であることもでき、そして、ノイズ充填スペクトル値の調整はこのブロックの範囲内に適用されることもでき、または、ノイズ充填スペクトル値はフレーム組立器/調整器510への入力である前にノイズ充填エネルギーを使用してすでに調整されることができる。
【0110】
好ましくは、IGF動作すなわち他の部分からのスペクトル値を使用している動作を充填している周波数タイル充填動作は、完全なスペクトルにおいて適用されることができる。このように、スペクトル・タイル充填動作は、IGF開始周波数を超える高いバンドにおいて適用されることができるだけでなく、低いバンドにおいて適用されることもできる。さらにまた、周波数タイル充填を伴わないノイズ充填は、IGF開始周波数未満だけでなくIGF開始周波数を超えても適用されることもできる。しかしながら、ノイズ充填動作がIGF開始周波数未満の周波数範囲に制限されるとき、そして、
図3aにて図示するように周波数タイル充填動作がIGF開始周波数を超える周波数範囲に制限されるときに、高品質かつ高効率な音声符号化が得られることができるということが分かっている。
【0111】
好ましくは、ターゲット・タイル(TT)(IGF開始周波数より大きい周波数を有する)は、全レート・コーダのスケール・ファクタ・バンド境界に拘束されている。すなわち、IGF開始周波数より低い周波数に対して、情報がとられる元となるソース・タイル(ST)は、スケール・ファクタ・バンド境界に拘束されない。STのサイズは、関連するTTのサイズに対応しなければならない。これは、次の例を使用して例示される。TT[0]は、10MDCT Binsの長さを有する。これは、正確に、2つの次のSCB(例えば4+6)の長さに対応する。それから、また、TT[0]と相関しているすべての可能なSTはまた、10のビンの長さを有する。TT[0]と隣接している第2のターゲット・タイルTT[1]は、15のビンl(7+8の長さを有するSCB)の長さを有する。それから、それのためのSTは、TT[0]に関しては、10のビンよりむしろ15のビンの長さを有する。
【0112】
ターゲット・タイルの長さを伴うSTに対してTTを誰も見つけられないというケース(例えば、TTの長さが利用可能なソース範囲より大きいとき)が、仮に発生すれば、その場合は、相関は計算されず、そしてソース範囲は、ターゲット・タイルTTが完全に充填されるまではずっと、このTTに向かって複数の回数をコピーされる(コピーは順々に実行される。その結果、第2のコピーの最低周波数に対する周波数線は、直ちに、周波数において、第1のコピーの最も高い周波数に対する周波数線に続いて起こる。)。
【0113】
その後、
図1bの周波数再生器116または
図2aのIGFブロック202の更なる好ましい実施例を例示している
図5cが参照される。ブロック522は、ターゲット・バンドIDを受信しているだけでなく、加えて、ソース・バンドIDを受信している周波数タイル生成器である。模式的に、
図3aのスケール・ファクタ・バンド3がスケール・ファクタ・バンド7を再構築することに対して非常によく適しているということが、エンコーダ側で決定された。このように、ソース・バンドIDは2であり、そして、ターゲット・バンドIDは7である。この情報に基づいて、周波数タイル生成器522は、コピー・アップまたは高調波的タイル充填動作または他のいかなるタイル充填動作を適用して、スペクトル構成要素523の生の第2の部分を生成する。スペクトル構成要素の生の第2の部分は、第1のスペクトル部分の第1のセットに含まれる周波数解像度と同一の周波数解像度を有する。
【0114】
それから、
図3aの307のような再構築バンドの第1のスペクトル部分は、フレーム組立器524への入力であり、そして、生の第2の部分523も、フレーム組立器524への入力である。それから、再構築されたフレームは、ゲイン・ファクタ計算器528によって計算される再構築バンドに対してゲイン・ファクタを使用している調整器526によって調整される。しかしながら、重要なことに、フレームにおける第1のスペクトル部分は調整器526によって影響されないが、再構築フレームのための生の第2の部分のみは調整器526によって影響される。この目的で、ゲイン・ファクタ計算器528はソース・バンドまたは生の第2の部分523を分析して、最後に正しいゲイン・ファクタ527を発見する。加えて、再構築バンドにおける第1のスペクトル部分を分析する。その結果、スケール・ファクタ・バンド7が考慮されるときに、調整器526により調整されたフレーム出力のエネルギーはエネルギーE4を有する。
【0115】
この状況において、HE-AACと比較して本発明の高周波数再構築精度を評価することは、非常に重要である。これは、
図3aのスケール・ファクタ・バンド7に関して説明される。
図13aにおいて例示されるような従来技術エンコーダが、「失われた高調波」として高解像度で符号化されるスペクトル部分307を検出することが、想定される。それから、このスペクトル構成要素のエネルギーは、スケール・ファクタ・バンド7のような再構築バンドに対するスペクトル・エンベロープ情報と共に、デコーダに送信される。それから、デコーダは、失われた高調波を再形成する。しかしながら、
図13bの従来技術デコーダによって失われた高調波307が再構築されるところであるスペクトル値は、再構築周波数390によって示される周波数でバンド7の中央にある。このように、本発明は、
図13dの従来技術デコーダによって導かれる周波数エラー391を回避する。
【0116】
実施の形態において、スペクトル・アナライザも、第1のスペクトル部分と第2のスペクトル部分との類似点を計算するために実施され、そして、計算された類似点に基づいて、再構築範囲における第2のスペクトル部分に対して、できるだけ第2のスペクトル部分と合致している第1のスペクトル部分を決定するために実施される。それから、この可変的なソース範囲/デスティネーション(destination)範囲の実施の形態において、パラメトリック・コーダは、付加的に、第2の符号化された表現に、デスティネーション(destination)範囲ごとに対してマッチング・ソース範囲を示しているマッチング情報を導入する。デコーダ側で、それから、この情報は、ソース・バンドIDおよびターゲット・バンドIDに基づく生の第2の部分523の生成を例示している
図5cの周波数タイル生成器522により用いられる。
【0117】
さらに、
図3aにおいて図示するように、スペクトル・アナライザは、サンプリング周波数の半分未満のわずかのみであって、好ましくはサンプリング周波数の少なくとも1/4であるかまたは概してそれより高い最大分析周波数まで、スペクトル表現を分析するように構成される。
【0118】
図示するように、エンコーダはダウン・サンプリングなしに動作し、そして、デコーダはアップサンプリングなしに動作する。換言すれば、スペクトル領域音声コーダは、オリジナルの入力音声信号のサンプリング・レートによって定義されるナイキスト周波数を有するスペクトル表現を生成するように構成される。
【0119】
さらに、
図3aにおいて図示するように、スペクトル・アナライザは、ギャップ充填開始周波数で開始し、スペクトル表現に含まれる最大周波数によって表現される最大周波数で終了するスペクトル表現を分析するように構成される。ここで、最小周波数からギャップ充填開始周波数まで伸びているスペクトル部分は、スペクトル部分の第1のセットに帰属し、そして、ギャップ充填周波数を超える周波数値を有する304、305、306、307のような更なるスペクトル部分は、付加的に、第1のスペクトル部分の第1のセットに含まれる。
【0120】
概説するように、第1の復号化された表現におけるスペクトル値によって表現される最大周波数が、第1のスペクトル部分の第1のセットにおける最大周波数に対するスペクトル値が0であるか0と異なるようなサンプリング・レートを有する時間表現に含まれる最大周波数と等しくなるように、スペクトル領域音声デコーダ112は構成される。いずれにせよ、スペクトル構成要素の第1のセットにおけるこの最大周波数に対して、スケール・ファクタ・バンドに対するスケール・ファクタが存在する。そして、それは、
図3aおよび3bの文脈において述べられるように、このスケール・ファクタ・バンドにおける全てのスペクトル値が0にセットされるかどうかにかかわりなく、生成され、送信される。
【0121】
したがって、本発明は、圧縮効率、例えばノイズ置換およびノイズ充填(これらの技術は、ローカル信号コンテンツのようなノイズの効率的な表現に対するもののみである)を増すために、他のパラメータの技術に関して有利である。本発明は音の構成要素の正確な周波数再生を可能にする。現在までのところ、低帯域(LF)と高帯域(HF)とにおける固定された先験的な分割の制限のないスペクトル・ギャップ充填による任意の信号内容の効率的なパラメータの表現に対応する最先端の技術はない。
【0122】
本発明システムの実施例は、最先端の方法を改善し、そして、このことにより、低ビットレートに対してさえ高い圧縮効率と全くないかわずかな知覚的不快感と完全な音声帯域幅とを提供する。
【0123】
一般のシステムは、次のものからなる。
・完全なバンド・コア符号化
・インテリジェントギャップ充填(タイル充填又はノイズ充填)
・音のマスクにより選択されるコアにおけるまばらな音の部分
・タイル充填を含み完全なバンドに対して符号化するジョイント・ステレオ・ペア
・タイル上のTNS
・IGF範囲におけるスペクトル白色化
【0124】
より効率的なシステムへの第1のステップは、スペクトル・データをコア・コーダの1つと異なる第2の変換領域に変換することの必要性を取り除くことである。例えばAACのような大多数の音声コーデックは基本的な変換としてMDCTを使用するように、MDCT領域においてBWEを実行することもまた有用である。BWEシステムに対する第2の要件は、HF音の構成要素さえ保存され、かつ、符号化された音声の品質が既存のシステムよりこのように優れる手段である音のグリッドを保存することの必要性である。上述した両方の要件を処理するために、インテリジェントギャップ充填(IGF)と呼ばれるシステムが、提案された。
図2bはエンコーダ側の提案されたシステムのブロック図を示し、そして、
図2aはデコーダ側のシステムを示す。
【0125】
その後、後処理フレームワークは、本発明がこの後処理の実施例における高周波数再構築器1330において実施されることもできることを例示するために、13A図および
図13Bに関して記載されている。
【0126】
例えば、高効率AAC(HE-AAC)で使われるように、
図13aは帯域幅拡張技術に対する音声エンコーダの概略図を例示する。線1300での音声信号は、ロー・パス1302とハイ・パス1304とを有するフィルタシステムへの入力である。ハイ・パス・フィルタ1304による信号出力は、パラメータ抽出器/コーダ1306への入力である。パラメータ抽出器/コーダ1306は、例えば、スペクトル・エンベロープ・パラメータ、ノイズ付加パラメータ、失われた高調波パラメータまたは逆フィルタリング・パラメータのようなパラメータを計算および符号化するように構成される。これらの抽出されたパラメータは、ビット・ストリーム・マルチプレクサ1308への入力である。ロー・パス出力信号は、ダウン・サンプラ1310およびコア・コーダ1312の機能を概して備えるプロセッサへの入力である。ロー・パス1302は、符号化される帯域幅を、線1300上でオリジナルの入力音声信号において発生するものより著しく少ない帯域幅に制限する。コア・コーダに生じる全部の機能が、削減された帯域幅を有する信号に作用しなければならないだけであるという事実のため、これは、重要な符号化ゲインを提供する。例えば、線1300上の音声信号の帯域幅が20kHzであるときに、そして、ロー・パス・フィルタ1302が代表的に4kHzの帯域幅を有するときに、サンプリング定理を満たすために、ダウン・サンプラに続く信号が8kHzのサンプリング周波数を有することは理論的に充分である。そして、それは、少なくとも40kHzでなければならない音声信号1300に対して必要とされるサンプリング・レートへの相当な削減である。
【0127】
図13bは、対応する帯域幅拡張デコーダの概略図を例示する。デコーダは、ビット・ストリーム・マルチプレクサ1320を有する。ビット・ストリーム・デマルチプレクサ1320は、コア・デコーダ1322に対する入力信号とパラメータ・デコーダ1324に対する入力信号とを抽出する。上記の例において、コア・デコーダ出力信号は、8kHzのサンプリング・レートと、それゆえ、4kHzの帯域幅を有するが、一方、完全な帯域幅再構築のためには、高周波数再構築器1330の出力信号は、少なくとも40kHzのサンプリング・レートを必要とする20kHzでなければならない。これを可能にするために、アップサンプラ1325およびフィルタバンク1326の機能を有するデコーダ・プロセッサが、必要とされる。高周波数再構築器1330はそれから、フィルタバンク1326によって周波数分析された低周波数信号出力を受信し、高い周波数帯のパラメータ表現を使用している
図13aのハイ・パス・フィルタ1304によって定義される周波数範囲を再構築する。高周波数再構築器1330は、低周波数範囲においてソース範囲を使用するより上側の周波数範囲の再生成、スペクトル・エンベロープ調整、ノイズ加算機能およびより上側の周波数範囲において失われた高調波を導入する機能のようないくつかの機能を有し、そして、
図13aのエンコーダにおいて適用され計算される場合には、概して、より高い周波数範囲がより低い周波数範囲ほど音的ではないという事実の原因を説明するために逆のフィルタ動作を有する。HE-AACにおいて、失われた高調波は、デコーダ側で再合成されて、再構築バンドの中央に正確に配置される。それゆえ、特定の再構築バンドにおいて決定されたすべての失われた高調波は、それらがオリジナル信号で位置されていた周波数値に配置されるというわけではない。その代わりに、それらの失われた高調波線は、特定のバンドの中央における周波数に配置される。このように、オリジナル信号の失われた高調波線がオリジナル信号の再構築バンド境界の非常に近くに配置されたときは、バンドの中央に再構築された信号のこの失われた高調波線を配置することによって導かれる周波数におけるエラーは、個々の再構築バンドの50%近くである。再構築バンドに対して、パラメータは生成され、送信されている。
【0128】
さらに、典型的な音声コア・コーダがスペクトル領域において作動する場合であっても、それにもかかわらず、コア・デコーダは、それから再びフィルタバンク1326の機能によってスペクトル領域に変換される時間領域信号を生成する。これは、更なる処理遅延を導き、スペクトル領域から周波数領域への第1の変換と、概して異なる周波数領域への再度の変換とのタンデム処理によりアーチファクトを導くことができ、そして、もちろん、これが、十分な量の計算複雑さとそれゆえ電力とをも必要とする。そして、それは、帯域幅拡張技術が携帯電話、タブレットまたはラップトップ・コンピュータ等のようなモバイル機器に適用されるときに、特に問題である。
【0129】
いくつかの態様が、符号化または復号化のための装置との関係において説明されるが、これらの態様も、対応する方法の説明を表現することは明らかであり、ここで、ブロックあるいはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法のステップとの関連で説明される態様はまた、対応するブロック、アイテムまたは対応する装置の特徴の説明を表現する。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置によって実行(または使用)されうる。いくつかの実施例において、最も重要な方法ステップの1つ以上は、そのような装置によって実行されうる。
【0130】
特定の実施要件に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアにおいて、実施されうる。その実施の形態は、そこに格納され電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、ハード・ディスク・ドライブ(HDD)、DVD、Blu-Ray(登録商標)、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリのような非一時的記憶媒体を使用して実行されうる。それは、プログラミング可能なコンピュータ・システムと協働し(または、協働することができ)、その結果、それぞれの方法が実行される。したがって、デジタル記憶媒体は、コンピュータ読込可能でもよい。
【0131】
本発明によるいくつかの実施例は、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な制御信号を有するデータキャリアを含む。その結果、本願明細書において記載される方法のうちの1つが実行される。
【0132】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で稼動する場合、当該プログラムコードは、方法のうちの1つを実行することに対して有効である。当該プログラムコードは、例えば、機械読込可能キャリア上に、格納されうる。
【0133】
他の実施例は、機械読込可能キャリアに格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
【0134】
換言すれば、したがって、コンピュータ・プログラムがコンピュータ上で稼動する場合、本発明の方法の実施例は、本願明細書において記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
【0135】
したがって、本発明の方法の更なる実施例は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ読込可能媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、通常、有形および/または非一時的なものである。
【0136】
したがって、本発明の方法の更なる実施例は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを表現しているデータ・ストリームまたは一連の信号である。例えば、データ・ストリームまたは一連の信号は、データ通信接続を介して、例えば、インターネットを介して、転送されるように構成されていてもよい。
【0137】
更なる実施例は、本願明細書において記載される方法のうちの1つを実行するように構成され、または適合される処理手段、例えば、コンピュータまたはプログラマブル・ロジック・デバイスを含む。
【0138】
更なる実施例は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。
【0139】
本発明による更なる実施例は、本願明細書に記載される方法のうちの1つを実行するためのコンピュータ・プログラムをレシーバに(例えば、電子的にまたは光学的に)転送するように構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイル・サーバを含んでもよい。
【0140】
いくつかの実施例において、プログラマブル・ロジック・デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)は、本願明細書において記載される方法の機能のいくつかまたは全てを実行するために使用されていてもよい。いくつかの実施例において、フィールド・プログラマブル・ゲート・アレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働してもよい。一般的に、当該方法は、いくつかのハードウェア装置によって、好ましくは実行される。
【0141】
上述した実施例は、本発明の原理のために、単に説明されているだけである。配置の修正変更および本願明細書において記載されている詳細は他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによってのみ制限され、本願明細書において実施例の記述および説明として示される具体的な詳細によっては制限されないことが意図される。