(58)【調査した分野】(Int.Cl.,DB名)
前記同一の平滑化情報(802)は、前記増強周波数レンジの複数のサブバンド信号についての単一の補正係数(1402b、1401b、1400b)であり、前記信号生成器(200)は、前記単一の補正係数を前記増強周波数レンジの複数のサブバンド信号に適用するように構成された、
請求項1に記載の装置。
複数の時間的に引き続くフィルタバンクスロット(340)に対して、前記コア信号の複数のサブバンド信号を供給するフィルタバンクまたは供給器(100)を更に備え、
前記信号生成器(200)は、前記コア信号(120)の複数のサブバンド信号を用いて、前記複数の時間的に引き続くフィルタバンクスロット(340)についての前記増強周波数レンジの複数のサブバンド信号を導き出すように構成され、
前記制御装置(800)は、各フィルタバンクスロット(340)についての個々の平滑化情報を計算するように構成された、
請求項1または2に記載の装置。
前記制御装置(800)は、前記現在の時間部分および先行する1つ以上の時間部分の前記コア信号または前記周波数増強信号(130)に基づいて、平滑化強度制御値(1040)を計算するように構成され、
前記制御装置(800)は、前記平滑化強度制御値(1040)を用いて、平滑化強度が、前記現在の時間部分における前記コア信号または前記周波数増強信号(130)のエネルギーと先行する1つ以上の時間部分の前記コア信号または前記周波数増強信号(130)における平均エネルギーとの差分に応じて変化するように、前記同一の平滑化情報(802)を計算するように構成された、
請求項1〜3のいずれかに記載の装置。
前記信号生成器(200)は、前記同一の平滑化情報(802)を用いて前記増強周波数レンジまたは前記コア信号の複数のサブバンドの前記平滑化に加えて、前記コア信号または前記周波数増強信号(130)を整形する(204)ように構成された、請求項1〜5のいずれかに記載の装置。
前記信号生成器(200)は、前記周波数増強信号(130)の複数のサブバンド信号を計算するとき、前記コア信号の単一のサブバンド信号または前記コア信号の複数のサブバンド信号をミラーリングする(202)ように構成された、
請求項1〜8のいずれかに記載の装置。
【背景技術】
【0003】
知覚的なオーディコーデックは、特に(相対的に)低ビットレートで動作するとき、しばしば音声信号の全知覚可能周波数レンジのローパス部分のみを量子化し、符号化する。
このアプローチは、符号化された低周波信号に対する許容可能な品質を保証するが、多くのリスナーはハイパス部分の欠落を品質劣化として知覚する。この問題を克服するために、欠落する高周波部分を、バンド幅拡張スキームによって合成することができる。
【0004】
技術水準のコーデックは、低周波信号を符号化するために、AACのような波形保存コーダ、またはスピーチコーダのようなパラメトリックコーダをしばしば用いる。これらのコーダは、特定のストップ周波数まで動作する。この周波数は、クロスオーバー周波数と呼ばれる。クロスオーバー周波数の下の周波数部分は、ローバンドと呼ばれる。バンド幅拡張スキームによって合成されるクロスオーバー周波数より上の信号は、ハイバンドと呼ばれる。
【0005】
バンド幅拡張は、通常は伝送された信号(ローバンド)と追加のサイド情報によって欠落バンド幅(ハイバンド)を合成する。低ビットレートのオーディオ符号化の分野で適用される場合、追加の情報ができる限り起こりうる追加のビットレートを消費しないようにすべきである。従って、追加の情報に対して、通常はパラメトリック表現が選択される。このパラメトリック表現は、エンコーダから比較的低いビットレートで伝送される(ガイド式のバンド幅拡張)か、デコーダにおいて特定の信号特性に基づいて推定される(非ガイド式のバンド幅拡張)。後者のケースにおいて、パラメータは全くビットレートを消費しない。
【0006】
ハイバンドの合成は、通常は次の2つのパートからなる。
1.高周波コンテンツの生成
これは、低周波コンテンツ(の一部)をハイバンドにコピーまたは反転させる、またはホワイトノイズまたは整形されたノイズまたは他の人工信号部分をハイバンドに挿入することによってなすことができる。
2.パラメトリック情報に従って生成された高周波コンテンツの調整
これは、パラメトリック表現による形状、調性/ノイジネスおよびエネルギーの操作を含む。
【0007】
合成プロセスのゴールは、通常は知覚的にオリジナル信号に近い信号を達成することである。このゴールを適合することができない場合、合成された部分はリスナーに対して最も妨害しないものとすべきである。
【0008】
ガイド式のBWEスキーム以外の、非ガイド式のバンド幅拡張は、ハイバンドの合成に対して追加の情報に依存することができない。その代わりに、通常はローバンドとハイバンドの間の相関を実施する経験則を用いる。多くの音楽ピースや声に出したスピーチセグメントは高低の周波数バンド間で高い相関を呈するが、これは、通常は無声音のまたは摩擦音のスピーチセグメントに対するケースでない。摩擦音のサウンドは、特定の周波数より上に高いエネルギーを持つが、低周波数レンジにおいて極めて少ないエネルギーを持つ。この周波数がクロスオーバー周波数の近くにある場合、ローバンドは関連する信号部分をほとんど含まないので、クロスオーバー周波数より上に人工信号を生成することは問題がある可能性がある。この課題に対処するために、この種のサウンドの良好な検出が有用である。
【0009】
HE-AACは、ローバンドに対して波形保存コーデック(AAC)およびハイバンドに対してパラメトリックコーデック(SBR)からなる周知のコーデックである。デコーダ側において、ハイバンド信号は、QMFフィルタバンクを用いて復号化されたAAC信号を周波数ドメインに変換することによって生成される。引き続いて、ローバンド信号のサブバンドはハイバンドへコピーされる(高周波コンテンツの生成)。このハイバンド信号は、次に、伝送されたパラメトリックサイド情報に基づいて、スペクトル包絡、調性および暗騒音において調整される(生成された高周波コンテンツの調整)。この方法は、ガイド式のBWEアプローチを用いるので、ハイバンドとローバンドの間の弱い相関は一般に問題とならず、適当なパラメータセットを伝送することによって克服することができる。しかしながら、これは付加的なビットレートを必要とし、それは一定のアプリケーションシナリオに対して受け入れられないかもしれない。
【0010】
ITU標準G.722.2 は、時間ドメインにおいてのみ動作する、すなわち周波数ドメインにおいていかなる演算も実行しない、スピーチコーデックである。この種のデコーダは、12.8kHzのサンプリングレートで時間ドメイン信号を出力し、引き続いて16kHzまでアップサンプリングされる。高周波コンテンツ(6.4−7.0kHz)の生成は、バンドパスノイズの挿入に基づいている。多くの演算モードにおいて、ノイズのスペクトル整形はいかなるサイド情報も用いることなくなされ、ノイズエネルギーに関して最も高いビットレート情報を有する演算モードにおいてのみ、ビットストリームにおいて伝送される。簡潔のため、そして全てのアプリケーションシナリオが追加のパラメータセットの伝送をもたらすわけではないので、以下において、いかなるサイド情報も用いることのないハイバンド信号の生成のみが記載される。
【0011】
ハイバンド信号の生成に対して、ノイズ信号は、コアの励起信号と同じエネルギーを持つようにスケーリングされる。信号の無声音部分により多くのエネルギーを与えるために、スペクトル傾斜eが計算される。
【0012】
ここで、sは、400Hzのカットオフ周波数を有するハイパスフィルタリングされた復号化コア信号である。nは、サンプルインデックスである。高周波においてより少ないエネルギーが存在する有声音セグメントのケースにおいてeは1に近づくが、無声音セグメントに対してeはゼロに近づく。ハイバンド信号においてより多くのエネルギーを持つために、無声音のスピーチに対して、ノイズのエネルギーに(1−e)が掛けられる。最後に、スケーリングされたノイズ信号は、ラインスペクトル周波数(LSF)ドメインにおける外挿によってコア線形予測符号化(LPC)フィルタから導き出されるフィルタによってフィルタリングされる。
【0013】
完全に時間ドメインで動作するG.722.2 の非ガイド式のバンド幅拡張には、以下の欠点を有する。
1.生成されたHFコンテンツはノイズに基づいている。これは、HF信号が音のハーモニック低周波信号(例えば音楽)と結合される場合に、聞き取れるアーチファクトを創生する。この種のアーチファクトを回避するため、G.722.2 は、生成されたHF信号のエネルギーを強く制限し、それはまたバンド幅拡張の潜在的利益を制限する。従って、残念なことに、サウンドのブライトネスの最大の可能な改善またはスピーチ信号の明瞭度における最大の獲得できる増加も制限される。
2.この非ガイド式のバンド幅拡張は時間ドメインにおいて動作するので、フィルタ演算は付加的なアルゴリズム的遅延を生ずる。この付加的な遅延は、双方向通信シナリオにおけるユーザ経験の品質を下げるか、または所定の通信技術標準の必要条件の項目によって許容されないかもしれない。
3.また、信号処理は時間ドメインにおいて実行されるので、フィルタ演算は不安定の傾向がある。さらに、時間ドメインフィルタは高い計算量を有する。
4.ハイバンド信号のエネルギーのオーバーオール合計のみがコア信号のエネルギーに適合される(そして、更にスペクトル傾斜によって重み付けされる)ので、コア信号の上側周波数レンジ(ちょうどクロスオーバー周波数の下の信号)とハイバンド信号の間のクロスオーバー周波数におけるエネルギーの有意なローカルミスマッチがあるかもしれない。例えば、これは、特に超低周波数レンジにおけるエネルギー集中を呈するが、上側周波数レンジにおいてほとんどエネルギーを含まない音の信号に対するケースになる。
5.さらにまた、時間ドメイン表現においてスペクトル勾配を推定することは演算的に複雑である。周波数ドメインにおいて、スペクトル勾配の外挿は非常に効率的になすことができる。例えば摩擦音の大部分のエネルギーは高い周波数レンジに集中しているので、これらは、保守的なエネルギーとG.722.2 におけるようなスペクトル勾配の推定戦略が適用される場合、鈍く聞こえるかもしれない(1.を参照)。
【0014】
要約すると、従来技術の非ガイド式のまたはブラインドのバンド幅拡張スキームは、デコーダ側について有意の計算量を必要とし、それにもかかわらず特に摩擦音のような問題があるスピーチサウンドに対して制限されたオーディオ品質に結果としてなるかもしれない。さらにまた、ガイド式のバンド幅拡張スキームは、より良好なオーディオ品質を提供し、時にはデコーダ側についてより少ない計算量でよいが、ハイバンドについての付加的なパラメトリック情報が符号化されたコアオーディオ信号に関して有意の量の付加的なビットレートを必要とする可能性があるという事実により、実質的なビットレートの低減を提供することができない。
【0015】
それ故に、本発明の目的は、非ガイド式の周波数増強技術の局面におけるオーディオ処理に対する改良されたコンセプトを提供することである。
【発明を実施するための形態】
【0028】
図1は、整形、時間的平滑化およびエネルギー制限の技術が一斉に実行される好ましい実施態様における
周波数が増強された信号140を生成する装置を示す。しかしながら、これらの技術は、整形技術に対して
図5〜7、平滑化技術に対して
図8〜10、エネルギー制限技術に対して
図11〜13の局面において述べられるように、個々に適用することもできる。
【0029】
好ましくは、
図1の
周波数が増強された信号140を生成する装置は、解析フィルタバンクまたはコアデコーダ100、またはコアデコーダがQMFサブバンド信号を出力するとき、QMFドメインにおけるようなフィルタバンクドメインにおいてコア信号を提供する他のいかなるデバイスを備える。あるいは、解析フィルタバンク100は、コア信号が時間ドメイン信号であるか、またはスペクトルドメインまたはサブバンドドメインの他のいかなるドメインにおいて提供されるときでも、QMFフィルタバンクまたは他の解析フィルタバンクとすることができる。
【0030】
120において利用可能なコア信号110の個々のサブバンド信号は、次に信号生成器200に入力され、信号生成器200の出力は、
周波数増強信号130である。この
周波数増強信号130は、コア信号110に含まれない増強周波数レンジを備え、信号生成器は、例えばノイズの整形等(のみ)によってではなく、コア信号110または好ましくはコア信号のサブバンド120を用いて、この
周波数増強信号を生成する。合成フィルタバンクは、次にコア信号サブバンド120と
周波数増強信号130を結合し、合成フィルタバンク300は、
周波数が増強された信号140を出力する。
【0031】
基本的に、信号生成器200は、「HF生成」(ここでHFは高周波を表す)として表される信号生成ブロック202を備える。しかしながら、
図1における周波数増強は、高周波が生成される技術に限定されない。その代わりに、低周波または中間周波を生成することもでき、コア信号が高いバンドと低いバンドを持つとき、および中間バンドの欠落があるとき、例えば知的ギャップ充填(IGF)として知られるような、コア信号におけるスペクトルホールの再生とさえすることもできる。シグナル生成202は、HE-AACにより知られるようなコピーアッププロシージャ、または高い周波数レンジまたは周波数増強レンジを生成するためコア信号がコピーアップされるよりむしろミラーリングされるミラーリングプロシージャを備える。
【0032】
さらにまた、信号生成器は、整形機能204を備え、コア信号120における周波数に関するエネルギー分布を表す値を計算する演算によって制御される。この整形は、ブロック202によって生成された信号の整形をすることができ、または代替として、
図2a〜2cの局面において述べられるように、機能202と204の順序が逆にされるとき、低周波の整形をすることができる。
【0033】
更なる機能は、平滑化制御装置800によって制御される時間的平滑化機能206である。エネルギー制限208は、好ましくはプロシージャの最後に実行されるが、エネルギー制限は、合成フィルタバンク300による結合信号出力が、高い周波数バンドは隣接する低い周波数バンドより多くのエネルギーを持ってはならない、または高い周波数バンドは隣接する低い周波数バンドと比較してより多くのエネルギー、ここでインクリメントは多くとも3dBのような所定の閾値に限られる、を持ってはならないような、エネルギー制限判定基準を満たすことが確保される限り、処理機能202〜208のチェーンのいかなる他の位置に置くこともできる。
【0034】
図2aは、HF生成202を実行する前に、整形204が時間的平滑化206およびエネルギー制限208と共に実行される異なる順序を示す。従って、コア信号は整形され/平滑化され/制限され、次に既に完了した整形され/平滑化され/制限された信号が増強周波数レンジにコピーアップまたはミラーリングされる。さらにまた、
図2aを
図1における対応するブロックの順序と比較したときに見られるように、ブロック204、206、208の順序はいかなる形であれ実行できることを理解することが重要である。
【0035】
図2bは、時間的平滑化と整形が低周波またはコア信号について実行され、HF生成202がエネルギー制限208の前に実行される状況を示す。さらに、
図2cは、増強周波数レンジに対する信号を取得するために、信号の整形が低周波信号に対して実行され、コピーアップまたはミラーリングのような引き続くHF生成が実行され、この信号が次に平滑化206され、エネルギー制限208される状況を示す。
【0036】
さらにまた、例えば
図14に示されるように、サブバンド信号に対して特定の係数を適用することによって、整形、時間的平滑化およびエネルギー制限の機能を全て実行することができることが強調される。整形は、個々のバンドi、i+1、i+2に対して、乗数器1402a、1401aおよび1400aによって実施される。
【0037】
さらにまた、時間的平滑化は、乗数器1402b、1401bおよび1400bによって実行される。加えて、エネルギー制限は、個々のバンドi+2、i+1およびiに対して、制限係数1402c、1401cおよび1400cによって実行される。これらの機能の全てが、本実施形態において乗算係数によって実施されるという事実により、全てのこれらの機能が、各個々のバンドに対して、単一の乗算係数1402、1401、1400によって個々のサブバンド信号に適用することができ、この単一の「マスター」乗算係数は、バンドi+2に対して個々の係数1402a、1402bおよび1402cの積であり、その状況は他のバンドi+1およびiに対して類似することに留意すべきである。従って、サブバンドに対する実数の/虚数のサブバンドサンプル値は、次に単一の「マスター」乗算係数によって乗算され、出力は、ブロック1402、1401または1400の出力において、乗算された実数の/虚数のサブバンドサンプル値として得られ、次に
図1の合成フィルタバンク300に導入される。従って、ブロック1400、1401、1402の出力は、コア信号
120に含まれない増強周波数レンジを通常はカバーする
周波数増強信号130に対応する。
【0038】
図3は、信号生成のプロセスにおいて用いられる異なる時間分解能を表すチャートを示す。基本的に、信号はフレームワイズに処理される。これは、解析フィルタバンク100が、好ましくはサブバンド信号の時間的に引き続くフレーム320を生成するように実施されることを意味し、ここでサブバンド信号の各フレーム320は、1つまたは複数のスロットまたはフィルタバンクスロット340を備える。
図3はフレーム当たり4つのスロットを示しているが、フレーム当たり2つ、3つまたは4つを超えるスロットとすることもできる。
図14に示したように、コア信号のエネルギー分布に基づく
周波数増強信号またはコア信号の整形は、フレーム当たり1回実行される。一方、時間的平滑化は、高い時間分解能で、すなわち好ましくはスロット340当たり1回実行され、エネルギー制限は、低い計算量が必要とされるときは再びフレーム当たり1回、または高い計算量が特定の実施に対して問題がないときはスロット当たり1回実行することができる。
【0039】
図4は、コア信号の周波数レンジにおいて5つのサブバンド1、2、3、4、5を持つスペクトルの表現を示す。さらにまた、
図4における実施例は、増強信号レンジにおいて4つのサブバンド信号またはサブバンド6、7、8、9を持ち、コア信号レンジと増強信号レンジはクロスオーバー周波数420によって分離されている。さらにまた、後に述べられるように、整形204の目的に対して、周波数に関するエネルギー分布を記述する値を計算するために用いられるスタート周波数バンド410が示されている。このプロシージャは、より良好な増強信号の調整を得るために、最も低いまたは複数の最も低いサブバンドが周波数に関するエネルギー分布を記述する値の演算に対して用いられないことを確保する。
【0040】
引き続いて、コア信号を用いたコア信号に含まれない増強周波数レンジの生成202の実施が示される。
【0041】
クロスオーバー周波数上に人工信号を生成するために、通常はQMF値がクロスオーバー周波数の下の周波数レンジからハイバンドにコピーアップ(「パッチ」)される。このコピー演算は、QMFサンプルを、低い周波数レンジからクロスオーバー周波数の上の領域まで丁度シフトすることによって、またはこれらのサンプルを付加的にミラーリングすることによって、なすことができる。ミラーリングの利点は、クロスオーバー周波数の丁度下の信号と人工的な生成信号が、クロスオーバー周波数において非常に類似したエネルギーとハーモニック構造を持つということである。ミラーリングまたはコピーアップは、コア信号の単一のサブバンドまたはコア信号の複数のサブバンドに適用することができる。
【0042】
前記QMFフィルタバンクのケースにおいて、ミラーリングされたパッチは、遷移領域におけるサブバンド折り返し歪を最小化するために、好ましくはベースバンドの負の複素共役から成る。
【0043】
ここで、Qr(t,f)は、時間インデックスtおよびサブバンドインデックスfにおけるQMFの実数値であり、Qi(t,f)は虚数値である。xoverは、クロスオーバー周波数を参照するQMFサブバンドである。nBandsは、外挿される整数のバンドである。実部における負符号は、負の共役複素演算を意味する。
【0044】
好ましくは、HF生成202または一般的に増強周波数レンジの生成は、ブロック100によって提供されるサブバンド表現に依存する。好ましくは、
周波数が増強された信号140を生成する発明の装置は、例えばナローバンド、ワイドバンドおよびスーパーワイドバンド出力をサポートするために、復号化信号110をリサンプルしてサンプリング頻度を変化させることができるマルチバンド幅デコーダとすべきである。それ故に、QMFフィルタバンク100は、入力として復号化時間ドメイン信号をとる。周波数ドメインにおいてゼロをパディングすることによって、QMFフィルタバンクは、復号化信号をリサンプルするために用いることができ、同じQMFフィルタバンクは、好ましくはハイバンド信号を創生するためにも用いることができる。
【0045】
好ましくは、
周波数が増強された信号140を生成する装置は、周波数ドメインにおける全ての演算を実行するために働く。従って、デコーダ側において内部周波数ドメイン表現を既に持つ実存するシステムは、
図1において示されたように、例えば既にQMFフィルタバンクドメインの出力信号を提供する「コアデコーダ」として表されたブロック100によって拡張される。
【0046】
この表現は、好ましくは周波数ドメインにおいてなされるサンプリングレート変換および他の信号操作のような付加的なタスク(例えば整形された快適なノイズの挿入、ハイパス/ローパスフィルタリング)に対して、簡単に再利用される。従って、いかなる付加的な時間-周波数変換も計算される必要がない。
【0047】
HFコンテンツに対してノイズを用いる代わりに、この実施形態においてのみ、ローバンド信号に基づいてハイバンド信号が生成される。これは、周波数ドメインにおけるコピーアップまたはフォールディングアップ(ミラーリング)演算によって、なすことができる。このように、ローバンド信号と同じハーモニック構造と時間的微細構造によるハイバンド信号が保証される。これは、演算的に高価な時間ドメイン信号のフォールディングと付加的な遅延を回避する。
【0048】
引き続いて、
図1の整形技術204の機能が、
図5、6および7の局面において述べられ、ここでは、整形は
図1、2a〜2cの局面において実行することができるか、または他のガイド式または非ガイド式の周波数増強技術により知られる他の機能と共に分離して個々に実行することができる。
【0049】
図5は、コア信号120における周波数に関するエネルギー分布を記述する値を計算する計算器500を備える周波数が増強された信号140を生成する装置を示す。さらにまた、ライン502で示されるように、信号生成器200は、コア信号から、コア信号に含まれない増強周波数レンジを備える
周波数増強信号を生成するように構成される。さらにまた、信号生成器200は、
周波数増強信号のスペクトル包絡がエネルギー分布を記述する値に従属するように、
図1におけるブロック202による出力または
図2aの局面におけるコア信号120のような
周波数増強信号を整形するように構成される。
【0050】
好ましくは、装置は、
周波数が増強された信号140を取得するために、ブロック200によって出力される
周波数増強信号130とコア信号120を結合する結合器300を付加的に備える。時間的平滑化206またはエネルギー制限208のような付加的な演算は、整形された信号を更に処理するために好ましいが、特定の実施態様においては必ずしも必要ではない。
【0051】
信号生成器200は、増強周波数レンジにおける第1の周波数から増強周波数レンジにおける第2の高い周波数への第1のスペクトル包絡の減少が、エネルギー分布を記述する第1の値に対して得られるように、増強信号を整形するように構成される。さらにまた、増強レンジにおける第1の周波数から増強レンジにおける第2の周波数へのスペクトル包絡の減少は、第2のエネルギー分布を記述する第2の値に対して得られる。第2の周波数が第1の周波数より大きく、第2のスペクトル包絡の減少が第1のスペクトル包絡の減少より大きい場合に、第1の値は、コア信号がコア信号の低い周波数レンジにおけるエネルギー集中を記述する第2の値と比較して、コア信号の高い周波数レンジにおいてエネルギー集中を持つことを示す。
【0052】
好ましくは、計算器500は、エネルギー分布についての情報値として、現在のフレームのスペクトル重心に対する尺度を計算するように構成される。次に、信号生成器200は、高い周波数におけるスペクトル重心が、低い周波数におけるスペクトル重心と比較して、より浅い勾配のスペクトル包絡に結果としてなるように、スペクトル重心に対するこの尺度に従って整形する。
【0053】
エネルギー分布計算器500によって計算されるエネルギー分布についての情報は、第1の周波数において開始し、第1の周波数より高い第2の周波数において終了するコア信号の周波数部分について計算される。第1の周波数は、例えば
図4において410で示されるような、コア信号における最も低い周波数より低い。好ましくは、第2の周波数は、クロスオーバー周波数420でもよく、ケースによってはクロスオーバー周波数420より低い周波数とすることもできる。しかしながら、スペクトル分布に対する尺度を計算するために用いられる第2の周波数を可能な限りクロスオーバー周波数420に拡張することが好ましく、結果として最良のオーディオ品質になる。
【0054】
実施形態において、
図6のプロシージャは、エネルギー分布計算器500と信号生成器200によって適用される。ステップ602において、E(i)で示されるコア信号の各バンドに対するエネルギー値が計算される。次に、増強周波数レンジの全てのバンドの調整に対して用いられるspのような単一のエネルギー分布値が、ブロック604において計算される。次に、ステップ606において、この単一の値に対して用いる増強周波数レンジの全てのバンドに対して重み係数が計算され、ここで重み係数は好ましくはattfである。
【0055】
次に、信号生成器208によって実行されるステップ608において、重み係数はサブバンドサンプルの実部と虚部に適用される。
【0056】
摩擦音は、QMFドメインにおける現在のフレームのスペクトル重心を計算することによって検出される。スペクトル重心は、0.0〜1.0の範囲を持つ尺度である。高いスペクトル重心(1に近い値)は、サウンドのスペクトル包絡が上昇する勾配を持つことを意味する。スピーチ信号に対して、これは、現在のフレームがおそらく摩擦音を含むことを意味する。スペクトル重心の値が1に近づくほど、スペクトル包絡の勾配が急である、または、より多くのエネルギーが高い周波数レンジに集中している。
【0057】
スペクトル重心は、次式により計算される。
ここで、E(i)はQMFサブバンドiのエネルギーであり、startは、1kHzを参照するQMFサブバンドインデックスである。コピーされたQMFサブバンドは、次式のように係数att
fによって重み付けられる。
ここで、att=0.5*sp+0.5であり、一般に、attは次式を用いて計算することができる。
att=p(sp)
ここで、pは多項式である。好ましくは、多項式は次式のように次数1を持つ。
att=a*sp+b
ここで、a、b、または一般に多項式の係数は、全て0と1の間である。
【0058】
上記の式から離れて、相当するパフォーマンスを持つ他の式を適用することができる。
この種の他の式は以下の通りである。
【0059】
特に、値aiは、高いiに対して値は高くあるべきであり、重要なことに、値biは、少なくともインデックスi >1に対して値aiより低い。従って、上記の式と比較して異なる式によって、類似した結果が得られる。一般に、ai、biは、iによって単調に増加するまたは減少する値である。
【0060】
さらにまた、
図7を参照されたい。
図7は、異なるエネルギー分布値spに対する個々の重み係数att
fを示す。spが1に等しいとき、コア信号全体のエネルギーは、コア信号の最も高いバンドに集中される。そのとき、attは1に等しく、重み係数att
fは700に示すように周波数を通じて一定である。一方、コア信号における全部のエネルギーがコア信号の最も低いバンドに集中されるとき、spは0に等しく、attは0.5に等しく、周波数上の調整係数の対応するコースは706に示される。
【0061】
702および704に示される周波数上の整形係数のコースは、対応して増加するスペクトル分布値に対するものである。従って、項目704に対するエネルギー分布値は、0より大きいが、パラメータ矢印708で示されるように、項目702に対するエネルギー分布値より小さい。
【0062】
図8は、時間的平滑化技術を用いて
周波数が増強された信号140を生成する装置を示す。装置は、コア信号120、110から
周波数増強信号130を生成する信号生成器200を備え、ここで、
周波数増強信号130はコア信号に含まれない増強周波数レンジを備える。フレーム320のような現在の時間部分および好ましくは
周波数増強信号130またはコア信号
120のスロット340は、複数のサブバンドに対するサブバンド信号を備える。
【0063】
制御装置800は、増強周波数レンジまたはコア信号
120を含む周波数増強信号130の複数のサブバンド信号に対して同じ平滑化情報802を計算するものである。さらにまた、信号生成器200は、同じ平滑化情報802を用いて増強周波数レンジの複数のサブバンド信号を平滑化するように、または同じ平滑化情報802を用いてコア信号
120の複数のサブバンド信号を平滑化するように構成される。信号生成器200の出力は、
図8において、次に結合器300に入力される平滑化された
周波数増強信号130である。
図2a〜2cの局面で述べられたように、平滑化206は、
図1の処理チェーンにおけるいかなる場所でも実行することができる、または他のいかなる周波数増強スキームの局面においても個々に実行することができる。
【0064】
制御装置800は、コア信号
120および
周波数増強信号130の複数のサブバンド信号の結合エネルギーを用いて、または時間部分の
周波数増強信号130のみを用いて、平滑化情報を計算するように好ましくは構成される。さらにまた、コア信号
120および
周波数増強信号130の複数のサブバンド信号の平均エネルギー、または現在の時間部分に先行する1つ以上前の時間部分のみのコア信号
120の平均エネルギーが用いられる。平滑化情報は、全てのバンドにおける増強周波数レンジの複数のサブバンド信号に対する単一の補正係数であり、それ故に、信号生成器200は、増強周波数レンジの複数のサブバンド信号に補正係数を適用するように構成される。
【0065】
図1の局面で述べられたように、装置は、フィルタバンク100、または複数の時間的に引き続くフィルタバンクスロットに対してコア信号
120の複数のサブバンド信号を提供する供給器をさらに備える。さらにまた、信号生成器は、コア信号
120の複数のサブバンド信号を用いて、複数の時間的に引き続くフィルタバンクスロットに対して増強周波数レンジの複数のサブバンド信号を導き出すように構成され、制御装置800は、各フィルタバンクスロットに対して個々の平滑化情報802を計算するように構成され、平滑化は、次に新しい個々の平滑化情報によって各フィルタバンクスロットに対して実行される。
【0066】
制御装置800は、現在の時間部分のコア信号
120または
周波数増強信号130に基づいて、および1つ以上先行する時間部分に基づいて、平滑化強度制御値を計算するように構成され、制御装置800は、次に、平滑化制御値を用いて、平滑化強度が、現在の時間部分のコア信号
120または
周波数増強信号130のエネルギーと1つ以上先行する時間部分のコア信号
120または
周波数増強信号130の平均エネルギーとの差分に応じて変化するように、平滑化情報を計算するように構成される。
【0067】
制御装置800および信号生成器200によって実行されるプロシージャを示す
図9を参照されたい。制御装置800によって実行されるステップ900は、例えば現在の時間部分におけるエネルギーと1つ以上先行する時間部分における平均エネルギーとの差分に基づいて探索することができる平滑化強度についての決定の探索を備えるが、平滑化強度について決定する他のいかなるプロシージャも同様に用いることができる。1つの変形例は、その代わりにまたは加えて、将来の時間スロットに用いられる。更なる変形例は、フレーム当り単一の変換のみを持ち、時間的に引き続くフレームにわたって平滑化する。しかしながら、これらの変形例は両方とも遅延を導入する可能性がある。これは、ストリーミングアプリケーションのような遅延が問題でないアプリケーションにおいては全く問題がない可能性がある。例えば携帯電話を用いる双方向通信に対するような遅延が問題のあるアプリケーションに対しては、過去のフレームの使用は遅延を導入しないので、過去のまたは先行するフレームは将来のフレームにわたって好ましい。
【0068】
次に、ステップ902において、平滑化情報がステップ900の平滑化強度の決定に基づいて計算される。このステップ902も制御装置800によって実行される。次に、信号生成器200は、いくつかのバンドへの平滑化情報の適用を備える904を実行し、ここでコア信号または増強周波数レンジのいずれかにおいて、全く同じ平滑化情報800がこれらのいくつかのバンドに対して適用される。
【0069】
図10は、
図9のステップのシーケンスの実施態様の好ましいプロシージャを示す。ステップ1000において、現在のスロットのエネルギーが計算される。次に、ステップ1020において、1つ以上の前のスロットの平均エネルギーが計算される。次に、ステップ1040において、現在のスロットに対する平滑化係数がブロック1000と1020によって得られた値の差分に基づいて決定される。次に、ステップ1060は現在のスロットに対する補正係数の計算を備え、ステップ1000〜1060は、全て制御装置800によって実行される。次に、信号生成器200によって実行されるステップ1080において実際の平滑化演算が実行される、すなわち、対応する補正係数が1つのスロット内の全てのサブバンド信号に対して適用される。
【0070】
実施形態において、時間的平滑化が以下の2つのステップにおいて実行される。
【0071】
平滑化強度についての決定:平滑化強度についての決定に対して、時間上の信号の定常性が評価される。この評価を実行する可能な方法は、現在の短期ウインドウまたはQMF時間スロットのエネルギーを前の短期ウインドウまたはQMF時間スロットの平均エネルギー値と比較することである。煩雑性についてセーブするため、これは、ハイバンド部分のみに対して評価されてもよい。比較されたエネルギー値が近いほど、平滑化の強度は低くあるべきである。これは、平滑化係数a、ここで0<a≦1、において反映される。aが大きいほど、平滑化の強度は高い。
【0072】
ハイバンドへの平滑化の適用:平滑化は、QMF時間スロットベースのハイバンド部分に対して適用される。それ故に、現在の時間スロットのハイバンドエネルギーEcurr
tは、次のように1つまたは多数の前のQMF時間スロットの平均ハイバンドエネルギーEavg
tに適合される。
Ecurrは、次のように1つの時間スロットにおけるハイバンドQMFエネルギーの合計として計算される。
Eavgは、次のようにエネルギーの時間上の移動平均である。
ここで、startおよびstopは移動平均の計算に対して用いられるインターバルの境界である。
【0073】
合成に対して用いられる実数および虚数のQMF値は、次のように補正係数currFacで乗算され、
これは、次のようにEcurrおよびEavgから導き出される。
【0074】
係数aは、固定としてもよく、またはEcurrとEavgのエネルギーの差分に従属するようにしてもよい。
【0075】
既に
図14で述べられたように、時間的平滑化に対する時間分解能は、整形の時間分解能またはエネルギー制限技術の時間分解能より高くなるようにセットされる。これは、サブバンド信号の時間的に滑らかなコースが得られる一方、同時に、演算的により強い整形がフレーム当り1回のみ実行されることを確保する。しかしながら、これは、これまでに見られたように、主観的なリスニング品質を実質的に低下させるので、1つのサブバンドから他のサブバンドへの、すなわち周波数方向におけるいかなる平滑化も実行されない。
【0076】
増強レンジにおいて、全てのサブバンドに対する補正係数のような同じ平滑化情報を用いることが好ましい。しかしながら、同じ平滑化情報が全てのサブバンドに対してではなく、少なくとも2つのサブバンドを持つバンドのグループに対して適用される実施態様とすることもできる。
【0077】
図11は、
図1に示されたエネルギー制限技術208に向けられる更なる態様を示す。具体的には、
図11は、
周波数増強信号130を生成する信号生成器200を備える
周波数が増強された信号140を生成する装置を示し、
周波数増強信号130はコア信号
120に含まれない増強周波数レンジを備える。さらにまた、
周波数増強信号130の時間部分は複数のサブバンドに対するサブバンド信号を備える。加えて、装置は、
周波数増強信号130を用いて
周波数が増強された信号140を生成する合成フィルタバンク300を備える。
【0078】
エネルギー制限プロシージャを実施するために、信号生成器200は、合成フィルタバ
ンク300によって得られる
周波数が増強された信号140が、高いバンドのエネルギーが低いバ
ンドにおけるエネルギーに多くとも等しい、または低いバンドにおけるエネルギーより多
くとも所定の閾値だけ大きいことを確保するため、エネルギー制限を実行するように構成
される。
【0079】
信号生成器は、高いQMFサブバンドkがQMFサブバンドk−1におけるエネルギーを上回ってはならないことを確保するように、好ましくは実施される。それにもかかわらず、信号生成器200は、好ましくは3dBの閾値とすることができる特定の増分の増加を許容するように実施することもでき、閾値は好ましくは2dBとすることができ、より好ましくは1dBまたはさらに小さいものとすることができる。所定の閾値は、各バンドに対して一定とすることができる、または前に計算されたスペクトル重心に従属させることもできる。好ましい従属は、重心が低い周波数に近づくとき、閾値が低くなる、すなわち小さくなることであり、その一方で重心が高い周波数に近づくほどまたはspが1に近づくほど、閾値は大きくなることができる。
【0080】
更なる実施態様において、信号生成器200は、第1のサブバンドにおける第1のサブバンド信号を検査し、周波数において第1のサブバンドに隣接し、第1のサブバンドの中心周波数より高い中心周波数を持つ第2のサブバンドにおけるサブバンド信号を検査するように構成され、信号生成器は、第2のサブバンド信号のエネルギーが第1のサブバンド信号のエネルギーと等しいとき、または第2のサブバンド信号のエネルギーが第1のサブバンド信号のエネルギーより所定の閾値未満で大きいとき、第2のサブバンド信号を制限しない。
【0081】
さらにまた、信号生成器は、例えば
図1または
図2a〜2cにおいて示されたように、シーケンスにおいて複数の処理演算を形成するように構成される。次に、信号生成器は、好ましくはシーケンスの最後においてエネルギー制限を実行し、合成フィルタバンク300に入力される
周波数増強信号130を取得する。従って、合成フィルタバンク300は、入力として、エネルギー制限の最終プロセスによってシーケンスの最後に生成される
周波数増強信号130を受信するように構成される。
【0082】
さらにまた、信号生成器は、エネルギー制限の前にスペクトル整形204または時間的平滑化206を実行するように構成される。
【0083】
好ましい実施形態において、信号生成器200は、コア信号の複数のサブバンドをミラーリングすることによって
周波数増強信号の複数のサブバンド信号を生成するように構成される。
【0084】
ミラーリングに対しては、好ましくは、上述されたように実部または虚部のいずれかを無効にするプロシージャが実行される。
【0085】
更なる実施形態において、信号生成器は、補正係数limFacを計算するように構成され、この制限係数limFacは次に以下のようにコアまたは増強周波数レンジのサブバンド信号に適用される。
【0086】
E
fを、次式のように時間スパンstop−startを通じて平均化された1つのバンドのエネルギーとする。
【0087】
このエネルギーが前のバンドの平均エネルギーを数レベルだけ超える場合、このバンドのエネルギーは次の補正/制限係数limFacによって乗算され、
実部と虚部のQMF値は、次式によって補正される。
【0088】
係数または所定の閾値facは、各バンドに対して一定とすることができ、または前に計算されたスペクトル重心に従属させることができる。
【0090】
他の実施態様において、制限係数limFacは以下の式を用いて計算される。
【0091】
この式において、E
limは、通常は低いバンドのエネルギーまたは特定の閾値facによって増加する低いバンドのエネルギーである制限エネルギーである。E
f(i)は、現在のバンドfまたはiのエネルギーである。
【0092】
増強周波数レンジに7つのバンドがある特定の例を示す
図12aと12bを参照されたい。バンド1202は、エネルギーに関してバンド1201より大きい。従って、
図12bから明らかになるように、バンド1202は、このバンドに対して
図12bにおいて1250で示されるようにエネルギー制限される。さらにまた、バンド1205、1204および1206は、全てバンド1203より大きい。従って、全ての3つのバンドは、
図12bにおいて1250で示されるようにエネルギー制限される。残された非制限バンドは、バンド1201(これは再構成レンジにおける第1のバンドである)およびバンド1203および1207である。
【0093】
上述したように、
図12a/12bは、制限が、高いバンドが低いバンドより多くのエネルギーを持ってはならない状況を示す。しかしながら、特定の増加が許容された場合に、状況はやや異なるように見えるだろう。
【0094】
エネルギー制限は、単一の拡張バンドに対して適用することができる。次に、比較またはエネルギー制限が、最も高いコアバンドのエネルギーを用いてなされる。これは、複数の拡張バンドに対して適用することもできる。次に、最も低い拡張バンドは最も高いコアバンドを用いてエネルギー制限され、最も高い拡張バンドは最も高い拡張バンドの次に関してエネルギー制限される。
【0095】
図15は、伝送システムまたは、一般に、エンコーダ1500およびデコーダ1510を備えるシステムを示す。エンコーダは、好ましくは、バンド幅リダクションを実行する、または一般にオリジナルのオーディオ信号1501において、必ずしも完全な上側周波数レンジまたは上側バンドでなければならない必要がないが、コアの周波数バンド間においていかなる周波数バンドとすることもできる、いくつかの周波数レンジを削除する符号化されたコア信号を生成するエンコーダである。次に、符号化されたコア信号は、エンコーダ1500からデコーダ1510に、いかなるサイド情報もなしに伝送され、デコーダ1510は、次に
周波数が増強された信号140を得るために非ガイド式の周波数増強を実行する。従って、デコーダは、
図1〜14のいずれかで述べたように実施することができる。
【0096】
本発明は、ブロックが現実のまたは論理的なハードウェアコンポーネントを表すブロック図の局面において述べられたが、本発明は、コンピュータで実施される方法によって実施することもできる。後者のケースにおいて、ブロックは対応する方法ステップを表し、ここでこれらのステップは対応する論理的または物理的ハードウェアブロックによって実行される機能を表す。
【0097】
いくつかの態様が装置の局面において記述されてきたが、これらの態様は対応する方法の記述をも表していることは明らかであり、ここでブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの局面において記述された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の記載をも表す。いくつかの、または全ての方法ステップは、例えばマイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または用いて)実行することができる。いくつかの実施形態において、いくつかの1つ以上の最も重要な方法ステップは、この種の装置によって実行することができる。
【0098】
本発明の送信されたまたは符号化された信号は、デジタル記憶媒体に記憶することができ、または例えばインターネットのような無線伝送路または有線伝送路のような伝送路上を送信することができる。
【0099】
特定の実施要求に依存して、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶される電子的に読取可能な制御信号を持ち、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROMおよびEPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。それ故に、デジタル記憶媒体はコンピュータ読取可能とすることができる。
【0100】
本発明によるいくつかの実施形態は、本願明細書に記載された方法の1つが実行されるように、電子的に読取可能な制御信号を持ち、プログラム可能なコンピュータシステムと協働することができるデータキャリアを備える。
【0101】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに発明の方法の1つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリア上に記憶することができる。
【0102】
他の実施形態は、機械読取可能なキャリア上に記憶され、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備える。
【0103】
換言すれば、本発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するプログラムコードを持つコンピュータプログラムである。
【0104】
発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備えるデータキャリア(またはデジタル記憶媒体またはコンピュータ読取可能媒体のような固定の記憶媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、通常は有形および/または固定である。
【0105】
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続を介して、例えばインターネットを介して伝送されるように構成することができる。
【0106】
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成されたまたは適合された処理手段、例えばコンピュータまたはプログラマブルロジックデバイスを備える。
【0107】
更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムがその上にインストールされたコンピュータを備える。
【0108】
本発明による更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムをレシーバに(例えば電子的にまたは光学的に)伝送するように構成された装置またはシステムを備える。レシーバは、例えばコンピュータ、モバイルデバイス、記憶デバイス等とすることができる。装置またはシステムは、例えばコンピュータプログラムをレシーバへ転送するファイルサーバを備えることができる。
【0109】
いくつかの実施形態において、本願明細書に記載された方法の機能のいくつかまたは全てを実行するために、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を用いることができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
【0110】
上述した実施形態は、単に本発明の原理に対して示したものである。本願明細書に記載された構成および詳細の修正および変更は他の当業者にとって明らかであると理解される。それ故に、本発明は、以下の特許請求の範囲のスコープによってのみ制限され、本願明細書の実施形態の記載および説明によって提供された特定の詳細によっては制限されないことを意図する。