(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-13
(45)【発行日】2022-01-13
(54)【発明の名称】高周波再構成の際のオーディオ信号処理
(51)【国際特許分類】
G10L 21/0388 20130101AFI20220105BHJP
【FI】
G10L21/0388 100
【外国語出願】
(21)【出願番号】P 2021029918
(22)【出願日】2021-02-26
(62)【分割の表示】P 2020112669の分割
【原出願日】2011-07-14
【審査請求日】2021-02-26
(32)【優先日】2010-09-27
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2010-07-19
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】クヨーリング,クリストファー
【審査官】中村 天真
(56)【参考文献】
【文献】特開2010-079275(JP,A)
【文献】国際公開第2004/010415(WO,A1)
【文献】国際公開第2005/040749(WO,A1)
【文献】特表2013-531281(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-21/18
(57)【特許請求の範囲】
【請求項1】
狭帯域入力オーディオ信号から広帯域出力オーディオ信号を生成するよう構成されたシステムであって、当該システムは:
前記狭帯域入力オーディオ信号
および制御データを受領する段階と;
直交ミラー・フィルタ(QMF)分解フィルタバンクによって、前記狭帯域入力オーディオ信号から複数の低周波数オーディオ・サブバンド信号を生成する段階と;
一組の目標エネルギーを受領する段階であって、各目標エネルギーは
、高周波数区間内の異なる目標区間をカバーし、前記目標区間内にある一つまたは複数の高周波数オーディオ・サブバンド信号の所望されるエネルギーを示す、段階と;
前記複数の低周波数オーディオ・サブバンド信
号から、複数の高周波数オーディオ・サブバンド信号を生成する段階
であって、前記制御データは、前記複数の低周波数オーディオ・サブバンド信号にそれぞれ関連付けられた複数のスペクトル利得係数を、前記複数の高周波数サブバンド信号を決定するために使用するかどうかを示す、段階と;
前記一組の目標エネルギーを使って前記複数の高周波数オーディオ・サブバンド信号のエネルギーを調整する段階と;
前記低周波数オーディオ・サブバンド信号および前記のエネルギーを調整された高周波数オーディオ・サブバンド信号を組み合わせる段階と;
QMF合成フィルタバンクによって、前記の組み合わされたオーディオ・サブバンド信号から前記広帯域出力オーディオ信号を生成する段階とを実行するように構成されている、
システム。
【請求項2】
狭帯域入力オーディオ信号から広帯域出力オーディオ信号を生成する方法であって、当該方法は:
前記狭帯域入力オーディオ信号
および制御データを受領する段階と;
直交ミラー・フィルタ(QMF)分解フィルタバンクによって、前記狭帯域入力オーディオ信号から複数の低周波数オーディオ・サブバンド信号を生成する段階と;
一組の目標エネルギーを受領する段階であって、各目標エネルギーは
、高周波数区間内の異なる目標区間をカバーし、前記目標区間内にある一つまたは複数の高周波数オーディオ・サブバンド信号の所望されるエネルギーを示す、段階と;
前記複数の低周波数オーディオ・サブバンド信
号から、複数の高周波数オーディオ・サブバンド信号を生成する段階
であって、前記制御データは、前記複数の低周波数オーディオ・サブバンド信号にそれぞれ関連付けられた複数のスペクトル利得係数を、前記複数の高周波数サブバンド信号を決定するために使用するかどうかを示す、段階と;
前記一組の目標エネルギーを使って前記複数の高周波数オーディオ・サブバンド信号のエネルギーを調整する段階と;
前記低周波数オーディオ・サブバンド信号および前記のエネルギーを調整された高周波数オーディオ・サブバンド信号を組み合わせる段階と;
QMF合成フィルタバンクによって、前記の組み合わされたオーディオ・サブバンド信号から前記広帯域出力オーディオ信号を生成する段階とを含む、
方法。
【請求項3】
コンピューティング装置上で実行されたときに請求項2記載の方法段階を実行するための、プロセッサ上での実行のために適応されたソフトウェア・プログラムを有する記憶媒体。
【請求項4】
コンピュータ
に請求項2記載の方
法を実行
させるためのコンピュータ・プログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
本願はオーディオ信号のHFR(High Frequency Reconstruction/Regeneration[高周波再構成/再生])に関する。特に、本願はオーディオ信号の高周波を再構成するために使われる低周波数範囲にわたるエネルギー・レベルの大きな変動をもつオーディオ信号のHFRを実行するための方法およびシステムに関する。
【背景技術】
【0002】
スペクトル帯域複製(SBR: Spectral Band Replication)技術のようなHFR技術は、伝統的な知覚的オーディオ・コーデックの符号化効率を著しく改善することを許容する。MPEG-4先進オーディオ符号化(AAC: Advanced Audio Coding)との組み合わせにおいて、HFRは非常に効率的なオーディオ・コーデックをなし、これはすでにXM衛星ラジオ(XM Satellite Radio)システムおよびデジタル・ラジオ・モンディアル(Digital Radio Mondiale)内で使用されており、3GPP、DVDフォーラムその他において標準化されてもいる。AACとSBRの組み合わせはaacPlusと呼ばれる。これはMPEG-4規格の一部であり、この規格では高効率AACプロファイル(HE-AAC: High Efficiency AAC Profile)と呼ばれている。一般に、HFR技術は従来のものや将来のものと互換な仕方で任意の知覚的オーディオ・コーデックと組み合わせることができ、そのためユーレカ(Eureka)DABシステムにおいて使われるMPEGレイヤー2のようなすでに確立された放送システムをアップグレードする可能性を提供する。HFRの諸方法は、音声コーデックと組み合わされて、超低ビットレートで広帯域音声(speech)を許容することもできる。
【0003】
HFRの背後にある基本的発想は、信号の高周波数範囲の特性と、同じ信号の低周波数範囲の特性との間に通例強い相関があるという観察である。よって、信号のもとの入力高周波数範囲の表現のよい近似が、低周波数範囲から高周波数範囲への信号転移(transposition)によって達成できる。
【0004】
この転移の概念は、参照によって組み込まれる国際公開第98/57436号において、オーディオ信号のより低い周波数帯域から高周波数帯域を再生成するための方法として確立された。オーディオ符号化および/または音声符号化においてこの概念を使うことによって、実質的なビットレート節約が得られる。以下では、オーディオ符号化に言及することになるが、記載される方法およびシステムは、音声符号化や、統合音声音響符号化(USAC: unified speech and audio coding)にも等しく適用可能であることを注意しておくべきである。
【0005】
高周波再構成は、選択されたフィルタバンクまたは変換を使って時間領域または周波数領域において実行できる。このプロセスは通例、いくつかのステップを含む。二つの主要な動作は、まず、高周波励起信号を生成し、その後、もとの高周波スペクトルのスペクトル包絡線を近似するよう高周波励起信号を整形するものである。高周波励起信号を生成するステップは、たとえば、単一側波帯変調(SSB: single sideband modulation)に基づいていてもよい。この場合、周波数ωの正弦波は、Δωを固定周波数シフトとして、周波数ω+Δωの正弦波にマッピングされる。換言すれば、高周波数信号は、低周波数サブバンドから高周波数サブバンドへの「上へのコピー〔コピーアップ〕」動作によって低周波数信号から生成されうる。高周波励起信号を生成することに対するさらなる手法は、低周波数サブバンドの高調波転換(harmonic transposition)に関わるものでもよい。次数(order)Tの高調波転換は、典型的には、低周波数信号の周波数ωの正弦波を、T>1として高周波数信号の周波数Tωの正弦波にマッピングするよう設計される。
【0006】
HFR技術は、源符号化システムの一部として使用されてもよい。ここで、HFRプロセスをガイドする雑多な制御情報がエンコーダからデコーダに、狭帯域/低周波数信号の表現とともに伝送される。追加的な制御信号が伝送できないシステムについては、プロセスは、デコーダ側の利用可能な情報から推定される好適な制御データを用いてデコーダ側で適用されてもよい。
【0007】
上述した高周波励起信号の包絡線調整は、もとのハイバンドのスペクトル形に似るスペクトル形を達成することをねらいとする。そうするために、高周波数信号のスペクトル形が修正される必要がある。別の言い方をすれば、ハイバンドに適用される調整は、既存のスペクトル包絡線と所望される目標スペクトル包絡線の関数である。
【0008】
周波数領域で動作するシステム、たとえば擬似QMFフィルタバンクにおいて実装されるHFRシステムについて、従来技術の方法はこの点で最適ではない。というのも、源周波数範囲からのいくつかの寄与を組み合わせることによるハイバンドの生成は、包絡線調整されるべきハイバンドに人工的なスペクトル包絡線を導入するからである。換言すれば、典型的には、HFRプロセスの間の低周波数信号から生成されたハイバンドまたは高周波数信号は(典型的にはスペクトル不連続性を有する)人工的なスペクトル包絡線を示す。これは、スペクトル包絡線調整器にとって困難を呈する。というのも、調整器は、適正な時間および周波数分解能をもつ所望されるスペクトル包絡線を適用できる必要があるばかりでなく、調整器は、HFR信号生成器による人工的に導入されたスペクトル特性を取り消すこともできねばならないからである。これは、包絡線調整器に対する、難しい設計上の制約条件を呈する。結果として、これらの困難は、高周波エネルギーの知覚される損失および、特に音声型の信号については、ハイバンドの信号におけるスペクトル形における耳に聞こえる不連続性につながる傾向がある。換言すれば、従来のHFR信号生成器は、ローバンド範囲にわたるレベルの大きな変動をもつ信号、たとえば歯擦音(sibilant)についてハイバンドの信号中に不連続性およびレベル変動を導入する傾向があるのである。その後、包絡線調整器がこのハイバンドの信号に出くわすとき、包絡線調整器は、合理性および一貫性をもって、新たに導入された不連続をローバンドの信号の何らかの自然なスペクトル特性から分離することはできない。
【先行技術文献】
【非特許文献】
【0009】
【文献】ISO/IEC14496-3 Information Technology―Coding of audio-visual objects―Part3: Audio
【文献】MPEG-D USAC: ISO/IEC23003-3 United Speech and Audio Coding
【発明の概要】
【発明が解決しようとする課題】
【0010】
本稿は、知覚されるオーディオ品質の向上につながる、上述の問題に対する解決策を概説する。特に、本稿は、ローバンド信号からハイバンド信号を生成する問題に対する解決策であって、望ましくないアーチファクトを導入することなく、ハイバンド信号のスペクトル包絡線が、ハイバンドにおけるもとのスペクトル包絡線に似るよう効果的に調整されるもの、を記述する。
【課題を解決するための手段】
【0011】
本稿は、高周波再構成信号生成の一部として追加的な補正ステップを提案する。追加的な補正ステップの結果として、高周波成分またはハイバンド信号のオーディオ品質が改善される。この追加的な補正ステップは、高周波再構成技法を使うすべての源符号化システムにも、オーディオ信号の高周波数を再生成することをねらいとする任意の単一エンドの(single ended)後処理方法もしくはシステムにも適用されうる。
【0012】
ある側面によれば、高周波数区間をカバーする複数の高周波数サブバンド信号を生成するよう構成されたシステムが記述される。システムは、複数の低周波数サブバンド信号から前記複数の高周波数サブバンド信号を生成するよう構成されていてもよい。前記複数の低周波数サブバンド信号は、分解フィルタバンクまたは変換を使って決定されうるローバンドまたは狭帯域オーディオ信号のサブバンド信号であってもよい。特に、前記複数の低周波数サブバンド信号は、分解QMF(quadrature mirror filter[直交ミラー・フィルタ])フィルタバンクまたはFFT(Fast Fourier Transform[高速フーリエ変換])を使ってローバンド時間領域信号から決定されてもよい。前記複数の生成された高周波数サブバンド信号は、前記複数の低周波数サブバンド信号が導出されたもとになったもとのオーディオ信号の前記高周波数サブバンド信号の近似に対応していてもよい。特に、前記複数の低周波数サブバンド信号および前記複数の(再)生成された高周波数サブバンド信号は、QMFフィルタバンクおよび/またはFFT変換の前記サブバンドに対応してもよい。
【0013】
本システムは、前記複数の低周波数サブバンド信号を受領する手段を有する。よって、本システムは、ローバンド信号から前記複数の低周波数サブバンド信号を生成する前記分解フィルタバンクまたは変換の下流に置かれてもよい。前記ローバンド信号は、受領されたビットストリームからコア・デコーダにおいてデコードされたオーディオ信号であってもよい。前記ビットストリームは、記憶媒体、たとえばコンパクトディスクまたはDVDに記憶されていてもよく、あるいは前記ビットストリームは伝送媒体、たとえば光または電波伝送媒体を通じて前記デコーダにおいて受領されてもよい。
【0014】
本システムは、スケール因子エネルギーとも称されうる一組の目標エネルギーを受領する手段を有していてもよい。各目標エネルギーは、スケール因子帯域とも称されうる異なる目標区間をカバーしてもよい。典型的には、前記一組の目標エネルギーに対応する前記一組の目標区間は完全な高周波数区間をカバーする。前記一組の目標エネルギーに含まれる目標エネルギーは通例、対応する目標区間内にある一つまたは複数の高周波数サブバンド信号の所望されるエネルギーを示す。特に、前記目標エネルギーは、前記対応する目標区間内にある前記一つまたは複数の高周波数サブバンド信号の平均の所望されるエネルギーに対応してもよい。目標区間の目標エネルギーは典型的には、該目標区間内のもとのオーディオ信号のハイバンド信号のエネルギーから導出される。換言すれば、前記一組の目標エネルギーは典型的には、もとのオーディオ信号のハイバンド部分のスペクトル包絡線を記述する。
【0015】
本システムは、前記複数の低周波数サブバンド信号から前記複数の高周波数サブバンド信号を生成する手段を有していてもよい。この目的のため、前記複数の高周波数サブバンド信号を生成する手段は、前記複数の低周波数サブバンド信号の上へのコピー転移を実行する、および/または、前記複数の低周波数サブバンド信号の高調波転換を実行するよう構成されていてもよい。
【0016】
さらに、前記複数の高周波数サブバンド信号を生成する手段は、前記複数の高周波数サブバンド信号の生成プロセスの間に、複数のスペクトル利得係数を考慮に入れてもよい。前記複数のスペクトル利得係数は、前記複数の低周波数サブバンド信号にそれぞれ関連付けられてもよい。換言すれば、前記複数の低周波数サブバンド信号の各低周波数サブバンド信号は、前記複数のスペクトル利得係数からの対応するスペクトル利得係数を有していてもよい。前記複数のスペクトル利得係数からのスペクトル利得係数は、対応する低周波数サブバンド信号に適用されてもよい。
【0017】
前記複数のスペクトル利得係数は、前記それぞれの複数の低周波数サブバンド信号のエネルギーに関連付けられていてもよい。特に、各スペクトル利得係数は、その対応する低周波数サブバンド信号のエネルギーに関連付けられていてもよい。ある実施形態では、スペクトル利得係数は対応する低周波数サブバンド信号のエネルギーに基づいて決定される。この目的のため、前記複数の低周波数サブバンド信号の前記複数のエネルギー値に基づいて、周波数依存の曲線が決定されてもよい。この場合、前記複数の利得係数を決定する方法は、前記複数の低周波数サブバンド信号の前記エネルギーの表現(たとえば対数表現)から決定される前記周波数依存の曲線に依拠してもよい。
【0018】
換言すれば、前記複数のスペクトル利得係数は、前記複数の低周波数サブバンド信号のエネルギーに当てはめ〔フィッティング〕された周波数依存の曲線から導出されてもよい。特に、前記周波数依存の曲線は所定の次数の多項式であってもよい。これに代えて、または追加して、前記周波数依存の曲線は種々の曲線セグメントを有していてもよく、該種々の曲線セグメントは種々の周波数区間における前記複数の低周波数サブバンド信号のエネルギーに当てはめされる。前記種々の曲線セグメントは、所定の次数の種々の多項式であってもよい。ある実施形態では、前記種々の曲線セグメントは次数0の多項式であり、前記曲線セグメントは対応する周波数区間内の前記複数の低周波数サブバンド信号のエネルギーの平均エネルギー値を表す。あるさらなる実施形態によれば、前記周波数依存の曲線は、前記種々の周波数区間に沿って移動平均フィルタリング動作を実行することによって、前記複数の低周波数サブバンド信号のエネルギーに当てはめされる。
【0019】
ある実施形態では、前記複数の利得係数に含まれる利得係数は、前記複数の低周波数サブバンド信号の平均エネルギーと、前記周波数依存の曲線の対応する値との差から導出される。前記周波数依存の曲線の対応する値は、前記利得係数が対応する前記低周波数サブバンド信号の前記周波数範囲内にある周波数における前記曲線の値であってもよい。
【0020】
典型的には、前記複数の低周波数サブバンド信号のエネルギーはある時間グリッド上で、たとえばフレーム毎に、決定される。すなわち、該時間グリッドによって定義される時間区間内のある低周波数サブバンド信号のエネルギーは、該時間区間内の、たとえばあるフレーム内の該低周波数サブバンド信号のサンプルの平均エネルギーに対応する。よって、異なる複数のスペクトル利得係数が選ばれた時間グリッド上で決定されてもよい。たとえば、オーディオ信号の各フレームについて、異なる複数のスペクトル利得係数が決定されてもよい。ある実施形態では、前記複数のスペクトル利得係数は、サンプル毎に、たとえば各低周波数サブバンド信号の諸サンプルにわたるフローティング窓を使って前記複数の低周波数サブバンド信号のエネルギーを決定することによって決定されてもよい。本システムは、前記複数の低周波数サブバンド信号から前記複数のスペクトル利得係数を決定する手段を有していてもよいことを注意しておくべきである。これらの手段は、前記複数のスペクトル利得係数を決定するための上述した諸方法を実行するよう構成されていてもよい。
【0021】
前記複数の高周波数サブバンド信号を生成する手段は、前記それぞれの複数のスペクトル利得係数を使って前記低周波数サブバンド信号を増幅するよう構成されていてもよい。以下では「増幅する」または「増幅」に言及するが、「増幅」動作は「乗算」動作、「スケール変更(rescaling)」動作または「調整」動作のような他の動作によって置き換えられてもよい。増幅は、低周波数サブバンド信号のサンプルに、その対応するスペクトル利得係数を乗算することによって行われてもよい。特に、前記複数の高周波数サブバンド信号を生成する手段は、所与の時点における高周波数サブバンド信号のサンプルを、該所与の時点および少なくとも一つの先行する時点における低周波数サブバンド信号のサンプルから決定するよう構成されていてもよい。さらに、前記低周波数サブバンド信号のサンプルは、前記複数のスペクトル利得係数の前記それぞれのスペクトル利得係数によって増幅されてもよい。ある実施形態では、前記複数の高周波数サブバンド信号を生成する手段は、前記複数の高周波数サブバンド信号を、MPEG-4 SBRにおいて規定されている「上へのコピー」アルゴリズムに従って前記複数の低周波数サブバンド信号から生成するよう構成される。この「上へのコピー」アルゴリズムにおいて使用される前記複数の低周波数サブバンド信号は、前記複数のスペクトル利得係数を使って増幅されていてもよい。ここで、「増幅」動作は上記で概説したように実行されてもよい。
【0022】
本システムは、前記一組の目標エネルギーを使って前記複数の高周波数サブバンド信号のエネルギーを調整する手段を有していてもよい。この動作は典型的にはスペクトル包絡線調整と称される。スペクトル包絡線調整は、目標区間内にある前記複数の高周波数サブバンド信号の平均エネルギーが前記対応する目標エネルギーに対応するよう、前記複数の高周波数サブバンド信号のエネルギーを調整することによって実行される。これは、目標区間内にある前記複数の高周波数サブバンド信号の諸エネルギー値および前記対応する目標エネルギーから包絡線調整値を決定することによって達成されてもよい。特に、前記包絡線調整値は、前記目標エネルギーと、対応する目標区間内にある前記複数の高周波数サブバンド信号の諸エネルギー値との比から決定されてもよい。この包絡線調整値は、前記複数の高周波数サブバンド信号のエネルギーを調整するために使用されてもよい。
【0023】
ある実施形態では、前記エネルギーを調整する手段は、制限器区間内にある高周波数サブバンド信号のエネルギーの調整を制限する手段を有する。典型的には、制限器区間は、二つ以上の目標区間をカバーする。前記制限する手段は、通例、ある種の高周波数サブバンド信号内のノイズの望ましくない増幅を避けるために使用される。たとえば、前記制限する手段は、前記制限器区間によってカバーされるまたは前記制限器区間内にある前記諸目標区間に対応する諸包絡線調整値の平均包絡線調整値を決定するよう構成されていてもよい。さらに、前記制限する手段は、前記制限器区間内にある前記高周波数サブバンド信号のエネルギーの調整を、前記平均包絡線調整値に比例する値に制限するよう構成されていてもよい。
【0024】
これに代えて、または加えて、前記複数の高周波数サブバンド信号のエネルギーを調整する手段は、当該特定の目標区間内にある調整された高周波数サブバンド信号が同じエネルギーをもつことを保証する手段を有していてもよい。この手段はしばしば「補間」手段と称される。換言すれば、「補間」手段は、前記特定の目標区間内にある各高周波数サブバンド信号のエネルギーが前記目標エネルギーに対応することを保証する。「補間」手段は、調整された高周波数サブバンド信号のエネルギーが、前記特定の目標区間に関連付けられた目標エネルギーに対応するよう、前記目標区間内の各高周波数サブバンド信号を別個に調整することによって実装されてもよい。これは、前記特定の目標区間内の各高周波数サブバンド信号について異なる包絡線調整値を決定することによって達成されてもよい。異なる包絡線調整値は、当該特定の高周波数サブバンド信号のエネルギーおよび前記特定の目標区間に対応する目標エネルギーに基づいて決定されてもよい。ある実施形態では、特定の高周波数サブバンド信号についての包絡線調整値は前記目標エネルギーと前記特定の高周波数サブバンド信号のエネルギーとの比に基づいて決定される。
【0025】
本システムはさらに、制御データを受け取る手段を有していてもよい。制御データは、前記複数のスペクトル利得係数を適用して前記複数の高周波数サブバンド信号を生成するかどうかを示してもよい。換言すれば、制御データは、前記低周波数サブバンド信号の追加的な利得調整が実行されるべきか否かを示していてもよい。これに代えて、または加えて、制御データは、前記複数のスペクトル利得係数を決定するために使われるべき方法を示していてもよい。例として、制御データは、前記複数の低周波数サブバンド信号のエネルギーに当てはめされる前記周波数依存の曲線を決定するために使われるべき多項式の所定の次数を示していてもよい。制御データは典型的には、もとのオーディオ信号を解析して対応するデコーダまたはHFRシステムにビットストリームをいかにしてデコードするかを通知する対応するエンコーダから受領される。
【0026】
もう一つの側面によれば、低周波数オーディオ信号を含み、高周波数オーディオ信号のスペクトル包絡線を記述する一組の目標エネルギーを含むビットストリームをデコードするよう構成されたオーディオ・デコーダが記述される。換言すれば、低周波数オーディオ信号を表し、高周波数オーディオ信号のスペクトル包絡線を記述する一組の目標エネルギーを表すビットストリームをデコードするよう構成されたオーディオ・デコーダが記述される。本オーディオ・デコーダは、ビットストリームからの低周波数オーディオ信号に関連付けられた複数の低周波数サブバンド信号を決定するよう構成されたコア・デコーダおよび/または変換ユニットを有していてもよい。これに代えて、または加えて、本オーディオ・デコーダは、本稿で概説されるシステムに基づく高周波数生成ユニットを有していてもよく、前記システムは前記複数の低周波数サブバンド信号および前記一組の目標エネルギーから複数の高周波数サブバンド信号を決定するよう構成されていてもよい。これに代えて、または加えて、前記デコーダは、前記複数の低周波数サブバンド信号および前記複数の高周波数サブバンド信号からオーディオ信号を生成するよう構成されたマージおよび/または逆変換ユニットを有していてもよい。マージおよび逆変換ユニットは、合成フィルタバンクまたは変換、たとえば逆QMFフィルタバンクまたは逆FFTを有していてもよい。
【0027】
あるさらなる側面によれば、オーディオ信号から制御データを生成するよう構成されたエンコーダが記述される。前記オーディオ・エンコーダは、前記オーディオ信号のスペクトル形を解析し、前記オーディオ信号の低周波数成分から前記オーディオ信号の高周波数成分を再生成するときに導入されるスペクトル包絡線不連続の度合いを決定する手段を有していてもよい。よって、本エンコーダは、対応するデコーダのある種の要素を有していてもよい。特に、本エンコーダは、本稿で概説されるHFRシステムを有していてもよい。これは、本エンコーダが、デコーダ側で前記オーディオ信号の高周波数成分に導入されることがありうるスペクトル包絡線における不連続の度合いを決定できるようにする。これに代えて、または加えて、本エンコーダは、不連続の度合いに基づいて高周波数成分の再生成を制御するための制御データを生成する手段を有していてもよい。特に、前記制御データは、対応するデコーダまたは前記HFRシステムによって受領される制御データに対応していてもよい。前記制御データは、前記HFRプロセスの間に前記複数のスペクトル利得係数を使うか否か、および/または、前記複数のスペクトル利得係数を決定するためにあらかじめ決定された多項式次数のうちのどれを使うべきかを示していてもよい。この情報を決定するために、前記低周波数区間、すなわち前記複数の低周波数サブバンド信号によってカバーされる周波数範囲の選択された諸部分の比が決定されることができる。この比情報は、たとえば、ローバンドの最低の諸周波数およびローバンドの最高の諸周波数を調べることによって決定できる。これにより、デコーダにおいてのちに高周波再構成のために使われることになるローバンド信号のスペクトル変動にアクセスできる。大きな比は、増大した不連続の度合いを示すことができる。制御データは、信号種別検出器を使って決定することもできる。例として、音声(speech)信号の検出は、増大した不連続の度合いを示すことができる。他方、もとのオーディオ信号における顕著な正弦波の検出は、前記複数のスペクトル利得係数が前記HFRプロセスの間使われるべきではないことを示す制御データにつながることができる。
【0028】
もう一つの側面によれば、複数の低周波数サブバンド信号から高周波数区間をカバーする複数の高周波数サブバンド信号を生成する方法が記述される。本方法は、前記複数の低周波数サブバンド信号を受領するおよび/または一組の目標エネルギーを受領するステップを含んでいてもよい。各目標エネルギーは前記高周波数区間内の異なる目標区間をカバーしてもよい。さらに、各目標エネルギーは、前記目標区間内にある一つまたは複数の高周波数サブバンド信号の所望されるエネルギーを示していてもよい。本方法は、前記複数の低周波数サブバンド信号およびそれぞれ前記複数の低周波数サブバンド信号に関連付けられた複数のスペクトル利得係数から前記複数の高周波数サブバンド信号を生成するステップを含んでいてもよい。これに代えて、または加えて、本方法は、前記一組の目標エネルギーを使って前記複数の高周波数サブバンド信号のエネルギーを調整するステップを含んでいてもよい。前記エネルギーを調整するステップは、制限器区間内にある高周波数サブバンド信号のエネルギーの調整を制限するステップを含んでいてもよい。典型的には、制限器区間は二つ以上の目標区間をカバーする。
【0029】
あるさらなる側面によれば、低周波数オーディオ信号および対応する高周波数オーディオ信号のスペクトル包絡線を記述する一組の目標エネルギーを表すまたは含むビットストリームをデコードする方法が記述される。典型的には、低周波数および高周波数のオーディオ信号は、同じもとのオーディオ信号の低周波数成分および高周波数成分に対応する。本方法は、前記ビットストリームから前記低周波数オーディオ信号に関連付けられた複数の低周波数サブバンド信号を決定するステップを含んでいてもよい。これに代えて、または加えて、本方法は、前記複数の低周波数サブバンド信号および前記一組の目標エネルギーから複数の高周波数サブバンド信号を決定するステップを含んでいてもよい。このステップは典型的には、本稿において概説されるHFR方法に基づいて実行される。その後、本方法は、前記複数の低周波数サブバンド信号および前記複数の高周波数サブバンド信号からオーディオ信号を生成するステップを含んでいてもよい。
【0030】
もう一つの側面によれば、オーディオ信号から制御データを生成する方法が記述される。本方法は、前記オーディオ信号の低周波数成分から前記オーディオ信号の高周波数成分を再生成するときに導入される不連続の度合いを決定するために、前記オーディオ信号のスペクトル形を解析するステップを含んでいてもよい。さらに、本方法は、不連続の度合いに基づいて前記高周波数成分の再生成を制御する制御データを生成するステップを含んでいてもよい。
【0031】
あるさらなる側面によれば、ソフトウェア・プログラムが記載される。本ソフトウェア・プログラムは、プロセッサ上での実行のために、およびコンピューティング装置上で実行されたときに本稿で概説される方法ステップを実行するために適応されていてもよい。
【0032】
もう一つの側面によれば、記憶媒体が記述される。本記憶媒体は、プロセッサ上での実行のために、およびコンピューティング装置上で実行されたときに本稿で概説される方法ステップを実行するために適応されたソフトウェア・プログラムを有していてもよい。
【0033】
あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。本コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法ステップを実行するための実行可能命令を有していてもよい。
【0034】
本特許出願において概説される好ましい実施形態を含む方法およびシステムは、単独で、あるいは本稿で記述される他の方法およびシステムと組み合わせて使用されてもよいことを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、任意に組み合わせてもよい。特に、各請求項の特徴は任意の仕方で互いに組み合わされてもよい。
【図面の簡単な説明】
【0035】
本発明は、付属の図面を参照して例解する例によって説明される。
【
図1a】スペクトル包絡線調整に先立つ例示的なハイバンド信号の絶対的なスペクトルを示す図である。
【
図1b】オーディオ・データの時間フレームとスペクトル包絡線の包絡線時間境界との間の例示的な関係を示す図である。
【
図1c】スペクトル包絡線調整に先立つ例示的なハイバンド信号の絶対的なスペクトルと、対応するスケール因子帯域、制限器帯域およびHF(high frequency[高周波数])パッチとを示す図である。
【
図2】上へのコピー・プロセスが追加的な利得調整ステップによって補完されるHFRシステムの実施形態を示す図である。
【
図3】例示的なローバンド信号の粗いスペクトル包絡線の近似を示す図である。
【
図4】任意的な制御データ、QMFサブバンド・サンプルに基づいて動作し、利得曲線を出力する追加的な利得調整器のある実施形態を示す図である。
【
図5】
図4の追加的な利得調整器のより詳細な実施形態を示す図である。
【
図6】狭帯域信号を入力とし、広帯域信号を出力とするHFRシステムの実施形態を示す図である。
【
図7】オーディオ・デコーダのSBRモジュール中に組み込まれたHFRシステムの実施形態を示す図である。
【
図8】例示的なオーディオ・デコーダの高周波再構成モジュールのある実施形態を示す図である。
【
図9】例示的なエンコーダのある実施形態を示す図である。
【
図10a】従来のデコーダを使ってデコードされた例示的な声セグメントのスペクトログラムである。
【
図10b】追加的な利得調整処理を適用するデコーダを使ってデコードされた例示的な声セグメントのスペクトログラムである。
【
図10c】もとの符号化されない信号についての
図10aの声セグメントのスペクトログラムである。
【発明を実施するための形態】
【0036】
下記の実施形態は単に本発明「高周波再構成の際のオーディオ信号処理」の原理を例解するものである。本稿に記載される構成および詳細の修正や変形が当業者には明白であろうことは理解される。したがって、本稿における実施形態の記述および説明によって提示される個別的な詳細によってではなく、付属の特許請求項の範囲によってのみ限定されることが意図されている。
【0037】
上記で概説したように、HFR技法を使うオーディオ・デコーダは典型的には、高周波数オーディオ信号を生成するためのHFRユニットと、その高周波数オーディオ信号のスペクトル包絡線を調整するためのその後のスペクトル包絡線調整ユニットとを有する。オーディオ信号のスペクトル包絡線を調整するとき、これは典型的にはフィルタバンク実装によって、あるいは時間領域フィルタ処理によって行われる。調整は、絶対的なスペクトル包絡線の補正を行うよう努めることができる、あるいは位相特性をも補正するフィルタ処理によって実行されることができる。いずれにせよ、調整は、典型的には、現在のスペクトル包絡線の除去と、目標スペクトル包絡線の適用という二つのステップの組み合わせである。
【0038】
本稿で概説される方法およびシステムは単にオーディオ信号のスペクトル包絡線の除去に向けられているのではないことを注意しておくことが重要である。本稿の方法およびシステムは、高周波再生成ステップの一部として、ローバンド信号のスペクトル包絡線の好適なスペクトル補正をしようと努める。ハイバンドの、すなわち高周波数信号の異なる周波数範囲にシフトまたは転換されたローバンドの、すなわち低周波数信号の異なるセグメントを組み合わせることによって生成される高周波数スペクトルのスペクトル包絡線不連続を導入しないためである。
【0039】
図1aにおいて、包絡線調整器にはいる前の、HFRユニットの出力の様式的に描かれたスペクトル100、110が表示されている。上のパネルでは、ローバンド信号101からハイバンド信号105を生成するために上へのコピー方法(二つのパッチをもつ)、たとえば、参照によって組み込まれる非特許文献1に概説されているMPEG-4 SBR(スペクトル帯域複製)において使われる上へのコピー方法が使用されている。上へのコピー方法は、より低い周波数101の諸部分をより高い周波数105に移す。下のパネルでは、ローバンド信号111からハイバンド信号115を生成するために高調波転換方法(二つのパッチをもつ)、たとえば参照によって組み込まれる非特許文献2に記述されているMPEG-D USACの高調波転換方法が使用されている。
【0040】
その後の包絡線調整段では、目標スペクトル包絡線が高周波数成分105、115に適用される。包絡線調整器にはいっていくスペクトル105、115から見て取れるように、(特にパッチ境界における)不連続が、ハイバンド励起信号105、115の、すなわち包絡線調整器にはいるハイバンド信号のスペクトル形において観察できる。これらの不連続は、低周波数101、111のいくつかの寄与がハイバンド105、115を生成するために使用されているという事実に由来する。見て取れるように、ハイバンド信号105、115のスペクトル形は、ローバンド信号101、111のスペクトル形に関係している。結果として、ローバンド信号101、111の特定のスペクトル形、たとえば
図1aに示される勾配形は、全体的なスペクトル100、110における不連続につながりうる。
【0041】
スペクトル100、110に加えて、
図1aは、目標スペクトル包絡線を表すスペクトル包絡線データの例示的な周波数帯域130を示している。これらの周波数帯域130はスケール因子帯域または目標区間と称される。典型的には、目標エネルギー値、すなわちスケール因子エネルギーが各目標区間、すなわちスケール因子帯域について指定される。換言すれば、目標区間当たり典型的には単一の目標エネルギーしかないので、スケール因子帯域は目標スペクトル帯域の有効周波数分解能を定義する。スケール因子帯域について指定されたスケール因子または目標エネルギーを使って、その後の包絡線調整器は、スケール因子帯域内のハイバンド信号のエネルギーが、該それぞれのスケール因子帯域についての受領されたスペクトル包絡線データのエネルギー、すなわち目標エネルギーに等しくなるようハイバンド信号を調整しようと努める。
【0042】
図1cでは、例示的なオーディオ信号を使ってより詳細な記述が与えられる。このプロットでは、包絡線調整器にはいっていく現実世界のオーディオ信号121のスペクトルが、対応するもとの信号120とともに描かれている。この特定の例では、SBR範囲、すなわち高周波数信号の範囲は、6.4kHzから始まり、ローバンド周波数範囲の三つの異なる複製からなる。それらの異なる複製の周波数範囲は「パッチ1」「パッチ2」および「パッチ3」によって示される。スペクトログラムから、このパッチ構成が約6.4kHz、7.4kHzおよび10.8kHzにおいてスペクトル包絡線に不連続を導入することが明らかである。本例では、これらの周波数はパッチ境界に対応する。
【0043】
図1cはさらに、スケール因子帯域130および以下でより詳細に機能が概説される制限器帯域135を示している。図示した実施形態では、MPEG-4 SBRの包絡線調整器が使われる。この包絡線調整器はQMFフィルタバンクを使って動作する。そのような包絡線調整器の動作の主要な側面は次のとおりである。
【0044】
・包絡線調整器への入力信号、すなわちHFRユニットから出てくる信号のスケール因子帯域130を通じた平均エネルギーを計算する。換言すれば、再生成されるハイバンド信号の平均エネルギーが各スケール因子帯域/目標区間130内で計算される。
【0045】
・各スケール因子帯域130について、包絡線調整値とも称される利得値を決定する。包絡線調整値は、それぞれのスケール因子帯域130内での、目標エネルギー(すなわち、エンコーダから受領されるエネルギー目標)と再生成されるハイバンド信号121の平均エネルギーとの間のエネルギー比の平方根である。
【0046】
・それぞれの包絡線調整値を再生成されたハイバンド信号121の、それぞれのスケール因子帯域130に対応する周波数帯域に適用する。
【0047】
さらに、包絡線調整器は、追加的なステップおよび変形を有していてもよい。具体的には次のとおり。
【0048】
・ある周波数帯域に対して、すなわち制限器帯域135に対して適用される最大許容包絡線調整値を制限する制限器機能。最大許容包絡線調整値は、制限器帯域135内にはいる種々のスケール因子帯域130について決定された包絡線調整値の関数である。具体的には、最大許容包絡線調整値は、制限器帯域135内にはいる種々のスケール因子帯域130について決定された包絡線調整値の平均の関数である。例として、最大許容包絡線調整値は、関連する包絡線調整値の平均値に制限器因子(1.5など)をかけたものであってもよい。制限器機能は、典型的には、再生成されたハイバンド信号121へのノイズの導入を制限するために適用される。これは、顕著な正弦波を含むオーディオ信号、すなわちある周波数において明瞭なピークをもつスペクトルをもつオーディオ信号について特に重要である。制限器機能を使うことなくしては、もとのオーディオ信号がそのような明瞭なピークを含むスケール因子帯域130について有意な包絡線調整値が決定されることになる。結果として、(該明瞭なピークだけでなく)完全なスケール因子帯域130のスペクトルが調整されることになり、それによりノイズが導入される。
【0049】
・補間機能。これは、スケール因子帯域全体について単一の包絡線調整値を計算するのではなく、スケール因子帯域内の各個々のQMFサブバンドについて包絡線調整値が計算されることを許容する。スケール因子帯域は典型的には二つ以上のQMFサブバンドを含むので、包絡線調整値は、スケール因子帯域内の全QMFサブバンドの平均エネルギーとエンコーダから受領される目標エネルギーとの比を計算するのではなく、スケール因子帯域内の特定のQMFサブバンドのエネルギーとエンコーダから受領される目標エネルギーとの比として計算されることができる。よって、異なる包絡線調整値がスケール因子帯域内で各QMFサブバンドについて決定されてもよい。あるスケール因子帯域についての受領される目標エネルギー値は典型的にはもとの信号内のその周波数範囲の平均エネルギーに対応することを注意しておくべきである。再生成されたハイバンド信号の対応する周波数帯域に受領された平均目標エネルギーをいかにして適用するかはデコーダ動作次第である。これは、再生成されたハイバンド信号のスケール因子帯域内の諸QMFサブバンドに全体的な包絡線調整値を適用することによって、あるいは各QMFサブバンドに個別的な包絡線調整値を適用することによって行うことができる。後者の手法は、より高い周波数分解能を提供するために受領された包絡線情報(すなわち、スケール因子帯域当たり一つの目標エネルギー)がスケール因子帯域内の諸QMFサブバンドを通じて「補間」されたかのように考えることができる。よって、この手法は、MPEG-4 SBRでは「補間」と称されている。
【0050】
図1cを参照するに、包絡線調整器は、該包絡線調整器にはいっていく信号のスペクトル121をもとの信号のスペクトル120に合わせるために、高い包絡線調整値を適用しなければならないことが見て取れる。不連続のために、包絡線調整値の大きな変動が制限器帯域135内で発生することも見て取れる。そのような大きな変動の結果として、再生成されたスペクトル121の極小に対応する包絡線調整値は包絡線調整値の制限器機能によって制限される。結果として、再生成されたスペクトル121内の不連続は、包絡線調整動作の実行後でさえも残る。他方、制限器機能が使われない場合、上で概説したように望ましくないノイズが導入されうる。
【0051】
よって、ローバンド範囲にわたってレベルの大きな変動があるいかなる信号についても、ハイバンド信号の再生成について問題が生じる。この問題は、ハイバンドの高周波再生成の際に導入される不連続のためである。その後包絡線調整器がこの再生成された信号に出くわすと、包絡線調整器は、新たに導入された不連続を、ローバンド信号の任意の「現実世界の」スペクトル特性から、合理性および一貫性をもって分離することはできない。この問題の影響には二面ある。第一に、包絡線調整器が補償できないスペクトル形がハイバンド信号中に導入される。その結果、出力は誤ったスペクトル形をもつ。第二に、不安定性効果が知覚される。それは、この効果がローバンド・スペクトル特性に応じてはいったり消えたりするという事実による。
【0052】
本稿は、スペクトル不連続を示さない包絡線調整器の入力におけるHFRハイバンド信号を提供する方法およびシステムを記述することによって、上述した問題に対処する。この目的のため、高周波再生を実行するときにローバンド信号のスペクトル包絡線を除去または削減することが提案される。これをすることにより、包絡線調整を実行する前にハイバンド信号中にいかなるスペクトル不連続を導入することも避けることになる。結果として、包絡線調整器はそのようなスペクトル不連続を扱う必要はなくなる。特に、再生されたハイバンド信号中へのノイズの導入を避けるために包絡線調整器の制限器機能が使われる従来の包絡線調整器が使用されてもよい。換言すれば、記載される方法およびシステムは、スペクトル不連続がほとんどまたは全くなく、ノイズ・レベルが低いHFRハイバンド信号を再生成するために使われうる。
【0053】
包絡線調整器の時間分解能はハイバンド信号生成の際のスペクトル包絡線の提案される処理の時間分解能とは異なっていてもよいことを注意しておくべきである。上述したように、ハイバンド信号再生成の際のスペクトル包絡線の処理は、その後の包絡線調整器内での処理を軽減するためにローバンド信号のスペクトル包絡線を修正するために意図されている。この処理、すなわちローバンド信号のスペクトル包絡線の修正は、たとえばオーディオ・フレーム当たり一回実行されてもよい。ここで、包絡線調整器はいくつかの時間区間にわたって、すなわちいくつかの受領されたスペクトル包絡線を使ってスペクトル包絡線を調整してもよい。これは、
図1bにおいて概観される。ここでは、スペクトル包絡線データの時間グリッド150が上のパネルに描かれており、ハイバンド信号再生成中のローバンド信号のスペクトル包絡線の処理のための時間グリッド155が下のパネルに描かれている。
図1bの例に見て取れるように、スペクトル包絡線データの時間境界は時間とともに変わり、一方、ローバンド信号のスペクトル包絡線の処理は固定時間グリッドに対して作用する。また、ローバンド信号のスペクトル包絡線の処理の1サイクルの間にいくつかの包絡線調整サイクル(時間境界150によって表されている)が実行されてもよいことも見て取れる。図示した例では、ローバンド信号のスペクトル包絡線の処理はフレーム毎に作用する。つまり、異なる複数のスペクトル利得係数が信号の各フレームについて決定される。ローバンド信号の処理がいかなる時間グリッドに対して作用してもよいこと、そのような処理の時間グリッドはスペクトル包絡線データの時間グリッドと一致する必要がないことは注意しておくべきである。
【0054】
図2では、フィルタバンク・ベースのHFRシステム200が描かれている。HFRシステム200は、擬似QMFフィルタバンクを使って動作し、システム200は
図1aの上のパネルに示したハイバンドおよびローバンド信号100を生成するために使用されうる。しかしながら、利得調整の追加ステップが高周波生成プロセスの一環として追加されている。高周波生成プロセスは図示した例では上へのコピー・プロセスである。低周波数入力信号は、複数の低周波数サブバンド信号を生成するために、32サブバンドQMF 201によって解析される。低周波数サブバンド信号の一部または全部は、HF(高周波)生成アルゴリズムに基づいてより高い周波数位置にパッチされる。さらに、前記複数の低周波数サブバンドは直接、合成フィルタバンク202に入力される。上述した合成フィルタバンク202は64サブバンド逆QMF 202である。
図2に示した特定の実装については、32サブバンドQMF分解フィルタバンク201の使用および64サブバンドQMF合成フィルタバンク202の使用が、入力信号の入力サンプリング・レートの二倍の出力信号の出力サンプリング・レートを生じる。しかしながら、本稿で概説されるシステムは異なる入力および出力サンプリング・レートをもつシステムに限定されるものではない。多数の異なるサンプリング・レート関係が当業者によって考えられる。
【0055】
図2で概観されるように、より低い周波数からのサブバンドがより高い周波数のサブバンドにマッピングされる。利得調整段204がこの上へのコピー・プロセスの一環として導入される。生成される高周波数信号、すなわち生成される複数の高周波数サブバンド信号は、合成フィルタバンク202における前記複数の低周波数サブバンド信号との組み合わせに先立って、(可能性としては制限器および/または補間機能を有する)包絡線調整器203に入力される。そのようなHFRシステム200を使うことによって、特に利得調整段204を使うことによって、
図1に示したスペクトル包絡線不連続の導入が回避できる。この目的のため、利得調整段204はローバンド信号のスペクトル包絡線、すなわち前記複数の低周波数サブバンド信号のスペクトル包絡線を修正する。それにより、修正されたローバンド信号が、不連続、特にパッチ境界における不連続を示さないハイバンド信号、すなわち複数の高周波数サブバンド信号を生成するために使用できるようにする。
図1cを参照するに、追加的な利得調整段204は、生成されるハイバンド信号105、115に不連続が全くないか、限られた不連続しかないよう、ローバンド信号のスペクトル包絡線101、111が修正されることを保証する。
【0056】
ローバンド信号のスペクトル包絡線の修正は、ローバンド信号のスペクトル包絡線に利得曲線を適用することによって達成できる。そのような利得曲線は、
図4に示される利得曲線決定ユニット400によって決定されることができる。モジュール400は入力として、ハイバンド信号を再生成するために使われるローバンド信号の周波数範囲に対応するQMFデータ402を取る。換言すれば、前記複数の低周波数サブバンド信号が利得曲線決定ユニット400に入力される。先述したように、ローバンド信号の利用可能なQMFサブバンドの部分集合のみがハイバンド信号を生成するために使用されうる。すなわち、利用可能なQMFサブバンドの部分集合のみが利得曲線決定ユニット400に入力されうる。さらに、モジュール400は任意的な制御データ404、たとえば対応するエンコーダから送られた制御データを受け取ってもよい。モジュール400は、高周波再生成プロセスの間に適用される利得曲線403を出力する。ある実施形態では、利得曲線403は、ハイバンド信号を生成するために使われるローバンド信号の諸QMFサブバンドに適用される。すなわち、利得曲線403は、HFRプロセスの上へのコピー・プロセス内で使用されてもよい。
【0057】
任意的な制御データ404は、モジュール400内で推定される粗いスペクトル包絡線の分解能についての情報および/または利得調整プロセス適用の好適さについての情報を含んでいてもよい。よって、制御データ404は、利得調整プロセスの間に関わってくる追加的な処理の量を制御しうる。制御データ404はまた、粗いスペクトル包絡線推定にあまり向かない信号、たとえば単一の正弦波を有する信号が発生する場合、追加的な利得調整処理のバイパスをトリガーしてもよい。
【0058】
図5では、
図4のモジュール400のより詳細なビューが概観される。ローバンド信号のQMFデータ402が、たとえば対数エネルギー・スケール上でスペクトル包絡線を推定する包絡線推定ユニット501に入力される。スペクトル包絡線はその後、包絡線推定ユニット501から受領される高(周波数)分解能スペクトル包絡線から粗いスペクトル包絡線を推定するモジュール502に入力される。ある実施形態では、これは、低次の多項式、すなわちたとえば1,2,3または4の範囲の次数の多項式をスペクトル包絡線データに当てはめすることによって行われる。粗いスペクトル包絡線はまた、周波数軸に沿った高分解能スペクトル包絡線の移動平均演算を実行することによって決定されてもよい。ローバンド信号の粗いスペクトル包絡線301の決定は、
図3において視覚化されている。ローバンド信号の絶対的なスペクトル302、すなわち、諸QMF帯域のエネルギー302が粗いスペクトル包絡線301によって、すなわち前記複数の低周波数サブバンド信号のスペクトル包絡線に当てはめされた周波数依存の曲線によって近似されていることが見て取れる。さらに、ハイバンド信号を生成するために20個のQMFサブバンド信号だけが使われる、すなわち32個のQMFサブバンド信号の一部のみがHFRプロセス内で使用されることが示されている。
【0059】
高分解能スペクトル包絡線から粗いスペクトル包絡線を決定するために使われる方法、特に高分解能スペクトル包絡線に当てはめされる多項式の次数は、任意的な制御データ404によって制御できる。多項式の次数は、粗いスペクトル包絡線301が決定されるローバンド信号の周波数範囲302のサイズの関数であってもよいし、および/またはローバンド信号の関連する周波数範囲302の全体的な粗いスペクトル形について重要な他のパラメータの関数であってもよい。多項式当てはめは、最小二乗誤差の意味でデータを近似する多項式を計算する。下記では、Matlabコードによって好ましい実施形態を概説する。
【0060】
【表1】
上記のコードにおいて、入力は、その後の包絡線調整器による作用の対象となるデータの現在の時間フレームに対応する時間区間にわたってサブバンド毎にQMFサブバンド・サンプルを平均することによって得られるローバンド信号のスペクトル包絡線(LowEnv)である。上述したように、ローバンド信号の利得調整処理はさまざまな他の時間グリッド上で実行されてもよい。上の例では、推定される絶対スペクトル包絡線は対数領域で表現される。低次の多項式、上の例では3次の多項式がデータに当てはめされる。多項式を与えられると、ローバンド信号と、データに当てはめされた多項式から得られる曲線(lowBandEnvSlope)との平均エネルギーにおける差から、利得曲線(GainVec)が計算される。上の例では、利得曲線を決定する動作は、対数領域において行われる。
【0061】
利得曲線計算は、利得曲線計算ユニット503によって実行される。上述したように、利得曲線は、ハイバンド信号を再生成するために使われるローバンド信号の一部の平均エネルギーから、およびハイバンド信号を再生成するために使用されるローバンド信号の部分のスペクトル包絡線から決定されてもよい。特に、利得曲線は、平均エネルギーとたとえば多項式によって表される粗いスペクトル包絡線の差から決定されてもよい。すなわち、計算される多項式が、利得曲線を決定するために使われてもよい。利得曲線は、ローバンド信号のすべての有意なQMFサブバンドについて別個の利得値を含む。該利得値はスペクトル利得係数とも称される。該利得値を含むこの利得曲線は、その後、HFRプロセスにおいて使われる。
【0062】
例として、MPEG-4 SBRに基づくHFR生成プロセスについて次に述べる。HF生成された信号は、次の公式によって導出される(ここに参照によって組み込まれる文書MPEG-4 Part 3(ISO/IEC14496-3)、sub-part 4、section 4.6.18.6.2参照)。
【0063】
【数1】
ここで、pはローバンド信号のサブバンド・インデックスである、すなわちpは前記複数の低周波数サブバンド信号のうちの一つを同定する。上記HF生成公式は、組み合わされた利得調整およびHF生成を実行する次の公式で置き換えられてもよい。
【0064】
【数2】
ここで、利得曲線はpreGain(p)と称されている。
【0065】
上へのコピー・プロセスの、pとkの間の関係などに関するさらなる詳細は、上述したMPEG-4 Part 3文書において規定されている。上記の公式で、XLow(p,l)はサブバンド・インデックスpをもつ低周波数サブバンド信号の時刻lにおけるサンプルを示す。このサンプルは、先行する諸サンプルと組み合わせて、サブバンド・インデックスkをもつ高周波数サブバンド信号XHigh(k,l)のサンプルを生成するために使用される。
【0066】
利得調整の側面は、いかなるフィルタバンク・ベースの高周波再構成システムにおいて使用されることもできる。これは
図6に示されている。ここでは、本発明は、狭帯域またはローバンドの信号602に対して作用するスタンドアローンのHFRユニット601の一部であり、広帯域のまたはハイバンドの信号604を出力する。モジュール601は追加的な制御データ603を入力として受け取ってもよく、制御データ603は、中でも、記載される利得調整のために使われる処理の量ならびにたとえばハイバンド信号の目標スペクトル包絡線についての情報を指定してもよい。しかしながら、これらのパラメータは任意的な制御データ603の単なる例である。ある実施形態では、関連する情報は、モジュール601に入力される狭帯域信号602から、または他の手段によって導出されてもよい。すなわち、制御データ603は、モジュール601内で、モジュール601において利用可能な情報に基づいて決定されてもよい。スタンドアローンのHFRユニット601は前記複数の低周波数サブバンド信号を受領してもよく、前記複数の高周波数サブバンド信号を出力してもよいことを注意しておくべきである。すなわち、分解/合成フィルタバンクまたは変換は、HFRユニット601の外部に置かれてもよいのである。
【0067】
すでに上述したように、エンコーダからデコーダへのビットストリームにおいて、利得調整処理の有効化を信号伝達することが有益であることがある。ある種の信号種別、たとえば単一正弦波については、利得調整処理は有意でないこともあり、したがって、そのようなきわどいケースについて望ましくない振る舞いを導入しないために、エンコーダ/デコーダ・システムが追加的処理をオフにすることができるようにすることが有益であることがある。この目的のため、エンコーダは、オーディオ信号を解析し、デコーダにおける利得調整処理をオン・オフする制御データを生成するよう構成されていてもよい。
【0068】
図7では、オーディオ・コーデックの一部である高周波再構成ユニット703に提案される利得調整段が含められている。そのようなHFRユニット703の一例は、高効率AACコーデックまたはMPEG-D USAC(Unified Speech and Audio Codec[統合音声音響コーデック])の一部として使われるMPEG-4スペクトル帯域複製ツールである。この実施形態では、ビットストリーム704がオーディオ・デコーダ700で受領される。ビットストリーム704はデマルチプレクサ701において多重分離される。ビットストリームのSBR関連部分708はSBRモジュールまたはHFRユニット703に与えられ、コア・デコーダ関連ビットストリーム707、たとえばAACデータまたはUSACコア・デコーダ・データはコア・コーダ・モジュール702に送られる。さらに、ローバンドまたは狭帯域信号706はコア・デコーダ702からHFRユニット703に渡される。本発明は、たとえば
図2に概観されるシステムに基づいて、HFRユニット703におけるSBRプロセスの一部として組み込まれる。HFRユニット703は、本稿で概説した処理を使って広帯域またはハイバンド信号705を出力する。
【0069】
図8では、高周波再構成モジュール703のある実施形態がより詳細に概観される。
図8は、HF(高周波数)信号生成が異なる時点において異なるHF生成モジュールから導出されてもよいことを示している。HF生成は、QMFベースの上へのコピー転移器803に基づいていてもよいし、あるいはHF生成はFFTベースの高調波転換器804に基づいていてもよい。いずれのHF信号生成モジュールについても、ローバンド信号は、上へのコピー803または高調波転換804プロセスにおいて使われる利得曲線を決定するために、HF生成の一部として処理される(801、802)。上記二つの転移器からの出力は、包絡線調整器805に選択的に入力される。どちらの転移器信号を使うかについての決定は、ビットストリーム704または708によって制御される。QMFベースの転移器の上へのコピーの性質のため、高調波転換器を使うときよりも、ローバンド信号のスペクトル包絡線の形がより明瞭に維持されることを注意しておくべきである。これは典型的には、上へのコピー転移器を使うときに、ハイバンド信号のスペクトル包絡線のより明瞭な不連続につながることになる。これは、
図1aの上と下のパネルに示されている。結果として、モジュール803において実行されるQMFベースの上へのコピー方法について利得調整を組み込むだけで十分であることがある。にもかかわらず、モジュール804において実行される高調波転換について利得調整を適用することも有益となることがある。
【0070】
図9では、対応するエンコーダ・モジュールが概説される。エンコーダ901は、特定の入力信号903を解析し、入力信号903の特定の型について好適な利得調整処理の量を決定するよう構成されていてもよい。特に、エンコーダ901は、デコーダにおいてHFRユニット703によって引き起こされることになる高周波数サブバンド信号上の不連続の度合いを判別してもよい。この目的のため、エンコーダ901はHFRユニット703または該HFRユニット703の少なくとも関連する部分を有していてもよい。入力信号903の解析に基づいて、対応するデコーダのために制御データ905が生成されることができる。デコーダで実行されるべき利得調整に関する情報905は、マルチプレクサ902においてオーディオ・ビットストリーム906と組み合わされ、それにより、対応するデコーダに伝送される完全なビットストリーム904を形成する。
【0071】
図10では、現実世界の信号の出力スペクトルが表示される。
図10aでは、12kbpsのモノ・ビットストリームをデコードするMPEG USACデコーダの出力が描かれている。現実世界の信号のこのセクションは、アカペラ録音の声部分である。横軸は時間軸に対応し、縦軸は周波数軸に対応する。
図10aのスペクトログラムをもとの信号の対応するスペクトログラムを示す
図10cと比べると、声セグメントの摩擦音部分についてのスペクトルにおいて現れる穴(参照符号1001、1002参照)があることが明らかである。
図10bでは、本発明を含むMPEG USACデコーダの出力のスペクトログラムが描かれている。このスペクトログラムから、スペクトログラム中の穴が消えていることが見て取れる(参照符号1001、1002に対応する参照符号1003、1004参照)。
【0072】
提案される利得調整アルゴリズムの複雑さは、重み付けされたMOPSとして計算された。POW/DIV/TRIG〔冪/除算/三角関数〕のような関数は25演算として重み付けされ、他のすべての操作は1演算として重み付けされる。これらの想定を与えられれば、計算された複雑さは、約0.1 WMOPSおよび取るに足りないRAM/ROM使用となる。換言すれば、提案される利得調整処理が要求する処理およびメモリ容量は低い。
【0073】
本稿では、ローバンド信号からハイバンド信号を生成する方法およびシステムを記載してきた。方法およびシステムは、ほとんどまたは全くスペクトル不連続なしでハイバンド信号を生成するよう適応され、それにより高周波再構成方法およびシステムの知覚上のパフォーマンスを改善する。本方法およびシステムは既存のオーディオ・エンコード/デコード・システムに簡単に組み込むことができる。特に、本方法およびシステムは、既存のオーディオ・エンコード/デコード・システムの包絡線調整処理を修正する必要なく、組み込むことができる。特に、これは包絡線調整処理の制限器および補間機能に当てはまり、これらの機能は意図されたタスクを実行できる。よって、記載される方法およびシステムは、ほとんどまたは全くスペクトル不連続がなく、ノイズ・レベルが低いハイバンド信号を再生成するために使用されうる。さらに、制御データの使用を記載した。制御データは、記載される方法およびシステムのパラメータ(および計算上の複雑さ)を、オーディオ信号の型に適応させるために使われてもよい。
【0074】
本稿で記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアおよび/または特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光学式記憶媒体のような媒体上に記憶されてもよい。そうした信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークもしくは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿で記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/または再生するために使用されるポータブル電子装置または他の消費者装置である。本方法およびシステムは、オーディオ信号、たとえば音楽信号をダウンロード用に記憶し、提供するコンピュータ・システム、たとえばインターネット・ウェブ・サーバー上で使用されてもよい。
【0075】
いくつかの態様を記載しておく。
〔態様1〕
複数の低周波数サブバンド信号から高周波数区間をカバーする複数の高周波数サブバンド信号を生成するよう構成されたシステムであって:
・前記複数の低周波数サブバンド信号を受領する手段と;
・一組の目標エネルギーを受領する手段であって、各目標エネルギーは、前記高周波数区間内の異なる目標区間をカバーし、前記目標区間内にある一つまたは複数の高周波数サブバンド信号の所望されるエネルギーを示す、手段と;
・前記複数の低周波数サブバンド信号および該複数の低周波数サブバンド信号にそれぞれ関連付けられた複数のスペクトル利得係数から、前記複数の高周波数サブバンド信号を生成する手段と;
・前記一組の目標エネルギーを使って前記複数の高周波数サブバンド信号のエネルギーを調整する手段とを有する、
システム。
〔態様2〕
前記エネルギーを調整する手段は、制限器区間(135)内にある高周波数サブバンド信号のエネルギーの調整を制限する手段を有し、前記制限器区間は、二つ以上の目標区間(130)をカバーする、態様1記載のシステム。
〔態様3〕
前記複数のスペクトル利得係数がそれぞれの前記複数の低周波数サブバンド信号のエネルギーに関連付けられる、態様1または2記載のシステム。
〔態様4〕
前記複数のスペクトル利得係数が、前記複数の低周波数サブバンド信号のエネルギーに当てはめされた周波数依存の曲線から導出される、態様3記載のシステム。
〔態様5〕
前記周波数依存の曲線が所定の次数の多項式である、態様4記載のシステム。
〔態様6〕
前記複数のスペクトル利得係数に含まれるスペクトル利得係数が、前記複数の低周波数サブバンド信号の平均エネルギーと、前記周波数依存の曲線の対応する値との差から導出される、態様4または5記載のシステム。
〔態様7〕
前記複数の高周波数サブバンド信号を生成する手段が、それぞれの前記複数のスペクトル利得係数を使って前記複数の低周波数サブバンド信号を増幅するよう構成されている、態様1ないし6のうちいずれか一項記載のシステム。
〔態様8〕
前記複数の高周波数サブバンド信号を生成する手段が、
・前記複数の低周波数サブバンド信号の上へのコピー転移を実行する;および/または
・前記複数の低周波数サブバンド信号の高調波転換を実行するよう構成されている、
態様1ないし7のうちいずれか一項記載のシステム。
〔態様9〕
態様8記載のシステムであって、前記複数の高周波数サブバンド信号を生成する手段が、
・低周波数サブバンド信号のサンプルに、前記複数のスペクトル利得係数のそれぞれのスペクトル利得係数を乗算し、それにより修正されたサンプルを与え;
・特定の時刻における対応する高周波数サブバンド信号のサンプルを、前記特定の時刻および少なくとも一つの先行する時刻における前記低周波数サブバンド信号の修正されたサンプルから決定するよう構成されている、
システム。
〔態様10〕
前記特定の時刻における前記対応する高周波数サブバンド信号のサンプルが、前記低周波数サブバンド信号の前記修正されたサンプルから、MPEG-4 SBRの上へのコピー・アルゴリズムを使って決定される、態様9記載のシステム。
〔態様11〕
前記複数の高周波数サブバンド信号のエネルギーを調整する手段がさらに、特定の目標区間内にある調整された高周波数サブバンド信号が同じエネルギーをもつことを保証する手段を有する、態様1ないし10のうちいずれか一項記載のシステム。
〔態様12〕
前記複数の低周波数サブバンド信号および前記複数の高周波数サブバンド信号が
・QMFフィルタバンクおよび/または
・FFT
のサブバンドに対応する、態様1ないし11のうちいずれか一項記載のシステム。
〔態様13〕
態様1ないし12のうちいずれか一項記載のシステムであって、制御データを受け取る手段をさらに有しており、前記制御データは、
・前記複数の高周波数サブバンド信号を生成するために前記複数のスペクトル利得係数を適用するかどうか;および/または
・前記複数のスペクトル利得係数を決定するための方法を示す、
システム。
〔態様14〕
前記制御データが、前記多項式の前記所定の次数を示す、態様5記載を引用する場合の態様13記載のシステム。
〔態様15〕
低周波数オーディオ信号と、対応する高周波数オーディオ信号のスペクトル包絡線を記述する一組の目標エネルギーを表すビットストリームをデコードするよう構成されたオーディオ・デコーダであって:
・前記ビットストリームから前記低周波数オーディオ信号に関連付けられた複数の低周波数サブバンド信号を決定するよう構成されたコア・デコーダおよび変換ユニットと;
・前記複数の低周波数サブバンド信号および前記一組の目標エネルギーから複数の高周波数サブバンド信号を決定するよう構成されている、態様1ないし14のうちいずれか一項記載のシステムに基づく高周波数生成ユニットと;
・前記複数の低周波数サブバンド信号および前記複数の高周波数サブバンド信号からオーディオ信号を生成するよう構成されたマージおよび逆変換ユニットとを有する、
デコーダ。
〔態様16〕
オーディオ信号から制御データを生成するよう構成されたエンコーダであって、該オーディオ・エンコーダは:
・前記オーディオ信号のスペクトル形を解析し、前記オーディオ信号の低周波数成分から前記オーディオ信号の高周波数成分を再生成するときに導入されるスペクトル包絡線不連続の度合いを決定する手段と;
・前記不連続の度合いに基づいて前記高周波数成分の再生成を制御するための制御データを生成する手段とを有する、
エンコーダ。
〔態様17〕
複数の低周波数サブバンド信号から高周波数区間をカバーする複数の高周波数サブバンド信号を生成する方法であって:
・前記複数の低周波数サブバンド信号を受領する段階と;
・一組の目標エネルギーを受領する段階であって、各目標エネルギーは前記高周波数区間内の異なる目標区間をカバーし、前記目標区間内にある一つまたは複数の高周波数サブバンド信号の所望されるエネルギーを示す、段階と;
・前記複数の低周波数サブバンド信号およびそれぞれ前記複数の低周波数サブバンド信号に関連付けられた複数のスペクトル利得係数から、前記複数の高周波数サブバンド信号を生成する段階と;
・前記一組の目標エネルギーを使って前記複数の高周波数サブバンド信号のエネルギーを調整する段階とを含む、
方法。
〔態様18〕
低周波数オーディオ信号と、対応する高周波数オーディオ信号のスペクトル包絡線を記述する一組の目標エネルギーとを表すビットストリームをデコードする方法であって:
・前記ビットストリームから、前記低周波数オーディオ信号に関連付けられた複数の低周波数サブバンド信号を決定する段階と;
・態様17記載の方法に従って、前記複数の低周波数サブバンド信号および前記一組の目標エネルギーから、複数の高周波数サブバンド信号を決定する段階と;
・前記複数の低周波数サブバンド信号および前記複数の高周波数サブバンド信号からオーディオ信号を生成する段階とを含む、
方法。
〔態様19〕
オーディオ信号から制御データを生成する方法であって:
・前記オーディオ信号のスペクトル形を解析して前記オーディオ信号の低周波数成分から前記オーディオ信号の高周波数成分を再生成するときに導入されるスペクトル包絡線不連続の度合いを決定する段階と;
・前記不連続の度合いに基づいて前記高周波数成分の再生成を制御する制御データを生成する段階とを含む、
方法。
〔態様20〕
プロセッサ上での実行のために、およびコンピューティング装置上で実行されたときに態様17ないし19のうちいずれか一項記載の方法の段階を実行するために適応されている、ソフトウェア・プログラム。
〔態様21〕
プロセッサ上での実行のために、およびコンピューティング装置上で実行されたときに態様17ないし19のうちいずれか一項記載の方法の段階を実行するために適応されているソフトウェア・プログラムを有する、記憶媒体。
〔態様22〕
コンピュータ上で実行されたときに態様17ないし19のうちいずれか一項記載の方法を実行するための実行可能命令を有する、コンピュータ・プログラム・プロダクト。