(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-30
(45)【発行日】2023-09-07
(54)【発明の名称】高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法
(51)【国際特許分類】
G10L 19/26 20130101AFI20230831BHJP
【FI】
G10L19/26 B
【外国語出願】
(21)【出願番号】P 2021005407
(22)【出願日】2021-01-16
(62)【分割の表示】P 2019114240の分割
【原出願日】2015-07-24
【審査請求日】2021-01-30
(32)【優先日】2014-07-28
(33)【優先権主張国・地域又は機関】EP
【前置審査】
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ラベリ・エマニュエル
(72)【発明者】
【氏名】ヘルムリッヒ・クリスチャン
(72)【発明者】
【氏名】ゴラン・マルコビッチ
(72)【発明者】
【氏名】ノイジンガー・マティアス
(72)【発明者】
【氏名】ディッシュ・ザシャ
(72)【発明者】
【氏名】ヤンダー・マヌエル
(72)【発明者】
【氏名】ディーツ・マーティン
【審査官】中村 天真
(56)【参考文献】
【文献】特開2004-302257(JP,A)
【文献】特表2013-533983(JP,A)
【文献】特開2013-120225(JP,A)
【文献】特表2014-510301(JP,A)
【文献】特開平10-214100(JP,A)
【文献】国際公開第2004/097798(WO,A1)
【文献】特表2005-528647(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
(57)【特許請求の範囲】
【請求項1】
ピッチラグ情報および利得情報を関連付けられているオーディオ信号を処理するための装置であって、
前記オーディオ信号の第1の領域の表現を、前記第1の領域の表現とは異なる前記オーディオ信号の第2の領域の表現へと変換するための領域変換器と、
前記オーディオ信号の前記第2の領域の表現をフィルタリングするための高調波ポストフィルタ(104)であって、前記高調波ポストフィルタ(104)は、分子および分母を含む伝達関数に基づき、前記分子は前記利得情報によって示される利得値を含み、前記分母は、前記ピッチラグの整数部分、および、前記ピッチラグの分数部分に依存するマルチタップフィルタを含む、高調波ポストフィルタ(104)と
を備える、装置。
【請求項2】
前記高調波ポストフィルタ(104)が基づく長期予測フィルタは、前記ピッチラグを含むフィルタパラメータを含み、前記パラメータは、前記オーディオ信号と前記ピッチラグ情報と前記利得情報とを含むビットストリームから復号されたパラメータから判定される、請求項1に記載の装置。
【請求項3】
前記ビットストリームはさらに判定ビットを含み、前記装置は、前記判定ビットが0に等しい場合、いかなるピッチラグ情報または利得情報も復号されず、または前記ピッチラグ情報および前記利得情報をビットストリームに書き込まれていないと仮定するように、または前記ピッチラグ情報によって示される前記ピッチラグおよび前記利得情報によって示される利得をゼロ値として仮定するように、構成される、請求項2に記載の装置。
【請求項4】
前記高調波ポストフィルタ(104)は、前記ピッチラグ情報および前記利得情報からそれぞれ導出された前記ピッチラグおよび利得であるフィルタパラメータを含み、前記高調波ポストフィルタ(104)は、1つのフレームから次のフレームへと異なるパラメータを有するように構成され、前記装置は、前記1つのフレームと前記次のフレームとの間の境界における不連続部を回避するための不連続部除去器をさらに含む、請求項1に記載の装置。
【請求項5】
前記不連続部除去器は、クロスフェーダ、ローパスフィルタ、またはLPCフィルタのうちの少なくとも1つを含む、請求項4に記載の装置。
【請求項6】
前記不連続部除去器は、前記1つのフレームのポストフィルタリングされたオーディオ信号をフェードアウトさせると同時に、前記次のフレームのポストフィルタリングされたオーディオ信号をフェードインさせるように構成される、請求項4または5に記載の装置。
【請求項7】
前記フェードアウトおよび前記フェードインのクロスフェーディング特性は、フェーディング係数がクロスフェーディング動作全体を通じて1になるようなものである、請求項6に記載の装置。
【請求項8】
前記伝達関数は、前記分子内に、前記ピッチラグのゼロ分数部分(T
fr)のためのさらなるマルチタップFIRフィルタ(B(z,0))を含むか、または、前記分母は、前記マルチタップフィルタと前記利得値との間の積を含む、請求項1に記載の装置。
【請求項9】
前記分子は、第1のスカラー値(α)と第2のスカラー値(β)との積をさらに含み、前記分母は、前記第2のスカラー値(β)を含み、前記第1のスカラー値(α)は含まず、前記第1のスカラー値(α)および前記第2のスカラー値(β)は予め決定されており、0よりも大きい値を有し、前記第2のスカラー値(β)は前記第1のスカラー値(α)よりも小さい、請求項1または8に記載の装置。
【請求項10】
前記伝達関数H(z)は、以下の式に基づく極-ゼロ点表現で表され、
【数1】
ここで、αは第1のスカラー値であり、βは第2のスカラー値であり、B(z,0)はゼロ分数部分ピッチラグのためのマルチタップフィルタであり、B(z,Tfr)は前記ピッチラグの前記分数部分に依存する前記マルチタップフィルタであり、Tintは前記ピッチラグの前記整数部分であり、Tfrは前記ピッチラグの前記分数部分であり、gは前記利得情報によって示される前記利得値であり、zはz平面内の変数である、請求項1に記載の装置。
【請求項11】
前記高調波ポストフィルタ(104)は、有限インパルス応答(FIR)フィルタであって少なくとも3つのタップを有するマルチタップフィルタを含む、請求項1~7のいずれか一項に記載の装置。
【請求項12】
ゼロの値を有する前記ピッチラグの前記分数部分に依存する前記マルチタップフィルタは4つのフィルタタップ(w
1~w
4)を含み、前記ピッチラグの前記分数部分の前記ゼロの値について、第1のフィルタタップ(w
4)は0.0から0.1の間であり、第2のフィルタタップ(w
3)は0.2から0.3の間であり、第3のフィルタタップ(w
2)は0.5から0.6の間であり、第4のフィルタタップ(w
1)は0.2から0.3の間であるか、または
前記ピッチラグの前記分数部分に依存する前記マルチタップフィルタは、前記ピッチラグの前記分数部分の第1の値について、4つのフィルタタップを含み、第1のフィルタタップは0.0から0.1の間であり、第2のフィルタタップは0.3から0.4の間であり、第3のフィルタタップは0.45から0.55の間であり、第4のフィルタタップは0.1から0.2の間であるか、または
前記ピッチラグの前記分数部分に依存する前記マルチタップフィルタは、前記ピッチラグの前記分数部分の第2の値について、4つのフィルタタップを含み、第1のフィルタタップは0.0から0.1の間であり、第2のフィルタタップは0.35から0.45の間であり、第3のフィルタタップは0.35から0.45の間であり、第4のフィルタタップは0.0から0.1の間であるか、または
前記ピッチラグの前記分数部分に依存する前記マルチタップフィルタは、前記ピッチラグの前記分数部分の第3の値について、4つのフィルタタップを含み、第1のフィルタタップは0.1から0.2の間であり、第2のフィルタタップは0.45から0.55の間であり、第3のフィルタタップは0.3から0.4の間であり、第4のフィルタタップは0.0から0.1の間であり、
前記分数部分の前記第3の値は前記分数部分の前記第2の値よりも大きく、前記分数部分の前記第2の値は前記分数部分の前記第1の値よりも大きく、前記分数部分の前記第1の値は前記分数部分の前記ゼロの値よりも大きい、請求項10に記載の装置。
【請求項13】
前記高調波ポストフィルタ(104)は、高調波間の周波数におけるエネルギーの損失を補償するための負のスペクトル傾斜を有するように構成されており、または
前記高調波ポストフィルタ(104)は、フレーム内の高調波間のエネルギーの量を抑制するように構成されており、前記抑制されるエネルギーの量は、前記フレーム内の前記第2の領域の表現に対応する時間領域表現の総エネルギーの20%よりも小さい、請求項1~12のいずれか一項に記載の装置。
【請求項14】
前記領域変換器は周波数-時間変換器であり、前記第1の領域は周波数領域であり、または
前記領域変換器はLPC残差-時間変換器であり、前記第1の領域はLPC残差領域である、請求項1~13のいずれか一項に記載の装置。
【請求項15】
ピッチラグ情報および利得情報を関連付けられているオーディオ信号を処理するための方法であって、
前記オーディオ信号の第1の領域の表現を、前記第1の領域の表現とは異なる前記オーディオ信号の第2の領域の表現へと変換することと、
高調波ポストフィルタ(104)によって前記オーディオ信号の前記第2の領域の表現をフィルタリングすることであって、前記高調波ポストフィルタ(104)は、分子および分母を含む伝達関数に基づき、前記分子は前記利得情報によって示される利得値を含み、前記分母は、前記ピッチラグの整数部分、および、前記ピッチラグの分数部分に依存するマルチタップフィルタを含む、フィルタリングすることと
を含む、方法。
【請求項16】
オーディオ信号を符号化して符号化オーディオ信号(102)を得るための符号化器と、前記符号化オーディオ信号(102)を復号するための復号器であってプロセッサを備える復号器(100)とを備える、オーディオ信号を処理するためのシステムであって、前記プロセッサは、
復号されたオーディオ信号の第1の領域の表現を、前記第1の領域の表現とは異なる前記復号されたオーディオ信号の第2の領域の表現へと変換するための領域変換器と、
前記復号されたオーディオ信号の前記第2の領域の表現をフィルタリングするための高調波ポストフィルタ(104)であって、
前記高調波ポストフィルタ(104)は、分子および分母を含む伝達関数に基づき、前記分子は
利得情報によって示される利得値を含み、前記分母は、
ピッチラグの整数部分、および、
ピッチラグの分数部分に依存するマルチタップフィルタを含む、高調波ポストフィルタ(104)と
を備える、システム。
【請求項17】
前記符号化器は、前記ピッチラグの整数部分および前記ピッチラグの分数部分を計算するためのピッチラグ計算器(402、404、406)と、利得値を計算するための利得計算器(410、412)と、前記ピッチラグに関する情報および前記利得値に関する情報を含む前記符号化オーディオ信号(102)を生成するための符号化信号形成器(414)とを備える、請求項16に記載のシステム。
【請求項18】
オーディオ信号を符号化して符号化オーディオ信号(102)を得る方法および前記符号化オーディオ信号(102)を復号する方法を含む、オーディオ信号を処理するための方法であって、
前記復号する方法は、
復号されたオーディオ信号の第1の領域の表現を、前記第1の領域の表現とは異なる前記復号されたオーディオ信号の第2の領域の表現へと変換することと、
高調波ポストフィルタ(104)を使用して前記復号されたオーディオ信号の前記第2の領域の表現をフィルタリングすることであって、前記高調波ポストフィルタ(104)は、分子および分母を含む伝達関数に基づき、前記分子は
利得情報によって示される利得値を含み、前記分母は、
ピッチラグの整数部分、および、
ピッチラグの分数部分に依存するマルチタップフィルタを含む、フィルタリングすることと
を含む、方法。
【請求項19】
コンピュータまたはプロセッサ上で作動しているときに、請求項15または請求項18に記載の方法を実施するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ処理に関し、特に、高調波ポストフィルタを使用したオーディオ処理に関する。
【背景技術】
【0002】
変換ベースのオーディオコーデックは一般的に、特に低ビットレートにおいて、高調波オーディオ信号を処理するときに高調波間ノイズを導入してしまう。
【0003】
この効果は、変換ベースのオーディオコーデックが低遅延で動作するときに、より短い変換サイズによってもたらされる周波数分解能および/もしくは選択性の悪化、ならびに/または、ウィンドウ周波数応答の悪化に起因して、さらに悪化する。
【0004】
この高調波間ノイズは一般的に、非常に不快なアーティファクトとして知覚され、調性感の高いオーディオ材料に対して主観的に評価されるときに、変換ベースのオーディオコーデックの性能を大幅に低減する。
【0005】
高調波オーディオ信号に関する変換ベースのオーディオコーデックの主観的品質を改善するためのいくつかの解決策が存在する。それらはすべて、変換領域または時間領域のいずれかにおける、予測ベースの技法に基づく。
【0006】
変換領域手法の例は、以下のとおりである。
【0007】
・[1]H.Fuchs「Improving MPEG Audio Coding by Backward Adaptive Linear Stereo Prediction」(99th AES Convention, New York 1995, Preprint 4086)
・[2]L.Yin、M. Suonio、M. Vaananen「A New Backward Predictor for MPEG Audio Coding」(103rd AES Convention, New York 1997, Preprint 4521)
・[3]Juha Ojanpera、Mauri Vaananen、Lin Yin「Long Term Predictor for Transform Domain Perceptual Audio Coding」(107th AES Convention, New York 1999, Preprint 5036)
時間領域手法の例は、以下のとおりである。
【0008】
・[4]Philip J. Wilson、Harprit Chhatwal「Adaptive transform coder having long term predictor」(米国特許第5,012,517号明細書、1991年4月30日)
・[5]Jeongook Song、Chang-Heon Lee、Hyen-O Oh、Hong-Goo Kang「Harmonic Enhancement in Low Bitrate Audio Coding Using and Efficient Long-Term Predictor」(EURASIP Journal on Advances in Signal Processing 2010)
・[6]Juin-Hwey Chen「Pitch-based pre-filtering and post-filtering for compression of audio signals」(米国特許第8,738,385号明細書、2014年5月27日)
【先行技術文献】
【特許文献】
【0009】
【文献】米国特許第5,012,517号明細書
【文献】米国特許第8,738,385号明細書
【非特許文献】
【0010】
【文献】H.Fuchs「Improving MPEG Audio Coding by Backward Adaptive Linear Stereo Prediction」(99th AES Convention, New York 1995, Preprint 4086)
【文献】L.Yin、M. Suonio、M. Vaananen「A New Backward Predictor for MPEG Audio Coding」(103rd AES Convention, New York 1997, Preprint 4521)
【文献】Juha Ojanpera、Mauri Vaananen、Lin Yin「Long Term Predictor for Transform Domain Perceptual Audio Coding」(107th AES Convention, New York 1999, Preprint 5036)
【文献】Jeongook Song、Chang-Heon Lee、Hyen-O Oh、Hong-Goo Kang「Harmonic Enhancement in Low Bitrate Audio Coding Using and Efficient Long-Term Predictor」(EURASIP Journal on Advances in Signal Processing 2010)
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明の目的は、オーディオ信号を処理するための改善された概念を提供することである。
【課題を解決するための手段】
【0012】
この目的は、請求項1のオーディオ信号を処理するための装置、請求項12のオーディオ信号を処理するための方法、請求項13のシステム、請求項17のシステムを動作させるための方法または請求項18のコンピュータプログラムによって達成される。
【0013】
本発明は、分子および分母を含む伝達関数を有する高調波ポストフィルタを使用することによって、オーディオ信号の主観的品質を大幅に改善することができるという知見に基づく。伝達関数の分子は、送信される利得情報によって示される利得値を含み、分母は、ピッチラグ情報によって示されるピッチラグの整数部分と、ピッチラグの分数部分に依存するマルチタップフィルタとを含む。
【0014】
したがって、一般的な領域変更オーディオ復号器によってアーティファクトとして導入される高調波間ノイズを除去することが可能である。この高調波ポストフィルタは、当該フィルタが、送信される情報、すなわち、いずれにしても復号器内で利用可能であるピッチ利得およびピッチラグに依拠するという点において、特に有用である。これは、この情報が、復号器入力信号を介して対応する符号化器から受信されるためである。さらに、ピッチラグの整数部分が考慮に入れられるだけでなく、加えて、ピッチラグの分数部分も考慮に入れられるという事実に起因して、ポストフィルタリングは特に高精度である。ピッチラグの分数部分は特に、実際にピッチラグの分数部分に依存するフィルタ係数を有するマルチタップフィルタを介してポストフィルタへと導入することができる。このフィルタは、FIRフィルタとして実装することができ、または、IIRフィルタもしくは異なるフィルタ実施態様のような任意の他のフィルタとしても実装することができる。時間-周波数変更またはLPC-時間変更または時間-LPC変更または周波数-時間変更のような任意の領域変更を、本発明のポストフィルタ概念によって有利に改善することができる。しかしながら、好ましくは、領域変更は周波数-時間領域変更である。
【0015】
したがって、本発明の実施形態は、時間領域において作動する長期予測器に基づく変換オーディオコーデックによって導入される高調波間ノイズを低減する。変換符号化の前のプレフィルタと変換復号の後のポストフィルタの両方が使用される[04]~[6]とは対照的に、本発明は、好ましくは、ポストフィルタのみを適用する。
【0016】
さらに、[04]~[6]において利用されているプレフィルタには、変換符号化器に与えられる入力信号に不安定性を導入する傾向があることが分かっている。これらの不安定性は、フレームごとの利得および/またはピッチラグの変化に起因する。変換符号器には、特に低ビットレートにおけるそのような不安定性の符号化に問題があり、時として、プレフィルタまたはポストフィルタを一切用いない状況と比較して復号信号にさらにより多くのノイズを導入するものがある。
【0017】
好ましくは、本発明は、プレフィルタを一切利用せず、それゆえ、プレフィルタと関連する問題を完全に回避する。
【0018】
さらに、本発明は、変換符号化後に復号信号に対して適用されるポストフィルタに依拠する。このポストフィルタは、変換オーディオコーデックによって導入される高調波間ノイズを低減する、ピッチラグの整数部分および分数部分を考慮に入れる長期予測フィルタに基づく。
【0019】
より良好な堅牢性のために、ポストフィルタパラメータのピッチラグおよびピッチ利得が符号化器側で推定され、ビットストリームで送信される。しかしながら、他の実施態様では、ピッチラグおよびピッチ利得はまた、オーディオ信号の周波数表現をオーディオ信号の時間領域表現へと変換するための周波数-時間変換器を備えるオーディオ復号器によって得られる復号オーディオ信号に基づいて復号器側で推定することもできる。
【0020】
好ましい実施形態において、分子は、ピッチラグの分数部分に依存する分母内のマルチタップフィルタによって導入されるスペクトル傾斜を補償するために、ピッチラグのゼロ分数部分のためのマルチタップフィルタをさらに備える。
【0021】
好ましくは、ポストフィルタは、フレーム内の高調波間のエネルギーの量を抑制するように構成されており、抑制されるエネルギーの量は、フレーム内の時間領域表現の総エネルギーの20%よりも小さい。
【0022】
さらなる実施形態において、分母は、マルチタップフィルタと利得値との間の積を含む。
【0023】
さらなる実施形態において、フィルタ分子は、第1のスカラー値と第2のスカラー値との積をさらに含み、分母は、第1のスカラー値ではなく、第2のスカラー値のみを含む。これらのスカラー値は所定の値に設定され、0よりも大きく1未満の値を有し、加えて、第2のスカラー値は、第1のスカラー値よりも小さい。したがって、非常に効率的に、一般的に望ましくないエネルギー除去特性を設定し、加えて、フィルタ強度、すなわち、変換領域復号器出力信号においてフィルタがどの程度強く高調波間アーティファクトを減衰させるかを設定することが可能である。
【0024】
装置は、好ましい実施形態において、より低いビットレートに対してはより高い値が設定され、またその逆も設定されるように、ビットレートに応じて少なくとも第2のスカラー値を設定するためのフィルタコントローラをさらに備える。
【0025】
さらに、フィルタコントローラは、高調波ポストフィルタを信号適応的に、すなわち、ピッチラグの実際に与えられる分数部分値に応じて設定するために、ピッチラグの分数部分に応じて、対応するマルチタップフィルタを信号に応じて選択するように構成されている。
【0026】
続いて、本発明の好ましい実施形態を、添付の図面の文脈において論じる。
【図面の簡単な説明】
【0027】
【
図1】オーディオ信号を処理するための本発明の装置の一実施形態を示す図である。
【
図2】z領域における伝達関数として表されている高調波ポストフィルタの好ましい実施形態を示す図である。
【
図3】z領域における伝達関数として表されている高調波ポストフィルタのさらなる好ましい実施形態を示す図である。
【
図4】
図1に示す変換領域オーディオ復号器によって復号されるべき符号化信号を生成するための符号化器の好ましい実施態様を示す図である。
【
図5】フィルタコントローラによって制御されるFIRフィルタとしてのマルチタップフィルタの好ましい実施態様を示す図である。
【
図6】分数部分に応じた、フィルタコントローラと、タップ重みを予め記憶されているメモリとの間の協調を示す図である。
【
図7a】ゼロα値を有するフィルタの周波数応答を示す図である。
【
図7b】1に等しいα値を有する好ましい高調波ポストフィルタの周波数応答を示す図である。
【
図7c】0.8のα値を有する好ましい高調波ポストフィルタの周波数応答を示す図である。
【
図8a】0.4に等しいβ値を有する高調波ポストフィルタの好ましい実施形態を示す図である。
【
図8b】0.2のβ値を有する高調波ポストフィルタの周波数応答を示す図である。
【発明を実施するための形態】
【0028】
図1は、ピッチラグ情報および利得情報が関連付けられているオーディオ信号を処理するための装置を示す。この利得情報は、符号化信号を受信する復号器入力102を介して復号器100に送信することができ、または、代替的に、この情報は、この情報が利用可能でないときは復号器自体の中で計算することができる。しかしながら、より強固な動作のために、ピッチラグ情報およびピッチ利得情報を符号化器側で計算することが好ましい。
【0029】
復号器100は、たとえば、オーディオ信号の周波数-時間表現を、オーディオ信号の時間領域表現へと変換するための周波数-時間変換器を含む。したがって、復号器は純粋な時間領域音声コーデックではなく、純粋な変換領域復号器もしくは混合変換領域復号器、または、時間領域とは異なる領域において動作する任意の他の符号器を含む。さらに、第2の領域が時間領域であることが好ましい。
【0030】
装置は、オーディオ信号の時間領域表現をフィルタリングするための高調波ポストフィルタ104をさらに備え、この高調波ポストフィルタは、分子および分母を含む伝達関数に基づく。特に、分子は、利得情報によって示される利得値を含み、分母は、ピッチラグ情報によって示されるピッチラグの整数部分を含み、重要なことに、ピッチラグの分数部分に依存するマルチタップフィルタをさらに含む。
【0031】
伝達関数H(z)を有するこの高調波ポストフィルタの好ましい実施態様が
図2に示されている。このフィルタは、復号器出力信号106を受信し、ポストフィルタリング済み出力信号108を得るために、この復号出力信号に、ポストフィルタリング動作を受けさせる。このポストフィルタリング済み出力信号は、処理済み信号として出力することができ、または、無論、信号依存性である、すなわち、フレームごとに変化し得るポストフィルタリング動作によって導入される任意の不連続部を除去するための任意の手順によってさらに処理することができる。この不連続部除去動作は、クロスフェーディングのような既知の不連続部除去動作のいずれかであってもよく、これは、先行するフレームがフェードアウトされ、同時に新たなフレームがフェードインされ、好ましくは、フェーディング特性は、フェーディング係数がクロスフェーディング動作全体を通じて1になるようなものであることを意味する。しかしながら、ローパスフィルタリングまたはLPCフィルタリングのような他の不連続部除去も適用することができる。
【0032】
図1に示すオーディオ信号を処理するための装置は、マルチタップフィルタ情報記憶装置112と、フィルタコントローラ114とをさらに備える。特に、フィルタコントローラ114は、復号器100からサイド情報116を受信し、このサイド情報は、たとえば、ピッチ利得情報gならびにピッチラグ情報、すなわち、ピッチラグの整数部分T
intおよびピッチラグの分数部分T
frに関する情報であり得る。この情報は、フレームごとの高調波ポストフィルタを設定し、加えて、マルチタップフィルタ情報B(z,T
fr)を選択するのに有用である。さらに、復号器によって適用されるビットレート、または、復号信号の基礎となっているサンプリングレートのような追加の情報もまた、フィルタ制御部114によって、特に、ビットレートおよびサンプリングレートに関する特定の符号化器および/または復号器設定向けにスカラー値α、βを設定するために使用することができる。
【0033】
図2は、当該技術分野において既知であるような、z領域におけるフィルタ伝達関数H(z)の極/ゼロ点表現を示す。当然のことながら、高調波ポストフィルタの多数の他の表現があり、これらはすべてフィルタ表現であり、z領域におけるこの種類の極/ゼロ点表現に変換することができる。したがって、本発明は、本明細書において例示されているような伝達関数によって任意の様式で記述可能である各フィルタに適用可能である。
【0034】
図3は、同じくz領域における極/ゼロ点表記の伝達関数として記載されている高調波ポストフィルタの好ましい実施形態を示す。
【0035】
このフィルタは、以下のように記述することができる。
【数1】
ここで、gは復号利得であり、T
intおよびT
frは、復号ピッチラグの整数部分および分数部分であり、αおよびβは、利得を重み付けする2つのスカラーであり、B(z,T
fr)は、その係数が復号ピッチラグの分数部分に依存するローパスFIRフィルタである。
【0036】
H(z)の分数内のB(z,0)は、B(z,Tfr)によって導入される傾斜を補償するために使用される。
【0037】
βは、ポストフィルタの強度を制御するために使用される。1に等しいβは、高調波間の可能な最大限の量のエネルギーを抑制する、完全な効果を生成する。0に等しいβは、ポストフィルタを無効にする。一般的に、高調波間のエネルギーを過度に抑制しすぎないように、非常に低い値が使用される。この値はまた、ビットレートにも依存し得、より低いビットレートにおいてはより高い値になり、たとえば、低ビットレートでは0.4であり、高ビットレートでは0.2である。
【0038】
αは、低周波数におけるエネルギーのわずかな損失を補償するために、H(z)の周波数応答にわずかな傾斜を加えるために使用される。αの値は一般的に1に近くなるように選択され、たとえば、0.8である。
【0039】
B(z,T
fr)の一例を
図6に示す。B(z,T
fr)の次数および係数もまた、ビットレートおよび出力サンプリングレートに依存し得る。ビットレートおよび出力サンプリングレートの各組み合わせに対して、異なる周波数応答を設計および調節することができる。
【0040】
特に、0.6から1.0未満の間の偶数値のαが有用であること、および、加えて、0.1から0.5の間のβの値も有用であると証明されていることが分かっている。
【0041】
さらに、マルチタップフィルタは、可変数のタップを有することができる。特定の実施態様について、1つのタップがz+1である、4つのタップで十分であることが分かっている。しかしながら、2つのみのタップを有するより小さいフィルタ、または、さらには、5つ以上のタップを有するより大きいフィルタが、特定の実施態様にとっては有用である。
【0042】
図6は、ピッチラグの異なる分数値の、特に、1/4のピッチラグ分解能のフィルタB(z)の好ましい実施態様を示す。この実施態様について、高調波ポストフィルタの伝達関数の分母内のマルチタップフィルタについて4つの異なるフィルタ記述が示されている。しかしながら、フィルタ係数は必ずしも、
図6に示す値を正確に示す必要はなく、±0.05の一定の変動も、他の実施態様においては有用であり得ることが分かっている。
【0043】
特に、
図1に示すように、
図6に示すタップ重みは、マルチタップフィルタ情報のためのメモリ112内に記憶される。フィルタコントローラ114は、
図1のライン116から分数部分T
frを受信し、この値に応答して、抽出ライン200を介してピッチラグの特定の分数部分の特定のフィルタ情報を抽出するために、メモリ112をアドレス指定する。この情報はその後、高調波ポストフィルタが正確に設定されるように、出力ライン202を介して高調波ポストフィルタ104に転送される。マルチタップFIRフィルタの特定の実施態様が、
図5に示されている。重み指示w
1~w
4は
図6の表記に対応し、フィルタコントローラ114は、ピッチラグの実際の分数部分に応答して、特定のオーディオフレームに対して対応する重みを適用する。遅延部分501、502、503および結合器505のような他の部分は、図示されているように実装され得る。この文脈において、503および504のような正の遅延値に加えて負の遅延値を有するFIRフィルタ表現が特に有用であることが分かっているため、遅延値501は、z表記において負の遅延値であることを強調しておく。
【0044】
続いて、特定の機能ブロックを有し、いかなるプレフィルタも用いずに動作する好ましい符号化器実施態様が、
図4に示されている。
図4に示すフィルタ部分は、ピッチ推定器402と、ピッチリファイナ404と、分数部分推定器406と、過渡検出器408と、利得推定器410と、利得量子化器412とを備える。利得量子化器412、分数部分推定器406、ピッチリファイナ404、および、過渡検出器408によって生成される判定ビットによって与えら得る情報が、符号化信号形成器414へと入力される。符号化信号形成器は、符号化信号102を与え、当該信号はその後、
図1に示す復号器100へと入力される。符号化信号102は、
図4に示されていない追加の信号情報を含む。
【0045】
続いて、ピッチ推定器402の機能を説明する。
【0046】
フレームあたり1つのピッチラグ(整数部分+分数部分)が推定される(フレームサイズはたとえば、20msである)。これは、複雑性を低減するために3ステップで行われ、推定精度を改善する。
【0047】
平滑なピッチ発展輪郭を生成するピッチ分析アルゴリズムが使用される(たとえば、Rec.ITU-T G.718,sec.6.6に記載されている開ループピッチ分析)。この分析は一般的に、サブフレーム単位で行われ(サブフレームサイズは、たとえば、10msである)、サブフレームあたり1つのピッチラグ推定値を生成する。これらのピッチラグ推定値はいかなる分数部分も有せず、一般的にダウンサンプリングされた信号(サンプリングレートは、たとえば、6400Hzである)について推定されることに留意されたい。使用される信号は任意のオーディオ信号、たとえば、Rec.ITU-T G.718,sec.6.5に記載されているLPC加重オーディオ信号とすることができる。
【0048】
ピッチリファイナは、以下のように動作する。
【0049】
ピッチラグの最終的な整数部分が、オーディオ信号x[n]について推定され、一般的にa.において使用されるダウンサンプリングされた信号のサンプリングレートよりも高いコア符号化器サンプリングレートにおいて実行される(たとえば、12.8kHz、16kHz、32kHz...)。信号x[n]は、任意のオーディオ信号、たとえば、LPC加重オーディオ信号とすることができる。
【0050】
ピッチラグの整数部分はこのとき、以下の自己相関関数を最大化するラグd
mであり、
【数2】
ここで、dはおおよそ、ステップ1.a.において推定されるピッチラグTである。
【0051】
(数3)
T-δ1≦d≦T+δ2
分数部分推定器406は、以下のように動作する。
【0052】
ステップ2.b.において計算される自己相関関数C(d)を補間し、補間された自己相関関数を最大化する分数ピッチラグを選択することによって、分数部分が求められる。補間は、Rec.ITU-T G.718,sec.6.6.7に記載されているようなローパスFIRフィルタを使用して実施することができる。
【0053】
図4に示す過渡検出器408は、判定ビットを生成するように構成されている。
【0054】
入力オーディオ信号がいかなる高調波成分も含まない場合、ビットストリームにおいてパラメータは符号化されない。復号器がポストフィルタパラメータを復号しなければならないか否かが復号器に分かるように、1ビットのみが送信される。判定は、以下のいくつかのパラメータに基づいて行われる。
【0055】
a.ステップ1.b.において推定される整数ピッチラグにおける正規化相関。
【数4】
入力信号が整数ピッチラグによって完全に予測可能である場合、正規化相関は1であり、まったく予測可能でない場合は0である。このとき、高い値(1に近い)は高調波信号を示す。よりロバストな判定のために、過去のフレームの正規化相関も、判定に使用することができる。たとえば
【0056】
(norm.corr(curr.)*norm.corr.(prev.))>0.25である場合、現在のフレームは何らかの高調波成分を含む(bit=1)。
【0057】
b.過渡を含む信号に対してポストフィルタが作動することを回避するための、過渡検出器によって計算される特徴(たとえば、時間的平坦性測度、最大エネルギー変化)、たとえば
【0058】
(tempFlatness>3.5 or maxEnergychange>3.5)である場合、bit=0を設定し、そうでない場合、いかなるパラメータも送信しない。
【0059】
さらに、利得推定器410は、利得量子化器412へと入力されるべき利得を計算する。
【0060】
利得は一般的に、コア符号化器サンプリングレートにおける入力オーディオ信号について推定されるが、これはまた、LPC加重オーディオ信号のような任意のオーディオ信号とすることもできる。この信号はy[n]と表記され、x[n]と同じであってもよく、または、異なっていてもよい。
【0061】
最初に、y[n]を以下のフィルタを用いてフィルタリングすることによって、y[n]の予測y
P[n]が求められる。
【数5】
ここで、T
intはピッチラグの整数部分であり(1.b.において推定される)、B(z,T
fr)は、その係数がピッチラグの分数部分T
fr(1.c.において推定される)に依存するローパスFIRフィルタである。
【0062】
ピッチラグ分解能が1/4であるときのB(z)の一例は以下のとおりである。
【数6】
その後、利得gが以下のように計算され、
【数7】
0から1の間に限定される。
【0063】
最後に、利得が、たとえば、一様量子化を使用して、たとえば、2ビットで量子化される。
【0064】
利得が0に量子化される場合、ビットストリームにおいてパラメータは符号化されず、1判定ビットのみがもたらされる(bit=0)。
【0065】
すでに概説したように、ポストフィルタは、変換復号器の後の出力オーディオ信号に対して適用される。ポストフィルタは、20msのような、符号化器側で使用されたものと同じフレームサイズを有するフレームごとに信号を処理する。図示されているように、これは、そのパラメータが、符号化器側で推定され、ビットストリームから復号されるパラメータから判定される長期予測フィルタH(z)に基づく。この情報は、判定ビット、ピッチラグおよび利得を含む。判定ビットが0である場合、ピッチラグおよび利得は復号されず、0であると仮定され、ビットストリームへはまったく書き込まれない。
【0066】
論じられているように、フィルタパラメータが1つのフレームから次のフレームへと異なる場合、2つのフレームの間の境界に不連続部が導入され得る。不連続部を回避するために、クロスフェーダまたはそれを目的とした任意の他の実施態様のような不連続部除去器が適用される。
【0067】
さらに、高調波ポストフィルタを設定するためのいくつかの異なる方法が、
図7a~
図8bに示されている。これらのプロットは、周波数領域伝達関数を示している。水平軸は正規化周波数1に関係付けられ、垂直軸はdB単位のフィルタ応答の振幅である。
図7bを除くすべての図解において、フィルタは、低周波数の増幅、すなわち、一定の正のdB振幅値を導入していることが強調される。
【0068】
特に、
図7aは、上記で示したような一定のパラメータ値を有する、
図3のフィルタを実装している伝達関数を示している。さらに、α値、すなわち、第1のスカラー値は0に設定されている。
図7bは、同様の状況を示すが、ここでは、α値は1に等しい。他のパラメータは
図7aと同一である。
【0069】
図7cは、αが0.8に等しいさらなる実施態様を示し、これは、わずかな傾斜およびより低い周波数のブーストを有する。ここでも、
図7は
図7aに示すものと同じ他のパラメータを有する。1に等しいαが、傾斜を除去し、すべての高調波周波数が1の利得を有することが明らかになる。この設定の欠点は、高調波間の周波数におけるエネルギーの損失である。それゆえ、
図7cにあるような、0.8に等しいαの値が好ましい。この値は、
図7bのαが1に等しい状況と比較して、わずかな傾斜を加える。高調波間の周波数におけるエネルギーの損失を補償するために、このわずかな傾斜が使用されることが好ましい。
【0070】
さらに、
図8aおよび
図8bは、0.8に等しいαの値、ならびに、異なるβ値、すなわち、
図8aにおいては0.4のβ値、および、
図8bにおいては0.2のβ値についてのフィルタ設定を示している。0.4のβ値が、0.2のβ値と比較してより強いポストフィルタリング効果を有することが明らかになり、それゆえ、より低いビットレートにおいては、そのような低ビットレートによって導入される高調波間ノイズを除去するために、0.4のβ値が使用される。
【0071】
他方、0.2に等しいβは、高調波間のエネルギーを抑制する効果がそれほど強くなく、それゆえ、このβ値は、より高いビットレートにおいてはそれほど多くの高調波間ノイズが存在しないことに起因して、そのような高いビットレートにとって好ましい。
【0072】
いくつかの態様が装置の文脈において説明されているが、これらの態様は対応する方法の説明をも表すことは明らかであり、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈において説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップのいくつかまたはすべては、たとえば、マイクロプロセッサ、プログラム可能コンピュータまたは電子回路のようなハードウェア装置によって(またはハードウェア装置を使用して)実行されてもよい。いくつかの実施形態において、最も重要な方法ステップのいずれか1つまたは複数は、そのような装置によって実行されてもよい。
【0073】
本発明の送信または符号化信号は、デジタル記憶媒体上に記憶することができ、または、インターネットのような、無線伝送媒体または有線伝送媒体のような伝送媒体上で送信することができる。
【0074】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実装することができる。実施態様は、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する(または協働することが可能である)、電子可読制御信号を記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、DVD、Blu-ray(登録商標)、CD、ROM、PROM、およびEPROM、EEPROMまたはフラッシュメモリを使用して実施することができる。それゆえ、デジタル記憶媒体は、コンピュータ可読であってもよい。
【0075】
本発明によるいくつかの実施形態は、本明細書に記載されている方法の1つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有するデータキャリアを含む。
【0076】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動すると、方法の1つを実施するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
【0077】
他の実施形態は、機械可読キャリア上に記憶されている、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを含む。
【0078】
言い換えれば、本発明の方法の一実施形態は、それゆえ、コンピュータプログラムがコンピュータ上で作動すると、本明細書に記載されている方法の1つを実施するためのプログラムコードを有するコンピュータプログラムである。
【0079】
それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを記録されて含むデータキャリア(またはデジタル記憶媒体、もしくはコンピュータ可読媒体のような非一時的記憶媒体)である。データキャリア、デジタル記憶媒体または記録媒体は一般的に、有形かつ/または非一時的である。
【0080】
それゆえ、本発明の方法のさらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続、たとえば、インターネット上を介して転送されるように構成されてもよい。
【0081】
さらなる実施形態は、本明細書に記載されている方法の1つを実施するように構成または適合されている処理手段、たとえば、コンピュータまたはプログラム可能論理デバイスを含む。
【0082】
さらなる実施形態は、本明細書に記載されている方法の1つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。
【0083】
本発明によるさらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを受信機に(たとえば、電子的にまたは光学的に)転送するように構成されている装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。
【0084】
いくつかの実施形態において、プログラム可能論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が、本明細書に記載されている方法の機能のいくつかまたはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法の1つを実施するためにマイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。
【0085】
上述した実施形態は、本発明の原理の例示にすぎない。本明細書に記載されている構成および詳細の修正および変形が当業者には明白であることが理解される。それゆえ、本明細書において実施形態の記述および説明として提示されている特定の詳細によってではなく、添付の特許請求項の範囲のみによって限定されることが意図されている。