特許第6543640号(P6543640)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6543640エンコーダ、デコーダ並びに符号化及び復号方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6543640
(24)【登録日】2019年6月21日
(45)【発行日】2019年7月10日
(54)【発明の名称】エンコーダ、デコーダ並びに符号化及び復号方法
(51)【国際特許分類】
   G10L 19/06 20130101AFI20190628BHJP
   G10L 19/08 20130101ALI20190628BHJP
【FI】
   G10L19/06 B
   G10L19/08 G
【請求項の数】22
【全頁数】30
(21)【出願番号】特願2016-557212(P2016-557212)
(86)(22)【出願日】2015年3月3日
(65)【公表番号】特表2017-516125(P2017-516125A)
(43)【公表日】2017年6月15日
(86)【国際出願番号】EP2015054396
(87)【国際公開番号】WO2015135797
(87)【国際公開日】20150917
【審査請求日】2016年11月7日
(31)【優先権主張番号】14159811.0
(32)【優先日】2014年3月14日
(33)【優先権主張国】EP
(31)【優先権主張番号】14182047.2
(32)【優先日】2014年8月22日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100205981
【弁理士】
【氏名又は名称】野口 大輔
(72)【発明者】
【氏名】トム・ヴェックストローム
(72)【発明者】
【氏名】ヨハネス・フィッシャー
(72)【発明者】
【氏名】クリスティアン・ヘルムリッヒ
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 国際公開第2014/001182(WO,A1)
【文献】 特開2005−283692(JP,A)
【文献】 特表2005−530205(JP,A)
【文献】 Tom Backstrom,"Vandermonde factorization of Toeplitz matrices and applications in filtering and warping,",IEEE Transactions on Signal Processing.,,米国,IEEE,2013年12月15日,vol. 61, no. 24,,pp.6257-6263
【文献】 守谷健弘,10.3 励振ベクトルの探索の改善 10.3.1 相関,周波数領域の探索,音声符号化,日本,社団法人電子情報通信学会,1998年10月20日,初版,pp.96-99
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
(57)【特許請求の範囲】
【請求項1】
オーディオ信号(AS)をデータストリーム(DS)に符号化するためのエンコーダ(10)であって、
前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する予測係数(LPC)を得るために前記オーディオ信号(AS)を分析し、かつ前記オーディオ信号(AS)の残余信号(x)を出力するために前記予測係数(LPC)に依存して前記オーディオ信号(AS)を分析フィルタ関数(H)にかけるように構成された線形予測子(12)と、
因数分解された行列(V、D)を得るために、前記予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)上へ行列因数分解を適用するように構成されたファクトライザ(14)と、
変換された残余信号(y)を得るために、前記残余信号(x)を、前記因数分解された行列(V、D)を基礎として変換するように構成されたトランスフォーマ(16)と、
量子化された変換残余信号
を得るために、前記変換された残余信号(y)を量子化するように構成されているとともに、符号化された量子化変換残余信号
を得るために、前記予測係数(LPC)のための入力を有し、前記予測係数(LPC)に基づく確率を検出しながら前記量子化変換残余信号
をエントロピー符号化するように構成されている量子化及び符号化ステージ(18)と、を備えているエンコーダ(10)。
【請求項2】
前記合成フィルタ関数(H)は、前記合成フィルタ関数(H)の重み付け値を有する行列(H)によって定義される請求項1に記載のエンコーダ(10)。
【請求項3】
前記ファクトライザ(14)は、前記自己相関又は共分散行列(R、C)を、変換共役バージョンの前記合成フィルタ関数(H)と正規バージョンの前記合成フィルタ関数(H)との積を基礎として計算する、請求項1又は2に記載のエンコーダ(10)。
【請求項4】
前記ファクトライザ(14)は、前記自己相関又は共分散行列(R、C)を、公式C=VDVを基礎として、又は公式R=VDVを基礎として因数分解し、
Vはバンデルモンド行列であり、Vは変換共役バージョンの前記バンデルモンド行列であり、Dは狭義正の成分を有する対角行列である請求項1から3のいずれか一項に記載のエンコーダ(10)。
【請求項5】
前記ファクトライザ(14)は、バンデルモンド因数分解を実行するように構成されている請求項4に記載のエンコーダ(10)。
【請求項6】
前記ファクトライザ(14)は、固有値分解及び/又はコレスキー因数分解を実行するように構成されている請求項1から5のいずれか一項に記載のエンコーダ(10)。
【請求項7】
前記トランスフォーマ(16)は、前記残余信号(x)を、公式y=D1/2Vxを基礎として、又は公式y=DVxを基礎として変換する請求項4又は5に記載のエンコーダ(10)。
【請求項8】
量子化及び符号化ステージ(18)は、前記量子化された変換残余信号
を求めるために、目的関数
を基礎として前記変換残余信号(y)を量子化する請求項1から7のいずれか一項に記載のエンコーダ(10)。
【請求項9】
前記量子化及び符号化ステージ(18)は、ノイズ注入を適用して、前記オーディオ信号(AS)、前記残余信号(x)又は前記変換残余信号(y)のノイズ注入されたスペクトル表現を提供することにより、及び/又は、デッドゾーンに関する、又は他の量子化パラメータに関する前記量子化変換残余信号
を最適化することにより、前記量子化を最適化するための手段を含む請求項1から8のいずれか一項に記載のエンコーダ(10)。
【請求項10】
前記残余信号(x)の前記変換は、前記残余信号(x)の時間領域から前記変換残余信号(y)の周波数様領域への変換である請求項1から9のいずれか一項に記載のエンコーダ(10)。
【請求項11】
前記量子化及び符号化ステージは、符号化された量子化変換残余信号
を得るために、前記量子化変換残余信号
を符号化するように構成されるコーダを備えている請求項1から10のいずれか一項に記載のエンコーダ(10)。
【請求項12】
前記コーダにより実行される前記符号化は、算術コーディングを含むグループから実行される請求項11に記載のエンコーダ(10)。
【請求項13】
前記エンコーダ(10)は、前記量子化変換残余信号
及び前記予測係数(LPC)を、前記エンコーダ(10)により出力されるべき前記データストリーム(DS)にパケット化するように構成されるパッカをさらに備えている請求項11又は12に記載のエンコーダ(10)。
【請求項14】
前記予測子(12)は、線形予測子及び/又は長期予測子を含む請求項1から13のいずれか一項に記載のエンコーダ(10)。
【請求項15】
オーディオ信号(AS)をデータストリーム(DS)に符号化するための方法(100)であって、
前記オーディオ信号(AS)の前記スペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する予測係数(LPC)を得るために前記オーディオ信号(AS)を分析し、かつ前記オーディオ信号(AS)の残余信号(x)を出力するために前記予測係数(LPC)に依存して前記オーディオ信号(AS)を分析フィルタ関数(H)にかけるステップ(120)と、
因数分解された行列(V、D)を得るために、前記予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)上へ行列因数分解を適用するステップ(140)と、
変換された残余信号(y)を得るために、前記残余信号(x)を、前記因数分解された行列(V、D)を基礎として変換するステップ(160)と、
量子化された変換残余信号
を得るために、前記変換された残余信号(y)を量子化しかつ符号化するとともに、符号化された量子化変換残余信号
を得るために、前記予測係数(LPC)に基づく確率を検出しながら前記予測信号を用いて前記量子化変換残余信号をエントロピー符号化するステップ(180)と、を含む方法(100)。
【請求項16】
離散フーリエ変換、離散コサイン変換、修正離散コサイン変換又は信号処理アルゴリズムにおける別の変換に代える請求項15に記載の方法(100)の使用。
【請求項17】
データストリーム(DS)をオーディオ信号(AS’)に復号するためのデコーダ(20)であって、
前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する予測係数(LPC)に基づく確率を検出しながら、エントロピー復号化を用いて、入ってきた符号化された量子化変換残余信号
を基礎として、変換残余信号(y)を出力するように構成された復号ステージ(22)と、
前記予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)の行列因数分解の結果を表す因数分解された行列(V、D)を基礎として、前記変換残余信号(y)から残余信号(x)を再変換するように構成された再トランスフォーマ(26)と、
前記オーディオ信号(AS’)を、前記残余信号(x)を基礎とし、前記予測係数(LPC)により定義される前記合成フィルタ関数(H)を用いて合成するように構成された合成ステージ(28)と、を備えているデコーダ(20)。
【請求項18】
前記デコーダ(20)は、因数分解された行列(V、D)を得るために、入ってきた(inbound)予測係数(LPC)により定義される前記合成フィルタ関数(H)の前記自己相関又は共分散行列(R、C)上に前記行列因数分解を適用するように構成されているファクトライザ(24)を備えている請求項17に記載のデコーダ(20)。
【請求項19】
前記デコーダ(20)は、入ってきた因数分解された行列(V、D)を基礎として、前記予測係数(LPC)を逸脱させる(deviate)ように構成される予測係数生成器を備えている請求項17に記載のデコーダ(20)。
【請求項20】
前記復号ステージ(22)は、入ってきたコーディング規則及び/又はコーディングパラメータから逸脱される既知の規則及び/又は符号化パラメータを基礎として、前記復号を実行する請求項17から19のいずれか一項に記載のデコーダ(20)。
【請求項21】
データストリーム(DS)をオーディオ信号(AS’)に復号するための方法(200)であって、
前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する予測係数(LPC)に基づく確率を検出しながら、エントロピー復号化を用いて、入ってきた符号化された量子化変換残余信号
を基礎として、変換残余信号(y)を出力するステップ(220)と、
予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)上に行列因数分解を適用するとともに、因数分解された行列(V、D)を得るために、前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述するステップ(240)と、
前記因数分解された行列(V、D)を基礎として、前記再変換された残余信号(y)から残余信号(x)を再変換するステップ(260)と、
前記オーディオ信号(AS’)を、前記残余信号(x)を基礎とし、前記予測係数(LPC)により定義される前記合成フィルタ関数(H)を用いて合成するステップ(280)と、を含む方法(200)。
【請求項22】
コンピュータ上で実行されると、請求項15に記載の方法(100、200)又は請求項21に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムを格納しているコンピュータ読取り可能デジタル記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、オーディオ信号を符号化してデータストリームを得るためのエンコーダと、データストリームを復号してオーディオ信号を得るためのデコーダとに関する。さらなる実施形態は、対応する、オーディオ信号を符号化するためと、データストリームを復号するための方法に関する。さらなる実施形態は、符号化及び/又は復号するための方法ステップを実行するコンピュータプログラムに関する。
【背景技術】
【0002】
符号化されるべきオーディオ信号は、例えば、音声信号であってもよく、即ち、エンコーダは、音声エンコーダに相当し、デコーダは、音声デコーダに相当する。音声符号化において最も頻繁に使用されるパラダイムは、代数符号励振線形予測(ACELP)であり、AMR−ファミリ、G.718及びMPEG USAC等の規格に使用されている。これは、スペクトル包絡線をモデリングするための線形予測子(LP)、基本周波数をモデリングするための長時間予測子(LTP)及び残余のための代数コードブックより成る、ソースモデルを用いる音声モデリングを基礎とする。コードブックのパラメータは、知覚加重合成領域において最適化される。知覚モデルは、フィルタを基礎とし、よって、残余から加重出力へのマッピングは、線形予測子と加重フィルタとの組合せによって記述される。
【0003】
ACELPコーデックにおける計算複雑性の最大部分は、残余の量子化器に対して行われる、代数コードブックエントリの選定に対して費やされる。残余領域から加重合成領域へのマッピングは、事実上、サイズNxNの行列による乗算である。ここで、Nはベクトルの長さである。このマッピングに起因して、加重出力SNR(信号対雑音比)に関連して、残余サンプルが相関され、独立的な量子化はされ得ない。よって、最良エントリを決定するためには、潜在的なコードブックベクトルを悉く、加重合成領域において明示的に評価しなければならないことになる。この手法は、合成による分析アルゴリズムとして知られる。しかしながら、最適なパフォーマンスは、コードブックの総当たり探索によってのみ可能である。コードブックのサイズはビットレートに依存するが、ビットレートBを所与とすると、全体複雑性O(2B2)に関しては、評価すべき2B個のエントリが存在し、Bが11以上である場合、これが非現実的であることは明らかである。したがって、実際には、コーデックは、複雑性と品質とを均衡させる非最適な量子化を使用する。精度を代償に複雑性を制限する、最良な量子化を求めるためのこれらの反復的なアルゴリズムは、幾つか提示されている。よって、この制限を克服するための新規手法が必要とされている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】[1] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jaervinen, "The adaptive multirate wideband speech codec (AMR-WB)," Speech and Audio Processing, IEEE Transactions on, vol. 10, no. 8, pp. 620-636, 2002.
【非特許文献2】[2] ITU-T G.718, "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s," 2008.
【非特許文献3】[3] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unied speech and audio coding scheme forhigh quality at low bitrates," in Acoustics, Speech and Signal Processing. ICASSP 2009. IEEE Int Conf, 2009, pp. 1-4.
【非特許文献4】[4] J.-P. Adoul, P. Mabilleau, M. Delprat, and S. Morissette, "Fast CELP coding based on algebraic codes," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP''87., vol. 12. IEEE, 1987, pp. 1957-1960.
【非特許文献5】[5] C. Laamme, J. Adoul, H. Su, and S. Morissette, "On reducing computational complexity of codebook search in CELP coder through the use of algebraic codes," in Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on. IEEE, 1990, pp. 177-180.
【非特許文献6】[6] F.-K. Chen and J.-F. Yang, "Maximum-take-precedence ACELP: a low complexity search method," in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP'01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 693-696.
【非特許文献7】[7] K. J. Byun, H. B. Jung, M. Hahn, and K. S. Kim, "A fast ACELP codebook search method," in Signal Processing, 2002 6th International Conference on, vol. 1. IEEE, 2002, pp. 422-425. [8] N. K. Ha, "A fast search method of algebraic codebook by reordering search sequence," in Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International Conference on, vol. 1. IEEE, 1999, pp. 21-24.
【非特許文献8】[9] M. A. Ramirez and M. Gerken, "Efficient algebraic multipulse search," in Telecommunications Symposium, 1998. ITS'98 Proceedings. SBT/IEEE International. IEEE, 1998, pp. 231-236.
【非特許文献9】[10] T. Baeckstroem, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Interspeech 2013, August 2013.
【非特許文献10】[11] ・"Vandermonde factorization of Toeplitz matrices and applications in filtering and warping," IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, 2013.
【非特許文献11】[12] G. H. Golub and C. F. van Loan, Matrix Computations, 3rd ed. John Hopkins University Press, 1996.
【非特許文献12】[13] T. Baeckstroem, J. Fischer, and D. Boley, "Implementation and evaluation of the Vandermonde transform," in submitted to EUSIPCO 2014 (22nd European Signal Processing Conference 2014) (EUSIPCO 2014), Lisbon, Portugal, Sep. 2014.
【非特許文献13】[14] T. Baeckstroem, G. Fuchs, M. Multrus, and M. Dietz, "Linear prediction based audio coding using improved probability distribution estimation," US Provisional Patent US 61/665 485, 6, 2013.
【非特許文献14】[15] K. Hermus, P. Wambacq et al., "A review of signal subspace speech enhancement and its application to noise robust speech recognition," EURASIP Journal on Applied Signal Processing, vol. 2007, no. 1, pp. 195-195, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、上述の欠点を回避しつつ、オーディオ信号を符号化しかつ復号するためのコンセプトを提供することにある。
【課題を解決するための手段】
【0006】
この目的は、独立請求項によって解決される。
【0007】
第1の実施形態は、オーディオ信号を符号化してデータストリームにするためのエンコーダを提供する。本エンコーダは、(線形又は長期)予測子と、ファクトライザと、トランスフォーマと、量子化符号化ステージとを備える。予測子は、オーディオ信号のスペクトル包絡線又はオーディオ信号の基本周波数を記述する(線形又は長期)予測係数を得るためにオーディオ信号を分析し、かつオーディオ信号の残余信号を出力するために予測係数に依存してオーディオ信号を分析フィルタ関数にかけるように構成されている。ファクトライザは、因数分解された行列を得るために、予測係数により定義される合成フィルタ関数の自己相関又は共分散行列上に行列因数分解を適用するように構成されている。トランスフォーマは、変換された残余信号を得るために、因数分解された行列を基礎として残余信号を変換するように構成されている。量子化及び符号化ステージは、量子化された変換残余信号又は符号化された量子化変換残余信号を得るために、変換残余信号を量子化するように構成されている。
【0008】
別の実施形態は、データストリームをオーディオ信号に復号するためのデコーダを提供する。本デコーダは、復号ステージと、再トランスフォーマと、合成ステージとを含む。復号ステージは、着信する量子化変換残余信号を基礎として、又は入ってくる符号化された量子化変換残余信号を基礎として、変換残余信号を出力するように構成されている。再トランスフォーマは、因数分解された行列を得るために、オーディオ信号のスペクトル包絡線又はオーディオ信号の基本周波数を記述する予測係数により定義される合成フィルタ関数の自己相関又は共分散行列の行列因数分解から結果的に生じる因数分解された行列を基礎として、変換残余信号から残余信号を再変換するように構成されている。合成ステージは、オーディオ信号を、残余信号を基礎とし、予測係数により定義される合成フィルタ関数を用いて合成するように構成されている。
【0009】
これらの2つの実施形態から分かるように、符号化及び復号は、本コンセプトをACELPに比肩し得るものにする2段階プロセスである。第1のステップは、スペクトル包絡線又は基本周波数に対する合成の量子化を可能にし、第2のステージは、励振信号とも称されかつオーディオ信号のスペクトル包絡線又は基本周波数を有する信号をフィルタリングした後の信号を表す残余信号の(直接)量子化又は合成を可能にする。また、ACELPと同様に、残余信号又は励振信号の量子化は、最適化問題に対応するが、本明細書に開示する教示による最適化問題の目的関数は、実質的に、ACELPとは異なる。詳述すれば、本発明による教示は、行列因数分解を用いて最適化問題の目的関数を脱相関し、これにより、高価な反復計算を回避することができ、かつ最適なパフォーマンスが保証される、という原理を基礎とする。記載している実施形態の1つの中心的なステップである行列因数分解は、エンコーダの実施形態に包含され、かつ好ましくは、デコーダの実施形態にも包含されてもよいが、この限りではない。
【0010】
行列因数分解は、異なる技術、例えば固有値分解、バンデルモンド因数分解又は他の任意の因数分解を基礎とするものであってもよく、選ばれる技術ごとに、因数分解の対象は、符号化又は復号の第1のステージ(線形予測子又は長期予測子)において第1のオーディオにより検出される(線形又は長期)予測係数によって定義される行列、例えば自己相関又は共分散行列である。
【0011】
別の実施形態によれば、ファクトライザは、行列を用いて記憶される予測係数を含む合成フィルタ関数を因数分解し、又は、加重バージョンの合成フィルタ関数行列を因数分解する。例えば、因数分解は、バンデルモンド行列V、対角行列D及び変換結合バージョンのバンデルモンド行列V*を用いて実行されてもよい。バンデルモンド行列は、公式R=V*DV、又はC=V*DVを用いて因数分解されてもよく、自己相関行列R又は共分散行列Cは、変換結合バージョンの合成フィルタ関数行列H*及び正規バージョンの合成関数行列H、即ちR=H*H又はC=H*H、によって定義される。
【0012】
さらなる実施形態によれば、トランスフォーマは、先に決定された対角行列D及び先に決定されたバンデルモンド行列Vから開始して、残余信号xを公式y=D1/2Vx、又は公式y=DVxを用いて変換残余信号yに変換する。
【0013】
さらなる実施形態によれば、量子化及び符号化ステージは、これで、変換残余信号yを量子化して量子化変換残余信号
を得ることができる。この変換は、先に論じたように、最適化問題であり、目的関数
が使用される。この場合は、この目的関数が、ACELPエンコーダ内で使用される目的関数等の、異なる符号化方法又は復号方法に使用される目的関数と比較すると複雑性がより低減されることが効果的である。
【0014】
ある実施形態によれば、デコーダは、エンコーダから因数分解された行列を、例えばデータストリームと共に受信し、又は、別の実施形態によれば、デコーダは、行列因数分解を実行する随意選択のファクトライザを備えている。ある好適な実施形態によれば、デコーダは、因数分解された行列を直接受信し、かつこれらの因数分解された行列から、行列の起源が予測係数にあることに起因して(エンコーダ参照)、予測係数を逸脱させる。この実施形態によりデコーダの複雑性をさらに低減することができる。
【0015】
さらなる実施形態は、オーディオ信号をデータストリームに符号化するためと、データストリームをオーディオ信号へ復号するための対応方法を提供する。ある追加的な実施形態によれば、符号化方法並びに復号方法は、コンピュータのCPU等のプロセッサによって実行されてもよく、又は少なくとも部分的に実行されてもよい。
【図面の簡単な説明】
【0016】
図1a図1aは、第1の実施形態による、オーディオ信号を符号化するためのエンコーダを示す略ブロック図である。
図1b図1bは、第1の実施形態による、オーディオ信号を符号化するための対応する方法を示す略フローチャートである。
図2a図2aは、第2の実施形態による、データストリームを復号するためのデコーダを示す略ブロック図である。
図2b図2bは、第2の実施形態による、データストリームを復号するための対応する方法を示す略フローチャートである。
図3a図3aは、異なる量子化方法に関する、信号対雑音比の知覚的平均を1フレームあたりのビット数の関数として示す略図である。
図3b図3bは、異なる量子化方法の正規化された実行時間を1フレームあたりのビット数の関数として示す略図である。
図3c図3cは、バンデルモンド変換の特性を示す略図である。
【発明を実施するための形態】
【0017】
以下、添付の図面を参照して、本発明の実施形態について論じる。
【0018】
続いて以下、添付の図面を参照して、本発明の実施形態について論じる。本明細書では、説明が交換可能であるように、又は相互に適用できるように、同じ機能又は類似する機能を有するオブジェクトには同じ参照数字を当てている。
【0019】
図1aは基本構造のエンコーダ10を示す。エンコーダ10は、ここでは線形予測子12として実装される予測子12と、ファクトライザ14と、トランスフォーマ16と、量子化及び符号化ステージ18とを備えている。
【0020】
線形予測子12は、オーディオ信号ASを、好ましくはパルスコード変調信号(PCM)等のデジタルオーディオ信号を受信するために、入力に配置される。線形予測子12は、ファクトライザ14へ結合され、かつ所謂LPC−チャネルLPCを介してエンコーダの出力、参照数字DSLPC/DSDV参照、へ結合される。さらに、線形予測子12は、所謂残余チャネルを介してトランスフォーマ16へ結合される。逆に、トランスフォーマ16は(残余チャネルに加えて)、その入力側でファクトライザ14へ結合される。トランスフォーマの出力側は、量子化及び符号化ステージ18へ結合され、量子化及び符号化ステージ18は、出力(参照数字
参照)へ結合される。2つのデータストリームDSLPC/DSDV及び
は、出力されるべきデータストリームDSを形成する。
【0021】
以下、符号化方法100を記述する図1bをさらに参照して、エンコーダ10の機能について論じる。図1bから分かるように、オーディオ信号ASをデータストリームDSに符号化するための基本的な方法100は、ユニット12、14、16及び18によって実行される4つの基本ステップ120、140、160及び180を含む。第1のステップ120において、線形予測子12は、オーディオ信号ASを分析して線形予測係数LPCを得る。線形予測係数LPCは、後に所謂合成フィルタ関数Hを用いてオーディオ信号を基本的に合成できるようにする、オーディオ信号ASのスペクトル包絡線を記述する。合成フィルタ関数Hは、LPC係数により定義される合成フィルタ関数の重み付け値を備えてもよい。線形予測係数LPCは、LPC−チャネルLPCを用いてファクトライザ14へ出力され、並びにエンコーダ10の出力へ送られる。線形予測子12は、さらに、オーディオ信号ASを、線形予測係数LPCにより定義される分析フィルタ関数Hにかける。このプロセスは、デコーダにより実行されるLPC係数を基礎とするオーディオ信号の合成に対応するものである。このサブステップの結果、残余信号xは、フィルタ関数Hによって説明できる信号部分なしでトランスフォーマ16へ出力される。このステップは、フレーム関連で実行されること、即ち、振幅及び時間領域を有するオーディオ信号ASは、例えば長さ5msを有する時間窓(サンプル)に分割又はサンプリングされ、かつ周波数領域において量子化されることに留意されたい。
【0022】
これに続くステップは、トランスフォーマ16により実行される残余信号xの変換(方法ステップ160参照)である。トランスフォーマ16は、残余信号xを変換して、量子化及び符号化ステージ18へ出力される変換残差信号yを得るように構成されている。例えば、変換160は、公式y=D1/2Vx、又はy=DVxを基礎としてもよい。ここで、行列D及びVは、ファクトライザ14によって提供される。したがって、残余信号xの変換は、少なくとも2つの因数分解された行列、即ち例示的にバンデルモンド行列と称するVと、例示的に対角行列と称するDとを基礎とする。
【0023】
適用される行列因数分解は、例えば、固有分解、バンデルモンド因数分解、コレスキー分解又はこれらに類似するものとして自由に選択することができる。バンデルモンド因数分解は、自己相関行列等の対称正定値トプリッツ行列の、バンデルモンド行列V及びV*の積への因数分解として使用されてもよい。目的関数における自己相関行列の場合、これは、典型的にはバンデルモンド変換と呼ばれるワープ離散フーリエ変換に対応する。ファクトライザ14によって実行されかつ本発明の基本的な部分を表すこの行列因数分解ステップ140については、量子化及び符号化ステージ18の機能を論じた後に詳述する。
【0024】
量子化及び符号化ステージ18は、トランスフォーマ16から受信される変換残余信号yを量子化して、量子化された変換残余信号
を得るように構成されている。この量子化された変換残余信号
は、データストリームの一部
として出力される。データストリームDS全体は、DSLPC/DSDVと称するLPC部分、及び
と称する
部分を備えていることに留意されたい。
【0025】
変換残余信号yの量子化は、例えば、目的関数を用いて、例えば
に関して実行されてもよい。この目的関数は、ACELPエンコーダの典型的な目的関数と比較すると複雑性が低減されており、その結果、符号化のパフォーマンスが効果的に向上する。このパフォーマンスの向上は、より高い分解能を有するオーディオ信号ASを符号化するために、又は必要なリソースを減らすために使用することができる。
【0026】
信号
は、符号化された信号であってもよく、符号化は、量子化及び符号化ステージ18によって実行されることは留意されるべきである。したがって、さらなる実施形態によれば、量子化及び符号化ステージ18は、算術符号化するように構成され得るエンコーダを備えていてもよい。量子化及び符号化ステージ18のエンコーダは、線形量子化ステップ(即ち、等距離)を用いても、対数等の可変量子化ステップを用いてもよい。あるいは、エンコーダは、別の(ロスレス)エントロピー符号化を実行するように構成されてもよく、コード長さは、特異入力信号ASの確率の関数として変化する。したがって、最適なコード長さを得るためには、入力信号の確率を、合成包絡線を基礎として、延てはLPC係数を基礎として検出することが1つの代替オプションであり得る。したがって、量子化符号化ステージは、LPCチャネル用の入力も有してもよい。
【0027】
以下、目的関数
の複雑性低減を可能にする背景について論じる。先に述べたように、向上した符号化は、ファクトライザ14によって実行される行列因数分解のステップ140を基礎とする。ファクトライザ14は、行列、例えば線形予測係数LPC(LPCチャネル参照)により定義されるフィルタ合成関数Hの自己相関行列R又は共分散行列C、を因数分解する。この因数分解の結果、2つの因数分解された行列、例えば、特異LPC係数を含む原行列Hを表すバンデルモンド行列V及び対角行列Dが得られる。これに起因して、残余信号xのサンプルが脱相関される。よって、変換残余信号の直接量子化(ステップ180参照)が最適な量子化であって、これにより、計算複雑性は、ビットレートとはほぼ無関係ということになる。これに比較すると、ACELPコードブックを最適化する従来手法は、計算複雑性と、特に高いビットレートにおける精度とを均衡させなければならない。したがって、背景に関しては、実際には、従来のACELP手順から論じていく。
【0028】
ACELPの従来の目的関数は、共分散行列の形式をとる。向上した手法の場合、重み付け合成関数の自己相関行列を使用する代替的な目的関数が存在する。ACELPを基礎とするコーデックは、知覚加重合成領域における信号対雑音比(SNR)を最適化している。目的関数は、次式のように表すことができる。
ここで、xは、標的残余であり、
は、量子化された残余であり、Hは、重み付け合成フィルタに対応するコンボリューション行列であり、かつγは、スケール利得係数である。最適な量子化
を求めるために、標準的な手法は、η(x,y)の導関数のゼロにおける、γ*で示されるγの最適値を求める。方程式(1)に、最適なγ*を代入すると、次式のような新たな目的関数が得られる。
ここで、H*は、関数Hによる合成の、変換された共役バージョンである。
【0029】
従来手法のHは、正方下三角畳み込み行列であり、よって、共分散行列C=H*Hは、対称共分散行列であることに留意されたい。下三角行列の、フルサイズの畳み込み行列による置換、よって、自己相関行列R=H*Hが対称テプリッツ行列であること、は、重み付け合成フィルタの他の相関に対応する。この置換により、品質に対する最小限の影響で、複雑性が大幅に低減される。
【0030】
線形予測子14は、行列因数分解に共分散行列C又は自己相関行列Rのいずれを用いてもよい。以下の論考は、LPC係数に依存する行列の因数分解により目的関数を修正するために自己相関Rが使用される、という仮定に基づいて行う。R等の対称正定値トプリッツ行列は、固有値分解を含む幾つかの方法を介して次式のように分解することができる。
R=V*DV (3)
ここで、V*は、変換共役バージョンのバンデルモンド行列Vである。共分散行列Cを用いる従来手法では、特異値分解C=USV等の他の因数分解を適用することができる。
【0031】
自己相関行列に対しては、同じく方程式(3)の形式である、本明細書においてバンデルモンド因数分解と称する代替因数分解が使用されてもよい。バンデルモンド因数分解は、因数分解/変換を可能にする新規概念である。バンデルモンド行列は、値|Vk|=1を有するVを有し、かつ、
であり、Dは、狭義正の成分を有する対角行列である。分解は、複雑性がO(N3)である任意の精度で計算することができる。直接分解は、典型的には、
の計算複雑性を有するが、ここでは、これを
まで減らすことができ、あるいは、近似因数分解で足りる場合、複雑性をO(N log N)まで減らすことができる。選択される分解に関しては、
y=D1/2Vx及び
のように定義してもよい。ここで、x=V-1-1/2yであり、式(2)への代入によって次式を得ることができる。
【0032】
この場合、yのサンプルは、互いに相関せず、また上述の目的関数は、標的残余と量子化された残余との正規化相関であるに過ぎないことに留意されたい。よって、yのサンプルは、独立した量子化が可能であり、全てのサンプルの精度が等しければ、この量子化が、考えられる最良の精度を生み出すことになる。
【0033】
バンデルモンド因数分解の場合、Vの値が|Vk|=1であることから、これは、ワープ離散フーリエ変換に対応し、yの要素は残余の周波数成分に対応する。さらに、対角行列Dによる乗算は周波数帯域のスケーリングに対応し、よって、yは、残余の周波数領域表現であることになる。
【0034】
一方で、固有分解は、固有分解とフーリエ変換とが一致して窓長さが無限大に近づくときにのみ、物理的解釈を有する。したがって、有限長さの固有分解は、信号の周波数表現に緩く関連づけられるが、成分を周波数にラベリングすることは、困難である。それでもなお、固有分解は、最適な基礎であることが知られ、よって、事例によっては、最適パフォーマンスを与えることができる。
【0035】
これらの2つの因数分解された行列V及びDから開始して、トランスフォーマ16は、残余信号xが方程式(5)により定義される脱相関ベクトルを用いて変換されるように、変換160を実行する。
【0036】
xが無相関の白色雑音であるとすれば、Vxのサンプルも等しいエネルギー期待値を有する。その結果、値を符号化するために算術エンコーダ、又は代数コードブックを用いるエンコーダが使用されてもよい。しかしながら、Vxの量子化は、対角行列D1/2を除外することに起因して、目的関数にとって最適ではない。一方で、全変換y=D1/2Vxは、対角行列Dによるスケーリングを含み、これにより、yのサンプルのエネルギー期待値が変わる。分散が不均一な代数コードブックを作成することは自明ではない。したがって、代数コードブックを代わりに用いて最適なビット消費を達成することは、1つのオプションであり得る。次には、[14]で明らかにされているように、算術コーディングを精確に定義することができる。
【0037】
バンデルモンド変換又は別の複素変換等の分解が使用されれば、実数部及び虚数部は、独立した確率変数であることに留意されたい。複素変数のバリアントがσ2であれば、実数部及び虚数部は、分散σ2/2を有する。固有値分解等の実数値分解は、実数値のみを提供し、よって、実数部及び虚数部の分離は不要である。複素数値変換を用いてパフォーマンスを高める場合、従来の複素数値の算術コーディング方法を適用することができる。
【0038】
上述の実施形態によれば、予測係数LPC(DSLPC参照)は、LSF信号(線スペクトル周波数信号)として出力されるが、代替オプションとして、予測係数LPCを因数分解された行列V及びD(DSDV参照)内で出力することがある。この代替オプションは、V、Dで記されている破線によって示されており、DSDVがファクトライザ14の出力から結果的に生じることが示されている。
【0039】
したがって、本発明の別の実施形態は、2つの因数分解された行列(DSVD)の形式である予測係数LPCを備えるデータストリーム(DS)を参照している。
【0040】
図2に関連して、デコーダ20及び対応する復号方法200について論じる。
【0041】
図2aは、復号ステージ22と、任意のファクトライザ24と、再トランスフォーマ26と、合成ステージ28と、を備えたデコーダ20を示す。復号ステージ22並びにファクトライザ24は、デコーダ20の入力に配置され、よって、データストリームDSを受信するように構成されている。詳述すれば、データストリームDSの第1の部分、即ち線形予測係数は、任意のファクトライザ24へ提供され(DSLPC/DSDV参照)、第2の部分、即ち量子化変換残余信号
又は符号化された量子化変換残余信号
は、復号ステージ22へ提供される(
参照)。合成ステージ28は、デコーダ20の出力に配置され、オーディオ信号ASに類似するが全く同じではないオーディオ信号AS’を出力するように構成されている。
【0042】
オーディオ信号AS’の合成は、LPC係数を基礎とし(DSLPC/DSDV参照)、かつ残余信号xを基礎とする。したがって、合成ステージ28は、DSLPC信号を受信するための入力へ、かつ残余信号xを提供する再トランスフォーマ26へ結合される。再トランスフォーマ26は、変換残余信号yを基礎とし、かつ少なくとも2つの因数分解された行列V及びDを基礎として残余信号xを計算する。したがって、再トランスフォーマ26は、少なくとも2つの入力、即ち、V及びDを例えばファクトライザ24から受信するための第1の入力、及び変換残余信号yを復号ステージから受信するための1つの入力、を有する。
【0043】
以下、図2bに示されている対応する方法200を参照して、デコーダ20の機能について詳述する。デコーダ20は、(エンコーダから)データストリームDSを受信する。このデータストリームDSは、デコーダ20がオーディオ信号AS’を合成できるようにするが、DSLPC/DSDVで参照されるデータストリーム部分は、基本信号の合成を可能にし、
で参照される部分は、オーディオ信号AS’の詳細部分の合成を可能にする。第1のステップ220において、復号ステージ22は、入ってきた信号
を復号し、変換残余信号yを再トランスフォーマ26(ステップ260参照)へ出力する。
【0044】
これに並行して又は連続して、ファクトライザ24は、因数分解を実行する(ステップ240参照)。ステップ140に関連して論じたように、ファクトライザ24は、合成フィルタ関数Hの自己相関行列R又は共分散行列Cに行列因数分解を適用する。即ち、デコーダ20により使用される因数分解は、符号化の側面において述べた因数分解(方法100参照)に類似又はほぼ類似し、よって、先に論じたように、固有値分解又はコレスキー因数分解であってもよい。ここで、合成フィルタ関数Hは、着信するデータストリームDSLPC/DSDVから外される。さらに、ファクトライザ24は、2つの因数分解された行列V及びDを再トランスフォーマ26へ出力する。
【0045】
2つの行列V及びDを基礎として、再トランスフォーマ26は、変換残余信号yから残余信号xを再変換し、xを合成ステージ28(ステップ280参照)へ出力する。合成ステージ28は、残余信号xを基礎とし、かつデータストリームDSLPC/DSDVとして受信されるLPC係数LPCを基礎としてオーディオ信号AS’を合成する。エンコーダ10が実行する量子化がロスレスではないことから、オーディオ信号AS’は、オーディオ信号ASに類似するものであるが、全く同じではない点に留意すべきである。
【0046】
別の実施形態によれば、因数分解された行列V及びDは、再トランスフォーマ26へ別のエンティティから、例えば、エンコーダ10から直に(データストリームの一部として)提供されてもよい。したがって、デコーダ20のファクトライザ24並びに行列因数分解ステップ240は任意のエンティティ/ステップであり、よって、破線で示されている。ここでは、入ってくる因数分解された行列V及びDから(合成280を実行する基礎となる)予測係数LPCを導出し得ることを代替オプションとすることができる。言い替えれば、これは、データストリームDSが
とDSLPCではなく、
と行列V及びD(即ち、DSDV)を備えていることを意味する。
【0047】
以下、図3a及び図3bに関連して、上述の符号化(並びに復号)のパフォーマンス向上について論じる。
【0048】
図3aは、知覚的信号対雑音比平均を、受信可能な長さでありかつ等しい64フレームを符号化するために使用されるビット数の関数として示す線図である。線図には、5つの異なる量子化手法に関する5つの曲線が示されているが、そのうちの2つの手法、即ち最適量子化及びペアワイズな反復量子化、は、従来手法である。公式(1)は、この比較の基礎を成す。提案する脱相関方法の量子化パフォーマンスと、残余信号の従来の時間領域表現との比較として、ACELPコーデックを次のように実装した。入力信号を12.8kHzにリサンプルし、各フレームでセンタリングされた長さ32msのハミング窓によって線形予測子を推定した。次に、AMR−WBコーデックのサブフレームに対応する長さ5msのフレームについて、予測残余を計算した。網羅探索により、32サンプルと150サンプルとの間の整数ラグにおいて、長期予測子を最適化した。最適値を用いて、量子化を行うことなくLTPを得た。
【0049】
入力信号へ、かつAMR−WBの場合と同様に合成において、フィルタ(1−0.68z-1)によるプリエンファシスを適用した。適用した知覚加重は、A(0.92z-1)であった。ただし、A(z)は、線形予測フィルタである。
【0050】
パフォーマンスを評価するためには、提案する量子化と従来手法(最適量子化及びペアワイズな反復量子化)とを比較する必要がある。最も頻繁に使用される手法は、長さ64フレームより成るフレームの残余信号をインタレースされた4トラックに分割する。この手法を、2つの方法、即ち、網羅探索において全ての組合せを試行する最適量子化(Opt参照)手法、又は、可能性のあるあらゆるポジションにおいて2パルスの連続加算を試行するペアワイズな反復量子化(Pair参照)、によって適用した。
【0051】
前者は、1フレームあたりのビット数15を超えるビットレートで計算が実行不可能なほど複雑になり、後者は、部分最適となる。後者は、AMR−WB等のコーデックに適用される最新技術方法より複雑でもあるが、それ故に、おそらくはより優れた信号対雑音比をも生み出すことに留意されたい。これらの従来方法を、上述の量子化アルゴリズムと比較する。
【0052】
バンデルモンド量子化(Vand参照)は、残余ベクトルxをy=D1/2Vxによって変換する。ここで、行列V及びDは、バンデルモンド因数分解から得られ、量子化には、算術コーダを用いる。固有値の量子化(Eig参照)は、バンデルモンド量子化に類似するものであるが、行列V及びDは、固有値分解によって求める。さらに、FFT量子化(FFT参照)が適用されてもよく、即ち、さらなる実施形態によれば、y=D1/2Vxの変換におけるフィルタを用いるウィンドウイングの組合せを、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)又は信号処理アルゴリズムにおける他の変換の代わりに用いることができる。バンデルモンド量子化の場合と同じ算術コーダを適用する場合には、残余信号のFFT(高速フーリエ変換)が採用される。FFT手法は、方程式(2)におけるサンプル間の相関の考慮が重要である点が周知であって、品質を下げることは明らかである。したがって、この量子化の基準点は低い。
【0053】
長期知覚的信号対雑音比平均及び方程式(1)が定義するような方法の複雑性を評価する、記述している方法のパフォーマンスの実証を図3aに示す。明らかに、期待の通り、FFT−領域における量子化は、最悪の信号対雑音比をもたらすことが分かる。低いパフォーマンスの理由としては、この量子化が残余サンプル間の相関を考慮していないということを挙げることができる。さらに、時間領域残余信号の最適量子化は、1フレームあたり5ビットから10ビットまでのビット数におけるペアワイズ最適化に等しい、と述べることもできるが、その理由は、これらのビットレートでは僅か1又は2パルスしか存在せず、よって双方の方法が全く同じであることにある。1フレームあたりのビット数が15である場合、最適方法は、期待通り、ペアワイズ最適化より僅かに優れている。
【0054】
1フレームあたり10ビット以上では、バンデルモンド領域における量子化が時間領域の量子化より優れ、バンデルモンド領域よりも固有値領域の方が1ステップ分優れている。1フレームあたり5ビットでは、算術コーダのパフォーマンスが、おそらくは著しく疎な信号に対して部分最適であることが知られている点に起因して、急速に下がる。
【0055】
また、1フレームあたり80ビットを超えると、ペアワイズ方法がペアワイズ方法から逸脱し始めることも観察されたい。非公式の実験は、ビットレートが高くなるほどこの傾向が高まり、よって、最終的には、FFT方法及びペアワイズ方法が、固有値方法及びバンデルモンド方法より遙かに低い値で同じ信号対雑音比に達することを示している。一方で、固有値及びバンデルモンド値は、多かれ少なかれビットレートの線形関数であり続ける。固有値方法は、一貫して、バンデルモンド方法より約0.36dBだけ優れている。仮説として、この差分のうちの少なくとも一部は、算術コーダにおける実数部及び複素部の分離によって説明される。最適パフォーマンスのためには、実数部及び複素部は、一緒に符号化されるべきである。
【0056】
図3bは、異なるアルゴリズムの複雑性の推定を例示するための、各ビットレートにおける各手法の実行時間測定値を示す。最適時間領域手法(Opt参照)の複雑性は、低いビットレートにおいて既に急増することが分かる。時間領域残余のペアワイズ最適化(Pair参照)は、次に、ビットレートの関数として線形的に増加する。最新技術による方法は、ペアワイズ手法の複雑性を、高いビットレートに対して一定となるように制限するが、図3aが示す実験の信号対雑音比の競合的な結果は、こうした制限に達し得ないことに留意されたい。さらに、脱相関手法(Eig及びVand参照)並びにFFT手法(FFT参照)は、共に、ビットレート全体で略一定である。バンデルモンド変換は、上述の実装において、固有分解法より約50%高い複雑性を有するが、その理由は、MATLABにより提供される高度最適化バージョンの固有分解の使用によって説明することができる。一方で、バンデルモンド因数分解は、最適な実装ではない。しかしながら、重要な点として、1フレームあたり100ビットのビットレートにおいて、ペアワイズ最適化ACELPは、各々バンデルモンド及び固有分解ベースアルゴリズムの約30倍及び50倍複雑である。唯一、FFTが固有分解法より高速であるが、FFTは、信号対雑音比が低いことから実行可能なオプションではない。
【0057】
要約すると、上述の方法には、2つの重大な優位点がある。第1に、知覚領域において量子化を適用することにより、知覚信号対雑音比が向上する。第2に、残余信号が(目的関数に関して)脱相関されることから、量子化を、高度に複雑な合成による分析ループなしに直接適用することができる。よって、提案方法の計算複雑性は、ビットレートに対してほぼ一定であるが、従来手法は、ビットレートの増加に伴ってますます複雑になる、ということになる。
【0058】
先に提示した手法は、従来の音声及びオーディオコーディング方法では全く動作不能である。具体的には、目的関数の脱相関は、MPEG USAC又はAMR−WB+等のACELPモードのコードにおいて、コーデック内に存在する他のツールへの制約なしに適用される可能性もある。コア帯域幅又は帯域幅拡張方法を適用する方法は変わることがなく、ACELPにおける長期予測、フォルマント強調、バス・ポスト・フィルタリング、他の方法も変える必要がなく、異なる符号化モード(ACELP及びTCX等)の実装方法は、目的関数の脱相関によって影響されない。
【0059】
一方で、同じ目的関数(方程式(1)参照)を用いる全てのツール(即ち、少なくとも全てのACELP実装)が、脱相関を利用して容易に再定式化され得ることは明らかである。したがって、さらなる実施形態によれば、脱関数を、例えば長期予測寄与に適用することができ、よって、脱相関信号を用いて利得係数を計算することができる。
【0060】
さらに、提示している変換領域は、周波数領域表現であることから、さらなる実施形態によれば、周波数領域の音声及びオーディオコーデックの古典的方法も、この新規領域へ適用されてもよい。特殊な実施形態によれば、スペクトル線の量子化において、効率を高めるためのデッドゾーンが適用されてもよい。別の実施形態によれば、スペクトルホールを回避するためにノイズ注入が適用されてもよい。
【0061】
符号化に関する上述の実施形態(図1a及び図1b参照)は、線形予測子を用いるエンコーダの側面で論じられているが、予測子は、オーディオ信号ASの基本周波数を記述する長期予測係数を決定するため、そして、長期予測係数により定義されるフィルタ関数を基礎としてオーディオ信号ASをフィルタリングして、さらなる処理のための残余信号xを出力するために、長期予測子を含むようにも構成され得ることは留意されるべきである。さらなる実施形態によれば、予測子は、線形予測子と長期予測子との組合せであってもよい。
【0062】
提案している変換が、音声強調等の音声及びオーディオ処理における他のタスクへ容易に適用可能であることは、明らかである。第1に、部分空間ベースの方法は、信号の固有値分解又は特異値分解を基礎とする。提示している手法は、類似の分解を基礎とすることから、さらなる実施形態によれば、部分空間分析を基礎とする音声強調方法は、提案している領域へ適応されてもよい。従来の部分空間方法との相違は、信号モデルが、ACELPにおける適用のように、線形予測及び残余領域におけるウィンドウイングを基礎として適用される場合に存在する。一方で、伝統的な部分空間方法は、時間的に一定である(非適応)重なり合う窓を適用する。
【0063】
第2に、バンデルモンド脱相関を基礎とする脱相関は、離散フーリエ、コサイン又は他の類似する変換によって提供されるものと同様の周波数領域を提供する。したがって、通常フーリエ、コサイン又は類似の変換領域において実行される音声処理アルゴリズムはいずれも、最小限の修正により、先に述べた手法の変換領域においても適用可能である。したがって、変換領域において、スペクトル減算を用いる音声強調が適用されてもよく、即ち、これは、さらなる実施形態によれば、提案している変換を、音声又はオーディオ強調において、例えばスペクトル減算法、部分空間分析又はこれらの導関数及び変形によって使用できることを意味する。この場合の利点は、この手法がACELPと同じウィンドウイングを使用し、よって、音声強調アルゴリズムを厳密に音声コーデックへ統合できることにある。さらに、ACELPの窓は、従来の部分空間分析において使用されるものより低いアルゴリズム的遅延を有する。したがって、必然的に、ウィンドウイングは、より高いパフォーマンスの信号モデルを基礎とする。
【0064】
トランスフォーマ14に使用される、即ちステップ140において使用される方程式(5)を参照すると、その生成もまた、例えばy=DVxという形式において相違し得ることは留意されるべきである。
【0065】
さらなる実施形態によれば、エンコーダ10は、その出力に、2つのデータストリーム、DSLPC/DSDV及び
、を共通のパケットDSにパケット化するように構成されるパッカを備えてもよい。逆もまた同様に、デコーダ20は、データストリームDSを2つのパック、DSLPC/DSDV及び
、に分割するように構成されるデパケッタイザを備えてもよい。
【0066】
幾つかの態様を、装置のコンテキストにおいて記述してきたが、これらの態様が、対応する方法の説明を表現するものでもあり、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの側面において記述されている態様は、対応する装置の対応するブロック、アイテム又は特徴の説明をも表現している。方法ステップのうちの幾つか又は全ては、例えば、マイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって(又は、これを用いて)実行されてもよい。実施形態によっては、最も重要な方法ステップのうちのいずれか1つ又はそれ以上が、このような装置によって実行されてもよい。
【0067】
本発明による符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることが可能であり、又は、無線伝送媒体若しくはインターネット等の有線伝送媒体などの伝送媒体上で伝送されることが可能である。
【0068】
所定の実装要件に依存して、本発明の実施形態は、ハードウェア又はソフトウェアに実装することができる。実装は、個々の方法が実装されるようにプログラム可能コンピュータシステムと共働する(又は、共働することができる)、電子読取り可能制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリ、を用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ読取り可能であってもよい。
【0069】
本発明による幾つかの実施形態は、本明細書に記述している方法のうちの1つが実行されるようにプログラム可能コンピュータシステムと共働することができる、電子読取り可能制御信号を有するデータキャリアを備える。
【0070】
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとしての実装が可能であり、プログラムコードは、コンピュータ上でコンピュータ・プログラム・プロダクトが実行されると方法のうちの1つを実行するように作動する。プログラムコードは、例えば、機械読取り可能キャリア上に記憶されてもよい。
【0071】
他の実施形態は、機械読取り可能キャリア上に記憶される、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0072】
したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述している方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0073】
したがって、本発明方法のさらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを記録して備えるデータキャリア(又は、デジタル記憶媒体、若しくはコンピュータ読取り可能媒体)である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には、有形及び/又は非遷移性である。
【0074】
したがって、本発明方法のさらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。
【0075】
さらなる実施形態は、本明細書に記述している方法のうちの1つを実行するように構成又は適合化される処理手段、例えばコンピュータ、又はプログラマブル論理デバイス、を含む。
【0076】
さらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0077】
本発明によるさらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを受信機へ(例えば、電子的又は光学的に)転送するように構成される装置又はシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス又はこれらに類似するものであってもよい。装置又はシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを備えてもよい。
【0078】
実施形態によっては、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)は、本明細書に記述している方法の機能のうちの一部又は全てを実行するために使用されてもよい。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述している方法のうちの1つを実行するために、マイクロプロセッサと共働してもよい。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。
【0079】
以下、上述の教示を、異なる文言により、かつ本発明の背景を浮き彫りにする手助けとなり得る幾つかのさらなる詳細によって論じる。バンデルモンド変換は、最近、離散フーリエ変換とは異なり、同じく信号を脱相関する時間−周波数変換として提示された。フーリエが提供する近似的又は漸近的脱相関は、多くの事例において十分なものであるが、短い窓を使用するアプリケーションでは、パフォーマンスが不十分である。したがって、バンデルモンド変換は、経時的に入力信号が急激に変化するために短い分析窓を用いなければならない音声及びオーディオ処理アプリケーションにおいて有益であろう。このようなアプリケーションは、計算容量が制限されるメモリデバイスに対して使用される場合が多く、よって、効率的な計算が決定的に重要である。
【0080】
しかしながら、バンデルモンド変換の実装は、相当な骨折り仕事であることが判明していて、複雑性及び精度に合わせてパフォーマンスが最適化される高度な数値ツールを必要とする。この寄与は、このタスクに対して、パフォーマンス評価を含むベースライン解を提供する。索引語−時間−周波数変換、脱相関、バンデルモンド行列、テプリッツ行列、ワープ離散フーリエ変換
【0081】
離散フーリエ変換は、デジタル信号処理における最も基本的なツールの1つである。これは、入力信号の物理的に動機づけされた表現を周波数成分の形式で提供する。高速フーリエ変換(FFT)は、離散フーリエ変換をやはり超低計算複雑性
で計算することから、デジタル信号処理の最も重要なツールの1つとなっている。
【0082】
有名ではあるが、離散フーリエ変換には欠点があり、信号成分を完全には脱相関しない(数値例に関しては、セクション4を参照されたい)。変換長が無限大に収束する場合にのみ、成分は直交になる。多くのアプリケーションでは、このような近似脱相関で充分である。しかしながら、多くの音声及びオーディオ処理アプリケーション等の比較的小さい変換を使用するアプリケーションでは、この近似の精度がアルゴリズムの全体効率を制限する。例えば、音声符号化規格AMR−WBは、
の窓を使用する。実践により、離散フーリエ変換のパフォーマンスは、この場合不十分であることが分かっており、したがって、主流の音声コーデックのほとんどは、時間領域符号化を用いている。
【0083】
図3cは、バンデルモンド変換の特性を示す。51で示されている太線は、信号の(非ワープ)フーリエスペクトルを示し、線52、線53及び線54は、入力信号でフィルタリングされた、選択された3周波数の通過帯域フィルタの応答である。バンデルモンド因数分解のサイズは、64である。
【0084】
当然ながら、入力信号の脱相関を提供する変換は、カルーネン−レーベ変換(KLT)等、多数存在する。しかしながら、KLTの成分は、フーリエ変換のように単純な物理的解釈のない抽象的エンティティである。一方で、物理的に動機づけされた領域は、物理的に動機づけされた基準を処理方法へ単純に実装することを可能にする。したがって、物理的解釈及び脱相関の双方を提供する変換が望まれる。
【0085】
私達は、最近、これらの好ましい特性の双方を有する、バンデルモンド変換と呼ばれる変換を提示した。これは、エルミートテプリッツ行列を対角行列とバンデルモンド行列との積へ分解することを基礎とする。この因数分解は、事実上、共分散行列のカラテオドリのパラメータ化としても知られ、ハンケル行列のバンデルモンド因数分解に酷似している。
【0086】
正定値エルミートテプリッツ行列という特殊な事例の場合、バンデルモンド因数分解は、周波数ワープ離散フーリエ変換に相当する。言い替えれば、これは、必ずしも均一に分散されていない周波数においてサンプリングされる信号成分を提供する時間−周波数変換である。したがって、バンデルモンド変換は、所望される性質、即ち、脱相関及び物理的解釈、の双方を提供する。
【0087】
バンデルモンド変換の存在及び性質は、分析的に実証されているが、現在の作業の目的は、第1に、バンデルモンド変換の既存の実用アルゴリズムを収集しかつ記録することにある。これらの方法は、数値代数、数値解析、システム識別、時間−周波数解析及び信号処理を含む極めて多様な分野に現出していて、発見しにくいことが多い。したがって、本稿は、結果の解析及び論考の共同プラットフォームを提供する方法を再検討するものである。第2に、異なる方法のパフォーマンスをさらに評価するためのベースラインとして、数値例を提供する。
【0088】
本セクションでは、バンデルモンド変換について簡単に紹介する。アプリケーションに関するより包括的な動機付け及び論考のために、以下を参照する。
【0089】
バンデルモンド行列Vは、スカラvkによって次式のように定義される。
【0090】
スカラvkが区別的(k≠hのとき、vk≠vh)であれば、これは最大階数であり、その逆数は、明示公式を有する。
【0091】
対称テプリッツ行列Tは、スカラτkによって次式のように定義される。
【0092】
Tが正定値であれば、これは、
T=V*ΛV (3z)
のように因数分解することができる。ここで、Λは、実数かつ狭義正の成分λkk>0を有する対角行列であり、指数級数Vは、全て単位円上にあって、νk=exp(iβk)である。この形式は、テプリッツ行列のカラテオドリのパラメータ化としても知られる。
【0093】
ここでは、バンデルモンド変換の2つの使用法、即ち、脱相関変換又は畳み込み行列の置換の何れかとしての使用法を提示する。まず、自己相関行列E[xx*]=Rxを有する信号xについて考察する。この自己相関行列は、正定値の対称性かつテプリッツであることから、これを、R=V*ΛVのように因数分解することができる。よって、変換、
d=V-*x (4z)
但し、V-*はVの逆エルミート、を適用すれば、ydの自己相関行列は、次式のようになる。
【0094】
したがって、変換信号ydは、無相関である。逆変換は、次式の通りである。
x=V*d (6z)
【0095】
発見的記述として、前方変換V-*は、そのk番目の行に、通過帯域が周波数−βkであるフィルタを含み、かつxの阻止帯域出力は、低エネルギーを有する、と言うことができる。具体的には、出力のスペクトル形状は、単位円上に単極を有するAR−フィルタのそれに近い。このフィルタバンクは、信号適応的であることから、ここでは、基底関数の周波数応答ではなく、フィルタ出力について考察することに留意されたい。
【0096】
次に、後方変換V*は、その列内に指数級数を有し、よって、xは、指数級数の加重和である。言い替えれば、この変換は、ワープ時間−周波数変換である。図3cは、入力信号xの離散(非ワープ)フーリエスペクトル、及びV-*の選択された行の周波数応答を明示している。
【0097】
畳み込み領域における信号を評価するためのバンデルモンド変換は、次のように構成することができる。Cを畳み込み行列、xを入力信号とする。畳み込み信号yc=Cxの評価を目的とする事例について考察されたい。このような評価は、例えば、量子化誤差エネルギーが知覚領域において評価され、かつ知覚領域へのマッピングがフィルタによって記述される、ACELPを使用する音声コーデックにおいて現出する。
【0098】
cのエネルギーは、次式の通りである。
【0099】
したがって、ycのエネルギーは、変換されかつスケーリングされた信号のエネルギーに等しい。
したがって、畳み込み領域又は変換領域における信号エネルギーを同等に評価することができ、
である。明らかに、逆変換は、次式の通りである。
x=V-1Λ-1/2v (9z)
【0100】
前方変換Vは、その行内に指数級数を有し、よって、これは、ワープフーリエ変換である。その逆変換V-1は、その列内に、βkに通過帯域を有するフィルタを有する。この形式において、フィルタバンクの周波数応答は、離散フーリエ変換に等しい。通常エイリアシング成分のように見えるものを使用して完全再構成を可能にするのは、逆変換のみである。
【0101】
バンデルモンド変換を用いるためには、変換を決定し、並びに変換を適用するための効果的なアルゴリズムが必要である。本セクションでは、利用可能なアルゴリズムについて論じる。まずは、より単純なタスクであることから、変換のアプリケーションについて論じる。
【0102】
V及びV*による乗算は、単純であり、よってO(N2)に実装することができる。記憶要件を減らすために、ここに、h>1について指数
を明示的に評価する必要のないアルゴリズムを示す。即ち、y=Vxであり、かつxの要素がξkであれば、yの要素ηkは、次の再帰を用いて決定することができる。
【0103】
ここで、τh,kは、一時スカラであり、記憶する必要があるのはそのカレント値のみである。全体再帰は、N個の成分に関してNステップを有し、よって、全体複雑性はO(N2)でありかつ記憶不変である。y=V*xについても、類似のアルゴリズムを即座に書くことができる。
【0104】
バンデルモンドの逆行列V-1及びV-*による乗算は、もう少し複雑なタスクであるが、幸運にも、既に文献から比較的効率的な方法を利用可能である。アルゴリズムは、実装が簡単であり、かつx=V-1y及びx=V-*yの双方で複雑性はO(N2)であり、記憶線形的O(N)である。しかしながら、このアルゴリズムは、ステップ毎に除算を含み、よって多くのアーキテクチャにおいて固定費が高くなる。
【0105】
逆数による乗算の上記アルゴリズムは、解析的には精確であるが、実用的実装では、
値が大きければ数値的に不安定になる。したがって、経験的に、
のサイズが64までの行列による計算は、場合によって可能であるが、これを超えると、これらのアルゴリズムは、数値的不安定によって役に立たなくなる。実用解は、軸選択形ガウス消去に等しい、根vkのLejaによる順序付けである。Lejaによる順序付けの背後にある主たる考案は、根を、根vkとその前の根0...(k−1)との距離が最大化されるようにして再配列する、というものである。このような再配置により、アルゴリズムに現出する分母が最大化され、かつ中間変数の値が最小化され、よって、切り捨て誤差による寄与分も最小化される。Lejaによる順序付けの実装は単純であって、複雑性O(N2)及び記憶O(N)で達成することができる。
【0106】
よって、最終的なハードルは、因数分解、即ち根vk、及び必要であれば、対角値λkkを求めることである。知り得る限り、根は、次式、
Ra=[1 1...1]T (11z)
を解くことにより求めることができる。ここで、aは、要素αkを有する。よって、v0=1であり、かつ残りの根v1...vNは、多項式
の根である。これが、ハンケル系、
の解法に等しいことは、容易に証明することができる。ここで、
である。よって、根vkは、
の根となる。
【0107】
原初のテプリッツ系方程式11zは、方程式12zと等価であることから、ハンケル行列の因数分解に高速アルゴリズムを用いることができる。このアルゴリズムは、固有値が
の根に一致する三重対角行列を返す。次には、O(N2)においてLRアルゴリズムを適用することにより、又は、O(N3)において標準非対称QRアルゴリズムによって、固有値を求めることができる。こうして求める根は、近似値であり、よって、単位円から僅かに外れる場合もある。よって、根の絶対値を1に正規化し、かつニュートン法による2又は3回の反復によって精緻化することが有益である。完全プロセスは、O(N2)の計算コストを有する。
【0108】
因数分解の最終ステップは、対角値Λを求めることである。次式、
Re=V*ΛVe=V*λ (13z)
を観察されたい。ここで、e=[1 0...0]Tであり、λは、Λの対角値を含むベクトルである。言い替えれば、
λ=V-*(Re) (14z)
を計算することにより、対角値λkkを求める。この逆は、先に論じた方法で計算することができ、よって、対角値は、複雑性O(N2)で得られる。
【0109】
要するに、行列Rの因数分解に必要なステップは、下記の通りである。
【0110】
1.レビンソン−ダーバン法又は他の古典的方法を用いて、方程式11zのaを解く。
【0111】
2.自己相関数列を
で拡張する。
【0112】
3.数列τkに三重対角化アルゴリズムを適用する。
【0113】
4.LR−アルゴリズム又は対称QR−アルゴリズムの何れかを用いて固有値vkを解く。
【0114】
5.vkの1へのスケーリング及びニュートン法の数回の反復によって、根位置を精緻化する。
【0115】
6.方程式14zを用いて対角値λkkを決定する。
【0116】
まず、使用する概念を実証する数値例から開始する。ここで、行列Cは、自明なフィルタ1+z-1に対応する畳み込み行列であり、行列Rは、その自己相関であり、行列Vは、セクション3におけるアルゴリズムにより求めた対応するバンデルモンド行列であり、行列Fは、離散フーリエ変換行列であり、かつ行列ΛV及びΛFは、2変換の対角化精度を明示する。よって、次式、
を定義することができ、これにより、対角化を次式によって評価することができる。
【0117】
ここでは、バンデルモンド変換によって完全対角行列ΛVが得られることが分かる。離散フーリエ変換のパフォーマンスは、非対角値が明らかに非ゼロであることから、最適とはほど遠い。パフォーマンスの尺度として、非対角値及び対角値の絶対和の割合を計算することができるが、バンデルモンド因数分解のそれは、ゼロであり、フーリエ変換のそれは、0.444である。
【0118】
次に、セクション3に記述している実装の評価に進む。MATLABにおける各アルゴリズムの実装は、将来の研究との比較対象になるパフォーマンスベースラインを提供し、かつ最終的なパフォーマンスボトルネックを発見することを目的として行った。パフォーマンスを、複雑性及び精度に関連して考察していく。
【0119】
因数分解のパフォーマンスを決定するために、バンデルモンド因数分解を離散フーリエ変換及びカルーネン−レーベ変換と比較する。後者は、固有値分解によって適用する。バンデルモンド因数分解の適用は、2つの方法、即ち第1の、本稿に記載しているアルゴリズム(V1)及び第2の、MATLABにより提供される組み込み求根関数の使用において記述している手法(V2)、を用いて行った。このMATLAB関数は、細かく調整された汎用アルゴリズムであることから、精確な結果は得られるものの、複雑性は私達の専用アルゴリズムより高いことが予想される。
【0120】
全実験用のデータとして、MPEG USAC規格の評価に使用される音声、オーディオ及び混合音サンプルの集合を12.8kHzのサンプリング速度で用いた。オーディオサンプルをハミング窓によって所望される長さにウィンドウ処理し、その自己相関を計算した。自己相関行列が確実に正定値であるように、主対角に(1+10-5)を乗じた。
【0121】
パフォーマンスの尺度として、正規化された実行時間に対する計算複雑性、及び非対角要素及び対角要素の絶対和の割合により測定される、
と対角行列との接近性に関する精度を用いた。結果を、表1及び表2に記す。
【0122】
表1.正規化された実行時間に対する異なる窓長さNの因数分解アルゴリズムの複雑性
【0123】
表2.
の非対角値及び対角値の絶対和の割合のlog10に対する異なる窓長さ
Nの因数分解アルゴリズムの精度
【0124】
この場合、組み込みMATLAB関数は、私達固有のアルゴリズムとは異なる言語で実装されていることから、単にフレームサイズの関数としての複雑性増加でしかないアルゴリズム間の実行時間を比較することは、賢明でない点に留意されたい。提案アルゴリズムV1の複雑性は、KLTと比肩し得る速度で増大し、一方で、MATLABV2の求根関数を使用するアルゴリズムでは、さらに増大することが分かる。提案している因数分解アルゴリズムV1の精度は、いまだ最適ではない。しかしながら、MATLAB V2の求根関数は、KLTに匹敵する精度をもたらすことから、アルゴリズムの改良によって改善が可能であると結論付ける。
【0125】
第2の実験は、精度及び複雑性を決定するための変換適用である。まず、方程式4z及び方程式9zを適用する。これらの方程式の複雑性は、表3に記されている。KLTの行列乗算、及びMATLAB V2の行列系の組み込み解は、略同じ複雑性増加速度を有するが、方程式4z及び方程式9zに関する提案方法は、遙かに低い増加であることが分かる。当然ながら、FFTは、他の全ての手法より速い。
【0126】
最後に、バンデルモンド解の精度を求めるために、前方変換及び後方変換を順に適用する。原ベクトルと再構成ベクトルとの間のユークリッド距離を、表4に記す。まず、FFT及びKLTアルゴリズムは、直交変換を基礎とすることから、予想通り最も精確であることが観察できる。第2に、提案アルゴリズムV1の精度は、MATLAB V2の組み込み解より僅かに低いが、これらのアルゴリズムは共に、十分な精度を提供することが分かる。
【0127】
利用可能なアルゴリズムを精査し、並びにさらなる開発のためのパフォーマンスベースラインを提供することを目的として、バンデルモンド因数分解を用いて時間−周波数変換を脱相関する実装の詳細を提示した。原則的には、アルゴリズムは、先行する研究から入手可能であるが、実行のためのシステムを得る必要があることが分かっている。
【0128】
表3.正規化された実行時間に対する異なる窓長さ
のバンデルモンド解の複雑性
本表において、
は、各提案アルゴリズムによる方程式4z及び方程式9zの解を示す。
【表3】
【0129】
表4.
により測定した前方及び後方変換の精度
、ここで、
は、原ベクトル及び再構成ベクトルである。
【0130】
相当な努力。主たる課題は、数値精度及び計算複雑性である。実験により、複雑性O(N2)で方法を利用可能であることが確認されているが、低い複雑性を数値安定性と同時に達成することは、難題である。しかしながら、一般的なMATLAB実装は、精確な解を提供することから、実装をさらに調整すれば、高精度の達成が可能であることを断言する。
【0131】
結論として、実験は、バンデルモンド解の場合、提案しているアルゴリズムが良好な精度及び十分に低い複雑性を有することを示している。因数分解に関しては、専用の因数分解であれば、適度な複雑性でFFTより優れた脱相関を提供するが、精度に関しては、改良の余地がある。MATLABの組み込み実装は、十分な精度を与え、よって、結論として、精度O(N2)のアルゴリズムは、実装が可能である。
【0132】
上述の実施形態は、本発明の原理を単に例示したものである。他の当業者には、本明細書に記述している装置及び詳細の改変及び変形が明らかとなることは理解される。したがって、本発明は、本明細書における実施形態の記述及び説明により提示される具体的詳細ではなく、添付の特許請求の範囲に記載される範囲によってのみ限定されることが意図されている。
図1A
図1B
図2A
図2B
図3A
図3B
図3C