特許6543640 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6543640エンコーダ、デコーダ並びに符号化及び復号方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
3A
3B
3C

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6543640

(24)【登録日】2019年6月21日

(45)【発行日】2019年7月10日

(54)【発明の名称】エンコーダ、デコーダ並びに符号化及び復号方法

(51)【国際特許分類】

G10L 19/06 20130101AFI20190628BHJP

G10L 19/08 20130101ALI20190628BHJP

【ＦＩ】

G10L19/06 B

G10L19/08 G

【請求項の数】22

【全頁数】30

(21)【出願番号】特願2016-557212(P2016-557212)

(86)(22)【出願日】2015年3月3日

(65)【公表番号】特表2017-516125(P2017-516125A)

(43)【公表日】2017年6月15日

(86)【国際出願番号】EP2015054396

(87)【国際公開番号】WO2015135797

(87)【国際公開日】20150917

【審査請求日】2016年11月7日

(31)【優先権主張番号】14159811.0

(32)【優先日】2014年3月14日

(33)【優先権主張国】EP

(31)【優先権主張番号】14182047.2

(32)【優先日】2014年8月22日

(33)【優先権主張国】EP

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100205981

【弁理士】

【氏名又は名称】野口大輔

(72)【発明者】

【氏名】トム・ヴェックストローム

(72)【発明者】

【氏名】ヨハネス・フィッシャー

(72)【発明者】

【氏名】クリスティアン・ヘルムリッヒ

【審査官】冨澤直樹

(56)【参考文献】

【文献】国際公開第２０１４／００１１８２（ＷＯ，Ａ１）

【文献】特開２００５−２８３６９２（ＪＰ，Ａ）

【文献】特表２００５−５３０２０５（ＪＰ，Ａ）

【文献】 Tom Backstrom，"Vandermonde factorization of Toeplitz matrices and applications in filtering and warping,"，IEEE Transactions on Signal Processing.,，米国，IEEE，２０１３年１２月１５日，vol. 61, no. 24,，pp.6257-6263

【文献】守谷健弘，１０．３励振ベクトルの探索の改善１０．３．１相関，周波数領域の探索，音声符号化，日本，社団法人電子情報通信学会，１９９８年１０月２０日，初版，pp.96-99

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−１９／２６

(57)【特許請求の範囲】

【請求項1】

オーディオ信号（ＡＳ）をデータストリーム（ＤＳ）に符号化するためのエンコーダ（１０）であって、
前記オーディオ信号（ＡＳ）のスペクトル包絡線又は前記オーディオ信号（ＡＳ）の基本周波数を記述する予測係数（ＬＰＣ）を得るために前記オーディオ信号（ＡＳ）を分析し、かつ前記オーディオ信号（ＡＳ）の残余信号（ｘ）を出力するために前記予測係数（ＬＰＣ）に依存して前記オーディオ信号（ＡＳ）を分析フィルタ関数（Ｈ）にかけるように構成された線形予測子（１２）と、
因数分解された行列（Ｖ、Ｄ）を得るために、前記予測係数（ＬＰＣ）により定義される合成フィルタ関数（Ｈ）の自己相関又は共分散行列（Ｒ、Ｃ）上へ行列因数分解を適用するように構成されたファクトライザ（１４）と、
変換された残余信号（ｙ）を得るために、前記残余信号（ｘ）を、前記因数分解された行列（Ｖ、Ｄ）を基礎として変換するように構成されたトランスフォーマ（１６）と、
量子化された変換残余信号

を得るために、前記変換された残余信号（ｙ）を量子化するように構成されているとともに、符号化された量子化変換残余信号

を得るために、前記予測係数（ＬＰＣ）のための入力を有し、前記予測係数（ＬＰＣ）に基づく確率を検出しながら前記量子化変換残余信号

をエントロピー符号化するように構成されている量子化及び符号化ステージ（１８）と、を備えているエンコーダ（１０）。

【請求項2】

前記合成フィルタ関数（Ｈ）は、前記合成フィルタ関数（Ｈ）の重み付け値を有する行列（Ｈ）によって定義される請求項１に記載のエンコーダ（１０）。

【請求項3】

前記ファクトライザ（１４）は、前記自己相関又は共分散行列（Ｒ、Ｃ）を、変換共役バージョンの前記合成フィルタ関数（Ｈ^＊）と正規バージョンの前記合成フィルタ関数（Ｈ）との積を基礎として計算する、請求項１又は２に記載のエンコーダ（１０）。

【請求項4】

前記ファクトライザ（１４）は、前記自己相関又は共分散行列（Ｒ、Ｃ）を、公式Ｃ＝Ｖ^＊ＤＶを基礎として、又は公式Ｒ＝Ｖ^＊ＤＶを基礎として因数分解し、
Ｖはバンデルモンド行列であり、Ｖ^＊は変換共役バージョンの前記バンデルモンド行列であり、Ｄは狭義正の成分を有する対角行列である請求項１から３のいずれか一項に記載のエンコーダ（１０）。

【請求項5】

前記ファクトライザ（１４）は、バンデルモンド因数分解を実行するように構成されている請求項４に記載のエンコーダ（１０）。

【請求項6】

前記ファクトライザ（１４）は、固有値分解及び／又はコレスキー因数分解を実行するように構成されている請求項１から５のいずれか一項に記載のエンコーダ（１０）。

【請求項7】

前記トランスフォーマ（１６）は、前記残余信号（ｘ）を、公式ｙ＝Ｄ^１／２Ｖｘを基礎として、又は公式ｙ＝ＤＶｘを基礎として変換する請求項４又は５に記載のエンコーダ（１０）。

【請求項8】

量子化及び符号化ステージ（１８）は、前記量子化された変換残余信号

を求めるために、目的関数

を基礎として前記変換残余信号（ｙ）を量子化する請求項１から７のいずれか一項に記載のエンコーダ（１０）。

【請求項9】

前記量子化及び符号化ステージ（１８）は、ノイズ注入を適用して、前記オーディオ信号（ＡＳ）、前記残余信号（ｘ）又は前記変換残余信号（ｙ）のノイズ注入されたスペクトル表現を提供することにより、及び／又は、デッドゾーンに関する、又は他の量子化パラメータに関する前記量子化変換残余信号

を最適化することにより、前記量子化を最適化するための手段を含む請求項１から８のいずれか一項に記載のエンコーダ（１０）。

【請求項10】

前記残余信号（ｘ）の前記変換は、前記残余信号（ｘ）の時間領域から前記変換残余信号（ｙ）の周波数様領域への変換である請求項１から９のいずれか一項に記載のエンコーダ（１０）。

【請求項11】

前記量子化及び符号化ステージは、符号化された量子化変換残余信号

を得るために、前記量子化変換残余信号

を符号化するように構成されるコーダを備えている請求項１から１０のいずれか一項に記載のエンコーダ（１０）。

【請求項12】

前記コーダにより実行される前記符号化は、算術コーディングを含むグループから実行される請求項１１に記載のエンコーダ（１０）。

【請求項13】

前記エンコーダ（１０）は、前記量子化変換残余信号

及び前記予測係数（ＬＰＣ）を、前記エンコーダ（１０）により出力されるべき前記データストリーム（ＤＳ）にパケット化するように構成されるパッカをさらに備えている請求項１１又は１２に記載のエンコーダ（１０）。

【請求項14】

前記予測子（１２）は、線形予測子及び／又は長期予測子を含む請求項１から１３のいずれか一項に記載のエンコーダ（１０）。

【請求項15】

オーディオ信号（ＡＳ）をデータストリーム（ＤＳ）に符号化するための方法（１００）であって、
前記オーディオ信号（ＡＳ）の前記スペクトル包絡線又は前記オーディオ信号（ＡＳ）の基本周波数を記述する予測係数（ＬＰＣ）を得るために前記オーディオ信号（ＡＳ）を分析し、かつ前記オーディオ信号（ＡＳ）の残余信号（ｘ）を出力するために前記予測係数（ＬＰＣ）に依存して前記オーディオ信号（ＡＳ）を分析フィルタ関数（Ｈ）にかけるステップ（１２０）と、
因数分解された行列（Ｖ、Ｄ）を得るために、前記予測係数（ＬＰＣ）により定義される合成フィルタ関数（Ｈ）の自己相関又は共分散行列（Ｒ、Ｃ）上へ行列因数分解を適用するステップ（１４０）と、
変換された残余信号（ｙ）を得るために、前記残余信号（ｘ）を、前記因数分解された行列（Ｖ、Ｄ）を基礎として変換するステップ（１６０）と、
量子化された変換残余信号

を得るために、前記変換された残余信号（ｙ）を量子化しかつ符号化するとともに、符号化された量子化変換残余信号

を得るために、前記予測係数（ＬＰＣ）に基づく確率を検出しながら前記予測信号を用いて前記量子化変換残余信号をエントロピー符号化するステップ（１８０）と、を含む方法（１００）。

【請求項16】

離散フーリエ変換、離散コサイン変換、修正離散コサイン変換又は信号処理アルゴリズムにおける別の変換に代える請求項１５に記載の方法（１００）の使用。

【請求項17】

データストリーム（ＤＳ）をオーディオ信号（ＡＳ’）に復号するためのデコーダ（２０）であって、
前記オーディオ信号（ＡＳ）のスペクトル包絡線又は前記オーディオ信号（ＡＳ）の基本周波数を記述する予測係数（ＬＰＣ）に基づく確率を検出しながら、エントロピー復号化を用いて、入ってきた符号化された量子化変換残余信号

を基礎として、変換残余信号（ｙ）を出力するように構成された復号ステージ（２２）と、
前記予測係数（ＬＰＣ）により定義される合成フィルタ関数（Ｈ）の自己相関又は共分散行列（Ｒ、Ｃ）の行列因数分解の結果を表す因数分解された行列（Ｖ、Ｄ）を基礎として、前記変換残余信号（ｙ）から残余信号（ｘ）を再変換するように構成された再トランスフォーマ（２６）と、
前記オーディオ信号（ＡＳ’）を、前記残余信号（ｘ）を基礎とし、前記予測係数（ＬＰＣ）により定義される前記合成フィルタ関数（Ｈ）を用いて合成するように構成された合成ステージ（２８）と、を備えているデコーダ（２０）。

【請求項18】

前記デコーダ（２０）は、因数分解された行列（Ｖ、Ｄ）を得るために、入ってきた（inbound）予測係数（ＬＰＣ）により定義される前記合成フィルタ関数（Ｈ）の前記自己相関又は共分散行列（Ｒ、Ｃ）上に前記行列因数分解を適用するように構成されているファクトライザ（２４）を備えている請求項１７に記載のデコーダ（２０）。

【請求項19】

前記デコーダ（２０）は、入ってきた因数分解された行列（Ｖ、Ｄ）を基礎として、前記予測係数（ＬＰＣ）を逸脱させる（deviate）ように構成される予測係数生成器を備えている請求項１７に記載のデコーダ（２０）。

【請求項20】

前記復号ステージ（２２）は、入ってきたコーディング規則及び／又はコーディングパラメータから逸脱される既知の規則及び／又は符号化パラメータを基礎として、前記復号を実行する請求項１７から１９のいずれか一項に記載のデコーダ（２０）。

【請求項21】

データストリーム（ＤＳ）をオーディオ信号（ＡＳ’）に復号するための方法（２００）であって、
前記オーディオ信号（ＡＳ）のスペクトル包絡線又は前記オーディオ信号（ＡＳ）の基本周波数を記述する予測係数（ＬＰＣ）に基づく確率を検出しながら、エントロピー復号化を用いて、入ってきた符号化された量子化変換残余信号

を基礎として、変換残余信号（ｙ）を出力するステップ（２２０）と、
予測係数（ＬＰＣ）により定義される合成フィルタ関数（Ｈ）の自己相関又は共分散行列（Ｒ、Ｃ）上に行列因数分解を適用するとともに、因数分解された行列（Ｖ、Ｄ）を得るために、前記オーディオ信号（ＡＳ）のスペクトル包絡線又は前記オーディオ信号（ＡＳ）の基本周波数を記述するステップ（２４０）と、
前記因数分解された行列（Ｖ、Ｄ）を基礎として、前記再変換された残余信号（ｙ）から残余信号（ｘ）を再変換するステップ（２６０）と、
前記オーディオ信号（ＡＳ’）を、前記残余信号（ｘ）を基礎とし、前記予測係数（ＬＰＣ）により定義される前記合成フィルタ関数（Ｈ）を用いて合成するステップ（２８０）と、を含む方法（２００）。

【請求項22】

コンピュータ上で実行されると、請求項１５に記載の方法（１００、２００）又は請求項２１に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムを格納しているコンピュータ読取り可能デジタル記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、オーディオ信号を符号化してデータストリームを得るためのエンコーダと、データストリームを復号してオーディオ信号を得るためのデコーダとに関する。さらなる実施形態は、対応する、オーディオ信号を符号化するためと、データストリームを復号するための方法に関する。さらなる実施形態は、符号化及び／又は復号するための方法ステップを実行するコンピュータプログラムに関する。

【背景技術】

【0002】

符号化されるべきオーディオ信号は、例えば、音声信号であってもよく、即ち、エンコーダは、音声エンコーダに相当し、デコーダは、音声デコーダに相当する。音声符号化において最も頻繁に使用されるパラダイムは、代数符号励振線形予測（ＡＣＥＬＰ）であり、ＡＭＲ−ファミリ、Ｇ．７１８及びＭＰＥＧＵＳＡＣ等の規格に使用されている。これは、スペクトル包絡線をモデリングするための線形予測子（ＬＰ）、基本周波数をモデリングするための長時間予測子（ＬＴＰ）及び残余のための代数コードブックより成る、ソースモデルを用いる音声モデリングを基礎とする。コードブックのパラメータは、知覚加重合成領域において最適化される。知覚モデルは、フィルタを基礎とし、よって、残余から加重出力へのマッピングは、線形予測子と加重フィルタとの組合せによって記述される。

【0003】

ＡＣＥＬＰコーデックにおける計算複雑性の最大部分は、残余の量子化器に対して行われる、代数コードブックエントリの選定に対して費やされる。残余領域から加重合成領域へのマッピングは、事実上、サイズＮｘＮの行列による乗算である。ここで、Ｎはベクトルの長さである。このマッピングに起因して、加重出力ＳＮＲ（信号対雑音比）に関連して、残余サンプルが相関され、独立的な量子化はされ得ない。よって、最良エントリを決定するためには、潜在的なコードブックベクトルを悉く、加重合成領域において明示的に評価しなければならないことになる。この手法は、合成による分析アルゴリズムとして知られる。しかしながら、最適なパフォーマンスは、コードブックの総当たり探索によってのみ可能である。コードブックのサイズはビットレートに依存するが、ビットレートＢを所与とすると、全体複雑性Ｏ（２^BＮ²）に関しては、評価すべき２^B個のエントリが存在し、Ｂが１１以上である場合、これが非現実的であることは明らかである。したがって、実際には、コーデックは、複雑性と品質とを均衡させる非最適な量子化を使用する。精度を代償に複雑性を制限する、最良な量子化を求めるためのこれらの反復的なアルゴリズムは、幾つか提示されている。よって、この制限を克服するための新規手法が必要とされている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】[1] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jaervinen, "The adaptive multirate wideband speech codec (AMR-WB)," Speech and Audio Processing, IEEE Transactions on, vol. 10, no. 8, pp. 620-636, 2002.

【非特許文献2】[2] ITU-T G.718, "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s," 2008.

【非特許文献3】[3] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unied speech and audio coding scheme forhigh quality at low bitrates," in Acoustics, Speech and Signal Processing. ICASSP 2009. IEEE Int Conf, 2009, pp. 1-4.

【非特許文献4】[4] J.-P. Adoul, P. Mabilleau, M. Delprat, and S. Morissette, "Fast CELP coding based on algebraic codes," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP''87., vol. 12. IEEE, 1987, pp. 1957-1960.

【非特許文献5】[5] C. Laamme, J. Adoul, H. Su, and S. Morissette, "On reducing computational complexity of codebook search in CELP coder through the use of algebraic codes," in Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on. IEEE, 1990, pp. 177-180.

【非特許文献6】[6] F.-K. Chen and J.-F. Yang, "Maximum-take-precedence ACELP: a low complexity search method," in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP'01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 693-696.

【非特許文献7】[7] K. J. Byun, H. B. Jung, M. Hahn, and K. S. Kim, "A fast ACELP codebook search method," in Signal Processing, 2002 6th International Conference on, vol. 1. IEEE, 2002, pp. 422-425. [8] N. K. Ha, "A fast search method of algebraic codebook by reordering search sequence," in Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International Conference on, vol. 1. IEEE, 1999, pp. 21-24.

【非特許文献8】[9] M. A. Ramirez and M. Gerken, "Efficient algebraic multipulse search," in Telecommunications Symposium, 1998. ITS'98 Proceedings. SBT/IEEE International. IEEE, 1998, pp. 231-236.

【非特許文献9】[10] T. Baeckstroem, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Interspeech 2013, August 2013.

【非特許文献10】[11] ・"Vandermonde factorization of Toeplitz matrices and applications in filtering and warping," IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, 2013.

【非特許文献11】[12] G. H. Golub and C. F. van Loan, Matrix Computations, 3rd ed. John Hopkins University Press, 1996.

【非特許文献12】[13] T. Baeckstroem, J. Fischer, and D. Boley, "Implementation and evaluation of the Vandermonde transform," in submitted to EUSIPCO 2014 (22nd European Signal Processing Conference 2014) (EUSIPCO 2014), Lisbon, Portugal, Sep. 2014.

【非特許文献13】[14] T. Baeckstroem, G. Fuchs, M. Multrus, and M. Dietz, "Linear prediction based audio coding using improved probability distribution estimation," US Provisional Patent US 61/665 485, 6, 2013.

【非特許文献14】[15] K. Hermus, P. Wambacq et al., "A review of signal subspace speech enhancement and its application to noise robust speech recognition," EURASIP Journal on Applied Signal Processing, vol. 2007, no. 1, pp. 195-195, 2007.

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明の目的は、上述の欠点を回避しつつ、オーディオ信号を符号化しかつ復号するためのコンセプトを提供することにある。

【課題を解決するための手段】

【0006】

この目的は、独立請求項によって解決される。

【0007】

第１の実施形態は、オーディオ信号を符号化してデータストリームにするためのエンコーダを提供する。本エンコーダは、（線形又は長期）予測子と、ファクトライザと、トランスフォーマと、量子化符号化ステージとを備える。予測子は、オーディオ信号のスペクトル包絡線又はオーディオ信号の基本周波数を記述する（線形又は長期）予測係数を得るためにオーディオ信号を分析し、かつオーディオ信号の残余信号を出力するために予測係数に依存してオーディオ信号を分析フィルタ関数にかけるように構成されている。ファクトライザは、因数分解された行列を得るために、予測係数により定義される合成フィルタ関数の自己相関又は共分散行列上に行列因数分解を適用するように構成されている。トランスフォーマは、変換された残余信号を得るために、因数分解された行列を基礎として残余信号を変換するように構成されている。量子化及び符号化ステージは、量子化された変換残余信号又は符号化された量子化変換残余信号を得るために、変換残余信号を量子化するように構成されている。

【0008】

別の実施形態は、データストリームをオーディオ信号に復号するためのデコーダを提供する。本デコーダは、復号ステージと、再トランスフォーマと、合成ステージとを含む。復号ステージは、着信する量子化変換残余信号を基礎として、又は入ってくる符号化された量子化変換残余信号を基礎として、変換残余信号を出力するように構成されている。再トランスフォーマは、因数分解された行列を得るために、オーディオ信号のスペクトル包絡線又はオーディオ信号の基本周波数を記述する予測係数により定義される合成フィルタ関数の自己相関又は共分散行列の行列因数分解から結果的に生じる因数分解された行列を基礎として、変換残余信号から残余信号を再変換するように構成されている。合成ステージは、オーディオ信号を、残余信号を基礎とし、予測係数により定義される合成フィルタ関数を用いて合成するように構成されている。

【0009】

これらの２つの実施形態から分かるように、符号化及び復号は、本コンセプトをＡＣＥＬＰに比肩し得るものにする２段階プロセスである。第１のステップは、スペクトル包絡線又は基本周波数に対する合成の量子化を可能にし、第２のステージは、励振信号とも称されかつオーディオ信号のスペクトル包絡線又は基本周波数を有する信号をフィルタリングした後の信号を表す残余信号の（直接）量子化又は合成を可能にする。また、ＡＣＥＬＰと同様に、残余信号又は励振信号の量子化は、最適化問題に対応するが、本明細書に開示する教示による最適化問題の目的関数は、実質的に、ＡＣＥＬＰとは異なる。詳述すれば、本発明による教示は、行列因数分解を用いて最適化問題の目的関数を脱相関し、これにより、高価な反復計算を回避することができ、かつ最適なパフォーマンスが保証される、という原理を基礎とする。記載している実施形態の１つの中心的なステップである行列因数分解は、エンコーダの実施形態に包含され、かつ好ましくは、デコーダの実施形態にも包含されてもよいが、この限りではない。

【0010】

行列因数分解は、異なる技術、例えば固有値分解、バンデルモンド因数分解又は他の任意の因数分解を基礎とするものであってもよく、選ばれる技術ごとに、因数分解の対象は、符号化又は復号の第１のステージ（線形予測子又は長期予測子）において第１のオーディオにより検出される（線形又は長期）予測係数によって定義される行列、例えば自己相関又は共分散行列である。

【0011】

別の実施形態によれば、ファクトライザは、行列を用いて記憶される予測係数を含む合成フィルタ関数を因数分解し、又は、加重バージョンの合成フィルタ関数行列を因数分解する。例えば、因数分解は、バンデルモンド行列Ｖ、対角行列Ｄ及び変換結合バージョンのバンデルモンド行列Ｖ^*を用いて実行されてもよい。バンデルモンド行列は、公式Ｒ＝Ｖ^*ＤＶ、又はＣ＝Ｖ^*ＤＶを用いて因数分解されてもよく、自己相関行列Ｒ又は共分散行列Ｃは、変換結合バージョンの合成フィルタ関数行列Ｈ^*及び正規バージョンの合成関数行列Ｈ、即ちＲ＝Ｈ^*Ｈ又はＣ＝Ｈ^*Ｈ、によって定義される。

【0012】

さらなる実施形態によれば、トランスフォーマは、先に決定された対角行列Ｄ及び先に決定されたバンデルモンド行列Ｖから開始して、残余信号ｘを公式ｙ＝Ｄ^1/2Ｖｘ、又は公式ｙ＝ＤＶｘを用いて変換残余信号ｙに変換する。

【0013】

さらなる実施形態によれば、量子化及び符号化ステージは、これで、変換残余信号ｙを量子化して量子化変換残余信号

を得ることができる。この変換は、先に論じたように、最適化問題であり、目的関数

が使用される。この場合は、この目的関数が、ＡＣＥＬＰエンコーダ内で使用される目的関数等の、異なる符号化方法又は復号方法に使用される目的関数と比較すると複雑性がより低減されることが効果的である。

【0014】

ある実施形態によれば、デコーダは、エンコーダから因数分解された行列を、例えばデータストリームと共に受信し、又は、別の実施形態によれば、デコーダは、行列因数分解を実行する随意選択のファクトライザを備えている。ある好適な実施形態によれば、デコーダは、因数分解された行列を直接受信し、かつこれらの因数分解された行列から、行列の起源が予測係数にあることに起因して（エンコーダ参照）、予測係数を逸脱させる。この実施形態によりデコーダの複雑性をさらに低減することができる。

【0015】

さらなる実施形態は、オーディオ信号をデータストリームに符号化するためと、データストリームをオーディオ信号へ復号するための対応方法を提供する。ある追加的な実施形態によれば、符号化方法並びに復号方法は、コンピュータのＣＰＵ等のプロセッサによって実行されてもよく、又は少なくとも部分的に実行されてもよい。

【図面の簡単な説明】

【0016】

【図1a】図１ａは、第１の実施形態による、オーディオ信号を符号化するためのエンコーダを示す略ブロック図である。

【図1b】図１ｂは、第１の実施形態による、オーディオ信号を符号化するための対応する方法を示す略フローチャートである。

【図2a】図２ａは、第２の実施形態による、データストリームを復号するためのデコーダを示す略ブロック図である。

【図2b】図２ｂは、第２の実施形態による、データストリームを復号するための対応する方法を示す略フローチャートである。

【図3a】図３ａは、異なる量子化方法に関する、信号対雑音比の知覚的平均を１フレームあたりのビット数の関数として示す略図である。

【図3b】図３ｂは、異なる量子化方法の正規化された実行時間を１フレームあたりのビット数の関数として示す略図である。

【図3c】図３ｃは、バンデルモンド変換の特性を示す略図である。

【発明を実施するための形態】

【0017】

以下、添付の図面を参照して、本発明の実施形態について論じる。

【0018】

続いて以下、添付の図面を参照して、本発明の実施形態について論じる。本明細書では、説明が交換可能であるように、又は相互に適用できるように、同じ機能又は類似する機能を有するオブジェクトには同じ参照数字を当てている。

【0019】

図１ａは基本構造のエンコーダ１０を示す。エンコーダ１０は、ここでは線形予測子１２として実装される予測子１２と、ファクトライザ１４と、トランスフォーマ１６と、量子化及び符号化ステージ１８とを備えている。

【0020】

線形予測子１２は、オーディオ信号ＡＳを、好ましくはパルスコード変調信号（ＰＣＭ）等のデジタルオーディオ信号を受信するために、入力に配置される。線形予測子１２は、ファクトライザ１４へ結合され、かつ所謂ＬＰＣ−チャネルＬＰＣを介してエンコーダの出力、参照数字ＤＳ_LPC／ＤＳ_DV参照、へ結合される。さらに、線形予測子１２は、所謂残余チャネルを介してトランスフォーマ１６へ結合される。逆に、トランスフォーマ１６は（残余チャネルに加えて）、その入力側でファクトライザ１４へ結合される。トランスフォーマの出力側は、量子化及び符号化ステージ１８へ結合され、量子化及び符号化ステージ１８は、出力（参照数字

参照）へ結合される。２つのデータストリームＤＳ_LPC／ＤＳ_DV及び

は、出力されるべきデータストリームＤＳを形成する。

【0021】

以下、符号化方法１００を記述する図１ｂをさらに参照して、エンコーダ１０の機能について論じる。図１ｂから分かるように、オーディオ信号ＡＳをデータストリームＤＳに符号化するための基本的な方法１００は、ユニット１２、１４、１６及び１８によって実行される４つの基本ステップ１２０、１４０、１６０及び１８０を含む。第１のステップ１２０において、線形予測子１２は、オーディオ信号ＡＳを分析して線形予測係数ＬＰＣを得る。線形予測係数ＬＰＣは、後に所謂合成フィルタ関数Ｈを用いてオーディオ信号を基本的に合成できるようにする、オーディオ信号ＡＳのスペクトル包絡線を記述する。合成フィルタ関数Ｈは、ＬＰＣ係数により定義される合成フィルタ関数の重み付け値を備えてもよい。線形予測係数ＬＰＣは、ＬＰＣ−チャネルＬＰＣを用いてファクトライザ１４へ出力され、並びにエンコーダ１０の出力へ送られる。線形予測子１２は、さらに、オーディオ信号ＡＳを、線形予測係数ＬＰＣにより定義される分析フィルタ関数Ｈにかける。このプロセスは、デコーダにより実行されるＬＰＣ係数を基礎とするオーディオ信号の合成に対応するものである。このサブステップの結果、残余信号ｘは、フィルタ関数Ｈによって説明できる信号部分なしでトランスフォーマ１６へ出力される。このステップは、フレーム関連で実行されること、即ち、振幅及び時間領域を有するオーディオ信号ＡＳは、例えば長さ５ｍｓを有する時間窓（サンプル）に分割又はサンプリングされ、かつ周波数領域において量子化されることに留意されたい。

【0022】

これに続くステップは、トランスフォーマ１６により実行される残余信号ｘの変換（方法ステップ１６０参照）である。トランスフォーマ１６は、残余信号ｘを変換して、量子化及び符号化ステージ１８へ出力される変換残差信号ｙを得るように構成されている。例えば、変換１６０は、公式ｙ＝Ｄ^1/2Ｖｘ、又はｙ＝ＤＶｘを基礎としてもよい。ここで、行列Ｄ及びＶは、ファクトライザ１４によって提供される。したがって、残余信号ｘの変換は、少なくとも２つの因数分解された行列、即ち例示的にバンデルモンド行列と称するＶと、例示的に対角行列と称するＤとを基礎とする。

【0023】

適用される行列因数分解は、例えば、固有分解、バンデルモンド因数分解、コレスキー分解又はこれらに類似するものとして自由に選択することができる。バンデルモンド因数分解は、自己相関行列等の対称正定値トプリッツ行列の、バンデルモンド行列Ｖ及びＶ^*の積への因数分解として使用されてもよい。目的関数における自己相関行列の場合、これは、典型的にはバンデルモンド変換と呼ばれるワープ離散フーリエ変換に対応する。ファクトライザ１４によって実行されかつ本発明の基本的な部分を表すこの行列因数分解ステップ１４０については、量子化及び符号化ステージ１８の機能を論じた後に詳述する。

【0024】

量子化及び符号化ステージ１８は、トランスフォーマ１６から受信される変換残余信号ｙを量子化して、量子化された変換残余信号

を得るように構成されている。この量子化された変換残余信号

は、データストリームの一部

として出力される。データストリームＤＳ全体は、ＤＳ_LPC／ＤＳ_DVと称するＬＰＣ部分、及び

と称する

部分を備えていることに留意されたい。

【0025】

変換残余信号ｙの量子化は、例えば、目的関数を用いて、例えば

に関して実行されてもよい。この目的関数は、ＡＣＥＬＰエンコーダの典型的な目的関数と比較すると複雑性が低減されており、その結果、符号化のパフォーマンスが効果的に向上する。このパフォーマンスの向上は、より高い分解能を有するオーディオ信号ＡＳを符号化するために、又は必要なリソースを減らすために使用することができる。

【0026】

信号

は、符号化された信号であってもよく、符号化は、量子化及び符号化ステージ１８によって実行されることは留意されるべきである。したがって、さらなる実施形態によれば、量子化及び符号化ステージ１８は、算術符号化するように構成され得るエンコーダを備えていてもよい。量子化及び符号化ステージ１８のエンコーダは、線形量子化ステップ（即ち、等距離）を用いても、対数等の可変量子化ステップを用いてもよい。あるいは、エンコーダは、別の（ロスレス）エントロピー符号化を実行するように構成されてもよく、コード長さは、特異入力信号ＡＳの確率の関数として変化する。したがって、最適なコード長さを得るためには、入力信号の確率を、合成包絡線を基礎として、延てはＬＰＣ係数を基礎として検出することが１つの代替オプションであり得る。したがって、量子化符号化ステージは、ＬＰＣチャネル用の入力も有してもよい。

【0027】

以下、目的関数

の複雑性低減を可能にする背景について論じる。先に述べたように、向上した符号化は、ファクトライザ１４によって実行される行列因数分解のステップ１４０を基礎とする。ファクトライザ１４は、行列、例えば線形予測係数ＬＰＣ（ＬＰＣチャネル参照）により定義されるフィルタ合成関数Ｈの自己相関行列Ｒ又は共分散行列Ｃ、を因数分解する。この因数分解の結果、２つの因数分解された行列、例えば、特異ＬＰＣ係数を含む原行列Ｈを表すバンデルモンド行列Ｖ及び対角行列Ｄが得られる。これに起因して、残余信号ｘのサンプルが脱相関される。よって、変換残余信号の直接量子化（ステップ１８０参照）が最適な量子化であって、これにより、計算複雑性は、ビットレートとはほぼ無関係ということになる。これに比較すると、ＡＣＥＬＰコードブックを最適化する従来手法は、計算複雑性と、特に高いビットレートにおける精度とを均衡させなければならない。したがって、背景に関しては、実際には、従来のＡＣＥＬＰ手順から論じていく。

【0028】

ＡＣＥＬＰの従来の目的関数は、共分散行列の形式をとる。向上した手法の場合、重み付け合成関数の自己相関行列を使用する代替的な目的関数が存在する。ＡＣＥＬＰを基礎とするコーデックは、知覚加重合成領域における信号対雑音比（ＳＮＲ）を最適化している。目的関数は、次式のように表すことができる。

ここで、ｘは、標的残余であり、

は、量子化された残余であり、Ｈは、重み付け合成フィルタに対応するコンボリューション行列であり、かつγは、スケール利得係数である。最適な量子化

を求めるために、標準的な手法は、η（ｘ，ｙ）の導関数のゼロにおける、γ^*で示されるγの最適値を求める。方程式（１）に、最適なγ^*を代入すると、次式のような新たな目的関数が得られる。

ここで、Ｈ^*は、関数Ｈによる合成の、変換された共役バージョンである。

【0029】

従来手法のＨは、正方下三角畳み込み行列であり、よって、共分散行列Ｃ＝Ｈ^*Ｈは、対称共分散行列であることに留意されたい。下三角行列の、フルサイズの畳み込み行列による置換、よって、自己相関行列Ｒ＝Ｈ^*Ｈが対称テプリッツ行列であること、は、重み付け合成フィルタの他の相関に対応する。この置換により、品質に対する最小限の影響で、複雑性が大幅に低減される。

【0030】

線形予測子１４は、行列因数分解に共分散行列Ｃ又は自己相関行列Ｒのいずれを用いてもよい。以下の論考は、ＬＰＣ係数に依存する行列の因数分解により目的関数を修正するために自己相関Ｒが使用される、という仮定に基づいて行う。Ｒ等の対称正定値トプリッツ行列は、固有値分解を含む幾つかの方法を介して次式のように分解することができる。
Ｒ＝Ｖ^*ＤＶ（３）
ここで、Ｖ^*は、変換共役バージョンのバンデルモンド行列Ｖである。共分散行列Ｃを用いる従来手法では、特異値分解Ｃ＝ＵＳＶ等の他の因数分解を適用することができる。

【0031】

自己相関行列に対しては、同じく方程式（３）の形式である、本明細書においてバンデルモンド因数分解と称する代替因数分解が使用されてもよい。バンデルモンド因数分解は、因数分解／変換を可能にする新規概念である。バンデルモンド行列は、値｜Ｖ_k｜＝１を有するＶを有し、かつ、

であり、Ｄは、狭義正の成分を有する対角行列である。分解は、複雑性がＯ（Ｎ³）である任意の精度で計算することができる。直接分解は、典型的には、

の計算複雑性を有するが、ここでは、これを

まで減らすことができ、あるいは、近似因数分解で足りる場合、複雑性をＯ（ＮｌｏｇＮ）まで減らすことができる。選択される分解に関しては、
ｙ＝Ｄ^1/2Ｖｘ及び

のように定義してもよい。ここで、ｘ＝Ｖ^-1Ｄ^-1/2_yであり、式（２）への代入によって次式を得ることができる。

【0032】

この場合、ｙのサンプルは、互いに相関せず、また上述の目的関数は、標的残余と量子化された残余との正規化相関であるに過ぎないことに留意されたい。よって、ｙのサンプルは、独立した量子化が可能であり、全てのサンプルの精度が等しければ、この量子化が、考えられる最良の精度を生み出すことになる。

【0033】

バンデルモンド因数分解の場合、Ｖの値が｜Ｖ_k｜＝１であることから、これは、ワープ離散フーリエ変換に対応し、ｙの要素は残余の周波数成分に対応する。さらに、対角行列Ｄによる乗算は周波数帯域のスケーリングに対応し、よって、ｙは、残余の周波数領域表現であることになる。

【0034】

一方で、固有分解は、固有分解とフーリエ変換とが一致して窓長さが無限大に近づくときにのみ、物理的解釈を有する。したがって、有限長さの固有分解は、信号の周波数表現に緩く関連づけられるが、成分を周波数にラベリングすることは、困難である。それでもなお、固有分解は、最適な基礎であることが知られ、よって、事例によっては、最適パフォーマンスを与えることができる。

【0035】

これらの２つの因数分解された行列Ｖ及びＤから開始して、トランスフォーマ１６は、残余信号ｘが方程式（５）により定義される脱相関ベクトルを用いて変換されるように、変換１６０を実行する。

【0036】

ｘが無相関の白色雑音であるとすれば、Ｖｘのサンプルも等しいエネルギー期待値を有する。その結果、値を符号化するために算術エンコーダ、又は代数コードブックを用いるエンコーダが使用されてもよい。しかしながら、Ｖｘの量子化は、対角行列Ｄ^1/2を除外することに起因して、目的関数にとって最適ではない。一方で、全変換ｙ＝Ｄ^1/2Ｖｘは、対角行列Ｄによるスケーリングを含み、これにより、ｙのサンプルのエネルギー期待値が変わる。分散が不均一な代数コードブックを作成することは自明ではない。したがって、代数コードブックを代わりに用いて最適なビット消費を達成することは、１つのオプションであり得る。次には、［１４］で明らかにされているように、算術コーディングを精確に定義することができる。

【0037】

バンデルモンド変換又は別の複素変換等の分解が使用されれば、実数部及び虚数部は、独立した確率変数であることに留意されたい。複素変数のバリアントがσ²であれば、実数部及び虚数部は、分散σ²／２を有する。固有値分解等の実数値分解は、実数値のみを提供し、よって、実数部及び虚数部の分離は不要である。複素数値変換を用いてパフォーマンスを高める場合、従来の複素数値の算術コーディング方法を適用することができる。

【0038】

上述の実施形態によれば、予測係数ＬＰＣ（ＤＳ_LPC参照）は、ＬＳＦ信号（線スペクトル周波数信号）として出力されるが、代替オプションとして、予測係数ＬＰＣを因数分解された行列Ｖ及びＤ（ＤＳ_DV参照）内で出力することがある。この代替オプションは、Ｖ、Ｄで記されている破線によって示されており、ＤＳ_DVがファクトライザ１４の出力から結果的に生じることが示されている。

【0039】

したがって、本発明の別の実施形態は、２つの因数分解された行列（ＤＳ_VD）の形式である予測係数ＬＰＣを備えるデータストリーム（ＤＳ）を参照している。

【0040】

図２に関連して、デコーダ２０及び対応する復号方法２００について論じる。

【0041】

図２ａは、復号ステージ２２と、任意のファクトライザ２４と、再トランスフォーマ２６と、合成ステージ２８と、を備えたデコーダ２０を示す。復号ステージ２２並びにファクトライザ２４は、デコーダ２０の入力に配置され、よって、データストリームＤＳを受信するように構成されている。詳述すれば、データストリームＤＳの第１の部分、即ち線形予測係数は、任意のファクトライザ２４へ提供され（ＤＳ_LPC／ＤＳ_DV参照）、第２の部分、即ち量子化変換残余信号

又は符号化された量子化変換残余信号

は、復号ステージ２２へ提供される（

参照）。合成ステージ２８は、デコーダ２０の出力に配置され、オーディオ信号ＡＳに類似するが全く同じではないオーディオ信号ＡＳ’を出力するように構成されている。

【0042】

オーディオ信号ＡＳ’の合成は、ＬＰＣ係数を基礎とし（ＤＳ_LPC／ＤＳ_DV参照）、かつ残余信号ｘを基礎とする。したがって、合成ステージ２８は、ＤＳ_LPC信号を受信するための入力へ、かつ残余信号ｘを提供する再トランスフォーマ２６へ結合される。再トランスフォーマ２６は、変換残余信号ｙを基礎とし、かつ少なくとも２つの因数分解された行列Ｖ及びＤを基礎として残余信号ｘを計算する。したがって、再トランスフォーマ２６は、少なくとも２つの入力、即ち、Ｖ及びＤを例えばファクトライザ２４から受信するための第１の入力、及び変換残余信号ｙを復号ステージから受信するための１つの入力、を有する。

【0043】

以下、図２ｂに示されている対応する方法２００を参照して、デコーダ２０の機能について詳述する。デコーダ２０は、（エンコーダから）データストリームＤＳを受信する。このデータストリームＤＳは、デコーダ２０がオーディオ信号ＡＳ’を合成できるようにするが、ＤＳ_LPC／ＤＳ_DVで参照されるデータストリーム部分は、基本信号の合成を可能にし、

で参照される部分は、オーディオ信号ＡＳ’の詳細部分の合成を可能にする。第１のステップ２２０において、復号ステージ２２は、入ってきた信号

を復号し、変換残余信号ｙを再トランスフォーマ２６（ステップ２６０参照）へ出力する。

【0044】

これに並行して又は連続して、ファクトライザ２４は、因数分解を実行する（ステップ２４０参照）。ステップ１４０に関連して論じたように、ファクトライザ２４は、合成フィルタ関数Ｈの自己相関行列Ｒ又は共分散行列Ｃに行列因数分解を適用する。即ち、デコーダ２０により使用される因数分解は、符号化の側面において述べた因数分解（方法１００参照）に類似又はほぼ類似し、よって、先に論じたように、固有値分解又はコレスキー因数分解であってもよい。ここで、合成フィルタ関数Ｈは、着信するデータストリームＤＳ_LPC／ＤＳ_DVから外される。さらに、ファクトライザ２４は、２つの因数分解された行列Ｖ及びＤを再トランスフォーマ２６へ出力する。

【0045】

２つの行列Ｖ及びＤを基礎として、再トランスフォーマ２６は、変換残余信号ｙから残余信号ｘを再変換し、ｘを合成ステージ２８（ステップ２８０参照）へ出力する。合成ステージ２８は、残余信号ｘを基礎とし、かつデータストリームＤＳ_LPC／ＤＳ_DVとして受信されるＬＰＣ係数ＬＰＣを基礎としてオーディオ信号ＡＳ’を合成する。エンコーダ１０が実行する量子化がロスレスではないことから、オーディオ信号ＡＳ’は、オーディオ信号ＡＳに類似するものであるが、全く同じではない点に留意すべきである。

【0046】

別の実施形態によれば、因数分解された行列Ｖ及びＤは、再トランスフォーマ２６へ別のエンティティから、例えば、エンコーダ１０から直に（データストリームの一部として）提供されてもよい。したがって、デコーダ２０のファクトライザ２４並びに行列因数分解ステップ２４０は任意のエンティティ／ステップであり、よって、破線で示されている。ここでは、入ってくる因数分解された行列Ｖ及びＤから（合成２８０を実行する基礎となる）予測係数ＬＰＣを導出し得ることを代替オプションとすることができる。言い替えれば、これは、データストリームＤＳが

とＤＳ_LPCではなく、

と行列Ｖ及びＤ（即ち、ＤＳ_DV）を備えていることを意味する。

【0047】

以下、図３ａ及び図３ｂに関連して、上述の符号化（並びに復号）のパフォーマンス向上について論じる。

【0048】

図３ａは、知覚的信号対雑音比平均を、受信可能な長さでありかつ等しい６４フレームを符号化するために使用されるビット数の関数として示す線図である。線図には、５つの異なる量子化手法に関する５つの曲線が示されているが、そのうちの２つの手法、即ち最適量子化及びペアワイズな反復量子化、は、従来手法である。公式（１）は、この比較の基礎を成す。提案する脱相関方法の量子化パフォーマンスと、残余信号の従来の時間領域表現との比較として、ＡＣＥＬＰコーデックを次のように実装した。入力信号を１２．８ｋＨｚにリサンプルし、各フレームでセンタリングされた長さ３２ｍｓのハミング窓によって線形予測子を推定した。次に、ＡＭＲ−ＷＢコーデックのサブフレームに対応する長さ５ｍｓのフレームについて、予測残余を計算した。網羅探索により、３２サンプルと１５０サンプルとの間の整数ラグにおいて、長期予測子を最適化した。最適値を用いて、量子化を行うことなくＬＴＰを得た。

【0049】

入力信号へ、かつＡＭＲ−ＷＢの場合と同様に合成において、フィルタ（１−０．６８ｚ^-1）によるプリエンファシスを適用した。適用した知覚加重は、Ａ（０．９２ｚ^-1）であった。ただし、Ａ（ｚ）は、線形予測フィルタである。

【0050】

パフォーマンスを評価するためには、提案する量子化と従来手法（最適量子化及びペアワイズな反復量子化）とを比較する必要がある。最も頻繁に使用される手法は、長さ６４フレームより成るフレームの残余信号をインタレースされた４トラックに分割する。この手法を、２つの方法、即ち、網羅探索において全ての組合せを試行する最適量子化（Ｏｐｔ参照）手法、又は、可能性のあるあらゆるポジションにおいて２パルスの連続加算を試行するペアワイズな反復量子化（Ｐａｉｒ参照）、によって適用した。

【0051】

前者は、１フレームあたりのビット数１５を超えるビットレートで計算が実行不可能なほど複雑になり、後者は、部分最適となる。後者は、ＡＭＲ−ＷＢ等のコーデックに適用される最新技術方法より複雑でもあるが、それ故に、おそらくはより優れた信号対雑音比をも生み出すことに留意されたい。これらの従来方法を、上述の量子化アルゴリズムと比較する。

【0052】

バンデルモンド量子化（Ｖａｎｄ参照）は、残余ベクトルｘをｙ＝Ｄ^1/2Ｖｘによって変換する。ここで、行列Ｖ及びＤは、バンデルモンド因数分解から得られ、量子化には、算術コーダを用いる。固有値の量子化（Ｅｉｇ参照）は、バンデルモンド量子化に類似するものであるが、行列Ｖ及びＤは、固有値分解によって求める。さらに、ＦＦＴ量子化（ＦＦＴ参照）が適用されてもよく、即ち、さらなる実施形態によれば、ｙ＝Ｄ^1/2Ｖｘの変換におけるフィルタを用いるウィンドウイングの組合せを、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、修正離散コサイン変換（ＭＤＣＴ）又は信号処理アルゴリズムにおける他の変換の代わりに用いることができる。バンデルモンド量子化の場合と同じ算術コーダを適用する場合には、残余信号のＦＦＴ（高速フーリエ変換）が採用される。ＦＦＴ手法は、方程式（２）におけるサンプル間の相関の考慮が重要である点が周知であって、品質を下げることは明らかである。したがって、この量子化の基準点は低い。

【0053】

長期知覚的信号対雑音比平均及び方程式（１）が定義するような方法の複雑性を評価する、記述している方法のパフォーマンスの実証を図３ａに示す。明らかに、期待の通り、ＦＦＴ−領域における量子化は、最悪の信号対雑音比をもたらすことが分かる。低いパフォーマンスの理由としては、この量子化が残余サンプル間の相関を考慮していないということを挙げることができる。さらに、時間領域残余信号の最適量子化は、１フレームあたり５ビットから１０ビットまでのビット数におけるペアワイズ最適化に等しい、と述べることもできるが、その理由は、これらのビットレートでは僅か１又は２パルスしか存在せず、よって双方の方法が全く同じであることにある。１フレームあたりのビット数が１５である場合、最適方法は、期待通り、ペアワイズ最適化より僅かに優れている。

【0054】

１フレームあたり１０ビット以上では、バンデルモンド領域における量子化が時間領域の量子化より優れ、バンデルモンド領域よりも固有値領域の方が１ステップ分優れている。１フレームあたり５ビットでは、算術コーダのパフォーマンスが、おそらくは著しく疎な信号に対して部分最適であることが知られている点に起因して、急速に下がる。

【0055】

また、１フレームあたり８０ビットを超えると、ペアワイズ方法がペアワイズ方法から逸脱し始めることも観察されたい。非公式の実験は、ビットレートが高くなるほどこの傾向が高まり、よって、最終的には、ＦＦＴ方法及びペアワイズ方法が、固有値方法及びバンデルモンド方法より遙かに低い値で同じ信号対雑音比に達することを示している。一方で、固有値及びバンデルモンド値は、多かれ少なかれビットレートの線形関数であり続ける。固有値方法は、一貫して、バンデルモンド方法より約０．３６ｄＢだけ優れている。仮説として、この差分のうちの少なくとも一部は、算術コーダにおける実数部及び複素部の分離によって説明される。最適パフォーマンスのためには、実数部及び複素部は、一緒に符号化されるべきである。

【0056】

図３ｂは、異なるアルゴリズムの複雑性の推定を例示するための、各ビットレートにおける各手法の実行時間測定値を示す。最適時間領域手法（Ｏｐｔ参照）の複雑性は、低いビットレートにおいて既に急増することが分かる。時間領域残余のペアワイズ最適化（Ｐａｉｒ参照）は、次に、ビットレートの関数として線形的に増加する。最新技術による方法は、ペアワイズ手法の複雑性を、高いビットレートに対して一定となるように制限するが、図３ａが示す実験の信号対雑音比の競合的な結果は、こうした制限に達し得ないことに留意されたい。さらに、脱相関手法（Ｅｉｇ及びＶａｎｄ参照）並びにＦＦＴ手法（ＦＦＴ参照）は、共に、ビットレート全体で略一定である。バンデルモンド変換は、上述の実装において、固有分解法より約５０％高い複雑性を有するが、その理由は、ＭＡＴＬＡＢにより提供される高度最適化バージョンの固有分解の使用によって説明することができる。一方で、バンデルモンド因数分解は、最適な実装ではない。しかしながら、重要な点として、１フレームあたり１００ビットのビットレートにおいて、ペアワイズ最適化ＡＣＥＬＰは、各々バンデルモンド及び固有分解ベースアルゴリズムの約３０倍及び５０倍複雑である。唯一、ＦＦＴが固有分解法より高速であるが、ＦＦＴは、信号対雑音比が低いことから実行可能なオプションではない。

【0057】

要約すると、上述の方法には、２つの重大な優位点がある。第１に、知覚領域において量子化を適用することにより、知覚信号対雑音比が向上する。第２に、残余信号が（目的関数に関して）脱相関されることから、量子化を、高度に複雑な合成による分析ループなしに直接適用することができる。よって、提案方法の計算複雑性は、ビットレートに対してほぼ一定であるが、従来手法は、ビットレートの増加に伴ってますます複雑になる、ということになる。

【0058】

先に提示した手法は、従来の音声及びオーディオコーディング方法では全く動作不能である。具体的には、目的関数の脱相関は、ＭＰＥＧＵＳＡＣ又はＡＭＲ−ＷＢ＋等のＡＣＥＬＰモードのコードにおいて、コーデック内に存在する他のツールへの制約なしに適用される可能性もある。コア帯域幅又は帯域幅拡張方法を適用する方法は変わることがなく、ＡＣＥＬＰにおける長期予測、フォルマント強調、バス・ポスト・フィルタリング、他の方法も変える必要がなく、異なる符号化モード（ＡＣＥＬＰ及びＴＣＸ等）の実装方法は、目的関数の脱相関によって影響されない。

【0059】

一方で、同じ目的関数（方程式（１）参照）を用いる全てのツール（即ち、少なくとも全てのＡＣＥＬＰ実装）が、脱相関を利用して容易に再定式化され得ることは明らかである。したがって、さらなる実施形態によれば、脱関数を、例えば長期予測寄与に適用することができ、よって、脱相関信号を用いて利得係数を計算することができる。

【0060】

さらに、提示している変換領域は、周波数領域表現であることから、さらなる実施形態によれば、周波数領域の音声及びオーディオコーデックの古典的方法も、この新規領域へ適用されてもよい。特殊な実施形態によれば、スペクトル線の量子化において、効率を高めるためのデッドゾーンが適用されてもよい。別の実施形態によれば、スペクトルホールを回避するためにノイズ注入が適用されてもよい。

【0061】

符号化に関する上述の実施形態（図１ａ及び図１ｂ参照）は、線形予測子を用いるエンコーダの側面で論じられているが、予測子は、オーディオ信号ＡＳの基本周波数を記述する長期予測係数を決定するため、そして、長期予測係数により定義されるフィルタ関数を基礎としてオーディオ信号ＡＳをフィルタリングして、さらなる処理のための残余信号ｘを出力するために、長期予測子を含むようにも構成され得ることは留意されるべきである。さらなる実施形態によれば、予測子は、線形予測子と長期予測子との組合せであってもよい。

【0062】

提案している変換が、音声強調等の音声及びオーディオ処理における他のタスクへ容易に適用可能であることは、明らかである。第１に、部分空間ベースの方法は、信号の固有値分解又は特異値分解を基礎とする。提示している手法は、類似の分解を基礎とすることから、さらなる実施形態によれば、部分空間分析を基礎とする音声強調方法は、提案している領域へ適応されてもよい。従来の部分空間方法との相違は、信号モデルが、ＡＣＥＬＰにおける適用のように、線形予測及び残余領域におけるウィンドウイングを基礎として適用される場合に存在する。一方で、伝統的な部分空間方法は、時間的に一定である（非適応）重なり合う窓を適用する。

【0063】

第２に、バンデルモンド脱相関を基礎とする脱相関は、離散フーリエ、コサイン又は他の類似する変換によって提供されるものと同様の周波数領域を提供する。したがって、通常フーリエ、コサイン又は類似の変換領域において実行される音声処理アルゴリズムはいずれも、最小限の修正により、先に述べた手法の変換領域においても適用可能である。したがって、変換領域において、スペクトル減算を用いる音声強調が適用されてもよく、即ち、これは、さらなる実施形態によれば、提案している変換を、音声又はオーディオ強調において、例えばスペクトル減算法、部分空間分析又はこれらの導関数及び変形によって使用できることを意味する。この場合の利点は、この手法がＡＣＥＬＰと同じウィンドウイングを使用し、よって、音声強調アルゴリズムを厳密に音声コーデックへ統合できることにある。さらに、ＡＣＥＬＰの窓は、従来の部分空間分析において使用されるものより低いアルゴリズム的遅延を有する。したがって、必然的に、ウィンドウイングは、より高いパフォーマンスの信号モデルを基礎とする。

【0064】

トランスフォーマ１４に使用される、即ちステップ１４０において使用される方程式（５）を参照すると、その生成もまた、例えばｙ＝ＤＶｘという形式において相違し得ることは留意されるべきである。

【0065】

さらなる実施形態によれば、エンコーダ１０は、その出力に、２つのデータストリーム、ＤＳ_LPC／ＤＳ_DV及び

、を共通のパケットＤＳにパケット化するように構成されるパッカを備えてもよい。逆もまた同様に、デコーダ２０は、データストリームＤＳを２つのパック、ＤＳ_LPC／ＤＳ_DV及び

、に分割するように構成されるデパケッタイザを備えてもよい。

【0066】

幾つかの態様を、装置のコンテキストにおいて記述してきたが、これらの態様が、対応する方法の説明を表現するものでもあり、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの側面において記述されている態様は、対応する装置の対応するブロック、アイテム又は特徴の説明をも表現している。方法ステップのうちの幾つか又は全ては、例えば、マイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって（又は、これを用いて）実行されてもよい。実施形態によっては、最も重要な方法ステップのうちのいずれか１つ又はそれ以上が、このような装置によって実行されてもよい。

【0067】

本発明による符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることが可能であり、又は、無線伝送媒体若しくはインターネット等の有線伝送媒体などの伝送媒体上で伝送されることが可能である。

【0068】

所定の実装要件に依存して、本発明の実施形態は、ハードウェア又はソフトウェアに実装することができる。実装は、個々の方法が実装されるようにプログラム可能コンピュータシステムと共働する（又は、共働することができる）、電子読取り可能制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリ、を用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ読取り可能であってもよい。

【0069】

本発明による幾つかの実施形態は、本明細書に記述している方法のうちの１つが実行されるようにプログラム可能コンピュータシステムと共働することができる、電子読取り可能制御信号を有するデータキャリアを備える。

【0070】

概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとしての実装が可能であり、プログラムコードは、コンピュータ上でコンピュータ・プログラム・プロダクトが実行されると方法のうちの１つを実行するように作動する。プログラムコードは、例えば、機械読取り可能キャリア上に記憶されてもよい。

【0071】

他の実施形態は、機械読取り可能キャリア上に記憶される、本明細書に記述している方法のうちの１つを実行するためのコンピュータプログラムを含む。

【0072】

したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述している方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0073】

したがって、本発明方法のさらなる実施形態は、本明細書に記述している方法のうちの１つを実行するためのコンピュータプログラムを記録して備えるデータキャリア（又は、デジタル記憶媒体、若しくはコンピュータ読取り可能媒体）である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には、有形及び／又は非遷移性である。

【0074】

したがって、本発明方法のさらなる実施形態は、本明細書に記述している方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。

【0075】

さらなる実施形態は、本明細書に記述している方法のうちの１つを実行するように構成又は適合化される処理手段、例えばコンピュータ、又はプログラマブル論理デバイス、を含む。

【0076】

さらなる実施形態は、本明細書に記述している方法のうちの１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

【0077】

本発明によるさらなる実施形態は、本明細書に記述している方法のうちの１つを実行するためのコンピュータプログラムを受信機へ（例えば、電子的又は光学的に）転送するように構成される装置又はシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス又はこれらに類似するものであってもよい。装置又はシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを備えてもよい。

【0078】

実施形態によっては、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）は、本明細書に記述している方法の機能のうちの一部又は全てを実行するために使用されてもよい。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述している方法のうちの１つを実行するために、マイクロプロセッサと共働してもよい。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。

【0079】

以下、上述の教示を、異なる文言により、かつ本発明の背景を浮き彫りにする手助けとなり得る幾つかのさらなる詳細によって論じる。バンデルモンド変換は、最近、離散フーリエ変換とは異なり、同じく信号を脱相関する時間−周波数変換として提示された。フーリエが提供する近似的又は漸近的脱相関は、多くの事例において十分なものであるが、短い窓を使用するアプリケーションでは、パフォーマンスが不十分である。したがって、バンデルモンド変換は、経時的に入力信号が急激に変化するために短い分析窓を用いなければならない音声及びオーディオ処理アプリケーションにおいて有益であろう。このようなアプリケーションは、計算容量が制限されるメモリデバイスに対して使用される場合が多く、よって、効率的な計算が決定的に重要である。

【0080】

しかしながら、バンデルモンド変換の実装は、相当な骨折り仕事であることが判明していて、複雑性及び精度に合わせてパフォーマンスが最適化される高度な数値ツールを必要とする。この寄与は、このタスクに対して、パフォーマンス評価を含むベースライン解を提供する。索引語−時間−周波数変換、脱相関、バンデルモンド行列、テプリッツ行列、ワープ離散フーリエ変換

【0081】

離散フーリエ変換は、デジタル信号処理における最も基本的なツールの１つである。これは、入力信号の物理的に動機づけされた表現を周波数成分の形式で提供する。高速フーリエ変換（ＦＦＴ）は、離散フーリエ変換をやはり超低計算複雑性

で計算することから、デジタル信号処理の最も重要なツールの１つとなっている。

【0082】

有名ではあるが、離散フーリエ変換には欠点があり、信号成分を完全には脱相関しない（数値例に関しては、セクション４を参照されたい）。変換長が無限大に収束する場合にのみ、成分は直交になる。多くのアプリケーションでは、このような近似脱相関で充分である。しかしながら、多くの音声及びオーディオ処理アプリケーション等の比較的小さい変換を使用するアプリケーションでは、この近似の精度がアルゴリズムの全体効率を制限する。例えば、音声符号化規格ＡＭＲ−ＷＢは、

の窓を使用する。実践により、離散フーリエ変換のパフォーマンスは、この場合不十分であることが分かっており、したがって、主流の音声コーデックのほとんどは、時間領域符号化を用いている。

【0083】

図３ｃは、バンデルモンド変換の特性を示す。５１で示されている太線は、信号の（非ワープ）フーリエスペクトルを示し、線５２、線５３及び線５４は、入力信号でフィルタリングされた、選択された３周波数の通過帯域フィルタの応答である。バンデルモンド因数分解のサイズは、６４である。

【0084】

当然ながら、入力信号の脱相関を提供する変換は、カルーネン−レーベ変換（ＫＬＴ）等、多数存在する。しかしながら、ＫＬＴの成分は、フーリエ変換のように単純な物理的解釈のない抽象的エンティティである。一方で、物理的に動機づけされた領域は、物理的に動機づけされた基準を処理方法へ単純に実装することを可能にする。したがって、物理的解釈及び脱相関の双方を提供する変換が望まれる。

【0085】

私達は、最近、これらの好ましい特性の双方を有する、バンデルモンド変換と呼ばれる変換を提示した。これは、エルミートテプリッツ行列を対角行列とバンデルモンド行列との積へ分解することを基礎とする。この因数分解は、事実上、共分散行列のカラテオドリのパラメータ化としても知られ、ハンケル行列のバンデルモンド因数分解に酷似している。

【0086】

正定値エルミートテプリッツ行列という特殊な事例の場合、バンデルモンド因数分解は、周波数ワープ離散フーリエ変換に相当する。言い替えれば、これは、必ずしも均一に分散されていない周波数においてサンプリングされる信号成分を提供する時間−周波数変換である。したがって、バンデルモンド変換は、所望される性質、即ち、脱相関及び物理的解釈、の双方を提供する。

【0087】

バンデルモンド変換の存在及び性質は、分析的に実証されているが、現在の作業の目的は、第１に、バンデルモンド変換の既存の実用アルゴリズムを収集しかつ記録することにある。これらの方法は、数値代数、数値解析、システム識別、時間−周波数解析及び信号処理を含む極めて多様な分野に現出していて、発見しにくいことが多い。したがって、本稿は、結果の解析及び論考の共同プラットフォームを提供する方法を再検討するものである。第２に、異なる方法のパフォーマンスをさらに評価するためのベースラインとして、数値例を提供する。

【0088】

本セクションでは、バンデルモンド変換について簡単に紹介する。アプリケーションに関するより包括的な動機付け及び論考のために、以下を参照する。

【0089】

バンデルモンド行列Ｖは、スカラｖｋによって次式のように定義される。

【0090】

スカラｖ_kが区別的（ｋ≠ｈのとき、ｖ_k≠ｖ_h）であれば、これは最大階数であり、その逆数は、明示公式を有する。

【0091】

対称テプリッツ行列Ｔは、スカラτ_kによって次式のように定義される。

【0092】

Ｔが正定値であれば、これは、
Ｔ＝Ｖ*ΛＶ（３ｚ）
のように因数分解することができる。ここで、Λは、実数かつ狭義正の成分λ_kk＞０を有する対角行列であり、指数級数Ｖは、全て単位円上にあって、ν_k＝ｅｘｐ（ｉβ_k）である。この形式は、テプリッツ行列のカラテオドリのパラメータ化としても知られる。

【0093】

ここでは、バンデルモンド変換の２つの使用法、即ち、脱相関変換又は畳み込み行列の置換の何れかとしての使用法を提示する。まず、自己相関行列Ｅ［ｘｘ^*］＝Ｒ_xを有する信号ｘについて考察する。この自己相関行列は、正定値の対称性かつテプリッツであることから、これを、Ｒ＝Ｖ^*ΛＶのように因数分解することができる。よって、変換、
ｙ_d＝Ｖ-*ｘ（４ｚ）
但し、Ｖ^-*はＶの逆エルミート、を適用すれば、ｙｄの自己相関行列は、次式のようになる。

【0094】

したがって、変換信号ｙ_dは、無相関である。逆変換は、次式の通りである。
ｘ＝Ｖ^*ｙ_d （６ｚ）

【0095】

発見的記述として、前方変換Ｖ^-*は、そのｋ番目の行に、通過帯域が周波数−β_kであるフィルタを含み、かつｘの阻止帯域出力は、低エネルギーを有する、と言うことができる。具体的には、出力のスペクトル形状は、単位円上に単極を有するＡＲ−フィルタのそれに近い。このフィルタバンクは、信号適応的であることから、ここでは、基底関数の周波数応答ではなく、フィルタ出力について考察することに留意されたい。

【0096】

次に、後方変換Ｖ^*は、その列内に指数級数を有し、よって、ｘは、指数級数の加重和である。言い替えれば、この変換は、ワープ時間−周波数変換である。図３ｃは、入力信号ｘの離散（非ワープ）フーリエスペクトル、及びＶ^-*の選択された行の周波数応答を明示している。

【0097】

畳み込み領域における信号を評価するためのバンデルモンド変換は、次のように構成することができる。Ｃを畳み込み行列、ｘを入力信号とする。畳み込み信号ｙ_c＝Ｃ_xの評価を目的とする事例について考察されたい。このような評価は、例えば、量子化誤差エネルギーが知覚領域において評価され、かつ知覚領域へのマッピングがフィルタによって記述される、ＡＣＥＬＰを使用する音声コーデックにおいて現出する。

【0098】

ｙ_cのエネルギーは、次式の通りである。

【0099】

したがって、ｙ_cのエネルギーは、変換されかつスケーリングされた信号のエネルギーに等しい。

したがって、畳み込み領域又は変換領域における信号エネルギーを同等に評価することができ、

である。明らかに、逆変換は、次式の通りである。
ｘ＝Ｖ^-1Λ^-1/2ｙ_v （９ｚ）

【0100】

前方変換Ｖは、その行内に指数級数を有し、よって、これは、ワープフーリエ変換である。その逆変換Ｖ^-1は、その列内に、βｋに通過帯域を有するフィルタを有する。この形式において、フィルタバンクの周波数応答は、離散フーリエ変換に等しい。通常エイリアシング成分のように見えるものを使用して完全再構成を可能にするのは、逆変換のみである。

【0101】

バンデルモンド変換を用いるためには、変換を決定し、並びに変換を適用するための効果的なアルゴリズムが必要である。本セクションでは、利用可能なアルゴリズムについて論じる。まずは、より単純なタスクであることから、変換のアプリケーションについて論じる。

【0102】

Ｖ及びＶ^*による乗算は、単純であり、よってＯ（Ｎ²）に実装することができる。記憶要件を減らすために、ここに、ｈ＞１について指数

を明示的に評価する必要のないアルゴリズムを示す。即ち、ｙ＝Ｖｘであり、かつｘの要素がξ_kであれば、ｙの要素η_kは、次の再帰を用いて決定することができる。

【0103】

ここで、τ_h,kは、一時スカラであり、記憶する必要があるのはそのカレント値のみである。全体再帰は、Ｎ個の成分に関してＮステップを有し、よって、全体複雑性はＯ（Ｎ²）でありかつ記憶不変である。ｙ＝Ｖ^*ｘについても、類似のアルゴリズムを即座に書くことができる。

【0104】

バンデルモンドの逆行列Ｖ^-1及びＶ^-*による乗算は、もう少し複雑なタスクであるが、幸運にも、既に文献から比較的効率的な方法を利用可能である。アルゴリズムは、実装が簡単であり、かつｘ＝Ｖ^-1ｙ及びｘ＝Ｖ^-*ｙの双方で複雑性はＯ（Ｎ²）であり、記憶線形的Ｏ（Ｎ）である。しかしながら、このアルゴリズムは、ステップ毎に除算を含み、よって多くのアーキテクチャにおいて固定費が高くなる。

【0105】

逆数による乗算の上記アルゴリズムは、解析的には精確であるが、実用的実装では、

値が大きければ数値的に不安定になる。したがって、経験的に、

のサイズが６４までの行列による計算は、場合によって可能であるが、これを超えると、これらのアルゴリズムは、数値的不安定によって役に立たなくなる。実用解は、軸選択形ガウス消去に等しい、根ｖ_kのＬｅｊａによる順序付けである。Ｌｅｊａによる順序付けの背後にある主たる考案は、根を、根ｖ_kとその前の根０．．．（ｋ−１）との距離が最大化されるようにして再配列する、というものである。このような再配置により、アルゴリズムに現出する分母が最大化され、かつ中間変数の値が最小化され、よって、切り捨て誤差による寄与分も最小化される。Ｌｅｊａによる順序付けの実装は単純であって、複雑性Ｏ（Ｎ²）及び記憶Ｏ（Ｎ）で達成することができる。

【0106】

よって、最終的なハードルは、因数分解、即ち根ｖ_k、及び必要であれば、対角値λ_kkを求めることである。知り得る限り、根は、次式、
Ｒａ＝［１１．．．１］^T （１１ｚ）
を解くことにより求めることができる。ここで、ａは、要素α_kを有する。よって、ｖ₀＝１であり、かつ残りの根ｖ１．．．ｖ_Nは、多項式

の根である。これが、ハンケル系、

の解法に等しいことは、容易に証明することができる。ここで、

である。よって、根ｖ_kは、

の根となる。

【0107】

原初のテプリッツ系方程式１１ｚは、方程式１２ｚと等価であることから、ハンケル行列の因数分解に高速アルゴリズムを用いることができる。このアルゴリズムは、固有値が

の根に一致する三重対角行列を返す。次には、Ｏ（Ｎ²）においてＬＲアルゴリズムを適用することにより、又は、Ｏ（Ｎ³）において標準非対称ＱＲアルゴリズムによって、固有値を求めることができる。こうして求める根は、近似値であり、よって、単位円から僅かに外れる場合もある。よって、根の絶対値を１に正規化し、かつニュートン法による２又は３回の反復によって精緻化することが有益である。完全プロセスは、Ｏ（Ｎ²）の計算コストを有する。

【0108】

因数分解の最終ステップは、対角値Λを求めることである。次式、
Ｒｅ＝Ｖ^*ΛＶｅ＝Ｖ^*λ （１３ｚ）
を観察されたい。ここで、ｅ＝［１０．．．０］^Tであり、λは、Λの対角値を含むベクトルである。言い替えれば、
λ＝Ｖ^-*（Ｒｅ）（１４ｚ）
を計算することにより、対角値λ_kkを求める。この逆は、先に論じた方法で計算することができ、よって、対角値は、複雑性Ｏ（Ｎ²）で得られる。

【0109】

要するに、行列Ｒの因数分解に必要なステップは、下記の通りである。

【0110】

１．レビンソン−ダーバン法又は他の古典的方法を用いて、方程式１１ｚのａを解く。

【0111】

２．自己相関数列を

で拡張する。

【0112】

３．数列τ_kに三重対角化アルゴリズムを適用する。

【0113】

４．ＬＲ−アルゴリズム又は対称ＱＲ−アルゴリズムの何れかを用いて固有値ｖ_kを解く。

【0114】

５．ｖ_kの１へのスケーリング及びニュートン法の数回の反復によって、根位置を精緻化する。

【0115】

６．方程式１４ｚを用いて対角値λ_kkを決定する。

【0116】

まず、使用する概念を実証する数値例から開始する。ここで、行列Ｃは、自明なフィルタ１＋ｚ^-1に対応する畳み込み行列であり、行列Ｒは、その自己相関であり、行列Ｖは、セクション３におけるアルゴリズムにより求めた対応するバンデルモンド行列であり、行列Ｆは、離散フーリエ変換行列であり、かつ行列Λ_V及びΛ_Fは、２変換の対角化精度を明示する。よって、次式、

を定義することができ、これにより、対角化を次式によって評価することができる。

【0117】

ここでは、バンデルモンド変換によって完全対角行列Λ_Vが得られることが分かる。離散フーリエ変換のパフォーマンスは、非対角値が明らかに非ゼロであることから、最適とはほど遠い。パフォーマンスの尺度として、非対角値及び対角値の絶対和の割合を計算することができるが、バンデルモンド因数分解のそれは、ゼロであり、フーリエ変換のそれは、０．４４４である。

【0118】

次に、セクション３に記述している実装の評価に進む。ＭＡＴＬＡＢにおける各アルゴリズムの実装は、将来の研究との比較対象になるパフォーマンスベースラインを提供し、かつ最終的なパフォーマンスボトルネックを発見することを目的として行った。パフォーマンスを、複雑性及び精度に関連して考察していく。

【0119】

因数分解のパフォーマンスを決定するために、バンデルモンド因数分解を離散フーリエ変換及びカルーネン−レーベ変換と比較する。後者は、固有値分解によって適用する。バンデルモンド因数分解の適用は、２つの方法、即ち第１の、本稿に記載しているアルゴリズム（Ｖ₁）及び第２の、ＭＡＴＬＡＢにより提供される組み込み求根関数の使用において記述している手法（Ｖ₂）、を用いて行った。このＭＡＴＬＡＢ関数は、細かく調整された汎用アルゴリズムであることから、精確な結果は得られるものの、複雑性は私達の専用アルゴリズムより高いことが予想される。

【0120】

全実験用のデータとして、ＭＰＥＧＵＳＡＣ規格の評価に使用される音声、オーディオ及び混合音サンプルの集合を１２．８ｋＨｚのサンプリング速度で用いた。オーディオサンプルをハミング窓によって所望される長さにウィンドウ処理し、その自己相関を計算した。自己相関行列が確実に正定値であるように、主対角に（１＋１０^-5）を乗じた。

【0121】

パフォーマンスの尺度として、正規化された実行時間に対する計算複雑性、及び非対角要素及び対角要素の絶対和の割合により測定される、

と対角行列との接近性に関する精度を用いた。結果を、表１及び表２に記す。

【0122】

表１．正規化された実行時間に対する異なる窓長さＮの因数分解アルゴリズムの複雑性

【0123】

表２．

の非対角値及び対角値の絶対和の割合のｌｏｇ１０に対する異なる窓長さ

Ｎの因数分解アルゴリズムの精度

【0124】

この場合、組み込みＭＡＴＬＡＢ関数は、私達固有のアルゴリズムとは異なる言語で実装されていることから、単にフレームサイズの関数としての複雑性増加でしかないアルゴリズム間の実行時間を比較することは、賢明でない点に留意されたい。提案アルゴリズムＶ₁の複雑性は、ＫＬＴと比肩し得る速度で増大し、一方で、ＭＡＴＬＡＢＶ₂の求根関数を使用するアルゴリズムでは、さらに増大することが分かる。提案している因数分解アルゴリズムＶ₁の精度は、いまだ最適ではない。しかしながら、ＭＡＴＬＡＢＶ₂の求根関数は、ＫＬＴに匹敵する精度をもたらすことから、アルゴリズムの改良によって改善が可能であると結論付ける。

【0125】

第２の実験は、精度及び複雑性を決定するための変換適用である。まず、方程式４ｚ及び方程式９ｚを適用する。これらの方程式の複雑性は、表３に記されている。ＫＬＴの行列乗算、及びＭＡＴＬＡＢＶ₂の行列系の組み込み解は、略同じ複雑性増加速度を有するが、方程式４ｚ及び方程式９ｚに関する提案方法は、遙かに低い増加であることが分かる。当然ながら、ＦＦＴは、他の全ての手法より速い。

【0126】

最後に、バンデルモンド解の精度を求めるために、前方変換及び後方変換を順に適用する。原ベクトルと再構成ベクトルとの間のユークリッド距離を、表４に記す。まず、ＦＦＴ及びＫＬＴアルゴリズムは、直交変換を基礎とすることから、予想通り最も精確であることが観察できる。第２に、提案アルゴリズムＶ₁の精度は、ＭＡＴＬＡＢＶ₂の組み込み解より僅かに低いが、これらのアルゴリズムは共に、十分な精度を提供することが分かる。

【0127】

利用可能なアルゴリズムを精査し、並びにさらなる開発のためのパフォーマンスベースラインを提供することを目的として、バンデルモンド因数分解を用いて時間−周波数変換を脱相関する実装の詳細を提示した。原則的には、アルゴリズムは、先行する研究から入手可能であるが、実行のためのシステムを得る必要があることが分かっている。

【0128】

表３．正規化された実行時間に対する異なる窓長さ

のバンデルモンド解の複雑性
本表において、

は、各提案アルゴリズムによる方程式４ｚ及び方程式９ｚの解を示す。

【表3】

【0129】

表４．

により測定した前方及び後方変換の精度
、ここで、

は、原ベクトル及び再構成ベクトルである。

【0130】

相当な努力。主たる課題は、数値精度及び計算複雑性である。実験により、複雑性Ｏ（Ｎ²）で方法を利用可能であることが確認されているが、低い複雑性を数値安定性と同時に達成することは、難題である。しかしながら、一般的なＭＡＴＬＡＢ実装は、精確な解を提供することから、実装をさらに調整すれば、高精度の達成が可能であることを断言する。

【0131】

結論として、実験は、バンデルモンド解の場合、提案しているアルゴリズムが良好な精度及び十分に低い複雑性を有することを示している。因数分解に関しては、専用の因数分解であれば、適度な複雑性でＦＦＴより優れた脱相関を提供するが、精度に関しては、改良の余地がある。ＭＡＴＬＡＢの組み込み実装は、十分な精度を与え、よって、結論として、精度Ｏ（Ｎ²）のアルゴリズムは、実装が可能である。

【0132】

上述の実施形態は、本発明の原理を単に例示したものである。他の当業者には、本明細書に記述している装置及び詳細の改変及び変形が明らかとなることは理解される。したがって、本発明は、本明細書における実施形態の記述及び説明により提示される具体的詳細ではなく、添付の特許請求の範囲に記載される範囲によってのみ限定されることが意図されている。

【図1A】

【図1B】

【図2A】

【図2B】

【図3A】

【図3B】

【図3C】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6543640号(P6543640)IP Force 特許公報掲載プロジェクト 2022.1.31 β版