(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2015-532456(P2015-532456A)
(43)【公表日】2015年11月9日
(54)【発明の名称】自己相関ドメインにおけるACELPを用いたスピーチ信号の符号化装置
(51)【国際特許分類】
G10L 19/12 20130101AFI20151013BHJP
G10L 25/06 20130101ALI20151013BHJP
H03M 7/30 20060101ALI20151013BHJP
【FI】
G10L19/12
G10L25/06
H03M7/30 B
【審査請求】有
【予備審査請求】有
【全頁数】26
(21)【出願番号】特願2015-534940(P2015-534940)
(86)(22)【出願日】2013年7月31日
(85)【翻訳文提出日】2015年5月1日
(86)【国際出願番号】EP2013066074
(87)【国際公開番号】WO2014053261
(87)【国際公開日】20140410
(31)【優先権主張番号】61/710,137
(32)【優先日】2012年10月5日
(33)【優先権主張国】US
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LT,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ,VC
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】ベックストレム,トム
(72)【発明者】
【氏名】ムルトルス,マルクス
(72)【発明者】
【氏名】フッハス,ギローム
(72)【発明者】
【氏名】ヘルムリッヒ,クリスチャン
(72)【発明者】
【氏名】ディーツ,マルチン
【テーマコード(参考)】
5J064
【Fターム(参考)】
5J064BA13
5J064BC27
(57)【要約】
スピーチ符号化アルゴリズムのコードブックベクトルを決定することによって、スピーチ信号を符号化する装置が提供される。この装置は、自己相関行列Rを決定する行列決定部(110)と、自己相関行列Rに依存してコードブックベクトルを決定するコードブックベクトル決定部(120)とを含む。行列決定部(110)は、ベクトルrのベクトル係数を決定することによって、自己相関行列Rを決定するよう構成され、自己相関行列Rは複数の行と複数の列とを含み、ベクトルrは自己相関行列Rの列の1つ又は行の1つを示し、ここでR(i , j) = r(|i− j|)であり、R(i , j)は自己相関行列Rの係数を示し、iは自己相関行列Rの複数の行の1つを示す第1インデックスであり、jは自己相関行列Rの複数の列の1つを示す第2インデックスである。
【選択図】
図1
【特許請求の範囲】
【請求項1】
スピーチ符号化アルゴリズムのコードブックベクトルを決定することによって、スピーチ信号を符号化する装置であって、
自己相関行列Rを決定する行列決定部(110)と、
前記自己相関行列Rに依存して前記コードブックベクトルを決定するコードブックベクトル決定部(120)とを含み、
前記行列決定部(110)は、ベクトルrのベクトル係数を決定することによって、前記自己相関行列Rを決定するよう構成され、前記自己相関行列Rは複数の行と複数の列とを含み、前記ベクトルrは前記自己相関行列Rの列の1つ又は行の1つを示し、
R(i , j) = r(|i− j|)
であり、ここでR(i,j)は前記自己相関行列Rの係数を示し、iは前記自己相関行列Rの複数の行の1つを示す第1インデックスであり、jは前記自己相関行列Rの複数の列の1つを示す第2インデックスである、装置。
【請求項2】
請求項1に記載の装置において、
前記行列決定部(110)は次式を適用することによって前記ベクトルrのベクトル係数を決定するよう構成され、
ここで、h(k)は線形予測モデルの知覚的に重み付けられたインパルス応答を示し、kは整数であるインデックスであり、lは整数であるインデックスである、装置。
【請求項3】
請求項1又は2に記載の装置において、
前記行列決定部(110)は知覚的に重み付けられた線形予測子に依存して、前記自己相関行列Rを決定するよう構成されている、装置。
【請求項4】
請求項1乃至3のいずれかに記載の装置において、
前記コードブックベクトル決定部(120)は、次式を適用することにより前記コードブックベクトルを決定するよう構成され、
ここで、Rは自己相関行列であり、
は前記スピーチ符号化アルゴリズムのコードブックベクトルの1つであり、
は正規化された相関である、装置。
【請求項5】
請求項4に記載の装置において、
前記コードブックベクトル決定部(120)は、前記正規化された相関
を最大化するスピーチ符号化アルゴリズムのコードブックベクトル
を決定するよう構成されている、装置。
【請求項6】
請求項1乃至5のいずれかに記載の装置において、
前記コードブックベクトル決定部(120)は、行列分解を行うことによって前記自己相関行列Rを分解するよう構成されている、装置。
【請求項7】
請求項6に記載の装置において、
前記コードブックベクトル決定部(120)は、前記コードブックベクトルを決定するための対角行列Dを決定するために、前記行列分解を行うよう構成されている、装置。
【請求項8】
請求項7に記載の装置において、
前記コードブックベクトル決定部(120)は、次式を用いることによって前記コードブックベクトルを決定するよう構成され、
ここで、Dは前記対角行列であり、fは第1ベクトルであり、
は第2ベクトルである、装置。
【請求項9】
請求項7又は8に記載の装置において、
前記コードブックベクトル決定部(120)は、前記自己相関行列Rに対してファンデルモンド因数分解を行って前記自己相関行列Rを分解するよう構成され、かつ前記行列分解を行って前記コードブックベクトルを決定するための前記対角行列Dを決定するよう構成されている、装置。
【請求項10】
請求項7乃至9のいずれかに記載の装置において、
前記コードブックベクトル決定部(120)は、前記コードブックベクトルを決定するために次式を用いるよう構成され、
ここで、Cは畳み込み行列を示し、Vはフーリエ変換を示し、xはスピーチ信号を示す、装置 。
【請求項11】
請求項7乃至10のいずれかに記載の装置において、
前記コードブックベクトル決定部(120)は、前記自己相関行列Rに対して特異値分解を行って前記自己相関行列Rを分解するよう構成され、かつ前記行列分解を行って前記コードブックベクトルを決定するための前記対角行列Dを決定するよう構成されている、装置。
【請求項12】
請求項7乃至10のいずれかに記載の装置において、
前記コードブックベクトル決定部(120)は、前記自己相関行列Rに対してコレスキー分解を行って前記自己相関行列Rを分解するよう構成され、かつ前記行列分解を行って前記コードブックベクトルを決定するための前記対角行列Dを決定するよう構成されている、装置。
【請求項13】
請求項1乃至12のいずれかに記載の装置において、
前記コードブックベクトル決定部(120)は、前記スピーチ信号のゼロインパルス応答に依存して前記コードブックベクトルを決定するよう構成されている、装置。
【請求項14】
請求項1乃至13のいずれかに記載の装置において、
前記装置は代数符号励振線形予測スピーチ符号化を用いて前記スピーチ信号を符号化する符号器であり、
前記コードブックベクトル決定部(120)は、代数コードブックのコードブックベクトルとして、前記自己相関行列Rに基づいて前記コードブックベクトルを決定するよう構成されている、装置。
【請求項15】
スピーチ符号化アルゴリズムのコードブックベクトルを決定することによって、スピーチ信号を符号化する方法であって、
自己相関行列Rを決定するステップと、
前記自己相関行列Rに依存して前記コードブックベクトルを決定するステップとを含み、
前記自己相関行列Rを決定するステップは、ベクトルrのベクトル係数を決定するステップを含み、
前記自己相関行列Rは複数の行と複数の列とを含み、前記ベクトルrは前記自己相関行列Rの列の1つ又は行の1つを示し、
R(i , j) = r(|i− j|)
であり、ここでR(i , j)は前記自己相関行列Rの係数を示し、iは前記自己相関行列Rの複数の行の1つを示す第1インデックスであり、jは前記自己相関行列Rの複数の列の1つを示す第2インデックスである、方法。
【請求項16】
請求項1に記載の装置によって符号化された符号化済みスピーチ信号を復号化して、復号化済みスピーチ信号を得る復号器(220)。
【請求項17】
請求項15に記載の方法によって符号化された符号化済みスピーチ信号を復号化して、復号化済みスピーチ信号を得る方法。
【請求項18】
入力スピーチ信号を符号化して、符号化済みスピーチ信号を得る請求項1乃至14のいずれかに記載の装置(210)と、
前記符号化済みスピーチ信号を復号化して、復号化済みスピーチ信号を得る請求項16に記載の復号器(220)と、
を含むシステム。
【請求項19】
請求項15に記載の方法に従って入力スピーチ信号を符号化し、符号化済みスピーチ信号を得るステップと、
請求項17に記載の方法に従って前記符号化済みスピーチ信号を復号化し、復号化済みスピーチ信号を得るステップと、を含む方法。
【請求項20】
コンピュータ又は信号プロセッサ上で実行されたとき、請求項15、17又は19に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号符号化に関し、特に、自己相関(autocorrelation)ドメインにおけるACELPを用いたスピーチ信号の符号化装置に関する。
【背景技術】
【0002】
CELP(Code Excited Linear Prediction:符号励振線形予測)によるスピーチ符号化において、スピーチ信号のスペクトル包絡(又は等価的に短時間の時間構造)は線形予測(LP)モデルによって表され、予測残余は長時間予測子(LTP,適応型コードブックとしても知られている)によってモデル化され、残余信号はコードブック(固定コードブックとしても知られている)によって表現される。後者、つまり固定コードブックは、一般に代数コードブックとして適用され、ここではそのコードブックが代数公式又はアルゴリズムによって表現されるため、そのアルゴリズムを除いて全体のコードブックを記憶しておく必要がない。また同時に、速やかな探索アルゴリズムを可能にする。残余に対して代数コードブックを適用するCELPコーデックは、代数符号励振線形予測(ACELP)コーデック(非特許文献1、2、3、4を参照)として知られている。
【0003】
スピーチ符号化において、代数残余コードブックを用いることは、例えば非特許文献17、13、18のように、主流のコーデックの中で選択された一手法と言える。ACELPは、線形予測(LP)フィルタによるスペクトル包絡のモデリングと、長時間予測子(LTP)による音声の基本周波数のモデリングと、代数コードブックによる予測残余のモデリングとに基づいている。LTPと代数コードブックパラメータは、ある知覚ドメインにおいて最小二乗アルゴリズムによって最適化され、その知覚ドメインはあるフィルタによって規定される。
【0004】
ACELP型アルゴリズムの演算的に最も複雑な部分つまりボトルネックは、残余コードブックの最適化である。現在知られている唯一の最適なアルゴリズムは、各サブフレームについてサイズN
pのスペースの全数探索(exhaustive search)であろう。そこでは、全てのポイントで
の複雑性の評価が求められる。代表的な値はP=8パルスを持つサブフレーム長さN=64(すなわち、5ms)であるから、このことは毎秒当り10
20回以上の演算を意味している。明らかに、このことは実行可能な選択肢ではない。ハードウエアの条件によって設定される複雑性の制限内に止めるために、コードブックの最適化手法は、非最適な反復的アルゴリズムで作動する必要がある。最適化プロセスへの多数のそのようなアルゴリズム及び改善が、例えば非特許文献17、19、20、21、22等によって過去に提案されてきた。
【0005】
明らかに、ACELP最適化は、線形予測モデルの出力としてスピーチ信号x(n)を記述することに基づいており、その場合、推定されたスピーチ信号は、
となり、ここで、a(k)はLP係数であり、
は残余信号である。ベクトル形式では、この式は以下のように表すことができる。
ここで、行列Hは対角要素h(0)と下対角要素h(1),...,h(39)とを持つ下三角のテプリッツ畳み込み行列(lower triangular Toeplitz convolution matrix)として定義され、ベクトルh(k)はLPモデルのインパルス応答である。この表記法では、知覚モデル(通常は重み付きLPモデルと対応している)は省略されている点に注意すべきであるが、知覚モデルはインパルス応答h(k)内に含まれていると考えられる。この省略により、一般的な結果に影響を及ぼすことなく、表記を簡素化できる。この知覚モデルの包含は非特許文献1内で適用されている。
【0006】
モデルの適合性は二乗誤差によって測定される。すなわち、
この二乗誤差は最適なモデルパラメータを発見するために使用される。ここで、LTPとパルスコードブックは共にベクトルeをモデル化するために使用されると考えられる。実際の適用は、対応する文献(非特許文献1〜4参照)の中で見ることができる。
【0007】
実際のところ、上述の適合性の尺度は以下のように簡略化され得る。行列B=H
THがh(n)の相関を含み、c
kがk番目の固定コードブックベクトルであり、
と設定する。ここで、gはゲインファクタである。gが最適に選択されると仮定すると、コードブックは次式の探索基準を最大化することによって、探索される。
ここで、d = H
Txは目標ベクトルとインパルス応答h(n)との間の相関を含むベクトルであり、上付き文字Tは転置を示す。ベクトルdと行列Bはコードブック探索の前に計算される。この公式は、LTPとパルスコードブックの両方の最適化において共通に使用される。
【0008】
上記公式の使用を最適化するにあたり、多くの研究がなされてきた。例えば、
1)探索アルゴリズムによって実際にアクセスされる行列Bの要素だけが計算される。又は、
2)パルス探索の試行錯誤アルゴリズムは、以前の予備選別(例えば非特許文献1、5参照)に基づいて、高い成功確率を持つコードブックベクトルだけを試すように、削減される。
【0009】
ACELPアルゴリズムの実際の詳細は、ゼロインパルス応答(ZIR)の概念に関連している。この概念は、合成された残余に対比してオリジナル領域の合成信号を考慮するときに現れる。残余はフレーム又はサブフレームサイズに対応したブロック内に符号化される。しかし、式1のLPモデルを用いてオリジナル領域信号を合成する際に、固定長の残余は、LPフィルタのインパルス応答に対応した無限長の「テール」を持つであろう。すなわち、残余コードブックベクトルは有限長であるが、現在のフレーム又はサブフレームをはるかに超えて、合成信号に影響を及ぼすであろう。1つのフレームの将来に対する影響は、コードブックベクトルをゼロで拡張し、この拡張信号について式1の合成出力を計算することによって、計算され得る。合成された信号のこの拡張は、ゼロインパルス応答として知られている。次に、現在のフレームを符号化する際に以前のフレームの影響を考慮するために、以前のフレームのZIRが現在のフレームの目標値から減算される。よって、現在のフレームを符号化する際、その信号の、以前のフレームによって既にモデル化されていなかった部分だけが考慮される。
【0010】
実際上、ZIRは次のようにして考慮される。(サブ)フレームN−1の符号化が完了したとき、量子化された残余は次の(サブ)フレームNの長さまでゼロで拡張されている。拡張された量子化済み残余はLPによってフィルタリングされ、量子化済み信号のZIRが取得される。量子化済み信号のZIRは、次にオリジナル(量子化されていない)信号から減算され、この修正済み信号が(サブ)フレームNを符号化する際に目標信号を形成する。このようにして、(サブ)フレームN−1内に形成された全ての量子化誤差は、(サブ)フレームNを量子化する際に考慮されるであろう。このやり方は、出力信号の知覚的品質をかなり改善できる。
【0011】
しかしながら、オーディオ符号化にとってさらに改善された概念が提供されるならば、一層望ましい。
【先行技術文献】
【非特許文献】
【0012】
【非特許文献1】[1] Salami, R. and Laflamme, C. and Bessette, B. and Adoul, J.P., “ITU-T G. 729 Annex A: reduced complexity 8 kb/s CS-ACELP codec for digital simultaneous voice and data“, Communications Magazine, IEEE, vol 35, no 9, pp 56-63, 1997.
【非特許文献2】[2] 3GPP TS 26.190 V7.0.0 , “Adaptive Multi-Rate (AMR-WB) speech codec“, 2007.
【非特許文献3】[3] ITU-T G.718, “Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s“, 2008.
【非特許文献4】[4] Schroeder, M. and Atal, B., “Code-excited linear prediction (CELP): High-quality speech at very low bit rates“, Acoustics, Speech, and Signal Processing, IEEE Int Conf, pp 937-940, 1985.
【非特許文献5】[5] Byun, K.J. and Jung, H.B. and Hahn, M. and Kim, K.S., “A fast ACELP codebook search method“, Signal Processing, 2002 6th International Conference on, vol 1, pp 422-425, 2002.
【非特許文献6】[6] G. H. Golub and C. F. van Loan, “Matrix Computations“, 3rd Edition, John Hopkins University Press, 1996.
【非特許文献7】[7] Boley, D.L. and Luk, F.T. and Vandevoorde, D., “Vandermonde factorization of a Hankel matrix“, Scientific computing, pp 27-39, 1997.
【非特許文献8】[8] Baeckstroem, T. and Magi, C., “Properties of line spectrum pair polynomials - A review”, Signal processing, vol. 86, no. 11, pp. 3286-3298, 2006.
【非特許文献9】[9] A. Haermae, M. Karjalainen, L. Savioja, V. Vaelimaeki, U. Laine, and J. Huopaniemi, “Frequencywarped signal processing for audio applications,” J. Audio Eng. Soc, vol. 48, no. 11, pp. 1011-1031, 2000.
【非特許文献10】[10] T. Laakso, V. Vaelimaeki, M. Karjalainen, and U. Laine, “Splitting the unit delay [FIR/all pass filters design],” IEEE Signal Process. Mag.,vol. 13, no. 1, pp. 30-60, 1996.
【非特許文献11】[11] J. Smith III and J. Abel, “Bark and ERB bilinear transforms,” IEEE Trans. Speech Audio Process., vol. 7, no. 6, pp. 697-708, 1999.
【非特許文献12】[12] R. Schappelle, “The inverse of the confluent Vandermonde matrix,” IEEE Trans. Autom. Control, vol. 17, no. 5, pp. 724-725, 1972.
【非特許文献13】[13] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jarvinen, “The adaptive multirate wideband speech codec (AMR-WB),” Speech and Audio Processing, IEEE Transactions on, vol. 10, no. 8, pp. 620-636, 2002.
【非特許文献14】[14] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Dordrecht, The Netherlands: Kluwer Academic Publishers, 2003.
【非特許文献15】[15] B. Edler, S. Disch, S. Bayer, G. Fuchs, and R. Geiger, “A time-warped MDCT approach to speech transform coding,” in Proc 126th AES Convention, Munich, Germany, May 2009.
【非特許文献16】[16] J. Makhoul, “Linear prediction: A tutorial review,” Proc. IEEE, vol. 63, no. 4, pp. 561-580, April 1975.
【非特許文献17】[17] J.-P. Adoul, P. Mabilleau, M. Delprat, and S. Morissette, “Fast CELP coding based on algebraic codes,” in Acoustics, Speech, and Signal Processing, IEEE Int Conf (ICASSP’87), April 1987, pp. 1957-1960.
【非特許文献18】[18] ISO/IEC 23003-3:2012, “MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding,” 2012.
【非特許文献19】[19] F.-K. Chen and J.-F. Yang, “Maximum-take-precedence ACELP: a low complexity search method,” in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP’01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 693-696.
【非特許文献20】[20] R. P. Kumar, “High computational performance in code exited linear prediction speech model using faster codebook search techniques,” in Proceedings of the International Conference on Computing: Theory and Applications. IEEE Computer Society, 2007, pp. 458-462.
【非特許文献21】[21] N. K. Ha, “A fast search method of algebraic codebook by reordering search sequence,” in Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International Conference on, vol. 1. IEEE, 1999, pp. 21-24.
【非特許文献22】[22] M. A. Ramirez and M. Gerken, “Efficient algebraic multipulse search,” in Telecommunications Symposium, 1998. ITS’98 Proceedings. SBT/IEEE International. IEEE, 1998, pp. 231-236.
【非特許文献23】[23] ITU-T Recommendation G.191, “Software tool library 2009 user’s manual,” 2009.
【非特許文献24】[24] ITU-T Recommendation P.863, “Perceptual objective listening quality assessment,” 2011.
【非特許文献25】[25] T. Thiede, W. Treurniet, R. Bitto, C. Schmidmer, T. Sporer, J. Beerends, C. Colomes, M. Keyhl, G. Stoll, K. Brandeburg et al., “PEAQ - the ITU standard for objective measurement of perceived audio quality,” Journal of the Audio Engineering Society, vol. 48, 2012.
【非特許文献26】[26] ITU-R Recommendation BS.1534-1, “Method for the subjective assessment of intermediate quality level of coding systems,” 2003.
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明の目的は、オーディオオブジェクト符号化についてそのような改善された概念を提供することである。
【課題を解決するための手段】
【0014】
本発明の目的は、請求項1に係る装置と、請求項15に係る方法と、請求項16に係る復号器と、請求項17に係る復号化方法と、請求項18に係るシステムと、請求項19に係る方法と、請求項20に係るコンピュータプログラムとによって達成される。
【0015】
スピーチ符号化アルゴリズムのコードブックベクトルを決定することによって、スピーチ信号を符号化する装置が提供される。この装置は、自己相関行列Rを決定する行列決定部と、自己相関行列Rに依存してコードブックベクトルを決定するコードブックベクトル決定部とを含む。行列決定部は、ベクトルrのベクトル係数を決定することによって、自己相関行列Rを決定するよう構成され、自己相関行列Rは複数の行と複数の列とを含み、ベクトルrは自己相関行列Rの列の1つ又は行の1つを示し、R(i , j) = r(|i− j|)であり、R(i , j)は自己相関行列Rの係数を示し、iは自己相関行列Rの複数の行の1つを示す第1インデックスであり、jは自己相関行列Rの複数の列の1つを示す第2インデックスである。
【0016】
この装置は、スピーチ信号を符号化するためにコードブックベクトルを使用するよう構成されている。例えば、この装置は符号化済みスピーチ信号を生成することができ、この符号化済みスピーチ信号は、複数の線形予測係数と、有声音の基本周波数の指示(例えばピッチパラメータ)と、コードブックベクトルの指示、例えばコードブックベクトルのインデックスとを含む。
【0017】
さらに、上述の実施形態に従う装置によって符号化された符号化済みスピーチ信号を復号化して復号化済みスピーチ信号を得る復号器が提供される。
【0018】
さらに、あるシステムが提供される。このシステムは、上述の実施形態に従い入力スピーチ信号を符号化して符号化済みスピーチ信号を得る装置を含む。さらに、このシステムは、上述の実施形態に従い符号化済みスピーチ信号を復号化して復号化済みスピーチ信号を得る復号器を含む。
【0019】
スピーチ符号化アルゴリズムACELPの目的関数についての改善された概念が提供され、そこでは、現在のフレームのパラメータを最適化するに際し、以前のフレームのインパルス応答の現在のフレームに対する影響だけでなく、現在のフレームのインパルス応答の次のフレームに対する効果をも考慮に入れる。幾つかの実施形態が、相関行列を変更することによって、このような改善を達成でき、その相関行列は自己相関行列への従来のACELP最適化の中核にあり、エルミート・テプリッツ構造(Hermitian Toeplitz structure)を有する。この構造を用いることにより、演算上の複雑さとメモリ要求の観点からみてACELP最適化をさらに効率化することができる。同時に、適用される知覚モデルはさらに一貫性がよくなり、フレーム間依存性が回避され得るので、パケットロスの影響下での性能を改善できる。
【0020】
ACELP方式を用いたスピーチ符号化は、知覚ドメインでの最小二乗アルゴリズムに基づいており、その知覚ドメインはフィルタによって特定される。本発明の実施形態によれば、最小二乗問題の従来の定義の演算上の複雑さは、ゼロインパルス応答の次のフレームへの影響を考慮することで軽減され得る。提案の修正法では、目的関数の中で現れる相関行列にテプリッツ構造を導入し、その目的関数とは構造を簡素化し演算量を削減するものである。提案の概念は、知覚的品質を低下させずに17%まで演算上の複雑さを低減できる。
【0021】
本発明の実施形態は、目的関数のわずかな修正によって、残余コードブックの最適化における演算量をさらに削減できるという知見に基づいている。この演算量の削減は、知覚的品質における低下を招かずに達成される。代替法として、ACELP残余最適化は反復的な探索アルゴリズムに基づいていることから、提案の修正法を用いて、演算量を増加させずに反復回数を増加させることが可能となり、この方法によって改善された知覚的品質を得ることも可能になる。
【0022】
既存、及び修正された目的関数は、知覚をモデル化し、知覚歪みを最小化するよう努めるものである。しかし、従来の手法に対する最適解は修正された目的関数に関して必ずしも最適ではなく、逆もまた然りである。このことだけで、1つの手法が他の手法より優れていることを意味するものではないが、分析的な議論によると、修正された目的関数の方が一層一貫性を有することが示されている。具体的には、従来の目的関数とは対照的に、提案の概念は、1つのサブフレーム内の全てのサンプルを、一貫しかつ良好に定義された知覚的及び信号モデルを用いて、同等に取り扱う。
【0023】
いくつかの実施形態において、提案の修正法は、残余コードブックの最適化だけを変更するように適用可能である。したがって、この方法はビットストリーム構造を変更せず、既存のACELPコーデックに対する後方互換性をもって適用可能である。
【0024】
さらに、スピーチ符号化アルゴリズムのコードブックベクトルを決定することにより、スピーチ信号を符号化する方法が提案される。この方法は、
−自己相関行列Rを決定するステップと、
−自己相関行列Rに依存してコードブックベクトルを決定するステップと、を含む。
【0025】
自己相関行列Rを決定するステップは、ベクトルrのベクトル係数を決定するステップを含む。自己相関行列Rは複数の行と複数の列とを含む。ベクトルrは自己相関行列Rの前記列の1つ又は前記行の1つを示し、ここで
R(i , j) = r(|i− j|)
である。
【0026】
R(i,j)は自己相関行列Rの係数を示し、iは自己相関行列Rの複数の行の1つを示す第1インデックスであり、jは自己相関行列Rの複数の列の1つを示す第2インデックスである。
【0027】
さらに、上述の実施形態に従ってスピーチ信号を符号化する方法に従って符号化された符号化済みスピーチ信号を復号化し、復号化済みスピーチ信号を得る方法が提案される。
【0028】
さらに、次の方法が提案される。この方法は、
−スピーチ信号を符号化する上述の方法に従って入力スピーチ信号を符号化し、符号化済みスピーチ信号を得るステップと、
−スピーチ信号を復号化する上述の方法に従って符号化済みスピーチ信号を復号化して復号化済みスピーチ信号を得るステップと、を含む。
【0029】
さらに、コンピュータ又は信号プロセッサ上で実行されたとき、上述の方法を実行するためのコンピュータプログラムが提供される。
【0030】
好適な実施形態は従属項において提供される。
【0031】
以下に、本発明の好ましい実施形態について図面を参照しながら説明する。
【図面の簡単な説明】
【0032】
【
図1】一実施形態に従い、スピーチ符号化アルゴリズムのコードブックベクトルを決定することにより、スピーチ信号を符号化する装置を示す。
【
図3】一実施形態に従ってスピーチ信号を符号化する装置と復号器とを含むシステムを示す。
【発明を実施するための形態】
【0033】
図1は、一実施形態に従いスピーチ符号化アルゴリズムのコードブックベクトルを決定することにより、スピーチ信号を符号化する装置を示す。
【0034】
この装置は、自己相関行列Rを決定するための行列決定部(110)と、自己相関行列Rに依存してコードブックベクトルを決定するためのコードブックベクトル決定部(120)とを備えている。
【0035】
行列決定部(110)は、ベクトルrのベクトル係数を決定することにより、自己相関行列Rを決定するよう構成されている。
【0036】
自己相関行列Rは複数の行と複数の縦列とを含み、ベクトルrは自己相関行列Rの列の1つと行の1つとを示し、R(i , j) = r(|i− j|)である。
【0037】
R(i,j)は自己相関行列Rの係数を示し、iは自己相関行列Rの複数の行の1つを示す第1インデックスであり、jは自己相関行列Rの複数の列の1つを示す第2インデックスである。
【0038】
この装置は、スピーチ信号を符号化するためにコードブックベクトルを使用するよう構成されている。例えば、この装置は符号化済みスピーチ信号を生成することができ、この符号化済みスピーチ信号は、複数の線形予測係数と、有声音の基本周波数の指示(例えばピッチパラメータ)と、コードブックベクトルの指示とを含む。
【0039】
例えば、スピーチ信号を符号化する特定の実施形態によれば、本装置は、スピーチ信号に依存して複数の線形予測係数(a(k))を決定するよう構成されてもよい。さらに、本装置は、複数の線形予測係数(a(k))に依存して残余信号を決定するよう構成される。さらに加えて、行列決定部110は、残余信号に依存して自己相関行列Rを決定するよう構成されてもよい。
【0040】
以下では、本願発明の幾つかのさらなる実施形態について説明する。
【0041】
式3と式4とに戻って、式3は次のように知覚モデルの適合性を示す二乗誤差を定義しており、
式4は最大化されるべき探索基準を示している。
【0042】
ACELPアルゴリズムは、式4に中心を合わせたものであり、一方、式4は式3に基づいている。
【0043】
幾つかの実施形態は、これら式の分析により、量子化された残余値e(k)が、インデックスkに依存して誤差エネルギーε
2に対して非常に異なる効果を持つことが明らかである、という知見に基づいている。例えば、インデックスk=1及びk=Nの場合を考慮した場合、もし残余コードブックの唯一の非ゼロ値がk=1のときに現れたならば、次に誤差エネルギーε
2は次式のようになり、
一方、k=Nの場合には、誤差エネルギーε
2は次式のようになる。
【0044】
換言すれば、e(1)は範囲1〜Nのインパルス応答h(k)で重み付けられ、一方e(N)はh(1)だけで重み付けられる。スペクトル重みの点からみれば、このことは、極端な場合にはe(N)が線形的に重み付けられるように、各e(k)が異なるスペクトル重み関数で重み付けられることを意味している。知覚的モデリングの観点からみれば、1つのフレームの中の全てのサンプルに対して同じ知覚的重みを適用することは、有意義であろう。よって、式3はZIRを次のフレームの中へと考慮するように拡張されるべきである。ここで、特に、先行技術との違いは、前のフレームからのZIRと次のフレーム内へのZIRとの両方が考慮されるという点に注目すべきである。
【0045】
e(k)をオリジナルの量子化されていない残余とし、
を量子化された残余と仮定する。さらに、両方の残余を1〜Nの範囲内で非ゼロとし、その他の範囲ではゼロと仮定する。そこで、次式となる。
【0046】
同様に、同じ関係式を行列形式で次のように表すことができる。
ここで、
はインパルス応答h(k)に対応した無限次元の畳み込み行列である。これを式3に代入すると、
となり、ここで
はh(n)の自己相関に対応した有限サイズのエルミート・テプリッツ行列である。式4についても同様の導出により、次の目的関数が得られる。
【0047】
この目的関数は、式4と非常に似ている。主たる相違は、相関行列Bに代えてエルミート・テプリッツ行列Rを分母に用いた点である。
【0048】
上述の通り、この新規な公式化は、1つのフレーム内の残余eの全てのサンプルが同じ知覚的重み付けを受けることになる、という利点を有する。しかしながら、重要なことは、この公式化は演算上の複雑さと共にメモリ要求についても、かなりの利点をもたらすことである。Rはエルミート・テプリッツ行列であるから、第1列r(0)...r(N−1)はこの行列を完全に定義している。換言すれば、完全なN×Nの行列を記憶する代わりに、N×1のベクトルr(k)を記憶するだけで十分であるから、メモリ割り当てにおいてかなりの節約になるということである。さらに、全てのN×N要素を決定する必要がないだけでなく、第1のN×1列を決定するだけでよいので、演算上の複雑さも同様に低減される。また、要素(i,j)がR(i , j) = r(|i− j|)によって発見できるので、その行列内での指標付けも簡易になる。
【0049】
式10における目的関数が式4と非常に類似しているので、一般のACELPの構造は維持され得る。特に、以下の如何なる演算もいずれかの目的関数を用いて、アルゴリズムのわずかな修正だけで実行できる。
1.LTP遅れ(適応型コードブック)の最適化
2.残余のモデル化のためのパルスコードブック(固定されたコードブック)の最適化
3.個別的又は連帯的な、LTPとパルスのゲインの最適化
4.性能が式3の二乗誤差によって測定される他のパラメータの最適化
【0050】
従来のACELPアプリケーションにおいて修正されるべき唯一の部分は、行列Rで置き換えられる相関行列Bと、次のフレームへZIRを包含させなければならない目標値との取り扱いである。
【0051】
幾つかの実施例では、相関行列BがACELPアルゴリズム内のどの箇所に表れるかに拘わらず、相関行列Bを自己相関行列Rによって置き換えることにより、本発明の概念を利用する。行列Bの全ての出現が無くなれば、その値を計算することが回避され得る。
【0052】
例えば、自己相関行列Rは、自己相関行列Rの第1列r(0), .., r(N-1)の係数を決定することによって、決定される。
【0053】
行列Rは式9においてR=H
THによって定義される。従って、その要素R
ij=r(i−j)は次式によって計算され得る。
【0054】
すなわち、系列r(k)はh(k)の自己相関である。
【0055】
しかしながら、r(k)は、さらに効率的な手段によって取得され得る場合も多い。特に、AMRやG.718などのスピーチ符号化標準では、系列h(k)は、プリエンファシスを含めるべく用いられる知覚的重み関数W(z)によってフィルタリングされた線形予測フィルタA(z)のインパルス応答である。換言すれば、h(k)は線形予測モデルの知覚的に重み付けられたインパルス応答を示している。
【0056】
フィルタA(z)は、通常、スピーチ信号r
X(k)の自己相関から推定され、ここで、r
X(k)は既知である。H(z)=A
-1(u)W(z)であるから、自己相関系列r(k)は次式によりw(k)の自己相関を計算することによって決定され得る。
そのため、h(k)の自己相関は次式のようになる。
【0057】
幾つかの実施例では、これら式は全体システムの設計に依存して修正されてもよい。
【0058】
次に、コードブックのコードブックベクトルは、例えば自己相関行列Rに基づいて決定されてもよい。特に、幾つかの実施例に従えば、式10はコードブックのコードブックベクトルを決定するために使用されてもよい。
【0059】
この文脈において、式10は、
の形式で目的関数を定義しており、ここでは行列Rが対称的なテプリッツ構造を有するという点を除けば、この形式はスピーチ符号化標準AMRやG.718におけるのと同様な形式である。目的関数は、基本的に、目標ベクトルdとコードブックベクトル
との間の正規化された相関であり、最も良好な可能性のあるコードブックベクトルは、正規化された相関
について最も高い値を与える、つまり正規化された相関
を最大化するものである。
【0060】
よって、コードブックベクトルは上述の標準における幾つかの手法と同様の手法を用いて最適化され得る。特に、以下に説明するように、例えば残余に対して最良の代数コードブック(即ち固定のコードブック)ベクトル
を発見する非常に簡素なアルゴリズムが適用され得る。しかしながら、効率的な探索アルゴリズムの設計にかなりの努力が投下されてきたこと(AMR及びG.718を参照)、及びこの探索アルゴリズムが唯一の例示し得る適用例であることに注目すべきである。
【0061】
1.初期コードブックベクトル
を定義し、パルス数をp=0に設定する。
2.初期コードブックベクトル品質尺度をf
0=0に設定する。
3.一時的コードブック品質尺度を
に設定する。
4.コードブックベクトルの各位置kについて、
(i)pを1ずつ増加する
(ii)もし位置kが負のパルスを既に含んでいる場合には、ステップ(vii)を続ける
(iii)一時的コードブックベクトル
を生成して、位置kにおいて正のパルスを追加する
(iv)その一時的コードブックベクトルの品質をf(ε
p+)によって評価する
(v)その一時的コードブックベクトルがそれ以前の如何なるコードブックよりも良好である場合
には、そのコードブックベクトルを保存し、
に設定し、次の反復へと続く
(vi)もし位置kが正のパルスを既に含んでいる場合には、次の反復へと続く
(vii)一時的コードブックベクトル
を生成し、位置kにおいて負のパルスを追加する
(viii)その一時的コードブックベクトルの品質をf(ε
p-)によって評価する
(ix)その一時的コードブックベクトルがそれ以前の如何なるコードブックよりも良好である場合
には、このコードブックベクトルを保存し、
に設定し、次の反復へと続く
5.コードブックベクトル
を、保存されたコードブックベクトルの中で最後(つまり最良)であると定義する。
6.もしパルスpの数が所望のパルスの数に到達すれば、次に出力ベクトルを
と定義し、停止する。もしそうでなければ、ステップ4を継続する。
【0062】
既に指摘したように、従来のACELPアプリケーションと比べて、幾つかの実施例では、ZIRを次のフレームに含めるように目標値が修正される。
【0063】
式1は、ACELP型コーデックにおいて使用される線形予測モデルを表している。現在のフレーム(及び全ての将来のフレーム)の残余がゼロに設定された場合に、ゼロインパルス応答(ZIR、またゼロ入力応答としても知られている)は線形予測モデルの出力に当てはまる。このZIRは、位置Nから前方(将来)へゼロである残余を次式のように定義することによって、容易に計算され得る。
これにより、ZIRは次のように定義され得る。
【0064】
このZIRを入力信号から差し引くことにより、現在のフレームより前方へのみからの残余に依存する信号が得られる。
【0065】
等価的に、ZIRは過去の入力信号を次式のようにフィルタリングすることにより決定し得る。
【0066】
ZIRが取り除かれている入力信号は、目標値としてよく知られており、位置Kで始まるフレームについてd(n)=x(n)−ZIR
K(n)として定義され得る。この目標値は、原則としてAMR及びG.718標準における目標値と完全に等しい。信号を量子化する際、量子化された信号
はフレームの持続時間K≦n<K+Nについてd(n)と比較される。
【0067】
逆に、現在のフレームの残余は後続のフレームに対して影響を及ぼすので、信号を量子化する際には、その影響を考慮することが有用である。つまり、現在のフレームを超えてn>K+Nにおいても偏差
を評価したいと望む可能性がある。しかしながら、それを実行するために、後続のフレームの残余をゼロに設定することによってのみ、現在のフレームの残余の影響を考慮したいと望む可能性もある。そのため、次のフレーム内への
のZIRが比較されてもよい。換言すれば、修正された目標値が次式で得られる。
【0068】
等価的に、A(z)のインパルス応答h(n)を使用することで、次式となる。
【0069】
この式は、簡便な行列形式d'=Heで記載することができ、ここでH及びeは式2と同様に定義される。修正された目標値は、式2の正にxであると見なすことができる。
【0070】
行列Rの計算において、理論上、インパルス応答h(k)は無限数列であり、現実のシステムでは実現性のないものであることに留意されたい。
【0071】
しかしながら、次のいずれかが可能である。
1)インパルス応答を有限長まで切り詰め又は窓掛けし、切り詰められたインパルス応答の自己相関を決定すること。
2)関連するLP及び知覚フィルタのフーリエスペクトルを使用してインパルス応答のパワースペクトルを計算し、逆フーリエ変換によって自己相関を得ること。
【0072】
ここで、LTPを用いた拡張方法について説明する。
【0073】
長時間予測子(LTP:long-time predictor)は、また事実上、線形予測子である。
【0074】
ある実施形態によれば、行列決定部110は知覚的に重み付けされた線形予測子、例えば長時間予測子に基づいて、自己相関行列Rを決定するよう構成されてもよい。
【0075】
LP及びLTPは1つの結合予測子へと畳み込まれることができ、その結合予測子はスペクトル包絡形状とハーモニック構造との両方を含んでいる。そのような予測子のインパルス応答は非常に長くなるであろうし、そのため従来技術では取り扱うことが非常に難しいものである。しかしながら、線形予測子の自己相関が既知であれば、結合予測子の自己相関は、LTPを用いて前方及び後方に単に自己相関をフィルタリングすること、又は周波数領域での同様なプロセスによって、計算することができる。
【0076】
LTPを用いる従来方法では、LTP遅れがフレーム長さより短い場合に、問題があることに注意すべきである。なぜなら、LTPがそのフレーム内でフィードバック・ループを引き起こす恐れがあるからである。前記目的関数内にLTPが含まれる長所は、LTPの遅れがフレーム長さよりも短い場合に、このフィードバックが最適化において明確に考慮される点である。
【0077】
以下では、非相関領域における高速最適化のための拡張について説明する。
【0078】
ACELPシステムの設計における中心的な課題は、演算上の複雑性を削減することである。ACELPシステムは、LPによるフィルタリングが残余サンプル同士間の複雑な相関を引き起こすために複雑であり、それら残余サンプルとは行列B又は現在の文脈においては行列Rによって記述されるものである。e(n)のサンプル同士が相関しているので、e(n)を所望の精度で正確に量子化することは不可能である。しかし、式3又は式10の目的関数に関してそれぞれ最適な量子化を発見するために、試行錯誤の手法を用いて異なる量子化の多くの組合せが試されなければならない。
【0079】
行列Rの導入によって、これら相関に対する新たな視点が得られる。すなわち、Rはエルミート・テプリッツ構造を有するので、ハンケル行列の特異値分解、コレスキー分解(Cholesky decomposition)、ファンデルモンド分解(Vandermonde decomposition)などの複数の効率的な行列分解が適用され得る(非特許文献6及び7参照)(ハンケル行列はテプリッツ行列を逆転したものであり、そのため同じ分解がテプリッツ及びハンケル行列に適用され得る)。R=EDE
HをRの分解とし、DがRと同じサイズ、同じランクの対角行列とする。その場合、式9は次に以下のように修正され得る。
ここで、
である。Dは対角であるから、f(k)の各サンプルの誤差は他のサンプルf(i)に対して独立している。式10において、コードブックベクトルは最適ゲインによってスケールされ、それにより新たな目的関数は次のようになると考えられる。
【0080】
ここでも、(1つのラインの量子化を変更することは、全てのラインについて最適なゲインを変化させるので)サンプル同士は相関しているが、しかし、式10と比較すれば、相関の影響はここでは限定されている。しかしながら、たとえ相関が考慮されても、この目的関数の最適化は式3又は式10の最適化に比べてずっと簡単である。
【0081】
この分解手法を使用して次のことが可能になる。
1.所望の精度で任意の通常のスカラー又はベクトル量子化技術を適用すること。
2.任意の従来のACELPパルス探索アルゴリズムを用いて、目的関数として式12を使用すること。
【0082】
両方の手法が、式12について最適に近い量子化を与える。従来の量子化技術が一般にいかなる強引な方法(可能なレートループを除いて)を必要とせず、かつ行列DがBとRのいずれよりも簡素であるから、両方の量子化方法は従来のACELPパルス探索アルゴリズムに比べてより複雑性が低い。そのため、この手法における演算上の複雑性の主な原因は、行列分解の演算となる。
【0083】
幾つかの実施例では、コードブックのコードブックベクトルを決定するために式12を用いる。
【0084】
例えば、R=E
HDEの形式のRについて、幾つかの行列因数分解が存在する。例えば、
(a)例えばGNU Scientific Library (http://www.gnu.org/software/gsl/manual/html_node/Real-Symmetric-Matrices.html)を用いることで、固有値分解が計算され得る。行列Rは実数でかつ対称形(テプリッツと同様に)であり、それにより関数“gsl_eigen_symm()”が行列EとDを決定するために使用され得る。同じ固有値分解の他の構成は非特許文献6において容易に取得できる。
(b)非特許文献8に記載されたアルゴリズムを用いて、テプリッツ行列のファンデルモンド因数分解(非特許文献7)が使用され得る。このアルゴリズムは、行列EとDとをもたらすものであり、Eはファンデルモンド行列であり、そのファンデルモンド行列は不均一な周波数分布を持つ離散フーリエ変換と等価である。
【0085】
このような因数分解を使用することで、残余ベクトルeはf=E
He又はf'=D
1/2E
Heによって変換領域へ変換されることができる。この領域においてはいかなる一般的な量子化も適用可能であり、例えば
1.ベクトルf’はACELPの一般的な構成とまさに同様に代数コードブックによって量子化され得る。しかし、f’の成分同士は非相関であるから、ACELPにおけるような複雑な探索関数は不要であり、以下のような単純なアルゴリズムが適用され得る。
(a)初期ゲインをg=1に設定する。
(b)f’を
によって量子化する。
(c)f’におけるパルスの数が所定の値pより大きく、
の場合には、ゲインgを増加させ、ステップbに戻る。
(d)その他の場合、すなわち
におけるパルスの数が所定の値pより小さく、
の場合には、ゲインgを減少させ、ステップbに戻る。
(e)その他の場合、すなわち
におけるパルスの数が所定の値pと等しく、
の場合には、処理を停止させ得る。
2.標準AMR−WB+又はMPEG USACのTCXにおいてスペクトルラインの量子化に使用されているのと同様に、算術符号器が使用され得る。
【0086】
f’の要素が対角(式12から分かるように)であり、それら要素が式12の目的関数において同じ重みを持つので、それら要素は個別にかつ同じ量子化ステップサイズで量子化されることができる、という点に注意すべきである。その量子化は、式12における目的関数の最適な(最大の)値を自動的に発見するであろうし、その量子化精度をもつことも可能である。換言すると、上述の量子化アルゴリズムは、共に式12に関して最適な量子化をもたらすことになるであろう。
【0087】
最適化のこの利点は、f’の要素が別々に処理され得るという事実につながっている。もしあるコードブック手法が使用され、そこではコードブックベクトルc
kが非自明(1つ以上の非ゼロ要素を持つ)であるならば、これらコードブックベクトルはもはや独立した要素を持たず、行列因数分解の利点が失われるであろう。
【0088】
テプリッツ行列のファンデルモンド因数分解が選択されることができ、そのファンデルモンド行列がフーリエ変換行列ではあるが、偏在する周波数を持つ点に注目されたい。換言すると、ファンデルモンド行列は周波数ワープされたフーリエ変換に対応する。つまりこの場合には、ベクトルfはワープされた周波数スケール(非特許文献8の“root-exchange property”を参照)上での残余信号の周波数領域表現に対応する。
【0089】
重要な点は、この結果は周知ではないということである。実際上、この結果は、もし信号xが畳み込み行列Cを用いてフィルタリングされた場合に、次式となることを示し、
ここで、Vは(例えばワープされた)フーリエ変換(これは単位円上の要素を持つファンデルモンド行列である)であり、Dは対角行列である。すなわち、フィルタリングされた信号のエネルギーを測定することが必要ならば、周波数ワープされた信号のエネルギーが等価的に測定され得ることになる。逆に、ワープされたフーリエ領域においてなされるべき如何なる評価も、フィルタリングされた時間領域でも等価的に実行され得る。時間と周波数の二重性により、時間領域窓掛けと時間ワーピングとの間の等価性もまた存在する。しかし、実際上の問題は、上述の関係を満足する畳み込み行列Cを発見することが数値的に敏感な問題であり、それにより、畳み込み行列Cに代えて近似解
を発見する方が容易であるという点である。
【0090】
関係式||Cx||
2=||DVx||
2は、コードブックのコードブックベクトルを決定するために用いられ得る。
【0091】
そのため、ここでHによって、式2における畳み込み行列と同様の行列がCに代えて示されるであろうということにまず注目すべきである。次に、もし量子化ノイズ
を最小化したいと望む場合には、そのエネルギーは次式で求められる。
【0092】
次に、フレーム独立性についての拡張を説明する。
【0093】
符号化されたスピーチ信号が、ラジオ電波のような不完全な伝送ラインを用いて不変に伝送された場合、データのパケットは時折消失するであろう。もしパケットN−1を完全に復号するためにはパケットNが必要となるように、フレーム同士が互いに依存性を有するならば、パケットN−1の損失はパケットN−1とNの両方の合成を損なうであろう。一方、もしフレーム同士が独立しているならば、パケットN−1の損失はパケットN−1の合成だけを損なうであろう。そのため、フレーム間依存性の影響を受けない装置および方法は重要である。
【0094】
従来のACELPシステムでは、フレーム間依存性の主たる原因はLTPであり、ある程度までLPにも関係している。特に、両者は無限インパルス応答(IIR)フィルタであるから、損傷されたフレームは損傷サンプルの「無限の」テールをもたらすであろう。実際のところ、そのようなテールは幾つかのフレーム長を持ち得るので、知覚的に煩わしいものである。
【0095】
本発明の枠組みを使用することで、フレーム間依存性が生成される経路が、現在のフレームから次のフレームへとZIRによって定量化されうる。このフレーム間依存性を回避するため、従来のACELPに対する3つの修正法を実行する必要がある。
1.前のフレームから現在の(サブ)フレームまでのZIRを計算する際、量子化された残余ではなく、ゼロで拡張されたオリジナル(量子化されていない)残余から、ZIRが計算されるべきである。このようにして、前の(サブ)フレームからの量子化誤差は現在の(サブ)フレームに対して伝播しない。
2.現在のフレームを量子化する際、オリジナル信号と量子化された信号との間の、次のフレームへのZIRにおける誤差が考慮されなければならない。このことは、上述のように相関行列Bを自己相関行列Rによって置き換えることによってなし得る。これにより、次のフレームへのZIRにおける誤差が現在のフレーム内の誤差と共に最小化されることを確実にする。
3.誤差伝播がLPとLTPとに起因しているので、両成分はZIRに含まれていなければならない。これは、ZIRがLPだけのために計算される従来の手法とは異なる点である。
【0096】
もし、現在のフレームを量子化する際に前のフレームの量子化誤差が考慮されなければ、出力の知覚的品質における効率が低下する。したがって、誤差伝播の恐れがないときには、前の誤差を考慮するよう選択することが可能である。例えば、従来のACELPシステムは、全ての20msフレームが4個又は5個のサブフレームにサブ分割されるフレーミングを適用する。LTPと残余は、各サブフレームについて個別に量子化され、符号化されるが、全体のフレームはデータの1つのブロックとして伝送される。したがって、個別のサブフレームは消失されることはないが、完全なフレームが消失することはあり得る。さらに、フレーム境界においてのみフレーム独立性のZIRを使用する必要があるが、残りのサブフレーム間ではZIRがフレーム間依存性を持って使用され得る、ということになる。
【0097】
幾つかの実施形態では、現在のフレームのインパルス応答の効果を次のフレーム内、つまり現在のフレームの目的関数内に含めることによって、従来のACELPアルゴリズムを修正する。最適化問題の目的関数において、この修正は相関行列を、エルミート・テプリッツ構造を有する自己相関行列に置き換えることに相当する。この修正は次のような利点がある。
1.自己相関行列の追加されたエルミート・テプリッツ構造に起因して、演算の複雑性とメモリ要求とが低減される。
2.同じ知覚モデルが全てのサンプルに適用されるであろう。よって、知覚モデルの設計と調整がより簡易となり、その適用がより効率的にかつ一貫性を有することになる。
3.前のフレームからの量子化されていないインパルス応答と、次のフレームへの量子化されたインパルス応答とだけを考慮することにより、現在のフレームの量子化におけるフレーム間相関を完全に回避できる。このことは、パケットロスが予想されるようなシステムのロバスト性を改善できる。
【0098】
図2は、上記実施例に従う装置によって符号化された符号化済みスピーチ信号を復号化して、復号化済みスピーチ信号を得るための復号器220を示す。この復号器220は、符号化済みスピーチ信号を受信するよう構成され、この符号化済みスピーチ信号は、上記実施例の1つに従いスピーチ信号を符号化する装置によって決定された、コードブックベクトルの指示、例えば決定されたコードブックベクトルのインテックスを含む。さらに、復号器220は符号化済みスピーチ信号を復号化して、前記コードブックベクトルに依存して復号化済みスピーチ信号を得るよう構成されている。
【0099】
図3は、一実施例に従うシステムを示す。このシステムは、入力スピーチ信号を符号化して符号化済みスピーチ信号を得る上記実施例の1つに従う装置210を含む。符号化済みスピーチ信号は、スピーチ信号を符号化する装置210によって決定された決定済みコードブックベクトルの指示、例えばコードブックベクトルのインデックスを含む。さらに、このシステムは、符号化済みスピーチ信号を復号化して、復号化済みスピーチ信号を得る上記実施例に従う復号器220を含む。復号器220は符号化済みスピーチ信号を受信するよう構成されている。さらに、復号器220は符号化済み信号を復号化して、前記決定済みコードブックベクトルに依存して復号化済み信号を得るよう構成されている。
【0100】
これまで装置の文脈で幾つかの態様を説明してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロック、項目又は特徴を表している。
【0101】
本発明の分解された信号は、デジタル記憶媒体に格納されてもよく、またインターネットのような無線伝送媒体や有線伝送媒体のような伝送媒体によって伝送されてもよい。
【0102】
構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM又はフラッシュメモリなどを使用して実行することができる。
【0103】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的データキャリアを含んでも良い。
【0104】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、このプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動する。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されても良い。
【0105】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0106】
換言すれば、本発明の方法の一実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
【0107】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。
【0108】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるように構成されても良い。
【0109】
他の実施形態は、上述した方法の1つを実行するように構成又は適用された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0110】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0111】
幾つかの実施形態において、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスは、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態において、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0112】
上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
【国際調査報告】