IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴォイスエイジ・イーブイエス・エルエルシーの特許一覧

特許7237127時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置
<>
  • 特許-時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置 図1
  • 特許-時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置 図2
  • 特許-時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置 図3
  • 特許-時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-02
(45)【発行日】2023-03-10
(54)【発明の名称】時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置
(51)【国際特許分類】
   G10L 19/12 20130101AFI20230303BHJP
   G10L 19/18 20130101ALI20230303BHJP
   G10L 19/26 20130101ALI20230303BHJP
【FI】
G10L19/12
G10L19/18
G10L19/26 B
【請求項の数】 18
【外国語出願】
(21)【出願番号】P 2021188032
(22)【出願日】2021-11-18
(62)【分割の表示】P 2019096082の分割
【原出願日】2012-11-01
(65)【公開番号】P2022022247
(43)【公開日】2022-02-03
【審査請求日】2021-12-10
(31)【優先権主張番号】61/555,246
(32)【優先日】2011-11-03
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】521535412
【氏名又は名称】ヴォイスエイジ・イーブイエス・エルエルシー
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】トミー・ヴェヤンクール
(72)【発明者】
【氏名】ミラン・ジェリネク
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2011/086923(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/16
G10L 19/12
G10L 19/26
G10L 19/18
(57)【特許請求の範囲】
【請求項1】
時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための装置であって、
前記復号化された時間領域励振の周波数領域励振への第1の変換器と、
前記周波数領域励振の修正器であって、修正の前の前記周波数領域励振のエネルギーおよび修正の後の前記周波数領域励振のエネルギーを使用する、前記周波数領域励振への適用のための整合利得の計算機を含む、修正器と、
前記修正された周波数領域励振の修正された時間領域励振への第2の変換器と、
前記復号化された時間領域励振の修正された合成物を生成するために、前記修正された時間領域励振が供給される合成フィルタと
を含む、時間領域励振の合成物を修正するための装置。
【請求項2】
前記周波数領域励振は、周波数バンドに分割され、
前記修正器は、正規化された周波数領域励振を生成するために、周波数バンドによって変化する正規化ファクターを使用する、前記周波数領域励振の正規化器を含む、請求項1に記載の時間領域励振の合成物を修正するための装置。
【請求項3】
前記正規化ファクターは、より低い周波数バンドのためのより高い値と、より高い周波数バンドのためのより低い値とを有する、請求項2に記載の時間領域励振の合成物を修正するための装置。
【請求項4】
前記整合利得の計算機は、周波数バンド当たりの整合利得を計算し、
前記修正器は、第1の周波数よりも低い周波数バンドに関して、前記正規化された周波数領域励振に前記整合利得を適用するための計算機を含む、請求項2または3に記載の時間領域励振の合成物を修正するための装置。
【請求項5】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得の計算機は、周波数バンド当たりの整合利得を計算し、
前記修正器は、正規化された周波数領域励振を生成するために、正規化ファクターを使用する、前記周波数領域励振の正規化器を含み、第1のより低い周波数と第2のより高い周波数との間の周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値の発見器と、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値に等しいか、またはそれよりも高いとき、増幅ファクターだけ、前記周波数バンドの前記周波数ビンにおいて、前記整合利得を増幅するための増幅器と、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記周波数ビン中の前記正規化された周波数領域励振に前記増幅された整合利得を適用するための計算機と
を含む、請求項1に記載の時間領域励振の合成物を修正するための装置。
【請求項6】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得の計算機は、周波数バンド当たりの整合利得を計算し、
前記修正器は、正規化された周波数領域励振を生成するために、正規化ファクターを使用する、前記周波数領域励振の正規化器を含み、第1のより低い周波数と第2のより高い周波数との間の周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値の発見器と、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値よりも低いとき、減衰ファクターだけ、前記周波数バンドの前記周波数ビンにおいて、前記整合利得を減衰させるための減衰器と、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記周波数ビン中の前記正規化された周波数領域励振に前記減衰された整合利得を適用するための計算機と
を含む、請求項1に記載の時間領域励振の合成物を修正するための装置。
【請求項7】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得の計算機は、周波数バンド当たりの整合利得を計算し、
前記修正器は、正規化された周波数領域励振を生成するために、正規化ファクターを使用する、前記周波数領域励振の正規化器を含み、所与の周波数よりも高い周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値の発見器と、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値に等しいか、またはそれよりも高いとき、前記整合利得のための傾斜を計算し、計算された傾斜を前記整合利得に適用する計算機と、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記計算された傾斜が適用されている前記整合利得を、前記周波数ビン中の前記正規化された周波数領域励振に適用するための計算機と
を含む、請求項1に記載の時間領域励振の合成物を修正するための装置。
【請求項8】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得の計算機は、周波数バンド当たりの整合利得を計算し、
前記修正器は、正規化された周波数領域励振を生成するために、正規化ファクターを使用する、前記周波数領域励振の正規化器を含み、所与の周波数よりも高い周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値の発見器と、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値よりも低いとき、減衰ファクターだけ、前記周波数バンドの前記周波数ビンにおいて、前記整合利得を減衰させるための減衰器と、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記周波数ビン中の前記正規化された周波数領域励振に前記減衰された整合利得を適用するための計算機と
を含む、請求項1に記載の時間領域励振の合成物を修正するための装置。
【請求項9】
符号化パラメータによって符号化された音響信号を復号化するための装置であって、
前記音響信号の符号化パラメータに応答する時間領域励振のデコーダと、
前記時間領域励振の合成物を生成するために、前記復号化された時間領域励振に応答する合成フィルタと、
請求項1から8のいずれか一項に記載の時間領域励振の合成物を修正するための装置と
を含む、装置。
【請求項10】
時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法であって、
前記復号化された時間領域励振を周波数領域励振に変換するステップと、
前記周波数領域励振を修正するステップであって、修正の前の前記周波数領域励振のエネルギーおよび修正の後の前記周波数領域励振のエネルギーを使用して、前記周波数領域励振への適用のための整合利得を計算するステップを含む、ステップと、
前記修正された周波数領域励振を修正された時間領域励振に変換するステップと、
前記復号化された時間領域励振の修正された合成物を生成するために、前記修正された時間領域励振を合成するステップと
を含む、時間領域励振の合成物を修正するための方法。
【請求項11】
前記周波数領域励振は、周波数バンドに分割され、
前記周波数領域励振を修正するステップは、正規化された周波数領域励振を生成するために、周波数バンドによって変化する正規化ファクターを使用して、前記周波数領域励振を正規化するステップを含む、請求項10に記載の時間領域励振の合成物を修正するための方法。
【請求項12】
前記正規化ファクターは、より低い周波数バンドのためのより高い値と、より高い周波数バンドのためのより低い値とを有する、請求項11に記載の時間領域励振の合成物を修正するための方法。
【請求項13】
前記整合利得を計算するステップは、周波数バンド当たりの整合利得を計算するステップを含み、
前記周波数領域励振を修正するステップは、第1の周波数よりも低い周波数バンドに関して、前記整合利得を前記正規化された周波数領域励振に適用するステップを含む、請求項11または12に記載の時間領域励振の合成物を修正するための方法。
【請求項14】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得を計算するステップは、周波数バンド当たりの整合利得を計算するステップを含み、
前記周波数領域励振を修正するステップは、正規化された周波数領域励振を生成するために、正規化ファクターを使用して、前記周波数領域励振を正規化するステップと、第1のより低い周波数と第2のより高い周波数との間の周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値を発見するステップと、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値に等しいか、またはそれよりも高いとき、増幅ファクターだけ、前記周波数バンドの前記周波数ビンにおいて、前記整合利得を増幅するステップと、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記周波数ビン中の前記正規化された周波数領域励振に前記増幅された整合利得を適用するステップと
を含む、請求項10に記載の時間領域励振の合成物を修正するための方法。
【請求項15】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得を計算するステップは、周波数バンド当たりの整合利得を計算するステップを含み、
前記周波数領域励振を修正するステップは、正規化された周波数領域励振を生成するために、正規化ファクターを使用して、前記周波数領域励振を正規化するステップと、第1のより低い周波数と第2のより高い周波数との間の周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値を発見するステップと、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値よりも低いとき、減衰ファクターだけ、前記周波数バンドの前記周波数ビンにおいて、前記整合利得を減衰させるステップと、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記周波数ビン中の前記正規化された周波数領域励振に前記減衰された整合利得を適用するステップと
を含む、請求項10に記載の時間領域励振の合成物を修正するための方法。
【請求項16】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得を計算するステップは、周波数バンド当たりの整合利得を計算するステップを含み、
前記周波数領域励振を修正するステップは、正規化された周波数領域励振を生成するために、正規化ファクターを使用して、前記周波数領域励振を正規化するステップと、所与の周波数よりも高い周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値を発見するステップと、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値に等しいか、またはそれよりも高いとき、前記整合利得のための傾斜を計算し、計算された傾斜を前記整合利得に適用するステップと、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記計算された傾斜が適用されている前記整合利得を、前記周波数ビン中の前記正規化された周波数領域励振に適用するステップと
を含む、請求項10に記載の時間領域励振の合成物を修正するための方法。
【請求項17】
前記周波数領域励振は、それぞれが周波数ビンに分割される周波数バンドに分割され、
前記整合利得を計算するステップは、周波数バンド当たりの整合利得を計算するステップを含み、
前記周波数領域励振を修正するステップは、正規化された周波数領域励振を生成するために、正規化ファクターを使用して、前記周波数領域励振を正規化するステップと、所与の周波数よりも高い周波数バンドに関して、
前記正規化された周波数領域励振の周波数バンド当たりの最大値を発見するステップと、
前記周波数ビン中の前記正規化された周波数領域励振が、前記周波数バンドの前記最大値に所与のファクターを乗算することによって得られる値よりも低いとき、減衰ファクターだけ、前記周波数バンドの前記周波数ビンにおいて、前記整合利得を減衰させるステップと、
前記周波数ビン中で前記修正された周波数領域励振を生成するために、前記減衰された整合利得を、前記周波数ビン中の前記正規化された周波数領域励振に適用するステップと
を含む、請求項10に記載の時間領域励振の合成物を修正するための方法。
【請求項18】
符号化パラメータによって符号化された音響信号を復号化するための方法であって、
前記音響信号の符号化パラメータに応答して時間領域励振を復号化するステップと、
前記時間領域励振の合成物を生成するために、前記復号化された時間領域励振を合成するステップと、
請求項10から17のいずれか一項に記載の時間領域励振の合成物を修正するための方法のステップと
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための装置および方法に関する。
【背景技術】
【0002】
最新式の会話コーデックは、ビットレートが約8kbpsの状態で、明瞭な音声信号を極めて高品質で表すことができ、16kbpsのビットレートにおける明瞭さに近づけることができる。低ビットレートにおいてさえも、この音声の高品質を維持するためには、マルチモーダル(multi modal)符号化スキームを使用することができる。通常、入力音響信号は、その特性を反映する異なるカテゴリの間に分割される。たとえば、異なるカテゴリは、有声、無声および出だし音(onset:頭子音)のカテゴリを含むことができる。コーデックでは、これらのカテゴリのすべてに最適化される異なる符号化モードが使用される。
【先行技術文献】
【特許文献】
【0003】
【文献】Milan JelinekおよびPhilippe Gournay、PCT特許出願国際公開第03102921号、「A method and device for efficient frame erasure concealment in linear predictive based speech codecs」
【文献】T. Vaillancourt他、PCT特許出願国際公開第2007073604号、「Method anddevice for efficient frame erasure concealment in speech codecs」
【非特許文献】
【0004】
【文献】3GPP TS 26.190,「Adaptive Multi-Rate-Wideband(AMR-WB)speech codec」;Transcoding functions
【文献】J. D. Johnston、「Transform coding of audio signal using perceptual noise criteria」、IEEE J. Select. Areas Commun., vol.6、314~323頁、1988年2月
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、いくつかの展開されている音声コーデックでは、このマルチモーダルのアプローチが使用されておらず、明瞭な音声と異なる音響信号では、特に低いビットレートにおいて準最適な品質になる。コーデックが展開されたとき、ビットストリームが標準化されており、ビットストリームに対するあらゆる修正が、コーデックの相互運用性を壊すことになるということが原因で、エンコーダを修正することは困難である。しかし、デコーダの修正は、受信側で受け取られる品質を向上させるように実施することができる。
【課題を解決するための手段】
【0006】
第1の態様によれば、本開示は、時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための装置に関し、該装置は、復号化された時間領域励振の合成物のいくつかのカテゴリのうちの1つへの分類器と;復号化された時間領域励振の周波数領域励振への変換器と;復号化された時間領域励振の合成物が分類器によって分類されたカテゴリに応じる、周波数領域励振の修正器と;修正された周波数領域励振の修正された時間領域励振への変換器と;復号化された時間領域励振の修正された合成物を生成するために、修正された時間領域励振が供給される合成フィルタとを含む。
【0007】
別の態様によれば、本開示は、符号化パラメータによって符号化された音響信号を復号化するための装置に関し、その装置は、音響信号の符号化パラメータに応答する時間領域励振のデコーダと;前記時間領域励振の合成物を生成するように、復号化された時間領域励振に応答する合成フィルタと;時間領域励振の合成物を修正するための上記に述べた装置とを含む。
【0008】
第3の態様によれば、本開示は、時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法に関し、その方法は、復号化された時間領域励振の合成物をいくつかのカテゴリの1つに分類するステップと;復号化された時間領域励振を周波数領域励振に変換するステップと;復号化された時間領域励振の合成物が分類されたカテゴリに応じて、周波数領域励振を修正するステップと;修正された周波数領域励振を修正された時間領域励振に変換するステップと;復号化された時間領域励振の修正された合成物を生成するために、修正された時間領域励振を合成するステップとを含む。
【0009】
さらなる態様によれば、本開示は、符号化パラメータによって符号化された音響信号を復号化するための方法に係わり、その方法は、音響信号の符号化パラメータに応答して時間領域励振を復号化するステップと;前記時間領域励振の合成物を生成するために、復号化された時間領域励振を合成するステップと;時間領域励振の合成物を修正するための上記に述べた方法とを含む。
【0010】
時間領域励振の合成物を修正するための装置および方法に関する前述および他の特徴は、限定しない実施例として設けた次の非限定の記述を、添付図面を参照して読むと、より明らかになるはずである。
【図面の簡単な説明】
【0011】
図1】受動的なフレームおよび能動的な無声フレームを向上させるためのCELPデコーダの修正を示す簡単化したブロック図である。
図2】受動的なフレームおよび能動的な無声フレームを向上させるためのCELPデコーダの修正を示す詳細なブロック図である。
図3】一般のオーディオフレームを向上させるためのCELPデコーダの修正を示す簡単化したブロック図である。
図4】一般のオーディオフレームを向上させるためのCELPデコーダの修正を示す詳細なブロック図である。
【発明を実施するための形態】
【0012】
本開示は、相互運用性を維持し、かつ知覚品質を高めるように、デコーダ側でマルチモーダルの復号化を実施するアプローチに関するものである。本開示では、参考文献[3GPP TS 26.190,「Adaptive Multi-Rate-Wideband(AMR-WB)speech codec」;Transcoding functions]に記載されているAMR-WBが、例示的な例として使用されているが、このアプローチは、他のタイプの低ビットレートの音声デコーダに同様に適用することができることを念頭に置くべきであり、この文献の全部の内容は、参照によって本明細書に組み込まれる。
【0013】
図1を参照すると、このマルチモーダルの復号化を達成するためには、時間領域励振デコーダ102が、まず、受け取られたビットストリーム101、たとえばAMR-WBビットストリームを全部復号化して、完全な時間領域の符号励振線形予測(CELP:Code-Excited Linear Prediction)による復号化された励振を得る。復号化された時間領域励振は、線形予測(LP:Linear Prediction)合成フィルタ103によって処理され、デコーダの内部サンプリング周波数における音声/音響信号の時間領域合成物が得られる。AMR-WBでは、この内部サンプリング周波数は12.8kHzであるが、別のコーデックでは、それは、異なることができるはずである。
【0014】
LP合成フィルタ103からの現在のフレームの時間領域合成物は、ビットストリーム101からの音声区間検出(VAD:voice activity detection)情報109が提供される分類器104-105-106-301(図1図2および図3)によって処理される。分類器104-105-106-301は、時間領域合成物を分析して受動的な音声、能動的な有声音声、能動的な無声音声または一般のオーディオのいずれかとして分類する。受動的な音声(1051で検出される)は、音声バーストの間のすべてのバックグラウンドのノイズを含み、能動的な有声音声(1061で検出される)は、有声の特徴を有する能動的な音声バーストの間のフレームを表し、能動的な無声音声(1062で検出される)は、無声の特徴を有する音声バーストの間のフレームを表し、そして一般のオーディオ(3010で検出される)は、音楽または残響音声を表す。他のカテゴリが、追加されるか、または上記のカテゴリから導き出されることができる。開示するアプローチは、特に、ただし排他的でなく、受動的な音声、能動的な無声音声および一般のオーディオの知覚品質を向上させることを目指している。
【0015】
一度時間領域合成物のカテゴリが決定されると、変換器/修正器107は、非オーバーラップ周波数変換を使用して、時間領域励振デコーダ102からの復号化された励振を周波数領域に変換する。同様にオーバーラップ変換を使用することができるが、しかしそれは、端から端まで(end-to-end:エンドツーエンド)の遅延が増加するという意味を含み、それは、ほとんどの場合望まれない。次いで、励振の周波数表現は、変換器/修正器107中で異なる周波数バンドに分割される。周波数バンドは、固定のサイズを有することができるか、またはクリティカルバンドに依存することができる[全体の内容が参照によって本明細書に組み込まれる、J. D. Johnston、「Transform coding of audio signal using perceptual noise criteria」、IEEE J. Select. Areas Commun., vol.6、314~323頁、1988年2月参照]か、または任意の他の組み合わせである。次いで、バンド当たりのエネルギーが計算され、変換器/修正器107中のメモリに保存されて、修正がグローバルなフレームのエネルギーレベルを変化させていないことを保証するために、再成形プロセスの後で使用される。
【0016】
変換器/修正器107によって行われる周波数領域中の励振の修正は、合成物の分類によって異なることができる。受動的な音声および能動的な無声音声について、再成形は、ノイズを加えることによって低周波数を正規化することと、高周波数コンテンツをノイズだけと置き換えることとからなることができる。復号化された時間領域合成物のカットオフ周波数、すなわち低周波数と高周波数との間のリミットは、約1~1.2kHzの値に固定することができる。復号化された時間領域合成物の低周波数コンテンツのいくらかは、修正されないフレームと修正されたフレームとの間で切り替えられるとき、不自然な結果(artifact)を防止するために保存される。時間領域励振デコーダ102からの復号化されたピッチの関数として周波数ビンを選ぶことによって、カットオフ周波数をフレームごとに可変にすることも可能である。修正プロセスは、低ビットレートの音声コーデックと関連付けられた或る種類の電気ノイズを除去するという効果を有する。修正プロセスの後、6kHzより高い周波数におけるLPフィルタの利得の低下を補償するように、それらの周波数についてエネルギーをわずかに増加させることによって、周波数バンド当たりの初期エネルギーレベルを取り戻すために、周波数バンドごとの利得整合が適用される。
【0017】
一般のオーディオとして分類されたフレームでは、変換器/修正器107中の処理が異なる。まず、正規化が、すべてのバンドについて周波数バンドごとに実施される。正規化動作では、バンド内の最大周波数値の分数より低い周波数バンド内部のすべてのビンは、ゼロに設定される。より高周波数バンドには、より多いビンが、バンドごとにゼロに設定される。これは、ビット配分が高いが、より多くのビットがより低周波数に割り当てられている周波数定量化スキームをシミュレートしている。正規化プロセスの後、ゼロに設定されたビンをランダムノイズに置き換えるために、ノイズ充填(noise fill)を適用することができるが、しかしビットレートに依存して、ノイズ充填は、常には使用されない。修正プロセスの後、周波数バンドごとの利得整合が、周波数バンド当たりの初期エネルギーレベルを取り戻すために適用され、そして一般のオーディオ入力の場合、LPフィルタのシステム的な過小評価を補償するために、ビットレートに依存する傾斜是正が周波数バンドに沿って適用される。一般のオーディオ経路に対する別の差別化は、利得整合がすべての周波数ビンにわたって適用されないことに起因する。一般のオーディオのスペクトルが、通常、音声よりピーキー(peaky)なので、スペクトルのパルスを識別して、それをいくぶん強調することが可能であるとき、知覚品質は向上する。そうするためには、傾斜是正による十分な利得整合が、周波数バンド内部のもっとも高いエネルギーのビンだけに適用される。もっとも低いエネルギーのビンに関しては、わずかな利得整合だけがそれらのビンに適用される。これによって、スペクトルのダイナミックが高められることになる。
【0018】
励振周波数の再成形および利得整合の後、修正された時間領域励振を得るために、変換器/修正器107が逆周波数変換を適用する。この修正された励振は、LP合成フィルタ108によって処理され、修正された時間領域合成物が得られる。ディエンファサイジング(de-emphasizing)フィルタおよび再サンプラ112における16kHz(AMR-WBの例について)までの最終的なディエンファシス(de-emphasis)および再サンプリングの前に、上書き器110は、LP合成フィルタ103からの時間領域の復号化された合成物を、時間領域の復号化された合成物の分類に依存して修正されたLP合成フィルタ108からの時間領域合成物によって単に上書きする。
【0019】
受動的な音声の場合、能動的な無声音声の修正に比べて唯一の差は、より平坦なノイズ変動を与えるようにLP合成フィルタ108を平滑化するために、スムーザ111を使用することである。残された修正は、能動的な無声経路についてのものと同じである。次の文章では、開示するアプローチの実装形態のより詳細な実施例を、図2を参照して述べる。
【0020】
1) 信号分類
図2を参照すると、分類器104-105-106-301は、デコーダで、上文に記載のように、修正が適用されるビットレートに関して音声/音響信号の時間領域合成物1021を分類する。図面を簡単にするために、LP合成フィルタ103は、図2に示していない。デコーダでの分類は、全体の内容が参照によって本明細書に組み込まれる、参考文献[Milan JelinekおよびPhilippe Gournay、PCT特許出願国際公開第03102921号、「A method and device for efficient frame erasure concealment in linear predictive based speech codecs」]および[T. Vaillancourt他、PCT特許出願国際公開第2007073604号、「Method and device for efficient frame erasure concealment in speech codecs」]に記載されているものと同様であると共に、さらに、一般のオーディオ検出のためのいくつかの適用である。デコーダでのフレームの分類のために、次のパラメータが使用される;正規化相関rx、スペクトル傾斜基準et、ピッチ安定性カウンタpc、現在のフレームの最後における音響信号の相対的なフレームエネルギーEsおよびゼロ交差カウンタzcである。信号を分類するために使用されるこれらのパラメータの計算は、下記で説明される。
【0021】
正規化相関rxは、音声/音響信号の時間領域合成物Sout(n)に基づき、フレームの最後で計算される。時間領域励振デコーダ102からの最後のサブフレームのピッチ遅延が使用される。より具体的には、正規化相関rxは、次のようにピッチに同期して計算される。
【0022】
【数1】
【0023】
ただし、x(n)=Sout(n)であり、Tは、最後のサブフレームのピッチ遅延であり、t=L-Tであり、そしてLは、フレームサイズである。最後のサブフレームのピッチ遅延が、3N/2より大きい場合(Nはサブフレームサイズである)、Tは、最後の2つのサブフレームの平均のピッチ遅延に設定される。
【0024】
したがって、正規化相関rxは、音声/音響信号の時間領域合成物Sout(n)を使用して計算される。サブフレームサイズ(64サンプル)より小さいピッチ遅延に関して、正規化相関は、t=L-Tの瞬間およびt=L-2Tの瞬間で2回計算され、正規化相関rxは、これらの2つの計算値の平均値として与えられる。
【0025】
スペクトルの傾斜パラメータetは、エネルギーの周波数分布に関する情報を含む。非限定の実施例として、デコーダでのスペクトルの傾斜は、時間領域合成物の第1の正規化自己相関係数として推定される。これは、最後の3つのサブフレームに基づき、次のように計算される。
【0026】
【数2】
【0027】
ただし、x(n)=Sout(n)は、時間領域合成信号であり、Nは、サブフレームサイズであり、そしてLは、フレームサイズである(AMR-WBの例ではN=64およびL=256)。
【0028】
ピッチ安定性カウンタpcは、ピッチ期間の変動を評価する。これは、次のようにデコーダで計算される。
pc=|p+p-p-p| (3)
【0029】
値p0、p1、p2およびp3は、現在のフレームの4つのサブフレームからの閉ループのピッチ遅延に対応する(AMR-WBの例では)。
【0030】
相対的なフレームエネルギーEsは、dBでの現在のフレームエネルギーEfとその長期平均値Eltとの間の差として計算される。
=E-Elt (4)
【0031】
ただし、現在のフレームエネルギーEfは、フレームの最後でピッチに同期して計算されるdBでの時間領域合成物Sout(n)のエネルギーであり、次のようである。
【0032】
【数3】
【0033】
ただし、L=256(AMR-WBの例では)は、フレーム長であり、Tは、最後の2つのサブフレームの平均のピッチ遅延である。Tがサブフレームサイズより小さい場合、Tは、2Tに設定される(短いピッチ遅延については2つのピッチ期間を使用して計算されるエネルギー)。
【0034】
長期平均化エネルギーは、次の関係を使用して能動的な音声フレームに対して更新される。
lt=0.99Elt+0.01E (6)
【0035】
最後のパラメータは、時間領域合成物Sout(n)の1つのフレームに対して計算されるゼロ交差カウンタzcである。非限定の実施例として、ゼロ交差カウンタzcは、時間領域合成物の符号が、その期間の間、正から負に変化する回数をカウントする。
【0036】
分類をよりロバストなものにするために、複数の分類パラメータを合わせて考慮し、1つのメリット関数fmを形成するものとする。その目的のために、分類パラメータは、まず、線形関数を使用してスケーリングされる。パラメータpxを考えると、そのスケーリングされたバージョンは、次式を使用して得られる。
=k・p+c (7)
【0037】
スケーリングされたピッチ安定性カウンタpcは、0と1の間にクリップされる。関数の係数kpおよびcpは、そのパラメータのそれぞれについて実験的に見つけられている。実装形態のこの実施例で使用される値は、テーブル1(表1)に要約している。
【0038】
【表1】
【0039】
メリット関数は、次のように定義される。
【0040】
【数4】
【0041】
ただし、上付き文字sは、パラメータのスケーリングされたバージョンを示す。
【0042】
次いで、フレームの分類が、メリット関数fmを使用し、テーブル2(表2)に要約したルールに従って行われる。
【0043】
【表2】
【0044】
この分類に加えて、エンコーダによる音声区間検出(VAD:voice activity detection)に関する情報109は、AMR-WBの例の場合のように、ビットストリーム101中で伝達することができる(図1)。それゆえ、エンコーダが現在のフレームを能動的なコンテンツ(VAD=1)として見なしているのか、または受動的なコンテンツ(バックグラウンドノイズ、VAD=0)として見なしているのかを規定するために、1つのビットがビットストリーム101中に送られる。VAD情報が、コンテンツは受動的であると示すとき、分類器の一部分104、105、106および301は、分類を無声として上書きする。
【0045】
分類スキームは、さらに、一般のオーディオ検出を含む(図3の分類器の一部分301参照)。一般のオーディオのカテゴリは、音楽、残響音声を含み、そしてまた、バックグラウンドの音楽を含むことができる。分類の第2のステップは、分類器104-105-106-301が、十分な確かさで、現在のフレームを一般のオーディオとして分類することができることを可能にする。2つのパラメータが、この第2の分類のステップを実現するために使用される。パラメータの1つは、方程式(5)で公式化される全フレームエネルギーEfである。
【0046】
まず、これまでの40個の全フレームエネルギー変動の平均値
【0047】
【数5】
【0048】
が、次の関係を使用して計算される。
【0049】
【数6】
【0050】
次いで、最後の15個のフレームにわたるエネルギー変動履歴の統計的偏差σEが、次の関係を使用して決定される。
【0051】
【数7】
【0052】
その結果得られた偏差σEは、復号化された合成物のエネルギー安定性についての表示を与える。通常、音楽は、エネルギー安定性が音声より高い(エネルギー変動履歴の統計的偏差がより低い)。
【0053】
さらに、方程式(5)で公式化されるフレームエネルギーEfが-12dBより高いとき、無声として分類される2つのフレームの間の間隔Nuvを評価するために、第1のステップの分類が使用される。フレームが無声として分類され、フレームエネルギーEfが-9dBより大きいときは、信号が無声であるが無音でないことを意味し、方程式(6)で公式化される長期の能動的な音声エネルギーEltが40dBより低い場合、無声間隔カウンタが16に設定され、そうでなければ、無声間隔カウンタNuvが8だけ減少される。カウンタNuvは、また、能動的な音声信号については0と300の間に制限され、受動的な音声信号については0と125の間に制限される。この例示的な例では、能動的な音声信号と受動的な音声信号との間の差は、ビットストリーム101中に含められる音声区間検出(VAD)情報から推測することができることに注意されたい。
【0054】
長期平均値は、能動的な音声信号に関して、次のように、この無声フレームカウンタから導き出される。
【0055】
【数8】
【0056】
そして、受動的な音声信号に関しては、次のようである。
【0057】
【数9】
【0058】
さらにまた、長期平均値が大変大きく、偏差σEが大きいとき、たとえば、実装形態の現在の実施例では、
【0059】
【数10】
【0060】
およびσE>5であるとき、長期平均値は、次のように修正される。
【0061】
【数11】
【0062】
無声として分類されたフレームの間のフレーム数の長期平均値についてのこのパラメータは、フレームを一般のオーディオとして見なすべきかどうかを決定するために、分類器104-105-106-301によって使用される。無声フレームが時間内でより接近していればいるほど、フレームが音声特性をますます有しそうである(一般のオーディオである可能性がより少ない)。例示的な例では、フレームを一般のオーディオとして見なすのかどうかを決定するしきい値GAは、次のように定義される。
【0063】
【数12】
【0064】
方程式(9)で定義されるパラメータ
【0065】
【数13】
【0066】
は、大きいエネルギー変動を一般のオーディオとして分類しないように加えられ、その変動は、能動的な音声として維持される。
【0067】
励振に対して実施される修正は、フレームの分類によって決定され、或るタイプのフレームには、全く修正が施されない。次のテーブル3(表3)に、修正を実施することができる、またはできない場合を要約する。
【0068】
【表3】
【0069】
*一般のオーディオカテゴリは、実装形態に依存して、修正してもよく、またはしなくてもよい。たとえば、一般のオーディオは、受動的であるだけ修正してよく、あるいは、一般のオーディオは、能動的であるときだけ修正してもよく、そして、いつでも修正してもよく、または、いつでも修正しなくてもよい。
【0070】
2) 周波数変換
周波数領域の修正フェーズの間、励振は、変換領域中で表すことが必要である。たとえば、時間-周波数変換は、25Hzの周波数分解能を与えるタイプII DTC(離散コサイン変換;Discrete Cosine Transform)を使用して、変換器/修正器107の時間-周波数領域変換器201によって達成されるが、しかし、あらゆる他の適切な変換を使用することができる。別の変換が使用される場合、周波数分解能(上記で定義した)、周波数バンド数およびバンド当たりの周波数ビン数(さらに下記で定義する)は、それに従って改訂することが必要である。時間-周波数領域変換器201で計算される時間領域CELP励振の周波数表現feは、下記で与えられる。
【0071】
【数14】
【0072】
ただし、etd(n)は、時間領域CELP励振であり、Lはフレーム長である。AMR-WBの例では、フレーム長は、12.8kHzの対応する内部サンプリング周波数に対して256サンプルである。
【0073】
時間領域CELPデコーダ、たとえば102では、時間領域励振信号は、
td(n)=bv(n)+gc(n) (15)
によって与えられる、ただし、v(n)は、適応コードブック寄与度(adaptive codebook contribution)であり、bは適応コードブック利得であり、c(n)は固定コードブック寄与度(fixed codebook contribution)であり、gは固定コードブック利得である。
【0074】
3) バンド当たりのエネルギーの分析
時間領域励振に対するあらゆる修正の前に、変換器/修正器107は、それ自体が周波数領域励振のバンド当たりのエネルギーEbを計算するサブ計算機209を含む利得計算機208-209-210を含み、そして励振スペクトル再成形後にエネルギーを調整するために、計算したバンド当たりのエネルギーEbをメモリに保存する。12.8kHzのサンプリング周波数では、エネルギーは、次のように、サブ計算機209によって計算することができる。
【0075】
【数15】
【0076】
ただし、CBbは、バンド当たりの累積周波数ビンを表し、Bbは、次のように定義される周波数バンド当たりのビン数を表す。
【0077】
【数16】
【0078】
低周波数バンドは、参考文献[Milan JelinekおよびPhilippe Gournay、PCT特許出願国際公開第03102921号、「A method and device for efficient frame erasure concealment in linear predictive based speech codecs」]に記載のようにクリティカルなオーディオバンドに対応することができ、この文献の全部の内容は、参照によって本明細書に組み込まれるが、しかし、3700Hzより高い周波数バンドは、それらのバンド中の起こり得るスペクトルのエネルギー変動をより良く調和させるためには、少しだけより低いことがある。スペクトルのバンドのあらゆる他の構成も可能である。
【0079】
4) 受動的なフレームおよび能動的な無声フレームのための励振修正
a) 時間領域寄与度対ノイズ充填のカットオフ周波数
受動的なフレームおよび能動的な無声フレームについて、非修正の励振と修正された励振との間の明瞭な切り替えを達成するためには、時間領域励振の寄与率の少なくともより低い周波数が保存される。変換器/修正器107は、時間領域寄与度の使用を停止すべき周波数を決定するカットオフ周波数計算機203を含み、カットオフ周波数fcは、1.2kHzの最小値を有する。これは、復号化された励振の最初の1.2kHzが常に保存され、このカットオフ周波数は、時間領域励振デコーダ102からの復号化されたピッチ値に依存していて、より高くすることができることを意味する。第8次高調波が、すべてのサブフレームのもっとも低いピッチから計算され、時間領域寄与度は、この第8次高調波まで保存される。第8次高調波の推定は、次のように計算される。
【0080】
【数17】
【0081】
ただし、Fs=12800Hzであり、Nsubは、サブフレーム数であり、Tは、復号化されたサブフレームのピッチである。Nbが、周波数範囲Lfに含まれる最大周波数バンドであって、すべてのi<Nbについて、第8次高調波が配置されているバンドを見つけるために、次の不等式がなお検証されるもっとも高いバンドを探し求めることによって、検証が行われる。
【0082】
【数18】
【0083】
ただし、Lfは、次のように定義される。
【0084】
【数19】
【0085】
Lf中のその周波数バンドの指標は、
【0086】
【数20】
【0087】
と呼ぶことにし、それは、第8次高調波が配置されていそうである周波数バンドを示す。計算機のカットオフ周波数計算機203は、1.2kHzと、第8次高調波が配置されていそうである周波数バンドの最後の周波数
【0088】
【数21】
【0089】
との間のより高いほうの周波数として、次の関係を使用して、最終的なカットオフ周波数ftcを計算する。
【0090】
【数22】
【0091】
b) 正規化およびノイズ充填
変換器/修正器107は、カットオフ周波数fcより高い周波数バンドの周波数ビンをゼロに設定するゼロアー(zeroer)204をさらに含む。
【0092】
受動的なフレームおよび能動的な無声フレームについて、変換器/修正器107の正規化器(normalizer)205は、[0,4]の間において、時間領域CELP励振feの周波数表現の周波数バンドのfcより低い周波数ビンを、次の関係を使用して正規化する。
【0093】
【数23】
【0094】
その場合、変換器/修正器107は、ランダムノイズを発生するランダムノイズ発生器206を含み、そして周波数ビンのすべてにわたり一定レベルでノイズを加えるために、簡単なノイズ充填が加算器207によって実施される。このノイズ添加を記述する関数は、以下のように定義される。
【0095】
【数24】
【0096】
ただし、randは、-1と+1の間に制限される乱数の発生器である。
【0097】
c) 修正された励振スペクトルのバンド当たりのエネルギー分析
利得計算機208-209-210のサブ計算機208は、上記の章3で述べたものと同じ方法を使用して、スペクトル再成形Eb'後のバンド当たりのエネルギーを決定する。
【0098】
d) エネルギー整合
受動的なフレームおよび能動的な無声フレームについて、エネルギー整合は、励振スペクトル修正後にバンド当たりのエネルギーをその初期値に調節することだけから成り立つ。各バンドiについて、利得計算機208-209-210のサブ計算機210は、エネルギーを整合させるために、周波数バンド中のすべてのビンに適用される整合利得Gbを次のように決定する。
【0099】
【数25】
【0100】
ただし、Eb(i)は、上記の章3の方法を使用してサブ計算機209で決定される、励振スペクトル修正前のバンド当たりのエネルギーであり、E'b(i)は、サブ計算機208で計算される、励振スペクトル修正後のバンド当たりのエネルギーである。特定のバンドiについて、サブ計算機210で決定される、修正された(非正規化の)周波数領域励振
【0101】
【数26】
【0102】
は、次のように書くことができる。
【0103】
【数27】
【0104】
ただし、CBbおよびBbは、上記の章3で定義される。
【0105】
5) 一般のオーディオフレームのための励振修正
a) 正規化およびノイズ充填
ここで、図3を参照することにする。分類器の一部分301によって決定される一般のオーディオフレームに関して、正規化は、わずかに異なり、正規化器302によって行われる。まず、正規化ファクターNfは、バンドごとに変化し、低周波数バンドにはより高い値を使用し、高周波数バンドにはより低い値を使用する。その考えは、パルスの位置がより正確である低い周波数バンド中に、より大きい振幅をもたらし、パルスの位置がそれほど正確でないより高い周波数バンド中に、より小さい振幅をもたらすということである。この例示的な例では、周波数バンドによって変化する正規化ファクターNfは、次のように定義される。
Nf={16、16、16、16、16、16、16、12、12、12、12、8、8、8、8、8、4、4、2、2、1、1、1}
【0106】
特定の周波数バンドiに関して、一般のオーディオフレームの時間領域励振の周波数表現(周波数領域励振)feの正規化は、次のように記述することができる。
【0107】
【数28】
【0108】
ただし、Bbは、周波数バンド当たりのビン数であり、バンド当たりの累積周波数ビンは、CBbであり、feN(j)は、正規化された周波数領域励振である。BbおよびCBbは、上記の章3で記述している。
【0109】
さらにまた、正規化器302は、
【0110】
【数29】
【0111】
【数30】
【0112】
を得るために、各周波数バンド中のfeN(j)の最大値の分数Zfより低いすべての周波数ビンをゼロに設定するゼロアー(zeroer)(図示せず)を含む。
【0113】
ただし、Zfは、次のように表すことができる。
Zf={1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、0.5、0.5、0.5}
【0114】
より挑戦的なゼロ設定は、スペクトルのピーキーな性質(peakiness:とがった性質)を増加させることが望まれる場合、ベクトルZfの値を増加することによって実施することができる。
【0115】
b) 修正された励振スペクトルのバンド当たりのエネルギー分析
利得計算機303-304-306の計算機の一部分303は、上記の章3で記述したものと同じ方法を使用して、スペクトル再成形後のバンド当たりのエネルギーEb'を決定する。
【0116】
c) エネルギー整合
図3は、利得計算機303-304-306を示し、図4は、この利得計算機の計算機の一部分306をより詳細に記述する。
【0117】
一般のオーディオフレームに関して、エネルギー整合は、それがスペクトルのダイナミックも増加させることを目指すので、より難しい。各周波数バンドiについて、利得計算機303-304-306の計算機の一部分306のサブ計算機413は、方程式(22)中のものと同様に定義される推定される利得Geを計算する。
【0118】
【数31】
【0119】
ただし、Eb(i)は、上記の章3で述べた方法を使用して、計算機の一部分304で決定される励振スペクトル修正前のバンド当たりのエネルギーであり、E'b(i)は、計算機の一部分303で計算される、励振スペクトル修正後のバンド当たりのエネルギーである。
【0120】
計算機の一部分306のサブ計算機414は、修正された(非正規化された)周波数領域励振
【0121】
【数32】
【0122】
を形成するために、正規化器302およびスペクトルスプリッタ401-420からの正規化された周波数領域励振
【0123】
【数33】
【0124】
の最初の400Hz(または最初の4つのバンド)に、次の関係を使用して、利得Geを適用する。
【0125】
【数34】
【0126】
発見器404は、400Hzより高いバンドiごとに最大値maxa≦j<b(|feN(j)|)を決定し、ただし、a=CBb(i)およびb=CBb(i)+Bb(i)は、上記の章3で定義されている。
【0127】
正規化された周波数領域励振の400Hzと2kHzの間(バンド4~12)に含まれる周波数バンドに関して(モジュール420および450参照)、周波数ビン中の正規化された周波数領域励振が、
【0128】
【数35】
【0129】
である場合(モジュール451参照)、増幅器402は、方程式(28)の上の行に示すように、ファクター1.1だけ、サブ計算機413からの利得Geを増幅する。サブ計算機403は、修正された(非正規化された)周波数領域励振
【0130】
【数36】
【0131】
を得るために、方程式(28)の最初の行に従って、周波数ビン中の正規化されたスペクトルの励振
【0132】
【数37】
【0133】
に、増幅器402からの増幅された利得を適用する。
【0134】
さらに、正規化された周波数領域励振の400Hzと2kHzの間(バンド4~12)に含まれる周波数バンドに関して(モジュール420および450参照)、周波数ビン中の正規化された周波数領域励振が、
【0135】
【数38】
【0136】
である場合(モジュール451参照)、減衰器405は、方程式(28)の下の行に示すように、ファクター0.86だけ、サブ計算機413からの利得Geを減衰させる。サブ計算機406は、修正された(非正規化された)周波数領域励振
【0137】
【数39】
【0138】
を得るために、方程式(28)の下の行に従って、周波数ビン中の正規化されたスペクトルの励振
【0139】
【数40】
【0140】
に、減衰器405からの減衰された利得を適用する。
【0141】
要約すると、修正された(非正規化された)スペクトルの励振
【0142】
【数41】
【0143】
は、次のように与えられる。
【0144】
【数42】
【0145】
最後に、スペクトルのより高い部分、この実施例では正規化された周波数領域励振の2kHzより高い周波数バンド(バンド>12)に関して(モジュール420および450参照)、周波数ビン中の正規化された周波数領域励振が、
【0146】
【数43】
【0147】
である場合(モジュール452参照)、周波数バンドiの関数であり、またビットレートの関数とすることができる傾斜は、LPCフィルタの低すぎるエネルギー推定を補償するために、利得Geに加えられる。周波数バンド当たりの傾斜の値δ(i)は、次のように公式化される。
【0148】
【数44】
【0149】
傾斜は、傾斜計算機407-408によって計算され、修正された(非正規化された)周波数領域励振
【0150】
【数45】
【0151】
を得るために、サブ計算機409により、方程式(30)の上の行に従って、周波数ビンによる正規化された周波数領域励振
【0152】
【数46】
【0153】
に適用される。
【0154】
さらに、スペクトルのより高い部分、この例示的な例では正規化された周波数領域励振の2kHzより高い周波数バンド(バンド>12)に関して(モジュール420および450参照)、周波数ビン中の正規化された周波数領域励振が、
【0155】
【数47】
【0156】
である場合(モジュール452参照)、減衰器410は、修正された(非正規化された)周波数領域励振
【0157】
【数48】
【0158】
を得るために、サブ計算機411により、方程式(30)の下の行に従って、周波数ビンによって正規化されたスペクトルの励振
【0159】
【数49】
【0160】
に適用される減衰利得
【0161】
【数50】
【0162】
を計算する。
【0163】
要約すると、非正規化されたスペクトルの励振
【0164】
【数51】
【0165】
が、次のように決定される。
【0166】
【数52】
【0167】
ただし、aおよびbは、本明細書で上記に述べている。最新のバンドに適用される利得をさらに増加することも可能であり、その場合、LPCのエネルギー整合は最も悪くなる。
【0168】
6) 逆周波数変換
結合器453は、全部そろった修正された(非正規化された)周波数領域励振
【0169】
【数53】
【0170】
を形成するために、サブ計算機414、403、406、409および411からの修正された(非正規化された)周波数領域励振
【0171】
【数54】
【0172】
に寄与度を結合する。
【0173】
周波数領域処理が完了した後、逆周波数-時間変換202が、時間領域の修正された励振を見出すために、結合器453からの修正された(非正規化された)周波数領域励振
【0174】
【数55】
【0175】
に適用される。この例示的な実施形態では、周波数-時間変換が、25Hzの分解能を与える時間-周波数変換のために使用されるのと同じタイプII DCTの逆を用いて達成される。さらに、あらゆる他の変換を使用することができる。修正された時間領域励振
【0176】
【数56】
【0177】
が、以下のように得られる。
【0178】
【数57】
【0179】
ただし、
【0180】
【数58】
【0181】
は、修正された励振の周波数表現であり、Lは、フレーム長である。この例示的な例では、フレーム長は、12.8kHzの対応する内部サンプリング周波数に対して256サンプルである(AMR-WB)。
【0182】
7) 合成フィルタリングおよび現在のCELP合成物の上書き
一度励振修正が完了されると、修正された励振は、現在のフレームについて修正された合成物を得るために、合成フィルタ108によって処理される。上書き器110は、この修正された合成物を使用して、復号化された合成物の上に上書きし、それによって知覚品質が高められる。
【0183】
次いで、16kHzまでの最後のディエンファシスおよび再サンプリングをディエンファシスフィルタおよび再サンプラ112で実施することができる。
【符号の説明】
【0184】
101 AMR-WBビットストリーム
102 時間領域励振デコーダ
103 LP合成フィルタ
104、105、106、301 分類器の一部分
107 変換器/修正器
108 LP合成フィルタ
109 音声区間検出(VAD)情報
111 LPフィルタスムーザ
112 ディエンファサイジングフィルタおよび再サンプラ
201 時間-周波数領域変換器
203 カットオフ周波数計算機
204 ゼロアー
205 正規化器
206 ランダムノイズ発生器
207 加算器
208、209、210 利得計算機のサブ計算機
302 正規化器
303、304、306 利得計算機の一部分の計算機
401 スペクトルスプリッタ
402 増幅器
403 サブ計算機
404 発見器
405 減衰器
406 サブ計算機
407 傾斜計算機
408 傾斜計算機
409 サブ計算機
410 減衰器
411 サブ計算機
413 サブ計算機
414 サブ計算機
420 モジュール、スペクトルスプリッタ
450 モジュール
451 モジュール
452 モジュール
453 結合器
1021 音声/音響信号の時間領域合成物
図1
図2
図3
図4