(58)【調査した分野】(Int.Cl.,DB名)
前記量子化ユニットは、前記音声信号が調波タイプに対応するとき、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのエンベロープを量子化するように構成された、請求項5または6に記載の装置。
前記サブバンドエンベロープ調節ユニットは、前記特定のサブバンドが中間サブバンドに続くとき、前記ビット割当ての信号帯域幅の前記中間サブバンドの量子化されたエンベロープに等しいように前記特定のサブバンドの前記量子化されたエンベロープを調節するように構成された、請求項5乃至7の何れか1項に記載の装置。
【発明を実施するための形態】
【0015】
本発明の諸実施形態で開示する技術的解決策を、諸実施形態と添付図面を参照して以下で説明する。明らかに、当該実施形態は例示的なものにすぎない。当業者は、創造的な作業なしに本明細書で与えた当該実施形態から他の実施形態を導出することができ、全てのかかる諸実施形態は本発明の保護範囲に入る。
【0016】
図1は、本発明の1実施形態に従う音声信号符号化方法の流れ図である。
【0017】
101では、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのサブバンド正規化因子を量子化する。
【0018】
以下では、MDCT変換を詳細な説明の1例として使用する。まず、MDCT変換を入力音声信号に対して実施して周波数領域係数を取得する。MDCT変換は、ウィンドウ化、時間領域エイリアシング、および離散DCT変換のような処理を含んでもよい。
【0019】
例えば、時間領域信号x(n)が正弦ウィンドウ化(sine−windowed)される。
【0023】
である。次に、時間領域エイリアシング操作を行う。即ち、
【0025】
である。I
L/2およびJ
L/2はそれぞれ、次数をL/2とした2つの正方行列を示す。即ち、
【0028】
DCT変換を当該時間領域に対して実施して、最終的に当該周波数領域のMDCT係数を取得する。即ち、
【0031】
当該周波数領域のエンベロープが当該MDCT係数から抽出されて量子化される。全体の周波数が、異なる周波数領域の解像度を有する複数のサブバンドに分割される。各サブバンドの正規化因子が抽出され、当該サブバンド正規化因子が量子化される。
【0032】
例えば、16kHzの帯域幅を有する周波数帯に対応する32kHzの周波数で標本化される音声信号に関して、そのフレーム長が20ms(640個の標本化点)である場合には、サブバンド分割を表1に示す形態に従って実施してもよい。
【0034】
まず、サブバンドを幾つかのサブバンドにグループ化し、グループ内のサブバンドを細かく分割する。各サブバンド内の正規化因子は、
【0036】
により定義される。L
pはサブバンド内の係数の数を示し、S
pはサブバンド内の開始点を示し、e
pはサブバンド内の終了点を示し、Pはサブバンドの総数を示す。
【0037】
正規化因子を取得した後、当該因子を対数領域で量子化して、量子化したサブバンド正規化因子wnormを取得してもよい。
【0038】
102では、量子化したサブバンド正規化因子に従って、または量子化したサブバンド正規化因子とビット・レート情報に従ってビット割当ての信号帯域幅を決定する。
【0039】
場合によっては、1実施形態では、当該ビット割当ての信号帯域幅sfm_limitを音声信号の帯域幅の一部として、例えば、低周波数では0〜sfm_limitの帯域幅の一部または当該帯域幅の中間部分として定義してもよい。
【0040】
1例では、ビット割当ての信号帯域幅sfm_limitを定義するとき、比率因子をビット・レート情報に従って決定してもよい。当該比率因子は、0より大きく1以下である。1実施形態では、ビット・レートが小さいほど比率因子も小さい。例えば、様々なビット・レートに対応する因子の値を表2に従って取得してもよい。
【0042】
あるいは、当該因子を式、例えば、
fact=qx(0.5+bitrate_value/128000)
に従って取得してもよい。ここで、bitrate_valueはビット・レートの値、例えば24000を示し、qは補正因子を示す。例えば、q=1と仮定してもよい。本発明の当該実施形態は、かかる具体的な値の例には限定されない。
【0043】
当該帯域幅の一部は、比例因子と量子化したサブバンド正規化因子wnormとに従って決まる。各サブバンド内のスペクトル・エネルギを、量子化したサブバンド正規化因子に従って取得してもよく、当該スペクトル・エネルギを、蓄積したスペクトル・エネルギが全サブバンドの総スペクトル・エネルギに当該比率因子を乗じた積より大きくなるまで、低周波数から高周波数まで各サブバンド内で蓄積してもよく、現在のサブバンドに続く帯域幅が上記帯域幅の一部として使用される。
【0044】
例えば、最低の蓄積周波数点をまず設定し、当該周波数点より低い各サブバンドのスペクトル・エネルギenergy_lowを計算してもよい。当該スペクトル・エネルギは、上記サブバンド正規化因子に従って次式により取得してもよい。
【0046】
qは、設定された最低の蓄積周波数点に対応するサブバンドを示す。
【0047】
それに応じて推定を行ってもよく、全てのサブバンドの合計スペクトル・エネルギenergy_sumが計算されるまでサブバンドを追加する。
【0048】
energy_lowに基づいて、サブバンドを低周波数から高周波数まで1つずつ追加し蓄積してスペクトル・エネルギenergy_limitを取得し、energy_limit>fact x energy_sumが満たされるかどうかを判定する。満たされない場合には、高蓄積スペクトル・エネルギのためにさらにサブバンドを追加する必要がある。満たされる場合には、現在のサブバンドを、定義された帯域幅の部分の最後のサブバンドとして使用する。現在のサブバンドのシーケンス番号sfm_limitを、当該定義された部分の帯域幅、即ち、0〜sfm_limitを示すために出力する。
【0049】
以上の例では、ビット・レートを使用して比率因子を決定した。別の例では、サブバンド正規化因子を使用して当該因子を決定してもよい。例えば、音声信号の調波クラスまたは雑音レベルnoise_levelをまずサブバンド正規化因子に従って取得する。一般に、音声信号の調波クラスが高くなるほど、雑音レベルは低くなる。以下では、雑音レベルを詳細な説明の例として使用する。雑音レベルnoise_levelを以下の式に従って取得してもよい。
【0051】
wnormは復号化されたサブバンド正規化因子を示し、sfmは周波数帯全体のサブバンドの数を示す。
【0052】
noise_levelが高いとき当該因子は大きく、noise_levelが低いときには当該因子は小さい。調波クラスをパラメータとして使用する場合には、当該調波クラスが高いとき当該因子は小さく、調波クラスが小さいときには当該因子は大きい。
【0053】
以上では0〜sfm_limitの低周波数帯域幅を使用しているが、本発明の当該実施形態はこれに限定されないことに留意されたい。必要に応じて、当該帯域幅の一部を別の形、例えば、非零の低周波数点からsfm_limitまでの帯域幅の一部で実装してもよい。かかる変形は全て本発明の実施形態の範囲に入る。
【0054】
103では、決定した信号帯域幅内のサブバンドにビットを割り当てる。
【0055】
ビット割当てを、決定した信号帯域幅内のサブバンドのwnorm値に従って実施してもよい。以下の反復方法、即ち、a)最大wnorm値に対応するサブバンドを発見し、特定数のビットを割り当て、b)それに従って当該サブバンドのwnorm値を減らし、c)ビットが完全に割り当てられるまでa)とb)を繰り返す、といった方法を使用してもよい。
【0056】
104では、サブバンドごとに割り当てたビットに従って当該音声信号のスペクトル係数を符号化する。
【0057】
例えば、符号化係数が格子ベクトル量子化法、または、MDCTスペクトル係数を量子化するための別の既存の方法を使用してもよい。
【0058】
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅を、量子化したサブバンド正規化因子とビット・レート情報に従って決定する。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
【0059】
例えば、決定された信号帯域幅が低周波数部分の0〜sfm_limitであるとき、信号帯域幅0〜sfm_limitの中でビットが割り当てられる。低ビット・レートの場合にビットを集約化することによって、選択された周波数帯が効果的に符号化されるように、かつ、符号化されていない周波数帯に対してより効果的な帯域幅拡張が実施されるように、ビット割当ての帯域幅sfm_limitを制限する。この理由は主に、ビット割当ての帯域幅が制限されていない場合には、分散した符号化ビットが高周波数の調波に割り当てられる可能性があるからである。しかし、このケースでは、時間軸でのビット分散は連続的でなく、そのため再構築された高周波数の調波は滑らかでなく途切れている。ビット割当ての帯域幅が制限されている場合には、分散したビットが低周波数に集約化され、低周波数信号を良好に符号化することができ、低周波数信号を用いることにより高周波数の調波に対して帯域幅拡張が実施され、より連続的な高周波数の調波信号が可能となる。
【0060】
場合によっては、1実施形態では、
図3に示す103で、ビット割当ての信号帯域幅sfm_limitを決定した後のビット割当て中に、より多くのビットが高周波数帯域に割り当てられるように、当該帯域幅内のサブバンドのサブバンド正規化因子をまず調節する。当該調節のスケールは、ビット・レートに対して自己適応的であってもよい。ここでは、帯域幅内で多くのエネルギを有する低周波数帯により多くのビットが割り当てられ、量子化に必要なビットが十分である場合に、サブバンド正規化因子を調節して当該周波数帯内の高周波数を量子化するためのビットを増やすことができることを考慮している。このように、多くの調波を符号化することができ、これは高周波数帯の帯域幅拡張に有益である。例えば、帯域幅の一部の中間サブバンドのサブバンド正規化因子を、当該中間サブバンドに続く各サブバンドのサブバンド正規化因子として使用する。具体的には、(sfm_limit/2)番目のサブバンドの正規化因子を、周波数sfm_limit/2−sfm_limit内の各サブバンドのサブバンド正規化因子として使用してもよい。sfm_limit/2が整数でない場合には、sfm_limit/2を切り上げるかまたは切り下げてもよい。このケースでは、ビット割当て中に、調節したサブバンド正規化因子を使用してもよい。
【0061】
さらに、本発明の別の実施形態によれば、本発明の当該実施形態で提供した符号化および復号化方法において、音声信号のフレームの分類をさらに考慮してもよい。このケースでは、本発明の当該実施形態において、様々な分類に関する様々な符号化と復号化のポリシーを使用することができる。その結果、様々な信号の符号化および復号化の品質が改善される。例えば、音声信号を雑音(noise)、調波(harmonic)、過渡信号(transient)のようなタイプに分類してもよい。一般に、雑音風の信号はフラットなスペクトルで雑音モードとして分類され、時間領域において突然変化する信号はフラットなスペクトルで過渡信号モードとして分類され、強い調波特性を有する信号は、大きく変化するスペクトルで多くの情報を含む、調波モードとして分類される。
【0062】
以下では、調波タイプおよび非調波タイプを詳細な説明に使用する。本発明の当該実施形態では、
図1に示す101の前に、音声信号のフレームが調波タイプに属するか非調波タイプに属するかを判定してもよい。音声信号のフレームが当該調波タイプに属する場合には、
図2に示す方法を連続的に実施する。具体的には、調波タイプのフレームに関して、ビット割当ての信号帯域幅を
図1に示す実施形態に従って定義してもよい。即ち、フレームのビット割当ての信号帯域幅を当該フレームの帯域幅の一部として定義してもよい。非調波タイプのフレームに関して、ビット割当ての信号帯域幅を、
図1に示す実施形態に従って帯域幅の一部に対して定義してもよく、または、ビット割当ての信号帯域幅を定義せず、フレームのビット割当て帯域幅をフレームの帯域幅全体として決定してもよい。
【0063】
音声信号のフレームを、ピーク平均率に従って分類してもよい。例えば、当該フレームのサブバンド(高周波数のサブバンド)の全部または一部の各サブバンドのピーク平均率が取得される。当該ピーク平均率は、サブバンドのピーク・エネルギをサブバンドの平均エネルギで除すことにより計算される。ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値以上であるとき、フレームが当該調波タイプに属すると判定し、ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値より小さいときには、当該フレームが非調波タイプに属すると判定する。当該第1の閾値および当該第2の閾値を必要に応じて設定または変更してもよい。
【0064】
しかし、本発明の当該実施形態はピーク平均率に従う分類の例には限定されず、別のパラメータに従って分類を行ってもよい。
【0065】
低ビット・レートの場合にビットを集約化することによって、選択された周波数帯が効果的に符号化されるように、かつ、符号化されていない周波数帯に対してより効果的な帯域幅拡張が実施されるように、ビット割当ての帯域幅sfm_limitを制限する。この理由は主に、ビット割当ての帯域幅が制限されていない場合には、分散した符号化ビットが高周波数の調波に割り当てられる可能性があるからである。しかし、このケースでは、時間軸でのビット分散は連続的でなく、そのため再構築された高周波数の調波は滑らかでなく途切れている。ビット割当ての帯域幅が制限されている場合には、分散したビットが低周波数に集約化され、低周波数信号を良好に符号化することができ、低周波数信号を用いることにより高周波数の調波に対して帯域幅拡張が実施され、より連続的な高周波数の調波信号が可能となる。
【0066】
以上では、符号化側での処理を説明した。これは、復号化側と逆の処理である。
図2は、本発明の1実施形態に従う音声信号の復号化方法の流れ図である。
【0067】
201では、量子化したサブバンド正規化因子を取得する。量子化したサブバンド正規化因子を、ビット・ストリームを復号化することによって取得してもよい。
【0068】
202では、量子化したサブバンド正規化因子に従って、または、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定する。202は
図1に示す102と同様であり、したがってその説明は繰り返さない。
【0069】
203では、決定した当該信号帯域幅内のサブバンドにビットを割り当てる。203は
図1の103と同様であり、したがってその説明は繰り返さない。
【0070】
204では、サブバンドごとに割り当てたビットに従って正規化スペクトルを復号化する。
【0071】
205では、復号化した正規化スペクトルに対して雑音充填と帯域幅拡張を実施して、正規化した全帯域スペクトルを取得する。
【0072】
206では、当該正規化した全帯域スペクトルとサブバンド正規化因子に従って音声信号のスペクトル係数を取得する。
【0073】
例えば、各サブバンドの正規化スペクトルに当該サブバンドのサブバンド正規化因子を乗ずることによって、音声信号のスペクトル係数を復元し取得する。
【0074】
本発明の当該実施形態によれば、符号化および復号化の最中に、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅が決定される。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
【0075】
本実施形態では、ステップ205で説明した雑音充填と帯域幅拡張は順序の点で限定されない。具体的には、雑音充填を帯域幅拡張の前に実施してもよい。または、帯域幅拡張を雑音充填の前に実施してもよい。さらに、本実施形態によれば、帯域幅拡張を周波数帯の一部について実施してもよく、雑音充填を当該周波数帯の他の部分に対して同時に実施してもよい。かかる変形は本発明の当該実施形態の範囲内にある。
【0076】
ゼロ周波数点の多くが、サブバンド符号化中の量子化器の制限に起因して生成されることがある。一般に、一部の雑音を充填して、再構築された音声信号の音が確実により自然なものであるようにしてもよい。
【0077】
雑音充填を最初に実施する場合には、雑音充填の後に帯域幅拡張を正規化スペクトルに対して実施して、正規化した全帯域スペクトルを取得してもよい。例えば、第1の周波数帯を、現在のフレームと当該現在のフレームより前のN個のフレームのビット割当てに従って決定し、コピーすべき周波数帯(コピー)として使用してもよい。Nは正の整数である。一般に、ビットが割り当てられた複数の連続的なサブバンドが当該第1の周波数帯の範囲として選択されることが望ましい。次に、高周波数帯域のスペクトル係数を当該第1の周波数帯のスペクトル係数に従って取得する。
【0078】
1例としてN=1である場合を用いると、場合によっては、1実施形態では、現在のフレームに対して割り当てたビットと以前のN個のフレームに割り当てたビットの間の相関関係を取得してもよく、取得した相関関係に従って第1の周波数帯を決定してもよい。例えば、現在のフレームに割り当てたビットをR_currentとし、以前のフレームに割り当てたビットをR_previousとすると、R_currentにR_previousを乗ずることによって相関関係R_correlationを取得してもよい。
【0079】
相関関係を取得した後、R_correlation≠0を満たす第1のサブバンドを、ビットが割り当てられた最高周波数帯last_sfmから低周波数帯へと検索する。これは、現在のフレームとその前のフレームの両方にビットが割り当てられていることを示す。当該サブバンドのシーケンス番号がtop_bandであると仮定する。
【0080】
1実施形態では、取得したtop_bandを第1の周波数帯の上限として使用してもよく、top_band/2を第1の周波数帯の下限として使用してもよい。前のフレームの第1の周波数帯の下限と現在のフレームの第1の周波数帯の下限の間の差が1kHz未満である場合には、前のフレームの第1の周波数帯の下限を現在のフレームの第1の周波数帯の下限として使用してもよい。これは、帯域幅拡張に対する第1の周波数帯の連続性を保証し、それにより帯域幅拡張の後の連続的な高周波数スペクトルを保証するためのものである。現在のフレームのR_currentをキャッシュして次フレームのR_previousとして使用する。top_limit/2が整数でない場合には、top_limit/2を切り上げるかまたは切り下げてもよい。
【0081】
帯域幅拡張の間、第1の周波数帯のスペクトル係数top_band/2−top_bandを高周波数帯域last_sfm−high_sfmにコピーする。
【0082】
以上では、雑音充填を最初に実施する1例を説明した。本発明の当該実施形態はそれには限定されない。具体的には、帯域幅拡張を最初に行い、次にバックグラウンド雑音を拡張された完全な周波数帯で充填してもよい。この雑音充填の方法は以上の例と同様であってもよい。
【0083】
さらに、高周波数帯域に関して、例えば、前述の範囲last_sfm−high_sfm、周波数帯範囲last_sfm−high_sfm内の充填されたバックグラウンド雑音を、復号化側で推定されたnoise_level値を用いることによってさらに調節してもよい。noise_levelを計算する方法については、式(8)を参照されたい。noise_levelは、復号化されたサブバンド正規化因子を用いることにより、充填された雑音の強度レベルを区別するために取得される。したがって、符号化ビットを送信する必要はない。
【0084】
高周波数帯域内のバックグラウンド雑音を、以下の方法に従って取得した雑音レベルを用いることによって調整してもよい。
【0087】
は復号化された正規化因子を示しnoise_CB(k)は雑音コードブックを示す。
【0088】
このように、低周波数信号を用いることによって帯域幅拡張が高周波数の調波に対して実施され、高周波数の調波信号をより連続的にすることができ、それにより音声品質が保証される。
【0089】
以上では、第1の周波数帯のスペクトル係数を直接コピーする1例を説明した。本発明によれば、第1の周波数帯域幅のスペクトル係数をまず調節してもよく、調節したスペクトル係数を用いることによって帯域幅拡張を実施して、高周波数帯域の性能をさらに高めることができる。
【0090】
正規化長をスペクトル平坦性情報と高周波数帯域の信号タイプに従って取得してもよく、第1の周波数帯のスペクトル係数は取得した正規化長に従って正規化され、第1の周波数帯の正規化スペクトル係数は高周波数帯域のスペクトル係数として使用される。
【0091】
スペクトル平坦性情報は、第1の周波数帯における各サブバンドのピーク平均率、第1の周波数帯に対応する時間領域信号の相関関係、または第1の周波数帯に対応する時間領域信号のゼロ交差率を含んでもよい。以下では、ピーク平均率を詳細な説明の1例として使用する。しかし、本発明の当該実施形態はそのような限定を示唆しない。具体的には、他の平坦性情報を調節に使用してもよい。ピーク平均率は、サブバンドのピーク・エネルギを当該サブバンドの平均エネルギで除したものから計算される。
【0092】
まず、第1の周波数帯の各サブバンドのピーク平均率を第1の周波数帯のスペクトル係数に従って計算し、当該サブバンドが調波サブバンドであるかどうかをピーク平均率の値と当該サブバンド内の最大ピーク値とに従って判定し、調波サブバンドの数n_bandを蓄積し、最後に、正規化長length_norm_harmをn_bandと高周波数帯域の信号タイプに従って自己適応的に決定する。
【0094】
ここで、Mは第1の周波数帯のサブバンドの数を示し、αは自己適応的な信号タイプを示し、調波信号の場合はα>1である。
【0095】
続いて、取得した正規化長を用いることによって第1の周波数帯のスペクトル係数を正規化してもよく、第1の周波数帯の正規化スペクトル係数は高周波数帯域の係数として使用される。
【0096】
以上は帯域幅拡張性能を改善する1例を示し、帯域幅拡張性能を改善できる他のアルゴリズムを本発明に適用してもよい。
【0097】
さらに、符号化側と同様に、音声信号のフレームの分類を復号化側でさらに考慮してもよい。このケースでは、本発明の当該実施形態では、様々な分類に関する様々な符号化および復号化のポリシーを使用することができ、それにより様々な信号の符号化および復号化の品質が改善する。音声信号のフレームを分類する方法については、符号化側の方法を参照されたい。ここではその方法は説明しない。
【0098】
フレーム・タイプを示す分類情報をビット・ストリームから抽出してもよい。調波タイプのフレームに関して、ビット割当ての信号帯域幅を
図2に示す実施形態に従って定義してもよい。即ち、フレームのビット割当ての信号帯域幅を当該フレームの帯域幅の一部として定義してもよい。非調波タイプのフレームに関して、ビット割当ての信号帯域幅を
図2に示す実施形態に従って、または、先行技術に従って帯域幅の一部に対して定義してもよく、ビット割当ての信号帯域幅を定義しなくともよい。例えば、フレームのビット割当て帯域幅を当該フレームの帯域幅全体として決定してもよい。
【0099】
周波数帯全体のスペクトル係数を取得した後、再構築された時間領域の音声信号を、周波数逆変換を使用することによって取得してもよい。したがって、本発明の当該実施形態では、非調波信号の品質を維持しつつ調波信号の品質を改善することができる。
【0100】
図3は、本発明の1実施形態に従う音声信号符号化装置のブロック図である。
図3を参照すると、音声信号符号化装置30は、量子化ユニット31、第1の決定ユニット32、第1の割当てユニット33、および符号化ユニット34を備える。
【0101】
量子化ユニット31は、音声信号の周波数帯を複数のサブバンドに分割し、各サブバンドのサブバンド正規化因子を量子化する。第1の決定ユニット32は、量子化ユニット31により量子化したサブバンド正規化因子に従って、または、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定する。第1の割当てユニット33は、第1の決定ユニット32により決定された信号帯域幅内のサブバンドにビットを割り当てる。符号化ユニット34は、サブバンドごとに第1の割当てユニット33により割り当てられたビットに従って音声信号のスペクトル係数を符号化する。
【0102】
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅を、量子化したサブバンド正規化因子とビット・レート情報に従って決定する。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
【0103】
図4は、本発明の別の実施形態に従う音声信号符号化装置のブロック図である。
図4に示す音声信号符号化装置40では、
図3に示すものと同様なユニットまたは要素は、同じ参照番号により示してある。
【0104】
ビット割当ての信号帯域幅を決定するとき、第1の決定ユニット32はビット割当ての信号帯域幅を音声信号の帯域幅の一部に対して定義してもよい。例えば、
図4に示すように、第1の決定ユニット32は第1の比率因子決定モジュール321を備えてもよい。第1の比率因子決定モジュール321は、ビット・レート情報に従って比率因子を判定するように構成される。当該比率因子は0より大きく1以下である。あるいは、第1の決定ユニット32は、第1の比率因子決定モジュール321を置き換えるための第2の比率因子決定モジュール322を備えてもよい。第2の比率因子決定モジュール322は、サブバンド正規化因子に従って音声信号の調波クラスまたは雑音レベルを取得し、調波クラスと雑音レベルに従って比率因子を決定する。
【0105】
さらに、第1の決定ユニット32はさらに、第1の帯域幅決定モジュール323を備える。比率因子を取得した後、第1の帯域幅決定モジュール323は、比率因子と量子化したサブバンド正規化因子に従って帯域幅の一部を決定してもよい。
【0106】
あるいは、1実施形態では、第1の帯域幅決定モジュール323は、帯域幅の一部を決定するとき、量子化したサブバンド正規化因子に従って各サブバンド内のスペクトル・エネルギを取得し、蓄積したスペクトル・エネルギが全サブバンドの総スペクトル・エネルギに比率因子を乗じた積より大きくなるまで、各サブバンド内のスペクトル・エネルギを低周波数から高周波数まで蓄積し、現在のサブバンドに続く帯域幅を当該帯域幅の一部として使用する。
【0107】
分類情報を考えると、音声信号符号化装置40が、音声信号のフレームを分類するように構成された分類ユニット35をさらに備えてもよい。例えば、分類ユニット35が、音声信号のフレームが調波タイプに属するか非調波タイプに属するかを判定してもよく、音声信号のフレームが調波タイプに属する場合には、量子化ユニット31をトリガしてもよい。1実施形態では、フレームのタイプをピーク平均率に従って判定してもよい。例えば、分類ユニット35がフレームのサブバンドの全部または一部から各サブバンドのピーク平均率を取得し、ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値以上であるとき、当該フレームが調波タイプに属すると判定し、ピーク平均率が第1の閾値より大きいサブバンドの数が第2の閾値より小さいときには、当該フレームが非調波タイプに属すると判定する。このケースでは、第1の決定ユニット32は、当該フレームが調波タイプに属するとみなし、ビット割当ての信号帯域幅をフレームの帯域幅の一部として定義する。
【0108】
あるいは、別の実施形態では、第1の割当てユニット33がサブバンド正規化因子調整モジュール331およびビット割当てモジュール332を備えてもよい。サブバンド正規化因子調整モジュール331が、決定した信号帯域幅内のサブバンドのサブバンド正規化因子を調節する。ビット割当てモジュール332は、調節したサブバンド正規化因子に従ってビットを割り当てる。例えば、第1の割当てユニット33が帯域幅の一部の中間サブバンドのサブバンド正規化因子を、当該中間サブバンドに続く各サブバンドのサブバンド正規化因子として使用してもよい。
【0109】
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅を、量子化したサブバンド正規化因子とビット・レート情報に従って決定する。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
【0110】
図5は、本発明の1実施形態に従う音声信号復号化装置のブロック図である。
図5に示す音声信号復号化装置50は、取得ユニット51、第2の決定ユニット52、第2の割当てユニット53、復号化ユニット54、拡張ユニット55、および復元ユニット56を備える。
【0111】
取得ユニット51は、量子化したサブバンド正規化因子を取得する。第2の決定ユニット52は、取得ユニット51によって取得した量子化したサブバンド正規化因子に従って、または、量子化したサブバンド正規化因子とビット・レート情報に従って、ビット割当ての信号帯域幅を決定する。第2の割当てユニット53は、第2の決定ユニット52により決定された信号帯域幅内のサブバンドにビットを割り当てる。復号化ユニット54は、サブバンドごとに第2の割当てユニット53により割り当てたビットに従って正規化スペクトルを復号化する。拡張ユニット55は、復号化ユニット54によって復号化された正規化スペクトルに対して雑音充填および帯域幅拡張を実施して、正規化した全帯域スペクトルを取得する。復元ユニット56は、拡張ユニット55により取得した正規化した全帯域スペクトルとサブバンド正規化因子に従って音声信号のスペクトル係数を取得する。
【0112】
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅が、量子化したサブバンド正規化因子とビット・レート情報に従って決定される。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
【0113】
図6は、本発明の別の実施形態に従う音声信号復号化装置のブロック図である。
図6に示す音声信号復号化装置60では、
図5に示すものと同様なユニットまたは要素は、同じ参照番号により示してある。
【0114】
図4に示す第1の決定ユニット32と同様に、ビット割当ての信号帯域幅を決定するとき、音声信号復号化装置60の第2の決定ユニット52が、ビット割当ての信号帯域幅を音声信号の帯域幅の一部に対して定義してもよい。例えば、第2の決定ユニット52が、ビット・レート情報に従って比率因子を決定するように構成された第3の比率因子決定ユニット521を備えてもよい。当該比率因子は0より大きく1以下である。あるいは、第2の決定ユニット52が、サブバンド正規化因子に従って音声信号の調波クラスまたは雑音レベルを取得し、調波クラスと雑音レベルに従って比率因子を決定するように構成された第4の比率因子決定ユニット522を備えてもよい。
【0115】
加えて、第2の決定ユニット52はさらに第2の帯域幅決定モジュール523を備える。比率因子を取得した後、第2の帯域幅決定モジュール523は、当該比率因子と量子化したサブバンド正規化因子とに従って帯域幅の一部を判定してもよい。
【0116】
あるいは、1実施形態では、第2の帯域幅決定モジュール523が、当該帯域幅の一部を決定するとき、量子化したサブバンド正規化因子に従って各サブバンド内のスペクトル・エネルギを取得し、蓄積したスペクトル・エネルギが全サブバンドの総スペクトル・エネルギに比率因子を乗じた積より大きくなるまで、各サブバンド内のスペクトル・エネルギを低周波数から高周波数まで蓄積し、現在のサブバンドに続く帯域幅を当該帯域幅の一部として使用する。
【0117】
あるいは、1実施形態では、拡張ユニット55がさらに、第1の周波数帯決定モジュール551およびスペクトル係数取得モジュール552を備えてもよい。第1の周波数帯決定モジュール551は、Nを正の整数として、現在のフレームと当該現在のフレームより前のN個のフレームのビット割当てに従って、第1の周波数帯を決定する。スペクトル係数取得モジュール552は、第1の周波数帯のスペクトル係数に従って高周波数帯域のスペクトル係数を取得する。例えば、第1の周波数帯を決定するとき、第1の周波数帯決定モジュール551は、現在のフレームに対して割り当てたビットと前のN個のフレームに割り当てたビットの間の相関関係を取得し、取得した相関関係に従って第1の周波数帯を決定してもよい。
【0118】
バックグラウンド雑音を調節する必要がある場合には、音声信号復号化装置60がさらに、サブバンド正規化因子に従って雑音レベルを取得し、取得した雑音レベルを使用することにより高周波数帯域内のバックグラウンド雑音を調節するように構成された調整ユニット57を備えてもよい。
【0119】
あるいは、別の実施形態では、スペクトル係数取得モジュール552が、スペクトル平坦性情報と高周波数帯域の信号タイプに従って正規化長を取得し、取得した正規化長に従って第1の周波数帯のスペクトル係数を正規化し、第1の周波数帯の正規化スペクトル係数を高周波数帯域のスペクトル係数として使用してもよい。当該スペクトル平坦性情報が、第1の周波数帯における各サブバンドのピーク平均率、第1の周波数帯に対応する時間領域信号の相関関係、または第1の周波数帯に対応する時間領域信号のゼロ交差率を含んでもよい。
【0120】
本発明の当該実施形態によれば、符号化と復号化の間に、ビット割当ての信号帯域幅が、量子化したサブバンド正規化因子とビット・レート情報に従って決定される。このように、ビットを集約化することによって、決定された信号帯域幅が効果的に符号化および復号化され、音声品質が改善される。
【0121】
本発明の当該実施形態によれば、符号化および復号化システムが音声信号符号化装置および音声信号復号化装置を備えてもよい。
【0122】
本発明の技術的解決策を、電子ハードウェア、コンピュータ・ソフトウェア、または本発明の当該実施形態で説明した例示的なユニットおよびアルゴリズムステップを組み合わせることによってハードウェアとソフトウェアの組合せとして実装してもよいことは当業者には理解される。諸機能をハードウェアで実装するかソフトウェアで実装するかは当該技術的解決策の具体的な適用事例と設計した限定事項に依存する。当業者は、具体的な適用事例のケースにおいて様々な方法を用いて当該諸機能を実装してもよい。しかし、当該実装形態は本発明の範囲を超えるものではない。
【0123】
説明を簡単かつ簡潔にするために、以上で説明したシステム、装置、およびユニットの動作プロセスについては、方法の実施形態における対応する説明を参照できることは当業者には明らかに理解され、ここでは詳細には説明しない。
【0124】
本発明で提供した例示的な実施形態では、開示したシステム、装置、および機器、および方法を他の方式で実装してもよいことは理解される。例えば、装置の実施形態は例示的なものにすぎない。例えば、当該ユニットは論理機能によってのみ分割される。実際の実装形態では、他の分割方式を使用してもよい。例えば、複数のユニットもしくは要素を組み合わせるかもしくはシステムに統合し、または、幾つかの機能を無視するかもしくは実装しなくともよい。さらに、図示または説明した内部結合、直接結合、または通信接続を、幾つかのインタフェース、装置、または電子モードもしくは機械モードのユニット、または他の方式で実装してもよい。
【0125】
幾つかのコンポーネントとして使用されるユニットが互いに物理的に独立であってもなくてもよい。ユニットとして示した要素が、複数のネットワーク・ユニット上の位置に配置されるかまたは複数のネットワーク・ユニットに展開された、物理ユニットであってもなくてもよい。当該ユニットの一部または全部を必要に応じて選択して、本発明の当該実施形態で開示した技術的解決策を実装してもよい。
【0126】
さらに、本発明の実施形態における様々な機能ユニットを処理ユニットに統合してもよく、または、物理的な独立ユニットに統合してもよい。または、2つの機能ユニットもしくは3つ以上の機能ユニット1つのユニットに統合してもよい。
【0127】
諸機能をソフトウェア機能ユニットおよび関数の形態で独立な商用利用製品として実装する場合には、当該諸機能をコンピュータ読取可能記憶媒体に格納してもよい。かかる理解をもとに、当該技術的解決策、または、先行技術への貢献を構成する本発明で開示した技術的解決策、または、当該技術的解決策の一部を本質的にソフトウェア製品の形で具体化してもよい。当該ソフトウェア製品を記憶媒体に格納してもよい。当該ソフトウェア製品は、コンピュータ装置(PC、サーバ、またはネットワーク装置)が本発明の当該実施形態で提供した方法または諸ステップの一部を実行できるようにする幾つかの命令を含む。当該記憶媒体には、プログラム・コードを格納できる様々な媒体、例えば、ROM(read only memory)、RAM(random access memory)、磁気ディスク、またはCD−ROM(compact disc−read only memory)が含まれる。
【0128】
纏めると、以上は本発明の例示的な実施形態にすぎず、本発明の範囲はこれに限定されるものではない。本発明の技術的範囲に入る当業者に容易想到な変形または置換えは本発明の保護範囲に入る。したがって、本発明の保護範囲は添付の特許請求の範囲に支配される。