(58)【調査した分野】(Int.Cl.,DB名)
音声信号又は音楽信号の所定周波数以下の低域部分を示す第1符号化情報と、前記音声信号又は音楽信号の前記所定周波数より高い高域部分を分割した複数のサブバンドにおいて、前記音声信号又は音楽信号の高域部分のスペクトルを推定するための帯域情報、および、各サブバンド内の一部又は全部のスペクトル成分に対する振幅を調整する第1振幅調整パラメータ、を含む第2符号化情報と、を受信する受信手段と、
前記第1符号化情報を復号して第1復号信号を生成する第1復号手段と、
前記第2符号化情報を用いて、前記第1復号信号から前記音声信号又は音楽信号の高域部分を推定し、スペクトル成分の振幅を調整することにより第2復号信号を生成する第2復号手段と、を具備する復号装置であって、
前記第2復号手段は、
推定した前記音声信号又は音楽信号の高域部分のスペクトルに対して、スペクトル成分を部分的に選択するスペクトル成分選択手段と、
前記部分的に選択されたスペクトル成分に対して第2振幅調整パラメータを適用する第1振幅調整パラメータ適用手段と、
前記部分的に選択されなかったスペクトル成分に対して前記第2振幅調整パラメータの値に応じて適応的に設定される第3振幅調整パラメータを適用する第2振幅調整パラメータ適用手段と、を具備する、
復号装置。
前記第2振幅調整パラメータ適用手段は、前記第2振幅調整パラメータの値が予め設定された閾値より小さい場合には、前記第3振幅調整パラメータを小さく設定し、前記第2振幅調整パラメータの値が前記閾値以上の場合には、前記第3振幅調整パラメータを大きく設定する、
請求項1に記載の復号装置。
前記第2振幅調整パラメータ適用手段は、前記第2振幅調整パラメータの値が予め設定された閾値より小さい場合には、前記第3振幅調整パラメータを小さく設定し、前記第2振幅調整パラメータの値が前記閾値以上の場合には、前記第3振幅調整パラメータを大きく設定する、
請求項8に記載の符号化装置。
音声信号又は音楽信号の所定周波数以下の低域部分を示す第1符号化情報と、前記音声信号又は音楽信号の前記所定周波数より高い高域部分を分割した複数のサブバンドにおいて、前記音声信号又は音楽信号の高域部分のスペクトルを推定するための帯域情報、および、各サブバンド内の一部又は全部のスペクトル成分に対する振幅を調整する第1振幅調整パラメータ、を含む第2符号化情報と、を受信する受信ステップと、
前記第1符号化情報を復号して第1復号信号を生成する第1復号ステップと、
前記第2符号化情報を用いて、前記第1復号信号から前記音声信号又は音楽信号の高域部分を推定し、スペクトル成分の振幅を調整することにより第2復号信号を生成する第2復ステップと、を具備する復号方法であって、
前記第2復号ステップは、
推定した前記音声信号又は音楽信号の高域部分のスペクトルに対して、スペクトル成分を部分的に選択するスペクトル成分選択ステップと、
前記部分的に選択されたスペクトル成分に対して第2振幅調整パラメータを適用する第1振幅調整パラメータ適用ステップと、
前記部分的に選択されなかったスペクトル成分に対して前記第2振幅調整パラメータの値に応じて適応的に設定される第3振幅調整パラメータを適用する第2振幅調整パラメータ適用ステップと、を具備する、
復号方法。
【発明を実施するための形態】
【0013】
本発明においては、符号化装置が、符号化対象となる信号の高域部のスペクトルデータを低域部のスペクトルデータに基づいて生成する際、サブバンド内で振幅が最大であるサンプルの位置に基づき抽出されたサンプル群に対してサブバンドエネルギ及び形状の調整パラメータを算出する。また、復号装置が、前記パラメータを、サブバンド内で振幅が最大であるサンプルの位置に基づき抽出されたサンプル群に対して適用する。これにより、広帯域信号の高域部のスペクトルデータを効率的に符号化/復号することができ、処理演算量の大幅な削減を実現するとともに、復号信号の品質も改善することができるものである。
【0014】
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る符号化装置および復号装置は、入力信号/出力信号として、音声信号、楽音信号、及び、これらが混在した信号、のいずれについても対象とするものとする。本発明の各実施の形態においては、音声符号化装置および音声復号装置を例にとって説明する。
【0015】
(実施の形態1)
図1は、本実施の形態に係る符号化装置および復号装置を有する通信システムの構成を示すブロック図である。
図1において、通信システムは、符号化装置101と復号装置103とを備え、それぞれ伝送路102を介して通信可能な状態となっている。なお、符号化装置101および復号装置103はいずれも、通常、基地局装置あるいは通信端末装置等に搭載されて用いられる。
【0016】
符号化装置101は、入力信号をNサンプルずつ区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号をx
n(n=0、…、N−1)と表すこととする。nは、Nサンプルずつ区切られた入力信号のうち、信号要素のn+1番目を示す。符号化装置101は、符号化した入力情報(符号化情報)を、伝送路102を介して復号装置103に送信する。
【0017】
復号装置103は、伝送路102を介して符号化装置101から送信された符号化情報を受信し、これを復号し出力信号を得る。
【0018】
図2は、
図1に示した符号化装置101の内部の主要な構成を示すブロック図である。入力信号のサンプリング周波数をSR
1とすると、ダウンサンプリング処理部201は、入力信号のサンプリング周波数をSR
1からSR
2までダウンサンプリングし(SR
2<SR
1)、ダウンサンプリングした入力信号をダウンサンプリング後入力信号として、第1レイヤ符号化部202に出力する。なお、以下では、一例として、SR
2はSR
1の1/2のサンプリング周波数である場合について説明する。
【0019】
第1レイヤ符号化部202は、ダウンサンプリング処理部201から入力されるダウンサンプリング後入力信号に対して、例えばCELP(Code Excited Linear Prediction)方式の音声符号化方法を用いて符号化を行って第1レイヤ符号化情報を生成する。具体的には、第1レイヤ符号化部202は、入力信号の所定周波数以下の低域部分を符号化して第1レイヤ符号化情報を生成する。そして、第1レイヤ符号化部202は、生成した第1レイヤ符号化情報を第1レイヤ復号部203および符号化情報統合部207に出力する。
【0020】
第1レイヤ復号部203は、第1レイヤ符号化部202から入力される第1レイヤ符号化情報に対して、例えばCELP方式の音声復号方法を用いて復号を行って第1レイヤ復号信号を生成する。そして、第1レイヤ復号部203は、生成した第1レイヤ復号信号をアップサンプリング処理部204に出力する。
【0021】
アップサンプリング処理部204は、第1レイヤ復号部203から入力される第1レイヤ復号信号のサンプリング周波数をSR
2からSR
1までアップサンプリングし、アップサンプリングした第1レイヤ復号信号をアップサンプリング後第1レイヤ復号信号として、直交変換処理部205に出力する。
【0022】
直交変換処理部205は、バッファbuf1
nおよびbuf2
n(n=0、…、N−1)を内部に有し、入力信号x
nおよびアップサンプリング処理部204から入力されるアップサンプリング後第1レイヤ復号信号y
nを修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)する。
【0023】
以下、直交変換処理部205における直交変換処理について、その計算手順と内部バッファへのデータ出力に関して説明する。
【0024】
まず、直交変換処理部205は、下記の式(1)および式(2)によりバッファbuf1
nおよびbuf2
nそれぞれを、「0」を初期値として初期化する。
【数1】
【数2】
【0025】
次いで、直交変換処理部205は、入力信号x
nおよびアップサンプリング後第1レイヤ復号信号y
nに対し下記の式(3)および式(4)に従ってMDCTし、入力信号のMDCT係数(以下、入力スペクトルと呼ぶ)S2(k)およびアップサンプリング後第1レイヤ復号信号y
nのMDCT係数(以下、第1レイヤ復号スペクトルと呼ぶ)S1(k)を求める。
【数3】
【数4】
【0026】
ここで、kは1フレームにおける各サンプルのインデックスを示す。直交変換処理部205は、入力信号x
nとバッファbuf1
nとを結合させたベクトルであるx
n’を下記の式(5)により求める。また、直交変換処理部205は、アップサンプリング後第1レイヤ復号信号y
nとバッファbuf2
nとを結合させたベクトルであるy
n’を下記の式(6)により求める。
【数5】
【数6】
【0027】
次いで、直交変換処理部205は、式(7)および式(8)によりバッファbuf1
nおよびbuf2
nを更新する。
【数7】
【数8】
【0028】
そして、直交変換処理部205は、入力スペクトルS2(k)および第1レイヤ復号スペクトルS1(k)を第2レイヤ符号化部206に出力する。
【0029】
以上、直交変換処理部205における直交変換処理について説明した。
【0030】
第2レイヤ符号化部206は、直交変換処理部205から入力される入力スペクトルS2(k)および第1レイヤ復号スペクトルS1(k)を用いて第2レイヤ符号化情報を生成し、生成した第2レイヤ符号化情報を符号化情報統合部207に出力する。なお、第2レイヤ符号化部206の詳細については後述する。
【0031】
符号化情報統合部207は、第1レイヤ符号化部202から入力される第1レイヤ符号化情報と、第2レイヤ符号化部206から入力される第2レイヤ符号化情報とを統合し、統合された情報源符号に対し、必要であれば伝送誤り符号などを付加した上でこれを符号化情報として伝送路102に出力する。
【0032】
次に、
図2に示した第2レイヤ符号化部206の内部の主要な構成について
図3を用いて説明する。
【0033】
第2レイヤ符号化部206は、帯域分割部260、フィルタ状態設定部261、フィルタリング部262、探索部263、ピッチ係数設定部264、ゲイン符号化部265および多重化部266を備え、各部は以下の動作を行う。
【0034】
帯域分割部260は、直交変換処理部205から入力される入力スペクトルS2(k)の所定周波数より高い高域部(FL≦k<FH)をP個(ただし、Pは1より大きい整数)のサブバンドSB
p(p=0,1,…,P−1)に分割する。そして、帯域分割部260は、分割した各サブバンドのバンド幅BW
p(p=0,1,…,P−1)および先頭インデックス(つまり、サブバンドの開始位置)BS
p(p=0,1,…,P−1)(FL≦BS
p<FH)を帯域分割情報(入力信号の所定周波数より高い高域部分を分割した複数のサブバンドにおいて、入力信号の高域部分のスペクトルを推定するための情報)としてフィルタリング部262、探索部263および多重化部266に出力する。以下、入力スペクトルS2(k)のうち、サブバンドSB
pに対応する部分をサブバンドスペクトルS2
p(k)(BS
p≦k<BS
p+BW
p)と記す。
【0035】
フィルタ状態設定部261は、直交変換処理部205から入力される第1レイヤ復号スペクトルS1(k)(0≦k<FL)を、フィルタリング部262で用いるフィルタ状態として設定する。つまり、フィルタリング部262における全周波数帯域0≦k<FHのスペクトルS(k)の0≦k<FLの帯域に、第1レイヤ復号スペクトルS1(k)がフィルタの内部状態(フィルタ状態)として格納される。
【0036】
フィルタリング部262は、マルチタップのピッチフィルタを備え、フィルタ状態設定部261により設定されたフィルタ状態と、ピッチ係数設定部264から入力されるピッチ係数と、帯域分割部260から入力される帯域分割情報とに基づいて、第1レイヤ復号スペクトルをフィルタリングし、各サブバンドSB
p(p=0,1,…,P−1)の推定値S2
p’(k)(BS
p≦k<BS
p+BW
p)(p=0,1,…,P−1)(以下、「サブバンドSB
pの推定スペクトル」と称す)を算出する。フィルタリング部262は、サブバンドSB
pの推定スペクトルS2
p’(k)を探索部263に出力する。なお、フィルタリング部262におけるフィルタリング処理の詳細については後述する。なお、マルチタップのタップ数は1以上の任意の値(整数)をとることができるものとする。
【0037】
探索部263は、帯域分割部260から入力される帯域分割情報に基づき、フィルタリング部262から入力されるサブバンドSB
pの推定スペクトルS2
p’(k)と、直交変換処理部205から入力される入力スペクトルS2(k)の高域部(FL≦k<FH)における各サブバンドスペクトルS2
p(k)との類似度を算出する。この類似度の算出は、例えば相関演算等により行われる。また、フィルタリング部262、探索部263およびピッチ係数設定部264の処理は、サブバンド毎に閉ループの探索処理を構成し、各閉ループにおいて、探索部263は、ピッチ係数設定部264からフィルタリング部262に入力されるピッチ係数Tを種々に変化させることにより、各ピッチ係数に対応する類似度を算出する。探索部263は、サブバンド毎の閉ループにおいて、例えば、サブバンドSB
pに対応する閉ループにおいて類似度が最大となる最適ピッチ係数T
p’(ただしTmin〜Tmaxの範囲)を求め、P個の最適ピッチ係数を多重化部266に出力する。探索部263における類似度の算出方法の詳細については後述する。
【0038】
探索部263は、各最適ピッチ係数T
p’を用いて、各サブバンドSB
pに類似する、第1レイヤ復号スペクトルの一部帯域(すなわち、各サブバンドのそれぞれのスペクトルに最も近似する帯域)を算出する。また、探索部263は、各最適ピッチ係数T
p’(p=0,1,…,P−1)に対応する推定スペクトルS2
p’(k)、及び、式(9)に従って算出される、最適ピッチ係数T
p’(p=0,1,…,P−1)を算出した際の振幅調整パラメータである理想ゲインα1
pを、ゲイン符号化部265に出力する。なお、式(9)において、M’は、類似度Dを算出する際のサンプル数を示し、各サブバンドのバンド幅以下の任意の値でよい。なお、探索部263における最適ピッチ係数T
p’(p=0,1,…,P−1)の探索処理の詳細については後述する。
【数9】
【0039】
ピッチ係数設定部264は、探索部263の制御の下、フィルタリング部262及び探索部263とともに、ピッチ係数Tを、予め定められた探索範囲Tmin〜Tmaxの中で少しずつ変化させながら、フィルタリング部262に順次出力する。なお、ピッチ係数設定部264は、例えば、第1サブバンドに対応する閉ループの探索処理を行う場合には、ピッチ係数Tを、予め定められた探索範囲Tmin〜Tmaxの中で少しずつ変化させながら設定し、第2サブバンド以降の第m(m=2,3,…,P)サブバンドに対応する閉ループの探索処理を行う場合には、第m−1サブバンドに対応する閉ループの探索処理において求められた最適ピッチ係数に基づき、ピッチ係数Tを、少しずつ変化させながら設定してもよい。
【0040】
ゲイン符号化部265は、入力スペクトルS2(k)、および、探索部263から入力される各サブバンドの推定スペクトルS2
p’(k)(p=0,1,…,P−1)、理想ゲインα1
pに基づいて、非線形領域でのエネルギ比調整を行うパラメータである対数ゲインを、各サブバンドに対して算出する。次いで、ゲイン符号化部265は、理想ゲイン及び対数ゲインを量子化し、量子化した理想ゲイン及び対数ゲインを多重化部266に出力する。
【0041】
図4は、ゲイン符号化部265の内部構成を示す図である。ゲイン符号化部265は、理想ゲイン符号化部271および対数ゲイン符号化部272から主に構成される。
【0042】
理想ゲイン符号化部271は、探索部263から入力される各サブバンドの推定スペクトルS2
p’(k)(p=0,1,…,P−1)を周波数領域で連続させて入力スペクトルの高域部の推定スペクトルS2’(k)を構成する。次いで、理想ゲイン符号化部271は、式(10)に従って、探索部263から入力される各サブバンドに対する理想ゲインα1
pを推定スペクトルS2’(k)に乗じ、推定スペクトルS3’(k)を算出する。なお、式(10)において、BL
pは各サブバンドの先頭インデックスを示し、BH
pは各サブバンドの終端インデックスを示す。そして、理想ゲイン符号化部271は、算出した推定スペクトルS3’(k)を対数ゲイン符号化部272に出力する。また、理想ゲイン符号化部271は、理想ゲインα1
pを量子化し、量子化した理想ゲインα1Q
pを理想ゲイン符号化情報として多重化部266に出力する。
【数10】
【0043】
対数ゲイン符号化部272は、直交変換処理部205から入力される入力スペクトルS2(k)の高域部(FL≦k<FH)と、理想ゲイン符号化部271から入力される推定スペクトルS3’(k)とのサブバンド毎の非線形領域でのエネルギ比調整を行うパラメータ(つまり、振幅調整パラメータ)である対数ゲインを算出し、算出した対数ゲインを対数ゲイン符号化情報として多重化部266に出力する。
【0044】
図5に、対数ゲイン符号化部272の内部構成を示す。対数ゲイン符号化部272は、最大振幅値探索部281、サンプル群抽出部282および対数ゲイン算出部283から主に構成される。
【0045】
最大振幅値探索部281は、式(11)のようにして、理想ゲイン符号化部271から入力される推定スペクトルS3’(k)に対して、対数領域での最大振幅値MaxValue
p、および、振幅が最大であるサンプル(スペクトル成分)のインデックス、最大振幅インデックスMaxIndex
pをサブバンド毎に探索する。
【数11】
【0046】
つまり、最大振幅値探索部281は、インデックスが偶数であるサンプルのみに対して対数領域での最大振幅値の探索を行う。これにより、最大振幅値の探索に対する演算量を効率的に削減することができる。
【0047】
そして、最大振幅値探索部281は、推定スペクトルS3’(k)、最大振幅値MaxValue
pおよび最大振幅インデックスMaxIndex
pをサンプル群抽出部282に出力する。
【0048】
サンプル群抽出部282は、最大振幅値探索部281から入力される推定スペクトルS3’(k)に対して、以下の式(12)に従って、各サンプル(スペクトル成分)に対する抽出フラグSelectFlag(k)の値を決定する。
【数12】
【0049】
つまり、サンプル群抽出部282は、式(12)に示すように、インデックスが奇数であるサンプルに対しては、抽出フラグSelectFlag(k)の値を0に設定し、インデックスが偶数であるサンプルに対しては、抽出フラグSelectFlag(k)の値を1に設定する。すなわち、サンプル群抽出部282は、推定スペクトルS3’(k)に対して、サンプル(スペクトル成分)を部分的に(ここでは、偶数のインデックスのサンプルのみ)選択する。そして、サンプル群抽出部282は、抽出フラグSelectFlag(k)、推定スペクトルS3’(k)、および、最大振幅値MaxValue
pを対数ゲイン算出部283に出力する。
【0050】
対数ゲイン算出部283は、サンプル群抽出部282から入力される抽出フラグSelectFlag(k)の値が1であるサンプルに対して、式(13)に従って、推定スペクトルS3’(k)と入力スペクトルS2(k)との高域部(FL≦k<FH)の対数領域でのエネルギ比(対数ゲイン)α2
pを算出する。すなわち、対数ゲイン算出部283は、サンプル群抽出部282で部分的に選択されたサンプルに対してのみ、対数ゲインα2
pを算出する。
【数13】
【0051】
そして、対数ゲイン算出部283は、対数ゲインα2
pを量子化し、量子化した対数ゲインα2Q
pを対数ゲイン符号化情報として多重化部266に出力する。
【0052】
以上、ゲイン符号化部265の処理について説明した。
【0053】
多重化部266は、帯域分割部260から入力される帯域分割情報と、探索部263から入力される各サブバンドSB
p(p=0,1,…,P−1)に対する最適ピッチ係数T
p’と、ゲイン符号化部265から入力される理想ゲインα1Q
p及び対数ゲインα2Q
pにそれぞれ対応するインデックス(理想ゲイン符号化情報および対数ゲイン符号化情報。つまり、各サブバンド内の一部又は全部のスペクトル成分に対する振幅を調整するパラメータ)と、を第2レイヤ符号化情報として多重化し、符号化情報統合部207に出力する。なお、T
p’と、α1Q
pおよびα2Q
pのインデックスとを直接、符号化情報統合部207に入力して、符号化情報統合部207にて第1レイヤ符号化情報と多重化してもよい。
【0054】
次いで、
図3に示したフィルタリング部262におけるフィルタリング処理の詳細について、
図6を用いて説明する。
【0055】
フィルタリング部262は、フィルタ状態設定部261から入力されるフィルタ状態と、ピッチ係数設定部264から入力されるピッチ係数Tと、帯域分割部260から入力される帯域分割情報とを用いて、サブバンドSB
p(p=0,1,…,P−1)に対して、帯域BS
p≦k<BS
p+BW
p(p=0,1,…,P−1)における推定スペクトルを生成する。フィルタリング部262において用いるフィルタの伝達関数F(z)は下記の式(14)で表される。
【0056】
以下、サブバンドSB
pを例にとり、サブバンドスペクトルS2
p(k)の推定スペクトルS2
p’(k)を生成する処理を説明する。
【数14】
【0057】
式(14)において、Tはピッチ係数設定部264から与えられるピッチ係数、β
iは予め内部に記憶されているフィルタ係数を表している。例えば、タップ数が3の場合、フィルタ係数の候補は(β
−1、β
0、β
1)=(0.1、0.8、0.1)が一例として挙げられる。この他に、フィルタ係数の候補として、(β
−1、β
0、β
1)=(0.2、0.6、0.2)、(0.3、0.4、0.3)などの値も適当である。また、フィルタ係数の候補として、(β
−1、β
0、β
1)=(0.0、1.0、0.0)の値でもよく、この場合には帯域0≦k<FLの第1レイヤ復号スペクトルの一部帯域をその形状を変化させずにそのままBS
p≦k<BS
p+BW
pの帯域にコピーすることを意味する。以下の説明では、(β
−1、β
0、β
1)=(0.0、1.0、0.0)である場合を例にとって説明する。また、式(14)においてM=1とする。Mはタップ数に関する指標である。
【0058】
フィルタリング部262における全周波数帯域のスペクトルS(k)の0≦k<FLの帯域には、第1レイヤ復号スペクトルS1(k)がフィルタの内部状態(フィルタ状態)として格納される。
【0059】
S(k)のBS
p≦k<BS
p+BW
pの帯域には、以下の手順のフィルタリング処理によりサブバンドSB
pの推定スペクトルS2
p’(k)が格納される。すなわち、
図6に示すように、S2
p’(k)には、基本的に、このkよりTだけ低い周波数のスペクトルS(k−T)が代入される。ただし、スペクトルの円滑性を増すために、実際には、スペクトルS(k−T)からiだけ離れた近傍のスペクトルS(k−T+i)に所定のフィルタ係数β
iを乗じたスペクトルβ
i・S(k−T+i)を、全てのiについて加算したスペクトルをS2
p’(k)に代入する。この処理は下記の式(15)で表される。
【数15】
【0060】
上記演算を、周波数の低いk=BS
pから順に、kをBS
p≦k<BS
p+BW
pの範囲で変化させて行うことにより、BS
p≦k<BS
p+BW
pにおける推定スペクトルS2
p’(k)を算出する。
【0061】
以上のフィルタリング処理は、ピッチ係数設定部264からピッチ係数Tが与えられる度に、BS
p≦k<BS
p+BW
pの範囲において、その都度S(k)をゼロクリアして行われる。すなわち、ピッチ係数Tが変化するたびにS(k)は算出され、探索部263に出力される。
【0062】
図7は、
図3に示した探索部263においてサブバンドSB
pに対して最適ピッチ係数T
p’を探索する処理の手順を示すフロー図である。なお、探索部263は、
図7に示した手順を繰り返すことにより、各サブバンドSB
p(p=0,1,…,P−1)に対応する最適ピッチ係数T
p’(p=0,1,…,P−1)を探索する。
【0063】
まず、探索部263は、類似度の最小値を保存するための変数である最小類似度D
minを「+∞」に初期化する(ST2010)。次いで、探索部263は、下記の式(16)に従い、あるピッチ係数における入力スペクトルS2(k)の高域部(FL≦k<FH)と、推定スペクトルS2
p’(k)との類似度Dを算出する(ST2020)。
【数16】
【0064】
式(16)において、M’は、類似度Dを算出する際のサンプル数を示し、各サブバンドのバンド幅以下の任意の値でよい。なお、式(16)中にはS2
p’(k)が存在しないが、これはBS
pとS2’(k)を用いてS2
p’(k)を表しているためである。
【0065】
次いで、探索部263は算出した類似度Dが最小類似度D
minより小さいか否かを判定する(ST2030)。ST2020において算出された類似度が最小類似度D
minより小さい場合(ST2030:「YES」)には、探索部263は、類似度Dを最小類似度D
minに代入する(ST2040)。一方、ST2020において算出された類似度が最小類似度D
min以上である場合(ST2030:「NO」)には、探索部263は、探索範囲にわたる処理が終了した否かを判定する。すなわち、探索部263は、探索範囲内のすべてのピッチ係数それぞれに対し、ST2020において上記の式(16)に従って類似度を算出したか否かを判定する(ST2050)。探索範囲にわたって処理が終了していなかった場合(ST2050:「NO」)には、探索部263は処理を再びST2020に戻す。そして、探索部263は、前回のST2020の手順において式(16)に従って類似度を算出した場合とは異なるピッチ係数に対して、式(16)に従い類似度を算出する。一方、探索範囲にわたる処理が終了した場合(ST2050:「YES」)には、探索部263は、最小類似度D
minに対応するピッチ係数Tを最適ピッチ係数T
p’として多重化部266に出力する(ST2060)。
【0066】
次に、
図1に示した復号装置103について説明する。
【0067】
図8は、復号装置103の内部の主要な構成を示すブロック図である。
【0068】
図8において、符号化情報分離部131は、入力された符号化情報(すなわち、符号化装置101から受信した符号化情報)の中から第1レイヤ符号化情報と第2レイヤ符号化情報とを分離し、第1レイヤ符号化情報を第1レイヤ復号部132に出力し、第2レイヤ符号化情報を第2レイヤ復号部135に出力する。
【0069】
第1レイヤ復号部132は、符号化情報分離部131から入力される第1レイヤ符号化情報に対して復号を行い、生成された第1レイヤ復号信号をアップサンプリング処理部133に出力する。ここで、第1レイヤ復号部132の動作は、
図2に示した第1レイヤ復号部203と同様であるため、詳細な説明は省略する。
【0070】
アップサンプリング処理部133は、第1レイヤ復号部132から入力される第1レイヤ復号信号に対してサンプリング周波数をSR
2からSR
1までアップサンプリングする処理を行い、得られるアップサンプリング後第1レイヤ復号信号を直交変換処理部134に出力する。
【0071】
直交変換処理部134は、アップサンプリング処理部133から入力されるアップサンプリング後第1レイヤ復号信号に対して直交変換処理(MDCT)を施し、得られるアップサンプリング後第1レイヤ復号信号のMDCT係数(以下、第1レイヤ復号スペクトルと呼ぶ)S1(k)を第2レイヤ復号部135に出力する。ここで、直交変換処理部134の動作は、
図2に示した直交変換処理部205のアップサンプリング後第1レイヤ復号信号に対する処理と同様であるため、詳細な説明は省略する。
【0072】
第2レイヤ復号部135は、直交変換処理部134から入力される第1レイヤ復号スペクトルS1(k)、および、符号化情報分離部131から入力される第2レイヤ符号化情報を用いて、第1レイヤ復号スペクトルS1(k)から、音声信号の高域部分を推定し、スペクトル成分の振幅を調整することにより、高域成分を含む第2レイヤ復号信号を生成し出力信号として出力する。
【0073】
図9は、
図8に示した第2レイヤ復号部135の内部の主要な構成を示すブロック図である。
【0074】
分離部351は、符号化情報分離部131から入力される第2レイヤ符号化情報を、各サブバンドのバンド幅BW
p(p=0,1,…,P−1)、先頭インデックスBS
p(p=0,1,…,P−1)(FL≦BS
p<FH)を含む帯域分割情報と、フィルタリングに関する情報である最適ピッチ係数T
p’(p=0,1,…,P−1)と、ゲインに関する情報である理想ゲイン符号化情報(j=0,1,…,J−1)及び対数ゲイン符号化情報(j=0,1,…,J−1)のインデックスと、に分離する。そして、分離部351は、帯域分割情報および最適ピッチ係数T
p’(p=0,1,…,P−1)をフィルタリング部353に出力し、理想ゲイン符号化情報及び対数ゲイン符号化情報のインデックスをゲイン復号部354に出力する。なお、符号化情報分離部131において、帯域分割情報と、最適ピッチ係数T
p’(p=0,1,…,P−1)と、理想ゲイン符号化情報及び対数ゲイン符号化情報のインデックスとを分離済みの場合は、分離部351を配置しなくてもよい。
【0075】
フィルタ状態設定部352は、直交変換処理部134から入力される第1レイヤ復号スペクトルS1(k)(0≦k<FL)を、フィルタリング部353で用いるフィルタ状態として設定する。ここで、フィルタリング部353における全周波数帯域0≦k<FHのスペクトルを便宜的にS(k)と呼ぶ場合、S(k)の0≦k<FLの帯域に、第1レイヤ復号スペクトルS1(k)がフィルタの内部状態(フィルタ状態)として格納される。ここで、フィルタ状態設定部352の構成および動作は、
図3に示したフィルタ状態設定部261と同様であるため、詳細な説明は省略する。
【0076】
フィルタリング部353は、マルチタップ(タップ数が1より多い)のピッチフィルタを備える。フィルタリング部353は、分離部351から入力される帯域分割情報と、フィルタ状態設定部352により設定されたフィルタ状態と、分離部351から入力されるピッチ係数T
p’(p=0,1,…,P−1)と、予め内部に格納しているフィルタ係数とに基づき、第1レイヤ復号スペクトルS1(k)をフィルタリングし、上記の式(15)に示す、各サブバンドSB
p(p=0,1,…,P−1)の推定値S2
p’(k)(BS
p≦k<BS
p+BW
p)(p=0,1,…,P−1)を算出する。フィルタリング部353でも、上記の式(14)に示したフィルタ関数が用いられる。ただし、この場合のフィルタリング処理およびフィルタ関数は、式(14)、式(15)におけるTをT
p’に置き換えたものとする。すなわち、フィルタリング部353は、第1レイヤ復号スペクトルから、符号化装置101における入力スペクトルの高域部を推定する。
【0077】
ゲイン復号部354は、分離部351から入力される、理想ゲイン符号化情報及び対数ゲイン符号化情報のインデックスを復号し、理想ゲインα1
p及び対数ゲインα2
pの量子化値である量子化理想ゲインα1Q
p及び量子化対数ゲインα2Q
pを求める。
【0078】
スペクトル調整部355は、フィルタリング部353から入力される各サブバンドSB
p(p=0,1,…,P−1)の推定値S2
p’(k)(BS
p≦k<BS
p+BW
p)(p=0,1,…,P−1)、及びゲイン復号部354から入力されるサブバンド毎の理想ゲインα1Q
pとから復号スペクトルを算出し、算出した復号スペクトルを直交変換処理部356に出力する。
【0079】
図10は、スペクトル調整部355の内部構成を示す図である。スペクトル調整部355は、理想ゲイン復号部361および対数ゲイン復号部362から主に構成される。
【0080】
理想ゲイン復号部361は、フィルタリング部353から入力される各サブバンドの推定値S2
p’(k)(BS
p≦k<BS
p+BW
p)(p=0,1,…,P−1)を周波数領域で連続させて、入力スペクトルに対する推定スペクトルS2’(k)を求める。次いで、理想ゲイン復号部361は、下記の式(17)に従い、推定スペクトルS2’(k)にゲイン復号部354から入力されるサブバンド毎の量子化理想ゲインα1Q
pを乗じ、推定スペクトルS3’(k)を算出する。そして、理想ゲイン復号部361は、推定スペクトルS3’(k)を対数ゲイン復号部362に出力する。
【数17】
【0081】
対数ゲイン復号部362は、理想ゲイン復号部361から入力される推定スペクトルS3’(k)に対して、ゲイン復号部354から入力されるサブバンド毎の量子化対数ゲインα2Q
pを用いて、対数領域でのエネルギ調整を行い、得られるスペクトルを復号スペクトルとして直交変換処理部356に出力する。
【0082】
図11は、対数ゲイン復号部362の内部構成を示す図である。対数ゲイン復号部362は、最大振幅値探索部371、サンプル群抽出部372、対数ゲイン適用部373、および補間処理部374とから主に構成される。
【0083】
最大振幅値探索部371は、式(18)のようにして、理想ゲイン復号部361から入力される推定スペクトルS3’(k)に対して、対数領域での最大振幅値MaxValue
p、および、振幅が最大であるサンプル(スペクトル成分)のインデックス、最大振幅インデックスMaxIndex
pをサブバンド毎に探索する。そして、最大振幅値探索部371は、推定スペクトルS3’(k)、対数領域での最大振幅値MaxValue
pおよび最大振幅インデックスMaxIndex
pをサンプル群抽出部372に出力する。
【数18】
【0084】
サンプル群抽出部372は、式(19)に示すように、算出された各サブバンドに対する最大振幅インデックスMaxIndex
pに応じて、各サンプルに対する抽出フラグSelectFlag(k)を決定する。すなわち、サンプル群抽出部372は、各サブバンドにおける最大振幅値MaxValue
pを有するサンプルに近接するサンプル(スペクトル成分)ほど選択されやすい重みにより、サンプルを部分的に選択する。そして、サンプル群抽出部372は、推定スペクトルS3’(k)、サブバンド毎の最大振幅値MaxValue
pおよび抽出フラグSelectFlag(k)を対数ゲイン適用部373に出力する。また、サンプル群抽出部372は、抽出フラグSelectFlag(k)を補間処理部374に出力する。
【数19】
【0085】
対数ゲイン適用部373は、サンプル群抽出部372から入力される推定スペクトルS3’(k)、および、抽出フラグSelectFlag(k)から、抽出されたサンプル群の符号(+、−)を表すSign
p(k)を、式(20)のようにして算出する。すなわち、式(20)に示すように、対数ゲイン適用部373は、抽出されたサンプルの符号が‘+’の場合(S3’(k)≧0の場合)、Sign
p(k)=1とし、それ以外の場合(抽出されたサンプルの符号が‘−’の場合)、Sign
p(k)=−1とする。
【数20】
【0086】
対数ゲイン適用部373は、サンプル群抽出部372から入力される推定スペクトルS3’(k)、最大振幅値MaxValue
pおよび抽出フラグSelectFlag(k)と、ゲイン復号部354から入力される量子化対数ゲインα2Q
p、および式(20)に従って算出した符号Sign
p(k)に基づいて、抽出フラグSelectFlag(k)の値が1であるサンプルに対して、式(21)、式(22)に従って、推定スペクトルS5’(k)を算出する。
【数21】
【数22】
【0087】
すなわち、対数ゲイン適用部373は、サンプル群抽出部372で部分的に選択されたサンプル(抽出フラグSelectFlag(k)=1のサンプル)に対してのみ、対数ゲインα2
pを適用する。そして、対数ゲイン適用部373は、推定スペクトルS5’(k)を補間処理部374に出力する。
【0088】
補間処理部374には、サンプル群抽出部372から抽出フラグSelectFlag(k)が入力される。また、補間処理部374には、対数ゲイン適用部373から推定スペクトルS5’(k)が入力される。また、補間処理部374には、ゲイン復号部354から、対数ゲインα2
pが入力される。補間処理部374は、まず、式(23)に従って、対数ゲインα2
pに応じた、線形領域での線形補間パラメータα3
pを算出する。
【数23】
【0089】
式(23)に示すように、線形補間パラメータα3
pは、対数ゲインα2
pの値に応じて予め定められた値(ここでは、ALPHA3_LOW及びALPHA3_HIGH)の中から適応的に設定される。なお、式(23)において、THは予め定められた閾値である。
【0090】
次いで、補間処理部374は、式(24)に従って、抽出フラグSelectFlag(k)の値が0であるサンプル群に対して、線形領域での線形補間を行い、復号スペクトルS6’(k)を算出する。すなわち、補間処理部374は、サンプル群抽出部372で部分的に選択されなかったサンプル(抽出フラグSelectFlag(k)=0のサンプル(スペクトル成分))に対して、対数ゲインα2
pの値に応じて適応的に設定される線形補間パラメータα3
pを適用する。
【数24】
【0091】
ここで、線形補間パラメータα3
pの具体例としては、式(23)において、例えばTH=0.45、ALPHA3_LOW=0.75、ALPHA3_HIGH=0.95が挙げられる。つまり、補間処理部374は、対数ゲインα2
pの値が予め設定された閾値THより小さい場合には、線形補間パラメータα3
pを小さく設定し、対数ゲインα2
pの値が予め設定された閾値TH以上の場合には、線形補間パラメータα3
pを大きく設定する。この条件において本発明が特に有効であることを実験により確認している。
【0092】
なお、式(24)では、最大振幅値探索部371で算出した対数領域での最大振幅値MaxValue
pを用いた線形領域での線形補間処理を用いるが、対数領域での最大振幅値の代わりに、線形領域での最大振幅値を用いることも可能である。この場合、最大振幅値探索部371では、式(18)の代わりに、式(25)に示すようにして線形領域での最大振幅値MaxValue
pを算出する。また、この場合、補間処理部374は、式(24)の代わりに、式(26)に従って、線形領域での線形補間処理を行う。この構成により、式(18)および式(24)に示すような対数変換処理および指数変換処理の回数を削減することができ、さらなる演算量の削減を実現できる。
【数25】
【数26】
【0093】
次いで、補間処理部374は、算出した復号スペクトルS6’(k)を直交変換処理部356へ出力する。ここで、復号スペクトルS6’(k)の低域部(0≦k<FL)は第1レイヤ復号スペクトルS1(k)からなる。また、復号スペクトルS6’(k)の高域部(FL≦k<FH)は推定スペクトルS3’(k)に対して対数領域でのエネルギ調整(対数ゲイン適用部373における処理)、及び、線形領域でのエネルギ調整(補間処理部374における線形補間処理)を行ったスペクトルからなる。
【0094】
ここで、補間処理部374における線形領域での線形補間処理(線形領域での振幅の調整処理)の効果について説明する。
【0095】
特許文献1に開示されている、対数領域でのエネルギ調整処理は、人間の聴感特性を利用した処理であり、非常に有効な手段である。しかし、特許文献1に開示されている対数領域でのエネルギ調整処理は、全サンプル(MDCT係数)を対象として対数変換を行う必要があり、処理演算量が非常に大きくなってしまう問題がある。これに対して、本発明では、対数領域でのエネルギ調整処理を施すサンプルをサンプル群抽出部372で選択されたサンプルのみに限定し、選択されなかったサンプルに対しては、線形領域での線形補間処理を行う方式を採った。このとき、本方式では、式(23)に示したように、対数領域でのエネルギ調整処理に利用する対数ゲインα2
pの値に応じて、線形補間係数α3
pを適応的に切り替えることで、対数領域での対数ゲインによるエネルギ調整処理と同様の処理を、線形領域での線形補間処理により近似的に実現している。このような本方式により、人間の聴感特性に適したエネルギ調整処理を、特許文献1に開示されている従来技術と比較して大幅に低い処理演算量で行うことが可能となっている。
【0096】
ここで、対数ゲイン復号部362における対数ゲインの適用処理、及び、線形領域での線形補間処理の対象となるサンプル群の一例を
図12に示す。
【0097】
図12において、黒色で示すブロックは各サブバンド(
図12では第pサブバンド)における最大振幅値を有するサンプルを示し、斜線で示すブロックはサンプルインデックスが偶数であるサンプルを示し、縦線で示すブロックは最大振幅値を有するサンプル(黒色で示すブロック)の周辺に存在するサンプルを示し、白色のブロックは上記の3種以外のサンプルを示す。
【0098】
図12に示す一例では、白色のブロックで示すサンプル以外のサンプル群に対しては、対数ゲイン適用部373において対数ゲインが適用され、白色のブロックで示すサンプル群に対して、補間処理部374において線形領域での補間処理部が適用される。なお、
図12は一例であり、本発明は、例えば、最大振幅値を有するサンプルの周辺に存在するサンプル数は図中に示した数以外の構成についても同様に適用できる。
【0099】
直交変換処理部356は、スペクトル調整部355から入力される復号スペクトルS6’(k)を時間領域の信号に直交変換し、得られる第2レイヤ復号信号を出力信号として出力する。ここでは、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行い、フレーム間に生じる不連続を回避する。
【0100】
以下、直交変換処理部356における具体的な処理について説明する。
【0101】
直交変換処理部356は、バッファbuf’(k)を内部に有しており、下記の式(27)に示すようにバッファbuf’(k)を初期化する。
【数27】
【0102】
また、直交変換処理部356は、スペクトル調整部355から入力される第2レイヤ復号スペクトルS6’(k)を用いて下記の式(28)に従い、第2レイヤ復号信号y
n”を求める。
【数28】
【0103】
式(28)において、Z4(k)は、下記の式(29)に示すように、復号スペクトルS6’(k)とバッファbuf’(k)とを結合させたベクトルである。
【数29】
【0104】
次いで、直交変換処理部356は、下記の式(30)に従いバッファbuf’(k)を更新する。
【数30】
【0105】
そして、直交変換処理部356は、復号信号y
n”を出力信号として出力する。
【0106】
このように、本実施の形態によれば、符号化装置は、低域部のスペクトルを用いて帯域拡張を行い高域部のスペクトルを推定する符号化/復号において、復号した低域スペクトルを用いて高域部のスペクトルを推定した後、推定スペクトルの各サブバンドに対してサンプル群の選択(間引き)を行い、選択したサンプルに対してのみ対数領域でのゲイン調整を行うゲイン調整パラメータを算出する。また、復号装置(符号化装置側のローカルデコード部を含む)は、推定スペクトルの各サブバンドにおける最大振幅値のサンプルの周辺のサンプルを重視して選択されたサンプル群にのみ前記ゲイン調整パラメータを適用し、それ以外のサンプル群に対しては、前記ゲイン調整パラメータに応じて適応的に切り替えられる線形補間係数を用いて、線形領域での補間処理を行う。この構成により、符号化装置では、対数領域でのゲイン調整に必要なゲイン調整パラメータの算出に必要な処理演算量を大幅に削減することができる。また、復号装置では、人間の聴覚に適したエネルギ調整処理に必要な処理演算量を大幅に削減することができる。
【0107】
なお、本実施の形態では、抽出フラグの設定において、サブバンド内の最大振幅値を有するサンプルを探索した後、そのサンプルからの距離に応じて抽出フラグを設定する構成を例に挙げて説明した。しかし、本発明はこれに限らず、復号装置が、例えば最小振幅値を有するサンプルを探索し、最小振幅値を有するサンプルからの距離に応じて各サンプルの抽出フラグを設定し、抽出されたサンプル(抽出フラグの値が1に設定されたサンプル)に対してのみ対数ゲイン等の振幅調整パラメータを算出し、適用する場合にも同様に適用できる。このような構成は、例えば、振幅調整パラメータが、推定した高域スペクトルを減衰させる効果を有する場合に有効と言える。振幅の大きいサンプルに対して減衰させることによって、異音が発生する場合も考えられるが、最小振幅値を有するサンプル周辺に対してのみ減衰処理を適用することで音質を向上させられる可能性がある。また、上記構成においては、最小振幅値を探索するのではなく、最大振幅値を探索し、最大振幅値を有するサンプルからの距離が離れたサンプルほど抽出されやすいという重み(尺度)で、サンプルを抽出する構成も考えられ、本発明はこのような構成に対しても同様に適用できる。
【0108】
また、本実施の形態では、復号装置内の抽出フラグの設定において、サブバンド内の最大振幅値を有するサンプルを探索した後、そのサンプルからの距離に応じて抽出フラグを設定する構成を例に挙げて説明した。しかし、本発明はこれに限らず、符号化装置は、各サブバンドに対して、振幅の大きい方から複数のサンプルを選択し、それぞれのサンプルからの距離に応じて抽出フラグを設定する構成についても同様に適用できる。上記構成にすることで、サブバンド内に振幅の大きさの近い複数のサンプルが存在した場合に、効率的にサンプルを抽出することができる。
【0109】
また、本実施の形態では、復号装置において、各サブバンド内のサンプルが、最大振幅値を有するサンプルに近接するか否かを閾値(式(19)に示すNear
p)に基づいて判断することにより、サンプルを部分的に選択する場合について説明した。本発明では、例えば、復号装置は、高域のサブバンドほど、より広い範囲のサンプルを、最大振幅値を有するサンプルに近接するサンプルとして選択してもよい。つまり、本発明では、複数のサブバンドのうち高域のサブバンドほど、式(19)に示すNear
pの値をより大きくしてもよい。これにより、帯域分割時に、例えばバークスケールのように高域ほどサブバンド幅が大きくなるように設定された場合に対しても、サブバンド間で偏りなく部分的にサンプルを選択することができ、復号信号の音質劣化を防ぐことができる。なお、式(19)に示すNear
pの値としては、例えば、1フレームのサンプル(MDCT係数)の数が640程度の場合には、5〜21程度の値(例えば最低域のサブバンドのNear
pの値を5、最高域のサブバンドのNear
pの値を21)にすると良い結果が得られることを実験により確認している。
【0110】
また、本実施の形態に示したように、符号化装置が、偶数のインデックスのサンプルのみからゲイン調整パラメータを算出し、復号装置が、サブバンド内の最大振幅値を有するサンプルからの距離を考慮し、抽出したサンプルにゲイン調整パラメータを適用する場合でも、音質劣化が無いことを実験により確認している。つまり、ゲイン調整パラメータを算出するときの対象となるサンプル集合(サンプル群)と、ゲイン調整パラメータを適用するときの対象となるサンプル集合(サンプル群)とが必ずしも一致していなくても問題無いということが言える。これは、例えば、本実施の形態に示したように、符号化装置および復号装置は、サブバンド全体にわたって均等にサンプルを抽出すれば、全サンプルを抽出しなくても、効率良くゲイン調整パラメータを算出できることを示している。ただし、本発明はこれに限らず、符号化装置においても、復号装置と同様に、各サブバンド内の最大振幅値からの距離に応じたサンプル群抽出方法によって、対数ゲインを算出する対象となるサンプル群を選択する構成に対しても同様に適用される。
【0111】
また、本実施の形態では、入力信号の低域成分の符号化/復号処理と、高域成分の符号化/復号処理をそれぞれ別に行う構成の場合、つまり、2段階の階層構造で符号化/復号する場合について説明した。しかし、本発明はこれに限らず、3段階以上の階層構造で符号化/復号する場合についても同様に適用できる。なお、3段階以上の階層符号化部を考慮した場合、第2レイヤ符号化部のローカルデコード信号を生成するための第2レイヤ復号部において、ゲイン調整パラメータ(対数ゲイン)を適用するサンプル集合(サンプル群)は、本実施の形態の符号化装置内で算出した最大振幅値を有するサンプルからの距離を考慮しないサンプル集合であってもよく、また本実施の形態の復号装置内で算出した最大振幅値を有するサンプルからの距離を考慮するサンプル集合であってもよい。
【0112】
また、本実施の形態では、符号化装置および復号装置での抽出フラグの設定において、サンプルのインデックスが偶数である場合には、抽出フラグの値を強制的に1に設定している。しかし、本発明はこれに限らず、例えば、インデックスの3に対する剰余が0の場合に抽出フラグの値を1に設定する場合等に対しても同様に適用できる。つまり、本実施の形態では、最大振幅値を有するサンプルからの距離に応じたサンプル以外で抽出されるサンプルについては、特に制約はなく、様々な選択方法に対しても同様に適用される。
【0113】
また、本実施の形態では、ゲイン符号化部265(
図3)において入力スペクトルS2(k)の高域部を分割して得られるサブバンドの数Jが、探索部263において入力スペクトルS2(k)の高域部を分割して得られるサブバンドの数Pと異なる場合を例にとって説明した。しかし、本発明はこれに限定されず、ゲイン符号化部265において入力スペクトルS2(k)の高域部を分割して得られるサブバンドの数をP個にしてもよい。
【0114】
また、本実施の形態では、第1レイヤ復号部から得られる第1レイヤ復号スペクトルの低域成分を利用して、入力スペクトルの高域部を推定する構成について説明した。しかし、本発明はこれに限らず、第1レイヤ復号スペクトルの代わりに入力スペクトルの低域成分を利用して、入力スペクトルの高域部を推定する構成についても同様に適用できる。なお、この構成においては、符号化装置は入力スペクトルの低域成分から入力スペクトルの高域成分を生成するための符号化情報(第2レイヤ符号化情報)を算出し、復号装置はこの符号化情報を第1レイヤ復号スペクトルに適用し、復号スペクトルの高域成分を生成する。
【0115】
また、本実施の形態では、特許文献1における処理に基づき、対数領域でのエネルギ比を調整するパラメータを算出・適用する構成において演算量の削減、および音質を向上させる処理を例に挙げて説明した。しかし、本発明はこれに限らず、対数変換以外の非線形変換領域でエネルギ比などを調整する構成に対しても同様に適用できる。また、非線形変換領域だけでなく、線形変換領域に対しても同様に適用できる。
【0116】
また、本実施の形態では、特許文献1における処理に基づき、帯域拡張処理において、対数領域でのエネルギ比を調整するパラメータを算出・適用する構成において演算量の削減、および音質を向上させる処理を例に挙げて説明した。しかし、本発明はこれに限らず、帯域拡張処理以外の処理に対しても同様に適用できる。
【0117】
また、本実施の形態では、補間処理部において、入力信号の種類(例えば音声信号および楽音信号等)、スペクトル特性などによらず、常に同一の方式で線形補間処理を行う場合について説明した。しかし、本発明はこれに限らず、入力信号の種類、スペクトル特性に応じて、補間処理部における処理を適応的に切り替える場合についても同様に適用できる。例えば、入力信号のピーク性が強い場合、つまり入力信号のスペクトルの雑音性が低い場合には、補間処理部における線形補間パラメータを固定させ(例えば0.95に固定する)、入力信号のピーク性が弱い場合、つまり入力信号のスペクトルの雑音性が高い場合には、補間処理部における線形補間パラメータを、上記実施の形態で説明したように2種類のいずれかに切り替えてもよい。このような構成により、入力信号のピーク性が強い場合には、補間処理部におけるエネルギ調整処理の効果を弱める(補間処理をする前後でサンプルの振幅が大きく変わらなくする)ことが出来るため、本実施の形態で説明した方式に比べて、異音の抑制を抑えられる可能性がある。これは、急峻なスペクトルに対する聴覚マスキング値は低くなる、という聴感特性に基づく処理であり、スペクトルのピーク部分では線形補間処理の対象となるサンプルの振幅の増幅を抑制することを意味している。ただし、上記の構成は、本実施の形態で説明した方式に比べて、入力信号の特性(例えばピーク性の強弱等)を判定する処理部を新たに追加する必要があるため、処理演算量は増加することになる。また、上記のような切替方法の他に、本実施の形態で説明した線形補間パラメータと閾値の組み合わせ(TH、ALPHA3_LOW,ALPHA3_HIGH)と、上記組み合わせとは別の組み合わせ(例えばTH2、ALPHA3_LOW2,ALPHA3_HIGH2)とを、入力信号の種類(例えば音声信号および楽音信号等)、スペクトル特性に応じて適応的に切り替えてもよい。
【0118】
また、本実施の形態では、復号装置における復号処理方法について説明した。しかし、本発明は、復号装置に限定されず、上記復号処理方法を含む符号化装置にも同様に適用される。例えば、
図13に示すように、
図2に示す符号化装置101の構成に加え、第2符号化情報を用いて第2レイヤ復号スペクトルを生成する第2レイヤ復号部401を更に具備し、第2レイヤ復号スペクトルと、入力信号のスペクトル(入力スペクトル)と、の残差成分を符号化する第3レイヤ符号化部402を更に具備する符号化装置400に対しても、本発明は同様に適用できる。ここで、第2レイヤ復号部401は、
図9に示す第2レイヤ復号部135に相当する復号処理部である。但し、第2レイヤ復号部135とは、内部に直交変換処理部356を備えず、時間領域の信号ではなく、周波数領域の信号(スペクトル)を出力する点が異なる。また、出力する成分の名称も異なる。それ以外の点については、第2レイヤ復号部135と同様の処理をする。また、本発明は第3レイヤ符号化部402の符号化方法には限定されず、第3レイヤ符号化部402では、残差成分をベクトル量子化する他、様々な量子化方法を採ることができる。なお、
図13に示す符号化装置400では符号化部の数が3個であるが、符号化部の数が4以上である場合にも、本発明は同様に適用できる。
【0119】
(実施の形態2)
実施の形態1では、追加パラメータ(実施の形態1では第2レイヤ符号化情報)を用いて、低域スペクトルから高域スペクトルを生成する帯域拡張符号化方式を用いる符号化装置及び対応する復号装置について説明した。
【0120】
ここで、同様の「帯域拡張符号化方式」を採用している方式としては、ITU−Tで規格化されているG.722−SWB(G.722 Annex B)が例に挙げられる。G.722−SWBでは、入力信号の特性(例えば入力スペクトル)に応じて4つのモードの符号化/復号方式により当該入力信号が符号化される。ここで4つのモードとは、TRANSIENT、NORMAL、HARMONIC、及びNOISEであり、入力スペクトルから適切なモードが決定される。
【0121】
本実施の形態では、G.722−SWBのような、入力信号の特性に応じて符号化/復号方式が切り替わるマルチモード符号化/復号方式において、実施の形態1で説明した帯域拡張符号化/復号方式(実施の形態1では、第2レイヤ符号化部/第2レイヤ復号部が対応する)を適用する構成について説明する。また、本実施の形態では、このような構成において、符号化/復号モードが切り替わる際に発生し得る音質劣化(異音)を抑制する方法について説明する。
【0122】
なお、G.722−SWBは4つのモードの符号化/復号方式を有するマルチモード符号化/復号方式であるが、以下では説明の簡略化のため、2つのモードの符号化/復号方式を有するマルチモード符号化/復号方式を例に挙げて説明する。
【0123】
本実施の形態に係る符号化装置及び復号装置を有する通信システムの構成は、実施の形態1(
図1)における構成と同様である。但し、符号化装置及び復号装置の内部構成が異なるため、符号のみ符号化装置111及び復号装置113と置き換えることとする。符号化装置111及び復号装置113の処理は、それぞれ符号化装置101及び復号装置103と同一であるため、ここでは説明を省略する。
【0124】
図14は、符号化装置111の内部の主要な構成を示すブロック図である。
図14に示す符号化装置111において、モード判定部501及び第2レイヤ符号化部502以外の構成要素については、実施の形態1の符号化装置101(
図2)内の各構成要素と同一であるため、同一の符号を付し、ここでは説明を省略する。
【0125】
モード判定部501には、直交変換処理部205から入力スペクトルが入力される。モード判定部501は、入力された入力スペクトルのスペクトル特性(つまり入力信号の特性)を分析し、分析結果に基づいて、モード情報を決定する。モード判定部501は、決定したモード情報を第2レイヤ符号化部502に出力する。ここで、モード情報は、後述する2種類の符号化方式のうち、いずれの符号化方式を用いて符号化を行うかを示す情報である。具体的には、モード判定部501は、モード情報として、「モード1」又は「モード2」のいずれかを決定する。例えば、モード判定部501は、入力スペクトルがTRANSIENTであるか、NON−TRANSIENTであるかを分析し、分析結果に基づいて、モード情報を判定するという方法が一例として挙げられる。モード情報の判定方法の詳細(例えば、G.722−SWB規格書参照)については、本発明とは直接関係ないため、ここでは説明を省略する。
【0126】
第2レイヤ符号化部502には、直交変換処理部205から入力スペクトル及び第1レイヤ復号スペクトルが入力される。また、第2レイヤ符号化部502には、モード判定部501からモード情報が入力される。第2レイヤ符号化部502は、第1レイヤ復号スペクトルを用いて、入力されるモード情報に基づき、2種類の符号化方式(モード1又はモード2)のいずれかにより入力スペクトルの符号化を行い、第2レイヤ符号化情報を生成する。第2レイヤ符号化部502は、生成した第2レイヤ符号化情報を、符号化情報統合部207を介して伝送路102(
図1)に出力する。第2レイヤ符号化部502の処理の詳細については後述する。
【0127】
次に、
図14に示した第2レイヤ符号化部502の内部の主要な構成について
図15を用いて説明する。
【0128】
第2レイヤ符号化部502は、スイッチ521、スイッチ522、第1符号化部523、及び第2符号化部524を備える。
【0129】
スイッチ521及びスイッチ522は、モード判定部501から入力されるモード情報に従って制御され、入力スペクトル及び第1レイヤ復号スペクトルを、第1符号化部523及び第2符号化部524のいずれかに出力する。
図15において、破線で示されている矢印は、データフローではなく、制御するという意味である。例えば、スイッチ521及びスイッチ522は、モード情報が「モード1」である場合には入力スペクトル及び第1レイヤ復号スペクトルを第1符号化部523に出力し、モード情報が「モード2」である場合には入力スペクトル及び第1レイヤ復号スペクトルを第2符号化部524に出力する。このように、スイッチ521及びスイッチ522は、符号化方法のモードに応じて、入力スペクトル及び第1レイヤ復号スペクトルの出力先の切替制御を行う。
【0130】
第1符号化部523は、モード情報が「モード1」である場合、入力される、モード情報、入力スペクトル及び第1レイヤ復号スペクトルを用いて、第2レイヤ符号化情報を生成する。第1符号化部523は、生成した第2レイヤ符号化情報を符号化情報統合部207に出力する。本実施の形態では、第1符号化部523は、実施の形態1で説明した第2レイヤ符号化部206と同様の処理を行う。第1符号化部523の処理の詳細については後述する。
【0131】
第2符号化部524は、モード情報が「モード2」である場合、入力される、モード情報、入力スペクトル及び第1レイヤ復号スペクトルを用いて、第2レイヤ符号化情報を生成する。第2符号化部524は、生成した第2レイヤ符号化情報を符号化情報統合部207に出力する。第2符号化部524は、第1符号化部523での符号化方式とは異なる符号化方式により処理を行う。本実施の形態では、第2符号化部524において利用する符号化方式を特に限定する必要はないため、説明を省略するが、例えばG.722−SWBにおける「TRANSIENT」モードの符号化方式を採る構成が一例として挙げられる。
【0132】
このように、第2レイヤ符号化部502は、複数の符号化方法を切り替える複数の符号化部(第1符号化部523及び第2符号化部524)を有する。
【0133】
次に、
図15に示した第1符号化部523の内部の主要な構成について
図16を用いて説明する。
【0134】
第1符号化部523は、帯域分割部260、フィルタ状態設定部261、フィルタリング部262、探索部263、ピッチ係数設定部264、ゲイン符号化部531及び多重化部266を備える。ここで、ゲイン符号化部531以外の各構成要素は、第2レイヤ符号化部206(
図3)内の各構成要素と同一であるため、同一の符号を付し、説明を省略する。
【0135】
ゲイン符号化部531には、モード判定部501からモード情報が入力される。ゲイン符号化部531は、入力スペクトルS2(k)、および、探索部263から入力される各サブバンドの推定スペクトルS2
p’(k)(p=0,1,…,P−1)、理想ゲインα1
pに基づいて、非線形領域でのエネルギ比調整を行うパラメータである対数ゲインを、各サブバンドに対して算出する。
【0136】
次いで、ゲイン符号化部531は、モード情報を利用して、理想ゲイン及び対数ゲインを量子化し、量子化した理想ゲイン及び対数ゲインを多重化部266に出力する。具体的には、ゲイン符号化部531は、内部にモード情報を記憶できるメモリを保持する。ゲイン符号化部531の内部構成は、上記メモリを保持する以外は、ゲイン符号化部265(
図3)と同一である。
【0137】
ゲイン符号化部531は、メモリに記憶している前フレーム処理時のモード情報と現フレームにおいて入力されたモード情報とが異なった場合、つまり、現フレームと前フレームとで符号化方法が切り替わる場合(ここでは前フレームでは第2符号化部524が動作し、現フレームでは第1符号化部523が動作する場合)、次式(31)に従って、量子化対象である理想ゲインα1
pに対して減衰処理を施す。ここで、γは、0<γ<1を満たす減衰係数であり、予め設定された値を持つ。次いで、ゲイン符号化部531は、γが乗じられた理想ゲインα1´
pを量子化する。
【数31】
【0138】
一方、ゲイン符号化部531は、メモリに記憶している前フレーム処理時のモード情報と現フレームにおいて入力されたモード情報とが同一である場合、つまり、現フレームと前フレームとで符号化方法が切り替わる場合(ここでは前フレーム及び現フレームの双方で第1符号化部523が動作する場合)、量子化対象である理想ゲインに対して減衰処理を施さず、ゲイン符号化部265(
図3)と同様の処理を行い、ゲイン情報を量子化する。次いで、ゲイン符号化部531は、算出した理想ゲイン符号化情報と対数ゲイン符号化情報を多重化部266に出力する。
【0139】
このように、第1符号化部523は、前フレームと現フレームとで符号化方法が切り替わる場合、現フレームでの符号化方法で用いる理想ゲインを調整する。具体的には、第1符号化部523は、前フレームと現フレームとで符号化方法が切り替わる際、現フレームで用いる理想ゲインを減衰させる。
【0140】
以上が、第1符号化部523の処理の説明である。
【0141】
以上が、本実施の形態に係る符号化装置111の処理の説明である。
【0142】
次に、本実施の形態に係る復号装置113の処理について説明する。
【0143】
図17は、復号装置113の内部の主要な構成を示すブロック図である。
【0144】
図17に示す復号装置113において、符号化情報分離部601及び第2レイヤ復号部602以外の構成要素については、実施の形態1で説明した復号装置103(
図8)内の構成要素と同一であるため、同一の符号を付し、説明を省略する。
【0145】
符号化情報分離部601は、入力された符号化情報(すなわち、符号化装置111(
図14)から受信した符号化情報)の中から第1レイヤ符号化情報と、第2レイヤ符号化情報と、モード情報とを分離し、第1レイヤ符号化情報を第1レイヤ復号部132に出力し、第2レイヤ符号化情報及びモード情報を第2レイヤ復号部602に出力する。
【0146】
第2レイヤ復号部602は、直交変換処理部134から入力される第1レイヤ復号スペクトルS1(k)、及び、符号化情報分離部601から入力される第2レイヤ符号化情報、モード情報を用いて、第1レイヤ復号スペクトルS1(k)から、音声信号の高域部分を推定し、スペクトル成分の振幅を調整することにより、高域成分を含む第2レイヤ復号信号を生成し出力信号として出力する。
【0147】
図18は、
図17に示した第2レイヤ復号部602の内部の主要な構成を示すブロック図である。
【0148】
第2レイヤ復号部602は、スイッチ621、スイッチ622、第1復号部623及び第2復号部624を備える。
【0149】
スイッチ621及びスイッチ622は、符号化分離部601から入力されるモード情報に従って制御され、第1レイヤ復号スペクトル及び第2レイヤ符号化情報を、第1復号部623、第2復号部624のいずれかに出力する。例えば、スイッチ621及びスイッチ622は、モード情報が「モード1」である場合には第1レイヤ復号スペクトル及び第2レイヤ符号化情報を第1復号部623に出力し、モード情報が「モード2」である場合には第1レイヤ復号スペクトル及び第2レイヤ符号化情報を第2復号部624に出力する。このように、スイッチ621及びスイッチ622は、復号方法のモードに応じて、第1レイヤ復号スペクトル及び第2レイヤ符号化情報の出力先の切替制御を行う。
【0150】
第1復号部623は、モード情報が「モード1」である場合、入力される、モード情報、第1レイヤ復号スペクトル及び第2レイヤ符号化情報を用いて、出力信号を生成する。第1復号部623は、生成した出力信号を出力する。本実施の形態では、第1復号部623は、実施の形態1で説明した第2レイヤ復号部135と同様の処理を行うため、説明は省略する。但し、第1復号部623において、復号する理想ゲイン符号化情報が、α1
pではなく、α1´
pである点が実施の形態1の第2レイヤ復号部135とは異なるものとする。
【0151】
第2復号部624は、モード情報が「モード2」である場合、入力される、モード情報、第1レイヤ復号スペクトル及び第2レイヤ符号化情報を用いて、出力信号を生成する。第2復号部624は、生成した出力信号を出力する。第2復号部624は、第1復号部623での復号方式とは異なる復号方式(第2符号化部524での符号化方式に対応する復号方式)により処理を行う。本実施の形態では、第2復号部624において利用する復号方式を特に限定する必要はないため、説明を省略するが、例えばG.722−SWBにおける「TRANSIENT」モードの復号方式を採る構成が一例として挙げられる。
【0152】
このように、本実施の形態によれば、符号化装置は、モード情報を保持し、前フレームのモード情報と現フレームのモード情報とが異なる場合には、高域部のスペクトルを推定する符号化部において、量子化するゲインを減衰させる。これにより、符号化方式(符号化モード)が切り替わった際に、異音の原因に成り得るゲインの急激な変化(特に、聴覚的な影響が大きいゲインの急激な増加)を抑制することができるため、上記音質劣化の抑制処理を実現できる。すなわち、符号化装置では、低域部のスペクトルを用いて帯域拡張を行い高域部のスペクトルを推定する符号化/復号方式が複数種類存在する場合、つまりマルチモード符号化/復号方式である場合でも、モードが切り替わった際に発生し得る音質劣化(異音)を抑制することで、処理量の大幅な削減を実現しつつ、かつ高品質な復号信号を提供することができる。
【0153】
なお、本実施の形態では、符号化装置のゲイン符号化部において、各フレーム処理時のモード情報を保持し、モード情報が切り替わった際に、量子化する理想ゲインを減衰させる処理を例に挙げて説明した。しかし、本発明はこれに限らず、モード情報以外の情報を用いて量子化するゲインを減衰させる構成に対しても本実施の形態を同様に適用できる。例えば、符号化装置が各フレーム処理時のモード情報に加え、各フレームのフレームエネルギを記憶し、これらを用いて、量子化するゲインを減衰させる構成が例に挙げられる。この構成では、前フレームのモード情報と現フレームのモード情報とが異なる場合、つまりモード情報が切り替わる場合、符号化装置は、まず、前フレームのフレームエネルギと現フレームのフレームエネルギの平均値を算出する。次に、符号化装置は、算出されたフレームエネルギの平均値と現フレームのフレームエネルギとの比に応じて、量子化するゲインを減衰又は増幅させる。例えば、前フレームのフレームエネルギが10000であり、現フレームのフレームエネルギが5000であった場合、符号化装置は、フレームエネルギの平均値7500と、現フレームエネルギとの比である1.5(=7500/5000)を量子化するゲインに乗じる。この場合、フレームエネルギ比(1.5)は1以上であるため、減衰処理ではなく増幅処理となる。なお、ここでは、式(31)における減衰係数γ(0<γ<1)を、1以上の値も許容する「減衰・増幅係数」に置き換えることで、前述と同様の処理により、増幅処理も可能になる。通常、符号化モードが切り替わった際には、聴覚的にはゲインの急激な増加による異音の影響が大きい。このため、本実施の形態では、ゲインの急激な増加に対して、比較的簡易な処理(低演算量の処理)で音質劣化を抑制する構成を説明した。しかし、上記のフレームエネルギを用いることにより、前述の構成に比べて、処理演算量は増えるものの、符号化モードが切り替わった際にフレームエネルギ(あるいはゲイン)が急激に増加する場合だけではなく、急激に減少する際に対しても、フレームエネルギ(あるいはゲイン)の変化を滑らかにすることができる。これにより、音質劣化(異音)をさらに抑制することができる。
【0154】
また、本実施の形態では、モード情報が切り替わる場合、減衰させるゲイン情報として、理想ゲインを対象とした場合を例に挙げて説明した。しかし、本発明はこれに限らず、理想ゲイン以外の他のゲイン情報を減衰(又は増幅)する構成に対しても本実施の形態を同様に適用できる。例えば、本実施の形態で説明したゲイン符号化部が対数ゲイン情報に対して減衰又は増幅させる構成が例として挙げられる。また、ゲイン符号化部は、量子化ターゲットとなる入力スペクトルそのものを減衰又は増幅させてもよい。また、上述したような前フレームのフレームエネルギと現フレームのフレームエネルギとの比(フレームエネルギ比)を用いる構成に対しても、ゲイン符号化部は、理想ゲイン、対数ゲイン又は入力スペクトル等のいずれに対して減衰(又は増幅)処理を適用してもよい。
【0155】
また、本実施の形態では、モード情報が切り替わる場合、符号化装置内でゲイン情報を減衰又は増幅させる構成を例に挙げて説明した。しかし、本発明はこれに限らず、復号装置内でゲイン情報を減衰又は増幅させる構成に対しても本実施の形態を同様に適用できる。すなわち、復号装置(例えば第2レイヤ復号部)は、モード情報に応じて複数の復号方法を切り替える複数の復号部を更に有し、前フレームと現フレームとで復号方法が切り替わる場合、現フレームの復号時に用いるゲイン情報を調整してもよい。例えば、復号装置は、モード情報の切り替わりを検出した際、復号したゲイン情報(理想ゲイン又は対数ゲイン)に対して減衰、増幅処理を行ってもよい。また、復号装置は、復号したゲイン情報(理想ゲイン及び対数ゲイン)を用いて生成した復号スペクトルに対して、減衰、増幅処理を行ってもよい。
【0156】
また、本実施の形態では、モード情報が切り替わる場合、予め定められた減衰係数を用いて、ゲイン情報が減衰される構成を例に挙げて説明した。しかし、本発明はこれに限らず、フレーム処理毎に適応的にゲイン情報を減衰させる減衰係数を算出する構成に対しても本実施の形態を同様に適用できる。例えば、上述したように、符号化装置(又は復号装置)は、前フレームのフレームエネルギと現フレームのフレームエネルギとの平均値を算出し、現フレームのフレームエネルギが算出された平均値に近づくような係数を用いてゲイン情報又はスペクトルを減衰、増幅させてもよい。すなわち、符号化装置(又は復号装置)は、前フレームのフレームエネルギを用いて、現フレームで用いるゲイン情報又はスペクトルを減衰、増幅させてもよい。
【0157】
又は、符号化装置(又は復号装置)は、モード情報が切り替わる場合、つまり、前フレームと現フレームとで符号化方法(復号方法)が切り替わる場合、前フレームで用いるゲイン情報を用いて、現フレームで用いるゲイン情報を調整してもよい。例えば、符号化装置(又は復号装置)は、前フレームと現フレームとで符号化方法(復号方法)が切り替わる場合、現フレームで用いるゲイン情報を前フレームで用いるゲイン情報に近づけるように、現フレームで用いるゲイン情報を調整してもよい。このような構成により、符号化方法(復号方法)が切り替わった際にも、符号化装置(復号装置)は、現フレームにおいて、前フレームを考慮したゲイン情報を用いることができ、符号化方法(復号方法)が切り替わる際に発生し得る音質劣化(異音)を更に抑制することができる。
【0158】
また、本実施の形態では、符号化装置の第2レイヤ符号化部内に2種類の符号化方式を備える構成を例に挙げて説明した。しかし、本発明はこれに限らず、3種類以上の符号化方式を備える構成、つまり3種類以上のマルチモード符号化/復号方式を採る構成に対しても本実施の形態を同様に適用できる。
【0159】
また、本実施の形態では、符号化装置の第2レイヤ符号化部内の第1符号化部においてのみ、ゲイン情報を減衰(又は増幅)させる構成を例に挙げて説明した。しかし、本発明はこれに限らず、第1符号化部以外の符号化部(例えば第2符号化部)についても同様にして減衰(又は増幅)処理を行う構成に対しても本実施の形態を同様に適用できる。つまり、マルチモード符号化/復号方式において、本実施の形態と同様の処理を、一部のモードの符号化/復号方式に適用してもよく、全てのモードの符号化/復号方式に適用してもよい。
【0160】
また、上記実施の形態における復号装置は、上記各実施の形態における符号化装置から伝送された符号化情報を用いて処理を行うとしたが、本発明はこれに限定されず、必要なパラメータまたはデータを含む符号化情報であれば、必ずしも上記各実施の形態における符号化装置からの符号化情報でなくても処理は可能である。
【0161】
また、信号処理プログラムを、メモリ、ディスク、テープ、CD、DVD等の機械読み取り可能な記録媒体に記録、書き込みをし、動作を行う場合についても、本発明は適用することができ、本実施の形態と同様の作用および効果を得ることができる。
【0162】
また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。
【0163】
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0164】
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
【0165】
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
【0166】
2010年6月21日出願の特願2010−141021および2011年3月4日出願の特願2011−047597の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。