【文献】
佐々木茂明、「16kbit/s付近の広帯域音声符号化の検討 ―ITU−T標準候補アルゴリズム―」、日本音響学会2001年春季研究発表会講演論文集、2001年3月14日、1−6−25、277〜278頁
【発明を実施するための形態】
【0027】
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
【0028】
本発明の実施形態は、符号化器側で算出した補助情報を符号化して伝送し、復号側でのパケットロス隠蔽に利用する「補助情報を用いるパケットロス隠蔽技術」を実現する符号化器、および復号器である。
【0029】
本発明の実施形態では、パケットロス隠蔽に用いる補助情報は1つ前のパケットに含める。パケットに含まれる音声符号と補助情報符号の時間的関係を
図3に示す。
図3からも明らかなように、本発明の実施形態における補助情報は、CELP符号化における先読み信号について求めたパラメータである(ピッチラグ,適応符号帳ゲイン等)。
【0030】
補助情報符号を1つ前のパケットに含めたことにより、復号対象のパケットよりも後続のパケットを待つことなく、復号を行うことができる。パケットロスを検出した際も、隠蔽対象となるフレームに関する補助情報が、直前のパケットにおいて得られているので、後続のパケットを待つことなく、高精度なパケットロス隠蔽を実現することができる。
【0031】
また、補助情報として先読み信号におけるCELP符号化のパラメータを伝送することにより、パケットがロスしても適応符号帳の不一致を軽減することができる。
【0032】
本発明の実施形態は、音声信号送信装置(音声符号化装置)、音声信号受信装置(音声復号装置)からなる。音声信号送信装置の機能構成例を
図4に示し、処理手順を
図6に示す。また、音声信号受信装置の機能構成例を
図5に示し、処理手順を
図7に示す。
【0033】
音声信号送信装置は、
図4に示す通り、音声符号化部111、補助情報符号化部112からなる。音声信号受信装置は、
図5に示す通り、音声符号バッファ121、音声パラメータ復号部122、音声パラメータ紛失処理部123、音声合成部124、補助情報復号部125、補助情報蓄積部126からなる。
【0034】
音声信号送信装置は、
図6に示す処理手順により、音声信号をフレーム毎に符号化して伝送する。
【0035】
音声符号化部111は、符号化対象フレームに対して音声パラメータを算出して、音声符号を出力する(
図6ステップS131)。
【0036】
補助情報符号化部112は、先読み信号に対して音声パラメータを算出して、補助情報符号を出力する(
図6ステップS132)。
【0037】
音声信号が終了したか否かを判定し、音声信号が終了するまで上記を繰り返す(
図6ステップS133)。
【0038】
音声信号受信装置は、
図7に示す処理手順により、到着する音声パケットを復号して音声信号を出力する。
【0039】
音声符号バッファ121は、音声パケットの到着を待って、音声符号を蓄積する。音声パケットが正常に到着した場合は、処理を音声パラメータ復号部122に切替える。一方、音声パケットが正常に到着しない場合は、処理を音声パラメータ紛失処理部123に切り替える(
図7ステップS141)。
【0040】
<音声パケットを正常に受信した場合>
音声パラメータ復号部122は、音声符号を復号して音声パラメータを出力する(
図7ステップS142)。
【0041】
補助情報復号部125は、補助情報符号を復号して、補助情報を出力する。出力した補助情報は、補助情報蓄積部126に送られる(
図7ステップS143)。
【0042】
音声合成部124は、音声パラメータ復号部122が出力した音声パラメータから音声信号を合成して出力する(
図7ステップS144)。
【0043】
音声パラメータ紛失処理部123は、音声パラメータ復号部122が出力した音声パラメータを、パケットロス時に備えて蓄積する(
図7ステップS145)。
【0044】
音声符号バッファ121は、音声パケットの送信が終了したかどうかを判断し、音声パケットの送信が終了した場合は処理を停止する。音声パケットの送信が継続する間は、上記ステップS141−S146を繰り返す(
図7ステップS147)。
【0045】
<音声パケットがロスした場合>
音声パラメータ紛失処理部123は、補助情報蓄積部126から補助情報を読み出し、補助情報に含まれないパラメータについては予測を行うことで、音声パラメータを出力する(
図7ステップS146)。
【0046】
音声合成部124は、音声パラメータ紛失処理部123が出力した音声パラメータから音声信号を合成して出力する(
図7ステップS144)。
【0047】
音声パラメータ紛失処理部123は、音声パラメータ紛失処理部123が出力した音声パラメータを、パケットロス時に備えて蓄積する(
図7ステップS145)。
【0048】
音声符号バッファ121は、音声パケットの送信が終了したかどうかを判断し、音声パケットの送信が終了した場合は処理を停止する。音声パケットの送信が継続する間は、上記ステップS141−S146を繰り返す(
図7ステップS147)。
【0049】
[実施例1]
本実施例では、補助情報としてピッチラグを伝送し、復号側ではパケットロス隠蔽信号の生成に用いる例について記載する。
【0050】
音声信号送信装置の機能構成例を
図4に、音声信号受信装置の機能構成例を
図5にそれぞれ示し、音声信号送信装置の処理手順を
図6に、音声信号受信装置の処理手順を
図7にそれぞれ示す。
【0051】
<送信側>
音声信号送信装置において、入力音声信号は、音声符号化部111に送られる。
【0052】
音声符号化部111は、符号化対象フレームを、CELP符号化により符号化する(
図6ステップ131)。CELP符号化の詳細については、例えば非特許文献3に記載の方法を用いる。CELP符号化の処理手順の詳細については省略する。なお、CELP符号化では符号化側でローカルデコードが行われる。ローカルデコードとは、符号化側でも音声符号を復号して、音声合成に必要なパラメータ(ISPパラメータおよび対応するISFパラメータ、ピッチラグ、長期予測パラメータ、適応符号帳、適応符号帳ゲイン、固定符号帳ゲイン、固定符号帳ベクトル等)を得ることである。ローカルデコードにより得られたパラメータのうち、少なくともISPパラメータおよびISFパラメータのいずれか又は両方、ピッチラグ、適応符号帳が、補助情報符号化部112に送られる。音声符号化部111として、非特許文献4のような音声符号化を用いる場合には、さらに符号化対象フレームの性質を表すインデクスを送ってもよい。また、音声符号化部111としてCELP符号化以外の符号化を用いることもできる。この場合、入力信号あるいはローカルデコードにより得られた復号信号から、少なくともISPパラメータおよびISFパラメータのいずれか又は両方、ピッチラグ、適応符号帳を別途算出し、補助情報符号化部112に伝送する。
【0053】
補助情報符号化部112は、音声符号化部111で算出したパラメータと先読み信号を用いて補助情報符号を算出する(
図6ステップ132)。補助情報符号化部112は、
図8に示す通り、LP係数算出部151、ターゲット信号算出部152、ピッチラグ算出部153、適応符号帳算出部154、励振ベクトル合成部155、適応符号帳バッファ156、合成フィルタ157、ピッチラグ符号化部158からなる。補助情報符号化部の処理手順を
図9に示す。
【0054】
LP係数算出部151は、音声符号化部111で算出したISFパラメータと、過去数フレームにおいて算出したISFパラメータを用いてLP係数を算出する(
図9ステップ161)。LP係数算出部151の処理手順を
図10に示す。
【0055】
最初に、音声符号化部111から得たISFパラメータを用いてバッファを更新する(
図10ステップ171)。次に、先読み信号におけるISFパラメータ
【数2】
を算出する。ISFパラメータ
【数3】
は次式により算出する(
図10ステップ172)。
【数4】
【数5】
ここで、
【数6】
はバッファに格納されたjフレーム前のISFパラメータである。
また、
【数7】
は事前に学習等で求めた発話区間でのISFパラメータである。βは定数であり、例えば0.75のような値とすることができるが、これには限られない。また、αも定数であり、0.9のような値とすることができるが、これに限定されない。
【数8】
は、例えば非特許文献4記載のISFコンシールメントのように、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
【0056】
次に、
【数9】
が
【数10】
を満たすようiの値を並び替え、隣り合う
【数11】
同士が接近しすぎないよう調整する。
【数12】
の値を調整する手順には、例えば非特許文献4(式151)を用いることができる(
図10ステップ173)。
【0057】
次に、ISFパラメータ
【数13】
をISPパラメータに変換した上で、サブフレーム毎に補間する。ISFパラメータからISPパラメータを算出する方法として非特許文献4の6.4.4節記載の方法を、補間の方法としては、非特許文献4の6.8.3節に記載の処理手順を用いることができる(
図10ステップ174)。
【0058】
次にサブフレーム毎のISPパラメータをLP係数
【数14】
に変換する。ここで、先読み信号に含まれるサブフレームの数をM
laとした。ISPパラメータからLP係数への変換には、非特許文献4の6.4.5節に記載の処理手順を用いることができる(
図10ステップ175)。
【0059】
ターゲット信号算出部152は、LP係数
【数15】
を用いて、ターゲット信号x(n)およびインパルス応答h(n)を算出する(
図9ステップ162)。非特許文献4の6.8.4.1.3節に記載の通り、ターゲット信号は線形予測残差信号を聴覚重み付けフィルタに通すことにより得られる(
図11)。
【0060】
まず、LP係数を用いて先読み信号
【数16】
の残差信号r(n)を次式に従い算出する(
図11ステップ181)。
【数17】
【0061】
ただし、L’はサブフレームのサンプル数を表し、Lは符号化対象フレームs
pre(n)(0≦n<L)のサンプル数を表す。このとき、
【数18】
である。
【0062】
次に、ターゲット信号x(n)(0≦n<L’)を次式に従い算出する(
図11ステップ182)。
【数19】
【数20】
【数21】
【数22】
ここで、聴覚重み付けフィルタγ=0.68である。聴覚重み付けフィルタの値は、音声符号化の設計方針により別の値としてもよい。
【0063】
次に、次式に従いインパルス応答h(n)(0≦n<L’)を算出する(
図11ステップ183)。
【数23】
【数24】
【0064】
ピッチラグ算出部153は、次式を最大化するkを求めることにより、サブフレーム毎にピッチラグを算出する(
図9ステップ163)。ここで、演算量削減のために、上記ターゲット信号算出(
図11ステップ182)およびインパルス応答算出(
図11ステップ183)を省略して、残差信号そのものをターゲット信号として用いてもよい。
T
p=argmaxT
k
【数25】
【数26】
【数27】
なお、y
k(n)は線形予測残差にインパルス応答を畳み込むことにより得られる。ここで、Int(i)は補間フィルタを表す。補間フィルタの詳細は非特許文献4の6.8.4.1.4.1節に記載の通りである。当然、補間にフィルタを用いず、v’(n)=u(n+N
adapt−T
p+i)としてもよい。
【0065】
上記、算出方法により、ピッチラグは整数値で求まるが、上記T
kを補間することにより、ピッチラグの精度を小数点以下まで上げた場合についても求めることができる。補間により小数点以下のピッチラグを求める処理手順の詳細については、非特許文献4の6.8.4.1.4.1節に記載の処理方法を利用できる。
【0066】
適応符号帳算出部154はピッチラグT
p、適応符号帳バッファ156に格納された適応符号帳u(n)から、次式に従い適応符号帳ベクトルv’(n)および長期予測パラメータを算出する(
図9ステップ164)。
【数28】
長期パラメータ算出の詳細な処理手順として非特許文献3の5.7節に記載の方法を用いることができる。
【0067】
励振ベクトル合成部155は、適応符号帳ベクトルv’(n)に事前に定めた適応符号帳ゲイン
【数29】
を乗算して、次式に従い励振信号ベクトルを出力する(
図9ステップ165)。
【数30】
適応符号帳ゲイン
【数31】
の値には、例えば1.0などを用いるが、事前の学習により求めた値を用いてもよいし、符号化対象フレームの性質を表すインデクスにより変化させてもよい。
【0068】
次に、以下の式に従い、励振信号ベクトルにより、適応符号帳バッファ156に格納された適応符号帳u(n)の状態を更新する(
図9ステップ166)。
u(n)=u(n+L) (0≦n<N−L)
u(n+N−L)=e(n) (0≦n<L)
【0069】
合成フィルタ157は、励振信号ベクトルを励振源とする、線形予測逆フィルタリングにより、次式に従い復号信号を合成する(
図9ステップ167)。
【数32】
【0070】
上記
図9ステップ162〜ステップ167を先読み信号終了まで、サブフレーム毎に繰り返す(
図9ステップ168)。
【0071】
ピッチラグ符号化部158は、先読み信号において算出したピッチラグ
【数33】
を符号化する(
図9のステップ169)。ここで、先読み信号に含まれるサブフレームの数をM
laとした。
【0072】
符号化の方法としては、例えば以下が考えられるが、符号化の方法には何を用いても良い。
1.ピッチラグ
【数34】
の一部あるいは全部をバイナリ符号化あるいはスカラ量子化あるいはベクトル量子化あるいは算術符号化して伝送する方法。
2.直前サブフレームのピッチラグとの差分
【数35】
の一部あるいは全部をバイナリ符号化あるいはスカラ量子化あるいはベクトル量子化あるいは算術符号化して伝送する方法。ただし、
【数36】
は符号化対象フレームにおける最後のサブフレームのピッチラグである。
3.ピッチラグ
【数37】
の一部あるいは全部と、符号化対象フレームで算出したピッチラグの一部または全部をまとめてベクトル量子化あるいは算術符号化して伝送する方法。
4.ピッチラグ
【数38】
の一部あるいは全部を手がかりに、事前に定めた補間手法のうちの1つを選択し、その補間手法のインデクスを伝送する方法。この時、過去に音声の合成に用いた複数のサブフレームのピッチラグを、併せて補間手法の選択に用いてもよい。
【0073】
スカラ量子化およびベクトル量子化には、経験的に定めたコードブックや、学習により事前に算出したコードブックを用いることができる。また、上記ピッチラグにオフセットの値を加算した上で符号化する方法も当然、本発明の実施形態の思想に含まれる。
【0074】
<復号側>
図5に示す通り、音声信号受信装置は、音声符号バッファ121、音声パラメータ復号部122、音声パラメータ紛失処理部123、音声合成部124、補助情報復号部125、補助情報蓄積部126からなる。音声信号受信装置の処理手順は
図7に示す通りである。
【0075】
音声符号バッファ121は、パケットを正常に受信したか否かを判断し、パケットを正常に受信したと判断した場合には、音声パラメータ復号部122および補助情報復号部125に処理を切替え、パケットを正常に受信できなかったと判断した場合には、音声パラメータ紛失処理部123に処理を切り替える(
図7ステップ141)。
【0076】
<正常にパケットを受信した場合>
音声パラメータ復号部122は、受信した音声符号を復号し、符号化対象フレームに関する音声を合成するのに必要な音声パラメータ(ISPパラメータおよび対応するISFパラメータ、ピッチラグ、長期予測パラメータ、適応符号帳、適応符号帳ゲイン、固定符号帳ゲイン、固定符号帳ベクトル等)を算出する(
図7ステップ142)。
【0077】
補助情報復号部125は、補助情報符号を復号してピッチラグ
【数39】
を算出し、補助情報蓄積部126に格納する。補助情報復号部125では、符号化側で用いた符号化方法に対応する復号方法を用いて、補助情報符号を復号する(
図7ステップ143)。
【0078】
音声合成部124は、音声パラメータ復号部122が出力したパラメータから符号化対象フレームに対応する音声信号を合成する(
図7ステップ144)。音声合成部124の機能構成例を
図15に示し、処理手順を
図16に示す。なお、信号の流れを示すために音声パラメータ紛失処理部123を記載しているが、音声パラメータ紛失処理部123は音声合成部124の機能構成には含まれない。
【0079】
LP係数算出部1121は、ISFパラメータをISPパラメータに変換した上で、補間処理を実施して、サブフレーム毎のISP係数を得る。次にISP係数を線形予測係数(LP係数)に変換し、サブフレーム毎のLP係数を得る(
図16ステップ11301)。ISP係数の補間処理、およびISP−LP係数については、例えば非特許文献4の6.4.5節に記載の方法を用いることができる。これらパラメータ変換処理の手順は本発明の実施形態の本質ではないため、詳細については省略する。
【0080】
適応符号帳算出部1123は、ピッチラグおよび長期予測パラメータと、適応符号帳1122を用いて適応符号帳ベクトルを算出する(
図16ステップ11302)。ピッチラグ
【数40】
、適応符号帳u(n)から、次式に従い、適応符号帳ベクトルv’(n)を算出する。
【数41】
適応符号帳ベクトルは、適応符号帳u(n)をFIRフィルタInt(i)により補間することで算出する。ここで、適応符号帳の長さをN
adaptとした。補間に用いるフィルタInt(i)は、(数27)の補間フィルタと同じである。事前に定めた長さ2l+1のFIRフィルタである。L’はサブフレームのサンプル数である。エンコーダ側と同様、補間にフィルタを用いなくてもよい。
【0081】
適応符号帳算出部1123は、長期予測パラメータの値に応じて、上記、適応符号帳ベクトルに対してフィルタリングを行う(
図16ステップ11303)。長期予測パラメータがフィルタリングを指示する値をとる場合は、以下の式により適応符号帳ベクトルにフィルタリングを行う。
v’(n)=0.18v’(n−1)+0.64v’(n)+0.18v’(n+1)
【0082】
一方、長期予測パラメータがフィルタリングを指示しない値をとる場合は、フィルタリングを行わず、v(n)=v’(n)とする。
【0083】
励振ベクトル合成部1124は、適応符号帳ベクトルに適応符号帳ゲインg
pを乗算する(
図16ステップ11304)。さらに、励振ベクトル合成部1124は、固定符号帳ベクトルc(n)に固定符号帳ゲインg
cを乗算する(
図16ステップ11305)。さらに、励振ベクトル合成部1124は、適応符号帳ベクトルと固定符号帳ベクトルを加算して、励振信号ベクトルを出力する(
図16ステップ11306)。
e(n)=g
p・v’(n)+g
c・c(n)
【0084】
ポストフィルタ1125は、励振信号ベクトルに対して、例えば、ピッチ強調、ノイズ強調、低域強調といった後処理を加える。ピッチ強調、ノイズ強調、低域強調と言った技術の詳細は、非特許文献3の6.1節に記載の通りである。ポストフィルタにおける処理は、本発明の実施形態の本質との関係が薄いので、詳細を省略する(
図16ステップ11307)。
【0085】
適応符号帳1122は、以下の式に従い、励振信号ベクトルにより状態を更新する(
図16ステップ11308)。
u(n)=u(n+L) (0≦n<N−L)
u(n+N−L)=e(n) (0≦n<L)
【0086】
合成フィルタ1126は、励振信号ベクトルを励振源とする、線形予測逆フィルタリングにより、次式に従い、復号信号を合成する(
図16ステップ11309)。
【数42】
【0087】
聴覚重み逆フィルタ1127は、復号信号に対して、次式に従い聴覚重み逆フィルタを適用する(
図16ステップ11310)。
【数43】
βの値としては典型的には0.68等を用いるが、この値に限定されない。
【0088】
音声パラメータ紛失処理部123は、音声合成部124で用いた音声パラメータ(ISFパラメータ、ピッチラグ、適応符号帳ゲイン、固定符号帳ゲイン)をバッファに格納する(
図7ステップ145)。
【0089】
<パケットロスを検出した場合>
音声パラメータ紛失処理部123は、補助情報蓄積部126からピッチラグ
【数44】
を読み出し、音声パラメータを予測する。音声パラメータ紛失処理部123の機能構成例を
図12に示し、音声パラメータ予測の処理手順を
図13に示す。
【0090】
ISF予測部191は、直前フレームに関するISFパラメータと、過去数フレームにおいて算出したISFパラメータを用いてISFパラメータを算出する(
図13ステップ1101)。ISF予測部191の処理手順を
図10に示す。
【0091】
最初に、直前フレームのISFパラメータを用いてバッファを更新する(
図10ステップ171)。次に、以下の式に従いISFパラメータ
【数45】
を算出する(
図10ステップ172)。
【数46】
【数47】
ここで、
【数48】
はバッファに格納されたjフレーム前のISFパラメータである。また、
【数49】
,α,βは、符号化側で用いた値と同様である。
【0092】
次に、
【数50】
が
【数51】
を満たすようiの値を並び替え、隣り合う
【数52】
同士が接近しすぎないよう調整する。
【数53】
の値を調整手順には、例えば非特許文献4(式151)を用いることができる(
図10ステップ173)。
【0093】
ピッチラグ予測部192は、補助情報蓄積部126から補助情報符号を復号してピッチラグ
【数54】
を得る。さらに、過去に復号に用いたピッチラグ
【数55】
を用いて、ピッチラグ
【数56】
を出力する。ここで、1フレームに含まれるサブフレームの数はM、補助情報に含まれるピッチラグの数をM
laである。ピッチラグ
【数57】
の予測に当たっては、例えば非特許文献4の7.11.1.3節に記載の処理手順を用いることができる(
図13ステップ1102)。
【0094】
適応符号帳ゲイン予測部193は、事前に定めた適応符号帳ゲイン
【数58】
と、過去に復号に用いた適応符号帳ゲイン
【数59】
を用いて、適応符号帳ゲイン
【数60】
を出力する。ここで、1フレームに含まれるサブフレームの数はM、補助情報に含まれるピッチラグの数をM
laである。適応符号帳ゲイン
【数61】
の予測に当たっては、例えば、非特許文献4の7.11.2.5.3節記載の処理手順を用いることができる(
図13ステップ1103)。
【0095】
固定符号帳ゲイン予測部194は、過去に復号に用いた固定符号帳ゲイン
【数62】
を用いて、固定符号帳ゲイン
【数63】
を出力する。ここで、1フレームに含まれるサブフレームの数はMである。固定符号帳ゲイン
【数64】
の予測に当たっては、例えば、非特許文献4の7.11.2.6節に記載の処理手順を用いることができる(
図13ステップ1104)。
【0096】
雑音信号生成部195は、長さLの白色雑音を出力する(
図13ステップ1105)。ここで、1フレームの長さをLとした。
【0097】
音声合成部124は、音声パラメータ紛失処理部123が出力した音声パラメータから復号信号を合成する(
図7ステップ144)。音声合成部124の動作は、<音声パケットを正常に受信した場合>の音声合成部の動作と同様であるので、詳細を省略する(
図7ステップ144)。
【0098】
音声パラメータ紛失処理部123は、音声合成部124で用いた音声パラメータ(ISFパラメータ、ピッチラグ、適応符号帳ゲイン、固定符号帳ゲイン)をバッファに格納する(
図7ステップ145)。
【0099】
上記実施例では、先読み信号に含まれる全てのサブフレームに関する補助情報を符号化して伝送する例を述べたが、特定のサブフレームに関する補助情報のみを伝送する構成としてもよい。
【0100】
[変形例1−1]
実施例1の変形例として、ピッチゲインを補助情報に追加する例を示す。変形例1−1と実施例1との差分は、励振ベクトル合成部155の動作のみであるので、その他の部分について説明を省略する。
【0101】
<符号化側>
励振ベクトル合成部155の処理手順を
図14に示す。
【0102】
適応符号帳ベクトルv’(n)とターゲット信号x(n)から、適応符号帳ゲイン
【数65】
を次式に従い算出する(
図14ステップ1111)。
【数66】
但し、y(n)は適応符号帳ベクトルにインパルス応答を畳み込んで得られる信号y(n)=v(n)*h(n)である。
【0103】
算出した適応符号帳ゲインを符号化し、補助情報符号に含める(
図14ステップ1112)。符号化には、事前に学習により求めたコードブックを用いたスカラ量子化を用いることができるが、符号化の手法そのものには何を用いてもよい。
【0104】
適応符号帳ゲインの符号化において求めた符号を、復号して得られる適応符号帳ゲイン
【数67】
を適応符号帳ベクトルに乗算することにより次式に従い、励振ベクトルを算出する(
図14ステップ1113)。
【数68】
【0105】
<復号側>
励振ベクトル合成部155は、適応符号帳ベクトルv’(n)に補助情報符号を復号することにより得られる適応符号帳ゲイン
【数69】
を乗算して、次式により励振信号ベクトルを出力する(
図9ステップ165)。
【数70】
【0106】
[変形例1−2]
実施例1の変形例として、補助情報の利用判断のためのフラグを補助情報に追加する例を示す。
【0107】
<符号化側>
補助情報符号化部の機能構成例を
図17に、補助情報符号化部の処理手順を
図18に示す。実施例1との差分は、補助情報出力判定部1128(
図18ステップ1131)のみであるので、その他の部分について説明を省略する。
【0108】
補助情報出力判定部1128は、次式に従い復号信号と先読み信号のsegmental SNRを算出し、segmental SNRが閾値を越えるときのみフラグの値をオンにセットして補助情報に含める。
【数71】
一方、segmental SNRが閾値を越えないときは、フラグの値をオフにして補助情報に含める(
図18ステップ1131)。なお、フラグの値がオンのときのみ、ピッチラグやピッチゲインなどの補助情報をフラグに付加して伝送し、フラグの値がオフのときはフラグの値のみ伝送することにより補助情報のビット量を削減してもよい。
【0109】
<復号側>
補助情報復号部は、補助情報符号に含まれるフラグを復号する。音声パラメータ紛失処理部は、フラグの値がオンの場合は、実施例1と同様の処理手順により復号信号を算出する。一方、フラグの値がオフの場合は、補助情報を用いないパケットロス隠蔽手法により復号信号を算出する(
図19ステップ1151)。
【0110】
[実施例2]
本実施例では、先読み信号部分の復号音声を正常受信時にも利用する例について述べる。説明を容易にするため、1フレームに含まれるサブフレームの数をMサブフレーム、先読み信号の長さをM’サブフレームとする。
【0111】
<符号化側>
音声信号送信装置は、
図20に示す通り、主要符号化部211、補助情報符号化部212、隠蔽信号蓄積部213、誤差信号符号化部214からなる。音声信号送信装置の処理手順を
図22に示す。
【0112】
誤差信号符号化部214は、隠蔽信号蓄積部213から1サブフレーム分の隠蔽信号を読み出し、音声信号から減算して、誤差信号を算出する(
図22ステップ221)。
【0113】
誤差信号符号化部214は誤差信号を符号化する。具体的な処理手順として非特許文献4の6.8.4.1.5節に記載のAVQ等を利用する。誤差信号の符号化にあたって、ローカルデコードを行い、復号誤差信号を出力する(
図22ステップ222)。
【0114】
復号誤差信号を隠蔽信号に加算することにより、1サブフレーム分の復号信号を出力する(
図22ステップ223)。
【0115】
上記、ステップ221〜223を隠蔽信号終了までM’サブフレーム分繰り返す。
【0116】
主要符号化部211の機能構成を
図21に示す。主要符号化部211は、ISF符号化部2011、ターゲット信号算出部2012、ピッチラグ算出部2013、適応符号帳算出部2014、固定符号帳算出部2015、ゲイン算出部2016、励振ベクトル算出部2017、合成フィルタ2018、適応符号帳バッファ2019からなる。
【0117】
ISF符号化部2011は、符号化対象フレームおよび先読み信号に対してレビンソンダービン法を適用してLP係数を得る。次にLP係数をISFパラメータに変換して符号化する。次に符号を復号して復号ISFパラメータを得る。最後に復号ISFパラメータを補間したうえで、サブフレーム毎の復号LP係数を得る。レビンソンダービン法、LP係数からのISFパラメータ変換の処理手順は実施例1と同様である。また、ISFパラメータの符号化には、例えば非特許文献4の6.8.2節に記載の処理手順を用いる。ISF符号化部2011により、ISFパラメータを符号化したインデクス、復号ISFパラメータ、および復号ISFパラメータをLP係数に変換して得られる復号LP係数が得られる(
図22ステップ224)。
【0118】
ターゲット信号算出部2012の詳細な処理手順は実施例1の
図9ステップ162と同様である(
図22ステップ225)。
【0119】
ピッチラグ算出部2013は、適応符号帳バッファを参照して、ターゲット信号を用いてピッチラグ、および長期予測パラメータを算出する。ピッチラグ、および長期予測パラメータ算出の詳細な処理手順は実施例1と同様である(
図22ステップ226)。
【0120】
適応符号帳算出部2014は、ピッチラグ算出部2013で求めたピッチラグおよび長期予測パラメータを用いて適応符号帳ベクトルを算出する。適応符号帳算出部2014の詳細な処理手順は、実施例1と同様である(
図22ステップ227)。
【0121】
固定符号帳算出部2015は、ターゲット信号および適応符号帳ベクトルを用いて、固定符号帳ベクトルおよび固定符号帳ベクトルを符号化して得られるインデクスを算出する。詳細な手順は誤差信号符号化部214で用いたAVQの処理手順と同様である(
図22ステップ228)。
【0122】
ゲイン算出部2016は、ターゲット信号、適応符号帳ベクトル、固定符号帳ベクトルを用いて、適応符号帳ゲイン、固定符号帳ゲイン、およびこれら2つのゲインを符号化して得られるインデクスを算出する。詳細な処理手順として非特許文献4の6.8.4.1.6節に記載の処理手順を利用できる(
図22ステップ229)。
【0123】
励振ベクトル算出部2017は、ゲインを適用した適応符号帳ベクトルおよび固定符号帳ベクトルを加算して励振ベクトルを算出する。詳細な処理手順は実施例1と同様である。さらに励振ベクトル算出部2017は、励振ベクトルを用いて適応符号帳バッファ2019の状態を更新する。詳細な処理手順は実施例1と同様である(
図22ステップ2210)。
【0124】
合成フィルタ2018は、復号LP係数および励振ベクトルを用いて復号信号を合成する(
図22ステップ2211)。
【0125】
上記、ステップ224〜2211を符号化対象フレーム終了までM−M’サブフレーム分繰り返す。
【0126】
補助情報符号化部212は先読み信号M’サブフレームに対して、補助情報を算出する。具体的な処理手順は実施例1と同様である(
図22ステップ2212)。
【0127】
実施例1の手順に加えて、実施例2では、補助情報符号化部212の合成フィルタ157が出力する復号信号を隠蔽信号蓄積部213に蓄積する(
図22ステップ2213)。
【0128】
<復号部>
図23に示す通り、音声信号受信装置は、音声符号バッファ231、音声パラメータ復号部232、音声パラメータ紛失処理部233、音声合成部234、補助情報復号部235、補助情報蓄積部236、誤差信号復号部237、隠蔽信号蓄積部238からなる。音声信号受信装置の処理手順を
図24に示す。音声合成部234の機能構成を
図25に示す。
【0129】
音声符号バッファ231は、パケットを正常に受信したか否かを判断し、パケットを正常に受信したと判断した場合には、音声パラメータ復号部232、補助情報復号部235、誤差信号復号部237に処理を切替え、パケットを正常に受信できなかったと判断した場合には、音声パラメータ紛失処理部233に処理を切り替える(
図24ステップ241)。
【0130】
<正常にパケットを受信した場合>
誤差信号復号部237は誤差信号符合を復号して復号誤差信号を得る。具体的な処理手順として非特許文献4の7.1.2.1.2節に記載のAVQ等、符号化側で用いた方法に対応した復号方法を用いる(
図24ステップ242)。
【0131】
先読み励振ベクトル合成部2318は、隠蔽信号蓄積部238から1サブフレーム分の隠蔽信号を読み出し、復号誤差信号に加算することにより、1サブフレーム分の復号信号を出力する(
図24ステップ243)。
【0132】
上記、ステップ241〜243を隠蔽信号終了までM’サブフレーム分繰り返す。
【0133】
音声パラメータ復号部232は、ISF復号部2211、ピッチラグ復号部2212、ゲイン復号部2213、固定符号帳復号部2214からなる。音声パラメータ復号部232の機能構成例を
図26に示す。
【0134】
ISF復号部2211は、ISF符号を復号し、LP係数に変換することにより復号LP係数を得る。例えば非特許文献4の7.1.1節に記載の処理手順を用いる(
図24ステップ244)。
【0135】
ピッチラグ復号部2212は、ピッチラグ符号を復号してピッチラグおよび長期予測パラメータを得る(
図24ステップ245)。
【0136】
ゲイン復号部2213は、ゲイン符号を復号して適応符号帳ゲイン、固定符号帳ゲインを得る。詳細な処理手順は非特許文献4の7.1.2.1.3節に記載の通りである(
図24ステップ246)。
【0137】
適応符号帳算出部2313は、ピッチラグおよび長期予測パラメータを用いて適応符号帳ベクトルを算出する。適応符号帳算出部2313の詳細な処理手順は、実施例1に記載の通りである(
図24ステップ247)。
【0138】
固定符号帳復号部2214は、固定符号帳符号を復号して、固定符号帳ベクトルを算出する。詳細な手順は非特許文献4の7.1.2.1.2節に記載の通りである(
図24ステップ248)。
【0139】
励振ベクトル合成部2314は、ゲインを適用した適応符号帳ベクトルおよび固定符号帳ベクトルを加算して励振ベクトルを算出する。さらに励振ベクトル算出部は、励振ベクトルを用いて適応符号帳バッファを更新する(
図24ステップ249)。詳細な処理手順は実施例1と同様である。
【0140】
合成フィルタ2316は、復号LP係数および励振ベクトルを用いて復号信号を合成する(
図24ステップ2410)。詳細な処理手順は実施例1と同様である。
【0141】
上記、ステップ244〜2410を符号化対象フレーム終了までM−M’サブフレーム分繰り返す。
【0142】
補助情報復号部235の機能構成は実施例1と同様である。補助情報復号部235は、補助情報符号を復号してピッチラグを算出する(
図24ステップ2411)。
【0143】
音声パラメータ紛失処理部233の機能構成は実施例1と同様である。
ISF予測部191は、直前フレームのISFパラメータを用いてISFパラメータを予測し、LP係数に変換する。処理手順は実施例1の
図10のステップ172、173、174と同様である(
図24ステップ2412)。
【0144】
適応符号帳算出部2313は、補助情報復号部235が出力したピッチラグと、適応符号帳2312を用いて適応符号帳ベクトルを算出する(
図24ステップ2413)。処理手順は
図16ステップ11301、11302と同様である。
【0145】
適応符号帳ゲイン予測部193は、適応符号帳ゲインを出力する。具体的な処理手順は
図13ステップ1103と同様である(
図24ステップ2414)。
【0146】
固定符号帳ゲイン予測部194は、固定符号帳ゲインを出力する。具体的な処理手順は
図13ステップ1104と同様である(
図24ステップ2415)。
【0147】
雑音信号生成部195は、白色雑音を出力し、固定符号帳ベクトルとする。処理手中は
図13ステップ1105と同様である(
図24ステップ2416)。
【0148】
励振ベクトル合成部2314は、適応符号帳ベクトルおよび固定符号帳ベクトルに各々ゲインを適用した上で加算し、励振ベクトルを算出する。また励振ベクトルにより適応符号帳バッファを更新する(
図24ステップ2417)。
【0149】
合成フィルタ2316は、上記LP係数と励振ベクトルを用いて復号信号を算出する。算出した復号信号で隠蔽信号蓄積部238を更新する(
図24ステップ2418)。
【0150】
上記ステップをM’サブフレーム分繰り返し、復号信号を音声信号として出力する。
【0151】
<パケットをロスした場合>
隠蔽信号蓄積部から1サブフレーム分の隠蔽信号を読み出し、復号信号とする(
図24ステップ2419)。
【0153】
ISF予測部191は、ISFパラメータを予測する(
図24ステップ2420)。処理手順として、
図13ステップ1101を用いる。
【0154】
ピッチラグ予測部192は、過去に復号に用いたピッチラグを用いて予測ピッチラグを出力する(
図24ステップ2421)。予測に用いる処理手順は、実施例1の
図13ステップ1102と同様である。
【0155】
適応符号帳ゲイン予測部193、固定符号帳ゲイン予測部194、雑音信号生成部195、音声合成部234の動作は実施例1と同様である(
図24ステップ2422)。
【0156】
上記ステップをMサブフレーム分繰り返し、M−M’サブフレーム分の復号信号は音声信号として出力し、残りのM’サブフレーム分の復号信号で隠蔽信号蓄積部238を更新する。
【0157】
[実施例3]
適応符号帳ベクトルの算出に当たって、声門パルス同期を用いる場合について述べる。
【0158】
<符号化側>
音声信号送信装置の機能構成は実施例1と同じである。機能構成および処理手順が異なるのは補助情報符号化部のみであるので、ここでは補助情報符号化部の動作についてのみ述べる。
【0159】
補助情報符号化部は、LP係数算出部311、ピッチラグ予測部312、ピッチラグ選定部313、ピッチラグ符号化部314、適応符号帳バッファ315からなる。補助情報符号化部の機能構成図を
図27に、処理手順を
図28に示す。
【0160】
LP係数算出部311は、実施例1のLP係数算出部と同じであるので説明を省略する(
図28ステップ321)。
【0161】
ピッチラグ予測部312は、音声符号化部から得たピッチラグを用いてピッチラグ予測値
【数72】
を算出する(
図28ステップ322)。予測の具体的な処理は実施例1におけるピッチラグ予測部192における、ピッチラグ
【数73】
の予測と同様である(
図13ステップ1102と同じである)。
【0162】
次にピッチラグ選定部313は、補助情報として伝送するピッチラグを決定する(
図28ステップ323)。ピッチラグ選定部313のより詳細な処理手順を
図29に示す。
【0163】
最初に、ピッチラグ予測値
【数74】
および過去のピッチラグの値
【数75】
から、次式に従いピッチラグコードブックを生成する(
図29ステップ331)。
【数76】
【数77】
ここで、1サブフレーム前のピッチラグの値は
【数78】
である。またコードブックのインデクス数をIとする。またδ
jは事前に定めたステップ幅であり、ρは事前に定めた定数である。
【0164】
次に適応符号帳、ピッチラグ予測値
【数79】
を用いて、次式に従い初期励振ベクトルu
0(n)を生成する(
図29ステップ332)。
【数80】
初期励振ベクトル算出の処理手順は、非特許文献4の式(607)および式(608)と同様である。
【0165】
次に初期励振ベクトルに対して、ピッチラグコードブック中の全ての候補ピッチラグ
【数81】
を用いて声門パルス同期を適用し、候補適応符号帳ベクトルu
j(n)(0≦j<I)を生成する(
図29ステップ333)。声門パルス同期は非特許文献4の7.11.2.5節におけるパルス位置が利用できない場合と同様の処理手順を用いる。ただし、非特許文献4におけるu(n)は本発明の実施形態のu
0(n)に対応し、extrapolated pitchは本発明の実施形態の
【数82】
に対応し、the last reliable pitch(T
c)は本発明の実施形態の
【数83】
に対応する。
【0166】
候補適応符号帳ベクトルu
j(n)(0≦j<I)について、評価尺度を計算する(
図29ステップ334)。評価尺度としてsegmental SNRを用いる場合には、LP係数を用いた逆フィルタリングにより信号を合成し、入力信号との間で次式に従いsegmental SNRを算出する。
【数84】
【数85】
【0167】
逆フィルタリングを行う代わりに、次式に従い、残差信号を用いて適応符号帳ベクトルの領域でsegmental SNRを算出してもよい。
【数86】
【数87】
この場合、LP係数を用いて先読み信号s(n)(0≦n<L’)の残差信号r(n)を算出する(
図11ステップ181)。
【0168】
ステップ334で算出した評価尺度のうち最大のものに対応するインデクスを選択し、当該インデクスに対応するピッチラグを求める。(
図29ステップ335)。
【数88】
【0169】
<復号側>
音声信号受信装置の機能構成は実施例1と同様である。実施例1との差分は音声パラメータ紛失処理部123、補助情報復号部125、補助情報蓄積部126の機能構成と処理手順であるので、これらについてのみ述べる。
【0170】
<正常にパケットを受信した場合>
補助情報復号部125は、補助情報符号を復号してピッチラグ
【数89】
を算出し、補助情報蓄積部126に格納する。補助情報復号部125の処理手順を
図30に示す。
【0171】
ピッチラグ算出に当たって、最初にピッチラグ予測部312は、音声復号部から得たピッチラグを用いてピッチラグ予測値
【数90】
を算出する(
図30ステップ341)。予測の具体的な処理は実施例3における
図28ステップ322と同様である。
【0172】
次に、ピッチラグ予測値
【数91】
および過去のピッチラグの値
【数92】
から、次式に従いピッチラグコードブックを生成する(
図30ステップ342)。
【数93】
【数94】
処理手順は
図29ステップ331と同様である。ここで、1サブフレーム前のピッチラグの値は
【数95】
である。またコードブックのインデクス数をIとする。またδ
jは事前に定めたステップ幅であり、ρは事前に定めた定数である。
【0173】
次に、ピッチラグコードブックを参照し、補助情報として伝送されたインデクスidxに対応するピッチラグ
【数96】
を求め、補助情報蓄積部126に格納する(
図30ステップ343)。
【0174】
<パケットロスを検出した場合>
音声合成部の機能構成も実施例1と同様であるが(
図15と同様)、実施例1と動作が異なる適応符号帳算出部1123についてのみ以下に述べる。
【0175】
音声パラメータ紛失処理部123は、補助情報蓄積部126からピッチラグを読み出した上で次式に従ってピッチラグ予測値を算出し、ピッチラグ予測部192の出力の代わりに用いる。
【数97】
ここで、
【数98】
は予め定めた定数である。
【0176】
次に、適応符号帳、ピッチラグ予測値
【数99】
を用いて、次式に従い初期励振ベクトルu
0(n)を生成する(
図29ステップ332)。
【数100】
【0177】
次に初期励振ベクトルに対して、ピッチラグ
【数101】
を用いて声門パルス同期を適用し、適応符号帳ベクトルu(n)を生成する。声門パルス同期は
図29ステップ333と同様の処理手順を用いる。
【0178】
続いて、上述した一連の音声信号送信装置による処理をコンピュータに実行させるための音声符号化プログラム70を説明する。
図31に示すように、音声符号化プログラム70は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体60に形成されたプログラム格納領域61内に格納される。
【0179】
音声符号化プログラム70は、音声符号化モジュール700と、補助情報符号化モジュール701とを備えて構成される。音声符号化モジュール700と、補助情報符号化モジュール701とを実行させることにより実現される機能は、上述した音声信号送信装置の音声符号化部111と、補助情報符号化部112との機能とそれぞれ同様である。
【0180】
なお、音声符号化プログラム70は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、音声符号化プログラム70の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータからなるコンピュータシステムによって上述した一連の音声符号化プログラム70の処理が行われる。
【0181】
続いて、上述した一連の音声信号受信装置による処理をコンピュータに実行させるための音声復号プログラム90を説明する。
図32に示すように、音声復号プログラム90は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体80に形成されたプログラム格納領域81内に格納される。
【0182】
音声復号プログラム90は、音声符号バッファモジュール900と、音声パラメータ復号モジュール901と、補助情報復号モジュール902と、補助情報蓄積モジュール903と、音声パラメータ紛失処理モジュール904と、音声合成モジュール905とを備えて構成される。音声符号バッファモジュール900と、音声パラメータ復号モジュール901と、補助情報復号モジュール902と、補助情報蓄積モジュール903と、音声パラメータ紛失処理モジュール904と、音声合成モジュール905とを実行させることにより実現される機能は、上述した音声信号受信装置の音声符号バッファ231と、音声パラメータ復号部232と、補助情報復号部235と、補助情報蓄積部236と、音声パラメータ紛失処理部233と、音声合成部234との機能とそれぞれ同様である。
【0183】
なお、音声復号プログラム90は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、音声復号プログラム90の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータからなるコンピュータシステムによって上述した一連の音声復号プログラム90の処理が行われる。
【0184】
[実施例4]
補助情報を復号側でのピッチラグ予測に用いる例について述べる。
【0185】
<符号化側>
音声信号送信装置の機能構成は実施例1と同様である。機能構成および処理手順が異なるのは補助情報符号化部112のみであるので、ここでは補助情報符号化部112の動作についてのみ述べる。
【0186】
補助情報符号化部112の機能構成図を
図33に、処理手順を
図34に示す。補助情報符号化部112は、LP係数算出部511、残差信号算出部512、ピッチラグ算出部513、適応符号帳算出部514、適応符号帳バッファ515、ピッチラグ符号化部516からなる。
【0187】
LP係数算出部511は、実施例1の
図8のLP係数算出部151と同様であるので説明を省略する。
【0188】
残差信号算出部512は、実施例1の
図11のステップ181と同様の処理により、残差信号を算出する。
【0189】
ピッチラグ算出部513は、次式を最大化するkを求めることにより、サブフレーム毎にピッチラグを算出する(
図34のステップ163)。ここで、u(n)は適応符号帳、L’は1サブフレームに含まれるサンプル数を表す。
T
p=arg
kmaxT
k
【数102】
【0190】
適応符号帳算出部514はピッチラグT
p、適応符号帳u(n)から、適応符号帳ベクトルv’(n)を算出する。ここで適応符号帳の長さをN
adaptとした。(
図34のステップ164)
v’(n)=u(n+N
adapt−T
p)
【0191】
適応符号帳バッファ515は、適応符号帳ベクトルv’(n)により状態を更新する(
図34のステップ166)。
u(n)=u(n+L’) (0≦n<N−L’)
u(n+N−L’)=v’(n) (0≦n<L)
【0192】
ピッチラグ符号化部516は、実施例1と同様なので省略する(
図34のステップ169)。
【0193】
<復号側>
音声信号受信装置は、実施例1と同様に、音声符号バッファ121、音声パラメータ復号部122、音声パラメータ紛失処理部123、音声合成部124、補助情報復号部125、補助情報蓄積部126からなる。音声信号受信装置の処理手順は
図7に示す通りである。
【0194】
音声符号バッファ121の動作は実施例1と同様である。
【0195】
<正常にパケットを受信した場合>
音声パラメータ復号部122の動作は実施例1と同様である。
【0196】
補助情報復号部125は、補助情報符号を復号してピッチラグ
【数103】
を算出し、補助情報蓄積部126に格納する。補助情報復号部125では、符号化側で用いた符号化方法に対応する復号方法を用いて、補助情報符号を復号する。
【0197】
音声合成部124は、実施例1と同様である。
【0198】
<パケットロスを検出した場合>
音声パラメータ紛失処理部123(
図12参照)のISF予測部191は、実施例1と同様にしてISFパラメータを算出する。
【0199】
ピッチラグ予測部192の処理手順を
図35に示す。ピッチラグ予測部192は、実施例1と同様にして、補助情報蓄積部126から補助情報符号を読み出してピッチラグ
【数104】
を得る(
図35のステップ4051)。さらに、過去に復号に用いたピッチラグ
【数105】
を用いて、ピッチラグ
【数106】
を出力する(
図35のステップ4052)。ここで、1フレームに含まれるサブフレームの数はM、補助情報に含まれるピッチラグの数をM
laとする。ピッチラグ
【数107】
の予測に当たっては、非特許文献4のような処理手順を用いることができる(
図13のステップ1102)。
【0200】
ここで、ピッチラグ予測部192は、ピッチラグ
【数108】
の予測に当たって、過去に復号に用いたピッチラグ
【数109】
とピッチラグ
【数110】
を用いてピッチラグ
【数111】
を予測してもよい。また、
【数112】
としてもよい。この場合のピッチラグ予測部の処理手順は
図36のようになる。
【0201】
さらに、ピッチラグ予測部192は、ピッチラグの予測値について信頼性が低い場合にのみ
【数113】
としてもよい。この場合のピッチラグ予測部192の処理手順を
図37に示す。予測値を用いたか、補助情報により得られたピッチラグ
【数114】
を用いたかに関する指示情報を適応符号帳算出部154に入力するようにしてもよい。
【0202】
適応符号帳ゲイン予測部193、固定符号帳ゲイン予測部194は実施例1と同様である。
【0203】
雑音信号生成部195は、実施例1と同様である。
【0204】
音声合成部124は、音声パラメータ紛失処理部123が出力したパラメータから符号化対象フレームに対応する音声信号を合成する。
【0205】
音声合成部124(
図15参照)のLP係数算出部1121は、実施例1と同様にしてLP係数を得る(
図16のステップ11301)。
【0206】
適応符号帳算出部1123は、実施例1と同様にして適応符号帳ベクトルを算出する。適応符号帳算出部1123は、常に適応符号帳ベクトルにフィルタリングを行うようにしてもよいし、常にフィルタリングを行わないようにしてもよい。すなわち以下の式を用いて適応符号帳ベクトルを算出する。ここで、フィルタ係数をf
iとした。
v(n)=f
−1v’(n−1)+f
0v’(n)+f
1v’(n+1)
フィルタリングを指示しない値をとる場合は、v(n)=v’(n)とする(適応符号帳算出ステップA)。
【0207】
適応符号帳算出部1123は、次の手順で適応符号帳ベクトルを算出してもよい(適応符号帳算出ステップB)。
【0208】
ピッチラグおよび適応符号帳1122を用いて初期適応符号帳ベクトルを算出する。
v(n)=f
−1v’(n−1)+f
0v’(n)+f
1v’(n+1)
設計方針によって、v(n)=v’(n)としてもよい。
【0209】
次に初期適応符号帳ベクトルに対して、声門パルス同期を適用する。声門パルス同期は非特許文献4の7.11.2.5節におけるパルス位置が利用できない場合と同様の処理手順を用いる。ただし、非特許文献4におけるu(n)は本発明の実施形態のv(n)に対応し、extrapolated pitchは本発明の実施形態の
【数115】
に対応し、the last reliable pitch(T
c)は本発明の実施形態の
【数116】
に対応する。
【0210】
さらに、適応符号帳算出部1123は、ピッチラグ予測部192が、上記予測値の指示情報を出力している場合に、上記指示情報が、補助情報として送られてきたピッチラグを予測値として用いないことを示す場合(
図38のステップ4082:NO)に上記適応符号帳算出ステップAを用い、それ以外の場合(
図38のステップ4082:YES)には上記適応符号帳算出ステップBを用いるようにしてもよい。この場合の適応符号帳算出部1123の処理手順を
図38に示す。
【0211】
励振ベクトル合成部1124は、実施例1と同様にして、励振信号ベクトルを出力する(
図16のステップ11306)。
【0212】
ポストフィルタ1125は、実施例1と同様にして、合成信号に後処理を加える。
【0213】
適応符号帳1122は、実施例1と同様にして、励振信号ベクトルにより状態を更新する(
図16のステップ11308)。
【0214】
合成フィルタ1126は、実施例1と同様にして、復号信号を合成する(
図16のステップ11309)。
【0215】
聴覚重み逆フィルタ1127は、実施例1と同様にして、聴覚重み逆フィルタを適用する。
【0216】
音声パラメータ紛失処理部123は、実施例1と同様にして、音声合成部124で用いた音声パラメータ(ISFパラメータ、ピッチラグ、適応符号帳ゲイン、固定符号帳ゲイン)をバッファに格納する(
図7のステップ145)。
【0217】
[実施例5]
本実施例では、特定のフレームクラスにおいてのみ補助情報としてピッチラグを伝送し、それ以外では、ピッチラグを伝送しない構成について述べる。
【0218】
<送信側>
音声信号送信装置において、入力音声信号は、音声符号化部111に送られる。
【0219】
本実施例における音声符号化部111は、符号化対象フレームの性質を表すインデクスを必ず算出し、補助情報符号化部112に伝送する。それ以外の動作については、実施例1と同様である。
【0220】
補助情報符号化部112において、実施例1−4との違いは、ピッチラグ符号化部158のみであるので、ピッチラグ符号化部158の動作について、以下に述べる。実施例5における補助情報符号化部112の構成図を
図39に示す。
【0221】
ピッチラグ符号化部158の処理手順を
図40に示す。ピッチラグ符号化部158は、符号化対象フレームの性質を現すインデクスを読み出し(
図40のステップ5021)、符号化対象フレームの性質を現すインデクスが、事前に定めた値と等しい場合は、補助情報に割り当てるビット数をBビットとする(B>1)。一方、符号化対象フレームの性質を現すインデクスが事前に定めた値と異なる場合は、補助情報に割り当てるビット数を1ビットとする(
図40のステップ5022)。
【0222】
補助情報に割り当てるビット数が1ビットの場合(
図40のステップ5022:NO)、補助情報インデクスに補助情報を伝送していないことを示す値をセットし、補助情報符号とする(
図40のステップ5023)。
【0223】
一方、補助情報に割り当てるビット数がBビットの場合(
図40のステップ5022:YES)、補助情報インデクスに補助情報を伝送することを示す値をセットし(
図40のステップ5024)、さらにピッチラグを実施例1の方法により符号化して得られるB−1ビットの符号を含めて、補助情報符号とする(
図40のステップ5025)。
【0224】
<復号側>
音声信号受信装置は、実施例1と同様に、音声符号バッファ121、音声パラメータ復号部122、音声パラメータ紛失処理部123、音声合成部124、補助情報復号部125、補助情報蓄積部126からなる。音声信号受信装置の処理手順は
図7に示す通りである。
【0225】
音声符号バッファ121の動作は実施例1と同様である。
【0226】
<正常にパケットを受信した場合>
音声パラメータ復号部122の動作は実施例1と同様である。
【0227】
補助情報復号部125の処理手順を
図41に示す。補助情報復号部125は、最初に補助情報符号に含まれる補助情報インデクスを復号する(
図41のステップ5031)。補助情報インデクスが補助情報を伝送していないことを表す場合、それ以上の復号動作を行わない。また、補助情報インデクスの値を補助情報蓄積部126に格納する(
図41のステップ5032)。
【0228】
一方、補助情報インデクスが、補助情報を伝送することを表す場合、さらにB−1ビットの復号を行い、ピッチラグ
【数117】
を算出し、補助情報蓄積部126に格納する(
図41のステップ5033)。また、補助情報インデクスの値を補助情報蓄積部126に格納する。なお、B−1ビットの補助情報の復号は、実施例1の補助情報復号部125と同様の動作である。
【0229】
音声合成部124は、実施例1と同様である。
【0230】
<パケットロスを検出した場合>
音声パラメータ紛失処理部123(
図12参照)のISF予測部191は、実施例1と同様にしてISFパラメータを算出する。
【0231】
ピッチラグ予測部192の処理手順を
図42に示す。ピッチラグ予測部192は、補助情報蓄積部126から補助情報インデクスを読み出して(
図42のステップ5041)、補助情報を伝送することを表す値であるかどうかを調べる(
図42のステップ5042)。
【0232】
<補助情報インデクスが補助情報を伝送することを表す値である場合>
実施例1と同様にして、補助情報蓄積部126から補助情報符号を読み出してピッチラグ
【数118】
を得る(
図42の5043)。さらに、過去に復号に用いたピッチラグ
【数119】
および補助情報として得られた
【数120】
を用いて、ピッチラグ
【数121】
を出力する(
図42のステップ5044)。ここで、1フレームに含まれるサブフレームの数はM、補助情報に含まれるピッチラグの数をM
laとする。ピッチラグ
【数122】
の予測に当たっては、非特許文献4のような処理手順を用いることができる(
図13のステップ1102)。また、
【数123】
としてもよい。
【0233】
さらに、ピッチラグ予測部192は、ピッチラグの予測値について信頼性が低い場合にのみ
【数124】
とし、それ以外の場合には予測値を
【数125】
とするようにしてもよい(
図42のステップ5046)。また、予測値を用いたか、補助情報により得られたピッチラグ
【数126】
を用いたかに関するピッチラグ指示情報を適応符号帳算出部1123に入力するようにしてもよい。
【0234】
<補助情報インデクスが補助情報を伝送しないことを表す値である場合>
ピッチラグ予測部192は、ピッチラグ
【数127】
の予測に当たって、過去に復号に用いたピッチラグ
【数128】
を用いてピッチラグ
【数129】
を予測する(
図42のステップ5048)。
【0235】
さらに、ピッチラグ予測部192は、ピッチラグの予測値について信頼性が低い場合にのみ
【数130】
とし(
図42のステップ5049)、それ以外の場合には予測値を
【数131】
とするようにしてもよい。また、予測値を用いたか、過去復号に用いたピッチラグ
【数132】
を用いたかに関するピッチラグ指示情報を適応符号帳算出部1123に入力する(
図42のステップ5050)。
【0236】
適応符号帳ゲイン予測部193、固定符号帳ゲイン予測部194は実施例1と同様である。
【0237】
雑音信号生成部195は、実施例1と同様である。
【0238】
音声合成部124は、音声パラメータ紛失処理部123が出力したパラメータから符号化対象フレームに対応する音声信号を合成する。
【0239】
音声合成部124(
図15参照)のLP係数算出部1121は、実施例1と同様にしてLP係数を得る(
図16のステップ11301)。
【0240】
適応符号帳算出部1123の処理手順を
図43に示す。適応符号帳算出部1123は、実施例1と同様にして適応符号帳ベクトルを算出する。まず、ピッチラグ指示情報を参照し(
図43のステップ5051)、予測値の信頼性が低い場合(
図43のステップ5052:YES)は、以下の式を用いて適応符号帳ベクトルを算出する(
図43のステップ5055)。ここで、フィルタ係数をf
iとした。
v(n)=f
−1v’(n−1)+f
0v’(n)+f
1v’(n+1)
なお設計方針により、v(n)=v’(n)としてもよい。
【0241】
ピッチラグ指示情報を参照し、予測値の信頼性が高い場合(
図43のステップ5052:NO)、適応符号帳算出部1123は、次の手順で適応符号帳ベクトルを算出する。
【0242】
まず、ピッチラグおよび適応符号帳1122を用いて初期適応符号帳ベクトルを算出する(
図43のステップ5053)。
v(n)=f
−1v’(n−1)+f
0v’(n)+f
1v’(n+1)
設計方針によって、v(n)=v’(n)としてもよい。
【0243】
次に初期適応符号帳ベクトルに対して、声門パルス同期を適用する。声門パルス同期は非特許文献4の7.11.2.5節におけるパルス位置が利用できない場合と同様の処理手順を用いる(
図43のステップ5054)。ただし、非特許文献4におけるu(n)は本発明の実施形態のv(n)に対応し、extrapolated pitchは本発明の実施形態の
【数133】
に対応し、the last reliable pitch(T
c)は本発明の実施形態の
【数134】
に対応する。
【0244】
励振ベクトル合成部1124は、実施例1と同様にして、励振信号ベクトルを出力する(
図16のステップ11306)。
【0245】
ポストフィルタ1125は、実施例1と同様にして、合成信号に後処理を加える。
【0246】
適応符号帳1122は、実施例1と同様にして、励振信号ベクトルにより状態を更新する(
図16のステップ11308)。
【0247】
合成フィルタ1126は、実施例1と同様にして、復号信号を合成する(
図16のステップ11309)。
【0248】
聴覚重み逆フィルタ1127は、実施例1と同様にして、聴覚重み逆フィルタを適用する。
【0249】
音声パラメータ紛失処理部123は、実施例1と同様にして、音声合成部124で用いた音声パラメータ(ISFパラメータ、ピッチラグ、適応符号帳ゲイン、固定符号帳ゲイン)をバッファに格納する(
図7のステップ145)。
【0250】
本発明の一側面に係る音声符号化装置は、音声信号を符号化する音声符号化装置であって、音声信号を符号化する音声符号化部と、先読み信号から補助情報を算出して符号化する補助情報符号化部と、を備える。
【0251】
補助情報は、先読み信号におけるピッチラグに関すること、又は、補助情報は、先読み信号におけるピッチゲインに関すること、又は、先読み信号におけるピッチラグおよびピッチゲインに関することとしてもよい。また、補助情報は、補助情報の利用可否に関する情報を含むこととしてもよい。
【0252】
補助情報符号化部は、先読み信号部分について補助情報を算出して符号化し、さらに隠蔽信号を生成し、入力音声信号と補助情報符号化部が出力する隠蔽信号の誤差信号を符号化する誤差信号符号化部と、入力音声信号そのものを符号化する主要符号化部と、をさらに備えることとしてもよい。
【0253】
また、本発明の一側面に係る音声復号装置は、音声符号を復号して音声信号を出力する音声復号装置であって、音声パケットの受信状態からパケットロスを検出する音声符号バッファと、音声パケット正常受信時に音声符号を復号する音声パラメータ復号部と、音声パケット正常受信時に補助情報符号を復号する補助情報復号部と、補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積部と、音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理部と、音声パラメータから復号音声を合成する音声合成部と、を備える。
【0254】
補助情報は、先読み信号におけるピッチラグに関すること、又は、先読み信号におけるピッチゲインに関すること、又は、先読み信号におけるピッチラグおよびピッチゲインに関することとしてもよい。また、補助情報は、補助情報の利用可否に関する情報を含むこととしてもよい。
【0255】
補助情報復号部は、補助情報符号を復号して補助情報を出力し、かつ補助情報を利用して先読み部分に関する隠蔽信号を出力し、音声信号と隠蔽信号との誤差信号に関する符号を復号する誤差復号部と、音声信号に関する符号を復号する主要復号部と、補助情報復号部が出力した隠蔽信号を蓄積する隠蔽信号蓄積部と、をさらに備えることとしてもよい。
【0256】
音声パケット正常受信時には、隠蔽信号蓄積部から読み出した隠蔽信号と、誤差復号部が出力した復号誤差信号を加算することにより復号信号の一部を生成し、補助情報復号部が出力した隠蔽信号により隠蔽信号蓄積部を更新する、こととしてもよい。
【0257】
音声パケットロス検出時には、隠蔽信号蓄積部から読み出した隠蔽信号を、復号信号の一部あるいは全部とする、こととしてもよい。
【0258】
音声パケットロス検出時には、音声パラメータ紛失処理部により予測した音声パラメータを用いて復号信号を生成し、その一部を用いて隠蔽信号蓄積部を更新する、こととしてもよい。
【0259】
音声パラメータ紛失処理部は、音声パケットロス検出時に、補助情報蓄積部から読み出した補助情報を、音声パラメータの予測値の一部として利用する、こととしてもよい。
【0260】
音声合成部は、音声パケットロス検出時に、補助情報蓄積部から読み出した補助情報を用いて、音声パラメータの1つである適応符号帳ベクトルを修正する、こととしてもよい。
【0261】
また、本発明の一側面に係る音声符号化方法は、音声信号を符号化する音声符号化装置による音声符号化方法であって、音声信号を符号化する音声符号化ステップと、先読み信号から補助情報を算出して符号化する補助情報符号化ステップと、を含む。
【0262】
また、本発明の一側面に係る音声復号方法は、音声符号を復号して音声信号を出力する音声復号装置による音声復号方法であって、音声パケットの受信状態からパケットロスを検出する音声符号バッファステップと、音声パケット正常受信時に音声符号を復号する音声パラメータ復号ステップと、音声パケット正常受信時に補助情報符号を復号する補助情報復号ステップと、補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積ステップと、音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理ステップと、音声パラメータから復号音声を合成する音声合成ステップと、を含む。
【0263】
また、本発明の一側面に係る音声符号化プログラムは、コンピュータを、音声信号を符号化する音声符号化部と、先読み信号から補助情報を算出して符号化する補助情報符号化部、として機能させる。
【0264】
また、本発明の一側面に係る音声復号プログラムは、コンピュータを、音声パケットの受信状態からパケットロスを検出する音声符号バッファと、音声パケット正常受信時に音声符号を復号する音声パラメータ復号部と、音声パケット正常受信時に補助情報符号を復号する補助情報復号部と、補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積部と、音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理部と、音声パラメータから復号音声を合成する音声合成部、として機能させる。
【0265】
また、本発明の一側面に係る音声復号方法は、
音声符号を復号して音声信号を出力する音声復号装置による音声復号方法であって、
音声パケットの受信状態からパケットロスを検出する音声符号バッファステップと、
音声パケット正常受信時に音声符号を復号する音声パラメータ復号ステップと、
音声パケット正常受信時に補助情報符号を復号する補助情報復号ステップと、
補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積ステップと、
音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理ステップと、
音声パラメータから復号音声を合成する音声合成ステップと、
を含み、
前記音声パラメータ紛失処理ステップは、音声パケットロス検出時に、音声パケット正常受信時に蓄積した音声パラメータと前記補助情報蓄積ステップにて蓄積された補助情報とを用いて、音声パラメータの予測値を算出し、算出された予測値の信頼度が低い場合には、前記補助情報蓄積ステップにて蓄積された補助情報を音声パラメータとして採用する。
【0266】
前記補助情報は、先読み信号におけるピッチラグに関する、こととしてもよい。
【0267】
前記補助情報は、補助情報が音声符号化装置から伝送されたか否かを示す値を含み、前記音声パラメータ紛失処理ステップは、前記補助情報蓄積ステップにて蓄積された補助情報が、音声符号化装置から伝送されたことを示す値を含む場合、音声パケットロス検出時に、音声パケット正常受信時に蓄積した音声パラメータと前記補助情報蓄積ステップにて蓄積された補助情報とを用いて、音声パラメータの予測値を算出し、算出された予測値の信頼度が低い場合には、前記補助情報蓄積ステップにて蓄積された補助情報を音声パラメータとして採用する、こととしてもよい。
【0268】
本発明の一側面に係る音声復号装置は、
音声符号を復号して音声信号を出力する音声復号装置であって、
音声パケットの受信状態からパケットロスを検出する音声符号バッファと、
音声パケット正常受信時に音声符号を復号する音声パラメータ復号部と、
音声パケット正常受信時に補助情報符号を復号する補助情報復号部と、
補助情報符号を復号して得られる補助情報を蓄積する補助情報蓄積部と、
音声パケットロス検出時に音声パラメータを出力する音声パラメータ紛失処理部と、
音声パラメータから復号音声を合成する音声合成部と、
を備え、
前記音声パラメータ紛失処理部は、音声パケットロス検出時に、音声パケット正常受信時に蓄積した音声パラメータと前記補助情報蓄積部から読み出した補助情報とを用いて、音声パラメータの予測値を算出し、算出された予測値の信頼度が低い場合には、前記補助情報蓄積部から読み出した補助情報を音声パラメータとして採用する。