(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-02-07
(45)【発行日】2025-02-18
(54)【発明の名称】改善されたピッチラグ推定を採用するACELP型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
(51)【国際特許分類】
G10L 19/005 20130101AFI20250210BHJP
G10L 19/09 20130101ALI20250210BHJP
【FI】
G10L19/005
G10L19/09
(21)【出願番号】P 2023040193
(22)【出願日】2023-03-15
(62)【分割の表示】P 2021049334の分割
【原出願日】2014-06-16
【審査請求日】2023-04-05
(32)【優先日】2013-06-21
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2014-05-05
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】597159765
【氏名又は名称】フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
(74)【代理人】
【識別番号】100112715
【氏名又は名称】松山 隆夫
(72)【発明者】
【氏名】ルコント、 ジェレミー
(72)【発明者】
【氏名】シュナーベル、 ミヒャエル
(72)【発明者】
【氏名】マールコヴィッチ、 ゴーラン
(72)【発明者】
【氏名】デイツ、 マルティン
(72)【発明者】
【氏名】ノイゲバウア、 ベルンハルト
【審査官】大野 弘
(56)【参考文献】
【文献】米国特許出願公開第2012/0072209(US,A1)
【文献】米国特許出願公開第2007/0219788(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/005
G10L 19/09
(57)【特許請求の範囲】
【請求項1】
推定ピッチラグを決定するための装置であって、
複数のオリジナルピッチラグ値を受けるための入力インターフェース(110)と、
推定ピッチラグを推定するためのピッチラグ推定器(120)とを備え、
ピッチラグ推定器(120)が、複数のオリジナルピッチラグ値および複数の情報値に依拠して、推定ピッチラグを推定するよう構成され、
複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が、前記オリジナルピッチラグ値に割り当てられ、
ピッチラグ推定器(120)が、複数のオリジナルピッチラグ値および複数の情報値としての複数のピッチゲイン値に依拠して、推定ピッチラグを推定するよう構成され、
複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数のピッチゲイン値のうちの1つのピッチゲイン値が、前記オリジナルピッチラグ値に割り当てられ、
ピッチラグ推定器(120)が、誤差関数を最小化することにより推定ピッチラグを推定するよう構成される、装置。
【請求項2】
複数のピッチゲイン値の各々が適応型コードブックゲインである、請求項1に記載の装置。
【請求項3】
ピッチラグ推定器が、以下の誤差関数を最小化することにより、2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成され、
【数160】
ここで、aは実数であり、bは実数であり、kは、k≧2の整数であり、P(i)は、i番目のオリジナルピッチラグ値であり、g
p(i)が、i番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である、請求項1または請求項2に記載の装置。
【請求項4】
ピッチラグ推定器が、以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成され、
【数161】
ここで、aは実数であり、bは実数であり、P(i)はi番目のオリジナルピッチラグ値であり、g
p(i)は、i番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である、請求項3に記載の装置。
【請求項5】
音声信号を含むフレームを再構成するためのシステムであって、
請求項1に記載の推定ピッチラグを決定するための装置と、
フレームを再構成するための装置とを備え、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成され、
推定ピッチラグが、音声信号のピッチラグである、システム。
【請求項6】
再構成されたフレームが、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、
1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含み、かつ
フレームを再構成するための装置が、
1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差(Δ
p
0;Δ
i;Δ
p
k+1)を決定するための決定部(210)と、
サンプル数の差(Δ
p
0;Δ
i;Δ
p
k+1)および1以上の入手可能なピッチサイクルのうちの前記1つのサンプルに依拠して第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部(220)とを含み、
フレーム再構成部(220)が、再構成フレームを再構成するように構成され、それにより再構成フレームが完全にまたは部分的に第1の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第2の再構成ピッチサイクルを含み、かつ第1の再構成ピッチサイクルのサンプル数が第2の再構成ピッチサイクルのサンプル数とは異なるようになっており、
決定部(210)が、推定ピッチラグに依拠してサンプル数の差(Δ
p
0;Δ
i;Δ
p
k+1)を決定するよう構成される、請求項
5に記載のフレームを再構成するためのシステム。
【請求項7】
推定ピッチラグを決定するための方法であって、
複数のオリジナルピッチラグ値を受けるステップと、
推定ピッチラグを推定するステップとを備え、
推定ピッチラグを推定するステップは、複数のオリジナルピッチラグ値および複数の情報値に依拠して行われ、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が、前記オリジナルピッチラグ値に割り当てられ、
推定ピッチラグを推定するステップは、複数のオリジナルピッチラグ値および複数の情報値としての複数のピッチゲイン値に依拠して行われ、
複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数のピッチゲイン値のうちの1つのピッチゲイン値が、前記オリジナルピッチラグ値に割り当てられ、
推定ピッチラグを推定するステップは、誤差関数を最小化することにより行われる、方法。
【請求項8】
コンピュータまたは信号プロセッサ上で実行されるとき、請求項
7に記載の方法を実現するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理、詳細には、音声処理に関し、かつより詳細には、ACELP型封じ込め(ACELP(Algebraic Code Excited Linear Prediction)=代数符号励振線形予測)における適応型コードブックの改善された封じ込めのための装置および方法に関する。
【背景技術】
【0002】
オーディオ信号処理は、ますます重要度が増している。オーディオ信号処理の分野では、封じ込め技術が重要な役割を果たす。フレームが失われたり破損された場合、その失われたり破損されたフレームからの失われた情報を置換する必要がある。音声信号処理においては、特に、ACELPまたはACELP型音声コーデックを考慮する場合、ピッチ情報が非常に重要である。ピッチ予測技術およびパルス再同期化技術が必要とされる。
【0003】
ピッチの再構成に関して、様々なピッチ外挿技術が先行技術には存在する。
【0004】
これらの技術の1つが、繰り返しによる技術である。前提技術のコーデックのほとんどが単純な繰り返しによる封じ込めのアプローチを適用しており、これは、良好なフレームが到着して新しいピッチ情報をビットストリームから復号化できるまで、パケット損失前に最後に正確に受信されたピッチ周期を繰り返すことを意味する。あるいは、パケットの損失時よりもう少し前に受信されたピッチ値を選択することによるピッチ安定性論理を適用する。繰り返しによるアプローチに従うコーデックは、例えば、G.719(非特許文献9[ITU08b、8.6]を参照)、G.729(非特許文献10[ITU12、4.4]を参照)、AMR(非特許文献2[3GP12a、6.2.3.1]、非特許文献4[ITU03]を参照)、AMR-WB(非特許文献3[3GP12b、6.2.3.4.2]を参照)およびAMR-WB+(ACELPおよびTCX20(ACELP型)封じ込め)、(非特許文献1[3GP09]を参照) (AMR=適応型マルチレート(Adaptive Multi‐Rate)、AMR‐WB=適応型マルチレートワイドバンド(Adaptive Multi‐Rate‐Wideband)である。
【0005】
先行技術の他のピッチ再構成技術は、時間領域からのピッチの生成である。いくつかのコーデックについては、ピッチは、封じ込めのため必要だが、ビットストリームには埋め込まれない。したがって、ピッチ周期を計算するため、前のフレームの時間領域信号に基づいてピッチを計算して、次いでこれを封じ込め中、一定に保つ。このアプローチに従うコーデックは、たとえばG.722であり、特に、G.722補遺3(非特許文献5[ITU06a、III.6.6およびIII.6.7]を参照)およびG.722補遺4(非特許文献7[ITU07、 IV.6.1.2.5]を参照)を参照。
【0006】
先行技術の他のピッチ再構成技術は、外挿によるものである。いくつかの前提技術のコーデックは、ピッチ外挿アプローチを適用し、かつ、応じてパケット損失中に、外挿されたピッチ推定値にピッチを変更する特定のアルゴリズムを実行する。こられのアプローチについては、以下にG.718およびG.729.1を参照してより詳細に説明する。
【0007】
まず、G.718を考察する(非特許文献8[ITU08a]を参照)。未来のピッチの推定は、声門パルス再同期化モジュールを支持するために、外挿により実行される。可能な将来のピッチ値についてのこの情報は、封じ込められた励振の声門パルスを同期するために使用される。
【0008】
最後の良好なフレームが、「無声」ではない場合にのみピッチ外挿が行われる。G.718のピッチ外挿は、エンコーダがスムーズなピッチ輪郭を有するという仮定に基づく。前記外挿は、消失前の最後の7つのサブフレームのピッチラグd[i]
frに基づき実行される。
【0009】
G.718においては、フレームが正しく受け取られるたびに浮動ピッチ値の履歴更新が行われる。この目的で、ピッチ値は、コアモードが「無声」以外の場合にのみ更新される。損失フレームの場合には、浮動ピッチラグ間の差d[i]
dfrが以下の式により計算される。
【0010】
【0011】
式(1)において、d[-1]
frは、前のフレームの最後の(すなわち、第4の)サブフレームのピッチラグを示し、d[-2]
frは、前のフレームの第3のサブフレームのピッチラグを示す等である。
【0012】
G.718によれば、差d[i]
frの和は、以下のように計算される。
【0013】
【0014】
値Δ[i]
dfrは、正または負が可能なので、Δ[i]
dfrの符号の反転回数が合計され、かつ第1の反転の位置が、メモリに保存されるパラメータにより示される。
【0015】
パラメータfcorrは、以下の式により得られる。
【0016】
【0017】
ここで、dmax=231は、最大想定ピッチラグである。
【0018】
G.718において、最大の絶対差を示す位置imaxは、以下の定義により得られる。
【0019】
【0020】
この最大差についての比は、以下のように計算される。
【0021】
【0022】
この比が5以上の場合、最後に正しく受け取られたフレームの4番目のサブフレームのピッチが、封じ込められるべき全サブフレームについて使用される。この比が5以上の場合、これは、アルゴリズムがこのピッチを外挿するのに十分に確実ではなく、かつ声門パルス再同期化が行われないことを意味する。
【0023】
rmaxが、5未満の場合、できる限り良好な外挿が行えるよう、さらなる処理が行われる。未来のピッチを外挿するために3つの異なる方法が利用される。可能なピッチ外挿アルゴリズムから選択を行うため、偏差パラメータfcоrr2を計算するが、これは、ファクタfcоrr、および最大ピッチ変化の位置imaxに依存する。しかしながら、まず、平均から大きすぎるピッチ差を除去するために、平均浮動ピッチ差を修正する。
【0024】
fcоrr<0.98であり、imax=3の場合、2つのフレーム間の遷移に関連するピッチ差を除くために、平均分数ピッチ差/Δdfrが以下の式により決定される。
【0025】
【0026】
fcorr≧0.98またはimax≠3の場合、平均小数ピッチ差/Δdfrは、以下のとおり計算され、
【0027】
【0028】
かつ最大浮動ピッチ差は、この新しい平均値により置き換えられる。
【0029】
【0030】
浮動ピッチ差のこの新しい平均で、正規化された偏差fcоrr2は、以下のとおり計算される。
【0031】
【0032】
ここで、Isfは、第1のケースにおいては4であり、第2のケースでは6である。
【0033】
この新しいパラメータに依拠して、未来のピッチを外挿する3つの方法の中から選択を行う。
【0034】
・Δ[i]
dfrが2回を上回って符号を変え(高いピッチ変化を意味する)、第1の符号反転が、最後の良好なフレーム(i<3について)におけるものであり、かつfcоrr2>0.945の場合、外挿されるピッチdext(外挿されるピッチはTextとも表す)を以下のとおり計算する。
【0035】
【0036】
・0.945<fcоrr2<0.99で、かつ、Δi
dfrが1回以上符号を変える場合には、ピッチを外挿するために分数ピッチ差の重み付き平均が採用される。平均差の重み付けfWは、正規化された偏差fcоrr2に関連し、かつ第1の符号の反転の位置は以下のとおり規定される。
【0037】
【0038】
この式のパラメータimemは、Δi
dfrの第1の符号反転の位置に依存するので、第1の符号反転が過去のフレームの最後の2つのサブフレーム間で起こっていれば、imem=0となり、第1の符号反転が過去のフレームの第2および第3のサブフレーム間で起こっていれば、imem=1となり、以下同様である。第1の符号反転が、最後のフレームの終りに近ければ、これは、ピッチの変化が損失フレームのすぐ前では、より安定していなかったことを意味する。したがって、平均に適用される重み付けファクタは、0に近くなり、外挿されたピッチdextは、最後の良好なフレームの第4のサブフレームのピッチに近くなる。
【0039】
【0040】
・さもなければ、ピッチの展開は、安定していると考えられ、外挿されたピッチdextは、以下のとおり決定される。
【0041】
【0042】
この処理の後、ピッチラグは、34から231の範囲に制限される(これらの値は、最小および最大許容ピッチラグを示す)。
【0043】
ここで、ピッチ再構成技術に基づく外挿の他の例を示すため、G.729.1を考える(非特許文献6[ITU06b]を参照)。
【0044】
G.729.1は、復号化可能な前方誤り封じ込め情報(フェーズ情報等)がない場合のピッチ外挿アプローチ(特許文献1[Gaо]を参照)を特徴とする。これは、たとえば、2つの連続するフレームが失われた場合に起こる(1つのスーパーフレームが、ACELPまたはTCX20いずれかが可能な4つのフレームからなる)。また、可能なTCX40またはTCX80フレームおよびそのほとんどすべての組み合わせが存在する。
【0045】
有声領域で1以上のフレームが失われた場合、つねに前のピッチ情報を使用して現在失われているフレームを再構成する。現在の推定されるピッチの精度は、オリジナル信号の位相整合に直接影響を与える可能性があり、現在の損失フレームおよび損失フレーム後に受信されたフレームの再構成品質には決定的である。前のピッチラグを単にコピーするのではなく、いくつかの過去のピッチラグを使うことで、統計的により良いピッチ推定が得られると考えられる。G.729.1のコーダにおいて、FEC(FEC=前方誤り訂正)のためのピッチ外挿は、過去の5つのピッチ値に基づく線形外挿から構成される。過去の5つのピッチ値は、P(i)(i=0、1、2、3、4)で、P(4)が最も最近のピッチ値である。外挿モデルは、以下のとおり規定される。
【0046】
【0047】
損失フレームにおける、第1のサブフレームについての外挿されたピッチ値は、以下のとおり規定される。
【0048】
【0049】
係数aおよびbを決定するために、誤差Eを最小化する。誤差Eは、以下のとおり規定される。
【0050】
【0051】
以下のとおり設定することで、
【0052】
【0053】
aおよびbは、以下のとおりになる。
【0054】
【0055】
以下では、非特許文献11([MCZ11])に提示されるようなAMR-WBコーデックのための先行技術のフレーム消失封じ込めコンセプトについて説明する。このフレーム消失封じ込めコンセプトは、ピッチおよびゲイン線形予測に基づく。前記論文では、フレームの損失の場合に、最小二乗平均誤差基準(Minimum Mean Square Error Criterion)に基づいた線形ピッチ内挿/外挿アプローチを提案する。
【0056】
このフレーム消失封じ込めコンセプトによれば、デコーダで、消失したフレームの前の最後の有効なフレーム(過去のフレーム)のタイプが、消失フレーム後の最も早いフレーム(未来のフレーム)のタイプと同じ場合、ピッチP(i)が規定され、i=-N,-N+1、...、0、1、...、N+4、N+5であり、かつ、Nは、消失したフレームの過去および未来のサブフレームの数である。P(1)、P(2)、P(3)、P(4)が、消失したフレームにおける4つのサブフレームの4つのピッチであり、P(0)、(-1)、...P(-N)が、過去のサブフレームのピッチであり、かつ、P(5)、P(6)、...、P(N+5)が未来のサブフレームのピッチである。線形予測モデルP’(i)=a+b・iが採用される。i=1、2、3、4で、P’(1)、P’(2)、P’(3)、P’(4)は、消失したフレームについての予測ピッチである。MMS基準(MMS=最小二乗平均(Minimum Mean Square))を考慮して、内挿アプローチにより、2つの予測される係数aおよびbの値を生成する。このアプローチによれば、誤差Eは、以下のとおり規定される。
【0057】
【0058】
次に、係数aおよびbは、以下を計算することにより得ることができる。
【0059】
【0060】
消失フレームの最後の4つのサブフレームについてのピッチラグは、以下のとおり計算できる。
【0061】
【0062】
N=4で、最良の結果が得られることがわかる。N=4とは、過去の5つのサブフレームと未来の5つのサブフレームを内挿に使用することを意味する。
【0063】
しかしながら、過去のフレームのタイプが未来のフレームのタイプと異なる場合、例えば、過去のフレームが有声で、未来のフレームが無声の場合、上記の外挿アプローチを使用して、消失フレームのピッチを予測するために、過去または未来のフレームの有声のピッチだけが使用される。
【0064】
ここで、特にG.718およびG.729.1を参照して、先行技術のパルス再同期化を考える。パルス再同期化のためのアプローチは、特許文献2([VJGS12])に記載される。
【0065】
まず、励振の周期的部分を構成することについて説明する。
【0066】
「無声」以外の正しく受信されたフレームに続く消失したフレームを封じ込めるため、励振の周期的部分を、前のフレームのローパスフィルタ処理した最後のピッチ周期を繰り返すことにより構成する。
【0067】
周期的部分の構成は、前のフレームの終りから励振信号のローパスフィルタ処理されたセグメントの単純なコピーを使用することによって行う。
ピッチ周期長さは、最も近い整数に丸められる。
【0068】
【0069】
最後のピッチ周期の長さがTpであると考えれば、コピーされたセグメントの長さTrは、たとえば以下のように規定され得る。
【0070】
【0071】
周期的な部分は、1つのフレームおよび1つの追加サブフレームについて構成される。
【0072】
たとえば、フレームにおいてM個のサブフレームがあれば、サブフレームの長さはL_subfr=L/Mであり、ここで、Lは、フレームの長さであり、Lframeとしても示される(L=Lframe)。
【0073】
【0074】
T[0]は、励振の構成された周期的部分における第1の最大パルスの場所である。他のパルスの位置は、以下の式により与えられる。
【0075】
【0076】
これは、以下の式に対応する。
【0077】
【0078】
励振の周期的部分の構成の後、損失フレーム(P)における最後のパルスの推定されるターゲット位置と励振の構成された周期的部分におけるその実際の位置(T[k])との間の差を修正するために、声門パルス再同期化が行われる。
【0079】
ピッチラグ展開は、損失フレームの前の最後の7つのサブフレームのピッチラグに基づいて外挿される。各サブフレームにおける展開ピッチラグは、以下のとおりである。
【0080】
【0081】
ここで
【0082】
【0083】
であり、かつ、Text(dextとも呼ぶ)は、dextについての上に記載する外挿ピッチである。
【0084】
一定ピッチ(Tc)のピッチサイクル内のサンプルの合計数の和と、展開するピッチp[i]のピッチサイクル内のサンプルの合計数の和との間のdで示す差は、フレーム長さの範囲内でみつかる。dを見つける方法について文献には記載がない。
【0085】
G.718(非特許文献8[ITU08a]を参照)のソースコードでは、dは、以下のアルゴリズムを用いて見つけられる(ここで、Mは、フレームにおけるサブフレームの数)。
【0086】
フレーム長さの範囲で構成される周期的部分のパルス+未来のフレームにおける第1パルスの数はNである。Nを見つける方法について文献には記載がない。
【0087】
G.718(非特許文献[ITU08a]を参照)のソースコードにおいて、Nは以下のとおり見つけられる。
【0088】
【0089】
損失フレームに属する励振の構成された周期的部分における最後のパルスT[n]の位置は、以下の式により決定される。
【0090】
【0091】
推定される最後のパルス位置Pは、
【0092】
【0093】
である。
【0094】
最後のパルス位置の実際の位置T[k]は、推定されるターゲット位置Pに最も近い励振(サーチにおける現在のフレームの後の最初のパルスを含む)の構成された周期的部分のパルスの位置である。
【0095】
【0096】
声門パルス再同期化は、フルピッチサイクルの最小エネルギ領域においてサンプルを加えたり除いたりすることにより行われる。加えたり除いたりするサンプルの数は、以下の差により決定される。
【0097】
【0098】
最小エネルギ領域は、スライドする5サンプルのウィンドウを使用して決定される。最小エネルギ位置は、エネルギが最小のウィンドウの中央に設定される。T[i]+Tc/8~T[i+1]-Tc/4からの2つのピッチパルス間でサーチが行われる。Nmin=n-1の最小エネルギ領域が存在する。
【0099】
Nmin=1の場合、最小エネルギ領域は、1つしかなく、diffサンプルがその位置で挿入されるかまたは削除される。
【0100】
Nmin>1については、最初に加えられるかまたは除かれるサンプルは、より少なく、フレームの終りに向かって多くなる。パルスT[i]とT[i+1]との間で除かれるかまたは加えられるサンプルの数は、以下の再帰関係に従って見つけられる。
【0101】
【0102】
R[i]<R[i-1]の場合、R[i]およびR[i-1]の値が交換される。
【先行技術文献】
【特許文献】
【0103】
【文献】ヨーロッパ特許第2002427B1号([Gao] Yang Gao, Pitch prediction for packet loss concealment, European Patent 2 002 427 B1)
【文献】米国特許第8255207B2号([VJGS12] Tommy Vaillancourt, Milan Jelinek, Philippe Gournay, and Redwan Salami, Method and device for efficient frame erasure concealment in speech codecs, US 8,255,207 B2, 2012)
【非特許文献】
【0104】
【文献】[3GP09] 3GPP(登録商標); Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP(登録商標) TS 26.290, 3rd Generation Partnership Project, 2009
【文献】[3GP12a] , Adaptive multi-rate (AMR) speech codec; error concealment of lost frames (release 11), 3GPP(登録商標) TS 26.091, 3rd Generation Partnership Project, Sep 2012
【文献】[3GP12b] , Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP(登録商標) TS 26.191, 3rd Generation Partnership Project, Sep 2012
【文献】[ITU03] ITU-T, Wideband coding of speech at around 16 kbit/s using adaptive multi-rate wideband (amr-wb), Recommendation ITU-T G.722.2, Telecommunication Standardization Sector of ITU, Jul 2003
【文献】[ITU06a] , G.722 Appendix III: A high-complexity algorithm for packet loss concealment for G.722, ITU-T Recommendation, ITU-T, Nov 2006
【文献】[ITU06b] , G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with g.729, Recommendation ITU-T G.729.1, Telecommunication Standardization Sector of ITU, May 2006
【文献】[ITU07] , G.722 Appendix IV: A low-complexity algorithm for packet loss concealment with G.722, ITU-T Recommendation, ITU-T, Aug 2007
【文献】[ITU08a] , G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008
【文献】[ITU08b] , G.719: Low-complexity, full-band audio coding for high-quality, conversational applications, Recommendation ITU-T G.719, Telecommunication Standardization Sector of ITU, Jun 2008
【文献】[ITU12] , G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear prediction (cs-acelp), Recommendation ITU-T G.729, Telecommunication Standardization Sector of ITU, June 2012
【文献】[MCZ11] Xinwen Mu, Hexin Chen, and Yan Zhao, A frame erasure concealment method based on pitch and gain linear prediction for AMR-WB codec, Consumer Electronics (ICCE), 2011 IEEE International Conference on, Jan 2011, pp. 815-816
【文献】[MTTA90] J.S. Marques, I. Trancoso, J.M. Tribolet, and L.B. Almeida, Improved pitch prediction with fractional delays in celp coding, Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on, 1990, pp. 665-668 vol.2
【発明の概要】
【0105】
本発明の目的は、オーディオ信号処理についての改善されたコンセプトを提供することであり、特に、音声処理についての改善されたコンセプトを提供することであり、かつより詳細には、改善された封じ込めのコンセプトを提供することである。
【0106】
本発明の目的は、請求項1に記載の装置、請求項15に記載の方法および請求項16に記載のコンピュータプログラムにより解決される。
【0107】
推定されるピッチラグを決定するための装置が提供される。この装置は、複数のオリジナルピッチラグ値を受けるための入力インターフェースと、推定ピッチラグを推定するためのピッチラグ推定器とを含む。ピッチラグ推定器が、複数のオリジナルピッチラグ値および複数の情報値に依拠して、推定ピッチラグを推定するよう構成され、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が、前記オリジナルピッチラグ値に割り当てられる。
【0108】
実施形態によれば、ピッチラグ推定器が、たとえば複数のオリジナルピッチラグ値と、複数の情報値としての複数のピッチゲイン値とに依拠して、推定ピッチラグを推定するよう構成されることが可能で、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数のピッチゲイン値のうちの1つのピッチゲイン値が、前記オリジナルピッチラグ値に割り当てられる。
【0109】
特定の実施形態において、複数のピッチゲイン値の各々が、たとえば適応型コードブックゲインであり得る。
【0110】
ある実施形態において、ピッチラグ推定器が、たとえば誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
【0111】
ある実施形態によれば、ピッチラグ推定器が、たとえば以下の誤差関数を最小化することにより、2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成されることが可能で、
【0112】
【0113】
ここで、aは実数であり、bは実数であり、kは、k≧2の整数であり、P(i)は、i番目のオリジナルピッチラグ値であり、gp(i)が、i番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
【0114】
ある実施形態において、ピッチラグ推定器を、たとえば以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成することが可能で、
【0115】
【0116】
ここで、aは実数であり、bは実数であり、P(i)はi番目のオリジナルピッチラグ値であり、gp(i)は、i番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
【0117】
ある実施形態によれば、ピッチラグ推定器は、たとえばp=a・i+bに従って推定ピッチラグpを決定するよう構成され得る。
【0118】
ある実施形態において、ピッチラグ推定器を、たとえば複数のオリジナルピッチラグ値と、複数の情報値としての複数の時間値とに依拠して、推定ピッチラグを推定するよう構成することが可能で、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の時間値のうちの1つの時間値が前記オリジナルピッチラグ値に割り当てられる。
【0119】
ある実施形態によれば、ピッチラグ推定器が、たとえば誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
【0120】
ある実施形態において、ピッチラグ推定器を、たとえば以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成することが可能で、
【0121】
【0122】
ここで、aは実数であり、bは実数であり、kはk≧2の整数であり、かつp(i)はi番目のオリジナルピッチラグ値であり、timepassed(i)は、i番目のピッチラグ値P(i)に割り当てられたi番目の時間値である。
【0123】
ある実施形態によれば、ピッチラグ推定器は、たとえば以下の誤差関数を最小化することにより2つのパラメータa、bを決定して、推定ピッチラグを推定するよう構成することが可能で、
【0124】
【0125】
ここで、aは実数であり、bは実数であり、p(i)はi番目のオリジナルピッチラグ値であり、timepassed(i)が、i番目のピッチラグ値P(i)に割り当てられるi番目の時間値である。
【0126】
ある実施形態において、ピッチラグ推定器が、p=a・i+bに従って推定ピッチラグpを決定するよう構成される。
【0127】
また、推定ピッチラグを決定するための方法が提供される。この方法は、以下のステップを含む。
【0128】
・複数のオリジナルピッチラグ値を受けるステップ
・推定ピッチラグを推定するステップ。
【0129】
推定ピッチラグを推定するステップは、複数のオリジナルピッチラグ値と、複数の情報値とに依拠して行われ、複数のオリジナルピッチラグ値の各々のオリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が、前記オリジナルピッチラグ値に割り当てられる。
【0130】
さらに、コンピュータまたは信号プロセッサ上で実行されて、上記の方法を実現するためのコンピュータプログラムが提供される。
【0131】
また、再構成されたフレームとして音声信号を含むフレームを再構成するための装置が提供され、前記再構成されたフレームが、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含む。この装置は、1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差を決定するための決定部を含む。また、この装置は、サンプル数の差と、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルとに依拠して、第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部を含む。フレーム再構成部は、再構成フレームを再構成するように構成され、それにより再構成フレームが完全にまたは部分的に第1の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第2の再構成ピッチサイクルを含み、かつ第1の再構成ピッチサイクルのサンプル数が第2の再構成ピッチサイクルのサンプル数とは異なるようになっている。
【0132】
ある実施形態によれば、決定部は、たとえば、再構成対象の複数のピッチサイクルの各々についてサンプル数の差を決定して、それによりピッチサイクルの各々のサンプル数の差が、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成対象の前記ピッチサイクルのサンプル数との差を示すようになっている。フレーム再構成部は、たとえば、再構成対象の前記ピッチサイクルのサンプル数の差および1以上の入手可能なピッチサイクルの前記1つのサンプルに依拠して、再構成対象の複数のピッチサイクルの各ピッチサイクルを再構成して、再構成フレームを再構成するよう構成され得る。
【0133】
ある実施形態においては、フレーム再構成部は、たとえば、1以上の入手可能なピッチサイクルのうちの前記1つに依拠して中間フレームを生成するよう構成され得る。フレーム再構成部は、たとえば、再構成フレームを得るために、中間フレームを修正するよう構成され得る。
【0134】
実施形態によれば、決定部は、たとえば、いくつのサンプルを中間フレームから取り除くかまたはいくつのサンプルを中間フレームに加えるかを示すフレーム差値(d;s)を決定するよう構成され得る。また、フレーム再構成部は、たとえば、フレーム差値が、第1のサンプルがフレームから除去されることを示す場合、再構成フレームを得るために中間フレームから第1のサンプルを除去するよう構成され得る。さらに、フレーム再構成部は、たとえば、フレーム差値(d;s)が、第2のサンプルがフレームに加えられることを示す場合、再構成フレームを得るために中間フレームに第2のサンプルを加えるよう構成され得る。
【0135】
ある実施形態において、フレーム再構成部は、たとえば、フレーム差値が、第1のサンプルがフレームから除去されるべきことを示す場合、中間フレームから第1のサンプルを除去するよう構成することが可能で、中間フレームから除去される第1のサンプルの数がフレーム差値により示されるようになっている。また、フレーム再構成部は、たとえば、フレーム差値が、第2のサンプルがフレームに加えられるべきことを示す場合、中間フレームに第2のサンプルを加えるよう構成することが可能で、中間フレームに加えられる第2のサンプルの数がフレーム差値により示されるようになっている。
【0136】
ある実施形態によれば、決定部は、たとえば、以下の式が真であるように、フレーム差数sを決定するように構成され得る。
【0137】
【0138】
ここで、Lは、再構成フレームのサンプルの数を表し、Mは、再構成フレームのサブフレームの数を表し、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められたピッチ周期長さを示し、p[i]は、再構成フレームのi番目のサブフレームの再構成されたピッチサイクルのピッチ周期長さを示す。
【0139】
ある実施形態において、フレーム再構成部は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するようになっていてもよい。また、フレーム再構成部は、たとえば、中間フレームが、第1の部分中間ピッチサイクル、1以上のさらなる中間ピッチサイクルおよび第2の部分中間ピッチサイクルを含むように中間フレームを生成するようにされてもよい。さらに、第1の部分中間ピッチサイクルは、たとえば、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルのうちの1以上に依拠することが可能で、1以上のさらなる中間ピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つのサンプルの全部に依拠し、かつ第2の部分中間ピッチサイクルが、1以上の入手可能なピッチサイクルの前記1つのサンプルのうちの1以上に依拠する。また、決定部は、たとえば、第1の部分中間ピッチサイクルからいくつのサンプルを除くかまたは加えるかを示す開始部差数を決定するよう構成することができ、かつフレーム再構成部は、開始部差数に依拠して、第1の部分中間ピッチサイクルから1以上の第1のサンプルを除去するよう構成されるか、または第1の部分中間ピッチサイクルに1以上の第1のサンプルを加えるよう構成される。さらに、決定部は、たとえば、さらなる中間ピッチサイクルの前記1つから除くかまたは加えるサンプルの数を表すピッチサイクル差数を、さらなる中間ピッチサイクルの各々について決定するよう構成され得る。また、フレーム再構成部は、たとえば、前記ピッチサイクル差数に依拠して、さらなる中間ピッチサイクルの前記1つから1以上の第2のサンプルを除去するよう構成され得るか、または、さらなる中間ピッチサイクルの前記1つに1以上の第2のサンプルを加えるよう構成され得る。さらに、決定部は、たとえば、第2の部分中間ピッチサイクルから除くかまたは加えるサンプルの数を示す終了部差数を決定するよう構成することができ、かつフレーム再構成部は、終了部差数に依拠して、第2の部分中間ピッチサイクルから1以上の第3のサンプルを除去するよう構成される、かまたは第2の部分中間ピッチサイクルに1以上の第3のサンプルを加えるよう構成される。
【0140】
ある実施形態によれば、フレーム再構成部は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するよう構成され得る。また、決定部は、たとえば、中間フレームにより含まれる音声信号の1以上の低エネルギ信号部を決定するようにされてもよく、1以上の低エネルギ信号部の各々が、中間フレーム内の音声信号の第1の信号部であり、音声信号のエネルギが、中間フレームにより含まれる音声信号の第2の信号部におけるエネルギより低い。さらに、フレーム再構成部は、たとえば、再構成されたフレームを得るために、音声信号の1以上の低エネルギ信号部の1以上から1以上のサンプルを除去するか、または音声信号の1以上の低エネルギ信号部分の1以上へ1以上のサンプルを加えるよう構成され得る。
【0141】
特定の実施形態において、フレーム再構成部は、たとえば、中間フレームを生成するよう構成されることが可能で、それにより中間フレームが1以上の再構成されたピッチサイクルを含み、1以上の再構成されたピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つに依拠するようになっている。また、決定部は、たとえば、1以上の再構成ピッチサイクルの各々から除去するサンプルの数を決定するように構成され得る。さらに、決定部は、たとえば、1以上の低エネルギ信号部の各々について、前記低エネルギ信号部のサンプルの数が、1以上の再構成ピッチサイクルの1つから除去されるサンプル数に依拠するように、1以上の低エネルギ信号部の各々を決定するように構成することが可能で、前記低エネルギ信号部が、1以上の再構成ピッチサイクルの前記1つ内に位置する。
【0142】
ある実施形態において、決定部は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の1以上のパルスの位置を決定するよう構成され得る。また、フレーム再構成部は、たとえば、音声信号の1以上のパルスの位置に依拠して再構成フレームを再構成するよう構成され得る。
【0143】
ある実施形態によれば、決定部は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスの位置を決定するよう構成することが可能で、T[0]は、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスのうちの1つの位置であり、かつ決定部は、以下の式に従う音声信号の2以上のパルスのうちのさらなるパルスの位置(T[i])を決定するよう構成される。
【0144】
【0145】
ここで、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、かつiは整数である。
【0146】
ある実施形態によれば、決定部は、たとえば、以下の式のように、再構成フレームとして再構成されるべきフレームの音声信号の最後のパルスのインデクスkを決定するよう構成され得る。
【0147】
【0148】
ここで、Lは、再構成フレームのサンプルの数を示し、sは、フレーム差値を示し、T[0]は、音声信号の最後のパルスとは異なる再構成フレームとして再構成されるべきフレームの音声信号のパルスの位置を示し、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示す。
【0149】
ある実施形態において、決定部は、たとえば、パラメータδを決定することにより再構成フレームとして再構成されるべきフレームを再構成するよう構成することが可能で、δは以下の式により規定される。
【0150】
【0151】
ここで、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、Tpは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Textは、再構成フレームとして再構成されるべきフレームの再構成されるべきピッチサイクルのうちの1つの長さを示す。
【0152】
ある実施形態によれば、決定部は、たとえば、以下の式に基づき1以上の入手可能なピッチサイクルの前記1つの丸められた長さTrを決定することにより再構成フレームを再構成するよう構成され得る。
【0153】
【0154】
ここで、Tpは、1以上の入手可能なピッチサイクルの前記1つの長さを示す。
【0155】
ある実施形態において、決定部は、たとえば以下の式を適用することにより再構成フレームを再構成するよう構成され得る。
【0156】
【0157】
ここで、Tpは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、再構成フレームとして再構成されるべきフレームは、L個のサンプルを含み、δが1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成されるべき1以上のピッチサイクルの1つのサンプルの数との差を表す実数である。
【0158】
また、音声信号を含むフレームを、再構成されたフレームとして再構成するための方法が提供され、前記再構成されたフレームが、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含み、この方法は、以下のステップを含む。
【0159】
・1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差(Δp
0;Δi;Δp
k+1)を決定するステップ。
【0160】
・サンプル数の差(Δp
0;Δi;Δp
k+1)および1以上の入手可能なピッチサイクルのうちの前記1つのサンプルに依拠して、第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するステップ。
【0161】
再構成フレームの再構成が行われ、それにより再構成フレームが完全にまたは部分的に第1の再構成ピッチサイクルを含み、再構成フレームが完全にまたは部分的に第2の再構成ピッチサイクルを含み、かつ第1の再構成ピッチサイクルのサンプル数が第2の再構成ピッチサイクルのサンプル数とは異なるようになっている。
【0162】
さらに、コンピュータまたは信号プロセッサ上で実行されて、上記の方法を実現するためのコンピュータプログラムが提供される。
【0163】
また、音声信号を含むフレームを再構成するためのシステムが提供される。このシステムは、上記および後述の実施形態の1つに従う推定ピッチラグを決定するための装置と、フレームを再構成するための装置とを含み、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成される。推定ピッチラグは、音声信号のピッチラグである。
【0164】
ある実施形態において、再構成されたフレームが、たとえば、1以上の入手可能なフレームと関連し、前記1以上の入手可能なフレームが、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームが、1以上の入手可能なピッチサイクルとして、1以上のピッチサイクルを含む。フレームを再構成するための装置は、たとえば、上記または後述の実施形態の1つに従ってフレームを再構成するための装置であってもよい。
【0165】
本発明は、先行技術が大きな欠点を有するとする所見に基づく。G.718(非特許文献8[ITU08a]を参照)およびG.729.1(非特許文献6[ITU06b]を参照)の双方とも、フレーム損失の場合にピッチ外挿を用いる。これが必要なのは、フレーム損失時には、ピッチラグも失われるからである。G.718およびG.729.1によれば、ピッチは、最後の2つのフレームの間のピッチの展開を考慮に入れることにより外挿される。しかしながら、G.718およびG.729.1により再構成されるピッチラグは、あまり正確ではなく、たとえば、実際のピッチラグから大きく異なる再構成ピッチラグが得られる場合が多い。
【0166】
本発明の実施形態により、より正確なピッチラグ再構成が提供される。この目的で、G.718およびG.729.1とは対照的に、いくつかの実施形態では、ピッチ情報の信頼性に関する情報を考慮する。
【0167】
先行技術では、外挿が基礎とするピッチ情報は、最後に正確に受信された8つのピッチラグを含み、これらについては、符号化モードは「無声」とは異なっていた。しかしながら、先行技術では、低いピッチゲイン(低い予測ゲインに対応する)により示される有声特性が非常に弱いかもしれない。先行技術では、外挿が、異なるピッチゲインを有するピッチラグに基づく場合、外挿が、妥当な結果をもたらさないか、または、全くうまくいかず、再び単純なピッチラグ繰り返しのアプローチに戻ることになる。
【0168】
実施形態は、先行技術のこれらの欠点の原因が、エンコーダ側で、適応型コードブックの符号化ゲインを最大化するため、ピッチゲインを最大化することに関してピッチラグを選択するが、音声特性が弱い場合には、音声信号における雑音でピッチラグ推定が不正確になるため、ピッチラグが基本周波数を正確に表示しない可能性があると言う点にあるとする所見に基づく。
【0169】
したがって、実施形態によれば、封じ込め中に、ピッチラグ外挿の適用は、この外挿について使用した前に受信したラグの信頼性に依拠して重み付けが行われる。
【0170】
いくつかの実施形態によれば、過去の適応型コードブックゲイン(ピッチゲイン)を、信頼性の尺度として採用し得る。
【0171】
本発明の他のいくつかの実施形態によれば、ピッチラグがどこまで過去に受信されたかによる重み付けが信頼性の尺度として使用される。たとえば、より最近のラグには高い重み付けがされ、より後に受けられたラグにはより低い重み付けがされる。
【0172】
実施形態によれば、重み付けピッチ予測のコンセプトが提供される。先行技術とは対照的に、本発明の実施形態により提供されるピッチ予測は、基礎とするピッチラグの各々についての信頼性の尺度を使用し、予測結果をより有効で安定したものにする。特に、ピッチゲインを信頼性の指標として使用することができる。代替的にまたは付加的に、いくつかの実施形態によれば、たとえば、ピッチラグを正しく受け取った後に経過した時間を、指標として使用することができる。
【0173】
パルス再同期化については、本発明は、声門パルス再同期化に関する先行技術の欠点の1つは、ピッチ外挿が封じ込められたフレームにおいて構成すべきパルス(ピッチサイクル)の数を考慮しない点にあるとする所見に基づく。
【0174】
先行技術によれば、ピッチにおける変化がサブフレームの境界でのみ予測されるようにピッチ外挿が行われる。
【0175】
実施形態によれば、声門パルス再同期化を実行する際は、連続するピッチ変化とは異なるピッチ変化を考慮に入れることができる。
【0176】
本発明の実施形態は、G.718およびG.729.1が以下の欠点を有するとする所見に基づく。
【0177】
まず、先行技術では、dを計算する際に、フレーム内に整数個のピッチサイクルが存在すると仮定する。dが、封じ込めフレームにおける最後のパルスの場所を規定するので、非整数のピッチサイクルがフレーム内に存在する場合には、最後のパルスの位置は、正確にならない。これを、
図6および
図7に示す。
図6は、サンプル除去前の音声信号を示す。
図7は、サンプル除去後の音声信号を示す。さらに、dを計算するために先行技術が採用するアルゴリズムは非効率である。
【0178】
また、先行技術の計算では、励振の構成された周期的部分において、パルス数Nが必要である。これが、不必要な計算の複雑さを増大させる。
【0179】
さらに、先行技術においては、励振の構成された周期的部分におけるパルス数Nの計算は、第1のパルスの場所を考慮に入れない。
【0180】
図4および
図5において提示される信号は、長さT
cの同じピッチ周期を有する。
【0181】
図4は、フレーム内に3つのパルスを有する音声信号を示す。
【0182】
対照的に、
図5は、フレーム内に2つのパルスのみを有する音声信号を示す。
【0183】
図4および
図5が示すこれらの例は、パルスの数が第1のパルスの位置に依拠することを示す。
【0184】
また、先行技術によれば、Nが、後続のフレームにおける第1のパルスを含むと規定されても、励振の構成された周期的部分におけるN番目のパルスの場所であるT[N-1]が、フレーム長さの範囲内にあるかどうかをチェックする。
【0185】
さらに、先行技術によれば、最初のパルスの前および最後のパルスの後には、サンプルが加えられたり除去されたりしない。本発明の実施形態は、このことが、第1のフルピッチサイクルの長さにおける突然の変化が起こる可能性があるという欠点につながり、これが、また、ピッチラグが減少している場合でさえ、最後のパルス後のピッチサイクルの長さが、最後のパルスの前の最後のフルピッチサイクルの長さより大きくなり得るという欠点につながるとする所見に基づく(
図6および
図7参照)。
【0186】
実施形態は、パルスT[k]=P‐diffおよびT[n]=P-dが以下の場合等しくないという所見に基づく。
【0187】
・d>[Tc/2]の場合。この場合、diff=Tc-dであり、かつ除去されたサンプルの数がdではなくdiffになる。
【0188】
・T[k]が、未来のフレーム内にあり、かつdサンプルを除いて初めて現在のフレームに移動する場合。
【0189】
・T[n]が、‐dサンプル(d<0)を加えた後に未来のフレームに移動する場合。
【0190】
これが、封じ込められたフレームにおけるパルスの間違った位置につながる。
【0191】
また、実施形態は、先行技術において、dの最大値が符号化されたピッチラグの最小許容値に制限されるという所見に基づく。これは、他の問題の発生を制限する制約だが、ピッチにおいて可能な変化も制限し、かつパルス再同期化も制限する。
【0192】
さらに、実施形態は、先行技術において、周期的部分が整数ピッチラグを用いて構成され、かつこれが高調波の周波数シフトおよび一定のピッチでの音信号の封じ込めにおける大きな劣化を作り出すとする所見に基づく。この劣化については、丸められたピッチラグを用いるときに再同期化される音声信号の時間‐周波数表現を示す
図8に見ることができる。
【0193】
また、実施形態は、先行技術の問題の殆どが、dサンプルが除去される
図6および
図7の例が示すような状況で発生するという所見に基づく。ここでは、問題をより簡単に可視化するため、dの最大値についての制約はないと考える。問題は、dに限度があるがあまり明確に可視化されない場合にも生じる。連続して増加するピッチではなく、ピッチが突然増大した後に突然減少することも考えられる。実施形態は、これが、最後のパルスの前後でサンプルが除去されないこと、間接的にはパルスT[2]が、dサンプル除去の後のフレーム内で移動することを考慮に入れないことにより起こるとする所見に基づく。この例では、Nの計算の誤りも発生する。
【0194】
実施形態によれば、改善されたパルス再同期化のコンセプトが提供される。実施形態は、音声を含むモノラルの信号の改善された封じ込めを提供し、これは、標準G.718(非特許文献8[ITU08a]を参照)およびG.729.1(非特許文献6[ITU06b]を参照)に記載の既存技術に比べて有利である。本件の実施形態は、一定のピッチの信号およびピッチが変化する信号両方に適している。
【0195】
とりわけ、実施形態によれば3つの技術が提供される。
【0196】
ある実施形態が提供する第1の技術によれば、G.718およびG.729.1とは対照的に、Nで表す構成された周期的部分におけるパルスの数の計算において、第1のパルスの場所を考慮に入れる、パルスについてのサーチコンセプトが提供される。
【0197】
他の実施形態により提供される第2の技術によれば、G.718およびG.729.1とは対照的に、Nで示す、構成された周期的部分におけるパルスの数を必要とせず、第1のパルスの場所を考慮に入れ、かつkで示す封じ込めフレームにおける最後のパルスインデクスを直接的に計算するパルスをサーチするためのアルゴリズムが提供される。
【0198】
他の実施形態により提供される第3の技術によれば、パルスサーチは不要である。この第3の技術によれば、周期的部分の構成とサンプルの除去または付加を組み合わせることにより、以前の技術よりも複雑さが抑えられる。
【0199】
付加的または代替的に、いくつかの実施形態は、上記の技術ならびにG.718およびG.729.1の技術について以下の変更を提供する。
【0200】
・ピッチラグの小数部分は、たとえば、一定ピッチの信号について周期的部分を構成するために使用できる。
【0201】
・封じ込めフレームにおける最後のパルスの予測される場所のオフセットが、たとえば、フレーム内の非整数のピッチサイクルについて計算され得る。
【0202】
・たとえば、最初のパルスの前と最後のパルスの後にもサンプルを加えたり除いたりできる。
【0203】
・たとえば、パルスが1つしかない場合にも、サンプルを加えたり除いたりできる。
【0204】
・除くかまたは加えるべきサンプルの数は、たとえば、ピッチにおける予測線形変化に従って線形に変更できる。
【0205】
以下に、図面を参照して本発明の実施形態についてより詳細に説明する。
【図面の簡単な説明】
【0206】
【
図1】
図1は、実施形態による推定ピッチラグを決定するための装置を示す図である。
【
図2A】
図2Aは、実施形態による再構成フレームとして音声信号を含むフレームを再構成するための装置を示す図である。
【
図2B】
図2Bは、複数のパルスを含む音声信号を示す図である。
【
図2C】
図2Cは、実施形態による音声信号を含むフレームを再構成するためのシステムを示す図である。
【
図3】
図3は、音声信号の構成された周期的部分を示す図である。
【
図4】
図4は、フレーム内に3つのパルスを有する音声信号を示す図である。
【
図5】
図5は、フレーム内に2つのパルスを有する音声信号を示す図である。
【
図6】
図6は、サンプルの除去前の音声信号を示す図である。
【
図7】
図7は、サンプルの除去後の
図6の音声信号を示す図である。
【
図8】
図8は、丸められたピッチラグを用いて再同期化された音声信号の時間―周波数表現を示す図である。
【
図9】
図9は、小数部分を有する非丸めピッチラグを用いて再同期化された音声信号の時間‐周波数表現を示す図である。
【
図10】
図10は、ピッチラグが前提技術のコンセプトを採用して再構成されるピッチラグ図を示す図である。
【
図11】
図11は、実施形態によりピッチラグが再構成されるピッチラグ図を示す図である。
【
図12】
図12は、サンプルを除去する前の音声信号を示す図である。
【発明を実施するための形態】
【0207】
図1は、実施形態による推定ピッチラグを決定するための装置を示す。この装置は、複数のオリジナルピッチラグ値を受けるための入力インターフェース110と、推定ピッチラグを推定するためのピッチラグ推定器120とを含む。ピッチラグ推定器120は、複数のオリジナルピッチラグ値および複数の情報値に依拠して推定ピッチラグを推定するよう構成され、複数のオリジナルピッチラグ値の各オリジナルピッチラグ値について、複数の情報値のうちの1つの情報値が前記オリジナルピッチラグ値に割り当てられる。
【0208】
実施形態によれば、ピッチラグ推定器120は、たとえば、複数のオリジナルピッチラグ値と、複数の情報値としての複数のピッチゲイン値とに依拠して推定ピッチラグを推定するよう構成することが可能で、複数のオリジナルピッチラグ値の各オリジナルピッチラグ値について、複数のピッチゲイン値のうちの1つのピッチゲイン値が前記オリジナルピッチラグ値に割り当てられる。
【0209】
特定の実施形態において、複数のピッチゲイン値の各々は、たとえば、適応型コードブックゲインでもよい。
【0210】
ある実施形態において、ピッチラグ推定器120は、たとえば、誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
【0211】
ある実施形態によれば、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa,bを決定することにより推定ピッチラグを推定するよう構成され得る。
【0212】
【0213】
ここで、aは実数であり、bは実数であり、kはk≧2の整数であり、P(i)はi番目のオリジナルピッチラグ値であり、gp(i)はi番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
【0214】
ある実施形態において、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa、bを決定することにより、推定ピッチラグを推定するよう構成され得る。
【0215】
【0216】
ここで、aは実数であり、bは実数であり、P(i)はi番目のオリジナルピッチラグ値であり、gp(i)はi番目のピッチラグ値P(i)に割り当てられるi番目のピッチゲイン値である。
【0217】
ある実施形態によれば、ピッチラグ推定器120は、たとえば、p=a・i+bに従って推定ピッチラグpを決定するよう構成され得る。
【0218】
ある実施形態において、ピッチラグ推定器120は、たとえば、複数のオリジナルピッチラグ値と、複数の情報値としての複数の時間値とに依拠して推定ピッチラグを推定するよう構成されることが可能で、複数のオリジナルピッチラグ値のうちの各オリジナルピッチラグ値について、複数の時間値のうちの1つの時間値が前記オリジナルピッチラグ値に割り当てられる。
【0219】
ある実施形態によれば、ピッチラグ推定器120は、たとえば、誤差関数を最小化することにより推定ピッチラグを推定するよう構成され得る。
【0220】
ある実施形態において、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa、bを決定することにより、推定ピッチラグを推定するよう構成され得る。
【0221】
【0222】
ここで、aは実数であり、bは実数であり、kは、k≧2の整数であり、かつP(i)はi番目のオリジナルピッチラグ値であり、timepassed(i)は、i番目のピッチラグ値P(i)に割り当てられるi番目の時間値である。
【0223】
ある実施形態によれば、ピッチラグ推定器120は、たとえば、以下の誤差関数を最小化して、2つのパラメータa、bを決定することにより、推定ピッチラグを推定するよう構成され得る。
【0224】
【0225】
ここで、aは、実数であり、bは実数であり、P(i)は、i番目のオリジナルピッチラグ値であり、timepassed(i)は、i番目のピッチラグ値P(i)に割り当てられるi番目の時間値である。
【0226】
ある実施形態において、ピッチラグ推定器120は、p=a・i+bに従って推定ピッチラグpを決定するよう構成される。
【0227】
以下に、重み付けピッチ予測を行う実施形態を、式(20)から式(24b)を参照して記載する。
【0228】
まず、ピッチゲインによる重み付けを採用する重み付けピッチ予測の実施形態について式(20)から式(22c)を参照して説明する。これらの実施形態のいくつかは、先行技術の欠点を克服するため、ピッチラグをピッチゲインで重み付けしてピッチ予測を行う。
【0229】
いくつかの実施形態において、ピッチゲインは、標準G.729において規定される適応型コードブックゲインgpが可能である(非特許文献10[ITU12]、特に3.7.3章、より詳細には式(43)を参照)。G.729においては、適応型コードブックゲインは、以下に従って決定される。
【0230】
【0231】
ここで、x(n)は、ターゲット信号であり、かつy(n)は、以下のとおり、v(n)をh(n)と畳み込むことにより得られる。
【0232】
【0233】
ここで、v(n)は、適応型コードブックベクトルであり、y(n)は、フィルタ化された適応型コードブックベクトルであり、かつh(n-i)は、G.729に規定される重み付合成フィルタのインパルス応答である(非特許文献10[ITU12]を参照)。
【0234】
同様に、いくつかの実施形態において、ピッチゲインは、標準G.718において規定される適応型コードブックゲインgpであることが可能である(非特許文献8[ITU08a]、特に6.8.4.1.4.1章、より詳細には式(170)を参照)。G.718においては、適応型コードブックゲインが以下のとおり決定される。
【0235】
【0236】
ここで、x(n)はターゲット信号であり、かつyk(n)は、遅延kでの過去のフィルタ化された励振である。
【0237】
たとえば、定義について、yk(n)がいかに規定できるかは、非特許文献8([ITU08a])、6.8.4.1.4.1章、式(171)を参照。
【0238】
同様に、いくつかの実施形態では、ピッチゲインは、AMR標準で規定される適応型コードブックゲインgp(非特許文献3[3GP12b]を参照)が可能で、ピッチゲインとしての適応型コードブックゲインgpは、以下のとおり規定される。
【0239】
【0240】
ここで、y(n)は、フィルタ化された適応型コードブックベクトルである。
【0241】
いくつかの実施形態において、ピッチラグは、たとえば、ピッチ予測を行う前にピッチゲインで重み付けすることが可能である。
【0242】
この目的で、ある実施形態によれば、たとえば、ピッチラグと同じサブフレームで取られたピッチゲインを保持する、長さ8の第2のバッファを導入してもよい。ある実施形態では、バッファは、ピッチラグの更新と全く同じルールを使用して更新され得る。1つの可能な実現例は、そのフレームに誤差がないかまたは誤差がありがちかにかかわらず、各フレームの終りに両方のバッファ(最後の8つのサブフレームのピッチラグとピッチゲインを保持)を更新することである。
【0243】
先行技術から2つの異なる予測戦略が知られており、重み付けピッチ予測を使用するためにこれらを強化することができる。
【0244】
いくつかの実施形態は、G.718標準の予測戦略に対し大きな発明的改善をもたらす。G.718において、パケットが失われる場合において、関連するピッチゲインが高い場合、高いファクタでピッチラグを重み付けし、かつ関連するピッチゲインが低い場合には、低いファクタでこれを重み付けするために、バッファが要素ごとに相互に乗算され得る。その後、G.718に従って、ピッチ予測が通常通り行われる(G.718に関する詳細については、非特許文献8[ITU08a、セクション7.11.1.3]を参照)。
【0245】
いくつかの実施形態は、G.729.1標準の予測戦略に対し大きな発明的改善をもたらす。ピッチを予測するためのG.729.1において使用されるアルゴリズム(G.729.1に関する詳細については、非特許文献6[ITU06b]を参照)が、重み付け予測を用いるために、実施形態に従って修正される。
【0246】
いくつかの実施形態によれば、目標は、以下の誤差関数を最小化することである。
【0247】
【0248】
ここで、gp(i)は、過去のサブフレームからのピッチゲインを保持し、かつ、P(i)は、対応のピッチラグを保持する。
【0249】
本発明の式(20)では、gp(i)が、重み付けファクタを表す。上記の例では、各gp(i)が、過去のサブフレームの1つからのピッチゲインを表す。
【0250】
以下に、実施形態による等式を記述するが、これらは、a+i・b(iが予測対象のサブフレームのサブフレーム番号)によってピッチラグを予測するために使用できるファクタaおよびbを生成する方法を記述する。
【0251】
たとえば、最後の5つのサブフレームP(0)、...、P(4)に関する予測に基づき第1の予測サブフレームを得るために、予測ピッチ値P(5)は、以下のようになると考えられる。
【0252】
【0253】
係数aおよびbを生成するために、たとえば、誤差関数を生成し(導き)、かつゼロに設定することができる。
【0254】
【0255】
先行技術は、実施形態により提供される本発明の重み付けを採用することについて開示してない。特に、先行技術は、重み付けファクタgp(i)を採用していない。
【0256】
このように、重み付けファクタgp(i)を採用しない先行技術においては、誤差関数を生成して、誤差関数の導関数をゼロに設定すると、以下のようになると考えられる。
【0257】
【0258】
(非特許文献6[ITU06b、7.6.5を参照])。
【0259】
対照的に、実施形態の重み付け予測アプローチ、たとえば、重み付けファクタgp(i)での式(20)の重み付け予測アプローチを用いれば、aおよびbは、以下のようになる。
【0260】
【0261】
特定の実施形態によれば、A、C、D;E、F、G、H、I、JおよびKは、たとえば以下の値を有し得る。
【0262】
【0263】
図10および
図11は、提案されるピッチ外挿のより優れた性能を示す。
【0264】
ここで、
図10は、ピッチラグが前提技術のコンセプトを採用して再構成される場合のピッチラグ図を示す。対照的に、
図11は、ピッチラグが実施形態に従って再構成される場合のピッチラグ図を示す。
【0265】
詳細には、
図10は、先行技術の標準G.718およびG729.1の性能を示し、
図11は、実施形態により提供されるコンセプトの性能を示す。
【0266】
横軸がサブフレーム番号を表す。実線1010が、ビットストリームに埋め込まれ、かつ、グレイのセグメント1030の領域で失われるエンコーダピッチラグを示す。左側の縦軸は、ピッチラグ軸を表す。右側の縦軸は、ピッチゲイン軸を表す。実線1010は、ピッチラグを示し、破線1021、1022、1023はピッチゲインを示す。
【0267】
グレイの矩形1030は、フレーム損失を示す。グレイのセグメント1030の領域で生じたフレーム損失のため、この領域におけるピッチラグおよびピッチゲインについての情報は、デコーダ側で入手できず、再構成する必要がある。
【0268】
図10において、G.718標準を使用して封じ込められるピッチラグは、一点鎖線部1011により示される。G.729.1標準を使用して封じ込められるピッチラグは、実線部1012により示される。提供されるピッチ予測(
図11、実線部1013)を使用することは、本質的に、失われたエンコーダピッチラグに対応し、かつ、G.718およびG729.1の技術により有利であることがはっきりわかる。
【0269】
以下では、経過時間に依拠する重み付けを採用する実施形態について、式(23a)から式(24b)を参照して説明する。
【0270】
先行技術の欠点を克服するため、いくつかの実施形態は、ピッチ予測を行う前に、ピッチラグに対し時間重み付けを適用する。時間重み付けの適用は、以下の誤差関数を最小化することにより実行され得る。
【0271】
【0272】
ここで、timepassed(i)は、ピッチラグを正しく受信した後に経過した時間の量の逆数を表し、かつ、P(i)は、対応するピッチラグを保持する。
【0273】
いくつかの実施形態は、たとえば、より最近のラグに対して高い重みを付け、より以前に受信されたラグに対しては低い重みを付け得る。
【0274】
次いで、いくつかの実施形態によれば、式(21a)を採用して、aおよびbを生成することができる。
【0275】
第1の予測されたサブフレームを得るため、いくつかの実施形態では、たとえば、最後の5つのサブフレームP(0)、...P(4)に基づいて予測を行い得る。次いで、たとえば、予測ピッチ値P(5)は、以下のとおり得ることができる。
【0276】
【0277】
たとえば、以下のとおりであれば、
【0278】
【0279】
(サブフレーム遅延に従う時間重み付け)、以下のようになると考えられる。
【0280】
【0281】
以下では、パルス再同期化を提供する実施形態を説明する。
【0282】
図2aは、実施形態に従う再構成されたフレームとして音声信号を含むフレームを再構成するための装置を示す。前記再構成されたフレームは、1以上の入手可能なフレームに関連し、前記1以上の入手可能なフレームは、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続のフレームのうちの少なくとも1つであり、1以上の入手可能なフレームが1以上の入手可能なピッチサイクルとして1以上のピッチサイクルを含む。
【0283】
装置は、1以上の入手可能なピッチサイクルのうちの1つのサンプルの数と、再構成されるべき第1のピッチサイクルのサンプルの数との差を示すサンプル数の差(Δp
0;Δi;Δp
k+1)を決定するための決定部210を含む。
【0284】
また、装置は、サンプル数の差(Δp
0;Δi;Δp
k+1)および1以上の入手可能なピッチサイクルのうちの前記1つのサンプルに依拠して第1の再構成ピッチサイクルとして再構成されるべき第1のピッチサイクルを再構成することにより再構成フレームを再構成するためのフレーム再構成部を含む。
【0285】
フレーム再構成部220は、再構成フレームを再構成するよう構成され、それにより再構成されたフレームが、完全にまたは部分的に第1の再構成されたピッチサイクルを含み、再構成されたフレームが、完全にまたは部分的に第2の再構成されたピッチサイクルを含み、かつ第1の再構成されたピッチサイクルのサンプル数が、第2の再構成されたピッチサイクルのサンプル数とは異なるようになっている。
【0286】
ピッチサイクルの再構成は、再構成するピッチサイクルのサンプルの一部または全部を再構成することにより行われる。再構成されるべきピッチサイクルが、失われたフレームに完全に含まれる場合には、たとえば、ピッチサイクルのサンプルのすべてを、再構成する必要があるかもしれない。再構成されるべきピッチサイクルが、一部のみ失われたフレームにより含まれ、かつ他のフレームに含まれる場合など、ピッチサイクルのサンプルのいくつかが入手可能な場合、ピッチサイクルを再構成するために、失われたフレームにより含まれるピッチサイクルのサンプルを再構成するだけで十分かもしれない。
【0287】
図2bは、
図2aの装置の機能性を示す。
図2bは、特に、パルス211、212、213、214、215、216および217を含む音声信号222を示す。
【0288】
音声信号222の第1の部分は、フレームn-1により含まれる。音声信号222の第2の部分は、フレームnにより含まれる。音声信号222の第3の部分は、フレームn+1により含まれる。
【0289】
図2bにおいて、フレームn-1は、フレームnに先行し、かつフレームn+1は、フレームnの後に続く。これは、フレームn-1がフレームnの音声信号の部分に比べて時間的により早く生じた音声信号の部分を含み、かつフレームn+1が、フレームnの音声信号の部分に比べて時間的により遅く生じた音声信号の部分を含むことを意味する。
【0290】
図2bの例では、フレームnが失われたか、または破損されていると仮定するので、フレームnに先行するフレーム(「先行フレーム」)およびフレームnに後続するフレーム(「後続フレーム」)のみが入手可能である(「入手可能フレーム」)。
【0291】
たとえば、ピッチサイクルを以下のように規定することができる。ピッチサイクルは、音声信号において、パルス211、212、213他のうちの1つで開始され、直後に続くパルスで終了する。たとえば、パルス211および212がピッチサイクル201を規定する。パルス212および213がピッチサイクル202を規定する。パルス213および214は、ピッチサイクル203を規定する等である。
【0292】
ピッチサイクルの他の開始および終了点を採用する、当業者に周知の他のピッチサイクルの定義についても、代替的に考慮してもよい。
【0293】
図2bの例では、フレームnは、受信部で入手可能ではないか破損されている。したがって、受信部は、フレームn-1のパルス211および212ならびにピッチサイクル201について認識する。さらに、受信部は、フレームn+1のパルス216および217ならびにピッチサイクル206についても認識する。しかしながら、パルス213、214および215を含み、ピッチサイクル203および204を完全に含み、かつ、ピッチサイクル204および205を部分的に含むフレームnを再構成する必要がある。
【0294】
いくつかの実施形態によれば、フレームnは、入手可能フレーム(たとえば、先行フレームn-1または後続フレームn+1)の1以上のピッチサイクル(「入手可能ピッチサイクル」)のサンプルに依拠して再構成され得る。たとえば、フレームn-1のピッチサイクル201のサンプルは、失われたか、または破損されたフレームのサンプルを再構成するために周期的にに繰り返しコピーされ得る。ピッチサイクルのサンプルを周期的に繰り返しコピーすることで、ピッチサイクル自体がコピーされ、たとえばピッチサイクルがcの場合、以下のようになる。
【0295】
【0296】
実施形態においては、フレームn-1の終りからのサンプルがコピーされる。n‐1番目のフレームのコピーされる部分の長さが、ピッチサイクル201の長さに等しい(またはほとんど等しい)。しかしながら、201および202双方からのサンプルがコピーに使用される。これは、n-1番目のフレームにパルスが1つしかない場合には、特に慎重に考慮する必要がある。
【0297】
いくつかの実施形態においては、コピーされたサンプルは修正される。
【0298】
本発明は、また、失われたフレーム(n)により(完全にまたは部分的に)含まれるピッチサイクル(ピッチサイクル202、203、204および205)のサイズが、コピーされた入手可能なピッチサイクル(ここでは、ピッチサイクル201)のサイズと異なる場合には、ピッチサイクルのサンプルを周期的に繰り返しコピーすることにより、失われたフレームnのパルス213、214および215が間違った位置に移動するという所見に基づく。
【0299】
たとえば、
図2bでは、ピッチサイクル201とピッチサイクル202との差は、Δ
1で示され、ピッチサイクル201とピッチサイクル203との差は、Δ
2で示され、ピッチサイクル201とピッチサイクル204との差は、Δ
3で示され、かつピッチサイクル201とピッチサイクル205との差は、Δ
4で示される。
【0300】
図2bにおいて、フレームn-1のピッチサイクル201が、ピッチサイクル206よりかなり大きいことがわかる。また、フレームnに(一部または完全に)含まれるピッチサイクル202、203、204および205は、各々ピッチサイクル201より小さく、かつ、ピッチサイクル206より大きい。さらに、大きいピッチサイクル201により近いピッチサイクル(たとえば、ピッチサイクル202)は、小さいピッチサイクル206により近いピッチサイクル(たとえば、ピッチサイクル205)より大きい。
【0301】
本発明のこれらの所見に基づいて、実施形態によれば、フレーム再構成部220は、第1の再構成されたピッチサイクルのサンプル数が、再構成されたフレームに部分的にまたは完全に含まれる第2の再構成されたピッチサイクルのサンプル数と異なるように、再構成フレームを再構成するよう構成される。
【0302】
たとえば、いくつかの実施形態によれば、フレームの再構成は、1以上の入手可能なピッチサイクル(ピッチサイクル201等)のうちの1つのサンプル数と、再構成される第1のピッチサイクル(ピッチサイクル202、203、204、205等)のサンプル数との差を示すサンプル数の差に依拠する。
【0303】
たとえば、ある実施形態によれば、ピッチサイクル201のサンプルは、たとえば、周期的に繰り返しコピーされ得る。
【0304】
そこで、サンプル数の差は、再構成されるべき第1のピッチサイクルに対応する周期的に繰り返されたコピーからいくつのサンプルを削除するか、または再構成されるべき第1のピッチサイクルに対応する周期的に繰り返されたコピーにいくつのサンプルを加えるかを示す。
【0305】
図2bにおいて、各サンプル数は、周期的に繰り返されたコピーからいくつのサンプルを削除するかを示す。しかしながら、他の例では、サンプル数は、周期的に繰り返されたコピーにいくつのサンプルを加えるかを示し得る。たとえば、いくつかの実施形態では、振幅ゼロのサンプルを対応のピッチサイクルに加えることにより、サンプルを加えることができる。他の実施形態では、たとえば、ピッチサイクルの他のサンプルをコピーすることによって、たとえば、加えるべきサンプルの位置に隣接するサンプルをコピーすることによって、ピッチサイクルにサンプルを加え得る。
【0306】
上記では、失われたかまたは破損されたフレームに先行するフレームのピッチサイクルのサンプルが周期的に繰り返しコピーされている実施形態について説明したが、他の実施形態では、失われたかまたは破損されたフレームの後続のフレームのピッチサイクルのサンプルを、周期的に繰り返しコピーして失われたフレームを再構成する。上記および後述の同じ原則が同様に当てはまる。
【0307】
このようなサンプル数の差を再構成対象の各ピッチサイクルについて決定し得る。次いで、各ピッチサイクルのサンプル数の差が、再構成対象の対応のピッチサイクルに対応する周期的に繰り返されるコピーからいくつのサンプルを削除するか、または再構成対象の対応するピッチサイクルに対応する周期的に繰り返されるコピーにいくつのサンプルを加えるかを示す。
【0308】
ある実施形態によれば、決定部210は、たとえば、再構成対象の複数のピッチサイクルの各々についてサンプル数の差を決定して、それによりピッチサイクルの各々のサンプル数の差が、1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成対象の前記ピッチサイクルのサンプル数との差を示すように構成され得る。フレーム再構成部220は、再構成フレームを再構成するために、たとえば、再構成対象の前記ピッチサイクルのサンプル数の差および1以上の入手可能なピッチサイクルの前記1つのサンプルに依拠して、再構成対象の複数のピッチサイクルの各ピッチサイクルを再構成するよう構成され得る。
【0309】
ある実施形態においては、フレーム再構成部220は、たとえば、1以上の入手可能なピッチサイクルのうちの前記1つに依拠して中間フレームを生成するよう構成され得る。フレーム再構成部220は、たとえば、再構成フレームを得るために、中間フレームを修正するよう構成され得る。
【0310】
実施形態によれば、決定部210は、たとえば、いくつのサンプルを中間フレームから除くか、またはいくつのサンプルを中間フレームに加えるかを示すフレーム差値(d;s)を決定するよう構成され得る。また、フレーム再構成部220は、たとえば、フレーム差値が、第1のサンプルがフレームから除去されることを示す場合、再構成フレームを得るために中間フレームから第1のサンプルを除去するよう構成され得る。さらに、フレーム再構成部220は、たとえば、フレーム差値(d;s)が、第2のサンプルがフレームに加えられることを示す場合、再構成フレームを得るために中間フレームに第2のサンプルを加えるよう構成され得る。
【0311】
ある実施形態において、フレーム再構成部220は、たとえば、フレーム差値が、第1のサンプルが中間フレームから除去されるべきであることを示す場合、中間フレームから第1のサンプルを除去するよう構成することが可能で、それにより、中間フレームから除去される第1のサンプルの数がフレーム差値により示されるようになっている。また、フレーム再構成部220は、たとえば、フレーム差値が、第2のサンプルがフレームに加えられるべきであることを示す場合、中間フレームに第2のサンプルを加えるよう構成することが可能で、それにより、中間フレームに加えられる第2のサンプルの数がフレーム差値により示されるようになっている。
【0312】
ある実施形態によれば、決定部210は、たとえば、以下の式が真であるように、フレーム差数sを決定するように構成され得る。
【0313】
【0314】
ここで、Lは、再構成フレームのサンプルの数を表し、Mは、再構成フレームのサブフレームの数を表し、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められたピッチ周期長さを示し、p[i]は、再構成フレームのi番目のサブフレームの再構成されたピッチサイクルのピッチ周期長さを示す。
【0315】
ある実施形態において、フレーム再構成部220は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するようになっていてもよい。また、フレーム再構成部220は、たとえば、中間フレームが、第1の部分中間ピッチサイクル、1以上のさらなる中間ピッチサイクルおよび第2の部分中間ピッチサイクルを含むように中間フレームを生成するようにされてもよい。さらに、第1の部分中間ピッチサイクルは、たとえば、1以上の使用可能なピッチサイクルのうちの前記1つのサンプルのうちの1以上に依拠することが可能で、1以上のさらなる中間ピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つのサンプルの全部に依拠し、かつ第2の部分中間ピッチサイクルが、1以上の入手可能なピッチサイクルの前記1つのサンプルのうちの1以上に依拠する。また、決定部210は、たとえば、第1の部分中間ピッチサイクルからいくつのサンプルを除去するかまたは加えるかを示す開始部差数を決定するよう構成することができ、かつフレーム再構成部220は、開始部差数に依拠して、第1の部分中間ピッチサイクルから1以上の第1のサンプルを除去するよう構成されるかまたは第1の部分中間ピッチサイクルに1以上の第1のサンプルを加えるよう構成される。さらに、決定部210は、たとえば、さらなる中間ピッチサイクルの前記1つからいくつのサンプルを除去するまたは加えるかを示すピッチサイクル差数を、さらなる中間ピッチサイクルの各々について決定するよう構成され得る。また、フレーム再構成部220は、たとえば、前記ピッチサイクル差数に依拠して、さらなる中間ピッチサイクルの前記1つから1以上の第2のサンプルを除去するよう構成され得るか、または、さらなる中間ピッチサイクルの前記1つに1以上の第2のサンプルを加えるよう構成される。さらに、決定部210は、たとえば、第2の部分中間ピッチサイクルからいくつのサンプルを除去するかまたは加えるかを表す終了部差数を決定するよう構成することができ、かつフレーム再構成部220は、終了部差数に依拠して、第2の部分中間ピッチサイクルから1以上の第3のサンプルを除去するよう構成されるか、または第2の部分中間ピッチサイクルに1以上の第3のサンプルを加えるよう構成される。
【0316】
ある実施形態により、フレーム再構成部220は、たとえば、1以上の入手可能なピッチサイクルの前記1つに依拠して中間フレームを生成するよう構成され得る。また、決定部210は、たとえば、中間フレームにより含まれる音声信号の1以上の低エネルギ信号部を決定するようにされてもよく、1以上の低エネルギ信号部の各々が、中間フレーム内の音声信号の第1の信号部であり、音声信号のエネルギが、中間フレームにより含まれる音声信号の第2の信号部におけるエネルギより低い。さらに、フレーム再構成部220は、たとえば、再構成フレームを得るために、音声信号の1以上の低エネルギ信号部の1以上から1以上のサンプルを除去するか、または音声信号の1以上の低エネルギ信号部分の1以上へ1以上のサンプルを加えるよう構成され得る。
【0317】
特定の実施形態において、フレーム再構成部220は、たとえば、中間フレームを生成するよう構成されることが可能で、それにより中間フレームが1以上の再構成ピッチサイクルを含み、1以上の再構成ピッチサイクルの各々が、1以上の入手可能なピッチサイクルの前記1つに依拠するようになっている。また、決定部210は、たとえば、1以上の再構成ピッチサイクルの各々から除去するサンプルの数を決定するように構成され得る。さらに、決定部210は、たとえば、1以上の低エネルギ信号部の各々について、前記低エネルギ信号部のサンプルの数が、1以上の再構成ピッチサイクルの1つから除去されるべきサンプル数に依拠するように、1以上の低エネルギ信号部の各々を決定するように構成することが可能で、前記低エネルギ信号部が、1以上の再構成ピッチサイクルの前記1つ内に位置する。
【0318】
ある実施形態において、決定部210は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の1以上のパルスの位置を決定するよう構成され得る。また、フレーム再構成部220は、たとえば、音声信号の1以上のパルスの位置に依拠して再構成フレームを再構成するよう構成され得る。
【0319】
ある実施形態によれば、決定部210は、たとえば、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスの位置を決定するよう構成することが可能で、T[0]は、再構成フレームとして再構成されるべきフレームの音声信号の2以上のパルスのうちの1つの位置であり、かつ決定部210は、以下の式に従う音声信号の2以上のパルスのうちのさらなるパルスの位置(T[i])を決定するよう構成される。
【0320】
【0321】
ここで、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、かつiは整数である。
【0322】
ある実施形態によれば、決定部210は、たとえば、以下の式のように、再構成フレームとして再構成されるべきフレームの音声信号の最後のパルスのインデクスkを決定するよう構成され得る。
【0323】
【0324】
ここで、Lは、再構成フレームのサンプルの数を示し、sは、フレーム差値を示し、T[0]は、音声信号の最後のパルスとは異なる、再構成フレームとして再構成されるべきフレームの音声信号のパルスの位置を示し、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示す。
【0325】
ある実施形態において、決定部210は、たとえば、パラメータδを決定することにより再構成フレームとして再構成されるべきフレームを再構成するよう構成することが可能で、δは以下の式により規定される。
【0326】
【0327】
ここで、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、Tpは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Textは、再構成フレームとして再構成されるべきフレームの再構成されるべきピッチサイクルのうちの1つの長さを示す。
【0328】
ある実施形態によれば、決定部210は、たとえば、以下の式に基づき1以上の入手可能なピッチサイクルの前記1つの丸められた長さTrを決定することにより再構成フレームを再構成するよう構成され得る。
【0329】
【0330】
ここで、Tpは、1以上の入手可能なピッチサイクルの前記1つの長さを示す。
【0331】
ある実施形態において、決定部210は、たとえば以下の式を適用することにより再構成フレームを再構成するよう構成され得る。
【0332】
【0333】
ここで、Tpは、1以上の入手可能なピッチサイクルの前記1つの長さを示し、Trは、1以上の入手可能なピッチサイクルの前記1つの丸められた長さを示し、再構成フレームとして再構成されるべきフレームは、M個のサブフレームを含み、再構成フレームとして再構成されるべきフレームは、L個のサンプルを含み、δが1以上の入手可能なピッチサイクルのうちの前記1つのサンプルの数と、再構成されるべき1以上のピッチサイクルの1つのサンプルの数との差を表す実数である。
【0334】
ここで、実施形態についてより詳細に説明する。
【0335】
以下では、パルス再同期化の実施形態の第1のグループについて式(25)から(63)を参照して説明する。
【0336】
これらの実施形態では、ピッチに変化がない場合、最後のピッチラグを、丸めずに小数部分を維持したまま使用する。周期的な部分は、たとえば非特許文献12([MTTA90])にあるような非整数ピッチおよび内挿を用いて構成される。これにより、丸めたピッチラグを使用する場合に比べて高調波の周波数シフトが減じられるので、一定のピッチの音または有声信号の封じ込めが大きく改善する。
【0337】
この効果は、
図8および
図9により示され、フレームの損失を伴うピッチパイプを表す信号が、それぞれ丸めおよび非丸め小数ピッチラグを用いて封じ込められる。ここで、
図8は、丸められたピッチラグを使用する再同期化された音声信号の時間-周波数表現を示す。対照的に、
図9は、小数部分を伴う非丸めピッチラグを使用して再同期化された音声信号の時間-周波数表現を示す。
【0338】
ピッチの小数部分を使用する場合、計算の複雑さが増大することになる。声門パルス再同期の必要はないので、これが最悪計算量に影響することはないはずである。
【0339】
予測されるピッチの変更がない場合には、以下に説明する処理を行う必要はない。
【0340】
ピッチの変化が予測される場合、式(25)から(63)を参照して説明する実施形態は、一定ピッチ(Tc)を伴うピッチサイクル内の合計サンプル数の和と、展開ピッチp[i]を伴うピッチサイクル内の合計サンプル数の和との間の差であるdを決定するためのコンセプトを提供する。
【0341】
以下において、Tcは、式(15a)のように規定される。すなわち、Tc=round(last_pitch)。
【0342】
実施形態によれば、以下に説明するとおり、差dをより高速でかつより正確なアルゴリズムを使用して決定することができる(dを決定するための高速アルゴリズムのアプローチ)。
【0343】
このようなアルゴリズムは、たとえば、以下の原則に基づくことができる。
【0344】
・各サブフレームiにおいて、(長さTcの)各ピッチサイクルについて、Tc-p[i]サンプルを除去する必要がある(またはTc-p[i]<0の場合、p[i]-Tcを加える必要がある)。
【0345】
・各サブフレームには、(L_subfr)/Tcピッチサイクルが存在する。
【0346】
・したがって、各サブフレーム(T
c-p[i])について、(L_subfr)/T
cサンプルを除去する必要がある。
【0347】
いくつかの他の実施形態によれば、丸めが行われる。整数ピッチについては(Mはフレームにおけるサブフレームの数である。)、dは以下のとおり規定される。
【0348】
【0349】
ある実施形態によれば、応じてdを計算するためのアルゴリズムが提供される。
【0350】
他の実施形態では、アルゴリズムの最後の行を以下と置換する。
【0351】
d=(short)floor(L_frame-ftmp*(float)L_subfr/Tc+0.5);
実施形態によれば、最後のパルスT[n]は、以下の式に従って見つけられる。
【0352】
【0353】
ある実施形態によれば、Nを計算する式が採用される。この式は、以下に従って式(26)から得られ、
【0354】
【0355】
かつ最後のパルスは、インデクスN-1を有する。
【0356】
この式によれば、
図4および
図5に示す例についてNを計算できる。
【0357】
以下において、最後のパルスについて明示的サーチを伴わないが、パルスの位置を考慮に入れるコンセプトについて説明する。このコンセプトは、構成された周期的部分における最後のパルスインデクスのNを必要としない。
【0358】
励振の構成された周期的部分における実際の最後のパルスの位置(T[k])がフルピッチサイクルkの数を決定し、サンプルが除去される(または加えられる)。
【0359】
図12は、d個のサンプルを除去する前の最後のパルスの位置T[2]を示す。式(25)から式(63)を参照して説明する実施形態については、参照番号1210がdを示す。
【0360】
図12の例では、最後のパルスkのインデクスは2であり、サンプルを除去すべき2つのフルピッチサイクルが存在する。
【0361】
信号長さL_frame+dの信号からd個のサンプルを除去した後は、L_frame+d個のサンプルを超えるオリジナル信号からのサンプルは存在しない。したがって、T[k]は、L_frame+dサンプルの範囲内であり、かつ、従って、kは以下により決定される。
【0362】
【0363】
式(17)および式(28)から、以下のとおりになる。
【0364】
【0365】
すなわち、以下のとおりである。
【0366】
【0367】
式(30)から、以下のとおりになる。
【0368】
【0369】
たとえば、20ms以上のフレームを使用するコーデックにおいて、音声の最低基本周波数が、たとえば、40Hz以上なら、多くの場合、「無声」以外に、封じ込められたフレームに、1以上のパルスが存在する。
【0370】
以下において、式(32)から式(46)を参照して、2以上のパルス(k≧1)の場合について説明する。
【0371】
パルス間の各フルのi番目のピッチサイクルにおいて、Δiサンプルが除去されると仮定するが、ここで、Δiは、以下のとおり規定される。
【0372】
【0373】
ここで、aは、既知の変数で表現する必要がある未知の変数である。
【0374】
第1のパルスの前でΔ0サンプルが除去されると仮定するが、ここで、Δ0は、以下のとおり規定される。
【0375】
【0376】
Δk+1サンプルが、最後のパルスの後に除去されると仮定するが、ここで、Δk+1は、以下のとおり規定される。
【0377】
【0378】
最後の2つの仮定は、部分的な最初と最後のピッチサイクルの長さを考慮に入れる式(32)と合致する。
【0379】
Δi値の各々がサンプル数の差である。また、Δ0は、サンプル数の差である。さらに、Δk+1は、サンプル数の差である。
【0380】
図13は、
図12の音声信号の図であって、Δ
0からΔ
3を追加して示す。各ピッチサイクルにおいて除去すべきサンプルの数を、
図13の例では模式的に示し、k=2である。式(25)から(63)を参照して記載する実施形態に関しては、参照番号1210がdを示す。
【0381】
除去するサンプルの合計数dは、以下のとおりΔiに関連する。
【0382】
【0383】
式(32)~式(35)から、dは、以下のとおり求めることができる。
【0384】
【0385】
式(36)は、以下の式と等価である。
【0386】
【0387】
封じ込められたフレームにおける最後のフルピッチサイクルがp[M-1]の長さを有すると仮定する。すなわち、以下のとおりである。
【0388】
【0389】
式(32)および式(38)から、以下のとおりである。
【0390】
【0391】
また、式(37)および式(39)から、以下のとおりである。
【0392】
【0393】
式(40)は、以下の式と等価である。
【0394】
【0395】
式(17)および式(41)から、以下のとおりである。
【0396】
【0397】
式(42)は、以下の式と等価である。
【0398】
【0399】
さらに、式(43)から、以下のとおりである。
【0400】
【0401】
式(44)は、以下の式と等価である。
【0402】
【0403】
また、式(45)は、以下の式と等価である。
【0404】
【0405】
実施形態によれば、ここで、式(32)から式(34)、式(39)および式(46)に基づいて、第1のパルスの前および/またはパルスの間および/または最後のパルスの後に除去するかまたは加えるサンプルの数を計算する。
【0406】
実施形態において、サンプルは、最小エネルギ領域において除去されるかまたは加えられる。
【0407】
実施形態によれば、除去されるサンプルの数は、たとえば、以下を使用して丸めることができる。
【0408】
【0409】
以下では、1つのパルス(k=0)の場合について、式(47)から(55)を参照して記載する。
【0410】
封じ込められたフレーム内に1つのパルスしかなければ、そのパルスの前のΔ0のサンプルが除去されることになる。
【0411】
【0412】
ここで、Δおよびaは、既知の変数で表現する必要がある未知の変数である。Δ1個のサンプルが、このパルスの後、除去されることになる。ここで、
【0413】
【0414】
である。
【0415】
そして、除去されるべきサンプルの合計数は、以下のとおり与えられる。
【0416】
【0417】
式(47)から式(49)より、以下のとおりである。
【0418】
【0419】
式(50)は、以下の式と等価である。
【0420】
【0421】
パルスの前のピッチサイクルのパルス後のピッチサイクルに対する比は、前に受信されたフレームにおける最後のサブフレームと最初のサブフレームにおけるピッチラグの比と同じであると仮定する。
【0422】
【0423】
式(52)から、以下のとおりである。
【0424】
【0425】
また、式(51)と式(53)から、以下のとおりである。
【0426】
【0427】
式(54)は、以下の式と等価である。
【0428】
【0429】
除去すべきまたは加えるべき[Δ-a]個のサンプルが、上記パルスの前の最小エネルギ領域に存在し、同パルスの後にd-[Δ-a]個のサンプルが存在する。
【0430】
以下では、パルス(の場所)のサーチを必要としない、実施形態による簡素化されたコンセプトについて、式(56)から式(63)を参照して説明する。
【0431】
t[i]は、i番目のピッチサイクルの長さを示す。信号からd個のサンプルを除去した後、k個のフルピッチサイクルおよび1つの部分(フルまでの)ピッチサイクルを入手する。したがって、以下のとおりである。
【0432】
【0433】
長さt[i]のピッチサイクルを、いくつかのサンプルを除去した後に長さTCのピッチサイクルから得て、除去されたサンプルの合計数がdなので、以下のとおりになる。
【0434】
【0435】
したがって、以下のとおりになる。
【0436】
【0437】
また、以下のとおりになる。
【0438】
【0439】
実施形態によれば、ピッチラグにおいて線形の変化を想定し得る。
【0440】
【0441】
実施形態では、(k+1)Δ個のサンプルを、k番目のピッチサイクルにおいて除去する。
【0442】
実施形態によれば、サンプルを除去した後もフレームにとどまるk番目のピッチサイクルの部分において、
【0443】
【0444】
個のサンプルが除去される。
【0445】
したがって、除去されるサンプルの合計数は、以下のとおりである。
【0446】
【0447】
式(60)は以下の式と等価である。
【0448】
【0449】
また、式(61)は、以下の式と等価である。
【0450】
【0451】
さらに、式(62)は、以下の式と等価である。
【0452】
【0453】
実施形態によれば、(i+1)Δ個のサンプルが、最小エネルギの位置で除去される。1ピッチサイクルを保持する環状バッファにおいて、最小エネルギ位置のサーチが行われるので、パルスの場所を知る必要はない。
【0454】
最小エネルギ位置が、第1のパルスの後であり、かつ第1のパルスの前のサンプルが除去されない場合、ピッチラグが、(Tc+Δ)、Tc、Tc、(Tc-Δ)、(Tc-2Δ)(最後に受信したフレームにおける2つピッチサイクルおよび封じ込められたフレームにおける3つのピッチサイクル)として展開する状況が発生し得る。したがって、不連続性が存在し得る。同様の不連続性については、最後のパルスの後に生じ得るが、第1のパルスの前に発生する場合と同じ時には生じない。
【0455】
他方、パルスが封じ込められたフレームの開始に近いほど、最小エネルギ領域が第1のパルスの後に現れる可能性が高い。第1のパルスが、封じ込められたフレームの開始に近いほど、最後に受信したフレームにおける最後のピッチサイクルがTcより大きくなる可能性が高くなる。ピッチ変化における不連続性の可能性を減じるため、重み付けを用いてピッチサイクルの開始または終了により近い最小領域を有利にする。
【0456】
実施形態によれば、以下の方法ステップの1以上または全部を実現する、提供されるコンセプトの実現例について説明する。
【0457】
1.最小エネルギ領域について並列でサーチし、最後に受信したフレームの終わりからローパスフィルタ処理したTc個のサンプルを一時バッファBに格納する。一時バッファは、最小エネルギ領域のサーチの際には環状バッファとして考えられる(これは、最小エネルギ領域が、ピッチサイクルの始まりからの数サンプルと終わりからの数サンプルから構成され得るということを意味し得る)。最小エネルギ領域は、たとえば、長さが[(k+1)Δ]のサンプルのスライディングウィンドウについて最小の場所でもよい。たとえば重み付けを使用して、ピッチサイクルの開始により近い最小領域を有利にすることができる。
【0458】
2.最小エネルギ領域の[Δ]個のサンプルをスキップして、フレームに一時バッファBからのサンプルをコピーする。したがって、長さt[0]のピッチサイクルが作られる。δ0=Δ-[Δ]を設定。
【0459】
3.i番目のピッチサイクル(0<i<k)について、最小エネルギ領域の[Δ]+[δi-1]個のサンプルをスキップして、(i-1)番目のピッチサイクルからのサンプルをコピーする。δi=δi-1-[δi-1]+Δ-[Δ]を設定する。このステップをk-1回繰り返す。
【0460】
4.k番目のピッチサイクルについて、ピッチサイクルの終りに近い最小領域ほど有利になる重み付けを用いて、(k-1)番目のピッチサイクルにおける新たな最小領域をサーチする。次いで、最小エネルギ領域において以下の式で表す個数のサンプルをスキップして、(k-1)番目のピッチサイクルからのサンプルをコピーする。
【0461】
【0462】
サンプルを加える必要がある場合には、d<0でかつΔ<0であり、かつ合計|d|個のサンプルを加えるということを考慮に入れることにより、等価な手順を用いることができ、すなわち(k+1)|Δ|個のサンプルが、k番目のサイクルにおいて、最小エネルギの位置に加えられる。
【0463】
いずれにしても、近似化したピッチサイクル長さを用いるので、「dを決定するための高速アルゴリズムアプローチ」に関して、上記のdを生成するため、サブフレームレベルで小数ピッチを使用することができる。
【0464】
以下で、パルス再同期化の実施形態の第2のグループについて、式(64)から(113)を参照して説明する。第1のグループのこれらの実施形態は、式(15b)の定義を採用する。
【0465】
【0466】
ここで、最後のピッチ周期長さは、Tpであり、かつコピーされたセグメントの長さは、Trである。
【0467】
パルス再同期化実施形態の第2のグループにより使用されるいくつかのパラメータが以下に規定されない場合は、本発明の実施形態は、上に規定したパルス再同期化実施形態の第1のグループに関してこれらのパラメータについて与えられた定義を採用し得る(式(25)から(63)を参照)。
【0468】
パルス再同期化実施形態の第2のグループの式(64)から(113)のいくつかは、パルス再同期化実施形態の第1のグループに関して既に使用されたパラメータのいくつかを再定義し得る。この場合、与えられる再定義された定義が、第2のパルス再同期化の実施形態に適用される。
【0469】
上記のとおり、いくつかの実施形態によれば、周期的部分は、たとえば、1つのフレームおよび1つの追加のサブフレームについて構成することができ、ここで、フレーム長さはL=Lframeとして示される。
【0470】
たとえば、フレームにM個のサブフレームがある場合、サブフレームの長さは、L_subfr=L/Mである。
【0471】
上記のとおり、T[0]は、励振の構成された周期的部分における第1の最大パルスの場所である。他のパルスの位置は、以下の式により与えられる。
【0472】
【0473】
実施形態によれば、励振の周期的部分の構成に依拠して、たとえば励振の周期的部分の構成後、声門パルス再同期化を行って、失われたフレーム(P)の最後のパルスの推定目標位置と、励振の構成された周期的部分におけるその実際の位置(T[k])との差を訂正する。
【0474】
失われたフレーム(P)における最後のパルスの推定目標位置は、たとえば、ピッチラグ展開の推定により間接的に決定され得る。ピッチラグ展開は、たとえば、失われたフレームの前の最後の7つのサブフレームのピッチラグに基づいて外挿される。各サブフレームにおける展開ピッチラグは、以下のとおりである。
【0475】
【0476】
ここで、以下のとおりであり、
【0477】
【0478】
かつTextは、外挿されたピッチであり、かつiは、サブフレームインデクスである。ピッチ外挿は、たとえば、重み付線形フィッティングまたはG.718からの方法もしくはG.729.1からの方法またはたとえば未来のフレームからの1以上のピッチを考慮するピッチ内挿のための他の方法を用いて行うことができる。ピッチ外挿は、非線形でも可能である。実施形態では、Textは、上記でTextが決定されるのと同じ方法で決定され得る。
【0479】
展開ピッチ(p[i])を伴うピッチサイクル内の合計サンプル数の和と、一定ピッチ(Tp)を伴うピッチサイクル内の合計サンプル数の和との間のフレーム長内の差をsで示す。
【0480】
実施形態によれば、Text>Tpなら、s個のサンプルをフレームに加える必要があり、かつText<Tpなら、-s個のサンプルをフレームから除去する必要がある。|s|個のサンプルを追加または除去した後、封じ込められたフレームにおける最後のパルスは、推定目標位置(P)にあることになる。
【0481】
Text=Tpなら、フレーム内にサンプルを加えたり除去したりする必要はない。
【0482】
いくつかの実施形態によれば、声門パルス再同期化は、全てのピッチサイクルの最小エネルギ領域において、サンプルを加えるかまたは除去することにより行われる。
【0483】
以下では、実施形態によるパラメータsの計算について、式(66)から(69)を参照して説明する。
【0484】
いくつかの実施形態によれば、差sは、たとえば、以下の原則に基づいて計算され得る。
【0485】
・各サブフレームiにおいて、(長さTrの)ピッチサイクルごとにp[i]-Tr個のサンプルを加える必要がある(p[i]-Tr>0の場合)(さもなくばp[i]-Tr<0の場合、Tr-p[i]個のサンプルを除く必要がある)。
【0486】
・各サブフレームには、(L_subfr)/Tr=L/(MTr)のピッチサイクルが存在する。
【0487】
・したがって、i番目のサブフレームにおいて(p[i]-Tr)L/(MTr)個のサンプルを除去する必要がある。
【0488】
したがって、式(64)に従って、実施形態により、sは、たとえば式(66)に従って計算され得る。
【0489】
【0490】
式(66)は、以下の式と等価である。
【0491】
【0492】
ここで、式(67)は、以下の式と等価である。
【0493】
【0494】
式(68)は、以下の式と等価である。
【0495】
【0496】
なお、Text>Tpなら、sは正であり、サンプルを加える必要があり、Text<Tpなら、sは負であり、サンプルを除去する必要がある。したがって、除去または追加するべきサンプルの数は、|s|として示すことができる。
【0497】
以下では、実施形態による最後のパルスのインデクスの計算について式(70)から式(73)を参照して説明する。
【0498】
励振の構成された周期的部分における実際の最後のパルス位置(T[k])は、サンプルが除去される(または加えられる)フルピッチサイクルの数kを決定する。
【0499】
【0500】
図12が示す例においては、最後のパルスkのインデクスが2であり、サンプルを除去すべき2つのフルピッチサイクルが存在する。式(64)から(113)を参照して説明する実施形態に関しては、参照番号1210が|s|を示す。
【0501】
|s|個のサンプルを長さL-sの信号から除去した後(L=L_frame)または|s|個のサンプルを長さL-sの信号に加えた後、L-s個のサンプルを超えるオリジナル信号からのサンプルは存在しない。なお、サンプルが加えられる場合、sは正であり、サンプルが除去される場合、sは負である。したがって、サンプルが加えられるなら、L-s<Lであり、かつサンプルが除去されるなら、L-s>Lである。したがって、T[k]は、L-sサンプルの範囲内でなければならず、かつkは以下のとおり決定される。
【0502】
【0503】
式(15b)および式(70)から、以下のとおりになる。
【0504】
【0505】
すなわち、以下のとおりである。
【0506】
【0507】
ある実施形態によれば、kは、たとえば式(72)に基づき以下のとおり決定され得る。
【0508】
【0509】
たとえば、20ms以上のフレームおよび40Hz以上の音声の最低基本周波数を採用するコーデックにおいては、多くの場合、「無声」以外に封じ込められたフレームにおいて1以上のパルスが存在する。
【0510】
以下では、実施形態に従って、最小領域において除去されるべきサンプルの数の計算について、式(74)から(99)を参照して説明する。
【0511】
たとえば、パルス間の各フルのi番目のピッチサイクルにおいてΔi個のサンプルを除去(または追加)するものと仮定することができ、ここで、Δiは、以下のとおり定義される。
【0512】
【0513】
ここで、aは、たとえば既知の変数で表現され得る未知の変数である。
【0514】
また、たとえば第1のパルスの前に、Δp
0個のサンプルを除去(または追加)すると仮定することができ、ここでΔp
0は、以下のとおり規定される。
【0515】
【0516】
さらに、たとえば、最後のパルスの後にΔp
k+1個のサンプルを除去(または追加)すると仮定することができ、ここでΔp
k+1は、以下のとおり規定される。
【0517】
【0518】
最後の2つの仮定は、部分的な最初と最後のピッチサイクルの長さを考慮に入れる式(74)に合致する。
【0519】
各ピッチサイクルにおいて除去される(または加えられる)サンプルの数を
図13の例に模式的に示し、ここで、k=2である。
図13は、各ピッチサイクルにおいて除去されるサンプルを模式的に示す図である。式(64)から(113)を参照して説明した実施形態については、参照番号1210が|s|を示す。
【0520】
除去すべき(または加えるべき)サンプルの合計数sは、以下に従ってΔiに関連する。
【0521】
【0522】
式(74)~式(77)から、以下のとおりである。
【0523】
【0524】
式(78)は、以下の式と等価である。
【0525】
【0526】
また、式(79)は、以下の式と等価である。
【0527】
【0528】
さらに、式(80)は、以下の式と等価である。
【0529】
【0530】
また、式(16b)を考慮して、式(81)は、以下の式と等価である。
【0531】
【0532】
実施形態に従って、最後のパルスの後の完全なピッチサイクルにおいて除去(または追加)するべきサンプルの数が以下の式により与えられると仮定し得る。
【0533】
【0534】
式(74)および式(83)から、以下のとおりである。
【0535】
【0536】
式(82)および式(84)から、以下のとおりである。
【0537】
【0538】
式(85)は、以下の式と等価である。
【0539】
【0540】
また、式(86)は、以下の式と等価である。
【0541】
【0542】
さらに、式(87)は、以下の式と等価である。
【0543】
【0544】
式(16b)および式(88)から、以下のようになる。
【0545】
【0546】
式(89)は、以下の式と等価である。
【0547】
【0548】
また、式(90)は以下の式と等価である。
【0549】
【0550】
さらに、式(91)は、以下の式と等価である。
【0551】
【0552】
また、式(92)は、以下の式と等価である。
【0553】
【0554】
式(93)から、以下のとおりである。
【0555】
【0556】
このように、たとえば、式(94)に基づき、実施形態に従えば、以下のとおりである。
【0557】
・第1のパルスの前で除去されるべきかつ/または加えられるべきサンプルの数が計算され、かつ/または
・パルス間で除去されるべきかつ/または加えられるべきサンプルの数が計算されかつ/または
・最後のパルスの後で除去されるべきかつ/または加えられるべきサンプルの数が計算される。
【0558】
いくつかの実施形態によれば、サンプルは、たとえば、最小エネルギ領域において除去されるかまたは加えられ得る。
【0559】
式(85)および式(94)から、以下のとおりになる。
【0560】
【0561】
式(95)は、以下の式と等価である。
【0562】
【0563】
また、式(84)および式(94)から、以下のとおりである。
【0564】
【0565】
式(97)は、以下の式と等価である。
【0566】
【0567】
ある実施の形態によれば、最後のパルスの後に除去されるべきサンプルの数は、以下の式に従って、式(97)に基づいて計算することができる。
【0568】
【0569】
なお、実施形態によれば、Δp
0、ΔiおよびΔp
k+1は正で、かつsの符号が、サンプルが加えられるか除去されるかを決定する。
【0570】
複雑さを理由に、いくつかの実施形態では、整数個のサンプルを加えるかまたは除去することが望ましく、そのような実施形態においては、Δp
0、ΔiおよびΔp
k+1が、たとえば、丸められ得る。他の実施形態では、たとえば波形内挿を用いる他のコンセプトも代替的または付加的に使用して、丸めを回避できるが、複雑さは増大する。
【0571】
以下では、実施形態に従うパルス再同期化のためのアルゴリズムについて式(100)から式(113)を参照して説明する。
【0572】
実施形態によれば、このようなアルゴリズムの入力パラメータは、たとえば以下のとおりである。
【0573】
L フレーム長さ
M サブフレームの数
Tp 最後に受信したフレームの終りのピッチサイクル長さ
Text 封じ込められたフレームの終りのピッチサイクル長さ
src_exc 上記のとおり最後に受信したフレームの終りから励振信号のローパスフィルタ処理された最後のピッチサイクルをコピーして作られた入力励振信号
dst_exc パルス再同期化についてここに記載のアルゴリズムを使用してsrc_excから作られる出力励振信号。
【0574】
実施形態によれば、このようなアルゴリズムは、以下のステップの1以上または全部を含み得る。
【0575】
・式(65)に基づいて、サブフレーム当たりのピッチの変化を計算する。
【0576】
【0577】
・式(15b)に基づき、丸められた開始ピッチを計算する。
【0578】
【0579】
・式(69)に基づき、加えられるべき(負の場合には除去すべき)サンプルの数を計算する。
【0580】
【0581】
・励振src_excの構成された周期的部分における第1のTr個のサンプルから、第1の最大パルスT[0]の場所を見つける。
【0582】
・式(73)に基づき再同期化されたフレームdst_excにおける最後のパルスのインデクスを取得する。
【0583】
【0584】
・式(94)に基づいて、連続するサイクルの間で加えるかまたは除去すべきサンプルのa-Δを計算する。
【0585】
【0586】
・式(96)に基づいて第1のパルスの前に加えるかまたは除去すべきサンプルの数を計算する。
【0587】
【0588】
・第1のパルスの前に加えるかまたは除去すべきサンプルの数を丸めて、小数部分をメモリに維持する。
【0589】
【0590】
・2つのパルス間の各領域について、式(98)に基づいて加えるかまたは除去すべきサンプルの数を計算する。
【0591】
【0592】
・前回の丸めの時の残余の小数部分を考慮に入れて、2つのパルス間で加えるかまたは除去すべきサンプルの数を丸める。
【0593】
【0594】
・いくつかのiについて、加えられたFにより、Δ’
i>Δ’
i-1となる場合、これらの値をΔ’
iおよびΔ’
i-1に交換する。
【0595】
・式(99)に基づいて、最後のパルス後に加えられるかまたは除去されるべきサンプルの数を計算する。
【0596】
【0597】
・次いで、最小エネルギ領域の間で加えられるまたは除去されるべきサンプルの最大数を計算する。
【0598】
【0599】
・長さΔ’
maxのsrc_excにおける最初の2つのパルスの間の最小エネルギセグメントPmin[1]の場所を見つける。2つのパルスの間のすべての連続する最小エネルギセグメントについて、位置を以下の式により計算する。
【0600】
【0601】
・Pmin[1]>Trなら、Pmin[0]=Pmin[1]-Trを用いて、src_excにおける最初のパルスの前の最小エネルギセグメントの場所を計算する。さもなければ、長さΔ’
0を有するsrc_excにおける最初のパルスの前の最小エネルギセグメントPmin[0]の場所を見つける。
・Pmin[1]+kTr<L-sならば、Pmin[k+1]=Pmin[1]+kTrを用いて、src_excにおける最後のパルス後の最小エネルギセグメントの場所を計算する。さもなければ、長さΔ’k+1を有するsrc_excにおける最後のパルス後の最小エネルギセグメントPmin[k+1]の場所を見つける。
【0602】
・封じ込められた励振信号dst_excにおいてパルスが1つしか存在しない場合には、すなわちk=0の場合、Pmin[1]のサーチをL-sに限定する。その場合、Pmin[1]は、src_excにおける最後のパルス後の最小エネルギセグメントの場所を指す。
【0603】
s>0の場合、場所Pmin[i](0≦i≦k+1)で、信号src_excにΔ’i個のサンプルを追加し、それをdst_excに格納し、さもなければ、s<0の場合、場所Pmin[i](0≦i≦k+1)でΔ’i個のサンプルを信号src_excから除去して、それをdst_extに格納する。サンプルが加えられたり除去されるk+2の領域が存在する。
【0604】
図2cは、実施形態に従って音声信号を含むフレームを再構成するためのシステムを示す図である。このシステムは、上記の実施形態の1つに従って、推定ピッチラグを決定するための装置100およびフレームを再構成するための装置200を含み、フレームを再構成するための装置が、推定ピッチラグに依拠してフレームを再構成するよう構成される。推定ピッチラグは、音声信号のピッチラグである。
【0605】
ある実施形態において、再構成されたフレームは、たとえば、1以上の入手可能なフレームと関連し得るが、前記1以上の入手可能なフレームは、再構成されたフレームの1以上の先行フレームおよび再構成されたフレームの1以上の後続フレームのうちの1以上のフレームであり、1以上の入手可能なフレームは、1以上の入手可能なピッチサイクルとして1以上のピッチサイクルを含む。フレームを再構成するための装置200は、たとえば、上記実施形態の1つによるフレームを再構成するための装置であり得る。
【0606】
いくつかの態様について、装置に関連して説明したが、これらの態様が対応する方法の説明も表すことは明らかであり、その場合、ブロックまたは装置が方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップに関連して説明した態様も、対応の装置の対応のブロックもしくはアイテムまたは特徴の説明を表す。
【0607】
発明の分解された信号は、デジタル記憶媒体に記憶されるかまたは無線送信媒体またはインターネット等の有線送信媒体等の送信媒体で送信され得る。
【0608】
特定の実装要件に依拠して、発明の実施形態を、ハードウェアまたはソフトウェアで実装することができる。実装は、それぞれの方法が実行されるように、プログラマブルコンピュータシステムと協働する(または協働することができる)電子的に可読な制御信号を記憶した、フロッピー(登録商標)ディスク、DVD,CD,ROM,PROM,EPROM,EEPROMまたはフラッシュメモリ等のデジタル記憶媒体を用いて行うことができる。
【0609】
発明によるいくつかの実施形態は、本件明細書に記載の方法の1つを実行するように、プログラマブルコンピュータシステムと協働することができる、電子的に可読な制御信号を有する非一時的データキャリアを含む。
【0610】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実現することが可能で、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の1つを実行するように動作する。プログラムコードは、たとえば、機械可読なキャリア上に記憶することができる。
【0611】
他の実施形態は、機械可読なキャリア上に記憶される、本件明細書に記載の方法の1つを実行するためのコピュータプログラムを含む。
【0612】
したがって、言い換えれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行された時に、本件明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0613】
したがって、本発明の方法の他の実施形態は、本件明細書中に記載の方法の1つを実行するためのコンピュータプログラムを記録するデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
【0614】
したがって、本発明の方法の他の実施形態は、本件明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、インターネットを経由する等データ通信接続を経由して転送されるように構成され得る。
【0615】
他の実施形態は、たとえば、本件明細書に記載の方法の1つを実行するよう構成または適合されたコンピュータまたはプログラマブル論理装置等の処理手段を含む。
【0616】
他の実施形態は、本件明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
【0617】
いくつかの実施形態において、プログラマブル論理装置(フィールドプログラマブルゲートアレイ等)を使用して、本件明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイが、本件明細書に記載の方法の1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、なんらかのハードウェア装置により実行されることが好ましい。
【0618】
上記の実施形態は、本発明の原則を説明するに過ぎない。当業者には、本件明細書に記載の構成および詳細の変形例および修正例が明らかになることは当然である。したがって、特許請求の範囲によってのみ限定され、本件明細書における実施形態の記載および説明により提示される特定の詳細によっては限定されないことを意図する。