(58)【調査した分野】(Int.Cl.,DB名)
前記デジタル信号は、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含み、周波数ドメイン符号化または時間ドメイン符号化を選択するステップは、
前記符号化ビットレートが下方ビットレート限界より低いとき、前記デジタル信号を符号化するために時間ドメイン符号化を選択するステップを含む、請求項1に記載の方法。
前記デジタル信号は、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含み、周波数ドメイン符号化または時間ドメイン符号化を選択するステップは、
符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であるとき、前記デジタル信号を符号化するために周波数ドメイン符号化を選択するステップであって、発声の周期性は低い、ステップを含む、請求項1に記載の方法。
前記デジタル信号は、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含まず、周波数ドメイン符号化または時間ドメイン符号化を選択するステップは、
前記デジタル信号が無声音声または通常の音声として分類されるとき、前記デジタル信号を符号化するために時間ドメイン符号化を選択するステップを含む、請求項1に記載の方法。
前記デジタル信号は、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含み、周波数ドメイン符号化または時間ドメイン符号化を選択するステップは、
符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であり、発声の周期性がたいへん強いとき、前記デジタル信号を符号化するために時間ドメイン符号化を選択するステップを含む、請求項1に記載の方法。
前記選択された周波数ドメイン符号化または前記選択された時間ドメイン符号化を使用して前記デジタル信号を符号化するステップをさらに含む、請求項1に記載の方法。
前記デジタル信号の前記ピッチラグに基づいて、周波数ドメイン符号化または時間ドメイン符号化を選択するステップは、たいへん低い周波数エネルギーの欠如を検出するためのパラメータまたはスペクトルの鋭さについてのパラメータを決定することに基づいて、短いピッチ信号について検出するステップを含む、請求項1に記載の方法。
オーディオデータを含むデジタル信号をエンコードする前に音声信号を処理するための装置であって、前記デジタル信号を符号化するために使用されるべき符号化ビットレートおよび前記デジタル信号の短いピッチラグの検出に基づいて、周波数ドメイン符号化または時間ドメイン符号化を選択するように構成された符号化セレクタを含み、前記短いピッチラグの検出は、前記デジタル信号が、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含むかどうかを検出することを含み、前記ピッチラグ限界は、前記デジタル信号を符号化するための符号励振線形予測(CELP)アルゴリズムのために最小の許容可能なピッチである装置。
前記デジタル信号が、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含むとき、前記符号化セレクタは、
前記符号化ビットレートが下方ビットレート限界より低いとき、前記デジタル信号を符号化するために時間ドメイン符号化を選択するように構成された、請求項11に記載の装置。
前記デジタル信号が、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含むとき、前記符号化セレクタは、
符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であるとき、前記デジタル信号を符号化するために周波数ドメイン符号化を選択するように構成され、発声の周期性は低い、請求項11に記載の装置。
前記デジタル信号が、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含まないとき、前記符号化セレクタは、
前記デジタル信号が無声音声または通常の音声として分類されるとき、前記デジタル信号を符号化するために時間ドメイン符号化を選択するように構成された、請求項11に記載の装置。
前記デジタル信号が、短いピッチ信号であって、前記短いピッチ信号についての前記ピッチラグがピッチラグ限界より短い、短いピッチ信号を含むとき、前記符号化セレクタは、
符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であり、発声の周期性がたいへん強いとき、前記デジタル信号を符号化するために時間ドメイン符号化を選択するように構成された、請求項11に記載の装置。
前記装置は、前記セレクタによって選択された前記周波数ドメイン符号化または前記セレクタによって選択された前記時間ドメイン符号化を使用して前記デジタル信号を符号化するように構成された符号化ユニットをさらに含む、請求項11に記載の装置。
【発明を実施するための形態】
【0018】
現代のオーディオ/音声デジタル信号通信システムにおいて、デジタル信号はエンコーダにおいて圧縮され、圧縮された情報またはビットストリームはパケット化され、通信チャネルを通してフレーム毎にデコーダに送られることが可能である。デコーダは圧縮された情報を受信およびデコードしてオーディオ/音声デジタル信号を取得する。
【0019】
現代のオーディオ/音声デジタル信号通信システムにおいて、デジタル信号はエンコーダにおいて圧縮され、圧縮された情報またはビットストリームはパケット化され、通信チャネルを通してフレーム毎にデコーダに送られることが可能である。エンコーダおよびデコーダの両方一緒のシステムはコーデックと呼ばれる。音声/オーディオ圧縮は、音声/オーディオ信号を表現するビット数を減少させるために使用されることが可能であり、それにより送信のために必要な帯域幅および/またはビットレートを減少させる。一般に、より高いビットレートは結果としてより高いオーディオ品質となり、一方、より低いビットレートは結果としてより低いオーディオ品質となるであろう。
【0020】
図1は、従来のCELPエンコーダを使用したオリジナルの音声のエンコードの間に行われる動作を説明する。
【0021】
図1は、従来の初期のCELPエンコーダを説明し、ここで、合成された音声102とオリジナルの音声101の間の重み付けされた誤差109は、しばしば分析・合成アプローチを使用することによって最小化され、これは、エンコード(分析)が閉ループにおいてデコードされた(合成)信号を知覚的に最適化することによって行われることを意味する。
【0022】
すべての音声符号化器が利用する基本的な原理は、音声信号は非常に相互関係がある波形であるという事実である。説明のように、音声は自己回帰(AR)モデルを使用して下記の式(1)におけるように表現されることが可能である。
【0024】
式(
1)において、各サンプルは、前のP個のサンプルの線形結合に白色雑音を加えたものとして表現される。重みづけ係数a
1, a
2, ... a
Pは、線形予測係数(Linear Prediction Coefficient、LPC)と呼ばれる。各フレームについて、重みづけ係数a
1, a
2, ... a
Pは、上記のモデルを使用して作り出された{X
1, X
2, ... , X
N}のスペクトルが入力音声フレームのスペクトルと密接に合致するように選ばれる。
【0025】
その代わりに、音声信号は、調波モデルと雑音モデルの組み合わせによって表現されることも可能である。モデルの調波部分は、事実上、信号の周期的成分のフーリエ級数表現である。一般に、有声信号について、音声の調波に雑音を加えたモデルは、調波および雑音の両方の混合からなる。有声音声における調波および雑音の比率は、話者の特性(例えば、どの程度まで話者の声が通常か、または気息音か)、音声セグメント特色(例えば、どの程度まで音声セグメントが周期的か)を含むいくつかの因子、および周波数に依存する。有声音声のより高い周波数は、雑音のような成分のより高い比率を有する。
【0026】
線形予測モデルおよび調波雑音モデルは、音声信号のモデル化および符号化のための2つの主な方法である。線形予測モデルは、音声のスペクトル包絡線をモデル化することに特に良好であり、一方、調波雑音モデルは、音声の微細な構造をモデル化することに良好である。2つの方法は、それらの相対的な強さを利用するために組み合わされ得る。
【0027】
前に示したように、CELP符号化の前に、ハンドセットのマイクロホンへの入力信号は、例えば、毎秒8000サンプルのレートでフィルタリングおよびサンプリングされる。そして、各サンプルは、例えば、サンプル毎に13ビットで量子化される。サンプリングされた音声は、20ミリ秒(例えば、この場合、160個のサンプル)のセグメントまたはフレームにセグメント化される。
【0028】
音声信号は分析され、そのLPモデル、励振信号、およびピッチが抽出される。LPモデルは音声のスペクトル包絡線を表現する。それは、一組の線スペクトル周波数(line spectral frequencies、LSF)係数に変換され、これは、LSF係数が良好な量子化の特質を有するので、線形予測パラメータの代わりの表現である。LSF係数はスカラー量子化されることが可能であり、またはより効率的に、それらは、前にトレーニングされたLSFベクトルコードブックを使用してベクトル量子化されることが可能である。
【0029】
符号励振は、コードベクトルを含むコードブックを含み、コードベクトルは、各コードベクトルがほぼ「白色」スペクトルを有し得るように、全て独立に選ばれる成分を有する。入力音声の各サブフレームについて、コードベクトルの各々は短期線形予測フィルタ103および長期予測フィルタ105を通してフィルタリングされ、出力は音声サンプルと比較される。各サブフレームにおいて、その出力が入力音声と最良に合致する(最小化された誤差)コードベクトルは、そのサブフレームを表現するために選ばれる。
【0030】
符号化された励振108は、通常、パルスのような信号または雑音のような信号を含み、それらは、数学的に構築され、またはコードブック内にセーブされる。コードブックはエンコーダおよび受信デコーダの両方に利用可能である。確率的なまたは固定のコードブックであり得る符号化された励振108は、コーデックに(黙示的または明示的に)ハードコードされたベクトル量子化辞書であり得る。そのような固定のコードブックは、代数符号励振線形予測であり、または明示的に記憶され得る。
【0031】
コードブックからのコードベクトルは、エネルギーを入力音声のエネルギーに等しくするために適切な利得によってスケーリングされる。従って、符号化された励振108の出力は、線形フィルタを通過する前に利得G
c 107によってスケーリングされる。
【0032】
短期線形予測フィルタ103は、入力音声のスペクトルと似るようにコードベクトルの「白色」スペクトルを整形する。等価的に、時間ドメインにおいて、短期線形予測フィルタ103は、白色系列に短期相関(前のサンプルとの相関)を組み込む。励振を整形するフィルタは、形式1/A(z)(短期線形予測フィルタ103)の全極モデルを有し、ここでA(z)は、予測フィルタと呼ばれ、線形予測(例えば、Levinson-Durbinアルゴリズム)を使用して取得され得る。1つ以上の実施例において、人間の声道の良好な表現であるので、かつ計算することが容易であるので、全極フィルタが使用され得る。
【0033】
短期線形予測フィルタ103は、オリジナルの信号101を分析することによって取得され、一組の係数によって表現される。
【0035】
前に記載されたように、有声音声の領域は長期の周期性を示す。ピッチとして知られるこの期間は、ピッチフィルタ1/(B(z))によって、合成されたスペクトルに導入される。長期予測フィルタ105の出力は、ピッチおよびピッチ利得に依存する。1つ以上の実施例において、ピッチは、オリジナルの信号、残差信号、または重み付けされたオリジナルの信号から推定され得る。一実施例において、長期予測関数(B(z))は式(3)を使用して下記のように表現され得る。
【0037】
重み付けフィルタ110は、上記の短期予測フィルタに関連する。典型的な重み付けフィルタの1つは、式(4)において記載されたように表現され得る。
【0039】
他の実施例において、重み付けフィルタW(z)は、下記の式(5)における一実施例において説明されるように帯域幅拡張の使用によってLPCフィルタから導き出され得る。
【0041】
式(5)において、γ1 > γ2であり、これらは因子であり、これらの因子を用いて極が原点に向かって移動される。
【0042】
従って、音声のフレーム毎に、LPCおよびピッチが計算され、フィルタが更新される。音声のサブフレーム毎に、「最良の」フィルタリングされた出力を生成するコードベクトルが、サブフレームを表現するために選ばれる。利得の対応する量子化された値が、正しいデコードのためにデコーダに送信されなければならない。LPCおよびピッチの値も、デコーダにおいてフィルタを再構築するために、量子化され、フレーム毎に送られなければならない。従って、符号化された励振インデックス、量子化された利得インデックス、量子化された長期予測パラメータインデックス、および量子化された短期予測パラメータインデックスがデコーダに送信される。
【0043】
図2は、CELPデコーダを使用したオリジナルの音声のデコードの間に行われる動作を説明する。
【0044】
音声信号は、受信されたコードベクトルを、対応するフィルタを通過させることによって、デコーダにおいて再構築される。従って、後処理を除くどのブロックも、
図1のエンコーダにおいて記載されたように同じ定義を有する。
【0045】
符号化されたCELPビットストリームは、受信デバイスにおいて受信され、アンパックされる80。受信された各サブフレームについて、受信された、符号化された励振インデックス、量子化された利得インデックス、量子化された長期予測パラメータインデックス、および量子化された短期予測パラメータインデックスは、対応するデコーダ、例えば、利得デコーダ81、長期予測デコーダ82、および短期予測デコーダ83を使用して対応するパラメータを見出すために使用される。例えば、励振パルスの位置および振幅の符号、および符号励振402の代数符号ベクトルは、受信された、符号化された励振インデックスから決定され得る。
【0046】
図2を参照すると、デコーダは、符号化された励振201、長期予測203、短期予測205を含むいくつかのブロックの組み合わせである。初期のデコーダは、合成された音声206の後に後処理ブロック207をさらに含む。後処理は、短期後処理および長期後処理をさらに含み得る。
【0047】
図3は、従来のCELPエンコーダを説明する。
【0048】
図3は、長期線形予測を改善するために追加の適応コードブックを用いた基本CELPエンコーダを説明する。前に記載されたように、確率的なまたは固定のコードブックであり得る適応コードブック307および符号励振308からの寄与を加算することによって励振が生成される。適応コードブックにおけるエントリは、励振の遅延されたバージョンを含む。これは有声音のような周期的な信号を効率的に符号化することを可能にする。
【0049】
図3を参照すると、適応コードブック307は、過去の合成された励振304、またはピッチ期間で過去の励振ピッチ周期を繰り返すことを含む。ピッチラグは、それが大きいまたは長いとき、整数値にエンコードされ得る。ピッチラグは、それが小さいまたは短いとき、より正確な分数値にしばしばエンコードされる。ピッチの周期的な情報は、励振の適応成分を作り出すために利用される。そして、この励振成分は、利得G
p 305(ピッチ利得とも呼ばれる)によってスケーリングされる。
【0050】
有声音声は強い周期性を有するので、長期予測は、有声音声の符号化のためにたいへん重要な役割を果たす。有声音声の隣接するピッチ周期は互いに類似し、これは、数学的に、続く励振表現におけるピッチ利得G
pが高いまたは1に近いことを意味する。結果としての励振は、個々の励振の組み合わせとして式(6)におけるように表現され得る。
【0052】
ここでe
p(n)は、フィードバックループ(
図3)を通した過去の励振304を含む適応コードブック307から来る、nによってインデックス付けされるサンプル列の1つのサブフレームである。低周波数領域は、しばしば、高周波数領域より周期的またはより調波的であるので、e
p(n)は、適応的にローパス・フィルタリングされ得る。e
c(n)は、現在の励振の寄与である符号化された励振コードブック308(固定のコードブックとも呼ばれる)からのものである。さらに、e
c(n)はまた、ハイパス・フィルタリング強化、ピッチ強化、分散強化、フォルマント強化、および他のものを使用することなどによって強化され得る。
【0053】
有声音声について、適応コードブック307からのe
p(n)の寄与は支配的である可能性があり、ピッチ利得G
p 305は約1の値である。励振は、通常、サブフレーム毎に更新される。典型的なフレームサイズは20ミリ秒であり、典型的なサブフレームサイズは5ミリ秒である。
【0054】
図1に記載されたように、固定の符号化された励振308は、線形フィルタを通過する前に利得G
c 306によってスケーリングされる。固定の符号化された励振308および適応コードブック307からの2つのスケーリングされた励振成分は、短期線形予測フィルタ303を通してフィルタリングする前に一緒に加算される。2つの利得(G
pおよびG
c)は量子化され、デコーダに送信される。従って、符号化された励振インデックス、適応コードブックインデックス、量子化された利得インデックス、および量子化された短期予測パラメータインデックスが受信オーディオデバイスに送信される。
【0055】
図3において説明されたデバイスを使用して符号化されたCELPビットストリームは、受信デバイスにおいて受信される。
図4は、受信デバイスの対応するデコーダを説明する。
【0056】
図4は、
図3におけるエンコーダに対応する基本的なCELPデコーダを説明する。
図4は、主デコーダから合成された音声407を受信する後処理ブロック408を含む。このデコーダは、適応コードブック307を除いて
図3に類似する。
【0057】
受信されたサブフレーム毎に、受信された、符号化された励振インデックス、量子化された符号化された励振利得インデックス、量子化されたピッチインデックス、量子化された適応コードブック利得インデックス、および量子化された短期予測パラメータインデックスが、対応するデコーダ、例えば、利得デコーダ81、ピッチデコーダ84、適応コードブック利得デコーダ85、および短期予測デコーダ83を使用して対応するパラメータを見出すために使用される。
【0058】
様々な実施例において、CELPデコーダは、いくつかのブロックの組み合わせであり、符号化された励振402、適応コードブック401、短期予測406、および後処理408を含む。後処理を除くどのブロックも
図3のエンコーダにおいて記載されたのと同じ定義を有する。後処理は、短期後処理および長期後処理をさらに含み得る。
【0059】
符号励振ブロック(
図3においてラベル308、
図4において402で参照される)は、一般のCELP符号化のための固定のコードブック(Fixed Codebook、FCB)の位置を説明する。FCBからの選択されたコードベクトルは、しばしばG
c 306として示される利得によってスケーリングされる。
【0060】
図5および
図6は、図式的な音声信号の例、および時間ドメインにおけるフレームサイズおよびサブフレームサイズとのそれの関係を説明する。
図5および
図6は複数のサブフレームを含むフレームを説明する。
【0061】
入力音声のサンプルは、サンプルのブロックに分割され、各々は、フレームと呼ばれ、例えば、80〜240個のサンプルまたはフレームである。各フレームは、サンプルのより小さいブロックに分割され、各々は、サブフレームと呼ばれる。8 kHz、12.8 kHz、または16 kHzのサンプリングレートで、音声符号化アルゴリズムは、名目のフレーム持続期間が、10から30ミリ秒の範囲内にあり、典型的に20ミリ秒であるようなものである。説明された
図5において、フレームは、フレームサイズ1およびサブフレームサイズ2を有し、ここで各フレームは4個のサブフレームに分割される。
【0062】
図5および
図6の下方または下の部分を参照すると、音声における有声領域は、時間ドメイン表現においてほぼ周期的な信号のように見える。話者の声帯ひだの周期的な開閉は、結果として有声音声信号における調波構造となる。従って、時間の短い期間にわたって、有声音声セグメントは、全ての実際上の分析および処理のために周期的であるように取り扱われ得る。そのようなセグメントに関連付けられた周期性は、時間ドメインにおいて「ピッチ期間」または単に「ピッチ」、周波数ドメインにおいて「ピッチ周波数または基本周波数f
0」として定義される。ピッチ期間の逆数は、音声の基本周波数である。用語、ピッチおよび音声の基本周波数は、頻繁に交換可能に使用される。
【0063】
たいていの有声音声について、1つのフレームは2つより多くのピッチ周期を含む。
図5は、ピッチ期間3がサブフレームサイズ2より小さい例をさらに説明する。対照的に、
図6は、ピッチ期間4がサブフレームサイズ2より大きく、半分のフレームサイズより小さい例を説明する。
【0064】
音声信号をより効率的にエンコードするために、音声信号は、異なるクラスに分類されることが可能であり、各クラスは異なるやり方でエンコードされる。例えば、G.718、VMR-WB、またはAMR-WBのようないくつかの標準において、音声信号は、無声(UNVOICED)、過渡(TRANSITION)、一般(GENERIC)、有声(VOICED)、および雑音(NOISE)に分類される。
【0065】
各クラスについて、LPCまたはSTPフィルタがスペクトル包絡線を表現するために常に使用される。しかし、LPCフィルタへの励振は異なり得る。UNVOICEDおよびNOISEクラスは、雑音励振およびいくつかの励振強化を用いて符号化され得る。TRANSITIONクラスは、適応コードブックまたはLTPを使用することなく、パルス励振およびいくつかの励振強化を用いて符号化され得る。
【0066】
GENERICは、1つの20ミリ秒フレームが4つの5ミリ秒サブフレームを含むG.729またはAMR-WBにおいて使用される代数CELPのような伝統的なCELPアプローチを用いて符号化され得る。両方の適応コードブック励振成分および固定のコードブック励振成分は、各サブフレームについていくつかの励振強化を用いて生成される。1番目および3番目のサブフレームにおける適応コードブックのためのピッチラグは、最小ピッチ限界PIT_MINから最大ピッチ限界PIT_MAXまでの全範囲内で符号化される。2番目および4番目のサブフレームにおける適応コードブックのためのピッチラグは、前の符号化されたピッチラグとは異なって符号化される。
【0067】
VOICEDクラスは、それらがGENERICクラスとはやや異なるようなやり方で符号化され得る。例えば、1番目のサブフレームにおけるピッチラグは、最小ピッチ限界PIT_MINから最大ピッチ限界PIT_MAXまでの全範囲内で符号化され得る。他のサブフレームにおけるピッチラグは、前の符号化されたピッチラグとは異なって符号化され得る。説明のように、励振サンプリングレートが12.8 kHzであると仮定すると、例示のPIT_MINの値は34であることが可能であり、PIT_MAXは231であることが可能である。
【0068】
時間ドメイン符号化および周波数ドメイン符号化の分類を改善するための本発明の実施例がここで記載される。
【0069】
一般的に言って、かなり高いビットレート(例えば、24 kbps <= ビットレート <= 64 kbps)で最良の品質を達成するために、音声信号のために時間ドメイン符号化、および音楽信号のために周波数ドメイン符号化を使用することがより良い。しかし、短いピッチ信号、歌っている音声信号、またはたいへん雑音の多い音声信号のようないくつかの特定の音声信号について、周波数ドメイン符号化を使用することがより良い可能性がある。たいへん周期的な信号のようないくつかの特定の音楽信号について、たいへん高いLTP利得から利益を得ることによって時間ドメイン符号化を使用することがより良い可能性がある。ビットレートは分類のために重要なパラメータである。通常、時間ドメイン符号化は低いビットレートに好都合であり、周波数ドメイン符号化は高いビットレートに好都合である。時間ドメイン符号化と周波数ドメイン符号化の間の最良の分類または選択は、ビットレート範囲および符号化アルゴリズムの特性も考慮して注意深く決定される必要がある。
【0070】
次のセクションにおいて、通常の音声および短いピッチ信号の検出が記載される。
【0071】
通常の音声は、歌っている音声信号、短いピッチの音声信号、または音声/音楽の混合信号を除く音声信号である。通常の音声は、スペクトルおよび/またはエネルギーがたいていの音楽信号より速く変化する、速く変化する音声信号でもあり得る。通常の音声信号を符号化するために、通常、時間ドメイン符号化アルゴリズムは周波数ドメイン符号化アルゴリズムより良い。下記は通常の音声信号を検出するための例示のアルゴリズムである。
【0072】
ピッチ候補Pについて、正規化されたピッチ相関は、式(8)におけるような数学的形式においてしばしば定義される。
【0074】
式(8)において、s
w(n)は重み付けされた音声信号であり、分子は相関であり、分母はエネルギー正規化因子である。Voicingが、現在の音声フレームにおける4つのサブフレームの平均の正規化されたピッチ相関値を示すと仮定すると、Voicingは下記の式(9)におけるように計算され得る。
Voicing = [ R
1(P
1) + R
2(P
2) + R
3(P
3) + R
4(P
4) ] / 4 (9)
【0075】
R
1(P
1)、R
2(P
2)、R
3(P
3)、およびR
4(P
4)は、各サブフレームについて計算された4つの正規化されたピッチ相関であり、各サブフレームについてのP
1、P
2、P
3、およびP
4は、P=PIT_MINからP=PIT_MAXまでのピッチ範囲内で見出された最良のピッチ候補である。前のフレームから現在のフレームまでの平滑化されたピッチ相関は、式(10)におけるように計算されることが可能である。
【0077】
式(10)において、VADは声の活動の検出(Voice Activity Detection)であり、VAD=1は音声信号が存在することを示す。F
sがサンプリングレートであると仮定すると、たいへん低い周波数領域[0, F
MIN=F
s / PIT_MIN] (Hz)における最大エネルギーはEnergy0 (dB)であり、低い周波数領域[F
MIN , 900] (Hz)における最大エネルギーはEnergy1 (dB)であり、高い周波数領域[5000
, 5800] (Hz)における最大エネルギーはEnergy3 (dB)であり、スペクトル傾斜パラメータTiltは下記のように定義される。
Tilt = energy3 - max{energy0,energy1} (11)
【0078】
平滑化されたスペクトル傾斜パラメータは式(12)におけるように示される。
【0080】
現在のフレームおよび前のフレームの差分スペクトル傾斜は、式(13)におけるように与えられ得る。
Diff_tilt = │tilt - old_tilt│ (13)
【0081】
平滑化された差分スペクトル傾斜は、式(14)におけるように与えられる。
【0083】
現在のフレームおよび前のフレームの差分低周波数エネルギーは、
Diff_energy1 = │energy1 - old_energy1│ (15)
である。
【0084】
平滑化された差分エネルギーは、式(16)によって与えられる。
【0086】
加えて、Speech_flagとして示される通常の音声フラグは、式(17)において提供されるようにエネルギー変動Diff_energy1_sm、発声変動Voicing_sm、およびスペクトル傾斜変動Diff_tilt_smを考慮することによって、有声領域の間に決定され、変更される。
【0088】
短いピッチ信号を検出するための本発明の実施例が記載される。
【0089】
たいていのCELPコーデックは、通常の音声信号について、十分に作動する。しかし、低いビットレートのCELPコーデックは、音楽信号および/または歌っている声の信号について、しばしば機能しない。ピッチ符号化範囲がPIT_MINからPIT_MAXまでであり、実際のピッチラグがPIT_MINより小さいならば、CELP符号化の性能は、2倍ピッチまたは3倍ピッチのために知覚的に悪い可能性がある。例えば、F
s=12.8 kHzのサンプリング周波数についてPIT_MIN=34からPIT_MAX=231までのピッチ範囲は、たいていの人間の声に適応する。しかし、通常の音楽または歌っている有声信号の実際のピッチラグは、上記の例示のCELPアルゴリズムにおいて定義された最小限界PIT_MIN=34よりずっと短い可能性がある。
【0090】
実際のピッチラグがPであるとき、対応する正規化された基本周波数(または第1調波)はf
0=F
s / Pであり、ここでF
sはサンプリング周波数であり、f
0はスペクトルにおける第1調波ピークの位置である。従って、与えられたサンプリング周波数について、最小ピッチ限界PIT_MINは、実際、CELPアルゴリズムについて最大基本調波周波数限界F
M=F
s / PIT_MINを定義する。
【0091】
図7は、オリジナルの有声広帯域スペクトルの例を説明する。
図8は、倍増ピッチラグ符号化を使用した
図7において説明されたオリジナルの有声広帯域スペクトルの符号化された有声広帯域スペクトルを説明する。言い換えると、
図7は符号化の前のスペクトルを説明し、
図8は符号化の後のスペクトルを説明する。
【0092】
図7に表わされた例において、スペクトルは調波ピーク701およびスペクトル包絡線702によって形成される。実際の基本調波周波数(第1調波ピークの位置)は、最大基本調波周波数限界F
Mを既に超えているので、CELPアルゴリズムのための送信されたピッチラグは実際のピッチラグに等しいことが可能でなく、それは実際のピッチラグの2倍または複数倍であり得る。
【0093】
実際のピッチラグの複数倍で送信された誤ったピッチラグは、明白な品質劣化を引き起こし得る。言い換えると、調波音楽信号または歌っている声の信号についての実際のピッチラグがCELPアルゴリズムにおいて定義された最小ラグ限界PIT_MINより小さいとき、送信されたラグは、実際のピッチラグの2倍、3倍、または複数倍であり得る。
【0094】
結果として、送信されたピッチラグを有する符号化された信号のスペクトルは、
図8に表わされたようであり得る。正しいスペクトルは
図7におけるもののようであるべきであるが、
図8に説明されたように、調波ピーク8011およびスペクトル包絡線802を含む他に、実際の調波ピークの間の望まない小さなピーク803が見られ得る。
図8におけるそれらの小さなスペクトルのピークは不快な知覚の歪みを引き起こし得る。
【0095】
本発明の実施例によれば、CELPがいくつかの特定の信号について機能しないときこの課題を解決するための1つの解決策は、時間ドメイン符号化に代えて周波数ドメイン符号化が使用されることである。
【0096】
通常、音楽調波信号または歌っている声の信号は、通常の音声信号より安定している。通常の音声信号のピッチラグ(または基本周波数)は、常に変化することを維持する。しかし、音楽信号または歌っている声の信号のピッチラグ(または基本周波数)は、かなり長い時間の持続期間について相対的にゆっくり変化することをしばしば維持する。たいへん短いピッチ範囲は、PIT_MIN0からPIT_MINまで定義される。サンプリング周波数Fs=12.8 kHzにおいて、たいへん短いピッチ範囲の例示の定義は、PIT_MIN0<=17からPIT_MIN=34までであり得る。ピッチ候補はたいへん短いので、0 HzからF
MIN=Fs / PIT_MIN Hzまでのエネルギーは、相対的に十分低いはずである。声の活動の検出(Voice Activity Detection)および有声分類(Voiced Classification)のような他の条件は、短いピッチ信号の存在の検出の間に追加され得る。
【0097】
下記の2つのパラメータは、たいへん短いピッチ信号の可能性のある存在を検出することに役立ち得る。1つの特徴「たいへん低い周波数エネルギーの欠如」および他の1つの特徴「スペクトルの鋭さ」。上記で既に述べたように、周波数領域[0, F
MIN] (Hz)における最大エネルギーがEnergy0 (dB)であると仮定すると、周波数領域[F
MIN , 900] (Hz)における最大エネルギーはEnergy1 (dB)であり、Energy0とEnergy1の間の相対的なエネルギー比は下記の式(18)において提供される。
Ratio = Energy1 - Energy0 (18)
【0098】
このエネルギー比は、平均の正規化されたピッチ相関値Voicingを乗算することによって重み付けされることが可能であり、これは下記で式(19)において表わされる。
【0100】
Voicing因子を使用することによって式(19)において重み付けを行うことについての理由は、短いピッチ検出は有声音声または調波音楽について有意義であり、それは無声音声または非調波音楽について有意義でないことである。低周波数エネルギーの欠如を検出するためにRatioパラメータを使用する前に、不確実性を減少させるために式(20)におけるように平滑化されることがより良い。
【0102】
LF_lack_flag=1が低周波数エネルギーの欠如が検出されたことを意味するならば(そうでなければLF_lack_flag=0)、LF_lack_flagは下記の手順によって決定されることが可能である。
【0104】
スペクトルの鋭さに関連するパラメータは、下記のやり方で決定される。Energy1 (dB)が低周波数領域[F
MIN , 900] (Hz)における最大エネルギーであると仮定すると、i_peakは周波数領域[F
MIN ,900] (Hz)における最大エネルギー調波ピーク位置であり、Energy2 (dB)は周波数領域[i_peak, i_peak+400] (Hz)における平均エネルギーである。1つのスペクトル鋭さパラメータは、式(21)におけるように定義される。
SpecSharp = max{Energy1-Energy2, 0 } (21)
【0105】
平滑化されたスペクトル鋭さパラメータは下記のように与えられる。
【0107】
短いピッチ信号の可能性のある存在を示す1つのスペクトル鋭さフラグは、下記によって評価される。
【0109】
様々な実施例において、上記の推定されたパラメータは、時間ドメイン符号化および周波数ドメイン符号化の分類または選択を改善するために使用されることが可能である。Sp_Aud_Deci=1は周波数ドメイン符号化が選択されることを示し、Sp_Aud_Deci=0は時間ドメイン符号化が選択されることを示すと仮定する。下記の手順は異なる符号化ビットレートについて時間ドメイン符号化および周波数ドメイン符号化の分類を改善するための例示のアルゴリズムを与える。
【0110】
本発明の実施例は、高ビットレートを改善するために使用されることが可能であり、例えば、符号化ビットレートは46200 bps以上である。符号化ビットレートがたいへん高く、短いピッチ信号がおそらく存在するとき、時間ドメイン符号化は誤ったピッチ検出からの悪影響の危険にさらすが、周波数ドメイン符号化は強固で信頼できる品質を提供することが可能であるので、周波数ドメイン符号化が選択される。対照的に、短いピッチ信号が存在せず、信号が無声音声または通常の音声であるとき、時間ドメイン符号化は通常の音声信号について周波数ドメイン符号化より良い品質を提供することが可能であるので、時間ドメイン符号化が選択される。
【0112】
本発明の実施例は、例えば、符号化ビットレートが24.4 kbpsと46200 bpsの間であるとき、中間ビットレート符号化を改善するために使用され得る。短いピッチ信号がおそらく存在し、発声の周期性が低いとき、時間ドメイン符号化は低い発声の周期性からの悪影響の危険にさらすが、周波数ドメイン符号化は強固で信頼できる品質を提供することが可能であるので、周波数ドメイン符号化が選択される。短いピッチ信号が存在せず、信号が無声音声または通常の音声であるとき、時間ドメイン符号化は通常の音声信号について周波数ドメイン符号化より良い品質を提供することが可能であるので、時間ドメイン符号化が選択される。発声の周期性がたいへん強いとき、時間ドメイン符号化はたいへん強い発声の周期性を用いて高いLTP利得からたいへん利益を得ることが可能であるので、時間ドメイン符号化が選択される。
【0113】
本発明の実施例は、高いビットレートを改善するために使用されることも可能であり、例えば、符号化ビットレートは24.4 kbpsより小さい。短いピッチ信号が存在し、正しい短いピッチラグの検出を用いて発声の周期性が低くないとき、時間ドメイン符号化はLTP機能から十分に利益を得ることが可能であるが、周波数ドメイン符号化は低いレートで強固で信頼できる品質を提供することが可能でないので、周波数ドメイン符号化は選択されない。
【0114】
下記のアルゴリズムは、説明としての上記の実施例の特定の実施例を説明する。全てのパラメータは、1つ以上の実施例において前に記載されたように計算され得る。
【0117】
様々な実施例において、時間ドメイン符号化と周波数ドメイン符号化の分類または選択は、いくつかの特定の音声信号または音楽信号の知覚的な品質を著しく改善するために使用され得る。
【0118】
フィルタバンク技術に基づくオーディオ符号化は、周波数ドメイン符号化において広く使用されている。信号処理において、フィルタバンクは、入力信号を複数の成分に分離する帯域通過フィルタのアレイであり、各々のフィルタはオリジナルの入力信号の単一の周波数サブバンドを搬送する。フィルタバンクによって行われる分解のプロセスは、分析と呼ばれ、フィルタバンク分析の出力は、フィルタバンク内にフィルタが存在するのと同数のサブバンドを有するサブバンド信号として参照される。再構築プロセスはフィルタバンク合成と呼ばれる。デジタル信号処理において、用語フィルタバンクはまた、一般に、受信機のバンクに適用され、受信機のバンクはまた、サブバンドを、減少されたレートで再サンプリングされることが可能である低い中心周波数にダウンコンバートし得る。同じ合成された結果は、時々、帯域通過サブバンドをアンダーサンプリングすることによって達成されることも可能である。フィルタバンク分析の出力は、複素係数の形式であり得る。実数成分と虚数成分を有する各々の複素係数は、それぞれ、フィルタバンクの各サブバンドについてコサイン項とサイン項を表現する。
【0119】
フィルタバンク分析およびフィルタバンク合成は、時間ドメイン信号を周波数ドメイン係数に変換し、周波数ドメイン係数を時間ドメイン信号に戻す逆変換をする1つの種類の変換ペアである。音声/オーディオ符号化において、(FFTとiFFT)、(DFTとiDFT)、および(MDCTとiMDCT)のような他の普及した変換ペアも使用され得る。
【0120】
信号圧縮のためのフィルタバンクの応用において、いくつかの周波数は知覚的に他のものより重要である。分解の後に、知覚的に重要な周波数は、これらの周波数での小さな差がこれらの差を保存する符号化方式を使用することを保証するために知覚的に目立つので、微細な解像度で符号化されることが可能である。他方、あまり知覚的に重要でない周波数は、あまり正確に複製されない。従って、より微細な細部のいくつかが符号化において失われるとしても、粗い符号化方式が使用されることが可能である。典型的な粗い符号化方式は、高帯域拡張(High Band Extension、HBE)も知られている帯域幅拡張(Bandwidth Extension、BWE)の概念に基づき得る。1つの最近普及した特定のBWEまたはHBEのアプローチは、サブバンド・レプリカ(Sub Band Replica、SBR)またはスペクトル帯域レプリケーション、SBR)として知られている。これらの技法は、それらがわずかのビットレート配分で、またはビットレート配分なしで、いくつかの周波数サブバンド(通常、高帯域)をエンコードおよびデコードし、それにより通常のエンコード/デコードのアプローチより著しく低いビットレートを生じる点で類似する。SBR技術を用いて、高周波数帯域におけるスペクトルの微細な構造は、低周波数帯域からコピーされ、ランダム雑音が追加され得る。次に、高周波数帯域のスペクトル包絡線は、エンコーダからデコーダへ送信されるサイド情報を使用することによって整形される。
【0121】
オーディオ圧縮の設計のための心理音響学の原理または知覚的なマスク効果の使用は、理にかなっている。オーディオ/音声機器または通信は、全ての彼らの知覚の能力および限界を有する人間との相互作用のために意図される。伝統的なオーディオ機器は、オリジナルへの最大の忠実さを有する信号を再生することを試みる。より適切に方向付けられた、しばしばより効率的な目標は、人間による忠実な知覚可能性を達成することである。これは知覚符号化器の目標である。
【0122】
デジタルオーディオ知覚符号化器の1つの主な目標は、データの減少であるが、知覚符号化は、先進的なビット割り当てを通してデジタルオーディオの表現を改善するためにも使用され得る。知覚符号化器の例の1つは、心理音響学の重大な帯域をまねる様式でスペクトルを分割する、マルチバンドシステムであり得る。人間の知覚をモデル化することによって、知覚符号化器は、ほぼ人間が行うやり方で信号を処理し、マスキングのような現象を利用することが可能である。これはそれらの目標であるが、プロセスは正確なアルゴリズムに依存する。一般の人間の聞き取り行為をカバーするたいへん正確な知覚モデルを有することは難しいという事実のために、知覚モデルのあらゆる数学的表現の正確さは、依然として制限される。しかし、制限された正確さを有して、知覚概念はオーディオコーデックの設計において役立ってきた。多数のMPEGオーディオ符号化方式は、知覚的なマスク効果を調査することから利益を得てきた。いくつかのITU標準コーデックも知覚概念を使用している。例えば、ITU G.729.1は、知覚的なマスク概念に基づいていわゆる動的ビット割り当てを行う。知覚的な重要さに基づく動的ビット割り当ての概念は、最近の3GPP EVSコーデックにおいても使用されている。
【0123】
図9Aおよび
図9Bは、典型的な周波数ドメイン知覚コーデックの図式を説明する。
図9Aは周波数ドメインエンコーダを説明し、一方、
図9Bは周波数ドメインデコーダを説明する。
【0124】
オリジナルの信号901は、まず周波数ドメインに変換されて量子化されていない周波数ドメイン係数902を得る。係数を量子化する前に、マスク機能(知覚的な重要さ)は周波数スペクトルを多くのサブバンドに分割する(簡単さのためにしばしば等しく間隔配置される)。各サブバンドは、全てのサブバンドに分配されたビットの総数が上限を超えないことを維持しながら、必要とされるビット数を動的に割り当てる。いくつかのサブバンドは、それがマスク閾値より下であると判断されたならば、0が割り当てられ得る。何が捨てられることが可能であるかについての決定が行われると、残りは利用可能なビット数が割り当てられる。ビットはマスクされたスペクトルにおいて浪費されないので、それらはより大きな量で信号の残りに分配されることが可能である。
【0125】
割り当てられたビットに従って、係数が量子化され、ビットストリーム703はデコーダに送られる。知覚的なマスク概念はコーデック設計の間にたいへん役立ったが、様々な理由および制限のために、それは依然として完璧ではない。
【0126】
図9Bを参照すると、デコーダ側の後処理は、制限されたビットレートを用いて生成されたデコードされた信号の知覚的な品質をさらに改善することが可能である。デコーダは、まず、受信されたビット904を使用して量子化された係数905を再構築する。そして、それらは、正しく設計されたモジュール906によって後処理されて強化された係数907を得る。逆変換が強化された係数に行われて最終的な時間ドメイン出力908を得る。
【0127】
図10は、本発明の実施例による、オーディオデータを含む音声信号をエンコードする前のエンコーダにおける動作の図式を説明する。
【0128】
図10を参照すると、方法は、デジタル信号およびデジタル信号のピッチラグを符号化するために使用されるべき符号化ビットレートに基づいて周波数ドメイン符号化または時間ドメイン符号化を選択すること(ボックス1000)を含む。
【0129】
周波数ドメイン符号化または時間ドメイン符号化の選択は、デジタル信号が、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含むかどうかを決定するステップ(ボックス1010)を含む。さらに、符号化ビットレートが上方ビットレート限界より高いかどうかが決定される(ボックス1020)。デジタル信号が短いピッチ信号を含み、符号化ビットレートが上方ビットレート限界より高いならば、デジタル信号を符号化するために周波数ドメイン符号化が選択される。
【0130】
そうでなければ、符号化ビットレートが下方ビットレート限界より低いかどうかが決定される(ボックス1030)。デジタル信号が短いピッチ信号を含み、符号化ビットレートが下方ビットレート限界より低いならば、デジタル信号を符号化するために時間ドメイン符号化が選択される。
【0131】
そうでなければ、符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であるかどうかが決定される(ボックス1040)。発声の周期性が次に決定される(ボックス1050)。デジタル信号が短いピッチ信号を含み、符号化ビットレートが中間であり、発声の周期性が低いならば、デジタル信号を符号化するために周波数ドメイン符号化が選択される。その代わりに、デジタル信号が短いピッチ信号を含み、符号化ビットレートが中間であり、発声の周期性がたいへん強いならば、デジタル信号を符号化するために時間ドメイン符号化が選択される。
【0132】
その代わりに、ボックス1010を参照すると、デジタル信号は、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含まない。デジタル信号が、無声音声または通常の音声として分類されるかどうかが決定される(ボックス1070)。デジタル信号が短いピッチ信号を含まないならば、かつデジタル信号が無声音声または通常の音声として分類されるならば、デジタル信号を符号化するために時間ドメイン符号化が選択される。
【0133】
従って、様々な実施例において、オーディオデータを含むデジタル信号をエンコードする前に音声信号を処理するための方法は、デジタル信号を符号化するために使用されるべき符号化ビットレートおよびデジタル信号の短いピッチラグの検出に基づいて周波数ドメイン符号化または時間ドメイン符号化を選択することを含む。デジタル信号は、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含む。様々な実施例において、周波数ドメイン符号化または時間ドメイン符号化を選択する方法は、符号化ビットレートが上方ビットレート限界より高いとき、デジタル信号を符号化するために周波数ドメイン符号化を選択すること、および符号化ビットレートが下方ビットレート限界より低いとき、デジタル信号を符号化するために時間ドメイン符号化を選択することを含む。符号化ビットレートが46200 bps以上であるとき、符号化ビットレートは上方ビットレート限界より高い。符号化ビットレートが24.4 kbpsより小さいとき、符号化ビットレートは下方ビットレート限界より低い。
【0134】
同様に、他の実施例において、オーディオデータを含むデジタル信号をエンコードする前に音声信号を処理するための方法は、符号化ビットレートが上方ビットレート限界より高いとき、デジタル信号を符号化するために周波数ドメイン符号化を選択することを含む。その代わりに、方法は、符号化ビットレートが下方ビットレート限界より低いとき、デジタル信号を符号化するために時間ドメイン符号化を選択する。デジタル信号は、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含む。符号化ビットレートが46200 bps以上であるとき、符号化ビットレートは上方ビットレート限界より高い。符号化ビットレートが24.4 kbpsより小さいとき、符号化ビットレートは下方ビットレート限界より低い。
【0135】
同様に、他の実施例において、エンコードする前に音声信号を処理するための方法は、デジタル信号が短いピッチ信号を含まず、デジタル信号が無声音声または通常の音声として分類されるとき、オーディオデータを含むデジタル信号を符号化するために時間ドメイン符号化を選択することを含む。方法は、符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であるとき、デジタル信号を符号化するために周波数ドメイン符号化を選択することをさらに含む。デジタル信号は短いピッチ信号を含み、発声の周期性は低い。方法は、符号化ビットレートが中間であり、デジタル信号が短いピッチ信号を含み、発声の周期性がたいへん強いとき、デジタル信号を符号化するために時間ドメイン符号化を選択することをさらに含む。下方ビットレート限界は24.4 kbpsであり、上方ビットレート限界は46.2 kbpsである。
【0136】
図11は、本発明の実施例による通信システム10を説明する。
【0137】
通信システム10は、通信リンク38および40を介してネットワーク36に結合されたオーディオ・アクセス・デバイス7および8を有する。一実施例において、オーディオ・アクセス・デバイス7および8は、ボイス・オーバー・インターネット・プロトコル(voice over internet protocol、VOIP)デバイスであり、ネットワーク36は広域ネットワーク(wide area network、WAN)、公衆交換電話網(public switched telephone network、PTSN)および/またはインターネットである。他の実施例において、通信リンク38および40はワイヤ線および/または無線ブロードバンド接続である。代わりの実施例において、オーディオ・アクセス・デバイス7および8はセルラーまたは携帯電話であり、リンク38および40は無線携帯電話チャネルであり、ネットワーク36は携帯電話ネットワークを表現する。
【0138】
オーディオ・アクセス・デバイス7はマイクロホン12を使用して、音楽または人の声のような音をアナログオーディオ入力信号28に変換する。マイクロホンインタフェース16は、コーデック20のエンコーダ22への入力のためにアナログオーディオ入力信号28をデジタルオーディオ信号33に変換する。エンコーダ22は、本発明の実施例に従って、ネットワークインタフェース26を介したネットワーク26への送信のために、エンコードされたオーディオ信号TXを生成する。コーデック20内のデコーダ24は、ネットワークインタフェース26を介してネットワーク36からエンコードされたオーディオ信号RXを受信し、エンコードされたオーディオ信号RXをデジタルオーディオ信号34に変換する。スピーカインタフェース18は、デジタルオーディオ信号34を、ラウドスピーカ14を駆動するために適したオーディオ信号30に変換する。
【0139】
オーディオ・アクセス・デバイス7がVOIPデバイスである本発明の実施例において、オーディオ・アクセス・デバイス7内の構成要素のいくつかまたは全ては、ハンドセット内に実装される。しかし、いくつかの実施例において、マイクロホン12およびラウドスピーカ14は分離したユニットであり、マイクロホンインタフェース16、スピーカインタフェース18、コーデック20、およびネットワークインタフェース26は、パーソナルコンピュータ内に実装される。コーデック20は、コンピュータまたは専用のプロセッサ上で動作するいずれかのソフトウェアにおいて、または専用のハードウェアによって、例えば、特定用途向け集積回路(application specific integrated circuit、ASIC)上に実装されることが可能である。マイクロホンインタフェース16は、ハンドセット内および/またはコンピュータ内に配置された他のインタフェース回路だけでなく、アナログ・デジタル(A/D)コンバータによって実装される。同様に、スピーカインタフェース18は、ハンドセット内および/またはコンピュータ内に配置されたデジタル・アナログ・コンバータおよび他のインタフェース回路によって実装される。さらなる実施例において、オーディオ・アクセス・デバイス7は、この技術分野において知られた他のやり方で実装され、区分されることが可能である。
【0140】
オーディオ・アクセス・デバイス7がセルラーまたは携帯電話である本発明の実施例において、オーディオ・アクセス・デバイス7内の要素は、セルラーハンドセット内に実装される。コーデック20は、ハンドセット内のプロセッサ上で動作するソフトウェアによって、または専用のハードウェアによって実装される。本発明のさらなる実施例において、オーディオ・アクセス・デバイスは、インターコム、および無線ハンドセットのようなピア・ツー・ピアのワイヤ線および無線デジタル通信システムのような他のデバイスにおいて実装され得る。消費者オーディオデバイスのような応用において、オーディオ・アクセス・デバイスは、例えば、デジタルマイクロホンシステムまたは音楽再生デバイスにおいて、エンコーダ22またはデコーダ24のみを有するコーデックを含み得る。本発明の他の実施例において、コーデック20は、例えば、PTSNにアクセスするセルラー基地局において、マイクロホン12またはスピーカ14なしで使用されることが可能である。
【0141】
本発明の様々な実施例において記載された無声/有声分類を改善するための音声処理は、例えば、エンコーダ22またはデコーダ24において実装され得る。無声/有声分類を改善するための音声処理は、様々な実施例においてハードウェアまたはソフトウェアにおいて実装され得る。例えば、エンコーダ22またはデコーダ24は、デジタル信号処理(digital signal processing、DSP)チップの部分であり得る。
【0142】
図12は、ここに開示されたデバイスおよび方法を実装するために使用され得る処理システムのブロック図を説明する。特定のデバイスは、表わされた構成要素の全て、または構成要素のサブセットのみを利用することが可能であり、統合のレベルはデバイスによって変わり得る。さらに、デバイスは、複数の処理ユニット、プロセッサ、メモリ、送信機、受信機、等のような構成要素の複数の実例を含み得る。処理システムは、スピーカ、マイクロホン、マウス、タッチスクリーン、キーパッド、キーボード、プリンタ、ディスプレイ、および同様のもののような1つ以上の入力/出力デバイスが設けられた処理ユニットを含み得る。処理ユニットは、バスに接続された、中央処理ユニット(CPU)、メモリ、大容量記憶デバイス、ビデオアダプタ、およびI/Oインタフェースを含み得る。
【0143】
バスは、メモリバスまたはメモリコントローラ、周辺装置バス、ビデオバス、または同様のものを含む、1つ以上のあらゆる種類のいくつかのバスアーキテクチャであり得る。CPUは、あらゆる種類の電子データプロセッサを含み得る。メモリは、スタティック・ランダム・アクセス・メモリ(static random access memory、SRAM)、ダイナミック・ランダム・アクセス・メモリ(dynamic random access memory、DRAM)、シンクロナスDRAM(synchronous DRAM、SDRAM)、リード・オンリ・メモリ(read-only memory、ROM)、それらの組み合わせ、または同様のもののようなあらゆる種類のシステムメモリを含み得る。実施例において、メモリは、ブートアップでの使用のためのROM、およびプログラムを実行する間の使用のためのプログラムおよびデータ記憶のためのDRAMを含み得る。
【0144】
大容量記憶デバイスは、データ、プログラム、および他の情報を記憶し、データ、プログラム、および他の情報を、バスを介してアクセス可能にするように構成されたあらゆる種類の記憶デバイスを含み得る。大容量記憶デバイスは、例えば、ソリッド・ステート・ドライブ、ハードディスク・ドライブ、磁気ディスク・ドライブ、光ディスク・ドライブ、または同様のものの1つ以上を含み得る。
【0145】
ビデオアダプタおよびI/Oインタフェースは、外部の入力および出力デバイスを処理ユニットに結合するためにインタフェースを提供する。説明されるように、入力および出力デバイスの例は、ビデオアダプタに結合されたディスプレイおよびI/Oインタフェースに結合されたマウス/キーボード/プリンタを含む。他のデバイスが処理ユニットに結合されることが可能であり、追加のまたはより少ないインタフェースカードが利用され得る。例えば、プリンタのためのインタフェースを提供するためにユニバーサル・シリアル・バス(Universal Serial Bus、USB)(表わされていない)のようなシリアル・インタフェースが使用され得る。
【0146】
処理ユニットは、イーサネット(登録商標)ケーブル、または同様のもののような有線リンク、および/またはノードまたは異なるネットワークにアクセスするための無線リンクを含み得る、1つ以上のネットワークインタフェースも含む。ネットワークインタフェースは、処理ユニットがネットワークを介して遠隔ユニットと通信することを可能にする。例えば、ネットワークインタフェースは、1つ以上の送信機/送信アンテナおよび1つ以上の受信機/受信アンテナを介して無線通信を提供し得る。実施例において、処理ユニットは、データ処理、および他の処理ユニットのような遠隔デバイス、インターネット、遠隔記憶設備、または同様のものとの通信のためにローカル・エリア・ネットワークまたは広域ネットワークに結合される。
【0147】
この発明は説明的な実施例を参照して記載されたが、この記載は限定する意味で解釈されることを意図されていない。本発明の他の実施例だけでなく、説明的な実施例の様々な修正および組み合わせは、記載を参照したこの技術分野の当業者に明らかであろう。例えば、上記で記載された様々な実施例は互いに組み合わされ得る。
【0148】
図13を参照すると、デジタル信号をエンコードする前に音声信号を処理するための装置130の実施例が記載されている。装置は、
デジタル信号を符号化するために使用されるべき符号化ビットレートおよびデジタル信号の短いピッチラグの検出に基づいて、周波数ドメイン符号化または時間ドメイン符号化を選択するように構成された符号化セレクタ131を含む。
【0149】
ここで、デジタル信号が、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含むとき、符号化セレクタは、
符号化ビットレートが上方ビットレート限界より高いとき、デジタル信号を符号化するために周波数ドメイン符号化を選択し、
符号化ビットレートが下方ビットレート限界より低いとき、デジタル信号を符号化するために時間ドメイン符号化を選択するように構成される。
【0150】
ここで、デジタル信号が、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含むとき、符号化セレクタは、符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であるとき、デジタル信号を符号化するために周波数ドメイン符号化を選択するように構成され、ここで、発声の周期性は低い。
【0151】
ここで、デジタル信号が、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含まないとき、符号化セレクタは、デジタル信号が無声音声または通常の音声として分類されるとき、デジタル信号を符号化するために時間ドメイン符号化を選択するように構成される。
【0152】
ここで、デジタル信号が、短いピッチ信号であって、短いピッチ信号についてのピッチラグがピッチラグ限界より短い、短いピッチ信号を含むとき、符号化セレクタは、符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であり、発声の周期性がたいへん強いとき、デジタル信号を符号化するために時間ドメイン符号化を選択するように構成される。
【0153】
装置は、符号化ユニット132をさらに含み、符号化ユニットは、セレクタ131によって選択された周波数ドメイン符号化またはセレクタ131によって選択された時間ドメイン符号化を使用してデジタル信号を符号化するように構成される。
【0154】
符号化セレクタおよび符号化ユニットは、CPUによって、またはFPGA、ASICのようないくつかのハードウェア回路によって実装されることが可能である。
【0155】
図14を参照すると、デジタル信号をエンコードする前に音声信号を処理するための装置140の実施例が記載されている。装置は、
符号化選択ユニット141を含み、符号化選択ユニットは、
デジタル信号が短いピッチ信号を含まず、デジタル信号が無声音声または通常の音声として分類されるとき、オーディオデータを含むデジタル信号を符号化するために時間ドメイン符号化を選択し、
符号化ビットレートが下方ビットレート限界と上方ビットレート限界の間の中間であるとき、デジタル信号を符号化するために周波数ドメイン符号化を選択し、デジタル信号は、短いピッチ信号を含み、発声の周期性は低く、
符号化ビットレートが中間であり、デジタル信号が短いピッチ信号を含み、発声の周期性がたいへん強いとき、デジタル信号を符号化するために時間ドメイン符号化を選択するように構成される。
【0156】
装置は、第2の符号化ユニット142をさらに含み、第2の符号化ユニットは、符号化選択ユニット141によって選択された周波数ドメイン符号化または符号化選択ユニット141によって選択された時間ドメイン符号化を使用してデジタル信号を符号化するように構成される。
【0157】
符号化選択ユニットおよび符号化ユニットは、CPUによって、またはFPGA、ASICのようないくつかのハードウェア回路によって実装されることが可能である。
【0158】
本発明およびその利点が詳細に記載されたが、添付の請求項によって定義されるような発明の思想および範囲から逸脱することなく、様々な変更、代替、および改変がここに行われることが可能であることが理解されるべきである。例えば、上記で論じられた特徴および機能の多くは、ソフトウェア、ハードウェア、またはファームウェア、またはそれらの組み合わせにおいて実装されることが可能である。さらに、本出願の範囲は、明細書において記載されたプロセス、機械、製品、材料の組成、手段、方法、およびステップの特定の実施例に限定されることを意図されていない。この技術分野の当業者が本発明の開示から容易に理解するであろうように、ここに記載された対応する実施例と実質的に同じ機能を実行し、または実質的に同じ結果を達成する、現在存在し、または後に開発されるべき、プロセス、機械、製品、材料の組成、手段、方法、またはステップは、本発明に従って利用され得る。従って、添付の請求項は、それらの範囲内に、そのようなプロセス、機械、製品、材料の組成、手段、方法、またはステップを含むことを意図されている。