(58)【調査した分野】(Int.Cl.,DB名)
前記少なくとも1つのパラメータを取得するステップは、事前定義済みの間隔で値を取るように、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインを制限するステップを含むことを特徴とする請求項1に記載の方法。
前記少なくとも1つのパラメータを取得するステップは、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインをローパスフィルタリングするステップを含むことを特徴とする請求項1乃至4のいずれか1項に記載の方法。
少なくとも1つのローパスフィルタのフィルタ係数は、前記オーディオ信号セグメントと関連付けられた線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する線形予測ゲインの平均値との間の関係に依存することを特徴とする請求項5に記載の方法。
前記オーディオ信号セグメントがポーズを含むかを判定するステップは、前記オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づくことを特徴とする請求項1乃至6のいずれか1項に記載の方法。
前記オーディオ信号セグメントの周波数帯域の集合に対するエネルギと、前記周波数帯域の集合に対応する背景雑音推定値とに基づいて、前記スペクトル近似尺度を取得するステップを更に有することを特徴とする請求項7に記載の方法。
前記少なくとも1つのパラメータを取得することは、事前定義済みの間隔で値を取るように、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインを制限することを含むことを特徴とする請求項10に記載の背景雑音推定器。
前記少なくとも1つのパラメータを取得することは、前記第1の線形予測ゲイン及び前記第2の線形予測ゲインをローパスフィルタリングすることを含むことを特徴とする請求項10乃至13のいずれか1項に記載の背景雑音推定器。
少なくとも1つのローパスフィルタのフィルタ係数は、前記オーディオ信号セグメントと関連付けられた線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する線形予測ゲインの平均値との間の関係に依存することを特徴とする請求項14に記載の背景雑音推定器。
前記オーディオ信号セグメントがポーズを含むかを判定することは、前記オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づくように構成されていることを特徴とする請求項10乃至15のいずれか1項に記載の背景雑音推定器。
前記オーディオ信号セグメントの周波数帯域の集合に対するエネルギと、前記周波数帯域の集合に対応する背景雑音推定値に基づいて、前記スペクトル近似尺度を取得するように構成されていることを特徴とする請求項16に記載の背景雑音推定器。
少なくとも1つのプロセッサ上で実行される場合に請求項1乃至9のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令を含むことを特徴とするコンピュータプログラム。
【発明を実施するための形態】
【0026】
本明細書において開示する解決方法は、オーディオ信号における背景雑音の推定に関連する。
図1に示された一般化されたアクティビティ検出器においては、背景雑音を推定する機能は、「背景推定部」と示されたブロックにより実行される。本明細書において説明する解決方法のいくつかの実施形態は、引用により本明細書に組み込まれる国際公開第WO2011/049514号及び国際公開第WO2011/049515号、並びに附属書A(添付A)においても、過去に開示された解決方法に関連して参照されうる。本明細書において開示する解決方法をこれらの過去に開示された解決方法の実現例と比較する。国際公開第WO2011/049514号、国際公開第WO2011/049515号及び附属書Aにおいて開示された解決方法は良好な解決方法ではあるが、本明細書において提示する解決方法は、これらの解決方法に対して更に利点を有する。例えば、本明細書において提示する解決方法は、背景雑音のトラッキングにおいて一層適している。
【0027】
VADの性能は、特に非定常背景の場合、背景の特性をトラッキングする背景雑音推定器の機能に依存する。より適切にトラッキングすれば、音声クリッピングのリスクを増大させることなくVADをより効率的にできる。
【0028】
現在のノイズ推定方法に関する1つの問題は、低SNRにおいて背景雑音の適切なトラッキングを実現するために信頼できるポーズ検出器が必要なことである。音声のみの入力の場合、音声においてポーズを発見するために、音節速度(syllabic rate)、又は人間が常時話せないことを利用できる。そのような解決方法は、背景更新を行わない十分な時間の後にポーズ検出に対する要求が「緩和される」ため、音声においてポーズを検出する確率がより高いことを含みうる。これにより、ノイズ特性又はレベルの急な変化に応答できる。そのようなノイズ回復論理のいくつかの例は、次の通りである。1)音声発話が相関の高いセグメントを含むため、相関を有しない十分な数のフレームの後に音声においてポーズがあると仮定するのが一般に安全である。2)信号対雑音比SNR>0の場合に音声エネルギが背景雑音より高いため、フレームエネルギがより長時間、例えば1秒〜5秒にわたり最小エネルギに近接する場合、ある人が音声をポーズしていると仮定することも安全である。従来の技術は、音声のみの入力には適切に作用するが、楽音がアクティブ入力と考えられる場合には十分ではない。楽音においては、依然として楽音である相関の低い長いセグメントがありうる。また、楽音におけるエネルギのダイナミクスは、誤ったポーズ検出を更に生じうる。その結果、背景雑音推定値が望ましくなく誤って更新される恐れがある。
【0029】
理想的には、アクティビティ検出器又は「ポーズ発生検出器」と呼ばれるようなものの逆関数が、ノイズ推定を制御するために必要とされる。これにより、現在のフレームにアクティブ信号がない場合にのみ背景雑音特性が更新されることを保証する。しかし、上述したように、オーディオ信号セグメントがアクティブ信号を含むか否かを判定するのは容易なタスクではない。
【0030】
従来、アクティブ信号が音声信号であると認識された場合、アクティビティ検出器は音声アクティビティ検出器(VAD)と呼ばれていた。アクティビティ検出器に対するVADという用語は、入力信号が楽音を含みうる場合にも使用されることが多い。しかし、近年のコーデックにおいては、楽音がアクティブ信号として検出される場合にもアクティビティ検出器をサウンドアクティビティ検出器(SAD)と呼ぶことも一般的である。
【0031】
図1に示された背景雑音推定器は、非アクティブなオーディオ信号セグメントをローカライズするために一次検出部及び/又はハングオーバブロックからのフィードバックを利用する。本明細書において説明する技術を開発する際に、そのようなフィードバックへの依存を除去又は少なくとも軽減することが要求されている。従って、本明細書において開示する背景推定のために、本発明者は、アクティブ信号と背景信号との不明な混合を有する入力信号のみが使用可能である場合、背景信号の特性を識別するための信頼できる特徴量を特定できることが重要であると識別している。本発明者は、アクティブ信号が楽音であってもよいため、入力信号がノイズセグメントから開始する又は入力信号がノイズと混合された音声であると仮定することはできないことを更に認識している。
【0032】
1つの態様は、現在のフレームが現在のノイズ推定値と同一のエネルギレベルを有してもよいが、周波数特性があまりに異なる恐れがあるために、現在のフレームを使用してノイズ推定値を更新するのが好ましくなくなることである。導入された近似性特徴に対する背景雑音の更新は、これらの場合において更新を防止するために使用されうる。
【0033】
また、初期化中において、背景雑音がアクティブコンテンツを使用して更新される場合、ノイズ推定により、潜在的に結果としてSADからのクリッピングが生じうるため、誤った判定を回避しつつこれをできるだけ早く開始できるようにすることが望ましい。初期化中に近似性特徴量の初期化専用のバージョンを使用することにより、この問題を少なくとも部分的に解決できる。
【0034】
本明細書において説明する解決方法は、背景雑音推定の方法に関し、特に、困難なSNR状況において適切に実行するオーディオ信号においてポーズを検出する方法に関する。
図2〜
図5を参照して、解決方法を以下に説明する。
【0035】
音声符号化の分野においては、入力信号のスペクトル形状を分析するために、いわゆる線形予測を使用するのが一般的である。一般に分析は、フレーム毎に2回行われ、時間精度を向上するために、入力ブロックの5msブロック毎に生成されたフィルタがあるように、その後結果は補間される。
【0036】
線形予測は、離散時間信号の将来値が前のサンプルの線形関数として推定される数値演算である。デジタル信号処理においては、線形予測は、線形予測符号化(LPC)と呼ばれることが多いため、フィルタ理論の部分集合とみなされうる。音声符号化器における線形予測においては、線形予測フィルタA(z)が入力音声信号に適用される。A(z)は、入力信号に適用される場合に入力信号からのフィルタA(z)を使用してモデル化されうる冗長性を除去する全零フィルタである。従って、フィルタが入力信号の1つ又は複数の何らかのアスペクトをモデル化するのに成功する場合、フィルタからの出力信号は、入力信号より低いエネルギを有する。この出力信号を「残差」、「残差エネルギ」又は「残差信号」と示す。残差フィルタでも示されるそのような線形予測フィルタは、異なる数のフィルタ係数を有する異なるモデル次数であってもよい。例えば、音声を適切にモデル化するために、モデル次数16の線形予測フィルタを必要としてもよい。従って、音声符号化器においては、モデル次数16の線形予測フィルタA(z)が使用されてもよい。
【0037】
本発明者は、線形予測に関連した特徴量が、20dB〜10dB、場合によっては5dBのSNR範囲のオーディオ信号においてポーズを検出するために使用できることを認識している。本明細書において説明する解決方法の実施形態によれば、オーディオ信号に対する種々のモデル次数の残差エネルギ間の関係が、オーディオ信号においてポーズを検出するために利用される。関係は、より低いモデル次数とより高いモデル次数との残差エネルギの比率である。残差エネルギ間の比率は、線形予測フィルタが1つのモデル次数と別のモデル次数との間でモデル化又は除去できていた信号エネルギの量の指標であるため、線形予測ゲインと呼ぶことができる。
【0038】
残差エネルギは、線形予測フィルタA(z)のモデル次数Mに依存する。線形予測フィルタに対するフィルタ係数を計算する一般的な方法は、レヴィンソン−ダービン(Levinson−Durbin)のアルゴリズムである。このアルゴリズムは、再帰的であり、次数Mの予測フィルタA(z)を生成する処理であり、更に副産物として、より低いモデル次数の残差エネルギを生成する。このことは、本発明の実施形態に従って利用されうる。
【0039】
図2は、オーディオ信号における背景雑音の推定の例示的な一般的な方法を示す。方法は、背景雑音推定器により実行されうる。方法は、フレーム又はフレームの部分等のオーディオ信号セグメントに対する0次線形予測からの残差信号と2次線形予測からの残差信号との比率として計算された第1の線形予測ゲインと、オーディオ信号セグメントに対する2次線形予測からの残差信号と16次線形予測からの残差信号との比率として計算された第2の線形予測ゲインとに基づいて、オーディオ信号セグメントと関連付けられた少なくとも1つのパラメータを取得するステップ201を有する。
【0040】
方法は、取得した少なくとも1つのパラメータに少なくとも基づいて、オーディオ信号セグメントがポーズを含むか、すなわちオーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するステップ202と、オーディオ信号セグメントがポーズを含む場合、オーディオ信号セグメントに基づいて背景雑音推定値を更新するステップ203とを更に有する。すなわち、方法は、取得した少なくとも1つのパラメータに少なくとも基づいてオーディオ信号セグメントにおいてポーズを検出する場合、背景雑音推定値を更新することを備える。
【0041】
オーディオ信号セグメントに対して0次から2次の線形予測に進むことに関連した第1の線形予測ゲイン及びオーディオ信号セグメントに対して2次から16次の線形予測に進むことに関連した第2の線形予測ゲインとして、線形予測ゲインが説明されうる。また、あるいは、少なくとも1つのパラメータを取得することは、判定すること、計算すること、導出すること又は作成することとして説明されうる。モデル次数0、2及び16の線形予測に関連した残差エネルギは、通常の符号化処理の一部として線形予測を実行する符号化器の一部から取得、受信又は検索、すなわち符号化器によりどうにかして提供されてもよい。それにより、本明細書において説明する解決方法の計算の複雑さは、特に背景雑音を推定するために残差エネルギを導出する必要がある場合と比較して軽減されるであろう。
【0042】
線形予測特徴量に基づいて取得される少なくとも1つのパラメータは、背景雑音を更新するか否かに対する決定を改善する入力信号のレベルに依存しない分析を提供しうる。音声信号の通常のダイナミックレンジのためにエネルギに基づくSADの性能が限られる10dB〜20dBのSNR範囲において、解決方法は特に有用である。
【0043】
本明細書においては、とりわけ、変数E(0),...,E(m),...,E(M)は、M+1個のフィルタAm(z)のモデル次数0〜Mの残差エネルギを表す。なお、E(0)は単に入力エネルギである。本明細書において説明する解決方法に係るオーディオ信号分析は、0次線形予測からの残差信号と2次線形予測からの残差信号との比率として計算された線形予測ゲインと、2次線形予測からの残差信号と16次線形予測からの残差信号との比率として計算された線形予測ゲインとを分析することにより、いくつかの新しい特徴量又はパラメータを提供する。すなわち、0次から2次の線形予測に進む線形予測ゲインは、(2番目のモデル次数に対する)残差エネルギE(2)により分割された(0番目のモデル次数に対する)「残差エネルギ」E(0)と同一のものである。同様に、2次線形予測から16次線形予測に進む線形予測ゲインは、(16番目のモデル次数に対する)残差エネルギE(16)により分割された(2番目のモデル次数に対する)「残差エネルギ」E(2)と同一のものである。パラメータの例及び予測ゲインに基づいてパラメータを判定することを以下に更により詳細に説明する。上述した一般的な実施形態に従って取得された少なくとも1つのパラメータは、背景雑音推定値を更新するか否かを評価するために使用される決定基準の一部を形成しうる。
【0044】
少なくとも1つのパラメータ又は特徴量の長期安定性を向上するために、限定バージョンの予測ゲインが計算されうる。すなわち、少なくとも1つのパラメータを取得することは、事前定義済みの間隔で値を取るように、0次から2次の線形予測及び2次から16次の線形予測に進むことに関連した線形予測ゲインを制限することを含みうる。例えば線形予測ゲインは、例えば以下の式1及び式6において示されるように、0〜8の間の値を取るように制限されうる。
【0045】
少なくとも1つのパラメータを取得することは、例えばローパスフィルタリングを使用して、第1の線形予測ゲイン及び第2の線形予測ゲインの各々の少なくとも1つの長期推定値を生成することを更に含んでもよい。次に、そのような少なくとも1つの長期推定値は、少なくとも1つの前オーディオ信号セグメントと関連付けられた対応する線形予測ゲインに更に基づく。例えば線形予測ゲインに関連した第1の長期推定値及び第2の長期推定値がオーディオ信号における変化に異なる方法で反応する1つ以上の長期推定値が生成されうる。例えば第1の長期推定値は、第2の長期推定値より速く変化に反応しうる。あるいは、そのような第1の長期推定値は、短期推定値で示されてもよい。
【0046】
少なくとも1つのパラメータを取得することは、オーディオ信号セグメントと関連付けられた線形予測ゲインのうちの1つと線形予測ゲインの長期推定値との差分、例えば以下に説明する絶対差分Gd_0_2(式3)を判定することを更に含んでもよい。あるいは又は更に、例えば以下の式9におけるような2つの長期推定値間の差分が判定されてもよい。あるいは、判定することという用語は、計算すること、作成すること又は導出することと交換可能である。
【0047】
少なくとも1つのパラメータを取得することは、上述したように線形予測ゲインのローパスフィルタリングを含みうるため、推定において考慮されるセグメントの数に依存して、一部が短期推定値とも呼ばれうる長期推定値を導出する少なくとも1つのローパスフィルタのフィルタ係数は、例えば現オーディオ信号セグメントのみに関連した線形予測ゲインと、複数の前オーディオ信号セグメントに基づいて取得された対応する予測ゲインの例えば長期平均値と示された平均値又は長期推定値との間の関係に依存してもよい。これは、予測ゲインの例えば更なる長期推定値を生成するために行われてもよい。ローパスフィルタリングは、2つ以上のステップにおいて実行されてもよい。各ステップの結果、オーディオ信号セグメントにおけるポーズの存在に関して決定を行うために使用されるパラメータ又は推定値が得られうる。例えば、種々の方法でオーディオ信号における変化を反映する種々の長期推定値(以下に説明するG1_0_2(式2)及びGad_0_2(式4)、並びに/あるいはG1_2_16(式7)、G2_2_16(式8)、及びGad_2_16(式10)等)が、現在のオーディオ信号セグメントにおいてポーズを検出するために分析又は比較されうる。
【0048】
オーディオ信号セグメントがポーズを含むか否かを判定するステップ202は、オーディオ信号セグメントと関連付けられたスペクトル近似尺度に更に基づいてもよい。スペクトル近似尺度は、現在処理されているオーディオ信号セグメントの「周波数帯域毎の」エネルギレベルが現在の背景雑音推定値、例えば現在のオーディオ信号セグメントの分析の前に行われた前の更新の結果である初期値又は推定値の「周波数帯域毎の」エネルギレベルにどのくらい近接しているかを示すものである。スペクトル近似尺度を判定又は導出する例を式12及び式13において以下に挙げる。スペクトル近似尺度は、現在の背景雑音推定値と比較して周波数特性が大きく異なる低エネルギフレームに基づいてノイズ更新を防止するために使用されうる。例えば、周波数帯域にわたる平均エネルギは、現在の信号セグメント及び現在の背景雑音推定値に対して同等に低くてよいが、スペクトル近似尺度は、エネルギが周波数帯域にわたり異なる方法で分布されるかを示すであろう。エネルギ分布におけるそのような差異は、フレーム等の現在の信号セグメントが低レベルのアクティブコンテンツでありえ、フレームに基づく背景雑音推定値の更新が、例えば同様のコンテンツを有する将来のフレームの検出を防止することを示唆しうる。サブバンドSNRがエネルギの増加に最も敏感であるため、低レベルのアクティブコンテンツを使用しても、背景雑音、例えば低周波数の車のノイズと比較して高い周波数の音声の部分にその特定の周波数範囲が存在しない場合、結果として背景雑音推定値が大きく更新されうる。そのような更新の後、音声を検出するのはより困難になるであろう。
【0049】
既に示唆したように、スペクトル近似尺度は、現在分析されているオーディオ信号セグメントのサブバンドでも示される周波数帯域の集合及び周波数帯域の集合に対応する現在の背景雑音推定値に基づいて導出、取得又は計算されうる。更にこれは、以下に更により詳細に例示及び説明され、
図5に示される。
【0050】
上述したように、スペクトル近似尺度は、現在処理されているオーディオ信号セグメントの現在の周波数帯域当たりのエネルギレベルを現在の背景雑音推定値の周波数帯域当たりのエネルギレベルと比較することにより、導出、取得又は計算されうる。しかし、まず第1に、すなわちオーディオ信号の分析開始時の第1の期間又は第1の数のフレームの間に、例えば信頼できる背景雑音推定値がまだ更新されていないため、信頼できる背景雑音推定値がない恐れがある。従って、スペクトル近似値を判定するための開始期間が適用されてもよい。そのような初期化期間中において、現在のオーディオ信号セグメントの周波数帯域当たりのエネルギレベルは、例えば設定可能な一定値でありうる初期の背景雑音推定値と代わりに比較される。更に以下の例においては、この初期背景雑音推定値は、例示的な値E
min=0.0035に設定される。初期化期間の後、手順は、通常の動作に切り替わり、現在処理されているオーディオ信号セグメントの現在の周波数帯域当たりのエネルギレベルを現在の背景雑音推定値の周波数帯域当たりのエネルギレベルと比較しうる。初期化期間の長さは、例えば信頼でき及び/又は満足のいく背景雑音推定値等が提供されるまでにかかる時間を示すシミュレーション又はテストに基づいて設定されうる。以下において使用される例においては、初期の背景雑音推定値(現在のオーディオ信号に基づいて導出された「実際の」推定値ではなく)との比較は、最初の150個のフレームの間に実行される。
【0051】
少なくとも1つのパラメータは、更に以下の符号において例示され、NEW_POS_BGで示され、及び/又は更に以下に説明する複数のパラメータのうちの1つ以上であってもよく、それにより、ポーズを検出するために決定基準又は決定基準における構成要素が形成される。換言すると、線形予測ゲインに基づいて取得された201少なくとも1つのパラメータ又は特徴は、以下に説明するパラメータのうちの1つ以上であってもよく、以下に説明するパラメータのうちの1つ以上を含み、及び/又は以下に説明するパラメータのうちの1つ以上に基づいてもよい。
【0052】
残差エネルギE(0)及びE(2)に関連した特徴量又はパラメータ
図3は、例示的な一実施形態に係るE(0)及びE(2)に関連した特徴量又はパラメータを導出することを示す概略ブロック図である。
図3に示されるように、予測ゲインはE(0)/E(2)として最初に計算される。限定バージョンの予測ゲインは、以下のように計算される。
【0053】
G_0_2=max(0,min(8,E(0)/E(2))) (式1)
ただし、E(0)は、入力信号のエネルギを表し、E(2)は、2次線形予測の後の残差エネルギである。式1の数式は、予測ゲインを0〜8の間隔に制限する。予測ゲインは、通常の場合にはゼロより大きいべきであるが、例えばゼロに近い値に対しては例外が発生する恐れがあるため、「ゼロより大きい」制限(0<)が有用であろう。予測ゲインを最大8に制限する理由は、本明細書において説明する解決方法の目的のために、予測ゲインが有効な線形予測ゲインを示す約8又は8より大きいことを認識することで十分なためである。なお、2つの異なるモデル次数間の残差エネルギに差がない場合、線形予測ゲインは、より高いモデル次数のフィルタがより低いモデル次数のフィルタと比較してオーディオ信号をモデル化するのに成功しないことを示す1となる。また、予測ゲインG_0_2は、以下の数式において大きすぎる値を取る場合、導出されたパラメータの安定性を危うくする恐れがある。なお、8は、特定の実施形態に対して選択されている値の一例にすぎない。あるいは、パラメータG_0_2は、例えばepsP_0_2又はg
LP_0_2と示されうる。
【0054】
次に、制限された予測ゲインは、2つのステップにおいてフィルタリングされ、このゲインの長期推定値を作成する。第1のローパスフィルタリング、すなわち第1の長期特徴又はパラメータを導出することは、以下のように行われる。
【0055】
G1_0_2=0.85 G1_0_2 + 0.15 G_0_2, (式2)
ただし、上式における第2の「G1_0_2」は、前オーディオ信号セグメントからの値として読み出される。背景専用入力のセグメントがあると、一般にこのパラメータは、入力における背景雑音の種類に応じて0又は8となる。あるいは、パラメータG1_0_2は、例えばP_0_2_lp、又は、/g
LP_0_2で示されうる。次に、別の特徴又はパラメータは、以下に従って第1の長期特徴量G1_0_2とフレーム毎の制限された予測ゲインG_0_2との差分を用いて生成又は計算されうる。
【0056】
Gd_0_2=abs(G1_0_2-G_0_2) (式3)
これにより、予測ゲインの長期推定値と比較して現在のフレームの予測ゲインの表示が得られる。あるいは、パラメータGd_0_2は、例えばepsP_0_2_ad又はg
ad_0_2で示されうる。
図4において、この差分は、第2の長期推定値又は特徴Gad_0_2を生成するために使用される。これは、以下に従って長期差分が現在推定されている平均差より高いか又は低いかに応じて種々のフィルタ係数を適用するフィルタを使用して行われる。
【0057】
Gad_0_2 = (1-a) Gad_0_2 + a Gd_0_2 (式4)
ここで、Gd_0_2<Gad_0_2のときは、a=0.1であり、そうでなければ、a=0.2である。
【0058】
ただし、上式における2つめの「Gad_0_2」は、前オーディオ信号セグメントからの値として読み出される。
【0059】
あるいは、パラメータGad_0_2は、例えばGlp_0_2、epsP_0_2_ad_lp、又は、/g
ad_0_2で示されうる。フィルタリングが時折の高いフレーム差をマスクキングするのを防止するために、不図示の別のパラメータが導出されうる。すなわち、第2の長期特徴Gad_0_2は、そのようなマスキングを防止するためにフレーム差と組み合わされてもよい。このパラメータは、以下のように予測ゲイン特徴量のフレームバージョンGd_0_2及び長期バージョンGad_0_2の最大値を取ることにより導出されうる。
【0060】
Gmax_0_2 = max(Gad_0_2, Gd_0_2) (式5)
あるいは、パラメータGmax_0_2は、例えばepsP_0_2_ad_lp_max又はg
max_0_2で示されうる。
【0061】
残差エネルギE(2)及びE(16)に関連した特徴量又はパラメータ
図4は、例示的な一実施形態に係るE(2)及びE(16)に関連した特徴量又はパラメータを導出することを示す概略ブロック図である。
図4に示されるように、予測ゲインは、E(2)/E(16)として最初に計算される。2次残差エネルギと16次残差エネルギとの差分又は関係を用いて生成された特徴量又はパラメータは、0次残差エネルギと2次残差エネルギとの間の関係に関連して上述した特徴又はパラメータとは僅かに異なる方法で導出される。
【0062】
ここでも、制限された予測ゲインは以下のように計算される。
【0063】
G_2_16 = max(0, min(8, E(2)/E(16))) (式6)
だだし、E(2)は、2次線形予測後の残差エネルギを表し、E(16)は、16次線形予測後の残差エネルギを表す。あるいは、パラメータG_2_16は、例えばepsP_2_16又はg
LP_2_16で示されうる。次に、この制限された予測ゲインは、このゲインの2つの長期推定値を作成するために使用される。長期推定値が以下において示されるように増加するか又はしない場合、フィルタ係数は異なる。
【0064】
G1_2_16=(1-a) G1_2_16 + a G_2_16 (式7)
ただし、G_2_16>G1_2_16のときは、a=0.2であり、そうでなければ、a=0.03である。
【0065】
あるいは、パラメータG1_2_16は、例えばepsP_2_16_lp、又は、/g
LP_2_16で示されうる。
【0066】
第2の長期推定値は、以下に従うような一定のフィルタ係数を使用する。
【0067】
G2_2_16=(1-b) G2_2_16 + b G_2_16、ただし、b=0.02 (式8)
あるいは、パラメータG2_2_16は、例えばepsP_2_16_lp2、又は、/g
LP2_0_2で示されうる。
【0068】
殆どの種類の背景信号に対して、G1_2_16及びG2_2_16の双方は、0に近接するが、16次線形予測が必要とされるコンテンツに対して種々の応答を有する。これは、一般に音声及び他のアクティブコンテンツに対するものである。第1の長期推定値G1_2_16は、通常、第2の長期推定値G2_2_16より高くなる。長期特徴量間のこの差分は、以下に従って測定される。
【0069】
Gd_2_16 = G1_2_16 - G2_2_16 (式9)
あるいは、パラメータGd_2_16は、epsP_2_16_dlp又はg
ad_2_16で示されうる。
【0070】
次に、Gd_2_16は、以下に従って第3の長期特徴量を作成するフィルタへの入力として使用されてうる。
【0071】
Gad_2_16 = (1-c) Gad_2_16 + c Gd_2_16 (式10)
ただし、Gd_2_16<Gad_2_16のときは、c=0.02であり、そうでなければc=0.05である。
【0072】
このフィルタは、第3の長期信号が増加するか否かに応じて種々のフィルタ係数を適用する。あるいは、パラメータGad_2_16は、例えばepsP_2_16_dlp_lp2、又は、/g
ad_2_16で示されうる。ここでも、長期信号Gad_2_16は、フィルタリングが現在のフレームに対する時折の高い入力をマスキングするのを防止するために、フィルタ入力信号Gd_2_16と組み合わされてもよい。次に、最後のパラメータは、特徴量の長期バージョン及びフレーム又はセグメントの最大値である。
【0073】
Gmax_2_16 = max(Gad_2_16, Gd_2_16) (式11)
あるいは、パラメータGmax_2_16は、例えばepsP_2_16_dlp_max又はg
max_0_2で示されうる。
【0074】
スペクトル近似/差尺度
スペクトル近似特徴は、サブバンドエネルギが計算され、サブバンド背景雑音推定値と比較される現在の入力フレーム又はセグメントの周波数分析を使用する。スペクトル近似パラメータ又は特徴量は、例えば現在のセグメント又はフレームが前の背景雑音推定値にかなり近接するか、あるいは少なくともそれから離れすぎないことを保証するために、上述の線形予測ゲインと関連したパラメータと組み合わせて使用されてもよい。
【0075】
図5は、スペクトル近似又は差の尺度の計算を示すブロック図である。初期化期間、例えば150個の最初のフレームの間において、初期の背景雑音推定値に対応する定数との比較が行われる。初期化の後、それは、通常の動作に進み、背景雑音推定値と比較する。なお、スペクトル分析により20個のサブバンドに対するサブバンドエネルギが生成されるが、音声エネルギが配置されるこれらの帯域にそれが主にあるため、ここでのnonstaBの計算はサブバンドi=2,...16のみを使用する。ここで、nonstaBは非定常性を反映する。
【0076】
従って、初期化中、nonstaBは、ここでは以下のようにEmin=0.0035に設定されるEminを使用して計算される。
【0077】
nonstaB = sum(abs(log(Ecb(i)+1)-log(Emin+1))) (式12)
ただし、sumは、i=2...16にわたって出される。
【0078】
これは、初期化中の背景雑音推定における決定誤差の影響を軽減するために行われる。初期化期間の後、以下に従って、それぞれのサブバンドの現在の背景雑音推定値を使用して計算が行われる。
【0079】
nonstaB = sum(abs(log(Ecb(i)+1)-log(Ncb(i)+1))) (式13)
ただし、sumは、i=2...16にわたって出される。
【0080】
対数の前に定数1を各サブバンドエネルギに加算することにより、低エネルギフレームに対するスペクトル差に対する感度は低下する。あるいは、パラメータnonstaBは、例えばnon_staB又はnonstat
Bで示されうる。
【0081】
図6は、背景推定器の例示的な一実施形態を示すブロック図である。
図6における実施形態は、入力オーディオ信号を適切な長さ、例えば5ms〜30msのフレーム又はセグメントに分割する入力フレーミング601に対するブロックを含む。実施形態は、入力信号のフレーム又はセグメント毎の本明細書においてパラメータでも示される特徴を計算する特徴抽出602に対するブロックを更に含む。実施形態は、背景推定値が現在のフレームにおける信号に基づいて更新されてもよいか否か、すなわち信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するための更新決定論理603に対するブロックを更に含む。実施形態は、更新決定論理が背景推定値を更新するのが適切であると示す場合にそのように実行するための背景更新器604を更に含む。例示された実施形態においては、背景推定値は、サブバンド毎に、すなわち多数の周波数帯域に対して導出されうる。
【0082】
本明細書において説明する解決方法は、本明細書の附属書A及び更には文献国際公開第WO2011/049514号において説明された背景推定に対する前の解決方法を改善するために使用されてもよい。以下、この前に説明した解決方法のコンテキストにおいて、本明細書において説明する解決方法を説明する。背景雑音推定器の実施形態の符号の実現例からの符号の例を挙げる。
【0083】
以下、G.718に基づく符号化器における本発明の実施形態に対して、実際の実現例の詳細を説明する。この実現例は、引用により本明細書に組み込まれる附属書A及び国際公開第WO2011/049514号における解決方法において説明するエネルギ特徴量の多くを使用する。以下に提示する以上の更なる詳細については、附属書A及び国際公開第WO2011/049514号を参照されたい。
【0084】
国際公開第WO2011/049514号において、以下のエネルギ特徴量が定義されている。
【0085】
Etot;
Etot_l_lp;
Etot_v_h;
totalNoise;
sign_dyn_lp;
【0086】
国際公開第WO2011/049514号においては、以下の相関特徴量が定義されている。
【0087】
aEn;
harm_cor_cnt
act_pred
cor_est
【0088】
附属書Aにおいて与えられる解決方法においては、以下の特徴量が定義される。
【0089】
Etot_v_h;
lt_cor_est = 0.01f*cor_est + 0.99f*lt_cor_est;
lt_tn_track = 0.03f* (Etot - totalNoise < 10) + 0.97f*lt_tn_track;
lt_tn_dist = 0.03f* (Etot - totalNoise) + 0.97f*lt_tn_dist;
lt_Ellp_dist = 0.03f* (Etot - Etot_l_lp) + 0.97f*lt_Ellp_dist;
harm_cor_cnt
low_tn_track_cnt
【0090】
附属書Aにおいて与えられる解決方法からの雑音更新論理を
図7に示す。附属書Aの雑音推定器の本明細書において説明する解決方法に関連した改善点は、特徴を計算する部分701と、種々のパラメータに基づいてポーズ決定が行われる部分702と、更にポーズが検出されるか否かに基づいて種々の措置が取られる部分703とに主に関連する。更に改善点は、例えば本明細書において説明する解決方法を導入する前は検出されなかったであろう新しい特徴に基づいてポーズが検出される場合に更新されうる背景推定値を更新すること704に影響を及ぼす恐れがある。本明細書において説明する例示的な実現例においては、本明細書において導入する新しい特徴は、上記及び
図6においてEcb(i)に対応する現在のフレームのサブバンドエネルギenr[i]、並びに上記及び
図6においてNcb(i)に対応する現在の背景雑音推定値bckr[i]を使用して判定されるnon_staBから開始して、以下のように計算される。以下の最初のコード部分の最初の部分は、適切な背景推定値が導出されている前のオーディオ信号の最初の150個のフレームに対する特殊な初期手順に関連する。
【0091】
/*背景に対する非定常性特徴を計算する(スペクトル近似特徴non_staBを計算する)*/
if (ini_frame < 150)
{
/*初期化中、更新を含まない*/
if ( i >= 2 && i <= 16 )
{
non_staB += (float)fabs(log(enr[i] + 1.0f) -
log(E_MIN + 1.0f));
}
}
else
{
/*初期化の後、背景推定値と比較する*/
if ( i >= 2 && i <= 16 )
{
non_staB += (float)fabs(log(enr[i] + 1.0f) -
log(bckr[i] + 1.0f));
}
}
if (non_staB >= 128)
{
non_staB = 32767.0/256.0f;
}
【0092】
以下のコード部分は、線形予測残差エネルギに対する、すなわち線形予測ゲインに対する、新たな特徴量を計算する方法を示す。ここで、残差エネルギは、epsP[m](前に使用されたE(m)と比較されたい)と命名される。
【0093】
/*-----------------------------------------------------------------*
*線形予測効率0〜2次
*(線形予測フィルタの0次から2次のモデルに進む線形予測ゲイン)
*-----------------------------------------------------------------*/
epsP_0_2 = max(0 , min(8, epsP[0] / epsP[2]));
epsP_0_2_lp = 0.15f * epsP_0_2 + (1.0f-0.15f) * st->epsP_0_2_lp;
epsP_0_2_ad = (float) fabs(epsP_0_2 - epsP_0_2_lp );
if (epsP_0_2_ad < epsP_0_2_ad_lp)
{
epsP_0_2_ad_lp = 0.1f * epsP_0_2_ad + (1.0f - 0.1f) * epsP_0_2_ad_lp;
}
else
{
epsP_0_2_ad_lp = 0.2f * epsP_0_2_ad + (1.0f - 0.2f) * epsP_0_2_ad_lp;
}
epsP_0_2_ad_lp_max = max(epsP_0_2_ad,st->epsP_0_2_ad_lp);
/*-----------------------------------------------------------------*
*線形予測効率2〜16次
*(線形予測フィルタの2次から16次のモデルに進む線形予測ゲイン)
*-----------------------------------------------------------------*/
epsP_2_16 = max(0 , min(8, epsP[2] / epsP[16]));
if (epsP_2_16 > epsP_2_16_lp)
{
epsP_2_16_lp = 0.2f * epsP_2_16 + (1.0f-0.2f) * epsP_2_16_lp;
}
else
{
epsP_2_16_lp = 0.03f * epsP_2_16 + (1.0f-0.03f) * epsP_2_16_lp;
}
epsP_2_16_lp2 = 0.02f * epsP_2_16 + (1.0f-0.02f) * epsP_2_16_lp2;
epsP_2_16_dlp = epsP_2_16_lp-epsP_2_16_lp2;
if (epsP_2_16_dlp < epsP_2_16_dlp_lp2 )
{
epsP_2_16_dlp_lp2 = 0.02f * epsP_2_16_dlp + (1.0f-0.02f) * epsP_2_16_dlp_lp2;
}
else
{
epsP_2_16_dlp_lp2 = 0.05f * epsP_2_16_dlp + (1.0f-0.05f) * epsP_2_16_dlp_lp2;
}
epsP_2_16_dlp_max = max(epsP_2_16_dlp,epsP_2_16_dlp_lp2);
【0094】
以下のコードは、実際の更新決定、すなわち背景雑音推定値を更新するか否かを判定するために使用される尺度、閾値及びフラグの組み合わせの作成を示す。線形予測ゲイン及び/又はスペクトル近似に関連したパラメータのうちの少なくともいくつかを太字で示す。
【0096】
現在のフレーム又はセグメントがアクティブコンテンツを含む場合に背景雑音推定値の更新を行わないことが重要であるため、更新が行われるかを決定するためにいくつかの条件を評価する。雑音更新論理における主な決定ステップは、更新が行われるか否かであり、これは、以下で下線が引かれた論理式の評価により構成される。新たなパラメータNEW_POS_BG(附属書A及び国際公開第WO2011/049514号における解決方法に対して新しい)は、ポーズ検出器であり、線形予測フィルタの0次から2次及び2次から16次モデルに進む線形予測ゲインに基づいて取得され、tn_iniは、スペクトル近似に関連した特徴に基づいて取得される。ここで、例示的な実施形態に従って、新しい特徴を使用する決定論理が後続する。
【0098】
上述したように、線形予測からの特徴量は、音声信号の通常のダイナミックレンジのためにエネルギに基づくSADの性能が限られる10dB〜20dBのSNR範囲において特に有用である背景雑音更新に対する決定を向上させる入力信号のレベルに依存しない分析を提供する。
【0099】
背景近似特徴量は、初期化及び通常の動作の双方に対して使用可能であるため、背景雑音推定も向上させる。初期化中、それにより、主に車のノイズに対して一般的な低周波数成分を有する背景雑音(より低いレベルの)に対する迅速な初期化が可能になる。更に特徴量は、現在の背景推定値と比較して周波数特性が大きく異なる低エネルギフレームを使用するノイズ更新を防止するために使用可能である。これは、現在のフレームが低レベルのアクティブコンテンツであってもよく、且つ更新により、同様のコンテンツを有する将来のフレームの検出を防止できることを示唆する。
【0100】
図8〜
図10は、それぞれのパラメータ又は尺度が10dB SNRの車のノイズの背景における音声に対してどのように挙動するかを示す。
図8〜
図10において、各ドット「・」はフレームエネルギを表す。
図8及び
図9a〜
図9cに対して、エネルギは、G_0_2及びG_2_16に基づく特徴とより比較できるように10で分割されている。図は、第1の発話に対する近似位置がフレーム1310〜1420にあり、第2の発話に対する近似位置がフレーム1500〜1610にある2つの発話を含むオーディオ信号に対応する。
【0101】
図8は、車のノイズを有する10dB SNR音声に対するフレームエネルギ(/10)(ドット「・」)、並びに特徴量G_0_2(円「○」)及びGmax_0_2(プラス「+」)を示す。なお、モデル次数2の線形予測を使用してモデル化されうる信号において何らかの相関があるため、G_0_2は車のノイズの間8である。特徴量Gmax_0_2は、発話の間は(この場合)1.5を超え、音声バーストの後は0に低下する。決定論理の特定の実現例においては、Gmax_0_2は、この特徴量を使用するノイズ更新を可能にするように、0.1を下回る必要がある。
【0102】
図9aは、フレームエネルギ(/10)(ドット「・」)、並びに特徴量G_2_16(円「○」)、G1_2_16(ばつ印「×」)、G2_2_16(プラス「+」)を示す。
図9bは、フレームエネルギ(/10)(ドット「・」)、並びに特徴量G_2_16(円「○」)、Gd_2_16(ばつ印「×」)、及びGad_2_16(プラス「+」)を示す。
図9cは、フレームエネルギ(/10)(ドット「・」)、並びに特徴量G_2_16(円「○」)及びGmax_2_16(プラス「+」)を示す。
図9a〜
図9cに示す図は、車のノイズを有する10dB SNR音声にも関連する。特徴量は、各パラメータをより見やすくするために3つの図に示される。なお、G_2_16(円「○」)は、より高いモデル次数からのゲインがこの種のノイズに対して低いことを示す車のノイズ(すなわち、発話の外側)の間、ちょうど1を上回る。発話の間、特徴量Gmax_2_16(
図9cにおいてプラス「+」)は、増加して、再度0に低下する。決定論理の特定の実現例においては、更に特徴量Gmax_2_16は、ノイズ更新を可能にするために0.1より低くなる必要がある。この特定のオーディオ信号サンプルにおいて、これは発生しない。
【0103】
図10は、車のノイズを有する10dB SNR音声に対するフレームエネルギ(ドット「・」)(今回は10で分割されない)及び特徴量nonstaB(プラス「+」)を示す。特徴量nonstaBは、雑音のみのセグメントの間は0〜10の範囲にあり、発話に対してより大きくなる(周波数特性が音声に対して異なるため)。しかし、発話の間でさえ、特徴量nonstaBが0〜10の範囲になるフレームがある。これらのフレームに対して、背景雑音更新を行う可能性があり、それにより背景雑音がより適切にトラッキングされる。
【0104】
本明細書において開示する解決方法は、ハードウェア及び/又はソフトウェアで実現される背景雑音推定器に更に関連する。
【0105】
背景雑音推定器、図11a〜図11c
図11aは、背景雑音推定器の例示的な一実施形態を一般的な方法で示す。背景雑音推定器により、例えば音声及び/又は楽音を含むオーディオ信号における背景雑音を推定するように構成されたモジュール又はエンティティを参照する。符号化器1100は、例えば
図2及び
図7を参照して上述した方法に対応する少なくとも1つの方法を実行するように構成される。符号化器1100は、上述した方法の実施形態と同一の技術的な特徴、目的及び利点と関連付けられる。不要な繰り返しを回避するために、背景雑音推定器を簡単に説明する。
【0106】
背景雑音推定器は、以下の通り実現され及び/又は説明されうる。
【0107】
背景雑音推定器100は、オーディオ信号の背景雑音を推定するように構成される。背景雑音推定器1100は、処理回路網、すなわち処理手段1101と、通信インタフェース1102とを含む。処理回路網1101は、オーディオ信号セグメントに対する0次線形予測からの残差信号と2次線形予測からの残差信号との比率として計算された第1の線形予測ゲイン及びオーディオ信号セグメントに対する2次線形予測からの残差信号と16次線形予測からの残差信号との比率として計算された第2の線形予測ゲインに基づいて、符号化器1100によりNEW_POS_BG等の少なくとも1つのパラメータを取得、例えば判定又は計算するように構成される。
【0108】
処理回路網1101は、背景雑音推定器により、少なくとも1つのパラメータに基づいてオーディオ信号セグメントがポーズを含むか、すなわちオーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するように更に構成される。オーディオ信号セグメントがポーズを含む場合、処理回路網1101は、背景雑音推定器により、オーディオ信号セグメントに基づいて背景雑音推定値を更新するように更に構成される。
【0109】
例えば入出力(I/O)インタフェースで示されうる通信インタフェース1102は、他のエンティティ又はモジュールにデータを送出し、かつ、他のエンティティ又はモジュールからデータを受信するためのインタフェースを含む。例えば線形予測モデル次数0、2及び16に関連した残差信号は、線形予測符号化を実行するオーディオ信号符号化器からI/Oインタフェースを介して取得、例えば受信されうる。
【0110】
図11bに示されるように、処理回路網1101は、処理手段、例えばCPU等のプロセッサ1103と、命令を格納又は保持するためのメモリ1104とを含みうる。そして、メモリは、処理手段1103により実行される場合に符号化器1100により上述の動作を実行する例えばコンピュータプログラム1105の形態の命令を含む。
【0111】
図11cは、処理回路網1101の別の実現例を示す。ここで、処理回路網は、背景雑音推定器1100により、オーディオ信号セグメントに対する0次線形予測からの残差信号と2次線形予測からの残差信号との比率として計算された第1の線形予測ゲインと、オーディオ信号セグメントに対する2次線形予測からの残差信号と16次線形予測からの残差信号との比率として計算された第2の線形予測ゲインとに基づいて、NEW_POS_BG等の少なくとも1つのパラメータを取得、例えば判定又は計算するように構成される取得部又は取得モジュール、あるいは判定部又は判定モジュール1106を含む。処理回路網は、背景雑音推定器1100により、少なくとも1つのパラメータに少なくとも基づいて、オーディオ信号セグメントがポーズを含むか、すなわちオーディオ信号セグメントに音声及び楽音等のアクティブコンテンツがないかを判定するように構成された判定部又は判定モジュール1107を更に含む。オーディオ信号セグメントがポーズを含む場合、処理回路網1101は、背景雑音推定器により、オーディオ信号セグメントに基づいて背景雑音推定値を更新するように構成された更新部又は更新モジュール、あるいは推定部又は推定モジュール1110を更に含む。
【0112】
処理回路網1101は、更に多くのユニット、例えば背景雑音推定器により線形予測ゲインをローパスフィルタリングすることで線形予測ゲインの1つ以上の長期推定値を作成するように構成されたフィルタ部又はフィルタモジュールを含みうる。あるいは、ローパスフィルタリング等の動作は、例えば判定部又は判定モジュール1107により実行されてもよい。
【0113】
上述の背景雑音推定器の実施形態は、本明細書において説明する種々の方法の実施形態、例えば線形予測ゲインを制限及びローパスフィルタリングすること、線形予測ゲインと長期推定値との差分及び長期推定値間の差分を判定すること、及び/又はスペクトル近似尺度を取得及び使用すること等に対して構成されうる。
【0114】
背景雑音推定器1100は、背景雑音推定を実行するための更なる機能性、例えば附属書Aにおいて例示されるような機能性等を含むと仮定されてもよい。
【0115】
図12は、例示的な一実施形態に係る背景推定器1200を示す。背景推定器1200は、例えばモデル次数0、2及び16に対する残差エネルギを受信するための入力部を含む。背景推定器は、プロセッサと、プロセッサにより実行可能な命令を含むメモリとを更に含む。それにより、背景推定器は、本明細書において説明する一実施形態に係る方法を実行するために動作可能である。
【0116】
従って、背景推定器は、
図13に示されるように、入出力部1301と、モデル次数0、2及び16に対する残差エネルギからの特徴の最初の2つの集合を計算するための計算機1302と、スペクトル近似特徴を計算するための周波数分析機1303とを含んでもよい。
【0117】
上述したような背景雑音推定器は、例えばVAD又はSAD、符号化器及び/又は復号化器、すなわちコーデックにおいて、並びに/あるいは通信デバイス等のデバイスにおいて含まれてもよい。通信デバイスは、移動電話、ビデオカメラ、録音機、タブレット、デスクトップ、ラップトップ、TVセットトップボックス又はホームサーバ/ホームゲートウェイ/ホームアクセスポイント/ホームルータの形式のユーザ機器(UE)であってもよい。通信デバイスは、いくつかの実施形態においては、オーディオ信号を符号化及び/又はトランスコードするように構成された通信ネットワークデバイスであってもよい。そのような通信ネットワークデバイスの例としては、メディアサーバ、アプリケーションサーバ、ルータ、ゲートウェイ及び無線基地局等のサーバがある。通信デバイスは、船等の大型の船、飛行ドローン、飛行機及び車、バス又はトラック等の道路車両に位置付けられる、すなわち組み込まれるように更に構成されてもよい。そのような組み込みデバイスは、一般に車両テレマティクスユニット又は車両インフォテインメントシステムに属する。
【0118】
本明細書において説明するステップ、機能、手順、モジュール、ユニット及び/又はブロックは、汎用電子回路網及び特定用途向け回路網の双方を含むあらゆる従来の技術、例えばディスクリート回路又は集積回路の技術を使用してハードウェアで実現されうる。
【0119】
特定の例には、1つ以上の適切に構成されたデジタル信号プロセッサ及び他の知られている電子回路、例えば特定の機能を実行するように相互接続された個別の論理ゲート又は特定用途向け集積回路(ASIC)が含まれる。
【0120】
あるいは、上述のステップ、機能、手順、モジュール、ユニット及び/又はブロックのうちの少なくともいくつかは、1つ以上の処理ユニットを含む適切な処理回路網が実行するために、コンピュータプログラム等のソフトウェアで実現されうる。ソフトウェアは、ネットワークノードにおけるコンピュータプログラムの使用前及び/又は使用中に、電子信号、光信号、無線信号又はコンピュータ読み取り可能な記憶媒体等のキャリアにより実行されうる。
【0121】
本明細書において提示する1つ又は複数のフローチャートは、1つ以上のプロセッサにより実行される場合に1つ又は複数のコンピュータフローチャートと考えられてもよい。対応する装置は、プロセッサが実行する各ステップが機能モジュールに対応する機能モジュールのグループとして規定されてもよい。この場合、機能モジュールは、プロセッサ上で実行するコンピュータプログラムとして実現される。
【0122】
処理回路網の例は、1つ以上のマイクロプロセッサ、1つ以上のデジタル信号プロセッサDSP、1つ以上の中央処理装置CPU、並びに/あるいは1つ以上のフィールドプログラマブルゲートアレイFPGA又は1つ以上のプログラマブルロジックコントローラPLC等のあらゆる適切なプログラマブル論理回路網を含むが、それに限定されない。すなわち、上述した種々のノードの構成におけるユニット又はモジュールは、アナログ回路及びデジタル回路の組み合わせ、並びに/あるいは例えばメモリに格納されたソフトウェア及び/又はファームウェアを用いて構成された1つ以上のプロセッサにより実現されうる。これらのプロセッサのうちの1つ以上及び他のデジタルハードウェアは、単一の特定用途向け集積回路ASICに含まれてもよい。あるいは、いくつかのプロセッサ及び種々のデジタルハードウェアは、個別にパッケージ化されるか、あるいはシステムオンチップSoCにアセンブルされるかに関係なく、いくつかの別個の構成要素間に分散されてもよい。
【0123】
提案された技術が実現されるあらゆる従来のデバイス又はユニットの一般的な処理機能を再利用してもよいことが、更に理解されるべきである。例えば、既存のソフトウェアのプログラムを作り直すか、あるいは新しいソフトウェア構成要素を追加することにより、既存のソフトウェアを再利用することが更に可能であってもよい。
【0124】
上述の実施形態は単に例として挙げたものであり、提案技術はそれの例に限定されるものではないことが理解されるべきである。本発明の範囲から逸脱することなく種々の変形、組み合わせ及び変更が実施形態に対して行なわれうることは、当業者には理解されよう。特に、種々の実施形態における種々の部分的な解決方法は、技術的に可能な場合には他の構成において組み合わされることが可能である。
【0125】
「備える」という用語を使用する場合、それは、限定しないもの、すなわち「から少なくとも構成される」ことを意味するものとして解釈されるべきである。
【0126】
また、いくつかの別の実現例においては、ブロックにおいて示された機能/行為は、フローチャートにおいて示されたのとは異なる順序で行われてもよい。例えば、連続して示された2つのブロックは、実際には実質的に同時に実行されてもよく、あるいは当該機能性/行為に依存して場合によっては逆の順序で実行されてもよい。更に、フローチャート及び/又はブロック図の所定のブロックの機能性は、フローチャートの2つ以上のブロックの機能性及び/又は複数のブロックに分離されてもよく、及び/又はブロック図は、少なくとも部分的に統合されてもよい。最後に、他のブロックは、示されるブロック間に追加/挿入されてもよく、及び/又はブロック/動作は、本発明の概念の範囲から逸脱することなく省略されてもよい。
【0127】
ユニットと対話する選択肢及び本開示内容内でのユニットの命名は、例示することのみを目的としたものであり、且つ、上述の方法のうちのいずれかを実行するのに適したノードは、提案された処理手順動作を実行できるように複数の別の方法で構成されうることが理解されるべきである。
【0128】
また、本開示内容において説明するユニットは、論理エンティティであると考えられるべきであり、別個の物理エンティティとしての必要性を有さない。
【0129】
単数形の要素を参照することは、特に指示のない限り、「1つ及び1つのみ」ではなく、むしろ「1つ以上」を意味することを意図する。当業者に知られている上述の実施形態の要素と構造的及び機能的に等価なものは全て、参考として本明細書に明確に取り入れられ、本明細書に含まれることを意図する。更に、本明細書において開示する技術が解決しようと試みる全ての問題を本明細書に含むために、デバイス又は方法がそれに対処する必要はない。
【0130】
本明細書のいくつかの例においては、周知のデバイス、回路及び方法の詳細な説明は、不必要なまでに詳細に開示することでかえって説明する技術が曖昧にならない程度に省略した。本明細書において開示された技術の原理、態様及び実施形態を説明する全ての表現、並びに本発明の特定の例は、本発明の構造的な均等物及び機能的な均等物の双方を含むことを意図している。更に、そのような均等物は、現時点で公知の均等物、並びに将来開発されるであろう均等物、例えば構造に関係なく同一の機能を実行するように開発される任意の要素の双方を含むことを意図しているる。
【0131】
附属書A
以下の説明においては、
図A2〜
図A9を参照するが、例えば説明中の「
図2」は図面中の
図A2に対応するものとする。
【0132】
図2は、以下で提案する技術に係る背景雑音推定の方法の例示的な一実施形態を示すフローチャートである。方法は、SADの一部であってもよい背景雑音推定器により実行されることを意図している。背景雑音推定器及びSADは、更に無線デバイス又はネットワークノードに含まれうるオーディオ符号化器に更に含まれてもよい。説明する背景雑音推定器の場合、雑音推定値を下に調整することは制限されていない。フレームが背景コンテンツ又はアクティブコンテンツであるかに関係なく、フレーム毎に可能な新しいサブバンド雑音推定値が計算される。新しい値は、現在の値より低い場合に背景フレームからのものである可能性が最も高いとして直接使用される。以下の雑音推定論理は、サブバンド雑音推定値が増加されうるかを決定し、そのように決定した場合、以前に計算された可能な新しいサブバンド雑音推定値に基づいてどのくらいの増加であるかを決定する第2のステップである。基本的に、この論理は、現在のフレームが背景フレームであるとの決定を下し、それが確かでない場合は元々推定されたものより少ない増加を可能にしてもよい。
【0133】
図2に示す方法は、オーディオ信号セグメントのエネルギレベルが長期最小エネルギレベルlt_minより高い閾値を上回る場合(202:1)又はオーディオ信号セグメントのエネルギレベルがlt_minより高い閾値を下回るが(202:2)、オーディオ信号セグメントにおいてポーズが検出されない場合(204:1):
−オーディオ信号セグメントが楽音を含むと判定され(203:2)、且つ現在の背景雑音推定値が
図2において「T」で示された最小値を超えて(205:1)、例えば以下の符号において2*E_MINとして更に例示される場合に、現在の背景雑音推定値を低下させること(206)を有する。
【0134】
上記を実行し、且つ背景雑音推定値をSADに提供することにより、SADは、より適切にサウンドアクティビティを検出できるようになる。また、誤った背景雑音推定値の更新から回復できるようになる。
【0135】
あるいは、上述の方法において使用されたオーディオ信号セグメントのエネルギレベルは、例えば現在のフレームエネルギEtot又は現在の信号セグメントに対するサブバンドエネルギを合計することで計算可能な信号セグメント又はフレームのエネルギと呼ばれうる。
【0136】
上記の方法において使用された他のエネルギ特徴量、すなわち長期最小エネルギレベルlt_minは、複数の前オーディオ信号セグメント又はフレームにわたり判定される推定値である。あるいは、lt_minは、例えばEtot_l_lpで示されうるlt_minを導出する1つの基本的な方法は、ある数の過去のフレームにわたり現在のフレームエネルギの履歴の最小値を使用する方法である。「現在のフレームエネルギ−長期最小推定値」として計算された値が、例えばTHR1で示された閾値を下回る場合、現在のフレームエネルギは、ここでは、長期最小エネルギに近接するか、あるいは長期最小エネルギに接近すると言う。すなわち、(Etot−lt_min)<THR1の場合、現在のフレームエネルギEtotは、長期最小エネルギlt_minに接近すると判定されうる(202)。(Etot−lt_min)=THR1の場合は、実現例に依存して決定され、202:1又は202:2のいずれかで示されうる。
図2における符号202:1は、現在のフレームエネルギがlt_minに接近しないという決定を示し、202:2は、現在のフレームエネルギがlt_minに接近するという決定を示す。XXX:Yの形式の
図2における他の符号は、対応する決定を示す。特徴lt_minを以下に更に詳細に説明する。
【0137】
現在の背景雑音推定値を超える最小値は、低下するように、ゼロ又は小さな正数であると仮定されてもよい。例えば、以下の符号において例示されるように、「totalNoise」で示され、例えば10*log10Σbackr[i]として判定されうる背景推定値の現在の合計エネルギは、当該低下を実現するためにゼロの最小値を超えることを要求されうる。あるいは又は更に、サブバンド背景雑音推定値を含むベクトルbackr[i]における各エントリは、低下を実行するために最小値E_MINと比較されうる。以下の符号の例においては、E_MINは小さな正数である。
【0138】
なお、本明細書において提案する解決方法の好適な一実施形態によれば、オーディオ信号セグメントのエネルギレベルがlt_minより高い閾値を上回るかの決定は、入力オーディオ信号から導出された情報のみに基づき、すなわち、サウンドアクティビティ検出器の決定からのフィードバックに基づかない。
【0139】
現在のフレームがポーズを含むか否かを判定すること204は、1つ以上の基準に基づく種々の方法で実行されうる。ポーズ基準は、ポーズ検出器とも呼ばれうる。単一のポーズ検出器又は種々のポーズ検出器の組み合わせが適用されうる。ポーズ検出器を組み合わせることにより、各検出器は、種々の状態においてポーズを検出するために使用可能である。現フレームがポーズ、すなわち非アクティブを含みうる1つの指標は、フレームに対する相関特徴量が低いこと及び複数の前フレームも低い相関特徴量を有していたことである。現在のエネルギが長期最小エネルギに近接し、且つポーズが検出された場合、背景雑音は、
図2に示されるように現在の入力に従って更新されうる。オーディオ信号セグメントのエネルギレベルがlt_minより高い閾値を下回ることに加え、事前定義済みの数の連続する前オーディオ信号セグメントがアクティブ信号を含まないと判定されており、及び/又はオーディオ信号のダイナミックが閾値を超える場合、ポーズは検出されると考えられてもよい。これは、更に以下のコードの例においても示される。
【0140】
背景雑音推定値の低下206により、背景雑音推定値が「高くなりすぎる」、すなわち本来の背景雑音に対して状況に対処できる。また、またこれは、例えば背景雑音推定値が実際の背景雑音から逸れることとして表現されてよい。高すぎる背景雑音推定値は、現在の信号セグメントがアクティブな音声又は楽音を含んでいても非アクティブであると判定されるSADによる不適切な決定を招く恐れがある。背景雑音推定値が高くなりすぎる理由は、例えばノイズ推定が楽音を背景と間違えており、且つノイズ推定値の増加を可能にしている楽音における誤った又は望ましくない背景雑音更新である。開示された方法により、例えば入力信号の後続のフレームが楽音を含むと判定される場合にそのように誤って更新された背景雑音推定値を調整できる。現在の入力信号セグメントエネルギが例えばサブバンドにおいて現在の背景雑音推定値より高い場合であっても、ノイズ推定値が減少する背景雑音推定値の強制的な低下により、このような調整が行われる。なお、背景雑音推定に対する上述の論理は、背景サブバンドエネルギの増加を制御するために使用される。現在のフレームサブバンドエネルギが背景雑音推定値より低い場合、それは、サブバンドエネルギを低下させることが常に許可されている。この機能は、
図2に明示的には示されない。そのような減少は、通常、ステップサイズに対して固定の設定を有する。しかし、背景雑音推定値は、上述の方法に係る決定論理と関連付けられてのみ増加できるべきである。ポーズが検出される場合、更にエネルギ特徴及び相関特徴は、実際の背景雑音が更新される前に背景推定値増加に対する調整ステップサイズがどのくらいの大きさであるべきかを決定する207ために使用されてもよい。
【0141】
上述したように、いくつかの楽音セグメントは、ノイズにあまりに類似するために背景雑音から分離するのが困難でありうる。従って、入力信号がアクティブ信号であったとしても、ノイズ更新論理により、サブバンドエネルギ推定値が偶発的に増加できてもよい。ノイズ推定値が本来より高くなりうるため、これにより問題が生じうる。
【0142】
従来の背景雑音推定器においては、入力サブバンドエネルギが現在のノイズ推定値を下回った場合にのみ、サブバンドエネルギ推定値は低下しうる。しかし、いくつかの楽音セグメントがノイズにあまりに類似するために背景雑音から分離するのが困難でありうるため、本発明者等は、楽音に対する回復戦略が必要であることを認識している。ここで説明する実施形態においては、そのような回復は、入力信号が楽音のような特性に戻る場合に強制的なノイズ推定値低下により行われうる。すなわち、上述のエネルギ及びポーズの論理がノイズ推定値の増加を防止する場合(202:1、204:1)、入力が楽音であると疑われるかをテストし(203)、疑われる場合(203:2)、ノイズ推定値が最低レベルに到達するまで(205:2)、サブバンドエネルギは、フレーム毎に少量だけ低下する(206)。
【0143】
上述したような背景推定器は、VAD又はSADにおいて、及び/又は符号化器及び/又は復号器において含まれるか、あるいは実現されてよい。符号化器及び/又は復号器は、例えば移動電話、ラップトップ、タブレット等のユーザデバイスにおいて実現されてよい。背景推定器は、例えばコーデックの一部としてメディアゲートウェイ等のネットワークノードに更に含まれうる。
【0144】
図5は、例示的な一実施形態に係る背景推定器の実現例を概略的に示すブロック図である。入力フレーミング部51は、最初に入力信号を適切な長さ、例えば5ms〜30msのフレームに分割する。フレーム毎に、特徴抽出器52は、入力から少なくとも以下の特徴を計算する。1)特徴抽出器は周波数領域においてフレームを分析し、一組のサブバンドに対するエネルギを計算する。サブバンドは、背景推定のために使用されるのと同一のサブバンドである。2)特徴抽出器は、時間領域においてフレームを更に分析し、フレームがアクティブコンテンツを含むか否かを判定する際に使用されるcor_est及び/又はlt_cor_est等で示された相関を計算する。3)特徴抽出器は、長期最小エネルギlt_min等の現在の入力フレーム及び前の入力フレームのエネルギ履歴に対する特徴を更新するために、例えばEtotで示された現在のフレーム合計エネルギを更に利用する。次に、相関特徴量及びエネルギ特徴量が、更新決定論理ブロック53に供給される。
【0145】
ここに開示する解決方法に係る決定論理は、更新決定論理ブロック53において実現される。ブロック53においては、相関特徴量及びエネルギ特徴量は、現在のフレームエネルギが長期最小エネルギに近接するか否か、現在のフレームがポーズの一部である(アクティブ信号ではない)か否か及び現在のフレームが楽音の一部であるか否かに関する決定を下すために使用される。本明細書において説明する実施形態に係る解決方法は、背景雑音推定値を強固に更新するためにこれらの特徴及び決定が使用される方法を含む。
【0146】
ここに開示する解決方法の実施形態のいくつかの実現例の詳細を以下に説明する。以下の実現例の詳細は、G.718に基づく符号化器における実施形態から得られる。本実施形態は、国際公開第WO2011/049514号及び国際公開第WO2011/049515号において説明された特徴のうちのいくつかを使用する。
【0147】
以下の特徴量は、国際公開第WO2011/049514号において説明された修正済みのG.718において規定される。
Etot; 現在の入力フレームに対する合計エネルギ
Etot_l 最小エネルギ包絡線をトラッキングする
Etot_l_lp; 最小エネルギ包絡線Etot_lの平滑化バージョン
totalNoise; 背景推定値の現在の合計エネルギ
bckr[i]; サブバンド背景推定値を有するベクトル
tmpN[i]; 事前に計算された潜在的な新しい背景推定値
aEn; 複数の特徴を使用する背景検出器(カウンタ)
harm_cor_cnt 相関又は高調波事象を有する最後のフレームからのフレームをカウントする
act_pred 入力フレーム特徴のみからのアクティビティの予測
cor[i] i=0現在のフレームの最後、i=1現在のフレームの最初、i=2前のフレームの最後に対して、相関推定値を有するベクトル
【0148】
以下の特徴量は、国際公開第WO2011/049515号において説明された修正済みのG.718において規定される。
Etot_h 最大エネルギ包絡線をトラッキングする
sign_dyn_lp; 平滑化された入力信号ダイナミクス
【0149】
更に特徴量Etot_v_hは、国際公開第WO2011/049514号において規定されたが、本実施形態においては、修正されており、ここで以下のように実現される。
【0150】
Etot_v = (float) fabs(*Etot_last - Etot);
if( Etot_v < 7.0f) /*なお、VADフラグ等はここでは使用されない*/
{
*Etot_v_h -= 0.01f;
if (Etot_v > *Etot_v_h)
{
if ((*Etot_v -*Etot_v_h) > 0.2f)
{
*Etot_v_h = *Etot_v_h + 0.2f;
}
else
{
*Etot_v_h = Etot_v; }}}
【0151】
Etot_vは、フレーム間の絶対エネルギ変動、すなわちフレーム間の瞬間的なエネルギ変動の絶対値を測定する。上記の例においては、最後のフレームエネルギと現在のフレームエネルギとの差分が7個のユニットより小さい場合、2つのフレーム間のエネルギ変動は、「低い」と判定される。これは、現在のフレーム(及び前のフレーム)がポーズの一部であってもよい、すなわち背景雑音のみを含んでもよいことの指標として利用される。しかし、あるいはそのような低い変動性は、例えば音声バーストの中間で見つけられうる。変更可能なEtot_lastは、前のフレームのエネルギレベルである。
【0152】
コードにおいて説明される上記のステップは、
図2のフローチャートにおける「相関及びエネルギを計算/更新する」ステップの一部として、すなわち動作201の一部として実行されうる。国際公開第WO2011/049514号の実現例においては、VADフラグは、現在のオーディオ信号セグメントが背景雑音を含んでいたか否かを判定するために使用された。本発明者等は、フィードバック情報への依存が問題となる恐れがあることを認識している。ここに開示する解決方法においては、背景雑音推定値を更新するか否かの決定は、VAD(又はSAD)の決定に依存しない。
【0153】
また、ここに開示する解決方法においては、国際公開第WO2011/049514号の実現例の一部ではない以下の特徴は、同一のステップ、すなわち
図2に示された相関及びエネルギを計算/更新するステップの一部として計算/更新されてもよい。これらの特徴は、背景推定値を更新するか否かの決定論理において更に使用される。
【0154】
より適切な背景推定を達成するために、多数の特徴を以下に規定する。例えば、新しい相関に関連した特徴cor_est及びlt_cor_estが規定される。特徴cor_estは、現在のフレームにおける相関の推定値であり、相関の平滑化された長期推定値であるlt_cor_estを生成するために更に使用される。
【0155】
cor_est = (cor[0] + cor[1] + cor[2]) / 3.0f ;
st->lt_cor_est = 0.01f*cor_est + 0.99f * st->lt_cor_est;
【0156】
上述したように、cor[i]は相関推定値を含むベクトルであり、cor[0]は現在のフレームの最後を表し、cor[1]は現在のフレームの最初を表し、cor[2]は前のフレームの最後を表す。
【0157】
また、どのくらいの頻度で背景推定値が現在のフレームエネルギに近接するかの長期推定値を与えるlt_tn_trackが計算される。現在のフレームエネルギが現在の背景推定値に十分に近接する場合、これは、背景が近接するか否かを信号送信する(1/0)条件により登録される。この信号は、長期尺度lt_tn_trackを形成するために使用される。
【0158】
st->lt_tn_track = 0.03f* (Etot - st->totalNoise < 10) + 0.97f*st->lt_tn_track;
【0159】
この例においては、現在のフレームエネルギが背景推定値に近接している場合は、0.03が追加され、そうでなければ、唯一残る項が前の値の0.97倍である。この例において、「近接」は、現在のフレームエネルギEtotと背景推定値totalNoiseとの差分が単位10を下回るものとして規定されている。「近接」については他の規定も可能である。
【0160】
更に、現在の背景推定値Etotと現在のフレームエネルギtotalNoiseとの間の距離は、この距離の長期推定値を与える特徴量lt_tn_distを判定するために使用される。同様の特徴量lt_Ellp_distは、長期最小エネルギEtot_l_lpと現在のフレームエネルギEtotとの間の距離に対して作成される。
【0161】
st->lt_tn_dist = 0.03f* (Etot - st->totalNoise) + 0.97f*st->lt_tn_dist;
st->lt_Ellp_dist = 0.03f* (Etot - st->Etot_l_lp) + 0.97f*st->lt_Ellp_dist;
【0162】
先に導入された特徴量harm_cor_cntは、相関又は高調波事象を有する最後のフレームからの、すなわちアクティビティに関連するある特定の基準を満たすフレームからのフレームの数をカウントするために使用される。すなわち、条件harm_cor_cnt==0の場合、現在のフレームが相関又は高調波事象を示すため、これは、現在のフレームがアクティブフレームである可能性が最も高いことを示す。どのくらいの頻度でそのような事象が発生するかを示す長期の平滑化された推定値lt_haco_evを形成するためにこれが使用される。この場合、更新は対称的ではなく、すなわち以下に示すように、推定値が増加又は減少する場合に種々の時定数が使用される。
【0163】
if (st->harm_cor_cnt == 0) /*おそらくアクティブの場合*/
{
st->lt_haco_ev = 0.03f + 0.97f*st->lt_haco_ev; /*長期推定値を増加する*/
}
else
{
st->lt_haco_ev = 0.99f*st->lt_haco_ev; /*長期推定値を低減する*/
}
【0164】
先に導入された特徴量lt_tn_trackの低い値は、入力フレームエネルギがいくつかのフレームに対する背景エネルギに近接していないことを示す。これは、現在のフレームエネルギが背景エネルギ推定値に近接しないフレーム毎に、lt_tn_trackが減少するためである。lt_tn_trackは、現在のフレームエネルギが先に示したように背景エネルギ推定値に近接する場合にのみ増加する。この「非トラッキング」、すなわち背景推定値から遠いフレームエネルギがどのくらいの間続いているかをより適切に推定するために、このようにトラッキングのないフレームの数に対するカウンタlow_tn_track_cntは、以下のように形成される。
【0165】
if (st->lt_tn_track<0.05f) /*lt_tn_trackが低い場合*/
{
st->low_tn_track_cnt++; /*1をカウンタに追加する*/
}
else
{
st->low_tn_track_cnt=0; /*カウンタをリセットする*/
}
【0166】
上記の例においては、「低い」は、値0.05を下回るものとして規定されている。これは、異なる方法で選択可能な例示的な値として見られるべきである。
【0167】
図2に示されたステップ「ポーズ及び楽音の判定を行う」に対して、背景検出でも示されるポーズ検出を形成するために、以下の3つのコード表現が使用される。他の実施形態及び実現例においては、ポーズ検出のために更に他の基準が追加されてもよい。実際の楽音判定は、相関特徴量及びエネルギ特徴量を用いてコードにおいて行われる。
【0168】
1:bg_bgd = Etot < Etot_l_lp + 0.6f * st->Etot_v_h;
Etotが背景雑音推定値に近接する場合、bg_bgdは、「1」又は「真」になる。bg_bgdは、他の背景検出器に対するマスクになる。すなわち、bg_bgdが「真」でない場合、以下の背景検出器2及び3を評価する必要はない。Etot_v_hは、代わりにN
varで示されうる雑音変動推定値である。Etot_v_hは、フレーム間の絶対エネルギ変動を測定するEtot_vを使用して入力合計エネルギ(ログ領域における)から導出される。なお、特徴量Etot_v_hは、小さな一定値、例えばフレーム毎に0.2を最大に増加させることのみに限定されない。Etot_l_lpは、最小エネルギ包絡線Etot_lの平滑化バージョンである。
【0169】
2:aE_bgd = st->aEn == 0;
aEnがゼロの場合、aE_bgdは、「1」又は「真」になる。aEnは、アクティブ信号が現在のフレームに存在すると判定される場合に増分され、且つ現在のフレームがアクティブ信号を含まないと判定される場合に減少されるカウンタである。aEnは、ある特定の数、例えば6を上回っては増分されず、ゼロを下回るまで低下されないようにしてもよい。アクティブ信号を有さない6等の複数の連続したフレームの後、aEnはゼロに等しくなる。
【0170】
3:
sd1_bgd = (st->sign_dyn_lp > 15) && (Etot - st->Etot_l_lp ) < st->Etot_v_h && st->harm_cor_cnt > 20;
ここで、sd1_bgdは、3つの異なる条件が真である場合に「1」又は「真」になる。信号ダイナミクスsign_dyn_lpは高く、この例においては15を上回る。現在のフレームエネルギは、背景推定値に近接する。ある特定の数のフレーム、この例においては20個のフレームは、相関又は高調波事象なしで通過している。
【0171】
bg_bgdの機能は、現在のフレームエネルギが長期最小エネルギに近接することを検出するためのフラグでありうる。後者の2つ、すなわちaE_bgd及びsd1_bgdは、異なる状態におけるポーズ又は背景の検出を表す。aE_bgdは、2つの最も一般的な検出器であり、sd1_bgdは、高いSNRにおける音声ポーズを主に検出する。
【0172】
ここに開示する技術の一実施形態に係る新しい決定論理は、以下のコードにおいて以下のように構成される。決定論理はマスキング条件bg_bgd、並びに2つのポーズ検出器aE_bgd及びsd1_bgdを含む。totalNoiseの最小エネルギ推定のトラッキング具合について長期統計を評価する第3のポーズ検出器もあってよい。第1の線が真であるかを評価した条件は、ステップサイズがどのくらいの大きさであるべきかに関する決定論理であり、updt_step及び実際のノイズ推定更新は、値を「st->bckr[i]=-」に割り当てることである。なお、tmpN[i]は、国際公開第WO2011/049514号において説明された解決方法に従って計算された前に計算された潜在的に新しいノイズレベルである。以下の決定論理は、以下の符号に関連して部分的に示される
図2の部分209に従う。
【0173】
if (bg_bgd && ( aE_bgd II sd1_bgd II st->lt_tn_track >0.90f ) ) /*202:2及び204:2の場合)*/
{
if( (st->act_pred < 0.85f II ( aE_bgd && st->lt_haco_ev < 0.05f ) ) &&
(st->lt_Ellp_dist < 10 II sd1_bgd ) && st->lt_tn_dist<40 &&
( (Etot - st->totalNoise ) < 15.0f II st->lt_haco_ev < 0.10f ) ) /*207*/
{
st->first_noise_updt = 1;
for( i=0; i< NB_BANDS; i++ )
{
st->bckr[i] = tmpN[i) /*208*/
}
}
else if (aE_bgd && st->lt_haco_ev < 0.15f)
{
updt_step=0.1f;
if (st->act_pred > 0.85f )
{
updt_step=0.01f /*207*/
}
if (updt_step > 0.0f)
{
st->first_noise_updt = 1;
for[ i=0; i< NB_BANDS; i++ )
{
st->bckr[i] = st->bckr[i] + updt_step * (tmpN[i]-st->bckr[i]); /*208*/
}}}
else
{
(st->first_noise_updt) +=1;
}
}
else
{
/*楽音において更に低下させるようにbackrを低下させる場合*/ /*203:2及び205:1の場合*/
If ( st->low_tn_track_cnt > 300 && st->lt_haco_ev > 0.9f && st-> totalNoise > 0.0f)
{
For ( i=0; i< NB_BANDS; i++)
{
If (st->bckr[i] > 2 * E_MIN
{
St->bckr[i] = 0.98f * st->bckr[i]; /*206*/
}
}
}
Else
{
(st->first_noise_updt) += 1;
}
}
【0174】
「/*楽音において...場合*/」から始まる最後のコードブロックにおけるコードセグメントは、現在の入力が楽音であると疑われる場合に使用される背景推定値の強制的な減少を含む。これは関数として決定される。すなわち、最小エネルギ推定と比較して背景雑音を不適切にトラッキングする長期間、AND、高調波事象又は相関事象の頻繁な発生、AND、最後の条件「totalNoise>0」は、背景推定の現在の合計エネルギがゼロより大きいというチェックであり、これは、背景推定値の低下が考慮されうることを示す。また、「bckr[i]>2」*E_MIN」であるかが判定され、式中、E_MINは小さな正の数である。(例においては0.98を乗算されることにより)低下するよう、エントリはE_MINを超える必要があるため、これは、サブバンド背景推定値を含むベクトルにおける各エントリのチェックである。これらのチェックは、背景推定値が小さすぎる値に低下することを回避するために作成される。
【0175】
実施形態は、改善されたSAD/VADの性能により、効率のよいDTX解決方法を実現し、且つクリッピングにより発生する音声品質又は楽音の劣化を回避できる背景雑音推定を向上させる。
【0176】
Etot_v_hから国際公開第WO2011/09514号において説明した決定フィードバックを除外することにより、ノイズ推定とSADとがより適切に分離される。SAD機能/チューニングが変更される場合/時にノイズ推定が変更されないため、これは利点を有する。すなわち、背景雑音推定の判定は、SADの機能とは無関係になる。また、ノイズ推定論理のチューニングは、背景推定値が変更される際にSADからの二次効果による影響を受けないため、より容易になる。