(58)【調査した分野】(Int.Cl.,DB名)
請求項15に記載の装置であって、前記重み付け情報生成部(110)は、ラウドスピーカとマイクロホンとの間の室内インパルス応答に依存し、残響時間T60に依存し、又は直接対残響のエネルギー比に依存して、前記残響スペクトルレベル(zn[l])を生成するよう構成されている、装置。
スピーチ入力信号から修正済みスピーチ信号を生成する方法であって、前記スピーチ入力信号は複数のスピーチサブバンド信号を含み、前記修正済みスピーチ信号は複数の修正済みサブバンド信号を含み、前記方法は、
前記複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成するステップと、
前記各スピーチサブバンド信号に対して当該スピーチサブバンド信号の前記重み付け情報を適用することで、前記複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の1つの修正済みサブバンド信号を取得するステップと、を含み、
前記複数のスピーチサブバンド信号の各々のための前記重み付け情報を生成するステップと、前記スピーチサブバンド信号の各々を修正するステップとは、前記複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、前記複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅されるように実行され、
前記第1信号パワーが前記第2信号パワーよりも大きいとき、前記第1増幅度は前記第2増幅度よりも低く設定されている、方法。
【発明を実施するための形態】
【0018】
図1は、スピーチ入力信号から修正済みスピーチ信号を生成する、一実施形態に係る装置を示す。スピーチ入力信号は複数のスピーチサブバンド信号を含む。修正済みスピーチ信号は複数の修正済みサブバンド信号を含む。
【0019】
その装置は、複数のスピーチサブバンド信号の各スピーチサブバンド信号のための重み付け情報を、当該スピーチサブバンド信号の信号パワーに依存して生成する重み付け情報生成部110を含む。
【0020】
さらにその装置は、各スピーチサブバンド信号に対してそのスピーチサブバンド信号の重み付け情報を適用することで、複数のスピーチサブバンド信号の各スピーチサブバンド信号を修正して、複数の修正済みサブバンド信号の各修正済みサブバンド信号を取得する信号修正部120を含む。
【0021】
複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅されるように、重み付け情報生成部110は複数のスピーチサブバンド信号の各々のための重み付け情報を生成し、かつ信号修正部120はスピーチサブバンド信号の各々を修正するよう構成され、第1信号パワーは第2信号パワーよりも大きく、第1増幅度は第2増幅度よりも低い。
【0022】
図3aと
図3bとは、この状態を更に詳細に示す。特に、
図3aはスピーチサブバンド信号の増幅が行われる前のスピーチサブバンド信号のスピーチ信号パワーを示す。
図3bはスピーチサブバンド信号の増幅の結果として得られた修正済みサブバンド信号のスピーチ信号パワーを示す。
【0023】
図3aと
図3bとは、第1スピーチサブバンド信号のオリジナルの第1信号パワー311が増幅され、その増幅によって低減され、その結果として、第1スピーチサブバンド信号のより小さい第1信号パワー321が得られる実施形態を示す。第2スピーチサブバンド信号のオリジナルの第2信号パワー312は増幅され、その増幅によって増強され、その結果として、第
2スピーチサブバンド信号のより大きな第2信号パワー322が得られる。このように、第1スピーチサブバンド信号は第1増幅度を用いて増幅されており、第2スピーチサブバンド信号は第2増幅度を用いて増幅されており、第1増幅度は第2増幅度よりも低い。第1スピーチサブバンド信号の第1のオリジナルの信号パワーは、第2スピーチサブバンド信号の第2のオリジナルの信号パワーよりも大きいものであった。
【0024】
図3aと
図3bとにおいて、第1及び第3のスピーチサブバンド信号の各信号パワー311及び313は増幅によって低減されており、第2、第4及び第5のスピーチサブバンド信号の各信号パワー312、314及び315は増幅によって増強されている。このように、第1及び第3のスピーチサブバンド信号の各信号パワー311及び313は、第2、第4及び第5のスピーチサブバンド信号を増幅するのに用いられる増幅度よりも低い増幅度を用いてそれぞれ増幅されている。第1及び第3のスピーチサブバンド信号のオリジナルの各信号パワー311及び313は、第2、第4及び第5のスピーチサブバンド信号のオリジナルの各信号パワー312、314及び315よりも大きいものであった。
【0025】
更に、
図3aと
図3bとにおいて、第2スピーチサブバンド信号のオリジナル信号パワー312は、第4スピーチサブバンド信号のオリジナル信号パワー314よりも大きいことが分かる。第2スピーチサブバンド信号と第4スピーチサブバンド信号との両方が増幅によって増強されているが、第2サブバンド信号は、第4サブバンド信号を増幅するのに用いられた増幅度よりも低い増幅度を用いて増幅されている。なぜなら、第2スピーチサブバンド信号における修正済み(増幅済み)信号パワー322とオリジナル信号パワー312との比が、第4スピーチサブバンド信号における修正済み(増幅済み)信号パワー324とオリジナル信号パワー314との比よりも低いからである。
【0026】
例えば、第2スピーチサブバンド信号の修正済み(増幅済み)信号パワー322は、第2スピーチサブバンド信号のオリジナル信号パワー312の大きさの2倍であり、従って、第2スピーチサブバンド
信号における修正済み信号パワー322とオリジナル信号パワー312との比は2である。第4スピーチサブバンド信号の修正済み(増幅済み)信号パワー324は、第4スピーチサブバンド信号のオリジナル信号パワー314の大きさの3倍であり、従って、第4スピーチサブバンド
信号における修正済み信号パワー324とオリジナル信号パワー314との比は3である。
【0027】
更に、
図3aと
図3bとにおいて、第3スピーチサブバンド信号のオリジナル信号パワー313は、第1スピーチサブバンド信号のオリジナル信号パワー311よりも大きいことが分かる。第3スピーチサブバンド信号と第1スピーチサブバンド信号との両方が増幅によって低減されているが、第3のサブバンド信号は、第1のサブバンド信号を増幅するのに用いられた増幅度よりも低い増幅度を用いて増幅されている。なぜなら、第3スピーチサブバンド信号における修正済み(増幅済み)信号パワー323とオリジナル信号パワー313との比が、第1スピーチサブバンド信号における修正済み(増幅済み)信号パワー321とオリジナル信号パワー311との比よりも低いからである。
【0028】
例えば、第3スピーチサブバンド信号の修正済み(増幅済み)信号パワー323は、第3スピーチサブバンド信号のオリジナル信号パワー313の大きさの67%であり、従って、第
3スピーチサブバンド信号における修正済み信号パワー323とオリジナル信号パワー313との比は0.67である。第1スピーチサブバンド信号の修正済み(増幅済み)信号パワー321は、第1スピーチサブバンド信号のオリジナル信号パワー311の大きさの71%であり、従って、第
1スピーチサブバンド信号における修正済み信号パワー321とオリジナル信号パワー311との比は0.71である。
【0029】
例えば、修正済みサブバンド信号を得るべくスピーチサブバンド信号を増幅するために用いられた増幅度は、修正済みサブバンド信号の信号パワーとスピーチサブバンド信号の信号パワーとの比である。
【0030】
複数のスピーチサブバンド信号のうちの第1信号パワーを有する第1スピーチサブバンド信号が第1増幅度を用いて増幅され、かつ、複数のスピーチサブバンド信号のうちの第2信号パワーを有する第2スピーチサブバンド信号が第2増幅度を用いて増幅され、第1増幅度が第2増幅度よりも低い場合には、例えばこれは、第1スピーチサブバンド信号の増幅の結果として得られた第1修正済みサブバンド信号の信号パワーと第1スピーチサブバンド信号の信号パワーとの比が、第2スピーチサブバンド信号の増幅の結果として得られた第2修正済みサブバンド信号の信号パワーと第2スピーチサブバンド信号の信号パワーとの比よりも低いことを意味する。
【0031】
一実施形態によれば、全てのスピーチサブバンド信号の全てのスピーチ信号パワー(Φ
n[l])の第1合計と、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第2合計との違いが20%よりも小さくなるように、重み付け情報生成部110は複数のスピーチサブバンド信号の各々について重み付け情報を生成し、かつ信号修正部120はスピーチサブバンド信号の各々を修正するよう構成されてもよい。
【0032】
換言すれば、全てのスピーチサブバンド信号の全てのスピーチ信号パワー(Φ
n[l])の第1合計を、全ての修正済みサブバンド信号の全てのスピーチ信号パワーの第2合計で除算すると、その結果が値dとなり、ここで、0.8≦d≦1.2が真となる。
【0033】
図2は、修正済みスピーチ信号を生成する、他の実施形態にかかる装置を示す。
【0034】
図2の装置と
図1の装置との相違点は、
図2の装置が第1フィルタバンク105と第2フィルタバンク125とを更に備える点である。
【0035】
第1フィルタバンク105は、時間ドメインで表現されている未処理のスピーチ信号を、時間ドメインからサブバンドドメインへと変換して、複数のスピーチサブバンド信号を含むスピーチ入力信号を取得するよう構成されている。
【0036】
第2フィルタバンク125は、サブバンドドメインで表現され且つ複数の修正済みサブバンド信号を含む修正済みスピーチ信号を、サブバンドドメインから時間ドメインへと変換して、時間ドメインの出力信号を取得するよう構成されている。
【0037】
図4aは、修正済みスピーチ信号を生成する、更なる実施形態にかかる装置を示す。
【0038】
図2の実施形態とは対照的に、
図4aの装置は第3フィルタバンク108を更に含み、この第3フィルタバンク108は、時間ドメインのノイズ参照(noise reference)r[k]を、時間ドメインからサブバンドドメインへと変換して、ノイズ入力信号の複数のノイズサブバンド信号r
n[k]を取得する。
【0039】
更に、この実施形態にかかる重み付け情報生成部110をより詳細に説明する。この重み付け情報生成部110は、スピーチサブバンド信号の各々についてのスピーチ信号パワーを以下のように計算する、スピーチ信号パワー計算部131を含む。更に、重み付け情報生成部110は、スピーチサブバンド信号の各々についてのスピーチスペクトルレベルを以下のように計算する、スピーチスペクトルレベル計算部132を含む。更に、重み付け情報生成部110は、ノイズ入力信号のノイズサブバンド信号の各々についてのノイズスペクトルレベルを以下のように計算する、ノイズスペクトルレベル計算部133を含む。
【0040】
一実施形態において、ノイズ入力信号の複数のノイズサブバンド信号のうちの1つのノイズサブバンド信号r
n[k]が、複数のスピーチサブバンド信号の各スピーチサブバンド信号s
n[k]に割り当てられている。例えば、各ノイズサブバンド信号が同じサブバンドのスピーチサブバンド信号に割り当てられている。重み付け情報生成部110は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号s
n[k]の重み付け情報を、当該スピーチサブバンド信号(s
n[k])のノイズサブバンド信号r
n[k]のノイズスペクトルレベルd
n[l]に依存して生成するよう構成されている。更に、重み付け情報生成部110は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号s
n[k]の重み付け情報を、当該スピーチサブバンド信号のスピーチスペクトルレベルe
n[l]に依存して生成するよう構成されている。
【0041】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について信号対ノイズ比を以下のように計算する、SNR計算部134を含む。
【0042】
例えば、一実施形態によれば、重み付け情報生成部110は、複数のスピーチサブバンド信号のうちの各スピーチサブバンド信号s
n[k]の重み付け情報を、当該スピーチサブバンド信号s
n[k]のスピーチスペクトルレベルe
n[l]と、スピーチサブバンド信号s
n[k]のノイズサブバンド信号r
n[k]のノイズスペクトルレベルd
n[l]との信号対ノイズ比を決定することで、生成するよう構成されている。例えば、スピーチサブバンド信号s
n[k]のスピーチスペクトルレベルe
n[l]と、スピーチサブバンド信号s
n[k]のノイズサブバンド信号r
n[k]のノイズスペクトルレベルd
n[l]との信号対ノイズ比q(e
n,d
n)は、次式により定義されてもよい。
【0044】
ここで、e
nは前記スピーチサブバンド信号s
n[k]のスピーチスペクトルレベルであり、d
nは前記スピーチサブバンド信号s
n[k]のノイズサブバンド信号r
n[k]のノイズスペクトルレベルである。
【0045】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々についての圧縮比を以下のように計算する、圧縮比計算部135を含む。
【0046】
例えば、一実施形態によれば、重み付け情報生成部110、例えば圧縮比計算部135は、圧縮比cr
n[l]を次式に従って決定するよう構成されている。
【0048】
ここで、q(e
n[l],d
n[l])は、前記スピーチスペクトルレベルの信号対ノイズ比であり、その信号対ノイズ比q(e
n[l],d
n[l])は0と1の間のある数値を示し、cr
(max)はある固定値を示し、lはあるブロックを示す。nはスピーチサブバンド信号のうちの一つ(n番目のスピーチサブバンド信号)を示す。
【0049】
スピーチサブバンド信号の各々が複数のブロックを含み得ることに留意すべきである。ここで、lはn番目のスピーチサブバンド信号の複数のブロックのうちの一つのブロックを示す。複数のブロックの各ブロックは、スピーチサブバンド信号の複数のサンプルを含んでもよい。
【0050】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について、スピーチ信号振幅の包絡の平滑化された推定(smoothed estimate)を以下のように計算する、平滑化済み信号振幅計算部136を含む。
【0051】
例えば、一実施形態において、重み付け情報生成部110、例えば平滑化済み信号振幅計算部136が、スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定
を次式に従って決定するよう構成されてもよい。
【0053】
ここで、s
n[k]は前記スピーチサブバンド信号を示し、|s
n[k]|は前記スピーチサブバンド信号の振幅を示し、α
aは第1平滑化定数であり、α
rは第2平滑化定数である。
【0054】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について圧縮ゲインを以下のように計算する、圧縮ゲイン計算部137を含む。
【0055】
例えば、重み付け情報生成部110は、複数のスピーチサブバンド信号の各スピーチサブバンド信号s
n[k]の重み付け情報を、例えば圧縮ゲイン計算部137を使用して、前記サブバンド信号(s
n[k])の圧縮ゲインw
n,(comp)を次式に従って決定することにより、生成するよう構成されている。
【0057】
ここで、Mはブロックlの長さを示し、Φ
n[l]は前記スピーチサブバンド信号s
n[k]の信号パワーを示し、
は前記スピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す。
【0058】
Φ
n[l]は、長さMの(完全な)ブロックlについてのスピーチサブバンド信号s
n[k]のスピーチ信号パワーを示してもよく、
はそのブロックの特定サンプルのスピーチ信号振幅の包絡の平滑化された推定の二乗を示してもよい。圧縮、例えば音量の大きなサンプルが低減される一方で、静かなサンプルが増大する。
【0059】
更に、重み付け情報生成部110は、スピーチ了解度指数を以下のように計算する、スピーチ了解度指数計算部138を含む。
【0060】
例えば、一実施形態において、重み付け情報生成部110、例えばスピーチ了解度指数計算部138は、スピーチ了解度指数
を次式に従って決定するよう構成されてもよい。
【0062】
ここで、nは複数のスピーチサブバンド信号のうちのn番目のスピーチサブバンド信号を示し、Nはスピーチサブバンド信号の総数を示し、lはブロックを示し、q(e
n,d
n)は、n番目のスピーチサブバンド信号s
n[k]のスピーチスペクトルレベルe
n[l]と、n番目のスピーチサブバンド信号s
n[k]のノイズサブバンド信号r
n[k]のノイズスペクトルレベルd
n[l]との信号対ノイズ比を示し、u
nは固定値であるスピーチスペクトルレベルを示し、i
nは帯域重要度(band importance)を示す。
【0063】
更に、重み付け情報生成部110は、スピーチサブバンド信号の各々について以下に説明するように線形ゲインを計算する、線形ゲイン計算部139を含む。
【0064】
例えば、一実施形態によれば、重み付け情報生成部110はスピーチ了解度指数
を決定し、更に、複数のスピーチサブバンド信号の各スピーチサブバンド信号の各スピーチサブバンド信号s
n[k]について、スピーチサブバンド信号s
n[k]のスピーチスペクトルレベルe
n[l]と、スピーチサブバンド信号s
n[k]のノイズサブバンド信号r
n[k]のノイズスペクトルレベルd
n[l]との信号対ノイズ比を決定することにより、スピーチ入力信号の複数のスピーチサブバンド信号の重み付け情報を生成するよう構成されてもよい。スピーチ了解度指数SIIはスピーチ入力信号のスピーチ了解度を示している。
【0065】
例えば、重み付け情報生成部110は、例えば線形ゲイン計算部139を使用して、スピーチ了解度指数
と、スピーチサブバンド信号s
n[k]の信号パワーΦ
n[l]と、複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計(Φ
(max)[l])とに依存して、複数のスピーチサブバンド信号の各スピーチサブバンド信号s
n[k]について線形ゲインw
n,(lin)を決定することにより、複数のスピーチサブバンド信号の各スピーチサブバンド信号s
n[k]の重み付け情報を生成するよう構成されてもよい。
【0066】
例えば、重み付け情報生成部110は、複数のスピーチサブバンド信号の各スピーチサブバンド信号s
n[k]についての線形ゲインw
n,(lin)を、次式に従って生成するよう構成されてもよい。
【0068】
ここで、nは複数のスピーチサブバンド信号のうちのn番目のスピーチサブバンド信号を示し、Nはスピーチサブバンド信号の総数を示し、lはブロックを示し、Φ
n[l]はn番目のスピーチサブバンド信号の信号パワーを示し、Φ
(max)[l]は複数のスピーチサブバンド信号の全てのスピーチサブバンド信号の信号パワーの合計を示す。例えば、Φ
(max)[l]はブロックl内のスピーチ信号の広帯域パワーを示す。
【0069】
上述した式を理解し易くするために、ブロックlに対する
の依存性は明示されていない。しかしながら、
はブロックlに依存している点に留意すべきである。
【0070】
は0(了解度なし)と1(完全な了解度)との間のある指数であってもよい。上述したw
n,(lin)の式について、
のような極端な場合を以下に考察する。
【0071】
の場合、第1項の分子と第2項の分母とが同一になり、従って上述のw
n,(lin)の式から除去され得る。更に、
の場合、第2項の分子と第1項の分母とが同一になり、従ってまた上述のw
n,(lin)の式から除去され得る。このようにスピーチ了解度が完全である場合、w
n,(lin)が1となり、例えばその信号は修正されない。
【0072】
の場合、第1項は1/Nとなり、その結果、例えば全体のパワーはN個の全ての周波数帯域の中で均等に分配される。
【0073】
図5aは一実施形態に従うアルゴリズムのフローチャートを示す。
【0074】
ステップ141では、時間ドメインで表現された未処理のスピーチ信号s
n[k]が時間ドメインからサブバンドドメインへと変換されて、サブバンドドメインで表現されたスピーチ入力信号が取得され、そのスピーチ入力信号は複数のスピーチサブバンド信号s
n[k]を含む。
【0075】
ステップ142では、時間ドメインで表現された時間ドメイン・ノイズ参照r[k]が時間ドメインからサブバンドドメインへと変換されて、複数のノイズサブバンド信号r
n[k]が取得される。
【0076】
ステップ151においては、以下に説明するように、スピーチサブバンド信号の各々についてスピーチ信号パワーが計算される。更に、ステップ152では、以下に説明するように、スピーチサブバンド信号の各々についてスピーチスペクトルレベルが計算される。更に、ステップ153では、以下に説明するように、スピーチサブバンド信号の各々についてノイズスペクトルレベルが計算される。更に、ステップ154では、以下に説明するように、スピーチサブバンド信号の各々について信号対ノイズ比が計算される。更に、ステップ155では、以下に説明するように、スピーチサブバンド信号の各々について圧縮比が計算される。更に、ステップ156では、以下に説明するように、スピーチサブバンド信号の各々についてスピーチ信号振幅の包絡の平滑化された推定が計算される。更に、ステップ157では、以下に説明するように、スピーチサブバンド信号の各々について圧縮ゲインが計算される。更に、ステップ158では、以下に説明するように、スピーチ了解度指数が計算される。更に、ステップ159では、以下に説明するように、スピーチサブバンド信号の各々について線形ゲインが計算される。
【0077】
ステップ161において、以下に説明するように、それぞれのスピーチサブバンド信号に対して、スピーチサブバンド信号の圧縮ゲインを適用し、かつスピーチサブバンド信号の線形ゲインを適用することで、複数のスピーチサブバンド信号が増幅される。
【0078】
ステップ162において、複数の修正済みサブバンド信号を有する修正済みスピーチ信号がサブバンドドメインから時間ドメインへと変換され、時間ドメインの出力信号
が取得される。
【0079】
図4bは、修正済みスピーチ信号を生成する、他の実施形態にかかる装置を示す。
【0080】
図4bに示す実施形態においては、室内音響的情報が提案のアルゴリズム内で考慮されてもよい。スピーチ信号はラウドスピーカによって再生され、妨害されたスピーチ信号がマイクロホンによって集音される。録音された信号は、ノイズr[k]と残響スピーチ信号とを含む。残響スピーチ信号の中に含まれた残響のいくらかの部分は有害であると認められ得る一方で、他の部分はスピーチ了解度にとって有益であると考えられ得る。例えばラウドスピーカとマイクロホンとの間の室内インパルス応答をモデル化するフィルタである室内音響的情報生成部(RIG)、残響時間T60(60db減衰する時間として定義される)、又は直接対残響エネルギー比(DRR)を使用して、残響スペクトルレベルz
n[l]が、重み付け情報生成部110、例えば残響スペクトルレベル計算部163により、室内音響的情報生成部から提供された情報と各サブバンドにおけるサブバンドスピーチ信号s
n[k]とを用いて計算されてもよい。重み付けファクタβを用いて重み付きの加算a
n[l]が決定され得る。
【0082】
この加算は、重み付け情報生成部110、例えば重み付き加算部164により決定されてもよく、また重み付き加算a
n[l]は後続の計算において使用されてもよく、その他の場合にはノイズスペクトルレベルd
n[l]だけが使用される。
【0083】
d
nについて定義された全ての式は、d
nをa
nに置き換えることで、a
nについても適用可能である。例えば、幾つかの実施形態によれば、式(4)、式(5)及び/又は式(8)内において、d
nはa
nで置き換えることができ、その置き換えにより、これらの式は重み付きの加算a
nを考慮に入れることができる。
【0084】
例えば、βは実数であってもよく、ここで、例えば0≦β≦1が適用されてもよい。
【0085】
本質的に、a
nは残響に関する追加的情報(例えば室内インパルス応答、T60、DRRなど)を考慮してもよい。
【0086】
以下に、実施形態の概念、とりわけ
図1、
図2、
図4a、
図4b、
図5a及び
図5bの実施形態で用いられる概念について、より詳細に説明する。
【0087】
本アルゴリズムの入力における明瞭なスピーチ信号(「未処理のスピーチ信号」とも称される)は、離散的な時間指数kにおいてs[k]により表される。
【0088】
ノイズ参照(例えば時間ドメインで表現されている)はr[k]により表され、参照マイクロホンを用いて録音され得る。
【0089】
両方の信号は、あるフィルタバンク、例えばデシメーションなしのIIRフィルタバンクにより、オクターブ帯域に分割される。この点に関しては、例えばVaidyanathanらによる非特許文献4を参照されたい。結果として得られるサブバンド信号は、s[k]とr[k]とについて、それぞれs
n[k]とr
n[k]とで表される。
【0090】
長さMのブロックlについてサブバンドスピーチ信号パワーΦ
n[l]は、次式(1)により計算される。
【0091】
式(1)と中心周波数f
nを有するオクターブ帯域の帯域幅Δf
nとを用いて、等価スピーチスペクトルレベルが計算され得る。
【0092】
同様の計算がノイズサブバンド信号r
n[k](「ノイズ参照信号」とも称される)についても実行され、等価ノイズスペクトルレベルが導かれる。
【0093】
次に、各ブロックについて信号対ノイズ比(SNR)のマッピングが演算され得る。
【0094】
この式(4)からのマッピング関数を使用して、各周波数チャネル内の圧縮比が予め決定された最大圧縮比cr
(max)を使用して計算され得る。最大圧縮比は、典型的にはcr
(max)=8の値に設定される。
【0095】
更に、スピーチ信号振幅の瞬時包絡の平滑化された推定が以下のように計算される。
ここで、α
aとα
rとは、増大する信号振幅の場合と減少する信号振幅の場合とにおける平滑化定数をそれぞれ表している。
【0096】
Φ
n[l]、cr
n[l]、及び
を使用して、圧縮ゲインw
n,(comp)[k]が以下のように計算される。
ここで、l・M−m=kである。
【0097】
更に、スピーチ了解度指数(SII)の推定が以下のように計算される。
ここで、u
nは、ANSI(1997)に従って標準的等価スピーチスペクトルレベルとして定義される。例えば、u
nは固定値であってもよい。
【0098】
ここで、Nは例えばサブバンドの総数を示す。i
nは例えば帯域重要度の関数であり、例えばn番目のサブバンドについての帯域重要度を示しており、ここで、i
nは例えば0〜1の間の値であり、N個の全てのサブバンドのi
nの値は合計して1となる。
【0099】
以下の項目は、SauertとVary(2010)(非特許文献2を参照)から採用したものである。
【0100】
SII値は例えば0〜1の間の値であり、1は非常に良好なスピーチ了解度を示し、0は非常に劣悪なスピーチ了解度を示す。
【0101】
この推定されたSIIを使用して、いわゆる線形ゲイン関数が計算される。
【0102】
上述の式(9)が理解し易くなるように、ブロックlに対する
の依存性は明示されていない。しかしながら、
はブロックlに依存している点に留意すべきである。
【0103】
Φ
(max)[l]は、複数のスピーチサブバンド信号の全てのサブバンド信号の信号パワーの合計を示す。例えば、Φ
(max)[l]は、ブロックlの中のスピーチ信号の広帯域パワーを示す。
【0104】
次に、両方のゲイン関数が組み合わされて、サブバンド信号がそれぞれのゲイン関数で乗算される。即ち、
従って、式(10)は次式と等価となる。
【0105】
一実施例によれば、ここで逆フィルタバンクが適用され、修正済みスピーチ信号が再構築される。
【0106】
しかし他の実施形態によれば、逆フィルタバンクを適用して修正済みスピーチ信号を生成する前に、特にブロックの境界におけるゲイン関数内の急速な変化を防止するために、平滑化処理がw
n[lM−m]に対して適用される。
【0107】
一実施形態において、重み付け情報生成部110は、次式を適用することにより複数のスピーチサブバンド信号の各スピーチサブバンド信号s
n[k]の重み付け情報
を生成するよう構成されている。
【0108】
ここで、nは複数のスピーチサブバンド信号のn番目のスピーチサブバンド信号を示し、Nはスピーチサブバンド信号の総数を示し、lはブロックを示し、α
pは平滑化定数であり、
はスピーチサブバンド信号のスピーチ信号振幅の包絡の平滑化された推定の二乗を示す。
【0109】
以下に、一実施形態にかかる平滑化について説明する。
【0110】
平滑化は、w
n[lM−m]の基底にある入力−出力−特性(IOC)に対して適用される。その入力−出力−特性は、パラメータベクトルλ
n[l]の一部である入力パワーγ
n,i[l]および出力パワーξ
n,i[l]の集合により定義される。即ち、
【0111】
次に、入力−出力−特性は以下の式で定義される。
及び
【0112】
ここで、νはdB FSをdB SPLへと変換する。例えば、0dB FSが100dB SPLと等しいと仮定すると、ν=10
(100/10)となる。IOCの線形のインターポーレーションおよびエクストラポーレーションを実行する関数
は、例えば、現在の入力パワー
に依存してデシベルドメインで上述のパラメータによって定義され、前記現在の入力パワーとしては、例えば式(6)に従って定義されるように、スピーチ信号振幅の包絡の平滑化された推定がある。従って、次式のように記述できる。
【0113】
次に、パラメータベクトルλ
n[l]の各要素λ
n,j[l]に対し、再帰的な平滑化が適用されて、次式が導かれる。
は平滑化されたパラメータベクトルであり、α
λは平滑化定数である。
【0114】
次に、平滑化されたゲインが次式のように計算される。
ここでα
pは、ゲイン関数を時間にわたって更に平滑化するための平滑化定数である。
【0115】
は、平滑化された入力−出力−特性
の線形のインターポーレーションおよびエクストラポーレーションを実行する関数として定義され、
は例えば式(13)と式(21)とにより定義されている通りである。
【0117】
最後に、逆フィルタバンクが適用されて、修正済みスピーチ信号
が再構築される。
【0118】
入力パワーと出力パワーとの差を低減するために、アルゴリズムの出力と入力において、各ブロック内のパワーが平滑化されたパワー推定を用いて正規化される。従って、平滑化された入力パワーは次式のように定義される。
【0119】
ここで、α
Lは平滑化定数であり、Φs[l]は、サブバンド信号ではなく広帯域入力信号s[k]を用いて式(1)に従って計算されたものである。次に、平滑化された出力パワー
が本アルゴリズムの出力信号
を使用して計算される。
【0120】
次に、再生されるべき信号が次式のように計算される。
【0121】
これらの実施形態は従来技術と比べて幾つかの点で異なっている。
【0122】
例えば、幾つかの実施形態では、多帯域スペクトル整形アルゴリズムと多帯域圧縮スキームとが組み合わされており、これらは、多帯域スペクトル整形アルゴリズムと単一帯域圧縮スキームとが組み合わせられたZorilaらの手法(2012a,b)(非特許文献5、非特許文献6を参照)とは対照的である。
【0123】
本提案の概念は、従来技術とは対照的に、線形ゲインと圧縮ゲインとを組み合わせ、その線形ゲインと圧縮ゲインとの両方が時間変化し、瞬時スピーチ信号とノイズ信号とに適応する。
【0124】
更に、幾つかの実施形態は、静的な圧縮スキームを使用したZorilaらの手法(2012a,b)(非特許文献5、非特許文献6を参照)とは対照的に、各周波数帯域内で適応的な圧縮比を適用する。
【0125】
更に、幾つかの実施形態によれば、その圧縮比は、SIIを計算するために使用され従ってスピーチ知覚に関係する、関数に基づいて選択される。
【0126】
更に、幾つかの実施形態では、周波数帯域の均等な重み付けが線形ゲイン関数の中で使用されており、他方、他の関連するアルゴリズムは異なる重み付けを使用する。SauertとVary,2012(非特許文献3)を参照されたい。
【0127】
更に、幾つかの実施形態は、スピーチ知覚に関係するSII(の推定)を使用して、重み付けなしと全ての帯域の均等な重み付けとの間でクロスオーバーさせている。
【0128】
本提案の実施形態は、ノイズの多い環境においてスピーチを聞くときの了解度を改善させることに役立つ。その改善度は、既存の方法を用いた場合よりも有意に高くなり得る。本提案の概念は、上述したように種々の点において先行技術とは異なっている。
【0129】
現状の技術によるアルゴリズム、例えば上述したアルゴリズムも、了解度を改善することができるが、本提案の実施形態の特別な特徴は、現在使用可能な方法よりも一層の効率化を可能とする。
【0130】
本提案の実施形態、例えば本提案の方法は、オーディオ再生を用いた多くの技術的アプリケーションにおける信号プロセッサの一部、又は信号処理ソフトウエアとして使用可能である。例えば、
−鉄道駅、公共交通機関、学校における構内放送システム
−移動電話、ヘッドセットなどの通信装置
−自動車内のインフォテインメント・システム、機内エンターテインメント・システム
−信号ミキシングの前(例えば映画のオーディオ材料のミキシングの間)に複数のオーディオステムを含むメディアファイル内のスピーチの了解度を改善するためのツールとして。
【0131】
更に、本提案の実施形態はまた、残響のような他のタイプの信号妨害に対しても使用可能である。それらの信号妨害は、上述したアルゴリズムの形態ではノイズと同様に取り扱うことができる。
【0132】
図5bは、説明したアルゴリズムの、他の実施形態に係るフローチャートを示す。
【0133】
図5bで示す実施形態においては、室内音響的情報が提案のアルゴリズム内で考慮されてもよい。スピーチ信号はラウドスピーカによって再生され、妨害されたスピーチ信号がマイクロホンによって集音される。録音された信号は、ノイズr[k]と残響スピーチ信号とを含む。残響スピーチ信号の中に含まれた残響のいくらかの部分は有害であると認められ得る一方で、他の部分はスピーチ了解度にとって有益であると考えられ得る。例えばラウドスピーカとマイクロホンとの間の室内インパルス応答をモデル化するフィルタである室内音響的情報生成部(RIG)、残響時間T60(60db減衰する時間として定義される)、又は直接対残響エネルギー比(DRR)を使用して、残響スペクトルレベルz
n[l]が、室内音響的情報生成部から提供された情報と各サブバンドにおけるサブバンドスピーチ信号s
n[k]とを用いて計算されてもよい(符号165を参照)。重み付けファクタβを用いて次式のような重み付きの加算a
n[l]が決定されてもよい(符号166を参照)。
また、重み付きの加算a
n[l]は後続の計算で使用されてもよく、その他の場合にはノイズスペクトルレベルd
n[l]だけが使用される。
【0134】
d
nについて定義された全ての式は、d
nをa
nに置き換えることで、a
nについても適用可能である。例えば、式(4)、式(5)及び/又は式(8)内において、d
nはa
nで置き換えることができ、その置き換えにより、これらの式は重み付きの加算a
nを考慮に入れることができる。
【0135】
例えば、βは実数であってもよく、ここで、例えば0≦β≦1が適用されてもよい。
【0136】
提案のアルゴリズムの性能は、主観的なリスニングテストを使用して、時間及び周波数依存のゲイン特性だけを使用する現状技術のアルゴリズム及び未処理の参照信号と比較された。リスニングテストは、8人の健聴被験者により、2個の異なるノイズタイプ、即ち定常的な自動車ノイズとより非定常的なカフェテリアのノイズとを用いて行われた。各ノイズタイプについて、未処理の参照状態において20%、50%及び80%の言語了解度のポイントに対応する、3つの異なる信号対ノイズ比が測定された。その結果、提案のアルゴリズムは、現状技術のアルゴリズム及び未処理の参照よりも、同等のスピーチレベルにおける両方のノイズシナリオにおいて性能が優れていることが示された。更に、客観的尺度と主観的なデータとの間の相関関係の分析は、順位の高い相関関係および高い線形相関を示しており、その点は、前処理アルゴリズムの評価において、客観的尺度を主観的なデータを予測するために部分的に使用し得ることを示唆している。
【0137】
上述したように、SII依存の増幅および圧縮を用いて背景ノイズにおけるスピーチ了解度を改善する概念が提供された。
【0138】
上述したように、例えば構内放送システム、カーナビゲーションシステム又は移動電話などの通信装置において、明瞭なスピーチ信号が提供される場合も多い。しかしながら、時には近端のリスナーにとって妨害により聞き取れないことも起こり得る。上述の実施形態は、妨害を受けた所与の音響シナリオにおいて、明瞭なスピーチ信号を修正して、了解度及び/又はリスニングの快適さを高めるものである。
【0139】
図6は、実施形態に係る近端リスニング強化が設けられたシナリオを示す。特に
図6は、一実施形態に係る近端リスニング強化が設けられた信号モデルを示す。
【0140】
図6において、次式が適用されてもよい。
【0141】
例えば次式のように完全なノイズ推定が可能であると想定され得る。
【0142】
更に、残響が全くない場合には、次式のようになる。
【0143】
残響も考慮に入れると、このようなことは全ての状態で起こりえないであろう。しかし、その代わりに、例えば室内インパルス応答h[k]のような何らかの室内情報の完全な推定が可能であると想定されてもよい。
【0144】
同等のパワー制約下において、了解度s[k]+r[k]と比較して了解度
を強化する重み付け関数W{・}を見つけることが望まれ得る。
【0145】
同等のパワー制約に従って、全てのサブバンド内の全パワーが増幅前と増幅後とでほぼ同じとなるように、重み付け関数W{・}が決定されてもよい。
【0146】
図7は1〜16000Hzの中心周波数についての長期間スピーチレベルを示す。特に、1つのスピーチ入力信号と複数の修正済みスピーチ信号とについての長期間スピーチレベルを示す。
【0147】
一実施形態にかかるアルゴリズムは、s[k]及び
からSIIを推定し、2つのSII依存のステージ、特に多帯域周波数整形と多帯域圧縮スキームとを組み合わせる。
【0148】
ある主観的な評価が行われた。処理条件は、未処理の参照(「参照」)と、一実施形態に従うアルゴリズムを用いた処理の結果として得られたスピーチ信号(「DynComp」)と、元来はSauertら(非特許文献3を参照)により提案された修正済みアルゴリズムを用いた処理の結果として得られたスピーチ信号(「ModSau」)とに関する主観的評価を含む。
【0149】
その主観的評価に関し、8人の健聴被験者が参加した。2つの異なるノイズ、即ち自動車ノイズとカフェテリアノイズとがテストされた。Oldenburg Sentence Testからのスピーチ材料が使用された。信号対ノイズ比は、20%、50%及び80%の言語了解度の測定ポイントを目標として、選択された。
【0151】
図9は主観的結果に関する相関分析を示す。主観的結果の予測に関して、自動車ノイズ及びカフェテリアノイズの中で、未処理の参照状態から導出されたモデル予測値の非線形変換の後に、相関分析が実施された。
【0152】
主観的評価から、実施形態に従う前処理により、スピーチ了解度の向上が達成されると結論付けられる。実施形態にかかる提案の概念は、スピーチ了解度において最高の改善を示している。更に、スピーチ了解度に関する現在のモデルは主観的データとの高い順位相関を示す。更に、変換されたモデル値に基づく予測は、高い線形相関を示すが、部分的には大きな線形のずれをも示す。
【0153】
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
【0154】
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又はインターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を通じて伝送されることができる。
【0155】
所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0156】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
【0157】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0158】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。
【0159】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0160】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。
【0161】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。
【0162】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0163】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0164】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0165】
上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。