特表2019-537074(P2019-537074A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2019-537074オーディオ信号を処理するための装置および方法
<>
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000073
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000074
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000075
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000076
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000077
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000078
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000079
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000080
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000081
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000082
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000083
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000084
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000085
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000086
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000087
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000088
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000089
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000090
  • 特表2019537074-オーディオ信号を処理するための装置および方法 図000091
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2019-537074(P2019-537074A)
(43)【公表日】2019年12月19日
(54)【発明の名称】オーディオ信号を処理するための装置および方法
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20191122BHJP
   G10L 21/0232 20130101ALI20191122BHJP
   G10L 25/78 20130101ALI20191122BHJP
   G10L 21/0316 20130101ALI20191122BHJP
   G10L 21/0364 20130101ALN20191122BHJP
【FI】
   G10L21/0208 100B
   G10L21/0232
   G10L25/78
   G10L21/0316
   G10L21/0364
【審査請求】有
【予備審査請求】未請求
【全頁数】39
(21)【出願番号】特願2019-541884(P2019-541884)
(86)(22)【出願日】2017年10月17日
(85)【翻訳文提出日】2019年6月10日
(86)【国際出願番号】EP2017076483
(87)【国際公開番号】WO2018073253
(87)【国際公開日】20180426
(31)【優先権主張番号】16194467.3
(32)【優先日】2016年10月18日
(33)【優先権主張国】EP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.Blu−ray
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ロンバード・アンソニー
(72)【発明者】
【氏名】ビッツァー・ベルンハルト
(72)【発明者】
【氏名】マーン・ダーク
(72)【発明者】
【氏名】マバンデ・エドウィン
(72)【発明者】
【氏名】クッヒ・ファビアン
(72)【発明者】
【氏名】ハーベッツ・エマニュエル
(72)【発明者】
【氏名】アニバーレ・パオロ
(57)【要約】
オーディオ信号を処理するための装置は、オーディオ信号分析器と、フィルタとを備える。オーディオ信号分析器は、オーディオ信号を分析してオーディオ信号の複数の帯域に対する複数のノイズ抑制フィルタ値を決定するように構成され、分析器は、ノイズ抑制フィルタ値が最小ノイズ抑制フィルタ値以上になるように、かつ最小ノイズ抑制値がオーディオ信号の特性に依存するようにノイズ抑制フィルタ値を決定するように構成される。フィルタは、オーディオ信号をフィルタリングするように構成され、フィルタは、ノイズ抑制フィルタ値に基づいて調整される。
【特許請求の範囲】
【請求項1】
オーディオ信号(110)を処理するための装置(100;300;400;800;900)であって、
オーディオ信号を分析して前記オーディオ信号(215;354)の複数の帯域に対する複数のノイズ抑制フィルタ値(260;364、364a〜c)を決定するためのオーディオ信号分析器(130;830;930)であって、
前記分析器は、ノイズ抑制フィルタ値が最小ノイズ抑制フィルタ値(130b’;240;358c、360a)以上になるように前記ノイズ抑制フィルタ値を決定するように構成され、かつ
前記最小ノイズ抑制フィルタ値が前記オーディオ信号(130c’)の特性に依存するように構成されるオーディオ信号分析器と、
前記オーディオ信号をフィルタリングするためのフィルタ(120;310;410;820)であって、前記フィルタは、前記ノイズ抑制フィルタ値に基づいて調整されるフィルタとを備える、装置。
【請求項2】
前記オーディオ信号分析器が、複数の制約のないノイズ抑制フィルタ値(220;356a)および前記最小ノイズ抑制フィルタ値に基づく最大決定を使用して前記ノイズ抑制フィルタ値を決定するように構成され、前記最小ノイズ抑制フィルタ値が、前記オーディオ信号の前記複数の帯域に等しい、請求項1に記載の装置。
【請求項3】
前記オーディオ信号分析器が、前記オーディオ信号の前記特性として前記オーディオ信号のフレームから利得値を計算するように構成される、請求項1または2に記載の装置。
【請求項4】
前記オーディオ信号分析器が、
所定のノイズ抑制値、および
前記利得値
に基づいて、前記最小ノイズ抑制フィルタ値を計算するように構成される、請求項3に記載の装置。
【請求項5】
前記オーディオ信号分析器が、前記最小ノイズ抑制フィルタ値が利得値の増加と共に減少するように前記最小ノイズ抑制フィルタ値を計算するように構成される、請求項3または4に記載の装置。
【請求項6】
前記オーディオ信号分析器が、所定のノイズ抑制値および所定のノイズ抑制値と前記利得値との商に依存する最小決定を使用して前記最小ノイズ抑制フィルタ値を計算するように構成される、請求項3〜5のいずれか一項に記載の装置。
【請求項7】
前記オーディオ信号分析器が、第1の最小決定に従って前記最小ノイズ抑制フィルタ値を決定するように構成され、前記第1の最小決定が、
所定のノイズ抑制値、および
第2の最小決定の結果に依存し、前記第2の最小決定の前記結果が、
前記利得値の逆数、および
最大決定の結果に依存し、前記最大決定の前記結果が、
所定の歪み限界値の前記逆数、および
前記所定のノイズ抑制値と前記利得値との商に依存する、請求項3〜6のいずれか一項に記載の装置。
【請求項8】
前記オーディオ信号分析器が、前記オーディオ信号の前記複数の帯域のうちの1つの帯域を分析し、前記帯域が前記オーディオ信号の第1の特性または前記オーディオ信号の第2の特性を有するかを決定し、前記第1の特性が、前記第2の特性とは異なり、かつ第2の特性が前記帯域に対して決定されたときに前記ノイズ抑制フィルタ値を決定するように構成され、
その結果、前記ノイズ抑制フィルタ値が、前記利得値が0〜1であるとき、所定のノイズ抑制値と前記利得値との積に等しく、または
その結果、前記ノイズ抑制フィルタ値が、前記利得値が1と、前記所定のノイズ抑制値と所定の歪み限界との前記積との間にあるとき、前記所定のノイズ抑制値に等しく、または
その結果、前記ノイズ抑制フィルタ値が、前記利得値が前記所定のノイズ抑制値と前記所定の歪み限界との前記積の間にあるとき、前記利得値と前記所定の歪み限界との前記商に等しく、または
その結果、前記ノイズ抑制フィルタ値が、前記利得値が前記所定の歪み限界よりも大きいとき、1に等しい、請求項3〜7のいずれか一項に記載の装置。
【請求項9】
前記オーディオ信号分析器が、前記オーディオ信号の第1のフレームについて、第1の最小ノイズ抑制値をもたらす第1の利得値を計算するように構成され、
前記オーディオ信号分析器が、前記オーディオ信号の第2のフレームについて、平滑化されていない第2の最小ノイズ抑制フィルタ値をもたらす第2の利得値を計算するように構成され、
前記第2のフレームが、時間的に前記第1のフレームに続き、
前記オーディオ信号分析器が、前記平滑化されていない第2の最小ノイズ抑制フィルタ(358c)値および前記第1の最小ノイズ抑制フィルタ値を使用して、前記第2のフレームの平滑化された最小ノイズ抑制フィルタ値(360a)を計算するように構成される、請求項3〜8のいずれか一項に記載の装置。
【請求項10】
前記装置が、前記オーディオ信号の前記複数の帯域を提供する、前記オーディオ信号の周波数ドメイン表現を提供する第1の時間/周波数変換器(320a)を備え、
前記オーディオ信号分析器が、
前記オーディオ信号の前記複数の帯域の1つまたは複数の帯域、および
前記最小ノイズ抑制値に基づいて、前記オーディオ信号の前記複数の帯域のうちの1つまたは複数の帯域のノイズ抑制フィルタ値を計算するように構成され、前記最小ノイズ抑制フィルタ値が、
前記オーディオ信号の前記複数の帯域の各帯域に等しい所定のノイズ抑制値、または前記オーディオ信号の複数の帯域に等しい所定の歪み限界、および
前記オーディオ信号の前記特性から導出された値に基づき、前記値が、前記オーディオ信号の前記複数の帯域の各帯域に等しい、請求項1〜9のいずれか一項に記載の装置。
【請求項11】
前記オーディオ信号分析器が、前記オーディオ信号の振幅情報、および
前記振幅情報および所定の目標値に基づいて、前記オーディオ信号の特性として、利得値を計算するように構成され、前記オーディオ信号が、前記利得値によって調整される、請求項1〜10のいずれか一項に記載の装置。
【請求項12】
前記オーディオ信号分析器が、前記振幅情報の計算の前に心理音響フィルタ(342)で前記オーディオ信号をフィルタリングするように構成され、
前記心理音響フィルタが、第1の周波数範囲の第1の減衰値、および
第2の周波数範囲の第2の減衰値、および
第3の周波数範囲の第3の減衰値を含むように構成され、
前記フィルタが、前記第2の周波数範囲が前記第1の周波数範囲と前記第3の周波数範囲との間にあるように構成され、
前記フィルタが、前記第2の減衰値が前記第1の減衰値および前記第3の減衰値よりも小さくなるように構成される、請求項11に記載の装置。
【請求項13】
前記オーディオ信号分析器が、前記オーディオ信号の前記第1のフレームの第1の音声アクティビティ情報、および前記オーディオ信号の前記第2のフレームの第2の音声アクティビティ情報を提供する音声アクティビティ検出ユニット(340)と、前の利得値を記憶するメモリユニット(346)とを備え、
前記オーディオ信号分析器が、
音声が前記第2の音声アクティビティ情報に従って検出された前記オーディオ信号の第2のフレームに基づいて、利得値を推定し、または
音声が前記第1の音声アクティビティ情報に基づいて前記第1のフレームで検出されたとき、音声アクティビティが前記第2の音声アクティビティ情報に従って前記第2のフレームで検出されなかった場合に第1のフレームの利得値を保つように構成され、
前記第2のフレームが、時間的に前記第1のフレームに続く、請求項3〜12のいずれか一項に記載の装置。
【請求項14】
前記オーディオ信号分析器が、
現在のフレームについて計算された前記オーディオ信号の特性から導出された値
に基づいて、現在のフレームの前記最小ノイズ抑制値を計算するように構成され、
前記オーディオ信号分析器が、前記オーディオ信号の特性から導出された前記値を決定するために前記オーディオ信号を分析するように構成され、
前記フィルタが、第1のフィルタ段と、第2のフィルタ段とを含み、
前記第1のフィルタ段が、前記オーディオ信号の前記特性から導出された前記値を使用して調整され、
前記第2のフィルタ段が、前記ノイズ抑制フィルタ値に従って調整される、請求項1に記載の装置。
【請求項15】
前記オーディオ信号分析器が、
第1のフレームについて計算された、前記オーディオ信号の前記特性から導出された値
に基づいて、第2のフレームの前記最小ノイズ抑制値を計算するように構成され、
前記フィルタが、第1のフィルタ段(822)と、第2のフィルタ段(824)とを含み、
前記第1のフィルタ段が、前記ノイズ抑制フィルタ値に従って調整され、
前記第2のフィルタ段が、前記オーディオ信号の前記特性から導出された前記値を使用して調整され、
前記オーディオ信号分析器が、前記オーディオ信号の特性から導出された前記値を決定するために前記第1のフィルタ段の出力を分析するように構成され、
前記第2のフレームが、時間的に前記第1のフレームに続く、請求項1に記載の装置。
【請求項16】
前記オーディオ信号分析器が、
音声アクティビティ情報および前記オーディオ信号、または前記ノイズ抑制フィルタ値によってフィルタリングされた後の音声アクティビティ情報および前記オーディオ信号に基づいて、前記利得値を決定するように構成され、
前記オーディオ信号分析器が、前記オーディオ信号に基づいて、前記音声アクティビティ情報を得るように構成され、または前記オーディオ信号分析器が、前記フィルタによってフィルタリングされた後の前記オーディオ信号に基づいて、前記音声アクティビティ情報を得るように構成され、または前記オーディオ信号分析器が、スピーチが存在しないことを示す音声アクティビティ情報を使用して前記利得値を減少させるように構成される、請求項3〜15のいずれか一項に記載の装置。
【請求項17】
前記オーディオ信号分析器(130;830;930)が、時間的に第1のフレームと前記第1のフレームに続く第2のフレームとを備える一連のフレームで前記オーディオ信号を分析し、前記第1のフレームについて、第1の複数のノイズ抑制値を決定し、かつ前記第2のフレームについて、第2の複数のノイズ抑制値を決定するように構成され、
前記分析器が、前記第1の複数のノイズ抑制フィルタ値の前記ノイズ抑制フィルタ値が前記第1のフレームに対して決定された第1の最小ノイズ抑制フィルタ値(130b’;240;358c、360a)以上になるように、かつ前記第1の最小ノイズ抑制フィルタ値が前記オーディオ信号(130c’)の前記第1のフレームの第1の特性に依存するように前記第1の複数のノイズ抑制フィルタ値を決定するように構成され、
前記分析器が、前記第2の複数のノイズ抑制フィルタ値の前記ノイズ抑制フィルタ値が前記第2のフレームに対して決定された第2の最小ノイズ抑制フィルタ値(130b’;240;358c、360a)以上になるように、かつ前記第2の最小ノイズ抑制フィルタ値が前記オーディオ信号(130c’)の前記第2のフレームの第2の特性に依存するように前記第2の複数のノイズ抑制フィルタ値を決定するようにさらに構成され、
前記フィルタ(120;310;410;820)が、前記一連のフレームの前記オーディオ信号をフィルタリングするように構成され、前記第1のフレームの第1のフィルタが、前記第1の複数のノイズ抑制値に基づいて調整され、前記第2のフレームの第2のフィルタが、前記第2の複数のノイズ抑制値に基づいて調整され、
前記フィルタ(120;310;410;820)が、前記第1のフィルタで前記オーディオ信号の前記第1のフレームをフィルタリングし、かつ前記第2のフィルタで前記オーディオ信号の前記第2のフレームをフィルタリングするように構成される、請求項1〜16のいずれか一項に記載の装置。
【請求項18】
オーディオ信号を処理するための方法であって、
オーディオ信号を分析して前記オーディオ信号の複数の帯域に対する複数のノイズ抑制フィルタ値を決定することと、
ノイズ抑制フィルタ値が最小ノイズ抑制フィルタ値以上になるように、かつ
前記最小ノイズ抑制フィルタ値が前記オーディオ信号の特性に依存するように前記ノイズ抑制フィルタ値を決定することと、
前記ノイズ抑制フィルタ値に基づいて、前記オーディオ信号をフィルタリングすることとを含む、方法。
【請求項19】
前記コンピュータプログラムがコンピュータまたはマイクロコントローラで実行されるときに請求項18に記載の方法を実行するためのプログラムコードを有する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、オーディオ信号処理に関する。具体的には、本発明は、オーディオ信号のスピーチおよびノイズレベルの自動的制御の技術および方法に関する。
【背景技術】
【0002】
全二重スピーチ通信シナリオが図13に示されており、近端話者の音声は、1つまたは複数のマイクロフォンによってキャプチャされ、拡声器またはヘッドフォンを介してキャプチャされた音を聴取する遠端話者に送信される。遠端の聴取者にとっての聴取快適性と了解度の両方を向上させるために、近端話者の音声を維持しながら、音響エコーまたは背景およびセンサノイズを含む不要な音成分を除去または少なくとも減衰させるいくつかのオーディオ信号処理技術を適用することができる。聴取快適性および了解度を向上させるための別の重要な側面は、強調された信号のレベルを遠端の聴取者にとって快適なレベルに調整することである。これにより、音キャプチャデバイスの感度および近端話者からマイクロフォンまでの距離に関係なく、一貫したスピーチレベルを提供することができる。
【0003】
そのような全二重スピーチ通信シナリオでは、例えば[1、2、3]に記載されているように、音響エコーキャンセレーション、音響エコー抑制、または両方の技術の組合せを使用して、散発的なエコーを完全に除去する必要がある。対照的に、背景またはセンサノイズのようなより持続的な妨害は通常、例えば[4]に記載されているように、いくつかのノイズ低減方法を使用してスピーチ品質を維持するために一定量までしか減衰させることができない。したがって、要求が厳しい(すなわち、複雑なまたは悪い)音響環境では、結果として生じる信号は、減衰しているが依然として可聴のノイズ成分を含む可能性がある。自動利得制御の目的は、強調されたスピーチ信号のレベルを所定の快適なレベルにすることである。音響エコーキャンセレーションまたは音響エコー抑制のいずれかに基づくいくつかのエコー制御、ノイズ低減モジュール、および自動利得制御モジュールを含む典型的なオーディオ信号処理チェーンが、図14に示されている。処理チェーンの最後にあるコンフォートノイズモジュールは、システム出力で快適かつ時間的に滑らかなノイズレベルを保証するために、人工のランダムなノイズを生成する。コンフォートノイズの導入は、例えば[5]に記載されているように、例えば遠端アクティビティの期間中のエコー制御によってトリガされる。
【0004】
さらに、スピーチ通信では、ノイズ低減は、所望のスピーチ信号を維持しながら、オーディオ信号に存在する定常的なまたはゆっくり時間的に変化する背景またはセンサノイズを減衰させることを目的とする。これは、例えば、フレームごとに周波数ドメインで実行される。例えば、各時間フレームに対して、低い信号対ノイズ比(SNR)を示すスペクトル領域は減衰され、一方、高いSNR領域は変化しないままである。さらに、上述のように、スペクトル領域を処理するためにより一般的な信号対干渉(SIR)比を考慮することができる。
【0005】
[6]では、第1のNR(=ノイズ低減)フィルタは、AGC(=自動利得制御)利得とは独立して算出される。次に、第2のNRフィルタは、第1のNRフィルタをAGC利得の関数としてスケーリングすることによって算出され、すなわち大きいAGC利得の場合、NR利得は減少し(ノイズ減衰が強い)、小さいAGC利得の場合、NR利得は増加する(ノイズ低減が少ない)。第2のフィルタは、入力信号に適用される。対照的に、本発明の一態様は、NRとAGCを同時に実行するフィルタを導出することである。これにより、スピーチレベルとノイズレベルを別々に完全に制御することができる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
そのようなシステムでは、特に最小ノイズ抑制フィルタ値が固定的に設定され、処理されたオーディオ信号のオーディオ品質が低下するという問題がある。
【0007】
オーディオ信号を処理することについて説明した問題に関して、処理されたオーディオ信号の改善されたオーディオ品質を提供する、改善された概念に対する要望が存在する。
【課題を解決するための手段】
【0008】
本発明による好ましい実施形態は、オーディオ信号を処理するための装置であって、オーディオ信号を分析してオーディオ信号の複数の帯域に対する複数のノイズ抑制フィルタ値を決定するためのオーディオ信号分析器を備え、分析器は、ノイズ抑制フィルタ値が最小ノイズ抑制フィルタ値以上になるようにノイズ抑制フィルタ値を決定するように構成される、装置を提供する。さらに、オーディオ信号分析器は、最小ノイズ抑制フィルタ値がオーディオ信号の特性に依存するように構成される。また、装置は、オーディオ信号をフィルタリングするためのフィルタであって、フィルタは、ノイズ抑制フィルタ値に基づいて調整されるフィルタを備える。
【0009】
記載の実施形態は、処理されたオーディオ信号の改善されたオーディオ品質を提供することにおいて利点を提供する。改善は、信号をフィルタリングするために使用されるノイズ抑制フィルタ値によるものであり、ノイズ抑制フィルタ値は、最小ノイズ抑制フィルタ値以上になるように調整される。記載の方法でノイズ抑制フィルタ値を選択することは有利であり、その結果、小さいノイズ抑制フィルタ値による信号処理によって引き起こされる信号歪みが回避され得る。さらに、最小ノイズ抑制フィルタ値の選択は、オーディオ信号の特性に基づいて、柔軟な方法で実行される。最小ノイズ抑制フィルタ値の柔軟性は、例えば、オーディオ信号の特性が大きいときに小さい最小ノイズ抑制値を決定し、またはオーディオ信号の特性が小さいときに最小ノイズ抑制フィルタ値を大きい値に設定することができるように実現することができる。それによって、最小ノイズ抑制フィルタは、多種多様な潜在的なオーディオ信号に対して調整することができる。記載のノイズ抑制フィルタ値を用いてオーディオ信号をフィルタリングすることにより、例えばノイズ抑制によるより一定のノイズレベルによって特徴付けられる、より高品質のオーディオ信号を得ることができる。また、フィルタが柔軟な最小ノイズ抑制フィルタ値によりノイズを効果的に抑制するので、処理されたオーディオ信号のより快適な聴取体験が達成され得る。
【0010】
さらに、記載の装置は、オーディオ信号を処理するのに有利であることができ、それにより不要な信号成分、例えば背景ノイズ成分が抑制または減衰され、所望の信号成分が維持または強調される。特に、例えばスピーチ信号がオーディオ信号の所望の成分と見なされるとき、記載の実施形態は、スピーチ信号の維持を可能にする。さらに、不要な信号成分が減少するため、スピーチ信号の了解度を高めることができる。さらに、例えば聴覚障害のある聴取者は、スピーチ信号の了解度が聴覚障害のある人々にとって最も重要な課題であるので、前述の実施形態で処理した後の信号から非常に利益を得ることができる。加えて、記載の実施形態は、信号の不要な気を散らす成分が減衰または除去されるので、聴取者にとって快適な聴取体験を可能にする。さらに、記載の実施形態は、オーディオ信号が例えばマイクロフォンによって取得され、所望の信号成分のエネルギーが、例えば音源のマイクロフォンまでの距離の変化、マイクロフォンの感度の変化または音源(例えば発話者)によって放出されるエネルギーの量の変化により変化するとき、所望の信号成分を強調することを可能にする。
【0011】
好ましい実施形態によれば、オーディオ信号分析器は、複数の制約のないノイズ抑制フィルタ値および最小ノイズ抑制フィルタ値に基づく最大決定を使用してノイズ抑制フィルタ値を決定するように構成され、最小ノイズ抑制フィルタ値は、オーディオ信号の複数の帯域に等しい。上述したようなオーディオ信号分析器は、例えば積極的なノイズ抑制により、スピーチ歪みまたは楽音を回避するのに有利であり得る。例えば、ある帯域のノイズ抑制フィルタ値がSNR(=信号対ノイズ比)に基づいて推定され、例えばSNRが0であることを示す信頼できないSNR推定量が用いられ、まだいくらかの所望の信号成分が存在する場合、帯域は、完全に抑制され得る。帯域が完全に抑制されると、スピーチが帯域に実際に存在していた場合には不要なアーティファクト、例えばスピーチ歪み、または例えばノイズシェーピングが原因で楽音をもたらす可能性がある。加えて、記載の実施形態は、複数の帯域に対して同量の最小ノイズ抑制を容易にする。
【0012】
好ましい実施形態によれば、オーディオ信号分析器は、オーディオ信号の特性としてオーディオ信号のフレームから利得値を計算するように構成される。利得値は、オーディオ信号を強調するのに有利であり得る。例えば、オーディオ信号が強く変化するエネルギーを有する所望の信号成分を含む場合、利得値は、エネルギーの変化を補償するために信号に適用することができる。例えば、所望の信号成分がスピーチ信号であるとき、了解度は、オーディオ信号への利得値の適用から非常に利益を得ることができる。さらに、例えば、利得値を適用することによってより一定の所望の信号エネルギーが達成されるとき、聴取快適性もまた向上され得る。
【0013】
好ましい実施形態によれば、オーディオ信号分析器は、所定のノイズ抑制値および利得値に基づいて、最小ノイズ抑制フィルタ値を計算するように構成される。前述のように最小ノイズ抑制フィルタ値を計算することは、最小ノイズ抑制フィルタ値を適応させることで、オーディオ信号の所望の信号成分を利得値の適用によって増幅させることができるが、不要な信号成分、例えば背景ノイズを依然として効率的に抑制することができるために有益であり得る。したがって、例えば不要な信号成分に対する記載の好ましい実施形態の全体的なシステム応答は、増幅されない、すなわち不要な信号成分は、減衰されるかまたは変更されずに通過する。
【0014】
さらなる好ましい実施形態では、オーディオ信号分析器は、最小ノイズ抑制フィルタ値が利得値の増加と共に減少するように最小ノイズ抑制フィルタ値を計算するように構成される。最小ノイズ抑制フィルタ値と利得値との間の上述の反比例は、利得値をオーディオ信号に適用するときに有益であり得る。例えば、大きい利得値が提供されると、利得値の影響を受けるオーディオ信号のノイズ成分は、それに応じて増幅される。したがって、利得値に比例して最小ノイズ抑制フィルタを減少させることは、好ましい実施形態によって達成される一定の全体的なノイズ抑制をもたらすことができる。
【0015】
さらなる好ましい実施形態では、オーディオ信号分析器は、所定のノイズ抑制値および所定のノイズ抑制値と利得値との商の最小決定を使用して最小ノイズ抑制フィルタ値を計算するように構成される。上述のように最小決定を使用することは、例えば小さい利得値が提供されるときに所定のノイズ抑制値と利得値との商が大きいように、快適な聴取体験を達成するために有益であり得る。したがって、この商に基づくノイズ低減は、不十分な量のノイズが低減される結果となり得るが、記載の好ましい実施形態では、最小ノイズ抑制が保証される。それによって、ノイズが所望の所定の量に少なくとも低減されるので、快適な聴取体験を提供することができる。
【0016】
さらなる好ましい実施形態では、オーディオ信号分析器は、第1の最小決定に従って最小ノイズ抑制フィルタ値を決定するように構成され、第1の最小決定は、所定のノイズ抑制値および第2の最小決定の結果に依存する。第2の最小決定の結果は、利得値の逆数および最大決定の結果に依存する。最大決定の結果は、所定の歪み限界値の逆数および所定のノイズ抑制値と利得値との商に依存する。オーディオ信号分析器の記載の構成は、例えば積極的なノイズ抑制によるスピーチ歪みのような、ノイズ低減アーティファクトを低減するために有益であり得る。特に、大きい利得値は、所定のノイズ抑制値と利得値との小さい商をもたらし、潜在的に0に近い値となり、したがって最小ノイズ抑制値として適用されたときに潜在的に信号歪みを引き起こす可能性がある。最小ノイズ抑制フィルタ値の推定に含まれる最大決定によって実行される、好ましい実施形態で説明されたような下限を用いることは、この可能性を回避し、潜在的により快適な聴取体験を可能にする。
【0017】
さらなる好ましい実施形態では、オーディオ信号分析器は、利得値が0〜1であるとき、または利得値が1よりも大きいときに所定のノイズ抑制値と利得値との商に等しいとき、所定のノイズ抑制値に等しくなるように最小ノイズ抑制フィルタ値を決定するように構成される。オーディオ信号分析器の記載の構成は、大きい利得値が達成可能なノイズ低減を減少させないように、利得値に応じて柔軟な最小ノイズ抑制フィルタ値を提供するために有利である。
【0018】
さらなる好ましい実施形態では、オーディオ信号分析器は、利得値が0〜1であるときに所定のノイズ抑制値に等しくなるように最小ノイズ抑制フィルタ値を決定するように構成される。そうでなければ、最小ノイズ抑制フィルタ値は、利得値が1と、所定のノイズ抑制値と所定の歪み限界との積との間にあるとき、所定のノイズ抑制値と利得値との商に等しい。そうでなければ、最小ノイズ抑制フィルタ値は、利得値が所定のノイズ抑制値と所定の歪み限界との積よりも大きく、かつ所定の歪み限界よりも小さいとき、所定の歪み限界の逆数に等しい。そうでなければ、最小ノイズ抑制フィルタ値は、利得値が所定の歪み限界よりも大きいときに利得値の逆数に等しい。上述のように構成されたオーディオ信号分析器は、大きい利得値に対してもより大きい最小ノイズ抑制フィルタ値を提供し、それによって積極的なノイズ抑制を回避することによって、スピーチ歪みまたは楽音を回避するのに有益である。
【0019】
さらなる好ましい実施形態では、オーディオ信号分析器は、オーディオ信号の複数の帯域のうちの1つの帯域を分析し、帯域がオーディオ信号の第1の特性またはオーディオ信号の第2の特性を有するかを決定するように構成され、第1の特性は、第2の特性とは異なる。さらに、オーディオ信号分析器は、第2の特性が帯域に対して決定されたときにノイズ抑制フィルタ値を決定するように構成され、その結果、ノイズ抑制フィルタ値は、利得値が0〜1であるとき、所定のノイズ抑制値と利得値との積に等しい。そうでなければ、ノイズ抑制フィルタ値は、利得値が1と、所定のノイズ抑制値と所定の歪み限界との積との間にあるとき、所定のノイズ抑制値に等しい。そうでなければ、ノイズ抑制フィルタ値は、利得値が所定のノイズ抑制値と所定の歪み限界との積よりも大きく、かつ所定の歪み限界よりも小さいとき、利得値と所定の歪み限界との商に等しい。そうでなければ、ノイズ抑制フィルタ値は、利得値が所定の歪み限界よりも大きいとき、1に等しい。上述のようなオーディオ信号分析器は、例えば第2の特性がオーディオ信号のノイズ内容を表すシナリオにおいてノイズ抑制フィルタ値を提供するのに有益であり得る。第2の特性は、例えば音声アクティビティが、音声がフレームまたは帯域に存在しないことを示すので、非アクティブフレームまたは帯域であり得る。説明されたノイズシナリオでは、全体的なシステム応答は、ノイズの増幅をもたらさない。
【0020】
さらなる好ましい実施形態では、オーディオ信号分析器は、オーディオ信号の第1のフレームについて、第1の最小ノイズ抑制値をもたらす第1の利得値を計算するように構成される。さらに、オーディオ信号分析器は、オーディオ信号の第2のフレームについて、平滑化されていない第2の最小ノイズ抑制フィルタ値をもたらす第2の利得値を計算するように構成され、第2のフレームは、時間的に第1のフレームに続く。さらに、オーディオ信号分析器は、平滑化されていない第2の最小ノイズ抑制フィルタ値および第1の最小ノイズ抑制フィルタ値を使用して、第2のフレームの平滑化された最小ノイズ抑制フィルタ値を計算するように構成される。上述のように構成されたオーディオ信号分析器は、最小ノイズ抑制フィルタ値の大きな変動を回避し、それによって不快なノイズポンピング効果を回避する滑らかな残留ノイズレベルを提供するのに有益であり得る。
【0021】
さらなる好ましい実施形態では、装置は、オーディオ信号の複数の帯域を提供する、オーディオ信号の周波数ドメイン表現を提供する第1の時間/周波数変換器を備える。また、オーディオ信号分析器は、オーディオ信号の複数の帯域の1つまたは複数の帯域および最小ノイズ抑制値に基づいて、オーディオ信号の複数の帯域のうちの1つまたは複数の帯域のノイズ抑制フィルタ値を計算するように構成される。さらに、最小ノイズ抑制フィルタ値は、オーディオ信号の複数の帯域の各帯域に等しい所定のノイズ抑制値、またはオーディオ信号の複数の帯域に等しい所定の歪み限界、およびオーディオ信号の特性から導出された値に基づき、値は、オーディオ信号の複数の帯域の各帯域に等しい。オーディオ信号の特性から導出された値は、例えば利得値とすることができる。さらに、上述の装置は、第1の時間/周波数変換器に基づいて、柔軟なスペクトル分解能を提供し、それによってオーディオ信号の複数の帯域の各帯域に対する個別の処理を可能にするのに有益であり得る。
【0022】
さらなる好ましい実施形態では、フィルタは、第2の複数の帯域を得るために帯域に対するノイズ抑制フィルタ値を適用することによって、オーディオ信号の複数の帯域の各帯域を修正するように構成される。さらに、装置は、第2の複数の帯域から時間ドメイン出力信号を提供するように構成される第2の時間/周波数変換器を備える。上述の装置は、第2の複数の帯域から導出された出力において可聴オーディオ信号を生成するのに有益であり得る。
【0023】
さらなる好ましい実施形態では、装置は、オーディオ信号分析器によって提供される、ノイズ抑制フィルタ値の時間ドメイン変換を提供するように構成される第2の時間/周波数変換器を備える。さらに、フィルタは、時間ドメイン変換されたノイズ抑制フィルタ値とオーディオ信号とを畳み込むことによって得られる、出力オーディオ信号を提供するように構成される。上述の装置は、フレームベースの処理による遅延がフィルタリングに必要ではないので、リアルタイムに近い動作をする低遅延システムを得るのに有利である。
【0024】
さらなる好ましい実施形態では、オーディオ信号分析器は、オーディオ信号の振幅情報を計算するように構成される。また、オーディオ信号分析器は、振幅情報(オーディオ信号の特性)および所定の目標値に基づいて、オーディオ信号の特性(から導出された値)として、利得値を計算するように構成され、オーディオ信号は、利得値によって調整される。提供された利得値は、例えばオーディオ信号の所望の信号成分のエネルギーを変化させることにより、例えば信号を目標値に増幅または減衰させるために有利に用いることができる。
【0025】
さらなる実施形態では、オーディオ信号分析器は、振幅情報の計算の前に心理音響フィルタでオーディオ信号をフィルタリングするように構成される。さらに、心理音響フィルタは、第1の周波数範囲の第1の減衰値、第2の周波数範囲の第2の減衰値、および第3の周波数範囲の第3の減衰値を示すように構成される。さらに、フィルタは、第2の周波数範囲が第1の周波数範囲と第3の周波数範囲との間にあるように構成される。第1の周波数範囲、第2の周波数範囲および第3の周波数範囲は、重ならないように構成され得る。さらに、フィルタは、第2の減衰値が第1の減衰値および第3の減衰値よりも小さくなるように構成される。上述したように、心理音響フィルタに依存する振幅情報の計算は、振幅情報に基づく利得値の主観的により適切な計算を提供するのに有益であり得る。心理音響尺度、例えばdB(A)、dB(B)またはdB(C)に基づいて計算された利得値は、オーディオ信号に適用されるときにより快適な聴取体験をもたらすことができる。
【0026】
さらなる好ましい実施形態では、オーディオ信号分析器は、オーディオ信号の第1のフレームの第1の音声アクティビティ情報、およびオーディオ信号の第2のフレームの第2の音声アクティビティ情報を提供する音声アクティビティ検出ユニットと、前の利得値を記憶するメモリユニットとを備える。さらに、オーディオ信号分析器は、音声が第2の音声アクティビティ情報に従って検出されたオーディオ信号の第2のフレームに基づいて、利得値を推定するように構成される。あるいは、オーディオ信号分析器は、音声が第1の音声アクティビティ情報に基づいて第1のフレームで検出されたとき、音声アクティビティが第2の音声アクティビティ情報に従って第2のフレームで検出されなかった場合に第1のフレームの利得値を保つように構成され、第2のフレームは、時間的に第1のフレームに続く。上述のような装置は、関心のある信号が存在しないオーディオ信号のセグメントにおける利得値の算出を回避し、それによって例えば不要な信号成分の増幅を回避するのに有利であり得る。
【0027】
好ましい実施形態では、オーディオ信号分析器は、現在のフレームについて計算されたオーディオ信号の特性から導出された値に基づいて、現在のフレームの最小ノイズ抑制値を計算するように構成される。さらに、オーディオ信号分析器は、オーディオ信号の特性から導出された値を決定するためにオーディオ信号を分析するように構成される。さらに、フィルタは、第1のフィルタ段と、第2のフィルタ段とを含み、第1のフィルタ段は、オーディオ信号の特性から導出された値(例えば利得値)を使用して調整される。また、第2のフィルタ段は、ノイズ抑制フィルタ値に従って調整される。記載の好ましい実施形態は、例えば互いに依存せずに第1の段が第2の段に続くことができるので、柔軟なフィルタ構造を可能にする。
【0028】
さらなる好ましい実施形態では、オーディオ信号分析器は、第1のフレームについて計算された、オーディオ信号の特性から導出された値に基づいて、第2のフレームの最小ノイズ抑制値を計算するように構成される。また、フィルタは、第1のフィルタ段と、第2のフィルタ段とを含み、第1のフィルタ段は、ノイズ抑制フィルタ値に従って調整され、第2のフィルタ段は、オーディオ信号の特性から導出された値を使用して調整される。さらに、オーディオ信号分析器は、オーディオ信号の特性から導出された値を決定するために第1のフィルタ段の出力を分析するように構成され、第2のフレームは、時間的に第1のフレームに続く。上述のように構成されたオーディオ信号分析器は、以前に算出された利得値を用いることができるので、オーディオ信号の柔軟で低遅延のフィルタリングを可能にするのに有益である。
【0029】
さらなる好ましい実施形態では、オーディオ信号分析器は、音声アクティビティ情報およびオーディオ信号に基づいて、利得値を決定するように構成される。あるいは、オーディオ信号分析器は、ノイズ抑制フィルタ値によってフィルタリングされた後の音声アクティビティ情報およびオーディオ信号に基づいて、利得値を決定するように構成される。さらに、オーディオ信号分析器は、オーディオ信号に基づいて、音声アクティビティ情報を得るように構成される。加えて、オーディオ信号分析器は、フィルタによってフィルタリングされた後のオーディオ信号に基づいて、音声アクティビティ情報を得るように構成される。あるいは、オーディオ信号分析器は、スピーチが存在しないことを示す音声アクティビティ情報を使用して利得値を減少させるように構成される。上述のオーディオ信号分析器は、どの信号が利得計算に使用されるか、またはどの信号が音声アクティビティ検出に使用されるかに関して柔軟性を提供し、スピーチ休止中に利得値を減少させることによって、またはスピーチ休止中に利得を適用しないことによってノイズ増幅を回避する。
【0030】
本発明の実施形態は、オーディオ信号を処理するための方法を提供し、方法は、オーディオ信号を分析してオーディオ信号の複数の帯域に対する複数のノイズ抑制フィルタ値を決定することと、ノイズ抑制フィルタ値が最小ノイズ抑制フィルタ値以上になるように、かつ最小ノイズ抑制フィルタ値がオーディオ信号の特性に依存するようにノイズ抑制フィルタ値を決定することと、ノイズ抑制フィルタ値に基づいて、オーディオ信号をフィルタリングすることとを含む。記載の方法は、例えば、オーディオ信号の特性を使用してオーディオ信号に適用され得る利得値を推定するときに有利である。加えて、利得値に応じて必要なノイズ抑制フィルタ値を適切に選択することによって、柔軟なノイズ抑制フィルタをこの値に調整することができる。それによって、不要な信号成分の増幅を回避することができ、所望の成分の維持または強調を達成することができ、快適な聴取体験を可能にする。
【0031】
さらなる好ましい実施形態は、コンピュータプログラムがコンピュータまたはマイクロコントローラで実行されるときに方法を実行するためのプログラムコードを有するコンピュータプログラムを含む。
【0032】
さらに、態様は、ノイズ抑制フィルタ値を決定するためにオーディオ信号を分析することであって、最小抑制フィルタ値は、オーディオ信号の特性に依存することと、ノイズ抑制フィルタ値に基づいて、オーディオ信号をフィルタリングすることとのための装置に関する。
【0033】
さらに、本発明の実施形態は、ノイズレベルの任意の増幅または急激な変動を防止しながら、出力信号のスピーチ信号レベルを自動的に制御する手段を提供する、共同ノイズ低減および自動利得制御のための装置および方法に関する。本発明のさらなる実施形態は、大きい利得値、例えばAGC(=自動利得制御)利得の信号歪みを軽減する制御機構を含む装置および方法を説明する。また、本発明の一実施形態は、NR(=ノイズ低減)およびAGCを共同で実行することに関する。本発明のさらなる態様は、ノイズレベルの任意の増幅または不要な変動を防止しながら、所望のスピーチ成分の自動利得制御機構を提供することである。
【0034】
さらに、本発明の態様は、オーディオ信号を処理する分野に関し、より具体的には、オーディオ信号、例えばいくつかの所望のスピーチ成分ならびにいくつかの不要なノイズ成分を含むオーディオ信号のレベルを自動的に調整するための手法に関する。
【0035】
加えて、本発明の態様は、ノイズレベルの任意の増幅または急激な変動を防止しながら、出力信号のスピーチ信号レベルを自動的に制御する手段を提供する、共同ノイズ低減および自動利得制御のための一実施形態に関する。本発明の態様は、大きいAGC利得の信号歪みを軽減する制御機構をさらに含む。
【0036】
以下では、本発明の実施形態を、添付の図面を参照して説明する。
【図面の簡単な説明】
【0037】
図1】本発明による一実施形態のブロック図である。
図2図1による装置の実施形態のオーディオ信号分析器のブロック図である。
図3】本発明による装置の一実施形態のブロック図である。
図4】本発明による装置の一実施形態のブロック図である。
図5図2によるオーディオ信号分析器のフィルタ値選択段のブロック図である。
図6図2によるオーディオ信号分析器のフィルタ値選択段のブロック図である。
図7図2によるオーディオ信号分析器のフィルタ値選択段のブロック図である。
図8】本発明による好ましい実施形態のブロック図である。
図9】本発明による好ましい実施形態のブロック図である。
図10】全体的なシステム応答の図である。
図11】利得値に応じた最小ノイズ抑制フィルタ値の図である。
図12】信号処理前後の信号のグラフである。
図13】全二重スピーチ通信シナリオのブロック図である。
図14】全二重スピーチ通信シナリオの受信機または送信機側のブロック図である。
図15】本発明の一態様によるブロック図である。
図16】本発明の一態様によるブロック図である。
図17】本発明の一態様によるブロック図である。
図18】本発明による、好ましい実施形態によるブロック図である。
図19】本発明による、好ましい実施形態によるブロック図である。
【発明を実施するための形態】
【0038】
図1は、オーディオ信号110を処理するための本発明の一実施形態による装置100のブロック図を示し、オーディオ信号110は、スペクトル表現で示され、フィルタ120は、オーディオ信号分析器130によって提供されるノイズ抑制フィルタ値に従って調整される。ノイズ抑制フィルタ値は、最小ノイズ抑制フィルタ値130b’よりも大きくなるようにオーディオ信号分析器で決定される130a。最小ノイズ抑制フィルタ値130b’は、130cにおいてオーディオ信号分析器130で決定されるオーディオ信号130c’の特性に基づいて、130bにおいて決定される。また、推定は、オーディオ信号の複数の帯域に対して130dにおいて推定される制約のないノイズ抑制フィルタ値130d’に基づく。さらに、オーディオ信号130c’の特性は、オーディオ信号の複数の帯域に等しい。制約のないノイズ抑制フィルタ値130d’は、オーディオ信号110、例えば入力オーディオ信号のパワースペクトル密度(PSD)
、およびオーディオ信号110に含まれるノイズのPSD
に基づいて、例えばウィーナーフィルタのような最適なフィルタに従って推定することができ、
式中、例えばmは、時間フレーム指数であり、kは、スペクトルサブバンド指数である。ウィーナーフィルタHNR,Wiener(m,k)は、上述のように算出された、ノイズのある信号から所望の信号を抽出する。実際には、PSDは、ウィーナーフィルタに対して推定する必要がある。
【0039】
オーディオ信号、例えば入力スペクトルの複数の帯域に、例えばフレームごとに上記のフィルタHNR,Wiener(m,k)を乗算することによって、強調信号を周波数ドメインで得ることができる。
【0040】
SNRが以下のように定義することができることを観察することによって、
ウィーナーフィルタHNR,Wiener(m,k)の式は、以下のように再定式化することができる。
したがって、ウィーナーフィルタHNR,Wiener(m,k)は、SNR(m,k)=0に対してゼロの値をとり、大きいSNR値に対して1の値に収束し、これは、所望の信号成分を維持しながらノイズを減衰させるのに望ましい挙動である。あるいは、スペクトル振幅推定量[4]のような異なるタイプのフィルタを、制約のないノイズ抑制フィルタ値を推定するために使用することができる。さらに、制約のないノイズ抑制フィルタ値は、発見的関数に基づくことができる。
【0041】
オーディオ信号100は、所望の成分、例えばスピーチと、何らかの不要な成分、例えば背景ノイズとを含み得る。フィルタ120は、例えばオーディオ信号110のスピーチ信号成分がフィルタ120でオーディオ信号110をフィルタリングした後により明瞭になるように、信号分析器130によって調整される。また、オーディオ信号110の不要な成分は、フィルタ120でオーディオ信号110をフィルタリングした後に抑制することができる。制約のないノイズ抑制フィルタ値に対する制約として作用する最小ノイズ抑制フィルタ値は、信号強調を可能にし、スピーチ歪みまたは楽音を回避する。
【0042】
装置100は、信号強調とノイズ抑制との間のトレードオフを提供しながら、オーディオ信号110の所望の信号成分の強調を容易にする。このトレードオフは、信号歪みを回避するために、より多くの不要な信号成分を除去するか、または不要な信号成分の除去を低減するように調整することができるので、制約として作用する最小ノイズ抑制フィルタ値によって特徴付けられる。
【0043】
図2は、図1に示すような装置100による本発明の一実施形態のオーディオ信号分析器130のブロック図を示す。オーディオ信号分析器130は、オーディオ信号215の複数の帯域に基づいて、制約のないノイズ抑制フィルタ値推定210を実行する。オーディオ信号215の複数の帯域の各帯域に対して、制約のないノイズ抑制フィルタ値220は、オーディオ信号分析器130で推定される。また、オーディオ信号232の特性から導出された値(例えば利得値)および所定のノイズ抑制値234に基づいて、最小ノイズ抑制値推定230が実行される。制約のないノイズ抑制フィルタ値220および最小ノイズ抑制フィルタ値240を使用して、ノイズ抑制フィルタ値250を決定する。これは、例えば最大演算を実行することによって行うことができ、その結果、オーディオ信号215の複数の帯域に対する複数のノイズ抑制フィルタ値260が得られる。最大演算250によって得られるノイズ抑制フィルタ値260は、最小ノイズ抑制フィルタ値240よりも大きいことが保証され、それによって小さい値またはノイズ抑制フィルタ値の0に等しい値を回避することができる。小さい値またはノイズ抑制フィルタ値260の0に等しい値を回避することによって、達成可能なノイズ抑制は、最小ノイズ抑制フィルタ240の値によって制限され、積極的なノイズ抑制による潜在的な歪みを回避する。
【0044】
図3は、本発明の好ましい実施形態による装置300のブロック図を示す。装置300は、オーディオ信号分析器130と、フィルタ310とを備える。さらに、装置300は、第1の時間/周波数変換器320aと、第2の時間/周波数変換器320bとを備える。さらに、装置300は、フィルタ310でオーディオ信号110をフィルタリングする前後に利得値をオーディオ信号110に適用することを可能にする。この選択性は、スイッチ330aおよび330bによって示されている。さらに、装置300は、フィルタ310でオーディオ信号110をフィルタリングする前後にオーディオ信号110の特性から導出された値(例えば利得値)を計算することを可能にする、別のスイッチ330cを備える。さらに、オーディオ信号分析器130は、音声アクティビティ検出340と、心理音響フィルタ342と、メモリユニット346とを備える。音声アクティビティ検出340の結果に応じて、音響信号348aの特性、例えば振幅情報は、音声が検出されたとき、心理音響フィルタ342によってフィルタリングされたオーディオ信号110に基づいて、算出される348。
【0045】
さらに、音声が音声アクティビティ検出340によって検出されたとき、新しい利得値が振幅情報348aおよび目標値に基づいて算出される350。さらに、スイッチ352は、音声が音声アクティビティ検出340によって検出されなかった場合、メモリユニット346に保持されている古い利得値の使用を可能にする。対照的に、音声が音声アクティビティ検出340によって検出されたとき、メモリ346の古い利得値は、現在のフレーム350aの利得値によって上書きされる。
【0046】
さらに、オーディオ信号分析器130は、オーディオ信号354の複数の帯域に基づいて、例えばウィーナーフィルタに基づいて、制約のないノイズ抑制フィルタ値356を算出するように構成される。また、オーディオ信号分析器130は、所定のノイズ抑制値gdes234、例えばノイズ減衰限界glim、または所定の歪み限界358aおよびオーディオ信号の特性、例えば利得値から導出された値に基づく最小ノイズ抑制フィルタ値を推定する358ように構成される。音声アクティビティが音声アクティビティ検出340によって検出されなかった場合、現在のフレームにおいて、最小ノイズ抑制フィルタ値推定358は、メモリユニット346に記憶される利得値に基づく最小ノイズ抑制値358cの算出に頼ることができる。音声が現在のフレームでアクティブである場合、現在の利得値は、最小ノイズ抑制値推定358に用いることができ、古い利得値と新しい利得値との間の選択は、スイッチ358bによって容易にされる。
【0047】
最小ノイズ抑制フィルタ値推定358で得られる最小ノイズ抑制フィルタ値358cは、任意選択の平滑化360を受けることができる。オーディオ信号354の複数の帯域に等しい平滑化されたまたは平滑化されていない最小ノイズ抑制フィルタ値360a、および制約のないノイズ抑制フィルタ値推定356によって得られる複数の制約のないノイズ抑制フィルタ値356aは、最大演算362を受ける。最大演算362は、フィルタ310を調整するために、オーディオ信号354の複数の帯域について、ノイズ抑制フィルタ値364を提供する。
【0048】
その最も単純な形では、一定の最小ノイズ抑制値が適用される。ウィーナーフィルタHNR,Wiener(m,k)は、SNR(m,k)=0に対してゼロの値をとり、大きいSNR値に対して1の値に収束し、これは、オーディオ信号の所望の信号成分、例えばスピーチを維持しながら、不要な信号成分、例えばノイズを減衰させるのに望ましい挙動である。一定の最小ノイズ抑制フィルタ値glim=gdesを用いて、積極的なノイズ低減を回避することができる。したがって、ノイズ抑制フィルタ値は、以下のように最大ノイズ減衰量に制限される:

ここでは、ウィーナーフィルタベースの制約のないノイズ抑制フィルタ値HNR,Wiener(m,k)について説明したが、それに応じて、異なる方法で得られる制約のないノイズ抑制フィルタ値HNR(m,k)にも適用することができる。ノイズ減衰限界glimは、
のように定義することができる。これは、フィルタの最大ノイズ減衰GNR,Wiener(m,k)に対応し、これはまた、スピーチ休止中の所望の量のノイズ減衰、すなわち
として解釈することもできる。典型的には、−20dB〜−10dBの間で選択される。他のフィルタリング規則もウィーナーフィルタの代わりに用いることができるので、上述の式は、以下のように一般化することができる:
式中、HNR(m,k)は、任意のノイズ低減規則に基づく、任意の制約のないノイズ抑制フィルタ値を指す。
【0049】
フィルタ310は、オーディオ信号354a〜dの各帯域に適切な値のノイズ抑制フィルタ値364a〜dを適用する。フィルタ310でオーディオ信号354の複数の帯域をフィルタリングすることによって、第2の複数の帯域366が得られる。第2の複数の帯域366は、第2の時間/周波数変換器320bで時間ドメインに変換することができ、それによって可聴信号が得られる。
【0050】
また、スイッチ330aおよび330bで示される、オーディオ信号110をフィルタリングする前後の利得値との乗算は、装置300がオーディオ信号110の低レベルの所望の信号成分を補償することを可能にする。さらに、装置300は、フィルタ310で周波数ドメインのオーディオ信号110をフィルタリングすることによって、時間ドメインベースの畳み込みと比較して周波数ドメインの動作による省電力を提供する。
【0051】
所与のAGC利得値GAGC(m)に対して、オーディオ信号110の特性から導出された値として、共同NR+AGCタスクは、所望の信号がもはやオーディオ信号110の所望の信号成分、例えばスピーチ信号自体ではなく、AGC利得によってスケーリングされた所望の信号成分であるフィルタリング問題として考えられる。例えば、ノイズのある入力信号からスケーリングされた所望の信号成分、例えばスピーチ信号を抽出するウィーナーフィルタを導出すると、以下のフィルタリング規則が得られる:
これは、ノイズ低減について上述したように、ウィーナーフィルタ
の関数として再定式化することができる:

式中、GAGC(m)は、利得値、例えばAGCスケーリングファクタである。
【0052】
前述のように、信号歪みを制限するノイズ減衰限界glim=gdesが導入される:
したがって、
の検査から、NRおよびAGCを共同で実行することは、最小ノイズ抑制値、例えばAGC利得に比例するノイズ減衰限界を条件として、ウィーナーフィルタの出力において(またはその入力において等価的に)AGCスケーリングファクタGAGC(m)を適用することと等価であることは明らかである。
【0053】
さらに、
の上述の式は、任意の最適なまたは発見的フィルタリング規則に一般化することができ、以下の式が得られる
式中、
である。
【0054】
また、最小ノイズ抑制値、したがってノイズ抑制フィルタ値は、オーディオ信号110の所望の信号成分、例えばスピーチ、および出力におけるノイズレベルのレベルをよりよく制御することを可能にするので、AGCおよびNR処理を共同で実行することによって推定することができる。VAD(=音声アクティビティ検出)がレベル推定および利得算出ステップをトリガするために利用されるが、NR出力信号とAGC利得との乗算は、スピーチアクティビティに関係なく、各フレームに対して実行される。本発明の一態様によれば、フィルタリングは、固定の最小ノイズ抑制値、例えば固定のノイズ減衰限界に依存しない。対照的に、オーディオ信号110の特性から導出された値、例えばAGC利得に依存する(したがって例えば時変)最小ノイズ抑制フィルタ値、例えばノイズ減衰限界
が適用され、NRフィルタが得られる

式中、
は、所望のノイズ減衰
およびAGC利得の関数としてフレームごとに適応される。上付き文字[UC]は、後で提示される制約のある場合とは対照的に、制約のない場合を指す。
【0055】
本発明の一態様によれば、利得値に依存する最小ノイズ抑制フィルタ値、例えば、ノイズ減衰限界、
は、
に従って得ることができる。さらなる態様によれば、AGCが信号を減衰させるときにノイズのよりよい減衰を得るために、最小ノイズ抑圧値、例えば制約のないノイズ減衰限界が定義される(すなわちGAGC(m)<1):
【0056】
AGC利得は、AGC利得の関数としてNR利得をスケーリングするためには使用されない。その代わりに、AGC利得は、最小ノイズ抑制フィルタ値
、例えばノイズ減衰限界を介してNRフィルタ
設計に直接含まれる。
【0057】
固定の限界
の代わりに時変ノイズ減衰限界
を使用する利点を説明するために、フィルタ全体の応答
は、スピーチ(高SNR)またはノイズ(低SNR)のどちらかが支配的な時間/周波数領域に対して導出される:
・ケース
・ノイズが支配的な低SNR時間/周波数領域では、NRフィルタ
がその最小値
に達し、したがって全体的なシステム応答
が以下のようになると仮定することができる:

これは、ノイズが支配的なセグメントが、AGC利得に関係なく、所望の量のノイズ低減によってスケーリングされることを示す。
【0058】
・スピーチが支配的な高SNR時間/周波数領域では、NRフィルタがスピーチをほとんど不変のままにする、すなわち
、したがって全応答が以下のようになると仮定することができる:

これは、スピーチが支配的なセグメントが、所望の量のノイズ低減に関係なく、所望通りにAGC利得によってスケーリングされることを示す。
【0059】
・ケースGAGC(m)<1
上記と同じ推論を使用して、以下のように書くことができる。


これは、スピーチセグメントが予想通りにAGC利得GAGC(m)によってスケーリングされ、ノイズが所望の量のノイズ減衰gdesによって少なくとも減衰されることを示す。
【0060】
したがって、ノイズ減衰限界を所望のノイズ減衰およびAGC利得の関数として以下の式
に従って適応させることが、AGC利得をプラスにするためにシステム出力でスピーチおよびノイズレベルを完全に制御することは明らかである。したがって、グラフ1250に示すように、一貫したスピーチおよびノイズレベルを達成することができ、ノイズポンピング効果を回避することができる。
【0061】
AGCが入力信号を減衰させると、すなわちGAGC(m)<1、以下
から、ノイズが入力と比較して出力で増幅されず、最小量のノイズ減衰が保証されることがわかる。この場合、これは時変AGC減衰によって引き起こされる低レベルの時変ノイズフロアを招くことに注意されたい。しかしながら、実際には、入力スピーチレベルは比較的一定のままであると仮定することができる。VADがスピーチの存在を正確に検出することができる場合、AGC利得は収束後ゆっくりとしか変動せず、システム出力における絶対ノイズレベルはゆっくりとしか変動せず、これはノイズポンピング効果を回避する。
【0062】
前述のように、最小ノイズ抑制フィルタ値360aは、所望のノイズ減衰およびAGC利得の関数として導出される。これは、例えば
に基づいて達成することができる。
【0063】
この手法は、大きいAGC利得GAGC(m)に対して任意に小さいノイズ減衰限界を生成することができる。積極的なノイズ低減を適用すると、可聴アーティファクトが実際には発生する可能性がある。発生する典型的なアーティファクトは、以下の通りである:
・特にスピーチが最も弱い高周波数でのスピーチ歪み
・背景ノイズが非常に非定常的に着色されていることによって特徴付けられる楽音。
【0064】
大きいAGC利得に対してそれほど積極的ではないノイズ低減、すなわち適度なノイズ低減を得るために、したがってノイズ低減アーティファクトを軽減するために、制約をノイズ減衰限界に課すことができる。本発明の一態様によれば、最小ノイズ抑制フィルタ値360aは、AGC利得GAGC(m)、所定のノイズ抑制値gdes234、例えば所望の量のノイズ減衰、および歪み限界gDL358aの関数として算出され、以下の式が得られる

式中、上付き文字[DC]は、上付き文字[UC]で示される前述の場合とは対照的に、歪み制約付きの場合を示す。この手法は、図7および図9にさらに詳細に示されている。
【0065】
歪み制約付きの場合のNRフィルタは、前述と同様にして得られ、すなわち

であり、
これにより、フィルタ全体でNRおよびAGCが実行される:
歪み限界gDL358aは、満たすべき定数
である。これは、システムによって許容されるSNR改善の量としても理解することができる。低い値gDLに設定すると、ノイズ低減アーティファクトから適切に保護されるが、ノイズの減衰量が少なくなる。これはグラフ1260に示されており、ここではスピーチが増幅されるにつれてノイズレベルが増加する。非常に大きい歪み限界gDL358aが基本的に制約を緩和し、
がその制約のない対応物
と等価になることは容易に確認することができる。歪み限界は、典型的には、15dB〜25dBの間で選択される。
【0066】
加えて、時間的平滑化のような処理ツールを
または
に使用して、ノイズ減衰限界、すなわち最小ノイズ抑制フィルタ値を経時的に平滑化することができる。
【0067】
図4は、本発明の好ましい実施形態による装置400のブロック図を示す。装置400は、装置300に関して図3に記載のようなオーディオ信号分析器130を備える。また、装置400は、オーディオ信号354の複数の帯域をオーディオ信号分析器130に提供するように構成される、第1の時間/周波数変換器320aを備える。さらに、装置400は、ノイズ抑制フィルタ値364の時間ドメイン表現を提供するように構成される第2の時間/周波数変換器320bを備える。第2の時間/周波数変換器320bは、ノイズ抑制フィルタ値464の時間ドメイン表現を提供する。さらに、装置400は、ノイズ抑制フィルタ値464の時間ドメイン表現に従って調整されるフィルタ410を備える。
【0068】
フィルタ410は、オーディオ信号110の時間ドメイン畳み込みおよびノイズ抑制フィルタ値464の時間ドメイン表現を実行するように構成される。装置300と同様に、装置400は、スイッチ320cによって示される、フィルタ410によるフィルタリングの前またはフィルタ410によるフィルタリングの後にオーディオ信号110に基づいて、オーディオ信号分析器において音声アクティビティ検出340を適用する可能性を提供する。また、利得値は、スイッチ330aおよび330bによって示される、フィルタ410によるフィルタリングの前またはフィルタ410によるフィルタリングの後にオーディオ信号に適用され得る。装置400は、装置300に関して説明したように、その時間ドメインベースのフィルタリングを通して、周波数ドメインにおけるフレームワイズ処理と比較してより低い遅延を提供する。
【0069】
図5は、オーディオ信号分析器130のノイズ抑制フィルタ値決定を示す。第1のステップ510において、所定のノイズ抑制値gdes234と利得値GAGC(m)との間の商が算出され、それによって最小ノイズ抑制フィルタ値358cを決定する。次のステップ520において、制約のないノイズ抑制フィルタ値HNR(m,k)356aが各々最小ノイズ抑制値と比較され、その結果、最小ノイズ抑制フィルタ値358cよりも小さい制約のないノイズ抑制フィルタ値356aの値が、最小ノイズ抑制フィルタ値358cに設定される。これは、以下によって説明することができ:
それによって、ノイズ抑制フィルタ値364が得られる。ノイズ抑制フィルタ値の上述の下限は、過度に積極的なノイズ低減による歪みを回避するのに有利であり得る。
【0070】
図6は、本発明の好ましい実施形態によるオーディオ信号分析器130におけるノイズ抑制フィルタ値の選択を示す。第1のステップ510において、所定のノイズ抑制値234と利得値との間の商が算出される。次のステップにおいて、所定のノイズ抑制値234と利得値との商と、所定のノイズ抑制値234との間で最小決定620が行われる。それによって、最小決定が最小ノイズ抑制フィルタ値358cを所定のノイズ抑制値234に上限を定めるため、利得値が小さいときに大きい最小ノイズ抑制フィルタ値358cを回避することができる。言い換えれば、所定のノイズ抑制値234によって上限が定められる最小ノイズ抑制フィルタ値358cが得られる。最小ノイズ抑制フィルタ値358cの選択は、以下の式で要約することができる:
最後のステップにおいて、最小ノイズ抑制フィルタ値358cは、制約のないノイズ抑制フィルタ値356aと比較され、その結果最大決定630に基づいて、最小ノイズ抑制フィルタ値358cによって下限が定められるノイズ抑制フィルタ値364が得られる。記載の推定は、小さい利得値GAGC(m)が提供されるがノイズ抑制を確実にし、それによって小さい利得値によって達成される全体的な信号減衰を超えてノイズ低減が得られる。
【0071】
図7では、本発明の好ましい実施形態によるオーディオ信号分析器130において実行されるような、最小ノイズ抑制フィルタ値決定が説明されている。第1のステップにおいて、所定のノイズ抑制値234と利得値との商が算出される。所定のノイズ抑制値234と利得値との間の商は、所定の歪み限界358aの逆数を用いて第1の最大決定710を受ける。第1の最大決定710の結果は、利得値705の逆数に関して第1の最小決定720を受ける。さらに、第1の最小720の決定の結果は、所定のノイズ抑制234の値に関して第2の最小決定730を受ける。それによって、第2の最小決定730の結果として、最小ノイズ抑制フィルタ値358cが得られる。この手順は、いわゆる歪み制約付き最小ノイズ抑制フィルタ値、例えば歪み制約付きノイズ減衰限界をもたらす。制約の意味をよりよく理解するために、以下のように再定式化することができる:
上述のように算出されたノイズ減衰限界の更新規則は、以下のように等価的に定式化することができ

図11のグラフに実線で「歪み制約付き」と表示されて示されている。
【0072】
第2の最大決定740において、最小ノイズ抑制フィルタ値358cは、各個々の制約のないノイズ抑制フィルタ値356aと比較され、その結果、最小ノイズ抑制フィルタ値358cよりも小さい制約のないノイズ抑制値が、最小ノイズ抑制フィルタ値358cに設定され、それによってノイズ抑制フィルタ値364が得られる。上述のようなノイズ抑制フィルタ値決定は、積極的なノイズ低減による信号歪みを回避するために有益である。
【0073】
図8は、本発明の好ましい実施形態による装置800のブロック図を示し、これは制約のないノイズ減衰限界
の自動利得制御による共同NR/AGC処理を提供する。
【0074】
装置800は、オーディオ信号分析器830と、フィルタ820とを備える。さらに、入力信号がフィルタ820に提供され、第1のフィルタ段822によって処理されてノイズ低減を適用する。さらに、第1のフィルタ段822の出力は、オーディオ信号分析器830およびフィルタ820の第2のフィルタ段824に提供され、そこで利得値が適用される。
【0075】
さらに、フィルタは、出力信号を提供する。第1のフィルタ段822の出力信号は、オーディオ信号分析器830で使用されて音声アクティビティ検出を算出する840。音声アクティビティ検出の結果840に基づいて、オーディオ信号の特性として、信号レベルおよび目標レベルに基づいて新しいAGC利得を算出する844ために使用される信号レベルを算出する842ために信号を転送するか、または古いAGC利得を保つ846かの決定842が行われる。新しい利得を算出するか古い利得を保つかの決定は、音声起動検出器に提供される信号に存在するスピーチに基づく840。
【0076】
決定された利得値は、次に第2のフィルタ段に提供され840、そこで信号に適用される。さらに、利得値は、利得値および所望のノイズ減衰、すなわち所定のノイズ抑制値234に基づいて、制約のないノイズ減衰限界、すなわち最小ノイズ抑制フィルタ値を算出するためにオーディオ信号分析器830で使用される。また、制約のないノイズ減衰限界、入力信号およびAGC利得を使用して、ノイズ抑制フィルタ値が決定され862、フィルタ820の第1のフィルタ段822に提供される。
【0077】
AGCが(減衰ではなく)信号増幅をトリガするとき、図17と同様に、スピーチ期間のみの間にAGC利得を適用することも可能である。次に、AGC利得をスピーチ休止中に一時的に減少させるか、または1に直接設定する。AGC利得がノイズ減衰限界
の算出において考慮されるので、たとえAGC利得が大きく変動しても、ノイズポンピング効果が回避されることが保証される。記載の手法は、大きいAGC利得に対してもノイズ低減を確実にするという利点を有する。さらに、記載の手法は、他の手法が受けるノイズポンピング効果を回避し、これはスピーチオンセット時のノイズフロアの急速な増加およびスピーチオフセット時の急激な減少をもたらす。
【0078】
ノイズ抑制フィルタ値の推定862は、例えば、図5に従って、または図6で説明したように実行することができる。記載の装置800は、所定のノイズ抑制を達成し、了解度を高めるために必要なときに信号を増幅または減衰するのに適している。
【0079】
図9は、本発明の好ましい実施形態による装置900のブロック図を示しており、ここでは歪み制約下でノイズ減衰限界の自動制御を伴う共同NRおよびAGC処理が実行される。あるいは、AGC利得の算出は、未処理のオーディオ入力信号に基づいて、すなわちノイズ低減を適用する前に実行することができる。装置900は、図8の装置800とほとんど同じ機能を有するが、ノイズ抑制フィルタ値の推定862のために、追加のパラメータが歪み限界358a、またはより一般的には所定の歪み限界と見なされる。装置900は、潜在的に大きいAGC利得によって引き起こされる小さい最小ノイズ抑制値によって導入される積極的なノイズ抑制に起因する、スピーチ歪みまたは楽音のような信号歪みを回避するのに特に適している。
【0080】
図10は、システムへの入力信号が主にノイズとして特徴付けられるときのシステム応答の図を示す。言い換えれば、NRおよびAGCを制約付きまたは制約のないノイズ減衰限界(それぞれ実線および破線)で適用したときのAGC利得の関数としての全ノイズ応答が示されている。
【0081】
制約なしと表示された線は、例えば図8に記載のような本発明の好ましい実施形態として装置800に記載の好ましい実施形態に関する。さらに、歪み制約付きの線は、例えば図9に記載のような本発明の好ましい実施形態として装置900に関する。図10のシステム応答は、対数値で与えられた利得値に応じて対数値で表示される。図10は、低い利得値(0dBよりも小さい利得値)に対して、共同ノイズ低減および利得制御により、実際に減衰が全体的なシステム応答に対して実現されることを示す。利得値が0dBと、所定のノイズ抑制値と歪み限界との積との間にあるとき、一定のノイズ抑制が制約のない装置および歪み制約付き装置、例えばそれぞれ装置800および装置900によって等しく実現される。利得値が所定のノイズ抑制値と所定の歪み限界との積と、所定の歪み限界との間にあるとき、歪み制約付きグラフの全体的なシステム応答は、例えば線形に0dBに増加する。さらに、「制約なし」と表示されたグラフは、利得値が所定のノイズ抑制値と所定の歪み限界との積と、歪み限界との間にあるとき、所定のノイズ抑制値の値で一定のままである。さらに、「歪み制約付き」と表示されたグラフは、0dBで、所定の歪み限界よりも大きい利得値に対して一定のままである。さらに、「制約なし」と表示されたグラフは、所定の歪み限界よりも大きい利得値に対して、所定のノイズ抑制値の値で一定のままである。言い換えれば、歪み制約付きの場合、主にノイズとして特徴付けられるオーディオ信号に対する全体的なシステム応答は、以下のように書くことができる:
要約すると、図10は、例えば装置800に関する「制約なし」と表示されたグラフと、例えば装置900に関する「歪み制約付き」と表示されたグラフとで、ノイズが両方の装置によって増幅されない状況を説明し、入力信号は、ノイズによってのみ特徴付けられる。それによって、不快なノイズ増幅を回避することができる。
【0082】
図11は、それぞれ図6または図7で説明したような最小ノイズ抑制フィルタ値に関する、2つの線、「制約なし」と表示されたグラフ、および別の「歪み制約付き」と表示されたグラフを示す。言い換えれば、制約付きの場合と制約なしの場合(それぞれ実線および破線)についてのAGC利得の関数としてのノイズ減衰限界が示されている。
【0083】
最小ノイズ抑制フィルタ値は、例えば、ここで対数値で与えられるノイズ減衰限界であり得る。さらに、グラフは、対数値で利得値に応じて示されている。「制約なし」と表示されたグラフは、0よりも小さい利得値に対して所定のノイズ抑制値で一定である。さらに、「制約なし」と表示されたグラフは、0dBよりも大きい利得値に対して、例えば線形に減少する。さらに、「歪み制約付き」と表示されたグラフは、0dBよりも小さい利得値に対して所定のノイズ抑制値の値で一定であり、0dBよりも大きく、所定のノイズ抑制値と所定の歪み限界との積よりも小さい利得値に対して、所定のノイズ抑制値から所定の歪み限界の逆数まで例えば線形に減少する。さらに、「歪み制約付き」と表示されたグラフは、所定のノイズ抑制値と所定の歪み限界との積と、所定の歪み限界との間の利得値に対して、所定の歪み限界値の逆数の値で一定のままである。また、「歪み制約付き」と表示されたグラフは、所定の歪み限界値よりも大きい利得値に対して、例えば線形に減少する。歪み制約付きの場合、これは、以下のように等価的に説明することができる:
比較のために、制約のない場合と制約付きの場合が、それぞれ破線および実線で示されている。歪み制約付きのノイズ減衰限界は、低から中程度のAGC利得
に対してその制約のない対応物のような挙動をとることが観察され得る。AGC利得が増加するにつれて、
は1/gDLまで減少し、
までこのレベルのままである。したがって、歪み制約は、歪み限界gDLまでのAGC利得についてのみ満たされる。それを超えると、ノイズ低減限界は、再び減少し始める。これは、ノイズが入力と比較して出力で増幅されないようにするためであり、低SNRによって特徴付けられるノイズセグメントについて、図10に示される全体的なシステム応答
を導出する場合に明らかになる。この場合、NRフィルタ
がその最小値
に達したと仮定することができる。したがって、全ノイズ応答は、以下のように書くことができる:
AGC利得を増加させると全ノイズ応答が増加することは明らかであるが、ノイズが増幅されないようにするために1未満のままである。全ノイズ応答は、図10においてAGC利得の関数として実線で表されている。図10では、比較のために制約のないノイズ応答が破線で示されている。
【0084】
図11は、適用された(AGC)利得に従って柔軟なノイズ低減を可能にするための、利得値に対する最小ノイズ抑制フィルタ値の有利な依存性を示す。さらに、「歪み制約付き」と表示されたグラフおよび「制約なし」と表示されたグラフは、最小ノイズ抑制フィルタ値を実質的に0より上に保ち、したがって信号歪みを回避する能力を示す。
【0085】
図12は、例えば装置100、300、400、800または900を用いた様々な処理後の信号レベルを示す。さらに、NR+AGC前(1210)およびNR/AGC処理後(1220、1230、1240、1250、1260)のスピーチおよびノイズレベルが示されている。
【0086】
グラフ1210は、オーディオ信号の実例であり、例えばオーディオ信号110を説明する。さらに、グラフ1210は、経時的に一定のノイズレベルと、スピーチがアクティブである2つの段階とを示す。スピーチは、アクティブ時にノイズよりも高い信号レベルを有し、その結果、正の信号対ノイズ比(SNR)が得られる。また、グラフ1210は、目標レベルと表示された破線を示しており、これに対して、例えばスピーチ信号が快適な聴取体験を可能にするように調整されることになっている。
【0087】
グラフ1220は、いくつかのノイズ低減および利得制御、例えばいくつかの基本的な自動利得制御方式によって処理された後にグラフ1210に表示されるような信号を示す。より高いSNRは、スピーチアクティビティの期間中に得られる。また、ノイズレベルも目標レベルに向かって増幅され、その結果、不快なノイズ増幅が生じる。
【0088】
グラフ1230は、処理後の信号、例えばグラフ1210に記載のような信号の出力レベルを表示し、例えば処理のために、自動利得制御は、音声アクティビティ検出を利用して自動利得制御更新を支援する。したがって、最初の時間間隔では、ノイズレベルは目標レベルに向かって増幅されず、増幅はスピーチアクティビティが検出された後にのみ開始される。
【0089】
グラフ1240は、信号処理後の信号、例えばグラフ1210に記載のような入力信号の出力レベルを示し、処理は、例えばノイズ低減および自動利得制御を含み、自動利得制御は、音声アクティビティ検出を利用して自動利得制御をスピーチのみの位相に適用する。
【0090】
グラフ1250は、信号処理後の、例えばグラフ1210に示すような入力信号の出力レベルを示し、信号処理は、例えば、装置800に関して例えば図8に記載のような制約のないノイズ低減および自動利得制御を含む。それによって、SNRの大幅な増加がスピーチアクティビティの位相において観察可能である。さらに、ノイズレベルは、グラフ1210と比較した場合、実質的に一定のレベルにあり、低減されている。
【0091】
グラフ1260は、信号処理後の、例えばグラフ1210に示すような入力信号の出力レベルを示し、信号処理は、装置900に関して例えば図9に記載のような歪み制約下での共同ノイズ低減自動利得制御を含む。グラフ1210と比較して、大きい信号対ノイズ比の増加を得ることができる。さらに、ノイズレベルは、実質的に一定のレベルにある。さらに、歪み制約は、処理の出力における不快な信号歪みを回避する。
【0092】
図13は、本発明の好ましい実施形態による双方向全二重スピーチ通信システム1300のブロック図を示す。システムは、近端側および遠端側と、その間の送信装置とを備える。さらに、近端側および遠端側は各々、拡声器およびマイクロフォン、ならびにオーディオ信号処理ユニットを備え、オーディオ信号処理ユニットは、装置100、300、400、800、900のうちの1つを備えることができる。
【0093】
近端側では、人がマイクロフォンに向かって話し、拡声器を通してオーディオ情報を受信する。加えて、遠端側では、全二重システムであるため潜在的に同時に、別の人がマイクロフォンに向かって話し、近端側から拡声器を通して送信されたオーディオ情報を受信する。システム1300は、快適な聴取体験を容易にし、近端側と遠端側との間で行われるスピーチ通信のスピーチ了解度を向上させる。特に、ユーザとマイクロフォンとの間の距離が変わり得るハンズフリーシナリオの場合、記載の実施形態は、了解度を向上させるのに適し得る。
【0094】
図14は、スピーチ通信システム、例えばスピーチ通信システム1300の近端または遠端側として用いることができる信号処理チェーンのブロック図を示す。
【0095】
図15は、信号処理チェーンのブロック図を示し、NR処理とAGC処理を独立して適用する基本的な構成を示している。最初に、入力信号は、所定のノイズ抑制値、ここでは所望のノイズ減衰に基づくノイズ低減を受け、ノイズ低減後に得られる信号は、信号レベルを算出し、算出された信号レベルおよび所定の目標レベルに基づいて、利得値、例えば自動利得制御の利得を算出するために使用される。次のステップにおいて、算出された利得値、例えば算出されたAGC利得は、ノイズ低減が実行された後に信号に適用される。
【0096】
自動利得制御は、例えば図15に示され以下に詳述される3ステップ手順を使用して、フレームごとにノイズ低減モジュールの出力に適用され得る:
1.レベル算出:L(m)で示される信号レベルは、AGC入力(ここではノイズ低減(NR)出力)で算出される。信号レベルの尺度は、単なる変動であり得る。あるいは、スペクトル重み付けを適用して、人間の聴覚系を模倣し、知覚される音量の尺度を得ることができる。
【0097】
2.利得算出:スカラ利得は、目標値として装置300および400について説明したように、L(m)で示される現在の入力信号レベルを所定の目標スピーチレベルLtar と比較することによって導出される。これは、以下のようにして達成することができる:
(6)
式中、GAGC(m)は、フレームmで算出されたAGC利得であり、
は、AGC利得を時間的に平滑化するために使用される忘却係数である(
を使用)。
【0098】
3.利得乗算:最後のステップは、入力信号とAGC利得との乗算を含む。これは、時間ドメインまたは周波数ドメインのどちらでも等価的に行うことができる。
【0099】
上記の手順では、AGC入力レベルL(m)が目標レベルLtarを下回ると、入力オーディオ信号が増幅される。対照的に、信号レベルL(m)が目標レベルLtar を上回ると、いくらかの減衰が適用される。それ故、AGC利得は、経時的に自動的に調整され、したがって時間的に変化する。さらに、記載の利得算出は、記載の装置300、400、800および900の対応するモジュールで部分的にまたは完全に使用することができる。さらに、上述の装置で使用するために、例えば音声アクティビティ検出を用いることに基づいて、記載の方法に対する修正を適用することもできる。さらに、図15の水平の破線で強調されるように、AGCモジュールとNRモジュールとの間に相互作用がないことに注意されたい。
【0100】
例えば、NRフィルタリング後の背景ノイズレベルがスピーチレベルよりも低いとき、この手法の欠点は、AGC入力において測定されたレベルL(m)の減少を引き起こし、次にスピーチ休止中にAGC利得の増加を引き起こし、続いてスピーチオンセット時にAGC利得の減少を引き起こすことである。この現象は図12に示されており、グラフ1210は、(NRの前の)入力オーディオ信号のスピーチおよびノイズ成分のレベルを示す。グラフ1220は、上記の手順に従ってNRおよびAGCを適用した後のスピーチおよびノイズレベルを示す。入力におけるスピーチおよびノイズレベルが一定であるにもかかわらず、この方法では時変音声レベルが生成されることがわかるが、これはAGCには望ましい挙動ではない。さらに、時変ノイズレベルが生成され、出力信号において非常に不快なノイズポンピング効果をもたらす。これらの問題を解決するために、図3図4図8図9図16および図17に関して説明したように、音声アクティビティ検出(VAD)が使用される。
【0101】
図16は、信号を処理するための装置のブロック図を示しており、音声アクティビティ検出が利得更新をトリガしている別々のNRおよびAGC処理を示す。第1のステップにおいて、入力信号は、所定のノイズ抑制値、例えば所望のノイズ減衰に基づくノイズ低減を受ける。次のステップにおいて、ノイズ低減を受けた後の入力信号は、音声アクティビティ検出を算出するために使用され、それに基づいてスピーチアクティビティ決定が行われる。スピーチが検出されたとき、信号レベルがノイズ低減後の入力信号に基づいて算出される。さらなるステップにおいて、スピーチアクティビティを仮定して、利得値、例えば新しい自動利得制御の利得が、算出された信号レベルおよび所定の目標レベルに基づいて決定される。スピーチが音声アクティビティ検出によって検出されなかった場合、前の時点からの利得値が用いられる。最後のステップにおいて、前の時点からの利得値または現在の時点から算出された利得値のいずれかである利得値が、ノイズ低減後の信号に適用され、それによって出力信号が提供される。
【0102】
ノイズポンピング効果を回避し、一貫したスピーチレベルを提供するために、図16に示すように、スピーチ休止中に利得更新を回避するようにVAD(=音声アクティビティ検出)を適用することができる。スピーチアクティビティが確実に検出されることができると場合、AGC利得は、スピーチ休止中は一定に保ちながら、アクティブスピーチセグメント中にのみ調整することができる。グラフ1230に示すように、この方法は、一貫したスピーチレベルを生成し、ノイズポンピング効果(収束後の一定のノイズレベル)を回避する。しかしながら、AGC利得が大きい場合は絶対ノイズレベルが大幅に増加する可能性があり、実際にはスピーチ休止中に特に顕著になる。
【0103】
図17は、VADがAGC処理全体をトリガしている別々のNRおよびAGC処理を伴う、図16に記載のブロック図と類似の信号処理のためのブロック図を示す。さらに、図17のブロック図は、スピーチが検出されなかった場合に利得値を1に設定することを説明している。グラフ1230に示すように、スピーチ休止中のノイズ増幅を無効にするために、AGC利得は、図17に表されるように、スピーチ期間中にのみ適用される(スピーチ休止中に1を適用することは、AGC利得を適用しないことと等価である)。この手法は、低いスピーチレベルを提供し、スピーチ休止中のノイズの増幅を防止する。しかしながら、これもまたノイズの時変スケーリングをもたらし(グラフ1240参照)、これは実際には厄介なノイズポンピング効果として知覚される。
【0104】
図18は、本発明の好ましい実施形態による通信システム、例えば図13で説明したようなスピーチ通信システム1300の近端側または遠端側を示す。遠端側または近端側は、同様の構造で実現することができる。したがって、片側のみを説明するが、すべての機能は反対側でも使用可能であり得る。
【0105】
考慮される側は、オーディオ内容を聴取者に伝達するための拡声器1810と、所望の信号、例えば話者からのスピーチ信号を拾うためのマイクロフォン1820とを備える。また、エコー制御システム1830は、拡声器信号に基づいて、マイクロフォン信号のエコーを抑制する。エコー制御1830の後、共同ノイズ低減および利得制御1840が信号を処理する。共同ノイズ低減および利得制御1840は、例えば装置100、300、400、800および900によって実現することができる。
【0106】
また、コンフォートノイズシステム1850は、例えば所望の信号成分がマイクロフォンの取得された信号に存在しない場合(すなわち、遠端のみアクティビティ)に、遠端のユーザに快適な聴取体験を可能にするために、共同ノイズ低減および利得制御1840の後にコンフォートノイズを信号に適用する。要約すると、図18に記載のシステムは、例えば遠端側に送信される信号が、遠端側のユーザに送信された信号の明瞭なスピーチ成分および快適な聴取体験を提供するように信号処理を提供する。
【0107】
図19は、本発明の好ましい実施形態による通信システムの遠端側のブロック図を示す。図19のシステムは、音声コンテンツを聴取者に伝達するように構成された拡声器1810と、例えばスピーチ内容を含むオーディオ信号の記録を可能にするように構成されたマイクロフォン1820とを備える。さらに、図19に記載のシステムは、拡声器1810に伝達される信号のための共同ノイズ低減および利得制御1840を含む。また、マイクロフォン1820によって記録された信号は、拡声器1810およびコンフォートノイズシステム1850に伝達された信号に基づくエコー制御1830を受ける。エコー制御1830およびコンフォートノイズシステム1850は、図18に記載されているのと同じ機能を含む。さらに、共同ノイズ低減および利得制御1840は、例えば装置100、300、400、800または900によって実現することができる。それによって、図19に記載のシステムは、拡声器に伝達されたオーディオ信号がスピーチ成分を含むときに明瞭なスピーチ信号を提供する。さらに、ノイズ低減部品により、快適な聴取体験が実現される。
【0108】
さらなる実施形態は、一連のフレームにおけるオーディオ信号の処理に依存する。オーディオ信号分析器(130;830;930)は、時間的に第1のフレームと第1のフレームに続く第2のフレームとを備える一連のフレームでオーディオ信号を分析し、第1のフレームについて、第1の複数のノイズ抑制値を決定し、かつ第2のフレームについて、第2の複数のノイズ抑制値を決定するように構成される。分析器は、第1の複数のノイズ抑制フィルタ値のノイズ抑制フィルタ値が第1のフレームに対して決定された第1の最小ノイズ抑制フィルタ値(130b’;240;358c、360a)以上になるように、かつ第1の最小ノイズ抑制フィルタ値がオーディオ信号(130c’)の第1のフレームの第1の特性に依存するように第1の複数のノイズ抑制フィルタ値を決定するように構成される。分析器は、第2の複数のノイズ抑制フィルタ値のノイズ抑制フィルタ値が第2のフレームに対して決定された第2の最小ノイズ抑制フィルタ値(130b’;240;358c、360a)以上になるように、かつ第2の最小ノイズ抑制フィルタ値がオーディオ信号(130c’)の第2のフレームの第2の特性に依存するように第2の複数のノイズ抑制フィルタ値を決定するようにさらに構成される。フィルタ(120;310;410;820)は、一連のフレームのオーディオ信号をフィルタリングするように構成され、第1のフレームの第1のフィルタは、第1の複数のノイズ抑制値に基づいて調整され、第2のフレームの第2のフィルタは、第2の複数のノイズ抑制値に基づいて調整される。フィルタ(120;310;410;820)は、第1のフィルタでオーディオ信号の第1のフレームをフィルタリングし、かつ第2のフィルタでオーディオ信号の第2のフレームをフィルタリングするようにさらに構成される。
【0109】
結論として、本発明のいくつかの実施形態は、リストに要約することができる。好ましい実施形態では、NRが最初に適用され、以下のステップを含む:
1.オーディオ入力信号を受信する。
【0110】
2.前の時間フレームで決定されたAGC利得、所望のノイズ減衰量、および任意選択で歪み限界にも基づいて、ノイズ減衰限界を決定する。
【0111】
3.オーディオ入力信号およびノイズ減衰限界に基づいて、ノイズ低減フィルタを決定する。
【0112】
4.目標信号レベル、任意選択の音声アクティビティ情報、およびオーディオ信号に基づいてAGC利得を決定する。
【0113】
a)オーディオ信号がオーディオ入力信号である、または
b)オーディオ信号がノイズ低減フィルタをオーディオ入力信号に適用することによって得られるノイズ低減オーディオ信号である、
任意選択の音声アクティビティ情報は、スピーチ休止中にAGC利得を任意選択で減少させるために使用される。
【0114】
5.前のフレームで得られたノイズ低減フィルタおよびAGC利得をオーディオ入力信号に適用することによって出力オーディオ信号を生成する。
【0115】
さらに、本発明による別の好ましい実施形態は、以下に従って最初にAGCを適用することが実行されることに特徴付けられる:
1.オーディオ入力信号を受信する。
【0116】
2.目標信号レベル、任意選択の音声アクティビティ情報、およびオーディオ入力信号に基づいてAGC利得を決定する、
任意選択の音声アクティビティ情報は、スピーチ休止中にAGC利得を任意選択で減少させるために使用される。
【0117】
3.ノイズ減衰限界を決定する
a)所望のノイズ減衰量および現在のAGC利得に基づく、または
b)所望のノイズ減衰量、歪み限界、および現在のAGC利得に基づく。
【0118】
4.オーディオ入力信号およびノイズ減衰限界に基づいて、ノイズ低減フィルタを決定する。
【0119】
5.ノイズ低減フィルタおよび現在のAGC利得をオーディオ入力信号に適用することによって出力オーディオ信号を生成する。
【0120】
本発明は、ブロックが実際のまたは論理的ハードウェア構成要素を表すブロック図の文脈で説明されてきたが、本発明は、コンピュータ実装方法によっても実装することができる。後者の場合、ブロックは、対応する方法ステップを表し、これらのステップは、対応する論理的または物理的ハードウェアブロックによって実行される機能を表す。
【0121】
いくつかの態様は装置の文脈で説明されているが、これらの態様はまた、対応する方法の説明を表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明された態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップのいくつかまたはすべては、例えばマイクロプロセッサ、プログラマブルコンピュータまたは電子回路などのハードウェア装置によって(または使用して)実施されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数は、そのような装置によって実施され得る。
【0122】
ある特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、Blu−Ray、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実行されてもよい。したがって、デジタル記憶媒体は、コンピュータ可読であり得る。
【0123】
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0124】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータで実行されるときに方法の1つを実行するように動作可能である。プログラムコードは、例えば、機械可読キャリアに記憶することができる。
【0125】
他の実施形態は、機械可読キャリアに記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0126】
言い換えれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータで実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0127】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体などの非一時的記憶媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には、有形および/または非一時的である。
【0128】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えばデータ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。
【0129】
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成されたまたは適合された処理手段、例えば、コンピュータまたはプログラマブルロジックデバイスを含む。
【0130】
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
【0131】
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを(例えば、電子的または光学的に)受信機に転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
【0132】
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
【0133】
上述の実施形態は、本発明の原理を説明するための例示にすぎない。本明細書に記載の構成および詳細の修正および変形は、当業者にとって明らかであるものと理解される。したがって、差し迫った特許請求の範囲だけによって制限され、本明細書の実施形態の記載および説明によって示される具体的な詳細によって制限されないことが意図される。
参考文献
【0134】
[1] E. Haensler and G. Schmidt: “Hands−free telephones −Joint Control of Echo Cancellation and Postfiltering”, Signal Processing, Volume: 80, Issue: 11, pp. 2295−2305, Sep. 2000.
【0135】
[2] F. Kuech, E. Mabande and G. Enzner, “State−space architecture of the partitioned−block−based acoustic echo controller,” in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 2014.
【0136】
[3] A. Favrot, C. Faller, M. Kallinger, F. Kuech, and M. Schmidt, “Acoustic Echo Control Based on Temporal Fluctuations of Short−Time Spectra,” in Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC), Sept. 2008.
【0137】
[4] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean−square error short−time spectral amplitude estimator,” IEEE Trans. Acoust. Speech Signal Process, Vol. 32, pp. 1109−1121, Dec. 1984.
【0138】
[5] Guangji Shi and Changxue Ma, “Subband Comfort Noise Insertion for an Acoustic Echo Suppressor,” in Proc. 133rd Audio Engineering Society Convention, Oct. 2012.
【0139】
[6] M. Matsubara, K. Nomoto. “Audio signal processing device and noise suppression processing method in automatic gain control device.” Patent publication No. US 2008/0147387 A1.
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
【国際調査報告】