特許第6894580号(P6894580)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特許6894580ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法
<>
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000131
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000132
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000133
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000134
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000135
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000136
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000137
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000138
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000139
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000140
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000141
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000142
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000143
  • 特許6894580-ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法 図000144
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6894580
(24)【登録日】2021年6月7日
(45)【発行日】2021年6月30日
(54)【発明の名称】ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法
(51)【国際特許分類】
   G10L 21/0264 20130101AFI20210621BHJP
   G10L 21/034 20130101ALI20210621BHJP
【FI】
   G10L21/0264 Z
   G10L21/034
【請求項の数】26
【全頁数】73
(21)【出願番号】特願2020-516618(P2020-516618)
(86)(22)【出願日】2018年9月20日
(65)【公表番号】特表2020-537172(P2020-537172A)
(43)【公表日】2020年12月17日
(86)【国際出願番号】EP2018075529
(87)【国際公開番号】WO2019057847
(87)【国際公開日】20190328
【審査請求日】2020年5月19日
(31)【優先権主張番号】17192396.4
(32)【優先日】2017年9月21日
(33)【優先権主張国】EP
(31)【優先権主張番号】18158479.8
(32)【優先日】2018年2月23日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ブラウン セバスティアン
(72)【発明者】
【氏名】ハベツ エマヌエル
【審査官】 山下 剛史
(56)【参考文献】
【文献】 国際公開第2009/110574(WO,A1)
【文献】 特表2000−504434(JP,A)
【文献】 Keisuke KINOSHITA, et al.,Muti-step linear prediceion based speech devreverberation in noisy reverberant environment,INTERSPEECH 2007,2007年 8月,p.854-857
【文献】 中谷智広他,時変ガウス音源モデルと多チャネル自己回帰観測モデルに基づく最ゆう法による音響信号の残響除去,電子情報通信学会論文誌,2009年 5月,Vol.J92-A,No.5,p.294-304
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00−25/93
G01R 23/16
(57)【特許請求の範囲】
【請求項1】
【請求項2】
【請求項3】
【請求項4】
【請求項5】
【請求項6】
【請求項7】
【請求項8】
【請求項9】
【請求項10】
【請求項11】
【請求項12】
【請求項13】
【請求項14】
【請求項15】
【請求項16】
【請求項17】
【請求項18】
【請求項19】
【請求項20】
【請求項21】
【請求項22】
【請求項23】
【請求項24】
【請求項25】
【請求項26】
コンピュータ上で作動しているときに、請求項25に記載の前記方法を実行することを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明に従った実施の形態は、処理された音声信号を提供する信号処理装置に関する。
【0002】
本発明に従ったさらなる実施の形態は、処理された音声信号を提供する方法に関する。
【0003】
本発明に従ったさらなる実施の形態は、前記方法を実行するためのコンピュータプログラムに関する。
【0004】
本発明に従った実施の形態は、リダクション制御を有するオンライン残響除去(dereverberation)、及びノイズリダクション(例えば、並列構造を用いる)のための方法、及び装置に関する。
【0005】
本発明に従ったさらなる実施の形態は、交互にカルマンフィルタを用いるオンライン残響除去、及びノイズリダクションに基づく線形予測に関する。
【0006】
本発明に従ったさらなる実施の形態は、ノイズリダクション、及び残響(reverberation)リダクションのための信号処理装置、方法及びコンピュータプログラムに関する。
【背景技術】
【0007】
音声信号処理、音声通信、及び音声送信は、発展し続ける技術分野である。しかしながら、音声信号を扱うときには、ノイズ、及び残響は音声品質を低下させることがしばしば見られる。
【0008】
例えば、所望の音声源がキャプチャ装置(capturing device)から離れている、距離がある音声通信の状況では、所望の音声レベルと比較して、残響とノイズのレベルが高いために、一般的には、音声品質、及び明瞭度は、低下する。
【0009】
また、音声認識装置の性能は、離れた会話状況では、大幅に悪化する[15]、[34]。
【0010】
したがって、高い知覚品質を有する、リアルタイムのフレームとフレームの間の処理のための、ノイズがある環境での残響除去は、やりがいがあり、そして、部分的に未解決の仕事が残っている。
【0011】
最新式の多チャンネル残響除去アルゴリズムは、空間スペクトルフィルタリング[2]、[27]、システム同定[25]、[26]、音響チャンネル反転[20]、[22]、または、自己回帰(AR)残響モデルを用いた線形予測[21]、[29]、[32]に基づいている。線形予測に基づくアプローチの成功した適用は、それぞれの短時間フーリエ変換(STFT)領域周波数帯域のための多チャンネル自己回帰(MAR)モデルを用いることによって達成された。MARモデルに基づく方法の有利な点は、それらは、複数の音源(source)のために有効であり、それらは、直接、有限長の残響除去フィルタを推定し、必要とされたフィルタは、比較的に短く、そして、それらは、ビームフォームアルゴリズムのための前処理技術として適する。MAR信号モデルの偉大な挑戦は、残響信号の隣接した時間フレームの間の関係を破壊することなく、先に取り除かれなければならない[30]、[32]、付加的なノイズを統合することである。[33]の中では、ブラインドインパルス応答短縮と呼ばれる多チャンネル線形予測方法のための一般化されたフレームワークが提示されていて、そしてそれは、それぞれのマイクロフォンの残響尾を短くしながら、所望の信号の内部マイクロフォン相関を維持している間に、入力チャネルと同じ数の出力を得ることを目的としている。
【0012】
多チャンネル線形予測フレームワークに基づく最初の解決策は、バッチアルゴリズムであるので、リアルタイム処理[4,12,13,31,35]に適したオンラインアルゴリズムを開発するために、さらなる努力がなされた。しかしながら、オンライン解決策の中での追加的なノイズのリダクションは、我々の知識の及ぶ限りでは[31]だけで考慮されていた。
【発明の概要】
【発明が解決しようとする課題】
【0013】
従来の解決策を考慮して、音声信号のノイズと残響の両方を減少させるときに、複雑さ、安定性、及び信号品質の間の改良された妥協点を提供する概念が望まれている。
【課題を解決するための手段】
【0014】
【0015】
【0016】
さらに、信号処理装置は、ノイズが減少した(残響)信号(または、一般的に言えば、1つ以上のノイズが低減された残響信号)、及び自己回帰残響モデル(または、多チャンネル自己回帰残響モデル)の推定された係数を用いている、ノイズが減少し、及び残響が減少した出力信号(または、一般的に言えば、1つ以上のノイズが減少し、及び残響が減少した出力信号)を提供するように構成されている。これは、例えば、残響推定、及び信号減算を用いて実行されてもよい。
【0017】
本発明に従ったこの実施の形態は、1つ以上の先行フレームと関連してもよい遅延し、及びノイズが減少した残響信号に基づく、特定のフレームと関連する自己回帰残響モデルの係数を推定することによって、いくつかの従来型の解決策の中で見つかった因果関係問題を克服することが可能であり、かつ、入力音声信号、及び現在のフレームと関連する自己回帰残響モデルの推定された係数を用いて、1つ以上の先行フレームと関連するノイズが減少し(及び一般的な残響)信号(例えば、ノイズリダクション段によって提供された)に基づいて得られる現在のフレームのノイズを減少させた残響信号を提供することが可能であるという、発見に基づいている。従って、自己回帰残響モデルの係数の推定、及びノイズが減少した残響信号の推定は、別々に、及び交互に実行されることができるので、それに応じて、計算の複雑さは、合理的に小さく維持することができる。換言すれば、自己回帰残響モデルの係数、及びノイズが減少した残響信号の係数の分離推定は、自己回帰残響モデルの係数、及びノイズが減少した残響信号の係数の結合推定よりも、より効率的に実行することができて、そして、ノイズが減少し、及び残響が減少した音声信号の結合(1段階)推定よりもより効率的である。それにもかかわらず、自己回帰残響モデルの係数の推定で、ノイズリダクションを用いて得られた、遅延した(または、同等に過去の)ノイズが減少した残響信号を考慮することにより、自己回帰残響モデルの係数がかなり良好に推定され、その結果、処理された信号(出力信号)の深刻な音声品質の低下が生じないことが分かった。それに応じて、まだ、良好な音声品質を得ながら、自己回帰残響モデルの係数、及びノイズが減少した残響信号のフレームを交互に推定することが可能になる。
【0018】
その結果として、複雑さ、安定性、及び信号品質のトレードオフは、良好とみなされる。
【0019】
好ましい実施の形態では、信号処理装置は、多チャンネル自己回帰残響モデルの係数を推定するように構成されている。本明細書に述べられた概念は、多チャンネル信号の取り扱いのために十分に適合し、そして、このような多チャンネル信号のための複雑さの特定の改善をもたらすことが分かった。
【0020】
好ましい実施の形態では、信号処理装置が、入力音声信号の現在処理された部分(例えば、フレーム・インデックス(frame index )nを有する時間フレーム(time−frame))と関連する、ノイズが減少した残響信号を生成するために、入力音声信号の現在処理された部分(例えば、フレーム・インデックスnを有する時間フレーム)と関連する自己回帰残響モデルの推定された係数を用いるように構成されている。それに応じて、現在処理された部分と関連するノイズが減少した残響信号の提供は、入力音声信号の現在処理された部分と関連する自己回帰残響モデルの係数の以前の推定に頼るかもしれず、または、現在処理された部分(または、フレーム)と関連する自己回帰残響モデルの係数の推定は、現在処理された部分(または、フレーム)と関連するノイズが減少した残響信号の提供に先だって行われてもよい。それに応じて、フレーム・インデックスnを有する音声フレームを処理している間に、まず自己回帰残響モデルの係数の推定を実行してもよく(例えば、過去のノイズは減少している残響信号を用いて)、次に、現在処理されたフレームと関連するノイズが減少した残響信号の提供を実行してもよい。逆の順序ではあまり良い結果は得られないが、そのような処理の順序では特によい結果が生じることが分かった。
【0021】
【0022】
好ましい実施の形態では、信号処理装置は、自己回帰残響モデル(または、多チャンネル自己回帰残響モデル)の推定された係数、及びノイズが減少した残響信号部分を交互に提供するように構成されている。さらに、信号処理装置は、ノイズが減少した残響信号の提供のために、(好ましくは、多チャンネル)自己回帰残響モデルの推定された係数(または、代わりに、先に推定された係数)を用いるように構成されている。さらに、信号処理装置は、多チャンネル自己回帰残響モデルの係数の推定のために、1つ以上の遅延したノイズが減少した残響信号(または、代わりに、先に提供されたノイズが減少した残響信号部分)を用いるように構成されている。自己回帰残響モデルの、及びノイズが減少した残響信号部分の推定された係数を交互に提供することを実行することによって、計算の複雑さを、低く維持することができて、そして、結果は、遅延の少ない結果を得ることができる。また、多チャンネル自己回帰モデルとノイズが減少した残響信号の係数の推定の組み合わせによって引き起こされ得る計算の不安定性を、回避することができる。
【0023】
好ましい実施の形態では、信号処理装置は、(好ましくは、多チャンネル)自己回帰残響モデルの係数の推定のために、コスト関数を最小化するアルゴリズム(例えば、カルマンフィルタ、再帰的最小二乗法フィルタ、または、正規化された最小二乗法(NLMS)フィルタ)を適用するように構成されていてもよい。このようなアルゴリズムの使用は、自己回帰残響モデルの係数を推定するために、よく適合することが分かった。コスト関数は、例えば、式(15)で示されるように定義されており、及び最小化は、例えば、式(17)で示されるような機能を満たしてもよく、あるいは、式(19)に示されるようにエラー行列(error matrix)のトレース(trace)を最小化してもよい。コスト関数の最小化は、例えば、以下の式(20)から(25)に従ってもよい。また、コスト関数の最小化は、アルゴリズム1のステップ4から6を用いてもよい。
【0024】
好ましい実施の形態では、自己回帰残響モデルの係数の推定のために用いられたコスト関数(例えば、コスト関数を最小化するアルゴリズムにおける)は、例えば、式(19)に示すように、自己回帰残響モデルの係数の平均二乗誤差の期待値である。それに応じて、残響を引き起こしている音響の環境によく適合することが期待される自己回帰残響モデルの係数を得ることができる。MAR係数ノイズの、または、ノイズがある非残響信号(状態および観測ノイズ)の期待された統計的特性は、例えば、分離された準備の段階(例えば、1つ以上の式(26)から(29)を用いて)の中で推定されることに注意すべきである。
【0025】
好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号が確定されているとの仮定の下で(例えば、入力音声信号の現在処理された部分と関連する自己回帰残響モデルの係数によって影響されない)、(好ましくは、多チャンネル)自己回帰残響モデルの係数を推定するために、コスト関数を最小化するためのアルゴリズムを適用するように構成されていてもよい。このように仮定することによって、計算の複雑さは、かなり減らすことができて、そして、計算の不安定さも避けることができる。例えば、式(20)から(25)のアルゴリズムは、このような仮定をする。
【0026】
好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号を推定するために、コスト関数を最小化するアルゴリズム(例えば、カルマンフィルタ、再帰的最小二乗法フィルタ、または、NLMSフィルタ)を適用するように構成されていてもよい。コスト関数は、例えば、式(16)に示すように定義されていてもよく、及び最小化は、例えば、式(18)で示されるような機能を満たし、または、式(30)に示されているようにエラー行列のトレースを最小化してもよい。コスト関数の最小化は、例えば、以下の式(31)から(36)に従ってもよい。
【0027】
好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号を推定するために、コスト関数を最小化するアルゴリズム(例えば、カルマンフィルタ、再帰的最小二乗法フィルタ、または、NLMSフィルタ)を適用するように構成されている。例えば、もし、ノイズの統計的特性が知られている、または、推定されると、コスト関数の最小化のためのこのようなアルゴリズムを用いることは、また、ノイズが減少した残響信号の決定のために非常に効率的であることが分かった。さらに、もし、類似するアルゴリズム(例えば、コスト関数を最小化するアルゴリズム)が、自己回帰モデルの係数の推定のためと、ノイズが減少した残響信号の推定のための両方で用いられると、計算の複雑さは、大幅に改善されることができる。例えば、式(31)から(36)に従ったアルゴリズムが用いられてもよく、前記アルゴリズムの中で用いられたパラメータは、1つ以上の式(37)から(42)に従って決定されてもよい。また、機能は、アルゴリズム1のステップ7から9を用いて実行されてもよい。
【0028】
好ましい実施の形態では、(任意にノイズが減少した)残響信号を推定するために用いられたコスト関数は、(任意にノイズが減少した)残響信号の平均二乗誤差のための期待値である。このような、コスト関数(例えば、式(16)に従った、または、式(30)に従った)は、よい結果を提供して、そして、合理的な計算の努力を用いて評価されることができることが分かった。さらに、例えば、もし、ノイズの統計的特性(例えば、ノイズ共分散行列)に関する情報(または、仮定)、そして、場合によれば、所望の信号(例えば、処望の音声共分散行列)に関する情報が利用可能であれば、ノイズが減少した残響信号の平均二乗誤差の推定が可能であることに注意すべきである。
【0029】
好ましい実施の形態では、信号処理装置は、自己回帰残響モデルの係数が確定されている(例えば、入力音声信号の現在の処理された部分と関連するノイズが減少した残響信号によって影響されない)との仮定の下で、(任意にノイズが減少した)残響信号を推定するために、コスト関数を最小化するためのアルゴリズムを適用するように構成されていてもよい。“理想的な”仮定(は、例えば、式(31)から(36)に従った計算の中で作られる)は、ノイズが減少した残響信号の推定の結果を十分に低下させないが、計算量を大きく減少させることが分かった(例えば、ノイズが減少した残響信号、及び自己回帰モデルの係数を組み合わせた推定と比較したとき、または、ノイズが減少し、及び残響が減少した出力信号と比較したとき(一段階処理の中で))。
【0030】
なおその上に、仮定は、ノイズが減少した残響信号、及び自己回帰残響モデルの係数が、別々の手段の中で推定される、交互の手順を可能にする(例えば、アルゴリズム1のステップ4から6、及びステップ7から9を交互に実行することで)。
【0031】
好ましい実施の形態では、信号処理装置は、(好ましくは、多チャンネル)自己回帰残響モデルの推定された係数に基づいて、及び(例えば、自己回帰残響モデルの推定された係数を用いるノイズが減少した残響信号をフィルタリングすることによって、)入力音声信号の以前に処理された部分(例えば、フレーム)と関連する、1つ以上の遅延したノイズが減少した残響信号に基づいて(または、代わりに、ノイズが減少した残響信号に基づいて)、残響成分を決定するように構成されている。さらに、信号処理装置は、ノイズが減少し、及び残響が減少した出力信号(例えば、望ましい音声信号)を得るために、入力音声信号の現在処理された部分(例えば、フレーム)と関連する、ノイズが減少した残響信号から残響成分を(少なくとも部分的に)削除(例えば、減じる)ように、好ましくは構成されている。これは、例えば、式(44)を用いて実行されてもよい。
【0032】
【0033】
好ましい実施の形態では、信号処理装置は、入力音声信号の、及びノイズが減少した残響信号の重み付けられた組み合わせを実行するように(例えば、式(44)に従って)、そして、また、重み付けられた組み合わせの中の残響成分を含むように構成されている(例えば、入力音声信号、ノイズが減少した残響信号、及び残響成分の重み付けられた組み合わせが実行されるように)。換言すれば、ノイズが減少した残響信号は、入力音声信号、ノイズが減少した残響信号、及び残響成分の重み付けられた組み合わせによって得られる。それに応じて、残響、及びノイズリダクションの量のような、信号特性を微調整することができる。その結果として、処理された音声信号(例えば、ノイズが減少し、及び残響成分が減少した音声信号)の信号特性は、現状の要求に従って、調整されることができる。
【0034】
好ましい実施の形態では、信号処理装置は、また、重み付けられた組み合わせの中の残響成分の中の整形バージョンを含むように構成されている(例えば、入力音声信号、ノイズが減少していない残響成分、そして、また、残響成分それ自身の重み付けられた組み合わせが実行されるように)。例えば、これは、“Method and apparatus for online dereverberation and noise reduction (using a parallel structure) with reduction control“を記述している節の最後の式に示されるようにすることができる。したがって、さらなる、残りの残響のスペクトル、及び動的な形成を実行することを可能にする。したがって、達成すべき結果に関する、さらにより大きな柔軟性がある。
【0035】
好ましい実施の形態では、信号処理装置は、入力音声信号のノイズ成分の統計値(例えば、共分散)(または、統計的特性)を推定するように構成されている。入力音声信号のノイズ成分のそのような統計値は、例えば、ノイズが減少した残響信号の推定(または、供給)の中で有益であるかもしれない。また、入力音声信号のノイズ成分の統計値は、コスト関数の一部として用いられることができるので、入力音声信号のノイズ成分の統計値の推定(または、決定)は、コスト関数の公式化を容易にする。
【0036】
好ましい実施の形態では、信号処理装置は、無音声期間(例えば、無音声期間は、音声検出器を用いて検出される)の間に、入力音声信号のノイズ成分の統計値(例えば、共分散)(または、統計的特性)を推定するように構成されている。無音声期間の検出は、合理的な努力で可能になることが分かっており、また、無音声期間の間に存在するノイズは、とても大きな変化を伴わずに、一般的には、音声期間の間にも存在することが分かっている。したがって、ノイズ成分の統計値を効果的に得ることが可能になり、そしてそれは、ノイズが減少した残響信号の供給のために有益である。
【0037】
好ましい実施の形態では、信号処理装置は、カルマンフィルタを用いている(好ましくは、多チャンネル)自己回帰残響モデルの係数を推定するように構成されている。このようなカルマンフィルタは、効果的な計算、及び信号処理タスクの必要条件によく適合することが分かっている。例えば、式(20)から(25)に従った実施例が用いられることができる。
【0038】
【0039】
好ましい実施の形態では、信号処理装置は、カルマンフィルタを用いて、ノイズが減少した残響信号を推定するように構成されている。そのようなカルマンフィルタ(式31から36で与えられる機能性の実施例であってもよい)を用いることは、また、ノイズが減少した残響信号を推定するために有益であることが分かっている。また、自己回帰残響モデルの係数を推定するためと、ノイズが減少した残響信号を推定するための両方にカルマンフィルタを用いることは、よい結果をもたらすことができる。
【0040】
好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号(例えば、入力音声信号の先に処理された部分、または、フレームと関連する、例えば、)の推定されたエラー行列に基づいて、所望の音声信号の推定された共分散(例えば、式37から42で与えられる、例えば、入力音声信号の現在処理された部分、または、フレームと関連する)に基づいて、ノイズが減少した残響信号の1つ以上の先の推定(例えば、入力音声信号の1つ以上の先に処理された部分、または、フレームと関連する)に基づいて、好ましくは、多チャンネル)自己回帰残響モデル(例えば、入力音声信号の現在処理された部分、または、フレームと関連する、例えば、行列 F(n) を定義する)の複数の係数に基づいて、入力音声信号に関連する推定されたノイズ共分散に基づいて、及び入力音声信号に基づいて、(ノイズが減少した残響信号を推定するように構成されている。これらの量に基づくノイズが減少した残響信号の推定は、効果的な計算効率がよく、品質のよい音声信号のよいをもたらすことが分かっている。
【0041】
好ましい実施の形態では、信号処理装置は、入力音声信号のノイズがあるが、残響が減少した(または、残響がない)信号成分(例えば、入力音声信号の以前に処理された部分、または、フレームと関連する、例えば、式(29)に従った)の先の推定を用いて、再帰的に決定される再帰的な共分散推定の、及び入力音声信号のノイズがあるが、残響が減少した(または、残響がない)信号成分(例えば、入力音声信号の現在処理された部分と関連する)の(例えば、中間の)推定の外積の、重み付けられた組み合わせに基づく(例えば、式(28)に基づく)、入力音声信号のノイズがあるが、残響が減少した(または、残響がない)信号成分と関連する、推定された共分散を得るように構成されている。例えば、ノイズがあるが、残響が減少した信号成分の中間推定は、カルマンフィルタリング処理の中の技術革新として得られてもよい(例えば、式(22)に従って)。例えば、中間推定は、(例えば、式(21)によって決定されるように)予測された係数を用いている予測であってもよい。
【0042】
このような概念は、ノイズがあるが、残響が減少した(または、残響がない)信号成分と関連する共分散のよい推定を、合理的な計算複雑度でもたらすことが分かっている。
【0043】
【0044】
好ましい実施の形態では、信号処理装置は、入力音声信号のノイズが減少し、及び残響が減少した信号成分の先の推定を用いて、再帰的に決定された再帰的共分散推定(例えば、入力音声信号の先に処理された部分、または、フレームと関連する)(例えば、再帰的に帰納的な最大の尤度推定として、考慮されてもよい)、及び入力音声信号(及び、例えば、式(41)に従って得られた)の現在処理された部分に基づく共分散の演繹的な推定の重み付けられた組み合わせ(例えば、式(37)に従って)に基づく、入力音声信号のノイズが減少し、及び残響が減少した(または、残響がない)信号成分を得るように構成されている。この方法では、入力音声信号のノイズが減少し、及び残響が減少した信号成分と関連する共分散の有意義な推定が、適度な計算量で得ることができる。例えば、式(37)に記述されたアプローチを用いることは、よい結果を伴うノイズリダクションのためのカルマンフィルタを用いることを可能にする。
【0045】
好ましい実施の形態では、信号処理装置は、(好ましくは、多チャンネル)自己回帰残響モデルの最後に推定された係数、及びノイズが減少した残響(出力)信号(例えば、式(38)を用いている)の最後の推定を用いて、計算された入力音声信号のノイズが減少し、及び残響が減少した(または、残響がない)信号成分の推定に基づいて、再帰的共分散推定を得るように構成されている。代わりに、または、これに加えて、信号処理装置は、入力信号のウィーナフィルタリング(Wiener filtering)を用いて、共分散の事前推定を得るように構成されており(例えば、式(41)に示されるように)、これにおいて、ウィーナフィルタリング動作は、入力音声信号に関する共分散情報に依存して、入力音声信号の残響成分に関する共分散情報に依存して、及び入力音声信号のノイズ成分に関する共分散情報に依存して、決定される(例えば、式(42)に示されるように)。これらの概念は、ノイズが減少し、及び残響が減少した信号成分と関連する推定された共分散の効果的な計算に役立つことが分かっている。
【0046】
本明細書に記述された信号処理装置、及び請求項の中で明らかにされた信号処理装置は、個々に、及び組み合わせが得られたのと両方で、本明細書に記述された特徴、機能、及び詳細のいずれかによって、供給されることができる。また、異なるパラメータの計算に関連する詳細は、個々に用いられることができる。また、個々の処理ステップに関連する詳細は、個々に用いられることができる。
【0047】
【0048】
【0049】
方法は、さらに、ノイズが減少した残響信号、及び(好ましくは、多チャンネル)自己回帰残響モデルの推定された係数を用いて、ノイズが減少し、及び残響が減少した入力信号を導出するステップ、を含む。
【0050】
方法は、上記の説明も適用されるような、上述の信号処理装置として、同じ考慮に基づいている。
【0051】
さらに、個々の、及び組み合わせの両方で、信号処理装置と関連する本明細書に述べられた、特徴、機能、及び詳細によって、補完されることができる。
【0052】
本発明に従った別の実施の形態は、コンピュータプログラムがコンピュータで動作しているときには、本明細書に述べられた方法を実行するためのコンピュータプログラムを創造する。
【発明の効果】
【0053】
本発明は、従来の解決策を考慮して、音声信号のノイズと残響の両方を減少させるときには、複雑さ、安定性、及び信号品質の間の改良された妥協点を提供する概念を提供する。
【図面の簡単な説明】
【0054】
本発明に従った実施の形態は、同封された図面を参照して、その後に記述される:
図1図1は、本発明の実施の形態に従った、信号処理装置のブロック概略図を示している。
図2図2は、ノイズがある環境でのMAR(多チャンネル自己回帰)係数推定のための従来の構造を示している。
図3図3は、本発明の実施の形態に従った、装置(または、信号処理装置)のブロック概略図を示している(実施の形態2)。
図4図4は、本発明の実施の形態に従った、装置(または、信号処理装置)のブロック概略図を示している(実施の形態3)。
図5図5は、本発明の実施の形態に従った、装置(または、信号処理装置)のブロック概略図を示している(実施の形態4)。
図6図6は、多チャンネル自己回帰係数、及びノイズ観測の残響信号の一般的なモデルの概略図を示している。
図7図7は、本発明の実施の形態に従った、提案された並列二重カルマンフィルタ構造を備える装置(または、信号処理装置)のブロック概略図を示している。
図8図8は、参考文献[31]に従った、従来の連続したノイズリダクション、及び残響構造のブロック概略図を示している。
【発明を実施するための形態】
【0055】
実施の形態の詳細な説明
【0056】
1.図1に従った実施の形態
【0057】
図1は、本発明の実施の形態に従った信号処理装置100のブロック概略図を示している。信号処理装置100は、入力音声信号110を受信するように構成されており、及び
それに基づいて、例えば、ノイズが減少し、及び残響が減少した音声信号であってもよい、処理された音声信号112を提供するように構成されている。入力音声信号110は、単一チャンネル音声信号であるが、好ましくは、多チャンネル音声信号であることに注意すべきである。同様に、処理された音声信号112は、単一チャンネル音声信号であってもよいが、好ましくは、多チャンネル音声信号であってもよい。信号処理装置100は、例えば、単一チャンネル、または、多チャンネル入力音声信号110、及び遅延したノイズが減少した残響信号122を用いて、自己回帰残響モデルの係数124(例えば、多チャンネル自己回帰残響モデルのAR係数、または、MAR係数)を推定するように構成された係数推定ブロック、または、係数推定ユニット120と、を備えていてもよい。
【0058】
例えば、自己回帰残響モデル120の係数を推定し、そして、入力音声信号110、及び遅延したノイズが減少した残響信号122を受信してもよい。
【0059】
信号処理装置100は、入力音声信号110を受信し、及びノイズが減少した(しかし、一般的には、残響を有しており、または、残響が減少していない)信号132を提供するノイズリダクションユニット、または、ノイズリダクションブロック130を備える。ノイズリダクションユニット、または、ノイズリダクションブロック130は、(一般的には、ノイズがあり、及び残響を有している)入力音声信号110、及び推定ブロック、または、推定ユニット120によって提供された自己回帰残響モデルの推定された係数124を用いてノイズが減少した(しかし、一般的には、残響を有している)信号を提供するように構成されている。
【0060】
ノイズリダクション130は、予め決定されたノイズが減少した残響信号132(場合によっては、入力音声信号110と結合して)に基づいて得られた自己回帰残響モデルの係数124を用いてもよいことに注意すべきである。
【0061】
装置100は、それについて、出力として、遅延したバージョン122を提供するために、ノイズリダクションユニット、または、ノイズリダクションブロック130によって提供されたノイズが減少した残響信号132を得るように構成されていてもよい、遅延ブロック、または、遅延ユニット140と、を任意に備えている。従って、自己回帰残響モデルの係数の推定120は、先に得られた(導出された)ノイズが減少した残響信号(ノイズリダクションブロック130によって提供された、または、導出された)、及び入力音声信号110に基づいて動作することができる。
【0062】
装置100は、また、処理された音声信号112としての役割を果たしてもよい、ノイズが減少し、及び残響が減少した出力信号の導出のためのブロック、または、ユニット150を備えている。ブロック、または、ユニット150は、好ましくは、ノイズリダクションブロック、または、ノイズリダクションユニット130からのノイズが減少した残響信号132、及び推定ブロック、または、推定ユニット120によって提供された自己回帰残響モデルの係数124を受信する。このように、ブロック、または、ユニット150は、例えば、ノイズが減少した残響信号132から残響を削除、または、減少させてもよい。例えば、取り消し動作と結合する、適切なフィルタリング(例えば、スペクトル領域の中で)は、この目的のために用いられてもよく、自己回帰残響モデルの係数124は、フィルタリング(残響の推定に用いられる)を決定してもよい。
【0063】
装置100に関しては、ブロック、または、ユニットの中の機能の分離は、効果的ではあるが、任意の選択であることに注意すべきである。本明細書で記述された機能は、基本的な機能が維持される限り、ハードウエア機器に別個に分配されることもできる。また、ブロック、または、ユニットは、同じハードウエア(例えば、マイクロプロセッサ)で再利用されるソフトウェアブロック、または、ソフトウェアユニットであってもよいことに注意すべきである。
【0064】
装置100の機能に関して、それは、ノイズリダクション機能(ノイズリダクションブロック、または、ノイズリダクションユニット130)と、自己回帰残響モデル(推定ブロック、または、推定ユニット120)の係数の推定との間の分離は適度な小さな計算の複雑さを提供し、かつ十分によい音声品質を得ることをまだ可能にすると言える。理論的には、結合コスト関数を用いて、ノイズが減少し、及び残響が減少した出力信号を推定することは、最良ではあるが、複雑さを減少させることができて、及び安定性問題を避けられる間には、ノイズリダクションを実行し、及び分離したコスト関数を用いる自己回帰残響モデルの係数の推定は、適度によい結果をまだ提供できることが分かっている。また、ノイズが減少し、及び残響が減少した出力信号(換言すれば、処理された音声信号112)は、自己回帰モデルの係数124が知られているという条件で小さな努力を伴って、ノイズが減少した(しかし、残響している、または、残響が減少されていない)信号132から導出されることができるので、ノイズが減少した残響信号132は、とてもよい中間品質としての役割を果たすことが分かった。
【0065】
しかしながら、図1に示す、装置100は、以下で述べられる、個々と、組み合わせで得られることの両方で、特徴、機能、及び詳細のうちのいずれかによって補完できることに注意すべきである。
【0066】
2.図3、4及び5に従った実施の形態
【0067】
以下では、いくつかのさらなる実施の形態が、図3、4、及び5の引用を得て記述される。しかしながら、実施の形態の詳細が記述される前に、従来の解決策に関連するいくつかの情報が記述され、さらに、信号モデルが定義される。
【0068】
一般的には、任意のリダクション制御を伴う、オンライン(online)の残響除去、及びノイズリダクション(並列構造を用いる)のための方法および装置が、記述される。
【0069】
2.1.序論
【0070】
以下の発明の実施の形態は、音場処理の分野の中の、例えば、1つ以上のマイクロフォンからの残響ノイズ除去である。
【0071】
望ましい音声源が、キャプチャ(capturing)装置から離れている、遠隔音声通信状況では、望ましい音声レベルと比較して、残響、及びノイズの高いレベルのために、音声品質、明瞭度、だけではなく、音声認識装置の性能も、一般的には、低下する。
【0072】
短時間フーリエ変換(STFT)領域の中の周波数帯域ごとの自己回帰(AR)モデルに基づく残響除去方法は、他の残響除去モデルよりも優れた性能を発揮することが示されている。このモデルに基づく残響除去方法は、典型的には線形予測と関連するアプローチを用いて、問題を解決する。さらに、一般的な多チャンネル自己回帰(MAR)モデルは、複数音源で効果的であり、そして、入力と同様に出力で同じ数のチャンネルを提供されるように、定式化することができる。複数のSTFTフレームにわたる周波数帯域ごとの線形フィルタである、結果として生じる強化された処理は、所望の信号の空間的相関を変化させないので、強化は、さらなるアレイ処理技術のための前処理として適する。
【0073】
MARモデルに基づく大半の既存の技術の間では、バッチアルゴリズム[Nakatani 2010,Yoshioka 2009,Yoshioka 2012]、いくつかのオンラインアルゴリズム[Yoshioka 2013,Togami 2019,Jukic 2016]が提案されていた。しかしながら、オンラインアルゴリズムを用いて、ノイズがある環境の中での挑戦的な問題は、[Togami 2015]だけで取り上げられていた。
【0074】
ノイズがある環境では、問題は、一般的には、最初にノイズリダクションステップを実行し、その後、線形予測に基づく方法でMAR係数(室回帰係数として知られている)を推定し、、その後信号のフィルタリングを行うことによって解決できることが分かっている。
【0075】
本発明の実施の形態では、新しい並列構造は、連続した構造の代わりに、観測されたマイクロフォン信号から直接的に、MAR係数、及びノイズ除去信号を推定することが提案されている。並列構造は、潜在的に時間的に変化するMAR係数の十分な因果関係の推定を可能にし、そして、従属した段階である、MAR係数推定段、または、ノイズリダクション段のどちらを先に実行すべきかというあいまいな問題を解決し、さらに、並列構造は、残りの残響、及びノイズの量を効果的に制御することができる出力信号を創造することを可能にする。
【0076】
2.2 定義と従来の解決策
【0077】
2.2.1 信号モデル
【0078】
以下のサブセクションは、多チャンネル自己回帰モデルに基づく、ノイズがある環境の中での残響除去のための従来のアプローチを要約する。
【0079】
【0080】
【0081】
【0082】
【0083】
【0084】
【0085】
2.2.2 連続したオンライン解決策
【0086】
【0087】
【0088】
結論としては、図2は、ノイズがある環境でのMAR係数推定のための従来の構造のブロック概略図を示している。装置200は、ノイズ統計的推定201と、ノイズリダクション202と、AR係数推定203と、及び残響推定204と、を備える。
【0089】
換言すれば、ブロック201から204は、従来の連続したノイズリダクション、及び残響システムのブロックである。
【0090】
2.3 本発明に従った実施の形態
【0091】
以下では、本発明に従った3つの実施の形態が記述される。図3は、本発明に従った実施の形態2のブロック概略図を示している。図4は、本発明に従った実施の形態3のブロック概略図を示している。図5は、本発明に従った実施の形態4のブロック概略図を示している。
【0092】
以下では、図面、及びブロック番号の簡単な説明が提供される。
【0093】
ブロック301から305は、提案されたノイズリダクション残響システムのブロックであることに注意すべきである。同一の参照数字が図3、4、及び5に従った実施の形態での同一のブロック(または、同一の機能を有するブロック)に使用されることにも注意すべきである。
【0094】
以下では、発明の実施の形態として、MAR係数を推定することによる残響除去問題、及び追加のノイズが存在するときの原因になるオンライン方法での残響信号への解決策が提案される。空間ノイズ統計値は、例えば、[Gerkmann 2012]の中で提案されたように、計算ブロック301によって、あらかじめ推定されていてもよい。
【0095】
2.3.1 AR係数、及び所望の信号を推定するための並列構造
【0096】
図3は、本発明の実施の形態に従った装置(または、信号処理装置)のブロック概略図(または、一般的な、提案された発明の実施の形態のブロック図)を示す。
【0097】
図3に従った、装置300は、単一チャンネル音声信号、または、多チャンネル音声信号であってもよい、入力信号310を受信するように構成されている。装置300は、また、ノイズが減少し、及び残響が減少した信号であってもよい、処理された音声信号312を提供するように構成されている。装置300は、任意に、入力音声信号310に基づくノイズ統計値についての情報を導出するように構成されてもよい、ノイズ統計値推定301を備える。例えば、ノイズ統計値推定301は、音声信号が欠如した状態で(例えば、音声が休止している間に)、ノイズの統計値を推定してもよい。
【0098】
装置300は、また、入力音声信号310、ノイズ統計値についての情報301a、及び(自己回帰係数推定302によって提供された)自己回帰残響モデルの係数302aを受信する、ノイズリダクション303を備える。ノイズリダクション303は、ノイズが減少した(しかし、一般的には、残響している)信号303aを提供する。
【0099】
装置300は、入力音声信号301、及びノイズリダクション303によって提供された、ノイズが減少した(しかし、一般的には、残響している)信号303aの遅延したバージョン(または、過去のバージョン)を受信するように構成されている、自己回帰係数推定302(AR係数推定を含む。さらに、自己回帰係数推定302は、自己回帰残響モデルの係数302aを提供するように構成されている。
【0100】
装置300は、任意で、ノイズリダクション303によって提供された、ノイズが減少した(しかし、一般的には、残響している)信号303aから、遅延したバージョン320aを導出するように構成された遅延器(delayer)320を備える。
【0101】
装置300は、ノイズリダクション303によって提供された、ノイズが減少した(しかし、一般的には、残響がある)信号303aの遅延したバージョン320aを受信するように構成された、残響推定304を備える。さらに、残響推定304は、また、自己回帰係数推定302から自己回帰残響モデルの係数302aを受信する。残響推定304は、推定された残響信号304aを提供する。
【0102】
装置300は、また、ノイズリダクション303によって提供された、ノイズが減少した(しかし、一般的には、残響している)信号303aから推定された残響信号304aを削除し(または、差し引きし)、それによって、一般的には、ノイズが減少し、及び残響が減少した、処理された音声信号312を得るように構成された、信号減算器330を備える。
【0103】
以下では、図3に従った、装置300の機能がさらに詳細に記述される。特に、自己回帰係数推定302は、入力信号310と、ノイズリダクション303のノイズが減少した(しかし、一般的には、残響している)出力信号303a(または、さらに正確には、それの遅延したバージョン320a)の両方を用いることに注意すべきである。それに応じて、自己回帰係数推定302は、ノイズリダクション303とは別に動作することができて、ノイズリダクション303は、それにもかかわらず、自己回帰残響モデルの係数302aの利益を得ることができて、自己回帰係数推定302は、それにもかかわらず、ノイズリダクション303によって提供されたノイズが減少した信号303aの利益を得ることができる。残響は、最後に、ノイズリダクション303によって提供されたノイズが減少した(しかし、一般的には、残響している)信号303aから取り除かれる。
【0104】
以下では、装置300の機能が、他の言葉で再び記述される。
【0105】
【0106】
【0107】
【0108】
【0109】
2.3.2 実施の形態3、及び4:リダクション制御
【0110】
以下では、図4、及び5に従った、実施の形態が記述される。
【0111】
図4は、本発明の実施の形態に従った、装置、または、信号処理装置400のブロック概略図を示している。信号処理装置400は、ノイズリダクション303と、及び残響推定304と、を備える。ノイズリダクション303は、ノイズが減少した(しかし、一般的には、残響を有している)信号303aを提供する。残響推定304は、残響信号304aを提供する。例えば、装置400のノイズリダクション303は、装置300のノイズリダクション303として、同じ機能を備えていてもよい(場合によっては、ブロック301と組み合わせて)。
【0112】
さらに、装置400の残響推定304は、例えば、場合によっては、ブロック302、及び320の機能と組み合わされて、装置300の残響推定304の機能を実行してもよい。
【0113】
【0114】
【0115】
図5は、発明の実施の形態に従った、別の装置、または、信号処理装置のブロック概略図を示している。
【0116】
参照が上述の説明を参照して行われ、そして、均等な成分が再び記述されないように、図5に従った、信号処理装置500は、図4に従った、装置、または、信号処理装置400に類似している。
【0117】
しかしながら、装置500は、また、残響推定によって提供された残響信号304aを受信する残響形成305を備える。残響形成305は、形成された残響信号305aを提供する。
【0118】
図5に示された概念によれば、残響信号304aは、スケーリングされたノイズが減少した信号303b、及びスケーリングされた入力信号410aの合計から差し引かれ、それに応じて、中間の信号520が得られる。さらに、形成された残響信号305aのスケーリングされたバージョン305bは、出力信号512を得るために、中間の信号520に加えられる。
【0119】
しかしながら、信号410a、303b、304a、及び305bの直接的な組合せ
は、同様に可能である(中間の信号を用いることなしに)。
【0120】
それに応じて、装置500は、出力信号512の特性を調整することを可能にする。オリジナル(original)の残響は、例えば、信号303b、410aの合計から(推定された)残響信号304aを差し引くことによって、取り除くことができる(少なくとも大きな度合で)。それに応じて、修正された(形成された)残響信号305bは、それによって出力信号512を得るために、加えられることができる(例えば、任意のスケーリングの後に)。それに応じて、出力信号は、形成された残響とともに、及びノイズリダクションの調整可能な度合とともに、得られる。
【0121】
以下では、図4、及び5に従った実施の形態のうち、図5は、他の言葉で要約される。
【0122】
図3に示された並列構造は、(いくつかの拡張、及び修正とともに)残響、及びノイズリダクションの量を制御するための簡単、そして、有効な方法を可能にする。そのような制御は、音声通信環境において、知覚的な理由から、いくつかの残りのノイズ、及び反響を維持するために、またはリダクションアルゴリズムによって作り出された、、または、人為的な影響をマスクするために、望まれることができる。
【0123】
【0124】
【0125】
3.図7および9に従った実施の形態
【0126】
以下では、交互のカルマンフィルタを用いている、オンライン残響、及びノイズ減少に基づく線形予測のためのさらなる実施の形態が記述される。
【0127】
例えば、交互のカルマンフィルタを用いている、オンライン残響、及びノイズ減少に基づく線形予測が記述される。
【0128】
3.1 序論と概要
【0129】
以下では、本発明に従った実施の形態の基礎になっている概念の概要が記述される。
【0130】
短時間フーリエ変換(STFT)領域の非残響に基づいた、多チャンネル線形予測は、非常に効果的であることが示された。しかしながら、ノイズの存在が認められる場合に、そのような方法を使用すること、特にオンライン処理の場合には、挑戦的な問題が残ることが分かっている。この問題に対処するために、ノイズが無い残響信号、及び多チャンネル自己回帰(MAR)係数を推定するための、2つの相互に作用するカルマンフィルタから成る、交互の最小化アルゴリズムが提案された。望ましい残響除去された信号は、推定されたMAR係数を用いて、ノイズがない信号(ノイズが減少した信号)のフィルタリングによって、そのとき、得られる。
【0131】
類似の問題のために用いられた、既存の連続した強化された構造は、最適なノイズリダクション、及び反響段の両方が互いの現在の出力に依存する、因果関係問題を有していることが分かっている。この因果関係問題を克服するために、新しい並列のカルマン構造が開発され、そしてそれは、交互のカルマンフィルタを用いて、問題を解決する。MAR係数が非定常である、時間的に変化する音響状況を取り扱うときには、因果関係は、重要であることが分かった。
【0132】
提案された方法は、シミュレートされて、及び測定された音響のインパルス応答用いて評価され、及び同じ信号モデルに基づいた方法と比較される。これに加えて、独立して残響、及びノイズ減少の量を制御するための方法(及び概念)が記述される。
【0133】
結論として、発明に従った実施の形態は、残響除去のために用いることができる。発明に従った実施の形態は、多チャンネル線形予測、及び自己回帰モデルを用いる。発明に従った実施の形態は、好ましくは、交互の最小化と組み合わせた、カルマンフィルタを用いる。
【0134】
MAR残響モデルに基づく、本出願での(及び、特にこのセクションでの)、方法(及び、概念)は、オンラインアルゴリズムを用いて、残響、及びノイズを減少させるために提案された。提案された解決策は、[3]に表されたノイズがない解決策よりも優れており、MAR係数は、時間的に変化する一次マルコフモデルによってモデル化される。望ましい非残響音声信号を得るために、MAR係数、及びノイズがない残響音声信号を推定することは可能である。
【0135】
提案された解決策は、従来の解決策へのいくつかの有利な点を有する。第1に、[8]、及び[17]に表されたノイズリダクションのために用いられる、連続した信号、自己回帰(AR)パラメータ推定方法に対して、例えば、MAR係数、及びノイズがない残響信号を推定するための例えば2つの相互に作用するカルマンフィルタを用いている、交互の最小化アルゴリズムとしての、並列推定構造が提案された。この並列構造は、古いMAR係数を用いるノイズリダクションである、連続した構造と対比して、十分な因果関係推定連鎖を可能にする。
【0136】
第2に、提案された方法では、我々は、(任意に)時間的に不変の線形フィルタ、及び[31]で提案された期待値最大化(EM)アルゴリズムのような、時間的に変化する非線形フィルタの計算の代わりに、ランダム(randomly)な時間的に変化するMAR処理を前提とする。第3に、提案されたアルゴリズム、及び概念は、時間フレームごとの複数の繰り返しを必要とはしないが、時間とともに収束するアルゴリズムとすることができる。最後に、任意の拡張として、独立して、残響、及びノイズリダクションの量を制御するための方法も提案された。
【0137】
このセクションの残りは、以下のようにまとめられる:
サブセクション2では、残響信号、ノイズ観測、及びMAR係数のための信号モデルが示され、及び問題は明確に述べられた。サブセクション3では、2つの交互のカルマンフィルタが、MAR係数、及びノイズがない信号を推定するための交互の最小化問題の一部として、導出された。残響、及びノイズリダクションを制御するための任意の方法が、サブセクション4で示された。サブセクション5では、提案された方法、及び概念が評価され、及び最先端の方法と比較された。いくつかの結論が、サブセクション6で示された。
【0138】
【0139】
実施の形態では、推定された量は、任意で理想的な量に置き換えてもよい。
【0140】
3.2 信号モデル、及び問題の定式化
【0141】
【0142】
A.多チャンネル自己回帰残響モデル
【0143】
【0144】
【0145】
B.2つの簡潔な表記法で定式化された信号モデル
【0146】
【0147】
【0148】
(5)、及び(11)は、異なる表記法を用いて等価であることに注意されたい。
【0149】
C.MAR係数の確率論的な状態空間モデリング
【0150】
【0151】
【0152】
図6は、観測された信号の生成過程、及び残響信号、及びMAR係数の基礎となる(隠れた)過程を示す。
【0153】
【0154】
【0155】
しかしながら、図6に示す、残響信号の、多チャンネル自己回帰係数の、及びノイズの観測の生成モデルは、あくまでも例に過ぎないことを考慮すべきである点に注意すべきである。
【0156】
D.問題の定式化
【0157】
【0158】
3.3 交互の最小化によるMMSE推定
【0159】
以下では、本発明の実施の形態に従った概念が記述される。
【0160】
【0161】
【0162】
【0163】
【0164】
【0165】
【0166】
いくつかの場合では、ノイズリダクション段は、図7の中の灰色の推定ブロックによって指し示された、二次ノイズ統計値を必要とする。例えば、[9,19,28]のように、2次ノイズ統計値を推定するための、これらの洗練された方法が存在する。以下では、我々は、ノイズ統計値は、既知であると推定する。
【0167】
【0168】
見られるように、図7に従った、信号処理装置、または、装置700は、ノイズ統計値推定701と、AR係数推定702(例えば、カルマンフィルタを備える、または、用いる)と、及び例えば、残響AR信号モデルを利用するカルマンフィルタを備える、または、用いる、ノイズリダクション703と、を備える。さらに、装置700は、残響推定704を備える。装置700は、入力信号710を受信し、かつ出力信号712を提供するように構成されている。
【0169】
【0170】
【0171】
【0172】
さらに、遅延ブロック720は、ノイズ減少信号703aから遅延したバージョン720aを導出してもよいことに注意すべきである。
【0173】
【0174】
【0175】
したがって、残響推定器、及び減算器は、例えば、アルゴリズム1”のステップ10を実行してもよい。
【0176】
装置700の機能に関しては、ノイズが減少した信号703の推定のための、及びMAR係数702の推定のための、異なる概念を交互に用いることができることに注意すべきである。
【0177】
【0178】
しかしながら、図7を参照して記述された詳細はどれでも、任意であると考慮されるべきであることに注意すべきである。
【0179】
【0180】
関連した状態パラメータ推定方法[8]、[17]とは対照的に、我々の望ましい信号は
状態変数ではないが、両方の推定値から得られる(13)信号である。
【0181】
以下では、MAR係数の推定に関連した、及びノイズリダクションに関連した、追加の(任意の)詳細が記述される。また、パラメータの推定に関連した、いくつかの詳細が記述される。しかしながら、これらの詳細のすべては、任意であると考慮されることに注意すべきである。詳細は、任意に、本明細書で述べられた実施の形態に追加され、請求項の中で、個々に、及び組み合わせの両方で、明らかにされる。
【0182】
A 任意のMAR係数の連続した推定
【0183】
【0184】
1)MAR係数推定のためのカルマンフィルタ
【0185】
【0186】
【0187】
2) パラメータ推定
【0188】
【0189】
【0190】
【0191】
【0192】
B.最適化された任意の連続したノイズリダクション
【0193】
【0194】
1)ノイズリダクションのためのカルマンフィルタ
【0195】
【0196】
【0197】
【0198】
【0199】
2)パラメータ推定
【0200】
【0201】
【0202】
【0203】
【0204】
【0205】
【0206】
C.アルゴリズムの概要
【0207】
完全なアルゴリズムの例は、以下の“アルゴリズム1”の中で概説される。
【0208】
【0209】
【0210】
カルマンフィルタの初期化は重要ではない。もし、状態変数の良好な初期推定が利用可能であれば、初期収束段階は改良されることができるが、実際には、アルゴリズムは、いつも、収束して、そして、安定した状態である。
【0211】
【0212】
3.4.リダクション制御
【0213】
【0214】
【0215】
【0216】
リダクション制御を有する、提案されたシステムの構造は、図9で説明される。ノイズ推定ブロックは、ノイズリダクションブロックに統合することもできるので、ここでは省略される。
【0217】
【0218】
装置900の機能は、上述の装置400の機能に類似していてもよいことに注意すべきである。これに応じて、入力信号910は、入力信号410と一致していてもよく、出力信号912は、出力信号412と一致していてもよく、ノイズリダクション903は、ノイズリダクション303と一致していてもよく、残響推定904は、残響推定304と一致していてもよく、スケーリングされた入力信号910aは、スケーリングされた入力信号410aと一致していてもよく、ノイズが減少した信号903aは、ノイズが減少した信号303aと一致していてもよく、スケーリングされたノイズが減少した信号903bは、スケーリングされたノイズが減少した信号303bと一致していてもよく、残響信号904aは、残響信号304aと一致していてもよく、スケーリングされた残響信号904bは、スケーリングされた残響信号304bと一致していてもよい。
【0219】
また、装置900の全体的な機能は、違いがここで言及されない限り、装置400の全体的な機能と類似している。
【0220】
ノイズリダクション903は、例えば、ノイズリダクション703の機能を備えていてもよい。残響推定は、例えば、AR係数推定702、及び遅延器720を組み合わせて得ることができるときには、例えば、残響推定704の機能を備えていてもよい。さらに、ノイズリダクション903は、例えば、ノイズ統計情報701のような、ノイズ統計情報を受信してもよく、及び係数702aのような、推定されたAR係数、または、MAR係数も受信してもよい。
【0221】
【0222】
【0223】
3.5 評価
【0224】
このサブセクションでは、我々は、サブセクション3.5−Bで再考察された、2つの参照方法を比較することによって、サブセクション3.5−Aで記述された実験手順を用いて、提案されたシステムを評価する。結果はサブセクション3.5−Cに示される。
【0225】
A.実験準備(任意)
【0226】
残響信号は、[5]から、無響の音声信号を有するRIRs(室内インパルス応答(room impulse responses))を畳み込むことによって生成された。我々は、2つの異なる種類のRIRs:イスラエルのバル−イラン大学での可変音響を有する音響研究室の中で測定されたRIRs、または、動いている音源のためのイメージ法[1]を用いている、シミュレートされたRIRsを用いる。動いている音源の場合には、シミュレートされたRIRsは、直接音、及び評価のための対象信号を得るための初期の反応だけを含んでいるRIRsを追加的に生成することを可能にする場合のように、評価を容易にする。
【0227】
【0228】
【0229】
B 関連方法(任意)
【0230】
提案された方法(二重カルマン)の有効性、及び性能を示すために、我々は、それを以下の2つの方法と比較する。
【0231】
【0232】
C.結果
【0233】
【0234】
2)フィルタ長さの依存
【0235】
【0236】
従来の方法との比較
【0237】
【0238】
RCなしに、または、伴う、提案されたアルゴリズムは、すべての状態で、両方の競争しているアルゴリズムの性能を超えることを観測できる。RCは、干渉リダクションと希望する音声信号歪との間のトレードオフを提供する。、音声歪みについての指標としてのCDは、RCの方が一貫してより良くなっているのに対し、干渉減少の量をかなり反映する他の測定は定常ノイズにおいてRCなしのわずかに高い結果を矛盾なく達成する。これは、RCは、iSNR状態に挑戦している中で、及び、ノイズ共分散推定エラーの存在の中での悪影響を覆うことによって、品質を向上させることに役立たせることができることを意味する。高いiSNR状態では、二重カルマンの性能は、期待された単一カルマンの性能に類似するようになる。
【0239】
4)動いている話者の追跡
【0240】
【0241】
図12は、この動的な状況のための、CD、PESQ、SIR、及びSRMRのセグメントの改良を示す。この実験では、評価のための対象の信号は、第2次までだけの壁反射をシミュレートすることによって、生成された。
【0242】
我々は、すべての測定値は、動いている間に減少し、話者が位置Bに到達した後の間に、測定値は、再び高い改善に達する。すべての方法の収束は、RCなしに、及び伴う、二重カルマンが最良な動作をしている間には、同じように動く。時間間隔が動いている間に、MAP−EMは、時々、高いfwSSIR、及びSRMRを生じさせるが、非常に悪いCD、及びPESQという代償を支払う。リダクション制御は、CD改良点がいつも正であるように、CDを改良し、そしてそれは、RCが音声歪み、及び悪影響を減少させることができることを指し示す。もし、残響リダクションが、音声発信源の移動の間に、より効果的ではないようにすることができれば、二重カルマンアルゴリズムは、不安定ではなく、及びPESQ、SIR、及びSRMRの改善は、いつも正であり、及びRCを用いることによって、 CDはいつも正であった。これは、また、動いている話者を伴う本当の記録を用いることによって確認された。
【0243】
5)リダクション制御の評価
【0244】
【0245】
【0246】
3.6 結論
【0247】
以下では、このサブセクションで記述された実施の形態に関するいくつかの結論が提供される。
【0248】
本発明の概念に従って、実施の形態として、2つの相互に作用するカルマンフィルタに基づいた、交互の最小化アルゴリズムは、それぞれのマイクロフォン信号(例えば、入力信号としての役割を果たす多チャンネルマイクロフォン信号の)からノイズ、及び残響を減少させるために、多チャンネル自己回帰パラメータ及び残響信号を推定するために記述された。例えば、再帰的カルマンフィルタを用いている、提案された解決策は、オンライン処理アプリケーションに適合する。
【0249】
オンライン方法に類似する、効果的であり、及び優れた性能がさまざまな実施の形態の中で示される。
【0250】
これに加えて、個々のノイズ、及び残響のリダクションを制御するための、場合によれば、可能性のあるアーチファクトをマスクするための、及び知覚的な必要性のための入力信号を調整するための、方法、及びコンセプトが、記述される。ノイズ、及び残響のリダクションを制御するための方法、及びコンセプトは、例えば、多チャンネル自己回帰パラメータ、残響信号を推定するためのコンセプトを伴う組み合わせの中で用いられることができる(例えば、任意の拡張)。
【0251】
3.7.付録:残りのノイズ、及び残響の計算
【0252】
以下では、残りのノイズ、及び残響の計算のためのいくつかのコンセプトが記述され、そしてそれは、例えば、本発明に従ったコンセプトの評価の中で用いられてもよい。しかしながら、任意に、本明細書に述べられたコンセプトは、発明に従った実施の形態の中で用いられてもよく、そしてその中で、処理された信号に関連する追加情報が望まれる。
【0253】
残りのノイズ、及び残響の計算
【0254】
提案されたシステムの出力での残りのノイズ、及び残響の出力を計算するために、システムを通じて、これらの信号を伝播させることができる。
【0255】
【0256】
【0257】
【0258】
【0259】
【0260】
いま、我々は、出力での残りのノイズおよび/または、残響のパワーを分析し、かつそれは出力での、それぞれのパワーと比較される。
【0261】
結論
【0262】
以下では、いくつかの結論が提供される。
【0263】
本発明に従った実施の形態は、任意に、1つ以上の以下の特徴と、を備える:
・ 少なくとも1つのマイクロフォン信号を受信し、または、交互に、少なくとも2つのマイクロフォン信号を受信する(任意)。
・ マイクロフォン信号、または、時間−周波数領域、または、別の適切な領域へのマイクロフォン信号を送信する(任意)。
・ ノイズ共分散行列を推定する(任意)。
・ MAR係数、及びノイズがない残響信号の組み合わされた推定のための並行推定構造を用いる。
・MAR係数は、ノイズがある残響入力信号、及びノイズリダクション段から遅延した推定された残響出力信号を用いて、推定される。
・ ノイズリダクション段は、それぞれのフレームの中で推定する現在のMAR係数を受信する(任意)。
・ ノイズがない残響信号(または、代わりの複数のノイズがない残響信号)をフィルタリングすることによって、出力信号(または、代わりの複数の出力信号)を計算する(任意)。
・ 残りのノイズ、及び残響の量を設定するために、推定された信号成分から制御された出力信号(または、代わりの複数の出力信号)を計算する(任意)。
・ 出力信号で、異なる残響特性を達成するために、推定された残響除去された信号(または、代わりの複数の推定された残響除去された信号)に、あるレベルを有する1つ以上の処理された、または、形成された残響信号を加えることによって、修正された出力信号(または、代わりの複数の出力信号)を任意で計算する。
【0264】
さらなる結論のために、本明細書の中に、異なる発明の実施の形態、及び実施例が、チャプター“リダクション制御を有する残響除去およびノイズリダクション(並行制御を用いる)のための方法、及び装置”(セクション2)の中、そして、チャプター“交互のカルマンフィルタを用いるオンライン残響除去、及びノイズリダクションに基づく線形予測”(セクション3)の中に記述される。
【0265】
また、さらなる実施の形態は、同封の請求項、及び他のセクション(例えば、セクション“発明の概要”の中、及びセクション1の中)に含まれることによって、定義された。
【0266】
請求項によって明確にされた、どのような実施の形態でも、ここに記述されたどのような詳細(例えば、特徴、及び機能)によっても、補完されることができることに注意すべきである。また、上述のセクションの中で記述された実施の形態は、個々に用いられることができて、そして、また、別のセクションに含まれたどのような特徴によっても、または、請求項の中に含まれたどのような特徴によっても補完されることができる。
【0267】
また、ここに記述された個々の実施例は、個々に、または、組み合わせで、用いることができることに注意すべきである。したがって、詳細は、別の実施例への詳細を加えることなしに、前記個々の実施例に加えられることができる。
【0268】
本開示が記述する、明確な、または、黙示的な特徴は、音声エンコーダ(入力音声信号の符号化された表現を提供するための装置)、及び音声デコーダ(符号化された表現に基づく音声信号の復号化された表現を提供するための装置)で利用可能であることにも注意すべきである。したがって、ここに述べられた特徴のどれでも、音声エンコーダにおいて、及び音声デコーダにおいて、用いることができる。
【0269】
さらに、方法に関して、ここに記述された特徴、及び機能は、装置(そのような方法、または、機能を実行するように構成された)でも用いることができる。さらに、装置に関してここに開示されたどのような特徴、及び機能も、対応する方法で用いることができる。換言すれば、ここに記述された方法は、装置に関して記述されたどのような特徴、及び方法によっても補完されることができて、その逆も同じである。また、ここに記述された、どのような特徴、及び機能もハードウエア、及びソフトウェア(または、ハードウエア、および/または、ソフトウェアを用いて)、または、セクション“二者択一の実現”で記述される、ハードウエアとソフトウェアの組み合わせですら実現されることができる。
【0270】
また、ここに記述された処理は、例えば(しかし、以下に限られないが)、周波数帯域ごとに、または、周波数ビンごとに、異なる周波数領域で、実行されてもよいことに注意すべきである。
【0271】
本発明の実施例は、リダクション制御を伴うオンライン残響、及びノイズリダクションのための方法、及び装置と関連することに注意すべきである。
【0272】
本発明に従った実施の形態は、残響除去、及びノイズリダクションのための組み合わせのための新しい並行構造を創造する。残響信号は、例えば、非定常性の音響環境を構成する、時間的に変化する係数を有する、狭帯域の多チャンネル自己回帰残響モデルを用いて、モデル化される。既存の連続した推定構造に対して、発明に従った実施の形態は、変化しない室係数の仮定を必要としないような、並行式にノイズがない残響信号、及び自己回帰室係数を推定する。これに加えて、独立して、ノイズ、及び残響のリダクションレベルを制御するための方法が提案された。
【0273】
図14に従った方法
【0274】
図14は、本発明の実施の形態に従った方法1400のフローチャートを示す。
【0275】
入力音声信号に基づいて処理された音声信号を提供するための方法1400は、ノイズリダクション段を用いて得られた、入力音声信号、及び遅延したノイズが減少した残響信号を用いる、自己回帰残響モデルの係数の推定1410、を備える。
【0276】
方法は、また、入力音声信号、及び自己回帰残響モデルの推定された係数を用いるノイズが減少した残響信号の提供1420、を含む。
【0277】
方法は、また、ノイズが減少した残響信号、及び自己回帰残響モデルの推定された係数を用いて、ノイズが減少し、及び残響が減少した出力信号を抽出すること1430と、を含む。
【0278】
方法1400は、個々に、及び組み合わせの両方で、本明細書に記述されたどのような特徴、機能、及び詳細によっても、任意に、補完されることができる。
【0279】
6.代替の実施
【0280】
いくつかの実施例は、装置の環境で記述されたが、これらの実施例は、対応する方法の記述としても表されていることは明らかであり、この場合には、ブロック、または、装置は、方法のステップに対応し、または、方法のステップの特徴と対応する。同様に、方法のステップの環境で記述された実施例は、また、対応する装置の対応するブロック、または、特色、または、特徴の記述も表している。いくつかの、または、すべての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または、電子回路のような、ハードウエア装置によって(または、を使用して)実行される。いくつかの実施の形態では、1つ以上の最も重要な方法ステップは、そのような装置によって実行される。
【0281】
確実な実施の必要要件に依存して、発明の実施の形態は、ハードウエア、または、ソフトウェアで実施することができる。実施は、ディジタル記憶媒体、例えば、それに記憶された、電気的に読み取り可能な制御信号を有する、フロッピーディスク(フロッピーは登録商標)、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、または、FLASHメモリを用いて実行可能であり、そしてそれは、それぞれの方法が実行されるような、プログラム可能なコンピュータと協働する(または、協働が可能である)。したがって、ディジタル記憶媒体は、コンピュータで読み取り可能であってもよい。
【0282】
本発明に従った、いくつかの実施の形態は、本明細書に述べられた方法のうちの1つが実行されるような、プログラム可能なコンピュータと協働することができる、電気的に読み取り可能な制御信号を有する、データキャリアを備える。
【0283】
一般的に、本発明の実施の形態は、プログラムコード、コンピュータプログラム製品が、コンピュータで実行されているときには、方法のうちの1つを実行するために動作する、プログラムコードを有する、コンピュータプログラム製品として実施されてもよい。プログラムコードは、例えば、機械的に読み取り可能なキャリアに格納されていてもよい。
【0284】
他の実施の形態は、機械で読み取り可能なキャリアに格納される、本明細書で述べられた方法のうちの1つを実行するためのコンピュータプログラムを備える。
【0285】
換言すれば、本発明の方法の実施の形態は、したがって、コンピュータプログラムが、コンピュータで動いているときには、ここに述べられた方法のうちの1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
【0286】
本発明の方法のさらなる実施の形態は、したがって、その上に記録された、本明細書に述べられた方法のうちの1つを実行するためのコンピュータプログラムを含むデータキャリア(または、ディジタル記憶媒体、または、コンピュータで読み取り可能な媒体)である。データキャリア、ディジタル記憶媒体、または、記録された媒体は、一般的に、有形、そして/あるいは、非一過性である。
【0287】
本発明の方法のさらなる実施の形態は、したがって、本明細書に述べられた方法のうちの1つを実行するためのコンピュータプログラムを表現するデータストリーム、または、信号のシーケンスである。データストリーム、または、信号のシーケンスは、例えば、インターネットのような、データ通信接続を経由して送信されるように構成されていてもよい。
【0288】
本発明の方法のさらなる実施の形態は、処理手段、例えば、本明細書に述べられた方法のうちの1つを実行するように構成された、または、適合された、コンピュータ、または、プログラム可能な論理装置を備える。
【0289】
さらなる実施の形態は、これにインストールされた、ここに述べられた方法のうちの1つを実行するためのコンピュータプログラムを有する、コンピュータと、を備える。
【0290】
本発明に従ったさらなる実施の形態は、本明細書に述べられた方法のうちの1つを実行するためのコンピュータプログラムをレシーバに送信する(例えば、電気的に、または、光学的に)ように構成された、装置、または、システムを備える。レシーバは、例えば、コンピュータ、モバイル機器、メモリ装置、または、そのようなものであってもよい。装置、または、システムは、例えば、コンピュータプログラムをレシーバに送信するためのファイルサーバを備えていてもよい。
【0291】
いくつかの実施の形態では、プログラム可能な論理装置(例えば、フィールドプログラマブルゲートアレイ)は、本明細書に述べられた方法の機能のうちのいくつか、または、すべてを実行するために用いられてもよい。いくつかの実施の形態では、フィールドプログラマブルゲートアレイは、本明細書に述べられた方法のうちの1つを実行するために、マイクロプロセッサと協働してもよい。一般的には、方法は、好ましくは、いくつかのハードウエア装置によって、実行されてもよい。
【0292】
本明細書に述べられた装置は、ハードウエア装置を用いて、または、コンピュータを用いて、または、ハードウエア装置と、コンピュータの組み合わせを用いて、実施されてもよい。
【0293】
本明細書に述べられた装置、または、本明細書に述べられた装置のいくつかの成分は、少なくとも、部分的に、ハードウエア、および/または、ソフトウェアにおいて実施されてもよい。
【0294】
本明細書に述べられた方法は、ハードウエア装置を用いて、または、コンピュータを用いて、または、ハードウエア装置と、コンピュータの組み合わせを用いて、実施されてもよい。
【0295】
本明細書に述べられた方法、または、本明細書に述べられた装置のいくつかの成分は、少なくとも、部分的に、ハードウエア、そして/あるいは、ソフトウェアで実行されてもよい。
【0296】
上述の実施の形態は、主に、本発明の原理を説明したものである。本明細書に述べられた、配置、及び詳細の修正、及び変更は、当業者に明確になると理解される。それは、したがって、本明細書の実施の形態の記述、及び説明によって表された、特定の詳細によってではなく、差し迫った特許請求の範囲の範囲内で限定されることを意図する。
【0297】
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14