特許6894580 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオの特許一覧

特許6894580ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6894580

(24)【登録日】2021年6月7日

(45)【発行日】2021年6月30日

(54)【発明の名称】ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法

(51)【国際特許分類】

G10L 21/0264 20130101AFI20210621BHJP

G10L 21/034 20130101ALI20210621BHJP

【ＦＩ】

G10L21/0264 Z

G10L21/034

【請求項の数】26

【全頁数】73

(21)【出願番号】特願2020-516618(P2020-516618)

(86)(22)【出願日】2018年9月20日

(65)【公表番号】特表2020-537172(P2020-537172A)

(43)【公表日】2020年12月17日

(86)【国際出願番号】EP2018075529

(87)【国際公開番号】WO2019057847

(87)【国際公開日】20190328

【審査請求日】2020年5月19日

(31)【優先権主張番号】17192396.4

(32)【優先日】2017年9月21日

(33)【優先権主張国】EP

(31)【優先権主張番号】18158479.8

(32)【優先日】2018年2月23日

(33)【優先権主張国】EP

(73)【特許権者】

【識別番号】591037214

【氏名又は名称】フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ

(74)【代理人】

【識別番号】100079577

【弁理士】

【氏名又は名称】岡田全啓

(74)【代理人】

【識別番号】100167966

【弁理士】

【氏名又は名称】扇谷一

(72)【発明者】

【氏名】ブラウンセバスティアン

(72)【発明者】

【氏名】ハベツエマヌエル

【審査官】山下剛史

(56)【参考文献】

【文献】国際公開第２００９／１１０５７４（ＷＯ，Ａ１）

【文献】特表２０００−５０４４３４（ＪＰ，Ａ）

【文献】 Keisuke KINOSHITA, et al.，Muti-step linear prediceion based speech devreverberation in noisy reverberant environment，INTERSPEECH 2007，２００７年８月，p.854-857

【文献】中谷智広他，時変ガウス音源モデルと多チャネル自己回帰観測モデルに基づく最ゆう法による音響信号の残響除去，電子情報通信学会論文誌，２００９年５月，Vol.J92-A，No.5，p.294-304

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ２１／００−２５／９３

Ｇ０１Ｒ２３／１６

(57)【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

【請求項16】

【請求項17】

【請求項18】

【請求項19】

【請求項20】

【請求項21】

【請求項22】

【請求項23】

【請求項24】

【請求項25】

【請求項26】

コンピュータ上で作動しているときに、請求項２５に記載の前記方法を実行することを特徴とする、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明に従った実施の形態は、処理された音声信号を提供する信号処理装置に関する。

【0002】

本発明に従ったさらなる実施の形態は、処理された音声信号を提供する方法に関する。

【0003】

本発明に従ったさらなる実施の形態は、前記方法を実行するためのコンピュータプログラムに関する。

【0004】

本発明に従った実施の形態は、リダクション制御を有するオンライン残響除去（ｄｅｒｅｖｅｒｂｅｒａｔｉｏｎ）、及びノイズリダクション（例えば、並列構造を用いる）のための方法、及び装置に関する。

【0005】

本発明に従ったさらなる実施の形態は、交互にカルマンフィルタを用いるオンライン残響除去、及びノイズリダクションに基づく線形予測に関する。

【0006】

本発明に従ったさらなる実施の形態は、ノイズリダクション、及び残響（ｒｅｖｅｒｂｅｒａｔｉｏｎ）リダクションのための信号処理装置、方法及びコンピュータプログラムに関する。

【背景技術】

【0007】

音声信号処理、音声通信、及び音声送信は、発展し続ける技術分野である。しかしながら、音声信号を扱うときには、ノイズ、及び残響は音声品質を低下させることがしばしば見られる。

【0008】

例えば、所望の音声源がキャプチャ装置（ｃａｐｔｕｒｉｎｇｄｅｖｉｃｅ）から離れている、距離がある音声通信の状況では、所望の音声レベルと比較して、残響とノイズのレベルが高いために、一般的には、音声品質、及び明瞭度は、低下する。

【0009】

また、音声認識装置の性能は、離れた会話状況では、大幅に悪化する［１５］、［３４］。

【0010】

したがって、高い知覚品質を有する、リアルタイムのフレームとフレームの間の処理のための、ノイズがある環境での残響除去は、やりがいがあり、そして、部分的に未解決の仕事が残っている。

【0011】

最新式の多チャンネル残響除去アルゴリズムは、空間スペクトルフィルタリング［２］、［２７］、システム同定［２５］、［２６］、音響チャンネル反転［２０］、［２２］、または、自己回帰（ＡＲ）残響モデルを用いた線形予測［２１］、［２９］、［３２］に基づいている。線形予測に基づくアプローチの成功した適用は、それぞれの短時間フーリエ変換（ＳＴＦＴ）領域周波数帯域のための多チャンネル自己回帰（ＭＡＲ）モデルを用いることによって達成された。ＭＡＲモデルに基づく方法の有利な点は、それらは、複数の音源（ｓｏｕｒｃｅ）のために有効であり、それらは、直接、有限長の残響除去フィルタを推定し、必要とされたフィルタは、比較的に短く、そして、それらは、ビームフォームアルゴリズムのための前処理技術として適する。ＭＡＲ信号モデルの偉大な挑戦は、残響信号の隣接した時間フレームの間の関係を破壊することなく、先に取り除かれなければならない［３０］、［３２］、付加的なノイズを統合することである。［３３］の中では、ブラインドインパルス応答短縮と呼ばれる多チャンネル線形予測方法のための一般化されたフレームワークが提示されていて、そしてそれは、それぞれのマイクロフォンの残響尾を短くしながら、所望の信号の内部マイクロフォン相関を維持している間に、入力チャネルと同じ数の出力を得ることを目的としている。

【0012】

多チャンネル線形予測フレームワークに基づく最初の解決策は、バッチアルゴリズムであるので、リアルタイム処理［４，１２，１３，３１，３５］に適したオンラインアルゴリズムを開発するために、さらなる努力がなされた。しかしながら、オンライン解決策の中での追加的なノイズのリダクションは、我々の知識の及ぶ限りでは[３１]だけで考慮されていた。

【発明の概要】

【発明が解決しようとする課題】

【0013】

従来の解決策を考慮して、音声信号のノイズと残響の両方を減少させるときに、複雑さ、安定性、及び信号品質の間の改良された妥協点を提供する概念が望まれている。

【課題を解決するための手段】

【0014】

【0015】

【0016】

さらに、信号処理装置は、ノイズが減少した（残響）信号（または、一般的に言えば、１つ以上のノイズが低減された残響信号）、及び自己回帰残響モデル（または、多チャンネル自己回帰残響モデル）の推定された係数を用いている、ノイズが減少し、及び残響が減少した出力信号（または、一般的に言えば、１つ以上のノイズが減少し、及び残響が減少した出力信号）を提供するように構成されている。これは、例えば、残響推定、及び信号減算を用いて実行されてもよい。

【0017】

本発明に従ったこの実施の形態は、１つ以上の先行フレームと関連してもよい遅延し、及びノイズが減少した残響信号に基づく、特定のフレームと関連する自己回帰残響モデルの係数を推定することによって、いくつかの従来型の解決策の中で見つかった因果関係問題を克服することが可能であり、かつ、入力音声信号、及び現在のフレームと関連する自己回帰残響モデルの推定された係数を用いて、１つ以上の先行フレームと関連するノイズが減少し（及び一般的な残響）信号（例えば、ノイズリダクション段によって提供された）に基づいて得られる現在のフレームのノイズを減少させた残響信号を提供することが可能であるという、発見に基づいている。従って、自己回帰残響モデルの係数の推定、及びノイズが減少した残響信号の推定は、別々に、及び交互に実行されることができるので、それに応じて、計算の複雑さは、合理的に小さく維持することができる。換言すれば、自己回帰残響モデルの係数、及びノイズが減少した残響信号の係数の分離推定は、自己回帰残響モデルの係数、及びノイズが減少した残響信号の係数の結合推定よりも、より効率的に実行することができて、そして、ノイズが減少し、及び残響が減少した音声信号の結合（１段階）推定よりもより効率的である。それにもかかわらず、自己回帰残響モデルの係数の推定で、ノイズリダクションを用いて得られた、遅延した（または、同等に過去の）ノイズが減少した残響信号を考慮することにより、自己回帰残響モデルの係数がかなり良好に推定され、その結果、処理された信号（出力信号）の深刻な音声品質の低下が生じないことが分かった。それに応じて、まだ、良好な音声品質を得ながら、自己回帰残響モデルの係数、及びノイズが減少した残響信号のフレームを交互に推定することが可能になる。

【0018】

その結果として、複雑さ、安定性、及び信号品質のトレードオフは、良好とみなされる。

【0019】

好ましい実施の形態では、信号処理装置は、多チャンネル自己回帰残響モデルの係数を推定するように構成されている。本明細書に述べられた概念は、多チャンネル信号の取り扱いのために十分に適合し、そして、このような多チャンネル信号のための複雑さの特定の改善をもたらすことが分かった。

【0020】

好ましい実施の形態では、信号処理装置が、入力音声信号の現在処理された部分（例えば、フレーム・インデックス（ｆｒａｍｅｉｎｄｅｘ）ｎを有する時間フレーム（ｔｉｍｅ−ｆｒａｍｅ））と関連する、ノイズが減少した残響信号を生成するために、入力音声信号の現在処理された部分（例えば、フレーム・インデックスｎを有する時間フレーム）と関連する自己回帰残響モデルの推定された係数を用いるように構成されている。それに応じて、現在処理された部分と関連するノイズが減少した残響信号の提供は、入力音声信号の現在処理された部分と関連する自己回帰残響モデルの係数の以前の推定に頼るかもしれず、または、現在処理された部分（または、フレーム）と関連する自己回帰残響モデルの係数の推定は、現在処理された部分（または、フレーム）と関連するノイズが減少した残響信号の提供に先だって行われてもよい。それに応じて、フレーム・インデックスｎを有する音声フレームを処理している間に、まず自己回帰残響モデルの係数の推定を実行してもよく（例えば、過去のノイズは減少している残響信号を用いて）、次に、現在処理されたフレームと関連するノイズが減少した残響信号の提供を実行してもよい。逆の順序ではあまり良い結果は得られないが、そのような処理の順序では特によい結果が生じることが分かった。

【0021】

【0022】

好ましい実施の形態では、信号処理装置は、自己回帰残響モデル（または、多チャンネル自己回帰残響モデル）の推定された係数、及びノイズが減少した残響信号部分を交互に提供するように構成されている。さらに、信号処理装置は、ノイズが減少した残響信号の提供のために、（好ましくは、多チャンネル）自己回帰残響モデルの推定された係数（または、代わりに、先に推定された係数）を用いるように構成されている。さらに、信号処理装置は、多チャンネル自己回帰残響モデルの係数の推定のために、１つ以上の遅延したノイズが減少した残響信号（または、代わりに、先に提供されたノイズが減少した残響信号部分）を用いるように構成されている。自己回帰残響モデルの、及びノイズが減少した残響信号部分の推定された係数を交互に提供することを実行することによって、計算の複雑さを、低く維持することができて、そして、結果は、遅延の少ない結果を得ることができる。また、多チャンネル自己回帰モデルとノイズが減少した残響信号の係数の推定の組み合わせによって引き起こされ得る計算の不安定性を、回避することができる。

【0023】

好ましい実施の形態では、信号処理装置は、（好ましくは、多チャンネル）自己回帰残響モデルの係数の推定のために、コスト関数を最小化するアルゴリズム（例えば、カルマンフィルタ、再帰的最小二乗法フィルタ、または、正規化された最小二乗法（ＮＬＭＳ）フィルタ）を適用するように構成されていてもよい。このようなアルゴリズムの使用は、自己回帰残響モデルの係数を推定するために、よく適合することが分かった。コスト関数は、例えば、式（１５）で示されるように定義されており、及び最小化は、例えば、式（１７）で示されるような機能を満たしてもよく、あるいは、式（１９）に示されるようにエラー行列（ｅｒｒｏｒｍａｔｒｉｘ）のトレース（ｔｒａｃｅ）を最小化してもよい。コスト関数の最小化は、例えば、以下の式（２０）から（２５）に従ってもよい。また、コスト関数の最小化は、アルゴリズム１のステップ４から６を用いてもよい。

【0024】

好ましい実施の形態では、自己回帰残響モデルの係数の推定のために用いられたコスト関数（例えば、コスト関数を最小化するアルゴリズムにおける）は、例えば、式（１９）に示すように、自己回帰残響モデルの係数の平均二乗誤差の期待値である。それに応じて、残響を引き起こしている音響の環境によく適合することが期待される自己回帰残響モデルの係数を得ることができる。ＭＡＲ係数ノイズの、または、ノイズがある非残響信号（状態および観測ノイズ）の期待された統計的特性は、例えば、分離された準備の段階（例えば、１つ以上の式（２６）から（２９）を用いて）の中で推定されることに注意すべきである。

【0025】

好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号が確定されているとの仮定の下で（例えば、入力音声信号の現在処理された部分と関連する自己回帰残響モデルの係数によって影響されない）、（好ましくは、多チャンネル）自己回帰残響モデルの係数を推定するために、コスト関数を最小化するためのアルゴリズムを適用するように構成されていてもよい。このように仮定することによって、計算の複雑さは、かなり減らすことができて、そして、計算の不安定さも避けることができる。例えば、式（２０）から（２５）のアルゴリズムは、このような仮定をする。

【0026】

好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号を推定するために、コスト関数を最小化するアルゴリズム（例えば、カルマンフィルタ、再帰的最小二乗法フィルタ、または、ＮＬＭＳフィルタ）を適用するように構成されていてもよい。コスト関数は、例えば、式（１６）に示すように定義されていてもよく、及び最小化は、例えば、式（１８）で示されるような機能を満たし、または、式（３０）に示されているようにエラー行列のトレースを最小化してもよい。コスト関数の最小化は、例えば、以下の式（３１）から（３６）に従ってもよい。

【0027】

好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号を推定するために、コスト関数を最小化するアルゴリズム（例えば、カルマンフィルタ、再帰的最小二乗法フィルタ、または、ＮＬＭＳフィルタ）を適用するように構成されている。例えば、もし、ノイズの統計的特性が知られている、または、推定されると、コスト関数の最小化のためのこのようなアルゴリズムを用いることは、また、ノイズが減少した残響信号の決定のために非常に効率的であることが分かった。さらに、もし、類似するアルゴリズム（例えば、コスト関数を最小化するアルゴリズム）が、自己回帰モデルの係数の推定のためと、ノイズが減少した残響信号の推定のための両方で用いられると、計算の複雑さは、大幅に改善されることができる。例えば、式（３１）から（３６）に従ったアルゴリズムが用いられてもよく、前記アルゴリズムの中で用いられたパラメータは、１つ以上の式（３７）から（４２）に従って決定されてもよい。また、機能は、アルゴリズム１のステップ７から９を用いて実行されてもよい。

【0028】

好ましい実施の形態では、（任意にノイズが減少した）残響信号を推定するために用いられたコスト関数は、（任意にノイズが減少した）残響信号の平均二乗誤差のための期待値である。このような、コスト関数（例えば、式（１６）に従った、または、式（３０）に従った）は、よい結果を提供して、そして、合理的な計算の努力を用いて評価されることができることが分かった。さらに、例えば、もし、ノイズの統計的特性（例えば、ノイズ共分散行列）に関する情報（または、仮定）、そして、場合によれば、所望の信号（例えば、処望の音声共分散行列）に関する情報が利用可能であれば、ノイズが減少した残響信号の平均二乗誤差の推定が可能であることに注意すべきである。

【0029】

好ましい実施の形態では、信号処理装置は、自己回帰残響モデルの係数が確定されている（例えば、入力音声信号の現在の処理された部分と関連するノイズが減少した残響信号によって影響されない）との仮定の下で、（任意にノイズが減少した）残響信号を推定するために、コスト関数を最小化するためのアルゴリズムを適用するように構成されていてもよい。“理想的な”仮定（は、例えば、式（３１）から（３６）に従った計算の中で作られる）は、ノイズが減少した残響信号の推定の結果を十分に低下させないが、計算量を大きく減少させることが分かった（例えば、ノイズが減少した残響信号、及び自己回帰モデルの係数を組み合わせた推定と比較したとき、または、ノイズが減少し、及び残響が減少した出力信号と比較したとき（一段階処理の中で））。

【0030】

なおその上に、仮定は、ノイズが減少した残響信号、及び自己回帰残響モデルの係数が、別々の手段の中で推定される、交互の手順を可能にする（例えば、アルゴリズム１のステップ４から６、及びステップ７から９を交互に実行することで）。

【0031】

好ましい実施の形態では、信号処理装置は、（好ましくは、多チャンネル）自己回帰残響モデルの推定された係数に基づいて、及び（例えば、自己回帰残響モデルの推定された係数を用いるノイズが減少した残響信号をフィルタリングすることによって、）入力音声信号の以前に処理された部分（例えば、フレーム）と関連する、１つ以上の遅延したノイズが減少した残響信号に基づいて（または、代わりに、ノイズが減少した残響信号に基づいて）、残響成分を決定するように構成されている。さらに、信号処理装置は、ノイズが減少し、及び残響が減少した出力信号（例えば、望ましい音声信号）を得るために、入力音声信号の現在処理された部分（例えば、フレーム）と関連する、ノイズが減少した残響信号から残響成分を（少なくとも部分的に）削除（例えば、減じる）ように、好ましくは構成されている。これは、例えば、式（４４）を用いて実行されてもよい。

【0032】

【0033】

好ましい実施の形態では、信号処理装置は、入力音声信号の、及びノイズが減少した残響信号の重み付けられた組み合わせを実行するように（例えば、式（４４）に従って）、そして、また、重み付けられた組み合わせの中の残響成分を含むように構成されている（例えば、入力音声信号、ノイズが減少した残響信号、及び残響成分の重み付けられた組み合わせが実行されるように）。換言すれば、ノイズが減少した残響信号は、入力音声信号、ノイズが減少した残響信号、及び残響成分の重み付けられた組み合わせによって得られる。それに応じて、残響、及びノイズリダクションの量のような、信号特性を微調整することができる。その結果として、処理された音声信号（例えば、ノイズが減少し、及び残響成分が減少した音声信号）の信号特性は、現状の要求に従って、調整されることができる。

【0034】

好ましい実施の形態では、信号処理装置は、また、重み付けられた組み合わせの中の残響成分の中の整形バージョンを含むように構成されている（例えば、入力音声信号、ノイズが減少していない残響成分、そして、また、残響成分それ自身の重み付けられた組み合わせが実行されるように）。例えば、これは、“Ｍｅｔｈｏｄａｎｄａｐｐａｒａｔｕｓｆｏｒｏｎｌｉｎｅｄｅｒｅｖｅｒｂｅｒａｔｉｏｎａｎｄｎｏｉｓｅｒｅｄｕｃｔｉｏｎ（ｕｓｉｎｇａｐａｒａｌｌｅｌｓｔｒｕｃｔｕｒｅ）ｗｉｔｈｒｅｄｕｃｔｉｏｎｃｏｎｔｒｏｌ“を記述している節の最後の式に示されるようにすることができる。したがって、さらなる、残りの残響のスペクトル、及び動的な形成を実行することを可能にする。したがって、達成すべき結果に関する、さらにより大きな柔軟性がある。

【0035】

好ましい実施の形態では、信号処理装置は、入力音声信号のノイズ成分の統計値（例えば、共分散）（または、統計的特性）を推定するように構成されている。入力音声信号のノイズ成分のそのような統計値は、例えば、ノイズが減少した残響信号の推定（または、供給）の中で有益であるかもしれない。また、入力音声信号のノイズ成分の統計値は、コスト関数の一部として用いられることができるので、入力音声信号のノイズ成分の統計値の推定（または、決定）は、コスト関数の公式化を容易にする。

【0036】

好ましい実施の形態では、信号処理装置は、無音声期間（例えば、無音声期間は、音声検出器を用いて検出される）の間に、入力音声信号のノイズ成分の統計値（例えば、共分散）（または、統計的特性）を推定するように構成されている。無音声期間の検出は、合理的な努力で可能になることが分かっており、また、無音声期間の間に存在するノイズは、とても大きな変化を伴わずに、一般的には、音声期間の間にも存在することが分かっている。したがって、ノイズ成分の統計値を効果的に得ることが可能になり、そしてそれは、ノイズが減少した残響信号の供給のために有益である。

【0037】

好ましい実施の形態では、信号処理装置は、カルマンフィルタを用いている（好ましくは、多チャンネル）自己回帰残響モデルの係数を推定するように構成されている。このようなカルマンフィルタは、効果的な計算、及び信号処理タスクの必要条件によく適合することが分かっている。例えば、式（２０）から（２５）に従った実施例が用いられることができる。

【0038】

【0039】

好ましい実施の形態では、信号処理装置は、カルマンフィルタを用いて、ノイズが減少した残響信号を推定するように構成されている。そのようなカルマンフィルタ（式３１から３６で与えられる機能性の実施例であってもよい）を用いることは、また、ノイズが減少した残響信号を推定するために有益であることが分かっている。また、自己回帰残響モデルの係数を推定するためと、ノイズが減少した残響信号を推定するための両方にカルマンフィルタを用いることは、よい結果をもたらすことができる。

【0040】

好ましい実施の形態では、信号処理装置は、ノイズが減少した残響信号（例えば、入力音声信号の先に処理された部分、または、フレームと関連する、例えば、）の推定されたエラー行列に基づいて、所望の音声信号の推定された共分散（例えば、式３７から４２で与えられる、例えば、入力音声信号の現在処理された部分、または、フレームと関連する）に基づいて、ノイズが減少した残響信号の１つ以上の先の推定（例えば、入力音声信号の１つ以上の先に処理された部分、または、フレームと関連する）に基づいて、好ましくは、多チャンネル）自己回帰残響モデル（例えば、入力音声信号の現在処理された部分、または、フレームと関連する、例えば、行列 F(n) を定義する）の複数の係数に基づいて、入力音声信号に関連する推定されたノイズ共分散に基づいて、及び入力音声信号に基づいて、（ノイズが減少した残響信号を推定するように構成されている。これらの量に基づくノイズが減少した残響信号の推定は、効果的な計算効率がよく、品質のよい音声信号のよいをもたらすことが分かっている。

【0041】

好ましい実施の形態では、信号処理装置は、入力音声信号のノイズがあるが、残響が減少した（または、残響がない）信号成分（例えば、入力音声信号の以前に処理された部分、または、フレームと関連する、例えば、式（２９）に従った）の先の推定を用いて、再帰的に決定される再帰的な共分散推定の、及び入力音声信号のノイズがあるが、残響が減少した（または、残響がない）信号成分（例えば、入力音声信号の現在処理された部分と関連する）の（例えば、中間の）推定の外積の、重み付けられた組み合わせに基づく（例えば、式（２８）に基づく）、入力音声信号のノイズがあるが、残響が減少した（または、残響がない）信号成分と関連する、推定された共分散を得るように構成されている。例えば、ノイズがあるが、残響が減少した信号成分の中間推定は、カルマンフィルタリング処理の中の技術革新として得られてもよい（例えば、式（２２）に従って）。例えば、中間推定は、（例えば、式（２１）によって決定されるように）予測された係数を用いている予測であってもよい。

【0042】

このような概念は、ノイズがあるが、残響が減少した（または、残響がない）信号成分と関連する共分散のよい推定を、合理的な計算複雑度でもたらすことが分かっている。

【0043】

【0044】

好ましい実施の形態では、信号処理装置は、入力音声信号のノイズが減少し、及び残響が減少した信号成分の先の推定を用いて、再帰的に決定された再帰的共分散推定（例えば、入力音声信号の先に処理された部分、または、フレームと関連する）（例えば、再帰的に帰納的な最大の尤度推定として、考慮されてもよい）、及び入力音声信号（及び、例えば、式（４１）に従って得られた）の現在処理された部分に基づく共分散の演繹的な推定の重み付けられた組み合わせ（例えば、式（３７）に従って）に基づく、入力音声信号のノイズが減少し、及び残響が減少した（または、残響がない）信号成分を得るように構成されている。この方法では、入力音声信号のノイズが減少し、及び残響が減少した信号成分と関連する共分散の有意義な推定が、適度な計算量で得ることができる。例えば、式（３７）に記述されたアプローチを用いることは、よい結果を伴うノイズリダクションのためのカルマンフィルタを用いることを可能にする。

【0045】

好ましい実施の形態では、信号処理装置は、（好ましくは、多チャンネル）自己回帰残響モデルの最後に推定された係数、及びノイズが減少した残響（出力）信号（例えば、式（３８）を用いている）の最後の推定を用いて、計算された入力音声信号のノイズが減少し、及び残響が減少した（または、残響がない）信号成分の推定に基づいて、再帰的共分散推定を得るように構成されている。代わりに、または、これに加えて、信号処理装置は、入力信号のウィーナフィルタリング（Ｗｉｅｎｅｒｆｉｌｔｅｒｉｎｇ）を用いて、共分散の事前推定を得るように構成されており（例えば、式（４１）に示されるように）、これにおいて、ウィーナフィルタリング動作は、入力音声信号に関する共分散情報に依存して、入力音声信号の残響成分に関する共分散情報に依存して、及び入力音声信号のノイズ成分に関する共分散情報に依存して、決定される（例えば、式（４２）に示されるように）。これらの概念は、ノイズが減少し、及び残響が減少した信号成分と関連する推定された共分散の効果的な計算に役立つことが分かっている。

【0046】

本明細書に記述された信号処理装置、及び請求項の中で明らかにされた信号処理装置は、個々に、及び組み合わせが得られたのと両方で、本明細書に記述された特徴、機能、及び詳細のいずれかによって、供給されることができる。また、異なるパラメータの計算に関連する詳細は、個々に用いられることができる。また、個々の処理ステップに関連する詳細は、個々に用いられることができる。

【0047】

【0048】

【0049】

方法は、さらに、ノイズが減少した残響信号、及び（好ましくは、多チャンネル）自己回帰残響モデルの推定された係数を用いて、ノイズが減少し、及び残響が減少した入力信号を導出するステップ、を含む。

【0050】

方法は、上記の説明も適用されるような、上述の信号処理装置として、同じ考慮に基づいている。

【0051】

さらに、個々の、及び組み合わせの両方で、信号処理装置と関連する本明細書に述べられた、特徴、機能、及び詳細によって、補完されることができる。

【0052】

本発明に従った別の実施の形態は、コンピュータプログラムがコンピュータで動作しているときには、本明細書に述べられた方法を実行するためのコンピュータプログラムを創造する。

【発明の効果】

【0053】

本発明は、従来の解決策を考慮して、音声信号のノイズと残響の両方を減少させるときには、複雑さ、安定性、及び信号品質の間の改良された妥協点を提供する概念を提供する。

【図面の簡単な説明】

【0054】

本発明に従った実施の形態は、同封された図面を参照して、その後に記述される：
〔図１〕図１は、本発明の実施の形態に従った、信号処理装置のブロック概略図を示している。
〔図２〕図２は、ノイズがある環境でのＭＡＲ（多チャンネル自己回帰）係数推定のための従来の構造を示している。
〔図３〕図３は、本発明の実施の形態に従った、装置（または、信号処理装置）のブロック概略図を示している（実施の形態２）。
〔図４〕図４は、本発明の実施の形態に従った、装置（または、信号処理装置）のブロック概略図を示している（実施の形態３）。
〔図５〕図５は、本発明の実施の形態に従った、装置（または、信号処理装置）のブロック概略図を示している（実施の形態４）。
〔図６〕図６は、多チャンネル自己回帰係数、及びノイズ観測の残響信号の一般的なモデルの概略図を示している。
〔図７〕図７は、本発明の実施の形態に従った、提案された並列二重カルマンフィルタ構造を備える装置（または、信号処理装置）のブロック概略図を示している。
〔図８〕図８は、参考文献［３１］に従った、従来の連続したノイズリダクション、及び残響構造のブロック概略図を示している。

【発明を実施するための形態】

【0055】

実施の形態の詳細な説明

【0056】

１．図１に従った実施の形態

【0057】

図１は、本発明の実施の形態に従った信号処理装置１００のブロック概略図を示している。信号処理装置１００は、入力音声信号１１０を受信するように構成されており、及び
それに基づいて、例えば、ノイズが減少し、及び残響が減少した音声信号であってもよい、処理された音声信号１１２を提供するように構成されている。入力音声信号１１０は、単一チャンネル音声信号であるが、好ましくは、多チャンネル音声信号であることに注意すべきである。同様に、処理された音声信号１１２は、単一チャンネル音声信号であってもよいが、好ましくは、多チャンネル音声信号であってもよい。信号処理装置１００は、例えば、単一チャンネル、または、多チャンネル入力音声信号１１０、及び遅延したノイズが減少した残響信号１２２を用いて、自己回帰残響モデルの係数１２４（例えば、多チャンネル自己回帰残響モデルのＡＲ係数、または、ＭＡＲ係数）を推定するように構成された係数推定ブロック、または、係数推定ユニット１２０と、を備えていてもよい。

【0058】

例えば、自己回帰残響モデル１２０の係数を推定し、そして、入力音声信号１１０、及び遅延したノイズが減少した残響信号１２２を受信してもよい。

【0059】

信号処理装置１００は、入力音声信号１１０を受信し、及びノイズが減少した（しかし、一般的には、残響を有しており、または、残響が減少していない）信号１３２を提供するノイズリダクションユニット、または、ノイズリダクションブロック１３０を備える。ノイズリダクションユニット、または、ノイズリダクションブロック１３０は、（一般的には、ノイズがあり、及び残響を有している）入力音声信号１１０、及び推定ブロック、または、推定ユニット１２０によって提供された自己回帰残響モデルの推定された係数１２４を用いてノイズが減少した（しかし、一般的には、残響を有している）信号を提供するように構成されている。

【0060】

ノイズリダクション１３０は、予め決定されたノイズが減少した残響信号１３２（場合によっては、入力音声信号１１０と結合して）に基づいて得られた自己回帰残響モデルの係数１２４を用いてもよいことに注意すべきである。

【0061】

装置１００は、それについて、出力として、遅延したバージョン１２２を提供するために、ノイズリダクションユニット、または、ノイズリダクションブロック１３０によって提供されたノイズが減少した残響信号１３２を得るように構成されていてもよい、遅延ブロック、または、遅延ユニット１４０と、を任意に備えている。従って、自己回帰残響モデルの係数の推定１２０は、先に得られた（導出された）ノイズが減少した残響信号（ノイズリダクションブロック１３０によって提供された、または、導出された）、及び入力音声信号１１０に基づいて動作することができる。

【0062】

装置１００は、また、処理された音声信号１１２としての役割を果たしてもよい、ノイズが減少し、及び残響が減少した出力信号の導出のためのブロック、または、ユニット１５０を備えている。ブロック、または、ユニット１５０は、好ましくは、ノイズリダクションブロック、または、ノイズリダクションユニット１３０からのノイズが減少した残響信号１３２、及び推定ブロック、または、推定ユニット１２０によって提供された自己回帰残響モデルの係数１２４を受信する。このように、ブロック、または、ユニット１５０は、例えば、ノイズが減少した残響信号１３２から残響を削除、または、減少させてもよい。例えば、取り消し動作と結合する、適切なフィルタリング（例えば、スペクトル領域の中で）は、この目的のために用いられてもよく、自己回帰残響モデルの係数１２４は、フィルタリング（残響の推定に用いられる）を決定してもよい。

【0063】

装置１００に関しては、ブロック、または、ユニットの中の機能の分離は、効果的ではあるが、任意の選択であることに注意すべきである。本明細書で記述された機能は、基本的な機能が維持される限り、ハードウエア機器に別個に分配されることもできる。また、ブロック、または、ユニットは、同じハードウエア（例えば、マイクロプロセッサ）で再利用されるソフトウェアブロック、または、ソフトウェアユニットであってもよいことに注意すべきである。

【0064】

装置１００の機能に関して、それは、ノイズリダクション機能（ノイズリダクションブロック、または、ノイズリダクションユニット１３０）と、自己回帰残響モデル（推定ブロック、または、推定ユニット１２０）の係数の推定との間の分離は適度な小さな計算の複雑さを提供し、かつ十分によい音声品質を得ることをまだ可能にすると言える。理論的には、結合コスト関数を用いて、ノイズが減少し、及び残響が減少した出力信号を推定することは、最良ではあるが、複雑さを減少させることができて、及び安定性問題を避けられる間には、ノイズリダクションを実行し、及び分離したコスト関数を用いる自己回帰残響モデルの係数の推定は、適度によい結果をまだ提供できることが分かっている。また、ノイズが減少し、及び残響が減少した出力信号（換言すれば、処理された音声信号１１２）は、自己回帰モデルの係数１２４が知られているという条件で小さな努力を伴って、ノイズが減少した（しかし、残響している、または、残響が減少されていない）信号１３２から導出されることができるので、ノイズが減少した残響信号１３２は、とてもよい中間品質としての役割を果たすことが分かった。

【0065】

しかしながら、図１に示す、装置１００は、以下で述べられる、個々と、組み合わせで得られることの両方で、特徴、機能、及び詳細のうちのいずれかによって補完できることに注意すべきである。

【0066】

２．図３、４及び５に従った実施の形態

【0067】

以下では、いくつかのさらなる実施の形態が、図３、４、及び５の引用を得て記述される。しかしながら、実施の形態の詳細が記述される前に、従来の解決策に関連するいくつかの情報が記述され、さらに、信号モデルが定義される。

【0068】

一般的には、任意のリダクション制御を伴う、オンライン（ｏｎｌｉｎｅ）の残響除去、及びノイズリダクション（並列構造を用いる）のための方法および装置が、記述される。

【0069】

２．１．序論

【0070】

以下の発明の実施の形態は、音場処理の分野の中の、例えば、１つ以上のマイクロフォンからの残響ノイズ除去である。

【0071】

望ましい音声源が、キャプチャ（ｃａｐｔｕｒｉｎｇ）装置から離れている、遠隔音声通信状況では、望ましい音声レベルと比較して、残響、及びノイズの高いレベルのために、音声品質、明瞭度、だけではなく、音声認識装置の性能も、一般的には、低下する。

【0072】

短時間フーリエ変換（ＳＴＦＴ）領域の中の周波数帯域ごとの自己回帰（ＡＲ）モデルに基づく残響除去方法は、他の残響除去モデルよりも優れた性能を発揮することが示されている。このモデルに基づく残響除去方法は、典型的には線形予測と関連するアプローチを用いて、問題を解決する。さらに、一般的な多チャンネル自己回帰（ＭＡＲ）モデルは、複数音源で効果的であり、そして、入力と同様に出力で同じ数のチャンネルを提供されるように、定式化することができる。複数のＳＴＦＴフレームにわたる周波数帯域ごとの線形フィルタである、結果として生じる強化された処理は、所望の信号の空間的相関を変化させないので、強化は、さらなるアレイ処理技術のための前処理として適する。

【0073】

ＭＡＲモデルに基づく大半の既存の技術の間では、バッチアルゴリズム［Ｎａｋａｔａｎｉ２０１０，Ｙｏｓｈｉｏｋａ２００９，Ｙｏｓｈｉｏｋａ２０１２］、いくつかのオンラインアルゴリズム［Ｙｏｓｈｉｏｋａ２０１３,Ｔｏｇａｍｉ２０１９,Ｊｕｋｉｃ２０１６］が提案されていた。しかしながら、オンラインアルゴリズムを用いて、ノイズがある環境の中での挑戦的な問題は、［Ｔｏｇａｍｉ２０１５］だけで取り上げられていた。

【0074】

ノイズがある環境では、問題は、一般的には、最初にノイズリダクションステップを実行し、その後、線形予測に基づく方法でＭＡＲ係数（室回帰係数として知られている）を推定し、、その後信号のフィルタリングを行うことによって解決できることが分かっている。

【0075】

本発明の実施の形態では、新しい並列構造は、連続した構造の代わりに、観測されたマイクロフォン信号から直接的に、ＭＡＲ係数、及びノイズ除去信号を推定することが提案されている。並列構造は、潜在的に時間的に変化するＭＡＲ係数の十分な因果関係の推定を可能にし、そして、従属した段階である、ＭＡＲ係数推定段、または、ノイズリダクション段のどちらを先に実行すべきかというあいまいな問題を解決し、さらに、並列構造は、残りの残響、及びノイズの量を効果的に制御することができる出力信号を創造することを可能にする。

【0076】

２．２定義と従来の解決策

【0077】

２．２．１信号モデル

【0078】

以下のサブセクションは、多チャンネル自己回帰モデルに基づく、ノイズがある環境の中での残響除去のための従来のアプローチを要約する。

【0079】

【0080】

【0081】

【0082】

【0083】

【0084】

【0085】

２．２．２連続したオンライン解決策

【0086】

【0087】

【0088】

結論としては、図２は、ノイズがある環境でのＭＡＲ係数推定のための従来の構造のブロック概略図を示している。装置２００は、ノイズ統計的推定２０１と、ノイズリダクション２０２と、ＡＲ係数推定２０３と、及び残響推定２０４と、を備える。

【0089】

換言すれば、ブロック２０１から２０４は、従来の連続したノイズリダクション、及び残響システムのブロックである。

【0090】

２．３本発明に従った実施の形態

【0091】

以下では、本発明に従った３つの実施の形態が記述される。図３は、本発明に従った実施の形態２のブロック概略図を示している。図４は、本発明に従った実施の形態３のブロック概略図を示している。図５は、本発明に従った実施の形態４のブロック概略図を示している。

【0092】

以下では、図面、及びブロック番号の簡単な説明が提供される。

【0093】

ブロック３０１から３０５は、提案されたノイズリダクション残響システムのブロックであることに注意すべきである。同一の参照数字が図３、４、及び５に従った実施の形態での同一のブロック（または、同一の機能を有するブロック）に使用されることにも注意すべきである。

【0094】

以下では、発明の実施の形態として、ＭＡＲ係数を推定することによる残響除去問題、及び追加のノイズが存在するときの原因になるオンライン方法での残響信号への解決策が提案される。空間ノイズ統計値は、例えば、［Ｇｅｒｋｍａｎｎ２０１２］の中で提案されたように、計算ブロック３０１によって、あらかじめ推定されていてもよい。

【0095】

２．３．１ＡＲ係数、及び所望の信号を推定するための並列構造

【0096】

図３は、本発明の実施の形態に従った装置（または、信号処理装置）のブロック概略図（または、一般的な、提案された発明の実施の形態のブロック図）を示す。

【0097】

図３に従った、装置３００は、単一チャンネル音声信号、または、多チャンネル音声信号であってもよい、入力信号３１０を受信するように構成されている。装置３００は、また、ノイズが減少し、及び残響が減少した信号であってもよい、処理された音声信号３１２を提供するように構成されている。装置３００は、任意に、入力音声信号３１０に基づくノイズ統計値についての情報を導出するように構成されてもよい、ノイズ統計値推定３０１を備える。例えば、ノイズ統計値推定３０１は、音声信号が欠如した状態で（例えば、音声が休止している間に）、ノイズの統計値を推定してもよい。

【0098】

装置３００は、また、入力音声信号３１０、ノイズ統計値についての情報３０１ａ、及び（自己回帰係数推定３０２によって提供された）自己回帰残響モデルの係数３０２ａを受信する、ノイズリダクション３０３を備える。ノイズリダクション３０３は、ノイズが減少した（しかし、一般的には、残響している）信号３０３ａを提供する。

【0099】

装置３００は、入力音声信号３０１、及びノイズリダクション３０３によって提供された、ノイズが減少した（しかし、一般的には、残響している）信号３０３ａの遅延したバージョン（または、過去のバージョン）を受信するように構成されている、自己回帰係数推定３０２（ＡＲ係数推定を含む。さらに、自己回帰係数推定３０２は、自己回帰残響モデルの係数３０２ａを提供するように構成されている。

【0100】

装置３００は、任意で、ノイズリダクション３０３によって提供された、ノイズが減少した（しかし、一般的には、残響している）信号３０３ａから、遅延したバージョン３２０ａを導出するように構成された遅延器（ｄｅｌａｙｅｒ）３２０を備える。

【0101】

装置３００は、ノイズリダクション３０３によって提供された、ノイズが減少した（しかし、一般的には、残響がある）信号３０３ａの遅延したバージョン３２０ａを受信するように構成された、残響推定３０４を備える。さらに、残響推定３０４は、また、自己回帰係数推定３０２から自己回帰残響モデルの係数３０２ａを受信する。残響推定３０４は、推定された残響信号３０４ａを提供する。

【0102】

装置３００は、また、ノイズリダクション３０３によって提供された、ノイズが減少した（しかし、一般的には、残響している）信号３０３ａから推定された残響信号３０４ａを削除し（または、差し引きし）、それによって、一般的には、ノイズが減少し、及び残響が減少した、処理された音声信号３１２を得るように構成された、信号減算器３３０を備える。

【0103】

以下では、図３に従った、装置３００の機能がさらに詳細に記述される。特に、自己回帰係数推定３０２は、入力信号３１０と、ノイズリダクション３０３のノイズが減少した（しかし、一般的には、残響している）出力信号３０３ａ（または、さらに正確には、それの遅延したバージョン３２０ａ）の両方を用いることに注意すべきである。それに応じて、自己回帰係数推定３０２は、ノイズリダクション３０３とは別に動作することができて、ノイズリダクション３０３は、それにもかかわらず、自己回帰残響モデルの係数３０２ａの利益を得ることができて、自己回帰係数推定３０２は、それにもかかわらず、ノイズリダクション３０３によって提供されたノイズが減少した信号３０３ａの利益を得ることができる。残響は、最後に、ノイズリダクション３０３によって提供されたノイズが減少した（しかし、一般的には、残響している）信号３０３ａから取り除かれる。

【0104】

以下では、装置３００の機能が、他の言葉で再び記述される。

【0105】

【0106】

【0107】

【0108】

【0109】

２．３．２実施の形態３、及び４：リダクション制御

【0110】

以下では、図４、及び５に従った、実施の形態が記述される。

【0111】

図４は、本発明の実施の形態に従った、装置、または、信号処理装置４００のブロック概略図を示している。信号処理装置４００は、ノイズリダクション３０３と、及び残響推定３０４と、を備える。ノイズリダクション３０３は、ノイズが減少した（しかし、一般的には、残響を有している）信号３０３ａを提供する。残響推定３０４は、残響信号３０４ａを提供する。例えば、装置４００のノイズリダクション３０３は、装置３００のノイズリダクション３０３として、同じ機能を備えていてもよい（場合によっては、ブロック３０１と組み合わせて）。

【0112】

さらに、装置４００の残響推定３０４は、例えば、場合によっては、ブロック３０２、及び３２０の機能と組み合わされて、装置３００の残響推定３０４の機能を実行してもよい。

【0113】

【0114】

【0115】

図５は、発明の実施の形態に従った、別の装置、または、信号処理装置のブロック概略図を示している。

【0116】

参照が上述の説明を参照して行われ、そして、均等な成分が再び記述されないように、図５に従った、信号処理装置５００は、図４に従った、装置、または、信号処理装置４００に類似している。

【0117】

しかしながら、装置５００は、また、残響推定によって提供された残響信号３０４ａを受信する残響形成３０５を備える。残響形成３０５は、形成された残響信号３０５ａを提供する。

【0118】

図５に示された概念によれば、残響信号３０４ａは、スケーリングされたノイズが減少した信号３０３ｂ、及びスケーリングされた入力信号４１０ａの合計から差し引かれ、それに応じて、中間の信号５２０が得られる。さらに、形成された残響信号３０５ａのスケーリングされたバージョン３０５ｂは、出力信号５１２を得るために、中間の信号５２０に加えられる。

【0119】

しかしながら、信号４１０ａ、３０３ｂ、３０４ａ、及び３０５ｂの直接的な組合せ
は、同様に可能である（中間の信号を用いることなしに）。

【0120】

それに応じて、装置５００は、出力信号５１２の特性を調整することを可能にする。オリジナル（ｏｒｉｇｉｎａｌ）の残響は、例えば、信号３０３ｂ、４１０ａの合計から（推定された）残響信号３０４ａを差し引くことによって、取り除くことができる（少なくとも大きな度合で）。それに応じて、修正された（形成された）残響信号３０５ｂは、それによって出力信号５１２を得るために、加えられることができる（例えば、任意のスケーリングの後に）。それに応じて、出力信号は、形成された残響とともに、及びノイズリダクションの調整可能な度合とともに、得られる。

【0121】

以下では、図４、及び５に従った実施の形態のうち、図５は、他の言葉で要約される。

【0122】

図３に示された並列構造は、（いくつかの拡張、及び修正とともに）残響、及びノイズリダクションの量を制御するための簡単、そして、有効な方法を可能にする。そのような制御は、音声通信環境において、知覚的な理由から、いくつかの残りのノイズ、及び反響を維持するために、またはリダクションアルゴリズムによって作り出された、、または、人為的な影響をマスクするために、望まれることができる。

【0123】

【0124】

【0125】

３．図７および９に従った実施の形態

【0126】

以下では、交互のカルマンフィルタを用いている、オンライン残響、及びノイズ減少に基づく線形予測のためのさらなる実施の形態が記述される。

【0127】

例えば、交互のカルマンフィルタを用いている、オンライン残響、及びノイズ減少に基づく線形予測が記述される。

【0128】

３．１序論と概要

【0129】

以下では、本発明に従った実施の形態の基礎になっている概念の概要が記述される。

【0130】

短時間フーリエ変換（ＳＴＦＴ）領域の非残響に基づいた、多チャンネル線形予測は、非常に効果的であることが示された。しかしながら、ノイズの存在が認められる場合に、そのような方法を使用すること、特にオンライン処理の場合には、挑戦的な問題が残ることが分かっている。この問題に対処するために、ノイズが無い残響信号、及び多チャンネル自己回帰（ＭＡＲ）係数を推定するための、２つの相互に作用するカルマンフィルタから成る、交互の最小化アルゴリズムが提案された。望ましい残響除去された信号は、推定されたＭＡＲ係数を用いて、ノイズがない信号（ノイズが減少した信号）のフィルタリングによって、そのとき、得られる。

【0131】

類似の問題のために用いられた、既存の連続した強化された構造は、最適なノイズリダクション、及び反響段の両方が互いの現在の出力に依存する、因果関係問題を有していることが分かっている。この因果関係問題を克服するために、新しい並列のカルマン構造が開発され、そしてそれは、交互のカルマンフィルタを用いて、問題を解決する。ＭＡＲ係数が非定常である、時間的に変化する音響状況を取り扱うときには、因果関係は、重要であることが分かった。

【0132】

提案された方法は、シミュレートされて、及び測定された音響のインパルス応答用いて評価され、及び同じ信号モデルに基づいた方法と比較される。これに加えて、独立して残響、及びノイズ減少の量を制御するための方法（及び概念）が記述される。

【0133】

結論として、発明に従った実施の形態は、残響除去のために用いることができる。発明に従った実施の形態は、多チャンネル線形予測、及び自己回帰モデルを用いる。発明に従った実施の形態は、好ましくは、交互の最小化と組み合わせた、カルマンフィルタを用いる。

【0134】

ＭＡＲ残響モデルに基づく、本出願での（及び、特にこのセクションでの）、方法（及び、概念）は、オンラインアルゴリズムを用いて、残響、及びノイズを減少させるために提案された。提案された解決策は、［３］に表されたノイズがない解決策よりも優れており、ＭＡＲ係数は、時間的に変化する一次マルコフモデルによってモデル化される。望ましい非残響音声信号を得るために、ＭＡＲ係数、及びノイズがない残響音声信号を推定することは可能である。

【0135】

提案された解決策は、従来の解決策へのいくつかの有利な点を有する。第１に、［８］、及び［１７］に表されたノイズリダクションのために用いられる、連続した信号、自己回帰（ＡＲ）パラメータ推定方法に対して、例えば、ＭＡＲ係数、及びノイズがない残響信号を推定するための例えば２つの相互に作用するカルマンフィルタを用いている、交互の最小化アルゴリズムとしての、並列推定構造が提案された。この並列構造は、古いＭＡＲ係数を用いるノイズリダクションである、連続した構造と対比して、十分な因果関係推定連鎖を可能にする。

【0136】

第２に、提案された方法では、我々は、（任意に）時間的に不変の線形フィルタ、及び［３１］で提案された期待値最大化（ＥＭ）アルゴリズムのような、時間的に変化する非線形フィルタの計算の代わりに、ランダム（ｒａｎｄｏｍｌｙ）な時間的に変化するＭＡＲ処理を前提とする。第３に、提案されたアルゴリズム、及び概念は、時間フレームごとの複数の繰り返しを必要とはしないが、時間とともに収束するアルゴリズムとすることができる。最後に、任意の拡張として、独立して、残響、及びノイズリダクションの量を制御するための方法も提案された。

【0137】

このセクションの残りは、以下のようにまとめられる：
サブセクション２では、残響信号、ノイズ観測、及びＭＡＲ係数のための信号モデルが示され、及び問題は明確に述べられた。サブセクション３では、２つの交互のカルマンフィルタが、ＭＡＲ係数、及びノイズがない信号を推定するための交互の最小化問題の一部として、導出された。残響、及びノイズリダクションを制御するための任意の方法が、サブセクション４で示された。サブセクション５では、提案された方法、及び概念が評価され、及び最先端の方法と比較された。いくつかの結論が、サブセクション６で示された。

【0138】

【0139】

実施の形態では、推定された量は、任意で理想的な量に置き換えてもよい。

【0140】

３．２信号モデル、及び問題の定式化

【0141】

【0142】

Ａ．多チャンネル自己回帰残響モデル

【0143】

【0144】

【0145】

Ｂ．２つの簡潔な表記法で定式化された信号モデル

【0146】

【0147】

【0148】

（５）、及び（１１）は、異なる表記法を用いて等価であることに注意されたい。

【0149】

Ｃ．ＭＡＲ係数の確率論的な状態空間モデリング

【0150】

【0151】

【0152】

図６は、観測された信号の生成過程、及び残響信号、及びＭＡＲ係数の基礎となる（隠れた）過程を示す。

【0153】

【0154】

【0155】

しかしながら、図６に示す、残響信号の、多チャンネル自己回帰係数の、及びノイズの観測の生成モデルは、あくまでも例に過ぎないことを考慮すべきである点に注意すべきである。

【0156】

Ｄ．問題の定式化

【0157】

【0158】

３．３交互の最小化によるＭＭＳＥ推定

【0159】

以下では、本発明の実施の形態に従った概念が記述される。

【0160】

【0161】

【0162】

【0163】

【0164】

【0165】

【0166】

いくつかの場合では、ノイズリダクション段は、図７の中の灰色の推定ブロックによって指し示された、二次ノイズ統計値を必要とする。例えば、［９，１９，２８］のように、２次ノイズ統計値を推定するための、これらの洗練された方法が存在する。以下では、我々は、ノイズ統計値は、既知であると推定する。

【0167】

【0168】

見られるように、図７に従った、信号処理装置、または、装置７００は、ノイズ統計値推定７０１と、ＡＲ係数推定７０２（例えば、カルマンフィルタを備える、または、用いる）と、及び例えば、残響ＡＲ信号モデルを利用するカルマンフィルタを備える、または、用いる、ノイズリダクション７０３と、を備える。さらに、装置７００は、残響推定７０４を備える。装置７００は、入力信号７１０を受信し、かつ出力信号７１２を提供するように構成されている。

【0169】

【0170】

【0171】

【0172】

さらに、遅延ブロック７２０は、ノイズ減少信号７０３ａから遅延したバージョン７２０ａを導出してもよいことに注意すべきである。

【0173】

【0174】

【0175】

したがって、残響推定器、及び減算器は、例えば、アルゴリズム１”のステップ１０を実行してもよい。

【0176】

装置７００の機能に関しては、ノイズが減少した信号７０３の推定のための、及びＭＡＲ係数７０２の推定のための、異なる概念を交互に用いることができることに注意すべきである。

【0177】

【0178】

しかしながら、図７を参照して記述された詳細はどれでも、任意であると考慮されるべきであることに注意すべきである。

【0179】

【0180】

関連した状態パラメータ推定方法［８］、［１７］とは対照的に、我々の望ましい信号は
状態変数ではないが、両方の推定値から得られる（１３）信号である。

【0181】

以下では、ＭＡＲ係数の推定に関連した、及びノイズリダクションに関連した、追加の（任意の）詳細が記述される。また、パラメータの推定に関連した、いくつかの詳細が記述される。しかしながら、これらの詳細のすべては、任意であると考慮されることに注意すべきである。詳細は、任意に、本明細書で述べられた実施の形態に追加され、請求項の中で、個々に、及び組み合わせの両方で、明らかにされる。

【0182】

Ａ任意のＭＡＲ係数の連続した推定

【0183】

【0184】

１）ＭＡＲ係数推定のためのカルマンフィルタ

【0185】

【0186】

【0187】

２）パラメータ推定

【0188】

【0189】

【0190】

【0191】

【0192】

Ｂ．最適化された任意の連続したノイズリダクション

【0193】

【0194】

１）ノイズリダクションのためのカルマンフィルタ

【0195】

【0196】

【0197】

【0198】

【0199】

２）パラメータ推定

【0200】

【0201】

【0202】

【0203】

【0204】

【0205】

【0206】

Ｃ．アルゴリズムの概要

【0207】

完全なアルゴリズムの例は、以下の“アルゴリズム１”の中で概説される。

【0208】

【0209】

【0210】

カルマンフィルタの初期化は重要ではない。もし、状態変数の良好な初期推定が利用可能であれば、初期収束段階は改良されることができるが、実際には、アルゴリズムは、いつも、収束して、そして、安定した状態である。

【0211】

【0212】

３．４．リダクション制御

【0213】

【0214】

【0215】

【0216】

リダクション制御を有する、提案されたシステムの構造は、図９で説明される。ノイズ推定ブロックは、ノイズリダクションブロックに統合することもできるので、ここでは省略される。

【0217】

【0218】

装置９００の機能は、上述の装置４００の機能に類似していてもよいことに注意すべきである。これに応じて、入力信号９１０は、入力信号４１０と一致していてもよく、出力信号９１２は、出力信号４１２と一致していてもよく、ノイズリダクション９０３は、ノイズリダクション３０３と一致していてもよく、残響推定９０４は、残響推定３０４と一致していてもよく、スケーリングされた入力信号９１０ａは、スケーリングされた入力信号４１０ａと一致していてもよく、ノイズが減少した信号９０３ａは、ノイズが減少した信号３０３ａと一致していてもよく、スケーリングされたノイズが減少した信号９０３ｂは、スケーリングされたノイズが減少した信号３０３ｂと一致していてもよく、残響信号９０４ａは、残響信号３０４ａと一致していてもよく、スケーリングされた残響信号９０４ｂは、スケーリングされた残響信号３０４ｂと一致していてもよい。

【0219】

また、装置９００の全体的な機能は、違いがここで言及されない限り、装置４００の全体的な機能と類似している。

【0220】

ノイズリダクション９０３は、例えば、ノイズリダクション７０３の機能を備えていてもよい。残響推定は、例えば、ＡＲ係数推定７０２、及び遅延器７２０を組み合わせて得ることができるときには、例えば、残響推定７０４の機能を備えていてもよい。さらに、ノイズリダクション９０３は、例えば、ノイズ統計情報７０１のような、ノイズ統計情報を受信してもよく、及び係数７０２ａのような、推定されたＡＲ係数、または、ＭＡＲ係数も受信してもよい。

【0221】

【0222】

【0223】

３．５評価

【0224】

このサブセクションでは、我々は、サブセクション３．５−Ｂで再考察された、２つの参照方法を比較することによって、サブセクション３．５−Ａで記述された実験手順を用いて、提案されたシステムを評価する。結果はサブセクション３．５−Ｃに示される。

【0225】

Ａ．実験準備（任意）

【0226】

残響信号は、［５］から、無響の音声信号を有するＲＩＲｓ（室内インパルス応答（ｒｏｏｍｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅｓ））を畳み込むことによって生成された。我々は、２つの異なる種類のＲＩＲｓ：イスラエルのバル−イラン大学での可変音響を有する音響研究室の中で測定されたＲＩＲｓ、または、動いている音源のためのイメージ法［１］を用いている、シミュレートされたＲＩＲｓを用いる。動いている音源の場合には、シミュレートされたＲＩＲｓは、直接音、及び評価のための対象信号を得るための初期の反応だけを含んでいるＲＩＲｓを追加的に生成することを可能にする場合のように、評価を容易にする。

【0227】

【0228】

【0229】

Ｂ関連方法（任意）

【0230】

提案された方法（二重カルマン）の有効性、及び性能を示すために、我々は、それを以下の２つの方法と比較する。

【0231】

【0232】

Ｃ．結果

【0233】

【0234】

２）フィルタ長さの依存

【0235】

【0236】

従来の方法との比較

【0237】

【0238】

ＲＣなしに、または、伴う、提案されたアルゴリズムは、すべての状態で、両方の競争しているアルゴリズムの性能を超えることを観測できる。ＲＣは、干渉リダクションと希望する音声信号歪との間のトレードオフを提供する。、音声歪みについての指標としてのＣＤは、ＲＣの方が一貫してより良くなっているのに対し、干渉減少の量をかなり反映する他の測定は定常ノイズにおいてＲＣなしのわずかに高い結果を矛盾なく達成する。これは、ＲＣは、ｉＳＮＲ状態に挑戦している中で、及び、ノイズ共分散推定エラーの存在の中での悪影響を覆うことによって、品質を向上させることに役立たせることができることを意味する。高いｉＳＮＲ状態では、二重カルマンの性能は、期待された単一カルマンの性能に類似するようになる。

【0239】

４）動いている話者の追跡

【0240】

【0241】

図１２は、この動的な状況のための、ＣＤ、ＰＥＳＱ、ＳＩＲ、及びＳＲＭＲのセグメントの改良を示す。この実験では、評価のための対象の信号は、第２次までだけの壁反射をシミュレートすることによって、生成された。

【0242】

我々は、すべての測定値は、動いている間に減少し、話者が位置Ｂに到達した後の間に、測定値は、再び高い改善に達する。すべての方法の収束は、ＲＣなしに、及び伴う、二重カルマンが最良な動作をしている間には、同じように動く。時間間隔が動いている間に、ＭＡＰ−ＥＭは、時々、高いｆｗＳＳＩＲ、及びＳＲＭＲを生じさせるが、非常に悪いＣＤ、及びＰＥＳＱという代償を支払う。リダクション制御は、ＣＤ改良点がいつも正であるように、ＣＤを改良し、そしてそれは、ＲＣが音声歪み、及び悪影響を減少させることができることを指し示す。もし、残響リダクションが、音声発信源の移動の間に、より効果的ではないようにすることができれば、二重カルマンアルゴリズムは、不安定ではなく、及びＰＥＳＱ、ＳＩＲ、及びＳＲＭＲの改善は、いつも正であり、及びＲＣを用いることによって、ＣＤはいつも正であった。これは、また、動いている話者を伴う本当の記録を用いることによって確認された。

【0243】

５）リダクション制御の評価

【0244】

【0245】

【0246】

３．６結論

【0247】

以下では、このサブセクションで記述された実施の形態に関するいくつかの結論が提供される。

【0248】

本発明の概念に従って、実施の形態として、２つの相互に作用するカルマンフィルタに基づいた、交互の最小化アルゴリズムは、それぞれのマイクロフォン信号（例えば、入力信号としての役割を果たす多チャンネルマイクロフォン信号の）からノイズ、及び残響を減少させるために、多チャンネル自己回帰パラメータ及び残響信号を推定するために記述された。例えば、再帰的カルマンフィルタを用いている、提案された解決策は、オンライン処理アプリケーションに適合する。

【0249】

オンライン方法に類似する、効果的であり、及び優れた性能がさまざまな実施の形態の中で示される。

【0250】

これに加えて、個々のノイズ、及び残響のリダクションを制御するための、場合によれば、可能性のあるアーチファクトをマスクするための、及び知覚的な必要性のための入力信号を調整するための、方法、及びコンセプトが、記述される。ノイズ、及び残響のリダクションを制御するための方法、及びコンセプトは、例えば、多チャンネル自己回帰パラメータ、残響信号を推定するためのコンセプトを伴う組み合わせの中で用いられることができる（例えば、任意の拡張）。

【0251】

３．７．付録：残りのノイズ、及び残響の計算

【0252】

以下では、残りのノイズ、及び残響の計算のためのいくつかのコンセプトが記述され、そしてそれは、例えば、本発明に従ったコンセプトの評価の中で用いられてもよい。しかしながら、任意に、本明細書に述べられたコンセプトは、発明に従った実施の形態の中で用いられてもよく、そしてその中で、処理された信号に関連する追加情報が望まれる。

【0253】

残りのノイズ、及び残響の計算

【0254】

提案されたシステムの出力での残りのノイズ、及び残響の出力を計算するために、システムを通じて、これらの信号を伝播させることができる。

【0255】

【0256】

【0257】

【0258】

【0259】

【0260】

いま、我々は、出力での残りのノイズおよび／または、残響のパワーを分析し、かつそれは出力での、それぞれのパワーと比較される。

【0261】

結論

【0262】

以下では、いくつかの結論が提供される。

【0263】

本発明に従った実施の形態は、任意に、１つ以上の以下の特徴と、を備える：
・少なくとも１つのマイクロフォン信号を受信し、または、交互に、少なくとも２つのマイクロフォン信号を受信する（任意）。
・マイクロフォン信号、または、時間−周波数領域、または、別の適切な領域へのマイクロフォン信号を送信する（任意）。
・ノイズ共分散行列を推定する（任意）。
・ＭＡＲ係数、及びノイズがない残響信号の組み合わされた推定のための並行推定構造を用いる。
・ＭＡＲ係数は、ノイズがある残響入力信号、及びノイズリダクション段から遅延した推定された残響出力信号を用いて、推定される。
・ノイズリダクション段は、それぞれのフレームの中で推定する現在のＭＡＲ係数を受信する（任意）。
・ノイズがない残響信号（または、代わりの複数のノイズがない残響信号）をフィルタリングすることによって、出力信号（または、代わりの複数の出力信号）を計算する（任意）。
・残りのノイズ、及び残響の量を設定するために、推定された信号成分から制御された出力信号（または、代わりの複数の出力信号）を計算する（任意）。
・出力信号で、異なる残響特性を達成するために、推定された残響除去された信号（または、代わりの複数の推定された残響除去された信号）に、あるレベルを有する１つ以上の処理された、または、形成された残響信号を加えることによって、修正された出力信号（または、代わりの複数の出力信号）を任意で計算する。

【0264】

さらなる結論のために、本明細書の中に、異なる発明の実施の形態、及び実施例が、チャプター“リダクション制御を有する残響除去およびノイズリダクション（並行制御を用いる）のための方法、及び装置”（セクション２）の中、そして、チャプター“交互のカルマンフィルタを用いるオンライン残響除去、及びノイズリダクションに基づく線形予測”（セクション３）の中に記述される。

【0265】

また、さらなる実施の形態は、同封の請求項、及び他のセクション（例えば、セクション“発明の概要”の中、及びセクション１の中）に含まれることによって、定義された。

【0266】

請求項によって明確にされた、どのような実施の形態でも、ここに記述されたどのような詳細（例えば、特徴、及び機能）によっても、補完されることができることに注意すべきである。また、上述のセクションの中で記述された実施の形態は、個々に用いられることができて、そして、また、別のセクションに含まれたどのような特徴によっても、または、請求項の中に含まれたどのような特徴によっても補完されることができる。

【0267】

また、ここに記述された個々の実施例は、個々に、または、組み合わせで、用いることができることに注意すべきである。したがって、詳細は、別の実施例への詳細を加えることなしに、前記個々の実施例に加えられることができる。

【0268】

本開示が記述する、明確な、または、黙示的な特徴は、音声エンコーダ（入力音声信号の符号化された表現を提供するための装置）、及び音声デコーダ（符号化された表現に基づく音声信号の復号化された表現を提供するための装置）で利用可能であることにも注意すべきである。したがって、ここに述べられた特徴のどれでも、音声エンコーダにおいて、及び音声デコーダにおいて、用いることができる。

【0269】

さらに、方法に関して、ここに記述された特徴、及び機能は、装置（そのような方法、または、機能を実行するように構成された）でも用いることができる。さらに、装置に関してここに開示されたどのような特徴、及び機能も、対応する方法で用いることができる。換言すれば、ここに記述された方法は、装置に関して記述されたどのような特徴、及び方法によっても補完されることができて、その逆も同じである。また、ここに記述された、どのような特徴、及び機能もハードウエア、及びソフトウェア（または、ハードウエア、および／または、ソフトウェアを用いて）、または、セクション“二者択一の実現”で記述される、ハードウエアとソフトウェアの組み合わせですら実現されることができる。

【0270】

また、ここに記述された処理は、例えば（しかし、以下に限られないが）、周波数帯域ごとに、または、周波数ビンごとに、異なる周波数領域で、実行されてもよいことに注意すべきである。

【0271】

本発明の実施例は、リダクション制御を伴うオンライン残響、及びノイズリダクションのための方法、及び装置と関連することに注意すべきである。

【0272】

本発明に従った実施の形態は、残響除去、及びノイズリダクションのための組み合わせのための新しい並行構造を創造する。残響信号は、例えば、非定常性の音響環境を構成する、時間的に変化する係数を有する、狭帯域の多チャンネル自己回帰残響モデルを用いて、モデル化される。既存の連続した推定構造に対して、発明に従った実施の形態は、変化しない室係数の仮定を必要としないような、並行式にノイズがない残響信号、及び自己回帰室係数を推定する。これに加えて、独立して、ノイズ、及び残響のリダクションレベルを制御するための方法が提案された。

【0273】

図１４に従った方法

【0274】

図１４は、本発明の実施の形態に従った方法１４００のフローチャートを示す。

【0275】

入力音声信号に基づいて処理された音声信号を提供するための方法１４００は、ノイズリダクション段を用いて得られた、入力音声信号、及び遅延したノイズが減少した残響信号を用いる、自己回帰残響モデルの係数の推定１４１０、を備える。

【0276】

方法は、また、入力音声信号、及び自己回帰残響モデルの推定された係数を用いるノイズが減少した残響信号の提供１４２０、を含む。

【0277】

方法は、また、ノイズが減少した残響信号、及び自己回帰残響モデルの推定された係数を用いて、ノイズが減少し、及び残響が減少した出力信号を抽出すること１４３０と、を含む。

【0278】

方法１４００は、個々に、及び組み合わせの両方で、本明細書に記述されたどのような特徴、機能、及び詳細によっても、任意に、補完されることができる。

【0279】

６．代替の実施

【0280】

いくつかの実施例は、装置の環境で記述されたが、これらの実施例は、対応する方法の記述としても表されていることは明らかであり、この場合には、ブロック、または、装置は、方法のステップに対応し、または、方法のステップの特徴と対応する。同様に、方法のステップの環境で記述された実施例は、また、対応する装置の対応するブロック、または、特色、または、特徴の記述も表している。いくつかの、または、すべての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または、電子回路のような、ハードウエア装置によって（または、を使用して）実行される。いくつかの実施の形態では、１つ以上の最も重要な方法ステップは、そのような装置によって実行される。

【0281】

確実な実施の必要要件に依存して、発明の実施の形態は、ハードウエア、または、ソフトウェアで実施することができる。実施は、ディジタル記憶媒体、例えば、それに記憶された、電気的に読み取り可能な制御信号を有する、フロッピーディスク（フロッピーは登録商標）、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、または、ＦＬＡＳＨメモリを用いて実行可能であり、そしてそれは、それぞれの方法が実行されるような、プログラム可能なコンピュータと協働する（または、協働が可能である）。したがって、ディジタル記憶媒体は、コンピュータで読み取り可能であってもよい。

【0282】

本発明に従った、いくつかの実施の形態は、本明細書に述べられた方法のうちの１つが実行されるような、プログラム可能なコンピュータと協働することができる、電気的に読み取り可能な制御信号を有する、データキャリアを備える。

【0283】

一般的に、本発明の実施の形態は、プログラムコード、コンピュータプログラム製品が、コンピュータで実行されているときには、方法のうちの１つを実行するために動作する、プログラムコードを有する、コンピュータプログラム製品として実施されてもよい。プログラムコードは、例えば、機械的に読み取り可能なキャリアに格納されていてもよい。

【0284】

他の実施の形態は、機械で読み取り可能なキャリアに格納される、本明細書で述べられた方法のうちの１つを実行するためのコンピュータプログラムを備える。

【0285】

換言すれば、本発明の方法の実施の形態は、したがって、コンピュータプログラムが、コンピュータで動いているときには、ここに述べられた方法のうちの１つを実行するためのプログラムコードを有する、コンピュータプログラムである。

【0286】

本発明の方法のさらなる実施の形態は、したがって、その上に記録された、本明細書に述べられた方法のうちの１つを実行するためのコンピュータプログラムを含むデータキャリア（または、ディジタル記憶媒体、または、コンピュータで読み取り可能な媒体）である。データキャリア、ディジタル記憶媒体、または、記録された媒体は、一般的に、有形、そして／あるいは、非一過性である。

【0287】

本発明の方法のさらなる実施の形態は、したがって、本明細書に述べられた方法のうちの１つを実行するためのコンピュータプログラムを表現するデータストリーム、または、信号のシーケンスである。データストリーム、または、信号のシーケンスは、例えば、インターネットのような、データ通信接続を経由して送信されるように構成されていてもよい。

【0288】

本発明の方法のさらなる実施の形態は、処理手段、例えば、本明細書に述べられた方法のうちの１つを実行するように構成された、または、適合された、コンピュータ、または、プログラム可能な論理装置を備える。

【0289】

さらなる実施の形態は、これにインストールされた、ここに述べられた方法のうちの１つを実行するためのコンピュータプログラムを有する、コンピュータと、を備える。

【0290】

本発明に従ったさらなる実施の形態は、本明細書に述べられた方法のうちの１つを実行するためのコンピュータプログラムをレシーバに送信する（例えば、電気的に、または、光学的に）ように構成された、装置、または、システムを備える。レシーバは、例えば、コンピュータ、モバイル機器、メモリ装置、または、そのようなものであってもよい。装置、または、システムは、例えば、コンピュータプログラムをレシーバに送信するためのファイルサーバを備えていてもよい。

【0291】

いくつかの実施の形態では、プログラム可能な論理装置（例えば、フィールドプログラマブルゲートアレイ）は、本明細書に述べられた方法の機能のうちのいくつか、または、すべてを実行するために用いられてもよい。いくつかの実施の形態では、フィールドプログラマブルゲートアレイは、本明細書に述べられた方法のうちの１つを実行するために、マイクロプロセッサと協働してもよい。一般的には、方法は、好ましくは、いくつかのハードウエア装置によって、実行されてもよい。

【0292】

本明細書に述べられた装置は、ハードウエア装置を用いて、または、コンピュータを用いて、または、ハードウエア装置と、コンピュータの組み合わせを用いて、実施されてもよい。

【0293】

本明細書に述べられた装置、または、本明細書に述べられた装置のいくつかの成分は、少なくとも、部分的に、ハードウエア、および／または、ソフトウェアにおいて実施されてもよい。

【0294】

本明細書に述べられた方法は、ハードウエア装置を用いて、または、コンピュータを用いて、または、ハードウエア装置と、コンピュータの組み合わせを用いて、実施されてもよい。

【0295】

本明細書に述べられた方法、または、本明細書に述べられた装置のいくつかの成分は、少なくとも、部分的に、ハードウエア、そして／あるいは、ソフトウェアで実行されてもよい。

【0296】

上述の実施の形態は、主に、本発明の原理を説明したものである。本明細書に述べられた、配置、及び詳細の修正、及び変更は、当業者に明確になると理解される。それは、したがって、本明細書の実施の形態の記述、及び説明によって表された、特定の詳細によってではなく、差し迫った特許請求の範囲の範囲内で限定されることを意図する。

【0297】