(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-19
(45)【発行日】2022-08-29
(54)【発明の名称】ミキシング後音響エコーキャンセルシステム及び方法
(51)【国際特許分類】
H04B 3/20 20060101AFI20220822BHJP
H04R 3/02 20060101ALI20220822BHJP
G10L 21/0208 20130101ALI20220822BHJP
【FI】
H04B3/20
H04R3/02
G10L21/0208 100B
(21)【出願番号】P 2019538198
(86)(22)【出願日】2018-01-10
(86)【国際出願番号】 US2018013155
(87)【国際公開番号】W WO2018132465
(87)【国際公開日】2018-07-19
【審査請求日】2020-10-21
(32)【優先日】2017-01-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504189151
【氏名又は名称】シュアー アクイジッション ホールディングス インコーポレイテッド
【氏名又は名称原語表記】SHURE ACQUISITION HOLDINGS,INC.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】ウェルズ-ラザフォード ショーン
(72)【発明者】
【氏名】アブラハム マシュー ティー
(72)【発明者】
【氏名】ギブス ジョン ケイシー
【審査官】佐藤 敬介
(56)【参考文献】
【文献】特開2003-060530(JP,A)
【文献】特開2006-173871(JP,A)
【文献】特開2016-144112(JP,A)
【文献】特表2005-531200(JP,A)
【文献】特開2007-306553(JP,A)
【文献】特開平08-331020(JP,A)
【文献】特表平11-514516(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04B 3/20
H04R 3/02
G10L 21/0208
(57)【特許請求の範囲】
【請求項1】
(A)メモリと、
(B)各々が音声信号を生成するように構成された複数の音響源と、
(C)前記複数の音響源及び前記メモリと通信して、前記複数の音響源の各々からの前記音声信号をミキシングしてミキシング音声信号を生成するように構成されたミキサと、
(D)前記ミキサ、前記メモリ、及びリモート音声信号と通信
し、ミキシングフィルタタップ係数及びタップ重みを有し、前記リモート音声信号をフィルタリングしてフィルタリングされたリモート音声信号を生成するように構成されたミキシングフィルタを備え、前記ミキシング音声信号、前記複数の音響源の各々からの前記音声信号から収集された情報、及び前記
フィルタリングされたリモート音声信号に基づいて、エコーキャンセルされたミキシング音声信号を生成するように構成された、音響エコーキャンセラと、
を備える、ことを特徴とするシステム。
【請求項2】
前記複数の音響源及び前記音響エコーキャンセラと通信する信号選択機構を更に備え、前記信号選択機構は、前記複数の音響源のうちの少なくとも1つから少なくとも1つの音声信号を選択して、前記少なくとも1つの選択された音声信号を前記音響エコーキャンセラに伝達するように構成され、前記信号選択機構は更に、前記ミキシング音声信号、前記少なくとも1つの選択された音声信号から収集された情報、及び前記
フィルタリングされたリモート音声信号に基づいて、前記エコーキャンセルされたミキシング音声信号を生成するように構成される、請求項1に記載のシステム。
【請求項3】
前記音響エコーキャンセラは、
バックグラウンドフィルタタップ係数を有し、正規化された最小二乗平均アルゴリズムを使用して前記複数の音響源の各々からの前記音声信号のバックグラウンド誤りパワーを測定するように構成されたバックグラウンドフィルタと、
隠しフィルタタップ係数を有し、前記複数の音響源の各々からの前記音声信号及び前記リモート音声信号に基づいて前記複数の音響源の各々からの前記音声信号の隠れ誤りパワーを測定するように構成された隠しフィルタと、
前記バックグラウンドフィルタ及び前記隠しフィルタと通信する誤り比較モジュールと、
を備え、
前記誤り比較モジュールは、
前記バックグラウンド誤りパワーと前記隠れ誤りパワーとを比較し、
前記バックグラウンド誤りパワー
と前記隠れ誤りパワー
との前記比較に基づいた条件が満たされた場合に、前記バックグラウンドフィルタタップ係数を選択して該係数を前記メモリに格納する、
ように構成される、請求項1に記載のシステム。
【請求項4】
前記誤り比較モジュールは更に、前記バックグラウンド誤りパワー
と前記隠れ誤りパワー
との前記比較に基づいた前記条件が満たされた場合に、前記メモリから前記格納されたバックグラウンドフィルタタップ係数をコピーして前記隠しフィルタタップ係数と置き換えるように構成される、請求項3に記載のシステム。
【請求項5】
前記バックグラウンドフィルタは、次式に従って、バックグラウンド誤りe[n]を測定するように構成され、
【数1】
ここで、d[n]は、前記音声信号のうちの1つであり、x[n]は、前記リモート音声信号からのサンプルのベクトルであり、
は、共役転置演算であり、前記バックグラウンド誤りパワーは、前記バックグラウンド誤りに基づいて推定される、請求項3に記載のシステム。
【請求項6】
前記誤り比較モジュールは更に、次式に従って、前記バックグラウンドフィルタタップ係数を更新するように構成され、
【数2】
ここで、αは、ステップサイズパラメータであり、*は、複素共役演算を示し、
は、l
2ノルムを示す、請求項3に記載のシステム。
【請求項7】
前記音響エコーキャンセラは更に、
ミキシングフィルタタップ係数及びタップ重みを有し、前記リモート音声信号をフィルタリングしてフィルタリングされたリモート音声信号を生成するように構成されたミキシングフィルタを備え、
前記誤り比較モジュールは更に、前記バックグラウンド誤りパワー
と前記隠れ誤りパワー
との前記比較に基づいた前記条件が満たされた場合に、前記メモリから前記格納されたバックグラウンドフィルタタップ係数をコピーして、現在適応中でない前記複数の音響源の各々の前記隠しフィルタタップ係数と現在適応中の音響源に対応し直近に更新されたバックグラウンドフィルタタップ係数とを組み合わせることによって前記ミキシングフィルタタップ係数を更新するように構成される、請求項3に記載のシステム。
【請求項8】
前記音響エコーキャンセラは更に、
ミキシングフィルタタップ係数及びタップ重みを有し、前記リモート音声信号をフィルタリングしてフィルタリングされたリモート音声信号を生成するように構成されたミキシングフィルタを備え、
前記ミキシングフィルタは更に、前記ミキサのチャンネルスケーリング因子が変化した場合に、重みの差分にチャンネルインパルス応答推定値を乗算したものを加算することによって、前記変化したチャンネルスケーリング因子に対応する前記タップ重みを更新することによって更新されるように構成される、請求項3に記載のシステム。
【請求項9】
前記音響エコーキャンセラは、前記ミキシング音声信号から前記フィルタリングされたリモート音声信号を減算することによって、前記エコーキャンセルされたミキシング音声信号を生成するように構成される、請求項
1に記載のシステム。
【請求項10】
前記音響エコーキャンセラは更に、
前記ミキサ、前記ミキシングフィルタ、及び前記エコーキャンセルされたミキシング音声信号と通信して、
前記フィルタリングされたリモート音声信号の出力コヒーレンスを測定し、前記エコーキャンセルされたミキシング音声信号の残余エコーパワーを推定するように構成されたミキシング推定器と、
前記出力コヒーレンスが所定の閾値を超過する場合、又は前記残余エコーパワーが前記ミキシング音声信号のパワーの半分を超過する場合に、前記エコーキャンセルされたミキシング音声信号を処理して、エコーが抑制されたミキシング音声信号を生成するように構成された非線形プロセッサと、
を備える、請求項
9に記載のシステム。
【請求項11】
複数の音響源の各々から音声信号を受信する段階と、
リモート音声信号を受信する段階と、
ミキサを使用して前記複数の音響源の各々からの前記音声信号をミキシングして、ミキシング音声信号を生成する段階と、
ミキシングフィルタタップ係数及びタップ重みを有するミキシングフィルタを使用して、前記リモート音声信号をフィルタリングしてフィルタリングされたリモート音声信号を生成する段階と、
音響エコーキャンセラを使用して、前記ミキシング音声信号、前記複数の音響源の各々からの前記音声信号から収集された情報、及び前記
フィルタリングされたリモート音声信号に基づいて、エコーキャンセルされたミキシング音声信号を生成する段階と、
を含む方法。
【請求項12】
信号選択機構を使用して、前記複数の音響源のうちの少なくとも1つから少なくとも1つの選択された音声信号を選択して該信号を前記音響エコーキャンセラに伝達する段階を更に含み、
前記エコーキャンセルされたミキシング音声信号を生成する段階は、前記ミキシング音声信号、前記少なくとも1つの選択された音声信号から収集された情報、及び前記
フィルタリングされたリモート音声信号に基づいて、前記エコーキャンセルされたミキシング音声信号を生成する段階を含む、請求項
11に記載の方法。
【請求項13】
前記エコーキャンセルされたミキシング音声信号を生成する段階は、
バックグラウンドフィルタタップ係数を有するバックグラウンドフィルタにおいて、正規化された最小二乗平均アルゴリズムを使用して前記複数の音響源の各々からの前記音声信号のバックグラウンド誤りパワーを測定する段階と、
隠しフィルタタップ係数を有する隠しフィルタを使用して、前記複数の音響源の各々からの前記音声信号及び前記リモート音声信号に基づいて前記複数の音響源の各々からの前記音声信号の隠れ誤りパワーを測定する段階と、
前記バックグラウンド誤りパワーと前記隠れ誤りパワーとを比較する段階と、
前記バックグラウンド誤りパワー
と前記隠れ誤りパワー
との前記比較に基づいた条件が満たされた場合に、前記バックグラウンドフィルタタップ係数を選択して該係数をメモリに格納するする段階と、
を含む、請求項
11に記載の方法。
【請求項14】
前記バックグラウンド誤りパワー
と前記隠れ誤りパワー
との前記比較に基づいた前記条件が満たされた場合に、前記メモリから前記格納されたバックグラウンドフィルタタップ係数をコピーして前記隠しフィルタタップ係数と置き換える段階を更に含む、請求項
13に記載の方法。
【請求項15】
前記バックグラウンド誤りパワーを測定する段階は、
d[n]が、前記音声信号のうちの1つであり、x[n]が、前記リモート音声信号からのサンプルのベクトルであり、
が、共役転置演算である次式、すなわち、
【数3】
に従って、バックグラウンド誤りe[n]を測定する段階と、
前記バックグラウンド誤りに基づいて前記バックグラウンド誤りパワーを推定する段階と、
を含む、請求項
13に記載のシステム。
【請求項16】
次式に従って、前記バックグラウンドフィルタタップ係数を更新する段階を更に含み、
【数4】
ここで、αは、ステップサイズパラメータであり、*は、複素共役演算を示し、
は、l
2ノルムを示す、請求項
13に記載の方法。
【請求項17】
ミキシングフィルタタップ係数及びタップ重みを有するミキシングフィルタを使用して、前記リモート音声信号をフィルタリングしてフィルタリングされたリモート音声信号を生成する段階と、
前記バックグラウンド誤りパワー
と前記隠れ誤りパワー
との前記比較に基づいた前記条件が満たされた場合に、前記メモリから前記格納されたバックグラウンドフィルタタップ係数をコピーして、現在適応中でない前記複数の音響源の各々の前記隠しフィルタタップ係数と現在適応中の音響源に対応し直近に更新されたバックグラウンドフィルタタップ係数とを組み合わせることによって前記ミキシングフィルタタップ係数を更新する段階と、
を更に含む、請求項
13に記載の方法。
【請求項18】
ミキシングフィルタタップ係数及びタップ重みを有するミキシングフィルタを使用して、前記リモート音声信号をフィルタリングしてフィルタリングされたリモート音声信号を生成する段階と、
前記ミキサのチャンネルスケーリング因子が変化した場合に、重みの差分にチャンネルインパルス応答推定値を乗算したものを加算することによって、前記変化したチャンネルスケーリング因子に対応する前記タップ重みを更新することによって前記ミキシングフィルタを更新する段階と、
を更に含む、請求項
13に記載の方法。
【請求項19】
前記エコーキャンセルされたミキシング音声信号を生成する段階は、前記ミキシング音声信号から前記フィルタリングされたリモート音声信号を減算する段階を含む、請求項
11に記載の方法。
【請求項20】
ミキシング推定器を使用して、前記フィルタリングされたリモート音声信号の出力コヒーレンスを測定する段階と、
前記ミキシング推定器を使用して、前記エコーキャンセルされたミキシング音声信号の残余エコーパワーを推定する段階と、
前記出力コヒーレンスが所定の閾値を超過する場合、又は前記残余エコーパワーが前記ミキシング音声信号のパワーの半分を超過する場合に、非線形プロセッサを使用して、前記エコーキャンセルされたミキシング音声信号を処理して、エコーが抑制されたミキシング音声信号を生成する段階と、
を更に含む、請求項
19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2017年1月13日出願の米国特許出願第15/406,172号の利益を主張するものであり、その開示内容は引用により全体が本明細書に組み込まれる。
【0002】
本出願は、一般に、会議システムにて使用されるマイクロホンなどの複数の音響源からの音声信号のミキシング後に実行される音響エコーキャンセルに関する。具体的には、本出願は、計算リソースを効率的に利用しながら、ミキサの出力からの音響エコーをキャンセル及び抑制するためのシステム及び方法に関する。
【背景技術】
【0003】
会議室、会議状況及び同様のものなどの会議環境は、音源からの音を取り込むためのマイクロホン及び遠隔位置(遠端としても知られる)からの音声を提示するためのラウドスピーカの使用を伴う可能性がある。例えば、会議室内の人は、遠隔位置にいる人と電話会議を行っている場合がある。典型的には、会議室からの発話及び音が、マイクロホンにより取り込まれて遠隔位置に送信することができ、他方、遠隔位置からの発話及び音が受信されて、会議室内のラウドスピーカで再生することができる。会議室において発話及び音を最適に取り込むために、複数のマイクロホンが使用される場合がある。
【0004】
しかしながら、マイクロホンは、ラウドスピーカ上で再生された遠隔位置からの発話及び音を取り込む場合がある。従って、この状況では、遠隔位置に送信される音声は、エコーを含み、すなわち、会議室からの発話及び音並びに遠隔位置からの発話及び音を含む可能性がある。補正がなされないには、遠隔位置に送信される音声は、このエコーに起因して低品質であるか、又は許容可能でない場合がある。特に、遠隔位置にいる人が自身の発話及び音を聴くことは望ましいことではない。
【先行技術文献】
【特許文献】
【0005】
【文献】米国特許第4,658,425号明細書
【文献】米国特許第5,297,210号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
既存のエコーキャンセルシステムは、複数のマイクロホンの各々に対して音響エコーキャンセラを使用することができ、その後で、ミキサが、エコーキャンセルされたマイクロホン信号の各々をミキシングして処理することができる。しかしながら、これらのタイプのシステムは、計算負荷が高く複雑である場合がある。例えば、各マイクロホン信号に対して音響エコーキャンセルを実行するには、独立した専用の処理が必要になる場合がある。更に、ミキサの後に配置される典型的な音響エコーキャンセラは、ミキサが動的である場合、すなわち、ミキサチャンネルのうちの1又は2以上の利得が時間とともに変化する場合、ミキサによって生成されるミキシング信号に常に再適応する必要があることから、適切に機能しないことになる。
【0007】
従って、これらの問題に対処する音響エコーキャンセルシステム及び方法に対する機会が存在する。より具体的には、計算効率が高く且つリソースに配慮しながら、音響エコーをキャンセル及び抑制し、複数の音響源の音声をミキシングしたミキサと連係する音響エコーキャンセルシステム及び方法の機会が存在する。
【課題を解決するための手段】
【0008】
本発明は、とりわけ、(1)ミキサからの混合音声信号、複数の音響源の各々からの音声信号から収集された情報、及びリモート音声信号に基づいて、エコーキャンセルされた混合音声信号を生成し、(2)バックグラウンド誤りパワーと隠れ誤りパワーとの比較に基づいて、正規化された最小二乗平均アルゴリズムを実行するバックグラウンドフィルタ、隠しフィルタ(hidden filter)、及びミキシングフィルタの様々なタップ係数を選択することによって、エコーキャンセルされた混合音声信号を生成し、(3)該バックグラウンドフィルタ及び隠しフィルタがまだ収束していない場合に、非線形プロセッサを使用して、エコーキャンセルされた混合音声信号からエコーが抑制された混合音声信号を生成するように設計された音響エコーキャンセルシステム及び方法を提供することにより、上述の問題を解決することを意図している。
【0009】
一実施形態では、本システムは、メモリと、複数の音響源と、該複数の音響源及びメモリと通信するミキサと、ミキサ、メモリ及びリモート音声信号と通信する音響エコーキャンセラと、を含む。複数の音響源は、各々、音声信号を生成するように構成することができる。ミキサは、複数の音響源の各々からの音声信号をミキシングして混合音声信号を生成するように構成することができる。音響エコーキャンセラは、混合音声信号、複数の音響源の各々から収集された情報、及びリモート音声信号に基づいて、エコーキャンセルされた混合音声信号を生成するように構成することができる。
【0010】
別の実施形態では、本方法は、複数の音響源の各々から音声信号を受信する段階と、リモート音声信号を受信する段階と、ミキサを使用して複数の音響源の各々からの音声信号をミキシングして、混合音声信号を生成する段階と、音響エコーキャンセラを使用して、混合音声信号、複数の音響源の各々からの音声信号から収集された情報、及びリモート音声信号に基づいて、エコーキャンセルされた混合音声信号を生成する段階とを含む。
【0011】
これらの及び他の実施形態並びに様々な置換例及び態様は、以下で明らかになり、本発明の原理を使用できる様々な方法を示す例示的な実施形態を提示する以下の詳細な説明及び添付図面からより完全に理解されるであろう。
【図面の簡単な説明】
【0012】
【
図1】幾つかの実施形態による、音響エコーキャンセラを含む通信システムの概略図である。
【
図2】幾つかの実施形態による、
図1の通信システムで使用される音響エコーキャンセラの概略図である。
【
図3】幾つかの実施形態による、
図1の通信システムを使用して音響エコーエコーキャンセルを実行するための動作を示すフローチャートである。
【
図4】幾つかの実施形態による、
図1の通信システムを使用して、音響エコーキャンセルを実行する間にバックグラウンドフィルタ及び隠しフィルタを実行するための動作を示すフローチャートである。
【
図5】幾つかの実施形態による、
図1の通信システムを使用して、エコーが抑制されたミキシング音声信号を生成するため非線形プロセッサを実行する動作を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下の説明は、本発明の原理に従う本発明の1又は2以上の特定の実施形態について説明し、図示し、例示するものである。この説明は、本発明を本明細書で説明する実施形態に限定するためではなく、むしろ当業者が、本発明の原理を理解し、その理解の上でこれらの原理を適用して、本明細書で説明する実施形態だけでなく、これらの原理に従って想起し得る他の実施形態も実施できるように、本発明の原理を説明及び教示するために提示される。本発明の範囲は、文言上、又は均等論の下で添付の特許請求の範囲に含まれる可能性のある全てのこのような実施形態をカバーすることが意図されている。
【0014】
明細書及び図面では、同様の又は実質的に類似の要素には同様の参照数字を付している場合があることに留意されたい。しかしながら、例えば異なる数字を付すことで説明がより明確になる場合には、これらの要素に異なる数字を付す場合がある。更に、本明細書に示す図面は、必ずしも縮尺通りに作図されているものではなく、場合によっては、特定の特徴をより明確に示すために比率が誇張されていることがある。このような表示及び作図手法は、必ずしも基となる本質的な目的に関与するものではない。上述したように、本明細書は、本明細書で教示され当業者に理解される本発明の原理に従って全体として理解されて解釈されるように意図されている。
【0015】
本明細書で記載される音響エコーキャンセルシステム及び方法は、計算効率が高くリソースに配慮しながら、ミキサからのミキシング音声信号、複数の音響源の各々からの音声信号から収集された情報及びリモート音声信号に基づいて、エコーキャンセルされたミキシング音声信号を生成することができる。本システム及び方法は、独立した音響エコーキャンセラのキャンセルの利点を維持しながら、例えばマイクロホンなどの各音響源用の独立した音響エコーキャンセラの必要性を排除することができる。更に、計算負荷の減少により、より費用のかからないハードウェア(例えば、プロセッサ及び/又はDSP)の使用が可能になり、及び/又は他の機能を通信システム100に含めることが可能になり得る。ユーザ満足度は、通信システム100及び音響エコーキャンセラ112を使用することにより高まることができる。
【0016】
図1は、マイクロホン102を使用して環境内の音源からの音を取り込み、ラウドスピーカ104を使用して遠隔位置からの音声を提示するための通信システム100の概略図である。
図2は、通信システム100に含まれる音響エコーキャンセラ112の概略図である。通信システム100は、ミキサ106からのミキシング音声信号を処理する音響エコーキャンセラ112を使用して、エコーキャンセルされたミキシング音声信号を生成することができる。エコーキャンセルされたミキシング音声信号は、遠隔位置から受信してラウドスピーカ104上で再生される音を軽減することができる。このようにして、エコーキャンセルされたミキシング音声信号は、遠隔位置にいる話者の望ましくないエコーによってその話者自身の発話及び音が聞こえることなく、遠隔位置に送信することができる。
【0017】
会議室などの環境は、通信システム100を利用して、例えば遠隔位置にいる人との通信を容易にすることができる。マイクロホン102のタイプ及び特定の環境におけるマイクロホンの配置は、音源の位置、物理的空間要件、美観、部屋のレイアウト、及び/又は他の考慮事項に依存することができる。例えば、一部の環境では、マイクロホンは、音源の近くのテーブル又は演台に配置することができる。他の環境では、マイクロホンは、例えば、頭上に取り付けられて部屋全体からの音を取り込むことができる。通信システム100は、任意のタイプ及び任意の数のマイクロホン102と連動して動作することができる。通信システム100に含まれる様々な構成要素は、プロセッサ及びメモリを備えたコンピューティングデバイスなどの1又は2以上のサーバ又はコンピュータにより、及び/又はハードウェア(例えば、個別論理回路、特定用途向け集積回路(ASIC)、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA))などにより実行可能なソフトウェアを使用して実装することができる。
【0018】
図3~
図5は、通信システム100及び音響エコーキャンセラ112を利用する方法の実施形態を示している。具体的には、
図3は、通信システム100を使用して音響エコーキャンセルを実行する処理300を示しており、
図4は、音響エコーキャンセラ112においてバックグラウンドフィルタ202及び隠しフィルタ204を実行する方法324を示しており、
図5は、音響エコーキャンセラ112において非線形プロセッサ212を条件付きで実行する方法312を示している。一般に、本実施形態によるコンピュータプログラム製品は、コンピュータ可読プログラムコードを具現化したコンピュータ使用可能記憶媒体(例えば、標準のランダムアクセスメモリ(RAM)、光ディスク、ユニバーサルシリアルバス(USB)ドライブ、又は同様のもの)を含み、このコンピュータ可読プログラムコードは、以下で説明する方法を実行するようにプロセッサによって実行される(例えば、オペレーティングシステムに関連して動作する)ようになっている。この関連で、プログラムコードは、任意の所望の言語で実装でき、マシンコード、アセンブリコード、バイトコード、解釈可能ソースコード、又は同様のもの(例えば、C、C++、Java(登録商標)、Actionscript(アクションスクリプト)、Objective-C、Javascript、CSS、XML、及び/又はその他を介する)として実装することができる。
【0019】
図1を参照すると、通信システム100は、マイクロホン102、ラウドスピーカ104、ミキサ106、スイッチ108、メモリ110、音響エコーキャンセラ112、高速フーリエ変換(FFT)モジュール114、116、118、及び逆高速フーリエ変換モジュール120を含むことができる。マイクロホン102の各々は、環境内の音を検出して、その音を音声信号に変換することができる。実施形態では、マイクロホン102からの音声信号の一部又は全部は、当技術分野で知られているように、ビームフォーマ(図示せず)によって処理されて、1又は2以上のビームフォーミング音声信号が生成できる。従って、本システム及び方法は、マイクロホン102からの音声信号を使用するものとして本明細書で説明されるが、本システム及び方法は、ビームフォーマによって生成されるビームフォーミング音声信号などの任意のタイプの音響源を利用することもできることが意図されている。
【0020】
マイクロホン102の各々からの音声信号は、
図3に示される処理300のステップ318などでミキサ106によって受信されて、ステップ326などで、ミキシング音声信号を生成することができる。ミキサ106によって生成されたミキシング音声信号は、特定のマイクロホンからの音声信号が強調され、他のマイクロホンからの音声信号が強調されない又は抑制されるように、所望の音声ミキシングに適合することができる。音声ミキサの例示的な実施形態は、同一出願人による特許である米国特許第4,658,425号及び米国特許第5,297,210号明細書に開示されており、これら各々の開示内容全体は、引用により本明細書に組み込まれる。ステップ326において生成されたミキシング音声信号は、ステップ328などで、高速フーリエ変換モジュール116を使用して周波数領域に変換することができる。
【0021】
並行して、マイクロホン102の各々からの音声信号は、ステップ320などで、高速フーリエ変換モジュール114によって周波数領域に変換することができる。ステップ322において、例えばスイッチ108などの信号選択機構が、これらの変換された音声信号のうちの1つを選択してそれを伝達することができる。信号選択機構は、例えばマイクロホン102からの音声信号又はビームフォーミング音声信号などの各音響源(又は音響源のサブセット)に関する情報を収集して、これらの音響源の全てのミキシングに対する適応を最適化することができる。スイッチ108が
図1に示されているが、他の信号選択機構、例えば、他のマイクロホン102からの音声信号の一部又は全部を減衰させることにより特定のマイクロホン102からの音声信号を選択できる第2のミキサが、考えられる。
【0022】
マイクロホン102からの音声信号の各々は、スイッチ108によって選択されて処理され、バックグラウンドフィルタ202及び隠しフィルタ204(音響エコーキャンセラ112内)が、一度に音声信号のうちの1つに対して作用するようになる。スイッチ108は、特定の持続時間内にマイクロホン102からの音声信号の各々に対する適応を可能にして、通信システム100が、ミキサ106のタイプ、ミキサ106の現在の状態、又はミキサ106が状態の変化を受けているか否かにかかわらず、エコーキャンセルを適切に実行できるようになる。ステップ324において、音響エコーキャンセラ112内のバックグラウンドフィルタ202及び隠しフィルタ204は、選択された音声信号に対して実行することができる。ステップ324については、
図4に関して以下でより詳細に説明する。
【0023】
図4は、音響エコーキャンセラ112においてバックグラウンドフィルタ202及び隠しフィルタ204を実行するステップ324の実施形態の更なる詳細を記載している。バックグラウンドフィルタ202は、ステップ402などで、選択された音声信号に対して正規化された最小二乗平均アルゴリズムを実行する有限インパルス応答フィルタとすることができ、環境内のマイクロホンmに関するサンプルnのインパルス応答の推定値
を生成することができる。バックグラウンドフィルタ202は更に、ステップ404などで、選択された音声信号のバックグラウンド誤りパワーを測定することができる。バックグラウンドフィルタ202は、遅延タップの有限級数をスケーリングするのに使用されるタップ係数hを有することができる。バックグラウンドフィルタ202は、次式に従って、選択された音声信号のバックグラウンド誤りe[n]を測定できる。
【数1】
ここで、d[n]は音声信号であり、x[n]はリモート音声信号からのサンプルのベクトルであり、
は、共役転置演算を示す。バックグラウンド誤りパワーは、二乗のバックグラウンド誤りの大きさの時間平均を使用することなどによって、バックグラウンド誤りe[n]に基づいて測定することができる。
【0024】
隠しフィルタ204は、リモート音声信号、及びバックグラウンドフィルタ202によって行われたエコー経路インパルス応答の以前の重み付けされていない推定値に対してステップ406において実行される有限インパルス応答フィルタとすることができる。重み付けされていない以前の推定値は、ミキシングフィルタ208(後述)内の選択された音声信号の重み付けされていない部分に対応する。隠しフィルタ204は、ステップ408などで、選択された音声信号からリモート音声信号を減算することによって、選択された音声信号の隠れ誤りを測定することができる。隠れ誤りパワーは、例えば、二乗隠れ誤りの大きさの時間平均を使用することによって、隠れ誤りに基づいて測定することができる。隠しフィルタ204は、遅延タップの有限級数をスケーリングするのに使用されるタップ係数hを有することができる。
【0025】
ステップ410において、誤り比較モジュール206は、ステップ404において測定されたバックグラウンド誤りパワーと、ステップ408において測定された隠れ誤りパワーとを比較することができる。誤り比較モジュール206は、ステップ410において、バックグラウンド誤りパワーが隠れ誤りパワーよりも大きいか否かを判定することができる。ステップ410において、バックグラウンド誤りパワーが隠れ誤りパワーよりも大きいと判定された場合に、処理324はステップ412に進むことができる。ステップ412において、バックグラウンドフィルタ202のタップ係数が選択されて、メモリ110に格納することができる。ステップ414において、ステップ412からの格納されたタップ係数は、メモリ110からコピーされて、隠しフィルタ204のタップ係数と置き換えるのに使用することができる。また、ステップ412からの格納されたタップ係数は、以下でより詳細に説明するように、ステップ414においてメモリ110からコピーされて、ミキシングフィルタ208のタップ係数を更新するのに使用することができる。
【0026】
ステップ414に続いて、処理324は、ステップ416に進むことができる。更に、ステップ410においてバックグラウンド誤りパワーが隠れ誤りパワーよりも大きくないと判定された場合、処理324は、ステップ416に進むことができる。ステップ416において、ミキサ106のチャンネルスケーリング因子αが変化したか否かを判定することができる。ミキサ106のチャンネルスケーリング因子は、自動的に又は手動で(例えば、ユーザ調整により)変更することができる。ステップ416において、ミキサ106のチャンネルスケーリング因子が変化している場合に、処理324は、ステップ418に進むことができる。ステップ418において、ミキシングフィルタ208のタップ重みは、以下でより詳細に説明するように、重みの差分にチャンネルインパルス応答推定値を乗算したものを加算することなどによって、変化したチャンネルスケーリング因子に対応して更新することができる。
【0027】
ステップ418に続いて、処理324は、ステップ420に進むことができる。更に、ステップ416においてミキサ106のチャンネルスケーリングが変更されていないと判定された場合に、処理324は、ステップ420に進むことができる。ステップ420において、バックグラウンドフィルタ202のタップ係数は、次式に従って更新することができる。
【数2】
ここで、αはステップサイズパラメータであり、*は、複素共役演算を示し、
は、l
2ノルムを示す。次に、処理324は、以下で説明するように、処理300、具体的にはステップ308に戻ることができる。
【0028】
図3の処理300に戻ると、音声信号は、マイクロホン102から受信され、処理300のステップ318から328及び処理324のステップ402から420において処理されるが、リモート音声信号は、ステップ302などで、遠隔位置、すなわち遠端から受信することができる。リモート音声信号は、ステップ304などで、環境内のラウドスピーカ104に出力することができる。ステップ306において、リモート音声信号は更に、高速フーリエ変換モジュール118を使用して周波数領域に変換することができる。この時点で、音響エコーキャンセラ112は、ミキサ106からのミキシング音声信号、スイッチ108からの選択された音声信号、及び遠隔位置(遠端)からのリモート音声信号を受信できることを理解することができる。ミキサ106からのミキシング音声信号、スイッチ108からの選択された音声信号、及びリモート音声信号の各々は、前述のように、それぞれのFFTモジュール114、116、118によって周波数領域に変換することができる。従って、音響エコーキャンセラ112は、音響エコーキャンセルがより高速で高品質に実行されるように、周波数領域で動作することができる。
【0029】
音響エコーキャンセラ112は、ステップ308においてミキシングフィルタ208を実行することができる。ミキシングフィルタ208は、マイクロホン102の全ての音声信号の有限インパルス応答の加重和とすることができ、以下のようになる。
【数3】
ここで、a
mは、特定のマイクロホン102のチャンネルスケーリング(重み又は利得)である。ミキシングフィルタ208は、遠端から受信したリモート音声信号を処理して、ミキサの出力において生成されるエコー信号の推定値であるフィルタリングされたリモート音声信号を生成する。具体的には、ミキシングフィルタモジュールは、マイクロホン102及びミキサ106によって検出されたエコー経路間の結合をモデル化する。
【0030】
前述のように、ステップ410において、バックグラウンド誤りパワーが隠れ誤りパワーよりも大きい場合に、ミキシングフィルタ208のタップ係数は、処理324のステップ414において、バックグラウンドフィルタのタップ係数によって更新することができる。このことが生じた場合には、次のサンプルn+1に対する加重和
は、次式で与えられる。
【数4】
ここで、m’は、特定のマイクロホン102の選択された音声信号である。
【0031】
同様に前述したように、ミキシングフィルタ208のタップ重みは、ステップ416においてミキサ106のチャンネルスケーリング因子が変化した場合に、処理324のステップ418において更新することができる。このことが生じた場合には、この更新は、重みの差分にチャンネルインパルス応答推定値
を乗算したものを加算することによって行うことができる。具体的には、次のサンプルn+1に対する加重和
は、次式で与えられる。
【数5】
【0032】
ステップ308において、ミキシングフィルタ208が、フィルタリングされたリモート音声信号を生成した後、処理300は、ステップ310に進むことができる。ステップ310において、音響エコーキャンセラ112により、エコーキャンセルされたミキシング音声信号を生成することができる。具体的には、ミキシングフィルタ208によって生成されフィルタリングされたリモート音声信号は、
図2に示されている加算点214で示されるように、ミキサ106からのミキシング音声信号から減算することができる。非線形プロセッサは、ステップ312において、ミキシングフィルタ208からのフィルタリングされたリモート音声信号のコヒーレンスと、加算点214から出力されエコーキャンセルされたミキシング音声信号の推定残余エコーパワーとに応じて、エコーキャンセルされたミキシング音声信号を処理することができる。ステップ312の詳細については、
図5に関して以下で説明される。
【0033】
図5は、音響エコーキャンセラ112内の非線形プロセッサ212を実行して、エコーが抑制されたミキシング音声信号を生成するステップ312の実施形態の更なる詳細を記載している。具体的には、ステップ310においてエコーキャンセルされたミキシング音声信号が生成された後、必要に応じて、非線形プロセッサ212を実行して、任意のエコーを更に抑制しコンフォートノイズ(例えば、合成バックグラウンドノイズ)を生成するか否かを判定することができる。非線形プロセッサ212は、例えば、遠隔位置(遠端)からの発話及び音のみが存在し、バックグラウンドフィルタ202及び隠しフィルタ204がまだ収束していない状況で実行することができる。
【0034】
ステップ502において、ミキシング推定器210が、ミキシングフィルタ208からのフィルタリングされたリモート音声信号の出力コヒーレンスを測定することができる。出力コヒーレンスは、フィルタリングされたリモート音声信号の周波数成分とマイクロホン102からの音声信号の周波数成分との間の関係の尺度である。ミキシング推定器210は、加算点214でのエコーキャンセルの前及び加算点214でのエコーキャンセルの後に、ミキサ106の出力からコヒーレンスを測定することができる。コヒーレンスが高い場合、これらの信号は、周波数領域において関連しているとみなすことができる。ステップ504において、ミキシング推定器210が、加算点214から出力されエコーキャンセルされたミキシング音声信号の残余エコーパワーを推定することができる。非線形プロセッサ212は、(1)出力コヒーレンスが所定の閾値よりも大きい場合(例えば、エコー信号のみがマイクロホン102に存在することを示す場合)、又は(2)残余エコーパワーが、ミキサ106からのミキシング音声信号のパワーの半分よりも大きい場合に、ステップ508においてエコーキャンセルされたミキシング音声信号を処理して、エコーが抑制されたミキシング音声信号を生成することができる。ステップ508に続いて、処理312は、処理300のステップ314に進むことができる。しかしながら、これらの条件のいずれも満たされない場合には、処理312は、ステップ506から処理300のステップ314に進むことができる。
【0035】
図3に戻ると、ステップ314において、(1)ステップ310において生成されエコーキャンセルされたミキシング音声信号(ステップ312において、非線形プロセッサ212が実行されなかった場合)、又は(2)ステップ508において生成されエコーが抑制されたミキシング音声信号(ステップ312において、非線形プロセッサ212が実行された場合)は、時間領域に変換することができる。結果のエコーキャンセルされた又はエコーが抑制された音声信号は、ステップ316において遠隔位置(遠端)に送信することができる。処理300は、ステップ322に戻って、前述のように、マイクロホン102からの音声信号のうちの別のものを選択してそれを伝達して、ステップ324及び308から316において処理することができる。このようにして、複数のマイクロホン102の各々からの音声信号からの情報は、エコーキャンセルされた又はエコーが抑制された音声信号を生成するときに利用することができる。
【0036】
何らかの処理の説明又は図中のブロックは、処理における特定の論理関数又はステップを実行するための1又は2以上の実行可能命令を含むモジュール、セグメント、又はコードの一部分を表すと理解すべきであり、当業者であれば理解されるように、機能が、関連する機能に応じて、実質的に同時の又は逆の順番を含む、図示又は説明したものと異なる順番で実行できる別の実装形態は、本発明の実施形態の範囲内に含まれる。
【0037】
本開示内容は、様々な実施形態を本発明の技術に従ってどのように構成して使用するかについて説明することを意図するものであり、本発明の真の、意図した、公正な範囲及び趣旨を限定するものではない。上述の説明は、網羅的であること、又は開示される厳密な形態に限定されることを意図するものではない。上記教示を考慮すると、変更又は変形が可能である。実施形態は、説明した技術の原理及びその実用的な適用例の最適な説明をもたらし、また、当業者が、当該技術を、様々な実施形態で、かつ想定される具体的な用途に適した様々な変更を伴って利用できるように、選択されて説明されている。かかる全ての変更例及び変形例は、本特許出願の係属中に補正される可能性のある添付の特許請求の範囲により定められる実施形態、及び、当該実施形態が、公正に、慣習法上かつ衡平法上受ける資格のある権利の幅に従って解釈された場合の当該実施形態の全ての均等例、の範囲内に含まれる。
【符号の説明】
【0038】
106 ミキサ
108 スイッチ
110 メモリ
114、116、118 高速フーリエ変換モジュール
112 音響エコーキャンセラ
120 逆高速フーリエ変換モジュール