(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-10
(54)【発明の名称】エコー残留抑制
(51)【国際特許分類】
G10L 21/0216 20130101AFI20230428BHJP
H04B 3/23 20060101ALI20230428BHJP
【FI】
G10L21/0216
H04B3/23
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022557771
(86)(22)【出願日】2021-03-19
(85)【翻訳文提出日】2022-11-21
(86)【国際出願番号】 US2021023059
(87)【国際公開番号】W WO2021194859
(87)【国際公開日】2021-09-30
(32)【優先日】2020-03-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-02-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100101683
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【氏名又は名称】村瀬 成康
(72)【発明者】
【氏名】ワン,ニィン
【テーマコード(参考)】
5K046
【Fターム(参考)】
5K046AA01
5K046BA06
5K046BB01
5K046HH11
5K046HH56
5K046HH61
5K046HH69
5K046HH79
(57)【要約】
音声処理方法は、推定パワーゲイン特性によって示されるエコーキャンセレーションの長期間にわたる量に基づいて推定エコー残留パワーを計算することを含む。推定パワーゲイン特性は、基準信号およびエコー残留信号に基づく。次いで、エコー残留のエコーサプレッションは、推定エコー残留パワーに基づいて行われ得る。
【特許請求の範囲】
【請求項1】
コンピュータに実装された音声処理方法であって、
基準信号およびエコー残留信号を受け取る工程と、
周波数帯域化を前記基準信号および前記エコー残留信号に対して行うことによって、それぞれ帯域化基準信号および帯域化エコー残留信号を生成する工程と、
前記帯域化基準信号および前記帯域化エコー残留信号に基づいて、音響エコーキャンセラの推定パワーゲイン特性およびループバックパワーを計算する工程であって、前記ループバックパワーは、前記帯域化基準信号の履歴値の組み合わせに対応する、工程と、
前記帯域化エコー残留信号、前記ループバックパワーおよび前記推定パワーゲイン特性に基づいて、推定エコー残留パワーを計算する工程と、
前記帯域化エコー残留信号および前記推定エコー残留パワーに基づいて、複数の帯域化ゲインを計算する工程と、
前記複数の帯域化ゲインを前記エコー残留信号に適用することによって変更エコー残留信号を生成する工程と、
を包含する方法。
【請求項2】
前記基準信号をスピーカによって出力する工程
をさらに包含する請求項1に記載の方法。
【請求項3】
近端音声をマイクロフォンによってキャプチャする工程と、
前記近端音声に対応する近端音声信号を生成する工程と、
前記近端音声信号に対してエコーキャンセレーションを行うことによって前記エコー残留信号を生成する工程と、
をさらに包含する請求項1または2に記載の方法。
【請求項4】
前記変更エコー残留信号を遠端デバイスに送信する工程
をさらに包含する請求項1から3のいずれか1項に記載の方法。
【請求項5】
前記エコー残留信号は、複数の周波数ビンを有し、前記帯域化エコー残留信号は、複数の周波数帯域を有し、かつ、前記帯域化エコー残留信号を生成する工程は、
前記エコー残留信号に対して等価矩形帯域幅帯域化を行うことによって前記帯域化エコー残留信号を生成する工程であって、前記等価矩形帯域化は、人間の聴覚の心理音響モデルにしたがって、前記複数の周波数ビンを前記複数の周波数帯域に統合する、工程
を含む、請求項1から4のいずれか1項に記載の方法。
【請求項6】
前記推定パワーゲイン特性を計算する工程は、
優位適応フィルタタップファインダによって、複数の適応フィルタの複数の優位タップを計算する工程であって、前記複数の優位タップは、前記複数の適応フィルタのうちの他のタップと比較して、より大きな重み寄与分を前記複数の適応フィルタに与える、工程と、
前記複数の優位タップのうちの2つの優位タップおよび前記帯域化基準信号の履歴を使用して、前記帯域化基準信号の前記ループバックパワーを計算する工程と、
前記帯域化基準信号に基づくヒストグラムを使用して、前記推定パワーゲイン特性を計算する工程と、
を含む、請求項1から5のいずれか1項に記載の方法。
【請求項7】
前記推定パワーゲイン特性は、平均および分散を含む、
請求項6に記載の方法。
【請求項8】
前記ループバックパワーは、複数の帯域にわたって計算され、前記推定エコー残留パワーを計算する工程は、
前記複数の帯域のうちの各帯域に対してエコーキャンセラのパワーゲインを、前記推定パワーゲイン特性によってパラメータ化されたガウスランダム変数としてモデル化することによって、各帯域に対して前記ループバックパワーに応じて前記推定エコー残留パワーを計算する工程を含む、請求項1から7のいずれか1項に記載の方法。
【請求項9】
前記複数の帯域化ゲインを計算する工程は、前記エコー残留信号におけるローカルトークの尤度に基づいて、前記複数の帯域化ゲインを選択的に計算する工程を含み、前記ローカルトークは、請求項1から8のいずれか1項に記載の方法を実装するデバイスによってキャプチャされた音声に対応する、請求項1から8のいずれか1項に記載の方法。
【請求項10】
前記エコー残留信号におけるローカルトークの尤度は、前記エコー残留信号を、複数の帯域にわたって適用されたガウス混合モデルとしてモデル化することによって計算される、請求項9に記載の方法。
【請求項11】
前記エコー残留信号におけるローカルトークの尤度は、複数の周波数帯域にわたって合計された前記推定パワーゲイン特性の平均および分散に基づくlog尤度である、請求項9に記載の方法。
【請求項12】
前記複数の帯域化ゲインを計算する工程は、前記複数の周波数帯域にわたってグローバル最大抑制ゲインを計算する工程を含む、請求項9に記載の方法。
【請求項13】
前記グローバル最大抑制ゲインを計算する工程は、前記ローカルトークが存在することに対応する第1のゲイン、前記ローカルトークが存在しないことに対応する第2のゲイン、および前記ローカルトークの尤度に基づく、請求項12に記載の方法。
【請求項14】
前記エコー残留信号は、複数の周波数ビンを有し、前記複数の帯域化ゲインのうちの所与の帯域化ゲインは、前記複数の周波数ビンのうちの所与の周波数ビンに対応し、かつ、前記変更エコー残留信号を生成する工程は、
前記エコー残留信号の前記複数の周波数ビンのうちのそれぞれに対して、前記複数の帯域化ゲインのうちの対応する帯域化ゲインを適用して、前記変更エコー残留信号を生成する工程
を含む、請求項1から13のいずれか1項に記載の方法。
【請求項15】
プロセッサによる実行時に、請求項1から14のいずれか1項に記載の方法を含む処理を実行するように装置を制御するコンピュータプログラムを記憶する非一時的コンピュータ読取可能媒体。
【請求項16】
音声処理装置であって、前記装置は、
プロセッサ
を備え、
前記プロセッサは、基準信号およびエコー残留信号を受け取るように前記装置を制御するように構成され、
前記プロセッサは、周波数帯域化を前記基準信号および前記エコー残留信号に対して行うことによって、それぞれ帯域化基準信号および帯域化エコー残留信号を生成するように前記装置を制御するように構成され、
前記プロセッサは、前記帯域化基準信号および前記帯域化エコー残留信号に基づいて、音響エコーキャンセラの推定パワーゲイン特性およびループバックパワーを計算するように前記装置を制御するように構成され、前記ループバックパワーは、前記帯域化基準信号の履歴値の組み合わせに対応し、
前記プロセッサは、前記帯域化エコー残留信号、前記ループバックパワーおよび前記推定パワーゲイン特性に基づいて、推定エコー残留パワーを計算するように前記装置を制御するように構成され、
前記プロセッサは、前記帯域化エコー残留信号および前記推定エコー残留パワーに基づいて、複数の帯域化ゲインを計算するように前記装置を制御するように構成され、かつ、
前記プロセッサは、前記複数の帯域化ゲインを前記エコー残留信号に適用することによって変更エコー残留信号を生成するように前記装置を制御するように構成される、装置。
【請求項17】
前記基準信号を出力するように構成されたスピーカ
をさらに備える請求項16に記載の装置。
【請求項18】
近端音声をキャプチャするように構成されたマイクロフォン
をさらに備え、
前記プロセッサは、前記近端音声に対応する近端音声信号を生成するように前記装置を制御するように構成され、
前記プロセッサは、前記近端音声信号に対してエコーキャンセレーションを行うことによって前記エコー残留信号を生成するように前記装置を制御するように構成される、請求項16または17に記載の装置。
【請求項19】
前記装置は、前記変更エコー残留信号を遠端デバイスに送信するように構成される、請求項16から18のいずれか1項に記載の装置。
【請求項20】
前記ループバックパワーは、複数の帯域にわたって計算され、
前記プロセッサは、前記複数の帯域のうちの各帯域に対してエコーキャンセラのパワーゲインを、前記推定パワーゲイン特性によってパラメータ化されたガウスランダム変数としてモデル化することによって、各帯域に対して前記ループバックパワーに応じて前記推定エコー残留パワーを計算するように前記装置を制御するように構成される、請求項16から19のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2020年3月23日付け出願の米国仮特許出願第62/993,149号および2021年2月25日付け出願の米国仮特許出願第63/153,523号に基づく優先権を主張するものであり、各出願の開示内容をすべて本願に援用する。
【0002】
本開示は、音声処理に関し、より具体的には、エコーサプレッション(echo suppression)に関する。
【背景技術】
【0003】
本明細書において特に断らない限り、本節に記載のアプローチは、本出願の特許請求の範囲に対して従来技術とはならず、かつ、本節に含まれるからといって従来技術と認めるわけではない。
【0004】
音声会議システムなどの遠隔通信デバイスは、一般に、スピーカおよびマイクロフォンの両方を含む。通信における双方の話者(party)は、近端話者(near end party)および遠端話者(far end party)と呼ばれることがある。近端話者は、第1の遠隔通信デバイスに近く、遠端話者は、近端話者とは異なる位置にて、第2の遠隔通信デバイスを使用し、有線または無線遠隔通信ネットワークを介して通信を行う。近端デバイスのマイクロフォンは、近端話者の音声をキャプチャするだけでなく、近端におけるスピーカから出力された遠端話者の音声もキャプチャし得る。マイクロフォンによってキャプチャされるスピーカからの出力は、一般に、エコーと呼ばれる。近端遠隔通信デバイスは、一般に、近端においてキャプチャされた音声を遠端に送信する前にエコーを低減するためのエコー管理システムを含む。
【0005】
エコー管理システムは、一般に、エコーキャンセレーションシステムと、その後段のエコーサプレッションシステムとを含む。エコーキャンセレーションシステムは、線形システムであり、典型的には、適応フィルタを含み得る。エコーキャンセレーション後に音声信号に残るエコーは、一般に、「エコー残留」と呼ばれる。エコーサプレッションシステムは、非線形システムであり、エコー残留を低減するために、音声信号をさらに減衰させようとする。エコーサプレッションシステムによって行われる減衰は、異なるゲインを異なる周波数または周波数帯域に適用し得るという点で非線形と呼ばれる。
【0006】
遠隔通信デバイスは、一般に、物理的エコーリターンロス(例えば、スピーカとマイクロフォンとの距離による)、エコーキャンセレーションおよびエコーサプレッションの寄与に基づく、合わせておよそ50dBのエコー低減を実現する。
【発明の概要】
【発明が解決しようとする課題】
【0007】
要旨
既存のエコー管理システムの問題点の1つは、音声会議またはビデオ会議などの遠隔通信用にラップトップコンピュータを使用することが多くなってきていることである。ラップトップコンピュータにおいては、スピーカとマイクロフォンとが非常に近接しているので、目標である50dBのエコー低減を達成することが困難となる。上記を鑑み、エコー残留を低減するためにエコーサプレッションシステムを改善することが求められている。
【課題を解決するための手段】
【0008】
一実施形態によると、コンピュータに実装された音声処理方法は、基準信号およびエコー残留信号を受け取る工程を含む。方法は、帯域化を基準信号およびエコー残留信号に対して行うことによって、それぞれ帯域化基準信号および帯域化エコー残留信号を生成する工程をさらに含む。方法は、帯域化基準信号および帯域化エコー残留信号に基づいて、推定パワーゲイン特性(profile)およびループバックパワーを計算する工程をさらに含む。方法は、帯域化エコー残留信号、ループバックパワーおよび推定パワーゲイン特性に基づいて、推定エコー残留パワーを計算する工程をさらに含む。方法は、帯域化エコー残留信号および推定エコー残留パワーに基づいて、複数の帯域化ゲインを計算する工程をさらに含む。方法は、複数の帯域化ゲインをエコー残留信号に適用することによって変更エコー残留信号を生成する工程をさらに含む。
【0009】
他の実施形態によると、装置は、スピーカ、マイクロフォンおよびプロセッサを含む。プロセッサは、本明細書に記載の方法のうちの1つ以上を実施するように装置を制御するように構成される。装置は、本明細書に記載の方法のうちの1つ以上と同様の詳細をさらに含み得る。
【0010】
他の実施形態によると、非一時的コンピュータ読取可能媒体は、プロセッサによる実行時に、本明細書に記載の方法のうちの1つ以上を含む処理を実行するように装置を制御するコンピュータプログラムを記憶する。
【0011】
以下の詳細な説明および添付の図面によって、種々の実装例の性質および利点がさらに理解される。
【図面の簡単な説明】
【0012】
【
図1】
図1は、エコー管理システム100のブロック図である。
【0013】
【
図2】
図2は、エコーキャンセラ201(
図1を参照)のブロック図である。
【0014】
【
図3】
図3は、エコーサプレッサ301(
図1を参照)のブロック図である。
【0015】
【
図4】
図4は、ループバックパワー計算器400のブロック図である。
【0016】
【
図5】
図5は、ループバックパワーX(チルダ付き)(b,t')と適応フィルタのエラー(エコー残留)伝達関数H(チルダ付き)(b,t')との関係のヒストグラムである。
【0017】
【
図6】
図6は、確率密度関数Pr(x│E
c)を例示するグラフである。
【0018】
【
図7】
図7は、一実施形態にかかる、本明細書に記載の特徴および処理を実施するための移動型デバイスアーキテクチャ700である。
【0019】
【
図8】
図8は、音声処理方法800のフローチャートである。
【発明を実施するための形態】
【0020】
本明細書において、エコーサプレッションに関する技術を記載する。以下に、説明を目的として、本開示を完全に理解するために、多くの例および具体的な詳細を記載する。しかし、特許請求の範囲に定義される本開示がこれらの例における特徴のうちの一部または全部を単独で、または、下記の他の特徴と組み合わせて含み得ることや、本明細書に記載の特徴および概念の変更または均等物をさらに含み得ることが当業者には明らかとなるであろう。
【0021】
以下に、種々の方法、処理および手順を詳述する。特定の工程をある順番で記載することがあるが、そのような順番は、主に記載を簡便および明瞭にするためである。特定の工程が1回よりも多く繰り返されてもよく、他の工程の前または後に生じてもよく(これら工程が他の順番で記載された場合においても)、および他の工程と並列に生じてもよい。第2の工程は、第1の工程が第2の工程の開始前に完了していなければいけない場合のみ第1の工程の後に行われることが要求される。そのような状況が文脈から明らかでない場合は、具体的に指摘する。
【0022】
本明細書において、用語「および」、「または」および「および/または」を使用する。そのような用語は、包含の意味を有するように読まれる。例えば、「AおよびB」は、少なくとも以下を意味し得る。「AおよびBの両方」、「少なくともAおよびBの両方」。別の例として、「AまたはB」は、少なくとも以下を意味し得る。「少なくともA」、「少なくともB」、「AおよびBの両方」、「少なくともAおよびBの両方」。別の例として、「Aおよび/またはB」は、少なくとも以下を意味し得る。「AおよびB」、「AまたはB」。排他的論理和を意図する場合は、そのことを具体的に記載する(例えば、「AまたはBの一方」、「AおよびBのうちのたかだか1つ」)。
【0023】
本明細書は、ブロック、素子、コンポーネント、回路などの構造に関連する種々の処理機能を記載する。一般に、これらの構造は、1つ以上のコンピュータプログラムによって制御されるプロセッサによって実装され得る。
【0024】
以下に、エコー管理のための種々の実施形態の概要を簡単に記載する。システムは、まず、各帯域に対してエコーキャンセラのパワーゲインをガウス分布ランダム変数としてモデル化することによって、入力信号の各帯域におけるエコー残留パワーを推定する。ガウス分布ランダム変数の平均および分散は、ループバックパワーおよびゲイン特性推定に依存する。次に、システムは、各帯域および各異なる入力レベルに対して統計的ゲイン特性を推定する。システムは、統計的ゲイン特性を使用して、入力レベルを複数のセグメントに量子化する。次に、システムは、広帯域エコー残留をガウス混合モデルとしてモデル化し、そして、ローカルトーク(local talk)の尤度を計算する。最後に、ローカルトークの尤度に応じて、システムは、異なる最大抑制を入力信号の帯域に適用する。以下に、さらなる詳細を記載する。
【0025】
図1は、エコー管理システム100のブロック図である。エコー管理システム100は、概して、遠端デバイスへ送信する前に、近端デバイスによってキャプチャされた音声からエコーを除去する。例えば、遠端からの音声が近端デバイスによって受信され、そして近端デバイスのスピーカから出力される場合、「エコー」は、スピーカから出力されたこの音声であって、近端デバイスのマイクロフォンによってキャプチャされるものに対応する。エコー管理システム100は、分析フィルタバンク101、エコーキャンセラ201、エコーサプレッサ301および合成フィルタバンク111を含む。
【0026】
分析フィルタバンク101は、基準信号120(
とも表記する)およびキャプチャ信号122(
とも表記する)を受信し、変換を行い、変換基準信号130(
)とも表記する)および変換キャプチャ信号132(
とも表記する)を生成する。基準信号120は、遠端デバイスから受信され、そして近端デバイスのスピーカによって出力される信号に対応する。キャプチャ信号122は、近端デバイスのマイクロフォンによってキャプチャされた音声に対応する。この音声は、ローカルトーク(例えば、近端デバイスに対応づけられる人物の音声)およびスピーカの出力のエコー(例えば、遠端デバイスに対応づけられる人物の音声)を含み得る。
【0027】
上記変換は、概して、入力信号をある領域から別の領域に変換することに対応する(例えば、時間領域から周波数領域への変換)。分析フィルタバンク101は、基準信号120およびキャプチャ信号122に対してフィルタリングおよびデシメーションを行って、変換基準信号130および変換キャプチャ信号132を生成する。例えば、分析フィルタバンク101は、
に対してフィルタリングおよびデシメーションを行って、
を生成する。ここで、
は、サブ帯域フィルタ指数を示し、
は、デシメーション後の新たな時間変数を示す。同様に、分析フィルタバンク101は、
に対してフィルタリングおよびデシメーションを行って、
を生成する。
【0028】
パラメータkは、必要に応じて、所与の入力信号帯域幅に対して変換ビン(bin)のファインネス(fineness)を調節するように調節され得る。例えば、基準信号120(または、キャプチャ信号122)の共通帯域幅は、4kHz、8kHz、12kHz、16kHz、24kHzなどであってもよく、対応するサンプリングレートは、8kHz、16kHz、24kHz、32kHz、48kHzなどである。変換ビン帯域幅が25Hzの場合、変換(例えば、高速フーリエ変換)を行うときは、kは、4kHz信号に対して160ビン、24kHz信号に対して960ビンなどであり得る。
【0029】
エコーキャンセラ201は、変換基準信号130および変換キャプチャ信号132を受け取り、エコーキャンセレーションを行って、エコー残留信号140(
とも表記する)を生成する。一般に、エコーキャンセレーションは、
に基づいて線形フィルタリングを
に適用して、
を生成することを意味する。エコーキャンセラ201は、典型的には、適応フィルタを実装する。
図2を参照して、エコーキャンセラ201をさらに詳細に説明する。エコー残留信号140は、エコーキャンセレーションを変換キャプチャ信号132に適用した結果生じるので、「エコー残留信号」と称される。エコーキャンセレーション後であって、エコーサプレッションの前に信号に残存するエコーが「残留エコー」である。
【0030】
エコーサプレッサ301は、変換基準信号130およびエコー残留信号140を受け取り、エコーサプレッションを行うことにより、変更エコー残留信号150(
とも表記する)を生成する。一般に、エコーサプレッションとは、
に基づいて非線形減衰を
に適用して、変更エコー残留信号
を抑制信号として生成することを意味する。
図3を参照して、エコーサプレッサ301をさらに詳細に説明する。
【0031】
合成フィルタバンク111は、変更エコー残留信号150を受け取り、逆変換を行って、変更キャプチャ信号160(
とも表記する。これは、時間領域信号である)を生成する。逆変換は、概して、分析フィルタバンク101によって行われる変換の逆変換に対応する。次いで、変更キャプチャ信号160は、近端デバイスから遠端デバイスに送信され得る。
【0032】
エコー管理システム100に対して、例えば式(1)を使用して、エコーは、線形フィルタを再生信号に適用することとしてモデル化できる。
【数1】
(1)
【0033】
式(1)において、
は、キャンセル対象のエコーに対応し、
は、スピーカ-室内-マイクロフォンインパルス応答(スピーカおよびマイクロフォンを有する近端デバイスが位置する部屋)のモデルに対応し、
は、基準信号120に対応し、
は、ノイズに対応する。
【0034】
アップリンクボイスがない(例えば、近端においてローカルトークがなく、かつ、マイクロフォンがスピーカ出力のエコーだけをキャプチャする。アップリンクボイスはまた、近端ボイスと称され得る)場合、式(2)を得る。
【数2】
(2)
【0035】
式(1)および(2)において、
は、最小平均二乗(LMS)処理、正規化最小平均二乗(NLMS)処理、再帰最小二乗(RLS)処理などの種々の手法によって推定され得る。
【0036】
その音響的性質のため、典型的な室内インパルス応答は、数千を超えるタップを有し、したがって、適応フィルタは、大量の計算リソースを必要とし得る。これは、ラップトップおよびデスクトップコンピュータにとって非常に望ましくなく、計算を低減させるために、フィルタバンク101を使用してサブ帯域適応フィルタを実装する。
【0037】
図2は、エコーキャンセラ201(
図1を参照)のブロック図である。エコーキャンセラ201は、分析ビンの個数に対応する複数の適応フィルタ(例えば、k個の適応フィルタ)を含む。2つの適応フィルタ251および252を図示する。適応フィルタ251は、
および
を受け取り、適応フィルタH
0を適用して、
を生成する。適応フィルタ252は、
および
を受け取り、適応フィルタH
kを適用して、
を生成する。エコーキャンセラ201内のその他の適応フィルタ(図示せず)は、残りのk-1個の成分を生成する。X、Y、およびVは、それぞれ、変換基準信号130、変換キャプチャ信号132、およびエコー残留信号140(
図1を参照)に対応し、これらの信号は、それぞれのビンに対応し、ビンに対応する接尾辞を用いて表記される(例えば、基準信号130の0番目のビンに対して「130-0」、k番目のビンに対して「130-k」など)。フィルタ応答Hは、変換領域において室内インパルス応答
に対応する。
【0038】
フィルタバンク101によって実装されたサブ帯域適応フィルタは、アルゴリズムの複雑性を大きく低減できるが、フィルタ間でスペクトルが重複するので、エコーキャンセラ201の性能が劣化する。この問題に対処するために、閉ループサブ帯域適応フィルタが提案されるが、実際には複雑性が大きく増大するので、音響エコーキャンセレーションに対しては、開ループサブ帯域適応フィルタ(
図2)がなおも一般に採用される技術である。
【0039】
図3は、エコーサプレッサ301(
図1を参照)のブロック図である。上記のように、開ループサブ帯域適応フィルタは、声によるコミュニケーションを良好に行うことを可能にするためにエコーを50dBの量にまでキャンセルするための実用的な(ただし十分ではない)解決策である。音声呼び出し期間の大部分において、全二重通信(例えば、ダブルトーク、両端が話をしている)が生じることは、まれであるが、それが生じるときは、いずれのアクティブな話者も相手側の音声を理解することを期待していず、単に中断させようと思っているにすぎない。このことに基づいて、エコーキャンセレーション後に非線形エコーサプレッションを適用すれば、エコーをさらに抑制できるが、近端話者のアップリンクボイスが遠端話者をさえぎることも可能になる。
【0040】
上記を鑑み、三参加者によるマルチエンド呼び出し中は、サプレッサがエコー残留を多く通過させすぎると、さえぎられている参加者にとってはそうでないかもしれないが、第三の話者(つまり二重の状況におけるアクティブな二話者でない者)にとっては、使用感は良くないであろう。したがって、良好なサプレッサとしては、エコー残留をなるべく多く抑制(suppress)しながらも、アップリンクボイスをなるべく多く通過させるのがよい。この目的は、線形演算に対しては、エコーキャンセラ201などの適応フィルタによってのみ可能となる。
【0041】
これらの問題に対処し、さらなるエコー管理を提供するために、エコーサプレッサ301は、エコーサプレッションを行うために、エコー残留について固有の統計を使用する。エコーサプレッサ301は、帯域化コンポーネント311、パワーゲイン特性推定器312、エコー残留推定器313、ゲイン計算器314および信号コンバイナ310を含む。
【0042】
帯域化コンポーネント311は、変換基準信号130(
とも表記する)およびエコー残留信号140(
とも表記する)を受け取り、周波数帯域化を行うことによって、帯域化基準信号320(
とも表記する)および帯域化エコー残留信号322(
とも表記する)を生成する。一般に、「帯域化(banding)」とは、信号の複数のサブ帯域または周波数ビンをグループ化または統合することにより、帯域を形成することを意味する。得られる帯域の個数は、元のサブ帯域の個数または周波数ビンの個数よりも少なくなる。例えば、帯域化は、複数のサブ帯域または周波数ビンを合計して帯域を形成することによって行われてもよく、乗算、絶対値計算、マグニチュード計算などのさらなる演算を含んでもよい。帯域化コンポーネント311は、式(3)にしたがって、エコー残留信号140の帯域化を行って、帯域化エコー残留信号322を生成し得る。
【数3】
(3)
【0043】
帯域化コンポーネント311は、式(4)にしたがって変換基準信号130の帯域化を行うことにより、帯域化基準信号320を生成し得る。
【数4】
(4)
【0044】
式(3)および(4)において、B(b)は、帯域bに対応付けられた1セットのビンkに対応し、帯域化の出力は、各特定の帯域に対して、信号パワーに対応する。帯域化は、等価矩形帯域幅(equivalent rectangular bandwidth(ERB))帯域化であり得る。ERB帯域化は、人間の聴覚の心理音響モデルに対応し、より大きな帯域幅をより低い周波数に対応付ける。例えば、ビンkの個数は、960ビンであってもよく、帯域bの個数は、61であってもよく、各帯域bは、複数個のビンkに対応付けられる。ここで、より高い周波数帯域よりも、より低い周波数帯域により多くのビンが対応付けられる。
【0045】
パワーゲイン特性推定器312は、帯域化基準信号320および帯域化エコー残留信号322を受け取り、パワーゲイン特性を推定して、推定パワーゲイン特性324およびループバックパワー420(
とも表記する。
図4を参照)を生成する。推定パワーゲイン特性324は、エコーキャンセラ201(
図1を参照)などの音響エコーキャンセラのパワーゲイン特性の推定値に対応する。パワーゲイン特性推定器312はまた、ダブルトークの存在を示す制御信号326を受け取り得る。ダブルトークは、遠端話者および近端話者の両方が同時に話をしている状況(例えば、遠端音声が基準信号120にしたがって示され、近端音声がキャプチャ信号122によって示され、かつ近端音声は近端においてスピーカによって出力されマイクロフォンによってキャプチャされた遠端音声のエコーを含んでいる)を意味する。
【0046】
エコーキャンセラ201が定常状態に達し、かつ、アップリンクボイスがない(例えば、制御信号326にしたがってダブルトークが不在であること、かつ、基準信号120にしたがってエコーが存在することによって示される)場合、式(5)にしたがって表されるエコー残留信号140(
)とも表記する)が得られる。
【数5】
(5)
【0047】
式(5)において、
は、実際のスピーカ-室内-マイク応答にマッチングしない適応フィルタのエラー応答である。なお、
は、入力
に依存するので、
もまた当該入力に依存する。そして、適応フィルタ
は、複数のタップを有するので、現在の残留パワー
は、現在の入力パワーだけでなく、前回の入力パワーにも依存し得る。言い換えると、エコー残留
は、線形時間不変(LTI)系出力にはならない。
【0048】
簡単かつ実際の実装のために、式(6)にしたがって残留のパワーをモデル化する。
【数6】
(6)
【0049】
図4~5を参照して、パワーゲイン特性推定器312をさらに詳細に説明する。
【0050】
図4は、ループバックパワー計算器400のブロック図である。ループバックパワー計算器400は、パワーゲイン特性推定器312のコンポーネントであり得る(
図3を参照)。ループバックパワー計算器400は、概して、帯域化基準信号320(
図3を参照。
とも表記する)のループバックパワー420(
とも表記する。また、
図3を参照)を計算する。概して、ループバックパワー420は、帯域化基準信号320の履歴値の重み付け組み合わせに対応する。これについてのより完全な説明は後述する。ループバックパワー計算器400は、優位(dominant)適応フィルタタップファインダ410、メモリ412、乗算器414および416、ならびに加算器418を含む。
【0051】
優位適応フィルタタップファインダ410は、フィルタ係数402(
図2のエコーキャンセラ201における適応フィルタH
kのフィルタ係数に対応する)を受け取り、2つの優位タップを決定して、優位タップの重みw
0およびw
1を乗算器414および416に与える。優位タップは、適応フィルタに対して、他のタップよりも大きな重み寄与分を与えるタップである。優位適応フィルタタップファインダ410は、すべてのサブ帯域にわたって、H
kに対応するフィルタ係数402を使用する。重みw
0およびw
1は、相対的重みであってもよい。
【0052】
メモリ412は、帯域化基準信号
の履歴を記憶する。メモリ412は、帯域化基準信号の現在値
および帯域化基準信号の1つ以上の前回値
、
、...、
を記憶するための複数のメモリ素子を有する。具体的な例として、
図2に、4つのメモリ素子を備えるメモリ412を示す。
【0053】
乗算器414は、メモリ412に記憶された帯域化基準信号320の履歴値のうちの1つと重みw
0とを乗算し、乗算器416は、メモリ412に記憶された帯域化基準信号320の履歴値のうちの別の1つと重みw
1とを乗算する。加算器418は、乗算器414および416の結果を加算する。これにより、ループバックパワー
は、式(7)にしたがって計算され得る。
【数7】
(7)
【0054】
式(7)において、n
0およびn
1は、それぞれ優位タップw
0およびw
1に対応する遅延指数である。
図4に示す例において、n
0は、2であり、n
1は、0である。
【0055】
入力パワーが特定の帯域において大きくなるにつれ(ループバックパワー
に対応する)、
も絶対値がより大きくなりやすい。この関係を
図5においてさらに詳述する。
【0056】
図5は、ループバックパワー
(
図3~4においてループバックパワー420とも呼ぶ)と適応フィルタのエラー(エコー残留)伝達関数
との関係のヒストグラムである。
図5から分かるように、入力パワーが特定の帯域において大きくなるにつれ(特定の帯域においてループバックパワー
に対応する)、
も絶対値がより大きくなりやすい。他方、帯域が主にノイズを含む場合は、ノイズがキャンセルされないので、
は、小さくなりやすい。
【0057】
図3を再度参照する。パワーゲイン特性推定器312は、ヒストグラムである
図5の関係を使用して、各帯域に対してゲイン特性を推定する。推定パワーゲイン特性324は、
の平均
および分散
として表され得る。(平均および分散は、以下の段落では、記載を簡単にするために
および
と表記する。)要するに、パワーゲイン特性推定器312は、エコー残留信号(例えば、エコー残留信号140)の統計を入力信号(例えば、基準信号130)の履歴と組み合わせて使用して、パワーゲイン特性を推定する。
【0058】
パワーゲイン特性推定器312は、制御信号326(例えば、ダブルトークインジケータ)を使用してゲイン特性を更新する。具体的には、パワーゲイン特性推定器312は、制御信号326によって示されるように、アップリンク(近端)ボイスが存在しないことが信頼(confidence)できる場合のみゲイン特性を更新する。制御信号326は、種々の方法で生成されてもよく、例えば、ダブルトーク検出器によって、または、確率的方法を使用して、生成されてもよい。確率的方法の例は、一旦基準信号が第2の閾値よりも長い期間にわたり第1の閾値を超えていた場合に、ランダムな時点で推定を更新することである。
【0059】
エコー残留推定器313は、帯域化エコー残留信号322(
とも表記する)、ループバックパワー420(
とも表記する)および推定パワーゲイン特性324(
の平均および分散、
および
と表記する)を受け取り、推定エコー残留パワー328(
とも表記する)を計算する。エコー残留推定器313は、推定パワーゲイン特性324およびループバックパワー420の組み合わせに基づいて、推定エコー残留パワー328を計算してもよい。エコー残留推定器313は、帯域化エコー残留信号322、ループバックパワー420および推定パワーゲイン特性324の組み合わせに適用される最小限の演算器(minimum operator)を使用して、推定エコー残留パワー328を計算してもよい。エコー残留推定器313は、式(8)にしたがって推定エコー残留パワー328を計算し得る。
【数8】
(8)
【0060】
式(8)において、
は、チューニングによって決定される因子である。最小限の演算器は、推定エコー残留パワー328がエコー残留パワーおよびローカルトークパワーの合成である
を超えないようにする。推定エコー残留パワー328は、
に重心(centroid)を有するガウスランダム変数としてモデル化され得る。要するに、エコー残留推定器313は、各帯域に対してエコーキャンセラ201(
図1~2を参照)のパワーゲインを、推定パワーゲイン特性324によってパラメータ化されたガウスランダム変数としてモデル化することにより、各帯域に対してループバックパワー420にしたがって推定エコー残留パワー328を計算する。
【0061】
ゲイン計算器314は、帯域化エコー残留信号322および推定エコー残留パワー328を受け取り、帯域化ゲイン330(
とも表記する)を計算する。帯域化ゲイン330を計算する1つの目的は、半二重の場合対全二重の場合に、各特定の帯域に対して、異なる量の抑制を適用することである。(半二重の場合は、例えば、近端または遠端のいずれかの一方の話者だけが話をしている場合を意味する。全二重の場合は、例えば、ダブルトークのように、両話者が話をしている場合を意味する)言い換えると、帯域化ゲイン330を計算することは、エコー残留信号におけるローカルトークの尤度に基づいて、複数の帯域化ゲインを選択的に計算することを含む。帯域化ゲイン330の計算の一部として、ゲイン計算器314は、上記2つの場合の間でゲイン計算を操作する特徴を計算する。
【0062】
ボイス信号の室内ノイズ、電子ノイズ、およびランダム性の性質により、dBで表される推定エコー残留パワー328は、パワーゲイン特性推定器312によって計算された推定パワーゲイン特性324に対応する、平均dB
および分散
を有するガウス分布を有すると仮定する。また、dBで表される推定エコー残留パワー328は、帯域間において相互相関(第1の仮定、独立)を有さないと仮定する。アップリンクボイスが存在しない場合のイベントを
と表すと、特定の帯域における、dBで表される各エコー残留パワーに対する確率密度関数は、式(9)によって与えられる。
【数9】
(9)
【0063】
式(9)において、xは、dBで表される推定エコー残留パワー328であり、
は、推定エコー残留パワー328の重心に対応する。
【0064】
図6は、式(9)の確率密度関数
を例示するグラフである。
図6において、x軸はxに対応し、y軸は
に対応する。
【0065】
広帯域エコー残留をガウス混合モデルとしてモデル化することによって、すべての帯域bにわたってアップリンクボイスが存在しないlog尤度Lは、式(10)によって与えられる。
【数10】
(10)
【0066】
式(10)において、log尤度Lは、式(9)からの指数成分
をすべての帯域bにわたって合計したものである。言い換えると、エコー残留信号140におけるローカルトークの尤度は、複数の周波数帯域にわたって合計された推定パワーゲイン特性の平均および分散に基づくlog尤度である。要するに、log尤度Lは、エコー残留信号140をすべての帯域bにわたって適用されるガウス混合モデルとしてモデル化することによって計算される。
【0067】
アップリンクボイスが存在しない(例えば、デバイスによってキャプチャされるローカルトークがない)場合、
は低くなる。アップリンクボイスが存在する場合、
は高く、式(10)のlog尤度Lは、ゲイン計算を操作するための信号となる。
【0068】
式(10)のlog尤度Lを使用し、式(11)にしたがって、すべての帯域G
maxにわたってグローバル最大抑制ゲインを計算する。
【数11】
(11)
【0069】
式(11)において、G0は、アップリンクボイスが存在する場合のdBで表されるゲインであり、G1は、アップリンクボイスが存在しない場合のdBで表される所定のゲインである。Lthは、所定の閾値であり、ローカルトークが存在するかどうかが既知であれば、初期設定中に各デバイスに対して得ることができる。
【0070】
言い換えると、帯域化ゲイン330を計算することは、複数の周波数帯域にわたってグローバル最大抑制ゲインGmaxを計算することを含む。グローバル最大抑制ゲインは、ローカルトークが存在することに対応する第1のゲインG0、ローカルトークが存在しないことに対応する第2のゲインG1、およびローカルトークの尤度Lに基づく。
【0071】
各帯域にわたり、ゲイン計算器314は、1つ以上のゲイン計算処理を使用して、各帯域
に対してゲインを計算し得る。適切なゲイン計算処理の例が米国特許第9,173,025号、米国特許第8,712,076号および米国特許第8,804,977号に記載されている。これらの開示内容を本願に援用する。
【0072】
信号コンバイナ310は、エコー残留信号140(
とも表記する)および帯域化ゲイン330(
とも表記する)を受け取り、変更エコー残留信号150(
とも表記する)を生成する。所与の帯域bに対して計算されたゲインは、当該所与のERB帯域に属するサブ帯域kのすべてに適用される。信号コンバイナ310は、式(12)にしたがって、変更エコー残留信号150を生成し得る。
【数12】
(12)
【0073】
言い換えると、エコー残留信号140は、複数の周波数ビンkを有する。ここで、帯域化ゲイン330のうちの所与の帯域化ゲイン
は、所与の周波数ビンに対応し(例えば、各帯域bは、複数のビンkに対応付けられ得る)、変更エコー残留信号150を生成することは、エコー残留信号140のビンkのそれぞれに対して、対応する帯域化ゲイン
を適用して、変更エコー残留信号150を生成することを含む。
【0074】
図7は、一実施形態にかかる、本明細書に記載の特徴および処理を実装するための移動型デバイスアーキテクチャ700である。アーキテクチャ700は、デスクトップコンピュータ、民生音声/ビジュアル(AV)装置、ラジオ放送装置、移動型デバイス(例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイス)などを含むがこれらに限定されない任意の電子デバイス内に実装され得る。図示の例示の実施形態において、アーキテクチャ700は、ラップトップコンピュータ用であり、プロセッサ701、周辺インタフェース702、音声サブシステム703、スピーカ704、マイクロフォン705、センサ706(例えば、加速度計、ジャイロ、気圧計、磁気計、カメラ)、ロケーションプロセッサ707(例えば、GNSS受信器)、無線通信サブシステム708(例えば、Wi-Fi、Bluetooth、セルラー)、タッチコントローラ710および他の入力コントローラ711を含むI/Oサブシステム709、タッチ面712、および他の入力/制御デバイス713を含む。より多くまたはより少ないコンポーネントを有する他のアーキテクチャを使用しても、開示の実施形態を実装できる。
【0075】
メモリインタフェース714は、プロセッサ701、周辺インタフェース702およびメモリ715(例えば、フラッシュ、RAM、ROM)に接続される。メモリ715は、オペレーティングシステム命令716、通信命令717、GUI命令718、センサプロセッシング命令719、電話命令720、電子メッセージング命令721、ウェブ閲覧命令722、音声処理命令723、GNSS/ナビゲーション命令724およびアプリケーション/データ725を含むが、これらに限定されないコンピュータプログラム命令およびデータを記憶する。音声処理命令723は、本明細書に記載の音声処理を行うための命令を含む。
【0076】
図8は、音声処理方法800のフローチャートである。方法800は、
図7のアーキテクチャ700のコンポーネントを有するデバイス(例えば、ラップトップコンピュータ、携帯電話など)によって行われ、例えば1つ以上のコンピュータプログラムを実行することによって、エコー管理システム100(
図1を参照)、エコーキャンセラ201(
図2を参照)、エコーサプレッサ301(
図3を参照)、ループバックパワー計算器400(
図4を参照)などの機能を実装し得る。
【0077】
802において、基準信号およびエコー残留信号が入力される。例えば、エコーサプレッサ301(
図3を参照)は、変換基準信号130およびエコー残留信号140を受け取り得る。変換基準信号130は、
図1から分かるように、基準信号120に対応する。
【0078】
804において、基準信号およびエコー残留信号に対して周波数帯域化を行うことによって帯域化基準信号および帯域化エコー残留信号を生成する。例えば、帯域化コンポーネント311(
図3を参照)は、変換基準信号130およびエコー残留信号140に対して帯域化を行って、それぞれ帯域化基準信号320および帯域化エコー残留信号322を生成し得る。
【0079】
806において、帯域化基準信号および帯域化エコー残留信号に基づいて推定パワーゲイン特性およびループバックパワーを計算する。推定パワーゲイン特性324は、エコーキャンセラ201(
図1を参照)などの音響エコーキャンセラのパワーゲイン特性の推定値に対応する。例えば、パワーゲイン特性推定器312(
図3を参照)は、帯域化基準信号320および帯域化エコー残留信号322に基づいて推定パワーゲイン特性324を計算し得る。ループバックパワー計算器400(
図4を参照)は、帯域化基準信号320に基づいてループバックパワー420を計算し得る。推定パワーゲイン特性324は、(例えばメモリ412に記憶された帯域化基準信号320の履歴を使用することによって)ループバックパワー計算器400によって計算されたエコーキャンセレーションの長期間にわたる量を示し得る。
【0080】
808において、帯域化エコー残留信号、ループバックパワーおよび推定パワーゲイン特性に基づいて推定エコー残留パワーを計算する。例えば、エコー残留推定器313(
図3を参照)は、帯域化エコー残留信号322、ループバックパワー420および推定パワーゲイン特性324に基づいて推定エコー残留パワー328を計算し得る。
【0081】
810において、帯域化エコー残留信号および推定エコー残留パワーに基づいて複数の帯域化ゲインを計算する。例えば、ゲイン計算器314(
図3を参照)は、帯域化エコー残留信号322および推定エコー残留パワー328に基づいて帯域化ゲイン330を計算し得る。
【0082】
812において、複数の帯域化ゲインをエコー残留信号に適用することによって変更エコー残留信号を生成する。例えば、信号コンバイナ310(
図3を参照)は、帯域化ゲイン330をエコー残留信号140に適用することによって変更エコー残留信号150を生成し得る。
【0083】
方法800は、本明細書に記載のエコー管理システム100、エコーキャンセラ201、エコーサプレッサ301、ループバックパワー計算器400などの他の機能に対応する更なる工程を含み得る。例えば、基準信号は、スピーカ704(
図7を参照)などのスピーカによって出力され得る。別の例として、近端音声がマイクロフォン(例えば、
図5のマイクロフォン705)によってキャプチャされ、近端音声信号が生成され、近端音声信号に対してエコーキャンセレーションを行うことによってエコー残留信号が生成されてもよい(例えば、
図1のエコーキャンセラ201によって)。近端音声は、ローカルトーク(例えば、近端人物によって生成された音声)、エコー(例えば、近端においてスピーカによって出力された遠端音声)などを含み得る。別の例として、変更エコー残留は、例えば遠隔会議、ビデオ会議などの一部として、近端デバイスによって遠端デバイスへ送信され得る。
【0084】
実装の詳細
【0085】
一実施形態は、ハードウェア、コンピュータ読取可能媒体上に記憶された実行可能モジュール、または両方の組み合わせ(例えば、プログラマブル論理アレイ)で実装されてもよい。特に断らない限り、実施形態によって実行される工程は、いずれの特定のコンピュータまたは他の装置にも本質的に関係している必要はない。ただし、ある種の実施形態では関係していることもあり得る。特に、種々の汎用マシンが、本明細書の教示に従って書かれたプログラムを用いて使用されてもよく、または、要求される方法工程を行うために、より特殊化された装置(例えば、集積回路)を構築することがより便利であり得る。したがって、実施形態は、それぞれが少なくとも一つのプロセッサ、少なくとも一つのデータ記憶システム(揮発性および不揮発性メモリならびに/または記憶素子を含む)、少なくとも一つの入力デバイスまたはポート、および少なくとも一つの出力デバイスまたはポートを備える、一つまたは複数のプログラマブルコンピュータシステム上で実行される一つまたは複数のコンピュータプログラムにおいて実装されてもよい。プログラムコードは、本明細書に記載される機能を行い、出力情報を生成するために入力データに適用される。出力情報は、公知のやり方で一つまたは複数の出力デバイスに適用される。
【0086】
各そのようなコンピュータプログラムは、好ましくは、汎用または専用のプログラマブルコンピュータによって読み取り可能な記憶媒体またはデバイス(例えば、固体メモリもしくは媒体、または磁気もしくは光学媒体)に記憶またはダウンロードされ、コンピュータシステムによって当該記憶媒体またはデバイスが読み取られたときに、本明細書に記載される手順を実行するようにコンピュータを構成し、動作させる。また、本発明のシステムは、コンピュータプログラムで構成されたコンピュータ読み取り可能な記憶媒体として実装されると考えられてもよい。そのように構成された記憶媒体は、コンピュータシステムに、本明細書に記載の機能を行うように、特定のあらかじめ定義されたやり方で動作させる。(ソフトウェア自体および無形または一時的な信号は、それらが特許の保護対象でない場合は、除外される。)
【0087】
本明細書に記載のシステムの局面は、デジタルまたはデジタル化音声ファイルを処理するための適切なコンピュータに基づくサウンド処理ネットワーク環境内で実装され得る。適応音声システムの部分は、コンピュータ間で送信されるデータのバッファリングおよびルーティングする機能を有する一つまたは複数のルータ(図示せず)を含む任意の所望数の個々のマシンを備える一つまたは複数のネットワークを含み得る。そのようなネットワークは、種々の異なるネットワークプロトコル上で構築され得、インターネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)またはそれらの任意の組合せであり得る。
【0088】
コンポーネント、ブロック、プロセスまたは他の機能的コンポーネントのうちの一つまたは複数は、システムのプロセッサに基づくコンピューティングデバイスの実行を制御するコンピュータプログラムを介して実装され得る。また、本明細書に記載の種々の機能は、ハードウェア、ファームウェアの任意の数の組合せを用いて、および/または種々のマシン読取可能もしくはコンピュータ読取可能媒体において実施されるデータおよび/または命令として、それらの動作、レジスタ転送、ロジックコンポーネント、および/または他の特性の観点で記載され得る。そのようなフォーマット化されたデータおよび/または命令が実施され得るコンピュータ読取可能媒体は、光、磁気または半導体記憶媒体などの、種々の形態の物理的(非一時的)不揮発性記憶媒体を含むが、これらに限定されない。
【0089】
上記の説明において、本開示の種々の局面がどのように実装され得るかの例とともに、本開示の種々の実施形態を例示した。上記の例および実施形態は、唯一の実施形態とみなされるべきではなく、特許請求の範囲によって定義される本開示の自由度および利点を例示するために提示した。上記の開示および特許請求の範囲に基づいて、他の構成、実施形態、実装物および等価物が当業者には明らかとなり、特許請求の範囲によって定義される開示の精神および範囲から逸脱することなく使用され得る。
参考文献
米国特許第10,115,411号、8,111,833号、9,338,551号、9,363,600号、10,382,092号、10,313,789号、10,477,031号、9,503,815号、9,185,506号、8,462,958号、6,163,608号、9,420,390号、9,173,025号、8,712,076号、8,804,977号
米国特許出願公開第2016/0241955号、2019/0349471号
C. Yemdji, M. M. Idrissa, N. W. D. Evans and C. Beaugeant, “Efficient low delay filtering for residual echo suppression”, in 2010 18th European Signal Processing Conference, Aalborg, 2010, pp. 16-20.
【国際調査報告】