(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023133472
(43)【公開日】2023-09-22
(54)【発明の名称】ギャップ信頼度を用いた背景雑音推定
(51)【国際特許分類】
G10L 21/0216 20130101AFI20230914BHJP
G10L 25/84 20130101ALI20230914BHJP
G10L 25/21 20130101ALI20230914BHJP
G10L 25/18 20130101ALI20230914BHJP
【FI】
G10L21/0216
G10L25/84
G10L25/21
G10L25/18
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023125621
(22)【出願日】2023-08-01
(62)【分割の表示】P 2020560194の分割
【原出願日】2019-04-24
(31)【優先権主張番号】62/663,302
(32)【優先日】2018-04-27
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】18177822.6
(32)【優先日】2018-06-14
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ハインズ,クリストファー,グレイアム
(72)【発明者】
【氏名】ディキンズ,グレン,エヌ.
(72)【発明者】
【氏名】ミルズ,アダム,ジェイ.
(57)【要約】
【課題】ギャップ信頼度を用いた背景雑音推定を提供する。
【解決手段】マイクロフォン出力および再生信号に応答してギャップ信頼値を生成し、ギャップ信頼値を使用して再生環境における背景雑音の推定値を生成する段階を含む、雑音推定方法。各ギャップ信頼値は、再生信号において、対応する時刻にギャップが存在する信頼度を示し、ギャップ信頼値によって重み付けされた候補雑音推定値の組み合わせであってもよい。候補雑音推定値の生成は、エコーキャンセレーションの実行を含まなくてもよい。任意的に、生成された背景雑音推定値を使って、オーディオ入力信号に対して雑音補償が実行される。他の側面は、前記雑音推定方法のいずれかの実施形態を実行するよう構成されたシステムである。
【選択図】
図3
【特許請求の範囲】
【請求項1】
オーディオ処理方法であって:
再生環境のマイクロフォンからマイクロフォン出力信号を受領する段階であって、前記マイクロフォン出力信号は、一つまたは複数のラウドスピーカーによって再生され、前記マイクロフォンによって検出された再生コンテンツに対応し、前記マイクロフォン出力信号は、前記マイクロフォンによって検出された前記再生環境における背景雑音にも対応する、段階と;
前記再生コンテンツに対応する再生コンテンツ値を受領する段階と;
前記マイクロフォン出力信号および前記再生コンテンツ値に応答して、ギャップ信頼値を生成する段階であって、各ギャップ信頼値は、異なる時刻tについてのものであり、前記再生コンテンツにおいて、時刻tにギャップが存在する信頼度を示し、ギャップは、再生コンテンツがない、または所定の閾値未満のレベルをもつ時間または時間区間を表し、前記ギャップ信頼値を生成することは、各時刻tについてのギャップ信頼値を生成することを含み、各時刻tについてギャップ信頼値を生成することは:
時刻tについての前記再生コンテンツ値における最小値を決定し;
前記マイクロフォン出力信号を処理して、時刻tについての前記マイクロフォン出力信号の平滑化されたレベルを決定し;
時刻tについての再生コンテンツ値における前記最小値が、時刻tについての前記マイクロフォン出力信号の前記平滑化されたレベルからどのくらい異なるかを示すよう、時刻tについての前記ギャップ信頼値を決定することによることを含む、段階と;
前記ギャップ信頼値を使用して前記再生環境における背景雑音の推定値を生成する段階とを含む、
方法。
【請求項2】
前記マイクロフォン出力信号および前記再生コンテンツ値は、周波数帯域化され、前記ギャップは、一つまたは複数の周波数帯域において再生コンテンツがない、または所定の閾値未満のレベルをもつ時間または時間区間を表す、請求項1に記載の方法。
【請求項3】
前記ギャップ信頼値は、前記一つまたは複数の周波数帯域のうちの少なくとも1つについて決定される、請求項2に記載の方法。
【請求項4】
前記一つまたは複数の周波数帯域の各周波数帯域について複数のギャップ信頼値を決定し;
前記複数のギャップ信頼値に基づいてギャップ健全性値を決定することをさらに含み、前記ギャップ健全性値は、前記一つまたは複数の周波数帯域の各周波数帯域について雑音推定値がどのくらい新しいかを示す、
請求項3に記載の方法。
【請求項5】
前記複数のギャップ信頼値はn個の最も最近のギャップ信頼値を含み、nは整数である、請求項4に記載の方法。
【請求項6】
前記ギャップ健全性値を決定することは、前記n個の最も最近のギャップ信頼値を加算して、結果として得られる和をnで割ることを含む、請求項5に記載の方法。
【請求項7】
少なくとも部分的には前記ギャップ健全性値に基づいて、雑音推定値が更新される一つまたは複数の周波数帯域を識別する段階をさらに含む、請求項4に記載の方法。
【請求項8】
前記識別する段階が、ギャップ健全性値閾値以上のギャップ健全性値を有する第1の健全な周波数帯域を識別することを含む、請求項7に記載の方法。
【請求項9】
前記第1の健全な周波数帯域に隣接する少なくとも1つの周波数帯域を含む一つまたは複数の周波数帯域を評価して、前記ギャップ健全性値閾値未満のギャップ健全性値を有する少なくとも1つの健全でない周波数帯域を位置特定する段階をさらに含む、請求項8に記載の方法。
【請求項10】
前記ギャップ健全性値閾値以上のギャップ健全性値を有する第2の健全な周波数帯域を識別することをさらに含む、請求項9に記載の方法。
【請求項11】
前記第1の健全な周波数帯域と前記第2の健全な周波数帯域との間の少なくとも1つの健全でない周波数帯域についての雑音推定値を計算する段階をさらに含む、請求項10に記載の方法。
【請求項12】
前記雑音推定値を計算する段階が、前記第1の健全な周波数帯域についての雑音推定値と、前記第2の健全な周波数帯域についての雑音推定値との間の線形補間を実行することを含む、請求項11に記載の方法。
【請求項13】
前記線形補間が対数領域で実行される、請求項12に記載の方法。
【請求項14】
前記再生環境における前記背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、前記雑音推定値のそれぞれは、異なる時刻tでの前記再生環境における背景雑音の推定値であり、前記雑音推定値のそれぞれは、時刻tを含む異なる時間区間についての、前記ギャップ信頼値によって重み付けされた候補雑音推定値の組み合わせである、請求項1に記載の方法。
【請求項15】
前記再生環境における前記背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、前記雑音推定値のそれぞれは、異なる時刻tでの前記再生環境における背景雑音の推定値であり、前記ギャップ信頼値を使用して前記再生環境における前記背景雑音の前記推定値を生成することは、各雑音推定値について、時刻tを含む異なる時間区間についての候補雑音推定値を、前記ギャップ信頼値によって重み付けし、重み付けされた候補雑音推定値を組み合わせてそれぞれの雑音推定値を得ることを含む、請求項1に記載の方法。
【請求項16】
前記再生環境における前記背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、また、雑音推定値の前記シーケンスを使用して、オーディオ入力信号に対して雑音補償を実行する段階をも含む、請求項1に記載の方法。
【請求項17】
前記オーディオ入力信号に対して雑音補償を実行する段階が前記再生信号の生成を含み、当該方法は、前記再生信号を用いて少なくとも一つのスピーカーを駆動して、音を生成することをさらに含む、請求項16に記載の方法。
【請求項18】
ソフトウェアが記憶されている一つまたは複数の非一時的媒体であって、前記ソフトウェアは方法を実行するよう一つまたは複数の装置を壊死御するための命令を含み、前記方法は:
再生環境のマイクロフォンからマイクロフォン出力信号を受領する段階であって、前記マイクロフォン出力信号は、一つまたは複数のラウドスピーカーによって再生され、前記マイクロフォンによって検出された再生コンテンツに対応し、前記マイクロフォン信号は、前記マイクロフォンによって検出された前記再生環境における背景雑音にも対応する、段階と;
前記再生コンテンツに対応する再生コンテンツ値を受領する段階と;
前記マイクロフォン出力信号および前記再生コンテンツ値に応答して、ギャップ信頼値を生成する段階であって、各ギャップ信頼値は、異なる時刻tについてのものであり、前記再生コンテンツにおいて、時刻tにギャップが存在する信頼度を示し、ギャップは、再生コンテンツがない、または所定の閾値未満のレベルをもつ時間または時間区間を表し、前記ギャップ信頼値を生成することは、各時刻tについてのギャップ信頼値を生成することを含み、各時刻tについてギャップ信頼値を生成することは:
時刻tについての前記再生コンテンツ値における最小値を決定し;
前記マイクロフォン出力信号を処理して、時刻tについての前記マイクロフォン出力信号の平滑化されたレベルを決定し;
時刻tについての再生コンテンツ値における前記最小値が、時刻tについての前記マイクロフォン出力信号の前記平滑化されたレベルからどのくらい異なるかを示すよう、時刻tについての前記ギャップ信頼値を決定することによることを含む、段階と;
前記ギャップ信頼値を使用して前記再生環境における背景雑音の推定値を生成する段階とを含む、
一つまたは複数の非一時的媒体。
【請求項19】
前記方法が、少なくとも部分的には背景雑音の前記推定値に基づいて、オーディオ入力信号に対して雑音補償を実行する段階をも含む、請求項18に記載の一つまたは複数の非一時的媒体。
【請求項20】
入力システムおよびノイズ推定サブシステムを有する装置であって、
前記入力システムは:
再生環境のマイクロフォンからマイクロフォン出力信号を受領する段階であって、前記マイクロフォン出力信号は、一つまたは複数のラウドスピーカーによって再生され、前記マイクロフォンによって検出された再生コンテンツに対応し、前記マイクロフォン信号は、前記マイクロフォンによって検出された前記再生環境における背景雑音にも対応する、段階と;
前記再生コンテンツに対応する再生コンテンツ値を受領する段階とを実行するように構成されており;
前記ノイズ推定サブシステムは:
前記マイクロフォン出力信号および前記再生コンテンツ値に応答して、ギャップ信頼値を生成する段階であって、各ギャップ信頼値は、異なる時刻tについてのものであり、前記再生コンテンツにおいて、時刻tにギャップが存在する信頼度を示し、ギャップは、再生コンテンツがない、または所定の閾値未満のレベルをもつ時間または時間区間を表し、前記ギャップ信頼値を生成することは、各時刻tについてのギャップ信頼値を生成することを含み、各時刻tについてギャップ信頼値を生成することは:
時刻tについての前記再生コンテンツ値における最小値を決定し;
前記マイクロフォン出力信号を処理して、時刻tについての前記マイクロフォン出力信号の平滑化されたレベルを決定し;
時刻tについての再生コンテンツ値における前記最小値が、時刻tについての前記マイクロフォン出力信号の前記平滑化されたレベルからどのくらい異なるかを示すよう、時刻tについての前記ギャップ信頼値を決定することによることを含む、段階と;
前記ギャップ信頼値を使用して前記再生環境における背景雑音の推定値を生成する段階とを実行するように構成されている、
装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2018年4月27日に出願された米国仮出願第62/663,302号および2018年6月14日に出願された欧州特許出願第18177822.6号の優先権を主張するものであり、各出願は、その全体が参照により援用される。
【0002】
技術分野
本発明は、オーディオ信号再生環境における背景雑音〔バックグラウンド・ノイズ〕を推定し、雑音推定値を使用して再生のためにオーディオ信号を処理する(たとえばオーディオ信号に対して雑音補償を実行する)ためのシステムおよび方法に関する。いくつかの実施形態では、雑音推定は、それぞれが再生信号において(対応する時間のところに)ギャップがある信頼度を示すギャップ信頼値の決定と、背景雑音推定値のシーケンスを決定するためのギャップ信頼値の使用とを含む。
【背景技術】
【0003】
ポータブル電子機器がいたるところに存在するということは、人々が多くの異なる環境において日常的にオーディオと関わっているということを意味する。たとえば、音楽を聴くこと、娯楽コンテンツを見ること、可聴の通知や案内を聞くこと、音声通話に参加することなどである。これらの活動が行なわれる聴取環境は、しばしば、本来的に雑音があり、常に変化する背景雑音条件を伴い、それが聴取体験の楽しさおよび分かりやすさを損なう。ユーザーを、雑音条件の変化に応じて手動で再生レベルを調整するループに配置することは、ユーザーを聴取タスクから逸らせ、オーディオ聴取タスクに従事するのに必要な認知負荷を高める。
【0004】
雑音補償付きメディア再生(noise compensated media playback、NCMP)は、再生されるメディアの音量を、メディアが再生される雑音条件に適するように調整することによって、この問題を軽減する。NCMPの概念はよく知られており、多くの出版物がそれをいかにして効果的に実装するかという問題を解決したと主張している。
【0005】
能動雑音打ち消し(Active Noise Cancellation)と呼ばれる関連分野が音響波の再生成を通じて干渉する雑音を物理的に打ち消そうとするのに対し、NCMPは、調整されたオーディオが背景雑音の存在下で再生環境において可聴かつ明瞭になるように再生オーディオのレベルを調整する。
【0006】
NCMPの現実の実装における主要な課題は、特に、メディア・コンテンツがスピーカー上で再生され、背景雑音およびメディア・コンテンツが高度に音響的に結合されている状況において、聴取者が経験する現在の背景雑音レベルを自動的に決定することである。マイクロフォンを含む解決策は、メディア・コンテンツと雑音条件が同時に観察される(マイクロフォンによって検出される)という問題に直面する。
【0007】
NCMPを実装する典型的なオーディオ再生システムが
図1に示される。このシステムは、オーディオ・コンテンツ(本明細書では、メディア・コンテンツまたは再生コンテンツと呼ばれることもある)を示すオーディオ信号を出力し、雑音補償サブシステム2に提供するコンテンツ源1を含む。オーディオ信号は、再生を受けて、オーディオ・コンテンツを示す(環境中の)サウンドを生成することが意図されている。オーディオ信号は、スピーカー・フィードであってもよく(および雑音補償サブシステム2は、スピーカー・フィードの再生利得を調整することによって、それに雑音補償を適用するように結合および構成されてもよい)、またはシステムの別の要素が、オーディオ信号に応答してスピーカー・フィードを生成してもよい(たとえば、雑音補償サブシステム2は、オーディオ信号に応答してスピーカー・フィードを生成し、スピーカー・フィードの再生利得を調整することによってスピーカー・フィードに雑音補償を適用するように結合および構成されてもよい)。
【0008】
図1のシステムはまた、雑音推定システム5と、オーディオ信号(または、サブシステム2で生成されたオーディオ信号の雑音補償されたバージョン)に応答する(メディア・コンテンツを示す音を発するように結合および構成されている)少なくとも1つのスピーカー3と、マイクロフォン4とを図示のように結合されて含む。動作では、マイクロフォン4およびスピーカー3は、再生環境(たとえば、部屋)にあり、マイクロフォン4は、環境における背景(周囲)雑音およびメディア・コンテンツのエコーの両方を示すマイクロフォン出力信号を生成する。雑音推定サブシステム5(本明細書では時に、雑音推定器と称される)は、マイクロフォン4に結合され、マイクロフォン出力信号を使用して環境における現在の背景雑音レベルの推定値(
図1の「雑音推定値」)を生成するように構成される。雑音補償サブシステム2(本明細書では時に、雑音補償器と称される)は、サブシステム5によって生成された雑音推定値に応答して、オーディオ信号を調整する(たとえば、その再生利得を調整する)(または、オーディオ信号に応答して生成されたスピーカー・フィードを調整する)ことによって、雑音補償を適用するように結合および構成され、それにより、(
図1に示されるように)補償されたメディア・コンテンツを示す雑音補償されたオーディオ信号を生成する。典型的には、サブシステム2は、調整されたオーディオ信号に応答して放射される音が、(雑音推定サブシステム5によって推定される)背景雑音の存在下で再生環境において可聴かつ明瞭になるようにオーディオ信号の再生利得を調整する。
【0009】
のちに説明するように、雑音補償を実装するオーディオ再生システムにおいて使用するための背景雑音推定器(たとえば、
図1の雑音推定器5)は、本発明のあるクラスの実施形態に従って実装できる。
【0010】
多くの刊行物が雑音補償付きメディア再生(NCMP)の問題に関与しており、背景雑音を補償するオーディオ・システムは、さまざまな程度の成功を収めることができる。
【0011】
マイクロフォンなしでNCMPを実行し、代わりに他のセンサー(たとえば、自動車の場合は速度計)を使用することが提案されている。しかしながら、そのような方法は、聴取者が経験する干渉雑音のレベルを実際に測定するマイクロフォン・ベースの解決策ほど効果的ではない。また、再生コンテンツを示す音から切り離された音響空間内に位置するマイクロフォンに依拠してNCMPを実行することも提案されているが、そのような方法は多くの応用について、法外なまでに制約的である。
【0012】
前段落で述べたNCMP方法は、マイクロフォンによって捕捉された再生信号が雑音推定器にとって関心のある雑音信号と混合されたときに生じる「エコー問題」のため、再生コンテンツも捕捉するマイクロフォンを用いて雑音レベルを正確に測定しようとはしない。その代わりに、これらの方法は、不安定なフィードバックループが形成されないよう、適用する補償を制約することによって、または聴取者が経験する雑音レベルをいくらか予測する他の何かを測定することによって、問題を無視しようとする。
【0013】
また、マイクロフォン出力信号(背景雑音と再生コンテンツの両方を示す)から背景雑音を推定する問題に対処するために、再生コンテンツをマイクロフォン出力信号と相関させ、マイクロフォン出力からマイクロフォンによって捕捉された再生コンテンツ(「エコー」と呼ばれる)の推定値を差し引くことを試みることも提案されている。
【0014】
マイクロフォンが音を捕捉する際に生成されるマイクロフォン出力信号の内容は、スピーカーから発せられる再生コンテンツXおよび背景雑音Nを示すものであり、WX+Nと表わすことができ、ここで、Wは、再生コンテンツを示す音を放出するスピーカー(単数または複数)、マイクロフォン、および音がスピーカーからマイクロフォンに伝搬する環境(たとえば、部屋)によって決定される伝達関数である。たとえば、雑音Nを推定するための学術的に提案された方法(
図2を参照して後述)では、マイクロフォン出力信号から差し引くために、エコー(マイクロフォンによって捕捉される再生コンテンツ)WXの推定W'Xを容易にするように線形フィルタW'が適応される。たとえシステムに非線形性が存在するとしても、フィルタW'の非線形実装は、計算コストのために、ほとんど実装されない。
【0015】
図2は、スピーカーが再生コンテンツを示す音を発する環境において、背景雑音を推定するための上述の従来の方法(時にエコーキャンセレーションと呼ばれる)を実装するためのシステムの図である。環境E中のスピーカー・システムS(たとえば、単一のスピーカー)に再生信号Xが提示される。同じ環境E中にマイクロフォンMが位置される。再生信号Xに応答して、スピーカー・システムSが音を発し、それがマイクロフォンMに到達する(環境Eに存在する任意の環境雑音Nとともに)。マイクロフォン出力信号は、Y=WX+Nであり、ここで、Wは、スピーカー・システムS、再生環境E、およびマイクロフォンMの組み合わされた応答である伝達関数を表わす。
図2のシステムが実装する一般的な方法は、さまざまな適応フィルタ方法のいずれかを用いて、YおよびXから伝達関数Wを適応的に推論する。
図2に示されるように、線形フィルタW'は、伝達関数W'の近似となるよう適応的に決定される。マイクロフォン信号Mによって示される再生信号コンテンツ(「エコー」)は、W'Xとして推定され、W'XがYから減算されて、雑音Nの推定値Y'=WX-W'X+Nを生成する。Y'の増加はXのレベルを増加させ、それがNの推定値(Y')に上方バイアスを導入し、それが今度はXのレベルを増加させる、などとなる。この形の解決策は、マイクロフォン信号MからエコーWXの有意な量を除去するために、W'XをYから減算させる適応フィルタW'の能力に大きく依存する。
【0016】
図2のシステムを安定に保つためには、通例、信号Y'のさらなるフィルタリングが必要である。現場におけるほとんどの雑音補償の実施形態は、ぱっとしない性能を示すので、ほとんどの解決策は、典型的には、雑音推定値に下方にバイアスをかけ、システムを安定に保つために積極的な時間平滑化を導入する。これは、作用する補償が低減し、非常に遅くなるという代償を伴う。
【0017】
雑音推定のための上述の学術的な方法を実装すると主張されている(
図2を参照して記載されているタイプの)システムの従来の実装は、通例、実装されたプロセスに付随する、下記の一部または全部を含む問題を無視している。
・解決策の学術的シミュレーションが40dB以上のエコー低減を示すにもかかわらず、現実の実装は、非線形性、背景雑音の存在、およびエコー経路Wの非定常性のために約20dBに制限される。これは、残差エコーによって背景雑音の測定値がバイアスされることを意味する;
・環境雑音および特定の再生コンテンツが、そのようなシステムにおいて「漏れ」を引き起こす場合がある(たとえば、再生コンテンツが、バズ、ガタガタ、歪みのために、再生システムの非線形領域を励起する場合)。これらの事例では、マイクロフォン出力信号は、背景雑音として誤って解釈されるかなりの量の残差エコーを含む。そのような場合、フィルタW'の適応もまた、残差誤差信号が大きくなるにつれて不安定になりうる。また、高レベルの雑音によってマイクロフォン信号が損なわれると、フィルタW'の適応が不安定になる可能性がある。
・広い周波数範囲(たとえば、典型的な音楽の再生をカバーするもの)で動作するNCMPを実行するのに有用な雑音推定値(Y')を生成するのに必要な計算量が高い。
【発明の概要】
【発明が解決しようとする課題】
【0018】
環境雑音条件を補償するための雑音補償(たとえば、スピーカー再生コンテンツの自動的な平準化)は、よく知られた望ましい機能であるが、まだ説得力のある実装はされていない。環境雑音条件を測定するためにマイクロフォンを使用すると、スピーカー再生コンテンツも測定し、雑音補償を実装するために必要な雑音推定(たとえば、オンライン雑音推定)のための主要な課題を呈する。本発明の典型的な実施形態は、雑音補償を実行するために(たとえば、雑音補償されたメディア再生の多くの実施形態を実装するために)有用な雑音推定値を改良された仕方で生成する雑音推定方法およびシステムである。そのような方法およびシステムの典型的な実装によって実施される雑音推定は、簡単な定式化を有する。
【課題を解決するための手段】
【0019】
あるクラスの実施形態では、本発明の方法(たとえば、再生環境における背景雑音の推定値を生成する方法)は、以下のステップを含む:
再生環境における音の放射中に、マイクロフォンを使用してマイクロフォン出力信号を生成する。ここで、前記音は再生信号のオーディオ・コンテンツを示し、前記マイクロフォン出力信号は再生環境における背景雑音およびオーディオ・コンテンツを示す;
マイクロフォン出力信号(たとえば、マイクロフォン出力信号の平滑化されたレベルに応答して)および再生信号に応答して、ギャップ信頼値(すなわち、ギャップ信頼値を示す信号またはデータ)を生成する。ここで、各ギャップ信頼値は、異なる時間t(たとえば、時刻tを含む異なる時間区間)についてのものであり、再生信号において、時刻tにギャップがある信頼度を示す;
ギャップ信頼値を使用して再生環境における背景雑音の推定値を生成する。
【0020】
再生環境は、前記音が発せられる音響環境または音響空間に関係してもよい。たとえば、再生環境は、(たとえば、再生信号に応答してスピーカーによって)音が発せられる音響環境であってもよい。
【0021】
典型的には、再生環境における背景雑音の推定値は、雑音推定値のシーケンスであるか、またはそれを含み、雑音推定値のそれぞれは、異なる時刻tでの再生環境における背景雑音を示し、雑音推定値の該それぞれは、時刻tを含む異なる時間区間についてのギャップ信頼値によって重み付けされた候補雑音推定値の組み合わせである。よって、ギャップ信頼値を用いて再生環境における背景雑音の推定値を生成することは、各雑音推定値について、時刻tを含む異なる時間区間についての候補雑音推定値をギャップ信頼値によって重み付けし、重み付けされた候補雑音推定値を組み合わせて、それぞれの雑音推定値を得ることを含むことができる。
【0022】
候補雑音推定値は、異なる信頼性(たとえば、推定されるべき雑音を忠実に表わしているかどうかに関して)を有することがある。それらの信頼性は、それぞれのギャップ信頼値によって示されうる。この方法は、時刻tを含む時間区間(たとえば、時刻tを含むスライディング分析窓)についての候補雑音推定値(その時間区間内の各時刻についての1つの候補雑音推定値がある)を考慮し、各候補雑音推定値を、そのそれぞれのギャップ信頼値(たとえば、その区間内のそれぞれの時刻についてギャップ信頼値)で重み付けすることができる。よって、ギャップ信頼値を用いて再生環境における背景雑音の推定値を生成することは、候補雑音推定値をそれぞれのギャップ信頼値で重み付けし、重み付けされた候補雑音推定値を組み合わせることを含みうる。言い換えれば、各時刻tについて、時刻tを含む区間(たとえば、スライディング分析窓)が考慮される。区間は、区間内の各時刻について、候補雑音推定値を含むことができる。そして、時刻tについての実際の雑音推定値は、時刻tを含む区間についての候補雑音推定値を組み合わせることによって、特に、各候補雑音推定値をそれぞれの候補雑音推定値の時間についてのギャップ信頼値で重み付けした、重み付けされた候補雑音推定値を組み合わせることによって得られてもよい。
【0023】
たとえば、候補雑音推定値のそれぞれは、エコーキャンセルされた雑音推定値のシーケンスの最小のエコーキャンセルされた雑音推定値、Mresminであってもよく、前記各時間区間についての雑音推定値は、その時間区間についての最小のエコーキャンセルされた雑音推定値の、その時間区間についてのギャップ信頼値の対応するものによって重み付けされたものの組み合わせであってもよい。最小のエコーキャンセルされた雑音推定値は、エコーキャンセルされた雑音推定値のシーケンスの最小値に関係してもよい。たとえば、最小のエコーキャンセルされた雑音推定値は、エコーキャンセルされた雑音推定値のシーケンスに対して最小追従〔最小フォロー〕(minimum following)を実行することによって得られてもよい。最小追従は、所与の長さ/サイズの分析窓を使用して動作してもよい。その際、最小のエコーキャンセルされた雑音推定値は、分析窓内のエコーキャンセルされた雑音推定値の最小値であってもよい。エコーキャンセルされた雑音推定値は、典型的には、較正されたエコーキャンセルされた雑音推定値であり、これらの推定値は、再生信号と同じレベル領域に入るように較正を受けている。別の例では、候補雑音推定値のそれぞれは、マイクロフォン出力信号値のシーケンスの最小の較正されたマイクロフォン出力信号値Mminであってもよく、前記各時間区間の雑音推定値は、その時間区間についてのギャップ信頼値の対応するものによって重み付けされた、その時間区間についての最小マイクロフォン出力信号値の組み合わせであってよい。マイクロフォン出力信号値は、典型的には、較正されたマイクロフォン出力信号値であり、これらの信号値は、再生信号と同じレベル領域に入るように較正を受けている。
【0024】
あるクラスの実施形態では、候補雑音推定値は、(ギャップ信頼性で重み付けされたサンプルの)最小フォロワ(minimum follower)において処理される。これは、最小フォロワ処理が、異なる時間区間のシーケンスのそれぞれにおける候補雑音推定値に対して実行されるという意味においてである。最小フォロワは、各候補サンプル(ある時間区間についての候補雑音推定値の各値)を、関連するギャップ信頼度が所定の閾値より高い場合にのみ、その分析窓内に含める(たとえば、最小フォロワは、サンプルについてのギャップ信頼度が閾値以上である場合に、候補サンプルに1の重みを割り当て、最小フォロワは、サンプルについてのギャップ信頼度が閾値より小さい場合に、候補サンプルにゼロの重みを割り当てる)。このクラスの実施形態では、各時間区間についての雑音推定値の生成は、(a)ギャップ信頼値の対応する1つが所定の閾値を超える当該時間区間についての候補雑音推定値のそれぞれを識別するステップと、(b)その時間区間についての雑音推定値を、ステップ(a)において識別された候補雑音推定値のうちの最小のものとなるように生成するステップとを含む。
【0025】
典型的な実施形態では、各ギャップ信頼値(すなわち、時刻tについてのギャップ信頼値)は、再生信号レベルにおける最小値(Smin)が、(時刻tにおける)マイクロフォン出力信号の平滑化されたレベル(Msmoothed)からどの程度異なるかを示す。Smin値が平滑化されたレベルMsmoothedから隔たっているほど、時刻tに再生コンテンツにおいてギャップがあるという信頼度は大きくなり、よって、時刻tについての候補雑音推定値(たとえば、時刻tについての値MresminまたはMmin)が再生環境における(時刻tでの)背景雑音を示すという信頼度は大きくなる。
【0026】
典型的には、この方法は、ギャップ信頼値のシーケンスを生成するステップと、ギャップ信頼値を使用して背景雑音推定値のシーケンスを生成するステップとを含む。本方法のいくつかの実施形態はまた、背景雑音推定値のシーケンスを使用して、オーディオ入力信号に対して雑音補償を実行するステップを含む。
【0027】
いくつかの実施形態は、候補雑音推定値を生成するために、(マイクロフォン出力信号および再生信号に応答して)エコーキャンセルを実行する。他の実施形態は、エコーキャンセルを実行するステップなしに、候補雑音推定値を生成する。
【0028】
本発明のいくつかの実施形態は、以下の側面の一つまたは複数を含む。
【0029】
あるそのような側面は、(各ギャップの存在の信頼性を示すデータを使用しての)再生コンテンツにおけるギャップの判別および(たとえば、ギャップ信頼性で重み付けされた諸候補雑音推定値において、再生コンテンツ・ギャップに対応するサンプリング・ギャップを実装することによる)背景雑音推定値の生成に関する。いくつかの実施形態は、候補雑音推定値を生成し、候補雑音推定値にギャップ信頼度データ値で重み付けして、ギャップ信頼度で重み付けされた候補雑音推定値を生成し、ギャップ信頼度で重み付けされた候補雑音推定値を使用して背景雑音推定値を生成する。いくつかの実施形態では、候補雑音推定値の生成は、エコーキャンセルを実行するステップを含む。他の実施形態では、候補雑音推定値の生成は、エコーキャンセルを実行するステップを含まない。
【0030】
別のそのような側面は、入力オーディオ信号に対する雑音補償(たとえば、雑音補償付きメディア再生)を実行するために、本発明の任意の実施形態に従って生成された背景雑音推定値を使用する方法およびシステムに関する。
【0031】
別のそのような側面は、再生環境における背景雑音を推定し、それにより、入力オーディオ信号に対する雑音補償(たとえば、雑音補償付きメディア再生)を実行するために有用な背景雑音推定値を生成する方法およびシステムに関する。いくつかのそのような実施形態では、本方法および/またはシステムはまた、背景雑音推定値の生成においてエコーキャンセレーション(AEC)が使用される場合、自己較正(たとえば、雑音推定を実装するための、再生信号、マイクロフォン出力信号、および/またはエコーキャンセル残差値への適用のための較正利得の決定)および/またはシステム故障(たとえば、ハードウェア故障)の自動検出をも実行する。
【0032】
本発明の諸側面は、さらに、本発明の方法またはそのステップのいずれかの実施形態を実行するように構成された(たとえば、プログラムされた)システムと、本発明の方法またはそのステップのいずれかの実施形態を実行するためのコード(たとえば、実行するために実行可能なコード)を記憶する、データの非一時的記憶を実装する有形の非一時的なコンピュータ読取可能媒体(たとえば、ディスクまたは他の有形の記憶媒体)とを含む。たとえば、本発明のシステムの実施形態は、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであって、本発明の方法またはそのステップの実施形態を含む、データに対して多様な動作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または、他の仕方で構成されたものであってもよく、または、それらを含むことができる。そのような汎用プロセッサは、入力装置と、メモリと、それに対して呈されるデータに応答して本発明の方法(またはそのステップ)の実施形態を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムとを含むコンピュータ・システムであってもよく、または、それらを含むことができる。
【図面の簡単な説明】
【0033】
【
図1】雑音補償付きメディア再生(NCMP)を実装するオーディオ再生システムのブロック図である。
【
図2】マイクロフォン出力信号から、エコーキャンセレーションとして知られている従来の方法により雑音推定値を生成するための従来のシステムのブロック図である。マイクロフォン出力信号は、再生環境において音(再生コンテンツを示す)および雑音を捕捉することによって生成される。
【
図3】マイクロフォン出力信号の各周波数帯域の雑音レベル推定値を生成するための本発明のシステムのある実施形態のブロック図である。典型的には、マイクロフォン出力信号は、再生環境における音(再生コンテンツを示す)および雑音を捕捉することによって生成される。
【
図4】
図4のシステムの雑音推定値生成サブシステム37の実装のブロック図である。
【発明を実施するための形態】
【0034】
記法および名称
特許請求の範囲を含めこの開示を通じて、再生信号における「ギャップ」は、再生コンテンツがない(または所定の閾値未満のレベルを有する)再生信号の時刻(または時間区間)を表わす。
【0035】
特許請求の範囲を含めこの開示を通じて、「スピーカー」および「ラウドスピーカー」は、単一のスピーカー・フィードによって駆動される任意の音放射トランスデューサ(または一組のトランスデューサ)を表わすために同義で使用される。ヘッドフォンの典型的なセットは、2つのスピーカーを含む。スピーカーは、単一の共通スピーカー・フィードによってみな駆動される複数のトランスデューサ(たとえば、ウーファーおよびツイーター)を含むように実装されてもよい(スピーカー・フィードは、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受けることがある)。
【0036】
特許請求の範囲を含めこの開示を通じて、信号またはデータ「に対して」動作を実行するという表現(たとえば、信号またはデータのフィルタリング、スケーリング、変換、または信号への利得の適用)は、広い意味で使用され、信号またはデータに対して直接、または該信号またはデータの処理されたバージョンに対して(たとえば、それに対する動作の実行前に、予備的なフィルタリングまたは前処理を受けた信号のバージョンに対して)動作を実行することを表わす。
【0037】
特許請求の範囲を含めこの開示を通じて、「システム」という表現は、広い意味で装置、システム、またはサブシステムを表わすために使用される。たとえば、デコーダを実装するサブシステムはデコーダ・システムと称されてもよく、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、そのサブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部源から受領されるシステム)がデコーダ・システムと称されてもよい。
【0038】
特許請求の範囲を含めこの開示を通じて、用語「プロセッサ」は、データ(たとえば、オーディオ、またはビデオまたは他の画像データ)に対して動作を実行するためにプログラム可能なまたは他の仕方で構成可能なシステムまたは装置を表わすために広義で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他の音声データに対してパイプライン処理を実行するようにプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサまたはコンピュータ、プログラマブルマイクロプロセッサチップまたはチップセットを含む。
【0039】
特許請求の範囲を含めこの開示を通じて、用語「結合する」または「結合された」は、直接的または間接的な接続を意味するために使用される。よって、第1の装置が第2の装置に結合する場合、その接続は、直接接続を通じて、または他の装置および接続を介して間接接続を通じてでありうる。
【0040】
実施形態の詳細な説明
本発明の多くの実施形態が技術的に可能である。当業者には、それらをどのように実施するかが、本開示から明白であろう。本発明のシステムおよび方法のいくつかの実施形態は、
図3および
図4を参照して本明細書に記載される。
【0041】
図4のシステムは、再生環境28における背景雑音の推定値を生成し、該雑音推定値を使用して入力オーディオ信号に対して雑音補償を実行するように構成される。
図3は、
図4のシステムの雑音推定サブシステム37の実装のブロック図である。
【0042】
図4の雑音推定サブシステム37は、本発明の雑音推定方法のある実施形態に従って、背景雑音推定値(典型的には、それぞれが異なる時間区間に対応する雑音推定値のシーケンス)を生成するように構成される。
図4のシステムはまた、雑音補償サブシステム24を含み、これは、入力オーディオ信号23に対して、サブシステム37から出力される雑音推定値(または、サブシステム39がサブシステム37から出力される雑音推定値を修正するように動作する場合は、後処理サブシステム39から出力される、そのような雑音推定値の後処理されたバージョン)を使用して雑音補償を実行して、入力信号23の雑音補償されたバージョン(再生信号25)を生成するように結合および構成されている。
【0043】
図4のシステムは、オーディオ信号23を出力し、雑音補償サブシステム24に提供するように結合および構成されたコンテンツ源22を含む。信号23は、オーディオ・コンテンツ(本明細書では時に、メディア・コンテンツまたは再生コンテンツと称される)の少なくとも1つのチャネルを示し、再生されて、オーディオ・コンテンツの各チャネルを示す(環境28中の)音を生成することが意図されている。オーディオ信号23は、スピーカー・フィード(またはマルチチャネル再生コンテンツの場合は二つ以上のスピーカー・フィード)であってもよく、雑音補償サブシステム24は、スピーカー・フィードの再生利得を調整することによって、そのような各スピーカー・フィードに雑音補償を適用するように結合および構成されてもよい。あるいはまた、システムの別の要素が、オーディオ信号23に応答してスピーカー・フィード(または複数のスピーカー・フィード)を生成してもよい(たとえば、雑音補償サブシステム24は、オーディオ信号23に応答して少なくとも1つのスピーカー・フィードを生成し、スピーカー・フィードの再生利得を調整することによって各スピーカー・フィードに雑音補償を適用し、再生信号25が少なくとも1つの雑音補償されたスピーカー・フィードからなるようにするように結合および構成されてもよい)。
図4のシステムのある動作モードでは、サブシステム24は雑音補償を実行せず、再生信号25のオーディオ・コンテンツは信号23のオーディオ・コンテンツと同じである。
【0044】
スピーカー・システム29(少なくとも1つのスピーカーを含む)は、再生信号25に応答して(再生環境28中で)音を発するように結合され、構成される。信号25は、単一の再生チャネルから構成されてもよいし、2つ以上の再生チャネルから構成されてもよい。典型的な動作では、スピーカー・システム29の各スピーカーは、信号25の異なるチャネルの再生コンテンツを示すスピーカー・フィードを受領する。応答して、スピーカー・システム29は、スピーカー・フィードに応答して(再生環境28において)音を発する。音は、(環境28中の)聴取者31によって、入力信号23の再生コンテンツの雑音補償されたバージョンとして知覚される。
【0045】
【0046】
本開示は、次の3つのタイプの背景雑音に言及する:
気を散らす雑音(distracting noise)(たとえば、ドアのバタンと閉まる音、自動車のクラクション、道路のバンプ上の走行といった、インパルス的で低頻度の事象(たとえば、0.5秒未満の持続時間を有する事象));
破壊的(disrupting)(たとえば、上空の飛行機の通過、短いトンネルを通過する運転、新しい路面の区間を通過する運転など、再生コンテンツに干渉する短い事象)
広汎性(pervasive)(始まりと終わりがあることがあるが、一般には定常的なままである持続的な/一定の雑音、たとえば、空調、ファン、都会の周囲の雑音、雨、台所の器具)。
【0047】
発明者らによる実験に基づく重要度順に、成功した雑音補償の特徴は下記を含む:
安定性(雑音推定値は、マイクロフォンで測定された再生コンテンツによって破損されるべきではない。雑音推定値、よって補償利得は、再生コンテンツにおける変化に起因して著しく変動するべきではない。雑音推定値は、雑音の「破壊的」源よりも速いものを追跡するべきではない。雑音推定値は、「気を散らす」インパルス的事象を無視すべきである);
高速反応時間(良好な雑音推定値は、雑音の「広汎性」源のみを追跡する。しかしながら、偉大な雑音推定値は、雑音の「破壊的」源を高い信頼性をもって追跡することができる。雑音条件の変化に迅速に反応することは、ユーザー体験にとってきわめて重要である);および
快適な補償量(雑音補償は、雑音の存在下で、了解性および音色の保存を保証するべきである。補償が低すぎるか高すぎると、ユーザー体験は満足いかないものになる。補償は、マルチバンドの意味で、バルクのボリューム調整よりも忠実に実行される)。
【0048】
最小追従フィルタを使って定常的な雑音を追跡する雑音推定は確立された技術である。そのような推定を実行するために、最小フォロワ・フィルタは、入力サンプルを分析窓と呼ばれるスライドする固定サイズのバッファに蓄積し、そのバッファ内の最小サンプル値を出力する。最小追従は、短い分析窓および長い分析窓の両方について、インパルス的で気を散らす雑音源を除去する。最小フォロワは、再生コンテンツにおけるギャップ中に、マイクロフォンの近傍におけるユーザーの発話の合間に現われる最小を保持するので、長い分析窓(10秒のオーダーの持続時間を有する)は、定常的な雑音フロア(広汎性雑音)を位置特定することに有効である。分析窓が長いほど、ギャップが見つかる可能性が高くなる。しかしながら、このアプローチは、最小が実際に再生コンテンツのギャップであるか否かにかかわらず、最小に追従する。さらに、長い分析窓は、システムが背景雑音の増加を追跡して上昇するのに長い時間を要し、これは雑音補償のための顕著な欠点となる。長い分析窓は、典型的には、最終的には広汎性の雑音源を追跡するが、破壊的な雑音源の追跡を見逃す。
【0049】
本発明の典型的な実施形態の重要な側面は、再生信号の知識を使用して、マイクロフォン出力から(および任意的には、マイクロフォン出力に対してエコーキャンセルを実行することによって生成されるエコーキャンセルされた雑音推定値からも)雑音推定値を測定するのに最も好都合な条件になるのはいつかを決定することである。時間‐周波数領域で見る現実的な再生信号は、典型的には、信号エネルギーが低い点を含み、これは、時間および周波数におけるそれらの点が、周囲雑音条件を測定するための良好な機会であることを含意する。本発明の典型的な実施形態の重要な側面は、これらの機会がどの程度良好であるかを定量化する方法である(たとえば、そのそれぞれに、「ギャップ信頼」値または「ギャップ信頼度」と呼ばれる値を割り当てることによる)。このようにして問題にアプローチすることは、(エコーキャンセルされた雑音推定値を生成するための)エコーキャンセラを必要とすることなく、多くのタイプのコンテンツについて雑音補償(または雑音推定)を可能にし、(エコーキャンセラが使用される場合は)エコーキャンセラの性能の要件を下げる。
【0050】
次に、
図3および
図4を参照して、再生コンテンツのいくつかの異なる周波数帯域の各帯域について、背景雑音レベルの推定値のシーケンスを計算するための本発明の方法およびシステムの実施形態を記述する。
図4は、システムのブロック図であり、
図3は、
図4のシステムのサブシステム37の実装のブロック図である。
図4の要素(再生環境28、スピーカー・システム29、マイクロフォン30、および聴取者31を除く)は、プロセッサ内でまたはプロセッサとして実装できることが理解されるべきである。(本明細書でサブシステムと称されるものを含め)そのような要素の信号(またはデータ)処理動作を実行するものは、ソフトウェア、ファームウェア、またはハードウェアで実装される。
【0051】
マイクロフォン出力信号(たとえば、
図4の信号「Mic」)は、聴取者(たとえば、
図4の聴取者31)と同じ音響空間(
図4の環境28)を占有するマイクロフォン(たとえば、
図4のマイクロフォン30)を使用して生成される。2つ以上のマイクロフォンを使用して(たとえば、個々の出力を組み合わせて)マイクロフォン出力信号を生成することが可能であり、よって、「マイクロフォン」という用語は、本明細書では、単一のマイクロフォン、または単一のマイクロフォン出力信号を生成するように動作させられる2つ以上のマイクロフォンのいずれかを表わすために広義で使用される。マイクロフォン出力信号は、音響再生信号(
図4のスピーカー・システム29から放射された音の再生コンテンツ)および競合する背景雑音の両方を示し、周波数領域表現に変換され(たとえば、
図4の時間‐周波数変換要素32によって)、それにより周波数領域マイクロフォン出力データを生成する。周波数領域マイクロフォン出力データは(たとえば、
図4の要素33によって)パワー領域に帯域化〔バンディング、帯域分割〕され(banded)、マイクロフォン出力値(たとえば、
図3および
図4の値M')を与える。各周波数帯域について、較正利得G(たとえば、
図3の利得ステージ11によって適用される)を用いて、それらの値のうちの対応するもの(値のうちの一つM')のレベルが調整され、調整された値M(たとえば、
図3の値Mの1つ)を生成する。較正利得Gの適用は、デジタル再生信号(値S)とデジタル化されたマイクロフォン出力信号レベル(値M')におけるレベル差を補正するために必要とされる。(各周波数帯域についての)Gを自動的に、および測定を通じて決定する方法を下記で論じる。
【0052】
再生コンテンツの各チャネル(たとえば、
図4の雑音補償された信号25の各チャネル)は、典型的にはマルチチャネル再生コンテンツであり、周波数変換され(たとえば、
図4の時間‐周波数変換要素26によって、好ましくは、変換要素32によって実行されるのと同じ変換を使用して)、それにより周波数領域再生コンテンツ・データを生成する。(すべてのチャネルについての)周波数領域再生コンテンツ・データがダウンミックスされ(信号25が2つ以上のチャネルを含む場合)、結果として生じる周波数領域再生コンテンツ・データの単一ストリームが帯域化されて(たとえば、
図4の要素27によって、好ましくは、値M'を生成するために要素33によって実行されるのと同じ帯域化演算を使用して)、再生コンテンツ値S(たとえば、
図3および
図4の値S)が得られる。また、値Sは、ハードウェア内の任意の待ち時間(たとえば、A/DおよびD/A変換に起因する待ち時間)を考慮するために、(たとえば、
図3の要素13によって本発明の実施形態に従って処理される前に)遅延されるべきである。この調整は粗調整と考えることができる。
【0053】
図4のシステムは、要素26および32から出力される周波数領域値に対してエコーキャンセルを実行することによって、エコーキャンセルされた雑音推定値を生成するように結合および構成されたエコーキャンセラ34と、エコーキャンセラ34から出力されたエコーキャンセルされた雑音推定値(残差値)に対して周波数帯域化を実行して、帯域化されたエコーキャンセルされた雑音推定値(残差値)M'res(各周波数帯域について値M'resを含む)を生成するように結合および構成された帯域化サブシステム35とを含む。
【0054】
信号25がマルチチャネル信号(Z個の再生チャネルを含む)である場合、エコーキャンセラ34の典型的な実装は、(要素26から)複数の周波数領域再生コンテンツ値ストリーム(各チャネルについて1ストリーム)を受領し、各再生チャネルについてフィルタW'
i(
図2のフィルタW'に対応する)を適応させる。この場合、マイクロフォン出力信号Yの周波数領域表現は、W
1X+W
2X+…+W
ZX+Nとして表わすことができ、ここで、各W
iは、Z個のスピーカーのうち異なるもの(「i」番目のもの)についての伝達関数である。そのようなエコーキャンセラ34の実装は、マイクロフォン出力信号Yの周波数領域表現から各W'
iX推定値(チャネル毎に一つ)を減算して、
図2のエコーキャンセルされた雑音推定値Y'に対応する単一のエコーキャンセルされた雑音推定値(または「残差」)値ストリームを生成する。
【0055】
一般に、エコーキャンセルされた雑音推定値は、マイクロフォン出力信号にエコーキャンセレーション(エコーは、再生信号の音/オーディオ・コンテンツの結果として生じるまたはそれに関係する)を適用することによって得られる。よって、エコーキャンセルされた雑音推定(エコーキャンセルされた雑音推定値)は、マイクロフォン出力信号からの音の結果として生じるまたはそれに関係する(または、別の言い方をすれば、再生信号のオーディオ・コンテンツの結果として生じる、またはそれに関係する)エコーをキャンセルすることによって得られると言える。これは周波数領域で行なうことができる。
【0056】
エコーキャンセルされた雑音推定値を生成するためにエコーキャンセラ34によって使用される各適応フィルタ(すなわち、
図2のフィルタW'に対応するエコーキャンセラ34によって実装される各適応フィルタ)のフィルタ係数は、帯域化要素36において帯域化される。帯域化されたフィルタ係数は、要素36からサブシステム43に提供される。サブシステム37によって使用される利得値Gを生成するために、サブシステム43によって使用されるためである。
【0057】
任意的に、エコーキャンセラ34は省略され(または動作しない)、よって、帯域化要素36には適応フィルタ値が与えられず、帯域化された適応フィルタ値は36からサブシステム43に与えられない。この場合、サブシステム43は、帯域化された適応フィルタ値を使用しない(後述の)方法の一つで、利得値Gを生成する。
【0058】
エコーキャンセラが使用される場合(すなわち、
図4に示されるようにシステムが要素34および35を含み、使用する場合)、エコーキャンセラ34から出力される残差値が帯域化され(たとえば、
図4のサブシステム35において)、帯域化された雑音推定値M'resが生成される。較正利得G(サブシステム43によって生成される)は、(たとえば、
図3の利得ステージ12によって)値M'resに適用され(すなわち、利得Gは各帯域について1つの帯域固有利得の集合を含み、各帯域固有利得は対応する帯域内の値M'resに適用される)、信号(値M'resによって示される)を再生信号(値Sによって示される)と同じレベル領域にする。各周波数帯域について、値M'resのうち対応するものが、較正利得G(
図3の利得ステージ12によって適用される)を用いてレベルを調整され、調整された値Mres(すなわち、
図3の値Mresの1つ)を生成する。
【0059】
エコーキャンセラが使用されない場合(すなわち、エコーキャンセラ34が省略されるか、動作しない場合)、(
図3および
図4の本明細書の説明における)値M'resは、値M'によって置き換えられる。この場合、(要素33からの)帯域化された値M'は、利得ステージ11の入力に対してだけでなく、利得ステージ12の入力にも(
図3に示される値M'resの代わりに)呈される。利得Gは、(
図3の利得ステージ12によって)値M'に適用されて、調整された値Mを生成し、調整された値M(
図3に示されるように調整された値Mresではなく)が、調整された値Mresと同様に(そしてその代わりに)サブシステム20によって処理され、雑音推定値が生成される。
【0060】
典型的な実装(
図3に示されるものを含む)では、雑音推定値生成サブシステム37は、雑音推定値M'resの調整されたバージョン(Mres)における(すなわち、それによって決定される)ギャップを位置特定するために、再生コンテンツ値Sに対して最小追従を実行するように構成される。好ましくは、これは、
図3を参照して説明されるように実装される。
【0061】
図3に示される実装では、サブシステム37は、一対の最小フォロワ(13および14)を含み、両者は同じサイズの分析窓を用いて動作する。最小フォロワ13は、値Sの(各分析窓内の)最小値を示す値S
minを生成するために、諸値Sを見ていくように結合および構成される。最小フォロワ14は、値Mresの(各分析窓内の)最小値を示す値M
resminを生成するために、値Mresを見ていくように結合および構成される。発明者らは、値S、M、およびMresは、少なくともおおまかには時間整列されているので、再生コンテンツのギャップ(再生コンテンツ値Sとマイクロフォン出力値Mとの比較によって示される)において、次のことを認識した:
値Mresの最小値(エコーキャンセラ残差)は、再生環境における雑音の推定値を示すと、確信をもって考えられる;
M(マイクロフォン出力信号)値の最小値は、再生環境における雑音の推定値を示すと、確信をもって考えられる。
【0062】
発明者らはまた、再生コンテンツのギャップ中以外のときには、値Mres(または値M)の最小値は、再生環境における雑音の正確な推定値を示さないことがあることを認識した。
【0063】
マイクロフォン出力信号(M)およびSminの値に応答して、サブシステム16はギャップ信頼値を生成する。サンプル・アグリゲータ・サブシステム20は、候補雑音推定値としてMresminの値(またはエコーキャンセルが実行されない場合はMの値)を使用し、候補雑音推定値の信頼性の指標としてギャップ信頼値(サブシステム16によって生成される)を使用するように構成される。
【0064】
より具体的には、
図3のサンプル・アグリゲータ・サブシステム20は、候補雑音推定値(M
resmin)を(サブシステム16において生成された)ギャップ信頼値によって重み付けされる仕方で組み合わせて、各分析窓(すなわち、
図3に示されるように、長さτ2を有するアグリゲータ20の分析窓)についての最終雑音推定値を生成する。低いギャップ信頼度を示すギャップ信頼値に対応する重み付けされた候補雑音推定値は、重み0か、または高いギャップ信頼度を示すギャップ信頼値に対応する重み付けされた候補雑音推定値より小さな重みを割り当てられる。よって、サブシステム20は、ギャップ信頼値を使用して、雑音推定値のシーケンス(各分析窓について、各周波数帯域について1つの雑音推定値を含む、現在の雑音推定値の集合)を出力する。
【0065】
サブシステム20の単純な例は、(ギャップ信頼度で重み付けされたサンプルの)最小フォロワ、たとえば、関連するギャップ信頼度が所定の閾値より高い場合にのみ、候補サンプル(Mresminの値)を分析窓内に含める最小フォロワである(すなわち、サブシステム20は、サンプルについてのギャップ信頼度が閾値以上である場合には、サンプルMresminに1の重みを割り当て、サンプルのギャップ信頼度が閾値より小さい場合には、サンプルのMresminに0の重みを割り当てる)。サブシステム20の他の実装は、他の仕方でギャップ信頼度で重み付けされたサンプル(分析窓において、ギャップ信頼値の対応するものによってそれぞれ重み付けされたMresminの値)を集約する(たとえば、その平均を決定する、または他の仕方で集計する)。ギャップ信頼度で重み付けされたサンプルを集約するサブシステム20の例示的な実装は、ギャップ信頼値によって制御される更新レートを有する線形補間器/単極平滑器である(または、それを含む)。
【0066】
サブシステム20は、入ってくるサンプル(Mresminの値)が現在の雑音推定値(サブシステム20によって決定される)より低いときはギャップ信頼度を無視する戦略を採用してもよい。ギャップが利用可能でない場合でも雑音条件の低下を追跡するためである。
【0067】
好ましくは、サブシステム20は、ギャップ信頼度によって決定されるような新しいサンプリング機会が生じるまで、低いギャップ信頼度の期間中、雑音推定値を効果的に保持するように構成される。たとえば、サブシステム20のある好ましい実装では、サブシステム20が(ある分析窓内の)現在の雑音推定値を決定し、その際、ギャップ信頼値(サブシステム16によって生成される)が、再生コンテンツにギャップがあることの低い信頼度を示す(たとえば、ギャップ信頼値が所定の閾値よりも低いギャップ信頼度を示す)場合、サブシステム20は、(新しい分析窓において)ギャップ信頼値が、再生コンテンツにギャップがあることの、より高い信頼度を示す(たとえば、ギャップ信頼値が、閾値よりも高いギャップ信頼度を示す)まで、現在の雑音推定値を出力し続け、より高い信頼度になった時点で、サブシステム20は更新された雑音推定値を生成(および出力)する。(ギャップ信頼値を決定および使用することなく)雑音推定値のシーケンスとして最小フォロワ14から出力される候補雑音推定値のみに頼ったり、または他の従来の仕方で雑音推定値を生成したりするのではなく、本発明の好ましい実施形態に従ってこのようにギャップ信頼値を使用して、雑音推定値を生成することにより(低いギャップ信頼度の期間中、ギャップ信頼度によって決定されるところの新たなサンプリング機会が生じるまで、雑音推定値を保持することによることも含む)、使用されるすべての最小フォロワ分析窓の長さ(すなわち、最小フォロワ13および14のそれぞれの分析窓長τ1、およびもしアグリゲータ20がギャップ信頼度で重み付けされたサンプルの最小フォロワとして実装されるならば、アグリゲータ20の分析窓長τ2)は、従来のアプローチに比べて約1桁短縮できる。これは、雑音推定システムが、ギャップが発生したときに雑音条件を追跡することができる速度を改善する。分析窓サイズについての典型的なデフォルト値を後述する。
【0068】
あるクラスの実装では、サンプル・アグリゲータ20は、現在の雑音推定値だけでなく、本明細書では「ギャップ健全性(gap health)」と呼ばれる、各周波数帯域において雑音推定値がどのくらい最新かの指標をも前方報告する(すなわち出力する)ように構成される。典型的な実装では、ギャップ健全性は単位なしの尺度であり、(ある典型的な実装では)次のように計算される:
【数1】
ここで、nは整数であり、インデックスiは1からnの範囲であり、GapConfidence
i値は、サブシステム16によってサンプル・アグリゲータ20に提供された最新のn個のギャップ信頼値である。典型的には、ギャップ健全性値(たとえば、値GH)は、各周波数帯域について決定され、サブシステム16は、最小フォロワ13の各分析窓についてのギャップ信頼値(各周波数帯域について1つ)の集合を生成する(そしてアグリゲータ20に提供する)(よって、上記のGHの例におけるn個の直近のギャップ信頼値は、関連する帯域についてのn個の直近のギャップ信頼値である)。
【0069】
あるクラスの実装では、ギャップ信頼度サブシステム16は、ギャップ信頼値のシーケンスを生成するために、Smin値(最小フォロワ13から出力される)と、M値(利得ステージ11から出力される)の平滑化されたバージョン(すなわち、サブシステム16の平滑化サブシステム17から出力される平滑化された値Msmoothed)とを処理するように構成される。これはたとえば、Smin値をMsmoothed値と比較することによる。典型的には、サブシステム16は、最小フォロワ13の各分析窓についてギャップ信頼値の集合(各周波数帯域について1つ)を生成し(そしてアグリゲータ20に提供し)、ここでの説明は、特定の周波数帯域についての(その帯域についてのSminおよびMsmoothedの値からの)ギャップ信頼値の生成に関する。
【0070】
(1つの帯域について、1つの時点での)各ギャップ信頼値は、対応するMresmin値(すなわち、同じ帯域と時刻についてのMresmin値)が、再生環境における雑音状態をどのくらいよく示しているかを示す。(Mres値に対して作用する)最小フォロワ14によって(再生コンテンツのギャップの間に)認識される各最小(Mresmin)は、再生環境における雑音状態を示すと確信をもって考えることができる。再生コンテンツにギャップがない場合は、(Mres値に対して作用する)最小フォロワ14によって認識される最小(Mresmin)は、再生環境における雑音状態を示すものと確信をもって考えることはできない。その代わりに再生信号(S)における最小(Smin)を示すことがありうるからである。
【0071】
サブシステム16は、典型的には、各ギャップ信頼値(時刻tについての値GapConfidence)を、時刻tにおいてSminがマイクロフォンによって検出された平滑化された(平均)レベル(Msmoothed)からどのくらい異なるかを示すように生成するように実装される。Sminが、マイクロフォンによって検出された平滑化された(平均)レベル(Msmoothed)から遠いほど、時刻tにおいて再生コンテンツにギャップがあるという信頼度が大きく、よって、値Mresminが再生環境における(時刻tでの)雑音条件を表わすという信頼度が大きい。
【0072】
各帯域についての各ギャップ信頼値(すなわち、各時刻についての、たとえば最小フォロワ13の各分析窓についての、ギャップ信頼値)の計算は、時刻tにおける最小追従された再生コンテンツ・エネルギー・レベルS
minと、同じ時刻tにおける平滑化されたマイクロフォン・エネルギー・レベルM
smoothedとに基づく。ある好ましい実施形態では、サブシステム16から出力される各ギャップ信頼値は、次式に比例する単位なしの値である:
【数2】
ここで*は乗算を表わし、すべてのエネルギー値(S
minおよびM
smoothed)は線形領域にあり、δおよびCはチューニング・パラメータである。典型的には、Cの値は、マイクロフォン出力に対して作用するエコーキャンセラ(たとえば、
図4の要素34)によって提供されるエコーキャンセルの量に関連する。エコーキャンセラを使用しない場合、Cの値は1である。エコーキャンセラを使用する場合、キャンセル深さの推定値を使用して、Cを決定することができる。
【0073】
δの値は、再生コンテンツの観察された最小値と平滑化されたマイクロフォン・レベルとの間の所要の距離を設定する。このパラメータは、システムの更新レートと引き換えにエラーおよび安定性をトレードオフし、雑音補償利得がどれだけ積極的であるかに依存する。
【0074】
Msmoothedを比較ポイントとして使用することは、現在の条件を与えられて、現在のギャップ信頼値が、雑音の推定値に誤差を生じさせる深刻さを考慮に入れることを意味する。一般に、δが十分に大きいように選択された場合、雑音推定器の動作は、以下のシナリオを利用する。Sminの固定値については、Msmoothedの値が大きくなれば、ギャップ信頼度が高くなるはずである。実際の雑音条件が著しく増加するためにMsmoothedが増加する場合、残差エコーに起因する雑音推定値のより大きな誤差を許容することが可能である。誤差は、雑音条件の大きさに比べて小さくなるためである。再生コンテンツのレベルが増加するためにMsmoothedが増加する場合は、雑音補償器が大きな補償を実行しないため、雑音推定において生じる誤差の影響も低減される。Sminの固定値については、Msmoothedの値が小さくなれば、ギャップ信頼度は小さくなるはずである。この状況でマイクロフォン出力信号の残差エコーを通じて導入される誤差は、再生コンテンツに対して大きくなるので、補償体験に大きな影響を与える。よって、これらの条件の下でギャップ信頼度を計算する際には、雑音推定器がより保守的であることが適切である。
【0075】
エコーキャンセレーション(「AEC」)を強く用いる応用では、誤差を生じることのコストが低く、δを緩和(低減)することができ、その結果、雑音推定値(サブシステム20から出力される)は、より頻繁なギャップを示す。AECのない応用では、雑音推定値(サブシステム20から出力される)がより高品質のギャップのみを示すようにするため、δを増加させることができる。
【0076】
次の表は、エコーキャンセレーション(「AEC」)を採用する場合およびエコーキャンセレーションを採用しない場合における、本発明の雑音推定器の
図3の実装のチューニング・パラメータ(表の右側の2つの列は、チューニング・パラメータ(δ、C、最小フォロワ13、14の分析窓長τ1、およびギャップ信頼度で重み付けされたサンプルの最小フォロワとして実装されるサンプル・アグリゲータ20の分析窓長τ2)の典型的なデフォルト値を示す)の概要である:
【表1】
すべてのチューニング・パラメータは、システムの更新レートに影響し、これが、システムの雑音推定の精度とバランスされる。一般に、安定性が維持される限り、高い品質ギャップに頼る保守的で遅い応答のシステムよりも、ある程度の誤差が存在する、より速く応答するシステムのほうがよい。
【0077】
ギャップ信頼度(たとえば、
図3のサブシステム16の出力)を計算するための記述されたアプローチは、現在の信号対雑音比、すなわち、エコーレベル対現在の雑音レベルの比を計算する試みとは異なる。現在の雑音推定値に頼るいかなるギャップ信頼度計算も、一般に、雑音条件に変化があるとすぐに、あまりにも自由に、またはあまりにも保守的にサンプリングするため、機能しなくなる。現在のSNRを知ることは、(学術的な意味では)ギャップ信頼度を決定する最善の方法でありうるが、これは、雑音条件、すなわち、雑音推定器が決定しようとしているまさにそのものを知ることを要求する。これは巡回的な依存性であり、実際には機能しない。
【0078】
図4を再度参照して、本発明の典型的な実施形態による雑音推定システムの実装(
図4に示される)の追加的な要素をより詳細に説明する。上述のように、雑音補償は、雑音推定器サブシステム37(上述の
図3のように実装される)によって生成された雑音推定値スペクトルを使用して、再生コンテンツ23に対して(サブシステム24によって)実行される。雑音補償された再生コンテンツ25は、再生環境(環境28)内の聴取者(たとえば、聴取者31)に対してスピーカー・システム29を通じて再生される。聴取者と同じ音響環境(環境28)にあるマイクロフォン30は、環境(周囲)雑音と再生コンテンツ(エコー)の両方を受け取る。
【0079】
雑音補償された再生コンテンツ25は、(要素26において)変換され、(要素27において)ダウンミックスされ、周波数帯域化されて値Sを生成する。マイクロフォン出力信号は、(要素32において)変換され、(要素33において)帯域化されて、値M'を生成する。エコーキャンセラ(34)が使用される場合、エコーキャンセラからの残差信号(エコーキャンセルされた雑音推定値)が、(要素35において)帯域化されて、値Mres'を生成する。
【0080】
サブシステム43は、マイクロフォン対デジタルのマッピングに従って(各周波数帯域についての)較正利得Gを決定する。それは、再生コンテンツが引き出されて雑音推定器に提供される点(たとえば、時間‐周波数領域変換素子26の出力)におけるデジタル領域の再生コンテンツと、マイクロフォンが受領する再生コンテンツとの間の周波数帯域当たりのレベル差を捕捉する。利得Gの現在の値の各集合は、サブシステム43から雑音推定器37に提供される(雑音推定器37の
図3の実装の利得ステージ11および12による適用のため)。
【0081】
サブシステム43は、次の3つのデータ源のうちの少なくとも1つへのアクセスをもつ:
工場で事前設定された利得(メモリ40に記憶されている);
前のセッションの間に(サブシステム43によって)生成された(そしてメモリ41に記憶された)利得Gの状態;
AEC(たとえば、エコーキャンセラ34)が存在し使用されている場合、帯域化されたAECフィルタ係数エネルギー(たとえば、エコーキャンセラによって実装される、
図2のフィルタW'に対応する適応フィルタを決定するもの)。これらの帯域化されたAECフィルタ係数エネルギー(たとえば、
図4のシステムにおいて帯域化要素36からサブシステム43に提供されるエネルギー)は、利得Gのオンライン推定のはたらきをする。
【0082】
AECが使用されない場合(たとえば、エコーキャンセラ34を含まない
図4のシステムのバージョンが使用される場合)、サブシステム43は、メモリ40または41にある利得値から較正利得Gを生成する。
【0083】
このように、いくつかの実施形態では、サブシステム43は、
図4のシステムが、雑音推定を実施するために、サブシステム37による再生信号、マイクロフォン出力信号、およびエコーキャンセル残差値への適用のための較正利得を(たとえば、帯域化要素36から提供される帯域化されたAECフィルタ係数エネルギーから)決定することによって、自己較正を実行するように構成される。
【0084】
再び
図4を参照すると、雑音推定器37によって生成された雑音推定値のシーケンスは、任意的に(サブシステム39において)後処理される。後処理は、それに対する以下の動作の一つまたは複数の実行によるものを含む:
部分的に更新された雑音推定値からの欠けている雑音推定値の補定;
現在の雑音推定値の形状を、音色を保存するよう制約すること;および
現在の騒音推定値の絶対値の制約。
【0085】
利得値Gを決定するためにサブシステム43によって実行されるマイクロフォンからデジタルへのマッピングは、再生コンテンツが雑音推定器への提供のために引き出される点でのデジタル領域での再生コンテンツ(たとえば、時間‐周波数領域変換要素26の出力)とマイクロフォンによって受領される再生コンテンツとの間のレベル差を捕捉する。マッピングは、主に、スピーカー・システムおよびマイクロフォンの物理的離間および特性、ならびに音の再現およびマイクロフォン信号増幅において使用される電気的増幅利得によって決定される。
【0086】
最も基本的な例では、マイクロフォンからデジタルへのマッピングは、あらかじめ記憶された工場出荷時のチューニングであり、装置のサンプルに対して生産設計中に測定され、生産されるすべてのそのような装置に再利用されるものであってもよい。
【0087】
AEC(たとえば、
図4のエコーキャンセラ34)が使用される場合、マイクロフォンからデジタルへのマッピングに対する、より洗練された制御が可能である。利得Gのオンライン推定値は、適応フィルタ係数(エコーキャンセラによって決定される)の絶対値をとり、それらを一緒に束ねることによって決定できる。十分に安定したエコーキャンセラ設計については、推定される利得(G')に対する十分な平滑化があれば、このオンライン推定値はオフラインで事前に準備された工場較正と同じくらい良好でありうる。これにより、工場での調整の代わりに推定された利得G'を使用することができる。推定利得G'を計算することの別の利点は、工場出荷時のデフォルト値からの装置ごとの逸脱があってもそれを測定し、考慮に入れることができることである。
【0088】
推定利得G'は工場で決定された利得の代わりとなれるが、各帯域についての利得Gを決定するための、工場利得とオンラインで推定された利得G'の両方を組み合わせる堅牢なアプローチは次のとおり:
G=max(min(G',F+L),F-L)
ここで、Fはその帯域についての工場出荷時の利得、G'はその帯域についての推定利得、Lは工場出荷時の設定値からの最大許容偏差である。すべての利益はdBで表わされる。値G'が長期間にわたって指示される範囲を超える場合、このことはハードウェアの故障を示す可能性があり、雑音補償システムは安全な挙動に後退することを決定してもよい。
【0089】
本発明のある実施形態に従って(たとえば、
図4のシステムの要素37によって)生成される雑音推定値のシーケンスに対して(たとえば、
図4のシステムの要素39によって)実行される後処理ステップを使用して、より高い品質の雑音補償経験を維持することができる。たとえば、ピークを除去するために雑音スペクトルを特定の形状に強制的に適合させる後処理は、不快な仕方で再生コンテンツの音色を歪める補償利得を防止する助けとなりうる。
【0090】
本発明の雑音推定方法およびシステムのいくつかの実施形態の重要な側面は、後処理(たとえば、
図4のシステムの要素39の実装によって実行される)、たとえば、再生コンテンツにギャップがないために、他の帯域についての雑音推定値は十分に更新されたが(いくつかの周波数帯について)更新されずにいた古い雑音推定値を更新する補定(imputation)戦略を実装する後処理である。
【0091】
いくつかのそのような実施形態では、雑音推定器によって報告されるギャップ健全性(たとえば、上記のような、本発明の雑音推定器の
図3の実装のサブシステム20によって生成される、各周波数帯域についてのギャップ健全性値)は、(現在の雑音推定値の)どの帯域が「古い」または「最新」かを決定する。雑音推定値を補定するためにギャップ健全性値(各周波数帯域について雑音推定器37によって生成される)を使用する例示的な方法(
図4のシステムの要素39の実装によって実行される)は、以下のステップを含む:
最初の帯域から始めて、その帯域についてのギャップ健全性があらかじめ決定された閾値α
Healthyを超えているかどうかを検査することによって、十分に最新である帯域(健全な帯域)を位置特定する;
ひとたび健全な帯域が見つかったら、その後の帯域を、異なる閾値によって判別される低いギャップ健全性について、また再び前記閾値α
Healthyによって判別される最新の帯域について、検査する;
第2の健全な帯域が見つかり、それと第1の健全な帯域との間のすべての帯域が古い場合、それら2つの健全な帯域の間で線形補間演算が実行されて、少なくとも1つの補間された雑音推定値を生成する。(2つの健全な帯域間のすべての帯域についての)雑音推定値は、2つの健全な帯域間で対数領域で線形補間され、古くなっている帯域について新しい値を与える;次いで、
次の帯域から始めて上記の諸プロセスを続ける(すなわち、第1ステップから諸プロセスを繰り返す)。
【0092】
古くなった値の補定は、十分な数のギャップが常に利用可能であり、帯域がめったに古くなることがない実施形態では必要ではないことがある。単純な補定アルゴリズムのためのデフォルトの閾値は、次の表で与えられる:
【表2】
ギャップ健全性および雑音推定値に対して作用する他の方法ももちろん可能である。
【0093】
いくつかの実施形態では、
図4のシステムの要素39は、たとえば、エコーキャンセル(AEC)が背景雑音推定値の生成に使用される場合に、各周波数帯域について雑音推定器37によって生成されたギャップ健全性値を使用して、システム障害(たとえば、ハードウェア障害)の自動検出を実行するために実装される。
【0094】
本明細書に開示される本発明の典型的な実施形態に従ったギャップ信頼性決定(および決定されたギャップ信頼性データを雑音推定を実行するために使用すること)は、メディア再生シナリオにおいて遭遇する諸オーディオタイプの範囲にわたって、エコーキャンセラを必要とせずに、(ギャップ信頼値を使って決定される雑音推定値を使った)有望な雑音補償体験を可能にする。本発明のいくつかの実施形態に従ったギャップ信頼性決定を実行するエコーキャンセラを含むことにより、(決定されたギャップ信頼性データを使って決定された雑音推定値を使って)雑音補償の応答性を改善することができ、再生コンテンツ特性への依存性を除去することができる。ギャップ信頼性決定ならびに決定されたギャップ信頼性データを雑音推定を実行するために使用することの典型的な実装は、(やはり雑音推定を実行するために使用される)エコーキャンセラに課される要件を低下させ、最適化および試験に伴う多大な努力を低下させる。
【0095】
雑音補償システムからエコーキャンセラを除去することは:
エコーキャンセラは、キャンセルの性能および安定性を確保するようチューニングするために、多くの時間および研究を必要とするため、多くの開発時間を節約する;
(エコーキャンセレーションを実装するための)大きな適応フィルタバンクは、典型的には、大きなリソースを消費し、しばしば、実行するために高精度の演算を必要とするため、計算時間を節約する;
マイクロフォン信号と再生オーディオ信号との間の共有されるクロックドメインおよび時間整列の必要をなくす。エコーキャンセルは、再生信号と録音信号の両方が同じオーディオクロックで同期させることに頼る。
【0096】
(本発明の典型的な実施形態のいずれかに従って、たとえばエコーキャンセルなしに実装される)雑音推定器は、さらなる複雑性の節約のために、増加したブロック・レート/より小さなFFTサイズで動作することができる。周波数領域で実行されるエコーキャンセレーションは、典型的には、狭い周波数分解能を必要とする。
【0097】
本発明の典型的な実施形態に従って雑音推定値を生成するためにエコーキャンセレーション(およびギャップ信頼度決定)を使用する場合、(ユーザーが、本発明の典型的な実施形態に従って生成された雑音推定値を使用して実現された雑音補償された再生コンテンツを聞くときの)ユーザーの経験を損なうことなく、エコーキャンセラの性能を下げることができる。なぜなら、エコーキャンセラは、再生コンテンツのギャップを明らかにするために十分なキャンセルを実行するだけでよく、再生コンテンツのピークに対して高いERLEを維持する必要がないからである(ここで「ERLE」は、エコーリターンロス向上(echo return loss enhancement)を表わし、dBで表わされたエコーがエコーキャンセラによってどのくらい除去されるかの尺度である)。
【0098】
本発明の方法の例示的な実施形態は以下を含む:
〔E1〕
再生環境における音の放射中に、マイクロフォンを使用してマイクロフォン出力信号を生成する段階であって、前記音は再生信号のオーディオ・コンテンツを示し、前記マイクロフォン出力信号は再生環境における背景雑音およびオーディオ・コンテンツを示す、段階と;
前記マイクロフォン出力信号および前記再生信号に応答して、ギャップ信頼値を生成する(たとえば、
図3のシステムの要素16において)段階であって、各ギャップ信頼値は、異なる時刻tについてのものであり、前記再生信号において、時刻tにギャップが存在する信頼度を示す、段階と;
前記ギャップ信頼値を使用して再生環境における背景雑音の推定値を生成する(たとえば
図3のシステムの要素20において)段階とを含む、
方法。
〔E2〕
再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、前記雑音推定値のそれぞれは、異なる時刻tでの再生環境における背景雑音の推定値であり、雑音推定値の該それぞれ(たとえば、
図4の要素37の実装である
図3のシステムの要素20から出力された各雑音推定値)は、時刻tを含む異なる時間区間についての、前記ギャップ信頼値によって重み付けされた候補雑音推定値の組み合わせである、E1に記載の方法。
〔E3〕
雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間について雑音推定値を生成することは:
(a)(たとえば、
図3のシステムの要素20において)前記ギャップ信頼値のうちの対応するものが所定の閾値を超える当該時間区間についての候補雑音推定値のそれぞれを識別する段階と;
(b)その時間区間についての前記雑音推定値を、段階(a)において識別された候補雑音推定値のうちの最小のものとなるように生成する段階とを含む、
E2に記載の方法。
〔E4〕
前記候補雑音推定値のそれぞれは、エコーキャンセルされた雑音推定値のシーケンスの最小のエコーキャンセルされた雑音推定値(たとえば、
図3のシステムの要素14から出力された値M
resminの一つ)であり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小のエコーキャンセルされた雑音推定値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、E2に記載の方法。
〔E5〕
前記候補雑音推定値のそれぞれは、マイクロフォン出力信号値のシーケンスの最小のマイクロフォン出力信号値(たとえば、システムの要素12が値M'resではなくマイクロフォン出力値M'を受領する実装において、
図3のシステムの要素14から出力される値M
min)であり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小マイクロフォン出力信号値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、E2に記載の方法。
〔E6〕
前記ギャップ信頼値を生成する段階が:各時刻tについてギャップ信頼値を生成することを含み、各時刻tについてギャップ信頼値を生成することは:
(たとえば、
図3のシステムの要素13において)前記再生信号を処理して、時刻tについての再生信号レベルにおける最小値を決定し;
(たとえば、
図3のシステムの要素11および17において)前記マイクロフォン出力信号を処理して、時刻tについての前記マイクロフォン出力信号の平滑化されたレベルを決定し;
(たとえば、
図3のシステムの要素18において)時刻tについての再生信号レベルにおける前記最小値が、時刻tについての前記マイクロフォン出力信号の前記平滑化されたレベルからどのくらい異なるかを示すよう、時刻tについての前記ギャップ信頼値を決定することによって行なうことを含む、
E1に記載の方法。
〔E7〕
再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み:
(たとえば、
図4のシステムの要素24において)雑音推定値の前記シーケンスを使用して、オーディオ入力信号に対して雑音補償を実行する段階をも含む、
E1に記載の方法。
〔E8〕
前記オーディオ入力信号に対して雑音補償を実行する段階が前記再生信号の生成を含み、当該方法は:
前記再生信号を用いて少なくとも一つのスピーカーを駆動して、前記音を生成する段階を含む、
E7に記載の方法。
〔E9〕
前記マイクロフォン出力信号に対して時間領域から周波数領域への変換を実行し、それにより周波数領域マイクロフォン出力データを生成する段階と;
前記再生信号に応答して周波数領域再生コンテンツ・データを生成する段階とを含み、前記ギャップ信頼値は、前記周波数領域マイクロフォン出力データおよび前記周波数領域再生コンテンツ・データに応答して生成される、
E1に記載の方法。
本発明のシステムの例示的実施形態は下記を含む:
〔E10〕
再生環境における音の放射中にマイクロフォン出力信号を生成するよう構成されたマイクロフォンであって、前記音は再生信号のオーディオ・コンテンツを示し、前記マイクロフォン出力信号は再生環境における背景雑音およびオーディオ・コンテンツを示す、マイクロフォン(たとえば、
図4のシステムのマイクロフォン30)と;
前記マイクロフォン出力信号および前記再生信号を受領するよう結合され:
前記マイクロフォン出力信号および前記再生信号に応答して、ギャップ信頼値を生成する段階であって、各ギャップ信頼値は、異なる時刻tについてのものであり、前記再生信号において、時刻tにギャップが存在する信頼度を示す、段階と;
前記ギャップ信頼値を使用して再生環境における背景雑音の推定値を生成する段階とを実行するように構成された雑音推定システム(たとえば、
図4のシステムの要素26,27,32,33,34,35,36,37,39,43において)とを含む、
システム。
〔E11〕
前記雑音推定システムは、再生環境における背景雑音の前記推定値を生成することを、再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、前記雑音推定値のそれぞれは、異なる時刻tでの再生環境における背景雑音の推定値であり、雑音推定値の該それぞれ(たとえば、
図4の要素37の
図3の実装の要素20から出力された各雑音推定値)は、時刻tを含む異なる時間区間についての、前記ギャップ信頼値によって重み付けされた候補雑音推定値の組み合わせである、ように行なうよう構成されている、E10に記載のシステム。
〔E12〕
雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、前記雑音推定システムは、それぞれの前記時間区間について雑音推定値を生成することを:
(a)(たとえば、
図3の要素20において)前記ギャップ信頼値のうちの対応するものが所定の閾値を超える当該時間区間についての候補雑音推定値のそれぞれを識別する段階と;
(b)その時間区間についての前記雑音推定値を、段階(a)において識別された候補雑音推定値のうちの最小のものとなるように生成する段階とによって行なうことを含む、
E11に記載のシステム。
〔E13〕
前記候補雑音推定値のそれぞれは、エコーキャンセルされた雑音推定値のシーケンスの最小のエコーキャンセルされた雑音推定値(たとえば、
図3のシステムの要素14から出力される値M
resminの一つ)であり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小のエコーキャンセルされた雑音推定値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、E12に記載のシステム。
〔E14〕
前記候補雑音推定値のそれぞれは、マイクロフォン出力信号値のシーケンスの最小のマイクロフォン出力信号値(たとえば、システムの要素12がM'resではなくマイクロフォン出力値M'を受領する実装において
図3のシステムの要素14から出力される値M
min)であり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小マイクロフォン出力信号値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、E12に記載のシステム。
〔E15〕
前記ギャップ信頼値が各時刻tについてギャップ信頼値を含み、前記雑音推定システムは、各時刻tについてギャップ信頼値を生成することを:
(たとえば、
図4のシステムの要素37の
図3の実装の要素13において)前記再生信号を処理して、時刻tについての再生信号レベルにおける最小値を決定し;
(たとえば、
図4のシステムの要素37の
図3の実装の要素11および17において)前記マイクロフォン出力信号を処理して、時刻tについての前記マイクロフォン出力信号の平滑化されたレベルを決定し;
(たとえば、
図4のシステムの
図3の実装の要素18において)時刻tについての再生信号レベルにおける前記最小値が、時刻tについての前記マイクロフォン出力信号の前記平滑化されたレベルからどのくらい異なるかを示すよう、時刻tについての前記ギャップ信頼値を決定することによって行なうことを含む、
E10に記載のシステム。
〔E16〕
再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、当該システムは:
雑音推定値の前記シーケンスを受領するように結合され、雑音推定値の前記シーケンスを使用して、オーディオ入力信号に対して雑音補償を実行して、前記再生信号を生成するように構成された雑音補償サブシステム(たとえば、
図4のシステムの要素24)をも含む、
E10に記載のシステム。
〔E17〕
前記雑音推定システムが:
(たとえば、
図4のシステムの要素32および33において)前記マイクロフォン出力信号に対して時間領域から周波数領域への変換を実行し、それにより周波数領域マイクロフォン出力データを生成し;
(たとえば、
図4のシステムの要素26および27において)前記再生信号に応答して周波数領域再生コンテンツ・データを生成し;
前記ギャップ信頼値を、前記周波数領域マイクロフォン出力データおよび前記周波数領域再生コンテンツ・データに応答して生成するよう構成されている、
E10に記載のシステム。
【0099】
本発明の諸側面は、本発明の方法のいずれかの実施形態を実行するように構成された(たとえば、プログラムされた)システムまたは装置と、本発明の方法のいずれかの実施形態またはそのステップを実装するためのコードを記憶する有形のコンピュータ読み取り可能媒体(たとえば、ディスク)とを含む。たとえば、本発明のシステムは、本発明の方法の実施形態またはそのステップを含む、データに対する多様な操作のいずれかを実行するよう、ソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された、プログラマブルな汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであってもよく、または、それらを含むこともできる。そのような汎用プロセッサは、入力装置と、メモリと、それに対して呈されるデータに応答して本発明の方法の実施形態(またはそのステップ)を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムとを含むコンピュータ・システムであってもよく、または、それを含むこともできる。
【0100】
本発明のシステムのいくつかの実施形態(たとえば、
図3のシステムのいくつかの実装、または
図4のシステムの要素24、26、27、34、32、33、35、36、37、39、および43のいくつかの実装)は、本発明の方法の実施形態の実行を含む、オーディオ信号に対して必要な処理を実行するように構成される(たとえば、プログラムされた、および他の仕方で構成された)構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装される。あるいはまた、本発明のシステムの実施形態(たとえば、
図3のシステムのいくつかの実装、または
図4のシステムの要素24、26、27、34、32、33、35、36、37、39、および43のいくつかの実装)は、本発明の方法の実施形態を含む多様な動作のいずれかを実行するよう、ソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された、汎用プロセッサ(たとえば、入力装置およびメモリを含みうる、パーソナルコンピュータ(PC)または他のコンピュータ・システムまたはマイクロプロセッサ)として実装される。あるいはまた、本発明のシステムのいくつかの実施形態の要素は、本発明の方法の実施形態を実行するように構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムは、他の要素(たとえば、一つまたは複数のラウドスピーカーおよび/または一つまたは複数のマイクロフォン)をも含む。本発明の方法の実施形態を実行するように構成された汎用プロセッサは、典型的には、入力装置(たとえば、マウスおよび/またはキーボード)、メモリ、および表示装置に結合される。
【0101】
本発明の別の側面は、本発明の方法またはそのステップのいずれかの実施形態を実行するためのコード(たとえば実行するために実行可能なコーダ)を記憶するコンピュータ読み取り可能媒体(たとえば、ディスクまたは他の有形の記憶媒体)である。
【0102】
本発明の個別的な実施形態および本発明の用途が本明細書に記載されているが、本明細書に記載されている実施形態および用途の多くの変形が、本明細書に記載され、特許請求の範囲に記載された本発明の範囲から逸脱することなく可能であることは、当業者には明らかであろう。本発明のある種の形が示され説明されたが、本発明は、説明され示された個別的な実施形態または説明された個別的な方法に限定されるものではないことを理解しておくべきである。
【0103】
本発明のさまざまな側面は、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解されうる:
〔EEE1〕
再生環境における音の放射中に、マイクロフォンを使用してマイクロフォン出力信号を生成する段階であって、前記音は再生信号のオーディオ・コンテンツを示し、前記マイクロフォン出力信号は再生環境における背景雑音およびオーディオ・コンテンツを示す、段階と;
前記マイクロフォン出力信号および前記再生信号に応答して、ギャップ信頼値を生成する段階であって、各ギャップ信頼値は、異なる時刻tについてのものであり、前記再生信号において、時刻tにギャップが存在する信頼度を示す、段階と;
前記ギャップ信頼値を使用して再生環境における背景雑音の推定値を生成する段階とを含む、
方法。
〔EEE2〕
再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、前記雑音推定値のそれぞれは、異なる時刻tでの再生環境における背景雑音の推定値であり、雑音推定値の該それぞれは、時刻tを含む異なる時間区間についての、前記ギャップ信頼値によって重み付けされた候補雑音推定値の組み合わせである、EEE1に記載の方法。
〔EEE3〕
雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間について雑音推定値を生成することは:
(a)前記ギャップ信頼値のうちの対応するものが所定の閾値を超える当該時間区間についての候補雑音推定値のそれぞれを識別する段階と;
(b)その時間区間についての前記雑音推定値を、段階(a)において識別された候補雑音推定値のうちの最小のものとなるように生成する段階とを含む、
EEE2に記載の方法。
〔EEE4〕
前記候補雑音推定値のそれぞれは、エコーキャンセルされた雑音推定値のシーケンスの最小のエコーキャンセルされた雑音推定値、Mresminであり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小のエコーキャンセルされた雑音推定値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、EEE2または3に記載の方法。
〔EEE5〕
前記候補雑音推定値のそれぞれは、マイクロフォン出力信号値のシーケンスの最小のマイクロフォン出力信号値Mminであり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小マイクロフォン出力信号値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、EEE2または3に記載の方法。
〔EEE6〕
前記ギャップ信頼値を生成する段階が:各時刻tについてギャップ信頼値を生成することを含み、各時刻tについてギャップ信頼値を生成することは:
前記再生信号を処理して、時刻tについての再生信号レベルにおける最小値を決定し;
前記マイクロフォン出力信号を処理して、時刻tについての前記マイクロフォン出力信号の平滑化されたレベルを決定し;
時刻tについての再生信号レベルにおける前記最小値が、時刻tについての前記マイクロフォン出力信号の前記平滑化されたレベルからどのくらい異なるかを示すよう、時刻tについての前記ギャップ信頼値を決定することによって行なうことを含む、
EEE1ないし5のうちいずれか一項に記載の方法。
〔EEE7〕
再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み:
雑音推定値の前記シーケンスを使用して、オーディオ入力信号に対して雑音補償を実行する段階をも含む、
EEE1ないし6のうちいずれか一項に記載の方法。
〔EEE8〕
前記オーディオ入力信号に対して雑音補償を実行する段階が前記再生信号の生成を含み、当該方法は:
前記再生信号を用いて少なくとも一つのスピーカーを駆動して、前記音を生成する段階を含む、
EEE7に記載の方法。
〔EEE9〕
前記マイクロフォン出力信号に対して時間領域から周波数領域への変換を実行し、それにより周波数領域マイクロフォン出力データを生成する段階と;
前記再生信号に応答して周波数領域再生コンテンツ・データを生成する段階とを含み、前記ギャップ信頼値は、前記周波数領域マイクロフォン出力データおよび前記周波数領域再生コンテンツ・データに応答して生成される、
EEE1ないし8のうちいずれか一項に記載の方法。
〔EEE10〕
再生環境における音の放射中にマイクロフォン出力信号を生成するよう構成されたマイクロフォンであって、前記音は再生信号のオーディオ・コンテンツを示し、前記マイクロフォン出力信号は再生環境における背景雑音およびオーディオ・コンテンツを示す、マイクロフォンと;
前記マイクロフォン出力信号および前記再生信号を受領するよう結合され:
前記マイクロフォン出力信号および前記再生信号に応答して、ギャップ信頼値を生成する段階であって、各ギャップ信頼値は、異なる時刻tについてのものであり、前記再生信号において、時刻tにギャップが存在する信頼度を示す、段階と;
前記ギャップ信頼値を使用して再生環境における背景雑音の推定値を生成する段階とを実行するように構成された雑音推定システムとを含む、
システム。
〔EEE11〕
前記雑音推定システムは、再生環境における背景雑音の前記推定値を生成することを、再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、前記雑音推定値のそれぞれは、異なる時刻tでの再生環境における背景雑音の推定値であり、雑音推定値の該それぞれは、時刻tを含む異なる時間区間についての、前記ギャップ信頼値によって重み付けされた候補雑音推定値の組み合わせである、ように行なうよう構成されている、EEE10に記載のシステム。
〔EEE12〕
雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、前記雑音推定システムは、それぞれの前記時間区間について雑音推定値を生成することを:
(a)前記ギャップ信頼値のうちの対応するものが所定の閾値を超える当該時間区間についての候補雑音推定値のそれぞれを識別する段階と;
(b)その時間区間についての前記雑音推定値を、段階(a)において識別された候補雑音推定値のうちの最小のものとなるように生成する段階とによって行なうことを含む、
EEE11に記載のシステム。
〔EEE13〕
前記候補雑音推定値のそれぞれは、エコーキャンセルされた雑音推定値のシーケンスの最小のエコーキャンセルされた雑音推定値、Mresminであり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小のエコーキャンセルされた雑音推定値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、EEE11または12に記載のシステム。
〔EEE14〕
前記候補雑音推定値のそれぞれは、マイクロフォン出力信号値のシーケンスの最小のマイクロフォン出力信号値Mminであり、雑音推定値の前記シーケンスはそれぞれの前記時間区間についての雑音推定値を含み、それぞれの前記時間区間についての雑音推定値は、その時間区間についての最小マイクロフォン出力信号値に、その時間区間についてのギャップ信頼値の対応するものによって重み付けしたものの組み合わせである、EEE11または12のうちいずれか一項に記載のシステム。
〔EEE15〕
前記ギャップ信頼値が各時刻tについてギャップ信頼値を含み、前記雑音推定システムは、各時刻tについてギャップ信頼値を生成することを:
前記再生信号を処理して、時刻tについての再生信号レベルにおける最小値を決定し;
前記マイクロフォン出力信号を処理して、時刻tについての前記マイクロフォン出力信号の平滑化されたレベルを決定し;
時刻tについての再生信号レベルにおける前記最小値が、時刻tについての前記マイクロフォン出力信号の前記平滑化されたレベルからどのくらい異なるかを示すよう、時刻tについての前記ギャップ信頼値を決定することによって行なうことを含む、
EEE10ないし14のうちいずれか一項に記載のシステム。
〔EEE16〕
再生環境における背景雑音の前記推定値は、雑音推定値のシーケンスであるか、またはそれを含み、当該システムは:
雑音推定値の前記シーケンスを受領するように結合され、雑音推定値の前記シーケンスを使用して、オーディオ入力信号に対して雑音補償を実行して、前記再生信号を生成するように構成された雑音補償サブシステムをも含む、
EEE10ないし16のうちいずれか一項に記載のシステム。
〔EEE17〕
前記雑音推定システムが:
前記マイクロフォン出力信号に対して時間領域から周波数領域への変換を実行し、それにより周波数領域マイクロフォン出力データを生成し;
前記再生信号に応答して周波数領域再生コンテンツ・データを生成し;
前記ギャップ信頼値を、前記周波数領域マイクロフォン出力データおよび前記周波数領域再生コンテンツ・データに応答して生成するよう構成されている、
EEE10ないし16のうちいずれか一項に記載のシステム。
【外国語明細書】