(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-15
(45)【発行日】2022-12-23
(54)【発明の名称】パーベイシブ・リステニングのための強制ギャップ挿入
(51)【国際特許分類】
H04R 3/00 20060101AFI20221216BHJP
H03G 3/32 20060101ALN20221216BHJP
【FI】
H04R3/00 310
H03G3/32
(21)【出願番号】P 2020570055
(86)(22)【出願日】2019-07-26
(86)【国際出願番号】 US2019043629
(87)【国際公開番号】W WO2020023856
(87)【国際公開日】2020-01-30
【審査請求日】2021-02-12
(32)【優先日】2018-07-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】ハインズ クリストファー グラハム
(72)【発明者】
【氏名】ディキンズ グレン エヌ.
【審査官】渡邊 正宏
(56)【参考文献】
【文献】特開2010-206515(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0208
H03G 3/32
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
オーディオ再生信号の、選択された時間間隔で、少なくとも1つの選択された周波数帯域内に少なくとも1つのギャップを挿入して、修正された再生信号を生成することと、
前記修正された再生信号に応じた再生環境におけるサウンドの放出中に、前記再生環境においてマイクロホンを使用してマイクロホン出力信号を生成することであって、前記サウンドは前記修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は、前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、使用して生成することと、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドをモニターすることと、を含む、パーベイシブ・リスニング方法。
【請求項2】
前記ギャップの各々は、前記オーディオ再生信号の、前記選択された時間間隔で、選択された周波数帯域内に挿入されて、前記ギャップの挿入に起因する、前記修正された再生信号に応じて前記再生環境内で放出される前記サウンド内の任意のアーチファクトは、
前記ギャップの挿入がない場合と比較して、前記再生環境内のユーザに対して低い知覚性を有し、前記モニターすることの実行中に高い識別性を有する、請求項1に記載の方法。
【請求項3】
前記ギャップの各々は、前記修正された再生信号に応じて前記再生環境において放出されるサウンドが前記ギャップの挿入に起因す
るアーチファクトなしにユーザによって知覚可能であるように、前記オーディオ再生信号の選択された時間間隔で、選択された周波数帯域内に挿入される、請求項1または2に記載の方法。
【請求項4】
前記ギャップの各々は、前記オーディオ再生信号の選択された周波数帯域内に挿入され、前記選択された周波数帯域の各々は、前記オーディオ再生信号の周波数帯域のセットから、前記周波数帯域のセットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して実施される選択によって決定される、請求項1、2、または3に記載の方法。
【請求項5】
前記知覚自由度値は、少なくとも1つの周波数マスキングの考慮に従って決定されて
いる、請求項4に記載の方法。
【請求項6】
前記知覚自由度値は、少なくとも1つの経時マスキングの考慮に従って決定されて
いる、請求項4または5に記載の方法。
【請求項7】
前記パーベイシブ・リスニング方法はノイズ推定方法であり、前記マイクロホン出力信号は前記再生環境におけるバックグラウンドノイズを示し、前記モニターすることは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境におけるバックグラウンドノイズの推定値を生成することを含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記モニターすることは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも1つの態様の推定値を生成することを含み、
前記再生環境における非再生サウンドの少なくとも1つの態様の推定値に応じて、前記オーディオ再生信号を生成することを、さらに含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記ギャップの各々は、前記再生信号の少なくとも1つの周波数帯域におけるギャップの必要性に基づいて、前記再生信号内に挿入される、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に挿入される、請求項9に記載の方法。
【請求項11】
前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に挿入される、請求項9に記載の方法。
【請求項12】
前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも1つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度と予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に挿入される、請求項9に記載の方法。
【請求項13】
前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定することと、
前記確率分布に従って、前記セットの周波数帯域のうちの少なくとも1つをランダムに選択し、前記少なくとも1つの周波数帯域のそれぞれにギャップを挿入することと、を含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、請求項13に記載の方法。
【請求項15】
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、請求項13に記載の方法。
【請求項16】
前記マイクロホン出力信号および前記修正された再生信号に応じて、緊急度値を生成すること、を含み、
前記緊急度値は、前記再生信号の周波数帯域のセットの各帯域において、前記各帯域における前のギャップの発生からの経過時間に基づいて、ギャップの必要性を表し、前記再生信号への各ギャップの挿入は、少なくとも部分的に前記緊急度値に基づいている、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記非再生サウンドの前記モニターすることは、バックグラウンドノイズの推定値の生成を含み、
前記バックグラウンドノイズの推定値に応じて入力オーディオ信号にノイズ補償を実行することによることを含む、前記バックグラウンドノイズの推定値に応じて前記オーディオ再生信号を生成すること、をさらに含む、請求項1~16のいずれか一項に記載の方法。
【請求項18】
再生環境においてサウンドの放出中にマイクロホン出力信号を生成するように配置および構成されたマイクロホンであって、前記サウンドは修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、マイクロホンと、
オーディオ再生信号を受信するように結合され、前記オーディオ再生信号の、選択された時間間隔で、少なくとも1つの選択された周波数帯域内に少なくとも1つのギャップを挿入し、それによって前記修正された再生信号を生成するように構成された、強制ギャップ適用サブシステムと、
マイクロホン出力信号および前記修正された再生信号を受信するように結合され、前記修正された再生信号および前記マイクロホン出力信号に応じて前記再生環境における前記非再生サウンドをモニターするように構成される、パーベイシブ・リスニング・サブシステムと、を含む、システム。
【請求項19】
前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の、前記選択された時間間隔で、選択された周波数帯域内に前記ギャップの各々を挿入するように構成されて、前記ギャップの挿入から生じる、前記修正された再生信号に応じて前記再生環境において放出されるサウンドにおけるいかなるアーチファクトも、
前記ギャップの挿入がない場合と比較して、前記再生環境におけるユーザに対する低い知覚性と、前記モニターすることの実行中の高い識別性とを有する、請求項18に記載のシステム。
【請求項20】
前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の周波数帯域のセットから、前記選択された周波数帯域の各々を選択することによることを含む、周波数帯域の前記セットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して、前記オーディオ再生信号の選択された周波数帯域内に前記ギャップの各々を挿入するように構成される、請求項18または19に記載のシステム。
【請求項21】
前記知覚自由度値は、少なくとも1つの周波数マスキングの考慮に従って決定されている、請求項20に記載のシステム。
【請求項22】
前記知覚自由度値は、少なくとも1つの経時マスキングの考慮に従って決定されている、請求項20または21に記載のシステム。
【請求項23】
前記マイクロホン出力信号は、前記再生環境におけるバックグラウンドノイズを示し、前記パーベイシブ・リスニング・サブシステムは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における前記バックグラウンドノイズの推定値を生成するように構成される、請求項18~22のいずれか一項に記載のシステム。
【請求項24】
前記パーベイシブ・リスニング・サブシステムは、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも1つの態様の推定値を生成し、
前記再生環境における前記非再生サウンドの少なくとも1つの態様の推定値に応じて、前記オーディオ再生信号を生成するように、結合されおよび構成される、請求項18~23のいずれか一項に記載のシステム。
【請求項25】
前記強制ギャップ適用サブシステムは、前記再生信号の少なくとも1つの周波数帯域におけるギャップの必要性に基づいて、前記ギャップの各々を前記再生信号内に挿入するように構成される、請求項18~24のいずれか一項に記載のシステム。
【請求項26】
前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に前記ギャップの各々を挿入するように構成される、請求項25に記載のシステム。
【請求項27】
前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に前記ギャップの各々を挿入するように構成される、請求項25に記載のシステム。
【請求項28】
前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも1つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度および予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に各ギャップを挿入するように構成される、請求項25に記載のシステム。
【請求項29】
前記強制ギャップ適用サブシステムは、
前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定し、
前記確率分布に従って、前記セットの前記周波数帯域のうちの少なくとも1つをランダムに選択し、前記少なくとも1つの周波数帯域のそれぞれにギャップを挿入するように構成される、請求項18~28のいずれか一項に記載のシステム。
【請求項30】
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、請求項29に記載のシステム。
【請求項31】
前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、請求項29に記載のシステム。
【請求項32】
前記パーベイシブ・リスニング・サブシステムは、前記マイクロホン出力信号および前記修正された再生信号に応じて緊急度値を生成するように構成されており、前記緊急度値は
、各帯域における前のギャップの発生からの経過時間に基づいて、前記再生信号の周波数帯域のセットの各帯域におけるギャップの必要性を示し、前記強制ギャップ適用サブシステムは、前記緊急度値を受信するように結合され、および、少なくとも部分的に前記緊急度値に基づいた方法で、前記ギャップの各々を前記再生信号内に挿入するように構成されている、請求項18~31のいずれか一項に記載のシステム。
【請求項33】
前記パーベイシブ・リスニング・サブシステムは、
バックグラウンドノイズの推定値を生成することによることを含んで、非再生サウンドをモニターし、
バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を行うことによることを含んで、前記バックグラウンド推定値に応じて前記オーディオ再生信号を生成するように、結合されおよび構成されている、請求項18~32のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は2018年7月27日に出願された米国特許出願第62/711,012号からの優先権の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
本発明は、オーディオ信号再生環境においてパーベイシブ・リスニング(例えば、バックグラウンドノイズの推定)を実行し、任意選択的に、パーベイシブ・リステニングの結果(例えば、ノイズ推定)を使用して、再生のためのオーディオ信号を生成または処理する(例えば、ノイズ補償を実行する)、システムおよび方法に関する。ある実施形態では、パーベイシブ・リスニングは、再生信号に(例えば、再生信号の選択された周波数帯域において)少なくとも1つのギャップを挿入し、それによって修正された再生信号を生成し、修正された再生信号の再生中にパーベイシブ・リスニングを実行することを含む。
【背景技術】
【0003】
ここで、「パーベイシブ・リスニング」方法(例えば、適切にプログラムされたプロセッサ上で実行されるパーベイシブ・リスニング・アプリケーションによって実施される)とは、再生環境において(オーディオ再生信号に応じて)任意のスピーカから放出される再生サウンド以外の、再生環境におけるサウンドのモニタリングを含む方法を意味し、任意選択的に、モニタリングの少なくとも1つの結果に応じて(例えば、オーディオコンテンツの再生を何らかの点で改善する目的で)オーディオ再生信号を生成または修正することを意味する。モニタリングされるサウンドは、本明細書では「非再生サウンド」と呼ばれることがある。非再生サウンドは、再生環境において少なくとも1つのマイクロホンによって捕捉される。1人以上の人間のユーザが再生環境に存在してもよく(しかし、必ずしも存在する必要はない)、パーベイシブ・リスニングはそのようなユーザの再生体験を改善するために実施されてもよい。「パーベイシブ・リスナ」という表現は、本明細書では、パーベイシブ・リスニング方法を実行するように構成されたシステムまたはデバイス(たとえば、適切にプログラムされたプロセッサ)を示すために使用されることがある。
【0004】
典型的なパーベイシブ・リスニング方法は、再生環境における短寿命のイベント(例えば、短い単語の発話)を検出または特徴付けるために非再生サウンドをモニターしない。ここで、この文脈における「短寿命の」イベントは、約0.5秒未満の持続時間を有するイベントを示す。しかしながら、場合によっては、パーベイシブ・リスナによる非再生サウンドのモニタリングは0.5秒未満(例えば、200ミリ秒以下)の持続時間を有する再生環境内の短寿命イベントを検出または特徴付けるように意図された方法で実施されてもよい。パーベイシブ・リスナによってモニターされる非再生サウンドの例は、バックグラウンドノイズ、または再生環境内の少なくとも1人の人間のユーザによるスピーチ(または人間のユーザの活動または存在を示す他のサウンド)を、人間のユーザの単一の短い発話よりも長い時間スケールにわたって含む(ただし、これらに限定されない)。例えば、非再生サウンドは、人間のユーザによって操作される掃除機によって放出されるサウンド、または長時間のボイスコマンドの発話であってもよい。
【0005】
パーベイシブ・リスニングには、非再生サウンドの統計的推論または何らかの態様の推定を作成するために、非再生サウンドの観測(経時的に、例えば、異なる周波数帯域における異なるギャップの時間間隔の間に行われる各観測による)の蓄積が含まれてもよい。パーベイシブ・リスナのいくつかの実装形態は、ギャップが存在する周波数帯域内のギャップの時間間隔中に生じるという意味で、強制ギャップ「内」で発生する非再生サウンドをモニターするために、(本発明の実施形態に従って再生信号内に挿入された)強制ギャップを使用することができる。例えば、パーベイシブ・リスナのいくつかの実装形態は(本発明の実施形態に従って再生信号に挿入された)強制ギャップを使用して、3つの(または他の少数の)強制ギャップ(それぞれが異なる周波数帯域にある)の各々におけるエネルギーの突然の、同時の(すなわち、単一の、短い時間間隔内の)オンセットから、短寿命の発生または非再生サウンドのイベントの発生を推論することができ、ここで、ギャップの各々において検出されたエネルギーは、(パーベイシブ・リスナがいくつかの異なる周波数帯域の各々における観測の蓄積の結果として決定した統計を考慮して)予想外であり、実質的に起こりそうにないエネルギー量である。
【0006】
(本発明の実施形態に従って挿入された)強制ギャップを使用するパーベイシブ・リスナの例において、ギャップの挿入に40の異なる周波数帯が利用可能であり、少なくとも1つの強制ギャップが4つの連続する帯域毎に挿入されて、パーベイシブ・リスナがギャップの各々における非再生サウンドを検出することによって非再生サウンドのフルスペクトルを推定することを可能にする。典型的な実施態様では、これは10~20個の強制ギャップのシーケンスの挿入を必要とすることがあり、強制ギャップの各々は約20~100msの持続時間を有する。従って、(強制ギャップの注記されたシーケンスにおける非再生サウンドのモニタリングによって)推定値を得るために、少なくとも約200ミリ秒(200ms)~2秒を必要とすることがある。いくつかの想定される実施形態では、パーベイシブ・リスナは、強制ギャップのシーケンスでの非再生サウンドのモニタリングによって非再生サウンドの推定値(全周波数範囲)を決定するために、約0.5秒から1秒の範囲の時間を必要とする。
【0007】
他の例では、狭い周波数帯域の非再生サウンドがパーベイシブ・リスナによって検出される場合、パーベイシブ・リスナがそれを検出するのに約4秒程度かかることがある(例えば、非再生サウンドのオンセット直前にギャップがその帯域に強制されていた場合)。典型的な実施態様(40の帯域が強制ギャップの挿入に利用可能であり、ギャップの各々が約100msの持続時間を有する)では、帯域のいずれにおいても非再生サウンドを検出するために、約2秒程(平均)が必要とされることがある。
【0008】
再生信号が少なくとも1つの帯域において静か(クワイエット:quiet)である場合(本発明の実施形態による、そのような帯域における強制ギャップの挿入がない場合であっても)、パーベイシブ・リスナにとって、強制ギャップ挿入がない場合であっても、非再生サウンドの非常に短い寿命の発生またはイベント(例えば、本明細書で言及される例のいずれよりもはるかに短い持続時間を有するイベント)を検出することが可能であり得る。
【0009】
家庭および職場に入る常聴型スマートスピーカデバイスの数が急速に増加することにつれて、デバイスがより良い体験を提供し、ユーザにとってより役立つことができるように、デバイスの環境についてより多くを知る必要性が高まっている。ノイズ補償(パーベイシブ・リスニング方法の一例)は、そのような機能の1つである。これは、環境ノイズ条件にかかわらず、ミュージックおよびボイスアシスタントスピーチがリスナによって常に聞こえることを保証する。また、スマートボイスアシスタントは、様々な不利な音響環境において、新しいユーザ要求を聞かなければならない。
【0010】
再生環境における環境条件および活動を推定するタスクは、デバイスがミュージックおよび他のオーディオコンテンツを再生している間に、デバイスが自分自身(「エコー」問題)ならびにバックグラウンド活動が聞こえるので、著しく困難である。この問題に対する標準的に提案された解決法である音響エコー・キャンセレーションは、バックグラウンドシーンを表す残留信号を残してエコーが除去できるように、デバイスマイクロホンで受信されるエコーの方法をモデル化する処理である。エコー・キャンセレーションは、計算上高度なタスクであり、デバイス内に存在する再生チャネルおよびマイクロホンの数と共に複雑さが増すので、利用可能なエコー・キャンセレーションが弱いまたは存在しないマイクロホンを要求するために、より低コストのデバイスおよびマルチチャネルスピーカ構成を有するデバイスを期待することは、不合理ではない。また、より安価で低コストのデバイスは、より携帯性が高く、家庭または職場のより多様な場所に配置することができるので、着用され、ユーザに近づく可能性が高い。
【0011】
携帯用電子機器のユビキタスは、人々が多くの様々な環境において、日々オーディオ(音)に関与していることを意味する。例えば、ミュージックを聴くこと、娯楽コンテンツを見ること、可聴通知および指示を聴くこと、およびボイス通話に参加することである。これらの活動が行われるリスニング環境は、多くの場合、本質的にノイズが多く、常に変化するバックグラウンドノイズ条件を伴う可能性があり、これは、リスニング体験の楽しみおよび明瞭さを損なう。ノイズ状態の変化に応じて再生レベルを手動で調整するループにユーザを置くことは、ユーザをリスニングタスクから注意をそらし、オーディオリスニングタスクに携わるのに必要な認知負荷を高める。
【0012】
ノイズ補償メディア再生(NCMP:Noise compensated media playback)は、再生されているメディアの音量を、メディアが再生されているノイズ条件に適したものに調整することによって、この問題を軽減する。NCMPの概念は周知であり、多くの刊行物は、それを効果的に実施する方法の問題を解決したと主張している。
【0013】
アクティブ・ノイズ・キャンセレーション(Active Noise Cancellation)と呼ばれる関連するフィールドは、音響波の再生成を通じて干渉ノイズを物理的にキャンセルしようとするのに対し、NCMPは、バックグラウンドノイズが存在する再生環境で調整されたオーディオが聞こえ、鮮明になるように再生オーディオのレベルを調整する。
【0014】
NCMPの任意の実際の実装における主な課題は、特に、バックグラウンドノイズおよびメディアコンテンツが高度に音響的に結合されているスピーカ上でメディアコンテンツが再生されている状況において、リスナが経験する現行バックグラウンドノイズレベルを自動的に決定することである。マイクロホンが関係する解決策は、観測されているメディアコンテンツおよびノイズの状態(マイクロホンによって検出される)の問題に一緒に直面している。
【0015】
NCMPを実施する典型的なオーディオ再生システムを
図1に示す。このシステムは、オーディオコンテンツ(本明細書ではメディアコンテンツまたは再生コンテンツと呼ばれることもある)を示すオーディオ信号を出力し、ノイズ補償サブシステム2に供給するコンテンツソース1を含む。オーディオ信号は、オーディオコンテンツを示す(環境内の)サウンドを生成するために再生されるように意図されている。オーディオ信号は、スピーカフィードであってもよく(およびノイズ補償サブシステム2がスピーカフィードの再生ゲインを調整することによって、それにノイズ補償を適用するように結合および構成されてもよい)、またはシステムの別の要素は、オーディオ信号に応じてスピーカフィードを生成してもよい(例えば、ノイズ補償サブシステム2はオーディオ信号に応じてスピーカフィードを生成し、スピーカフィードの再生ゲインを調整することによって、スピーカフィードにノイズ補償を適用するように結合および構成されてもよい)。
【0016】
図1のシステムは、また、ノイズ推定システム5と、オーディオ信号(またはサブシステム2で生成されたオーディオ信号のノイズ補償バージョン)に応じる、少なくとも1つのスピーカ3(メディアコンテンツを示すサウンドを放出するように結合され構成されている)と、図示のように結合された、マイクロホン4とを含む。動作中、マイクロホン4およびスピーカ3は、再生環境(例えば、部屋)内にあり、マイクロホン4は、環境内のバックグラウンド(周囲)ノイズおよびメディアコンテンツのエコーの両方を示すマイクロホン出力信号を生成する。ノイズ推定サブシステム5(本明細書では、ノイズ推定器と呼ばれることがある)は、マイクロホン4に結合され、マイクロホン出力信号を使用して環境内の現行バックグラウンドノイズレベルの推定値(
図1の「ノイズ推定値」)を生成するように構成される。ノイズ補償サブシステム2(本明細書ではノイズ補償器と呼ばれることもある)は、サブシステム5によって生成されたノイズ推定値に応じて、オーディオ信号を調整する(例えば、オーディオ信号の再生ゲインを調整する)(またはオーディオ信号に応じて生成されたスピーカフィードを調整する)ことによってノイズ補償を適用するように結合されおよび構成され、それによって、(
図1に示されるように)補償されたメディアコンテンツを示すノイズ補償オーディオ信号を生成する。典型的には、サブシステム2は、(ノイズ推定サブシステム5によって推定されるように)バックグラウンドノイズが存在する再生環境において、調節されたオーディオ信号に応じて放出されるサウンドが可聴で明瞭になるように、オーディオ信号の再生ゲインを調節する。
【0017】
以下に説明するように、ノイズ補償を実施するオーディオ再生システムで使用するためのバックグラウンドノイズ推定器(例えば、
図1のノイズ推定器5)を、本発明の実施形態のクラスに従って(強制ギャップ挿入とともに)使用することができる。
【0018】
数多くの出版物がノイズ補償メディア再生(NCMP)の問題を取り扱っており、バックグラウンドノイズを補償するオーディオシステムは多くの成功度まで作動することができる。
【0019】
マイクロホンなしでNCMPを実行し、代わりに他のセンサ(例えば自動車の場合は速度計)を使用することが提案されている。しかしながら、このような方法は、リスナが体験する干渉ノイズのレベルを実際に測定するマイクロホンベースの解決策ほど有効ではない。また、再生コンテンツを示すサウンドから切り離された音響空間に配置されたマイクロホンに依存してNCMPを実行することも提案されているが、このような方法は多くの用途に対して著しく制限的である。
【0020】
前段落で言及したNCMP方法は、マイクロホンによって捕捉された再生信号がノイズ推定器にとってノイズ信号と混合されるときに生じる「エコー問題」のために、再生コンテンツも捕捉するマイクロホンを使用してノイズレベルを正確に測定することを試みない。その代わりに、これらの方法は、不安定なフィードバックループが形成されないように補償を適用することによって問題を無視しようとするか、あるいは、リスナが体験するノイズレベルをいくぶん予測する何か他のものを測定することによって問題を無視しようとするかのいずれかである。
【0021】
また、再生コンテンツとマイクロホン出力信号との相関をとろうとし、マイクロホン出力からマイクロホンによって捕捉された再生コンテンツ(「エコー」と呼ばれる)の推定値を差し引くことによって、マイクロホン出力信号からバックグラウンドノイズを推定する問題(バックグラウンドノイズと再生コンテンツの両方を示す)に対処することが提案されている。スピーカから発せられる再生コンテンツXおよびバックグラウンドノイズNを示す、マイクロホン捕捉サウンドとして生成されるマイクロホン出力信号のコンテンツは、WX+Nとして表すことができ、ここで、Wは、再生コンテンツを示すサウンドを発するスピーカ、マイクロホン、およびサウンドがスピーカからマイクロホンに伝播する環境(例えば、部屋)によって決定される伝達関数である。例えば、ノイズNを推定するための学術的に提案された方法(
図2を参照して説明される)において、マイクロホン出力信号から減算するための、エコー(マイクロホンによって捕捉された再生コンテンツ)WXの推定値W’Xを容易にするために、線形フィルタW’が適応される。たとえ非線形性がシステムに存在しても、フィルタW’の非線形実装は計算コストのためにほとんど実装されない。
【0022】
図2は、スピーカが再生コンテンツを示すサウンドを放出する環境においてバックグラウンドノイズを推定するための上述の従来の方法(エコー・キャンセレーションと呼ばれることもある)を実施するためのシステムの図である。環境E内のスピーカシステムS(例えば、単一スピーカ)に再生信号Xが提示される。マイクロホンMは同じ環境E内に配置され、バックグラウンドノイズNと、一般的には環境E内にも少なくとも一つの人間ユーザ(リスナ)Lが存在する。再生信号Xに応じて、スピーカシステムSは、マイクロホンMに到着する(環境E内の環境ノイズNを含む)サウンドを放出する。マイクロホン出力信号は、Y=WX+Nであり、ここで、Wは、スピーカシステムS、再生環境E、およびマイクロホンMの組み合わせ応答である伝達関数を示す。
図2のシステムによって実装される一般的な方法は、様々な適応フィルタ方法のいずれかを用いて、YおよびXから伝達関数Wを適応的に推測することである。
図2に示すように、線形フィルタW’は伝達関数W’の近似であると適応的に決定される。マイクロホン信号Mが示す再生信号コンテンツ(「エコー」)はW’Xと推定され、YからW’Xを引くことによりノイズNの推定値、Y’=WX-W’X+Nが得られる。Y’に比例してXのレベルを調整することにより、推定に正のバイアスが存在する場合にはフィードバックループが生じる。Y’の増加はXのレベルを増加させ、これは、Nの推定値(Y’)に上方バイアスを導入し、これは、Xのレベルを増加させる、等である。この形式の解決は、YからW’Xを減算してマイクロホン信号Mからかなりの量のエコーWXを除去する、適応フィルタW’の能力に大きく依存するのであろう。
【0023】
図2のシステムを安定に保つためには、通常、信号Y’のフィルタリングをさらに行う必要がある。現場におけるほとんどのノイズ補償の実施形態は不安定な性能を示すので、ほとんどの解決策は典型的には下向きにノイズ推定値をバイアスし、システムを安定に保つために、積極的な時間平滑化を導入する可能性が高い。これは、低減され、および非常にゆっくりと作用する補償という犠牲を払うことになる。
【0024】
環境ノイズ条件を補償するためのノイズ補償(例えば、スピーカ再生コンテンツの自動平準化)はよく知られており、所望の特徴であるが、まだ納得できる実装がなされていない。環境ノイズ条件を測定するためにマイクロホンを使用することは、また、スピーカの再生コンテンツを測定し、ノイズ補償を実施するために必要なノイズ推定(例えば、オンラインノイズ推定)のための主要な課題を提示する。本発明のいくつかの実施形態は、改良された方法(再生信号への強制ギャップの挿入を含む)で、ノイズ補償を実行するために有用なノイズ推定値(例えば、ノイズ補償されたメディア再生の多くの実施形態を実装するために)を生成するノイズ推定方法およびシステムである。
【0025】
エコー・キャンセレーションは計算的に高価なタスクであり、デバイス内に存在する再生チャネルおよびマイクロホンの数と共に複雑さが増すので、弱いかまたは存在しない利用可能なエコー・キャンセレーションだけでノイズ補償能力を要求するために、より低コストのデバイスおよびマルチチャネルスピーカ構成を有するデバイスを期待することは、不合理ではない。より安価で低コストのデバイスは、また、携帯性が高く、家庭または職場のより多様な場所に配置することができるので、着用される可能性が高く、ユーザに近い可能性が高い。このカテゴリのデバイスは、ユーザが近接の利便性を通して聞くものに対して最適化することができるので、ノイズ補償の使用のための最良の候補である。
【0026】
サンプリングギャップ、すなわちオーディオ信号の時間(または時間間隔)における周波数帯域内の「ギャップ」(以下で定義される)は、時間および周波数スライス内のオーディオ信号のオーディオコンテンツの再生および捕捉の後に、再生環境内のバックグラウンドノイズを示すことができる時間および周波数スライスである。(再生環境内の)デバイスがサイレントであり、オーディオコンテンツを再生していない場合、再生環境内で捕捉されたサウンドのすべての時間スライスおよび周波数スライスは、再生環境内のバックグラウンドノイズを示すことができる。オーディオコンテンツ(例えば、ミュージックコンテンツ)がデバイスによって再生されるとき、環境内の各マイクロホンの出力は、ノイズによって破損される。
【0027】
上記で参照した米国仮特許出願第62/663,302号は、エコー・キャンセレーションの実行の有無にかかわらず、ノイズ推定に関連してサンプリングギャップを検出し、利用するための方法およびシステムを記載している。このようなシステムがエコー・キャンセレーションの性能でノイズ推定を行う場合、残留キャンセレーション信号(例えば、後述する
図2の信号Yまたは
図12のM’res)は典型的には多くのギャップを有し、一般的には、システムの性能はコンテンツに依存しない。このようなシステムがエコー・キャンセレーションなしでノイズ推定を行うと、コンテンツ内のギャップの種類と周波数がノイズ推定の品質に影響するため、ノイズ推定の品質(従って、推定したノイズを用いてノイズ補償を受けるコンテンツの再生中のユーザ体験の品質)はコンテンツ依存となる。どちらの場合も(エコー・キャンセレーションの有無にかかわらず)、米国特許出願第62/663,302号に記載されている方法およびシステムは、利用可能なギャップ(再生コンテンツ内、または再生コンテンツおよび残留キャンセレーション信号内)を利用して、バックグラウンドノイズレベルを推定することができる。発明者は、ノイズ推定に関連して再生コンテンツに「強制」ギャップが現れるという新しいステップ(例えば、米国特許出願第62/663,302号に記載されているタイプのもの)、またはその他のパーベイシブ・リスニング方法は、ノイズ推定(特に、ノイズ推定が、エコー・キャンセレーションなしで、または弱いエコー・キャンセレーション有りで実施される場合)、またはその他のパーベイシブ・リスニング方法のパフォーマンスを向上させることができることを認識した。
【発明の概要】
【0028】
あるクラスの実施形態では、本発明は、
オーディオ再生信号の少なくとも1つの選択された周波数帯域内に少なくとも1つのギャップを挿入して(例えば、各ギャップは、オーディオ再生信号の選択された時間間隔において、選択された周波数帯域に挿入される)、修正された再生信号を生成することと、
修正された再生信号に応じて再生環境におけるサウンドの放出中に、再生環境においてマイクロホンを使用してマイクロホン出力信号を生成することであって、サウンドは修正された再生信号の再生コンテンツを示し、マイクロホン出力信号は、再生環境における非再生サウンドおよび再生コンテンツを示す、使用して生成することと、
修正された再生信号およびマイクロホン出力信号に応じて、再生環境における非再生サウンドをモニターする(通常、少なくとも1つの態様の推定値を生成することによることを含む)ことと、を含む、パーベイシブ・リスニング方法、である。
【0029】
好ましくは、ギャップの各々は、(オーディオ再生信号の選択された時間間隔で)選択された周波数帯域内に挿入されて、ギャップの挿入に起因する、(修正された再生信号に応じて再生環境内で放出されるサウンド内の)任意のアーチファクトが再生環境内のユーザに対して低い知覚性を有し、モニタリングの実行中に高い識別性を有する(例えば、傾向がある)。
【0030】
好ましくは、ギャップの各々は、ギャップ挿入に起因するあらゆる知覚されるアーチファクトがアプリケーションにとって合理的(過度に好ましくないものではない)であるという意味で、修正された再生信号に応じて再生環境において放出されるサウンドがギャップの挿入に起因する著しいアーチファクトなしにユーザによって知覚可能であるように(選択された時間間隔における選択された周波数帯域において)挿入される。例えば、典型的な実施形態では、ギャップ挿入に起因するいかなるアーチファクトも、オーディオのMP3符号化によってオーディオに導入されるいかなるアーチファクトよりも、人間のユーザに知覚されにくい。
【0031】
典型的な実施形態では、パーベイシブ・リスニング方法はノイズ推定方法であり、マイクロホン出力信号は再生環境におけるバックグラウンドノイズを示し、モニタリングは、修正された再生信号およびマイクロホン出力信号に応じて、再生環境におけるバックグラウンドノイズ推定値を生成することを含む。
【0032】
典型的には、モニタリングは、修正された再生信号およびマイクロホン出力信号に応じて、再生環境における非再生サウンドの少なくとも1つの態様の推定値を生成することを含み、本方法は、また、再生環境における非再生サウンドの少なくとも1つの態様の推定値に応じて(例えば、非再生サウンドのモニタリングも行う、パーベイシブ・リスニング・サブシステムにおいて)、オーディオ再生信号を生成することを含む(例えば、オーディオ再生信号のコンテンツの再生を改善するための努力の中で)。
【0033】
いくつかの実施形態では、ギャップの各々は、(例えば、再生信号の少なくとも1つの特定の周波数帯域における)ギャップの緊急度または必要性に基づいて(例えば、それを示す緊急度値に応じて)再生信号内に挿入される。いくつかの実施形態では、ギャップの各々は、(例えば、挿入の緊急度を示す緊急度値に応じて)(例えば、再生信号の周波数帯域のセットの各帯域内の)ギャップの必要性に基づいて、および(例えば、再生信号の周波数帯域のセットの各帯域内に)再生信号のギャップ(例えば、特定の時間間隔で、少なくとも1つの特定の周波数帯域内)の挿入の(例えば、予期される知覚的効果を示す知覚的自由度値に応じて)予期される知覚的効果に基づいて、(例えば、ギャップの緊急度とギャップの挿入の予想される知覚的効果とのバランスを含む方法で)再生信号に挿入される。
【0034】
いくつかの実施形態では、本方法は、
再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定することと、
確率分布に従って、セットの周波数帯域のうちの少なくとも1つをランダムに選択し、少なくとも1つの周波数帯域のそれぞれにギャップを挿入することと、を含む。いくつかのそのような実施形態では、確率分布は、再生信号の周波数帯域のセットの帯域の各々におけるギャップの必要性(すなわち、挿入の緊急性)に基づく。いくつかのそのような実施形態では、確率分布は、再生信号の周波数帯域のセットの帯域の各々において、ギャップの挿入の予想される知覚効果に基づく。いくつかのそのような実施形態では、確率分布は、再生信号の周波数帯域のセットの帯域の各々において、ギャップの必要性と、ギャップの挿入の予想される知覚効果との両方に基づく。
【0035】
典型的な実施形態では、パーベイシブ・リスニング(例えば、ノイズ推定またはノイズ補償)方法は、マイクロホン出力信号および修正された再生信号に応じて、緊急度値(すなわち、緊急度値を示す信号またはデータ)を生成すること、を含む。いくつかのそのような実施形態では、緊急度値は、再生信号の周波数帯域のセットの各帯域において、ギャップの必要性(すなわち、挿入の緊急度)を表し、各帯域におけるギャップの必要性は、前のギャップの発生からの経過時間に基づく。典型的には、再生信号への各ギャップの挿入は、少なくとも部分的に緊急度値に基づいている(例えば、緊急度値に応答して実行される)。
【0036】
一部の(全てではないが)実施形態では、非再生サウンドのモニタリングは、マイクロホン出力信号および修正された再生信号に応じて、エコー・キャンセレーションの実行を含む。
【0037】
いくつかの実施形態では、非再生サウンドの前記モニタリングは、バックグラウンドノイズ推定値の生成を含み、本方法は、さらに、バックグラウンド推定値に応じて(例えば、オーディオ再生信号のコンテンツの再生を改善するための努力で)(非再生サウンドのモニタリングを実行するパーベイシブ・リステニング・サブシステムにおいて)オーディオ再生信号を生成することを含み、オーディオ再生信号を生成することは、バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を実行することを含む。
【0038】
本発明の態様は、本発明の方法またはそのステップの任意の実施形態を実行するように構成された(たとえば、プログラムされた)システムと、本発明の方法またはそのステップの任意の実施形態を実行するためのコード(たとえば、実行するように実行可能なコード)を記憶するデータの非一時的記憶を実施する有形の非一時的なコンピュータ可読メディア(たとえば、ディスクまたは他の有形記憶メディア)と、を含む。例えば、本発明のシステムの実施形態は、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであってもよく、それらを含んでもよく、ソフトウェアまたはファームウェアでプログラムされてもよく、および/または本発明の方法またはそのステップの実施形態を含む、データに対する様々な動作のいずれかを実行するように他の方法で構成されてもよい。そのような汎用プロセッサは、入力デバイスと、メモリと、本発明の方法(またはそのステップ)の実施形態を、それにアサートされたデータに応答して実行するようにプログラムされる(および/またはそうでなければ構成される)処理サブシステムとを含むコンピュータシステムであってもよく、またはそれを含んでもよい。
【図面の簡単な説明】
【0039】
【
図1】ノイズ補償メディア再生(NCMP)を実装したオーディオ再生システムのブロック図である。
【
図2】マイクロホン出力信号から、エコー・キャンセレーションとして知られる従来の方法に従った、ノイズ推定値を生成するための従来のシステムのブロック図である。マイク出力信号は、再生環境でサウンド(再生コンテンツを表す)およびノイズを捕捉することにより生成される。
【
図3】本発明の方法の実施形態を実行することによって強制ギャップが挿入された、修正されたオーディオ信号のスペクトログラムである。
【
図4】本発明のいくつかの実施形態に従った、帯域内の信号のオーディオコンテンツにおけるギャップを強制するためにオーディオ信号の周波数帯域に印加される、周波数の関数としての帯域ゲインのグラフである。ゲイン(およびギャップ)は中心周波数f
0および帯域幅Bを有する。ギャップの深さは、本発明の一実施形態に従って、0dBから-ZdBの間の所望の値に(例えば、補間によって)設定されてもよい。
【
図5】帯域内の信号のオーディオコンテンツにギャップ(
図4に示されているのと同じギャップ)を強制するためにオーディオ信号の周波数帯域に適用される、時間の関数としての帯域ゲインのプロファイルである。ギャップの3つの時間間隔t1、t2、およびt3が示されている。
【
図6】本発明のいくつかの実施形態に従った、ギャップが挿入されるオーディオ信号のバンディング構造(49個の周波数帯域を含む)の一例を示すグラフである。
【
図7】オーディオ信号内にギャップ(強制ギャップ)を挿入するように構成された本発明のパーベイシブ・リスニング・システムの一実施形態のブロック図である。
【
図8】オーディオ信号内にギャップ(強制ギャップ)を挿入するように構成された本発明のパーベイティブ・リスニング・システムの別の実施形態のブロック図である。
【
図9】オーディオ信号内にギャップ(強制ギャップ)を挿入するように構成された本発明のパーベイティブ・リスニング・システムの別の実施形態のブロック図である。
【
図10】オーディオ信号にギャップ(強制ギャップ)を挿入するように構成された本発明のパーベイシブ・リスニング・システムの別の実施形態のブロック図である。
【
図11】マイクロホン出力信号の各周波数帯域についてのバックグラウンドノイズ推定値を生成し、該ノイズ推定値を使用して入力オーディオ信号に対してノイズ補償を行い、補償されたオーディオ信号にギャップ(強制ギャップ)を挿入することを含む補償されたオーディオ信号を生成する、本発明のシステムの一実施形態のブロック図である。
【
図12】
図11のシステムの実施例のより詳細なブロック図である。
【
図13】
図12のシステムのノイズ推定サブシステム37の実施例のブロック図である
【
図14】再生コンテンツの現行の帯域化されたエネルギー(曲線E)、およびコンテンツに対する知覚マスキング曲線(曲線M)のグラフであり、各曲線は、49の指数関数的に間隔を置いた周波数帯域(帯域0~帯域48)のそれぞれについて、dBでのエネルギー(縦軸に示される)対周波数帯域(横軸に示される)の関数としてプロットされる。
【
図15】本発明の強制ギャップアプリケータの実施形態のブロック図である。
【発明を実施するための形態】
【0040】
表記と通知
特許請求の範囲を含む本開示全体を通して、オーディオ信号(およびオーディオ信号の再生コンテンツ)における「ギャップ」は、(例えば、少なくとも1つの周波数帯域における)再生コンテンツが欠落している(または所定の値未満のレベルを有する)信号の時間(または時間間隔)を示す。オーディオ信号は、(各時間または時間間隔における)異なる周波数帯域のセットの各帯域における周波数-領域再生コンテンツを含む、(信号の時間または時間間隔のシーケンスのそれぞれにおける)帯域化された周波数領域表現を有することができ、(オーディオ信号の時間または時間間隔における)周波数帯域のうちの少なくとも1つにおけるギャップを有することができる。
【0041】
特許請求の範囲を含む本開示全体を通して、「スピーカ」および「ラウドスピーカ」は、単一のスピーカフィードによって駆動される任意のサウンド・リミッティング・トランスデューサ(またはトランスデューサのセット)を示すために同義的に使用される。一般的なヘッドフォンセットには、2つのスピーカが含まれる。スピーカは複数のトランスデューサ(例えば、ウーファおよびツィータ)を含むように実装されてもよく、すべてが単一の共通スピーカフィードによって駆動される(スピーカフィードは、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受けてもよい)。
【0042】
特許請求の範囲を含む本開示全体を通して、信号またはデータに対して「オン」演算を実行する表現(例えば、信号またはデータに対してフィルタリング、スケーリング、変換、またはゲインを適用する)は、信号またはデータに対して、または信号またはデータの処理されたバージョンに対して(例えば、信号またはデータに対する演算の実行前に予備フィルタリングまたは前処理を受けた信号のバージョンに対して)直接演算を実行することを示すために広義に使用される。
【0043】
特許請求の範囲を含む本開示全体を通して、「システム」という表現は、デバイス、システム、またはサブシステムを示すために広い意味で使用される。例えば、デコーダを実装するサブシステムはデコーダシステムと呼ばれてもよく、そのようなサブシステム(例えば、サブシステムが入力のM個を生成し、他のX-M個の入力が外部ソースから受信される、複数の入力に応答してX個の出力信号を生成するシステム)を含むシステムは、デコーダシステムと呼ばれてもよい。
【0044】
特許請求の範囲を含む本開示の全体を通して、「プロセッサ」という用語は、データ(例えば、オーディオ、ビデオ、または他の画像データ)に対する動作を実行するために、システムまたはデバイスがプログラム可能であるか、またはさもなければ(例えば、ソフトウェアまたはファームウェアを用いて)構成可能であることを示すために、広い意味で使用される。プロセッサの例には、フィールド・プログラマブル・ゲート・アレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンドデータに対してパイプライン処理を実行するようにプログラムおよび/または他の方法で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサまたはコンピュータ、およびプログラマブル・マイクロプロセッサ・チップまたはチップセットが含まれる。
【0045】
特許請求の範囲を含む本開示の全体を通して、「結合する(couples)」または「結合される(coupled)」という用語は、直接または間接接続のいずれかを意味するために使用される。従って、第1のデバイスが第2のデバイスに結合する場合、その接続は、直接接続を介するか、または他のデバイスおよび接続を介する間接接続を介するものとすることができる。
【0046】
実施形態の詳細な説明
本発明の多くの実施形態は、技術的に可能である。これらをどのように実施するかは、本開示から当業者には明らかであろう。本発明のシステムおよび方法のいくつかの実施形態は、
図3~14を参照して本明細書に記載される。
【0047】
本発明の典型的な実施形態に従って、ギャップ(「強制」ギャップと呼ばれる)はオーディオ再生信号に挿入され、モニタリングされるバックグラウンドノイズ(または再生環境における他の非再生サウンド)でのグリンプを提供するために、オーディオ再生コンテンツの意図的な歪みを導入する。典型的には、強制ギャップは、ノイズ(または他の非再生サウンド)の対応する推定値が古くなった特定の周波数帯域に人為的に挿入される(例えば、強制ギャップは米国仮特許出願第62/663,302号に記載されているギャップ・コンフィデンス・フレームワークに従って自動的に使用することができるように)。いくつかの実施形態では、歪みは知覚的に注意深くマスクされ、強制ギャップの導入にもかかわらず良質なリスニング体験を提供し、エコー・キャンセラを使用しなくても、コンテンツに依存しない方法で応答性ノイズ推定(または別のパーベイシブ・リステニング方法)を実装する。
【0048】
いくつかの実施形態では、一連の強制ギャップは再生信号に挿入され、各強制ギャップは、再生信号の異なる周波数帯域(または帯域のセット)にあり、ギャップが発生する時間間隔中に発生するという意味で、各強制ギャップ「内に」発生する非再生サウンドと、ギャップが挿入される周波数帯域内に発生する非再生サウンドとを、パーベイシブ・リスナがモニタリングすることを可能にする。
図3は、本発明の実施形態を実行することによってそのような強制ギャップが挿入された、修正されたオーディオ再生信号のスペクトログラムの一例である。より具体的には、
図3のスペクトログラムを生成するために、本発明の方法の実施形態をオーディオ再生信号に対して実行し、その周波数帯域に強制ギャップ(例えば、
図3に示すギャップG1、G2、およびG3)を導入し、それによって、修正されたオーディオ再生信号を生成する。
図3に示すスペクトログラムでは、横軸に沿った位置が時間を示し、縦軸に沿った位置が瞬時に修正されたオーディオ再生信号のコンテンツの周波数を示す。各小領域(垂直および水平座標を有する点を中心とするこのような各領域)内のドットの密度は、対応する周波数および瞬間における修正されたオーディオ再生信号のコンテンツのエネルギーを示す(高密度領域がより大きなエネルギーを有するコンテンツを示し、より低い密度領域がより低いエネルギーを有するコンテンツを示す)。従って、ギャップG1は、ギャップG2またはG3が発生する時間(すなわち、時間間隔)よりも早い時間(すなわち、時間間隔)に発生し、ギャップG1は、ギャップG2またはG3が挿入された周波数帯域よりも高い周波数帯域に挿入されている。
【0049】
本発明の典型的な実施形態による再生信号への強制ギャップの導入は、(例えば、ユーザおよびユーザの環境をよりよく聞くために)デバイスがコンテンツの再生ストリームを一時停止するシンプレックスデバイス動作とは異なる。本発明の典型的な実施形態による再生信号への強制ギャップの導入は、再生中に導入されたギャップから生じるアーチファクトの知覚可能性を大幅に低減(または除去)するように最適化され、好ましくは、強制ギャップがユーザにとって知覚可能な影響を全く持たないかまたは最小限に抑えるが、再生環境におけるマイクロホンの出力信号は、強制ギャップを示すようにする(例えば、パーベイシブ・リスニング方法を実装するためにギャップを活用することができるようにする)。本発明の典型的な実施形態による導入された強制ギャップを使用することによる、パーベイシブ・リステニング・システムは、音響エコー・キャンセラを使用しなくても、非再生サウンド(例えば、再生環境におけるバックグラウンド活動および/またはノイズを示すサウンド)をモニタリングすることができる。
【0050】
次に、
図4および
図5を参照して、オーディオ再生信号の周波数帯域に挿入され得るパラメータ化された強制ギャップの例、およびこのような強制ギャップのパラメータの選択基準について説明する。パラメータ化された強制ギャップは、帯域減衰量を使用した再生コンテンツの減衰量Gであり、そのプロファイルは、時間および周波数の両方にわたって、
図4および
図5に示すプロファイルに類似している。ギャップは、中心周波数f
0(
図4に示される)および帯域幅B(
図4にも示される)によって定義される周波数の範囲(「帯域」)にわたって再生信号に減衰量Gを適用することによって強制され、減衰量は、
図5に示されるプロファイルに似たプロファイルを有する帯域内の(すなわち、帯域内の各周波数ビン内の)各周波数における時間の関数として変化する。(帯域にわたる周波数の関数としての)減衰量Gの最大値は、(帯域の最低周波数での)0dBから(
図4に示すような)中心周波数f
0での最大減衰量(抑制深さ)Zまで増加し、(帯域の最高周波数での)0dBまで(中心周波数を超える周波数の増加に伴って)減少するように制御することができる。
【0051】
図4は、帯域内の信号のオーディオコンテンツのギャップを強制するためにオーディオ信号の周波数成分に印加される周波数(すなわち、周波数ビン)の関数としての帯域減衰量Gのプロファイルを示すグラフである。オーディオ信号は、再生信号(例えば、マルチチャネル再生信号のチャネル)であってもよく、オーディオコンテンツは、再生コンテンツであってもよい。
【0052】
図5は、
図4に示したギャップを帯域内の信号のオーディオコンテンツに強制するために、中心周波数f
0における周波数成分に加えられた、時間の関数としての帯域減衰量Gのプロファイルである。帯域内の互いの周波数成分について、時間の関数としての帯域ゲインは
図5に示されるものと同様のプロファイルを有するが、
図5の抑制深さZは補間された抑制深さkZに置き換えられる。ここで、kは0から1の範囲の係数(周波数の関数として)であり、従って、kZは
図4のプロファイルを有する。各周波数成分について、減衰量Gもまた、0dBから抑制深度kZまで(例えば、
図5に示すように、中心周波数でk=1で)(時間の関数として)補間され、例えば、ギャップの導入に起因するミュージック的アーチファクトを減少させる。この後者の補間の3つの領域(時間間隔)t1、t2、およびt3は、
図5に示されている。
【0053】
従って、特定の周波数帯域(すなわち、
図4に示される中心周波数f
0を中心とする帯域)に対してギャップ強制動作が生じると、帯域内の各周波数成分(すなわち、帯域内の各ビンに対して)に印加される減衰量Gは、
図5に示されるような軌跡をたどる。0dBから始まって、t1秒で深さ?kZdBまで降下し、t2秒間そこに留まり、最後にt3秒で0dBまで上昇する。総時間t1+t2+t3は、マイクロホンフィードを分析するために使用されている周波数変換の時間分解能、ならびにユーザにとってあまりにも侵入的でない合理的な持続時間を考慮して選択されるべきである。
【0054】
本発明の典型的な実施形態は、オーディオ再生信号の全周波数スペクトルをカバーし、そしてBcount帯域(ここで、Bcountは数であり、例えば、Bcount=49)を含む、所定の固定された帯域構成に従って強制ギャップを挿入する。帯域のいずれかにギャップを強制するために、帯域内に帯域減衰量が適用される。具体的には、j番目の帯域については、減衰量Gjが帯域によって規定される周波数領域にわたって適用される。帯域の数および各帯域の幅を決定する際に、知覚インパクト(ギャップを有するより狭い帯域は通常、知覚インパクトがより少ないという点でより良好)と、ギャップの有用性(ギャップを有するより広い帯域はノイズ推定(および他のパーベイシブ・リスニング方法)を実施し、例えば、バックグラウンドノイズまたは再生環境状態の変化に応答して、全周波数スペクトルのすべての周波数帯域において、新しいノイズ推定(またはパーベイシブ・リスニングによってモニタリングされる他の値)に収束するのに必要な時間(「収束」時間)を短縮するのにより良好)との間にトレードオフが存在する。一度に強制できるギャップの数が限られている場合は、多数の小さな帯域内にギャップを順次強制するのに(ギャップをより少数の大きな帯域に順次強制するよりも)長い時間がかかり、収束時間がより長くなる。帯域がより大きい(ギャップがある)と、バックグラウンドノイズ(またはパーベイシブ・リスニングでモニターされるその他の値)に関する情報が一度に多く得られるが、知覚的な影響はより大きくなる。
【0055】
図6は、49に等しいB
countを有し、横軸に沿って示された49個の帯域のうちの25個の帯域の各々の中心周波数を有し、上述のトレードオフのための適切な中央グランドであると決定された、再生信号のためのバンディングストラクチャの一例を示す。
図6の構造の各帯域はそれに関連した所定のギャップを有し、ギャップの最大抑制深さは、
図6の右側のグラフにおける暗さの程度によって示される(以下に説明する方法で示される)(帯域内の各ビンにおける)ギャップの最大抑制深さである。
図6の帯域の幅は、周波数の増加とともに(臨界帯域と同様に)対数的に増加するように選択され、各帯域における強制ギャップの幅(および各帯域における強制ギャップの中心であるビン数)も、周波数の増加とともに対数的に増加するように選択される。これにより、知覚オーディオ処理を実行するために、この領域で動作する他のコンポーネントとの相互運用性が容易になる。対数分布バンディング構造は、臨界バンディング構造に続いて、より少ない数の帯域を効率的に使用する。
図6の各帯域(例えば、中心周波数7109.4Hzを有する帯域)内には、256個の周波数ビン(
図6の左側の縦軸に沿って示される)が存在する。各ビンに対して、関連する抑制深さkZがあり、これは(
図4および
図5を参照して上述したように)そのようなビン内の再生コンテンツに適用される最大抑制であり、ここで、Zは
図5の値Zに対応し、kは(関連する帯域内のビンの周波数の関数として)0から1までの範囲のスケールファクタである。各帯域内の各ビンについて、スケールファクタkは、
図6の右側のグラフにおいて暗さの程度によって示される。従って、中心周波数7109.4Hzを有する帯域についての最大スケールファクタk=1は比較的低周波数(約70番目のビン内)を有するビン内で発生し、中心周波数17859.4Hzを有する帯域についての最大スケールファクタk=1は、比較的高い周波数(約180番目のビン内)を有するビン内で発生する。
【0056】
再生コンテンツの周波数帯域に強制ギャップ(
図4および
図5に関連して説明した種類の)を導入することの知覚的影響を評価する場合、帯域ごとに、上述した3つのタイミングパラメータt1、t2、t3、および深さZの値、ならびに帯域の個数B
countを参照することが有益である。本発明の典型的な実施形態では、これらのパラメータは、以下の表1に示すように、デフォルト値、ならびに最小値および最大値を有する。
【表1】
【0057】
好ましくは、(再生コンテンツの周波数帯域において)導入される各強制ギャップは、強制ギャップの挿入のための所定の帯域構造(例えば、
図6のそれ)、および強制ギャップが挿入されるべき選択された時間間隔とからの離散選択に従って導入される。
【0058】
典型的な実施形態を実現するために、再生信号のBcount帯域のセットのうち、どの離散的な周波数帯域にギャップが強制されるべきか、および、そのようなギャップの各々が強制されるべき時に関して、選択がなされる。次に、このような選択に関連する要因について、以下の両方を定量化し、バランスさせる方法を含めて論じる:
1.帯域内のギャップを強制する必要性(本明細書では「緊急度」と呼ばれることがある要因)
2.ギャップを強制することが知覚的な影響を及ぼす程度(本明細書では「知覚自由度」と呼ばれることがある要因)
【0059】
本発明のいくつかの実施形態では、緊急度および知覚自由度の推定値は、総合的な緊急度を最小限に抑え、(例えば、最適でない統計的な意味で)知覚コストを許容可能に低くする(例えば、最小限に抑える)ように、強制ギャップを挿入しようとして、再生信号のB
count周波数帯域のそれぞれについて決定される。例えば、これは、以下のように実施することができる。離散確率分布Pは、B
countの起こりうる結果(すなわち、確率は、選択のために、特定の時刻に、B
count帯域の各々の一つについて定義される)にわたって定義される。各々の時間間隔w
f毎に1回、この分布Pは、(例えば、
図4、
図5、および
図6に関連して説明したようなパラメータを有する)強制ギャップを(対応する時間間隔で)挿入する帯域を選択するためにランダムにサンプリングされる。分布からランダムに選択することによって、予測不能で構造化されたオーディオアーチファクトが生成されるので、ギャップの知覚的影響が低減される。分布Pは、多くの異なる方法のいずれかで決定することができる。好ましくは、分布Pは、ギャップが強制されるための高い必要性(緊急度)と、強制された後の低い知覚的影響とを有する帯域をバランスさせ、優先順位を付ける。例えば、そのような分布の1つは、
【数1】
である。ここで、
【数2】
であり、U
kとF
kがそれぞれ緊急性と知覚自由度を示す値であり、“k”番目の帯域のP’
kは“k”番目の帯域の(正規化されていない)選択確率であり、δは緊急度と知覚自由度の考慮の相対的重要性を示すパラメータであり、合計は(P
kが“k”番目の帯域のP’
kの正規化版であるように)すべての周波数帯域にわたる。
【0060】
図7は、パーベイシブ・リスニング方法(パーベイシブ・リスニング・サブシステム71によって実施される)の助けを借りて、オーディオ信号(オーディオ再生信号と呼ばれることもある)に強制ギャップを挿入するように構成されたシステムのブロック図である。パーベイシブ・リスニング・サブシステム71は、本明細書では「パーベイシブ・リスナ」と呼ばれることがある。
図7のシステムの強制ギャップ適用サブシステム(強制ギャップアプリケータ)70は、オーディオ再生信号に強制ギャップを挿入するように結合され、構成される。典型的には、オーディオ再生信号がK個のチャネル(それぞれが再生コンテンツの異なるチャネルを示す)を含み、Kは正の整数であり、強制ギャップアプリケータ70はこれらのチャネルを分析し、一連の時間間隔のそれぞれの間にそれらのうちの1つまたは複数にギャップを強制するように構成される。従って、サブシステム70から出力されるK個のオーディオ再生チャネルは、その中に強制的なギャップを有することができる。
【0061】
サブシステム70に入力されるオーディオ信号の各チャネルは、オーディオコンテンツ(本明細書ではメディアコンテンツまたは再生コンテンツと呼ばれることもある)を示し、オーディオコンテンツを示すサウンド(環境E内)を生成するために再生を受けることが意図される。サブシステム70から出力されるオーディオ信号の各チャンネルはスピーカフィードであってもよく、またはシステムの別の要素はサブシステム70から出力されるオーディオ信号の各チャンネルに応答してスピーカフィードを生成してもよい。K個のスピーカフィードは、再生環境Eにおいて(少なくとも1つのスピーカを含む)スピーカシステムSにアサートされる。
【0062】
パーベイシブ・リスニング・サブシステム71(いくつかの実装形態では、適切にプログラムされたプロセッサ上で実行されるパーベイシブ・リスニング・アプリケーション)は、(環境E内のスピーカフィードに応答して)スピーカシステムSから放射される再生サウンド以外の再生環境E内のサウンド(「非再生」サウンド)をモニターするように結合され、構成される。具体的には、環境E内のマイクロホンMは、環境E内のサウンドを捕捉し、捕捉されたサウンドを示すマイクロホン出力信号Micをサブシステム71にアサートする。捕捉されたサウンドは、スピーカシステムSから放出される再生サウンド、および環境E内の少なくとも1つの人間ユーザLによるバックグラウンドノイズ、および/またはスピーチ(または活動を示す他のサウンド、または単なる存在を示すサウンド)であってもよい非再生サウンドを含む。
【0063】
本発明に従って再生コンテンツに挿入された強制ギャップ(すなわち、強制ギャップに対応する周波数帯域および時間間隔)によって明らかにされる環境E内の非再生サウンドをモニタリングすることによって、サブシステム71の性能は、強制ギャップを挿入することなく達成することができる性能に比べて改善される。
【0064】
任意選択的に、パーベイシブ・リスニング・サブシステム71は、さらに、前記サブシステム71によって実行されるモニタリングの少なくとも1つの結果に応じて、強制ギャップアプリケータ70に(例えば、スピーカシステムSによるある程度のオーディオ信号再生を改善する目的で)入力されるオーディオ再生信号を生成するように結合され、構成される。サブシステム71は、(例えば、以下で説明する
図8のシステムのパーベイシブ・リスナ・サブシステム72と同様に)入力オーディオ再生信号を修正することによってオーディオ再生信号を生成することができる。例えば、いくつかの実装形態では、パーベイシブ・リスナ・サブシステム71は(例えば、以下で説明する
図8のシステムのパーベイシブ・リスナ・サブシステム72のように)強制ギャップアプリケータ70に入力される処理済みオーディオ再生信号(典型的には処理済み再生コンテンツのK個のチャネルを含む)を生成するために、(典型的には再生コンテンツのK個のチャネルを含む)入力オーディオ信号に対して処理(例えば、ノイズ補償)を実行するように結合され、構成される。処理されたオーディオ再生信号は強制ギャップアプリケータ70に供給され、強制ギャップアプリケータの出力は、スピーカサブシステムSにアサートされるK個のスピーカフィードのセットである(またはK個のスピーカフィードを生成するために使用される)。
【0065】
(少なくとも1つのスピーカを含む)スピーカシステムSは、サブシステム70の出力によって決定される各スピーカフィードに応じて(再生環境Eにおいて)サウンドを放出するように結合され、構成される。サブシステム70の出力は、単一の再生チャネル、または2つ以上の再生チャネルから構成されてもよい。典型的な動作では、スピーカシステムSの各スピーカはサブシステム70の出力の異なるチャネルの再生コンテンツを示すスピーカフィードを受信する。これに応じて、スピーカシステムSは、再生環境Eにおいてサウンドを放出する。典型的には、サウンドは、環境Eに存在する少なくとも1人のユーザ(L)によって知覚される。
【0066】
図7のマイクロホン出力信号「Mic」はスピーカシステムSと同じ音響空間(
図7の環境E)に存在し、通常は少なくとも1人のユーザ(人間リスナ)LでもあるマイクロホンMを用いて生成される。
【0067】
パーベイシブ・リスニング・サブシステム71には、マイクロホン出力信号Micが供給される。マイクロホン出力信号Micに応じて、サブシステム71は環境Eにおいて非再生サウンドをモニターする(またはモニターしようとする)。非再生サウンドは、スピーカシステムSが放出するサウンド以外のサウンドである。例えば、非再生サウンドは、バックグラウンドノイズおよび/またはユーザLによって放出される(またはユーザLの活動から生じる)サウンドであってもよい。サブシステム71には、強制ギャップ適用サブシステム70から出力されるK個のチャネル(強制ギャップを含んでもよい)も提供される。サブシステム71に提供されるK個のチャネルは、本明細書では「エコー・リファレンス」のK個のチャネルと呼ばれることがある。エコー・リファレンス・チャネルの各々は、サブシステム70によって自動的に強制された強制ギャップを含むことができ、サブシステム71をそのモニタリングタスクにおいて補助する。
【0068】
典型的な実施態様では、強制ギャップアプリケータ70は、ギャップの挿入のための緊急度を示す緊急度データ値(いくつかの周波数帯域のそれぞれにおいて、時間間隔のシーケンスのそれぞれにおいて)に応じて、オーディオ再生信号にギャップを挿入する。幾つかの実装形態では、強制ギャップアプリケータ70は、各周波数帯(例えば、上述したタイプの確率分布によって示されるように)に対する緊急度の所定の固定された推定値、または、(例えば、アプリケータ70に入力される再生信号に基づいて、また任意選択で、アプリケータ70による強制ギャップ挿入の履歴に基づいて)強制ギャップアプリケータ70によって生成される各帯域(時間間隔の各々において)に対する緊急度の推定値のいずれかを用いて緊急度データ値を決定する。
【0069】
図8は、(パーベイシブ・リスニング・サブシステム72によって実施される)パーベイシブ・リスニング方法の助けを借りて、オーディオ再生信号に強制ギャップを挿入するように構成された別のシステムのブロック図である。
図8のシステムは、
図8の(図示のように結合されている)パーベイシブ・リスニング・サブシステム72が
図7のパーベイシブ・リスニング・サブシステム71に取って代わる点を除いて、
図7のシステムと同一であり、サブシステム72は、(例えば、サブシステム72への入力として提供される入力オーディオ再生信号を修正することによって)強制ギャップアプリケータ70に入力される再生信号を生成する。
【0070】
パーベイシブ・リスニング・サブシステム72(いくつかの実装形態では、適切にプログラムされたプロセッサ上で実行されるパーベイシブ・リスニング・アプリケーション)は、サウンド再生環境Eでの非再生サウンドをモニターするように結合され、構成される。非再生サウンドは、環境Eで(そこにアサートされるスピーカフィードに応じて)スピーカシステムSから放出される再生サウンド以外のサウンドである。具体的には、環境EでのマイクロホンMは、環境Eでのサウンドを取り込み、取り込まれたサウンドを示すマイクロホン出力信号Micをサブシステム72にアサートする。取り込んだサウンドには、スピーカシステムSから放出する再生サウンド、および非再生のサウンドがある。非再生サウンドは、バックグラウンドノイズ、および/または、環境Eにおける少なくとも1人の人間のユーザLによる、スピーチ(またはアクティビティまたは単なる存在を示す他のサウンド)であるか、含み得る。
【0071】
本発明による強制ギャップ・アプリケーション・サブシステム70によって再生コンテンツに挿入された強制ギャップによって(すなわち、強制ギャップに対応する周波数帯域および時間間隔で)明らかにされる環境E内の非再生サウンドをモニタリングすることによって、サブシステム72の性能は、強制ギャップを挿入することなく達成することができる性能に比べて改善される。
【0072】
また、パーベイシブ・リスニング・サブシステム72は、(典型的には再生コンテンツのKチャネルを含む)入力オーディオ信号上でオーディオ信号処理(例えば、ノイズ補償)を実行し、該サブシステム72によって実行されるモニタリングの少なくとも1つの結果に応じて、強制ギャップアプリケータ70に(例えば、ある点ではスピーカシステムSによるオーディオ信号再生を改善する目的で)入力される処理されたオーディオ再生信号(典型的には、処理された再生コンテンツのK個のチャネルを含む)を生成するように結合され、構成される。処理されたオーディオ再生信号は、強制ギャップアプリケータ70に供給され、強制ギャップアプリケータの出力は、スピーカサブシステムSにアサートされるK個のスピーカフィードのセットである(もしくはセットを生成するために使用される)。サブシステム72の実装の一例は、後述する
図11のシステムのノイズ推定サブシステム64と共に、ノイズ補償サブシステム62である。
【0073】
図9は、(パーベイシブ・リスニング・サブシステム73によって実施される)パーベイシブ・リスニング方法を用いてオーディオ再生信号に強制ギャップを挿入するように構成された別のシステムのブロック図である。
図9のシステムは、(図示のように結合された)
図9のパーベイシブ・リスニング・サブシステム73が
図7のパーベイシブ・リスニング・サブシステム71に取って代わる点を除いて、
図7のシステムと同一である。
【0074】
図9のシステムでは、強制ギャップアプリケータ70は、パーベイシブ・リスニング・サブシステム73によってそれにアサートされる緊急度信号Uに応じて動作し、その結果、パーベイシブ・リスニング・サブシステム73は再生信号のギャップの必要性に基づいて強制ギャップ挿入を制御する。パーベイシブ・リスニング・サブシステム73の異なる実装は、マイクロホン出力信号Micの周波数帯域におけるギャップの品質および数値に関して異なる要件を有することが予想される。例えば、パーベイシブ・リスナ73は、再生環境EにおけるユーザLによるスピーチ発話の発生または非発生に依存するパーベイシブ・リスニング方法を実施する場合、パーベイシブ・リスナ73は、スピーチの典型的な周波数範囲内で発生するギャップにのみ関心がある。通常、緊急度信号Uは、緊急度値セット[U
0,U
1,...U
N]のシーケンスを示し、ここで、Nは、サブシステム70が強制ギャップを挿入することができる(すなわち、各帯域に1つの強制ギャップが挿入されることができる)(再生信号のすべての周波数範囲の)周波数帯域の所定の数であり、U
iは、サブシステム70が強制ギャップを挿入することができる「i」番目の帯域に対する緊急度値である。(時間に対応する)各緊急度値セットの緊急度値は、緊急度を決定するための本発明の方法の任意の実施形態に従って生成されてもよく、N個の帯域における(時間における)強制ギャップの(サブシステム70による)挿入に対する緊急度を示す。
【0075】
サブシステム73のいくつかの実施形態では、緊急度信号Uは、N個の周波数帯域の各々に対してギャップ挿入の確率を定義する確率分布によって決定される固定された(時間不変)緊急度値セット[U0,U1,...UN]を示す。従って、そのような固定された緊急度値セットに応じて、サブシステム70は、より低い緊急度値(すなわち、確率分布によって決定されるより低い確率値)を有する帯域に(平均して)より少ない強制ギャップを挿入し、より高い緊急度値(すなわち、より高い確率値)を有する帯域に(平均して)より多くの強制ギャップを挿入するように動作する。サブシステム73のいくつかの実施形態では、緊急度信号Uは、緊急度値セット[U0,U1,...UN]のシーケンス、例えば、シーケンス内の異なる時間ごとに設定された異なる緊急度値のシーケンスを示す。このような異なる緊急度値セットの各々は、異なる時間の各々に対する異なる確率分布によって決定されてもよい。緊急信号Uおよびそれによって示される緊急度値の様々な例は、以下でより詳細に説明される。
【0076】
図7、
図8、および
図9の実施形態(例えば、
図7、
図8、および
図9の各々のパーベイシブ・リスニング・サブシステム)は、音響エコー・キャンセレーションを実装してもよい(しかし必要ではない)。
図10は、パーベイシブ・リスニング方法(パーベイシブ・リスニング・サブシステム76によって実施される)を用いてオーディオ再生信号に強制ギャップを挿入するように構成された別のシステムのブロック図である。
図10のシステムは、
図10の(図示のように結合される)パーベイシブ・リスニング・サブシステム76が
図9のパーベイシブ・リスニング・サブシステム73取って代わる点、および、
図10の実施形態は例えば、意図しないエコー漏れがシステムを通過するのを防止するための努力において、マイクロホン出力信号Micに対してエコーキャンセリングを実行するエコー・キャンセリング・サブシステム(エコー・キャンセラ)74を含む点を除いて、
図9のシステムと同一である。強制ギャップ適用サブシステム70の出力(強制ギャップを含み得る)は、エコー・キャンセラ74へのエコー・リファレンスとして提供される。典型的な実施態様では、エコー・キャンセラ74は、
図12のシステムの以下に説明する素子26、32、34、および35のように実施される。代替的には、エコー・キャンセラ74は、別の(例えば、従来の)方法で実装されてもよい。
【0077】
図11は、ノイズ推定サブシステム(ノイズ推定器)64、ノイズ補償ゲイン適用サブシステム(ノイズ補償サブシステム)62、および強制ギャップ適用サブシステム(強制ギャップアプリケータ)70を含むノイズ補償システムのブロック図である。
図11のシステムは上述した
図8のシステムの実施例であり、
図11のノイズ推定器64とともにノイズ補償サブシステム62は、
図8のパーベイシブ・リスニング・サブシステム72に対応し(そして実施し)、ノイズ推定器64は、緊急信号Uを強制ギャップアプリケータ70に供給するように構成されている。緊急信号Uは、
図9を参照して上述した、または本明細書の他の箇所で説明したタイプのうちの任意のものとすることができる。
図11のシステムでは、強制ギャップ適用サブシステム70は緊急度信号Uに応じて動作し、その結果、ノイズ推定器64は、再生信号におけるギャップの必要性に基づいて強制ギャップ挿入を制御する。
【0078】
ノイズ補償システム(例えば、
図11のもの)は、(例えば、上記で参照した米国仮特許出願第62/663,302号に記載されているように実装された場合)弱いまたは存在しないエコー・キャンセレーションで機能することができるが、特にミュージック、TV、および映画コンテンツの場合、コンテンツに依存する応答時間に煩わされることがある。ノイズ補償システムが再生環境におけるバックグラウンドノイズのプロファイルの変化に応答するのに要する時間は、ユーザの経験にとって極めて重要であり、そのため、実際のノイズ推定値の正確さよりも大きい。再生コンテンツがバックグラウンドノイズを見失うようなギャップが少ないか、またはまったくない場合、ノイズ条件が変化してもノイズ推定値は固定されたままになる。ノイズ推定スペクトラムの欠測値を補間して帰することは一般的に役立つが、ノイズ推定スペクトラムの大きな領域がロックアップして失速することが依然としてあり得る。
【0079】
図11のシステムの強制ギャップアプリケータ70の典型的な実施形態は、(ノイズ推定器64による)バックグラウンドノイズ推定値が再生環境EにおけるバックグラウンドノイズNのプロファイルの典型的な変化に応答するのにしばしば十分であるように更新され得る、十分にしばしば(強制ギャップアプリケータ70の出力の利害関係となる各周波数帯域において)発生する強制ギャップ(再生信号において)を提供するように動作可能である。サブシステム70は、ノイズ補償サブシステム62から出力される(K個のチャネルを有する、Kは正の整数)補償されたオーディオ再生信号に強制ギャップを導入するように構成される。ノイズ推定器64は、補償されたオーディオ再生信号の各チャネル内のギャップ(サブシステム70によって挿入される強制ギャップを含む)を探索し、ギャップが生じる周波数帯域(および時間間隔)に対するノイズ推定値を生成するように構成される。ノイズ推定器64は、また、検出されたギャップに関する結果の情報を使用して緊急度信号を生成(および強制ギャップ適用サブシステム63にアサート)するように構成され、その緊急度信号の値は、補償されたオーディオ再生信号の周波数帯域に強制ギャップを挿入する緊急度を追跡する。
【0080】
強制ギャップ適用サブシステム70がない場合、
図11のシステムは従来のノイズ補償システム(例えば、
図1のもの)に似ており、ノイズ推定器64は、マイクロホンフィードマイク(再生環境EにおけるマイクロホンMの出力)と、補償されたオーディオ再生信号のリファレンス(再生環境EにおけるスピーカシステムSへの入力)との両方を受け入れる。サブシステム64内で生成されたノイズ推定値は、ノイズ補償サブシステム62に供給され、これは補償ゲインを入力再生信号23に(コンテンツソース22から)加えて、その各周波数帯域を所望の再生レベルにレベル調整する。ノイズ補償オーディオ再生信号(サブシステム62から出力される)および帯域毎の緊急度測定基準(サブシステム64から出力される緊急度信号によって示される)は強制ギャップアプリケータ70に供給され、これは補償された再生信号(好ましくは最適化プロセスに従って)にギャップを強制する。各々が(強制ギャップアプリケータ70から出力される)ノイズ補償再生信号の異なるチャンネルのコンテンツを示すスピーカフィードは、スピーカシステムSの各スピーカに供給される。
【0081】
図11のシステムのいくつかの実装形態は、それが実行するノイズ推定の要素として、(例えば、
図12の要素26、32、34、および35によって実装されるような)エコー・キャンセレーションを実行できるが、
図11のシステムの他の実装形態はエコー・キャンセレーションを実行しない。エコー・キャンセレーションを実施するための要素は、
図11には特に示されていない。
【0082】
図11では、信号の典型的に実施される時間領域から周波数領域(および/または周波数領域から時間領域)への変換は示されていないが、(サブシステム62における)ノイズ補償ゲインの適用、(ノイズ推定器64および/または強制ギャップアプリケータ70における)ギャップ強制のためのコンテンツの分析、および(強制ギャップアプリケータ70による)強制ギャップの挿入は、典型的には、便宜上、同じ変換領域において実施され、結果として得られる出力オーディオは、再生または送信のためのさらなる符号化の前に、PCM(時間領域)オーディオに再合成される。
【0083】
強制ギャップアプリケータ70を使用することによって、補償された再生信号の各チャネル(
図11システムのノイズ補償サブシステム62からの出力)のギャップの数は、典型的には(強制ギャップアプリケータ70を使用せずに生じるのであろうギャップの数に対して)増加され、それによって、
図11のシステムによって実装される任意のエコー・キャンセラに関する要件を大幅に低減し、場合によってはエコー・キャンセレーションの必要性を完全に排除することさえもある。
【0084】
図7~
図11のいずれかのシステムでは、時間領域ピーク制限またはスピーカ保護のような単純な後処理回路を、強制ギャップアプリケータ70とスピーカシステムSとの間に実装することが可能である。スピーカフィードをブーストおよび圧縮する能力を有する後処理は、強制ギャップアプリケータによって挿入される強制ギャップの品質を元に戻すか、または下げる可能性を有し、従って、これらのタイプの後処理は、強制ギャップアプリケータ70の前の信号処理経路内のある点で実装されることが好ましい。
【0085】
次に、
図11のシステムの実施例のより詳細なブロック図である
図12を説明する。
図12のシステムは再生環境Eにおいてバックグラウンドノイズ推定値を生成し、このノイズ推定値を使用して入力オーディオ信号に対してノイズ補償を実行するように構成される。
図13は、
図12のノイズ推定サブシステム37の実装例のブロック図である。
【0086】
図12のノイズ推定サブシステム37は、再生環境Eにおいてバックグラウンドノイズ推定値を生成するように構成される(典型的にはノイズ推定のシーケンスであって、それぞれが異なる時間間隔に対応する)。
図12のシステムは、入力信号23のノイズ補償バージョン(再生信号25)を生成するために、サブシステム37からのノイズ推定出力(またはそのようなノイズ推定の後処理バージョン、これは、サブシステム39がサブシステム37からのノイズ推定出力を修正するように動作する場合に後処理サブシステム39から出力される)を使用して、(ソース22からの)入力オーディオ信号23に対してノイズ補償を実行するように結合され構成された、ノイズ補償サブシステム62も含む。強制ギャップ適用サブシステム70は、(サブシステム37から供給される緊急信号Uに応答して)強制ギャップをサブシステム62の出力に挿入するように構成され、それによって再生信号25(その各チャネルはその中に挿入された強制ギャップを有し得る)を生成する。
【0087】
図12のサブシステム70は
図11のサブシステム70と同一であり、サブシステム62の動作は、
図11を参照して説明されている。
図12の緊急度信号Uは
図11の緊急信号Uと同一であり、
図12のサブシステム37は、緊急度信号を生成するために、本明細書に記載される任意の方法(例えば、
図11のサブシステム62が緊急度信号Uを生成するように構成され得る方法のいずれか)で信号Uを生成するように構成されてもよい。
【0088】
図12のサブシステム62は
図11のサブシステム62と同一であり、サブシステム62の動作は、
図11を参照して説明されている。
【0089】
図12のシステムは、オーディオ信号23を出力し、ノイズ補償サブシステム62に供給するように結合され構成された、コンテンツソース22を含む。信号23は、オーディオコンテンツ(本明細書ではメディアコンテンツまたは再生コンテンツと呼ばれることもある)の少なくとも1つのチャネルを示し、オーディオコンテンツの各チャネルを示すサウンドを(環境Eにおいて)生成するために再生を受けることが意図される。オーディオ信号23はスピーカフィード(またはマルチチャネル再生コンテンツの場合には2つ以上のスピーカフィード)であってもよく、ノイズ補償サブシステム62は。スピーカフィードの再生ゲインを調整することによって、そのような各スピーカフィードにノイズ補償を適用するように結合および構成されてもよい。代替的には、システムの別の要素がオーディオ信号23に応じてスピーカフィード(または複数スピーカフィード)を生成してもよい(例えば、ノイズ補償サブシステム62は、オーディオ信号23に応答して少なくとも1つのスピーカフィードを生成し、スピーカフィードの再生ゲインを調整することによって各スピーカフィードにノイズ補償を加えるように結合または構成されてもよく、その結果、再生信号25が少なくとも1つのノイズ補償されたスピーカフィードからなる)。
図12のシステムの動作モードでは、サブシステム62はノイズ補償を実行せず、その結果、再生信号25のオーディオコンテンツは、(サブシステム70によって挿入された強制ギャップによって修正された範囲を除いて)信号23のオーディオコンテンツと同じである。
【0090】
(少なくとも1つのスピーカを含む)スピーカシステムSは、再生信号25に応じて、(再生環境Eにおいて)サウンドを放出するように結合され、構成される。信号25は単一の再生チャネルから構成されてもよいし、2つ以上の再生チャネルから構成されてもよい。典型的な動作では、スピーカシステムSの各スピーカは、信号25の異なるチャンネルの再生コンテンツを示すスピーカフィードを受け取る。これに応じて、スピーカシステムSは、スピーカフィードに応じて、(再生環境Eにおいて)サウンドを放出する。サウンドは、入力信号23の再生コンテンツのノイズ補償バージョンとして、(環境Eにおける)ユーザ(人間のリスナ)Lによって知覚される。
【0091】
次に、
図12を参照して、再生コンテンツの多数の異なる周波数帯域の各帯域について、バックグラウンドノイズレベルの推定値のシーケンスを計算する方法およびシステムの実施形態を説明する。(再生環境E、スピーカシステムS、マイクロホンM、およびユーザLを除く)
図12の要素は、ソフトウェア、ファームウェア、またはハードウェアで実施される信号(またはデータ)処理動作を実行するそのような要素(本明細書ではサブシステムと呼ばれるものを含む)の要素とともに、プロセッサ内またはプロセッサとして実施することができることを理解されたい。
【0092】
マイクロホン出力信号(例えば、
図12の信号「Mic」)は、ユーザ(例えば、
図12のユーザL)と同じ音響空間(
図12の環境E)を占有するマイクロホン(例えば、
図12のマイクロホンM)を使用して生成される。2つ以上のマイクロホンを使用して(例えば、それらの個々の出力を組み合わせて)、マイクロホン出力信号を生成することが可能であり、従って、「マイクロホン」という用語は、本明細書において、単一のマイクロホン、または2つ以上のマイクロホンのいずれかを示すように使用されて、単一のマイクロホン出力信号を生成することが可能である。マイクロホン出力信号は、音響再生信号(
図12のスピーカシステムSから放出されるサウンドの再生コンテンツ)および競合するバックグラウンドノイズの両方を示し、(例えば、
図12の時間-周波数変換素子32によって)周波数-領域表現に変換され、それによって、周波数-領域マイクロホン出力データを生成し、周波数-領域マイクロホン出力データは(例えば、
図12の素子33によって)電力領域に帯域化され、マイクロホン出力値(例えば、
図12の値M’)が得られる。各周波数帯域について、対応する値の1つ(値M’の1つ)は、調整された値Mを生成するために、較正ゲインGを使用してレベルで調整される。較正ゲインGの適用は、デジタル再生信号(値S’)およびデジタル化されたマイクロホン出力信号レベル(値M’)のレベル差を補正するために必要である。G(周波数帯域ごと)を自動判定し、測定する方法を以下に説明する。
【0093】
典型的にはマルチチャネル再生コンテンツである再生コンテンツ(例えば、
図12のノイズ補償信号25の各チャネル)の各チャネルは(例えば、
図12の時間-周波数変換素子26によって、好ましくは、変換素子32によって実行される同じ変換を使用して)周波数変換され、それによって、周波数-領域再生コンテンツデータを生成する。周波数-領域再生コンテンツデータ(すべてのチャネルについて)はダウンミックスされ(信号25が2つ以上のチャネルを含む場合)、結果として生じる周波数-領域再生コンテンツデータの単一ストリームは、再生コンテンツ値S’(例えば、
図12の値S’)を生成するために、(例えば、好ましくは、素子33によって実行される同じバンディング動作を使用して、値M’を生成する、
図12の素子27によって)帯域化される。また、値S’は、(例えば、A/DおよびD/A変換による)ハードウェアにおける任意の待ち時間を考慮するために、(本発明の実施形態に従って処理される前に)時間的に遅延されるべきである。この調整は、粗調整と考えることができる。
【0094】
図12のシステムは、図示のように結合され、素子26および32から出力される周波数領域値に対してエコー・キャンセレーションを実行することによってエコーキャンセルされたノイズ推定値を生成するように構成されたエコー・キャンセラ34と、エコー・キャンセラ34から出力されるエコーキャンセルされたノイズ推定値(残留値)に対して周波数帯域化を実行して帯域化されエコーキャンセルされた(各周波数帯域に対して値M’resを含む)ノイズ推定値M’resを生成するように結合および構成された帯域化サブシステム35と、を含むことができる。
【0095】
信号25がマルチチャネル信号(Z個の再生チャネルを含む)であるケースでは、エコー・キャンセラ34の典型的な実施は、(素子26から)周波数-領域再生コンテンツ値の多数のストリーム(各チャネルに対して1つのストリーム)を受信し、各再生チャネルに対して(
図2のフィルタW’に対応する)フィルタW’
iを適応させる。この場合、マイク出力信号Yの周波数領域表現は、W
1X+W
2X+..+W
ZX+Nとして表現することができ、ここで、各W
iはZ個のスピーカの異なる1つ(「i番目」のスピーカ)に対する伝達関数である。このようなエコー・キャンセラ34の実現は、マイクロホン出力信号Yの周波数領域表現から(チャネルごとに1つの)各W’
iX推定値を減算し、
図2のエコーキャンセルされたノイズ推定値Y’に対応するエコーキャンセルされたノイズ推定(または「残留」)値の単一ストリームを生成する。
【0096】
エコーキャンセルされたノイズ推定値を生成するために、エコー・キャンセラ34によって採用された各適応フィルタ(すなわち、
図2のフィルタW’に対応するエコー・キャンセラ34によって実装された各適応フィルタ)のフィルタ係数は、帯域化素子36において帯域化される。帯域化されたフィルタ係数は、サブシステム37によって使用されるゲイン値Gを生成するために、サブシステム43によって使用されるために、素子36からサブシステム43に提供される。
【0097】
任意選択的に、エコー・キャンセラ34は省略され(または動作しない)、従って、適応フィルタ値は帯域化素子36に提供されず、帯域適応フィルタ値は36からサブシステム43に提供されない。この場合、サブシステム43は帯域適応フィルタ値を使用せずに、以下に説明する方法のうちの1つでゲイン値Gを生成する。
【0098】
エコー・キャンセラが使用される場合(すなわち、
図12のシステムが、
図12に示されるように、素子34および35を含み、使用する場合)、エコー・キャンセラ34から出力される残留値は(例えば、
図12のサブシステム35において)帯域化され、帯域化されたノイズ推定値M’resを生成する。(サブシステム43によって生成される)較正ゲインGは値M’resに適用され(すなわち、ゲインGは帯域ごとに1つずつ、帯域固有のゲインのセットを含み、帯域固有のゲインのそれぞれは、対応する帯域内の値M’resに適用され)、(値M’resによって示される)信号を(値S’によって示される)再生信号と同じレベル領域にする。各周波数帯域に対して、値Mresの対応する1つは、調整された値Mresを生成するために較正ゲインGを使用してレベルが調整される。
【0099】
エコー・キャンセラが使用されない場合(すなわち、エコー・キャンセラ34が省略されるか、または動作しない場合)、(
図12および
図13の本明細書の説明において)値M’resは、値M’に置き換えられる。この場合、(素子33からの)帯域化された値M’は、(
図13に示された値M’resの代わりに)
図13のゲイン段12の入力、および
図13のゲイン段11の入力にアサートされる。ゲインGは(
図13のゲイン段12によって)値M’に適用されて調整値Mを生成し、(
図13に示されるような調整値Mresではなく)調整値Mは、ノイズ推定値を生成するために、調整値Mresと同じ方法で(およびその代わりに)、サブシステム20によって(ギャップ信頼値と共に)処理される。
【0100】
(
図13に示す物を含む)典型的な実装では、ノイズ推定サブシステム37は、ノイズ推定値M’resの調整されたバージョン(Mres)内の(すなわち、Mresによって決定された)ギャップを突き止めるために、再生コンテンツ値S’に対して最小フォローイングを実行するように構成される。好ましくは、これは
図13を参照して説明される方法で実施される。
【0101】
図13に示す実施例ではサブシステム37は、一対の最小フォロワ(13および14)を含み、これらは共に同じサイズの分析ウィンドウで動作する。最小フォロワ13は、値S’の(各分析ウィンドウにおける)最小値を示す値S
minを生成するために、値S’上を走るように結合され、構成される。最小フォロワ14は、値Mresの(各分析ウィンドウにおける)最小値を示す値M
resminを生成するために、値Mres上を走るように結合され、構成される。値S’、M、およびMresは、(再生コンテンツ値S’とマイクロホン出力値Mとの比較によって示される)再生コンテンツ内のギャップ(例えば、サブシステム70によって挿入される強制ギャップ)において、少なくとも大まかに時間整列されるので:
Mres(エコー・キャンセラ残留)の値の最小値は、再生環境におけるノイズの推定値を示すと確信することができ、
M(マイクロホン出力信号)の値の最小値は、再生環境におけるノイズの推定値を示すと確信することができる。
【0102】
再生コンテンツのギャップ中以外の時間では、値Mres(または時間M)の最小値は再生環境のノイズの正確な推定値を示すとは限らない。
【0103】
マイクロホン出力信号(M)およびSminの値に応じて、サブシステム16はギャップ信頼値を生成する。サンプル・アグリゲータ・サブシステム20は、候補ノイズ推定値としてMresminの値(または、エコー・キャンセレーションが実行されないケースでは、Mの値)を使用し、候補ノイズ推定値の信頼性の指標として(サブシステム16によって生成される)ギャップ信頼値を使用するように構成される。
【0104】
より具体的には、
図13のサンプル・アグリゲータ・サブシステム20は、候補ノイズ推定値(M
resmin)を、(サブシステム16で生成された)ギャップ信頼値によって重み付けされた方法で一緒に組み合わせて、各分析ウィンドウ(すなわち、
図13に示すように、長さτ2を有するアグリゲータ20の分析ウィンドウ)についての最終ノイズ推定値を生成するように動作し、低ギャップ信頼を示すギャップ信頼値に対応する重み付けされた候補ノイズ推定値は、重みなしに割り当てられるか、または、高ギャップ信頼を示すギャップ信頼値に対応する重み付けされた候補ノイズ推定値よりも重みが小さい。従って、サブシステム20は、ギャップ信頼値を使用して、一連のノイズ推定値(各分析ウィンドウについて、各周波数帯域について1つのノイズ推定値を含む、現行ノイズ推定値のセット)を出力する。
【0105】
サブシステム20の簡単な例は、(ギャップ信頼性重み付けサンプルの)最小フォロワ、例えば、関連するギャップ信頼性が所定の閾値よりも高い場合にのみ解析ウィンドウ内に候補サンプル(Mresminの値)を含む最小フォロワである(すなわち、サンプルのギャップ信頼性が閾値以上である場合に、サブシステム20はサンプルMresminに1の重みを割り当て、サンプルのギャップ信頼値が閾値未満である場合に、サブシステム20はサンプルMresminに0の重みを割り当てる)。サブシステム20の他の実施形態は、ギャップ信頼重み付きサンプル(解析ウィンドウ内で、それぞれギャップ信頼値の対応する1つによって重み付けされたMresminの値)を集約する(例えば、平均または他の方法で集約する)。ギャップ信頼性重み付けサンプルを集約するサブシステム20の例示的な実装は、ギャップ信頼性値によって制御される更新レートを有する線形補間器/1極スムーザである(または含む)。
【0106】
サブシステム20は、たとえギャップが利用可能でなくてもノイズ状態の低下を追跡するために、到来するサンプル(Mresminの値)が(サブシステム20によって決定される)現行ノイズ推定値よりも低いときにギャップ信頼度を無視する戦略を採用することができる。
【0107】
好ましくは、サブシステム20は、ギャップ信頼度によって決定される新しいサンプリング機会が生じるまで、低ギャップ信頼度の間隔の間、ノイズ推定値に効果的に保持されるように構成される。例えば、サブシステム20の好ましい実施態様では、サブシステム20が現行ノイズ推定値を(1つの分析ウィンドウ内で)決定し、次いで(サブシステム16によって生成された)ギャップ信頼値が再生コンテンツ内にギャップがあることを低い信頼度で示す(例えば、ギャップ信頼値が所定の閾値未満のギャップ信頼度を示す)とき、サブシステム20は、(新しい分析ウィンドウ内で)ギャップ信頼値が再生コンテンツ内にギャップがあることをより高い信頼度で示す(例えば、ギャップ信頼値が閾値を超えるギャップ信頼度を示す)まで、現行ノイズ推定値を出力し続け、その時点で、サブシステム20は更新されたノイズ推定値を生成(および出力)する。本発明の好ましい実施形態によれば、ノイズ推定値のシーケンスとして最小フォロワ14から出力される候補ノイズ推定値のみに依存する(ギャップ信頼値を決定し、使用することなしに)か、または従来の方法でノイズ推定値を生成するのではなく、ギャップ信頼値を使用してノイズ推定値を生成する(ギャップ信頼度によって決定されるように、新しいサンプリング機会が生じるまで、低いギャップ信頼度の間隔中にノイズ推定値を保持することを含む)ことによって、すべての使用される最小フォロワ分析ウィンドウの長さ(すなわち、アグリゲータ20がギャップ信頼度重み付けサンプルの最小フォロワとして実装される場合、τ1、最小フォロワ13および14のそれぞれの分析ウィンドウ長、τ2、アグリゲータ20の分析ウィンドウ長)を、従来の手法よりも約1桁低減することができ、ギャップが生じたときにノイズ推定システムがノイズ状態を追跡することができる速度を改善する。
【0108】
本明細書に記載されるように、ノイズ推定器37はまた、緊急値を示す緊急信号Uを生成し、(強制ギャップアプリケータ70に)報告するように構成されることが好ましい。そのような緊急信号の例(およびそのような例が生成され得る方法)が、本明細書で説明される。
【0109】
再度
図12を参照して、ノイズ推定システムの(
図12に示される)実装の追加要素をより詳細に説明する。上述したように、ノイズ補償は、ノイズ推定器サブシステム37によって生成されるノイズ推定スペクトルを使用して、再生コンテンツ23上で(サブシステム62によって)実行される。サブシステム62の出力は強制ギャップアプリケータ70に供給され、このギャップアプリケータは(典型的な動作では)その各チャネルに強制ギャップを挿入し、それによって、ノイズ補償再生コンテンツ25を生成する。ノイズ補償再生コンテンツ25から決定されたスピーカフィードは、再生環境Eにおいて、人間のリスナ(例えば、ユーザL)にスピーカシステムSを介して再生される。人間のリスナと同じ音響環境(環境E)におけるマイクロホンMは、環境(周囲)ノイズおよび再生コンテンツ(エコー)の両方を受け取る。
【0110】
ノイズ補償再生コンテンツ25は、(素子26において)変換され、(素子27において)ダウンミックスされ周波数帯域化されて、値S’を生成する。マイクロホン出力信号は、(素子32において)変換され、(素子33において)帯域化され、値M’を生成する。エコー・キャンセラ(34)が採用される場合、エコー・キャンセラからの残留信号(エコーキャンセルされたノイズ推定値)は、値Mres’を生成するために(素子35において)帯域化される。
【0111】
サブシステム43は、マイクロホンからデジタルマッピングに従った較正ゲインG(各周波数帯域毎)を決定し、これは、それがタップオフされてノイズ推定器に供給される点(例えば、時間-周波数領域変換素子26の出力)におけるデジタル領域内の再生コンテンツと、マイクロホンによって受信されるような再生コンテンツとの間の周波数帯域毎のレベル差を捕捉する。ゲインGの現行の値の各セットは、サブシステム43からノイズ推定器37に供給される。
【0112】
サブシステム43は、以下の3つのデータソースの少なくとも1つにアクセスする:
(メモリ40に記憶されたs)ファクトリ・プリセット・ゲイン;
前のセッション中に(サブシステム43によって)生成された(そしてメモリ41に記憶された)ゲインGの状態;
AEC(例えば、エコー・キャンセラ34)が存在する場合の、使用中の、帯域化AECフィルタ係数エネルギー(例えば、エコー・キャンセラによって実施される、
図2のフィルタW’に対応する適応フィルタを決定するもの)。これらの帯域化AECフィルタ係数エネルギー(例えば、
図12のシステムの帯域化素子36からサブシステム43に提供されるもの)は、ゲインGのオンライン推定として機能する。
【0113】
AECが採用されない場合(例えば、エコー・キャンセラ34を含まない
図12のシステムのバージョンが採用される場合)、サブシステム43は、メモリ40または41内のゲイン値から較正ゲインGを生成する。
【0114】
従って、いくつかの実施形態では、サブシステム43は、サブシステム37によって再生信号、マイクロホン出力信号、およびエコー・キャンセレーション残留値に適用するための較正ゲイン(例えば、帯域化要素36から提供される帯域化AECフィルタ係数エネルギーから)を決定して、ノイズ推定を実施することによって、
図12のシステムが自己較正を実行するように構成される。
【0115】
再び
図12を参照すると、ノイズ推定器37によって生成されたノイズ推定値のシーケンスは、任意選択的に(サブシステム39において)後処理され、それに以下の動作のうちの1つまたは複数を実行することによることが含まれる:
部分的に更新されたノイズ推定値からの欠落ノイズ推定値のインピュテーション;
音色を保持するための現行ノイズ推定の形状の制約;および、
現行ノイズ推定値の絶対値の制約。
【0116】
サブシステム43によって実行されるマイクロホン-デジタルマッピングは、ゲイン値Gを決定するために、それがタップオフされてノイズ推定器に供給される点(例えば、時間-周波数領域変換素子26の出力)におけるデジタル領域内の再生コンテンツと、マイクロホンによって受信されるような再生コンテンツとの間の(周波数帯域毎の)レベル差を捕捉する。マッピングは、主に、スピーカシステムとマイクロホンの物理的な分離と特性、さらにサウンドの再生およびマイク信号の増幅に使用される電気的な増幅ゲインによって決まる。
【0117】
最も基本的な例では、マイクロホン-デジタルマッピングがあらかじめ記憶されたファクトリチューニングであり、デバイスのサンプルにわたって生産設計中に測定され、生産される全てのそのようなデバイスに再利用されてもよい。
【0118】
AEC(例えば、
図12のエコー・キャンセラ34)が使用される場合、マイクロホン-デジタルマッピングに対するより高度な制御が可能である。ゲインGのオンライン推定は適応フィルタ係数の(エコー・キャンセラによって決定される)大きさをとり、それらを帯域化することによって決定することができる。十分に安定したエコー・キャンセラ設計のために、そして推定ゲイン(G’)に関する十分な平滑化を用いて、このオンライン推定は、オフラインの事前に準備されたファクトリ較正と同程度に良好であることができる。これにより、ファクトリチューニングの代わりに、推定ゲインG’を使用することが可能になる。推定ゲインG’を計算することの別の利点は、ファクトリのデフォルトからのデバイス当たりの偏差を測定し、考慮することができることである。
【0119】
推定ゲインG’はファクトリで決定されたゲインに置き換えることができるが、ファクトリのゲインとオンライン推定ゲインG’の両方を組み合わせる、各帯域についてゲインGを決定するためのロバストなアプローチは以下の通りである:
【数3】
ここで、Fは帯域のファクトリゲインであり、G’は帯域の推定ゲインであり、Lはファクトリ設定からの最大許容偏差である。全てのゲインはdBである。値G’が長期間にわたり示された範囲を超える場合、これは故障したハードウェアを示すことができ、ノイズ補償システムは安全な挙動に戻ることを決定することができる。
【0120】
本発明の一実施形態に従って、(例えば、
図12システムの素子37によって)生成されるノイズ推定値のシーケンスに関して、(例えば、
図12のシステムの素子39によって)実行される後処理ステップを使用して、より高品質のノイズ補償体験を維持することができる。例えば、ピークを除去するためにノイズスペクトラムを特定の形状に強制的に適合させる後処理は、補償ゲインが再生コンテンツの音色を不快な方法で歪ませるのを防ぐのに役立つことができる。
【0121】
本発明のノイズ推定方法およびシステムのいくつかの実施形態の態様は、後処理(例えば、
図12のシステムの素子39の実装によって実行される)であり、例えば、他の帯域に対するノイズ推定値は十分に更新されているが、再生コンテンツのギャップの欠如によって古くなった古いノイズ推定値(いくつかの周波数帯域に対する)を更新するためにインピュテーション補完戦略を実装する後処理である。十分な数のギャップ(強制ギャップアプリケータ70の動作によって挿入された強制ギャップを含む)が常に利用可能であり、帯域が古くなることはめったにない実施形態では、古い値のインピュテーションは必要でないことがある。
【0122】
上述したように、強制ギャップアプリケータ70の動作は、エコー・キャンセラを含まない
図12のシステムのバージョンの実施を可能にするために、コンテンツ25に十分な数のギャップ(強制ギャップを含む)を存在させることができる。望ましくは、ノイズ補償システムからエコー・キャンセラを除去することは:
エコー・キャンセラは、キャンセレーション性能と安定性を確保し同調するために大量の時間とリサーチを必要とするので、大量の開発時間を節約し;
(エコー・キャンセレーションを実施するための)大きな適応フィルタバンクは典型的には大きなリソースを消費し、しばしば実行するために高精度の算術演算を必要とするので、計算時間を節約し、
マイクロホン信号と再生オーディオ信号との間の共有クロックドメインおよび時間アラインメントの必要性を排除する。エコー・キャンセレーションは、同じオーディオクロック上で同期されるべき再生信号と記録信号の両方に依存する。
【0123】
(例えば、エコー・キャンセレーションなしで、本発明の典型的な実施形態のいずれかに従って実施される)ノイズ推定器は、さらなる複雑さの節約のために、増加したブロック率/より小さいFFTサイズで実行することができる。周波数領域で実行されるエコー・キャンセレーションは、典型的には狭い周波数分解能を必要とする。
【0124】
本発明の幾つかの実施例に従った、ノイズ推定値を生成するためにエコー・キャンセレーションを使用する場合(強制ギャップの再生信号への挿入によることを含む)、エコー・キャンセラの性能はユーザ体験を損なうことなく低減することができ(ユーザがノイズ補償された再生コンテンツを聴く場合、本発明のそのような実施例に従って生成されるノイズ推定値を使用して実装される)、なぜなら、エコー・キャンセラは、再生コンテンツにおけるギャップ(強制ギャップを含む)を明らかにするために十分なキャンセレーションを実行するだけでよく、再生コンテンツのピークに対して高いERLEを維持する必要がないからである(ここで「ERLE」はエコー・キャンセラによって、dB単位で、どれだけのエコーが除去されるかの測度であるエコーリターンロス強化を示す)。
【0125】
次に、緊急度値または緊急度値を示す信号(U)を決定するための方法(本発明のパーベイシブ・リスニング方法の多くの異なる実施形態のいずれかで実施することができる)について説明する。
【0126】
周波数帯域の緊急値は、帯域内にギャップを強制する必要があることを示す。緊急度値を決定するための3つの方策U
kを示し、ここでU
kは帯域kでの強制ギャップ挿入の緊急度を示し、UはB
count周波数帯域のセットの全帯域に対する緊急度値を含むベクトルを示す:
【数4】
【0127】
第1の戦略(本明細書では方法1と呼ばれることもある)は、固定された緊急度値を決定する。この方法は最も単純であり、緊急度ベクトルUを所定の固定量にするだけである。固定された知覚自由度メトリックと共に使用される場合、これは、強制ギャップを時間ランダムに挿入するシステムを実施するために使用することができる。
図7または
図8のシステムは、この方法がパーベイシブ・リスニング・アプリケーションによって供給される時間依存緊急度値を必要としないので、この方法を実施するのに十分である。従って:
【数5】
であり、ここで、X=B
countであり、それぞれの値u
k(k=1からk=B
countまでの範囲のkについて)は、「k」帯域に対する所定の固定された緊急度値である。すべてのu
kを1.0に設定すると、すべての周波数帯域で同等の緊急度を表す。
【0128】
第2の戦略(本明細書では方法2と呼ばれることもある)は、以前のギャップが発生してからの経過時間に依存する緊急度値を決定する。典型的には、緊急度が時間の経過と共に徐々に増加し、強制されたまたは既存のギャップのいずれかが、パーベイシブ・リスニングの結果における更新(例えば、バックグラウンドノイズ推定値更新)を引き起こすと、ローに戻ることを予想することができる。
【0129】
従って、各周波数帯域(帯域k)における緊急度の数値U
kは、帯域kにおいて(パーベイシブ・リスナによって)ギャップが見られてからの秒数である可能性がある。従って:
【数6】
であり、ここで、t
gは帯域kの最後のギャップが検出された時刻であり、U
maxは緊急度を最大サイズに制限するチューニングパラメータである。なお、t
gは、本来再生コンテンツに存在するギャップの存在に基づいて更新されてもよい。緊急度は、このようにして、強制ギャップアプリケータ(例えば、
図7または
図8のシステム)によって、またはパーベイシブ・リステニング・サブシステム(例えば、
図9、
図10、
図11、または
図12のシステム)によって計算することができる。緊急度がパーベイシブ・リステニング・サブシステムによって計算される場合、ギャップと見なされるものの基準は、そのサブシステムにとって(緊急度が外部で決定される場合よりも)より適切である可能性がある。例えば、ノイズ補償において、再生環境における現行のノイズ条件は、出力再生信号におけるギャップと考えられるものを決定する。すなわち、再生信号は、環境においてよりノイズの多い場合よりも、ギャップが生じるために環境が静かである場合に、より静かでなければならない。同様に、人間のスピーチによって典型的に占有される周波数帯域に対する緊急度は、典型的には再生環境においてユーザによるスピーチ発話の発生または非発生に依存するパーベイシブ・リスニング方法を実施する場合に、より重要である。
【0130】
第3の戦略(本明細書では方法3と呼ばれることもある)は、イベントベースの緊急度値を決定する。この文脈において、「イベントベースの」とは、再生環境の外部にある、または再生環境で生じたことを検出または推測された何らかのイベントまたは活動(または情報の必要性)に依存することを意味する。パーベイシブ・リスニング・サブシステムによって決定される緊急度は、新たなユーザ行動の開始または再生環境条件の変化に伴って突然変化することがある。例えば、そのような変化は、決定を下すために、または再生体験を新しい条件に迅速に適合させるために、または各帯域におけるギャップ間の一般的な緊急度または所望の密度および時間の変化を実施するために、パーベイシブ・リスナにバックグラウンド活動を観察する緊急の必要性を持たせることができる。以下の表2は、コンテキストとシナリオの多くの例と、緊急度における対応するイベントベースの変更を示す:
【表2-1】
【表2-2】
【0131】
第4の戦略(本明細書では方法4と呼ばれることもある)は、方法1、2、および3のうちの2つ以上の組合せを使用して緊急度値を決定する。例えば、方法1、2、および3のそれぞれは、以下のタイプの一般的な定式化によって表される、結合戦略に組み合わされてもよい:
【数7】
ここで、u
kは、それぞれの周波数帯域の相対的重要度を制御する固定された単位なし重み係数であり、V
kは、緊急度の迅速な変更を必要とするコンテキストまたはユーザ挙動の変化に応じて変調されるスカラ値であり、t
gおよびU
maxは、上記で定義される。典型的には、値V
kは、通常の動作では1.0の値のままであることが期待される。
【0132】
次に、再生信号に強制ギャップを挿入するために強制ギャップアプリケータによって使用される知覚自由度値(またはそれを示す信号)を決定するための方法(本発明のパーベイシブ・リスニング方法の多くの異なる実施形態のいずれにおいても実施され得る)を説明する。
【0133】
この文脈において、「F」は、知覚自由度値fkを示す「知覚自由度」信号であると定義され、ここで、そのような知覚自由度値の各々は、ある時点における対応する帯域kにおけるギャップを強制する知覚インパクトが低い場合には、比較的大きなマグニチュードを有し、ある時点における帯域kにおけるギャップを強制する知覚インパクトが高い場合には、(比較的大きなマグニチュードよりも小さい)比較的小さなマグニチュードを有する。例えば、知覚自由度fkは、「k」番目の帯域における強制ギャップによって導入される知覚歪みの逆数であってもよい。
【0134】
第1の戦略は、固定された知覚自由度値を決定する。例えば、「F」は、所定の固定ベクトルであってもよい:
【数8】
ここで、X=B
count(強制ギャップが挿入される可能性のある利用可能な帯域の数)および値f
k(k=1~k=B
countの範囲のkの場合)は、「k」帯域の所定の固定された知覚自由値である。すべてのf
kに対するf
k=1.0のフラット構造は、(強制ギャップは同一の知覚自由度に応じて帯域の特定の帯域に優先的に挿入されないという意味で)すべての帯域を等しく扱うが、異なる周波数帯域が知覚性に本質的な違いを持つことは事実である。特に、1kHz未満と6kHzを超える帯域に挿入されるギャップは、これらの周波数間のギャップよりも知覚的に影響が大きくなる。この現象を考慮に入れた固定された知覚自由度ベクトルは、強制ギャップ挿入のいくつかの実施形態において有効であり得る。
【0135】
第2の戦略は、知覚マスキング曲線を使用して知覚自由度値を決定する。この戦略では、再生コンテンツのストリームに挿入された強制ギャップは、一種の歪みと見なすことができる。周波数ビンの離散的なセットの中から歪みを配置する周波数ビン(または帯域)を選択することは、情報隠蔽および損失のあるオーディオコーデックの技術においても遭遇する問題である。情報隠蔽および損失性オーディオ圧縮の当業者は、知覚マスキング曲線の概念に精通している。このような曲線は、ノイズの追加から生じる歪みが人間のリスナに聞こえない場所を示すのに役立つ。
【0136】
任意の数の心理音響効果を利用する知覚マスキング曲線を決定するための多くの既知の方法がある。例えば、このような2つの方法は、周波数マスキングおよび経時マスキングである。このような方法の例は、Swanson,M.D.,Kobayashi,Mei,and Tewfik,Ahmed(1998),Multimedia Data-Embedding and Watermarking Technologies,Proceedings of IEEE,Vol.86,Issue 6、1064~1087頁に記載されている。
【0137】
2番目の方策に従ってf
k値を計算するために、B
count帯域にわたって離散値を持つ知覚マスキング曲線Mを導入する。
図14は、再生コンテンツの現行の帯域化されたエネルギー(曲線E)および再生コンテンツに対する知覚マスキング曲線(曲線M)の例であり、各曲線は、49の指数関数的に間隔を置いた周波数帯域(帯域0から帯域48)のそれぞれについて、(縦軸に示される)dBでのエネルギー対(横軸に示される)周波数の関数としてプロットされる。エネルギーEがマスキング曲線Mよりも低い帯域における再生コンテンツの修正は、エネルギーEがマスキング曲線Mよりも高い帯域におけるよりも知覚的に聞こえにくい。従って、(「k」番目の帯域に対する)曲線の値の間隔を「k」番目の帯域に対する知覚的自由度f
kとする:
【数9】
【0138】
次に、知覚マスク計算に従って知覚自由度値を決定するための例示的な実施形態について説明する。このサンプルでは、帯域化再生コンテンツエネルギー(E
k)は、
【数10】
、および、帯域のマスク閾値(M
k)を生成することが目的である:
【数11】
であり、その結果、「k」番目の帯域に対する知覚自由度f
kである差M
k-E
k(「k」番目の帯域に対する)は、「k」番目の帯域における強制ギャップの知覚可能性に反比例する値である。ここでのマスキング閾値の定義は、強制ギャップを挿入することの知覚不能性を約束しない。制御された信号および条件で知覚不能性が証明され実証されているシナリオにおいて、マスキング曲線をどのように使用するかは周知であるが、知覚自由度の計算は、曲線がこれを示すことのみを必要とし、規範的ではない。
【0139】
ラウド信号には、「周波数マスキング」(または「スペクトルマスキング」または「同時マスキング」)として知られる現象で、周波数の近くにあるより静か(クワイエット)な信号をマスクする機能がある。本例では、帯域エネルギーEに周波数マスキングを適用し、次のアルゴリズムに従ってエネルギーを拡散させてマスキング閾値M
kを決定する:
【数12】
帯域、k=1,2,..., B
count-1の場合、
【数13】
帯域、k=0,1,..., B
count-2の場合、
【数14】
ここで、行は順番に実行され(実行のたびにM
kの値「k」を更新する)、s
kは心理音響モデルから導かれた拡散係数である。拡散係数は、典型的には対応する周波数帯の帯域幅に比例する。帯域幅の増加とともに対数間隔の帯域では、通常、以下の単純な線形近似で十分である:
【数15】
ここで、
【数16】
【0140】
ラウド信号の再生には、「経時マスキング」と呼ばれる現象である、その後すぐに発生するより静か(クワイエット)な信号の再生をマスクする機能がある。本例では、帯状エネルギーに適用された減衰指数関数によって時間的マスキングをモデル化する。本例では、順向経時マスキングがマスキング曲線(時間tの異なった値に対する各曲線)に対するマスキング閾値M
k,tを決定するために適用され、ここで、M
k,tは、上記決定されたマスキング閾値M
kの各々のT個の以前の値に指数関数的に切り捨てられたモデルを適用する次のアルゴリズムに従って、時間tに対する曲線に対する周波数帯域kに対するマスキング閾値である:
【数17】
各帯域の最大値(“max()”)kが、その帯域のT個の項(時間tの値M
k、および前のT-1回のそれぞれの値)に引き継がれる。上記の式におけるパラメータαは、システムのブロック率/サンプリング率に依存する指数関数の減衰率である。0.1dB/msの減衰率を達成するαの値は、αの顕著なデフォルト値である。
【0141】
マスキング閾値を決定する例示的な方法は、マスキング曲線を強調するステップを任意選択で含む。このステップでは、マスキングカーブを強調して、低エネルギー帯域に対してカーブを上方に持ち上げ、これは、典型的には、強調されたカーブをギャップの挿入に使用した場合に良好な結果を達成する。この最終ステップは任意選択であり、(強調されていない)マスキング曲線が強制ギャップの適用には控えめすぎる場合に有用である。強調するステップの典型的な実施は、以前に決定された各々の値M
kを、以下の強調された値に置き換える:
【数18】
【0142】
次に、本発明のいくつかの実施形態に従って実施される、確率的強制ギャップ挿入の典型的な態様について述べる。
【0143】
緊急度値および知覚自由度値が計算されるか、または決定されると、それらは(強制ギャップ挿入のいくつかの実施形態では)組み合わされて、(上述した)離散確率分布Pを形成する:
【数19】
【数20】
ここで、パラメータδは、知覚自由度(F
k)に対する緊急度値(U
k)の相対的重要度を制御する。このような確率分布は、チューニングや制御に便利である。
【0144】
分析の各フレームにおいて(前段落の確率分布を使用して)強制ギャップを挿入する再生信号の帯域を選択する、アルゴリズムの例は、以下の通りである:
1.解析の現行フレームの値Uk、およびFkを計算または決定する(任意選択で、値Umaxを超えないように値Ukを制限する);
2.強制ギャップ挿入のために帯域を選択(導出)する(分布Pの)数値Pkを計算する;
3.ギャップが最後に強制されてから少なくともTp秒が経過した場合は
a.分布PからN個の帯域をランダムに引き出し、
b.Ukが閾値Uminを下回っている帯域、またはFkが閾値Fminを上回っている帯域をすべて破棄し、
c.ステップ3aおよび3bの後に残っている帯域にギャップ強制を開始する。
【0145】
分布Pからランダムに選択することによって、ギャップの構造化されたパターンが回避され、そうでなければ、それ自体の知覚可能なアーチファクトを生成することになる。ステップ3bは、最終的に、生成されるギャップの実際の数を減少させるが、チューニングが非常に容易であり、システムの知覚コストに高度に関連するという重要な利点を有する。より低い知覚可能な影響および緊急度に対するタイムリーな応答のために一般的な分布形状を最適化するための、例示的な方法におけるパラメータの値の典型的なデフォルトは、以下の表に記載される。
【表3】
【0146】
次に、
図15を参照して、本発明の強制ギャップアプリケータの実施形態(例えば、
図7、
図8、
図9、
図10、
図11、または
図12の強制ギャップアプリケータ70の実施形態)を説明する。強制ギャップアプリケータのこのような実施例のブロック図である
図15に示すように、強制ギャップアプリケータへの入力はオーディオ再生信号のK個のチャネル(例えば、
図15のシステムが
図8の強制ギャップアプリケータ70を実装する場合、
図8のパーベイシブ・リスナ・サブシステム72から出力されたK個のチャネル)である。
図15のシステムは、K個のインプットチャネルをモノフィードにダウンミックスし、モノフィードを帯域化するように構成されたダウンミキシングおよび帯域化サブシステム80を含み、それによって、モノフィードのB
count周波数帯域のセットの各々の各時間間隔について再生エネルギー値を決定する。サブシステム80の出力は知覚自由度信号Fを計算するように構成された知覚マスキングサブシステム81に提供され、これは時間間隔ごとにB
count周波数帯の各々に対する知覚自由度値F
kを示す。サブシステム81は知覚自由度値、F
kを決定するように構成することができ、結果、それらは本明細書に記載する知覚自由度値の例示のいずれかである。
【0147】
サブシステム81の出力は確率分布サブシステム82に提供され、これは確率分布P(例えば、固定された、時間不変分布、またはモノフィードの異なる時間間隔に対応する時間で更新される分布)を決定するように構成される。確率分布に従って、周波数帯域のN個のセット(例えば、モノフィードの時間間隔ごとのN個の帯域のセット)をサブシステム83によってランダムに導出することができ、従って、サブシステム84は導出された帯域の各セットに強制ギャップを挿入することができる。サブシステム82は、典型的には、確率分布Pを、(本開示で上述される)以下の形式の分布となるように生成する(および任意選択で、モノフィードのいくつかの異なる時間間隔のそれぞれについて更新する)ように構成される:
【数21】
ここで、
【数22】
そして、F
kはサブシステム81によって決定された(例えば、関連する時間間隔のための)知覚自由値であり、U
kは各帯域の緊急度を示す値(すなわち、U
kは「k」番目の帯域の緊急度値)であり、P’
kは「k」番目の帯域の選択の(非正規化)確率であり、δは緊急度と知覚自由度の考慮の相対的重要度を示すパラメータであり、その合計は(P
kが「k」番目の帯域のためのP’
kの正規化バージョンであるように)すべての周波数帯域にわたる。
【0148】
いくつかの実装形態では、(例えば、再生信号の時間間隔について)緊急度値U
kを示す帯域化緊急度信号Uが外部源(例えば、
図9のパーベイシブ・リスナ・サブシステム73または
図11のノイズ推定サブシステム64)からサブシステム82に提供される。外部ソースは、典型的には、パーベイシブ・リスナ(例えば、スマートボイスアシスタント、ノイズ推定器、またはバックグラウンドアクティビティ分類器)である。代替的に、サブシステム82は、(例えば、再生信号の時間間隔について)緊急度値U
kを決定するように構成され、その結果、それらは例えば、本明細書に記載される緊急度値の例のいずれかである。サブシステム82は、緊急度値U
kおよび知覚自由度値であるF
kを組み合わせて、確率分布Pを決定(および場合によっては更新)するように構成される。
【0149】
サブシステム83は、サブシステム82によって決定された確率分布Pから(対応する時間間隔に対して)N個の帯域のセットをランダムに(モノフィードの各時間間隔に対して1回)選択(導出)し、典型的には、導出された帯域の各セットの帯域が(上述の種類の)最低要件FminおよびUminを満たすことを検査するように結合され、構成される。導出された帯に対応する緊急度値Ukまたは知覚自由度値Fkが最低要求、FminおよびUminのうちの関連するものを満たさない場合、その帯域は、典型的には不要なものとされる(その中に強制的なギャップは挿入されない)。
【0150】
サブシステム83は、ギャップ適用サブシステム84に、強制ギャップが挿入されるべき帯域の各セット(サブシステム80によって決定されるモノフィードの各時間間隔に対して1セット)を通知するように構成される。このような各通知に応じて、サブシステム84は、通知された各帯域に強制ギャップを(適切な時間間隔の間に)挿入するように構成される。各強制ギャップの挿入は、適用される強制ギャップゲインGの計算を含み、これらのゲインを、再生コンテンツのK個のチャネルに、(各チャネルの)適切な周波数帯域および時間間隔で適用し、それによって、再生中に非再生サウンドを(パーベイシブ・リスナによって)モニターすることができる、そのようなチャネルの各々に強制ギャップを挿入する。
【0151】
次に、緊急度値を決定するための方法の異なる選択肢(すなわち、上述の方法1、2、3、および4)と、知覚自由度値を決定するための方法の異なる選択肢(すなわち、固定知覚自由度値を決定するための上述の方法と、少なくとも1つのマスキング曲線を使用して知覚自由度値を決定するための上述の方法)とを仮定して、典型的な強制ギャップ適用システムの挙動について説明する。表3(以下に記載)は、緊急度値および知覚自由度値を決定する方法の示された選択について、強制ギャップ適用システムの典型的な挙動を比較する。
【表4】
【0152】
以下の表は、低知覚コストで強制ギャップを挿入するために異なるタイプのマスキングに依存し得る強制ギャップ挿入の異なる実施形態の態様を説明する。これらの態様は、いくつかの実施形態において、知覚自由度の計算のための知覚マスキング曲線を形成し、作成するのに有用な要因を含む。
【表5-1】
【表5-2】
【0153】
本発明のいくつかの実施形態の態様は以下を含む:
ユーザに著しい知覚的影響を与えることなく、パーベイシブ・リスニング方法の性能を(再生サウンドおよび非再生サウンドの両方を捕捉するためにローカル・マイクロホンを使用して)改善する目的で、再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム;
そのようにする緊急度または必要性に基づいて、再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム;
マスキング曲線を使用することによって、相対的な知覚的影響に基づいて再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム;
ギャップ挿入の相対的な知覚的影響とギャップ挿入の緊急度とのバランスに基づいて、再生コンテンツに強制サンプリングギャップを挿入するための方法およびシステム;
(再生オーディオのバージインダッキングまたは一時停止とは対照的に)パーベイシブ・リスニング方法の性能を改善する目的で、強制サンプリングギャップを再生コンテンツに挿入するための方法およびシステムであって、それによって、強制サンプリングギャップの定義パラメータがノイズ推定値の成分が更新されていない持続時間に比例して決定され、および/または、強制サンプリングギャップの定義パラメータが、再生オーディオ信号に対する時間および空間におけるそれらの近接性を考慮することによって、強制ギャップの知覚的影響を最小限にする最適化プロセスによって決定される、方法およびシステム;
強制サンプリングギャップの使用を通じてノイズ補償機能を拡張する方法およびシステムであって、それによって、再生コンテンツにおけるギャップの存在を強制するトリガが、ノイズ推定の成分が更新されてから経過した時間の持続時間に自動的にリンクされ、および/または、それによって、再生コンテンツにおけるギャップの存在を強制するトリガが、二次デバイスまたはユーザの要求によってリクエストされる、方法およびシステム;
例えば、強制ギャップの挿入に対する累積された必要性または要望に対してバランスが取られた、強制ギャップ挿入の影響に対する知覚モデルを使用した、強制ギャップ挿入によることを含む、ノイズ補償機能および/またはバックグラウンドサウンド認識を拡張する方法およびシステム。
【0154】
次に、ノイズ補償を実施する発明のシステム(例えば、
図11または
図12のシステム)の実施形態の動作例を説明する。システム(例えば、
図11のサブシステム64)によって決定されたノイズ推定値が再生コンテンツにおけるサンプリングギャップの欠如のために固定するとき、3つのシナリオが展開することができる:
1.ノイズ条件が増加する一方、推定値は固定される;
2.ノイズ状態が減少する一方、推定値は固定される、;または、
3.ノイズ状態は持続する一方、推定値は固定される。
【0155】
ケース3(ノイズ状態が持続する場合)では、システムは以前に決定された方法で補償を実行し続けるが、システムはこのケースを他のケースと区別することができないので、ケース3の間にギャップを強制することの影響を考慮する。
【0156】
以下の表4は、再生コンテンツにおいて利用可能なサンプリングギャップの欠如によってもたらされる古いノイズ推定に対抗するために強制ギャップが導入される3つのシナリオの評価を示す。
【表6】
【0157】
ケース1およびケース2は、システムが(挿入された強制ギャップを用いて)正確なノイズ推定値に再収束するのに要する時間だけ持続する、短寿命のイベントであると予想される。ケース1は、小さなギャップでさえ、システムが増加したノイズ状態を見つけるのに役立つので、迅速に再収束すべきである。また、ケース2は、安定性に対してより低いノイズ推定値を好む補償システムにおける正のフィードバックのために、迅速に再収束すべきである。ケース3は、コンテンツが密であり、ギャップが少ない限り、システムの定常状態である。従って、強制ギャップがオーディオ品質に及ぼす影響は、主にケース3について考慮されるべきである。
【0158】
表4は、強制ギャップの緊急度と潜在的知覚可能性との間の傾向を示す。より高い緊急度は、一般的に、システムがバックグラウンドの状態を聞くのに苦労していることを意味し、そのため、再生コンテンツの信号対ノイズ比(SNR)は高い。バックグラウンドノイズに対する再生コンテンツのより高いSNRはより少ないマスキングを提供し、強制ギャップがより知覚可能になる機会を増加させる。
【0159】
本発明の方法の例示的な実施形態は以下を含む。
【0160】
E1.オーディオ再生信号の少なくとも1つの選択された周波数帯域内に少なくとも1つのギャップを挿入して、修正された再生信号を生成することと、
前記修正された再生信号に応じた再生環境におけるサウンドの放出中に、前記再生環境においてマイクロホンを使用してマイクロホン出力信号を生成することであって、前記サウンドは前記修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は、前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、使用して生成することと、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドをモニターすることと、を含む、パーベイシブ・リスニング方法。
【0161】
E2.前記ギャップの各々は、前記オーディオ再生信号の、選択された時間間隔で、選択された周波数帯域内に挿入されて、前記ギャップの挿入に起因する、前記修正された再生信号に応じて前記再生環境内で放出される前記サウンド内の任意のアーチファクトは、前記再生環境内のユーザに対して低い知覚性を有し、前記モニターすることの実行中に高い識別性を有する、E1に記載の方法。
【0162】
E3.前記ギャップの各々は、前記修正された再生信号に応じて前記再生環境において放出されるサウンドが前記ギャップの挿入に起因する著しいアーチファクトなしにユーザによって知覚可能であるように、前記オーディオ再生信号の選択された時間間隔で、選択された周波数帯域内に挿入される、E1に記載の方法。
【0163】
E4.前記ギャップの各々は、前記オーディオ再生信号の選択された周波数帯域内に挿入され、前記選択された周波数帯域の各々は、前記オーディオ再生信号の周波数帯域のセットから、前記周波数帯域のセットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して実施される選択によって決定される、E1に記載の方法。
【0164】
E5.前記知覚自由度値は、少なくとも1つの周波数マスキングの考慮に従って決定されて、前記知覚自由度値のうちの1つが、周波数帯域の前記セットのピークエネルギー帯域に近い近ピーク帯域についての近ピーク値であるとき、前記知覚自由度値のそれぞれは、前記ピークエネルギー帯域から前記近ピーク帯域よりも遠い帯域について、前記近ピーク値よりも大きい予想される知覚効果を示す、E4に記載の方法。
【0165】
E6.前記知覚自由度値は、少なくとも1つの経時マスキングの考慮に従って決定されて、その結果、前記オーディオ再生信号が少なくとも1つのラウド再生サウンドイベントを示すとき、前記ラウド再生サウンドイベントの直後に生じる前記オーディオ再生信号の第1の時間間隔に対する前記知覚自由度値のそれらが、前記オーディオ再生信号の第2の時間間隔に対する前記知覚自由度値のそれらよりも低い予想される知覚効果を示し、前記第2の時間間隔は前記第1の時間間隔よりも遅い、E4に記載の方法。
【0166】
E7.前記パーベイシブ・リスニング方法はノイズ推定方法であり、前記マイクロホン出力信号は前記再生環境におけるバックグラウンドノイズを示し、前記モニタリングは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境におけるバックグラウンドノイズ推定値を生成することを含む、E1に記載の方法。
【0167】
E8.前記モニターすることは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも1つの態様の推定値を生成することを含み、
前記再生環境における非再生サウンドの少なくとも1つの態様の推定値に応じて、前記オーディオ再生信号を生成することを、さらに含む、E1に記載の方法。
【0168】
E9.前記ギャップの各々は、前記再生信号の少なくとも1つの周波数帯域におけるギャップの必要性に基づいて、前記再生信号内に挿入される、E1記載の方法。
【0169】
E10.前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に挿入される、E9記載の方法。
【0170】
E11.前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に挿入される、E9に記載の方法。
【0171】
E12.前記ギャップの各々は、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも1つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度と予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に挿入される、E9に記載の方法。
【0172】
E13.前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定することと、
前記確率分布に従って、前記セットの周波数帯域のうちの少なくとも1つをランダムに選択し、前記少なくとも1つの周波数帯域のそれぞれにギャップを挿入することと、を含む、E1に記載の方法。
【0173】
E14.前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、E13記載の方法。
【0174】
E15.前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、E13に記載の方法。
【0175】
E16.前記マイクロホン出力信号および前記修正された再生信号に応じて、緊急度値を生成すること、を含み、
前記緊急度値は、前記再生信号の周波数帯域のセットの各帯域において、前記各帯域における前のギャップの発生からの経過時間に基づいて、ギャップの必要性を表し、前記再生信号への各ギャップの挿入は、少なくとも部分的に前記緊急度値に基づいている、E1に記載の方法。
【0176】
E17.前記非再生サウンドの前記モニターすることは、バックグラウンドノイズ推定値の生成を含み、
前記バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を実行することによることを含む、前記バックグラウンド推定値に応じて前記オーディオ再生信号を生成すること、をさらに含む、E1に記載の方法。
【0177】
E18.再生環境においてサウンドの放出中にマイクロホン出力信号を生成するように配置および構成されたマイクロホンであって、前記サウンドは修正された再生信号の再生コンテンツを示し、前記マイクロホン出力信号は前記再生環境における非再生サウンドおよび前記再生コンテンツを示す、マイクロホンと、
オーディオ再生信号を受信するように結合され、前記オーディオ再生信号の少なくとも1つの選択された周波数帯域内に少なくとも1つのギャップを挿入し、それによって前記修正された再生信号を生成するように構成された、強制ギャップ適用サブシステムと、
マイクロホン出力信号および前記修正された再生信号を受信するように結合され、前記修正された再生信号および前記マイクロホン出力信号に応じて前記再生環境における前記非再生サウンドをモニターするように構成される、パーベイシブ・リスニング・サブシステムと、を含む、システム。
【0178】
E19.前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の、選択された時間間隔で、選択された周波数帯域内に前記ギャップの各々を挿入するように構成されて、前記ギャップの挿入から生じる、前記修正された再生信号に応じて前記再生環境において放出されるサウンドにおけるいかなるアーチファクトも、前記再生環境におけるユーザに対する低い知覚性と、前記モニターすることの実行中の高い識別性とを有する、E18に記載のシステム。
【0179】
E20.前記強制ギャップ適用サブシステムは、前記オーディオ再生信号の周波数帯域のセットから、前記選択された周波数帯域の各々を選択することによることを含む、周波数帯域の前記セットの各帯域におけるギャップの挿入の予想される知覚効果を示す知覚自由度値を使用して、前記オーディオ再生信号の選択された周波数帯域内に前記ギャップの各々を挿入するように構成される、E18に記載のシステム。
【0180】
E21.前記知覚自由度値は、少なくとも1つの周波数マスキングの考慮に従って決定されている、E20に記載のシステム。
【0181】
E22.前記知覚自由度値は、少なくとも1つの経時マスキングの考慮に従って決定されている、E20に記載のシステム。
【0182】
E23.前記マイクロホン出力信号は、前記再生環境におけるバックグラウンドノイズを示し、前記パーベイシブ・リスニング・サブシステムは、前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における前記バックグラウンドノイズ推定値を生成するように構成される、E18に記載のシステム。
【0183】
E24.前記パーベイシブ・リスニング・サブシステムは、
前記修正された再生信号および前記マイクロホン出力信号に応じて、前記再生環境における非再生サウンドの少なくとも1つの態様の推定値を生成し、
前記再生環境における前記非再生サウンドの少なくとも1つの態様の推定値に応じて、前記オーディオ再生信号を生成するように、結合されおよび構成される、E18に記載のシステム。
【0184】
E25.前記強制ギャップ適用サブシステムは、前記再生信号の少なくとも1つの周波数帯域におけるギャップの必要性に基づいて、前記ギャップの各々を前記再生信号内に挿入するように構成される、E18に記載のシステム。
【0185】
E26.前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応じて、前記再生信号内に前記ギャップの各々を挿入するように構成される、E25に記載のシステム。
【0186】
E27.前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値に応答して、および前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップ挿入の予想される知覚効果に基づいて、前記再生信号内に前記ギャップの各々を挿入するように構成される、E25に記載のシステム。
【0187】
E28.前記強制ギャップ適用サブシステムは、前記再生信号の周波数帯域のセットの各帯域におけるギャップ挿入の緊急度を示す緊急度値を使用して、前記再生信号の少なくとも1つの特定の時間間隔における、前記再生信号の周波数帯域の前記セットの前記各帯域におけるギャップの挿入の予想される知覚効果に基づいて、ギャップ挿入の緊急度および予想される知覚効果とのバランスをとることを含む方法で、前記再生信号内に前記各ギャップを挿入するように構成される、E25に記載のシステム。
【0188】
E29.前記強制ギャップ適用サブシステムは、
前記再生信号の周波数帯域のセットの各帯域に対する確率を示す確率分布を決定し、
前記確率分布に従って、前記セットの前記周波数帯域のうちの少なくとも1つをランダムに選択し、前記少なくとも1つの周波数帯域のそれぞれにギャップを挿入するように構成される、E18に記載のシステム。
【0189】
E30.前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々におけるギャップの必要性に基づく、E29に記載のシステム。
【0190】
E31.前記確率分布は、前記再生信号の周波数帯域の前記セットの前記帯域の各々において、ギャップの必要性と、前記ギャップの挿入の予想される知覚効果とに基づく、E29に記載のシステム。
【0191】
E32.前記パーベイシブ・リスニング・サブシステムは、前記マイクロホン出力信号および前記修正された再生信号に応じて緊急値を生成するように構成されており、前記緊急値は、前記各帯域における前のギャップの発生からの経過時間に基づいて、前記再生信号の周波数帯域のセットの各帯域におけるギャップの必要性を示し、前記強制ギャップ適用サブシステムは、前記緊急度値を受信するように結合され、および、少なくとも部分的に前記緊急値に基づいた方法で、前記ギャップの各々を前記再生信号内に挿入するように構成されている、E18に記載のシステム。
【0192】
E33.前記パーベイシブ・リスニング・サブシステムは、
バックグラウンドノイズ推定値を生成することによることを含んで、非再生サウンドをモニターし、
バックグラウンド推定値に応じて入力オーディオ信号にノイズ補償を行うことによることを含んで、前記バックグラウンド推定値に応じて前記オーディオ再生信号を生成するように、結合されおよび構成されている、E18に記載のシステム。
【0193】
本発明の態様は本発明の方法の任意の実施形態を実行するように構成された(例えば、プログラムされた)システムまたはデバイスと、本発明の方法またはそのステップの任意の実施形態を実施するためのコードを記憶する有形のコンピュータ可読メディア(例えば、ディスク)とを含む。例えば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであってもよく、それらを含んでもよく、ソフトウェアまたはファームウェアでプログラムされてもよく、および/または本発明の方法またはそのステップの実施形態を含む、データに対する様々な動作のいずれかを実行するように他の方法で構成されてもよい。そのような汎用プロセッサは、入力デバイスと、メモリと、本発明の方法(またはそのステップ)の実施形態を、それにアサートされたデータに応じて実行するようにプログラムされる(および/または構成される)処理サブシステムとを含むコンピュータシステムであってもよく、またはそれを含んでもよい。
【0194】
本発明のシステムのいくつかの実施形態(例えば、
図15のシステムのいくつかの実装、または
図12のシステムの素子62、70、26、27、34、32、33、35、36、37、39、および43、または
図7のシステムの素子70および71、または
図8のシステムの素子70および72、または
図9のシステムの素子70および73、または
図10のシステムの素子70、74、および76、または
図11のシステムの素子62、70および64)は本発明の方法の実施形態の性能を含む、オーディオ信号に対して必要な処理を実行するように構成された(例えば、プログラムされた、さもなければ構成された)構成可能な(例えば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装される。あるいは、本発明のシステムの実施形態(例えば、
図15のシステムのいくつかの実装、
図12のシステムの素子62、70、26、27、34、32、33、35、36、37、39、および43、または
図7のシステムの素子70および71、または
図8のシステムの素子70および72、または
図9のシステムの素子70および73、または
図10のシステムの素子70、74、および76、または
図11のシステムの素子62、70および64)はソフトウェアまたはファームウェアでプログラムされ、および/または本発明の方法の実施形態を含む様々な動作のいずれかを実行するように構成された汎用プロセッサ(例えば、パーソナルコンピュータ(PC)または他のコンピュータシステムもしくはマイクロプロセッサ、これらは、入力デバイスおよびメモリを含むことができる)として実装される。代替的に、本発明のシステムのいくつかの実施形態の要素は、本発明の方法の実施形態を実行するように構成された(例えば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムは他の要素(例えば、1つまたは複数のスピーカおよび/または1つまたは複数のマイクロホン)も含む。本発明の方法の実施形態を実行するように構成された汎用プロセッサは、典型的には、入力デバイス(例えば、マウスおよび/またはキーボード)、メモリ、およびディスプレイデバイスに結合される。
【0195】
本発明の別の態様は、本発明の方法またはそのステップの任意の実施形態を実行するためのコード(例えば、実行するために実行可能なコーダ)を記憶するコンピュータ可読メディア(例えば、ディスクまたは他の有形記憶メディア)である。
【0196】
本発明の特定の実施形態および本発明の用途が本明細書に記載されてきたが、本明細書に記載され、特許請求される本発明の範囲から逸脱することなく、本明細書に記載される実施形態および用途に対する多くの変形が可能であることは当業者には明らかであろう。本発明の特定の形態を示し、説明したが、本発明は説明し、図示した特定の実施形態または説明した特定の方法に限定されるものではないことを理解されたい。