(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-28
(45)【発行日】2023-05-11
(54)【発明の名称】ネットワークマイクロフォンデバイスのノイズ分類による最適化
(51)【国際特許分類】
H04R 3/00 20060101AFI20230501BHJP
G10L 21/0308 20130101ALI20230501BHJP
G10L 25/60 20130101ALI20230501BHJP
【FI】
H04R3/00 320
G10L21/0308 Z
G10L25/60
(21)【出願番号】P 2021535871
(86)(22)【出願日】2019-12-19
(86)【国際出願番号】 US2019067576
(87)【国際公開番号】W WO2020132298
(87)【国際公開日】2020-06-25
【審査請求日】2021-08-12
(32)【優先日】2018-12-20
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】506030756
【氏名又は名称】ソノズ インコーポレイテッド
(74)【代理人】
【識別番号】100101454
【氏名又は名称】山田 卓二
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100183265
【氏名又は名称】中谷 剣一
(72)【発明者】
【氏名】ソト,カート トーマス
【審査官】山下 剛史
(56)【参考文献】
【文献】米国特許出願公開第2017/0270919(US,A1)
【文献】米国特許出願公開第2016/0316293(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 13/00-99/00
(57)【特許請求の範囲】
【請求項1】
ネットワークマイクロフォンデバイス(NMD)の1つ以上のマイクロフォンを介してサウンドを検出するステップと、
検出されたサウンドに基づいてNMDの第1バッファにサウンドデータをキャプチャするステップと、
トリガーイベントを検出するためにNMDを介してサウンドデータを分析するステップと、
NMDの少なくとも第2バッファにサウンドデータに関連するメタデータであって、このメタデータから元のサウンドデータには復元できないメタデータ、をキャプチャするステップと、
トリガーイベントを検出した後、
サウンドデータを音声アシスタントサービスに送るステップと、
サウンドデータ内のノイズを分類するためメタデータの分析を発動するステップと、
分類されたノイズに基づいてNMDの少なくとも1つの性能パラメータを修正するステップと
を含む方法。
【請求項2】
請求項1に記載の方法であって、サウンドデータ内のノイズを分類するためにメタデータを分析することは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することである、ことを特徴とする方法。
【請求項3】
請求項2に記載の方法であって、メタデータを参照メタデータと比較することは、メタデータをそれぞれのノイズイベントのシグネチャと比較することを含み、ここでシグネチャは、それぞれのノイズイベントにさらされたマイクロフォンデバイスの複数の周波数応答に適用される主成分分析を使用して生成される、ことを特徴とする方法。
【請求項4】
請求項3に記載の方法であって、前記複数の周波数応答が、
制御された条件でキャプチャされたサンプル、および
ユーザの入力から得られたサンプル
の少なくとも1つを含む、ことを特徴とする方法。
【請求項5】
請求項2~4のいずれかに記載の方法であって、前記メタデータは、周波数応答スペクトルを含む一方、前記メタデータを参照メタデータと比較することは、NMDの集団から収集された周波数応答スペクトルに対応する固有空間に周波数応答スペクトルを投影することを含む、ことを特徴とする方法。
【請求項6】
請求項1~5のいずれかに記載の方法であって、更に、多くのサンプリングフレーム間で平均化された周波数領域の情報にメタデータを限定することによって、メタデータをキャプチャされたサウンドデータから導出するステップを含む、ことを特徴とする方法。
【請求項7】
請求項1~6のいずれかに記載の方法であって、更に、
低いレベルのノイズが検出された場合、サウンドデータを分析するために処理されるマイクロフォンのチャンネル数を減らすステップを含む、ことを特徴とする方法。
【請求項8】
請求項7に記載の方法であって、マイクロフォンのチャネル数を減らすステップは、1つ以上のマイクロフォンの、チャンネルをオフにする、チャンネルの電源を落とす、又は、チャンネルからの読み取り値を廃棄することである、ことを特徴とする方法。
【請求項9】
請求項1~8のいずれかに記載の方法であって、NMDの少なくとも1つの性能パラメータを修正するステップは、
前記NMDのウェイクワード検出感度パラメータを調整すること、
前記NMDに関連する再生デバイスの再生音量を調整すること、
前記NMDのノイズキャンセリングアルゴリズムを変更すること、及び
環境に存在する複数のNMDの少なくとも1つの性能パラメータを修正すること、
の少なくとも1つを含む、ことを特徴とする方法。
【請求項10】
請求項1~9のいずれかに記載の方法であって、更に、
NMDを介して、分類されたノイズに対応するデータを、ワイドエリアネットワークを通って1つ以上のリモートコンピューティングデバイスに送信するステップ
を含む、ことを特徴とする方法。
【請求項11】
請求項1~10のいずれかに記載の方法であって、前記メタデータは、
マイクロフォンの周波数応答データ、
マイクロフォンのスペクトルデータ、
アコースティックエコーキャンセレーション(AEC)データ、
エコーリターンロスエンハンスメント(ERLE)データ、
アービトレーションデータ、
信号レベルデータ、及び
方向検出データ
の少なくとも1つを含む、ことを特徴とする方法。
【請求項12】
請求項1~11のいずれかに記載の方法であって、NMDの少なくとも1つの性能パラメータを修正するステップは、
NMDまたはリモートデバイスによって、シミュレートされたノイズイベントまたはノイズイベントと音声入力の組合せに適用される種々の性能パラメータを用いて行われる、予測型モデリングを実行することと、
特定のノイズイベントまたは組み合わせされたノイズイベントについて、最適な性能パラメータ値を決定することと、
決定された最適な性能パラメータ値に基づいて、NMDの性能パラメータを修正すること、
を含む、ことを特徴とする方法。
【請求項13】
請求項12に記載の方法であって、前記予測型モデリングは、既知のノイズのセットでトレーニングされたニューラルネットワークを用いて実行される、ことを特徴とする方法。
【請求項14】
ネットワークマイクロフォンデバイス(NMD)に、
請求項1~13のいずれか
に記載の方法を実行させるために、1つ以上のプロセッサによって実行可能な命令を格納した有形、非一時的、コンピュータ可読媒体。
【請求項15】
ネットワークマイクロフォンデバイス(NMD)であって、
1つ以上のプロセッサと、
1つ以上のマイクロフォンと、
請求項14に記載の有形、非一時的、コンピュータ可読媒体と
を含む、ネットワークマイクロフォンデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2018年12月20日に出願された米国特許出願第16/227,308号の優先権を主張するものであり、この出願はその全体が参照により本明細書に組み込まれる。
【0002】
本技術は、コンシューマ製品に関するものであり、より詳細には、音声制御が可能なメディア再生システムまたはそれに関連する内容の方法、システム、製品、特徴、サービス、およびその他の要素に関するものである。
【背景技術】
【0003】
2003年にSONOS社が「Method for Synchronizing Audio Playback between Multiple Networked Devices(複数のネットワークデバイス間でオーディオ再生を同期させる方法)」と題した最初の特許出願をし、2005年にメディア再生システムの販売を開始するまでは、デジタルオーディオをアウトラウドな環境でアクセスして聴くための選択肢は限られていた。SONOS Wireless HiFi Systemは、ネットワークに接続された1台または複数の再生機器を介して、さまざまなソースの音楽を体験することができる。スマートフォンやタブレット、パソコンにインストールされたソフトウェア制御アプリケーションを介して、ネットワーク接続された再生機器がある部屋であれば、好きな曲を再生することができる。さらに、コントローラを使って、例えば、再生機がある部屋ごとに異なる曲を流したり、複数の部屋をグループ化して同期再生したり、すべての部屋で同じ曲を同期して聴かせたりすることができる。
【0004】
デジタルメディアへの関心がますます高まっている中で、リスニング体験をさらに向上させるために、消費者がアクセス可能な技術を開発する必要がある。
【0005】
ここに開示されている技術の特徴、側面、および利点は、以下の説明、添付の特許請求の範囲、および添付の図面を参照することで、よりよく理解することができる。
【図面の簡単な説明】
【0006】
【
図1A】開示された技術の態様に従って構成されたメディア再生システムを有する環境の部分切断図
【
図1B】
図1Aのメディア再生システムと1つ以上のネットワークの概略図
【
図3A】種々の形態による再生装置の構成例を示す図
【
図3B】種々の形態による再生装置の構成例を示す図
【
図3C】種々の形態による再生装置の構成例を示す図
【
図3D】種々の形態による再生装置の構成例を示す図
【
図3E】種々の形態による再生装置の構成例を示す図
【
図4A】一形態による例示的なコントローラデバイスの機能ブロック図
【
図4B】一形態による例示的なコントローラインタフェースの図
【
図4C】一形態による例示的なコントローラインタフェースの図
【
図5】一形態による例示的なネットワークマイクロフォンデバイスに含まれる特定の構成要素の機能ブロック図
【
図6B】一形態による例示的な音響標本を示すグラフ
【
図7】主成分分析によって定義された座標空間において、特定のノイズを分離したグラフ
【
図8A】一形態に基づき、ネットワークマイクロフォンデバイスを介してノイズを分類するための例示的な方法の図
【
図8B】一形態によるコントローラインタフェースの図
【
図8C】一形態によるコントローラインタフェースの図
【
図9】一形態による例示的なノイズ分類およびネットワークマイクロフォンデバイス適応の機能フロー図
【
図10】種々の距離に対する、ファンノイズのスペクトルの例を示すグラフ
【
図11】マイクロフォンのスペクトルデータを主成分分析して得られた基底ベクトルのグラフの一例
【
図12】ノイズデータを分類するための再構成されたスペクトルのグラフの一例
【
図13】大人数のネットワークマイクロフォンデバイスから得られたスペクトル分布の一例を示すグラフ
【0007】
図面は、例示的な実施形態を説明するためのものであるが、本発明は、図面に示された配置および器具に限定されないことを理解される。図面上、同一の参照番号は、少なくとも概ね類似した要素を示す。特定の要素の説明を容易にするため、参照番号の最上位桁は、その要素が最初に紹介された図の番号を示す。例えば、要素103aは、
図1Aにおいて最初に紹介される。
【発明を実施するための形態】
【0008】
I.概要
音声による制御は、ワイヤレスオーディオ再生装置、照明装置、ホームオートメーション装置(サーモスタット、ドアロック等)など、通信ネットワークに接続されたスマート家電や装置を含む「スマート」ホームにおいて有益である。いくつかの用途においては、スマートホームデバイスを制御するため、ネットワークマイクロフォンデバイスが用いられることができる。
【0009】
ネットワークマイクロフォンデバイス(「NMD」)は、典型的には、NMDの環境に存在する音を検出するように構成されたマイクロフォンアレイなどのマイクロフォンの配列を含むネットワーク化されたコンピューティングデバイスである。検出された音には、人の話し声と背景音(再生機から出力される音楽やその他の環境音)が混ざっている場合がある。実際には、NMDは検出された音をフィルタリングして人の音声から背景雑音を取り除き、音声制御を示す音声入力が含まれているかどうかを識別しやすくする。そうであれば、NMDはそのような音声入力に基づいて行動を起こしてもよい。
【0010】
NMDは、通常、NMDに搭載されているウェイクワードエンジンを採用し、NMDによって検出された音が、特定のウェイクワードを含む音声入力を含んでいるかどうかを識別する。ウェイクワードエンジンは、1つまたは複数の識別アルゴリズムを使用して、特定のウェイクワードを識別(すなわち、「スポット(特定)」)するように構成されてもよい。このウェイクワードの識別プロセスは、一般的に "キーワードスポッティング "と呼ばれている。実際には、キーワードスポッティングを容易にするために、NMDは、NMDのマイクによって検出された音をバッファリングし、ウェイクワードエンジンを使用して、バッファリングされた音を処理して、ウェイクワードが存在するかどうかを判断する。
【0011】
ウェイクワードエンジンが、検出された音の中にウェイクワードをスポットすると、NMDは、ウェイクワードイベント(すなわち、「ウェイクワードトリガー」)が発生したと判断してもよく、これは、NMDが音声入力を含む音を検出した可能性があることを示す。ウェイクワードイベントが発生すると、NMDは検出された音に関連する追加の処理を実行する。いくつかの実施形態では、追加プロセスとして、ウェイクワードが識別されたことを示すアラート(例えば、可聴チャイムおよび/またはライトインジケータ)を出力することや、バッファから検出されたサウンドデータを抽出することなどを含めることができる。検出された音を抽出する工程には、特定のフォーマットに従って検出された音のストリームを読み出してパッケージ化することや、パッケージ化されたサウンドデータを解釈のために適切なVASに送信することが含まれる。
【0012】
続いて、ウェイクワードエンジンで特定されたウェイクワードに対応するVASは、通信ネットワークを介してNMDから送信されたサウンドデータを受信する。VASは一般的に、音声入力を処理するように構成された1つまたは複数のクラウドサーバーを使用して実行されるリモートサービスの形態をとる(例:AMAZON(登録商標)のALEXA(登録商標)、APPLE(登録商標)のSIRI(登録商標)、MICROSOFT(登録商標)のCORTANA(登録商標)、GOOGLE(登録商標)のASSISTANT(登録商標)など)。いくつかの例では、VASの特定のコンポーネントや機能が、ローカルおよびリモートのデバイスに分散されている場合がある。さらに、VASは、NMDまたはNMDを構成するメディア再生システムに実装されたローカルサービスの形態をとり、音声入力または特定の種類の音声入力(例えば、初歩的なコマンド)がリモートVASの介入なしにローカルで処理されるようにしてもよい。
【0013】
いずれにせよ、VASが検出したサウンドデータを受信すると、VASは通常、このデータを処理し、音声入力を識別し、音声入力に含まれる単語の意図を決定することができる。その後、VASは、決定された意図に応じた何らかの指示をNMDに返す応答を提供してもよい。その指示に基づいて、NMDは1つまたは複数のスマートデバイスにアクションを実行させてもよい。例えば、VASからの指示に従って、NMDは再生装置に特定の曲を再生させたり、イルミネーション装置を点灯/消灯させたりすることができる。場合によっては、NMD、またはNMDを備えたメディアシステム(例えば、NMDを搭載した再生装置を備えたメディア再生システム)が、複数のVASと相互作用するように構成されていてもよい。実際には、NMDは、NMDが検出した音の中で特定された特定のウェイクワードに基づいて、一つのVASを多数のVASの中から選択することができる。
【0014】
ある実施形態では、ネットワークメディア再生システムの一部となるように構成された再生装置は、NMDのコンポーネントおよび機能を含むことができる(すなわち、再生装置は「NMD装備」である)。この点において、このような再生装置は、人の話声、再生装置自身または近くにある別の再生装置が出力している音声、またはその他の周囲の雑音など、再生装置の環境に存在する音を検出するように構成されたマイクロフォンを含み、また、ウェイクワード識別を容易にするため、検出された音をバッファリングするコンポーネントを含んでもよい。
【0015】
NMDを搭載した再生機は、再生機を壁のコンセントなどに物理的に接続することなく動作させることができる内部電源(例えば、充電式バッテリー)を含んでも良い。なお、ここでは、このような再生装置を "ポータブル再生装置 "と呼ぶ。一方、壁のコンセントなどからの電力に依存するように構成された再生機器は、ここでは「据え置き型の再生装置」と呼ぶが、実際には家庭内などの環境で移動可能である。実際には、1台以上の据え置き型の再生機が置かれている自宅などの環境に、ポータブル再生機を持ち運ぶことが多い。
【0016】
場合によっては、NMD、または複数のNMDで構成されるシステム(例えば、再生装置のメディア再生システム)に対して、複数の音声サービスが構成されている。1つまたは複数のサービスをセットアップ時に設定することもできるし、後から追加で音声サービスのシステムに設定することができる。この場合、NMDは複数の音声サービスとのインターフェースとして機能するため、それぞれの音声サービスと相互利用するために、それぞれの音声サービスのNMDを用意する必要性を軽減することができる。さらに、NMDは、家庭内に存在するサービス専用のNMDと連携して、与えられた音声コマンドを処理することができる。
【0017】
NMDに2つ以上の音声サービスが設定されている場合、特定の音声サービスに対応するウェイクワードを発声することで、特定の音声サービスを呼び出すことができる。例えば、AMAZON(登録商標)を検索する場合、ユーザは "Alexa(アレクサ)"というウェイクワードを話し、その後に音声コマンドを発する。他の例として、GOOGLE(登録商標)への問い合わせには「Ok, Google(オーケーグーグル)」、APPLE(登録商標)への問い合わせには「Hey, Siri(ヘイ、シリ)」などがある。
【0018】
いくつかのケースでは、NMDへの音声入力を示すために、汎用のウェイクワードを使用することができる。また、いくつかのケースでは、任意の特定の音声サービスに結び付けられたウェイクワードではなく、製造者固有のウェイクワードである(例えば、NMDがSONOS(登録商標)再生デバイスである場合、「Hey,Sonos(ヘイ、ソノス)」となる。)。このようなウェイクワードを用い、NMDはリクエストを処理する特定の音声サービスを識別することができる。例えば、ウェイクワードに続く音声入力が特定の種類のコマンド(例えば、音楽再生)に関するものであれば、その音声入力は、その種類のコマンドに関する特定の音声サービス(例えば、音声コマンド機能を有するストリーミング音楽サービス)に送信される。
【0019】
NMDは、個々のマイクロフォンが複数集まったアレイを含むことができる。動作時、NMDは、個々のマイクロフォンのそれぞれからサウンドデータを受信し、それを処理して、ウェイクワードが検出されたかどうかを評価する。上述のようにして、ウェイクワードが検出された場合、NMDは後続のオーディオ入力をVASに送り、更なる処理がなされる。ノイズ(例えば、近くの家電製品、背景の会話、交通、工事などからの環境ノイズ)があれば、ネットワークマイクロフォンデバイスの機能が損なわれることがある。ノイズが存在すると、下流側の処理に悪影響を及ぼしたり、ウェイクワードの検出の誤判定率(誤りを正しいと判定したり、正しいものを誤りと判定する率)が上昇したり、VASの性能低下(音声コマンドを正確に解読できない、応答できないなど)につながる。
【0020】
以下に詳細に説明するように、ここではノイズの存在下での音声入力処理を強化するように構成された様々な技術および装置が開示されている。例えば、いくつかの実施形態では、NMDの性能を向上させるために、NMDの1つまたは複数のパラメータを調整することができる。いくつかの実施形態では、例えば、ノイズをユーザの環境のノイズサンプルやより大きなサンプル集団からの既知のノイズサンプルと比較することにより、ノイズを分類することができる。例えば、ノイズについて識別されたクラスが存在する場合、ウェイクワード感度パラメータを調整することができる。代替的にまたは追加的に、下流側での処理を行う前に、識別された家電製品のノイズに対応する特定の周波数帯域を、検出されたサウンドデータから無視またはフィルタリングすることができる。また、特定の方向からのノイズ(例えば、固定された家電製品からのノイズ)を抑制するために、空間的な処理を調整することもできる。音声データに含まれるノイズの特性に応じてNMDの性能を変更することで、音声検出や下流側の処理を向上させることができる。
【0021】
いくつかの実施形態では、NMDは、評価およびノイズ分類のために、サウンドメタデータ(例えば、スペクトルデータ、信号レベル、方向検出など)をリモートコンピューティングデバイスに提供する。ユーザのプライバシーを守るため、オリジナルのオーディオコンテンツ(録音された音声入力の内容やその他の検出されたサウンドデータなど)を明らかにしないサウンドメタデータのみに頼ることも可能とする。NMDは、検出されたサウンドデータから、サウンドメタデータにアクセスしなければ元のオーディオ信号を解読できないような方法で、サウンドメタデータを導き出すことができる。例えば、サウンドメタデータを、時間領域の情報ではなく、多くのサンプリングフレームで平均化された周波数領域の情報に限定して用いることで、NMDは、サウンドメタデータを利用して検出した元のサウンドデータを判読不能にすることができる。NMDは、サウンドメタデータを収集し、このメタデータをリモートにある評価装置である1つまたは複数のコンピューティングデバイスに送信し、評価および比較を行うことができる。そして、リモートの評価装置は、サウンドメタデータを評価して、サウンドメタデータの特徴を特定し、ノイズやNMDの性能低下の原因となる他の要因を見つけることができる。このようにして、いくつかの実施形態では、システムは、録音された音声コンテンツをリモートの評価装置に送信することにより、ユーザのプライバシーを侵害することなく、環境中のノイズを検出し、分類することができる。
【0022】
ここに記載されているいくつかの実施形態は、「ユーザ」および/または他のエンティティなどの所定の登場人物によって実行される機能に言及している場合があるが、この記載は説明のみを目的としていることを理解すべきである。特許請求の範囲において、文言で明示的に示されない限り、そのような例示的な登場人物の行為に限定されない。
【0023】
II.動作環境の例
図1Aおよび
図1Bは、ここに開示された1つまたは複数の実施形態が実施され得るメディア再生システム100(または「MPS100」)の構成例を示す。まず、
図1Aを参照すると、図示されているMPS100は、複数の部屋と空間を有する例示的な家庭環境に関連付けられており、これらは総称して「家庭環境」、「スマートホーム」、または「環境101」とも言う。環境101は、マスターバスルーム101a、マスターベッドルーム101b(ここでは「ニックの部屋」と呼ぶ)、セカンドベッドルーム101c、ファミリールームまたはデン101d、オフィス101e、リビングルーム101f、ダイニングルーム101g、キッチン101h、および屋外パティオ101iを含み、いくつかの部屋、スペース、および/または再生ゾーンを有する家庭からなる。以下では、家庭環境の下での特定の実施形態や例を説明するが、ここで説明する技術は他のタイプの環境でも実施可能である。いくつかの実施形態では、例えば、MPS100は、1つ以上の商業環境(例えば、レストラン、モール、空港、ホテル、小売店などの店舗)、1つ以上の車両(例えば、スポーツユーティリティビークル、バス、車、船、ボート、飛行機)、複数の環境(例えば、家庭環境と車両環境の組み合わせ)、および/または、マルチゾーンオーディオが望ましいと思われる別の適切な環境で実施することができる。
【0024】
これらの部屋や空間の中で、MPS100は1つ以上のコンピューティングデバイスを含む。
図1Aおよび
図1Bを一緒に参照すると、そのようなコンピューティングデバイスは、再生デバイス102(再生デバイス102a~102oとして個別に識別される)、ネットワークマイクロフォンデバイス103(「NMD」103a~102iとして個別に識別される)、およびコントローラデバイス104aおよび104b(総称して「コントローラデバイス104」)を含むことができる。
図1Bを参照すると、家庭環境は、1つまたは複数のスマートイルミネーションデバイス108(
図1B)、スマートサーモスタット110、およびローカルコンピューティングデバイス105(
図1A)などの、ローカルネットワークデバイスを有する、追加および/または他のコンピューティングデバイスを含んでもよい。以下に説明する実施形態では、様々な再生装置102のうち1つ以上は携帯型の再生装置として構成されてもよく、他は据置型の再生装置として構成されてもよい。例えば、ヘッドフォン102o(
図1B)は携帯型の再生装置であり、本棚に設置された再生装置102dは据置型の装置であってもよい。別の例として、パティオの再生装置102cは、バッテリ駆動の装置であってもよく、これにより、壁のコンセントなどに接続されていない状態で、環境101内の様々な場所や、環境101外に持ち運ぶことができる。
【0025】
なお、
図1Bを参照すると、MPS100の様々な再生装置、ネットワークマイクロフォン、およびコントローラ装置102~104および/または他のネットワーク装置は、ネットワークルータ109を含むLAN111を介して、ポイントツーポイント接続および/または有線および/または無線である他の接続を介して、互いに組合せ(couple)されてもよい。例えば、デン101d(
図1A)にある再生装置102jは、「左」の装置として指定されることがあり、同じくデン101dにあり、「右」の装置として指定されることがある再生装置102aとポイントツーポイントで接続されることがある。関連する実施形態では、左再生装置102jは、LAN111を介したポイントツーポイント接続および/または他の接続を介して、「前」の装置として指定されることがある再生装置102bなどの他のネットワーク装置と通信してもよい。
【0026】
図1Bにさらに示すように、MPS100は、ワイドエリアネットワーク(「WAN」)107を介して1つまたは複数のリモートコンピューティングデバイス106に組合せされてもよい。いくつかの実施形態では、各リモートコンピューティングデバイス106は、1つまたは複数のクラウドサーバの形態をとってもよい。リモートコンピューティングデバイス106は、様々な方法で環境101のコンピューティングデバイスと対話するように構成されてもよい。例えば、リモートコンピューティングデバイス106は、家庭環境101において、オーディオなどのメディアコンテンツのストリーミングおよび/または再生制御を容易にするように構成されてもよい。
【0027】
いくつかの実装では、様々な再生デバイス、NMD、および/またはコントローラデバイス102~104は、VASに関連する少なくとも1つのリモートコンピューティングデバイス、およびメディアコンテンツサービス(「MCS」)に関連する少なくとも1つのリモートコンピューティングデバイスに通信可能に組合せされてもよい。例えば、
図1Bの例示された例では、リモートコンピューティングデバイス106aは、VAS190に関連付けられており、リモートコンピューティングデバイス106bは、MCS192に関連付けられている。
図1Bの例では、分かりやすくするために、単一のVAS190と単一のMCS192のみを示しているが、MPS100は、複数の異なるVASおよび/またはMCSに組合せされていてもよい。いくつかの実装では、VASは、AMAZON(登録商標)、GOOGLE(登録商標)、APPLE(登録商標)、MICROSOFT(登録商標)、SONOS(登録商標)、または他の音声アシスタントプロバイダーの1つまたは複数によって運営されてもよい。いくつかの実装では、MCSは、SPOTIFY(登録商標)、PANDORA(登録商標)、AMAZON MUSIC(登録商標)、または他のメディアコンテンツサービスの1つまたは複数によって運営されてもよい。
【0028】
図1Bにさらに示すように、リモートコンピューティングデバイス106は、メディア再生機能の遠隔促進、デバイスおよびシステムのステータス情報の管理、MPS100のデバイスと1つまたは複数のVASおよび/またはMCSとの間の通信の指示など、特定の動作を実行するように構成されたリモートコンピューティングデバイス106cをさらに含む。一例では、リモートコンピューティングデバイス106cは、1つまたは複数のSONOS Wireless HiFi Systemのクラウドサーバを提供する。
【0029】
様々な実装において、再生デバイス102の1つまたは複数は、オンボード(例えば、統合された)ネットワークマイクロフォンデバイスの形態をとるか、またはそれを含むことができる。例えば、再生装置102a~eは、それぞれNMD103a~eを含む、またはそれに対応するものを備えている。なお、ここでは、NMDを搭載した再生機を、特に断りのない限り、再生機またはNMDと呼ぶ。いくつかのケースでは、NMD103のうちの1つまたは複数が、スタンドアロン型のデバイスであってもよい。例えば、NMD103fおよび103gは、スタンドアロン型の装置であってもよい。単体のNMDでは、スピーカや関連電子機器など、再生機器に含まれる部品や機能が省略されている場合がある。例えば、このような場合、スタンドアロンのNMDは、音声出力を行わないか、出力できても限られた音声出力(例えば、比較的低品質の音声出力)を行う。
【0030】
MPS100の様々な再生装置およびネットワークマイクロフォンデバイス102および103は、それぞれ固有の名前と関連付けされていてもよく、この名前は、これらのデバイスの1つまたは複数のセットアップ中などに、ユーザによってそれぞれのデバイスに割り当てられてもよい。例えば、
図1Bの図示例に示すように、再生装置102dが物理的に本棚の上に位置していることから、ユーザは「本棚」という名前を付けてもよい。同様に、NMD 103fは、キッチン101h(
図1A)のアイランドカウンター上に物理的に位置しているため、「アイランド」という名称を割り当ててもよい。再生装置の中には、ゾーンや部屋に応じた名前が割り当ててもよく、例えば、再生装置102e、102l、102m、102nには、それぞれ「ベッドルーム」、「ダイニングルーム」、「リビングルーム」、「オフィス」という名前を付けても良い。さらに、特定の再生装置は、機能的に記述的な名前を持つことができる。例えば、再生装置102aと102bには、それぞれ「右」と「前」という名前が割り当てられるが、これは、これら2つの装置が、デン101d(
図1A)のゾーンでのメディア再生時に、特定のオーディオチャンネルを提供するように構成されているからである。パティオの再生装置102cは、バッテリ駆動であること、および/または、環境101の異なる領域に容易に持ち運び可能であることから、ポータブルと名前を付けられてもよい。他の命名規則も可能である。
【0031】
上述したように、NMDは、NMDの周辺にいる人の会話の音声と背景雑音が混ざった音など、環境からの音を検出し、処理することができる。例えば、NMDが環境中で音を検出すると、NMDは検出された音を処理して、その音がNMDを、最終的には特定のVASを意図した音声入力を含むスピーチを含んでいるかどうかを判断することができる。例えば、NMDは、音声に特定のVASに関連するウェイクワードが含まれているかどうかを識別することができる。
【0032】
図1Bの例示された例では、NMD103は、LAN111およびルータ109を介してネットワーク上でVAS190と対話するように構成されている。VAS190とのインタラクションは、例えば、NMDが検出した音の中に潜在的なウェイクワードを識別したときに開始される。この識別により、ウェイクワードイベントが発生し、NMDが検出した音データをVAS190へ送信することが開始される。いくつかの実施形態では、MPS100の様々なローカルネットワークデバイス102~105(
図1A)および/またはリモートコンピューティングデバイス106cは、選択されたVASに関連するリモートコンピューティングデバイスと様々なフィードバック、情報、命令、および/または関連データを交換してもよい。このような情報の交換は、音声入力を含む送信メッセージに関連している場合もあれば、独立している場合もある。ある実施形態では、リモートコンピューティングデバイス(複数可)およびメディア再生システム100は、ここに記載されているような通信パスを介して、および/または、2017年2月21日に出願され、「Voice Control of a Media Playback System」と題された米国出願第15/438,749号に記載されているメタデータ交換チャネルを使用して、データを交換してもよい。米国出願第15/438,749号を参照することにより、その内容の全ては、本願明細書の中に含まれるものとする。
【0033】
サウンドデータのストリームを受信すると、VAS190は、NMDからのデータストリームに音声入力があるかどうかを判断し、ある場合にはVAS190は、音声入力に含まれる用語の意図も判断する。VAS190は、次に、リスポンスをMPS100に返送するが、このリスポンスは、ウェイクワードイベントを引き起こしたNMDに直接送信する。このリスポンスは、VAS190が音声入力に意図が存在すると判断した事に基づいて行われる。一例として、VAS190が「ビートルズのヘイジュードを再生(Play Hey Jude by The Beatles)」という命令を伴う音声入力を受信したことに応答して、VAS190は、音声入力の基本的な意図が再生を開始することであると判断し、さらに音声入力の意図が特定の曲"ヘイジュード(Hey Jude)"を再生することであると判断してもよい。これらの決定の後、VAS190は、コンテンツ(すなわち、曲「ヘイジュード(Hey Jude)」)を取得するためのコマンドを特定のMCS192に送信してもよく、そのMCS192は、続いて、このコンテンツをMPS100に直接、またはVAS190を介して間接的に提供(例えば、ストリーム提供)する。いくつかの実施形態では、VAS190は、MPS100にコマンドを送信し、MPS100自身がMCS192からコンテンツを取得する様にしてもよい。
【0034】
ある実施形態においては、互いに近接して配置された二つ以上のNMDによって検出された音声に音声入力が識別された場合、NMDは、互いの仲裁処理を行うことができる。例えば、環境101(
図1A)にあるNMD搭載の再生装置102dは、リビングルームにあるNMD搭載の再生装置102mと近接しており、両装置102d、102mは少なくとも同時に同じ音を検出することがある。このような場合、どのデバイスがリモートVASに検知したサウンドデータを送信する責任があるかについて、仲裁が必要になる。NMD間の仲裁の例は、例えば、先に説明した米国出願第15/438,749号明細書に記載されている。
【0035】
ある実施形態では、NMDは、NMDを含まない再生デバイスと、指定により、又はデフォルトにより関連付けされていてもよい。例えば、キッチン101h(
図1A)にあるアイランドNMD103fを、アイランドNMD103fと比較的近い場所にあるダイニングルームの再生装置102lに割り当ててもよい。実際、NMDからの音声入力をリモートVASが受けたことに応答して、NMDは、割り当てられている再生装置にオーディオを生成させるように指示しても良い。ここで、ユーザが特定の曲、アルバム、プレイリストなどを再生するコマンドを話したことに応じてNMDからVASに音声入力が送られる。NMDや再生装置を指定装置またはデフォルト装置として割り当てることについての詳細は、例えば、先に説明した米国特許出願第15/438,749号明細書に記載されている。
【0036】
例示的なMPS100の異なる構成要素に関連するさらなる側面、および異なる構成要素がどのように相互作用してユーザにメディア体験を提供するかについては、以下のセクションに記載されている。ここでの議論は一般的に例示のMPS100に言及しているが、ここで説明する技術は、特に上述の家庭環境内でのアプリケーションに限定されるものではない。例えば、ここに記載の技術は、再生装置、ネットワークマイクロフォン、および/またはコントローラ装置102~104のいずれかをより多くまたはより少なく構成した他の家庭環境の構成においても有用である。例えば、ここに記載の技術は、単一の再生装置102および/または単一のNMD103を有する環境内で利用することができる。かかる場合、LAN111(
図1B)を廃止し、単一の再生装置102および/または単一のNMD103が、リモートコンピューティング装置106a~dと直接通信してもよい。ある実施形態では、通信ネットワーク(例えば、LTEネットワーク、5Gネットワークなど)が、LANとは独立して、様々な再生装置、ネットワークマイクロフォン、および/またはコントローラ装置102~104と通信してもよい。
【0037】
a.再生装置及びネットワークマイクロフォンデバイスの例
図2Aは、
図1Aおよび
図1BのMPS100の再生装置102の1つの特定の側面を示す機能ブロック図である。図示されているように、再生装置102は、それぞれが以下でさらに詳細に説明される様々な構成要素を含み、再生装置102の様々な構成要素は、システムバス、通信ネットワーク、又は何らかの他の接続機構を介して、互いに動作可能に組合せされている。
図2Aの図示された例では、再生装置102は、
図1Aに示されたNMD103の一例の様に、NMDの機能をサポートするコンポーネントを含むため、「NMD搭載」再生装置と呼ぶことがある。
【0038】
図示されているように、再生装置102は、少なくとも1つのプロセッサ212を含み、このプロセッサは、メモリ213に格納された命令に従って入力データを処理するように構成されたクロック駆動型コンピューティングコンポーネントであってもよい。メモリ213は、プロセッサ212によって実行可能な命令を格納するように構成され、有形で、非一過性の、コンピュータ可読媒体である。例えば、メモリ213は、特定の機能を実現するためにプロセッサ212によって実行可能なソフトウェアコード214をロードすることができるデータストレージである。
【0039】
一例では、これらの機能は、再生装置102(他の再生装置であってもよい)が、オーディオソースからオーディオデータを取得する機能を含む。別の例では、機能は、再生装置102が、音声データ、検出されたサウンドデータ(例えば、音声入力に対応する)、および/または他の情報を、少なくとも1つのネットワークインターフェース224を介して、ネットワーク上の別の装置に送信することを含む。さらに別の例では、機能は、再生装置102が、1つまたは複数の他の再生装置に、再生装置102と同期して音声を再生させることを含んでもよい。さらに別の例では、機能は、再生装置102が1つ以上の他の再生装置とペアリングまたはその他の方法で結合することを可能にし、マルチチャネルオーディオ環境を作成することを含む。他にも多数の機能例が考えられるが、そのうちのいくつかを以下に説明する。
【0040】
上述したように、特定の機能には、再生装置102が1つ以上の他の再生装置とオーディオコンテンツの再生を同期させることを含む。同期再生時には、リスナーは、同期再生機器によるオーディオコンテンツの再生間の時間差を認識できない。2004年4月4日に出願された米国特許第8,234,395号の明細書は、「独立したクロックを持つ複数のデジタルデータ処理装置間で動作を同期させるシステムおよび方法(System and method for synchronizing operations among a plurality of independently clocked digital data processing devices)」という発明の名称であり、再生機器間でのオーディオ再生の同期化に関するいくつかの例をより詳細に説明している。
【0041】
オーディオの再生を容易にするため、再生デバイス102は、再生デバイス102がオーディオをレンダリングする前にオーディオを処理するように構成されたオーディオ処理コンポーネント216を含む。このため、オーディオ処理コンポーネント216は、1つまたは複数のデジタル-アナログコンバータ(「DAC」)、1つまたは複数のオーディオ前処理コンポーネント、1つまたは複数のオーディオエンハンスメントコンポーネント、1つまたは複数のデジタルシグナルプロセッサ(「DSP」)などを含んでいる。いくつかの実施形態では、オーディオ処理コンポーネント216の1つまたは複数は、プロセッサ212のサブコンポーネントであってもよい。オーディオ処理コンポーネント216は、アナログおよび/またはデジタルのオーディオを受信し、処理し、またはその他の方法で意図的に変更して、再生用のオーディオ信号を生成する。
【0042】
生成されたオーディオ信号は、次に、増幅のために1つまたは複数の増幅器217に送られ、増幅器217に動作可能に組合された1つまたは複数のスピーカ218を介して再生される。オーディオ増幅器217は、オーディオ信号を、1つ以上のスピーカ218を駆動するためのレベルに増幅するように構成されたコンポーネントを含んでもよい。
【0043】
スピーカ218の各々は、それぞれトランスデューサ(例えば、「ドライバ」)を含んでいてもよいし、スピーカ群としてのスピーカ218は、1つ以上のドライバを有するエンクロージャを含む完全なスピーカシステムを含んでいてもよい。スピーカ218の特定のドライバは、例えば、サブウーファ(例えば、低周波用)、ミッドレンジドライバ(例えば、中周波用)、および/またはツイータ(例えば、高周波用)を含んでもよい。あるケースでは、トランスデューサは、オーディオ増幅器群217のそれぞれの対応するオーディオ増幅器によって駆動されてもよい。いくつかの実施形態では、再生装置は、スピーカ218を含まず、代わりに、再生装置を外部スピーカに接続するためのスピーカインターフェースを含んでもよい。特定の実施形態では、再生装置は、スピーカ218もオーディオ増幅器217も含まず、代わりに、再生装置を外部のオーディオ増幅器またはオーディオビジュアル受信機に接続するためのオーディオインターフェース(図示せず)を含んでもよい。
【0044】
再生装置102による再生のためにオーディオ信号を生成することに加えて、オーディオ処理コンポーネント216は、再生のために、ネットワークインターフェース224を介して、1つまたは複数の他の再生装置に送信されるオーディオを処理するように構成されてもよい。例示的なシナリオでは、再生装置102によって処理および/または再生されるオーディオコンテンツは、再生装置102のオーディオラインインインターフェース(例えば、自動検出3.5mmオーディオラインイン接続)を介して(図示せず)、または後述するようにネットワークインターフェース224を介してなど、外部ソースから受信されてもよい。
【0045】
図示されているように、少なくとも1つのネットワークインターフェース224は、1つ以上の無線インターフェース225および/または1つ以上の有線インターフェース226の形態をとることができる。無線インターフェースは、再生装置102が通信プロトコル(例えば、IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4Gモバイル通信規格等を含む任意の無線規格)に従って他の装置(例えば、他の再生装置(複数可)、NMD(複数可)、および/またはコントローラ装置(複数可))と無線通信するためのネットワークインターフェース機能を提供してもよい。有線インターフェースは、再生装置102が通信プロトコル(例えば、IEEE 802.3)に従って他の装置と有線接続で通信するためのネットワークインターフェース機能を提供してもよい。
図2Aに示すネットワークインターフェース224は、有線および無線の両方のインターフェースを含むが、再生装置102は、いくつかの実施形態において、無線インターフェースのみ、または、有線インターフェースのみを含んでもよい。
【0046】
一般的に、ネットワークインターフェース224は、再生装置102と、データネットワーク上の1つ以上の他の装置との間のデータフローを容易にする。例えば、再生装置102は、1つまたは複数の他の再生装置、LAN内のネットワーク装置、および/またはインターネットなどのWANを介したオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されてもよい。一例では、再生装置102によって送受信されるオーディオコンテンツおよびその他の信号は、インターネットプロトコル(IP)ベースのソースアドレスおよびIPベースのデスティネーションアドレスからなるデジタルパケットデータの形態で送信されてもよい。このような場合、ネットワークインターフェース224は、再生装置102に向けられたデータが再生装置102によって適切に受信および処理されるように、デジタルパケットデータを解析するように構成されてもよい。
【0047】
図2Aに示すように、再生装置102は、1つまたは複数のマイクロフォン222に動作可能に組合される音声処理コンポーネント220も含む。マイクロフォン222は、再生装置102の環境における音(すなわち、音響波でありサウンドとも言う)を検出するように構成されており、その音は音声処理コンポーネント220に提供される。より具体的には、各マイクロフォン222は、音を検出し、その検出された音をデジタル信号またはアナログ信号に変換するように構成され、更に、以下でより詳細に説明するように、検出された音に基づいて、音声処理コンポーネント220に様々な機能を実行させる。ある実施形態では、マイクロフォン222は、複数のマイクロフォンが集まったアレイ(例えば、6個のマイクロフォンのアレイ)として配置されている。また、ある実施形態では、再生装置102は、6つ以上のマイクロフォン(例えば、8つのマイクロフォンまたは12のマイクロフォン)または6つ以下のマイクロフォン(例えば、4つのマイクロフォン、2つのマイクロフォン、または単一のマイクロフォン)を含む。
【0048】
動作において、音声処理コンポーネント220は、一般に、マイクロフォン222を介して受信された音を検出および処理し、検出された音の中で潜在的な音声入力を識別し、検出された音データを抽出するように構成され、これにより、VAS190(
図1B)などのVASにより検出された音データの中で識別された音声入力を処理できるようにする。音声処理コンポーネント220は、種々のコンポーネントを含み、例えば、1つまたは複数のアナログ-デジタル変換器、音響エコーキャンセラ(「AEC」)、空間プロセッサ(例えば、1つまたは複数のマルチチャネルWienerフィルタ、1つまたは複数の他のフィルタ、および/または1つまたは複数のビームフォーマコンポーネント)、1つまたは複数のバッファ(例えば。1つまたは複数の円形バッファ)、1つまたは複数のウェイクワードエンジン、1つまたは複数の音声抽出器、および/または1つまたは複数の音声処理コンポーネント(例えば、特定のユーザ又はある世帯における複数の特定のユーザの音声を認識することができるコンポーネント)などを含む。 例示的な実施形態では、音声処理コンポーネント220は、1つまたは複数のDSPまたは1つまたは複数のDSP用のモジュールを含む。この点において、特定の音声処理コンポーネント220は、特定の機能を実現するために修正またはその他の方法で調整される特定のパラメータ(例えば、ゲインおよび/またはスペクトルパラメータ)を有することもできる。いくつかの実施形態では、音声処理コンポーネント220の1つまたは複数は、プロセッサ212のサブコンポーネントであってもよい。
【0049】
いくつかの実施形態では、音声処理コンポーネント220は、MPS100のユーザアカウントに関連付けられているユーザの音声プロファイルを検出し、格納してもよい。例えば、音声プロファイルは、一連のコマンド情報やデータテーブルに格納された変数として格納され、また、格納されている変数と比較される。音声プロファイルは、ユーザの声のトーンまたは周波数や、他のユニークな特徴を含むことができ、その詳細は先に説明した米国特許出願第15/438,749号に詳細に記載されている。
【0050】
図2Aにさらに示すように、再生装置102は、パワーコンポーネント227も含む。パワーコンポーネント227は、少なくとも外部パワーインターフェース228を含み、再生装置102をコンセントやその他の外部電源に物理的に接続する電源ケーブルなどを介して、電源(図示せず)に組合されてもよい。パワーコンポーネントとして他に、例えば、電力を設定するトランス、コンバータなどがある。
【0051】
いくつかの実施形態では、再生装置102のパワーコンポーネント227は、外部電源への物理的な接続なしに再生装置102に電力を供給するように構成された内部パワーソース229(例えば、1つまたは複数の電池)をさらに含んでもよい。内部パワーソース229を備える場合、再生装置102は、外部パワーソースに依存せずに動作することができる。いくつかのそのような実施形態では、外部パワーソースインターフェース228は、内部パワーソース229の充電を容易にするように構成されてもよい。前述したように、内部パワーソースを備えた再生装置を、ここでは 「ポータブル再生装置」と呼ぶことがある。一方、外部パワーソースを利用して動作する再生装置を「据え置き型再生装置」と呼ぶが、実際には家庭内などで移動可能である。
【0052】
再生装置102は、ユーザインタフェース240をさらに含み、それによりユーザインタラクションが容易にされ、さらに、1つまたは複数のコントローラ装置104により容易にされたユーザインタラクションと連動するようにしてもよい。様々な実施形態において、ユーザインターフェース240は、1つ以上の物理的なボタンを含むものもあれば、ユーザの直接入力が可能な、タッチセンシティブなスクリーン(複数可)および/または表面(複数可)が提供されるグラフィカルインターフェースをサポートするものもある。ユーザインターフェース240は、視覚的および/または音声的なフィードバックを提供するライト(例えば、LED)およびスピーカのうちの1つまたは複数をさらに含んでもよい。
【0053】
例として、
図2Bは、再生装置102のハウジング230を示し、ハウジング230の上部分234にコントロールエリア232の形でユーザインタフェースを含む。コントロールエリア232には、オーディオの再生やボリュームレベルなどをコントロールするためのボタン236a~cが含まれている。また、コントロールエリア232には、マイクロフォン222をオン状態とオフ状態のいずれかに切り替えるためのボタン236dが設けられている。
【0054】
図2Bにさらに示すように、コントロールエリア232は、ハウジング230の上面部234に形成された開口部によって少なくとも部分的に囲まれており、それを介してマイクロフォン222(
図2Bでは見えない)が再生装置102の環境下で音を受信する。マイクロフォン222は、再生装置102に対して1つまたは複数の方向からの音を検出するように、ハウジング230の上面部234または他の領域に沿っておよび/またはその中の様々な位置に配置されてもよい。
【0055】
例示として、ソノス株式会社(SONOS,Inc.)は、ここに開示された特定の実施形態を実施することができる特定の再生装置を販売しており、それらは、「PLAY:1」、「PLAY:3」、「PLAY:5」、「PLAYBAR」、「CONNECT:AMP」、「PLAYBASE」、「BEAM」、「CONNECT」、および「SUB」を含む。過去、現在、および/または未来に出される他の再生装置が、ここで開示される例示的な実施形態の再生装置を実施するために追加的または代替的に使用されてもよい。さらに、再生装置は、
図2Aまたは2Bに示された例や、ソノス製品の提供に限定されない。例えば、再生装置は、有線または無線のヘッドフォンセットを含むか、またはそのような形態をとってもよく、ネットワークインターフェースなどを介してメディア再生システム100の一部として動作してもよい。別の例として、再生装置は、個人用モバイルメディア再生装置のためのドッキングステーションを含むか、それと相互作用することができる。さらに別の例では、再生装置は、テレビや照明器具など、屋内外で使用される他の機器や部品と一体化が可能である。
【0056】
b.再生装置の構成例
図3A~3Eは、再生装置の例示的な構成を示す。最初に
図3Aを参照すると、いくつかの例示的な実施形態では、単一の再生装置がゾーンに属してもよい。例えば、パティオの再生装置102c(
図1A)は、ゾーンAに属していてもよい。以下に説明するいくつかの実施形態では、複数の再生機器を「結合(bond)」して「結合ペア」を形成し、それらが一緒になって1つのゾーンを形成することができる。例えば、
図3Aで「ベッド1」と名付けられた再生装置102f(
図1A)と、
図3Aで「ベッド2」と名付けられた再生装置102g(
図1A)とを結合して、ゾーンBを形成してもよい。結合された再生装置のそれぞれは、異なる再生責任(例えば、チャンネル責任)を持つ。後述する別の実施形態では、複数の再生装置を統合して1つのゾーンを形成することができる。統合された再生装置102d、102mには、特に異なる再生責任が割り当てられていなくてもよい。すなわち、統合された再生装置102d、102mは、同期してオーディオコンテンツを再生することは勿論であるが、それぞれが統合されていない場合と同様にオーディオコンテンツを再生してもよい。
【0057】
制御のために、MPS100の各ゾーンは、単一のユーザーインターフェース(「UI」)エンティティとして表されてもよい。例えば、コントローラデバイス104によって表示されるように、ゾーンAは、「ポータブル」という名前の単一のエンティティとして提供されてもよく、ゾーンBは、「ステレオ」という名前の単一のエンティティとして提供されてもよく、ゾーンCは、「リビングルーム」という名前の単一のエンティティとして提供されてもよい。
【0058】
様々な実施形態において、ゾーンは、そのゾーンが属する場を再生装置の1つの名前として引き継いでもよい。例えば、ゾーンCは、(図のように)リビングルームを再生装置102mの名前として引き継いでもよい。別の例では、ゾーンCは代わりに本棚を再生装置102dの名前として名乗ってもよい。さらなる例では、ゾーンCは、本棚にある再生装置102dとリビングルームにある再生装置102mを何らかの形で組み合わせた名前を取ることができる。選択される名前は、コントローラデバイス104での入力を介してユーザが選択することができる。いくつかの実施形態では、ゾーンには、そのゾーンに属する再生装置とは異なる名前が与えられることがある。例えば、
図3AのゾーンBには「ステレオ」という名前が付けられているが、ゾーンBにはこの名前を持つ再生装置はない。一例では、ゾーンBは、構成デバイスである「ベッド1」と「ベッド2」で構成された「ステレオ」という名前の単一デバイスを表す単一のUIエンティティである。ある実施形態では、ベッド1の再生装置は、マスターベッドルーム101h(
図1A)にある再生装置102fであってもよく、ベッド2の再生装置は、同じくマスターベッドルーム101h(
図1A)にある再生装置102gであってもよい。
【0059】
上述したように、結合された再生装置は、特定のオーディオチャネルの再生責任など、異なる再生責任を持つ場合がある。例えば、
図3Bに示すように、ベッド1およびベッド2のデバイス102fおよび102gは、オーディオコンテンツのステレオ効果を生成または強化するように結合されてもよい。この例では、ベッド1の再生装置102fは、左チャンネルのオーディオコンポーネントを再生するように構成されていてもよく、ベッド2の再生装置102gは、右チャンネルのオーディオコンポーネントを再生するように構成されていてもよい。いくつかの実施形態では、このようなステレオ結合は、「ペアリング」とも呼ばれる。
【0060】
さらに、結合されるように構成された再生装置は、追加および/または異なるそれぞれのスピーカドライバを有することができる。
図3Cに示すように、「前」という名前の再生装置102bは、「サブ」という名前の再生装置102kと結合してもよい。なお、「前」の再生装置102bは、中~高域の範囲をレンダリングしてもよく、「サブ」の再生装置102kは、例えばサブウーファーのように低域をレンダリングしてもよい。結合が解かれた時には、「前」の再生装置102bは、フルレンジの周波数をレンダリングするように構成されていてもよい。別の例として、
図3Dでは、「前」と「サブ」の再生装置102bと102kが、それぞれ右と左の再生装置102aと102jとさらに結合している様子を示している。いくつかの実施形態では、右および左の再生装置102aおよび102jは、ホームシアターシステムのサラウンドまたは「サテライト」チャネルを形成してもよい。結合された再生装置102a、102b、102j、102kは、単一のゾーンDを形成してもよい(
図3A)。
【0061】
いくつかの実施形態では、再生デバイスは「マージ(merged)」されることもある。結合された再生装置とは異なり、マージされた再生装置は、再生責任が割り当てられておらず、それぞれの再生装置の可能な範囲でオーディオコンテンツのフルレンジをレンダリングする。それにもかかわらず、マージされた複数の再生装置は、単一のUIエンティティ(すなわち、上述したようにゾーン)として提供されることがある。例えば、
図3Eでは、リビングルームの再生装置102dと102mがマージされており、これらの再生装置がゾーンCの単一のUIエンティティとして提供されることになる。ある実施形態では、再生装置102dおよび102mは、同期してオーディオを再生してもよく、その間、それぞれの再生装置102dおよび102mがレンダリング可能な範囲でオーディオコンテンツのフルレンジを出力する。
【0062】
いくつかの実施形態では、スタンドアロンのNMDがそれ自体でゾーンに加わっていてもよい。例えば、
図1AのNMD103hは、「クローゼット」と名付けられ、
図3AにおいてゾーンIを形成する。また、NMDは他のデバイスと結合したり、マージしたりして、ゾーンを形成することもできる。例えば、"アイランド"と名付けられたNMDデバイス103fは、再生装置102iキッチンと結合され、これらは共に"キッチン"と名付けられてゾーンFを形成してもよい。NMDや再生装置を指定装置またはデフォルト装置として割り当てることについての詳細は、例えば、先に説明した米国特許出願第15/438,749号明細書に記載されている。いくつかの実施形態では、スタンドアロンのNMDはゾーンに割り当てられない場合がある。
【0063】
個々の装置、結合された装置、および/またはマージされた装置で構成されるゾーンに含まれる複数の再生装置は、同期してオーディオを再生する再生装置の集合体であるセットを形成するように配置される。このような再生装置のセットは、「グループ」、「ゾーングループ」、「シンクログループ」、または「再生グループ」と呼ばれることがある。コントローラデバイス104を介して提供される入力に応答して、複数の再生装置は、動的にグループ化の形成(グループ化)およびグループ化の解除(グループ解除)が成され、オーディオコンテンツを同期再生する新しいまたは異なるグループを形成する。例えば、
図3Aを参照すると、ゾーンAはゾーンBとグループ化され、2つのゾーンの再生装置を含むゾーングループを形成することができる。別の例として、ゾーンAは、1つ以上の他のゾーンC~Iとグループ化されてもよい。ゾーンA~Iは、多数の方法でグループ化されたり、グループ解除されたりする。例えば、ゾーンA~Iのうち、3つ、4つ、5つ、またはそれ以上(例えば、すべて)のゾーンをグループ化してもよい。グループ化された場合、ゾーンにある個々の再生装置や結合された再生装置は、先に説明した米国特許第8,234,395号明細書に記載されているように、互いに同期してオーディオを再生することができる。グループ化された再生装置や結合された再生装置は、ポータブル再生装置とステーショナリー再生装置の間の関連付けの例であり、係る関連付けは、上述したように、トリガーイベントに応じて引き起こされ、以下でより詳細に説明する。
【0064】
様々な実施形態において、環境内のゾーンには特定の名前が割り当てられてもよく、その名前は、ゾーングループ内のゾーンのデフォルトの名前であってもよいし、
図3Aに示すように「ダイニングルーム+キッチン」のようにゾーングループ内のゾーンの名前の組み合わせであってもよい。ある実施形態では、ゾーングループには、
図3Aにも示されているように、「ニックの部屋」のように、ユーザによって選択された固有の名前が与えられてもよい。「ニックの部屋」という名前は、ゾーングループのための以前の名前として元々あった「マスターベッドルーム」という部屋名に変えて、ユーザが選んだ名前である。
【0065】
図2Aにおいて、特定のデータは、1つまたは複数の状態変数としてメモリ213に格納されてもよい。変数は、定期的に更新され、再生ゾーン、再生装置(複数可)、および/またはそれに関連するゾーングループの状態を記述するために使用される。また、メモリ213には、メディア再生システム100の他の装置の状態に関連するデータが含まれていてもよい。係る関連するデータは、1つまたは複数の装置がシステムに関連する最新のデータを持つように、装置間で随時共有されてもよい。
【0066】
いくつかの実施形態では、再生装置102のメモリ213は、状態に関連付けられた様々な変数タイプのインスタンス(時事変化する状態)を格納してもよい。変数のインスタンスは、タイプに対応した識別子(タグなど)を付けて保存することができる。例えば、特定の識別子としては、ゾーンにある再生装置を識別するための第1のタイプ「a1」、ゾーン内で結合状態にある再生装置を識別するための第2のタイプ「b1」、およびゾーンが属するゾーングループを識別するための第3のタイプ「c1」であってもよい。関連する例として、
図1Aでは、「パティオ」と名付けられた装置に対応する識別子は、「パティオ」は特定のゾーンにある唯一の再生装置であり、いずれのゾーングループに含まれないことを示す。「リビングルーム」に対応する識別子は、「リビングルーム」が他のゾーンとグループ化されておらず、結合された再生装置102a、102b、102j、102kを含むことを示す。「ダイニングルーム」に対応する識別子は、「ダイニングルーム」が「ダイニングルーム+キッチン」グループの一部であり、デバイス103fと102iが結合されていることを示す。「キッチン」に対応する識別子は、「キッチン」が「ダイニングルーム+キッチン」のゾーングループの一部であるので、同一または類似の情報を示す。その他のゾーン変数と識別子の例を以下に示す。
【0067】
さらに別の例では、MPS100は、
図3Aに示すように、エリアに対応する識別子など、ゾーンやゾーングループとは異なる関連性を表す変数または識別子を含んでもよい。エリアには、ゾーングループのクラスタや、ゾーングループに属さないゾーンが含まれることがある。例えば、
図3Aには、「第1エリア」と名付けられた第1のエリアと、「第2エリア」と名付けられた第2のエリアが示されている。第1エリアには、「パティオ」「デン」「ダイニング」「キッチン」「バスルーム」のゾーンとゾーングループがある。第2エリアには、「バスルーム」「ニックの部屋」「ベッドルーム」「リビングルーム」のゾーンとゾーングループがある。ある実施形態では、「エリア」を使って、ゾーンのクラスタや、1つ以上のゾーンを共有するゾーングループのクラスタや、ゾーングループの別のクラスタを呼び出すことができる。この場合、このエリアは、他のゾーングループとゾーンを共有しないゾーングループとは異なる。エリアを実施するための技術のさらなる例は、次の米国特許出願の明細書に記載されている。2017年8月21日に出願された米国出願第15/682,506号で、発明の名称は「名前に基づく部屋の関連づけ(Room Association Based on Name)」、および2007年9月11日に出願された米国特許第8,483,853号で、発明の名称は「マルチゾーンメディアシステムにおけるグループ化の制御と操作(Controlling and manipulating groupings in a multi-zone media system)」である。これらの各出願の内容は、参照することにより、その全体が本明細書に取り込まれるものとする。いくつかの実施形態では、MPS100は「エリア」を用いない場合もあり、その場合、システムはエリアに関連する変数を保存しない。
【0068】
メモリ213は、他のデータを格納するようにさらに構成されてもよい。そのようなデータは、再生装置102によってアクセス可能なオーディオソース、または再生装置(またはいくつかの他の再生装置(複数可))が関連付けられ得る再生キューに関係してもよい。後述する実施形態では、メモリ213は、音声入力を処理する際に特定のVASを選択するためのコマンドデータのセットを格納するように構成されている。
【0069】
動作中、
図1Aの環境における1つまたは複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生してもよい。例えば、あるユーザが「パティオ」ゾーンで焼き肉をしながら、再生装置102cで再生されるヒップホップ音楽を聴いている一方、別のユーザが「キッチン」ゾーンで料理の準備をしながら、再生装置102iで再生されるクラシック音楽を聴いている場合が考えられる。別の例では、ある再生ゾーンと別の再生ゾーンとが同期して同じオーディオコンテンツを再生している場合がある。例えば、ユーザは「オフィス」ゾーンにいて、そこでは、再生装置102nが「パティオ」ゾーンで再生装置102cが再生しているのと同じヒップホップ音楽を再生している場合がある。このような場合、再生装置102cおよび102nは、ユーザが異なる再生ゾーン間を移動しながら、シームレスに(または少なくとも実質的にシームレスに)大音量で再生されているオーディオコンテンツを楽しむことができるように、同期してヒップホップを再生することができる。再生ゾーン間の同期は、先に説明した米国特許第8,234,395号に記載された再生装置間の同期と同様の方法で実現することができる。
【0070】
上述したように、MPS100のゾーン構成は、動的に変更されてもよい。このように、MPS100は、多数の構成をサポートしてもよい。例えば、ユーザが1つまたは複数の再生装置を物理的にあるゾーンに又はあるゾーンから移動させた場合、MPS100はその変更に対応するために再構成される。例えば、ユーザが再生装置102cを「パティオ」ゾーンから「オフィス」ゾーンに物理的に移動させた場合、「オフィス」ゾーンには再生装置102cと102nの両方が含まれることとなる。場合によっては、ユーザは、例えば、1つのコントローラデバイス104および/または音声入力を用いて、移動した再生デバイス102cを「オフィス」ゾーンのものとペアリングまたはグループ化し、さらに「オフィス」ゾーン内の再生装置の名前を変更することができる。別の例として、1つまたは複数の再生装置102が、まだ再生ゾーンではない家庭環境の特定の空間に移動された場合、移動された再生装置(複数可)は、名前が変更されるか、または特定の空間の再生ゾーンに関連付けられてもよい。
【0071】
さらに、MPS100の異なる複数の再生ゾーンを動的に組み合わせてゾーングループにしたり、独立した再生ゾーンに分割したりすることができる。例えば、「ダイニングルーム」ゾーンと「キッチン」ゾーンは、再生装置102iと102lが同期してオーディオコンテンツをレンダリングするように、ディナーパーティーのためのゾーングループにまとめてもよい。別の例として、「デン」ゾーンにある結合済の再生装置を、(i)「テレビ」ゾーンと(ii)別の「リスニング」ゾーンに分けてもよい。「テレビ」ゾーンには、「前」の再生装置102bが含まれていてもよい。「リスニング」ゾーンには、上述したように、グループ化、ペア化、またはマージ化された右、左、サブの再生装置102a、102j、102kが含まれていてもよい。このように「デン」ゾーンを分割することで、あるユーザはリビングルーム空間のあるエリアである「リスニング」ゾーンで音楽を聴き、別のユーザはリビングルーム空間の別のエリアでテレビを見ることができる。関連する例では、ユーザは、NMD103aまたは103b(
図1B)のいずれかを利用して、「テレビ」ゾーンと「リスニング」ゾーンに分離される前の「デン」ゾーンを制御することができる。分離されると、「リスニング」ゾーンは、例えば、NMD103aの近傍にいるユーザが制御し、「テレビ」ゾーンは、例えば、NMD103bの近傍にいるユーザにより制御される。
【0072】
c.コントローラデバイスの例
図4Aは、
図1AのMPS100のコントローラデバイス104のうちの選択された1つの例を示す機能ブロック図である。このようなコントローラデバイスは、ここでは「コントロールデバイス」または「コントローラ」と呼ぶ。
図4Aに示すコントローラデバイスは、プロセッサ412、プログラムソフトウェア414を格納するメモリ413、少なくとも1つのネットワークインターフェース424、および1つまたは複数のマイクロフォン422など、上述したネットワークデバイスの特定のコンポーネントと一般的に類似したコンポーネントを含む。一例として、コントローラデバイスは、MPS100の専用コントローラであってもよい。別の例では、コントローラデバイスは、例えば、iPhone(登録商標)、iPad(登録商標)、その他のスマートフォン、タブレット、ネットワークデバイス(例えば、PCやMac(登録商標)などのネットワークコンピュータ)など、メディア再生システムのコントローラーアプリケーションソフトウェアがインストールされているネットワークデバイスであってもよい。
【0073】
コントローラデバイス104のメモリ413は、MPS100および/またはシステム100のユーザに関連するコントローラアプリケーションソフトウェアおよび他のデータを格納するように構成されてもよい。メモリ413には、MPS100のユーザアクセス、制御、および/または構成を容易にするなど、特定の機能を実現するためにプロセッサ412によって実行可能なソフトウェア414の命令が格納されてもよい。コントローラデバイス104は、上述したように、無線インターフェースの形態をとってもよいネットワークインターフェース424を介して、他のネットワークデバイスと通信するように構成されている。
【0074】
一例では、システム情報(例えば、状態変数など)は、ネットワークインターフェース424を介して、コントローラデバイス104と他のデバイスとの間で通信されてもよい。例えば、コントローラデバイス104は、再生デバイス、NMD、または他のネットワークデバイスから、MPS100における再生ゾーンの構成やゾーングループの構成に係る情報を受信してもよい。同様に、コントローラデバイス104は、そのようなシステム情報を、ネットワークインターフェース424を介して再生装置や他のネットワーク装置に送信してもよい。いくつかの例では、他のネットワークデバイスは、別のコントローラデバイスであってもよい。
【0075】
また、コントローラ装置104は、ネットワークインターフェース424を介して、音量調整や音声再生制御などの再生装置制御コマンドを再生装置に通信してもよい。上述したように、MPS100の構成に対する変更は、コントローラデバイス104を使用するユーザによっても実行され得る。構成の変更には、1つまたは複数の再生装置をゾーンに追加/削除すること、1つまたは複数のゾーンをゾーングループに追加/削除すること、結合またはマージされたプレーヤーを形成すること、1つまたは複数の再生装置を結合またはマージされた再生装置から分離することなどが含まれる。
【0076】
図4Aに示すように、コントローラデバイス104は、一般的に、MPS100のユーザアクセスおよび制御を容易にするように構成されたユーザインタフェース440も含む。ユーザインタフェース440は、
図4Bおよび
図4Cに示すコントローラインタフェース440aや440bのような、様々なグラフィカルなコントローラインタフェースを提供するように構成されたタッチスクリーンディスプレイまたは他の物理的インタフェースを含んでもよい。
図4Bおよび
図4Cを合わせて参照すると、コントローラインタフェース440aおよび440bは、再生制御領域442、再生ゾーン領域443、再生ステータス領域444、再生キュー領域446、およびソース領域448を含む。図示されているユーザインタフェースは、
図4Aに示されているコントローラデバイスのようなネットワークデバイス上に提供され、MPS100のようなメディア再生システムを制御するためにユーザによってアクセスされる可能性のあるインターフェースの一例である。メディア再生システムへの同様な制御アクセスを提供するために、様々なフォーマット、スタイル、およびインタラクティブなシーケンスの他のユーザインタフェースが、1つまたは複数のネットワークデバイスに実装されてもよい。
【0077】
再生制御領域442(
図4B)は、選択されると、選択された再生ゾーンまたはゾーングループ内の再生デバイスに、再生または一時停止、早送り、巻き戻し、次へのスキップ、前へのスキップ、シャッフルモードの開始/終了、リピートモードの開始/終了、クロスフェードモードの開始/終了などを行わせるため、選択可能なアイコン(例えば、タッチまたはカーソルを使用する方法による)を含んでもよい。また、再生制御領域442は、選択されると、他の可能性も含めて、イコライゼーション設定および/または再生音量を変更する選択可能なアイコンを含んでもよい。
【0078】
再生ゾーン領域443(
図4C)は、MPS100内の再生ゾーンの現状を含んでもよい。また、再生ゾーン領域443は、図示のように、「ダイニングルーム+キッチン」ゾーングループなどのゾーングループの現状を含んでもよい。いくつかの実施形態では、再生ゾーンのグラフィカルな表示は、結合ゾーンの生成、ゾーングループの生成、ゾーングループの分離、ゾーングループの名前の変更など、MPS100の再生ゾーンを管理または設定するための追加の選択可能なアイコンを含めても良い。
【0079】
例えば、図示のように、「グループ」アイコンが、再生ゾーンのグラフィカルな枠のそれぞれの中に提供されてもよい。ゾーンを示すグラフィカルな枠の中にある「グループ」アイコンを選択すると、MPS100内の他のゾーンがオプションとして表れ、1つまたは複数のゾーンが選択可能となり、そのゾーンとグループ化される。選択したゾーンはそのゾーンとグループ化され、そのゾーンの再生装置と、選択したゾーンの再生装置は、同期してオーディオコンテンツを再生するように構成される。同様に、ゾーングループを示すグラフィカルな枠の中に「グループ」アイコンが表示されてもよい。この場合、「グループ」アイコンを選択すると、ゾーングループ内にあるゾーンがオプションとして現れ、その中のゾーンを解除するため選択すると、ゾーングループから1つまたは複数のゾーンを削除することができる。また、ユーザインタフェースを介して、ゾーンをグループ化したり、グループ解除したりするための他のインタラクションや実装も可能である。再生ゾーン領域443(
図4C)における再生ゾーンの表示は、再生ゾーンまたはゾーングループの構成が変更されると、動的に更新される。
【0080】
再生状況領域444(
図4B)は、選択された再生ゾーンまたはゾーングループにおいて、現在再生されている、以前に再生された、または次に再生される予定のオーディオコンテンツのグラフィカルな表示を含むことができる。選択された再生ゾーンまたはゾーングループは、コントローラインタフェース上の再生ゾーン領域443および/または再生ステータス領域444内において、視覚的に区別される。グラフィカルな表示には、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラックの長さ、および/または、ユーザが知っておくと便利なその他の関連情報が含まれ、コントローラインターフェースを介してMPS100を制御する際に便利である。
【0081】
再生キュー領域446は、選択された再生ゾーンまたはゾーングループと関連する再生キューの形でオーディオコンテンツのグラフィカルな表示を含んでもよい。ある実施形態では、各再生ゾーンまたはゾーングループは、再生キューと関連付けられており、その再生キューは、再生ゾーンまたはゾーングループによる再生のためのゼロまたは複数のオーディオアイテムに対応する情報を含む。例えば、再生キュー内の各オーディオアイテムは、ユニフォームリソース識別子(URI)、ユニフォームリソースロケータ(URL)、または他の識別子を含んでいてもよく、他の識別子は、再生ゾーンまたはゾーングループ内の再生装置で用いられ、ローカルオーディオコンテンツソースまたはネットワークオーディオコンテンツソースからオーディオアイテムを検索および/または取得し、これらはその後、再生装置によって再生される。
【0082】
ある例では、プレイリストが再生キューに追加されることがあり、この場合、プレイリスト内の各オーディオアイテムに対応する情報が再生キューに追加されることがある。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。別の例では、再生キューは、空であるか、または、詰まってはいるが「使用されていない」ことがあり、この場合は、再生ゾーンまたはゾーングループが、再生時間が有限の個別のオーディオアイテムではなく、停止されるまで再生し続けることができるインターネットラジオなどの連続的にストリーミングされるオーディオコンテンツを再生しているときである。更に別の例では、再生キューは、インターネットラジオおよび/または他のストリーミングオーディオコンテンツアイテムを含むことができ、再生ゾーンまたはゾーングループがそれらのアイテムを再生しているときには「使用中」となる。他の例も可能である。
【0083】
再生ゾーンまたはゾーングループが「グループ化」または「グループ解除」された場合、影響を受けた再生ゾーンまたはゾーングループに関連付けられた再生キューは、クリアまたは再関連付けされてもよい。例えば、第1の再生キューを含む第1の再生ゾーンと、第2の再生キューを含む第2の再生ゾーンとがグループ化された場合、確立された新たなゾーングループは、最初は空の再生キューを有するか、第1の再生キューからのオーディオアイテムを含む再生キュー(第2の再生ゾーンが第1の再生ゾーンに追加された場合)を有するか、第2の再生キューからのオーディオアイテムを含む再生キュー(第1の再生ゾーンが第2の再生ゾーンに追加された場合)を有するか、または第1と第2の両方の再生キューからのオーディオアイテムの組み合わせを有する関連再生キューを有してもよい。また、その後、確立されたゾーングループがグループ解除された場合、結果として得られた第1再生ゾーンは、以前の第1再生キューと再び関連付けされるか、空とされるか、または確立されたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新しい再生キューと関連付けされてもよい。同様に、結果として得られた第2再生ゾーンは、以前の第2再生キューと再び関連付けされるか、空の再生キューとされるか、または確立されたゾーングループがグループ解除される前に確立されたゾーングループに関連付けられた再生キューからのオーディオアイテムを含む新しい再生キューと関連付けされてもよい。他の例も可能である。
【0084】
図4Bおよび4Cにおいて、再生キュー領域446(
図4B)におけるオーディオコンテンツのグラフィカルな表示は、トラックタイトル、アーティスト名、トラックの長さ、および/または再生キュー内のオーディオコンテンツに関連する他の関連情報を含んでもよい。ある例では、オーディオコンテンツのグラフィカルな表示は、再生キューおよび/または再生キューで示されるオーディオコンテンツの管理および/または操作するための追加の選択可能なアイコンを表示するために選択子があってもよい。例えば、表示されたオーディオコンテンツは、再生キューから削除されたり、再生キュー内の別の位置に移動されたり、すぐに再生されるように選択されたり、現在再生中のオーディオコンテンツの後に再生されるように選択されたりすることが可能である。再生ゾーンまたはゾーングループに関連付けられた再生キューは、再生ゾーンまたはゾーングループ内の1つまたは複数の再生装置、再生ゾーンまたはゾーングループに属さない再生装置、および/または他の指定された機器のメモリに格納されてもよい。このような再生キューによる再生は、1つまたは複数の再生装置が、キューのメディアアイテムを、シーケンシャルまたはランダムな順序で再生する。
【0085】
ソース領域448は、対応するVASに関連付けられた選択可能なオーディオコンテンツソースおよび/または選択可能な音声アシスタントのグラフィカルな表示を含んでもよい。VASは選択的に割り当てられてもよい。いくつかの例では、AMAZON(登録商標)のアレクサ(Alexa)(登録商標)、MICROSOFT(登録商標)のコルタナ(Cortana)(登録商標)などの複数のVASが、同じNMDによって起動可能であってもよい。ある実施形態では、ユーザはVASを1つまたは複数のNMDに独占的に割り当てることができる。例えば、ユーザは、
図1Aに示すリビングルームのNMD102aおよび102bの一方または両方に第1のVASを割り当て、キッチンのNMD103fに第2のVASを割り当ててもよい。その他の例も可能である。
【0086】
d.オーディオコンテンツソースの例
ソース領域448内のオーディオソースは、選択された再生ゾーンまたはゾーングループによってオーディオコンテンツが取得され、再生され得るオーディオコンテンツソースである。ゾーンまたはゾーングループ内の1つまたは複数の再生装置は、利用可能なさまざまなオーディオコンテンツソースからオーディオコンテンツを(例えば、オーディオコンテンツに対応するURIまたはURLに従って)再生のために取得するように構成されている。ある例では、オーディオコンテンツは、再生装置によって、対応するオーディオコンテンツソースから直接(例えば、ラインイン接続を介して)取得され得る。別の例では、オーディオコンテンツは、1つまたは複数の他の再生装置またはネットワーク装置を介してネットワーク上の再生装置に提供される。以下で詳しく説明するように、ある実施形態では、オーディオコンテンツは、1つまたは複数のメディアコンテンツサービスによって提供され得る。
【0087】
オーディオコンテンツソースの例としては、
図1のMPS100などのメディア再生システムにおける1つまたは複数の再生デバイスのメモリ、1つまたは複数のネットワークデバイス(例えば、コントローラデバイス、ネットワーク対応パーソナルコンピュータ、またはネットワーク接続ストレージ(「NAS」))上のローカル音楽ライブラリ、インターネットを介してオーディオコンテンツを提供するストリーミングオーディオサービス(例えば、クラウドベースの音楽サービス)、または再生デバイスまたはネットワークデバイス上のラインイン入力接続を介してメディア再生システムに接続されたオーディオソースが挙げられ、他のものも可能である。
【0088】
ある実施形態では、オーディオコンテンツソースは、
図1AのMPS100などのメディア再生システムから追加または削除されてもよい。ある例では、1つ以上のオーディオコンテンツソースが追加、削除、または更新されるたびに、オーディオアイテムの索引付けが実行される。オーディオアイテムの索引付けは、メディア再生システム内の再生装置がアクセス可能なネットワーク上で共有されているすべてのフォルダ/ディレクトリ内の識別可能なオーディオアイテムをスキャンすること、メタデータ(例えば、タイトル、アーティスト、アルバム、トラックの長さなど)と、見つかった識別可能な各オーディオアイテムのURIまたはURL等の他の関連情報からなるオーディオコンテンツデータベースを生成すること、または更新すること、を含む。また、オーディオコンテンツソースを管理・維持するための他の例も考えられる。
【0089】
e.ネットワークマイクロフォンデバイス(NMD)の例
図5は、本開示の実施形態に基づいて構成されたNMD503を機能的に示すブロック図である。NMD503は、ボイスキャプチャコンポーネント(「VCC」、または総称して「ボイスプロセッサ560」)、ウェイクワードエンジン570、および少なくとも1つの音声抽出器572を含み、これらの各々はボイスプロセッサ560に動作可能に結合されている。NMD503は、上述したマイクロフォン222および少なくとも1つのネットワークインタフェース224をさらに含み、また、明確にするために
図5には示されていない、オーディオアンプ、インタフェースなどの他のコンポーネントを含んでもよい。
【0090】
NMD503のマイクロフォン222は、NMD503の環境から検出されたサウンドSDを音声プロセッサ560に提供するように構成されている。検出されたサウンドSDは、1つまたは複数のアナログまたはデジタル信号の形をとることがある。例示的な実施形態では、検出されたサウンドSDは、複数のチャネル562に関連するよう複数の信号で構成され、音声プロセッサ560に供給される。
【0091】
チャネル562のそれぞれは、特定のマイクロフォン222に対応してもよい。例えば、6つのマイクロフォンを有するNMDは、6つの対応するチャネルを有してもよい。検出されたサウンドSDの各チャンネルは、他のチャンネルとある種の類似性を持っているが、ある種の点では異なる。これの一つの要因は、あるチャンネルの対応するマイクが、他のチャンネルのマイクと相対的な位置関係にあるためである。例えば、検出されたサウンドSDの1つまたは複数のチャンネルは、他のチャンネルに比べて、音声と背景ノイズの信号対雑音比(「SNR」)が大きい場合がある。
【0092】
図5に示すように、音声プロセッサ560は、AEC564、空間プロセッサ566、および1つまたは複数のバッファ568を含む。動作において、AEC564は、検出されたサウンドSDを受信し、エコーを抑制するために、および/または、検出されたサウンドSDの品質を向上させるために、音をフィルタリングまたはその他の方法で処理する。その処理されたサウンドは、その後、空間プロセッサ566に送られる。
【0093】
空間プロセッサ566は、典型的には、検出されたサウンドSDを分析して、音の振幅(例えば、デシベルレベル)、周波数スペクトル、指向性などの特定の特性を識別するように構成されている。空間プロセッサ566は、上述したように、検出されたサウンドSDの構成チャンネル562の類似性および相違性に基づいて、検出されたサウンドSDの周囲の雑音を潜在的なユーザの音声からフィルタリングまたは抑制するのを助けることができる。一例では、空間プロセッサ566は、音声を他の音から区別するメトリクスをモニタしてもよい。このようなメトリクスには、例えば、バックグラウンドノイズに対するスピーチバンド内のエネルギーや、スピーチバンド内のエントロピー(スペクトル構造の指標)の検出などがある。ある実施形態では、空間プロセッサ566は、音声存在確率を決定するように構成されてもよく、そのような機能性の例は、2018年5月18日に出願された、「Linear Filtering for Noise-Suppressed Speech Detection(ノイズを抑制した音声検出用のリニアフィルタ)」と題された米国特許出願第15/984,073号明細書、および2018年9月29日に出願された、「Linear Filtering for Noise-Suppressed Speech Detection via Multiple Network Microphone Devices(複数のネットワークマイクロフォンデバイスを介してのノイズを抑制した音声検出用のリニアフィルタ)」と題された米国特許出願第16/147,710号明細書に開示されており、それらの記載内容の全体は、それをここで参照することにより本明細書に組み込まれるものとする。
【0094】
ウェイクワードエンジン570は、受信したオーディオを監視および分析して、オーディオ内にウェイクワードが存在するかどうかを判断するように構成されている。ウェイクワードエンジン570は、ウェイクワード検出アルゴリズムを用いて、受信したオーディオを分析してもよい。ウェイクワードエンジン570がウェイクワードを検出した場合、ネットワークマイクロフォンデバイスは、受信したオーディオに含まれる音声入力を処理する。一例では、ウェイクワード検出アルゴリズムは、オーディオを入力として受け入れ、オーディオの中にウェイクワードが存在するかどうかの表示を行う。種々の第一者や第三者によるウェイクワード検出アルゴリズムが知られており、市販もされている。例えば、音声サービスの運営者は、そのアルゴリズムを第三者の機器で使用できるようにすることができる。また、特定のウェイクワードを検出するようにアルゴリズムを学習させることもできる。
【0095】
ある実施形態では、ウェイクワードエンジン570は、受信したオーディオに対し、複数のウェイクワード検出アルゴリズムを同時に(または実質的に同時に)実行する。上述したように、異なる音声サービス(AMAZON(登録商標)のAlexa(登録商標)、APPLE(登録商標)のSiri(登録商標)、MICROSOFT(登録商標)のCortana(登録商標)、GOOGLE(登録商標)のAssistantなど)は、それぞれの音声サービスを開始するため、それぞれ異なるウェイクワードを使用している。複数のサービスをサポートするため、ウェイクワードエンジン570は、サポートされている各音声サービスのウェイクワード検出アルゴリズムを通して、受信したオーディオを並行して実行してもよい。そのような実施形態では、ネットワークマイクロフォンデバイス103は、音声入力を適切な音声アシスタントサービスに渡すように構成されたVASセレクタコンポーネント574を含んでもよい。他の実施形態では、VASセレクタコンポーネント574は省略してもよい。ある実施形態では、MPS100の個々のNMD103は、それぞれのVASに関連した個々に異なるウェイクワード検出アルゴリズムを実行するように構成されてもよい。例えば、リビングルームの再生装置102a、102bのNMDは、AMAZON(登録商標)のALEXA(登録商標)に関連付けられ、対応するウェイクワード検出アルゴリズムを実行するように構成されていてもよく(例えば、ウェイクワード「Alexa」または他の関連するウェイクワードを検出するように構成されている)、一方、キッチンの再生装置102fのNMDは、GOOGLEのアシスタントに関連付けられ、対応するウェイクワード検出アルゴリズムを実行するように構成されていてもよい(例えば、ウェイクワード「OK, Google」または他の関連するウェイクワードを検出するように構成されている)。
【0096】
いくつかの実施形態では、ネットワークマイクロフォンデバイスは、特定のユーザの認識または家庭に関連する複数のユーザを認識するように訓練された音声認識を実行することなどにより、音声処理をさらに容易にするように構成された音声処理コンポーネントを含むことができる。音声認識ソフトウェアは、特定の音声プロファイルに合わせて調整可能な音声処理アルゴリズムを実装することができる。
【0097】
動作において、1つまたは複数のバッファ568(そのうちの1つまたは複数は、メモリ213(
図2A)の一部であってもよいし、メモリ213とは別個であってもよい)は、検出されたサウンドSDに対応するデータをキャプチャする(取り込む)。より具体的には、1つまたは複数のバッファ568は、上流側にあるAEC564および空間プロセッサ566によって処理され検出されたサウンドデータを捕捉する。
【0098】
一般に、検出されたサウンドのデータは、マイクロフォン222によって検出されたサウンドのデジタル信号SDS(すなわち、サウンドデータストリーム)を形成する。実際には、サウンドデータストリームSDSは様々な形態をとる。一例としては、サウンドデータストリームSDSはフレームで構成されてもよく、フレームの各々は1つ以上のサウンドサンプルを含んでもよい。フレームは、NMD503のウェイクワードエンジン570および音声抽出器572などの下流側のコンポーネントによる更なる処理のために、1つまたは複数のバッファ568からストリーミングされてもよい(すなわち、読み出される)。
【0099】
ある実施形態では、少なくとも1つのバッファ568は、最も最近に捕捉された検出サウンドデータの所定の量(すなわち、所定のウィンドウ)が少なくとも1つのバッファ568に保持される一方で、古い検出サウンドデータがウィンドウから外れたときに上書きされ、このようなスライディングウィンドウアプローチを利用して検出サウンドデータを捕捉する。例えば、少なくとも1つのバッファ568は、ある期間でサウンドの標本として20フレームを一時的に保持することができ、期間終了後に最も古い一つのフレームを廃棄し、その後、新しい一つのフレームをキャプチャして、19個あるサウンドの標本に続いて新しいフレームを追加することができる。
【0100】
実際には、サウンドデータストリームSDSが複数のフレームで構成されている場合、それらのフレームは、様々な特徴を持つ様々な形態をとることができる。1つの可能性として、フレームは、サンプリングレート(例えば、44,100Hz)に基づいた所定の分解能(例えば、16ビットの分解能)を有するオーディオフレームの形態をとることができる。さらに、または代替的に、フレームは、フレームが定義する所定の音響標本に対応する情報、例えば、所定の音響標本の周波数応答、電力入力レベル、S/N比、マイクチャネルの識別、および/または他の情報を示すメタデータ等を含んでもよい。したがって、ある実施形態では、フレームは、サウンドの部分(例えば、所定のサウンドの標本の1つ以上のサンプル)と、そのサウンドの部分に関するメタデータとを含んでもよい。他の実施形態では、フレームは、サウンドの一部分のみ(例えば、所定のサウンドの標本の1つ以上のサンプル)またはサウンドの一部分に関するメタデータのみを含んでもよい。
【0101】
音声プロセッサ560はまた、少なくとも1つのルックバックバッファ569を含み、これは、メモリ213(
図2A)の一部であってもよいし、メモリ213とは別であってもよい。動作において、ルックバックバッファ569は、マイクロフォン222から受信した検出サウンドデータSDに基づいて処理されたサウンドのメタデータを格納することができる。上述したように、マイクロフォン224は、アレイ状に配置された複数のマイクロフォンを含むことができる。サウンドメタデータは、例えば以下のものを含むことができる。(1)アレイの個々のマイクロフォンの周波数応答データ、(2)エコーリターンロス強化指標(すなわち、各マイクロフォンの音響エコーキャンセラー(AEC)の有効性の指標)、(3)音声方向指標、(4)アービトレーション統計(例えば、異なるマイクロフォンに関連する空間処理ストリームの信号と雑音の推定値)、および/または(5)音声スペクトルデータ(すなわち、音響エコーキャンセレーションおよび空間処理が実行された後に処理された音声出力で評価された周波数応答)。また、検出されたサウンドデータSDのノイズを識別および/または分類するために、他のサウンドメタデータが使用されることもある。ある実施形態では、ルックバックバッファ569からネットワークインターフェース224に延びる矢印で示される様に、サウンドメタデータは、サウンドデータストリームSDSとは別に送信されてもよい。例えば、サウンドメタデータは、ルックバックバッファ569から、サウンドデータストリームSDSを受信するVASとは別の1つまたは複数のリモートコンピューティングデバイスに送信されてもよい。ある実施形態では、例えば、以下で詳しく説明するように、ノイズ分類器を構築または修正するため、また分析のために、メタデータをリモートサービスプロバイダに送信することができる。
【0102】
図7~
図13でより詳細に説明するように、ある実施形態では、リモートコンピューティングデバイス106cまたはローカルNMD503は、サウンドデータストリームSDSの下流側での処理に影響を与える(例えば、悪影響を与える)可能性のあるノイズを識別および/または分類するために、サウンドメタデータに対して追加の計算を実行することができる。
【0103】
いずれにしても、NMD503の構成要素であって、音声処理装置560の下流側にあるものは、サウンドデータストリームSDSを処理してもよい。例えば、ウェイクワードエンジン570は、1つ以上の識別アルゴリズムをサウンドデータストリームSDS(例えば、ストリームされたサウンドフレーム)に適用して、検出されたサウンドSD内の潜在的なウェイクワードを検出するように構成することができる。ウェイクワードエンジン570が潜在的なウェイクワードを検出すると、ウェイクワードエンジン570は、「ウェイクワードイベント」(「ウェイクワードトリガー」とも呼ばれる)の指示を信号SWの形で音声抽出器572に提供することができる。
【0104】
ウェイクワードイベントに応答して(例えば、ウェイクワードイベントを示すウェイクワードエンジン570からの信号SWに応答して)、音声抽出器572は、サウンドデータストリームSDSを受信してフォーマットする(例えば、パケット化する)ように構成される。例えば、音声抽出部572は、サウンドデータストリームSDSのフレームをメッセージにパケット化する。音声抽出器572は、音声入力を含む可能性のあるこれらのメッセージMVを、ネットワークインターフェース218を介して、VAS190(
図1B)などのリモートVASにリアルタイムまたはほぼリアルタイムで送信またはストリーミングする。
【0105】
VASは、NMD503から送信されたメッセージMVに含まれるサウンドデータストリームSDSを処理するように構成されている。具体的には、VASは、サウンドデータストリームSDSに基づいて、音声入力を識別するように構成されている。
図6Aによると、音声入力680は、ウェイクワード部分680aおよび声の発話部分680bを含んでいる。ウェイクワード部分680aは、ウェイクワードイベントの原因となった検出音に対応している。例えば、ウェイクワード部分680aは、ウェイクワードエンジン570がウェイクワードイベントの指示を音声抽出器572に提供する原因となった検出音に対応する。発話部680bは、ウェイクワード部分680aに続く、ユーザの要求を構成すると思われる部分の検出されたサウンドに対応する。
【0106】
例として、
図6Bは、例示的な第1の音標本を示す。この例では、音標本は、サウンドデータストリームSDS(例えば、1つまたは複数のオーディオフレーム)の内の
図6Aのウェイクワード680aの部分に対応する。図示されているように、例示された第1の音標本は、再生装置102iの環境で検出された音から構成され、(i)ウェイクワードが話される直前の部分(時刻t0とt1の間)、(ii)ウェイクワードが話されている間の部分(時刻t1とt2の間)、および/または(iii)ウェイクワードが話された後の部分(時刻t2とt3の間)を有する。他の音標本も可能である。
【0107】
通常、VASは、最初に、サウンドデータストリームSDS内のウェイクワード部分680aを処理して、ウェイクワードの存在を検証することができる。場合によっては、VASは、ウェイクワード部分680aが偽のウェイクワードを含むと決定することができる(例えば、単語「アレクサ」がターゲットウェイクワードである場合の単語「エレクション」)。そのような場合、VASは、NMD503(
図5)に応答を送信し、NMD503が音声データの抽出を停止するように指示することができ、これにより、音声抽出器572は、検出された音声データのさらなるストリーミングをVASに送ることを停止することができる。ウェイクワードエンジン570は、別の潜在的なウェイクワードを見つけて別のウェイクワードイベントが開始されることを期待して、サウンドの標本を捕えてモニタリングを再開または継続することができる。
【0108】
ある実装形態では、VASは、ウェイクワード部分680aを処理または受信せず、代わりに、発話部分680bのみを処理することができる。単語は、特定のコマンドおよび特定のキーワード684(
図6Aにおける、第1のキーワード684aおよび第2のキーワード684bとして個別に識別される)に対応し得る。キーワードは、例えば、MPS100内の特定のデバイスまたはグループを特定する音声入力680内の単語であり得る。 例えば、図示した例では、キーワード684は、「リビングルーム」や「ダイニングルーム」など、音楽が再生される1つまたは複数のゾーンを特定する1つまたは複数の単語であり得る(
図1A)。
【0109】
単語の意図を決定するために、VASは、通常、1つまたは複数のデータベース(図示せず)であって、VAS(図示せず)と関連したデータベースおよび/またはMPS100と関連したデータベースと通信する。そのようなデータベースは、自然言語処理および/または他の処理のための様々なユーザーデータ、分析、カタログ、および他の情報を格納することができる。ある実装形態では、そのようなデータベースは、音声入力処理に基づくニューラルネットワークの適応学習およびフィードバックのために更新され得る。場合によっては、発話部分680bは、
図6Aに示されるように、ユーザによって話された単語間で検出された休止(例えば、非発話の期間)などの追加情報を含み得る。休止は、発話部分680b内でユーザによって話された別個のコマンド、キーワード、または他の情報の位置を区切ることができる。
【0110】
特定のコマンド基準に基づいて、VASは、コマンド682などの音声入力内の1つまたは複数のコマンドを識別した結果としてアクションをとることができる。コマンド基準は、音声入力内の特定のキーワード群に含まれているものに基づく場合があり、他の可能性もある。さらに、または代わりに、コマンドのコマンド基準は、1つまたは複数の特定のコマンドの識別と併せて、1つまたは複数の制御状態変数および/またはゾーン状態変数の識別に係ることもある。制御状態変数は、例えば、音量のレベルを識別するインジケータ、1つまたは複数のデバイスに関連付けられたキューを識別するインジケータ、およびデバイスがキューを再生しているか、一時停止しているかなどの再生状態を識別するインジケータ含み得る。ゾーン状態変数には、たとえば、どのゾーンプレーヤーがグループ化されているかを識別するインジケータが含まれる場合がある。
【0111】
音声入力を処理した後、VASは、音声入力から決定された意図に基づいて1つまたは複数のアクションを実行するための命令を伴う応答をMPS100に送信することができる。例えば、音声入力に基づいて、VASは、MPS100に指示して、再生デバイス102のうちの1つまたは複数で再生を開始すること、これらのデバイスのうちの1つまたは複数を制御すること(例えば、音量を上げる/下げる、デバイスをグループ化する/グループ解除する、など)、特定のスマートデバイスをオン/オフすること、その他のアクションを実行することができる。VASからの応答を受信した後、ウェイクワードエンジン570、NMD 503は再稼働して、上記のように、別の潜在的なウェイクワードを発見するまで、サウンドデータストリームSDSを監視し続けることができる。
【0112】
図5を参照すると、マルチVASの実装では、NMD503は、VASセレクタ574(破線で示す)を含んでいてもよい。VASセレクタ574は、一般に、音声抽出器による音声データストリームSDSの抽出および送信を適切なVASに指示するように構成される。この指示は、あるウェイクワードが、第1のウェイクワードエンジン570a、第2のウェイクワードエンジン570b、または追加のウェイクワードエンジン571などの特定のウェイクワードエンジンによって識別されたときになされる。そのような実施形態では、NMD503は、複数の異なるウェイクワードエンジンおよび/または音声抽出器を含むことができ、各ウェイクワードエンジンや音声抽出器は特定のVASによってサポートされる。上記の議論と同様に、各ウェイクワードエンジンは、1つまたは複数のバッファ568からサウンドデータストリームSDSを入力として受信し、識別アルゴリズムを適用して、適切なVASに対してウェイクワードトリガーを引き起こすように構成される。したがって、一例として、第1のウェイクワードエンジン570aは、ウェイクワード「アレクサ」を識別し、「アレクサ」が検出されたときにNMD503にAMAZON用のVASを呼び出させるように構成される。別の例として、第2のウェイクワードエンジン570bは、ウェイクワード「オーケー、グーグル」を識別し、「オーケー、グーグル」が検出されたときにNMD503にGOOGLE用のVASを呼び出すように構成される。VASが一つしかない実施形態では、VASセレクタ574は省略される。
【0113】
追加のまたは代替の実装形態では、NMD503は、リモートVASの支援なしにNMD503が動作する他の音声入力識別エンジン571(破線で示される)を含む。一例として、そのようなエンジンは、検出されたサウンド内において、特定のコマンド(例えば、「再生」、「一時停止」、「オンにする」など)や特定のキーワードまたはフレーズ、例えば、ある再生装置に割り当てられたユニークな名前(「本棚」、「パティオ」、「オフィス」など)を識別することができる。これらのコマンド、キーワード、および/またはフレーズの1つまたは複数を識別することに応答して、NMD503は、音声処理コンポーネント216(
図2A)に1つまたは複数のアクションを実行させる信号(
図5には示されていない)を通信することができる。例えば、ユーザが「ねえソノス、オフィスでの音楽を止めなさい」と言えば、NMD503は、信号を、直接的に、またはMPS100の他の1つまたは複数のデバイスを介して間接的に、オフィス再生デバイス102nに伝達し、オフィスデバイス102nはオーディオ再生を停止する。リモートVASからの支援の必要性を減らすかなくすと、音声入力をリモートで処理するときに発生する可能性のある遅延を減らすことができる。使用される識別アルゴリズムによっては、先行するウェイクワードが含まれることなく話されたコマンドを識別するように構成することもできる。例えば、上記の例では、NMD503は、ユーザが最初に「ねえソノス」または別のウェイクワードを言わずに、オフィスで音楽を停止するイベントをトリガーする識別アルゴリズムを採用することができる。
【0114】
III.ノイズ分類に基づいてNMD操作を変更するためのシステムと方法の例
動作において、NMDは、交通、器具(例えば、ファン、流し、冷蔵庫など)、建設、干渉するスピーチなどの様々な異なるタイプのノイズにさらされる可能性がある。このようなノイズが存在する場合にキャプチャされたオーディオ入力をより適切に分析するには、オーディオ入力のノイズを分類することが望まれる。異なるノイズ源は異なるサウンドを生成し、それらの異なるサウンドはサウンドメタデータ(例えば、周波数応答、信号レベルなど)について異なった特性を有する。さまざまなノイズソースに関連付けられたさまざまなサウンドメタデータには、あるノイズソースを別のノイズソースから区別するシグネチャ(個性)を認めることができる。したがって、サウンドメタデータを分析し、異なるシグニチャを識別することにより、異なるノイズ源を分類することができる。
図7は、4つのノイズ源に関連して分析されたサウンドメタデータを示す。左上のプロットは、NMDから3フィート離れ、高い位置に設定されたファンのノイズであり、右上のプロットは環境ノイズであり、左下のプロットは、NMDから3フィート離れたランニングシンク(流し台)のノイズであり、右下のプロットは、NMDから3フィート離れたところにある料理の焼ける音である。ある実施形態では、プロットに表示されるこれらのシグネチャは、信号の主要成分の分析を使用して生成することができる。
図10~
図13により詳細に説明するように、種々のNMDから収集されたデータは、可能な周波数応答スペクトルの全体的な分布を提供することができる。一般的に、主要成分の分析(PCA)を用いて、すべてのフィールドデータの分散を記述する直交基底を見つけることができる。この固有空間は、
図7のプロットに示されている等高線に反映されている。プロットにおける各ドットは、固有空間に投影される既知のノイズ値(たとえば、注目のノイズ源にさらされたNMDからの単一の周波数応答スペクトル)を表わす。
図7に示すように、これらの既知のノイズ値は、固有空間に投影されるとクラスター化され、さまざまなノイズ源に対してさまざまに異なるシグネチャ分布を生成する。以下でより詳細に説明するように、このノイズの分類を使用して、NMDのパフォーマンスを向上させることができる。
【0115】
上述したように、NMD503などのネットワークマイクロフォンデバイスは、NMDの1つまたは複数のマイクロフォンによって捕捉された検出サウンドにおける音声入力の識別および処理に影響を与える種々の調整可能なパラメータを有することができる。検出されたサウンドに含まれるノイズを分類したことに応じて、これらのパラメータの1つまたは複数を変更し、デバイスの性能を向上させることができる。例えば、検出されたサウンドに含まれるノイズを分類することに対応して、処理中のサウンドデータに適用されるゲインを上げたり下げたりする調整をして、音声検出を向上させることができる。ある例では、NMDは、検出されたサウンドデータのノイズを分類することに基づいて、食洗器が動作していることを検出することができる。これに応答して、NMDは、NMDを介して再生される音声のゲインを上げるか、又は音量レベルを上げてもよい。NMDが、食洗器がもはや実行されていないことを検出すると(例えば、検出されたサウンドデータにおいてそれまで分類されていたノイズをもはや識別しないことにより)、再生が以前の音量レベルに戻るように、ゲインレベルを下げることができる。
【0116】
もう1つの調整可能なパラメータはノイズ低減であり、例えば、NMDがサウンドデータまたはサウンドデータストリームを処理してノイズを低減したり、S/N比を改善したりする範囲を変更することができる。また、NMDは、(例えば、
図5のAEC564の動作を変更することで)アコースティックエコーキャンセレーション(AEC)パラメータを変更したり、音声プロセッサ560や他のNMDコンポーネントの他のパラメータを変更したりしてもよい。さらに別の例として、NMDの空間処理アルゴリズムを変更してもよい。例えば、音声処理パスは、ノイズの少ない環境のためにマイクチャンネルの数を減らすことができる。特に、NMDが、検出されたサウンドデータに低レベルのノイズが存在すると判断した場合、NMDの1つまたは複数のマイクをオフにしたり、電源を落としたり、またはその他の方法で破棄して、下流側の処理がそれらのマイクからの入力に依存しないようにすることができる。ある側面では、マイクロフォンチャネルの数を減らすことで、計算資源の需要を減らし、節約することができる。これに関連して、計算機資源を節約することで、これらの資源を他の資源、例えば、NMDに搭載されているか、または他の方法で結合されている追加のウェークワードエンジンをサポートするために使用することができる。その後、NMDがノイズレベルの上昇を検出した場合(例えば、NMDが検出されたサウンドデータの中に特定のノイズを識別した場合)、非活性化されたマイクロフォンの一部またはすべてが再び活性化されることがある。NMDの1つまたは複数のマイクロフォンの選択的な非活性化に関する詳細な説明は、米国出願第16/147,710号に記載されており、参照することによりその全体が本明細書に組み込まれる。
【0117】
別の調整可能なパラメータは、ウェイクワード検出感度パラメータである。例えば、ウェイクワードエンジン570(または追加のウェイクワードエンジン571のいずれか)は、音声入力中のウェイクワードを識別するための感度または閾値を調整する1つまたは複数のパラメータを有してもよい。このパラメータを調整することで、分類されたある種のノイズが存在する場合のNMD性能を向上させることができる。閾値を下げる(または感度を上げる)と、偽陽性の割合が増え、偽陰性の割合が減る。逆に、しきい値を上げる(感度を下げる)と、偽陽性の割合が減り、偽陰性の割合が増える。ウェークワード検出感度パラメータを調整することで、NMDが経験する特定のノイズ条件に応じて変化する、偽陰性率と偽陽性率の間の適切なトレードオフを達成することがでる。
【0118】
上記のパラメータに加えて、または代わりに、ある実施形態では、NMDは、分類されたある種のノイズの存在下で音声入力を検出および処理する際の性能を向上させるために、空間処理アルゴリズムを変更する(例えば、
図5の空間プロセッサ566の動作を変更する)ことができる。ある実施形態において、空間処理アルゴリズムは、1つまたは複数のマルチチャネルウィナーフィルタ、その他のフィルタ、および/または1つまたは複数のビームフォーミングアルゴリズムを含むことができ、これらの詳細は、例えば、先に参照した米国特許の出願番号15/984,073および16/147,710に記載されている。1つの可能性として、空間プロセッサ566は、音声を他の音から区別するメトリクスをモニタすることができる。このようなメトリクスには、例えば、背景雑音に対する音声帯域内のエネルギーや、音声帯域内のエントロピー(スペクトル構造の測定値)が含まれ、これらは、一般的な背景雑音よりも音声では一般的に低い。ある実装形態では、空間プロセッサ566は、音声存在確率を決定するように構成されてもよい。これらの指標に関連する閾値または係数(例えば、特定の帯域内のエネルギー、エントロピーなど)は、分類されたある種のノイズがある場合に音声入力を検出して処理する際のNMDの性能を向上させるために調整することができる。例えば、冷蔵庫のブーンという音がノイズとして識別され、NMDによって分類される。この分類に対応して、マルチチャネルウィーナーフィルタの空間処理アルゴリズムの1つまたは複数のパラメータを調整して、このノイズの存在下でのNMDのパフォーマンスを向上させることができる。このようなパラメータには、マルチチャンネルウィナーフィルタのノイズ除去部分のスペクトルフロアを反映した最小ゲインを含めることができる。マルチチャンネルウィナーフィルタの他のパラメータを変更することで、NMDの性能を向上させることができる。
【0119】
種々の実施形態において、NMDの性能パラメータは、個々のデバイスの個性に応じて、家庭または環境(例えば、ある家庭内のすべてのNMDを一まとめにした環境)に応じて、または人の密集状態(例えば、所定の地域のすべてのNMDを一まとめにした状態)に応じて調整することができる。詳細は後述するが、1つ以上のNMD性能パラメータは、サウンドメタデータを用いて導き出されるノイズの分類に基づいて変更することができる。サウンドメタデータは、NMDの個々のマイクロフォンを介して得られたサウンドデータSDから、および/または、ボイスプロセッサ560(
図5)によって提供されたサウンドデータストリームSDSから得ることができる。サウンドメタデータは、以下を含む:(1)周波数応答データ;(2)エコー・リターン・ロス・エンハンスメント・メジャー(音響エコーキャンセラー(AEC)の効果を示す指標);(3)音声方向の測定値;(4)アービトレーション統計値(例えば、異なるマイクロフォンに関連する空間処理ストリームの信号およびノイズの推定値)、および/または(5)音声スペクトルデータ(すなわち、音響エコーキャンセレーションと空間処理が実行された後に処理された音声出力で評価された周波数応答)。
【0120】
図8Aは、ノイズを分類し、ネットワークマイクロフォンデバイスのパフォーマンスを修正するための例示的な方法800を示す。方法800は、ブロック802で、NMDがNMDの個々のマイクロフォンによりサウンドを検出する。次に、方法800はブロック804に進み、NMDは検出されたサウンドを少なくとも第1のバッファに取り込む。例えば、キャプチャしたサウンドをサウンドデータSDとしてバッファ(複数可)568(
図5)に格納する。
【0121】
ブロック806において、NMDは、サウンドデータに関連するメタデータを少なくとも第2のバッファに取り込む。例えば、サウンドメタデータは、ルックバックバッファ569(
図5)や、NMDに関連する他のメモリに格納することができる。上述したように、ユーザのプライバシーを守るため、オリジナルのオーディオコンテンツ(例えば、録音された音声そのもの内容やその他の検出されたサウンドデータそのもの)を明らかにしないサウンドメタデータのみに頼ることが有効である。このようなサウンドメタデータの例としては以下を含む。(1)周波数応答データ;(2)エコー・リターン・ロス・エンハンスメント・メジャー;(3)音声方向の測定値;(4)アービトレーション統計値;(5)音声スペクトルデータ。また、他のサウンドメタデータもキャプチャされ、第2バッファに保存される。
【0122】
次に、方法800は、ブロック808において、検出された音を分析してトリガイベントを検出する。ある実施形態では、トリガーイベントは、ウェイクワードの検出である。ウェイクワードは、例えば、上述したウェイクワードエンジン570(
図5)を介して検出することができる。ある実施形態では、トリガーイベントは他の形態をとることができる。例えば、トリガーイベントは、いくつかの指定された特性を有するオーディオ信号(例えば、検出されたオーディオの音量が所定の閾値以上であるオーディオ信号、検出された長さが所定の長さの時間であるオーディオ信号、など)の検出であることができる。
【0123】
トリガーイベントを検出した後、方法800は、ブロック810において、NMDを介して音声入力を抽出する。例えば、音声抽出器572(
図5)は、サウンドデータのストリームを受信し、ネットワークインタフェースを介してリモートVASまたは他のリモートコンピューティングデバイスにリアルタイムまたはほぼリアルタイムで送信されるようにメッセージにフォーマット(例えば、パケット化)する。
【0124】
方法800のブロック812では、検出された音の中のノイズを分類するために、サウンドのメタデータを分析する。この分析は、NMDがローカル(自分自身)で行うこともでき、又は1つ以上のリモートコンピューティングデバイスでリモートに(遠隔的に)行うこともできる。ある実施形態では、ブロック812の分析は、ブロック808のトリガー・イベント検出と同時に行うことができる。別の実施形態では、ブロック812での分析は、ブロック808でトリガーイベントが検出された後にのみ行われる。
【0125】
サウンドメタデータの分析は、サウンドメタデータの1つまたは複数の特徴を、既知のノイズの基準値と比較すること、または既知のノイズのサンプル集団データと比較することができる。例えば、信号レベル、周波数応答スペクトルなどのサウンドメタデータのあらゆる特徴は、ノイズの基準値や、サンプル集団を収集し平均した値と比較することができる。ある実施形態では、サウンドメタデータの分析は、NMDの集団から寄せ集められた周波数応答スペクトルに対応する固有空間に、周波数応答スペクトルを投影することを含む(
図10~
図13でより詳細に説明する)。少なくともある実施形態では、周波数応答スペクトルを固有空間に投影することは、下流側の分類を容易にするための前処理ステップとして実行できる。ある実施形態では、サウンドメタデータを使用してノイズを分類するため、種々の異なる技術を使用することができ、例えば、決定木を使用した機械学習、またはベイジアン(Bayesian)分類器、ニューラルネットワーク、または他の任意の分類技術を使用することができる。更に、代替的または追加的に、K-Meansクラスタリング、Mean-Shiftクラスタリング、期待値最大化クラスタリング、または他の適切なクラスタリング技術など、さまざまなクラスタリング技術を使用することができる。
【0126】
ある実施形態では、ノイズ基準サンプルは、制御された条件下でサンプルをキャプチャする(例えば、NMDに対して異なる位置にあるファンからのオーディオ入力をキャプチャする)ことによって、または既知のノイズ条件を模倣するように設計されたシミュレーションから得ることができる。また、別の方法として、ユーザが入力した情報をもとに、ノイズリファレンスサンプルを取得することもできる。例えば、キッチンのシンクをつける、天井のファンをつけるなど、あらかじめ特定された音を発生させるように、ユーザが(例えば、制御装置104を介して)指示され、NMD503は、発生されるオーディオ入力を記録することができる。ユーザの操作により発生させた異なる条件下でのオーディオ入力をキャプチャすることで、種々のノイズ基準値を取得し、NMD503にローカルとして、またはコンピューティングデバイスにリモートとして保存することができる。
【0127】
図8Bおよび
図8Cは、事前に特定されたノイズを生成し、ノイズ測定値をユーザ入力として受信するためのコントローラインタフェースを示す。
図8に示すように、特定のNMD(ここでは「プレーヤーA」)について、ユーザはあらかじめ入力された集合リストの中からデバイスの位置を選択することができる。特定の場所(例えば「キッチン」)が選択されると、様々な潜在的なノイズの源が、ユーザによって選択可能なオプションとして表示される。
図8Bに示すように、「キッチン」に関連するノイズオプションの例は、「蛇口」、「換気扇」、「皿洗い器」、「その他」である。同様に、他の場所については他の関連するノイズオプションがあり、例えば「ガレージ」については、ガレージドアの開閉、ガレージ用の洗濯機等がある。
【0128】
更に、ユーザが選択したノイズ源に加えて、ある異なる場所に対しては、可能性の高いノイズ源が関連付けされており、用途選択が必要とされない場合もある。例えば、ユーザがNMDの位置としてキッチンを指示した場合、当然に検出されるサウンドとして、油などの食材を切る調理音や、冷蔵庫の扉を閉める音など、キッチンに関連する音が含まれる。同様に、他の位置では、その場所に固有と思われる他の関連ノイズを持つことができ、例えば、子供部屋では子供の声、バスルームではトイレの水流の音などがある。NMDの位置を特定することで、ユーザは種々の機器で検出されるべきノイズを分類するための追加の関連情報を準備しておくことができる。
【0129】
図8Cでは、ユーザがコントローラインタフェースを介してノイズ源として「蛇口」を選択している。この選択に続いて、ユーザは蛇口をオンにするよう促される。すると、ユーザはノイズの発生を開始したことを示すと(例えば、ユーザが蛇口をひねると)、NMDはサウンドデータおよび/またはメタデータを収集する。このデータは蛇口によるノイズとして関連付けされるので、このNMDや他の機器において、今後のオーディオ入力に含まれるノイズの分類を助けるために使用することができる。ある実施形態においては、ユーザは、指定された音(例えば、蛇口をひねることによる音)を何回も、そして異なる条件下で繰り返すように促されてもよい。さらに、ノイズ源に関連する追加情報、例えば、ノイズ源が発生されると思われる頻度(「皿洗い器をどのくらいの頻度で動かすか」など)、特定の家電製品のメーカやモデルなどについて、ユーザに質問し応答を受けるようにすることができる。このような情報やその他の関連情報は、
図8Bおよび
図8Cに示すように、ユーザがコントローラインタフェースを介してやり取りすることができる。このようにしてオーディオ入力をキャプチャすると、既知のノイズリファレンスとして、ローカルなNMDに、またはリモートのコンピューティングデバイスに保存することができるため、収集した情報はノイズ分類の改善に使用することができる。
【0130】
図8Aに戻り、方法800のブロック814において、NMDの性能はブロック812における評価に基づいて修正される。NMDの修正は、分類されたノイズに応じて様々な形で行われる。例えば、デバイスの修正には、再生音量の調整、固定ゲインの調整、ノイズリダクションパラメータの変更、ウェイクワード検出感度パラメータの変更、空間処理アルゴリズムの調整などが含まれる。ある実施形態においては、NMDは、特定の分類されたノイズに応じて種々の性能パラメータを変更するように構成することができる。
【0131】
ブロック816では、ブロック812で得られた特定のノイズ分類に基づいて、ノイズ分類器を更新することができる。詳細は後述するが、ノイズ分類器は、検出されたサウンドデータやメタデータに含まれるさまざまなタイプのノイズを識別するように構成されたニューラルネットワークやその他の数学的モデルを含むことができる。このようなノイズ分類器は、学習と評価のための利用可能なデータを増やすことで改善することができる。したがって、多数のNMDからノイズデータを取得し、新たなノイズ分類やその他のノイズデータを取得するたびに、ノイズ分類器の更新や修正を行うことができる。また、多数のNMDから収集したデータを用いることで、個々のノイズの相対的な優劣を評価し、ノイズ分類器の更新に利用することができる。ある実施形態では、メタデータがノイズ分類器に有用な追加情報を提供しない場合や、メタデータが異常と思われる場合など、ブロック812で得られた分類に基づいてノイズ分類器を更新しない場合もある。
【0132】
図9は、例示的なノイズ分類およびマイクロフォン適応の機能フローチャート900である。フローチャート900は、NMD503上で発生する機能だけでなく、例えば、以下でより詳細に説明するように、ノイズ分類のためのサウンドメタデータの遠隔評価および処理を行うことができる遠隔コンピューティングデバイス(複数可)106c上で発生することができる機能を示している。一例として、リモートコンピューティングデバイス106cは、1つまたは複数のSONOS Wireless HiFi Systemのクラウドサーバーを提供する。少なくともある実施形態では、フローチャート900に描かれた機能のいずれかまたはすべてを、リモートコンピューティングデバイス106cではなく、NMD503で実行することができる。
【0133】
NMD503から始まり、個々のマイクロフォン242a~242nで構成されるアレイは、サウンドを検出し、複数のチャネル(例えば、各マイクロフォンに対応するチャネルを集めた複数のチャンネル)を介して音声プロセッサ560にサウンドデータを送る。
図5で説明したように、音声プロセッサ560は、ルックバックバッファ569に加えて、1つまたは複数のバッファ568を含むことができる。また、音声処理装置560は、AEC564と空間プロセッサ566を含む。マイクロフォン242a~242nは、NMD503が置かれている環境下でサウンドを検出する。一例では、マイクロフォン(複数可)242a~242nは、NMD503に向かって来る1つ以上の方向からのオーディオを検出するように配置されている。マイクロフォン242a~242nは、さらに、オーディオ源(例えば、音声、聞き取り可能な音)の位置情報を捕捉するように設定され、および/または識別されたノイズのフィルタリングを支援するよう設定される。
【0134】
音声プロセッサ560は、マイクロフォン242a~242nのそれぞれからのサウンドデータを、所定の時間のインターバルで1つ以上のバッファに格納することができる。例えば、ある実施形態では、音声プロセッサ560には、5秒未満、4秒未満、3秒未満、2秒未満、または1秒未満の間、バッファに上書きしつつなどしてサウンドデータを保存する。ある実施形態では、音声プロセッサ560は、スライディングウィンドウアプローチを利用して、最新に検出されたサウンドデータを所定の量(すなわち、所定のウィンドウに入る量)だけを少なくとも1つのバッファ568に保持される一方、古いサウンドデータはウィンドウから外れるときは上書きされてしまうようにサウンドデータを捕捉するバッファ(例えば、バッファ568)を含む。例えば、少なくとも1つのバッファ568は、所定の時間にサウンド標本の20フレームを一時的に保持し、満了時間後に最も古いフレームを廃棄し、その後、新しいフレームをキャプチャし、そのフレームを現に存在する19個のサウンド標本の最後に追加することができる。
【0135】
音声プロセッサ560は、音データストリームをブロック905に出力し、イベントトリガが実行される。ここで、NMD503は、サウンドデータストリームを評価して、所定のトリガーイベントを検出する。例えば、ブロック905でのトリガーイベントの検出は、サウンドデータストリームにおけるウェイクワードの検出(例えば、
図5に示すウェイクワードエンジン570を使用しての検出)である。ある実施形態では、トリガーイベントは他の形態をとることができる。例えば、トリガーイベントの検出は、何らかの特別な特性を持つオーディオ信号の検出(例えば、所定の閾値を超えるオーディオレベルの検出、所定の時間長さのオーディオ信号の検出など)とすることができる。ブロック905でトリガイベントが検出されない場合、音声プロセッサ560内で検出されたサウンドデータは、削除、廃棄、または上書きされ、マイクロフォン242a~242nは、新たに取得されたサウンドデータを音声プロセッサ560に渡し続け、これはブロック905でトリガイベントが検出されるまで続けられる。
【0136】
ブロック905でトリガイベントが検出されると、サウンドデータストリームはデバイスの機能としてのブロック907に送られる。例えば、ブロック905でのトリガーイベントの検出に続いて、ブロック907では、複数のVASのうちの1つを選択することができ、処理された音声をさらなる処理のためにVASに送信することができ、可聴出力をユーザに提供することができ、関連する再生デバイスに指示を送信することができ、または他の任意の適切な動作を実行することができる。
【0137】
ブロック905においてトリガイベントが検出されると、音声プロセッサ560に指示が送られ、音声プロセッサ560は、ブロック909におけるサウンドメタデータをリモートコンピューティングデバイス106cに送信することができる。サウンドメタデータ909は、マイクロフォン242a~242nからのサウンドデータに基づくものである。上述したように、ユーザのプライバシーを守るため、オリジナルのオーディオコンテンツ(例えば、録音された音声入力の内容やその他の検出されたサウンドデータ)を明らかにしないサウンドメタデータのみに頼るようにする。NMD503は、検出されたサウンドデータから、サウンドメタデータにアクセスしなければ元のサウンドデータを解読できないような方法で、サウンドメタデータを導出することができる。上述したように、サウンドメタデータの例としては、以下を含む。(1)周波数特性データ;(2)エコー・リターン・ロス・エンハンスメント・メジャー(音響エコーキャンセラー(AEC)の効果を示す指標);(3)音声方向の測定値;(4)アービトレーション統計値(例えば、異なるマイクロフォンに関連する空間処理ストリームの信号およびノイズの推定値)、および/または(5)音声スペクトルデータ(すなわち、音響エコーキャンセレーションと空間処理が実行された後に処理された音声出力で評価された周波数応答)。また、検出されたサウンドデータに含まれるノイズを識別および/または分類するために、他のサウンドメタデータが使用しても良い。
【0138】
NMD503のブロック909から、サウンドメタデータがリモートコンピューティングデバイス106cのブロック911に送信され、そこでクラウド収集が成される。例えば、リモートコンピューティングデバイス106cは、1つまたは複数のNMDからサウンドメタデータデータを収集することができる。ある実施形態では、リモートコンピューティングデバイス106cは、NMDが複数集まった集団からサウンドメタデータを収集することができ、そのような集団からのメタデータは、ノイズを分類し、平均値を導出し、外れ値を識別し、種々にクラス分けされたノイズの存在下でもNMD503の動作を改善するためにNMD性能パラメータの修正を導くために使用することができる。サウンドメタデータは、サウンドデータから導出されるが、サウンドデータの復元を行わないため、サウンドメタデータのみをリモートコンピューティングデバイス106cに送信することで、サウンドデータが抽出された実際のオーディオコンテンツを暴露することなく、NMDの性能を評価することができる。
【0139】
リモートコンピューティングデバイス106cのブロック913において、サウンドメタデータを分析し、ノイズを分類する。ある実施形態では、サウンドメタデータを分析には、サウンドメタデータの1つまたは複数の特徴を、ノイズの基準値またはサンプル集団の値と比較することを含む。例えば、サウンドメタデータのいずれかの特徴(周波数応答データ、信号レベルなど)は、
図10~
図13で詳細に説明するように、既知のノイズ基準値またはサンプル集団から収集した平均値と比較することができる。ある実施形態では、サウンドメタデータの分析は、リモートコンピューティングデバイス106cによって実行され評価されるよりも、またはそれとは別に、ブロック914に示すように、NMDによってローカルに実行されても良い。
【0140】
引き続き
図9を参照すると、コンピューティングデバイス106cのブロック915においては、種々のノイズが存在する条件下でも音声入力の検出および処理の改善ができるようにデバイス調整を、その必要性を認識し、モデリングを予測して実行することができる。例えば、仮想テストフレームワークを使って、モンテカルロ法を用いた多数のシミュレーションを行い、現実的にユーザが期待するNMDの性能を提供することができる。種々のノイズ成分(例えば、ノイズの種類(ファン、シンク、トラフィックなど)や、NMDに対するノイズ源の位置関係などに依存する)が含まれる一連のオーディオ入力に対し、異なる範囲のパラメータ値を持ち、異なる性能が発揮でき、シミュレーション済のNMDで処理することができる。そして、シミュレーション結果に基づいて、最も性能の良いパラメータ値を特定することができる。ある実施形態では、最良の性能が発揮されるパラメータは、少なくとも部分的に、ウェイクワード検出における偽陽性および偽陰性の割合によって決定される。このようにして特定された、性能を左右するパラメータは、実際に用いられるNMDの性能を改善するために使用される。これは、特定の種類のノイズ入力を経験するNMD(例えば、流水ノイズ、冷蔵庫のノイズ、交通のノイズなどを経験するNMD)に対してのみ、性能を左右するパラメータを更新することができる。
【0141】
リモートコンピューティングデバイス106cのブロック917において、ブロック913でのノイズ分類および/またはブロック915での予測型モデリングに基づいて、NMD性能を修正する必要があるかどうかを判断する。修正の必要性がないと判断された場合、プロセスはブロック913のデータ解析に戻り、新たに受信したサウンドメタデータの解析を行う。判定ブロック917において、修正が必要であると判断された場合は、プロセスはブロック919に進み、NMDの動作調整を実行する。
【0142】
ブロック919では、NMDの修正は、メタデータの識別された特徴に応じて、いくつかの形態をとることができる。例えば、再生音量の調整、固定ゲインの調整、ノイズリダクションパラメータの調整、ウェイクワード検出感度パラメータの調整、空間処理アルゴリズムの調整などがある。
【0143】
図7および
図10-
図12は、NMDによってキャプチャされたオーディオ入力のノイズを分類するために、サウンドメタデータを既知のノイズ基準値と比較するアプローチの一例を示している。上述したように、ある実施形態では、NMDによってキャプチャされたサウンドメタデータは、周波数応答スペクトルを含むことができ、これはある時間に亙って平均化され、周波数軸に沿って対数的にサンプリングすることができる。
【0144】
種々のNMDから収集したデータは、可能な周波数応答スペクトルの全体的な分布を示す。各スペクトルは、パワーの線形空間に変換することなく、すべてのスペクトルビンの平均値を差し引くことで正規化することができる。この操作により、スペクトルが垂直方向に変換されます。同じようなノイズ源のスペクトルはすべて同じような形をしているので、すべてのスペクトルはより狭い分布になる。このシンプルな操作により、全体の音量に起因する変動がなくなり、音量に依存しないノイズの分類が可能になる。
【0145】
図10は、ファンの速度を変えたり、NMDからファンまでの距離を変えたりしてファンからのノイズを測定した結果について、類似したスペクトル形状であって垂直方向に変換された複数のスペクトル例を用いて示している。各グループは、特定の構成に対する測定値の分布を示す。この挙動は、ホワイトノイズやピンクノイズなど、よく知られたノイズタイプの挙動と一致しており、ノイズの全体的なスペクトル形状は、絶対的なレベルではなく、スペクトルのスロープによって特定される。このような周波数応答データの全体的な分布を生成するため、ユーザの自宅や制御された条件下で、複数のNMDを介して多くのスペクトルを収集する。
【0146】
多数のNMDから得られたスペクトルデータには、各測定においては明確に判定できない多種多様な可能性のあるノイズタイプが含まれている。しかし、この多数の測定値を利用して、最も分散の大きい軸を特定することができる主成分分析(PCA)により、直交基底(固有空間)を定義することができる。例えば、現実に用いられている多数のNMDから収集した約1,000万個のスペクトルデータを用いて、マイクロフォンのスペクトルをスペクトルビンごとに平均化した後、上述のように正規化することができる。その後、PCAを用いて直交基底を定義することができる。
図11は、固有空間を定義するいくつかの基底ベクトルの例を示す。5つの基底ベクトルが例示されているが、ある実施形態においては、基底ベクトルの数は、例えば、2つ、3つ、または4つの基底ベクトル、あるいは代替として、6つ、7つ、8つ、またはそれ以上の基底ベクトルなど、様々なものがある。
【0147】
この操作により、行列のセットが生成される。
X = USVT
【0148】
ここで、Xは、すべてのフィールドスペクトルを含む元のベクトル空間である。Uはユニタリー行列、Sは特異値の対角線行列である。VTは最高分散の軸を定義する固有ベクトルの行列である。
【0149】
これらの固有ベクトル(例えば、
図11に示された基底ベクトル)を用いて、新たに観測されたスペクトルNは、新たなスペクトルとこの基底との間でドットプロダクトを行う(N’=NV)ことにより、新たな空間に投影することができる。この計算により、各スペクトルの固有値が定義され、それは、これらの固有ベクトルと固有値の任意のサブセットの線形結合として再構成される。
図12は、これらのスペクトルのうち、母集団の分布の変動を最もよく表す固有ベクトルのサブセットを用いて再構成したものを示す。
図12に示すように、観測されたスペクトルでは、複数の離散的な周波数応答値が得られます。再構成されたスペクトルは、基底ベクトル(例えば、
図11に示す基底ベクトル)の組み合わせを表しており、各基底ベクトルの強さは変化し、観測されたスペクトルに最も適合する。このように、再構成されたスペクトルは、観測されたスペクトルとほぼ一致する。動作において、新たに受信した周波数応答スペクトルは、基底ベクトルの線形結合(例えば、
図11に示す基底ベクトル)を用いて再構成することができる。
【0150】
現実に使用されているNMDが遭遇する可能性のあるすべてのノイズを分類することは、現実的ではない。しかし、上記の固有スペクトルのサブセットにおけるノイズの分布を可視化することができる。
図13は、観測されたフィールドスペクトルの全体的な分布を、最初の2つの固有ベクトル(例えば、
図11に示した基底ベクトルのうち、観測された分散に最も影響を与えた2つのベクトル)の強さとして示したものである。
図13において、「特徴1」は、再構成されたスペクトル(例えば、
図12に示す再構成されたスペクトル)における第1の固有ベクトルの強さであり、「特徴2」は、再構成されたスペクトル(例えば、
図12に示す再構成されたスペクトル)における第2の固有ベクトルの強さである。
図13のプロットでは、2つの特徴量(例えば、再構成されたスペクトルにおける2つの基底ベクトルの強さ)の値を示しているが、追加の特徴量の値を用いてノイズを分類することもできる。例えば、3つ、4つ、5つ、またはそれ以上の特徴を用い、それぞれが再構成されたスペクトルの異なる基底ベクトルの強さに対応する様にしてもよい。新たに観測されたスペクトルを付加的な特徴で評価することで、異なる種類のノイズをより容易に区別することができ、ノイズの分類が向上する。
【0151】
現場で受ける混在したノイズの分離作業は、絶え間なく続ける必要があり、種々のノイズのクラスターが含まれているので、簡単には識別できない場合がある。これは、どの種類のノイズにおいてもばらつきが小さいので、領域間の識別性が低くなり、特定のノイズ領域を識別することが困難になっている。ノイズの分布は、シミュレーションソフトウェアを使って、記録された既知のノイズのセットを取り込んで、現場と同様の方法でスペクトルを生成することで、正確に表すことが可能であるが、これは制御された再現性の高い方法である。これらの既知のテストサンプルのスペクトルは、フィールドノイズの分布の中でその存在を追跡する「テスト点粒子」として固有空間に投影することができる。
図7に示すプロットでは、フィールドの密度分布が等高線で示されており、個々の点はシミュレーションで実行されたテストサンプルで、パラメータ空間の異なる配置を示している。
図7に見られるように、ノイズ源の違いによって、固有空間に投影される点のクラスターが異なる。
【0152】
多数のNMDから収集したデータをこのように分析することで、種々のタイプのノイズの相対的な占有域を特定することができる。さらに、ニューラルネットワークを用いて分類器を構築し、1つ以上のNMDからの収集データのノイズを識別することができる。例えば、ニューラルネットワークは、母集団の固有空間に投影された既知のラベル付きノイズのセットを用い、学習することができる。これらの既知のラベル付けされた種々のノイズは、シミュレーションソフトウェアによって処理され、「アンビエント」、「ファン」、「シンク」、「干渉するスピーチ」などに分類された種々のラベルにグループ化され、多くの種類の典型的なノイズとして表すことができ、それぞれが、例えば、ノイズキャンセルアルゴリズムや他のオーディオ処理アルゴリズムを修正するように、NMDの性能パラメータを調整するための十分な有益情報を提供することができる。ある実施形態では、分類器を用いて、個別のデバイスについて、そのデバイスが受けるノイズの相対的な寄与をさらに分析することができる。例えば、あるデバイスが平均よりも高いレベルのファンノイズを受ける環境にあれば、そのNMDに合った特定の性能パラメータを用い、高いファンノイズに対応するように変更され、また、別のNMDについては、予想よりも高いレベルのトラフィックノイズを受ける環境にあればそれに対応した別の方法で調整される。
【0153】
上記の例では、主成分分析を用いて種々のタイプのノイズの分類を実行させているが、分類プロセスは、他の技術やアルゴリズムを使用してもよい。例えば、決定木やベイジアン分類器、ニューラルネットワーク、その他の分類技術を用いた機械学習を採用しても良い。代替的または追加的に、K-Meansクラスタリング、Mean-Shiftクラスタリング、期待値最大化クラスタリング、または他の適切なクラスタリング技術など、さまざまなクラスタリング技術を使用することができる。
【0154】
結論
以上の説明では、とりわけ、ハードウェア上で実行されるファームウェアおよび/またはソフトウェアを含む、さまざまな例示的なシステム、方法、装置、および製造品を開示した。上記の説明は単なる例示であり、限定的なものと解されるべきではない。例えば、ファームウェア、ハードウェア、および/またはソフトウェアの側面またはコンポーネントのいずれかまたはすべてが、ハードウェアのみ、ソフトウェアのみ、ファームウェアのみ、またはハードウェア、ソフトウェア、および/またはファームウェアの任意の組み合わせで具現化できることが企図されている。したがって、これらの例は、そのようなシステム、方法、装置、および製造品を実装する唯一の方法ではない。
【0155】
据え置き型の再生装置に関してここで説明した例に加えて、本技術の実施形態は、ヘッドフォン、イヤフォン、または他のインイヤーまたはオーバーイヤー型の再生装置に適用することができる。例えば、このようなインイヤー式またはオーバーイヤー式の再生機器は、再生中にユーザが外部の騒音を感じるのを軽減するためのノイズキャンセリング機能を含むことができる。ある実施形態では、ノイズ分類を使用して、特定の条件下でノイズキャンセルを変調させることができる。例えば、ユーザがノイズキャンセリングヘッドフォンで音楽を聴いている場合、ユーザのドアベルが鳴ると、ノイズキャンセリング機能が一時的に無効になったり、制御能力をダウンしたりすることも可能である。また、ドアベルの音を検知して、再生音量を調整することも可能である。ドアベルの音を検出することで(例えば、受信したサウンドメタデータに基づいてドアベルを正しく分類することで)、ノイズキャンセリングヘッドフォンを装着していてもユーザがドアベルの音を聞くことができるように、ノイズキャンセリング機能を変更することができる。ここで説明したノイズ分類技術に基づいて、ヘッドフォンなどの性能パラメータを調整することにより、さまざまな他のアプローチに使用することができる。
【0156】
ここでの説明は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、についてなされており、更に他の象徴的に表されたものであって、ネットワークに接続されたデータ処理装置の動作に直接または間接的に類似したものについてなされている。このようなプロセスの説明や表現は、当業者が自分の仕事の本質を最も効果的に他の当業者に伝えるために使用される。ここでの説明を十分に理解できるために、多数の具体的な内容を記載している。しかし、ここで説明した特定の実施形態は、特定の具体的な詳細がなくても実施できることが当業者には理解される。他の例では、よく知られている方法、手順、コンポーネント、および回路は、実施形態の側面を不必要に不明瞭にすることを避けるため、詳細な説明は省略されている。したがって、本開示の範囲は、上述の実施形態の説明ではなく、添付の特許請求の範囲によって特定される。
【0157】
添付の特許請求の範囲のいずれかが純粋にソフトウェアおよび/またはファームウェアの実装をカバーするように読まれる場合、少なくとも1つの例における要素の少なくとも1つは、ソフトウェアおよび/またはファームウェアを格納する、メモリ、DVD、CD、Blu-ray(登録商標)などの有形の非一過性媒体を含むように、ここで明示的に定義される。
【0158】
本技術は、例えば、以下に説明する様々な側面に従って説明される。本技術の側面の様々な例は、便宜上、番号付きの例(1、2、3など)として説明される。これらは例示であり、本技術を制限するものではない。従属的な例のいずれも、任意の組み合わせで、それぞれの独立した例の中に入れることができる。他の例も同様の方法で示すことができる。
【0159】
例1:ネットワークマイクロフォンデバイス(NMD)の1つ以上のマイクを介してサウンドを検出するステップと、検出されたサウンドに基づいてNMDの第1バッファにサウンドデータを取り込むステップと、NMDを介してサウンドデータを分析してトリガーイベントを検出するステップと、NMDの少なくとも第2バッファにサウンドデータに関連するメタデータを取り込むステップと、トリガーイベントを検出した後、サウンドデータ内のノイズを分類するためメタデータを分析するステップと、分類されたノイズに基づいてNMDの少なくとも1つの性能パラメータを修正するステップと、を含む方法。
【0160】
例2:例1に記載の方法であって、メタデータを分析してサウンドデータ内のノイズを分類するステップは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することを含む、ことを特徴とする方法。
【0161】
例3:例2に記載の方法であって、メタデータは、周波数応答スペクトルを含み、メタデータを参照メタデータと比較することが、周波数応答スペクトルを、NMDの集団から集約された周波数応答スペクトルに対応する固有空間に投影することを含む、ことを特徴とする方法。
【0162】
例4:例1に記載の方法であって、NMDの少なくとも1つの性能パラメータを修正するステップは、NMDのウェイクワード検出感度パラメータを修正すること、NMDに関連する再生デバイスの再生音量を調整すること、またはNMDのノイズキャンセリングアルゴリズムを修正することのうちの少なくとも1つを含む、ことを特徴とする方法。
【0163】
例5:例1に記載の方法であって、更に、NMDを介して、分類されたノイズに対応するデータを、広域ネットワークを介して1つまたは複数のリモートコンピューティングデバイスに送信するステップを含む、ことを特徴とする方法。
【0164】
例6:例1に記載の方法であって、前記メタデータは、マイクロフォンの周波数応答データ、マイクロフォンのスペクトルデータ、アコースティックエコーキャンセレーション(AEC)データ、エコーリターンロスエンハンスメント(ERLE)データ、アービトレーションデータ、信号レベルデータ、または方向検出データのうちの少なくとも1つを含む、ことを特徴とする方法。
【0165】
例7:例1の方法であって、前記サウンドデータは前記メタデータから導出できないことを特徴とする方法。
【0166】
例8:ネットワークマイクロフォンデバイス(NMD)であって、1つまたは複数のプロセッサと、1つまたは複数のマイクロフォンと、1つまたは複数のプロセッサによって実行可能な命令を格納する有形の非一過性のコンピュータ可読媒体であって、再生デバイスに所定の動作を実行させるものを備えたNMDであり、所定の動作には次のステップを含む:
1つ以上のマイクロフォンを介してサウンドを検出するステップと、検出されたサウンドに基づいてNMDの第1バッファにサウンドデータを取り込むステップと、NMDを介してサウンドデータを分析してトリガーイベントを検出するステップと、NMDの少なくとも第2バッファにサウンドデータに関連するメタデータを取り込むステップと、トリガーイベントを検出した後、サウンドデータ内のノイズを分類するためメタデータを分析するステップと、分類されたノイズに基づいてNMDの少なくとも1つの性能パラメータを修正するステップ、
ことを特徴とする再生装置。
【0167】
例9:例8の再生装置であって、メタデータを分析してサウンドデータ内のノイズを分類するステップは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することを含む、ことを特徴とする再生装置。
【0168】
例10:例9の再生装置であって、メタデータは、周波数応答スペクトルを含み、メタデータを参照メタデータと比較することが、周波数応答スペクトルを、NMDの集団から集約された周波数応答スペクトルに対応する固有空間に投影することを含む、ことを特徴とする再生装置。
【0169】
例11:例8の再生装置であって、NMDの少なくとも1つの性能パラメータを修正するステップは、NMDのウェイクワード検出感度パラメータを修正すること、NMDに関連する再生デバイスの再生音量を調整すること、またはNMDのノイズキャンセリングアルゴリズムを修正することのうちの少なくとも1つを含む、ことを特徴とする再生装置。
【0170】
例12:例8の再生装置であって、更に、NMDを介して、分類されたノイズに対応するデータを、広域ネットワークを介して1つまたは複数のリモートコンピューティングデバイスに送信するステップを含む、ことを特徴とする再生装置。
【0171】
例13:例8の再生装置であって、前記メタデータは、マイクロフォンの周波数応答データ、マイクロフォンのスペクトルデータ、アコースティックエコーキャンセレーション(AEC)データ、エコーリターンロスエンハンスメント(ERLE)データ、アービトレーションデータ、信号レベルデータ、または方向検出データのうちの少なくとも1つを含む、ことを特徴とする再生装置。
【0172】
例14:例8の再生装置であって、前記サウンドデータは前記メタデータから導出できないことを特徴とする再生装置。
【0173】
例15:ネットワークマイクロフォン装置(NMD)に所定の動作を実行させるために、1つ以上のプロセッサによって実行可能な命令を格納した有形、非一過性のコンピュータ可読媒体であって、所定の動作には次のステップを含む:
1つ以上のマイクロフォンを介してサウンドを検出するステップと、検出されたサウンドに基づいてNMDの第1バッファにサウンドデータを取り込むステップと、NMDを介してサウンドデータを分析してトリガーイベントを検出するステップと、NMDの少なくとも第2バッファにサウンドデータに関連するメタデータを取り込むステップと、トリガーイベントを検出した後、サウンドデータ内のノイズを分類するためメタデータを分析するステップと、分類されたノイズに基づいてNMDの少なくとも1つの性能パラメータを修正するステップ、
ことを特徴とする有形、非一過性のコンピュータ可読媒体。
【0174】
例16:例15に記載の有形、非一過性、コンピュータ可読媒体であって、メタデータを分析してサウンドデータ内のノイズを分類するステップは、メタデータを、既知のノイズイベントに関連する参照メタデータと比較することを含む、ことを特徴とする有形、非一過性、コンピュータ可読媒体。
【0175】
例17:例16に記載の有形の非一過性のコンピュータ可読媒体であって、メタデータは、周波数応答スペクトルを含み、メタデータを参照メタデータと比較することが、周波数応答スペクトルを、NMDの集団から集約された周波数応答スペクトルに対応する固有空間に投影することを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。
【0176】
例18:実施例15に記載の有形の非一過性のコンピュータ可読媒体であって、NMDの少なくとも1つの性能パラメータを修正するステップは、NMDのウェイクワード検出感度パラメータを修正すること、NMDに関連する再生デバイスの再生音量を調整すること、またはNMDのノイズキャンセリングアルゴリズムを修正することのうちの少なくとも1つを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。
【0177】
例19:例8の有形の非一過性のコンピュータ可読媒体であって、更に、NMDを介して、分類されたノイズに対応するデータを、広域ネットワークを介して1つまたは複数のリモートコンピューティングデバイスに送信するステップを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。
【0178】
例20:例8の有形の非一過性のコンピュータ可読媒体であって、前記メタデータは、マイクロフォンの周波数応答データ、マイクロフォンのスペクトルデータ、アコースティックエコーキャンセレーション(AEC)データ、エコーリターンロスエンハンスメント(ERLE)データ、アービトレーションデータ、信号レベルデータ、または方向検出データのうちの少なくとも1つを含む、ことを特徴とする有形の非一過性のコンピュータ可読媒体。