特許第6963673号(P6963673)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソノズ インコーポレイテッドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6963673
(24)【登録日】2021年10月19日
(45)【発行日】2021年11月10日
(54)【発明の名称】ウェイクワード検出の抑制
(51)【国際特許分類】
   G10L 15/28 20130101AFI20211028BHJP
   G11B 20/10 20060101ALI20211028BHJP
   H04R 3/00 20060101ALI20211028BHJP
   G06F 3/16 20060101ALI20211028BHJP
   H04R 3/12 20060101ALN20211028BHJP
【FI】
   G10L15/28 230K
   G11B20/10 321Z
   G10L15/28 400
   H04R3/00 320
   G06F3/16 650
   !H04R3/12 Z
【請求項の数】14
【全頁数】50
(21)【出願番号】特願2020-506725(P2020-506725)
(86)(22)【出願日】2018年8月6日
(65)【公表番号】特表2020-530585(P2020-530585A)
(43)【公表日】2020年10月22日
(86)【国際出願番号】US2018045397
(87)【国際公開番号】WO2019032462
(87)【国際公開日】20190214
【審査請求日】2020年4月3日
(31)【優先権主張番号】15/670,361
(32)【優先日】2017年8月7日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】506030756
【氏名又は名称】ソノズ インコーポレイテッド
(74)【代理人】
【識別番号】100101454
【弁理士】
【氏名又は名称】山田 卓二
(74)【代理人】
【識別番号】100132241
【弁理士】
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100183276
【弁理士】
【氏名又は名称】山田 裕三
(72)【発明者】
【氏名】ジョナサン・ピー・ラング
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2017−072857(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/28
G11B 20/10
H04R 3/00
G06F 3/16
H04R 3/12
(57)【特許請求の範囲】
【請求項1】
再生装置のための方法であって、
前記再生装置のネットワークインタフェースを介して、前記再生装置による再生用の音声コンテンツを表すデータを受信するステップ、
前記再生装置により前記音声コンテンツを再生する前に、前記音声コンテンツの中に1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出するステップ、
1つ又は複数のネットワークマイクロホン装置が前記再生装置の可聴範囲にあることを判断するステップ、
1つ又は複数のネットワークマイクロホン装置が前記音声コンテンツの可聴範囲にあることを判断することに応じて、当該1つ又は複数のネットワークマイクロホン装置における前記検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップ、ここで、ウェイク応答が有効化された場合、所定のネットワークマイクロホン装置における特定のウェイクワードに対するウェイク応答によって、前記所定のネットワークマイクロホン装置がマイクロホンを介して、前記特定のウェイクワードに続く音声コマンドを聞き取る、
前記再生装置の1つ又は複数のスピーカを介して前記音声コンテンツを再生するステップ、を含む、方法。
【請求項2】
前記再生装置は、前記所定のネットワークマイクロホン装置を備える、請求項1記載の方法。
【請求項3】
前記1つ又は複数のネットワークマイクロホン装置における前記検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、
前記音声コンテンツの再生中に、前記1つ又は複数のネットワークマイクロホン装置を介して、再生されている前記音声コンテンツを記録するステップと、
前記所定のネットワークマイクロホン装置における、記録済み前記音声コンテンツ内の前記1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化するステップと、を含む、請求項1又は2記載の方法。
【請求項4】
前記1つ又は複数のネットワークマイクロホン装置における前記検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、
前記再生装置の前記ネットワークインタフェースを介して前記1つ又は複数のネットワークマイクロホン装置に対して、前記1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効にさせる命令を送信することを含む、請求項1又は2記載の方法。
【請求項5】
前記再生装置の可聴範囲にあると判断された前記1つ又は複数のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットである、請求項1から4のいずれか1項に記載の方法。
【請求項6】
特定のネットワークマイクロホン装置が前記音声コンテンツの可聴範囲にあることを判断するステップは、前記特定のネットワークマイクロホン装置が前記再生装置と共に同期再生構成内にあることを判断するステップを含み、ここで、前記特定のネットワークマイクロホン装置は再生装置を備える、請求項1から5のいずれか1項に記載の方法。
【請求項7】
前記1つ又は複数のネットワークマイクロホン装置が前記音声コンテンツの可聴範囲にあることを判断するステップは、前記1つ又は複数のネットワークマイクロホン装置が前記再生装置の可聴範囲にあることを判断するステップを含む、請求項1から6のいずれか1項に記載の方法。
【請求項8】
前記1つ又は複数のネットワークマイクロホン装置における前記検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、
前記音声コンテンツを再生する前に、それぞれのウェイクワードを表す前記音声コンテンツのセグメントに音響マーカを組み込むように前記音声コンテンツを修正するステップを含み、ここで、前記音響マーカを検出することにより、前記1つ又は複数のネットワークマイクロホン装置における前記1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化する、請求項1から7のいずれか1項に記載の方法。
【請求項9】
前記1つ又は複数のウェイクワードを検出するステップは、各音声サービスに関連付けられたそれぞれのウェイクワード用の複数のウェイクワード検出アルゴリズムを、前記音声コンテンツに適用するステップを含む、請求項1から8のいずれか1項に記載の方法。
【請求項10】
1つ又は複数のウェイクワードを検出するステップは、複数のウェイクワードを検出するステップを含み、
前記1つ又は複数のネットワークマイクロホン装置における前記検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化するステップは、
1のネットワークマイクロホン装置において、前記検出された少なくとも1つの第1のウェイクワードに対するそれぞれのウェイク応答を無効にさせるステップと、
2のネットワークマイクロホン装置において、前記検出された少なくとも1つの第2のウェイクワードに対するそれぞれのウェイク応答を無効にさせるステップと、を含む、請求項9記載の方法。
【請求項11】
前記音声コンテンツの中に1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出するステップは、前記音声コンテンツ内で特定のウェイクワードの複数のインスタンスを検出するステップを含む、請求項1記載の方法。
【請求項12】
前記1つ又は複数のネットワークマイクロホン装置における前記検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を、前記再生装置が前記音声コンテンツを再生する間において無効化するステップは、各ネットワークマイクロホン装置が、前記音声コンテンツ内で検出された前記特定のウェイクワードの前記複数のインスタンスの数に等しい数のウェイクワードを検出するまで、前記1つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせるステップを含む、請求項11記載の方法。
【請求項13】
再生装置に請求項1から12のいずれか1項に記載の方法を実行させるために1つ又は複数のプロセッサにより実行可能なプログラムを記憶した有形の非一時的コンピュータ読み取り可能媒体。
【請求項14】
ネットワークインタフェースと、
1つ又は複数のプロセッサと、
請求項13に記載の有形の非一時的コンピュータ読み取り可能媒体と、を備える、再生装置。
【発明の詳細な説明】
【関連出願の参照】
【0001】
本願は、2017年8月7日に出願された米国特許出願第15/670,361号に基づく優先権を主張しており、参照によりその開示内容全体を本願明細書の一部とする。
【技術分野】
【0002】
本開示は、消費財に関し、更に具体的には、メディア再生を対象とする方法、システム、製品、機能、サービス、及び他の要素、又はその一部の態様に関する。
【背景技術】
【0003】
音声を出している状況でデジタルオーディオにアクセスして聴取するための選択肢は、2003年までは限られていたが、この年、SONOS,Inc.は、最初の特許出願「Method for Synchronizing Audio Playback between Multiple Networked Devices(複数のネットワーク装置間でオーディオ再生を同期させる方法)」を申請し、2005年にメディア再生システムの販売を開始した。Sonos Wireless HiFi Systemにより、1つ又は複数のネットワーク再生装置を介して、多くのソースから音楽を体験することが可能となる。スマートフォン、タブレット、又はコンピュータにインストールされたソフトウェア制御アプリケーションにより、ネットワーク再生装置を有する任意の部屋で、希望するものを再生することができる。加えて、コントローラを使用して、例えば、再生装置のある部屋毎に異なる曲をストリーミングすること、部屋をグループ化して同期再生すること、又は同じ曲を全ての部屋で同期して聴くことができる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
デジタルメディアへの関心が高まり続けていることを考えると、リスニング体験を更に向上させるために、消費者がアクセス可能な技術を開発する必要性は、引き続き存在している。
【図面の簡単な説明】
【0005】
本開示技術の特徴、態様、及び利点は、以下の記載、添付の特許請求の範囲、及び添付図面により、更に良く理解され得る。
【0006】
図1】特定の実施形態を実施可能なメディア再生システム構成例を示す図
図2】再生装置の例の機能ブロック図
図3】制御装置の例の機能ブロック図
図4】コントローラインタフェースの例を示す図
図5】処理システムの例を示す図
図6】本明細書に記載の態様による複数のネットワーク装置の例を示す図
図7】本明細書に記載の態様によるネットワークマイクロホン装置の機能ブロック図
図8】1つ又は複数のNMDのウェイク応答を無効にするフローの例を示す図
図9】NMDにウェイクワードを無視させるメッセージの例を示す図
図10A】NMDにウェイクワードを無視させる命令の例を示す図
図10B】NMDにウェイクワードを無視させる命令の例を示す図
図10C】NMDにウェイクワードを無視させる命令の例を示す図
図10D】NMDにウェイクワードを無視させる命令の例を示す図
図11】1つ又は複数のNMDのウェイク応答を無効にするフローの例を示す図
図12】1つ又は複数のNMDのウェイク応答を無効にするフローの例を示す図
図13】ウェイク応答を抑制するフローの例を示す図
【0007】
図面は、例示的な実施形態を説明することを目的としているが、本発明は、図面に示した配置及び手段に限定されないと理解される。
【発明を実施するための形態】
【0008】
I.概要
ネットワークマイクロホン装置(NMD)は、音声制御により住居を制御するために使用し得る。NMDは、例えば、マイクロホンを介して音声入力を受信可能なSONOS(登録商標)再生装置、サーバ、若しくはシステム、又はその一部となり得る。一部の例において、再生装置は、SONOS(登録商標)再生装置である。更に、NMDは、マイクロホンを介して音声入力を受信可能な別の装置、サーバ、又はシステム(例えば、例として特にAMAZON(登録商標) ECHO(登録商標)、APPLE(登録商標) IPHONE(登録商標)、又はその一部となり得る。出典を明記することによりその開示内容全体を本願明細書の一部とする2017年2月21日提出の米国出願第15/438,749号「メディア再生システムの音声制御」には、音声対応の家庭用アーキテクチャの例が記載されている。音声制御は、再生装置、無線照明装置、サーモスタット、ドアロック、ホームオートメーション等の「スマート」ホームでの様々な装置、及びその他の例にとって有益となり得る。
【0009】
一部の実施において、NMDにより検出された音声入力は、処理のために音声サービスに送られる。NMDは、再生装置と共に、音声サービスへのマイクロホン/スピーカインタフェースとして動作し得る。音声入力はNMDのマイクロホンにより検出され、処理のために特定の音声サービスに送信される。音声サービスは、その後、音声入力のコマンド又は他の結果を返し得る。
【0010】
ウェイクワードの発話により、音声サービスを呼び出し得る。例えば、AMAZON(登録商標)音声サービスに問い合わせる場合、ユーザは、ウェイクワード「Alexa」を話した後、音声入力を行い得る。他の例には、GOOGLE(登録商標)音声サービスに問い合わせるための「Ok、Google」、及びAPPLE音声サービスに問い合わせるための「Hey、Siri」が含まれる。ウェイクワード及び音声サービスには他の例が存在する。ウェイクワードを検出すると、NMDは、ウェイクワードに続く音声コマンドを、マイクロホンを介して聞くことにより応答し得る。この応答は、本明細書においてNMDの「ウェイク応答」と呼ばれる。
【0011】
状況によっては、ウェイクワードを含む音声コンテンツを再生することで、NMDのウェイク応答が誤ってトリガされる場合がある。多くの音声サービスのウェイクワードは、既存言語の語彙から選択された既存の単語である。例えば、幾つかの一般的な音声サービスでは、特定の名前をウェイクワードとして用いている(例えば「Alexa」及び「Siri」)。したがって、状況によっては、特に、トークショー、映画、テレビ番組、ポッドキャスト、インターネットストリーミングビデオ等の記録済み音声コンテンツに、ウェイクワード又は類似するものが含まれ得る。このような音声コンテンツをNMDの範囲内で再生すると、NMDが誤ってトリガされる恐れがあり、これは、音声コンテンツの楽しみを妨げる等、多くの理由で望ましくない場合がある。
【0012】
例えば、テレビは特定の音声サービスのコマーシャルを再生する場合がある。コマーシャル中、俳優又は女優は、恐らくは音声サービスを呼び出す様子を示すために、音声サービスのウェイクワードを話す可能性がある。テレビと同じ部屋にあるNMDは、テレビからの音声出力を検出し、NMDがコマーシャル内のウェイクワードを検出した時に音声サービスを呼び出す可能性がある。これは、望ましくない場合がある。更に、コマーシャルは、多くのテレビで同時に再生され得るため、コマーシャルは同時に多くのNMDをトリガする恐れがあり、音声サービスへの要求が望ましくない形で急増し得る。
【0013】
コマーシャルにより誤ってトリガされるのを避けるために、音声サービスの運営者は、ウェイクワードを含むコマーシャルの(複数の)部分をマークし、これらのマークされた(複数の)部分を無視するようにNMDをプログラムし得る。例えば、運営者は、音声サービスのコマーシャルにトーン音又は他の音声マーカをミックスし、この音声マーカと共に検出されるウェイクワードを無視するようにNMDをプログラムし得る。この実施は、このマーカを音声サービスの運営者が音声コンテンツに埋め込むことが可能な音声サービスのコマーシャル等、限られた場合に有用となり得る。しかしながら、この実施は、音声サービスの運営者が制御できない他の殆どの音声コンテンツに関しては有用ではない。
【0014】
本明細書に記載の技術の例は、音声コンテンツが再生装置により聞き取り可能に再生される前に、再生装置による再生対象の音声コンテンツを処理することと、音声コンテンツが1つ又は複数のウェイクワードを含むかを判断することと、及び再生装置により再生された際に、ウェイクワードを無視するにように1つ又は複数のNMDに通知することと、を含み得る。このようにして、当該手法は、NMDの誤ったトリガ動作の防止を支援し得る。特に、このような技術は、再生装置による再生の対象となる任意の記録済み音声コンテンツに適用可能である。
【0015】
例えば、再生装置は、再生用の音声コンテンツを受信し得る。音声コンテンツを再生する前に、再生装置は、音声コンテンツをメモリ(例えばバッファ)に記憶し、音声コンテンツに対してウェイクワード検出アルゴリズムを実行する。音声コンテンツにおいてウェイクワードが検出された場合、再生装置(NMD自体であってもよい)は、再生装置が最終的に音声コンテンツを再生する際に、1つ又は複数のNMDにこれらのウェイクワードを無視させる。
【0016】
他の例として、NMDは、再生装置による再生に指定された音声コンテンツを受信してもよい。音声コンテンツが再生装置により再生される前に、NMDは、音声コンテンツに対してウェイクワード検出アルゴリズムを実行し得る。音声コンテンツにおいてウェイクワードが検出された場合、NMDは、最終的に再生装置により再生された際に、そのNMD(及び場合により近傍の他のNMD)がこれらのウェイクワードを無視するようし得る。
【0017】
NMDは、様々な技術の何れかを用いてウェイクワードを無視し得る。一部の場合において、例として特に、恐らくはウェイクワードの聞き取りを停止するようにNMDに指示すること、NMDのマイクロホンアレイを一定期間無効にすること、又は再生装置の方向にリスニングNULL(listening NULL)を作成することにより、再生装置により再生される際にウェイクワードを検出しないようにNMDを指示し得る。又は、NMDは、最初はウェイクワードの検出を進めるものの、恐らくは特定の期間中、ウェイクワードを無視すること、又は特定の期間中、記録された音声を全て無視することにより、ウェイクワードの検出に応じて音声サービスを呼び出すようにプログラムされたウェイク応答を抑制するように指示し得る。
【0018】
再生装置が音声コンテンツを聞き取り可能に再生する前に音声コンテンツを処理する場合、処理装置(再生装置又はNMD等)は、記録済み音声コンテンツ内でウェイクワードが含まれるセクションを判断することもできる。これらのセクションは、ウェイクワードの開始時間及び停止時間等、音声コンテンツ内の期間により定義することができる(例えば、ポッドキャストのウェイクワードが33:52.543に開始し、33:54.013に終了する)。音声コンテンツが再生される際には、近傍のNMDに、これらの期間中、ウェイクワードを無視するように指示することができる。
【0019】
他の例として、処理装置は、音声コンテンツ(又は音声コンテンツの一部)内のウェイクワードの数をカウントし得る。例えば、コマーシャルの音声コンテンツを処理している再生装置は、そのコマーシャル内でウェイクワードの4つのインスタンスを検出する場合がある。その後、再生装置は、カウントと等しい数のウェイクワードを検出するまでウェイクワードを無視するように(例えば、次の4つのウェイクワードを無視するように)、再生装置近傍のNMDに指示し得る。
【0020】
他の例において、処理装置は、記録済み音声コンテンツに音声トーン又は他のマーカを動的に挿入して、音声コンテンツで検出されたウェイクワードを指定し得る。その後、音声コンテンツが再生装置により再生される際に、ウェイクワードと共に音声マーカを検出するNMDには、ウェイクワードのインスタンスを無視するように指示することができる。再生装置の可聴範囲内(in audible range of the playback device)の複数のNMDは、それぞれウェイクワードを検出し、関連する音声マーカを検出することに応じて、ウェイクワードを無視し得る。
【0021】
技術の例は、1つ又は複数のNMDのウェイク応答を無効にすることを含み得る。第1の実施は、ネットワークインタフェースを介して、再生装置による再生用の音声コンテンツを表すデータを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出することと、を含み得る。第1の実施は、更に、再生装置により音声コンテンツを再生中に、1つ又は複数のネットワークマイクロホン装置において検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含み、ここで、ウェイク応答が有効とされた時、特定のウェイクワードに対する所定のネットワークマイクロホン装置のウェイク応答により、当該所定のネットワークマイクロホン装置は、マイクロホンを介して、特定のウェイクワードに続く音声コマンドを聞き取る。第1の実施は、更に、1つ又は複数のスピーカを介して音声コンテンツを再生することを含み得る。
【0022】
第2の実施は、ネットワークインタフェースを介して、再生装置による再生用の音声コンテンツを表すデータを受信することを含み得る。第2の実施は、更に、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出することを含み得る。第2の実施は、更に、再生装置により音声コンテンツを再生中に、検出された1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることと、再生装置が音声コンテンツを再生している間に、マイクロホンを介して、再生された音声コンテンツを検出することと、を含み得る。
【0023】
第3の実施は、計算システムのインタフェースを介して、1つ又は複数の再生装置による再生用の音声コンテンツを受信することを含み得る。第3の実施は、更に、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出することを含み得る。第3の実施は、更に、再生装置により音声コンテンツを再生中に、1つ又は複数のネットワークマイクロホン装置において検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含み得る。
【0024】
第4の実施は、ネットワークインタフェースを介して、1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することを含み得る。第4の実施は、更に、マイクロホンを介して、1つ又は複数の再生装置により再生されている音声コンテンツを検出することを含み得る。第4の実施は、更に、検出された音声コンテンツが1つ又は複数のウェイクワードを含むことを判断することと、受信した命令に応じて、検出された音声コンテンツ内の1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることと、を含み得る。
【0025】
これらの実施の例のそれぞれは、特に、方法、実施を実行するように構成された装置、実施を実行するように構成された装置のシステム、又は実施を実行するために1つ又は複数のプロセッサにより実行可能な命令を含む非一時的コンピュータ読み取り可能媒体として実現し得る。本開示が、本明細書に記載の特徴例の組み合わせを含む他の多数の実施形態を含むことは、当業者に理解されよう。更に、技術を例示するために所定の装置により実行されるものとして記載された動作例は、本明細書に記載の装置を含む任意の適切な装置により実行され得る。更にまた、任意の装置は、他の装置に、本明細書に記載の動作の何れかを実行させ得る。
【0026】
本明細書に記載の一部の例は、「ユーザ」及び/又は他の実体等、所定の主体により実行される機能を示す場合があるが、この記載は、説明の目的のみを有することを理解されたい。特許請求の範囲自体に明示的に必要であることが記載されていない限り、こうした任意の主体例による行動が必要であると解釈されるべきではない。
【0027】
II.動作環境の例
図1は、本明細書に開示した1つ又は複数の実施形態を実現又は実施し得るメディア再生システム100の構成例を示す。図示したメディア再生システム100は、例えば、主寝室、オフィス、ダイニングルーム、及びリビングルーム等の幾つかの部屋及び空間を有する例示的な住居環境に関連する。図1の例に示すように、メディア再生システム100は、再生装置102、104、106、108、110、112、114、116、118、120、112、及び124と、制御装置126及び128と、有線又は無線ネットワークルータ130とを含む。図1には、NMD132及び134も存在する。
【0028】
例示したメディア再生システム100の様々な構成要素、及びユーザにメディア体験を提供するために様々な構成要素がどのように相互作用するかに関しては、以下の節で更に説明している。本明細書の説明は、全般的に、例示したメディア再生システム100を示すものとなり得るが、本明細書に記載の技術は、特に、図1に示した住居環境内の用途に限定されない。例えば、本明細書に記載の技術は、例えばレストラン、モール、又は空港等の商業施設、スポーツユーティリティビークル(SUV)等の車両、バス又は客車、船舶、飛行機等、マルチゾーンオーディオが望まれる環境において有用となり得る。
【0029】
a.再生装置の例
図2は、図1のメディア再生システム100の再生装置102乃至124の1つ又は複数として構成可能な再生装置200の例の機能ブロック図を示す。再生装置200は、プロセッサ202、ソフトウェアコンポーネント204、メモリ206、オーディオ処理コンポーネント208、オーディオアンプ210、スピーカ212、並びに無線インタフェース216及び有線インタフェース218を含むネットワークインタフェース214を含み得る。一例において、再生装置200は、スピーカ212を含まず、再生装置200を外部スピーカに接続するためのスピーカインタフェースを含んでもよい。他の例において、再生装置200は、スピーカ212もオーディオアンプ210も含まず、再生装置200を外部のオーディオアンプ又はAVレシーバに接続するための音声インタフェースを含んでもよい。
【0030】
一例において、プロセッサ202は、メモリ206に記憶された命令により入力データを処理するように構成されたクロック駆動計算コンポーネントにし得る。メモリ206は、プロセッサ202により実行可能な命令を記憶するように構成された有形のコンピュータ可読媒体にし得る。例えば、メモリ206は、特定の機能を達成するためにプロセッサ202により実行可能なソフトウェアコンポーネント204の1つ又は複数をロードできるデータストレージにし得る。一例において、機能は、再生装置200が音源又は別の再生装置から音声データを取得することを含み得る。他の例において、機能は、再生装置200が音声データをネットワーク上の別の装置又は再生装置に送信することを含み得る。更に他の例において、機能は、マルチチャネルオーディオ環境を作成するために、再生装置200を1つ又は複数の再生装置とペアリングすることを含み得る。
【0031】
特定の機能は、再生装置200が音声コンテンツの再生を他の1つ又は複数の再生装置と同期させることを含み得る。同期再生中、再生装置200と1つ又は複数の他の再生装置とによる音声コンテンツの再生の間で、時間遅延差を聴取者が知覚できないことが好ましい。出典を明記することによりその開示内容全体を本願明細書の一部とする米国特許第8,234,395号「独立してクロックされる複数のデジタルデータ処理装置間で動作を同期するためのシステム及び方法」には、再生装置間のオーディオ再生を同期する幾つかの例が更に詳細に記載されている。
【0032】
メモリ206は、更に、再生装置200がその一部である1つ又は複数のゾーン及び/又はゾーングループ、再生装置200がアクセス可能な音源、又は再生装置200(又は他の何らかの再生装置)と関連し得る再生キュー等、再生装置200に関連するデータを記憶するように構成可能である。データは、周期的に更新されると共に再生装置200の状態を記述するために使用される1つ又は複数の状態変数として記憶し得る。メモリ206は、メディアシステムの他の装置の状態に関連すると共に1つ又は複数の装置がシステムに関連付けられた最新のデータを有するように装置間で随時共有されるデータを含んでもよい。他の実施形態も可能である。
【0033】
オーディオ処理コンポーネント208は、1つ又は複数のデジタル/アナログ変換器(DAC)、オーディオ前処理コンポーネント、オーディオ強化コンポーネント、又はデジタル信号プロセッサ(DSP)等を含み得る。一実施形態において、オーディオ処理コンポーネント208の1つ又は複数は、プロセッサ202のサブコンポーネントにし得る。一例において、音声コンテンツは、音声信号を生成するために、オーディオ処理コンポーネント208により処理及び/又は意図的に変更され得る。生成された音声信号は、その後、増幅及びスピーカ212を介した再生のためにオーディオアンプ210に提供され得る。特に、オーディオアンプ210は、スピーカ212の1つ又は複数を駆動するためのレベルまで音声信号を増幅するように構成された装置を含み得る。スピーカ212は、個別のトランスデューサ(例えば、「ドライバ」)、又は1つ以上のドライバを有するエンクロージャを含む完全なスピーカシステムを含み得る。スピーカ212の特定のドライバは、例えば、サブウーハ(例えば、低周波用)、ミッドレンジドライバ(例えば、中周波用)、及び/又はツイータ(例えば、高周波用)を含み得る。場合により、1つ又は複数のスピーカ212内の各トランスデューサは、オーディオアンプ210の個々の対応するオーディオアンプにより駆動される。再生装置200による再生用にアナログ信号を生成することに加え、オーディオ処理コンポーネント208は、再生のために1つ又は複数の他の再生装置に送信される音声コンテンツを処理するように構成可能である。
【0034】
再生装置200により処理及び/又は再生される音声コンテンツは、外部のソースから、オーディオラインイン入力接続(例えば、自動検出3.5mmオーディオラインイン接続)又はネットワークインタフェース214等を介して受信してもよい。
【0035】
ネットワークインタフェース214は、再生装置200とデータネットワーク上の1つ又は複数の他の装置との間のデータフローを容易にするように構成可能である。したがって、再生装置200は、再生装置200と通信する1つ又は複数の他の再生装置、ローカルエリアネットワーク内のネットワーク装置、又はインターネット等のワイドエリアネットワーク上の音声コンテンツソースから、データネットワークを介して音声コンテンツを受信するように構成可能である。一例において、再生装置200により送受信される音声コンテンツ及び他の信号は、インターネットプロトコル(IP)に基づく送信元アドレス及びIPに基づく宛先アドレスを含むデジタルパケットデータの形態で送信し得る。このような場合、ネットワークインタフェース214は、再生装置200宛てのデータが再生装置200により適切に受信及び処理されるように、デジタルパケットデータを解析するように構成可能である。
【0036】
図示したように、ネットワークインタフェース214は、無線インタフェース216及び有線インタフェース218を含み得る。無線インタフェース216は、再生装置200が他の装置(例えば、再生デバイス200が関連付けられたデータネットワーク内の他の再生装置、スピーカ、レシーバ、ネットワーク装置、制御装置)と、通信プロトコル(例えば、IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移動体通信規格等を含む任意の無線規格)に従って、無線通信するためのネットワークインタフェース機能を提供し得る。有線インタフェース218は、再生装置200が、通信プロトコル(例えば、IEEE802.3)に従って、他の装置と有線接続を介して通信するためのネットワークインタフェース機能を提供し得る。図2に示したネットワークインタフェース214は、無線インタフェース216及び有線インタフェース218を共に含むが、一部の実施形態において、ネットワークインタフェース214は、無線インタフェースのみ又は有線インタフェースのみを含み得る。
【0037】
一例において、再生装置200と他の1つの再生装置は、音声コンテンツの2つの別個の音声成分を再生するためにペアリングされる。例えば、再生装置200は、左チャネル音声成分を再生するように構成され、他方の再生装置は、右チャネル音声成分を再生するように構成され、これにより音声コンテンツのステレオ効果を生成又は強化し得る。ペアリングした再生装置(「結合再生装置」ともいう)は、更に、他の再生装置と同期して音声コンテンツを再生し得る。
【0038】
他の例において、再生装置200は、1つ又は複数の他の再生装置と音響的に統合し、単一の統合再生装置を形成し得る。統合再生装置は、音声コンテンツを再生可能な追加のスピーカドライバを有し得ることから、未統合の再生装置又はペアリングされた再生装置とは異なる形で音声を処理及び再生するように構成可能である。例えば、再生装置200が低周波数レンジの音声コンテンツを再生するように設計された再生装置(即ち、サブウーハ)である場合、再生装置200は、フル周波数レンジの音声コンテンツを再生するように設計された再生装置と統合し得る。このような場合、フル周波数レンジ再生装置は、低周波再生装置200と統合された時、低周波レンジ再生装置200が音声コンテンツの低周波数成分を再生する一方で、音声コンテンツの中及び高周波数成分のみを再生するように構成可能である。統合再生装置は、更に、単一の再生装置又は更に別の統合再生装置とペアリングされ得る。
【0039】
例えば、SONOS,Inc.は、「PLAY:1」、「PLAY:3」、「PLAY:5」、「PLAYBAR」、「CONNECT:AMP」、「CONNECT」、及び「SUB」を含む特定の再生装置を現在販売している(又はしていた)。他の任意の過去、現在、及び/又は将来の再生装置を追加として又は代替として用いて、本明細書に開示した実施形態例の再生装置を実施してもよい。加えて、再生装置は、図2に示す例又はSONOSが提供する製品に限定されないと理解される。例えば、再生装置は、有線又は無線ヘッドフォンを含み得る。他の例において、再生装置は、個人用モバイルメディア再生装置用のドッキングステーションを含む場合、又はそれと相互作用する場合がある。更に他の例において、再生装置は、テレビ、照明器具、又は屋内若しくは屋外で使用する他の何らかの装置等、別の装置又はコンポーネントに統合されてもよい。
【0040】
b.再生ゾーン構成の例
図1のメディア再生システム100を再び参照すると、環境は、それぞれ1つ又は複数の再生装置を有する1つ又は複数の再生ゾーンを有し得る。メディア再生システム100は、1つ又は複数の再生ゾーンで構築され、その後1つ又は複数のゾーンを追加又は削除し得ることで、図1に示す構成例となってもよい。各ゾーンには、オフィス、浴室、主寝室、寝室、キッチン、ダイニングルーム、リビングルーム、バルコニー等、異なる部屋又は空間に応じて名前を付けてもよい。一例において、単一の再生ゾーンは、複数の部屋又は空間を含み得る。他の事例において、単一の部屋又は空間は、複数の再生ゾーンを含み得る。
【0041】
図1に示すように、バルコニー、ダイニングルーム、キッチン、浴室、オフィス、寝室ゾーンには、それぞれ1つの再生装置があり、リビングルーム及び主寝室ゾーンには、それぞれ複数の再生装置がある。リビングルームゾーンにおいて、再生装置104、106、108、及び110は、個々の再生装置として、1つ又は複数の結合再生装置として、1つ又は複数の統合再生装置として、又はそれらの任意の組み合わせとして、音声コンテンツを同期して再生するように構成可能である。同様に、主寝室の場合、再生装置122及び124は、個々の再生装置として、結合再生装置として、又は統合再生装置として、音声コンテンツを同期して再生するように構成可能である。
【0042】
一例において、図1の環境内の1つ又は複数の再生ゾーンは、それぞれ異なる音声コンテンツを再生し得る。例えば、あるユーザがバルコニーゾーンで網焼きをしつつ再生装置102で再生されているヒップホップ音楽を聴いている一方、別のユーザは、キッチンゾーンで食べ物の準備をしつつ再生装置114で再生されているクラシック音楽を聴いている場合がある。他の例において、再生ゾーンでは、別の再生ゾーンと同期して同じ音声コンテンツを再生し得る。例えば、オフィスゾーンにユーザがいて、オフィスゾーンでは、バルコニーゾーンで再生装置102により再生されているものと同じロック音楽を再生装置118が再生している場合がある。このような場合、再生装置102及び118は、ユーザが異なる再生ゾーン間を移動しながら、音を出して再生されている音声コンテンツをシームレスに(又は少なくとも実質的にシームレスに)楽しめるように、同期してロック音楽を再生し得る。再生ゾーン間の同期は、前掲の米国特許第8,234,395号に記載された再生装置間の同期と同様に達成し得る。
【0043】
上記で示唆したように、メディア再生システム100のゾーン構成は、動的に修正し得るものであり、一部の実施形態において、メディア再生システム100は多数の構成をサポートする。例えば、ユーザが1つ又は複数の再生装置をゾーンの外部又は内部に物理的に移動させる場合、メディア再生システム100は、(複数の)変更に対応するように再構成可能である。例えば、ユーザが再生装置102をバルコニーゾーンからオフィスゾーンに物理的に移動させる場合、オフィスゾーンは、これにより再生装置118と再生装置102の両方を含み得る。再生装置102は、オフィスゾーンとペアリング又はグループ化され、及び/又は望ましい場合、制御装置126及び128等の制御装置を介して名前を変更し得る。一方、1つ又は複数の再生装置が、まだ再生ゾーンになっていない住居環境の特定のエリアに移動された場合、当該特定のエリアに対して新しい再生ゾーンを形成し得る。
【0044】
更に、メディア再生システム100の異なる再生ゾーンは、動的に組み合わせてゾーングループとしてよく、又は個々の再生ゾーンに分割してもよい。例えば、ダイニングルームゾーン及びキッチンゾーン114を組み合わせて、再生装置112及び114が同期して音声コンテンツを再生し得るように、ディナーパーティ用のゾーングループにしてもよい。一方、リビングルームゾーンは、リビングルームの空間で音楽を聴きたいユーザと、テレビを観たい別のユーザとがいる場合、再生装置104を含むテレビゾーンと、再生装置106、108、及び110を含むリスニングゾーンとに分割し得る。
【0045】
c.制御装置の例
図3は、メディア再生システム100の制御装置126及び128の一方又は両方となるように構成可能な制御装置300の例の機能ブロック図を示す。制御装置300はコントローラ300と呼ばれる場合がある。図示したように、制御装置300は、プロセッサ302、メモリ304、ネットワークインタフェース306、及びユーザインタフェース308を含み得る。一例において、制御装置300は、メディア再生システム100の専用コントローラにし得る。他の例において、制御装置300は、例えば、iPhone(登録商標)、iPad(登録商標)、又は他の任意のスマートフォン、タブレット、若しくはネットワーク装置(例えば、PC又はMac(登録商標)等のネットワークコンピュータ)等、メディア再生システムのコントローラアプリケーションソフトウェアをインストールし得るネットワーク装置であってよい。
【0046】
プロセッサ302は、メディア再生システム100のユーザアクセス、制御、及び構成を容易にすることに関連する機能を実行するように構成可能である。メモリ304は、これらの機能を実行するためにプロセッサ302により実行可能な命令を記憶するように構成可能である。メモリ304は、更に、メディア再生システムのコントローラアプリケーションソフトウェア、及びメディア再生システム100とユーザに関連する他のデータを記憶するように構成可能である。
【0047】
一例において、ネットワークインタフェース306は、業界標準(例えば、赤外線、無線、IEEE802.3を含む有線規格、IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移動体通信規格を含む無線規格等)に基づく。ネットワークインタフェース306は、制御装置300がメディア再生システム100内の他の装置と通信するための手段を提供し得る。一例において、データ及び情報(例えば、状態変数等)は、ネットワークインタフェース306を介して制御装置300と他の装置との間で通信され得る。例えば、メディア再生システム100における再生ゾーン及びゾーングループ構成は、再生装置又は別のネットワーク装置から制御装置300により受信し、又は制御装置300によりネットワークインタフェース306を介して別の再生装置又はネットワーク装置に送信し得る。場合により、他のネットワーク装置は、別の制御装置となり得る。
【0048】
音量制御及びオーディオ再生制御等の再生装置制御コマンドも、制御装置300からネットワークインタフェース306を介して再生装置に通信され得る。上記で示唆したように、メディア再生システム100の構成の変更は、ユーザが制御装置300を使用することで実行してもよい。構成の変更は、特に、1つ又は複数の再生装置のゾーンでの追加/削除、1つ又は複数のゾーンのゾーングループでの追加/削除、結合又は統合プレーヤの形成、1つ又は複数の再生装置の結合又は統合されたプレーヤからの分離を含み得る。したがって、制御装置300は、専用の制御装置であっても、メディア再生システムのコントローラアプリケーションソフトウェアがインストールされたネットワーク装置であっても、コントローラと呼ばれる場合がある。
【0049】
制御装置300のユーザインタフェース308は、図4に示したコントローラインタフェース400等のコントローラインタフェースを提供することにより、メディア再生システム100のユーザアクセス及び制御を容易にするように構成可能である。コントローラインタフェース400は、再生制御領域410、再生ゾーン領域420、再生ステータス領域430、再生キュー領域440、及び音声コンテンツソース領域450を含む。図示したユーザインタフェース400は、図3の制御装置300(及び/又は図1の制御装置126及び128)等のネットワーク装置上に設けられると共に、メディア再生システム100等のメディア再生システムを制御するためにユーザがアクセスし得るユーザインタフェースの一例にすぎない。メディア再生システムへの同等の制御アクセスを提供するように、様々な形式、スタイル、及びインタラクティブなシーケンスの他のユーザインタフェースが、代わりに1つ又は複数のネットワーク装置において実施されてもよい。
【0050】
再生制御領域410は、選択された再生ゾーン又はゾーングループ内の再生装置に、再生又は一時停止、早送り、巻き戻し、次へスキップ、前へスキップ、シャッフルモードの開始/終了、リピートモードの開始/終了、クロスフェードモードの開始/終了を実行させる、(例えば、タッチ又はカーソルの使用により)選択可能なアイコンを含み得る。再生制御領域410は、可能なものとして特に、イコライゼーション設定及び再生音量を修正するための選択可能なアイコンを含み得る。
【0051】
再生ゾーン領域420は、メディア再生システム100内の再生ゾーンを表現したものを含み得る。一部の実施形態において、再生ゾーンのグラフィック表現は、可能なものとして特に、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分離、ゾーングループの名前変更等、メディア再生システムにおいて再生ゾーンの管理又は設定を行う追加の選択可能アイコンを呼び出すために、選択可能にし得る。
【0052】
例えば、図示したように、「グループ」アイコンを、再生ゾーンのグラフィック表現内に提供し得る。特定のゾーンのグラフィック表現内に提供される「グループ」アイコンは、当該特定のゾーンとグループ化されるメディア再生システム内の1つ又は複数の他のゾーンを選択するオプションを呼び出すために、選択可能にし得る。グループ化されると、特定のゾーンとグループ化されたゾーンの再生装置は、特定のゾーンの再生装置と同期して音声コンテンツを再生するように構成される。同様に、ゾーングループのグラフィック表示内に「グループ」アイコンを提供してもよい。この場合、「グループ」アイコンを選択して、ゾーングループから削除するべきゾーングループ内の1つ又は複数のゾーンを選択解除するオプションを呼び出すことができる。ユーザインタフェース400等のユーザインタフェースを介してゾーンのグループ化及びグループ化解除を行うための他のインタラクション及び実施も可能である。再生ゾーン領域420内の再生ゾーンの表現は、再生ゾーン又はゾーングループの構成が修正された際に動的に更新され得る。
【0053】
再生ステータス領域430は、選択された再生ゾーン又はゾーングループにおいて、現在再生中の音声コンテンツ、以前に再生した音声コンテンツ、又は次に再生予定の音声コンテンツのグラフィック表現を含み得る。選択された再生ゾーン又はゾーングループは、再生ゾーン領域420及び/又は再生ステータス領域430内等において、ユーザインタフェース上で視覚的に区別され得る。グラフィック表示は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラック長、及びユーザインタフェース400を介してメディア再生システムを制御する際にユーザが知っていると有用な他の関連情報を含み得る。
【0054】
再生キュー領域440は、選択された再生ゾーン又はゾーングループに関連する再生キュー内の音声コンテンツのグラフィック表現を含み得る。一部の実施形態において、各再生ゾーン又はゾーングループは、再生ゾーン又はゾーングループにより再生されるゼロ個以上の音声アイテムに対応する情報を含む再生キューに関連付けられる。例えば、再生キュー内の各音声アイテムは、ユニフォームリソース識別子(URI)、ユニフォームリソースロケータ(URL)、又は、恐らくは再生装置による再生用にローカル音声コンテンツソース又はネットワーク音声コンテンツソースから音声アイテムを検索及び/又は取得するために、再生ゾーン又はゾーングループにおいて再生装置が使用し得る他の何らかの識別子を含み得る。
【0055】
一例では、プレイリストが再生キューに追加される。この場合、プレイリスト内の各音声アイテムに対応する情報が再生キューに追加される。別の例では、再生キュー内の音声アイテムがプレイリストとして記憶される。他の例では、再生キューは空であってよく、又は、再生ゾーン又はゾーングループが、再生時間を有する個別の音声アイテムではなく、停止されるまで再生が継続し得るインターネットラジオ等の連続ストリーミング音声コンテンツを再生している場合、内容を有しても「未使用」とし得る。代替的な実施形態において、再生キューは、インターネットラジオ及び/又は他のストリーミング音声コンテンツのアイテムを含むことが可能であり、再生ゾーン又はゾーングループがこれらのアイテムを再生している時に「使用中」とすることができる。他の例も可能である。
【0056】
再生ゾーン又はゾーングループが「グループ化」又は「グループ化解除」された際には、影響される再生ゾーン又はゾーングループに関連付けられた再生キューは、消去されても、改めて関連付けされてもよい。例えば、第1の再生キューを含む第1の再生ゾーンが、第2の再生キューを含む第2の再生ゾーンとグループ化される場合、確立されたゾーングループが有し得る関連再生キューは、最初は空であるか、第1の再生キューからの音声アイテムを含むか(第2の再生ゾーンが第1の再生ゾーンに追加された場合等)、第2の再生キューからの音声アイテムを含むか(第1の再生ゾーンが第2の再生ゾーンに追加された場合等)、又は第1及び第2の両方の再生キューからの音声アイテムの組み合わせとなる。その後、確立されたゾーングループがグループ化解除された場合、結果的に生じた第1の再生ゾーンは、以前の第1の再生キューに改めて関連付けられてもよく、又は、空である新しい再生キュー、若しくは確立されたゾーングループのグループ化解除前に、確立されたゾーングループに関連付けられていた再生キューからの音声アイテムを含む新しい再生キューに関連付けられてもよい。同様に、結果的に生じた第2の再生ゾーンは、以前の第2の再生キューに改めて関連付けられてもよく、又は、空である新しい再生キュー、若しくは確立されたゾーングループのグループ化解除前に、確立されたゾーングループに関連付けられていた再生キューからの音声アイテムを含む新しい再生キューに関連付けられてもよい。他の例も可能である。
【0057】
図4のユーザインタフェース400を再び参照すると、再生キュー領域440内の音声コンテンツのグラフィック表現は、トラックタイトル、アーティスト名、トラック長、及び再生キュー内の音声コンテンツに関連する他の関連情報を含み得る。一例において、音声コンテンツのグラフィック表現は、再生キュー及び/又は再生キュー内に表現された音声コンテンツを管理及び/又は操作する追加の選択可能アイコンを呼び出すために、選択可能にし得る。例えば、表現された音声コンテンツには、可能なものとして特に、再生キューからの削除、再生キュー内の異なる位置への移動、又は直ちに再生されるか現在再生中の音声コンテンツの後に再生するかの選択が実行され得る。再生ゾーン又はゾーングループに関連付けられた再生キューは、再生ゾーン又はゾーングループ内にある1つ又は複数の再生装置、再生ゾーン又はゾーングループ内にない再生装置、及び/又は他の何らかの指定された装置上のメモリに記憶され得る。このような再生キューの再生は、1つ又は複数の再生装置がキューのメディアアイテムを、恐らくは連続した順序又はランダムな順序で、再生することを含み得る。
【0058】
音声コンテンツソース領域450は、選択された再生ゾーン又はゾーングループにより音声コンテンツを取得して再生し得る、選択可能な音声コンテンツソースのグラフィック表現を含み得る。音声コンテンツソースに関しては、以下の節で説明する。
【0059】
d.音声コンテンツソースの例
前述のように、ゾーン又はゾーングループ内の1つ又は複数の再生装置は、様々な利用可能な音声コンテンツソースから(例えば、音声コンテンツの対応するURI又はURLに従って)再生音声コンテンツを取得するように構成可能である。一例において、音声コンテンツは、対応する音声コンテンツソース(例えば、ラインイン接続)から直接、再生装置により取得され得る。他の例において、音声コンテンツは、1つ又は複数の他の再生装置又はネットワーク装置を介してネットワーク上で再生装置に提供され得る。
【0060】
音声コンテンツソースの例は、可能なものとして特に、図1のメディア再生システム100等のメディア再生システム内の1つ又は複数の再生装置のメモリ、1つ又は複数のネットワーク装置(制御装置、ネットワーク対応パーソナルコンピュータ、又はネットワーク接続ストレージ(NAS)等)上のローカル音楽ライブラリ、インターネット(例えばクラウド)を介して音声コンテンツを提供するストリーミングオーディオサービス、又は再生装置若しくはネットワーク装置上でライン入力接続を介してメディア再生システムに接続された音源を含み得る。
【0061】
一部の実施形態において、音声コンテンツソースは、図1のメディア再生システム100等のメディア再生システムにおいて定期的に追加又は削除されてもよい。一例において、1つ又は複数の音声コンテンツソースが追加、削除、又は更新された時は常に、音声アイテムのインデキシングを実行し得る。音声アイテムのインデキシングは、メディア再生システム内の再生装置がアクセス可能な、ネットワーク上で共有される全てのフォルダ/ディレクトリ内で特定可能な音声アイテムのスキャニングと、音声コンテンツデータベースの生成又は更新とを含み得る。音声コンテンツデータベースは、メタデータ(例えば、特に、タイトル、アーティスト、アルバム、トラック長)及び見つかった特定可能な音声アイテム毎のURI又はURLといった他の関連情報を含む。音声コンテンツソースを管理及び維持する他の例も可能である。
【0062】
e.処理システムの例
図5は、オーディオ入力/出力コンポーネント502、ウェイクワード検出コンポーネント504、及び通知コンポーネント506を含む処理システム500の例の機能ブロック図を示す。動作中、処理システム500は、記録済み音声コンテンツ内のウェイクワードを検出すると共に、NMDに、ウェイクワードの検出に対するプログラム済みウェイク応答を無視するか、他の形で抑制するように通知する。様々な実施形態において、処理システム500は、特に、再生装置、NMD、又はクラウドサーバ等の別個の処理装置において実施され得る。一部の実施形態において、処理システム(及び/又はその機能)の様々な構成要素は、複数の装置に分散される。
【0063】
動作中、オーディオ入力/出力コンポーネント502は、入力インタフェースを介して、再生装置による再生のために指定された記録済み音声コンテンツを受信する。例えば、制御装置(図1の制御装置126又は128等)は、再生装置(例えば、図1の任意の再生装置)に、特定の音声コンテンツの再生を指示し得る。当該指示は、例として特に、恐らくはそのコンテンツを再生装置の再生キューに入れて再生装置に音声コンテンツを取得させること、音声コンテンツのストリーミングを再生装置に送ること、又はアナログ又はデジタルラインインインタフェースを介して再生装置に音声コンテンツを送ることにより行われる。処理システム500の音声/入力コンポーネント502は、音声コンテンツが再生装置により再生される前に、この記録済み音声コンテンツを受信する。
【0064】
上述したように、一部の例において、処理システム500は再生装置内で実施される。このような実施形態では、再生装置500は、再生のため必然的に音声コンテンツへのアクセスを既に有している。例えば、再生装置は、可能なものとして特に、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、及びパーソナルエリアネットワーク(PAN)等の1種類以上のネットワーク上のネットワークインタフェースを介して、ネットワークソース(例えば、ストリーミングメディアサービス又はモバイル装置)から音声コンテンツを受信し得る。又は、再生装置は、アナログ(例えば、RCA)又はデジタル(例えば、TosLink(登録商標)又はHDMI(登録商標))のラインインインタフェースを介して音声コンテンツを受信し得る。
【0065】
他の例において、処理システム500は、再生装置とは別のNMD又は他の処理装置内で実施される。このような実施形態において、処理システム500は、例として特に、再生装置又は音声コンテンツのソースから、ネットワークインタフェースを介して音声コンテンツを受信し得る。別の例において、ラインインインタフェースが音声コンテンツをNMDに直接提供してもよく、又は、再生装置がラインインインタフェースを介して音声コンテンツを受信し、1つ又は複数のネットワークを介して処理システム500にコンテンツを中継してもよい。
【0066】
例えば、処理システム500は、再生装置の再生キューへのアクセスを有し得る。上述したように、再生キュー内の各音声アイテムは、ユニフォームリソース識別子(URI)、ユニフォームリソースロケータ(URL)、又は、他の何らかの識別子を含み得る。他の何らかの識別子は、恐らくは再生装置による再生用に、ローカル音声コンテンツソース又はネットワーク音声コンテンツソースから音声アイテムを検索及び/又は取得するために、再生ゾーン又はゾーングループにおいて再生装置が使用し得るものである。処理システム500は、再生装置による再生の前に、このような識別子を同様に用いて、ローカル音声コンテンツソース又はネットワーク音声コンテンツソースから音声コンテンツを取得し得る。
【0067】
一部の実施において、再生キューは、再生装置のデータストレージに記憶される。他の実施において、再生キューは、クラウドサーバに記憶される。クラウドサーバに記憶された再生キュー(即ち、クラウドキュー)は、再生装置に記憶された再生キューのインスタンス又は表現となる。クラウドキューは、再生装置での再生の現在の状態を表す再生ポインタ又は他のステータス情報を含み得る。
【0068】
一部の例において、処理システム500は、受信した音声コンテンツをウェイクワード検出に適したフォーマットに変換し得る。例えば、音声コンテンツがアナログラインインインタフェースを介して音声/入力コンポーネント502に提供される場合、処理システム500は、(例えば、ソフトウェア又はハードウェアに基づくアナログ/デジタル変換器を用いて)アナログ音声をデジタル化し得る。他の例として、受信した音声コンテンツが、分析に適さないデジタル形式で受信された場合、処理システム500は、その記録を適切なフォーマットにトランスコードし得る。
【0069】
ウェイクワード検出コンポーネント504は、受信した音声コンテンツを分析して、その記録にウェイクワードが存在するかを判断する。ウェイクワード検出コンポーネント504は、ウェイクワード検出アルゴリズムを用いて、受信した音声コンテンツを分析し得る。ウェイクワード検出アルゴリズムの例は、音声記録を入力として受け取り、その記録にウェイクワードが存在するかを示すインジケーションを出力として提供する。
【0070】
一部の実施において、ウェイクワード検出コンポーネント504は、マイクロホンを介して記録された音声内のウェイクワードを検出するためにNMDが利用するものと同じアルゴリズムを記録に対して使用し得る。一般的な動作中、NMDの例は、音声を常に記録し、記録された音声にウェイクワードが含まれているかを判断するために、記録されたオーディオストリームをウェイクワード検出アルゴリズムに提供する。ここで、NMDのマイクロホンにより記録された音声をウェイクワード検出アルゴリズムに提供する代わりに、ウェイクワード検出コンポーネント504は、再生用に指定された、事前に記録済み音声コンテンツを提供する。
【0071】
分析中、ウェイクワード検出コンポーネント504は、更に、受信した音声コンテンツ内で各ウェイクワードが発生する場所を判断する。例えば、ウェイクワード検出コンポーネント504は、受信した音声コンテンツを既知の長さのセグメントに分割し得る。次に、ウェイクワード検出コンポーネント504は、ウェイクワードが検出されたセグメントを特定することにより、ウェイクワードが発生する記録の場所を判断し得る。例えば、各セグメントの長さが5秒であり、ウェイクワードが第4のセグメントで検出された場合、ウェイクワードは、記録の15乃至20秒の間に位置することになる。ウェイクワード検出コンポーネント504は、恐らくは1つ又は複数のタイムスタンプ(例えば、ウェイクワードの開始時間を示すタイムスタンプ、及び恐らくはウェイクワードの停止時間を示す別のタイムスタンプ)を使用して、ウェイクワードを含む音声コンテンツの部分を記録し得る。このようなタイムスタンプは、音声記録の開始から、又は音声記録内の別の特定の位置から、それぞれの時間オフセットを定義し得る。一部の例において、ウェイクワード検出コンポーネント504は、ウェイクワードが分割され、認識不能な部分となることを避けるために、音声記録を重複するセグメントに分離してもよい。音声記録内のウェイクワードの位置を決定する他の技術を利用することもできる。
【0072】
例の中で、処理システム500は、受信した音声コンテンツをメモリにバッファリングし得る。例えば、処理システム500は、受信した音声コンテンツを先入れ先出しバッファ(例えば、循環バッファ)に記憶し得る。このような実施において、受信した音声の一部は、受信時にバッファに記憶され、受信した音声コンテンツにウェイクワードが含まれるかを判断するために処理されると削除される。
【0073】
一部の例において、ウェイクワード検出コンポーネント504は、受信した音声コンテンツに対して複数のウェイクワード検出アルゴリズムを同時に(又は実質的に同時に)実行する。上述したように、様々な音声サービス(例えば、AMAZONのALEXA(登録商標)、APPLEのSIRI(登録商標)、又はMICROSOFTのCORTANA(登録商標))では、それぞれの音声サービスの呼び出しに異なるウェイクワードを使用している。複数のサービスをサポートするために、ウェイクワード検出コンポーネント504は、受信した音声コンテンツに対して、サポートしている各音声サービス用のウェイクワード検出アルゴリズムを並行して実行し得る。
【0074】
音声コンテンツ内で1つ又は複数のウェイクワードが検出された場合、通知コンポーネント506は、1つ又は複数のNMD(例えば、図1のNMD132及び/又は134)に通知する。この通知により、NMDは、再生装置がウェイクワードを含む音声コンテンツを再生する過程で、当該ウェイクワードが検出された際に、検出されたウェイクワードを無視する。例えば、通知コンポーネント506は、特定のウェイクワード又は特定の数のウェイクワードを無視するように、ネットワークインタフェースを介して1つ又は複数のNMDに命令を送信し得る。
【0075】
一部の例において、通知コンポーネント506は、ウェイクワードが再生装置により再生される際に、NMDがウェイクワードを検出しないようにしてもよい。例えば、通知コンポーネント506は、ある期間に亘り、ウェイクワードの聴取を停止する(例えば、記録された音声の処理を停止する)ようにNMDに指示し得る。又は、通知コンポーネント506は、NMDに対して、一時的に(例えば、ウェイクワードが再生装置により再生されると予想される時間に対応する期間中に)、そのマイクロホンアレイを無効にするように指示し得る。更に他の例として、通知コンポーネント506は、NMDがウェイクワードを検出しないように、再生装置がマイクロホンアレイを使用する方向にリスニングNULLを作成するようにNMDに指示し得る。他の例も可能である。
【0076】
又は、NMDがウェイクワードを検出し得る一方で、通知コンポーネント506は、NMDに、ウェイクワードの検出に応じて音声サービスを呼び出すプログラム済みウェイク応答を抑制するように指示する。例えば、通知コンポーネント506は、特定の期間中、ウェイクワードを無視するように、又は特定の期間中、全ての音声を無視するように、NMDに指示し得る。他の例も可能である。
【0077】
再生装置が音声コンテンツを聞き取り可能に再生する前に音声コンテンツを処理する場合、処理装置(再生装置又はNMD等)は、記録済み音声コンテンツ内でウェイクワードが含まれるセクションを判断することもできる。これらのセクションは、ウェイクワードの開始時間及び停止時間等、音声コンテンツ内の期間により定義することができる(例えば、ポッドキャストのウェイクワードが33:52.543に開始し、33:54.013に終了する)。音声コンテンツが再生される際には、近傍のNMDに、これらの期間中、ウェイクワードを無視するように指示することができる。
【0078】
他の例として、処理システム500は、音声コンテンツ(又は音声コンテンツの一部)内のウェイクワードの数をカウントし得る。例えば、処理システム500は、音声コンテンツの例(例えば、テレビ番組)において3つのウェイクワードを検出する場合がある。上述したように、このようなインスタンスは、異なる音声サービスの異なるウェイクワードを含め、ウェイクワードの任意の組み合わせを含み得る。次に、処理システム500は、カウントと等しい数のウェイクワードを検出するまでウェイクワードを無視するように(例えば、次の3つのウェイクワードを無視するように)、近傍のNMDに指示し得る。
【0079】
他の例において、処理システム500は、記録済み音声コンテンツに音声トーン又は他のマーカを動的に挿入して、音声コンテンツで検出されたウェイクワードを指定し得る。その後、音声コンテンツが再生装置により再生される際に、ウェイクワードと共に音声マーカを検出するNMDには、ウェイクワードのインスタンスを無視するように指示することができる。複数のNMDが再生装置の可聴範囲内にある場合、ウェイクワードを検出する各NMDは、関連する音声マーカを検出することに応じて、ウェイクワードを無視し得る。場合により、音声マーカは、人間の可聴範囲外(例えば、20kHz超)の音声周波数で構成されるため、人間の聴取者は、挿入されたトーンに気付かない。
【0080】
一部の実施において、処理システム500は、音声コンテンツのソースと再生装置との間の媒介として動作する。例えば、処理システム500が音声マーカを用いてNMDに通知する実施において、処理システムは、再生装置による再生に指定された音声コンテンツを修正する。このような実施形態において、処理システム500は、音源から音声コンテンツを受信し(例えば、ネットワーク又はラインインインタフェースを介して)、音声コンテンツを分析し、恐らくはネットワークインタフェースを介して、修正された音声コンテンツを再生のため再生装置に提供し得る。
【0081】
又は、上述したように、処理システム500は、再生装置自体において実施される。このような場合、音声コンテンツを分析した後、再生装置は、音声コンテンツの再生に進み得る。更に、上述したように、場合によっては、再生装置は、(例えば、ゾーングループ、ステレオペア、又はサラウンドサウンド構成において)1つ又は複数の追加の再生装置と同期して音声コンテンツを再生するように構成可能である。このような状況において、再生装置は、恐らくはネットワークインタフェースを介して、1つ又は複数の追加の再生装置に(場合より修正された)音声コンテンツを提供し得る。
【0082】
他の例において、処理システム500は、NMDにおいて実施される。このような場合、処理システム500は、NMD自体に、再生時に音声コンテンツのウェイクワードを無視させ得る。更に、NMDは、ウェイクワードを無視するように他のNMDに指示し得る。例えば、NMD132は、ウェイクワードを無視するようにNMD134に指示し得る。更に、NMDが再生装置(例えば、再生装置104)において実施される場合、NMD/再生装置は、他のNMD(これらも再生装置において実施されている場合がある)にウェイクワードを無視するように指示し得る。
【0083】
f.複数のネットワーク装置の例
図6は、音声制御に基づいてオーディオ再生体験を提供するように構成可能な複数の装置600の例を示す。図6に示した装置が例示のみを目的とし、異なる及び/又は追加の装置を含む変形が可能となり得ることは、当業者に理解されよう。図示したように、複数の装置600は、計算装置604、606、608と、ネットワークマイクロホン装置(NMD)612、614、616と、再生装置(PBD)632、634、636、638と、コントローラ装置(CR)622とを含む。
【0084】
複数の装置600のそれぞれは、例として特に、NFC、Bluetooth(登録商標)、イーサネット、及びIEEE802.11等の1つ又は複数のネットワークプロトコルにより、1種類以上のネットワークを介して、複数の装置において1つ又は複数の他の装置との通信を確立することが可能なネットワーク対応装置にし得る。1種類以上のネットワークは、例えば、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、パーソナルエリアネットワーク(PAN)等である。
【0085】
図示したように、計算装置604、606、608は、クラウドネットワーク602の一部であってよい。クラウドネットワーク602は、追加の計算装置を含み得る。一例において、計算装置604、606、608は、異なるサーバであってもよい。他の例において、計算装置604、606、608のうちの2つ以上は、単一のサーバのモジュールであってもよい。同様に、計算装置604、606、608のそれぞれは、1つ又は複数のモジュール又はサーバを含み得る。本明細書での例示の目的を容易にするため、計算装置604、606、608のそれぞれは、クラウドネットワーク602内で特定の機能を実行するように構成可能である。例えば、計算装置608は、ストリーミング音楽サービス用の音声コンテンツのソースであってもよい。
【0086】
図示したように、計算装置604は、通信経路642を介して、NMD612、614、616と連動するように構成可能である。NMD612、614、616は、1つ又は複数の「スマートホーム」システムの構成要素であってもよい。一例において、NMD612、614、616は、図1に示す装置の分布と同様に、住居全体に物理的に分布させ得る。他の例において、NMD612、614、616の2つ以上は、物理的に互いに比較的近接して配置され得る。通信経路642は、可能なものとして特に、インターネットを含むWAN、LAN、及び/又はPAN等の1種類以上のネットワークを含み得る。
【0087】
一例において、NMD612、614、616の1つ又は複数は、主に音声検出用に構成された装置である。他の例において、NMD612、614、616の1つ又は複数は、様々な主要用途を有する装置の構成要素である。例えば、図2及び3に関連して上述したように、NMD612、614、616の1つ又は複数は、再生装置200のマイクロホン220又はネットワーク装置300のマイクロホン310であってもよい。更に、場合により、NMD612、614、616の1つ又は複数は、再生装置200又はネットワーク装置300であってもよい。一例において、NMD612、614、及び/又は616の1つ又は複数は、マイクロホンアレイに配置された複数のマイクロホンを含み得る。
【0088】
図示したように、計算装置606は、通信経路644を介してCR622及びPBD632、634、636、638と連動するように構成可能である。一例において、CR622は、図2のネットワーク装置200等のネットワーク装置であってもよい。したがって、CR622は、図4のコントローラインタフェース400を提供するように構成可能である。同様に、PBD632、634、636、638は、図3の再生装置300等の再生装置であってもよい。そのため、PBD632、634、636、638は、図1に示すように、住居全体に物理的に分布させ得る。例示のために、PBD636及び638を結合ゾーン630の一部とする一方、PBD632及び634は、それぞれのゾーンの一部としてもよい。上述したように、PBD632、634、636、638は、動的に結合、グループ化、結合解除、及びグループ化解除され得る。通信経路644は、可能なものとして特に、インターネットを含むWAN、LAN、及び/又はPAN等の1種類以上のネットワークを含み得る。
【0089】
一例において、NMD612、614、616と同様に、CR622及びPBD632、634、636、638は、1つ又は複数の「スマートホーム」システムの構成要素である。一例において、PBD632、634、636、638は、NMD612、614、616と同じ住居全体に分布させ得る。更に、上記で示唆したように、PBD632、634、636、638の1つ又は複数は、NMD612、614、616の1つ又は複数であってもよい。
【0090】
NMD612、614、616は、ローカルエリアネットワークの一部としてよく、通信経路642は、NMD612、614、616のローカルエリアネットワークを計算装置604にWANを介して連結するアクセスポイントを含み得る(通信経路は図示せず)。同様に、NMD612、614、616のそれぞれは、そのようなアクセスポイントを介して互いに通信し得る。
【0091】
同様に、CR622及びPBD632、634、636、638は、前節で説明したローカルエリアネットワーク及び/又はローカル再生ネットワークの一部にしてよく、通信経路644は、CR622及びPBD632、634、636、638のローカルエリアネットワーク及び/又はローカル再生ネットワークを、計算装置606にWANを介して連結するアクセスポイントを含み得る。そのため、CR622及びPBD632、634、636、638のそれぞれは、このようなアクセスポイントを介してそれぞれと通信し得る。
【0092】
一例において、通信経路642及び644は、同じアクセスポイントを備え得る。一例において、NMD612、614、616、CR622、及びPBD632、634、636、638のそれぞれは、家庭用の同じアクセスポイントを介してクラウドネットワーク602にアクセスし得る。
【0093】
図6に示すように、NMD612、614、616、CR622、及びPBD632、634、636、638のそれぞれは、更に、通信手段646を介して他の装置の1つ又は複数と直接通信し得る。本明細書に記載の通信手段646は、1種類以上のネットワークを介した、1つ又は複数のネットワークプロトコルによる、装置間の1つ又は複数の通信形態を含んでよく、及び/又は1つ又は複数の他のネットワーク装置を介した通信を含んでよい。例えば、通信手段646は、可能なものとして特に、Bluetooth(IEEE802.15)、NFC、ワイヤレスダイレクト、及び/又は独自のワイヤレスの1つ又は複数を含み得る。
【0094】
一例において、CR622は、Bluetoothを介してNMD612と通信し、別のローカルエリアネットワークを介してPBD634と通信し得る。他の例において、NMD614は、別のローカルエリアネットワークを介してCR622と通信し、Bluetoothを介してPBD636と通信し得る。更に他の例では、PBD632、634、636、638のそれぞれは、ローカル再生ネットワークを介してスパニングツリープロトコルにより互いに通信し得る一方、ローカル再生ネットワークとは異なるローカルエリアネットワークを介して、CR622とそれぞれ通信する。他の例も可能である。
【0095】
場合により、NMD612、614、616、CR622、及びPBD632、634、636、638間の通信手段は、装置間の通信の種類、ネットワーク条件、及び/又はレイテンシ要求に応じて変化し得る。例えば、NMD616がPBD632、634、636、638を有する住居に最初に導入される時には、通信手段646が使用されてもよい。一例において、NMD616は、NFCを介してPBD638に、NMD616に対応する識別情報を送信し、これに応じて、PBD638は、NFC(又は他の通信形態)を介してNMD616に、ローカルエリアネットワーク情報を送信し得る。しかしながら、NMD616が住居内で設定されると、NMD616とPBD638との間の通信手段は、変化し得る。例えば、NMD616は、その後、通信経路642、クラウドネットワーク602、及び通信経路644を介してPBD638と通信し得る。他の例において、NMD及びPBDは、ローカルの通信手段646を介して通信しなくてもよい。更に他の例において、NMD及びPBDは、主にローカルの通信手段646を介して通信してもよい。他の例も可能である。
【0096】
説明のための例において、NMD612、614、616は、音声入力を受信してPBD632、634、636、638を制御するように構成可能である。利用可能な制御コマンドには、可能なものとして特に、再生音量制御、再生トランスポート制御、音楽ソース選択、グループ化等、前述した任意のメディア再生システム制御が含まれ得る。一例において、NMD612は、音声入力を受信して、PBD632、634、636、638の1つ又は複数を制御し得る。音声入力の受信に応じて、NMD612は、通信経路642を介して、処理のために音声入力を計算装置604に送信し得る。一例において、計算装置604は、音声入力を同等のテキストコマンドに変換し、テキストコマンドを解析してコマンドを特定し得る。その後、計算装置604は、テキストコマンドを計算装置606に送信し得る。他の例において、計算装置604は、音声入力を同等のテキストコマンドに変換し、次に、テキストコマンドを計算装置606に送信し得る。その後、計算装置606は、テキストコマンドを解析して、1つ又は複数の再生コマンドを特定し得る。
【0097】
例えば、テキストコマンドが「「ゾーン1」の「ストリーミングサービス1」から「アーティスト1」による「トラック1」を再生」である場合、計算装置606は、(i)「ストリーミングサービス1」から利用可能な「アーティスト1」による「トラック1」のURL、及び(ii)「ゾーン1」の少なくとも1つの再生装置を特定し得る。この例において、「ストリーミングサービス1」からの「アーティスト1」による「トラック1」のURLは、計算装置608を指すURLであってよく、「ゾーン1」は、結合ゾーン630であってよい。そのため、URL及びPBD636及び638の一方又は両方を特定すると、計算装置606は、通信経路644を介して、PBD636及び638の一方又は両方に対して、特定したURLを再生のために送信し得る。PBD636及び638の一方又は両方は、これに反応して、受信したURLに従って計算装置608から音声コンテンツを取得し、「ストリーミングサービス1」から「アーティスト1」による「トラック1」の再生を開始し得る。
【0098】
更に他の例において、計算装置604は、ユーザの関連コマンド又は意図を特定する何らかの処理を実行し、音声入力に関連するメディアコンテンツに関する情報を計算装置606へ提供し得る。例えば、計算装置604は、音声入力の音声テキスト化変換を実行し、音声入力を、コマンド又は意図(例えば、再生、一時停止、停止、音量アップ、音量ダウン、スキップ、次へ、グループ化、グループ化解除)について、どのようにコマンドを実行するかに関する他の情報と共に分析し得る。計算装置604又は計算装置606は、どのPBDコマンドが計算装置604により決定されたコマンド又は意図に対応するかを決定し得る。音声入力及び/又はコマンドの実行に関連する他の情報から決定されたコマンド又は意図は、計算装置604から計算装置606に送信され得る。計算装置604での処理は、アプリケーション、モジュール、アドオンソフトウェア、ネイティブのネットワークマイクロホンシステムのソフトウェアプラットフォームとの統合、及び/又はネイティブのネットワークマイクロホンシステムのソフトウェアプラットフォームにより実行し得る。
【0099】
上記が単なる説明のための例に過ぎず、他の実施も可能であることは当業者に理解されよう。一例では、複数の装置600の1つ又は複数により実行される動作は、上述したように、複数の装置600内の1つ又は複数の他の装置が実行してもよい。例えば、音声入力からテキストコマンドへの変換は、NMD612、計算装置606、PBD636、及び/又はPBD638等の他の装置又は装置群が、代わりに、部分的に、又は全てを実行してもよい。同様に、URLの特定は、NMD612、計算装置604、PBD636、及び/又はPBD638等の別の装置又は装置群が、代わりに、部分的に、又は全てを実行してもよい。
【0100】
f.ネットワークマイクロホン装置の例
図7は、図7のNMD712、714、716の1つ又は複数として構成可能なネットワークマイクロホン装置700の例の機能ブロック図を示す。図示したように、ネットワークマイクロホン装置700は、プロセッサ702、メモリ704、マイクロホンアレイ706、ネットワークインタフェース708、ユーザインタフェース710、ソフトウェアコンポーネント712、及びスピーカ714を含む。他のネットワークマイクロホン装置の構成及び配置も可能であることは、当業者に理解されよう。例えば、ネットワークマイクロホン装置は、スピーカ714を含まなくてもよく、又はマイクロホンアレイ706の代わりに単一のマイクロホンを有してもよい。
【0101】
プロセッサ702は、汎用又は専用プロセッサ又はコントローラの形態となり得る1つ又は複数のプロセッサ及び/又はコントローラを含み得る。例えば、プロセッサ702は、マイクロホンプロセッサ、マイクロホンコントローラ、特定用途向け集積回路、デジタル信号プロセッサ等を含み得る。メモリ704は、これらの機能を実行するためにプロセッサ702により実行可能な1つ又は複数のソフトウェアコンポーネントをロード可能なデータストレージであってよい。したがって、メモリ704は、1つ又は複数の非一時的コンピュータ読み取り可能媒体を含むことができ、その例には、可能なものとして特に、ランダムアクセスメモリ、レジスタ、キャッシュ等の揮発性記憶媒体と、読み取り専用メモリ、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、及び/又は光記憶装置等の不揮発性記憶媒体とが含まれ得る。
【0102】
マイクロホンアレイ706は、ネットワークマイクロホン装置700の環境内の音を検出するように配置された複数のマイクロホンであってよい。マイクロホンアレイ706は、可能なものとして特に、コンデンサマイクロホン、エレクトレットコンデンサマイクロホン、又はダイナミックマイクロホン等、現在公知の又は今後開発される任意の種類のマイクロホンを含み得る。一例において、マイクロホンアレイは、ネットワークマイクロホン装置に対する1つ又は複数の方向からの音声を検出するように配置され得る。マイクロホンアレイ706は、周波数範囲の一部に対して感度を有し得る。一例において、マイクロホンアレイ706の第1のサブセットは、第1の周波数範囲に対して感度を有し、マイクロホンアレイの第2のサブセットは第2の周波数範囲に対して感度を有し得る。マイクロホンアレイ706は、更に、音源(例えば、声、可聴音)の位置情報を取り込むように、及び/又は背景雑音のフィルタリングを支援するように、配置され得る。特に、一部の実施形態において、マイクロホンアレイは、複数のマイクロホンではなく、単一のマイクロホンのみで構成されてもよい。
【0103】
ネットワークインタフェース708は、様々なネットワーク装置間の無線及び/又は有線通信を容易にするように構成可能である。様々なネットワーク装置は、図7に関連して、可能なものとして特に、CR722、PBD732乃至738、クラウドネットワーク702内の計算装置704乃至708、及び他のネットワークマイクロホン装置等である。そのため、ネットワークインタフェース708は、これらの機能を達成するための任意の適切な形態にしてよく、その例には、イーサネットインタフェース、シリアルバスインタフェース(例えば、FireWire、USB2.0等)、無線通信を容易にするチップセット及びアンテナ、及び/又は有線及び/又は無線通信を提供する他の任意のインタフェースが含まれる。一例において、ネットワークインタフェース708は、業界標準(例えば、赤外線、無線、IEEE802.3を含む有線規格、IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G移動体通信規格を含む無線規格等)に基づく。
【0104】
ネットワークマイクロホン装置700のユーザインタフェース710は、ネットワークマイクロホン装置とのユーザのやりとりを容易にするように構成可能である。一例において、ユーザインタフェース708は、ユーザがネットワークマイクロホン装置700に直接入力を行うために、可能なものとして特に、1つ又は複数の物理的なボタン、タッチセンサ式画面及び/又は表面上に設けられたグラフィカルインタフェースを含み得る。ユーザインタフェース710は、更に、視覚及び/又は音声フィードバックをユーザに提供する1つ又は複数のライト及びスピーカ714を含み得る。一例において、ネットワークマイクロホン装置700は、更に、スピーカ7714を介して音声コンテンツを再生するように構成可能である。
【0105】
III.ウェイク応答を無効にする再生装置の技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を無効にすることを含み得る。図8は、再生装置が1つ又は複数のNMDのウェイク応答を無効にする実施800の例を示す。
【0106】
a.再生用の音声コンテンツを表すデータを受信
ブロック802において、実施802は、再生用の音声コンテンツを表すデータを受信することを含む。例えば、再生装置は、再生装置による再生用の音声コンテンツを受信し得る。再生装置の例には、図1に示した再生装置102、104、106、108、110、112、114、116、118、120、112、124の何れかが含まれ、例えば、図2の再生装置200に示したように実施され得る。一部の実施において、再生装置は、処理システム(例えば、処理システム500)を含み、オーディオ音声入力/出力コンポーネント(図5のオーディオ音声入力/出力コンポーネント502等)を用いて音声コンテンツを表すデータを受信し得る。
【0107】
音声コンテンツの例には、多くの音声コンテンツの形態の中で特に、1つ又は複数の音声トラック、トークショー、映画、テレビ番組、ポッドキャスト、インターネットストリーミングビデオが含まれる。音声コンテンツは、映像を伴う音声コンテンツ(例えば、ビデオの音声トラック)又は映像を伴わない音声を含み得る。
【0108】
再生装置は、例として特に、有線若しくは無線ネットワークインタフェース又はアナログ若しくはデジタルラインインインタフェースである入力インタフェースを介して音声コンテンツを受信し得る。例えば、再生装置は、可能なものとして特に、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、パーソナルエリアネットワーク(PAN)等の1種類以上のネットワーク経由で、ネットワークインタフェースを介してネットワークソースから音声コンテンツを受信し得る。
【0109】
再生装置は、ローカル又はリモート音源から音声コンテンツを表すデータを受信し得る。例えば、再生装置は、ローカルメディアサーバ又はローカルエリアネットワーク上の他の装置から、媒体(CD、DVD、Blu−Ray(登録商標)、フラッシュメモリ、ハードドライブ等)から、又は再生装置自体のデータストレージから、音声コンテンツを受信し得る。媒体は、再生装置により、又は(例えば、ローカルエリアネットワーク経由でネットワークインタフェースを介して)再生装置と通信する他の装置により読み取られる。再生装置は、恐らくは1つ又は複数のクラウドサーバから、音声コンテンツストリームとして音声コンテンツを受信し得る。例えば、再生装置は、URLからネットワークインタフェースを介して音声コンテンツストリームを取得し得る。又は、再生装置は、再生装置上又は(例えば、ネットワークインタフェースを介したローカルエリアネットワーク経由で)再生装置と通信する他の装置上のラインインインタフェースから、音声コンテンツを受信し得る。
【0110】
場合により、再生装置は、恐らくはアナログラインインインタフェースを介して、アナログ形式で音声コンテンツを受信し得る。このような場合、再生装置は、(例えば、ソフトウェア又はハードウェアに基づくアナログ/デジタル変換器を用いて)アナログ音声を処理に適した形式にデジタル化する。又は、再生装置と通信する装置は、アナログ形式で音声コンテンツを受信し、音声コンテンツをデジタル化し、音声コンテンツを表すデータを再生装置に送信し得る。
【0111】
上述したように、受信した音声コンテンツは、再生装置による再生用に設計されている。例えば、制御装置(図1の制御装置126又は128等)は、恐らくはそのコンテンツを再生装置の再生キューに入れることにより、特定の音声コンテンツを再生するように再生装置に指示し得る。音声トラック又はその他の音声コンテンツを、このようなキューに入れることにより、恐らくは制御装置又は再生装置自体における制御(例えば、再生/一時停止ボタン)を介して再生が開始された後、再生装置は、音声コンテンツを取得する。再生装置は、ローカル又はリモート音源から音声コンテンツを取得し得る。音声コンテンツの取得は、例として特に、ネットワークインタフェースを介して音声コンテンツストリームを再生装置へ送ることにより、又はアナログ若しくはデジタルラインインインタフェースを介して音声コンテンツを再生装置へ送ることにより行われる。
【0112】
例の中で、再生装置は、受信した音声コンテンツの少なくとも一部をメモリに記憶し得る。例えば、再生装置は、受信した音声コンテンツを先入れ先出しバッファ(例えば、循環バッファ)にバッファリングし得る。このような実施において、受信した音声の一部は、受信時にバッファに記憶され、受信した音声コンテンツにウェイクワードが含まれるかを再生装置が判断できるように処理されると削除される。
【0113】
b.音声コンテンツにおいて1つ又は複数のウェイクワードを検出
図8を再び参照すると、ブロック804において、実施800は、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて1つ又は複数のウェイクワードを検出することを含む。例えば、再生装置は、音声コンテンツを表す受信データを分析して、何れかの音声サービス用のウェイクワードが、音声コンテンツの再生時に聞き取り可能に再生されるように音声コンテンツ内で表されているかを判断し得る。上述したように、一部の実施において、再生装置は、処理システム(例えば、処理システム500)を含み、ウェイクワード検出コンポーネント(図5のウェイクワード検出コンポーネント504等)を用いて音声コンテンツ内のウェイクワードを検出し得る。
【0114】
再生装置は、1つ又は複数のウェイクワード検出アルゴリズムを用いて、受信した音声コンテンツを分析し得る。ウェイクワード検出アルゴリズムの例は、音声記録を入力として受け取り、その記録にウェイクワードが存在するかを示すインジケーションを出力として提供する。多くのファーストパーティ及びサードパーティのウェイクワード検出アルゴリズムが公知であり、市販されている。例えば、音声サービスの運営者は、そのアルゴリズムのサードパーティの装置での使用を可能にし得る。又は、特定のウェイクワードを検出するようにアルゴリズムをトレーニングし得る。
【0115】
一部の実施において、再生装置は、マイクロホンを介して記録された音声内のウェイクワードを検出するためにNMDが利用するものと同じ又は類似するアルゴリズムを、音声コンテンツを表す受信データに対して使用し得る。このようにして、再生装置は、音声コンテンツがNMDの可聴範囲で再生されたかをNMDが検出するものと同じ又は類似するウェイクワードを、音声コンテンツにおいて検出し得る。しかしながら、NMDは、通常、変化する環境条件(例えば、場合により騒音の多い住居)において幅広い人間の声で話されたマイクロホン録音音声に対してウェイクワード検出アルゴリズムを実行することを考えると、このような変化の可能性がない受信音声コンテンツに対してウェイクワードアルゴリズムを動作させることは、ウェイクワードの検出において更に効果的となり得る。
【0116】
分析中、再生装置は、受信した音声コンテンツ内で各ウェイクワードが発生する場所を判断し得る。ウェイクワードを含むと判断された音声コンテンツの部分を特定した後、再生装置は、1つ又は複数のタイムスタンプ(例えば、ウェイクワードの開始時間を示すタイムスタンプ、及び恐らくはウェイクワードの停止時間を示す別のタイムスタンプ)を使用して、これらの音声コンテンツの部分を記録し得る。最終的に、これらのタイムスタンプを使用して、各タイムスタンプに対応するウェイクワードに対する1つ又は複数のNMDのウェイク応答を無効にし得る。
【0117】
一例において、再生装置は、受信した音声コンテンツを既知の長さのセグメントに分割し得る。次に、再生装置は、ウェイクワードが検出されたセグメントを特定することにより、ウェイクワードを含む音声コンテンツの部分、即ちセグメント、を特定する。例えば、各セグメントの長さが3秒であり、ウェイクワードが第4のセグメントで検出された場合、ウェイクワードは、記録の9乃至12秒の間に位置することになる。一部の例において、再生装置は、ウェイクワードが分割され、認識不能な部分(例えば、「Hey」を表すセクションと、「Siri」を表す別のセグメント)となることを避けるために、音声記録を重複するセグメントに分離してもよい。音声記録内のウェイクワードの位置を決定する他の技術を利用することもできる。
【0118】
一部の例において、再生装置は、受信した音声コンテンツに対して複数のウェイクワード検出アルゴリズムを同時に(又は実質的に同時に)実行する。上述したように、様々な音声サービス(例えば、AMAZONのALEXA、APPLEのSIRI、又はMICROSOFTのCORTANA)では、それぞれの音声サービスの呼び出しに異なるウェイクワードを使用している。更に、一部の音声サービスでは、ユーザが好きなウェイクワードを選択すること、又はカスタムウェイクワードを設定することができる。複数のサービス(及び/又は異なるウェイクワード)をサポートするために、再生装置は、受信した音声コンテンツに対して、サポートしている各音声サービス用のウェイクワード検出アルゴリズムを並行して実行し得る。例えば、再生装置は、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第1の音声サービス用の少なくとも1つの第1のウェイクワードを検出するために第1の音声サービス用の第1の音声検出アルゴリズムを適用し、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第2の音声サービス用の少なくとも1つの第2のウェイクワードを検出するために第2の音声サービス用の第2の音声検出アルゴリズムを適用し得る。再生装置は、場合によってはそれぞれの音声サービスのために、追加の音声検出アルゴリズムを音声コンテンツに適用してもよい。
【0119】
c.音声コンテンツの再生中、1つ又は複数のNMDにおいて検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化
図8では、ブロック806において、実施800は、音声コンテンツの再生中、1つ又は複数のネットワークマイクロホン装置において検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含む。例えば、再生装置は、音声コンテンツの再生中、再生装置の可聴範囲内にあるNMDにおいて、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。上述したように、再生装置は、通知コンポーネント(例えば、図5の通知コンポーネント506)を含む処理システム500を実施し、通知コンポーネントを用いて、1つ又は複数のNMDにおいて、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。
【0120】
上述したように、NMDのウェイク応答とは、ウェイクワードの検出に対するプログラムされた応答を指す。ウェイク応答が有効な場合、ウェイクワードの検出に応じて、NMDのウェイク応答により、NMDは、マイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取る。NMDは、音声サービスを呼び出して音声コマンドを実行する。しかしながら、ウェイク応答が無効である場合、NMDは、音声コマンドを聞き取らなくてもよく、音声コマンドを実行するために音声サービスを呼び出さない。
【0121】
一部の実施において、再生装置自体がNMDを含む(例えば、NMD700が再生装置内で実施される)。このような実施では、再生装置が音声コンテンツを再生している間、再生装置は、検出された1つ又は複数のウェイクワードに対する、自装置のNMDのウェイク応答を無効にする。例えば、再生装置において実施された処理システム500のインスタンスは、1つ又は複数のウェイクワード及びそれらに対応する再生時間をNMDに通知して、検出された1つ又は複数のウェイクワードに対するNMDのウェイク応答をNMDにおいて無効にする。例えば、処理システムは、例として特に、ウェイク応答を無効にするためにRAM内のフラグを変更することにより、又は内部通信バスを使用してNMDにメッセージを送ることにより、NMDに通知し得る。その後、音声コンテンツの再生中、再生装置のNMDは、マイクロホンを介して、再生装置により再生されている音声コンテンツを記録し、記録済み音声コンテンツ内の1つ又は複数のウェイクワードに対するNMDのそれぞれのウェイク応答を無効にする。
【0122】
実施の例の中で、再生装置は、住居内の全てのネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせ得る。例えば、図1に示した再生装置104は、1つ又は複数のウェイクワードを含む音声コンテンツを再生装置104が再生する時に、NMD132及び134において、それぞれのウェイク応答を無効にさせ得る。更に、再生装置102又は106乃至124の何れかがNMDを実施する場合、再生装置104は、再生装置104が1つ又は複数のウェイクワードを含む音声コンテンツを再生する時に、これらの再生装置において、それぞれのウェイク応答を無効にさせ得る。更に、再生装置104自体がNMDを実施する場合、又は制御装置126又は128がNMDを実施する場合、再生装置104は、再生装置104が音声コンテンツを再生する時に、これらの装置において、それぞれのウェイク応答を無効にさせ得る。
【0123】
又は、再生装置は、住居内のNMDのサブセットにおいて、それぞれのウェイク応答を無効にさせ得る。例えば、再生装置は、再生装置の可聴範囲内のNMDにおいて、それぞれのウェイク応答を無効にさせ得る。又は、再生装置は、再生装置に関連付けられたNMDにおいて、それぞれのウェイク応答を無効にさせ得る。
【0124】
可聴範囲は、任意の適切な技術を用いて判断し得る。一部の実施において、可聴範囲は、再生装置の再生構成に基づいて確立される。例えば、再生装置が1つ又は複数の再生装置との同期再生構成にある場合、これらの再生装置は、当該再生装置の可聴範囲にあると考えられる。したがって、これらの再生装置の何れかがNMDを実施している場合、これらの再生装置のそれぞれのウェイク応答は、無効化される。再生装置は、住居内の再生装置間で同期される1つ又は複数の状態変数に記憶され得る再生装置の構成を参照することにより、このようなNMDが再生装置の可聴範囲内にあることを判断し得る。
【0125】
他の例において、可聴範囲は、設定手順(例えば、較正手順)中に確立される。このような設定手順中に、住居内のNMDに対して、住居内の再生装置により再生される音声信号(例えば、トーン音)を聞き取るように指示することができる。NMDがマイクロホンを介して音声信号を検出できる場合、そのNMDは、可聴範囲内にあると考えられる。住居内の再生装置は、異なる音声で音声信号の再生を繰り返すように指示されて、任意の音声レベルで各再生装置の可聴範囲内にあるNMDの組を決定してもよい。較正手順の例には、住居内のNMDによる検出対象となる音声信号の役割も果たし得る較正音の出力が含まれ得る。
【0126】
例示として、設定手順の例の間、図1の制御装置126は、主寝室ゾーン内の再生装置に、音声信号を出力するように指示し得る(即ち、再生装置122及び124)。殆どの音量レベルでは、この出力は、NMD134により検出される。しかしながら、音量レベルが上がると、他のNMDも出力を検出し始める。例えば、再生装置118及び制御装置128は、それぞれNMDを実施し、比較的高い音量レベルで音声信号出力を検出し得る。そのため、設定手順の例により、NMD134は、特定の音量範囲(例えば、5%乃至100%)において、再生装置122及び124の可聴範囲内にあるものとして確立され、再生装置118及び制御装置128は、特定の更に高い音量範囲(例えば、音量レベル80%超)において、再生装置122及び124の可聴範囲内にあるものと見做される。この手順は、住居内の他の再生装置及びNMDに対して繰り返すことができる。
【0127】
他の例において、NMDは、既知の物理的近接度に基づいて1つ又は複数の再生装置とペアリングし得る。例えば、図1を再び参照すると、NMD134は、主寝室ゾーンのNMDとして再生装置122及び/又は124とペアリングし得る。このようなペアリングは、制御装置126又は128等の制御装置上のユーザインタフェースを介して構成可能である。他の例として、NMD132は、NMD132がキッチンゾーンとペアリングされ、キッチンゾーンがダイニングルーム及び/又はリビングルームゾーンと物理的に近接していることが既知であるという理由から、又はキッチンゾーンがダイニングルーム又はリビングルームゾーンと共にゾーングループを形成しているという理由から、再生装置104、106、108、110、112、及び/又は114とペアリングされてもよい。NMDが1つ又は複数の再生装置とペアリングされている場合、NMDは、これらの再生装置の可聴範囲内にあると考えてもよい。
【0128】
メディア再生システムの再生装置近傍にあるNMDの存在を判断する他の例は、2016年4月14日提出の特許出願第15/098,867号「デフォルト再生装置の指定」、2016年4月14日提出の特許出願第15/098,892号「デフォルト再生装置」、特許出願第15/237,133号「音声応答の再生」、及び2016年8月5日提出の特許出願第15/229,855号「オーディオ再生装置に対するネットワークマイクロホン装置の方向の決定」において説明されている。これらの出願のそれぞれは、出典を明記することによりその開示内容全体を本願明細書の一部とする。
【0129】
上記で示唆したように、場合により、再生装置は、恐らくはゾーングループ、ステレオペア、又はサラウンドサウンド構成において、1つ又は複数の追加の再生装置と同期して音声を再生するように構成される。このような構成では、当該再生装置又は1つ又は複数の追加の再生装置の何れかの可聴範囲内の任意のNMDが、これらの同期した再生装置により再生された音声コンテンツ内のウェイクワードに応答して誤ってトリガされると、再生装置の可聴範囲が拡張される場合がある。そのため、再生装置が現在1つ又は複数の追加の再生装置と共に同期再生構成にある場合、再生装置は、可聴範囲内にあるか又はこれらの追加の再生装置と他の形で関連付けられているNMDのそれぞれのウェイク応答を無効にし得る。
【0130】
一部の実施において、再生装置は、受信した音声コンテンツの再生中に、ネットワークインタフェースを介して、1つ又は複数のNMDに対して1つ又は複数それぞれのウェイク応答を無効にさせる命令を送信することにより、1つ又は複数のNMDにおいて、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。上述したように、メディア再生システムの様々な装置(例えば、制御装置、再生装置、及びNMD)は、ローカルエリアネットワークを介して(例えば、図1の有線又は無線ネットワークルータ130により形成されたローカルエリアネットワークを介して)相互接続され、住居内の装置間での命令及び他のメッセージのやりとりを許可してもよい。メディア再生システムのこれらの装置は、それぞれシステム内の他の装置からの特定の命令に応答するようにプログラムし得る。
【0131】
一部の例において、このような命令は、ウェイクワードが再生装置により再生される際に、1つ又は複数のNMDがウェイクワードを検出することを防止する。例えば、再生装置は、1つ又は複数の期間(即ち、恐らくはタイムスタンプにより記録された、ウェイクワードが再生装置により再生される時間に対応する期間)に亘り、ウェイクワードの聞き取りを停止する(例えば、記録された音声の処理を停止する)ように1つ又は複数のNMDに指示し得る。又は、再生装置は、それぞれのマイクロホンを一時的に(例えば、上述した期間中)無効にするように1つ又は複数のNMDに指示し得る。更に他の例として、再生装置は、NMDがウェイクワードを検出しないように、再生装置がマイクロホンアレイを使用する方向にリスニングNULLを作成するように1つ又は複数のNMDに指示し得る。他の例も可能である。例えば、再生装置がウェイクワードを含む音声コンテンツの部分を再生する直前に、再生装置は、ウェイクワードの検出を無効にするように1つ又は複数のNMDに指示する第1のメッセージを送信し得る。その後、再生装置がウェイクワードを含む音声コンテンツの部分を再生した直後に、再生装置は、ウェイクワードの検出を有効にするように1つ又は複数のNMDに指示する第2のメッセージを送信し得る。
【0132】
例示として、図9は、再生装置が、1つ又は複数のNMDにおいて、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせるために、1つ又は複数のNMDに送信し得るメッセージ900の例を示す。メッセージ900は、IEEE802.3の仕様(イーサネットパケット及びフレームの構造を指定)等の仕様に準拠したものにし得る。図示したように、メッセージ900は、ネットワーク上の装置(例えば、特にNMD、再生装置、及び/又は制御装置)が受信者クロックを同期させるのに用い得る反転ビットのパターンを含むプリアンブル902を含む。メッセージ900は、更に、プリアンブルの終わり(イーサネットパケットの第1のフィールド)とメッセージのイーサネットフレーム部分の始まりとを示すフレームデリミタの開始(SFD)904を含む。メッセージ900は、更に、宛先(例えば、NMD)及び送信元(例えば、再生装置)を示す宛先アドレス906及び送信元アドレス908を含む。メッセージ900は、更に、ペイロード910を含む。ペイロード910は、NMD(即ち、宛先アドレス906が示すNMD)に対して、1つ又は複数のウェイクワードに対するウェイク応答を無効にさせる命令を含む。メッセージ900は、更に、受信したフレーム内の破損データの検出を可能にする巡回冗長検査値であるフレームチェックシーケンス(FCS)912を含む。
【0133】
命令は、2つ以上のイーサネットパケット(例えば、2つ以上のメッセージ900)を用いて送信し得る。例えば、1つのNMDへの命令は、メッセージ900の2つ以上のインスタンスのペイロードにわたって分割し得る。更に、複数のNMDへの命令は、それぞれメッセージ900の1つ又は複数の各インスタンスにおいて送信され得る。他の例も可能である。
【0134】
例として、図10A、10B、10C、10Dは、1つ又は複数のメッセージのペイロード(例えば、メッセージ900のペイロード910)においてNMDに送信される、命令1000A、1000B、100C、100Dの例を示す。図10Aに示したように、命令1000Aは、タイムスタンプ1004A、1006A、1008A、1010Aにより定義される特定の期間中、NMDにウェイク応答を無効にさせるコマンド1002Aを含む。一部の例において、タイムスタンプ1004A及び1006Aは、再生装置が第1のウェイクワードを含む音声コンテンツの部分を再生する期間の開始及び終了をそれぞれ指定する。同様に、タイムスタンプ1008A及び1010Aは、再生装置が第2のウェイクワードを含む音声コンテンツの部分を再生する期間の開始及び終了をそれぞれ指定し得る。命令1000Aは、追加の期間を定義するタイムスタンプを更に含み得る。又は、スタンプ1004A、1006A、1008A、1010Aは、例として特に、音声の特定のフレームの再生時間、送信又は受信装置のシステムクロックに対応する時間、又は、NMD及び再生装置の両方が知るグローバルクロックに対応する時間に対応し得る。
【0135】
図10Bは、座標1004B及び1006Bにより定義される特定の方向でNMDにリスニングNULLを作成させるコマンド1002Bを含む命令100Bを示す。座標1004B及び1006Bは、NMDに対するそれぞれの再生装置の方向を示す。例えば、図1を再度参照すると、命令1000Bのインスタンスの例は、NMD134に対する再生装置122及び124の方向を示す座標1004B及び1006Bを含み得る。この例では、座標1004B及び1006Bは、再生装置122がNMD134に対して0°(即ち、NMD134の前)であり、再生装置122がNMD134に対して左45°であることを、NMD134に示し得る。住居内のそれぞれの装置の相対的な位置は、セットアップ又は構成手順により事前に確立することができる。
【0136】
図10C及び10Dは、それぞれ命令100C及び100Dを示す。命令1000Cは、受信するNMDにウェイクワードの検出を無効にさせるコマンド1002Cを含む。再生装置は、ウェイクワードを含む音声コンテンツの部分を再生する直前に、このような命令を送信し得る。命令100Dは、受信するNMDにウェイクワードの検出を有効にさせるコマンド1002Dを含む。再生装置は、ウェイクワードを含む音声コンテンツの部分を再生した直後に、このような命令を送信し得る。
【0137】
更に他の例において、1つ又は複数のNMDは、ウェイクワードを検出し得るが、再生装置は、1つ又は複数のNMDに、そのウェイク応答を抑制するように指示する。例えば、再生装置は、特定の期間中、ウェイクワードを無視するように、又は特定の期間中、全ての音声を無視するように、1つ又は複数のNMDに指示し得る。他の例も可能である。
【0138】
他の例として、再生装置は、音声コンテンツ(又は音声コンテンツの一部)内のウェイクワードの数をカウントし得る。例えば、再生装置は、音声コンテンツの例において3つのウェイクワードを検出する場合がある。上述したように、このようなインスタンスは、異なる音声サービスの異なるウェイクワードを含め、ウェイクワードの任意の組み合わせを含み得る。次に、再生装置は、カウントと等しい数のウェイクワードを検出するまでウェイクワードを無視するように(例えば、次の3つのウェイクワードを無視するように)、近傍の1つ又は複数のNMDに指示し得る。
【0139】
又は、再生装置は、音声コンテンツを動的に修正して音声コンテンツのセグメントに音響マーカを組み込むことにより、1つ又は複数のNMDにおいて、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。例えば、再生装置は、記録済み音声コンテンツに音声トーン又は他のマーカを挿入(例えば、ミックス)し、音声コンテンツ内で検出されるウェイクワードを指定し得る。次に、ウェイクワードに関連する音声マーカを検出した場合(ウェイクワードの直前又はウェイクワードと同時に)、ウェイクワードのインスタンスを無視するように、NMDに指示すること又はNMDを事前にプログラムすることができる。このような技術を使用することで、再生装置の可聴範囲内にあるNMDを事前に決定又は推定する必要がなくなる。寧ろ、音響マーカが音声コンテンツと共に再生されるため、音声コンテンツを検出する可聴範囲内にある(そのため、このコンテンツにより誤ってトリガされる恐れがある)NMDは、音響マーカを検出する範囲内にもあり、これに反応して、ウェイク応答を無効にする。複数のNMDが再生装置の可聴範囲内にある場合、ウェイクワードを検出する各NMDは、関連する音響マーカを検出したことを受け、これに反応してウェイクワードに対するウェイク応答を無効にする。
【0140】
d.音声コンテンツを再生
図8では、ブロック808において、実施800は、1つ又は複数のスピーカを介して音声コンテンツを再生することを含む。再生装置は、1つ又は複数のオーディオトランスデューサ(例えば、スピーカ)を介して音声コンテンツを再生する。一部の例において、スピーカは、同じハウジング内で再生装置と共に配置される。又は、再生装置は、スピーカジャックを介して、増幅された音声を1つ又は複数の別個のパッシブスピーカに提供し得る。他の例として、再生装置は、ラインレベルの音声をアンプに提供することにより音声コンテンツを再生してもよく、アンプは、その後、スピーカジャックを介して1つ又は複数のパッシブスピーカに増幅された音声を提供する。
【0141】
上述したように、一部の例において、再生装置は、1つ又は複数の追加の再生装置との同期再生構成となるように構成される。このような場合、音声コンテンツを再生することは、1つ又は複数の追加の再生装置と同期して音声コンテンツを再生することを含む。一部の再生構成(例えば、ステレオペア又はサラウンド)において、再生構成内の各再生装置は、再生構成内の他の再生装置と同期して音声コンテンツの一部を再生する。
【0142】
一部の実施において、再生装置は、再生のために1つ又は複数の追加の再生装置に音声コンテンツを提供して、その音声コンテンツの当該再生装置との同期再生を容易にする。このような実施形態において、再生装置は、再生装置及び1つ又は複数の追加の再生装置を含む同期グループのグループコーディネータとして動作し得る。グループコーディネータとして、再生装置は、タイミング情報を1つ又は複数の追加の再生装置に追加的に提供し、同期グループスケジューリング同期再生を容易にし得る。再生装置は、ネットワークインタフェースを介して音声コンテンツ及び/又はタイミング情報を提供する。
【0143】
上述したように、場合により、再生装置は、音声コンテンツを修正して音響マーカを含める。このような実施形態では、再生装置が同期グループ内にある場合、再生装置は、修正された音声コンテンツを同期グループの他の再生装置に提供し得る。同期グループ内の各再生装置は、修正された音声コンテンツを、グループ内の他の再生装置と同期して再生し得る。
【0144】
例示として、一例において、再生装置114及び122及び124は、音声コンテンツを同期して再生するように構成されたゾーングループ(即ち、キッチン+主寝室ゾーングループ)内にある。ゾーングループによる再生に指定された音声コンテンツ内のウェイクワードを検出した後、再生装置114は、音声コンテンツ内のウェイクワードを指定する音響マーカを含めるように音声コンテンツを修正し得る。その後、再生装置114は、修正された音声コンテンツの同期再生を容易にするため、修正された音声コンテンツを再生装置122及び/又は124に提供し得る。
【0145】
IV.ウェイク応答を無効にするNMDの技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を無効にすることを含み得る。図11は、NMDが1つ又は複数の検出ウェイクワードに対するウェイク応答を無効にする実施1100の例を示す。
【0146】
a.再生用の音声コンテンツを表すデータを受信
ブロック1102において、実施1100は、記録済み音声コンテンツを表すデータを受信することを含む。例えば、NMDは、再生装置により再生するための音声コンテンツを受信し得る。NMDの例には、図1に示したNMD132及び134の何れかが含まれ、例えば、図7のNMD700として実施される。再生装置の例には、図1に示した再生装置102、104、106、108、110、112、114、116、118、120、112、124の何れかが含まれ、例えば、図2の再生装置200により表したように実施し得る。NMDの他の例には、これらの再生装置及び/又は制御装置126及び128の何れかを含めてよく、これらの装置は、再生又は制御装置としての機能に加えてNMDを実施し得る。NMDは、処理システム(例えば、処理システム500)を含み、オーディオ音声入力/出力コンポーネント(図5のオーディオ音声入力/出力コンポーネント502等)を使用して音声コンテンツを表すデータを受信し得る。
【0147】
NMDは、例として特に有線若しくは無線ネットワークインタフェース又はアナログ若しくはデジタルラインインインタフェースである入力インタフェースを介して、音声コンテンツを受信し得る。例えば、NMDは、可能なものとして特に、WAN、LAN、PAN等の1種類以上のネットワーク経由で、ネットワークインタフェースを介してネットワークソースから音声コンテンツを受信し得る。
【0148】
NMDは、ローカル又はリモート音源から音声コンテンツを表すデータを受信し得る。例えば、NMDは、ローカルメディアサーバ又はローカルエリアネットワーク上の他の装置から、媒体(CD、DVD、Blu−Ray、フラッシュメモリ、ハードドライブ等)から、又はNMD自体のデータストレージから、音声コンテンツを受信し得る。媒体は、NMDにより、又はNMDと通信する他の装置(例えば、ローカルエリアネットワーク経由でネットワークインタフェースを介してNMDに接続された再生装置)により読み取られる。
【0149】
NMDは、恐らくは1つ又は複数のクラウドサーバから、音声コンテンツストリームとして音声コンテンツを受信し得る。例えば、NMDは、URLからネットワークインタフェースを介して音声コンテンツストリームを取得し得る。又は、NMDは、NMD上又はNMDと通信する他の装置(例えば、ローカルエリアネットワーク経由でネットワークインタフェースを介してNMDに接続された再生装置)上のラインインインタフェースから、音声コンテンツを受信し得る。
【0150】
場合により、NMDは、恐らくはアナログラインインインタフェースを介して、アナログ形式で音声コンテンツを受信し得る。このような場合、NMDは、(例えば、ソフトウェア又はハードウェアに基づくアナログ/デジタル変換器を用いて)アナログ音声を処理に適した形式にデジタル化する。又は、NMDと通信する装置(例えば、再生装置)は、アナログ形式で音声コンテンツを受信し、音声コンテンツをデジタル化し、音声コンテンツを表すデータを再生装置に送信し得る。
【0151】
上述したように、受信した音声コンテンツは、再生装置による再生用に設計されている。例えば、制御装置(図1の制御装置126又は128等)は、恐らくはそのコンテンツを再生装置の再生キューに入れることにより、特定の音声コンテンツを再生するように再生装置に指示し得る。音声トラック又はその他の音声コンテンツを、このようなキューに入れることにより、恐らくは制御装置又は再生装置自体における制御(例えば、再生/一時停止ボタン)を介して再生が開始された後、再生装置は、音声コンテンツを取得する。NMDは、このキューにアクセスし得る(例えば、キューの内容は、LAN又は他のネットワークを介してNMDと共有し得る)。このようなアクセスがあれば、NMDは、ローカル又はリモート音源から音声コンテンツを取得し得る。音声コンテンツの取得は、例として特に、ネットワークインタフェースを介して音声コンテンツストリームをNMDへ送ることにより、又はアナログ若しくはデジタルラインインインタフェースを介して音声コンテンツを再生装置へ送ることにより行われる。
【0152】
場合により、受信した音声コンテンツは、2つ以上の再生装置による再生用に設計されている。例えば、2つ以上の再生装置は、同期グループ(ゾーングループ、ステレオペア、又はサラウンドサウンド構成等)となるように構成可能である。特定の音声コンテンツは、この同期グループによる再生用に指定し得る。
【0153】
例において、処理システム500は、受信した音声コンテンツの少なくとも一部をメモリに記憶し得る。例えば、処理システム500は、受信した音声コンテンツを先入れ先出しバッファ(例えば、循環バッファ)にバッファリングし得る。このような実施において、受信した音声の一部は、受信時にバッファに記憶され、受信した音声コンテンツにウェイクワードが含まれるかを再生装置が判断できるように処理されると削除される。
【0154】
b.音声コンテンツにおいて1つ又は複数のウェイクワードを検出
図11では、ブロック1104において、実施1100は、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて1つ又は複数のウェイクワードを検出することを含む。例えば、NMDは、音声コンテンツを表す受信データを分析して、何れかの音声サービス用のウェイクワードが、音声コンテンツの再生時に聞き取り可能に再生されるように音声コンテンツ内で表されているかを判断し得る。上述したように、一部の実施において、NMDは、処理システム(例えば、処理システム500)を含み、ウェイクワード検出コンポーネント(図5のウェイクワード検出コンポーネント504等)を用いて音声コンテンツ内のウェイクワードを検出され得る。
【0155】
NMDは、1つ又は複数のウェイクワード検出アルゴリズムを用いて、受信した音声コンテンツを分析し得る。ウェイクワード検出アルゴリズムの例は、音声記録を入力として受け取り、その記録にウェイクワードが存在するかを示すインジケーションを出力として提供する。多くのファーストパーティ及びサードパーティのウェイクワード検出アルゴリズムが公知であり、市販されている。例えば、音声サービスの運営者は、そのアルゴリズムのサードパーティの装置での使用を可能にし得る。又は、アルゴリズムは、特定のウェイクワードを検出するようにトレーニングされてもよい。
【0156】
通常の動作において、NMDは、住居又は他の環境でマイクロホンを介して音(例えば、人間の声)を聞き取り、その音の音声記録にウェイクワード検出アルゴリズムを実行して、音にウェイクワードが含まれていたかを検出する。この処理において、NMDは、人間の声で話されたウェイクワードを検出するためにNMDにより使用されるものと同じ又は類似のアルゴリズムを使用し得る。但し、アルゴリズムへの入力は、マイクロホンを介して記録された音声ではなく、再生装置による再生用の音声コンテンツとなる。このようにして、NMDは、音声コンテンツがNMDの可聴範囲内で再生されたかを検出する際と同じ又は類似するウェイクワードを、音声コンテンツにおいて検出し得る。しかしながら、NMDは、通常、変化する環境条件(例えば、場合により騒音の多い住居)において幅広い人間の声で話されたマイクロホン録音音声に対してウェイクワード検出アルゴリズムを実行することを考えると、このような変化の可能性がない受信音声コンテンツに対してウェイクワードアルゴリズムを動作させることは、ウェイクワードの検出において更に効果的となり得る。
【0157】
分析中、NMDは、受信した音声コンテンツ内で各ウェイクワードが発生する場所を判断し得る。ウェイクワードを含むと判断された音声コンテンツの部分を特定した後、NMDは、1つ又は複数のタイムスタンプ(例えば、ウェイクワードの開始時間を示すタイムスタンプ、及び恐らくはウェイクワードの停止時間を示す別のタイムスタンプ)を使用して、これらの音声コンテンツの部分を記録し得る。最終的に、これらのタイムスタンプを使用して、各タイムスタンプに対応するウェイクワードに対するNMDのウェイク応答を無効にし得る。
【0158】
一例において、NMDは、受信した音声コンテンツを既知の長さのセグメントに分割し得る。次に、NMDは、ウェイクワードが検出されたセグメントを特定することにより、ウェイクワードを含む音声コンテンツの部分、即ちセグメント、を特定する。例えば、各セグメントの長さが4秒であり、ウェイクワードが第6のセグメントで検出された場合、ウェイクワードは、記録の20乃至24秒の間に位置することになる。一部の例において、NMDは、ウェイクワードが分割され、認識不能な部分(例えば、「Hey」を表すセクションと、「Aelxa」を表す別のセグメント)となることを避けるために、音声記録を重複するセグメントに分離してもよい。音声記録内のウェイクワードの位置を決定する他の技術を利用することもできる。
【0159】
一部の例において、NMDは、受信した音声コンテンツに対して複数のウェイクワード検出アルゴリズムを同時に実行する。上述したように、様々な音声サービス(例えば、AMAZONのALEXA、APPLEのSIRI、又はMICROSOFTのCORTANA)では、それぞれの音声サービスの呼び出しに異なるウェイクワードを使用している。更に、各音声サービスは、複数のウェイクワード及び/又はカスタムウェイクワードをサポートし得る。複数の音声サービスをサポートするために、NMDは、音声コンテンツ内で表される可能性のある異なるウェイクワードを検出するように、受信した音声コンテンツに対して、サポートしている各音声サービス用のウェイクワード検出アルゴリズムを並行して実行し得る。例えば、NMDは、第1の音声サービス用の少なくとも1つの第1のウェイクワードを検出するために第1の音声サービス用の第1の音声検出アルゴリズムを適用し、第2の音声サービス用の少なくとも1つの第2のウェイクワードを検出するために第2の音声サービス用の第2の音声検出アルゴリズムを適用し得る。音声コンテンツが再生装置により再生される前に、NMDは、恐らくはそれぞれの音声サービスのために、追加の音声検出アルゴリズムを音声コンテンツに適用してもよい。
【0160】
c.音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するウェイク応答を無効化
図11では、ブロック1106において、実施1100は、音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するウェイク応答を無効にすることを含む。例えば、NMDは、音声コンテンツが再生装置により聞き取り可能に再生される時に、音声コンテンツにおいて検出された1つ又は複数のウェイクワードに対するウェイク応答を無効にし得る。
【0161】
上述したように、NMDのウェイク応答とは、ウェイクワードの検出に対するプログラムされた応答を指す。ウェイク応答が有効な場合、ウェイクワードの検出に応じて、NMDのウェイク応答により、NMDは、マイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取る。NMDは、音声サービスを呼び出して音声コマンドを実行する。しかしながら、ウェイク応答が無効である場合、NMDは、音声コマンドを聞き取らなくてもよく、音声コマンドを実行するために音声サービスを呼び出さない。
【0162】
一部の実施において、NMDは、ウェイクワードが再生装置により再生される際にNMDがウェイクワードを検出しないようにすることで、ウェイク応答を無効にする。例えば、NMDは、1つ又は複数の期間(即ち、恐らくはタイムスタンプにより記録された、ウェイクワードが再生装置により再生される時間に対応する期間)に亘り、ウェイクワードの聞き取りを停止し得る(例えば、記録された音声の処理を停止する)。又は、NMDは、マイクロホンを一時的に(例えば、上述した期間中)無効にする。更に他の例として、NMDは、NMDがウェイクワードを検出しないように、再生装置がマイクロホンアレイを使用する方向にリスニングNULLを作成し得る。他の例も可能である。
【0163】
更に他の例では、NMDは、ウェイクワードが再生装置により再生される際にウェイクワードを検出するが、検出されたウェイクワードに対するウェイク応答を抑制する。例えば、NMDは、特定の期間中、ウェイクワードを無視してよく、又は特定の期間中、全ての音声を無視してもよい。他の例も可能である。
【0164】
他の例として、NMDは、音声コンテンツ(又は音声コンテンツの一部)内のウェイクワードの数をカウントし得る。例えば、NMDは、音声コンテンツの例において3つのウェイクワードを検出する場合がある。上述したように、このようなインスタンスは、異なる音声サービスの異なるウェイクワードを含め、ウェイクワードの任意の組み合わせを含み得る。次に、NMDは、カウントと等しい数のウェイクワードを検出するまで(例えば、次の3つのウェイクワードを無視することで)、ウェイク応答を無効にし得る。
【0165】
又は、NMDは、音声コンテンツを動的に修正して音声コンテンツのセグメントに音響マーカを組み込むことにより、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にし得る。例えば、NMDは、記録済み音声コンテンツに音声トーン又は他のマーカを挿入(例えば、ミックス)し、音声コンテンツ内で検出されるウェイクワードを指定し得る。このような音声マーカの検出に応じて、ウェイク応答を無効にするようにNMDがプログラムされている場合、その後、NMDは、再生装置により再生される音声コンテンツ内のウェイクワードを検出した際に、ウェイク応答を自動的に抑制する。
【0166】
一部の例において、NMDは、1つ又は複数の追加のマイクロホン装置において、ウェイクワードが再生装置により再生された時に、検出されたウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。例えば、図1を参照すると、NMD132は、NMD134において、そのウェイク応答を無効にさせ得る。更に、住居内の再生装置及び/又は制御装置の何れかがNMDを実施してもよく、NMD132は、これらの再生装置の何れかのウェイク応答を無効にしてもよい。
【0167】
NMDは、住居内の特定のNMDの組を無効にし得る。場合により、ウェイク応答が無効にされたNMDの組は、メディア再生システムのゾーン又はゾーングループの構成に基づくものとなる。例えば、NMDが特定のゾーンに関連付けられている場合(例えば、NMD132がキッチンゾーンに関連付けられている場合)、NMDは、同じゾーンに関連付けられている任意のNMDのそれぞれのウェイク応答を無効にさせ得る。これらのNMDは、NMDを実施する様々な装置(例えば、再生装置)と、専用のNMDとを含むことができる。更に、NMDが関連付けられた特定のゾーンに、ゾーングループ内の1つ又は複数の追加ゾーンが加わった場合、NMDは、更に1つ又は複数の追加ゾーンに関連付けられている任意のNMDのそれぞれのウェイク応答を無効にさせ得る。上記のように、NMDとメディア再生システムのゾーンとの間に関連性が形成され、恐らくは住居の特定の部屋(例えば、キッチンゾーン)での協働を容易にし得る。
【0168】
又は、ウェイク応答が無効になっている特定の追加NMDは、ウェイクワードを含む音声コンテンツを再生している再生装置の可聴範囲に基づくものとなる。可聴範囲は、任意の適切な技術を用いて判断し得る。一部の実施では、可聴範囲は、上記のように、NMDと1つ又は複数のゾーンとの関連性に基づいて確立される。他の例において、可聴範囲は、第III節で説明したように、設定手順(例えば、較正手順)中に確立される。ゾーン構成及び/又は設定手順により確立された可聴範囲は、1つ又は複数の状態変数として記憶し、ネットワーク(例えば、図1に示した住居内のルータ130により確立されたLAN)内の装置間で共有することができる。このような情報へのアクセスを有することにより、NMDは、音声コンテンツを再生する再生装置の可聴範囲内にあるNMDの組を決定し、これらのNMDの組のそれぞれのウェイク応答を無効にすることができる。
【0169】
例示として、一例において、図1のNMD132は、キッチンゾーン内の再生装置114による再生用に設計された特定の音声コンテンツ内で1つ又は複数のウェイクワードを検出する。これに応じて、NMD132は、これらのウェイクワードに対するウェイク応答を無効にする。再生装置114もNMDであるため、NMD132は、再生装置114のウェイク応答を無効にする。更に、キッチンゾーンは、ダイニングルームゾーンと共にゾーングループ内にあるため、NMD132は、同じくNMDである再生装置112のウェイク応答も無効にし、これにより、音声コンテンツがキッチンゾーンと同期してダイニングルームゾーンで再生された際に、再生装置112のNMDは、誤ってトリガされなくなる。
【0170】
他の例において、図1のNMD134は、主寝室ゾーン内の再生装置122及び124による再生用に設計された特定の音声コンテンツ内の1つ又は複数のウェイクワードを検出する。これに応じて、NMD134は、これらのウェイクワードに対するウェイク応答を無効にする。再生装置116は、NMDを実施しており、現在の音量レベルで再生装置122及び124の可聴範囲内にあることが事前に確定しているため、NMD134は、再生装置116のウェイク応答も無効にする。NMD134は、ルータ130により形成されたLANを介してNMD134と共有される1つ又は複数の状態変数から、現在の音量レベルで再生装置116が再生装置122及び124の可聴範囲内にあることを認識している。このような状態変数は、再生装置122及び124の現在の再生構成(例えば、ステレオペア)、その現在の音量レベル、及びこの再生構成及びこの音量レベルにおいて、どのNMDが、これらの再生装置の可聴範囲内にあると判断されているか等、メディア再生システム100の様々な側面の状況をNMD134に対して示す。
【0171】
NMDは、1つ又は複数の追加のNMDにおいて、任意の適切な技術を用いて、それぞれのウェイク応答を無効にさせ得る。NMDは、通知コンポーネント(例えば、図5の通知コンポーネント506)を含む処理システム500を実施し、通知コンポーネントを用いて、1つ又は複数のNMDの組において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。
【0172】
一部の実施において、NMDは、受信した音声コンテンツの再生中に、ネットワークインタフェースを介して、1つ又は複数のNMDに対して1つ又は複数それぞれのウェイク応答を無効にさせる命令を送信することにより、1つ又は複数の追加のNMDにおいて、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。上述したように、メディア再生システムの様々な装置(例えば、制御装置、再生装置、及びNMD)は、ローカルエリアネットワークを介して(例えば、図1の有線又は無線ネットワークルータ130により形成されたローカルエリアネットワークを介して)相互接続して、住居内の装置間での命令及び他のメッセージのやりとりを許可し得る。メディア再生システムのこれらの装置は、それぞれシステム内の他の装置からの特定の命令に応答するようにプログラムされ得る。メッセージ及び命令の例は、図9、10A、10B、10C、10Dに関連して上述している。
【0173】
又は、NMDは、音声コンテンツを修正して音声コンテンツのセグメントに音響マーカを組み込むことにより、1つ又は複数のNMDにおいて、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる。このような技術を使用することで、再生装置の可聴範囲内にあるNMDを事前に決定又は推定する必要がなくなる。寧ろ、音響マーカが音声コンテンツと共に再生されるため、音声コンテンツを検出する可聴範囲内にある(そのため、このコンテンツにより誤ってトリガされる恐れがある)NMDは、音響マーカを検出する範囲内にもあり、これに反応して、ウェイク応答を無効にする。複数のNMDがNMDの可聴範囲内にある場合、ウェイクワードを検出する各NMDは、関連する音響マーカを検出したことを受け、これに反応してウェイクワードに対するウェイク応答を無効にする。
【0174】
NMDが音声コンテンツを修正するような一部の実施において、NMDは、再生装置に音声コンテンツを提供する。このような場合、NMDは、音声コンテンツのソースと再生装置との間の媒介として動作する。再生装置は、受信した音声コンテンツを再生するように構成可能であるため、音声コンテンツを再生装置に送信することにより、再生装置は、音声コンテンツを再生し得る。NMDは、ネットワークインタフェース等の任意の適切な通信インタフェースを介して、音声コンテンツを再生装置に提供し得る。複数の再生装置が音声コンテンツを再生するように構成されている場合、NMDは、全ての再生装置に音声コンテンツを提供してもよい。又は、NMDは、音声コンテンツを再生装置のサブセット(例えば、グループコーディネータ)に送信してよく、再生装置のサブセットは、その後、音声コンテンツをグループ内の他の再生装置に、恐らくは同期再生をスケジュールするタイミング情報と共に配信する。
【0175】
例示として、一例において、再生装置112及び124は、音声コンテンツを同期して再生するように構成されたゾーングループ(即ち、キッチン+ダイニングルームゾーングループ)内にある。ゾーングループによる再生に指定された音声コンテンツ内のウェイクワードを検出した後、NMD132は、音声コンテンツ内のウェイクワードを指定する音響マーカを含めるように音声コンテンツを修正し得る。その後、再生装置132は、修正された音声コンテンツの同期再生を容易にするため、修正された音声コンテンツを再生装置122及び/又は124に提供し得る。
【0176】
d.再生された音声コンテンツを検出
ブロック1108において、実施1100は、マイクロホンを介して、再生された音声コンテンツを検出することを含む。例えば、再生装置が1つ又は複数の検出されたウェイクワードを含む音声コンテンツを再生している間に、NMDは、マイクロホンを介して、再生された音声コンテンツを検出し得る。NMDのウェイク応答が有効になっている構成において、ウェイクワードを含む再生音声コンテンツの部分を検出することで、NMDのウェイク応答がトリガされる。しかしながら、NMDは音声コンテンツ内の1つ又は複数のウェイクワードに対するウェイク応答を無効にしているため、ウェイク応答は、トリガされない。
【0177】
一部の実施において、再生装置は、NMDを実施する。このような例において、再生装置は、1つ又は複数のスピーカを介して、受信した音声コンテンツを再生し得る。一部の例において、スピーカは、同じハウジング内でNMDと共に配置される。又は、再生装置は、スピーカジャックを介して、増幅された音声を1つ又は複数の別個のパッシブスピーカに提供し得る。他の例として、再生装置は、ラインレベルの音声をアンプに提供することにより音声コンテンツを再生してもよく、アンプは、その後、スピーカジャックを介して1つ又は複数のパッシブスピーカに増幅された音声を提供する。
【0178】
一部の例において、NMDは、1つ又は複数の追加の再生装置と共に同期再生構成となるように構成される。このような場合、音声コンテンツを再生することは、1つ又は複数の追加の再生装置と同期して音声コンテンツを再生することを含む。一部の再生構成(例えば、ステレオペア又はサラウンド)において、再生構成内の各再生装置は、再生構成内の他の再生装置と同期して音声コンテンツの一部を再生する。
【0179】
上述したように、一部の実施において、NMDは、再生のために1つ又は複数の再生装置に音声コンテンツを提供する。一部の例において、NMDは、音声コンテンツを1つ又は複数の再生装置に提供して、その音声コンテンツのNMDとの同期再生を容易にする。このような実施形態において、NMDは、NMD及び1つ又は複数の追加の再生装置を含む同期グループのグループコーディネータとして動作し得る。グループコーディネータとして、NMDは、タイミング情報を1つ又は複数の追加の再生装置に追加的に提供し、同期グループスケジューリング同期再生を容易にし得る。再生装置は、ネットワークインタフェースを介して音声コンテンツ及び/又はタイミング情報を提供する。
【0180】
V.ウェイク応答を無効にするための計算システムの技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を無効にすることを含み得る。図12は、計算システムが音声コンテンツ内の1つ又は複数のウェイクワードに対する1つ又は複数のNMDのウェイク応答を無効にする実施1200の例を示す。様々な実施形態において、計算システムはクラウドサーバにし得る。又は、計算システムは、ローカル処理装置(例えば、メディア再生システムと同じLANに接続された装置)にし得る。計算システムは、再生装置又はNMDを実施し得る。
【0181】
a.記録済み音声コンテンツを表すデータを受信
ブロック1202において、実施1200は、記録済み音声コンテンツを表すデータを受信することを含む。例えば、計算システムは、再生装置により再生するための音声コンテンツを受信し得る。再生装置の例には、図1に示した再生装置102、104、106、108、110、112、114、116、118、120、112、124の何れかが含まれ、例えば、図2の再生装置200に示したように実施し得る。処理システムは、処理システム(例えば、処理システム500)を含み、オーディオ音声入力/出力コンポーネント(図5のオーディオ音声入力/出力コンポーネント502等)を用いて音声コンテンツを表すデータを受信し得る。計算システムは、第II、III、及びIV節で説明した技術等、任意の適切な技術を用いて音声コンテンツを受信し得る。
【0182】
b.音声コンテンツにおいて1つ又は複数のウェイクワードを検出
図12では、ブロック1204において、実施1200は、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて1つ又は複数のウェイクワードを検出することを含む。例えば、計算システムは、音声コンテンツを表す受信データを分析して、何れかの音声サービス用のウェイクワードが、音声コンテンツの再生時に聞き取り可能に再生されるように音声コンテンツ内で表されているかを判断する。上述したように、一部の実施において、計算システムは、処理システム(例えば、処理システム500)を含み、ウェイクワード検出コンポーネント(図5のウェイクワード検出コンポーネント504等)を用いて音声コンテンツ内のウェイクワードを検出し得る。計算システムは、第II、III、及びIV節で説明した技術等、任意の適切な技術を用いてウェイクワードを検出し得る。
【0183】
c.音声コンテンツの再生中、1つ又は複数のNMDにおいて検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効化
図12では、ブロック1206において、実施1200は、音声コンテンツの再生中、1つ又は複数のネットワークマイクロホン装置において、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含む。例えば、計算システムは、再生装置の可聴範囲内にあるNMDにおいて、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。上述したように、計算システムは、通知コンポーネント(例えば、図5の通知コンポーネント506)を含む処理システム500を実施し、通知コンポーネントを用いて、1つ又は複数のNMDにおいて、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。計算システムは、第II、III、及びIV節で説明した技術等、任意の適切な技術を用いて、音声コンテンツの再生中、1つ又は複数のNMDにおいて、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせ得る。
【0184】
VI.ウェイク応答を抑制する技術の例
上述したように、本明細書に記載の実施形態は、ウェイク応答を抑制することを含み得る。図13は、NMDがウェイク応答を無効にする実施1300の例を示す。
【0185】
a.1つ又は複数のウェイクワードに対するNMDのウェイク応答を無効にする命令を受信
ブロック1302において、実施1300は、1つ又は複数のウェイクワードに対するNMDのウェイク応答を無効にする命令を受信することを含む。例えば、NMD(例えば、NMD132)は、別のNMD、再生装置、計算システム、又は他の任意の装置から命令を受信し得る。この命令により、NMDは、1つ又は複数の再生装置による再生に指定された特定の音声コンテンツ内で表される1つ又は複数のウェイクワードに対するウェイク応答を無効にする。
【0186】
一部の実施において、1つ又は複数のウェイクワードに対するNMDのウェイク応答を無効にするために受信される命令は、暗黙的となる。例えば、例として特に、恐らくはウェイクワードの聞き取りを停止するようにNMDに指示すること、NMDのマイクロホンアレイを一定期間無効にすること、又は再生装置の方向にリスニングNULLを作成することにより、再生装置により再生される際にウェイクワードを検出しないようにNMDに指示することができる。又は、NMDは、ウェイクワードを検出するが、恐らくは特定の期間中、ウェイクワードを無視すること、又は特定の期間中、記録された音声を全て無視することにより、ウェイクワードの検出に応じて音声サービスを呼び出すプログラム済みウェイク応答を抑制するように指示され得る。第II、III、及びIV節で説明したような任意の適切な命令を用いてNMDに指示することができる。
【0187】
又は、受信される命令は、暗黙的となる。例えば、上記のように、音声コンテンツは、ウェイクワードを指定する音響マーカを含むように修正される。このような実施において、受信される命令は、音響マーカの形態であってもよい。場合により、受信される命令は、音響マーカが検出された際にNMDのウェイク応答を無効にする命令であってもよい。
【0188】
b.1つ又は複数の再生装置により再生されている音声コンテンツを検出
図13では、ブロック1304において、実施1300は、1つ又は複数の再生装置により再生されている音声コンテンツを検出することを含む。例えば、NMDは、マイクロホンを介して、単一の再生装置により再生されている音声コンテンツを検出し得る。又は、NMDは、2つ以上の装置により(例えば同期して)再生されている音声コンテンツを検出し得る。
【0189】
c.検出された音声コンテンツが1つ又は複数のウェイクワードを含むと判断
図13では、ブロック1306において、実施1300は、検出された音声コンテンツが1つ又は複数のウェイクワードを含むことを判断することを含む。例えば、NMDは、検出された音声コンテンツに対して1つ又は複数のウェイクワード検出アルゴリズムを実行することにより、検出された音声コンテンツが1つ又は複数のウェイクワードを含むことを判断し得る。一部の例において、NMDは、検出された音声コンテンツに対して複数のウェイクワード検出アルゴリズム(例えば、場合により異なる音声サービス用である、異なるウェイクワードに対するウェイクワード検出アルゴリズム)を実行し得る。ウェイクワード検出アルゴリズムの例は、本開示全体で説明されている。
【0190】
d.検出された音声コンテンツ内の1つ又は複数のウェイクワードに対するNMDのウェイク応答を無効化
図13では、ブロック1308において、実施1300は、検出された音声コンテンツ内の1つ又は複数のウェイクワードに対するNMDのウェイク応答を無効にすることを含む。上述したように、NMDのウェイク応答とは、ウェイクワードの検出に対するプログラムされた応答を指す。ウェイク応答が有効な場合、ウェイクワードの検出に応じて、NMDのウェイク応答により、NMDは、マイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取る。NMDは、音声サービスを呼び出して音声コマンドを実行する。しかしながら、ウェイク応答が無効である場合、NMDは、音声コマンドを聞き取らなくてもよく、音声コマンドを実行するために音声サービスを呼び出さない。
【0191】
VII.結論
上記の説明は、多数の構成要素のうち、ハードウェア上で実行されるファームウェア及び/又はソフトウェアを含む、様々なシステム、方法、装置、及び製品の例を特に開示している。このような例は、単なる例示的なものであり、限定的と見做すべきではないと理解される。例えば、ファームウェア、ハードウェア、及び/又はソフトウェアの態様又は構成要素の何れか又は全ては、ハードウェアのみで、ソフトウェアのみで、ファームウェアのみで、又はハードウェア、ソフトウェア、及び/又はファームウェアの任意の組み合わせにおいて、実施可能であると考えられる。したがって、提示した例は、このようなシステム、方法、装置、及び/又は製品を実現する唯一の方法ではない。
【0192】
(特徴1)再生装置を介して、再生装置による再生用の音声コンテンツを表すデータを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出することと、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答であって、有効とされた時、特定のウェイクワードに対する所定のネットワークマイクロホン装置のウェイク応答により、所定のネットワークマイクロホン装置がマイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にさせることと、1つ又は複数のスピーカを介して音声コンテンツを再生することと、を含む、方法。
【0193】
(特徴2)再生装置は、所定のネットワークマイクロホン装置を含み、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、音声コンテンツの再生中に、マイクロホンを介して、再生されている音声コンテンツを記録することと、記録済み音声コンテンツ内の1つ又は複数のウェイクワードに対する所定のネットワークマイクロホン装置のそれぞれのウェイク応答を無効にすることと、を含む、特徴1の方法。
【0194】
(特徴3)1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、ネットワークインタフェースを介して1つ又は複数のネットワークマイクロホン装置に対して、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴1の方法。
【0195】
(特徴4)1つ又は複数のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットであり、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲(audible vicinity of the audio content)にあることを判断することと、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することに応じて、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することと、を含む、特徴2の方法。
【0196】
(特徴5)1つ又は複数のネットワークマイクロホン装置は、それぞれの再生装置を備え、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、1つ又は複数のネットワークマイクロホン装置が再生装置と共に同期再生構成内にあることを判断することを含む、特徴4の方法。
【0197】
(特徴6)1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、1つ又は複数のネットワークマイクロホン装置が再生装置の可聴範囲にあることを判断することを含む、特徴4の方法。
【0198】
(特徴7)1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、音声コンテンツを再生する前に、音声コンテンツを修正して、それぞれのウェイクワードを表す音声コンテンツのセグメントに音響マーカを組み込むことを含み、音響マーカを検出することにより、1つ又は複数のネットワークマイクロホン装置は、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にする、特徴1の方法。
【0199】
(特徴8)1つ又は複数のウェイクワードを検出することは、複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することを含み、複数のウェイクワード検出アルゴリズムは、第1の音声サービス用の第1のウェイクワード検出アルゴリズムと、第2の音声サービス用の第2のウェイクワード検出アルゴリズムとを含み、音声コンテンツが再生装置により再生される前に複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することは、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第1の音声サービス用の少なくとも1つの第1のウェイクワードを検出するために第1の音声サービス用の第1のウェイクワード検出アルゴリズムを適用することと、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第2の音声サービス用の少なくとも1つの第2のウェイクワードを検出するために第2の音声サービス用の第2のウェイクワード検出アルゴリズムを適用することと、を含み、第2のウェイクワードは、第1のウェイクワードとは異なるワードである、特徴1の方法。
【0200】
(特徴9)1つ又は複数のネットワークマイクロホン装置は、第1のネットワークマイクロホン装置及び第2のネットワークマイクロホン装置を含み、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、第1のネットワークマイクロホン装置において、検出された少なくとも1つの第1のウェイクワードに対するそれぞれのウェイク応答を無効にさせることと、第2のネットワークマイクロホン装置において、検出された少なくとも1つの第2のウェイクワードに対するそれぞれのウェイク応答を無効にさせることと、を含む、特徴1の方法。
【0201】
(特徴10)音声コンテンツにおいて、1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出することは、音声コンテンツ内で特定のウェイクワードの複数のインスタンスを検出することを含み、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、各ネットワークマイクロホン装置が、音声コンテンツ内で検出された特定のウェイクワードの複数のインスタンスの数に等しい数のウェイクワードを検出するまで、1つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせることを含む、特徴1の方法。
【0202】
(特徴11)特徴1乃至10の何れかの方法を装置に実行させるために1つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。
【0203】
(特徴12)特徴1乃至10の何れかの方法を実行するように構成された装置。
【0204】
(特徴13)特徴1乃至10の何れかの方法を実行するように構成されたメディア再生システム。
【0205】
(特徴14)ネットワークマイクロホン装置を介して、再生装置による再生用の音声コンテンツを表すデータを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出することと、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答であって、有効とされた時、特定のウェイクワードに対するネットワークマイクロホン装置のウェイク応答により、ネットワークマイクロホン装置がマイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にすることと、再生装置が音声コンテンツを再生している間に、マイクロホンを介して再生された音声コンテンツを検出することと、を含む方法。
【0206】
(特徴15)更に、再生装置に音声コンテンツを再生させるために、ネットワークインタフェースを介して再生装置に対して、音声コンテンツを表すデータを送信することを含む、特徴14の方法。
【0207】
(特徴16)再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることは、再生装置に対して音声コンテンツを表すデータを送信する前に、音声コンテンツを修正して、それぞれのウェイクワードを表す音声コンテンツのセグメントに音響マーカを組み込むことを含み、音響マーカを検出することにより、ネットワークマイクロホン装置は、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にする、特徴15の方法。
【0208】
(特徴17)更に、1つ又は複数の追加のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることを含む、特徴14の方法。
【0209】
(特徴18)1つ又は複数の追加のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、ネットワークインタフェースを介して1つ又は複数の追加のネットワークマイクロホン装置に対して、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴17の方法。
【0210】
(特徴19)前記1つ又は複数の追加のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットであり、1つ又は複数の追加のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することと、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することに応じて、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することと、を含む、特徴17の方法。
【0211】
(特徴20)1つ又は複数のネットワークマイクロホン装置は、それぞれの再生装置を備え、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、1つ又は複数のネットワークマイクロホン装置が再生装置と共に同期再生構成内にあることを判断することを含む、特徴19の方法。
【0212】
(特徴21)1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、1つ又は複数のネットワークマイクロホン装置が再生装置の可聴範囲にあることを判断することを含む、特徴14の方法。
【0213】
(特徴22)1つ又は複数のウェイクワードを検出することは、複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することを含み、複数のウェイクワード検出アルゴリズムは、第1の音声サービス用の第1のウェイクワード検出アルゴリズムと、第2の音声サービス用の第2のウェイクワード検出アルゴリズムとを含み、音声コンテンツが再生装置により再生される前に複数のウェイクワード検出アルゴリズムを音声コンテンツに適用することは、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第1の音声サービス用の少なくとも1つの第1のウェイクワードを検出するために第1の音声サービス用の第1のウェイクワード検出アルゴリズムを適用することと、音声コンテンツが再生装置により再生される前に音声コンテンツに対して、第2の音声サービス用の少なくとも1つの第2のウェイクワードを検出するために第2の音声サービス用の第2のウェイクワード検出アルゴリズムを適用することと、を含み、第2のウェイクワードは、第1のウェイクワードとは異なるワードである、特徴14の方法。
【0214】
(特徴23)ネットワークマイクロホン装置は、再生装置を備え、方法は、更に、1つ又は複数のスピーカを介して音声コンテンツを再生することを含む、特徴14の方法。
【0215】
(特徴24)特徴14乃至23の何れかの方法を装置に実行させるために1つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。
【0216】
(特徴25)特徴14乃至23の何れかの方法を実行するように構成された装置。
【0217】
(特徴26)特徴14乃至23の何れかの方法を実行するように構成されたメディア再生システム。
【0218】
(特徴27)計算システムのインタフェースを介して、1つ又は複数の再生装置による再生用の音声コンテンツを受信することと、音声コンテンツが再生装置により再生される前に、音声コンテンツにおいて、1つ又は複数の音声サービス用の1つ又は複数のウェイクワードを検出することと、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答であって、有効とされた時、特定のウェイクワードに対する所定のネットワークマイクロホン装置のウェイク応答により、所定のネットワークマイクロホン装置がマイクロホンを介して特定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にさせることと、を含む、方法。
【0219】
(特徴28)1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、ネットワークインタフェースを介して1つ又は複数のネットワークマイクロホン装置に対して、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴27の方法。
【0220】
(特徴29)1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することは、1つ又は複数の再生装置がそれぞれのウェイクワードを表す音声コンテンツのセグメントを再生する時間に対応する1つ又は複数の期間中、1つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴28の方法。
【0221】
(特徴30)1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することは、1つ又は複数の再生装置がそれぞれのウェイクワードを表す音声コンテンツのセグメントを再生する時間に対応する1つ又は複数の期間中、1つ又は複数のネットワークマイクロホン装置において、それぞれのマイクロホンを無効にさせる命令を送信することを含む、特徴28の方法。
【0222】
(特徴31)計算システムは、音声コンテンツ内の特定の数のウェイクワードを検出し、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することは、1つ又は複数のネットワークマイクロホン装置が、音声コンテンツ内で検出された特定の数のウェイクワードに等しい数のウェイクワードを検出するまで、1つ又は複数のネットワークマイクロホン装置において、それぞれのウェイク応答を無効にさせる命令を送信することを含む、特徴28の方法。
【0223】
(特徴32)1つ又は複数のネットワークマイクロホン装置は、住居内のネットワークマイクロホン装置のサブセットであり、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することと、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することに応じて、1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせる命令を送信することと、を含む、特徴28の方法。
【0224】
(特徴33)1つ又は複数のネットワークマイクロホン装置は、それぞれの再生装置を備え、1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、1つ又は複数のネットワークマイクロホン装置が再生装置と共に同期再生構成内にあることを判断することを含む、特徴32の方法。
【0225】
(特徴34)1つ又は複数のネットワークマイクロホン装置が音声コンテンツの可聴範囲にあることを判断することは、1つ又は複数のネットワークマイクロホン装置が再生装置の可聴範囲にあることを判断することを含む、特徴32の方法。
【0226】
(特徴35)1つ又は複数のネットワークマイクロホン装置において、再生装置による音声コンテンツの再生中、検出された1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にさせることは、1つ又は複数の再生装置が音声コンテンツを再生する前に、音声コンテンツを修正して、それぞれのウェイクワードを表す音声コンテンツのセグメントに音響マーカを組み込み、音響マーカを検出することにより、1つ又は複数のネットワークマイクロホン装置が、再生装置による音声コンテンツの再生中、1つ又は複数のウェイクワードに対するそれぞれのウェイク応答を無効にすることと、1つ又は複数の再生装置による再生のために、修正された音声コンテンツを1つ又は複数の再生装置の少なくとも1つに送信することと、を含む、特徴27の方法。
【0227】
(特徴36)1つ又は複数の再生装置による再生用の音声コンテンツを受信することは、(a)インタフェースのネットワークインタフェースを介して、音声コンテンツを表すデータを受信すること、又は(b)インタフェースのアナログインタフェースを介して、音声コンテンツを表すアナログ信号受信すること、を含む特徴35の方法。
【0228】
(特徴37)計算システムは、1つ又は複数の再生装置の特定の再生装置を備え、動作は、更に、音声コンテンツを再生することを含む、特徴27の方法。
【0229】
(特徴38)計算システムは、1つ又は複数のネットワークマイクロホン装置の特定のネットワークマイクロホン装置を備え、動作は、更に、マイクロホンを介して、1つ又は複数の再生装置により再生されている音声コンテンツを検出することを含む、特徴27の方法。
【0230】
(特徴39)特徴27乃至38の何れかの方法を装置に実行させるために1つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。
【0231】
(特徴40)特徴27乃至38の何れかの方法を実行するように構成された装置。
【0232】
(特徴41)特徴27乃至38の何れかの方法を実行するように構成されたメディア再生システム。
【0233】
(特徴42)ネットワークマイクロホン装置を介して、1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答であって、有効とされた時、所定のウェイクワードに対するネットワークマイクロホン装置のウェイク応答により、ネットワークマイクロホン装置がマイクロホンを介して所定のウェイクワードに続く音声コマンドを聞き取るウェイク応答を無効にする命令を受信することと、マイクロホンを介して、1つ又は複数の再生装置により再生されている音声コンテンツを検出することと、検出された音声コンテンツが1つ又は複数のウェイクワードを含むと判断することと、検出された音声コンテンツ内の1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることと、を含む方法。
【0234】
(特徴43)1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、1つ又は複数の再生装置がそれぞれの検出されたウェイクワードに対応する音声コンテンツのセグメントを再生する時間に対応する1つ又は複数の期間中、ウェイク応答を無効にする命令を受信することを含む、特徴42の方法。
【0235】
(特徴44)1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、1つ又は複数の再生装置がそれぞれの検出されたウェイクワードに対応する音声コンテンツのセグメントを再生する時間に対応する1つ又は複数の期間中、マイクロホンを無効にする命令を受信することを含む、特徴42の方法。
【0236】
(特徴45)1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、ネットワークマイクロホン装置が特定の数のウェイクワードに等しい数のウェイクワードを検出するまで、連続するウェイクワードが検出された際にウェイク応答を無効にする命令を受信することを含む、特徴42の方法。
【0237】
(特徴46)1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にする命令を受信することは、音響マーカが検出された際にウェイク応答を無効にする命令を受信することを含み、検出された音声コンテンツ内の1つ又は複数のウェイクワードに対するネットワークマイクロホン装置のウェイク応答を無効にすることは、それぞれの検出されたウェイクワードに対応する、検出された音声コンテンツ内の音響マーカを検出することと、各音響マーカを検出することに応じて、ウェイク応答を無効にすることと、を含む、特徴42の方法。
【0238】
(特徴47)検出された音声コンテンツが1つ又は複数のウェイクワードを含むと判断することは、検出された音声コンテンツに対して、1つ又は複数のウェイクワード検出アルゴリズムを適用することを含む、特徴42の方法。
【0239】
(特徴48)特徴42乃至47の何れかの方法を装置に実行させるために1つ又は複数のプロセッサにより実行可能な命令を記憶した、有形の非一時的コンピュータ読み取り可能媒体。
【0240】
(特徴49)特徴42乃至47の何れかの方法を実行するように構成された装置。
【0241】
(特徴50)特徴42乃至47の何れかの方法を実行するように構成されたメディア再生システム。
【0242】
本願明細書は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、及び他のシンボル表現に関して広く示されており、それらは直接的又は間接的にネットワークに接続されるデータ処理装置の動作に類似する。これらの処理の説明及び表現は、一般に、当業者が、その作業の内容を他の当業者に最も効果的に伝えるために使用されるものである。本開示の完全な理解を提供するため、多数の具体的な詳細を述べている。しかしながら、本開示の特定の実施形態が特定の具体的な詳細なしに実施可能であることは、当業者に理解される。他の例では、周知の方法、手順、構成要素、及び回路については、実施形態の態様を不必要に曖昧にすることを避けるために、詳細な説明を省略している。したがって、本開示の範囲は、上記の実施形態よりむしろ添付の記特許請求の範囲により定義される。
【0243】
添付の特許請求の範囲の何れかが、純粋にソフトウェア及び/又はファームウェアの実施を対象とすると読み取られる場合、少なくとも1つの例の少なくとも1つの要素は、本明細書では、ソフトウェア及び/又はファームウェアを記憶するメモリ、DVD、CD、Blu−ray等の有形の非一時的な媒体を含むことが明確に定められている。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図10C
図10D
図11
図12
図13