(58)【調査した分野】(Int.Cl.,DB名)
機能は、再生デバイスの向きに基づいて、音声の捕捉を可能とする少なくとも1つのマイクロフォンアレイを特定するステップをさらに含む、請求項1に記載のコンピュータ読取り可能媒体。
機能は、再生デバイスの向きに基づいて、音声の捕捉を可能とする少なくとも1つのマイクロフォンアレイを特定するステップをさらに含む、請求項8に記載の再生デバイス。
【発明を実施するための形態】
【0007】
図面は、いくつかの例示的な実施形態を説明することを目的としているが、本発明が、図面に示した配置および手段に限定されるものではないことは理解される。
【0008】
I.概要
本明細書に記載のいくつかの実施形態は、再生デバイスの向きに基づいて少なくとも1つのマイクロフォンアレイの指向性焦点を調整することを含む。多方向デバイスのマイクロフォンアレイは、デバイスの異なる向きにわたって同じ方向から来る音声に対して異なる感度および応答プロファイルを有することがある。異なる再生デバイスの向きにおけるマイクロフォンアレイの訓練応答値(例えば、キャリブレーション応答値、測定応答値)を取得する際に、様々な再生デバイスの向きに関する一般的な応答プロファイルを作成することができる。一般的な応答プロファイルを、受信された音声入力応答の応答プロファイルと比較する際に、音声入力の音源の位置(例えば、1つまたは複数の次元における方向)を識別または推定することができる。
【0009】
本明細書で提供される例は、方法、再生デバイス、およびシステムを含む。この方法は、少なくとも1つのマイクロフォンアレイを含む再生デバイスの向きを決定するステップと、再生デバイスの向きに基づいて複数のマイクロフォン訓練応答から再生デバイスに関する少なくとも1つのマイクロフォン訓練応答を決定するステップとを含む。少なくとも1つのマイクロフォンアレイは音声入力を検出することができ、音声入力の音源の位置情報は少なくとも1つのマイクロフォン訓練応答および検出された音声入力に基づいて決定することができる。音源の位置情報に基づいて、少なくとも1つのマイクロフォンアレイの指向性焦点を調整することができ、調整された指向性焦点に基づいて音声入力を捕捉することができる。
【0010】
別の態様では、非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は、コンピューティングデバイスによって実行されるとコンピューティングデバイスに機能を実行させる命令を記憶している。当該機能は、少なくとも1つのマイクロフォンアレイを含む再生デバイスの向きを決定するステップと、再生デバイスの向きに基づいて複数のマイクロフォン訓練応答から再生デバイスに関する少なくとも1つのマイクロフォン訓練応答を決定するステップとを含む。少なくとも1つのマイクロフォンアレイは音声入力を検出することができ、音声入力の音源の位置情報は少なくとも1つのマイクロフォン訓練応答および検出された音声入力に基づいて決定することができる。音源の位置情報に基づいて、少なくとも1つのマイクロフォンアレイの指向性焦点を調整することができ、調整された指向性焦点に基づいて音声入力を捕捉することができる。
【0011】
さらに別の態様では、デバイスが提供される。デバイスはプロセッサとメモリとを含む。メモリは、デバイスによって実行されるとシステムに機能を実行させる命令を記憶している。当該機能は、少なくとも1つのマイクロフォンアレイを含む再生デバイスの向きを決定するステップと、再生デバイスの向きに基づいて複数のマイクロフォン訓練応答から再生デバイスに関する少なくとも1つのマイクロフォン訓練応答を決定するステップとを含む。少なくとも1つのマイクロフォンアレイは音声入力を検出することができ、音声入力の音源の位置情報は少なくとも1つのマイクロフォン訓練応答および検出された音声入力に基づいて決定することができる。音源の位置情報に基づいて、少なくとも1つのマイクロフォンアレイの指向性焦点を調整することができ、調整された指向性焦点に基づいて音声入力を捕捉することができる。
【0012】
本明細書に記載されるいくつかの例は、「ユーザ」および/又は他のエンティティなどの所定のアクターによって実行される機能を参照するが、これは説明の目的に過ぎない。特許請求の範囲自体の言葉によって明示的に要求されない限り、そのような例示的なアクターによるアクションが要求されるものと解釈されるべきではない。当業者は数多くの他の実施形態が本開示に含まれることを理解する。
【0013】
II.動作環境の例
図1は、本明細書で開示されている1つ又は複数の実施形態で実施可能又は実装可能なメディア再生システム100の例示的な構成を示す。図示されるように、メディア再生システム100は、複数の部屋および空間、例えば、主寝室、オフィス、ダイニングルーム、およびリビングルームを有する例示的なホーム環境と関連付けられている。
図1の例に示されるように、メディア再生システム100は、再生デバイス102〜124、制御デバイス126および128、有線又は無線のネットワークルータ130を含む。
【0014】
更に、例示的なメディア再生システム100の異なる構成要素、および異なる構成要素がどのように作用してユーザにメディア体験を提供するかに関しての説明は、以下のセクションで述べられている。本明細書における説明は、概してメディア再生システム100を参照しているが、本明細書で述べられている技術は、
図1に示されるホーム環境の用途に限定されるものではない。例えば、本明細書で述べられている技術は、マルチゾーンオーディオが望まれる環境、例えば、レストラン、モール、又は空港のような商業的環境、スポーツ用多目的車(SUV)、バス又は車のような車両、船、若しくはボード、飛行機などの環境において有益である。
【0015】
a.例示的なゾーンプレーヤー
図2は、
図1のメディア再生システム100の再生デバイス102〜124の1つ又は複数を構成する例示的な再生デバイス200の機能ブロック図を示す。再生デバイス200は、プロセッサ202、ソフトウェアコンポーネント204、メモリ206、オーディオ処理コンポーネント208、オーディオアンプ210、スピーカ212、およびネットワークインタフェース214を含んでもよい。ネットワークインタフェース214は、無線インタフェース216、有線インタフェース218およびマイクロフォン220を含む。ある場合では、再生デバイス200は、スピーカ212を含まないが、再生デバイス200を外部スピーカに接続するためのスピーカインタフェースを含んでいてもよい。別の場合では、再生デバイス200は、スピーカ212もオーディオアンプ210も含まないが、再生デバイス200を外部オーディオアンプ又はオーディオビジュアルレシーバーに接続するためのオーディオインタフェースを含んでもよい。
【0016】
ある例では、プロセッサ202は、メモリ206に記憶された命令に基づいて、入力データを処理するように構成されたクロック駆動コンピュータコンポーネントであってもよい。メモリ206は、プロセッサ202によって実行可能な命令を記憶するように構成された非一時的なコンピュータ読取り可能記録媒体であってもよい。例えば、メモリ206は、ある機能を実行するためにプロセッサ202によって実行可能なソフトウェアコンポーネント204の1つ又は複数をロードすることができるデータストレージであってもよい。ある例では、機能は、再生デバイス200がオーディオソース又は別の再生デバイスからオーディオデータを読み出すステップを含んでもよい。別の例では、機能は、再生デバイス200がネットワーク上の別のデバイス又は再生デバイスにオーディオデータを送信するステップを含んでもよい。更に別の例では、機能は、マルチチャネルオーディオ環境を作るために、再生デバイス200と1つ又は複数の再生デバイスとをペアリングするステップを含んでもよい。
【0017】
ある機能は、再生デバイス200が、1つ又は複数の他の再生デバイスと、オーディオコンテンツの再生を同期するステップを含む。再生を同期している間、再生デバイス200によるオーディオコンテンツの再生と1つ又は複数の他の再生デバイスによる再生との間の遅延を、リスナーが気づかないことが好ましい。「複数の独立クロックデジタルデータ処理デバイス間の動作を同期するシステムおよび方法」と題する米国特許第8,234,395号が本明細書に参照として援用されており、それは再生デバイス間のオーディオ再生を同期することが述べられたより詳細な例を提供している。
【0018】
更に、メモリ206は、データを記憶するように構成されていてもよい。データは、例えば、1つ又は複数のゾーンおよび/又はゾーングループに一部として含まれる再生デバイス200などの再生デバイス200、再生デバイス200によりアクセス可能なオーディオソース、又は再生デバイス200(又は他の再生デバイス)と関連付け可能な再生キュー、に関連付けられている。データは、定期的に更新され、再生デバイス200の状態を示す1つ又は複数の状態変数として記憶されてもよい。また、メモリ206は、メディアシステムの他のデバイスの状態と関連付けられたデータを含んでもよく、デバイス間で随時共有することによって、1つ又は複数のデバイスが、システムと関連するほぼ直近のデータを有することができる。他の実施形態も可能である。
【0019】
オーディオ処理コンポーネント208は、1つ又は複数のデジタル−アナログ変換器(DAC)、オーディオ処理コンポーネント、オーディオ強化コンポーネント、又はデジタルシグナルプロセッサ(DSP)等を含んでいてもよい。ある実施形態では、1つ又は複数のオーディオ処理コンポーネント208は、プロセッサ202のサブコンポーネントであってもよい。ある実施形態では、オーディオコンテンツが、オーディオ処理コンポーネント208によって処理および/又は意図的に変更されることによって、オーディオ信号を生成してもよい。生成されたオーディオ信号は、オーディオアンプ210に送信され、増幅され、スピーカ212を通じて再生される。特に、オーディオアンプ210は、1つ又は複数のスピーカ212を駆動できるレベルまでオーディオ信号を増幅するように構成されたデバイスを含んでもよい。スピーカ212は、独立した変換器(例えば、「ドライバ」)又は1つ又は複数のドライバを内包する筐体を含む完全なスピーカシステムを備えてもよい。スピーカ212に備えられたあるドライバは、例えば、サブウーファー(例えば、低周波用)、ミドルレンジドライバ(例えば、中間周波用)、および/又はツイーター(高周波用)を含んでもよい。ある場合では、1つ又は複数のスピーカ212のそれぞれの変換器は、オーディオアンプ210の対応する個々のオーディオアンプによって駆動されてもよい。再生デバイス200で再生するアナログ信号を生成することに加えて、オーディオ処理コンポーネント208は、オーディオコンテンツを処理し、そのオーディオコンテンツを1つ又は複数の他の再生デバイスに再生させるために送信する。
【0020】
再生デバイス200によって処理および/又は再生されるオーディオコンテンツは、外部ソース、例えば、オーディオライン−イン入力接続(例えば、オートディテクティング3.5mmオーディオラインイン接続)又はネットワークインタフェース214を介して、受信されてもよい。
【0021】
ネットワークインタフェース214は、データネットワーク上で再生デバイス200と1つ又は複数の他のデバイスとの間のデータフローを可能にするように構成されてもよい。このように、再生デバイス200は、再生デバイスと通信する1つ又は複数の他の再生デバイス、ローカルエリアネットワーク内のネットワークデバイス、又は例えば、インターネット等のワイドエリアネットワーク上のオーディオコンテンツソースから、データネットワークを介してオーディオコンテンツを受信するように構成されていてもよい。ある例では、再生デバイス200によって送信および受信されたオーディオコンテンツおよび他の信号は、インターネットプロトコル(IP)に基づくソースアドレスおよびIPに基づく宛先アドレスを含むデジタルパケットの形で送信されてもよい。そのような場合、ネットワークインタフェース214は、デジタルパケットデータを解析することによって、再生デバイス200宛てのデータを、再生デバイス200によって適切に受信して処理することができる。
【0022】
図示されるように、ネットワークインタフェース214は、無線インタフェース216と有線インタフェース218とを含んでもよい。無線インタフェース216は、再生デバイス200用のネットワークインタフェース機能を提供し、通信プロトコル(例えば、無線規格IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4Gモバイル通信基準などを含む無線基準(規格)のいずれか)に基づいて、他のデバイス(例えば、再生デバイス200に関連付けられたデータネットワーク内の他の再生デバイス、スピーカ、レシーバー、ネットワークデバイス、制御デバイス)と無線通信してもよい。有線インタフェース218は、再生デバイス200用のネットワークインタフェース機能を提供し、通信プロトコル(例えば、IEEE802.3)に基づいて他のデバイスとの有線接続を介して通信してもよい。
図2に示されるネットワークインタフェース214は、無線インタフェース216と有線インタフェース218との両方を含んでいるが、ネットワークインタフェース214は、ある実施形態において、無線インタフェースのみか、又は有線インタフェースのみを含んでいてもよい。
【0023】
マイクロフォン220は、再生デバイス200の環境内の音を検出するように構成してもよい。マイクロフォンは例えば、再生デバイスの筐体の外壁に取り付けてもよい。マイクロフォンは、コンデンサーマイクロフォン、エレクトレットコンデンサーマイクロフォン、またはダイナミックマイクロフォンなど、現在知られているか又は後で開発される任意の種類のマイクロフォンであってもよい。マイクロフォンは、スピーカ220の一部の周波数範囲に対して高感度であってもよい。スピーカ220のうちの1つ又は複数が、マイクロフォン220とは逆に動作してもよい。いくつかの態様では、再生デバイス200は、マイクロフォン220を含まなくてもよい。
【0024】
ある例では、再生デバイス200と他の再生デバイスとは、ペアにされて、オーディオコンテンツの2つの別々のオーディオコンポーネントを再生してもよい。例えば、再生デバイス200は、左チャネルオーディオコンポーネントを再生するように構成される一方、他の再生デバイスは、右チャネルオーディオコンポーネントを再生するように構成されてもよい。これにより、オーディオコンテンツのステレオ効果を生成するか、又は強化することができる。ペアにされた再生デバイス(「結合再生デバイス」とも言う)は、更に、他の再生デバイスと同期してオーディオコンテンツを再生してもよい。
【0025】
別の例では、再生デバイス200は、1つ又は複数の他の再生デバイスと音響的に統合され、単一の統合された再生デバイス(統合再生デバイス)を形成してもよい。統合再生デバイスは、統合されていない再生デバイス又はペアにされた再生デバイスと比べて、サウンドの処理や再現を異なるように構成することができる。なぜならば、統合再生デバイスは、オーディオコンテンツを再生するスピーカ追加することができるからである。例えば、再生デバイス200が、低周波レンジのオーディオコンテンツを再生するように設計されている場合(例えば、サブウーファー)、再生デバイス200は、全周波数レンジのオーディオコンテンツを再生するように設計された再生デバイスと統合されてもよい。この場合、全周波数レンジの再生デバイスは、低周波の再生デバイス200と統合されたとき、オーディオコンテンツの中高周波コンポーネントのみを再生するように構成されてもよい。一方で低周波レンジの再生デバイス200は、オーディオコンテンツの低周波コンポーネントを再生する。更に、統合再生デバイスは、単一の再生デバイス、又は更に他の統合再生デバイスとペアにされてもよい。
【0026】
例として、現在、ソノス・インコーポレイテッドは、「PLAY:1」、「PLAY:3」、「PLAY:5」、「PLAYBAR」、「CONNECT:AMP」、「CONNECT」、および「SUB」を含む再生デバイスを販売提供している。他の過去、現在、および/又は将来のいずれの再生デバイスにおいても、追加的に又は代替的に本明細書で開示された実施例の再生デバイスに実装して使用することができる。更に、再生デバイスは、
図2に示された特定の例又は提供されるソノス製品に限定されないことは理解される。例えば、再生デバイスは、有線又は無線のヘッドホンを含んでもよい。別の例では、再生デバイスは、パーソナルモバイルメディア再生デバイス用のドッキングステーションを含むか、又は、それらと対話してもよい。更に別の例では、再生デバイスは、別のデバイス又はコンポーネント、例えば、テレビ、照明器具、又は屋内又は屋外で使用するためのいくつかの他のデバイスと一体化されてもよい。
【0027】
b.例示的な再生ゾーン構成
図1のメディア再生システムに戻って、環境は、1つ又は複数の再生ゾーンを有しており、それぞれの再生ゾーンは1つ又は複数の再生デバイスを含んでいる。メディア再生システム100は、1つ又は複数の再生ゾーンで形成されており、後で1つ又は複数のゾーンが追加又は削除して、
図1に示す例示的な構成としてもよい。それぞれのゾーンは、異なる部屋又は空間、例えば、オフィス、浴室、主寝室、寝室、キッチン、ダイニングルーム、リビングルーム、および/又はバルコニーに基づく名前が与えられてもよい。ある場合では、単一の再生ゾーンは複数の部屋又は空間を含んでいてもよい。別の場合では、単一の部屋又は空間は、複数の再生ゾーンを含んでいてもよい。
【0028】
図1に示されるように、バルコニー、ダイニングルーム、キッチン、浴室、オフィス、および寝室のゾーンのそれぞれは、1つの再生デバイスを有する一方、リビングルームおよび主寝室のゾーンのそれぞれは、複数の再生デバイスを有する。リビングルームゾーンは、再生デバイス104、106、108、および110が、別々の再生デバイスとしてか、1つ又は複数の結合再生デバイスとしてか、1つ又は複数の統合再生デバイスとしてか、又はこれらのいずれかの組み合わせで、オーディオコンテンツを同期して再生するように構成されてもよい。同様に、主寝室の場合では、再生デバイス122および124が、別々の再生デバイスとしてか、結合再生デバイスとしてか、又は統合再生デバイスとして、オーディオコンテンツを同期して再生するように構成されてもよい。
【0029】
ある例では、
図1の環境における1つ又は複数の再生ゾーンは、それぞれ異なるオーディオコンテンツを再生している。例えば、ユーザは、バルコニーゾーンでグリルしながら、再生デバイス102によって再生されるヒップホップ音楽を聞くことができる。一方、別のユーザは、キッチンゾーンで食事を準備しながら、再生デバイス114によって再生されるクラシック音楽を聞くことができる。別の例では、再生ゾーンは、同じオーディオコンテンツを別の再生ゾーンと同期して再生してもよい。例えば、ユーザがオフィスゾーンにいる場合、オフィスゾーンの再生デバイス118が、バルコニーの再生デバイス102で再生されている音楽と同じ音楽を再生してもよい。そのような場合、再生デバイス102および118は、ロック音楽を同期して再生しているため、ユーザは、異なる再生ゾーン間を移動してもアウト−ラウドで再生されるオーディオコンテンツをシームレス(又は少なくともほぼシームレス)に楽しむことができる。再生ゾーン間の同期は、前述の米国特許第8,234,395号で述べられているような再生デバイス間の同期と同様の方法で行ってもよい。
【0030】
上述したように、メディア再生システム100のゾーン構成は、動的に変更してもよく、ある実施形態では、メディア再生システム100は、複数の構成をサポートする。例えば、ユーザが1つ又は複数の再生デバイスを、物理的にゾーンに移動させるか、又はゾーンから移動させる場合、メディア再生システム100は変更に対応するように再構成されてもよい。例えば、ユーザが再生デバイス102をバルコニーゾーンからオフィスゾーンに物理的に移動させる場合、オフィスゾーンは、再生デバイス118と再生デバイス102との両方を含んでもよい。必要に応じて、制御デバイス、例えば制御デバイス126と128とを介して、再生デバイス102が、ペアにされるか、又はオフィスゾーンにグループ化されるか、および/又はリネームされてもよい。一方、1つ又は複数の再生デバイスが、再生ゾーンを未だ設定していないホーム環境において、ある領域に移動させられた場合、新しい再生ゾーンがその領域に形成されてもよい。
【0031】
更に、メディア再生システム100の異なる再生ゾーンは、動的にゾーングループに組み合わされてもよいし、又は別々の再生ゾーンに分割されてもよい。例えば、ダイニングルームゾーンとキッチンゾーン114とがディナーパーティ用のゾーングループに組み合わされることによって、再生デバイス112と114とがオーディオコンテンツを同期して再生することができる。一方、あるユーザがテレビを見たい一方、他のユーザがリビングルーム空間の音楽を聞きたい場合、リビングルームゾーンが、再生デバイス104を含むテレビゾーンと、再生デバイス106、108および110を含むリスニングゾーンと、に分けられてもよい。
【0032】
c.例示的な制御デバイス
図3は、メディア再生システム100の制御デバイス126と128とうちの一方又は両方を構成する例示的な制御デバイス300の機能ブロック図を示す。図示されるように、制御デバイス300は、プロセッサ302、メモリ304、ネットワークインタフェース306、ユーザインタフェース308、マイクロフォン310、およびソフトウェアコンポーネント312を含んでもよい。ある例では、制御デバイス300は、メディア再生システム100専用の制御デバイスであってもよい。別の例では、制御デバイス300は、メディア再生システムコントローラアプリケーションソフトウェアをインストールされたネットワークデバイス、例えば、iPhone(登録商標)、iPad(登録商標)、又は任意の他のスマートフォン、タブレットあるいはネットワークデバイス(例えば、PC又はMac(登録商標)などのネットワークコンピュータ)であってもよい。
【0033】
プロセッサ302は、メディア再生システム100のユーザアクセス、コントロール、および構成を可能にすることに関する機能を実行するように構成されてもよい。メモリ304は、プロセッサ302によって実行されて機能を発揮する1つ又は複数のソフトウェアコンポーネントを搭載可能なデータストレージであってもよい。また、メモリ304は、メディア再生システムコントローラアプリケーションソフトウェアと、メディア再生システム100とユーザとに関連付けられた他のデータを記憶するように構成されていてもよい。
【0034】
ある例では、ネットワークインタフェース306は、工業規格(例えば、赤外線、無線、IEEE802.3などの有線規格、IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15などの無線規格、4G通信規格など)に基づいてもよい。ネットワークインタフェース306においては、制御デバイス300がメディア再生システム100内の他のデバイスと通信するための手段を提供してもよい。ある例では、データおよび情報(例えば、状態変数)は、ネットワークインタフェース306を介して制御デバイス300と他のデバイスとの間で通信されてもよい。例えば、メディア再生システム100における再生ゾーンおよびゾーングループの構成は、制御デバイス300によって、再生デバイス又は別のネットワークデバイスから受信されてもよいし、あるいは制御デバイス300によって、ネットワークインタフェース306を介して別の再生デバイス又はネットワークデバイスに送信されてもよい。ある場合では、他のネットワークデバイスは、別の制御デバイスであってもよい。
【0035】
ボリュームコントロールおよびオーディオ再生コントロールなどの再生デバイス制御コマンドは、ネットワークインタフェース306を介して制御デバイス300から再生デバイスに通信されてもよい。上述したように、メディア再生システム100の構成の変更は、ユーザにより制御デバイス300を用いて行うことができる。構成の変更は、1つ又は複数の再生デバイスをゾーンに追加すること、1つ又は複数の再生デバイスをゾーンから取り除くこと、1つ又は複数のゾーンをゾーングループに追加すること、1つ又は複数のゾーンをゾーングループから取り除くこと、結合プレーヤー又は統合プレーヤーを形成すること、結合プレーヤー又は統合プレーヤーから1つ又は複数の再生デバイスに分けることなどを含んでもよい。このように、制御デバイス300は、コントローラと呼ばれてもよく、制御デバイス300は、メディア再生システムコントローラアプリケーションソフトウェアをインストールした専用のコントローラか、又はネットワークデバイスであってもよい。
【0036】
制御デバイス300は、マイクロフォン310を含んでもよい。マイクロフォン310は、制御デバイス300の環境内の音を検出するように構成してもよい。マイクロフォン310は、コンデンサーマイク、エレクトレットコンデンサーマイク、ダイナミックマイクなど、現在知られている又は今後開発される任意の種類のマイクロフォンであってもよい。マイクロフォンは、一部の周波数範囲に対して高感度であってもよい。2つ以上のマイクロフォン310が、音源(例えば、音声、可聴音)の位置情報を取得する、および/又は、背景雑音のフィルタリングを補助するために設けられてもよい。
【0037】
制御デバイス300のユーザインタフェース308は、
図4に示されるコントローラインタフェース400などのようなコントローラインタフェースを提供することによって、メディア再生システム100のユーザアクセスおよび制御を可能にするように構成されていてもよい。コントローラインタフェース400は、再生制御領域410、再生ゾーン領域420、再生ステータス領域430、再生キュー領域440、およびオーディオコンテンツソース領域450を含む。図示されるユーザインタフェース400は、
図3の制御デバイス300などのようなネットワークデバイス(および/又は
図1の制御デバイス126および128)を設けられたユーザインタフェースの単なる一例であって、ユーザによってメディア再生システム100などのようなメディア再生システムを制御するためにアクセスされるものである。あるいは、様々なフォーマット、スタイル、および対話型シーケンスを他のユーザのインタフェースを1つ又は複数のネットワークデバイスに実装し、メディア再生システムへ類似の制御アクセスを提供してもよい。
【0038】
再生制御領域410は、(例えば、タッチ又はカーソルを用いることで)選択可能なアイコンを含んでもよい。このアイコンによって、選択された再生ゾーン又はゾーングループ内の再生デバイスが、再生又は停止、早送り、巻き戻し、次にスキップ、前にスキップ、シャッフルモードのオン/オフ、リピートモードのオン/オフ、クロスフェードモードのオン/オフを行う。再生制御領域410は、別の選択可能なアイコンを含んでもよい。別の選択可能なアイコンは、イコライゼーション設定、再生ボリュームなど他の設定などを変更してもよい。
【0039】
再生ゾーン領域420は、メディア再生システム100内の再生ゾーンの表示を含んでもよい。ある実施形態では、再生ゾーンのグラフィック表示が選択可能であってもよい。追加の選択可能なアイコンを移動させることによって、メディア再生システム内の再生ゾーンを管理又は構成することができる。例えば、結合ゾーンの作成、ゾーングループの作成、ゾーングループの分割、およびゾーングループのリネームなど他の管理又は構成を行うことができる。
【0040】
例えば、図示されるように、「グループ」アイコンは、再生ゾーンのグラフィック表示のそれぞれに設けられてもよい。あるゾーンのグラフィック表示内の「グループ」アイコンは、メディア再生システム内の1つ又は複数のゾーンを選択して、あるゾーンとグループ化するオプションを出せるように選択可能であってもよい。一度グループ化すると、あるゾーンとグループ化されたゾーン内の再生デバイスは、あるゾーン内の再生デバイスと同期してオーディオコンテンツを再生するように構成される。同様に、「グループ」アイコンは、ゾーングループのグラフィック表示内に設けられてもよい。この場合、「グループ」アイコンは、ゾーングループ内の1つ又は複数のゾーンをゾーングループから取り除くために、ゾーングループ内の1つ又は複数のゾーンを選択から外すというオプションを出すように選択可能であってもよい。ユーザインタフェース400等のユーザインタフェースを介してゾーンをグループ化およびグループ解除するための他の対話をすることも可能であるし、実施することも可能である。再生ゾーン領域420内の再生ゾーンの表示は、再生ゾーン又はゾーングループ構成が変更されると、動的に更新されてもよい。
【0041】
再生ステータス領域430は、現在再生されているオーディオコンテンツ、前に再生されたオーディオコンテンツ、又は選択された再生ゾーン又はゾーングループ内で次に再生するように予定されているオーディオコンテンツ、のグラフィック表示を含んでもよい。選択可能な再生ゾーン又は再生グループは、ユーザインタフェース上で、例えば、再生ゾーン領域420および/又は再生ステータス領域430内で視覚的に区別されてもよい。グラフィック表示は、トラックタイトル、アーティスト名、アルバム名、アルバム年、トラックの長さ、およびメディア再生システムを、ユーザインタフェース400を介して制御するときに、ユーザにとって有益な他の関連情報を含んでいてもよい。
【0042】
再生キュー領域440は、選択された再生ゾーン又はゾーングループと関連付けられた再生キュー内のオーディオコンテンツのグラフィック表示を含んでもよい。ある実施形態では、それぞれの再生ゾーン又はゾーングループは、再生ゾーン又は再生グループによって再生される0以上のオーディオアイテムに対応する情報を含む再生キューと関連付けられていてもよい。例えば、再生キュー内のそれぞれのオーディオアイテムは、ユー・アール・アイ(URI)、ユー・アール・エル(URL)、又は再生ゾーン又はゾーングループ内の再生デバイスによって使用可能な他の識別子を含んでいてもよい。これらによって、ローカルオーディオコンテンツソース又はネットワークオーディオコンテンツソース、からオーディオアイテムを見つけ、および/又は取り出し、再生デバイスによって再生することができる。
【0043】
ある例では、プレイリストが再生キューに追加されてもよい。この場合、プレイリスト内のそれぞれのオーディオアイテムに対応する情報が再生キューに追加されてもよい。別の例では、再生キュー内のオーディオアイテムは、プレイリストとして保存されてもよい。更に別の例では、再生デバイスがストリーミングオーディオコンテンツ、例えば、再生時間を有することで連続して再生されないオーディオアイテムよりも、停止しない限り連続して再生されるインターネットラジオを再生し続けているとき、再生キューは、空であってもよいし、又は「未使用」であるが埋められていてもよい。別の実施形態では、再生キューは、インターネットラジオおよび/又は他のストリーミングオーディオコンテンツアイテムを含むことができ、且つ再生ゾーン又はゾーングループがそれらのアイテムを再生しているとき「未使用」とすることができる。他の例も可能である。
【0044】
再生ゾーン又はゾーングループが「グループ化される」か、又は「グループ解除」されるとき、影響を受ける再生ゾーン又はゾーングループに関連付けられた再生キューは、クリアされてもよいし、又は再び関連付けられてもよい。例えば、第1再生キューを含む第1再生ゾーンが、第2再生キューを含む第2再生ゾーンとグループ化された場合、形成されたゾーングループは、関連付けられた再生キューを有していてもよい。関連付けられた再生キューは、最初は空であるか、(例えば、第2再生ゾーンが第1再生ゾーンに追加された場合、)第1再生キューのオーディオアイテムを含むか、(例えば、第1再生ゾーンが第2再生ゾーンに追加された場合、)第2再生キューのオーディオアイテムを含むか、又は第1再生キューと第2再生キューとの両方のオーディオアイテムを組み合わせられる。その後、形成されたゾーングループがグループ解除された場合、グループ解除された第1再生ゾーンは、前の第1再生キューと再び関連付けられてもよいし、空の新しい再生キューと関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループと関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューと関連付けられてもよい。同様に、グループ解除された第2再生ゾーンは、前の第2再生キューと再び関連付けられてもよいし、空の新しい再生キューと関連付けられてもよいし、あるいはゾーングループがグループ解除される前にゾーングループと関連付けられていた再生キューのオーディオアイテムを含む新しい再生キューと関連付けられてもよい。その他の例も可能である。
【0045】
図4のユーザインタフェース400に戻って、再生キュー領域440内のオーディオコンテンツのグラフィック表示は、トラックタイトル、アーティスト名、トラックの長さ、および再生キュー内のオーディオコンテンツと関連付けられた他の関連情報を含んでいてもよい。ある例では、オーディオコンテンツのグラフィック表示は、追加の選択可能なアイコンを選択して移動させることができる。これにより、再生キューおよび/又は再生キューに表示されたオーディオコンテンツを管理および/又は操作することができる。例えば、表示されたオーディオコンテンツは、再生キューから取り除いてもよいし、再生キュー内の異なる位置に移動させてもよいし、すぐに再生させるか若しくは現在再生しているオーディオコンテンツの後に再生するように選択されてもよいし、あるいは他の動作を実行してもよい。再生ゾーン又はゾーングループに関連付けられた再生キューは、再生ゾーン又はゾーングループ内の1つ又は複数の再生デバイスのメモリ、再生ゾーン又はゾーングループに入っていない再生デバイスのメモリ、および/又は他の指定のデバイスのメモリに記憶されていてもよい。
【0046】
オーディオコンテンツソース領域450は、選択可能なオーディオコンテンツソースのグラフィック表示を含んでいてもよい。このオーディオコンテンツソースにおいては、オーディオコンテンツが選択された再生ゾーン又はゾーングループによって取り出され、再生されてもよい。オーディオコンテンツソースに関する説明は、以降のセクションを参照することができる。
【0047】
d.例示的なオーディオコンテンツソース
前回図示したように、ゾーン又はゾーングループ内の1つ又は複数の再生デバイスは、再生するオーディオコンテンツを、(例えば、オーディオコンテンツの対応するURI又はURLに基づいて、)複数の入手可能なオーディオコンテンツソースから取り出すように構成されていてもよい。ある例では、オーディオコンテンツは、再生デバイスによって、対応するオーディオコンテンツソース(例えば、ライン−イン接続)から直接取り出されてもよい。別の例では、オーディオコンテンツは、1つ又は複数の他の再生デバイス若しくはネットワークデバイスを介してネットワーク上の再生デバイスに提供されてもよい。
【0048】
例示的なオーディオコンテンツソースは、メディア再生システム内の1つ又は複数の再生デバイスのメモリを含んでもよい。メディア再生システムとしては、例えば、
図1のメディア再生システム100、1つ又は複数のネットワークデバイス上のローカルミュージックライブラリ(例えば、制御デバイス、ネットワーク対応のパーソナルコンピュータ、又はネットワーク接続ストレージ(NAS)など)、インターネット(例えば、クラウド)を介してオーディオコンテンツを提供するストリーミングオーディオサービス、あるいは再生デバイス又はネットワークデバイスのライン−イン入力接続を介してメディア再生システムに接続されるオーディオソース、他の可能なシステムであってもよい。
【0049】
ある実施形態では、オーディオコンテンツソースは、
図1のメディア再生システム100などのようなメディア再生システムに定期的に追加されてもよいし、定期的に取り除かれてもよい。ある例では、1つ又は複数のオーディオコンテンツソースが追加される、取り除かれる、又は更新される度に、オーディオアイテムのインデックス付けが行われてもよい。オーディオアイテムのインデックス付けは、ネットワーク上で共有される全てのフォルダ/ディレクトリ内の識別可能なオーディオアイテムをスキャンすることを含んでもよい。ここで、ネットワークは、メディア再生システム内の再生デバイスによってアクセス可能である。また、オーディオアイテムのインデックス付けは、メタデータ(例えば、タイトル、アーティスト、アルバム、トラックの長さなど)と他の関連情報とを含むオーディオコンテンツデータベースを作成すること、又は更新すること、を含んでもよい。他の関連情報とは、例えば、それぞれの識別可能なオーディオアイテムを見つけるためのURI又はURLを含んでもよい。オーディオコンテンツソースを管理し、且つ維持するための他の例も可能である。
【0050】
再生デバイス、制御デバイス、再生ゾーン構成、およびメディアコンテンツソースに関する上記の説明は、以下に記載される機能および方法を実装できる動作環境のうちの、一部の例を示しているに過ぎない。メディア再生システム、再生デバイス、およびネットワークデバイスに関して、本明細書に明示的に記載されていない他の動作環境および構成も同様に適用可能であり、本機能および本方法を実装するのに適している可能性がある。
【0051】
e.複数の例示的なネットワークデバイス
図5は、音声コントロールに基づいてオーディオ再生体験を提供するように構成される、複数の例示的なデバイス500を示した図である。当業者であれば、
図5に示されるデバイスは例示する目的のみのものであり、異なるおよび/又は追加のデバイスを含む変形例が実行可能であり得ることを理解するであろう。図示されるように、複数のデバイス500は、コンピューティングデバイス504、506、および508と、ネットワークマイクロフォンデバイス(NMD)512、514、および516と、再生デバイス(PBD)532、534、536、および538と、制御デバイス(CR)522とを含む。
【0052】
複数のデバイス500のそれぞれは、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、およびパーソナルエリアネットワーク(PAN)などの1つ又は複数の種類のネットワークを介して、NFC、Bluetooth(登録商標)、Ethernet、およびIEEE802.11その他の1つ又は複数のネットワークプロトコルに従って、複数のデバイスにおける1つ又は複数の他のデバイスとの通信を確立することができる、ネットワーク対応デバイスであってもよい。
【0053】
図示されるように、コンピューティングデバイス504、506、および508はクラウドネットワーク502の一部であってもよい。クラウドネットワーク502は追加のコンピューティングデバイスを含んでもよい。ある例では、コンピューティングデバイス504、506、および508は異なるサーバであってもよく、別の例では、コンピューティングデバイス504、506、および508のうちの2つ以上は単一サーバのモジュールであってもよい。同様に、コンピューティングデバイス504、506、および508のそれぞれは、1つ又は複数のモジュール若しくはサーバを含んでもよい。本明細書での例示を容易に行うために、コンピューティングデバイス504、506、および508のそれぞれは、クラウドネットワーク502内で特定の機能を実行するように構成されてもよい。例えば、コンピューティングデバイス508は、音楽ストリーミングサービス用のオーディオコンテンツのソースであってもよい。
【0054】
図示されるように、コンピューティングデバイス504は、通信経路542を介してNMD512、514、および516とインタフェースするように構成されてもよい。NMD512、514、および516は、1つ又は複数の「スマートホーム」システムのコンポーネントであってもよい。ある場合では、NMD512、514、および516は、
図1に示されるデバイスの配置と同様に、家庭全体に物理的に配置されてもよい。別の場合では、NMD512、514、および516の2つ以上は、互いに比較的近接するように物理的に配置されてもよい。通信経路542は、インターネットを含むWAN、LAN、および/又はPANその他などの、1つ又は複数の種類のネットワークを備えてもよい。
【0055】
ある例では、NMD512、514、および516のうちの1つ又は複数は、主に音声検出を行うように構成されたデバイスであってもよい。別の例では、NMD512、514、および516のうちの1つ又は複数は、様々な主要ユーティリティを有するデバイスのコンポーネントであってもよい。例えば、
図2および
図3に関連して上述したように、NMD512、514、および516のうちの1つ又は複数は、再生デバイス200のマイクロフォン(複数可)220又はネットワークデバイス300のマイクロフォン(複数可)310であってもよい。また場合によっては、NMD512、514、および516のうちの1つ又は複数は、再生デバイス200又はネットワークデバイス300であってもよい。ある例では、NMD512、514、および/又は516のうちの1つ又は複数は、マイクロフォンアレイに配置される複数のマイクロフォンを含んでいてもよい。
【0056】
図示されるように、コンピューティングデバイス506は、通信経路544を介してCR522並びにPBD532、534、536、および538とインタフェースするように構成されてもよい。ある例では、CR522は、
図2のネットワークデバイス200などのネットワークデバイスであってもよい。したがって、CR522は、
図4のコントローラインタフェース400を提供するように構成されてもよい。同様に、PBD532、534、536、および538は、
図3の再生デバイス300などの再生デバイスであってもよい。このため、PBD532、534、536、および538は、
図1に示されるように家庭全体に物理的に配置されてもよい。例示する目的上、PBD536および538は結合ゾーン530の一部であってもよく、その一方で、PBD532および534は自身が属するそれぞれのゾーンの一部であってもよい。上述したように、PBD532、534、536、および538は動的に結合、グループ化、結合解除、かつグループ解除されてもよい。通信経路544は、インターネットを含むWAN、LAN、および/又はPANその他などの1つ又は複数の種類のネットワークを備えてもよい。
【0057】
ある例では、NMD512、514、および516と同様に、CR522並びにPBD532、534、536、および538も、1つ又は複数の「スマートホーム」システムのコンポーネントであってもよい。ある場合では、PBD532、534、536、および538は、NMD512、514、および516と同じ家庭全体に配置されてもよい。更に、上述したように、PBD532、534、536、および538のうちの1つ又は複数は、NMD512、514、および516のうちの1つ又は複数であってもよい。
【0058】
NMD512、514、および516はローカルエリアネットワークの一部であってもよく、通信経路542は、NMD512、514、および516が属するローカルエリアネットワークを、WANを介してコンピューティングデバイス504にリンクする(通信経路は図示せず)アクセスポイントを含んでいてもよい。同様に、NMD512、514、および516のそれぞれは、そのようなアクセスポイントを介して互いと通信してもよい。
【0059】
同様に、CR522並びにPBD532、534、536、および538は、前のセクションで説明したように、ローカルエリアネットワークおよび/又はローカル再生ネットワークの一部であってもよく、また通信経路544は、CR522並びにPBD532、534、536、および538が属するローカルエリアネットワークおよび/又はローカル再生ネットワークを、WANを介してコンピューティングデバイス506にリンクするアクセスポイントを含んでいてもよい。したがって、CR522並びにPBD532、534、536、および538のそれぞれもまた、そのようなアクセスポイントを介して互いと通信してもよい。
【0060】
ある例では、通信経路542および544は同じアクセスポイントを有してもよい。ある例では、NMD512、514、および516、CR522、並びにPBD532、534、536、および538のそれぞれは、家庭用の同じアクセスポイントを介してクラウドネットワーク502にアクセスしてもよい。
【0061】
図5に示されるように、NMD512、514、および516、CR522、並びにPBD532、534、536、および538のそれぞれはまた、通信手段546を介して他のデバイスのうちの1つ又は複数と直接通信してもよい。本明細書に記載の通信手段546は、1つ又は複数の種類のネットワークを介した、1つ又は複数のネットワークプロトコルによるデバイス間の1つ又は複数の形式の通信を含んでもよく、および/又は1つ又は複数の他のネットワークデバイスを介した通信を含んでもよい。例えば通信手段546は、一例として、Bluetooth(商標)(IEEE802.15)、NFC、Wireless Direct、および/又はプロプライエタリ無線その他のうちの1つ又は複数を含んでいてもよい。
【0062】
ある例では、CR522はBluetooth(商標)を介してNMD532と通信し、別のローカルエリアネットワークを介してPBD534と通信してもよい。別の例では、NMD514は別のローカルエリアネットワークを介してCR522と通信し、Bluetoothを介してPBD536と通信してもよい。更に別の例では、PBD532、534、536、および538のそれぞれは、ローカル再生ネットワークを介し、スパニングツリープロトコルに従って互いと通信してもよく、その一方で、ローカル再生ネットワークとは異なるローカルエリアネットワークを介してCR522とそれぞれ通信してもよい。他の例も可能である。
【0063】
場合によっては、NMD512、514、および516、CR522、並びにPBD532、534、536、および538間の通信手段は、デバイス間の通信の種類、ネットワーク状態、および/又は待ち時間要求に応じて変化してもよい。例えば、NMD516をPBD532、534、536、および538と共に最初に家庭に導入するときに、通信手段546を使用してもよい。ある場合では、NMD516は、NFCを介してNMD516に対応する識別情報をPBD538に送信してもよく、またPBD538はこれに応じて、NFC(又は他の何らかの通信形式)を介してローカルエリアネットワーク情報をNMD516に送信してもよい。ただし、ひとたびNMD516を家庭内に設置した後、NMD516とPBD538との通信手段は変化してもよい。例えばNMD516は、通信経路542、クラウドネットワーク502、および通信経路544を連続的に経由してPBD538と通信してもよい。別の例では、NMDとPBDとは、ローカル通信手段546を介して決して通信しないようにしてもよい。更に別の例では、NMDとPBDとは、主としてローカル通信手段546を介して通信してもよい。他の例も可能である。
【0064】
例示的な例では、NMD512、514、および516は、PBD532、534、536、および538を制御するための音声入力を受信するように構成されてもよい。利用可能な制御コマンドは、再生ボリュームコントロール、再生トランスポートコントロール、音楽ソース選択、およびグループ化その他など、前述した任意のメディア再生システムの制御を含んでいてもよい。例えばNMD512は、PBD532、534、536、および538のうちの1つ又は複数を制御するための音声入力を受信してもよい。音声入力を受信したことに応答して、NMD512は通信経路542を介して、処理を目的としてその音声入力をコンピューティングデバイス504に送信してもよい。ある例では、コンピューティングデバイス504は、音声入力を同等のテキストコマンドに変換し、そのテキストコマンドを解析してコマンドを識別してもよい。次いでコンピューティングデバイス504は、続けてそのテキストコマンドをコンピューティングデバイス506に送信してもよい。別の例では、コンピューティングデバイス504は、音声入力を同等のテキストコマンドに変換し、次いで、続けてそのテキストコマンドをコンピューティングデバイス506に送信してもよい。その後コンピューティングデバイス506は、そのテキストコマンドを解析して、1つ又は複数の再生コマンドを識別してもよい。
【0065】
例えば、そのテキストコマンドが「『ストリーミングサービス1』から『アーティスト1』による『トラック1』を『ゾーン1』で再生して」である場合、コンピューティングデバイス506は(i)「ストリーミングサービス1」から入手可能な「アーティスト1」による「トラック1」のURLと、(ii)「ゾーン1」内の少なくとも1つの再生デバイスとを識別してもよい。本例では、「ストリーミングサービス1」からの「アーティスト1」による「トラック1」のURLは、コンピューティングデバイス508を指すURLであってもよく、「ゾーン1」は結合ゾーン530であってもよい。したがって、URLとPBD536および538の一方又は両方とを識別すると、コンピューティングデバイス506は通信経路544を介して、PBD536および538の一方又は両方に、識別された再生用のURLを送信してもよい。PBD536および538の一方又は両方は、これに応じて、受信したURLに従ってコンピューティングデバイス508からオーディオコンテンツを取り出し、かつ「ストリーミングサービス1」から「アーティスト1」による「トラック1」の再生を開始してもよい。
【0066】
さらに別の例では、コンピューティングデバイス504は、ユーザの関連コマンドや意図を識別し、コンピューティングデバイス506への音声入力に関連するメディアコンテンツに関する情報を提供する処理を実行する。コンピューティングデバイス504は例えば、音声入力に「スピーチトゥテキスト」を実行し、当該音声入力のコマンドまたは意図を、コマンドを実行する方法に関するその他の情報と共に分析する(例えば、再生、一時停止、停止、音量を上げる、音量を下げる、スキップ、次へ、グループ化、グループ解除)。コンピューティングデバイス504またはコンピューティングデバイス506は、どのPBDコマンドがコンピューティングデバイス504によって決定されたコマンドまたは意図に対応するかを決定する。音声入力から、および/またはコマンドの実行に関連する他の情報から決定されるコマンドまたは意図は、コンピューティングデバイス504からコンピューティングデバイス506へ送信される。コンピューティングデバイス504上の処理は、アプリケーション、モジュール、アドオンソフトウェア、ネイティブネットワークマイクロフォンシステムソフトウェアプラットフォームとの統合、および/またはネイティブネットワークマイクロフォンシステムソフトウェアプラットフォームによって実行される。
【0067】
当業者であれば、上記は単なる例示的な例であり、他の実施形態も実行可能であることを理解する。ある場合では、上述したように、複数のデバイス500のうちの1つ又は複数によって実行される動作は、複数のデバイス500における1つ又は複数の他のデバイスによって実行されてもよい。例えば、音声入力からテキストコマンドへの変換は、NMD512、コンピューティングデバイス506、PBD536、および/又はPBD538などの他のデバイスによって代替的に、部分的に若しくは完全に実行されてもよい。同様にURLの識別は、NMD512、コンピューティングデバイス504、PBD536、および/又はPBD538などの別のデバイス若しくは複数のデバイスによって代替的に、部分的に若しくは完全に実行されてもよい。
【0068】
f.例示的なネットワークマイクロフォンデバイス
図6は、
図5のNMD512、514、および516のうちの1つ又は複数を構成する例示的なネットワークマイクロフォンデバイス600の機能ブロック図を示す。図示されるように、ネットワークマイクロフォンデバイス600は、プロセッサ602、メモリ604、マイクロフォンアレイ606、ネットワークインタフェース608、ユーザインタフェース610、ソフトウェアコンポーネント612、およびスピーカ(複数可)614を含む当業者であれば、他のネットワークマイクロフォンデバイスの構成および配置も可能であることを理解する。例えば、ネットワークマイクロフォンデバイスは、代替案としてスピーカ(複数可)614を除外するか、又はマイクロフォンアレイ606の代わりに単一のマイクロフォンを有することができる。
【0069】
プロセッサ602は、汎用プロセッサ若しくはコントローラ又は専用プロセッサ若しくはコントローラの形態をとる、1つ又は複数のプロセッサおよび/又はコントローラを含んでいてもよい。例えば、処理ユニット602は、マイクロプロセッサ、マイクロコントローラ、特定用途向け集積回路、およびデジタル信号プロセッサなどを含んでいてもよい。メモリ604は、プロセッサ602によって実行されて機能を発揮する1つ又は複数のソフトウェアコンポーネントを搭載可能なデータストレージであってもよい。したがって、メモリ604は、ランダムアクセスメモリ、レジスタ、キャッシュなどが例として挙げられる1つ又は複数の非一時的なコンピュータ読取り可能記録媒体と、読取り専用メモリ、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリ、および/又は光学記憶装置その他などの1つ又は複数の不揮発性記録媒体とを備えていてもよい。
【0070】
マイクロフォンアレイ606は、ネットワークマイクロフォンデバイス600の環境内の音を検出するように構成された、複数のマイクロフォンであってもよい。マイクロフォンアレイ606は、コンデンサーマイク、エレクトレットコンデンサーマイク、又はダイナミックマイクなど、現在知られている又は今後開発される任意の種類のマイクロフォンを含んでもよい。ある例では、マイクロフォンアレイは、ネットワークマイクロフォンデバイスに対する1つ又は複数の方向から音声を検出するように構成されてもよい。マイクロフォンアレイ606は、一部の周波数範囲に対して高感度であってもよく、ある例では、マイクロフォンアレイ606の第1サブセットは第1周波数範囲に対して高感度であってもよい一方、マイクロフォンアレイの第2サブセットは第2周波数範囲に対して高感度であってもよい。更に、マイクロフォンアレイ606は、オーディオソース(例えば、音声、可聴音)の位置情報を取得する、および/又は、背景雑音のフィルタリングを補助するために設けられてもよい。特にある実施形態では、マイクロフォンアレイは、複数のマイクロフォンではなく、単一のマイクロフォンのみから構成されてもよい。
【0071】
ネットワークインタフェース608は、
図5に関連してCR522、PBD532〜538、コンピューティングデバイス504〜508などのクラウドネットワーク502内の様々なネットワークデバイス、および他のネットワークマイクロフォンデバイスなどの間における無線および/又は有線通信を容易にするように構成されてもよい。このため、ネットワークインタフェース608は、これらの機能を実行するのに適した任意の形態をとることができ、その例としては、Ethernetインタフェース、シリアルバスインタフェース(例えば、FireWire、USB2.0など)、無線通信を容易にするように構成されたチップセットおよびアンテナ、並びに/又は有線および/又は無線通信を提供する他の任意のインタフェースが挙げられる。ある例では、ネットワークインタフェース608は、工業規格(例えば、赤外線、無線、IEEE802.3などの有線規格、IEEE802.11a、802.11b、802.11g、802.11n、802.11ac、802.15などの無線規格、4G通信規格など)に基づいてもよい。
【0072】
ネットワークマイクロフォンデバイス600のユーザインタフェース610は、ネットワークマイクロフォンデバイスとのユーザ対話を容易にするように構成されていてもよい。ある例では、ユーザインタフェース608は、ユーザがネットワークマイクロフォンデバイス600に直接入力できるようにするために、物理的ボタン、タッチセンサ画面(複数可)および/又は面(複数可)に設けられるグラフィカルインタフェースその他のうちの1つ又は複数を含んでいてもよい。ユーザインタフェース610は、視覚的および/又は聴覚的フィードバックをユーザに提供するために、1つ又は複数の照明およびスピーカ(複数可)614を更に含んでいてもよい。ある例では、ネットワークマイクロフォンデバイス600は、スピーカ(複数可)614を介してオーディオコンテンツを再生するように更に構成されていてもよい。
【0073】
III.例示的なメディア再生システムの多方向マイクロフォンアレイ
上述のように、本明細書に記載の実施形態は、再生デバイスの特定の向きに基づいて音声入力を捕捉かつ処理するように訓練できる、1つ又は複数のマイクロフォンアレイを含んでもよい。
【0074】
図7Aから
図7Bは、異なる向きにある例示的な再生デバイス700のそれぞれの斜視図を示す。再生デバイス700を再生デバイス700の様々な面又は側に設置することによって、これを様々な向きに配置してもよく、
図7Aおよび
図7Bは、再生デバイス700の向きに関する2つの例を示す。
図7Aは、第1向きにある再生デバイス700の斜視図を示し、
図7Bは、第2向きにある再生デバイス700の斜視図を示す。説明を簡単にするために、再生デバイス700がその長辺の一方に載っている、
図7Aに示される第1向きを水平方向と呼び、再生デバイス700がその短辺の一方に載っている、
図7Bに示される第2向きを垂直方向と呼んでもよい。再生デバイス700は、その側又は面のいずれかに沿った面に設置されてもよい。
【0075】
再生デバイス700は、再生デバイス700の筐体又は本体に設置若しくは搭載される1つ又は複数のマイクロフォンアレイ702(例えば、マイクロフォンアレイ702a、マイクロフォンアレイ702b、マイクロフォンアレイ702c、マイクロフォンアレイ702d)を有していてもよい。マイクロフォンアレイ702a〜702dについては、再生デバイスにマイクロフォンアレイが組み込まれたおおよその配置の例として示されている。これより多くの、又はこれより少ないマイクロフォンアレイが使用されてもよく、またマイクロフォンアレイが、
図7Aから
図7Bに示されていない他の側又は壁に沿って配置されてもよい。さらに、2つ以上のマイクロフォンアレイが再生デバイスの同じ側に配置されてもよい。
【0076】
再生デバイス700は再生デバイス200であってもよく、マイクロフォンアレイ702はマイクロフォン(複数可)220であってもよい。いくつかの態様では、マイクロフォンアレイ702は、再生デバイス700の様々な壁又は側に取り付けることができ、あるいは装着することができるNMD(例えば、NMD512、514、516)を含んでもよく、又はこれをマイクロフォンアレイ606としてもよい。再生デバイスが様々な向きに配置されることで、マイクロフォンアレイ702も様々な向きを有し、これによってマイクロフォンアレイはそれぞれ、それらの個々の向きに応じて、音声入力(例えば、話声入力、オーディオ入力、トーン入力)を捕捉しやすくなる。マイクロフォンアレイはそれぞれ、アレイ内の様々な地点に配置される2つ以上の個々のマイクロフォンアレイから構成されてもよい。マイクロフォンアレイ702の形状は円形であってもよく、個々のマイクロフォンがマイクロフォンアレイ702の周囲に(例えば、0〜360度においてx度ごとに)配置されてもよい。例えば、マイクロフォンアレイ702aは、個々のマイクロフォン704a〜704fを有する。
【0077】
図7Aに示されるように、再生デバイス700は、再生デバイス700の最長辺がx−z平面に沿って1つの面(例えばテーブル、床)と平行になるように、実質的に又はほぼ水平方向に配置されてもよい。この向きにされると、マイクロフォンアレイ702の向きは様々に変化する。例えば、第1マイクロフォンアレイ702aは、この向きでは上面にあって、x−z平面と実質的に平行であってもよく、その一方で第2マイクロフォンアレイ702bは、実質的にy−z平面に沿って配置されてもよく、その向きは実質的に垂直であってもよい。マイクロフォンアレイ702は、マイクロフォンアレイと平行な平面に沿って生じる音声に最も高感度であり得る。例えば、水平方向にある(例えば、重力に対して垂直)マイクロフォンアレイ702aは、音源の位置をより良好に識別できる可能性がある。マイクロフォンアレイ702aは、再生デバイス700の上面に配置されているため、音声入力を最も良好に検出且つ捕捉できる位置にある可能性がある。
【0078】
図7Bは、第2向きにある再生デバイス700を示しており、この向きは、再生デバイス700の最長辺がx−z平面に沿った面に対して実質的に垂直であり、且つy軸に対して実質的に平行である、実質的に垂直な方向であり得る。この向きにおいて、マイクロフォンアレイ702b、702cは実質的に水平であってもよく、またマイクロフォンアレイ702a、702dは実質的に垂直であってもよい。
【0079】
図示されていないが、例えば再生デバイス700の正面又は背面に沿った位置を含む、他の位置への配置も可能である。さらに、他の形状のスピーカ(例えば、円筒形状、三角形状、不規則形状)を設けて、様々な平面間に指向され得るようにマイクロフォンアレイの向きを設定することが可能であってもよい。いくつかの態様では、このマイクロフォンアレイが、これに最も近い再生デバイスの壁と平行になるように配置されない場合がある。
【0080】
図8は、再生デバイスの向きに基づいて音声入力を処理する方法に関する例示的なフロー
図800を示す。方法800は、例えば、
図1のメディア再生システム100、
図2の再生デバイス200のうちの1つ又は複数、
図3の制御デバイス300のうちの1つ又は複数、
図5のシステム500における複数のデバイスのうちの1つ又は複数、システム600における複数のデバイスのうちの1つ又は複数、および
図7Aから
図7Bの再生デバイス700を含む、ある動作環境で実施することができる方法の一実施形態を提示している。方法800は1つ又は複数の動作、機能、若しくはアクションを含んでもよい。ブロックが
図8では順番に図示されているが、これらのブロックは同時に、および/又は本明細書に記載の順番とは異なる順番で実行されてもよい。また、様々なブロックは、より少数のブロックに組み合わされるか、追加のブロックに分割されるか、および/又は所望の実施形態に基づいて取り除かれてもよい。
【0081】
さらに、方法800ならびに本明細書で開示される他のプロセスおよび方法について、このフロー図は、本実施形態の実行可能な1つの実施態様の機能および動作を示す。これに関してそれぞれのブロックは、1つ又は複数のプロセッサによって実行されてプロセスにおける特定の論理機能又はステップを実行するための1つ又は複数の命令を含むモジュール、セグメント、又はプログラムコードの一部を表すことができる。このプログラムコードは、例えばディスク又はハードドライブを含むストレージデバイスなどの、任意の種類のコンピュータ読取り可能媒体に記憶されてもよい。このコンピュータ読取り可能媒体としては、例えばレジスタメモリ、プロセッサキャッシュ、およびランダムアクセスメモリ(RAM)のように短期間データを記憶するコンピュータ読取り可能媒体などの、非一時的なコンピュータ読取り可能媒体が挙げられる。さらに、コンピュータ読取り可能媒体として、例えば読取り専用メモリ(ROM)、光ディスク又は磁気ディスク、コンパクトディスク読取り専用メモリ(CD−ROM)のように二次的な、又は永続的な長期ストレージなどの非一時的な記録媒体も挙げることができる。また、コンピュータ読取り可能媒体は、他の任意の揮発性又は不揮発性ストレージシステムであってもよい。このコンピュータ読取り可能媒体は、例えばコンピュータ読取り可能記録媒体、又は有形のストレージデバイスと見なすことができる。さらに、方法800ならびに本明細書で開示される他のプロセスおよび方法に関して、
図8の各ブロックは、プロセス内の特定の論理機能を実行するように配線されている回路を表すことができる。
【0082】
ブロック802で、再生デバイス700のマイクロフォンアレイ(複数可)702に対してマイクロフォン訓練を実施してもよい。このマイクロフォン訓練により、再生デバイス700のマイクロフォンアレイ(複数可)用の応答プロファイルが生成されてもよい。マイクロフォン訓練は、例えば製造プロセスの一部として、又は製造後に行われ得る較正プロセス中に完了してもよい。マイクロフォン訓練は、スピーカから再生されるテスト音声(例えば、トーン、オーディオ、サウンド、話声、雑音)に対する個々のマイクロフォン応答(例えば、極応答)を捕捉するステップを含んでもよい。マイクロフォンアレイ702用の訓練応答プロファイル(複数可)を生成するために、再生デバイス700は、完全又はほぼ完全な音響環境(例えば、無響室)若しくは他の音響環境において第1向きに配置されてもよい。テスト音声は、再生デバイス700の方へと向けられたスピーカ(例えば、スピーカ902)から再生されてもよい。
【0083】
較正設定900の一例を表す上面図は、ブロック802に関して記載され、また
図9に示されている。最初の捕捉測定を行うために、スピーカ902は、マイクロフォンアレイ702aの中心と同軸上にあり得る再生デバイス700の正面中央に向けられてもよく、またこの位置をテスト開始位置と呼んでもよく、および/又は0度位置として特定してもよい。テスト音声はスピーカ902によって再生されてもよい。第1マイクロフォンアレイはテスト音声を受信し、アレイ内の個々のマイクロフォンによるそれぞれの応答を測定してもよい。テスト音声に対する個々のマイクロフォンそれぞれによる測定済みの応答は、第1テスト音声位置(例えば、0度位置)に関する測定済みの応答のセットとして格納されてもよく、および/又は測定済みの応答は、第1テスト音声位置(例えば、0度位置)に関する個々のマイクロフォンにおける異なる対による応答間の相対値(例えば、差)として格納されてもよい。各応答値は、大きさおよび位相成分を有していてもよい。測定済みの応答の第1セットは、以下に示される表1などのマトリクス又は表として格納されてもよい。マイクロフォンアレイ702aは、マイクロフォン704a、704b、704c、704d、704e、および704fとして特定される6つの個々のマイクロフォンを有してもよい。
【0085】
表1において、(行b、列a)に格納されている値R
b、
aは、マイクロフォン704bに関して測定された応答値(R
b)からマイクロフォン704aの応答値(R
a)を差し引いた形式の、マイクロフォン704aに対するマイクロフォン704bの応答相対値であってもよい。これは、表1に示すように、マイクロフォンアレイ内の他の全てのマイクロフォンに対してマイクロフォンごとにそれぞれ、同じ規則に従って繰り返されてもよい。この応答値は、応答の大きさが値の実数部となり得、位相が値の虚数部となり得る複素数であってもよい。(行a、列b)の応答として推測されるR
a、
bの値は(行b、列a)の応答R
b、
aの複製である可能性があるため、この相対応答に関しては応答値は格納されない場合があり、これは表1ではセルにダッシュ(すなわち、「−−」)を引いた形式で示されている。表1の値のセットは、テスト音声を再生しているスピーカ902の設置位置(例えば、相対角度)と関連付けられてもよい。
【0086】
スピーカの第2位置と関連付けられる同様の値のセットがマイクロフォンアレイ702に関して生成されてもよく、これは、再生デバイス700又はマイクロフォンアレイ702の中央から同じ距離を維持しながら、再生デバイス700の正面中央に対するスピーカの位置を所与の度数だけ変更することによって得られる。例えば、相対角度90度における第1マイクロフォンアレイの値の第2セットは、スピーカ902を90度の位置に移動させるか、あるいはマイクロフォンアレイ702a又は再生デバイス700を、垂直軸(例えば、ヨー)を中心に回転させ、その結果スピーカ902がマイクロフォンアレイ702aの90度位置と位置合わせされることによって生成又は取得されてもよい。これらの測定値は、再生デバイスを中心にx度おきに(例えば、1度おき、5度おき、10度おきなど)少しずつ角度が増加するように回転させる(例えば、時計回り、反時計回り)ことで取得されてもよく、その度合いは再生デバイス700を中心とした0度〜360度の所望のデータ分解能による。
【0087】
ブロック802における測定プロセスは、それぞれの向きにある再生デバイス700の各マイクロフォンアレイ702の値を収集するために繰り返されてもよい。例えば、スピーカの第1位置にある場合、個々のマイクロフォンアレイのマイクロフォン全ての応答値は、テスト音声が再生されるたびに特定されてもよい。場合によっては、テスト音声は角度位置ごとに1回再生され、個々のマイクロフォン全ておよび全てのマイクロフォンアレイにおける個々の応答値は、同じテスト音声の再生に基づいて特定されてもよい。応答値を取得する他の方法が採用されてもよい。
【0088】
ブロック802の終了時又は終了後にこのプロセスを通じて取得された測定値は、複数の向きに対する全てのマイクロフォンアレイの応答値を含んでもよい。これらの測定値は、各マイクロフォンアレイの測定値の集まりなど、個々の応答プロファイルに関する様々なデータセットに編成されてもよい。例えば、測定値の第1集まりは、マイクロフォンアレイ702aに関して取得された全ての測定値を含んでもよく、測定値の第2集まりは、マイクロフォンアレイ702bに関して捕捉された全ての測定値を含んでもよい。
【0089】
いくつかの態様では、これらの応答値は、2つ以上の異なる再生デバイスの向きにおいて同じマイクロフォンアレイに関して特定された応答値をグループ化した形式で、互いに関連付けられてもよい。ある較正測定値のグループは、再生デバイスが特定の向きにある間に取得された、特定のマイクロフォンアレイの測定値であってもよい。例えば、較正測定値の第1グループは、再生デバイス700が
図7Aに示される水平方向にある間に取得されたマイクロフォンアレイ702aの測定値であってもよく、較正測定値の第2グループは、再生デバイス700が
図7Bに示される垂直方向にある間に取得されたマイクロフォンアレイ702aの測定値であってもよい。
【0090】
別の態様では、上述したように、測定値の第1セットは例えば表1に示す測定値であってもよく、これは再生デバイスが第1向きにある場合に、第1マイクロフォンアレイに対する第1角度位置から再生されるテスト音声に対して生成される、マイクロフォンの測定値とすることができる。より具体的には、測定値の第1セットは、マイクロフォンアレイ702aの個々のマイクロフォン704それぞれに関する測定値であってもよい。
【0091】
いくつかの態様では、これらの測定値はベクトルとして編成されてもよい。各ベクトルは個々のマイクロフォンそれぞれに対応してもよく、また1つ又は複数のスピーカが同じ向きにある場合に得られる個々のマイクロフォンの測定値を含んでもよい。例えば、第1ベクトルは、スピーカ902の位置に対して0度〜360度間のあらゆる角度に増加させて測定する場合の、水平方向にあるマイクロフォン704aの値、又はマイクロフォン704bと704aとの差を表す相対値を含んでもよい。
【0092】
いくつかの態様では、測定値は、全てのマイクロフォンアレイに関して同じテスト音声を使用して取得されてもよい。例えば、テスト音声をその向きごとに1回再生することができ、マイクロフォンアレイの個々のマイクロフォンのいずれか又は全ての応答値を収集することができる。表1の値を拡充して、2つ以上のマイクロフォンアレイにおける個々のマイクロフォンの応答値又は相対応答値を含むようにすることができる。マイクロフォンアレイ702aおよびマイクロフォンアレイ702cに関する例が以下の表2に示されている。マイクロフォン702cアレイは個々のマイクロフォン706a〜706fを含む。下記の表2の例では、R
y、
zは、マイクロフォンyの応答値からマイクロフォンzの応答値を差し引いたものを表す。例えば、R
706d、
704c=マイクロフォン706dの応答値−マイクロフォン704cの応答値である。
【0094】
上述の応答値は、概して平面における測定値を表し得る。換言すれば、これらの値は、二次元において収集された測定情報に相当し得る。例えば、
図7Aに示される水平方向のマイクロフォンアレイ702aの場合、測定値は水平面(例えば、x−z面)に沿ったデータを表し得る。これは、例えば、テスト音声が再生されるときにスピーカ902の設置状況において同じ高さを維持することで達成することができる。本実施例では水平面に沿って応答データを収集することに関して述べてきたが、これらのデータは、中心点から同じだけの距離を維持しながら、異なる軸(例えば、縦方向および/又は横方向)を中心に垂直に(例えば、ロールおよび/又はピッチ)再生デバイス700又はスピーカ902を回転させるときに垂直面において収集することができる。
【0095】
いくつかの態様では、これらの較正値を、例えば第2平面(例えば、第1平面に直交する平面)に沿って収集された情報を、第1平面に沿って収集された情報に追加して、異なる平面からのデータの組み合わせを使用することにより、三次元(例えば、球状)の形式とすることができる。例えば、スピーカ902を、x軸を中心に回転させて、上述したのと同様の方法で応答を測定することにより、y−z平面に沿って(例えば、垂直に)測定値を収集してもよい。
【0096】
本明細書で述べられている訓練又は測定値は、システム内の1つ又は複数のデバイスを使用して取得されてもよい。例えば、再生デバイス700は、マイクロフォンアレイによって受信されたテスト音声の応答を判定してもよい。再生デバイス700は、応答値を再生デバイス700のメモリにローカルに記憶させ、および/又は処理および/又は保存を目的として、これらの応答値をコンピューティングデバイス(例えば、サーバ、コンピュータ、又は他の測定デバイス)に送信することができる。
【0097】
所与の再生デバイスモデルに関して取得された測定済みの応答値は、所与の再生デバイスモデルおよび/又はスピーカタイプと関連付けられ、所与の再生デバイスモデルおよび/又はマイクロフォンアレイモデルおよび/又は個々のマイクロフォンコンポーネントの代表値として、データベース又はサーバに記憶されてもよい。例えば、再生デバイス識別子(例えば、モデル番号、シリアル番号、供給者識別子)又はマイクロフォン識別子(例えば、モデル番号、シリアル番号、供給者識別子)の任意の組み合わせ、あるいは再生デバイス識別子とマイクロフォン識別子との同じ組み合わせを示す他の較正識別子を使用して特定され得る、同じ再生デバイスモデルにおいて使用され、同じ供給者から提供されるマイクロフォンアレイ又は個々のマイクロフォンに対して、同じ値が使用されてもよい。再生デバイスがそのマイクロフォンアレイにおける指向性の焦点(directional focus)を調整する準備ができるように、再生デバイスの製造中又はこれをユーザに提供する前に、これらの識別子を使用して再生デバイス700に対して、代表的な較正データを事前ロードしてもよい。いくつかの態様では、再生デバイスをネットワークへ接続するときに、再生デバイスの応答値をロード又は更新してもよい。これらの値は、ネットワークを介してコンピューティングデバイスから再生デバイスが取得するか、又はこれらは再生デバイスへと送信されてもよい。場合によっては、これらの値のロード又は更新を、再生デバイスの設定プロセス又は再生デバイスの他の較正プロセス(例えば、再生環境に基づく再生デバイスの調整、再生イコライザの調整プロセス)の間に行ってもよい。
【0098】
ブロック804で、再生デバイスの向きを決定してもよい。この向きは、再生デバイス700内のセンサ(例えば、加速度計、ジャイロスコープなど)に基づいて決定されてもよい。再生デバイスの向きは、2011年7月19日に出願番号13/186,249として出願され、2013年5月26日に米国特許第9,042,556号として発行された明細書、および2015年4月24日に出願番号14/696,041として出願され、2016年10月27日に米国特許出願公開第2016/0315384号として公開された明細書に記載されているように決定されてもよく、これらの両方の内容はその全体が参照として援用されている。再生デバイスの向きはあらかじめ定められていてもよい。例えば、あらかじめ定められた向きは、ブロック802で訓練応答が測定された向きに対応し得る。
【0099】
ブロック806で、音声入力を捕捉又は処理することを目的として使用するための、1つ又は複数のマイクロフォンアレイを決定してもよい。再生デバイス700は単一のマイクロフォンアレイを有してもよく、その場合、この単一のマイクロフォンアレイは、音声入力の捕捉に使用する目的で選択されることになる。いくつかの態様では、再生デバイス700は2つ以上のマイクロフォンアレイを有してもよく、その場合、1つ又は複数のマイクロフォンアレイが選択されてもよい。
【0100】
使用する目的で、いくつかのマイクロフォンアレイ702および特定のマイクロフォンアレイは、マイクロフォンアレイ702の位置、利用可能な処理能力、再生デバイスの向き、および/又は他のコンテキスト情報(例えば、再生環境に対するマイクロフォンの位置)などの様々な要因に依存して選択されてもよい。
【0101】
利用可能な処理能力の割合を評価するとき、再生デバイス700又は本システム内の他のデバイスは、再生デバイス700に対してローカルに、再生デバイス700に対して1つ又は複数のネットワーク(例えば、ローカルエリアネットワーク、ワイドエリアネットワーク)を介して、および/又は再生デバイス700に対して1つ又は複数のコンピューティングデバイスを介して利用可能となる処理能力に基づいて、その評価を行うことができる。例えば、再生デバイス700において選択されたマイクロフォンアレイは、音声入力の最初の部分を捕捉し、その捕捉された最初の部分を表すデータを別のデバイス(例えば、サーバ、制御デバイス、他の再生デバイス)に送信して、位置情報のために処理してもよい。いくつかの態様では、再生デバイス700は、音声入力と関連付けられた位置情報を特定するために、データをローカルに処理してもよい。
【0102】
使用するマイクロフォンアレイの数は、初期設定プロセス中、および/又は再生環境における再生デバイスの較正プロセス中(例えば、再生環境に基づく再生デバイスの調整)に決定されてもよい。
【0103】
いくつかの態様では、再生デバイスの上面にあるマイクロフォンアレイが選択されてもよい。場合によっては、再生デバイスの前方の音声に最も高感度を示すマイクロフォンアレイが選択されてもよい。さらに別の態様では、重力に対して最も垂直になるマイクロフォンが選択されてもよい。マイクロフォンアレイの重み付け又は優先度は、再生デバイスの向きに基づいて付与されてもよい。
【0104】
再生デバイス700が単一のマイクロフォンアレイ702のみを有するか、又は複数のマイクロフォンアレイ702のうちの1つのマイクロフォンアレイのみが音声入力の捕捉又は処理のために有効又は使用されるように選択を行う場合、その選択されたマイクロフォンアレイ702の1つが音声入力を捕捉するために有効にされるか、又は起動されてもよい。いくつかの態様では、マイクロフォンアレイ(複数可)における指向性の焦点を調整することは必要ではない可能性があり、その場合再生デバイス700は、有効にするか、又は起動する1つ又は複数のマイクロフォンアレイを選択した後に、コマンドを実行すべく音声入力を処理する準備ができていてもよい。
【0105】
有効にすべきマイクロフォンアレイ(複数可)が決定された後、本システムは、選択されたマイクロフォンアレイおよび再生デバイス700の向きに対応する応答データのセットを特定してもよい。例えば、
図7Aに示すように再生デバイス700が第1向きに現在方向付けられており、マイクロフォンアレイ702aが音声入力のために選択又は起動されている場合、本システム(例えば、
図5のデバイスのいずれか)はある応答値のグループを特定することができ、このグループは、マイクロフォンアレイ702aおよび再生デバイス700の現在の向き(例えば、第1向き)に対応している。
【0106】
ブロック808で、選択されたマイクロフォンアレイ(複数可)によって音声入力が検出されてもよい。例えば、選択されたマイクロフォンアレイ(複数可)は、音声コマンドの開始を継続的に監視していてもよい。音声コマンドは、起動ワード又はフレーズ(例えば、ウェイクアップワード、ホットワードとも言う)で始まり、コマンドを発するユーザに本システムによる実行を促すコマンドを発する用意があることを、本システムに通知することができる。起動ワードを発すると、これにより本システムは、音声コマンドにおいて起動ワードの後に発せられる言葉の処理を開始することができる。起動ワードが発せられたのを検出した後となるか、又は起動ワードが発せられたのを検出することを含み得る音声コマンドの開始を検出することにより、選択されたマイクロフォンアレイは、音声コマンドの処理を目的として、音声入力(例えば、話声入力)の捕捉(例えば、録音、ストリーミング、処理)を開始してもよい。
【0107】
ブロック810で、音声入力(例えば、話声入力、オーディオ入力)の音源の位置(例えば、一つ又は複数の次元における方向、一つ又は複数の平面における方向)が特定されてもよい。音声入力の音源の位置は、様々な精度で特定されてもよい。例えばこの位置は、マイクロフォンアレイごとの、又は再生デバイス700における正確な方向若しくはおおよその方向であってもよいし、あるいは選択されたマイクロフォンアレイ(複数可)又は再生デバイス700に対する方向であってもよい。音声入力の一部又はサンプルは、音声入力の音源の位置を特定する際に捕捉および使用されてもよい。例えば、音声入力のサンプルは、選択されたマイクロフォンアレイの個々のマイクロフォンそれぞれによって捕捉される、応答の形態であってもよい。これらの応答値は、個々のマイクロフォンのそれぞれによって捕捉された実際の応答であってもよいし、あるいはマイクロフォンアレイの個々のマイクロフォンにおける異なる対間の相対値であってもよい。これらの値は、ブロック802で取得された訓練応答値と同様に計算することができる。例えば、受信されたサンプル入力はテスト音声と同様に処理されてもよく、その場合は1つ又は複数のマイクロフォンアレイの個々のマイクロフォンにおける異なる対間の差を計算することができる。換言すれば、受信されたサンプル入力は表1又は表2と同じフォーマットに編成することができ、その場合は角度の関連付けが不明であるため、これをブロック810で特定することになる。
【0108】
音声入力のサンプル応答値を訓練応答値と比較して、マイクロフォンアレイ又は再生デバイスに対する当該入力の音源の方向を特定することができる。この比較は、訓練応答値の各セットを比較して、どの値のセットがサンプル入力応答に対応しているかを判定するステップを含んでもよい。訓練応答値の各セットはある角度値に対応しているので、音声入力の方向は、音声入力に対応する訓練応答のセットが有する角度値に対応している可能性がある。確率関数(例えば、確率分布関数(pdf)、ガウス分布)を使用して、サンプル入力応答がどの訓練応答のセット又は値と関連付けられているかと、訓練応答のセット又は値における対応する角度位置とを判定することにより、最も可能性の高い当該音声入力の方向を特定することができる。
【0109】
単一のマイクロフォンアレイがアクティブであるか又は有効にされる態様では、サンプル入力の応答値は、テスト時の全ての位置角度において1つのマイクロフォンアレイと関連付けられた訓練応答値のグループと比較されて、最も可能性の高い当該音声入力の方向が特定されてもよい。例えば、サンプル応答値のセットを確率密度関数などの確率関数に入れ、表1の応答値のセットと比較して、音声入力の方向が0度位置からのものである確率を特定してもよい。確率関数の結果は、当該音声入力の方向が値のセットと関連付けられた方向(例えば、0度位置)である確率を示す確率値(例えば、確率密度関数の距離値)であってもよい。いくつかの態様では、この確率値はパーセンテージであってもよく、この場合パーセンテージが高いほど、その音声入力値が値のセットと関連付けられた方向に対応している可能性が高くなる。他の態様では、この確率値は確率密度関数の距離値であってもよく、この場合値が小さいほど、その音声入力値が値のセットと関連付けられた方向に対応している可能性が高くなる。
【0110】
サンプル入力応答値は、値のグループのサブセット、又は値のサブセット若しくはグループのそれぞれの確率値を生成している値のグループ全体と比較されてもよい。例えば、0度〜360度の間で5度おきに訓練応答が取得されていてもよい。それ程高分解能のデータは必要とならない可能性があるため、本システムは0度〜360度の間で10度おきに訓練応答を比較してもよい。場合によっては、訓練応答は20度おきに比較されてもよく、またこの比較プロセスは、確率値によって示される、最も対応する可能性の高い方向の一定度数(例えば、10度、15度など)のプラスマイナスの範囲内で、x度数(例えば、1度、5度など)おきに繰り返されてもよい。例えば、確率密度関数の距離値がその確率を表す場合、確率密度関数の最低又は最小の距離値およびそれと関連付けられた角度位置は、その音声入力において最も可能性の高い方向に対応している可能性がある。
【0111】
本明細書で述べられるように、いくつかの態様では、音声入力を検出および記録するために2つ以上のマイクロフォンアレイがアクティブであってもよい。2つ以上のマイクロフォンアレイに対する処理は、選択された各マイクロフォンアレイに対して個別に実行されてもよい。例えば、サンプル入力応答は、1つのマイクロフォンアレイに関する応答値のグループと比較されることで、同時に2つ以上のマイクロフォンアレイのそれぞれに関する確率値のセットを生成することができる。確率値のセット内の値はそれぞれ、音声入力の音源が所与の方向からのものである可能性を表し得る。
【0112】
特定のマイクロフォンアレイに関する確率値のセットに重みを割り当ててもよい。この割り当てられた重みは、再生デバイスの向きに応じて変化する可能性のある、特定のマイクロフォンアレイと関連付けられた重みであってもよい。例えば、
図7Bに示される垂直方向では、マイクロフォンアレイ702cと関連付けられた値は、マイクロフォンアレイ702aと関連付けられた値よりも大きな重みを付与される可能性があり、これはなぜならマイクロフォンアレイ702cが、より垂直方向にあるマイクロフォンよりも音源の位置に関してより有用な情報を提供し得るからである。
【0113】
サンプル入力応答は、マイクロフォンアレイ内の全てのマイクロフォンそれぞれに関する応答値のグループと同時に比較されてもよい。例えば、音声入力値は、個々のマイクロフォンの対を固有に組み合わせたものごとに、相対応答値を有する入力応答値のセットとして編成されてもよい。これらの入力応答値のセットは、訓練応答値の1つ又は複数のセットと比較されてもよく、この場合訓練応答値のセットは、個々のマイクロフォンの対を固有に組み合わせたものごとの訓練応答値を含む。
【0114】
先の説明と同様に、特定のマイクロフォンアレイの応答値は、そのマイクロフォンアレイに対して生成された対応する確率値に重み付けすることにより、より重く重み付けされてもよい。
【0115】
同様に、サンプル入力応答値は訓練応答値のベクトルと比較されてもよい。
【0116】
本明細書で述べられるように、応答値は、大きさ成分および位相成分の2つの成分を有してもよい。大きさは、マイクロフォンによって受信される音声の大きさ又は振幅を示し得、位相は、マイクロフォンによって受信される音声のタイミングを示し得る。例えば、2つのマイクロフォン間の位相情報を比較することにより、1つのマイクロフォンが別のマイクロフォンよりも先に特定の音を受信したことが示され得る。この位相情報を使用して、受信された音が反射された時点を特定することができる。
【0117】
本明細書で述べられるサンプル入力応答値と訓練応答値との比較では、音源が特定の方向にある可能性を判定するときに、応答値の大きさと位相との任意の組み合わせを比較してもよい。例えば、大きさのみが比較されてもよく、位相値のみが比較されてもよく、あるいは大きさと位相値とが比較されてもよい。
【0118】
ブロック812で、ブロック810において特定された音源の位置に基づいて、選択されたマイクロフォンアレイ(複数可)における指向性の焦点を調整してもよい。例えば、捕捉される音声入力の質を向上させるために、位置情報を使用して、音声入力の捕捉プロセス中にビームフォーミングおよび/又は音響エコー補正(aec)プロセスに通知することができる。
【0119】
ブロック814で、マイクロフォンアレイにおける調整された指向性の焦点に基づいて、音声入力を捕捉してもよい。例えば、選択されたマイクロフォンアレイ(複数可)は、ブロック810で特定された位置に基づき、そこで特定された方向にビーム形成されてもよい。場合によっては、調整が必要とならない可能性がある。例えば、本システムは、既存の又は現在の指向性の焦点が適切であり得るか又は十分であり得ると判定してもよいし、あるいは本システムは、指向性の焦点が必須の音声入力の捕捉ではない可能性があると判定してもよい。
【0120】
ブロック816で、捕捉された音声入力は、音声入力に含まれる任意の音声コマンドを特定するために処理されてもよい。捕捉された音声入力は音声からテキストに変換されてもよく、またブロック818で、音声入力に含まれるメディア再生システム用の任意のコマンドが実行されてもよい。
【0121】
再生デバイス700がメディア再生環境(例えば、
図1に示す環境)にあるときに、その向きおよび/又は位置決めが変更されたと再生デバイス700又は本システム内の他のデバイスが判定するたびに、ブロック804から806は繰り返されてもよい。例えば、再生デバイス内のセンサ(例えば、加速度計、ジャイロスコープ)は、その向きにおいて動きおよび/又は変化があった時点を判定することができる。
【0122】
方法800又は方法800のブロックのサブセットは周期的に、非周期的に、および/又は特定のイベントが発生したことに応答して(例えば、再生環境に対する再生特性の調整、新たな環境での設定、デバイスの向きの変更)繰り返されてもよい。
【0123】
IV.結論
本明細書は、様々な例示のシステム、方法、装置、および製品などを開示しており、それらは、他のコンポーネントの中で、ハードウェア上で実行されるファームウェアおよび/又はソフトウェアを含む。そのような例は、単なる例示であり、限定されるものとみなすべきではないと理解される。例えば、これらのファームウェア、ハードウェア、および/又はソフトウェアの態様又はコンポーネントのいくつか又はすべてが、専らハードウェアに、専らソフトウェアに、専らファームウェアに、又はハードウェア、ソフトウェア、および/又はファームウェアの任意の組み合わせを実施することができることが意図されている。したがって、提供されているそれらの例は、それらのシステム、方法、装置、および/又は生産物を実施する唯一の方法ではない。
【0124】
さらに、本明細書での「実施形態」への言及は、その実施形態に関連して記載される特定の特徴、構造、又は特性が、本発明の少なくとも1つの例示的な実施形態に含まれ得ることを意味する。明細書における様々な部分でのこのフレーズの使用は、同じ実施形態を必ずしも言及しておらず、また、他の実施形態と互いに排他的な別個の又は代替的な実施形態でもない。このように、本明細書に記載の実施形態を他の実施形態と組み合わせてもよいことが、明示的および暗示的に当業者によって理解される。
【0125】
本明細書は、例示的な環境、システム、手順、ステップ、論理ブロック、処理、および他のシンボル表現に関して広く示されており、それらは直接又は間接的にネットワークに接続されるデータ処理デバイスの動作に類似するものである。これらの処理説明および表現は、一般的に当業者によって使用され、それらの仕事の内容を他の当業者に最も効率良く伝えることができる。多くの具体的な内容が、本開示を理解するために提供されている。しかしながら、当業者にとって、本開示の特定の実施形態が特定の、具体的な詳細なしに実施され得ることは理解される。他の例では、周知の方法、手順、コンポーネント、および回路が、実施形態を不必要に曖昧にすることを避けるため、詳細に説明していない。したがって、本開示の範囲は、上記した実施形態よりむしろ添付された特許請求の範囲によって定義される。
【0126】
添付の特許請求の範囲のいずれかが単にソフトウェアおよび/又はファームウェアへの実装をカバーするように読み取ると、少なくとも1つの例における要素の1つ又は複数は、本明細書では、ソフトウェアおよび/又はファームウェアを記憶する有形の非一時的な記憶媒体、例えば、メモリ、DVD、CD、Blu−ray(登録商標)等を含むことが明確に定められている。