(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-19
(45)【発行日】2024-11-27
(54)【発明の名称】マルチモーダルスマートオーディオデバイスシステムのアテンティブネス表現
(51)【国際特許分類】
G10L 15/28 20130101AFI20241120BHJP
G06F 3/16 20060101ALI20241120BHJP
G10L 15/10 20060101ALI20241120BHJP
【FI】
G10L15/28 400
G06F3/16 650
G10L15/10 200W
G10L15/28 230K
(21)【出願番号】P 2022506122
(86)(22)【出願日】2020-07-30
(86)【国際出願番号】 US2020044346
(87)【国際公開番号】W WO2021022089
(87)【国際公開日】2021-02-04
【審査請求日】2023-07-28
(32)【優先日】2019-07-30
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-07-30
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-01-21
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-04-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100101683
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【氏名又は名称】村瀬 成康
(72)【発明者】
【氏名】ハインズ,クリストファー グラハム
(72)【発明者】
【氏名】キャトカー,ローワン ジェームス
(72)【発明者】
【氏名】ディキンズ,グレン エヌ.
(72)【発明者】
【氏名】カートライト,リチャード ジェイ.
(72)【発明者】
【氏名】ダグラス,ジェレマイア エミール
(72)【発明者】
【氏名】トーマス,マーク アール.ピー.
【審査官】土井 悠生
(56)【参考文献】
【文献】米国特許出願公開第2019/0179611(US,A1)
【文献】米国特許出願公開第2018/0211665(US,A1)
【文献】米国特許出願公開第2017/0330429(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-17/26
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
環境内の一群のデバイスの制御方法であって、
前記環境内の複数のマイクロフォンのうちの各マイクロフォンから出力信号を受信することであって、前記複数のマイクロフォンのそれぞれは前記環境のマイクロフォン位置に存在し、前記出力信号は人の発声に対応することと、
前記出力信号に少なくとも部分的に基づいて、前記人の位置を含む
確率が閾値
以上である前記環境内のゾーンを決定することと、
前記ゾーン内で複数の空間変動的アテンティブネス信号を生成することであって、前記複数のアテンティブネス信号のうちの各アテンティブネス信号は前記ゾーン内に位置するデバイスによって生成され、各アテンティブネス信号は、対応するデバイスが、コマンドを待っている動作モードにあることを示し、各アテンティブネス信号は、前記対応するデバイスの関連性メトリックを示すことと、
を含
み、
前記関連性メトリックは、前記ゾーン内のある位置から複数のマイクロフォンの音響中心までの推定距離に少なくとも部分的に基づく、方法。
【請求項2】
第1のデバイスによって生成されるアテンティブネス信号は、第2のデバイスの関連性メトリックを示し、前記第2のデバイスは対応するデバイスである、請求項1に記載の方法。
【請求項3】
前記位置は、前記人の推定位置である、請求項
1または2に記載の方法。
【請求項4】
前記関連性メトリックは、前記対応するデバイスの推定可視性に少なくとも部分的に基づく、請求項1~
3のいずれか一項に記載の方法。
【請求項5】
前記発声はウェイクワードを含む、請求項1~
4のいずれか一項に記載の方法。
【請求項6】
前記アテンティブネス信号は、ウェイクワード確信度の推定に少なくとも部分的に従って変動する、請求項
5に記載の方法。
【請求項7】
前記アテンティブネス信号の少なくとも1つは、前記発声の時点よりも前に前記ゾーン内のデバイスによって生成された少なくとも1つの以前の信号の変調を含む、請求項1~
6のいずれか一項に記載の方法。
【請求項8】
前記少なくとも1つの以前の信号は光信号を含み、前記変調は、カラー変調、カラー飽和度変調、または光強度変調のうちの少なくとも1つを含む、請求項
7に記載の方法。
【請求項9】
前記少なくとも1つの以前の信号は音信号を含み、前記変調はレベル変調を含む、請求項
7に記載の方法。
【請求項10】
前記変調は、ファン速度、火炎サイズ、モーター速度、または空気流量のうちの1つ以上の変化を含む、請求項
7に記載の方法。
【請求項11】
前記変調はスウェルを含み、前記スウェルは信号変調の所定のシーケンスを含む、請求項
7に記載の方法。
【請求項12】
前記スウェルは、ベースラインレベルからの信号レベルの増加に対応する第1の期間を含む、請求項
11に記載の方法。
【請求項13】
前記スウェルは、ベースラインレベルへの信号レベルの減少に対応する第2の期間を含む、請求項
12に記載の方法。
【請求項14】
前記スウェルは、前記第1の期間後でかつ前記第2の期間前のホールド期間を含み、前記ホールド期間は一定信号レベルに対応する、請求項
13に記載の方法。
【請求項15】
前記スウェルは、ベースラインレベルからの信号レベルの減少に対応する第1の期間を含む、請求項
11に記載の方法。
【請求項16】
前記マイクロフォンのうちの少なくとも1つは、スマートオーディオデバイスに含まれるかまたは前記スマートオーディオデバイスと通信するために構成される、請求項1~
15のいずれか一項に記載の方法。
【請求項17】
あるデバイスが
前記ゾーンに関連付けられた特定のデバイスグループ内にあるか否かを判定する自動化プロセスを更に含む、請求項1~
16のいずれか一項に記載の方法。
【請求項18】
前記自動化プロセスは、前記デバイスによって放出される光または音のうちの少なくとも一方に対応するセンサーデータに少なくとも部分的に基づく、請求項
17に記載の方法。
【請求項19】
前記自動化プロセスは、発生源と受信機との間の通信に少なくとも部分的に基づく、請求項
17に記載の方法。
【請求項20】
前記発生源は光源または音源である、請求項
19に記載の方法。
【請求項21】
前記自動化プロセスは、発生源および組織化ハブデバイスまたは受信機および前記組織化ハブデバイスのうちの少なくとも一方の間の通信に少なくとも部分的に基づく、請求項
17に記載の方法。
【請求項22】
前記自動化プロセスは、ある持続期間の間、スイッチオンおよびオフされる光源または音源に少なくとも部分的に基づく、請求項
17に記載の方法。
【請求項23】
前記人からの明示的フィードバックに従って、前記自動化プロセスを自動的に更新することを更に含む、請求項
17に記載の方法。
【請求項24】
推定ゾーンに基づくビームフォーミングの成功、前記推定ゾーンに基づくマイクロフォン選択の成功、前記人が、音声アシスタントの応答を異常に終了したという判定、低確信度結果を返すコマンド認識器、または、ウェイクワードが話されたことの低確信度を返す第2のパス再帰的ウェイクワード検出器のうちの1つ以上に基づく暗黙的フィードバックに従って前記自動化プロセスを自動的に更新することを更に含む、請求項
17に記載の方法。
【請求項25】
前記ゾーン内に位置するデバイスの少なくとも1つのスピーカを選択し、前記人に音を提供するように前記少なくとも1つのスピーカを制御することを更に含む、請求項1~
24のいずれか一項に記載の方法。
【請求項26】
前記ゾーン内に位置するデバイスの少なくとも1つのマイクロフォンを選択し、前記少なくとも1つのマイクロフォンによって出力される信号をスマートオーディオデバイスに提供することを更に含む、請求項1~
25のいずれか一項に記載の方法。
【請求項27】
前記複数のマイクロフォンのうちの第1のマイクロフォンは第1のサンプルクロックに従ってオーディオデータをサンプリングし、前記複数のマイクロフォンのうちの第2のマイクロフォンは第2のサンプルクロックに従ってオーディオデータをサンプリングする、請求項1~
26のいずれか一項に記載の方法。
【請求項28】
請求項1~
27のいずれか一項に記載の方法を実施するように構成されるシステム。
【請求項29】
請求項1~
27のいずれか一項に記載の方法を
実行するように1つ以上のデバイスを制御する命令を含む
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2019年7月30日に出願された米国仮特許出願第62/880,110号、2019年7月30日に出願された米国仮特許出願第62/880,112号、2020年1月21日に出願された米国仮特許出願第62/964,018号、および2020年4月1日に出願された米国仮特許出願第63/003,788号の優先権を主張し、これらは本願において参考のため援用する。
【0002】
本開示は、環境内で複数のスマートオーディオデバイスを自動的に制御するシステムおよび方法に関する。
【背景技術】
【0003】
オーディオデバイス(スマートオーディオデバイスを含むが、それらに限定されない)は、広く用いられており、多くの家庭において一般的な要素になりつつある。オーディオデバイスを制御する既存のシステムおよび方法は利益を提供するが、改善されたシステムおよび方法が望まれる。
【0004】
[表記および命名]
本明細書中において、「スマートオーディオデバイス」という表現は、単一目的オーディオデバイスまたはバーチャルアシスタント(例えば、コネクテッドバーチャルアシスタント)であるスマートデバイスを表すために用いられる。単一目的オーディオデバイスとは、少なくとも1つのマイクロフォンを含むかそれに接続される(いくつかの例において少なくとも1つのスピーカも含むかそれに接続される)デバイス(例えば、スマートスピーカ、テレビ(TV)または携帯電話)であり、単一の目的を達成するために概してまたは主として設計されているデバイスである。TVは典型的には、番組素材からのオーディオを再生することができる(再生できると考えられている)が、ほとんどの場合、現代のTVは、何らかのオペレーティングシステムを実行し、その上で、テレビを見るためのアプリケーションを含む複数のアプリケーションがローカルに実行される。同様に、携帯電話機のオーディオ入力と出力は多くのことを行い得るが、これらは当該電話機上で実行されているアプリケーションによって提供されている。この意味で、スピーカ(単数または複数)およびマイクロフォン(単数または複数)を有する単一目的オーディオデバイスは、スピーカおよびマイクロフォンを直接使用するためのローカルアプリケーションおよび/またはサービスを実行するように構成されることが多い。ゾーンすなわちユーザー設定されたエリアにわたってオーディオの再生を実現するためにグループ化するように構成された、単一目的オーディオデバイスもある。
【0005】
本明細書中において、「バーチャルアシスタント」(例えば、コネクテッドバーチャルアシスタント)とは、少なくとも1つのマイクロフォンを含むかそれに接続される(オプションで少なくとも1つのスピーカも含むかそれに接続される)デバイス(例えば、スマートスピーカ、スマートディスプレイまたは音声アシスタント統合デバイス)であり、ある意味でクラウドイネーブルドであるか、さもなくばバーチャルアシスタント自身には実装されていないアプリケーションに対し、複数のデバイス(バーチャルアシスタントとは異なる)を利用できるようにし得るものである。複数のバーチャルアシスタントが、例えば、非常に離散的かつ条件的に定義された方法で、協働することがあってもよい。例えば、2つ以上のバーチャルアシスタントが、それらの1つ(すなわちウェイクワードを聞いたことを最も確信している1つ)が、その言葉に応答するという意味において、協働し得る。複数のコネクテッドデバイスが、1つのメインアプリケーションによって管理される一種の集合体を形成してもよい。その1つのメインアプリケーションは、バーチャルアシスタントであり得る(または、バーチャルアシスタントを含むかまたは実装し得る)。
【0006】
本明細書中において、「ウェイクワード」とは、任意の音(例えば、人間によって発せられた単語、または他の何らかの音)の意味において広義で使用される。スマートオーディオデバイスは、(スマートオーディオデバイスに含まれるか接続された少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを用いた)音の検出(「聞き取り(hearing))に応答して、目覚めるよう構成される。この文脈において「目覚める(awake)」とは、デバイスがサウンドコマンドを待つ(すなわち、耳を立てている)状態に入ることを表す。いくつかの例において、本明細書において「ウェイクワード」と呼ばれ得るものは、複数のワード、例えばフレーズを含み得る。
【0007】
本明細書中において、「ウェイクワード検出器」という表現は、リアルタイムのサウンド(例えば、発話)特徴と学習済みモデルとの間の整合性を連続的に探索するように構成されたデバイス(またはデバイスを構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードイベントは、ウェイクワードが検出された確率が事前に定義された閾値を超えているとウェイクワード検出器によって判断されるたびに、トリガされる。例えば閾値は、誤受入率と誤拒否率との間の良好な妥協点を与えるように調整された所定の閾値であってもよい。ウェイクワードイベントの後、デバイスはコマンドに耳を立てる状態(「目覚めた(awakened)」状態または「アテンティブネス(attentiveness)」状態と呼ばれることがある)に入り、この状態において、受け取ったコマンドをより大規模でより計算集約的な認識器に渡し得る。
【0008】
特許請求の範囲を含む本開示全体を通じて、「スピーカ」および「ラウドスピーカ」は、単一のスピーカフィードによって駆動される任意の音響放射トランスデューサ(またはトランスデューサのセット)を表すように同義的に使用される。典型的なヘッドフォンセットは、2つのスピーカを含む。スピーカは、すべてが単一の共通のスピーカフィードによって駆動されるような、複数のトランスデューサ(例えばウーファーとツイーター)を含むように実装され得る。スピーカフィードは、場合によっては、異なるトランスデューサに接続された異なる回路ブランチにおいて異なる処理を受けることもある。
【0009】
特許請求の範囲を含む本開示全体を通じて、信号またはデータに対して演算(例えば、信号またはデータに対するフィルタリング、スケーリング、変換、またはゲインの適用)を「行う」という表現は、信号またはデータに対して直接演算を行うこと、または信号またはデータの処理済みバージョン(例えば、演算の実行を受ける前に予備フィルタリングまたは前処理されたバージョンの信号)に対して演算を行うことの意味において広義で使用される。
【0010】
特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、デバイス、システム、またはサブシステムの意味において広義で使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれることがあり、そのようなサブシステムを含むシステム(例えば、複数の入力に応答してX個の出力信号を生成するシステムであって、入力のうちM個をサブシステムが生成し、他のX-M個の入力が外部ソースから受信される)は、デコーダシステムとも呼ばれ得る。
【0011】
特許請求の範囲を含む本開示全体を通じて、「プロセッサ」という用語は、データ(例えば、オーディオ、またはビデオもしくは他の画像データ)に対する演算を実行するためにプログラマブルであるかまたは他の方法で(例えば、ソフトウェアまたはファームウェアによって)構成可能なシステムまたはデバイスの意味において広義で使用される。プロセッサの例としては、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンドデータに対してパイプライン化処理を行うようにプログラムおよび/または他の方法で構成されたデジタルシグナルプロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットなどが挙げられる。
【発明の概要】
【0012】
本開示の少なくともいくつかの態様は、ある環境における一群のデバイス(system of devices)の制御方法等の方法によって実装することができる。いくつかの例において、本方法は、本明細書において開示されるような制御システムによって少なくとも部分的に実装することができる。いくつかのそのような方法は、環境内の複数のマイクロフォンのうちの各マイクロフォンから出力信号を受信することを含み得る。複数のマイクロフォンのそれぞれは環境のマイクロフォン位置に存在し得る。出力信号は、いくつかの例において、人の発声に対応し得る。いくつかの例によれば、マイクロフォンの少なくとも1つは、スマートオーディオデバイス内に含まれ得る、または、スマートオーディオデバイスと通信するために構成され得る。いくつかの例において、複数のマイクロフォンのうちの第1のマイクロフォンは第1のサンプルクロックに従ってオーディオデータをサンプリングすることができ、複数のマイクロフォンのうちの第2のマイクロフォンは第2のサンプルクロックに従ってオーディオデータをサンプリングすることができる。
【0013】
いくつかのそのような方法は、出力信号に少なくとも部分的に基づいて、人の位置を含むことについての閾値確率を少なくとも有する環境内のゾーンを決定することを含み得る。いくつかのそのような方法は、ゾーン内で複数の空間変動的アテンティブネス信号を生成することを含み得る。いくつかの例において、複数のアテンティブネス信号のうちの各アテンティブネス信号はゾーン内に位置するデバイスによって生成され得る。各アテンティブネス信号は、例えば、対応するデバイスが、コマンドを待っている動作モードにあることを示し得る。いくつかの例において、各アテンティブネス信号は、対応するデバイスの関連性メトリックを示し得る。
【0014】
いくつかの実施態様において、第1のデバイスによって生成されるアテンティブネス信号は、第2のデバイスの関連性メトリックを示していてもよい。第2のデバイスは、いくつかの例において、第1のデバイスに対応するデバイスであってもよい。いくつかの例において、発声は、ウェイクワードであり得る、または、ウェイクワードを含み得る。いくつかのそのような例によれば、アテンティブネス信号は、ウェイクワード確信度の推定に従って少なくとも部分的に変動する。
【0015】
いくつかの例によれば、アテンティブネス信号の少なくとも1つは、発声時点に先立つ、ゾーン内でのデバイスによって生成される少なくとも1つの以前の信号の変調であってもよい。いくつかの例において、少なくとも1つの以前の信号は光信号である、または、光信号を含むことができる。いくつかのそのような例によれば、変調は、カラー変調、カラー飽和度変調、および/または光強度変調であってもよい。
【0016】
いくつかの例において、少なくとも1つの以前の信号は、音信号である、または、音信号を含むことができる。いくつかのそのような例によれば、変調は、レベル変調であってもよい。代替的にまたは追加的に、変調は、ファン速度、火炎サイズ、モーター速度、または空気流量のうちの1つ以上の変化であってもよい。
【0017】
いくつかの例によれば、変調は、本明細書において「スウェル(swell)」と呼ばれるものであってもよい。スウェルは、信号変調の所定のシーケンスであってもよいし、信号変調の所定のシーケンスを含んでいてもよい。いくつかの例において、スウェルは、ベースラインレベルからの信号レベルの増加に対応する第1の期間を含み得る。いくつかのそのような例によれば、スウェルは、ベースラインレベルへの信号レベルの減少に対応する第2の期間を含み得る。いくつかの例において、スウェルは、第1の期間後でかつ第2の期間前のホールド期間を含み得る。ホールド期間は、いくつかの例において、一定の信号レベルに対応していてもよい。いくつかの例において、スウェルは、ベースラインレベルからの信号レベルの減少に対応する第1の期間を含み得る。
【0018】
いくつかの例によれば、関連性メトリックは、ある位置からの推定距離に少なくとも部分的に基づいていてもよい。いくつかの例において、当該位置は、人の推定位置であってもよい。いくつかの例において、推定距離は、ゾーン内での当該位置から複数のマイクロフォンの音響中心までの推定距離であってもよい。いくつかの実施態様によれば、関連性メトリックは、対応するデバイスの推定可視性に少なくとも部分的に基づいていてもよい。
【0019】
いくつかのそのような方法は、デバイスがデバイスグループ内にあるか否かを判定する自動化プロセスを更に含むことができる。いくつかのそのような例によれば、自動化プロセスは、デバイスによって放出される光または音に対応するセンサーデータに少なくとも部分的に基づくことができる。いくつかの例において、自動化プロセスは、発生源と受信機との間の通信に少なくとも部分的に基づくことができる。発生源は、例えば、光源または音源であってもよい。いくつかの例によれば、自動化プロセスは、発生源および組織化(orchestrated)ハブデバイスおよび/または受信機および組織化ハブデバイスの間の通信に少なくとも部分的に基づくことができる。いくつかの例において、自動化プロセスは、ある持続期間の間、スイッチオンおよびオフされる光源および/または音源に少なくとも部分的に基づくことができる。
【0020】
いくつかのそのような方法は、人からの明示的フィードバックに従って、自動化プロセスを自動的に更新することを含むことができる。代替的にまたは追加的に、いくつかの方法は、暗黙的フィードバックに従って、自動化プロセスを自動的に更新することを含むことができる。暗黙的フィードバックは、例えば、推定ゾーンに基づくビームフォーミングの成功、推定ゾーンに基づくマイクロフォン選択の成功、人が、音声アシスタントの応答を異常に終了したという判定、低確信度結果を返すコマンド認識器、および/または、ウェイクワードが話されたことの低確信度を返す第2のパス再帰的ウェイクワード検出器に基づくことができる。
【0021】
いくつかの方法は、ゾーン内に位置するデバイスの少なくとも1つのスピーカを選択し、人に音を提供するようにその少なくとも1つのスピーカを制御することを含むことができる。
【0022】
代替的にまたは追加的に、いくつかの方法は、ゾーン内に位置するデバイスの少なくとも1つのマイクロフォンを選択することができる。いくつかのそのような方法は、その少なくとも1つのマイクロフォンによって出力される信号をスマートオーディオデバイスに提供することを含むことができる。
【0023】
本明細書において説明する動作、機能、および/または方法の一部または全ては、1つ以上の非一時的媒体上に記憶される命令(例えば、ソフトウェア)に従って1つ以上のデバイスが実施することができる。そのような非一時的媒体は、限定はしないが、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイス等を含む、本明細書において説明するメモリデバイス等のメモリデバイスを含むことができる。したがって、本開示で説明する主題のいくつかの発明の態様を、ソフトウェアをその上に記憶している非一時的媒体に実装することができる。
【0024】
例えば、ソフトウェアは、環境内の一群のデバイスを制御することを含む方法を実施するように1つ以上のデバイスを制御する命令を含むことができる。いくつかのそのような方法は、環境内の複数のマイクロフォンのうちの各マイクロフォンから出力信号を受信することを含むことができる。複数のマイクロフォンのそれぞれは環境のマイクロフォン位置に存在し得る。出力信号は、いくつかの例において、人の発声に対応し得る。いくつかの例によれば、マイクロフォンのうちの少なくとも1つは、スマートオーディオデバイス内に含まれ得る、またはスマートオーディオデバイスと通信するために構成され得る。いくつかの例において、複数のマイクロフォンのうちの第1のマイクロフォンは第1のサンプルクロックに従ってオーディオデータをサンプリングすることができ、複数のマイクロフォンのうちの第2のマイクロフォンは第2のサンプルクロックに従ってオーディオデータをサンプリングすることができる。
【0025】
いくつかのそのような方法は、出力信号に少なくとも部分的に基づいて、人の位置を含む閾値確率を少なくとも有する環境内のゾーンを決定することを含み得る。いくつかのそのような方法は、ゾーン内で複数の空間変動的アテンティブネス信号を生成することを含み得る。いくつかの例において、複数のアテンティブネス信号のうちの各アテンティブネス信号はゾーン内に位置するデバイスによって生成され得る。各アテンティブネス信号は、例えば、対応するデバイスが、コマンドを待っている動作モードにあることを示し得る。いくつかの例において、各アテンティブネス信号は、対応するデバイスの関連性メトリックを示し得る。
【0026】
いくつかの実施態様において、第1のデバイスによって生成されるアテンティブネス信号は、第2のデバイスの関連性メトリックを示していてもよい。第2のデバイスは、いくつかの例において、第1のデバイスに対応するデバイスであってもよい。いくつかの例において、発声は、ウェイクワードであり得る、または、ウェイクワードを含み得る。いくつかのそのような例によれば、アテンティブネス信号は、ウェイクワード確信度の推定に従って少なくとも部分的に変動する。
【0027】
いくつかの例によれば、アテンティブネス信号の少なくとも1つは、発声時点に先立つ、ゾーン内でのデバイスによって生成される少なくとも1つの以前の信号の変調であってもよい。いくつかの例において、少なくとも1つの以前の信号は光信号であり得る、または、光信号を含み得る。いくつかのそのような例によれば、変調は、カラー変調、カラー飽和度変調、および/または光強度変調であってもよい。
【0028】
いくつかの例において、少なくとも1つの以前の信号は、音信号であり得る、または、音信号を含み得る。いくつかのそのような例によれば、変調は、レベル変調であってもよい。代替的にまたは追加的に、変調は、ファン速度、火炎サイズ、モーター速度、または空気流量のうちの1つ以上の変化であってもよい。
【0029】
いくつかの例によれば、変調は、本明細書において「スウェル」と呼ばれるものであってもよい。スウェルは、信号変調の所定のシーケンスであり得る、または、信号変調の所定のシーケンスを含み得る。いくつかの例において、スウェルは、ベースラインレベルからの信号レベルの増加に対応する第1の期間を含み得る。いくつかのそのような例によれば、スウェルは、ベースラインレベルへの信号レベルの減少に対応する第2の期間を含み得る。いくつかの例において、スウェルは、第1の期間後でかつ第2の期間前のホールド期間を含み得る。ホールド期間は、いくつかの例において、一定信号レベルに対応していてもよい。いくつかの例において、スウェルは、ベースラインレベルからの信号レベルの減少に対応する第1の期間を含み得る。
【0030】
いくつかの例によれば、関連性メトリックは、ある位置からの推定距離に少なくとも部分的に基づいていてもよい。いくつかの例において、当該位置は、人の推定位置であってもよい。いくつかの例において、推定距離は、ゾーン内での当該位置から複数のマイクロフォンの音響中心までの推定距離であってもよい。いくつかの実施態様によれば、関連性メトリックは、対応するデバイスの推定可視性に少なくとも部分的に基づいていてもよい。
【0031】
いくつかのそのような方法は、デバイスがデバイスグループ内にあるか否かを判定する自動化プロセスを含むことができる。いくつかのそのような例によれば、自動化プロセスは、デバイスによって放出される光または音に対応するセンサーデータに少なくとも部分的に基づくことができる。いくつかの例において、自動化プロセスは、発生源と受信機との間の通信に少なくとも部分的に基づくことができる。発生源は、例えば、光源または音源であってもよい。いくつかの例によれば、自動化プロセスは、発生源および組織化ハブデバイスまたは受信機および組織化ハブデバイスの間の通信に少なくとも部分的に基づくことができる。いくつかの例において、自動化プロセスは、ある持続期間の間、スイッチオンおよびオフされる光源および/または音源に少なくとも部分的に基づくことができる。
【0032】
いくつかのそのような方法は、人からの明示的フィードバックに従って、自動化プロセスを自動的に更新することを含むことができる。代替的にまたは追加的に、いくつかの方法は、暗黙的フィードバックに従って自動化プロセスを自動的に更新することを含むことができる。暗黙的フィードバックは、例えば、推定ゾーンに基づくビームフォーミングの成功、推定ゾーンに基づくマイクロフォン選択の成功、人が、音声アシスタントの応答を異常に終了したという判定、低確信度結果を返すコマンド認識器、および/またはウェイクワードが話されたことの低確信度を返す第2のパス再帰的ウェイクワード検出器に基づくことができる。
【0033】
いくつかの方法は、ゾーン内に位置するデバイスの少なくとも1つのスピーカを選択し、人に音を提供するようにその少なくとも1つのスピーカを制御することを含むことができる。
【0034】
代替的にまたは追加的に、いくつかの方法は、ゾーン内に位置するデバイスの少なくとも1つのマイクロフォンを選択することを含むことができる。いくつかのそのような方法は、その少なくとも1つのマイクロフォンによって出力される信号をスマートオーディオデバイスに提供することを含むことができる。
【0035】
本開示の少なくともいくつかの態様を、装置によって実装することができる。例えば、1つ以上のデバイスは、本明細書において開示する方法を少なくとも部分的に実施することができる場合がある。いくつかの実施態様において、装置は、インターフェースシステムおよび制御システムを含むことができる。制御システムは、1つ以上の汎用の単一チップまたはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェアコンポーネント、またはその組み合わせを含むことができる。
【0036】
本明細書において説明する主題の1つ以上の実施態様の詳細は添付の図面および下記明細書において説明される。主題の他の特徴、態様および有利な点は本明細書、図面および特許請求の範囲から明らかとなる。以下の図の相対的な寸法は、縮尺通りに従って描かれない場合があることに留意されたい。
【図面の簡単な説明】
【0037】
【
図2】3つのデバイスによって決定されたウェイクワード確信度値曲線の例を示す図である。
【
図3】本開示の種々の側面を実装することが可能な装置のコンポーネントの例を示すブロック図である。
【
図4】
図3に示す装置等の少なくとも1つの装置が実施することができる方法の一例を概説するフロー図である。
【
図5】いくつかの実施態様による特徴の例を示すブロック図である。
【
図7】自動光学的組織化を実装するシステムの例示的な実施形態を示す図である。
【
図8】
図7のシステムの動作の態様の例を示すグラフのセットである。
【発明を実施するための形態】
【0038】
種々の図面における同様の参照符号および記号は同様の要素を示す。
【0039】
いくつかの実施形態は、組織化スマートオーディオデバイスのシステムを含み、システム内で、デバイスのそれぞれは、「ウェイクワード」をいつ聞いたかを(ユーザーに)示すように構成することができ、また、ユーザーからの音コマンド(すなわち、音によって示されるコマンド)の有無に耳を立てている。
【0040】
あるクラスの実施形態は、ユーザーインタラクションまたはユーザーインターフェースについて単一の注意点は存在しないような、種々の環境(例えば、比較的大きい生活環境など)内での音声ベースインターフェースの使用を含む。広範なモノのインターネット(IOT:Internet of Things)オートメーションおよびコネクテッドデバイスに向かって技術が進歩するにつれて、感覚入力を取り込み、信号の変化または変換を通じて環境内に情報を送出する能力を表すような多くのモノが、我々の周辺に存在してくる。我々の生活または作業空間についてのオートメーションの場合、インテリジェンス(例えば、自動化アシスタント(単数または複数)によって少なくとも部分的に提供されるような)は、我々が生活または作業している環境内で、非常にパーベイシブ(pervasive)またはユビキタスな(ubiquitous)意味で実現され得る。アシスタントが、少し遍在的(omnipresent)かつ非侵入的(non-intrusive)であると言う感覚が存在し得るが、そのこと自体が、ユーザーインターフェースのある種の逆説的な側面を生み得る。
【0041】
我々の個人および生活空間内のホームオートメーションおよびアシスタントは、もはや単一デバイス内に存在せず、単一デバイスを制御せず、単一デバイスとして具現化されない可能性がある。多くのデバイスが集合的にパーベイシブなサービスまたは存在を与えるような、設計目標が存在する場合がある。しかしながら、自然であるためには、我々は、そのようなパーソナルアシスタントとのインタラクションを通じて、普通の感覚のインタラクションおよび承認を誘発しトリガーする必要がある。
【0042】
我々が、そのようなインターフェースに主に音声で働きかけることは自然なことである。いくつかの実施形態によれば、(少なくとも1つのスマートオーディオデバイスとの)インタラクションを開始し、また、少なくとも1つのスマートオーディオデバイス(例えば、アシスタント)に働きかけるために音声の使用が存在することが想定される。いくつかの用途において、発話は、要求においてさらなる詳細を指定することおよび/または進行中のインタラクションおよび承認を提供することにおける、最も摩擦がなくかつ広帯域幅のアプローチであり得る。
【0043】
しかしながら、人間コミュニケーションのプロセスは、言語に根ざしながらも、注意を求めてシグナリングし、注意を承認するという最初の段階を実は土台としている。我々は、典型的には、受け手が応答可能であり(available)、準備ができており、関心があるという何らかの感覚を最初に持つことなしには、コマンドまたは音声情報を発することはない。我々が注意を集めることができる方法は非常に多いが、現在のところ、現行のシステム設計およびユーザーインターフェースにおいて、システムがアテンティブネスの反応を示す方法は、インタラクションの効率および自然さにおけるよりも、計算用の単一インターフェーステキスト空間においてより映し出される。基本的に最も近いマイクロフォンまたはユーザーコンソールであるデバイスのポイントにおいて単純な視覚インジケーター(ランプ)をほとんどのシステムが含む状態で、これは、よりパーベイシブなシステム統合および周囲コンピューティングを有するような予知可能な将来の生活環境には、適していない。
【0044】
シグナリングおよび注意表現は、ユーザーが少なくとも1つのスマートオーディオデバイス(例えば、バーチャルアシスタント)とインタラクションする欲求を示し、各デバイスがユーザーを意識していることと、理解およびサポートに対する初期および進行中の注意とを示すようなやり取り(transaction)の、重要な部分である。従来の設計において、アシスタントがどちらかと言うと離散的なデバイスインターフェースとして見られる場合における、インタラクションのいくつかの厄介な側面が存在する。これらの側面は以下を含む。
入力を受入れ注意を与える準備が潜在的にできている複数のポイントまたはデバイスが存在する場合、注意を表現するデバイスとして最も適切であるのは、単にユーザーに対して最も近いデバイスではない;
広範な生活の人間工学および柔軟な作業空間を考慮すると、ユーザーの視覚的注意は、承認を示してくれる照明応答とは全く整合しない場合がある;
音声が離散的な場所からやって来る場合はあるが、我々が話しかけまたサポートを求めるのは実際にはしばしば家または居住地であり、インタラクションの間に離散的にまたは突然に変化しなければならないような単一デバイスよりも、もっとパーベイシブな注意の感覚を提供することが勝る;
ノイズおよびエコーが高い状況で、特定のゾーン、位置、またはデバイスに対してアテンティブネスを表現するユーザーを位置特定するのに失敗することが考えられる場合がある;
多くの場合、ユーザーは、特定のエリアへまたは特定のエリアから移動している場合があり、したがって、境界に関する決定は、位置またはデバイスに対する選択が強制されるように行われる場合、厄介であるであろう;
概して、注意表現の形態は、何かが明確に起こっているか否かの観点から、非常に離散的な時間境界を有する。
【0045】
したがって、ユーザーと1つ以上のスマートオーディオデバイスとの間のインタラクションは、典型的には、注意に対する(ユーザーが発する)喚起(例えば、ユーザーが発するウェイクワード)で始まり、これに引き続きスマートオーディオデバイス(単数または複数)からのまたはスマートオーディオデバイスに関連するデバイスからの、「アテンティブネス」の少なくとも1つのインジケーション(または信号または表現)が想定される。また、少なくとも1つのスマートオーディオデバイス(例えば、サジェスチョン型(suggestive)アシスタント)が(例えば、ユーザーによるアクティビティを示すタイプの)音信号の有無に絶えず耳を立ててもよく、または、他のアクティビティ(必ずしも音信号ではない)に対して連続的に感度があってもよく、および、所定のタイプの音(または、アクティビティ)を検出すると、スマートオーディオデバイスが、ユーザーからのコマンド(例えば、音声コマンド)を待つ状態または動作モードにスマートオーディオデバイスが入ることになることが想定される。この後者の状態または動作モードに入ると、各そのようなデバイスは、(例えば、本明細書において説明する方法のうちの任意の方法で)アテンティブネスを表現する。
【0046】
(デバイスによって検出されたウェイクワードを発した)ユーザーを検出し、そのゾーン内のユーザーが見るまたは聞くことができる視覚信号および/または聴覚信号を送信することによって、ウェイクワードに応答するように、離散的な物理ゾーン内にあるスマートオーディオデバイスを構成することが知られている。いくつかの開示される実施形態は、ユーザーの位置を不確定である(何らかの不確定性のボリュームまたはエリア内にある)として考えるように(システムの)1つ以上のスマートオーディオデバイスを構成し、かつ、不確定性のボリューム(またはエリア)内の全ての利用可能なスマートオーディオデバイスを用いて、デバイスの1つ以上の(例えば、全ての)状態または動作モードを通じシステムの「アテンティブネス」の空間変動的表現を提供することによって、この公知のアプローチから発展する。いくつかの実施形態において、目標は、ユーザーに対する最も近い単一デバイスを選択しその現在の設定をオーバーライドすることではなく、関連性メトリック(いくつかの例において、ユーザーに対するデバイスの推定近さに少なくとも部分的に基づいてもよい)関連性メトリックに従って、全てのデバイスの挙動を調節することである。これは、その注意を局所エリアに集中するようなシステムの感覚を与えることにより、デバイスのうちのより近いものの注意を得ようとユーザーが試みているときに、離れたデバイスの方がシステムが耳を立てていることを示そうとするような、厄介な体験をなくす。
【0047】
いくつかの実施形態は、(例えば、ウェイクワードに応答して)アテンティブネス信号を生成する各デバイスの能力を規定し実装することによって、ある環境内でまたはその環境のあるゾーン内で全てのスマートオーディオデバイスの協調利用を提供する(または、提供するように構成される)。いくつかの実施態様において、デバイスの一部または全ては、アテンティブネス信号を現在の構成に「混ぜ入れる(mix in)」ように(および/または、全てのデバイスの現在の構成によって少なくとも部分的に決定されるようにアテンティブネス信号を生成するように)構成することができる。いくつかの実施態様において、各デバイスは、ユーザーの位置からのデバイスの距離等の、ある位置からの距離の確率評価を決定するように構成することができる。いくつかのそのような実施態様は、ユーザーに知覚的に意味のある方法で、システムの挙動のまとまりのある組織化された表現を提供することができる。
【0048】
少なくとも1つのスピーカを含む(またはそれに接続された)スマートオーディオデバイスの場合、アテンティブネス信号は、少なくとも1つのそのようなスピーカから放出される音であってもよい。代替的にまたは追加的に、アテンティブネス信号は、何らかの他のタイプ(例えば、光)であってもよい。いくつかの例において、アテンティブネス信号は、2つ以上の要素(例えば、放出された音および光)であるかまたはそれらを含むことができる。
【0049】
本明細書において、時として、「アテンティブネスインジケーション(attentiveness indication)」または「アテンティブネス表現(attentiveness expression)」と言う語句は、「アテンティブネス信号(attentiveness signal)」と言う語句と互換的に使用される。
【0050】
あるクラスの実施形態において、複数のスマートオーディオデバイスを協調させる(組織化する)ことができ、デバイスのそれぞれは、ウェイクワードに応答してアテンティブネス信号を生成するように構成することができる。いくつかの実施態様において、第1のデバイスは、第2のデバイスに対応するアテンティブネス信号を提供することができる。いくつかの例において、全てのデバイスに対応するアテンティブネス信号は協調される。いくつかの実施形態の態様は、スマートオーディオデバイスを実装することおよび/またはスマートオーディオデバイスを協調させることに関する。
【0051】
いくつかの実施形態によれば、1つのシステムにおいて、複数のスマートオーディオデバイスが、共通動作ポイント(または動作状態)のシステムによる決定に対して(例えば、アテンティブネスまたは応答可能性の程度を示すために)協調方式で応答する(例えば、光信号を放出することによって)ことができる。例えば、動作ポイントは、(ユーザーからのウェイクワードに応答して入る)アテンティブネスの状態であってもよく、全てのデバイスがユーザーの位置の推定を(例えば、少なくとも1程度の不確定性を持って)有している状態で、各デバイスは、ユーザーからのデバイスの推定距離に応じて異なるカラーの光を放出してもよい。
【0052】
ユーザーらの調査(study)およびインタラクションに関する実験に引き続いて、本発明者らは、注意を表現する広エリアのライフアシスタントに適用することができ、かついくつかの開示される実施形態の基礎となる、いくつかの特定の規則または指針を認識した。これらは、以下を含む。
注意は、シグナリングする人に対する、連続的でかつ応答的なエスカレーションを示してもよい。これは、よりよいインジケーションを与え、必要とされるシグナリング努力を訓練することに対する閉ループを与え、そしてより自然なインタラクションを生じる。シグナリングの強度の範囲(例えば、小声での丁寧な要求から大声での悪態まで)に留意し、関連するインピーダンス整合した応答(例えば、優しく見上げることに対応する応答から直立不動の姿勢をとることに対応する応答まで)を決定することが有用であり得る。
注意を求めてシグナリングすることは同様に、ユーザーの位置およびフォーカスポイントに関する不確定性および曖昧さを連続的に伝搬することがある。誤ったアイテムやオブジェクトが応答してしまうと、インタラクションおよび注意が非常に非コネクテッド(disconnected)かつ実現され得ていない(disembodied)感覚を生じる。したがって、選択が強制されることは回避されるべきである;
単一の音声応答ポイントを補完するために、(パーベイシブさに劣るのではなく)よりパーベイシブなシグナリングおよびトランスデューサが好ましいことが多く、また連続的制御がしばしば重要なコンポーネントである。
注意の表現が、自然にスウェルし、ベースライン設定または環境に戻ることができることが有利であり得る。これは、純粋なやり取りベース(transactional)かつ情報ベースのインターフェースというより、交わり感および存在感を与える。
【0053】
一部のモノは素早く擬人化し(anthropomorphize)、タイミングおよび連続性の微妙な局面が大きい影響を有することが知られている。いくつかの開示される実施形態は、環境内の出力デバイスの連続的制御を実装することにより、ユーザーに対して何らかの感覚的影響を与え、位置についての厄介で困難な決定やインタラクション閾値の二値的な的決定を回避しながら、自然にスウェルして戻ることにより注意およびリリースを表現するように、デバイスを制御する。
【0054】
図1Aは、オーディオインタラクションのためのスマートオーディオデバイス(デバイス1.1)のセット、オーディオ出力のためのスピーカ1.3、マイクロフォン1.5、および制御可能な
照明1.2を含むシステムを含む環境(生活空間)の図である。本出願の他の図の場合と同様に、
図1Aに示す特定の要素および要素の配置構成は、例として挙げられているだけである。これらの特徴の全てが、開示する種々の実施態様を実施するために必要とされるわけではない場合がある。例えば、制御可能な
照明1.2、スピーカ1.3等は、少なくともいくつかの開示する実施態様についてオプションである。いくつかの例において、マイクロフォン1.5の1つ以上は、デバイス1.1、
照明1.2、またはスピーカ1.3のうちの1つの一部であるかまたはそれに関連することができる。代替的にまたは追加的に、マイクロフォン1.5の1つ以上は、環境の別の部分に、例えば、壁に、天井に、家具に、機器に、または環境の別のデバイスに取り付けることができる。一例において、スマートオーディオデバイス1.1のそれぞれは、少なくとも1つのマイクロフォン1.5を含む(および/または、少なくとも1つのマイクロフォン1.5と通信するために構成される)。
図1Aのシステムは、本開示の実施形態を実装するように構成することができる。種々の方法を使用して、情報を、
図1Aのマイクロフォン1.5から集合的に取得し、ウェイクワードを話すユーザーの位置推定を提供するように構成されるデバイスに提供することができる。
【0055】
生活空間(例えば、
図1Aの生活空間)において、自然なアクティビティゾーンのセットが存在し、そこで、人はタスクまたはアクティビティを行う、または、しきいを越える。これらのエリア(本明細書においてユーザーゾーンと呼ぶ)は、いくつかの例において、幾何学的位置の座標または他の指標を特定することなく、ユーザーにより定義されてもよい。
図1Aに示す例において、ユーザーゾーンは、
1.キッチンシンクおよび調理エリア(生活空間の左上領域内);
2.冷蔵庫ドア(シンクおよび調理エリアの右側);
3.ダイニングエリア(生活空間の左下領域内);
4.生活空間のオープンエリア(シンクおよび調理エリア並びにダイニングエリアの右側);
5.TVソファ(オープンエリアの右側);
6.TV自身
7.テーブル;および、
8.ドアエリアまたは通路(生活空間の右上領域内)
を含むことができる。
【0056】
いくつかの実施形態によれば、音(例えば、ウェイクワードまたは注意用の他の信号)がどこで生じるまたは始まるかを推定するシステムは、推定におけるある程度の決定された確信度(または、推定についての複数の仮定)を有し得る。例えば、ユーザーが、たまたまシステムの環境のゾーン間の境界の近くにいる場合、ユーザーの位置の不確定な推定は、ユーザーがゾーンのそれぞれにいるという決定された確信度を含むことができる。音声インターフェースのいくつかの従来の実施態様において、音声アシスタントの音声が、一度に1つの位置のみから発せられることが要求され、これは、単一位置について単一の選択(例えば、
図1Aにおいて、8つのスピーカ位置1.1および1.3のうちの1つ)を強制する。しかしながら、単純な仮想的ロールプレイに基づくと、(そのような従来の実施態様において)アシスタントの声の発生源の選択された位置(例えば、アシスタントに含まれるかまたはアシスタントと通信するために構成されるスピーカの位置)が、注意を表現するための自然な返答のフォーカスポイントである尤度が低いものであり得ることが明らかである。
【0057】
次に、
図1Bを参照し、別の環境100(音響空間)を説明する。環境100は、直接発話102を発するユーザー101、並びに、スマートオーディオデバイス(103、105、および107)のセット、オーディオ出力のためのスピーカ、およびマイクロフォンを含むシステムの例を含む。システムは、本開示の実施形態に従って構成され得る。ユーザー101(時として、本明細書において話者と呼ぶ)が発する発話は、システムの要素(単数または複数)がウェイクワードとして認識することができる。
【0058】
より具体的には、
図1Bのシステムの要素は、
102:直接的で局所的な声(ユーザー101によって生成される);
103:音声アシスタントデバイス(1つ以上のラウドスピーカに接続される)。デバイス103は、デバイス105またはデバイス107に比べて、ユーザー101のより近くに置かれている。したがって、デバイス103は、時として「近距離(near)」デバイスと呼ばれ、デバイス105は、「中距離(mid-distant)」デバイスと呼ぶことができ、デバイス107は、時として「遠距離(distant)」デバイスと呼ぶことができる。;
104:近距離デバイス103内の(またはそれに接続された)複数のマイクロフォン;
105:中距離音声アシスタントデバイス(1つ以上のラウドスピーカに接続した);
106:中距離デバイス105内の(またはそれに接続された)複数のマイクロフォン;
107:遠距離音声アシスタントデバイス(1つ以上のラウドスピーカに接続した);
108:遠距離デバイス107内の(またはそれに接続された)複数のマイクロフォン;
109:家電機器(例えば、ランプ);および、
110:家電機器109内の複数のマイクロフォン。
いくつかの例において、マイクロフォン110のそれぞれは、開示する方法の1つ以上を実装するために構成されるデバイス(いくつかの例において、デバイス103、105、または107のうちの少なくとも1つであり得る)と通信するために構成することができる。
【0059】
図1Bのシステムは、本明細書において開示する1つ以上の方法を実装するために構成される少なくとも1つのデバイスを含むことができる。例えば、デバイス103、デバイス105、および/またはデバイス107は、1つ以上のそのような方法を実装するために構成することができる。代替的にまたは追加的に、デバイス103、デバイス105、および/またはデバイス107と通信するために構成される別のデバイスが、1つ以上のそのような方法を実装するために構成することができる。いくつかの例において、開示する1つ以上の方法を、別のローカルデバイス(例えば、環境100内のデバイス)によって実装することができ、一方、他の例において、開示する1つ以上の方法を、環境100の外に位置するリモートデバイス(例えば、サーバー)によって実装することができる。
【0060】
話者101が音響空間内でウェイクワードを示す音102を発すると、音は、近距離デバイス103、中距離デバイス105、および遠距離デバイス107によって受信される。この例において、デバイス103、105、および107のそれぞれは、ウェイクワード尤度(デバイスによってウェイクワードが検出された確率)が予め規定された閾値を超えるときを判定するように構成される。時間が経過するにつれて、各デバイスによって決定されたウェイクワード尤度を、時間の関数としてグラフ化することができる。
【0061】
図2は、3つのデバイスによって決定されたウェイクワード確信度値曲線の例を示す。
図2に示す点線曲線205aは、近距離デバイス103によって決定された、時間の関数としてのウェイクワード尤度を示す。破線曲線205bは、中距離デバイス105によって決定された、時間の関数としてのウェイクワード尤度を示す。実線曲線205cは、遠距離デバイス107によって決定された、時間の関数としてのウェイクワード尤度を示す。
【0062】
図2を見れば明らかであるように、時間が経過するにつれて、デバイス103、105、および107のそれぞれによって決定されるウェイクワード尤度は増加し、その後、減少する(例えば、ウェイクワード尤度が、デバイスのうち関連するものの履歴バッファ内に入りまた履歴バッファから出るにつれて)。いくつかの場合において、遠距離デバイスのウェイクワード確信度(
図2の実線曲線)が、中距離デバイスのウェイクワード確信度(
図2の点線曲線)より前に閾値を超え、中距離デバイスのウェイクワード確信度も、近距離デバイスのウェイクワード確信度(
図2の破線曲線)が閾値を超える前に閾値を超えることがある。近距離デバイスのウェイクワード確信度がその極大値(例えば、
図2の関連曲線の最も大きい最大値)に達するまでに、このイベントは通常無視され(従来アプローチ)、ウェイクワード確信度(ウェイクワード尤度)が最初に閾値を超えるデバイス(
図2の例において、遠距離デバイス)を選択することが優先される。
【0063】
いくつかの例によれば、ウェイクワード確信度値がウェイクワード検出開始閾値(所定の閾値であり得る)超えると判定することに続いて、極大値を決定することができる。例えば、
図2を参照して、いくつかのそのような例において、ウェイクワード確信度値がウェイクワード検出開始閾値215aを超えると判定することに続いて、極大値を決定することができる。いくつかのそのような例において、以前のウェイクワード確信度値がウェイクワード検出開始閾値を超えた後にウェイクワード確信度値の減少を検出することによって、極大値を決定することができる。
【0064】
いくつかのそのような実施態様において、極大値は、以前のウェイクワード確信度がウェイクワード検出開始閾値を超えた後に、以前のオーディオフレーム(いくつかの例において、直近のオーディオフレームまたは直近のオーディオフレームのうちの1つのオーディオフレームであってもよい)のウェイクワード確信度値と比較して、オーディオフレームのウェイクワード確信度値の減少を検出することによって、決定することができる。例えば、極大値は、以前のウェイクワード確信度値がウェイクワード検出開始閾値を超えた後に、オーディオフレームn-k(kは整数)のウェイクワード確信度値と比較して、オーディオフレームnのウェイクワード確信度値の減少を検出することによって、決定することができる。
【0065】
いくつかのそのような実施態様において、いくつかの方法は、第1のデバイス、第2のデバイス、または別のデバイスのウェイクワード確信度値が、立ち上がりエッジによってウェイクワード検出開始閾値を超えた後に、極大値決定期間を開始させることを含むことができる。いくつかのそのような方法は、第1のデバイス、第2のデバイス、または別のデバイスのウェイクワード確信度値がウェイクワード検出終了閾値を下回った後に、極大値決定期間を終了させることを含むことができる。
【0066】
例えば、再び
図2を参照し、いくつかのそのような例において、極大値決定期間を、デバイスのグループのうちの任意のデバイスに対応するウェイクワード確信度値がウェイクワード検出開始閾値215aを超える開始時点Aにおいて、開始することができる。この例において、遠距離デバイスが、そのウェイクワード確信度値がウェイクワード検出開始閾値を超える最初のデバイスであり、時点Aは、曲線205cがウェイクワード検出開始閾値215aを超えるときである。この例によれば、閾値215bはウェイクワード検出終了閾値である。この例において、ウェイクワード検出終了閾値215bはウェイクワード検出開始閾値215aよりも小さい(より低い)。いくつかの代替的な例において、ウェイクワード検出終了閾値215bはウェイクワード検出開始閾値215aに等しくてもよい。更に他の例において、ウェイクワード検出終了閾値215bはウェイクワード検出開始閾値215aより大きくてもよい。
【0067】
いくつかの例によれば、極大値決定期間は、グループ内の全てのデバイスのウェイクワード確信度値がウェイクワード検出終了閾値215bを下回った後に終了してもよい。例えば、
図2を参照して、極大値決定期間は、K時間単位に等しくてもよく、また、終了時点A+Kに、近距離デバイスのウェイクワード確信度値がウェイクワード検出終了閾値215bを下回るときに終了してもよい。終了時点A+Kまでに、遠距離デバイスおよび中距離デバイスのウェイクワード確信度値はウェイクワード検出終了閾値215bを既に下回っている。いくつかの例によれば、極大値決定期間は、グループ内の全てのデバイスのウェイクワード確信度値がウェイクワード検出終了閾値215bを下回るときか、または、最大期間が経過した後か、いずれか早い方に達したときに終了してもよい。
【0068】
図3は、本開示の種々の側面を実装することが可能な装置のコンポーネントの例を示すブロック図である。いくつかの例によれば、装置300は、本明細書において開示する方法の少なくともいくつかを実施するために構成されるスマートオーディオデバイス(
図1Aに示すスマートオーディオデバイス1.1のうちの1つまたは
図1Bに示すスマートオーディオデバイス103、105、および107のうちの1つ等)であるかまたはそれを含むことができる。他の実施態様において、装置300は、
図7を参照して以下で説明するスマートホームハブ740、ラップトップコンピュータ、携帯電話、タブレットデバイス、モーターコントローラー(例えば、ファンまたは環境内の空気を移動させることが可能な他のデバイス用のコントローラー、ガレージドア用のコントローラー等)、ガス暖炉用のコントローラー(例えば、ガス暖炉の火炎レベルを変更するように構成されるコントローラー)等のような本明細書において開示する方法の少なくともいくつかを実施するために構成される別のデバイスであるかまたはそれを含むことができる。いくつかのそのような実施態様において、装置300はサーバーであるかまたはそれを含むことができる。
【0069】
この例において、装置300は、インターフェースシステム305および制御システム310を含む。インターフェースシステム305は、いくつかの実施態様において、環境内の複数のマイクロフォンのそれぞれからの入力を受信するために構成することができる。インターフェースシステム305は、1つ以上のネットワークインターフェースおよび/または1つ以上の外部デバイスインターフェース(1つ以上のユニバーサルシリアルバス(USB)インターフェース等)を含むことができる。いくつかの実施態様によれば、インターフェースシステム305は、1つ以上の無線インターフェースを含むことができる。インターフェースシステム305は、1つ以上のマイクロフォン、1つ以上のスピーカ、ディスプレイシステム、タッチセンサーシステム、および/またはジェスチャーセンサーシステム等のユーザーインターフェースを実装するための1つ以上のデバイスを含むことができる。いくつかの例において、インターフェースシステム305は、制御システム310と、
図3に示すオプションのメモリシステム315等のメモリシステムとの間に1つ以上のインターフェースを含むことができる。しかしながら、制御システム310はメモリシステムを含んでもよい。
【0070】
制御システム310は、例えば、汎用のシングルまたはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、および/またはディスクリートハードウェアコンポーネントを含むことができる。
【0071】
いくつかの実施態様において、制御システム310は、複数のデバイス内に存在することができる。例えば、制御システム310の一部分は、
図1Aおよび
図1Bに示す環境のうちの1つの環境内のデバイス内に存在することができ、制御システム310の別の部分は、サーバー、モバイルデバイス(例えば、スマートフォンまたはタブレットコンピュータ)等の、環境の外にあるデバイス内に存在することができる。他の例において、制御システム310の一部分は、
図1Aおよび
図1Bに示す環境のうちの1つの環境内のデバイス内に存在することができ、制御システム310の別の部分は、環境内にある別のデバイス内に存在することができる。例えば、以下で述べるように、環境内の1つのデバイス(例えば、照明)は、いくつかの例において、別のデバイス(例えば、IoTデバイス)に対応するアテンティブネス信号を提供することができる。インターフェースシステム305はまた、いくつかのそのような例において、複数のデバイス内に存在することができる。
【0072】
いくつかの実施態様において、制御システム310は、本明細書において開示する方法を少なくとも部分的に実施するために構成することができる。いくつかの例によれば、制御システム310は、例えば、本明細書において開示する信号等の、複数の空間変動的アテンティブネス信号を生成する方法を実装するために構成することができる。いくつかのそのような例において、制御システム310は、少なくとも1つのデバイスについて関連性メトリックを決定するために構成することができる。
【0073】
本明細書において説明する方法のいくつかまたは全ては、1つ以上の非一時的媒体上に記憶された命令(例えば、ソフトウェア)に従って1つ以上のデバイスによって実施することができる。そのような非一時的媒体は、本明細書において説明したメモリデバイス等のメモリデバイスを含むことができ、メモリデバイスは、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイス等を含むが、それに限定されない。1つ以上の非一時的媒体は、例えば、
図3に示すオプションのメモリシステム315内におよび/または制御システム310内に存在することができる。したがって、本開示で説明する主題の種々の発明の態様は、その上にソフトウェアを記憶している1つ以上の非一時的媒体内に実装することができる。ソフトウェアは、例えば、オーディオデータを処理するように少なくとも1つのデバイスを制御する命令を含むことができる。ソフトウェアは、例えば、
図3の制御システム310等の制御システムの1つ以上のコンポーネントが実行することができる。
【0074】
いくつかの例において、装置300は、
図3に示すオプションのマイクロフォンシステム320を含むことができる。オプションのマイクロフォンシステム320は1つ以上のマイクロフォンを含むことができる。
【0075】
いくつかの実施態様において、装置300は、
図3に示すオプションの光システム325を含むことができる。オプションの光システム325は、発光ダイオード等の1つ以上の照明を含むことができる。いくつかの実施態様によれば、装置300は、
図3に示すオプションのスピーカシステム330を含むことができる。オプションのスピーカシステム330は1つ以上のスピーカを含むことができる。いくつかの例において、制御システムは、アテンティブネス信号を生成するように、オプションの光システム325および/またはオプションのスピーカシステム330を制御することができる。いくつかのそのような例において、アテンティブネス信号は、装置300の関連性メトリックまたは別のデバイスの関連性メトリックを示すことができる。
【0076】
いくつかのそのような例によれば、装置300は、スマートオーディオデバイスであるかまたはそれを含むことができる。いくつかのそのような実施態様において、装置300は、ウェイクワード検出器であるまたはそれを含むことができる。例えば、装置300は、バーチャルアシスタントであるかまたはそれを含むことができる。
【0077】
図4は、
図3に示す装置等の少なくとも1つの装置が実施することができる方法の一例を概説するフロー図である。方法400のブロックは、本明細書において説明する他の方法のように必ずしも示した順に実施されるわけではない。いくつかの例において、方法400の1つ以上のブロックは、同時に実施することができる。いくつかのそのような例によれば、方法400の1つ以上のブロックは、複数のデバイスによって、例えば、
図3に示す装置等のデバイスによって同時に実施することができる。さらに、そのような方法は、示されるよりもおよび/または説明されるよりも多いまたは少ないブロックを含むことができる。
【0078】
この例において、ブロック405は、環境内の複数のマイクロフォンのうちの各マイクロフォンから出力信号を受信することを含む。この例において、複数のマイクロフォンのそれぞれは環境のマイクロフォン位置内に存在し、出力信号は人の発声に対応する。発声は、いくつかの例において、ウェイクワードとする(それを含む)ことができる。マイクロフォンの少なくとも1つを、スマートオーディオデバイス内に含むかまたはそれと通信するために構成することができる。
【0079】
いくつかの実施態様において、単一のデバイスが、ブロック405にて、環境内の複数のマイクロフォンのうちの各マイクロフォンから出力信号を受信することができる。いくつかのそのような例によれば、単一デバイスは環境内に位置することができる。しかしながら、他の例において、単一デバイスは環境の外に位置することができる。例えば、方法400の少なくとも一部分は、いくつかの例において、サーバー等のリモートデバイスが実施することができる。
【0080】
他の実施態様において、複数のデバイスは、ブロック405にて、出力信号を受信することができる。いくつかのそのような実施態様において、複数のスマートデバイスのそれぞれの制御システムは、ブロック405にて、各スマートデバイスの複数のマイクロフォンから出力信号を受信することができる。
【0081】
環境内の異なるデバイスのマイクロフォンは、特定の実施態様に基づいて、同期型マイクロフォンであってもよく、そうでなくてもよい。本明細書において使用するとき、マイクロフォンは、マイクロフォンによって検出される音が、同じサンプルクロックまたは同期化されたサンプルクロックを使用してデジタル的にサンプリングされる場合、「同期型(synchronous)」と呼ぶことができる。例えば、環境内の第1のマイクロフォン(または第1のスマートデバイスの全てのマイクロフォン等のマイクロフォンの第1のグループ)は第1のサンプルクロックに従ってオーディオデータをサンプリングすることができ、第2のマイクロフォン(または第2のスマートデバイスの全てのマイクロフォン等のマイクロフォンの第2のグループ)は第1のサンプルクロックに従ってオーディオデータをサンプリングすることができる。
【0082】
いくつかの代替的な実施態様によれば、環境の少なくともいくつかのマイクロフォンまたはマイクロフォンシステムは、「非同期型(asynchronous)」であってもよい。本明細書において使用するとき、マイクロフォンは、マイクロフォンによって検出される音が、別個のサンプルクロックを使用してデジタル的にサンプリングされる場合、「非同期型」と呼ぶことができる。例えば、環境内の第1のマイクロフォン(または第1のスマートデバイスの全てのマイクロフォン等のマイクロフォンの第1のグループ)は第1のサンプルクロックに従ってオーディオデータをサンプリングすることができ、第2のマイクロフォン(または第2のスマートデバイスの全てのマイクロフォン等のマイクロフォンの第2のグループ)は第2のサンプルクロックに従ってオーディオデータをサンプリングすることができる。いくつかの例において、環境内のマイクロフォンは、ランダムに位置することができる、または少なくとも、環境内に不規則におよび/または非対称に分布することができる。
【0083】
図4に示す例において、ブロック410は、出力信号に少なくとも部分的に基づいて、人の位置を含む閾値確率を少なくとも有する環境内のゾーンを決定することを含む。例えば、
図1Aを参照して、いくつかの例において、デバイス1.1のみがマイクロフォンを含み、したがって、ウェイクワードコマンドを発するユーザー1.4の位置の推定を行うために用いる、オーディオデータを受信することができる。種々の方法を使用して、情報が、これらのデバイスから集合的に取得されて、ウェイクワードを発する(例えば、話す)ユーザーの位置推定(例えば、きめの細かい位置推定)を提供することができる。関連方法は、到来方向(DOA:direction of arrival)推定法、例えば、到来時間差(TDOA:Time Difference of Arrival)法、ビームフォーミング法(例えば、最大分散ビームフォーマー(MVB:Maximum Variance Beamformer)、および遅延和ビームフォーミング(DSB:Delay and Sum Beamforming))等、並びに、複数発生源位置特定法、例えば、複数信号分類(MUSIC:MUltiple SIgnal Classification、MUSICは周波数推定および無線方向探知のために使用されるアルゴリズムである)、操舵応答パワーフェーズ変換(SRP-PHAT:Steered-Response Power Phase Transform、SRP-PHATは操舵遅延和ビームフォーマーの出力を最大にする候補位置を探索するビームフォーミングベースのアプローチである)、および回転不変技法による信号パラメーターの推定(ESPRIT:estimation of signal parameters via rotational invariant technique、ESPRITはバックグラウンドノイズ内の正弦波の混合物のパラメーターを決定する技法である)等を含む。
【0084】
そのような生活空間において、自然なアクティビティゾーンのセットが存在し、そこで、人がタスクもしくはアクティビティを行う、または、しきいを越えるであろう。これらのアクションエリア(ゾーン)は、インターフェースの他の側面を支援するためにユーザーの位置またはコンテクストを推定する(例えば、不確定な位置を決定する)努力が存在することができる場所である。
図1Aの例において、キーアクションエリアは:
・キッチンシンクおよび調理エリア(生活空間の左上領域);
・冷蔵庫ドア(シンクおよび調理エリアの右);
・ダイニングエリア(生活空間の左下領域);
・生活空間のオープンエリア(シンクおよび調理エリアおよびダイニングエリアの右);
・TVソファ(オープンエリアの右);
・TV自身
・テーブル;および、
・ドアエリアまたは通路(生活空間の右上領域)
である。
【0085】
しばしば、類似の位置決めを有する類似の数の照明が、複数のアクションエリアに適し得ることが明らかである。照明の一部または全ては、個々に制御可能なネットワーク化されたエージェントであってもよい。
【0086】
いくつかの例において、目標は、ユーザーの厳密な幾何学的位置を推定することではなく、(例えば、大きいノイズおよび残留エコーの存在下での)離散的なゾーンのロバストな推定を形成することである。本明細書において使用するとき、環境内のオブジェクトまたはユーザーの「幾何学的位置(geometric location)」は、座標系が、GPS座標を参照しようが、(例えば、その原点を環境内のどこかに有するデカルトまたは極座標系に従って)全体として環境を参照しようが、スマートオーディオデバイス等の、(その原点としてデバイスを有するデカルトまたは極座標系に従って)環境内の特定のデバイスを参照しようが、座標系に基づく位置を指す。いくつかの例によれば、環境内のユーザーの位置の推定は、複数のマイクロフォンの幾何学的位置を参照することなく決定することができる。
【0087】
いくつかの例において、ユーザーのゾーンは、ウェイクワード検出器の少なくとも1つから少なくとも部分的に導出される複数の高レベル音響的特徴を含むデータ駆動型アプローチによって推定することができる。これらの音響的特徴(ウェイクワード確信度および/または受信レベルを含むことができる)は、いくつかの実施態様において、きわめて狭い帯域幅を消費することができ、きわめて小さいネットワーク負荷で分類器を実装するデバイスに非同期に送信することができる。いくつかの例は、2019年12月18日に出願され、「Acoustic Zoning with Distributed Microphones」という名称の米国仮特許出願第62/950,004号、例えば、
図1Dおよび
図2並びに15頁8行目~21頁29行目の対応する議論に開示されており、その米国仮特許出願は引用することにより本明細書の一部をなす。マイクロフォンの幾何学的位置に関するデータを、特定の実施態様に応じて分類器に提供しても提供しなくてもよい。本明細書の他の場所で述べたように、いくつかの例において、環境内のユーザーの位置の推定は、複数のマイクロフォンの幾何学的位置を参照することなく決定することができる。
【0088】
いくつかのそのような方法は、環境内の複数のマイクロフォンのうちの各マイクロフォンから出力信号を受信することを含み得る。複数のマイクロフォンのそれぞれは、環境のマイクロフォン位置内に存在してもよい。いくつかの例において、出力信号はユーザーの現在の発声に対応してもよい。
【0089】
いくつかのそのような方法は、各マイクロフォンの出力信号から複数の現在の音響的特徴を決定し、分類器を複数の現在の音響的特徴に適用することを含むことができる。分類器を適用することは、環境内の複数のユーザーゾーン内でユーザーが行った複数の以前の発声から導出される予め決定された音響的特徴に対して訓練されたモデルを適用することを含むことができる。いくつかのそのような方法は、分類器からの出力に少なくとも部分的に基づいて、ユーザーが現在位置するユーザーゾーンの推定を決定することを含むことができる。ユーザーゾーンは、例えば、シンクエリア、調理エリア、冷蔵庫エリア、ダイニングエリア、ソファエリア、テレビジョンエリア、および/または出入口エリアを含むことができる。
【0090】
いくつかの例において、複数のマイクロフォンのうちの第1のマイクロフォンは第1のサンプルクロックに従ってオーディオデータをサンプリングすることができ、複数のマイクロフォンのうちの第2のマイクロフォンは第2のサンプルクロックに従ってオーディオデータをサンプリングすることができる。いくつかの例において、マイクロフォンのうちの少なくとも1つを、スマートオーディオデバイスに含むかまたはスマートオーディオデバイスと通信するために構成することができる。いくつかの例によれば、複数のユーザーゾーンは、複数の所定のユーザーゾーンを含み得る。
【0091】
いくつかの例によれば、推定は、複数のマイクロフォンの幾何学的位置を参照することなく決定することができる。いくつかの例において、複数の現在の音響的特徴は、非同期で決定することができる。
【0092】
いくつかの例において、現在の発声および/または以前の発声はウェイクワード発声を含むことができる。いくつかの例において、ユーザーゾーンは、最大事後確率(posterior probability)を有するクラスとして推定することができる。
【0093】
いくつかの実施態様によれば、モデルは、ユーザーゾーンでラベル付けされる訓練用データを使用して、訓練することができる。いくつかの例において、分類器は、ユーザーゾーンでラベル付けされないラベル付けなし訓練用データを使用して訓練されたモデルを適用することを含むことができる。いくつかの例において、分類器を適用することは、正規化されたウェイクワード確信度、正規化された平均受信レベル、または最大受信レベルのうちの1つ以上に対して訓練されたガウス混合モデル(Gaussian Mixture Model)を適用することを含むことができる。
【0094】
いくつかの例において、モデルの訓練は、分類器を適用するプロセス中、継続することができる。例えば、訓練は、ユーザーからの明示的なフィードバックに基づくことができる。代替的にまたは追加的に、訓練は、推定されるユーザーゾーンに基づくビームフォーミングまたはマイクロフォン選択の成功(またはその欠如)に関する暗黙的フィードバック等の暗黙的フィードバックに基づくことができる。いくつかの例において、暗黙的フィードバックは、ユーザーが音声アシスタントの応答を異常に終了したという判定を含むことができる。いくつかの実施態様によれば、暗黙的フィードバックは、確信度の低い結果を返すコマンド認識器を含むことができる。いくつかの例において、暗黙的フィードバックは、ウェイクワードが話されたことの低い確信度を返す第2パス遡及的ウェイクワード検出器を含むことができる。
【0095】
図4に戻って、この例において、ブロック415は、ゾーン内で複数の空間変動的アテンティブネス信号を生成することを含む。この例によれば、各アテンティブネス信号はゾーン内に位置するデバイスによって生成され、各アテンティブネス信号は、対応するデバイスがコマンドを待っている動作モードに対応するデバイスがあることを示す。さらに、この例において、各アテンティブネス信号は、対応するデバイスの「関連性メトリック」を示す。
【0096】
「対応するデバイス(corresponding device)」は、特定の実施態様に応じて、アテンティブネス信号を提供するデバイスであってもよいし、そうでなくてもよい。例えば、バーチャルアシスタントは、スピーカシステムおよび/または光システムを含むことができ、スピーカシステムおよび/または光システムによってバーチャルアシスタントの関連性メトリックを示すアテンティブネス信号を生成するように構成することができる。
【0097】
いくつかの代替的な例において、第1のデバイスによって生成されるアテンティブネス信号は第2のデバイスの関連性メトリックを示すことができる。そのような例において、第2のデバイスは、ブロック415で参照される「対応するデバイス」である。
図1Aを参照して、上記で述べたように、マイクロフォン1.5の1つ以上は、照明1.2および/またはスピーカ1.3のうちの1つの一部であるかまたはそれに関連することができる。さらに、マイクロフォン1.5の1つ以上は、環境の機器または別のデバイスに取り付けることができ、それらの一部は、音声コマンドに従って少なくとも部分的に制御されることが可能な「スマートデバイス(smart device)」であってもよい。いくつかのそのような例において、照明1.2および/またはスピーカ1.3のうちの1つ以上(ブロック405およびブロック410で参照されるように、関連マイクロフォンからの出力信号に従ってゾーン内にあると判定される)は、ゾーン内にある環境の対応する機器または他のデバイス(例えば、IoTデバイス)についてアテンティブネス信号を生成するように構成することができる。
【0098】
いくつかの例において、関連性メトリックは、当該位置からの推定距離に少なくとも部分的に基づいていてもよい。いくつかの例において、当該位置は、ブロック405で参照される発声をした人の推定位置であってもよい。いくつかのそのような例によれば、関連性メトリックは、アテンティブネス信号に対応する、人からデバイスまでの推定距離に少なくとも部分的に基づくことができる。
【0099】
いくつかの実施態様において、推定距離は、1つの位置(例えば、照明の位置、スマートデバイスの位置等)からゾーン内の複数のマイクロフォンの音響中心までの推定距離であってもよい。例えば、推定距離は、ゾーン内のマイクロフォンの音響中心からの推定ユークリッド距離であってもよい。他の例において、推定距離は、ゾーン内のマイクロフォンの音響中心からの推定マハラノビス距離であってもよい。更なる例において、関連性メトリックは、それがマイクロフォンである場合に、所与の光が、所与のゾーン内で関連付けられているとして分類されるであろう事後確率であってもよい。
【0100】
いくつかの実施態様において、制御システムは、例えば、分類器を使用することによって、発声に対応する特徴セット
の事後確率
を推定するように構成することができる。分類器は、いくつかの実施態様において、ベイズ分類器(Bayesian classifier)とすることができる。確率
は、ユーザーがゾーンC
kのそれぞれにいる確率(j番目の発声およびk番目のゾーンについて、ゾーンC
kのそれぞれおよび発声のそれぞれについて)を示すことができる。これらの確率は、そのような分類器の出力の例である。
【0101】
いくつかの例において、アテンティブネス表現の量は、
に関連する(例えば、単調に関連する)ことができる。例えば、いくつかの例において、関心の照明デバイスがマイクロフォンを含まないことがある場合、分類器は、照明デバイスと近傍のマイクロフォンとの相対位置に基づいてプロキシを決定または推定することができる。
【0102】
いくつかの例によれば、ゾーンロケーションモデルを構築および/または更新するプロセスは、以下を含むことができる:
1.発声の最近のセット(例えば、家庭内で発せられた直近の200個のウェイクワードのセット)に対応するゾーン分類事後確率
(j=1...J)のセットを、(例えば、3Dデカルト空間内の)セット内の各発声中の話者の推定位置x
jと共に、収集する;
2.(例えば、3Dデカルト空間内の)各ゾーンkについての「音響中心」μ
kを、重み付き平均
として計算する;そして、
3.オプションとして、例えば、デカルト空間にわたって多変量ガウス分布を仮定して、各ゾーンの「音響サイズおよび形状」を計算する。いくつかのそのような例において、プロセスは、例えば、以下のように、重み付き共分散行列を計算することを含むことができる。
【数1】
【0103】
その後、新しい位置yを考慮して、制御システムは、ゾーンロケーションモデルを用いて、以下の1つ以上を行うように構成することができる:
1.ユークリッド距離
を計算し、関連性メトリックとしてd
k(例えば、メートル単位)を使用する。いくつかのそのような例は、d
kを範囲[0,1]にマッピングする単調関数f(d
k)にd
kを通すことを含むことができる。
2.マハラノビス距離
を計算し、関連性メトリックとしてm
k(中心からの標準偏差の単位)を使用する。いくつかのそのような例は、m
kを範囲[0,1]にマッピングする単調関数g(m
k)にm
kを通すことを含むことができる。
3.位置yについて多変量ガウスゾーンkモデルの確率密度を評価する:
。いくつかのそのような例は、各ゾーンyについての確率密度を、事後確率
になるように正規化することを含むことができる。いくつかのそのような実施態様は、事後確率p
kを、範囲[0,1]内のゾーン関連性メトリックとして直接使用することを含むことができる。
【0104】
いくつかの例によれば、関連性メトリックは、対応するデバイスの推定可視性に少なくとも部分的に基づくことができる。いくつかのそのような例において、関連性メトリックは、対応するデバイスの高度、例えば、対応するデバイスの環境の床からの高さに少なくとも部分的に基づくことができる。いくつかのそのような例によれば、人から2つのデバイスまでの推定距離が、同じかまたは実質的に同じであり(例えば、10%、8%、5%等のような閾値パーセント内にあり)、1つのデバイスが他のデバイスよりも高い高度を有する場合、より高いデバイスが、よい高い関連性メトリックを割り当てられることになる。いくつかのそのような例において、関連性メトリックの重み付け係数は、対応するデバイスの推定可視性に基づくことができる。例えば、重み付け係数は、上記デバイスの床からの相対距離に対応することができる。他の例において、対応するデバイスの推定可視性および対応する重み付け係数は、人と内壁、家具等のような環境の1つ以上の特徴との相対位置に従って決定することができる。例えば、重み付け係数は、対応するデバイスが、例えば、既知の環境のレイアウト、壁の位置、家具の位置、カウンターの位置等に基づいて、人の推定位置から目に見えるであろう確率に対応することができる。
【0105】
いくつかの実施態様によれば、関連性メトリックは、ウェイクワード確信度の推定に少なくとも部分的に基づくことができる。いくつかのそのような例において、関連性メトリックは、ウェイクワード確信度の推定に対応し得る。いくつかのそのような例によれば、ウェイクワード確信度の単位は、パーセンテージ、[0,1]の範囲内の数字等であってもよい。いくつかの例において、ウェイクワード検出器は、対数型実施態様を使用することができる。いくつかのそのような対数型実施態様において、ゼロのウェイクワード確信度は、(例えば、特定の訓練用セットに従って)ウェイクワードが話された尤度が、ウェイクワードが話されなかった尤度と同じであることを意味する。いくつかのそのような実施態様において、だんだん増加する正の数は、ウェイクワードが話されたという確信度の増加を示し得る。例えば、+30のウェイクワード確信度スコアは、ウェイクワードが話されたという非常に高い尤度に対応し得る。いくつかのそのような例において、負数は、ウェイクワードが話された尤度が低いことを示し得る。例えば、-100のウェイクワード確信度スコアは、ウェイクワードが話されなかったという非常に高い尤度に対応し得る。
【0106】
他の例において、特定のデバイスについての関連性メトリックは、そのデバイスについてのウェイクワード確信度の推定および人からデバイスまでの推定距離に基づくことができる。例えば、ウェイクワード確信度の推定は、関連性メトリックを決定するために、推定距離に乗算される重み付き係数として使用することができる。
【0107】
アテンティブネス信号は、例えば、光信号を含むことができる。いくつかのそのような例において、アテンティブネス信号は、カラー、カラー飽和、光強度等に従って、ゾーン内で空間的に変動してもよい。いくつかのそのような例において、アテンティブネス信号は、光が点滅するレートに従って、ゾーン内で空間的に変動してもよい。例えば、より高速に点滅している光は、より低速に点滅している光に比べて、対応するデバイスの比較的高い関連性メトリックを示してもよい。
【0108】
代替的にまたは追加的に、アテンティブネス信号は、例えば、音波を含むことができる。いくつかのそのような例において、アテンティブネス信号は、周波数、容積等に従って、ゾーン内で空間的に変動してもよい。いくつかのそのような例において、アテンティブネス信号は、一連の音が作り出されるレート、例えば、ある期間内でのビープまたはチャープの数に従って、ゾーン内で空間的に変動してもよい。例えば、より高いレートで作り出される音は、より低いレートで作り出される音に比べて、対応するデバイスの比較的高い関連性メトリックを示してもよい。
【0109】
再び
図4を参照して、いくつかの実施態様において、オプションのブロック420は、関連性メトリックの比較に少なくとも部分的に基づいて、後続のオーディオ処理のためのデバイスを選択することを含むことができる。いくつかのそのような実施態様において、方法400は、ゾーン内に位置するデバイスの少なくとも1つのスピーカを選択し、人に音を提供するようにその少なくとも1つのスピーカを制御することを含むことができる。いくつかのそのような実施態様は、ゾーン内に位置するデバイスの少なくとも1つのマイクロフォンを選択し、その少なくとも1つのマイクロフォンによって出力される信号をスマートオーディオデバイスに提供することを含むことができる。いくつかの実施態様において、選択プロセスは自動
であってもよく、一方、他の例において、選択は、例えば、発声した人からのユーザー入力に従って行われてもよい。
【0110】
いくつかの例によれば、アテンティブネス信号は、発声時点に先立って、ゾーン内でデバイスによって生成される少なくとも1つの以前の信号の変調を含むことができる。例えば、照明器具または光源システムが、光信号を直前に放出した場合、変調は、カラー変調、カラー飽和度変調、および/または光強度変調であってもよい。以前の信号が音信号であった場合、変調は、レベルまたはボリューム変調、周波数変調等を含んでいる場合がある。いくつかの例において、変調は、ファン速度の変化、火炎サイズの変化、モーター速度の変化、および/または空気流量の変化であってもよい。
【0111】
いくつかの実施態様によれば、変調は「スウェル(swell)」であってもよい。スウェルは、信号変調の所定のシーケンスであるかまたはそれを含むことができる。いくつかの詳細な例が以下で説明される。いくつかのそのような実施態様は、システム環境(例えば、生活空間の照明、スピーカ、ファン、暖炉等)内の可変出力デバイス(いくつかの例において、連続可変の出力デバイスであってもよい)の使用を含むことができ、可変出力デバイスを、別の目的で使用することができるが、それらの現在の動作点の周りで変調することができる。いくつかの例は、例えば、デバイスのセットにわたって変動性表現(例えば、変動性量)の注意を示すために、可変アテンティブネスインジケーション(単数または複数)(例えば、スウェルを有する変動性アテンティブネス信号)を提供することができる。いくつかの実施態様は、ユーザーシグナリングの推定強度および/またはユーザー位置(単数または複数)の確信度の関数に基づいて可変アテンティブネス信号(単数または複数)(例えば、スウェル)を制御するように構成することができる。
【0112】
図5は、いくつかの実施態様による特徴の例を示すブロック図である。この例において、
図5は、(例えば、ユーザーが発したウェイクワードの)可変シグナリング強度505および可変信号の発生源の位置510の可変確率を示す。
図5は、異なるスマートオーディオデバイス(例えば、バーチャルアシスタント)の可変シグナリングに対する応答も示す。デバイスは、デバイスグループ520および525内にあり、それらは、起動可能な光を含むかまたはそれに関連する(例えば、それと通信するために構成される)。
図5に示すように、デバイスのそれぞれを異なるグループに含めることができる。
図5の「デバイスグループ」は、ラウンジ、キッチン等のような対応するゾーンに基づく。1つのゾーンが複数のオーディオデバイスおよび/または光を含み得る。ゾーンはオーバーラップすることができるため、任意のオーディオデバイス、照明等が複数のゾーン内にあってもよい。したがって、照明、オーディオデバイス等は、デバイスに関連付けられる代わりにまたはそれに加えて、ゾーンに関連付けることができる。ある特定の照明、オーディオデバイス等は、各ゾーンにより強く(またはより弱く)関連付けることができ、したがって、異なるスウェルパーセンテージに関連付けることができる。スウェルパーセンテージは、いくつかの例において、関連性メトリックに対応することができる。いくつかの実施態様において、これらの関連性メトリックを、例えば
図5に示すように、手動でセットアップし、テーブル内に取り込むことができる。他の例において、関連性メトリックを、例えば上記で説明したように、距離ヒューリスティックまたは確率から自動的に決定することができる。
【0113】
例えば、ウェイクワード(決定された強度を有し、不確定性を伴って決定される発端の位置を有する)に応答して、デバイスのまたはデバイスに関連する2つの異なる照明を、時間変動性アテンティブネス信号を作り出すために起動することができる。この例において、アテンティブネス信号は、各デバイスの位置に従って変動する、デバイスとウェイクワードの発端の位置との間の推定距離に部分的に基づくため、アテンティブネス信号もまた空間変動的である。
【0114】
シグナリング強度505は、例えば、上記で論じた「ウェイクワード確信度(wakeword confidence)」に対応することができる。この例において、全てのゾーン(キッチン、ラウンジ等)についてのロケーション確率510は、上記で論じたゼロ確率(例えば、範囲[0,1]内)に対応する。
図5は、各ゾーンに対応する各照明の異なる挙動(「関連性メトリック」に対応し得る)が存在する例を示す。照明、オーディオデバイス等が、複数のゾーンに関連付けられる場合、いくつかの実施態様において、制御システムは、関連するゾーンのそれぞれの出力の最大を決定するように構成することができる。
【0115】
可変出力デバイス
一般性を失わず、表1(以下)は、可変の、およびいくつかの例において、連続可変の、出力デバイスとして有用であるデバイス(例えば、それぞれが、制御可能な光放出要素、音放出要素、熱放出要素、移動要素、または振動要素を含むかまたはそれに関連する(例えば、それと通信するために構成される)ような、スマートオーディオデバイス)の例を示す。これらの例において、各可変出力デバイスの出力は時間変動性アテンティブネス信号である。表1は、デバイスのそれぞれから放出されるかまたはそれによって作り出される、音、光、熱、空気移動、または振動(それぞれがアテンティブネス信号として役立つ)のある範囲の変調を示す。1つの数字が、範囲のうちのいくつかを示すために使用されるが、1つの数字は、「スウェル」の間の最大変化を示し、したがって、ベースライン条件から、示した最大または最小値までの範囲を示す。これらの範囲は、例として挙げているだけであり、制限的でない。しかしながら、各範囲は、インジケーションにおける最小検出可能変化および最大(指令される)注意インジケーションの例を提供する。
【0116】
例えば、各モダリティについて「アテンティブネス信号」を(例えば、範囲[0,1]内で)決定すると、そのアテンティブネス信号からの「アテンティブネスからスウェルへの(attentiveness-to-swell)」マッピングが存在することができる。いくつかの例において、アテンティブネスからスウェルへのマッピングは単調マッピングとすることができる。
【0117】
アテンティブネスからスウェルへのマッピングは、いくつかの例において、少なくとも試験プロシージャ中にフィードバックを提供した個人の群にとってマッピングが「自然」であるように見えるように、ヒューリスティックにまたは実験的に(例えば、被験者の人口統計学的に典型的な群に関して)設定することができる。例えば、カラー変更モダリティの場合、0.1のアテンティブネスは+20nmの色相に対応することができ、一方、1のアテンティブネスは+100nmの色相に対応することができる。カラー可変光は、一般に、トランスデューサの周波数を変化させることになるのではなく、代わりに、変動性強度を持つように制御することができる別個のR、G、BのLEDを有することができるため、上記は、大雑把な例に過ぎない。表1は、一般に、モダリティによって異なることになる、作り出された物理的現象に対するアテンティブネスのいくつかの自然なマッピングのいくつかの例を提供する。
【0118】
【0119】
図6はスウェルの例を示すグラフである。本明細書において提供する他の図の場合と同様に、グラフ600に示す期間、振幅等は、単に例として挙げている。本明細書において、「スウェル」(アテンティブネス信号のスウェルに言及して)は、アテンティブネス信号変調等の信号変調の決定された(例えば、予め決定された)シーケンスとして定義される。いくつかの例において、スウェルは、アテンティブネス信号変調の明確な包絡線を含むことができる。スウェルは、注意(またはアテンティブネス)の自然なリズム(cadence)を反映するアテンティブネス信号変調のタイミングを提供するように設計することができる。スウェルの軌跡は、時として、エッジポイントにおける、例えば、スウェルの開始および終了における急激変化の感覚を回避するように設計される。
【0120】
図6に示すこの例において、グラフ600は、本明細書においてスウェル包絡線とも呼ばれる、アテンティブネス信号のスウェルの変化の包絡線の一例を提供する。スウェル包絡線601はアタック605を含み、アタック605は、第1の期間中のベースラインレベル603から極大値レベル607までのアテンティブネス信号レベルの増加である。第1の期間は、この例では、時間=0からおおよそ時間=500msまでである。表1で述べたように、極大値レベル607は、アテンティブネス信号のタイプ(例えば、光か、音か、または他のものか)、信号がどのように変調されることになるか(例えば、光強度、カラー変化、またはカラー飽和変化)、およびアテンティブネス信号が「検出可能な」状態に対応することが意図されるか、「指令される」状態に対応することが意図されるかに従って、変動する場合がある。表1に示す音の例等の他の例において、スウェルの第1の期間は、ベースラインレベル603から極小値レベルまでのアテンティブネス信号レベルの減少に対応してもよい。
【0121】
図6に示す例において、スウェル包絡線601は、ベースラインレベル603までのアテンティブネス信号レベルの減少であるリリース部(release)620を含む。この例によれば、リリース部620は、おおよそ時間=N秒で始まり、約2秒の間続く。Nおよびリリース部620の継続期間は共に、特定の実施態様に従って変動する場合がある。いくつかの例において、Nは、4秒、5秒、6秒、7秒、8秒、9秒、10秒等とすることができる。いくつかの例において、Nは、環境内の状態に応答性があるものとすることができる。例えば、リリース部620は、ウェイクワードを発した人が、対応するデバイスが位置するゾーンから離れた場合に始まることができる。他の例において、リリース部620の継続期間は2秒よりも長いかまたは短いものとすることができる。
【0122】
図6に示す例によれば、スウェル包絡線601は、ディケイ部610を含み、ディケイ部610は、極大値レベル607から、極大値レベル607とベースラインレベル603との間である中間または中間レベル振幅615までのアテンティブネス信号レベルの減少である。この例によれば、ディケイ部610は、おおよそ時間=500msからおおよそ時間=1秒まで起こる。
【0123】
この例において、スウェル包絡線601は、アテンティブネス信号レベルがその間、同じままであるホールド部617も含む。いくつかの実施態様において、アテンティブネス信号レベルは、ホールド部617の間、実質的に同じままとすることができる、例えば、ホールド部617の始まりのアテンティブネス信号レベルの所定のパーセンテージ以内(例えば、1%以内、2%以内、3%以内、4%以内、5%以内等)にあるままとすることができる。
図6に示す例において、ホールド部617は、おおよそ時間=1秒からおおよそ時間=N秒まで続く。
【0124】
推定強度
いくつかの例示的な実施形態において、アテンティブネス信号の正規化された強度は、0(ウェイクワードの閾値検出の場合)から1(通常より15dB~20dB大きい音声レベルをもたらす推定音声努力を有する場合)まで変動する場合がある。
【0125】
デバイスのスウェルを変調するための関数
初期強度を有するアテンティブネス信号のスウェルを変調するための関数の例「出力(output)」は:
出力=出力+スウェル*確信度*強度
であり、ここで、パラメーターであるスウェル、確信度、および強度は時間と共に変動し得る。
【0126】
照明等のモノのインターネット(IoT)の多数のデバイスの制御は、注意の表現についてスウェルするステップを導入しなくとも、既にそれ自体で複雑である。いくつかの実施形態は、これを考慮して(例えば、より広いシーンまたは空間コンテクスト制御によって起こっている設定が何であれ、スウェルは典型的にはそれに対する短期的な加算的差分(short-term additive delta)であるという意味で)設計されている。
【0127】
いくつかの実施態様において、シーン制御は、在室情報(occupancy)を含むことができ、また、注意を表現するために任じられるシステムの制御に関連する音声コマンドによって、かつ音声コマンド中に、形作ることができる。例えば、オーディオアテンティブネス信号は、2人以上の人がゾーン内にいる場合、比較的低い振幅範囲内に維持することができる。
【0128】
いくつかの実施形態は、スウェルの実装から、そのようなシーン制御を実装する方法を提供する。いくつかの実施態様において、複数のデバイスについてのアテンティブネス信号のスウェルは、別個のプロトコル(換言すれば、デバイスの機能を制御するための他のプロトコルと別の)に従って制御することができ、デバイスが、人間注意サイクルに参加すると共に、生活空間の雰囲気について制御されることを可能にする。
【0129】
いくつかの実施形態の態様は、以下:
-連続出力アクチュエーター;
-スマートオーディオデバイスの起動グループへの割り当て(いくつかの例においては、デバイスが複数のグループに割り当てられる);
-1つ以上の設計された時間包絡線を有するスウェル;
-起動強度およびゾーン(または位置)確信度の単純関数によって制御されるスウェルの範囲を含むことができる。
【0130】
従来システムにおいてはあまり表されない周囲存在作成試験可能基準(ambient presence create testable criteria)を示すために、バーチャルアシスタント(または他のスマートオーディオデバイス)がどのように制御され得るかについてのいくつかの例は、以下を含むことができる:
-ユーザーの意図の推定またはバーチャルアシスタントの呼び出しに基づいて計算される確信度スコア(ウェイクワード確信度スコア等)を、特定のコンテクスト情報(ウェイクワードが話された位置および/またはゾーン等)と共に、パブリッシュ(例えば、環境内のスマートデバイス間で共有)することができ、また、少なくともいくつかの例において、デバイスを制御するために直接使用しない;
-連続的電気制御を備えた、適切な装備を有するデバイスは、自然にかつ相互依存性を持って応答するように自身の既存の状態を「スウェルさせる(swell)」ために、この情報を使用するように制御され得る;
-「スウェル」を実施するデバイスの自任(self-delegation)(例えば、デバイスによるゾーンの自動化発見および/またはその動的更新)により、位置および「ゾーン」のマニュアルテーブルを必要としない緊急応答、および、低いユーザーセットアップ要件によって実現される追加のロバスト性を提供することができる;そして、
-(例えば、明示的または暗黙的ユーザーフィードバックによる)統計的サンプルの蓄積を通した連続的な推定、発表、および増大する確信度は、見せかけの存在(semblance of presence)をシステムが作成することを可能にし、いくつかの例において、この見せかけの存在は、空間にわたって自然に移動することができ、またいくつかの例において、アシスタントに話しかけるユーザーによる努力の増加に従って変調することができる。
【0131】
図7は、自動光学的組織化を実装するシステムの例示的実施形態を示す。
図7の要素は、以下を含む:
・700:自動光学組織化を示す例示的なホーム、ここでは、2ルームアパート;
・701:リビングルーム;
・702:ベッドルーム;
・703:リビングルームとベッドルームとの間の壁。この例によれば、光は2つの部屋の間を通過することができない。
・704:リビングルーム窓。昼の光は、日中にこの窓を介してリビングルームを照明する;
・705A~C:リビングルームを照明する複数のスマート天井(例えば、LED)照明;
・705D~F:各天井照明は、WiFi(または別のプロトコル)によって組織化され、WiFi(または別のプロトコル)によってスマートホームハブ740と通信する;
・706:リビングルームテーブル;
・707:光センサーを組み込むリビングルームスマートスピーカデバイス;
・707A:デバイス707は、WiFi(または別のプロトコル)によって組織化され、WiFi(または別のプロトコル)によってスマートホームハブ740と通信する;
・708A~C:照明705A~Cからデバイス707までの制御された光伝搬;
・709:窓704からデバイス707までの非制御光伝搬;
・710:ベッドルームを照明するスマート天井LED照明;
・710A:ベッドルーム照明は、WiFi(または別のプロトコル)によって組織化され、WiFi(または別のプロトコル)によってスマートホームハブ740と通信する;
・711:鉢植え;
・712:光センサーを組み込むIoT(モノのインターネット)自動給水デバイス;
・712A:IoT給水デバイスは、WiFi(または別のプロトコル)によって組織化され、WiFi(または別のプロトコル)によってスマートホームハブ740と通信する;
・713:ベッドルームテーブル;
・714:光センサーを組み込むベッドルームスマートスピーカデバイス;
・714A:ベッドルームスマートスピーカは、WiFiまたは別のプロトコルによって組織化され、WiFiまたは別のプロトコルによってスマートホームハブ740と通信する;
・715:ベッドルーム照明710からIoT給水デバイス712までの制御された光伝搬;そして、
・716:ベッドルーム照明710からベッドルームスマートスピーカ714までの制御された光伝搬。
この例によれば、スマートホームハブ740は、
図3を参照して上記で説明される装置300のインスタンスである。
【0132】
図8は、
図7のシステムの動作の態様の例を示すグラフのセットである。
図8の要素は、以下を含む:
800:
図7に描かれるスマート照明デバイス(それぞれ、710、705A、705B、および705C)の例示的セットについて、光強度設定の連続値(810、805A、805B、および805C)を表示するグラフ。グラフ800はまた、
図7に描かれる例示的な光センサー(それぞれ、712、714、および707)について、連続光センサー読み値(812、814、および807)を同じ時間軸上に表示する;
810:スマート照明デバイス710についての連続制御式光強度出力。時間6:00pmにおける値は、光が完全にオフの状態に対応する。
805A:スマート照明デバイス705Aについての連続制御式光強度出力。時間6:00pmにおける値は、光が完全にオフの状態に対応する。
805B:スマート照明デバイス705Bについての連続制御式光強度出力。時間6:00pmにおける値は、光が完全にオフの状態に対応する。
805C:スマート照明デバイス705Cについての連続制御式光強度出力。時間6:00pmにおける値は、光が完全にオフの状態に対応する。
812:例示的な光センサー712についての連続光センサー読み値。時間6:00pmにおける読み値は低い;
814:例示的な光センサー714についての連続光センサー読み値。時間6:00pmにおける読み値は低い;
807:例示的な光センサー707についての連続光センサー読み値。時間6:00pmにおける読み値は高い;
830:連続光センサー読み値は、窓704を通して入る昼の光709によって最初は高い。日暮れになると、周囲光強度は、7:30pmになるまで落ちる。
820:部屋701内の低い光条件に応答して、2つのスマート照明デバイス705A、705Bがユーザーによってスイッチオンされる、7:30pmに起こるイベント。スマート照明デバイス705Aおよび705Bの光強度は、トレース820Aおよび820Bに示すように増加する。同時に、820Cにおける連続光センサー読み値は、見るからに類似する応答を伴って増加する;
821:820のイベントは、スマート照明デバイス705Aおよび705Bがスイッチオフされると終了する。トレース820Aおよび820Bは、完全にオフの状態に相応して戻り、光センサー読み値807は低い値に戻る;
820A:スマート照明デバイス705Aがスイッチオンされ、その後、スイッチオフされるときのスマート照明デバイス705Aの光出力の増減;
820B:スマート照明デバイス705Bがスイッチオンされ、その後、スイッチオフされるときのスマート照明デバイス705Bの光出力の増減;
820C:照明705Aおよび705Bがスイッチオンおよびスイッチオフされることに応答するセンサー707の光センサー読み値の光出力の増減;
822:スマート照明デバイス710がスイッチオンされ、その後、スイッチオフされる(823)、8:00pmに起こるイベント。デバイスの光強度は、応答822Aを伴って変調される。光センサー読み値812および814は、その後、見るからに類似する応答822Bおよび822Cを伴って変調される;
824:新しいスマート照明デバイス705Cがシステムに接続される、8:30pmに起こるイベント。照明出力は、824Aで示すオン/オフパターンで、自動シーケンスを通してまたは光の出力を手動で制御するユーザーによって変調される;
824A:照明705Cの変調された出力パターン;
824B:スマート光705Cの変調に応答して、連続光センサー707は、見るからに類似する応答824Bを読み取る;
825:824のイベントは終了する;
826:ユーザー要求に応答して、部屋701内の照明は
、おおよそ50%
の薄暗い設定の強度まで使用可能にされる。これらの照明は、トレース826A、826B、および826Cにそれぞれ示す50%出力強度を有する705A、705B、および705Cである。相応して、センサー707の連続光センサー読み値は、見るからに類似する応答を伴って変調される;そして、
827:826のイベントは終了する。
【0133】
ホームおよび作業空間内におけるネットワーク化されたデバイスの管理および登録は、そのようなデバイスの数が急速に増加するため、増大する困難性を示す。照明装置、家具、機器、携帯電話、ウェアラブルは全て、益々コネクテッドになり、そのようなデバイスを設置し構成する手作業による現在の方法は持続可能でない。ネットワーク認証詳細および対形成デバイスにユーザーアカウントおよび他のサービスを供給することは、デバイスが最初に設置されるときに必要とするような登録の一例に過ぎない。登録および設置の別の一般的なステップは、デバイスのセットに対する特定の「ゾーン」または「グループ」の割り当てであり、デバイスのセットを、部屋等の特定の物理的空間にしばしば関連付けられる論理カテゴリに編成する。通常、静的に設置される照明装置および機器は、非常にしばしば、このカテゴリに入る。これらの「ゾーン」または「グループ」をデバイスに割り当てることに関連する労力や更なる設置ステップは、ユーザーに対し使い勝手上の困難性を意味し、商用製品としての魅力を低下させる。
【0134】
本開示は、これらの論理グループ分けおよびゾーンが、ホームオートメーションのコンテクストで合理的ではあるが、硬直的過ぎる場合があるため、ユーザーが空間をナビゲートするときに、人間/機械インタラクションにとって望ましい表現および流動性のレベルを提供することができないということを認識する。いくつかの例において、デバイスの集合体の連続可変出力パラメーターを変調しスウェルすることで注意を最もよく表現するための能力は、システムが、これらのデバイスの分布または関連性に関し、典型的な硬直的かつ手動で割り当てられた「ゾーン」よりもより細分化されているまたは適切であるようなある程度の知識を有することを必要とする場合がある。本明細書において、複数のセンサーによって作り出される読み値と、複数のスマートデバイスの連続出力構成の日和見的サンプリングとの両方を集計することによって、そのような分布を自動的にマッピングする本発明のアプローチが説明される。本明細書において、光を用いた例で議論を進めるため、1つ以上のスマートデバイスに取り付けられるデジタル化可能な出力読み値、並びに、複数のスマート照明デバイスについての自己報告式光強度および色相出力パラメーターを有する1つ以上の感光性コンポーネントを使用する。しかしながら、音、温度等の他のモダリティ(温度測定コンポーネント並びにスマートコネクテッド加熱機器および冷却機器を有する)も、この方法およびアプローチの考えられる実施形態であることが理解されるであろう。
【0135】
図7および
図8を参照して、統合されたまたはその他物理的に取り付けられた光センサーを使用するスマートアシスタントデバイスに対して、光放出スマートデバイスを関連付けるマッピングを作成するモダリティとして光を使用する例示的なシナリオが示される。
図7は、以下の説明を明確にするために、2つの離散的ゾーンに分割された例示的な環境を示す。
図8は、光センサーを使用するスマートアシスタントデバイスに対して、制御可能な光放出デバイスを関連付けるマッピングを決定するために、分析用のシステムによって測定される信号を示す。
【0136】
本発明者らの例において、全てのスマート照明デバイス(710、705A、705B、および705C)は、トレース810、805A~Cにそれぞれ見られる6:00pmにおいて、最初は光を放出していない。デバイス710、705A、および705Bは全て現在設置されかつ既にマッピングされており、一方、705Cはシステムによってまだマッピングされていない新しいデバイスである。3つのスマートデバイス(それぞれ、712、714、および707)の光センサー読み値(812、814、および807)も示している。垂直軸および水平軸(
図8)が縮尺通りではなく、この場合の光センサー読み値はスマート光出力パラメーターに対して同一のスケーリングを有しないことがあり得ることが理解されるべきである。また、光強度がここで単に例として示されていること、および、いくつかの開示される実施形態では、光色相出力パラメーター並びに光スペクトルの異なる部分をサンプリングする複数の光センサーも包含されることも理解されるべきである。
【0137】
本発明者らの例において、部屋702はベッドルームであり、部屋701はリビングルームである。部屋702は、1つのスマート光放出デバイス710並びに光検知能力を有する2つのスマートデバイス712(IoT給水デバイス)および714(スマートスピーカ)を含む。部屋701は、最初に設置されマッピングされた2つのスマート照明705Aおよび705B並びにマッピングされていない1つの新しいスマート照明705Cを含む。部屋702は、光検知能力を有する1つのスマートスピーカデバイス707も含む。窓704も、部屋702内に存在し、制御されていない量の周囲光を作り出す。
【0138】
本発明者らの例において、全てのスマートデバイスは、WiFiによってまたは何らかの他の通信プロトコルによってホームまたはローカルネットワークを通じて通信するように装備され、1つのデバイスにおいて収集されるかまたは記憶されるその情報は、組織化ハブデバイス740に送信され得る。時間6:00pmにおいて、スマート照明デバイス710、705A~Cのいずれによっても光は作り出されないが、部屋701内の窓704を通して放出される光が存在する。したがって、部屋702についての光センサー読み値は低く、部屋701についての読み値は高い。
【0139】
照明条件の変化に対応する一連のイベントが起こり、光センサー読み値の対応する変化によって十分、スマート検知デバイスとスマート光放出デバイスとの間の基本的なマッピングを確立し得ることが示される。トレース820は、日が沈むにつれて減少するデバイス707のセンサー読み値を示し、窓704を通して作り出される光709の量は減少する。7:30pmに、ユーザーがリビングルーム701の光をスイッチオンすると、イベント820が起こる。したがって、照明出力805Aおよび805Bは、プロファイル820Aおよび820Bに示すように増加する。相応して、光センサー読み値807はプロファイル820Cと共に増加する。特に、隣接する部屋のデバイス712および714に対応する光センサー読み値812および814は、このイベントによって変化しない。イベントは、821としてマーキングされる、照明が再びスイッチオフされる水平時刻で終了する。
【0140】
イベント820と同様の方式で、イベント822は、時間8:00pmに、ベッドルーム照明がスイッチオンされるときに始まる。ベッドルーム照明710の連続可変出力パラメーター810は、このイベント中にプロファイル822Aと共に増加する。スマートデバイス712および714の光センサー読み値812および814は、プロファイル822Bおよび822Cに関して対応する方式でそれぞれ同様に変調される。特に、光センサー読み値807は、隣接する部屋にあるため、影響を受けない。823にて、ベッドルーム照明710がスイッチオフされるため、イベントは終了する。
【0141】
8:30pmに、マッピングされていないリビングルーム照明805Cは、ある短い継続期間の間、周期的にオンおよびオフを切り換えられる。この切り換えは、照明デバイス自身によって、もしくはスマートハブ740の要求で自動的に、または、物理的スイッチを使用するユーザーによって、もしくは代替的にはパワーをデバイスに供給することおよびパワーをデバイスから取り除くことによって手動で開始されてもよかった。出力におけるこの変調(プロファイル824Aで識別可能)がどのように達成されたかによらず、デバイス705Cの報告される出力強度(805C)は、光センサー読み値812、814、および807と共に集計するためにネットワークを介して通信される。イベント820の場合と同様に、リビングルームの唯一のセンサー(デバイス707に取り付けられる)が、光センサー読み値内に見るからに類似するパターン824Bを有する出力変調824Aを反映する。このイベントは、数値825で示すように、始まった後しばらくして終了する。
【0142】
この時点までにシステムによって集計されたデータを用いて、マッピングされていないスマート照明705Cが照明705Aおよび705Bに強く関連すると推測することが可能である。これは、705Aおよび705Bが、光708Aおよび708Bの伝達を通して光センサー読み値807に影響を及ぼす程度が、705Cによって放出される光708Cが同じセンサーに影響を及ぼす程度に非常に類似するからである。類似の程度(以下により詳細に論じる畳み込みプロセスによって決定される)は、照明が、どの程度まで、同一場所に位置し、コンテクスト的に関連するかを決定する。この軟判定および近似関係マッピングは、どれだけきめ細かい「ゾーニング(zoning)」および空間認識(spatial awareness)がスマートアシスタントシステムに与えられるかの例を提供する。
【0143】
スマート照明705Cがこうして効果的にマッピングされた状態で、全ての「リビングルーム」照明を50%強度になるようスイッチオンするユーザー要求の例が、イベント826に示される。3つ全てのリビングルーム照明705A~Cは、出力トレース805A~Cに示される50%出力でイネーブルされ、プロファイル826A~Cに従う。相応して、光センサー読み値807は、同様にプロファイル826Dで変調される。デバイスが「マッピングされる」程度は、デバイスの出力において観測される相関した変調の蓄積および該当のセンサーの読み値を用いて、経時的に確信度が増加するであろう。そのため、新しいデバイス705Cが、705Aおよび705Bと同時に存在することが少なくとも理解された場合でも、初期セットアップ期間後に起こる826等のイベントの更なる分析は、本開示において上記で論じた表現力ある個人アシスタントインタラクションを容易にするために使用され得る空間についての、益々詳細でかつ確信度のある空間マップを構築するためのデータであるとして理解されるべきである。
【0144】
太陽等の非制御光源によって作り出される光のスペクトルを除去することで、消費者のおよび商用のLED照明デバイスによって作り出される光をより選択的に検知するような特定のフィルターを、光センサーが備え得ることが理解されるであろう。
【0145】
例における824のイベントが、システムの観点からはオプションであることが理解されるであろう。しかしながら、この例において、デバイスがシステムにマッピングされる速度は、デバイスが出力パラメーターをどれだけの頻度で変調するかに正比例する。これを考慮すると、情報理論の観点から高度の情報をエンコードする、824等の識別可能性の極めて高い変調イベントによって、デバイスをシステムのマッピングにより迅速に統合することができることが予想されるであろう。
【0146】
いくつかの実施形態は、連続的(または少なくとも継続されかつ/または周期的である)再マッピングおよび改良を実装するように、構成することができる。
図7および
図8の例を通して説明したイベントは、ユーザーによる「既にマッピングされた」デバイスの通常使用および新しい照明デバイスの設置を共に捉えている。自動化セットアップおよびマッピングアプローチを実装するためには、システムは、好ましくは、ユーザー介入または照明デバイスの手動操作を必要とすべきでない。この理由のため、イベント824(
図8)は、ユーザーが開始されてもよいが、同等に、スマート照明自身の裁量によってまたはハブもしくは他の外部組織化デバイスからの命令によって、スマート照明自身により開始されてもよい。この種類の明らかに検出可能な変調イベントは、高度の情報を保持し、システムのマッピング内への新しいデバイスの迅速な導入を助ける。
【0147】
次に、本明細書において「パーベイシブ改良(pervasive refinement)」と呼ばれる、ユーザー介入によって明示的に駆動されない、より繊細でかつ相補的な形態の変調が論じられる。システムは、益々高い忠実度を有するマッピングを構築するために、ユーザーにとって最小限にしか検出可能でないがスマートデバイスにとって識別可能であるようなゆっくり進む方式で、個々のスマートデバイスの出力パラメーターを連続して調整してもよい。ユーザーが相関させるべき明確な情報を作り出すようシステムを動作させることに依存する代わりに、システムが制御して、やはり、ユーザーにとって最小限にのみ検出可能であるがセンサーにとっては識別可能である方式で、個々のスマート出力デバイスに対し自身で変調を実施することができる。
【0148】
このアプローチの多くの例が可能である(光モダリティに的を絞る)。例は以下の表に示される:
【表2】
【0149】
上記で説明した実施形態の前提(premise)および動作を用いて、次に、連続出力デバイスとセンサーを有するスマートデバイスとの間の(経時的な)マッピングの開発を更に詳細に説明する。「マッピング」Hを、システム内のセンサー装備スマートデバイスと全ての連続出力デバイスとの間の正規化された類似度メトリックとして規定する。センサー装備スマートデバイスD{i}およびスマート出力デバイス{j}について、連続類似度メトリックGを
0<=G(D{i}、L{j})<=1
として規定することができる。ここで、Hは、システム内のD{i}およびL{j}についての全てのGのセットである:H={G(D{i}、L{j})}(全てのi、jについて)。
【0150】
これが確立された状態で、D{i}の近くで離散的なゾーンを選択することが、0と1との間の2値化閾値dによって達成される可能性があることがわかる:
Z=G(D{i}、L{j})>dであるような全てのj。
【0151】
連続類似度メトリックGを確立したことは、ゾーンの概念が流動的になることを可能にし、注意の表現に関して離散的ゾーンに制限される必要はなくなる。したがって、インタラクション中のバーチャルアシスタントによって所望されるアテンティブネスまたは表現の程度に基づいて、dの異なる値が選択される可能性がある。
【0152】
再び
図8を参照して、4つのスマート照明デバイスL{j}(j=1...4)(710、705A、705B、705C)についての既知の照明起動810、805A、805B、805Cは、I{j}[t]と表すことができる。この例において、他のスマートデバイスD{i}(i=1...3)(712、714、707)上の光センサーからの光読み値トレース812、814、807は、S{i}[t]と表すことができる。
【0153】
G(D{i}、L{j})は、離散的にサンプリングされる時系列I[t]およびS[t]、ネットワークを通じて通信される出力デバイスパラメーター、およびセンサー読み値からそれぞれ計算され得る。IおよびSは、意味がある比較を行えるように、十分に共に近い一定間隔でサンプリングされ得る。多くの類似度メトリックは、しばしば、ゼロ平均信号を取る。しかしながら、一定周囲オフセット(例えば、周囲照明条件)が、環境センサー内にしばしば存在する。
【0154】
したがって、I[t]およびS[t]から信号I[t]’およびS[t]’を導出すること、および、これらの導出信号からのGの計算も可能である。例えば、平滑化サンプル・トゥー・サンプル差分(smoothed sample-to-sample delta)は、
I[t]’=(1-a)*I[t-1]’+a*(I[t]-I[t-1]);0<a<1について
として表すことができる。
【0155】
最近の期間Tについてこれらの2つの時系列の間の類似度を確立することは、信号処理および統計学の専門家が精通しているであろう多くの方法を通して、例えば、
1.例えば、引用することにより本明細書の一部をなすhttp://mathworld.wolfram.com/CorrelationCoefficient.htmlで説明する、G=(1+PCC)/2と設定する、I[t]とS[t]との間のピアソン相関係数(PCC:Pearson correlation coefficientまたは「r」);
2.1の方法であるが、IおよびSの時間差分導出バージョンを用いて;
3.1の方法であるが、IおよびSの平均除去バージョンを用いて;
4.作り出される距離メトリックをGとして使用し、例えば、https://en.wikipedia.org/wiki/Dynamic_time_warping(引用することにより本明細書の一部をなす)で説明する、IおよびSの両方に対する動的時間ワーピング
によって達成することができる。
【0156】
いくつかの実施態様は、デバイスがデバイスグループ内にあるか否か、デバイスがゾーン内にあるか否か、および/または人がゾーン内にいるか否かを判定する自動化プロセスを自動的に更新することを含み得る。いくつかのそのような実施態様は、推定ゾーンに基づくビームフォーミングの成功、推定ゾーンに基づくマイクロフォン選択の成功、人が、音声アシスタントの応答を異常に終了したという判定、低確信度結果を返すコマンド認識器、または、ウェイクワードが話されたことの低確信度を返す第2のパス再帰的ウェイクワード検出器のうちの1つ以上に基づく暗黙的フィードバックに従って自動化プロセスを更新することを含み得る。
【0157】
ユーザが居るユーザゾーンを予測することの目的は、例えば、ウェイクワードに続くコマンドをより良く認識するために、ユーザの音響ゾーンからより効果的に音をピックアップすることを試みる、マイクロフォン選択スキームまたは適応型ビームフォーミングスキームに情報を与えることであり得る。そのようなシナリオにおいて、ゾーン予測の品質に関するフィードバックを得る暗黙的な技術は、以下の事項を含み得る。
・ ウェイクワードに続くコマンドの誤認識をもたらす予測に罰則を課する。誤認識を示し得るプロキシとしては、ユーザが、例えば「アマンダ、ストップ!」のような取消コマンド様のものを発することにより、コマンドに対する音声アシスタントの返答を中断することを含み得る;
・ 音声認識器がコマンドを正しく認識したことの低確信度をもたらす予測を罰する。多くの自動音声認識システムが、結果とともに確信度レベルを返す能力を有し、この目的のために使用することができる;
・ 第2パスウェイクワード検出器が高確信度でウェイクワードを遡及的に検出することの失敗をもたらす予測を罰する;および/または、
・ ウェイクワードの高確信度の認識および/またはユーザのコマンドの正しい認識をもたらす予測を強化する。
【0158】
以下に説明するのは、第2パスウェイクワード検出器が高い確信度でウェイクワードを遡及的に検出することを失敗する例である。環境内のマイクロフォンからの現在の発声に対応する出力信号を得た後で、かつ、(例えば、マイクロフォンと通信するため
に構成された複数の第1パスウェイクワード検出器を介して)出力信号に基づいて音響的特徴を判定した後に、音響的特徴が分類器に提供されると仮定する。換言すると、音響的特徴は、検出されたウェイクワード発声に対応するとみなす。さらに、現在の発声をした人はゾーン3(この例では、リーディングチェアに対応する)に居る可能性が最も高いと、分類器が判定すると仮定する。例えば、音声コマンド認識のためにクラウド型バーチャルアシスタントに送信されるために、ゾーン3内の人の声を聞くのに最適であるということが既知である、特定のマイクロフォンまたは学習した複数のマイクロフォンの組み合わせが存在してもよい。
【0159】
さらに、音声認識のためにどのマイクロフォン(単数または複数)を使用するかを決定した後で、かつ、人の発話が実際にバーチャルアシスタントサービスに送信される前に、コマンド認識のためにあなたが送信しようとしている、ゾーン3について選択されたマイクロフォン(単数または複数)により検出された発話に対応するマイクロフォン信号に対して、第2パスウェイクワード検出器が演算を行うと仮定する。ウェイクワードが実際に発せられたことに関して、第2パスウェイクワード検出器が複数の第1パスウェイクワード検出器と一致しない場合、それはおそらく、分類器がゾーンを間違って予測したからである。したがって、分類器は、罰せられなければならない。
【0160】
1つ以上のウェイクワードが話された後の、ゾーンマッピングモデルの事後更新(事後更新)のための技術は、以下のものを含んでもよい。
・ 混合ガウスモデル(GMM)または最近傍モデルの最大事後(MAP)適合、ならびに/もしくは、
・ 例えば、ニューラルネットワークの強化学習であって、例えば、適切な「ワン-ホット(one-hot)」(正確な予測の場合)または「ワン-コールド(one-cold)」(不正確な予測の場合)の正解ラベル(ground truth label)をSoftMax出力に関連付け、オンラインバックプロパゲーションを適用して、新たなネットワークの重みを決定することにより実現される、強化学習。
【0161】
この文脈におけるMAP適合のいくつかの例は、ウェイクワードが話される度に、GMM内の平均を調節することを含んでもよい。このようにして、平均は、後続のウェイクワードが話された場合に観測される音響的特徴により近づく。代替的にまたは追加的に、そのような例は、ウェイクワードが話される度に、GMM内の分散/共分散または混合重み情報(mixture weight information)を調節することを含んでもよい。
【0162】
例えば、MAP適合スキームは、次の通りであってもよい。
μi,new=μii,old
*α+x*(1-α)
【0163】
上記式において、μi,oldは混合体内のi番目のガウスの平均値を示し、αはどの程度積極的にMAP適合が起こるべきかを制御するパラメータを示し(αは、[0.9,0.999]の範囲内であり得る)、xは新たなウェイクワード発声の特徴ベクトルを示す。インデックス「i」は、ウェイクワード時刻において話者の位置を含むことの、最も高い事前確率を返す混合要素に対応する。
【0164】
あるいは、混合要素の各々は、例えば次式のように、ウェイクワードを含むことの事前確率に応じて調節されてもよい。
Mi,new=μi,old
*βi
*(1-βi)
【0165】
上記式において、βi=α*(1-P(i))であり、ここでP(i)は、観測値xが混合要素iに帰せられることの事前確率を示す。
【0166】
強化学習の一例において、3つのユーザゾーンが設けられてもよい。ある特定のウェイクワードについて、モデルは、3つのユーザゾーンについて確率が[0.2,0.1,0.7]であると予測すると仮定する。第2の情報源(例えば第2パスウェイクワード検出器)が、第3のゾーンが正しかったことを確認した場合、正解ラベルは[0,0,1](ワン ホット)であり得る。ゾーンマッピングモデルの事後更新は、ニューラルネットワークを介してエラーをバックプロパゲーションすることを含んでもよく、これは、同じ入力が再度示された場合にニューラルネットワークがゾーン3をより強く予測するであろうことを事実上意味する。逆に、第2の情報源が、ゾーン3は不正確な予測であったことを示す場合、一例において、正解ラベルは[0.5,0.5,0.0]であり得る。ニューラルネットワークを介してエラーをバックプロパゲーションすることにより、将来同じ入力が示された場合に、モデルがゾーン3を予測する可能性が低くなる。
【0167】
代替的にまたは追加的に、いくつかの実施態様は、人からの明示的なフィードバックに従って、自動化プロセスを自動的に更新することを含むことができる。フィードバックを得るための明示的な技術は、以下のことを含んでもよい。
・ 音声ユーザインターフェイス(UI)を用いて、予測が正しいかったかどうかをユーザに尋ねる。例えば、以下を示す音声をユーザに提供してもよい。:『あなたはソファに座っていると思います。「正しい」または「間違い」で答えてください。』
・ いつでもボイスUIを用いて間違った予測を訂正し得ることをユーザに知らせる。(例えば、以下を示す音声をユーザに提供してもよい。:『私に話しかければ、あなたが何処にいるか予測できます。もし私の予測が間違いであれば、「アマンダ、私はソファには座っていない。リーディングチェアに座っている。」のように答えてください。』)
・ いつでもボイスUIを用いて正しい予測に対して報い得ることをユーザに知らせる。(例えば、以下を示す音声をユーザに提供してもよい。:『私に話しかければ、あなたが何処にいるか予測できます。もし私の予測が正しければ、「アマンダ、正解だ。私はソファに座っている。」のように答えてください。そうすれば私の予測はさらに改善されます。』)
・ フィードバックを与えるためにユーザが操作できる、物理ボタンまたは他のUI要素を含む(例えば、物理デバイス上もしくはスマートフォンアプリ内の、サムズアップ(いいね)ボタンおよび/またはサムズダウン(低評価)ボタン)。
【0168】
本開示の特定の実施形態および応用を本明細書において説明したが、本明細書において説明する実施形態および応用に関する多くの変形が、本開示の範囲から逸脱することなく可能であることが当業者に明らかであろう。