特表2024-545571 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特表2024-545571分散型オーディオデバイスダッキング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-12-10

(54)【発明の名称】分散型オーディオデバイスダッキング

(51)【国際特許分類】

H04R 3/02 20060101AFI20241203BHJP

H04R 3/00 20060101ALI20241203BHJP

【ＦＩ】

H04R3/02

H04R3/00 310

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024527308

(86)(22)【出願日】2022-11-04

(85)【翻訳文提出日】2024-05-09

(86)【国際出願番号】 US2022048956

(87)【国際公開番号】W WO2023086273

(87)【国際公開日】2023-05-19

(31)【優先権主張番号】63/278,003

(32)【優先日】2021-11-10

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】22167857.6

(32)【優先日】2022-04-12

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】63/362,842

(32)【優先日】2022-04-12

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】サウスウェル，ベンジャミン

(72)【発明者】

【氏名】グナワン，デイヴィッド

(72)【発明者】

【氏名】ゼーフェルト，アランジェイ．

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220AA12

5D220CC06

5D220CC08

(57)【要約】

オーディオ処理方法は、オーディオ環境内の複数のマイクロホンの各マイクロホンから出力信号を受信するステップを含み得、出力信号は、人の現在の発話に対応する。本方法は、出力信号に応答して、オーディオデバイスロケーション情報およびエコー管理システム情報に少なくとも部分的に基づいて、オーディオ環境内の２つ以上のオーディオデバイスのためのラウドスピーカフィード信号にレンダリングされているオーディオデータに適用すべき１つまたは複数のオーディオ処理変更を決定することを含み得る。オーディオ処理変更は、オーディオ環境内の１つまたは複数のラウドスピーカのラウドスピーカ再生レベルの低減を含み得る。本方法は、１つまたは複数のタイプのオーディオ処理変更を適用させることを含み得る。オーディオ処理変更は、１つまたは複数のマイクロホンにおける音声対エコー比を増加させる効果を有し得る。

【特許請求の範囲】

【請求項1】

オーディオ処理方法であって、
制御システムによって、オーディオ環境内の１つまたは複数のマイクロホンから出力信号を受信するステップであって、前記出力信号は、人の現在の発話に対応する信号を含む、ステップと、
前記制御システムによって、前記出力信号に応答して、オーディオデバイスロケーション情報およびエコー管理システム情報に少なくとも部分的に基づいて、前記オーディオ環境内の２つ以上のオーディオデバイスのためのラウドスピーカフィード信号にレンダリングされているオーディオデータに適用すべき１つまたは複数のオーディオ処理変更を決定するステップであって、前記オーディオ処理変更は、前記オーディオ環境内の１つまたは複数のラウドスピーカのラウドスピーカ再生レベルの低減を含む、ステップと、
前記制御システムによって、前記１つまたは複数のタイプのオーディオ処理変更を適用させるステップと
を含む方法。

【請求項2】

前記１つまたは複数のタイプのオーディオ処理変更のうちの少なくとも１つは、信号対エコー比の増加に対応する、請求項１に記載の方法。

【請求項3】

前記エコー管理システム情報は、エコー管理システム性能のモデルを含む、請求項１に記載の方法。

【請求項4】

前記エコー管理システム性能のモデルは、音響エコーキャンセラ（ＡＥＣ）性能行列を含む、請求項３に記載の方法。

【請求項5】

前記エコー管理システム性能のモデルは、エコー管理システムによって提供される予想エコーリターンロスエンハンスメントの尺度を含む、請求項３に記載の方法。

【請求項6】

前記１つまたは複数のタイプのオーディオ処理変更は、デバイス間エコーおよびデバイス内エコーの音響モデルに少なくとも部分的に基づく、請求項１に記載の方法。

【請求項7】

前記１つまたは複数のタイプのオーディオ処理変更は、相互可聴性行列に少なくとも部分的に基づき、前記相互可聴性行列は、前記オーディオデバイス間のエコー経路のエネルギーを表す、請求項１に記載の方法。

【請求項8】

前記１つまたは複数のタイプのオーディオ処理変更は、前記人の推定ロケーションに少なくとも部分的に基づく、請求項１に記載の方法。

【請求項9】

前記人の前記推定ロケーションは、前記オーディオ環境内の複数のマイクロホンからの出力信号に少なくとも部分的に基づく、請求項８に記載の方法。

【請求項10】

前記１つまたは複数のタイプのオーディオ処理変更は、前記人の前記推定ロケーションから離れるようにオーディオ信号のレンダリングをワープするためにレンダリングプロセスを変更することを含む、請求項８に記載の方法。

【請求項11】

前記１つまたは複数のタイプのオーディオ処理変更は、リスニング目的に少なくとも部分的に基づく、請求項１に記載の方法。

【請求項12】

前記リスニング目的は、空間成分または周波数成分のうちの少なくとも１つを含む、請求項１１に記載の方法。

【請求項13】

前記１つまたは複数のタイプのオーディオ処理変更は、１つまたは複数の制約に少なくとも部分的に基づく、請求項１に記載の方法。

【請求項14】

前記１つまたは複数の制約は知覚モデルに基づく、請求項１３に記載の方法。

【請求項15】

前記１つまたは複数の制約は、オーディオコンテンツエネルギー保存、オーディオ空間性保存、オーディオエネルギーベクトル、または正則化制約のうちの１つまたは複数を含む、請求項１３に記載の方法。

【請求項16】

前記１つまたは複数のタイプのオーディオ処理変更を適用させた後に、前記オーディオ環境の音響モデルまたはエコー管理システム性能のモデルのうちの少なくとも１つを更新するステップをさらに含む、請求項１に記載の方法。

【請求項17】

前記１つまたは複数のタイプのオーディオ処理変更を決定するステップは、コスト関数の最適化に基づく、請求項１に記載の方法。

【請求項18】

前記１つまたは複数のタイプのオーディオ処理変更は、スペクトル修正を含む、請求項１に記載の方法。

【請求項19】

前記スペクトル修正は、５００Ｈｚから３ＫＨｚの周波数帯域におけるオーディオデータのレベルを低減することを含む、請求項１８に記載の方法。

【請求項20】

前記現在の発話は、ウェイクワード発話を含む、請求項１に記載の方法。

【請求項21】

請求項１から２０のいずれか一項に記載の方法を実行するように構成された装置。

【請求項22】

請求項１から２０のいずれか一項に記載の方法を実行するように構成されたシステム。

【請求項23】

ソフトウェアが記憶された１つまたは複数の非一時的媒体であって、前記ソフトウェアは、請求項１から２０のいずれか一項に記載の方法を実行するように１つまたは複数のデバイスを制御するための命令を含む、非一時的媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本出願は、２０２１年１１月１０日に出願された米国仮特許出願第６３／２７８，００３号、２０２２年４月１２日に出願された米国仮特許出願第６３／３６２，８４２号、および２０２２年４月１２日に出願された欧州特許出願第２２１６７８５７．６号に対する優先権を主張するものであり、これらのすべては、参照によりその全体が本明細書に組み込まれる。
[技術分野］

【0002】

本開示は、スマートオーディオデバイスなどのオーディオデバイスをオーケストレーションおよび実装し、そのようなオーディオデバイスにおける音声対エコー比（ＳＥＲ）を制御するためのシステムおよび方法に関する。

【背景技術】

【0003】

限定はしないが、スマートオーディオデバイスを含むがオーディオデバイスは、広く展開されており、多くの家庭で一般的な機能になりつつある。オーディオデバイスを制御するための既存のシステムおよび方法は利益をもたらすが、改善されたシステムおよび方法が望ましい。

【0004】

表記法と命名法
特許請求の範囲を含む本開示全体を通して、「スピーカ」、「ラウドスピーカ」、および「オーディオ再生トランスデューサ」という用語は、任意の放音トランスデューサ（sound-emitting transducer）（またはトランスデューサのセット）を示すために同義的に使用される。典型的なヘッドホンのセットには２つのスピーカが含まれている。スピーカは、単一の共通スピーカフィードまたは複数のスピーカフィードによって駆動され得る複数のトランスデューサ（例えば、ウーファーおよびツイーター）を含むように実装され得る。いくつかの例では、スピーカフィード（複数可）は、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受け得る。

【0005】

特許請求の範囲を含む本開示全体を通して、信号またはデータ「に対して」動作を実行する（例えば、信号またはデータをフィルタリングする、スケーリングする、変換する、または信号またはデータに利得を適用する）という表現は、信号もしくはデータに対して直接、または信号もしくはデータの処理されたバージョンに対して（例えば、それに対する動作の実行より前に予備フィルタリングまたは前処理を受けた信号のバージョンに対して）動作を実行することを示すために広い意味で使用される。

【0006】

特許請求の範囲を含む本開示全体を通して、「システム」という表現は、デバイス、システム、またはサブシステムを示すために広い意味で使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれることがあり、そのようなサブシステムを含むシステム（例えば、複数の入力に応答してＸ個の出力信号を生成するシステムであって、サブシステムが入力のうちのＭ個の入力を生成し、他のＸ－Ｍ個の入力は外部ソースから受信される、システム）も、デコーダシステムと呼ばれることがある。

【0007】

特許請求の範囲を含む本開示全体を通して、「プロセッサ」という用語は、データ（例えば、オーディオ、またはビデオもしくは他の画像データ）に対して動作を実行するために（例えば、ソフトウェアまたはファームウェアを用いて）プログラム可能であるかまたは場合によっては構成可能であるシステムまたはデバイスを示すために広い意味で使用される。プロセッサの例には、フィールドプログラマブルゲートアレイ（または他の構成可能な集積回路またはチップセット）、オーディオまたは他の音データに対してパイプライン処理を実行するようにプログラムされたおよび／または他の方法で構成されたデジタルシグナルプロセッサ、プログラム可能な汎用プロセッサまたはコンピュータ、およびプログラム可能なマイクロプロセッサチップまたはチップセットが含まれる。

【0008】

特許請求の範囲を含む本開示全体を通して、「結合する（couples）」または「結合された（coupled）」という用語は、直接接続または間接接続のいずれかを意味するために使用される。したがって、第１のデバイスが第２のデバイスに結合する場合、その接続は、直接接続を通して、または他のデバイスおよび接続を介した間接接続を通して行われ得る。

【0009】

本明細書で使用される場合、「スマートデバイス」は、一般に、Bluetooth（登録商標）、ジグビー（Zigbee）、近距離無線通信、Ｗｉ－Ｆｉ、ライトフィデリティ（Ｌｉ－Ｆｉ）、３Ｇ、４Ｇ、５Ｇなどの様々なワイヤレスプロトコルを介して１つまたは複数の他のデバイス（またはネットワーク）と通信するように構成され、ある程度対話的におよび／または自律的に動作することができる電子デバイスである。いくつかの注目すべきタイプのスマートデバイスには、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレットおよびタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、ならびにスマートオーディオデバイスがある。「スマートデバイス」という用語はまた、人工知能などのユビキタスコンピューティングのいくつかのプロパティを示すデバイスを指し得る。

【0010】

本明細書では、「スマートオーディオデバイス」という表現を使用して、単一目的オーディオデバイスまたは多目的オーディオデバイス（例えば、仮想アシスタント機能の少なくともいくつかの側面を実装するオーディオデバイス）のいずれかであるスマートデバイスを示す。単一目的オーディオデバイスは、少なくとも１つのマイクロホンを含むか、またはそれに結合され（そしてオプションで、少なくとも１つのスピーカおよび／または少なくとも１つのカメラも含むか、またはそれに結合され）、大部分はまたは主に、単一の目的を達成するように設計されたデバイス（例えば、テレビ（ＴＶ））である。例えば、ＴＶは、典型的には、番組素材からのオーディオを再生することができる（そして、再生可能であると考えられる）が、ほとんどの場合、現代のＴＶは、テレビを見るアプリケーションを含むアプリケーションがローカルに実行される何らかのオペレーティングシステムを実行する。この意味で、スピーカ（複数可）およびマイクロホン（複数可）を有する単一目的オーディオデバイスは、スピーカ（複数可）およびマイクロホン（複数可）を直接使用するためにローカルアプリケーションおよび／またはサービスを実行するように構成されることが多い。単一目的オーディオデバイスの中には、ゾーンまたはユーザ構成エリアにわたってオーディオの再生を達成するためにグループ化するように構成されているものもあり得る。

【0011】

１つの一般的なタイプの多目的オーディオデバイスは、仮想アシスタント機能の少なくともいくつかの側面を実装するオーディオデバイスであり、仮想アシスタント機能の他の側面は、多目的オーディオデバイスが通信するように構成された１つまたは複数のサーバなどの１つまたは複数の他のデバイスによって実装され得る。そのような多目的オーディオデバイスは、本明細書では、「仮想アシスタント」と呼ばれることがある。仮想アシスタントは、少なくとも１つのマイクロホンを含むかまたはそれに結合された（そしてオプションで、少なくとも１つのスピーカおよび／または少なくとも１つのカメラも含むかまたはそれに結合された）デバイス（例えば、スマートスピーカまたは音声アシスタント統合デバイス）である。いくつかの例では、仮想アシスタントは、ある意味ではクラウド対応であるか、そうでなければ仮想アシスタント自体野中または上に完全には実装されていないアプリケーションのために、（仮想アシスタントとは異なる）複数のデバイスを利用する能力を提供し得る。言い換えると、仮想アシスタント機能の少なくともいくつかの側面、例えば、音声認識機能は、仮想アシスタントがインターネットなどのネットワークを介して通信し得る１つまたは複数のサーバまたは他のデバイスによって（少なくとも部分的に）実装され得る。仮想アシスタントは、例えば、離散的かつ条件付きで定義された方法で、一緒に動作することもあり得る。例えば、２つ以上の仮想アシスタントは、それらのうちの１つ、例えば、ウェイクワードを聞き取ったことを最も確信している方がウェイクワードに応答するという意味で、一緒に動作し得る。接続された仮想アシスタントは、いくつかの実装形態では、仮想アシスタントであり得る（またはそれを実装し得る）１つのメインアプリケーションによって管理され得る、ある種のコンスタレーションを形成し得る。

【0012】

本明細書では、「ウェイクワード」は、任意の音（例えば、人間によって発せられる単語、または何らかの他の音）を示すために広い意味で使用され、スマートオーディオデバイスは、（スマートオーディオデバイスに含まれるかもしくはそれに結合された少なくとも１つのマイクロホン、または少なくとも１つの他のマイクロホンを使用した）音の検出（「聞き取り」）に応答してアウェイクするように構成される。このコンテキストでは、「アウェイクする」ことは、デバイスが、音コマンドを待つ（言い換えると、サウンドコマンドをリスンしている）状態に入ることを示す。いくつかの事例では、本明細書で「ウェイクワード」と呼ばれ得るものには、２つ以上の単語、例えば、フレーズが含まれ得る。

【0013】

本明細書では、「ウェイクワード検出器」という表現は、リアルタイム音（例えば、音声）特徴とトレーニングされたモデルとの間の整合を連続的に検索するように構成されたデバイス（またはデバイスを構成するための命令を含むソフトウェア）を示す。典型的には、ウェイクワードイベントは、ウェイクワードが検出された確率が事前定義されたしきい値を超えるとウェイクワード検出器が決定するたびにトリガされる。例えば、しきい値は、誤受容率と誤拒絶率との間の妥当な妥協点を与えるように調整された所定のしきい値であり得る。ウェイクワードイベントに続いて、デバイスは、コマンドをリスンし、受信したコマンドをより大きくより計算集約的な認識器に渡す状態（「アウェイクされた」状態または「注意力（attentiveness）」の状態と呼ばれることがある）に入り得る。

【0014】

本明細書で使用される場合、「プログラムストリーム」および「コンテンツストリーム」という用語は、１つまたは複数のオーディオ信号、およびいくつかの事例ではビデオ信号の集合を指し、その少なくとも一部は一緒に聞き取られることが意図される。例としては、音楽、映画のサウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成音声応答などの選択が含まれる。いくつかの事例では、コンテンツストリームは、オーディオ信号の少なくとも一部分の複数のバージョン、例えば、２つ以上の言語での同じダイアログを含み得る。そのような事例では、オーディオデータまたはその一部の１つのバージョン（例えば、単一の言語に対応するバージョン）のみが、一度に再生されることが意図される。

【発明の概要】

【0015】

本開示の少なくともいくつかの態様は、１つまたは複数のオーディオ処理方法を介して実装され得る。いくつかの事例では、方法（複数可）は、少なくとも部分的に、制御システムによって、および／または１つまたは複数の非一時的媒体上に記憶される命令（例えば、ソフトウェア）を介して実装され得る。いくつかのそのような方法は、制御システムによって、オーディオ環境内の１つまたは複数のマイクロホンから出力信号を受信するステップを含み得る。出力信号は、いくつかの事例では、人の現在の発話に対応する信号を含み得る。いくつかのそのような例では、現在の発話は、ウェイクワード発話であり得るか、またはそれを含み得る。

【0016】

いくつかのそのような方法は、制御システムによって、出力信号に応答して、オーディオデバイスロケーション情報およびエコー管理システム情報に少なくとも部分的に基づいて、オーディオ環境内の２つ以上のオーディオデバイスのためのラウドスピーカフィード信号にレンダリングされているオーディオデータに適用すべき１つまたは複数のオーディオ処理変更を決定するステップを含み得る。いくつかの例では、オーディオ処理変更は、オーディオ環境内の１つまたは複数のラウドスピーカのラウドスピーカ再生レベルの低減を含み得る。いくつかのそのような方法は、制御システムによって、１つまたは複数のタイプのオーディオ処理変更を適用させるステップを含み得る。

【0017】

いくつかの例では、オーディオ処理変更のうちの少なくとも１つは、信号対エコー比の増加に対応し得る。いくつかのそのような例によれば、エコー管理システム情報は、エコー管理システム性能のモデルを含み得る。例えば、エコー管理システム性能のモデルは、音響エコーキャンセラ（ＡＥＣ）性能行列を含み得る。いくつかの例では、エコー管理システム性能のモデルは、エコー管理システムによって提供される予想エコーリターンロスエンハンスメントの尺度を含み得る。

【0018】

いくつかの例によれば、１つまたは複数のタイプのオーディオ処理変更を決定することは、コスト関数の最適化に少なくとも部分的に基づき得る。代替的または追加的に、いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、デバイス間エコーおよびデバイス内エコーの音響モデルに少なくとも部分的に基づいてもよい。代替的または追加的に、いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、オーディオ環境内のオーディオデバイスの相互可聴性に、例えば、相互可聴性行列に少なくとも部分的に基づいてもよい。

【0019】

いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、人の推定ロケーションに少なくとも部分的に基づき得る。いくつかのそのような例では、人の推定ロケーションは、オーディオ環境内の複数のマイクロホンからの出力信号に少なくとも部分的に基づき得る。いくつかのそのような例によれば、オーディオ処理変更は、人の推定ロケーションから離れるようにオーディオ信号のレンダリングをワープするためにレンダリングプロセスを変更することを含み得る。

【0020】

代替的または追加的に、いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、リスニング目的に少なくとも部分的に基づいてもよい。いくつかのそのような例では、リスニング目的は、空間成分、周波数成分、または空間成分と周波数成分の両方を含み得る。

【0021】

代替的または追加的に、いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、１つまたは複数の制約に少なくとも部分的に基づいてもよい。いくつかのそのような例では、１つまたは複数の制約は、知覚モデルに少なくとも部分的に基づき得る。代替的または追加的に、１つまたは複数の制約は、オーディオコンテンツエネルギー保存、オーディオ空間性保存、オーディオエネルギーベクトル、正則化制約、またはそれらの組合せに少なくとも部分的に基づいてもよい。代替的または追加的に、いくつかの例は、１つまたは複数のタイプのオーディオ処理変更を適用させた後に、オーディオ環境の音響モデル、エコー管理システム性能のモデル、またはその両方を更新するステップを含んでもよい。

【0022】

いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、スペクトル修正を含み得る。いくつかのそのような例では、スペクトル修正は、５００Ｈｚから３ＫＨｚの周波数帯域におけるオーディオデータのレベルを低減することを含み得る。

【0023】

いくつかの開示される実装形態の態様は、１つまたは複数の開示される方法またはそのステップを実行するように構成された（例えば、プログラムされた）制御システムと、１つまたは複数の開示される方法またはそのステップを実行するためのコード（例えば、実行するために実行可能なコード）を記憶するデータの非一時的記憶を実装する有形の非一時的コンピュータ可読媒体（例えば、ディスクまたは他の有形記憶媒体）とを含む。例えば、いくつかの開示される実施形態は、ソフトウェアもしくはファームウェアでプログラムされた、および／または１つまたは複数の開示される方法またはそのステップを含む、データに対して様々な動作のいずれかを実行するように他の方法で構成された、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、またはマイクロプロセッサであるか、またはそれを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、それにアサートされたデータに応答して１つまたは複数の開示される方法（またはそのステップ）を実行するようにプログラムされた（および／または他の方法で構成された）処理サブシステムとを含むコンピュータシステムであるか、またはそれを含み得る。

【0024】

本明細書で説明される動作、機能、および／または方法の一部または全部は、１つまたは複数の非一時的媒体上に記憶された命令（例えば、ソフトウェア）にしたがって１つまたは複数のデバイスによって実行され得る。そのような非一時的媒体は、限定はしないが、ランダムアクセスメモリ（ＲＡＭ）デバイス、読取り専用メモリ（ＲＯＭ）デバイスなどを含む、本明細書で説明するメモリデバイスなどのメモリデバイスを含み得る。したがって、本開示で説明される主題のいくつかの革新的な態様は、ソフトウェアが記憶された非一時的媒体において実装することができる。

【0025】

本明細書で説明される主題の１つまたは複数の実装形態の詳細が、添付の図面および以下の説明に記載される。他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、縮尺通りに描かれていない可能性があることに留意されたい。

【図面の簡単な説明】

【0026】

【図1A】本開示の様々な態様を実装することが可能な装置の構成要素の例を示すブロック図である。

【図1B】オーディオ環境の例を示す。

【図2】図１Ｂのオーディオデバイスのうちの３つの間のエコー経路を示す。

【図3】一例によるオーディオデバイスの構成要素を表すシステムブロック図である。

【図4】一例によるダッキングモジュールの要素を示す。

【図5】ダッキングモジュールを含むオーディオデバイスの例を示すブロック図である。

【図6】ダッキングモジュールを含むオーディオデバイスの代替例を示すブロック図である。

【図7】ダッキング解を決定するための方法の一例を概説するフロー図である。

【図8】ダッキング解を決定するための方法の別の例を概説するフロー図である。

【図9】開示される方法の例を概説するフロー図である。

【図10】図１Ａに示されるような装置によって実行され得る方法の一例を概説するフロー図である。

【図11】ゾーン分類器を実装するように構成された実施形態の一例の要素のブロック図である。

【図12】図１Ａの装置１５０などの装置によって実行され得る方法の一例を概説するフロー図である。

【図13】図１Ａの装置１５０などの装置によって実行され得る方法の別の例を概説するフロー図である。

【図14】図１Ａの装置１５０などの装置によって実行され得る方法の別の例を概説するフロー図である。

【図15】スピーカアクティブ化およびオブジェクトレンダリング位置の例示的なセットを示す図である。

【図16】スピーカアクティブ化およびオブジェクトレンダリング位置の例示的なセットを示す図である。

【図17】図１Ａに示されるものなどの装置またはシステムによって実行され得る方法の一例を概説するフロー図である。

【図18】例示的な実施形態におけるスピーカアクティブ化のグラフである。

【図19】例示的な実施形態におけるオブジェクトレンダリング位置のグラフである。

【図20】例示的な実施形態におけるスピーカアクティブ化のグラフである。

【図21】例示的な実施形態におけるオブジェクトレンダリング位置のグラフである。

【図22】例示的な実施形態におけるスピーカアクティブ化のグラフである。

【図23】例示的な実施形態におけるオブジェクトレンダリング位置のグラフである。

【発明を実施するための形態】

【0027】

いくつかの実施形態は、本明細書ではオーケストレーションされたオーディオデバイスとも呼ばれる、調整されたオーディオデバイスを含むシステムを実装するように構成される。いくつかの実装形態では、オーケストレーションされたオーディオデバイスは、スマートオーディオデバイスを含み得る。いくつかのそのような実装形態によれば、スマートオーディオデバイスのうちの２つ以上は、ウェイクワード検出器であり得るか、またはウェイクワード検出器を実装するように構成され得る。したがって、そのような例では、複数のマイクロホン（例えば、非同期マイクロホン）がオーディオ環境内に存在し得る。

【0028】

現在、設計者は、一般に、オーディオデバイスを、娯楽、通信、および情報サービスを混ぜ合わせたものであり得るオーディオのための単一のインターフェースポイントとみなしている。通知および音声制御にオーディオを使用することには、視覚的または物理的な侵入を回避するという利点がある。対話型オーディオのすべての形式において、全二重（入力および出力）オーディオ能力を向上させるという問題は、依然として課題である。室内での送信または情報ベースのキャプチャに関連のないオーディオ出力が室内にあるとき、キャプチャされた信号から（例えば、エコーキャンセレーションおよび／またはエコー抑圧によって）このオーディオを除去することが望ましい。

【0029】

いくつかの開示される実施形態は、１つまたは複数のオーディオデバイスで全二重を成功させるための重要な基準を改善するために、リスナまたは「ユーザ」エクスペリエンスを管理するための手法を提供する。この基準は、本明細書では音声対エコー比とも呼ばれる信号対エコー比（ＳＥＲ）として知られており、１つまたは複数のマイクロホンを介してオーディオ環境（例えば、室内）でキャプチャされるべき音声信号または他の所望の信号と、オーディオ環境の１つまたは複数のラウドスピーカによって再生されている出力プログラムコンテンツ、対話型コンテンツなどに対応する１つまたは複数のマイクロホンからの信号を含む、オーディオデバイスにおいて提示される「エコー」との間の比として定義され得る。当業者であれば、このコンテキストにおいて、「エコー」が、マイクロホンによってキャプチャされる前に必ずしも反射されるわけではないことを認識するであろう。

【0030】

そのような実施形態は、ユーザの音響範囲内に２つ以上のオーディオデバイスが存在し、各オーディオデバイスが、所望の娯楽、通信、または情報サービスのために、ユーザのロケーションで適切な音量のオーディオプログラム材料を提示することができる状況において有用であり得る。そのような実施形態の価値は、同様にユーザの近くに３つ以上のオーディオデバイスが存在するときに特に高くなり得る。オーディオデバイスがユーザのより近くにある場合、オーディオデバイスは、音を正確に位置特定するか、または特定のオーディオシグナリングおよびイメージングをユーザに伝える能力に関してより有利になり得る。しかしながら、これらのオーディオデバイスが１つまたは複数のマイクロホンを含む場合、これらのオーディオデバイスのうちの１つまたは複数もまた、ユーザの音声を拾うのに好ましいマイクロホンシステムを有し得る。

【0031】

オーディオデバイスは、オーディオデバイスがコンテンツを再生している最中にユーザの音声コマンドに応答する必要があることが多々あり、その場合、オーディオデバイスのマイクロホンシステムは、オーディオデバイスによって再生されたコンテンツを検出することになる。言い換えれば、オーディオデバイスは、自身の「エコー」を聞くことになる。ウェイクワード検出器の特殊な性質により、そのようなデバイスは、このエコーの存在下でも、より一般的な音声認識エンジンよりも優れた性能を発揮することが可能であり得る。これらのオーディオデバイスにおいて実装される一般的な機構は、一般に「ダッキング（ducking）」と呼ばれ、ウェイクワードを検出した後にオーディオデバイスの再生レベルを低減し、オーディオデバイスが、ユーザによって発せられたウェイクワード後コマンドをより良好に認識することができるようにすることを含む。そのようなダッキングは、一般に、音声認識性能を予測するための一般的なメトリックであるＳＥＲの改善をもたらす。

【0032】

複数のオーディオデバイスが単一の音響空間（本明細書では「オーディオ環境」とも呼ばれる）に位置する、分散されオーケストレーションされたオーディオデバイスのコンテキストでは、単一のオーディオデバイスの再生のみをダッキングすることは、最適解ではない可能性がある。これは、オーディオ環境内の他のダッキングされていないオーディオデバイスからの「エコー」（検出されたオーディオ再生）が、単一のオーディオデバイスの再生のみをダッキングすることによって、達成可能な最大ＳＥＲを制限し得るので、部分的に真であり得る。

【0033】

したがって、いくつかの開示される実施形態は、オーディオ環境の１つまたは複数のマイクロホンにおけるＳＥＲを増加させるために、オーディオ環境の２つ以上のオーディオデバイスのためのオーディオ処理変更を引き起こしてもよい。いくつかの例では、オーディオ処理変更（複数可）は、最適化プロセスの結果にしたがって決定され得る。いくつかの例によれば、最適化プロセスは、ユーザのリスニングエクスペリエンスの１つまたは複数の側面を維持する制約に対して、客観的な音キャプチャ性能目標をトレードオフすることを含み得る。いくつかの例では、制約は、知覚的制約、客観的制約、またはそれらの組合せであり得る。いくつかの開示される例は、本明細書では「キャプチャスタック」と呼ばれることもあるエコー管理信号チェーンと、音響空間と、オーディオ処理変更（複数可）の知覚的影響とを記述するモデルを実装することと、それらを明示的にトレードオフすること（例えば、すべてのそのような要因を考慮した解を求めること）とを含む。

【0034】

いくつかの例によれば、プロセスは、例えば、各オーディオ処理変更（１つまたは複数のレンダリングパラメータの各変更など）の後に、音響およびキャプチャスタックモデルが更新される閉ループシステムを含み得る。いくつかのそのような例は、経時的にオーディオシステムの性能を反復的に改善することを含み得る。

【0035】

いくつかの開示される実装形態は、以下の要因のうちの１つもしくは複数、またはそれらの組合せに少なくとも部分的に基づき得る：
・所与の構成および出力解について達成されるＳＥＲを予測することができる、音響環境（言い換えると、オーディオ環境の音響効果）およびエコー管理信号チェーンのモデル；
・客観的メトリックと主観的メトリックの両方にしたがって出力解を制限する制約、これには以下が含まれる：
－コンテンツエネルギー保存；
－空間性保存；
－エネルギーベクトル；および／または
－次のような正則化：
◇ 本明細書では「ワッフル」と呼ばれることがある、ラウドスピーカアクティブ化の２次元または３次元アレイのレベル１正則化（Ｌ１）、レベル２正則化（Ｌ２）、もしくは任意のレベルの正則化（ＬＮ）歪み；および／または
◇ ダッキング利得のＬ１、Ｌ２またはＬＮ正則化；
・目標解における空間成分とレベル成分の両方を決定し得るリスニング目的。

【0036】

いくつかの例によれば、ダッキング解は、以下の要因のうちの１つもしくは複数、またはそれらの組合せに少なくとも部分的に基づき得る。
・いくつかの例では、すでにレンダリングされたオーディオコンテンツに適用され得る単純な利得；
－これらの利得は、特定の実装形態に応じて、全帯域または周波数依存であり得る；
・レンダラが、いくつかの例では、ワッフルと組み合わせて使用し得るレンダラへの入力；および／または
・本明細書ではワッフルメーカーと呼ばれることがあり、いくつかの事例では、レンダラの構成要素であり得る、ワッフルを生成するデバイス、モジュールなどへの入力。ワッフルメーカーは、いくつかの例では、そのような入力を使用して、ダッキングされたワッフルを生成し得る。

【0037】

いくつかの実装形態では、ワッフルメーカーおよび／またはレンダラへのそのような入力を使用して、オーディオオブジェクトが、ウェイクワードが検出されたロケーションから「遠ざけられる」ように見え得るようにオーディオ再生を変更し得る。いくつかのそのような実装形態は、（ａ）オーディオ環境内のラウドスピーカのセット上で再生されるときに再生されるオーディオ信号の知覚空間位置のモデルと、（ｂ）ラウドスピーカのセットの各ラウドスピーカの位置に対するオーディオ信号の意図された知覚空間位置の近接性の尺度と、（ｃ）１つまたは複数の追加の動的に構成可能な機能（additional dynamically configurable function）との関数であるコストを最適化することによって、オーディオ環境内のラウドスピーカのセットの相対的なアクティブ化を決定することを含み得る。いくつかのそのような実装形態については、以下で詳細に説明する。

【0038】

図１Ａは、本開示の様々な態様を実装することが可能な装置の構成要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図１Ａに示される要素のタイプおよび数は、単に例として提供されるものである。他の実装形態は、より多くの、より少ない、および／または異なるタイプおよび数の要素を含み得る。いくつかの例によれば、装置１５０は、本明細書で開示される方法のうちの少なくともいくつかを実行するように構成され得る。いくつかの実装形態では、装置１５０は、オーディオシステムの１つまたは複数の構成要素であり得るか、またはそれを含み得る。例えば、装置１５０は、いくつかの実装形態では、スマートオーディオデバイスなどのオーディオデバイスであり得る。他の例では、装置１５０は、モバイルデバイス（携帯電話など）、ラップトップコンピュータ、タブレットデバイス、テレビ、または別のタイプのデバイスであり得る。

【0039】

いくつかの代替実装形態によれば、装置１５０は、サーバであってもよく、またはそれを含んでもよい。いくつかのそのような例では、装置１５０は、エンコーダであり得るか、またはそれを含み得る。したがって、いくつかの事例では、装置１５０は、ホームオーディオ環境などのオーディオ環境内での使用のために構成されたデバイスであり得るが、他の事例では、装置１５０は、「クラウド」、例えば、サーバでの使用のために構成されたデバイスであり得る。

【0040】

この例では、装置１５０は、インターフェースシステム１５５および制御システム１６０を含む。インターフェースシステム１５５は、いくつかの実装形態では、オーディオ環境の１つまたは複数の他のデバイスとの通信のために構成され得る。オーディオ環境は、いくつかの例では、ホームオーディオ環境であり得る。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、街路または歩道環境、公園環境など、別のタイプの環境であり得る。インターフェースシステム１５５は、いくつかの実装形態では、制御情報および関連データをオーディオ環境のオーディオデバイスと交換するために構成され得る。制御情報および関連データは、いくつかの例では、装置１５０が実行している１つまたは複数のソフトウェアアプリケーションに関係し得る。

【0041】

インターフェースシステム１５５は、いくつかの実装形態では、コンテンツストリームを受信または提供するために構成され得る。コンテンツストリームは、オーディオデータを含み得る。オーディオデータは、オーディオ信号を含み得るが、これに限定されない。いくつかの事例では、オーディオデータは、チャネルデータおよび／または空間メタデータのような空間データを含み得る。メタデータは、例えば、本明細書では「エンコーダ」と呼ばれることがあるものによって提供されている場合がある。いくつかの例では、コンテンツストリームは、ビデオデータと、ビデオデータに対応するオーディオデータとを含み得る。

【0042】

インターフェースシステム１５５は、１つまたは複数のネットワークインターフェースおよび／または１つまたは複数の外部デバイスインターフェース（１つまたは複数のユニバーサルシリアルバス（ＵＳＢ）インターフェースなど）を含み得る。いくつかの実装形態によれば、インターフェースシステム１５５は、１つまたは複数のワイヤレスインターフェースを含み得る。インターフェースシステム１５５は、１つまたは複数のマイクロホン、１つまたは複数のスピーカ、ディスプレイシステム、タッチセンサシステムおよび／またはジェスチャセンサシステムなど、ユーザインターフェースを実装するための１つまたは複数のデバイスを含み得る。いくつかの例では、インターフェースシステム１５５は、制御システム１６０と、図１Ａに示されるオプションのメモリシステム１６５などのメモリシステムとの間の１つまたは複数のインターフェースを含み得る。しかしながら、いくつかの事例では、制御システム１６０がメモリシステムを含み得る。インターフェースシステム１５５は、いくつかの実装形態では、環境内の１つまたは複数のマイクロホンから入力を受信するように構成され得る。

【0043】

制御システム１６０は、例えば、汎用シングルまたはマルチチッププロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、および／またはディスクリートハードウェア構成要素を含み得る。

【0044】

いくつかの実装形態では、制御システム１６０は、２つ以上のデバイス内に存在し得る。例えば、いくつかの実装形態では、制御システム１６０の一部が、本明細書に示される環境のうちの１つ内のデバイス内に存在し得、制御システム１６０の別の部分が、サーバ、モバイルデバイス（例えば、スマートフォンまたはタブレットコンピュータ）などの環境の外側にあるデバイス内に存在し得る。他の例では、制御システム１６０の一部は、本明細書に示される環境のうちの１つ内のデバイス内に存在し得、制御システム１６０の別の部分は、環境の１つまたは複数の他のデバイス内に存在し得る。例えば、制御システム機能性は、環境の複数のスマートオーディオデバイスにわたって分散されてもよいし、オーケストレーションデバイス（本明細書ではスマートホームハブと呼ばれることがあるものなど）および環境の１つまたは複数の他のデバイスによって共有されてもよい。他の例では、制御システム１６０の一部は、サーバなどのクラウドベースのサービスを実装しているデバイス内に存在してもよく、制御システム１６０の別の部分は、別のサーバ、メモリデバイスなどのクラウドベースのサービスを実装している別のデバイス内に存在してもよい。インターフェースシステム１５５はまた、いくつかの例では、２つ以上のデバイス内に存在し得る。

【0045】

いくつかの実装形態では、制御システム１６０は、本明細書で開示される方法を少なくとも部分的に実行するように構成され得る。いくつかの例によれば、制御システム１６０は、オーディオ環境の１つまたは複数のマイクロホンにおけるＳＥＲを増加させるために、オーディオ環境の２つ以上のオーディオデバイスのためのオーディオ処理変更を決定し、引き起こすように構成され得る。いくつかの例では、オーディオ処理変更（複数可）は、オーディオデバイスロケーション情報およびエコー管理システム情報に少なくとも部分的に基づき得る。いくつかの例によれば、オーディオ処理変更（複数可）は、ウェイクワードの発話など、人の現在の発話に対応するマイクロホン出力信号に応答し得る。いくつかの例では、オーディオ処理変更（複数可）は、最適化プロセスの結果にしたがって決定され得る。いくつかの例によれば、最適化プロセスは、ユーザのリスニングエクスペリエンスの１つまたは複数の側面を維持する制約に対して、客観的な音キャプチャ性能目標をトレードオフすることを含み得る。いくつかの例では、制約は、知覚的制約、客観的制約、またはそれらの組合せであり得る。

【0046】

本明細書で説明される方法の一部または全部は、１つまたは複数の非一時的媒体上に記憶された命令（例えば、ソフトウェア）にしたがって１つまたは複数のデバイスによって実行され得る。そのような非一時的媒体は、限定はしないが、ランダムアクセスメモリ（ＲＡＭ）デバイス、読取り専用メモリ（ＲＯＭ）デバイスなどを含む、本明細書で説明するメモリデバイスなどのメモリデバイスを含み得る。１つまたは複数の非一時的媒体は、例えば、図１Ａに示されるオプションのメモリシステム１６５および／または制御システム１６０に存在してもよい。したがって、本開示で説明される主題の様々な革新的な態様は、ソフトウェアが記憶された１つまたは複数の非一時的媒体において実装することができる。ソフトウェアは、例えば、本明細書に開示される方法のうちのいくつかまたはすべてを実行するように、少なくとも１つのデバイスを制御するための命令を含み得る。ソフトウェアは、例えば、図１Ａの制御システム１６０などの制御システムの１つまたは複数の構成要素によって実行可能であり得る。

【0047】

いくつかの例では、装置１５０は、図１Ａに示されるオプションのマイクロホンシステム１７０を含み得る。オプションのマイクロホンシステム１７０は、１つまたは複数のマイクロホンを含み得る。いくつかの例によれば、オプションのマイクロホンシステム１７０は、マイクロホンのアレイを含み得る。いくつかの例では、マイクロホンのアレイは、例えば、制御システム１６０からの命令にしたがって、到来方向（ＤＯＡ）および／または到来時間（ＴＯＡ）情報を決定するように構成され得る。マイクロホンのアレイは、いくつかの事例では、例えば、制御システム１６０からの命令にしたがって、受信側ビームフォーミングのために構成され得る。いくつかの実装形態では、マイクロホンのうちの１つまたは複数は、スピーカシステムのスピーカ、スマートオーディオデバイスなど、別のデバイスの一部であるか、またはそれに関連付けられ得る。いくつかの例では、装置１５０は、マイクロホンシステム１７０を含まない場合がある。しかしながら、いくつかのそのような実装形態では、装置１５０は、それにもかかわらず、インターフェースシステム１６０を介してオーディオ環境内の１つまたは複数のマイクロホンのためのマイクロホンデータを受信するように構成され得る。いくつかのそのような実装形態では、装置１５０のクラウドベースの実装形態は、インターフェースシステム１６０を介してオーディオ環境内の１つまたは複数のマイクロホンからマイクロホンデータ、またはマイクロホンデータに対応するデータを受信するように構成され得る。

【0048】

いくつかの実装形態によれば、装置１５０は、図１Ａに示されるオプションのラウドスピーカシステム１７５を含み得る。オプションのラウドスピーカシステム１７５は、本明細書では「スピーカ」、またはより一般的には「オーディオ再生トランスデューサ」と呼ばれることもある、１つまたは複数のラウドスピーカを含み得る。いくつかの例（例えば、クラウドベース実装形態）では、装置１５０は、ラウドスピーカシステム１７５を含まない場合がある。

【0049】

いくつかの実装形態では、装置１５０は、図１Ａに示されるオプションのセンサシステム１８０を含み得る。オプションのセンサシステム１８０は、１つまたは複数のタッチセンサ、ジェスチャセンサ、動き検出器などを含み得る。いくつかの実装形態によれば、オプションのセンサシステム１８０は、１つまたは複数のカメラを含み得る。いくつかの実装形態では、カメラは、自立型カメラであり得る。いくつかの例では、オプションのセンサシステム１８０の１つまたは複数のカメラは、いくつかの例では、仮想アシスタントを少なくとも部分的に実装するように構成され得るスマートオーディオデバイス内に存在し得る。いくつかのそのような例では、オプションのセンサシステム１８０の１つまたは複数のカメラは、テレビ、モバイルホンまたはスマートスピーカ内に存在し得る。いくつかの例では、装置１５０は、センサシステム１８０を含まない場合がある。しかしながら、いくつかのそのような実装形態では、装置１５０は、それにもかかわらず、インターフェースシステム１６０を介してオーディオ環境内の１つまたは複数のセンサのためのセンサデータを受領するよう構成され得る。

【0050】

いくつかの実装形態では、装置１５０は、図１Ａに示されるオプションのディスプレイシステム１８５を含み得る。オプションのディスプレイシステム１８５は、１つまたは複数の発光ダイオード（ＬＥＤ）ディスプレイなどの１つまたは複数のディスプレイを含み得る。いくつかの事例では、オプションのディスプレイシステム１８５は、１つまたは複数の有機発光ダイオード（ＯＬＥＤ）ディスプレイを含み得る。いくつかの例では、オプションのディスプレイシステム１８５は、スマートオーディオデバイスの１つまたは複数のディスプレイを含み得る。他の例では、オプションのディスプレイシステム１８５は、テレビディスプレイ、ラップトップディスプレイ、モバイルデバイスディスプレイ、または別のタイプのディスプレイを含み得る。装置１５０がディスプレイシステム１８５を含むいくつかの例では、センサシステム１８０は、ディスプレイシステム１８５の１つまたは複数のディスプレイに近接したタッチセンサシステムおよび／またはジェスチャセンサシステムを含み得る。いくつかのそのような実装形態によれば、制御システム１６０は、１つまたは複数のグラフィカルユーザインターフェース（ＧＵＩ）を提示するようにディスプレイシステム１８５を制御するために構成され得る。

【0051】

いくつかのそのような例によれば、装置１５０は、スマートオーディオデバイスであり得るか、またはそれを含み得る。いくつかのそのような実装形態では、装置１５０は、ウェイクワード検出器であり得るか、またはそれを含み得る。例えば、装置１５０は、仮想アシスタントであり得るか、またはそれを含み得る。

【0052】

図１Ｂは、オーディオ環境の例を示す。本明細書に提供される他の図と同様に、図１Ｂに示される要素のタイプ、数、および配列は、単に例として提供されるものである。他の実装形態は、より多くの、より少ない、および／または異なるタイプおよび数の要素、異なる配置の要素などを含み得る。

【0053】

この例によれば、オーディオ環境１００は、オーディオデバイス１１０Ａ、１１０Ｂ、１１０Ｃ、１１０Ｄおよび１１０Ｅを含む。オーディオデバイス１１０Ａ～１１０Ｅは、いくつかの例では、図１Ａの装置１５０のインスタンスであり得る。この例では、各オーディオデバイス１１０Ａ～１１０Ｅは、マイクロホン１２０Ａ、１２０Ｂ、１２０Ｃ、１２０Ｄおよび１２０Ｅのうちの少なくともそれぞれ１つと、ラウドスピーカ１２１Ａ、１２１Ｂ、１２１Ｃ、１２１Ｄおよび１２１Ｅのうちの少なくともそれぞれ１つを含む。この例では、マイクロホン１２０Ａ～１２０Ｅおよびラウドスピーカ１２１Ａ～１２１Ｅの個々のインスタンスが示されている。しかしながら、オーディオデバイス１１０Ａ～１１０Ｅのうちの１つまたは複数は、複数のマイクロホンを含むマイクロホンシステムおよび／または複数のラウドスピーカを含むラウドスピーカシステムを含み得る。いくつかの例によれば、各オーディオデバイス１１０Ａ～１１０Ｅは、スマートスピーカなどのスマートオーディオデバイスであり得る。

【0054】

いくつかの例では、オーディオデバイス１１０Ａ～１１０Ｅのうちのいくつかまたはすべては、オーケストレーションデバイスからの命令にしたがって（少なくとも部分的に）動作するオーケストレーションされたオーディオデバイスであってもよい。いくつかのそのような例によれば、オーケストレーションデバイスは、オーディオデバイス１１０Ａ～１１０Ｅのうちの１つであり得る。他の例では、オーケストレーションデバイスは、スマートホームハブなどの別のデバイスであり得る。

【0055】

この事例では、人１０１Ａおよび１０１Ｂはオーディオ環境内にいる。この例では、音響イベントは、オーディオデバイス１１０Ａの近くで話している話者１０１Ａによって引き起こされる。要素１０２は、人１０１Ａの音声を表すことを意図している。この例では、音声１０２は、人１０１Ａによるウェイクワードの発話に対応する。

【0056】

図２は、図１Ｂのオーディオデバイスのうちの３つの間のエコー経路を示す。図１Ｂを参照して説明されていない図２の要素は、以下の通りである：
２００ＡＡ：デバイス１１０Ａからデバイス１１０Ａへの（ラウドスピーカ１２１Ａからマイクロホン１２０Ａへの）エコー経路；
２００ＡＢ：デバイス１１０Ａからデバイス１１０Ｂへの（ラウドスピーカ１２１Ａからマイクロホン１２０Ｂへの）エコー経路；
２００ＡＣ：デバイス１１０Ａからデバイス１１０Ｃへの（ラウドスピーカ１２１Ａからマイクロホン１２０Ｃへの）エコー経路；
２００ＢＡ：デバイス１１０Ｂからデバイス１１０Ａへの（ラウドスピーカ１２１Ｂからマイクロホン１２０Ａへの）エコー経路；
２００ＢＢ：デバイス１１０Ｂからデバイス１１０Ｂへの（ラウドスピーカ１２１Ｂからマイクロホン１２０Ｂへの）エコー経路；
２００ＢＣ：デバイス１１０Ｂからデバイス１１０Ｃへの（ラウドスピーカ１２１Ｂからマイクロホン１２０Ｃへの）エコー経路；
２００ＣＡ：デバイス１１０Ｃからデバイス１１０Ａへの（ラウドスピーカ１２１Ｃからマイクロホン１２０Ａへの）エコー経路；
２００ＣＢ：デバイス１１０Ｃからデバイス１１０Ｃへの（ラウドスピーカ１２１Ｃからマイクロホン１２０Ｂへの）エコー経路；
２００ＣＣ：デバイス１１０Ｃからデバイス１１０Ｃへの（ラウドスピーカ１２１Ｃからマイクロホン１２０Ｃへの）エコー経路。

【0057】

これらのエコー経路は、各オーディオデバイスの再生されたオーディオまたは「エコー」が他のオーディオデバイスに及ぼす影響を示す。この影響は、本明細書では、オーディオデバイスの「相互可聴性（mutual audibility）」と呼ばれることがある。相互可聴性は、オーディオ環境内の各オーディオデバイスの位置および向き、各オーディオデバイスの再生レベル、各オーディオデバイスのラウドスピーカ能力などを含む様々な要因に依存する。いくつかの実装形態は、エコー経路２００ＡＡ～２００ＣＣのエネルギーを表す可聴性行列Ａなど、オーディオ環境内のオーディオデバイスの相互可聴性のより正確な表現を構築することを含み得る。例えば、可聴性行列の各列は、オーディオデバイスラウドスピーカを表し得、可聴性行列の各行は、オーディオデバイスマイクロホンを表し得、またはその逆も同様である。いくつかのそのような可聴性行列では、可聴性行列の対角線は、オーディオデバイスのラウドスピーカ（複数可）から同じオーディオデバイスのマイクロホン（複数可）へのエコー経路を表し得る。

【0058】

図２から、それぞれオーディオデバイス１１０Ｃおよび１１０Ｂからオーディオデバイス１００Ａへのエコー経路である２００ＣＡおよび２００ＢＡが強い結合を有する場合、オーディオデバイス１１０Ｃおよびオーディオデバイス１１０Ｂからのエコーは、オーディオデバイス１１０Ａのエコー（残差）において有意になることが分かる。そのような事例では、音声１０２（この例ではウェイクワードに対応する）を検出したことに対するオーディオシステムの応答が、単に最も近いラウドスピーカの音量を下げることである場合、これは、ラウドスピーカ（複数可）１２１Ａからの再生のみをダッキングすることを含む。これが、ウェイクワードを検出したことに対するオーディオシステムの唯一の応答である場合、潜在的なＳＥＲ改善は、著しく制限される可能性がある。したがって、いくつかの開示される例は、そのような状況においてウェイクワードを検出したことに対する他の応答を含み得る。

【0059】

図３は、一例によるオーディオデバイスの構成要素を表すシステムブロック図である。図３において、オーディオデバイス１１０Ａを表すブロックは、ラウドスピーカ１２１Ａおよびマイクロホン１２０Ａを含む。いくつかの例では、ラウドスピーカ１２１Ａは、図１Ａのラウドスピーカシステム１７５などのラウドスピーカシステム内の複数のラウドスピーカのうちの１つであり得る。同様に、いくつかの実装形態によれば、マイクロホン１２０Ａは、図１Ａのマイクロホンシステム１７０などのマイクロホンシステム内の複数のマイクロホンのうちの１つであり得る。

【0060】

この例では、オーディオデバイス１１０Ａは、レンダラ２０１Ａと、エコー管理システム（ＥＭＳ）２０３Ａと、音声プロセッサ／通信ブロック２４０Ａとを含む。この例では、ＥＭＳ２０３Ａは、音響エコーキャンセラ（ＡＥＣ）、音響エコーサプレッサ（ＡＥＳ）、もしくはＡＥＣとＡＥＳの両方であり得るか、またはそれらを含み得る。この例によれば、レンダラ２０１Ａは、ラウドスピーカ１２１Ａでの再生のために、オーディオデバイス１１０Ａによって受信された、またはオーディオデバイス１１０Ａに記憶されたオーディオデータ３０１をレンダリングするように構成される。いくつかの例では、オーディオデータは、１つまたは複数のオーディオ信号と、関連する空間データとを含み得る。空間データは、例えば、オーディオ信号に対応する意図された知覚空間位置を示し得る。いくつかの例では、空間データは、オーディオオブジェクトに対応する空間メタデータであり得るか、またはそれを含み得る。この例では、レンダラ出力２２０Ａは、再生のためにラウドスピーカ１２１Ａに提供され、レンダラ出力２２０Ａはまた、エコーキャンセレーションのための基準としてＥＭＳ２０３Ａに提供される。

【0061】

レンダラ出力２２０Ａを受信することに加えて、この例では、ＥＭＳ２０３Ａは、マイクロホン１２０Ａからマイクロホン信号２２３Ａも受信する。この例では、ＥＭＳ２０３Ａは、マイクロホン信号２２３Ａを処理し、エコーキャンセルされた残差２２４Ａ（本明細書では「残差出力２２４Ａ」と呼ばれることもある）を音声プロセッサ／通信ブロック２４０Ａに提供する。

【0062】

いくつかの実装形態では、音声プロセッサ／通信ブロック２４０Ａは、音声認識機能のために構成され得る。いくつかの例では、音声プロセッサ／通信ブロック２４０Ａは、電話通話、テレビ会議などの電気通信サービスを提供するように構成され得る。図３には示されていないが、音声プロセッサ／通信ブロック２４０Ａは、例えばインターフェースシステムを介して、１つまたは複数のネットワーク、ラウドスピーカ１２１Ａおよび／またはマイクロホン１２０Ａと通信するように構成されてもよい。１つまたは複数のネットワークは、例えば、ローカルＷｉ－Ｆｉネットワーク、１つまたは複数のタイプの電話ネットワークなどを含み得る。

【0063】

図４は、一例によるダッキングモジュールの要素を示す。この実装形態では、ダッキングモジュール４００は、図１Ａの制御システム１６０のインスタンスによって実装される。この例では、図４の要素は以下の通りである：
・４０１：いくつかの例では、ユーザ発話の音響モデルを含む、デバイス間およびデバイス内エコーの音響モデル。いくつかの例によれば、音響モデル４０１は、オーディオ環境内の各オーディオデバイスからの再生が、オーディオ環境内のすべてのオーディオデバイス（自身および他のもの）のマイクロホンによって検出されたエコーとしてどのように表れるかのモデルであり得るか、またはそれを含み得る。いくつかの例では、音響モデル４０１は、オーディオ環境インパルス応答推定値、ピーク振幅、減衰時間などのインパルス応答の特性などに少なくとも部分的に基づき得る。いくつかの例では、音響モデル４０１は、可聴性推定値に少なくとも部分的に基づき得る。いくつかのそのような例では、可聴性推定値はマイクロホン測定値に基づき得る。代替的または追加的に、可聴性推定値は、オーディオデバイス位置によって、例えばエコーパワーがオーディオデバイス間の距離に反比例することに基づいて、推論されてもよい。いくつかの例では、音響モデル４０１は、ＡＥＣ／ＡＥＳフィルタタップの長期推定値に少なくとも部分的に基づき得る。いくつかの例では、音響モデル４０１は、各オーディオデバイスのラウドスピーカ（複数可）の能力（ラウドネス）に関する情報を含み得るワッフルに少なくとも部分的に基づき得る；
・４５２：オーディオ環境内の複数のオーディオデバイスの各オーディオデバイスの位置に関する情報を含む空間情報。いくつかの例では、空間情報４５２は、複数のオーディオデバイスの各オーディオデバイスの向きに関する情報を含み得る。いくつかの例によれば、空間情報４５２は、オーディオ環境内の１人以上の人の位置に関する情報を含み得る。いくつかの事例では、空間情報４５２は、オーディオ環境の少なくとも一部分のインパルス応答に関する情報を含み得る；
・４０２：図３のＥＭＳ２０３Ａの性能または別のＥＭＳ（図５または図６のものなど）の性能を示し得る、ＥＭＳ性能のモデル。この例では、ＥＭＳ性能モデル４０２は、ＥＭＳ（ＡＥＣ、ＡＥＳ、または両方）がどの程度良好に機能するかを予測する。いくつかの例では、ＥＭＳ性能モデル４０２は、現在のオーディオ環境インパルス応答、オーディオ環境の現在のノイズレベル（複数可）、ＥＭＳを実装するために使用されているアルゴリズム（複数可）のタイプ、オーディオ環境において再生されているコンテンツのタイプ、ＥＭＳアルゴリズム（複数可）に供給されているエコー基準の数、オーディオ環境におけるラウドスピーカの能力／品質（ラウドスピーカにおける非線形性は、予想される性能に対して上限を課すことになる）、またはそれらの組合せを仮定して、ＥＭＳがどの程度良好に機能するかを予測し得る。いくつかの例によれば、ＥＭＳ性能モデル４０２は、例えば、様々な条件下でＥＭＳがどのように機能するかを観察し、そのような観察に基づいてデータ点を記憶し、これらのデータ点に基づいて（例えば、曲線を適合させることによって）モデルを構築することによって、経験的観察に少なくとも部分的に基づき得る。いくつかの例では、ＥＭＳ性能モデル４０２は、ＥＭＳ性能の経験的観察に基づいてニューラルネットワークをトレーニングすることなどによって、機械学習に少なくとも部分的に基づき得る。代替的または追加的に、ＥＭＳ性能モデル４０２は、ＥＭＳによって使用されるアルゴリズム（複数可）の理論的分析に少なくとも部分的に基づいてもよい。いくつかの例では、ＥＭＳ性能モデル４０２は、ＥＭＳ性能を評価するための有用なメトリックである、ＥＭＳの動作によって引き起こされるＥＲＬＥ（エコーリターンロスエンハンスメント）を示し得る。ＥＲＬＥは、例えば、各オーディオデバイス間でＥＭＳによって適用される追加の信号損失の量を示し得る；
・４０３：１つまたは複数の現在のリスニング目的に関する情報。いくつかの例では、リスニング目的情報４０３は、ダッキングモジュールが達成するためのＳＥＲ目標またはＳＥＲ改善目標などの目標を設定し得る。いくつかの例によれば、リスニング目的情報４０３は、空間成分とレベル成分の両方を含み得る；
・４５０：外部トリガ、音響イベント、モード指示など、ターゲットを決定するために使用され得る目標関連要因；
・４０４：リスニング性能の改善（言い換えると、人の発話などのオーディオをキャプチャするための１つまたは複数のマイクロホンの機能の改善）を他のメトリック（オーディオ環境内の人のリスニングエクスペリエンスの劣化など）に対してトレードオフする制約など、ダッキング解を決定するプロセス中に適用されるべき１つまたは複数の制約。例えば、一例では、制約は、ダッキングモジュール４００が、オーディオ環境内のいくつかまたはすべてのラウドスピーカについてのラウドスピーカ再生レベルを、０ｄＢＦＳ（decibels relative to full scale）など、許容できないほど低いレベルに低減することを防止し得る；
・４５１：空間性メタデータ、レベルメタデータ、コンテンツタイプメタデータなどを含み得る、現在のオーディオコンテンツについてのメタデータ。そのようなメタデータは、１つまたは複数のラウドスピーカのダッキングがオーディオ環境内の人のリスニングエクスペリエンスに対してもたらすこととなる影響についての情報を（直接または間接的に）提供し得る。例えば、「大きい」オーディオオブジェクトがオーディオ環境の複数のラウドスピーカによって再生されていることを空間性メタデータが示す場合、それらのラウドスピーカのうちの１つをダッキングしても、リスニングエクスペリエンスに対して好ましくない影響を与えない可能性がある。別の例として、コンテンツがポッドキャストであることをコンテンツメタデータが示す場合、いくつかの事例では、ポッドキャストのモノローグまたはダイアログは、オーディオ環境の複数のラウドスピーカによって再生され得るので、それらのラウドスピーカのうちの１つをダッキングしても、リスニングエクスペリエンスに対して好ましくない影響を与えない可能性がある。しかしながら、オーディオコンテンツが映画またはテレビ番組に対応することをコンテンツメタデータが示す場合、そのようなコンテンツのダイアログは、主にまたは完全に特定のラウドスピーカ（「フロント」ラウドスピーカなど）によって再生され得るので、それらのラウドスピーカをダッキングすると、リスニングエクスペリエンスに対して好ましくない影響を与える可能性がある；
・４０５：知覚的に駆動される制約を導出するために使用されるモデル。いくつかの詳細な例は、本明細書の他の箇所に記載されている；
・４０６：特定の実装形態にしたがって変化し得る最適化アルゴリズム。いくつかの例では、最適化アルゴリズム４０６は、閉形式最適化アルゴリズムであり得るか、またはそれを含み得る。いくつかの事例では、最適化アルゴリズム４０６は、反復プロセスであり得るか、またはそれを含み得る。いくつかの詳細な例は、本明細書の他の箇所に記載されている；
・４８０：ダッキングモジュール４００によって出力されるダッキング解。本明細書の他の箇所でより詳細に（図５および図６を参照するなどして）説明されるように、ダッキング解４８０は、ダッキング解４８０がレンダラに提供されるかどうか、またはダッキング解４８０がレンダラから出力されたオーディオデータのために提供されるかどうかを含む、様々な要因にしたがって異なり得る。

【0064】

いくつかの例によれば、ＡＥＣモデル４０２および音響モデル４０１は、例えば、以下で説明するように、ＳＥＲを推定または予測するための手段を提供し得る。

【0065】

制約（複数可）４０４および知覚モデル４０５は、ダッキングモジュール４００によって出力されるダッキング解４８０が縮退でも些細（trivial）でもないことを保証するために使用され得る。些細な解の一例としては、再生レベルをグローバルに０に設定することがある。制約（複数可）４０４は、知覚的および／または客観的であり得る。いくつかの例によれば、制約（複数可）４０４は、人間の聴覚のモデルなどの知覚モデルに少なくとも部分的に基づき得る。いくつかの例では、制約（複数可）４０４は、オーディオコンテンツエネルギー保存、オーディオ空間性保存、オーディオエネルギーベクトル、またはそれらの１つまたは複数の組合せに少なくとも部分的に基づき得る。いくつかの例によれば、制約（複数可）４０４は、正則化制約であり得るか、またはそれを含み得る。リスニング目的情報４０３は、例えば、分散ダッキング（言い換えると、オーディオ環境の２つ以上のオーディオデバイスをダッキングすること）によって行われるべき現在の目標ＳＥＲ改善（target SER improvement）を決定し得る。

【0066】

グローバル最適化
いくつかの例では、ダッキングのためのオーディオデバイス（複数可）の選択により、ウェイクワードが検出されたときに取得された推定ＳＥＲおよび／またはウェイクワード情報が、次の発話をリスンするオーディオデバイスの選択に使用される。このオーディオデバイス選択が間違っている場合、最良のリスニングデバイスがウェイクワードの後に話されるコマンドを理解することができる可能性は非常に低い。これは、自動音声認識（ＡＳＲ）が、ダッキングの動機要因の１つであるウェイクワード検出（ＷＷＤ）よりも困難であるためである。最良のリスニングデバイスがダッキングされなかった場合、ＡＳＲは、オーディオデバイスのすべてで失敗する可能性が高い。したがって、いくつかのそのような例では、ダッキング方法は、（ＷＷＤからの）前の推定値を使用して、最も近い（または最良の推定値の）オーディオデバイス（複数可）をダッキングすることによってＡＳＲ段階を最適化することを含む。

【0067】

したがって、いくつかのダッキング実装形態は、ダッキング解を決定するときに前の推定値を使用することを含む。しかしながら、図４に示されるような実装形態では、よりロバストなＡＳＲ性能を達成するために、リスニング目的および制約を適用することができる。いくつかのそのような例では、ダッキング方法は、ＳＥＲ改善が音響空間内のすべての潜在的なユーザロケーションにおいて有意となるようにダッキングアルゴリズムを構成することを含み得る。このようにして、室内のマイクロホンのうちの少なくとも１つが、ロバストなＡＳＲ性能に十分なＳＥＲを有することを保証することができる。そのような実装形態は、トーカのロケーションが知られていない場合、またはトーカのロケーションに関して不確実性がある場合に有利であり得る。いくつかのそのような例は、１つまたは複数の不確実性を考慮するためにＳＥＲ改善ゾーンを空間的に広げることによって、トーカおよび／またはオーディオデバイス位置推定値の分散を考慮することを含み得る。

【0068】

いくつかのそのような例は、以下の議論のδパラメータ、または同様のパラメータの使用を含み得る。他の例は、トーカ位置および／またはオーディオデバイス位置推定値における不確実性を記述するか、またはそれに対応するマルチパラメータモデルを含み得る。

【0069】

いくつかの実施形態では、ダッキング方法は、１つまたは複数のユーザゾーンのコンテキストにおいて行われ得る。本文書において後に詳述するように、音響特徴のセット

【数1】

を使用して、環境内のＫ個の異なるユーザゾーンについてのゾーンラベルＺ_k（ｋ＝｛１...Ｋ｝）の何らかのセットの事後確率ｐ（Ｚ_k|Ｗ（ｊ））を推定し得る。各ユーザゾーンへの各オーディオデバイスの関連付けは、本文書内で説明されるトレーニングプロセスの一部としてユーザ自身によって、または代替的に、アプリケーション、例えば、ＡｌｅｘａスマートフォンアプリまたはＳｏｎｏｓＳ２コントローラスマートフォンアプリを通して提供され得る。例えば、いくつかの実装形態は、ゾーンラベルＺ_kを有するユーザゾーンへのｊ番目のデバイスの関連付けを、ｚ（Ｚ_k，ｎ）∈［０，１］と示し得る。いくつかの実施形態では、ｚ（Ｚ_k，ｎ）および事後確率ｐ（Ｚ_k|Ｗ（ｊ））は両方ともコンテキスト情報とみなされ得る。いくつかの実施形態は、代わりに、音響特徴Ｗ（ｊ）自体をコンテキストの一部とみなし得る。他の実施形態では、これらの量（ｚ（Ｚ_k，ｎ）、事後確率ｐ（Ｚ_k|Ｗ（ｊ））、および音響特徴Ｗ（ｊ）自体）のうちの２つ以上、および／またはこれらの量の組合せがコンテキスト情報の一部であってもよい。

【0070】

いくつかの例では、ダッキング方法は、ダッキングまたは他のオーディオ処理変更のためにオーディオデバイスを選択するプロセスにおいて、１つまたは複数のユーザゾーンに関する量を使用し得る。ｚおよびｐの両方が利用可能である場合、例示的なオーディオデバイス選択決定は、以下の式にしたがって行われ得る：

【数2】

いくつかのそのような実施形態によると、ユーザ（トーカ）を含む可能性が最も高いユーザゾーンとの関連付けが最も高いオーディオデバイスには、最も多くのオーディオ処理（例えば、レンダリング）変更が適用されることとなる。いくつかの例では、δは［０．５，４．０］の範囲内の正の数であり得る。いくつかのそのような例によれば、δは、レンダリング変更の範囲を空間的に制御するために使用され得る。そのような実装形態では、δが０．５になるように選択された場合、より多くのデバイスがより大きいレンダリング変更を受けることになるが、４．０の値では、レンダリング変更が、最も可能性が高いユーザゾーンに最も近接したデバイスのみに制限されることになる。

【0071】

いくつかの実装形態では、音響特徴Ｗ（ｊ）はダッキング方法において直接使用され得る。例えば、発話ｊに関連付けられたウェイクワード信頼度スコアがｗ_n（ｊ）である場合、オーディオデバイス選択は、以下の式にしたがって行われ得る：

【数3】

上記の式において、δは、前の例と同じ解釈を有し、さらに、特定のウェイクワードシステムに対して生じる可能性のあるウェイクワード信頼度の典型的な分布を補償する有用性を有する。ほとんどのオーディオデバイスが高いウェイクワード信頼度を報告する傾向がある場合、δは、レンダリング変更アプリケーションの空間特異性を高めるために、３．０などの比較的高い数値になるように選択され得る。トーカがデバイスから離れるほどウェイクワード信頼度が急速に低下する傾向がある場合、δは、レンダリング変更アプリケーションにより多くのデバイスを含めるために、１．０またはさらには０．５などの比較的低い数値になるように選択され得る。読者は、いくつかの代替実装形態では、デバイスのマイクロホンにおける音声レベルの推定値、および／またはユーザの発話の直接対残響比などの音響特徴について上記の式と同様の式がウェイクワード信頼度の代わりに使用されてもよいことを理解するであろう。

【0072】

図５は、ダッキングモジュールを含むオーディオデバイスの例を示すブロック図である。レンダラ２０１Ａ、音声プロセッサ／通信ブロック２４０Ａ、ＥＭＳ２０３Ａ、ラウドスピーカ（複数可）１２１Ａ、およびマイクロホン（複数可）１２０Ａは、以下に記載されることを除いて、実質的に図３を参照して説明されるように機能し得る。この例では、レンダラ２０１Ａ、音声プロセッサ／通信ブロック２４０Ａ、ＥＭＳ２０３Ａ、およびダッキングモジュール４００は、図１Ａを参照して説明される制御システム１６０のインスタンスによって実装される。ダッキングモジュール４００は、例えば、図４を参照して説明されるダッキングモジュール４００のインスタンスであり得る。したがって、ダッキングモジュール４００は、少なくともオーディオデバイス１１０Ａのためのレンダリングされたオーディオデータ（ラウドスピーカフィード信号にレンダリングされたオーディオデータなど）に適用すべき（ダッキング解４８０によって示されるか、またはそれに対応する）１つまたは複数のタイプのオーディオ処理変更を決定するように構成され得る。オーディオ処理変更は、オーディオ環境内の１つまたは複数のラウドスピーカのラウドスピーカ再生レベルの低減であり得るか、またはそれを含み得る。いくつかの例では、ダッキングモジュール４００は、オーディオ環境内の２つ以上のオーディオデバイスのためのレンダリングされたオーディオデータに適用すべき１つまたは複数のタイプのオーディオ処理変更を決定するように構成され得る。

【0073】

この例では、レンダラ出力２２０Ａおよびダッキング解４８０は、利得乗算器５０１に提供される。いくつかの例では、ダッキング解４８０は、処理されたオーディオデータ５０２を生成するために、レンダラ出力２２０Ａに適用すべき利得乗算器５０１のための利得を含む。この例によれば、処理されたオーディオデータ５０２は、エコーキャンセレーションのためのローカル基準としてＥＭＳ２０３Ａに提供される。ここで、処理されたオーディオデータ５０２は、再生のためにラウドスピーカ（複数可）１２１Ａにも提供される。

【0074】

いくつかの例では、ダッキングモジュール４００は、図８を参照して以下で説明されるように、ダッキング解４８０を決定するように構成され得る。いくつかの例によれば、ダッキングモジュール４００は、以下の「特定のデバイスのための最適化」セクションで説明されるように、ダッキング解４８０を決定するように構成され得る。

【0075】

図６は、ダッキングモジュールを含むオーディオデバイスの代替例を示すブロック図である。レンダラ２０１Ａ、音声プロセッサ／通信ブロック２４０Ａ、ＥＭＳ２０３Ａ、ラウドスピーカ（複数可）１２１Ａ、およびマイクロホン（複数可）１２０Ａは、以下に記載されることを除いて、実質的に図３を参照して説明されるように機能し得る。ダッキングモジュール４００は、例えば、図４を参照して説明されるダッキングモジュール４００のインスタンスであり得る。この例では、レンダラ２０１Ａ、音声プロセッサ／通信ブロック２４０Ａ、ＥＭＳ２０３Ａ、およびダッキングモジュール４００は、図１Ａを参照して説明される制御システム１６０のインスタンスによって実装される。

【0076】

この例によれば、ダッキングモジュール４００は、ダッキング解４８０をレンダラ２０１Ａに提供するように構成される。いくつかのそのような例では、ダッキング解４８０は、レンダラ２０１Ａに、受信されたオーディオデータ３０１をレンダリングするプロセス中に（またはオーディオデバイス１１０Ａのメモリに記憶されているオーディオデータをレンダリングするプロセス中に）ラウドスピーカ再生レベルの低減を含み得る１つまたは複数のタイプのオーディオ処理変更を実装させ得る。いくつかの例では、ダッキングモジュール４００は、オーディオ環境内の１つまたは複数の他のオーディオデバイスにおけるレンダラ２０１Ａの１つまたは複数のインスタンスを介して、１つまたは複数のタイプのオーディオ処理変更の実装のためのダッキング解４８０を決定するように構成され得る。

【0077】

この例では、レンダラ出力２０１Ａは、処理されたオーディオデータ５０２を出力する。この例によれば、処理されたオーディオデータ５０２は、エコーキャンセレーションのためのローカル基準としてＥＭＳ２０３Ａに提供される。ここで、処理されたオーディオデータ５０２は、再生のためにラウドスピーカ（複数可）１２１Ａにも提供される。

【0078】

いくつかの例では、ダッキング解４８０は、例えば以下で説明するように、フレキシブルレンダリングアルゴリズムによって実装される１つまたは複数のペナルティを含み得る。いくつかのそのような例では、ペナルティは、所望のＳＥＲ改善を引き起こすと推定されるラウドスピーカペナルティであり得る。いくつかの例によれば、１つまたは複数のタイプのオーディオ処理変更を決定することは、ダッキングモジュール４００による、またはレンダラ２０１Ａによるコスト関数の最適化に基づき得る。

【0079】

図７は、ダッキング解を決定するための方法の一例を概説するフロー図である。いくつかの例では、方法７２０は、図１Ａ、図５、または図６に示されるような装置によって実行され得る。いくつかの例では、方法７２０は、オーケストレーションデバイスの制御システムによって実行され得、オーケストレーションデバイスは、いくつかの事例では、オーディオデバイスであり得る。いくつかの例では、方法７２０は、少なくとも部分的に、図４、図５、または図６のダッキングモジュール４００などのダッキングモジュールによって実行され得る。いくつかの例によれば、方法７２０は、レンダラによって少なくとも部分的に実行され得る。方法７２０のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。

【0080】

この例では、プロセスはブロック７２５から開始する。いくつかの事例では、ブロック７２５は、ブートアッププロセス、またはブートアッププロセスが完了し、方法７２０を実行するように構成されたデバイスが機能する準備ができている時間に対応し得る。

【0081】

この例によれば、ブロック７３０は、ウェイクワードが検出されるのを待つことを含む。方法７２０がオーディオデバイスによって実行されている場合、ブロック７３０はまた、音楽コンテンツ、ポッドキャスト、映画またはテレビ番組のためのオーディオサウンドトラックなど、受信または記憶されたオーディオコンテンツに対応するレンダリングされたオーディオデータを再生することを含み得る。

【0082】

この例では、（例えば、ブロック７３０において）ウェイクワードを検出すると、ブロック７３５において、ウェイクワードのＳＥＲが推定される。Ｓ（ａ）は、デバイスａにおける音声対エコー比の推定値である。定義によれば、ｄＢ単位の音声対エコー比は、次式によって与えられる：

【数4】

【0083】

上記の式において、

【数5】

は、音声エネルギーの推定値をｄＢ単位で表し、

【数6】

は、エコーキャンセレーション後の残留エコーエネルギーの推定値をｄＢ単位で表す。これらの量を推定するための様々な方法が本明細書に開示されており、例えば、以下である：
（１）音声エネルギーおよび残留エコーエネルギーは、デバイスのマイクロホンとスピーカとの間の音響結合と、オンボードエコーキャンセレーション回路の性能とを考慮して、特定のデバイスについて実行されるオフライン測定プロセスによって推定され得る。いくつかのそのような例では、平均音声エネルギーレベル「AvgSpeech」は、公称距離においてデバイスによって測定された人の音声の平均レベルによって決定され得る。例えば、マイクロホン搭載デバイスから１ｍ離れて立っている少数の人からの音声が、制作中にデバイスによって記録され得、このエネルギーを平均化してAvgSpeechを生成し得る。いくつかのそのような例によれば、平均残留エコーエネルギーレベル「AvgEcho」は、制作中にデバイスから音楽コンテンツを再生し、オンボードエコーキャンセレーション回路を実行してエコー残差信号を生成することによって推定され得る。音楽コンテンツの小さいサンプルについてエコー残差信号のエネルギーを平均化することは、AvgEchoを推定するために使用され得る。デバイスがオーディオを再生していないとき、AvgEchoは、代わりに、－９６．０ｄＢなどの公称低値に設定され得る。いくつかのそのような実装形態では、音声エネルギーおよび残留エコーエネルギーは、次のように表され得る：

【数7】

（２）いくつかの例によれば、平均音声エネルギーは、音声アクティビティ検出器（ＶＡＤ）によって決定されたユーザの発話に対応するマイクロホン信号のエネルギーを取ることによって決定され得る。いくつかのそのような例では、平均残留エコーエネルギーは、ＶＡＤが音声を示していないときのマイクロホン信号のエネルギーによって推定され得る。ｘが、あるサンプリングレートにおけるデバイスａのマイクロホンのパルスコード変調（ＰＣＭ）サンプルを表し、Ｖが、ボイスアクティビティに対応するサンプルについて値１．０をとり、他の場合には０.０をとるＶＡＤフラグを表す場合、音声エネルギーおよび残留エコーエネルギーは、次のように表され得る：

【数8】

（３）以上の方法に加えて、いくつかの実装形態では、マイクロホンにおけるエネルギーは、確率変数として扱われ、ＶＡＤ決定に基づいて別個にモデル化され得る。音声エネルギーおよびエコーエネルギーの統計モデルＳｐおよびＥはそれぞれ、任意の数の統計モデリング技法を使用して推定することができる。次に、Ｓ（ａ）を近似するための音声およびエコーの両方についてのｄＢ単位の平均値を、それぞれＳｐおよびＥから求め得る。これを達成する一般的な方法は、統計的信号処理の分野に見られ、例えば、以下である：
・エネルギーのガウス分布を仮定し、バイアスされた二次統計量

【数9】

を計算すること。
・混合モデル（例えば、ガウス混合モデル）の期待値最大化（ＥＭ）パラメータ推定のステップを適用した後に、混合物内の部分分布のいずれかに属する最大平均値

【数10】

が使用され得る、潜在的にマルチモーダルな分布を得るために、エネルギー値の離散的にビニングされたヒストグラムを構築すること。

【0084】

この例によれば、ブロック７４０は、（この事例ではブロック７４５から）目標ＳＥＲを取得することと、目標ＳＥＲ改善を計算することとを含む。いくつかの実装形態では、所望のＳＥＲ改善（ＳＥＲＩ）は、次のように決定され得る：

【数11】

【0085】

上記の式では、ｍは、ＳＥＲが改善されているデバイス／マイクロホンロケーションを表し、TargetSERは、いくつかの例では、使用中のアプリケーションにしたがって設定され得るしきい値を表す。例えば、ウェイクワード検出アルゴリズムは、コマンド検出アルゴリズムよりも低い動作ＳＥＲを許容し得、コマンド検出アルゴリズムは、大語彙音声認識器よりも低い動作ＳＥＲを許容し得る。TargetSERの典型的な値は、－６ｄＢから１２ｄＢのオーダーである。いくつかの事例では、Ｓ（ｍ）が知られていないかまたは推定が容易でない場合、典型的なエコーの（echoic）部屋または設定において記録された音声およびエコーのオフライン測定値に基づくプリセット値で十分であり得る。いくつかの実施形態は、０から１の範囲のｆ＿ｎを指定することによって、オーディオ処理（例えば、レンダリング）が修正されるべきオーディオデバイスを決定し得る。他の実施形態は、潜在的に以下にしたがって計算される、音声対エコー比改善デシベルｓ_n（本明細書ではｓ＿ｎとも表される）の単位でオーディオ処理（例えば、レンダリング）が修正されるべき程度を指定することを含み得る：

【数12】

【0086】

いくつかの実施形態は、例えば以下のように、デバイスジオメトリから直接ｆ＿ｎを計算し得る：

【数13】

【0087】

上記の式において、ｍは、最大のオーディオ処理（例えば、レンダリング）修正のために選択されることとなるデバイスのインデックスを表し、Ｈ（ｍ，ｉ）は、デバイスｍとデバイスｉとの間のおおよその物理的距離を表す。他の実装形態は、デバイスジオメトリにわたって緩和または平滑化関数の他の選択を含み得る。

【0088】

したがって、Ｈは、オーディオ環境内のオーディオデバイスの物理的ロケーションのプロパティである。Ｈは、特定の実装形態に応じて、様々な方法にしたがって決定または推定され得る。オーディオ環境内のオーディオデバイスのロケーションを推定するための方法の様々な例が以下に説明される。

【0089】

この例では、ブロック７５０は、本明細書では「ダッキング解（ducking solution）」と呼ばれることがあるものを計算することを含む。ダッキング解は、オーディオ環境内の１つまたは複数のラウドスピーカのラウドスピーカ再生レベルの低減を決定することを含み得るが、ダッキング解はまた、本明細書で開示するものなど、１つまたは複数の他のオーディオ処理変更を含み得る。ブロック７５０において決定されるダッキング解は、図４、図５および図６のダッキング解４８０の一例である。したがって、ブロック７５０は、ダッキングモジュール４００によって実行され得る。

【0090】

この例によれば、ブロック７５０において決定されるダッキング解は、目標ＳＥＲ、ダッキング制約（ブロック７５５によって表される）、ＡＥＣモデル（ブロック７６５によって表される）、および音響モデル（ブロック７６０によって表される）に（少なくとも部分的に）基づく。音響モデルは、図４の音響モデル４０１のインスタンスであり得る。音響モデルは、例えば、本明細書ではデバイス間エコーまたは相互可聴性と呼ばれることもある、デバイス間可聴性に少なくとも部分的に基づき得る。音響モデルは、いくつかの例では、デバイス内エコーに少なくとも部分的に基づき得る。いくつかの事例では、音響モデルは、典型的な人間の発話の音響特性、オーディオ環境において以前に検出された人間の発話の音響特性など、ユーザの発話の音響モデルに少なくとも部分的に基づき得る。ＡＥＣモデルは、いくつかの例では、図４のＡＥＣモデル４０２のインスタンスであり得る。ＡＥＣモデルは、図５または図６のＥＭＳ２０３Ａの性能を示し得る。いくつかの例では、ＥＭＳ性能モデル４０２は、ＡＥＣの動作によって引き起こされる実際のまたは予想されるＥＲＬＥ（エコーリターンロスエンハンスメント）を示し得る。ＥＲＬＥは、例えば、各オーディオデバイス間でＡＥＣによって適用される追加の信号損失の量を示し得る。いくつかの例によれば、ＥＭＳ性能モデル４０２は、所与の数のエコー基準についての予想されるＥＲＬＥに少なくとも部分的に基づき得る。いくつかの例では、ＥＭＳ性能モデル４０２は、実際のマイクロホンおよび残差信号から計算された推定ＥＲＬＥに少なくとも部分的に基づき得る。

【0091】

いくつかの例では、ブロック７５０において決定されるダッキング解は、反復解であり得るが、他の例では、ダッキング解は、閉形式解であってもよい。反復解および閉形式解の両方の例が本明細書で開示される。

【0092】

この例では、ブロック７７０は、ブロック７５０において決定されたダッキング解を適用することを含む。いくつかの例では、図５に示されるように、ダッキング解は、レンダリングされたオーディオデータに適用され得る。他の例では、図６に示されるように、ブロック７５０において決定されたダッキング解は、レンダラに提供され得る。ダッキング解は、レンダラに入力されるオーディオデータをレンダリングするプロセスの一部として適用され得る。

【0093】

この例では、ブロック７７５は、いくつかの例では、ウェイクワードの後に発せられるコマンドであり得る別の発話を検出することを含む。この例によれば、ブロック７８０は、ブロック７７５において検出された発話のＳＥＲを推定することを含む。この例では、ブロック７８５は、ブロック７８０において推定されたＳＥＲに少なくとも部分的に基づいて、ＡＥＣモデルおよび音響モデルを更新することを含む。この例によれば、ブロック７８５のプロセスは、ダッキング解が適用された後に行われる。完全なシステムでは、実際のＳＥＲ改善および実際のＳＥＲは、まさに目標とされたものになるであろう。現実世界のシステムでは、実際のＳＥＲ改善および実際のＳＥＲは、目標とされたものとは異なる可能性が高い。そのような実装形態では、方法７２０は、ダッキング解を計算するために使用された情報および／またはモデルを更新するために少なくともＳＥＲを使用することを含む。この例によれば、ダッキング解は、ブロック７６０の音響モデルに少なくとも部分的に基づく。例えば、ブロック７６０の音響モデルは、オーディオデバイスＸとマイクロホンＹとの間の非常に強い音響結合を示した可能性があり、その結果としてダッキング解は、マイクロホンＹからの信号を大幅にダッキングすることを含んだ可能性がある。しかしながら、ダッキング解が適用されていた間にブロック７７５において検出された発話のＳＥＲを推定した後、制御システムは、実際のＳＥＲおよび／またはＳＥＲＩが予想されたものではなかったと決定した可能性がある。そうである場合、ブロック７８５は、それに応じて（この例では、オーディオデバイスＸとマイクロホンＹとの間の音響結合推定値を低減することによって）音響モデルを更新することを含み得る。この例によれば、プロセスは次にブロック７３０に戻る。

【0094】

図８は、ダッキング解を決定するための方法の別の例を概説するフロー図である。いくつかの例では、方法８００は、図１Ａ、図５、または図６に示されるような装置によって実行され得る。いくつかの例では、方法８００は、オーケストレーションデバイスの制御システムによって実行され得、オーケストレーションデバイスは、いくつかの事例では、オーディオデバイスであり得る。いくつかの例では、方法８００は、少なくとも部分的に、図４、図５、または図６のダッキングモジュール４００などのダッキングモジュールによって実行され得る。いくつかの例によれば、方法８００は、レンダラによって少なくとも部分的に実行され得る。方法８００のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。

【0095】

この例では、プロセスはブロック８０５から開始する。いくつかの事例では、ブロック８０５は、ブートアッププロセス、またはブートアッププロセスが完了し、方法８００を実行するように構成されたデバイスが機能する準備ができている時間に対応し得る。

【0096】

この例によれば、ブロック８１０は、ダッキング解の適用のない現在のエコーレベルを推定することを含む。この例では、ブロック８１０は、（ブロック８１５によって表される）音響モデルと（ブロック８２０によって表される）ＡＥＣモデルとに（少なくとも部分的に）基づいて現在のエコーレベルを推定することを含む。ブロック８１０は、現在のダッキング候補解から生じる現在のエコーレベルを推定することを含み得る。推定された現在のエコーレベルは、いくつかの例では、現在の音声レベルと組み合わせられ、現在の推定ＳＥＲ改善を生成し得る。

【0097】

音響モデルは、図４の音響モデル４０１のインスタンスであり得る。音響モデルは、例えば、本明細書ではデバイス間エコーまたは相互可聴性と呼ばれることもある、デバイス間可聴性に少なくとも部分的に基づき得る。音響モデルは、いくつかの例では、デバイス内エコーに少なくとも部分的に基づき得る。いくつかの事例では、音響モデルは、典型的な人間の発話の音響特性、オーディオ環境において以前に検出された人間の発話の音響特性など、ユーザの発話の音響モデルに少なくとも部分的に基づき得る。

【0098】

ＡＥＣモデルは、いくつかの例では、図４のＡＥＣモデル４０２のインスタンスであり得る。ＡＥＣモデルは、図５または図６のＥＭＳ２０３Ａの性能を示し得る。いくつかの例では、ＥＭＳ性能モデル４０２は、ＡＥＣの動作によって引き起こされる実際のまたは予想されるＥＲＬＥ（エコーリターンロスエンハンスメント）を示し得る。ＥＲＬＥは、例えば、各オーディオデバイス間でＡＥＣによって適用される追加の信号損失の量を示し得る。いくつかの例によれば、ＥＭＳ性能モデル４０２は、所与の数のエコー基準についての予想されるＥＲＬＥに少なくとも部分的に基づき得る。いくつかの例では、ＥＭＳ性能モデル４０２は、実際のマイクロホンおよび残差信号から計算された推定ＥＲＬＥに少なくとも部分的に基づき得る。

【0099】

この例によれば、ブロック８２５は、（ブロック８５０によって表される）現在のダッキング解を取得することと、現在のダッキング解を適用することに基づいてＳＥＲを推定することとを含む。いくつかの例では、ダッキング解は、図７のブロック７５０を参照しながら説明されたように決定され得る。

【0100】

この例では、ブロック８３０は、ＳＥＲ改善の現在の推定値と目標ＳＥＲ改善（ブロック８３５によって表される）との間の差または「誤差」を計算することを含む。いくつかの代替例では、ブロック８３０は、ＳＥＲの現在の推定値と目標ＳＥＲとの間の差を計算することを含み得る。

【0101】

ブロック８４０は、この例では、ブロック８３０において計算された差または「誤差」が十分に小さいかどうかを決定することを含む。例えば、ブロック８４０は、ブロック８３０において計算された差がしきい値以下であるかどうかを決定することを含み得る。しきい値は、いくつかの例では、０．１ｄＢ、０．２ｄＢ、０．３ｄＢ、０．４ｄＢ、０．５ｄＢ、０．６ｄＢ、０．７ｄＢ、０．８ｄＢ、０．９ｄＢまたは１．０ｄＢなど、０．１ｄＢ～１．０ｄＢの範囲内であり得る。そのような例では、ブロック８４０において、ブロック８３０において計算された差がしきい値以下であると決定された場合、プロセスはブロック８４５において終了する。現在のダッキング解は、出力および／または適用され得る。

【0102】

しかしながら、ブロック８４０において、ブロック８３０において計算された差が十分に小さくない（例えば、しきい値に等しくないか、またはしきい値よりも小さい）と決定された場合、この例では、プロセスはブロック８５５に進む。この例によれば、ダッキング解は、ダッキングベクトルであるか、またはそれを含む。この例では、ブロック８５５は、ダッキングベクトルに関するコスト関数および制約関数の勾配を計算することを含む。コスト関数は、例えば、ブロック８３０において決定されるような、推定ＳＥＲ改善と目標ＳＥＲ改善との間の誤差に対応し（またはそれを記述し）得る。

【0103】

いくつかの実装形態では、制約関数は、１つまたは複数の目的関数（例えば、オーディオエネルギー保存関数）、１つまたは複数の主観的関数（１つまたは複数の知覚ベースの関数など）、またはそれらの組合せに対するダッキングベクトルの影響にペナルティを科すことができる。いくつかのそのような例では、制約のうちの１つまたは複数は、人間の聴覚の知覚モデルに基づき得る。いくつかの例によれば、制約のうちの１つまたは複数は、オーディオ空間性保存に基づき得る。

【0104】

いくつかの例では、ブロック８５５は、環境内のラウドスピーカのセット上で再生されるときに再生されるオーディオ信号の知覚空間位置のモデルと、ラウドスピーカのセットの各ラウドスピーカの位置に対するオーディオ信号の意図された知覚空間位置の近接度の測度との関数であるコストを最適化することを含み得る。いくつかのそのような例では、コストは、１つまたは複数の追加の動的に構成可能な機能の関数であり得る。いくつかのそのような例では、１つまたは複数の追加の動的に構成可能な機能のうちの少なくとも１つはエコーキャンセラ性能に対応する。いくつかのそのような例によれば、１つまたは複数の追加の動的に構成可能な機能のうちの少なくとも１つは、オーディオ環境内のラウドスピーカの相互可聴性に対応する。詳細な例を以下に提供する。しかしながら、他の実装形態は、これらのタイプのコスト関数を含まないことがある。

【0105】

この例によれば、ブロック８６５は、勾配と、以下のアルゴリズム、確率的勾配降下、または別の知られているオプティマイザなどの１つまたは複数のタイプのオプティマイザとを使用して、現在のダッキング解を更新することを含む。

【0106】

この例では、ブロック８７０は、前のダッキング解からのダッキング解の変化を評価することを含む。この例によれば、ブロック８７０において、前の解からのダッキング解の変化がしきい値未満であると決定された場合、プロセスはブロック８７５において終了する。いくつかの例によれば、しきい値はデシベル単位で表され得る。いくつかのそのような例によれば、しきい値は、０．１ｄＢ、０．２ｄＢ、０．３ｄＢ、０．４ｄＢ、０．５ｄＢ、０．６ｄＢ、０．７ｄＢ、０．８ｄＢ、０．９ｄＢまたは１．０ｄＢなど、０．１ｄＢ～１．０ｄＢの範囲内であり得る。いくつかの例では、ブロック８７０において、前の解からのダッキング解の変化がしきい値以下であると決定された場合、プロセスは終了する。

【0107】

しかしながら、この例では、ブロック８７０において、前の解からのダッキング解の変化がしきい値以上であると決定された場合、ブロック８５０のダッキング解は、現在のダッキング解になるように更新され、プロセスはブロック８２５に戻る。いくつかの例では、方法８００は、ブロック８４５またはブロック８７５に到達するまで続き得る。いくつかの例によれば、方法８００は、ある時間間隔内にまたはいくつかの反復内にブロック８４５またはブロック８７５が到達しない場合、終了し得る。

【0108】

方法８００が終了した後、結果として得られたダッキング解が適用され得る。いくつかの例では、図５に示すように、ダッキング解は、レンダリングされたオーディオデータに適用され得る。他の例では、図６に示すように、方法８００を介して決定されたダッキング解は、レンダラに提供され得る。ダッキング解は、レンダラに入力されるオーディオデータをレンダリングするプロセスの一部として適用され得る。しかしながら、本明細書の他の箇所で述べたように、いくつかの実装形態では、方法８００は、レンダラによって少なくとも部分的に実行され得る。いくつかのそのような実装形態によれば、レンダラは、ダッキング解を決定することと適用することの両方を行い得る。

【0109】

以下のアルゴリズムはダッキング解を得る一例である。いくつかの例では、ダッキング解は、レンダリングされたオーディオデータに適用されるべき利得であるか、それを含むか、またはそれを示し得る。したがって、いくつかのそのような例では、ダッキング解は、図５に示されるように、ダッキングモジュール４００に適切であり得る。

【0110】

以下の記号は、次に示すように定義される：
・Ａは相互可聴性行列（各オーディオデバイス間の可聴性）を表す；
・ Pは、（オーディオデバイスにわたる）公称（ダッキングされていない）再生レベルベクトルを表す；
・Ｄは、ダッキングモジュール４００によって出力されるダッキング解４８０に対応し得る、（デバイスにわたる）ダッキング解ベクトルを表す；
・Ｃは、この例では、各オーディオデバイス間のＡＥＣによって適用される追加の信号損失の量であるＥＲＬＥ（エコーリターンロスエンハンスメント）を示す、ＡＥＣ性能行列を表す。

【0111】

オーディオデバイスｉのマイクロホンフィードにおける正味のエコーは、次のように表され得る：

【数14】

【0112】

式１において、Ｊは、室内のオーディオデバイスの数を表し、Ａ_j ⁱは、オーディオデバイスｉに対するオーディオデバイスｊの可聴性を表し、Ｐ_jは、オーディオデバイスｊの再生レベルを表す。次いで、オーディオデバイスのいずれかをダッキングした場合の影響を考慮と、マイクロホンフィード内のエコーは、次のように表され得る：

【数15】

【0113】

式２において、Ｄ_jはダッキング利得を表す。公称ＥＲＬＥが各スピーカレンダリングに独立して適用される、ＡＥＣの単純な（naive）モデルも考慮すると、場合、残差中のエコーパワーを次のように表すことができる：

【数16】

【0114】

式３において、Ｃ_j ⁱは、オーディオデバイスｊからのエコーをキャンセルするオーディオデバイスｉの能力を表す。いくつかの例では、ＡＥＣがキャンセレーションのためのその基準を含むか含まないかのいずれかにより、Ｃ_j ⁱは－２０ｄＢまたは０ｄＢのいずれかであると仮定される。

【0115】

Ｃを生成することは、特定のデバイスがＣ行列中のその特定の非ローカル（「遠方」）デバイスエントリに対してキャンセレーションを実行している場合、エントリを公称キャンセレーション性能値になるように設定することと同じくらい些細なことであり得る。より複雑なモデルは、オーディオ環境適応ノイズ（適応フィルタプロセスにおける任意のノイズ）およびチャネル間相関を考慮し得る。例えば、そのようなモデルは、所与のダッキング解が適用された場合にＡＥＣが将来どのように機能するかを予測し得る。いくつかのそのようなモデルは、オーディオ環境のエコーレベルおよびノイズレベルに少なくとも部分的に基づき得る。

【0116】

この例では、分散ダッキング問題は、ダッキングベクトルを変化させることによってＡＥＣ残差中の総エコーパワーを最小化することを含む最適化問題として定式化され、これは、次のように表され得る：

【数17】

制約されていないと、式４の定式化は、各オーディオデバイスを０ｄＢＦＳにダッキングするように駆動することになる。したがって、いくつかの例は、リスニングエクスペリエンスに対する悪影響に対してＳＥＲの改善をトレードオフする制約を導入する。いくつかのそのような例は、共分散を変更することなくラウドスピーカレンダリングの大きさを考慮に入れる。この制約付き問題は、次のように書くことができる。

【数18】

式５において、λは、ＳＥＲの改善に対してリスナのエクスペリエンスを重み付けするラグランジュ乗数を表し、Ａ^Lは、リスナの位置における各デバイスの可聴性を表し、ｇ（）は、１つの可能な制約関数を表す。ダッキング解を決定するプロセスでは、様々な制約関数が使用され得る。別の制約関数は、以下のように表すことができる：

【数19】

これは、次の単純な勾配を与える：

【数20】

【0117】

反復ダッキング解
一例では、分散ダッキング最適化問題に対する勾配ベースの反復解は、以下の形式をとり得る：

【数21】

【0118】

式８において、Ｆは、分散ダッキング問題を記述するコスト関数を表し、Ｄⁿは、ｎ回目の反復におけるダッキングベクトルを表す。この形式では、Ｄ（ｘ）∈［０，１］に制約される。しかしながら、式８に正則化項を追加しても、いくつかのヒューリスティックおよび／またはハード制約を追加しない限りＤ（ｘ）∈［０，１］となることは保証されない。別の手法は、次のように勾配ベースの反復ダッキング解を公式化することを含む。

【数22】

【0119】

いくつかの例では、Ｚ∈［０，１］である。しかしながら、レンダリングされているオーディオコンテンツの知覚品質も（少なくともある程度）維持しながら、オーディオデバイスｉのマイクロホンフィードにおけるエコーパワーを低減することによってオーディオデバイスｉにおけるＳＥＲを改善することを望む場合、Ｄ≧０およびＺ≧０を保証すれば十分であることが分かり得る。これは、レンダリングされたコンテンツの品質を少なくともある程度維持するために、いくつかのオーディオデバイスがそれらのフルバンドの音量を上げることを可能にすることを意味する。したがって、いくつかの例では、Ｚは、次のように定義され得る：

【数23】

【0120】

式１０において、Ｆは、分散ダッキング問題を記述するコスト関数を表し、Ｒは、レンダリングされたオーディオコンテンツの品質を維持することを目的とする正則化項である。いくつかの例では、Ｒはエネルギー保存制約であり得る。正則化項Ｒにより、Ｄについての賢明な解を見つけることもできる。

【0121】

Ｔが、オーディオ環境においてオーディオデバイスをダッキングすることによるオーディオデバイスｉにおける目標ＳＥＲ改善であると考える場合、Ｆを次のように定義することができる：

【数24】

【0122】

式１１において、Ｅ_res,i ⁿは、式３を使用して評価されたｎ番目の反復におけるデバイスｉの残差中のエコーを表し、Ｅ_res,i ⁰は、Ｄがすべて１であるときのデバイスｉの残差中のエコーを表す。しかしながら、式１１に示すようにＦを定義すると、ステップサイズはＴだけでなく誤差の関数になる。いくつかの例では、Ｆは、目標ＳＥＲへの依存を除去するために、次のように再公式化され得る。

【数25】

【0123】

ダッキングベクトルの各要素を、各要素に対するＥの感度に比例して調整することは潜在的に有利である。さらに、ユーザがステップサイズをある程度制御できるようにすることは、潜在的に有利である。これらの目標を念頭に置いて、いくつかの例では、Ｆは次のように再公式化され得る：

【数26】

【0124】

式１３において、Ｍは、オーディオデバイスｉの残差におけるエコーへの各デバイスの個々の寄与をスケーリングする。いくつかの例では、Ｍは、次のように表され得る：

【数27】

【0125】

式１４において、

【数28】

はアダマール積を表す。いくつかの例によれば、式１４の平方根によるスケーリングにより、許容可能な（またはさらに改善された）結果が得られ得る。いくつかの例では、正則化項Ｒは、次のように表され得る：

【数29】

【0126】

式１５において、λはラグランジュ乗数を表す。式１５により、制御システムは、Ｄに対する簡潔な解を見つけることができる。しかしながら、いくつかの例では、正則化項Ｒを次のように定義することによって、許容可能なリスニングエクスペリエンスを維持し、オーディオ環境における総エネルギーを保存するダッキング解が決定され得る：

【数30】

【0127】

ダッキングソルバーアルゴリズム
前述の議論を念頭に置けば、以下のダッキングソルバーアルゴリズムが容易に理解され得る。以下のアルゴリズムは、図８の方法８００の一例である。

【数31】

【0128】

いくつかのそのような例によれば、ＴＨＲＥＳＨ（しきい値）は、６ｄＢ、８ｄＢ、１０ｄＢ、１２ｄＢ、１４ｄＢなどであり得る。

【0129】

図９は、開示される方法の例を概説するフロー図である。いくつかの例では、方法９００は、図１Ａ、図５、または図６に示されるような装置によって実行され得る。いくつかの例では、方法９００は、オーケストレーションデバイスの制御システムによって実行され得、オーケストレーションデバイスは、いくつかの事例では、オーディオデバイスであり得る。いくつかの例では、方法９００は、少なくとも部分的に、図４、図５、または図６のダッキングモジュール４００などのダッキングモジュールによって実行され得る。いくつかの例によれば、方法９００は、レンダラによって少なくとも部分的に実行され得る。方法９００のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。

【0130】

この例では、ブロック９０５は、制御システムによって、オーディオ環境内の１つまたは複数のマイクロホンから出力信号を受信することを含む。ここで、出力信号は、人の現在の発話に対応する信号を含む。いくつかの事例では、現在の発話は、ウェイクワード発話であり得るか、またはそれを含み得る。

【0131】

この例によれば、ブロック９１０は、制御システムによって、出力信号に応答して、オーディオデバイスロケーション情報およびエコー管理システム情報に少なくとも部分的に基づいて、オーディオ環境内の２つ以上のオーディオデバイスのためのラウドスピーカフィード信号にレンダリングされているオーディオデータに適用すべき１つまたは複数のオーディオ処理変更を決定することを含む。この例では、オーディオ処理変更は、オーディオ環境内の１つまたは複数のラウドスピーカのラウドスピーカ再生レベルの低減を含む。したがって、オーディオ処理変更は、本明細書でダッキング解と呼ばれるものを含み得るか、またはそれによって示され得る。いくつかの例によれば、１つまたは複数のタイプのオーディオ処理変更のうちの少なくとも１つは、信号対エコー比の増加に対応し得る。

【0132】

しかしながら、いくつかの例では、オーディオ処理変更は、ラウドスピーカ再生レベルの低減以外の変更を含む（include）か、または伴い（involve）得る。例えば、オーディオ処理変更は、本明細書では「スペクトル修正」または「スペクトル整形」と呼ばれることもある、１つまたは複数のラウドスピーカの出力のスペクトルを整形することを含み得る。いくつかのそのような例は、検出することを望むオーディオのスペクトルとは異なる出力を生成するように設計された実質的に線形等化（ＥＱ）フィルタを用いてスペクトルを整形することを含み得る。いくつかの例では、人間の声を検出するために出力スペクトルが整形されている場合、フィルタは、約５００～３ｋＨｚの範囲内の周波数（例えば、周波数範囲の各端においてプラスまたはマイナス５％または１０％）を下げ得る。いくつかの例は、低周波数および高周波数を強調し、中間帯域（例えば、約５００～３ｋＨｚの範囲内）に空間を残すようにラウドネスを整形することを含み得る。

【0133】

代替的または追加的に、いくつかの例では、オーディオ処理変更は、ピークレベルを低下させるために、および／または、例えば、時間領域ダイナミックレンジ圧縮器またはマルチバンド周波数依存圧縮器を介して、オーディオ検出のための達成されたＳＥＲを作成する全体的なシステムの一部である任意のエコーキャンセレーションの性能をさらに低下させ得る、歪み成分（distortion product）を低減するために、出力の上限またはピークを変更することを含んでもよい。そのようなオーディオ信号修正は、オーディオ信号の振幅を効果的に低減することができ、ラウドスピーカのエクスカーションを制限するのに役立つことができる。

【0134】

代替的または追加的に、いくつかの例では、オーディオ処理変更は、システム（例えば、オーディオ処理マネージャ）がより高いＳＥＲを可能にしている１つまたは複数のマイクロホンへの１つまたは複数のラウドスピーカの出力のエネルギーまたは結合を減少させる傾向がある方法でオーディオを空間的にステアリングすることを含んでもよい。いくつかのそのような実装形態は、本明細書で説明される「ワープする」例を含み得る。

【0135】

代替的または追加的に、いくつかの例では、オーディオ処理変更は、エネルギーの保存および／またはリスニングロケーションの特定のまたは広範なセットにおける連続性の創出を含んでもよい。いくつかの例では、あるラウドスピーカから除去されたエネルギーは、別のラウドスピーカに追加のエネルギーを供給することによって補償され得る。いくつかの事例では、全体的なラウドネスは、同じまま、または本質的に同じままであり得る。これは、必須の特徴ではないが、コンテンツの損失なしに、「最も近い」デバイス、または最も近いデバイスのセットのオーディオ処理に対するより厳しい変更を可能にする有効な手段であり得る。しかしながら、連続性および／またはエネルギーの保存は、複雑なオーディオ出力およびオーディオシーンを扱うときに特に重要であり得る。

【0136】

代替的または追加的に、いくつかの例では、オーディオ処理変更は、アクティブ化の時定数を含んでもよい。例えば、オーディオ処理に対する変更は、それらが通常状態（例えば、１０００～１００００ｍｓ）に戻されるよりも少し速く（例えば、１００～２００ｍｓ）適用され得、その結果、オーディオ処理における変更（複数可）は、顕著である場合、意図的に見えるが、その変更（複数可）からのその後の戻りは、（ユーザの観点から）任意の実際のイベントまたは変更に関連するように見えないことがあり、いくつかの事例では、ほとんど気づかないほど遅い場合もある。

【0137】

この例では、ブロック９１５は、制御システムによって、１つまたは複数のタイプのオーディオ処理変更を適用させることを含む。図５に示されるようないくつかの例では、オーディオ処理変更は、ダッキングモジュール４００からのダッキング解４８０にしたがって、レンダリングされたオーディオデータに適用され得る。図５に示されるようないくつかの例によれば、オーディオ処理変更はレンダラによって適用され得る。いくつかのそのような例では、１つまたは複数のタイプのオーディオ処理変更は、人の推定ロケーションから離れるようにオーディオ信号のレンダリングをワープするためにレンダリングプロセスを変更することを含み得る。しかしながら、いくつかのそのような例では、そのようなオーディオ処理変更は、それにもかかわらず、ダッキングモジュール４００からのダッキング解４８０に少なくとも部分的に基づき得る。

【0138】

いくつかの例によれば、エコー管理システム情報は、エコー管理システム性能のモデルを含み得る。いくつかの例では、エコー管理システム性能のモデルは、音響エコーキャンセラ（ＡＥＣ）性能行列であり得るか、またはそれを含み得る。いくつかの例では、エコー管理システム性能のモデルは、エコー管理システムによって提供される予想エコーリターンロスエンハンスメントの尺度であり得るか、またはそれを含み得る。

【0139】

いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、デバイス間エコーおよびデバイス内エコーの音響モデルに少なくとも部分的に基づき得る。代替的または追加的に、いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、相互可聴性行列に少なくとも部分的に基づいてもよい。

【0140】

代替的または追加的に、いくつかの例では、１つまたは複数のタイプのオーディオ処理変更は、人の推定ロケーションに少なくとも部分的に基づいてもよい。いくつかの例では、推定ロケーションは点に対応し得るが、他の例では、推定ロケーションはユーザゾーンなどのエリアに対応し得る。いくつかのそのような例によれば、ユーザゾーンは、ソファエリア、テーブルエリア、椅子エリアなどのようなオーディオ環境の一部であり得る。いくつかの例では、推定ロケーションは、人の頭部の推定ロケーションに対応し得る。いくつかの例によれば、人の推定ロケーションは、オーディオ環境内の複数のマイクロホンからの出力信号に少なくとも部分的に基づき得る。

【0141】

いくつかの実装形態では、１つまたは複数のタイプのオーディオ処理変更は、リスニング目的に少なくとも部分的に基づき得る。リスニング目的は、例えば、空間成分、周波数成分、またはその両方を含み得る。

【0142】

いくつかの例によれば、１つまたは複数のタイプのオーディオ処理変更は、１つまたは複数の制約に少なくとも部分的に基づき得る。１つまたは複数の制約は、例えば、人間の聴覚のモデルなどの知覚モデルに基づき得る。代替的または追加的に、１つまたは複数の制約は、オーディオコンテンツエネルギー保存、オーディオ空間性保存、オーディオエネルギーベクトル、正則化制約、またはそれらの組合せを含んでもよい。

【0143】

いくつかの例では、方法９００は、１つまたは複数のタイプのオーディオ処理変更を適用させた後に、オーディオ環境の音響モデル、エコー管理システム性能のモデル、またはその両方を更新することを含み得る。

【0144】

いくつかの例では、１つまたは複数のタイプのオーディオ処理変更を決定することは、コスト関数の最適化に少なくとも部分的に基づき得る。いくつかのそのような例によれば、コスト関数は、式１０～１３のコスト関数のうちの１つに対応するか、またはそれと同様であり得る。コスト関数を最適化することに少なくとも部分的に基づくオーディオ処理変更の他の例が、以下で詳細に説明される。

【0145】

オーディオデバイスロケーション方法の例
図９の説明および本明細書の他の箇所で述べたように、いくつかの例では、オーディオ処理変更（ダッキング解に対応するものなど）は、オーディオデバイスロケーション情報に少なくとも部分的に基づき得る。オーディオ環境内のオーディオデバイスのロケーションは、限定はしないが、以下の段落で説明されるものを含む様々な方法によって決定または推定され得る。

【0146】

いくつかのそのような方法は、例えば、環境の間取図または同様の図式表現上にデバイスの近似ロケーションをマークするかまたは示すためにスマートフォンまたはタブレット装置を使用して、ユーザによる直接指示を受信することを含み得る。そのようなデジタルインターフェースは、スマートホームデバイスの構成、グループ化、名前、目的、およびアイデンティティの管理においてすでに一般的である。例えば、そのような直接指示は、Amazon Alexaスマートフォンアプリケーション、Sonos S2コントローラアプリケーション、または同様のアプリケーションを介して提供され得る。

【0147】

いくつかの例では、Bluetooth、Wi-Fi、ZigBeeなどの一般的なワイヤレス通信技術の測定された信号強度（受信信号強度表示またはＲＳＳＩと呼ばれることもある）を使用して基本的な三点測位問題を解き、例えば、いずれも参照により本明細書に組み込まれる、J. YangおよびY. Chenの「Indoor Localization Using Improved RSS-Based Lateration Methods」GLOBECOM 2009 - 2009 IEEE Global Telecommunications Conference, Honolulu, HI, 2009, pp. 1-6, doi: 10.1109/GLOCOM.2009.5425237に開示されているような、および／またはＭａｒｄｅｎｉ，Mardeni, R. & Othman, Shaifull & Nizam（２０１０）の「Node Positioning in ZigBee Network Using Trilateration Method Based on the Received Signal Strength Indicator (RSSI)」46に開示されているような、デバイス間の物理的距離の推定値を生成することを含み得る。

【0148】

【0149】

参照により本明細書に組み込まれる「Audio Device Auto-Location」と題する国際公開第２０２１／１２７２８６Ａ１号では、オーディオ環境におけるオーディオデバイスロケーション、リスナ位置およびリスナロケーションを推定する方法が開示されている。いくつかの開示される方法は、到来方向（ＤＯＡ）データを介して、および、ＤＯＡデータに基づいて複数の三角形の各々についての内角を決定することによって、環境におけるオーディオデバイスロケーションを推定することを含む。いくつかの例では、各三角形は、オーディオデバイスロケーションに対応する頂点を有する。いくつかの開示される方法は、三角形の各々の各辺の辺長を決定することと、順方向位置合わせ行列を生成するために、複数の三角形の各々を位置合わせする順方向位置合わせプロセスを実行することとを含む。いくつかの開示される方法は、逆方向位置合わせ行列を生成するために、複数の三角形の各々を逆シーケンスで位置合わせする逆方向位置合わせプロセスを実行することを決定することを含む。各オーディオデバイスロケーションの最終推定は、順方向整列行列の値および逆方向整列行列の値に少なくとも部分的に基づいてもよい。

【0150】

国際公開第ＷＯ２０２１／１２７２８６Ａ１号の他の開示された方法は、リスナロケーションを推定することを含み、いくつかの事例では、リスナロケーションを含む。いくつかのそのような方法は、（例えば、環境内の１つまたは複数のラウドスピーカからのオーディオプロンプトを介して）１つまたは複数の発話を行うようにリスナに促すことと、ＤＯＡデータにしたがってリスナロケーションを推定することとを含む。ＤＯＡデータは、環境内の複数のマイクロホンによって取得されたマイクロホンデータに対応し得る。マイクロホンデータは、マイクロホンによる１つまたは複数の発話の検出に対応し得る。マイクロホンのうちの少なくともいくつかはラウドスピーカとコロケートされ得る。いくつかの例によれば、リスナロケーションを推定することは、三角測量プロセスを含み得る。いくつかのそのような例は、オーディオデバイスを通過するＤＯＡベクトル間の交点を見つけることによってユーザの音声を三角測量することを含む。リスナの向きを決定するいくつかの開示される方法は、１つまたは複数のラウドスピーカロケーションを識別するようにユーザに促すことを含む。いくつかのそのような例は、ラウドスピーカロケーション（複数可）の隣に移動し、発話を行うことによって１つまたは複数のラウドスピーカロケーションを識別するようにユーザに促すことを含む。他の例は、慣性センサシステムと、オーディオ環境のオーディオデバイスを制御している制御システム（オーケストレーションデバイスの制御システムなど）と通信するように構成されたワイヤレスインターフェースとを含む携帯電話などのハンドヘルドデバイスを用いて、１つまたは複数のラウドスピーカロケーションの各々を指し示すことによって、１つまたは複数のラウドスピーカロケーションを識別するようにユーザを促すことを含む。いくつかの開示される方法は、オーディオオブジェクトがリスナの周りを回転するように見えるようにラウドスピーカにオーディオオブジェクトをレンダリングさせることによってリスナの向きを決定することと、ラウドスピーカロケーション、テレビロケーションなどのロケーション内にオーディオオブジェクトがあるとリスナが知覚したときに（「ストップ！」などの）発話を行うようリスナに促すこととを含む。いくつかの開示される方法は、カメラデータを介して、例えば、カメラデータにしたがって、オーディオ環境の１つまたは複数のオーディオデバイスとリスナとの相対ロケーションを決定することによって、カメラデータにしたがって（例えば、リスナが面している方向にしたがって）、オーディオ環境の１つまたは複数のオーディオデバイスに対するリスナの向きを決定することなどによって、リスナのロケーション所および／または向きを決定するステップを含む。

【0151】

参照により本明細書に組み込まれる、Shi，Guangiらによる、「Spatial Calibration of Surround Sound Systems including Listener Position Estimation」（AES 137^th Convention, October 2014）には、サウンドバー、フロントセンタースピーカなど、ロケーションが予測可能である再生システムの構成要素に関連付けられた単一の線形マイクロホンアレイが、サテライトラウドスピーカとリスナの両方の到着時間差（ＴＤＯＡ）を測定して、ラウドスピーカとリスナの両方の位置を特定するシステムが説明されている。この場合、リスニングの向きは、本質的に、検出されたリスニング位置と、テレビとコロケートされた（テレビの真上または真下に設置された）サウンドバーなど、線形マイクロホンアレイを含む再生システムの構成要素とを接続する線として定義される。サウンドバーのロケーションは、ビデオスクリーンの真上または真下に予測可能にあるので、測定された距離および入射角の幾何学的形状は、単純な三角法の原理を使用して、その基準サウンドバーロケーションの前の任意の点に対する絶対位置に変換され得る。線形マイクロホンアレイのラウドスピーカとマイクロホンとの間の距離は、テスト信号を再生し、放射側ラウドスピーカと受信側マイクロホンとの間の飛行時間（ＴＯＦ）を測定することによって推定され得る。この目的のために、測定されたインパルス応答の直接成分の時間遅延を使用することができる。ラウドスピーカとマイクロホンアレイ要素との間のインパルス応答は、分析中のラウドスピーカを通してテスト信号を再生することによって得ることができる。例えば、最大長シーケンス（ＭＬＳ）またはチャープ信号（対数正弦掃引としても知られる）のいずれかをテスト信号として使用することができる。室内のインパルス応答は、キャプチャされた信号とＭＬＳ入力との間の循環相互相関を計算することによって得ることができる。この参考文献の図２は、ＭＬＳ入力を使用して得られるエコーインパルス応答を示す。このインパルス応答は、典型的なオフィスまたはリビングルームで行われる測定に類似すると言われている。直接成分の遅延は、ラウドスピーカとマイクロホンアレイ要素との間の距離を推定するために使用される。ラウドスピーカ距離推定のために、テスト信号を再生するために使用されるオーディオデバイスの任意のループバックレイテンシが計算され、測定されたＴＯＦ推定値から除去されるべきである。

【0152】

オーディオ環境における人のロケーションおよび向きを推定する例
オーディオ環境における人のロケーションおよび向きは、限定はしないが、以下の段落で説明されるものを含む様々な方法によって決定または推定され得る。

【0153】

参照により本明細書に組み込まれるHess，Wolfgangの「Head-Tracking Techniques for Virtual Acoustic Applications」（AES 133rd Convention, October 2012）では、空間オーディオ再生システムのコンテキストにおいてリスナの頭部の位置と向きの両方を追跡するための多数の市販の技法が提示されている。説明される１つの特定の例は、Microsoft Kinectである。公的に入手可能なソフトウェア（Windows（登録商標）Software Development Kit（ＳＤＫ））とともに、その深度感知および標準カメラにより、骨格トラッキングおよび顔認識の組合せを使用して、空間内のいくつかのリスナの頭部の位置および向きを同時にトラッキングすることができる。Kinect for Windowsは製造中止になったが、現在は、次世代のMicrosoftの深度センサを実装したAzure Kinectデベロッパーキット（ＤＫ）が入手可能である。

【0154】

参照により本明細書に組み込まれる、「Automatic Discovery and Localization of Speaker Locations in Surround Sound Systems」と題する米国特許第１０，７７９，０８４号には、各スピーカとマイクロホンとの間の到達時間（ＴＯＡ）を音響的に測定することによって、リスニング環境におけるラウドスピーカおよびマイクロホンの位置を自動的に特定することができるシステムが記載されている。リスニング位置は、所望のリスニング位置にマイクロホン（例えば、リスナによって保持されるモバイルホン内のマイクロホン）を配置および位置付けることによって検出され得、関連付けられたリスニングの向きは、リスナの視聴方向における点に、例えばＴＶに、別のマイクロホンを配置することによって定義され得る。代替的に、リスニングの向きは、例えばＴＶ上のラウドスピーカのように、ラウドスピーカを視聴方向に位置付けることによって定義され得る。

【0155】

【0156】

【0157】

【0158】

ユーザゾーンに応じた人のロケーションの推定
いくつかの例では、オーディオ環境における人の推定ロケーションは、ユーザゾーンに対応し得る。このセクションは、マイクロホン信号に少なくとも部分的に基づいて、人が位置するユーザゾーンを推定するための方法を説明する。

【0159】

図１０は、図１Ａに示されるような装置によって実行され得る方法の一例を概説するフロー図である。方法１０００のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。この実装形態では、方法１０００は、環境内のユーザのロケーションを推定することを含む。

【0160】

この例では、ブロック１００５は、環境内の複数のマイクロホンの各マイクロホンから出力信号を受信することを含む。この場合、複数のマイクロホンの各々は、環境のマイクロホンロケーションに存在する。この例によれば、出力信号は、ユーザの現在の発話に対応する。いくつかの例では、現在の発話は、ウェイクワード発話であり得るか、またはそれを含み得る。ブロック１００５は、例えば、制御システム（図１Ａの制御システム１２０など）が、インターフェースシステム（図１Ａのインターフェースシステム２０５など）を介して、環境内の複数のマイクロホンの各マイクロホンから出力信号を受信することを含み得る。

【0161】

いくつかの例では、環境内のマイクロホンのうちの少なくともいくつかは、１つまたは複数の他のマイクロホンによって提供される出力信号に対して非同期である出力信号を提供し得る。例えば、複数のマイクロホンのうちの第１のマイクロホンは、第１のサンプルクロックにしたがってオーディオデータをサンプリングし得、複数のマイクロホンのうちの第２のマイクロホンは、第２のサンプルクロックにしたがってオーディオデータをサンプリングし得る。いくつかの事例では、環境内のマイクロホンのうちの少なくとも１つは、スマートオーディオデバイス内に含まれるか、またはそれと通信するために構成され得る。

【0162】

この例によれば、ブロック１０１０は、各マイクロホンの出力信号から複数の現在の音響特徴を決定することを含む。この例では、「現在の音響特徴」とは、ブロック１００５の「現在の発話」から導出された音響特徴である。いくつかの実装形態では、ブロック１０１０は、１つまたは複数の他のデバイスから複数の現在の音響特徴を受信することを含み得る。例えば、ブロック１０１０は、１つまたは複数の他のデバイスによって実装された１つまたは複数のウェイクワード検出器から複数の現在の音響特徴のうちの少なくともいくつかを受信することを含み得る。代替的または追加的に、いくつかの実装形態では、ブロック１０１０は、出力信号から複数の現在の音響特徴を決定することを含んでもよい。

【0163】

音響特徴が単一のデバイスによって決定されるかマルチデバイスによって決定されるかにかかわらず、音響特徴は、非同期的に決定され得る。音響特徴がマルチデバイスによって決定される場合、それらのデバイスが音響特徴を決定するプロセスを協調させるように構成されていない限り、音響特徴は一般に非同期的に決定されることになる。音響特徴が単一のデバイスによって決定される場合、いくつかの実装形態では、それにもかかわらず、単一のデバイスが異なる時間に各マイクロホンの出力信号を受信し得るので、音響特徴は非同期的に決定され得る。いくつかの例では、環境内のマイクロホンのうちの少なくともいくつかが、１つまたは複数の他のマイクロホンによって提供される出力信号に対して非同期である出力信号を提供し得るので、音響特徴は非同期に決定され得る。

【0164】

いくつかの例では、音響特徴は、ウェイクワード信頼度メトリック、ウェイクワード持続時間メトリック、および／または少なくとも１つの受信レベルメトリックを含み得る。受信レベルメトリックは、マイクロホンによって検出された音の受信レベルを示し得、マイクロホンの出力信号のレベルに対応し得る。

【0165】

代替的または追加的に、音響特徴は、以下のうちの１つまたは複数を含み得る：
・音響モデルとの1-best（Viterbi）アラインメントに沿った各ウェイクワード状態についての平均状態エントロピー（純度）。
・ウェイクワード検出器の音響モデルに対するＣＴＣ損失（Connectionist Temporal Classification Loss）。
・ウェイクワード検出器は、ウェイクワード信頼度に加えて、マイクロホンからのトーカの距離の推定値および／またはＲＴ６０推定値を提供するようにトレーニングされ得る。距離推定値および／またはＲＴ６０推定値は、音響特徴であり得る。
・マイクロホンにおけるブロードバンド受信レベル／パワーの代わりに、またはそれに加えて、音響特徴は、いくつかの対数／メル／バーク間隔の周波数帯域における受信レベルであってもよい。周波数帯域は、特定の実装形態にしたがって変化し得る（例えば、２つの周波数帯域、５つの周波数帯域、２０個の周波数帯域、５０個の周波数帯域、１オクターブの周波数帯域、または１／３オクターブの周波数帯域）。
・帯域パワーの対数のＤＣＴ（離散コサイン変換）を行うことによって計算される、先行する点におけるスペクトル情報のケプストラム表現。
・人間の音声に対して重み付けされた周波数帯域における帯域パワー。例えば、音響特徴は、特定の周波数帯域（例えば、４００Ｈｚ～１．５ｋＨｚ）のみに基づき得る。この例では、より高い周波数およびより低い周波数は無視され得る。
・帯域単位またはビン単位の音声アクティビティ検出器の信頼度。
・音響特徴は、不十分な信号対ノイズ比を有するマイクロホンを無視するように、長期ノイズ推定値に少なくとも部分的に基づき得る。
・音声の「ピーキネス」の尺度としての尖度。尖度は、長い残響尾によるスミアリングの指標となり得る。
・ウェイクワードの推定オンセット時間。オンセットおよび持続時間は、すべてのマイクロホンにわたって１フレーム程度内では等しいと予想される。外れ値は、信頼できない推定値の手掛かりを与える可能性がある。これは、必ずしもサンプルに対してではなく、例えば数十ミリ秒のフレームに対して、あるレベルの同期性を仮定する。

【0166】

この例によれば、ブロック１０１５は、複数の現在の音響特徴に分類器を適用することを含む。いくつかのそのような例では、分類器を適用することは、環境内の複数のユーザゾーン内のユーザによって行われた複数の以前の発話から導出された以前に決定された音響特徴に対してトレーニングされたモデルを適用することを含み得る。様々な例が本明細書に提供される。

【0167】

いくつかの例では、ユーザゾーンは、シンクエリア、食品調理エリア、冷蔵庫エリア、ダイニングエリア、ソファエリア、テレビエリア、寝室エリア、および／または出入口エリアを含み得る。いくつかの例によれば、ユーザゾーンのうちの１つまたは複数は、所定のユーザゾーンであり得る。いくつかのそのような例では、１つまたは複数の所定のユーザゾーンは、トレーニングプロセス中にユーザによって選択可された可能性がある。

【0168】

いくつかの実装形態では、分類器を適用することは、以前の発話に対してトレーニングされたガウス混合モデルを適用することを含み得る。いくつかのそのような実装形態によれば、分類器を適用することは、以前の発話の正規化されたウェイクワード信頼度、正規化された平均受信レベル、または最大受信レベルのうちの１つまたは複数に対してトレーニングされたガウス混合モデルを適用することを含み得る。しかしながら、代替実装形態では、分類器を適用することは、本明細書で開示される他のモデルのうちの１つなど、異なるモデルに基づいてもよい。いくつかの事例では、モデルは、ユーザゾーンでラベル付けされたトレーニングデータを使用してトレーニングされ得る。しかしながら、いくつかの例では、分類器を適用することは、ユーザゾーンでラベル付けされていないラベル付けされていないトレーニングデータを使用してトレーニングされたモデルを適用することを含む。

【0169】

いくつかの例では、以前の発話は、ウェイクワード発話であった可能性もあるし、ウェイクワード発話を含んでいた可能性もある。いくつかのそのような例によれば、以前の発話および現在の発話は、同じウェイクワードの発話であった可能性がある。

【0170】

この例では、ブロック１０２０は、分類器からの出力に少なくとも部分的に基づいて、ユーザが現在位置するユーザゾーンの推定値を決定することを含む。いくつかのそのような例では、推定値は、複数のマイクロホンの幾何学的ロケーションを参照せずに決定され得る。例えば、推定値は、個々のマイクロホンの座標を参照せずに決定され得る。いくつかの例では、推定値は、ユーザの幾何学的ロケーションを推定することなく決定され得る。

【0171】

方法１０００のいくつかの実装形態は、推定されたユーザゾーンにしたがって少なくとも１つのスピーカを選択することを含み得る。いくつかのそのような実装形態は、推定されたユーザゾーンに音を提供するように、少なくとも１つの選択されたスピーカを制御することを含み得る。代替的または追加的に、方法１０００のいくつかの実装形態は、推定されたユーザゾーンにしたがって少なくとも１つのマイクロホンを選択することを含み得る。いくつかのそのような実装形態は、少なくとも１つの選択されたマイクロホンによって出力された信号をスマートオーディオデバイスに提供することを含み得る。

【0172】

図１１は、ゾーン分類器を実装するように構成された実施形態の一例の要素のブロック図である。この例によれば、システム１１００は、環境（例えば、図１Ａまたは図１Ｂに示されるような環境）の少なくとも一部に分散された複数のラウドスピーカ１１０４を含む。この例では、システム１１００は、マルチチャネルラウドスピーカレンダラ１１０１を含む。この実装形態によれば、マルチチャネルラウドスピーカレンダラ１１０１の出力は、ラウドスピーカ駆動信号（スピーカ１１０４を駆動するためのスピーカフィード）とエコー基準の両方として機能を果たす。この実装形態では、エコー基準は、レンダラ１１０１から出力されたスピーカフィード信号のうちの少なくともいくつかを含む複数のラウドスピーカ基準チャネル１１０２を介してエコー管理サブシステム１１０３に提供される。

【0173】

この実装形態では、システム１１００は、複数のエコー管理サブシステム１１０３を含む。この例によれば、エコー管理サブシステム１１０３は、１つまたは複数のエコー抑制プロセスおよび／または１つまたは複数のエコーキャンセレーションプロセスを実装するように構成される。この例では、エコー管理サブシステム１１０３の各々は、対応するエコー管理出力１１０３Ａをウェイクワード検出器１１０６のうちの１つに提供する。エコー管理出力１１０３Ａは、エコー管理サブシステム１１０３のうちの関連する１つへの入力に対して減衰されたエコーを有する。

【0174】

この実装形態によれば、システム１１００は、環境（例えば、図１Ａまたは図１Ｂに示された環境）の少なくとも一部分に分散されたＮ個のマイクロホン１１０５（Ｎは整数である）を含む。マイクロホンは、アレイマイクロホンおよび／またはスポットマイクロホンを含み得る。例えば、環境内に位置する１つまたは複数のスマートオーディオデバイスは、マイクロホンのアレイを含み得る。この例では、マイクロホン１１０５の出力は、エコー管理サブシステム１１０３への入力として提供される。この実装形態によれば、エコー管理サブシステム１１０３の各々は、個々のマイクロホン１１０５またはマイクロホン１１０５の個々のグループもしくはサブセット）の出力をキャプチャする。

【0175】

この例では、システム１１００は、複数のウェイクワード検出器１１０６を含む。この例によれば、ウェイクワード検出器１１０６の各々は、エコー管理サブシステム１１０３のうちの１つからオーディオ出力を受信し、複数の音響特徴１１０６Ａを出力する。各エコー管理サブシステム１１０３から出力される音響特徴１１０６Ａは、（限定はしないが）ウェイクワード信頼度、ウェイクワード持続時間、および受信レベルの測定値を含み得る。３つの音響特徴１１０６Ａを示す３つの矢印が、各エコー管理サブシステム１１０３から出力されるものとして示されているが、代替実装形態では、より多くのまたはより少ない音響特徴１１０６Ａが出力されてもよい。さらに、これらの３つの矢印は、ほぼ垂直な線に沿って分類器１１０７に衝突しているが、これは、分類器１１０７が必ずしも同時にすべてのウェイクワード検出器１１０６から音響特徴１１０６Ａを受信することを示すものではない。本明細書の他の箇所で述べたように、音響特徴１１０６Ａは、いくつかの事例では、非同期的に、決定され、および／または分類器に提供され得る。

【0176】

この実装形態によれば、システム１１００は、分類器１１０７と呼ばれることもあるゾーン分類器１１０７を含む。この例では、分類器は、環境内の複数の（例えば、すべての）マイクロホン１１０５について、複数のウェイクワード検出器１１０６から複数の特徴１１０６Ａを受信する。この例によれば、ゾーン分類器１１０７の出力１１０８は、ユーザが現在位置するユーザゾーンの推定値に対応する。いくつかのそのような例によれば、出力１１０８は、１つまたは複数の事後確率に対応し得る。ユーザが現在位置するユーザゾーンの推定値は、ベイズ統計による最大事後確率であり得るか、またはそれに対応し得る。

【0177】

次に、いくつかの例では、図１１のゾーン分類器１１０７に対応し得る分類器の例示的な実装形態について説明する。ｘ_i（ｎ）を離散時間ｎにおけるｉ番目のマイクロホン信号（ｉ＝｛１...Ｎ｝）とする（すなわち、マイクロホン信号ｘ_i（ｎ）はＮ個のマイクロホン１１０５の出力である）。エコー管理サブシステム１１０３におけるＮ個の信号ｘ_i（ｎ）の処理は、各々、離散時間ｎにおける「クリーン」マイクロホン信号ｅ_i（ｎ）を生成し、ここで、ｉ＝｛１...Ｎ｝である。図１１において１１０３Ａと呼ばれるクリーン信号ｅ_i（ｎ）は、この例では、ウェイクワード検出器１１０６に供給される。ここで、各ウェイクワード検出器１１０６は、図１１において１１０６Ａと呼ばれる特徴のベクトルｗ_i（ｊ）を生成し、ここで、ｊ＝｛１...Ｊ｝は、ｊ番目のウェイクワード発話に対応するインデックスである。この例では、分類器１１０７は、入力として、以下の集約特徴セットを取る：

【数32】

【0178】

いくつかの実装形態によれば、ゾーンラベルのセットＣ_k（ｋ＝｛１...Ｋ｝）は、環境内の異なるユーザゾーンの数Ｋに対応し得る。例えば、ユーザゾーンは、ソファゾーン、キッチンゾーン、リーディングチェアゾーンなどを含み得る。いくつかの例は、キッチンまたは他の部屋内の２つ以上のゾーンを定義し得る。例えば、キッチンエリアは、シンクゾーン、食品調理ゾーン、冷蔵庫ゾーン、およびダイニングゾーンを含み得る。同様に、リビングルームエリアは、ソファゾーン、テレビゾーン、リーディングチェアゾーン、１つまたは複数の出入口ゾーンなどを含み得る。これらのゾーンのゾーンラベルは、例えばトレーニング段階中に、ユーザによって選択可能であり得る。

【0179】

いくつかの実装形態では、分類器１１０７は、例えば、ベイズ分類器を使用することによって、特徴セットＷ（ｊ）の事後確率ｐ（Ｃ_k|Ｗ（ｊ））を推定する。確率ｐ（Ｃ_k|Ｗ（ｊ））は、ユーザがゾーンＣ_kの各々にいる確率（ゾーンＣ_kの各々および発話の各々についてのｊ番目の発話およびｋ番目のゾーンについて）を示し、分類器１１０７の出力１１０８の一例である。

【0180】

いくつかの例によれば、トレーニングデータは、ゾーン、例えばソファゾーンを選択または定義するようにユーザに促すことによって（例えば各ユーザゾーンについて）収集され得る。トレーニングプロセスは、選択されたまたは定義されたゾーンの近くで、ウェイクワードなどのトレーニング発話を行うようにユーザに促すことを含み得る。ソファゾーンの例では、トレーニングプロセスは、ソファの中央および最端でトレーニング発話を行うようにユーザを促すことを含み得る。トレーニングプロセスは、ユーザゾーン内の各ロケーションでトレーニング発話を数回繰り返すようにユーザを促すことを含み得る。ユーザは、次いで、別のユーザゾーンに移動し、すべての指定されたユーザゾーンがカバーされるまで続けるように促され得る。

【0181】

図１２は、図１Ａの装置２００などの装置によって実行され得る方法の一例を概説するフロー図である。方法１２００のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。この実装形態では、方法１２００は、環境内のユーザのロケーションを推定するために分類器をトレーニングすることを含む。

【0182】

この例では、ブロック１２０５は、環境の第１のユーザゾーン内の複数のロケーションの各々において少なくとも１つのトレーニング発話を行うようにユーザを促すことを含む。トレーニング発話（複数可）は、いくつかの例では、ウェイクワード発話の１つまたは複数のインスタンスであり得る。いくつかの実装形態によれば、第１のユーザゾーンは、ユーザによって選択および／または定義された任意のユーザゾーンであり得る。いくつかの事例では、制御システムは、対応するゾーンラベル（例えば、上記で説明したゾーンラベルＣ_kのうちの１つのゾーンラベルの対応するインスタンス）を作成し得、ゾーンラベルを第１のユーザゾーンについて取得されたトレーニングデータに関連付け得る。

【0183】

これらのトレーニングデータを収集するために、自動化されたプロンプトシステムが使用され得る。上述したように、装置２００のインターフェースシステム２０５は、１つまたは複数のマイクロホン、１つまたは複数のスピーカ、ディスプレイシステム、タッチセンサシステムおよび／またはジェスチャセンサシステムなど、ユーザインターフェースを実装するための１つまたは複数のデバイスを含み得る。例えば、装置２００は、ディスプレイシステムの画面上に以下のプロンプトをユーザに提供してもよいし、トレーニングプロセス中に１つまたは複数のスピーカを介してアナウンスされるそれらを聞いてもよい：
・「ソファに移動してください。」
・「頭を動かしながら、ウェイクワードを１０回言ってください。」
・「ソファとリーディングチェアの中間位置に移動して、ウェイクワードを１０回言ってください。」
・「料理するようにキッチンに立って、ウェイクワードを１０回言ってください。」

【0184】

この例では、ブロック１２１０は、環境内の複数のマイクロホンの各々から第１の出力信号を受信することを含む。いくつかの例では、ブロック１２１０は、環境内のアクティブなマイクロホンのすべてから第１の出力信号を受信することを含み得るが、他の例では、ブロック１２１０は、環境内のアクティブなマイクロホンのすべてのマイクロホンのサブセットから第１の出力信号を受信することを含み得る。いくつかの例では、環境内のマイクロホンのうちの少なくともいくつかは、１つまたは複数の他のマイクロホンによって提供される出力信号に対して非同期である出力信号を提供し得る。例えば、複数のマイクロホンのうちの第１のマイクロホンは、第１のサンプルクロックにしたがってオーディオデータをサンプリングし得、複数のマイクロホンのうちの第２のマイクロホンは、第２のサンプルクロックにしたがってオーディオデータをサンプリングし得る。

【0185】

この例では、複数のマイクロホンの各マイクロホンが、環境のマイクロホンロケーションに存在する。この例では、第１の出力信号は、第１のユーザゾーンから受信された検出されたトレーニング発話のインスタンスに対応する。ブロック１２０５は、環境の第１のユーザゾーン内の複数のロケーションの各々において少なくとも１つのトレーニング発話を行うようにユーザを促すことを含むので、この例では、「第１の出力信号」という用語は、第１のユーザゾーンについてのトレーニング発話に対応するすべての出力信号のセットを指す。他の例では、「第１の出力信号」という用語は、第１のユーザゾーンについてのトレーニング発話に対応するすべての出力信号のサブセットを指してもよい。

【0186】

この例によれば、ブロック１２１５は、第１の出力信号の各々から１つまたは複数の第１の音響特徴を決定することを含む。いくつかの例では、第１の音響特徴は、ウェイクワード信頼度メトリックおよび／または受信レベルメトリックを含み得る。例えば、第１の音響特徴は、正規化されたウェイクワード信頼度メトリック、正規化された平均受信レベルの指示、および／または最大受信レベルの指示を含み得る。

【0187】

上述したように、ブロック１２０５は、環境の第１のユーザゾーン内の複数のロケーションの各々において少なくとも１つのトレーニング発話を行うようにユーザを促すことを含むので、この例では、「第１の出力信号」という用語は、第１のユーザゾーンについてのトレーニング発話に対応するすべての出力信号のセットを指す。したがって、この例では、「第１の音響特徴」という用語は、第１のユーザゾーンについてのトレーニング発話に対応するすべての出力信号のセットから導出された音響特徴のセットを指す。したがって、この例では、第１の音響特徴のセットは、第１の出力信号のセットと少なくとも同じ大きさである。例えば、出力信号の各々から２つの音響特徴が決定された場合、第１の音響特徴のセットは、第１の出力信号のセットの２倍の大きさになる。

【0188】

この例では、ブロック１２２０は、第１のユーザゾーンと第１の音響特徴との間の相関を作るために分類器モデルをトレーニングすることを含む。分類器モデルは、例えば、本明細書に開示されるもののいずれかであり得る。この実装形態によれば、分類器モデルは、複数のマイクロホンの幾何学的ロケーションを参照せずにトレーニングされる。言い換えると、この例では、複数のマイクロホンの幾何学的ロケーションに関するデータ（例えば、マイクロホン座標データ）は、トレーニングプロセス中に分類器モデルに提供されない。

【0189】

図１３は、図１Ａの装置２００などの装置によって実行され得る方法の別の例を概説するフロー図である。方法１３００のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。例えば、いくつかの実装形態では、ブロック１３２５の音響特徴決定プロセスの少なくとも一部は、ブロック１３１５またはブロック１３２０の前に実行されてもよい。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。この実装形態では、方法１３００は、環境内のユーザのロケーションを推定するために分類器をトレーニングすることを含む。方法１３００は、方法１２００を環境の複数のユーザゾーンに拡張する例を提供する。

【0190】

この例では、ブロック１３０５は、環境のユーザゾーン内のロケーションにおいて少なくとも１つのトレーニング発話を行うようにユーザを促すことを含む。いくつかの事例では、ブロック１３０５は、ブロック１３０５がユーザゾーン内の単一のロケーションに関係することを除いて、図１２のブロック１２０５を参照しながら上記で説明した方法で実行され得る。トレーニング発話（複数可）は、いくつかの例では、ウェイクワード発話の１つまたは複数のインスタンスであり得る。いくつかの実装形態によれば、ユーザゾーンは、ユーザによって選択および／または定義された任意のユーザゾーンであり得る。いくつかの事例では、制御システムは、対応するゾーンラベル（例えば、上記で説明したゾーンラベルＣ_kのうちの１つのゾーンラベルの対応するインスタンス）を作成し得、ゾーンラベルをユーザゾーンについて取得されたトレーニングデータに関連付け得る。

【0191】

この例によれば、ブロック１３１０は、実質的に、図１２のブロック１２１０を参照して上記で説明したように実行される。しかしながら、この例では、ブロック１３１０のプロセスは、必ずしもトレーニングデータが取得される第１のユーザゾーンではなく、任意のユーザゾーンに一般化される。したがって、ブロック１３１０において受信される出力信号は、「環境内の複数のマイクロホンの各々から出力信号であり、複数のマイクロホンの各々は、環境のマイクロホンロケーションに存在し、出力信号は、ユーザゾーンから受信された検出されたトレーニング発話のインスタンスに対応する」。この例では、「出力信号」という用語は、ユーザゾーンのロケーションにおける１つまたは複数のトレーニング発話に対応するすべての出力信号のセットを指す。他の例では、「出力信号」という用語は、ユーザゾーンの位置における１つまたは複数のトレーニング発話に対応するすべての出力信号のサブセットを指してもよい。

【0192】

この例によれば、ブロック１３１５は、現在のユーザゾーンについて十分なトレーニングデータが取得されたかどうかを決定することを含む。いくつかのそのような例では、ブロック１３１５は、現在のユーザゾーンについてしきい値数のトレーニング発話に対応する出力信号が取得されたかどうかを決定することを含み得る。代替的または追加的に、ブロック１３１５は、現在のユーザゾーン内のしきい値数のロケーション中のトレーニング発話に対応する出力信号が取得されたかどうかを決定することを含んでもよい。そうでない場合、方法１３００は、この例ではブロック１３０５に戻り、ユーザは、同じユーザゾーン内のロケーションにおいて少なくとも１つの追加の発話を行うように促される。

【0193】

しかしながら、ブロック１３１５において、現在のユーザゾーンについて十分なトレーニングデータが取得されたと決定された場合、この例では、プロセスはブロック１３２０に進む。この例によれば、ブロック１３２０は、追加のユーザゾーンについてのトレーニングデータを取得するかどうかを決定することを含む。いくつかの例によれば、ブロック１３２０は、ユーザが以前に識別した各ユーザゾーンについてトレーニングデータが取得されたかどうかを決定することを含み得る。他の例では、ブロック１３２０は、トレーニングデータが最小数のユーザゾーンについて取得されたかどうかを決定することを含み得る。最小数は、ユーザによって選択可された可能性がある。他の例では、最小数は、環境ごとの推奨最小数、環境の部屋ごとの推奨最小数などであってもよい。

【0194】

ブロック１３２０において、トレーニングデータが追加のユーザゾーンについて取得されるべきであると決定された場合、この例では、プロセスは、環境の別のユーザゾーンに移動するようにユーザに促すことを含むブロック１３２２に続く。いくつかの例では、次のユーザゾーンは、ユーザによって選択可能であり得る。この例によれば、プロセスは、ブロック１３２２のプロンプトの後にブロック１３０５に続く。いくつかのそのような例では、ユーザは、ブロック１３２２のプロンプトの後にユーザが新しいユーザゾーンに到着したことを確認するように促され得る。いくつかのそのような例によれば、ユーザは、ブロック１３０５のプロンプトが提供される前に、ユーザが新しいユーザゾーンに到着したことを確認することを要求され得る。

【0195】

ブロック１３２０において、追加のユーザゾーンについてトレーニングデータが取得されるべきでないと決定された場合、この例では、プロセスはブロック１３２５に進む。この例では、方法１３００は、Ｋ個のユーザゾーンのトレーニングデータを取得することを含む。この実装形態では、ブロック１３２５は、トレーニングデータが取得された第１～第Ｋのユーザゾーンの各々に対応する第１～第Ｈの出力信号から第１～第Ｇの音響特徴を決定することを含む。この例では、「第１の出力信号」という用語は、第１のユーザゾーンについてのトレーニング発話に対応するすべての出力信号のセットを指し、「第Ｈの出力信号」という用語は、第Ｋのユーザゾーンについてのトレーニング発話に対応するすべての出力信号のセットを指す。同様に、「第１の音響特徴」という用語は、第１の出力信号から決定された音響特徴のセットを指し、「第Ｇの音響特徴」という用語は、第Ｈの出力信号から決定された音響特徴のセットを指す。

【0196】

これらの例によれば、ブロック１３３０は、それぞれ、第１～第Ｋのユーザゾーンと第１～第Ｋの音響特徴との間の相関を作るために分類器モデルをトレーニングすることを含む。分類器モデルは、例えば、本明細書に開示される分類器モデルのいずれかであり得る。

【0197】

前述の例では、ユーザゾーンは（例えば、上記で説明したゾーンラベルＣ_kのうちの１つのゾーンラベルの対応するインスタンスにしたがって）ラベル付けされる。しかしながら、モデルは、特定の実装形態に応じて、ラベル付けされたユーザゾーンまたはラベル付けされていないユーザゾーンのいずれかにしたがってトレーニングされ得る。ラベル付けされている場合、各トレーニング発話は、例えば、以下のように、ユーザゾーンに対応するラベルと対にされ得る：

【数33】

【0198】

分類器モデルをトレーニングすることは、ラベル付けされたトレーニングデータに対する最良適合を決定することを含み得る。一般性を失うことなく、分類器モデルのための適切な分類手法には以下が含まれ得る：
・例えば、多変量正規分布、完全共分散ガウス混合モデル、または対角共分散ガウス混合モデルによって記述されるクラスごとの分布を有するベイズ分類器；
・ベクトル量子化；
・最近傍（ｋ平均）；
・各クラスに対応する１つの出力を有するがＳｏｆｔＭａｘ出力層を有するニューラルネットワーク；
・サポートベクターマシン（ＳＶＭ）；および／または
・勾配ブースティングマシン（ＧＢＭ）などのブースティング技術。

【0199】

ラベル付けされていない場合を実装する一例では、データは、Ｋ個のクラスタに自動的に分割され得、ここで、Ｋはまた、未知であり得る。ラベル付けされていない自動分割は、例えば、古典的なクラスタリング技法、例えば、ｋ平均アルゴリズムまたはガウス混合モデリングを使用することによって実行され得る。

【0200】

ロバスト性を向上させるために、分類器モデルトレーニングに正則化が適用され得、モデルパラメータは、新しい発話が行われるにつれて経時的に更新され得る。

【0201】

次に、実施形態のさらなる態様を説明する。

【0202】

例示的な音響特徴セット（例えば、図１１の音響特徴１１０６Ａ）は、ウェイクワード信頼度の尤度、最も信頼度の高いウェイクワードの推定持続時間にわたる平均受信レベル、および最も信頼度の高いウェイクワードの持続時間にわたる最大受信レベルを含み得る。特徴は、各ウェイクワード発話についてそれらの最大値に対して正規化され得る。トレーニングデータがラベル付けされ得、トレーニングラベルの期待値を最大化するように完全共分散ガウス混合モデル（ＧＭＭ）がトレーニングされ得る。推定ゾーンは、事後確率を最大化するクラスであり得る。

【0203】

いくつかの実施形態の上記の説明は、プロンプトされた収集プロセス中に収集されたトレーニングデータのセットから音響ゾーンモデルを学習することについて議論する。そのモデルでは、トレーニング時間（または構成モード）およびランタイム（または通常モード）は、マイクロホンシステムが置かれ得る２つの別個のモードとみなされ得る。この方式の拡張は、音響ゾーンモデルの一部または全部がオンラインで（例えば、ランタイムにまたは通常モードで）学習または適応されるオンライン学習である。言い換えると、（例えば、図１０の方法１０００にしたがって）ユーザが現在位置するユーザゾーンの推定を行うために分類器が「ランタイム」プロセスにおいて適用されている後であっても、いくつかの実装形態では、分類器をトレーニングするプロセスは継続し得る。

【0204】

図１４は、図１Ａの装置２００などの装置によって実行され得る方法の別の例を概説するフロー図である。方法１４００のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。この実装形態では、方法１４００は、環境内のユーザのロケーションを推定する「ランタイム」プロセス中の分類器の進行中のトレーニングを含む。方法１４００は、本明細書でオンライン学習モードと呼ばれるものの一例である。

【0205】

この例では、方法１４００のブロック１４０５は、方法１０００のブロック１００５～１０２０に対応する。ここで、ブロック１４０５は、分類器からの出力に少なくとも部分的に基づいて、ユーザが現在位置するユーザゾーンの推定値を提供することを含む。この実装形態によれば、ブロック１４１０は、ブロック１４０５の推定値に関する暗黙的または明示的なフィードバックを取得することを含む。ブロック１４１５において、分類器は、ブロック１４０５において受信されたフィードバックにしたがって更新される。ブロック１４１５は、例えば、１つまたは複数の強化学習方法を含み得る。ブロック１４１５からブロック１４０５への破線矢印によって示唆されるように、いくつかの実装形態では、方法１４００は、ブロック１４０５に戻ることを含み得る。例えば、方法１４００は、更新されたモデルを適用することに基づいて、将来の時間にユーザが位置するユーザゾーンの将来の推定値を提供することを含み得る。

【0206】

フィードバックを取得するための明示的な技法は、以下を含み得る：
・音声ユーザインターフェース（ＵＩ）を使用して、予測が正しかったかどうかをユーザに尋ねること。例えば、以下を示す音がユーザに提供され得る：「ソファに座っていると思うので、「正しい」または「間違っている」と言ってください」。
・音声ＵＩを使用して、誤った予測をいつでも訂正することができることをユーザに通知すること（例えば、以下を示す音がユーザに提供され得る：「私に話しかけたときにあなたがどこにいるかを予測することができるようになりました。もし予測が間違っていた場合は、「アマンダ、私はソファには座っていません。リーディングチェアに腰かけています」のようなことを言ってください）。
・音声ＵＩを使用して、正しい予測にいつでも報酬を与えることができることをユーザに通知すること（例えば、以下を示す音がユーザに提供され得る：「私に話しかけたときにあなたがどこにいるかを予測することができるようになりました。もし予測が正しい場合、「アマンダ、その通りです。私はソファに座っています。」のようなことを言って、私の予測をさらに向上させる手伝いをしてください）。
・フィードバックを与えるためにユーザが操作することができる物理ボタンまたは他のＵＩ要素（例えば、物理デバイス上またはスマートフォンアプリ内のサムズアップおよび／またはサムズダウンボタン）を含むこと。

【0207】

ユーザが位置するユーザゾーンを予測することの目標は、例えば、ウェイクワードに続くコマンドをより良く認識するために、ユーザの音響ゾーンから音をより効果的にピックアップすることを試みるマイクロホン選択または適応ビームフォーミング方式を通知することであり得る。そのようなシナリオでは、ゾーン予測の品質に関するフィードバックを取得するための暗黙的な技法は、以下を含み得る：
・ウェイクワードに続くコマンドの誤認識をもたらす予測にペナルティを科すこと。誤認識を示し得るプロキシは、ユーザが、例えば、「アマンダ、ストップ！」のようなカウンターコマンドを発話することによって、コマンドに対する音声アシスタントの応答を遮ることを含み得る；
・音声認識器がコマンドの認識に成功したこと信頼度が低い予測にペナルティを科すこと。多くの自動音声認識システムは、この目的のために使用することができるそれらの結果と共に信頼レベルを返す能力を有する；
・第２パスのウェイクワード検出器がウェイクワードを高い信頼度で遡及的に検出することができないという結果をもたらす予測にペナルティを科すこと；および／または
・ウェイクワードの非常に自信のある認識および／またはユーザのコマンドの正しい認識をもたらす予測を強化すること。

【0208】

以下は、第２パスのウェイクワード検出器がウェイクワードを高い信頼度で遡及的に検出することができない例である。環境内のマイクロホンから現在の発話に対応する出力信号を取得した後、かつ（例えば、マイクロホンと通信するように構成された複数の第１パスのウェイクワード検出器を介して）出力信号に基づいて音響特徴を決定した後、音響特徴が分類器に与えられると仮定する。言い換えると、音響特徴は、検出されたウェイクワード発話に対応すると推定される。さらに、現在の発話を行った人が、この例ではリーディングチェアに対応するゾーン３にいる可能性が最も高いと分類器が決定したと仮定する。例えば、音声コマンド認識のためにクラウドベースの仮想アシスタントサービスに送るために、例えば、人がゾーン３にいるときに人の声を聞くのに最良であることが知られている特定のマイクロホンまたはマイクロホンの学習された組合せが存在し得る。

【0209】

さらに、どのマイクロホン（複数可）が音声認識に使用されることになるかを決定した後ではあるが、人の音声が仮想アシスタントサービスに実際に送られる前に、第２パスのウェイクワード検出器が、コマンド認識のためにサブミットしようとしているゾーン３のための選択されたマイクロホン（複数可）によって検出された音声に対応するマイクロホン信号に対して動作すると仮定する。その第２パスのウェイクワード検出器が、ウェイクワードが実際に発せられた複数の第１パスのウェイクワード検出器と一致しない場合、それはおそらく、分類器がゾーンを誤って予測したためである。したがって、この分類器にペナルティが科されるべきである。

【0210】

１つまたは複数のウェイクワードが話された後のゾーンマッピングモデルを事後更新するための技法は、以下を含み得る。
・ガウス混合モデル（ＧＭＭ）または最近傍モデルの最大事後確率（ＭＡＰ）適応；および／または
・例えば、適切な「one-hot」（正しい予測の場合）または「one-cold」（誤った予測の場合）グラウンドトゥルースラベルをSoftMax出力と関連付け、オンライン逆伝搬を適用して新しいネットワーク重みを決定することによる、例えばニューラルネットワークの強化学習。

【0211】

このコンテキストにおけるＭＡＰ適応のいくつかの例は、ウェイクワードが話されるたびにＧＭＭ中の平均を調整することを含み得る。このようにして、平均は、後続のウェイクワードが話されるときに観察される音響特徴により近くなり得る。代替的または追加的に、そのような例は、ウェイクワードが話されるたびにＧＭＭ中の分散／共分散または混合重み情報を調整することを含んでもよい。

【0212】

例えば、ＭＡＰ適応スキームは、次の通りであり得る：

【数34】

【0213】

上記の式において、μ_i,oldは、混合におけるｉ番目のガウシアンの平均を表し、αは、ＭＡＰ適応がどの程度積極的に行われるべきかを制御するパラメータを表し（αは、［０．９，０．９９９］の範囲内であり得る）、ｘは、新しいウェイクワード発話の特徴ベクトルを表す。インデックス「ｉ」は、ウェイクワード時におけるスピーカのロケーションを含む最も高い先験的確率を返す混合要素に対応する。

【0214】

代替的に、混合要素の各々は、例えば次のように、ウェイクワードを含むそれらの先験的確率にしたがって調整されてもよい。

【数35】

【0215】

上記の式において、β_i＝α＊（１－Ｐ（ｉ））であり、ここで、Ｐ（ｉ）は、観測値ｘが混合要素ｉによるものである先験的確率を表す。

【0216】

１つの強化学習の例では、３つのユーザゾーンが存在し得る。特定のウェイクワードについて、モデルは、３つのユーザゾーンについて確率を［０．２，０．１，０．７］であると予測すると仮定する。第２の情報源（例えば、第２パスのウェイクワード検出器）が、第３のゾーンが正しかったことを確認した場合、グラウンドトゥルースラベルは［０，０，１］（「one hot」）となり得る。ゾーンマッピングモデルの事後更新は、ニューラルネットワークを介して誤差を逆伝播することを含み得、事実上、同じ入力が再び示された場合にニューラルネットワークがゾーン３をより強く予測することを意味する。逆に、第２の情報源が、ゾーン３が不正確な予測であったことを示す場合、グラウンドトゥルースラベルは、一例では［０．５、０．５、０．０］となり得る。ニューラルネットワークを介して誤差を逆伝播することで、将来同じ入力が示された場合に、モデルがゾーン３を予測しにくくするであろう。

【0217】

コスト関数の最適化を含むオーディオ処理変更のさらなる例
本明細書の他の箇所で述べたように、開示される様々な例では、１つまたは複数のタイプのオーディオ処理変更は、コスト関数の最適化に基づき得る。いくつかのそのような例は、フレキシブルレンダリングを含む。

【0218】

フレキシブルレンダリングにより、空間オーディオを、任意の数の任意に配置されたスピーカにわたってレンダリングすることができる。限定はしないが、家のスマートオーディオデバイス（例えば、スマートスピーカ）を含むオーディオデバイスの広範な展開を考慮すると、消費者製品がオーディオのフレキシブルレンダリングと、そのようにレンダリングされたオーディオの再生とを実行することを可能にするフレキシブルレンダリング技術を実現する必要がある。

【0219】

フレキシブルレンダリングを実装するために、いくつかの技術が開発されている。それらは、コスト関数最小化のうちの１つとしてレンダリング問題を投じており、コスト関数は、レンダラが達成しようとしている所望の空間印象をモデル化する第１の項と、コストをスピーカのアクティブ化に割り当てる第２の項という２つの項から構成される。今まで、この第２の項は、レンダリングされているオーディオの所望の空間位置にごく近接したスピーカのみがアクティブ化される、疎な解を作成することに焦点を当ててきた。

【0220】

消費者環境における空間オーディオの再生は、典型的には、所定位置に配置された所定数のラウドスピーカ、例えば５．１および７．１サラウンドサウンドに結び付けられている。これらの場合、コンテンツは、特に、関連するラウドスピーカのためにオーサリングされ、ラウドスピーカごとに１つの離散チャネルとして符号化される（例えば、Dolby Digital、またはDolby Digital Plusなど）。より最近では、コンテンツと特定のラウドスピーカロケーションとの間のこの関連付けを断ち切る没入型のオブジェクトベースの空間オーディオフォーマット（Dolby Atmos）が導入されている。代わりに、コンテンツは、個々のオーディオオブジェクトの集合として記述されてもよく、各オーディオオブジェクトは、三次元空間における該オーディオオブジェクトの所望の知覚ロケーションを記述する、時間変化する可能性のあるメタデータを有する。再生時、コンテンツは、再生システム中のラウドスピーカの数およびロケーションに適応するレンダラによってラウドスピーカフィードに変換される。しかしながら、多くのそのようなレンダラは、依然として、ラウドスピーカのセットのロケーションが所定のレイアウトのセット（例えば、Dolby Atmosの場合、３．１．２、５．１．２、７．１．４、９．１．６など）のうちの１つとなるように制約する。

【0221】

そのように制約されたレンダリングを超えて、任意の位置に配置された真に任意の数のラウドスピーカにわたってオブジェクトベースのオーディオがフレキシブルにレンダリングされることを可能にする方法を開発してきた。これらの方法は、レンダラが、リスニング空間内のラウドスピーカの数および物理的ロケーションの知識を有することを必要とする。そのようなシステムが平均的な消費者にとって実用的であるためには、ラウドスピーカを位置特定するための自動化された方法が望ましい。１つのそのような方法は、場合によってはラウドスピーカと同じ場所に配置された多数のマイクロホンの使用に依拠する。ラウドスピーカを通してオーディオ信号を再生し、マイクロホンで録音することによって、各ラウドスピーカとマイクロホンとの間の距離が推定される。続いて、これらの距離から、ラウドスピーカとマイクロホンの両方のロケーションが推定される。

【0222】

消費者空間におけるオブジェクトベースの空間オーディオの導入と同時に、Amazon Echo製品ラインなどのいわゆる「スマートスピーカ」が急速に採用されてきた。これらのデバイスの絶大な人気は、ワイヤレス接続性および統合音声インターフェース（例えば、AmazonのAlexa）によってもたらされる単純さと便利さとによるものであり得るが、これらのデバイスの音響能力は、一般に、特に空間オーディオに関して制限されている。ほとんどの場合、これらのデバイスは、モノまたはステレオ再生に制約される。しかしながら、前述のフレキシブルレンダリングおよび自動位置特定技術を複数のオーケストレーションされたスマートスピーカと組み合わせることで、非常に洗練された空間再生能力をもち、消費者によるセットアップが依然として極めて簡単なままであるシステムが得られ得る。消費者は、ワイヤレス接続性により、スピーカワイヤを引く必要がなく、都合のよい場所であればどこででも、必要な数のスピーカを配置することができ、内蔵マイクロホンを使用して、関連付けられたフレキシブルレンダラのためにスピーカを自動的に位置特定することができる。

【0223】

従来のフレキシブルレンダリングアルゴリズムは、特定の所望の知覚される空間印象を可能な限り厳密に達成するように設計される。オーケストレーションされたスマートスピーカのシステムでは、時には、この空間印象の維持は、最も重要なまたは所望される目的ではないことがある。例えば、誰かが統合音声アシスタントに同時に話しかけようとしている場合、検出された音声を含むマイクロホン信号の信号対ノイズ比および／または信号対エコー比（ＳＥＲ）を増加させるために、特定のマイクロホンの近くのスピーカ上の相対的な再生レベルを低減する方法で空間レンダリングを瞬間的に変更することが望まれ得る。本明細書に説明されるいくつかの実施形態は、例えば、１つまたは複数の追加の目的を達成する目的で、空間レンダリングへのそのような動的修正を可能にするように、既存のフレキシブルレンダリング方法への修正として実装され得る。

【0224】

既存のフレキシブルレンダリング技法は、ＣＭＡＰ（Center of Mass Amplitude Panning）およびＦＶ（Flexible Virtualization）を含む。大まかに言えば、これらの技法はいずれも、２つ以上のスピーカのセット上での再生のために、関連付けられた所望の知覚空間位置を各々有する１つまたは複数のオーディオ信号のセットをレンダリングし、セットのスピーカの相対的なアクティブ化は、スピーカ上で再生される上記オーディオ信号の知覚空間位置のモデルと、スピーカの位置に対するオーディオ信号の所望の知覚空間位置の近接性との関数である。モデルは、オーディオ信号が意図された空間位置の近くでリスナによって聞き取られることを保証し、近接項（proximity term）は、この空間印象を達成するためにどのスピーカが使用されるかを制御する。特に、近接項は、オーディオ信号の所望の知覚空間位置の近くにあるスピーカのアクティブ化を支持する（favor）。ＣＭＡＰおよびＦＶの両方について、この関数関係は、空間アスペクトについての項と近接性についての項という２つの項の和として書かれる以下のコスト関数から都合よく導出される：

【数36】

ここで、セット

【数37】

は、Ｍ個のラウドスピーカのセットの位置を示し、

【数38】

は、オーディオ信号の所望の知覚空間位置を示し、ｇは、スピーカアクティブ化のＭ次元ベクトルを示す。ＣＭＡＰの場合、ベクトルにおける各アクティブ化はスピーカごとの利得を表し、ＦＶの場合、各アクティブ化はフィルタを表す（この第２のケースでは、ｇは等価的に、特定の周波数における複素数値のベクトルとみなされ得、フィルタを形成するために複数の周波数にわたって異なるｇが計算される）。アクティブ化にわたるコスト関数を最小化することによってアクティブ化の最適なベクトルを見つける。

【数39】

【0225】

コスト関数の特定の定義では、ｇ_optsの成分間の相対レベルは適切であるが、上記の最小化の結果得られる最適なアクティブ化の絶対レベルを制御することは困難である。この問題に対処するために、ｇ_optの後続の正規化を実行して、アクティブ化の絶対レベルを制御し得る。例えば、単位長を有するようにベクトルを正規化することが望ましい場合があり、これは、一般に使用される低電力パンニング規則に従う：

【数40】

【0226】

フレキシブルレンダリングアルゴリズムの正確な挙動は、コスト関数の２つの項Ｃ_spatialおよびＣ_proximityの特定の構築によって決定される。ＣＭＡＰの場合、Ｃ_spatialは、ラウドスピーカのセットから再生されるオーディオ信号の知覚空間位置を、それらの関連するアクティブ化利得ｇ_i（ベクトルｇの要素）によって重み付けされたそれらのラウドスピーカの位置の質量中心に配置するモデルから導出される：

【数41】

次に、式１９は、所望のオーディオ位置とアクティブ化されたラウドスピーカによって生成された位置との間の二乗誤差を表す空間コストに操作される：

【数42】

ＦＶでは、コスト関数の空間項は異なるように定義される。ここでの目標は、リスナの左右の耳におけるオーディオオブジェクト位置

【数43】

に対応するバイノーラル応答ｂを生成することである。概念的に、ｂは、フィルタ（各耳に対して１つのフィルタ）の２×１ベクトルであるが、特定の周波数における複素数値の２×１ベクトルとして扱う方がより都合がよい。特定の周波数におけるこの表現を進めると、所望のバイノーラル応答は、オブジェクト位置によってインデックス付けされたＨＲＴＦのセットから取り出され得る：

【数44】

同時に、ラウドスピーカによってリスナの耳で生成される２×１バイノーラル応答ｅは、複素スピーカアクティブ化値のＭｘ１ベクトルｇを乗じた２ｘＭ音響伝達行列Ｈとしてモデル化される：

【数45】

音響伝達行列Ｈは、リスナ位置に対するラウドスピーカ位置のセット

【数46】

に基づいてモデル化される。最後に、コスト関数の空間成分は、所望のバイノーラル応答（式５）とラウドスピーカによって生成されるバイノーラル応答（式６）との間の二乗誤差として定義される:

【数47】

便宜上、式４および式７において定義されたＣＭＡＰおよびＦＶのためのコスト関数の空間項は、両方とも、スピーカアクティブ化ｇの関数として行列二次方程式（matrix quadratic）に並び替えられ得る：

【数48】

ここで、ＡはＭ×Ｍ正方行列であり、Ｂは１×Ｍベクトルであり、Ｃはスカラである。行列Ａはランク２であり、したがって、Ｍ＞２であるとき、空間誤差項がゼロに等しい無限数のスピーカアクティブ化ｇが存在する。コスト関数の第２項Ｃ_proximityを導入することにより、この不確定性が除去され、他の可能な解と比較して知覚的に有益なプロパティを有する特定の解が得られる。ＣＭＡＰとＦＶの両方について、Ｃ_proximityは、位置

【数49】

が所望のオーディオ信号位置

【数50】

から離れているスピーカのアクティブ化に、位置が所望の位置に近いスピーカのアクティブ化よりもペナルティが科されるように構築される。この構築により、所望のオーディオ信号の位置に近接したスピーカのみが有意にアクティブ化される、疎なスピーカアクティブ化の最適なセットが得られ、実際には、スピーカのセット周辺でのリスナの動きに対して知覚的によりロバストなオーディオ信号の空間再生をもたらす。

【0227】

この目的のために、コスト関数の第２項Ｃ_proximityは、スピーカアクティブ化の絶対値二乗の距離加重和として定義され得る。これは、以下のように行列形式でコンパクトに表される：

【数51】

ここで、Ｄは、所望のオーディオ位置と各スピーカとの間の距離ペナルティの対角行列である：

【数52】

距離ペナルティ関数は、多くの形をとることができるが、有用なパラメータ化は以下の通りである：

【数53】

ここで、

【数54】

は、所望のオーディオ位置とスピーカ位置との間のユークリッド距離であり、αおよびβは調整可能なパラメータである。パラメータαは、ペナルティの全体的な強さを示し、ｄ₀は、距離ペナルティの空間的広がりに対応し（ｄ₀付近のまたはさらに離れた距離にあるラウドスピーカはペナルティを科される）、βは、距離ｄ₀におけるペナルティのオンセットの急激さを考慮する。

【0228】

式８および９ａで定義されたコスト関数の２つの項を組み合わせると、全体のコスト関数が得られる：

【数55】

【0229】

ｇに関するこのコスト関数の導関数をゼロに等しく設定し、ｇについて解くことで、最適なスピーカアクティブ化解が得られる：

【数56】

【0230】

一般に、式２７の最適解は、負の値を有するスピーカアクティブ化をもたらし得る。フレキシブルレンダラのＣＭＡＰ構築の場合、そのような負のアクティブ化は望ましくないことがあるので、式２７は、すべてのアクティブ化が正のままであることを条件として最小化され得る。

【0231】

図１５および図１６は、スピーカアクティブ化およびオブジェクトレンダリング位置の例示的なセットを示す図である。これらの例では、スピーカアクティブ化およびオブジェクトレンダリング位置は、４、６４、１６５、－８７、および－４度のスピーカ位置に対応する。図１５は、スピーカアクティブ化１５０５ａ、１５１０ａ、１５１５ａ、１５２０ａおよび１５２５ａを示しており、これらは、これらの特定のスピーカ位置についての式１１の最適解を含む。図１６は、個々のスピーカ位置をドット１６０５、１６１０、１６１５、１６２０、および１６２５としてプロットしており、これらはそれぞれ、スピーカアクティブ化１５０５ａ、１５１０ａ、１５１５ａ、１５２０ａ、および１５２５ａに対応する。図１６はまた、多数の可能なオブジェクト角度についての理想的なオブジェクト位置（言い換えると、オーディオオブジェクトがレンダリングされるべき位置）をドット１６３０ａとして示し、それらのオブジェクトについての対応する実際のレンダリング位置を、点線１６４０ａによって理想的なオブジェクト位置に接続されたドット１６３５ａとして示す。

【0232】

ある類の実施形態は、複数の調整された（オーケストレーションされた）スマートオーディオデバイスのうちの少なくとも１つ（例えば、全部または一部）による再生のためにオーディオをレンダリングするための方法を含む。例えば、ユーザの家に（システム内に）存在するスマートオーディオデバイスのセットは、スマートオーディオデバイスのすべてまたはいくつかによる（すなわち、スマートオーディオデバイスのすべてまたはいくつかのスマートオーディオデバイスのスピーカ（複数可）による）再生のためのオーディオの（一実施形態による）フレキシブルレンダリングを含む、様々な同時ユースケースを処理するようにオーケストレーションされ得る。レンダリングに対する動的な修正を必要とする、システムとの多くの対話が考えられる。そのような修正は、空間的な忠実性に焦点を当てるものであり得るが、必ずしもそうであるとは限らない。

【0233】

いくつかの実施形態は、スマートオーディオデバイスのセットのスマートオーディオデバイスのうちの少なくとも１つ（例えば、すべてまたはいくつか）による再生のための（またはスピーカの別のセットのスピーカのうちの少なくとも１つ（例えば、すべてまたはいくつか）による再生のための）オーディオをレンダリングするための方法である。レンダリングは、コスト関数の最小化を含み得、コスト関数は、少なくとも１つの動的スピーカアクティブ化項を含む。そのような動的スピーカアクティブ化項の例には、（限定はしないが）以下が含まれる：
・１人以上のリスナに対するスピーカの近接性；
・引力または反発力に対するスピーカの近接性；
・あるロケーション（例えば、リスナ位置またはベビールーム）に対するスピーカの可聴性；
・スピーカの能力（例えば、周波数応答および歪み）；
・他のスピーカに対するスピーカの同期性；
・ウェイクワード性能；
・エコーキャンセラ性能。

【0234】

動的スピーカアクティブ化項（複数可）は、そのマイクロホンがトーカをよりよく聞き取ることができるように、またはスマートオーディオデバイスのスピーカ（複数可）が副オーディオストリームをよりよく聞き取り得るように、特定のスマートオーディオデバイスから離れるようにオーディオの空間的提示をワープすることを含む、様々な挙動のうちの少なくとも１つを可能にし得る。

【0235】

いくつかの実施形態は、調整された（オーケストレーションされた）複数のスマートオーディオデバイスのスピーカ（複数可）による再生のためのレンダリングを実装する。他の実施形態は、スピーカの別のセットのスピーカ（複数可）による再生のためのレンダリングを実装する。

【0236】

フレキシブルレンダリング方法（いくつかの実施形態にしたがって実装される）をワイヤレススマートスピーカ（または他のスマートオーディオデバイス）のセットとペアリングすることで、極めて能力が高く使いやすい空間オーディオレンダリングシステムを得ることができる。このようなシステムとの対話を考えると、システムの使用中に生じ得る他の目的に対して最適化するために、空間レンダリングに対する動的な修正が望ましい場合があることが明らかになる。この目標を達成するために、ある類の実施形態は、レンダリングされているオーディオ信号、スピーカのセット、および／または他の外部入力の１つまたは複数のプロパティに依存する１つまたは複数の追加の動的に構成可能な機能を用いて、既存のフレキシブルレンダリングアルゴリズム（スピーカアクティブ化が前に開示された空間項および近接項の関数である）を増強する。いくつかの実施形態によれば、式１で与えられる既存のフレキシブルレンダリングのコスト関数は、以下の式にしたがって、これらの１つまたは複数の追加の依存性を用いて増強される：

【数57】

【0237】

式２８において、項

【数58】

は、追加のコスト項を表し、ここで、

【数59】

は、レンダリングされている（例えばオブジェクトベースのオーディオプログラムの）オーディオ信号の１つまたは複数のプロパティのセットを表し、

【数60】

は、オーディオがレンダリングされているスピーカの１つまたは複数のプロパティのセットを表し、

【数61】

は１つまたは複数の追加の外部入力を表す。各項

【数62】

は、一般的にセット

【数63】

で表される、オーディオ信号、スピーカ、および／または外部入力の１つまたは複数のプロパティの組合せに関係するアクティブ化の関数ｇとしてコストを返す。セット

【数64】

は、少なくとも、

【数65】

のいずれかからの１つの要素のみを含むことを理解されたい。

【0238】

【数66】

の例としては、以下のようなものが挙げられるが、これらに限定されるものではない：
・オーディオ信号の所望の知覚空間位置；
・オーディオ信号のレベル（時間変化する可能性がある）；および／または
・オーディオ信号のスペクトル（場合によっては時間変化する）。

【0239】

【数67】

の例としては、以下のようなものが挙げられるが、これらに限定されるものではない：
・リスニング空間におけるラウドスピーカのロケーション；
・ラウドスピーカの周波数応答；
・ラウドスピーカの再生レベル制限；
・リミッタ利得などの、スピーカ内の動的処理アルゴリズムのパラメータ；
・各スピーカから他のスピーカへの音響伝達の測定値または推定値；
・スピーカのエコーキャンセラ性能の尺度；および／または
・スピーカ同士の相対的な同期性。

【0240】

【数68】

の例としては、以下のようなものが挙げられるが、これらに限定されるものではない：
・再生空間内の１人以上のリスナまたはトーカのロケーション；
・各ラウドスピーカからリスニングロケーションへの音響伝達の測定値または推定値；
・トーカからラウドスピーカのセットへの音響伝達の測定値または推定値；
・再生空間内の何らかの他のランドマークのロケーション；および／または
・再生空間内の各スピーカから何らかの他のランドマークへの音響伝達の測定値または推定値。

【0241】

式２８において定義された新しいコスト関数を用いると、式２８ａおよび２８ｂにおいて前に指定されたようなｇに関する最小化および可能な事後正規化により、アクティブ化の最適なセットを見つけることができる。

【0242】

いくつかの例では、コスト項Ｃ_jのうちの１つまたは複数は、図６のダッキングモジュール４００のようなダッキングモジュールによって、

【数69】

またはそれらの組合せの関数として決定され得る。いくつかのそのような例では、レンダラに提供されるダッキング解４８０は、そのような項のうちの１つまたは複数を含み得る。他の例では、そのような項のうちの１つまたは複数は、レンダラによって決定され得る。いくつかのそのような例では、そのような項のうちの１つまたは複数は、ダッキング解４８０に応答してレンダラによって決定され得る。いくつかの例によれば、そのような項のうちの１つまたは複数は、図８の方法８００などの反復プロセスにしたがって決定され得る。

【0243】

図１７は、図１Ａに示されるものなどの装置またはシステムによって実行され得る方法の一例を概説するフロー図である。方法１７００のブロックは、本明細書で説明される他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および／または説明されるよりも多いまたは少ないブロックを含み得る。方法１７００のブロックは、図１Ａに示される制御システム１６０などの制御システムであり得る（またはそれを含み得る）１つまたは複数のデバイスによって実行され得る。

【0244】

この実装形態では、ブロック１７０５は、制御システムによって、インターフェースシステムを介して、オーディオデータを受信することを含む。この例では、オーディオデータは、１つまたは複数のオーディオ信号および関連付けられた空間データを含む。この実装形態によれば、空間データは、オーディオ信号に対応する意図された知覚空間位置を示す。いくつかの事例では、意図された知覚空間位置は、例えばDolby Atmos位置メタデータなどの位置メタデータによって示されるように、明示的であってもよい。他の例では、意図された知覚空間位置は暗黙的であってもよく、例えば、意図された知覚空間位置は、Dolby５．１、Dolby７．１または別のチャネルベースのオーディオフォーマットにしたがったチャネルに関連付けられた想定ロケーションであってもよい。いくつかの例では、ブロック１７０５は、制御システムのレンダリングモジュールが、インターフェースシステムを介してオーディオデータを受信することを含む。

【0245】

この例によれば、ブロック１７１０は、レンダリングされたオーディオ信号を生成するために、制御システムによって、環境のラウドスピーカのセットを介した再生のためにオーディオデータをレンダリングすることを含む。この例では、オーディオデータ中に含まれる１つまたは複数のオーディオ信号の各々をレンダリングすることは、コスト関数を最適化することによって環境内のラウドスピーカのセットの相対的なアクティブ化を決定することを含む。この例によれば、コストは、環境内のラウドスピーカのセット上で再生されるときのオーディオ信号の知覚空間位置のモデルの関数である。この例では、コストはまた、ラウドスピーカのセットの各ラウドスピーカの位置に対するオーディオ信号の意図された知覚空間位置の近接性の尺度の関数である。この実装形態では、コストは、１つまたは複数の追加の動的に構成可能な機能の関数でもある。この例では、動的に構成可能な機能は、以下のうちの１つまたは複数に基づく：１人以上のリスナに対するラウドスピーカの近接性、引力位置に対するラウドスピーカの近接性（ここにおいて、引力は、引力位置に近接するほど比較的高いラウドスピーカアクティブ化を支持する要因である）、反発力位置に対するラウドスピーカの近接性（ここにおいて、反発力は、反発力位置に近接するほど比較的低いラウドスピーカアクティブ化を支持する要因である）、環境内の他のラウドスピーカに対する各ラウドスピーカの能力、他のラウドスピーカに対するラウドスピーカの同期性、ウェイクワード性能、またはエコーキャンセラ性能。

【0246】

この例では、ブロック１７１５は、インターフェースシステムを介して、レンダリングされたオーディオ信号を環境のラウドスピーカのセットの少なくともいくつかのラウドスピーカに提供することを含む。

【0247】

いくつかの例によれば、知覚空間位置のモデルは、リスナの左右の耳におけるオーディオオブジェクト位置に対応するバイノーラル応答を生成し得る。代替的または追加的に、知覚空間位置のモデルは、ラウドスピーカのセットから再生されるオーディオ信号の知覚空間位置を、ラウドスピーカの関連するアクティブ化利得によって重み付けされたラウドスピーカのセットの位置の重心に配置してもよい。

【0248】

いくつかの例では、１つまたは複数の追加の動的に構成可能な機能は、１つまたは複数のオーディオ信号のレベルに少なくとも部分的に基づき得る。いくつかの事例では、１つまたは複数の追加の動的に構成可能な機能は、１つまたは複数のオーディオ信号のスペクトルに少なくとも部分的に基づき得る。

【0249】

方法１７００のいくつかの例は、ラウドスピーカレイアウト情報を受信することを含む。いくつかの例では、１つまたは複数の追加の動的に構成可能な機能は、環境内のラウドスピーカの各々のラウドスピーカのロケーションに少なくとも部分的に基づき得る。

【0250】

方法１７００のいくつかの例は、ラウドスピーカ指定情報を受信することを含む。いくつかの例では、１つまたは複数の追加の動的に構成可能な機能は、周波数応答、再生レベル限界、または１つもしくは複数のラウドスピーカダイナミクス処理アルゴリズムのパラメータのうちの１つまたは複数を含み得る、各ラウドスピーカの能力に少なくとも部分的に基づき得る。

【0251】

いくつかの例によれば、１つまたは複数の追加の動的に構成可能な機能は、各ラウドスピーカから他のラウドスピーカへの音響伝達の測定値または推定値に少なくとも部分的に基づき得る。代替的または追加的に、１つまたは複数の追加の動的に構成可能な機能は、環境内の１人以上の人のリスナまたはスピーカロケーションに少なくとも部分的に基づいてもよい。代替的または追加的に、１つまたは複数の追加の動的に構成可能な機能は、各ラウドスピーカからリスナまたはスピーカロケーションへの音響伝達の測定値または推定値に少なくとも部分的に基づいてもよい。音響伝達の推定は、例えば、各ラウドスピーカとリスナまたはスピーカロケーションとの間に存在し得る壁、家具または他のオブジェクトに少なくとも部分的に基づき得る。

【0252】

代替的または追加的に、１つまたは複数の追加の動的に構成可能な機能は、環境内の１つまたは複数の非ラウドスピーカオブジェクトまたはランドマークのオブジェクトロケーションに少なくとも部分的に基づいてもよい。いくつかのそのような実装形態では、１つまたは複数の追加の動的に構成可能な機能は、各ラウドスピーカからオブジェクトロケーションまたはランドマークロケーションへの音響伝達の測定値または推定値に少なくとも部分的に基づき得る。

【0253】

フレキシブルレンダリングを実装するために１つまたは複数の適切に定義された追加のコスト項を採用することによって、多数の新しく有用な挙動が達成され得る。以下に列挙されるすべての例示的な挙動は、望ましくないと考えられる特定の条件下で特定のラウドスピーカにペナルティを科すという観点で示されている（cast）。結果として、オーディオ信号のセットの空間レンダリングにおいて、これらのラウドスピーカのアクティブ化は少なくなる。これらの場合の多くでは、空間レンダリングに対する任意の修正とは無関係に望ましくないラウドスピーカの音量を単に下げることが考えられ得るが、そのような戦略は、オーディオコンテンツの全体的なバランスを著しく低下させ得る。例えば、ミックスの特定の成分が完全に聞こえなくなる可能性がある。一方、開示される実施形態では、これらのペナルティをレンダリングのコア最適化に統合することにより、レンダリングが適応し、ペナルティのより少ない残りのスピーカを用いて、可能な限り最良の空間レンダリングを実行することができる。これは、はるかに洗練され、適応可能で、効果的な解決策である。

【0254】

ユースケースの例としては、以下のようなものが挙げられるが、これらに限定されるものではない：
・リスニングエリアの周囲によりバランスのとれた空間的提示を提供すること
－空間オーディオは、意図されたリスニングエリアからほぼ同じ距離にあるラウドスピーカにわたって最良に提示されることが分かっている。ラウドスピーカからリスニングエリアまでの平均距離よりも著しく近いまたは遠いラウドスピーカにペナルティが科されて、それらのアクティブ化が低減されるようにコストが構築され得る；
・リスナまたはトーカから離れるようにまたは近づくようにオーディオを移動させること
－システムのユーザが、システムのまたはシステムに関連付けられたスマート音声アシスタントに話しかけようとする場合、トーカにより近いラウドスピーカにペナルティを科すコストを作成することが有益であり得る。このようにして、これらのラウドスピーカのアクティブ化が少なくなり、これにより、それらの関連付けられたマイクロホンは、トーカをよりよく聞き取ることができる；
－リスニング空間内の他の人に対する再生レベルを最小化する、より親密なエクスペリエンスを単一のリスナに提供するために、リスナのロケーションから遠いスピーカは、リスナに最も近いスピーカのみが最も有意にアクティブ化されるように、ペナルティが重く科され得る；
・ランドマーク、ゾーン、またはエリアから離れるようにまたは近づくようにオーディオを移動させること
－ベビールーム、乳児のベッド、オフィス、読書エリア、学習エリアなど、リスニング空間の近くの特定のロケーションは敏感であるとみなされ得る。そのような場合、このロケーション、ゾーンまたはエリアに近いスピーカの使用にペナルティを科すコストが構築され得る。
－代替的に、上記と同じ場合（または類似の場合）について、特にスピーカのうちの１つ（取り付けられたまたは関連付けられたマイクロホン付き）がベビールーム自体に存在する場合、スピーカのシステムは、各スピーカからベビールームの中への音響伝達の測定値を生成した可能性がある。この場合、ベビールームに対するスピーカの物理的近接性を使用するのではなく、このルームへの測定された音響伝達が高いスピーカの使用にペナルティを科すコストが構築され得る；および／または
・スピーカの能力の最適な使用
－異なるラウドスピーカの能力は、著しく変化し得る。例えば、１つの一般的なスマートスピーカは、低周波能力が制限された単一の１．６”フルレンジドライバのみを含む。一方、別のスマートスピーカは、はるかに能力の高い３”ウーファーを含む。これらの能力は、一般に、スピーカの周波数応答に反映され、したがって、スピーカに関連付けられた応答のセットは、コスト項において利用され得る。特定の周波数において、それらの周波数応答によって測定される能力が他のスピーカと比べて低いスピーカは、ペナルティを科され、したがって、アクティブ化の程度が低くなり得る。いくつかの実装形態では、そのような周波数応答値は、スマートラウドスピーカを用いて記憶され、次いで、フレキシブルレンダリングを最適化することを担う計算ユニットに報告され得る；
－多くのスピーカは、それぞれが異なる周波数範囲を再生することを担う２つ以上のドライバを含む。例えば、１つの一般的なスマートスピーカは、より低い周波数のためのウーファーと、より高い周波数のためのツイーターとを含む双方向設計である。典型的には、そのようなスピーカは、全範囲再生オーディオ信号を適切な周波数範囲に分割し、それぞれのドライバに送信するためのクロスオーバ回路を含む。代替的に、そのようなスピーカは、各個別のドライバへのフレキシブルレンダラ再生アクセス、ならびに周波数応答など、各個別のドライバの能力に関する情報を提供してもよい。すぐ上で説明したようなコスト項を適用することによって、いくつかの例では、フレキシブルレンダラは、異なる周波数における相対的な能力に基づいて２つのドライバ間のクロスオーバを自動的に構築し得る；
－周波数応答を使用する上記の例は、スピーカの固有の能力に焦点を当てるものであるが、リスニング環境に配置されたスピーカの能力を正確に反映しない場合がある。特定の場合、意図されたリスニング位置において測定されたスピーカの周波数応答は、何らかの較正手順を通じて利用可能であり得る。そのような測定値は、スピーカの使用をより良く最適化するために、事前計算された応答の代わりに使用され得る。例えば、特定のスピーカは、特定の周波数において本質的に非常に有能であり得るが、その配置（例えば、壁または家具の後ろ）のために、意図されたリスニング位置において非常に限られた応答を生成し得る。この応答をキャプチャし、適切なコスト項に供給される測定値は、そのようなスピーカの有意なアクティブ化を防止することができる；
－周波数応答は、ラウドスピーカの再生能力の一側面にすぎない。多くの小型ラウドスピーカは、特に低周波数について、再生レベルが増加するにつれて、歪み始め、次いで、それらのエクスカーション限界に達する。そのような歪みを低減するために、多くのラウドスピーカは、再生レベルを、周波数にわたって可変であり得る何らかの限界しきい値未満に制約するダイナミクス処理を実装する。スピーカがこれらのしきい値の近くにあるかまたはこれらのしきい値にあり、フレキシブルレンダリングに参加している他のスピーカはそうではない場合、制限するスピーカにおける信号レベルを低減し、このエネルギーを他の負担の少ないスピーカに振り向けることは理にかなっている。そのような挙動は、関連するコスト項を適切に構成することによって、いくつかの実施形態にしたがって自動的に達成され得る。そのようなコスト項には、以下のうちの１つまたは複数が含まれ得る：
・ラウドスピーカの限界しきい値に関連してグローバル再生音量を監視すること。例えば、音量レベルがその限界しきい値により近いラウドスピーカは、より多くのペナルティが科され得る；
・場合によっては周波数にわたって変化する動的信号レベルを、同じく場合によっては周波数にわたって変化するラウドスピーカ制限しきい値と関連付けながら監視すること。例えば、監視される信号レベルがその限界しきい値により近いラウドスピーカは、より多くのペナルティが科され得る；
・制限利得など、ラウドスピーカのダイナミクス処理のパラメータを直接監視すること。いくつかのそのような例では、パラメータがより多くの制限を示すラウドスピーカは、より多くのペナルティが科され得る；
・ラウドスピーカが線形範囲内で動作しているかどうかを決定するために、増幅器によってラウドスピーカに供給されている実際の瞬間電圧、電流、および電力を監視すること。例えば、あまり線形的に動作していないラウドスピーカは、より多くのペナルティが科され得る；
－一体化されたマイクロホンおよび対話型音声アシスタントを有するスマートスピーカは、典型的には、録音マイクロホンによってピックアップされる、スピーカから再生されるオーディオ信号のレベルを低減するために、何らかのタイプのエコーキャンセレーションを採用する。この低減が大きいほど、スピーカが空間内のトーカを聞き取り、理解する可能性が高くなる。エコーキャンセラの残差が一貫して高い場合、これは、エコー経路の予測が困難になる非線形領域にスピーカが駆動されていることの指示であり得る。そのような場合、信号エネルギーをスピーカから振り向けることは理にかなっている場合があり、したがって、エコーキャンセラ性能を考慮したコスト項が有益であり得る。そのようなコスト項は、その関連するエコーキャンセラの性能が低いスピーカに高コストを割り当てることができる；
－複数のラウドスピーカにわたって空間オーディオをレンダリングするときに予測可能なイメージングを達成するために、ラウドスピーカのセットにわたる再生が時間にわたって適度に同期されることが一般に必要とされる。ワイヤードラウドスピーカの場合は当然のことであるが、多数のワイヤレスラウドスピーカでは、同期が困難である可能性があり、最終結果は可変であり得る。そのような場合、各ラウドスピーカが、目標との同期のその相対的な程度を報告することが可能であり得、次いで、この程度は、同期コスト項に反映され得る。いくつかのそのような例では、同期の程度がより低いラウドスピーカは、より多くのペナルティを科され、したがってレンダリングから除外され得る。追加的に、特定のタイプのオーディオ信号、例えば拡散または無指向性であることが意図されたオーディオミックスの成分については、厳密な同期は必要とされない場合がある。いくつかの実装形態では、成分は、そのようなものとしてメタデータでタグ付けされ得、同期コスト項は、ペナルティが低減されるように修正され得る。

【0255】

次に、実施形態の追加の例を説明する。式２５ａおよび２５ｂにおいて定義された近接性コストと同様に、新しいコスト関数項

【数70】

の各々を、スピーカアクティブ化の絶対値二乗の加重和として、例えば以下のように表すことも便利であり得る：

【数71】

ここで、Ｗ_jは、項ｊについてスピーカｉのアクティブ化に関連付けられたコストを記述する重み

【数72】

の対角行列である：

【数73】

【0256】

式２９ａおよび２９ｂを、式２６で与えられるＣＭＡＰおよびＦＶコスト関数の行列二次方程式バージョンと組み合わせることにより、式２８で与えられる（いくつかの実施形態の）一般的な拡張コスト関数の潜在的に有益な実装が得られる：

【数74】

【0257】

新しいコスト関数項のこの定義を用いても、全体的なコスト関数は、行列二次方程式のままであり、式３０の微分を通してアクティブ化の最適なセットｇ_optを求めて、次を得ることができる：

【数75】

【0258】

重み項ｗ_ijの各々を、ラウドスピーカの各々について、所与の連続ペナルティ値

【数76】

の関数として考えることが有用である。ある例示的な実施形態では、このペナルティ値は、（レンダリングされるべき）オブジェクトから考慮されるラウドスピーカまでの距離である。別の例示的な実施形態では、このペナルティ値は、所与のラウドスピーカが一部周波数を再生することができないことを表す。このペナルティ値に基づいて、重み項ｗ_ijを以下のようにパラメータ化することができる：

【数77】

ここで、α_jは、（重み項の全体的な強度を考慮する）前因子を表し、τ_jは、（重み項がその付近でまたはそれを超えると有意になる）ペナルティしきい値を表し、ｆ_j（ｘ）は、単調増加関数を表す。例えば、

【数78】

の場合、重み項は以下の形を有する：

【数79】

ここで、α_j、β_j、τ_jは、それぞれ、ペナルティの全体的な強さ、ペナルティのオンセットの急激さ、およびペナルティの程度を示す調整可能なパラメータである。これらの調整可能な値を設定する際には、Ｃ_spatialおよびＣ_proximityだけでなく、任意の他の追加のコスト項に対するコスト項Ｃ_jの相対的な効果が、所望の結果を達成するのに適切となるように、注意が払われるべきである。例えば、経験則として、特定のペナルティが他のペナルティを明らかに支配することを望む場合、その強度α_jを次に大きいペナルティ強度のおよそ１０倍に設定することが適切であり得る。

【0259】

すべてのラウドスピーカがペナルティを科される場合、スピーカの少なくとも１つがペナルティを科されないように、後処理においてすべての重み項から最小ペナルティを減算することが便利であることが多い。

【数80】

【0260】

上述のように、本明細書で説明される新しいコスト関数項（および他の実施形態にしたがって採用される同様の新しいコスト関数項）を使用して実現され得る多くの可能なユースケースがある。次に、リスナまたはトーカに向かってオーディオを移動させること、リスナまたはトーカから離れるようにオーディオを移動させること、およびランドマークから離れるようにオーディオを移動させることという３つの例を用いて、より具体的な詳細を説明する。

【0261】

第１の例では、本明細書で「引力」と呼ばれるものが、いくつかの例では、リスナまたはトーカの位置、ランドマーク位置、家具位置などであり得る位置にオーディオを引き寄せるために使用される。この位置は、本明細書では「引力位置」または「アトラクタロケーション」と呼ばれることがある。本明細書で使用される場合、「引力」は、引力位置に近接するほど比較的高いラウドスピーカアクティブ化を支持する要因である。この例によれば、重みｗ_ijは、固定されたアトラクタロケーション

【数81】

からのｉ番目のスピーカの距離によって与えられる連続ペナルティ値ｐ_ijと、すべてのスピーカにわたるこれらの距離の最大値によって与えられるとしきい値τ_jとを有する式１７の形をとる：

【数82】

【0262】

リスナまたはトーカにオーディオを「引き寄せる」ユースケースを示すために、α_j＝２０、β_j＝３と設定し、

【数83】

を１８０度のリスナ／トーカ位置（プロットの下部、中心）に対応するベクトルに具体的に設定し得る。α_j、β_j、および

【数84】

のこれらの値は単なる例である。いくつかの実装形態では、α_jは１～１００の範囲内であり得、β_jは１～２５の範囲内であり得る。図１８は、例示的な実施形態におけるスピーカアクティブ化のグラフである。この例では、図１８は、ｗ_ijによって表される引力が加わった、図１５および図１６と同じスピーカ位置についてのコスト関数の最適解を含むスピーカアクティブ化１５０５ｂ、１５１０ｂ、１５１５ｂ、１５２０ｂおよび１５２５ｂを示す。図１９は、例示的な実施形態におけるオブジェクトレンダリング位置のグラフである。この例では、図１９は、多数の可能なオブジェクト角度についての対応する理想的なオブジェクト位置１６３０ｂと、点線１６４０ｂによって理想的なオブジェクト位置１６３０ｂに接続された、それらのオブジェクトについての対応する実際のレンダリング位置１６３５ｂとを示す。固定位置

【数85】

に向かう実際のレンダリング位置１６３５ｂの斜めの向き（skewed orientation）は、コスト関数の最適解に対するアトラクタ重み付けの影響を示す。

【0263】

第２および第３の例では、人の位置（例えば、リスナ位置、トーカ位置など）、またはランドマーク位置、家具位置などの別の位置であり得る位置からオーディオを「遠ざける」ために「反発力」が使用される。いくつかの例では、反発力は、オフィスエリア、読書エリア、ベッドまたは寝室エリア（例えば、ベビーベッドまたは寝室）など、リスニング環境のエリアまたはゾーンからオーディオを遠ざけるために使用され得る。いくつかのそのような例によれば、特定の位置がゾーンまたはエリアを表すものとして使用され得る。例えば、ベビーベッドを表す位置は、乳児の頭部の推定位置、乳児に対応する推定音源ロケーションなどであり得る。この位置は、本明細書では「反発力位置」または「反発ロケーション」と呼ばれることがある。本明細書で使用される場合、「反発力」は、反発力位置に近接するほど比較的低いラウドスピーカアクティブ化を支持する要因である。この例によれば、式３５ａおよび３５ｂの吸引力と同様に、固定された反発ロケーション

【数86】

に関してｐ_i,jおよびτ_jを定義する：

【数87】

【0264】

リスナまたはトーカからオーディオを遠ざけるユースケースを示すために、一例では、α_j＝５、β_j＝２と設定し、

【数88】

を１８０度のリスナ／トーカ位置（プロットの下部、中心）に対応するベクトルに具体的に設定し得る。α_j、β_j、および

【数89】

のこれらの値は単なる例である。上述のように、いくつかの例では、α_jは１～１００の範囲内であり得、β_jは１～２５の範囲内であり得る。図２０は、例示的な実施形態におけるスピーカアクティブ化のグラフである。この例によれば、図２０は、ｗ_ijによって表される反発力が加わった、前の図と同じスピーカ位置についてのコスト関数の最適解を含むスピーカアクティブ化１５０５ｃ、１５１０ｃ、１５１５ｃ、１５２０ｃおよび１５２５ｃを示す。図２１は、例示的な実施形態におけるオブジェクトレンダリング位置のグラフである。この例では、図２１は、多数の可能なオブジェクト角度についての理想的なオブジェクト位置１６３０ｃと、点線１６４０ｃによって理想的なオブジェクト位置１６３０ｃに接続された、それらのオブジェクトについての対応する実際のレンダリング位置１６３５ｃとを示す。固定位置

【数90】

から離れる実際のレンダリング位置１６３５の斜めの向きは、コスト関数の最適解に対するリペラ重み付けの影響を示す。

【0265】

第３の例示的なユースケースは、寝ている乳児の部屋のドアなど、音響的に敏感なランドマークからオーディオを「遠ざける」ことである。最後の例と同様に、

【数91】

を１８０度のドア位置に対応するベクトル（プロットの底部、中心）に設定する。より強い反発力を達成し、音場全体を一次リスニング空間の前方部分にスキューするために、α_j＝２０、β_j＝５に設定する。図２２は、例示的な実施形態におけるスピーカアクティブ化のグラフである。この場合も同様に、この例では、図２２は、より強い反発力が加わった、同じスピーカ位置のセットの最適解を含むスピーカアクティブ化１５０５ｄ、１５１０ｄ、１５１５ｄ、１５２０ｄおよび１５２５ｄを示す。図２３は、例示的な実施形態におけるオブジェクトレンダリング位置のグラフである。この場合も同様に、この例では、図２３は、多数の可能なオブジェクト角度についての理想的なオブジェクト位置１６３０ｄと、点線１６４０ｄによって理想的なオブジェクト位置１６３０ｄに接続された、それらのオブジェクトについての対応する実際のレンダリング位置１６３５ｄとを示す。実際のレンダリング位置１６３５ｄの斜めの向きは、コスト関数の最適解に対するより強いリペラ重み付けの影響を示す。

【0266】

図１７の方法１７００のさらなる例では、ユースケースは、ダッキングのための、またはダッキング解に対応する他のオーディオ処理のための、オーディオ環境内の２つ以上のオーディオデバイスの選択に応答すること、およびダッキング解に対応する２つ以上のオーディオデバイスにペナルティを適用することである。前の例によれば、２つ以上のオーディオデバイスの選択は、いくつかの実施形態では、オーディオデバイスｉ上でオーディオ処理変更が発生する程度を制御する無単位パラメータである値ｆ_iの形態をとることができる。多くの組合せが可能である。１つの単純な例では、ダッキングの目的でオーディオデバイスｉに割り当てられるペナルティは、ｗ_ij＝ｆ_iとして直接選択され得る。いくつかの例では、そのような重みのうちの１つまたは複数は、図６のダッキングモジュール４００などのダッキングモジュールによって決定され得る。いくつかのそのような例では、レンダラに提供されるダッキング解４８０は、そのような重みのうちの１つまたは複数を含み得る。他の例では、これらの重みはレンダラによって決定され得る。いくつかのそのような例では、そのような重みのうちの１つまたは複数は、ダッキング解４８０に応答してレンダラによって決定され得る。いくつかの例によれば、そのような重みのうちの１つまたは複数は、図８の方法８００などの反復プロセスにしたがって決定され得る。

【0267】

重みを決定する前の例に加えて、いくつかの実装形態では、重みは、次のように決定され得る:

【数92】

【0268】

上記の式では、α_j、β_j、τ_jは、式３３を参照して上記で説明したように、ペナルティの全体的な強さ、ペナルティのオンセットの急激さ、およびペナルティの程度をそれぞれ示す調整可能なパラメータを表す。

【0269】

前の例では、ダッキング解を記述する無単位パラメータｆ_iの代替として、オーディオデバイスｉにおける音声対エコー比改善デシベルで直接表されるｓ_iも導入されていた。このように解を表すと、ペナルティを次のように決定することもできる：

【数93】

【0270】

ここで、ｆ_iは、ｄＢ項ｓ_iを０から無限大までの範囲の値に変換することによって置き換えられている。ｓ_iがますます負になるにつれて、ペナルティは増加し、それによって、デバイスｉからのオーディオをより多く移動させる。

【0271】

いくつかの例（前の２つの式の例など）では、調整可能なパラメータα_j、β_j、τ_jのうちの１つまたは複数は、図６のダッキングモジュール４００などのダッキングモジュールによって決定され得る。いくつかのそのような例では、レンダラに提供されるダッキング解４８０は、そのような調整可能なパラメータのうちの１つまたは複数を含み得る。他の例では、１つまたは複数の調整可能なパラメータは、レンダラによって決定され得る。いくつかのそのような例では、１つまたは複数の調整可能なパラメータは、ダッキング解４８０に応答してレンダラによって決定され得る。いくつかの例によれば、そのような調整可能なパラメータのうちの１つまたは複数は、図８の方法８００などの反復プロセスにしたがって決定され得る。

【0272】

前述のダッキングペナルティは、複数の同時ユースケースから生じる複数のペナルティ条件の組合せの一部として理解され得る。例えば、オーディオは、式３５ｃ～ｄで説明されるようなペナルティを使用して、感度の高いランドマークから「遠ざけられる」ことができる一方で、決定側面によって決定されるような項ｆ_iまたはｓ₁を使用してＳＥＲが改善されることが望ましいマイクロホンロケーションからも依然として「遠ざけられる」ことができる。

【0273】

いくつかの開示される実装形態の態様は、１つまたは複数の開示される方法を実行するように構成された（例えば、プログラムされた）システムまたはデバイスと、１つまたは複数の開示される方法またはそのステップを実装するためのコードを記憶する有形コンピュータ可読媒体（例えば、ディスク（disc））とを含む。例えば、システムは、ソフトウェアまたはファームウェアでプログラムされた、および／または別様に、１つまたは複数の開示される方法またはそのステップを含む様々な動作のいずれかをデータに対して実行するように構成された、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、またはマイクロプロセッサであるか、またはそれを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、それにアサートされたデータに応答して１つまたは複数の開示される方法（またはそのステップ）を実行するようにプログラムされた（および／または別様に構成された）処理サブシステムとを含む、コンピュータシステムであり得るか、またはそれを含み得る。

【0274】

いくつかの開示される実施形態は、１つまたは複数の開示される方法の実施を含む、オーディオ信号（複数可）に対して必要とされる処理を実行するように構成された（例えば、プログラムされたおよび別様に構成された）構成可能な（例えば、プログラム可能な）デジタルシグナルプロセッサ（ＤＳＰ）として実装される。代替的に、いくつかの実施形態（またはその要素）は、１つまたは複数の開示される方法またはそのステップを含む様々な動作のいずれかを実行するように、ソフトウェアまたはファームウェアでプログラムされたおよび／または別様に構成された汎用プロセッサ（例えば、入力デバイスおよびメモリを含み得るパーソナルコンピュータ（ＰＣ）もしくは他のコンピュータシステムまたはマイクロプロセッサ）として実装され得る。代替的に、いくつかの開示される実施形態の要素は、１つまたは複数の開示される方法またはそのステップを実行するように構成された（例えば、プログラムされた）汎用プロセッサまたはＤＳＰとして実装され、システムはまた、他の要素（例えば、１つまたは複数のラウドスピーカおよび／または１つまたは複数のマイクロホン）を含む。１つまたは複数の開示される方法またはそのステップを実行するように構成された汎用プロセッサは、典型的には、入力デバイス（例えば、マウスおよび／またはキーボード）、メモリ、およびディスプレイデバイスに結合されるであろう。

【0275】

いくつかの開示される実装形態の別の態様は、１つまたは複数の開示される方法またはそのステップの任意の実施形態を実行するためのコード（例えば、実行するように実行可能なコーダ）を記憶するコンピュータ可読媒体（例えば、ディスク（disc）または他の有形記憶媒体）である。

【0276】

本明細書には特定の実施形態および用途が記載されているが、本明細書に記載され、特許請求される材料の範囲から逸脱することなく、本明細書に記載される実施形態および用途に対する多くの変形が可能であることは、当業者には明らかであろう。特定の実装形態が示され、説明されたが、本開示は、説明され、示された特定の実施形態または説明された特定の方法に限定されるべきではないことを理解されたい。

【0277】

本発明の様々な態様は、以下の列挙された例示的な実施形態（ＥＥＥ）から理解され得る。

【0278】

＜ＥＥＥ１＞オーディオ処理方法であって、
制御システムによって、オーディオ環境内の１つまたは複数のマイクロホンから出力信号を受信するステップであって、出力信号は、人の現在の発話に対応する信号を含む、ステップと、
制御システムによって、出力信号に応答して、オーディオデバイスロケーション情報およびエコー管理システム情報に少なくとも部分的に基づいて、オーディオ環境内の２つ以上のオーディオデバイスのためのラウドスピーカフィード信号にレンダリングされているオーディオデータに適用すべき１つまたは複数のオーディオ処理変更を決定するステップであって、オーディオ処理変更は、オーディオ環境内の１つまたは複数のラウドスピーカのラウドスピーカ再生レベルの低減を含む、ステップと、
制御システムによって、１つまたは複数のタイプのオーディオ処理変更を適用させるステップと
を含む方法。

【0279】

＜ＥＥＥ２＞１つまたは複数のタイプのオーディオ処理変更のうちの少なくとも１つは、信号対エコー比の増加に対応する、ＥＥＥ１に記載の方法。

【0280】

＜ＥＥＥ３＞エコー管理システム情報は、エコー管理システム性能のモデルを含む、ＥＥＥ１またはＥＥＥ２に記載の方法。

【0281】

＜ＥＥＥ４＞エコー管理システム性能のモデルは、音響エコーキャンセラ（ＡＥＣ）性能行列を含む、ＥＥＥ３に記載の方法。

【0282】

＜ＥＥＥ５＞エコー管理システム性能のモデルは、エコー管理システムによって提供される予想エコーリターンロスエンハンスメントの尺度を含む、ＥＥＥ３またはＥＥＥ４に記載の方法。

【0283】

＜ＥＥＥ６＞１つまたは複数のタイプのオーディオ処理変更は、デバイス間エコーおよびデバイス内エコーの音響モデルに少なくとも部分的に基づく、ＥＥＥ１から５のいずれか１つに記載の方法。

【0284】

＜ＥＥＥ７＞１つまたは複数のタイプのオーディオ処理変更は、相互可聴性行列に少なくとも部分的に基づく、ＥＥＥ１から６のいずれか１つに記載の方法。