特表2024-501427 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特表2024-501427パーベイシブリスニング向けに編成されたギャップ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2A
2B
2C
2D
3A
3B
3C
3D
3E
3F
3G
3H
3I
3J
4
5A
5B
6
7
8A
8B
8C
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-12

(54)【発明の名称】パーベイシブリスニング向けに編成されたギャップ

(51)【国際特許分類】

G10K 15/00 20060101AFI20240104BHJP

H04R 3/00 20060101ALI20240104BHJP

【ＦＩ】

G10K15/00 L

H04R3/00 310

H04R3/00 320

【審査請求】未請求

【予備審査請求】有

(21)【出願番号】P 2023533817

(86)(22)【出願日】2021-12-02

(85)【翻訳文提出日】2023-07-31

(86)【国際出願番号】 US2021061658

(87)【国際公開番号】W WO2022120082

(87)【国際公開日】2022-06-09

(31)【優先権主張番号】63/120,887

(32)【優先日】2020-12-03

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/201,561

(32)【優先日】2021-05-04

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ハインズ，クリストファーグレアム

(72)【発明者】

【氏名】サウスウェル，ベンジャミンジョン

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220AA50

5D220BA30

(57)【要約】

少なくとも第１の時間間隔中のコンテンツストリームの少なくとも第１及び第２オーディオ再生信号の少なくとも第１周波数レンジ内に減衰又は“ギャップ”が挿入されて、少なくとも第１及び第２改変オーディオ再生信号を生成し得る。対応するオーディオ機器再生音が、少なくとも第１及び第２オーディオ機器によって提供され得る。少なくとも１つのマイクロフォンが、少なくとも第１オーディオ機器再生音及び第２オーディオ機器再生音を検出し、対応するマイクロフォン信号を生成し得る。少なくとも第１周波数レンジ内のマイクロフォン信号からオーディオデータが抽出されて、抽出オーディオデータを生成し得る。該抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答及び／又はオーディオ環境雑音が推定され得る。

【特許請求の範囲】

【請求項1】

制御システムにより、コンテンツストリームの第１時間間隔中の前記コンテンツストリームの第１オーディオ再生信号の第１周波数レンジ内に第１ギャップを挿入させて、オーディオ環境の第１オーディオ機器向けの第１改変オーディオ再生信号を生成するステップであり、前記第１ギャップは、前記第１周波数レンジ内の前記第１オーディオ再生信号の減衰を有する、ステップと、
前記制御システムにより、前記第１オーディオ機器に前記第１改変オーディオ再生信号を再生させて、第１オーディオ機器再生音を生成するステップと、
前記制御システムにより、前記コンテンツストリームの前記第１時間間隔中の前記コンテンツストリームの第２オーディオ再生信号の前記第１周波数レンジ内に前記第１ギャップを挿入させて、前記オーディオ環境の第２オーディオ機器向けの第２改変オーディオ再生信号を生成するステップと、
前記制御システムにより、前記第２オーディオ機器に前記第２改変オーディオ再生信号を再生させて、第２オーディオ機器再生音を生成するステップと、
前記制御システムにより、前記オーディオ環境の少なくとも１つのマイクロフォンに、少なくとも前記第１オーディオ機器再生音及び前記第２オーディオ機器再生音を検出させ、少なくとも前記第１オーディオ機器再生音及び前記第２オーディオ機器再生音に対応するマイクロフォン信号を生成させるステップと、
前記制御システムにより、少なくとも前記第１周波数レンジ内の前記マイクロフォン信号からオーディオデータを抽出して、抽出オーディオデータを生成するステップと、
前記制御システムにより、前記抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答又はオーディオ環境雑音のうちの少なくとも一方を推定するステップと、
を有するオーディオ処理方法。

【請求項2】

ターゲットオーディオ機器に、前記コンテンツストリームの未改変オーディオ再生信号を再生させて、ターゲットオーディオ機器再生音を生成するステップと、
前記制御システムにより、前記抽出オーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器可聴性又はターゲットオーディオ機器位置のうちの少なくとも一方を推定するステップであり、
前記未改変オーディオ再生信号は、前記第１ギャップを含まず、
前記マイクロフォン信号はまた、前記ターゲットオーディオ機器再生音にも対応する、ステップと、
を更に有する請求項１に記載のオーディオ処理方法。

【請求項3】

前記未改変オーディオ再生信号は、いずれの周波数レンジにも挿入されたギャップを含まない、請求項２に記載のオーディオ処理方法。

【請求項4】

前記第１改変オーディオ再生信号を生成することは、前記制御システムにより、前記コンテンツストリームの第２乃至第Ｎ時間間隔中の前記第１オーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含み、
前記第２改変オーディオ再生信号を生成することは、前記制御システムにより、前記コンテンツストリームの第２乃至第Ｎ時間間隔中の前記第２オーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含む、
請求項１乃至３のいずれか一項に記載のオーディオ処理方法。

【請求項5】

前記制御システムにより、前記コンテンツストリームの前記第１時間間隔中の前記コンテンツストリームの第３乃至第Ｍオーディオ再生信号の前記第１周波数レンジ内に前記第１ギャップを挿入させて、前記オーディオ環境の第３乃至第Ｍオーディオ機器向けの第３乃至第Ｍ改変オーディオ再生信号を生成するステップと、
前記制御システムにより、前記第３乃至第Ｍオーディオ機器に前記第３乃至第Ｍ改変オーディオ再生信号のうち対応するものを再生させて、第３乃至第Ｍオーディオ機器再生音を生成するステップであり、前記マイクロフォン信号を生成することは、前記制御システムにより、前記オーディオ環境の前記少なくとも１つのマイクロフォンに前記第３乃至第Ｍオーディオ機器再生音を検出させることを含む、ステップと、
を更に有する請求項１乃至３のいずれか一項に記載のオーディオ処理方法。

【請求項6】

前記第１乃至第Ｍ改変オーディオ再生信号を生成することは、前記制御システムにより、前記コンテンツストリームの第２乃至第Ｎ時間間隔中の前記第１乃至第Ｍオーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含む、請求項５に記載のオーディオ処理方法。

【請求項7】

少なくとも前記第１ギャップは知覚的にマスクされる、請求項１乃至６のいずれか一項に記載のオーディオ処理方法。

【請求項8】

少なくとも前記第１周波数レンジは周波数バンドに対応する、請求項１乃至７のいずれか一項に記載のオーディオ処理方法。

【請求項9】

前記周波数バンドは、メル尺度で等間隔にされた複数の周波数バンドのうちの１つである、請求項８に記載のオーディオ処理方法。

【請求項10】

少なくとも前記第１周波数レンジは周波数ビンに対応する、請求項１乃至９のいずれか一項に記載のオーディオ処理方法。

【請求項11】

当該オーディオ処理方法は更に、基準ビンを第１機器から第２機器に送信させることを有し、前記基準ビンは、前記第１周波数レンジにおける前記ターゲット機器の出力に対応する、請求項１乃至１０のいずれか一項に記載のオーディオ処理方法。

【請求項12】

前記第１ギャップを挿入させることは、前記第１ギャップを挿入するための命令を送信すること、又は前記第１ギャップを挿入することを有する、請求項１乃至１１のいずれか一項に記載のオーディオ処理方法。

【請求項13】

前記第１オーディオ機器に前記第１改変オーディオ再生信号を再生させることは、前記第１改変オーディオ再生信号を再生する命令を前記第１オーディオ機器に送信することを有する、請求項１乃至１２のいずれか一項に記載のオーディオ処理方法。

【請求項14】

前記第１改変オーディオ再生信号及び前記第２改変オーディオ再生信号は、少なくとも部分的に相関性がある、請求項１乃至１３のいずれか一項に記載のオーディオ処理方法。

【請求項15】

請求項１乃至１４のいずれか一項に記載のオーディオ処理方法を実行するように構成された装置。

【請求項16】

請求項１乃至１４のいずれか一項に記載のオーディオ処理方法を実行するように構成されたシステム。

【請求項17】

ソフトウェアを格納した１つ以上の非一時的媒体であって、前記ソフトウェアは、請求項１乃至１４のいずれか一項に記載のオーディオ処理方法を実行するように１つ以上の機器を制御するための命令を含む、１つ以上の非一時的媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は、２０２１年５月４日に出願された米国仮出願第６３／２０１，５６１号、及び２０２０年１２月８日に出願された米国仮出願第６３／１２０，８８７号に対する優先権を主張するものであり、それらの全てをそれらの全体にてここに援用する。

【0002】

この開示は、オーディオ処理システム及び方法に関する。

【背景技術】

【0003】

オーディオ機器及びシステムが広く展開されている。オーディオ環境インパルス応答及びオーディオ環境雑音を推定するための既存のシステム及び方法は、一部の状況において満足のいく結果を提供することができるが、改善されたシステム及び方法が望ましい。

【0004】

表記及び用語体系
特許請求の範囲中を含め、この開示全体を通して、用語“スピーカ”、“ラウドスピーカ”、及び“オーディオ再生トランスデューサ”は、単一のスピーカフィードによって駆動される任意の音放出トランスデューサ（又はトランスデューサのセット）を表すように同義的に使用される。典型的なヘッドフォンセットは２つのスピーカを含む。スピーカは、単一の共通スピーカフィード又は複数のスピーカフィードによって駆動され得る複数のトランスデューサ（例えば、ウーファ及びツイータ）を含むように実装されることがある。一部の例において、（１つ以上の）スピーカフィードは、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受け得る。

【0005】

特許請求の範囲中を含め、この開示全体を通して、信号又はデータに“対して”処理を実行するという表現（例えば、信号又はデータをフィルタリングする、スケーリングする、変換する、又はそれに利得を適用する）は、信号又はデータに対して直接的に、あるいは信号又はデータの処理されたバージョンに対して（例えば、処理実行前の予備的なフィルタリング又は前処理を受けた信号のバージョンに対して）、処理を実行することを表すよう、広い意味で使用される。

【0006】

特許請求の範囲中を含め、この開示全体を通して、
特許請求の範囲中を含め、この開示全体を通して、“システム”という表現は、機器、システム、又はサブシステムを表すよう、広い意味で使用される。例えば、デコーダを実装するサブシステムはデコーダシステムと称されることができ、そのようなサブシステムを含むシステム（例えば、サブシステムが入力のうちのＭ個を生成し、他のＸ－Ｍ個の入力が外部ソースから受信されて、複数の入力に応答してＸ個の出力信号を生成するシステム）も、デコーダシステムと称されることができる。

【0007】

特許請求の範囲中を含め、この開示全体を通して、用語“プロセッサ”は、データ（例えば、オーディオ、又はビデオ若しくは他の画像データ）に対して処理を実行するようにプログラム可能な、又はその他の方法で（例えば、ソフトウェア又はファームウェアを用いて）構成可能なシステム又は機器を表すよう、広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ（又は他の構成可能な集積回路若しくはチップセット）、オーディオ若しくは他のサウンドデータに対してパイプライン処理を実行するようにプログラム及び／又はその他の方法で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサ若しくはコンピュータ、及びプログラマブルマイクロプロセッサチップ若しくはチップセットを含む。

【0008】

特許請求の範囲中を含め、この開示全体を通して、用語“結合する”又は“結合される”は、直接的又は間接的のいずれの接続も意味するよう、広い意味で使用される。従って、第１の機器が第２の機器に結合する場合、その接続は、直接的な接続を介してであってもよいし、あるいは、他の機器及び接続を介する間接的な接続を介してであってもよい。

【0009】

ここで使用されるとき、“スマート機器”は、概して、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ、近距離通信、Ｗｉ－Ｆｉ、ライトフィデリティ（Ｌｉ－Ｆｉ）、３Ｇ、４Ｇ、５Ｇなどの様々な無線プロトコルを介して１つ以上の他の機器（又はネットワーク）と通信するように構成され、ある程度インタラクティブに及び／又は自律的に動作することができる電子機器である。幾つかの注目すべきタイプのスマート機器は、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレット及びタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、並びにスマートオーディオ機器である。用語“スマート機器”は、例えば人工知能などのユビキタスコンピューティングの一部の特性を示す機器も指し得る。

【0010】

ここでは、“スマートオーディオ機器”という表現を、単一目的オーディオ機器又は多目的オーディオ機器（例えば、仮想アシスタント機能の少なくとも一部の態様を実装するオーディオ機器）のいずれのスマート機器も表すように使用する。単一目的オーディオ機器は、少なくとも１つのマイクロフォンを含むかそれに結合されるかして（及びオプションで、少なくとも１つのスピーカ及び／又は少なくとも１つのカメラも含むかそれに結合されるかして）、主に又は主として単一の目的を達成するように設計された機器（例えば、テレビジョン（ＴＶ））である。例えば、ＴＶは、典型的に、番組素材からのオーディオを再生することができる（及び再生することが可能であると考えられる）が、ほとんどの場合、現代のＴＶは何らかのオペレーティングシステムを走らせ、その上で、テレビを見るアプリケーションを含むアプリケーションがローカルに走る。この意味で、（１つ以上の）スピーカ及び（１つ以上の）マイクロフォンを有する単一目的オーディオ機器は、しばしば、それら（１つ以上の）スピーカ及び（１つ以上の）マイクロフォンを直接使用するためにローカルアプリケーション及び／又はサービスを走らせるように構成される。ゾーン又はユーザ設定エリアにわたるオーディオの再生を達成するために、幾つかの単一目的オーディオ機器が一緒にグループとなるように構成されることがある。

【0011】

１つの一般的なタイプの多目的オーディオ機器は、以下のようなオーディオ機器であり、すなわち、仮想アシスタント機能の少なくとも一部の態様を実装するが、仮想アシスタント機能の他の態様は、例えば当該多目的オーディオ機器が通信するように構成される１つ以上のサーバなどの、１つ以上の他の機器によって実装され得るオーディオ機器である。このような多目的オーディオ機器をここでは“仮想アシスタント”と称することがある。仮想アシスタントは、少なくとも１つのマイクロフォンを含むかそれに結合されるかする（及びオプションで、少なくとも１つのスピーカ及び／又は少なくとも１つのカメラも含むかそれに結合されるかする）機器（例えば、スマートスピーカ又は音声アシスタント統合機器）である。一部の例において、仮想アシスタントは、ある意味でクラウド対応である又はその他の方法で仮想アシスタント自体内又は上に完全には実装されないアプリケーションのために複数の機器（仮想アシスタントとは異なる）を利用する能力を提供し得る。換言すれば、例えば音声認識機能といった、仮想アシスタント機能の少なくとも一部の態様が、仮想アシスタントが例えばインターネットなどのネットワークを介して通信し得る１つ以上のサーバ又は他の機器によって（少なくとも部分的に）実装され得る。時々、例えば離散的且つ条件付きで定められる手法で、複数の仮想アシスタントが協働し得る。例えば、２つ以上の仮想アシスタントは、それらのうちの１つ、例えばウェイクワードを聞いたことを最も確信している１つがウェイクワードに応答するという意味で協働し得る。接続されたそれら仮想アシスタントは、一部の実装において、仮想アシスタントとし得る（又はそれを実装し得る）１つのメインアプリケーションによって管理され得る一種のコンステレーションを形成し得る。

【0012】

ここでは、“ウェイクワード”は、任意のサウンド（例えば、人間によって発声される単語、又は何らかの他の音）を表すよう、広い意味で使用され、スマートオーディオ機器が、（該スマートオーディオ機器に含まれるかそれに結合されるかした少なくとも１つのマイクロフォン、又は少なくとも１つの他のマイクロフォンを用いた）サウンドの検出（“聴き取り”）に応答してアウェイクするように構成される。この文脈において、“アウェイク”するとは、機器がサウンドコマンドを待っている（換言すれば、サウンドコマンドをリッスンしている）状態に入ることを表す。一部の例において、ここで“ウェイクワード”と称され得るものは、例えば句など、２つ以上の単語を含み得る。

【0013】

ここでは、“ウェイクワード検出器”という表現は、リアルタイムのサウンド（例えば、発話）フィーチャとトレーニングされたモデルとの間のアライメントを継続的に探索するように構成された機器（又は機器を構成するための命令を含むソフトウェア）を表す。典型的に、ウェイクワードイベントは、ウェイクワードが検出された確率が所定の閾値を超えているとウェイクワード検出器によって判定されるたびにトリガされる。例えば、上記閾値は、誤受入れ率と誤拒絶率との間の妥当な妥協を与えるように調整された所定の閾値とし得る。ウェイクワードイベントに続いて、機器は、コマンドをリッスンし、受信したコマンドをより大きくてより計算集約的な認識器に渡す状態（これを“アウェイク”状態又は“注意力”の状態と称し得る）に入り得る。

【0014】

ここで使用されるとき、用語“番組ストリーム”及び“コンテンツストリーム”は、それらのうち少なくとも一部が共に聴かれるように意図された１つ以上のオーディオ信号、一部の例ではビデオ信号、の集まりを指す。例には、音楽のセレクション、映画サウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成音声応答などが含まれる。一部の例において、コンテンツストリームは、例えば２つ以上の言語での同じ会話といった、オーディオ信号の少なくとも一部の複数バージョンを含み得る。そのような例において、同時にはオーディオデータの１つのバージョン又はその一部（例えば、単一言語に対応するバージョン）のみが再生されることが意図される。

【発明の概要】

【0015】

本開示の少なくとも一部の態様は、１つ以上のオーディオ処理方法によって実装され得る。一部の例において、それら（１つ以上の）方法は、少なくとも部分的に、制御システムによって実装されることができ、及び／又は１つ以上の非一時的媒体上に格納された命令（例えば、ソフトウェア）を介して実装されることができる。一部の方法は、制御システムにより、コンテンツストリームの第１時間間隔中のコンテンツストリームの第１オーディオ再生信号の第１周波数レンジ内に第１ギャップを挿入させて、オーディオ環境の第１オーディオ機器向けの第１改変オーディオ再生信号を生成することを含み得る。第１ギャップは、第１周波数レンジ内の第１オーディオ再生信号の減衰であるか、それを生じさせるかし得る。

【0016】

一部のこのような方法は、制御システムにより、第１オーディオ機器に第１改変オーディオ再生信号を再生させて、第１オーディオ機器再生音を生成することを含み得る。一部のこのような方法は、制御システムにより、コンテンツストリームの第１時間間隔中のコンテンツストリームの第２オーディオ再生信号の第１周波数レンジ内に第１ギャップを挿入させて、オーディオ環境の第２オーディオ機器向けの第２改変オーディオ再生信号を生成することを含み得る。一部のこのような方法は、制御システムにより、第２オーディオ機器に第２改変オーディオ再生信号を再生させて、第２オーディオ機器再生音を生成することを含み得る。

【0017】

一部のこのような方法は、制御システムにより、オーディオ環境の少なくとも１つのマイクロフォンに、少なくとも第１オーディオ機器再生音及び第２オーディオ機器再生音を検出させ、少なくとも第１オーディオ機器再生音及び第２オーディオ機器再生音に対応するマイクロフォン信号を生成させることを含み得る。一部のこのような方法は、制御システムにより、少なくとも第１周波数レンジ内のマイクロフォン信号からオーディオデータを抽出して、抽出オーディオデータを生成することを含み得る。一部のこのような方法は、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答又はオーディオ環境雑音のうちの少なくとも一方を推定することを含み得る。

【0018】

一部のこのような方法はまた、ターゲットオーディオ機器に、コンテンツストリームの未改変オーディオ再生信号を再生させて、ターゲットオーディオ機器再生音を生成することを含み得る。一部のこのような方法はまた、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器可聴性又はターゲットオーディオ機器位置のうちの少なくとも一方を推定することを含み得る。一部のこのような例において、未改変オーディオ再生信号は、第１ギャップを含まない。一部のこのような例において、未改変オーディオ再生信号は、いずれの周波数レンジにも挿入されたギャップを含まないとし得る。一部のこのような例によれば、マイクロフォン信号はまた、ターゲットオーディオ機器再生音にも対応し得る。

【0019】

一部の例によれば、第１改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第２乃至第Ｎ時間間隔中の第１オーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含むことができ、ここで、Ｎは、２より大きい整数である。一部のこのような例において、第２改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第２乃至第Ｎ時間間隔中の第２オーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含み得る。

【0020】

一部の方法は、制御システムにより、コンテンツストリームの第１時間間隔中のコンテンツストリームの第３乃至第Ｍオーディオ再生信号の第１周波数レンジ内に第１ギャップを挿入させて、オーディオ環境の第３乃至第Ｍオーディオ機器向けの第３乃至第Ｍ改変オーディオ再生信号を生成することを含ことができ、ここで、Ｍは、３より大きい整数である。一部のこのような方法は、制御システムにより、第３乃至第Ｍオーディオ機器に第３乃至第Ｍ改変オーディオ再生信号のうち対応するものを再生させて、第３乃至第Ｍオーディオ機器再生音を生成することを含み得る。一部のこのような例において、マイクロフォン信号を生成することは、制御システムにより、オーディオ環境の少なくとも１つのマイクロフォンに第３乃至第Ｍオーディオ機器再生音を検出させることを含み得る。一部のこのような例において、第１乃至第Ｍ改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第２乃至第Ｎ時間間隔中の第１乃至第Ｍオーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含み得る。

【0021】

一部の例において、少なくとも第１ギャップは知覚的にマスクされ得る。一部の例によれば、第１ギャップを挿入させることは、第１ギャップを挿入するための命令を送信することを含み得る。他の例において、第１ギャップを挿入させることは、第１ギャップを挿入することを含み得る。

【0022】

一部の例において、少なくとも第１周波数レンジは周波数バンドに対応し得る。一部のこのような例において、周波数バンドは、メル尺度で等間隔にされた複数の周波数バンドのうちの１つとし得る。しかしながら、一部の例において、少なくとも第１の周波数レンジは周波数ビンに対応してもよい。

【0023】

一部の例によれば、第１オーディオ機器に第１改変オーディオ再生信号を再生させることは、第１改変オーディオ再生信号を再生する命令を第１オーディオ機器に送信することを含み得る。一部の例において、第１改変オーディオ再生信号及び第２改変オーディオ再生信号は、少なくとも部分的に相関性があるとし得る。

【0024】

ここで説明される動作、機能、及び／又は方法の一部又は全てが、１つ以上の非一時的媒体に格納された命令（例えば、ソフトウェア）に従って１つ以上の機器によって実行され得る。そのような非一時的媒体は、以下に限られないが、ランダムアクセスメモリ（ＲＡＭ）デバイス、読み出し専用メモリ（ＲＯＭ）デバイスなどを含め、ここで説明されるものなどのメモリデバイスを含み得る。従って、この開示で説明される主題の一部発明的態様は、ソフトウェアを格納した１つ以上の非一時的媒体を介して実装されることができる。

【0025】

本開示の少なくとも一部の態様は、装置によって実装されてもよい。例えば、１つ以上の機器が、ここで開示される方法を少なくとも部分的に実行するように構成され得る。一部の実装形態において、装置は、インタフェースシステム及び制御システムを有するオーディオ処理システムであり、又はそれを含む。制御システムは、１つ以上の汎用シングルチップ又はマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）若しくは他のプログラマブルロジックデバイス、ディスクリートのゲート若しくはトランジスタロジック、ディスクリートのハードウェアコンポーネント、又はこれらの組み合わせを含み得る。

【0026】

この明細書に記載される事項の１つ以上の実装の詳細が、添付の図面及び以下の説明にて記述される。他の特徴、態様、及び利点が、明細書、図面、及び特許請求の範囲から明らかになる。なお、以下の図の相対的な寸法は、縮尺通りに描かれていないことがある。

【図面の簡単な説明】

【0027】

様々な図における似通った参照符号及び名称は同様の要素を指し示す。

【図1A】オーディオ環境内の背景雑音を推定するためのシステムの一例を示している。

【図1B】オーディオ環境の一例を示している。

【図1C】この開示の様々な態様を実装することが可能な装置のコンポーネントの例を示すブロック図である。

【図2A】改変オーディオ再生信号のスペクトログラムの一例である。

【図2B】周波数ドメインにおけるギャップの一例を示すグラフである。

【図2C】時間ドメインにおけるギャップの一例を示すグラフである。

【図2D】オーディオ環境の複数のオーディオ機器向けに編成されたギャップを含む改変オーディオ再生信号の一例を示している。

【図3A】ギャップを作成するのに使用されるフィルタ応答と、測定セッション中に使用されるマイクロフォン信号の周波数領域を測定するのに使用されるフィルタ応答との例を示すグラフである。

【図3B】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3C】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3D】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3E】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3F】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3G】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3H】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3I】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図3J】図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ、及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。

【図4】図４、図５Ａ、及び図５Ｂは、一部の実装に従った、複数のオーディオ機器がどのように協調して測定セッションを行うのかの例を示すフロー図である。

【図5A】図４、図５Ａ、及び図５Ｂは、一部の実装に従った、複数のオーディオ機器が測定セッションをどのようにして連携させるのかの例を示すフロー図である。

【図5B】図４、図５Ａ、及び図５Ｂは、一部の実装に従った、複数のオーディオ機器が測定セッションをどのようにして連携させるのかの例を示すフロー図である。

【図6】測定セッションに参加し、基準データを共有する２つの編成されたオーディオ機器の例を示している。

【図7】オーディオ環境内のオーディオ機器に対応する可聴性グラフの例を示している。

【図8A】オーディオ環境の他の一例を示している。

【図8B】オーディオ環境の他の一例を示している。

【図8C】例えば図１Ｃに示したものなどの装置によって実行され得る方法の一例を概説するフロー図である。

【図9】編成ギャップ挿入のためのシステムの一例のブロック図を提示している。

【図10】開示される方法の他の一例を概説するフロー図である。

【発明を実施するための形態】

【0028】

メディア及び娯楽コンテンツの感動的な空間再生を達成するには、利用可能なスピーカの物理的レイアウト及び相対的能力が評価されて考慮に入れられるべきである。同様に、高品質の音声駆動インタラクション（仮想アシスタント及び遠隔の話者の両方との）を提供するために、ユーザは、聞かれる必要があるとともに、ラウドスピーカを介して再生される会話を聞く必要もある。より多くの協働機器がオーディオ環境に追加されるにつれて、機器がより一般的に便利な音声範囲内にあることになるので、ユーザに対する組み合わされた有用性が増加することが予想される。より多数のスピーカは、メディアプレゼンテーションの空間性が活用され得るので、より大きな没入感を可能にする。

【0029】

機器間での十分な協調及び協働は、潜在的に、これらの機会及び経験が実現されることを可能にし得る。各オーディオ機器に関する音響情報は、そのような協調及び協働の重要な要素である。そのような音響情報は、オーディオ環境内の様々な位置からの各ラウドスピーカの可聴性、及びオーディオ環境内の雑音の量を含み得る。

【0030】

スマートオーディオ機器のコンステレーションをマッピング及び較正する一部の先行方法は、専用の較正手順を必要とし、それによれば、１つ以上のマイクロフォンが記録する間に、既知の刺激がオーディオ機器から再生される（一度に１つのオーディオ機器が再生することが多い）。このプロセスは、創造的なサウンド設計を通じて、限られた層のユーザにとって魅力的なものになり得るが、機器が追加されたり、除去されたり、さらには単に移動されたりするときにプロセスを繰り返し再実行する必要があることが、広範な採用に対する障壁を生じさせる。このような手順をユーザに課すことは、機器の通常動作を妨げることになるとともに、一部のユーザをいら立たせてしまい得る。これまた普及しているさらに初歩的な手法は、ソフトウェアアプリケーション（“アプリ”）を介した手動ユーザ介入、及び／又はユーザがオーディオ環境内のオーディオ機器の物理的位置を指し示すガイド付きプロセスである。このような手法は、ユーザの採用に対する更なる障壁を生じさせ、専用の較正手順よりも比較的少ない情報のみをシステムに提供し得る。

【0031】

較正及びマッピングアルゴリズムは、一般に、オーディオ環境内の各オーディオ機器について幾らかの基本的な音響情報を必要とする。ある範囲の異なる基本的音響測定及び測定される音響特性を使用する数多くのそのような方法が提案されている。そのようなアルゴリズムでの使用のためにマイクロフォン信号から導出される音響特性の例は、以下を含む：
・機器間の物理的距離の推定値（音響測距）；
・機器間の角度の推定値（到来方向（ＤｏＡ））；
・機器間のインパルス応答（例えば、掃引正弦波刺激又は他の測定信号による）の推定値；及び
・背景雑音の推定値。

【0032】

しかしながら、既存の較正及びマッピングアルゴリズムは一般に、例えば、オーディオ環境内での人々の移動や、オーディオ環境内のオーディオ機器の位置変更など、オーディオ環境の音響シーンの変化に応答するようには実装されていない。

【0033】

再生コンテンツをマイクロフォン出力信号と相関させることを試み、そして、マイクロフォンによってキャプチャされた再生コンテンツ（“エコー”と呼ばれている）の推定値をマイクロフォン出力から減算することによって、マイクロフォン出力信号（背景雑音及び再生コンテンツの両方を示す）から背景雑音を推定することの問題に対処することが提案されている。マイクロフォンが音をキャプチャするときに生成されるマイクロフォン出力信号のコンテンツは、（１つ以上の）スピーカから発せられる再生コンテンツＸ及び背景雑音Ｎを示し、ＷＸ＋Ｎと表されることができ、ここで、Ｗは、再生コンテンツを示す音を発する（１つ以上の）スピーカと、マイクロフォンと、音が（１つ以上の）スピーカからマイクロフォンまで伝播する環境（例えば、部屋）と、によって決定される伝達関数である。例えば、雑音Ｎを推定するための学術的に提案されている方法（図１Ａを参照して説明される）では、線形フィルタＷ’が、マイクロフォン出力信号からの減算のためのエコー（マイクロフォンによってキャプチャされた再生コンテンツ）ＷＸの推定Ｗ’Ｘを容易にするように適応される。システムに非線形性が存在する場合であっても、計算コストのために、フィルタＷ’の非線形実装はめったに実施されない。

【0034】

図１Ａは、オーディオ環境内の背景雑音を推定するためのシステムの一例を示している。この例において、図１Ａは、再生コンテンツを示す音を（１つ以上の）スピーカが発するオーディオ環境内の背景雑音を推定するための上述の従来方法（エコーキャンセレーションと呼ばれることがある）を実装するためのシステムの図である。オーディオ環境Ｅ内のスピーカシステムＳ（例えば、１つのスピーカ）に再生信号Ｘが与えられる。同じオーディオ環境Ｅ内にマイクロフォンＭが位置する。再生信号Ｘに応答して、スピーカシステムＳが音を発し、それが、環境雑音Ｎ及びユーザ発話ＬとともにマイクロフォンＭに到達する。マイクロフォン出力信号は、Ｙ＝ＷＸ＋Ｎ＋Ｌであり、Ｗは、スピーカシステムＳ、再生環境Ｅ、及びマイクロフォンＭの合成応答である伝達関数を表す。

【0035】

図１Ａのシステムによって実施される一般的な方法は、様々な適応フィルタ法のうちのいずれかを使用して、Ｙ及びＸから伝達関数Ｗを適応的に推論するものである。図１Ａに示すように、伝達関数の近似Ｗ’であるように線形フィルタＷ’が適応的に決定される。マイクロフォン信号Ｍによって示される再生信号コンテンツ（“エコー”）はＷ’Ｘとして推定され、Ｗ’ＸがＹから減算されて、雑音Ｎ及びユーザ発話Ｌの推定値Ｙ’＝ＷＸ－Ｗ’Ｘ＋Ｎ＋Ｌを生み出す。雑音補償用途にとって興味深いことに、Ｙ’に比例してＸのレベルを調整することは、正のバイアスが推定に存在する場合にフィードバックループを生じさせる。Ｙ’の増加はＸのレベルを増加させることになり、それがＮ及びＬの推定値（Ｙ’）に上向きバイアスを導入し、それがＸのレベルを増加させることになり、以下同様である。この形式のソリューションは、かなりの量のエコーＷＸをマイクロフォン信号Ｍから除去するためにＹからのＷ’Ｘの減算を生じさせる適応フィルタＷ’の能力に大きく依存する。

【0036】

図１Ａのシステムを安定に保つためには、通常、信号Ｙ’の更なるフィルタリングが必要とされる。当該分野における大抵の雑音補償形態は精彩を欠いた性能を示すので、大抵のソリューションは典型的に、雑音推定を下方にバイアスし、システムを安定に保つために積極的な時間平滑化を導入する可能性が高い。これは、抑制されて非常にゆっくり作用する補償という犠牲を伴う。

【0037】

雑音推定のための上述の学術的方法を実装すると主張しているシステム（図１Ａを参照して説明するタイプの）の従来実装は、通常、実装されるプロセスに付随する問題を無視しており、該問題とは、以下のうちの一部又は全てを含む：
・ソリューションの学術的シミュレーションが４０ｄＢ以上のエコー低減を示すにもかかわらず、実際の実装は概して、非線形性、背景雑音の存在、及びエコー経路Ｗの非定常性に起因して、４０ｄＢを遥かに下回るエコー低減しか達成しない；
・そのようなシステムでは環境雑音及び特定の再生コンテンツが“リーク”を引き起こすときがある（例えば、再生コンテンツが、バズ音（buzz）、ラトル音（rattle）、及び歪みに起因して、再生システムの非線形領域を励起するとき）。これらの例において、マイクロフォン出力信号はかなりの量の残留エコーを含み、それが背景雑音として誤って解釈されることになる。そのような場合、残留誤差信号が大きくなるので、フィルタＷ’の適応も不安定になり得る。また、マイクロフォン信号が高レベルの雑音によって損なわれるとき、フィルタＷ’の適応が不安定になり得る；及び
・広い周波数レンジ（例えば、典型的な音楽の再生をカバーするもの）にわたって動作する雑音補償メディア再生（noise compensated media playback，ＮＣＭＰ）を実行するのに有用な雑音推定値（Ｙ’）を生成するのに必要な計算複雑性が高い。

【0038】

環境雑音条件を補償するための雑音補償（例えば、スピーカ再生コンテンツの自動的なレベリング）は、よく知られており、望まれる機能であるが、以前は最適なやり方で実装されていなかった。マイクロフォンを用いて環境雑音条件を測定すると、スピーカ再生コンテンツも測定し、雑音補償を実施するために必要とされる雑音推定（例えば、オンライン雑音推定）についての大きな難題を提示する。

【0039】

オーディオ環境内の人は一般に、任意の所与の部屋の臨界音響距離の外側にいるとし得るので、同様の距離だけ離れた他の機器から導入されるエコーが依然として著しいエコー影響を表し得る。洗練されたマルチチャネルエコーキャンセレーションが利用可能であり、且つ要求性能を何らかの形で達成する場合であっても、キャンセラにリモートエコー基準を提供する器材は、許容できない帯域幅及び複雑さのコストを有し得る。

【0040】

一部の開示される実装は、人、機器、及びオーディオ条件（例えば雑音及び／又はエコーなど）を含む音響空間の絶え間ない（例えば、連続した、又は少なくとも進行中の）特徴付けを介して、オーディオ環境内のオーディオ機器のコンステレーションを継続的に較正する方法を提供する。一部の開示される例において、そのようなプロセスは、オーディオ環境のオーディオ機器をよってメディアが再生されている間であっても継続する。

【0041】

ここで使用されるとき、再生信号内の“ギャップ”は、そこで（又はその中で）再生コンテンツが欠落している（又は所定の閾値未満のレベルを持つ）再生信号の時間（又は時間間隔）を表す。例えば、“ギャップ”は、ある時間間隔中の、ある周波数レンジ内の、再生コンテンツの減衰とし得る。一部の開示される実装において、コンテンツストリームのオーディオ再生信号の１つ以上の周波数レンジ内にギャップを挿入して、改変オーディオ再生信号を生成することができ、改変オーディオ再生信号がオーディオ環境内で再生又は“プレイバック”され得る。一部のそのような実装において、Ｎ個の時間間隔中のオーディオ再生信号のＮ個の周波数レンジにＮ個のギャップが挿入され得る。

【0042】

一部のそのような実装形態によれば、Ｍ個のオーディオ機器がそれらのギャップを時間及び周波数において編成し、それによって、ギャップ周波数及び時間間隔における（各機器それぞれに対する）遠距離場の正確な検出を可能にし得る。これらの“編成（orchestrated）ギャップ”は本開示の重要な態様である。一部の例において、Ｍは、オーディオ環境の全てのオーディオ機器に対応する数とし得る。一部の例において、Ｍは、ターゲットオーディオ機器を除いたオーディオ環境の全てのオーディオ機器に対応する数であってもよく、ターゲットオーディオ機器とは、例えば、当該ターゲットオーディオ機器の相対的な可聴性、位置、非線形性、及び／又は他の特性を評価するために、それが再生したオーディオがオーディオ環境のＭ個の編成された機器の１つ以上のマイクロフォン（例えば、オーディオ環境のＭ個の編成されたオーディオ機器の１つ以上のマイクロフォン）によってサンプリングされるオーディオ機器である。一部の例において、ターゲットオーディオ機器は、いずれの周波数レンジにも挿入されたギャップを含まない未改変オーディオ再生信号を再生し得る。他の例において、Ｍは、オーディオ環境のオーディオ機器のうちのサブセット、例えば、複数の参加している非ターゲットオーディオ機器、に対応する数であってもよい。

【0043】

編成ギャップは、オーディオ環境内のリスナーに対して低い知覚的影響（例えば、無視できる知覚的影響）しか持たないことが望ましい。従って、一部の例において、ギャップパラメータは、知覚的影響を最小限に抑えるように選択され得る。

【0044】

一部の例において、改変オーディオ再生信号がオーディオ環境内で再生されている間に、ターゲット機器は、いずれの周波数レンジにも挿入されたギャップを含まない未改変オーディオ再生信号を再生し得る。そのような例において、ターゲット機器の相対的な可聴性及び／又は位置は、改変オーディオ再生信号を再生しているＭ個のオーディオ機器の視点から推定され得る。

【0045】

図１Ｂは、オーディオ環境の一例を示している。ここで提供される他の図と同様に、図１Ｂに示す要素のタイプ及び数は単に例として与えられるに過ぎない。他の実装は、より多くの、より少ない、及び／又は異なるタイプ及び数の要素を含み得る。

【0046】

この例によれば、オーディオ環境１００は、主居住空間１０１ａと、主居住空間１０１ａに隣接する部屋１０１ｂとを含んでいる。ここでは、壁１０２とドア１１１が、主居住空間１０１ａを部屋１０１ｂから仕切っている。この例において、主居住空間１０１ａと部屋１０１ｂとの間の音響分離の量は、ドア１１１が開いているのか閉じているのかに依存し、開いている場合、ドア１１１が開いている程度に依存する。

【0047】

図１Ｂに対応する時点において、スマートテレビ（ＴＶ）１０３ａがオーディオ環境１００内に位置する。この例によれば、スマートＴＶ１０３ａは、左ラウドスピーカ１０３ｂ及び右ラウドスピーカ１０３ｃを含む。

【0048】

この例において、図１Ｂに対応する時点で、スマートオーディオ機器１０４、１０５、１０６、１０７、１０８、及び１０９もオーディオ環境１００内に位置する。この例によれば、スマートオーディオ機器１０４－１０９の各々が、少なくとも１つのマイクロフォン及び少なくとも１つのラウドスピーカを含む。しかしながら、この例において、スマートオーディオ機器１０４－１０９は、様々な能力を持った様々なサイズのラウドスピーカを含む。

【0049】

この例によれば、少なくとも１つの音響イベントがオーディオ環境１００内で発生している。この例では、音声コマンド１１２を発している話者１１０によって１つの音響イベントが発生される。

【0050】

この例において、別の音響イベントが、少なくとも部分的に可変要素１０３によって発生される。ここでは、可変要素１０３はオーディオ環境１００のドアである。この例によれば、ドア１０３が開くと、環境の外側からの音１０５が、オーディオ環境１００の内側でいっそう明瞭に知覚され得る。さらに、ドア１０３の角度が変わることが、オーディオ環境１００内のエコー経路の一部を変化させる。この例によれば、要素１０４は、ドア１０３の位置を変えることによって生じるオーディオ環境１００のインパルス応答の可変要素を表す。

【0051】

図１Ｃは、この開示の様々な態様を実装することが可能な装置のコンポーネントの例を示すブロック図である。ここで提供される他の図と同様に、図１Ｃに示す要素のタイプ及び数は単に例として与えられるに過ぎない。他の実装は、より多くの、より少ない、及び／又は異なるタイプ及び数の要素を含み得る。一部の例によれば、装置１５０は、ここに開示される方法の少なくとも一部を実行するように構成され得る。一部の実装において、装置１５０は、オーディオシステムの１つ以上のコンポーネントであってもよいし、それを含んでいてもよい。例えば、装置１５０は、一部の実装形態において、例えばスマートオーディオ機器などのオーディオ機器とし得る。図１Ｂに示す例において、スマートＴＶ１０３ａ及びスマートオーディオ機器１０４－１０９は装置１５０の例である。一部の例によれば、図１Ｂのオーディオ環境１００は、ここでスマートホームハブと称することがあるものなどの編成側機器を含み得る。スマートホームハブ（又は他の編成側機器）は、装置１５０の例とし得る。他の例において、装置１５０は、モバイル機器（例えばセルラー電話など）、ラップトップコンピュータ、タブレット機器、テレビ、又は他のタイプの機器であってもよい。

【0052】

一部の代わりの実装によれば、装置１５０はサーバであるかそれを含むかであってもよい。一部のそのような例において、装置１５０はエンコーダであるかそれを含むかであってもよい。従って、一部の例において、装置１５０は、例えばホームオーディオ環境などのオーディオ環境内での使用向けに構成された機器であることができ、他の例において、装置１５０は、例えばサーバといった、“クラウド”内での使用向けに構成された機器であることができる。

【0053】

この例において、装置１５０は、インタフェースシステム１５５及び制御システム１６０を含む。インタフェースシステム１５５は、一部の実装において、オーディオ環境の１つ以上の他の機器と通信するように構成され得る。オーディオ環境は、一部の例において、ホームオーディオ環境とし得る。他の例において、オーディオ環境は、例えばオフィス環境、自動車環境、列車環境、街路若しくは歩道環境、公園環境などの、他のタイプの環境であってもよい。インタフェースシステム１５５は、一部の実装において、オーディオ環境のオーディオ機器と制御情報及び関連データを交換するように構成され得る。制御情報及び関連データは、一部の例において、装置１５０が実行している１つ以上のソフトウェアアプリケーションに関係し得る。

【0054】

インタフェースシステム１５５は、一部の実装において、コンテンツストリームを受信又は提供するように構成され得る。コンテンツストリームはオーディオデータを含み得る。オーディオデータはオーディオ信号を含み得るが、それに限られない。一部の例において、オーディオデータは、例えばチャネルデータ及び／又は空間メタデータなどの空間データを含み得る。メタデータは、例えば、ここで“エンコーダ”として参照されることがあるものによって提供されているとし得る。一部の例において、コンテンツストリームは、ビデオデータと、該ビデオデータに対応するオーディオデータとを含み得る。

【0055】

インタフェースシステム１５５は、１つ以上のネットワークインタフェース及び／又は１つ以上の外部機器インタフェース（例えば１つ以上のユニバーサルシリアルバス（ＵＳＢ）インタフェースなど）を含み得る。一部の実装によれば、インタフェースシステム１５５は、１つ以上の無線インタフェースを含み得る。インタフェースシステム１５５は、例えば１つ以上のマイクロフォン、１つ以上のスピーカ、ディスプレイシステム、タッチセンサシステム、及び／又はジェスチャセンサシステムなどの、ユーザインタフェースを実装するための１つ以上の機器を含み得る。一部の例において、インタフェースシステム１５５は、制御システム１６０と、例えば図１Ｃに示すオプションのメモリシステム１６５などのメモリシステムとの間の１つ以上のインタフェースを含み得る。しかしながら、一部の例において、制御システム１６０がメモリシステムを含んでいてもよい。インタフェースシステム１５５は、一部の実装において、環境内の１つ以上のマイクロフォンから入力を受信するように構成され得る。

【0056】

一部の実装において、制御システム１６０は、ここに開示される方法を少なくとも部分的に実行するように構成され得る。制御システム１６０は、例えば、汎用のシングルチップ又はマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は他のプログラマブルロジックデバイス、ディスクリートのゲート若しくはトランジスタロジック、及び／又はディスクリートのハードウェアコンポーネントを含み得る。

【0057】

一部の実装において、制御システム１６０は、２つ以上の機器内に存在してもよい。例えば、一部の実装では、制御システム１６０の一部が、ここに描かれる環境のうちの１つ内の機器内に存在し、制御システム１６０の他の一部が、例えばサーバ、モバイル機器（例えば、スマートフォン若しくはタブレットコンピュータ）などの、環境の外部にある機器内に存在し得る。他の例において、制御システム１６０の一部が、ここに描かれる環境のうちの１つ内の機器内に存在し、制御システム１６０の他の一部が、環境の１つ以上の他の機器内に存在してもよい。例えば、制御システム機能は、環境の複数のスマートオーディオ機器にわたって分散されてもよく、あるいは、編成側機器（例えば、ここでスマートホームハブと称され得るものなど）及び環境の１つ以上の他の機器によって共有されてもよい。他の例において、制御システム１６０の一部が、例えばサーバなどの、クラウドベースのサービスを実装している機器内に存在し、制御システム１６０の他の一部が、例えば他のサーバ、メモリ機器などの、クラウドベースのサービスを実装している他の機器内に存在してもよい。インタフェースシステム１５５も、一部の例において、２つ以上の機器内に存在してもよい。

【0058】

ここで説明される方法の一部又は全てが、１つ以上の非一時的媒体に格納された命令（例えば、ソフトウェア）に従って１つ以上の機器によって実行され得る。そのような非一時的媒体は、以下に限られないが、ランダムアクセスメモリ（ＲＡＭ）デバイス、読み出し専用メモリ（ＲＯＭ）デバイスなどを含め、ここで説明されるものなどのメモリデバイスを含み得る。１つ以上の非一時的媒体は、例えば、図１Ｃに示すオプションのメモリシステム１６５内及び／又は制御システム１６０内に存在し得る。従って、この開示で説明される主題の様々な発明的態様は、ソフトウェアを格納した１つ以上の非一時的媒体にて実装されることができる。ソフトウェアは、例えば、ここに開示される方法の一部又は全てを実行するように少なくとも１つの機器を制御するための命令を含み得る。ソフトウェアは、例えば、図１Ｃの制御システム１６０などの制御システムの１つ以上のコンポーネントによって実行可能であるとし得る。

【0059】

一部の例において、装置１５０は、図１Ｃに示すオプションのマイクロフォンシステム１７０を含み得る。オプションのマイクロフォンシステム１７０は、１つ以上のマイクロフォンを含み得る。一部の例によれば、オプションのマイクロフォンシステム１７０は、マイクロフォンのアレイを含み得る。マイクロフォンのアレイは、一部の例において、例えば制御システム１６０からの命令に従って、受信側ビームフォーミング向けに構成され得る。一部の例において、マイクロフォンのアレイは、例えば制御システム１６０からの命令に従って、到来方向（ＤｏＡ）及び／又は到来時間（ＴｏＡ）情報を決定するように構成され得る。代わりに、あるいは加えて、制御システム１６０は、例えばマイクロフォンシステム１７０から受信したマイクロフォン信号に従って、到来方向（ＤｏＡ）及び／又は到来時間（ＴｏＡ）情報を決定するように構成されてもよい。

【0060】

一部の実装において、マイクロフォンのうち１つ以上は、例えばスピーカシステムのスピーカ、スマートオーディオ機器など他の機器の一部であるか、それに付随するかであってもよい。一部の例において、装置１５０はマイクロフォンシステム１７０を含んでいなくてもよい。しかしながら、一部のそのような実装において、装置１５０は、とはいえ、インタフェースシステム１６０を介してオーディオ環境内の１つ以上のマイクロフォンについてのマイクロフォンデータを受信するように構成され得る。一部のそのような実装において、装置１５０のクラウドベース実装が、インタフェースシステム１６０を介してオーディオ環境内の１つ以上のマイクロフォンからマイクロフォンデータ又は該マイクロフォンデータに対応するデータを受信するように構成され得る。

【0061】

一部の実装によれば、装置１５０は、図１Ｃに示すオプションのラウドスピーカシステム１７５を含み得る。オプションのラウドスピーカシステム１７５は、ここでは“スピーカ”又はより一般的に“オーディオ再生トランスデューサ”と称することもあるものである１つ以上のラウドスピーカを含み得る。一部の例（例えば、クラウドベース実装）において、装置１５０はラウドスピーカシステム１７５を含んでいなくてもよい。

【0062】

一部の実装において、装置１５０は、図１Ｃに示すオプションのセンサシステム１８０を含み得る。オプションのセンサシステム１８０は、１つ以上のタッチセンサ、ジェスチャセンサ、動き検出器などを含み得る。一部の実装によれば、オプションのセンサシステム１８０は、１つ以上のカメラを含み得る。一部の実装において、カメラは独立したカメラとし得る。一部の例において、オプションのセンサシステム１８０の１つ以上のカメラは、単一目的のオーディオ機器又は仮想アシスタントとし得るものであるスマートオーディオ機器内に存在してもよい。一部のそのような例において、オプションのセンサシステム１８０の１つ以上のカメラは、テレビ、携帯電話、又はスマートスピーカ内に存在してもよい。一部の例において、装置１５０はセンサシステム１８０を含んでいなくてもよい。しかしながら、一部のそのような実装において、装置１５０は、とはいえ、インタフェースシステム１６０を介してオーディオ環境内の１つ以上のセンサについてのセンサデータを受信するように構成され得る。

【0063】

一部の実装において、装置１５０は、図１Ｃに示すオプションのディスプレイシステム１８５を含み得る。オプションのディスプレイシステム１８５は、例えば１つ以上の発光ダイオード（ＬＥＤ）ディスプレイなどの１つ以上のディスプレイを含み得る。一部の例において、オプションのディスプレイシステム１８５は、１つ以上の有機発光ダイオード（ＯＬＥＤ）ディスプレイを含み得る。一部の例において、オプションのディスプレイシステム１８５は、スマートオーディオ機器の１つ以上のディスプレイを含み得る。他の例において、オプションのディスプレイシステム１８５は、テレビジョンディスプレイ、ラップトップディスプレイ、モバイル機器ディスプレイ、又は他のタイプのディスプレイを含んでいてもよい。装置１５０がディスプレイシステム１８５を含む一部の例において、センサシステム１８０は、ディスプレイシステム１８５の１つ以上のディスプレイに近接したタッチセンサシステム及び／又はジェスチャセンサシステムを含み得る。一部のそのような実装によれば、制御システム１６０は、１つ以上のグラフィカルユーザインタフェース（ＧＵＩ）を提示するようにディスプレイシステム１８５を制御するように構成され得る。

【0064】

一部のそのような例によれば、装置１５０はスマートオーディオ機器であるか、それを含むかであってもよい。一部のそのような実装において、装置１５０はウェイクワード検出器であるか、それを含むかであってもよい。例えば、装置１５０は仮想アシスタントであるか、それを含むかであってもよい。

【0065】

上述のように、一部の実装において、コンテンツストリームのオーディオ再生信号の１つ以上の周波数レンジに１つ以上の“ギャップ”（ここでは“強制ギャップ”又は“パラメータ化強制ギャップ”とも称する）が挿入されて、改変オーディオ再生信号を生成し得る。改変オーディオ再生信号がオーディオ環境内で再生又は“プレイバック”され得る。一部のそのような実装において、Ｎ個の時間間隔中のオーディオ再生信号のＮ個の周波数レンジにＮ個のギャップが挿入され得る。一部のそのような実装形態によれば、Ｍ個のオーディオ機器がそれらのギャップを時間及び周波数において編成し、それによって、ギャップ周波数及び時間間隔における（各機器それぞれに対する）遠距離場の正確な検出を可能にし得る。

【0066】

一部の例において、各強制ギャップを再生信号の異なる周波数バンド（又はバンドセット）にして一連の強制ギャップが再生信号に挿入され、ギャップが発生する時間間隔中に且つギャップが挿入される（１つ以上の）周波数バンド内で発生するという意味で各強制ギャップ“内”に発生する非再生音をパーベイシブ（pervasive）リスナーがモニタすることを可能にする。図２Ａは、改変オーディオ再生信号のスペクトログラムの一例である。この例において、改変オーディオ再生信号は、一例に従ってオーディオ再生信号にギャップを挿入することによって作り出されたものである。より具体的には、図２Ａのスペクトログラムを生成するために、開示される方法をオーディオ再生信号に対して実行して、その周波数バンド内に強制ギャップ（例えば、図２Ａに示されるギャップＧ１、Ｇ２、及びＧ３）を導入し、それによって改変オーディオ再生信号を生成した。図２Ａに示すスペクトログラムにおいて、横軸に沿った位置は時間を示し、縦軸に沿った位置は、時点における改変オーディオ再生信号のコンテンツの周波数を示す。小さい領域各々（この例では、各サブ領域が、縦及び横の座標を持つ点を中心とする）におけるドットの密度は、対応する周波数及び時点における改変オーディオ再生信号のコンテンツのエネルギーを示しており、密度の高い領域は、コンテンツが大きいエネルギーを持つことを示し、密度の低い領域は、コンテンツが低いエネルギーを持つことを示す。故に、ギャップＧ１は、ギャップＧ２又はＧ３が発生する時間（換言すれば、その間にギャップＧ２又はＧ３が発生する時間間隔）よりも早い時間に（換言すれば、時間間隔中に）に発生し、ギャップＧ１は、ギャップＧ２又はＧ３が挿入された周波数バンドよりも高い周波数バンドに挿入されている。

【0067】

一部の開示される方法に従った再生信号への強制ギャップの導入は、（例えば、ユーザ及びユーザの環境をより良く聞くために）機器がコンテンツの再生ストリームを一時停止するという単純な機器動作とは異なる。一部の開示される方法に従った再生信号への強制ギャップの導入が、再生中に導入ギャップから生じるアーチファクトの知覚可能性を大幅に低減（又は除去）するように最適化されることで、好ましくは、強制ギャップがユーザに知覚可能な影響を持たない又は最小限にしか持たないようにされるが、再生環境内のマイクロフォンの出力信号が強制ギャップを示すように（例えば、ギャップを利用してパーベイシブリスニング法を実現することができるように）される。一部の開示される方法に従って導入された強制ギャップを用いることにより、音響エコーキャンセラを使用しなくても、パーベイシブリスニングシステムが非再生音（例えば、再生環境における背景アクティビティ及び／又は雑音を示す音）をモニタすることができる。

【0068】

図２Ｂ及び図２Ｃを参照して、次に、オーディオ再生信号の周波数バンドに挿入され得るパラメータ化強制ギャップの例と、そのような強制ギャップのパラメータの選択に関する基準とを説明する。図２Ｂは、周波数ドメインにおけるギャップの一例を示すグラフである。図２Ｃは、時間ドメインにおけるギャップの一例を示すグラフである。これらの例において、パラメータ化強制ギャップは、バンド減衰Ｇを用いた再生コンテンツの減衰であり、時間及び周波数の両方でのそのプロファイルは、図２Ｂ及び図２Ｃに示すプロファイルに似たものである。ここでは、ギャップは、中心周波数ｆ_０及びバンド幅Ｂ（図２Ｂにも示す）よって定められるレンジ（“バンド”）の周波数にわたって再生信号に減衰Ｇを適用することによって強制され、減衰は、周波数バンド内の各周波数（例えば、周波数バンド内の各周波数ビン内）において、図２Ｃに示すものに似たプロファイルで時間の関数として変化する。（バンドにわたる周波数の関数としての）減衰Ｇの最大値は、（バンドの最低周波数における）０ｄＢから中心周波数ｆ_０（図２Ｂに示す）における最大減衰（抑制深さ）Ｚまで増加するように、そして、（中心周波数より上で周波数の上昇とともに）（バンドの最高周波数における）０ｄＢまで減少する。

【0069】

この例において、図２Ｂのグラフは、バンド内の信号のオーディオコンテンツにギャップを強制するためにオーディオ信号の周波数成分に適用される周波数（すなわち、周波数ビン）の関数としてのバンド減衰Ｇのプロファイルを示している。オーディオ信号は再生信号（例えば、マルチチャネル再生信号のチャネル）とすることができ、オーディオコンテンツは再生コンテンツとすることができる。

【0070】

この例によれば、図２Ｃのグラフは、図２Ｂに示したギャップをバンド内の信号のオーディオコンテンツに強制するために、中心周波数をｆ_０とする周波数成分に適用される、時間の関数としてのバンド減衰Ｇのプロファイルを示している。バンド内の他の周波数成分の各々について、時間の関数としてのバンド利得は、図２Ｃに示すものと同様のプロファイルを持ち得るが、図２Ｃの抑制深さＺは、補間された抑制深さｋＺによって置き換えられ得る。ここで、ｋは、ｋＺが図２Ｂに示すプロファイルを持つような、（周波数の関数として）この例では０から１までの範囲の係数である。一部の例において、各周波数成分について、減衰Ｇはまた、例えば、ギャップの導入から生じる音楽的アーチファクトを低減させるために、０ｄＢから抑制深さｋＺ（例えば、中心周波数において、図２Ｃに示すようにｋ＝１）まで（例えば、時間の関数として）補間され得る。この後者の補間の３つの領域（時間間隔）ｔ１、ｔ２、及びｔ３が図２Ｃに示されている。

【0071】

従って、ギャップ強制処理が特定の周波数バンド（例えば、図２Ｂに示すように、中心周波数ｆ_０を中心とするバンド）に対して行われるとき、この例では、バンド内の各周波数成分（例えば、バンド内の各ビン）に適用される減衰Ｇは、図２Ｃに示す軌跡に従う。０ｄＢから開始して、ｔ１秒で深さ－ｋＺｄＢまで低下し、ｔ２秒間そこに留まり、そして最後にｔ３秒で上昇して０ｄＢに戻る。一部の実装において、トータル時間ｔ１＋ｔ２＋ｔ３は、マイクロフォンフィードを分析するために使用されている周波数変換の時間分解能と、ユーザにとってあまり邪魔にならない妥当な持続時間とを考慮して選択され得る。単一機器実装のためのｔ１、ｔ２、及びｔ３の幾つかの例を、下の表１に示す。

【0072】

一部の開示される方法は、オーディオ再生信号の全周波数スペクトルをカバーし、Ｂ_{ｃｏｕｎｔ}個のバンド（Ｂ_{ｃｏｕｎｔ}は数であり、例えば、Ｂ_{ｃｏｕｎｔ}＝４９である）を含む所定の固定されたバンディング構造に従って強制ギャップを挿入することを含む。それらのバンドのいずれかにもギャップを強制するために、そのような例におけるバンドにバンド減衰が適用される。具体的には、第ｊバンドに対し、該バンドによって定義される周波数領域にわたって減衰Ｇ_ｊが適用され得る。

【0073】

以下の表１は、単一機器実装向けの、パラメータｔ１、ｔ２、ｔ３の値の例、各バンドについての深さＺ、及びバンド数Ｂ_{ｃｏｕｎｔ}の例を示している。

【表1】

【0074】

バンドの数及び各バンドの幅を決定する際に、ギャップの知覚的影響と有用性との間にトレードオフが存在し、ギャップを有するより狭いバンドは、それらが典型的により小さい知覚的影響を持つという点でいっそう良好であるのに対して、ギャップを有するより広いバンドは、例えば背景雑音又は再生環境状態の変化に応答して、全周波数スペクトルの全ての周波数バンドにおいて、雑音推定（及び他のパーベイシブリスニング法）を実施するのに、及び新たな雑音推定（又はパーベイシブリスニングによってモニタされる他の値）に収束するのに必要な時間（“収束”時間）を短縮するのに、いっそう良好である。限られた数のギャップのみを一度に強制することができる場合、多数の小さなバンドにおいて順次にギャップを強制する方が、より少数のより大きなバンドにおいて順次にギャップを強制するよりも長い時間がかかることになり、比較的長い収束時間をもたらす。（ギャップを有する）より大きなバンドは、一度に背景雑音（又はパーベイシブリスニングによってモニタされる他の値）についての多くの情報を提供するが、概して、より大きい知覚的影響を持つ。

【0075】

本発明者による初期の研究では、エコー影響が主に（又は完全に）近距離場である単一機器の状況においてギャップを設けていた。近距離場エコーは、スピーカからマイクロフォンまでのオーディオの直接経路によって大きく影響を受ける。この特性は、より大きなエンクロージャ及びかなりの音響デカップリングを有する機器を例外として、殆ど全ての小型の二重オーディオ機器（例えばスマートオーディオ機器など）に当てはまる。例えば表１に示したものなどの、短くて知覚的にマスクされるギャップを再生に導入することにより、オーディオ機器は、オーディオ機器自体のエコーを通して、オーディオ機器が展開される音響空間を垣間見ることができる。

【0076】

しかしながら、同じオーディオ環境内で他のオーディオ機器もコンテンツを再生しているとき、本発明者は、単一のオーディオ機器のギャップが、遠距離場エコー破損に起因してあまり有用でなくなることを発見した。遠距離場エコー破損は頻繁に、局所的なエコーキャンセレーションの性能を低下させ、システム全体の性能を有意に悪化させる。遠距離場エコー破損は、様々な理由で除去するのが困難である。１つの理由は、基準信号を取得することが、追加の遅延推定のために、増加したネットワーク帯域幅及び追加の複雑さを必要とし得ることである。さらに、雑音条件が増加し、応答が長くなる（より残響があり、時間的に広がる）につれて、遠距離場インパルス応答を推定することがいっそう困難になる。加えて、遠距離場エコー破損は、通常、近距離場エコー及び他の遠距離場エコー源と相関があり、遠距離場インパルス応答推定を更に難題にする。

【0077】

本発明者が発見したことには、オーディオ環境内の複数のオーディオ機器がそれらのギャップを時間及び周波数において編成する場合、それら複数のオーディオ機器が改変オーディオ再生信号を再生するときに、（各オーディオ機器に対する）遠距離場のいっそう明瞭な知覚が得られ得る。本発明者がこれまた発見したことには、複数のオーディオ機器が改変オーディオ再生信号を再生するときにターゲットオーディオ機器が未改変オーディオ再生信号を再生する場合、メディアコンテンツが再生されている間であっても、ターゲット機器の相対的な可聴性及び位置を、複数のオーディオ機器の各々の視点から推定することができる。

【0078】

また、おそらく直観に反して、本発明者が発見したことには、単一機器実装のために以前使用されていたガイドラインを破ること（例えば、表１に示すよりも長い期間にわたってギャップを開いたままにすること）が、複数の機器が編成ギャップを介して協働測定を行うのに適した実装につながる。

【0079】

例えば、一部の編成ギャップ実装において、（最大でも何十センチメートルか離れ得るものである単一機器上の固定のマイクロフォン－スピーカ音響経路長とは対照的に）メートルのオーダーであり得るオーディオ環境内の複数の分散された機器間の様々な音響経路長（音響遅延）を受け入れるために、ｔ２が、表１に示したものよりも長くなり得る。一部の例において、編成されるオーディオ機器間に最大８メートルの隔たりを可能にするために、デフォルトｔ２値は、表１に示した８０ミリ秒なる値よりも例えば２５ミリ秒大きくなり得る。一部の編成ギャップ実装において、デフォルトｔ２値は、別の理由のために表１に示した８０ミリ秒なる値よりも長くなることがあり、すなわち、編成ギャップ実装では、編成される全てのオーディオ機器がその間にＺ減衰の値に達するのに十分な量の時間が経過することを確実にするために、編成されるオーディオ機器のタイミングのミスアライメントを受け入れるべく、ｔ２はもっと長いことが好ましい。一部の例において、タイミングのミスアライメントに対処するために、ｔ２のデフォルト値に追加の５ミリ秒が付加され得る。従って、一部の編成ギャップ実装において、ｔ２のデフォルト値は１１０ミリ秒とすることができ、最小値は７０ミリ秒であり、最大値は１５０ミリ秒である。

【0080】

一部の編成ギャップ実装において、ｔ１及び／又はｔ３も、表１に示された値とは異なり得る。一部の例において、ｔ１及び／又はｔ３は、タイミングの問題及び物理的距離の不一致に起因して、機器が自身の減衰期間に出入りする異なる時間をリスナーが知覚することができない結果として調整され得る。少なくとも部分的に、（複数の機器が異なる位置からオーディオを再生することから生じる）空間的なマスキングのために、編成されるオーディオ機器が自身の減衰期間に出入りする複数の時間をリスナーが知覚できることが、単一機器シナリオにおいてよりも少なくなる傾向がある。従って、一部の編成ギャップ実装において、表１に示した単一機器の例と比較して、ｔ１及びｔ３の最小値が減少され得るとともに、ｔ１及びｔ３の最大値が増加され得る。一部のそのような例によれば、ｔ１及びｔ３の最小値は、２、３、又は４ミリ秒に減少され、ｔ１及びｔ３の最大値は、２０、２５、又は３０ミリ秒に増加され得る。

【0081】

編成ギャップを用いた測定の例
図２Ｄは、オーディオ環境の複数のオーディオ機器向けに編成されたギャップを含む改変オーディオ再生信号の一例を示している。この実装においては、オーディオ環境の複数のスマート機器が、互いの相対的可聴性を推定するためにギャップを編成する。この例では、１つのギャップに対応する１つの測定セッションが時間間隔中の行われ、該測定セッションは、図１Ｂの主居住空間１００ａ内の機器のみを含む。この例によれば、先行する可聴性データが、部屋１０１ｂに位置するものであるスマートオーディオ機器１０９が既に、他のオーディオ機器には殆ど聞こえないものとして分類され、別のゾーンに置かれていることを示している。

【0082】

図２Ｄに示す例において、編成ギャップは、バンド減衰Ｇ_ｋを用いた再生コンテンツの減衰であり、ｋは、測定されている周波数バンドの中心周波数を表す。図２Ｄに示される要素は以下の通りである：
グラフ２０３は、図１Ｂのスマートオーディオ機器１０３についてのｄＢ単位でのＧ_ｋのプロットである；
グラフ２０４は、図１Ｂのスマートオーディオ機器１０４についてのｄＢ単位でのＧ_ｋのプロットである；
グラフ２０５は、図１Ｂのスマートオーディオ機器１０５についてのｄＢ単位でのＧ_ｋのプロットである；
グラフ２０６は、図１Ｂのスマートオーディオ機器１０６についてのｄＢ単位でのＧ_ｋのプロットである；
グラフ２０７は、図１Ｂのスマートオーディオ機器１０７についてのｄＢ単位でのＧ_ｋのプロットである；
グラフ２０８は、図１Ｂのスマートオーディオ機器１０８についてのｄＢ単位でのＧ_ｋのプロットである；及び
グラフ２０９は、図１Ｂのスマートオーディオ機器１０９についてのｄＢ単位でのＧ_ｋのプロットである。

【0083】

ここで使用されるとき、用語“セッション”（ここでは“測定セッション”とも称する）は、その間に周波数レンジの測定が実行される期間を指す。測定セッションにおいて、バンド幅が関連付けられた周波数のセットと、参加するオーディオ機器のセットとが指定され得る。

【0084】

１つのオーディオ機器が、オプションで、測定セッションの“ターゲット”オーディオ機器として指名され得る。ターゲットオーディオ機器が測定セッションに含まれる場合、一部の例によれば、ターゲットオーディオ機器は、強制ギャップを無視することを許され、測定セッション中に未改変オーディオ再生信号を再生することになる。一部のそのような例によれば、他の参加オーディオ機器は、測定中の周波数レンジ内のターゲット機器再生音を含め、ターゲット機器再生音を聞くことになる。

【0085】

ここで使用されるとき、用語“可聴性”は、機器が他の機器のスピーカ出力を聞くことができる程度を指す。可聴性の幾つかの例を下で提供する。

【0086】

図２Ｄに示す例によれば、時点ｔ１にて、編成側機器は、ターゲットオーディオ機器であるスマートオーディオ機器１０３との測定セッションを開始し、周波数ｋを含む測定すべき１つ以上のビン中心周波数を選択する。編成側機器は、一部の例において、リーダー（例えば、図４を参照して後述するように決定される）として動作するスマートオーディオ機器とし得る。他の例において、編成側機器は、例えばスマートホームハブなどの他の編成側機器であってもよい。この測定セッションは、時点ｔ１から時点ｔ２まで実行される。他の参加スマートオーディオ機器であるスマートオーディオ機器１０４－１０８は、自身の出力にギャップを適用して改変オーディオ再生信号を再生し、一方、スマートオーディオ機器１０３は未改変オーディオ再生信号を再生する。

【0087】

編成ギャップを含む改変オーディオ再生信号を再生しているオーディオ環境１００のスマートオーディオ機器のうちのサブセット（スマートオーディオ機器１０４－１０８）は、Ｍ個のオーディオ機器ととして参照され得るものの一例である。この例によれば、スマートオーディオ機器１０９も未改変オーディオ再生信号を再生する。従って、スマートオーディオ機器１０９は、Ｍ個のオーディオ機器のうちの１つではない。しかしながら、スマートオーディオ機器１０９は、オーディオ環境の他のスマートオーディオ機器に聞こえないので、スマートオーディオ機器１０９及びターゲットオーディオ機器（この例ではスマートオーディオ機器１０３）がどちらも未改変オーディオ再生信号を再生することにはかかわらず、スマートオーディオ機器１０９は、この例におけるターゲットオーディオ機器ではない。

【0088】

編成ギャップは、測定セッション中にオーディオ環境内のリスナーに対して低い知覚的影響（例えば、無視できる知覚的影響）しか持たないことが望ましい。従って、一部の例において、ギャップパラメータは、知覚的影響を最小限に抑えるように選択され得る。幾つかの例を、図３Ｂ－図３Ｊを参照して以下にて説明する。

【0089】

この時間（時点ｔ１から時点ｔ２までの測定セッション）の間、スマートオーディオ機器１０４－１０８は、この測定セッションの時間－周波数データについて、ターゲットオーディオ機器（スマートオーディオ機器１０３）から基準オーディオビンを受信する。この例において、基準オーディオビンは、スマートオーディオ機器１０３がエコーキャンセレーションのためのローカル基準として使用する再生信号に対応する。スマートオーディオ機器１０３は、可聴性測定とエコーキャンセレーションとの目的で、これらの基準オーディオビンへのアクセスを持つ。

【0090】

この例によれば、時点ｔ２にて第１の測定セッションが終了し、編成側機器が新たな測定セッションを開始し、今度は、周波数ｋを含まない１つ以上のビン中心周波数を選択する。図２Ｄに示す例において、ｔ２からｔ３までの期間の間、周波数ｋについてのギャップは適用されず、故に、グラフは全ての機器に対してユニティ利得を示している。一部のそのような例において、編成側機器は、周波数ｋを含まないビン中心周波数のための一連の測定セッションで複数の周波数レンジの各々に一連のギャップを挿入させ得る。例えば、編成側機器は、スマートオーディオ機器１０３がターゲットオーディオ機器のままである間に、第２乃至第Ｎの後続の測定セッションの目的で、第２乃至第Ｎ時間間隔中のオーディオ再生信号の第２乃至第Ｎ周波数レンジに第２乃至第Ｎギャップを挿入させ得る。

【0091】

一部のそのような例において、編成側機器は、次いで、例えばスマートオーディオ機器１０４といった、別のターゲットオーディオ機器を選択し得る。編成側機器は、スマートオーディオ機器１０３に、編成ギャップを有する改変オーディオ再生信号を再生しているＭ個のスマートオーディオ機器のうちの１つとなるように命令し得る。編成側機器は、新たなターゲットオーディオ機器に、未改変オーディオ再生信号を再生するように命令し得る。一部のそのような例によれば、編成側機器が新たなターゲットオーディオ機器についてＮ個の測定セッションを行わせた後に、編成側機器は別のターゲットオーディオ機器を選択し得る。一部のそのような例において、編成側機器は、オーディオ環境内の参加オーディオ機器の各々について測定セッションが実行されるまで、測定セッションを行わせ続け得る。

【0092】

図２Ｄに示す例において、異なるタイプの測定セッションが時点ｔ３とｔ４との間で行われる。この例によれば、時点ｔ３にて、ユーザ入力（例えば、編成側機器として動作しているスマートオーディオ機器への音声コマンド）に応答して、編成側機器は、オーディオ環境１００のラウドスピーカセットアップを完全に較正するために、新たなセッションを開始する。一般に、ユーザは、例えば時点ｔ３とｔ４との間に行われるような“セットアップ”又は“再較正”測定セッションにおいては、比較的高い知覚的影響を持つ編成ギャップに比較的寛容であり得る。従って、この例において、ｋを含め、周波数の大きな連続セットが測定のために選択される。この例によれば、スマートオーディオ機器１０６が、この測定セッション中の最初のターゲットオーディオ機器として選択される。従って、時点ｔ３からｔ４までの測定セッションの第１フェーズ中に、スマートオーディオ機器のうちスマートオーディオ機器１０６を除く全てがギャップを適用することになる。

【0093】

ギャップ帯域幅
図３Ａは、ギャップを作成するのに使用されるフィルタ応答と、測定セッション中に使用されるマイクロフォン信号の周波数領域を測定するのに使用されるフィルタ応答との例を示すグラフである。この例によれば、図３Ａの要素は以下の通りである：
要素３０１は、出力信号内にギャップを生成するのに使用されるフィルタの振幅応答を表す；
要素３０２は、要素３０１によって生じるギャップに対応する周波数領域を測定するのに使用されるフィルタの振幅応答を表す；
要素３０３及び３０４は、周波数ｆ１及びｆ２にある、３０１の－３ｄＢポイントを表す；
要素３０５及び３０６は、周波数ｆ３及びｆ４にある、３０２の－３ｄＢポイントを表す。

【0094】

ギャップ応答３０１の帯域幅（BW_gap）は、－３ｄＢポイント３０３と３０４との間の差を取ることによって見出され、BW_gap＝ｆ２－ｆ１であり、また、BW_measure（測定応答３０２の帯域幅）＝ｆ４－ｆ３である。

【0095】

一例によれば、測定の品質は次のように表され得る：
quality＝BW_gap／BW_measure＝（ｆ_２－ｆ_１）／（ｆ_４－ｆ_３）

【0096】

測定応答の帯域幅は通常は固定されるので、ギャップフィルタ応答の帯域幅を増加させる（例えば、帯域幅を広げる）ことによって測定の品質を調整することができる。しかしながら、導入されるギャップの帯域幅は、その知覚可能性に比例する。従って、ギャップフィルタ応答の帯域幅は、一般に、測定の品質及びギャップの知覚可能性の両方を考慮して決定されるべきである。品質値の幾つかの例を表２に示す。

【表2】

【0097】

表２は“最小”及び“最大”値を示しているが、これらの値はこの例でのものに過ぎない。他の実装は、１．５よりも低い品質値及び／又は３よりも高い品質値を伴い得る。

【0098】

ギャップ割り当て戦略
ギャップは、以下によって定義され得る：
・中心周波数及び測定帯域幅での周波数スペクトルの基礎分割；
・ “バンディング”と称する構造におけるこれらの最小測定帯域幅の集約；
・時間の継続時間、減衰深さ、及び周波数スペクトルの合意された分割に適合する１つ以上の連続した周波数の包含；
・ギャップの始めと終わりで減衰深さを傾斜させるなどの、他の時間的挙動。

【0099】

一部の実装によれば、ギャップは、適用可能な知覚可能性制約を満たしながら、可能な限り短い時間で可聴スペクトルのうち可能な限り多くを測定及び観測することを目標とする戦略に従って選択され得る。

【0100】

図３Ｂ、３Ｃ、３Ｄ、３Ｅ、３Ｆ、３Ｇ、３Ｈ、３Ｉ及び３Ｊは、ギャップ割り当て戦略の例を示すグラフである。これらの例では、時間が横軸に沿った距離によって表され、周波数が縦軸に沿った距離によって表される。これらのグラフは、様々なギャップ割り当て戦略によって生成されるパターンと、完全なオーディオスペクトルを測定するのにかかる時間と、を示すための例を提供する。これらの例において、各編成ギャップ測定セッションは長さにして１０秒である。他の開示される実装と同様に、これらのグラフは単に例として提供されるに過ぎない。他の実装は、より多くの、より少ない、及び／又は異なるタイプ、数及び／又はシーケンスの要素を含み得る。例えば、他の実装では、各編成ギャップ測定セッションは１０秒より長くても短くてもよい。これらの例において、図３Ｂ－３Ｊに表される時間／周波数空間の陰影付けられていない領域３１０（これをここでは“タイル”と称することがある）は、指し示される（１０秒の）時間－周波数期間におけるギャップを表す。中程度に陰影付けられた領域３１５は、少なくとも一度測定された周波数タイルを表す。薄く陰影づけられた領域３２０は未だ測定されていない。

【0101】

参加オーディオ機器が“部屋中を聞く”ため（例えば、オーディオ環境内の雑音、エコーなどを評価するため）に編成ギャップを挿入することを目下のタスクが必要とすると仮定すると、測定セッション完了時間は、図３Ｂ－図３Ｊに示されているようなものとなる。各オーディオ機器が順番にターゲットにされて他のオーディオ機器によって聞かれることをタスクが必要とする場合、それらの時間に、プロセスに参加するオーディオ機器の数を乗算する必要がある。例えば、各オーディオ機器が順番にターゲットにされる場合、図３Ｂで測定セッション完了時間として示されている３分２０秒（３ｍ２０ｓ）は、７つのオーディオ機器のシステムが７＊３ｍ２０ｓ＝２３ｍ２０ｓ後に完全にマッピングされることを意味する。周波数／バンドを循環して、複数のギャップが一度に強制されるとき、これらの例において、ギャップは、スペクトルをカバーするときの効率のために、周波数において可能な限り遠く離される。

【0102】

図３Ｂ及び図３Ｃは、１つのギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例において、ギャップ割り当て戦略は、順次の各測定セッション中に一度にＮ個の周波数バンド全体（周波数バンドの各々が少なくとも１つの周波数ビンを含み、大抵の場合は複数の周波数ビンを含む）にギャップを作ることを含む。図３ＢではＮ＝１であり、図３ＣではＮ＝３であり、後者が意味することは、図３Ｃの例が同一時間間隔中に３つのギャップを挿入することを伴うということである。これらの例において、使用されるバンディング構造は、２０バンドメル（Mel）離隔配置である。一部のこのような例によれば、２０個全ての周波数バンドが測定された後、シーケンスが再開し得る。３ｍ２０ｓは完全な測定に達するのに妥当な時間であるが、３００Ｈｚ－８ｋＨｚのクリティカルな音声領域でパンチングされるギャップは非常に広く、多くの時間がこの領域外の測定に充てられる。３００Ｈｚ－８ｋＨｚの周波数レンジ内の比較的広いギャップのために、この特定の戦略は、ユーザにとって非常に知覚しやすいものとなる。

【0103】

図３Ｄ及び図３Ｅは、別のギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例において、ギャップ割り当て戦略は、図３Ｂ及び図３Ｃに示されるバンディング構造を、約３００Ｈｚから８ｋＨｚの“最適化”周波数領域にマッピングするように変更することを含む。全体的な割り当て戦略は、その他の点では図３Ｂ及び３Ｃによって表されるものから変更されないが、ここでは２０番目のバンドが無視されるので、シーケンスが僅かに早く終了する。ここで強制されるギャップの帯域幅は依然として知覚可能である。しかしながら、特に、一度に複数の周波数バンドにギャップが強制的に入れられる場合に、最適化周波数領域の測定が非常に迅速であることが利益となる。

【0104】

図３Ｆ、図３Ｇ、及び図３Ｈは、別のギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例において、ギャップ割り当て戦略は“強制ビンギャップ”アプローチを含み、それにおいては、周波数バンド全体にわたっての代わりに、複数の単一周波数ビン内にギャップが強制される。図３Ｆ、図３Ｇ、及び図３Ｈ中の複数の横線が、図３Ｄ及び図３Ｅに示されるバンディング構造を表す。１９個のバンドを伴うギャップ割り当て戦略から１７０個のビンを伴うギャップ割り当て戦略への変更は、最適化されたスペクトルを測定するのにかかる時間を大幅に増加させ、ここでは、Ｎ＝１である図３Ｆに示す例で、単一の測定セッションが完了するのに２５分を超える時間がかかっている。

【0105】

図３Ｆ、図３Ｇ、及び図３Ｈによって表されるギャップ割り当て戦略の主な利点は、プロセスの知覚可能性が著しく低くなることである。Ｎ＝３（図３Ｇに示されるように）又はＮ＝５を選択することは、図３Ｆ及び図３Ｇのプロットに示されるように、図３Ｆの例の測定セッション時間を１／Ｎに減少させ、知覚可能性は依然として管理可能である。

【0106】

しかしながら、図３Ｆ、図３Ｇ、及び図３Ｈによって表されるギャップ割り当て戦略には、依然として２つの有意な欠点がある。１つは、バンディング構造の対数的性質が無視されていることであり、より高い周波数でのギャップの帯域幅が、人間の知覚に当てはまるものに基づけば控えめ過ぎる。他の欠点は、周波数を順次歩進させることは、次のバンドに移る前に各バンドを完全に測定することになることである。バンドが完全に測定されていなくても、欠けたデータの補完及びバンディングプロセスでの平均化を通して、アルゴリズムは依然としてある程度の信頼度で機能することができる。

【0107】

図３Ｉ及び図３Ｊは、別のギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例では、ギャップの帯域幅が周波数とともに増加するが、図３Ｉ及び図３Ｊ中の横線によって表される基礎バンディング構造よりも控えめな割合で増加する。周波数と共にギャップの帯域幅を増加させることは、挿入されたギャップの知覚可能性に悪影響を与えることなく、全体的な測定セッション時間を減少させる。第２の改善は、強制される各ギャップについて、図３Ｉ及び３Ｊによって表されるギャップ割り当て戦略は、連続する複数の周波数バンド内の複数の周波数ビンを選択することを含むことである（これは図３Ｉにおいていっそう明白である）。これらの例によれば、各バンド内の先に測定されたビンを記憶／追跡することによって、そのバンドが再訪されるときに、そのバンド内の次の連続したビンが測定される。このプロセスは、完全なスペクトルを測定するのにかかる時間に影響を及ぼさないが、各バンドの少なくとも一部を少なくとも一度測定するのにかかる時間を急速に短縮する。図３Ｉ及び図３Ｊによって表されるギャップ割り当て戦略はまた、上述のギャップ割り当て戦略よりも識別しにくいパターン及び構造を持ち、知覚可能性の影響を更に低下させる。

【0108】

図４、図５Ａ、及び図５Ｂは、一部の実装に従った、複数のオーディオ機器がどのように協調して測定セッションを行うのかの例を示すフロー図である。図４－図５Ｂに示すブロックは、ここで説明される他の方法のブロックのように、必ずしも示される順序で実行される必要はない。例えば、一部の実装において、図４のブロック４０１の処理は、ブロック４００の処理の前に実行されてもよい。また、このような方法は、図示及び／又は説明されるものよりも多数又は少数のブロックを含んでもよい。

【0109】

これらの例によれば、あるスマートオーディオ機器が編成側機器（ここでは“リーダー”と称することもある）であり、一度に１つの機器のみが編成側機器となり得る。他の例において、編成側機器は、ここでスマートホームハブと称するものであってもよい。編成側機器は、図１Ｃを参照して上述した装置１５０の一例であり得る。

【0110】

図４は、この例に従った全ての参加オーディオ機器によって実行されるブロックを示している。この例において、ブロック４００は、全ての他の参加オーディオ機器のリストを取得することを含む。一部のそのような例によれば、ブロック４００は、各参加オーディオ機器の音響ゾーン、グループなどのインジケーションを取得することを含み得る。ブロック４００のリストは、例えば、ネットワークパケットを介して他のオーディオ機器からの情報を集約することによって作成されることができ、他のオーディオ機器は、例えば、測定セッションに参加する自身の意図をブロードキャストすることができる。オーディオ環境に対してオーディオ機器が追加及び／又は除去されるとき、ブロック４００のリストが更新され得る。一部のそのような例において、ブロック４００のリストは、最も重要な機器（例えば、図１Ｂの主居住空間１０１ａ内に現在あるオーディオ機器）のみに関してリストを最新に保つために、様々なヒューリスティックに従って更新されてもよい。

【0111】

図４に示す例において、リンク４０４は、ブロック４００のリストを、リーダーシップ交渉プロセスであるブロック４０１に渡すことを示している。ブロック４０１のこの交渉プロセスは、特定の実装形態に応じて異なる形態をとり得る。最も単純な実施形態では、全ての機器が同じスキームを実施できると仮定して、機器間での何度もの通信ラウンドなしに、最も低い又は最も高い機器ＩＤコード（又は他の一意の機器識別子）に対する英数字ソートでリーダーを決定し得る。より複雑な実装では、機器が互いに交渉して、どの機器がリーダーに最も適しているかを決定し得る。例えば、測定セッションを容易にする目的で、編成された情報を集約する機器がリーダーでもあることが好都合であり得る。最長の動作可能時間を有する機器、最大の計算能力を有する機器、及び／又は主電源に接続されている機器を、リーダーの地位の良好な候補としてもよい。一般に、複数の機器間でこのようなコンセンサスを構成することは困難な問題ではあるが、数多くの既存の満足いくプロトコル及びソリューション（例えば、Ｐａｘｏｓプロトコル）を持つ問題である。理解されることには、多くのそのようなプロトコルが存在し、適したものとなる。

【0112】

次いで、全ての参加オーディオ機器が、ブロック４０３を実行することに進み、これは、リンク４０６がこの例において無条件リンクであることを意味する。ブロック４０３については、図５Ｂを参照して後述する。機器がリーダーである場合、その機器はブロック４０２を実行する。この例において、リンク４０５はリーダーの地位のチェックを含む。リーダーシッププロセスを、以下にて図５Ａを参照して説明する。それに限定されないが他のオーディオ機器へのメッセージを含んだ、このリーダーシッププロセスからの出力が、図４のリンク４０７によって示されている。

【0113】

図５Ａは、編成側機器又はリーダーによって実行されるプロセスの例を示している。ブロック５０１は、測定すべきターゲット機器を選択することと、例えば、測定セッション中に使用されるギャップの開始時間及び終了時間、並びに周波数におけるギャップの位置及びサイズといった、ギャップ割り当て戦略を選択することとを含む。一部の例において、ブロック５０１は、図２Ｃを参照して上述したように、時点ｔ１、ｔ２、及び／又はｔ３を選択することを含み得る。異なるアプリケーションは、前述の選択について異なる戦略を動機付け得る。例えば、測定すべきターゲット機器は、一部の例において、例えば、最近測定されていない優先機器及び周波数バンドなど、“緊急性”の測定に部分的に基づいて選択され得る。一部の例において、特定のアプリケーション又は使用事例に基づいて、特定のターゲット機器が測定するのにいっそう重要であることがある。例えば、空間プレゼンテーションにおける“左”及び“右”チャネルに使用されるスピーカの位置は、一般に、測定するのに重要であり得る。

【0114】

この例によれば、編成側機器がブロック５０１の選択を行った後、図５Ａのプロセスはブロック５０２に続く。この例において、ブロック５０２は、ブロック５０１で決定された情報を他の参加オーディオ機器に送信することを含む。一部の例において、ブロック５０２は、該情報を他の参加オーディオ機器に、例えば、ローカルＷｉ－Ｆｉネットワーク上で、Ｂｌｕｅｔｏｏｔｈ（登録商標）を介してなど、無線通信を介して送信することを含み得る。一部の例において、ブロック５０２は、例えば、測定セッション中に使用されるギャップの開始時間及び終了時間、並びに周波数におけるギャップの位置及びサイズといった、ギャップ割り当て戦略の詳細を、他の参加オーディオ機器に送信することを含み得る。他の例において、他の参加オーディオ機器は、複数のギャップ割り当て戦略の各々に関する情報を格納していることができる。一部のそのような例において、ブロック５０２は、例えばギャップ割り当て戦略１、ギャップ割り当て戦略２など、選択すべき格納ギャップ割り当て戦略のインジケーションを送信することを含み得る。一部の例において、ブロック５０２は、例えば図５Ｂを参照して後述するように、“セッション開始”インジケーションを送信することを含み得る。

【0115】

この例によれば、編成側機器がブロック５０２を実行した後、図５Ａのプロセスはブロック５０３に続き、編成側機器は、現在の測定セッションが終了するのを待つ。この例では、ブロック５０３にて、編成側機器は、他の参加オーディオ機器の全てがそれらのセッションを終了したというコンファメーション（確認）を待つ。

【0116】

この例において、編成側機器がブロック５０３で他の参加オーディオ機器の全てからコンファメーションを受信した後、図５Ａのプロセスはブロック５００に続き、編成側機器に測定セッションについての情報が提供される。このような情報は、将来の測定セッションの選択及びタイミングに影響を与え得る。一部の実施形態において、ブロック５００は、他の参加オーディオ機器の全てからの、測定セッション中に取得された測定値を受け入れることを含む。受信される測定値のタイプは、特定の実装に依存し得る。一部の例によれば、受信される測定値はマイクロフォン信号であることができ、あるいはそれを含むことができる。代わりに、あるいは加えて、一部の例において、受信される測定値は、マイクロフォン信号から抽出されたオーディオデータであることができ、あるいはそれを含むことができる。一部の実装において、編成側機器は、受信した測定値に対して１つ以上の処理を実行し得る（又は実行させ得る）。例えば、編成側機器は、抽出されたオーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器の可聴性又はターゲットオーディオ機器の位置を推定し得る（又は推定させ得る）。一部の実装は、抽出されたオーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答及び／又はオーディオ環境雑音を推定することを含み得る。

【0117】

図５Ａに示す例において、ブロック５００が実行された後、プロセスはブロック５０１に戻る。一部のそのような例において、プロセスは、ブロック５００が実行されてから所定の期間後にブロック５０１に戻る。一部の例において、プロセスは、ユーザ入力に応答してブロック５０１に戻り得る。

【0118】

図５Ｂは、編成側機器以外の参加オーディオ機器によって実行されるプロセスの例を示している。ここでは、ブロック５１０は、他の参加オーディオ機器の各々が編成側機器に伝達（例えば、ネットワークパケット）を送信し、各機器が１つ以上の測定セッションに参加する意図をシグナリングすることを含む。一部の実施形態において、ブロック５１０はまた、１つ以上の先行する測定セッションの結果をリーダーに送信することを含み得る。

【0119】

この例において、ブロック５１５がブロック５１０に続く。この例によれば、ブロック５１５は、例えば“セッション開始”パケットを介して示されるような、新たな測定セッションが開始することの通知を待つことを含む。

【0120】

この例によれば、ブロック５２０は、編成側機器によって提供される情報に従ってギャップ割り当て戦略を適用することを含み、該情報は、例えば、ブロック５１５で待っていた“セッション開始”パケットと共に提供される。この例において、ブロック５２０は、ギャップ割り当て戦略を適用して、測定セッション中に参加オーディオ機器（存在する場合に、ターゲットオーディオ機器を除く）によって再生される改変オーディオ再生信号を生成することを含む。この例によれば、ブロック５２０は、オーディオ機器マイクロフォンを介してオーディオ機器再生音を検出し、測定セッション中に対応するマイクロフォン信号を生成することを含む。リンク５２２によって示唆されるように、一部の例において、ブロック５２０は、編成側機器によって示される全ての測定セッションが完了する（例えば、編成側機器から受信される“停止”インジケーション（例えば、停止パケット）に従って、又は所定の継続時間の後に）まで繰り返され得る。一部の例において、ブロック５２０は、複数のターゲットオーディオ機器の各々について繰り返され得る。

【0121】

最後に、ブロック５２５は、測定セッション中に適用されたギャップの挿入を止めることを含む。この例において、ブロック５２５の後、図５Ｂのプロセスはブロック５１０に戻る。一部のそのような例において、プロセスは、ブロック５２５が実行されてから所定の期間後にブロック５１０に戻る。一部の例において、プロセスは、ユーザ入力に応答してブロック５１０に戻り得る。

【0122】

一部の実装において、周波数領域、継続時間、及びセットシーケンスにおけるターゲット機器の順序は、一意の機器ＩＤ／名称のみに基づく単純なアルゴリズムによって決定され得る。例えば、ターゲット機器の順序は、何らかの合意された語彙／英数字順に行われてもよく、周波数及びギャップ継続時間は、全ての機器に共通の現在日時に基づいてもよい。そのような単純化された実施形態は、より低いシステム複雑性を持つが、システムのいっそう動的なニーズに適応できないことがある。

【0123】

ギャップを通じて明らかにされるマイクロフォン信号についての測定例
編成ギャップ測定セッションの期間にわたって測定されるサブバンド信号は、部屋の中の雑音に、ターゲット機器が指名されている場合にターゲット機器からの直接刺激を加えたものに対応する。このセクションでは、マッピング、較正、雑音抑制、及び／又はエコー減衰アプリケーションにおける更なる使用のために、これらのサブバンド信号から決定される音響特性及び関連情報の例を示す。

【0124】

測距
一部の例によれば、編成ギャップ測定セッション中に測定されたサブバンド信号は、例えば、推定されたダイレクト対リバーブ比に基づいて、オーディオ機器間のおおよその距離を推定するために使用され得る。例えば、おおよその距離は、ターゲットオーディオ機器が出力音圧レベル（ＳＰＬ）を公表することができる場合に、及び測定オーディオ機器のスピーカからマイクロフォンまでの距離が分かっている場合に、１／ｒ^２法則に基づいて推定され得る。

【0125】

ＤｏＡ
一部の例において、編成ギャップ測定セッション中に測定されたサブバンド信号は、オーディオ環境内で１人以上の人及び／又は１つ以上のオーディオ機器によって発せられた音（例えば、発話）の到来方向（ＤｏＡ）及び／又は到来時間（ＴｏＡ）を推定するために使用され得る。一部のそのような例において、その１人以上の人及び／又は１つ以上のオーディオ機器の現在位置に対応する音響ゾーンが推定され得る。幾つかの例について、図８Ａ以降を参照して後述する。

【0126】

背景雑音
一部の例によれば、背景雑音は、音楽又は他のオーディオデータがオーディオ環境内のラウドスピーカによって再生されている間であっても、編成ギャップ測定セッション中に測定されたサブバンド信号に従って推定され得る。一部のそのような例によれば、背景雑音（background noise）は、データの各フレーム内で見出されるエネルギーに対してミニマムフォロワ（時間ウィンドウ中の信号の最小値を抽出するフィルタ）を実行することによって、例えば、次式：

【数1】

に従って、推定され得る。

【0127】

上述の式において、Ｋは、アプリケーションにおける周波数ビン又は周波数バンドの総数を表し、ｋは、現在の測定ラウンドにおいて考慮されている周波数ビン又はバンドを表す。十分な測定ラウンドの後、BackGroundNoiseは、フルスペクトルについての推定値を含むものとなる。

【0128】

基準共有
測定セッション中に、全ての参加オーディオ機器がリッスンしていて、１つのオーディオ機器が再生している場合、全てのオーディオ機器は、測定セッション中に再生コンテンツの比較的クリーンな記録を受信することになる。前の見出しで説明したように、そのようなマイクロフォン信号から幾つかの音響特性が導出され得る。この再生信号に対する“基準”信号がマイクロフォン信号と共に処理される場合、更なるクラスの音響特性が導出され得る。基準信号（これをここでは、基準信号に対応する周波数ビンを示す“基準ビン”として参照することもある）は、例えば、測定セッションの過程でターゲット機器によって再生されたオーディオ情報のコピーとし得る。基準信号は、一部の例において、エコー抑制のためにターゲット機器によって使用され得る。

【0129】

一部の例において、測定セッションは、狭いレンジの周波数に基づき得る。従って、このクラスの音響特性を生成することには、基準情報の全帯域幅より少ない帯域幅のみが必要とされ得る。基準情報の全帯域幅より少ない帯域幅のみが必要とされる場合、これは、ネットワーク接続上でそのような基準データを提供することを、実施するのがいっそう実現可能なものとする。例えば、５０Ｈｚの帯域幅を有する典型的な周波数領域は、（４８ｋＨｚのサンプリングレートを仮定し、且つ複素周波数ビンの表現が使用されると仮定して）元々の信号のうち、１００％＊（５０／２４０００）＊２＝０．５％に相当する。また、他の参加オーディオ機器の全てに同じ基準情報を提示して、メッセージをブロードキャストするときに関連ネットワーク効率を更に利用し得る。

【0130】

非線形性
１つ以上のターゲットオーディオ機器に対する編成ギャップ測定セッションを含む一部の例によれば、再生されたオーディオデータにおける非線形性の存在が検出され得る。一部のそのような例は、ある範囲の再生レベルにおいて可聴性の推定値を取得し、可聴性の推定値が線形であるか否かを決定することを含み得る。

【0131】

図６は、測定セッションに参加し、基準データを共有する２つの編成されたオーディオ機器の例を示している。ここで提供される他の図と同様に、図６に示す要素のタイプ及び数は単に例として与えられるに過ぎない。他の実装は、より多くの、より少ない、及び／又は異なるタイプ及び数の要素を含み得る。

【0132】

図６中の参照符号は、オーディオ機器６０１ａについては“ａ”を後ろに付し、オーディオ機器６０１ｂについては“ｂ”を後ろに付している。図６の要素は以下を含む：
６００：２つのオーディオ機器が測定セッションに参加しているシステム；
６０１ａ：図１Ｃの装置１５０の例あり、図１Ｃに示した制御システム１６０の例を実装するものである、測定セッションに参加しているオーディオ機器；
６０１ｂ：装置１５０の別の例であり、図１Ｃに示した制御システム１６０の例を実装し、この例ではターゲット機器である、測定セッションに参加している別のオーディオ機器；
６０２：オーディオコンテンツ（例えば、音楽、映画サウンドトラック、又はポッドキャスト）を生成するメディア再生エンジン；
６０３：ギャップ挿入モジュール；
６０４：Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又は他の無線プロトコルを介してネットワークパケットを送受信するように構成されたネットワーク接続モジュール；
６０５：マイクロフォン信号及び基準信号を受け入れ、この開示で説明される音響特性のうちのいずれかを生成するように構成された音響特性計算ブロック；
６０６ａ：オーディオ機器６０１ａに取り付けられた１つ以上のラウドスピーカ；
６０６ｂ：オーディオ機器６０１ｂに取り付けられた１つ以上のラウドスピーカ；
６０７ａ：ギャップ挿入された（改変）オーディオコンテンツに対応する、ラウドスピーカ６０６ａによって生成される再生音；
６０７ｂ：この例ではオーディオ機器６０１ｂはターゲット機器であるので、未改変（ギャップなし）オーディオコンテンツに対応する、ラウドスピーカ６０６ｂによって生成される再生音；
６０８ａ：オーディオ機器６０１ａに取り付けられて６０７ａ及び６０７ｂの両方を検出する１つ以上のマイクロフォン；
６０８ｂ：オーディオ機器６０１ｂに取り付けられて６０７ａ及び６０７ｂの両方を検出する１つ以上のマイクロフォン；
６０９：少なくとも現在の測定セッションに関連する基準オーディオを含んだ、オーディオ機器６０１ｂからオーディオ機器６０１ａに伝送されるネットワークパケット；
６１０：メディア再生エンジン６０２によって生成されたメディア信号；
６１１：メディア信号６１０に追加の変更（１つ以上のギャップ）が与えられたもの；
６１２：６１４に相当した、６０９のネットワークパケットから抽出された基準信号；
６１３：現在の測定セッションについての測定領域に対応するマイクロフォン信号；及び
６１４：基準信号。

【0133】

図６では、測定セッションがアクティブである。オーディオ機器６０１ｂは、ターゲット機器として動作しており、測定セッション中に（１つ以上の）測定領域（オーディオ機器６０１ａによってメディアコンテンツに挿入された（１つ以上の）ギャップ）内でメディアコンテンツを再生することが許される。オーディオ機器６０１ａも測定セッションに参加している。この例において、オーディオ機器６０１ａは、編成側機器の制御システムによって、出て行くメディア信号６１０ａに（ギャップ挿入モジュール６０３を用いて）１つ以上の適切なギャップを挿入するように命令されている。

【0134】

再生中、この例では、オーディオ機器６０１ｂが、現在の測定セッションに関連する周波数における同じ測定領域に対応する基準信号６１４ｂを再生メディア６１０ｂから抽出する。基準信号６１４ｂは、例えば、ネットワークパケットに挿入され、６０９としてローカルネットワーク上で他の全ての参加オーディオ機器に送信（ブロードキャスト）され得る。基準信号６１４ｂは、測定セッションがアクティブである間に徐々にストリーミングされてもよいし、代わりに、測定セッションが終了したときに１つのいっそう大きい伝達として送信されてもよい。他の参加オーディオ機器が、この基準信号６１４ｂを受信するとともに、自身のマイクロフォン（６０８）で対応するマイクロフォン信号６１３を抽出する。ターゲット機器であるオーディオ機器６０１ｂもマイクロフォン信号を記録し、基準信号を受信するが、その情報が同じ機器上に存在するので、６０９のネットワーク伝送はスキップする。

【0135】

図６に示す例において、信号６１３及び６１２／６１４が音響特性ブロック６０５に提示され、音響特性ブロック２１０が、両方の信号を同時に用いて音響特性を計算するように構成される。なお、タイミング及び同期の態様は、具体的な実施形態の実装詳細に従って様々であることができ、ネットワークパケットタイムスタンプ、及び基準信号とマイクロフォン信号との相互相関が、更なる分析のために適切にデータをアライメントするために使用され得る。

【0136】

可聴性及びインパルス応答
一部の例によれば（例えば、図６に示したような実装において）、測定セッション中に、基準信号ｒ及びマイクロフォン信号ｍの両方が記録され、Ｐ個のオーディオフレームの期間にわたって近く時間アライメントされ得る。我々は、

【数2】

と表すことができる。

【0137】

上記の式においてＣ^ｎは寸法（サイズ）ｎの複素数空間を表し、ｒ（ｔ）及びｍ（ｔ）は長さｎの複素ベクトルを表し、ｎは所与の測定セッションに使用される複素周波数ビンの数を表す。従って、ｍ（ｔ）はサブバンドドメインのマイクロフォン信号を表す。我々はまた、

【数3】

と表すことができる。

【0138】

上記の式において、Ｚは全ての整数の集合を表し、ｔは、両端を含めて１からＰの範囲内の任意の整数を表す。

【0139】

この定式化にて、ｒから信号ｍを予測する線形伝達関数Ｈを推定することを試みて、古典的なチャネル識別問題が解かれ得る。この問題に対する既存のソリューションは、適応有限インパルス応答（ＦＩＲ）フィルタ、オフライン（非因果的）ウィーナーフィルタ、及び数多くの他の統計的信号処理方法を含む。伝達関数Ｈの大きさを可聴性と呼ぶことがあり、これは、一部の用途において、機器がどれだけ“相互可聴”であるかに基づいて機器の互いに対する関連性をランク付けするために使用され得る有用な音響特性である。一部の例によれば、伝達関数Ｈの大きさは、例えば上述したように、再生されたオーディオデータがオーディオ機器非線形性を示すかを決定するために、ある範囲のオーディオ機器再生レベルにて決定され得る。

【0140】

図７は、オーディオ環境内のオーディオ機器に対応する可聴性グラフの例を示している。この例において、図７は、典型的なオープンプランの居住環境の周りの様々な位置にある７つのオーディオ機器のグループに対して幾つかの測定セッションを実行した実験結果を示している。図７に示す横軸は周波数（Ｈｚ）を表し、縦軸はＨのトータルレベルをｄＢ単位で表し、この開示ではこれを“可聴性”として参照する。図７に（集合として）表示された全ての音響測定値は、“ＤＯＬＢＹ－ＯＢＳＩＤＩＡＮ／Ｋｉｔｃｈｅｎ”と名付けられた１つの特定のオーディオ機器をターゲットオーディオ機器としたときの編成測定セッションに対応する。各オーディオ機器の可聴性が、周波数の関数としてオーディオ機器可聴性を示す太い破線として、及び平均オーディオ機器可聴性レベルを示す、同じパターンを持つが太線で表されていない破線として、の両方で示されている。この図から、“Ｋｉｔｃｈｅｎ”オーディオ機器と様々な他のオーディオ機器との間の全体的な可聴性又はレベルの差を見てとることができる。さらに、図７にて観察し得ることには、可聴性が周波数にわたって異なっており、この例における音響特性測定において達成することが可能であった詳細のレベルを明らかにしている。Ｋｉｔｃｈｅｎオーディオ機器それ自身のエコーレベルを測定する“自己可聴性”を表すラインはライン７０１ａ及び７０１ｂであり、これらは適切なことに最も大きい。“Ｋｉｔｃｈｅｎ”に最も近いオーディオ機器である“Ｋｉｔｃｈｅｎ２”は、平均して僅か２ｄＢだけ静かであり、一部のオーディオ周波数では“Ｋｉｔｃｈｅｎ”オーディオ機器よりも大きな音を測定するときもある。離れた部屋に位置するオーディオ機器は、非常に低い可聴性を持つと測定され、平均して自己可聴性より４５ｄＢ静かである。様々な位置で同じ部屋に置かれた残りのオーディオ機器は、その間のどこかで可聴性測定値を記録している。

【0141】

複数のスマートオーディオ機器を含む編成システムは、ユーザからの発話がいつ検出されるかを決定するように構成され得る。例えば、エコーキャンセレーションが使用されない又は十分でない場合であっても、メディアコンテンツが再生されている間に、編成ギャップに関連付けられた周波数バンド内で発話が検出され得る。

【0142】

図８Ａは、オーディオ環境の他の一例を示している。図８Ａは、オーディオインタラクションのためのスマートオーディオ機器（機器１．１）と、オーディオ出力のためのスピーカ（１．３）と、マイクロフォン１．５と、制御可能なライト（１．２）とのセットを含んだシステムを含むオーディオ環境（この例では居住空間）の図である。一部の例において、マイクロフォン１．５のうち１つ以上は、機器１．１、ライト１．２、又はスピーカ１．３のうちの１つの一部であることができ、あるいはそれに付随することができる。代わりに、あるいは加えて、マイクロフォン１．５のうち１つ以上は、環境の別の部分に取り付けられてもよく、例えば、壁、天井、家具、家電機器、又は環境の別の機器に取り付けられてもよい。一例において、スマートオーディオ機器１．１の各々が、少なくとも１つのマイクロフォン１．５を含む（及び／又はそれと通信するように構成される）。図８Ａのシステムは、本開示の１つ以上の実施形態を実装するように構成され得る。様々な方法を用いて、情報が、図８Ａのマイクロフォン１．５から集合的に取得され、話すユーザの位置推定を提供するように構成された機器（例えば、分類器）に提供され得る。

【0143】

居住空間（例えば、図８Ａのもの）には、人が仕事若しくは活動を行う又は敷居を跨ぐ一組の自然活動ゾーンが存在する。ここではユーザゾーンと称することがあるこれらのエリアは、一部の例において、幾何学的位置の座標又は他の印を指定することなく、ユーザによって定義され得る。図８Ａに示す例において、ユーザゾーンは以下を含み得る：
１．キッチンシンク及び食品調理エリア（居住空間の左上領域内）；
２．冷蔵庫ドア（シンク及び食品調理エリアの右側）；
３．食事エリア（居住空間の左下領域）；
４．居住空間のオープンエリア（シンク及び調理エリアと食事エリアの右側）；
５．ＴＶソファ（オープンエリアの右）；
６．ＴＶそれ自体；
７．テーブル；及び
８．ドアエリア又は入口（居住空間の右上領域）。

【0144】

一部の実施形態によれば、ユーザに起因する音（例えば、発話又は雑音）がどこで生じたか又はどこから来たかを推定するシステムは、その推定（又は推定のための複数の仮説）に幾らかの決定された信頼度を有し得る。例えば、ユーザがたまたまシステムの環境のゾーン間の境界近くにいる場合、ユーザの位置の不確実な推定は、ユーザがそれらのゾーンの各々にいることの決定された信頼度を含み得る。

【0145】

図８Ｂは、オーディオ環境の他の一例を示している。図８Ｂにおいて、環境８０９（音響空間）は、直接発話８０２を発するユーザ（８０１）と、スマートオーディオ機器（８０３及び８０５）、オーディオ出力のためのスピーカ、及びマイクロフォンのセットを含んだシステムの一例とを含んでいる。該システムは、本開示の一実施形態に従って構成され得る。ユーザ８０１（ここでは話者として参照することもある）によって発せれた発話が、編成された時間－周波数ギャップ内でシステムの（１つ以上の）要素によって認識され得る。

【0146】

より具体的には、図８Ｂのシステムの要素は以下を含む：
８０２：（ユーザ８０１によって生成された）直接ローカルボイス；
８０３：（１つ以上のラウドスピーカに結合された）ボイスアシスタント機器。機器８０３は、機器８０５よりもユーザ８０１の近くに位置しており、故に、機器８０３を“近い”機器と称することがあり、機器８０５を“遠い”機器と称することがある；
８０４：近い機器８０３内の（又はそれに結合された）複数のマイクロフォン；
８０５：（１つ以上のラウドスピーカに結合された）ボイスアシスタント機器；
８０６：遠い機器８０５内の（又はそれに結合された）複数のマイクロフォン；
８０７：家庭用機器（例えば、ランプ）；及び
８０８：家庭用機器８０７内の（又はそれに結合された）複数のマイクロフォン。一部の例において、マイクロフォン８０８の各々は、一部の例において機器８０３又は８０５の少なくとも一方とし得るものである分類器を実装するように構成された機器と通信するように構成され得る。

【0147】

図８Ｂのシステムはまた、少なくとも１つの分類器を含み得る。例えば、機器８０３（又は機器８０５）が分類器を含み得る。代わりに、あるいは加えて、分類器は、機器８０３及び／又は８０５と通信するように構成され得る別の機器によって実装されてもよい。一部の例において、分類器は、別のローカル機器（例えば、環境８０９内の機器）によって実装され得るが、他の例において、分類器は、環境８０９の外部に位置するリモート機器（例えば、サーバ）によって実装され得る。

【0148】

一部の実装において、例えばここに開示されるものなどの分類器を実装するように制御システム（例えば、図１Ｃの制御システム１６０）が構成され得る。代わりに、あるいは加えて、制御システム１６０は、分類器からの出力に少なくとも部分的に基づいて、ユーザが現在位置するユーザゾーンの推定を決定するように構成され得る。

【0149】

図８Ｃは、例えば図１Ｃに示したものなどの装置によって実行され得る方法の一例を概説するフロー図である。方法８３０のブロックは、ここで説明される他の方法のように、必ずしも示される順序で実行される必要はない。また、このような方法は、図示及び／又は説明されるものよりも多数又は少数のブロックを含んでもよい。この実装において、方法８３０は、環境内のユーザの位置を推定することを含む。

【0150】

この例において、ブロック８３５は、環境内の複数のマイクロフォンの各マイクロフォンから出力信号を受信することを含む。この例において、複数のマイクロフォンの各々は、環境のマイクロフォン位置に存在する。この例によれば、上記出力信号は、再生コンテンツ内の編成ギャップ中に測定されたユーザの現在の発話に対応する。ブロック８３５は、例えば、制御システム（例えば図１Ｃの制御システム１６０など）が、インタフェースシステム（例えば図１Ｃのインタフェースシステム１５５など）を介して、環境内の複数のマイクロフォンの各マイクロフォンから出力信号を受信することを含み得る。

【0151】

一部の例において、環境内のマイクロフォンのうちの少なくとも一部は、１つ以上の他のマイクロフォンによって提供される出力信号に対して非同期である出力信号を提供してもよい。例えば、複数のマイクロフォンのうちの第１のマイクロフォンは、第１のサンプルクロックに従ってオーディオデータをサンプリングすることができ、複数のマイクロフォンのうちの第２のマイクロフォンは、第２のサンプルクロックに従ってオーディオデータをサンプリングすることができる。一部の例において、環境内のマイクロフォンのうちの少なくとも１つは、スマートオーディオ機器内に含められることができ、あるいはそれと通信するように構成されることができる。

【0152】

この例によれば、ブロック８４０は、各マイクロフォンの出力信号から複数の現在の音響特徴を決定することを含む。この例において、“現在の音響特徴”は、ブロック８３５の“現在の発話”から導出された音響特徴である。一部の実装において、ブロック８４０は、１つ以上の他の機器から複数の現在の音響特徴を受信することを含んでもよい。例えば、ブロック８４０は、１つ以上の他の機器によって実装された１つ以上の発話検出器から複数の現在の音響特徴のうちの少なくとも一部を受信することを含み得る。代わりに、あるいは加えて、一部の実装において、ブロック８４０は、出力信号から複数の現在の音響特徴を決定し得る。

【0153】

音響特徴が単一の機器によって決定されるのか複数の機器によって決定されるのかにかかわらず、音響特徴は非同期に決定され得る。音響特徴が複数の機器によって決定される場合、それらの機器が音響特徴を決定するプロセスを協調して行うように構成されたものでない限り、音響特徴は一般に非同期に決定されることになる。音響特徴が単一の機器によって決定される場合、一部の実装において、そうとはいえ、その単一の機器は各マイクロフォンの出力信号を異なる時間に受信し得るので、音響特徴は非同期に決定され得る。一部の例において、環境内のマイクロフォンのうちの少なくとも一部は、１つ以上の他のマイクロフォンによって提供される出力信号に対して非同期である出力信号を提供し得るので、音響特徴は非同期に決定され得る。

【0154】

一部の例において、音響特徴は、出力再生信号中の編成ギャップ中に測定された発話に対応する発話信頼性メトリックを含み得る。

【0155】

代わりに、あるいは加えて、音響特徴は、以下のうちの１つ以上を含み得る：
・人間の発話に対して重み付けられた周波数バンド内のバンドパワー。例えば、音響特徴は、特定の周波数バンド（例えば、４００Ｈｚ－１．５ｋＨｚ）のみに基づいてもよい。より高い周波数及びより低い周波数は、この例において無視され得る；
・再生コンテンツ内に編成されたギャップに対応する周波数バンド又はビンにおけるバンドごと又はビンごとの音声アクティビティ検出器信頼度；
・音響特徴は、乏しい信号対雑音比を持つマイクロフォンを無視するように、長期雑音推定値に少なくとも部分的に基づき得る；
・発話ピーク性の尺度としての尖度。尖度は、長い残響テールによる不鮮明化の指標とすることができる。

【0156】

この例によれば、ブロック８４５は、上記複数の現在の音響特徴に分類器を適用することを含む。一部のそのような例において、分類器を適用することは、環境内の複数のユーザゾーンにおいてユーザによって為された複数の以前の発話から導出された以前に決定された音響特徴に対してトレーニングされたモデルを適用することを含み得る。様々な例をここで提供する。

【0157】

一部の例において、ユーザゾーンは、シンクエリア、食品調理エリア、冷蔵庫エリア、食事エリア、ソファエリア、テレビエリア、寝室エリア、及び／又は戸口エリアを含み得る。一部の例によれば、ユーザゾーンのうちの１つ以上は、所定のユーザゾーンであり得る。一部のそのような例において、１つ以上の所定のユーザゾーンは、トレーニングプロセス中にユーザによって選択可能であったとし得る。

【0158】

一部の実装において、分類器を適用することは、以前の発話に対してトレーニングされたガウス混合モデルを適用することを含み得る。一部のそのような実装によれば、分類器を適用することは、以前の発話の正規化された発話信頼度、正規化された平均受信レベル、又は最大受信レベルのうちの１つ以上に対してトレーニングされたガウス混合モデルを適用することを含み得る。しかしながら、代わりの実装において、分類器を適用することは、例えばここに開示される他のモデルのうちの１つなどの異なるモデルに基づいてもよい。一部の例において、モデルは、ユーザゾーンとラベル付けされた訓練データを用いて訓練され得る。しかしながら、一部の例において、分類器を適用することは、ユーザゾーンとラベル付けされていないラベルなし訓練データを用いてトレーニングされたモデルを適用することを含む。

【0159】

一部の例において、以前の発話は音声発話であった又はそれを含んでいたとし得る。一部のそのような例によれば、以前の発話及び現在の発話は、同じスピーチの発話であったとし得る
この例において、ブロック８５０は、分類器からの出力に少なくとも部分的に基づいて、ユーザが現在位置するユーザゾーンの推定を決定することを含む。一部のそのような例において、該推定は、複数のマイクロフォンの幾何学的位置を参照せずに決定され得る。例えば、該推定は、個々のマイクロフォンの座標を参照せずに決定され得る。一部の例において、該推定は、ユーザの幾何学的位置を推定することなく決定され得る。しかしながら、代わりの実装において、位置推定は、例えば座標系を参照して、オーディオ環境内の１人以上の人及び／又は１つ以上のオーディオ機器の幾何学的位置を推定することを含み得る。

【0160】

方法８３０の一部の実装は、推定されたユーザゾーンに従って少なくとも１つのスピーカを選択することを含み得る。一部のそのような実装は、推定されたユーザゾーンに音を提供するように、少なくとも１つの選択されたスピーカを制御することを含み得る。代わりに、あるいは加えて、方法８３０の一部の実装は、推定されたユーザゾーンに従って少なくとも１つのマイクロフォンを選択することを含み得る。一部のそのような実装は、少なくとも１つの選択されたマイクロフォンによって出力された信号をスマートオーディオ機器に提供することを含み得る。

【0161】

図９は、編成ギャップ挿入のためのシステムの一例のブロック図を提示している。図９のシステムは、図１Ｃの装置１５０の例であるオーディオ機器９０１ａを含み、オーディオ機器９０１ａは、雑音推定サブシステム（雑音推定器）６４、雑音補償利得適用サブシステム（雑音補償サブシステム）６２、及び強制ギャップ適用サブシステム（強制ギャップ適用器）７０を実装するように構成された制御システム１６０ａを含んでいる。この例において、オーディオ機器９０１ｂ－９０１ｎも再生環境Ｅ内に存在する。この実装において、オーディオ機器９０１ｂ－９０１ｎの各々は、図１Ｃの装置１５０の例であり、各々が、雑音推定サブシステム６４、雑音補償サブシステム６２、及び強制ギャップ適用サブシステム７０のインスタンスを実装するように構成された制御システムを含む。

【0162】

この例によれば、図９のシステムはまた、これまた図１Ｃの装置１５０の例である編成側機器９０５を含む。一部の例において、編成側機器９０５は、例えばスマートオーディオ機器などの再生環境のオーディオ機器とし得る。一部のそのような例において、編成側機器９０５は、オーディオ機器９０１ａ－９０１ｎのうちの１つによって実装され得る。他の例において、編成側機器９０５は、ここでスマートホームハブと称するものなど、他のタイプの機器であってもよい。この例によれば、編成側機器９０５は、オーディオ機器９０１ａ－９０１ｎから雑音推定値９１０ａ－９１０ｎを受信し、緊急信号９１５ａ－９１５ｎを、オーディオ機器９０１ａ－９０１ｎに、それぞれの強制ギャップ適用器７０のインスタンス各々を制御するために提供するように構成された制御システムを含む。この実装において、強制ギャップ適用器７０の各インスタンスは、緊急信号９１５ａ－９１５ｎに基づいて、ギャップを挿入するかどうかを決定し、挿入する場合には、どのようなタイプのギャップを挿入するかを決定するように構成される。

【0163】

この例によれば、オーディオ機器９０１ａ－９０１ｎはまた、存在する場合に、オーディオ機器９０１ａ－９０１ｎの各々が実装しているのがどのようなギャップであるかを示す、現在ギャップデータ９２０ａ－９２０ｎを、編成側機器９０５に提供するように構成される。一部の例において、現在ギャップデータ９２０ａ－９２０ｎは、オーディオ機器が適用中であるギャップのシーケンスと、対応する時間（例えば、各ギャップ又は全てのギャップについての開始時間と時間間隔）とを示し得る。一部の実装において、編成側機器９０５の制御システムは、例えば、最近のギャップデータ、どのオーディオ機器が最近の緊急信号を受信したか、などを示すデータ構造を維持するように構成され得る。図９のシステムにおいて、強制ギャップ適用サブシステム７０の各インスタンスは、緊急信号９１５ａ－９１５ｎに応答して動作し、その結果、編成側機器９０５は、再生信号におけるギャップの必要性に基づいて強制ギャップ挿入を制御する。

【0164】

一部の例によれば、緊急信号９１５ａ－９１５ｎは、緊急値セット［Ｕ_０，Ｕ_１，…，Ｕ_Ｎ］のシーケンスを示すことができ、ここで、Ｎは、その中にサブシステム７０が強制ギャップを挿入し得る（再生信号の周波数レンジ全体の）周波数バンド（例えば、それらのバンドの各々に１つの強制ギャップが挿入される）の所定の数であり、Ｕ_ｉは、その中にサブシステム７０が強制ギャップを挿入し得る“ｉ”番目のバンドについての緊急値である。（時間に対応する）各緊急度値セットの緊急度値は、緊急度を決定するための任意の開示実施形態に従って生成されることができ、Ｎ個のバンドにおける（その時間における）強制ギャップの挿入（サブシステム７０による）の緊急度を示すことができる。

【0165】

一部の実装において、緊急信号９１５ａ－９１５ｎは、Ｎ個の周波数バンドの各々についてギャップ挿入の確率を定義する確率分布によって決定される固定の（時不変の）緊急度値セット［Ｕ_０，Ｕ_１，…，Ｕ_Ｎ］を示し得る。一部の例によれば、確率分布は、結果（サブシステム７０の各インスタンスの応答）が受信側オーディオ機器９０１ａ－９０１ｎの全てにわたって決定論的（同じ）であるように、擬似ランダム機構を用いて実現される。従って、そのような固定の緊急度値セットに応答して、サブシステム７０は、より低い緊急度値（すなわち、擬似ランダム確率分布によって決定される低めの確率値）を持つバンドに、（平均で）より少ない強制ギャップを挿入し、より高い緊急度値（すなわち、高めの確率値）を持つバンドに、（平均で）より多くの強制ギャップを挿入するように構成され得る。一部の実装において、緊急信号９１５ａ－９１５ｎは、例えばシーケンス中の異なる時間ごとの異なる緊急度値セットといった、緊急値セット［Ｕ_０，Ｕ_１，…，Ｕ_Ｎ］のシーケンスを示し得る。そのような異なる緊急度値セットは各々、異なる時間の各々について異なる擬似ランダム確率分布によって決定され得る。

【0166】

次に、緊急度値、又は緊急度値を示す信号（Ｕ）を決定するための方法（これは、開示されるパーベイシブリスニング法の数多くの異なる実施形態のいずれかにおいて実装され得る）を説明する。

【0167】

周波数バンドについての緊急度値は、そのバンドにギャップを強制する必要性を示す。緊急度値Ｕ_ｋを決定するための３つの戦略を提示し、ここで、Ｕ_ｋは、バンドｋにおける強制ギャップ挿入の緊急度を表し、ベクトルＵは、Ｂ_{ｃｏｕｎｔ}個の周波数バンドのセットの全てのバンドについての緊急度値を含むベクトル：

【数4】

を表す。

【0168】

第１の戦略（ここでは方法１と称することもある）は、固定の緊急度値を決定する。この方法は最も単純であり、単に緊急度ベクトルＵが所定の固定量であることを許す。固定の知覚自由度メトリックとともに使用されるとき、これは、時間にわたって強制ギャップをランダムに挿入するシステムを実装するために使用されることができる。一部のそのような方法は、パーベイシブリスニングアプリケーションによって供給される時間依存の緊急度値を必要としない。従って：

【数5】

であり、ここで、Ｘ＝Ｂ_{ｃｏｕｎｔ}であり、（ｋ＝１からｋ＝Ｂ_{ｃｏｕｎｔ}までの範囲内のｋについての）各値ｕ_ｋは、“ｋ”バンドに対する所定の固定緊急度値を表す。全てのｕ_ｋを１．０に設定することは、全ての周波数バンドにおいて等しい程度の緊急性を表す。

【0169】

第２の戦略（ここでは方法２と称することもある）は、先行ギャップの発生からの経過時間に依存する緊急度値を決定する。一部の実装において、緊急性は時間とともに徐々に増加し、そして、強制されたギャップ又は既存のギャップのいずれかがパーベイシブリスニング結果の更新（例えば、背景雑音推定値更新）を引き起こすと低い値に戻る。

【0170】

従って、各周波数バンド（バンドｋ）における緊急度値Ｕ_ｋは、バンドｋにおいてギャップが（パーベイシブリスナーによって）知覚されてからの時間の長さ（例えば、秒数）に対応し得る。一部の例において、各周波数バンドの緊急度値Ｕ_ｋは、
Ｕ_ｋ（ｔ）＝ｍｉｎ（ｔ－ｔ_ｇ，Ｕ_ｍａｘ）
として決定されることができ、ここで、ｔ_ｇは、バンドｋで最後のギャップが見られた時間を表し、Ｕ_ｍａｘは、緊急性を最大サイズに制限するチューニングパラメータを表す。なお、ｔ_ｇは、再生コンテンツ内に元々存在するギャップの存在に基づいて更新し得る。例えば、雑音補償では、再生環境内の現在の雑音状態が、出力再生信号内のギャップとみなされるものを決定し得る。すなわち、再生信号は、ギャップが発生するには静かな環境である場合には、環境がノイジーである場合よりも静かでなければならない。同様に、典型的に人間の発話によって占有される周波数バンドについての緊急性は、典型的に、再生環境内のユーザによる音声発話の発生又は不発生に依存するパーベイシブリスニング法を実施するときにいっそう重要なものとなる。

【0171】

第３の戦略（ここでは方法３と称することもある）は、イベントベースである緊急度値を決定する。この文脈において、“イベントベース”は、再生環境の外部の、あるいは再生環境内で発生したと検出又は推測された、何らかのイベント又はアクティビティ（又は情報の必要性）に依存することを表す。パーベイシブリスニングサブシステムによって決定される緊急性は、新たなユーザ挙動の開始又は再生環境条件の変化とともに突然変化し得る。例えば、そのような変化は、パーベイシブリスニング向けに構成された１つ以上の機器に、決定を行うために、あるいは、新たな条件に対して再生経験を迅速に調整するために、あるいは、一般的な緊急性又は各バンド内のギャップ間の所望の密度及び時間における変化を実現するために、バックグラウンドアクティビティを観察する緊急の必要性を生じさせ得る。下の表３は、状況及びシナリオ、並びに緊急性における対応するイベントベース変化の幾つかの例を提供する。

【表3】

【0172】

第４の戦略（ここでは方法４と称することもある）は、方法１、２、及び３のうちの２つ以上の組み合わせを用いて緊急度値を決定する。例えば、方法１、２、及び３の各々を、次のタイプの一般的な定式化：
Ｕ_ｋ（ｔ）＝ｕ_ｋ＊ｍｉｎ（ｔ－ｔ_ｇ，Ｕ_ｍａｘ）＊Ｖ_ｋ
によって表されるジョイント戦略へと組み合わせることができ、ここで、ｕ_ｋは、各周波数バンドの相対的な重要性を制御する固定の無単位の重み付け係数を表し、Ｖ_ｋは、緊急性の迅速な変更を必要とする状況又はユーザ挙動の変化に応答して変調されるスカラー値を表し、ｔ_ｇ及びＵ_ｍａｘは上で定義したものである。一部の例において、値Ｖ_ｋは、通常動作下では１．０の値のままであることが期待される。

【0173】

複数機器の状況の一部の例において、オーディオ環境のスマートオーディオ機器の強制ギャップ適用器は、環境雑音Ｎの正確な推定を達成するために、編成されたやり方で協働し得る。一部のそのような実装において、時間及び周波数においてどこに強制ギャップが導入されるかの決定は、別個の編成側機器（この中の他の箇所でスマートホームハブと称しているものなど）によって実装される編成側機器９０５によって為され得る。一部の代わりの実装において、時間及び周波数においてどこに強制ギャップが導入されるかの決定は、スマートオーディオ機器のうちリーダーとして動作している１つ（例えば、編成側機器９０５として動作しているスマートオーディオ機器）によって為され得る。

【0174】

一部の実装において、編成側機器９０５は、雑音推定値９１０ａ－９１０ｎを受信し、雑音推定値９１０ａ－９１０ｎに少なくとも部分的に基づき得るギャップコマンドをオーディオ機器９０１ａ－９０１ｎに提供するように構成された制御システムを含み得る。一部のそのような例において、編成側機器９０５は、緊急信号の代わりにギャップコマンドを提供し得る。一部のそのような実装によれば、強制ギャップ適用器７０は、緊急信号に基づいて、ギャップを挿入すべきか、そして、挿入すべき場合に、どのようなタイプのギャップを挿入すべきかを決定する必要はなく、代わりに単にギャップコマンドに従って動作すればよい。

【0175】

一部のそのような実装において、ギャップコマンドは、挿入すべき１つ以上の特定のギャップの特性（例えば、周波数レンジ又はＢ_{ｃｏｕｎｔ}、Ｚ、ｔ１、ｔ２、及び／又はｔ３）と、該１つ以上の特定のギャップの挿入についての（１つ以上の）時間とを示し得る。例えば、ギャップコマンドは、図３Ｂ－図３Ｊに示して上述したもののうちの１つなど、ギャップ及び対応する時間間隔のシーケンスを示し得る。一部の例において、ギャップコマンドはデータ構造を示してもよく、受信側オーディオ機器が、そこから、挿入すべきギャップ及び対応する時間間隔のシーケンスの特性にアクセスし得る。該データ構造は、例えば、受信側オーディオ機器に前もって提供されているとし得る。一部のそのような例において、編成側機器９０５は、ギャップコマンドをいつ送信すべきか、及びどのタイプのギャップコマンドを送信すべきかを決定するための緊急度計算を行うように構成された制御システムを含み得る。

【0176】

一部の例によれば、緊急信号は、オーディオ機器９０１ａ－９０１ｎのうちの１つ以上の雑音推定要素６４によって少なくとも部分的に推定されて、編成側機器９０５に送信され得る。強制ギャップを特定の周波数領域及び時間的位置に編成するかの決定は、一部の例において、オーディオ機器９０１ａ－９０１ｎのうちの１つ以上からのこれらの緊急信号の集約によって少なくとも部分的に決定され得る。例えば、緊急度によって通知される選択を行う開示のアルゴリズムは、代わりに、複数のオーディオ機器の緊急信号にわたって計算される最大緊急度、例えば、緊急度＝ｍａｘｉｍｕｍ（緊急度Ａ，緊急度Ｂ，緊急度Ｃ，…）を用いてもよく、ここで、緊急度Ａ／Ｂ／Ｃは、雑音補償を実装する３つの別々の機器例の緊急信号として理解される。

【0177】

雑音補償システム（例えば、図９のもの）は、（例えば、米国仮特許出願第６２／６６３，３０２号（ここに援用する）に記載されるように実装されるときに）エコーキャンセレーションを弱くしたり存在しないようにしたりして機能することができるが、特に音楽、ＴＶ、及び映画コンテンツの場合に、コンテンツ依存応答時間に悩まされることがある。雑音補償システムが再生環境内の背景雑音のプロファイルの変化に応答するのに要する時間は、ユーザ体験にとって非常に重要であり、実際の雑音推定値の精度よりも重要である時もある。再生コンテンツが、背景雑音をぼかすためのギャップを殆ど又は全く提供しないとき、雑音推定値は、雑音状態が変化するときにも固定されたままとなり得る。雑音推定スペクトルにおける欠損値を補間・補完することは典型的には有用であるが、雑音推定スペクトルの大きな領域がロックアップされて古びたものとなることが依然としてあり得る。

【0178】

図９のシステムの一部の実施形態は、（雑音推定器６４による）背景雑音推定値が、再生環境Ｅにおける背景雑音Ｎのプロファイルの典型的な変化に応答するのに十分な頻度で更新され得るのに十分な頻度で（例えば、強制ギャップ適用器７０の出力の関心ある各周波数バンドにおいて）発生する強制ギャップを（再生信号内に）提供するように動作可能であり得る。一部の例において、サブシステム７０は、雑音補償サブシステム６２から出力される補償済みオーディオ再生信号（Ｋ個のチャネルを有し、Ｋは正の整数である）に強制ギャップを導入するように構成され得る。ここで、雑音推定器６４は、補償済みオーディオ再生信号の各チャネル内のギャップ（サブシステム７０によって挿入された強制ギャップを含む）を探索し、それらのギャップが発生する周波数バンドについて（及び時間間隔において）雑音推定値を生成するように構成され得る。この例において、オーディオ機器９０１ａの雑音推定器６４は、雑音推定値９１０ａを雑音補償サブシステム６２に提供するように構成される。一部の例によれば、オーディオ機器９０１ａの雑音推定器６４はまた、検出されたギャップに関して結果として得られた情報を用いて、その緊急度値が補償済みオーディオ再生信号の周波数バンドに強制ギャップを挿入することについての緊急性を追跡するものである推定緊急度信号を生成する（及び編成側機器９０５に提供する）ように構成されてもよい。

【0179】

この例において、雑音推定器６４は、マイクロフォンフィード（マイク）（再生環境Ｅ内のマイクロフォンＭの出力）と、補償済みオーディオ再生信号の基準（再生環境Ｅ内のスピーカシステムＳへの入力）との両方を受け入れるように構成される。この例によれば、サブシステム６４において生成された雑音推定値が雑音補償サブシステム６２に提供され、雑音補償サブシステム６２が、（コンテンツソース２２からの）入力再生信号２３の各周波数バンドを所望の再生レベルに平準化するように、入力再生信号２３に補償利得を適用する。この例において、雑音補償済みオーディオ再生信号（サブシステム６２からの出力）及びバンドごとの緊急性メトリック（編成側機器９０５から出力される緊急度信号によって示される）が強制ギャップ適用器７０に提供され、強制ギャップ適用器７０が、（好ましくは最適化プロセスに従って）補償済み再生信号内にギャップを強制する。各々が雑音補償済み再生信号（強制ギャップ適用器７０からの出力）の異なるチャネルのコンテンツを示すものである（１つ以上の）スピーカフィードが、スピーカシステムＳの各スピーカに提供される。

【0180】

図９のシステムの一部の実装は、それが実行する雑音推定の要素としてエコーキャンセレーションを実行し得るが、図９のシステムの他の実装はエコーキャンセレーションを実行しない。従って、エコーキャンセレーションを実施するための要素は図９には具体的に示していない。

【0181】

図９には、信号の時間ドメインから周波数ドメインへの（及び／又は周波数ドメインから時間ドメインへの）変換は示していないが、（サブシステム６２における）雑音補償利得の適用、（編成側機器９０５、雑音推定器６４、及び／又は強制ギャップ適用器７０における）ギャップ強制のためのコンテンツの分析、及び（強制ギャップ適用器７０による）強制ギャップの挿入は、便宜のために同じ変換ドメインにおいて実装されることができ、結果として得られる出力オーディオは、再生の前又は伝送のための更なる符号化の前にＰＣＭ（時間ドメイン）オーディオに再合成され得る。一部の例によれば、各参加機器は、この中の他の箇所で説明される方法を用いて、このようなギャップの強制を調整する。一部のそのような例において、導入されるギャップは相等しくてもよい。一部の例において、導入されるギャップは同期されてもよい。

【0182】

各参加機器上に存在してギャップを挿入する強制ギャップ適用器７０の使用により、（図９のシステムの雑音補償サブシステム６２から出力される）補償済み再生信号の各チャネル内のギャップの数が、図９のシステムによって実装されるエコーキャンセラに対する要求を大幅に低減させるため、及び一部のケースではエコーキャンセレーションの必要性を完全になくしさえするために、（強制ギャップ適用器７０を使用しない場合に発生するギャップの数に対して）増加され得る。

【0183】

一部の開示される実装において、強制ギャップ適用器７０とスピーカシステムＳとの間に、例えば時間ドメインピーク制限又はスピーカ保護などの単純な後処理回路を実装することが可能である。しかしながら、スピーカフィードをブースト及び圧縮する能力を有する後処理は、強制ギャップ適用器によって挿入された強制ギャップの品質を取り消してしまったり低下させてしまったりする可能性があり、故に、それらのタイプの後処理は、好ましくは、強制ギャップ適用器７０より前の信号処理経路内のポイントに実装される。

【0184】

図１０は、開示される方法の他の一例を概説するフロー図である。方法１０００のブロックは、ここで説明される他の方法のように、必ずしも示される順序で実行される必要はない。また、このような方法は、図示及び／又は説明されるものよりも多数又は少数のブロックを含んでもよい。この例において、方法１０００はオーディオ処理方法である。

【0185】

方法１０００は、例えば図１Ｃに示して上述した装置１５０などの装置又はシステムによって実行され得る。一部の例において、方法１０００のブロックは、オーディオ環境内の１つ以上の機器によって実行されることができ、例えば、オーディオシステムコントローラ（例えば、ここでスマートホームハブと称するもの）などの編成側機器によって、又は例えばスマートスピーカ、テレビ、テレビ制御モジュール、ラップトップコンピュータ、モバイル機器（セルラー電話など）などのオーディオシステムの別のコンポーネントによって実行され得る。他の例において、オーディオ環境は、例えばオフィス環境、自動車環境、列車環境、街路若しくは歩道環境、公園環境などの、他のタイプの環境であってもよい。しかしながら、代わりの実装において、方法１０００の少なくとも一部のブロックは、例えばサーバなどの、クラウドベースのサービスを実装する機器によって実行され得る。

【0186】

この実装において、ブロック１００５は、制御システムにより、コンテンツストリームの第１時間間隔中のコンテンツストリームの第１オーディオ再生信号の第１周波数レンジ内に第１ギャップを挿入させて、オーディオ環境の第１オーディオ機器向けの第１改変オーディオ再生信号を生成することを含む。この例において、第１ギャップは、第１周波数レンジ内の第１オーディオ再生信号の減衰に一致する。この例において、ブロック１０１０は、制御システムにより、第１オーディオ機器に第１改変オーディオ再生信号を再生させて、第１オーディオ機器再生音を生成することを含む。

【0187】

この例において、ブロック１０１５は、制御システムにより、コンテンツストリームの第１時間間隔中のコンテンツストリームの第２オーディオ再生信号の第１周波数レンジ内に第１ギャップを挿入させて、オーディオ環境の第２オーディオ機器向けの第２改変オーディオ再生信号を生成することを含む。この例によれば、ブロック１０２０は、制御システムにより、第２オーディオ機器に第２改変オーディオ再生信号を再生させて、第２オーディオ機器再生音を生成することを含む。

【0188】

この実装によれば、ブロック１０２５は、制御システムにより、オーディオ環境の少なくとも１つのマイクロフォンに、少なくとも第１オーディオ機器再生音及び第２オーディオ機器再生音を検出させ、少なくとも第１オーディオ機器再生音及び第２オーディオ機器再生音に対応するマイクロフォン信号を生成させることを含む。この例において、ブロック１０３０は、制御システムにより、少なくとも第１周波数レンジ内のマイクロフォン信号からオーディオデータを抽出して、抽出オーディオデータを生成することを含む。この実装によれば、ブロック１０３５は、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答又はオーディオ環境雑音のうちの少なくとも一方を推定することを含む。

【0189】

一部の実装において、方法１０００は、ターゲットオーディオ機器に、コンテンツストリームの未改変オーディオ再生信号を再生させて、ターゲットオーディオ機器再生音を生成することを含み得る。一部のこのような実装は、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器可聴性又はターゲットオーディオ機器位置のうちの少なくとも一方を推定することを含み得る。一部のこのような例において、未改変オーディオ再生信号は、第１ギャップを含まない。一部の例において、未改変オーディオ再生信号は、いずれの周波数レンジにも挿入されたギャップを含まない。一部のこのような例において、マイクロフォン信号はまた、ターゲットオーディオ機器再生音にも対応する。

【0190】

一部の実装によれば、第１改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第２乃至第Ｎ時間間隔中の第１オーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含み得る。一部のこのような例において、第２改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第２乃至第Ｎ時間間隔中の第２オーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含み得る。一部の例によれば、少なくとも第１ギャップ（一部の例では全てのギャップ）は、知覚的にマスクされ得る。

【0191】

一部の実装において、方法１０００は、制御システムにより、コンテンツストリームの第１時間間隔中のコンテンツストリームの第３乃至第Ｍオーディオ再生信号の第１周波数レンジ内に第１ギャップを挿入させて、オーディオ環境の第３乃至第Ｍオーディオ機器向けの第３乃至第Ｍ改変オーディオ再生信号を生成することを含み得る。一部のこのような例は、制御システムにより、第３乃至第Ｍオーディオ機器に第３乃至第Ｍ改変オーディオ再生信号のうち対応するものを再生させて、第３乃至第Ｍオーディオ機器再生音を生成することを含むことができ、マイクロフォン信号を生成することは、制御システムにより、オーディオ環境の少なくとも１つのマイクロフォンに第３乃至第Ｍオーディオ機器再生音を検出させることを含む。一部のこのような例において、第１乃至第Ｍ改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第２乃至第Ｎ時間間隔中の第１乃至第Ｍオーディオ再生信号の第２乃至第Ｎ周波数レンジ内に第２乃至第Ｎギャップを挿入させることを含む。

【0192】

【0193】

一部の実装において、方法１０００は、基準ビンを第１機器から第２機器に送信させることを含み得る。第１機器は、一部の例において、ターゲット機器とし得る。基準ビンは、例えば、第１周波数レンジにおけるターゲット機器の出力に対応し得る。

【0194】

一部の例によれば、第１ギャップを挿入させることは、第１ギャップを挿入するための命令を送信することを含み得る。一部の代わりの実装において、第１ギャップを挿入させることは、第１ギャップを挿入することを含み得る。

【0195】

一部の実装において、第１オーディオ機器に第１改変オーディオ再生信号を再生させることは、第１改変オーディオ再生信号を再生する命令を第１オーディオ機器に送信することを含み得る。一部の例によれば、第１改変オーディオ再生信号及び第２改変オーディオ再生信号は、少なくとも部分的に相関性があるとし得る。

【0196】

本開示の一部の態様は、開示される方法の１つ以上の例を実行するように構成される（例えば、プログラムされる）システム又は装置、並びに、開示される方法の１つ以上の例又はそのステップを実装するためのコードを格納する有形のコンピュータ読み取り可能媒体（例えば、ディスク）を含む。例えば、一部の開示されるシステムは、開示される方法の一実施形態又はそのステップを含め、多様な処理のうちのいずれかをデータに対して実行するようにソフトウェア又はファームウェアでプログラミングされた又はその他の方法で構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、又はマイクロプロセッサであるか、それを含むかであることができる。そのような汎用プロセッサは、入力装置と、メモリと、それに対してアサートされるデータに応答して開示される方法の１つ以上の例（又はそのステップ）を実行するようにプログラムされる（及び／又はその他の方法で構成される）プロセッシングサブシステムと、を含むコンピュータシステムであるか、それを含むかであるとし得る。

【0197】

一部の実施形態は、開示された方法の１つ以上の例の実行を含め、（１つ以上の）オーディオ信号に対して必要な処理を実行するように構成された（例えば、プログラムされた、及びその他の方法で構成された）コンフィギュラブル（例えば、プログラマブル）デジタル信号プロセッサ（ＤＳＰ）として実装され得る。あるいは、開示されるシステム（又はその要素）の実施形態は、開示された方法の１つ以上の例を含む多様な処理のうちのいずれかを実行するように、ソフトウェア若しくはファームウェアでプログラムされた、及び／又はその他の方法で構成された、汎用プロセッサ（例えば、入力デバイス及びメモリを含み得るパーソナルコンピュータ（ＰＣ）又は他のコンピュータシステム若しくはマイクロプロセッサ）として実装され得る。あるいは、本発明のシステムの一部の実施形態の要素は、開示された方法の１つ以上の例を実行するように構成された（例えば、プログラムされた）汎用プロセッサ又はＤＳＰとして実装されてもよく、システムはまた、他の要素（例えば、１つ以上のラウドスピーカ及び／又は１つ以上のマイクロフォン）を含む。開示された方法の１つ以上の例を実行するように構成された汎用プロセッサは、入力デバイス（例えば、マウス及び／又はキーボード）、メモリ、及びディスプレイデバイスに結合され得る。

【0198】

本開示の他の一態様は、開示された方法又はそのステップの１つ以上の例を実行するためのコード（例えば、実行するように実行可能なコーダ）を格納するコンピュータ読み取り可能媒体（例えば、ディスク又は他の有形記憶媒体）である。

【0199】

本開示の特定の実施形態及び本開示の用途をここで説明してきたが、当業者に明らかになることには、ここで説明されて特許請求される本開示の範囲から逸脱することなく、ここで説明された実施形態及び用途に対する数多くのバリエーションが可能である。理解されるべきことには、本開示の特定の形態が図示されて説明されているが、本開示は、記載及び図示された特定の実施形態又は記載された特定の方法に限定されるべきでない。

【図1A】