IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧 ▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-12
(54)【発明の名称】パーベイシブ音響マッピング
(51)【国際特許分類】
   G10K 15/00 20060101AFI20240104BHJP
   H04R 3/00 20060101ALI20240104BHJP
【FI】
G10K15/00 L
H04R3/00 310
H04R3/00 320
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023533816
(86)(22)【出願日】2021-12-02
(85)【翻訳文提出日】2023-06-14
(86)【国際出願番号】 IB2021000788
(87)【国際公開番号】W WO2022118072
(87)【国際公開日】2022-06-09
(31)【優先権主張番号】P202031212
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】ES
(31)【優先権主張番号】63/120,963
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/120,887
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/121,007
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/121,085
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/155,369
(32)【優先日】2021-03-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/201,561
(32)【優先日】2021-05-04
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】P202130458
(32)【優先日】2021-05-20
(33)【優先権主張国・地域又は機関】ES
(31)【優先権主張番号】63/203,403
(32)【優先日】2021-07-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/224,778
(32)【優先日】2021-07-22
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】P202130724
(32)【優先日】2021-07-26
(33)【優先権主張国・地域又は機関】ES
(31)【優先権主張番号】63/260,528
(32)【優先日】2021-08-24
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/260,529
(32)【優先日】2021-08-24
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/260,953
(32)【優先日】2021-09-07
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/260,954
(32)【優先日】2021-09-07
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/261,769
(32)【優先日】2021-09-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ZIGBEE
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】トーマス,マーク アール. ピー.
(72)【発明者】
【氏名】サウスウェル,ベンジャミン ジョン
(72)【発明者】
【氏名】ブルーニ,アヴェリー
(72)【発明者】
【氏名】タウンゼンド,オルハ ミシェル
(72)【発明者】
【氏名】アルテアガ,ダニエル
(72)【発明者】
【氏名】スカイニ,ダヴィデ
(72)【発明者】
【氏名】ハインズ,クリストファー グレアム
(72)【発明者】
【氏名】ゼーフェルト,アラン ジェイ.
(72)【発明者】
【氏名】グナワン,デイヴィッド
(72)【発明者】
【氏名】ブラウン,シー. フィリップ
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220AA50
5D220BA30
(57)【要約】
いくつかの方法は、オーディオ信号を含む第1のコンテンツ・ストリームを受信する段階と;第1のオーディオ信号をレンダリングして第1のオーディオ再生信号を生成する段階と;第1の較正信号を生成する段階と;第1の較正信号を第1のオーディオ再生信号に挿入することによって第1の修正オーディオ再生信号を生成する段階と;ラウドスピーカー・システムに、第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させる段階とを含む。方法は、少なくとも第1のオーディオ・デバイス再生音と、第2ないし第Nのオーディオ・デバイスによって再生された(第2ないし第Nの較正信号を含む)第2ないし第Nの修正オーディオ再生信号に対応する第2ないし第Nのオーディオ・デバイス再生音とに対応するマイクロフォン信号を受信する段階と;マイクロフォン信号から第2ないし第Nの較正信号を抽出する段階と;少なくとも部分的には第2ないし第Nの較正信号に基づいて少なくとも1つの音響シーン・メトリックを推定する段階とを含みうる。
【特許請求の範囲】
【請求項1】
制御システムによって、オーディオ環境の第1のオーディオ・デバイスに第1の較正信号を生成させることと;
前記制御システムによって、前記第1の較正信号を第1のコンテンツ・ストリームに対応する第1のオーディオ再生信号に挿入させて、前記第1のオーディオ・デバイスについての第1の修正オーディオ再生信号を生成させることと;
前記制御システムによって、前記第1のオーディオ・デバイスに、前記第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させることと;
前記制御システムによって、前記オーディオ環境の第2のオーディオ・デバイスに第2の較正信号を生成させることと;
前記制御システムによって、前記第2の較正信号を第2のコンテンツ・ストリームに挿入させて、前記第2のオーディオ・デバイスについての第2の修正オーディオ再生信号を生成させることと;
前記制御システムによって、前記第2のオーディオ・デバイスに、前記第2の修正オーディオ再生信号を再生させて、第2のオーディオ・デバイス再生音を生成させることと;
前記制御システムによって、前記オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも前記第1のオーディオ・デバイス再生音および前記第2のオーディオ・デバイス再生音を検出させ、少なくとも前記第1のオーディオ・デバイス再生音および前記第2のオーディオ・デバイス再生音に対応するマイクロフォン信号を生成させることと;
前記制御システムによって、前記第1の較正信号および前記第2の較正信号を前記マイクロフォン信号から抽出させることと;
前記制御システムによって、少なくとも1つの音響シーン・メトリックを、前記第1の較正信号および前記第2の較正信号に少なくとも部分的に基づいて推定させることとを含む、
オーディオ処理方法。
【請求項2】
前記第1の較正信号は、前記第1のオーディオ・デバイス再生音の第1の可聴以下成分に対応し、前記第2の較正信号は、前記第2のオーディオ・デバイス再生音の第2の可聴以下成分に対応する、請求項1に記載のオーディオ処理方法。
【請求項3】
前記第1の較正信号は、第1のDSSS信号を含み、前記第2の較正信号は、第2のDSSS信号を含む、請求項1または2に記載のオーディオ処理方法。
【請求項4】
前記制御システムによって、前記第1のコンテンツ・ストリームの第1の時間区間中に、前記第1のオーディオ再生信号または前記第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入させることであって、前記第1のギャップは、前記第1の周波数範囲における前記第1のオーディオ再生信号の減衰を含み、前記第1の修正オーディオ再生信号および前記第1のオーディオ・デバイス再生音は、前記第1のギャップを含む、ことと;
前記制御システムによって、前記第1の時間区間中に前記第2のオーディオ再生信号または前記第2の修正オーディオ再生信号の前記第1の周波数範囲内に前記第1のギャップを挿入させることであって、前記第2の修正オーディオ再生信号および前記第2のオーディオ・デバイス再生音は、前記第1のギャップを含む、ことと;
前記制御システムによって、少なくとも前記第1の周波数範囲における前記マイクロフォン信号からのオーディオ・データを抽出させて、抽出されたオーディオ・データを生成させることと;
前記制御システムによって、少なくとも1つの音響シーン・メトリックを、前記抽出されたオーディオ・データに少なくとも部分的に基づいて推定させることとをさらに含む、
請求項1ないし3のうちいずれか一項に記載のオーディオ処理方法。
【請求項5】
較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないように、ギャップ挿入および較正信号生成を制御することをさらに含む、請求項4に記載のオーディオ処理方法。
【請求項6】
少なくとも1つの周波数帯域においてノイズが推定されてからの時間に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することをさらに含む、請求項4または5に記載のオーディオ処理方法。
【請求項7】
少なくとも1つの周波数帯域における少なくとも1つのオーディオ・デバイスの較正信号の信号対雑音比に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することをさらに含む、請求項4ないし6のうちいずれか一項に記載のオーディオ処理方法。
【請求項8】
ターゲット・オーディオ・デバイスに、ターゲット・デバイス・コンテンツ・ストリームの修正されていないオーディオ再生信号を再生させて、ターゲット・オーディオ・デバイス再生音を生成させることと;
前記制御システムによって、ターゲット・オーディオ・デバイス可聴性またはターゲット・オーディオ・デバイス位置の少なくとも一方を、前記抽出されたオーディオ・データに少なくとも部分的に基づいて推定させることとをさらに含み、
前記修正されていないオーディオ再生信号は、前記第1のギャップを含まず;
前記マイクロフォン信号は、前記ターゲット・オーディオ・デバイス再生音にも対応する、
請求項4ないし7のうちいずれか一項に記載のオーディオ処理方法。
【請求項9】
前記修正されていないオーディオ再生信号は、いずれの周波数範囲に挿入されたギャップも含まない、請求項8に記載のオーディオ処理方法。
【請求項10】
前記少なくとも1つの音響シーン・メトリックは、飛行時間、到着時間、到来方向、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、または信号対雑音比のうちの一つまたは複数を含む、請求項1ないし9のうちいずれか一項に記載のオーディオ処理方法。
【請求項11】
前記少なくとも1つの音響シーン・メトリックを推定させることは、前記少なくとも1つの音響シーン・メトリックを推定すること、または別のデバイスに少なくとも1つの音響シーン・メトリックを推定させることを含む、請求項1ないし10のうちいずれか一項に記載のオーディオ処理方法。
【請求項12】
前記少なくとも1つの音響シーン・メトリックに少なくとも部分的に基づいて、オーディオ・デバイス再生の一つまたは複数の側面を制御することをさらに含む、請求項1ないし11のうちいずれか一項に記載のオーディオ処理方法。
【請求項13】
前記第1のオーディオ・デバイス再生音の第1のコンテンツ・ストリーム成分は、前記第1のオーディオ・デバイス再生音の第1の較正信号成分の知覚的マスキングを引き起こし、前記第2のオーディオ・デバイス再生音の第2のコンテンツ・ストリーム成分は、前記第2のオーディオ・デバイス再生音の第2の較正信号成分の知覚的マスキングを引き起こす、請求項1ないし12のうちいずれか一項に記載のオーディオ処理方法。
【請求項14】
前記制御システムが統率デバイス制御システムである、請求項1ないし13のうちいずれか一項に記載のオーディオ処理方法。
【請求項15】
前記制御システムによって、前記オーディオ環境の第3ないし第Nのオーディオ・デバイスに、第3ないし第Nの較正信号を生成させることと;
前記制御システムによって、前記第3ないし第Nの較正信号を第3ないし第Nのコンテンツ・ストリームに挿入させて、前記第3ないし第Nのオーディオ・デバイスについての第3ないし第Nの修正オーディオ再生信号を生成させることと;
前記制御システムによって、前記第3ないし第Nのオーディオ・デバイスに、前記第3ないし第Nの修正オーディオ再生信号の対応するインスタンスを再生させて、オーディオ・デバイス再生音の第3ないし第Nのインスタンスを生成させることとをさらに含む、
請求項1ないし14のうちいずれか一項に記載のオーディオ処理方法。
【請求項16】
前記制御システムによって、前記第1ないし第Nのオーディオ・デバイスのそれぞれの少なくとも1つのマイクロフォンに、オーディオ・デバイス再生音の第1ないし第Nのインスタンスを検出させ、オーディオ・デバイス再生音の前記第1ないし第Nのインスタンスに対応するマイクロフォン信号を生成させることであって、オーディオ・デバイス再生音の前記第1ないし第Nのインスタンスは、前記第1のオーディオ・デバイス再生音、前記第2のオーディオ・デバイス再生音、およびオーディオ・デバイス再生音の前記第3ないし第Nのインスタンスを含む、ことと;
前記制御システムによって、前記第1ないし第Nの較正信号を前記マイクロフォン信号から抽出させることであって、前記少なくとも1つの音響シーン・メトリックは、第1ないし第Nの較正信号に少なくとも部分的に基づいて推定される、こととをさらに含む、
請求項15に記載のオーディオ処理方法。
【請求項17】
前記オーディオ環境における複数のオーディオ・デバイスのための一つまたは複数の較正信号パラメータを決定することであって、前記一つまたは複数の較正信号パラメータは、較正信号の生成のために使用可能である、ことと;
前記一つまたは複数の較正信号パラメータを前記複数のオーディオ・デバイスの各オーディオ・デバイスに提供することとをさらに含む、
請求項1ないし16のうちいずれか一項に記載のオーディオ処理方法。
【請求項18】
前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数のオーディオ・デバイスの各オーディオ・デバイスのための時間スロットをスケジュールすることを含み、第1のオーディオ・デバイスのための第1の時間スロットは、第2のオーディオ・デバイスのための第2の時間スロットとは異なる、請求項17に記載のオーディオ処理方法。
【請求項19】
前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数のオーディオ・デバイスの各オーディオ・デバイスのための周波数帯域を決定することを含む、請求項17に記載のオーディオ処理方法。
【請求項20】
第1のオーディオ・デバイスのための第1の周波数帯域は、第2のオーディオ・デバイスのための第2の周波数帯域とは異なる、請求項19に記載のオーディオ処理方法。
【請求項21】
前記一つまたは複数の較正信号パラメータを決定することは、前記複数のオーディオ・デバイスの各オーディオ・デバイスのためのDSSS拡散符号を決定することを含む、請求項17ないし20のうちいずれか一項に記載のオーディオ処理方法。
【請求項22】
第1のオーディオ・デバイスのための第1の拡散符号は、第2のオーディオ・デバイスのための第2の拡散符号とは異なる、請求項21に記載のオーディオ処理方法。
【請求項23】
対応するオーディオ・デバイスの可聴性に少なくとも部分的に基づく少なくとも1つの拡散符号長を決定することをさらに含む、請求項21または22に記載の装置。
【請求項24】
前記一つまたは複数の較正信号パラメータを決定することは、前記オーディオ環境における複数のオーディオ・デバイスのそれぞれの相互可聴性に少なくとも部分的に基づく音響モデルを適用することを含む、請求項17ないし23のうちいずれか一項に記載のオーディオ処理方法。
【請求項25】
あるオーディオ・デバイスのための較正信号パラメータが最大堅牢性のレベルにあることを判別することと;
前記オーディオ・デバイスからの較正信号が前記マイクロフォン信号から成功裏に抽出できないことを判別することと;
すべての他のオーディオ・デバイスに、対応するオーディオ・デバイス再生音の少なくとも一部分をミュートさせることとをさらに含む、
請求項17ないし24のうちいずれか一項に記載のオーディオ処理方法。
【請求項26】
前記一部分は、較正信号成分を含む、請求項25に記載のオーディオ処理方法。
【請求項27】
前記オーディオ環境における複数のオーディオ・デバイスのそれぞれに、修正オーディオ再生信号を同時に再生させることをさらに含む、請求項1ないし26のうちいずれか一項に記載のオーディオ処理方法。
【請求項28】
前記第1のオーディオ再生信号の少なくとも一部、前記第2のオーディオ再生信号の少なくとも一部、または前記第1のオーディオ再生信号および前記第2のオーディオ再生信号のそれぞれの少なくとも一部は、無音に対応する、請求項1ないし27のうちいずれか一項に記載のオーディオ処理方法。
【請求項29】
請求項1ないし28のうちいずれか一項に記載の方法を実行するように構成された装置。
【請求項30】
請求項1ないし28のうちいずれか一項に記載の方法を実行するように構成されたシステム。
【請求項31】
請求項1ないし28のうちいずれか一項に記載の方法を実行するように一つまたは複数のデバイスを制御するための命令を含むソフトウェアが記憶されている、一つまたは複数の非一時的媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2020年12月3日に出願されたスペイン特許出願第P202031212号;2020年12月3日に出願された米国仮特許出願第63/120,963号;2020年12月3日に出願された米国仮特許出願第63/120,887号;2020年12月3日に出願された米国仮特許出願第63/121,007号;2020年12月3日に出願された米国仮特許出願第63/121,085号;2021年3月2日に出願された米国仮特許出願第63/155,369号;2021年5月4日に出願された米国仮特許出願第63/201,561号;2021年5月20日に出願されたスペイン特許出願第P202130458号;2021年7月21日に出願された米国仮特許出願第63/203,403号;2021年7月22日に出願された米国仮特許出願第63/224,778号;2021年7月26日に出願されたスペイン特許出願第P202130724号;2021年8月24日に出願された米国仮特許出願第63/260,528号;2021年8月24日に出願された米国仮特許出願第63/260,529号;2021年9月7日に出願された米国仮特許出願第63/260,953号;2021年9月7日に出願された米国仮特許出願第63/260,954号;2021年9月28日に出願された米国仮特許出願第63/261,769号に対する優先権の利益を主張するものであり、これらのすべては参照により本明細書に組み込まれる。
【0002】
技術分野
本開示は、オーディオ処理システムおよび方法に関する。
【背景技術】
【0003】
オーディオ・デバイスおよびシステムが広く展開されている。音響シーン・メトリック(たとえば、オーディオ・デバイス可聴性)を推定するための既存のシステムおよび方法が知られているが、改善されたシステムおよび方法が望ましいであろう。
【0004】
記法および名称
特許請求の範囲を含め、本開示全体を通じて、用語「スピーカー」、「ラウドスピーカー」、「オーディオ再生トランスデューサ」は、任意の放音トランスデューサ(またはトランスデューサの集合)を表すために同義で使用される。ヘッドフォンの典型的なセットは、2つのスピーカーを含む。スピーカーは、単一の共通スピーカー・フィードによって、または複数のスピーカー・フィードによって駆動されうる複数のトランスデューサ(たとえば、ウーファーおよびツイーター)を含むように実装されうる。いくつかの例では、スピーカー・フィードは、異なるトランスデューサに結合された異なる回路分枝において異なる処理を受けることができる。
【0005】
特許請求の範囲を含め、本開示全体を通じて、信号またはデータ「に対して」動作を実行するという表現(たとえば、信号またはデータのフィルタリング、スケーリング、変換、または利得の適用)は、広い意味で使用され、信号またはデータに対して該動作を直接実行すること、または信号またはデータの処理されたバージョンに対して(たとえば、該動作の実行前に予備的なフィルタリングまたは前処理を受けた該信号のバージョンに対して)該動作を実行することを示す。
【0006】
特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、広い意味でデバイス、システム、またはサブシステムを示すために使用される。たとえば、デコーダを実装するサブシステムがデコーダ・システムと称されることがあり、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、そのサブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部ソースから受領されるシステム)もデコーダ・システムと称することもできる。
【0007】
特許請求の範囲を含む本開示全体を通じて、用語「プロセッサ」は、データ(たとえば、オーディオ、ビデオまたは他の画像データ)に対して動作を実行するために、プログラム可能なまたは他の仕方で(たとえば、ソフトウェアまたはファームウェアを用いて)構成可能なシステムまたはデバイスを示すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他の音声データに対してパイプライン処理を実行するようにプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットを含む。
【0008】
特許請求の範囲を含む本開示全体を通じて、用語「結合する」または「結合され」は、直接的または間接的接続を意味するために使用される。よって、第1のデバイスが第2のデバイスに結合する場合、その接続は、直接接続を通じて、または他のデバイスおよび接続を介した間接接続を通じてでありうる。
【0009】
本明細書で使用されるところでは、「スマート・デバイス」とは、Bluetooth、Zigbee、近接場通信、Wi-Fi、光忠実度(Li-Fi)、3G、4G、5Gなどのさまざまな無線プロトコルを介して、一つまたは複数の他のデバイス(またはネットワーク)と通信するように一般的に構成された電子デバイスであって、ある程度対話的におよび/または自律的に動作することができるものである。スマート・デバイスのいくつかの顕著なタイプは、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレットとタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、スマート・オーディオ・デバイスである。「スマート・デバイス」という用語は、人工知能のようなユビキタスコンピューティングのいくつかの特性を示すデバイスを指すこともある。
【0010】
本明細書で使用されるところでは、「スマート・オーディオ・デバイス」という表現は、単一目的のオーディオ・デバイスまたは多目的のオーディオ・デバイス(たとえば、バーチャル・アシスタント機能の少なくともいくつかの側面を実装するオーディオ・デバイス)のいずれかであるスマート・デバイスを示す。単一目的のオーディオ・デバイスは、少なくとも1つのマイクロフォン(および、任意的には少なくとも1つのスピーカーおよび/または少なくとも1つのカメラを含むかまたはそれに結合される)を含むかまたはそれに結合されるデバイス(たとえば、テレビ(TV))であって、大部分がまたは主として単一目的を達成するように設計されたものである。たとえば、テレビは、典型的には、番組素材からオーディオを再生することができる(また、再生することができると考えられる)が、ほとんどの場合、現代のテレビは、何らかのオペレーティングシステムを実行し、その上でテレビ視聴アプリケーションを含むアプリケーションがローカルに動作する。この意味で、スピーカーおよびマイクロフォンを有する単一目的のオーディオ・デバイスは、しばしば、スピーカーおよびマイクロフォンを直接使用するローカル・アプリケーションおよび/またはサービスを実行するように構成される。いくつかの単一目的の諸オーディオ・デバイスが、ゾーンまたはユーザー構成されたエリアにわたるオーディオの再生を達成するよう、グループ化するように構成されうる。
【0011】
多目的オーディオ・デバイスの一つの一般的なタイプは、バーチャル・アシスタント機能の少なくともいくつかの側面を実装するオーディオ・デバイスであるが、バーチャル・アシスタント機能の他の側面は、多目的オーディオ・デバイスが通信するように構成されている一つまたは複数のサーバーのような一つまたは複数の他のデバイスによって実装されてもよい。そのような多目的オーディオ・デバイスは、本明細書では「バーチャル・アシスタント」と称されることがある。バーチャル・アシスタントは、少なくとも1つのマイクロフォンを含むまたはそれに結合される(および、任意的には、少なくとも1つのスピーカーおよび/または少なくとも1つのカメラを含むまたはそれに結合される)デバイス(たとえば、スマート・スピーカーまたは音声アシスタント統合デバイス)である。いくつかの例では、バーチャル・アシスタントは、ある意味ではクラウドで可能にされる、または他の仕方で完全にはバーチャル・アシスタント自体の中または上には実装されていないアプリケーションのために複数のデバイス(そのバーチャル・アシスタントとは異なる)を利用する能力を提供することができる。言い換えると、バーチャル・アシスタント機能の少なくともいくつかの側面、たとえば、音声認識機能は、(少なくとも部分的には)バーチャル・アシスタントがインターネットなどのネットワークを介して通信することができる一つまたは複数のサーバーまたは他のデバイスによって実装されてもよい。バーチャル・アシスタントどうしは、時に、たとえば離散的で、条件付きで定義された仕方で、協働することがある。たとえば、2以上のバーチャル・アシスタントは、そのうちの一つ、たとえば、ウェイクワードを聞いたことに最も自信があるバーチャル・アシスタントがそのワードに応答するという意味で、協働することができる。接続された諸バーチャル・アシスタントは、いくつかの実装では、一種のコンステレーションを形成することができ、これは、バーチャル・アシスタントであってもよい(またはそれを実装してもよい)1つのメイン・アプリケーションによって管理されてもよい。
【0012】
ここで、「ウェイクワード」とは、任意の音(たとえば、人間によって発声された単語、または何らかの他の音)を意味するために広義で使用され、スマート・オーディオ・デバイスは、その音の検出(「聞く」)(スマート・オーディオ・デバイスに含まれるかまたはそれに結合される少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを使用する)に応答して、覚醒するように構成される。この文脈において、「覚醒」とは、デバイスが音声コマンドを待つ(すなわち、音声コマンドがあるかどうか傾聴する)状態に入ることを表す。いくつかの事例では、本明細書において「ウェイクワード」と称されうるものは、複数の単語、たとえば、フレーズを含んでいてもよい。
【0013】
ここで、「ウェイクワード検出器」という表現は、リアルタイムの音声(たとえば、発話)特徴とトレーニングされたモデルとの間の整列を連続的に探すよう構成されたデバイス(またはデバイスを構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードが検出された確率が所定の閾値を超えることがウェイクワード検出器によって判別されるときは常に、ウェイクワード・イベントがトリガーされる。たとえば、閾値は、誤受理率と誤拒否率との間の合理的な妥協を与えるように調整された所定の閾値であってもよい。ウェイクワード・イベントに続いて、デバイスは、それがコマンドを待ち受け、受け取ったコマンドをより大きな、より計算集約的な認識器に渡す状態(「覚醒した」状態または「注意を払っている」状態と呼ばれてもよい)にはいってもよい。
【0014】
本明細書で使用されるところでは、用語「プログラム・ストリーム」および「コンテンツ・ストリーム」は、一つまたは複数のオーディオ信号の集合を指し、場合によっては少なくとも一部が一緒に聴取されることが意図されるビデオ信号を指す。例は、音楽、映画のサウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成音声応答などのセレクションを含む。いくつかの事例では、コンテンツ・ストリームは、オーディオ信号の少なくとも一部の複数のバージョン、たとえば、複数の言語での同じダイアログを含むことがある。そのような事例において、一時には、オーディオ・データまたはその一部の1つのバージョン(たとえば、単一言語に対応するバージョン)のみが再生されることが意図されている。
【発明の概要】
【課題を解決するための手段】
【0015】
本開示の少なくともいくつかの側面は、一つまたは複数のオーディオ処理方法を介して実装されうる。いくつかの事例では、方法は、少なくとも部分的に、制御システムによって、および/または一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)を介して、実装されうる。いくつかの方法は、制御システムによって、オーディオ環境の第1のオーディオ・デバイスに第1の較正信号を生成させることと、制御システムによって、第1のコンテンツ・ストリームに対応する第1のオーディオ再生信号に前記第1の較正信号を挿入させて、第1のオーディオ・デバイスについての第1の修正オーディオ再生信号を生成させることとに関わってもよい。いくつかのそのような方法は、制御システムによって、第1のオーディオ・デバイスに、第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させることに関わってもよい。
【0016】
いくつかのそのような方法は、制御システムによって、オーディオ環境の第2のオーディオ・デバイスに第2の較正信号を生成させるステップと、制御システムによって、第2の較正信号を第2のコンテンツ・ストリームに挿入させて、第2のオーディオ・デバイスについての第2の修正オーディオ再生信号を生成させるステップと、制御システムによって、第2のオーディオ・デバイスに、第2の修正オーディオ再生信号を再生させて、第2のオーディオ・デバイス再生音を生成させるステップとに関わってもよい。
【0017】
いくつかのそのような方法は、制御システムによって、オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも第1のオーディオ・デバイス再生音および第2のオーディオ・デバイス再生音を検出させ、少なくとも第1のオーディオ・デバイス再生音および第2のオーディオ・デバイス再生音に対応するマイクロフォン信号を生成させることに関わってもよい。いくつかのそのような方法は、制御システムによって、第1の較正信号および第2の較正信号をマイクロフォン信号から抽出させることに関わってもよい。いくつかのそのような方法は、制御システムによって、少なくとも1つの音響シーン・メトリックを、第1の較正信号および第2の較正信号に少なくとも部分的に基づいて推定させることに関わってもよい。
【0018】
いくつかの実装では、制御システムは、統率デバイス制御システムであってもよい。
【0019】
いくつかの例では、第1の較正信号は、第1のオーディオ・デバイス再生音の第1の可聴以下成分に対応してもよく、第2の較正信号は、第2のオーディオ・デバイス再生音の第2の可聴以下成分に対応してもよい。いくつかの例によれば、第1の較正信号は、第1のDSSS信号であってもよく、またはそれを含んでいてもよく、第2の較正信号は、第2のDSSS信号であってもよく、またはそれを含んでいてもよい。
【0020】
いくつかの方法は、制御システムによって、第1のコンテンツ・ストリームの第1の時間区間中に、第1のオーディオ再生信号または第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入させることに関わってもよい。第1のギャップは、第1の周波数範囲における第1のオーディオ再生信号の減衰であってもよく、またはそれを含んでいてもよい。いくつかのそのような例では、第1の修正オーディオ再生信号および第1のオーディオ・デバイス再生音は、前記第1のギャップを含んでいてもよい。
【0021】
いくつかの方法は、制御システムによって、第1の時間区間中に第2のオーディオ再生信号または第2の修正オーディオ再生信号の第1の周波数範囲内に第1のギャップを挿入させることに関わってもよい。いくつかのそのような例では、第2の修正オーディオ再生信号および第2のオーディオ・デバイス再生音は、前記第1のギャップを含んでいてもよい。
【0022】
いくつかの方法は、制御システムによって、少なくとも第1の周波数範囲内のマイクロフォン信号からのオーディオ・データを抽出させて、抽出されたオーディオ・データを生成することに関わってもよい。いくつかのそのような方法は、制御システムによって、少なくとも1つの音響シーン・メトリックを、抽出されたオーディオ・データに少なくとも部分的に基づいて推定させることに関わってもよい。
【0023】
いくつかの方法は、較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないように、ギャップ挿入および較正信号生成を制御することに関わってもよい。いくつかの方法は、少なくとも1つの周波数帯域においてノイズが推定されてからの時間に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することに関わってもよい。いくつかの方法は、少なくとも1つの周波数帯域における少なくとも1つのオーディオ・デバイスの較正信号の信号対雑音比に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することに関わってもよい。
【0024】
いくつかの方法は、ターゲット・オーディオ・デバイスに、ターゲット・デバイス・コンテンツ・ストリームの修正されていないオーディオ再生信号を再生させて、ターゲット・オーディオ・デバイス再生音を生成することに関わってもよい。いくつかのそのような方法は、制御システムによって、ターゲット・オーディオ・デバイス可聴性および/またはターゲット・オーディオ・デバイス位置を、抽出されたオーディオ・データに少なくとも部分的に基づいて推定させることに関わってもよい。いくつかのそのような例では、修正されていないオーディオ再生信号は、第1のギャップを含まない。いくつかのそのような例によれば、マイクロフォン信号は、ターゲット・オーディオ・デバイス再生音にも対応してもよい。いくつかの事例では、修正されていないオーディオ再生信号は、いずれの周波数範囲に挿入されたギャップも含まない。
【0025】
いくつかの例では、少なくとも1つの音響シーン・メトリックは、飛行時間、到着時間、到来方向、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、信号対雑音比、またはそれらの組み合わせを含む。いくつかの実装によれば、少なくとも1つの音響シーン・メトリックを推定させることは、少なくとも1つの音響シーン・メトリックを推定することに関わってもよい。いくつかの実装では、少なくとも1つの音響シーン・メトリックを推定させることは、別のデバイスに少なくとも1つの音響シーン・メトリックを推定させることに関わってもよい。いくつかの例は、少なくとも1つの音響シーン・メトリックに少なくとも部分的に基づいて、オーディオ・デバイス再生の一つまたは複数の側面を制御することに関わってもよい。
【0026】
いくつかの実装によれば、第1のオーディオ・デバイス再生音の第1のコンテンツ・ストリーム成分は、第1のオーディオ・デバイス再生音の第1の較正信号成分の知覚的マスキングを引き起こしてもよい。いくつかのそのような実装では、第2のオーディオ・デバイス再生音の第2のコンテンツ・ストリーム成分は、第2のオーディオ・デバイス再生音の第2の較正信号成分の知覚的マスキングを引き起こしてもよい。
【0027】
いくつかの例は、制御システムによって、オーディオ環境の第3ないし第Nのオーディオ・デバイスに、第3ないし第Nの較正信号を生成させることに関わってもよい。いくつかのそのような例は、制御システムによって、第3ないし第Nのオーディオ・デバイスについての第3ないし第Nの修正オーディオ再生信号を生成するために、第3ないし第Nの較正信号を第3ないし第Nのコンテンツ・ストリームに挿入させることに関わってもよい。いくつかのそのような例は、制御システムによって、第3ないし第Nのオーディオ・デバイスに、第3ないし第Nの修正オーディオ再生信号の対応するインスタンスを再生させて、オーディオ・デバイス再生音の第3ないし第Nのインスタンスを生成させることに関わってもよい。
【0028】
いくつかのそのような例は、制御システムによって、第1ないし第Nのオーディオ・デバイスのそれぞれの少なくとも1つのマイクロフォンに、オーディオ・デバイス再生音の第1ないし第Nのインスタンスを検出させ、オーディオ・デバイス再生音の第1ないし第Nのインスタンスに対応するマイクロフォン信号を生成させることに関わってもよい。いくつかの事例では、オーディオ・デバイス再生音の第1ないし第Nのインスタンスは、第1のオーディオ・デバイス再生音、第2のオーディオ・デバイス再生音、およびオーディオ・デバイス再生音の第3ないし第Nのインスタンスを含んでいてもよい。いくつかのそのような例は、制御システムによって、第1ないし第Nの較正信号をマイクロフォン信号から抽出させることに関わってもよい。いくつかの実装では、少なくとも1つの音響シーン・メトリックは、第1ないし第Nの較正信号に少なくとも部分的に基づいて推定されてもよい。
【0029】
いくつかの例は、オーディオ環境における複数のオーディオ・デバイスのための一つまたは複数の較正信号パラメータを決定することに関わってもよい。いくつかの事例では、前記一つまたは複数の較正信号パラメータは、較正信号の生成のために使用可能でありうる。いくつかの例は、前記一つまたは複数の較正信号パラメータを前記複数のオーディオ・デバイスの各オーディオ・デバイスに提供することに関わってもよい。いくつかのそのような実装では、前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数のオーディオ・デバイスの各オーディオ・デバイスのための時間スロットをスケジュールすることに関わってもよい。いくつかの例では、第1のオーディオ・デバイスのための第1の時間スロットは、第2のオーディオ・デバイスのための第2の時間スロットとは異なっていてもよい。
【0030】
いくつかの例では、前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数のオーディオ・デバイスの各オーディオ・デバイスについての周波数帯域を決定することに関わってもよい。いくつかのそのような例では、第1のオーディオ・デバイスのための第1の周波数帯域は、第2のオーディオ・デバイスのための第2の周波数帯域とは異なっていてもよい。
【0031】
いくつかの例によれば、前記一つまたは複数の較正信号パラメータを決定することは、前記複数のオーディオ・デバイスの各オーディオ・デバイスのためのDSSS拡散符号を決定することに関わってもよい。いくつかの事例では、第1のオーディオ・デバイスのための第1の拡散符号は、第2のオーディオ・デバイスのための第2の拡散符号とは異なっていてもよい。いくつかの例は、対応するオーディオ・デバイスの可聴性に少なくとも部分的に基づく少なくとも1つの拡散符号長を決定することに関わってもよい。
【0032】
いくつかの例では、前記一つまたは複数の較正信号パラメータを決定することは、オーディオ環境における複数のオーディオ・デバイスのそれぞれの相互可聴性に少なくとも部分的に基づく音響モデルを適用することに関わってもよい。
【0033】
いくつかの方法は、オーディオ・デバイスのための較正信号パラメータが最大堅牢性のレベルにあることを判別することに関わってもよい。いくつかのそのような方法は、オーディオ・デバイスからの較正信号がマイクロフォン信号から成功裏に抽出できないことを判別することに関わってもよい。いくつかのそのような方法は、すべての他のオーディオ・デバイスに、対応するオーディオ・デバイス再生音の少なくとも一部分をミュートさせることに関わってもよい。いくつかの例では、この部分は、較正信号成分であってもよく、または較正信号成分を含んでいてもよい。
【0034】
いくつかの実装は、オーディオ環境における複数のオーディオ・デバイスのそれぞれに、修正オーディオ再生信号を同時に再生させることに関わってもよい。
【0035】
いくつかの例によれば、第1のオーディオ再生信号の少なくとも一部、第2のオーディオ再生信号の少なくとも一部、または第1のオーディオ再生信号および第2のオーディオ再生信号のそれぞれの少なくとも一部は、無音に対応する。
【0036】
本明細書で説明される動作、機能、および/または方法の一部または全部は、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれに限定されない、本明細書で説明するものなどのメモリデバイスを含みうる。よって、本開示で説明する主題のいくつかの革新的側面は、ソフトウェアが記憶された一つまたは複数の非一時的媒体を介して実装できる。
【0037】
本開示の少なくともいくつかの側面は、装置またはシステムを介して実装されうる。たとえば、一つまたは複数のデバイスは、本明細書で開示される方法を少なくとも部分的に実行することができてもよい。いくつかの実装では、装置は、インターフェース・システムおよび制御システムを有するオーディオ処理システムであるか、またはそれを含む。制御システムは、一つまたは複数の汎用の単一チップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、離散的ゲートまたはトランジスタ論理、離散的ハードウェア・コンポーネント、またはそれらの組み合わせを含んでいてもよい。
【0038】
本明細書で説明される主題の一つまたは複数の実装の詳細は、添付の図面および以下の説明に記載される。他の特徴、側面、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。以下の図の相対的な寸法は、一定の縮尺で描かれていない場合があることに留意されたい。
【図面の簡単な説明】
【0039】
さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
【0040】
図1A】オーディオ環境の例を示す。
【0041】
図1B】本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。
【0042】
図2】いくつかの開示された実装によるオーディオ・デバイス要素の例を示すブロック図である。
【0043】
図3】別の開示された実装によるオーディオ・デバイス要素の例を示すブロック図である。
【0044】
図4】別の開示された実装によるオーディオ・デバイス要素の例を示すブロック図である。
【0045】
図5】ある周波数範囲にわたる、オーディオ・デバイス再生音のコンテンツ・ストリーム成分およびオーディオ・デバイス再生音の直接シーケンス拡散スペクトラム(DSSS)信号成分のレベルの例を示すグラフである。
【0046】
図6】異なる帯域幅を有するが同じ中心周波数に位置する2つの較正信号のパワーの例を示すグラフである。
【0047】
図7】一例による統率モジュールの要素を示す。
【0048】
図8】オーディオ環境の別の例を示す。
【0049】
図9図8のオーディオ・デバイス100Bおよび100Cによって生成される音響較正信号の例を示す。
【0050】
図10】時間領域多元接続(TDMA)方法の例を提供するグラフである。
【0051】
図11】周波数領域多元接続(FDMA)方法の例を示すグラフである。
【0052】
図12】統率方法の別の例を示すグラフである。
【0053】
図13】統率方法の別の例を示すグラフである。
【0054】
図14】別の例によるオーディオ環境の要素を示す。
【0055】
図15】開示されたオーディオ・デバイス統率方法の別の例を概説するフロー図である。
【0056】
図16】オーディオ環境の別の例を示す。
【0057】
図17】いくつかの開示される実装による、較正信号復調器要素、ベースバンド・プロセッサ要素、および較正信号生成器要素の例を示すブロック図である。
【0058】
図18】別の例による較正信号復調器の要素を示す。
【0059】
図19】いくつかの開示される実装によるベースバンド・プロセッサ要素の例を示すブロック図である。
【0060】
図20】遅延波形の一例を示す。
【0061】
図21】オーディオ環境の別の例を示す。
【0062】
図22A】修正オーディオ再生信号のスペクトログラムの例である。
【0063】
図22B】周波数領域におけるギャップの例を示すグラフである。
【0064】
図22C】時間領域におけるギャップの例を示すグラフである。
【0065】
図22D】オーディオ環境の複数のオーディオ・デバイスのための統率されたギャップを含む修正オーディオ再生信号の例を示す。
【0066】
図23A】ギャップを作成するために使用されるフィルタ応答と、測定セッション中に使用されるマイクロフォン信号の周波数領域を測定するために使用されるフィルタ応答との例を示すグラフである。
【0067】
図23B】ギャップ割り当て戦略の例を示すグラフである。
図23C】ギャップ割り当て戦略の例を示すグラフである。
図23D】ギャップ割り当て戦略の例を示すグラフである。
図23E】ギャップ割り当て戦略の例を示すグラフである。
【0068】
図24】オーディオ環境の別の例を示す。
【0069】
図25A図1Bに示されるような装置によって実行されうる方法の一例を概説するフロー図である。
【0070】
図25B】ゾーン分類器を実装するように構成された実施形態の一例の要素のブロック図である。
【0071】
図26】統率されたギャップ挿入のためのシステムの一例のブロック図を提示する。
【0072】
図27A】いくつかの開示される実装による、統率デバイスの要素および統率されるオーディオ・デバイスの要素の例を示すシステム・ブロック図の前半を示す。
図27B】いくつかの開示される実装による、統率デバイスの要素および統率されるオーディオ・デバイスの要素の例を示すシステム・ブロック図の後半を示す。
【0073】
図28】開示されるオーディオ・デバイス統率方法の別の例を概説するフロー図である。
【0074】
図29】開示されるオーディオ・デバイス統率方法の別の例を概説するフロー図である。
【0075】
図30】較正信号の時間‐周波数割り当て、ノイズ推定のためのギャップ、および単一のオーディオ・デバイスを聞くためのギャップの例を示す。
【0076】
図31】この例では生活空間であるオーディオ環境を示す。
【0077】
図32】3つのタイプの開示される実装を表すブロック図の一である。
図33】3つのタイプの開示される実装を表すブロック図の一である。
図34】3つのタイプの開示される実装を表すブロック図の一である。
【0078】
図35】ヒートマップの例を示す。
【0079】
図36】別の実装の一例を示すブロック図である。
【0080】
図37】本明細書に開示されるものなどの装置またはシステムによって実行されうる別の方法の一例を概説するフロー図である。
【0081】
図38】別の実装によるシステムの一例を示すブロック図である。
【0082】
図39】本明細書に開示されるものなどの装置またはシステムによって実行されうる別の方法の一例を概説するフロー図である。
【0083】
図40】この事例では生活空間である別のオーディオ環境のフロアプランの例を示す。
【0084】
図41】環境内の4つのオーディオ・デバイス間の幾何学的関係の例を示す。
【0085】
図42図41のオーディオ環境内に位置するオーディオ放出体を示す。
【0086】
図43図41のオーディオ環境内に位置するオーディオ受信機を示す。
【0087】
図44図1Bに示されるような装置の制御システムによって実行されうる方法の別の例を概説するフロー図である。
【0088】
図45】到来方向(DOA)データに基づいてデバイスの位置および配向を自動的に推定するための方法の例を概説するフロー図である。
【0089】
図46】DOAデータおよび到着時間(TOA)データに基づいてデバイスの位置および配向を自動的に推定するための方法の例を概説するフロー図である。
【0090】
図47】DOAデータおよびTOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の別の例を概説するフロー図である。
【0091】
図48A】オーディオ環境の別の例を示す。
【0092】
図48B】聴取者角度配向データを決定することの例を示す。
【0093】
図48C】聴取者角度配向データを決定することの追加的な例を示す。
【0094】
図48D図48Cを参照して説明された方法に従ってオーディオ・デバイス座標の適切な回転を決定することの一例を示す。
【0095】
図49】定位方法の別の例を概説するフロー図である。
【0096】
図50】定位方法の別の例を概説するフロー図である。
【0097】
図51】この例では生活空間である別の聴取環境のフロアプランを示す。
【0098】
図52】例示的実施形態における、スピーカー・アクティベーションを示す点のグラフである。
【0099】
図53】一例による、スピーカー・アクティベーションを示す点の間の三重線形補間のグラフである。
【0100】
図54】別の実施形態の最小バージョンのブロック図である。
【0101】
図55】追加的な特徴をもつ別の(より能力のある)実施形態を示す。
【0102】
図56】開示された方法の別の例を概説するフロー図である。
【発明を実施するための形態】
【0103】
メディアおよび娯楽コンテンツの説得力のある空間的再生を達成するために、利用可能なスピーカーの物理的レイアウトおよび相対的能力が評価され、考慮されるべきである。同様に、高品質の音声駆動対話(仮想アシスタントおよび遠隔話者の両方との)を提供するために、ユーザーは、聞かれることと、スピーカーを介して再生される会話を聞くことの両方を必要とする。より多くの協働デバイスがオーディオ環境に追加されるにつれて、デバイスが便利な音声範囲内にあることがより普通になるので、ユーザーにとっての組み合わされた有用性が増加することが予想される。より多数のスピーカーは、メディア呈示の空間性が活用されうるので、より大きな没入感を許容する。
【0104】
デバイス間の十分な協調および協働は、潜在的に、これらの機会および経験が実現されることを許容しうる。各オーディオ・デバイスに関する音響情報は、そのような調整および協働の重要な構成要素である。そのような音響情報は、オーディオ環境内のさまざまな位置からの各ラウドスピーカーの可聴性、ならびにオーディオ環境内のノイズの量を含みうる。
【0105】
スマート・オーディオ・デバイスのコンステレーションをマッピングおよび較正するいくつかの以前の方法は、専用の較正手順を必要とし、それによって、一つまたは複数のマイクロフォンが記録する間に、既知の刺激がオーディオ・デバイスから再生される(しばしば、一度に1つのオーディオ・デバイスが再生を行う)。このプロセスは、創造的なサウンドデザインを通じて、選択された人口統計のユーザーにアピールするようにできるが、デバイスが追加される、除去される、または単に再配置される際に、プロセスを繰り返し再実行する必要があることが、広範な採用に対する障壁を呈する。そのような手順をユーザーに課すことは、デバイスの通常動作の邪魔になり、一部のユーザーを挫折させる可能性がある。
【0106】
同様に普及しているさらに初歩的なアプローチは、ソフトウェアアプリケーション(「アプリ」)を介した手動ユーザー介入、および/またはユーザーがオーディオ環境内のオーディオ・デバイスの物理的位置を示す案内されたプロセスである。そのようなアプローチは、ユーザーの採用に対するさらなる障壁を呈し、専用の較正手順よりも相対的に少ない情報をシステムに提供することがある。
【0107】
較正およびマッピング・アルゴリズムは、一般に、オーディオ環境内の各オーディオ・デバイスについて何らかの基本的な音響情報を必要とする。一連の異なる基本的な音響測定および測定される音響特性を使用する、多くのそのような方法が提案されている。そのようなアルゴリズムで使用するためのマイクロフォン信号から導出される音響特性(本明細書では「音響シーン・メトリック」とも呼ばれる)の例は、以下を含む:
・デバイス間の物理的距離の推定値(音響測距);
・デバイス間の角度の推定値(到来方向(DoA));
・(たとえば、掃引正弦波刺激または他の測定信号を通じた)デバイス間のインパルス応答の推定値;
・背景ノイズの推定値。
【0108】
しかしながら、既存の較正およびマッピング・アルゴリズムは、一般に、オーディオ環境内の人々の移動、オーディオ環境内のオーディオ・デバイスの位置変更など、オーディオ環境の音響シーンの変化に応答するように実装されてはいない。
【0109】
本明細書で開示されるようなスマート・オーディオ・デバイスの統率されたシステムは、聴取環境(本明細書ではオーディオ環境とも呼ばれる)内の任意の位置にデバイスを配置する柔軟性をユーザーに提供することができる。いくつかの実装では、オーディオ・デバイスは、自動的に自己組織化および較正するように構成される。
【0110】
較正は、概念的に2つ以上の層に分割されてもよい。1つのそのような層は、本明細書で「幾何学的マッピング」(geometric mapping)と呼ばれることのあるものに関わる。幾何学的マッピングは、オーディオ環境内のスマート・オーディオ・デバイスおよび一または複数の人の物理的位置および配向を発見することに関わってもよい。いくつかの例では、幾何学的マッピングは、ノイズ源ならびに/またはテレビジョン(「TV」)およびサウンドバーなどのレガシー・オーディオ・デバイスの物理的位置を発見することに関わってもよい。幾何学的マッピングは多くの理由で重要である。たとえば、サウンドシーンを正しくレンダリングするために、フレキシブル・レンダラーが正確な幾何学的マッピング情報を提供されることが重要である。逆に、5.1などの正準的なラウドスピーカー・レイアウトを採用するレガシー・システムは、ラウドスピーカーが所定の位置に配置され、聴取者が中央ラウドスピーカーに面する「スイートスポット」に、および/または左右の前方ラウドスピーカーの中間に座っているという仮定の下で設計されてきた。
【0111】
較正の第2の概念的な層は、ラウドスピーカーの製造ばらつき、部屋の配置および音響の影響などを考慮するためのオーディオ・データの処理(たとえば、オーディオ平準化〔レベリング〕および等化〔イコライゼーション〕)を含む。レガシーの場合、特にサウンドバーおよびオーディオ/ビデオ受信機(AVR)では、ユーザーは、任意的に、手動利得およびEQ曲線を適用するか、または自動較正のために聴取位置において専用の参照マイクロフォンを接続することができる。しかしながら、ここまでやる用意のある人口の割合は非常に小さいことが知られている。したがって、スマート・オーディオ・デバイスの統率されたシステムは、本明細書で「可聴性マッピング(audibility mapping)」と呼ばれることがあるプロセスである、聴取者位置における参照マイクロフォンの使用を必要とすることなくオーディオ処理(特に、レベルおよびEQ較正)を自動化するための方法を必要とする。幾何学的マッピングおよび可聴性マッピングは、本明細書で「音響マッピング」(acoustic mapping)と呼ばれることがあるものの2つの主要な構成要素をなす。
【0112】
本開示は、自動化された音響マッピングを提供するためにさまざまな組み合わせで使用されうる複数の技法を記述する。音響マッピングは、パーベイシブ(pervasive)かつ継続的(ongoing)であってもよい。そのような音響マッピングは、音響マッピングが初期セットアップ・プロセスの後に継続される(continued)ことがあり、変化するノイズ源および/またはレベル、ラウドスピーカー再配置、追加のラウドスピーカーの配備、一または複数の聴取者の再配置および/または再配向など、オーディオ環境における変化する条件に応答しうるという意味で、時に、「連続的」(continuous)と称されることがある。
【0113】
いくつかの開示される方法は、オーディオ環境においてオーディオ・デバイスによってレンダリングされているオーディオ・コンテンツに注入される(たとえば、混合される)較正信号を生成することに関わる。いくつかのそのような例では、較正信号は、音響直接シーケンス拡散スペクトラム(direct sequence spread spectrum、DSSS)信号であってもよく、またはそれを含んでいてもよい。
【0114】
他の例では、較正信号は、他のタイプの音響較正信号、たとえば掃引正弦波音響信号、ホワイトノイズ、ピンクノイズ(オクターブ当たり3デシベルの割合で強度が減少する周波数のスペクトル)などの「有色ノイズ」(colored noise)、音楽に対応する音響信号などであってもよく、それを含んでいてもよい。そのような方法は、オーディオ環境における他のオーディオ・デバイスによって送信された較正信号を受信した後に、オーディオ・デバイスが観察(observations)を生成することを可能にすることができる。いくつかの実装では、オーディオ環境における各参加オーディオ・デバイスは、音響較正信号を生成し、音響較正信号をレンダリングされたラウドスピーカー・フィード信号に注入して、修正オーディオ再生信号を生成し、ラウドスピーカー・システムに修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成するように構成されうる。いくつかの実装では、オーディオ環境内の各参加オーディオ・デバイスは、上記を行うと同時に、オーディオ環境内の他の統率されたオーディオ・デバイスからのオーディオ・デバイス再生音を検出し、該オーディオ・デバイス再生音を処理して音響較正信号を抽出するように構成されうる。よって、音響DSSS信号を使用する詳細な例が本明細書で提供されるが、これらは、音響較正信号のより広いカテゴリー内の具体例として見られるべきである。
【0115】
DSSS信号は、電気通信のコンテキストにおいて以前に展開されてきた。DSSS信号が電気通信の文脈で使用される場合、DSSS信号は、送信されたデータがチャネルを通じて受信機に送信される前に、送信されたデータをより広い周波数範囲にわたって拡散させるために使用される。対照的に、開示される実装のほとんどまたはすべては、データを修正または送信するためにDSSS信号を使用することを伴わない。代わりに、そのような開示される実装は、オーディオ環境のオーディオ・デバイス間でDSSS信号を送ることに関わる。送信と受信との間で送信されたDSSS信号に起こるものは、それ自体、送信される情報である。これは、DSSS信号が電気通信のコンテキストにおいてどのように使用されるかと、DSSS信号が開示される実装においてどのように使用されるかとの間の1つの重要な違いである。
【0116】
さらに、開示される実装は、電磁DSSS信号を送信および受信するのではなく、音響DSSS信号を送信および受信することに関わる。多くの開示された実装において、音響DSSS信号は、音響DSSS信号が再生されるオーディオに含まれるように、再生のためにレンダリングされたコンテンツ・ストリームに挿入される。いくつかのそのような実装によれば、音響DSSS信号は人間には聞こえないので、オーディオ環境にいる人は音響DSSS信号を知覚せず、再生されるオーディオ・コンテンツを検出するだけである。
【0117】
本明細書で開示されるような音響DSSS信号の使用と、電気通信のコンテキストにおいてDSSS信号がどのように使用されるかとの間のもう一つの違いは、本明細書で「近/遠問題」〔遠近問題〕と呼ばれることがあるものに関わる。いくつかの事例では、本明細書で開示される音響DSSS信号は、オーディオ環境における多くのオーディオ・デバイスによって送信され、受信されうる。音響DSSS信号は、時間および周波数において潜在的に重複しうる。いくつかの開示された実装は、音響DSSS信号を分離するためにDSSS拡散符号がどのように生成されるかに頼る。いくつかの事例では、オーディオ・デバイスは、信号レベルが音響DSSS信号分離を侵害しうるほど互いに近接している場合があり、したがって、信号を分離することが困難でありうる。これは、遠近問題の1つの現れであり、そのためのいくつかの解決策が本明細書で開示される。
【0118】
いくつかの方法は、第1のオーディオ信号を含む第1のコンテンツ・ストリームを受信するステップと、第1のオーディオ信号をレンダリングして第1のオーディオ再生信号を生成するステップと、第1の較正信号を生成するステップと、第1の較正信号を第1のオーディオ再生信号に挿入することによって第1の修正オーディオ再生信号を生成するステップと、ラウドスピーカー・システムに第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成するステップとを含みうる。本方法は、少なくとも第1のオーディオ・デバイス再生音と、第2ないし第Nのオーディオ・デバイスによって再生される第2ないし第Nの修正オーディオ再生信号(第2ないし第Nの較正信号を含む)に対応する第2ないし第Nのオーディオ・デバイス再生音とに対応するマイクロフォン信号を受信するステップと、マイクロフォン信号から第2ないし第Nの較正信号を抽出するステップと、第2ないし第Nの較正信号に少なくとも部分的に基づいて少なくとも1つの音響シーン・メトリックを推定するステップとを含みうる。
【0119】
音響シーン・メトリックは、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置および/またはオーディオ環境ノイズであってもよく、またはそれらを含んでいてもよい。いくつかの開示される方法は、音響シーン・メトリックに少なくとも部分的に基づいて、オーディオ・デバイス再生の一つまたは複数の側面を制御することに関わってもよい。
【0120】
いくつかの開示される方法は、較正信号に関わる方法を実行するために複数のオーディオ・デバイスを統率〔オーケストレーション〕することに関わってもよい。いくつかのそのような方法は、制御システムによって、オーディオ環境の第1のオーディオ・デバイスに第1の較正信号を生成させるステップと、制御システムによって、第1の較正信号を、第1のコンテンツ・ストリームに対応する第1のオーディオ再生信号に挿入させて、第1のオーディオ・デバイスについての第1の修正オーディオ再生信号を生成するステップと、制御システムによって、第1のオーディオ・デバイスに、第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させるステップとに関わってもよい。
【0121】
いくつかのそのような方法は、制御システムによって、オーディオ環境の第2のオーディオ・デバイスに第2の較正信号を生成させるステップと、制御システムによって、第2の較正信号を第2のコンテンツ・ストリームに挿入させて、第2のオーディオ・デバイスについての第2の修正オーディオ再生信号を生成させるステップと、制御システムによって、第2のオーディオ・デバイスに、第2の修正オーディオ再生信号を再生させて、第2のオーディオ・デバイス再生音を生成させるステップとを含みうる。
【0122】
いくつかのそのような実装は、制御システムによって、オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも第1のオーディオ・デバイス再生音および第2のオーディオ・デバイス再生音を検出させ、少なくとも第1のオーディオ・デバイス再生音および第2のオーディオ・デバイス再生音に対応するマイクロフォン信号を生成させることに関わってもよい。いくつかのそのような方法は、制御システムによって、少なくとも第1の較正信号および第2の較正信号がマイクロフォン信号から抽出されるようにするステップと、制御システムによって、少なくとも1つの音響シーン・メトリックが、第1の較正信号および第2の較正信号に少なくとも部分的に基づいて推定されるようにすることとに関わってもよい。
【0123】
図1Aは、オーディオ環境の一例を示す。本明細書で提供される他の図と同様に、図1Aに示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。
【0124】
この例によれば、オーディオ環境130は家庭の生活空間である。図1Aに示される例では、オーディオ・デバイス100A、100B、100Cおよび100Dが、オーディオ環境130内に位置する。この例では、オーディオ・デバイス100A~100Dのそれぞれは、ラウドスピーカー・システム110A、110B、110C、および110Dのうちの対応する1つを含む。この例によれば、オーディオ・デバイス100Bのラウドスピーカー・システム110Bは、少なくとも左ラウドスピーカー110B1および右ラウドスピーカー110B2を含む。この事例では、オーディオ・デバイス100A~100Dは、さまざまなサイズおよびさまざまな能力を有するラウドスピーカーを含む。図1Aに表される時点では、オーディオ・デバイス100A~100Dは、オーディオ・デバイス再生音120A、120B1、120B2、120C、および120Dの対応するインスタンスを生成している。
【0125】
この例では、オーディオ・デバイス100A~100Dのそれぞれは、マイクロフォン・システム111A、111B、111C、および111Dのうちの対応する1つを含む。マイクロフォン・システム111A~111Dのそれぞれは、一つまたは複数のマイクロフォンを含む。いくつかの例では、オーディオ環境130は、ラウドスピーカー・システムを欠く少なくとも1つのオーディオ・デバイス、またはマイクロフォン・システムを欠く少なくとも1つのオーディオ・デバイスを含んでいてもよい。
【0126】
いくつかの事例では、少なくとも1つの音響イベントがオーディオ環境130内で発生していてもよい。たとえば、1つのそのような音響イベントは、いくつかの事例は音声コマンドを発している可能性がある話者によって引き起こされてもよい。他の事例では、音響イベントは、少なくとも部分的に、オーディオ環境130のドアまたは窓などの可変要素によって引き起こされてもよい。たとえば、ドアが開くと、オーディオ環境130の外部からの音が、オーディオ環境130の内部でより明瞭に知覚されうる。さらに、ドアの変化する角度は、オーディオ環境130内のエコー経路のいくつかを変化させることがありうる。
【0127】
図1Bは、本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図1Bに示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。いくつかの例によれば、装置150は、本明細書で開示される方法のうちの少なくともいくつかを実行するように構成されうる。いくつかの実装では、装置150は、オーディオ・システムの一つまたは複数の構成要素であってもよく、またはそれを含んでいてもよい。たとえば、装置150は、いくつかの実装では、スマート・オーディオ・デバイスなどのオーディオ・デバイスであってもよい。他の例では、装置150は、モバイルデバイス(セルラー電話など)、ラップトップコンピュータ、タブレットデバイス、テレビ、または別のタイプのデバイスであってもよい。
【0128】
図1Aに示される例では、オーディオ・デバイス100A~100Dは、装置150のインスタンスである。いくつかの例によれば、図1Aのオーディオ環境100は、本明細書でスマート・ホーム・ハブと称されることがあるものなどの統率デバイス〔統率するデバイス、オーケストレーティング・デバイス〕を含みうる。スマートホームハブ(または他の統率デバイス)は、装置150のインスタンスでありうる。いくつかの実装では、オーディオ・デバイス100A~100Dのうちの一つまたは複数は、統率デバイスとして機能することが可能でありうる。
【0129】
いくつかの代替的な実装によれば、装置150は、サーバーであってもよく、またはサーバーを含んでいてもよい。いくつかのそのような例では、装置150は、エンコーダであってもよく、またはエンコーダを含んでいてもよい。よって、いくつかの事例では、装置150は、家庭オーディオ環境などのオーディオ環境内で使用するために構成されたデバイスでありうるが、他の事例では、装置150は、「クラウド」、たとえば、サーバー内で使用するために構成されたデバイスでありうる。
【0130】
この例では、装置150は、インターフェース・システム155および制御システム160を含む。インターフェース・システム155は、いくつかの実装では、オーディオ環境の一つまたは複数の他のデバイスと通信するように構成された有線または無線インターフェースを含みうる。オーディオ環境は、いくつかの例では、家庭オーディオ環境でありうる。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、街路または歩道環境、公園環境など、別のタイプの環境でありうる。インターフェース・システム155は、いくつかの実装では、オーディオ環境のオーディオ・デバイスと制御情報および関連するデータを交換するように構成されうる。制御情報および関連するデータは、いくつかの例では、装置150が実行している一つまたは複数のソフトウェアアプリケーションに関係していてもよい。
【0131】
インターフェース・システム155は、いくつかの実装では、コンテンツ・ストリームを受信または提供するように構成されてもよい。コンテンツ・ストリームは、オーディオ・データを含んでいてもよい。オーディオ・データは、オーディオ信号を含んでいてもよいが、これに限定されない。いくつかの事例では、オーディオ・データは、チャネルデータおよび/または空間メタデータなどの空間データを含みうる。メタデータは、たとえば、本明細書で「エンコーダ」と称されることがあるものによって提供されていてもよい。いくつかの例では、コンテンツ・ストリームは、ビデオデータと、該ビデオデータに対応するオーディオ・データとを含みうる。
【0132】
インターフェース・システム155は、一つまたは複数のネットワーク・インターフェースおよび/または一つまたは複数の外部デバイスインターフェース(一つまたは複数のユニバーサルシリアルバス(USB)インターフェース等)を含んでいてもよい。いくつかの実装によれば、インターフェース・システム155は、たとえば、Wi-FiまたはBluetooth(登録商標)通信のために構成された一つまたは複数の無線インターフェースを含みうる。
【0133】
インターフェース・システム155は、いくつかの例では、一つまたは複数のマイクロフォン、一つまたは複数のスピーカー、ディスプレイシステム、タッチセンサーシステム、および/またはジェスチャーセンサーシステムなど、ユーザーインターフェースを実装するための一つまたは複数のデバイスを含みうる。いくつかの例では、インターフェース・システム155は、制御システム160と、図1Bに示される任意的なメモリシステム165などのメモリシステムとの間の一つまたは複数のインターフェースを含んでいてもよい。しかしながら、制御システム160は、場合によってはメモリシステムを含んでいてもよい。インターフェース・システム155は、いくつかの実装では、環境内の一つまたは複数のマイクロフォンから入力を受信するように構成されうる。
【0134】
いくつかの実装では、制御システム160は、本明細書で開示される方法を少なくとも部分的に実行するように構成されうる。制御システム160は、たとえば、汎用の単一チップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブルロジックデバイス、離散的ゲートまたはトランジスタロジック、および/または離散的ハードウェア・コンポーネントを含んでいてもよい。
【0135】
いくつかの実装では、制御システム160は、2つ以上のデバイス内に存在してもよい。たとえば、いくつかの実装では、制御システム160の一部は、本明細書に描写される環境のうちの1つの中のデバイスに存在してもよく、制御システム160の別の部分は、サーバー、モバイルデバイス(たとえば、スマートフォンまたはタブレットコンピュータ)等の環境外にあるデバイスに存在してもよい。他の例では、制御システム160の一部は、本明細書に示される環境のうちの1つの中のデバイスに存在してもよく、制御システム160の別の部分は、環境の一つまたは複数の他のデバイスに存在してもよい。たとえば、制御システム機能は、環境の複数のスマート・オーディオ・デバイスにわたって分散されてもよく、または統率デバイス(本明細書でスマート・ホーム・ハブと称されることがあるものなど)および環境の一つまたは複数の他のデバイスによって共有されてもよい。他の例では、制御システム160の一部分は、サーバーなどのクラウドベースのサービスを実装しているデバイスに存在してもよく、制御システム160の別の部分は、別のサーバー、メモリデバイスなどのクラウドベースのサービスを実装している別のデバイスに存在してもよい。インターフェース・システム155はまた、いくつかの例では、2つ以上のデバイスに存在してもよい。
【0136】
本明細書で説明する方法の一部または全部は、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがこれらに限定されない、本明細書で説明されるものなどのメモリデバイスを含みうる。一つまたは複数の非一時的媒体は、たとえば、図1Bに示される任意的なメモリシステム165および/または制御システム160に存在しうる。よって、本開示で説明する主題のさまざまな革新的側面は、ソフトウェアが記憶された一つまたは複数の非一時的媒体において実装されうる。ソフトウェアは、たとえば、本明細書で開示される方法の一部または全部を実行するように少なくとも1つのデバイスを制御するための命令を含みうる。ソフトウェアは、たとえば、図1Bの制御システム160などの制御システムの一つまたは複数の構成要素によって実行可能であってもよい。
【0137】
いくつかの例では、装置150は、図1Bに示される任意的なマイクロフォン・システム111を含んでいてもよい。任意的なマイクロフォン・システム111は、一つまたは複数のマイクロフォンを含んでいてもよい。いくつかの例によれば、任意的なマイクロフォン・システム111は、マイクロフォンのアレイを含みうる。マイクロフォンのアレイは、いくつかの事例では、たとえば制御システム160からの命令に従って、受信側ビームフォーミングのために構成されてもよい。いくつかの例では、マイクロフォンのアレイは、たとえば制御システム160からの命令に従って、到来方向(DOA)および/または到着時間(TOA)情報を決定するように構成されうる。代替的にまたは追加的に、制御システム160は、たとえばマイクロフォン・システム111から受信されたマイクロフォン信号に従って、到来方向(DOA)および/または到着時間(TOA)情報を決定するように構成されうる。
【0138】
いくつかの実装では、マイクロフォンのうちの一つまたは複数は、スピーカー・システムのスピーカー、スマート・オーディオ・デバイスなど、別のデバイスの一部であってもよく、またはそれに関連付けられていてもよい。いくつかの例では、装置150はマイクロフォン・システム111を含まないことがある。しかしながら、いくつかのそのような実装では、装置150は、それでもなお、インターフェース・システム160を介してオーディオ環境における一つまたは複数のマイクロフォンのためのマイクロフォン・データを受信するように構成されうる。いくつかのそのような実装では、装置150のクラウドベースの実装は、インターフェース・システム160を介してオーディオ環境内の一つまたは複数のマイクロフォンからマイクロフォン・データまたはマイクロフォン・データに対応するデータを受信するように構成されうる。
【0139】
いくつかの実装によれば、装置150は、図1Bに示される任意的なラウドスピーカー・システム110を含んでいてもよい。任意的なラウドスピーカー・システム110は、本明細書で「スピーカー」またはより一般的には「オーディオ再生トランスデューサ」と呼ばれることもある一つまたは複数のラウドスピーカーを含みうる。いくつかの例(たとえば、クラウドベースの実装)では、装置150はラウドスピーカー・システム110を含まなくてもよい。
【0140】
いくつかの実装では、装置150は、図1Bに示される任意的なセンサー・システム180を含んでいてもよい。任意的なセンサー・システム180は、一つまたは複数のタッチセンサー、ジェスチャーセンサー、動き検出器などを含んでいてもよい。いくつかの実装によれば、任意的なセンサー・システム180は、一つまたは複数のカメラを含んでいてもよい。いくつかの実装では、カメラは自立型カメラでありうる。いくつかの例では、任意的なセンサー・システム180の一つまたは複数のカメラは、スマート・オーディオ・デバイス内に存在してもよく、該スマート・オーディオ・デバイスは、単一目的のオーディオ・デバイスまたは仮想アシスタントでありうる。いくつかのそのような例では、任意的なセンサー・システム180の一つまたは複数のカメラは、テレビ、携帯電話、またはスマート・スピーカー内に存在しうる。いくつかの例では、装置150はセンサー・システム180を含まなくてもよい。しかしながら、いくつかのそのような実装では、装置150は、それでもなお、インターフェース・システム160を介してオーディオ環境内の一つまたは複数のセンサーについてのセンサー・データを受信するように構成されうる。
【0141】
いくつかの実装では、装置150は、図1Bに示される任意的なディスプレイシステム185を含みうる。任意的なディスプレイシステム185は、一つまたは複数の発光ダイオード(LED)ディスプレイなどの一つまたは複数のディスプレイを含みうる。いくつかの事例では、任意的なディスプレイシステム185は、一つまたは複数の有機発光ダイオード(OLED)ディスプレイを含んでいてもよい。いくつかの例では、任意的なディスプレイシステム185は、スマート・オーディオ・デバイスの一つまたは複数のディスプレイを含んでいてもよい。他の例では、任意的なディスプレイシステム185は、テレビジョンディスプレイ、ラップトップディスプレイ、モバイルデバイスディスプレイ、または別のタイプのディスプレイを含みうる。装置150がディスプレイシステム185を含むいくつかの例では、センサー・システム180は、ディスプレイシステム185の一つまたは複数のディスプレイに近接するタッチセンサーシステムおよび/またはジェスチャーセンサーシステムを含みうる。いくつかのそのような実装によれば、制御システム160は、一つまたは複数のグラフィカルユーザーインターフェース(GUI)を提示するようにディスプレイシステム185を制御するように構成されうる。
【0142】
いくつかのそのような例によれば、装置150は、スマート・オーディオ・デバイスであってもよく、またはそれを含んでいてもよい。いくつかのそのような実装では、装置150は、ウェイクワード検出器であってもよく、またはウェイクワード検出器を含んでいてもよい。たとえば、装置150は、仮想アシスタントであってもよく、または仮想アシスタントを含んでいてもよい。
【0143】
図2は、いくつかの開示された実装によるオーディオ・デバイス要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図2に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。この例では、図2のオーディオ・デバイス100Aは、図1Bを参照して上述した装置150のインスタンスである。この例では、オーディオ・デバイス100Aは、オーディオ環境における複数のオーディオ・デバイスのうちの1つであり、いくつかの事例では、図1Aに示されるオーディオ・デバイス100Aの例でありうる。この例では、オーディオ環境は、少なくとも2つの他の統率されるオーディオ・デバイス、オーディオ・デバイス100Bおよびオーディオ・デバイス100Cを含む。
【0144】
この実装によれば、オーディオ・デバイス100Aは、以下の要素を含む:
110A:一つまたは複数のラウドスピーカーを含む、図1Bのラウドスピーカー・システム110のインスタンス;
111A:一つまたは複数のマイクロフォンを含む、図1Bのマイクロフォン・システム111のインスタンス;
120A、B、C:同じ音響空間においてオーディオ・デバイス100A~100Cによって再生されているレンダリングされたコンテンツに対応するオーディオ・デバイス再生音;
201A:レンダリング・モジュール210Aによって出力されるオーディオ再生信号;
202A:較正信号注入器211Aによって出力される修正オーディオ再生信号;
203A:較正信号生成器212Aによって出力される較正信号;
204A:オーディオ環境の他のオーディオ・デバイス(この例では、少なくともオーディオ・デバイス100Bおよび100C)によって生成された較正信号に対応する較正信号レプリカ。いくつかの例では、較正信号レプリカ204Aは、統率デバイス(これは、オーディオ環境の別のオーディオ・デバイス、スマート・ホーム・ハブなどの別のローカル・デバイスなどでありうる)などの外部ソースから(たとえば、Wi-FiまたはBluetooth(登録商標)などの無線通信プロトコルを介して)受信されうる;
205A:オーディオ環境内のオーディオ・デバイスのうちの一つまたは複数に関連する、および/またはそれによって使用される較正情報。較正情報205Aは、較正信号を生成する、較正信号を変調する、較正信号を復調するなどのために、オーディオ・デバイス100Aの制御システム160によって使用されるパラメータを含みうる。較正情報205Aは、いくつかの例では一つまたは複数のDSSS拡散符号パラメータと、一つまたは複数のDSSS搬送波パラメータとを含んでいてもよい。DSSS拡散符号パラメータは、たとえば、DSSS拡散符号長情報、チッピング・レート情報(またはチップ周期情報)などを含みうる。1チップ周期〔ピリオド〕は、拡散符号の1チップ(ビット)が再生されるのにかかる時間である。チップ周期の逆数がチッピング・レートである。DSSS拡散符号内のビットは、(ビットが通常含む)データを含まないことを示すために、「チップ」と呼ばれることがある。いくつかの事例では、DSSS拡散符号パラメータは、擬似乱数シーケンスを含みうる。較正情報205Aは、いくつかの例では、どのオーディオ・デバイスが音響較正信号を生成しているかを示してもよい。いくつかの例では、較正情報205Aは、統率デバイスなどの外部ソースから(たとえば、無線通信を介して)受信されてもよい;
206A:マイクロフォン111Aによって受信されたマイクロフォン信号;
208A:復調されたコヒーレントなベースバンド信号;
210A:音楽、映画およびテレビ番組のためのオーディオ・データなどのコンテンツ・ストリームのオーディオ信号をレンダリングして、オーディオ再生信号を生成するように構成されたレンダリング・モジュール;
211A:較正信号変調器220Aによって変調された較正信号230Aを、レンダリング・モジュール210Aによって生成されたオーディオ再生信号に挿入して、修正オーディオ再生信号を生成するように構成された較正信号注入器。挿入プロセスは、たとえば、修正オーディオ再生信号を生成するために、較正信号変調器220Aによって変調された較正信号230Aがレンダリング・モジュール210Aによって生成されたオーディオ再生信号と混合される混合プロセスであってもよい;
・212A:較正信号203Aを生成し、較正信号203Aを較正信号変調器220Aおよび較正信号復調器214Aに提供するように構成された較正信号生成器。いくつかの例では、較正信号生成器212Aは、DSSS拡散符号生成器とDSSS搬送波生成器とを含みうる。この例では、較正信号生成器212Aは、較正信号レプリカ204Aを較正信号復調器214Aに提供する;
・214A:マイクロフォン111Aによって受信されたマイクロフォン信号206Aを復調するように構成された任意的な較正信号復調器。この例では、較正信号復調器214Aは、復調されたコヒーレントなベースバンド信号208Aを出力する。マイクロフォン信号206Aの復調は、たとえば、積分・ダンプ型整合フィルタリング相関器バンク(integrate and dump style matched filtering correlator bank)を含む標準的な相関技法を使用して実行されうる。いくつかの詳細な例を以下で与える。これらの復調技法の性能を改善するために、いくつかの実装では、マイクロフォン信号206Aは、望まれないコンテンツ/現象を除去するために復調前にフィルタ処理されうる。いくつかの実装によれば、復調されたコヒーレントなベースバンド信号208Aは、ベースバンド・プロセッサ218Aに与えられる前にフィルタ処理されうる。信号対雑音比(SNR)は、一般に、積分時間が増加するにつれて(使用される拡散符号の長さが増加するにつれて)改善される。すべてのタイプの較正信号(たとえば、ホワイトノイズおよび音楽に対応する音響信号)が、再生のためのレンダリングされたオーディオ・データと混合される前に変調を必要とするわけではない。よって、いくつかの実装は、較正信号復調器を含まなくてもよい;
・218A:復調されたコヒーレントなベースバンド信号208Aのベースバンド処理のために構成されるベースバンド・プロセッサ。いくつかの例では、ベースバンド・プロセッサ218Aは、遅延波形を生成する二乗波形の分散を低減することによってSNRを改善するために、インコヒーレント平均化などの技法を実装するように構成されうる。いくつかの詳細な例を以下に提供する。この例では、ベースバンド・プロセッサ218Aは、一つまたは複数の推定された音響シーン・メトリック225Aを出力するように構成される;
・220A:較正信号生成器によって生成された較正信号203Aを変調して較正信号230Aを生成するように構成された任意的な較正信号変調器。本明細書の他の箇所で述べたように、すべてのタイプの較正信号が、再生のためのレンダリングされたオーディオ・データと混合される前に変調を必要とするわけではない。よって、いくつかの実装は、較正信号変調器を含まなくてもよい;
・225A:較正信号(単数または複数)から導出された一つまたは複数の観察(observation)。これは、本明細書では音響シーン・メトリックとも呼ばれる。音響シーン・メトリック225Aは、飛行時間、到着時間、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、および/または信号対雑音比に対応するデータを含んでいてもよく、または該データであってもよい;
・233A:音響シーン・メトリック処理モジュール。これは、音響シーン・メトリック225Aを受信して適用するように構成される。この例において、音響シーン・メトリック処理モジュール233Aは、少なくとも1つの音響シーン・メトリック225Aおよび/または少なくとも1つのオーディオ・デバイス特性に少なくとも部分的に基づいて、情報235A(および/またはコマンド)を生成するように構成される。オーディオ・デバイス特性は、特定の実装に依存して、オーディオ・デバイス100Aまたはオーディオ環境の別のオーディオ・デバイスに対応しうる。オーディオ・デバイス特性は、たとえば、制御システム160のメモリに記憶されてもよく、または制御システム210にとってアクセス可能であってもよい;
・235A:オーディオ処理および/またはオーディオ・デバイス再生の一つまたは複数の側面を制御するための情報。情報235Aは、たとえば、レンダリング・プロセス、オーディオ環境マッピング・プロセス(オーディオ・デバイス自動位置特定プロセスなど)、オーディオ・デバイス較正プロセス、ノイズ抑制プロセス、および/またはエコー減衰プロセスを制御するための情報(および/またはコマンド)を含んでいてもよい。
【0145】
音響シーン・メトリックの例
上述したように、いくつかの実装では、ベースバンド・プロセッサ218A(または制御システム160の別のモジュール)は、一つまたは複数の音響シーン・メトリック225Aを決定するように構成されうる。以下は、音響シーン・メトリック225Aのいくつかの例である。
【0146】
測距〔レンジ決定(ranging)〕
オーディオ・デバイスによって別のオーディオ・デバイスから受信される較正信号は、該信号の飛行時間(ToF)の形で2つのデバイス間の距離に関する情報を含む。いくつかの例によれば、制御システムは、たとえば以下のようにして、復調された較正信号から遅延情報を抽出し、該遅延情報を擬似レンジ測定値に変換するように構成されうる:
ρ=τc
【0147】
上記の式においてτは、遅延情報(本明細書ではToFとも呼ばれる)を表し、ρは擬似レンジ測定値を表し、cは音速を表す。レンジ自体は直接測定されず、よって、デバイス間のレンジはタイミング推定値に従って推定されるので、「擬似レンジ」という言い方をする。オーディオ・デバイスの分散型非同期システムでは、各オーディオ・デバイスは、自分自身のクロックで動作しており、よって、生の遅延測定値にバイアスが存在する。遅延測定値の十分な集合が与えられると、これらのバイアスを解決し、時にはそれらを推定することが可能である。遅延情報の抽出、擬似レンジ測定値の生成および使用、ならびにクロック・バイアスの決定および解決の詳細な例を以下に提供する。
【0148】
DoA
測距と同様に、聴取デバイス上で利用可能な複数のマイクロフォンを使用して、制御システムは、復調された音響較正信号を処理することによって到来方向(DoA)を推定するように構成されうる。いくつかのそのような実装では、結果として生じるDoA情報は、DoAベースのオーディオ・デバイス自動位置特定方法への入力として使用されうる。
【0149】
可聴性
復調された音響較正信号の信号強度は、聴取されているオーディオ・デバイスが、該オーディオ・デバイスが音響較正信号を送信している帯域において聞こえる可聴性に比例する。いくつかの実装では、制御システムは、諸周波数帯域からなるある範囲にわたって複数の観察を行って、周波数範囲全体のバンディングされた推定値を取得するように構成されうる。送信オーディオ・デバイスのデジタル信号レベルの知識を用いて、制御システムは、いくつかの例では、送信オーディオ・デバイスの絶対的な音響利得を推定するように構成されうる。
【0150】
図3は、別の開示された実装によるオーディオ・デバイス要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図3に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。この例では、図3のオーディオ・デバイス100Aは、図1Bおよび図2を参照して上述した装置150のインスタンスである。しかしながら、この実装によれば、オーディオ・デバイス100Aは、少なくともオーディオ・デバイス100B、100Cおよび100Dを含む、オーディオ環境内の複数のオーディオ・デバイスを統率するように構成される。
【0151】
図3に示される実装は、図2の要素のすべて、ならびにいくつかの追加の要素を含む。図2および図3に共通の要素は、それらの機能が図3の実装において異なりうる範囲を除いて、ここでは再び説明されない。この実装によれば、オーディオ・デバイス100Aは、以下の要素および機能を含む。
・120A、B、C、D:同じ音響空間においてオーディオ・デバイス100A~100Dによって再生されているレンダリングされたコンテンツに対応するオーディオ・デバイス再生音;
・204A、B、C、D:オーディオ環境の他のオーディオ・デバイス(この例では、少なくともオーディオ・デバイス100B、100Cおよび100D)によって生成される較正信号に対応する較正信号レプリカ。この例では、較正信号レプリカ204A~204Dは、統率モジュール213Aによって提供される。ここで、統率モジュール213Aは、たとえば無線通信を介して、オーディオ・デバイス100B~100Dに較正情報204B~204Dを提供する;
・205A、B、C、D:これらの要素は、オーディオ・デバイス100A~100Dのそれぞれに関連する、および/またはオーディオ・デバイス100A~100Dのそれぞれによって使用される較正情報に対応する。較正情報205Aは、較正信号を生成するため、較正信号を変調するため、較正信号を復調するためなどに、オーディオ・デバイス100Aの制御システム160によって使用されるパラメータ(たとえば、一つまたは複数のDSSS拡散符号パラメータおよび一つまたは複数のDSSS搬送波パラメータなど)を含んでいてもよい。較正情報205B、205C、および205Dは、較正信号を生成するため、較正信号を変調するため、較正信号を復調するためなどに、オーディオ・デバイス100B、100C、および100Dによってそれぞれ使用されるパラメータ(たとえば、一つまたは複数のDSSS拡散符号パラメータおよび一つまたは複数のDSSS搬送波パラメータなど)を含んでいてもよい。較正情報205A~205Dは、いくつかの例では、どのオーディオ・デバイスが音響較正信号を生成しているかを示すことができる;
・213A:統率モジュール。この例では、統率モジュール213Aは、較正情報205A~205Dを生成し、較正情報205Aを較正信号生成器212Aに提供し、較正情報205A~205Dを較正信号復調器に提供し、較正情報205B~205Dを、たとえば無線通信を介して、オーディオ・デバイス100B~100Dに提供する。いくつかの例では、統率モジュール213Aは、情報235A~235Dおよび/または音響シーン・メトリック225A~225Dに少なくとも部分的に基づいて、較正情報205A~205Dを生成する;
・214A:少なくともマイクロフォン111Aによって受信されたマイクロフォン信号206Aを復調するように構成された較正信号復調器。この例では、較正信号復調器214Aは、復調されたコヒーレントなベースバンド信号208Aを出力する。いくつかの代替的な実装では、較正信号復調器214Aは、オーディオ・デバイス100B~100Dからマイクロフォン信号206B~206Dを受信して復調してもよく、復調されたコヒーレントなベースバンド信号208B~208Dを出力してもよい;
・218A:少なくとも復調されたコヒーレントなベースバンド信号208A、およびいくつかの例ではオーディオ・デバイス100B~100Dから受信された復調されたコヒーレントなベースバンド信号208B~208Dのベースバンド処理のために構成されたベースバンド・プロセッサ。この例では、ベースバンド・プロセッサ218Aは、一つまたは複数の推定された音響シーン・メトリック225A~225Dを出力するように構成される。いくつかの実装では、ベースバンド・プロセッサ218Aは、オーディオ・デバイス100B~100Dから受信された復調されたコヒーレントなベースバンド信号208B~208Dに基づいて、音響シーン・メトリック225B~225Dを決定するように構成される。しかしながら、場合によっては、ベースバンド・プロセッサ218A(または音響シーン・メトリック処理モジュール233A)は、オーディオ・デバイス100B~100Dから音響シーン・メトリック225B~225Dを受信してもよい;
・233A:音響シーン・メトリック処理モジュール。これは、音響シーン・メトリック225A~225Dを受信して適用するように構成される。この例では、音響シーン・メトリック処理モジュール233Aは、音響シーン・メトリック225A~225Dおよび/または少なくとも1つのオーディオ・デバイス特性に少なくとも部分的に基づいて情報235A~235Dを生成するように構成される。オーディオ・デバイス特性は、オーディオ・デバイス100Aおよび/またはオーディオ・デバイス100B~100Dのうちの一つまたは複数に対応しうる。
【0152】
図4は、別の開示された実装によるオーディオ・デバイス要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図4に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。この例では、図4のオーディオ・デバイス100Aは、図1B図2および図3を参照して上述した装置150のインスタンスである。図4に示される実装は、図3の要素のすべて、ならびに追加の要素を含む。図2および図3に共通する要素は、それらの機能が図4の実装において異なりうる範囲を除いて、ここでは再び説明されない。
【0153】
この実装によれば制御システム160は、受信されたマイクロフォン信号206Aを処理して、前処理されたマイクロフォン信号207Aを生成するように構成される。いくつかの実装では、受信されたマイクロフォン信号を処理することは、帯域通過フィルタおよび/またはエコー消去を適用することに関わってもよい。この例では、制御システム160(より具体的には、較正信号復調器214A)は、前処理されたマイクロフォン信号207Aから較正信号を抽出するように構成される。
【0154】
この例によれば、マイクロフォン・システム111Aは、いくつかの事例では一つまたは複数の指向性マイクロフォンであってもよく、またはそれを含んでいてもよいマイクロフォンのアレイを含む。この実装では、受信されたマイクロフォン信号を処理することは、この例ではビームフォーマー215Aを介した受信側ビームフォーミングに関わる。この例では、ビームフォーマー215Aによって出力された前処理されたマイクロフォン信号207Aは、空間的マイクロフォン信号であるか、または空間的マイクロフォン信号を含む。
【0155】
この実装では、較正信号復調器214Aは、空間的マイクロフォン信号を処理し、これは、オーディオ・デバイスがオーディオ環境のまわりに空間的に分布しているオーディオ・システムについての性能を向上させることができる。受信側ビームフォーミングは、前述の「遠近問題」を迂回する1つの方法であり、たとえば、制御システム160は、より近いおよび/またはより音量が大きい〔よりラウドな〕オーディオ・デバイスについて補償して、より遠いおよび/またはより音量が小さいオーディオ・デバイスからのオーディオ・デバイス再生音を受信するために、ビームフォーミングを使用するように構成されうる。
【0156】
受信側ビームフォーミングは、たとえば、マイクロフォンのアレイにおける各マイクロフォンからの信号を遅延させ、異なる因子を乗算することに関わってもよい。ビームフォーマー215Aは、いくつかの例では、ドルフ・チェビシェフ(Dolph-Chebyshev)重み付けパターンを適用することができる。しかしながら、他の実装では、ビームフォーマー215Aは、異なる重み付けパターンを適用することができる。いくつかのそのような例によれば、ヌルおよびサイドローブとともに、メインローブが生成されうる。メインローブ幅(ビーム幅)およびサイドローブレベルを制御することに加えて、いくつかの例では、ヌルの位置を制御することができる。
【0157】
可聴以下の(sub-audible)信号
いくつかの実装によれば、オーディオ・デバイス再生音の較正信号成分は、オーディオ環境内の人に可聴でないことがある。いくつかのそのような実装では、オーディオ・デバイス再生音のコンテンツ・ストリーム成分は、オーディオ・デバイス再生音の較正信号成分の知覚的マスキングを引き起こしうる。
【0158】
図5は、ある周波数範囲にわたる、オーディオ・デバイス再生音のコンテンツ・ストリーム成分およびオーディオ・デバイス再生音のDSSS信号成分のレベルの例を示すグラフである。この例では、曲線501はコンテンツ・ストリーム成分のレベルに対応し、曲線530はDSSS信号成分のレベルに対応する。
【0159】
DSSS信号は、典型的には、データ、搬送波信号および拡散符号を含む。チャネルを通じてデータを伝送する必要性を省く場合、変調された信号s(t)を次のように表すことができる。
【0160】
s(t)=AC(t)sin(2πf0t)
上式で、AはDSSS信号の振幅を表し、C(t)は拡散符号を表し、Sin()は搬送波周波数f0 Hzの正弦波搬送波を表す。図5の曲線530は、上記の式におけるs(t)の例に対応する。
【0161】
音響DSSS信号を含むいくつかの開示された実装の潜在的な利点の1つは、DSSS信号成分の振幅が音響DSSS信号における所与の量のエネルギーについて低減されるので、信号を拡散することによって、オーディオ・デバイス再生音のDSSS信号成分の知覚可能性を低減することができることである。
【0162】
これにより、(たとえば、図5の曲線530によって表されるような)オーディオ・デバイス再生音のDSSS信号成分を、(たとえば、図5の曲線501によって表されるような)オーディオ・デバイス再生音のコンテンツ・ストリーム成分のレベルよりも十分に低いレベルにして、DSSS信号成分が聴取者に知覚可能でないようにすることができる。
【0163】
いくつかの開示された実装は、導出された較正信号観察値の信号対雑音比(SNR)を最大化する、および/または較正信号成分の知覚の確率を低減するような仕方で、較正信号のパラメータを最適化するために、人間の聴覚系のマスキング特性を利用する。いくつかの開示された例は、コンテンツ・ストリーム成分のレベルに重みを適用すること、および/または較正信号成分のレベルに重みを適用することに関わる。いくつかのそのような例は、ノイズ補償方法を適用し、音響較正信号成分は信号として扱われ、コンテンツ・ストリーム成分はノイズとして扱われる。いくつかのそのような例は、再生/聴取オブジェクティブ・メトリックに従って(たとえば、比例して)一つまたは複数の重みを適用することに関わる。
【0164】
DSSS拡散符号
本明細書の他の箇所で述べたように、いくつかの例では、統率デバイスによって提供される較正情報205(たとえば、図3を参照して上述した統率モジュール213Aによって提供されるもの)は、一つまたは複数のDSSS拡散符号パラメータを含んでいてもよい。
【0165】
DSSS信号を生成するために搬送波を拡散するのに使用される拡散符号は重要でありうる。DSSS拡散符号のセットは、対応するDSSS信号が以下の特性を有するように選択されることが好ましい。
1.自己相関波形における鋭いメインローブ;
2.自己相関波形における0でない遅延での低いサイドローブ;
3.複数のデバイスが媒体に同時にアクセスする(たとえば、DSSS信号成分を含む修正オーディオ再生信号を同時に再生するために)場合に使用される拡散符号の前記セット内の任意の2つの拡散符号の間の低い相互相関;
4.DSSS信号はバイアスされていない(0のDC成分を有する)。
【0166】
拡散符号のファミリー(たとえば、GPSコンテキストにおいて一般的に使用されるゴールド符号(Gold code))は、典型的に、上記の4つのポイントを特徴付ける。複数のオーディオ・デバイスがすべて、DSSS信号成分を含む修正オーディオ再生信号を同時に再生しており、各オーディオ・デバイスが異なる拡散符号(良好な相互相関特性、たとえば低い相互相関をもつもの)を使用する場合、受信側オーディオ・デバイスは、符号領域多元接続(CDMA)方法を使用することによって、音響DSSS信号のすべてを同時に受信および処理することができるべきである。CDMA方法を使用することによって、複数のオーディオ・デバイスが、場合によっては単一の周波数帯域を使用して、音響DSSS信号を同時に送信することができる。拡散符号は、ランタイムの間に生成されてもよく、および/または事前に生成されてメモリに、たとえばルックアップテーブルなどのデータ構造に記憶されてもよい。
【0167】
DSSSを実装するために、いくつかの例では、バイナリ位相シフトキーイング(BPSK)変調が利用されてもよい。さらに、DSSS拡散符号は、いくつかの例では、たとえば以下のように、直交位相シフトキーイング(QPSK)システムを実装するために互いに直交にされてもよい(インタープレックスされる(interplexed))。
s(t)=AICI(t)cos(2πf0t)+AQCQ(t)sin(2πf0t)
【0168】
上式において、AIおよびAQはそれぞれ同相信号および直交信号の振幅を表し、CIおよびCQはそれぞれ同相信号および直交信号の符号系列を表し、f0はDSSS信号の中心周波数(8200)を表す。上記は、いくつかの例による、DSSS搬送波およびDSSS拡散符号をパラメータ化する係数の例である。これらのパラメータは、上述した較正信号情報205の例である。上述のように、較正信号情報205は、統率モジュール213Aなどの統率デバイスによって提供されてもよく、たとえば、DSSS信号を生成するために信号生成器ブロック212によって使用されてもよい。
【0169】
図6は、異なる帯域幅をもつが同じ中心周波数に位置する2つの較正信号のパワーの例を示すグラフである。これらの例では、図6は、両方とも同じ中心周波数605を中心とする2つの較正信号630Aおよび630Bのスペクトルを示す。いくつかの例では、較正信号630Aは、オーディオ環境の1つのオーディオ・デバイスによって(たとえば、オーディオ・デバイス100Aによって)生成されてもよく、較正信号630Bは、オーディオ環境の別のオーディオ・デバイスによって(たとえば、オーディオ・デバイス100Bによって)生成されてもよい。
【0170】
この例によれば、較正信号630Bは、較正信号630Aよりも高いレートでチッピングされ(言い換えれば、拡散信号において1秒当たりより多数のビットが使用される)、結果として、較正信号630Bの帯域幅610Bが較正信号630Aの帯域幅610Aよりも大きくなる。各較正信号についての所与の量のエネルギーについて、較正信号630Bの帯域幅が大きいほど、較正信号630Bの振幅および知覚可能性は、較正信号630Aよりも相対的に、より低くなる。より高い帯域幅の較正信号はまた、ベースバンド・データ・プロダクトのより高い遅延‐分解能をもたらし、較正信号に基づく音響シーン・メトリックの、より高い分解能の推定値につながる(飛行時間推定値、到着時間(ToA)推定値、範囲推定値、到来方向(DoA)推定値など)。しかしながら、より高い帯域幅の較正信号はまた、受信機のノイズ帯域幅を増加させ、それにより、抽出された音響シーン・メトリックのSNRを低減させる。さらに、較正信号の帯域幅が大きすぎる場合、較正信号に関連するコヒーレンスおよびフェージングの問題が存在するようになる可能性がある。
【0171】
DSSS信号を生成するために使用される拡散符号の長さは、相互相関除去の量を制限する。たとえば、10ビットのゴールド符号は、隣接符号の-26dBだけの拒絶を有する。これは、比較的低振幅の信号が、別のより音量が大きな信号の相互相関ノイズによって不明瞭にされ(obscured)うる、上述の遠近問題の事例を生じさせうる。他のタイプの較正信号に関わる同様の問題が生じうる。本開示で説明するシステムおよび方法の新規性のいくらかは、そのような問題を緩和または回避するように設計された統率方式を含む。
【0172】
統率方法(Orchestration Methods)
図7は、一例による統率モジュールの要素を示す。本明細書で提供される他の図と同様に、図7に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。いくつかの例によれば、統率モジュール213は、図1Bを参照して上記で説明した装置150のインスタンスによって実装されうる。いくつかのそのような例では、統率モジュール213は、制御システム160のインスタンスによって実装されうる。いくつかの例では、統率モジュール213は、図3を参照して上述された統率モジュールのインスタンスであってもよい。
【0173】
この実装によれば、統率モジュール213は、知覚モデル適用モジュール710と、音響モデル適用モジュール711と、最適化モジュール712とを含む。
【0174】
この例では、知覚モデル適用モジュール710は、先験的情報701に少なくとも部分的に基づいて、音響空間における聴取者に対する音響較正信号の知覚的影響の一つまたは複数の知覚的影響推定値702を得るために、人間の聴覚系のモデルを適用するように構成される。音響空間は、たとえば、統率モジュール213が統率するオーディオ・デバイスが位置するオーディオ環境、そのようなオーディオ環境の部屋などでありうる。推定値(単数または複数)702は、時間とともに変化しうる。知覚的影響推定値702は、いくつかの例では、たとえば音響空間において現在再生されているオーディオ・コンテンツ(もしあれば)のタイプおよびレベルに基づく、聴取者が音響較正信号を知覚する能力の推定値であってもよい。知覚モデル適用モジュール710は、たとえば、周波数およびラウドネスの関数としてのマスキング、空間的聴覚マスキングなど、聴覚マスキングの一つまたは複数のモデルを適用するように構成されうる。知覚モデル適用モジュール710は、たとえば、人間のラウドネス知覚の一つまたは複数のモデル、たとえば周波数の関数としての人間のラウドネス知覚を適用するように構成されうる。
【0175】
いくつかの例によれば、先験的情報701は、音響空間に関連する情報、音響空間における音響較正信号の伝送に関連する情報、および/または音響空間を使用することが知られている聴取者に関連する情報であってもよく、またはそれらを含んでいてもよい。たとえば、先験的情報701は、音響空間内の(たとえば、統率されるオーディオ・デバイスの)オーディオ・デバイスの数に関する情報、オーディオ・デバイスの位置、オーディオ・デバイスのラウドスピーカー・システムおよび/またはマイクロフォン・システム能力、オーディオ環境のインパルス応答に関する情報、オーディオ環境の一つまたは複数のドアおよび/または窓に関する情報、音響空間内で現在再生されているオーディオ・コンテンツに関する情報などを含んでいてもよい。いくつかの事例では、先験的情報701は、一または複数の聴取者の聴力に関する情報を含んでいてもよい。
【0176】
この実装では、音響モデル適用モジュール711は、先験的情報701に少なくとも部分的に基づいて、音響空間における音響較正信号について一つまたは複数の音響較正信号性能推定値703を得るように構成される。たとえば、音響モデル適用モジュール711は、オーディオ・デバイスのそれぞれのマイクロフォン・システムが、音響空間内の他のオーディオ・デバイスからの音響較正信号をどれだけ良好に検出することができるかを推定するように構成されてもよく、これは、本明細書では、オーディオ・デバイスの「相互可聴性(mutual audibility)」の一側面と呼ばれうる。そのような相互可聴性は、いくつかの事例では、以前に受信された音響較正信号に少なくとも部分的に基づいて、ベースバンド・プロセッサによって以前に推定された音響シーン・メトリックであった可能性がある。いくつかのそのような実装では、相互可聴性推定値は、先験的情報701の一部であってもよく、いくつかのそのような実装では、統率モジュール213は、音響モデル適用モジュール711を含まなくてもよい。しかしながら、いくつかの実装では、相互可聴性推定は、音響モデル適用モジュール711によって独立して行われてもよい。
【0177】
この例では、最適化モジュール712は、統率モジュール213によって統率されているすべてのオーディオ・デバイスについての較正パラメータ705を、少なくとも部分的には知覚的影響推定値702および音響較正信号性能推定値703と、現在の再生/聴取目的情報(play/listen objective information)704とに基づいて決定するように構成される。現在の再生/聴取目的情報704は、たとえば、音響較正信号に基づく、新しい音響シーン・メトリックの相対的必要性を示してもよい。
【0178】
たとえば、一つまたは複数のオーディオ・デバイスが音響空間内で新たに電源投入される場合、オーディオ・デバイス自動位置特定、オーディオ・デバイス相互可聴性などに関係する新たな音響シーン・メトリックに対する高いレベルの必要性がありうる。新たな音響シーン・メトリックの少なくともいくつかは、音響較正信号に基づきうる。同様に、既存のオーディオ・デバイスが音響空間内で移動された場合、新しい音響シーン・メトリックに対する高いレベルの必要性がありうる。同様に、新しいノイズ源が音響空間内またはその近くにある場合、新しい音響シーン・メトリックを決定するための高いレベルの必要性がありうる。
【0179】
現在の再生/聴取目的情報704が、新しい音響シーン・メトリックを決定する高いレベルの必要性があることを示す場合、最適化モジュール712は、知覚的影響推定値702よりも音響較正信号性能推定値703に対して相対的に高い重みを置くことによって、較正パラメータ705を決定するように構成されうる。たとえば、最適化モジュール712は、音響較正信号の高SNRの観察値を生成するシステムの能力を強調し、ユーザーによる音響較正信号の影響/知覚可能性を強調しないことによって、較正パラメータ705を決定するように構成されてもよい。いくつかのそのような例では、較正パラメータ705は可聴音響較正信号に対応しうる。
【0180】
しかしながら、音響空間の中または近くにおいて、検出された最近の変化がなく、一つまたは複数の音響シーン・メトリックの少なくとも初期推定値があった場合、新しい音響シーン・メトリックの高いレベルの必要性がないことがある。音響空間の中または近くにおいて、検出された最近の変化がなく、一つまたは複数の音響シーン・メトリックの少なくとも初期推定値があり、オーディオ・コンテンツが音響空間内で現在再生されている場合、一つまたは複数の新しい音響シーン・メトリックをすぐに推定することの相対的重要性はさらに低減されうる。
【0181】
現在の再生/聴取目的情報704が、新しい音響シーン・メトリックを決定する低レベルの必要性があることを示す場合、最適化モジュール712は、知覚的影響推定値702よりも音響較正信号性能推定値703に対して相対的により低い重みを置くことによって、較正パラメータ705を決定するように構成されうる。そのような例では、最適化モジュール712は、音響較正信号の高SNR観察値を生成するシステムの能力を強調せず、ユーザーによる音響較正信号の影響/知覚可能性を強調することによって、較正パラメータ705を決定するように構成されうる。いくつかのそのような例では、較正パラメータ705は、可聴以下の音響較正信号に対応してもよい。
【0182】
本稿で後述するように(たとえば、オーディオ・デバイス統率の他の例において)、音響較正信号のパラメータは、統率デバイスがオーディオ・システムの性能を向上させるために音響較正信号を修正することができる仕方において、豊富な多様性を提供する。
【0183】
図8は、オーディオ環境の別の例を示す。図8において、オーディオ・デバイス100Bおよび100Cは、それぞれ距離810および811だけデバイス100Aから離れている。この特定の状況では、距離811は距離810より大きい。オーディオ・デバイス100Bおよび100Cがほぼ同じレベルでオーディオ・デバイス再生音を生成していると仮定すると、これは、オーディオ・デバイス100Aが、オーディオ・デバイス100Cからの音響較正信号を、より長い距離811によって引き起こされる追加的な音響損失に起因してオーディオ・デバイス100Bからの音響較正信号よりも低いレベルで受信することを意味する。いくつかの実施形態では、オーディオ・デバイス100Bおよび100Cは、音響較正信号を抽出し、音響較正信号に基づいて音響シーン・メトリックを決定するオーディオ・デバイス100Aの能力を向上させるために統率されてもよい。
【0184】
図9は、図8のオーディオ・デバイス100Bおよび100Cによって生成される音響較正信号の例を示す。この例では、これらの音響較正信号は、同じ帯域幅を有し、同じ周波数に位置するが、異なる振幅を有する。ここで、音響較正信号230Bはオーディオ・デバイス100Bによって生成され、音響較正信号230Cのメインローブはオーディオ・デバイス100Cによって生成される。この例によれば、音響較正信号230Bのピーク・パワーは905Bであり、音響較正信号230Cのピーク・パワーは905Cである。ここで、音響較正信号230Bおよび音響較正信号230Cは、同じ中心周波数901を有する。
【0185】
この例では、統率デバイス(これはいくつかの例では、図7の統率モジュール213のインスタンスを含んでいてもよく、いくつかの事例では、図8のオーディオ・デバイス100Aであってもよい)は、オーディオ・デバイス100Bおよび100Cによって生成された音響較正信号のデジタル・レベルを等化することによって、音響較正信号を抽出するオーディオ・デバイス100Aの能力を高めている。ここで、等化は、音響較正信号230Cのピーク・パワーが、距離810および811の差に起因する音響損失の差を相殺する因子だけ、音響較正信号230Bのピーク・パワーよりも大きくなるようにする。したがって、この例によれば、オーディオ・デバイス100Aは、より長い距離811によって引き起こされる追加的な音響損失に起因して、オーディオ・デバイス100Bから受信される音響較正信号とほぼ同じレベルでオーディオ・デバイス100Cから音響較正信号230Bを受信する。
【0186】
点音源のまわりの表面の面積は、音源からの距離の二乗で増加する。これは、音源からの同じ音エネルギーがより広い面積にわたって分散され、エネルギー強度が、逆二乗則に従って、音源からの距離の二乗とともに減少することを意味する。距離810をb、距離811をcと置くと、オーディオ・デバイス100Aがオーディオ・デバイス100Bから受ける音エネルギーは1/b2に比例し、オーディオ・デバイス100Aがオーディオ・デバイス100Cから受ける音エネルギーは1/c2に比例する。音エネルギーの差は、1/(c2-b2)に比例する。よって、いくつかの実装では、統率デバイスは、オーディオ・デバイス100Cによって生成されたエネルギーを(c2-b2)倍にする。これは、性能を向上させるために較正パラメータをどのように変更できるかの例である。
【0187】
いくつかの実装では、最適化プロセスはより複雑であってもよく、逆二乗則よりも多くの要因を考慮に入れてもよい。いくつかの例では、等化は、較正信号に適用される全帯域〔フルバンド〕利得を介して、またはマイクロフォン・システム110Aの非平坦(周波数依存)応答の等化を可能にする等化(EQ)曲線を介して行われうる。
【0188】
図10は、時間領域多元接続(TDMA)方法の例を提供するグラフである。遠近問題を回避する1つの方法は、音響較正信号を送信および受信している複数のオーディオ・デバイスを統率して、各オーディオ・デバイスがその音響較正信号を再生するために異なる時間スロットがスケジュールされるようにすることである。これはTDMA方法として知られている。図10に示される例では、統率デバイスは、オーディオ・デバイス1、2、および3に、TDMA方法に従って音響較正信号を放出させている。この例では、オーディオ・デバイス1、2および3は、同じ周波数帯域の音響較正信号を放出する。この例によれば、統率デバイスは、オーディオ・デバイス3に、時間t0から時間t1まで音響較正信号を放出させ、その後、統率デバイスは、オーディオ・デバイス2に、時間t1から時間t2まで音響較正信号を放出させ、その後、統率デバイスは、オーディオ・デバイス1に、時間t2から時間t3まで音響較正信号を放出させる、などとなる。
【0189】
よって、この例では、2つの較正信号が同時に送信または受信されることはない。よって、振幅、帯域幅および長さのような残りの較正信号パラメータは(各較正信号がその割り当てられた時間スロット内に留まる限り)、多重アクセスには関連しない。しかしながら、そのような較正信号パラメータは、較正信号から抽出される観察値の品質には相変わらず関連がある。
【0190】
図11は、周波数領域多元接続(FDMA)方法の例を示すグラフである。いくつかの実装では(たとえば、較正信号の限られた帯域幅に起因して)、統率デバイスは、オーディオ・デバイスに、オーディオ環境内の2つの他のオーディオ・デバイスから音響較正信号を同時に受信させるように構成されうる。いくつかのそのような例では、音響較正信号を送信する各オーディオ・デバイスが、異なる周波数帯域においてそのそれぞれの音響較正信号を再生する場合、音響較正信号は、受信パワー・レベルにおいて著しく異なる。これはFDMA方法である。図11に示されるFDMA方法の例では、較正信号230Bおよび230Cは、異なるオーディオ・デバイスによって同時に送信されているが、異なる中心周波数(f1およびf2)を有し、異なる周波数帯域(b1およびb2)内である。この例では、メインローブの周波数帯域b1およびb2は重複していない。そのようなFDMA方法は、音響較正信号が、それらの経路に関連する音響損失において大きな差を有する状況について有利でありうる。
【0191】
いくつかの実装では、統率デバイスは、遠近問題を緩和するために、FDMA、TDMA、またはCDMA方法を変形するように構成されうる。いくつかのDSSS例では、DSSS拡散符号の長さは、部屋内のデバイスの相対的可聴性に従って変更されうる。図6を参照して上述したように、音響DSSS信号において同じ量のエネルギーが与えられると、拡散符号が音響DSSS信号の帯域幅を増加させる場合、音響DSSS信号は、相対的に、より低い最大パワーを有し、相対的に、可聴性がより低い。代替的または追加的に、いくつかの実装では、較正信号は、互いに直交して配置されうる。いくつかのそのような実装は、システムが異なる拡散符号長をもつDSSS信号を同時に有することを許容する。代替的または追加的に、いくつかの実装では、各較正信号内のエネルギーは、遠近問題の影響を低減するために(たとえば、相対的に音量が低いおよび/またはより遠い送信オーディオ・デバイスによって生成される音響較正信号のレベルを上げる〔ブーストする〕ために)、および/または所与の動作目的のための最適な信号対雑音比を得るために、修正されうる。
【0192】
図12は、統率方法の別の例を示すグラフである。図12の要素は以下の通りである:
1210、1211、1212:互いに重複しない周波数帯域;
230Ai、BiおよびCi:周波数帯域1210内で時間領域多重化された複数の音響較正信号。オーディオ・デバイス1、2、および3が周波数帯域1210の異なる部分を使用しているように見えるかもしれないが、この例では、音響較正信号230Ai、Bi、およびCiは、周波数帯域1210の大部分または全部にわたって広がる;
230DおよびE:周波数帯域1211内で符号領域多重化された複数の音響較正信号。オーディオ・デバイス4および5が周波数帯域1211の異なる部分を使用しているように見えるかもしれないが、この例では、音響較正信号230Dおよび230Eは、周波数帯域1211の大部分または全部にわたって広がる;
230Aii、BiiおよびCii:周波数帯域1212内で符号領域多重化された複数の音響較正信号。オーディオ・デバイス1、2、および3が周波数帯域1210の異なる部分を使用しているように見えるかもしれないが、この例では、音響較正信号230Aii、Bii、およびCiiは、周波数帯域1212の大部分または全部にわたって広がる。
【0193】
図12は、本発明のある種の実装において、TDMA、FDMAおよびCDMAがどのように一緒に使用されうるかの例を示す。周波数帯域1(1210)において、TDMAは、オーディオ・デバイス1~3によってそれぞれ送信される音響較正信号230Ai、Bi、およびCiを統率するために使用される。周波数帯域1210は、単一の周波数帯域であり、音響較正信号230Ai、Bi、およびCiは、重複することなく同時に中に収まることができない。
【0194】
周波数帯域2(1211)において、CDMAは、それぞれオーディオ・デバイス4および5からの音響較正信号230DおよびEを統率するために使用される。この特定の例では、音響較正信号230Dは、音響較正信号230Eよりも時間的に長い。オーディオ・デバイス5のためのより短い較正信号持続時間は、オーディオ・デバイス5がオーディオ・デバイス4よりも音量が大きい場合、受信オーディオ・デバイスの観点からは、より短い較正信号持続時間が較正信号の帯域幅の増加およびより低いピーク周波数に対応する場合、有用でありうる。信号対雑音比(SNR)もまた、音響較正信号230Dの相対的により長い持続時間とともに改善されうる。
【0195】
周波数帯域3(1212)において、CDMAは、オーディオ・デバイス1~3によってそれぞれ送信される音響較正信号230Aii、Bii、およびCiiを統率するために使用される。これらの音響較正信号は、オーディオ・デバイス1~3によって使用される代替的な較正信号に対応し、これらのオーディオ・デバイスは、周波数帯域1210内で同じオーディオ・デバイスのためのTDMA統率された音響較正信号を同時に送信している。これは、より長い較正信号が1つの周波数帯域(1212)内に配置されて同時に送信される(TDMAなし)一方で、より短い較正信号が、TDMAが使用される別の周波数帯域(1210)内に配置される、FDMAの形態である。
【0196】
図13は、統率方法の別の例を示すグラフである。この実装によれば、オーディオ・デバイス4は、互いに直交する音響較正信号230Diおよび230Diiを送信しており、オーディオ・デバイス5は、やはり互いに直交する音響較正信号230Eiおよび230Eiiを送信している。この例によれば、すべての音響較正信号は、単一の周波数帯域1310内で同時に送信される。この例では、直交音響較正信号230Diおよび230Eiは、2つのオーディオ・デバイスによって送信される同相較正信号230Diiおよび230Eiiより長い。この結果、各オーディオ・デバイスは、より低い更新レートではあるが、音響較正信号230Diおよび230Eiから導出された観察値の、より高いSNRのセットに加えて、音響較正信号230Diiおよび230Eiiから導出された観察値の、より高速でノイズの多いセットを有する。これは、2つのオーディオ・デバイスが共有している音響空間のために設計された音響較正信号を2つのオーディオ・デバイスが送信している、CDMAベースの統率方法の一例である。いくつかの事例では、統率方法はまた、現在の聴取目的に少なくとも部分的に基づいていてもよい。
【0197】
図14は、別の例によるオーディオ環境の要素を示す。この例では、オーディオ環境1401は、音響空間130A、130B、および130Cを含む複数部屋の住居である。この例によれば、ドア1400Aおよび1400Bは、各音響空間の結合を変更することができる。たとえば、ドア1400Aが開いている場合、音響空間130Aおよび130Cは、少なくともある程度音響的に結合され、一方、ドア1400Aが閉じている場合、音響空間130Aおよび130Cは、いかなる有意な程度にも音響的に結合されない。いくつかの実装では、統率デバイスは、隣接する音響空間におけるオーディオ・デバイス再生音の検出またはその欠如に従って、ドアが開かれていること(または別の音響障害物が動かされていること)を検出するように構成されてもよい。
【0198】
いくつかの例では、統率デバイスは、音響空間130A、130B、および130Cのすべてにおいて、オーディオ・デバイス100A~100Eのすべてを統率しうる。しかしながら、ドア1400Aおよび1400Bが閉じられているときの音響空間130A、130Bおよび130Cの間のかなりのレベルの音響隔離のため、統率デバイスは、いくつかの例では、ドア1400Aおよび1400Bが閉じているときに音響空間130A、130Bおよび130Cを独立したものとして扱うことができる。いくつかの例では、統率デバイスは、ドア1400Aおよび1400Bが開いているときであっても、音響空間130A、130Bおよび130Cを独立したものとして扱ってもよい。しかしながら、いくつかの事例では、統率デバイスは、ドア1400Aおよび/または1400Bの近くに位置するオーディオ・デバイスを管理してもよく、それにより、音響空間がドア開放のため結合されるとき、開いたドアに近いオーディオ・デバイスは、ドアの両側の部屋に対応するオーディオ・デバイスとして扱われる。たとえば、統率デバイスが、ドア1400Aが開いていると決定した場合、統率デバイスは、オーディオ・デバイス100Cを、音響空間130Aのオーディオ・デバイスであり、音響空間130Cのオーディオ・デバイスでもあるとみなすように構成されうる。
【0199】
図15は、開示されるオーディオ・デバイス統率方法の別の例を概説するフロー図である。方法1500のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。方法1500は、統率デバイスおよび統率されるオーディオ・デバイスを含むシステムによって実行されてもよい。システムは、図1Bに示され、上述された装置150のインスタンスを含んでいてもよく、そのうちの1つは統率デバイスとして構成される。統率デバイスは、いくつかの例では、本明細書で開示される統率モジュール213のインスタンスを含みうる。
【0200】
この例によれば、ブロック1505は、すべての参加するオーディオ・デバイスの定常状態動作に関わる。この文脈において、「定常状態」動作は、統率デバイスから最も最近受信された較正信号パラメータのセットに従った動作を意味する。いくつかの実装によれば、パラメータのセットは、一つまたは複数のDSSS拡散符号パラメータと、一つまたは複数のDSSS搬送波パラメータとを含みうる。
【0201】
この例では、ブロック1505はまた、一つまたは複数のデバイスがトリガー条件を待つことに関わる。トリガー条件は、たとえば、統率されたオーディオ・デバイスが位置するオーディオ環境における音響変化でありうる。音響変化は、ノイズ源からのノイズ、開かれるまたは閉じられるドアまたは窓に対応する変化(たとえば、隣接する部屋の一つまたは複数のラウドスピーカーからの再生音の増加したまたは減少した可聴性)、オーディオ環境におけるオーディオ・デバイスの検出された動き、オーディオ環境における人の検出された動き、オーディオ環境における人の検出された発声(たとえば、ウェイクワードの発声)、オーディオ・コンテンツ再生の開始(たとえば、映画、テレビ番組、音楽コンテンツ等の開始)、オーディオ・コンテンツ再生の変化(たとえば、デシベル単位の閾値変化以上のボリューム変化)等であってもよく、またはそれらを含んでいてもよい。いくつかの事例では、音響変化は、たとえば本明細書に開示されるような、音響較正信号(たとえば、オーディオ環境におけるオーディオ・デバイスのベースバンド・プロセッサ218によって推定される一つまたは複数の音響シーン・メトリック225A)を介して検出される。
【0202】
いくつかの事例では、トリガー条件は、新しいオーディオ・デバイスがオーディオ環境において電源投入されたことの指示でありうる。いくつかのそのような例では、新しいオーディオ・デバイスは、人間に可聴であってもなくてもよい一つまたは複数の特徴的な音を生成するように構成されうる。いくつかの例によれば、新しいオーディオ・デバイスは、新しいデバイスのために予約された音響較正信号を再生するように構成されうる。
【0203】
この例では、ブロック1510において、トリガー条件が検出されたかどうかが判定される。そうである場合、プロセスはブロック1515に進む。そうでない場合、プロセスはブロック1505に戻る。いくつかの実装では、ブロック1505はブロック1510を含みうる。
【0204】
この例によれば、ブロック1515は、統率デバイスによって、統率されるオーディオ・デバイスのうちの一つまたは複数(いくつかの事例ではすべて)のための一つまたは複数の更新された音響較正信号パラメータを決定することと、統率されるオーディオ・デバイス(単数または複数)に更新された音響較正信号パラメータ(単数または複数)を提供することとに関わる。いくつかの例では、ブロック1515は、統率デバイスによって、本明細書の他の箇所で説明される較正信号情報205を提供することに関わってもよい。更新された音響較正信号パラメータの決定は、以下のような音響空間の既存の知識および推定値を使用することに関わってもよい:
・デバイス位置;
・デバイス範囲;
・デバイス配向および相対的な入射角;
・デバイス間の相対的なクロック・バイアスおよびスキュー;
・デバイスの相対的可聴性;
・室内ノイズ推定値;
・各デバイスにおけるマイクロフォンおよびスピーカーの数;
・各デバイスのスピーカーの指向性;
・各デバイスのマイクロフォンの指向性;
・音響空間にレンダリングされているコンテンツのタイプ;
・音響空間内の一または複数の聴取者の位置;および/または
・鏡面反射および隠蔽を含む音響空間の知識。
【0205】
そのような要因は、いくつかの例では、新しい動作点を決定するために動作目的(operational objective)と組み合わされてもよい。更新された較正信号パラメータを決定する際に既存の知識として使用されるこれらのパラメータの多くは、音響較正信号から導出されることができることに留意されたい。したがって、統率されたシステムは、いくつかの例では、システムがより多くの情報、より正確な情報などを取得するにつれて、その性能を逐次反復的に改善できることが容易に理解できる。
【0206】
この例では、ブロック1520は、統率デバイスから受信された更新された音響較正信号パラメータ(単数または複数)に従って音響較正信号を生成するために使用される一つまたは複数のパラメータを、一つまたは複数の統率されるオーディオ・デバイスによって、再構成することを含む。この実装によれば、ブロック1520が完了した後、プロセスはブロック1505に戻る。図15のフロー図には終了が示されていないが、方法1500は、さまざまな仕方で、たとえばオーディオ・デバイスの電源が切られたときに、終了することができる。
【0207】
図16は、オーディオ環境の別の例を示す。図16に示されるオーディオ環境130は、図8に示されるものと同じであるが、オーディオ・デバイス100Aの視点からの(オーディオ・デバイス100Aに対する)、オーディオ・デバイス100Cの角度分離からのオーディオ・デバイス100Bの角度分離をも示している。図16では、オーディオ・デバイス100Bおよび100Cは、それぞれ距離810および811だけデバイス100Aから分離されている。この特定の状況では、距離811は距離810より大きい。オーディオ・デバイス100Bおよび100Cがほぼ同じレベルでオーディオ・デバイス再生音を生成していると仮定すると、これは、オーディオ・デバイス100Aが、より長い距離811によって引き起こされる追加的な音響損失に起因して、オーディオ・デバイス100Bからの音響較正信号よりも低いレベルでオーディオ・デバイス100Cからの音響較正信号を受信することを意味する。
【0208】
この例では、デバイス100Aがデバイス100Bおよび100Cの両方を聞く能力を最適化するための、デバイス100Bおよび100Cの統率に焦点を当てている。上記で概説したように、考慮すべき他の要因が存在するが、この例は、オーディオ・デバイス100Aに対する、オーディオ・デバイス100Cの角度分離からのオーディオ・デバイス100Bの角度分離によって引き起こされる到来角ダイバーシチに焦点を当てている。距離810および811の差に起因して、統率は、クロスチャネル相関(cross channel correlation)を低減することによって遠近問題を緩和するために、オーディオ・デバイス100Bおよび100Cの符号長がより長く設定されることにつながりうる。しかしながら、受信側ビームフォーマー(215)がオーディオ・デバイス100Aによって実装された場合、オーディオ・デバイス100Bと100Cの間の角度分離が、オーディオ・デバイス100Bおよび100Cからの音に対応するマイクロフォン信号を異なるローブに配置し、2つの受信信号のさらなる分離を提供するので、遠近問題はいくらか緩和される。よって、この追加的な分離は、統率デバイスが音響較正信号長を低減し、より速いレートで観察値を取得することを許容しうる。
【0209】
これは、たとえば、音響DSSS拡散符号長に適用されるだけではない。全方向性マイクロフォン・フィードの代わりに空間的マイクロフォン・フィードがオーディオ・デバイス100A(および/またはオーディオ・デバイス100Bおよび100C)によって使用されるとき、(たとえば、FDMAまたはTDMAを使用するときでも)遠近問題を緩和するために変更できるいかなる音響較正パラメータも、もはや必要でないことがある。
【0210】
空間的手段(この場合、角度ダイバーシチ)に応じた統率は、これらの特性の推定値がすでに利用可能であることに依存する。一例では、較正パラメータは、全方向性マイクロフォン・フィードのために最適化されてもよく(206)、次いで、DoA推定値が利用可能になった後、音響較正パラメータは、空間的マイクロフォン・フィードのために最適化されうる。これは、図15を参照して上述したトリガー条件の1つの実現である。
【0211】
図17は、いくつかの開示される実装による、較正信号復調器要素、ベースバンド・プロセッサ要素、および較正信号生成器要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図17に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。他の例は、周波数領域相関などの他の方法を実装することができる。この例では、較正信号復調器214、ベースバンド・プロセッサ218、および較正信号生成器212は、図1Bを参照して上述した制御システム160のインスタンスによって実装される。
【0212】
いくつかの実装によれば、それについて音響較正信号が受信されるところの各オーディオ・デバイスからの送信された(再生された)それぞれの音響較正信号について、較正信号復調器214、ベースバンド・プロセッサ218、および較正信号生成器212の1つのインスタンスがある。言い換えれば、図16に示される実装については、オーディオ・デバイス100Aは、オーディオ・デバイス100Bから受信された音響較正信号に対応する、較正信号復調器214、ベースバンド・プロセッサ218、および較正信号生成器212の1つのインスタンスと、オーディオ・デバイス100Cから受信された音響較正信号に対応する、較正信号復調器214、ベースバンド・プロセッサ218、および較正信号生成器212の1つのインスタンスとを実装する。
【0213】
例解のために、図17の以下の説明は、図16のオーディオ・デバイス100Aのこの例をローカル・デバイスとして使用し続ける、すなわち、この例では、較正信号復調器214、ベースバンド・プロセッサ218、および較正信号生成器212のインスタンスを実装するものとして使用し続ける。より具体的には、図17の以下の説明は、較正信号復調器214によって受信されたマイクロフォン信号206が、オーディオ・デバイス100Bによって生成された音響較正信号を含むオーディオ・デバイス100Bのラウドスピーカーによって生成された再生音を含み、図17に示される較正信号復調器214、ベースバンド・プロセッサ218、および較正信号生成器212のインスタンスが、オーディオ・デバイス100Bのラウドスピーカーによって再生される音響較正信号に対応すると想定する。
【0214】
この特定の実装では、較正信号はDSSS信号である。したがって、この実装によれば、較正信号生成器212は、音響DSSS信号を生成するためにオーディオ・デバイス100Bによって使用されているDSSS搬送波のDSSS搬送波レプリカ1705を較正信号復調器214に提供するように構成された音響DSSS搬送波モジュール1715を含む。いくつかの代替的な実装では、音響DSSS搬送波モジュール1715は、音響DSSS信号を生成するためにオーディオ・デバイス100Bによって使用されている一つまたは複数のDSSS搬送波パラメータを較正信号復調器214に提供するように構成されてもよい。いくつかの代替例では、較正信号は、最大長シーケンスまたは他のタイプの擬似ランダム・バイナリ・シーケンスなど、搬送波を変調することによって生成される他のタイプの較正信号である。
【0215】
この実装では、較正信号生成器212は、音響DSSS信号を生成するためにオーディオ・デバイス100Bによって使用されているDSSS拡散符号1706を較正信号復調器214に提供するように構成された音響DSSS拡散符号モジュール1720も含む。DSSS拡散符号1706は、本明細書で開示される式における拡散符号C(t)に対応する。DSSS拡散符号1706は、たとえば、擬似乱数(pseudo-random number、PRN)シーケンスでありうる。
【0216】
この実装によれば、較正信号復調器214は、受信されたマイクロフォン信号206から帯域通過フィルタ処理されたマイクロフォン信号1704を生成するように構成された帯域通過フィルタ1703を含む。いくつかの事例では、帯域通過フィルタ1703の通過帯域は、較正信号復調器214によって処理されているオーディオ・デバイス100Bからの音響DSSS信号の中心周波数を中心としうる。通過帯域フィルタ1703は、たとえば、音響DSSS信号のメインローブを通過させてもよい。いくつかの例では、通過帯域フィルタ1703の通過帯域は、オーディオ・デバイス100Bからの音響DSSS信号の伝送のための周波数帯域に等しくてもよい。
【0217】
この例では、較正信号復調器214は、ベースバンド信号1700を生成するために、帯域通過フィルタリングされたマイクロフォン信号1704をDSSS搬送波レプリカ1705と畳み込むように構成された乗算ブロック1711Aを含む。この実装によれば、較正信号復調器214は、拡散解除(de-spread)ベースバンド信号1701を生成するために、DSSS拡散符号1706をベースバンド信号1700に適用するように構成された乗算ブロック1711Bも含む。
【0218】
この例によれば、較正信号復調器214は累算器〔アキュムレータ〕1710Aを含み、ベースバンド・プロセッサ218は累算器1710Bを含む。累算器1710Aおよび1710Bは、本明細書では加算要素と呼ばれることもある。累算器1710Aは、各音響較正信号についての符号長(この例では、オーディオ・デバイス100Bによって現在再生されている音響DSSS信号についての符号長)に対応する、本明細書で「コヒーレント時間」と呼ばれることもある時間の間に動作する。この例では、累算器1710Aは、「積分・ダンプ」プロセスを実装し、言い換えれば、拡散解除ベースバンド信号1701をコヒーレント時間にわたって合計した後、累算器1710Aは、復調されたコヒーレントなベースバンド信号208をベースバンド・プロセッサ218に出力する(「ダンプする」)。いくつかの実装では、復調されたコヒーレントなベースバンド信号208は単一の数であってもよい。
【0219】
この例では、ベースバンド・プロセッサ218は、二乗則モジュール1712を含み、このモジュールは、この例では、復調されたコヒーレントなベースバンド信号208の絶対値を二乗し、パワー信号1722を累算器1710Bに出力するように構成される。絶対値および二乗プロセスの後、パワー信号は、インコヒーレント信号と見なされうる。この例では、累算器1710Bは、「インコヒーレント時間」にわたって動作する。インコヒーレント時間は、いくつかの例では、統率デバイスからの入力に基づいていてもよい。インコヒーレント時間は、いくつかの例では、所望されるSNRに基づいていてもよい。この例によれば、累算器1710Bは、複数の遅延(本明細書では「タウ(tau)」またはタウ(τ)のインスタンスとも呼ばれる)において遅延波形400を出力する。
【0220】
図17における1704から208までの段階を次のように表すことができる。
【数1】
【0221】
上記の式において、Y(tau)はコヒーレントな復調器出力(208)を表し、d[n]は帯域通過フィルタリングされた信号(図17における1704またはA)を表し、CAは、部屋における遠方デバイス(この例では、オーディオ・デバイス100B)によって較正信号(この例では、DSSS信号)を変調するために使用される符号を拡散することのローカル・コピーを表し、最後の項は搬送波信号である。いくつかの例では、これらの信号パラメータのすべてが、オーディオ環境内のオーディオ・デバイス間で統率される(たとえば、統率デバイスによって決定され、提供されてもよい)。
【0222】
Y(tau)(208)から<Y(tau)>(400)への図17における信号チェーンは、コヒーレント復調器出力が二乗され平均化される、インコヒーレント積分である。平均の数(インコヒーレント累算器1710Bが動作する回数)は、いくつかの例では、たとえば十分なSNRが達成されたという判断に基づいて、統率デバイスによって決定され、与えられうるパラメータである。いくつかの事例では、ベースバンド・プロセッサ218を実装しているオーディオ・デバイスは、たとえば十分なSNRが達成されたという判断に基づいて、平均の数を決定しうる。
【0223】
インコヒーレント積分は、数学的には次のように表すことができる。
【数2】
【0224】
上記の式は、Nによって定義される時間期間にわたって二乗されたコヒーレント遅延波形を単純に平均化することに関わり、ここで、Nは、インコヒーレント積分において使用されるブロックの数を表す。
【0225】
図18は、別の例による較正信号復調器の要素を示す。この例によれば、較正信号復調器214は、遅延推定値、DoA推定値、および可聴性推定値を生成するように構成される。この例では、較正信号復調器214は、コヒーレント復調を実行するように構成され、次いで、完全遅延波形に対してインコヒーレント積分が実行される。図17を参照して上述した例のように、この例では、較正信号復調器214がオーディオ・デバイス100Aによって実装されており、オーディオ・デバイス100Bによって再生された音響DSSS信号を復調するように構成されていると想定する。
【0226】
この例では、較正信号復調器214は、聴取者の体験のためにレンダリングされているオーディオ・コンテンツの一部、および遠近問題を回避するために他の周波数帯域に配置された音響DSSS信号など、他のオーディオ信号からの不要なエネルギーを除去するように構成された帯域通過フィルタ1703を含む。たとえば、帯域通過フィルタ1703は、図12および13に示される周波数帯域のうちの1つからのエネルギーを通過させるように構成されてもよい。
【0227】
整合フィルタ〔マッチト・フィルタ〕1811は、帯域通過フィルタリングされた信号1704を関心対象の音響較正信号のローカル・レプリカと相関させることによって遅延波形1802を計算するように構成される。この例では、ローカル・レプリカは、オーディオ・デバイス100Bによって生成されたDSSS信号に対応するDSSS信号レプリカ204のインスタンスである。次に、整合フィルタ出力1802は、低域通過フィルタ712によって低域通過フィルタリングされ、コヒーレントに復調された複素遅延波形208を生成する。いくつかの代替的な実装では、低域通過フィルタ712は、図17を参照して上記で説明した例のような、インコヒーレントに平均された遅延波形を生成するベースバンド・プロセッサ218内の二乗演算の後に配置されてもよい。
【0228】
この例では、チャネル・セレクタ1813は、較正信号情報205に従って、帯域通過フィルタ1703(たとえば、帯域通過フィルタ1703の通過帯域)および整合フィルタ1811を制御するように構成される。上述したように、較正信号情報205は、較正信号などを復調するために制御システム160によって使用されるパラメータを含んでいてもよい。較正信号情報205は、いくつかの例では、どのオーディオ・デバイスが音響較正信号を生成しているかを示してもよい。いくつかの例では、較正信号情報205は、統率デバイスなどの外部ソースから(たとえば、無線通信を介して)受信されうる。
【0229】
図19は、いくつかの開示される実装によるベースバンド・プロセッサ要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図19に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。この例では、ベースバンド・プロセッサ218は、図1Bを参照して上述した制御システム160のインスタンスによって実装される。
【0230】
この特定の実装では、コヒーレント技法は適用されない。よって、実行される第1の動作は、インコヒーレント遅延波形1922を生成するために、二乗則モジュール1712を介して複素遅延波形208のパワーを取ることである。インコヒーレント遅延波形1922は、インコヒーレントに平均された遅延波形400を生成するために、ある時間期間(これはこの例では、統率デバイスから受信された較正信号情報205において指定されるが、いくつかの例ではローカルに決定されてもよい)にわたって、累算器1710Bによって積分される。この例によれば、次いで、遅延波形400は、次のように複数の仕方で処理される。
1. 前縁〔リーディングエッジ〕推定器1912は、遅延推定値1902を得るように構成される。遅延推定値1902は、受信信号の推定される時間遅延である。いくつかの例では、遅延推定値1902は、遅延波形400の前縁の位置の推定に少なくとも部分的に基づきうる。いくつかのそのような例によれば、遅延推定値1902は、遅延波形400の前縁の位置に対応する時間サンプル、または遅延波形400の前縁の位置より(信号帯域幅に反比例する)1チップ期間未満後である時間サンプルまでの(当該時間サンプルを含む)遅延波形の信号部分(たとえば、正の部分)の時間サンプルの数に従って決定されうる。後者の場合、いくつかの例によれば、この遅延は、DSSS符号の自己相関の幅を補償するために使用されうる。チッピング・レートが増加するにつれて、自己相関のピークの幅は狭くなり、チッピング・レートがサンプリングレートに等しいときに最小になる。この条件(チッピング・レートがサンプリングレートに等しい)は、所与のDSSS符号についてのオーディオ環境についての真のインパルス応答に最も近い近似である遅延波形400をもたらす。チッピング・レートが増加するにつれて、スペクトル重複(エイリアシング)が、較正信号変調器220Aに続いて発生しうる。いくつかの例では、較正信号変調器220Aは、チッピング・レートがサンプリングレートに等しい場合、バイパスされるかまたは省略されてもよい。サンプリングレートのものに近づくチッピング・レート(たとえば、サンプリングレートの80%、サンプリングレートの90%などであるチッピング・レート)は、いくつかの目的のために実際のインパルス応答の満足のいく近似である遅延波形400を提供しうる。いくつかのそのような例では、遅延推定値1902は、較正信号特性に関する情報に(たとえば、DSSS信号特性に)部分的に基づきうる。いくつかの例では、前縁推定器1912は、時間窓の間、閾値よりも大きい値の最初のインスタンスに従って、遅延波形400の前縁の位置を推定するように構成されうる。いくつかの例を、図20を参照して以下に説明する。他の例では、前縁推定器1912は、最大値(たとえば、時間窓内の最大値)の位置に従って遅延波形400の前縁の位置を推定するように構成されてもよく、これは「ピーク・ピッキング(peak-picking)」の例である。遅延を推定するために他の多くの技法が使用できることに留意されたい(たとえばピーク・ピッキング)。
2. この例では、ベースバンド・プロセッサ218は、遅延和DoA推定器1914を使う前に遅延波形400に(窓掛けブロック1913を用いて)窓掛けすることによってDoA推定1903を行うように構成される。遅延和DoA推定器1914は、遅延波形400のステアード応答パワー(steered response power、SRP)の決定に少なくとも部分的に基づいてDoA推定を行ってもよい。よって、遅延和DoA推定器1914は、本明細書では、SRPモジュールまたは遅延和ビームフォーマーと呼ばれることもある。窓掛けは、前縁のまわりの時間区間を単離するのに有用であり、それにより、結果として得られるDoA推定値は、ノイズよりも信号に多く基づくことになる。いくつかの例では、窓サイズは、数十または数百ミリ秒の範囲内、たとえば、10~200ミリ秒の範囲内であってもよい。いくつかの事例では、窓サイズは、典型的な室内減衰時間の知識に基づいて、または問題のオーディオ環境の減衰時間の知識に基づいて選択されうる。いくつかの事例では、窓サイズは、経時的に適応的に更新されてもよい。たとえば、いくつかの実装は、遅延波形400の信号部分によって占有される窓の少なくとも何らかの部分をもたらす窓サイズを決定することに関わってもよい。いくつかのそのような実装は、前縁の前に生じる時間サンプルに従ってノイズ・パワーを推定することに関わってもよい。いくつかのそのような実装は、窓の少なくともある閾値割合が、少なくとも閾値信号レベル、たとえば推定ノイズ・パワーよりも少なくとも6dB大きい、推定ノイズ・パワーよりも少なくとも8dB大きい、推定ノイズ・パワーよりも少なくとも10dB大きいレベルなどに対応する遅延波形の部分によって占有される結果となるような窓サイズを選択することに関わってもよい。
3. この例によれば、ベースバンド・プロセッサ218は、SNR推定ブロック1915を使用して信号対雑音パワーを推定することによって可聴性推定1904を行うように構成される。この例では、SNR推定ブロック1915は、遅延波形400から信号パワー推定値402およびノイズ・パワー推定値401を抽出するように構成される。いくつかのそのような例によれば、SNR推定ブロック1915は、図20を参照して以下で説明されるように、遅延波形400の信号部分およびノイズ部分を決定するように構成されてもよい。いくつかのそのような例では、SNR推定ブロック1915は、選択された時間窓にわたって信号部分とノイズ部分とを平均することによって、信号パワー推定値402とノイズ・パワー推定値401とを決定するように構成されてもよい。いくつかのそのような例では、SNR推定ブロック1915は、ノイズ・パワー推定値401に対する信号パワー推定値402の比に従ってSNR推定を行うように構成されてもよい。いくつかの事例では、ベースバンド・プロセッサ218は、SNR推定に従って可聴性推定1904を行うように構成されてもよい。所与の量のノイズ・パワーについて、SNRは、オーディオ・デバイスの可聴性に比例する。よって、いくつかの実装では、SNRは、実際のオーディオ・デバイス可聴性の推定値についてのプロキシ(たとえば、それに比例する値)として直接使用されうる。較正されたマイクロフォン・フィードを含むいくつかの実装は、(たとえば、dBSPLにおける)絶対可聴性を測定することと、SNRを絶対可聴性推定値に変換することとに関わってもよい。いくつかのそのような実装では、絶対可聴性推定値を決定するための方法は、オーディオ・デバイス間の距離に起因する音響損失および部屋内のノイズの変動性を考慮に入れる。他の実装では、遅延波形から信号パワー、ノイズ・パワーおよび/または相対的可聴性を推定するための他の技法がある。
【0231】
図20は、遅延波形の一例を示す。この例では、遅延波形400は、ベースバンド・プロセッサ218のインスタンスによって出力されている。この例によれば、縦軸はパワーを示し、横軸はメートル単位の擬似レンジを示す。上述したように、ベースバンド・プロセッサ218は、本明細書で時にτと称される遅延情報を、復調された音響較正信号から抽出するように構成される。τの値は、本明細書で時にρと称される擬似レンジ測定値に、次のように変換できる:
ρ=τc
【0232】
上記の式で、cは音速である。図20において、遅延波形400は、ノイズ部分2001(ノイズフロアと呼ばれることもある)および信号部分2002を含む。擬似レンジ測定値(および対応する遅延波形)における負の値はノイズとして識別されることができる:負のレンジ(距離)は物理的意味をなさないので、負の擬似レンジに対応するパワーはノイズであると想定される。
【0233】
この例では、波形400の信号部分2002は、前縁2003および後縁〔トレイリングエッジ〕を含む。信号部分2002のパワーが比較的強い場合、前縁2003は、遅延波形400の顕著な特徴である。いくつかの例では、図19の前縁推定器1912は、時間窓の間の閾値よりも大きいパワー値の最初のインスタンスに従って、前縁2003の位置を推定するように構成されうる。いくつかの例では、時間窓は、τ(またはρ)は0であるときに始まってもよい。いくつかの事例では、窓サイズは、数十または数百ミリ秒の範囲内、たとえば、10~200ミリ秒の範囲内でありうる。いくつかの実装によれば、閾値は、前に選択された値、たとえば、-5dB、-4dB、-3dB、-2dBなどでありうる。いくつかの代替例では、閾値は、遅延波形400の少なくとも一部分中のパワー、たとえば、ノイズ部分の平均パワーに基づいていてもよい。
【0234】
しかしながら、上述したように、他の例では、前縁推定器1912は、最大値(たとえば、時間窓内の最大値)の位置に従って前縁2003の位置を推定するように構成されてもよい。いくつかの事例では、時間窓は、上記のように選択されうる。
【0235】
図19のSNR推定ブロック1915は、いくつかの例では、ノイズ部分2001の少なくとも一部に対応する平均ノイズ値と、信号部分2002の少なくとも一部に対応する平均またはピーク信号値とを決定するように構成されうる。図19のSNR推定ブロック1915は、いくつかのそのような例では、平均信号値を平均ノイズ値で除算することによってSNRを推定するように構成されうる。
【0236】
環境ノイズ条件を補償するためのノイズ補償(たとえば、スピーカー再生コンテンツの自動的なレベリング)は、よく知られており、所望される特徴であるが、以前は最適な仕方で実装されていなかった。環境ノイズ条件を測定するためにマイクロフォンを使用することは、スピーカー再生コンテンツをも測定し、ノイズ補償を実装するために必要とされるノイズ推定(たとえば、オンライン・ノイズ推定)のための主要な課題を呈する。
【0237】
オーディオ環境内の人々は、一般に、任意の所与の部屋の臨界音響距離(critical acoustic distance)の外側にありうるので、同様の距離だけ離れた他のデバイスから導入されるエコーは、依然として著しいエコー影響を表しうる。洗練されたマルチチャネル・エコー・キャンセレーションが利用可能であり、要求される性能を何とか達成したとしても、キャンセラーにリモート・エコー基準(remote echo reference)を提供するロジスティックスは、受け入れられない帯域幅および複雑さのコストを有する可能性がある。
【0238】
いくつかの開示される実装は、人、デバイス、およびオーディオ条件(ノイズおよび/またはエコーなど)を含む音響空間の永続的な(たとえば、連続的な、または少なくとも継続的な)特徴付けを介して、オーディオ環境においてオーディオ・デバイスのコンステレーションを連続的に較正する方法を提供する。いくつかの開示される例では、そのようなプロセスは、メディアがオーディオ環境のオーディオ・デバイスを介して再生されている間であっても継続する。
【0239】
本明細書で使用されるところでは、再生信号における「ギャップ」とは、再生コンテンツが欠落している(または所定の閾値未満のレベルを有する)再生信号の時刻(または時間区間)を示す。たとえば、「ギャップ」(本明細書では「強制ギャップ」または「パラメータ化された強制ギャップ」とも呼ばれる)は、ある時間区間の間の、ある周波数範囲における再生コンテンツの減衰であってもよい。いくつかの開示された実装では、コンテンツ・ストリームのオーディオ再生信号の一つまたは複数の周波数範囲内にギャップが挿入されて、修正オーディオ再生信号を生成してもよく、修正オーディオ再生信号がオーディオ環境において再生または「プレイバック」されてもよい。いくつかのそのような実装では、N個のギャップが、N個の時間区間の間のオーディオ再生信号のN個の周波数範囲に挿入されうる。
【0240】
いくつかのそのような実装によれば、M個のオーディオ・デバイスは、時間および周波数におけるギャップを調整し、それにより、ギャップ周波数および時間区間における(各デバイスに対する)遠距離場(far-field)の正確な検出を許容しうる。これらの「統率されたギャップ(orchestrated gap)」は、本開示の重要な側面である。いくつかの例では、Mは、オーディオ環境のすべてのオーディオ・デバイスに対応する数でありうる。いくつかの事例では、Mは、ターゲット・オーディオ・デバイスを除く、オーディオ環境のすべてのオーディオ・デバイスに対応する数であってもよい。ここで、ターゲット・オーディオ・デバイスは、たとえばターゲット・オーディオ・デバイスの相対的可聴性、位置、非線形性、および/または他の特性を評価するために、その再生されたオーディオがオーディオ環境のM個の統率されたデバイスの一つまたは複数のマイクロフォン(たとえば、オーディオ環境のM個の統率されたオーディオ・デバイスの一つまたは複数のマイクロフォン)によってサンプリングされるオーディオ・デバイスである。いくつかの例では、ターゲット・オーディオ・デバイスは、どの周波数範囲にも挿入されたギャップを含まない未修正のオーディオ再生信号を再生してもよい。他の例では、Mは、オーディオ環境のオーディオ・デバイスのサブセット、たとえば、複数の参加している非ターゲット・オーディオ・デバイスに対応する数であってもよい。
【0241】
統率されたギャップは、オーディオ環境における聴取者に対して低い知覚的影響(たとえば、無視できる知覚的影響)を有するべきであることが望ましい。したがって、いくつかの例では、ギャップ・パラメータは、知覚的影響を最小にするように選択されうる。
【0242】
いくつかの例では、修正オーディオ再生信号がオーディオ環境において再生されている間に、ターゲット・デバイスは、どの周波数範囲にも挿入されたギャップを含まない未修正のオーディオ再生信号を再生しうる。そのような例では、ターゲット・デバイスの相対的な可聴性および/または位置は、修正オーディオ再生信号を再生しているM個のオーディオ・デバイスの観点から推定されうる。
【0243】
図21は、オーディオ環境の別の例を示す。本明細書で提供される他の図と同様に、図21に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。
【0244】
この例によれば、オーディオ環境2100は、主要な生活空間2101aと、主要な生活空間2101aに隣接する部屋2101bとを含む。ここで、壁2102および扉2111が、主要な生活空間2101aを部屋2101bから隔てている。この例では、主要な生活空間2101aと部屋2101bとの間の音響分離の量は、ドア2111が開いているか閉じているかに依存し、開いている場合、ドア2111が開いている程度に依存する。
【0245】
図21に対応する時間において、スマートテレビ(TV)2103aが、オーディオ環境2100内に位置する。この例によれば、スマートTV 2103aは、左スピーカー2103bおよび右スピーカー2103cを含む。
【0246】
この例では、スマート・オーディオ・デバイス2104、2105、2106、2107、2108、2109、および2113も、図21に対応する時間においてオーディオ環境2100内に位置する。この例によれば、スマート・オーディオ・デバイス2104~2109のそれぞれは、少なくとも1つのマイクロフォンおよび少なくとも1つのラウドスピーカーを含む。しかしながら、この例では、スマート・オーディオ・デバイス2104~2109および2113は、さまざまなサイズの、さまざまな能力を有するラウドスピーカーを含む。
【0247】
この例によれば、少なくとも1つの音響イベントがオーディオ環境2100内で発生している。この例では、1つの音響イベントが、音声コマンド2112を発している話者2110によって引き起こされる。
【0248】
この例では、別の音響イベントが、少なくとも部分的には、可変要素2115によって引き起こされる。ここで、可変要素2115は、オーディオ環境2100のドアである。この例によれば、ドア2115が開くと、環境の外側からの音が、オーディオ環境2100の内側で、より明確に知覚されうる。さらに、ドア2115の角度の変化は、オーディオ環境2100内のエコー経路のいくつかを変化させる。この例によれば、要素2114は、ドア2115の位置を変化させることによって引き起こされるオーディオ環境2100のインパルス応答の可変要素を表す。
【0249】
いくつかの例では、一連の強制ギャップが再生信号に挿入され、各強制ギャップは再生信号の異なる周波数帯域(または帯域のセット)にあり、各強制ギャップ「において」発生する非再生音(non-playback sound)をパーベイシブ聴取者(pervasive listener)が監視することを許容する。ここで、ギャップ「において」発生するとは、ギャップが発生する時間区間中に、ギャップが挿入される周波数帯域(単数または複数)において発生するという意味においてである。図22Aは、修正オーディオ再生信号のスペクトログラムの例である。この例では、修正オーディオ再生信号は、一例によるオーディオ再生信号にギャップを挿入することによって作成された。より具体的には、図22Aのスペクトログラムを生成するために、開示される方法がオーディオ再生信号に対して実行されて、その周波数帯域に強制ギャップ(たとえば、図22Aに示されるギャップG1、G2、およびG3)を導入し、それにより、修正オーディオ再生信号を生成した。図22Aに示されるスペクトログラムにおいて、横軸に沿った位置は時間を示し、縦軸に沿った位置は、ある瞬間における修正オーディオ再生信号のコンテンツの周波数を示す。各小領域(この例では、かかる各領域は、垂直および水平座標を有する点を中心とする)におけるドットの密度は、対応する周波数および時点における修正オーディオ再生信号のコンテンツのエネルギーを示す:より高密度の領域は、より大きなエネルギーを有するコンテンツを示し、より低密度の領域は、より低いエネルギーを有するコンテンツを示す。このように、ギャップG1は、ギャップG2またはG3が発生する時刻(換言すれば、時間区間)よりも早い時刻(換言すれば、時間区間)に発生し、ギャップG1は、ギャップG2またはG3が挿入された周波数帯域よりも高い周波数帯域に挿入されている。
【0250】
いくつかの開示される方法による再生信号への強制ギャップの導入は、(たとえば、ユーザーおよびユーザーの環境をより良く聞くために)デバイスがコンテンツの再生ストリームを一時停止する単信(simplex)デバイス動作とは異なる。いくつかの開示された方法による再生信号への強制ギャップの導入は、再生中に、導入されたギャップから帰結するアーチファクトの知覚可能性を大幅に低減する(またはなくす)ように最適化されてもよく、好ましくは、強制ギャップがユーザーにとっては知覚可能な影響を全く、または最小限しか有さないが、再生環境内のマイクロフォンの出力信号は強制ギャップを示すように(たとえば、ギャップがパーベイシブ聴取方法を実装するために活用できるように)最適化されてもよい。いくつかの開示される方法に従って導入された強制ギャップを使用することによって、パーベイシブ聴取システムは、音響エコー・キャンセラーを使用しなくても、非再生音(たとえば、再生環境における背景活動および/またはノイズを示す音)を監視することができる。
【0251】
図22Bおよび図22Cを参照して、次に、オーディオ再生信号の周波数帯域に挿入されうるパラメータ化された強制ギャップの例、およびそのような強制ギャップのパラメータの選択のための基準を説明する。図22Bは、周波数領域におけるギャップの例を示すグラフである。図22Cは、時間領域におけるギャップの例を示すグラフである。これらの例では、パラメータ化された強制ギャップは、帯域減衰Gを使用する再生コンテンツの減衰であり、帯域減衰Gの時間および周波数の両方にわたるプロファイルは、図22Bおよび図22Cに示されるプロファイルに似ている。ここで、ギャップは、中心周波数f0図22Bに示される)および帯域幅B(やはり図22Bに示される)よって定義される周波数の範囲(「帯域」)にわたって再生信号に減衰Gを適用することによって強制される。ここで、減衰は、図22Cに示されるものに似たプロファイルをもって、周波数帯域における各周波数で(たとえば、周波数帯域内の各周波数ビンにおいて)、時間の関数として変動する。(前記帯域にわたる周波数の関数としての)減衰Gの最大値は、(前記帯域の最低周波数での)0dBから中心周波数f0図22Bに示される)での最大減衰(抑制深さ)Zまで増大し、前記帯域の最高周波数での)0dB(まで(中心周波数より上での増大する周波数とともに)減少するよう制御されうる。
【0252】
この例では、図22Bのグラフは、帯域内の信号のオーディオ・コンテンツにおけるギャップを強制するためにオーディオ信号の周波数成分に適用される、周波数(すなわち、周波数ビン)の関数としての帯域減衰Gのプロファイルを示す。オーディオ信号は再生信号(たとえば、マルチチャネル再生信号のあるチャネル)であってもよく、オーディオ・コンテンツは再生コンテンツであってもよい。
【0253】
この例によれば、図22Cのグラフは、図22Bに示されるギャップを帯域内の信号のオーディオ・コンテンツに強制するよう中心周波数f0における周波数成分に適用される、時間の関数としての帯域減衰Gのプロファイルを示す。帯域内の他の各周波数成分について、時間の関数としての帯域利得は、図22Cに示されるものと同様のプロファイルを有しうるが、図22Cの抑制深さZは、補間された抑制深さkZによって置き換えられてもよく、ここで、kは、この例では、(周波数の関数として)0から1までの範囲の因子であり、kZが図22Bに示されるプロファイルを有するようにする。いくつかの例では、各周波数成分について、減衰Gはまた、0dBから抑制深さkZまで(周波数の関数として)補間されてもよい(たとえば、中心周波数において、図22Cに示されるように、k=1となる)。これはたとえば、ギャップの導入から帰結する音楽アーチファクトを低減するためである。この後者の補間の3つの領域(時間区間)t1、t2、およびt3が図22Cに示されている。
【0254】
このように、ギャップ強制動作が特定の周波数帯域(たとえば、図22Bに示される中心周波数f0を中心とする帯域)について行われるとき、この例では、帯域内の各周波数成分(たとえば、帯域内の各ビン)に適用される減衰Gは、図22Cに示されるような軌跡をたどる。0dBから始まり、t1秒で深さ-kZ dBまで低下し、t2秒間そこに留まり、最後にt3秒でもとの0 dBまで上昇する。いくつかの実装では、総時間t1+t2+t3は、マイクロフォン・フィードを分析するために使用されている何らかの周波数変換の時間分解能、ならびにユーザーにとってあまり邪魔にならない合理的な持続時間を考慮して選択されうる。単一デバイス実装のためのt1、t2、およびt3のいくつかの例が、以下の表1に示される。
【0255】
いくつかの開示される方法は、オーディオ再生信号の全周波数スペクトルをカバーし、Bcount個の帯域(ここで、Bcountは数であり、たとえば、Bcount=49である)を含む、あらかじめ決められた固定されたバンディング構造に従って、強制ギャップを挿入することに関わる。帯域のいずれかにギャップを強制するために、そのような例では、帯域において、帯域減衰が適用される。具体的には、j番目の帯域について、その帯域によって定義される周波数領域にわたって、減衰Gjが適用されてもよい。
【0256】
下記の表1は、パラメータt1、t2、t3、各帯域についての深さZについての例示的な値、および単一デバイス実装についての帯域の数Bcountの例を示す。
【表1】
【0257】
帯域の数および各帯域の幅を決定する際に、ギャップの知覚的な影響と有用性との間にトレードオフが存在する:ギャップを有する、より狭い帯域は、典型的にはより少ない知覚的影響を有するという点でより良好であるのに対して、ギャップを有する、より広い帯域は、たとえば背景ノイズまたは再生環境状態の変化に応答して)全周波数スペクトルのすべての周波数帯域において、ノイズ推定(および他のパーベイシブ聴取方法(pervasive listening method))を実装し、新しいノイズ推定値(またはパーベイシブ聴取によって監視される他の値)に収束するために必要な時間(「収束」時間)を低減するためにより良好である。制限された数のギャップのみが一度に強制されることができる場合、多数の小さな帯域において逐次的にギャップを強制するためには、より少数の、より大きな帯域において逐次的にギャップを強制するよりも長い時間がかかり、比較的より長い収束時間につながる。(ギャップを有する)より大きな帯域は、一度に背景ノイズ(またはパーベイシブ聴取によって監視される他の値)に関する多くの情報を提供するが、一般に、より大きな知覚的影響を有する。
【0258】
本発明者らによる初期の研究では、エコーの影響が主に(または完全に)近接場である単一デバイスの状況においてギャップが設けられた。近接場エコーは、スピーカーからマイクロフォンへのオーディオの直接経路によって大きく影響を受ける。この特性は、ほとんどすべてのコンパクトな複信(duplex)オーディオ・デバイス(スマートオーディオ・デバイスなど)に当てはまるが、例外は、より大きなエンクロージャおよび著しい音響減結合〔デカップリング〕を有するデバイスである。表1に示されるような、再生における、短い、知覚的にマスクされたギャップを導入することによって、オーディオ・デバイスは、該オーディオ・デバイス自体のエコーを通じて、該オーディオ・デバイスが配備されている音響空間の一端を知ることができる。
【0259】
しかしながら、他のオーディオ・デバイスも同じオーディオ環境においてコンテンツを再生しているとき、本発明者らは、遠距離場(far-field)エコー破損に起因して、単一オーディオ・デバイスのギャップの有用性が低くなることを発見した。遠距離場エコー破損はしばしば、ローカル・エコー消去〔キャンセレーション〕の性能を低下させ、全体的なシステム性能を著しく悪化させる。遠距離場エコー破損は、さまざまな理由で除去することが困難である。1つの理由は、参照信号を取得することが、追加的な遅延推定のために、増加したネットワーク帯域幅および追加される複雑さを必要としうることである。さらに、ノイズ条件が増加し、応答が長くなる(より残響があり、時間的に広がる)につれて、遠距離場インパルス応答を推定することはより困難になる。加えて、遠距離場エコー破損は、通例、近距離場エコーおよび他の遠距離場エコー源と相関し、遠距離場インパルス応答推定をさらに困難にする。
【0260】
本発明者らは、オーディオ環境内の複数のオーディオ・デバイスが、時間および周波数における自分たちのギャップを統率する場合、該複数のオーディオ・デバイスが修正オーディオ再生信号を再生するとき、(各オーディオ・デバイスに対する)遠距離場の、より明確な知覚が得られうることを発見した。本発明者らはまた、複数のオーディオ・デバイスが修正オーディオ再生信号を再生するときにターゲット・オーディオ・デバイスが未修正のオーディオ再生信号を再生する場合、ターゲット・デバイスの相対的な可聴性および位置は、メディア・コンテンツが再生されている間であっても、前記複数のオーディオ・デバイスのそれぞれの観点から推定できることを発見した。
【0261】
さらに、おそらく直観に反して、本発明者らは、以前に単一デバイス実装のために使用されていたガイドラインを破ること(たとえば、表1に示されるよりも長い時間期間にわたってギャップを開いたままにすること)が、統率されたギャップを介して協働的な測定を行う複数のデバイスに好適な実装につながることを発見した。
【0262】
たとえば、いくつかの統率されたギャップ実装では、オーディオ環境における複数の分散されたデバイス間のさまざまな音響経路長(音響遅延)を受け入れるために、t2は、表1に示されるよりも長くてもよく、それは、(最大でも数十センチメートルでありうる単一デバイスでの固定したマイクロフォン‐スピーカー音響経路長とは対照的に)メートルのオーダーでありうる。いくつかの例では、デフォルトのt2値は、統率されたオーディオ・デバイス間の最大8メートルの分離を許容するために、たとえば、表1に示された80ミリ秒の値よりも25ミリ秒大きくてもよい。いくつかの統率されたギャップ実装では、デフォルトのt2値は、別の理由のために表1に示された80ミリ秒の値よりも長くてもよい:統率されたギャップ実装では、十分な長さの時間が経過し、その間にすべての統率されるオーディオ・デバイスがZ減衰の値に達することを確実にするために、統率されるオーディオ・デバイスのタイミング不整列を受け入れるために、t2はより長いことが好ましい。いくつかの例では、タイミング不整列を受け入れるために、t2のデフォルト値に追加の5ミリ秒が加えられてもよい。したがって、いくつかの統率されたギャップ実装では、t2のデフォルト値は110ミリ秒で、最小値は70ミリ秒、最大値は150ミリ秒であってもよい。
【0263】
いくつかの統率されたギャップ実装では、t1および/またはt3も、表1に示された値とは異なっていてもよい。いくつかの例では、タイミング問題および物理的距離不一致に起因して、デバイスが自分たちの減衰期間に入るまたは減衰期間から出る異なる時を聴取者が知覚することができない結果として、t1および/またはt3が調整されてもよい。少なくとも部分的には、空間的マスキング(複数のデバイスが異なる位置からオーディオを再生することから帰結する)のために、統率されたオーディオ・デバイスが減衰期間に入るまたは減衰期間から出る異なる時を聴取者が知覚する能力は、単一デバイス・シナリオの場合よりも低い傾向がある。したがって、いくつかの統率されたギャップ実装では、表1に示される単一デバイスの例と比較して、t1およびt3の最小値は低減されてもよく、t1およびt3の最大値は増加されてもよい。いくつかのそのような例によれば、t1およびt3の最小値は、2、3、または4ミリ秒に低減されてもよく、t1およびt3の最大値は、20、25、または30ミリ秒に増加されてもよい。
【0264】
統率されたギャップを使用する測定の例
図22Dは、オーディオ環境の複数のオーディオ・デバイスのための統率されたギャップを含む修正オーディオ再生信号の例を示す。この実装では、オーディオ環境の複数のスマート・デバイスが、互いの相対的可聴性を推定するためにギャップを統率する。この例では、1つのギャップに対応する1つの測定セッションがある時間区間の間に行われ、該測定セッションは、図21の主要な生活空間2101a内のデバイスのみを含む。この例によれば、以前の可聴性データは、部屋2101bに位置するスマート・オーディオ・デバイス2109が、他のオーディオ・デバイスにはほとんど聞こえないものとしてすでに分類されており、別個のゾーンに配置されていることを示している。
【0265】
図22Dに示される例では、統率されたギャップは、帯域減衰Gkを使用する再生コンテンツの減衰であり、kは、測定されている周波数帯域の中心周波数を表す。図22Dに示される要素は以下の通りである:
グラフ2203は、図21のスマート・オーディオ・デバイス2113についてのdB単位でのGkのプロットである;
グラフ2204は、図21のスマート・オーディオ・デバイス2113についてのdB単位でのGkのプロットである;
グラフ2205は、図21のスマート・オーディオ・デバイス2113についてのdB単位でのGkのプロットである;
グラフ2206は、図21のスマート・オーディオ・デバイス2113についてのdB単位でのGkのプロットである;
グラフ2207は、図21のスマート・オーディオ・デバイス2113についてのdB単位でのGkのプロットである;
グラフ2208は、図21のスマート・オーディオ・デバイス2113についてのdB単位でのGkのプロットである;
グラフ2209は、図21のスマート・オーディオ・デバイス2113についてのdB単位でのGkのプロットである。
【0266】
本明細書で使用するところでは、「セッション」(本明細書では「測定セッション」とも呼ばれる)という用語は、周波数範囲の測定が実行される時間期間を指す。測定セッションの間、関連付けられた帯域幅を有する周波数のセット、ならびに参加しているオーディオ・デバイスのセットが指定されうる。
【0267】
1つのオーディオ・デバイスが、任意的に、測定セッションのための「ターゲット」オーディオ・デバイスとして指名されうる。ターゲット・オーディオ・デバイスが測定セッションに関わる場合、いくつかの例によれば、ターゲット・オーディオ・デバイスは、強制ギャップを無視することを許され、測定セッションの間、未修正オーディオ再生信号を再生する。いくつかのそのような例によれば、他の参加オーディオ・デバイスは、測定されている周波数範囲内のターゲット・デバイス再生音を含む、ターゲット・デバイス再生音を聞くことになる。
【0268】
本明細書で使用されるところでは、「可聴性」という用語は、デバイスが別のデバイスのスピーカー出力を聞くことができる程度を指す。可聴性のいくつかの例を以下に提供する。
【0269】
図22Dに示される例によれば、時間t1において、統率デバイスは、ターゲット・オーディオ・デバイスであるスマート・オーディオ・デバイス2113での測定セッションを開始し、周波数kを含む、測定されるべき一つまたは複数のビン中心周波数を選択する。統率デバイスは、いくつかの例では、リーダーとして機能するスマート・オーディオ・デバイスでありうる。他の例では、統率デバイスは、スマート・ホーム・ハブなどの別の統率デバイスでありうる。この測定セッションは、時間t1から時間t2まで実行される。他の参加スマート・オーディオ・デバイスであるスマート・オーディオ・デバイス2104~2108は、それらの出力においてギャップを適用し、修正オーディオ再生信号を再生し、一方、スマート・オーディオ・デバイス2113は、修正されていないオーディオ再生信号を再生する。
【0270】
統率されたギャップを含む修正オーディオ再生信号を再生しているオーディオ環境2100のスマート・オーディオ・デバイスのサブセット(スマート・オーディオ・デバイス2104~2108)は、M個のオーディオ・デバイスと呼ばれうるものの一例である。この例によれば、スマート・オーディオ・デバイス2109も、未修正のオーディオ再生信号を再生する。したがって、スマート・オーディオ・デバイス2109は、M個のオーディオ・デバイスのうちの1つではない。しかしながら、スマート・オーディオ・デバイス2109は、オーディオ環境の他のスマート・オーディオ・デバイスには聞こえないので、スマート・オーディオ・デバイス2109とターゲット・オーディオ・デバイス(この例ではスマート・オーディオ・デバイス2113)はどちらも未修正オーディオ再生信号を再生するという事実にもかかわらず、スマート・オーディオ・デバイス2109は、この例ではターゲット・オーディオ・デバイスではない。
【0271】
統率されたギャップは、測定セッション中にオーディオ環境内の聴取者に対して低い知覚的影響(たとえば、無視できる知覚的影響)を有するべきであることが望ましい。したがって、いくつかの例では、知覚的影響を最小限にするようにギャップ・パラメータが選択されうる。いくつかの例が、図22B図22Eを参照して以下に説明する。
【0272】
この時間(時間t1から時間t2までの測定セッション)の間、スマート・オーディオ・デバイス2104~2108は、この測定セッションについての時間‐周波数データについて、ターゲット・オーディオ・デバイス(スマート・オーディオ・デバイス2113)から参照オーディオ・ビンを受信する。この例では、参照オーディオ・ビンは、スマート・オーディオ・デバイス2113がエコー消去のためのローカル参照として使用する再生信号に対応する。スマート・オーディオ・デバイス2113は、可聴性測定ならびにエコー消去の目的で、これらの参照オーディオ・ビンへのアクセスを有する。
【0273】
この例によれば、時間t2において、第1の測定セッションが終了し、統率デバイスが新しい測定セッションを開始し、今度は、周波数kを含まない一つまたは複数のビン中心周波数を選択する。図22Dに示される例では、期間t2からt3の間、周波数kについてギャップが適用されず、よって、グラフは、すべてのデバイスについての単位利得を示す。いくつかのそのような例では、統率デバイスは、周波数kを含まないビン中心周波数のための測定セッションのシーケンスのための複数の周波数範囲のそれぞれに一連のギャップを挿入させてもよい。たとえば、統率デバイスは、スマート・オーディオ・デバイス2113がターゲット・オーディオ・デバイスであり続ける間に、第2ないし第Nの後続の測定セッションのために、第2ないし第Nの時間区間中に第2ないし第Nのギャップを、オーディオ再生信号の第2ないし第Nの周波数範囲に挿入させてもよい。
【0274】
いくつかのそのような例では、統率デバイスは、次いで、別のターゲット・オーディオ・デバイス、たとえば、スマート・オーディオ・デバイス2104を選択しうる。統率デバイスは、スマート・オーディオ・デバイス2113に、統率されたギャップを有する修正オーディオ再生信号を再生しているM個のスマート・オーディオ・デバイスのうちの1つであるように命令しうる。統率デバイスは、新しいターゲット・オーディオ・デバイスに、未修正のオーディオ再生信号を再生するように命令しうる。いくつかのそのような例によれば、統率デバイスが、新しいターゲット・オーディオ・デバイスのためにN個の測定セッションを行わせた後、統率デバイスは、別のターゲット・オーディオ・デバイスを選択しうる。いくつかのそのような例では、統率デバイスは、オーディオ環境における参加しているオーディオ・デバイスのそれぞれについて測定セッションが実行されるまで、測定セッションを行わせ続けてもよい。
【0275】
図22Dに示される例では、異なるタイプの測定セッションが、時間t3とt4との間で行われる。この例によれば、時間t3において、ユーザー入力(たとえば、統率デバイスとして動作しているスマート・オーディオ・デバイスへの音声コマンド)に応答して、統率デバイスは、オーディオ環境2100のラウドスピーカー・セットアップを完全に較正するために新しいセッションを開始する。一般に、ユーザーは、時間t3とt4との間に行われるような「セットアップ」または「再較正」測定セッション中には、相対的に、より高い知覚的影響を有する統率されたギャップに対して、相対的に、より寛容でありうる。したがって、この例では、kを含む、周波数の大きな連続的なセットが測定のために選択される。この例によれば、スマート・オーディオ・デバイス2106は、この測定セッション中に第1のターゲット・オーディオ・デバイスとして選択される。よって、時間t3からt4までの測定セッションの第1のフェーズ中には、スマート・オーディオ・デバイス2106を除くスマート・オーディオ・デバイスのすべてがギャップを適用する。
【0276】
ギャップ帯域幅
図23Aは、ギャップを作成するために使用されるフィルタ応答と、測定セッション中に使用されるマイクロフォン信号の周波数領域を測定するために使用されるフィルタ応答との例を示すグラフである。この例によれば、図23Aの要素は以下の通りである:
要素2301は、出力信号にギャップを生成するために使用されるフィルタの大きさ応答(magnitude response)を表す;
要素2302は、要素2301によって引き起こされるギャップに対応する周波数領域を測定するために使用されるフィルタの大きさ応答を表す;
要素2303および2304は、周波数f1およびf2における2301の-3dBポイントを表す;
要素2305および2306は、周波数f3およびf4における2302の-3dBポイントを表す。
【0277】
ギャップ応答2301の帯域幅(BW_gap)は、-3dBポイント2303と2304との間の差:BW_gap=f2-f1を取ることによって見出されてもよく、BW_measure(測定応答2302の帯域幅)=f4-f3である。
【0278】
一例によれば、測定の品質は以下のように表すことができる:
【数3】
【0279】
測定応答の帯域幅は通例、固定されているので、ギャップ・フィルタ応答の帯域幅を増加させる(たとえば、帯域幅を広げる)ことによって測定の品質を調整することができる。しかしながら、導入されたギャップの帯域幅は、その知覚可能性に比例する。したがって、ギャップ・フィルタ応答の帯域幅は、一般に、測定の品質およびギャップの知覚可能性の両方に鑑みて決定されるべきである。品質値のいくつかの例を表2に示す。
【表2】
【0280】
表2は「最小」および「最大」値を示しているが、これらの値はこの例のためにすぎない。他の実装は、1.5よりも低い品質値および/または3よりも高い品質値に関わってもよい。
【0281】
ギャップ割り当て戦略
ギャップは、以下によって定義されうる:
・中心周波数および測定帯域幅を用いた、周波数スペクトルの基礎となる分割;
・バンディング(banding)と呼ばれる構造におけるこれらの最小測定帯域幅の集約(aggregation);
・持続時間、減衰深さ、および前記周波数スペクトルの前記合意された分割に適合する一つまたは複数の連続する周波数の包含;
・ギャップの始めと終わりで減衰深さを傾斜させるような他の時間的挙動。
【0282】
いくつかの実装によれば、ギャップは、適用可能な知覚性制約条件を満たしながら、可能な限り短い時間で可聴スペクトルのできるだけ多くを測定および観察することを目的とする戦略に従って選択されうる。
【0283】
図23B、23C、23D、および23Eは、ギャップ割り当て戦略の例を示すグラフである。これらの例では、時間は水平軸に沿った距離によって表され、周波数は垂直軸に沿った距離によって表される。これらのグラフは、さまざまなギャップ割り当て戦略によって生成されるパターン、および完全なオーディオ・スペクトルを測定するためにどれだけの時間がかかるかを示すための例を提供する。これらの例では、各統率されたギャップ測定セッションは、長さが10秒である。他の開示された実装と同様に、これらのグラフは、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプ、数、および/またはシーケンスの要素を含みうる。たとえば、他の実装では、各統率されたギャップ測定セッションは、10秒より長い、または短いのでもよい。これらの例では、図23B図23Eに表される時間/周波数空間の陰影のない領域2310(本明細書では「タイル」と呼ばれることがある)は、(10秒の)示された時間‐周波数期間におけるギャップを表す。中程度に陰影付けされた領域2315は、少なくとも1回測定された周波数タイルを表す。薄く陰影付けされた領域2320は、まだ測定されていない。
【0284】
当面のタスクが、参加しているオーディオ・デバイスが(たとえば、オーディオ環境におけるノイズ、エコーなどを評価するために)「そこを通して部屋を聴く(listening through to the room)」ために統率されたギャップを挿入することを必要とすると想定すると、測定セッション完了時間は、図23B図23Eに示されているようになる。タスクが、各オーディオ・デバイスが順にターゲットにされ、他のオーディオ・デバイスによって聞かれることを必要とする場合、時間は、プロセスに参加するオーディオ・デバイスの数によって乗算される必要がある。たとえば、各オーディオ・デバイスが順にターゲットにされる場合、図23Bにおいて測定セッション完了時間として示される3分20秒(3m20s)は、7つのオーディオ・デバイスのシステムが7*3m20s=23m20s後に完全にマッピングされることを意味する。周波数/帯域を通して循環し、複数のギャップが一度に強制されるとき、これらの例では、ギャップは、スペクトルをカバーするときの効率のために、周波数において可能な限り遠くに離間される。
【0285】
図23Bおよび図23Cは、あるギャップ割り当て戦略による統率されたギャップのシーケンスの例を示すグラフである。これらの例では、ギャップ割り当て戦略は、それぞれの相続く測定セッション中に一度にN個の周波数帯域全体(周波数帯域のそれぞれが少なくとも1つの周波数ビン、ほとんどの場合は複数の周波数ビンを含む)をギャップ化することに関わる。図23BではN=1であり、図23CではN=3であり、後者は、図23Cの例が同じ時間区間中に3つのギャップを挿入することを含むことを意味する。これらの例では、使用されるバンディング構造は、20帯域メル離間配置(20-band Mel spaced arrangement)である。いくつかのそのような例によれば、20個の周波数帯域すべてが測定された後、シーケンスが再開してもよい。3m20sは完全な測定に達するのに妥当な時間であるが、300Hz~8kHzの臨界オーディオ領域でパンチされるギャップは非常に幅広く、この領域の外部を測定することに多くの時間が割かれる。300Hz~8kHzの周波数範囲における比較的広いギャップのために、この特定の戦略は、ユーザーにとって非常に知覚可能である。
【0286】
図23Dおよび図23Eは、別のギャップ割り当て戦略による統率されたギャップのシーケンスの例を示すグラフである。これらの例では、ギャップ割り当て戦略は、約300Hz~8kHzの「最適化された」周波数領域にマッピングするために、図23Bおよび図23Cに示されるバンディング構造を修正することに関わる。20番目の帯域が無視されるのでシーケンスはわずかに早く終了するが、全体的な割り当て戦略は、他の点では図23Bおよび図23Cによって表されるものから変更されない。ここで強制されるギャップの帯域幅は、依然として知覚可能である。しかしながら、利点は、特にギャップが一度に複数の周波数帯域に強制的に入れられる場合、最適化された周波数領域の非常に迅速な測定である。
【0287】
図24は、オーディオ環境の別の例を示す。図24では、環境2409(音響空間)は、直接発話2402を発するユーザー(2401)と、スマート・オーディオ・デバイス(2403および2405)、オーディオ出力のためのスピーカー、およびマイクロフォンのセットを含むシステムの例とを含む。システムは、本開示のある実施形態に従って構成されうる。ユーザー2401(本明細書では話者と呼ばれることもある)によって発声された発話は、統率された時間‐周波数ギャップにおいてシステムの要素(単数または複数)によって認識されうる。
【0288】
より具体的には、図24のシステムの要素は、以下を含む:
2402:(ユーザー2401によって生成された)直接ローカル音声;
2403:(一つまたは複数のラウドスピーカーに結合された)音声アシスタント・デバイス。デバイス2403は、デバイス2405よりもユーザー2401の近くに位置しており、よって、デバイス2403は時に「近い」デバイスと呼ばれ、デバイス2405は「遠隔」デバイスと呼ばれる;
2404:近いデバイス2403内の(またはそれに結合された)複数のマイクロフォン;
2405:音声アシスタント・デバイス(一つまたは複数のラウドスピーカーに結合される);
2406:遠隔デバイス2405内の(またはそれに結合された)複数のマイクロフォン;
2407:家庭用機器(たとえばランプ);
2408:家庭用機器2407内の(またはそれに結合された)複数のマイクロフォン。いくつかの例では、マイクロフォン2408のそれぞれは、場合によってはデバイス2403または2405のうちの少なくとも1つでありうる、分類器を実装するように構成されたデバイスと通信するように構成されてもよい。
【0289】
図24のシステムはまた、少なくとも1つの分類器を含んでいてもよい。たとえば、デバイス2403(および/またはデバイス2405)は、分類器を含みうる。代替的または追加的に、分類器は、デバイス2403および/または2405と通信するように構成されうる別のデバイスによって実装されてもよい。いくつかの例では、分類器は、別のローカル・デバイス(たとえば、環境2409内のデバイス)によって実装されうるが、他の例では、分類器は、環境2409の外部に位置するリモート・デバイス(たとえば、サーバー)によって実装されうる。
【0290】
いくつかの実装では、制御システム(たとえば、図1Bの制御システム160)は、たとえば、本明細書に開示されるものなどの分類器を実装するように構成されてもよい。代替的または追加的に、制御システム160は、分類器からの出力に少なくとも部分的に基づいて、ユーザーが現在位置するユーザー・ゾーンの推定値を決定するように構成されてもよい。
【0291】
図25Aは、図1Bに示されるような装置によって実行されうる方法の一例を概説するフロー図である。方法2500のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。この実装では、方法2500は、環境内のユーザーの位置を推定することに関わる。
【0292】
この例では、ブロック2505は、環境内の複数のマイクロフォンの各マイクロフォンから出力信号を受信することに関わる。この場合、複数のマイクロフォンのそれぞれは、環境のマイクロフォン位置に存在する。この例によれば、出力信号は、再生コンテンツ内の統率されたギャップ中に測定されたユーザーの現在の発話に対応する。ブロック2505は、たとえば、制御システム(図1Bの制御システム160など)が、インターフェース・システム(図1Bのインターフェース・システム155など)を介して、環境内の複数のマイクロフォンの各マイクロフォンから出力信号を受信することに関わってもよい。
【0293】
いくつかの例では、環境内のマイクロフォンのうちの少なくともいくつかは、一つまたは複数の他のマイクロフォンによって与えられる出力信号に対して非同期である出力信号を与えうる。たとえば、複数のマイクロフォンのうちの第1のマイクロフォンは、第1のサンプル・クロックに従ってオーディオ・データをサンプリングしてもよく、複数のマイクロフォンのうちの第2のマイクロフォンは、第2のサンプル・クロックに従ってオーディオ・データをサンプリングしてもよい。いくつかの事例では、環境内のマイクロフォンのうちの少なくとも1つは、スマート・オーディオ・デバイス内に含まれるか、スマート・オーディオ・デバイスと通信するように構成されうる。
【0294】
この例によれば、ブロック2510は、各マイクロフォンの出力信号から複数の現在の音響特徴を決定することに関わる。この例では、「現在の音響特徴」は、ブロック2505の「現在の発声」から導出された音響特徴である。いくつかの実装では、ブロック2510は、一つまたは複数の他のデバイスから複数の現在の音響特徴を受信することに関わってもよい。たとえば、ブロック2510は、一つまたは複数の他のデバイスによって実装された一つまたは複数の発話検出器から複数の現在の音響特徴のうちの少なくともいくつかを受信することに関わってもよい。代替的または追加的に、いくつかの実装では、ブロック2510は、出力信号から複数の現在の音響特徴を決定することに関わってもよい。
【0295】
音響特徴が単一のデバイスによって決定されるか複数のデバイスによって決定されるかどにかかわらず、音響特徴は非同期的に決定されうる。音響特徴が複数のデバイスによって決定される場合、それらのデバイスが音響特徴を決定するプロセスを調整するように構成されていない限り、音響特徴は一般に非同期的に決定される。音響特徴が単一のデバイスによって決定される場合、いくつかの実装では、単一のデバイスが各マイクロフォンの出力信号を異なる時間に受信しうるので、音響特徴はそれでもなお非同期的に決定されうる。いくつかの例では、環境中のマイクロフォンのうちの少なくともいくつかが、一つまたは複数の他のマイクロフォンによって与えられる出力信号に対して非同期である出力信号を与えうるので、音響特徴は非同期的に決定されうる。
【0296】
いくつかの例では、音響特徴は、出力再生信号中の統率されたギャップ中に測定された発話に対応する発話信頼性メトリックを含みうる。
【0297】
代替的または追加的に、音響特徴は、以下のうちの一つまたは複数を含んでいてもよい:
・人間の発話のために重み付けされた周波数帯域における帯域パワー。たとえば、音響特徴は、特定の周波数帯域(たとえば、400Hz~1.5kHz)のみに基づいてもよい。この例では、より高い周波数およびより低い周波数は無視されてもよい。
・再生コンテンツにおいて統率されたギャップに対応する周波数帯域またはビンにおける帯域ごとまたはビンごとの音声活動検出器信頼度。
・音響特徴は、貧弱な信号対雑音比を有するマイクロフォンを無視するように、長期ノイズ推定値に少なくとも部分的に基づいていてもよい。
・発話ピーク性(speech peakiness)の指標としての尖度。尖度は、長い残響テールによるスミアリング(smearing)の指標でありうる。
【0298】
この例によれば、ブロック2515は、複数の現在の音響特徴に分類器を適用することに関わる。いくつかのそのような例では、分類器を適用することは、環境内の複数のユーザー・ゾーンにおいてユーザーによって行われた複数の以前の発声から導出された以前に決定された音響特徴でトレーニングされたモデルを適用することに関わってもよい。さまざまな例が本明細書で提供される。
【0299】
いくつかの例では、ユーザー・ゾーンは、シンク・エリア、食品調理エリア、冷蔵庫エリア、食事エリア、カウチ・エリア、テレビ・エリア、寝室エリア、および/または戸口エリアを含みうる。いくつかの例によれば、ユーザー・ゾーンのうちの一つまたは複数は、所定のユーザー・ゾーンでありうる。いくつかのそのような例では、一つまたは複数の所定のユーザー・ゾーンは、トレーニング・プロセス中にユーザーによって選択可能であった可能性がある。
【0300】
いくつかの実装では、分類器を適用することは、以前の発声でトレーニングされたガウス混合モデルを適用することに関わってもよい。いくつかのそのような実装によれば、分類器を適用することは、以前の発声の正規化された発話信頼度、正規化された平均受信レベル、または最大受信レベルのうちの一つまたは複数でトレーニングされたガウス混合モデルを適用することに関わってもよい。しかしながら、代替実装では、分類器を適用することは、本明細書で開示される他のモデルのうちの1つなどの、異なるモデルに基づいていてもよい。いくつかの事例では、モデルは、ユーザー・ゾーンを用いてラベル付けされたトレーニング・データを使用してトレーニングされてもよい。しかしながら、いくつかの例では、分類器を適用することは、ユーザー・ゾーンでラベル付けされていない、ラベル付けされていないトレーニング・データを使用してトレーニングされたモデルを適用することに関わる。
【0301】
いくつかの例では、以前の発声は、発話発声であった可能性があり、または発話発声を含んでいた可能性がある。いくつかのそのような例によれば、以前の発声および現在の発声は、同じ発話の発声であった可能性がある。
【0302】
この例では、ブロック2520は、分類器からの出力に少なくとも部分的に基づいて、ユーザーが現在位置しているユーザー・ゾーンの推定値を決定することに関わる。いくつかのそのような例では、推定値は、複数のマイクロフォンの幾何学的位置を参照せずに決定されうる。たとえば、推定値は、個々のマイクロフォンの座標を参照せずに決定されうる。いくつかの例では、推定値は、ユーザーの幾何学的位置を推定することなく決定されうる。しかしながら、代替的な実装では、位置推定は、たとえば座標系を参照して、オーディオ環境内の一または複数の人および/または一つまたは複数のオーディオ・デバイスの幾何学的位置特定を推定することに関わってもよい。
【0303】
方法2500のいくつかの実装は、推定されたユーザー・ゾーンに従って少なくとも1つのスピーカーを選択することに関わってもよい。いくつかのそのような実装は、推定されたユーザー・ゾーンに音を提供するように少なくとも1つの選択されたスピーカーを制御することに関わってもよい。代替的または追加的に、方法2500のいくつかの実装は、推定されたユーザー・ゾーンに従って少なくとも1つのマイクロフォンを選択することに関わってもよい。いくつかのそのような実装は、少なくとも1つの選択されたマイクロフォンによって出力された信号をスマート・オーディオ・デバイスに与えることに関わってもよい。
【0304】
図25Bは、ゾーン分類器を実装するように構成された実施形態の一例の要素のブロック図である。この例によれば、システム2530は、環境(たとえば、図21または図24に示されるような環境)の少なくとも一部に分散された複数のラウドスピーカー2534を含む。この例では、システム2530は、マルチチャネル・ラウドスピーカー・レンダラー2531を含む。この実装によれば、マルチチャネル・ラウドスピーカー・レンダラー2531の出力は、ラウドスピーカー駆動信号(スピーカー2534を駆動するためのスピーカー・フィード)とエコー基準の両方のはたらきをする。この実装では、エコー基準は、レンダラー2531から出力されたスピーカー・フィード信号のうちの少なくともいくつかを含む複数のラウドスピーカー基準チャネル2532を介して、エコー管理サブシステム2533に与えられる。
【0305】
この実装では、システム2530は、複数のエコー管理サブシステム2533を含む。この例では、レンダラー2531、エコー管理サブシステム2533、ウェイクワード検出器2536、および分類器2537は、図1Bを参照して上述した制御システム160のインスタンスを介して実装される。この例によれば、エコー管理サブシステム2533は、一つまたは複数のエコー抑制プロセスおよび/または一つまたは複数のエコー消去プロセスを実装するように構成される。この例では、エコー管理サブシステム2533のそれぞれは、対応するエコー管理出力2533Aをウェイクワード検出器2536のうちの1つに提供する。エコー管理出力2533Aは、エコー管理サブシステム2533のうちの関連する1つへの入力に比して減衰されたエコーを有する。
【0306】
この実装によれば、システム2530は、オーディオ環境(たとえば、図21または図24に示されるオーディオ環境)の少なくとも一部に分散されたN個のマイクロフォン2535(Nは整数)を含む。マイクロフォンは、アレイ・マイクロフォンおよび/またはスポット・マイクロフォンを含んでいてもよい。たとえば、環境内に位置する一つまたは複数のスマート・オーディオ・デバイスは、マイクロフォンのアレイを含みうる。この例では、マイクロフォン2535の出力は、エコー管理サブシステム2533への入力として提供される。この実装によれば、エコー管理サブシステム2533のそれぞれは、個々のマイクロフォン2535またはマイクロフォン2535の個々のグループもしくはサブセット)の出力を捕捉する。
【0307】
この例では、システム2530は、複数のウェイクワード検出器2536を含む。この例によれば、ウェイクワード検出器2536のそれぞれは、エコー管理サブシステム2533のうちの1つからのオーディオ出力を受信し、複数の音響特徴2536Aを出力する。各エコー管理サブシステム2533から出力される音響特徴2536Aは、ウェイクワード信頼度、ウェイクワード持続時間、および受信レベルの測定値を含みうる(が、これらに限定されない)。3つの音響特徴2536Aを示す3つの矢印が、各エコー管理サブシステム2533から出力されるものとして示されているが、代替的な実装では、より多くのまたはより少ない音響特徴2536Aが出力されてもよい。さらに、これらの3つの矢印は、多少なりとも垂直な線に沿って分類器2537に入射しているが、これは、分類器2537が必ずしもすべてのウェイクワード検出器2536から音響特徴2536Aを同時に受信することを示すものではない。本明細書の他の場所で言及されるように、音響特徴2536Aは、いくつかの事例では、非同期的に決定され、および/または分類器に提供されてもよい。
【0308】
この実装によれば、システム2530は、分類器2537と呼ばれることもあるゾーン分類器2537を含む。この例では、分類器は、環境内の複数の(たとえば、すべての)マイクロフォン2535について、複数のウェイクワード検出器2536から複数の特徴2536Aを受信する。この例によれば、ゾーン分類器2537の出力2538は、ユーザーが現在位置しているユーザー・ゾーンの推定値に対応する。いくつかのそのような例によれば、出力2538は、一つまたは複数の事後確率に対応しうる。ユーザーが現在位置しているユーザー・ゾーンの推定値は、ベイズ統計による最大事後確率であってもよく、またはそれに対応してもよい。
【0309】
次に、いくつかの例では図25Bのゾーン分類器2537に対応しうる分類器の例示的な実装について説明する。xi(n)は、離散時間nにおけるマイクロフォン信号i={1…N}であるとする(すなわち、マイクロフォン信号xi(n)は、N個のマイクロフォン2535の出力である)。エコー管理サブシステム2533内でのN個の信号xi(n)の処理は、それぞれ離散時間nにおける「クリーンな」マイクロフォン信号ei(n)を生成する。ここで、i={1…N}である。図25Bにおいて2533Aと呼ばれるクリーンな信号ei(n)は、この例ではウェイクワード検出器2536に供給される。ここで、各ウェイクワード検出器2536は、図25Bでは2536Aと称される特徴のベクトルwi(j)を生成する。ここで、j={1…J}は、j番目のウェイクワード発声に対応するインデックスである。この例では、分類器2537は、入力として、集約特徴セット
【数4】
を取る。
【0310】
いくつかの実装によれば、k={1…K}についてのゾーン・ラベルCkのセットは、環境内の異なるユーザー・ゾーンの数Kに対応しうる。たとえば、ユーザー・ゾーンは、カウチ・ゾーン、キッチン・ゾーン、読書椅子ゾーン等を含んでいてもよい。いくつかの例は、キッチンまたは他の部屋の中に2つ以上のゾーンを定義してもよい。たとえば、キッチン・エリアは、シンク・ゾーン、食品調理ゾーン、冷蔵庫ゾーンおよび食事ゾーンを含んでいてもよい。同様に、リビングルーム・エリアは、カウチ・ゾーン、テレビ・ゾーン、読書椅子ゾーン、一つまたは複数の戸口ゾーン等を含んでいてもよい。これらのゾーンについてのゾーン・ラベルは、たとえばトレーニング・フェーズ中にユーザーによって選択可能であってもよい。
【0311】
いくつかの実装では、分類器2537は、たとえばベイズ分類器を使って、特徴セットW(j)の事後確率p(Ck|W(j))を推定する。確率p(Ck|W(j))は、ユーザーがゾーンCkのそれぞれにいる確率(「j」番目の発声および「k」番目のゾーンについて、ゾーンCkのそれぞれおよび発声のそれぞれについて)を示し、分類器2537の出力2538の例である。
【0312】
いくつかの例によれば、ユーザーにゾーン、たとえばカウチ・ゾーンを選択または定義するように促すことによって、(たとえば各ユーザー・ゾーンについて)トレーニング・データが収集されうる。トレーニング・プロセスは、選択されたまたは定義されたゾーンの近くで、ユーザーにウェイクワードなどのトレーニング発声を行うように促すことに関わってもよい。カウチ・ゾーンの例では、トレーニング・プロセスは、カウチの中心および両端でトレーニング発声を行うようにユーザーに促すことに関わってもよい。トレーニング・プロセスは、ユーザー・ゾーン内の各位置においてトレーニング発声を数回繰り返すようにユーザーに促すことに関わってもよい。次いで、すべての指定されたユーザー・ゾーンがカバーされるまで、ユーザーは、別のユーザー・ゾーンに移動し、継続するように促されうる。
【0313】
図26は、統率されたギャップ挿入のためのシステムの一例のブロック図を提示する。図26のシステムは、図1Bの装置150のインスタンスであり、ノイズ推定サブシステム(ノイズ推定器)64、ノイズ補償利得適用サブシステム(ノイズ補償サブシステム)62、および強制ギャップ適用サブシステム(強制ギャップ適用器)70を実装するように構成された制御システム160を含むオーディオ・デバイス2601aを含む。この例では、オーディオ・デバイス2601b~2601nも再生環境E内に存在する。この実装では、オーディオ・デバイス2601b~2601nのそれぞれは、図1Bの装置150のインスタンスであり、それぞれは、ノイズ推定サブシステム64、ノイズ補償サブシステム62、および強制ギャップ適用サブシステム70のインスタンスを実装するように構成された制御システムを含む。
【0314】
この例によれば、図26のシステムは、やはり図1Bの装置150のインスタンスである統率デバイス2605をも含む。いくつかの例では、統率デバイス2605は、スマート・オーディオ・デバイスなどの、再生環境のオーディオ・デバイスでありうる。いくつかのそのような例では、統率デバイス2605は、オーディオ・デバイス2601a~2601nのうちの1つを介して実装されうる。他の例では、統率デバイス2605は、本明細書でスマート・ホーム・ハブと呼ばれるものなど、別のタイプのデバイスでありうる。この例によれば、統率デバイス2605は、強制ギャップ適用器70のそれぞれのインスタンスを制御するために、オーディオ・デバイス2601a~2601nからノイズ推定値2610a~2610nを受信し、オーディオ・デバイス2601a~2601nに緊急性信号2615a~2615nを提供するように構成された制御システムを含む。この実装では、強制ギャップ適用器70の各インスタンスは、緊急性信号2615a~2615nに基づいて、ギャップを挿入するかどうか、また、そうである場合、どのタイプのギャップを挿入するかを決定するように構成される。
【0315】
この例によれば、オーディオ・デバイス2601a~2601nはまた、現在ギャップ・データ2620a~2620nを統率デバイス2605に提供するように構成され、それは、オーディオ・デバイス2601a~2601nのそれぞれが、もしあれば、どんなギャップを実装しているかを示す。いくつかの例では、現在ギャップ・データ2620a~2620nは、オーディオ・デバイスが適用中であるギャップのシーケンスと、対応する時間(たとえば、各ギャップまたはすべてのギャップについての開始時間および時間区間)とを示しうる。いくつかの実装では、統率デバイス2605の制御システムは、たとえば、最近のギャップ・データ、どのオーディオ・デバイスが最近の緊急性信号を受信したかなどを示すデータ構造を維持するように構成されうる。図26のシステムでは、強制ギャップ適用サブシステム70の各インスタンスは、緊急性信号2615a~2615nに応答して動作し、統率デバイス2605は、再生信号におけるギャップの必要性に基づいて強制ギャップ挿入に対する制御を行う。
【0316】
いくつかの例によれば、緊急性信号2615a~2615nは、緊急性値セット[U0,U1,…UN]のシーケンスを示してもよく、ここで、Nは、サブシステム70が強制ギャップを挿入しうる(再生信号の全周波数範囲の)周波数帯域の所定の数であり(たとえば、帯域のそれぞれに1つの強制ギャップが挿入される)、Uiは、サブシステム70が強制ギャップを挿入しうる「i」番目の帯域についての緊急性値である。(ある時間に対応する)各緊急性値セットの緊急性値は、緊急性を決定するための任意の開示される実施形態に従って生成されてもよく、N個の帯域における(その時間における)強制ギャップの(サブシステム70による)挿入の緊急性を示してもよい。
【0317】
いくつかの実装では、緊急性信号2615a~2615nは、N個の周波数帯域のそれぞれについてギャップ挿入の確率を定義する確率分布によって決定される固定した(時間不変な)緊急性値セット[U0,U1,…UN]を示してもよい。いくつかの例によれば、確率分布は、結果(サブシステム70の各インスタンスの応答)が受信側オーディオ・デバイス2601a~2601nのすべてにわたって決定論的(たとえば、同じ)であるように、擬似ランダム機構を用いて実装される。よって、そのような固定された緊急性値セットに応答して、サブシステム70は、より低い緊急性値(すなわち、擬似ランダム確率分布によって決定される、より低い確率値)を有する帯域に、(平均で)より少ない強制ギャップを挿入し、より高い緊急性値(すなわち、より高い確率値)を有する帯域に、(平均で)より多くの強制ギャップを挿入するように構成されうる。いくつかの実装では、緊急性信号2615a~2615nは、緊急性値セット[U0,U1,…UN]のシーケンス、たとえば、シーケンス中の異なる時間ごとの異なる緊急性値セットを示しうる。そのようなそれぞれの異なる緊急性値セットは、異なる時間のそれぞれについて異なる擬似ランダム確率分布によって決定されうる。
【0318】
次に、緊急性値または緊急性値を示す信号(U)を決定するための方法(開示されるパーベイシブ聴取方法のさまざまな実施形態において実装されうる)について説明する。
【0319】
ある周波数帯域についての緊急性値は、その帯域においてギャップが強制される必要性を示す。緊急性値Ukを決定するための3つの戦略を提示し、ここで、Ukは帯域kにおける強制ギャップ挿入の緊急性を示し、UはBcount個の周波数帯域のセットのすべての帯域についての緊急性値を含むベクトルを表す:
U=[U0,U1,U2,…]
【0320】
第1の戦略(本明細書では方法1と呼ばれることもある)は、固定した緊急性値を決定する。この方法は最も単純であり、単に緊急性ベクトルUをあらかじめ決定された固定量とすることを許容する。固定した知覚的自由メトリックとともに使用されるとき、これは、時間にわたって強制ギャップをランダムに挿入するシステムを実装するために使用されることができる。いくつかのそのような方法は、パーベイシブ聴取アプリケーションによって供給される時間依存の緊急性値を必要としない。よって:
U=[u0,u1,u2,…,uX]
ここで、X=Bcountであり、(k=1からk=Bcountまでの範囲内のkについて)各値ukは、「k」帯域についてのあらかじめ決定された固定した緊急性値を表す。すべてのukを1.0に設定することは、すべての周波数帯域において等しい程度の緊急性を表す。
【0321】
第2の戦略(本明細書では方法2と呼ばれることもある)は、前のギャップの発生からの経過時間に依存する緊急性値を決定する。いくつかの実装では、緊急性は時間とともに徐々に増加し、ひとたび強制されたギャップまたは既存のギャップのいずれかがパーベイシブ聴取結果における更新(たとえば、背景ノイズ推定値更新)を引き起こすと、低い値に戻る。
【0322】
よって、各周波数帯域(帯域k)における緊急性値Ukは、帯域kにおいてギャップが(パーベイシブ聴取者によって)知覚されてからの持続時間(たとえば、秒数)に対応しうる。いくつかの例では、各周波数帯域における緊急性値Ukは、以下のように決定されうる。
Uk(t)=min(t-tg,Umax)
ここで、tgは帯域kについて見られた最後のギャップを表し、Umaxは緊急性をある最大サイズに制限するチューニング・パラメータを表す。tgは、再生コンテンツ内にもともと存在するギャップの存在に基づいて更新されうることに留意されたい。たとえば、ノイズ補償では、再生環境内の現在のノイズ状態が、出力再生信号においてギャップとみなされるものを決定しうる。すなわち、ギャップが発生するためには、環境が静かなときは、環境がノイズの多い場合よりも、再生信号は静かでなければならない。同様に、人間の発話によって典型的に占有される周波数帯域についての緊急性は、典型的には、再生環境におけるユーザーによる発話発声の生起または不生起に依存するパーベイシブ聴取方法を実施するときに、より重要になってくる。
【0323】
第3の戦略(本明細書では方法3と呼ばれることもある)は、イベント・ベースの緊急性値を決定する。この文脈では、「イベント・ベース」は、再生環境の外部の、あるいは再生環境内で発生したと検出されるまたは推測される何らかのイベントまたは活動(または情報の必要性)に依存することを表す。パーベイシブ聴取サブシステムによって決定される緊急性は、新しいユーザー挙動の開始または再生環境条件の変化とともに突然変化する可能性がある。たとえば、そのような変化は、パーベイシブ聴取のために構成された一つまたは複数のデバイスに、背景活動を観察する緊急の必要性をもたせてもよい。その目的は、決定を行うため、または新しい条件に合わせて再生経験を迅速に調整するため、または一般的な緊急性もしくは各帯域における所望の密度およびギャップ間の時間における変化を実装するためである。下記の表3は、コンテキストおよびシナリオ、ならびに緊急性における対応するイベント・ベースの変化のいくつかの例を提供する。
【表3】
【0324】
第4の戦略(本明細書では方法4と呼ばれることもある)は、方法1、2、および3のうちの2つ以上の組み合わせを使用して緊急性値を決定する。たとえば、方法1、2、および3のそれぞれは、次のタイプの一般的な定式化によって表される合同戦略に組み合わされてもよい:
Uk(t)=uk*min(t-tg,Umax)*Vk
ここで、ukは、各周波数帯域の相対的重要性を制御する固定した無単位の重み付け因子を表し、Vkは、緊急性の迅速な変更を必要とするコンテキストまたはユーザー挙動の変化に応答して変調されるスカラー値を表し、tgおよびUmaxは上で定義されている。いくつかの例では、値Vkは、通常動作下で1.0の値のままであると期待される。
【0325】
複数デバイス・コンテキストのいくつかの例では、オーディオ環境のスマート・オーディオ・デバイスの強制ギャップ適用器は、環境ノイズNの正確な推定を達成するために、統率された仕方で協働しうる。いくつかのそのような実装では、強制ギャップが時間および周波数においてどこに導入されるかの決定は、別個の統率デバイス(本明細書の他の箇所でスマート・ホーム・ハブと呼ばれるものなど)によって実装される統率デバイス2605によって行われてもよい。いくつかの代替的な実装では、強制ギャップが時間および周波数においてどこに導入されるかの決定は、リーダーのはたらきをするスマート・オーディオ・デバイスのうちの1つ(たとえば、統率デバイス2605のはたらきをするスマート・オーディオ・デバイス)によって行われてもよい。
【0326】
いくつかの実装では、統率デバイス2605は、ノイズ推定値2610a~2610nを受信し、ノイズ推定値2610a~2610nに少なくとも部分的に基づいていてもよいギャップ・コマンドをオーディオ・デバイス2601a~2601nに提供するように構成された制御システムを含みうる。いくつかのそのような例では、統率デバイス2605は、緊急性信号の代わりにギャップ・コマンドを与えうる。いくつかのそのような例によれば、強制ギャップ適用器70は、緊急性信号に基づいて、ギャップを挿入すべきかどうか、もしそうである場合、どのタイプのギャップを挿入すべきかを決定する必要はなく、代わりに、単にギャップ・コマンドに従って動作すればよい。
【0327】
いくつかのそのような実装では、ギャップ・コマンドは、挿入されるべき一つまたは複数の特定のギャップの特性(たとえば、周波数範囲またはBcount、Z、t1、t2、および/またはt3)と、一つまたは複数の特定のギャップの挿入のための時間(単数または複数)とを示しうる。たとえば、ギャップ・コマンドは、図23B図23Eに示され、上で説明されたもののうちの1つなどのギャップおよび対応する時間区間のシーケンスを示してもよい。いくつかの例では、ギャップ・コマンドは、受信オーディオ・デバイスが、挿入されるべきギャップのシーケンスおよび対応する時間区間の特性にアクセスしうるデータ構造を示してもよい。データ構造は、たとえば、受信オーディオ・デバイスに以前に提供されていてもよい。いくつかのそのような例では、統率デバイス2605は、ギャップ・コマンドをいつ送信すべきか、およびどのタイプのギャップ・コマンドを送信すべきかを決定するための緊急性計算を行うように構成された制御システムを含みうる。
【0328】
いくつかの例によれば、緊急性信号は、少なくとも部分的にはオーディオ・デバイス2601a~2601nのうちの一つまたは複数のノイズ推定要素64によって推定されてもよく、統率デバイス2605に送信されてもよい。強制ギャップを特定の周波数領域および時間的位置に統率する決定は、いくつかの例では、少なくとも部分的にはオーディオ・デバイス2601a~2601nのうちの一つまたは複数からのこれらの緊急性信号の集約によって決定されうる。たとえば、緊急性によって通知される選択を行う開示されたアルゴリズムは、代わりに、複数のオーディオ・デバイスの緊急性信号にわたって計算される最大緊急性(urgency)、たとえば、Urgency=maximum(UrgencyA,UrgencyB,UrgencyC,…)を使用してもよく、ここで、UrgencyA/B/Cは、ノイズ補償を実装する3つの別個の例示的なデバイスの緊急性信号として理解される。
【0329】
ノイズ補償システム(たとえば、図26のもの)は、(たとえば、参照によって本明細書に組み込まれる、米国仮特許出願第62/663,302号に記載されるように実装されるとき)弱いまたは存在しないエコー消去とともに機能することができるが、特に音楽、TV、および映画コンテンツの場合、コンテンツ依存の応答時間に悩まされることがある。ノイズ補償システムが再生環境における背景ノイズのプロファイルの変化に応答するのにかかる時間は、ユーザー体験にとって非常に重要であることがあり、場合によっては、実際のノイズ推定値の精度よりも重要であることがある。再生コンテンツが、背景ノイズの一端を知るギャップをほとんどまたは全く提供しないとき、ノイズ推定値は、たとえノイズ状態が変化しても固定されたままでありうる。ノイズ推定値スペクトルにおける欠損値を補間して帰属させる(imputing)ことは、典型的には有用であるが、ノイズ推定値スペクトルの大きな領域がロックアップされて陳腐化する可能性が依然としてある。
【0330】
図26のシステムのいくつかの実施形態は、(ノイズ推定器64による)背景ノイズ推定値が、再生環境Eにおける背景ノイズNのプロファイルの典型的な変化に応答するのに十分な頻度で更新されうるよう、十分な頻度で(たとえば、強制ギャップ適用器70の出力の関心対象の各周波数帯域において)発生する(再生信号における)強制ギャップを提供するように動作可能であってもよい。いくつかの例では、サブシステム70は、ノイズ補償サブシステム62から出力される補償されたオーディオ再生信号(Kは正の整数であるとして、K個のチャネルを有する)に強制ギャップを導入するように構成されてもよい。ここで、ノイズ推定器64は、補償されたオーディオ再生信号の各チャネルにおいてギャップ(サブシステム70によって挿入された強制ギャップを含む)を探索し、ギャップが発生する周波数帯域について(および時間区間において)ノイズ推定値を生成するように構成されてもよい。この例では、オーディオ・デバイス2601aのノイズ推定器64は、ノイズ推定値2610aをノイズ補償サブシステム62に提供するように構成される。いくつかの例によれば、オーディオ・デバイス2601aのノイズ推定器64はまた、検出されたギャップに関する結果として生じる情報を使用して、推定された緊急性信号を生成する(そして統率デバイス2605に提供するように構成されてもよく、その緊急性値は、補償されたオーディオ再生信号の周波数帯域に強制ギャップを挿入するための緊急性を追跡する。
【0331】
この例では、ノイズ推定器64は、マイクロフォン・フィードMic(再生環境EにおけるマイクロフォンMの出力)と、補償されたオーディオ再生信号の基準(再生環境Eにおけるスピーカー・システムSへの入力)との両方を受け入れるように構成される。この例によれば、サブシステム64において生成されたノイズ推定値は、ノイズ補償サブシステム62に提供され、ノイズ補償サブシステム62は、(コンテンツ・ソース22からの)入力再生信号23に補償利得を適用して、その各周波数帯域を所望の再生レベルに平準化〔レベリング〕する。この例では、ノイズ補償されたオーディオ再生信号(サブシステム62からの出力)および帯域ごとの緊急性メトリック(統率デバイス2605からの緊急性信号出力によって示される)が、強制ギャップ適用器70に提供され、強制ギャップ適用器70は、(好ましくは最適化プロセスに従って)補償された再生信号においてギャップを強制する。(強制ギャップ適用器70から出力される)それぞれノイズ補償された再生信号の異なるチャネルの内容を示すスピーカー・フィードは、スピーカー・システムSの各スピーカーに提供される。
【0332】
図26のシステムのいくつかの実装は、それが実行するノイズ推定の要素としてエコー消去を実行しうるが、図26のシステムの他の実装は、エコー消去を実行しない。よって、エコー消去を実装するための要素は、図26において具体的に示されていない。
【0333】
図26では、信号の時間領域から周波数領域への(および/または周波数領域から時間領域への)変換は示されていないが、ノイズ補償利得の適用(サブシステム62における)、ギャップ強制のためのコンテンツの解析(統率デバイス2605、ノイズ推定器64、および/または強制ギャップ適用器70における)、および強制ギャップの挿入(強制ギャップ適用器70による)は、便宜上同じ変換領域において実装されてもよく、結果として生じる出力オーディオは、再生または送信のためのさらなるエンコードの前に、時間領域のパルス符号変調(PCM)オーディオに再合成される。いくつかの例によれば、各参加デバイスは、本明細書の他の箇所で説明される方法を使用して、そのようなギャップの強制を調整する。いくつかのそのような例では、導入されるギャップは同一であってもよい。いくつかの例では、導入されるギャップは同期されてもよい。
【0334】
各参加デバイス上に存在し、ギャップを挿入する強制ギャップ適用器70を使用することにより、補償された再生信号(図26のシステムのノイズ補償サブシステム62からの出力)の各チャネルにおけるギャップの数を(強制ギャップ適用器70を使用しない場合に発生するギャップの数に比して)増加させることができ、それにより、図26のシステムによって実装される任意のエコー・キャンセラーに対する要件を大幅に低減し、場合によってはエコー消去の必要性を完全になくすことさえできる。
【0335】
いくつかの開示された実装では、時間領域ピーク制限またはスピーカー保護などの単純な後処理回路が、強制ギャップ適用器70とスピーカー・システムSとの間に実装されることが可能である。しかしながら、スピーカー・フィードをブーストおよび圧縮する能力を有する後処理は、強制ギャップ適用器によって挿入された強制ギャップを打ち消すか、その品質を低下させる可能性があり、よって、これらのタイプの後処理は、好ましくは、強制ギャップ適用器70の前の信号処理経路内のある点において実装される。
【0336】
図27Aおよび27Bは、いくつかの開示される実装による、統率デバイスの要素および統率されるオーディオ・デバイスの要素の例を示すシステム・ブロック図を示す。本明細書に提供される他の図と同様に、図27Aおよび27Bに示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、異なるタイプおよび/または異なる数の要素を含んでいてもよい。この例では、図27Aおよび図27Bの統率されるオーディオ・デバイス2720a~2720nおよび統率デバイス2701は、図1Bを参照して上述した装置150のインスタンスである。
【0337】
この実装によれば、統率されるオーディオ・デバイス2720a~2720nのそれぞれは、以下の要素を含む:
2731:一つまたは複数のラウドスピーカーを含む、図1Bのラウドスピーカー・システム110のインスタンス;
2732:一つまたは複数のマイクロフォンを含む、図1Bのマイクロフォン・システム111のインスタンス;
2711:この例では図2のレンダリング・モジュール210Aのインスタンスであるレンダリング・モジュール2721によって出力されたオーディオ再生信号。この例によれば、レンダリング・モジュール2721は、統率モジュール2702からの命令に従って制御され、ユーザー・ゾーン分類器2705および/またはレンダリング構成モジュール2707から情報および/または命令を受信することもできる;
2712:この例では図26のノイズ補償サブシステム62のインスタンスであるノイズ補償モジュール2721によって出力されるノイズ補償されたオーディオ再生信号;
2713:この例では図26の強制ギャップ適用器70のインスタンスである音響ギャップ・パンチャー2722によって出力される、一つまたは複数のギャップを含むノイズ補償されたオーディオ再生信号。この例では、音響ギャップ・パンチャー2722は、統率モジュール2702からの命令に従って制御される;
2714:この例では図2の較正信号注入器211Aのインスタンスである較正信号注入器2723によって出力される修正オーディオ再生信号;
2715:この例では図2の較正信号生成器212Aのインスタンスである較正信号生成器2725によって出力される較正信号;
2716:オーディオ環境の他のオーディオ・デバイスによって(この例では、オーディオ・デバイス2720b~2720nのうちの一つまたは複数によって)生成された較正信号に対応する較正信号レプリカ。較正信号レプリカ2716は、たとえば、図2を参照して上述した較正信号レプリカ204Aのインスタンスであってもよい。いくつかの例では、較正信号レプリカ2716は、統率デバイス2701から(たとえば、Wi-FiまたはBluetooth(登録商標)などの無線通信プロトコルを介して)受信されうる;
2717:オーディオ環境内のオーディオ・デバイスのうちの一つまたは複数に関連する、および/またはそれによって使用される制御情報。この例では、制御情報2717は、図27Bを参照して以下で説明する統率デバイス2701によって(たとえば、統率モジュール2702によって)提供される。制御情報2717は、たとえば、図2を参照して上述された較正情報205Aのインスタンス、または本明細書の他の場所で開示される較正信号パラメータのインスタンスを含みうる。制御情報2717は、較正信号を生成する、較正信号を変調する、較正信号を復調するなどのために制御システム160nによって使用されるパラメータを含みうる。制御情報2717は、いくつかの例では、一つまたは複数のDSSS拡散符号パラメータと一つまたは複数のDSSS搬送波パラメータとを含みうる。制御情報2717は、いくつかの例では、レンダリング・モジュール2721、ノイズ補償モジュール2711、音響ギャップ・パンチャー2712、および/またはベースバンド・プロセッサ2729を制御するための情報を含みうる;
2718:マイクロフォン2732によって受信されたマイクロフォン信号;
2719:復調されたコヒーレントなベースバンド信号。これは、図2図4および図17を参照して上述した復調されたコヒーレントなベースバンド信号208および208Aのインスタンスであってもよい;
2721:音楽、映画およびテレビ番組のためのオーディオ・データなどのコンテンツ・ストリームのオーディオ信号をレンダリングして、オーディオ再生信号を生成するように構成されたレンダリング・モジュール;
2723:較正信号変調器2724によって変調された較正信号2715a(または、較正信号が変調を必要としないいくつかの事例では、較正信号生成器2725によって生成された較正信号2715)を、レンダリング・モジュール2721によって生成されたオーディオ再生信号(この例では、ノイズ補償モジュール2730および音響ギャップ・パンチャー2722によって修正されている)に挿入して、修正オーディオ再生信号2714を生成するように構成された較正信号注入器。挿入プロセスは、たとえば、較正信号2715または2715aが、レンダリング・モジュール210Aによって生成されたオーディオ再生信号(この例では、ノイズ補償モジュール2730および音響ギャップ・パンチャー2722によって修正されている)と混合されて、修正オーディオ再生信号2714を生成する混合プロセスであってもよい;
2724:較正信号生成器2725によって生成された較正信号2715を変調して、変調較正信号2715aを生成するように構成された任意的な較正信号変調器;
2725:較正信号2715を生成し、この例では、較正信号2715を較正信号変調器2724およびベースバンド・プロセッサ2729に提供するように構成された較正信号生成器。いくつかの例では、較正信号生成器2725は、図2を参照して上述した較正信号生成器212Aのインスタンスであってもよい。いくつかの例によれば、較正信号生成器2725は、たとえば図17を参照して上述したように、拡散符号生成器および搬送波生成器を含んでいてもよい。この例では、較正信号生成器2725は、ベースバンド・プロセッサおよび較正信号復調器2726に較正信号レプリカ2715を提供する;
2726:マイクロフォン2732によって受信されたマイクロフォン信号2718を復調するように構成された較正信号復調器。いくつかの例では、較正信号復調器2726は、図2を参照して上述した較正信号復調器212Aのインスタンスであってもよい。この例では、較正信号復調器2726は、復調されたコヒーレントなベースバンド信号2719を出力する。マイクロフォン信号2718の復調は、たとえば、積分・ダンプ型整合フィルタリング相関器バンクを含む標準的な相関技法を使用して実行されうる。いくつかの詳細な例が本明細書に提供される。これらの復調技法の性能を改善するために、いくつかの実装では、マイクロフォン信号2718は、望まれないコンテンツ/現象を除去するために復調前にフィルタ処理されてもよい。いくつかの実装によれば、復調されたコヒーレントなベースバンド信号2719は、ベースバンド・プロセッサ2729に提供される前または後にフィルタリングされうる。信号対雑音比(SNR)は、一般に、積分時間が増加するにつれて(たとえば、較正信号を生成するために使用される拡散符号の長さが増加するにつれて)改善される;
2729:復調されたコヒーレントなベースバンド信号2719のベースバンド処理のために構成されたベースバンド・プロセッサ。いくつかの例では、ベースバンド・プロセッサ2729は、遅延波形を生成するために二乗波形の分散を低減することによってSNRを改善するために、インコヒーレント平均化などの技法を実装するように構成されうる。いくつかの詳細な例が本明細書において提供される。この例では、ベースバンド・プロセッサ218Aは、一つまたは複数の推定された音響シーン・メトリック2733を出力するように構成される;
2730:オーディオ環境におけるノイズを補償するように構成されたノイズ補償モジュール。この例では、ノイズ補償モジュール2730は、統率モジュール2702からの制御情報2717に少なくとも部分的に基づいて、レンダリング・モジュール2721によって出力されるオーディオ再生信号2711におけるノイズを補償する。いくつかの実装では、ノイズ補償モジュール2730は、ベースバンド・プロセッサ2729によって提供される一つまたは複数の音響シーン・メトリック2733(たとえば、ノイズ情報)に少なくとも部分的に基づいて、オーディオ再生信号2711中のノイズを補償するように構成されうる;
2733n:たとえば、マイクロフォン信号から抽出された較正信号から(たとえば、復調されたコヒーレントなベースバンド信号2719から)、および/またはウェイクワード検出器2727によって提供されたウェイクワード情報2734から、オーディオ・デバイス2720nによって導出された一つまたは複数の観察。これらの観察は、本明細書では音響シーン・メトリックとも呼ばれる。音響シーン・メトリック2733は、ウェイクワード・メトリック、飛行時間に対応するデータ、到着時間、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、および/または信号対雑音比を含みうるか、またはそれらでありうる。この例では、統率されるオーディオ・デバイス2720a~2720nは、それぞれ音響シーン・メトリック2733a~2733nを決定しており、音響シーン・メトリック2733a~2733nを統率デバイス2701に提供している。
【0338】
この実装によれば、統率デバイス2701は、以下の要素を含む:
2702:この例ではギャップ挿入および較正信号生成を含むがこれらに限定されない、統率されたオーディオ・デバイス2720a~2720nのさまざまな機能を制御するように構成された統率モジュール。統率モジュール2702は、いくつかの実装では、本明細書で開示される統率デバイスのさまざまな機能のうちの一つまたは複数を提供しうる。よって、統率モジュール2702は、オーディオ処理および/またはオーディオ・デバイス再生の一つまたは複数の側面を制御するための情報を提供してもよい。たとえば、統率モジュール2702は、統率されたオーディオ・デバイス2720a~2720nの較正信号生成器2725(ならびに、この例では、変調器2724および復調器2726)に較正信号パラメータを提供しうる。統率モジュール2702は、統率されるオーディオ・デバイス2720a~2720nの音響ギャップ・パンチャー2722にギャップ挿入情報を提供しうる。統率モジュール2702は、ギャップ挿入と較正信号生成とを調整するための命令を提供しうる。統率モジュール2702(および、いくつかの例では、統率デバイス2701の他のモジュール、たとえば、この例ではユーザー・ゾーン分類器2705およびレンダリング構成生成器2707)は、レンダリング・モジュール2721を制御するための命令を提供しうる;
2703:オーディオ環境内のオーディオ・デバイスの現在位置、およびいくつかの例では現在の配向を推定するように構成された幾何学的近接推定器。いくつかの例では、幾何学的近接推定器2703は、オーディオ環境内の一または複数の人の現在位置(およびいくつかの事例では現在の配向)を推定するように構成されうる。幾何学的近接推定器の機能のいくつかの例は、図41以下を参照して後述される;
2704:任意の位置における、オーディオ環境内またはその近くの一つまたは複数のラウドスピーカーの可聴性、たとえば聴取者の現在の推定位置における可聴性を推定するように構成されうるオーディオ・デバイス可聴性推定器。オーディオ・デバイス可聴性推定器の機能のいくつかの例は、図31以降を参照して後述される(たとえば、図32および対応する説明を参照);
2705:人が現在位置しているオーディオ環境のゾーン(たとえば、カウチ・ゾーン、キッチン・テーブル・ゾーン、冷蔵庫ゾーン、読書椅子ゾーンなど)を推定するように構成されたユーザー・ゾーン分類器。いくつかの例では、ユーザー・ゾーン分類器2705は、ゾーン分類器2537のインスタンスであってもよく、その機能は、図25Aおよび25Bを参照して上記で説明されている;
2706:任意の位置におけるノイズ可聴性、オーディオ環境における聴取者の現在の推定位置における可聴性を推定するように構成されたノイズ可聴性推定器。オーディオ・デバイス可聴性推定器の機能のいくつかの例は、図31以降を参照して以下で後述される(たとえば、図33および図34、ならびに対応する説明を参照)。ノイズ可聴性推定器2706は、いくつかの例では、アグリゲータ2708からの集約されたノイズ・データ2740を補間することによってノイズ可聴性を推定しうる。集約されたノイズ・データ2740は、たとえば、オーディオ環境の複数のオーディオ・デバイスから(たとえば、複数のベースバンド・プロセッサ2729および/またはオーディオ・デバイスの制御システムによって実装される他のモジュールによって)取得されてもよく、これは、たとえば、図21以降などを参照して上述したように、オーディオ環境におけるノイズ状態を評価するために、再生されるオーディオ・データに挿入されたギャップを「通して聴く(listening through)」ことによってである;
2707:オーディオ環境におけるオーディオ・デバイスおよび一または複数の聴取者の相対位置(および、この例では、相対的可聴性)に応答してレンダリング構成を生成するように構成されたレンダリング構成生成器。レンダリング構成生成器2707は、たとえば、図51以降を参照して後述されるような機能を提供することができる;
2708:統率されるオーディオ・デバイス2701 a~2720nから受信された音響シーン・メトリック2733a~2733nを集約し、集約された音響シーン・メトリック(この例では、集約された音響シーン・メトリック2735~2740)を音響シーン・メトリック処理モジュール2728および統率デバイス2720の他のモジュールに提供するように構成されたアグリゲータ。統率されるオーディオ・デバイス2720a~2720nのベースバンド・プロセッサ・モジュールからの音響シーン・メトリックの推定値は、一般に非同期的に到着するので、アグリゲータ2708は、音響シーンメトリックデータを時間を追って収集し、音響シーンメトリックデータをメモリ(たとえば、バッファ)に記憶し、それを適切な時間に(たとえば、音響シーンメトリックデータがすべての統率されるオーディオ・デバイスから受信された後に)後続の処理ブロックに渡すように構成される。この例ではアグリゲータ2708は、集約された可聴性データ2735を統率モジュール2702およびオーディオ・デバイス可聴性推定器2704に提供するように構成される。この実装では、アグリゲータ2708は、集約されたノイズ・データ2740を統率モジュール2702およびノイズ可聴性推定器2706に提供するように構成される。この実装によれば、アグリゲータ2708は、集約された到来方向(DOA)データ2736、集約された到着時間(TOA)データ2737、集約されたインパルス応答(IR)データ2738を統率モジュール2702および幾何学的近接推定器2703に提供する。この例では、アグリゲータ2708は、集約されたウェイクワード・メトリック2739を統率モジュール2702およびユーザー・ゾーン分類器2705に提供する;
2728:集約された音響シーン・メトリック2735~2739を受信して適用するように構成された音響シーン・メトリック処理モジュール。この例によれば、音響シーン・メトリック処理モジュール2728は、統率モジュール2702の構成要素であるが、代替例では、音響シーン・メトリック処理モジュール2728は、統率モジュール2702の構成要素でなくてもよい。この例では、音響シーン・メトリック処理モジュール2728は、集約された音響シーン・メトリック2735~2739のうちの少なくとも1つおよび/または少なくとも1つのオーディオ・デバイス特性に少なくとも部分的に基づいて、情報および/またはコマンドを生成するように構成される。オーディオ・デバイス特性は、統率されるオーディオ・デバイス2720a~2720nのうちの一つまたは複数の、一つまたは複数の特性であってもよい。オーディオ・デバイス特性は、たとえば、統率デバイス2701の制御システム160のメモリに記憶されてもよく、または制御システム160にとってアクセス可能であってもよい。
【0339】
いくつかの実装では、統率デバイス2701は、スマート・オーディオ・デバイスなどのオーディオ・デバイスにおいて実装されうる。そのような実装では、統率デバイス2701は、一つまたは複数のマイクロフォンと、一つまたは複数のラウドスピーカーとを含みうる。
【0340】
クラウド処理
いくつかの実装では、統率されるオーディオ・デバイス2720a~2720nは、主に、高いデータ帯域幅および低い処理レイテンシー要件に起因してローカルに実行されるリアルタイム処理ブロックを含む。しかしながら、いくつかの例では、ベースバンド・プロセッサ2729の出力がいくつかの例では非同期的に計算されうるので、ベースバンド・プロセッサ2729はクラウド内に存在してもよい(たとえば、一つまたは複数のサーバーを介して実装されてもよい)。いくつかの実装によれば、統率デバイス2701のブロックはすべてクラウド内に存在してもよい。いくつかの代替的な実装では、ブロック2702、2703、2708、および2705は、ローカル・デバイス(たとえば、統率されるオーディオ・デバイス2720a~2720nと同じオーディオ環境にあるデバイス)上で実装されてもよい。なぜなら、これらのブロックは、リアルタイムまたはほぼリアルタイムで動作することが好ましいからである。しかしながら、いくつかのそのような実装では、ブロック2703、2704、および2707は、クラウド・サービスを介して動作してもよい。
【0341】
図28は、開示されるオーディオ・デバイス統率方法の別の例を概説するフロー図である。方法2800のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。方法2800は、図27Bを参照して上述された統率デバイス2701などの統率デバイスによって実行されうる。方法2800は、図27Aを参照して上述した統率されるオーディオ・デバイス2720a~2720nの一部または全部などの統率されるオーディオ・デバイスを制御することに関わる。
【0342】
この例によれば、ブロック2805は、制御システムによって、オーディオ環境の第1のオーディオ・デバイスに第1の較正信号を生成させることに関わる。たとえば、統率デバイス2701などの統率デバイスの制御システムは、ブロック2805において、オーディオ環境の第1の統率されるオーディオ・デバイス(たとえば、統率されるオーディオ・デバイス2720a)に第1の較正信号を生成させるように構成されうる。
【0343】
この例では、ブロック2810は、制御システムによって、第1のコンテンツ・ストリームに対応する第1のオーディオ再生信号中に第1の較正信号を挿入させて、第1のオーディオ・デバイスのための第1の修正オーディオ再生信号を生成させることに関わる。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720aに、第1のコンテンツ・ストリームに対応する第1のオーディオ再生信号中に第1の較正信号を挿入させて、統率されるオーディオ・デバイス2720aのための第1の修正オーディオ再生信号を生成させるように構成されうる。
【0344】
この例によれば、ブロック2815は、制御システムによって、第1のオーディオ・デバイスに、第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させることに関わる。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720aに、ラウドスピーカー2731上で第1の修正オーディオ再生信号を再生させて、第1の統率されるオーディオ・デバイス再生音を生成させるように構成されうる。
【0345】
この例では、ブロック2820は、制御システムによって、オーディオ環境の第2のオーディオ・デバイスに第2の較正信号を生成させることに関わる。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720bに第2の較正信号を生成させるように構成されうる。
【0346】
この例によれば、ブロック2825は、制御システムによって、第2の較正信号を第2のコンテンツ・ストリームに挿入させて、第2のオーディオ・デバイスのための第2の修正オーディオ再生信号を生成することを含む。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720bに、第2の較正信号を第2のコンテンツ・ストリームに挿入させて、統率されるオーディオ・デバイス2720bのための第2の修正オーディオ再生信号を生成させるように構成されうる。
【0347】
この例では、ブロック2830は、制御システムによって、第2のオーディオ・デバイスに第2の修正オーディオ再生信号を再生させて、第2のオーディオ・デバイス再生音を生成させることを含む。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720bに、ラウドスピーカー2731上で第2の修正オーディオ再生信号を再生させて、第2の統率されるオーディオ・デバイス再生音を生成させるように構成されうる。
【0348】
この例によれば、ブロック2835は、制御システムによって、オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも前記第1のオーディオ・デバイス再生音および前記第2のオーディオ・デバイス再生音を検出させ、少なくとも前記第1のオーディオ・デバイス再生音および前記第2のオーディオ・デバイス再生音に対応するマイクロフォン信号を生成させることに関わる。いくつかの例では、マイクロフォンは、統率デバイスのマイクロフォンでありうる。他の例では、マイクロフォンは、統率されるオーディオ・デバイスのマイクロフォンでありうる。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちの一つまたは複数に、少なくとも1つのマイクロフォンを使用して少なくとも前記第1の統率されるオーディオ・デバイス再生音および前記第2の統率されるオーディオ・デバイス再生音を検出させ、少なくとも前記第1の統率されるオーディオ・デバイス再生音および前記第2の統率されるオーディオ・デバイス再生音に対応するマイクロフォン信号を生成させるように構成されうる。
【0349】
この例では、ブロック2840は、制御システムによって、第1の較正信号および第2の較正信号をマイクロフォン信号から抽出させることに関わる。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちの一つまたは複数に、マイクロフォン信号から第1の較正信号および第2の較正信号を抽出させるように構成されうる。
【0350】
この例によれば、ブロック2845は、制御システムによって、少なくとも1つの音響シーン・メトリックを、第1の較正信号および第2の較正信号に少なくとも部分的に基づいて推定させることに関わる。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちの一つまたは複数に、第1の較正信号および第2の較正信号に少なくとも部分的に基づいて、少なくとも1つの音響シーン・メトリックを推定させるように構成されうる。代替的または追加的に、いくつかの例では、統率デバイス2701は、第1の較正信号および第2の較正信号に少なくとも部分的に基づいて、音響シーン・メトリックを推定するように構成されうる。
【0351】
方法2800において推定される特定の音響シーン・メトリックは、特定の実装に従って変わりうる。いくつかの例では、音響シーン・メトリックは、飛行時間、到着時間、到来方向、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、または信号対雑音比のうちの一つまたは複数を含みうる。
【0352】
いくつかの例では、第1の較正信号は、第1のオーディオ・デバイス再生音の第1の可聴以下成分に対応してもよく、第2の較正信号は、第2のオーディオ・デバイス再生音の第2の可聴以下成分に対応してもよい。
【0353】
いくつかの事例では、第1の較正信号は、第1のDSSS信号であってもよく、またはそれを含んでいてもよく、第2の較正信号は、第2のDSSS信号であってもよく、またはそれを含んでいてもよい。しかしながら、第1および第2の較正信号は、本明細書に開示される具体例を含むがそれらに限定されない、任意の好適なタイプの較正信号であってもよい。
【0354】
いくつかの例によれば、第1の統率されるオーディオ・デバイス再生音の第1のコンテンツ・ストリーム成分は、第1の統率されるオーディオ・デバイス再生音の第1の較正信号成分の知覚的マスキングを引き起こしてもよく、第2の統率されるオーディオ・デバイス再生音の第2のコンテンツ・ストリーム成分は、第2の統率されるオーディオ・デバイス再生音の第2の較正信号成分の知覚的マスキングを引き起こしてもよい。
【0355】
いくつかの実装では、方法2800は、制御システムによって、第1のコンテンツ・ストリームの第1の時間区間中に第1のオーディオ再生信号または第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入させることに関わってもよい。それにより、第1の修正オーディオ再生信号および第1のオーディオ・デバイス再生音が第1のギャップを含む。第1のギャップは、第1の周波数範囲における第1のオーディオ再生信号の減衰に対応してもよい。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720aに、第1の時間区間の間に第1のオーディオ再生信号または第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入させるように構成されうる。
【0356】
いくつかの実装によれば、方法2800は、制御システムによって、前記第1の時間区間中に第2のオーディオ再生信号または第2の修正オーディオ再生信号の前記第1の周波数範囲に前記第1のギャップを挿入させることに関わってもよい。それにより、第2の修正オーディオ再生信号および第2のオーディオ・デバイス再生音が第1のギャップを含む。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720bに、第1の時間区間の間に2のオーディオ再生信号または第2の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入させるように構成されてもよい。
【0357】
いくつかの実装では、方法2800は制御システムによって、少なくとも前記第1の周波数範囲内の前記マイクロフォン信号からのオーディオ・データを抽出させて、抽出されたオーディオ・データを生成させることに関わってもよい。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちの一つまたは複数に、少なくとも第1の周波数範囲内のマイクロフォン信号からオーディオ・データを抽出させて、抽出されたオーディオ・データを生成させてもよい。
【0358】
いくつかの実装によれば、方法2800は、制御システムによって、抽出されたオーディオ・データに少なくとも部分的に基づいて少なくとも1つの音響シーン・メトリックを推定させることに関わってもよい。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちの一つまたは複数に、抽出されたオーディオ・データに少なくとも部分的に基づいて、少なくとも1つの音響シーン・メトリックを推定させてもよい。代替的にまたは追加的に、いくつかの例では、統率デバイス2701は、抽出されたオーディオ・データに少なくとも部分的に基づいて、音響シーン・メトリックを推定するように構成されてもよい。
【0359】
方法2800は、ギャップ挿入および較正信号生成の両方を制御することに関わってもよい。いくつかの例では、方法2800は、場合によっては変動するノイズ条件(たとえば、変動するノイズ・スペクトル)の下で、ユーザー位置における再生されるオーディオ・コンテンツの知覚されるレベルが維持されるように、ギャップ挿入および/または較正信号生成を制御することに関わってもよい。いくつかの例によれば、方法2800は、較正信号の信号対雑音比が最大化されるように較正信号生成を制御することに関わってもよい。方法2800は、変動するオーディオ・コンテンツおよびノイズの条件下であっても、較正信号がユーザーに聞こえないことを確実にするために、較正信号生成を制御することに関わってもよい。
【0360】
いくつかの例では、方法2800は、挿入されたギャップの間、コンテンツも較正信号も存在せず、それにより背景ノイズが推定されることを許容するように、時間‐周波数タイルを空にするためのギャップ挿入を制御することに関わってもよい。よって、いくつかの例では、方法2800は、較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないように、ギャップ挿入および較正信号生成を制御することに関わってもよい。たとえば、統率デバイス2701は、較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないように、ギャップ挿入および較正信号生成を制御するように構成されうる。
【0361】
いくつかの例によれば、方法2800は、少なくとも1つの周波数帯域においてノイズが推定されてからの時間に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することに関わってもよい。たとえば、統率デバイス2701は、少なくとも1つの周波数帯域においてノイズが推定されてからの時間に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御するように構成されうる。
【0362】
いくつかの例では、方法2800は、少なくとも1つの周波数帯域における少なくとも1つのオーディオ・デバイスの較正信号の信号対雑音比に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することに関わってもよい。たとえば、統率デバイス2701は、少なくとも1つの周波数帯域における少なくとも1つの統率されるオーディオ・デバイスの較正信号の信号対雑音比に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御するように構成されうる。
【0363】
いくつかの実装によれば、方法2800は、ターゲット・オーディオ・デバイスに、ターゲット・デバイス・コンテンツ・ストリームの未修正のオーディオ再生信号を再生させて、ターゲット・オーディオ・デバイス再生音を生成させることに関わってもよい。いくつかのそのような例では、方法2800は、ターゲット・オーディオ・デバイス可聴性またはターゲット・オーディオ・デバイス位置のうちの少なくとも1つを、抽出されたオーディオ・データに少なくとも部分的に基づいて推定させることに関わってもよい。いくつかのそのような実装では、未修正のオーディオ再生信号は、第1のギャップを含まない。いくつかのそのような例では、マイクロフォン信号はまた、ターゲット・オーディオ・デバイス再生音に対応する。いくつかのそのような例によれば、未修正のオーディオ再生信号は、いずれの周波数範囲にも挿入されたギャップを含まない。
【0364】
たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちのターゲットとなる統率されるオーディオ・デバイスに、ターゲット・デバイス・コンテンツ・ストリームの修正されていないオーディオ再生信号を再生させて、ターゲットとなる統率されるオーディオ・デバイス再生音を生成させるように構成されうる。一例では、ターゲット・オーディオ・デバイスが統率されるオーディオ・デバイス2720aであった場合、統率デバイス2701は、統率されるオーディオ・デバイス2720aに、ターゲットデバイスコンテンツストリームの修正されていないオーディオ再生信号を再生させて、ターゲットとなる統率されるオーディオ・デバイス再生音を生成させることになる。統率デバイス2701は、抽出されたオーディオ・データに少なくとも部分的に基づいて、他の統率されるオーディオ・デバイスのうちの少なくとも1つ(前述の諸例では、統率されるオーディオ・デバイス2720b~2720nのうちの一つまたは複数)によって、ターゲットとなる統率されるオーディオ・デバイスの可聴性またはターゲットとなる統率されるオーディオ・デバイスの位置のうちの少なくとも1つを推定させるように構成されうる。代替的にまたは追加的に、いくつかの例では、統率デバイス2701は、抽出されたオーディオ・データに少なくとも部分的に基づいて、ターゲットとなる統率されるオーディオ・デバイスの可聴性および/またはターゲットとなる統率されるオーディオ・デバイスの位置を推定するように構成されうる。
【0365】
いくつかの例では、方法2800は、音響シーン・メトリックに少なくとも部分的に基づいて、オーディオ・デバイス再生の一つまたは複数の側面を制御することに関わってもよい。たとえば、統率デバイス2701は、音響シーン・メトリックに少なくとも部分的に基づいて、統率されるオーディオ・デバイス2720b~2720nのうちの一つまたは複数のレンダリング・モジュール2721を制御するように構成されてもよい。いくつかの実装では、統率デバイス2701は、音響シーン・メトリックに少なくとも部分的に基づいて、統率されるオーディオ・デバイス2720b~2720nのうちの一つまたは複数のノイズ補償モジュール2730を制御するように構成されてもよい。
【0366】
いくつかの実装によれば、方法2800は、制御システムによって、オーディオ環境の第3ないし第Nのオーディオ・デバイスに、第3ないし第Nの較正信号を生成させ、制御システムによって、第3ないし第Nの較正信号を第3ないし第Nのコンテンツ・ストリームに挿入させて、第3ないし第Nのオーディオ・デバイスのための第3ないし第Nの修正オーディオ再生信号を生成させることに関わってもよい。いくつかの例では、方法2800は、制御システムによって、第3ないし第Nのオーディオ・デバイスに、第3ないし第Nの修正オーディオ再生信号の対応するインスタンスを再生させて、オーディオ・デバイス再生音の第3ないし第Nのインスタンスを生成させることに関わってもよい。たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720c~2720nに、第3ないし第Nの較正信号を生成させ、第3ないし第Nの較正信号を第3ないし第Nのコンテンツ・ストリームに挿入させて、統率されるオーディオ・デバイス2720c~2720nのための第3ないし第Nの修正オーディオ再生信号を生成させるように構成されうる。統率デバイス2701は、統率されるオーディオ・デバイス2720c~2720nに、第3ないし第Nの修正オーディオ再生信号の対応するインスタンスを再生させて、オーディオ・デバイス再生音の第3ないし第Nのインスタンスを生成するように構成されうる。
【0367】
いくつかの例では、方法2800は、制御システムによって、第1ないし第Nのオーディオ・デバイスのそれぞれの少なくとも1つのマイクロフォンに、オーディオ・デバイス再生音の第1ないし第Nのインスタンスを検出させ、オーディオ・デバイス再生音の第1ないし第Nのインスタンスに対応するマイクロフォン信号を生成させることに関わってもよい。いくつかの事例では、オーディオ・デバイス再生音の第1ないし第Nのインスタンスは、第1のオーディオ・デバイス再生音、第2のオーディオ・デバイス再生音、およびオーディオ・デバイス再生音の第3ないし第Nのインスタンスを含んでいてもよい。いくつかの例によれば、方法2800は、制御システムによって、第1ないし第Nの較正信号をマイクロフォン信号から抽出させることに関わってもよい。音響シーン・メトリックは、第1ないし第Nの較正信号に少なくとも部分的に基づいて推定されうる。
【0368】
たとえば、統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちのいくつかまたはすべての少なくとも1つのマイクロフォンに、オーディオ・デバイス再生音の第1ないし第Nのインスタンスを検出させ、オーディオ・デバイス再生音の第1ないし第Nのインスタンスに対応するマイクロフォン信号を生成させるように構成されうる。統率デバイス2701は、統率されるオーディオ・デバイス2720a~2720nのうちのいくつかまたはすべてに、マイクロフォン信号から第1ないし第Nの較正信号を抽出させるように構成されうる。統率されるオーディオ・デバイス2720a~2720nのうちのいくつかまたはすべては、第1ないし第Nの較正信号に少なくとも部分的に基づいて、音響シーン・メトリックを推定するように構成されうる。代替的または追加的に、統率デバイス2701は、第1ないし第Nの較正信号に少なくとも部分的に基づいて、音響シーン・メトリックを推定するように構成されうる。
【0369】
いくつかの実装によれば、方法2800は、オーディオ環境内の複数のオーディオ・デバイスのための一つまたは複数の較正信号パラメータを決定することに関わってもよい。前記一つまたは複数の較正信号パラメータは、較正信号の生成に使用可能である。方法2800は、オーディオ環境の一つまたは複数の統率されるオーディオ・デバイスに前記一つまたは複数の較正信号パラメータを提供することに関わってもよい。たとえば、統率デバイス2701(いくつかの例では、統率デバイス2701の統率モジュール2702)は、統率されるオーディオ・デバイス2720a~2720nのうちの一つまたは複数のための一つまたは複数の較正信号パラメータを決定し、該一つまたは複数の較正信号パラメータを統率されるオーディオ・デバイスに提供するように構成されうる。
【0370】
いくつかの例では、前記一つまたは複数の較正信号パラメータを決定することは、複数のオーディオ・デバイスの各オーディオ・デバイスが修正オーディオ再生信号を再生するための時間スロットをスケジュールすることに関わってもよい。いくつかの事例では、第1のオーディオ・デバイスのための第1の時間スロットは、第2のオーディオ・デバイスのための第2の時間スロットとは異なりうる。
【0371】
いくつかの実装によれば、前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、複数のオーディオ・デバイスの各オーディオ・デバイスについての周波数帯域を決定することに関わってもよい。いくつかの例では、第1のオーディオ・デバイスのための第1の周波数帯域は、第2のオーディオ・デバイスのための第2の周波数帯域とは異なりうる。
【0372】
いくつかの例では、前記一つまたは複数の較正信号パラメータを決定することは、複数のオーディオ・デバイスの各オーディオ・デバイスのためのDSSS拡散符号を決定することに関わってもよい。いくつかの例によれば、第1のオーディオ・デバイスのための第1の拡散符号は、第2のオーディオ・デバイスのための第2の拡散符号とは異なりうる。いくつかの実装によれば、方法2800は、対応するオーディオ・デバイスの可聴性に少なくとも部分的に基づく少なくとも1つの拡散符号長を決定することに関わってもよい。
【0373】
いくつかの実装では、前記一つまたは複数の較正信号パラメータを決定することは、オーディオ環境における複数のオーディオ・デバイスのそれぞれの相互可聴性に少なくとも部分的に基づく音響モデルを適用することに関わってもよい。
【0374】
いくつかの例では、方法2800は、オーディオ環境内の複数のオーディオ・デバイスのそれぞれに、修正オーディオ再生信号を同時に再生させることに関わってもよい。
【0375】
いくつかの実装によれば、第1のオーディオ再生信号の少なくとも一部、第2のオーディオ再生信号の少なくとも一部、または第1のオーディオ再生信号および第2のオーディオ再生信号のそれぞれの少なくとも一部は、無音に対応してもよい。
【0376】
図29は、開示されるオーディオ・デバイス統率方法の別の例を概説するフロー図である。方法2900のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。方法2900は、図27Bを参照して上述された統率デバイス2701などの統率デバイスによって実行されうる。方法2900は、図27Aを参照して上述した統率されるオーディオ・デバイス2720a~2720nの一部または全部などの統率されるオーディオ・デバイスを制御することに関わる。
【0377】
下記の表は、図29および以下の説明で使用される記法を定義する。
【表4】
【0378】
この例では、図29は、時間ブロックlでのスペクトル帯域kの割り当てのための方法のブロックを示す。この例によれば、図29に示されるブロックは、各スペクトル帯域および各時間ブロックについて繰り返される。時間ブロックの長さは、特定の実装に従って変わりうるが、たとえば、数秒のオーダー(たとえば、1秒から5秒の範囲)、または数百ミリ秒のオーダーでありうる。単一の周波数帯域によって占有されるスペクトルはまた、特定の実装に従って変わりうる。いくつかの実装では、単一帯域によって占有されるスペクトルは、メル帯域または臨界帯域などの知覚的区間に基づく。
【0379】
本明細書で使用されるところでは、「時間‐周波数タイル」という用語は、単一の周波数帯域中の単一の時間ブロックを指す。任意の所与の時間において、時間‐周波数タイルは、プログラム・コンテンツ(たとえば、映画オーディオ・コンテンツ、音楽など)と一つまたは複数の較正信号との組み合わせによって占有されうる。背景ノイズのみをサンプリングする必要がある場合、プログラム・コンテンツも較正信号も存在するべきではない。対応する時間‐周波数タイルは、本明細書では「ギャップ」と呼ばれる。
【0380】
図29の左列(ブロック2902~2908)は、ある時間‐周波数タイルにおいてコンテンツも較正信号も存在しないとき(言い換えれば、その時間‐周波数タイルがギャップに対応するとき)のオーディオ環境内の背景ノイズの推定に関わる。これは、図21以降を参照して上述したような統率されたギャップ方法の簡略化された例であり、場合によっては同じ帯域を占有しうる較正シーケンスを扱うための追加的なロジックがある。
【0381】
この例では、時間ブロックlでのスペクトル帯域kについてのプロセスはブロック2901で開始される。ブロック2902は、前のブロック(ブロックl-1)がスペクトル帯域kにおいてギャップを有していたかどうかを判定することに関わる。そうである場合、この時間‐周波数タイルは、ブロック2903において推定されることができる背景ノイズのみに対応する。
【0382】
この例では、ノイズは擬似定常であると想定され、そのため、時間TNによって定義される規則的な間隔でノイズがサンプリングされる必要がある。よって、ブロック2904は、最後のノイズ測定以来TNが経過したかどうかを判定することに関わる。
【0383】
ブロック2904において、最後の測定以来TNが経過していると判定される場合、プロセスは、現在の時間‐周波数タイルにおける較正信号が完全であるかどうかを判定することに関わるブロック2905に続く。ブロック2905が望ましいのは、いくつかの実装では、較正信号が2つ以上の時間ブロックを占有することがあり、ギャップが挿入される前に現在の時間‐周波数タイルにおける較正信号が完了するまで待つことが必要である(または少なくとも望ましい)からである。この例では、ブロック2905において較正信号が不完全であると判定された場合、方法はブロック2906に進み、これは、現在の時間‐周波数タイルに、将来のブロックにおけるノイズ推定値を必要とするものとしてフラグ付けすることに関わる。
【0384】
この例では、ブロック2905において較正信号が完了していると判定された場合、方法はブロック2907に進み、このブロックは、この例でKGと表される最小スペクトル・ギャップ区間内にミュートされた(ギャップ化された)周波数帯域があるかどうかを判定することに関わる。再生されるオーディオ・データにおける知覚可能なアーチファクトを生成しないよう、区間KG内の周波数帯域をミュートしない(ギャップを挿入しない)ように注意すべきである。ブロック2907において、最小スペクトル・ギャップ間隔内にギャップ化された周波数帯域があると判定された場合、プロセスはブロック2906に進み、その帯域は、将来のノイズ推定を必要とするものとしてフラグ付けされる。しかしながら、ブロック2907において、最小スペクトル・ギャップ間隔内にギャップ化された周波数帯域が存在しないと判定された場合には、プロセスはブロック2908に進み、これは、すべての統率されるオーディオ・デバイスによってその帯域にギャップを挿入させることに関わる。この例では、ブロック2908はまた、現在の時間‐周波数タイル中のノイズをサンプリングすることに関わる。
【0385】
図29の右列(ブロック2909~2917)は、前の時間ブロックにおいて実行されていた可能性がある任意の較正信号(本明細書では較正シーケンスとも呼ばれる)の処置に関わる。いくつかの例では、各時間‐周波数タイルは、複数の直交較正信号(本明細書で記載されるDSSSシーケンスなど)、たとえば、オーディオ・コンテンツに挿入され/オーディオ・コンテンツと混合され、複数の統率されるオーディオ・デバイスのそれぞれによって再生された1組の較正信号を含みうる。したがって、この例では、ブロック2909は、すべての較正シーケンスがサービスされたかどうかを判定するために、現在の時間‐周波数タイル中に存在するすべての較正シーケンスを通して逐次反復することに関わる。そうでない場合、次の較正シーケンスがブロック2910から開始してサービスされる。
【0386】
ブロック2911は、較正シーケンスが完了したかどうかを判定することに関わる。いくつかの例では、較正シーケンスは複数の時間ブロックにわたることがあり、よって、現在の時間ブロックの前に開始した較正シーケンスは、現在の時間ブロックの時間において必ずしも完了していない。ブロック2911において較正シーケンスが完了していると判定された場合、プロセスはブロック2912に続く。
【0387】
この例では、ブロック2912は、現在評価されている較正シーケンスが正常に復調されたかどうかを判定することに関わる。ブロック2912は、たとえば、現在評価されている較正シーケンスを復調しようと試みている一つまたは複数の統率されるオーディオ・デバイスから取得された情報に基づきうる。復調の失敗は、以下の一つまたは複数に起因して発生しうる:
1. 高レベルの背景ノイズ;
2. 高レベルのプログラム・コンテンツ;
3. 近くのデバイスからの高レベルの較正信号(特に、本明細書の他の箇所で論じられる遠近問題);
4. デバイス非同期性。
【0388】
ブロック2912において、較正シーケンスの成功裏に復調されたと判定された場合、プロセスはブロック2913に進む。この例によれば、ブロック2913は、現在の周波数帯域におけるDOA、TOA、および/または可聴性など、一つまたは複数の音響シーン・メトリックを推定することに関わる。ブロック2913は、一つまたは複数の統率されたデバイスによって、および/または統率デバイス〔統率するデバイス〕によって実行されうる。
【0389】
この例では、ブロック2912において較正シーケンスが成功裏に復調されなかったと判定された場合、プロセスは直接ブロック2914に続く。この例によれば、ブロック2914は、復調された較正信号を監視し、必要に応じて較正信号パラメータを更新して、すべての統率されるデバイスが互いに十分によく聞こえる(十分に高い相互可聴性を有する)ことを確実にすることに関わる。較正信号パラメータの堅牢性は、第kの帯域における第iのデバイスについてのパラメータζi,kの組み合わせによって改善されうる。較正信号がDSSS信号である一例では、堅牢性は、たとえば次のうちの一つまたは複数を行うことによって、パラメータを修正することを含みうる:
1. 較正信号の振幅を増加させる;
2. 較正信号のチッピング・レートを低減する;
3. コヒーレント積分時間を増加させる;
4. インコヒーレント積分時間を増加させる;および/または
5. 同じ時間‐周波数タイルにおける同時並行する信号の数を低減する。
【0390】
較正パラメータ2および3は、増加した数の時間ブロックを占有する較正シーケンスにつながりうる。
【0391】
この例によれば、ブロック2915は、較正パラメータが一つまたは複数の限界に達したかどうかを判定することに関わる。たとえば、ブロック2915は、較正信号の振幅が、その限界を超えると較正信号が再生されたオーディオ・コンテンツより大きく聞こえるようになるような限界に達したかどうかを判定することに関わってもよい。いくつかの例では、ブロック2915は、コヒーレント積分時間またはインコヒーレント積分時間が所定の限界に達したことを判定することに関わってもよい。
【0392】
ブロック2915において、較正パラメータが一つまたは複数の限界に達していないと判定された場合、プロセスは直接ブロック2917に続く。しかしながら、較正パラメータがブロック2915において一つまたは複数に達したとブロック2915において判定された場合、プロセスはブロック2916に続く。いくつかの代替例では、ブロック2916は、統率されるオーディオ・デバイスのいずれによってもコンテンツが再生されず、1つの統率されるオーディオ・デバイスのみが音響較正信号を再生する統率されたギャップを(たとえば、次の時間ブロックのために)スケジュールすることに関わってもよい。いくつかの代替例では、ブロック2916は、ただ1つの統率されるオーディオ・デバイスによってコンテンツおよび音響較正信号を再生することに関わってもよい。他の例では、ブロック2916は、すべての統率されるオーディオ・デバイスによってコンテンツを再生することと、1つの統率されるオーディオ・デバイスのみによって音響較正信号を再生することとに関わってもよい。
【0393】
この例では、ブロック2917は、現在の帯域における次のブロックのために較正シーケンスを割り当てることに関わる。ブロック2917は、いくつかの事例では、現在の周波数帯域において次の時間ブロック中に同時に再生される音響較正信号の数を増加または減少させることに関わってもよい。ブロック2917は、たとえば、現在の周波数帯域において次の時間ブロックの間に同時に再生される音響較正信号の数を増加または減少させるかどうかを決定するプロセスの一部として、現在の周波数帯域において最後の音響較正信号が成功裏に復調された時を決定することに関わってもよい。
【0394】
図30は、較正信号、ノイズ推定のためのギャップ、および単一のオーディオ・デバイスを聞くためのギャップの時間‐周波数割り当ての例を示す。図30は、連続的なプロセスの時間におけるスナップショットを表すことを意図しており、時間ブロック1の前に各周波数帯域に種々のチャネル条件が存在する。他の開示された例と同様に、図30において、時間は横軸に沿って表される一連のブロックとして表され、周波数帯域は縦軸に沿って表される。「デバイス1」、「デバイス2」などを示す図30の長方形は、特定の周波数帯域における、一つまたは複数の時間ブロックの間の、統率されるオーディオ・デバイス1、統率されるオーディオ・デバイス2などのための較正信号に対応する。
【0395】
帯域1(周波数帯域1)における較正信号は、本質的に、1つの時間ブロックについての、繰り返されるワンショット測定を表す。統率されたギャップがパンチされている時間ブロック1を除く各時間ブロックの間、帯域1には、ただ1つの統率されるオーディオ・デバイスのための較正信号が存在する。
【0396】
帯域2では、各時間ブロックの間に、2つの統率されるオーディオ・デバイスのための較正信号が存在する。この例では、較正信号は直交符号を割り当てられている。この構成は、帯域1に示される配置のために必要とされる時間の半分で、すべての統率されるオーディオ・デバイスが、自分の音響較正信号を再生することを許容する。デバイス1および2のための較正シーケンスは、ブロック1の終了までに完了し、スケジュールされたギャップがブロック2において再生されることを許容し、それは、デバイス3および4による音響較正信号の再生を時間ブロック3まで遅延させる。
【0397】
帯域3では、可能性としては時間ブロック1の前の良好な条件に続いて、第1のブロックにおいて、4つの統率されるオーディオ・デバイスが自分の音響較正信号を再生しようと試みる。しかしながら、これは、貧弱な復調結果を引き起こし、よって、同時並行性は、時間ブロック2において(たとえば、図29のブロック2917において)2つのデバイスに低減される。しかしながら、依然として貧弱な復調結果が返される。時間ブロック3における強制的なギャップの後、同時並行性を単一デバイスまでさらに低減する代わりに、堅牢性を改善する試みにおいて、時間ブロック4から開始して、より長い符号がデバイス1および2に割り当てられる。
【0398】
帯域4は、可能性としては時間ブロック1の前の貧弱な条件に続いて、デバイス1のみが時間ブロック1~4の間に(たとえば、4ブロックの符号シーケンスを介して)その音響較正信号を再生することから始まる。符号シーケンスは、ギャップがスケジュールされているブロック4において未完了であり、強制ギャップの実施を1時間ブロックだけ遅延させる。
【0399】
帯域5について描かれるシナリオは、帯域2のシナリオとほぼ同じように進行し、2つの統率されるオーディオ・デバイスが、単一の時間ブロックの間に自分の音響較正信号を同時に再生する。この例では、時間ブロック5のためにスケジュールされたギャップは、帯域4における遅延されたギャップに起因して、時間ブロック6に遅延される。なぜなら、この例では、最小スペクトル間隔KGのため、2つの近傍のスペクトルブロックが同時の強制ギャップを有することが許されないからである。
【0400】
図31は、この例では生活空間であるオーディオ環境を示す。本明細書で提供される他の図と同様に、図31に示される要素のタイプ、数、および配置は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプ、数、および/または配置の要素を含みうる。他の例では、オーディオ環境は、オフィス環境、車両環境、公園または他の屋外環境など、別のタイプの環境でありうる。この例では、図31の要素は、以下を含む:
3101:「ユーザー」または「聴取者」と呼ばれることもある、人;
3102:一つまたは複数のラウドスピーカーおよび一つまたは複数のマイクロフォンを含むスマート・スピーカー;
3103:一つまたは複数のラウドスピーカーおよび一つまたは複数のマイクロフォンを含むスマート・スピーカー;
3104:一つまたは複数のラウドスピーカーおよび一つまたは複数のマイクロフォンを含むスマート・スピーカー;
3105:一つまたは複数のラウドスピーカーおよび一つまたは複数のマイクロフォンを含むスマート・スピーカー;
3106:人3101およびスマート・スピーカー3102~3106が位置するオーディオ環境の同じ部屋に位置し、既知の位置を有する、ノイズ源であってもよい音源。いくつかの例では、音源3106は、スマート・スピーカー3102~3106を含むオーディオ・システムの一部ではない、ラジオなどのレガシー・デバイスでありうる。いくつかの事例において、音源3106の音量は、人3101によって連続的に調整可能でなくてもよく、統率デバイスによって調整可能でなくてもよい。たとえば、音源3106のボリュームは、手動プロセスによってのみ、たとえば、オン/オフ・スイッチを介して、またはパワーまたは速度レベル(たとえば、ファンまたはエアコンの電力または速度レベル)を選択することによって、調整可能であってもよい;
3107:人3101およびスマート・スピーカー3102~3106が位置するオーディオ環境の同じ部屋に位置しない、ノイズ源であってもよい音源。いくつかの例では、音源3107は、既知の位置特定を有しなくてもよい。いくつかの事例では、音源3107は拡散性であってもよい。
【0401】
以下の説明は、いくつかの基本的な前提に関わる。たとえば、オーディオ・デバイス(図31のスマート・デバイス102~105など)の位置の推定値および聴取者位置(人101の位置など)の推定値が利用可能であると想定される。さらに、オーディオ・デバイス間の相互可聴性の指標が既知であると想定される。相互可聴性のこの指標は、いくつかの例では、複数の周波数帯域における受信レベルの形であってもよい。いくつかの例を以下で述べる。他の例では、相互可聴性の指標は、1つの周波数帯域のみを含む指標など、広帯域指標であってもよい。
【0402】
読者は、諸消費者デバイスにおけるマイクロフォンが一様な応答を提供するかどうかに疑問を抱くことがありうる。整合しないマイクロフォン利得があれば曖昧さの層を追加するからである。しかしながら、スマート・スピーカーの大部分は、超小型電気機械システム(MEMS)マイクロフォンを含み、これは格別によく整合しており(最悪±3dBだが典型的には±1dB以内)、音響過負荷点(acoustic overload point)の有限セットを有する。このため、デジタルdBFS(フルスケールに対するデシベル)からdBSPL(音圧レベルのデシベル)への絶対マッピングが、モデル番号および/またはデバイス記述子によって決定できる。よって、MEMSマイクロフォンは、相互可聴性測定のための良好に較正された音響基準を提供すると想定できる。
【0403】
図32図33、および図34は、3つのタイプの開示される実装を表すブロック図である。図32は、オーディオ・デバイス間の相互可聴性、それらの物理的位置、およびユーザーの位置に基づいて、オーディオ環境内のすべてのオーディオ・デバイス(たとえば、スマート・スピーカー3102~3105の位置)の、ユーザー位置(たとえば、図31の人物3101の位置)における可聴性(この例では、dBSPLでの可聴性)を推定することに関わる実装を表す。そのような実装は、ユーザー位置における基準マイクロフォンの使用を必要としない。いくつかのそのような例では、可聴性は、各オーディオ・デバイスとユーザーとの間の伝達関数をもたらすために、ラウドスピーカー駆動信号のデジタル・レベル(この例では、dBFS単位)によって正規化されうる。いくつかの例によれば、図32によって表される実装は、本質的にはスパース補間問題(sparse interpolation problem)である:既知の位置におけるオーディオ・デバイスのセット間で測定されたバンディングされた(banded)レベルが与えられて、聴取者位置において受信されるレベルを推定するためにモデルを適用する。
【0404】
図32に示される例では、完全行列〔フルマトリクス〕空間的可聴性補間器が、デバイス幾何情報(オーディオ・デバイス位置情報)、相互可聴性行列(その例が後述される)、およびユーザー位置情報を受信し、補間された伝達関数を出力するように示されている。この例では、補間された伝達関数は、dBFSからdBSPLであり、これは、スマート・デバイスなどのオーディオ・デバイスを平準化および等化するのに有用でありうる。いくつかの例では、入力専用デバイスまたは出力専用デバイスに対応する可聴性行列において、いくつかのヌルの行または列があってもよい。図32の例に対応する実装の詳細は、以下の「完全行列相互可聴性実装」において後述される。
【0405】
図33は、オーディオ・デバイスにおける制御されていない点源の可聴性、オーディオ・デバイスの物理的位置、制御されていない点源の位置、およびユーザーの位置に基づいて、制御されていない点源(図31の音源3106など)のユーザー位置における可聴性(この例では、dBSPL単位)を推定することに関わる実装を表す。いくつかの例では、制御されていない点源は、オーディオ・デバイスおよび人と同じ部屋に位置するノイズ源であってもよい。図33に示される例では、点源空間的可聴性補間器は、デバイス幾何情報(オーディオ・デバイス位置情報)、可聴性行列(その例は後述)、および音源位置情報を受信し、補間された可聴性情報を出力するように示されている。
【0406】
図34は、オーディオ・デバイスのそれぞれにおける音源の可聴性、オーディオ・デバイスの物理的位置、およびユーザーの位置に基づいて、拡散性のおよび/または位置特定されておらず(unlocated)制御されていない源(図31の音源3107など)の、ユーザー位置における可聴性(この例では、dBSPL単位)を推定することに関わる実装を表す。この実装では、音源の位置は未知であると想定される。図34に示される例では、デバイス幾何情報(オーディオ・デバイス位置情報)および可聴性行列(その例は後述)を受信し、補間された可聴性情報を出力するナイーブな空間的可聴性補間器が示される。いくつかの例では、図3Bおよび図3Cにおいて参照された補間された可聴性情報は、音源から(たとえば、ノイズ源から)の受信されたレベルを推定するのに有用でありうる、dBSPL単位での補間された可聴性を示しうる。ノイズ源の受信レベルを補間することによって、ノイズ補償(たとえば、ノイズが存在する帯域ではコンテンツの利得を増加させるプロセス)は、単一のマイクロフォンによって検出されたノイズを参照して達成できるよりも正確に適用されうる。
【0407】
完全行列相互可聴性実装
表5は、以下の議論における式の項が何を表すかを示す。
【表5】
【0408】
Lはオーディオ・デバイスの総数であり、それぞれがMi個のマイクロフォンを含むものとし、Kはそれらのオーディオ・デバイスによって報告されるスペクトル帯域の総数であるとする。この例によれば、線形単位ですべての帯域におけるすべてのデバイス間の測定された伝達関数を含む相互可聴性行列H∈RK×L×Lが決定される。
【0409】
Hを決定するためのいくつかの例が存在する。しかしながら、開示された実装はHを決定するために使用される方法は関知しない。
【0410】
Hを決定することのいくつかの例は、掃引正弦波、ノイズ(たとえば、白色またはピンクノイズ)、音響DSSS信号、またはキュレーションされた(curated)プログラム素材などの制御された音響較正信号を用いて、オーディオ・デバイスのそれぞれによって順に再生される「ワンショット」較正の複数の逐次反復に関わってもよい。いくつかのそのような例ではHの決定は、他のスマート・オーディオ・デバイスが音があるかどうか「傾聴」している間に、単一のスマート・オーディオ・デバイスに音を放出させる逐次的なプロセスに関わってもよい。
【0411】
たとえば、図31を参照すると、1つのそのようなプロセスは:(a)オーディオ・デバイス3102に音を放出させ、オーディオ・デバイス3103~3105のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することと;次いで、(b)オーディオ・デバイス3103に音を放出させ、オーディオ・デバイス3102、3104、および3105のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することと;次いで、(c)オーディオ・デバイス3104に音を放出させ、オーディオ・デバイス3102、3103、および3105のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することと;次いで、(d)オーディオ・デバイス3105に音を放出させ、オーディオ・デバイス3102、3103、および3104のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することとに関わってもよい。これらの放出される音は、特定の実装に依存して、同じであってもなくてもよい。
【0412】
本明細書で詳細に説明される音響較正信号に関わるいくつかのパーベイシブなおよび/または継続的な方法は、オーディオ環境における複数のオーディオ・デバイスによる音響較正信号の同時再生に関わる。いくつかのそのような例では、音響較正信号は、再生されたオーディオ・コンテンツに混合される。前記いくつかの実装によれば、音響較正信号は可聴以下である。いくつかのそのような例はまた、スペクトル・ホール・パンチング(本明細書では「ギャップ」の形成とも呼ばれる)を含む。
【0413】
いくつかの実装によれば、複数のマイクロフォンを含むオーディオ・デバイスは、複数の可聴性行列(たとえば、マイクロフォンごとに1つ)を推定してもよく、それらが平均されて、各デバイスについての単一の可聴性行列を与える。いくつかの例では、誤動作しているマイクロフォンに起因しうる異常データが検出され、除去されてもよい。
【0414】
上述したように、2Dまたは3D座標におけるオーディオ・デバイスの空間位置xiも利用可能であると想定される。到着時間(TOA)、到来方向(DOA)、およびDOAとTOAとの組み合わせに基づいてデバイス位置を決定するためのいくつかの例が以下で説明される。他の例では、オーディオ・デバイスの空間位置xiは、たとえば巻き尺を用いた手動測定によって決定されてもよい。
【0415】
さらに、ユーザーの位置xuも既知であると想定され、場合によっては、ユーザーの位置および配向の両方が既知であってもよい。聴取者位置および聴取者配向を決定するためのいくつかの方法が、以下で詳細に説明される。いくつかの例によれば、デバイス位置X=[x1 x2 …xL]Tは、xuが座標系の原点にあるように並進されていてもよい。
【0416】
いくつかの実装によれば、目的は、測定されたデータに適切な補間を適用することによって、補間された相互可聴性行列Bを推定することである。一例では、次の形の減衰則モデルが選ばれてもよい:
【数5】
【0417】
この例では、xiは送信デバイスの位置を表し、xjは受信デバイスの位置を表し、gi (k)は、帯域kにおける未知の線形出力利得を表し、αi (k)は距離減衰定数を表す。最小二乗解
【数6】
は、第iの送信デバイスについての推定されたパラメータ
【数7】
を与える。したがって、ユーザー位置における線形単位での推定される可聴性は、次のように表すことができる:
【数8】
【0418】
いくつかの実施形態では
【数9】
はグローバル部屋パラメータ
【数10】
に制約されてもよく、いくつかの例では、値の特定の範囲内にあるようにさらに制約されてもよい。
【0419】
図35は、ヒートマップの例を示す。この例では、ヒートマップ3500は、音源(o)から図35に示されるx次元およびy次元を有する部屋の中の任意の点までの、1つの周波数帯域についての推定された伝達関数を表す。推定された伝達関数は、4つの受信機(x)による音源の測定値の補間に基づく。補間されたレベルは、部屋の中の任意のユーザー位置xuについてのヒートマップ3500によって示される。
【0420】
別の例では、距離減衰モデルは、補間が次の形をとるように、臨界距離パラメータを含んでいてもよい。
【数11】
【0421】
この例ではdc iは、いくつかの例では、グローバル部屋パラメータdcとして解かれてもよく、および/または値の固定範囲内にあるように制約されてもよい臨界距離を表す。
【0422】
図36は、別の実装の例を示すブロック図である。本明細書で提供される他の図と同様に、図36に示される要素のタイプ、数、および配置は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプ、数、および/または配置の要素を含んでいてもよい。この例では、完全行列空間的可聴性補間器3605、遅延補償ブロック3610、等化および利得補償ブロック3615、ならびに柔軟レンダラー・ブロック3620が、図1Bを参照して上記で説明した装置150の制御システム160のインスタンスによって実装される。いくつかの実装では、装置150は、オーディオ環境のための統率デバイスでありうる。いくつかの例によれば、装置150は、オーディオ環境のオーディオ・デバイスのうちの1つでありうる。いくつかの事例では、完全行列空間的可聴性補間器3605、遅延補償ブロック3610、等化および利得補償ブロック3615、ならびに柔軟レンダラー・ブロック3620は、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)を介して実装されうる。
【0423】
いくつかの例では、完全行列空間的可聴性補間器3605は、上記で説明したように、聴取者の位置における推定される可聴性を計算するように構成されうる。この例によれば、等化および利得補償ブロック3615は、完全行列空間的可聴性補間器3605から受信される補間された可聴性の周波数帯域Bi (k) 3607に基づいて、等化および補償利得行列3617(表5においてG∈RK×Lとして示される)を決定するように構成される。等化および補償利得行列3617は、いくつかの事例では、標準化された技法を使用して決定されうる。たとえば、ユーザー位置における推定されたレベルは、諸周波数帯域にわたって平滑化されてもよく、等化(EQ)利得は、結果がターゲット曲線に一致するように計算されうる。いくつかの実装では、ターゲット曲線はスペクトル的に平坦であってもよい。他の例では、ターゲット曲線は、過補償を回避するために、高周波数に向かってゆるやかにロールオフしてもよい。いくつかの事例では、次いで、EQ周波数帯域は、特定のパラメトリック等化器の能力に対応する周波数帯域の異なるセットにマッピングされうる。いくつかの例では、周波数帯域の異なるセットは、本明細書の他の箇所で言及される77個のCQMF帯域でありうる。他の例では、周波数帯域の異なるセットは、異なる数の周波数帯域、たとえば、20個の臨界帯域、またはわずか2つの周波数帯域(高および低)を含むのでもよい。柔軟レンダラーのいくつかの実装は、20個の臨界帯域を使用しうる。
【0424】
この例では、補償利得およびEQを適用するプロセスは、補償利得が粗い全体的なレベル整合を提供し、EQが複数の帯域においてより細かい制御を提供するように分割される。いくつかの代替的な実装によれば、補償利得およびEQは、単一のプロセスとして実装されうる。
【0425】
この例では、柔軟レンダラー・ブロック3620は、プログラム・コンテンツ3630の対応する空間情報(たとえば、位置メタデータ)に従ってプログラム・コンテンツ3630のオーディオ・データをレンダリングするように構成される。柔軟レンダラー・ブロック3620は、特定の実装に依存して、CMAP、FV、CMAPとFVとの組み合わせ、または別のタイプの柔軟レンダリングを実装するように構成されうる。この例によれば、柔軟レンダラー・ブロック3620は、各ラウドスピーカーが同じ等化を用いて同じレベルでユーザーによって聞かれることを保証するために、等化および補償利得行列3617を使用するように構成される。柔軟レンダラー・ブロック3620によって出力されるラウドスピーカー信号3625は、オーディオ・システムのオーディオ・デバイスに与えられてもよい。
【0426】
この実装によれば、遅延補償ブロック3610は、オーディオ・デバイス幾何情報およびユーザー位置特定情報に従って、(いくつかの例では、表1においてτ∈RL×1として示される遅延補償ベクトルであってもよく、またはそれを含んでいてもよい)遅延補償情報3612を決定するように構成される。遅延補償情報3612は、ユーザー位置と各ラウドスピーカーの位置との間の距離を音が移動するのに必要な時間に基づく。この例によれば、柔軟レンダラー・ブロック3620は、遅延補償情報3612を適用して、すべてのラウドスピーカーから再生される対応する音の、ユーザーへの到着時間が一定であることを保証するように構成される。
【0427】
図37は、本明細書に開示されるものなどの装置またはシステムによって実行されうる別の方法の一例を概説するフロー図である。方法3700のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。方法3700のブロックは、図1Bに示され、上記で説明された制御システム160などの制御システム、または他の開示された制御システム例のうちの1つであってもよい(またはそれを含んでいてもよい)一つまたは複数のデバイスによって実行されうる。いくつかの例によれば、方法3700のブロックは、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実装されうる。
【0428】
この実装では、ブロック3705は、制御システムによって、オーディオ環境内の複数のオーディオ・デバイスにオーディオ・データを再生させることに関わる。この例では、複数のオーディオ・デバイスの各オーディオ・デバイスは、少なくとも1つのラウドスピーカーと少なくとも1つのマイクロフォンとを含む。しかしながら、いくつかのそのような例では、オーディオ環境は、少なくとも1つのラウドスピーカーを有するがマイクロフォンを有さない少なくとも1つの出力専用オーディオ・デバイスを含みうる。代替的または追加的に、いくつかのそのような例では、オーディオ環境は、少なくとも1つのマイクロフォンを有するがラウドスピーカーを有しない一つまたは複数の入力専用オーディオ・デバイスを含みうる。そのようなコンテキストにおける方法3700のいくつかの例を以下で説明する。
【0429】
この例によれば、ブロック3710は、制御システムによって、複数のオーディオ・デバイスの各オーディオ・デバイスについてのオーディオ・デバイス位置を含むオーディオ・デバイス位置データを決定することに関わる。いくつかの例では、ブロック3710は、メモリ(たとえば、図1Bのメモリシステム165)に記憶されている、以前に取得されたオーディオ・デバイス位置データを参照することによって、オーディオ・デバイス位置データを決定することに関わってもよい。いくつかの事例では、ブロック3710は、オーディオ・デバイス自動位置特定プロセスを介してオーディオ・デバイス位置データを決定することに関わってもよい。オーディオ・デバイス自動位置特定プロセスは、本明細書の他の箇所で参照されるDOAベースおよび/またはTOAベースのオーディオ・デバイス自動位置特定方法など、一つまたは複数のオーディオ・デバイス自動位置特定方法を実行することに関わってもよい。
【0430】
この実装によれば、ブロック3715は、制御システムによって、複数のオーディオ・デバイスの各オーディオ・デバイスからマイクロフォン・データを取得することに関わる。この例では、マイクロフォン・データは、オーディオ環境内の他のオーディオ・デバイスのラウドスピーカーによって再生される音に少なくとも部分的に対応する。
【0431】
いくつかの例では、複数のオーディオ・デバイスにオーディオ・データを再生させることは、複数のオーディオ・デバイスの各オーディオ・デバイスに、オーディオ環境内のすべての他のオーディオ・デバイスがオーディオを再生していないときにオーディオを再生させることに関わってもよい。たとえば、図31を参照すると、1つのそのようなプロセスは:(a)オーディオ・デバイス3102に音を放出させ、オーディオ・デバイス3103~3105のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することと;次いで、(b)オーディオ・デバイス3103に音を放出させ、オーディオ・デバイス3102、3104、および3105のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することと;次いで、(c)オーディオ・デバイス3104に音を放出させ、オーディオ・デバイス3102、3103、および3105のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することと;次いで、(d)オーディオ・デバイス3105に音を放出させ、オーディオ・デバイス3102、3103、および3104のマイクロフォン・アレイから、放出された音に対応するマイクロフォン・データを受信することとに関わってもよい。これらの放出される音は、特定の実装に依存して、同じであってもなくてもよい。
【0432】
ブロック3715の他の例は、コンテンツがオーディオ・デバイスのそれぞれによって再生されている間にマイクロフォン・データを取得することに関わってもよい。いくつかのそのような例は、スペクトル・ホール・パンチング(本明細書では「ギャップ」の形成とも呼ばれる)に関わってもよい。よって、いくつかのそのような例は、制御システムによって、複数のオーディオ・デバイスの各オーディオ・デバイスに、各オーディオ・デバイスの一つまたは複数のラウドスピーカーによって再生されているオーディオ・データに一つまたは複数の周波数範囲ギャップを挿入させることに関わってもよい。
【0433】
この例では、ブロック3720は、制御システムによって、複数のオーディオ・デバイスのうちの各オーディオ・デバイスについて、複数のオーディオ・デバイスのうちの他の各オーディオ・デバイスに対する相互可聴性を決定することに関わる。いくつかの実装では、ブロック3720は、たとえば上記で説明したように、相互可聴性行列を決定することに関わってもよい。いくつかの例では、相互可聴性行列を決定することは、フルスケールに対するデシベルを音圧レベルのデシベルにマッピングするプロセスに関わってもよい。いくつかの実装では、相互可聴性行列は、複数のオーディオ・デバイスの各オーディオ・デバイス間の測定された伝達関数を含みうる。いくつかの例では、相互可聴性行列は、複数の周波数帯域の各周波数帯域についての値を含みうる。
【0434】
この実装によれば、ブロック3725は、制御システムによって、オーディオ環境内の人のユーザー位置を決定することに関わる。いくつかの例では、ユーザー位置を決定することは、人の一つまたは複数の発声に対応する到来方向データまたは到着時間データのうちの少なくとも1つに少なくとも部分的に基づきうる。オーディオ環境における人のユーザー位置を決定するいくつかの詳細な例が以下に説明される。
【0435】
この例では、ブロック3730は、制御システムによって、ユーザー位置における、複数のオーディオ・デバイスのうちの各オーディオ・デバイスのユーザー位置可聴性を決定することに関わる。この実装によれば、ブロック3735は、ユーザー位置可聴性に少なくとも部分的に基づいてオーディオ・デバイス再生の一つまたは複数の側面を制御することに関わる。いくつかの例では、オーディオ・デバイス再生の前記一つまたは複数の側面は、たとえば、図36を参照して上記で説明したように、平準化および/または等化を含みうる。
【0436】
いくつかの例によれば、ブロック3720(または方法3700の別のブロック)は、測定された可聴性データに補間を適用することによって、補間された相互可聴性行列を決定することに関わってもよい。いくつかの例では、補間された相互可聴性行列を決定することは、距離減衰定数に部分的に基づく減衰則モデルを適用することに関わってもよい。いくつかの例では、距離減衰定数は、デバイスごとのパラメータおよび/またはオーディオ環境パラメータを含みうる。いくつかの事例では、減衰則モデルは周波数帯域ベースでありうる。いくつかの例によれば、減衰則モデルは臨界距離パラメータを含んでいてもよい。
【0437】
いくつかの例では、方法3700は、相互可聴性行列および減衰則モデルの値に従って、複数のオーディオ・デバイスの各オーディオ・デバイスについての出力利得を推定することに関わってもよい。いくつかの事例では、各オーディオ・デバイスの出力利得を推定することは、相互可聴性行列および減衰則モデルの値の関数に対する最小二乗解を決定することに関わってもよい。いくつかの例では、方法3700は、各オーディオ・デバイスについての出力利得、ユーザー位置、および各オーディオ・デバイス位置の関数に従って、補間された相互可聴性行列の値を決定することに関わってもよい。いくつかの例では前記補間された相互可聴性行列の値は、各オーディオ・デバイスのユーザー位置可聴性に対応しうる。
【0438】
いくつかの例によれば、方法3700は、補間された相互可聴性行列の周波数帯域値を等化することに関わってもよい。いくつかの例では、方法3700は、補間された相互可聴性行列に遅延補償ベクトルを適用することに関わってもよい。
【0439】
上述したように、いくつかの実装では、オーディオ環境は、少なくとも1つのスピーカーを有するがマイクロフォンを有さない少なくとも1つの出力専用オーディオ・デバイスを含みうる。いくつかのそのような例では、方法3700は、複数のオーディオ・デバイスの各オーディオ・デバイスのオーディオ・デバイス位置における、前記少なくとも1つの出力専用オーディオ・デバイスの可聴性を決定することに関わってもよい。
【0440】
上述したように、いくつかの実装では、オーディオ環境は、少なくとも1つのマイクロフォンを有するがラウドスピーカーを有さない一つまたは複数の入力専用オーディオ・デバイスを含みうる。いくつかのそのような例では、方法3700は、前記一つまたは複数の入力専用オーディオ・デバイスのそれぞれの位置における、オーディオ環境内のそれぞれのラウドスピーカーを備えたオーディオ・デバイスの可聴性を決定することに関わってもよい。
【0441】
点ノイズ源ケースの実装
本節は、図33に対応する実装を開示する。本節で使用されるところでは、「点ノイズ源」は、位置xnが利用可能だが源信号は利用可能でないノイズ源をいう。その一例は、図31の音源3106がノイズ源である場合である。オーディオ環境における複数のオーディオ・デバイスのそれぞれの相互可聴性に対応する相互可聴性行列を決定する代わりに(またはそれに加えて)、「点ノイズ源ケース」の実装は、複数のオーディオ・デバイス位置のそれぞれにおける、そのような点源の可聴性を決定することに関わる。いくつかのそのような例は、上述した完全行列空間的可聴性の例におけるような伝達関数ではなく、複数のオーディオ・デバイス位置のそれぞれにおけるそのような点源の受信レベルを測定するノイズ可聴性行列A∈RK×Lを決定することに関わる。
【0442】
いくつかの実施形態ではAの推定は、たとえばオーディオ環境においてオーディオが再生されている時間の間に、リアルタイムで行われてもよい。いくつかの実装によれば、Aの推定は、点源(または既知の位置の他の音源)のノイズを補償するプロセスの一部であってもよい。
【0443】
図38は、別の実装によるシステムの一例を示すブロック図である。本明細書で提供される他の図と同様に、図38に示される要素のタイプ、数、および配置は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプ、数、および/または配置の要素を含んでいてもよい。この例によれば、制御システム160A~160Lは、オーディオ・デバイス3801A~3801L(Lは2以上)に対応し、図1Bを参照して上述した装置150の制御システム160のインスタンスである。ここで、制御システム160A~160Lは、マルチチャネル音響エコー・キャンセラー3805A~3805Lを実装している。
【0444】
この例では、点源空間的可聴性補間器3810およびノイズ補償ブロック3815は、図1Bを参照して上述した装置150の別のインスタンスである装置3820の制御システム160Mによって実装される。いくつかの例では、装置3820は、本明細書で統率デバイスまたはスマート・ホーム・ハブと呼ばれるものでありうる。しかしながら、代替的な例では、装置3820はオーディオ・デバイスでありうる。いくつかの事例では、装置3820の機能は、オーディオ・デバイス3801A~3801Lのうちの1つによって実装されうる。いくつかの事例では、マルチチャネル音響エコー・キャンセラー3805A~3805L、点源空間的可聴性補間器3810、および/またはノイズ補償ブロック3815は、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)を介して実装されうる。
【0445】
この例では、音源3825は、オーディオ環境において音3830を生成している。この例によれば、音3830はノイズと見なされる。この場合、音源3825は、制御システム160A~160Mのうちのいずれの制御下でも動作していない。この例では、音源3825の位置は、制御システム160Mによって知られている(言い換えれば、制御システム160Mによってアクセス可能なメモリに提供および/または記憶されている)。
【0446】
この例によれば、マルチチャネル音響エコー・キャンセラー3805Aは、オーディオ・デバイス3801Aの一つまたは複数のマイクロフォンからのマイクロフォン信号3802Aと、オーディオ・デバイス3801Aによって再生されているオーディオに対応するローカル・エコー基準3803Aとを受信する。ここで、マルチチャネル音響エコー・キャンセラー3805Aは、(エコーキャンセルされたマイクロフォン信号と呼ばれることもある)残留マイクロフォン信号3807Aを生成し、該残留マイクロフォン信号3807Aを装置3820に与えるように構成される。この例では、残留マイクロフォン信号3807Aは、主に、オーディオ・デバイス3801Aの位置において受信される音3830に対応すると想定される。
【0447】
同様に、マルチチャネル音響エコー・キャンセラー3805Lは、オーディオ・デバイス3801Lの一つまたは複数のマイクロフォンからのマイクロフォン信号3802Lと、オーディオ・デバイス3801Lによって再生されているオーディオに対応するローカル・エコー基準3803Lとを受信する。マルチチャネル音響エコー・キャンセラー3805Lは、残留マイクロフォン信号3807Lを装置3820に出力するように構成される。この例では、残留マイクロフォン信号3807Lは、オーディオ・デバイス3801Lの位置において受信された音3830に主に対応すると想定される。いくつかの例では、マルチチャネル音響エコー・キャンセラー3805A~3805Lは、K個の周波数帯域のそれぞれにおけるエコー消去のために構成されうる。
【0448】
この例では、点源空間的可聴性補間器3810は、残留マイクロフォン信号3807A~3807L、ならびにオーディオ・デバイス幾何構成(オーディオ・デバイス3801A~3801Lのそれぞれについての位置データ)および源位置データを受信する。この例によれば、点源空間的可聴性補間器3810は、オーディオ・デバイス3801A~3801Lの位置のそれぞれにおける音3830の受信レベルを示すノイズ可聴性情報を決定するように構成される。いくつかの例では、ノイズ可聴性情報は、K個の周波数帯域のそれぞれについてのノイズ可聴性データを含んでいてもよく、いくつかの事例では、上記で参照したノイズ可聴性行列A∈RK×Lであってもよい。
【0449】
いくつかの実装では、点源空間的可聴性補間器3810(または制御システム160Mの別のブロック)は、ユーザー位置データおよびオーディオ・デバイス3801A~3801Lの位置のそれぞれにおける音3830の受信レベルに基づいて、オーディオ環境内のユーザー位置における音3830のレベルを示すノイズ可聴性情報3812を推定するように構成されうる。いくつかの事例では、ノイズ可聴性情報3812を推定することは、たとえば距離減衰モデルを適用してユーザー位置におけるノイズ・レベル・ベクトルb∈RK×1をすることによる、上記で説明したものなどの補間プロセスに関わってもよい。
【0450】
この例によれば、ノイズ補償ブロック3815は、ユーザー位置における推定されたノイズ・レベル3812に基づいて、ノイズ補償利得3817を決定するように構成される。この例では、ノイズ補償利得3817は、周波数帯域に応じて異なりうるマルチバンド・ノイズ補償利得(たとえば、上記で参照したノイズ補償利得q∈RK×1であってもよい)。たとえば、ノイズ補償利得は、ユーザー位置における音3830の、より高い推定レベルに対応する周波数帯域においては、より高くなりうる。いくつかの例では、ノイズ補償利得3817はオーディオ・デバイス3801A~3801Lに提供され、それにより、オーディオ・デバイス3801A~3801Lはノイズ補償利得3817に従ってオーディオ・データの再生を制御しうる。破線3817Aおよび3817Lによって示唆されるように、いくつかの事例では、ノイズ補償ブロック3815は、オーディオ・デバイス3801A~3801Lのそれぞれに固有のノイズ補償利得を決定するように構成されうる。
【0451】
図39は、本明細書に開示されるものなどの装置またはシステムによって実行されうる別の方法の一例を概説するフロー図である。方法3900のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。方法3900のブロックは、図1Bに示され、上記で説明されたような制御システム、または他の開示される制御システム例のうちの1つであってもよく(またはそれを含んでいてもよい)一つまたは複数のデバイスによって実行されうる。いくつかの例によれば、方法3900のブロックは、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実装されうる。
【0452】
この実装では、ブロック3905は、制御システムによって、オーディオ環境内の複数のマイクロフォンのそれぞれから残留マイクロフォン信号を受信することに関わる。この例では、残留マイクロフォン信号は、複数のオーディオ・デバイス位置のそれぞれにおいて受信された、ノイズ源からの音に対応する。図38を参照して上述した例では、ブロック3905は、制御システム160Mがマルチチャネル音響エコー・キャンセラー3805A~3805Lから残留マイクロフォン信号3807A~3807Lを受信することに関わる。しかしながら、いくつかの代替的な実装では、ブロック3905~3925のうちの一つまたは複数(および場合によってはブロック3905~3925のすべて)は、前記オーディオ・デバイス制御システムのうちの1つなどの別の制御システムによって実行されうる。
【0453】
この例によれば、ブロック3910は、制御システムによって、複数のオーディオ・デバイス位置のそれぞれに対応するオーディオ・デバイス位置データ、ノイズ源の位置に対応するノイズ源位置データ、およびオーディオ環境内の人の位置に対応するユーザー位置データを取得することに関わる。いくつかの例では、ブロック3910は、メモリ(たとえば、図1のメモリシステム115)に記憶されている、以前に取得されたオーディオ・デバイス位置データを参照することによって、オーディオ・デバイス位置データ、ノイズ源位置データ、および/またはユーザー位置データを決定することに関わってもよい。いくつかの事例では、ブロック3910は、自動位置特定プロセスを介してオーディオ・デバイス位置データ、ノイズ源位置データ、および/またはユーザー位置データを決定することに関わってもよい。自動位置特定プロセスは、本明細書の他の箇所で参照される自動位置特定方法など、一つまたは複数の自動位置特定方法を実行することに関わってもよい。
【0454】
この実装によれば、ブロック3915は、残留マイクロフォン信号、オーディオ・デバイス位置データ、ノイズ源位置データ、およびユーザー位置データに基づいて、ユーザー位置におけるノイズ源からの音のノイズ・レベルを推定することに関わる。図38を参照して上述した例では、ブロック3915は、点源空間的可聴性補間器3810(または制御システム160Mの別のブロック)が、ユーザー位置データおよびオーディオ・デバイス3801A~3801Lの位置のそれぞれにおける音3830の受信レベルに基づいて、オーディオ環境内のユーザー位置における音3830のノイズ・レベル3812を推定することに関わってもよい。いくつかの事例では、ブロック3915は、たとえば、距離減衰モデルを適用してユーザー位置におけるノイズ・レベル・ベクトルb∈RK×1を推定することによって、上記で説明したような補間プロセスに関わってもよい。
【0455】
この例では、ブロック3920は、ユーザー位置におけるノイズ源からの音の推定されるノイズ・レベルに基づいて、オーディオ・デバイスのそれぞれについてのノイズ補償利得を決定することに関わる。図38を参照して上記で説明した例では、ブロック3920は、ノイズ補償ブロック3815が、ユーザー位置における推定されたノイズ・レベル3812に基づいてノイズ補償利得3817を決定することに関わってもよい。いくつかの例では、ノイズ補償利得は、周波数帯域に応じて異なりうるマルチバンド・ノイズ補償利得(たとえば、上記で参照したノイズ補償利得q∈RK×1)であってもよい。
【0456】
この実装によれば、ブロック3925は、オーディオ・デバイスのそれぞれにノイズ補償利得を提供することに関わる。図38を参照して上述した例では、ブロック3925は、装置3820がオーディオ・デバイス3801A~3801Lのそれぞれにノイズ補償利得3817A~3817Lを提供することに関わってもよい。
【0457】
拡散性のまたは位置特定されていないノイズ源実装
ノイズ源などの音源の位置を特定することは、特に音源が同じ部屋に位置していないとき、または音源が音を検出するマイクロフォンアレイ(単数または複数)に対して高度に隠蔽されているとき、常に可能であるとは限らない。そのような事例では、ユーザー位置におけるノイズ・レベルを推定することは、いくつかの既知のノイズ・レベル値(たとえば、オーディオ環境内の複数のオーディオ・デバイスのそれぞれの各マイクロフォンまたはマイクロフォン・アレイにおいて1つ)のあるスパース補間問題と見なされうる。
【0458】
そのような補間は、一般的な関数f:R2→Rとして表すことができる。これは、2D空間(R2の項によって表される)における既知の点を、補間されたスカラー値(Rによって表される)に補間することを表す。一例は、ノードの三角形を形成するために(オーディオ環境における3つのオーディオ・デバイスのマイクロフォンまたはマイクロフォン・アレイに対応する)3つのノードの諸サブセットを選択することと、二変量線形補間(bivariate linear interpolation)によって三角形内の可聴性について解くこととに関わる。任意の所与のノードiについて、第kの帯域における受信されたレベルを、Ai (k)=axi+byi+cと表すことができる。未知数について解くと
【数12】
となる。
【0459】
三角形内の任意の点における補間された可聴性は次のようになる。
【数13】
【0460】
他の例は、たとえば、参照により本明細書に組み込まれる非特許文献1に記載されているように、重心補間(barycentric interpolation)または三次三角補間(cubic triangular interpolation)に関わってもよい。そのような補間方法は、図38および図39を参照して上述されたノイズ補償方法に適用可能である。それはたとえば、図38の点音源空間的可聴性補間器3810を、本節で説明される補間方法のいずれかに従って実装されるナイーブな空間補間器で置き換えることによって、および図39のブロック3910においてノイズ源位置データを取得するプロセスを省略することによる。本節で説明される補間方法は、球面距離減衰を与えないが、聴取エリア内で妥当なレベルの補間を提供する。
【非特許文献1】Amidror, Isaac、“Scattered data interpolation methods for electronic imaging systems: a survey”、Journal of Electronic Imaging Vol. 11, No. 2、April 2002、pp.157-176
【0461】
図40は、この事例では生活空間である別のオーディオ環境のフロアプランの例を示す。本明細書で提供される他の図と同様に、図40に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含んでいてもよい。
【0462】
この例によれば、環境4000は、左上に居間4010、中央下にキッチン4015、右下に寝室4022を含む。生活空間(living space)にわたって分布する四角および円は、ラウドスピーカー4005a~4005hのセットを表し、その少なくとも一部は、いくつかの実装ではスペースに都合のよい位置に配置されているが、標準で規定されたレイアウトには準拠しない(任意に配置された)スマート・スピーカーであってもよい。いくつかの例では、テレビジョン4030は、少なくとも部分的に、一つまたは複数の開示された実施形態を実装するように構成されてもよい。この例では、環境4000は、環境を通じて分散されたカメラ4011a~4011eを含む。いくつかの実装では、環境4000内の一つまたは複数のスマート・オーディオ・デバイスも、一つまたは複数のカメラを含んでいてもよい。該一つまたは複数のスマート・オーディオ・デバイスは、単一目的のオーディオ・デバイスまたは仮想アシスタントであってもよい。いくつかのそのような例において、任意的なセンサー・システム180(図1B参照)の一つまたは複数のカメラは、テレビジョン4030内またはテレビジョン4030上、携帯電話内、またはラウドスピーカー4005b、4005d、4005e、または4005hのうちの一つまたは複数などのスマート・スピーカー内に存在してもよい。カメラ4011a~4011eは、本開示において提示される環境4000のすべての図に示されているわけではないが、それにもかかわらず、環境4000のそれぞれは、いくつかの実装において、一つまたは複数のカメラを含んでいてもよい。
【0463】
オーディオ・デバイスの自動定位
本譲受人は、設計された目的である使用事例において優れた解決策である、映画館および家庭のためのいくつかのスピーカー定位技法を生み出した。いくつかのそのような方法は、音源と、各ラウドスピーカーとほぼ同位置のマイクロフォンとの間のインパルス応答から導出される飛行時間に基づく。記録および再生チェーンにおけるシステム・レイテンシーも推定されうるが、クロック間のサンプル同期性が必要とされ、インパルス応答を推定するための既知の試験刺激の必要もある。
【0464】
このコンテキストにおける音源定位の最近の例は、デバイス内マイクロフォン同期を必要とするが、デバイス間同期を必要としないことによって制約条件を緩和している。加えて、いくつかのそのような方法は、直接(非反射)音の到着時間(TOA、「飛行時間」とも呼ばれる)の検出を介して、または直接音の優勢な到来方向(DOA)の検出を介してなど、低帯域幅メッセージ渡しによって、センサー間でオーディオを渡す必要性を放棄する。各アプローチは、いくつかの潜在的な利点および潜在的な欠点を有する。たとえば、いくつかの以前に展開されたTOA方法は、3軸のうちの1つのまわりの未知の並進、回転、および反射を除いて、デバイス幾何学形状を決定することができる。デバイスごとに1つのマイクロフォンしかない場合には、個々のデバイスの回転も未知である。いくつかの以前に展開されたDOA方法は、未知の並進、回転、およびスケーリングを除いたデバイス幾何学形状を決定することができる。いくつかのそのような方法は、理想的な条件下で満足のいく結果をもたらすことができるが、測定誤差に対するそのような方法の堅牢性は実証されていない。
【0465】
本願で開示される実施形態のいくつかは、1)オーディオ環境におけるオーディオ・デバイスの各ペア間のDOAと、2)データ・タイプ1)の入力のために設計された非線形最適化問題の最小化とに基づいて、スマート・オーディオ・デバイスの集合の定位を許容する。本願に開示される他の実施形態は、1)システム内のオーディオ・デバイスの各ペア間のDOA、2)デバイスの各ペア間のTOA、ならびに3)データ・タイプ1)および2)の入力のために設計された非線形最適化問題の最小化に基づいて、スマート・オーディオ・デバイスの集合の定位を許容する。
【0466】
図41は、環境内の4つのオーディオ・デバイス間の幾何学的関係の例を示す。この例では、オーディオ環境4100は、テレビ4101およびオーディオ・デバイス4105a、4105b、4105c、および4105dを含む部屋である。この例によれば、オーディオ・デバイス4105a~4105dは、それぞれ、オーディオ環境4100の位置1ないし4にある。本明細書で開示される他の例と同様に、図41に示される要素のタイプ、数、位置、および配向は、単に例として作られている。他の実装は、要素の異なるタイプ、数、および配置を有していてもよく、たとえば、より多数またはより少数のオーディオ・デバイス、異なる位置にあるオーディオ・デバイス、異なる能力を有するオーディオ・デバイスなどを有していてもよい。
【0467】
この実装では、オーディオ・デバイス4105a~4105dのそれぞれは、マイクロフォン・システムと、少なくとも1つのスピーカーを含むスピーカー・システムとを含むスマート・スピーカーである。いくつかの実装では、各マイクロフォン・システムは、少なくとも3つのマイクロフォンのアレイを含む。いくつかの実装によれば、テレビ4101は、スピーカー・システムおよび/またはマイクロフォン・システムを含みうる。いくつかのそのような実装では、テレビ4101、またはテレビ4101の一部分(たとえば、テレビスピーカー、テレビトランシーバなど)を自動的に定位するために、自動定位方法が使用されてもよい。これはたとえば、オーディオ・デバイス4105a~4105dを参照して以下で説明される。
【0468】
本開示で説明される実施形態のうちのいくつかは、図41に示されるオーディオ・デバイス4105a~4105d等のオーディオ・デバイスのセットの自動定位を、オーディオ・デバイスの各ペア間の到来方向(DOA)、デバイスの各ペア間のオーディオ信号の到着時間(TOA)、またはデバイスの各ペア間のオーディオ信号のDOAおよびTOAの両方に基づいて許容する。場合によっては、図41に示される例のように、オーディオ・デバイスのそれぞれは、少なくとも1つの駆動ユニットおよび1つのマイクロフォン・アレイを有効にされ、マイクロフォン・アレイは、到来する音の到来方向を提供することが可能である。この例によれば、両矢印4110 abは、オーディオ・デバイス4105aによって送信され、オーディオ・デバイス105bによって受信される音、ならびにオーディオ・デバイス4105bによって送信されオーディオ・デバイス4105aによって受信される音を表す。同様に、両矢印4110ac、4110ad、4110bc、4110bd、4110cdは、それぞれ、オーディオ・デバイス4105aとオーディオ・デバイス4105cによって送信、受信される音、オーディオ・デバイス4105aとオーディオ・デバイス4105dによって送信、受信される音、オーディオ・デバイス4105bとオーディオ・デバイス4105cによって送信、受信される音、オーディオ・デバイス4105bとオーディオ・デバイス4105dによって送信、受信される音、オーディオ・デバイス4105cとオーディオ・デバイス4105dによって送信、受信される音を表している。
【0469】
この例では、オーディオ・デバイス4105a~4105dのそれぞれは、矢印4115a~4115dによって表される配向を有し、これはさまざまな仕方で定義されうる。たとえば、単一のラウドスピーカーを有するオーディオ・デバイスの配向はその単一のラウドスピーカーが向いている方向に対応してもよい。いくつかの例では、異なる方向を向いている複数のラウドスピーカーを有するオーディオ・デバイスの配向は、それらのラウドスピーカーのうちの1つが向いている方向によって示されてもよい。他の例では、異なる方向を向いている複数のラウドスピーカーを有するオーディオ・デバイスの配向は、該複数のラウドスピーカーのそれぞれが向いている異なる方向におけるオーディオ出力の和に対応するベクトルの方向によって示されてもよい。図41に示される例では、矢印4115a~4115dの配向は、デカルト座標系を参照して定義される。他の例では、矢印4115a~4115dの配向は、球面または円筒座標系などの別のタイプの座標系を参照して定義されてもよい。
【0470】
この例では、テレビ4101は、電磁波を受信するように構成された電磁インターフェース103を含む。いくつかの例では、電磁インターフェース4103は、電磁波を送信および受信するように構成されてもよい。いくつかの実装によれば、オーディオ・デバイス4105a~4105dのうちの少なくとも2つは、トランシーバとして構成されたアンテナ・システムを含んでいてもよい。アンテナ・システムは、電磁波を送受信するように構成されてもよい。いくつかの例ではアンテナ・システムは、少なくとも3つのアンテナを有するアンテナアレイを含む。本開示で説明される実施形態のうちのいくつかは、デバイス間で送信される電磁波のDOAに少なくとも部分的に基づいて、図1に示されるオーディオ・デバイス4105a~4105dおよび/またはテレビ101などのデバイスのセットの自動定位を可能にする。よって、両矢印4110ab、4110ac、4110ad、4110bc、4110bd、および4110cdも、オーディオ・デバイス4105a、4105dの間で送信される電磁波を表すことができる。
【0471】
いくつかの例によれば、(オーディオ・デバイスなどの)デバイスのアンテナ・システムは、デバイスのラウドスピーカーと同位置であってもよく、たとえばラウドスピーカーに隣接していてもよい。いくつかのそのような例では、アンテナ・システム配向は、ラウドスピーカー配向に対応しうる。代替的または追加的に、デバイスのアンテナ・システムは、デバイスの一つまたは複数のラウドスピーカーに対して既知のまたは所定の配向を有していてもよい。
【0472】
この例では、オーディオ・デバイス4105a~4105dは、互いにおよび他のデバイスと無線通信するように構成される。いくつかの例では、オーディオ・デバイス4105a~4105dは、インターネットを介したオーディオ・デバイス4105a~4105dおよび他のデバイスの間の通信のために構成されたネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本明細書で開示される自動定位プロセスは、オーディオ・デバイス4105a~4105dのうちの1つのオーディオ・デバイスの制御システムによって実行されてもよい。他の例では、自動定位プロセスは、オーディオ・デバイス4105a~4105dとの無線通信のために構成された、オーディオ環境4100の別のデバイス、たとえばスマート・ホーム・ハブと呼ばれることがあるものによって実行されてもよい。他の例では、自動定位プロセスは、たとえば、オーディオ・デバイス4105a~4105dおよび/またはスマート・ホーム・ハブのうちの一つまたは複数から受信された情報に基づいて、サーバーなどのオーディオ環境100の外部のデバイスによって少なくとも部分的に実行されてもよい。
【0473】
図42は、図41のオーディオ環境内に位置するオーディオ放出体を示している。いくつかの実装は、図42の人4205など、一つまたは複数のオーディオ放出体の自動定位を提供する。この例では、人4205は位置5にいる。ここで、人4205によって発せられ、オーディオ・デバイス4105aによって受信される音は、片矢印4210aによって表される。同様に、人4205によって発せられ、オーディオ・デバイス4105b、4105c、および4105dによって受信される音は、片矢印4210b、4210c、および4210dによって表される。オーディオ放出体は、オーディオ・デバイス4105a~4105dおよび/またはテレビ4101によって捕捉されるようなオーディオ放出体音のDOAに基づいて、オーディオ・デバイス4105a~4105dおよび/またはテレビ4101によって測定されるようなオーディオ放出体音のTOAの差に基づいて、またはDOAおよびTOAの差の両方に基づいて、定位されうる。
【0474】
代替的または追加的に、いくつかの実装は、一つまたは複数の電磁波放出体の自動定位を提供してもよい。本開示で説明する実施形態のいくつかは、一つまたは複数の電磁波放出体によって送信される電磁波のDOAに少なくとも部分的に基づいて、一つまたは複数の電磁波放出体の自動定位を許容する。電磁波放出体が位置5にあったとすると、電磁波放出体によって放出され、オーディオ・デバイス4105a、4105b、4105c、および4105dによって受信される電磁波も、片矢印4210a、4210b、4210c、および4210cによって表されうる。
【0475】
図43は、図1のオーディオ環境内に位置するオーディオ受信機を示す。この例では、スマートフォン4305のマイクロフォンは有効にされているが、スマートフォン4305のスピーカーは現在音を発していない。いくつかの実施形態は、スマートフォン4305が音を発していないときに、図43のスマートフォン4305などの一つまたは複数の受動オーディオ受信機の自動定位を提供する。ここで、オーディオ・デバイス4105aによって発せられ、スマートフォン4305によって受信される音は、片矢印4310aによって表される。同様に、オーディオ・デバイス4105b、4105c、および4105dによって発せられ、スマートフォン4305によって受信される音は、片矢印4310b、4310c、および4310dによって表される。
【0476】
オーディオ受信機がマイクロフォン・アレイを備え、受信された音のDOAを決定するように構成されている場合、オーディオ受信機は、オーディオ・デバイス4105a~4105dによって発せられ、オーディオ受信機によって捕捉された音のDOAに少なくとも部分的に基づいて定位されうる。いくつかの例では、オーディオ受信機は、オーディオ受信機がマイクロフォン・アレイを備えているかどうかにかかわらず、オーディオ受信機によって捕捉されたスマート・オーディオ・デバイスのTOAの差に少なくとも部分的に基づいて定位されうる。さらに他の実施形態は、上記で説明された方法を組み合わせることによって、DOAのみ、またはDOAおよびTOAに基づいて、スマート・オーディオ・デバイス、一つまたは複数のオーディオ放出体、および一つまたは複数の受信機のセットの自動定位を許容しうる。
【0477】
到来方向定位
図44は、図1Bに示されるような装置の制御システムによって実行されうる方法のもう一つの例を概説するフロー図である。方法4400のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。
【0478】
方法4400は、オーディオ・デバイス定位プロセスの一例である。この例では、方法4400は、2つ以上のスマート・オーディオ・デバイスの位置および配向を決定することに関わり、各スマート・オーディオ・デバイスは、ラウドスピーカー・システムおよびマイクロフォンのアレイを含む。この例によれば、方法4400は、DOA推定に従って、すべてのスマート・オーディオ・デバイスによって放出され、すべての他のスマート・オーディオ・デバイスによって捕捉されたオーディオに少なくとも部分的に基づいて、スマート・オーディオ・デバイスの位置および配向を決定することに関わる。この例では、方法4400の初期の諸ブロックは、各スマート・オーディオ・デバイスの制御システムに依存して、そのスマート・オーディオ・デバイスのマイクロフォン・アレイによって取得された入力オーディオからDOAを抽出することができる。それはたとえば、マイクロフォン・アレイの個々のマイクロフォン・カプセル間の到着時間差を使用することによる。
【0479】
この例では、ブロック4405は、オーディオ環境のすべてのスマート・オーディオ・デバイスによって発せられ、オーディオ環境のすべての他のスマート・オーディオ・デバイスによって捕捉されたオーディオを取得することに関わる。いくつかのそのような例では、ブロック4405は、各スマート・オーディオ・デバイスに音を放出させることに関わってもよく、その音は、いくつかの事例では、所定の持続時間、周波数内容などを有する音であってもよい。この所定のタイプの音は、本明細書では構造化ソース信号と呼ばれることがある。いくつかの実装では、スマート・オーディオ・デバイスは、図41のオーディオ・デバイス4105a~4105dであってもよく、またはそれらを含んでいてもよい。
【0480】
いくつかのそのような例では、ブロック4405は、他のスマート・オーディオ・デバイスが音があるかどうかを「傾聴する」間に、単一のスマート・オーディオ・デバイスに音を放出させる順次プロセスに関わってもよい。たとえば、図41を参照すると、ブロック4405は:(a)オーディオ・デバイス4105aに音を放出させ、オーディオ・デバイス4105b~4105dのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信すること;次いで(b)オーディオ・デバイス4105bに音を放出させ、オーディオ・デバイス4105a、4105c、および4105dのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信すること;次いで(c)オーディオ・デバイス4105cに音を放出させ、オーディオ・デバイス4105a、4105b、および4105dのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信すること;次いで(d)オーディオ・デバイス4105dに音を放出させ、オーディオ・デバイス4105a、4105b、および4105cのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信することを含みうる。これらの放出される音は、特定の実装に依存して、同じであってもなくてもよい。
【0481】
他の例では、ブロック4405は、他のスマート・オーディオ・デバイスが音があるかどうかを「傾聴する」間に、すべてのスマート・オーディオ・デバイスに音を出させる同時プロセスに関わってもよい。たとえば、ブロック4405は、以下のステップ:(1)オーディオ・デバイス4105aに第1の音を放出させ、オーディオ・デバイス4105b~4105dのマイクロフォン・アレイから、該放出された第1の音に対応するマイクロフォン・データを受信すること;(2)オーディオ・デバイス4105bに第1の音とは異なる第2の音を放出させ、オーディオ・デバイス4105a、4105c、4105dのマイクロフォン・アレイから、該放出された第2の音に対応するマイクロフォン・データを受信すること;(3)オーディオ・デバイス4105cに第1の音および第2の音とは異なる第3の音を放出させ、オーディオ・デバイス4105a、4105b、4105dのマイクロフォン・アレイから、該放出された第3の音に対応するマイクロフォン・データを受信すること;(4)オーディオ・デバイス4105dに第1の音、第2の音および第3の音とは異なる第4の音を放出させ、オーディオ・デバイス4105a、4105b、4105cのマイクロフォン・アレイから、該放出された第4の音に対応するマイクロフォン・データを受信すること、を同時に実行することに関わってもよい。
【0482】
いくつかの例では、ブロック4405は、オーディオ環境におけるオーディオ・デバイスの相互可聴性を決定するために使用されてもよい。いくつかの詳細な例が本稿で与えられている。
【0483】
この例では、ブロック4410は、マイクロフォンを介して取得されたオーディオ信号を前処理するプロセスに関わる。ブロック4410は、たとえば、一つまたは複数のフィルタ、ノイズまたはエコー抑制プロセスなどを適用することに関わってもよい。いくつかの追加的な前処理例が以下で説明される。
【0484】
この例によれば、ブロック4415は、ブロック4410から帰結する前処理されたオーディオ信号からDOA候補を決定することに関わる。たとえば、ブロック4405が、構造化ソース信号を放出および受信することに関わっていたとしたら、ブロック4415は、インパルス応答および/または「擬似レンジ」をもたらすための一つまたは複数の畳み込み解除方法に関わってもよく、そこから、DOA候補を推定するために、優勢なピークの到着時間差が、スマート・オーディオ・デバイスの既知のマイクロフォン・アレイ幾何学形状と併せて使用されることができる。
【0485】
しかしながら、方法4400のすべての実装が、所定の音の放出に基づいてマイクロフォン信号を取得することに関わるわけではない。よって、ブロック4415のいくつかの例は、ステアード応答パワー、受信機側ビームフォーミング、または他の同様の方法など、任意のオーディオ信号に適用される「ブラインド」方法を含み、そこから一つまたは複数のDOAがピーク・ピッキング(peak picking)によって抽出されうる。いくつかの例を以下に説明する。DOAデータは、ブラインド方法を介して、または構造化ソース信号(structured source signal)を使用して決定されうるが、ほとんどの場合、TOAデータは、構造化ソース信号を使用して決定されるだけでありうることが理解されるであろう。さらに、より正確なDOA情報は、一般に、構造化ソース信号を使用して取得されうる。
【0486】
この例によれば、ブロック4420は、他のスマート・オーディオ・デバイスのそれぞれによって発せられた音に対応する1つのDOAを選択することに関わる。多くの場合、マイクロフォン・アレイは、直接到着音と、同じオーディオ・デバイスによって送信された反射音との両方を検出しうる。ブロック4420は、直接送信された音に対応する可能性が最も高いオーディオ信号を選択することに関わってもよい。DOA候補を決定すること、および2つ以上の候補DOAからDOAを選択することのいくつかの追加的な例が以下で説明される。
【0487】
この例では、ブロック4425は、各スマート・オーディオ・デバイスのブロック4420の実装から帰結するDOA情報を受信すること(言い換えれば、オーディオ環境内のすべてのスマート・オーディオ・デバイスからすべての他のスマート・オーディオ・デバイスに送信された音に対応するDOAのセットを受信すること)と、DOA情報に基づいて定位方法を実行すること(たとえば、制御システムを介して定位アルゴリズムを実装すること)とに関わる。いくつかの開示される実装では、ブロック4425は、たとえば図45を参照しながら以下で説明するように、可能性としてはいくつかの制約条件および/または重みのもとで、コスト関数を最小化することに関わる。いくつかのそのような例では、コスト関数は、入力データとして、すべてのスマート・オーディオ・デバイスからすべての他のスマート・デバイスへのDOA値を受信し、出力として、各スマート・オーディオ・デバイスの推定された位置および推定された配向を返す。図44に示される例では、ブロック4430は、ブロック4425で生成された推定されたスマート・オーディオ・デバイス位置および推定されたスマート・オーディオ・デバイス配向を表す。
【0488】
図45は、DOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の別の例を概説するフロー図である。方法4500は、たとえば、図1Bに示されるような装置の制御システムを介して定位アルゴリズムを実装することによって実行されてもよい。方法4500のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。
【0489】
この例によれば、ブロック4505においてDOAデータが取得される。いくつかの実装によれば、ブロック4505は、たとえば、図44のブロック4405~4420を参照して上記で説明したように、音響DOAデータを取得することに関わってもよい。代替的または追加的に、ブロック4505は、環境内の複数のデバイスのそれぞれによって送信および受信される電磁波に対応するDOAデータを取得することに関わってもよい。
【0490】
この例では、定位アルゴリズムは、オーディオ環境内のあらゆるスマート・デバイスから他のあらゆるスマート・デバイスへの、ブロック4505で取得されたDOAデータを、オーディオ環境について指定された任意の構成パラメータ4510とともに、入力として受信する。いくつかの例では、任意的な制約条件4525がDOAデータに適用されうる。構成パラメータ4510、最小化重み4515、任意的な制約条件4525、およびシード・レイアウト4530は、たとえば、コスト関数4520および非線形探索アルゴリズム4535を実装するためのソフトウェアを実行している制御システムによってメモリから取得されてもよい。構成パラメータ4510は、たとえば、最大部屋寸法、ラウドスピーカー・レイアウト制約条件、グローバル並進(たとえば、2つのパラメータ)、グローバル回転(1つのパラメータ)、およびグローバル・スケール(1つのパラメータ)を設定するための外部入力などに対応するデータを含んでいてもよい。
【0491】
この例によれば、構成パラメータ4510は、コスト関数4520および非線形探索アルゴリズム4535に提供される。いくつかの例では、構成パラメータ4510は、任意的な制約条件4525に提供される。この例では、コスト関数4520は、測定されたDOAと最適化器の定位解によって推定されたDOAとの間の差を考慮に入れる。
【0492】
いくつかの実施形態では、任意的な制約条件4525は、オーディオ・デバイスが互いからある最小距離であるという条件を課すなど、可能なオーディオ・デバイスの位置および/または配向に制限を課す。代替的または追加的に、任意的な制約条件4525は、たとえば以下で説明するように、便宜上導入されるダミー最小化変数に対して制限を課してもよい。
【0493】
この例では、非線形探索アルゴリズム4535には最小化重み4515も提供される。いくつかの例を以下に説明する。
【0494】
いくつかの実装によれば、非線形探索アルゴリズム4535は、次の形の連続最適化問題に対する局所解を見つけることができるアルゴリズムである:
【数14】
【0495】
上記の式において、C(x): Rn->Rはコスト関数4520を表しg(x):Rn->Rmは、任意的な制約条件4525に対応する制約条件関数を表す。これらの例では、ベクトルgLおよびgUは、制約条件に対する下限および上限を表し、ベクトルxLおよびxUは変数xに対する限界を表す。
【0496】
非線形探索アルゴリズム4535は、特定の実装に従って変化しうる。非線形探索アルゴリズム4535の例は、勾配降下法、BFGS(Broyden-Fletchers-Goldfarb-Shanno〔ブロイデン・フレッチャーズ・ゴールドファーブ・シャノ〕)法、IPOPT(Interior Point Optimization〔内点最適化〕)法などを含む。非線形探索アルゴリズムのいくつかはコスト関数および制約の値を必要とするだけであるが、いくつかの他の方法はコスト関数および制約条件の一階導関数(勾配、ヤコビアン)を必要とすることもあり、いくつかの他の方法は同じ関数の二階導関数(ヘシアン)を必要とすることもある。導関数が必要とされる場合、それらは明示的に提供されることができ、またはそれらは自動的なまたは数値的な微分技法を使用して自動的に計算されることができる。
【0497】
いくつかの非線形探索アルゴリズムは、図45の非線形探索アルゴリズム4535に提供されるシード・レイアウト4530によって示唆されるように、最小化を開始するためのシード点情報を必要とする。いくつかの例では、シード点情報は、対応する位置および配向をもつ同じ数のスマート・オーディオ・デバイス(言い換えれば、DOAデータが取得されるスマート・オーディオ・デバイスの実際の数と同じ数)からなるレイアウトとして提供されてもよい。位置および配向は任意であってもよく、スマート・オーディオ・デバイスの実際のまたは近似的な位置および配向である必要はない。いくつかの例では、シード点情報は、オーディオ環境の軸または別の任意の線に沿ったスマート・オーディオ・デバイス位置、オーディオ環境内の円、長方形、または他の幾何学的形状に沿ったスマート・オーディオ・デバイス位置などを示しうる。いくつかの例では、シード点情報は、任意のスマート・オーディオ・デバイス配向を示してもよく、それは、あらかじめ決定されたスマート・オーディオ・デバイスは以降またはランダムな開始オーディオ・デバイス配向であってもよい。
【0498】
いくつかの実施形態では、コスト関数4520は、次のように複素平面変数に関して定式化されることができる。
【数15】
ここで、スターは複素共役を示し、バーは絶対値を示し、
・Znm=exp(iDOAnm)は、デバイスnから測ったスマート・デバイスmの到来方向を与える複素平面値を表し、iは虚数単位を表す;
・xn=xnx+ixnyは、スマート・デバイスnのxおよびy位置をエンコードする複素平面値を表す;
・zn=exp(iαn)は、スマート・デバイスnの配向の角度αnをエンコードする複素値を表す;
・wnm DOAは、前記DOAnm測定値に与えられる重みを表す;
・Nは、DOAデータが取得されたスマート・オーディオ・デバイスの数を表す;
・x=(x1,…,xN)およびz=(z1,…,zN)はN個のスマート・オーディオ・デバイスのそれぞれ複素位置および複素配向のベクトルを表す。
【0499】
この例によれば、最小化の結果は、スマート・デバイスの2D位置を示すデバイス位置データ4540 xk(デバイス当たり2つの実数の未知数を表す)と、スマート・デバイスの配向ベクトルを示すデバイス配向データ4545 zk(デバイス当たり2つの追加的な実数の変数を表す)である。配向ベクトルからは、スマート・デバイスの配向の角度αkのみが問題のために有意である(デバイス当たり1つの実数の未知数)。したがって、この例では、スマート・デバイス当たり3つの有意な未知数がある。
【0500】
いくつかの例では、結果評価ブロック4550は、結果位置および配向におけるコスト関数の残差を計算することに関わる。相対的により低い残差は、相対的により正確なデバイス定位値を示す。いくつかの実装によれば、結果評価ブロック4550は、フィードバック・プロセスに関わってもよい。たとえば、いくつかのそのような例は、所与のDOA候補組み合わせの残差を別のDOA候補組み合わせと比較することに関わるフィードバック・プロセスを実装しうる。このことは、たとえば、以下のDOA堅牢性指標の説明において説明される。
【0501】
上述したように、いくつかの実装では、ブロック4505は、DOA候補を決定し、DOA候補を選択することに関わる図44のブロック4405~4420を参照して上述したように、音響DOAデータを取得することに関わってもよい。よって、図45は、任意的なフィードバック・プロセスの1つのフローを表すために、結果評価ブロック4550からブロック4505への破線を含む。さらに、図44は、別の任意的なフィードバック・プロセスのフローを表すために、ブロック4430(これはいくつかの例では結果評価に関わりうる)からDOA候補選択ブロック4420への破線を含む。
【0502】
いくつかの実施形態では、非線形探索アルゴリズム4535は、複素値変数を受け入れなくてもよい。そのような場合、すべての複素数値の変数は一対の実変数で置き換えることができる。
【0503】
いくつかの実装では、各DOA測定値の利用可能性または信頼性に関する追加的な事前情報があってもよい。いくつかのそのような例では、ラウドスピーカーは、すべての可能なDOA要素のサブセットのみを使用して定位されうる。欠けているDOA要素は、たとえば、コスト関数において対応する0の重みでマスクされうる。いくつかのそのような例では、重みwnmは、0または1のいずれかであってもよく、たとえば、欠けているかまたは十分に信頼できないと考えられる測定値については0であり、信頼できる測定値については1であってもよい。いくつかの他の実施形態では、重みwnmは、DOA測定値の信頼性の関数として、0から1までの連続値を有していてもよい。事前情報が利用可能でない実施形態では、重みwnmは単純に1に設定されてもよい。
【0504】
いくつかの実装では、条件|zk|=1(スマート・オーディオ・デバイスごとに1つの条件)は、スマート・オーディオ・デバイスの配向を示すベクトルの正規化を保証するための制約条件として追加されてもよい。他の例では、これらの追加的な制約条件は必要とされなくてもよく、スマート・オーディオ・デバイスの配向を示すベクトルは正規化されないままにされてもよい。他の実装は、制約条件として、スマート・オーディオ・デバイスの近接性に関する条件を追加してもよい。これはたとえば、|xn-xm|≧Dであることを示す。ここで、Dはスマート・オーディオ・デバイス間の最小距離である。
【0505】
上記のコスト関数の最小化は、スマート・オーディオ・デバイスの絶対的な位置および配向を完全には決定しない。この例によれば、コスト関数は、すべてのスマート・デバイス位置および配向に同時に影響を及ぼすグローバル回転(1つの独立パラメータ)、グローバル並進(2つの独立パラメータ)、およびグローバル再スケーリング(1つの独立パラメータ)の下で不変のままである。このグローバル回転、並進、および再スケーリングは、前記コスト関数の最小化からは決定できない。対称変換によって関連付けられる異なるレイアウトは、このフレームワークでは全く区別できず、同じ等価クラスに属すると言われる。したがって、構成パラメータは、等価クラス全体を表すスマート・オーディオ・デバイス・レイアウトを一意的に定義することを許容する基準を提供すべきである。いくつかの実施形態では、このスマート・オーディオ・デバイス・レイアウトが、参照聴取位置の近くの聴取者の参照フレームに近い参照フレームを定義するように、基準を選択することが有利でありうる。そのような基準の例を以下に与える。いくつかの他の例では、基準は、純粋に数学的であり、現実的な参照フレームから切り離されていてもよい。
【0506】
対称性曖昧さ解消基準は、グローバル並進対称性を固定する参照位置(たとえば、スマート・オーディオ・デバイス1は、座標の原点にあるべきである)と;2次元回転対称性を固定する参照配向(たとえば、スマート・デバイス1は、図41図43においてテレビ4101が位置する場所など、正面として指定されたオーディオ環境のエリアに向けられるべきである)と;グローバル・スケーリング対称性を固定する参照距離(たとえば、スマート・デバイス2は、スマート・デバイス1から単位距離にあるべきである)とを含みうる。合計で、この例では最小化問題から決定できず、外部入力として提供されるべき4つのパラメータが存在する。したがって、この例では、最小化問題から決定できる3N-4個の未知数がある。
【0507】
上記で説明したように、いくつかの例では、スマート・オーディオ・デバイスのセットに加えて、マイクロフォン・アレイを備えた一つまたは複数の受動オーディオ受信機、および/または一つまたは複数のオーディオ放出体があってもよい。そのような場合、定位プロセスは、DOA推定に基づいて、すべてのスマート・オーディオ・デバイスおよびすべての放出体によって放出され、すべての他のスマート・オーディオ・デバイスおよびすべての受動受信機によって捕捉されたオーディオから、スマート・オーディオ・デバイスの位置および配向、放出体の位置、ならびに受動受信機の位置および配向を決定するための技法を使用してもよい。
【0508】
いくつかのそのような例では、定位プロセスは、上記で説明したのと同様の仕方で進行してもよい。いくつかの事例では、定位プロセスは、上記と同じコスト関数に基づいてもよい。読者の便宜のために下に示しておく。
【数16】
【0509】
しかしながら、定位プロセスが、受動オーディオ受信機および/またはオーディオ受信機ではないオーディオ放出体に関わる場合、上記の式の変数は、わずかに異なる仕方で解釈される必要がある。ここで、Nは、デバイスの総数を表し、デバイスの内訳は、Nsmart個のスマート・オーディオ・デバイス、Nrec個の受動オーディオ受信機およびNemit個の放出体を含み、よって、N=Nsmart+Nrec+Nemitである。いくつかの例では、重みwnm DOAは、受動受信機または放出体専用デバイス(または人間などの受信機のない他のオーディオ・ソース)に起因する欠落データをマスクするためにスパース構造を有していてもよく、よって、デバイスnが受信機なしのオーディオ放出体である場合、すべてのmについてwnm DOA=0であり、デバイスmがオーディオ受信機である場合、すべてのnについてwnm DOA=0である。スマート・オーディオ・デバイスおよび受動受信機の両方について、位置および角度の両方が決定でき、一方、オーディオ放出体については、位置のみが得られる。未知数の総数は、3Nsmart+3Nrec+2Nemit-4である。
【0510】
組み合わされた到着時間および到来方向の定位
以下の議論では、上述のDOAベースの定位プロセスと、このセクションの組み合わされたDOAおよびTOA定位との間の差異が強調される。明示的に与えられていないそれらの詳細は、上記で説明したDOAベースの定位プロセスにおけるものと同じであると想定されうる。
【0511】
図46は、DOAデータおよびTOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の一例を概説するフロー図である。方法4600は、たとえば、図1Bに示されるような装置の制御システムを介して定位アルゴリズムを実装することによって実行されうる。方法4600のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含みうる。
【0512】
この例によれば、ブロック4605~4620においてDOAデータが取得される。いくつかの実装によれば、ブロック4605~4620は、たとえば、図44のブロック4405~4420を参照して上記で説明したように、複数のスマート・オーディオ・デバイスから音響DOAデータを取得することに関わってもよい。いくつかの代替的な実装では、ブロック4605~4620は、環境内の複数のデバイスのそれぞれによって送信され、受信される電磁波に対応するDOAデータを取得することに関わってもよい。
【0513】
しかしながら、この例では、ブロック4605はまた、TOAデータを取得することにも関わる。この例によれば、TOAデータは、オーディオ環境内のすべてのスマート・オーディオ・デバイス(たとえば、オーディオ環境内のスマート・オーディオ・デバイスのすべてのペア)によって放出され、受信されたオーディオの測定されたTOAを含む。構造化ソース信号を放出することに関わるいくつかの実施形態では、TOAデータを抽出するために使用されるオーディオは、DOAデータを抽出するために使用されたものと同じであってもよい。他の実施形態では、TOAデータを抽出するために使用されるオーディオは、DOAデータを抽出するために使用されるオーディオとは異なっていてもよい。
【0514】
この例によれば、ブロック4616は、オーディオ・データ中のTOA候補を検出することに関わり、ブロック4618は、それらのTOA候補のうちから各スマート・オーディオ・デバイス・ペアについて単一のTOAを選択することに関わる。いくつかの例を以下に説明する。
【0515】
TOAデータを取得するためにさまざまな技法が使用されうる。1つの方法は、掃引(たとえば、対数正弦トーン(logarithmic sine tone))または最大長シーケンス(Maximum Length Sequence、MLS)等の室内較正オーディオ・シーケンスを使用することである。任意的に、いずれかの前述のシーケンスが、近超音波オーディオ周波数範囲(たとえば、18kHz~24kHz)への帯域制限とともに使用されてもよい。このオーディオ周波数範囲では、ほとんどの標準的なオーディオ機器は音を発し記録することができるが、そのような信号は、通常の人間の聴覚能力を超えたところにあるので、人間によって知覚されることができない。いくつかの代替的な実装は、直接シーケンス拡散スペクトル(Direct Sequence Spread Spectrum)信号など、1次オーディオ信号中の隠れ信号からTOA要素を復元することに関わってもよい。
【0516】
すべてのスマート・オーディオ・デバイスから他のすべてのスマート・オーディオ・デバイスへのDOAデータのセット、およびスマート・オーディオ・デバイスのすべてのペアからのTOAデータのセットが与えられると、図46の定位方法4625は、可能性としてはいくつかの制約条件を受けて、あるコスト関数を最小化することに基づいていてもよい。この例では、図46の定位方法4625は、上述のDOA値およびTOA値を入力データとして受信し、スマート・オーディオ・デバイスに対応する推定された位置データおよび配向データ630を出力する。いくつかの例では、定位方法4625はまた、たとえば最小化問題からは決定できないいくつかのグローバル対称性まで、スマート・オーディオ・デバイスの再生および記録レイテンシーを出力しうる。いくつかの例を以下に説明する。
【0517】
図7は、DOAデータおよびTOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の別の例を概説するフロー図である。方法700は、たとえば、図10に示されるような装置の制御システムを介して定位アルゴリズムを実装することによって実行されてもよい。方法700のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。
【0518】
以下で説明される点を除いて、いくつかの例では、ブロック4705、4710、4715、4720、4725、4730、4735、4740、4745、および4750は、図45のブロック4505、4510、4515、4520、4525、4530、4535、4540、4545、および4550を参照して上記で説明された通りであってもよい。しかしながら、この例では、コスト関数4720および非線形最適化方法4735は、DOAデータおよびTOAデータの両方に作用するように、図45のコスト関数4520および非線形最適化方法4535に対して、DOAデータおよびTOAデータの両方に作用するように修正される。ブロック4708のTOAデータは、いくつかの例では、図46を参照して上記で説明したように取得されうる。図5のプロセスと比較した場合のもう一つの相違点は、この例では、非線形最適化方法4735は、たとえば以下で説明するように、スマート・オーディオ・デバイスに対応する記録および再生レイテンシー・データ4747も出力することである。よって、いくつかの実装では、結果評価ブロック4750は、DOAデータおよび/またはTOAデータの両方を評価することに関わってもよい。いくつかのそのような例では、ブロック4750の動作は、DOAデータおよび/またはTOAデータに関わるフィードバック・プロセスを含んでいてもよい。たとえば、いくつかのそのような例は、所与のTOA/DOA候補組み合わせの残差を別のTOA/DOA候補組み合わせと比較することに関わるフィードバック・プロセスを実装してもよい。これについては、たとえば、以下のTOA/DOA堅牢性測定の議論において説明される。
【0519】
いくつかの例では、結果評価ブロック4750は、結果位置および配向におけるコスト関数の残差を計算することに関わる。相対的により低い残差は、通常、相対的により正確なデバイス定位値を示す。いくつかの実装によれば、結果評価ブロック4750は、フィードバック・プロセスに関わってもよい。たとえば、いくつかのそのような例は、所与のTOA/DOA候補組み合わせの残差を別のTOA/DOA候補組み合わせと比較することに関わるフィードバック・プロセスを実装しうる。これについては、たとえば、以下のTOAおよびDOA堅牢性測定の議論において説明される。
【0520】
よって、図46は、任意的なフィードバック・プロセスのフローを表すために、ブロック4630(これはいくつかの例では結果評価に関わってもよい)からDOA候補選択ブロック4620およびTOA候補選択ブロック4618への破線を含む。いくつかの実装では、ブロック4705は、図6のブロック4605~4620を参照して上記で説明したように音響DOAデータを取得することに関わってもよく、これは、DOA候補を決定し、DOA候補を選択することに関わる。いくつかの例では、ブロック4708は、図46のブロック4605~4618を参照して上記で説明したように音響TOAデータを取得することに関わってもよく、これは、TOA候補を決定し、TOA候補を選択することとに関わる。図47には示されていないが、いくつかの任意的なフィードバック・プロセスは、結果評価ブロック4750からブロック4705および/またはブロック4708に戻ることに関わってもよい。
【0521】
この例によれば、定位アルゴリズムは、可能性としてはいくつかの制約条件を受けてコスト関数を最小化することによって進行し、以下のように記述できる。この例では、定位アルゴリズムは、入力として、DOAデータ4705およびTOAデータ4708を、聴取環境について指定された構成パラメータ4710および可能性としてはいくつかの任意的な制約条件4725とともに受信する。この例では、コスト関数は、測定されたDOAと推定されたDOAとの間の差、および測定されたTOAと推定されたTOAとの間の差を考慮に入れる。いくつかの実施形態では、制約条件4725は、オーディオ・デバイスが互いからある最小距離であるという条件を課す、および/またはいくつかのデバイス・レイテンシーが0であるべきであるという条件を課すなど、可能なデバイス位置、配向、および/またはレイテンシーに制限を課す。
【0522】
いくつかの実装では、コスト関数は、次のように定式化できる:
【数17】
【0523】
上記の式においてl=(l1,…,lN)およびk=(k1,…,kN)は、それぞれすべてのデバイスについて再生デバイスおよび記録デバイスのベクトルを表し、WDOAおよびWTOAは、それぞれ、DOA最小化部分およびTOA最小化部分のグローバル重み(プレファクタとしても知られる)を表し、それら2つの項のそれぞれの相対的重要性を反映する。いくつかのそのような例では、TOAコスト関数は次のように定式化できる。
【数18】
ここで、
・TOAnmは、スマート・デバイスmからスマート・デバイスnに進む信号の測定された到着時間を表す;
・wnm TOAは、前記TOAnm測定値に与えられる重みを表す;
・cは、音速を表す。
【0524】
スマート・オーディオ・デバイス毎に最大5つの実数の未知数が存在する:デバイス位置xn(デバイス当たり2つの実数の未知数)、デバイス配向αn(デバイス当たり1つの実数の未知数)ならびに記録および再生レイテンシーlnおよびkn(デバイス当たり2つの追加的な未知数)。これらから、デバイス位置およびレイテンシーのみが、コスト関数のTOA部分のために有意である。先験的に知られているレイテンシー間のリンクまたは制限がある場合、いくつかの実装では、実効的な未知数の数を減らすことができる。
【0525】
いくつかの例では、たとえば、各TOA測定値の利用可能性または信頼性に関する、追加的な事前情報があってもよい。これらの例のいくつかでは、重みwnm TOAは0または1であることができ、たとえば、利用可能でない(または十分に信頼できないと考えられる)測定値については0であり、信頼できる測定値については1である。このようにして、デバイス定位は、すべての可能なDOAおよび/またはTOA要素のサブセットのみを用いて推定されうる。いくつかの他の実装では、重みは、たとえばTOA測定値の信頼性の関数として、0から1までの連続値を有していてもよい。事前の信頼性情報が利用可能でないいくつかの例では、重みは単に1に設定されうる。
【0526】
いくつかの実装によれば、一つまたは複数の追加的な制約条件が、レイテンシーの可能な値および/またはそれらの間の異なるレイテンシーの関係に課されてもよい。
【0527】
いくつかの例では、オーディオ・デバイスの位置は、メートルなどの標準的な長さの単位で測定されてもよく、レイテンシーおよび到着時間は、秒などの標準的な時間の単位で示されてもよい。しかしながら、非線形最適化方法は、最小化プロセスにおいて使用される異なる変数の変動のスケールが同じオーダーである場合に、より良好に機能する場合が多い。したがって、いくつかの実装は、スマート・デバイス位置の変動の範囲が-1と1の間の範囲になるように位置測定値を再スケーリングし、レイテンシーおよび到着時間も、これらの値が-1と1の間の範囲になるように再スケーリングすることに関わってもよい。
【0528】
上記のコスト関数の最小化は、スマート・オーディオ・デバイスの絶対的な位置および配向またはレイテンシーを完全には決定しない。TOA情報は絶対的な距離スケールを与え、これはコスト関数がスケール変換の下ではもはや不変ではないが、グローバル回転およびグローバル並進の下では依然として不変のままであることを意味する。さらに、レイテンシーは、追加的なグローバル対称性を受ける:同じグローバルな量がすべての再生および記録レイテンシーに同時に加えられる場合、コスト関数は不変のままである。これらのグローバル変換は、コスト関数の最小化から決定することができない。同様に、構成パラメータは、等価クラス全体を表すデバイス・レイアウトを一意的に定義することを許容する基準を提供するべきである。
【0529】
いくつかの例では、対称性曖昧さ解消基準は、グローバル並進対称性を固定する参照位置(たとえば、スマート・デバイス1は、座標の原点にあるべきである)と;2次元回転対称性を固定する参照配向(たとえば、スマート・デバイス1は正面のほうに向けられるべきである)と;参照レイテンシー(たとえば、デバイス1についての記録レイテンシーは0であるべきである)とを含みうる。合計で、この例では最小化問題から決定できず、外部入力として提供されるべき4つのパラメータが存在する。したがって、最小化問題から決定できる5N-4個の未知数がある。
【0530】
いくつかの実装では、スマート・オーディオ・デバイスのセットのほかに、機能するマイクロフォン・アレイを備えていなくてもよい一つまたは複数の受動オーディオ受信機、および/または一つまたは複数のオーディオ放出体が存在してもよい。最小化変数としてレイテンシーを含めることは、いくつかの開示された方法が、放出および受信時間が正確に知られていない受信機および放出体を定位することを許容する。いくつかのそのような実装では、上記で説明したTOAコスト関数が実装されてもよい。このコスト関数は、読者の便宜のために下記に再掲される。
【数19】
【0531】
DOAコスト関数を参照して上述したように、コスト関数変数は、コスト関数が受動受信機および/または放出体を含む定位推定のために使用される場合、わずかに異なる仕方で解釈される必要がある。ここで、Nは、デバイスの総数を表し、デバイスの内訳は、Nsmart個のスマート・オーディオ・デバイス、Nrec個の受動オーディオ受信機およびNemit個の放出体を含み、よって、N=Nsmart+Nrec+Nemitである。重みwnm DOAは、受動受信機または専用放出体に起因する欠落データをマスクするためにスパース構造を有していてもよく、よって、たとえば、デバイスnがオーディオ放出体である場合、すべてのmについてwnm DOA=0であり、デバイスmがオーディオ受信機である場合、すべてのnについてwnm DOA=0である。いくつかの実装によれば、スマート・オーディオ・デバイスについては、位置、配向、ならびに記録および再生レイテンシーが決定されなければならず;受動受信機については、位置、配向、および記録レイテンシーが決定されなければならず;オーディオ放出体については、位置および再生レイテンシーが決定されなければならない。したがって、いくつかのそのような例によれば、未知数の総数は、5Nsmart+4Nrec+3Nemit-4である。
【0532】
グローバル並進および回転の曖昧さ解消
DOAのみの問題と、組み合わされたTOAとDOAの問題の両方に対する解は、グローバルな並進および回転の曖昧さの影響を受ける。いくつかの例では、並進の曖昧さは、放出体のみのソースを聴取者として扱い、聴取者が原点に位置するようにすべてのデバイスを並進させることによって解決できる。
【0533】
回転の曖昧さは、解に追加的な制約条件を課すことによって解決できる。たとえば、いくつかのマルチ・ラウドスピーカー環境は、テレビ(TV)ラウドスピーカーと、TV視聴のために配置されたソファとを含みうる。環境内のラウドスピーカーを位置特定した後、いくつかの方法は、聴取者をTV視聴方向に結ぶベクトルを見つけることに関わってもよい。いくつかのそのような方法は、次いで、TVにそのラウドスピーカーから音を放出させること、および/またはユーザーにTVのところまで歩くように促し、ユーザーの発話を位置特定することに関わってもよい。いくつかの実装は、環境の周りでパンするオーディオ・オブジェクトをレンダリングすることに関わってもよい。オーディオ・オブジェクトが環境の正面、環境のテレビ位置などの環境内の一つまたは複数の所定の位置にある時を示すユーザー入力をユーザーが提供してもよい(たとえば「ストップ」と言う)。いくつかの実装は、2つの定義された方向に携帯電話を向けるようにユーザーに促す、慣性測定ユニットを備えた携帯電話アプリを含み、第1の方向は、すなわち、特定のデバイス(たとえば、点灯したLEDをもつ該デバイス)の方向であり、第2の方向は、環境の正面、環境のTV位置などのユーザーの所望の観察方向である。いくつかの詳細な曖昧さ解消の例を、ここで、図48A図48Dを参照して説明する。
【0534】
図48Aは、オーディオ環境のもう一つの例を示す。いくつかの例によれば、開示される定位方法のうちの1つによって出力されるオーディオ・デバイス位置データは、オーディオ・デバイス座標系4807を基準とした、オーディオ・デバイス1~5のそれぞれについてのオーディオ・デバイス位置の推定値を含みうる。この実装では、オーディオ・デバイス座標系4807は、その原点としてオーディオ・デバイス2のマイクロフォンの位置を有するデカルト座標系である。ここで、オーディオ・デバイス座標系4807のx軸は、オーディオ・デバイス2のマイクロフォンの位置とオーディオ・デバイス1のマイクロフォンの位置との間の線4803に対応する。
【0535】
この例では、聴取者位置は、(たとえば、環境4800a内の一つまたは複数のラウドスピーカーからのオーディオ・プロンプトを介して)カウチ4833に座っているように示されている聴取者4805に一つまたは複数の発声4827を行うように促し、到着時間(TOA)データに従って聴取者位置を推定することによって決定される。TOAデータは、環境内の複数のマイクロフォンによって取得されたマイクロフォン・データに対応する。この例では、マイクロフォン・データは、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、3つ、4つ、または5つすべて)のマイクロフォンによる前記一つまたは複数の発声4827の検出に対応する。
【0536】
代替的または追加的に、聴取者位置は、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、2つ、3つ、4つ、または5つすべて)のマイクロフォンによって提供されるDOAデータに従って推定されうる。いくつかのそのような例によれば、聴取者位置は、DOAデータに対応する線4809a、4809bなどの交点に従って決定されうる。
【0537】
この例によれば、聴取者位置は、聴取者座標系4820の原点に対応する。この例では、聴取者角度配向データは、聴取者座標系4820のy'軸によって示され、該y'軸は、聴取者の頭部810(および/または聴取者の鼻4825)とテレビ4101のサウンドバー4830との間の線4813aに対応する。図48Aに示される例では、線4813aはy'軸に平行である。したがって、角度Θは、y軸とy'軸との間の角度を表す。よって、オーディオ・デバイス座標系4807の原点は、図48Aにおいてオーディオ・デバイス2に対応するように示されているが、いくつかの実装は、聴取者座標系4820の原点のまわりでオーディオ・デバイス座標を角度Θだけ回転する前に、オーディオ・デバイス座標系4807の原点を、聴取者座標系4820の原点と同位置にすることに関わる。この同位置にすることは、オーディオ・デバイス座標系4807から聴取者座標系4820への座標変換によって実行されうる。
【0538】
サウンドバー4830および/またはテレビ4801の位置は、いくつかの例では、サウンドバーに音を放出させ、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、3つ、4つ、または5つすべて)のマイクロフォンによるその音の検出に対応しうるDOAおよび/またはTOAデータに従ってサウンドバーの位置を推定することによって、決定されうる。代替的または追加的に、サウンドバー4830および/またはテレビ4801の位置は、ユーザーにテレビのところまで歩くように促し、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、3つ、4つまたは5つすべて)のマイクロフォンによるその音の検出に対応しうるDOAおよび/またはTOAデータによってユーザーの発話を位置特定することによって決定されてもよい。いくつかのそのような方法は、たとえば、上記で説明したように、コスト関数を適用することに関わってもよい。いくつかのそのような方法は、三角測量に関わってもよい。そのような例は、サウンドバー4830および/またはテレビ4801が関連付けられたマイクロフォンを有しない状況において有益でありうる。
【0539】
サウンドバー4830および/またはテレビ4801が関連付けられたマイクロフォンを有するいくつかの他の例では、サウンドバー4830および/またはテレビ4801の位置は、本明細書で開示される方法などのTOAおよび/またはDOA方法に従って決定されうる。いくつかのそのような方法によれば、マイクロフォンはサウンドバー4830と同じ位置にあってもよい。
【0540】
いくつかの実装によれば、サウンドバー4830および/またはテレビ4801は、関連付けられたカメラ4811を有していてもよい。制御システムは、聴取者の頭部4810(および/または聴取者の鼻4825)の画像を捕捉するように構成されてもよい。いくつかのそのような例では、制御システムは、聴取者の頭部4810(および/または聴取者の鼻4825)とカメラ4811との間の線4813aを決定するように構成されてもよい。聴取者角度配向データは、線4813aに対応しうる。代替的または追加的に、制御システムは、線4813aとオーディオ・デバイス座標系のy軸との間の角度Θを決定するように構成されてもよい。
【0541】
図48Bは、聴取者角度配向データを決定することの追加的な例を示す。この例によれば、聴取者位置は、すでに決定されている。ここで、制御システムが、環境4800b内の多様な位置にオーディオ・オブジェクト4835をレンダリングするために環境4800bのラウドスピーカーを制御している。いくつかのそのような例では、制御システムは、オーディオ・オブジェクト4835が聴取者4805のまわりを回転するように思えるように、ラウドスピーカーにオーディオ・オブジェクト4835をレンダリングさせてもよい。それはたとえば、オーディオ・オブジェクト4835が聴取者座標系4820の原点のまわりを回転するように思えるようにオーディオ・オブジェクト4835をレンダリングすることによる。この例では、曲線状の矢印4840は、オーディオ・オブジェクト4835が聴取者4805のまわりを回転するときのオーディオ・オブジェクト4835の軌道の一部を示す。
【0542】
いくつかのそのような例によれば、聴取者4805は、オーディオ・オブジェクト4835が聴取者4805が向いている方向にある時を示すユーザー入力を提供してもよい(たとえば、「ストップ」と言う)。いくつかのそのような例では、制御システムは、聴取者位置とオーディオ・オブジェクト4835の位置との間の線4813bを決定するように構成されてもよい。この例では、線4813bは、聴取者4805が向いている方向を示す聴取者座標系のy'軸に対応する。代替的な実装では、聴取者4805は、オーディオ・オブジェクト4835が環境の正面にある時、環境のTV位置にある時、オーディオ・デバイス位置にある時などを示すユーザー入力を提供してもよい。
【0543】
図48Cは、聴取者角度配向データを決定することの追加的な例を示す。この例によれば、聴取者位置は、すでに決定されている。ここで、聴取者4805は、ハンドヘルド・デバイス4845を使用して、ハンドヘルド・デバイス4845をテレビ4801またはサウンドバー4830のほうに向けることによって、聴取者4805の視聴方向に関する入力を提供している。ハンドヘルド・デバイス4845および聴取者の腕の破線の輪郭は、この例では、聴取者4805がハンドヘルド・デバイス4845をテレビ4801またはサウンドバー4830のほうに向けていた時より前の時に、聴取者4805がハンドヘルド・デバイス4845をオーディオ・デバイス2のほうに向けていたことを示す。他の例では、聴取者4805は、ハンドヘルド・デバイス4845をオーディオ・デバイス1などの別のオーディオ・デバイスのほうに向けていてもよい。この例によれば、ハンドヘルド・デバイス4845は、オーディオ・デバイス2とテレビ4801またはサウンドバー4830との間の角度αを決定するように構成され、該角度αは、オーディオ・デバイス2と聴取者4805の観察方向との間の角度を近似する。
【0544】
ハンドヘルド・デバイス4845は、いくつかの例では、慣性センサー・システムと、環境4800cのオーディオ・デバイスを制御している制御システムと通信するように構成された無線インターフェースとを含むセルラー電話であってもよい。いくつかの例では、ハンドヘルド・デバイス4845は、たとえば、ユーザー・プロンプトを提供することによって(たとえば、グラフィカルユーザーインターフェースを介して)、ハンドヘルド・デバイス4845が所望の方向を指していることを示す入力を受信することによって、対応する慣性センサー・データを保存すること、および/または対応する慣性センサー・データを、環境4800cのオーディオ・デバイスを制御している制御システムに送信することによって、などで、必要な機能を実行するようにハンドヘルド・デバイス4845を制御するように構成されたアプリケーションまたは「アプリ」を実行していてもよい。
【0545】
この例によれば、制御システム(ハンドヘルド・デバイス4845の制御システム、環境4800cのスマート・オーディオ・デバイスの制御システム、または環境4800cのオーディオ・デバイスを制御している制御システムであってもよい)は、慣性センサー・データに従って、たとえばジャイロスコープデータに従って、線4813cおよび4850の配向を決定するように構成される。この例では、線4813cは軸y'に平行であり、聴取者角度配向を決定するために使用されてもよい。いくつかの例によれば、制御システムは、オーディオ・デバイス2と聴取者4805の観察方向との間の角度αに従って、聴取者座標系4820の原点のまわりのオーディオ・デバイス座標の適切な回転を決定しうる。
【0546】
図48Dは、図48Cを参照して説明された方法に従ってオーディオ・デバイス座標の適切な回転を決定する一例を示す。この例では、オーディオ・デバイス座標系4807の原点は、聴取者座標系4820の原点と同位置である。オーディオ・デバイス座標系4807の原点と聴取者座標系4820の原点を同位置にすることは、聴取者位置が決定された後に可能になる。オーディオ・デバイス座標系4807の原点と聴取者座標系4820の原点とを同位置にすることは、オーディオ・デバイス座標系4807から聴取者座標系4820にオーディオ・デバイス位置を変換することを含みうる。角度αは、図48Cを参照して上述したように決定されている。よって、角度αは、聴取者座標系4820におけるオーディオ・デバイス2の所望の配向に対応する。この例では、角度βは、オーディオ・デバイス座標系4807におけるオーディオ・デバイス2の配向に対応する。この例ではβ-αである角度Θは、オーディオ・デバイス座標系4807のy軸を聴取者座標系4820のy'軸と整列させるための必要な回転を示す。
【0547】
DOA堅牢性指標
図44を参照して上述したように、ステアード応答パワー、ビームフォーミング、または他の同様の方法を含む任意の信号に適用される「ブラインド」方法を使用するいくつかの例では、精度および安定性を改善するために、堅牢性指標(robustness measure)が追加されてもよい。いくつかの実装は、過渡成分をフィルタ除去し、永続的なピークのみを検出するため、ならびにそれらの永続的なDOAにおけるランダム誤差およびゆらぎを平均して消すために、ビームフォーマー・ステアード応答(beamformer steered response)の時間積分を含む。他の例は、限定された周波数帯域のみを入力として使用してもよく、それは、より良い性能のために部屋または信号タイプに合わせて調整されてもよい。
【0548】
たとえば、インパルス応答を生じるために構造化ソース信号および畳み込み解除方法の使用に関わる「教師あり」方法を使用する場合、DOAピークの精度および顕著性を高めるために、前処理施策が実装されることができる。いくつかの例では、そのような前処理は、各マイクロフォンチャネル上のインパルス応答の開始において始まる何らかの時間幅の振幅窓を用いた打ち切りを含みうる。そのような例は、各チャネル開始が独立して見出されることができるように、インパルス応答開始検出器を組み込んでいてもよい。
【0549】
上述したような「ブラインド」または「教師あり」方法のいずれかに基づくいくつかの例では、DOA精度を改善するために、さらなる処理が追加されてもよい。(たとえば、ステアード応答パワー(Steered-Response Power、SRP)またはインパルス応答解析の間の)ピーク検出に基づくDOA選択は、環境中の音響に敏感であることに留意することが重要である。環境中の音響は、受信エネルギーと送信エネルギーの両方を減衰させる、反射およびデバイス隠蔽〔オクルージョン〕に起因する非主要経路信号の捕捉を引き起こす可能性がある。これらの発生は、デバイス・ペアDOAの精度を低下させ、最適化器の定位解に誤差を導入する可能性がある。したがって、所定の閾値内のすべてのピークを正解〔グラウンドトゥルース〕DOAのための候補とみなすことが賢明である。所定の閾値の一例は、ピークが平均ステアード応答パワー(SRP)より大きいという要件である。すべての検出されたピークについて、顕著性閾値処理および平均信号レベル未満の候補の除去は、単純だが効果的な初期フィルタリング技法であることが証明されている。本明細書で使用されるところでは、「顕著性」〔プロミネンス〕は、局所ピークがその隣接する極小値と比較してどのくらい大いかの指標であり、これは、パワーのみに基づく閾値処理とは異なる。顕著性閾値の一例は、ピークとそれの隣接する極小値との間のパワーの差が閾値以上であるという要件である。有望な候補の保持は、デバイス・ペアが(正解からの受け入れ可能な誤差の許容範囲内で)それらのセット内に使用可能なDOAを含む可能性を改善する。ただし、信号が強い反射/隠蔽によって損なわれる場合には、デバイス・ペアが使用可能なDOAを含まない可能性がある。いくつかの例では、以下のうちの1つを行うために選択アルゴリズムが実装されうる:1)デバイス・ペアごとに最良の使用可能なDOA候補を選択する;2)候補のいずれも使用可能ではないと判断し、したがって、コスト関数重み付け行列を用いてそのペアの最適化寄与をヌルにする、または3)最良の推論された候補を選択するが、最良の候補がもたらす誤差の量を曖昧さなく決定にすることが困難である場合、DOA寄与に二値でない重み付けを適用する。
【0550】
最良の推論された候補を用いた初期最適化の後、いくつかの例では、定位解は、各DOAの残差コスト寄与を計算するために使用されうる。残差コストのアウトライアー分析は、定位解に最も大きく影響を与えているDOAペアの証拠を提供することができ、極端なアウトライアーは、それらのDOAを潜在的に不正確であるかまたは最適でないとフラグ付けする。次いで、残りの候補と、そのデバイス・ペアの寄与に適用される重み付けとを用いた、残差コスト寄与に基づく、アウトライアーDOAペアについての最適化の再帰的実行が、前述の3つのオプションのうちの1つに従った候補処理のために使用されてもよい。これは、図44図47を参照して上述したようなフィードバック・プロセスの一例である。いくつかの実装によれば、すべての検出された候補が評価され、選択されたDOAの残差コスト寄与がバランスされるまで、繰り返される最適化および処理決定が実行されうる。
【0551】
最適化器評価に基づく候補選択の欠点は、計算集約的であり、候補トラバーサル順序〔候補をたどる順序〕に敏感であることである。より少ない計算重みをもつ代替的な技法は、セット内の候補のすべての順列を決定し、これらの候補に対するデバイス定位のために三角形整列方法を実行することに関わる。関連する三角形整列方法は、あらゆる目的のために参照により本明細書に組み込まれる特許文献1に開示されている。次いで、定位結果は、三角測量で使用されるDOA候補に関して該結果がもたらす総コストおよび残差コストを計算することによって評価されることができる。これらのメトリックをパース〔解析〕するための決定論理が、非線形最適化問題に供給されるべき、最良の候補およびそれらのそれぞれの重み付けを決定するために使用できる。候補のリストが大きく、したがって、順列数が多くなる場合は、フィルタリングおよび順列リストを通じたインテリジェントなトラバーサルが適用されてもよい。
【特許文献1】米国仮特許出願第62/992,068号。2020年3月19日に出願。名称は「Audio Device Auto-Location」
【0552】
TOA堅牢性指標
図46を参照して上述したように、複数の候補TOA解の使用は、単一または最小限のTOA値を利用するシステムに比して堅牢性を加え、最適なスピーカー・レイアウトを見つけることに対して誤差の影響が最小限になることを確実にする。システムのインパルス応答を取得すると、いくつかの例では、TOA行列要素のそれぞれが、直接音に対応するピークを探すことによって復元できる。理想的な条件(たとえば、ノイズがなく、音源と受信機との間の直接経路内に障害物がなく、スピーカーが直接、マイクロフォンのほうを向いている)では、このピークは、インパルス応答内の最大ピークとして容易に識別できる。しかしながら、ノイズ、障害物、またはスピーカーおよびマイクロフォンの整列不良が存在する場合、直接音に対応するピークは、必ずしも最大値に対応しない。さらに、そのような条件では、直接音に対応するピークは、他の反射および/またはノイズから単離することが困難であることがある。直接音識別は、いくつかの事例では、困難なプロセスであることがある。直接音の不正確な識別は、自動定位プロセスを劣化させる(場合によっては、完全に台無しにする)。よって、直接音識別プロセスにおいて誤りの可能性がある場合、直接音について複数の候補を考慮することが効果的でありうる。いくつかのそのような事例では、ピーク選択プロセスは、2つの部分、すなわち、(1)好適なピーク候補を探す直接音探索アルゴリズムと、(2)正しいTOA行列要素を選ぶ確率を増加させるためのピーク候補評価プロセスとを含みうる。
【0553】
いくつかの実装では、直接音候補ピークを探すプロセスは、直接音についての有意な候補を識別するための方法を含みうる。いくつかのそのような方法は、以下のステップ、すなわち、(1)1つの第1の参照ピーク(たとえば、インパルス応答(IR)の絶対値の最大値)、「第1のピーク」を識別するステップと、(2)この第1のピークのまわり(前後)のノイズのレベルを評価するステップと、(3)ノイズ・レベルを上回る第1のピークの前(および場合によっては後)の代替ピークを探すステップと、(4)見つかったピークを、正しいTOAに対応するそれらの確率に従ってランク付けするステップと、任意的に、(5)近いピークをグループ化する(候補の数を減らすため)ステップとに基づいていてもよい。
【0554】
ひとたび直接音候補ピークが識別されると、いくつかの実装は、複数ピーク評価ステップに関わってもよい。直接音候補ピーク探索の結果として、いくつかの例では、それらの推定確率に従ってランク付けされた各TOA行列要素について、一つまたは複数の候補値がある。異なる候補値のうちから選択することによって、複数のTOA行列が形成されることができる。所与のTOA行列の確からしさを評価するために、最小化プロセス(上記で説明した最小化プロセスなど)が実装されうる。このプロセスは、該最小化の残差を生成することができ、これはTOA行列およびDOA行列の内部コヒーレンスの良好な推定値である。完璧なノイズレスTOA行列は0の残差をもたらすが、不正確な行列要素をもつTOA行列は大きな残差をもたらす。いくつかの実装では、本方法は、最小の残差をもつTOA行列を作成する候補TOA行列要素のセットを探す。これは、結果評価ブロック4750を含みうる、図46および図47を参照して上述した評価プロセスの一例である。一例では、評価プロセスは、以下のステップ、すなわち、(1)初期TOA行列を選択するステップと、(2)最小化プロセスの残差を用いて初期行列を評価するステップと、(3)TOA候補のリストからTOA行列の1つの行列要素を変更するステップと、(4)最小化プロセスの残差を用いて行列を再評価するステップと、(5)残差がより小さい場合には前記変更を受け入れ、そうでない場合には前記変更を受け入れないステップと、(6)ステップ3~5を逐次反復するステップとに関わってもよい。いくつかの例では、評価プロセスは、すべてのTOA候補が評価されたとき、または所定の最大反復回数に達したときに停止してもよい。
【0555】
定位方法の例
図49Aは、定位方法のもう一つの例を概説するフロー図である。方法4900のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。この実装では、方法4900は環境内のオーディオ・デバイスの位置および配向を推定することに関わる。方法4900のブロックは、図1Bに示される装置150であってもよい(またはそれを含んでいてもよい)一つまたは複数のデバイスによって実行されてもよい。
【0556】
この例では、ブロック4905は、制御システムによって、オーディオ環境の少なくとも第1のスマート・オーディオ・デバイスによって発せられた音に対応する到来方向(DOA)データを取得する。制御システムは、たとえば、図1Bを参照して上記に説明される制御システム160であってもよい。この例によれば、第1のスマート・オーディオ・デバイスは、第1のオーディオ送信機および第1のオーディオ受信機を含み、DOAデータは、オーディオ環境の少なくとも第2のスマート・オーディオ・デバイスによって受信された音に対応する。ここで、第2のスマート・オーディオ・デバイスは、第2のオーディオ送信機および第2のオーディオ受信機を含む。この例では、DOAデータは、少なくとも第2のスマート・オーディオ・デバイスによって放出され、少なくとも第1のスマート・オーディオ・デバイスによって受信される音にも対応する。いくつかの例では、第1および第2のスマート・オーディオ・デバイスは、図41に示されるオーディオ・デバイス4105a~4105dのうちの2つであってもよい。
【0557】
DOAデータは、特定の実装に依存してさまざまな仕方で取得されうる。いくつかの事例では、DOAデータを決定することは、図44を参照して上記で説明した、および/または「DOA堅牢性指標」のセクションにおいて説明したDOA関連方法のうちの一つまたは複数に関わってもよい。いくつかの実装は、制御システムによって、ビームフォーミング方法、ステアード・パワード応答方法、到着時間差方法、および/または構造化信号方法を使用して、DOAデータの一つまたは複数の要素を取得することに関わってもよい。
【0558】
この例によれば、ブロック4910は、制御システムによって、構成パラメータを受信することに関わる。この実装では、構成パラメータは、オーディオ環境自体、オーディオ環境の一つまたは複数のオーディオ・デバイス、またはオーディオ環境とオーディオ環境の一つまたは複数のオーディオ・デバイスの両方に対応する。いくつかの例によれば、構成パラメータは、オーディオ環境内のオーディオ・デバイスの数、オーディオ環境の一つまたは複数の寸法、オーディオ・デバイス位置もしくは配向に対する一つまたは複数の制約条件、および/または回転、並進、もしくはスケーリングのうちの少なくとも1つについての曖昧さ解消データを示してもよい。いくつかの例では、構成パラメータは、再生レイテンシー・データ、記録レイテンシー・データおよび/またはレイテンシー対称性を曖昧さ解消するためのデータを含んでいてもよい。
【0559】
この例では、ブロック4915は、制御システムによって、少なくとも第1のスマート・オーディオ・デバイスおよび第2のスマート・オーディオ・デバイスの位置および配向を推定するために、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化することに関わる。
【0560】
いくつかの例によれば、DOAデータはまた、オーディオ環境の第3ないし第Nのスマート・オーディオ・デバイスによって放出される音に対応してもよく、Nは、オーディオ環境のスマート・オーディオ・デバイスの総数に対応する。そのような例では、DOAデータはまた、オーディオ環境のすべての他のスマート・オーディオ・デバイスから第1ないし第Nのスマート・オーディオ・デバイスのそれぞれによって受信された音に対応してもよい。そのような事例では、コスト関数を最小化することは、第3ないし第Nのスマート・オーディオ・デバイスの位置および/または配向を推定することに関わってもよい。
【0561】
いくつかの例では、DOAデータはまた、オーディオ環境の一つまたは複数の受動オーディオ受信機によって受信された音に対応してもよい。前記一つまたは複数の受動オーディオ受信機のそれぞれは、マイクロフォン・アレイを含んでいてもよいが、オーディオ放出体を欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数の受動オーディオ受信機のそれぞれの推定された位置および配向を与えてもよい。いくつかの例によれば、DOAデータはまた、オーディオ環境の一つまたは複数のオーディオ放出体によって放出された音に対応してもよい。前記一つまたは複数のオーディオ放出体のそれぞれは、少なくとも1つの音放出トランスデューサを含んでいてもよいが、マイクロフォン・アレイを欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数のオーディオ放出体のそれぞれの推定された位置を与えてもよい。
【0562】
いくつかの例では、方法4900は、制御システムによって、コスト関数のためのシード・レイアウトを受信することに関わってもよい。シード・レイアウトは、たとえば、オーディオ環境内のオーディオ送信機および受信機の正しい数と、オーディオ環境内のオーディオ送信機および受信機のそれぞれについての任意の位置および配向とを指定してもよい。
【0563】
いくつかの例によれば、方法4900は、制御システムによって、DOAデータの一つまたは複数の要素に関連付けられた重み因子を受信することに関わってもよい。重み因子は、たとえば、DOAデータの前記一つまたは複数の要素の利用可能性および/または信頼性を示しうる。
【0564】
いくつかの例では、方法4900は、制御システムによって、オーディオ環境の少なくとも1つのオーディオ・デバイスによって放出され、オーディオ環境の少なくとも1つの他のオーディオ・デバイスによって受信される音に対応する到着時間(time of arrival、TOA)データを受信することに関わってもよい。いくつかのそのような例では、コスト関数は、TOAデータに少なくとも部分的に基づいていてもよい。いくつかのそのような方法は、少なくとも1つの再生レイテンシーおよび/または少なくとも1つの記録レイテンシーを推定することに関わってもよい。いくつかの例によれば、コスト関数は、再スケーリングされた位置、再スケーリングされたレイテンシー、および/または再スケーリングされた到着時間に関して作用してもよい。
【0565】
いくつかの例では、コスト関数は、DOAデータのみに依存する第1の項と、TOAデータのみに依存する第2の項とを含みうる。いくつかのそのような例では、第1の項は第1の重み因子を含んでいてもよく、第2の項は第2の重み因子を含んでいてもよい。いくつかのそのような例によれば、第2の項の一つまたは複数のTOA要素は、前記一つまたは複数のTOA要素のそれぞれの利用可能性または信頼性を示すTOA要素重み因子を有していてもよい。
【0566】
図50は、定位方法のもう一つの例を概説するフロー図である。方法5000のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。この実装では、方法5000は環境内のデバイスの位置および配向を推定することに関わる。方法5000のブロックは、図1Bに示される装置150であってもよい(またはそれを含んでいてもよい)一つまたは複数のデバイスによって実行されてもよい。
【0567】
この例では、ブロック5005は、制御システムによって、環境の第1のデバイスの少なくとも第1のトランシーバの送信に対応する到来方向(DOA)データを取得する。制御システムは、たとえば、図1Bを参照して上記に説明される制御システム160であってもよい。この例によれば、第1のトランシーバは、第1の送信機と第1の受信機とを含み、DOAデータは、環境の第2のデバイスの少なくとも第2のトランシーバによって受信された送信に対応してもよく、第2のトランシーバも、第2の送信機と第2の受信機とを含む。この例では、DOAデータは、少なくとも第1のトランシーバによって受信された少なくとも第2のトランシーバからの送信にも対応する。いくつかの例によれば、第1のトランシーバおよび第2のトランシーバは、電磁波を送信および受信するように構成されてもよい。いくつかの例では、第1および第2のスマート・オーディオ・デバイスは、図41に示されるオーディオ・デバイス4105a~4105dのうちの2つであってもよい。
【0568】
DOAデータは、特定の実装に依存してさまざまな仕方で取得されうる。いくつかの事例では、DOAデータを決定することは、図44を参照して上記で説明した、および/または「DOA堅牢性指標」のセクションにおいて説明したDOA関連方法のうちの一つまたは複数に関わってもよい。いくつかの実装は、制御システムによって、ビームフォーミング方法、ステアード・パワード応答方法、到着時間差方法、および/または構造化信号方法を使用して、DOAデータの一つまたは複数の要素を取得することに関わってもよい。いくつかの例によれば、DOAデータを決定することは、たとえば本稿に開示される方法の一つまたは複数による、音響較正信号を使うことに関わってもよい。本稿の他所でより詳細に開示されるように、いくつかのそのような方法は、オーディオ環境における複数のオーディオ・デバイスによって再生される音響較正信号を統率することに関わってもよい。
【0569】
この例によれば、ブロック5010は、制御システムによって、構成パラメータを受信することに関わる。この実装では、構成パラメータは、環境自体、オーディオ環境の一つまたは複数のデバイス、または環境とオーディオ環境の一つまたは複数のオーディオ・デバイスの両方に対応する。いくつかの例によれば、構成パラメータは、環境内のオーディオ・デバイスの数、環境の一つまたは複数の寸法、デバイス位置もしくは配向に対する一つまたは複数の制約条件、および/または回転、並進、もしくはスケーリングのうちの少なくとも1つについての曖昧さ解消データを示してもよい。いくつかの例では、構成パラメータは、再生レイテンシー・データ、記録レイテンシー・データおよび/またはレイテンシー対称性を曖昧さ解消するためのデータを含んでいてもよい。
【0570】
この例では、ブロック5015は、制御システムによって、少なくとも第1のデバイスおよび第2のデバイスの位置および配向を推定するために、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化することに関わる。
【0571】
いくつかの実装によれば、DOAデータはまた、環境の第3ないし第Nのデバイスの第3ないし第Nのトランシーバによって放出された送信に対応してもよく、Nは、環境のトランシーバの総数に対応する。DOAデータはまた、環境のすべての他のトランシーバから第1ないし第Nのトランシーバのそれぞれによって受信された送信に対応する。いくつかのそのような実装では、コスト関数を最小化することは、第3ないし第Nのトランシーバの位置および/または配向を推定することに関わってもよい。
【0572】
いくつかの例では、第1のデバイスおよび第2のデバイスは、スマート・オーディオ・デバイスであってもよく、前記環境はオーディオ環境であってもよい。いくつかのそのような例では、第1の送信機および第2の送信機はオーディオ送信機であってもよい。いくつかのそのような例では、第1の受信機および第2の受信機はオーディオ受信機であってもよい。いくつかのそのような例によれば、DOAデータはまた、オーディオ環境の第3ないし第Nのスマート・オーディオ・デバイスによって放出された音に対応してもよく、Nは、オーディオ環境のスマート・オーディオ・デバイスの総数に対応する。そのような例では、DOAデータはまた、オーディオ環境のすべての他のスマート・オーディオ・デバイスから第1ないし第Nのスマート・オーディオ・デバイスのそれぞれによって受信された音に対応してもよい。そのような事例では、コスト関数を最小化することは、第3ないし第Nのスマート・オーディオ・デバイスの位置および配向を推定することに関わってもよい。代替的および/または追加的に、いくつかの例では、DOAデータは、環境におけるデバイスによって放出され、受信される電磁波に対応してもよい。
【0573】
いくつかの例では、DOAデータはまた、環境の一つまたは複数の受動受信機によって受信された音に対応してもよい。前記一つまたは複数の受動受信機のそれぞれは、受信機アレイを含んでいてもよいが、送信機を欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数の受動受信機のそれぞれの推定された位置および配向を与えてもよい。いくつかの例によれば、DOAデータはまた、環境の一つまたは複数の送信機からの送信に対応してもよい。いくつかのそのような例では、前記一つまたは複数の送信機のそれぞれは、受信機アレイを欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数の送信機のそれぞれの推定された位置を与えてもよい。
【0574】
いくつかの例では、方法5000は、制御システムによって、コスト関数のためのシード・レイアウトを受信することに関わってもよい。シード・レイアウトは、たとえば、オーディオ環境内の送信機および受信機の正しい数と、オーディオ環境内の送信機および受信機のそれぞれについての任意の位置および配向とを指定してもよい。
【0575】
いくつかの例によれば、方法5000は、制御システムによって、DOAデータの一つまたは複数の要素に関連付けられた重み因子を受信することに関わってもよい。重み因子は、たとえば、DOAデータの前記一つまたは複数の要素の利用可能性および/または信頼性を示しうる。
【0576】
いくつかの例では、方法5000は、制御システムによって、オーディオ環境の少なくとも1つのオーディオ・デバイスによって放出され、オーディオ環境の少なくとも1つの他のオーディオ・デバイスによって受信される音に対応する到着時間(time of arrival、TOA)データを受信することに関わってもよい。いくつかのそのような例では、コスト関数は、TOAデータに少なくとも部分的に基づいていてもよい。いくつかの例によれば、TOAデータを決定することは、たとえば本稿に開示される方法の一つまたは複数による、音響較正信号を使うことに関わってもよい。本稿の他所でより詳細に開示されるように、いくつかのそのような方法は、オーディオ環境における複数のオーディオ・デバイスによって再生される音響較正信号を統率することに関わってもよい。いくつかのそのような方法は、少なくとも1つの再生レイテンシーおよび/または少なくとも1つの記録レイテンシーを推定することに関わってもよい。いくつかのそのような例によれば、コスト関数は、再スケーリングされた位置、再スケーリングされたレイテンシー、および/または再スケーリングされた到着時間に関して作用してもよい。
【0577】
いくつかの例では、コスト関数は、DOAデータのみに依存する第1の項と、TOAデータのみに依存する第2の項とを含みうる。いくつかのそのような例では、第1の項は第1の重み因子を含んでいてもよく、第2の項は第2の重み因子を含んでいてもよい。いくつかのそのような例によれば、第2の項の一つまたは複数のTOA要素は、前記一つまたは複数のTOA要素のそれぞれの利用可能性または信頼性を示すTOA要素重み因子を有していてもよい。
【0578】
図51は、この例では生活空間である別の聴取環境のフロアプランを示す。本明細書で提供される他の図と同様に、図51に示される要素のタイプ、数、および配置は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプ、数、および/または配置の要素を含んでいてもよい。他の例では、オーディオ環境は、オフィス環境、車両環境、公園または他の屋外環境など、別のタイプの環境でありうる。車両環境に関わるいくつかの詳細な例が以下で説明される。
【0579】
この例によれば、オーディオ環境5100は、左上の居間5110と、中央下のキッチン5115と、右下の寝室5122とを含む。図51の例では、生活空間全体に分散された四角および円は、ラウドスピーカー5105a、5105b、5105c、5105d、5105e、5105f、5105gおよび5105hのセットを表し、それらの少なくともいくつかは、いくつかの実装ではスマート・スピーカーでありうる。この例では、ラウドスピーカー5105a~5105hは、生活空間に都合のよい位置に配置されているが、ラウドスピーカー5105a~5105hは、ドルビー5.1、ドルビー7.1などの任意の標準的な「正準(canonical)」ラウドスピーカー・レイアウトに対応する位置にはない。いくつかの例では、ラウドスピーカー5105a~5105hは、一つまたは複数の開示される実施形態を実装するように協働させられてもよい。
【0580】
柔軟レンダリングは、図51に表されるラウドスピーカーなど、任意の数の任意に配置されたラウドスピーカーを通じて空間的オーディオをレンダリングするための技法である。家庭におけるスマート・オーディオ・デバイス(たとえば、スマート・スピーカー)、ならびにいかなる標準的な「正準」ラウドスピーカー・レイアウトに従って位置するのでもない他のオーディオ・デバイスの広範な展開により、オーディオ・データの柔軟なレンダリングおよびそのようにレンダリングされたオーディオ・データの再生を実装することが有利でありうる。
【0581】
柔軟なレンダリングを実装するために、質量中心振幅パン(Center of Mass Amplitude Panning、CMAP)および柔軟仮想化(Flexible Virtualization、FV)を含むいくつかの技術が開発されている。これらの技術の両方は、レンダリング問題をコスト関数最小化の問題にキャストし、ここで、コスト関数は、レンダラーが達成しようとしている所望の空間的印象をモデル化する第1の項と、スピーカーをアクティブ化することにコストを割り当てる第2の項とを少なくとも含む。CMAP、FV、およびそれらの組み合わせの詳細な例は、特許文献2に記載されており、これは参照により本明細書に組み込まれる。
【特許文献2】国際公開第2021/021707号、2021年2月4日公開、名称「MANAGING PLAYBACK OF MULTIPLE STREAMS OF AUDIO OVER MULTIPLE SPEAKER」、第25頁第8行から第31頁第27行
【0582】
しかしながら、本明細書で開示される柔軟レンダリングに関わる方法は、CMAPおよび/またはFVベースの柔軟レンダリングに限定されない。そのような方法は、ベクトル・ベース振幅パニング(vector base amplitude panning、VBAP)など、任意の適切なタイプの柔軟レンダリングによって実装されうる。関連するVBAP方法は、非特許文献2に開示されており、これは参照により本明細書に組み込まれる。他の適切なタイプの柔軟レンダリングは、参照により本明細書に組み込まれる非特許文献3に記載されているものなど、デュアル・バランス・パニング(dual-balance panning)およびアンビソニックス・ベースの柔軟レンダリング方法を含むがそれに限定されない。
【非特許文献2】Pulkki, Ville、"Virtual Sound Source Positioning Using Vector Base Amplitude Panning"、J. Audio Eng. Soc.、Vol.45、No.6、June 1997
【非特許文献3】D. Arteaga、"An Ambisonics Decoder for Irregular 3-D Loudspeaker Arrays"、Paper 8918、2013年5月
【0583】
いくつかの事例では、柔軟レンダリングは、図51に示されるオーディオ環境座標系5117などの座標系に対して実行されうる。この例によれば、オーディオ環境座標系5117は、2次元デカルト座標系である。この例では、オーディオ環境座標系5117の原点はラウドスピーカー5105a内にあり、x軸はラウドスピーカー5105aの長軸に対応する。他の実装では、オーディオ環境座標系5117は、デカルト座標系であってもなくてもよい3次元座標系でありうる。
【0584】
さらに、座標系の原点は、必ずしもラウドスピーカーまたはラウドスピーカー・システムに関連付けられる必要はない。いくつかの実装では、座標系の原点は、オーディオ環境5100の別の位置にありうる。代替オーディオ環境座標系5117'の位置は、そのような一例を提供する。この例では、代替オーディオ環境座標系5117'の原点は、xおよびyの値がオーディオ環境5100内のすべての位置について正であるように選択されている。場合によっては、座標系の原点および配向は、オーディオ環境5100内の人の頭部の位置および配向に対応するように選択されてもよい。いくつかのそのような実装では、人の視線方向は、座標系の軸に沿っていてもよい(たとえば、正のy軸に沿っていてもよい)。
【0585】
いくつかの実装では、制御システムは、オーディオ環境における各参加ラウドスピーカー(たとえば、それぞれのアクティブなラウドスピーカーおよび/またはオーディオ・データがそれのためにレンダリングされるそれぞれのラウドスピーカー)の位置(および、いくつかの例では、配向)に少なくとも部分的に基づいて、柔軟レンダリング・プロセスを制御しうる。いくつかのそのような実装によれば、制御システムは、オーディオ環境座標系5117などの座標系に従って各参加ラウドスピーカーの位置(および、いくつかの例では、配向)をあらかじめ決定していることがあり、対応するラウドスピーカー位置データをデータ構造に記憶していることがある。オーディオ・デバイス位置を決定するためのいくつかの方法が、本明細書で開示される。
【0586】
いくつかのそのような実装によれば、統率デバイス(これはいくつかの事例では、ラウドスピーカー5105a~5105hのうちの1つでありうる)のための制御システムは、テレビ5130などのオーディオ環境5100の特定の要素またはエリアがオーディオ環境の前方〔正面〕および中央を表すように、オーディオ・データをレンダリングしうる。そのような実装は、映画、テレビ番組、またはテレビ5130上に表示されている他のコンテンツのためのオーディオの再生など、いくつかの使用事例にとって有利でありうる。
【0587】
しかしながら、テレビ5130上に表示されているコンテンツに関連付けられていない音楽の再生など、他の使用事例については、そのようなレンダリング方法は最適でないことがある。そのような代替使用事例では、レンダリングされた音場の前方および中央がオーディオ環境5100内の人の位置および配向に対応するように、再生のためにオーディオ・データをレンダリングすることが望ましい場合がある。
【0588】
たとえば、人物5120aを参照すると、レンダリングされた音場の前方および中央が、人物5120aの位置からの矢印5123aの方向によって示される人物5120aの観察方向に対応するように、再生のためにオーディオ・データをレンダリングすることが望ましい場合がある。この例では、人物5120aの位置は、人物5120aの頭部の中心にある点5121aによって示される。いくつかの例では、人5120aのための再生のためにレンダリングされるオーディオ・データの「スイートスポット」は、点5121aに対応しうる。オーディオ環境における人の位置および配向を決定するためのいくつかの方法が以下に説明される。いくつかのそのような例では、人の位置および配向は、椅子5125の位置および配向などの家具の位置および配向に従って決定されうる。
【0589】
この例によれば、人物5120bおよび5120cの位置は、それぞれ点5121bおよび5121cによって表される。ここで、人物5120bおよび5120cの正面が、それぞれ矢印5123bおよび5123cによって表される。点5121a、5121bおよび5121cの位置、ならびに矢印5123a、5123bおよび5123cの配向は、オーディオ環境座標系5117などの座標系に対して決定されうる。上述したように、いくつかの例では、座標系の原点および配向は、オーディオ環境5100内の人の頭部の位置および配向に対応するように選択されうる。
【0590】
いくつかの例では、人5120bのための再生のためにレンダリングされるオーディオ・データの「スイートスポット」は、ポイント5121bに対応しうる。同様に、人5120cのための再生のためにレンダリングされるオーディオ・データの「スイートスポット」は、点5121cに対応しうる。人5120aのための再生のためにレンダリングされるオーディオ・データの「スイートスポット」が点5121aに対応する場合、このスイートスポットは、点5121bまたは点5121cに対応しないことが観察されうる。
【0591】
また、人物5120bのためにレンダリングされる音場の前方および中央エリアは、理想的には矢印5123bの方向に対応するべきである。同様に、人物5120cのためにレンダリングされる音場の前方および中央エリアは、理想的には矢印5123cの方向に対応するべきである。人5120a、5120bおよび5120cに対する前方および中央エリアはすべて異なることが観察されうる。よって、以前に開示された諸方法を介して、これらの人々のうちのいずれか1人の位置および配向に従ってレンダリングされたオーディオ・データは、他の2人の人の位置および配向にとって最適ではない。
【0592】
しかしながら、さまざまな開示される実装は、複数のスイートスポットについて、およびいくつかの事例では複数の配向について、オーディオ・データを十分にレンダリングすることが可能である。いくつかのそのような方法は、共通のラウドスピーカーのセットを通じて異なる聴取構成のために同じオーディオ・コンテンツの2つ以上の異なる空間レンダリングを作成することと、周波数にわたってそれらのレンダリングを多重化することによってそれらの異なる空間レンダリングを組み合わせることとに関わる。いくつかのそのような例では、人間の聴覚範囲(たとえば、20Hz~20,000Hz)に対応する周波数スペクトルは、複数の周波数帯域に分割されうる。いくつかのそのような例によれば、異なる空間レンダリングのそれぞれは、周波数帯域の異なるセットを介して再生される。いくつかのそのような例では、周波数帯域の各セットに対応するレンダリングされたオーディオ・データは、ラウドスピーカー・フィード信号の単一の出力セットに組み合わされうる。結果は、複数の位置のそれぞれについて、場合によっては複数の配向のそれぞれについて、空間オーディオを提供しうる。
【0593】
いくつかの実装では、聴取者の数およびそれらの位置(および、いくつかの事例では、それらの配向)は、図51のオーディオ環境5100等のオーディオ環境内の一つまたは複数のカメラからのデータに従って決定されてもよい。この例では、オーディオ環境5100は、環境全体に分散されたカメラ5111a~5111eを含む。いくつかの実装では、オーディオ環境5100内の一つまたは複数のスマート・オーディオ・デバイスも、一つまたは複数のカメラを含みうる。前記一つまたは複数のスマート・オーディオ・デバイスは、単一目的オーディオ・デバイスまたは仮想アシスタントであってもよい。いくつかのそのような例では、任意的なセンサー・システム180(図1B参照)の一つまたは複数のカメラは、テレビ5130の中もしくは上、携帯電話の中、またはラウドスピーカー5105b、5105d、5105e、もしくは5105hのうちの一つまたは複数などのスマート・スピーカーの中に存在してもよい。カメラ5111a~5111eは、本開示で提示されるオーディオ環境のすべての描写に示されているわけではないが、それでもなお、いくつかの実装では、オーディオ環境のそれぞれが一つまたは複数のカメラを含んでいてもよい。
【0594】
(いくつかの実施形態による)柔軟なレンダリングを実装する際の実際的な考慮事項の1つは、複雑さである。場合によっては、特定のデバイスの処理能力が与えられると、リアルタイムで各オーディオ・オブジェクトについて各周波数帯域について正確なレンダリングを実行することが実現可能でないことがある。1つの課題は、レンダリングされるべき少なくともいくつかのオーディオ・オブジェクトのオーディオ・オブジェクト位置(これはいくつかの事例ではメタデータによって示されうる)が、毎秒何度も変化しうることである。レンダリングは複数の聴取構成のそれぞれについて実行されうるので、いくつかの開示される実装については、複雑さが増すことがある。
【0595】
メモリを犠牲にして複雑さを低減するための代替的な手法は、すべての可能なオブジェクト位置について3次元空間における(たとえば、スピーカー・アクティベーションの)サンプルを含む一つまたは複数のルックアップ・テーブル(または他のそのようなデータ構造)を使用することである。サンプリングは、特定の実装に依存して、すべての次元において同じであってもなくてもよい。いくつかのそのような例では、複数の聴取構成のそれぞれについて、1つのそのようなデータ構造が作成されうる。代替的または追加的に、それぞれ複数の聴取構成のうちの異なるものに対応しうる複数のデータ構造の合計によって、単一のデータ構造が作成されてもよい。
【0596】
図52は、ある例示的実施形態における、スピーカー・アクティベーションを示す点のグラフである。この例では、xおよびy次元は15点でサンプリングされ、z次元は5点でサンプリングされる。この例によれば、各点は、M個のスピーカー・アクティベーションを表し、オーディオ環境におけるM個のスピーカーのそれぞれについて1つのスピーカー・アクティベーションがある。スピーカー・アクティベーション(speaker activation)は、いくつかの例では、フィルタバンク解析に関連付けられたN個の周波数帯域のそれぞれについての利得または複素値でありうる。いくつかの例では、1つのそのようなデータ構造が、単一の聴取構成について作成されうる。いくつかのそのような例によれば、複数の聴取構成のそれぞれについて、1つのそのようなデータ構造が作成されうる。いくつかのそのような例では、単一のデータ構造は、上記で参照されたN個の周波数帯域など、複数の周波数帯域にわたって複数の聴取構成に関連するデータ構造を多重化することによって作成されうる。言い換えれば、データ構造の帯域ごとに、複数の聴取構成のうちの1つからのアクティベーションが選択されうる。ひとたびこの単一の多重化されたデータ構造が作成されると、それは、図54および図55を参照して以下で説明するような複数のレンダラー実装の機能と同等の機能を達成するために、レンダラーの単一のインスタンスに関連付けられてもよい。いくつかの例によれば、図52に示される点は、それぞれが異なる聴取構成に対応する複数のデータ構造を多重化することによって作成された単一のデータ構造についてのスピーカー・アクティベーション値に対応しうる。
【0597】
他の実装は、より多くのサンプルまたはより少ないサンプルを含んでいてもよい。たとえば、いくつかの実装では、スピーカー・アクティベーションのための空間サンプリングは均一でなくてもよい。いくつかの実装は、図52に示されているよりも多いまたは少ないxy平面におけるスピーカー・アクティベーション・サンプルに関わってもよい。いくつかのそのような実装は、1つのxy平面のみにおいてスピーカー・アクティベーション・サンプルを決定してもよい。この例によれば、各点は、CMAP、FV、VBAPまたは他の柔軟なレンダリング方法のためのM個のスピーカー・アクティベーションを表す。いくつかの実装では、図52に示されるもの等のスピーカー・アクティベーションのセットは、本明細書で「テーブル」(または図52に示されるような「デカルト・テーブル」)と称されうるデータ構造に記憶されてもよい。
【0598】
所望のレンダリング位置は、それについてスピーカー・アクティベーションが計算されたところの位置に必ずしも対応しない。実行時に、各スピーカーについての実際のアクティベーションを決定するために、何らかの形の補間が実装されうる。いくつかのそのような例では、所望のレンダリング位置に最も近い8つの点のスピーカー・アクティベーション間の三重線形〔トリリニア〕補間が使用されうる。
【0599】
図53は、一例による、スピーカー・アクティベーションを示す点の間の三重線形補間のグラフである。この例によれば、図53に示される直角プリズムの頂点またはその近くの黒丸5303は、それについてスピーカー・アクティベーションが計算されたところの所望のレンダリング位置に最も近い8点の位置に対応する。この場合、所望のレンダリング位置は、図53に提示される直角プリズム内の点である。この例では、相続く線形補間のプロセスは、第1および第2の補間点5305aおよび5305bを決定するための上部平面内の点の各対の補間、第3および第4の補間された点5310aおよび5310bを決定するための下部平面内の点の各対の補間、上部平面内の第5の補間された点5315を決定するための第1および第2の補間された点5305aおよび5305bの補間、下部平面内の第6の補間された点5320を決定するための第3および第4の補間された点5310aおよび5310bの補間、ならびに上部平面と下部平面との間の第7の補間された点5325を決定するための第5および第6の補間された点5315および5320の補間を含む。
【0600】
三重線形補間は効果的な補間方法であるが、当業者は、三重線形補間は、本開示の諸側面を実装する際に使用されうる1つの可能な補間方法にすぎず、他の例は他の補間方法を含みうることを理解するであろう。たとえば、いくつかの実装は、図52に示されるよりも多いまたは少ないxy平面における補間に関わってもよい。いくつかのそのような実装は、1つのxy平面のみにおける補間に関わってもよい。いくつかの実装では、所望のレンダリング位置についてのスピーカー・アクティベーションは、単に、それについてのスピーカー・アクティベーションが計算されたところの、所望のレンダリング位置に最も近い位置のスピーカー・アクティベーションに設定される。
【0601】
図54は、別の実施形態の最小バージョンのブロック図である。N個のプログラム・ストリーム(N≧2)が描かれており、その第1のものが空間的であるとして明示的にラベル付けされている。これらのストリームの対応するオーディオ信号の集まりは、レンダラーを通じてフィードされ、それらのレンダラーはそれぞれ、その対応するプログラム・ストリームの、M個の任意に離間したラウドスピーカー(M≧2)からなる共通セットを通じた再生のために個々に構成されている。それらのレンダラーは、本稿では「レンダリング・モジュール」と称されうる。レンダリング・モジュールおよびミキサー5430aは、ソフトウェア、ハードウェア、ファームウェアまたはそれらの何らかの組み合わせを介して実装されうる。この例では、レンダリング・モジュールおよびミキサー5430aは、図1Bを参照して上記した制御システム160のインスタンスである制御システム160aを介して実装される。N個のレンダラーのそれぞれは、M個のラウドスピーカー・フィードのセットを出力し、それらはM個のラウドスピーカーを通じた同時再生のためにN個のレンダラーすべてにあたって合計される。この実装によれば、聴取環境内のM個のラウドスピーカーのレイアウトについての情報はすべてのレンダラーに提供され、そのことは、ラウドスピーカー・ブロックからの破線のフィードバックによって示されており、これにより、それらのレンダラーは、これらのスピーカーを通じた再生のために適正に構成されうる。このレイアウト情報は、特定の実装に依存して、それらのスピーカー自身のうちの一つまたは複数から送信されてされなくてもよい。いくつかの例によれば、レイアウト情報は、聴取環境におけるM個のラウドスピーカーのそれぞれの相対位置を決定するように構成された一つまたは複数のスマート・スピーカーによって提供されうる。いくつかのそのような自動位置特定方法は、たとえば、本明細書で開示されるように、到来方向(DOA)方法および/または到着時間(TOA)方法に基づいていてもよい。他の例では、このレイアウト情報は、別のデバイスによって決定されてもよく、および/またはユーザーによって入力されてもよい。いくつかの例では、聴取環境内のM個のラウドスピーカーのうちの少なくともいくつかの能力に関するラウドスピーカー仕様情報が、すべてのレンダラーに提供されてもよい。この例によれば、追加のプログラム・ストリームのうちの一つまたは複数のレンダリングからの情報が、前記一次空間ストリームのレンダラーに供給され、それにより前記レンダリングが前記情報の関数として動的に修正されうる。この情報は、レンダリング・ブロック2ないしNからレンダリング・ブロック1に戻る破線によって表されている。
【0602】
図55は、追加的な特徴をもつ別の(より能力のある)実施形態を示す。この例では、レンダリング・モジュールおよびミキサー5430bは、図1Bを参照して上述した制御システム160のインスタンスである制御システム160bを介して実装される。このバージョンでは、N個のレンダラーすべての間で上下に進む破線は、N個のレンダラーのうちの任意のものが、残りのN-1個のレンダラーのうちの任意のものの動的修正に寄与しうるという発想を表す。言い換えれば、N個のプログラム・ストリームのうちの任意のもののレンダリングは、残りのN-1個のプログラム・ストリームのうちの任意のものの一つまたは複数のレンダリングの組み合わせに応じて動的に変更されうる。さらに、プログラム・ストリームのうちの任意の一つまたは複数は、空間的ミックスであってもよく、任意のプログラム・ストリームのレンダリングが、それが空間的であるか否かにかかわらず、他のプログラム・ストリームのうちの任意のものの関数として動的に修正されてもよい。ラウドスピーカー・レイアウト情報は、たとえば上述したように、N個のレンダラーに提供されてもよい。いくつかの例では、ラウドスピーカー仕様情報がN個のレンダラーに提供されうる。いくつかの実装では、マイクロフォン・システム5511は、聴取環境内にK個のマイクロフォンのセット(K≧1)を含んでいてもよい。

いくつかの例では、マイクロフォン(単数または複数)は、ラウドスピーカーのうちの前記一つまたは複数に取り付けられるか、または関連付けられてもよい。これらのマイクロフォンは、実線によって表されるそれらの捕捉されたオーディオ信号と、破線によって表される追加的な構成情報(たとえば、それらの位置)との両方を、N個のレンダラーのセットにフィードバックしうる。次いで、N個のレンダラーの任意のものが、この追加的なマイクロフォン入力の関数として動的に修正されうる。さまざまな例が、ここに参照によって組み込まれる、2020年7月27日に出願されたPCT出願US20/43696において提供されている。
【0603】
マイクロフォン入力から導出され、その後、N個のレンダラーのいずれかを動的に修正するために使用される情報の例は、以下を含むが、それらに限定されない。
・システムのユーザーによる特定の単語または句の発声の検出。
・システムの一または複数のユーザーの位置の推定値。
・聴取空間内の特定の位置におけるN個のプログラム・ストリームの任意の組み合わせのラウドネスの推定値。
・聴取環境における背景ノイズなどの他の環境音のラウドネスの推定値。
【0604】
図56は、開示された方法の別の例を概説するフロー図である。方法5600のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。方法5600は、図1Bに示され上述された装置150などの装置またはシステムによって実行されてもよい。いくつかの例では、方法5600は、図27Aを参照して上述された統率されるオーディオ・デバイス2720a~2720nのうちの1つによって実行されうる。
【0605】
この例では、ブロック5605は、制御システムによって、第1のオーディオ信号を含む第1のコンテンツ・ストリームを受信することに関わる。コンテンツ・ストリームおよび第1のオーディオ信号は、特定の実装に従って変化しうる。いくつかの事例では、コンテンツ・ストリームは、テレビ番組、映画、音楽、ポッドキャストなどに対応しうる。
【0606】
この例によれば、ブロック5610は、制御システムによって、第1のオーディオ再生信号を生成するために第1のオーディオ信号をレンダリングすることに関わる。第1のオーディオ再生信号は、オーディオ・デバイスのラウドスピーカー・システムのためのラウドスピーカー・フィード信号であってもよく、またはそれを含んでいてもよい。
【0607】
この例では、ブロック5615は、制御システムによって、第1の較正信号を生成することに関わる。この例によれば、第1の較正信号は、本明細書で音響較正信号と呼ばれる信号に対応する。いくつかの事例では、第1の較正信号は、図27Aを参照して上記で説明される較正信号生成器2725等の一つまたは複数の較正信号生成器モジュールによって生成されてもよい。
【0608】
この例によれば、ブロック5620は、制御システムによって、第1の較正信号を第1のオーディオ再生信号に挿入して、第1の修正オーディオ再生信号を生成することに関わる。いくつかの例では、ブロック5620は、図27Aを参照して上述された較正信号注入器2723によって実行されうる。
【0609】
この例では、ブロック5625は、制御システムによって、ラウドスピーカー・システムに、第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させることに関わる。いくつかの例では、ブロック5620は、制御システムが図27Aのラウドスピーカー・システム2731を制御して、第1の修正オーディオ再生信号を再生し、第1のオーディオ・デバイス再生音を生成させることに関わってもよい。
【0610】
いくつかの実装では、方法5600は、制御システムによって、マイクロフォン・システムから、少なくとも第1のオーディオ・デバイス再生音および第2のオーディオ・デバイス再生音に対応するマイクロフォン信号を受信することに関わってもよい。第2のオーディオ・デバイス再生音は、第2のオーディオ・デバイスによって再生される第2の修正オーディオ再生信号に対応しうる。いくつかの例では、第2の修正オーディオ再生信号は、第2のオーディオ・デバイスによって生成された第2の較正信号を含んでいてもよい。いくつかのそのような例では、方法5600は、制御システムによって、マイクロフォン信号から少なくとも第2の較正信号を抽出することに関わってもよい。
【0611】
いくつかの実装によれば、方法5600は、制御システムによって、マイクロフォン・システムから、少なくとも第1のオーディオ・デバイス再生音および第2ないし第Nのオーディオ・デバイス再生音に対応するマイクロフォン信号を受信することに関わってもよい。第2ないし第Nのオーディオ・デバイス再生音は、第2ないし第Nのオーディオ・デバイスによって再生された第2ないし第Nの修正オーディオ再生信号に対応しうる。いくつかの事例では、第2ないし第Nの修正オーディオ再生信号は、第2ないし第Nの較正信号を含んでいてもよい。いくつかのそのような例では、方法5600は、制御システムによって、マイクロフォン信号から少なくとも第2ないし第Nの較正信号を抽出することに関わってもよい。
【0612】
いくつかの実装では、方法5600は、制御システムによって、第2ないし第Nの較正信号に少なくとも部分的に基づいて、少なくとも1つの音響シーン・メトリックを推定することに関わってもよい。いくつかの例では、音響シーンメトリック(単数または複数)は、飛行時間、到着時間、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、および/または信号対雑音比であってもよく、またはそれらを含みうる。
【0613】
いくつかの例によれば、方法5600は、少なくとも1つの音響シーン・メトリックおよび/または少なくとも1つのオーディオ・デバイス特性に少なくとも部分的に基づいて、オーディオ・デバイス再生の一つまたは複数の側面を制御すること(および/またはオーディオ・デバイス再生の一つまたは複数の側面を制御されること)に関わってもよい。いくつかのそのような例では、統率デバイスは、少なくとも1つの音響シーン・メトリックおよび/または少なくとも1つのオーディオ・デバイス特性に少なくとも部分的に基づいて、一つまたは複数の統率されたデバイスによるオーディオ・デバイス再生の一つまたは複数の側面を制御しうる。いくつかの実装では、統率されるデバイスの制御システムは、少なくとも1つの音響シーン・メトリックを統率デバイスに提供するように構成されうる。いくつかのそのような実装では、統率されるデバイスの制御システムは、少なくとも1つの音響シーン・メトリックに少なくとも部分的に基づいてオーディオ・デバイス再生の一つまたは複数の側面を制御するための命令を統率デバイスから受信するように構成されうる。
【0614】
いくつかの例によれば、第1のオーディオ・デバイス再生音の第1のコンテンツ・ストリーム成分は、第1のオーディオ・デバイス再生音の第1の較正信号成分の知覚的マスキングを引き起こしうる。いくつかのそのような例では、第1の較正信号成分は、人間に可聴でなくてもよい。
【0615】
いくつかの例では、方法5600は、統率されるオーディオ・デバイスの制御システムによって、統率デバイスから一つまたは複数の較正信号パラメータを受信することに関わってもよい。一つまたは複数の較正信号パラメータは、較正信号の生成のために、統率されるオーディオ・デバイスの制御システムによって使用可能でありうる。
【0616】
いくつかの実装では、前記一つまたは複数の較正信号パラメータは、修正オーディオ再生信号を再生するための時間スロットをスケジュールするためのパラメータを含みうる。いくつかのそのような例では、第1のオーディオ・デバイスのための第1の時間スロットは、第2のオーディオ・デバイスのための第2の時間スロットとは異なりうる。
【0617】
いくつかの例によれば、前記一つまたは複数の較正信号パラメータは、較正信号を含む修正オーディオ再生信号の再生のための周波数帯域を決定するためのパラメータを含みうる。いくつかのそのような例では、第1のオーディオ・デバイスのための第1の周波数帯域は、第2のオーディオ・デバイスのための第2の周波数帯域とは異なりうる。
【0618】
いくつかの事例では、前記一つまたは複数の較正信号パラメータは、較正信号を生成するための拡散符号を含みうる。いくつかのそのような例では、第1のオーディオ・デバイスのための第1の拡散符号は、第2のオーディオ・デバイスのための第2の拡散符号とは異なりうる。
【0619】
いくつかの例では、方法5600は、受信されたマイクロフォン信号を処理して、前処理されたマイクロフォン信号を生成することに関わってもよい。いくつかのそのような例は、前処理されたマイクロフォン信号から較正信号を抽出することに関わってもよい。受信されたマイクロフォン信号を処理することは、たとえば、ビームフォーミング、帯域通過フィルタの適用、および/またはエコー消去に関わってもよい。
【0620】
いくつかの実装によれば、マイクロフォン信号から少なくとも第2ないし第Nの較正信号を抽出することは、マイクロフォン信号またはマイクロフォン信号の前処理されたバージョンに整合フィルタを適用して、第2ないし第Nの遅延波形を生成することに関わってもよい。第2ないし第Nの遅延波形は、たとえば、第2から第Nの較正信号のそれぞれに対応しうる。いくつかのそのような例は、第2ないし第Nの遅延波形のそれぞれに低域通過フィルタを適用することに関わってもよい。
【0621】
いくつかの例では、方法5600は、制御システムを介して復調器を実装することに関わってもよい。いくつかのそのような例は、復調器によって実行される復調プロセスの一部として整合フィルタを適用することに関わってもよい。いくつかのそのような例では、復調プロセスの出力は、復調されたコヒーレントなベースバンド信号でありうる。いくつかの例は、制御システムを介してバルク遅延を推定することと、バルク遅延推定を復調器に提供することとに関わってもよい。
【0622】
いくつかの例では、方法5600は、制御システムを介して、復調されたコヒーレントなベースバンド信号のベースバンド処理のために構成されたベースバンド・プロセッサを実装することに関わってもよい。いくつかのそのような例では、ベースバンド・プロセッサは、少なくとも1つの推定された音響シーン・メトリックを出力するように構成されうる。いくつかの例では、ベースバンド処理は、インコヒーレント積分期間中に受信された復調されたコヒーレントなベースバンド信号に基づいて、インコヒーレントに積分された遅延波形を生成することに関わってもよい。いくつかのそのような例では、インコヒーレントに積分された遅延波形を生成することは、インコヒーレント積分期間中に受信された復調されたコヒーレントなベースバンド信号を二乗して、二乗された復調されたベースバンド信号を生成することと、二乗された復調されたベースバンド信号を積分することとに関わってもよい。いくつかの例では、ベースバンド処理は、前縁推定プロセス、ステアード応答パワー推定プロセス、または信号対雑音推定プロセスのうちの一つまたは複数をインコヒーレントに積分された遅延波形に適用することに関わってもよい。いくつかの例は、制御システムを介してバルク遅延を推定することと、バルク遅延推定をベースバンド・プロセッサに提供することとに関わってもよい。
【0623】
いくつかの例によれば、方法5600は、制御システムによって、第2ないし第Nの遅延波形に基づいて第2ないし第Nのオーディオ・デバイス位置における第2ないし第Nのノイズ・パワー・レベルを推定することに関わってもよい。いくつかのそのような例は、第2ないし第Nのノイズ・パワー・レベルに少なくとも部分的に基づいて、オーディオ環境についての分散されたノイズ推定値を生成することに関わってもよい。
【0624】
いくつかの例では、方法5600は、統率デバイスからギャップ命令を受信することと、第1のギャップ命令に従って、第1のコンテンツ・ストリームの第1の時間区間中に第1のオーディオ再生信号または第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入することとに関わってもよい。第1のギャップは、第1の周波数範囲における第1のオーディオ再生信号の減衰であってもよい。いくつかの例では、第1の修正オーディオ再生信号および第1のオーディオ・デバイス再生音は、前記第1のギャップを含む。
【0625】
いくつかの例によれば、ギャップ命令は、較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないように、ギャップ挿入および較正信号生成を制御するための命令を含みうる。いくつかの例では、ギャップ命令は、受信されたマイクロフォン・データからターゲットデバイスオーディオデータおよび/またはオーディオ環境ノイズ・データを抽出するための命令を含みうる。
【0626】
いくつかの例によれば、方法5600は、制御システムによって、オーディオ環境の一つまたは複数のオーディオ・デバイスによって生成された再生音が一つまたは複数のギャップを含む間に、受信されたマイクロフォン・データから抽出されたデータに少なくとも部分的に基づいて、少なくとも1つの音響シーン・メトリックを推定することに関わってもよい。いくつかのそのような例では、音響シーン・メトリックは、飛行時間、到着時間、レンジ(range)、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、および/または信号対雑音比のうちの一つまたは複数を含む。
【0627】
いくつかの実装によれば、制御システムは、ウェイクワード検出器を実装するように構成されうる。いくつかのそのような例では、方法5600は、受信されたマイクロフォン信号中のウェイクワードを検出することに関わってもよい。いくつかの例によれば、方法5600は、ウェイクワード検出器から受信されたウェイクワード検出データに基づいて一つまたは複数の音響シーン・メトリックを決定することに関わってもよい。
【0628】
いくつかのそのような例では、方法5600は、ノイズ補償機能を実装することに関わってもよい。いくつかのそのような例によれば、ノイズ補償機能は、再生されるオーディオ・データに挿入された強制ギャップを「通して聴く」(listen through)ことによって検出された環境ノイズに応答して実装されうる。
【0629】
いくつかの例によれば、レンダリングは、制御システムによって実装されたレンダリング・モジュールによって実行されうる。いくつかのそのような例では、レンダリング・モジュールは、統率デバイスから受信されたレンダリング命令に少なくとも部分的に基づいてレンダリングを実行するように構成されうる。いくつかのそのような例によれば、レンダリング命令は、統率デバイスのレンダリング構成生成器、ユーザー・ゾーン分類器、および/または統率モジュールからの命令を含みうる。
【0630】
さまざまな特徴および側面が、以下の箇条書き例示的実施形態(enumerated example embodiment、EEE)から理解されるであろう。
〔EEE1〕
インターフェース・システムと;
統率モジュール〔オーケストレーション・モジュール〕を実装するように構成された制御システムとを有する装置であって、
前記統率モジュールは:
オーディオ環境の第1の統率されるオーディオ・デバイスに第1の較正信号を生成させる段階と;
前記第1の統率されるオーディオ・デバイスに、前記第1の較正信号を第1のコンテンツ・ストリームに対応する第1のオーディオ再生信号に挿入させて、前記第1の統率されるオーディオ・デバイスについての第1の修正オーディオ再生信号を生成させる段階と;
前記第1の統率されるオーディオ・デバイスに、前記第1の修正オーディオ再生信号を再生させて、第1の統率されるオーディオ・デバイス再生音を生成させる段階と;
前記オーディオ環境の第2の統率されるオーディオ・デバイスに第2の較正信号を生成させ段階と;
前記第2の統率されるオーディオ・デバイスに、第2の較正信号を第2のコンテンツ・ストリームに挿入させて、前記第2の統率されるオーディオ・デバイスについての第2の修正オーディオ再生信号を生成させる段階と;
前記第2の統率されるオーディオ・デバイスに、前記第2の修正オーディオ再生信号を再生させて、第2の統率されるオーディオ・デバイス再生音を生成させる段階と;
前記オーディオ環境における少なくとも1つの統率されるオーディオ・デバイスの少なくとも1つのマイクロフォンに、少なくとも前記第1の統率されるオーディオ・デバイス再生音および前記第2の統率されるオーディオ・デバイス再生音を検出させ、少なくとも前記第1の統率されるオーディオ・デバイス再生音および前記第2の統率されるオーディオ・デバイス再生音に対応するマイクロフォン信号を生成させる段階と;
前記少なくとも1つの統率されるオーディオ・デバイスに、前記第1の較正信号および前記第2の較正信号を前記マイクロフォン信号から抽出させる段階と;
前記少なくとも1つの統率されるオーディオ・デバイスに、少なくとも1つの音響シーン・メトリックを、前記第1の較正信号および前記第2の較正信号に少なくとも部分的に基づいて推定させる段階とを実行するように構成されている、
装置。
〔EEE2〕
前記第1の較正信号は、前記第1の統率されるオーディオ・デバイス再生音の第1の可聴以下成分に対応し、前記第2の較正信号は、前記第2の統率されるオーディオ・デバイス再生音の第2の可聴以下成分に対応する、EEE1に記載の装置。
〔EEE3〕
前記第1の較正信号は、第1のDSSS信号を含み、前記第2の較正信号は、第2のDSSS信号を含む、EEE1または2に記載の装置。
〔EEE4〕
前記統率モジュールはさらに:
前記第1の統率されるオーディオ・デバイスに、前記第1のコンテンツ・ストリームの第1の時間区間中に、前記第1のオーディオ再生信号または前記第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入させる段階であって、前記第1のギャップは、前記第1の周波数範囲における前記第1のオーディオ再生信号の減衰を含み、前記第1の修正オーディオ再生信号および前記第1の統率されるオーディオ・デバイス再生音は、前記第1のギャップを含む、段階と;
前記第2の統率されるオーディオ・デバイスに、前記第1の時間区間中に前記第2のオーディオ再生信号または前記第2の修正オーディオ再生信号の前記第1の周波数範囲内に前記第1のギャップを挿入させる段階であって、前記第2の修正オーディオ再生信号および前記第2の統率されるオーディオ・デバイス再生音は、前記第1のギャップを含む、段階と;
少なくとも前記第1の周波数範囲における前記マイクロフォン信号からのオーディオ・データを抽出させて、抽出されたオーディオ・データを生成させる段階と;
前記少なくとも1つの音響シーン・メトリックを、前記抽出されたオーディオ・データに少なくとも部分的に基づいて決定させる段階とを実行するようにさらに構成されている、
EEE1ないし3のうちいずれか一項に記載の装置。
〔EEE5〕
前記統率モジュールが、較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないように、ギャップ挿入および較正信号生成を制御するようにさらに構成されている、EEE4に記載の装置。
〔EEE6〕
前記統率モジュールが、少なくとも1つの周波数帯域においてノイズが推定されてからの時間に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御するようにさらに構成されている、EEE4または5に記載の装置。
〔EEE7〕
前記統率モジュールが、少なくとも1つの周波数帯域における少なくとも1つの統率されるオーディオ・デバイスの較正信号の信号対雑音比に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御するようにさらに構成されている、EEE4ないし6のうちいずれか一項に記載の装置。
〔EEE8〕
前記統率モジュールが、さらに:
ターゲットの統率されるオーディオ・デバイスに、ターゲット・デバイス・コンテンツ・ストリームの修正されていないオーディオ再生信号を再生させて、ターゲットの統率されるオーディオ・デバイス再生音を生成させる段階と;
ターゲットの統率されるオーディオ・デバイス可聴性またはターゲットの統率されるオーディオ・デバイス位置の少なくとも一方を、前記抽出されたオーディオ・データに少なくとも部分的に基づいて、少なくとも1つの統率されるオーディオ・デバイスによって推定させる段階とをさらに含み、
前記修正されていないオーディオ再生信号は、前記第1のギャップを含まず;
前記マイクロフォン信号は、前記ターゲットの統率されるオーディオ・デバイス再生音にも対応する、
EEE4ないし7のうちいずれか一項に記載の装置。
〔EEE9〕
前記修正されていないオーディオ再生信号は、いずれの周波数範囲に挿入されたギャップも含まない、EEE8に記載の装置。
〔EEE10〕
前記少なくとも1つの音響シーン・メトリックは、飛行時間、到着時間、到来方向、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、信号対雑音比のうちの一つまたは複数を含む、EEE1ないし9のうちいずれか一項に記載の装置。
〔EEE11〕
音響シーン・メトリック集約器をさらに有しており、前記統率モジュールは、前記オーディオ環境における複数の統率されるオーディオ・デバイスをして、少なくとも1つの音響シーン・メトリックを当該装置に送信させ、前記音響シーン・メトリック集約器は、前記複数の統率されるオーディオ・デバイスから受信された音響シーン・メトリックを集約するように構成されている、EEE1ないし10のうちいずれか一項に記載の装置。
〔EEE12〕
前記統率モジュールがさらに、前記音響シーン・メトリック集約器から、集約された音響シーン・メトリックを受信するように構成された音響シーン・メトリック処理器を実装するように構成されている、EEE11に記載の装置。
〔EEE13〕
前記統率モジュールが、少なくとも部分的には前記音響シーン・メトリック処理器からの入力に基づいて、オーディオ・デバイス統率の一つまたは複数の側面を制御するようにさらに構成されている、EEE12に記載の装置。
〔EEE14〕
前記制御システムが、一つまたは複数の音響シーン・メトリックを受信し、一つまたは複数の受信された音響シーン・メトリックに少なくとも部分的に基づいて、人が現在位置している前記オーディオ環境のゾーンを推定するように構成されたユーザー・ゾーン分類器を実装するようにさらに構成されている、EEE11ないし13のうちいずれか一項に記載の装置。
〔EEE15〕
前記制御システムが、一つまたは複数の音響シーン・メトリックを受信し、一つまたは複数の受信された音響シーン・メトリックに少なくとも部分的に基づいて、前記オーディオ環境におけるノイズを推定するように構成されたノイズ推定器を実装するようにさらに構成されている、EEE11ないし14のうちいずれか一項に記載の装置。
〔EEE16〕
前記制御システムが、一つまたは複数の音響シーン・メトリックを受信し、一つまたは複数の受信された音響シーン・メトリックに少なくとも部分的に基づいて、前記オーディオ環境における一つまたは複数の音源の音響的近接性を推定するように構成された音響的近接性推定器を実装するようにさらに構成されている、EEE11ないし15のうちいずれか一項に記載の装置。
〔EEE17〕
前記制御システムが、一つまたは複数の音響シーン・メトリックを受信し、一つまたは複数の受信された音響シーン・メトリックに少なくとも部分的に基づいて、前記オーディオ環境における一つまたは複数の音源の幾何学的近接性を推定するように構成された幾何学的近接性推定器を実装するようにさらに構成されている、EEE11ないし16のうちいずれか一項に記載の装置。
〔EEE18〕
前記制御システムが、前記オーディオ環境における一つまたは複数の音源の推定された幾何学的近接性または推定された音響的近接性に少なくとも部分的に基づいて、統率されるオーディオ・デバイスのためのレンダリング構成を決定するよう構成されたレンダリング構成モジュールを実装するようにさらに構成されている、EEE16または17に記載の装置。
〔EEE19〕
前記第1の統率されるオーディオ・デバイス再生音の第1のコンテンツ・ストリーム成分は、前記第1の統率されるオーディオ・デバイス再生音の第1の較正信号成分の知覚的マスキングを引き起こし、前記第2の統率されるオーディオ・デバイス再生音の第2のコンテンツ・ストリーム成分は、前記第2の統率されるオーディオ・デバイス再生音の第2の較正信号成分の知覚的マスキングを引き起こす、EEE1ないし18のうちいずれか一項に記載の装置。
〔EEE20〕
前記統率モジュールがさらに:
前記オーディオ環境の第3ないし第Nの統率されるオーディオ・デバイスに、第3ないし第Nの較正信号を生成させる段階と;
前記第3ないし第Nの統率されるオーディオ・デバイスに、前記第3ないし第Nの較正信号を第3ないし第Nのコンテンツ・ストリームに挿入させて、前記第3ないし第Nのオーディオ・デバイスについての第3ないし第Nの修正オーディオ再生信号を生成させる段階と;
前記第3ないし第Nのオーディオ・デバイスに、前記第3ないし第Nの修正オーディオ再生信号の対応するインスタンスを再生させて、オーディオ・デバイス再生音の第3ないし第Nのインスタンスを生成させる段階と実行するようにさらに構成されている、
EEE1ないし19のうちいずれか一項に記載の装置。
〔EEE21〕
前記統率モジュールがさらに:
前記第1ないし第Nの統率されるオーディオ・デバイスのそれぞれの少なくとも1つのマイクロフォンに、オーディオ・デバイス再生音の第1ないし第Nのインスタンスを検出させ、オーディオ・デバイス再生音の前記第1ないし第Nのインスタンスに対応するマイクロフォン信号を生成させる段階であって、オーディオ・デバイス再生音の前記第1ないし第Nのインスタンスは、前記第1の統率されるオーディオ・デバイス再生音、前記第2の統率されるオーディオ・デバイス再生音、およびオーディオ・デバイス再生音の前記第3ないし第Nのインスタンスを含む、段階と;
前記第1ないし第Nの較正信号を前記マイクロフォン信号から抽出させる段階であって、前記少なくとも1つの音響シーン・メトリックは、第1ないし第Nの較正信号に少なくとも部分的に基づいて推定される、段階とを統率される統率される実行するように構成されている、
EEE20に記載の装置。
〔EEE22〕
前記統率モジュールがさらに:
前記オーディオ環境における複数の統率されるオーディオ・デバイスのための一つまたは複数の較正信号パラメータを決定する段階であって、前記一つまたは複数の較正信号パラメータは、較正信号の生成のために使用可能である、段階と;
前記一つまたは複数の較正信号パラメータを前記複数の統率されるオーディオ・デバイスの各オーディオ・デバイスに提供する段階とを実行するようにさらに構成されている、
EEE1ないし21のうちいずれか一項に記載の装置。
〔EEE23〕
前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数の統率されるオーディオ・デバイスの各統率されるオーディオ・デバイスのための時間スロットをスケジュールすることを含み、第1の統率されるオーディオ・デバイスのための第1の時間スロットは、第2の統率されるオーディオ・デバイスのための第2の時間スロットとは異なる、EEE22に記載の装置。
〔EEE24〕
前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数の統率されるオーディオ・デバイスの各統率されるオーディオ・デバイスのための周波数帯域を決定することを含む、EEE22または23に記載の装置。
〔EEE25〕
第1の統率されるオーディオ・デバイスのための第1の周波数帯域は、第2の統率されるオーディオ・デバイスのための第2の周波数帯域とは異なる、EEE24に記載の装置。
〔EEE26〕
前記一つまたは複数の較正信号パラメータを決定することは、前記複数の統率されるオーディオ・デバイスの各統率されるオーディオ・デバイスのためのDSSS拡散符号を決定することを含む、EEE22ないし25のうちいずれか一項に記載の装置。
〔EEE27〕
第1の統率されるオーディオ・デバイスのための第1の拡散符号は、第2の統率されるオーディオ・デバイスのための第2の拡散符号とは異なる、EEE26に記載の装置。
〔EEE28〕
対応する統率されるオーディオ・デバイスの可聴性に少なくとも部分的に基づく少なくとも1つの拡散符号長を決定することをさらに含む、EEE26または27に記載の装置。
〔EEE29〕
前記一つまたは複数の較正信号パラメータを決定することは、前記オーディオ環境における複数のオーディオ・デバイスのそれぞれの相互可聴性に少なくとも部分的に基づく音響モデルを適用することを含む、EEE22ないし28のうちいずれか一項に記載の装置。
〔EEE30〕
前記統率モジュールが:ある統率されるオーディオ・デバイスのための較正信号パラメータが最大堅牢性のレベルにあることを判別する段階と;前記統率されるオーディオ・デバイスからの較正信号が前記マイクロフォン信号から成功裏に抽出できないことを判別する段階と;すべての他の統率されるオーディオ・デバイスに、対応する統率されるオーディオ・デバイス再生音の少なくとも一部分をミュートさせる段階とを実行するようにさらに構成されている、EEE22ないし29のうちいずれか一項に記載の装置。
〔EEE31〕
前記一部分は、較正信号成分を含む、EEE30に記載の装置。
〔EEE32〕
前記統率モジュールが、前記オーディオ環境における複数の統率されるオーディオ・デバイスのそれぞれに、修正オーディオ再生信号を同時に再生させるようにさらに構成されている、EEE1ないし31のうちいずれか一項に記載の装置。
〔EEE33〕
前記第1のオーディオ再生信号の少なくとも一部、前記第2のオーディオ再生信号の少なくとも一部、または前記第1のオーディオ再生信号および前記第2のオーディオ再生信号のそれぞれの少なくとも一部は、無音に対応する、EEE1ないし32のうちいずれか一項に記載の装置。
〔EEE34〕
少なくとも1つのラウドスピーカーを含むラウドスピーカー・システムと;
少なくとも1つのマイクロフォンを含むマイクロフォン・システムと
制御システムとを有する装置であって、前記制御システムは:
第1のコンテンツ・ストリームを受信する段階であって、前記第1のコンテンツ・ストリームは第1のオーディオ信号を含む、段階と;
前記第1のオーディオ信号をレンダリングして第1のオーディオ再生信号を生成する段階と;
第1の較正信号を生成する段階と;
前記第1の較正信号を前記第1のオーディオ再生信号に挿入して第1の修正オーディオ再生信号を生成する段階と;
前記ラウドスピーカー・システムに、前記第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させる段階とを実行するように構成されている、
装置。
〔EEE35〕
前記制御システムが:
較正信号を生成するように構成される較正信号生成器と;
前記較正信号生成器によって生成された較正信号を変調して、前記第1の較正信号を生成するように構成された較正信号変調器と;
前記第1の較正信号を前記第1のオーディオ再生信号に挿入して、前記第1の修正オーディオ再生信号を生成するように構成された較正信号注入器とを有する、
EEE34に記載の装置。
〔EEE36〕
前記制御システムがさらに:
前記マイクロフォン・システムから、少なくとも前記第1のオーディオ・デバイス再生音および第2のオーディオ・デバイス再生音に対応するマイクロフォン信号を受信する段階であって、前記第2のオーディオ・デバイス再生音は、第2のオーディオ・デバイスによって再生される第2の修正オーディオ再生信号に対応し、前記第2の修正オーディオ再生信号は、第2の較正信号を含む、段階と;
前記マイクロフォン信号から少なくとも前記第2の較正信号を抽出する段階とを実行するように構成されている、
EEE34または35に記載の装置。
〔EEE37〕
前記制御システムがさらに:
前記マイクロフォン・システムから、少なくとも前記第1のオーディオ・デバイス再生音および第2ないし第Nのオーディオ・デバイス再生音に対応するマイクロフォン信号を受信する段階であって、前記第2ないし第Nのオーディオ・デバイス再生音は、第2ないし第Nのオーディオ・デバイスによって再生された第2ないし第Nの修正オーディオ再生信号に対応し、前記第2ないし第Nの修正オーディオ再生信号は、第2ないし第Nの較正信号を含む、段階と;
前記マイクロフォン信号から少なくとも前記第2ないし第Nの較正信号を抽出する段階とを実行するように構成されている、
EEE34または35に記載の装置。
〔EEE38〕
前記制御システムはさらに、前記第2ないし第Nの較正信号に少なくとも部分的に基づいて、少なくとも1つの音響シーン・メトリックを推定するようさらに構成されている、EEE37に記載の装置。
〔EEE39〕
前記少なくとも1つの音響シーン・メトリックは、飛行時間、到着時間、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、または信号対雑音比のうちの一つまたは複数を含む、EEE38に記載の装置。
〔EEE40〕
前記制御システムはさらに、少なくとも1つの音響シーン・メトリックを統率デバイスに提供し、前記少なくとも1つの音響シーン・メトリックに少なくとも部分的に基づいて前記統率デバイスからオーディオ・デバイス再生の一つまたは複数の側面を制御するための命令を受信するように構成されている、EEE38または39に記載の装置。
〔EEE41〕
前記第1のオーディオ・デバイス再生音の第1のコンテンツ・ストリーム成分が、前記第1のオーディオ・デバイス再生音の第1の較正信号成分の知覚的マスキングを引き起こす、EEE34ないし40のうちいずれか一項に記載の装置。
〔EEE42〕
前記制御システムが、統率デバイスから一つまたは複数の較正信号パラメータを受信するように構成され、前記一つまたは複数の較正信号パラメータは、較正信号の生成のために使用可能である、EEE34ないし41のうちいずれか一項に記載の装置。
〔EEE43〕
前記一つまたは複数の較正信号パラメータは、修正オーディオ再生信号を再生するための時間スロットをスケジュールするためのパラメータを含み、第1オーディオ・デバイスのための第1の時間スロットは、第2のオーディオ・デバイスのための第2の時間スロットとは異なる、EEE42に記載の装置。
〔EEE44〕
前記一つまたは複数の較正信号パラメータは、較正信号のための周波数帯域を決定するためのパラメータを含む、EEE42に記載の装置。
〔EEE45〕
第1のオーディオ・デバイスのための第1周波数帯域が、第2のオーディオ・デバイスのための第2の周波数帯域とは異なる、EEE44に記載の装置。
〔EEE46〕
前記一つまたは複数の較正信号パラメータは、較正信号を生成するための拡散符号を含む、EEE42ないし45のうちいずれか一項に記載の装置。
〔EEE47〕
第1オーディオ・デバイスのための第1の拡散符号は、第2のオーディオ・デバイスのための第2の拡散符号とは異なる、EEE46に記載の装置。
〔EEE48〕
前記制御システムは、受信されたマイクロフォン信号を処理して、前処理されたマイクロフォン信号を生成するようにさらに構成され、前記制御システムは、前記前処理されたマイクロフォン信号から較正信号を抽出するように構成される、EEE35ないし47のうちいずれか一項に記載の装置。
〔EEE49〕
前記受信されたマイクロフォン信号を処理することは、ビームフォーミング、帯域通過フィルタの適用、またはエコー消去のうちの一つまたは複数を含む、EEE48に記載の装置。
〔EEE50〕
前記マイクロフォン信号から少なくとも前記第2ないし第Nの較正信号を抽出することは、整合フィルタを前記マイクロフォン信号または前記マイクロフォン信号の前処理されたバージョンに適用して第2ないし第Nの遅延波形を生成することを含み、前記第2ないし第Nの遅延波形は、前記第2ないし第Nの較正信号のそれぞれに対応する、較正信号変調器EEE37ないし49のうちいずれか一項に記載の装置。
〔EEE51〕
前記制御システムはさらに、前記第2ないし第Nの遅延波形のそれぞれに低域通過フィルタを適用するように構成されている、EEE50に記載の装置。
〔EEE52〕
前記制御システムは、復調器を実装するように構成され;
前記整合フィルタを適用することは、前記復調器によって実行される復調プロセスの一部であり;
前記復調プロセスの出力は復調されたコヒーレントなベースバンド信号である、
EEE50または51に記載の装置。
〔EEE53〕
前記制御システムは、バルク遅延を推定し、バルク遅延推定を前記復調器に提供するようにさらに構成されている、EEE52に記載の装置。
〔EEE54〕
前記制御システムは、前記復調されたコヒーレントなベースバンド信号のベースバンド処理のために構成されたベースバンド・プロセッサを実装するようにさらに構成されており、前記ベースバンド・プロセッサは、少なくとも1つの推定された音響シーン・メトリックを出力するように構成されている、EEE52または53に記載の装置。
〔EEE55〕
前記ベースバンド処理は、インコヒーレント積分期間中に受信された復調されたコヒーレントなベースバンド信号に基づいて、インコヒーレント積分された遅延波形を生成することを含む、EEE54に記載の装置。
〔EEE56〕
前記インコヒーレント積分された遅延波形を生成することは、前記インコヒーレント積分期間の間に受信された前記復調されたコヒーレントなベースバンド信号を二乗して、二乗された復調されたベースバンド信号を生成し、前記二乗された復調されたベースバンド信号を積分することを含む、EEE55に記載の装置。
〔EEE57〕
前記ベースバンド処理は、前縁推定プロセス、ステアード応答パワー推定プロセスまたは信号対雑音推定プロセスのうちの一つまたは複数を前記インコヒーレント積分された遅延波形に適用することを含む、EEE55または56に記載の装置。
〔EEE58〕
前記制御システムは、バルク遅延を推定し、バルク遅延推定を前記ベースバンド・プロセッサに提供するようにさらに構成されている、EEE54ないし57のうちいずれか一項に記載の装置。
〔EEE59〕
前記制御システムは、前記第2ないし第Nの遅延波形に基づいて、第2から第Nのオーディオ・デバイス位置における第2ないし第Nのノイズ・パワー・レベルを推定するようにさらに構成される、EEE50ないし58のうちいずれか一項に記載の装置。
〔EEE60〕
前記制御システムはさらに、前記第2ないし第Nのノイズ・パワー・レベルに少なくとも部分的に基づいて、前記オーディオ環境についての分散ノイズ推定値を生成するように構成されている、EEE59に記載の装置。
〔EEE61〕
前記制御システムは、統率デバイスからギャップ命令を受信し、前記第1のギャップ命令に従って前記第1のコンテンツ・ストリームの第1の時間区間中に前記第1のオーディオ再生信号または前記第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入するようにさらに構成され、前記第1のギャップは、前記第1の周波数範囲における前記第1のオーディオ再生信号の減衰を含み、前記第1の修正オーディオ再生信号および前記第1のオーディオ・デバイス再生音は、前記第1のギャップを含む、EEE34ないし60のうちいずれか一項に記載の装置。
〔EEE62〕
前記ギャップ命令は、較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないようにギャップ挿入および較正信号生成を制御するための命令を含む、EEE61に記載の装置。
〔EEE63〕
前記ギャップ命令は、受信されたマイクロフォン・データからターゲット・デバイス・オーディオ・データまたはオーディオ環境ノイズ・データのうちの少なくとも1つを抽出するための命令を含む、EEE61または62に記載の装置。
〔EEE64〕
前記制御システムが、前記オーディオ環境の一つまたは複数のオーディオ・デバイスによって生成された再生音が一つまたは複数のギャップを含む間に、受信されたマイクロフォン・データから抽出されたデータに少なくとも部分的に基づいて、少なくとも1つの音響シーン・メトリックを推定するようにさらに構成されている、EEE61ないし63のうちいずれか一項に記載の装置。
〔EEE65〕
前記少なくとも1つの音響シーン・メトリックは、飛行時間、到着時間、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズ、または信号対雑音比のうちの一つまたは複数を含む、EEE64に記載の装置。
〔EEE66〕
前記制御システムはさらに、少なくとも1つの音響シーン・メトリックを統率デバイスに提供し、前記少なくとも1つの音響シーン・メトリックに少なくとも部分的に基づいてオーディオ・デバイス再生の一つまたは複数の側面を制御するための命令を前記統率デバイスから受信するように構成されている、EEE64または65に記載の装置。
〔EEE67〕
前記制御システムはさらに、受信されたマイクロフォン信号中のウェイクワードを検出するよう構成されたウェイクワード検出器を実装するようさらに構成されている、EEE34ないし66のうちいずれか一項に記載の装置。
〔EEE68〕
前記ウェイクワード検出器から受信されたウェイクワード検出データに基づいて一つまたは複数の音響シーン・メトリックを決定するようにさらに構成されている、EEE34ないし67のうちいずれか一項に記載の装置。
〔EEE69〕
前記制御システムは、ノイズ補償機能を実装するようにさらに構成されている、EEE34ないし68のうちいずれか一項に記載の装置。
〔EEE70〕
前記レンダリングは前記制御システムによって実装されるレンダリング・モジュールによって実行され、前記レンダリング・モジュールは、統率デバイスから受信されたレンダリング命令に少なくとも部分的に基づいて前記レンダリングを実行するようにさらに構成されている、EEE34ないし69のうちいずれか一項に記載の装置。
〔EEE71〕
前記レンダリング命令は、レンダリング構成生成器、ユーザー・ゾーン分類器、または統率モジュールのうちの少なくとも1つからの命令を含む、EEE70に記載の装置。
【0631】
本開示のいくつかの側面は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)システムまたはデバイスと、開示された方法またはそのステップの一つまたは複数の例を実装するためのコードを記憶する有形のコンピュータ可読媒体(たとえば、ディスク)とを含む。たとえば、いくつかの開示されたシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであって、開示された方法またはそのステップの実施形態を含む、データに対する多様な動作のうちのいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成されたものであってもよく、またはそれらを含んでいてもよい。そのような汎用プロセッサは、入力デバイスと、メモリと、呈されたデータに応答して、開示される方法(またはそのステップ)の一つまたは複数の実施形態を実行するようにプログラムされる(および/または他の仕方で構成された)処理サブシステムとを含むコンピュータ・システムであってもよく、またはそれを含んでいてもよい。
【0632】
いくつかの実施形態は、開示された方法の一つまたは複数の例の実行を含む、オーディオ信号(複数可)に対して必要な処理を実行するように構成された(たとえば、プログラムされた、他の仕方で構成された)構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装されてもよい。代替的に、開示されるシステム(またはその要素)の実施形態は、開示された方法の一つまたは複数を含む多様な動作のうちのいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された汎用プロセッサ(たとえば、パーソナルコンピュータ(PC)または他のコンピュータ・システムまたはマイクロプロセッサであって、入力デバイス(およびメモリ)を含んでいてもよい)として実装されてもよい。代替的に、本発明のシステムのいくつかの実施形態の要素は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装されてもよく、システムはまた、他の要素(たとえば、一つまたは複数のラウドスピーカーおよび/または一つまたは複数のマイクロフォン)を含む。開示される方法の一つまたは複数の例を実行するように構成された汎用プロセッサは、入力デバイス(たとえば、マウスおよび/またはキーボード)、メモリ、およびディスプレイ・デバイスに結合されてもよい。
【0633】
本開示の別の側面は、開示された方法またはそのステップの一つまたは複数の例を実行するためのコード(たとえば、実行するように実行可能なコーダ)を記憶するコンピュータ可読媒体(たとえば、ディスクまたは他の有形の記憶媒体)である。
【0634】
本開示の特定の実施形態および本開示の用途が本明細書で説明されてきたが、本明細書で説明され、特許請求される本開示の範囲から逸脱することなく、本明細書で説明される実施形態および用途に対する多くの変形が可能であることが当業者には明らかであろう。本開示のある種の形が示され説明されてきたが、本開示は、説明され示される特定の実施形態または説明される特定の方法に限定されるものではないことを理解しておくべきである。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22A
図22B
図22C
図22D
図23A
図23B
図23C
図23D
図23E
図24
図25A
図25B
図26
図27A
図27B
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43
図44
図45
図46
図47
図48A
図48B
図48C
図48D
図49
図50
図51
図52
図53
図54
図55
図56
【手続補正書】
【提出日】2022-12-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
制御システムによって、オーディオ環境の第1のオーディオ・デバイスに第1の較正信号を生成させることと;
前記制御システムによって、前記第1の較正信号を第1のコンテンツ・ストリームに対応する第1のオーディオ再生信号に挿入させて、前記第1のオーディオ・デバイスについての第1の修正オーディオ再生信号を生成させることと;
前記制御システムによって、前記第1のオーディオ・デバイスに、前記第1の修正オーディオ再生信号を再生させて、第1のオーディオ・デバイス再生音を生成させることと;
前記制御システムによって、前記オーディオ環境の第2のオーディオ・デバイスに第2の較正信号を生成させることと;
前記制御システムによって、前記第2の較正信号を第2のコンテンツ・ストリームに挿入させて、前記第2のオーディオ・デバイスについての第2の修正オーディオ再生信号を生成させることと;
前記制御システムによって、前記第2のオーディオ・デバイスに、前記第2の修正オーディオ再生信号を再生させて、第2のオーディオ・デバイス再生音を生成させることと;
前記制御システムによって、前記オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも前記第1のオーディオ・デバイス再生音および前記第2のオーディオ・デバイス再生音を検出させ、少なくとも前記第1のオーディオ・デバイス再生音および前記第2のオーディオ・デバイス再生音に対応するマイクロフォン信号を生成させることと;
前記制御システムによって、前記第1の較正信号および前記第2の較正信号を前記マイクロフォン信号から抽出させることと;
前記制御システムによって、少なくとも1つの第1の音響シーン・メトリックを、前記第1の較正信号および前記第2の較正信号に少なくとも部分的に基づいて推定させることと
前記制御システムによって、前記第1のコンテンツ・ストリームの第1の時間区間中に、前記第1のオーディオ再生信号または前記第1の修正オーディオ再生信号の第1の周波数範囲に第1のギャップを挿入させることであって、前記第1のギャップは、前記第1の周波数範囲における前記第1のオーディオ再生信号の減衰を含み、前記第1の修正オーディオ再生信号および前記第1のオーディオ・デバイス再生音は、前記第1のギャップを含む、ことと;
前記制御システムによって、前記第1の時間区間中に前記第2のオーディオ再生信号または前記第2の修正オーディオ再生信号の前記第1の周波数範囲内に前記第1のギャップを挿入させることであって、前記第2の修正オーディオ再生信号および前記第2のオーディオ・デバイス再生音は、前記第1のギャップを含む、ことと;
前記制御システムによって、少なくとも前記第1の周波数範囲における前記マイクロフォン信号からのオーディオ・データを抽出させて、較正信号またはオーディオ・コンテンツの存在のない非再生音の抽出されたオーディオ・データを生成させることと;
前記制御システムによって、少なくとも1つの第2の音響シーン・メトリックを、前記抽出されたオーディオ・データに少なくとも部分的に基づいて推定させることと
少なくとも1つの周波数帯域における少なくとも1つのオーディオ・デバイスの較正信号の信号対雑音比に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することを含む、
オーディオ処理方法。
【請求項2】
前記第1の較正信号は、前記第1のオーディオ・デバイス再生音の第1の可聴以下成分に対応し、前記第2の較正信号は、前記第2のオーディオ・デバイス再生音の第2の可聴以下成分に対応する、請求項1に記載のオーディオ処理方法。
【請求項3】
前記第1の較正信号は、第1のDSSS信号を含み、前記第2の較正信号は、第2のDSSS信号を含む、請求項1または2に記載のオーディオ処理方法。
【請求項4】
較正信号がギャップ時間区間にもギャップ周波数範囲にも対応しないように、ギャップ挿入および較正信号生成を制御することをさらに含む、請求項1ないし3のうちいずれか一項に記載のオーディオ処理方法。
【請求項5】
少なくとも1つの周波数帯域においてノイズが推定されてからの時間に少なくとも部分的に基づいて、ギャップ挿入および較正信号生成を制御することをさらに含む、請求項1ないし4のうちいずれか一項に記載のオーディオ処理方法。
【請求項6】
ターゲット・オーディオ・デバイスに、ターゲット・デバイス・コンテンツ・ストリームの修正されていないオーディオ再生信号を再生させて、ターゲット・オーディオ・デバイス再生音を生成させることと;
前記制御システムによって、ターゲット・オーディオ・デバイス可聴性またはターゲット・オーディオ・デバイス位置の少なくとも一方を、前記抽出されたオーディオ・データに少なくとも部分的に基づいて推定させることとをさらに含み、
前記修正されていないオーディオ再生信号は、前記第1のギャップにおいてオーディオ・コンテンツを含み
前記マイクロフォン信号は、前記ターゲット・オーディオ・デバイス再生音にも対応する、
請求項ないしのうちいずれか一項に記載のオーディオ処理方法。
【請求項7】
前記修正されていないオーディオ再生信号は、いずれの周波数範囲に挿入されたギャップも含まない、請求項に記載のオーディオ処理方法。
【請求項8】
前記少なくとも1つの第1の音響シーン・メトリックは、飛行時間、到着時間、到来方向、レンジ、オーディオ・デバイス可聴性、オーディオ・デバイス・インパルス応答、オーディオ・デバイス間の角度、オーディオ・デバイス位置、オーディオ環境ノイズのうちの一つまたは複数をさらに含む、請求項1ないしのうちいずれか一項に記載のオーディオ処理方法。
【請求項9】
前記少なくとも1つの第1または第2の音響シーン・メトリックを推定させることは、前記少なくとも1つの第1または第2の音響シーン・メトリックを推定すること、または別のデバイスに少なくとも1つの第1または第2の音響シーン・メトリックを推定させることを含む、請求項1ないしのうちいずれか一項に記載のオーディオ処理方法。
【請求項10】
前記少なくとも1つの第1または第2の音響シーン・メトリックに少なくとも部分的に基づいて、オーディオ・デバイス再生の一つまたは複数の側面を制御することをさらに含む、請求項1ないしのうちいずれか一項に記載のオーディオ処理方法。
【請求項11】
前記第1のオーディオ・デバイス再生音の第1のコンテンツ・ストリーム成分は、前記第1のオーディオ・デバイス再生音の第1の較正信号成分の知覚的マスキングを引き起こし、前記第2のオーディオ・デバイス再生音の第2のコンテンツ・ストリーム成分は、前記第2のオーディオ・デバイス再生音の第2の較正信号成分の知覚的マスキングを引き起こす、請求項1ないし10のうちいずれか一項に記載のオーディオ処理方法。
【請求項12】
前記制御システムが統率デバイス制御システムである、請求項1ないし11のうちいずれか一項に記載のオーディオ処理方法。
【請求項13】
前記制御システムによって、前記オーディオ環境の第3ないし第Nのオーディオ・デバイスに、第3ないし第Nの較正信号を生成させることと;
前記制御システムによって、前記第3ないし第Nの較正信号を第3ないし第Nのコンテンツ・ストリームに挿入させて、前記第3ないし第Nのオーディオ・デバイスについての第3ないし第Nの修正オーディオ再生信号を生成させることと;
前記制御システムによって、前記第3ないし第Nのオーディオ・デバイスに、前記第3ないし第Nの修正オーディオ再生信号の対応するインスタンスを再生させて、オーディオ・デバイス再生音の第3ないし第Nのインスタンスを生成させることとをさらに含む、
請求項1ないし12のうちいずれか一項に記載のオーディオ処理方法。
【請求項14】
前記制御システムによって、前記第1ないし第Nのオーディオ・デバイスのそれぞれの少なくとも1つのマイクロフォンに、オーディオ・デバイス再生音の第1ないし第Nのインスタンスを検出させ、オーディオ・デバイス再生音の前記第1ないし第Nのインスタンスに対応するマイクロフォン信号を生成させることであって、オーディオ・デバイス再生音の前記第1ないし第Nのインスタンスは、前記第1のオーディオ・デバイス再生音、前記第2のオーディオ・デバイス再生音、およびオーディオ・デバイス再生音の前記第3ないし第Nのインスタンスを含む、ことと;
前記制御システムによって、前記第1ないし第Nの較正信号を前記マイクロフォン信号から抽出させることであって、前記少なくとも1つの音響シーン・メトリックは、第1ないし第Nの較正信号に少なくとも部分的に基づいて推定される、こととをさらに含む、
請求項13に記載のオーディオ処理方法。
【請求項15】
前記オーディオ環境における複数のオーディオ・デバイスのための一つまたは複数の較正信号パラメータを決定することであって、前記一つまたは複数の較正信号パラメータは、較正信号の生成のために使用可能である、ことと;
前記一つまたは複数の較正信号パラメータを前記複数のオーディオ・デバイスの各オーディオ・デバイスに提供することとをさらに含む、
請求項1ないし14のうちいずれか一項に記載のオーディオ処理方法。
【請求項16】
前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数のオーディオ・デバイスの各オーディオ・デバイスのための時間スロットをスケジュールすることを含み、第1のオーディオ・デバイスのための第1の時間スロットは、第2のオーディオ・デバイスのための第2の時間スロットとは異なる、請求項15に記載のオーディオ処理方法。
【請求項17】
前記一つまたは複数の較正信号パラメータを決定することは、修正オーディオ再生信号を再生するために、前記複数のオーディオ・デバイスの各オーディオ・デバイスのための周波数帯域を決定することを含む、請求項15に記載のオーディオ処理方法。
【請求項18】
第1のオーディオ・デバイスのための第1の周波数帯域は、第2のオーディオ・デバイスのための第2の周波数帯域とは異なる、請求項17に記載のオーディオ処理方法。
【請求項19】
前記一つまたは複数の較正信号パラメータを決定することは、前記複数のオーディオ・デバイスの各オーディオ・デバイスのためのDSSS拡散符号を決定することを含む、請求項15ないし18のうちいずれか一項に記載のオーディオ処理方法。
【請求項20】
第1のオーディオ・デバイスのための第1の拡散符号は、第2のオーディオ・デバイスのための第2の拡散符号とは異なる、請求項19に記載のオーディオ処理方法。
【請求項21】
対応するオーディオ・デバイスの可聴性に少なくとも部分的に基づく少なくとも1つの拡散符号長を決定することをさらに含む、請求項19または20に記載の装置。
【請求項22】
前記一つまたは複数の較正信号パラメータを決定することは、前記オーディオ環境における複数のオーディオ・デバイスのそれぞれの相互可聴性に少なくとも部分的に基づく音響モデルを適用することを含む、請求項15ないし21のうちいずれか一項に記載のオーディオ処理方法。
【請求項23】
あるオーディオ・デバイスのための較正信号パラメータが最大堅牢性のレベルにあることを判別することと;
前記オーディオ・デバイスからの較正信号が前記マイクロフォン信号から成功裏に抽出できないことを判別することと;
すべての他のオーディオ・デバイスに、対応するオーディオ・デバイス再生音の少なくとも一部分をミュートさせることとをさらに含む、
請求項15ないし22のうちいずれか一項に記載のオーディオ処理方法。
【請求項24】
前記一部分は、較正信号成分を含む、請求項23に記載のオーディオ処理方法。
【請求項25】
前記オーディオ環境における複数のオーディオ・デバイスのそれぞれに、修正オーディオ再生信号を同時に再生させることをさらに含む、請求項1ないし24のうちいずれか一項に記載のオーディオ処理方法。
【請求項26】
前記第1のオーディオ再生信号の少なくとも一部、前記第2のオーディオ再生信号の少なくとも一部、または前記第1のオーディオ再生信号および前記第2のオーディオ再生信号のそれぞれの少なくとも一部は、無音に対応する、請求項1ないし25のうちいずれか一項に記載のオーディオ処理方法。
【請求項27】
請求項1ないし26のうちいずれか一項に記載の方法を実行するように構成された装置。
【請求項28】
請求項1ないし26のうちいずれか一項に記載の方法を実行するように構成されたシステム。
【請求項29】
請求項1ないし26のうちいずれか一項に記載の方法を実行するように一つまたは複数のデバイスを制御するための命令を含むソフトウェアが記憶されている、一つまたは複数の非一時的媒体。
【国際調査報告】