(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-12
(54)【発明の名称】オーディオ・デバイスの自動定位
(51)【国際特許分類】
H04S 7/00 20060101AFI20231205BHJP
H04R 3/00 20060101ALI20231205BHJP
【FI】
H04S7/00 300
H04R3/00 320
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023533781
(86)(22)【出願日】2021-12-02
(85)【翻訳文提出日】2023-06-01
(86)【国際出願番号】 US2021061533
(87)【国際公開番号】W WO2022120005
(87)【国際公開日】2022-06-09
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2021-03-02
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-05-20
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2021-07-21
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-07-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アルテアガ,ダニエル
(72)【発明者】
【氏名】スカイニ,ダヴィデ
(72)【発明者】
【氏名】トーマス,マーク アール. ピー.
(72)【発明者】
【氏名】ブルーニ,アヴェリー
(72)【発明者】
【氏名】タウンゼント,オルハ ミッシェル
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162CC12
5D162DA02
5D162EG02
5D220BA06
5D220BC05
(57)【要約】
方法は:第1のオーディオ送信機および第1のオーディオ受信機を含む、オーディオ環境の少なくとも第1のスマート・オーディオ・デバイスによって放出された音に対応する到来方向(DOA)データを受領する段階であって、前記DOAデータは、第2のオーディオ送信機および第2のオーディオ受信機を含む、オーディオ環境の少なくとも第2のスマート・オーディオ・デバイスによって受信された音に対応し、前記DOAデータはまた、少なくとも前記第2のスマート・オーディオ・デバイスによって放出され、少なくとも前記第1のスマート・オーディオ・デバイスによって受信された音に対応する、段階と;オーディオ環境、一つまたは複数のオーディオ・デバイス、または両方に対応する一つまたは複数の構成パラメータを受領する段階と;前記DOAデータおよび前記構成パラメータに少なくとも部分的に基づいてコスト関数を最小化して、少なくとも前記第1のスマート・オーディオ・デバイスおよび前記第2のスマート・オーディオ・デバイスの位置および配向を推定する段階とを含む。
【特許請求の範囲】
【請求項1】
オーディオ環境におけるオーディオ・デバイスを定位する方法であって、当該方法は:
制御システムによって、前記オーディオ環境の少なくとも第1のスマート・オーディオ・デバイスによって放出された音に対応する到来方向(DOA)データを取得する段階であって、前記第1のスマート・オーディオ・デバイスは、第1のオーディオ送信機および第1のオーディオ受信機を含み、前記DOAデータは、前記オーディオ環境の少なくとも第2のスマート・オーディオ・デバイスによって受信された音に対応し、前記第2のスマート・オーディオ・デバイスは、第2のオーディオ送信機および第2のオーディオ受信機を含み、前記DOAデータはまた、少なくとも前記第2のスマート・オーディオ・デバイスによって放出され、少なくとも前記第1のスマート・オーディオ・デバイスによって受信された音に対応する、段階と;
前記制御システムによって、構成パラメータを受信する段階であって、前記構成パラメータは、前記オーディオ環境に対応する、前記オーディオ環境の一つまたは複数のオーディオ・デバイスに対応する、または前記オーディオ環境および前記オーディオ環境の前記一つまたは複数のオーディオ・デバイスの両方に対応する、段階と;
前記制御システムによって、前記DOAデータおよび前記構成パラメータに少なくとも部分的に基づいてコスト関数を最小化して、少なくとも前記第1のスマート・オーディオ・デバイスおよび前記第2のスマート・オーディオ・デバイスの位置および配向を推定する段階とを含む、
方法。
【請求項2】
前記DOAデータは、前記オーディオ環境の一つまたは複数の受動オーディオ受信機によって受信された音に対応し、前記一つまたは複数の受動オーディオ受信機のそれぞれは、マイクロフォン・アレイを含むが、オーディオ放出体を欠いており、前記コスト関数を最小化することはまた、前記一つまたは複数の受動オーディオ受信機のそれぞれの推定された位置および配向を与える、請求項1に記載の方法。
【請求項3】
前記DOAデータはまた、前記オーディオ環境の一つまたは複数のオーディオ放出体によって放出される音に対応し、前記一つまたは複数のオーディオ放出体のそれぞれは、少なくとも1つの音放出トランスデューサを含むが、マイクロフォン・アレイを欠いており、前記コスト関数を最小化することはまた、前記一つまたは複数のオーディオ放出体のそれぞれの推定された位置を与える、請求項1または2に記載の方法。
【請求項4】
前記DOAデータはまた、前記オーディオ環境の第3ないし第Nのスマート・オーディオ・デバイスによって放出される音に対応し、Nは、前記オーディオ環境のスマート・オーディオ・デバイスの総数に対応し、前記DOAデータはまた、前記オーディオ環境のすべての他のスマート・オーディオ・デバイスから第1ないし第Nのスマート・オーディオ・デバイスのそれぞれによって受信された音に対応し、前記コスト関数を最小化することは、第3ないし第Nのスマート・オーディオ・デバイスの位置および配向を推定することに関わる、請求項1ないし3のうちいずれか一項に記載の方法。
【請求項5】
前記構成パラメータは、前記オーディオ環境におけるオーディオ・デバイスの数、前記オーディオ環境の一つまたは複数の寸法、オーディオ・デバイス位置もしくは配向に対する一つまたは複数の制約条件、または、回転、並進、もしくはスケーリングのうちの少なくとも1つについての曖昧さ解消データを含む、請求項1ないし4のうちいずれか一項に記載の方法。
【請求項6】
前記制御システムによって、前記コスト関数のためのシード・レイアウトを受信する段階をさらに含み、前記シード・レイアウトは、前記オーディオ環境におけるオーディオ送信機および受信機の正しい数と、前記オーディオ環境における前記オーディオ送信機および受信機のそれぞれについての任意の位置および配向とを指定する、請求項1ないし5のうちいずれか一項に記載の方法。
【請求項7】
前記制御システムによって、前記DOAデータの一つまたは複数の要素に関連付けられた重み因子を受信する段階をさらに含み、前記重み因子は、前記一つまたは複数の要素の利用可能性または信頼性のうちの少なくとも一方を示す、請求項1ないし6のうちいずれか一項に記載の方法。
【請求項8】
前記制御システムによって、ビームフォーミング方法、ステアード・パワード応答方法、到着時間差方法、または構造化信号方法のうちの少なくとも1つを使用して、前記DOAデータの一つまたは複数の要素を取得する段階をさらに含む、請求項1ないし7のうちいずれか一項に記載の方法。
【請求項9】
前記制御システムによって、前記オーディオ環境の少なくとも1つのオーディオ・デバイスによって放出され、前記オーディオ環境の少なくとも1つの他のオーディオ・デバイスによって受信される音に対応する到着時間(TOA)データを受信する段階をさらに含み、前記コスト関数は、少なくとも部分的には前記TOAデータに基づく、請求項1ないし8のうちいずれか一項に記載の方法。
【請求項10】
少なくとも1つの再生レイテンシーを推定すること、少なくとも1つの記録レイテンシーを推定すること、または少なくとも1つの再生レイテンシーおよび少なくとも1つの記録レイテンシーを推定することをさらに含む、請求項9に記載の方法。
【請求項11】
前記コスト関数が、再スケーリングされた位置、再スケーリングされたレイテンシー、または再スケーリングされた到着時間のうちの少なくとも1つに関して作用する、請求項10に記載の方法。
【請求項12】
前記コスト関数は、前記DOAデータのみに依存する第1の項と、前記TOAデータのみに依存する第2の項とを含む、請求項9ないし11のうちいずれか一項に記載の方法。
【請求項13】
前記第1の項は第1の重み因子を含み、前記第2の項は第2の重み因子を含む、請求項12に記載の方法。
【請求項14】
前記第2の項の一つまたは複数のTOA要素は、前記一つまたは複数のTOA要素のそれぞれの利用可能性または信頼性を示すTOA要素重み因子を有する、請求項12に記載の方法。
【請求項15】
前記構成パラメータは、再生レイテンシー・データ、記録レイテンシー・データ、レイテンシー対称性を曖昧さ解消するためのデータ、回転についての曖昧さ解消データ、並進についての曖昧さ解消データ、またはスケーリングについての曖昧さ解消データのうちの少なくとも1つを含む、請求項1ないし14のうちいずれか一項に記載の方法。
【請求項16】
請求項1ないし15のうちいずれか一項に記載の方法を実行するように構成された装置。
【請求項17】
請求項1ないし15のうちいずれか一項に記載の方法を実行するように構成されたシステム。
【請求項18】
請求項1ないし15のうちいずれか一項に記載の方法を実行するよう一つまたは複数のデバイスを制御するための命令を含むソフトウェアを記憶している、一つまたは複数の非一時的な媒体。
【請求項19】
環境におけるデバイスを定位する方法であって、当該方法は:
制御システムによって、前記環境の第1のデバイスの少なくとも第1のトランシーバの送信に対応する到来方向(DOA)データを取得する段階であって、前記第1のトランシーバは、第1の送信機および第1の受信機を含み、前記DOAデータは、前記環境の第2のデバイスの少なくとも第2のトランシーバによって受信された送信に対応し、前記第2のトランシーバは、第2の送信機および第2の受信機を含み、前記DOAデータはまた、少なくとも前記第1のトランシーバによって受信された少なくとも前記第2のトランシーバからの送信に対応する、段階と;
前記制御システムによって、構成パラメータを受信する段階であって、前記構成パラメータは、前記環境に対応する、前記環境の一つまたは複数のデバイスに対応する、または前記環境および前記環境の前記一つまたは複数のデバイスの両方に対応する、段階と;
前記制御システムによって、前記DOAデータおよび前記構成パラメータに少なくとも部分的に基づいてコスト関数を最小化して、少なくとも前記第1のデバイスおよび前記第2のデバイスの位置および配向を推定する段階とを含む、
方法。
【請求項20】
前記DOAデータはまた、前記環境の一つまたは複数の受動受信機によって受信された送信に対応し、前記一つまたは複数の受動受信機のそれぞれは、受信機アレイを含むが、送信機を欠いており、前記コスト関数を最小化することはまた、前記一つまたは複数の受動受信機のそれぞれの推定された位置および配向を与える、請求項19に記載の方法。
【請求項21】
前記DOAデータはまた、前記環境の一つまたは複数の送信機からの送信に対応し、前記一つまたは複数の送信機のそれぞれは、受信機アレイを欠いており、前記コスト関数を最小化することはまた、前記一つまたは複数の送信機のそれぞれの推定された位置を与える、請求項19または20に記載の方法。
【請求項22】
前記DOAデータはまた、前記環境の第3ないし第Nのデバイスの第3ないし第Nのトランシーバによって放出された送信に対応し、Nは前記環境のトランシーバの総数に対応し、前記DOAデータはまた、前記環境のすべての他のトランシーバから第1ないし第Nのトランシーバのそれぞれによって受信された送信に対応し、前記コスト関数を最小化することは、第3ないし第Nのトランシーバの位置および配向を推定することを含む、請求項19ないし21のうちいずれか一項に記載の方法。
【請求項23】
前記第1のデバイスおよび前記第2のデバイスがオーディオ・デバイスであり、前記環境がオーディオ環境である、請求項19ないし22のうちいずれか一項に記載の方法。
【請求項24】
前記第1の送信機および前記第2の送信機がオーディオ送信機であり、
前記第1の受信機および前記第2の受信機がオーディオ受信機である、
請求項23に記載の方法。
【請求項25】
前記第1のトランシーバおよび前記第2のトランシーバは、電磁波を送信および受信するように構成されている、請求項19ないし23のうちいずれか一項に記載の方法。
【請求項26】
請求項19ないし25のうちいずれか一項に記載の方法を実行するように構成されている装置。
【請求項27】
請求項19ないし25のうちいずれか一項に記載の方法を実行するように構成されているシステム。
【請求項28】
請求項19ないし25のうちいずれか一項に記載の方法を実行するよう一つまたは複数のデバイスを制御するための命令を含むソフトウェアを記憶している、一つまたは複数の非一時的な媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2021年12月03日に出願されたスペイン特許出願第P202031212号、および2021年5月20日に出願された第P202130458号、ならびに2021年3月02日に出願された米国仮出願第63/155369号、2021年7月21日に出願された第63/203403号、および2021年7月22日に出願された第63/224778号に対する優先権を主張するものであり、これらのすべては、参照によりその全体が本明細書に組み込まれる。
【0002】
技術分野
本開示は、オーディオ・デバイスを自動的に位置特定するためのシステムおよび方法に関する。
【背景技術】
【0003】
スマート・オーディオ・デバイスを含むがそれに限られないオーディオ・デバイスは、広く展開されており、多くの家庭の一般的な事項になりつつある。オーディオ・デバイスを位置特定するための既存のシステムおよび方法は恩恵を提供するが、改善されたシステムおよび方法が望ましいであろう。
【0004】
記法および名称
特許請求の範囲を含め、本開示全体を通じて、用語「スピーカー」、「ラウドスピーカー」、「オーディオ再生トランスデューサ」は、任意の放音トランスデューサ(またはトランスデューサの集合)を表すために同義で使用される。ヘッドフォンの典型的なセットは、2つのスピーカーを含む。スピーカーは、単一の共通スピーカー・フィードまたは複数のスピーカー・フィードによって駆動されうる複数のトランスデューサ(たとえば、ウーファーおよびツイーター)を含むように実装されうる。いくつかの例では、スピーカー・フィードは、異なるトランスデューサに結合された異なる回路分枝において異なる処理を受けることができる。
【0005】
特許請求の範囲を含め、本開示全体を通じて、信号またはデータ「に対して」動作を実行するという表現(たとえば、信号またはデータのフィルタリング、スケーリング、変換、または利得の適用)は、広い意味で使用され、信号またはデータに対して該動作を直接実行すること、または信号またはデータの処理されたバージョンに対して(たとえば、該動作の実行前に予備的なフィルタリングまたは前処理を受けた該信号のバージョンに対して)該動作を実行することを示す。
【0006】
特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、広い意味でデバイス、システム、またはサブシステムを示すために使用される。たとえば、デコーダを実装するサブシステムがデコーダ・システムと称されることがあり、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、そのサブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部ソースから受領されるシステム)もデコーダ・システムと称することもできる。
【0007】
特許請求の範囲を含む本開示全体を通じて、用語「プロセッサ」は、データ(たとえば、オーディオ、ビデオまたは他の画像データ)に対して動作を実行するために、プログラム可能なまたは他の仕方で(たとえば、ソフトウェアまたはファームウェアを用いて)構成可能なシステムまたはデバイスを示すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他の音声データに対してパイプライン処理を実行するようにプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットを含む。
【0008】
特許請求の範囲を含む本開示全体を通じて、用語「結合する」または「結合され」は、直接的または間接的接続を意味するために使用される。よって、第1のデバイスが第2のデバイスに結合する場合、その接続は、直接接続を通じて、または他のデバイスおよび接続を介した間接接続を通じてでありうる。
【0009】
本明細書で使用されるところでは、「スマートデバイス」とは、Bluetooth、Zigbee、近接場通信、Wi-Fi、光忠実度(Li-Fi)、3G、4G、5Gなどのさまざまな無線プロトコルを介して、一つまたは複数の他のデバイス(またはネットワーク)と通信するように一般的に構成された電子デバイスであって、ある程度対話的におよび/または自律的に動作することができるものである。スマートデバイスのいくつかの顕著なタイプは、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレットとタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、スマート・オーディオ・デバイスである。「スマートデバイス」という用語は、人工知能のようなユビキタスコンピューティングのいくつかの特性を示すデバイスを指すこともある。
【0010】
本明細書で使用されるところでは、「スマート・オーディオ・デバイス」という表現は、単一目的のオーディオ・デバイスまたは多目的のオーディオ・デバイス(たとえば、バーチャル・アシスタント機能の少なくともいくつかの側面を実装するオーディオ・デバイス)のいずれかであるスマートデバイスを示す。単一目的のオーディオ・デバイスは、少なくとも1つのマイクロフォン(および、任意的には少なくとも1つのスピーカーおよび/または少なくとも1つのカメラを含むかまたはそれに結合される)を含むかまたはそれに結合されるデバイス(たとえば、テレビ(TV))であって、大部分がまたは主として単一目的を達成するように設計されたものである。たとえば、テレビは、典型的には、番組素材からオーディオを再生することができる(また、再生することができると考えられる)が、ほとんどの場合、現代のテレビは、何らかのオペレーティングシステムを実行し、その上でテレビ視聴アプリケーションを含むアプリケーションがローカルに動作する。この意味で、スピーカーおよびマイクロフォンを有する単一目的のオーディオ・デバイスは、しばしば、スピーカーおよびマイクロフォンを直接使用するローカル・アプリケーションおよび/またはサービスを実行するように構成される。いくつかの単一目的の諸オーディオ・デバイスが、ゾーンまたはユーザー構成されたエリアにわたるオーディオの再生を達成するよう、グループ化するように構成されうる。
【0011】
多目的オーディオ・デバイスの一つの一般的なタイプは、バーチャル・アシスタント機能の少なくともいくつかの側面を実装するオーディオ・デバイスであるが、バーチャル・アシスタント機能の他の側面は、多目的オーディオ・デバイスが通信するように構成されている一つまたは複数のサーバーのような一つまたは複数の他のデバイスによって実装されてもよい。そのような多目的オーディオ・デバイスは、本明細書では「バーチャル・アシスタント」と称されることがある。バーチャル・アシスタントは、少なくとも1つのマイクロフォンを含むまたはそれに結合される(および、任意的には、少なくとも1つのスピーカーおよび/または少なくとも1つのカメラを含むまたはそれに結合される)デバイス(たとえば、スマート・スピーカーまたは音声アシスタント統合デバイス)である。いくつかの例では、バーチャル・アシスタントは、ある意味ではクラウドで可能にされる、または他の仕方で完全にはバーチャル・アシスタント自体の中または上には実装されていないアプリケーションのために複数のデバイス(そのバーチャル・アシスタントとは異なる)を利用する能力を提供することができる。言い換えると、バーチャル・アシスタント機能の少なくともいくつかの側面、たとえば、音声認識機能は、(少なくとも部分的には)バーチャル・アシスタントがインターネットなどのネットワークを介して通信することができる一つまたは複数のサーバーまたは他のデバイスによって実装されてもよい。バーチャル・アシスタントどうしは、時に、たとえば離散的で、条件付きで定義された仕方で、協働することがある。たとえば、2以上のバーチャル・アシスタントは、そのうちの一つ、たとえば、ウェイクワードを聞いたことに最も自信があるバーチャル・アシスタントがそのワードに応答するという意味で、協働することができる。接続された諸バーチャル・アシスタントは、いくつかの実装では、一種のコンステレーションを形成することができ、これは、バーチャル・アシスタントであってもよい(またはそれを実装してもよい)1つのメイン・アプリケーションによって管理されてもよい。
【0012】
ここで、「ウェイクワード」とは、任意の音(たとえば、人間によって発声された単語、または何らかの他の音)を意味するために広義で使用され、スマート・オーディオ・デバイスは、その音の検出(「聞く」)(スマート・オーディオ・デバイスに含まれるかまたはそれに結合される少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを使用する)に応答して、覚醒するように構成される。この文脈において、「覚醒」とは、デバイスが音声コマンドを待つ(すなわち、音声コマンドがあるかどうか傾聴する)状態に入ることを表す。いくつかの事例では、本明細書において「ウェイクワード」と称されうるものは、複数の単語、たとえば、フレーズを含んでいてもよい。
【0013】
ここで、「ウェイクワード検出器」という表現は、リアルタイムの音声(たとえば、発話)特徴とトレーニングされたモデルとの間の整列を連続的に探すよう構成されたデバイス(またはデバイスを構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードが検出された確率が所定の閾値を超えることがウェイクワード検出器によって判別されるときは常に、ウェイクワード・イベントがトリガーされる。たとえば、閾値は、誤受理率と誤拒否率との間の合理的な妥協を与えるように調整された所定の閾値であってもよい。ウェイクワード・イベントに続いて、デバイスは、それがコマンドを待ち受け、受け取ったコマンドをより大きな、より計算集約的な認識器に渡す状態(「覚醒した」状態または「注意を払っている」状態と呼ばれてもよい)にはいってもよい。
【0014】
本明細書で使用されるところでは、用語「プログラムストリーム」および「コンテンツ・ストリーム」は、一つまたは複数のオーディオ信号の集合を指し、場合によっては少なくとも一部が一緒に聴取されることが意図されるビデオ信号を指す。例は、音楽、映画のサウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成音声応答などのセレクションを含む。いくつかの事例では、コンテンツ・ストリームは、オーディオ信号の少なくとも一部の複数のバージョン、たとえば、複数の言語での同じダイアログを含むことがある。そのような事例において、一時には、オーディオ・データまたはその一部の1つのバージョン(たとえば、単一言語に対応するバージョン)のみが再生されることが意図されている。
【発明の概要】
【課題を解決するための手段】
【0015】
本開示の少なくともいくつかの側面は、方法を介して実装されうる。いくつかのそのような方法は、オーディオ・デバイスを定位することに関わりうる。たとえば、いくつかの方法は、オーディオ環境においてオーディオ・デバイスを定位することに関わってもよい。いくつかのそのような方法は、制御システムによって、オーディオ環境の少なくとも第1のスマート・オーディオ・デバイスによって発せられた音に対応する到来方向(direction of arrival、DOA)データを取得することに関わってもよい。いくつかの実装では、第1のスマート・オーディオ・デバイスは、第1のオーディオ送信機と第1のオーディオ受信機とを含んでいてもよい。いくつかの例では、DOAデータは、オーディオ環境の少なくとも第2のスマート・オーディオ・デバイスによって受信された音に対応してもよい。いくつかの事例では、第2のスマート・オーディオ・デバイスは、第2のオーディオ送信機および第2のオーディオ受信機を含んでいてもよい。いくつかの例では、DOAデータはまた、少なくとも第2のスマート・オーディオ・デバイスによって放出され、少なくとも第1のスマート・オーディオ・デバイスによって受信された音に対応してもよい。
【0016】
いくつかのそのような方法は、制御システムによって、構成パラメータを受信することに関わってもよい。いくつかの例では、構成パラメータは、オーディオ環境に対応してもよく、および/またはオーディオ環境の一つまたは複数のオーディオ・デバイスに対応してもよい。いくつかのそのような方法は、制御システムによって、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化して、少なくとも第1のスマート・オーディオ・デバイスおよび第2のスマート・オーディオ・デバイスの位置および/または配向を推定することに関わってもよい。
【0017】
いくつかの例によれば、DOAデータはまた、オーディオ環境の一つまたは複数の受動オーディオ受信機によって受信された音に対応しうる。いくつかの例では、前記一つまたは複数の受動オーディオ受信機のそれぞれは、マイクロフォン・アレイを含んでいてもよいが、いくつかの事例では、オーディオ放出体〔放出器〕を欠いてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、前記一つまたは複数の受動オーディオ受信機のそれぞれの推定された位置および配向を与えてもよい。
【0018】
いくつかの例では、DOAデータはまた、オーディオ環境の一つまたは複数のオーディオ放出体によって放出される音に対応してもよい。いくつかの事例では、前記一つまたは複数のオーディオ放出体のそれぞれは、少なくとも1つの音放出トランスデューサを含んでいてもよいが、いくつかの事例では、マイクロフォン・アレイを欠いてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、前記一つまたは複数のオーディオ放出体のそれぞれの推定された位置を与えてもよい。
【0019】
いくつかの実装では、DOAデータはまた、オーディオ環境の第3ないし第Nのスマート・オーディオ・デバイスによって放出される音に対応してもよく、Nは、オーディオ環境のスマート・オーディオ・デバイスの総数に対応する。いくつかの例では、DOAデータはまた、オーディオ環境のすべての他のスマート・オーディオ・デバイスから第1ないし第Nのスマート・オーディオ・デバイスのそれぞれによって受信された音に対応してもよい。いくつかのそのような例では、コスト関数を最小化することは、第3ないし第Nのスマート・オーディオ・デバイスの位置および/または配向を推定することに関わってもよい。
【0020】
いくつかの例によれば、構成パラメータは、オーディオ環境内のオーディオ・デバイスの数、オーディオ環境の一つまたは複数の寸法、および/またはオーディオ・デバイス位置および/または配向に対する一つまたは複数の制約条件を含みうる。いくつかの事例では、構成パラメータは、回転、並進、および/またはスケーリングについての曖昧さ解消データを含んでいてもよい。
【0021】
いくつかの方法は、制御システムによって、コスト関数のためのシード・レイアウトを受信することに関わってもよい。シード・レイアウトは、いくつかの例では、オーディオ環境内のオーディオ送信機および受信機の正しい数と、オーディオ環境内のオーディオ送信機および受信機のそれぞれについての任意の位置および配向とを指定してもよい。
【0022】
いくつかの方法は、制御システムによって、DOAデータの一つまたは複数の要素に関連付けられた重み因子を受信することに関わってもよい。重み因子は、たとえば、DOAデータの前記一つまたは複数の要素の利用可能性および/または信頼性を示しうる。
【0023】
いくつかの方法は、制御システムによって、ビームフォーミング方法、ステアード・パワー応答方法、到着時間差方法、構造化信号方法、またはそれらの組合せを使用して、DOAデータの一つまたは複数の要素を取得することに関わってもよい。
【0024】
いくつかの方法は、制御システムによって、オーディオ環境の少なくとも1つのオーディオ・デバイスによって放出され、オーディオ環境の少なくとも1つの他のオーディオ・デバイスによって受信される音に対応する到着時間(time of arrival、TOA)データを受信することに関わってもよい。いくつかのそのような例では、コスト関数は、TOAデータに少なくとも部分的に基づいていてもよい。いくつかのそのような方法は、少なくとも1つの再生レイテンシーを推定すること、および/または少なくとも1つの記録レイテンシーを推定することに関わってもよい。いくつかの例では、コスト関数は、再スケーリングされた位置、再スケーリングされたレイテンシー、および/または再スケーリングされた到着時間に関して作用してもよい。
【0025】
いくつかの例によれば、コスト関数は、DOAデータのみに依存する第1の項を含みうる。いくつかのそのような例では、コスト関数は、TOAデータのみに依存する第2の項を含みうる。いくつかのそのような例では、第1の項は第1の重み因子を含んでいてもよく、第2の項は第2の重み因子を含んでいてもよい。いくつかの事例では、第2の項の一つまたは複数のTOA要素は、前記一つまたは複数のTOA要素のそれぞれの利用可能性および/または信頼性を示すTOA要素重み因子を有していてもよい。
【0026】
いくつかの例では、構成パラメータは、再生レイテンシー・データ、記録レイテンシー・データ、レイテンシー対称性を曖昧さ解消するためのデータ、回転についての曖昧さ解消データ、並進についての曖昧さ解消データ、スケーリングについての曖昧さ解消データ、および/またはそれらの一つまたは複数の組合せを含んでいてもよい。
【0027】
本開示のいくつかの他の側面は、方法を介して実装されうる。いくつかのそのような方法は、デバイスを定位することに関わってもよい。たとえば、いくつかの方法は、オーディオ環境においてデバイスを定位することに関わってもよい。いくつかのそのような方法は、制御システムによって、環境の第1のデバイスの少なくとも第1のトランシーバの送信に対応する到来方向(DOA)データを取得することに関わってもよい。第1のトランシーバは、いくつかの例では、第1の送信機と第1の受信機とを含んでいてもよい。いくつかの事例では、DOAデータは、環境の第2のデバイスの少なくとも第2のトランシーバによって受信された送信に対応してもよい。いくつかの例では、第2のトランシーバは、第2の送信機と第2の受信機とを含みうる。いくつかの事例では、DOAデータは、少なくとも第1のトランシーバによって受信された少なくとも第2のトランシーバからの送信に対応してもよい。
【0028】
いくつかの例では、第1のデバイスおよび第2のデバイスはオーディオ・デバイスであってもよく、環境はオーディオ環境であってもよい。いくつかのそのような例によれば、第1の送信機および第2の送信機はオーディオ送信機であってもよい。いくつかのそのような例では、第1の受信機および第2の受信機はオーディオ受信機であってもよい。いくつかの実装では、第1のトランシーバおよび第2のトランシーバは、電磁波を送信および受信するように構成されてもよい。
【0029】
いくつかのそのような方法は、制御システムによって、構成パラメータを受信することに関わってもよい。いくつかの事例では、構成パラメータは、環境に対応してもよく、および/または環境の一つまたは複数のデバイスに対応してもよい。いくつかのそのような方法は、制御システムによって、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化して、少なくとも第1のデバイスおよび第2のデバイスの位置および/または配向を推定することに関わってもよい。
【0030】
いくつかの例では、DOAデータはまた、環境の一つまたは複数の受動受信機によって受信された送信に対応してもよい。前記一つまたは複数の受動受信機のそれぞれは、たとえば、受信機アレイを含んでいてもよいが、送信機を欠いてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、前記一つまたは複数の受動受信機のそれぞれの推定された位置および/または配向を与えてもよい。
【0031】
いくつかの例によれば、DOAデータはまた、環境の一つまたは複数の送信機からの送信に対応してもよい。いくつかの事例では、前記一つまたは複数の送信機のそれぞれは、受信機アレイを欠いていてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、前記一つまたは複数の送信機のそれぞれの推定された位置を与えてもよい。
【0032】
いくつかの例では、DOAデータはまた、環境の第3ないし第Nのデバイスの第3ないし第Nのトランシーバによって放出された送信に対応してもよく、Nは環境のトランシーバの総数に対応する。いくつかのそのような例では、DOAデータはまた、環境のすべての他のトランシーバから第1ないし第Nのトランシーバのそれぞれによって受信された送信に対応してもよい。いくつかのそのような例では、コスト関数を最小化することは、第3ないし第Nのトランシーバの位置および/または配向を推定することに関わってもよい。
【0033】
本明細書に記載された動作、機能および/または方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されてもよい。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれに限定されない、本明細書に記載されるもののようなメモリデバイスを含んでいてもよい。よって、本開示に記載された主題のいくつかの革新的な側面は、ソフトウェアを記憶している一つまたは複数の非一時的媒体において実装されることができる。
【0034】
本開示の少なくともいくつかの側面は、装置を介して実装されうる。たとえば、一つまたは複数のデバイスが、少なくとも部分的に、本明細書に開示される方法を実行することができてもよい。いくつかの実装では、装置は、インターフェース・システムおよび制御システムを含んでいてもよい。制御システムは、一つまたは複数の汎用の単一チップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラマブル論理デバイス、離散ゲートまたはトランジスタ論理、離散ハードウェア・コンポーネント、またはそれらの組み合わせを含んでいてもよい。しかしながら、いくつかの実装では、装置は、モバイル・デバイス、ラップトップ、サーバーなどといった別のタイプのデバイスであってもよい。
【0035】
本明細書に記載される主題の一つまたは複数の実装の詳細が、添付の図面および以下の説明に記載される。他の特徴、側面、および利点は、明細書、図面、および特許請求の範囲から明白となるであろう。以下の図の相対的な寸法は、縮尺通りに描かれない場合があることに留意されたい。
【図面の簡単な説明】
【0036】
【
図1】環境内の4つのオーディオ・デバイス間の幾何学的関係の例を示す。
【
図2】
図1のオーディオ環境内に位置するオーディオ放出体を示す。
【
図3】
図1のオーディオ環境内に位置するオーディオ受信機を示す。
【
図4】
図10に示されるような装置の制御システムによって実行されうる方法の一例を概説するフロー図である。
【
図5】DOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の別の例を概説するフロー図である。
【
図6】DOAデータおよびTOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の一例を概説するフロー図である。
【
図7】DOAデータおよびTOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の別の例を概説するフロー図である。
【
図8B】聴取者角度配向データを決定することの追加的な例を示す。
【
図8C】聴取者角度配向データを決定することの追加的な例を示す。
【
図8D】
図8Cを参照して説明された方法に従ってオーディオ・デバイス座標についての適切な回転を決定することの一例を示す。
【
図9A】定位方法の一例を概説するフロー図である。
【
図9B】定位方法の別の例を概説するフロー図である。
【
図10】本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。
【
図11】この例では生活空間であるオーディオ環境のフロアプランの例を示す。
【0037】
さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
【発明を実施するための形態】
【0038】
テレビおよびサウンドバーを含む既存のオーディオ・デバイスに加えての、複数の駆動ユニットおよびマイクロフォン・アレイを組み込むスマート・スピーカー、ならびに電球および電子レンジなどの新しいマイクロフォンおよびスピーカー機能をもつ接続デバイスの出現は、調整を達成するために、数十個のマイクロフォンおよびスピーカーが互いに対して位置特定する必要があるという問題を生じる。オーディオ・デバイスは、標準レイアウト(離散的なDolby 5.1ラウドスピーカー・レイアウトなど)にあると想定されることはできない。いくつかの事例では、環境内のオーディオ・デバイスは、ランダムに位置していることがあり、または少なくとも、不規則および/または非対称な仕方で環境内に分布していることがある。
【0039】
さらに、オーディオ・デバイスは均質または同期的であると想定することができない。本明細書で使用されるところでは、オーディオ・デバイスは、それらのオーディオ・デバイスによって、音が同じサンプル・クロックまたは同期されたサンプル・クロックに従って検出または放出される場合、「同期的」または「同期された」と呼ばれることがある。たとえば、環境内の第1のオーディオ・デバイスの第1の同期されたマイクロフォンは、第1のサンプル・クロックに従ってオーディオ・データをデジタル的にサンプリングしてもよく、環境内の第2の同期されたオーディオ・デバイスの第2のマイクロフォンは、第1のサンプル・クロックに従ってオーディオ・データをデジタル的にサンプリングしてもよい。代替的または追加的に、環境内の第1のオーディオ・デバイスの第1の同期されたスピーカーは、スピーカー・セットアップ・クロックに従って音を発してもよく、環境内の第2のオーディオ・デバイスの第2の同期されたスピーカーは、前記スピーカー・セットアップ・クロックに従って音を発してもよい。
【0040】
自動スピーカー位置特定のためのいくつかの以前に開示された方法は、同期されたマイクロフォンおよび/またはスピーカーを必要とする。たとえば、デバイス定位のためのいくつかの既存のツールは、システム内のすべてのマイクロフォン間のサンプル同期性に依拠し、既知のテスト刺激と、センサー間で全帯域幅オーディオ・データを渡すこととを必要とする。
【0041】
本譲受人は、設計された目的である使用事例において優れた解決策である、映画館および家庭のためのいくつかのスピーカー定位技法を生み出した。いくつかのそのような方法は、音源と、各ラウドスピーカーとほぼ同位置のマイクロフォンとの間のインパルス応答から導出される飛行時間に基づく。記録および再生チェーンにおけるシステム・レイテンシーも推定されうるが、クロック間のサンプル同期性が必要とされ、インパルス応答を推定するための既知の試験刺激の必要もある。
【0042】
このコンテキストにおける音源定位の最近の例は、デバイス内マイクロフォン同期を必要とするが、デバイス間同期を必要としないことによって制約条件を緩和している。加えて、いくつかのそのような方法は、直接(非反射)音の到着時間(TOA、「飛行時間」とも呼ばれる)の検出を介して、または直接音の優勢な到来方向(DOA)の検出を介してなど、低帯域幅メッセージ渡しによって、センサー間でオーディオを渡す必要性を放棄する。各アプローチは、いくつかの潜在的な利点および潜在的な欠点を有する。たとえば、いくつかの以前に展開されたTOA方法は、3軸のうちの1つのまわりの未知の並進、回転、および反射を除いて、デバイス幾何学形状を決定することができる。デバイスごとに1つのマイクロフォンしかない場合には、個々のデバイスの回転も未知である。いくつかの以前に展開されたDOA方法は、未知の並進、回転、およびスケーリングを除いたデバイス幾何学形状を決定することができる。いくつかのそのような方法は、理想的な条件下で満足のいく結果をもたらすことができるが、測定誤差に対するそのような方法の堅牢性は実証されていない。
【0043】
本願で開示される実施形態のいくつかは、1)オーディオ環境におけるオーディオ・デバイスの各ペア間のDOAと、2)データ・タイプ1)の入力のために設計された非線形最適化問題の最小化とに基づいて、スマート・オーディオ・デバイスの集合の定位を許容する。本願に開示される他の実施形態は、1)システム内のオーディオ・デバイスの各ペア間のDOA、2)デバイスの各ペア間のTOA、ならびに3)データ・タイプ1)および2)の入力のために設計された非線形最適化問題の最小化に基づいて、スマート・オーディオ・デバイスの集合の定位を許容する。
【0044】
図1は、環境内の4つのオーディオ・デバイス間の幾何学的関係の例を示す。この例では、オーディオ環境100は、テレビ101およびオーディオ・デバイス105a、105b、105c、および105dを含む部屋である。この例によれば、オーディオ・デバイス105a~105dは、それぞれ、オーディオ環境100の位置1ないし4にある。本明細書で開示される他の例と同様に、
図1に示される要素のタイプ、数、位置、および配向は、単に例として作られている。他の実装は、要素の異なるタイプ、数、および配置を有していてもよく、たとえば、より多数またはより少数のオーディオ・デバイス、異なる位置にあるオーディオ・デバイス、異なる能力を有するオーディオ・デバイスなどを有していてもよい。
【0045】
この実装では、オーディオ・デバイス105a~105dのそれぞれは、マイクロフォン・システムと、少なくとも1つのスピーカーを含むスピーカー・システムとを含むスマート・スピーカーである。いくつかの実装では、各マイクロフォン・システムは、少なくとも3つのマイクロフォンのアレイを含む。いくつかの実装によれば、テレビ101は、スピーカー・システムおよび/またはマイクロフォン・システムを含みうる。いくつかのそのような実装では、テレビ101、またはテレビ101の一部分(たとえば、テレビスピーカー、テレビトランシーバなど)を自動的に定位するために、自動定位方法が使用されてもよい。これはたとえば、オーディオ・デバイス105a~105dを参照して以下で説明される。
【0046】
本開示で説明される実施形態のうちのいくつかは、
図1に示されるオーディオ・デバイス105a~105d等のオーディオ・デバイスのセットの自動定位を、オーディオ・デバイスの各ペア間の到来方向(DOA)、デバイスの各ペア間のオーディオ信号の到着時間(TOA)、またはデバイスの各ペア間のオーディオ信号のDOAおよびTOAの両方に基づいて許容する。場合によっては、
図1に示される例のように、オーディオ・デバイスのそれぞれは、少なくとも1つの駆動ユニットおよび1つのマイクロフォン・アレイを有効にされ、マイクロフォン・アレイは、到来する音の到来方向を提供することが可能である。この例によれば、両矢印110 abは、オーディオ・デバイス105aによって送信され、オーディオ・デバイス105bによって受信される音、ならびにオーディオ・デバイス105bによって送信されオーディオ・デバイス105aによって受信される音を表す。同様に、両矢印110ac、110ad、110bc、110bd、110cdは、それぞれ、オーディオ・デバイス105aとオーディオ・デバイス105cによって送信、受信される音、オーディオ・デバイス105aとオーディオ・デバイス105dによって送信、受信される音、オーディオ・デバイス105bとオーディオ・デバイス105cによって送信、受信される音、オーディオ・デバイス105bとオーディオ・デバイス105dによって送信、受信される音、オーディオ・デバイス105cとオーディオ・デバイス105dによって送信、受信される音を表している。
【0047】
この例では、オーディオ・デバイス105a~105dのそれぞれは、矢印115a~115dによって表される配向を有し、これはさまざまな仕方で定義されうる。たとえば、単一のラウドスピーカーを有するオーディオ・デバイスの配向はその単一のラウドスピーカーが向いている方向に対応してもよい。いくつかの例では、異なる方向を向いている複数のラウドスピーカーを有するオーディオ・デバイスの配向は、それらのラウドスピーカーのうちの1つが向いている方向によって示されてもよい。他の例では、異なる方向を向いている複数のラウドスピーカーを有するオーディオ・デバイスの配向は、該複数のラウドスピーカーのそれぞれが向いている異なる方向におけるオーディオ出力の和に対応するベクトルの方向によって示されてもよい。
図1に示される例では、矢印115a~115dの配向は、デカルト座標系を参照して定義される。他の例では、矢印115a~115dの配向は、球面または円筒座標系などの別のタイプの座標系を参照して定義されてもよい。
【0048】
この例では、テレビ101は、電磁波を受信するように構成された電磁インターフェース103を含む。いくつかの例では、電磁インターフェース103は、電磁波を送信および受信するように構成されてもよい。いくつかの実装によれば、オーディオ・デバイス105a~105dのうちの少なくとも2つは、トランシーバとして構成されたアンテナ・システムを含んでいてもよい。アンテナ・システムは、電磁波を送受信するように構成されてもよい。いくつかの例ではアンテナ・システムは、少なくとも3つのアンテナを有するアンテナアレイを含む。本開示で説明される実施形態のうちのいくつかは、デバイス間で送信される電磁波のDOAに少なくとも部分的に基づいて、
図1に示されるオーディオ・デバイス105a~105dおよび/またはテレビ101などのデバイスのセットの自動定位を可能にする。よって、両矢印110ab、110ac、110ad、110bc、110bd、および110cdも、オーディオ・デバイス105a、105dの間で送信される電磁波を表すことができる。
【0049】
いくつかの例によれば、(オーディオ・デバイスなどの)デバイスのアンテナ・システムは、デバイスのラウドスピーカーと同位置であってもよく、たとえばラウドスピーカーに隣接していてもよい。いくつかのそのような例では、アンテナ・システム配向は、ラウドスピーカー配向に対応しうる。代替的または追加的に、デバイスのアンテナ・システムは、デバイスの一つまたは複数のラウドスピーカーに対して既知のまたは所定の配向を有していてもよい。
【0050】
この例では、オーディオ・デバイス105a~105dは、互いにおよび他のデバイスと無線通信するように構成される。いくつかの例では、オーディオ・デバイス105a~105dは、インターネットを介したオーディオ・デバイス105a~105dおよび他のデバイスの間の通信のために構成されたネットワーク・インターフェースを含んでいてもよい。いくつかの実装では、本明細書で開示される自動定位プロセスは、オーディオ・デバイス105a~105dのうちの1つのオーディオ・デバイスの制御システムによって実行されてもよい。他の例では、自動定位プロセスは、オーディオ・デバイス105a~105dとの無線通信のために構成された、オーディオ環境100の別のデバイス、たとえばスマートホームハブと呼ばれることがあるものによって実行されてもよい。他の例では、自動定位プロセスは、たとえば、オーディオ・デバイス105a~105dおよび/またはスマートホームハブのうちの一つまたは複数から受信された情報に基づいて、サーバーなどのオーディオ環境100の外部のデバイスによって少なくとも部分的に実行されてもよい。
【0051】
図2は、
図1のオーディオ環境内に位置するオーディオ放出体を示している。いくつかの実装は、
図2の人205など、一つまたは複数のオーディオ放出体の自動定位を提供する。この例では、人205は位置5にいる。ここで、人205によって発せられ、オーディオ・デバイス105aによって受信される音は、片矢印210aによって表される。同様に、人205によって発せられ、オーディオ・デバイス105b、105c、および105dによって受信される音は、片矢印210b、210c、および210dによって表される。オーディオ放出体は、オーディオ・デバイス105a~105dおよび/またはテレビ101によって捕捉されるようなオーディオ放出体音のDOAに基づいて、オーディオ・デバイス105a~105dおよび/またはテレビ101によって測定されるようなオーディオ放出体音のTOAの差に基づいて、またはDOAおよびTOAの差の両方に基づいて、定位されうる。
【0052】
代替的または追加的に、いくつかの実装は、一つまたは複数の電磁波放出体の自動定位を提供してもよい。本開示で説明する実施形態のいくつかは、一つまたは複数の電磁波放出体によって送信される電磁波のDOAに少なくとも部分的に基づいて、一つまたは複数の電磁波放出体の自動定位を許容する。電磁波放出体が位置5にあったとすると、電磁波放出体によって放出され、オーディオ・デバイス105a、105b、105c、および105dによって受信される電磁波も、片矢印210a、210b、210c、および210cによって表されうる。
【0053】
図3は、
図1のオーディオ環境内に位置するオーディオ受信機を示す。この例では、スマートフォン305のマイクロフォンは有効にされているが、スマートフォン305のスピーカーは現在音を発していない。いくつかの実施形態は、スマートフォン305が音を発していないときに、
図3のスマートフォン305などの一つまたは複数の受動オーディオ受信機の自動定位を提供する。ここで、オーディオ・デバイス105aによって発せられ、スマートフォン305によって受信される音は、片矢印310aによって表される。同様に、オーディオ・デバイス105b、105c、および105dによって発せられ、スマートフォン305によって受信される音は、片矢印310b、310c、および310dによって表される。
【0054】
オーディオ受信機がマイクロフォン・アレイを備え、受信された音のDOAを決定するように構成されている場合、オーディオ受信機は、オーディオ・デバイス105a~105dによって発せられ、オーディオ受信機によって捕捉された音のDOAに少なくとも部分的に基づいて定位されうる。いくつかの例では、オーディオ受信機は、オーディオ受信機がマイクロフォン・アレイを備えているかどうかにかかわらず、オーディオ受信機によって捕捉されたスマート・オーディオ・デバイスのTOAの差に少なくとも部分的に基づいて定位されうる。さらに他の実施形態は、上記で説明された方法を組み合わせることによって、DOAのみ、またはDOAおよびTOAに基づいて、スマート・オーディオ・デバイス、一つまたは複数のオーディオ放出体、および一つまたは複数の受信機のセットの自動定位を許容しうる。
【0055】
到来方向定位
図4は、
図10に示されるような装置の制御システムによって実行されうる方法の一例を概説するフロー図である。方法400のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。
【0056】
方法400は、オーディオ・デバイス定位プロセスの一例である。この例では、方法400は、2つ以上のスマート・オーディオ・デバイスの位置および配向を決定することに関わり、各スマート・オーディオ・デバイスは、ラウドスピーカー・システムおよびマイクロフォンのアレイを含む。この例によれば、方法400は、DOA推定に従って、すべてのスマート・オーディオ・デバイスによって放出され、すべての他のスマート・オーディオ・デバイスによって捕捉されたオーディオに少なくとも部分的に基づいて、スマート・オーディオ・デバイスの位置および配向を決定することに関わる。この例では、方法400の初期の諸ブロックは、各スマート・オーディオ・デバイスの制御システムに依存して、そのスマート・オーディオ・デバイスのマイクロフォン・アレイによって取得された入力オーディオからDOAを抽出することができる。それはたとえば、マイクロフォン・アレイの個々のマイクロフォン・カプセル間の到着時間差を使用することによる。
【0057】
この例では、ブロック405は、オーディオ環境のすべてのスマート・オーディオ・デバイスによって発せられ、オーディオ環境のすべての他のスマート・オーディオ・デバイスによって捕捉されたオーディオを取得することに関わる。いくつかのそのような例では、ブロック405は、各スマート・オーディオ・デバイスに音を放出させることに関わってもよく、その音は、いくつかの事例では、所定の持続時間、周波数内容などを有する音であってもよい。この所定のタイプの音は、本明細書では構造化ソース信号と呼ばれることがある。いくつかの実装では、スマート・オーディオ・デバイスは、
図1のオーディオ・デバイス105a~105dであってもよく、またはそれらを含んでいてもよい。
【0058】
いくつかのそのような例では、ブロック405は、他のスマート・オーディオ・デバイスが音があるかどうかを「傾聴する」間に、単一のスマート・オーディオ・デバイスに音を放出させる順次プロセスに関わってもよい。たとえば、
図1を参照すると、ブロック405は:(a)オーディオ・デバイス105aに音を放出させ、オーディオ・デバイス105b~105dのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信すること;次いで(b)オーディオ・デバイス105bに音を放出させ、オーディオ・デバイス105a、105c、および105dのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信すること;次いで(c)オーディオ・デバイス105cに音を放出させ、オーディオ・デバイス105a、105b、および105dのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信すること;次いで(d)オーディオ・デバイス105dに音を放出させ、オーディオ・デバイス105a、105b、および105cのマイクロフォン・アレイから、該放出された音に対応するマイクロフォン・データを受信することを含みうる。これらの放出される音は、特定の実装に依存して、同じであってもなくてもよい。
【0059】
他の例では、ブロック405は、他のスマート・オーディオ・デバイスが音があるかどうかを「傾聴する」間に、すべてのスマート・オーディオ・デバイスに音を出させる同時プロセスに関わってもよい。たとえば、ブロック405は、以下のステップ:(1)オーディオ・デバイス105aに第1の音を放出させ、オーディオ・デバイス105b~105dのマイクロフォン・アレイから、該放出された第1の音に対応するマイクロフォン・データを受信すること;(2)オーディオ・デバイス105bに第1の音とは異なる第2の音を放出させ、オーディオ・デバイス105a、105c、105dのマイクロフォン・アレイから、該放出された第2の音に対応するマイクロフォン・データを受信すること;(3)オーディオ・デバイス105cに第1の音および第2の音とは異なる第3の音を放出させ、オーディオ・デバイス105a、105b、105dのマイクロフォン・アレイから、該放出された第3の音に対応するマイクロフォン・データを受信すること;(4)オーディオ・デバイス105dに第1の音、第2の音および第3の音とは異なる第4の音を放出させ、オーディオ・デバイス105a、105b、105cのマイクロフォン・アレイから、該放出された第4の音に対応するマイクロフォン・データを受信すること、を同時に実行することに関わってもよい。
【0060】
この例では、ブロック410は、マイクロフォンを介して取得されたオーディオ信号を前処理するプロセスに関わる。ブロック410は、たとえば、一つまたは複数のフィルタ、ノイズまたはエコー抑制プロセスなどを適用することに関わってもよい。いくつかの追加的な前処理例が以下で説明される。
【0061】
この例によれば、ブロック415は、ブロック410から帰結する前処理されたオーディオ信号からDOA候補を決定することに関わる。たとえば、ブロック405が、構造化ソース信号を放出および受信することに関わっていたとしたら、ブロック415は、インパルス応答および/または「擬似レンジ」をもたらすための一つまたは複数の畳み込み解除方法に関わってもよく、そこから、DOA候補を推定するために、優勢なピークの到着時間差が、スマート・オーディオ・デバイスの既知のマイクロフォン・アレイ幾何学形状と併せて使用されることができる。
【0062】
しかしながら、方法400のすべての実装が、所定の音の放出に基づいてマイクロフォン信号を取得することに関わるわけではない。よって、ブロック415のいくつかの例は、ステアード応答パワー、受信機側ビームフォーミング、または他の同様の方法など、任意のオーディオ信号に適用される「ブラインド」方法を含み、そこから一つまたは複数のDOAがピーク・ピッキング(peak picking)によって抽出されうる。いくつかの例を以下に説明する。DOAデータは、ブラインド方法を介して、または構造化ソース信号(structured source signal)を使用して決定されうるが、ほとんどの場合、TOAデータは、構造化ソース信号を使用して決定されるだけでありうることが理解されるであろう。さらに、より正確なDOA情報は、一般に、構造化ソース信号を使用して取得されうる。
【0063】
この例によれば、ブロック420は、他のスマート・オーディオ・デバイスのそれぞれによって発せられた音に対応する1つのDOAを選択することに関わる。多くの場合、マイクロフォン・アレイは、直接到着音と、同じオーディオ・デバイスによって送信された反射音との両方を検出しうる。ブロック420は、直接送信された音に対応する可能性が最も高いオーディオ信号を選択することに関わってもよい。DOA候補を決定すること、および2つ以上の候補DOAからDOAを選択することのいくつかの追加的な例が以下で説明される。
【0064】
この例では、ブロック425は、各スマート・オーディオ・デバイスのブロック420の実装から帰結するDOA情報を受信すること(言い換えれば、オーディオ環境内のすべてのスマート・オーディオ・デバイスからすべての他のスマート・オーディオ・デバイスに送信された音に対応するDOAのセットを受信すること)と、DOA情報に基づいて定位方法を実行すること(たとえば、制御システムを介して定位アルゴリズムを実装すること)とに関わる。いくつかの開示される実装では、ブロック425は、たとえば
図5を参照しながら以下で説明するように、可能性としてはいくつかの制約条件および/または重みのもとで、コスト関数を最小化することに関わる。いくつかのそのような例では、コスト関数は、入力データとして、すべてのスマート・オーディオ・デバイスからすべての他のスマートデバイスへのDOA値を受信し、出力として、各スマート・オーディオ・デバイスの推定された位置および推定された配向を返す。
図4に示される例では、ブロック430は、ブロック425で生成された推定されたスマート・オーディオ・デバイス位置および推定されたスマート・オーディオ・デバイス配向を表す。
【0065】
図5は、DOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の別の例を概説するフロー図である。方法500は、たとえば、
図10に示されるような装置の制御システムを介して定位アルゴリズムを実装することによって実行されてもよい。方法500のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。
【0066】
この例によれば、ブロック505においてDOAデータが取得される。いくつかの実装によれば、ブロック505は、たとえば、
図4のブロック405~420を参照して上記で説明したように、音響DOAデータを取得することに関わってもよい。代替的または追加的に、ブロック505は、環境内の複数のデバイスのそれぞれによって送信および受信される電磁波に対応するDOAデータを取得することに関わってもよい。
【0067】
この例では、定位アルゴリズムは、オーディオ環境内のあらゆるスマートデバイスから他のあらゆるスマートデバイスへの、ブロック505で取得されたDOAデータを、オーディオ環境について指定された任意の構成パラメータ510とともに、入力として受信する。いくつかの例では、任意的な制約条件525がDOAデータに適用されうる。構成パラメータ510、最小化重み515、任意的な制約条件525、およびシード・レイアウト530は、たとえば、コスト関数520および非線形探索アルゴリズム535を実装するためのソフトウェアを実行している制御システムによってメモリから取得されてもよい。構成パラメータ510は、たとえば、最大部屋寸法、ラウドスピーカー・レイアウト制約条件、グローバル並進(たとえば、2つのパラメータ)、グローバル回転(1つのパラメータ)、およびグローバル・スケール(1つのパラメータ)を設定するための外部入力などに対応するデータを含んでいてもよい。
【0068】
この例によれば、構成パラメータ510は、コスト関数520および非線形探索アルゴリズム535に提供される。いくつかの例では、構成パラメータ510は、任意的な制約条件525に提供される。この例では、コスト関数520は、測定されたDOAと最適化器の定位解によって推定されたDOAとの間の差を考慮に入れる。
【0069】
いくつかの実施形態では、任意的な制約条件525は、オーディオ・デバイスが互いからある最小距離であるという条件を課すなど、可能なオーディオ・デバイスの位置および/または配向に制限を課す。代替的または追加的に、任意的な制約条件525は、たとえば以下で説明するように、便宜上導入されるダミー最小化変数に対して制限を課してもよい。
【0070】
この例では、非線形探索アルゴリズム535には最小化重み515も提供される。いくつかの例を以下に説明する。
【0071】
いくつかの実装によれば、非線形探索アルゴリズム535は、次の形の連続最適化問題に対する局所解を見つけることができるアルゴリズムである:
【数1】
上記の式において、C(x): R
n->Rはコスト関数520を表しg(x):R
n->R
mは、任意的な制約条件525に対応する制約条件関数を表す。これらの例では、ベクトルg
Lおよびg
Uは、制約条件に対する下限および上限を表し、ベクトルx
Lおよびx
Uは変数xに対する限界を表す。
【0072】
非線形探索アルゴリズム535は、特定の実装に従って変化しうる。非線形探索アルゴリズム535の例は、勾配降下法、BFGS(Broyden-Fletchers-Goldfarb-Shanno〔ブロイデン・フレッチャーズ・ゴールドファーブ・シャノ〕)法、IPOPT(Interior Point Optimization〔内点最適化〕)法などを含む。非線形探索アルゴリズムのいくつかはコスト関数および制約の値を必要とするだけであるが、いくつかの他の方法はコスト関数および制約条件の一階導関数(勾配、ヤコビアン)を必要とすることもあり、いくつかの他の方法は同じ関数の二階導関数(ヘシアン)を必要とすることもある。導関数が必要とされる場合、それらは明示的に提供されることができ、またはそれらは自動的なまたは数値的な微分技法を使用して自動的に計算されることができる。
【0073】
いくつかの非線形探索アルゴリズムは、
図5の非線形探索アルゴリズム535に提供されるシード・レイアウト530によって示唆されるように、最小化を開始するためのシード点情報を必要とする。いくつかの例では、シード点情報は、対応する位置および配向をもつ同じ数のスマート・オーディオ・デバイス(言い換えれば、DOAデータが取得されるスマート・オーディオ・デバイスの実際の数と同じ数)からなるレイアウトとして提供されてもよい。位置および配向は任意であってもよく、スマート・オーディオ・デバイスの実際のまたは近似的な位置および配向である必要はない。いくつかの例では、シード点情報は、オーディオ環境の軸または別の任意の線に沿ったスマート・オーディオ・デバイス位置、オーディオ環境内の円、長方形、または他の幾何学的形状に沿ったスマート・オーディオ・デバイス位置などを示しうる。いくつかの例では、シード点情報は、任意のスマート・オーディオ・デバイス配向を示してもよく、それは、あらかじめ決定されたスマート・オーディオ・デバイスは以降またはランダムな開始オーディオ・デバイス配向であってもよい。
【0074】
いくつかの実施形態では、コスト関数520は、次のように複素平面変数に関して定式化されることができる。
【数2】
ここで、スターは複素共役を示し、バーは絶対値を示し、
・Z
nm=exp(iDOA
nm)は、デバイスnから測ったスマートデバイスmの到来方向を与える複素平面値を表し、iは虚数単位を表す;
・x
n=x
nx+ix
nyは、スマートデバイスnのxおよびy位置をエンコードする複素平面値を表す;
・z
n=exp(iα
n)は、スマートデバイスnの配向の角度α
nをエンコードする複素値を表す;
・w
nm
DOAは、前記DOA
nm測定値に与えられる重みを表す;
・Nは、DOAデータが取得されたスマート・オーディオ・デバイスの数を表す;
・x=(x
1,…,x
N)およびz=(z
1,…,z
N)はN個のスマート・オーディオ・デバイスのそれぞれ複素位置および複素配向のベクトルを表す。
【0075】
この例によれば、最小化の結果は、スマートデバイスの2D位置を示すデバイス位置データ540 xk(デバイス当たり2つの実数の未知数を表す)と、スマートデバイスの配向ベクトルを示すデバイス配向データ545 zk(デバイス当たり2つの追加的な実数の変数を表す)である。配向ベクトルからは、スマートデバイスの配向の角度αkのみが問題のために有意である(デバイス当たり1つの実数の未知数)。したがって、この例では、スマートデバイス当たり3つの有意な未知数がある。
【0076】
いくつかの例では、結果評価ブロック550は、結果位置および配向におけるコスト関数の残差を計算することに関わる。相対的により低い残差は、相対的により正確なデバイス定位値を示す。いくつかの実装によれば、結果評価ブロック550は、フィードバック・プロセスに関わってもよい。たとえば、いくつかのそのような例は、所与のDOA候補組み合わせの残差を別のDOA候補組み合わせと比較することに関わるフィードバック・プロセスを実装しうる。このことは、たとえば、以下のDOA堅牢性指標の説明において説明される。
【0077】
上述したように、いくつかの実装では、ブロック505は、DOA候補を決定し、DOA候補を選択することに関わる
図4のブロック405~420を参照して上述したように、音響DOAデータを取得することに関わってもよい。よって、
図5は、任意的なフィードバック・プロセスの1つのフローを表すために、結果評価ブロック550からブロック505への破線を含む。さらに、
図4は、別の任意的なフィードバック・プロセスのフローを表すために、ブロック430(これはいくつかの例では結果評価に関わりうる)からDOA候補選択ブロック420への破線を含む。
【0078】
いくつかの実施形態では、非線形探索アルゴリズム535は、複素値変数を受け入れなくてもよい。そのような場合、すべての複素数値の変数は一対の実変数で置き換えることができる。
【0079】
いくつかの実装では、各DOA測定値の利用可能性または信頼性に関する追加的な事前情報があってもよい。いくつかのそのような例では、ラウドスピーカーは、すべての可能なDOA要素のサブセットのみを使用して定位されうる。欠けているDOA要素は、たとえば、コスト関数において対応する0の重みでマスクされうる。いくつかのそのような例では、重みwnmは、0または1のいずれかであってもよく、たとえば、欠けているかまたは十分に信頼できないと考えられる測定値については0であり、信頼できる測定値については1であってもよい。いくつかの他の実施形態では、重みwnmは、DOA測定値の信頼性の関数として、0から1までの連続値を有していてもよい。事前情報が利用可能でない実施形態では、重みwnmは単純に1に設定されてもよい。
【0080】
いくつかの実装では、条件|zk|=1(スマート・オーディオ・デバイスごとに1つの条件)は、スマート・オーディオ・デバイスの配向を示すベクトルの正規化を保証するための制約条件として追加されてもよい。他の例では、これらの追加的な制約条件は必要とされなくてもよく、スマート・オーディオ・デバイスの配向を示すベクトルは正規化されないままにされてもよい。他の実装は、制約条件として、スマート・オーディオ・デバイスの近接性に関する条件を追加してもよい。これはたとえば、|xn-xm|≧Dであることを示す。ここで、Dはスマート・オーディオ・デバイス間の最小距離である。
【0081】
上記のコスト関数の最小化は、スマート・オーディオ・デバイスの絶対的な位置および配向を完全には決定しない。この例によれば、コスト関数は、すべてのスマートデバイス位置および配向に同時に影響を及ぼすグローバル回転(1つの独立パラメータ)、グローバル並進(2つの独立パラメータ)、およびグローバル再スケーリング(1つの独立パラメータ)の下で不変のままである。このグローバル回転、並進、および再スケーリングは、前記コスト関数の最小化からは決定できない。対称変換によって関連付けられる異なるレイアウトは、このフレームワークでは全く区別できず、同じ等価クラスに属すると言われる。したがって、構成パラメータは、等価クラス全体を表すスマート・オーディオ・デバイス・レイアウトを一意的に定義することを許容する基準を提供すべきである。いくつかの実施形態では、このスマート・オーディオ・デバイス・レイアウトが、参照聴取位置の近くの聴取者の参照フレームに近い参照フレームを定義するように、基準を選択することが有利でありうる。そのような基準の例を以下に与える。いくつかの他の例では、基準は、純粋に数学的であり、現実的な参照フレームから切り離されていてもよい。
【0082】
対称性曖昧さ解消基準は、グローバル並進対称性を固定する参照位置(たとえば、スマート・オーディオ・デバイス1は、座標の原点にあるべきである)と;2次元回転対称性を固定する参照配向(たとえば、スマートデバイス1は、
図1~
図3においてテレビ101が位置する場所など、正面として指定されたオーディオ環境のエリアに向けられるべきである)と;グローバル・スケーリング対称性を固定する参照距離(たとえば、スマートデバイス2は、スマートデバイス1から単位距離にあるべきである)とを含みうる。合計で、この例では最小化問題から決定できず、外部入力として提供されるべき4つのパラメータが存在する。したがって、この例では、最小化問題から決定できる3N-4個の未知数がある。
【0083】
上記で説明したように、いくつかの例では、スマート・オーディオ・デバイスのセットに加えて、マイクロフォン・アレイを備えた一つまたは複数の受動オーディオ受信機、および/または一つまたは複数のオーディオ放出体があってもよい。そのような場合、定位プロセスは、DOA推定に基づいて、すべてのスマート・オーディオ・デバイスおよびすべての放出体によって放出され、すべての他のスマート・オーディオ・デバイスおよびすべての受動受信機によって捕捉されたオーディオから、スマート・オーディオ・デバイスの位置および配向、放出体の位置、ならびに受動受信機の位置および配向を決定するための技法を使用してもよい。
【0084】
いくつかのそのような例では、定位プロセスは、上記で説明したのと同様の仕方で進行してもよい。いくつかの事例では、定位プロセスは、上記と同じコスト関数に基づいてもよい。読者の便宜のために下に示しておく。
【数3】
【0085】
しかしながら、定位プロセスが、受動オーディオ受信機および/またはオーディオ受信機ではないオーディオ放出体に関わる場合、上記の式の変数は、わずかに異なる仕方で解釈される必要がある。ここで、Nは、デバイスの総数を表し、デバイスの内訳は、Nsmart個のスマート・オーディオ・デバイス、Nrec個の受動オーディオ受信機およびNemit個の放出体を含み、よって、N=Nsmart+Nrec+Nemitである。いくつかの例では、重みwnm
DOAは、受動受信機または放出体専用デバイス(または人間などの受信機のない他のオーディオ・ソース)に起因する欠落データをマスクするためにスパース構造を有していてもよく、よって、デバイスnが受信機なしのオーディオ放出体である場合、すべてのmについてwnm
DOA=0であり、デバイスmがオーディオ受信機である場合、すべてのnについてwnm
DOA=0である。スマート・オーディオ・デバイスおよび受動受信機の両方について、位置および角度の両方が決定でき、一方、オーディオ放出体については、位置のみが得られる。未知数の総数は、3Nsmart+3Nrec+2Nemit-4である。
【0086】
組み合わされた到着時間および到来方向の定位
以下の議論では、上述のDOAベースの定位プロセスと、このセクションの組み合わされたDOAおよびTOA定位との間の差異が強調される。明示的に与えられていないそれらの詳細は、上記で説明したDOAベースの定位プロセスにおけるものと同じであると想定されうる。
【0087】
図6は、DOAデータおよびTOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の一例を概説するフロー図である。方法600は、たとえば、
図10に示されるような装置の制御システムを介して定位アルゴリズムを実装することによって実行されうる。方法600のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含みうる。
【0088】
この例によれば、ブロック605~620においてDOAデータが取得される。いくつかの実装によれば、ブロック605~620は、たとえば、
図4のブロック405~420を参照して上記で説明したように、複数のスマート・オーディオ・デバイスから音響DOAデータを取得することに関わってもよい。いくつかの代替的な実装では、ブロック605~620は、環境内の複数のデバイスのそれぞれによって送信され、受信される電磁波に対応するDOAデータを取得することに関わってもよい。
【0089】
しかしながら、この例では、ブロック605はまた、TOAデータを取得することにも関わる。この例によれば、TOAデータは、オーディオ環境内のすべてのスマート・オーディオ・デバイス(たとえば、オーディオ環境内のスマート・オーディオ・デバイスのすべてのペア)によって放出され、受信されたオーディオの測定されたTOAを含む。構造化ソース信号を放出することに関わるいくつかの実施形態では、TOAデータを抽出するために使用されるオーディオは、DOAデータを抽出するために使用されたものと同じであってもよい。他の実施形態では、TOAデータを抽出するために使用されるオーディオは、DOAデータを抽出するために使用されるオーディオとは異なっていてもよい。
【0090】
この例によれば、ブロック616は、オーディオ・データ中のTOA候補を検出することに関わり、ブロック618は、それらのTOA候補のうちから各スマート・オーディオ・デバイス・ペアについて単一のTOAを選択することに関わる。いくつかの例を以下に説明する。
【0091】
TOAデータを取得するためにさまざまな技法が使用されうる。1つの方法は、掃引(たとえば、対数正弦トーン(logarithmic sine tone))または最大長シーケンス(Maximum Length Sequence、MLS)等の室内較正オーディオ・シーケンスを使用することである。任意的に、いずれかの前述のシーケンスが、近超音波オーディオ周波数範囲(たとえば、18kHz~24kHz)への帯域制限とともに使用されてもよい。このオーディオ周波数範囲では、ほとんどの標準的なオーディオ機器は音を発し記録することができるが、そのような信号は、通常の人間の聴覚能力を超えたところにあるので、人間によって知覚されることができない。いくつかの代替的な実装は、直接シーケンス拡散スペクトル(Direct Sequence Spread Spectrum)信号など、1次オーディオ信号中の隠れ信号からTOA要素を復元することに関わってもよい。
【0092】
すべてのスマート・オーディオ・デバイスから他のすべてのスマート・オーディオ・デバイスへのDOAデータのセット、およびスマート・オーディオ・デバイスのすべてのペアからのTOAデータのセットが与えられると、
図6の定位方法625は、可能性としてはいくつかの制約条件を受けて、あるコスト関数を最小化することに基づいていてもよい。この例では、
図6の定位方法625は、上述のDOA値およびTOA値を入力データとして受信し、スマート・オーディオ・デバイスに対応する推定された位置データおよび配向データ630を出力する。いくつかの例では、定位方法625はまた、たとえば最小化問題からは決定できないいくつかのグローバル対称性まで、スマート・オーディオ・デバイスの再生および記録レイテンシーを出力しうる。いくつかの例を以下に説明する。
【0093】
図7は、DOAデータおよびTOAデータに基づいてデバイスの位置および配向を自動的に推定するための方法の別の例を概説するフロー図である。方法700は、たとえば、
図10に示されるような装置の制御システムを介して定位アルゴリズムを実装することによって実行されてもよい。方法700のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。
【0094】
以下で説明される点を除いて、いくつかの例では、ブロック705、710、715、720、725、730、735、740、745、および750は、
図5のブロック505、510、515、520、525、530、535、540、545、および550を参照して上記で説明された通りであってもよい。しかしながら、この例では、コスト関数720および非線形最適化方法735は、DOAデータおよびTOAデータの両方に作用するように、
図5のコスト関数520および非線形最適化方法535に対して、DOAデータおよびTOAデータの両方に作用するように修正される。ブロック708のTOAデータは、いくつかの例では、
図6を参照して上記で説明したように取得されうる。
図5のプロセスと比較した場合のもう一つの相違点は、この例では、非線形最適化方法735は、たとえば以下で説明するように、スマート・オーディオ・デバイスに対応する記録および再生レイテンシー・データ747も出力することである。よって、いくつかの実装では、結果評価ブロック750は、DOAデータおよび/またはTOAデータの両方を評価することに関わってもよい。いくつかのそのような例では、ブロック750の動作は、DOAデータおよび/またはTOAデータに関わるフィードバック・プロセスを含んでいてもよい。たとえば、いくつかのそのような例は、所与のTOA/DOA候補組み合わせの残差を別のTOA/DOA候補組み合わせと比較することに関わるフィードバック・プロセスを実装してもよい。これについては、たとえば、以下のTOA/DOA堅牢性測定の議論において説明される。
【0095】
いくつかの例では、結果評価ブロック750は、結果位置および配向におけるコスト関数の残差を計算することに関わる。相対的により低い残差は、通常、相対的により正確なデバイス定位値を示す。いくつかの実装によれば、結果評価ブロック750は、フィードバック・プロセスに関わってもよい。たとえば、いくつかのそのような例は、所与のTOA/DOA候補組み合わせの残差を別のTOA/DOA候補組み合わせと比較することに関わるフィードバック・プロセスを実装しうる。これについては、たとえば、以下のTOAおよびDOA堅牢性測定の議論において説明される。
【0096】
よって、
図6は、任意的なフィードバック・プロセスのフローを表すために、ブロック630(これはいくつかの例では結果評価に関わってもよい)からDOA候補選択ブロック620およびTOA候補選択ブロック618への破線を含む。いくつかの実装では、ブロック705は、
図6のブロック605~620を参照して上記で説明したように音響DOAデータを取得することに関わってもよく、これは、DOA候補を決定し、DOA候補を選択することに関わる。いくつかの例では、ブロック708は、
図6のブロック605~618を参照して上記で説明したように音響TOAデータを取得することに関わってもよく、これは、TOA候補を決定し、TOA候補を選択することとに関わる。
図7には示されていないが、いくつかの任意的なフィードバック・プロセスは、結果評価ブロック750からブロック705および/またはブロック708に戻ることに関わってもよい。
【0097】
この例によれば、定位アルゴリズムは、可能性としてはいくつかの制約条件を受けてコスト関数を最小化することによって進行し、以下のように記述できる。この例では、定位アルゴリズムは、入力として、DOAデータ705およびTOAデータ708を、聴取環境について指定された構成パラメータ710および可能性としてはいくつかの任意的な制約条件725とともに受信する。この例では、コスト関数は、測定されたDOAと推定されたDOAとの間の差、および測定されたTOAと推定されたTOAとの間の差を考慮に入れる。いくつかの実施形態では、制約条件725は、オーディオ・デバイスが互いからある最小距離であるという条件を課す、および/またはいくつかのデバイス・レイテンシーが0であるべきであるという条件を課すなど、可能なデバイス位置、配向、および/またはレイテンシーに制限を課す。
【0098】
いくつかの実装では、コスト関数は、次のように定式化できる:
【数4】
上記の式においてl=(l
1,…,l
N)およびk=(k
1,…,k
N)は、それぞれすべてのデバイスについて再生デバイスおよび記録デバイスのベクトルを表し、W
DOAおよびW
TOAは、それぞれ、DOA最小化部分およびTOA最小化部分のグローバル重み(プレファクタとしても知られる)を表し、それら2つの項のそれぞれの相対的重要性を反映する。いくつかのそのような例では、TOAコスト関数は次のように定式化できる。
【数5】
ここで、
・TOA
nmは、スマートデバイスmからスマートデバイスnに進む信号の測定された到着時間を表す;
・w
nm
TOAは、前記TOA
nm測定値に与えられる重みを表す;
・cは、音速を表す。
【0099】
スマート・オーディオ・デバイス毎に最大5つの実数の未知数が存在する:デバイス位置xn(デバイス当たり2つの実数の未知数)、デバイス配向αn(デバイス当たり1つの実数の未知数)ならびに記録および再生レイテンシーlnおよびkn(デバイス当たり2つの追加的な未知数)。これらから、デバイス位置およびレイテンシーのみが、コスト関数のTOA部分のために有意である。先験的に知られているレイテンシー間のリンクまたは制限がある場合、いくつかの実装では、実効的な未知数の数を減らすことができる。
【0100】
いくつかの例では、たとえば、各TOA測定値の利用可能性または信頼性に関する、追加的な事前情報があってもよい。これらの例のいくつかでは、重みwnm
TOAは0または1であることができ、たとえば、利用可能でない(または十分に信頼できないと考えられる)測定値については0であり、信頼できる測定値については1である。このようにして、デバイス定位は、すべての可能なDOAおよび/またはTOA要素のサブセットのみを用いて推定されうる。いくつかの他の実装では、重みは、たとえばTOA測定値の信頼性の関数として、0から1までの連続値を有していてもよい。事前の信頼性情報が利用可能でないいくつかの例では、重みは単に1に設定されうる。
【0101】
いくつかの実装によれば、一つまたは複数の追加的な制約条件が、レイテンシーの可能な値および/またはそれらの間の異なるレイテンシーの関係に課されてもよい。
【0102】
いくつかの例では、オーディオ・デバイスの位置は、メートルなどの標準的な長さの単位で測定されてもよく、レイテンシーおよび到着時間は、秒などの標準的な時間の単位で示されてもよい。しかしながら、非線形最適化方法は、最小化プロセスにおいて使用される異なる変数の変動のスケールが同じオーダーである場合に、より良好に機能する場合が多い。したがって、いくつかの実装は、スマートデバイス位置の変動の範囲が-1と1の間の範囲になるように位置測定値を再スケーリングし、レイテンシーおよび到着時間も、これらの値が-1と1の間の範囲になるように再スケーリングすることに関わってもよい。
【0103】
上記のコスト関数の最小化は、スマート・オーディオ・デバイスの絶対的な位置および配向またはレイテンシーを完全には決定しない。TOA情報は絶対的な距離スケールを与え、これはコスト関数がスケール変換の下ではもはや不変ではないが、グローバル回転およびグローバル並進の下では依然として不変のままであることを意味する。さらに、レイテンシーは、追加的なグローバル対称性を受ける:同じグローバルな量がすべての再生および記録レイテンシーに同時に加えられる場合、コスト関数は不変のままである。これらのグローバル変換は、コスト関数の最小化から決定することができない。同様に、構成パラメータは、等価クラス全体を表すデバイス・レイアウトを一意的に定義することを許容する基準を提供するべきである。
【0104】
いくつかの例では、対称性曖昧さ解消基準は、グローバル並進対称性を固定する参照位置(たとえば、スマートデバイス1は、座標の原点にあるべきである)と;2次元回転対称性を固定する参照配向(たとえば、スマートデバイス1は正面のほうに向けられるべきである)と;参照レイテンシー(たとえば、デバイス1についての記録レイテンシーは0であるべきである)とを含みうる。合計で、この例では最小化問題から決定できず、外部入力として提供されるべき4つのパラメータが存在する。したがって、最小化問題から決定できる5N-4個の未知数がある。
【0105】
いくつかの実装では、スマート・オーディオ・デバイスのセットのほかに、機能するマイクロフォン・アレイを備えていなくてもよい一つまたは複数の受動オーディオ受信機、および/または一つまたは複数のオーディオ放出体が存在してもよい。最小化変数としてレイテンシーを含めることは、いくつかの開示された方法が、放出および受信時間が正確に知られていない受信機および放出体を定位することを許容する。いくつかのそのような実装では、上記で説明したTOAコスト関数が実装されてもよい。このコスト関数は、読者の便宜のために下記に再掲される。
【数6】
【0106】
DOAコスト関数を参照して上述したように、コスト関数変数は、コスト関数が受動受信機および/または放出体を含む定位推定のために使用される場合、わずかに異なる仕方で解釈される必要がある。ここで、Nは、デバイスの総数を表し、デバイスの内訳は、Nsmart個のスマート・オーディオ・デバイス、Nrec個の受動オーディオ受信機およびNemit個の放出体を含み、よって、N=Nsmart+Nrec+Nemitである。重みwnm
DOAは、受動受信機または専用放出体に起因する欠落データをマスクするためにスパース構造を有していてもよく、よって、たとえば、デバイスnがオーディオ放出体である場合、すべてのmについてwnm
DOA=0であり、デバイスmがオーディオ受信機である場合、すべてのnについてwnm
DOA=0である。いくつかの実装によれば、スマート・オーディオ・デバイスについては、位置、配向、ならびに記録および再生レイテンシーが決定されなければならず;受動受信機については、位置、配向、および記録レイテンシーが決定されなければならず;オーディオ放出体については、位置および再生レイテンシーが決定されなければならない。したがって、いくつかのそのような例によれば、未知数の総数は、5Nsmart+4Nrec+3Nemit-4である。
【0107】
グローバル並進および回転の曖昧さ解消
DOAのみの問題と、組み合わされたTOAとDOAの問題の両方に対する解は、グローバルな並進および回転の曖昧さの影響を受ける。いくつかの例では、並進の曖昧さは、放出体のみのソースを聴取者として扱い、聴取者が原点に位置するようにすべてのデバイスを並進させることによって解決できる。
【0108】
回転の曖昧さは、解に追加的な制約条件を課すことによって解決できる。たとえば、いくつかのマルチ・ラウドスピーカー環境は、テレビ(TV)ラウドスピーカーと、TV視聴のために配置されたソファとを含みうる。環境内のラウドスピーカーを位置特定した後、いくつかの方法は、聴取者をTV視聴方向に結ぶベクトルを見つけることに関わってもよい。いくつかのそのような方法は、次いで、TVにそのラウドスピーカーから音を放出させること、および/またはユーザーにTVのところまで歩くように促し、ユーザーの発話を位置特定することに関わってもよい。いくつかの実装は、環境の周りでパンするオーディオ・オブジェクトをレンダリングすることに関わってもよい。オーディオ・オブジェクトが環境の正面、環境のテレビ位置などの環境内の一つまたは複数の所定の位置にある時を示すユーザー入力をユーザーが提供してもよい(たとえば「ストップ」と言う)。いくつかの実装は、2つの定義された方向に携帯電話を向けるようにユーザーに促す、慣性測定ユニットを備えた携帯電話アプリを含み、第1の方向は、すなわち、特定のデバイス(たとえば、点灯したLEDをもつ該デバイス)の方向であり、第2の方向は、環境の正面、環境のTV位置などのユーザーの所望の観察方向である。いくつかの詳細な曖昧さ解消の例を、ここで、
図8A~
図8Dを参照して説明する。
【0109】
図8Aは、オーディオ環境の一例を示す。いくつかの例によれば、開示される定位方法のうちの1つによって出力されるオーディオ・デバイス位置データは、オーディオ・デバイス座標系807を基準とした、オーディオ・デバイス1~5のそれぞれについてのオーディオ・デバイス位置の推定値を含みうる。この実装では、オーディオ・デバイス座標系807は、その原点としてオーディオ・デバイス2のマイクロフォンの位置を有するデカルト座標系である。ここで、オーディオ・デバイス座標系807のx軸は、オーディオ・デバイス2のマイクロフォンの位置とオーディオ・デバイス1のマイクロフォンの位置との間の線803に対応する。
【0110】
この例では、聴取者位置は、(たとえば、環境800a内の一つまたは複数のラウドスピーカーからのオーディオ・プロンプトを介して)カウチ103に座っているように示されている聴取者805に一つまたは複数の発声827を行うように促し、到着時間(TOA)データに従って聴取者位置を推定することによって決定される。TOAデータは、環境内の複数のマイクロフォンによって取得されたマイクロフォン・データに対応する。この例では、マイクロフォン・データは、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、3つ、4つ、または5つすべて)のマイクロフォンによる前記一つまたは複数の発声827の検出に対応する。
【0111】
代替的または追加的に、聴取者位置は、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、2つ、3つ、4つ、または5つすべて)のマイクロフォンによって提供されるDOAデータに従って推定されうる。いくつかのそのような例によれば、聴取者位置は、DOAデータに対応する線809a、809bなどの交点に従って決定されうる。
【0112】
この例によれば、聴取者位置は、聴取者座標系820の原点に対応する。この例では、聴取者角度配向データは、聴取者座標系820のy'軸によって示され、該y'軸は、聴取者の頭部810(および/または聴取者の鼻825)とテレビ101のサウンドバー830との間の線813aに対応する。
図8Aに示される例では、線813aはy'軸に平行である。したがって、角度Θは、y軸とy'軸との間の角度を表す。この例では、
図12のブロック1225は、聴取者座標系820の原点を中心としたオーディオ・デバイス座標の角度Θによる回転に関わってもよい。よって、オーディオ・デバイス座標系807の原点は、
図8Aにおいてオーディオ・デバイス2に対応するように示されているが、いくつかの実装は、聴取者座標系820の原点のまわりでオーディオ・デバイス座標を角度Θだけ回転する前に、オーディオ・デバイス座標系807の原点を、聴取者座標系820の原点と同位置にすることに関わる。この同位置にすることは、オーディオ・デバイス座標系807から聴取者座標系820への座標変換によって実行されうる。
【0113】
サウンドバー830および/またはテレビ101の位置は、いくつかの例では、サウンドバーに音を放出させ、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、3つ、4つ、または5つすべて)のマイクロフォンによるその音の検出に対応しうるDOAおよび/またはTOAデータに従ってサウンドバーの位置を推定することによって、決定されうる。代替的または追加的に、サウンドバー830および/またはテレビ101の位置は、ユーザーにテレビのところまで歩くように促し、オーディオ・デバイス1~5のうちの少なくともいくつか(たとえば、3つ、4つまたは5つすべて)のマイクロフォンによるその音の検出に対応しうるDOAおよび/またはTOAデータによってユーザーの発話を位置特定することによって決定されてもよい。いくつかのそのような方法は、たとえば、上記で説明したように、コスト関数を適用することに関わってもよい。いくつかのそのような方法は、三角測量に関わってもよい。そのような例は、サウンドバー830および/またはテレビ101が関連付けられたマイクロフォンを有しない状況において有益でありうる。
【0114】
サウンドバー830および/またはテレビ101が関連付けられたマイクロフォンを有するいくつかの他の例では、サウンドバー830および/またはテレビ101の位置は、本明細書で開示される方法などのTOAおよび/またはDOA方法に従って決定されうる。いくつかのそのような方法によれば、マイクロフォンはサウンドバー830と同じ位置にあってもよい。
【0115】
いくつかの実装によれば、サウンドバー830および/またはテレビ101は、関連付けられたカメラ811を有していてもよい。制御システムは、聴取者の頭部810(および/または聴取者の鼻825)の画像を捕捉するように構成されてもよい。いくつかのそのような例では、制御システムは、聴取者の頭部810(および/または聴取者の鼻825)とカメラ811との間の線813aを決定するように構成されてもよい。聴取者角度配向データは、線813aに対応しうる。代替的または追加的に、制御システムは、線813aとオーディオ・デバイス座標系のy軸との間の角度Θを決定するように構成されてもよい。
【0116】
図8Bは、聴取者角度配向データを決定することの追加的な例を示す。この例によれば、聴取者位置は、
図12のブロック1215において既に決定されている。ここで、制御システムが、環境800b内の多様な位置にオーディオ・オブジェクト835をレンダリングするために環境800bのラウドスピーカーを制御している。いくつかのそのような例では、制御システムは、オーディオ・オブジェクト835が聴取者805のまわりを回転するように思えるように、ラウドスピーカーにオーディオ・オブジェクト835をレンダリングさせてもよい。それはたとえば、オーディオ・オブジェクト835が聴取者座標系820の原点のまわりを回転するように思えるようにオーディオ・オブジェクト835をレンダリングすることによる。この例では、曲線状の矢印840は、オーディオ・オブジェクト835が聴取者805のまわりを回転するときのオーディオ・オブジェクト210の軌道の一部を示す。
【0117】
いくつかのそのような例によれば、聴取者805は、オーディオ・オブジェクト835が聴取者805が向いている方向にある時を示すユーザー入力を提供してもよい(たとえば、「ストップ」と言う)。いくつかのそのような例では、制御システムは、聴取者位置とオーディオ・オブジェクト835の位置との間の線813bを決定するように構成されてもよい。この例では、線813bは、聴取者805が向いている方向を示す聴取者座標系のy'軸に対応する。代替的な実装では、聴取者805は、オーディオ・オブジェクト835が環境の正面にある時、環境のTV位置にある時、オーディオ・デバイス位置にある時などを示すユーザー入力を提供してもよい。
【0118】
図8Cは、聴取者角度配向データを決定することの追加的な例を示す。この例によれば、聴取者位置は、
図12のブロック1215においてすでに決定されている。ここで、聴取者805は、ハンドヘルド・デバイス845を使用して、ハンドヘルド・デバイス845をテレビ101またはサウンドバー830のほうに向けることによって、聴取者805の視聴方向に関する入力を提供している。ハンドヘルド・デバイス845および聴取者の腕の破線の輪郭は、この例では、聴取者805がハンドヘルド・デバイス845をテレビ101またはサウンドバー830のほうに向けていた時より前の時に、聴取者805がハンドヘルド・デバイス845をオーディオ・デバイス2のほうに向けていたことを示す。他の例では、聴取者805は、ハンドヘルド・デバイス845をオーディオ・デバイス1などの別のオーディオ・デバイスのほうに向けていてもよい。この例によれば、ハンドヘルド・デバイス845は、オーディオ・デバイス2とテレビ101またはサウンドバー830との間の角度αを決定するように構成され、該角度αは、オーディオ・デバイス2と聴取者805の観察方向との間の角度を近似する。
【0119】
ハンドヘルド・デバイス845は、いくつかの例では、慣性センサーシステムと、環境800cのオーディオ・デバイスを制御している制御システムと通信するように構成された無線インターフェースとを含むセルラー電話であってもよい。いくつかの例では、ハンドヘルド・デバイス845は、たとえば、ユーザー・プロンプトを提供することによって(たとえば、グラフィカルユーザーインターフェースを介して)、ハンドヘルド・デバイス845が所望の方向を指していることを示す入力を受信することによって、対応する慣性センサー・データを保存すること、および/または対応する慣性センサー・データを、環境800cのオーディオ・デバイスを制御している制御システムに送信することによって、などで、必要な機能を実行するようにハンドヘルド・デバイス845を制御するように構成されたアプリケーションまたは「アプリ」を実行していてもよい。
【0120】
この例によれば、制御システム(ハンドヘルド・デバイス845の制御システム、環境800cのスマート・オーディオ・デバイスの制御システム、または環境800cのオーディオ・デバイスを制御している制御システムであってもよい)は、慣性センサー・データに従って、たとえばジャイロスコープデータに従って、線813cおよび850の配向を決定するように構成される。この例では、線813cは軸y'に平行であり、聴取者角度配向を決定するために使用されてもよい。いくつかの例によれば、制御システムは、オーディオ・デバイス2と聴取者805の観察方向との間の角度αに従って、聴取者座標系820の原点のまわりのオーディオ・デバイス座標の適切な回転を決定しうる。
【0121】
図8Dは、
図8Cを参照して説明された方法に従ってオーディオ・デバイス座標の適切な回転を決定する一例を示す。この例では、オーディオ・デバイス座標系807の原点は、聴取者座標系820の原点と同位置である。オーディオ・デバイス座標系807の原点と聴取者座標系820の原点を同位置にすることは、聴取者位置が決定された後に可能になる。オーディオ・デバイス座標系807の原点と聴取者座標系820の原点とを同位置にすることは、オーディオ・デバイス座標系807から聴取者座標系820にオーディオ・デバイス位置を変換することを含みうる。角度αは、
図8Cを参照して上述したように決定されている。よって、角度αは、聴取者座標系820におけるオーディオ・デバイス2の所望の配向に対応する。この例では、角度βは、オーディオ・デバイス座標系807におけるオーディオ・デバイス2の配向に対応する。この例ではβ-αである角度Θは、オーディオ・デバイス座標系807のy軸を聴取者座標系820のy'軸と整列させるための必要な回転を示す。
【0122】
DOA堅牢性指標
図4を参照して上述したように、ステアード応答パワー、ビームフォーミング、または他の同様の方法を含む任意の信号に適用される「ブラインド」方法を使用するいくつかの例では、精度および安定性を改善するために、堅牢性指標(robustness measure)が追加されてもよい。いくつかの実装は、過渡成分をフィルタ除去し、永続的なピークのみを検出するため、ならびにそれらの永続的なDOAにおけるランダム誤差およびゆらぎを平均して消すために、ビームフォーマー・ステアード応答(beamformer steered response)の時間積分を含む。他の例は、限定された周波数帯域のみを入力として使用してもよく、それは、より良い性能のために部屋または信号タイプに合わせて調整されてもよい。
【0123】
たとえば、インパルス応答を生じるために構造化ソース信号および畳み込み解除方法の使用に関わる「教師あり」方法を使用する場合、DOAピークの精度および顕著性を高めるために、前処理施策が実装されることができる。いくつかの例では、そのような前処理は、各マイクロフォンチャネル上のインパルス応答の開始において始まる何らかの時間幅の振幅窓を用いた打ち切りを含みうる。そのような例は、各チャネル開始が独立して見出されることができるように、インパルス応答開始検出器を組み込んでいてもよい。
【0124】
上述したような「ブラインド」または「教師あり」方法のいずれかに基づくいくつかの例では、DOA精度を改善するために、さらなる処理が追加されてもよい。(たとえば、ステアード応答パワー(Steered-Response Power、SRP)またはインパルス応答解析の間の)ピーク検出に基づくDOA選択は、環境中の音響に敏感であることに留意することが重要である。環境中の音響は、受信エネルギーと送信エネルギーの両方を減衰させる、反射およびデバイス隠蔽〔オクルージョン〕に起因する非主要経路信号の捕捉を引き起こす可能性がある。これらの発生は、デバイス・ペアDOAの精度を低下させ、最適化器の定位解に誤差を導入する可能性がある。したがって、所定の閾値内のすべてのピークを正解〔グラウンドトゥルース〕DOAのための候補とみなすことが賢明である。所定の閾値の一例は、ピークが平均ステアード応答パワー(SRP)より大きいという要件である。すべての検出されたピークについて、顕著性閾値処理および平均信号レベル未満の候補の除去は、単純だが効果的な初期フィルタリング技法であることが証明されている。本明細書で使用されるところでは、「顕著性」〔プロミネンス〕は、局所ピークがその隣接する極小値と比較してどのくらい大いかの指標であり、これは、パワーのみに基づく閾値処理とは異なる。顕著性閾値の一例は、ピークとそれの隣接する極小値との間のパワーの差が閾値以上であるという要件である。有望な候補の保持は、デバイス・ペアが(正解からの受け入れ可能な誤差の許容範囲内で)それらのセット内に使用可能なDOAを含む可能性を改善する。ただし、信号が強い反射/隠蔽によって損なわれる場合には、デバイス・ペアが使用可能なDOAを含まない可能性がある。いくつかの例では、以下のうちの1つを行うために選択アルゴリズムが実装されうる:1)デバイス・ペアごとに最良の使用可能なDOA候補を選択する;2)候補のいずれも使用可能ではないと判断し、したがって、コスト関数重み付け行列を用いてそのペアの最適化寄与をヌルにする、または3)最良の推論された候補を選択するが、最良の候補がもたらす誤差の量を曖昧さなく決定にすることが困難である場合、DOA寄与に二値でない重み付けを適用する。
【0125】
最良の推論された候補を用いた初期最適化の後、いくつかの例では、定位解は、各DOAの残差コスト寄与を計算するために使用されうる。残差コストのアウトライアー分析は、定位解に最も大きく影響を与えているDOAペアの証拠を提供することができ、極端なアウトライアーは、それらのDOAを潜在的に不正確であるかまたは最適でないとフラグ付けする。次いで、残りの候補と、そのデバイス・ペアの寄与に適用される重み付けとを用いた、残差コスト寄与に基づく、アウトライアーDOAペアについての最適化の再帰的実行が、前述の3つのオプションのうちの1つに従った候補処理のために使用されてもよい。これは、
図4~
図7を参照して上述したようなフィードバック・プロセスの一例である。いくつかの実装によれば、すべての検出された候補が評価され、選択されたDOAの残差コスト寄与がバランスされるまで、繰り返される最適化および処理決定が実行されうる。
【0126】
最適化器評価に基づく候補選択の欠点は、計算集約的であり、候補トラバーサル順序〔候補をたどる順序〕に敏感であることである。より少ない計算重みをもつ代替的な技法は、セット内の候補のすべての順列を決定し、これらの候補に対するデバイス定位のために三角形整列方法を実行することに関わる。関連する三角形整列方法は、あらゆる目的のために参照により本明細書に組み込まれる特許文献1に開示されている。次いで、定位結果は、三角測量で使用されるDOA候補に関して該結果がもたらす総コストおよび残差コストを計算することによって評価されることができる。これらのメトリックをパース〔解析〕するための決定論理が、非線形最適化問題に供給されるべき、最良の候補およびそれらのそれぞれの重み付けを決定するために使用できる。候補のリストが大きく、したがって、順列数が多くなる場合は、フィルタリングおよび順列リストを通じたインテリジェントなトラバーサルが適用されてもよい。
【特許文献1】米国仮特許出願第62/992,068号。2020年3月19日に出願。名称は「Audio Device Auto-Location」
【0127】
TOA堅牢性指標
図6を参照して上述したように、複数の候補TOA解の使用は、単一または最小限のTOA値を利用するシステムに比して堅牢性を加え、最適なスピーカー・レイアウトを見つけることに対して誤差の影響が最小限になることを確実にする。システムのインパルス応答を取得すると、いくつかの例では、TOA行列要素のそれぞれが、直接音に対応するピークを探すことによって復元できる。理想的な条件(たとえば、ノイズがなく、音源と受信機との間の直接経路内に障害物がなく、スピーカーが直接、マイクロフォンのほうを向いている)では、このピークは、インパルス応答内の最大ピークとして容易に識別できる。しかしながら、ノイズ、障害物、またはスピーカーおよびマイクロフォンの整列不良が存在する場合、直接音に対応するピークは、必ずしも最大値に対応しない。さらに、そのような条件では、直接音に対応するピークは、他の反射および/またはノイズから単離することが困難であることがある。直接音識別は、いくつかの事例では、困難なプロセスであることがある。直接音の不正確な識別は、自動定位プロセスを劣化させる(場合によっては、完全に台無しにする)。よって、直接音識別プロセスにおいて誤りの可能性がある場合、直接音について複数の候補を考慮することが効果的でありうる。いくつかのそのような事例では、ピーク選択プロセスは、2つの部分、すなわち、(1)好適なピーク候補を探す直接音探索アルゴリズムと、(2)正しいTOA行列要素を選ぶ確率を増加させるためのピーク候補評価プロセスとを含みうる。
【0128】
いくつかの実装では、直接音候補ピークを探すプロセスは、直接音についての有意な候補を識別するための方法を含みうる。いくつかのそのような方法は、以下のステップ、すなわち、(1)1つの第1の参照ピーク(たとえば、インパルス応答(IR)の絶対値の最大値)、「第1のピーク」を識別するステップと、(2)この第1のピークのまわり(前後)のノイズのレベルを評価するステップと、(3)ノイズ・レベルを上回る第1のピークの前(および場合によっては後)の代替ピークを探すステップと、(4)見つかったピークを、正しいTOAに対応するそれらの確率に従ってランク付けするステップと、任意的に、(5)近いピークをグループ化する(候補の数を減らすため)ステップとに基づいていてもよい。
【0129】
ひとたび直接音候補ピークが識別されると、いくつかの実装は、複数ピーク評価ステップに関わってもよい。直接音候補ピーク探索の結果として、いくつかの例では、それらの推定確率に従ってランク付けされた各TOA行列要素について、一つまたは複数の候補値がある。異なる候補値のうちから選択することによって、複数のTOA行列が形成されることができる。所与のTOA行列の確からしさを評価するために、最小化プロセス(上記で説明した最小化プロセスなど)が実装されうる。このプロセスは、該最小化の残差を生成することができ、これはTOA行列およびDOA行列の内部コヒーレンスの良好な推定値である。完璧なノイズレスTOA行列は0の残差をもたらすが、不正確な行列要素をもつTOA行列は大きな残差をもたらす。いくつかの実装では、本方法は、最小の残差をもつTOA行列を作成する候補TOA行列要素のセットを探す。これは、結果評価ブロック750を含みうる、
図6および
図7を参照して上述した評価プロセスの一例である。一例では、評価プロセスは、以下のステップ、すなわち、(1)初期TOA行列を選択するステップと、(2)最小化プロセスの残差を用いて初期行列を評価するステップと、(3)TOA候補のリストからTOA行列の1つの行列要素を変更するステップと、(4)最小化プロセスの残差を用いて行列を再評価するステップと、(5)残差がより小さい場合には前記変更を受け入れ、そうでない場合には前記変更を受け入れないステップと、(6)ステップ3~5を逐次反復するステップとに関わってもよい。いくつかの例では、評価プロセスは、すべてのTOA候補が評価されたとき、または所定の最大反復回数に達したときに停止してもよい。
【0130】
定位方法の例
図9Aは、定位方法の一例を概説するフロー図である。方法900のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。この実装では、方法900は環境内のオーディオ・デバイスの位置および配向を推定することに関わる。方法900のブロックは、
図10に示される装置1000であってもよい(またはそれを含んでいてもよい)一つまたは複数のデバイスによって実行されてもよい。
【0131】
この例では、ブロック905は、制御システムによって、オーディオ環境の少なくとも第1のスマート・オーディオ・デバイスによって発せられた音に対応する到来方向(DOA)データを取得する。制御システムは、たとえば、
図10を参照して以下に説明される制御システム1010であってもよい。この例によれば、第1のスマート・オーディオ・デバイスは、第1のオーディオ送信機および第1のオーディオ受信機を含み、DOAデータは、オーディオ環境の少なくとも第2のスマート・オーディオ・デバイスによって受信された音に対応する。ここで、第2のスマート・オーディオ・デバイスは、第2のオーディオ送信機および第2のオーディオ受信機を含む。この例では、DOAデータは、少なくとも第2のスマート・オーディオ・デバイスによって放出され、少なくとも第1のスマート・オーディオ・デバイスによって受信される音にも対応する。いくつかの例では、第1および第2のスマート・オーディオ・デバイスは、
図1に示されるオーディオ・デバイス105a~105dのうちの2つであってもよい。
【0132】
DOAデータは、特定の実装に依存してさまざまな仕方で取得されうる。いくつかの事例では、DOAデータを決定することは、
図4を参照して上記で説明した、および/または「DOA堅牢性指標」のセクションにおいて説明したDOA関連方法のうちの一つまたは複数に関わってもよい。いくつかの実装は、制御システムによって、ビームフォーミング方法、ステアード・パワード応答方法、到着時間差方法、および/または構造化信号方法を使用して、DOAデータの一つまたは複数の要素を取得することに関わってもよい。
【0133】
この例によれば、ブロック910は、制御システムによって、構成パラメータを受信することに関わる。この実装では、構成パラメータは、オーディオ環境自体、オーディオ環境の一つまたは複数のオーディオ・デバイス、またはオーディオ環境とオーディオ環境の一つまたは複数のオーディオ・デバイスの両方に対応する。いくつかの例によれば、構成パラメータは、オーディオ環境内のオーディオ・デバイスの数、オーディオ環境の一つまたは複数の寸法、オーディオ・デバイス位置もしくは配向に対する一つまたは複数の制約条件、および/または回転、並進、もしくはスケーリングのうちの少なくとも1つについての曖昧さ解消データを示してもよい。いくつかの例では、構成パラメータは、再生レイテンシー・データ、記録レイテンシー・データおよび/またはレイテンシー対称性を曖昧さ解消するためのデータを含んでいてもよい。
【0134】
この例では、ブロック915は、制御システムによって、少なくとも第1のスマート・オーディオ・デバイスおよび第2のスマート・オーディオ・デバイスの位置および配向を推定するために、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化することに関わる。
【0135】
いくつかの例によれば、DOAデータはまた、オーディオ環境の第3ないし第Nのスマート・オーディオ・デバイスによって放出される音に対応してもよく、Nは、オーディオ環境のスマート・オーディオ・デバイスの総数に対応する。そのような例では、DOAデータはまた、オーディオ環境のすべての他のスマート・オーディオ・デバイスから第1ないし第Nのスマート・オーディオ・デバイスのそれぞれによって受信された音に対応してもよい。そのような事例では、コスト関数を最小化することは、第3ないし第Nのスマート・オーディオ・デバイスの位置および/または配向を推定することに関わってもよい。
【0136】
いくつかの例では、DOAデータはまた、オーディオ環境の一つまたは複数の受動オーディオ受信機によって受信された音に対応してもよい。前記一つまたは複数の受動オーディオ受信機のそれぞれは、マイクロフォン・アレイを含んでいてもよいが、オーディオ放出体を欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数の受動オーディオ受信機のそれぞれの推定された位置および配向を与えてもよい。いくつかの例によれば、DOAデータはまた、オーディオ環境の一つまたは複数のオーディオ放出体によって放出された音に対応してもよい。前記一つまたは複数のオーディオ放出体のそれぞれは、少なくとも1つの音放出トランスデューサを含んでいてもよいが、マイクロフォン・アレイを欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数のオーディオ放出体のそれぞれの推定された位置を与えてもよい。
【0137】
いくつかの例では、方法900は、制御システムによって、コスト関数のためのシード・レイアウトを受信することに関わってもよい。シード・レイアウトは、たとえば、オーディオ環境内のオーディオ送信機および受信機の正しい数と、オーディオ環境内のオーディオ送信機および受信機のそれぞれについての任意の位置および配向とを指定してもよい。
【0138】
いくつかの例によれば、方法900は、制御システムによって、DOAデータの一つまたは複数の要素に関連付けられた重み因子を受信することに関わってもよい。重み因子は、たとえば、DOAデータの前記一つまたは複数の要素の利用可能性および/または信頼性を示しうる。
【0139】
いくつかの例では、方法900は、制御システムによって、オーディオ環境の少なくとも1つのオーディオ・デバイスによって放出され、オーディオ環境の少なくとも1つの他のオーディオ・デバイスによって受信される音に対応する到着時間(time of arrival、TOA)データを受信することに関わってもよい。いくつかのそのような例では、コスト関数は、TOAデータに少なくとも部分的に基づいていてもよい。いくつかのそのような方法は、少なくとも1つの再生レイテンシーおよび/または少なくとも1つの記録レイテンシーを推定することに関わってもよい。いくつかの例によれば、コスト関数は、再スケーリングされた位置、再スケーリングされたレイテンシー、および/または再スケーリングされた到着時間に関して作用してもよい。
【0140】
いくつかの例では、コスト関数は、DOAデータのみに依存する第1の項と、TOAデータのみに依存する第2の項とを含みうる。いくつかのそのような例では、第1の項は第1の重み因子を含んでいてもよく、第2の項は第2の重み因子を含んでいてもよい。いくつかのそのような例によれば、第2の項の一つまたは複数のTOA要素は、前記一つまたは複数のTOA要素のそれぞれの利用可能性または信頼性を示すTOA要素重み因子を有していてもよい。
【0141】
図9Bは、定位方法のもう一つの例を概説するフロー図である。方法950のブロックは、本明細書で説明する他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるものよりも多いまたは少ないブロックを含んでいてもよい。この実装では、方法950は環境内のデバイスの位置および配向を推定することに関わる。方法950のブロックは、
図10に示される装置1000であってもよい(またはそれを含んでいてもよい)一つまたは複数のデバイスによって実行されてもよい。
【0142】
この例では、ブロック955は、制御システムによって、環境の第1のデバイスの少なくとも第1のトランシーバの送信に対応する到来方向(DOA)データを取得する。制御システムは、たとえば、
図10を参照して以下に説明される制御システム1010であってもよい。この例によれば、第1のトランシーバは、第1の送信機と第1の受信機とを含み、DOAデータは、環境の第2のデバイスの少なくとも第2のトランシーバによって受信された送信に対応してもく、第2のトランシーバも、第2の送信機と第2の受信機とを含む。この例では、DOAデータも、少なくとも第1のトランシーバによって受信された少なくとも第2のトランシーバからの送信に対応する。いくつかの例によれば、第1のトランシーバおよび第2のトランシーバは、電磁波を送信および受信するように構成されてもよい。いくつかの例では、第1および第2のスマート・オーディオ・デバイスは、
図1に示されるオーディオ・デバイス105a~105dのうちの2つであってもよい。
【0143】
DOAデータは、特定の実装に依存してさまざまな仕方で取得されうる。いくつかの事例では、DOAデータを決定することは、
図4を参照して上記で説明した、および/または「DOA堅牢性指標」のセクションにおいて説明したDOA関連方法のうちの一つまたは複数に関わってもよい。いくつかの実装は、制御システムによって、ビームフォーミング方法、ステアード・パワード応答方法、到着時間差方法、および/または構造化信号方法を使用して、DOAデータの一つまたは複数の要素を取得することに関わってもよい。
【0144】
この例によれば、ブロック960は、制御システムによって、構成パラメータを受信することに関わる。この実装では、構成パラメータは、環境自体、オーディオ環境の一つまたは複数のデバイス、または環境とオーディオ環境の一つまたは複数のオーディオ・デバイスの両方に対応する。いくつかの例によれば、構成パラメータは、環境内のオーディオ・デバイスの数、環境の一つまたは複数の寸法、デバイス位置もしくは配向に対する一つまたは複数の制約条件、および/または回転、並進、もしくはスケーリングのうちの少なくとも1つについての曖昧さ解消データを示してもよい。いくつかの例では、構成パラメータは、再生レイテンシー・データ、記録レイテンシー・データおよび/またはレイテンシー対称性を曖昧さ解消するためのデータを含んでいてもよい。
【0145】
この例では、ブロック965は、制御システムによって、少なくとも第1のデバイスおよび第2のデバイスの位置および配向を推定するために、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化することに関わる。
【0146】
いくつかの実装によれば、DOAデータはまた、環境の第3ないし第Nのデバイスの第3ないし第Nのトランシーバによって放出された送信に対応してもよく、Nは、環境のトランシーバの総数に対応する。DOAデータはまた、環境のすべての他のトランシーバから第1ないし第Nのトランシーバのそれぞれによって受信された送信に対応する。いくつかのそのような実装では、コスト関数を最小化することは、第3ないし第Nのトランシーバの位置および/または配向を推定することに関わってもよい。
【0147】
いくつかの例では、第1のデバイスおよび第2のデバイスは、スマート・オーディオ・デバイスであってもよく、前記環境はオーディオ環境であってもよい。いくつかのそのような例では、第1の送信機および第2の送信機はオーディオ送信機であってもよい。いくつかのそのような例では、第1の受信機および第2の受信機はオーディオ受信機であってもよい。いくつかのそのような例によれば、DOAデータはまた、オーディオ環境の第3ないし第Nのスマート・オーディオ・デバイスによって放出された音に対応してもよく、Nは、オーディオ環境のスマート・オーディオ・デバイスの総数に対応する。そのような例では、DOAデータはまた、オーディオ環境のすべての他のスマート・オーディオ・デバイスから第1ないし第Nのスマート・オーディオ・デバイスのそれぞれによって受信された音に対応してもよい。そのような事例では、コスト関数を最小化することは、第3ないし第Nのスマート・オーディオ・デバイスの位置および配向を推定することに関わってもよい。代替的および/または追加的に、いくつかの例では、DOAデータは、環境におけるデバイスによって放出され、受信される電磁波に対応してもよい。
【0148】
いくつかの例では、DOAデータはまた、環境の一つまたは複数の受動受信機によって受信された音に対応してもよい。前記一つまたは複数の受動受信機のそれぞれは、受信機アレイを含んでいてもよいが、送信機を欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数の受動受信機のそれぞれの推定された位置および配向を与えてもよい。いくつかの例によれば、DOAデータはまた、環境の一つまたは複数の送信機からの送信に対応してもよい。いくつかのそのような例では、前記一つまたは複数の送信機のそれぞれは、受信機アレイを欠いていてもよい。コスト関数を最小化することはまた、前記一つまたは複数の送信機のそれぞれの推定された位置を与えてもよい。
【0149】
いくつかの例では、方法950は、制御システムによって、コスト関数のためのシード・レイアウトを受信することに関わってもよい。シード・レイアウトは、たとえば、オーディオ環境内の送信機および受信機の正しい数と、オーディオ環境内の送信機および受信機のそれぞれについての任意の位置および配向とを指定してもよい。
【0150】
いくつかの例によれば、方法950は、制御システムによって、DOAデータの一つまたは複数の要素に関連付けられた重み因子を受信することに関わってもよい。重み因子は、たとえば、DOAデータの前記一つまたは複数の要素の利用可能性および/または信頼性を示しうる。
【0151】
いくつかの例では、方法950は、制御システムによって、オーディオ環境の少なくとも1つのオーディオ・デバイスによって放出され、オーディオ環境の少なくとも1つの他のオーディオ・デバイスによって受信される音に対応する到着時間(time of arrival、TOA)データを受信することに関わってもよい。いくつかのそのような例では、コスト関数は、TOAデータに少なくとも部分的に基づいていてもよい。いくつかのそのような方法は、少なくとも1つの再生レイテンシーおよび/または少なくとも1つの記録レイテンシーを推定することに関わってもよい。いくつかのそのような例によれば、コスト関数は、再スケーリングされた位置、再スケーリングされたレイテンシー、および/または再スケーリングされた到着時間に関して作用してもよい。
【0152】
いくつかの例では、コスト関数は、DOAデータのみに依存する第1の項と、TOAデータのみに依存する第2の項とを含みうる。いくつかのそのような例では、第1の項は第1の重み因子を含んでいてもよく、第2の項は第2の重み因子を含んでいてもよい。いくつかのそのような例によれば、第2の項の一つまたは複数のTOA要素は、前記一つまたは複数のTOA要素のそれぞれの利用可能性または信頼性を示すTOA要素重み因子を有していてもよい。
【0153】
図10は、本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。装置1000は、たとえば、
図9Aおよび/または
図9Bを参照して上記で説明した方法を実行するように構成されてもよい。いくつかの例によれば、装置1000は、本明細書で開示される方法のうちの少なくともいくつかを実行するように構成されたスマート・オーディオ・デバイス(スマート・スピーカーなど)であってもよく、またはそれを含んでいてもよい。他の実装では、装置1000は、本明細書で開示される方法のうちの少なくともいくつかを実行するように構成された別のデバイスであってもよく、またはそれを含んでいてもよい。いくつかのそのような実装では、装置1000は、スマートホームハブまたはサーバーであってもよく、またはそれを含んでいてもよい。
【0154】
この例では、装置1000は、インターフェース・システム1005および制御システム1010を含む。インターフェース・システム1005は、いくつかの実装において、環境における複数のマイクロフォンのそれぞれから入力を受信するように構成されてもよい。インターフェース・システム1005は、一つまたは複数のネットワーク・インターフェースおよび/または一つまたは複数の外部デバイスインターフェース(一つまたは複数のユニバーサルシリアルバス(USB)インターフェースなど)を含んでいてもよい。いくつかの実装によれば、インターフェース・システム1005は、一つまたは複数の無線インターフェースを含んでいてもよい。インターフェース・システム1005は、一つまたは複数のマイクロフォン、一つまたは複数のラウドスピーカー、ディスプレイ・システム、タッチセンサーシステム、および/またはジェスチャーセンサーシステムのような、ユーザーインターフェースを実装するための一つまたは複数の装置を含んでいてもよい。いくつかの例では、インターフェース・システム1005は、制御システム1010と、
図10に示されるオプションのメモリシステム1015のようなメモリシステムとの間の一つまたは複数のインターフェースを含んでいてもよい。しかしながら、制御システム1010は、メモリシステムを含んでいてもよい。
【0155】
制御システム1010は、たとえば、汎用の単一またはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、または他のプログラマブル・ロジック・デバイス、離散ゲートまたはトランジスタ・ロジック、および/または離散ハードウェア・コンポーネントを含んでいてもよい。いくつかの実装では、制御システム1010は、2つ以上のデバイスに存在してもよい。たとえば、いくつかの実装では、制御システム1010の一部分は、
図1に描かれるオーディオ環境100内のデバイスに存在してもよく(たとえばオーディオ・デバイス105a~105dまたはスマートホームは部のうちの一つ)、制御システム1010の別の一部分は、サーバー、モバイル・デバイス(たとえば、スマートフォンまたはタブレットコンピュータ)など、オーディオ環境100の外にあるデバイスに存在してもよい。インターフェース・システム1005も、いくつかのそのような例では2つ以上のデバイスに存在してもよい。
【0156】
いくつかの実装では、制御システム1010は、少なくとも部分的に、本明細書に開示された方法を実行するために構成されてもよい。いくつかの例によれば、制御システム1010は、たとえば
図4ないし
図9Bを参照して上述した方法を実装するように構成されてもよい。
【0157】
いくつかの例では、装置1000は、
図10に示される任意的なマイクロフォン・システム1020を含んでいてもよい。マイクロフォン・システム1020は、一つまたは複数のマイクロフォンを含んでいてもよい。いくつかの例では、マイクロフォン・システム1020はマイクロフォンのアレイを含んでいてもよい。いくつかの例では、装置1000は、
図10に示される任意的なラウドスピーカー・システム1025を含んでいてもよい。ラウドスピーカー・システム1025は、一つまたは複数のラウドスピーカーを含んでいてもよい。いくつかの例では、マイクロフォン・システム1020はラウドスピーカーのアレイを含んでいてもよい。いくつかのそのような例では、装置1000はオーディオ・デバイスであってもよく、オーディオ・デバイスを含んでいてもよい。たとえば、装置1000は
図1に示されるオーディオ・デバイス105a~105dのうちの一つであってもよく、またはそれを含んでいてもよい。
【0158】
いくつかの例では、装置1000は、
図10に示される任意的なアンテナ・システム1030を含んでいてもよい。いくつかの例によれば、アンテナ・システム1030は、アンテナのアレイを含んでいてもよい。いくつかの例では、アンテナ・システム1030は、電磁波を送信および/または受信するように構成されてもよい。いくつかの実装によれば、制御システム1010は、アンテナ・システム1030からのアンテナデータに基づいて、環境内の2つのオーディオ・デバイス間の距離を推定するように構成されてもよい。たとえば、制御システム1010は、アンテナデータの到来方向および/またはアンテナデータの受信信号強度に従って、環境内の2つのオーディオ・デバイス間の距離を推定するように構成されてもよい。
【0159】
本明細書で説明する方法の一部または全部は、一つまたは複数の非一時的媒体上に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。たとえば、本明細書に記載される方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令に従って制御システム1010によって実行されてもよい。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがこれらに限定されない、本明細書で説明されるものなどのメモリデバイスを含みうる。前記一つまたは複数の非一時的媒体は、たとえば、
図10に示される任意的なメモリシステム1015内および/または制御システム1010内に存在しうる。よって、本開示で説明する主題のさまざまな発明的側面は、ソフトウェアが記憶されている一つまたは複数の非一時的媒体において実装できる。ソフトウェアは、たとえば、オーディオ・データを処理するように少なくとも1つのデバイスを制御するための命令を含みうる。ソフトウェアは、たとえば、
図10の制御システム1010などの制御システムの一つまたは複数の構成要素によって実行可能であってもよい。
【0160】
図11は、この例における居住空間であるオーディオ環境のフロアプランの例を示している。本明細書で提供される他の図と同様に、
図11に示される要素のタイプおよび数は、単に一例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含みうる。
【0161】
この例によれば、環境1100は、左上に居間1110、中央下にキッチン1115、右下に寝室1122を含む。居住空間にわたって分布する四角および円は、スペースに都合のよい位置に配置されているが、標準で規定されたレイアウトには準拠しない(任意に配置された)ラウドスピーカー1105a~1105hのセットを表す。それらのラウドスピーカーの少なくともいくつかは、いくつかの実装ではスマート・スピーカーであってもよい。いくつかの例では、テレビジョン1130は、少なくとも部分的に、一つまたは複数の開示された実施形態を実装するように構成されてもよい。この例では、環境1100は、環境を通じて分散されたカメラ1111a~1111eを含む。いくつかの実装では、環境1100内の一つまたは複数のスマート・オーディオ・デバイスも、一つまたは複数のカメラを含んでいてもよい。該一つまたは複数のスマート・オーディオ・デバイスは、単一目的のオーディオ・デバイスまたは仮想アシスタントであってもよい。いくつかのそのような例において、任意的なセンサーシステム130の一つまたは複数のカメラは、テレビジョン1130内またはテレビジョン1130上、携帯電話内、またはラウドスピーカー1105b、1105d、1105e、または1105hのうちの一つまたは複数などのスマート・スピーカー内に存在してもよい。カメラ1111a~1111eは、本開示において提示される環境1100のすべての図に示されているわけではないが、それにもかかわらず、環境1100のそれぞれは、いくつかの実装において、一つまたは複数のカメラを含んでいてもよい。
【0162】
本開示のいくつかの側面は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)システムまたはデバイスと、開示された方法またはそのステップの一つまたは複数の例を実装するためのコードを記憶する有形のコンピュータ読み取り可能媒体(たとえば、ディスク)とを含む。たとえば、いくつかの開示されたシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであって、開示された方法の実施形態またはそのステップを含む多様な動作のいずれかをデータに対して実行するようソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成されたものであってもよく、またはそれらを含んでいてもよい。そのような汎用プロセッサは、入力装置、メモリ、および、それに呈されたデータに応答して開示された方法(またはそのステップ)の一つまたは複数の例を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムを含むコンピュータ・システムであってもよく、または、それを含んでいてもよい。
【0163】
いくつかの実施形態は、開示された方法の一つまたは複数の例の実行を含む、オーディオ信号に対して必要な処理を実行するように構成された(たとえば、プログラムされた、および他の仕方で構成された)構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装されてもよい。代替的に、開示されたシステム(またはその要素)の実施形態は、開示された方法の一つまたは複数の例を含む多様な動作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された汎用プロセッサ(たとえば、パーソナルコンピュータ(PC)または他のコンピュータ・システムまたはマイクロプロセッサであって、入力装置およびメモリを含んでいてもよいもの)として実装されてもよい。代替的に、本発明のシステムのいくつかの実施形態の要素は、開示された方法の一つまたは複数の例を実行するように構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムはまた、他の要素(たとえば、一つまたは複数のラウドスピーカーおよび/または一つまたは複数のマイクロフォン)をも含む。開示された方法の一つまたは複数の例を実行するように構成された汎用プロセッサは、入力装置(たとえば、マウスおよび/またはキーボード)、メモリ、およびディスプレイ装置に結合されてもよい。
【0164】
本開示のもう一つの側面は、開示される方法の一つまたは複数の例またはそのステップを実行するためのコード(たとえば実行するために実行可能なコーダ)を記憶しているコンピュータ読み取り可能媒体(たとえば、ディスクまたは他の有形記憶媒体)である。
【0165】
本開示の個別的な実施形態および本開示の用途が本明細書に記載されているが、本明細書に記載されている実施形態および用途の多くの変形が、本開示の範囲から逸脱することなく可能であることは、当業者には明らかであろう。
【国際調査報告】