IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特表2024-542069ラウドスピーカー配向に基づくレンダリング
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】ラウドスピーカー配向に基づくレンダリング
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241106BHJP
   H04R 3/00 20060101ALI20241106BHJP
【FI】
H04S7/00 320
H04R3/00 310
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024526478
(86)(22)【出願日】2022-11-07
(85)【翻訳文提出日】2024-05-02
(86)【国際出願番号】 US2022049170
(87)【国際公開番号】W WO2023086303
(87)【国際公開日】2023-05-19
(31)【優先権主張番号】63/277,225
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/364,322
(32)【優先日】2022-05-06
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】22172447.9
(32)【優先日】2022-05-10
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ZIGBEE
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】カウチンスキー,キンバリー ジーン
(72)【発明者】
【氏名】ゼーフェルト,アラン ジェフリー
(72)【発明者】
【氏名】ポート,ティモシー アラン
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162AA16
5D162CC12
5D162CC18
5D162DA02
5D162DA04
5D162DA06
5D162DA44
5D220AA04
5D220AA05
(57)【要約】
オーディオ処理方法が、オーディオ信号および関連付けられた空間データ、聴取者位置データ、ラウドスピーカー位置データ、ならびにラウドスピーカー配向データを受領し、少なくとも部分的には前記空間データ、前記聴取者位置データ、前記ラウドスピーカー位置データ、および前記ラウドスピーカー配向データに少なくとも基づいて再生のためにオーディオ・データをレンダリングして、レンダリングされたオーディオ信号を生成することに関わる。レンダリングは、増加したラウドスピーカー配向角に少なくとも部分的に基づいて、ラウドスピーカーの相対的アクティブ化を低減する傾向があるラウドスピーカー配向因子を適用することに関わる。いくつかの例では、レンダリングは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいてラウドスピーカー配向因子の効果を修正することに関わっていてもよい。ラウドスピーカー重要性メトリックは、オーディオ信号の意図された知覚される空間位置においてオーディオ信号をレンダリングするためのラウドスピーカーの重要性に対応してもよい。
【特許請求の範囲】
【請求項1】
オーディオ処理方法であって:
制御システムによって、およびインターフェース・システムを介して、オーディオ・データを受領する段階であって、前記オーディオ・データは、一つまたは複数のオーディオ信号および関連付けられた空間データを含み、前記空間データは、前記一つまたは複数のオーディオ信号のうちのオーディオ信号に対応する意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記インターフェース・システムを介して、オーディオ環境における人に対応する聴取者位置を示す聴取者位置データを受領する段階と;
前記制御システムによって、前記インターフェース・システムを介して、前記オーディオ環境における複数のラウドスピーカーの各ラウドスピーカーの位置を示すラウドスピーカー位置データを受領する段階と;
前記制御システムによって、前記インターフェース・システムを介して、ラウドスピーカー配向データを受領する段階であって、前記ラウドスピーカー配向データは、(a)前記オーディオ環境における前記複数のラウドスピーカーの各ラウドスピーカーについての最大音響放射の方向と(b)対応するラウドスピーカーの位置に対する前記聴取者位置との間のラウドスピーカー配向角を示す、段階と;
前記オーディオ環境における前記複数のラウドスピーカーの少なくともサブセットを介した再生のために前記オーディオ・データを前記制御システムによってレンダリングして、レンダリングされたオーディオ信号を生成する段階であって、該レンダリングすることは、前記空間データ、前記聴取者位置データ、前記ラウドスピーカー位置データ、および前記ラウドスピーカー配向データに少なくとも部分的に基づき、該レンダリングすることは、増加したラウドスピーカー配向角に少なくとも部分的に基づいて、ラウドスピーカーの相対的アクティブ化を低減する傾向があるラウドスピーカー配向因子を適用することに関わる、段階と;
前記インターフェース・システムを介して、前記レンダリングされたオーディオ信号を前記オーディオ環境における前記複数のラウドスピーカーのうちのラウドスピーカーの少なくとも前記サブセットに提供する段階とを含む、
オーディオ処理方法。
【請求項2】
前記ラウドスピーカーの少なくとも前記サブセットについてラウドスピーカー重要性メトリックを推定する段階をさらに含む、請求項1に記載のオーディオ処理方法。
【請求項3】
前記ラウドスピーカー重要性メトリックは、前記オーディオ信号の意図された知覚される空間位置においてオーディオ信号をレンダリングするためのラウドスピーカーの重要度に対応する、請求項2に記載のオーディオ処理方法。
【請求項4】
各ラウドスピーカーについてのレンダリングは、前記ラウドスピーカー重要性メトリックに少なくとも部分的に基づく、請求項2に記載のオーディオ処理方法。
【請求項5】
各ラウドスピーカーについてのレンダリングは、前記ラウドスピーカー重要性メトリックに少なくとも部分的に基づいて前記ラウドスピーカー配向因子の効果を修正することに関わる、請求項2に記載のオーディオ処理方法。
【請求項6】
各ラウドスピーカーについてのレンダリングは、増加されたラウドスピーカー重要性メトリックに少なくとも部分的に基づいて前記ラウドスピーカー配向因子の影響を低減することに関わる、請求項2に記載のオーディオ処理方法。
【請求項7】
特定のラウドスピーカーについての前記ラウドスピーカー配向角は、(a)前記特定のラウドスピーカーについての最大音響放射の方向と、(b)前記特定のラウドスピーカーの位置と前記聴取者位置との間の線との間の角度である、請求項1に記載のオーディオ処理方法。
【請求項8】
ラウドスピーカー配向角が閾値ラウドスピーカー配向角以上であるかどうかを判定する段階をさらに含み、当該オーディオ処理方法は、前記ラウドスピーカー配向角が前記閾値ラウドスピーカー配向角以上である場合にのみ、前記ラウドスピーカー配向因子を適用することに関わる、請求項1に記載のオーディオ処理方法。
【請求項9】
前記ラウドスピーカー重要性メトリックは、適格なラウドスピーカーと、(a)前記適格なラウドスピーカーからの時計回りの角距離が最も短い第1のラウドスピーカーと、(b)前記適格なラウドスピーカーからの反時計回りの角距離が最も短い第2のラウドスピーカーとの間の線との間の距離に少なくとも部分的に基づき、適格なラウドスピーカーとは、前記閾値ラウドスピーカー配向角以上のラウドスピーカー配向角を有するラウドスピーカーである、請求項8に記載のオーディオ処理方法。
【請求項10】
前記第1のラウドスピーカーおよび前記第2のラウドスピーカーは、前記閾値ラウドスピーカー配向角よりも小さいラウドスピーカー配向角を有する不適格なラウドスピーカーである、請求項9に記載のオーディオ処理方法。
【請求項11】
前記レンダリングすることは:
前記オーディオ環境においてラウドスピーカーの前記サブセットを通じて再生されるときの前記一つまたは複数のオーディオ信号のうちのオーディオ信号の知覚される空間位置のモデル;
ラウドスピーカーの前記サブセットの各ラウドスピーカーの位置に対する、前記オーディオ信号の意図される知覚される空間位置の近接性の指標;および
一つまたは複数の追加的な動的に構成可能な関数
の関数であるコストを最適化することによって、前記ラウドスピーカーの少なくとも前記サブセットのための相対的アクティブ化を決定することに関わり、
前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、前記ラウドスピーカー配向因子に少なくとも部分的に基づく、
請求項1に記載のオーディオ処理方法。
【請求項12】
前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、前記ラウドスピーカー重要性メトリックに少なくとも部分的に基づく、請求項11に記載のオーディオ処理方法。
【請求項13】
前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、前記オーディオ環境における各ラウドスピーカーから前記オーディオ環境における他のラウドスピーカーへの音響伝達の測定値または推定値に少なくとも部分的に基づく、請求項11に記載のオーディオ処理方法。
【請求項14】
前記意図された知覚される空間位置は、チャネル・ベースのオーディオ・フォーマットのチャネルまたは位置メタデータに対応する、請求項1に記載のオーディオ処理方法。
【請求項15】
請求項1ないし14のうちいずれか一項に記載のオーディオ処理方法を実行するように構成された装置。
【請求項16】
請求項1ないし14のうちいずれか一項に記載のオーディオ処理方法を実行するように構成されたシステム。
【請求項17】
ソフトウェアが記憶されている一つまたは複数の非一時的な媒体であって、前記ソフトウェアは、請求項1ないし14のうちいずれか一項に記載のオーディオ処理方法を実行するように一つまたは複数のデバイスを制御するための命令を含む、媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2021年11月9日に出願された米国仮出願第63/277,225号、2022年5月6日に出願された米国仮出願第63/364,322号、および2022年5月10日に出願された欧州特許出願第22172447.9号に対する優先権を主張し、これらの各出願は、その全体が参照により本明細書に組み込まれる。
技術分野
本開示は、オーディオ・デバイス上での再生のためにオーディオ・データをレンダリングするためのデバイス、システム、および方法に関する。
【背景技術】
【0002】
スマート・オーディオ・デバイスを含むがこれに限定されないオーディオ・デバイスは、広く展開されており、多くの家庭の一般的な特徴になりつつある。オーディオ・デバイスを制御するための既存のシステムおよび方法は利益を提供するが、改善されたシステムおよび方法が望ましい。
【0003】
記法および命名法
特許請求の範囲を含む本開示全体を通して、「スピーカー」、「ラウドスピーカー」、および「オーディオ再生トランスデューサ」という用語は、任意の音放出トランスデューサ(またはトランスデューサのセット)を表すために同義に使用される。典型的なヘッドフォンのセットは、2つのスピーカーを含む。スピーカーは、単一の共通スピーカーフィードまたは複数のスピーカーフィードによって駆動されうる複数のトランスデューサ(たとえば、ウーファおよびツイーター)を含むように実装されうる。いくつかの例では、スピーカーフィードは、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受けうる。
【0004】
特許請求の範囲を含む本開示全体を通して、信号またはデータ「に対して」動作を実行する(たとえば、信号またはデータをフィルタリングする、スケーリングする、変換する、または信号またはデータに利得を適用する)という表現は、信号またはデータに対して直接、あるいは信号またはデータの処理されたバージョンに対して(たとえば、当該動作の実行前に予備フィルタリングまたは前処理を受けた信号のバージョンに対して)動作を実行することを表すために広い意味で使用される。
【0005】
特許請求の範囲を含む本開示全体を通して、「システム」という表現は、デバイス、システム、またはサブシステムを示すために広い意味で使用される。たとえば、デコーダを実装するサブシステムがデコーダ・システムと呼ばれてもよく、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、サブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部ソースから受領されるもの)も、デコーダ・システムと呼ばれてもよい。
【0006】
特許請求の範囲を含む本開示全体を通して、「プロセッサ」という用語は、データ(たとえば、オーディオまたはビデオもしくは他の画像データ)に対して動作を実行するようにプログラム可能であるか、または(たとえば、ソフトウェアまたはファームウェアを用いて)構成可能であるシステムまたはデバイスを表すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンドデータに対してパイプライン処理を実行するようにプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサまたはコンピュータ、およびプログラマブルマイクロプロセッサチップまたはチップセットを含む。
【0007】
特許請求の範囲を含む本開示全体を通して、「結合する」または「結合された」という用語は、直接接続または間接接続のいずれかを意味するために使用される。よって、第1のデバイスが第2のデバイスに結合する場合、その接続は、直接接続を通して、または他のデバイスおよび接続を介した間接接続を通してであり得る。
【0008】
本明細書で使用されるところでは、「スマートデバイス」は、一般に、Bluetooth(登録商標)、Zigbee、近距離場通信、Wi-Fi、光忠実度(Li-Fi)、3G、4G、5Gなどのさまざまな無線プロトコルを介して一つまたは複数の他のデバイス(またはネットワーク)と通信するように構成され、ある程度対話式および/または自律的に動作することができる電子デバイスである。スマートデバイスのいくつかの注目すべきタイプは、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレットおよびタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、ならびにスマート・オーディオ・デバイスである。「スマートデバイス」という用語は、人工知能などのユビキタスコンピューティングのいくつかの特性を示すデバイスを指すこともある。
【0009】
本明細書では、「スマート・オーディオ・デバイス」という表現を使用して、単一目的のオーディオ・デバイスまたは多目的のオーディオ・デバイス(たとえば、仮想アシスタント機能の少なくともいくつかの側面を実装するオーディオ・デバイス)のいずれかであるスマートデバイスを示す。単一目的のオーディオ・デバイスは、少なくとも1つのマイクロフォンを含むか、またはそれに結合され(および、任意的に、少なくとも1つのスピーカーおよび/または少なくとも1つのカメラを含むか、またはそれに結合され)、主として、または主に、単一目的を達成するように設計されるデバイス(たとえば、テレビ(TV))である。たとえば、TVは、典型的には、番組素材からのオーディオを再生することができる(そしてそれを再生可能であると考えられる)が、ほとんどの場合、現代のTVは、テレビを見るアプリケーションを含むアプリケーションがローカルに実行される何らかのオペレーティングシステムを実行する。この意味で、スピーカーおよびマイクロフォンを有する単一目的のオーディオ・デバイスは、しばしば、スピーカーおよびマイクロフォンを直接使用するためにローカルアプリケーションおよび/またはサービスを実行するように構成される。いくつかの単一目的のオーディオ・デバイスは、ゾーンまたはユーザー構成されたエリアにわたってオーディオの再生を達成するために、一緒にグループ化するように構成されうる。
【0010】
1つの一般的なタイプの多目的オーディオ・デバイスは、仮想アシスタント機能の少なくともいくつかの側面を実装するオーディオ・デバイスであるが、仮想アシスタント機能の他の側面は、多目的オーディオ・デバイスが通信のために構成される一つまたは複数のサーバーなどの一つまたは複数の他のデバイスによって実装されてもよい。そのような多目的オーディオ・デバイスは本願では「仮想アシスタント」と称されることがある。仮想アシスタントは、少なくとも1つのマイクロフォンを含むかまたはそれに結合された(そして任意的には、少なくとも1つのスピーカーおよび/または少なくとも1つのカメラも含むかまたはそれに結合された)デバイス(たとえば、スマートスピーカーまたは音声アシスタント統合デバイス)である。いくつかの例では、仮想アシスタントは、ある意味ではクラウドで有効にされるか、または他の仕方で仮想アシスタント自体の中もしくは上に完全には実装されていないアプリケーションについて、(仮想アシスタントとは異なる)複数のデバイスを利用する能力を提供してもよい。言い換えれば、仮想アシスタント機能の少なくともいくつかの側面、たとえば、発話認識機能は、仮想アシスタントがそれを用いてインターネットなどのネットワークを介して通信することができる一つまたは複数のサーバーまたは他のデバイスによって(少なくとも部分的に)実装されてもよい。諸仮想アシスタントは、時々、たとえば離散的な、条件付きで定義された仕方で、一緒に動作してもよい。たとえば、2つ以上の仮想アシスタントは、そのうちの一つ、たとえば、ウェイクワードを聞いたことに最も自信があるものがそのウェイクワードに応答するという意味で、協働することができる。接続された諸仮想アシスタントは、いくつかの実装では、一種のコンステレーションを形成することができ、これは、仮想アシスタントであってもよい(またはそれを実装してもよい)1つのメイン・アプリケーションによって管理されてもよい。
【0011】
ここで、「ウェイクワード」とは、任意の音(たとえば、人間によって発声された単語、または何らかの他の音)を意味するために広義で使用され、スマート・オーディオ・デバイスは、その音の検出(「聞く」)(スマート・オーディオ・デバイスに含まれるかまたはそれに結合される少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを使用する)に応答して、覚醒するように構成される。この文脈において、「覚醒」とは、デバイスが音声コマンドを待つ(すなわち、音声コマンドがあるかどうか傾聴する)状態に入ることを表す。いくつかの事例では、本明細書において「ウェイクワード」と称されうるものは、複数の単語、たとえば、フレーズを含んでいてもよい。
【0012】
ここで、「ウェイクワード検出器」という表現は、リアルタイムの音声(たとえば、発話)特徴とトレーニングされたモデルとの間の整列を連続的に探すよう構成されたデバイス(またはデバイスを構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードが検出された確率が所定の閾値を超えることがウェイクワード検出器によって判別されるときは常に、ウェイクワード・イベントがトリガーされる。たとえば、閾値は、誤受理率と誤拒否率との間の合理的な妥協を与えるように調整された所定の閾値であってもよい。ウェイクワード・イベントに続いて、デバイスは、コマンドがあるかどうか傾聴し、受け取ったコマンドをより大きな、より計算集約的な認識器に渡す状態(「覚醒した」状態または「注意を払っている」状態と呼ばれてもよい)にはいってもよい。
【0013】
本明細書で使用されるところでは、用語「プログラム・ストリーム」および「コンテンツ・ストリーム」は、一つまたは複数のオーディオ信号の集合体を指し、場合によっては少なくとも一部が一緒に聴取されることが意図されるビデオ信号を指す。例は、音楽、映画のサウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成音声応答などのセレクションを含む。いくつかの事例では、コンテンツ・ストリームは、オーディオ信号の少なくとも一部の複数のバージョン、たとえば、複数の言語での同じダイアログを含むことがある。そのような事例において、一時には、オーディオ・データまたはその一部の1つのバージョン(たとえば、単一言語に対応するバージョン)のみが再生されることが意図されている。
【発明の概要】
【課題を解決するための手段】
【0014】
本開示の少なくともいくつかの側面は、一つまたは複数のオーディオ処理方法を介して実装されうる。いくつかの事例では、方法(単数または複数)は、少なくとも部分的に、制御システムによって、および/または一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)を介して実装されうる。いくつかのそのような方法は、制御システムによって、およびインターフェース・システムを介して、オーディオ・データを受信することに関わってもよく、オーディオ・データは、一つまたは複数のオーディオ信号および関連付けられた空間データを含む。空間データは、前記一つまたは複数のオーディオ信号のうちの1つのオーディオ信号に対応する意図された知覚される空間位置を示しうる。意図された知覚される空間位置は、たとえば、チャネル・ベースのオーディオ・フォーマットのチャネルに対応してもよい。代替的または追加的に、意図された知覚される空間位置は、位置メタデータたとえば、オブジェクト・ベースのオーディオ・フォーマットの位置メタデータに対応する。
【0015】
いくつかの例では、方法は、制御システムによって、インターフェース・システムを介して、オーディオ環境における人に対応する聴取者位置を示す聴取者位置データを受領することに関わってもよい。いくつかの例によれば、方法は、制御システムによって、インターフェース・システムを介して、オーディオ環境における複数のラウドスピーカーの各ラウドスピーカーの位置を示すラウドスピーカー位置データを受領することに関わっていてもよい。いくつかの例では、方法は、制御システムによって、およびインターフェース・システムを介して、ラウドスピーカー配向データを受領することに関わっていてもよい。いくつかのそのような例では、ラウドスピーカー配向データは、(a)オーディオ環境における複数のラウドスピーカーの各ラウドスピーカーについての最大音響放射の方向と(b)聴取者位置との間のラウドスピーカー配向角を示しうる。いくつかのそのような例では、聴取者位置は、対応するラウドスピーカーの位置に対するものでありうる。いくつかの例によれば、特定のラウドスピーカーについてのラウドスピーカー配向角は、(a)特定のラウドスピーカーについての最大音響放射の方向と、(b)該特定のラウドスピーカーの位置と聴取者位置との間の線との間の角度でありうる。
【0016】
いくつかの例によれば、方法は、オーディオ環境における複数のラウドスピーカーの少なくともサブセットを介した再生のために前記オーディオ・データを制御システムによってレンダリングして、レンダリングされたオーディオ信号を生成することに関わっていてもよい。いくつかの例では、レンダリングは、空間データ、聴取者位置データ、ラウドスピーカー位置データ、およびラウドスピーカー配向データに少なくとも部分的に基づいていてもよい。いくつかの例では、レンダリングすることは、増加したラウドスピーカー配向角に少なくとも部分的に基づいて、ラウドスピーカーの相対的アクティブ化を低減する傾向があるラウドスピーカー配向因子を適用することに関わっていてもよい。
【0017】
いくつかの例では、方法は、インターフェース・システムを介して、レンダリングされたオーディオ信号をオーディオ環境における複数のラウドスピーカーのうちのラウドスピーカーの少なくとも前記サブセットに与えることに関わっていてもよい。
【0018】
いくつかの例によれば、方法は、ラウドスピーカーの少なくとも前記サブセットについてラウドスピーカー重要性メトリックを推定することに関わっていてもよい。たとえば、方法は、ラウドスピーカーの前記サブセットの各ラウドスピーカーについてのラウドスピーカー重要性メトリックを推定することを含みうる。いくつかの例では、ラウドスピーカー重要性メトリックは、オーディオ信号の意図された知覚される空間位置においてオーディオ信号をレンダリングするためのラウドスピーカーの重要度に対応しうる。いくつかの例によれば、各ラウドスピーカーのためのレンダリングは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいていてもよい。いくつかの例では、各ラウドスピーカーについてのレンダリングは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいてラウドスピーカー配向因子の効果を修正することに関わっていてもよい。いくつかの例によれば、各ラウドスピーカーについてのレンダリングは、増加されたラウドスピーカー重要性メトリックに少なくとも部分的に基づいてラウドスピーカー配向因子の影響を低減することに関わっていてもよい。
【0019】
いくつかの例では、方法は、ラウドスピーカー配向角が閾値ラウドスピーカー配向角に等しいかまたはそれを超えるかどうかを判定することに関わっていてもよい。いくつかの例によれば、オーディオ処理方法は、ラウドスピーカー配向角が閾値ラウドスピーカー配向角に等しいかまたはそれを超える場合にのみ、ラウドスピーカー配向因子を適用することに関わっていてもよい。いくつかの例では、ラウドスピーカー重要性メトリックは、適格なラウドスピーカーと、(a)適格なラウドスピーカーからの時計回りの角距離が最も短い第1のラウドスピーカーと、(b)適格なラウドスピーカーからの反時計回りの角距離が最も短い第2のラウドスピーカーとの間の線との間の距離に少なくとも部分的に基づいていてもよい。いくつかのそのような例では、適格なラウドスピーカーは、閾値ラウドスピーカー配向角に等しいかまたはそれを超えるラウドスピーカー配向角を有するラウドスピーカーであってもよい。いくつかの事例では、第1のラウドスピーカーおよび第2のラウドスピーカーは、閾値ラウドスピーカー配向角よりも小さいラウドスピーカー配向角を有する不適格なラウドスピーカーでありうる。
【0020】
いくつかの例によれば、レンダリングすることは、オーディオ環境においてラウドスピーカーの前記サブセット上で再生されるときの前記一つまたは複数のオーディオ信号のうちのオーディオ信号の知覚される空間位置のモデルと;ラウドスピーカーの前記サブセットの各ラウドスピーカーの位置に対するオーディオ信号の意図される知覚される空間位置の近接性の指標と;一つまたは複数の追加的な動的に構成可能な関数との関数であるコストを最適化することによって、ラウドスピーカーの少なくとも前記サブセットのための相対的アクティブ化を決定することに関わっていてもよい。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、ラウドスピーカー配向因子に少なくとも部分的に基づいていてもよい。いくつかのそのような例によれば、前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいていてもよい。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、オーディオ環境における各ラウドスピーカーからオーディオ環境における他のラウドスピーカーへの音響伝送の測定値または推定値に少なくとも部分的に基づいていてもよい。
【0021】
いくつかの開示される実装の諸側面は、一つまたは複数の開示される方法またはそのステップを実行するように構成された(たとえば、プログラムされた)制御システム、ならびに、一つまたは複数の開示される方法またはそのステップを実行するためのコード(たとえば、実行するために実行可能なコード)を記憶しているデータの非一時的記憶(たとえば、ディスクまたは他の有体の記憶媒体)を含む。たとえば、いくつかの開示された実施形態は、一つまたは複数の開示された方法またはそのステップを含む、データに対する多様な動作のいずれかを実行するように、ソフトウェアまたはファームウェアでプログラムされた、および/または、他の仕方で構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであるか、またはそれらを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して一つまたは複数の開示された方法(またはそのステップ)を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムとを含むコンピュータ・システムであるか、またはそれを含みうる。
【0022】
本明細書に記載された動作、機能、および/または方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれらに限定されない、本明細書で説明するものなどのメモリデバイスを含みうる。よって、本開示で説明する主題のいくつかの革新的側面は、ソフトウェアを記憶した非一時的媒体において実装されうる。
【0023】
本明細書に記載された主題の一つまたは複数の実装の詳細が、添付の図面および以下の説明に記載される。他の特徴、側面、および利点は、本稿、図面、および特許請求の範囲から明白になるであろう。以下の図の相対的な寸法は、一定の縮尺で描かれていない場合があることに留意されたい。
【図面の簡単な説明】
【0024】
図1】本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。
図2】オーディオ環境の一例を示す。
図3】オーディオ環境の別の例を示す。
図4】単位円の円周上に位置決めされたラウドスピーカーの例を示す。
図5図4のラウドスピーカー配置を示し、弦がラウドスピーカー位置を接続している。
図6図5のラウドスピーカー配置を示し、1つの弦が省略されている。
図7】単位円の円周上に位置決めされたラウドスピーカーの代替例を示す。
図8図8および図9は、単位円の円周上に位置決めされたラウドスピーカーの代替例を示す。
図9図8および図9は、単位円の円周上に位置決めされたラウドスピーカーの代替例を示す。
図10】本開示の式6を示し、式の要素が識別されている。
図11】本開示の式7を示し、式の要素が識別されている。
図12】AおよびBは、本開示の式6に対応するグラフである。
図13A】本開示の式7に対応するグラフである。
図13B】本開示の式7に対応するグラフである。
図13C】ラウドスピーカー配向および重要性メトリックに基づくペナルティ関数の一例を示すグラフである。
図14】開示される方法の例を概説するフロー図である。
図15】スピーカー・アクティブ化の例示的なセットを示す図である。
図16】オブジェクト・レンダリング位置の例示的なセットを示す図である。
図17図1に示されるような装置またはシステムによって実行されうる方法の一例を概説するフロー図である。
図18】例示的な実施形態におけるスピーカー・アクティブ化のグラフである。
図19】例示的な実施形態におけるオブジェクト・レンダリング位置のグラフである。
図20】例示的な実施形態におけるスピーカー・アクティブ化のグラフである。
図21】例示的な実施形態におけるオブジェクト・レンダリング位置のグラフである。
図22】例示的な実施形態におけるスピーカー・アクティブ化のグラフである。
図23】例示的な実施形態におけるオブジェクト・レンダリング位置のグラフである。
【発明を実施するための形態】
【0025】
消費者環境における空間的オーディオの再生は、典型的には、所定の位置に配置された所定の数のラウドスピーカーに結び付けられている。いくつかの例は、ドルビー5.1およびドルビー7.1サラウンドサウンドを含む。より最近では、Dolby Atmos(商標)などの没入型のオブジェクト・ベースの空間的オーディオ・フォーマットが導入されており、これは、オーディオ・コンテンツと特定のラウドスピーカー位置との間のこの関連付けを破る。代わりに、コンテンツは、個々のオーディオ・オブジェクトの集合体として記述されてもよく、そのそれぞれは、3次元空間における前記オーディオ・オブジェクトの所望される知覚される位置を記述するための位置メタデータのような、関連付けられた時間変化するメタデータを有してもよい。再生時に、コンテンツは、再生システム内のラウドスピーカーの数および位置に適合するレンダラーによってラウドスピーカー・フィードに変換される。しかしながら、多くのそのようなレンダラーは、依然として、ラウドスピーカーのセットの位置を、規定されたレイアウトのセット(たとえば、Dolby Atmosを伴う、Dolby 3.1.2、Dolby 5.1.2、Dolby 7.1.4、Dolby 9.1.6等)のうちの1つであるように制約する。
【0026】
オブジェクト・ベースのオーディオおよびレガシーのチャネル・ベースのオーディオが、任意の位置に配置された任意の数のラウドスピーカーにわたって柔軟にレンダリングされることを許容する「柔軟レンダリング」方法が最近開発されている。これらの方法は、一般に、レンダラーが聴取空間におけるラウドスピーカーの数および物理的な位置の知識を有することを必要とする。そのようなシステムが平均的な消費者にとって実用的であるためには、ラウドスピーカーを位置特定するための自動化された方法が望ましい。よって、本明細書では「オーディオ環境」とも呼ばれうる聴取空間内のラウドスピーカーの位置を自動的に位置特定するための方法が最近開発されている。柔軟なレンダリングおよび自動オーディオ・デバイス位置特定の詳細な例が本明細書に提供される。
【0027】
消費者空間におけるオブジェクト・ベースの空間的オーディオの導入と同時に、Amazon Echo(商標)ラインなどのいわゆる「スマートスピーカー」が急速に採用されている。これらのデバイスの途方もない人気は、無線接続性および統合された音声インターフェース(たとえば、AmazonのAlexa(商標))によってもたらされるその単純さおよび利便性に帰することができるが、これらのデバイスの音響能力は、特に空間的オーディオに関しては、一般に、制限されている。ほとんどの場合、これらのデバイスは、モノラルまたはステレオ再生に制約される。しかしながら、前述の柔軟なレンダリングおよび自動位置特定技術を複数の統率されたスマートスピーカーと組み合わせることは、非常に洗練された空間的再生機能をもち、それでいて消費者がセットアップするのがきわめて簡単なままであるシステムをもたらしうる。消費者は、無線接続性のため、スピーカーワイヤを走らせる必要なく、どこであれ便利な場所に、所望なだけ、多くの、または少数のスピーカーを配置することができ、関連付けられた柔軟レンダラーのためにスピーカーを自動的に位置特定するために、内蔵マイクロフォンを使用することができる。
【0028】
上述の柔軟レンダリング方法は、聴取位置またはエリアに対するラウドスピーカーの位置を考慮に入れるが、聴取位置またはエリアに対するラウドスピーカーの配向は考慮に入れない。一般に、これらの方法は、スピーカーを、聴取位置に向かって直接放射するものとしてモデル化するが、実際には、そうではない場合がある。ラウドスピーカーの配向が意図された聴取位置から離れる方向を指すほど、いくつかの音響特性がより大きく変化することがあり、2つが最も顕著である。第1に、聴取位置で聞かれる全体的な等化が変化することがあり、ほとんどのラウドスピーカーがより高い周波数でより高い指向性度を示すことに起因して、通常は高周波数が低下していく。第2に、より多くの音響エネルギーが聴取位置から離れるように向けられ、最終的に聞こえる前に部屋と相互作用するようになるので、聴取位置における直接音と反射音との比が減少しうる。
【0029】
ラウドスピーカー配向の潜在的な影響に鑑み、いくつかの開示される実装は、以下のうちの一つまたは複数に関わっていてもよい:
ラウドスピーカーの任意の所与の位置について、ラウドスピーカーのアクティブ化は、ラウドスピーカーの配向が聴取位置から離れるほうに増大するにつれて低減されうる;
上記の低減の程度は、任意のオーディオ信号をその所望の知覚される空間位置においてレンダリングするためのそのラウドスピーカーの重要性の指標の関数として低減されうる。
【0030】
以下に、詳細な例が記載される。
【0031】
図1は、本開示のさまざまな側面を実装することが可能な装置の構成要素の例を示すブロック図である。本明細書で提供される他の図と同様に、図1に示される要素のタイプおよび数は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素を含んでいてもよい。いくつかの例によれば、装置150は、本明細書で開示される方法のうちの少なくともいくつかを実行するように構成されうる。いくつかの実装では、装置150は、オーディオ・システムの一つまたは複数の構成要素であってもよく、またはそれを含んでいてもよい。たとえば、装置150は、いくつかの実装では、スマート・オーディオ・デバイスなどのオーディオ・デバイスでありうる。他の例では、装置150は、モバイルデバイス(携帯電話など)、ラップトップコンピュータ、タブレットデバイス、テレビ、車両もしくはその構成要素、または別のタイプのデバイスであってもよい。
【0032】
いくつかの代替的な実装によれば、装置150は、サーバーであってもよく、またはサーバーを含んでいてもよい。いくつかのそのような例では、装置150は、エンコーダであってもよく、またはそれを含んでいてもよい。よって、いくつかの事例では、装置150は、オーディオ環境内で使用するように構成されたデバイスであってもよく、他の事例では、装置150は、「クラウド」、たとえば、サーバーにおいて使用するように構成されたデバイスであってもよい。
【0033】
この例では、装置150は、インターフェース・システム155および制御システム160を含む。インターフェース・システム155は、いくつかの実装では、オーディオ環境の一つまたは複数の他のデバイスと通信するように構成されうる。オーディオ環境は、いくつかの例では、ホームオーディオ環境でありうる。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、通りまたは歩道環境、公園環境などの別のタイプの環境でありうる。インターフェース・システム155は、いくつかの実装では、オーディオ環境のオーディオ・デバイスと制御情報および関連データを交換するように構成されうる。制御情報および関連するデータは、いくつかの例では、装置150が実行している一つまたは複数のソフトウェアアプリケーションに関係しうる。
【0034】
インターフェース・システム155は、いくつかの実装では、コンテンツ・ストリームを受領するか、提供するか、または受領と提供の両方を行うように構成されうる。コンテンツ・ストリームは、オーディオ・データを含みうる。オーディオ・データは、オーディオ信号を含んでいてもよいが、これに限定されない。いくつかの事例では、オーディオ・データは、チャネル・データおよび/または空間的メタデータのような空間的データを含んでいてもよい。メタデータは、たとえば、本明細書で「エンコーダ」と呼ばれうるものによって提供されてもよい。いくつかの例では、コンテンツ・ストリームは、ビデオデータと、ビデオデータに対応するオーディオ・データとを含みうる。
【0035】
インターフェース・システム155は、一つまたは複数のネットワーク・インターフェースおよび/または一つまたは複数の外部デバイス・インターフェース(一つまたは複数のユニバーサルシリアルバス(USB)インターフェースなど)を含みうる。いくつかの実装によれば、インターフェース・システム155は、一つまたは複数のワイヤレス・インターフェースを含みうる。インターフェース・システム155は、一つまたは複数のマイクロフォン、一つまたは複数のラウドスピーカー、ディスプレイシステム、タッチセンサーシステムおよび/またはジェスチャーセンサーシステムなど、ユーザーインターフェースを実装するための一つまたは複数のデバイスを含みうる。いくつかの例では、インターフェース・システム155は、制御システム160と、図1に示される任意的なメモリシステム165などのメモリシステムとの間の一つまたは複数のインターフェースを含むことができる。しかしながら、制御システム160は、いくつかの事例ではメモリシステムを含んでいてもよい。インターフェース・システム155は、いくつかの実装では、環境内の一つまたは複数のマイクロフォンから入力を受領するように構成されうる。
【0036】
制御システム160は、たとえば、汎用のシングルチッププロセッサまたはマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、離散的ゲートまたはトランジスタ論理、および/または離散的ハードウェアコンポーネントを含むことができる。
【0037】
いくつかの実装では、制御システム160は、2つ以上のデバイス内に存在してもよい。たとえば、いくつかの実装では、制御システム160の一部は、本明細書に示される環境のうちの1つの中のデバイスに存在してもよく、制御システム160の別の部分は、サーバー、モバイルデバイス(たとえば、スマートフォンまたはタブレットコンピュータ)などの、環境の外部にあるデバイスに存在してもよい。他の例では、制御システム160の一部は、本明細書に示される環境のうちの1つの中のデバイス内に存在してもよく、制御システム160の別の部分は、環境の一つまたは複数の他のデバイス内に存在してもよい。たとえば、制御システム機能は、環境の複数のスマート・オーディオ・デバイスにまたがって分散されてもよく、または統率デバイス(本明細書ではスマートホームハブと呼ばれうるものなど)および環境の一つまたは複数の他のデバイスによって共有されてもよい。他の例では、制御システム160の一部は、サーバーなどのクラウドベースのサービスを実装しているデバイス内に存在してもよく、制御システム160の別の部分は、別のサーバー、メモリデバイスなどの前記クラウドベースのサービスを実装している別のデバイス内に存在してもよい。インターフェース・システム155はまた、いくつかの例では、2つ以上のデバイス内に存在しうる。
【0038】
いくつかの実装では、制御システム160は、本明細書に開示された方法を少なくとも部分的に実行するように構成されてもよい。いくつかの例によれば、制御システム160は、インターフェース・システム155を介して、オーディオ・データ、聴取者位置データ、ラウドスピーカー位置データ、およびラウドスピーカー配向データを受領するように構成されうる。オーディオ・データは、一つまたは複数のオーディオ信号と、オーディオ信号に対応する意図された知覚される空間位置を示す関連付けられた空間データとを含んでいてもよい。聴取者位置データは、オーディオ環境における人に対応する聴取者位置を示しうる。ラウドスピーカー位置データは、オーディオ環境における複数のラウドスピーカーの各ラウドスピーカーの位置を示しうる。ラウドスピーカー配向データは、(a)オーディオ環境における複数のラウドスピーカーの各ラウドスピーカーについての最大音響放射の方向と、(b)対応するラウドスピーカーに対する聴取者位置との間のラウドスピーカー配向角を示しうる。
【0039】
いくつかのそのような例では、制御システム160は、オーディオ環境における複数のラウドスピーカーの少なくともサブセットを介した再生のためにオーディオ・データをレンダリングして、レンダリングされたオーディオ信号を生成するように構成されうる。いくつかのそのような例によれば、レンダリングは、空間データ、聴取者位置データ、ラウドスピーカー位置データおよびラウドスピーカー配向データに少なくとも部分的に基づいていてもよい。いくつかのそのような例では、レンダリングは、増加されたラウドスピーカー配向角に少なくとも部分的に基づいてラウドスピーカーの相対的アクティブ化を低減する傾向があるラウドスピーカー配向因子を適用することに関わっていてもよい。
【0040】
いくつかの例では、制御システム160は、ラウドスピーカーの少なくとも前記サブセットについてラウドスピーカー重要性メトリックを推定するように構成されうる。ラウドスピーカー重要性メトリックは、オーディオ信号の意図された知覚される空間位置においてオーディオ信号をレンダリングするためのラウドスピーカーの重要度に対応しうる。いくつかのそのような例では、各ラウドスピーカーのためのレンダリングは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいていてもよい。
【0041】
本明細書に記載された方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数のデバイスによって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイス等を含むがこれらに限定されない、本明細書に記載されるもの等のメモリデバイスを含みうる。一つまたは複数の非一時的媒体は、たとえば、図1に示される任意的なメモリシステム165内および/または制御システム160内に存在しうる。よって、本開示で説明する主題のさまざまな発明的側面は、ソフトウェアを記憶した一つまたは複数の非一時的媒体において実装されうる。ソフトウェアは、たとえば、本明細書に開示される方法の一部または全部を実行するように少なくとも1つのデバイスを制御するための命令を含みうる。ソフトウェアは、たとえば、図1の制御システム160などの制御システムの一つまたは複数の構成要素によって実行可能であってもよい。
【0042】
いくつかの例では、装置150は、図1に示される任意的なマイクロフォンシステム170を含みうる。任意的なマイクロフォンシステム170は、一つまたは複数のマイクロフォンを含んでいてもよい。いくつかの例によれば、任意的なマイクロフォンシステム170は、マイクロフォンのアレイを含みうる。いくつかの例では、制御システム160は、たとえばマイクロフォンのアレイからの信号に従って、到来方向(direction of arrival、DOA)および/または到来時間(time of arrival、TOA)情報を決定するように構成されうる。マイクロフォンのアレイは、いくつかの事例では、たとえば、制御システム160からの命令に従って、受領側ビームフォーミングのために構成されうる。いくつかの実装では、マイクロフォンのうちの一つまたは複数は、スピーカーシステムのスピーカー、スマート・オーディオ・デバイスなどの別のデバイスの一部であるか、またはそれに関連しうる。いくつかの例では、装置150はマイクロフォンシステム170を含まないことがある。しかしながら、いくつかのそのような実装では、装置150は、それでもなお、インターフェース・システム160を介してオーディオ環境内の一つまたは複数のマイクロフォンのためのマイクロフォン・データを受領するように構成されうる。いくつかのそのような実装では、装置150のクラウドベースの実装は、インターフェース・システム160を介してオーディオ環境内の一つまたは複数のマイクロフォンからマイクロフォン・データ、またはマイクロフォン・データに対応するデータを受領するように構成されうる。
【0043】
いくつかの実装によれば、装置150は、図1に示されているオプションのラウドスピーカーシステム175を含みうる。任意的なラウドスピーカーシステム175は、一つまたは複数のラウドスピーカーを含みうる。ラウドスピーカーは、本明細書では「スピーカー」、またはより一般的に「オーディオ再生トランスデューサ」と称されることもある。いくつかの例(たとえば、クラウドベースの実装)では、装置150は、ラウドスピーカーシステム175を含まなくてもよい。
【0044】
いくつかの実装では、装置150は、図1に示されている任意的なセンサーシステム180を含みうる。任意的なセンサーシステム180は、一つまたは複数のタッチセンサー、ジェスチャーセンサー、動き検出器などを含むことができる。いくつかの実装によれば、任意的なセンサーシステム180は、一つまたは複数のカメラを含むことができる。いくつかの実装では、カメラは、自立型カメラでありうる。いくつかの例では、任意的なセンサーシステム180の一つまたは複数のカメラは、スマート・オーディオ・デバイス内に存在してもよく、スマート・オーディオ・デバイスは、いくつかの例では、仮想アシスタントを少なくとも部分的に実装するように構成されうる。いくつかのそのような例では、任意的なセンサーシステム180の一つまたは複数のカメラは、テレビ、携帯電話またはスマートスピーカー内に存在しうる。いくつかの例では、装置150は、センサーシステム180を含まなくてもよい。しかしながら、いくつかのそのような実装では、装置150は、それでもなお、インターフェース・システム160を介してオーディオ環境における一つまたは複数のセンサーについてのセンサー・データを受領するよう構成されていてもよい。
【0045】
いくつかの実装では、装置150は、図1に示された任意的なディスプレイシステム185を含みうる。任意的なディスプレイシステム185は、一つまたは複数の発光ダイオード(LED)ディスプレイなどの一つまたは複数のディスプレイを含むことができる。いくつかの事例では、任意のディスプレイシステム185は、一つまたは複数の有機発光ダイオード(OLED)ディスプレイを含みうる。いくつかの例では、任意的なディスプレイシステム185は、スマート・オーディオ・デバイスの一つまたは複数のディスプレイを含みうる。他の例では、任意的なディスプレイシステム185は、テレビディスプレイ、ラップトップディスプレイ、モバイルデバイスディスプレイ、または別のタイプのディスプレイを含みうる。装置150がディスプレイシステム185を含むいくつかの例では、センサーシステム180は、ディスプレイシステム185の一つまたは複数のディスプレイに近接したタッチセンサーシステムおよび/またはジェスチャーセンサーシステムを含みうる。いくつかのそのような実装によれば、制御システム160は、一つまたは複数のグラフィカルユーザーインターフェース(GUI)を提示するようにディスプレイシステム185を制御するように構成されうる。
【0046】
いくつかのそのような例によれば、装置150は、スマート・オーディオ・デバイスでありうるか、またはそれを含みうる。いくつかのそのような実装では、装置150は、ウェイクワード検出器であってもよく、またはそれを含んでいてもよい。たとえば、装置150は、仮想アシスタントであってもよく、またはそれを含んでいてもよい。
【0047】
前述した以前に実装された柔軟レンダリング方法は、聴取位置またはエリアに対するラウドスピーカーの位置を考慮に入れるが、聴取位置またはエリアに対するラウドスピーカーの配向は考慮に入れない。一般に、これらの方法は、スピーカーを、聴取位置に向かって直接放射するものとしてモデル化するが、実際には、そうではない場合がある。ほとんどのラウドスピーカーには、音響エネルギーが最大限に放射される方向が関連しており、理想的には、この方向が、聴取位置またはエリアに向けられる。エンクロージャー内に取り付けられた単一のラウドスピーカードライバを有する単純なデバイスについては、ラウドスピーカーが取り付けられたエンクロージャーの側面が、デバイスの「前面」と考えられ、理想的には、デバイスは、この前面が聴取位置またはエリアに面するように配向される。より複雑なデバイスは、デバイスに対して異なる方向を指す複数の個別にアドレッシング可能なラウドスピーカーを含みうる。そのような場合、聴取位置またはエリアに対するデバイスの全体的な配向が設定されるとき、聴取位置またはエリアに対する各個々のラウドスピーカーの配向が考慮されうる。さらに、デバイスは、ゼロでない仰角をもつ(たとえば、デバイスから上方に向けられた)スピーカーを含んでいることがあり、聴取位置に対するこれらのスピーカーの配向は、単に、2次元ではなく3次元で考慮されうる。
【0048】
図2は、オーディオ環境の例を示す。図2は、聴取位置またはエリアに対するラウドスピーカー配向の例を示す。図2は、オーディオ環境の俯瞰図を表し、聴取位置は聴取者205の頭部によって表されている。本明細書で提供される他の図と同様に、図2に示される要素のタイプ、数、および配置は、単に例として提供される。他の実装は、より多くの、より少ない、および/または異なるタイプおよび数の要素、異なる配置の要素などを含んでいてもよい。
【0049】
この例によれば、オーディオ環境200は、オーディオ・デバイス210A、210B、および210Cを含む。オーディオ・デバイス210A~210Cは、いくつかの例では、図1の装置150のインスタンスでありうる。この例では、オーディオ・デバイス210Aは、単一のラウドスピーカーL1を含み、オーディオ・デバイス210Bは、単一のラウドスピーカーL2を含み、オーディオ・デバイス210Cは、3つの個々のラウドスピーカーL3、L4、およびL5を含む。各スピーカーから出る矢印は、それぞれに関連する最大音響放射の方向を表す。それぞれが単一のラウドスピーカーを含むオーディオ・デバイス210Aおよび210Bについては、これらの矢印は、デバイスの「前面」と見なすことができる。オーディオ・デバイス210Cについては、ラウドスピーカーL3、L4、およびL5は、それぞれ、前面、左、および右スピーカーであると考えられてもよい。よって、L3に関連付けられた矢印が、オーディオ・デバイス210Cの前方として見られてもよい。
【0050】
各ラウドスピーカーの配向は、具体的な実装に依存して、さまざまな仕方で表されうる。この例では、各ラウドスピーカーの配向は、ラウドスピーカーの最大放射方向と、その関連するデバイスを聴取位置につなぐ線との間の角度によって表される。この配向角は、-180度から180度までの間で変化してもよく、0度は、ラウドスピーカーが聴取位置に直接向けられていることを示し、-180度または180度は、ラウドスピーカーが聴取位置から完全に反対に向けられていることを示す。図中の値q1によって表されるL1の配向角は、ゼロに近く、ラウドスピーカーL1が聴取位置にほぼ直接配向されていることを示す。一方、q2は180度に近く、スピーカーL2が聴取位置からほぼ正反対のほうに配向されることを意味する。オーディオ・デバイス210Cでは、q3およびq4は、比較的小さい値を有し、絶対値は、90度未満であり、L3およびL4が実質的に聴取位置に向かって配向されていることを示す。しかしながら、q5は、比較的大きな値を有し、絶対値は90度より大きく、L5が聴取位置から実質的に離れるほうに方向付けられていることを示す。ラウドスピーカーのセットの位置および配向は、本明細書で開示される技法を含むがそれらに限定されないさまざまな技法に従って決定されるか、または少なくとも推定されうる。
【0051】
上述のように、ラウドスピーカーの配向が意図される聴取位置から離れる方向を指すほど、いくつかの音響特性が大きく変化しうる。2つの音響特性が最も顕著である。第1に、聴取位置で聞かれる全体的な等化が変化することがある。ほとんどのラウドスピーカーは、より高い周波数でより高い指向性の程度を有するので、通例、より高い周波数が減少する。第2に、比較的より多くの音響エネルギーが、聴取位置から離れるように向けられ、最終的に聞かれる前にオーディオ環境内の壁、床、物体などと相互作用するので、聴取位置における直接音と反射音との比が減少しうる。第1の問題は、しばしば、等化によってある程度まで緩和されうるが、第2の問題はそうはできない。
【0052】
意図される聴取位置から離れたほうを向くラウドスピーカーが、空間的再生の目的のために他のものと組み合わされるとき、この第2の問題は、特に問題となりうる。空間ミックスの要素のそれらの所望の位置における定位は、一般に、この定位に寄与するラウドスピーカーがすべて、聴取位置において比較的高い直接音対反射音比を有するときに最もよく達成される。特定のラウドスピーカーが聴取位置から離れたほうに配向されているためにそのラウドスピーカーについてはそうでない場合、定位は不正確になるか、または「ぼやける」可能性がある。いくつかの例では、定位を改善するために、このラウドスピーカーをレンダリング・プロセスから除外することが有益でありうる。しかしながら、いくつかの事例では、そのようなラウドスピーカーをレンダリング・プロセスから除外することは、そのラウドスピーカーをレンダリング・プロセスに含めるよりも、全体的な空間的レンダリングに対してさらに大きい障害を引き起こしうる。たとえば、ラウドスピーカーが聴取位置から離れたほうを向いているが、それが聴取位置の左の唯一のラウドスピーカーである場合、その除外のために空間ミックス全体が聴取位置の右方につぶれさせるよりも、このラウドスピーカーをレンダリングの一部として保持するほうがよいことがある。
【0053】
いくつかの開示される例は、ラウドスピーカーの位置および配向の両方が聴取位置に対して指定されるレンダリング・システムのために、そのような選択をナビゲートすることに関わる。たとえば、いくつかの開示される例は、2つ以上のラウドスピーカーのセットにわたって、一つまたは複数のオーディオ信号のセットをレンダリングすることに関わり、各オーディオ信号は、関連する所望される知覚される空間位置を有する。いくつかのそのような例では、ラウドスピーカーのセットの各ラウドスピーカーの(たとえば、所望の聴取位置またはエリアに対する)位置および配向がレンダラーに与えられる。いくつかのそのような例によれば、各ラウドスピーカーの相対的アクティブ化は、一つまたは複数のオーディオ信号の所望される知覚される空間位置とラウドスピーカーの位置および配向との関数として計算されうる。いくつかのそのような例では、ラウドスピーカーの任意の所与の位置について、ラウドスピーカーのアクティブ化は、ラウドスピーカーの配向が聴取位置から離れるほうに増加するにつれて低減されうる。いくつかのそのような例によれば、この低減自体の程度は、その所望される知覚される空間位置において任意のオーディオ信号をレンダリングするためのラウドスピーカーの重要性の指標の関数として低減されうる。
【0054】
図3は、オーディオ環境の別の例を示す。この例によれば、オーディオ環境200は、図2のオーディオ・デバイス210A、210B、および210C、ならびに追加的なオーディオ・デバイス210Dを含む。オーディオ・デバイス210Dは、いくつかの例では、図1の装置150のインスタンスであってもよい。この例では、オーディオ・デバイス210Dは、単一のラウドスピーカーL6を含む。ラウドスピーカーL6から出る矢印は、ラウドスピーカーL6に関連付けられた最大音響放射の方向を表し、q6が180度に近いことを示す。これは、ラウドスピーカーL6が聴取者205に対応する聴取位置からほぼ正反対のほうに向けられていることを意味する。
【0055】
図3は、本開示のある側面をオーディオ・デバイス210A~210Dに適用する例も示している。本開示のこの側面を各ラウドスピーカーに適用することから帰結する挙動の概要は、以下の通りである。
【0056】
L1:配向角q1が小さく(この例では30度未満)、したがって、このラウドスピーカーは完全に使用される(オン(ON))。
【0057】
L2:配向角q2が大きく(この例では180度に近い)、したがって、本開示のいくつかの側面は、このラウドスピーカーが完全にまたは実質的に無効にされる(オフ(OFF)にされる)べきであることを示す。しかしながら、この例では、L2が聴取者の背後にある唯一のラウドスピーカーであるので、空間的レンダリングのためのこのラウドスピーカーの重要性の指標は高い。結果として、この例では、ラウドスピーカーL2はペナルティを科されず、完全に有効(オン)のままにされる。
【0058】
L3:配向角q3は比較的小さく(この例では60度未満)、したがってこのラウドスピーカーは完全に使用される(オン)。
【0059】
L4:配向角q4は比較的小さく(この例では60度未満)、したがってこのラウドスピーカーは完全に使用される(オン)。
【0060】
L5:配向角q5は比較的大きく(この例では、130度から150度までの間)、したがって、本開示のいくつかの側面は、このラウドスピーカーが完全に(または少なくとも部分的に)無効にされるべきであることを示す。さらに、この例では、同じエンクロージャー内に、実質的に聴取位置に向けられた他のラウドスピーカーL3およびL4が近接して存在するので、空間的レンダリングのためのこのラウドスピーカーの重要性の指標は低い。結果として、この例では、ラウドスピーカーL5は完全に無効(オフ)のままにされる。
【0061】
L6:配向角q6は比較的大きく(この例では、180度に近い)、したがって、本開示のいくつかの側面は、このラウドスピーカーが完全にまたは少なくとも部分的に無効にされるべきであることを示す。この例によれば、異なるエンクロージャー内に、実質的に聴取位置に向けられた比較的近接した他のラウドスピーカーL3およびL4が存在するので、空間的レンダリングのためのこのラウドスピーカーの重要性の指標は比較的低い。その結果、この例では、スピーカーL6は完全に無効(オフ)にされる。
【0062】
以下の段落は、図3を参照して説明される結果を達成しうる実装を開示する。レンダリング問題をコスト関数最小化の1つとしてキャストする柔軟レンダリング・システムを以下に詳細に説明する。ここで、コスト関数は2つの項を含む。第1の項は、所望の空間印象がどのくらい近く達成されるかをスピーカー・アクティブ化の関数としてモデル化し、第2の項は、スピーカーをアクティブ化することにコストを割り当てる。いくつかの例では、この第2の項の1つの目的は、レンダリングされているオーディオの所望の空間位置にきわめて近接したスピーカーのみがアクティブ化される、スパース解を作成することである。いくつかの例によれば、コスト関数は、このアクティブ化ペナルティに対する一つまたは複数の追加的な動的に構成可能な項を含み、さまざまな可能な制御に応答して空間的レンダリングが修正されることを許容する。
【0063】
いくつかの側面では、このコスト関数は、次の式によって表されてもよい。
【数1】
【0064】
式1の導出は、以下に詳細に説明される。この例では、セット
【数2】
〔→付きのsを便宜上→sと書くこともある;以下同様〕は、M個のラウドスピーカーのセットの各ラウドスピーカーの位置を表し、oは、オーディオ信号の所望の知覚される空間位置を表し、g〔便宜上太字を省くこともある;以下同様〕は、スピーカー・アクティブ化のM次元ベクトルを表す。コスト関数の第1項はCspatialによって表され、第2項はCproximityと追加的コストを表す項
【数3】
〔^付きのoを^oと書くこともある;以下同様〕の和に分割される。これらの追加的コストのそれぞれは、一般的なセット
【数4】
の関数として計算されてもよい。ここで、{^o}はレンダリングされているオーディオ信号の一つまたは複数の特性のセットを表し、{^si}はオーディオがレンダリングされているスピーカーの一つまたは複数の特性のセットを表し、{^e}は一つまたは複数の追加的な外部入力を表す。換言すれば、各項Cj(g,{{^o},{^si},{^e}}j)はオーディオ信号、スピーカー、および/または外部入力の一つまたは複数の特性の組み合わせに関してアクティブ化gの関数としてコストを返す。なお、セット{{^o},{^si},{^e}}jは、最少では、{^o},{^si},または{^e}のいずれかからの1つの要素のみを含む。
【0065】
いくつかの例では、本開示の一つまたは複数の側面は、オーディオ環境におけるラウドスピーカーの特性を表す{^si}の関数である一つまたは複数の追加的なコスト項Cjを導入することによって実装されてもよい。いくつかのそのような例によれば、コストは、聴取位置に対する各スピーカーの位置と配向の両方の関数として計算されうる。
【0066】
いくつかのそのような例では、式1の一般的なコスト関数は、以下のように、行列の二次形式として表されてもよい。
【数5】
【0067】
式2の導出は、以下に詳細に説明される。いくつかの例では、追加的なコスト項はそれぞれ、たとえば以下のように、スピーカー・ペナルティ項の対角行列によってパラメータ化されうる。
【数6】
【0068】
本開示のいくつかの側面は、これらのスピーカー・ペナルティ項wijのセットを、各スピーカーiの位置および配向の両方の関数として計算することによって実装されうる。いくつかの例によれば、ペナルティ項は、各ラウドスピーカーの能力に依存して(たとえば、低周波数を正確に再生する各ラウドスピーカーの能力に従って)、周波数を横断してラウドスピーカーの異なるサブセットにわたって計算されうる。
【0069】
以下の議論は、各ラウドスピーカーiの位置および配向が、この例では聴取位置に対して、既知であると想定する。各ラウドスピーカーiの位置および配向を決定するか、または少なくとも推定するいくつかの詳細な例を以下に示す。以前に開示されたいくつかの柔軟レンダリング方法は、聴取位置に対する各ラウドスピーカーの位置をすでに考慮に入れている。本開示のいくつかの柔軟レンダリング方法は、聴取位置に対するラウドスピーカーの配向、ならびに互いに対するラウドスピーカーの位置をさらに組み込む。ラウドスピーカー配向は、本開示において、すでに配向角θiとしてパラメータ化されている。スピーカーのペナルティによって導入される空間的レンダリングに対する障害の可能性を反映しうる、互いに対するラウドスピーカーの位置は、αiとしてパラメータ化され、これは本明細書では単にαと称されることもある。よって、αは、本明細書では「ラウドスピーカー重要性メトリック」と呼ばれることがある。
【0070】
いくつかの開示された例によれば、ラウドスピーカーは、ラウドスピーカー配向に従ってペナルティを科すのに適格であるかまたは不適格であることを意味する「適格」および「不適格」という2つのカテゴリーに名目上分割されうる。いくつかのそのような例では、ラウドスピーカーが適格であるかまたは不適格であるかの決定は、ラウドスピーカーの配向角θiに少なくとも部分的に基づいていてもよい。いくつかのそのような例では、ラウドスピーカーが適格であるかまたは不適格であるかの決定は、ラウドスピーカーの配向角θiが配向角閾値Tθ以上であるかどうかに少なくとも部分的に基づいていてもよい。いくつかのそのような例では、ラウドスピーカーが条件|θi|>Tθを満たす場合、ラウドスピーカーはラウドスピーカー配向に従ってペナルティを科すのに適格であり;そうでない場合、そのラウドスピーカーは不適格である。一例では、配向角閾値Tθ=(11/18)πラジアン(110度)である。しかしながら、他の例では、配向角閾値Tθは、110度よりも大きくても小さくてもよく、たとえば、100度、105度、115度、120度などであってもよい。いくつかの例によれば、各適格なスピーカーの位置は、不適格なまたは良好に配向されたラウドスピーカーの位置に関して考慮されうる。いくつかのそのような例では、適格なラウドスピーカーiについて、iから時計回りおよび反時計回りの角度距離φ1およびφ2が最も短いラウドスピーカーi1およびi2は、不適格なラウドスピーカーのセットにおいて識別されうる。スピーカー間の角距離は、いくつかのそのような例では、単位円上にラウドスピーカー位置をキャストすることによって決定されうる。聴取位置は単位円の中心にある。
【0071】
潜在的な障害をカプセル化するために、いくつかの例では、ラウドスピーカー重要性メトリックαがφ1およびφ2の関数として工夫されてもよい。いくつかの例では、ラウドスピーカーiについてのラウドスピーカー重要性メトリックαiは、ラウドスピーカーiから該ラウドスピーカーiに隣接する2つのラウドスピーカーであるラウドスピーカーi1およびi2を結ぶ直線への単位垂直距離に対応する。下記は、ラウドスピーカー重要性メトリックαがφ1およびφ2の関数として表される、1つのそのような例である。
【0072】
図4は、単位円の円周上に位置決めされたラウドスピーカーの例を示す。この例では、ラウドスピーカーi、i1、およびi2は、円400の円周上に位置し、ラウドスピーカーiは、ラウドスピーカーi1とラウドスピーカーi2との間に位置する。この例によれば、円400の中心405は、聴取者位置に対応する。この例では、ラウドスピーカーiとラウドスピーカーi1との間の角距離はφ1であり、ラウドスピーカーiとラウドスピーカーi2との間の角距離はφ2であり、ラウドスピーカーi1とラウドスピーカーi2との間の角距離はφ3である。円は2πラジアンを含むので、φ1+φ2+φ3=2πである。
【0073】
図5は、図4のラウドスピーカー配置を示し、弦がラウドスピーカー位置を結んでいる。この例では、弦C1は、ラウドスピーカーiとラウドスピーカーi1とを結び、弦C2は、ラウドスピーカーiとラウドスピーカーi2とを結び、弦C3は、ラウドスピーカーi1とラウドスピーカーi2とを結ぶ。定義により、角度φNにわたる単位円上の弦長CNは、CN=sin(φN/2)と表されうる。
【0074】
内部三角形505a、505b、505cは、それぞれ中心角φ1、φ2、φ3をもつ二等辺三角形である。任意の内部三角形も二等辺であり、中心角φnを有する。三角形の内角の和はπラジアンである。したがって、任意の内部三角形の残りの合同な角のそれぞれは、(π-φn)ラジアンの半分である。そのような角度の1つξn=(π-φn)/2が図5に示されている。
【0075】
図6は、図5のラウドスピーカー配置を示し、1つの弦が省略されている。この例では、三角形605をよりよく示すために図5の弦C2が省略されている。三角形605は、弦C3に垂直であり、弦C3からラウドスピーカーiに延びる辺αを含む。この例によれば、三角形605の内角aは、a=ξ1+ξ2として表すことができる。
【0076】
正弦定理は、三角形の内角a、b、cと、各内角に対向する辺の長さα、β、γとの間の関係を、(sina)/α=(sinb)/β=(sinc)/γと定義する。
【0077】
三角形605の例では、正弦定理は次のことを示す。
【数7】
よって、ラウドスピーカー重要性メトリック、アルファは、以下のように表されうる。
【数8】
【0078】
いくつかの実装では、φ1またはφ2はπラジアンよりも大きくてもよい。そのような場合、αが式4に従って計算されたとしたら、αは円の外側にはみ出てしまう。いくつかのそのような例では、式4は次のように修正されうる。
【数9】
【0079】
これは、対応するラウドスピーカーにペナルティを科すことによって導入されるエネルギー誤差のよりよい表現である。
【0080】
いくつかの例では、φ1=φ2であれば、αはα=sin(φ1/2)として計算されてもよい。この関数は、φ1およびφ2が同様であるときに連続的に式4に適合するからである。
【0081】
図4図5、および図6に示されるラウドスピーカーのレイアウトでは、いくつかの実装によれば、ラウドスピーカーiのラウドスピーカー配向角にかかわらず、ラウドスピーカーiはオフにされない(いくつかの例では、ラウドスピーカーiの相対的なアクティブ化は低減されない)。これは、ラウドスピーカーiと、ラウドスピーカーi1およびi2を結ぶ線との間の距離が、よって、ラウドスピーカーiの対応するラウドスピーカー重要性メトリックが大きすぎるからである。
【0082】
図7は、単位円の円周上に位置するラウドスピーカーの代替例を示す。この例では、ラウドスピーカーi、i1およびi2は、図4図5および図6に示される位置と比較して、円400の円周上の異なる位置に位置する。ここで、ラウドスピーカーi、i1およびi2は、すべて円400の同じ半分に配置されている。しかしながら、ラウドスピーカーiは、依然としてラウドスピーカーi1とラウドスピーカーi2との間に位置し、ラウドスピーカーiとラウドスピーカーi1との間の角距離は依然としてφ1であり、ラウドスピーカーiとラウドスピーカーi2との間の角距離は依然としてφ2であり、ラウドスピーカーi1とラウドスピーカーi2との間の角距離は依然としてφ3である。また、関係αi=sin(φ1/2)・sin(φ2/2)は依然として成り立つ。図6のものと比較して、ラウドスピーカーiと、ラウドスピーカーi1およびi2を接続する線705との間の距離、よって、ラウドスピーカーiの対応するラウドスピーカー重要性メトリックαiは、実質的に小さくなる。したがって、いくつかの実装によれば、ラウドスピーカー配向角θiが配向角閾値Tθに等しいか、またはそれを超える場合、ラウドスピーカーiはオフにされてもよく、またはラウドスピーカーiの相対的アクティブ化は少なくとも低減されてもよい。
【0083】
図8および図9は、単位円の円周上に位置決めされたラウドスピーカーの代替例を示す。この例では、ラウドスピーカーL1、L2、およびL3はすべて、円400の同じ半分に位置する。しかしながら、ラウドスピーカーL4が、円400の他方の半分に位置している。ラウドスピーカーL1~L4のそれぞれから出る矢印は、各ラウドスピーカーについての最大音響放射の方向を示し、したがって、各ラウドスピーカーについてのラウドスピーカー配向角θを示す。図8および図9は、ラウドスピーカーL1~L4によって形成されるラウドスピーカー805の凸包も示す。
【0084】
前述と同様に、評価されているラウドスピーカーは、ラウドスピーカーiと呼ばれ、評価されているラウドスピーカーに隣接するラウドスピーカーは、ラウドスピーカーi1およびi2と呼ばれる。よって、図8では、ラウドスピーカーL3がスピーカーiとして示され、スピーカーL1がスピーカーi1として示され、スピーカーL2がスピーカーi2として示される。図8では、ラウドスピーカー重要性メトリックαiは、オーディオ信号の意図された知覚される空間位置においてオーディオ信号をレンダリングするためのラウドスピーカーL3の相対的重要性を示す。この例では、ラウドスピーカーL3に対応するラウドスピーカー重要性メトリックαiは、たとえば図6のラウドスピーカーiに対応するラウドスピーカー重要性メトリックαよりもはるかに小さい。ラウドスピーカーL3に対応する相対的に小さなラウドスピーカー重要性メトリックαiのため、ラウドスピーカーL3に(たとえば配向角閾値Tθ以上のラウドスピーカー配向角θを有することにより)ペナルティを科すことによって導入される空間障害は、受け入れ可能でありうる。
【0085】
図9では、ラウドスピーカーL2がラウドスピーカーiとして示され、ラウドスピーカーL3がラウドスピーカーi1として示され、ラウドスピーカーL4がスピーカーi2として示される。ここで、ラウドスピーカー重要性メトリックαiは、オーディオ信号の意図された知覚される空間位置においてオーディオ信号をレンダリングするためのラウドスピーカーL2の相対的重要性を示す。この例では、ラウドスピーカーL2に対応するラウドスピーカー重要性メトリックαi図8におけるラウドスピーカーL3に対応する重要性メトリックαiよりも大きい。ラウドスピーカーL2に対応するラウドスピーカー重要性メトリックαi図6におけるラウドスピーカーiに対応するラウドスピーカー重要性メトリックαよりずっと小さいものの、いくつかの実装では、ラウドスピーカーL2に(たとえば配向角閾値Tθ以上のラウドスピーカー配向角θを有することにより)ペナルティを科すことによって導入される空間障害は、受け入れ可能ではないことがありうる。
【0086】
いくつかの例では、ラウドスピーカー重要性メトリックαiは、上記の空間コストシステムの具体的な挙動に対応しうる。ターゲット・オーディオ・オブジェクト位置がラウドスピーカー805の凸包の外側にあるとき、いくつかの例によれば、可能な限り最小の誤差をもつ解は、スピーカーの凸包上にオーディオ・オブジェクトを配置する。いくつかのそのような例では、ラウドスピーカーiが非アクティブ化される程度までペナルティを科される場合、ラウドスピーカーi1およびi2を結ぶ線がラウドスピーカー805の凸包の一部になる。したがって、この線は、最小誤差解の一部になる。たとえば、図8を参照すると、ラウドスピーカーL3が非アクティブ化された場合、ラウドスピーカー805の凸包は、ラウドスピーカーL1、L3、およびL2の間の弦の代わりに、線810を含むであろう。図9を参照すると、ラウドスピーカーL2が非アクティブ化された場合、ラウドスピーカー805の凸包は、ラウドスピーカーL3、L2、およびL4の間の弦の代わりに、線815を含むであろう。ラウドスピーカー重要性メトリックαiは、対応するラウドスピーカーを非アクティブ化することによって引き起こされるラウドスピーカー805の凸包のサイズの低減と直接相関することが容易にわかる。すなわち、問題のスピーカーから隣接するラウドスピーカーどうしを結ぶ線までの垂直距離は、そのラウドスピーカーに対する非アクティブ化ペナルティを伴う解と伴わない解との間の最大発散点である。少なくともこれらの理由のために、ラウドスピーカー重要性メトリックαiは、スピーカーにペナルティを科すときに導入される空間障害の可能性を表すための適切なメトリックである。
【0087】
いくつかの例によれば、そのラウドスピーカーの配向角に基づいてペナルティを科すのに適格である各ラウドスピーカーについて、ラウドスピーカー重要性メトリックαiが計算されうる。αiの値が大きいほど、エラーの可能性がより大きい。これは図8および図9において実証される。図8のαi図9のαiより小さく、したがって、対応するラウドスピーカーを非アクティブ化することによって引き起こされるラウドスピーカー805の凸包は、図9よりも図8のほうが実質的に大きく、オーディオ・オブジェクト・パンニングのために利用可能な空間も同様である。よって、図8においてiにペナルティを科すことによって導入される空間障害は受け入れ可能でありうる。一方、図9においてiにペナルティを科すことによって導入される空間障害は受け入れ可能でないことがありうる。この趣旨で、重要性メトリック閾値Tαがαiについて決定されうる。いくつかのそのような例では、ラウドスピーカーiについてαi<Tαかつ|θi|>Tθの両方が成り立つ場合、ペナルティwijが(たとえば式3に従って)計算され、ラウドスピーカー配向角の関数としてラウドスピーカーに適用されてもよい。いくつかの例によれば、重要性メトリック閾値Tαは、0.1~0.35の範囲、たとえば、0.1、0.15、0.2、0.25、0.30または0.35でありうる。他の例では、重要性メトリック閾値Tαは、より高い値またはより低い値に設定されてもよい。
【0088】
コスト関数最適化におけるペナルティの相対的な大きさに依存して、絶対的な挙動または漸進的な挙動を引き出すために、任意の特定のペナルティが設計されうる。レンダラー・コスト関数の場合、十分に大きなペナルティは、ラウドスピーカーを完全に除外するか、または無効にするが、より小さなペナルティは、ラウドスピーカーをミュートすることなく、それを静かにすることができる。逆正接関数tan-1xは、この挙動を反映するように操作されることができるので、ペナルティのための有利な関数形式である。tan-1(x→±∞)は、事実上、ステップ関数またはスイッチである。一方、tan-1(x→0)は、事実上、線形ランプである。中間範囲は中間的な挙動をもたらす。したがって、ペナルティの関数形式としてx=0のまわりの逆正接の範囲を選択することは、システム挙動に対する有意なレベルの制御を可能にする。
【0089】
たとえば、式3のペナルティwijは、一般に、精密なペナルティ挙動のためのスケーリング因子ηとともに、αiおよびθiそれぞれの単位逆正接関数の乗算として構築されうる。式5は、そのような一例を提供する。
【数10】
【0090】
いくつかの例では、xおよびy∈[0,1]である。特定のスケーリング因子およびそれぞれの逆正接関数は、θiおよびαiの両方の関数としての使用からラウドスピーカーiの精密で漸進的な非アクティブ化を確実にするように構築されてもよい。いくつかの例では、式5の逆正接関数xおよびyは、これらの例におけるスケール因子η=5.0を用いて、以下のように構築されうる:
【数11】
【0091】
式6および7において、「r」は、サンプリングされている逆正接関数の範囲の半分に対応する逆正接関数チューニング因子を表す。r=1については、サンプリングされている逆正接関数の全出力空間は2の長さを有する。図10および図11は、それぞれ、本開示の式6および式7を示しており、各式の要素が識別されている。これらの例によれば、要素1010aおよび1010bは、それぞれ閾値TΘおよびTαに従ってスケーリングされる入力変数である。これらの例によれば、要素1015aおよび1015bは、入力変数が所望の逆正接変域にわたって拡張されることを許容する。これらの例によれば、要素1020aおよび1020bは、中心が逆正接関数と所望のように整列するように、たとえばxが0を中心とするように、入力変数をシフトさせる。これらの例では、要素1025a、1025b、および1025cは、式6および式7の出力を[0,1]の範囲内になるようにスケーリングする。要素1025dは、最大分子入力によって関数出力を正規化する。
【0092】
図12のAおよびBは、本開示の式6に対応するグラフである。図13Aおよび図13Bは、本開示の式7に対応するグラフである。図12のAおよび図13Aは、長さ2rの変域をもつ逆正接のセクションである。図12のBおよび図13Bは、ペナルティが適用される入力変数の変域(domain)にわたる、値域[0,1]におけるそれぞれ図12のAおよび図13Aと同じ逆正接曲線セグメントであって、それぞれ式6および7に従って変換されたものに対応する。
【0093】
図12のA~図13Bは、逆正接関数をペナルティについて有利な関数形式にする特徴を示している。図12のAおよび図12のBの例では、r=1であり、よって、サンプリングされている逆正接関数の全出力空間は、2の長さを有する。これらの曲線の中間部分(たとえば-0.5から0.5まで)では、関数は線形ランプを近似する。図13Aおよび図13Bの例では、r=2であり、よって、サンプリングされている逆正接関数の全出力空間は、4の長さを有する。これらの例では、表示された逆正接関数の比較的小さい部分が線形ランプを近似する。1.5から3の範囲の値については、ゼロに近い値についてよりも、関数の変化がずっと少ない。よって、rの所望の値を選択することとともに、ペナルティの関数形式として逆正接を使用することは、システム挙動に対する有意なレベルの制御を可能にする。
【0094】
図13Cは、ラウドスピーカー配向および重要性メトリックに基づくペナルティ関数の一例を示すグラフである。この例では、グラフ1300は、式5のペナルティ関数wijii)の例を示す。この例によれば、ペナルティ関数wijii)は、Tθ<|θi|≦πおよび0≦αi<Tαについて定義される。前者の条件は、ラウドスピーカーが聴取位置から十分に離れて方向付けられることを要求し、後者の条件は、空間イメージがその非アクティブ化または低減されたアクティブ化によって損なわれないように、当該スピーカーが他のスピーカーに十分に近いことを要求する。これらの条件が満たされる場合、ペナルティwijのスピーカーiへの適用の結果、柔軟なレンダリングを介してオーディオ・オブジェクトの定位が向上する。図13におけるαiの任意の特定の値について、ペナルティwijの値は|θi|がTθからπに増加するにつれて増加する。よって、スピーカーiのアクティブ化は、その配向が聴取位置から離れるほうに増大するにつれて低減される。さらに、|θi|の任意の固定値について、ペナルティwijは、αiが0からTαまで増加するにつれて減少する。これは、スピーカーiのアクティブ化が低減される量が、空間的レンダリングについての当該ラウドスピーカーの重要性の尺度である重要性メトリックαiが増加するほど小さくなることを意味する。
【0095】
図14は、開示される方法の例を概説するフロー図である。いくつかの例では、方法1400は、図1に示されるような装置によって実行されうる。いくつかの例では、方法1400は、統率デバイスの制御システムによって実行されてもよく、統率デバイスは、いくつかの例では、オーディオ・デバイスであってもよい。方法1400のブロックは、本明細書に記載された他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるよりも多いまたは少ないブロックを含んでいてもよい。
【0096】
この例では、ブロック1405は、制御システムによって、インターフェース・システムを介して、オーディオ・データを受領することに関わる。この例によれば、オーディオ・データは、一つまたは複数のオーディオ信号および関連する空間データを含む。この例では、空間データは、前記一つまたは複数のオーディオ信号のうちの1つのオーディオ信号に対応する意図された知覚される空間位置を示す。いくつかのそのような例では、空間データは、メタデータであってもよく、またはそれを含んでいてもよい。いくつかの例によれば、メタデータはオーディオ・オブジェクトに対応していてもよい。いくつかのそのような例では、オーディオ信号はオーディオ・オブジェクトに対応しうる。いくつかの事例では、オーディオ・データは、オーディオ信号および場合によってはビデオ信号のコンテンツ・ストリームの一部であってもよく、その少なくとも一部は、一緒に聞かれることを意図される。例は、音楽、映画サウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成された音声応答などのセレクションを含む。いくつかの例では、オーディオ・データは、たとえば、ワイヤレス通信を介して、別の装置から受領されうる。他の事例では、オーディオ・データは、制御システムを含む同じ装置のメモリから受領され、または取り出されてもよい。
【0097】
この例によれば、ブロック1410は、制御システムによって、インターフェース・システムを介して、聴取者位置データを受領することに関わる。この例では、聴取者位置データは、オーディオ環境における人に対応する聴取者位置を示す。いくつかの事例では、聴取者位置データは、聴取者の頭部の位置を示しうる。いくつかの実装では、ブロック1410、または方法1400の別のブロックは、聴取者配向データを受領することに関わっていてもよい。聴取者の位置および配向を推定するさまざまな方法が本明細書で開示される。
【0098】
この例では、ブロック1415は、制御システムによって、インターフェース・システムを介して、オーディオ環境内の複数のラウドスピーカーの各ラウドスピーカーの位置を示すラウドスピーカー位置データを受領することに関わる。いくつかの例では、前記複数は、オーディオ環境内のすべてのラウドスピーカーを含んでいてもよいが、他の例では、前記複数は、オーディオ環境内のラウドスピーカーの総数のサブセットのみを含んでいてもよい。
【0099】
この例によれば、ブロック1420は、制御システムによって、インターフェース・システムを介して、ラウドスピーカー配向データを受領することに関わる。ラウドスピーカー配向データは、具体的な実装に従って変化しうる。この例では、ラウドスピーカー配向データは、(a)オーディオ環境における複数のラウドスピーカーの各ラウドスピーカーについての最大音響放射の方向と、(b)対応するラウドスピーカーに対する聴取者位置との間のラウドスピーカー配向角を示す。いくつかのそのような例によれば、特定のラウドスピーカーについてのラウドスピーカー配向角は、(a)その特定のラウドスピーカーについての最大音響放射の方向と、(b)その特定のラウドスピーカーの位置と聴取者位置との間の線との間の角度でありうる。他の例では、ラウドスピーカー配向データは、オーディオ環境座標系、オーディオ・デバイス基準フレームなど、別の基準フレームに従ってラウドスピーカー配向角を示しうる。代替的または追加的に、いくつかの例では、ラウドスピーカー配向角は、各ラウドスピーカーについての最大音響放射の方向に従って定義されなくてもよく、代わりに、別の仕方で、たとえばラウドスピーカーを含むデバイスの配向によって定義されてもよい。
【0100】
この例では、ブロック1425は、オーディオ環境における複数のラウドスピーカーの少なくともサブセットを介した再生のためにオーディオ・データを制御システムによってレンダリングして、レンダリングされたオーディオ信号を生成することに関わる。この例によれば、レンダリングは、空間データ、聴取者位置データ、ラウドスピーカー位置データ、およびラウドスピーカー配向データに少なくとも部分的に基づく。この例では、レンダリングは、増加したラウドスピーカー配向角に少なくとも部分的に基づいてラウドスピーカーの相対的アクティブ化を低減する傾向があるラウドスピーカー配向因子を適用することに関わる。この例では、ブロック1430は、インターフェース・システムを介して、レンダリングされたオーディオ信号を、オーディオ環境内の複数のラウドスピーカーのうちのラウドスピーカーの少なくとも前記サブセットに与えることに関わる。
【0101】
いくつかの例では、方法1400は、ラウドスピーカーの少なくとも前記サブセットについてラウドスピーカー重要性メトリックを推定することに関わっていてもよい。いくつかの例によれば、ラウドスピーカー重要性メトリックは、オーディオ信号の意図された知覚される空間位置においてオーディオ信号をレンダリングするためのラウドスピーカーの重要度に対応しうる。いくつかの例では、各ラウドスピーカーのためのレンダリングは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいていてもよい。
【0102】
いくつかの実装によれば、各ラウドスピーカーのためのレンダリングは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいてラウドスピーカー配向因子の効果を修正することに関わっていてもよい。いくつかのそのような例では、各ラウドスピーカーについてレンダリングすることは、増加されたラウドスピーカー重要性メトリックに少なくとも部分的に基づいてラウドスピーカー配向因子の影響を低減することに関わっていてもよい。
【0103】
いくつかの例によれば、方法1400は、ラウドスピーカー配向角が閾値ラウドスピーカー配向角に等しいかまたはそれを超えるかどうかを判定することに関わっていてもよい。いくつかのそのような例では、方法1400は、ラウドスピーカー配向角が閾値ラウドスピーカー配向角に等しいかまたはそれを超える場合のみラウドスピーカー配向因子を適用することに関わっていてもよい。いくつかの例では、「適格なラウドスピーカー」は、閾値ラウドスピーカー配向角に等しいかまたはそれを超えるラウドスピーカー配向角を有するラウドスピーカーでありうる。この文脈において、「適格なラウドスピーカー」は、ペナルティを科すのに適格な、たとえば、弱められる(相対的なスピーカー・アクティブ化を低減する)またはオフにされるのに適格なラウドスピーカーである。
【0104】
いくつかの例では、特定のラウドスピーカーのラウドスピーカー重要性メトリックは、一つまたは複数の他のラウドスピーカーの位置に対するその特定のラウドスピーカーの位置に少なくとも部分的に基づいていてもよい。たとえば、ラウドスピーカーが別のラウドスピーカーに比較的近い場合、これらの密な間隔のラウドスピーカーのいずれかにペナルティを科すことによって引き起こされる知覚的な変化は、オーディオ環境内の他のラウドスピーカーに近くない別のラウドスピーカーにペナルティを科すことによって引き起こされる知覚的な変化よりも小さくなりうる。
【0105】
いくつかの例によれば、ラウドスピーカー重要性メトリックは、適格ラウドスピーカーと、(a)適格ラウドスピーカーからの時計回りの角距離が最も短い第1のラウドスピーカーと(b)適格ラウドスピーカーからの反時計回りの角距離が最も短い第2のラウドスピーカーとの間の線との間の距離に少なくとも部分的に基づいていてもよい。この距離は、いくつかの例では、本明細書で開示されるラウドスピーカー重要性メトリックαに対応しうる。上述のように、いくつかの例では、「適格」ラウドスピーカーは、閾値ラウドスピーカー配向角に等しいかまたはそれを超えるラウドスピーカー配向角を有するラウドスピーカーである。いくつかの例では、第1のラウドスピーカーおよび第2のラウドスピーカーは、閾値ラウドスピーカー配向角よりも小さいラウドスピーカー配向角を有する不適格なラウドスピーカーでありうる。これらの不適格なラウドスピーカーは、ペナルティを科すのに不適格でありえ、たとえば、弱められる(相対的なスピーカー・アクティブ化を低減する)またはオフにされるのに不適格でありうる。
【0106】
いくつかの例では、ブロック1425のレンダリングは、コスト関数を最適化することによってラウドスピーカーの少なくとも前記サブセットのための相対的アクティブ化を決定することに関わっていてもよい。いくつかのそのような例では、ブロック1425は、オーディオ環境中のラウドスピーカーの前記サブセット上で再生されるときの前記一つまたは複数のオーディオ信号のうちのオーディオ信号の知覚される空間位置のモデルと;オーディオ信号の意図された知覚される空間位置の、ラウドスピーカーの前記サブセットの各ラウドスピーカーの位置への近接性の指標と;一つまたは複数の追加的な動的に構成可能な関数との関数であるコストを最適化することによって、ラウドスピーカーの少なくとも前記サブセットのための相対的アクティブ化を決定することに関わっていてもよい。
【0107】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、ラウドスピーカー配向因子に少なくとも部分的に基づいていてもよい。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、ラウドスピーカー重要性メトリックに少なくとも部分的に基づいていてもよい。いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な関数のうちの少なくとも1つは、オーディオ環境内の各ラウドスピーカーからオーディオ環境内の一つまたは複数の他のラウドスピーカーへの音響伝送の測定値または推定値に少なくとも部分的に基づいていてもよい。
【0108】
オーディオ・デバイスの位置および配向の推定方法の例
図14の説明および本明細書の他の箇所に記載されるように、いくつかの例では、オーディオ処理の変更(ラウドスピーカー配向、ラウドスピーカー重要性メトリック、またはその両方に対応するものなど)は、オーディオ・デバイスの位置およびオーディオ・デバイスの配向の情報に少なくとも部分的に基づいてもよい。オーディオ環境におけるオーディオ・デバイスの位置および配向は、さまざまな方法によって決定または推定されうる。これはいかの段落に記載されているものを含むが、これらに限定されない。この議論は、オーディオ・デバイスの位置および配向を参照するが、当業者は、一つまたは複数のラウドスピーカーが対応するオーディオ・デバイスにおいてどのように位置されるかに関する情報が与えられると、ラウドスピーカーの位置および配向がオーディオ・デバイスの位置および配向に従って決定されうることを認識するであろう。
【0109】
いくつかのそのような方法は、たとえば、環境の間取図または同様の図的な表現上にオーディオ・デバイスのおおよその位置をマークするかまたは示すためにスマートフォンまたはタブレット装置を使用して、ユーザーによる直接指示を受領することに関わっていてもよい。そのようなデジタルインターフェースは、スマートホームデバイスの構成、グループ化、名前、目的および識別情報を管理する際にすでに一般的である。たとえば、そのような直接の指示は、Amazon Alexaスマートフォンアプリケーション、Sonos S2コントローラアプリケーション、または同様のアプリケーションを介して提供されてもよい。
【0110】
いくつかの例は、たとえば、いずれも参照によって本明細書に組み込まれる非特許文献1に開示されているもの、および/または非特許文献2に開示されているものといった、Bluetooth、Wi-Fi、ZigBeeなどの一般的な無線通信技術の測定された信号強度(時に受信信号強度使用(Received Signal Strength Indication、RSSI)と呼ばれる)を使って基本的な三角測量問題を解いて、オーディオ・デバイス間の物理的な距離の推定値を生成することに関わってもよい。
【非特許文献1】J. Yang and Y. Chen、"Indoor Localization Using Improved RSS-Based Lateration Methods"、GLOBECOM 2009 - 2009 IEEE Global Telecommunications Conference, Honolulu, HI, 2009, pp. 1-6, doi: 10.1109/GLOCOM.2009.5425237
【非特許文献2】Mardeni, R. & Othman, Shaifull & Nizam、“Node Positioning in ZigBee Network Using Trilateration Method Based on the Received Signal Strength Indicator (RSSI)” 、2010、46
【0111】
参照により本明細書に組み込まれる「Automatic Discovery and Localization of Speaker Locations in Surround Sound Systems」という名称の特許文献1では、各スピーカーとマイクロフォンとの間の到着時間(TOA)を音響的に測定することによって、聴取環境におけるラウドスピーカーおよびマイクロフォンの位置を自動的に位置特定することができるシステムが記載されている。
【特許文献1】米国特許第10,779,084号
【0112】
参照により本明細書に組み込まれる、「AUTOMATIC LOCALIZATION OF AUDIO DEVICES」(「自動位置特定アプリケーション」)と題された国際出願第PCT/US21/61506号および第PCT/US21/61533号は、オーディオ・デバイスの位置および配向を自動的に決定するための方法、デバイス、およびシステムを開示している。Fig. 4~9B、および第17~47頁の対応する記述が、特に参照により本明細書に組み込まれる。自動位置特定アプリケーションのいくつかの開示される例は、オーディオ環境の少なくとも第1のスマート・オーディオ・デバイスによって発せられた音に対応する到来方向(DOA)データを受領することに関わる。いくつかの実装では、第1のスマート・オーディオ・デバイスは、第1のオーディオ送信器と第1のオーディオ受領機とを含みうる。いくつかの例では、DOAデータは、オーディオ環境の少なくとも第2のスマート・オーディオ・デバイスによって受領された音に対応しうる。いくつかの事例では、第2のスマート・オーディオ・デバイスは、第2のオーディオ送信器と第2のオーディオ受領機とを含みうる。いくつかの例では、DOAデータは、少なくとも第2のスマート・オーディオ・デバイスによって発せられ、少なくとも第1のスマート・オーディオ・デバイスによって受領された音にも対応しうる。
【0113】
いくつかのそのような方法は、制御システムによって、構成パラメータを受領することに関わっていてもよい。いくつかの例では、構成パラメータは、オーディオ環境に対応してもよく、および/またはオーディオ環境の一つまたは複数のオーディオ・デバイスに対応してもよい。いくつかのそのような方法は、少なくとも第1のスマート・オーディオ・デバイスおよび第2のスマート・オーディオ・デバイスの位置および/または配向を推定するために、制御システムによって、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化することに関わっていてもよい。
【0114】
いくつかの例によれば、DOAデータは、オーディオ環境の一つまたは複数のパッシブオーディオ受領器によって受領された音にも対応しうる。いくつかの例では、一つまたは複数のパッシブオーディオ受領器のそれぞれは、マイクロフォンアレイを含みうるが、いくつかの事例では、オーディオ放出器を欠いていてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、前記一つまたは複数のパッシブオーディオ受領器のそれぞれの推定された位置および配向を与えてもよい。
【0115】
いくつかの例では、DOAデータは、オーディオ環境の一つまたは複数のオーディオ放出器によって発せられる音にも対応しうる。いくつかの事例では、一つまたは複数のオーディオ放出器のそれぞれは、少なくとも1つの音放出トランスデューサを含みうるが、いくつかの事例では、マイクロフォンアレイを欠いていてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、前記一つまたは複数のオーディオ放出器のそれぞれの推定位置を与えてもよい。
【0116】
いくつかの実装では、DOAデータは、オーディオ環境の第3ないし第Nのスマート・オーディオ・デバイスによって発せられる音にも対応してもよく、Nはオーディオ環境のスマート・オーディオ・デバイスの総数に対応する。いくつかの例では、DOAデータは、第1ないし第Nのスマート・オーディオ・デバイスのそれぞれによって、オーディオ環境の他のすべてのスマート・オーディオ・デバイスから受領された音にも対応しうる。いくつかのそのような例では、コスト関数を最小化することは、第3ないし第Nのスマート・オーディオ・デバイスの位置および/または配向を推定することに関わっていてもよい。
【0117】
いくつかの例によれば、構成パラメータは、オーディオ環境内のオーディオ・デバイスの数、オーディオ環境の一つまたは複数の次元、および/またはオーディオ・デバイスの位置および/もしくは配向に対する一つまたは複数の制約条件を含みうる。いくつかの事例では、構成パラメータは、回転、平行移動、および/またはスケーリングのための曖昧さ回避データを含みうる。
【0118】
いくつかの方法は、制御システムによって、コスト関数のシード・レイアウトを受領することを含みうる。シード・レイアウトは、いくつかの例では、オーディオ環境におけるオーディオ送信器および受領器の正しい数と、オーディオ環境におけるオーディオ送信器および受領器のそれぞれについての任意の位置および配向とを指定しうる。
【0119】
いくつかの方法は、制御システムによって、DOAデータの一つまたは複数の要素に関連付けられた重み因子を受領することに関わっていてもよい。重み因子は、たとえば、DOAデータの前記一つまたは複数の要素の利用可能性および/または信頼性を示すことができる。
【0120】
いくつかの方法は、制御システムによって、ビームフォーミング方法、ステアリングされた電力応答方法、到着時間差方法、構造化信号方法、またはそれらの組み合わせを使用して、DOAデータの一つまたは複数の要素を取得することに関わっていてもよい。
【0121】
いくつかの方法は、制御システムによって、オーディオ環境の少なくとも1つのオーディオ・デバイスによって発せられ、オーディオ環境の少なくとも1つの他のオーディオ・デバイスによって受領された音に対応する到着時間(TOA)データを受領することに関わっていてもよい。いくつかのそのような例では、コスト関数は、TOAデータに少なくとも部分的に基づいていてもよい。いくつかのそのような方法は、少なくとも1つの再生レイテンシーを推定すること、および/または少なくとも1つの記録レイテンシーを推定することに関わっていてもよい。いくつかの例では、コスト関数は、再スケーリングされた位置、再スケーリングされたレイテンシー、および/または再スケーリングされた到着時間を用いて動作しうる。
【0122】
いくつかの例によれば、コスト関数は、DOAデータのみに依存する第1の項を含みうる。いくつかのそのような例では、コスト関数は、TOAデータのみに依存する第2の項を含みうる。いくつかのそのような例では、第1の項は第1の重み因子を含んでいてもよく、第2の項は第2の重み因子を含んでいてもよい。いくつかの事例では、第2の項の一つまたは複数のTOA要素は、一つまたは複数のTOA要素のそれぞれの利用可能性および/または信頼性を示すTOA要素重み因子を有していてもよい。
【0123】
いくつかの例では、構成パラメータは、再生レイテンシー・データ、記録レイテンシー・データ、レイテンシー対称性の曖昧性を除去するためのデータ、回転についての曖昧性除去データ、平行移動についての曖昧性除去データ、スケーリングについての曖昧性除去データ、および/またはそれらの一つまたは複数の組み合わせを含みうる。
【0124】
本開示のいくつかの他の側面は、方法を介して実装されうる。いくつかのそのような方法は、デバイス位置特定に関わっていてもよい。たとえば、いくつかの方法は、オーディオ環境においてデバイスを位置特定することを含みうる。いくつかのそのような方法は、制御システムによって、環境の第1のデバイスの少なくとも第1のトランシーバの伝送に対応する到来方向(DOA)データを取得することに関わっていてもよい。第1のトランシーバは、いくつかの例では、第1の送信器と第1の受領器とを含みうる。いくつかの事例では、DOAデータは、環境の第2のデバイスの少なくとも第2のトランシーバによって受領された伝送に対応しうる。いくつかの例では、第2のトランシーバは、第2の送信器と第2の受領器とを含みうる。いくつかの事例では、DOAデータは、少なくとも第1のトランシーバによって受領された少なくとも第2のトランシーバからの伝送に対応しうる。
【0125】
いくつかの例では、第1のデバイスおよび第2のデバイスはオーディオ・デバイスであってもよく、環境はオーディオ環境であってもよい。いくつかのそのような例によれば、第1の送信器および第2の送信器はオーディオ送信器でありうる。いくつかのそのような例では、第1の受領器および第2の受領器はオーディオ受領器でありうる。いくつかの実装では、第1のトランシーバおよび第2のトランシーバは、電磁波を送信および受信するように構成されうる。
【0126】
いくつかのそのような方法は、制御システムによって、構成パラメータを受領することに関わっていてもよい。いくつかの事例では、構成パラメータは、環境に対応してもよく、および/または環境の一つまたは複数のデバイスに対応してもよい。いくつかのそのような方法は、少なくとも第1のデバイスおよび第2のデバイスの位置および/または配向を推定するために、制御システムによって、DOAデータおよび構成パラメータに少なくとも部分的に基づいてコスト関数を最小化することに関わっていてもよい。
【0127】
いくつかの例では、DOAデータはまた、環境の一つまたは複数のパッシブ受領器によって受領された伝送に対応しうる。一つまたは複数のパッシブ受領器のそれぞれは、たとえば、受領器アレイを含みうるが、送信器を欠いていてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、一つまたは複数のパッシブ受領器のそれぞれの推定された位置および/または配向を与えてもよい。
【0128】
いくつかの例によれば、DOAデータは、環境の一つまたは複数の送信器からの伝送にも対応しうる。いくつかの事例では、一つまたは複数の送信器のそれぞれは、受領器アレイを欠いていてもよい。いくつかのそのような例では、コスト関数を最小化することはまた、一つまたは複数の送信器のそれぞれの推定位置を与えうる。
【0129】
いくつかの例では、DOAデータはまた、環境の第3ないし第Nのデバイスの第3ないし第Nのトランシーバによって発せられる伝送に対応してもよく、Nは環境のトランシーバの総数に対応する。いくつかのそのような例では、DOAデータはまた、第1ないし第Nのトランシーバのそれぞれによって、環境のすべての他のトランシーバから受領された伝送に対応しうる。いくつかのそのような例では、コスト関数を最小化することは、第3ないし第Nのトランシーバの位置および/または配向を推定することに関わっていてもよい。
【0130】
参照により本明細書に組み込まれる「Audio Device Auto-Location」という名称の国際公開第2021/127286 A1号は、オーディオ環境におけるオーディオ・デバイスの位置、聴取者の位置、および聴取者の配向を推定するための方法を開示している。いくつかの開示される方法は、到来方向(DOA)データを介して、およびDOAデータに基づいて複数の三角形のそれぞれについて内角を決定することによって、環境内のオーディオ・デバイス位置を推定することに関わる。いくつかの例では、各三角形は、オーディオ・デバイスの位置に対応する頂点を有する。いくつかの開示された方法は、三角形のそれぞれの各辺の辺長を決定することと、複数の三角形のそれぞれを整列させる順方向整列プロセスを実行して順方向整列行列を生成することとに関わる。いくつかの開示される方法は、複数の三角形のそれぞれを逆方向シーケンスで整列させる逆方向整列プロセスを実行して逆方向整列行列を生成することを決定することに関わる。各オーディオ・デバイス位置の最終的な推定値は、少なくとも部分的に、順方向整列行列の値および逆方向整列行列の値に基づいていてもよい。
【0131】
国際公開第2021/127286 A1号の他の開示された方法は、聴取者位置、およびいくつかの事例では、聴取者位置を推定することに関わる。いくつかのそのような方法は、一つまたは複数の発話を行うように聴取者に(たとえば、環境内の一つまたは複数のラウドスピーカーからのオーディオプロンプトを介して)促すことと、DOAデータに従って聴取者位置を推定することとに関わる。DOAデータは、環境内の複数のマイクロフォンによって取得されたマイクロフォン・データに対応しうる。マイクロフォン・データは、マイクロフォンによる一つまたは複数の発話の検出に対応しうる。マイクロフォンのうちの少なくともいくつかは、ラウドスピーカーと共位置であってもよい。いくつかの例によれば、聴取者位置を推定することは、三角測量プロセスに関わっていてもよい。いくつかのそのような例は、オーディオ・デバイスを通過するDOAベクトル間の交点を見つけることによってユーザーの音声を三角測量することに関わる。聴取者の配向を決定するいくつかの開示された方法は、一つまたは複数のラウドスピーカー位置を識別するようにユーザーに促すことに関わる。いくつかのそのような例は、ラウドスピーカー位置の隣に移動し、発話を行うことによって、一つまたは複数のラウドスピーカー位置を識別するようにユーザーに促すことに関わる。他の例は、慣性センサーシステムと、オーディオ環境のオーディオ・デバイスを制御している制御システム(統率デバイスの制御システムなど)と通信するように構成された無線インターフェースとを含む携帯電話などのハンドヘルドデバイスを用いて一つまたは複数のラウドスピーカー位置のそれぞれを指し示すことによって、一つまたは複数のラウドスピーカー位置を識別するようにユーザーを促すことに関わる。いくつかの開示された方法が関わる聴取者配向を決定することは、ラウドスピーカーに、オーディオ・オブジェクトが聴取者のまわりを回転するように思えるようにオーディオ・オブジェクトをレンダリングさせ、聴取者がオーディオ・オブジェクトがラウドスピーカー位置、テレビジョン位置などの位置にあると知覚したときに発話(たとえば「ストップ!」)を行うよう聴取者に促すこととによる。いくつかの開示される方法が関わる聴取者の位置および/または配向をカメラ・データを介して決定することは、たとえば、カメラ・データに従って聴取者とオーディオ環境の一つまたは複数のオーディオ・デバイスとの相対位置を決定すること、カメラ・データに従って(たとえば、聴取者が向いている方向に従って)オーディオ環境の一つまたは複数のオーディオ・デバイスに対する聴取者の配向を決定することによってなどによる。
【0132】
参照により本明細書に組み込まれる非特許文献3では、サウンドバー、フロントセンタースピーカーなど、その位置が予測できる再生システムのコンポーネントに関連する単一の線形マイクロフォンアレイが、サテライトラウドスピーカーと聴取者の両方についての到着時間差(TDOA)を測定して、ラウドスピーカーと聴取者の両方の位置を位置特定するシステムが記述されている。この場合、聴取配向は、検出された聴取位置と、テレビと共位置の(テレビの真上または真下に配置された)サウンドバーなどの線形マイクロフォンアレイを含む再生システムのコンポーネントとを結ぶ線として本来的に定義される。サウンドバーの位置は、ビデオスクリーンの真上または真下に予測可能に配置されるので、測定された距離および入射角の幾何は、単純な三角法の原理を使用して、その基準サウンドバー位置の前の任意の点に対する絶対位置に変換されうる。ラウドスピーカーと線形マイクロフォンアレイのマイクロフォンとの間の距離は、試験信号を再生し、放射するラウドスピーカーと受領するマイクロフォンとの間の飛行時間(TOF)を測定することによって推定されうる。この目的のために、測定されたインパルス応答の直流成分の時間遅延が使用されることができる。ラウドスピーカーとマイクロフォンアレイ要素との間のインパルス応答は、解析対象のラウドスピーカーを通して試験信号を再生することによって取得されることができる。たとえば、最大長シーケンス(maximum length sequence、MLS)またはチャープ信号(対数正弦掃引(logarithmic sine sweep)としても知られる)のいずれかが試験信号として使用されることができる。室内インパルス応答は、捕捉された信号とMLS入力との間の循環相互相関(circular cross-correlation)を計算することによって得ることができる。この文献のFig.2は、MLS入力を用いて得られるエコーインパルス応答を示す。このインパルス応答は、典型的なオフィスまたはリビングルームで行われる測定と同様であると言われる。直接成分の遅延は、ラウドスピーカーとマイクロフォンアレイ要素との間の距離を推定するために使用される。ラウドスピーカー距離推定のために、試験信号を再生するために使用されるオーディオ・デバイスの任意のループバック・レイテンシーが計算され、測定されたTOF推定値から除去されるべきである。
【非特許文献3】Shi, Guangi et al、Spatial Calibration of Surround Sound Systems including Listener Position Estimation、AES 137th Convention, October 2014
【0133】
オーディオ環境における人の位置および配向を推定する例
オーディオ環境における人の位置および配向は、以下の段落に記載されるものを含むがこれらに限定されないさまざまな方法によって決定または推定されうる。
【0134】
参照により本明細書に組み込まれる非特許文献4では、空間的オーディオ再生システムのコンテキストにおいて聴取者の頭部の位置および配向の両方を追跡するための多数の商業的に利用可能な技法が提示されている。説明される1つの特定の例は、Microsoft Kinectである。その奥行き感知および標準カメラと、一般に利用可能なソフトウェア(Windows(登録商標)ソフトウェア開発キット(SDK))とを用いて、空間内の数人の聴取者の頭部の位置および配向が、骨格追跡および顔認識の組み合わせを使用して、同時に追跡されることができる。Windows用のKinectは廃止されたが、次世代のMicrosoftの奥行きセンサーを実装するAzure Kinect開発キット(DK)が現在利用可能である。
【非特許文献4】Hess, Wolfgang、Head-Tracking Techniques for Virtual Acoustic Applications、AES 133rd Convention, October 2012
【0135】
参照により本明細書に組み込まれる「Automatic Discovery and Localization of Speaker Locations in Surround Sound Systems」という名称の米国特許第10,779,084号では、各スピーカーとマイクロフォンとの間の到着時間(TOA)を音響的に測定することによって、聴取環境におけるラウドスピーカーおよびマイクロフォンの位置を自動的に位置特定することができるシステムが説明されている。聴取位置は、マイクロフォン(たとえば、聴取者によって保持される携帯電話内のマイクロフォン)を所望の聴取位置に配置し、位置特定することによって検出されてもよく、関連する聴取配向は、聴取者の閲覧方向における点に、たとえばTVに別のマイクロフォンを配置することによって定義されうる。あるいはまた、聴取配向は、たとえばTV上のラウドスピーカーなど、閲覧方向にあるラウドスピーカーを位置特定することによって定義されてもよい。
【0136】
参照により本明細書に組み込まれる「Audio Device Auto-Location」という名称の国際公開第2021/127286 A1号は、オーディオ環境におけるオーディオ・デバイスの位置、聴取者の位置、および聴取者の場所を推定するための方法を開示している。いくつかの開示される方法は、到来方向(DOA)データを介して、およびDOAデータに基づいて複数の三角形のそれぞれについて内角を決定することによって、環境内のオーディオ・デバイス位置を推定することに関わる。いくつかの例では、各三角形は、オーディオ・デバイスの位置に対応する頂点を有する。いくつかの開示された方法は、三角形のそれぞれの各辺の辺長を決定することと、複数の三角形のそれぞれを整列させる順方向整列プロセスを実行して順方向整列行列を生成することとに関わる。いくつかの開示された方法は、複数の三角形のそれぞれを逆方向シーケンスで整列する逆方向整列プロセスを実行して、逆方向整列行列を生成することを決定することに関わる。各オーディオ・デバイスの位置の最終的な推定値は、少なくとも部分的に、順方向整列行列の値および逆方向整列行列の値に基づいていてもよい。
【0137】
国際公開第2021/127286 A1号の他の開示された方法は、聴取者位置、およびいくつかの事例では、聴取者位置を推定することに関わる。いくつかのそのような方法は、一つまたは複数の発話を行うように聴取者に(たとえば、環境内の一つまたは複数のラウドスピーカーからのオーディオプロンプトを介して)促すことと、DOAデータに従って聴取者位置を推定することとに関わる。DOAデータは、環境内の複数のマイクロフォンによって取得されたマイクロフォン・データに対応しうる。マイクロフォン・データは、マイクロフォンによる一つまたは複数の発話の検出に対応しうる。マイクロフォンのうちの少なくともいくつかは、ラウドスピーカーと共位置であってもよい。いくつかの例によれば、聴取者位置を推定することは、三角測量プロセスに関わっていてもよい。いくつかのそのような例は、オーディオ・デバイスを通過するDOAベクトル間の交点を見つけることによってユーザーの音声を三角測量することに関わる。聴取者の配向を決定するいくつかの開示された方法は、一つまたは複数のラウドスピーカー位置を識別するようにユーザーに促すことに関わる。いくつかのそのような例は、ラウドスピーカー位置の隣に移動し、発話を行うことによって、一つまたは複数のラウドスピーカー位置を識別するようにユーザーに促すことに関わる。他の例は、慣性センサーシステムと、オーディオ環境のオーディオ・デバイスを制御している制御システム(統率デバイスの制御システムなど)と通信するように構成された無線インターフェースとを含む携帯電話などのハンドヘルドデバイスを用いて一つまたは複数のラウドスピーカー位置のそれぞれを指し示すことによって、一つまたは複数のラウドスピーカー位置を識別するようにユーザーを促すことに関わる。いくつかの開示された方法が関わる聴取者配向を決定することは、ラウドスピーカーに、オーディオ・オブジェクトが聴取者のまわりを回転するように思えるようにオーディオ・オブジェクトをレンダリングさせ、聴取者がオーディオ・オブジェクトがラウドスピーカー位置、テレビジョン位置などの位置にあると知覚したときに発話(たとえば「ストップ!」)を行うよう聴取者に促すこととによる。いくつかの開示される方法が関わる聴取者の位置および/または配向をカメラ・データを介して決定することは、たとえば、カメラ・データに従って聴取者とオーディオ環境の一つまたは複数のオーディオ・デバイスとの相対位置を決定すること、カメラ・データに従って(たとえば、聴取者が向いている方向に従って)オーディオ環境の一つまたは複数のオーディオ・デバイスに対する聴取者の配向を決定することによってなどによる。
【0138】
参照により本明細書に組み込まれる非特許文献3では、サウンドバー、フロントセンタースピーカーなど、その位置が予測できる再生システムのコンポーネントに関連する単一の線形マイクロフォンアレイが、サテライトラウドスピーカーと聴取者の両方についての到着時間差(TDOA)を測定して、ラウドスピーカーと聴取者の両方の位置を位置特定するシステムが記述されている。この場合、聴取配向は、検出された聴取位置と、テレビと共位置の(テレビの真上または真下に配置された)サウンドバーなどの線形マイクロフォンアレイを含む再生システムのコンポーネントとを結ぶ線として本来的に定義される。サウンドバーの位置は、ビデオスクリーンの真上または真下に予測可能に配置されるので、測定された距離および入射角の幾何は、単純な三角法の原理を使用して、その基準サウンドバー位置の前の任意の点に対する絶対位置に変換されうる。ラウドスピーカーと線形マイクロフォンアレイのマイクロフォンとの間の距離は、試験信号を再生し、放射するラウドスピーカーと受領するマイクロフォンとの間の飛行時間(TOF)を測定することによって推定されうる。この目的のために、測定されたインパルス応答の直流成分の時間遅延が使用されることができる。ラウドスピーカーとマイクロフォンアレイ要素との間のインパルス応答は、解析対象のラウドスピーカーを通して試験信号を再生することによって取得されることができる。たとえば、最大長シーケンス(maximum length sequence、MLS)またはチャープ信号(対数正弦掃引(logarithmic sine sweep)としても知られる)のいずれかが試験信号として使用されることができる。室内インパルス応答は、捕捉された信号とMLS入力との間の循環相互相関(circular cross-correlation)を計算することによって得ることができる。この文献のFig.2は、MLS入力を用いて得られるエコーインパルス応答を示す。このインパルス応答は、典型的なオフィスまたはリビングルームで行われる測定と同様であると言われる。直接成分の遅延は、ラウドスピーカーとマイクロフォンアレイ要素との間の距離を推定するために使用される。ラウドスピーカー距離推定のために、試験信号を再生するために使用されるオーディオ・デバイスの任意のループバック・レイテンシーが計算され、測定されたTOF推定値から除去されるべきである。
【0139】
コスト関数の最適化に関わるオーディオ処理変更のさらなる例
本稿の他の箇所で述べたように、開示されるさまざまな例において、一つまたは複数のタイプのオーディオ処理変更がコスト関数の最適化に基づいていてもよい。いくつかのそのような例は、柔軟レンダリングに関わる。
【0140】
柔軟レンダリングは、空間的オーディオが任意の数の任意に配置されたスピーカーにわたってレンダリングされることを許容する。家庭におけるスマート・オーディオ・デバイス(たとえば、スマートスピーカー)を含むがそれに限定されないオーディオ・デバイスの広範な展開に鑑み、消費者製品がオーディオの柔軟なレンダリングと、そのようにレンダリングされたオーディオの再生とを実行することを許容する柔軟レンダリング技術を実現する必要がある。
【0141】
柔軟なレンダリングを実現するために、いくつかの技術が開発されている。それらは、レンダリング問題をコスト関数最小化の1つとしてキャストし、ここで、コスト関数は、2つの項、すなわち、レンダラーが達成しようとする所望の空間的印象をモデル化する第1の項と、スピーカーをアクティブ化することにコストを割り当てる第2の項とからなる。今日まで、この第2の項は、レンダリングされているオーディオの所望の空間位置に近接したスピーカーのみがアクティブ化される、スパース解を作成することに焦点を当ててきた。
【0142】
消費者環境における空間的オーディオの再生は、典型的には、所定の位置に配置された所定の数のラウドスピーカー、たとえば、5.1および7.1サラウンドサウンドに結び付けられている。これらの場合、コンテンツは、関連するラウドスピーカーについて特にオーサリングされ、各ラウドスピーカーについて1つの離散チャネルとしてエンコードされる(たとえば、Dolby Digital、またはDolby Digital Plusなど)。より最近では、コンテンツと特定のラウドスピーカー位置との間のこの関連付けを破る没入型のオブジェクト・ベースの空間的オーディオ・フォーマットが導入されている(Dolby Atmos)。代わりに、コンテンツは、個々のオーディオ・オブジェクトの集合体として記述されてもよく、各オーディオ・オブジェクトは、3次元空間における前記オーディオ・オブジェクトの所望の知覚される位置を記述する、可能性としては時間変化するメタデータを有する。再生時に、コンテンツは、再生システム内のラウドスピーカーの数および位置に適合するレンダラーによってラウドスピーカー・フィードに変換される。しかしながら、多くのそのようなレンダラーは、依然として、ラウドスピーカーのセットの位置を規定されたレイアウトのセット(たとえば、Dolby Atmosの場合、3.1.2、5.1.2、7.1.4、9.1.6など)のうちの1つになるように制約する。
【0143】
そのような制約されたレンダリングを超えて、任意の位置に配置された真に任意の数のラウドスピーカーにわたってオブジェクト・ベースのオーディオが柔軟にレンダリングされることを許容する方法が開発されている。これらの方法は、レンダラーが聴取空間内のラウドスピーカーの数および物理的位置の知識を有することを必要とする。そのようなシステムが平均的な消費者にとって実用的であるためには、ラウドスピーカーを位置特定するための自動化された方法が望ましい。1つのそのような方法は、可能性としてはラウドスピーカーと共位置の多数のマイクロフォンの使用に依拠する。ラウドスピーカーを通じてオーディオ信号を再生し、マイクロフォンで録音することによって、各ラウドスピーカーとマイクロフォンとの間の距離が推定される。これらの距離から、ラウドスピーカーとマイクロフォンの両方の位置がその後、推定される。
【0144】
消費者空間におけるオブジェクト・ベースの空間的オーディオの導入と同時に、Amazon Echo製品ラインなどのいわゆる「スマートスピーカー」が急速に採用されている。これらのデバイスの途方もない人気は、無線接続性および統合された音声インターフェース(たとえば、AmazonのAlexa)によってもたらされるそれらの単純さおよび利便性に帰することができるが、これらのデバイスの音響能力は、特に空間的オーディオに関しては、概して限定されている。ほとんどの場合、これらのデバイスは、モノラルまたはステレオ再生に制約される。しかしながら、前述の柔軟なレンダリングおよび自動位置特定技術を複数の統率されたスマートスピーカーと組み合わせることは、非常に洗練された空間的再生機能をもち、それでいて消費者がセットアップするのが極めて簡単なままであるシステムをもたらしうる。消費者は、無線接続性のためにスピーカーワイヤを走らせる必要なく、どこでも都合のよい場所に、所望されるだけ多数または少数のスピーカーを配置することができ、内蔵マイクロフォンを使用して、関連する柔軟レンダラーのためにスピーカーを自動的に位置特定することができる。
【0145】
従来の柔軟なレンダリング・アルゴリズムは、特定の所望の知覚される空間的印象をできるだけ厳密に達成するように設計される。統率されたスマートスピーカーのシステムでは、時々、この空間印象の維持は、最も重要なまたは所望される目的ではないことがある。たとえば、誰かが、統合された音声アシスタントに対して同時に話をしようと試みている場合、検出された発話を含むマイクロフォン信号の信号対雑音比および/または信号対エコー比(SER)を増加させるために、ある種のマイクロフォンの近くのスピーカーでの相対的な再生レベルを低減するように、空間的レンダリングを瞬間的に変更することが望ましいことがある。本明細書に記載されるいくつかの実施形態は、たとえば一つまたは複数の追加的な目的を達成する目的で、空間的レンダリングに対するそのような動的な修正を許容するために、既存の柔軟レンダリング方法に対する修正として実装されうる。
【0146】
既存の柔軟レンダリング技術は、重心振幅パンニング(Center of Mass Amplitude Panning、CMAP)および柔軟仮想化(Flexible Virtualization、FV)を含む。高いレベルからは、これらの技術の両方は、2つ以上のスピーカーのセット上での再生のために、それぞれが関連する所望の知覚される空間位置を有する一つまたは複数のオーディオ信号のセットをレンダリングする。ここで、該セットのスピーカーの相対的なアクティブ化は、それらのスピーカー上で再生される前記オーディオ信号の知覚される空間位置のモデルと、オーディオ信号の所望の知覚される空間位置の、それらのスピーカーの位置への近接性との関数である。モデルは、オーディオ信号が意図された空間位置の近くで聴取者によって聞かれることを確実にし、近接項は、この空間印象を達成するためにどのスピーカーが使用されるかを制御する。特に、近接項は、オーディオ信号の所望の知覚される空間位置に近いスピーカーのアクティブ化を優先する。CMAPおよびFVの両方について、この関数関係は、2つの項、すなわち空間側面についての項と近接性についての項との和として書かれるコスト関数から便利に導出される。
【数12】
【0147】
ここで、集合{si}は、M個のラウドスピーカーのセットの位置を示し、oは、オーディオ信号の所望の知覚される空間位置を示し、gは、スピーカー・アクティブ化のM次元ベクトルを示す。CMAPについては、ベクトル内の各アクティブ化は、スピーカーごとの利得を表し、一方、FVについては、各アクティブ化は、フィルタを表す(この第2の場合、gは、等価的に、特定の周波数における複素数値のベクトルと見なされてもよく、フィルタを形成するために、複数の周波数にわたって異なるgが計算される)。アクティブ化の最適ベクトルは、諸アクティブ化にわたってコスト関数を最小化することによって見出される。
【数13】
【0148】
コスト関数のある種の定義では、goptの成分間の相対レベルは適切であっても、上記の最小化から得られる最適なアクティブ化の絶対レベルを制御することは困難である。この問題に対処するため、アクティブ化の絶対レベルが制御されるよう、goptのその後の正規化が実行されうる。たとえば、単位長を有するようにベクトルを正規化することが望ましいことがあり、これは、一般に使用される定パワー・パンニング規則と整合する。
【数14】
【0149】
柔軟レンダリング・アルゴリズムの厳密な挙動は、コスト関数の2つの項CspatialおよびCproximityの具体的な構築によって指定される。CMAPについて、Cspatialは、ラウドスピーカーのセットから再生されるオーディオ信号の知覚される空間位置を、それらの関連するアクティブ化利得gi(ベクトルgの要素)によって重み付けされたそれらのラウドスピーカーの位置の重心に置くモデルから導出される。
【数15】
【0150】
次いで、式10は、所望のオーディオ位置と、アクティブ化されたラウドスピーカーによって生成される位置との間の平方誤差を表す空間コストに操作される。
【数16】
【0151】
FVでは、コスト関数の空間項は、異なる仕方で定義される。ここでは、目標は、聴取者の左右の耳においてオーディオ・オブジェクト位置oに対応するバイノーラル応答bを生成することである。概念的には、bはフィルタの2×1ベクトル(各耳について1つのフィルタ)であるが、特定の周波数における複素数値の2×1ベクトルとして扱うのがより便利である。特定の周波数におけるこの表現を用いて進めると、所望のバイノーラル応答は、オブジェクト位置によってインデックス付けされたHRTFのセットから取り出されうる。
【数17】
【0152】
同時に、ラウドスピーカーによって聴取者の耳において生成される2×1のバイノーラル応答eは、2×Mの音響伝達行列Hに、複素スピーカー・アクティブ化値のM×1ベクトルgを乗じたものとしてモデル化される:
【数18】
【0153】
音響伝達行列Hは、聴取者位置に対するラウドスピーカー位置のセット{si}に基づいてモデル化される。最後に、コスト関数の空間成分は、所望のバイノーラル応答(式12)と、ラウドスピーカーによって生成されるバイノーラル応答(式13)との間の平方誤差として定義される。
【数19】
【0154】
都合のよいことに、式11および式14で定義されたCMAPおよびFVのコスト関数の空間項は、両方とも、スピーカー・アクティブ化gの関数として、行列の二次形式に再配置することができる。
【数20】
ここで、AはM×M正方行列であり、Bは1×Mベクトルであり、Cはスカラーである。行列Aは階数2であり、したがって、M>2のとき、空間誤差項がゼロに等しくなるスピーカー・アクティブ化gは無限個存在する。コスト関数の第2項Cproximityを導入すると、この不定性が除去され、他の可能な解と比較して知覚的に有益な特性をもつ特定の解が得られる。CMAPとFVの両方について、Cproximityは、所望のオーディオ信号位置oから遠隔の位置siをもつスピーカーのアクティブ化が、所望の位置に近い位置をもつスピーカーのアクティブ化よりも大きいペナルティを科されるように、構築される。この構築は、所望のオーディオ信号の位置に近接したスピーカーのみが有意にアクティブ化される、疎であるスピーカー・アクティブ化の最適なセットを与え、実際上、スピーカーのセットのまわりの聴取者の動きに対して知覚的により堅牢なオーディオ信号の空間的再生につながる。
【0155】
この目的に向け、コスト関数の第2項Cproximityは、スピーカー・アクティブ化の二乗された絶対値の距離で重み付けされた和として定義されうる。これは、行列形式で次のようにコンパクトに表現される。
【数21】
ここで、Dは、所望のオーディオ位置と各スピーカーとの間の距離ペナルティの対角行列である:
【数22】
【0156】
距離ペナルティ関数は、多くの形をとることができるが、以下は有用なパラメータ化である。
【数23】
ここで||o-si||は、所望のオーディオ位置とスピーカー位置との間のユークリッド距離であり、αおよびβはチューニング可能なパラメータである。パラメータαは、ペナルティのグローバル強度を示す。d0は、距離ペナルティの空間的広がりに対応する(d0あたりの距離またはより離れたラウドスピーカーがペナルティを科される)。βは、距離d0におけるペナルティの開始の急激さを説明する。
【0157】
式15および式16aで定義されたコスト関数の2つの項を組み合わせることにより、全体的なコスト関数が得られる。
【数24】
【0158】
gに関するこのコスト関数の導関数をゼロとおいて、gについて解くことにより、最適なスピーカー・アクティブ化解が得られる。
【数25】
【0159】
一般に、式18における最適解は、値が負であるスピーカー・アクティブ化を与えることがある。柔軟レンダラーのCMAP構築については、そのような負のアクティブ化は望ましくないことがあり、よって、すべてのアクティブ化が正のままであることを条件として、式18が最小化されてもよい。
【0160】
図15および図16は、スピーカー・アクティブ化およびオブジェクト・レンダリング位置の例示的なセットを示す図である。これらの例では、スピーカー・アクティブ化およびオブジェクト・レンダリング位置は、4、64、165、-87、および-4度のスピーカー位置に対応する。図15は、これらの特定のスピーカー位置についての式11に対する最適解を含むスピーカー・アクティブ化1505a、1510a、1515a、1520a、および1525aを示す。図16は、個々のスピーカー位置を、それぞれスピーカー・アクティブ化1505a、1510a、1515a、1520a、および1525aに対応する点1605、1610、1615、1620、および1625としてプロットする。図16はまた、多数の可能なオブジェクト角度についての理想的なオブジェクト位置(換言すれば、オーディオ・オブジェクトがレンダリングされるべき位置)をドット1630aとして、および、それらのオブジェクトについての対応する実際のレンダリング位置を、点線1640aによって理想的なオブジェクト位置に接続されたドット1635aとして示している。
【0161】
あるクラスの実施形態は、複数の協調させられた(統率された)スマート・オーディオ・デバイスのうちの少なくとも1つ(たとえば、全部または一部)による再生のためにオーディオをレンダリングする方法に関わる。たとえば、ユーザーの家(におけるシステム)に存在するスマート・オーディオ・デバイスのセットが、スマート・オーディオ・デバイスの全部または一部による(すなわち、全部または一部のスピーカーによる)再生のためのオーディオの(ある実施形態による)柔軟なレンダリングを含む、多様な同時使用事例を扱うように統率されうる。レンダリングに対する動的な修正を要求する、システムとの多くの対話が考えられる。そのような修正は、必ずではないが、空間的忠実さに焦点を当ててもよい。
【0162】
いくつかの実施形態は、スマート・オーディオ・デバイスのセットのスマート・オーディオ・デバイスのうちの少なくとも1つ(たとえば、全部または一部)による再生のための(またはスピーカーの別のセットのスピーカーのうちの少なくとも1つ(たとえば、全部または一部)による再生のための)オーディオのレンダリングのための方法である。レンダリングは、コスト関数の最小化を含んでいてもよく、コスト関数は、少なくとも1つの動的スピーカー・アクティブ化項を含む。そのような動的スピーカー・アクティブ化項の例は、以下を含む(ただし、これらに限定されない)。
・スピーカーの、一または複数の聴取者への近接性;
・スピーカーの、引力または反発力への近接性;
・何らかの位置(たとえば、聴取者位置、またはベビールーム)に対するスピーカーの可聴性;
・スピーカーの能力(たとえば、周波数応答および歪み);
・スピーカーの、他のスピーカーに対する同期;
・ウェイクワード性能;
・エコーキャンセラー性能。
【0163】
動的スピーカー・アクティブ化項は、多様な挙動のうちの少なくとも1つを有効にしうる。該挙動は、特定のスマート・オーディオ・デバイスから離れたオーディオの空間提示を、そのマイクロフォンが話者をよりよく聞くことができるように、または2次オーディオ・ストリームがスマート・オーディオ・デバイスのスピーカーからよりよく聞かれうるように、歪めることを含む。
【0164】
いくつかの実施形態は、協調させられた(統率された)複数のスマート・オーディオ・デバイスのスピーカーによる再生のためのレンダリングを実装する。他の実施形態は、スピーカーの別のセットのスピーカーによる再生のためのレンダリングを実装する。
【0165】
(いくつかの実施形態に従って実装される)柔軟なレンダリング方法をワイヤレススマートスピーカー(または他のスマート・オーディオ・デバイス)のセットとペアリングすることは、きわめて能力が高く、使いやすい空間的オーディオ・レンダリング・システムを与えることができる。そのようなシステムとの相互作用を考慮すると、システムの使用中に生じうる他の目的を最適化するために、空間的レンダリングに対する動的な修正が望ましい場合があることが明らかになる。この目標を達成するために、あるクラスの実施形態は、レンダリングされるオーディオ信号、スピーカーのセット、および/または他の外部入力の一つまたは複数の特性に依存する一つまたは複数の追加的な動的に構成可能な関数を用いて、(スピーカー・アクティブ化が、前に開示された空間項および近接項の関数である)既存の柔軟レンダリング・アルゴリズムを増強する。いくつかの実施形態によれば、式1で与えられる既存の柔軟レンダリングのコスト関数は、次の式に従って、これらの一つまたは複数の追加的な依存性で増強される。
【数26】
【0166】
式19は、上記の式1に対応する。よって、上記の議論は、式1の導出ならびに式19の導出を説明する。
【0167】
式19において、項Cj(g,{{^o},{^si},{^e}}j)は追加的なコスト項を表し、{^o}はレンダリングされている(たとえばオブジェクト・ベースのオーディオ・プログラムの)オーディオ信号の一つまたは複数の特性のセットを表し、{^si}は前記オーディオがレンダリングされているスピーカーの一つまたは複数の特性のセットを表し、{^e}は一つまたは複数の追加的な外部入力を表す。各項Cj(g,{{^o},{^si},{^e}}j)は、セット{{^o},{^si},{^e}}によって一般的に表される、オーディオ信号、スピーカー、および/または外部入力の一つまたは複数の特性の組み合わせに関連するアクティブ化gの関数としてコストを返す。セット{{^o},{^si},{^e}}は、最低では、{^o}、{^si}、または{^e}のいずれかからの1つの要素だけを含むことを理解しておくべきである。
【0168】
{^o}の例は下記を含むが、これらに限定されない。
・オーディオ信号の所望の知覚される空間位置;
・オーディオ信号のレベル(可能性としては時間変化する);および/または
・オーディオ信号のスペクトル(可能性としては時間変化する)。
【0169】
{^si}の例は下記を含むが、これらに限定されない。
・聴取空間におけるラウドスピーカーの位置;
・ラウドスピーカーの周波数応答;
・ラウドスピーカーの再生レベル限界;
・リミッタ利得などの、スピーカー内のダイナミクス処理アルゴリズムのパラメータ;
・各スピーカーから他のスピーカーへの音響伝達の測定値または推定値;
・前記スピーカーに対するエコーキャンセラー性能の指標;および/または
・スピーカーの互いに対する相対的な同期。
【0170】
{^e}の例は下記を含むが、これらに限定されない。
・再生空間内の一または複数の聴取者または話者の位置;
・各ラウドスピーカーから聴取位置への音響伝達の測定値または推定値;
・話者からラウドスピーカーのセットへの音響伝達の測定値または推定値;
・再生空間内の他の何らかのランドマークの位置;および/または
・各スピーカーから再生空間内の他の何らかのランドマークへの音響伝達の測定値または推定値。
【0171】
式28で定義される新しいコスト関数を用いて、アクティブ化の最適なセットが、gに関する最小化と、式28aおよび28bで前に指定された可能な事後正規化とを通して見出されうる。
【0172】
図17は、図1に示されるような装置またはシステムによって実行されうる方法の一例を概説するフロー図である。方法1700のブロックは、本明細書に記載された他の方法と同様に、必ずしも示された順序で実行されるとは限らない。さらに、そのような方法は、図示および/または説明されるよりも多いまたは少ないブロックを含んでいてもよい。方法1700のブロックは、図1に示される制御システム160などの制御システムでありうる(またはそれを含みうる)一つまたは複数のデバイスによって実行されうる。
【0173】
この実装では、ブロック1705は、制御システムによって、インターフェース・システムを介して、オーディオ・データを受領することに関わる。この例では、オーディオ・データは、一つまたは複数のオーディオ信号および関連する空間データを含む。この実装によれば、空間データは、オーディオ信号に対応する意図された知覚される空間位置を示す。いくつかの事例では、意図された知覚される空間位置は、たとえばドルビー・アトモス位置メタデータのような位置メタデータによって示されるように、明示的であってもよい。他の事例では、意図された知覚される空間位置は暗黙的であってもよく、たとえば、意図された知覚される空間位置は、ドルビー5.1、ドルビー7.1または別のチャネル・ベースのオーディオ・フォーマットに従ってチャネルに関連付けられた想定される位置であってもよい。いくつかの例では、ブロック1705は、制御システムのレンダリング・モジュールが、インターフェース・システムを介してオーディオ・データを受領することに関わる。
【0174】
この例によれば、ブロック1710は、制御システムによって、環境のラウドスピーカーのセットを介した再生のためにオーディオ・データをレンダリングして、レンダリングされたオーディオ信号を生成することに関わる。この例では、オーディオ・データに含まれる一つまたは複数のオーディオ信号のそれぞれをレンダリングすることは、コスト関数を最適化することによって環境内のラウドスピーカーのセットの相対的なアクティブ化を決定することに関わる。この例によれば、コストは、環境内のラウドスピーカーのセット上で再生されるときのオーディオ信号の知覚される空間位置のモデルの関数である。この例では、コストは、オーディオ信号の意図された知覚される空間位置の、ラウドスピーカーのセットの各ラウドスピーカーの位置への近接性の指標の関数でもある。この実装では、コストは、一つまたは複数の追加的な動的に構成可能な関数の関数でもある。この例では、動的に構成可能な関数は、以下のうちの一つまたは複数に基づく:ラウドスピーカーの、一または複数の聴取者への近接性;ラウドスピーカーの、引力位置への近接性(引力は、引力位置により近い近接性において相対的により高いラウドスピーカー・アクティブ化を優先する要因である);ラウドスピーカーの、反発力位置への近接性(反発力は、反発力位置により近い近接性において相対的により低いラウドスピーカー・アクティブ化を優先する要因である);各ラウドスピーカーの、環境内の他のラウドスピーカーに比した能力;ラウドスピーカーの、他のラウドスピーカーに対する同期;ウェイクワード性能;またはエコーキャンセラー性能。
【0175】
この例では、ブロック1715は、レンダリングされたオーディオ信号を、インターフェース・システムを介して、環境のラウドスピーカーのセットの少なくともいくつかのラウドスピーカーに提供することに関わる。
【0176】
いくつかの例によれば、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成しうる。代替的または追加的に、知覚される空間位置のモデルは、ラウドスピーカーのセットから再生されるオーディオ信号の知覚される空間位置を、ラウドスピーカーの関連するアクティブ化利得によって重み付けされた前記セットのラウドスピーカーの位置の重心に配置してもよい。
【0177】
いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な関数は、前記一つまたは複数のオーディオ信号のレベルに少なくとも部分的に基づいていてもよい。いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な関数は、前記一つまたは複数のオーディオ信号のスペクトルに少なくとも部分的に基づいていてもよい。
【0178】
方法1700のいくつかの例は、ラウドスピーカー・レイアウト情報を受領することに関わる。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な関数は、環境内のラウドスピーカーのそれぞれの位置に少なくとも部分的に基づいていてもよい。
【0179】
方法1700のいくつかの例は、ラウドスピーカー仕様情報を受領することに関わる。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な関数は、周波数応答、再生レベル限界、または一つまたは複数のラウドスピーカー・ダイナミクス処理アルゴリズムのパラメータのうちの一つまたは複数を含みうる、各ラウドスピーカーの能力に少なくとも部分的に基づいていてもよい。
【0180】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な関数は、各ラウドスピーカーから他のラウドスピーカーへの音響伝達の測定値または推定値に少なくとも部分的に基づいていてもよい。代替的または追加的に、前記一つまたは複数の追加的な動的に構成可能な関数は、環境内の一または複数の人々の聴取者またはスピーカー位置に少なくとも部分的に基づいていてもよい。代替的または追加的に、前記一つまたは複数の追加的な動的に構成可能な関数は、各ラウドスピーカーから聴取者またはスピーカー位置への音響伝達の測定値または推定値に少なくとも部分的に基づいていてもよい。音響伝達の推定は、たとえば、各ラウドスピーカーと聴取者またはスピーカー位置との間に存在しうる壁、家具または他の物体に少なくとも部分的に基づいていてもよい。
【0181】
代替的または追加的に、前記一つまたは複数の追加的な動的に構成可能な関数は、環境内の一つまたは複数の非ラウドスピーカー・オブジェクトまたはランドマークのオブジェクト位置に少なくとも部分的に基づいていてもよい。いくつかのそのような実装では、前記一つまたは複数の追加的な動的に構成可能な関数は、各ラウドスピーカーからオブジェクト位置またはランドマーク位置への音響伝達の測定値または推定値に少なくとも部分的に基づいていてもよい。
【0182】
柔軟なレンダリングを実装するために、一つまたは複数の適切に定義された追加的なコスト項を使用することによって、多数の新しい、有用な挙動が達成されうる。以下に列挙されるすべての例示的な挙動は、望ましくないと考えられるある種の条件下のある種のラウドスピーカーにペナルティを科すことに関してキャストされる。最終的な結果は、これらのラウドスピーカーが、オーディオ信号のセットの空間的レンダリングにおいて、より少なくアクティブ化されることである。これらの場合の多くにおいて、空間的レンダリングに対する任意の修正とは独立して、望ましくないラウドスピーカーを単に弱めることを考えてもよいが、そのような戦略は、オーディオ・コンテンツの全体的なバランスを有意に劣化させうる。たとえば、ミックスのある種の成分が完全に聞こえなくなることがある。一方、開示される実施形態では、これらのペナルティをレンダリングのコア最適化に統合することにより、レンダリングが適応されて、残りのペナルティがより少ないスピーカーを用いた可能な限り最良の空間的レンダリングを実行することが許容される。これは、ずっとエレガントで、適応可能で、効果的な解決策である。
【0183】
使用事例の例は、以下を含むが、これらに限定されない。
●聴取エリアのまわりに、よりバランスのとれた空間的提示を提供する。
○空間的オーディオは、意図された聴取エリアからほぼ同じ距離にある諸ラウドスピーカーにわたって最もよく提示されることがわかっている。聴取エリアに対するラウドスピーカーの平均距離よりも著しく近いまたは離れているラウドスピーカーがペナルティを科され、よって、それらのアクティブ化を低減するようにコストが構築されてもよい。
【0184】
●聴取者または話者から離れる方向または近づく方向にオーディオを動かす。
○システムのユーザーが、システムの、またはシステムに関連付けられたスマート音声アシスタントに話しかけようと試みている場合、話者により近いラウドスピーカーにペナルティを科すコストを生成することが有益でありうる。このようにして、これらのラウドスピーカーは、より少なくアクティブ化され、それらの関連付けられたマイクロフォンが話者をより良好に聞くことを許容する。
○聴取空間における他の人にとっての再生レベルを最小化する、単一の聴取者のためのより親密な体験を提供するために、聴取者の位置から遠いスピーカーが、重くペナルティを科されてもよく、それにより、聴取者に最も近い諸スピーカーのみが最も著しくアクティブ化される。
【0185】
●ランドマーク、ゾーン、またはエリアから離れる方向または近づく方向にオーディオを動かす。
○聴取空間の近傍におけるある種の位置、たとえば乳児の部屋、乳児のベッド、オフィス、読書エリア、学習エリア等のようが、敏感であると考えられてもよい。
○あるいはまた、上記と同じ場合(または類似の場合)について、特にスピーカーのうちの1つ(取り付けられたまたは関連付けられたマイクロフォンを有する)が乳児の部屋自体の中に存在する場合、スピーカーのシステムは、各スピーカーから乳児の部屋への音響伝達の測定値を生成してもよい。この場合、乳児の部屋へのスピーカーの物理的近接を使用するのではなく、その部屋の中への測定された音響伝達が高いスピーカーの使用にペナルティを科すコストが構築されうる。および/または
【0186】
●スピーカーの能力の最適な使用。
○異なるラウドスピーカーの能力は、著しく異なることがある。たとえば、ある人気のスマートスピーカーは、制限された低周波数能力をもつ単一の1.6インチ・フルレンジ・ドライバーのみを含む。一方、別のスマートスピーカーは、ずっと能力の高い3インチ・ウーファーを含む。これらの能力は、一般に、スピーカーの周波数応答に反映され、よって、スピーカーに関連する応答のセットは、コスト項において利用されうる。特定の周波数では、周波数応答によって測定されるように、他のスピーカーに比して能力が低いスピーカーは、ペナルティを科され、したがって、より低い程度にアクティブ化されうる。いくつかの実装では、そのような周波数応答値はスマートラウドスピーカーに記憶され、次いで、柔軟レンダリングを最適化することを担う計算ユニットに報告されうる。
【0187】
○多くのスピーカーは、それぞれ異なる周波数範囲を再生することを受け持つ2つ以上のドライバーを含む。たとえば、ある人気のスマートスピーカーは、低周波数用のウーファーと高周波数用のツイーターとを含む2ウェイ設計である。典型的には、そのようなスピーカーは、フルレンジ再生オーディオ信号を適切な周波数範囲に分割し、それぞれのドライバーに送信するためのクロスオーバー回路を含む。代替的に、そのようなスピーカーは、各個別のドライバーへの再生アクセス、ならびに周波数応答などの各個別のドライバーの能力についての情報を柔軟レンダラーに提供しうる。すぐ上で説明したようなコスト項を適用することによって、いくつかの例では、柔軟レンダラーは、異なる周波数におけるそれらの相対的能力に基づいて、2つのドライバー間のクロスオーバーを自動的に構築しうる。
【0188】
○周波数応答の上述の例示的な使用は、スピーカーの本来的な能力に焦点を当てているが、聴取環境に置かれたときのスピーカーの能力を正確に反映しないことがある。ある種の場合には、意図された聴取位置において測定されたスピーカーの周波数応答は、何らかの較正手順を通じて利用可能でありうる。そのような測定値は、スピーカーの使用をより良く最適化するために、事前計算された応答の代わりに使用されうる。たとえば、あるスピーカーは、特定の周波数では本来的に非常に能力が高いが、その配置(たとえば、壁または家具の背後)のため、意図された聴取位置において非常に制限された応答を生成することがありうる。この応答を捕捉し、適切なコスト項に供給される測定値であれば、そのようなスピーカーの有意なアクティブ化を防止することができる。
【0189】
○周波数応答は、ラウドスピーカーの再生能力の一側面にすぎない。多くの小型ラウドスピーカーは、特に低周波数については、再生レベルが増加するにつれて、歪み始め、次いで、そのエクスカーション限界に達する。そのような歪みを低減するために、多くのラウドスピーカーは、再生レベルを、周波数にわたって可変でありうるいくつかの限界閾値未満に制約するダイナミクス処理を実装する。あるスピーカーがこれらの閾値に近いかまたは閾値にあるが、柔軟レンダリングに参加している他のスピーカーがそうではない場合、限界スピーカーにおける信号レベルを低減し、このエネルギーを他のより負荷の少ないスピーカーに回すことは理にかなっている。そのような挙動は、いくつかの実施形態によれば、関連するコスト項を適切に構成することによって自動的に達成されうる。そのようなコスト項は、以下の一つまたは複数を含むことができる。
【0190】
■ラウドスピーカーの限界閾値に関連してグローバル再生ボリュームを監視する。たとえば、ボリューム・レベルがその限界閾値に近いラウドスピーカーほど、大きなペナルティを科されてもよい。
■可能性としては周波数にわたって変化する動的信号レベルを、やはり可能性としては周波数にわたって変化するスピーカー限界閾値との関係において監視すること。たとえば、監視された信号レベルがその限界閾値に近いラウドスピーカーほど、より大きなペナルティを科されてもよい。
■制限利得などの、ラウドスピーカーのダイナミクス処理のパラメータを直接監視する。いくつかのそのような例では、パラメータがより強い制限を示すラウドスピーカーほど、より大きなペナルティを科されてもよい。
■増幅器によってラウドスピーカーに送達される実際の瞬時電圧、電流、および電力を監視して、ラウドスピーカーが線形範囲で動作しているかどうかを判定する。たとえば、低い線形性で動作しているラウドスピーカーほど、より大きなペナルティを科されてもよい。
【0191】
○統合されたマイクロフォンおよび対話型音声アシスタントを有するスマートスピーカーは、典型的には、録音マイクロフォンによってピックアップされる、スピーカーから再生されるオーディオ信号のレベルを低減するために、何らかのタイプのエコー消去を採用する。この低減が大きいほど、スピーカーが空間内の話者を聞き、理解する可能性が高くなる。エコーキャンセラーの残差が一貫して高い場合、これは、エコー経路の予測が困難になる非線形領域にスピーカーが駆動されつつあることの指標でありうる。そのような場合、信号エネルギーをそのスピーカーから逸らすことは理にかなっていることがあり、よって、エコーキャンセラー性能を考慮に入れるコスト項が有益でありうる。そのようなコスト項は、その関連するエコーキャンセラーが貧弱に機能しているスピーカーに対して高いコストを割り当ててもよい。
【0192】
○複数のラウドスピーカーにわたって空間的オーディオをレンダリングするときに予測可能な定位を達成するために、ラウドスピーカーのセットにわたる再生が時間にわたって合理的に同期されることが一般に要求される。有線ラウドスピーカーについてはこれは与えられているが、多数の無線ラウドスピーカーでは、同期は困難であり、最終結果が可変であることがある。そのような場合、各ラウドスピーカーが、ターゲットとのその相対的な同期の程度を報告することが可能でありえ、次いで、この程度は、同期コスト項に入りうる。いくつかのそのような例では、より低い同期の程度をもつラウドスピーカーは、より大きなペナルティを科され、よってレンダリングから除外されてもよい。さらに、たとえば拡散的なまたは非方向性であることが意図されたオーディオ・ミックスの成分など、あるタイプのオーディオ信号についは緊密な同期は要求されないことがある。いくつかの実装では、成分は、メタデータを用いてそのようにタグ付けされてもよく、同期コスト項は、ペナルティが低減されるように修正されうる。
【0193】
次に、諸実施形態の追加的な例を説明する。式25aおよび25bで定義された近接性コストと同様に、新しいコスト関数項Cj(g,{{^o},{^si},{^e}}j)のそれぞれを、たとえば次のように、スピーカー・アクティブ化の二乗された絶対値の重み付けされた和として表現することが便利であることもある。
【数27】
ここで、Wjは、項jについてスピーカーiをアクティブ化することに関連するコストを記述する重みwij=wij({{^o},{^si},{^e}}j)の対角行列である:
【数28】
【0194】
式20bは、上記の式3に対応する。
【0195】
式20aおよび20bを、式15で与えられたCMAPおよびFVコスト関数の行列二次形式バージョンと組み合わせることにより、式19に与えられる(いくつかの実施形態の)一般的な拡張されたコスト関数の潜在的に有益な実装が与えられる。
【数29】
【0196】
式21は、上記の式2に対応する。よって、上記の議論は、式2の導出ならびに式21の導出を説明する。
【0197】
新しいコスト関数項のこの定義では、全体的なコスト関数は、行列二次形式のままであり、アクティブ化の最適なセットgoptは、式21の微分を通じて見出すことができ、下記が求められる。
【数30】
【0198】
重み項wijのそれぞれを、ラウドスピーカーのそれぞれについての所与の連続的なペナルティ値pij=pij({{^o},{^si},{^e}}j)の関数として考えることが有用である。ある例示的実施形態では、このペナルティ値は、(レンダリングされる)オブジェクトから、考慮されるラウドスピーカーまでの距離である。別の例示的実施形態では、このペナルティ値は、所与のラウドスピーカーがいくつかの周波数を再生することができないことを表す。このペナルティ値に基づいて、重み項wijは、次のようにパラメータ化されることができる。
【数31】
【0199】
ここで、αjは、(重み項のグローバル強度を考慮に入れる)前因子を表し、τjは、ペナルティ閾値(そのあたりまたはそれを超えるところで重み項が有意になる)を表し、fj(x)は単調増加関数を表す。たとえばfj(x)=xβjでは、重み項は次の形をもつ:
【数32】
ここでαj、βj、τjは、それぞれペナルティのグローバル強度、ペナルティの始まりの急激さ、およびペナルティの広がりを示すチューニング可能なパラメータである。これらのチューニング可能な値を設定する際には、コスト項Cjの、任意の他の追加的なコスト項ならびにCspatialおよびCproximityに対する相対的な効果が、所望される帰結を達成するために適切であるように注意を払うべきである。たとえば、経験則として、特定のペナルティが他のペナルティよりも明らかに優勢であることを望む場合、その強度αjを次に大きいペナルティ強度よりも約10倍大きく設定することが適切でありうる。
【0200】
すべてのラウドスピーカーがペナルティを科される場合、後処理においてすべての重み項から最小ペナルティを減算して、少なくとも1つのスピーカーがペナルティを科されないようにすることがしばしば便利である。
【数33】
【0201】
上述のように、本明細書に記載された新しいコスト関数項(および他の実施形態に従って用いられる同様の新しいコスト関数項)を使用して実現されうる多くの可能な使用事例がある。次に、3つの例、すなわち、聴取者または話者に向かってオーディオを動かすこと、聴取者または話者から離れるようにオーディオを動かすこと、およびランドマークから離れるようにオーディオを動かすことを用いて、より具体的な詳細を説明する。
【0202】
第1の例では、本明細書で「引力」と呼ばれるものが、オーディオをある位置のほうに引きつけるために使用される。該位置は、いくつかの例では、聴取者または話者の位置、ランドマーク位置、家具位置などでありうる。本明細書では、この位置を「引力位置」または「アトラクター位置」と呼ぶことがある。この例によれば、重みwijは、i番目のスピーカーの、固定されたアトラクター位置ljからの距離によって与えられる連続的なペナルティ値pijおよびすべてのスピーカーにわたるこれらの距離の最大値によって与えられる閾値τjをもつ式17の形をとる。
【数34】
【0203】
聴取者または話者に向けてオーディオを「引き寄せる」使用事例を例示するために、具体的に、αj=20、βj=3とし、ljを、180度の聴取者/話者位置(プロットの下部中央)に対応するベクトルに設定する。αj、βj、およびljのこれらの値は単に例である。いくつかの実装では、αjは、1~100の範囲であってよく、βjは、1~25の範囲であってもよい。図18は、ある例示的実施形態におけるスピーカー・アクティブ化のグラフである。この例では、図18は、スピーカー・アクティブ化1505b、1510b、1515b、1520b、および1525bを示し、これらは、図15および図16からの同じスピーカー位置についてのコスト関数にwijによって表される引力が追加されたものに対する最適解を含む。図19は、ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。この例では、図19は、多数の可能なオブジェクト角度についての対応する理想的なオブジェクト位置1630bと、それらのオブジェクトについての対応する実際のレンダリング位置1635bを、点線1640bによって理想的なオブジェクト位置1630bに接続したものとを示す。実際のレンダリング位置1635bの固定位置ljに向かう斜めの配向は、コスト関数に対する最適解に対するアトラクター重み付けの影響を示す。
【0204】
第2および第3の例では、オーディオをある位置から「押しやる」ために「反発力」が使用される。該位置は、人の位置(たとえば聴取者位置、話者位置など)または別の位置、たとえばランドマーク位置、家具位置などであってもよい。いくつかの例では、反発力は、オーディオを、オフィスエリア、読書エリア、ベッドまたは寝室エリア(たとえば、乳児のベッドまたは寝室)などの聴取環境のエリアまたはゾーンから押しやるために使用されうる。いくつかのそのような例によれば、特定の位置がゾーンまたはエリアを表すものとして使用されうる。たとえば、赤ん坊のベッドを表す位置は、赤ん坊の頭部の推定された位置、赤ん坊に対応する推定された音源位置などであってもよい。前記位置は、本明細書では「反発力位置」または「反発位置」と呼ばれることがある。本明細書で使用されるところでは、「反発力」は、反発力位置により近い近接において、相対的により低いラウドスピーカー・アクティブ化を優先する因子である。この例によれば、式26aおよび26bにおける引力と同様に、固定した反発位置ljに関してpijおよびτjを定義する。
【数35】
【0205】
聴取者または話者からオーディオを押しやる使用事例を例示するために、一例では、具体的に、αj=5、βj=2とし、ljを、180度の聴取者/話者位置(プロットの下部中央)に対応するベクトルに設定してもよい。αj、βj、およびljのこれらの値は単に例である。上記のように、いくつかの例では、αjは、1~100の範囲であってよく、βjは、1~25の範囲であってもよい。図20は、ある例示的実施形態におけるスピーカー・アクティブ化のグラフである。この例では、図20は、スピーカー・アクティブ化1505c、1510c、1515c、1520c、および1525cを示し、これらは、前の図と同じスピーカー位置についてのコスト関数にwijによって表される反発力が追加されたものに対する最適解を含む。図21は、ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。この例では、図21は、多数の可能なオブジェクト角度についての理想的なオブジェクト位置1630cと、それらのオブジェクトについての対応する実際のレンダリング位置1635cを、点線1640cによって理想的なオブジェクト位置1630cに接続したものとを示す。実際のレンダリング位置1635cの固定位置ljから離れる斜めの配向は、コスト関数に対する最適解に対する反発重み付けの影響を示す。
【0206】
第3の例示的な使用事例は、眠っている赤ん坊の部屋へのドアなどの音響的に敏感なランドマークからオーディオを「押しやる」ことである。最後の例と同様に、ljを、180度のドア位置(プロットの下部中央)に対応するベクトルに設定する。より強い反発力を達成し、音場を完全に主要な聴取空間の前方に傾斜させるために、αj=20、βj=5と設定する。図22は、ある例示的実施形態におけるスピーカー・アクティブ化のグラフである。この例においても、図22は、スピーカー・アクティブ化1505d、1510d、1515d、1520dおよび1525dを示し、これらは、同じスピーカー位置のセットに、より強い反発力を追加した場合に対する最適解を含む。図23は、ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。ここでもまた、この例では、図23は、多数の可能なオブジェクト角度についての理想的なオブジェクト位置1630dと、それらのオブジェクトについての対応する実際のレンダリング位置1635dを、点線1640dによって理想的なオブジェクト位置1630dに接続したものとを示す。実際のレンダリング位置1635dの斜めの配向は、コスト関数への最適解に対する、より強い反発重み付けの影響を示す。
【0207】
いくつかの開示された実装の側面は、一つまたは複数の開示された方法を実行するように構成された(たとえば、プログラムされた)システムまたはデバイスと、一つまたは複数の開示された方法またはそのステップを実装するためのコードを記憶する有形のコンピュータ可読媒体(たとえば、ディスク)とを含む。たとえば、システムは、一つまたは複数の開示された方法またはそのステップを含む、データに対する多様な動作のいずれかを実行するように、ソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであるか、またはそれを含むことができる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して一つまたは複数の開示された方法(またはそのステップ)を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムとを含むコンピュータ・システムであるか、またはそれを含みうる。
【0208】
いくつかの開示される実施形態は、一つまたは複数の開示される方法の実行を含む、オーディオ信号(複数可)に対して必要な処理を実行するように構成される(たとえば、プログラムされる、および他の仕方で構成される)、構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装される。あるいはまた、いくつかの実施形態(またはその要素)は、一つまたは複数の開示された方法またはそのステップを含む多様な動作のいずれかを実行するように、ソフトウェアまたはファームウェアでプログラムされ、および/または他の仕方で構成された汎用プロセッサ(たとえば、入力装置およびメモリを含みうるパーソナルコンピュータ(PC)または他のコンピュータ・システムまたはマイクロプロセッサ)として実装されうる。あるいはまた、いくつかの開示される実施形態の要素は、一つまたは複数の開示される方法またはそのステップを実行するように構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムはまた、他の要素(たとえば、一つまたは複数のラウドスピーカーおよび/または一つまたは複数のマイクロフォン)をも含む。一つまたは複数の開示された方法またはそのステップを実行するように構成された汎用プロセッサは、典型的には、入力デバイス(たとえば、マウスおよび/またはキーボード)、メモリ、および表示デバイスに結合される。
【0209】
いくつかの開示された実装の別の側面は、一つまたは複数の開示された方法またはそのステップの任意の実施形態を実行するためのコード(たとえば、実行するように実行可能なコーダ)を記憶するコンピュータ可読媒体(たとえば、ディスクまたは他の有形な記憶媒体)である。
【0210】
個別的な実施形態および用途が本明細書に記載されているが、本明細書に記載され、特許請求される素材の範囲から逸脱することなく、本明細書に記載される実施形態および用途に対する多くの変形が可能であることは、当業者には明らかであろう。ある種の施形態を示し、説明してきたが、本開示は、説明し、示した特定の実施形態、または説明した特定の方法に限定されるものではないことを理解されたい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13A
図13B
図13C
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
【国際調査報告】