(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-29
(54)【発明の名称】複数のアクティブ化基準をもつ複数のスピーカーでのオーディオのレンダリング
(51)【国際特許分類】
H04R 3/12 20060101AFI20220921BHJP
H04S 7/00 20060101ALI20220921BHJP
【FI】
H04R3/12
H04S7/00 320
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022505319
(86)(22)【出願日】2020-07-25
(85)【翻訳文提出日】2022-01-25
(86)【国際出願番号】 US2020043631
(87)【国際公開番号】W WO2021021682
(87)【国際公開日】2021-02-04
(32)【優先日】2019-07-30
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2020-02-07
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-06-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ゼーフェルト,アラン ジェイ.
(72)【発明者】
【氏名】ランドー,ジョシュア ビー.
(72)【発明者】
【氏名】アルテアガ,ダニエル
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162AA07
5D162AA13
5D162CA26
5D162CD01
5D162CD22
5D220AA05
5D220AA12
5D220CC00
(57)【要約】
2つ以上のスピーカーによる再生のためにオーディオをレンダリングする方法が開示される。前記オーディオは一つまたは複数のオーディオ信号を含み、各オーディオ信号は、関連付けられた意図される知覚される空間位置をもつ。スピーカーの相対的アクティブ化は、それらのスピーカー上で再生されるときの前記オーディオ信号の知覚される空間位置のモデル、前記オーディオ信号の意図される知覚される空間位置の、前記スピーカーの位置への近さ、および一つまたは複数の追加的な動的に構成可能な機能のコスト関数であってもよい。該動的に構成可能な機能は、前記オーディオ信号の少なくとも一つまたは複数の属性、スピーカーの前記集合の一つまたは複数の属性、および/または一つまたは複数の外部入力に依存する一つまたは複数の追加的な動的に構成可能な機能に基づいていてもよい。
【特許請求の範囲】
【請求項1】
オーディオ処理方法であって:
制御システムによって、インターフェース・システムを介して、オーディオ・データを受領する段階であって、前記オーディオ・データは、一つまたは複数のオーディオ信号および関連する空間データを含み、前記空間データは、オーディオ信号に対応する意図された知覚される空間位置を示す、段階と;
前記制御システムによって、前記オーディオ・データを、環境の一組のラウドスピーカーを介した再生のためにレンダリングして、レンダリングされたオーディオ信号を生成する段階であって、前記オーディオ・データに含まれる前記一つまたは複数のオーディオ信号のそれぞれをレンダリングすることは、コストを最適化することによって、環境中の一組のラウドスピーカーの相対的なアクティブ化を決定することを含み、該コストは:
前記環境における前記一組のラウドスピーカーで再生されたときの、再生された前記オーディオ信号の知覚される空間位置のモデル;
前記オーディオ信号の意図された知覚される空間位置の、前記一組のラウドスピーカーの各ラウドスピーカーの位置への近接性の指標;および
一つまたは複数の追加的な動的に構成可能な機能の関数であり、前記一つまたは複数の追加的な動的に構成可能な機能は:一または複数の聴取者へのラウドスピーカーの近接性;引力位置へのラウドスピーカーの近接性であって、引力は、引力位置により近いラウドスピーカーの、相対的により高いアクティブ化を優遇する因子である、近接性;反発力位置へのラウドスピーカーの近接性であって、反発力は、反発力位置により近いラウドスピーカーの、相対的により低いアクティブ化を優遇する因子である、近接性;各ラウドスピーカーの、環境中の他のラウドスピーカーに比した能力;前記ラウドスピーカーの、他のラウドスピーカーに対する同期;ウェイクワード性能;またはエコー・キャンセラ性能のうちの一つまたは複数に基づく、段階と;
前記インターフェース・システムを介して、レンダリングされたオーディオ信号を前記環境の前記一組のラウドスピーカーの少なくともいくつかのラウドスピーカーに提供する段階とを含む、
オーディオ処理方法。
【請求項2】
知覚される空間位置の前記モデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成する、請求項1に記載のオーディオ処理方法。
【請求項3】
知覚される空間位置の前記モデルは、一組のラウドスピーカーから再生されるオーディオ信号の前記知覚される空間位置を、前記一組のラウドスピーカーの位置に、ラウドスピーカーの関連付けられたアクティブ化利得によって重み付けしたものの質量中心に置く、請求項1に記載のオーディオ処理方法。
【請求項4】
知覚される空間位置の前記モデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答をも生成する、請求項3に記載のオーディオ処理方法。
【請求項5】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のレベルに基づく、請求項1ないし4のうちいずれか一項に記載のオーディオ処理方法。
【請求項6】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のスペクトルに基づく、請求項1ないし5のうちいずれか一項に記載のオーディオ処理方法。
【請求項7】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記環境における各ラウドスピーカーの位置に基づく、請求項1ないし6のうちいずれか一項に記載のオーディオ処理方法。
【請求項8】
各ラウドスピーカーの能力は、周波数応答、再生レベル限界、または一つまたは複数のラウドスピーカー・ダイナミクス処理アルゴリズムのパラメータのうちの一つまたは複数を含む、請求項1ないし7のうちいずれか一項に記載のオーディオ処理方法。
【請求項9】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから他のラウドスピーカーへの音響伝達の測定または推定に基づく、請求項1ないし8のうちいずれか一項に記載のオーディオ処理方法。
【請求項10】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記環境における一または複数の人の位置に基づく、請求項1ないし9のうちいずれか一項に記載のオーディオ処理方法。
【請求項11】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから前記一または複数の人の位置への音響伝達の測定または推定に基づく、請求項10に記載のオーディオ処理方法。
【請求項12】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記環境における一つまたは複数の非ラウドスピーカー・オブジェクトのオブジェクト位置に基づく、請求項1ないし11のうちいずれか一項に記載のオーディオ処理方法。
【請求項13】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから前記オブジェクト位置への音響伝達の測定または推定に基づく、請求項12に記載のオーディオ処理方法。
【請求項14】
前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各スピーカーから前記環境の一つまたは複数のランドマーク、エリアまたはゾーンへの音響伝達の推定に基づく、請求項1ないし13のうちいずれか一項に記載のオーディオ処理方法。
【請求項15】
前記意図された知覚される空間位置は、チャネルベースのオーディオ・フォーマットのチャネルまたは位置メタデータのうちの少なくとも1つに対応する、請求項1ないし14のうちいずれか一項に記載のオーディオ処理方法。
【請求項16】
請求項1ないし15のうちいずれか一項に記載の方法を実行するように構成されたシステム。
【請求項17】
請求項1ないし15のうちいずれか一項に記載の方法を実行するように一つまたは複数の装置を制御するための命令を含むソフトウェアを記憶している一つまたは複数の非一時的な媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2020年2月7日に出願された米国仮特許出願第62/971,421号、2020年6月25日に出願された米国仮特許出願第62/705,410号、および2019年7月30日に出願されたスペイン特許出願第P201930702号の優先権を主張するものであり、各出願は、その全体が参照により本明細書に組み込まれる。
【0002】
技術分野
本開示は、スピーカーの集合の一部または全部のスピーカー(たとえば、各アクティブ化されたスピーカー)による再生のためにオーディオをレンダリングするためのシステムおよび方法に関する。
【背景技術】
【0003】
スマート・オーディオ装置を含むが、これに限定されないオーディオ装置は、広く配備されており、多くの家庭で一般的な機能となりつつある。オーディオ装置を制御するための既存のシステムおよび方法は利点を提供するが、改善されたシステムおよび方法が望ましいであろう。
【0004】
記法および名称
特許請求の範囲を含め、本開示全体を通じて、「スピーカー」および「ラウドスピーカー」は、単一のスピーカーフィードによって駆動される任意の放音トランスデューサ(またはトランスデューサの集合)を表すために同義で使用される。ヘッドフォンの典型的なセットは、2つのスピーカーを含む。
【0005】
特許請求の範囲を含め、本開示全体を通じて、信号またはデータ「に対して」動作を実行するという表現(たとえば、信号またはデータのフィルタリング、スケーリング、変換、または利得の適用)は、広い意味で使用され、信号またはデータに対して該動作を直接実行すること、または信号またはデータの処理されたバージョンに対して(たとえば、該動作の実行前に予備的なフィルタリングまたは前処理を受けた該信号のバージョンに対して)該動作を実行することを示す。
【0006】
特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、広い意味で装置、システム、またはサブシステムを示すために使用される。たとえば、デコーダを実装するサブシステムがデコーダ・システムと称されることがあり、そのようなサブシステムを含むシステム(たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、そのサブシステムが入力のうちのM個を生成し、他のX-M個の入力は外部ソースから受領されるシステム)もデコーダ・システムと称することもできる。
【0007】
特許請求の範囲を含む本開示全体を通じて、用語「プロセッサ」は、データ(たとえば、オーディオ、ビデオまたは他の画像データ)に対して動作を実行するために、プログラム可能なまたは他の仕方で(たとえば、ソフトウェアまたはファームウェアを用いて)構成可能なシステムまたは装置を示すために広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他の音声データに対してパイプライン処理を実行するようにプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットを含む。
【0008】
特許請求の範囲を含む本開示全体を通じて、用語「結合する」または「結合され」は、直接的または間接的接続を意味するために使用される。よって、第1の装置が第2の装置に結合する場合、その接続は、直接接続を通じて、または他の装置および接続を介した間接接続を通じてでありうる。
【0009】
本稿では、「スマート・オーディオ装置」という表現を、単一目的のオーディオ装置またはバーチャル・アシスタント(たとえば、接続されたバーチャル・アシスタント)のいずれかであるスマート装置を示すために使用する。単一目的のオーディオ装置は、少なくとも1つのマイクロフォンを含むまたはそれに結合された装置(たとえば、テレビまたは携帯電話)であり、大部分または主に単一目的を達成するように設計される。テレビは、典型的には、番組素材からオーディオを再生することができる(また、再生することができると考えられている)が、ほとんどの場合、現代のテレビは、何らかのオペレーティングシステムを実行しており、その上で、テレビ視聴のアプリケーションを含め、アプリケーションがローカルに動作する。同様に、携帯電話におけるオーディオ入出力は多くのことをするがあるが、これらは電話上で動作するアプリケーションによってサービスされる。この意味で、スピーカーおよびマイクロフォンを有する単一目的のオーディオ装置は、しばしば、スピーカーおよびマイクロフォンを直接使用するためのローカルなアプリケーションおよび/またはサービスを実行するように構成される。一部の単一目的のオーディオ装置は、あるゾーンまたはユーザーが構成設定したエリアでオーディオの再生を達成するために、グループ化するように構成されてもよい。
【0010】
バーチャル・アシスタント(たとえば、接続されたバーチャル・アシスタント)は、少なくとも1つのマイクロフォンを含むまたはそれに結合されている(そして任意的には、少なくとも1つのスピーカーをも含むまたはそれに結合されている)装置(たとえば、スマートスピーカーまたは音声アシスタント統合装置)であり、ある意味ではクラウドで可能にされる、または他の仕方でバーチャル・アシスタント自体の中または上には実装されていないアプリケーションのために複数の装置(そのバーチャル・アシスタントとは異なる)を利用する能力を提供することができる。バーチャル・アシスタントどうしは、時に、たとえば非常に離散的で、条件付きで定義された仕方で、協働することがある。たとえば、2以上のバーチャル・アシスタントは、そのうちの一つ、たとえば、ウェイクワードを聞いたことに最も自信があるバーチャル・アシスタントがそのワードに応答するという意味で、協働することができる。接続された装置は、一種のコンステレーションを形成することができ、これは、バーチャル・アシスタントであってもよい(またはそれを実装してもよい)1つのメイン・アプリケーションによって管理されてもよい。
【0011】
ここで、「ウェイクワード」とは、任意の音(たとえば、人間によって発声された単語、または何らかの他の音)を意味するために広義で使用され、スマート・オーディオ装置は、その音の検出(「聞く」)(スマート・オーディオ装置に含まれるかまたはそれに結合される少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを使用する)に応答して、覚醒するように構成される。この文脈において、「覚醒」とは、装置が音声コマンドを待つ(すなわち、音声コマンドがあるかどうか傾聴する)状態に入ることを表す。いくつかの事例では、本明細書において「ウェイクワード」と称されうるものは、複数の単語、たとえば、フレーズを含んでいてもよい。
【0012】
ここで、「ウェイクワード検出器」という表現は、リアルタイムの音声(たとえば、発話)特徴とトレーニングされたモデルとの間の整列を連続的に探すよう構成された装置(または装置を構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードが検出された確率が所定の閾値を超えることがウェイクワード検出器によって判別されるときは常に、ウェイクワード・イベントがトリガーされる。たとえば、閾値は、誤受理率と誤拒否率との間の良好な妥協を与えるように調整された所定の閾値であってもよい。ウェイクワード・イベントに続いて、装置は、それがコマンドを待ち受け、受け取ったコマンドをより大きな、より計算集約的な認識器に渡す状態(「覚醒した」状態または「注視」状態と呼ばれてもよい)にはいってもよい。
【発明の概要】
【課題を解決するための手段】
【0013】
いくつかの実施態様は、スマート・オーディオ装置の集合の少なくとも1つ(たとえば、全部または一部)のスマート・オーディオ装置による再生のため、またはスピーカーの集合の少なくとも1つ(たとえば、全部または一部)のスピーカーによる再生のためにオーディオをレンダリングするための方法である。レンダリングは、コスト関数の最小化を含んでいてもよく、コスト関数は、少なくとも1つの動的な(たとえば、動的に構成可能な)スピーカー・アクティブ化項を含む。アクティブ化ペナルティに動的に構成可能な項を含めることにより、多数の考えられている制御に応答して空間的レンダリングが修正されることが許容される。動的なスピーカー・アクティブ化項の例は、以下を含む(ただし、これらに限定されない):
・一または複数の聴取者へのスピーカーの近接性;
・引力または反発力に対するスピーカーの近接性;
・何らかの位置(たとえば、聴取者位置またはベビールーム)に関するスピーカーの可聴性;
・スピーカーの能力(周波数応答、歪み);
・他のスピーカーに対するスピーカーの同期;
・ウェイクワード性能;および/または
・エコー・キャンセラ性能。
【0014】
コスト関数(少なくとも1つの動的なスピーカー・アクティブ化項を含む)の最小化は、スピーカーのうち少なくとも1つのスピーカーの非アクティブ化(そのような各スピーカーが関連するオーディオ・コンテンツを再生しないという意味で)およびスピーカーのうちの少なくとも1つのスピーカーのアクティブ化(そのような各スピーカーがレンダリングされたオーディオ・コンテンツの少なくとも一部を再生するという意味で)を生じうる。動的なスピーカー・アクティブ化項は、多様な挙動の少なくとも1つを有効にしうる。かかる挙動は、特定のスマート・オーディオ装置から離れたオーディオの空間的提示を歪めて、そのマイクロフォンが話者をより良好に聞くことができるようにする、または該スマート・オーディオ装置のスピーカーから二次オーディオ・ストリームがより良好に聞こえるようにすることを含む。
【0015】
いくつかの開示された実装は、開示された方法の任意の実施形態またはそのステップを実行するように構成された(たとえば、プログラムされた)システムと、開示された方法の任意の実施形態またはそのステップを実行するためのコード(たとえば、実行するために実行可能なコード)を格納する、データの非一時的記憶(たとえば、ディスクまたは他の有形記憶媒体)を実装する有形の非一時的なコンピュータ読み取り可能媒体とを含んでいてもよい。たとえば、開示されるシステムの実施形態は、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであって、開示される方法の任意の実施形態またはそのステップを含む、データに対する多様な動作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または、他の仕方で構成されたものであってもよく、または、それを含んでいてもよい。そのような汎用プロセッサは、入力装置、メモリ、および、それに呈されたデータに応答して開示された方法の任意の実施形態(またはそのステップ)を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムを含むコンピュータシステムであってもよく、または、それを含んでいてもよい。
【0016】
本開示の少なくともいくつかの側面は、オーディオ処理方法などの方法を介して実装されうる。いくつかの事例では、諸方法は、少なくとも部分的には、本明細書に開示されたもののような制御システムによって実装されうる。いくつかのそのような方法は、制御システムによって、インターフェース・システムを介して、オーディオ・データを受領することに関わる。いくつかの例では、オーディオ・データは、一つまたは複数のオーディオ信号および関連する空間データを含む。いくつかの例によれば、空間データは、オーディオ信号に対応する意図された知覚される空間位置を示す。
【0017】
いくつかのそのような方法は、制御システムによって、環境のラウドスピーカーの集合を介した再生のために、前記オーディオ・データをレンダリングして、レンダリングされたオーディオ信号を生成することに関わる。いくつかの例では、オーディオ・データに含まれる一つまたは複数のオーディオ信号のそれぞれをレンダリングすることは、コストを最適化することによって、環境中の一組のラウドスピーカーの相対的なアクティブ化を決定することに関わり、該コストは、環境中の一組のラウドスピーカーで再生されたときの、再生されたオーディオ信号の知覚される空間位置のモデル;オーディオ信号の意図された知覚される空間位置の、前記一組のラウドスピーカーの各ラウドスピーカーの位置への近接性の指標;および、一つまたは複数の追加的な動的に構成可能な機能の関数である。
【0018】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、以下のうちの一つまたは複数に基づく:一または複数の聴取者へのラウドスピーカーの近接性;引力の位置へのラウドスピーカーの近接性、ここで、引力は、引力位置により近いラウドスピーカーの、相対的により高いアクティブ化を優遇する因子である;反発力の位置へのラウドスピーカーの近接性、ここで、反発力は、反発力位置により近いラウドスピーカーの、相対的により低いアクティブ化を優遇する因子である;各ラウドスピーカーの、環境中の他のラウドスピーカーに比した能力;ラウドスピーカーの、他のラウドスピーカーに対する同期;ウェイクワード性能;および/またはエコー・キャンセラ性能。
【0019】
いくつかのそのような方法は、インターフェース・システムを介して、レンダリングされたオーディオ信号を環境の前記一組のラウドスピーカーの少なくともいくつかのラウドスピーカーに提供することに関わる。いくつかのそのような方法は、レンダリングされたオーディオ信号の、前記一組のラウドスピーカーのうち少なくともいくつかのラウドスピーカーによる再生に関わる。
【0020】
いくつかの実装によれば、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成することができる。いくつかの例では、知覚される空間位置のモデルは、一組のラウドスピーカーから再生されるオーディオ信号の知覚される空間位置を、前記一組のラウドスピーカーの位置の、ラウドスピーカーの関連付けられたアクティブ化利得によって重み付けされた質量中心に置くことができる。いくつかのそのような事例では、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成することもできる。
【0021】
いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のレベルに基づくことができる。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のスペクトルに基づくことができる。
【0022】
いくつかの実装によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の各ラウドスピーカーの位置に基づくことができる。いくつかの事例では、各ラウドスピーカーの能力は、周波数応答、再生レベル限界、または一つまたは複数のラウドスピーカー・ダイナミクス処理アルゴリズムのパラメータのうちの一つまたは複数を含んでいてもよい。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから他のラウドスピーカーへの音響伝送の測定または推定に基づくことができる。
【0023】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一または複数の人の位置に基づくことができる。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから前記一または複数の人の位置への音響伝送の測定または推定に基づくことができる。
【0024】
いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一つまたは複数の非ラウドスピーカー・オブジェクトのオブジェクト位置に基づくことができる。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーからオブジェクト位置への音響伝送の測定または推定に基づくことができる。
【0025】
いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各スピーカーから環境の一つまたは複数のランドマーク、領域またはゾーンへの音響伝送の推定値に基づくことができる。いくつかの例によれば、意図された知覚される空間位置は、チャネルベースのオーディオ・フォーマットのチャネルまたは位置メタデータのうちの少なくとも1つに対応してもよい。
【0026】
本明細書に記載された動作、機能および/または方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数の装置によって実行されうる。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むが、それらに限定されない、本明細書に記載されたもののような一つまたは複数のメモリ装置を含んでいてもよい。よって、本開示に記載される主題のいくつかの革新的な側面は、その上にソフトウェアが記憶されている非一時的媒体において実装できる。
【0027】
たとえば、ソフトウェアは、制御システムによって、インターフェース・システムを介して、オーディオ・データを受領することに関わる方法を実行するよう、一つまたは複数の装置を制御するための命令を含むことができる。いくつかの例では、前記オーディオ・データは、一つまたは複数のオーディオ信号および関連する空間データを含む。いくつかの例によれば、前記空間データは、オーディオ信号に対応する意図された知覚される空間位置を示す。
【0028】
いくつかのそのような方法は、制御システムによって、前記オーディオ・データを、環境の一組のラウドスピーカーを介した再生のためにレンダリングして、レンダリングされたオーディオ信号を生成することに関わる。いくつかの例では、オーディオ・データに含まれる一つまたは複数のオーディオ信号のそれぞれをレンダリングすることは、コストを最適化することによって、環境中の一組のラウドスピーカーの相対的なアクティブ化を決定することに関わり、該コストは、環境中の一組のラウドスピーカーで再生されたときの、再生されたオーディオ信号の知覚される空間位置のモデル;オーディオ信号の意図された知覚される空間位置の、前記一組のラウドスピーカーの各ラウドスピーカーの位置への近接性の指標;および、一つまたは複数の追加的な動的に構成可能な機能の関数である。
【0029】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、以下のうちの一つまたは複数に基づく:一または複数の聴取者へのラウドスピーカーの近接性;引力の位置へのラウドスピーカーの近接性、ここで、引力は、引力位置により近いラウドスピーカーの、相対的により高いアクティブ化を優遇する因子である;反発力の位置へのラウドスピーカーの近接性、ここで、反発力は、反発力位置により近いラウドスピーカーの、相対的により低いアクティブ化を優遇する因子である;各ラウドスピーカーの、環境中の他のラウドスピーカーに比した能力;ラウドスピーカーの、他のラウドスピーカーに対する同期;ウェイクワード性能;および/またはエコー・キャンセラ性能。
【0030】
いくつかのそのような方法は、インターフェース・システムを介して、レンダリングされたオーディオ信号を環境の前記一組のラウドスピーカーの少なくともいくつかのラウドスピーカーに提供することに関わる。いくつかのそのような方法は、レンダリングされたオーディオ信号の、前記一組のラウドスピーカーのうち少なくともいくつかのラウドスピーカーによる再生に関わる。
【0031】
いくつかの実装によれば、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成することができる。いくつかの例では、知覚される空間位置のモデルは、一組のラウドスピーカーから再生されるオーディオ信号の知覚される空間位置を、前記一組のラウドスピーカーの位置に、ラウドスピーカーの関連付けられたアクティブ化利得によって重み付けしたものの質量中心に置くことができる。いくつかのそのような例では、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成することもできる。
【0032】
いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のレベルに基づくことができる。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のスペクトルに基づくことができる。
【0033】
いくつかの実装によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の各ラウドスピーカーの位置に基づくことができる。いくつかの事例では、各ラウドスピーカーの能力は、周波数応答、再生レベル限界、または一つまたは複数のラウドスピーカー・ダイナミクス処理アルゴリズムのパラメータのうちの一つまたは複数を含んでいてもよい。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから他のラウドスピーカーへの音響伝送の測定または推定に基づくことができる。
【0034】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一または複数の人の位置に基づくことができる。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから前記一または複数の人の位置への音響伝送の測定または推定に基づくことができる。
【0035】
いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一つまたは複数の非ラウドスピーカー・オブジェクトのオブジェクト位置に基づくことができる。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーからオブジェクト位置への音響伝送の測定または推定に基づくことができる。
【0036】
いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各スピーカーから環境の一つまたは複数のランドマーク、領域またはゾーンへの音響伝送の推定値に基づくことができる。いくつかの例によれば、意図された知覚される空間位置は、チャネルベースのオーディオ・フォーマットのチャネルまたは位置メタデータのうちの少なくとも1つに対応してもよい。
【0037】
本開示の少なくともいくつかの側面は、装置を開示して実装されてもよい。たとえば、一つまたは複数の装置が、少なくとも部分的に本明細書に開示される方法を実行することができてもよい。いくつかの実装では、装置は、インターフェース・システムおよび制御システムを含んでいてもよい。制御システムは、一つまたは複数の汎用の単一チップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラマブル論理装置、離散的ゲートまたはトランジスタ論理、離散的ハードウェアコンポーネント、またはそれらの組み合わせを含んでいてもよい。
【0038】
いくつかの実装では、制御システムは、本明細書に開示された方法の一つまたは複数を実行するために構成されてもよい。いくつかのそのような方法は、制御システムによって、インターフェース・システムを介して、オーディオ・データを受領することに関わってもよい。いくつかの例では、前記オーディオ・データは、一つまたは複数のオーディオ信号および関連する空間データを含む。いくつかの例によれば、前記空間データは、オーディオ信号に対応する意図された知覚される空間位置を示す。
【0039】
いくつかのそのような方法は、制御システムによって、前記オーディオ・データを、環境の一組のラウドスピーカーを介した再生のためにレンダリングして、レンダリングされたオーディオ信号を生成することに関わる。いくつかの例では、オーディオ・データに含まれる一つまたは複数のオーディオ信号のそれぞれをレンダリングすることは、コストを最適化することによって、環境中の一組のラウドスピーカーの相対的なアクティブ化を決定することに関わり、該コストは、環境中の一組のラウドスピーカーで再生されたときの、再生されたオーディオ信号の知覚される空間位置のモデル;オーディオ信号の意図された知覚される空間位置の、前記一組のラウドスピーカーの各ラウドスピーカーの位置への近接性の指標;および、一つまたは複数の追加的な動的に構成可能な機能の関数である。
【0040】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、以下のうちの一つまたは複数に基づく:一または複数の聴取者へのラウドスピーカーの近接性;引力の位置へのラウドスピーカーの近接性、ここで、引力は、引力位置により近いラウドスピーカーの、相対的により高いアクティブ化を優遇する因子である;反発力の位置へのラウドスピーカーの近接性、ここで、反発力は、反発力位置により近いラウドスピーカーの、相対的により低いアクティブ化を優遇する因子である;各ラウドスピーカーの、環境中の他のラウドスピーカーに比した能力;ラウドスピーカーの、他のラウドスピーカーに対する同期;ウェイクワード性能;および/またはエコー・キャンセラ性能。
【0041】
いくつかのそのような方法は、インターフェース・システムを介して、レンダリングされたオーディオ信号を環境の前記一組のラウドスピーカーの少なくともいくつかのラウドスピーカーに提供することに関わる。いくつかのそのような方法は、レンダリングされたオーディオ信号の、前記一組のラウドスピーカーのうち少なくともいくつかのラウドスピーカーによる再生に関わる。
【0042】
いくつかの実装によれば、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成することができる。いくつかの例では、知覚される空間位置のモデルは、一組のラウドスピーカーから再生されるオーディオ信号の知覚される空間位置を、前記一組のラウドスピーカーの位置に、ラウドスピーカーの関連付けられたアクティブ化利得によって重み付けしたものの質量中心に置くことができる。いくつかのそのような例では、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成することもできる。
【0043】
いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のレベルに基づくことができる。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のスペクトルに基づくことができる。
【0044】
いくつかの実装によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の各ラウドスピーカーの位置に基づくことができる。いくつかの事例では、各ラウドスピーカーの能力は、周波数応答、再生レベル限界、または一つまたは複数のラウドスピーカー・ダイナミクス処理アルゴリズムのパラメータのうちの一つまたは複数を含んでいてもよい。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから他のラウドスピーカーへの音響伝送の測定または推定に基づくことができる。
【0045】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一または複数の人の位置に基づくことができる。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから前記一または複数の人の位置への音響伝送の測定または推定に基づくことができる。
【0046】
いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一つまたは複数の非ラウドスピーカー・オブジェクトのオブジェクト位置に基づくことができる。いくつかのそのような例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーからオブジェクト位置への音響伝送の測定または推定に基づくことができる。
【0047】
いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各スピーカーから環境の一つまたは複数のランドマーク、領域またはゾーンへの音響伝送の推定値に基づくことができる。いくつかの例によれば、意図された知覚される空間位置は、チャネルベースのオーディオ・フォーマットのチャネルまたは位置メタデータのうちの少なくとも1つに対応してもよい。
【0048】
本明細書に記載される主題の一つまたは複数の実装の詳細は、添付の図面および以下の説明に記載される。他の特徴、側面、および利点は、明細書、図面、および特許請求の範囲から明白になるであろう。以下の図の相対的な寸法は、同縮尺に描かれていない場合があることに留意されたい。
【図面の簡単な説明】
【0049】
【
図1】スピーカー・アクティブ化およびオブジェクト・レンダリング位置の例示的なセットを示す図である。
【
図2】スピーカー・アクティブ化およびオブジェクト・レンダリング位置の例示的なセットを示す図である。
【
図3A】
図11または
図12に示されるような装置またはシステムによって実行されうる方法の一例を概説するフロー図である。
【
図3B】ある例示的実施形態におけるスピーカー・アクティブ化のグラフである。
【
図4】ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。
【
図5】ある例示的実施形態におけるスピーカー・アクティブ化のグラフである。
【
図6】ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。
【
図7】ある例示的実施形態におけるスピーカー・アクティブ化のグラフである。
【
図8】ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。
【
図9】ある例示的実施形態におけるスピーカー・アクティブ化を示す点のグラフである。
【
図10】ある例によるスピーカー・アクティブ化を示す点の間の三線形補間のグラフである。
【
図12】本開示のさまざまな側面を実装できる装置の構成要素の例を示すブロック図である。
【発明を実施するための形態】
【0050】
柔軟なレンダリングにより、任意の数の任意に配置されたスピーカー上で空間的オーディオがレンダリングされることが許容される。家庭におけるスマート・オーディオ装置(たとえば、スマートスピーカー)を含むがこれに限定されないオーディオ装置の広範な展開に鑑み、消費者製品がオーディオの柔軟なレンダリングと、そのようにレンダリングされたオーディオの再生とを実行することを許容する柔軟レンダリング(flexible rendering)技術を実現する必要がある。
【0051】
柔軟レンダリングを実現するために、いくつかの技術が開発されている。それらは、レンダリング問題をコスト関数最小化の問題とする。コスト関数は、レンダラーが達成しようとしている所望される空間的印象をモデル化する第1項と、スピーカーのアクティブ化にコストを割り当てる第2項の2つの項から構成される。今日まで、この第2項は、レンダリングされるオーディオの所望される空間位置に近接したスピーカーのみがアクティブ化される疎な解を作り出すことに焦点を当ててきた。
【0052】
消費者環境における空間的オーディオの再生は、典型的には、規定された位置に配置された所定数のラウドスピーカーに結びつけられてきた。たとえば、5.1および7.1サラウンドサウンドである。これらの場合、コンテンツは、関連するラウドスピーカーのために特にオーサリングされ、各ラウドスピーカーのために1つずつの離散的なチャネルとしてエンコードされる(たとえば、ドルビーデジタルまたはドルビーデジタルプラスなど)。より最近では、コンテンツと特定のラウドスピーカー位置との間のこの関連付けを断ち切る、没入型のオブジェクトベースの空間的オーディオ・フォーマット(ドルビー・アトモス)が導入されている。その代わりに、コンテンツは、個々のオーディオ・オブジェクトの集合として記述され、各オーディオ・オブジェクトは、三次元空間における前記オーディオ・オブジェクトの所望の知覚される位置を記述する、可能性としては時間変化するメタデータを有する。再生時に、コンテンツは、再生システム内のラウドスピーカーの数および位置に適合するレンダラーによってラウドスピーカー・フィードに変換される。しかしながら、そのようなレンダラーの多くは、一組のラウドスピーカーの位置を、一組の規定されたレイアウトのうちの1つ(たとえば、ドルビー・アトモスでは3.1.2、5.1.2、7.1.4、9.1.6など)に制約する。
【0053】
そのような制約されたレンダリングを越えて、任意の位置に配置された真に任意の数のラウドスピーカー上で、オブジェクトベースのオーディオが柔軟にレンダリングされることを許容する諸方法が開発されている。これらの方法は、レンダラーが、聴取空間におけるラウドスピーカーの数と物理的位置の知識を有することを必要とする。そのようなシステムが平均的な消費者にとって実用的であるためには、ラウドスピーカーを位置特定するための自動化された方法が望ましいであろう。そのような1つの方法は、可能性としてはラウドスピーカーと共位置の多数のマイクロフォンの使用に頼る。ラウドスピーカーを通じてオーディオ信号を再生し、マイクロフォンで録音することにより、各ラウドスピーカーとマイクロフォンとの間の距離が推定される。これらの距離から、ラウドスピーカーとマイクロフォンの両方の位置がその後、推定される。
【0054】
消費者空間におけるオブジェクトベースの空間的オーディオの導入と同時に、アマゾンエコーの一連の製品のような、いわゆる「スマートスピーカー」の急速な採用があった。これらの装置の絶大な人気は、無線接続性および統合された音声インターフェース(たとえば、AmazonのAlexa)によってもたらされるそれらの単純さおよび利便性に起因するが、これらの装置の音響能力は、特に空間的オーディオに関しては、一般に制限されてきた。ほとんどの場合、これらの装置はモノラル再生またはステレオ再生に制約される。しかしながら、前述の柔軟レンダリングおよび自動位置特定の技術を複数のオーケストレーションされたスマートスピーカーと組み合わせることにより、非常に洗練された空間的再生能力を有しており、それでいて消費者がセットアップするのがきわめて簡単なままであるシステムを与えうる。消費者は、無線接続性のため、スピーカーコードを走らせる必要なしに、どこであろうと便利なところに、望みのままに多数または少数のスピーカーを配置することができ、関連する柔軟レンダラーのためにスピーカーを自動的に位置特定するために組み込みのマイクロフォンが使用されることができる。
【0055】
従来の柔軟レンダリング・アルゴリズムは、可能な限り、特定の所望される知覚される空間印象を達成するように設計される。オーケストレーションされたスマートスピーカーのシステムでは、時に、この空間的印象の維持は、最も重要なまたは所望される目的ではないことがありうる。たとえば、誰かが統合された音声アシスタントに同時に話しかけようとしている場合、録音の信号対雑音比を増加させるために、ある種のマイクロフォン近くのスピーカーでの相対的再生レベルを低下させるように、空間的レンダリングを一時的に変更することが望ましいことがありうる。本明細書に記載されるいくつかの実施形態は、たとえば一つまたは複数の追加的な目的を達成するために、空間的レンダリングに対するそのような動的な修正を許容するための、既存の柔軟レンダリング方法に対する修正として実装されてもよい。
【0056】
既存の柔軟なレンダリング技法は、質量中心振幅パン(Center of Mass Amplitude Panning、CMAP)および柔軟仮想化(Flexible Virtualization、FV)を含む。高レベルからは、これらの技法はいずれも、それぞれが関連する所望の知覚される空間位置をもつ一つまたは複数のオーディオ信号の集合を、2つ以上のスピーカーの集合を通じた再生のためにレンダリングする。ここで、該集合のスピーカーの相対的アクティブ化は、スピーカーを通じて再生される前記オーディオ信号の知覚される空間位置のモデルと、オーディオ信号の所望される知覚される空間位置の、それらのスピーカーの位置への近接性の関数である。モデルは、オーディオ信号が、その意図される空間位置の近くで聴取者によって聞かれることを保証し、近接性項が、この空間的印象を達成するためにどのスピーカーが使用されるかを制御する。特に、近接性項は、オーディオ信号の所望の知覚される空間位置に近いスピーカーのアクティブ化を優遇する。
【0057】
CMAPとFVの両方について、この機能的関係は、空間的側面について1つ、近接性について1つの2つの項の和として書かれたコスト関数:
【数1】
から便利に導出される。ここで、集合
【数2】
はM個のラウドスピーカーの集合の位置を表し、ベクトルo〔→付きのo〕はオーディオ信号の所望される知覚される空間位置を示し、gは、スピーカー・アクティブ化のM次元ベクトルを示す。CMAPについては、ベクトル中の各アクティブ化(activation)は、スピーカー当たりの利得を表し、FVについては、各アクティブ化は、フィルタを表す(この第2の場合では、gは、特定の周波数における複素値のベクトルと等価とみなすことができ、フィルタを形成するために複数の周波数にわたって異なるgが計算される)。アクティブ化の最適ベクトルは、アクティブ化の間のコスト関数を最小化することによって見出される:
【数3】
【0058】
コスト関数のある種の定義では、g
optの成分間の相対的なレベルは適切であるが、上記の最小化から帰結する最適なアクティブ化の絶対的なレベルを制御することは難しい。この問題に対処するために、アクティブ化の絶対的なレベルが制御されるように、その後の正規化が実行されてもよい。たとえば、単位長さを有するためのベクトルの正規化が望ましいことがあり、これは、一般的に使用される、一定パワーのパン規則と同様である:
【数4】
【0059】
柔軟なレンダリング・アルゴリズムの正確な挙動は、コスト関数の2つの項C
spatialおよびC
proximityの具体的な構築によって支配される。CMAPについては、C
spatialは、ラウドスピーカーの集合から再生されるオーディオ信号の知覚される空間位置を、それらのラウドスピーカーの位置にそれらの関連するアクティブ化利得(ベクトルgの要素)によって重み付けしたものの質量中心に配置するモデルから導出される:
【数5】
次いで、式3は、所望のオーディオ位置とアクティブ化されたラウドスピーカーによって生成される位置との間の平方誤差を表す空間コストにされる:
【数6】
【0060】
FVでは、コスト関数の空間項は異なる仕方で定義される。ここでの目標は、聴取者の左耳と右耳におけるオーディオ・オブジェクト位置〔ベクトルo〕に対応するバイノーラル応答bを生成することである。概念的には、bは、フィルタの2×1ベクトル(各耳について1つのフィルタ)であるが、より便利には、特定の周波数における複素値の2×1ベクトルとして扱われる。特定の周波数でこの表現を続けると、所望されるバイノーラル応答が、オブジェクト位置によってインデックス付けされるHRTFインデックスの集合から取得されうる:
【数7】
【0061】
同時に、ラウドスピーカーによって聴取者の耳のところに生成された2×1のバイノーラル応答eは、2×Mの音響伝達行列Hに複素スピーカー・アクティブ化値のM×1ベクトルgを乗じたものとしてモデル化される:
【数8】
音響伝達行列Hは、聴取者位置に対するラウドスピーカー位置の集合
【数9】
に基づいてモデル化される。最後に、コスト関数の空間成分は、所望されるバイノーラル応答(式14)とラウドスピーカーによって生成される応答(式15)との間の平方誤差として定義される:
【数10】
【0062】
便利には、式4および7で定義されるCMAPおよびFVについてのコスト関数の空間項は、両方とも、スピーカー・アクティブ化gの関数として、行列二次形式に再編成できる:
【数11】
ここで、AはM×Mの正方行列、Bは1×Mのベクトル、Cはスカラーである。行列Aは階数2であり、よって、M>2の場合、空間誤差項がゼロに等しいくなるスピーカー・アクティブ化gが無限個存在する。コスト関数の第2項C
proximityを導入すると、この不定性が除去され、他の可能な解決策と比較して、知覚的に有益な特性を有する特定の解決策が得られる。CMAPおよびFVの両方について、C
proximityは、位置
【数12】
が所望のオーディオ信号位置
【数13】
から離れているスピーカーのアクティブ化が、位置が所望の位置に近いスピーカーのアクティブ化よりも大きくペナルティがかけらるように構築される。この構築は、所望されるオーディオ信号の位置に近接したスピーカーのみが顕著にアクティブ化される、疎なスピーカー・アクティブ化の最適な集合を与え、実際上は、スピーカーの集合のまわりの聴取者の動きに対して知覚的によりロバストであるオーディオ信号の空間的な再現をもたらす。
【0063】
この目的に向け、コスト関数の第2項C
proximityは、スピーカー・アクティブ化の絶対値の2乗の、距離で重み付けされた和として定義されうる。これは、次のように、行列形式で簡潔に表現される:
【数14】
ここで、Dは、所望されるオーディオ位置と各スピーカーとの間の距離ペナルティの対角行列であり:
【数15】
【0064】
距離ペナルティ関数は多くの形をとることができるが、次は有用なパラメータ化である。
【数16】
ここで、
【数17】
は、所望されるオーディオ位置とスピーカー位置との間のユークリッド距離であり、αおよびβは調整可能なパラメータである。パラメータαはペナルティのグローバルな強さを示し;d
0は距離ペナルティの空間的な範囲に対応し(約d
0の距離にある、またはさらに遠方に離れたラウドスピーカーがペナルティを受ける)、βは距離d
0でのペナルティ発生の突然性を説明する。
【0065】
式8と式9aで定義されたコスト関数の2つの項を組み合わせると、全体的なコスト関数が得られる。
【数18】
このコスト関数のgに関する微分を0とおき、gについて解くと、最適なスピーカー・アクティブ化解が得られる:
【数19】
【0066】
一般に、式11の最適解は、値が負であるスピーカー・アクティブ化を生じうる。柔軟レンダラーのCMAP構築については、そのような負のアクティブ化は望ましくないことがあり、よって、式(11)は、すべてのアクティブ化が正のままであるという条件のもとに、最小化されうる。
【0067】
図1および
図2は、スピーカー・アクティブ化およびオブジェクト・レンダリング位置の例示的なセットの例示的な集合を示す図である。これらの例では、スピーカー・アクティブ化およびオブジェクト・レンダリング位置は、4、64、165、-87、および-4度のスピーカー位置に対応する。
図1は、これらの特定のスピーカー位置についての式11に対する最適解を構成するスピーカー・アクティブ化105a、110a、115a、120aおよび125aを示す。
図2は、個々のスピーカー位置を、スピーカー・アクティブ化105a、110a、115a、120aおよび125aにそれぞれ対応するドット205、211、215、220および225としてプロットしたものである。
図2はまた、多数の可能なオブジェクト角度についての理想的なオブジェクト位置(言い換えれば、オーディオ・オブジェクトがレンダリングされるべき位置)をドット230aとして、それらのオブジェクトについての対応する実際のレンダリング位置を、点線240aによって理想的なオブジェクト位置に接続されたドット235aとして示している。
【0068】
あるクラスの実施形態は、複数の協調させられる(オーケストレーションされる)スマート・オーディオ装置のうちの少なくとも1つ(たとえば全部または一部)による再生のためにオーディオをレンダリングする方法に関わる。たとえば、ユーザーの家庭(におけるシステム)にある一組のスマート・オーディオ装置が、多様な同時使用事例を扱うためにオーケストレーションされてもよい。かかる使用事例は、スマート・オーディオ装置の全部または一部による(すなわち、全部または一部のスピーカーによる)再生のための、オーディオの(ある実施形態に従った)レンダリングを含む。システムとの多くの対話が考えられており、それはレンダリングに対する動的な修正を要求する。そのような修正は、必ずではないが、空間的忠実度に焦点を当てていてもよい。
【0069】
いくつかの実施形態は、スマート・オーディオ装置の集合の少なくとも1つ(たとえば、全部または一部)のスマート・オーディオ装置による再生のために(またはスピーカーの別の集合の少なくとも1つ(たとえば、全部または一部)のスピーカーによる再生のために)オーディオをレンダリングするための方法である。レンダリングは、コスト関数の最小化を含んでいてもよく、コスト関数は、少なくとも1つの動的なスピーカー・アクティブ化項を含む。そのような動的なスピーカー・アクティブ化項の例は、以下を含む(ただし、これらに限定されない):
・一または複数の聴取者へのスピーカーの近接性;
・引力または反発力に対するスピーカーの近接性;
・何らかの位置(たとえば、聴取者位置またはベビールーム)に関するスピーカーの可聴性;
・スピーカーの能力(周波数応答、歪み);
・他のスピーカーに対するスピーカーの同期;
・ウェイクワード性能;および
・エコー・キャンセラ性能。
【0070】
動的なスピーカー・アクティブ化項は、多様な挙動の少なくとも1つを有効にしうる。かかる挙動は、特定のスマート・オーディオ装置から離れたオーディオの空間的提示を歪めて、そのマイクロフォンが話者をより良好に聞くことができるようにする、または該スマート・オーディオ装置のスピーカーから二次オーディオ・ストリームがより良好に聞こえるようにすることを含む。
【0071】
いくつかの実施形態は、
複数の協調させられる(オーケストレーションされる)スマート・オーディオ装置のスピーカーによる再生のためのレンダリングを実装する。他の実施形態は、スピーカーの別の集合のスピーカー(単数または複数)による再生のためのレンダリングを実装する。
【0072】
柔軟レンダリング方法(いくつかの実施形態に従って実装される)をワイヤレススマートスピーカー(または他のスマート・オーディオ装置)の集合とペアリングすることにより、きわめて能力が高く、使いやすい空間オーディオ・レンダリング・システムを与えることができる。そのようなシステムとの相互作用を考えると、システムの使用中に生じうる他の目的のために最適化するために、空間的レンダリングに対する動的な修正が望ましいことがありうることが明らかになる。この目的を達成するために、あるクラスの実施形態は、既存の柔軟レンダリング・アルゴリズムを、レンダリングされるオーディオ信号の一つまたは複数の属性、スピーカーの集合、および/または他の外部入力に依存する一つまたは複数の追加的な動的に構成可能な機能を用いて、補強する。いくつかの実施形態によれば、式1で与えられる既存の柔軟レンダリングのコスト関数は、次のように、これらの一つまたは複数の追加の従属関係を用いて補強される。
【数20】
【0073】
式12において、項
【数21】
は、追加的なコスト項を表し、
【数22】
は、レンダリングされる(たとえば、オブジェクトベースのオーディオプログラムの)オーディオ信号の一つまたは複数の属性の集合を表し、
【数23】
は、それを通じてオーディオがレンダリングされるスピーカーの一つまたは複数の属性の集合を表し、
【数24】
は、一つまたは複数の追加的な外部入力を表す。各項
【数25】
は、
【数26】
によって表される、オーディオ信号、スピーカー、および/または外部入力の一つまたは複数の属性の組み合わせに関する、アクティブ化gの関数としてのコストを返す。集合
【数27】
が、少なくとも、
【数28】
のいずれかからの1つのみの要素を含むことが理解されるべきである。
【0074】
【数29】
の例は、以下を含むが、これらに限定されない:
・オーディオ信号の所望される知覚される空間位置;
・オーディオ信号のレベル(可能性としては時間変化する);および/または
・オーディオ信号のスペクトル(可能性としては時間変化する)。
【0075】
【数30】
の例は、以下を含むが、これらに限定されない:
・聴取スペース内のラウドスピーカーの位置;
・ラウドスピーカーの周波数応答;
・ラウドスピーカーの再生レベル制限;
・リミッタ利得などスピーカー内のダイナミクス処理アルゴリズムのパラメータ;
・各スピーカーから他のスピーカーへの音響伝達の測定または推定;
・スピーカー上のエコー・キャンセラ性能の尺度;および/または
・スピーカーの、互いとの相対的な同期。
【0076】
【数31】
の例は、以下を含むが、これらに限定されない:
・再生空間内の1人以上の聴取者または話者の位置;
・各ラウドスピーカーから聴取位置までの音響伝達の測定または推定;
・話者からラウドスピーカーの集合までの音響伝達の測定または推定;
・再生空間内の何らかの他のランドマークの位置;および/または
・各スピーカーから再生空間における何らかの他のランドマークへの音響伝達の測定または推定。
【0077】
式12で定義された新しいコスト関数を用いて、式2aおよび2bで前述したように、gに関する最小化および可能な事後正規化を通じて、アクティブ化の最適な集合を見つけることができる。
【0078】
図3Aは、
図11または
図12に示されるような装置またはシステムによって実施されうる方法の一例を概説するフロー図である。方法300のブロックは、本明細書に記載される他の方法と同様に、必ずしも示される順序で実施されるわけではない。さらに、そのような方法は、図示および/または記載されているよりも多いまたは少ないブロックを含んでいてもよい。方法300のブロックは、
図12に示される制御システム1210のような制御システムであってもよい(またはそれを含んでいてもよい)一つまたは複数の装置によって実行されてもよい。
【0079】
この実装では、ブロック305は、制御システムによって、インターフェース・システムを介して、オーディオ・データを受領することに関わる。この例では、オーディオ・データは、一つまたは複数のオーディオ信号および関連する空間データを含む。この実装によれば、空間データは、オーディオ信号に対応する意図された知覚される空間位置を示す。いくつかの事例において、意図された知覚される空間位置は、明示的であってもよく、たとえば、ドルビー・アトモス位置メタデータのような位置メタデータによって示されてもよい。他の事例では、意図された知覚される空間位置は暗黙的であってもよく、たとえば、意図された知覚される空間位置は、ドルビー5.1、ドルビー7.1、または他のチャネルベースのオーディオ・フォーマットに従ってチャネルに関連付けられる想定される位置であってもよい。いくつかの例では、ブロック305は、制御システムのレンダリング・モジュールが、インターフェース・システムを介してオーディオ・データを受領することに関わる。
【0080】
この例によれば、ブロック310は、環境の一組のラウドスピーカーを介した再生のために、制御システムによってオーディオ・データをレンダリングして、レンダリングされたオーディオ信号を生成することに関わる。この例では、オーディオ・データに含まれる一つまたは複数のオーディオ信号のそれぞれをレンダリングすることは、コスト関数を最適化することによって、環境内の一組のラウドスピーカーの相対的アクティブ化を決定することに関わる。この例によれば、コストは、環境中の一組のラウドスピーカーで再生されたときのオーディオ信号の知覚される空間位置のモデルの関数である。この例では、コストはまた、オーディオ信号の意図された知覚される空間位置の、一組のラウドスピーカーのうちの各ラウドスピーカーの位置への近接性の指標の関数でもある。この実装では、コストは、一つまたは複数の追加的な動的に構成可能な機能の関数でもある。この例では、動的に構成可能な機能は、以下のうちの一つまたは複数に基づく:一または複数の聴取者へのラウドスピーカーの近接性;引力位置へのラウドスピーカーの近接性、ここで、引力は、引力位置により近いラウドスピーカーの、相対的により高いアクティブ化を優遇する因子である;反発力の位置へのラウドスピーカーの近接性、ここで、反発力は、反発力位置により近いラウドスピーカーの、相対的により低いアクティブ化を優遇する因子である;各ラウドスピーカーの、環境中の他のラウドスピーカーに比した能力;ラウドスピーカーの、他のラウドスピーカーに対する同期;ウェイクワード性能;またはエコー・キャンセラ性能。
【0081】
この例において、ブロック315は、インターフェース・システムを介して、レンダリングされたオーディオ信号を環境の前記一組のラウドスピーカーの少なくともいくつかのラウドスピーカーに提供することに関わる。
【0082】
いくつかの例によれば、知覚される空間位置のモデルは、聴取者の左耳および右耳におけるオーディオ・オブジェクト位置に対応するバイノーラル応答を生成することができる。代替的または追加的に、知覚される空間位置のモデルは、一組のラウドスピーカーから再生されるオーディオ信号の知覚される空間位置を、前記一組のラウドスピーカーの位置に、ラウドスピーカーの関連付けられたアクティブ化利得によって重み付けしたものの質量中心に置くことができる。
【0083】
いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のレベルに基づくことができる。いくつかの事例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、前記一つまたは複数のオーディオ信号のスペクトルに基づくことができる。
【0084】
方法300のいくつかの例は、スピーカー・レイアウト情報を受領することに関わる。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の各ラウドスピーカーの位置に基づくことができる。
【0085】
方法300のいくつかの例は、ラウドスピーカー仕様情報を受領することに関わる。いくつかの例では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーの能力に基づくことができ、該能力は、周波数応答、再生レベル限界または一つまたは複数のラウドスピーカー・ダイナミクス処理アルゴリズムのパラメータのうちの一つまたは複数を含むことができる。
【0086】
いくつかの例によれば、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的に、各ラウドスピーカーから他のラウドスピーカーへの音響伝達の測定または推定に基づくことができる。代替的または追加的に、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一つまたは複数の人の聴取者またはスピーカーの位置に基づくことができる。代替的または追加的に、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーから聴取者またはスピーカー位置への音響伝達の測定または推定に基づくことができる。音響伝達の推定値は、たとえば、少なくとも部分的には、各ラウドスピーカーと聴取者またはスピーカー位置との間に存在しうる壁、家具または他の物体に基づいてもよい。
【0087】
代替的または追加的に、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、環境中の一つまたは複数の非ラウドスピーカー・オブジェクトまたはランドマークのオブジェクト位置に基づくことができる。いくつかのそのような実装では、前記一つまたは複数の追加的な動的に構成可能な機能は、少なくとも部分的には、各ラウドスピーカーからオブジェクト位置またはランドマーク位置への音響伝達の測定または推定に基づくことができる。
【0088】
柔軟なレンダリングを実現するために一つまたは複数の適切に定義された追加的なコスト項を採用することによって、多くの新しい有用な挙動が達成されうる。下記に挙げるすべての例示的な挙動は、望ましくないとみなされるある種の条件の下で、ある種のラウドスピーカーにペナルティを与えるという形で作成されている。最終的な結果は、これらのラウドスピーカーが、オーディオ信号の前記集合の空間的レンダリングにおいて、より少なくアクティブ化されるということである。これらの多くの場合、空間的レンダリングの修正とは無関係に、望ましくないラウドスピーカーを単に小さくすることを考えてもよいが、そのような戦略は、オーディオ・コンテンツの全体的なバランスを著しく劣化させる可能性がある。ミックスのある種の成分は、たとえば、完全に聞こえなくなることがある。他方、開示された実施形態では、レンダリングのコア最適化にこれらのペナルティ付与を統合することにより、レンダリングは、適応し、よりペナルティの低い残りのスピーカーを用いて可能な限り最良の空間レンダリングを実行することができる。これは、はるかにエレガントで、適応性があり、効果的な解決策である。
【0089】
例示的な使用事例は、以下を含むが、それらに限定されない。
【0090】
●聴取エリアのまわりで、よりバランスのとれた空間的呈示を提供する
○空間的オーディオは、意図された聴取エリアからほぼ同じ距離であるラウドスピーカーを通じて最も良く提示されることが分かった。コストは、聴取エリアまでのラウドスピーカーの平均距離よりも著しく近い、または離れているラウドスピーカーがペナルティを受け、それによりそのアクティブ化が低減されるように構築されてもよい。
【0091】
●オーディオを聴取者または話者から遠ざける、または聴取または話者に向かって近づける
○システムのユーザーが、システムの、またはシステムに付随するスマート音声アシスタントに話しかけようとしている場合、話者により近いラウドスピーカーにペナルティを与えるコストを作ることが有益である。このようにして、これらのラウドスピーカーは、より少なくアクティブ化され、関連するマイクロフォンが話者をよりよく聞くことができるようになる。
○聴取空間内の他の聴取者のための再生レベルを最小化する、単一の聴取者のための、より内密な体験を提供するために、聴取者の位置から遠いスピーカーは大きなペナルティを受けてもよい。それにより、聴取者に最も近いスピーカーのみが最も顕著にアクティブ化される。
【0092】
●オーディオをランドマーク、ゾーン、またはエリアから遠ざける、またはランドマーク、ゾーン、またはエリアに近づける
○聴取空間の近傍におけるある種の位置、たとえばベビールーム、ベビーベッド、オフィス、読書エリア、勉強エリアなどは、センシティブであると考えられてもよい。そのような場合、この位置、ゾーンまたはエリアに近いスピーカーの使用にペナルティを与えるコストが構築されてもよい。
○あるいはまた、上記と同じ場合(または類似の場合)について、スピーカーのシステムは、特に、スピーカーのうちの1つ(取り付けられたまたは付随するマイクロフォンを備えたもの)がベビールーム自体内に存在する場合に、各スピーカーからベビールームへの音響伝達の測定値を生成していてもよい。この場合、スピーカーのベビールームへの物理的な近接性を使うのではなく、ベビールームへの測定された音響伝達が高いスピーカーの使用にペナルティを課すコストが構築されてもよい。および/または
【0093】
●スピーカーの能力の最適な使用
○異なるラウドスピーカーの能力は、著しく異なることがある。たとえば、ある人気のスマートスピーカーは、限られた低域能力をもつ単一の1.6インチのフルレンジ・ドライバを含むだけである。他方は、別のスマートスピーカーは、ずっと能力の高い3インチのウーファーを含む。これらの能力は、一般に、スピーカーの周波数応答に反映され、よって、スピーカーに関連する応答の集合は、コスト項において利用されうる。ある特定の周波数では、周波数応答によって測定されるところにより他のスピーカーに比して能力が劣るスピーカーはペナルティを受け、よって、より低い程度にアクティブ化される。いくつかの実装では、そのような周波数応答値は、スマート・ラウドスピーカーに記憶されてもよく、次いで、柔軟レンダリングを最適化することを受け持つ計算ユニットに報告されうる。
【0094】
○多くのスピーカーは複数のドライバを含んでおり、それぞれが異なる周波数範囲を再生することを受け持つ。たとえば、ある人気のスマートスピーカーは、低周波のためのウーファーと高周波のためのツイーターを含むツーウェイ設計である。典型的には、そのようなスピーカーは、フルレンジの再生オーディオ信号を適切な周波数範囲に分割し、それぞれのドライバに送るためのクロスオーバー回路を含む。あるいはまた、そのようなスピーカーは、各個々のドライバに柔軟レンダラー再生アクセスを提供するとともに、周波数応答のような各個々のドライバの能力に関する情報を提供することができる。上述のようなコスト項を適用することによって、いくつかの例において、柔軟レンダラーは、異なる周波数におけるそれらの相対的な能力に基づいて、2つのドライバ間のクロスオーバーを自動的に構築することができる。
【0095】
○周波数応答の上述の使用例は、スピーカーの固有の能力に焦点を当てているが、聴取環境に置かれたスピーカーの能力を正確には反映していない可能性がある。ある種の場合には、意図される聴取位置で測定されたスピーカーの周波数応答は、何らかの較正手順を通じて利用可能であってもよい。そのような測定値は、スピーカーの使用をより最適化するために、あらかじめ計算された応答の代わりに使用されてもよい。たとえば、ある種のスピーカーは、本質的に、特定の周波数で非常に能力があるかもしれないが、その配置(たとえば、壁または家具の後ろ)のために、意図された聴取位置において非常に限定された応答を生じることがありうる。この応答を捕捉し、適切なコスト項に入力される測定値は、そのようなスピーカーの有意なアクティブ化を防止することができる。
【0096】
○周波数応答は、ラウドスピーカーの再生能力の1つの側面に過ぎない。多くの小型ラウドスピーカーは、再生レベルが高くなるにつれて歪み始め、その後、特に低周波数の場合には可動域限界(excursion limit)に達する。そのような歪みを減らすために、多くのラウドスピーカーは、再生レベルを、周波数にわたって可変でありうるいくつかの制限閾値未満に制約するダイナミクス処理(dynamics processing)を実装する。あるスピーカーがこれらの閾値に近接している、または閾値にあり、柔軟レンダリングに参加している他のスピーカーはそうでない場合、制限となるスピーカーの信号レベルを低減し、このエネルギーを他の、負担がより少ないスピーカーに向けることは理にかなっている。そのような挙動は、関連するコスト項を適正に構成することによって、いくつかの実施形態に従って自動的に達成できる。そのようなコスト項は、以下の一つまたは複数に関わってもよい:
・ラウドスピーカーの制限閾値に関連したグローバル再生音量の監視。たとえば、音量レベルがその制限閾値により近いラウドスピーカーは、より大きなペナルティが課されてもよい;
・可能性としては周波数にわたって変化する動的な信号レベルの、やはり可能性としては周波数にわたって変化するラウドスピーカーの制限閾値との関連での、監視。たとえば、監視された信号レベルがその制限閾値により近いラウドスピーカーは、より大きなペナルティが課されてもよい;
・制限利得などの、ラウドスピーカーのダイナミクス処理のパラメータの直接監視。いくつかのそのような例において、パラメータがより強い制限を示すラウドスピーカーは、より大きなペナルティが課されてもよい;および/または、
・ラウドスピーカーが線形範囲で動作しているかどうかを判定するための、増幅器によってラウドスピーカーに送達されている実際の瞬間的な電圧、電流、電力の監視。たとえば、より低い直線性で動作しているラウドスピーカーが、より大きなペナルティが課されてもよい。
【0097】
○統合されたマイクロフォンおよび対話的な音声アシスタントを有するスマートスピーカーは、典型的には、何らかのタイプのエコーキャンセレーションを使用して、録音マイクロフォンによってピックアップされる、スピーカーから再生されるオーディオ信号のレベルを低減する。この低減が大きいほど、スピーカーがスペース内の話者を聞いて理解する可能性が高くなる。エコー・キャンセラの残差が一貫して高い場合、これはスピーカーが、エコー経路の予測が困難になる非線形領域に駆動されていることの指標でありうる。そのような場合、信号エネルギーをそのスピーカーから逸らすことが理にかなっており、よって、エコー・キャンセラ性能を考慮したコスト項が有益でありうる。そのようなコスト項は、付随するエコー・キャンセラが貧弱な性能を発揮しているスピーカーに、高いコストを割り当ててもよい。
【0098】
○複数のラウドスピーカーで空間的オーディオをレンダリングするときに予測可能な像形成〔イメージング〕を達成するためには、一般に、一組のラウドスピーカーでの再生が、時間を通じて合理的に同期されることが必要である。有線ラウドスピーカーの場合、これは当然のことであるが、無線ラウドスピーカーが多数ある場合、同期は困難であり、最終結果は可変であることがある。そのような場合、各ラウドスピーカーがターゲットとの同期の相対的な度合いを報告することが可能であることがあり、この度合いが同期コスト項に入力されてもよい。いくつかのそのような例では、より低い同期度のラウドスピーカーは、より大きなペナルティを課され、よってレンダリングから除外されうる。さらに、ある種のタイプのオーディオ信号、たとえば、拡散的または非方向性であることが意図されるオーディオミックスの成分に対しては、厳密な同期が必要とされない場合がある。いくつかの実装では、成分は、メタデータを用いてそのようなものとしてタグ付けされてもよく、同期コスト項は、ペナルティが低減されるように修正されてもよい。
【0099】
次に、実施形態の例を記載する。
【0100】
式9aおよび9bで定義されている近接性コストと同様に、新しいコスト関数の項
【数32】
を、スピーカー・アクティブ化の絶対値の2乗の重み付けされた和として表現することも便利である:
【数33】
ここで、W
jは、項jについてスピーカーiをアクティブ化することに関連するコストを記述する重み
【数34】
の対角行列である:
【数35】
【0101】
式13aおよび13bを、式10で与えられたCMAPおよびFVコスト関数の行列二次形式バージョンと組み合わせることにより、式12で与えられた(いくつかの実施形態の)一般拡張されたコスト関数の潜在的に有益な実装がもたらされる:
【数36】
【0102】
新しいコスト関数項のこの定義では、全体的なコスト関数は行列二次形式のままであり、アクティブ化の最適な集合g
optは式14の微分を通じて見出すことができ、次のようになる。
【数37】
【0103】
重み項w
ijのそれぞれを、ラウドスピーカーのそれぞれについての与えられた連続的なペナルティ値
【数38】
の関数として考えることは有用である。ある例示的実施形態では、このペナルティ値は、(レンダリングされるべき)オブジェクトから考慮されるラウドスピーカーまでの距離である。別の例示的実施形態では、このペナルティ値は、所与のラウドスピーカーがいくつかの周波数を再生することができないことを表す。このペナルティ値に基づいて、重み項は次のようにパラメータ化できる:
【数39】
ここで、α
jは、(重み項のグローバルな強度を考慮に入れる)プレファクターを表し、τ
jは、ペナルティ閾値を表し(その近くで、またはそれを超えるところで重み項が重要となる)、f
j(x)は単調増加関数を表す。たとえば、
【数40】
では、重み項は、次のような形をもつ:
【数41】
ここで、α
j、β
j、τ
jは、ペナルティのグローバルな強さ、ペナルティの始まりの突然性、ペナルティの広がりをそれぞれ示す調整可能なパラメータである。これらの調整可能な値を設定する際には、コスト項C
jの、他の任意の追加的なコスト項ならびにC
spatialおよびC
proximityに対する相対的な効果が、望ましい成果を達成するために適切であるように、注意を払うべきである。たとえば、大雑把な目安として、ある特定のペナルティがはっきりと他のペナルティより支配的であることを望むなら、その強度を2番目に大きいペナルティ強度の約10倍に設定することが適切でありうる。
【0104】
すべてのラウドスピーカーがペナルティを課される場合、後処理において、すべての重み項から最小のペナルティを差し引いて、スピーカーのうちの少なくとも1つがペナルティを課されないようにすることがしばしば便利でる:
【数42】
【0105】
上述したように、本明細書に記載される新しいコスト関数項(および他の実施形態に従って使用される同様の新しいコスト関数項)を使用して実現できる多くの可能な使用事例がある。次に、3つの例を用いて、より具体的な詳細を説明する。すなわち、オーディオを聴取者または話者に向けて移動させる、オーディオを聴取者または話者から遠ざける、オーディオをランドマークから遠ざける。
【0106】
第1の例では、ここでは「引力」と呼ばれるものが、オーディオをある位置に向けて引っぱるために使用される。その位置は、いくつかの例では、聴取者または話者の位置、ランドマーク位置、家具位置などであってもよい。本明細書では、この位置は「引力位置」または「アトラクター位置」と称されることがある。本明細書で使用されるところでは、「引力」とは、引力位置により近接した近傍において、相対的により高いラウドスピーカー・アクティブ化を優遇する因子である。この例によれば、重みw
ijは式17の形をとり、連続的ペナルティ値p
ijは、i番目のスピーカーの、固定したアトラクター位置
【数43】
からの距離によって与えられ、閾値τ
jは、すべてのスピーカーにわたるこれらの距離の最大値によって与えられる:
【数44】
【0107】
オーディオを聴取者または話者に向けて「引っ張る」使用事例を例解すると、具体的にα
j=20、β
j=3に設定し、
【数45】
〔→l
j〕を180度の聴取者/話者の位置(プロットの下部中央)に対応するベクトルに設定する。α
j、β
jおよび→l
jのこれらの値は単に例である。いくつかの実装では、α
jは1~100の範囲であってもよく、β
jは1~25の範囲であってもよい。
図3Bは、例示的実施形態におけるスピーカー・アクティブ化のグラフである。この例では、
図3Bは、
図1および
図2からの同じスピーカー位置についてのコスト関数に対する最適解を構成するスピーカー・アクティブ化105b、110b、115b、120b、および125bを示し、w
ijによって表される引力を加えたものである。
図4は、ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。この例では、
図4は、多数の可能なオブジェクト角度についての対応する理想的なオブジェクト位置230bと、点線240bによって理想的なオブジェクト位置230bに接続された、それらのオブジェクトについての対応する実際のレンダリング位置235bとを示している。固定位置
【数46】
に向かう実際のレンダリング位置1135bの曲がった(skewed)配向は、コスト関数への最適解に対するアトラクター重み付けの影響を示す。
【0108】
第2および第3の例では、「反発力」は、人の位置(たとえば、聴取者の位置、話者の位置など)またはランドマークの位置、家具の位置などの他の位置であってもよい位置から離れるようにオーディオを「押す」ために使用される。いくつかの例では、反発力は、オフィスエリア、読書エリア、ベッドまたは寝室エリア(たとえば、ベビーベッドまたは寝室)などの聴覚環境のエリアまたはゾーンから離れるようにオーディオを押すために使用されてもよい。いくつかのそのような例によれば、特定の位置が、ゾーンまたはエリアを代表するものとして使用されてもよい。たとえば、乳児のベッドを表す位置は、乳児の頭部の推定位置、乳児に対応する推定音源位置などでありうる。この位置は、本明細書では、「反発力位置」または「反発位置」と称されることがある。本明細書では、「反発力」とは、反発力位置に近いほど、相対的により低いスピーカー・アクティブ化を促進する要因である。この例によれば、固定した反発位置
【数47】
に対してp
ijおよびτ
jを式19における引力と同様に定義する:
【数48】
【0109】
オーディオを聴取者または話者から遠ざける使用事例を例解すると、具体的にα
j=5、β
j=2に設定し、
【数49】
〔→l
j〕を180度の聴取者/話者の位置(プロットの下部中央)に対応するベクトルに設定する。α
j、β
jおよび→l
jのこれらの値は単に例である。上記のように、いくつかの例では、α
jは1~100の範囲であってもよく、β
jは1~25の範囲であってもよい。
図5は、例示的実施形態におけるスピーカー・アクティブ化のグラフである。この例によれば、
図5は、前の諸図からの同じスピーカー位置についてのコスト関数に対する最適解を構成するスピーカー・アクティブ化105c、110c、115c、120c、および125cを示し、w
ijによって表される反発力を加えたものである。
図6は、ある例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。この例では、
図6は、多数の可能なオブジェクト角度についての理想的なオブジェクト位置230cと、点線240cによって理想的なオブジェクト位置230cに接続された、それらのオブジェクトについての対応する実際のレンダリング位置235cとを示している。固定位置
【数50】
から遠ざかる実際のレンダリング位置235cの曲がった(skewed)配向は、コスト関数への最適解に対する反発体重み付けの影響を示す。
【0110】
第3の例示的な使用事例は、睡眠中の赤ん坊の部屋へのドアのような、音響的に敏感なランドマークからオーディオを遠ざけるように「押す」ことである。前の例と同様に、→l
jを、180度のドア位置(プロットの下部中央)に対応するベクトルに設定する。より強い反発力を達成し、音場を主要聴取空間の前方部に完全に偏らせるために、我々はα
j=20、β
j=5に設定した。
図7は、ある例示的実施形態におけるスピーカー・アクティブ化のグラフである。ここでもまた、この例では、
図7は、スピーカー位置の同じ集合への最適解を構成するスピーカー・アクティブ化105d、110d、115d、120dおよび125dを示し、より強い反発力を加えている。
図8は、例示的実施形態におけるオブジェクト・レンダリング位置のグラフである。ここでもまた、この例では、
図8は、多数の可能なオブジェクト角度についての理想的なオブジェクト位置230dと、点線240dによって理想的なオブジェクト位置230dに接続された、それらのオブジェクトについての対応する実際のレンダリング位置235dとを示している。実際のレンダリング位置235dの曲がった(skewed)配向は、コスト関数への最適解に対する、より強い反発重み付けの影響を示す。
【0111】
(いくつかの実施形態に従った)動的コスト柔軟レンダリングを実装する際の実際的な考慮事項の1つは、計算量である。場合によっては、オブジェクト位置(メタデータによって示されてもよい、レンダリングされる各オーディオ・オブジェクトについての位置)が1秒間に何度も変化する可能性があることを考慮すると、各オーディオ・オブジェクトについて各周波数帯域についての固有のコスト関数をリアルタイムで解くことは実現可能ではないことがありうる。メモリを代償として計算量を減らす代替的なアプローチは、すべての可能なオブジェクト位置の三次元空間をサンプリングするルックアップテーブルを使用することである。サンプリングは、すべての次元において同じである必要はない。
図9は、ある例示的実施形態におけるスピーカー・アクティブ化を示す点のグラフである。この例では、xおよびy次元は15点でサンプリングされ、z次元は5点でサンプリングされる。他の実装は、より多くのサンプルまたはより少ないサンプルを含んでいてもよい。この例によれば、各点は、CMAPまたはFV解決策についてのMスピーカー・アクティブ化を表す。
【0112】
実行時に、各スピーカーについての実際のアクティブ化を決定するために、いくつかの例では、直近の8点のスピーカー・アクティブ化の間の三線形補間(tri-linear interpolation)が使用されてもよい。
図10は、一例によるスピーカー・アクティブ化を示す点の間の三線形補間のグラフである。この例では、逐次的な線形補間のプロセスは、上面内の各対の点を補間して第1および第2の補間点1005aおよび1005bを決定し、下面内の各対の点を補間して第3および第4の補間点1010aおよび1010bを決定し、第1および第2の補間点1005aおよび1005bを補間して上面内の第5の補間点1015を決定し、第3および第4の補間点1010aおよび1010bを補間して下面内の第6の補間点1020を決定し、第5および第6の補間点1015および1020を補間して上面と下面の間の第7の補間点1025を決定することを含む。三線形補間は有効な補間方法であるが、当業者は、三線形補間が、本開示の諸側面を実装する際に使用されうる1つの可能な補間方法に過ぎず、他の例は、他の補間方法を含みうることを理解するであろう。
【0113】
たとえば音声アシスタントのための音響空間を作るために反発力が使用されている上述の第1の例では、もう一つの重要な概念は、反発力のないレンダリング・シーンから反発力のあるシーンへの移行である。なめらかな遷移を作り出し、音場が動的に歪められる印象を与えるために、反発力のない以前の一組のスピーカー・アクティブ化と反発力のある新しい一組のスピーカー・アクティブ化の両方が計算され、時間期間にわたって補間される。
【0114】
ある実施形態に従って実装されるオーディオ・レンダリングの例は、オーディオ・レンダリング方法であって:
それぞれが関連付けられた所望される知覚される空間位置を有する一つまたは複数のオーディオ信号の集合を、2つ以上のラウドスピーカーの集合を通じてレンダリングすることことを含み、ラウドスピーカーの集合の相対的アクティブ化は、それらのラウドスピーカーを通じて再生される前記オーディオ信号の知覚される空間位置のモデル、前記オーディオ・オブジェクトの所望される知覚される空間位置のラウドスピーカーの位置への近接性、およびオーディオ信号の前記集合の少なくとも一つまたは複数の属性、ラウドスピーカーの前記集合の一つまたは複数の属性、または一つまたは複数の外部入力に依存する一つまたは複数の追加的な動的に構成可能な機能の関数である、方法である。
【0115】
次に、
図11を参照して、実施形態のさらなる例を説明する。
【0116】
図11は、一例による環境の図である。この例では、環境は、オーディオインタラクションのためのスマート・オーディオ装置(装置1.1)、オーディオ出力のためのスピーカー(1.3)、および制御可能な照明〔ライト〕(1.2)のセットを含む生活空間である。一例では、装置1.1のみがマイクロフォンを含んでおり、そのためウェイクワード・コマンドを発するユーザー(1.4)がどこにいるのかを知る。さまざまな方法を使用して、これらの装置から集合的に情報が得られて、ウェイクワードを発する(たとえば、話す)ユーザーの位置推定値(たとえば、微細な粒度の位置推定)を提供することができる。
【0117】
そのような居住空間には、人がタスクや活動を行ったり、または閾を越えたりする自然な活動ゾーンの集合がある。これらのアクションエリア(ゾーン)は、インターフェースの他の側面を支援するために、ユーザーの位置(たとえば、不確かな位置を決定する)またはユーザーのコンテキストを推定するための努力があるかもしれない場所である。
図11の例では、重要なアクションエリアは以下の通りである:
1.キッチンシンクおよび調理エリア(生活空間の左上領域);
2.冷蔵庫のドア(シンクと調理エリアの右);
3.ダイニングエリア(居住空間の左下領域);
4.居住空間のオープンエリア(シンクおよび調理エリアおよびダイニングエリアの右);
5.TVカウチ(オープンエリアの右);
6.テレビ自体;
7.テーブル;
8.ドアエリアまたは入口(居住空間の右上領域)。
【0118】
いくつかの例では、アリアまたはゾーンは、環境中の部屋の全部または一部に対応してもよい。いくつかのそのような例によれば、エリアまたはゾーンは、寝室の全部または一部に対応してもよい。あるそのような例では、エリアまたはゾーンは赤ん坊の寝室全体またはその一部、たとえばベビーベッドの近くのエリアに対応してもよい。
【0119】
しばしば、アクションエリアに合うよう、同じような位置にある同じような数のライトがあることが明らかである。ライトの一部または全部は、個々に制御可能なネットワーク接続されたエージェントであってもよい。
【0120】
いくつかの実施形態によれば、オーディオは、スピーカー(および/または装置(1.1)のうちの一つまたは複数のスピーカー)のうちの一つまたは複数による(開示される方法の任意の実施形態に従った)再生のために(たとえば、
図11のシステムの装置1.1のうちの1つまたは他の装置によって)レンダリングされる。
【0121】
多くの実施形態が技術的に可能である。当業者には、それらをどのように実施するかが、本開示から明らかであろう。開示されるシステムおよび方法のいくつかの実施形態が本明細書に記載される。
【0122】
図12は、本開示のさまざまな側面を実装できる装置の構成要素の例を示すブロック図である。いくつかの例によれば、装置1200は、本明細書に開示された方法の少なくとも一部を実行するように構成されたスマート・オーディオ装置であってもよく、またはそれを含んでいてもよい。他の実装では、装置1200は、ラップトップコンピュータ、セルラー電話、タブレット装置、スマートホームハブ等のような、本明細書に開示された方法の少なくとも一部を実行するように構成された別の装置であってもよく、またはそれを含んでいてもよい。いくつかのそのような実装では、装置1200は、サーバーであってもよく、またはそれを含んでいてもよい。
【0123】
この例では、装置1200は、インターフェース・システム1205および制御システム1210を含む。インターフェース・システム1205は、いくつかの実装では、オーディオ・プログラム・ストリームを受信するように構成されてもよい。オーディオ・プログラム・ストリームは、環境の少なくともいくつかのスピーカーによって再生されるようにスケジュールされたオーディオ信号を含んでいてもよい。オーディオ・プログラム・ストリームは、空間データ、たとえば、チャネル・データおよび/または空間メタデータを含んでいてもよい。インターフェース・システム1205は、いくつかの実装では、環境内の一つまたは複数のマイクロフォンからの入力を受領するように構成されてもよい。
【0124】
インターフェース・システム1205は、一つまたは複数のネットワーク・インターフェースおよび/または一つまたは複数の外部装置インターフェース(一つまたは複数のユニバーサルシリアルバス(USB)インターフェースなど)を含んでいてもよい。いくつかの実装によれば、インターフェース・システム1205は、一つまたは複数の無線インターフェースを含んでいてもよい。インターフェース・システム1205は、一つまたは複数のマイクロフォン、一つまたは複数のスピーカー、ディスプレイ・システム、タッチセンサーシステム、および/またはジェスチャーセンサーシステムのような、ユーザーインターフェースを実装するための一つまたは複数の装置を含んでいてもよい。いくつかの例では、インターフェース・システム1205は、制御システム1210と
図12に示される任意的なメモリ・システム1215のようなメモリ・システムとの間の一つまたは複数のインターフェースを含んでいてもよいが、制御システム1210がメモリ・システムを含んでいてもよい。
【0125】
制御システム1210は、たとえば、汎用の単一チップまたはマルチチップ・プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラマブル論理装置、離散的ゲートまたはトランジスタ論理、および/または離散的ハードウェアコンポーネントを含んでいてもよい。
【0126】
いくつかの実装では、制御システム1210は、2つ以上の装置に存在してもよい。たとえば、制御システム1210の一部は、本明細書に示される環境の1つの中の装置内に存在してもよく、制御システム1210の別の一部は、サーバー、モバイル装置(たとえば、スマートフォンまたはタブレットコンピュータ)など、環境の外にある装置内に存在してもよい。他の例では、制御システム1210の一部は、本明細書に示される環境の1つ中の装置内に存在してもよく、制御システム1210の別の一部は、環境の一つまたは複数の他の装置内に存在してもよい。たとえば、制御システムの機能は、環境の複数のスマート・オーディオ装置にわたって分散されてもよく、または、オーケストレーション装置(たとえば、本明細書においてスマートホームハブと称されることがあるもの)および環境の一つまたは複数の他の装置によって分担されてもよい。インターフェース・システム1205も、いくつかのそのような例では、2つ以上の装置に存在してもよい。
【0127】
いくつかの実装では、制御システム1210は、少なくとも部分的には、本明細書に開示される方法を実行するために構成されてもよい。いくつかの例によれば、制御システム1210は、複数のアクティブ化基準をもつ複数のスピーカーでオーディオをレンダリングする方法を実装するように構成されてもよい。
【0128】
本明細書に記載される方法の一部または全部は、一つまたは複数の非一時的媒体に記憶された命令(たとえば、ソフトウェア)に従って一つまたは複数の装置によって実行されてもよい。そのような非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含むがそれらに限定されない、本明細書に記載されたもののようなメモリ装置を含んでいてもよい。前記一つまたは複数の非一時的媒体は、たとえば、
図12に示される任意的なメモリ・システム1215および/または制御システム1210に存在してもよい。よって、本開示に記載された主題のさまざまな革新的な側面は、ソフトウェアを記憶している一つまたは複数の非一時的媒体において実装できる。ソフトウェアは、たとえば、オーディオ・データを処理するために少なくとも1つの装置を制御するための命令を含んでいてもよい。ソフトウェアは、たとえば、
図12の制御システム1210のような制御システムの一つまたは複数の構成要素によって実行可能であってもよい。
【0129】
いくつかの例では、装置1200は、
図12に示される任意的なマイクロフォンシステム1220を含んでいてもよい。任意的なマイクロフォンシステム1220は、一つまたは複数のマイクロフォンを含んでいてもよい。いくつかの実装では、マイクロフォンの一つまたは複数は、スピーカー・システムのスピーカー、スマート・オーディオ装置等のような別の装置の一部であってもよく、または別の装置と関連付けられてもよい。
【0130】
いくつかの実装によれば、装置1200は、
図12に示される任意的なラウドスピーカー・システム1225を含んでいてもよい。任意的なスピーカー・システム1225は、一つまたは複数のスピーカーを含んでいてもよい。いくつかの例では、任意的なスピーカー・システム1225の少なくともいくつかのスピーカーは、任意に配置されうる。たとえば、任意的なスピーカー・システム1225の少なくともいくつかのスピーカーは、ドルビー5.1、ドルビー7.1、浜崎22.2等のような、任意の規格で規定されたスピーカー・レイアウトに対応しない位置に配置されてもよい。いくつかのそのような例では、任意的なスピーカー・システム1225の少なくともいくつかのスピーカーは、スペースに都合のよい位置(たとえば、スピーカーを収容するスペースがある位置)に配置されてもよいが、何らかの規格に規定されたスピーカー・レイアウトにない位置であってもよい。
【0131】
いくつかのそのような例によれば、装置1200は、スマート・オーディオ装置であってもよく、またはスマート・オーディオ装置を含んでいてもよい。いくつかのそのような実装では、装置1200は、ウェイクワード検出器であってもよく、または、ウェイクワード検出器を含んでいてもよい。たとえば、装置1200は、バーチャル・アシスタントであってもよく、またはバーチャル・アシスタントを含んでいてもよい。
【0132】
いくつかの開示される実装は、開示された方法の任意の実施形態を実行するように構成された(たとえば、プログラムされた)システムまたは装置と、開示された方法の任意の実施形態またはそのステップを実装するためのコードを記憶している有形のコンピュータ読み取り可能媒体(たとえば、ディスク)とを含む。たとえば、開示されたシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、またはマイクロプロセッサであって、開示される方法またはそのステップの実施形態を含む、データに対する多様な操作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされ、および/または他の仕方で構成されたものであってもよく、またはそれらを含むことができる。そのような汎用プロセッサは、入力装置、メモリ、および、それに呈されたデータに応答して開示された方法の実施形態(またはそのステップ)を実行するようにプログラムされた(および/または他の仕方で構成された)処理サブシステムを含むコンピュータシステムであってもよく、または、それを含んでいてもよい。
【0133】
開示されたシステムのいくつかの実施形態は、開示された方法の実施形態の実行を含む、オーディオ信号に対して必要な処理を実行するように構成された(たとえば、プログラムされた、および他の方法で構成された)構成可能な(たとえば、プログラム可能な)デジタル信号プロセッサ(DSP)として実装される。あるいはまた、開示された方法の実施形態(またはその要素)は、開示された方法の実施形態を含む多様な動作のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、および/または他の仕方で構成された汎用プロセッサ(たとえば、パーソナルコンピュータ(PC)または他のコンピュータシステムまたはマイクロプロセッサであって、入力装置およびメモリを含んでいてもよい)として実装される。あるいはまた、いくつかの実施形態の要素は、開示された方法の実施形態を実行するように構成された(たとえば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムはまた、他の要素(たとえば、一つまたは複数のラウドスピーカーおよび/または一つまたは複数のマイクロフォン)を含む。開示された方法の実施形態を実行するように構成された汎用プロセッサが、典型的には、入力装置(たとえば、マウスおよび/またはキーボード)、メモリ、およびディスプレイ装置に結合される。
【0134】
本開示の別の側面は、任意の開示される方法またはそのステップを実行するためのコード(たとえば実行するために実行可能なコーダ)を記憶しているコンピュータ読み取り可能媒体(たとえば、ディスクまたは他の有形記憶媒体)である。
【0135】
さまざまな特徴および側面は、以下の箇条書き例示的実施形態(enumerated example embodiments、EEE)から理解されるであろう。
【0136】
EEE1. スマート・オーディオ装置の集合のスマート・オーディオ装置のうちの少なくとも1つのスマート・オーディオ装置の少なくとも2つのスピーカーによる再生のためのオーディオのレンダリングのための方法であって、前記オーディオは一つまたは複数のオーディオ信号であり、各オーディオ信号は、関連付けられた所望される知覚される空間位置をもち、スピーカーの前記集合のスピーカーの相対的アクティブ化は、それらのスピーカー上で再生される前記オーディオ信号の知覚される空間位置のモデル、前記オーディオ信号の所望される知覚される空間位置の、前記スピーカーの位置への近さ、および前記オーディオ信号の少なくとも一つまたは複数の属性、スピーカーの前記集合の一つまたは複数の属性、または一つまたは複数の外部入力に依存する一つまたは複数の追加的な動的に構成可能な機能の関数である、方法。
【0137】
EEE2. 前記追加的な動的に構成可能な機能が、スピーカーの一または複数の聴取者への近さ;スピーカーの引力または反発力への近さ;スピーカーの、何らかの位置に関する可聴性;スピーカーの能力;スピーカーの、他のスピーカーに対する同期;ウェイクワード性能;またはエコー・キャンセラ性能のうちの少なくとも1つを含む。
【0138】
EEE3. 請求項EEE1または2に記載の方法であって、前記レンダリングは、コスト関数の最小化を含み、前記コスト関数は、少なくとも1つの動的スピーカー・アクティブ化項を含む、方法。
【0139】
EEE4. スピーカーの集合のうちの少なくとも2つのスピーカーによる再生のためのオーディオのレンダリングのための方法であって、前記オーディオは一つまたは複数のオーディオ信号であり、各オーディオ信号は、関連付けられた所望される知覚される空間位置をもち、スピーカーの前記集合のスピーカーの相対的アクティブ化は、それらのスピーカー上で再生される前記オーディオ信号の知覚される空間位置のモデル、前記オーディオ信号の所望される知覚される空間位置の、前記スピーカーの位置への近さ、および前記オーディオ信号の少なくとも一つまたは複数の属性、スピーカーの前記集合の一つまたは複数の属性、または一つまたは複数の外部入力に依存する一つまたは複数の追加的な動的に構成可能な機能の関数である、方法。
【0140】
EEE5. 前記追加的な動的に構成可能な機能が、スピーカーの一または複数の聴取者への近さ;スピーカーの引力または反発力への近さ;スピーカーの、何らかの位置に関する可聴性;スピーカーの能力;スピーカーの、他のスピーカーに対する同期;ウェイクワード性能;またはエコー・キャンセラ性能のうちの少なくとも1つを含む。
【0141】
EEE6. 請求項EEE4または5に記載の方法であって、前記レンダリングは、コスト関数の最小化を含み、前記コスト関数は、少なくとも1つの動的スピーカー・アクティブ化項を含む、方法。
【0142】
EEE7. オーディオ・レンダリング方法であって:それぞれが関連付けられた所望される知覚される空間位置をもつ一つまたは複数のオーディオ信号の集合を、2つ以上のラウドスピーカーの集合にレンダリングすることを含み、ラウドスピーカーの前記集合の相対的アクティブ化は、それらのラウドスピーカー上で再生される前記オーディオ信号の知覚される空間位置のモデル、前記オーディオ・オブジェクトの所望される知覚される空間位置の、前記ラウドスピーカーの位置への近さ、および少なくともオーディオ信号の前記集合の一つまたは複数の属性、ラウドスピーカーの前記集合の一つまたは複数の属性、または一つまたは複数の外部入力に依存する、一つまたは複数の追加的な動的に構成可能な機能の関数である。
【0143】
個別的な実施形態および用途が本明細書に記載されているが、本明細書に記載されている実施形態および用途の多くの変形が、本明細書に記載され特許請求される範囲から逸脱することなく可能であることは、当業者には明らかであろう。ある種の形が示され説明されたが、本開示の範囲は、説明され示された特定の実施形態または説明された特定の方法に限定されないことが理解されるべきである。
【国際調査報告】