(58)【調査した分野】(Int.Cl.,DB名)
前記バイノーラル・フィルタ対が、聴取領域における聴取者に対する三次元空間内の前記オブジェクト信号の所望される位置の頭部伝達関数(HRTF)の対を利用する、請求項1記載の方法。
前記オブジェクト・ベースのオーディオが、定義されたサラウンドサウンド構成において配置されたスピーカー・アレイを有するサラウンド・システムにおける再生のために構成されたレガシー・コンテンツを含み、前記レガシー・コンテンツの固定チャネル位置が前記オブジェクト信号のそれぞれのオブジェクトを含む、請求項1記載の方法。
前記一対のバイノーラル・フィルタのそれぞれが、聴取領域における聴取者に対する三次元空間内の前記オブジェクト信号の所望される位置の一対の頭部伝達関数(HRTF)の一つを利用する、請求項9記載のシステム。
各パン回路が、前記複数のオブジェクト信号の各オブジェクト信号を、それぞれのオブジェクト信号の前記所望される位置を聴取領域中の複数の聴取者の各聴取者に伝達する仕方で、前記複数のスピーカー対の各スピーカー対に分配するよう構成されたパン関数を実装する、請求項9記載のシステム。
前記オブジェクト信号の前記所望される位置が、知覚的に聴取者の上の位置を含み、前記オブジェクト信号が聴取者の上に物理的に位置されたスピーカーと、聴取者への下方反射のために聴取領域の天井に向けて音波を投射するよう構成された上方発射ドライバとのうちの一方によって再生される、請求項10記載のシステム。
【背景技術】
【0003】
背景セクションで論じられる主題は、単に背景セクションでの言及の結果として従来技術であると想定されるべきではない。同様に、背景セクションにおいて言及されるまたは背景セクションの主題に関連する問題は、従来技術において前から認識されていたと想定されるべきではない。背景セクションにおける主題は、単に種々のアプローチを表わしており、それら自身も発明であることがある。
【0004】
一対のスピーカーを通じた空間的オーディオの仮想レンダリングは、一般に、ステレオ・バイノーラル信号の生成に関わる。この信号が次いで漏話キャンセラーを通じてフィードされて、左右のスピーカー信号を生成する。バイノーラル信号は、聴取者の左右の耳に到達する所望される音を表わし、可能性としては種々の位置にある多数の源を含む、三次元(3D)空間における特定のオーディオ・シーンをシミュレートするために合成される。漏話キャンセラーは、バイノーラル信号の左チャネルは実質的に左耳のみに、右チャネルは右耳のみに送達され、それによりバイノーラル信号の意図を保持するよう、ステレオ・ラウドスピーカー再生に内在する自然の漏話を解消または軽減することを試みる。レンダリングされる音が発するように感じられる点に必ずしもラウドスピーカーが物理的に位置していないので、そのようなレンダリングを通じて、オーディオ・オブジェクトは「仮想的に」3D空間内に配置される。
【0005】
漏話キャンセラーの設計は、スピーカーから聴取者の耳へのオーディオ伝送のモデルに基づく。
図1は、現在知られている漏話キャンセラー・システムについてのオーディオ伝送のモデルを示している。信号s
Lおよびs
Rが、左右のスピーカー104および106から送られる信号を表わし、信号e
Lおよびe
Rが、聴取者102の左右の耳に到達する信号を表わす。各耳信号は、左右のスピーカー信号の和としてモデル化され、各スピーカー信号は、各スピーカーからその耳への音響伝達をモデル化する別個の、線形で時間不変な伝達関数Hによってフィルタリングされる。これら四つの伝達関数108は通例、聴取者102に対する想定されるスピーカー配置の関数として選択される頭部伝達関数(HRTF)を使ってモデル化される。一般に、HRTFは、耳が空間内の点からどのように音を受領するかを特徴付ける応答である。空間内の特定の点から発するように感じられるバイノーラル音を合成するために、二つの耳についての一対のHRTFが使用されることができる。
【0006】
図1に描かれるモデルは、次のような行列の式の形に書くことができる。
【0007】
【数1】
式(1)は、ある特定の周波数における信号間の関係を反映しており、関心対象の全周波数範囲に適用されることが意図されている。以下の関係する式すべてについても同様である。漏話キャンセラー行列Cは、式(2)に示されるように、行列Hを逆行列にすることによって実現されてもよい。
【0008】
【数2】
左右のバイノーラル信号b
Lおよびb
Rを与えられると、スピーカー信号s
Lおよびs
Rは、上記バイノーラル信号に漏話キャンセラー行列を乗算したものとして計算される。
【0009】
【数3】
式(3)を式(1)に代入し、C=H
-1に注意すると、次のようになる。
【0010】
【数4】
換言すれば、漏話キャンセラーをバイノーラル信号に適用することによってスピーカー信号を生成することは、上記バイノーラル信号に等しい信号を聴取者の耳において与える。これは、行列Hがスピーカーから聴取者の耳へのオーディオの物理的な音響伝達を完璧にモデル化することを前提としている。現実には、そうでないことが多く、よって、式(4)は一般には近似される。しかしながら、実際上、この近似は通例、十分に近く、聴取者は実質的に、バイノーラル信号bによって意図された空間的印象を知覚することになる。
【0011】
バイノーラル信号bはしばしば、モノラル・オーディオ・オブジェクト信号oから、バイノーラル・レンダリング・フィルタB
LおよびB
Rの適用を通じて合成される。
【0012】
【数5】
レンダリング・フィルタ対Bは、たいていの場合、聴取者に対する空間内でのある関連付けられた位置から発するオブジェクト信号oの印象を与えるよう選ばれた一対のHRTFによって与えられる。式の形では、この関係は次のように表わせる。
【0013】
【数6】
上記の式(6)において、pos(o)は聴取者に対する3D空間内のオブジェクト信号oの所望される位置を表わす。この位置は、デカルト座標(x,y,z)または極座標系のような他の任意の等価な座標系で表わされてもよい。この位置は、空間を通じたオブジェクトの動きをシミュレートするために時間的に変化していてもよい。関数HRTF{}は、位置によって指定可能なHRTFの集合を表わすことが意図されている。実験室において人間の被験者から測定された多くのそのような集合が存在する。たとえば、CIPICデータベースであり、これは、多数の異なる被験者についての高空間分解能HRTFのパブリックドメイン・データベースである。代替的に、上記集合は、球状頭部モデルのようなパラメトリック・モデルで構成されていてもよい。実際的な実装では、漏話キャンセラーを構築するために使われるHRTFは、しばしば、バイノーラル信号を生成するために使われるのと同じ集合から選ばれる。ただし、これは必須ではない。
【0014】
多くの応用において、空間内のさまざまな位置にある多数のオブジェクトが同時にレンダリングされる。そのような場合、バイノーラル信号は、関連付けられたHRTFが適用されたオブジェクト信号の和によって与えられる:
【数7】
この多オブジェクト・バイノーラル信号では、スピーカー信号を生成するためのレンダリング・チェーン全体は次式によって与えられる。
【0015】
【数8】
多くの応用において、オブジェクト信号o
iは、左、中央、右、左サラウンドおよび右サラウンドからなる5.1信号のような多チャネル信号の個々のチャネルによって与えられる。この場合、各オブジェクトに関連付けられたHRTFは、各チャネルに関連付けられた固定スピーカー位置に対応するよう選ばれてもよい。このようにして、5.1サラウンド・システムは、ステレオ・ラウドスピーカーのセットを通じて仮想化されてもよい。他の応用では、オブジェクトは、3D空間の任意のところに自由に動くことが許容される源であってもよい。次世代空間的オーディオ・フォーマットの場合、式(8)におけるオブジェクトの集合は、自由に動くオブジェクトと固定されたチャネルの両方からなっていてもよい。
【発明を実施するための形態】
【0022】
複数対のスピーカーを通じたオブジェクト・ベースのオブジェクトの仮想レンダリングならびにそのような仮想レンダリングのための改善された等化方式のためのシステムおよび方法が記載されるが、応用はそれに限定されるものではない。本稿に記載される一つまたは複数の実施形態の諸側面は、ソフトウェア命令を実行する一つまたは複数のコンピュータまたは処理装置を含む混合、レンダリングおよび再生システムにおいて源オーディオ情報を処理するオーディオまたはオーディオビジュアル・システムにおいて実装されてもよい。記載される実施形態の任意のものは、単独で、あるいは任意の組み合わせにおいて互いと一緒に使用されうる。さまざまな実施形態は本明細書の一つまたは複数の箇所で議論または暗示されることがある従来技術のさまざまな欠点によって動機付けられたことがあるが、実施形態は必ずしもこれらの欠点のいずれかに対処するものではない。換言すれば、種々の実施形態は、明細書で論じていることがありうる種々の欠点に対処することがある。いくつかの実施形態は、明細書で論じていることがありうるいくつかの欠点またはたった一つの欠点に部分的に対処するだけであることがあり、いくつかの実施形態はこれらの欠点のいずれにも対処しないことがありうる。
【0023】
諸実施形態は、効果が、漏話キャンセラーの設計において想定される、スピーカーに対する位置に聴取者が位置していることに強く依存するという事実に関する、既知の仮想オーディオ・レンダリング・プロセスの一般的な限界に対処することが意図されている。聴取者が最適位置(いわゆる「スイートスポット」)にいない場合、漏話キャンセル効果は部分的または完全に損なわれることがあり、バイノーラル信号によって意図される空間的印象は聴取者によって知覚されない。これは、聴取者のうち一人しか有効にスイートスポットを占めることができない複数聴取者の場合、特に問題である。たとえば、
図2に描かれるようにカウチに座っている三人の聴取者では、三人のうち中央の聴取者202のみが、スピーカー204および206によって再生される仮想空間的レンダリングの完全な恩恵を享受する可能性が高い。その聴取者だけが漏話キャンセラーのスイートスポットにいるからである。そこで、諸実施形態は、最適位置にいる聴取者にとっての体験を維持し、あるいは可能性としては向上させつつ、最適位置の外部にいる聴取者にとっての体験を改善することに向けられる。
【0024】
描画200は、漏話キャンセラーを用いて生成されるスイートスポット位置202の発生を示している。式(3)によって記述されるバイノーラル信号への漏話キャンセラーの適用および式(5)および(7)によって記述されるオブジェクト信号へのバイノーラル・フィルタの適用は、周波数領域における行列乗算として直接実装されてもよいことを注意しておくべきである。しかしながら、等価な適用が、時間領域で、多様なトポロジーで構成された適切なFIR(有限インパルス応答)もしくはIIR(無限インパルス応答)フィルタとの畳み込みを通じて達成されてもよい。
【0025】
空間的オーディオの再生において、スイートスポット202は、三つ以上のスピーカーを利用することによって二人以上の聴取者に拡張されてもよい。これは、たいていの場合、5.1サラウンド・システムでのように、三つ以上のスピーカーを用いてより大きなスイートスポットを囲むことによって達成される。そのようなシステムでは、たとえば聴取者(単数または複数)の背後から聞こえることが意図される音は、該聴取者の背後に物理的に位置するスピーカーによって生成され、よって、聴取者全員がそうした音を背後からくるものとして知覚する。他方、ステレオ・スピーカーを通じた仮想空間的レンダリングでは、背後からのオーディオの知覚は、バイノーラル信号を生成するために使用されるHRTFによって制御され、スイートスポット202にいる聴取者によってのみ適正に知覚されることになる。スイートスポットの外部の聴取者は、そのオーディオを、自分の前方のステレオ・スピーカーから発するものとして知覚する可能性が高い。そのようなサラウンド・システムの設置は、その恩恵にもかかわらず、多くの消費者にとって実際的ではない。ある種の場合には、消費者は、すべてのスピーカーを聴取環境の前方に、しばしばテレビジョン・ディスプレイと同じ位置に保持するほうを好むことがありうる。他の場合には、空間または設備の入手可能性が制約されることがある。
【0026】
諸実施形態は、利用されるすべてのスピーカー対が実質的に同位置であることを許容するが同位置であることは必須ではない仕方で、スイートスポットの外部の聴取者のために三つ以上のスピーカーを使うことと、スイートスポット内部の聴取者にとっての体験を維持または改善することとの恩恵を組み合わせるような仮想空間的レンダリングとの関連での複数のスピーカー対の使用に向けられる。仮想空間的レンダリング方法は、複数の漏話キャンセラーの間で各オーディオ・オブジェクトから生成されるバイノーラル信号をパンすることによって、複数対のラウドスピーカーに拡張される。漏話キャンセラー間のパンは、各オーディオ・オブジェクトに関連付けられた位置によって制御され、同じ位置が各オブジェクトに関連付けられたバイノーラル・フィルタ対を選択するために利用される。複数の漏話キャンセラーは、対応する複数のスピーカー対のために設計され、該複数のスピーカー対にフィードされる。各スピーカー対は、意図される聴取位置に対して異なる物理的位置および/または配向をもつ。
【0027】
上記のように、多オブジェクト・バイノーラル信号では、スピーカー信号を生成するレンダリング・チェーン全体は、式(8)の総和の表式によって与えられる。この表式は、式(8)の、M対のスピーカーへの次の拡張によって記述されてもよい。
【0028】
【数9】
上記の式(9)では、変数は以下の割り当てをもつ。
【0029】
o
i= N個のうちi番目のオブジェクトについてのオーディオ信号
B
i= B
i=HRTF{pos(o
i)}によって与えられる、i番目のオブジェクトについてのバイノーラル・フィルタ対
α
ij= i番目のオブジェクトについてのj番目の漏話キャンセラーへのパン係数
C
j= j番目のスピーカー対についての漏話キャンセラー行列
s
j= j番目のスピーカー対に送られるステレオ・スピーカー信号。
【0030】
各オブジェクトiに関連付けられるM個のパン係数は、可能性としては時間変動するオブジェクトの位置を入力として取るパン関数を使って計算される。
【0031】
【数10】
式(9)および式(10)は、
図3に描かれるブロック図によって等価に表現される。
図3は、複数の漏話キャンセラーの間で、オーディオ・オブジェクトから生成されるバイノーラル信号をパンするシステムを示しており、
図4は、ある実施形態のもとでの、複数の漏話キャンセラーの間でバイノーラル信号をパンする方法を示すフローチャートである。描画300および400に示されるように、N個のオブジェクト信号o
iのそれぞれについて、オブジェクト位置pos(o
i)の関数として選択されるバイノーラル・フィルタの対B
iがまず適用されて、バイノーラル信号を生成する(ステップ402)。同時に、パン関数は、オブジェクト位置pos(o
i)に基づいてM個のパン係数a
i1……a
iMを計算する(ステップ404)。各パン係数は、別個にバイノーラル信号に乗算されて、M個のスケーリングされたバイノーラル信号を生成する(ステップ406)。M個の漏話キャンセラーC
jのそれぞれについて、N個のオブジェクト全部からのj番目のスケーリングされたバイノーラル信号が総和される(ステップ408)。次いで、この総和された信号は漏話キャンセラーによって処理され、j番目のスピーカー信号対s
jを生成する。この信号対がj番目のラウドスピーカー対を通じて再生される(ステップ410)。
図4に示されるステップの順序は、示される序列に厳密に固定されるのではなく、図示したステップまたは工程の一部がプロセス400の序列とは異なる序列において他のステップの前または後に実行されてもよいことを注意しておくべきである。
【0032】
複数ラウドスピーカー対の恩恵をスイートスポットの外部の聴取者に拡張するために、パン関数は、(ミキサーまたはコンテンツ・クリエーターによって意図されるところの)オブジェクトの所望される物理的位置をそうした聴取者に伝達するのを助ける仕方で、オブジェクト信号を諸スピーカー対に分散させる。たとえば、オブジェクトが頭上から聞こえることが意図されている場合、パン手段は、オブジェクトを、すべての聴取者にとって高さの感覚を最も効果的に再現するスピーカー対にパンする。オブジェクトが側方に聞かれることが意図されている場合、パン手段は、オブジェクトを、すべての聴取者にとって幅の感覚を最も効果的に再現するスピーカー対にパンする。より一般には、パン係数の最適な集合を計算するために、パン関数は、各オブジェクトの所望される空間的位置を、各スピーカー対の空間的再生機能と比較する。
【0033】
一般に、実際的ないかなる数のスピーカー対が、いかなる適切なアレイにおいて使われてもよい。ある典型的な実装では、
図5に示されるように聴取者の前方でみな共位置にある三つのスピーカー対が、アレイにおいて利用されてもよい。描画500に示されるように、聴取者502はスピーカー・アレイ504に対するある位置に位置される。アレイは、アレイの軸に対する特定の方向に音を投射するいくつかのドライバを含む。たとえば、
図5に示されるように、第一のドライバ対506は、聴取者に向かって前方を指し(前方発射ドライバ)、第二の対508は横を指し(側方発射ドライバ)、第三の対510は上方を指す(上方発射ドライバ)。これらの対は、前方506、側方508および高さ510とラベル付けされ、それぞれに対して漏話キャンセラーC
F、C
SおよびC
Hがそれぞれ関連付けられる。
【0034】
各スピーカー対と関連付けられた漏話キャンセラーならびに各オーディオ・オブジェクトについてのバイノーラル・フィルタの生成両方のために、パラメトリックな球状頭部モデルHRTFが利用される。ある実施形態では、そのようなパラメトリックな球状頭部モデルHRTFは、ここに参照によって組み込まれ本願に付録1として添付される「ダイナミックレンジ圧縮のあるサラウンドサウンド仮想化器および方法」という名称の米国特許出願第13/132,570号(米国特許出願公開第2011/0243338号)に記載されるように生成されてもよい。一般に、これらのHRTFは、聴取者の正中面に対するオブジェクトの角度のみに依存する。
図5に示されるように、この正中面での角度は0度と定義され、左側の角度は負と定義され、右側の角度は正と定義される。
【0035】
図5に示されるスピーカー・レイアウトについて、スピーカー角θ
Cは三つのスピーカー対すべてについて同じであることが想定され、よって、漏話キャンセラー行列Cは三つの対すべてについて同じである。各対がほぼ同じ位置になかったとしたら、角度は各対について異なる設定をされることができる。HRTF
L{θ}およびHRTF
R{θ}が、角度θにおけるオーディオ源に関連付けられた左および右のパラメトリックHRTFフィルタを定義するとする。式(2)において定義される漏話キャンセラー行列の四つの要素は次式によって与えられる。
【0036】
【数11】
各オーディオ・オブジェクト信号o
iには、可能性としては時間変動する、デカルト座標で与えられる位置{x
i,y
i,z
i}が関連付けられる。好ましい実施形態において用いられるパラメトリックHRTFは、いかなる高度手がかりも含まないので、HRTF関数からバイノーラル・フィルタ対を計算する際に、オブジェクト位置のxおよびy座標のみが利用される。これらの{x
i,y
i}座標は等価な動径および角度{r
i,θ
i}に変換される。ここで、動径は0から1までの間にあるように規格化される。ある実施形態では、パラメトリックHRTFは聴取者からの距離に依存せず、よって動径は次のように左右のバイノーラフ・フィルタの計算に組み込まれる。
【0037】
【数12】
動径が0のとき、バイノーラル・フィルタはすべての周波数を通じて単に1であり、聴取者は、両方の耳で同じようにオブジェクト信号を聞く。これは、オブジェクト位置が聴取者の頭の内部に厳密に位置している場合に相当する。動径が1のときは、フィルタは角度θ
iで定義されたパラメトリックHRTFに等しい。動径項の平方根を取ると、フィルタのこの補間は、空間的情報をよりよく保存するHRTFに向けてバイアスされる。この計算が必要となるのは、パラメトリックHRTFモデルが距離手がかりを組み込まないからであることを注意しておく。異なるHRTF集合はそのような手がかりを組み込んでいてもよく、その場合、式(12a)および(12b)によって記述される補間は必要なくなる。
【0038】
各オブジェクトについて、三つの漏話キャンセラーそれぞれについてのパン係数が、各キャンセラーの配向に対するオブジェクト位置{x
i,y
i,z
i}から計算される。上方発射スピーカー対510は、天井または聴取環境の他の上の表面から音を反射させることによって、上からの音を伝達するために意図されている。よって、その関連付けられたパン係数は、高度座標z
iに比例する。前方および側方発射対のパン係数は、{x
i,y
i}座標から導出されるオブジェクト角度θ
iによって支配される。θ
iの絶対値は30度未満であり、オブジェクトは完全に前方対506にパンされる。θ
iの絶対値が30から90度の間であるときは、オブジェクトは前方対と側方対506および508の間にパンされる。θ
iの絶対値が90度より大きいときは、オブジェクトは完全に側方対508にパンされる。このパン・アルゴリズムでは、スイートスポット502にいる聴取者は、三つの漏話キャンセラーすべての恩恵を受ける。さらに、上方発射対を用いて高度の知覚が加えられ、側方発射対は、横および後に混合される、オブジェクトについての拡散性の要素を加え、これは知覚される包み込みを向上させることができる。スイートスポットの外部の聴取者にとっては、キャンセラーはその有効性の多くを失うが、これらの聴取者は、それでも上方発射対からの高度の知覚ならびに前方から側方へのパンからの直接音と拡散音の間の変化を得る。
【0039】
描画400に示されるように、本方法のある実施形態は、パン関数を使ってオブジェクト位置に基づくパン係数を計算することに関わる(ステップ404)。α
iF、α
iSおよびα
iHがi番目のオブジェクトの、前方、側方および高さ漏話キャンセラーへのパン係数を表わすとすると、これらのパン係数の計算のためのアルゴリズムは次によって与えられる。
【0040】
【数13】
上記のアルゴリズムは、パンされる際のすべてのオブジェクト信号のパワーを維持することを注意しておくべきである。このパワーの維持は次のように表わせる。
【0041】
α
iF2+α
iS2+α
iH2=1 (13h)
ある実施形態では、パンおよび相互相関を使う仮想化器方法およびシステムが、固定されたチャネル信号と一緒の動的なオブジェクト信号の混合を含む次世代空間的オーディオ・フォーマットに適用されてもよい。そのようなシステムは、ここに参照によって組み込まれ本願に付録2として添付される「適応オーディオ信号生成、符号化およびレンダリングのためのシステムおよび方法」という名称の、2012年4月20日に出願された、係属中の米国仮特許出願第61/636,429号において記述される空間的オーディオ・システムに対応してもよい。サラウンドサウンド・アレイを使うある実装では、固定チャネル信号は、固定した空間的位置を各チャネルに割り当てることによって、上記のアルゴリズムで処理されてもよい。左、右、中央、左サラウンド、右サラウンド、左高さおよび右高さからなる七チャネル信号の場合、次の{r θ z}座標が想定されてもよい:
左 {1,−30,0}
右 {1,30,0}
中央 {1,0,0}
左サラウンド {1,−90,0}
右サラウンド {1,90,0}
左高さ {1,−30,1}
右高さ {1,30,1}。
【0042】
図5に示されるように、好ましいスピーカー・レイアウトは、単一の離散的な中央スピーカーをも含んでいてもよい。この場合、中央チャネルは、
図4の回路によって処理されるのではなく、直接この中央スピーカーにルーティングされてもよい。純粋にチャネル・ベースのレガシー信号が該好ましい実施形態によってレンダリングされる場合には、各オブジェクト位置が静的なので、システム400の要素すべては、時間を通じて一定である。この場合、これらの要素のすべては、システムの立ち上げ時に一度事前計算されるのでもよい。さらに、バイノーラル・フィルタ、パン係数および漏話キャンセラーは、各固定オブジェクトについてM対の固定されたフィルタに事前に組み合わされてもよい。
【0043】
前方/側方/上方発射ドライバをもつ共位置のドライバ・アレイに関して諸実施形態が記述されたが、可能な実施形態は実際的に他にいくらでもある。たとえば、スピーカーの側方対は除外されて、前方を向くスピーカーと上方を向くスピーカーのみとしてもよい。また、上方発射スピーカー対の代わりに前方を向く対の上の天井近くに位置され、直接聴取者の方を向くスピーカーの対としてもよい。この構成は、たとえばスクリーンの側辺に沿って下から上へと離間されている多数のスピーカー対に拡張されてもよい。
【0044】
〈仮想レンダリングのための等化〉
諸実施形態は、仮想化されるモノフォニック・オーディオ信号に適用される漏話キャンセラー・フィルタおよびバイノーラル・フィルタ両方から計算される漏話キャンセラーについての改善された等化にも向けられる。その結果は、スイートスポットの外部の聴取者にとっての改善された音色および標準レンダリングから仮想レンダリングに切り換わるときのより小さな音色シフトである。
【0045】
上記のように、ある種の実装では、仮想レンダリング効果はしばしば、漏話キャンセラーの設計において想定される、スピーカーに対する位置に聴取者が座ることに強く依存する。たとえば、聴取者が正しいスイートスポットに座っていない場合、漏話打ち消し効果は部分的または完全に損なわれることがある。この場合、バイノーラル信号によって意図される空間的印象は聴取者によって完全には知覚されない。さらに、スイートスポットから外れた聴取者はしばしば、結果として得られるオーディオの音色が不自然であるという不満をもつことがありうる。
【0046】
音色に関するこの問題に対処するために、バイノーラル信号bの知覚される音色を位置にかかわりなくすべての聴取者にとってより自然なものにするという目標をもって、式(2)における漏話キャンセラーのさまざまな等化が提案されてきた。そのような等化は、
【数14】
に従ってスピーカー信号の計算に加えられてもよい。
【0047】
上記の式(14)において、Eは左および右のスピーカー信号両方に適用される単一の等化フィルタである。そのような等化を調べるために、式(2)は次の形に再配列されることができる。
【0048】
【数15】
聴取者が二つのスピーカーの間に対称的に配置されているとすると、ITF
L=ITF
RかつEQF
L=EQF
Rであり、式(6)は次に帰着する。
【0049】
【数16】
漏話キャンセラーのこの定式化に基づいて、いくつかの等化フィルタEが使用されてもよい。たとえば、バイノーラル信号がモノである(左右の信号が等しい)場合、次のフィルタが使用されてもよい。
【0050】
【数17】
バイノーラル信号の二つのチャネルが統計的に独立である場合についての代替的なフィルタは、次のように表わされてもよい。
【0051】
【数18】
そのような等化は、バイノーラル信号bの知覚される音色に関して恩恵を与えうる。しかしながら、バイノーラル信号bはしばしばモノラル・オーディオ・オブジェクト信号oから、バイノーラル・レンダリング・フィルタB
LおよびB
Rの適用を通じて合成される。
【0052】
【数19】
レンダリング・フィルタ対Bはたいていの場合、聴取者に対する空間内でのある関連付けられた位置から発するオブジェクト信号oの印象を与えるよう選ばれた一対のHRTFによって与えられる。式の形では、この関係は次のように表わせる。
【0053】
【数20】
上式において、pos(o)は聴取者に対する3D空間内のオブジェクト信号oの所望される位置を表わす。この位置は、デカルト座標(x,y,z)または極座標のような他の任意の等価な座標系で表わされてもよい。この位置は、空間を通じたオブジェクトの動きをシミュレートするために時間的に変化していてもよい。関数HRTF{}は、位置によってアドレッシング可能なHRTFの集合を表わすことが意図されている。実験室において人間の被験者から測定された多くのそのような集合が存在する。たとえば、CIPICデータベースである。代替的に、上記集合は、先述した球状頭部モデルのようなパラメトリック・モデルで構成されていてもよい。実際的な実装では、漏話キャンセラーを構築するために使われるHRTFは、しばしば、バイノーラル信号を生成するために使われるのと同じ集合から選ばれる。ただし、これは必須ではない。
【0054】
式(19)を式(14)に代入すると、
【数21】
に従ってオブジェクト信号から計算された、等化されたスピーカー信号が得られる。
【0055】
多くの仮想空間的レンダリング・システムにおいて、ユーザーはオーディオ信号oの標準的レンダリングから式(21)を用いるバイノーラル化され、漏話打ち消しされたレンダリングへと切り換えることができる。そのような場合、漏話キャンセラーCとバイノーラル化フィルタBの適用両方から音色シフトが帰結することがあり、そのようなシフトが聴取者によって不自然であると知覚されることがある。式(17)および(18)によって例示されるように、単に漏話キャンセラーから計算される等化フィルタEは、バイノーラル化フィルタを考慮に入れないので、この音色シフトをなくすことができない。諸実施形態は、この音色シフトを解消または軽減する等化フィルタに向けられる。
【0056】
式(14)によって記述されるバイノーラル信号への等化フィルタおよび漏話キャンセラーの適用ならびに式(19)によって記述されるオブジェクト信号へのバイノーラル・フィルタの適用は、周波数領域における行列乗算として直接的に実装されてもよいことを注意しておくべきである。しかしながら、等価な適用が、時間領域で、多様なトポロジーで構成された適切なFIR(有限インパルス応答)もしくはIIR(無限インパルス応答)フィルタとの畳み込みを通じて達成されてもよい。
【0057】
改善された等化フィルタを設計するために、式(21)をその成分の左および右のスピーカー信号に展開することが有用である。
【0058】
【数22】
上式で、スピーカー信号は、左右のレンダリング・フィルタR
LおよびR
Rおよびそれに続く等化Eがオブジェクト信号oに適用されたものとして表現できる。これらのレンダリング・フィルタのそれぞれは、式(22b)および(22c)に見られるように、漏話キャンセラーCおよびバイノーラル・フィルタB両方の関数である。プロセスは、スピーカーに対する聴取者の位置にかかわりない自然な音色を、オーディオ信号が仮想化なしでレンダリングされるときと実質的に同じ音色とともに達成するという目標をもって、等化フィルタEをこれら二つのレンダリング・フィルタR
LおよびR
Rの関数として計算する。
【0059】
任意の特定の周波数において、オブジェクト信号の左右のスピーカー信号中への混合は、
【数23】
として一般的に表わせる。
【0060】
上式(23)において、α
Lおよびα
Rは混合係数であり、これらの係数は周波数を通じて変わりうる。したがって、非仮想レンダリングについてオブジェクト信号が左右のスピーカー信号中に混合される仕方が式(23)によって記述されうる。実験的に、オブジェクト信号oの知覚される音色またはスペクトル・バランスは、左右のスピーカー信号の組み合わされたパワーによってよくモデル化されることが見出された。これは、二つのラウドスピーカーのまわりの幅広い聴取領域について成り立つ。式(23)から、非仮想化スピーカー信号の組み合わされたパワーは次式によって与えられる。
【0061】
【数24】
式(13)から、仮想化スピーカー信号の組み合わされたパワーは次式によって与えられる。
【0062】
【数25】
最適な等化フィルタE
optは、P
V=P
NVと置いて、Eについて解くことによって見出される。
【0063】
【数26】
式(26)における等化フィルタE
optは、仮想化レンダリングについて、幅広い聴取領域を通じて一貫しており、かつ非仮想化レンダリングについてと実質的に同じ音色を与える。E
optはレンダリング・フィルタR
LおよびR
Rの関数として計算されていることが見て取れる。これらのレンダリング・フィルタは今度は漏話キャンセラーCおよびバイノーラル化フィルタB両方の関数である。
【0064】
多くの場合、非仮想化レンダリングについてのオブジェクト信号の左右のスピーカーへの混合は、パワーを保存するパン則に従う。つまり、下記の式(27)の等号がすべての周波数について成り立つ。
【0065】
【数27】
この場合、等化フィルタは次のように簡略化される。
【0066】
【数28】
このフィルタを使うと、左右のスピーカー信号のパワースペクトルの和は、オブジェクト信号のパワースペクトルに等しくなる。
【0067】
図6は、ある実施形態のもとでの、単一オブジェクトoについて適用される等化プロセスを描く図であり、
図7は、ある実施形態のもとでの、単一オブジェクトについての上記等化プロセスを実行する方法を示すフローチャートである。描画700に示されるように、バイノーラル・フィルタ対Bはまず、オブジェクトの可能性としては時間変動する位置の関数として計算され(ステップ702)、次いでオブジェクト信号に適用されて、ステレオ・バイノーラル信号を生成する(ステップ704)。次に、ステップ706に示されるように、漏話キャンセラーCが上記バイノーラル信号に適用されて、前置等化されたステレオ信号を生成する。最後に、等化フィルタEが適用されて、ステレオ・ラウドスピーカー信号sを生成する(ステップ708)。この等化フィルタは、漏話キャンセラーCおよびバイノーラル・フィルタ対B両方の関数として計算されてもよい。オブジェクト位置が時間変動する場合、バイノーラル・フィルタは時間を追って変化する。つまり、等化Eフィルタも時間とともに変化する。
図7に示されるステップの順序は、図示される序列に厳密に固定されているわけではないことを注意しておくべきである。たとえば、等化器フィルタ・プロセス708は、漏話キャンセラー・プロセス706の前または後に適用されうる。また、
図6に示されるように、実線601はオーディオ信号の流れを描くことが意図されており、一方、破線603はパラメータの流れを表わすことが意図されていることも注意しておくべきである。ここで、パラメータは、HRTF関数に関連付けられているパラメータである。
【0068】
多くの応用において、空間内のさまざまな、可能性としては時間変動する位置に置かれている多数のオーディオ・オブジェクト信号が同時にレンダリングされる。そのような場合、バイノーラル信号は、関連付けられたHRTFが適用されたオブジェクト信号の和によって与えられる:
【数29】
この多オブジェクト・バイノーラル信号では、本発明の等化を含む、スピーカー信号を生成するためのレンダリング・チェーン全体は次式によって与えられる。
【0069】
【数30】
単一オブジェクトの式(21)に比べ、等化フィルタが漏話キャンセラーの前に移されている。こうすることによって、すべての成分オブジェクト信号に共通の漏話が和の外に出せる。他方、各等化フィルタE
iは、各オブジェクトのバイノーラル・フィルタB
iに依存するので、各オブジェクトに特有である。
【0070】
図8は、ある実施形態のもとでの、同じ漏話キャンセラーを通じて入力された複数のオブジェクトに同時に等化プロセスを適用するシステムのブロック
図800である。多くの応用において、オブジェクト信号o
iは、左、中央、右、左サラウンドおよび右サラウンドからなる5.1信号のような多チャネル信号の個々のチャネルによって与えられる。この場合、各オブジェクトに関連付けられたHRTFは、各チャネルに関連付けられた固定スピーカー位置に対応するよう選ばれてもよい。このようにして、5.1サラウンド・システムは、ステレオ・ラウドスピーカーのセットを通じて仮想化されてもよい。他の応用では、オブジェクトは、3D空間の任意のところに自由に動くことが許容される源であってもよい。次世代空間的オーディオ・フォーマットの場合、式(30)におけるオブジェクトの集合は、自由に動くオブジェクトと固定されたチャネルの両方からなっていてもよい。
【0071】
ある実施形態では、漏話キャンセラーおよびバイノーラル・フィルタは、パラメトリックな球状頭部モデルHRTFに基づく。そのようなHRTFは、聴取者の正中面に対するオブジェクトの方位角によってパラメータ化される。正中面における角度は0度と定義され、左側の角度は負、右側の角度は正である。漏話キャンセラーおよびバイノーラル・フィルタのこの特定の定式化を与えられると、最適な等化フィルタE
optは式(28)に従って計算される。
図9は、第一の実施形態のもとでの、レンダリング・フィルタについての周波数応答を描くグラフである。
図9に示されるように、プロット900は、物理的なスピーカー離間角度20度および仮想オブジェクト位置−30度に対応する、レンダリング・フィルタR
LおよびR
Rと、結果として得られる等化フィルタE
optとの大きさ周波数応答を描いている。異なるスピーカー離間構成については異なる応答が得られることがある。
図10は、第二の実施形態のもとでの、レンダリング・フィルタについての周波数応答を描くグラフである。
図10は、物理的なスピーカー離間角度20度および仮想オブジェクト位置−30度についてのプロット1000を描いている。
【0072】
本稿に記載される仮想化および等化技法の諸側面は、適切なスピーカーおよび再生装置を通じたオーディオまたはオーディオ/ビジュアル・コンテンツの再生のためのシステムの諸側面を表わし、映画館、コンサート・ホール、野外シアター、家庭または部屋、聴取ブース、自動車、ゲーム・コンソール、ヘッドホンまたはヘッドセット・システム、パブリック・アドレス(PA)システムまたは他の任意の再生環境のような捕捉されたコンテンツの再生を聴取者が体験する任意の環境を表わしうる。諸実施形態は、空間的オーディオ・コンテンツがテレビジョン・コンテンツに関連する家庭シアター環境において適用されてもよいが、実施形態は他の消費者ベースのシステムでも実装されうることは注意しておくべきである。オブジェクト・ベースのオーディオおよびチャネル・ベースのオーディオを含む空間的オーディオ・コンテンツは、任意の関係したコンテンツ(関連したオーディオ、ビデオ、グラフィックなど)との関連で使用されてもよいし、あるいは単体のオーディオ・コンテンツをなしてもよい。再生環境は、ヘッドホンまたは近距離場モニタから大小の部屋、自動車、戸外アリーナ、コンサート・ホールなどまでの任意の適切な聴取環境でありうる。
【0073】
本稿に記載されるシステムの諸側面は、デジタルまたはデジタイズされたオーディオ・ファイルを処理するための適切なコンピュータ・ベースの音処理ネットワーク環境において実装されうる。適応オーディオ・システムの諸部分は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするはたらきをする一つまたは複数のルータ(図示せず)を含む、任意の所望される数の個別の機械を有する一つまたは複数のネットワークを含んでいてもよい。そのようなネットワークは、さまざまな異なるネットワーク・プロトコルの上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)またはその任意の組み合わせであってもよい。ネットワークがインターネットを含むある実施形態では、一つまたは複数の機械がウェブ・ブラウザ・プログラムを通じてインターネットにアクセスするよう構成されていてもよい。
【0074】
上記のコンポーネント、ブロック、プロセスまたは他の機能構成要素の一つまたは複数は、システムのプロセッサ・ベースのコンピューティング装置の実行を制御するコンピュータ・プログラムを通じて実装されてもよい。本稿に開示されるさまざまな機能は、ハードウェア、ファームウェアのいくつもある組み合わせを使っておよび/またはさまざまな機械可読もしくはコンピュータ可読媒体において具現されたデータおよび/または命令として、挙動上の、レジスタ転送、論理コンポーネントおよび/または他の特性を用いて記載されることがあることを注意しておくべきである。そのようなフォーマットされたデータおよび/または命令が具現されうるコンピュータ可読媒体は、光学式、磁気式もしくは半導体記憶媒体のようなさまざまな形の物理的(非一時的)、不揮発性記憶媒体を含むがそれに限定されない。
【0075】
文脈がそうでないことを明確に要求するのでないかぎり、本記述および請求項を通じて、単語「有する」「含む」などは、排他的もしくは網羅的な意味ではなく包含的な意味に解釈されるものとする。すなわち、「……を含むがそれに限定されない」の意味である。単数または複数を使った単語は、それぞれ複数または単数をも含む。さらに、「本稿で」「以下で」「上記で」「下記で」および類似の意味の単語は、全体としての本願を指すのであって、本願のいかなる特定の部分を指すものでもない。単語「または」が二つ以上の項目のリストを参照して使われるとき、その単語は該単語の以下の解釈のすべてをカバーする:リスト中の項目の任意のもの、リスト中の項目のすべておよびリスト中の項目の任意の組み合わせ。
【0076】
一つまたは複数の実装が、例として、個別的な実施形態を用いて記載されているが、一つまたは複数の実装は開示される実施形態に限定されないことは理解されるものとする。逆に、当業者に明白であろうさまざまな修正および類似の構成をカバーすることが意図されている。したがって、付属の請求項の範囲は、そのようなすべての修正および類似の構成を包含するような最も広い解釈を与えられるべきである。