(58)【調査した分野】(Int.Cl.,DB名)
前記変調することは、前記差情報の前記包絡線および前記平滑化された差情報のうちの一方または両方に少なくとも一部は基づき、前記少なくとも1つの遠近感フィルタの前記適用を変調することを備える、請求項2に記載の方法。
前記変調することは、前記正規化された差情報に少なくとも一部は基づき、前記少なくとも1つの遠近感フィルタの前記適用を変調することを備える、請求項4に記載の方法。
前記正規化することは、前記左および右のオーディオ信号の幾何平均を計算することと、前記計算された幾何平均で前記差情報を除算することと、を備える、請求項4または5に記載の方法。
前記左および右の出力信号にクロストークキャンセルを適用して、バックウェーブクロストークを低減することをさらに備える、請求項1から6のいずれかに記載の方法。
前記少なくとも1つの遠近感フィルタを適用することの前に、前記差情報に少なくとも一部は基づき、前記左および右のオーディオ信号に深度レンダリング拡張を適用することをさらに備え、そして選択的に、前記左および右のオーディオ信号に前記深度レンダリング拡張を前記適用することは、前記左および右のオーディオ信号を脱相関することを備える、請求項1から7のいずれかに記載の方法。
前記サラウンドプロセッサは、前記差信号の前記包絡線および前記平滑化された差信号のうちの一方または両方に少なくとも一部は基づき、前記変調を実施するように構成される、請求項10に記載のシステム。
前記左および右の出力信号にクロストークキャンセルを適用するように構成されたクロストークキャンセラをさらに備える、請求項9から14のいずれか一項に記載のシステム。
前記少なくとも1つの遠近感フィルタを適用する前に、前記差信号に少なくとも一部は基づき、前記左および右のオーディオ信号に深度をレンダリングするように構成された深度レンダリング構成要素をさらに備え、そして選択的に、前記深度レンダリング構成要素は、前記左および右のオーディオ信号を少なくとも脱相関することにより、前記深度をレンダリングするようにさらに構成される、請求項9から15のいずれか一項に記載のシステム。
【発明を実施するための形態】
【0016】
I.序文
サラウンド・サウンド・システムは、リスナの周囲に位置する複数のスピーカからサウンドを投射することにより没入型オーディオ環境を生み出そうとする。サラウンド・サウンド・システムは、典型的には、ステレオシステムなどの、より少ないスピーカを有するシステムよりも、オーディオファンに、より好まれる。しかしながら、ステレオシステムはしばしば、より少ないスピーカを有するためにより安価であり、したがって、ステレオスピーカを使ってサラウンドサウンド効果を近似するために、多くの取り組みが行われた。このような取り組みにもかかわらず、3つ以上のスピーカを有するサラウンドサウンド効果は、ステレオシステムよりしばしば没入できる。
【0017】
この開示は、ステレオスピーカを利用して、多分他のスピーカ構成の間の没入型効果を達成する深度処理システムについて説明する。深度処理システムは、有利には、位相および/振幅の情報を操作して、リスナの正中面に沿ってオーディをレンダリングすることができ、それにより、リスナに対して変わる深度でオーディオをレンダリングする。一実施形態では、深度処理システムは、左および右のステレオ入力信号を解析して、時間とともに変化してもよい深度を推測する。深度処理システムは、次いで、複数のオーディオ信号間の位相および/または振幅の脱相
関を時間とともに変えることができ、それにより、没入型深度効果を生み出す。
【0018】
電子デバイス、たとえば電話機、テレビ、ラップトップ、他のコンピュータ、携帯型メディアプレーヤ、カー・ステレオ・システムなどで、本明細書で説明するオーディオシステムの特徴を実現して、2つ以上のスピーカを使用する没入型オーディオ効果を生み出すことができる。
【0019】
II.オーディオ深度推定およびレンダリングの実施形態
図1Aは、没入型オーディオ環境100の一実施形態を示す。図示する没入型オーディオ環境100は、2(または3つ以上)チャンネルオーディオ入力を受信し、かつ左および右のスピーカ112、114への2チャンネルオーディオ出力を、サブウーファ116への任意選択の第3の出力とともに作り出す深度処理システム110を含む。有利には、ある種の実施形態では、深度処理システム110は、2チャンネルオーディオ入力信号を解析して、これらの信号に関する深度情報を推定または推測する。この深度情報を使用して、深度処理システム110は、複数のオーディオ入力信号を調節して、左および右のステレオスピーカ112、114に提供される複数のオーディ出力信号に深度の感覚を生み出すことができる。その結果、左および右のスピーカは、リスナ102に対して没入型音場(曲線で示す)を出力することができる。この没入型音場は、リスナ102に対して深度の感覚を生み出すことができる。
【0020】
深度処理システム110により提供される没入型音場効果は、サラウンド・サウンド・スピーカの没入型効果より効果的に機能することができる。したがって、サラウンドシステムの近似と考えるのではなく、深度処理システム110は、既存のサラウンドシステムに対して利益を提供することができる。ある種の実施形態で提供される1つの利点が、没入型音場効果は、スイートスポットとは比較的に無関係とすることができ、リスニング空間全体に没入型効果を提供することである。しかしながら、いくつかの実施形態では、スピーカ間にほぼ等距離に、および2つのスピーカとともに実質的に正三角形を形成する角度で(破線104で示す)リスナ2を配置することにより、強められた没入型効果を達成することができる。
【0021】
図1Bは、深度レンダリングの実施形態に関係のあるリスニング環境150の態様を示す。リスナ102に関連する2つの幾何学的平面160、170の関連においてリスナ102を示す。これらの平面は、正中(median)面または矢状(saggital)面160、および額(frontal)面または冠状(coronal)面170を含む。有益には、いくつかの実施形態では、リスナ102の正中面に沿ってオーディオをレンダリングすることにより、3次元オーディオ効果を得ることができる。
【0022】
参考に、リスナ102の隣に一例の座標系180を示す。この座標系180では、正中面160はy−z平面内にあり、冠状面170はx−y平面内にある。x−y平面はまた、リスナ102に向く2つのステレオスピーカ間に形成されてもよい平面に対応する。座標系180のz軸は、このような平面に対する法線とすることができる。いくつかの実施形態では、正中面160に沿ってオーディオをレンダリングすることは、座標系180のz軸に沿ってオーディオをレンダリングすることであると考えることができる。したがって、たとえば、正中面に沿って深度処理システム110により深度効果をレンダリングすることができ、その結果、一部のサウンドが、正中面160に沿ってリスナにより近く聞こえ、一部のサウンドが正中面160に沿ってリスナ102から遠く聞こえる。
【0023】
深度処理システム110はまた、正中面160と冠状面170の両方に沿ってサウンドをレンダリングすることができる。いくつかの実施形態では、3次元でレンダリングする能力が、オーディオシーンでリスナ102の没入感覚を増大させることができ、同じく、一緒に体験したときに、3次元ビデオの錯覚を強めることができる。
【0024】
図2Aおよび
図2Bに描く例示的音源シナリオ200によりリスナの深度知覚を可視化することができる。
図2Aでは、音源252がリスナ202から離れて位置決めされるが、一方、音源252は、
図2Bでは、リスナ202に比較的より近い。典型的には、音源が両耳で知覚され、音源252により近い耳が、もう一方の耳より早くサウンドを聴く。一方の耳から他方の耳までのサウンド知覚の遅延を、両耳間時間遅延(interaural time delay、ITD)と考えることができる。さらに、より近い耳について音源の強度がより大きい可能性があり、両耳間強度差(interaural intensity difference、IID)をもたらす。
【0025】
図2Aおよび
図2Bで、音源252からリスナ202の各耳まで引かれた線272、274が、夾角を形成する。この角度は、
図2Aおよび
図2Bに示すように、離れるとより小さくなり、音源252がより近いときにより大きい。音源252がリスナ202から遠く離れるほど、それだけ音源252が0°の夾角を有する点音源に近づく。したがって、離れた音源252を表す左および右のオーディオ信号は、比較的位相が合っている場合があり、より近い音源252を表すこれらの信号は、比較的位相がずれている場合がある(リスナ102を基準にして非ゼロの到来方位角を仮定しており、その結果、音源252はリスナの直接前に存在しない)。したがって、離れた音源252のITDおよびIIDが、より近い音源252のITDおよびIIDより比較的小さい場合がある。
【0026】
ステレオ録音は、2つのスピーカを有しているために、リスナ102を基準にして音源252の深度を推測するために解析することができる情報を含むことができる。たとえば、左と右のステレオチャンネル間のITDおよびIIDの情報を、2チャンネル間の位相および/または振幅の脱相関として表すことができる。2チャンネルが脱相関されるほど、それだけ音場が広々とする場合があり、逆も成り立つ。深度処理システム110は、有利には、この位相および/または振幅の脱相関を操作して、リスナ102の正中面160に沿ってオーディオをレンダリングすることができ、それにより、変わる深度に沿ってオーディオをレンダリングする。一実施形態では、深度処理システム110は、左および右のステレオ入力信号を解析して、時間とともに変化することがある深度を推測する。深度処理システム110は、次いで、複数の入力信号間の位相および/または振幅の脱相
関を時間とともに変えて、この深度の感覚を生み出すことができる。
【0027】
図3A〜
図3Dは、深度処理システム310のより詳細な実施形態を示す。詳細には、
図3Aは、ステレオおよび/またはビデオの入力に基づき深度効果をレンダリングする深度処理システム310Aを示す。
図3Bは、サラウンドサウンドおよび/またはビデオの入力に基づき深度効果を生み出す深度処理システム310Bを示す。
図3Cでは、深度処理システム310Cは、オーディオオブジェクト情報を使用して深度効果を生み出す。
図3Dは、追加のクロストークキャンセル構成要素が提供されることを除き、
図3Aに類似する。これらの深度処理システム310の各々は、上述の深度処理システム110の特徴を実現することができる。さらに、図示する構成要素の各々を、ハードウェアおよび/またはソフトウェアで実現することができる。
【0028】
具体的に
図3Aを参照すると、深度処理システム310Aは、深度推定器320aに提供される左および右の入力信号を受信する。深度推定器320aは、2つの信号を解析して、2つの信号により表されるオーディオの深度を推定することができる信号解析構成要素の一例である。深度推定器320aは、この深度推定値に基づき複数の深度制御信号を生成することができ、深度レンダラ330aが、この深度推定値を使用して、2チャンネル間の位相および/または振幅の脱相関(たとえばITDおよびIIDの差)を強調することができる。描かれた実施形態では、深度レンダリングされた複数の出力信号が、任意選択のサラウンド処理モジュール340aに提供され、サラウンド処理モジュール340aは、任意選択で、サウンドステージを広げ、それにより深度の感覚を増大させることができる。
【0029】
ある種の実施形態では、深度推定器320aは、たとえばL−R信号を計算することにより、左および右の入力信号の差情報を解析する。L−R信号の大きさが、2つの入力信号の深度情報を反映することができる。
図2Aおよび
図2Bに関連して上述したように、LおよびRの信号は、サウンドがリスナにより近く動くときに、より位相がはずれるようになる可能性がある。したがって、より大きなL−R信号の大きさが、より小さなL−R信号の大きさより、より近い信号を反映する。
【0030】
深度推定器320aはまた、左および右の信号を別個に解析して、2つの信号のうちどちらが優勢であるかを判定することができる。一方の信号の優勢が、ITDおよび/またはIIDの差を調節して、優勢なチャンネルを強調し、それにより、深度をどう強調したらいいかに関する手がかりを提供することができる。したがって、いくつかの実施形態では、深度推定器320aは、制御信号L−R、L、R、および同じく任意選択でL+Rのうちいくつかまたはすべてを生み出す。深度推定器320aは、これらの制御信号を使用して、深度レンダラ330aにより適用されるフィルタ特性を調節することができる(以下で説明する)。
【0031】
いくつかの実施形態では、深度推定器320aはまた、上述のオーディオに基づく深度解析の代わりに、またはこれに加えて、ビデオ情報に基づき深度情報を判定することができる。深度推定器320aは、3次元ビデオから深度情報を解析することができる、または2次元ビデオから震度マップを生成することができる。このような深度情報から、深度推定器320aは、上述の複数の制御信号に類似する複数の制御信号を生成することができる。
図10A〜
図12に関連して、ビデオに基づく深度推定値について以下でより詳細に説明する。
【0032】
深度推定器320aは、複数のサンプルブロックに対して、またはサンプルごとに動作してもよい。便宜上、本明細書の残りの部分は、ブロックに基づく実装形態に言及するが、類似の実装形態がサンプルごとに基づき実施されてもよいことを理解されたい。一実施形態では、深度推定器320aにより生成される複数の制御信号は、複数のサンプルのブロック、たとえば、L−Rの複数のサンプルのブロック、L、R、および/またはL+Rの複数のサンプルのブロックなどを含む。さらに、深度推定器320aは、L−R、L、R、またはL+Rの信号を平滑化してもよい、および/またはこれらの信号の包絡線を検出してもよい。したがって、深度推定器320aにより生成される複数の制御信号は、さまざまな信号の平滑化されたバージョンおよび/またはこれらの信号の包絡線を表す複数のサンプルの1つまたは複数のブロックを含んでもよい。
【0033】
これらの制御信号を使用して、深度推定器320aは、深度レンダラ330aにより実現された1つまたは複数の深度レンダリングフィルタのフィルタ特性を操作することができる。深度レンダラ330aは、深度推定器320aから左および右の入力信号を受信し、1つまたは複数の深度レンダリングフィルタを複数の入力オーディオ信号に適用することができる。深度レンダラ330aの深度レンダリングフィルタ(複数)は、左および右の入力信号を選択的に相関および脱相関することにより、深度の感覚を生み出すことができる。深度レンダリングモジュールは、深度推定器320a出力に基づき、チャンネル間の位相および/またはゲインの差を操作することにより、この相関および脱相関を実施することができる。この脱相関は、複数の出力信号の部分的な脱相関であっても、完全な脱相関であってもよい。
【0034】
有利には、ある種の実施形態では、複数の入力信号から得られる制御情報またはステアリング情報に基づき、深度レンダラ330aにより実施させる動的脱相関が、単なるステレオの広大さではない深度の印象を生み出す。したがって、音源がスピーカから飛び出て、リスナに向かって、またはリスナから離れて動的に動くと、リスナが知覚する場合がある。ビデオと結びつけられたとき、ビデオ内の複数のオブジェクトにより表された複数の音源がビデオ内で複数のオブジェクトとともに動くように思えることができ、3次元オーディオ効果をもたらす。
【0035】
描かれた実施形態では、深度レンダラ330aは、深度レンダリングされた左および右の出力をサラウンドプロセッサ340aに提供する。サラウンドプロセッサ340aは、サウンドステージを広げることができ、それにより、深度レンダリング効果のスイートスポットを広くする。一実施形態では、サラウンドプロセッサ340aは、代理人整理番号SRSLABS.100C2の米国特許第7,492,907号明細書で説明される1つまたは複数の頭部伝達関数または遠近感曲線を使用してサウンドステージを広げ、この特許の開示は、全体が参照により本明細書に組み入れられる。一実施形態では、サラウンドプロセッサ340aは、深度推定器320aにより生成される制御信号またはステアリング信号の1つまたは複数に基づきこのサウンドステージ広がり効果を変調する。その結果、有利には、検出された深度の量に従って、サウンドステージを広げることができ、それにより、深度効果を拡張する。サラウンドプロセッサ340aは、再生のために(または、さらに処理するために、たとえば、
図3Dを参照のこと)リスナに左および右の出力信号を出力することができる。しかしながら、サラウンドプロセッサ340aは任意選択であり、いくつかの実施形態では、省略されてもよい。
【0036】
図3Aの深度処理システム310Aを、3つ以上のオーディオ入力を処理するように適合させることができる。たとえば、
図3Bは、5.1サラウンド・サウンド・チャンネル入力を処理する深度処理システムの一実施形態310Bを描く。これらの入力は、左フロント(L)、右フロント(R)、センター(C)、左サラウンド(LS)、右サラウンド(RS)、およびサブウーファ(S)の入力を含む。
【0037】
深度推定器320b、深度レンダラ320b、およびサラウンドプロセッサ340bは、それぞれ深度推定器320aおよび深度レンダラ320aと同一の、または実質的に同一の機能を実施することができる。深度推定器320bおよび深度レンダラ320bは、LSおよびLRの信号を別個のLおよびRの信号として扱うことができる。したがって、深度推定器320bは、LおよびRの信号に基づき第1の深度推定値/複数の制御信号を、およびLSおよびLRの信号に基づき第2の深度推定値/複数の制御信号を生成することができる。深度処理システム310Bは、深度処理されたLおよびRの信号、ならびに別個の深度処理されたLSおよびLRの信号を出力することができる。CおよびSの信号を複数の出力に通過させることができる、またはこれらの信号に同様に拡張を適用することができる。
【0038】
サラウンド・サウンド・プロセッサ340bは、深度レンダリングされたL、R、LS、およびRSの信号(ならびに任意選択でCおよび/またはSの信号)を2つのLおよびRの出力にダウンミックスしてもよい。あるいは、サラウンド・サウンド・プロセッサ340bは、完全なL、R、C、LS、RS、およびSの出力を、またはこれらの出力のいくつかの他のサブセットを出力することができる。
【0039】
図3Cを参照すると、深度処理システムの他の実施形態310Cが示されている。別個の複数のオーディオチャンネルを受信するのではなく、描かれた実施形態では、深度処理システム310Cは、複数のオーディオオブジェクトを受信する。これらのオーディオブジェクトは、オーディオ本体(たとえばサウンド)およびオブジェクトメタデータを含む。複数のオーディオオブジェクトの例が、ビデオ内のオブジェクト(たとえば人、機械、動物、環境効果など)に対応する複数の音源または複数のオブジェクトを含むことができる。オブジェクトメタデータは、複数のオーディオオブジェクトの位置に関する位置情報を含むことができる。したがって、一実施形態では、リスナを基準にしたオブジェクトの深度がオーディオブジェクト内に明示的に符号化されるので、深度推定は必要ない。深度推定モジュールの代わりに、オブジェクトの位置情報に基づき、適切な複数の深度レンダリング・フィルタ・パラメータ(たとえば、複数の係数および/または複数の遅延)を生成することができるフィルタ変換モジュール320cが提供される。この場合、深度レンダラ330cは、計算された複数のフィルタパラメータに基づき、続けて動的脱相関を実施することができる。また、上述のように、任意選択のサラウンドプロセッサ340cが提供される。
【0040】
オブジェクトメタデータ内の位置情報は、3次元空間内の座標の形式、たとえばx、y、z座標、球座標などであってもよい。フィルタ変換モジュール320cは、メタデータ内に反映された、複数のオブジェクトの変化する複数の位置に基づき、変化する位相およびゲインの複数の関係を生み出す複数のフィルタパラメータを判定する。一実施形態では、フィルタ変換モジュール320cは、オブジェクトメタデータからデュアルオブジェクトを生み出す。このデュアルオブジェクトは、ステレオの左および右の入力信号に類似する2音源オブジェクトとすることができる。フィルタ変換モジュール320cは、モノラルオーディオ本体音源およびオブジェクトメタデータ、またはオブジェクトメタデータを有するステレオオーディオ本体音源から、このデュアルオブジェクトを生み出すことができる。フィルタ変換モジュール320cは、複数のデュアルオブジェクトのメタデータに指定された複数の位置、複数のデュアルオブジェクトの複数の速度、複数の加速度などに基づき、複数のフィルタパラメータを判定することができる。3次元空間内の複数の位置は、リスナを取り囲む音場内の内側にある複数の地点であってもよい。したがって、フィルタ変換モジュール320cは、これらの内側の地点を、深度レンダラ330cの複数のフィルタパラメータを調節するために使用することができる深度情報を指定すると解釈することができる。フィルタ変換モジュール320cは、一実施形態では、深度レンダラ320cに深度レンダリング効果の一部としてオーディオを分散させるまたは拡散させることができる。
【0041】
オーディオオブジェクト信号にはオブジェクトがいくつか存在することがあるので、フィルタ変換モジュール320cは、全体の位置推定値を合成するのではなく、オーディオ内の1つまたは複数の優勢なオブジェクトの位置(複数)に基づき、複数のフィルタパラメータを生成することができる。オブジェクトメタデータは、どのオブジェクトが優勢であるかを示す具体的なメタデータを含んでもよい、またはフィルタ変換モジュール320cは、メタデータの解析結果に基づき、優勢を推測してもよい。たとえば、複数のオブジェクトが他の複数のオブジェクトより音が大きくレンダリングされるべきであることを示すメタデータを有する複数のオブジェクトが、優勢であると考えることができる、またはリスナにより近い複数のオブジェクトが優勢であるとすることができるなど。
【0042】
深度処理システム310Cは、MPEG符号化された複数のオブジェクト、または2010年8月13日に出願された、「オブジェクト指向オーディオ・ストリーミング・システム(Object−Oriented Audio Streaming System)」と題する、代理人整理番号SRSLABS.501A1の米国特許出願公開第12/856,442号明細書で説明される複数のオーディオオブジェクトを含む、任意のタイプのオーディオオブジェクトを処理することができ、この特許出願の開示は、全体が参照により本明細書に組み入れられる。いくつかの実施形態では、複数のオーディオオブジェクトは、2011年3月9日に出願された、「複数のオーディオオブジェクトを動的に作り出しレンダリングするためのシステム(System for Dynamically Creating and Rendering Audio Objects)」と題する、米国特許仮出願第61/451,085号明細書で説明されるような、複数のベース・チャンネル・オブジェクトおよび複数の拡張オブジェクトを含んでもよく、この仮出願の開示は、全体が参照により本明細書に組み入れられる。したがって、一実施形態では、深度処理システム310Cは、複数のベース・チャンネル・オブジェクトから(たとえば、深度推定器320を使用して)深度推定を実施してもよく、同じく、拡張オブジェクトおよびこれらのそれぞれのメタデータに基づきフィルタ変換変調(ブロック320c)を実施してもよい。換言すれば、オーディオ・オブジェクト・メタデータは、深度を判定するために、チャンネルデータに加えて、またはチャンネルデータの代わりに使用されてもよい。
【0043】
図3Dでは、深度処理システムの他の実施形態310Dが示されている。この深度処理システム310Dは、
図3Aの深度処理システム310Aに類似しており、クロストークキャンセラ350Aが追加されている。クロストークキャンセラ350Aが
図3Aの処理システム310Aの特徴と一緒に示されているが、実際には、前述の深度処理システムのいずれにもクロストークキャンセラ350Aを含むことができる。クロストークキャンセラ350Aは、有利には、いくつかのスピーカ配置について深度レンダリング効果の質を改善することができる。
【0044】
クロストークは、2つのステレオスピーカとリスナの両耳との間の空間で発生する可能性があり、その結果、各スピーカからのサウンドが、一方の耳に局所化されるのではなく両方の耳に到達する。このような状況では、ステレオ効果が劣化する。余裕のない空間、たとえばテレビの下に合うように設計された、いくつかのスピーカキャビネット内で、他のタイプのクロストークが発生する可能性がある。これらの下方を向くステレオスピーカは、しばしば個々の筐体を有しない。その結果、これらのスピーカの背面から出てくるバックウェーブサウンド(フロントから出てくるサウンドの反転バージョンである可能性がある)が、バックウェーブミキシングにより互いに、ある形のクロストークを生み出す可能性がある。このバックウェーブ・ミキシング・クロストークは、本明細書で説明する深度レンダリング効果を減少させる、または完全に相殺する可能性がある。
【0045】
これらの効果を抑制するために、クロストークキャンセラ350aは、2つのスピーカ間のクロストークを相殺する、または他の方法で低減することができる。テレビスピーカについて、よりよい深度レンダリングを容易にするのに加えて、クロストークキャンセラ350aは、携帯電話、タブレット、および他の携帯型電子デバイス上の背面を向くスピーカを含む他のスピーカについて、よりよい深度レンダリングを容易にすることができる。クロストークキャンセラの一例350が
図3Eに、より詳細に示されている。このクロストークキャンセラ350bは、
図3Dのクロストークキャンセラ350aの多くの可能な実装形態の1つを表す。
【0046】
クロストークキャンセラ350bは、2つの信号を、すなわち、上述のように深度効果で処理された左および右の信号を受信する。各信号がインバータ352、362により反転させられる。各インバータ352、362の出力が、遅延ブロック354、364により遅延させられる。遅延ブロックの出力が、加算器356、366で入力信号と加算される。したがって、各信号が、出力信号を作り出すために、反転させられ、遅延させられ、反対側の入力信号と加算される。遅延が正しく選ばれた場合、反転させられ、遅延させられた信号は、バックウェーブミキシングによるクロストーク(または他のクロストーク)を相殺する、または少なくとも部分的に低減するはずである。
【0047】
遅延ブロック354、364の遅延は、両耳間の音波移動時間の差を表すことができ、リスナから複数のスピーカまでの距離に依存することができる。デバイスの大部分のユーザに対して、期待される遅延と整合するように、デバイスの製造業者が深度処理システム110、310を組み込むことにより遅延を設定することができる。ユーザがデバイス(ラップトップなど)の近くに座るデバイスが、ユーザがデバイス(たとえばテレビ)から離れて座るデバイスより短い遅延を有する可能性が高い。したがって、使用されるデバイスのタイプに基づき、複数の遅延設定をカスタマイズすることができる。これらの遅延設定は、ユーザ(たとえば、デバイスの製造業者、デバイス上のソフトウェアの工事担当者、またはエンドユーザなど)が選択するために、ユーザインタフェースの形で公開することができる。あるいは、遅延を事前設定することができる。他の実施形態では、遅延は、複数のスピーカを基準にしたリスナの位置に関して得られる位置情報に基づき、動的に変更することができる。この位置情報は、カメラまたは光学センサ、たとえばマイクロソフト(Microsoft(商標) Corporation)から入手できるXbox(商標) Kinect(商標)から得ることができる。
【0048】
同じく、複数の頭部伝達関数(HRTF)フィルタなどを含んでもよい他の複数の形の複数のクロストークキャンセラが使用されてもよい。HRTFから派生した複数のフィルタをすでに含んでいる場合があるサラウンドプロセッサ340がシステムから除去された場合、クロストークキャンセラ350に複数のHRTFフィルタを追加することで、より大きなスイートスポット、および広大さの感覚が提供される場合がある。いくつかの実施形態では、サラウンドプロセッサ340もクロストークキャンセラ350も、複数のHRTFフィルタを含むことができる。
【0049】
図4は、本明細書で説明する深度処理システム110、310のいずれによっても、または本明細書で説明しない他のシステムにより、実現することができる深度レンダリング処理400の一実施形態を示す。深度レンダリング処理400は、深度をレンダリングして、没入型オーディオリスニング体験を生み出すための一例の手法を示す。
【0050】
ブロック402で、1つまたは複数のオーディオ信号を含む入力オーディオを受信する。2つ以上のオーディオ信号は、左および右のステレオ信号、上述のような5.1サラウンド信号、他の複数のサラウンド構成(たとえば、6.1、7.1など)、複数のオーディオオブジェクト、または深度処理システムが深度レンダリングの前にステレオに変換することができるモノラルオーディオさえ含むことができる。ブロック404で、ある期間にわたり入力信号に関連する深度情報を推定する。深度情報は、上述のようにオーディオ自体の解析から(
図5も参照のこと)、ビデオ情報から、オブジェクトメタデータから、またはこれらの任意の組合せから、直接推定してもよい。
【0051】
ブロック406で、推定された深度情報に依存する量により、1つまたは複数のオーディオ信号を動的に脱相関する。ブロック408で、脱相関されたオーディオを出力する。この脱相関は、推定された深度に基づき動的にオーディオの2チャンネル間で位相および/またはゲインの複数の遅延を調節することを伴うことができる。したがって、推定された深度は、生み出された脱相関の量を駆動するステアリング信号の役割を果たすことができる。入力オーディオ内の複数の音源が一方のスピーカからもう一方へ動的に動くとき、脱相関は、対応するやり方で動的に変化することができる。たとえば、ステレオ設定では、サウンドが左スピーカから右スピーカに動く場合、左スピーカ出力が最初に強調され、続いて、音源が右スピーカに動いたとき、右スピーカが強調されてもよい。一実施形態では、脱相関は、効果的に2チャンネル間の差を増大させることになり、より大きなL−RまたはLS−RSの値を作り出す。
【0052】
図5は、深度推定器520のより詳細な一実施形態を示す。深度推定器520は、上述の深度推定器320の特徴のいずれも実現することができる。描かれる実施形態では、深度推定器520は、左および右の入力信号に基づき深度を推定し、出力を深度レンダラ530に提供する。深度推定器520はまた、左および右のサラウンド入力信号から深度を推定するために使用することができる。さらに、深度推定器520の実施形態は、本明細書で説明するビデオ深度推定器またはオブジェクトフィルタ変換モジュールとともに使用することができる。
【0053】
左および右の信号は、和ブロック502および差ブロック504に提供される。一実施形態では、深度推定器520は、左および右のサンプルのブロックを一度に受信する。したがって、深度推定器520の残りの部分が、複数のサンプルのブロックを操作することができる。和ブロック502はL+R出力を作り出すが、差ブロック504はL−R出力を作り出す。これらの出力の各々が、元の入力と一緒に、包絡線検出器510に提供される。
【0054】
包絡線検出器510は、さまざまな技法のいずれかを使用して、L+R、L−R、L、およびRの信号(またはこれらの信号のサブセット)の包絡線を検出することができる。1つの包絡線検出技法が、信号の2乗平均平方根(RMS)値を得ることである。したがって、包絡線検出器510の包絡線信号出力が、RMS(L−R)、RMS(L)、RMS(R)、およびRMS(L+R)と示される。これらのRMS出力は、平滑器512に提供され、平滑器512は、複数のRMS出力に平滑化フィルタを適用する。包絡線を得て、複数のオーディオ信号を平滑化することにより、複数のオーディオ信号内の(ピークなどの)変動を取り除くことができ、それにより、深度処理でその後の急激なまたは耳障りな変化を避ける、または低減する。一実施形態では、平滑器512は、立ち上がりが速く立ち下がりが緩やかな(fast−attack、slow−decay、FASD)平滑器である。他の実施形態では、平滑器512を省略することができる。
【0055】
平滑器512の複数の出力は、
図5ではRMS()’と示される。RMS(L+R)’信号が深度計算機524に提供される。上述のように、L−R信号の大きさが、2つの入力信号の深度情報を反映することができる。したがって、RMSおよび平滑化されたL−R信号の大きさが、同じく深度情報を反映することができる。たとえば、RMS(L−R)’信号のより大きな大きさが、RMS(L−R)’信号のより小さな大きさより近い信号を反映することができる。前記他の方法、すなわちL−RまたはRMS(L−R)’の信号の値が、L−Rの複数の信号間の相関の程度を反映する。詳細には、L−RまたはRMS(L−R)’(またはRMS(L−R))信号が、左信号と右信号の間の両耳間相互相関係数(interaural cross−correlation coefficient、IACC)の逆指標とすることができる(たとえば、LおよびRの信号に強い相関がある場合、これらの信号のL−R値は0に近くなるが、これらの信号のIACC値は1に近くなり、弱い相関がある場合、逆も成り立つ)。
【0056】
RMS(L−R)’信号は、LおよびRの信号間の逆相関を反映させることができるので、LおよびRの出力信号の間にどれだけの脱相関を適用すべきかを判定するために、RMS(L−R)’信号を使用することができる。深度計算機524は、RMS(L−R)’信号をさらに処理して、深度推定値を提供することができ、深度推定値は、LおよびRの信号に脱相関を適用するために使用することができる。一実施形態では、深度計算機524は、RMS(L−R)’信号を正規化する。たとえば、包絡線信号を正規化するために、LおよびRの信号の幾何平均(または他の平均または統計的尺度)でRMS値を除算することができる(たとえば、(RMS(L)’*RMS(R)’)∧(1/2))。正規化は、信号レベルまたはボリュームのゆらぎが、深度のゆらぎとして誤って解釈されないことを保証するのに役立つことができる。したがって、
図5に示すように、RMS(L)’およびRMS(R)’の値は、乗算ブロック538で一緒に操作され、深度計算機524に提供され、深度計算機524は正規化処理を完了することができる。
【0057】
RMS(L−R)’信号を正規化することに加えて、深度計算機524はまた、追加処理を適用することができる。たとえば、深度計算機524は、非線形処理をRMS(L−R)’信号に適用してもよい。この非線形処理は、RMS(L−R)’信号の大きさを強めて、それにより、RMS(L−R)’信号内の既存の脱相関を非線形に強調することができる。したがって、L−R信号内の速い変化を、L−R信号に対する遅い変化よりさらに大きく強調することができる。非線形処理は、一実施形態では、冪関数もしくは指数関数的である、または他の実施形態では、線形増加より大きい。たとえば、深度計算機524は、x∧aなどの指数関数を使用することができ、ここで、x=RMS(L−R)’であり、a>1である。非線形処理のために、異なる複数の形の複数の指数関数を含む他の複数の関数を選んでもよい。
【0058】
深度計算機524は、正規化され、非線形処理された信号を深度推定値として係数計算ブロック534およびサラウンド・スケール・ブロック536に提供する。係数計算ブロック534は、深度推定値の大きさに基づき、深度レンダリングフィルタの複数の係数を計算する。
図6Aおよび
図6Bに関連して、深度レンダリングフィルタについて以下でより詳細に説明する。しかしながら、一般に、計算ブロック534により生成される複数の係数は、左および右のオーディオ信号に適用される位相遅延および/またはゲイン調節の量に影響を及ぼす可能性があることに留意されたい。したがって、たとえば、計算ブロック534は、より大きな値の複数の深度推定値に対してより大きな位相遅延を作り出す複数の係数を生成することができ、逆も成り立つ。一実施形態では、計算ブロック534により生成される位相遅延と、深度推定値との間の関係が、冪関数または同種のものなどの非線形である。この冪関数は、深度推定器520が実現されるタイプのデバイスにより判定されてもよい、リスナから複数のスピーカまでの近さに基づき任意選択で調整可能なパラメータである冪を有する。テレビは、たとえば、予想されるリスナの距離が携帯電話より大きい場合があり、したがって、計算ブロック534は、テレビまたは他のタイプのデバイスに対して冪関数を異なるように調整することができる。計算ブロック534により適用される冪関数は、深度推定の効果を拡大することができ、誇張された位相/および振幅の遅延をもたらす、深度レンダリングフィルタの複数の係数をもたらす。他の実施形態では、位相遅延と深度推定値の間の関係は、非線形ではなく線形(または両方の組合せ)である。
【0059】
サラウンド・スケール・モジュール536は、任意選択のサラウンドプロセッサ340により適用されるサラウンド処理の量を調節する信号を出力することができる。したがって、深度推定値により計算されるようなL−Rコンテンツの脱相関または広大さの量が、適用されるサラウンド処理の量を変調することができる。サラウンド・スケール・モジュール536は、より大きな深度推定値に対してより大きな値を、およびより小さな深度推定値に対してより小さな値を有するスケール値を出力することができる。一実施形態では、サラウンド・スケール・モジュール536は、冪関数または同種のものなどの非線形処理を深度推定値に適用して、スケール値を作り出す。たとえば、スケール値は、深度推定値の冪の何らかの関数とすることができる。他の実施形態では、スケール値および深度推定値は、非線形ではなく線形(または両方の組合せ)の関係を有する。スケール値により適用される処理について
図13〜
図17に関連して以下でより詳細に説明する。
【0060】
また、別個に、RMS(L)’およびRMS(R)’の信号が、遅延および振幅計算ブロック540に提供される。計算ブロック540は、たとえば可変遅延線ポインタを更新することより、深度レンダリングフィルタ(
図6Aおよび
図6B)に適用される遅延の量を計算することができる。一実施形態では、計算ブロック540は、LおよびRの信号(またはこれらのRMS()’均等物)のどちらが優勢であるか、またはレベルがより高いかを判定する。計算ブロック540は、RMS(L)’/RMS(R)’として2つの信号の比を得ることにより、この優勢を判定することができ、1より大きな値が左の優勢を示し、1未満の値が右の優勢を示す(分子および分母が逆である場合、逆が成り立つ)。あるいは、計算ブロック540は、2つの信号の単純な差を実施して、より大きな大きさを有する信号を判定する。
【0061】
左信号が優勢である場合、計算ブロック540は、深度レンダリングフィルタの左部分(
図6A)を調節して、左信号に適用される位相遅延を低減することができる。右信号が優勢である場合、計算ブロック540は、右信号に適用されるフィルタ(
図6B)に対して同じことを実施することができる。信号の優勢は変化するので、計算ブロック540は、深度レンダリングフィルタに対する遅延線の値を変更することができ、左および右のチャンネル間で時間とともに位相遅延にプッシュプル変化を引き起こす。位相遅延のこのプッシュプル変化は、(たとえば優勢が変化する時間の間)選択的にチャンネル間で脱相関を増大させる、およびチャンネル間で相関を増大させる役割を少なくとも一部は果たすことができる。計算ブロック540は、左および右の信号優勢の変化に応答して、左と右の間で遅延優勢をフェードして、耳障りな変化または信号アーチファクトを出力するのを避けることができる。
【0062】
さらに、計算ブロック540は、左および右の信号(またはこれらの信号の処理された値、たとえばRMS値)の比に基づき、左および右のチャンネルに適用される全体ゲインを計算することができる。計算ブロック540は、これらのゲインを、位相遅延のプッシュプル変化に類似するプッシュプルのやり方で変更することができる。たとえば、左信号が優勢である場合、計算ブロック540は、左信号を増幅し、右信号を減衰させることができる。右信号が優勢になったとき、計算ブロック540は、右信号を増幅し、左信号を減衰させることができるなど。計算ブロック540はまた、チャンネル間でゲインをクロスフェードして、耳障りなゲイン移行または信号アーチファクトを避けることができる。
【0063】
したがって、ある種の実施形態では、遅延および振幅計算機は、深度レンダラ530に位相遅延および/またはゲインを脱相関させる複数のパラメータを計算する。事実上、遅延および振幅計算機540は、深度レンダラ530に、左および右の信号間の既存の位相および/またはゲインの脱相関を増幅する拡大鏡または増幅器の役割を果たさせることができる。任意の所与の実施形態で、単に位相遅延脱相関またはゲイン脱相関が実施されてもよい。
【0064】
深度計算機524、係数計算機ブロック534、および計算ブロック540は、一緒に作動して、深度レンダラ530の深度レンダリング効果を制御することができる。したがって、一実施形態では、脱相関によりもたらされる深度レンダリングの量は、多分、複数の要因に、たとえば優勢なチャンネルおよび(任意選択で、処理された)差情報(たとえば、L−Rなど)に依存することができる。
図6Aおよび
図6Bに関連して以下でより詳細に説明するように、異なる情報に基づく、ブロック534からの係数計算結果は、深度レンダラ530により提供される移動遅延効果をオンまたはオフすることができる。したがって、一実施形態では、差情報は、チャンネル優勢情報が位相遅延の量を制御する間に位相遅延が実施される、および/またはゲイン脱相関が実施されるかどうかを効果的に制御する。他の実施形態では、差情報はまた、実施される位相脱相関および/またはゲイン脱相関の量に影響を及ぼす。
【0065】
図示する実施形態以外の実施形態では、単に位相および/またはゲインの脱相関の量を制御するために、深度計算機524の出力を使用することができるが、係数計算を制御するために、計算ブロック540の出力を使用することができる(たとえば、計算ブロック534に提供することができる)。他の実施形態では、深度計算機524の出力を計算ブロック540に提供し、差情報と優勢情報の両方に基づき、計算ブロック540の位相および振幅の脱相関パラメータ出力を制御する。同様に、係数計算ブロック534は、計算ブロック540から追加の複数の入力を得て、差情報および優勢情報の両方に基づき、複数の係数を計算することができる。
【0066】
RMS(L+R)’信号はまた、描かれた実施形態では、非線形処理(NLP)ブロック522に提供される。NLPブロック522は、たとえば、RMS(L+R)’信号に指数関数を適用することにより、深度計算機524により適用されたのと類似するNLP処理をRMS(L+R)’に実施することができる。多くのオーディオ信号では、L+R情報は対話を含み、しばしばセンターチャンネルの代替物として使用される。非線形処理によりL+Rブロックの値を拡張することは、L+RまたはCの信号にどれだけのダイナミックレンジ圧縮を適用すべきかを判定する際に有用となることができる。より大きな値の圧縮が、より大きな音の、したがってより明瞭な対話をもたらすことができる。しかしながら、L+R信号の値が非常に小さい場合、対話が存在しない場合があり、したがって、適用される圧縮の量を低減することができる。したがって、L+RまたはCの信号に適用される圧縮の量を調節するために、圧縮スケールブロック550によりNLPブロック522の出力を処理することができる。
【0067】
異なる実施形態では、深度推定器520の多くの態様を修正または省略することができることに留意されたい。たとえば、包絡線検出器510または平滑器512は省略されてもよい。したがって、L−R信号に直接基づき深度推定を行うことができ、信号優勢はLおよびRの信号に直接基づくことができる。この場合、入力信号を平滑化する代わりに、深度推定値および優勢の計算結果(ならびL+Rに基づく圧縮スケール計算結果)を平滑化することができる。さらに、他の実施形態では、計算ブロック540で遅延線ポインタ計算結果を調節するために、L−R信号(またはこの信号の平滑化された/包絡線バージョン)または深度計算機524からの深度推定値を使用することができる。同様に、ブロック534で複数の係数計算結果を操作するために、(たとえば、比または差により計算された)LとRの信号間の優勢を使用することができる。同様に、圧縮スケールブロック550またはサラウンド・スケール・ブロック536が省略されてもよい。以下でより詳細に説明するビデオ深度推定などの、多くの他の追加態様が、同じく深度推定器520に含まれてもよい。
【0068】
図6Aおよび
図6Bは、深度レンダラ630A、630Bの実施形態を示し、上述の深度レンダラ330、530のより詳細な実施形態を表す。
図6Aの深度レンダラ630Aは、左チャンネルに対して深度レンダリングフィルタを適用するが、一方、
図6Bの深度レンダラ630Bは、右チャンネルに対して深度レンダリングフィルタを適用する。したがって、各図で示す構成要素が同一である(そうはいっても、いくつかの実施形態では、2つのフィルタ間に違いが提供されてもよい)。したがって、便宜上、単一の深度レンダラ630として深度レンダラ630A、630Bについて一般的な形で説明する。
【0069】
上述の(および
図6Aのおよび
図6Bで再現された)深度推定器520は、深度レンダラ630にいくつかの入力を提供することができる。これらの入力は、可変遅延線610、622に提供される1つまたは複数の遅延線ポインタ、乗算器602に適用される複数のフィードフォワード係数、乗算器616に適用される複数のフィードバック係数、および乗算器624に提供される(たとえば、
図5のブロック540から得られる)全体ゲイン値を含む。
【0070】
深度レンダラ630は、ある種の実施形態では、入力信号の位相を調節することができる全域通過フィルタである。描かれた実施形態では、深度レンダラ630は、フィードフォワード構成要素632およびフィードバック構成要素634を有する無限インパルス応答(IIR)フィルタである。一実施形態では、実質的に類似の位相遅延効果を得るために、フィードバック構成要素634を省略することができる。しかしながら、フィードバック構成要素634がなければ、潜在的に、いくつかのオーディオ周波数がゼロにされる、または他の方法で減衰させられる櫛形フィルタ効果が発生する可能性がある。したがって、フィードバック構成要素634は、有利には、この櫛形フィルタ効果を低減する、または取り除くことができる。フィードフォワード構成要素632はフィルタ630Aのゼロ点を表すが、フィードバック構成要素634はフィルタ630Aの極を表す(
図7および
図8を参照のこと)。
【0071】
フィードフォワード構成要素632は、可変遅延線610、乗算器602、および結合器612を含む。可変遅延線610は、入力として入力信号(たとえば
図6Aでは左信号)を得て、深度推定器520により判定される量に従って信号を遅延させ、遅延した信号を結合器612に提供する。入力信号はまた、乗算器602に提供され、乗算器602は、信号を基準化し、基準化された信号を結合器612に提供する。乗算器602は、
図5の係数計算ブロック534により計算されたフィードフォワード係数を表す。
【0072】
結合器612の出力が、可変遅延線622、乗算器616、および結合器614を含むフィードバック構成要素634に提供される。フィードフォワード構成要素632の出力が、結合器614に提供され、結合器614は、出力を可変遅延線622に提供する。可変遅延線622は、可変遅延線610の遅延に対応する遅延を有し、深度推定器520(
図5を参照のこと)による出力に依存する。遅延線622の出力が、乗算器ブロック616に提供される、遅延した信号である。乗算器616は、係数計算ブロック534(
図5を参照のこと)により計算されたフィードバック係数を適用する。このブロック616の出力が、結合器614に提供され、結合器614はまた、出力を乗算器624に提供する。この乗算器624は、(以下で説明する)全体ゲインを深度レンダリングフィルタ630に提供する。
【0073】
フィードフォワード構成要素632の乗算器602は、入力信号+遅延した信号のウェット/ドライミックスを制御することができる。乗算器602に適用されるより多くのゲインが、遅延した信号(ウェット、またはより反響する信号)に対して入力信号(ドライまたはより反響しない信号)の量を増大させることができ、逆も成り立つ。より少ないゲインを入力信号に適用することにより、入力信号の位相遅延したバージョンを優勢にすることができ、深度効果を強調し、逆も成り立つ。乗算器602により適用された余分なゲインを補償するために、このゲインの反転されたバージョン(図示せず)が可変遅延ブロック610に含まれてもよい。櫛形フィルタを適切にゼロに相殺するために、乗算器616のゲインをゲイン602に一致するように選ぶことができる。したがって、ある種の実施形態では、乗算器602のゲインは、時間で変化するウェット−ドライミックスを変調することができる。
【0074】
動作については、左および右の入力信号(またはLSおよびRSの信号)を選択的に相関および脱相関するために、深度推定器520により2つの深度レンダリングフィルタ630A、630Bを制御することができる。両耳間時間遅延、およびしたがって左(より大きな深度が左から検出されたと仮定する)から得られる深度の感覚を生み出すために、左の遅延線610(
図6A)を一方の方向に調節することができ、一方、右の遅延線610(
図6B)を反対方向に調節する。2チャンネル間で反対のやり方で遅延を調節することにより、チャンネル間に位相差を生み出し、それにより、チャンネルを脱相関することができる。同様に、左ゲイン(
図6Aの乗算器ブロック624)を一方の方向に調節し、一方、右ゲイン(
図6Bの乗算器ブロック624)を他方の方向に調節することにより、両耳間強度差を生み出すことができる。したがって、オーディオ信号の深度が左と右のチャンネル間でシフトするとき、深度推定器520は、チャンネル間の遅延およびゲインをプッシュプルのやり方で調節することができる。あるいは、左および右の遅延および/またはゲインの一方だけを任意の所与の時間に調節することができる。
【0075】
一実施形態では、深度推定器520は、(遅延線610の)遅延またはゲイン624をランダムに変えて、2チャンネル間のITDおよびIIDの差をランダムに変える。このランダムな変動は、小さく、または大きくすることができるが、いくつかの実施形態では、微妙なランダムな変動が、より自然なサウンドの、没入できる環境をもたらすことができる。さらに、音源が入力オーディオ信号内でリスナから遠く離れて、またはより近く移動するとき、深度レンダリングモジュールは、深度レンダリングフィルタ630の出力に線形のフェーディングおよび/または平滑化(図示せず)を適用して、2チャンネルの深度調節間の滑らかな移行を提供することができる。
【0076】
ある種の実施形態では、乗算器602に適用されるステアリング信号が比較的大きい(たとえば、>1)とき、深度レンダリングフィルタ630は、すべてのゼロ点が単位円の外側にある最大位相フィルタになり、位相遅延が導入される。この最大位相効果の一例が
図7Aに示され、
図7Aは、ゼロ点を単位円の外側に有する極−ゼロ点プロット710を示す。対応する位相プロット730を
図7Bに示し、
図7Bは、比較的大きな値の乗算器602係数に対応する、約32サンプルの一例の遅延を示す。乗算器602係数の値を調節することにより他の遅延値を設定することができる。
【0077】
乗算器602に適用されるステアリング信号が比較的小さい(たとえば、<1)とき、深度レンダリングフィルタ630は、このゼロ点が単位円の内側にある最小位相フィルタになる。その結果、位相遅延はゼロに(またはゼロに近く)なる。この最小位相効果の一例が
図8Aに示され、
図8Aは、すべてのゼロ点を単位円の内側に有する極−ゼロ点プロット810を示す。対応する位相プロット830を
図8Bに示し、
図8Bは0サンプルの遅延を示す。
【0078】
図9は、一例の周波数領域の深度推定処理900を示す。周波数領域処理900は、上述のシステム110、310のいずれかにより実現することができ、
図6A〜
図8Bに関連して上記で説明した時間領域フィルタの代わりに使用されてもよい。したがって、時間領域または周波数領域(または両方)で深度レンダリングを実施することができる。
【0079】
一般に、深度を強調するために、さまざまな周波数領域の技法を使用して、左および右の信号をレンダリングすることができる。たとえば、各入力信号に対して、高速フーリエ変換(FFT)を計算することができる。次いで、各FFT信号の位相を調節して、信号間の位相差を生み出すことができる。同様に、2つのFFT信号に、強度差を適用することができる。逆FFTを各信号に適用して、時間領域の、レンダリングされた出力信号を作り出すことができる。
【0080】
具体的に
図9を参照すると、ブロック902で、複数のサンプルのステレオブロックを受信する。複数のサンプルのステレオブロックは、左および右のオーディオ信号を含むことができる。ブロック904で、複数のサンプルのブロックに窓関数904を適用する。ハミング窓またはハニング窓などの任意の適切な窓関数を選択することができる。ブロック906で、各チャンネルに対して高速フーリエ変換(FFT)を計算して、周波数領域の信号を作り出し、ブロック908で、各チャンネルの周波数領域信号から大きさおよび位相の情報を抽出する。
【0081】
周波数領域信号の位相角を変更することにより、ITD効果のための位相遅延を周波数領域で成し遂げることができる。同様に、2チャンネル間でパンすることにより、2チャンネル間のIID効果のための大きさ変更を成し遂げることができる。したがって、ブロック910および912で、周波数に依存する複数の角度およびパニングを計算する。これらの角度およびパニングゲインを、深度推定器320または520により出力される複数の制御信号に少なくとも一部は基づき計算することができる。たとえば、左チャンネルが優勢であることを示す、深度推定器520からの優勢制御信号が、周波数に依存するパニングに、左チャンネルにパンする一連のサンプルにわたりゲインを計算させることができる。同様に、RMS(L−R)’信号または同種のものを使用して、変化する複数の位相角に反映される複数の位相変化を計算することができる。
【0082】
ブロック914で、回転変換を使用して、たとえば極の複数の複素位相シフトを使用して、複数の位相角および複数のパニング変化を複数の周波数領域信号に適用する。ブロック916で、各信号における大きさおよび位相の情報を更新する。次いで、ブロック918で、大きさおよび位相の情報を極複素形式からデカルト複素形式に逆変換して、逆FFT処理を可能にする。FFTアルゴリズムの選択に応じて、いくつかの実施形態では、この逆変換ステップを省略することができる。
【0083】
ブロック920で、各周波数領域信号に対して逆FFTを計算して、複数の時間領域信号を作り出す。次いで、ブロック922で、重畳加算合成(overlap−add synthesis)を使用して、ステレオ・サンプル・ブロックを直前のステレオ・サンプル・ブロックと結合し、次いで、ブロック924で出力する。
【0084】
III.ビデオ深度推定実施形態
図10Aおよび
図10Bは、深度を推定するために使用することができるビデオフレーム1000の例を示す。
図10Aでは、ビデオフレーム1000Aが、ビデオからのカラーシーンを描く。深度マッピングをより好都合に示すために、簡略化されたシーンが選択されたが、図示する特定のビデオフレーム1000Aでは、複数のオブジェクトのいずれからもオーディオを発する可能性がない。カラー・ビデオ・フレーム1000Aに基づき、
図10Bのグレースケールのフレーム1000Bで示すように、現在利用可能な技法を使用して、グレースケール深度マップが生み出されてもよい。グレースケール画像内の画素の輝度が、画像内の画素の深度を反映し、より暗い画素がより大きな深度を反映し、より明るい画素がより小さな深度を反映する(これらの表記法を逆にすることができる)。
【0085】
任意の所与のビデオについて、深度推定器(たとえば320)が、ビデオ内の1つまたは複数のフレームに対するグレースケール深度マップを得ることができ、フレーム内の深度の推定値を深度レンダラ(たとえば330)に提供することができる。深度レンダラは、深度情報が得られた特定のフレームが示されるビデオ内の時間に対応するオーディオ信号で深度効果をレンダリングすることができる(
図11参照のこと)。
【0086】
図11は、ビデオデータから深度を推定するために使用することができる深度推定およびレンダリングアルゴリズム1100の一実施形態を示す。アルゴリズム1100は、ビデオフレームのグレースケール深度マップ1102、およびスペクトル・パン・オーディオ深度マップ1104を受信する。ビデオフレームが再生される時間に対応する、オーディオ深度マップ1104内の時間の瞬間を選択することができる。相関器1110が、グレースケール深度マップ1102から得られる深度情報を、スペクトル・パン・オーディオ・マップ(またはL−R、L、および/またはRの信号)から得られた深度情報と結合することができる。この相関器1110の出力を、深度レンダラ1130(または330または630)によりレンダリングされる深度を制御する1つまたは複数の深度ステアリング信号とすることができる。
【0087】
ある種の実施形態では、深度推定器(図示せず)は、グレースケール深度マップを領域に、たとえば4分の1、2分の1または同種のものに分割することができる。次いで、深度推定器は、領域内の画素深度を解析して、どの領域が優勢であるかを判定することができる。たとえば左の領域が優勢である場合、深度推定器は、深度レンダラ1130に左信号を強調させるステアリング信号を生成することができる。深度推定器は、このステアリング信号を、上述のように(
図5を参照のこと)オーディオステアリング信号(複数)と組み合わせて、またはオーディオ信号を使用することなく独立して、生成することができる。
【0088】
図12は、ビデオデータに基づく、深度の一例の解析プロット1200を示す。プロット1200では、ピークが、
図11のビデオとオーディオのマップ間の相関を反映している。これらのピークの場所が時間とともに変化するにつれ、深度推定器は、それに従ってオーディオ信号を脱相関して、ビデオおよびオーディオの信号内の深度を強調することができる。
【0089】
IV.サラウンド処理実施形態
図3Aに関連して上述したように、深度レンダリングされた左および右の信号が、任意選択のサラウンド処理モジュール340aに提供される。上述のように、サラウンドプロセッサ340aは、上記で組み込まれた米国特許第7,492,907号明細書で説明される1つまたは複数の遠近感曲線または同種のものを使用して、サウンドステージを広げ、それにより、スイートスポットを広くして、深度の感覚を増大させることができる。
【0090】
一実施形態では、制御信号の1つ、すなわちL−R信号(またはこの信号の正規化された包絡線)を使用して、サラウンド処理モジュール(
図5を参照のこと)により適用されるサラウンド処理を変調することができる。L−R信号のより大きな大きさが、より大きな深度を反映することができるので、L−Rが比較的より大きいときに、より大きなサラウンド処理を適用することができ、L−Rが比較的より小さいときに、より小さなサラウンド処理を適用することができる。遠近感曲線(複数)に適用されるゲイン値を調節することにより、サラウンド処理を調節することができる。適用されるサラウンド処理の量を調節することにより、オーディオ信号内にわずかな深度が存在するときに、サラウンド処理をあまりにも多く適用しすぎる、潜在的な逆効果を低減することができる。
【0091】
図13〜
図16は、サラウンドプロセッサの実施形態を示す。
図17および
図18は、仮想サラウンド効果を生み出すために複数のサラウンドプロセッサにより使用することができる、複数の遠近感曲線の実施形態を示す。
【0092】
図13に戻ると、サラウンドプロセッサ1340の一実施形態が示されている。サラウンドプロセッサ1340は、上述のサラウンドプロセッサ340のより詳細な一実施形態である。サラウンドプロセッサ1340は、パッシブ・マトリックス・デコーダ、サークル・サラウンド・デコーダ(「5−2−5マトリックスシステム(5−2−5 Matrix System)」と題する米国特許第5,771,295明細書を参照のこと、この特許の開示は全体が参照により本明細書に組み入れられる)、または同種のものであってもよいデコーダ1380を含む。デコーダ1380は、(たとえば深度レンダラ330aから受信された)左および右の入力信号を、遠近感曲線フィルタ(複数)1390でサラウンド処理することができる複数の信号に復号することができる。一実施形態では、デコーダ1380の出力は、左、右、センター、およびサラウンドの信号を含む。サラウンド信号は、左および右のサラウンドの両方を、または単に単一のサラウンド信号を含んでもよい。一実施形態では、デコーダ1380は、LおよびRの信号を加算することにより(L+R)センター信号を合成し、LからRを減算することにより(L−R)リアサラウンド信号を合成する。
【0093】
1つまたは複数の遠近感曲線フィルタ(複数)1390は、上述のように、深度レンダリングの目的でスイートスポットを広くすることができるデコーダ1380により出力される複数の信号に対して広大さ拡張を提供することができる。図示するように、L−R差情報に基づき、これらのフィルタ(複数)1390により提供される広大さまたは遠近感の効果を変調または調節することができる。このL−R差情報は、
図5に関連して上記で説明した包絡線、平滑化、および/または正規化の効果に従って処理されたL−R差情報であってもよい。
【0094】
いくつかの実施形態では、サラウンドプロセッサ1340により提供されるサラウンド効果を、深度レンダリングとは無関係に使用することができる。左および右の信号の差情報によりこのサラウンド効果を変調することにより、深度レンダリングとは無関係にサウンド効果の質を拡張することができる。
【0095】
本明細書で説明するシステムおよび方法とともに実現することができる複数の遠近感曲線および複数のサラウンドプロセッサに関する情報が、「録音および再生で使用するための複数チャンネルのオーディオ拡張、ならびにこれを提供する方法(Multi-Channel Audio Enhancement System For Use In Recording And Playback And Methods For Providing Same)」と題する米国特許第7,492,907号明細書、「複数チャンネルオーディオ拡張システム(Multi-Channel Audio Enhancement System)」と題する米国特許第8,050,434号明細書、および「サラウンドサウンド環境で使用するためのオーディオ拡張システム(Audio Enhancement System for Use in a Surround Sound System Environment)」と題する米国特許第5,970,152号明細書にさらに説明されており、これらの特許の各々の開示は、全体が参照により本明細書に組み入れられる。
【0096】
図14は、サラウンドプロセッサ1400のより詳細な一実施形態を示す。サラウンドプロセッサ1400を使用して、上述のサラウンドプロセッサ、たとえばサラウンドプロセッサ1340の特徴のいずれも実現することができる。図示しやすくするために、デコーダを示していない。代わりに、オーディオ入力ML(左フロント)、MR(右フロント)、センター(CIN)、任意選択のサブウーファ(B)、左サラウンド(SL)、および右サラウンド(SR)がサラウンドプロセッサ1400に提供され、サラウンドプロセッサ1400は、遠近感曲線フィルタ1470、1406、および1420を複数のオーディオ入力のさまざまなミキシングに適用する。
【0097】
信号MLおよびMRは、音量調節信号M音量により制御される、対応するゲイン調整乗算器1452および1454に供給される。センター信号Cのゲインは、信号M音量により制御される第1の乗算器1456、およびセンター調節信号C音量により制御される第2の乗算器1458により調整されてもよい。同様に、サラウンド信号SLおよびSRは、音量調節信号S音量により制御されるそれぞれの乗算器1460および1462にまず供給される。
【0098】
主要なフロント左信号MLおよびフロント右信号MRは、それぞれ加算接続点1464および1466に供給される。加算接続点1464は、MRを受信する反転入力、およびMLを受信する非反転入力を有し、これらの入力は結合して、出力経路1468に沿ってML−MRを作り出す。信号ML−MRは、伝達関数P1により特徴づけられる遠近感曲線フィルタ1470に供給される。処理された差信号(ML−MR)pが、遠近感曲線フィルタ1470の出力で、ゲイン調節乗算器1472に引き渡される。ゲイン調節乗算器1472は、
図5に関連して上記で説明したサラウンドスケール536設定を適用することができる。その結果、遠近感曲線フィルタ1470の出力を、L−R信号内の差情報に基づき変調することができる。
【0099】
乗算器1472の出力が、直接左ミキサ1480に、およびインバータ1482に供給される。反転された差信号(MR−ML)pが、インバータ1482から右ミキサ1484に送信される。和信号ML+MRが接続点1466を出て、ゲイン調節乗算器1486に供給される。ゲイン調節乗算器1486はまた、
図5に関連して上記で説明したサラウンドスケール536設定または何らかの他のゲイン設定を適用してもよい。
【0100】
乗算器1486の出力が加算接続点に供給され、加算接続点は、センターチャンネル信号Cを信号ML+MRと加算する。結合された信号ML+MR+Cが接続点1490を出て、左ミキサ1480と右ミキサ1484の両方に向けられる。最後に、元の信号MLおよびMRが、ミキサ1480および1484に送信される前に、まず固定されたゲイン調節構成要素、たとえばそれぞれ増幅器1490および1492を通して供給される。
【0101】
サラウンド左信号SLおよびサラウンド右信号SRが、それぞれ乗算器1460および1462を出て、それぞれ加算接続点1400および1402に供給される。加算接続点1401は、SRを受信する反転入力、およびSLを受信する非反転入力を有し、これらの入力は、結合して出力経路1404に沿ってSL−SRを作り出す。加算接続点1464、1466、1400、および1402のすべては、和信号が生成されるか、差信号が生成されるかどうかに応じて、反転増幅器または非反転増幅器として構成されてもよい。反転増幅器も非反転増幅器も、当業者には一般的な原理に従って、通常の演算増幅器から構築されてもよい。信号SL−SRは、伝達関数P2により特徴づけられる遠近感曲線フィルタ1406に供給される。
【0102】
処理された差信号(SL−SR)pが、遠近感曲線フィルタ1406の出力で、ゲイン調節乗算器1408に引き渡される。ゲイン調節乗算器1408は、
図5に関連して上記で説明したサラウンドスケール536設定を適用することができる。このサラウンドスケール536設定は、乗算器1472により適用されるものと同一でも、異なっていてもよい。他の実施形態では、乗算器1408は省略される、またはサラウンドスケール536設定以外の設定に依存する。
【0103】
乗算器1408の出力が、直接左ミキサ1480に、およびインバータ1410に供給される。反転された差信号(SR−SL)pが、インバータ1410から右ミキサ1484に送信される。和信号SL+SRが接続点1402を出て、伝達関数P3により特徴づけられる別個の遠近感曲線フィルタ1420に供給される。処理された和信号(SL+SR)pが、遠近感曲線フィルタ1420の出力で、ゲイン調節乗算器1432に引き渡される。ゲイン調節乗算器1432は、
図5に関連して上記で説明したサラウンドスケール536設定を適用することができる。このサラウンドスケール536設定は、乗算器1472、1408により適用されたものと同一でも、異なっていてもよい。他の実施形態では、乗算器1432は省略される、またはサラウンドスケール536設定以外の設定に依存する。
【0104】
和および差の信号が参照されているが、実際に和および差の信号を使用するのは代表的でしかないことに留意されたい。1対の信号の、周囲の構成要素およびモノラルの構成要素が、どのように分離されるかにかかわらず、同一処理を達成することができる。乗算器1432の出力が、左ミキサ1480および右ミキサ1484に直接供給される。また、元の信号SLおよびSRは、ミキサ1480および1484に送信される前にまず、それぞれ、固定されたゲインの増幅器1430および1434を通して供給される。最後に、低周波効果チャンネルBが、出力低周波効果信号BOUTを生み出すために、増幅器1436を通して供給される。任意選択で、低周波チャンネルBは、サブウーファが利用可能ではない場合、出力信号LOUTおよびROUTの一部としてミックスされてもよい。
【0105】
さらに、遠近感曲線フィルタ1470だけでなく遠近感曲線フィルタ1406および1420も、さまざまなオーディオ拡張技法を利用してもよい。たとえば、遠近感曲線フィルタ1470、1406、および1420は、時間遅延技法、位相シフト技法、信号等価、またはこれらの技法すべての組合せを使用して、所望のオーディオ効果を達成してもよい。
【0106】
一実施形態では、サラウンドプロセッサ1400は、1組の複数チャンネル信号を固有に所要の状態にして、2つの出力信号LOUTおよびROUTの再生によりサラウンドサウンド体験を提供する。具体的には、信号MLおよびMRは、これらの信号に存在する周囲情報を分離することにより、集合的に処理される。周囲信号構成要素は、1対のオーディオ信号の差を表す。したがって、1対のオーディオ信号から得られる周囲信号構成要素が、しばしば「差」信号構成要素と呼ばれる。遠近感曲線フィルタ1470、1406、および1420は、和および差の信号を生成するとして示され、説明されるが、遠近感曲線フィルタ1470、1406、および1420の他の実施形態が、和および差の信号を明瞭に生成しなくてもよい。
【0107】
5.1サラウンドオーディオ信号源の処理に加えて、サラウンドプロセッサ1400は、より少ない別個のオーディオチャンネルを有する信号源を自動的に処理することができる。たとえば、SL=SRであるドルビー・プロ・ロジック(Dolby Pro−Logic)信号またはパッシブマトリックス復号信号(
図13を参照のこと)がサラウンドプロセッサ1400によりたとえば入力された場合、一実施形態では、接続点1400で周囲構成要素が生成されないので、遠近感曲線フィルタ1420だけが動作して、リアチャンネル信号を修正してもよい。同様に、2チャンネルのステレオ信号MLおよびMRだけが存在する場合、サラウンドプロセッサ1400は、遠近感曲線フィルタ1470の動作により、空間的に拡張されたリスニング体験を2チャンネルだけから生み出すように動作する。
【0108】
図15は、本明細書で説明する複数のサラウンドプロセッサのいずれかにより実現することができる複数の例示的遠近感曲線1500を示す。これらの遠近感曲線1500は、一実施形態では、
図14の遠近感曲線フィルタ1470により実現することができる複数のフロント遠近感曲線である。
図15は、入力1502、すなわち−15dBFS対数スイープを描き、同じく、表示された周波数範囲にわたり遠近感曲線フィルタの例示的な大きさの応答を示すトレース1504、1506、および1508を描く。
【0109】
図15で複数のトレースにより示される応答は、20Hz〜20kHzの周波数範囲全体にわたり示されているが、これらの応答は、ある種の実施形態では、可聴範囲全体にわたり提供される必要がない。たとえば、ある種の実施形態では、機能をほとんどまたはまったく失うことなく、周波数応答のうちのいくらかを、たとえば40Hz〜10kHzの範囲に切り捨てることができる。また、周波数応答として他の範囲が提供されてもよい。
【0110】
ある種の実施形態では、トレース1504、1506、および1508は、上述の遠近感フィルタの1つまたは複数の、たとえばフロントまたは(任意選択で)リアの遠近感フィルタの例示的周波数応答を示す。これらのトレース1504、1506、および1508は、
図5のサラウンドスケール536設定に基づく、異なるレベルの遠近感曲線フィルタを表す。より大きな大きさのサラウンドスケール536設定が、より大きな大きさの曲線(たとえば、曲線1404)をもたらすことができるが、より小さな大きさのサラウンドスケール536設定が、より小さな大きさの曲線(たとえば、1406または1408)をもたらすことができる。図示する実際の大きさは単に例でしかなく、変えることができる。さらに、ある種の実施形態では、サラウンドスケール値536に基づき、4つ以上の異なる大きさを選択することができる。
【0111】
より詳細には、トレース1504は、約20Hzで−16dBFSから始まり、約100Hzで約−11dBFSに増大する。その後、トレース1504は、約2kHzで約−17.5dBFSまで低減し、その後、約15kHzで約−12.5dBFSまで増大する。トレース1506は、約20Hzで約−14dBFSから始まり、約100Hzで約−10dBFSまで増大し、約2kHzで約−16dBFSまで低減し、約15kHzで約−11dBFSまで増大する。トレース1508は、約20Hzで約−12.5dBFSから始まり、約100Hzで約−9dBFSまで増大し、約2kHzで約−14.5dBFSまで低減し、約15kHzで約−10.2dBFSまで増大する。
【0112】
トレース1504、1506、および1508の描かれた実施形態に示すように、約2kHz範囲の周波数が遠近感フィルタによりあまり強調されず、約100Hzおよび約15kHzの周波数が、複数の遠近感フィルタにより強調される。これらの周波数は、ある種の実施形態では、変えられてもよい。
【0113】
図16は、本明細書で説明する複数のサラウンドプロセッサのいずれかにより実現することができる複数の例示的遠近感曲線1600を示す。これらの遠近感曲線1600は、一実施形態では、
図14の遠近感曲線フィルタ1406または1420により実現することができる複数のリア遠近感曲線である。
図15のように、入力対数周波数スイープ1610を示し、2つの異なる遠近感曲線フィルタの出力トレース1620、1630をもたらす。
【0114】
一実施形態では、遠近感曲線1620は、サラウンド差信号に適用された遠近感曲線フィルタに対応する。たとえば、遠近感曲線フィルタ1406により遠近感曲線1620を実現することができる。遠近感曲線1620は、ある種の実施形態では、サラウンド和信号に適用された遠近感曲線フィルタに対応する。たとえば、遠近感曲線フィルタ1420により遠近感曲線1630を実現することができる。曲線1620、1630の実効的な大きさは、上述のサラウンドスケール536設定に基づき変わることができる。
【0115】
より詳細には、図示する例示的実施形態では、曲線1620は、約−10dBFSのほぼ平坦なゲインを有し、このゲインは、約2kHzと約4kHzの間に発生する、またはほぼ2.5kHzと3kHzの間にある谷まで減衰する。この谷から、曲線1620は、ピークが発生する約11kHzまで、または約10kHzと12kHzの間で振幅が増大する。このピークの後、曲線1620は再度、約20kHz以下まで減衰する。曲線1630は、類似の構造を有するが、それほど顕著ではないピークおよび谷を有し、約3kHz(または約2kHzと4kHzの間)にある谷まで平坦な曲線であり、ピークが約11kHz(または約10kHzと12kHzの間)にあり、約20kHz以下まで減衰する。
【0116】
図示する曲線は単なる例であり、異なる実施形態では変えることができる。たとえば、複数の曲線と高域フィルタを組み合わせて、平坦な低周波応答を、減衰する低周波応答に変更することができる。
【0117】
V.用語
本明細書で説明する以外の多くの変形形態がこの開示から明らかであろう。たとえば、実施形態に応じて、本明細書で説明する複数のアルゴリズムのいずれかのある種の複数の活動、複数のイベント、または複数の機能を、異なる順序で実施することができる、追加する、統合する、または同時に省くことができる(たとえば複数のアルゴリズムの実施のために、説明するすべての活動またはイベントが必要であるわけではない)。さらに、ある種の実施形態では、複数の活動または複数のイベントは、順次にではなく、同時に、たとえば、マルチスレッド処理、割込処理、または複数のプロセッサもしくは複数のプロセッサコアにより、または他の複数の並列アーキテクチャで実施することができる。さらに、一緒に機能することができる、異なる複数の機械および/または複数のコンピューティングシステムにより、異なる複数のタスクまたは複数の処理を実施することができる。
【0118】
本明細書で開示する実施形態に関連して説明する、さまざまな複数の例示的論理ブロック、複数のモジュール、および複数のアルゴリズムステップを、電子回路ハードウェア、コンピュータソフトウェア、または両方の組合せとして実現することができる。ハードウェアおよびソフトウェアのこの互換性を明確に示すために、さまざまな例示的構成要素、ブロック、モジュール、およびステップについて、一般にこれらの機能に関して上記で説明した。このような機能がハードウェアまたはソフトウェアとして実現されるかどうかは、システム全体に課された特定の用途および設計の複数の制約に依存する。説明する機能を、それぞれの特定の用途についてさまざまな方法で実現することができるが、このような実現の複数の決定が、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。
【0119】
本明細書で開示する実施形態に関連して説明するさまざまな例示的論理ブロックおよびモジュールを、機械により、たとえば、汎用プロセッサ、デジタル・シグナル・プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)もしくは他のプログラム可能論理デバイス、ディスクリートのゲートもしくはトランジスタ論理回路、ディスクリートの複数のハードウェア構成要素、または本明細書で説明する複数の機能を実施するように設計されたこれらの任意の組合せにより実現または実施することができる。汎用プロセッサをマイクロプロセッサとすることができるが、代替形態では、プロセッサを、コントローラ、マイクロコントローラ、もしくは状態機械、これらの組合せ、または同種のものとすることができる。また、プロセッサを、複数のコンピューティングデバイスの組合せとして、たとえば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと1つまたは複数のマイクロプロセッサとの併用、または任意の他のこのような構成として実現することができる。デジタル技術に関して本明細書で主に説明するが、プロセッサが、同じく主にアナログ構成要素を含んでもよい。たとえば、本明細書で説明する複数の信号処理アルゴリズムのいずれも、アナログ回路で実現されてもよい。コンピューティング環境が、少し例を挙げると、マイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタル・シグナル・プロセッサ、携帯型コンピューティングデバイス、パーソナルオーガナイザ、デバイスコントローラ、および設備内部の計算エンジンを含むがこれらに限定されない、任意のタイプのコンピュータシステムを含むことができる。
【0120】
本明細書で開示する実施形態に関連して説明する、方法、処理、またはアルゴリズムの複数のステップを、ハードウェアで、プロセッサにより実行されるソフトウェアモジュールで、または両方の組合せで直接具体化することができる。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能ディスク、CD−ROM、または任意の他の形態の非一時的コンピュータ可読媒体、メディア、もしくは当技術分野で公知の物理的コンピュータ記憶装置に常駐することができる。プロセッサが記憶媒体から情報を読み出し、記憶装置に情報を書き込むことができるように、例示的記憶媒体をプロセッサに結合することができる。代替形態では、記憶媒体をプロセッサに一体化することができる。プロセッサおよび記憶媒体は、ASICに常駐することができる。ASICはユーザ端末に常駐することができる。代替形態では、プロセッサおよび記憶媒体は、ユーザ端末に別個の構成要素として常駐することができる。
【0121】
本明細書で使用する、条件を表す言葉、たとえば、とりわけ「can」、「might」、「may」、「e.g.」などは、具体的に他の方法で明言されない場合、または使用されるときに文脈の中で他の方法で理解されない場合、一般に、ある種の複数の特徴、複数の要素、および/または複数の状態を、ある種の実施形態が含むが、他の実施形態が含まないことを伝えることが意図される。したがって、このような条件を表す言葉は、一般に、複数の特徴、複数の要素、および/または複数の状態が、1つまたは複数の実施形態で、任意の方法で必要とされること、またはこれらの特徴、要素、および/または状態が含まれるにせよ、任意の特定の実施形態で実現されるはずであるにせよ、いずれにしても、1つまたは複数の実施形態が、作成者の入力または催促ありまたはなしで、決定を下すための論理回路を必ず含むことを意味することが意図されない。用語「comprising」、「including」、「having」などは、同義語であり、非限定的なやり方で包括的に使用され、追加の複数の要素、複数の特徴、複数の活動、複数の動作などを排除しない。また、用語「or」は、(排他的な意味ではなく)包括的な意味で使用され、その結果、たとえば複数の要素のリストを連結するために使用されたときに、用語「or」は、リスト内の複数の要素のうち1つ、いくつか、またはすべてを意味する。
【0122】
上記の詳細な説明が、さまざまな実施形態に適用されるような新規な複数の特徴を示し、説明し、指摘したが、本開示の精神を逸脱することなく、示される複数のデバイスまたは複数のアルゴリズムの形態および詳細に、さまざまな省略、置換、および変更を行うことができることを理解されよう。理解されるように、いくつかの特徴が他とは別個に使用または実施することができるので、本明細書で示す複数の特徴および複数の利益のすべてを提供するわけではない形態の範囲内で、本明細書で説明する本発明のある種の実施形態を具体化することができる。
以下に、本願出願時の特許請求の範囲に記載された発明を付記する。
[1] オーディオ信号に適用される遠近感拡張を変調する方法であって、
前記方法は、
リスナを基準にして音源の空間的位置に関する情報をそれぞれ備える左および右のオーディオ信号を受信することと、
前記左および右のオーディオ信号の差情報を計算することと、
左および右の出力信号をもたらすように、前記左および右のオーディオ信号の差情報に少なくとも1つの遠近感フィルタを適用することと、
前記左および右の出力信号に、前記計算された情報に少なくとも一部は基づくゲインの値を適用することと、
を備え、
前記ゲインを少なくとも前記適用することは、1つまたは複数のプロセッサにより実施される方法。
[2] 前記差情報の包絡線を検出することおよび前記差信号を平滑化することのうち1つまたは複数を実施することをさらに備える、前記[1]に記載の方法。
[3] 前記変調することは、前記差情報の前記包絡線および前記平滑化された差情報のうちの一方または両方に少なくとも一部は基づき、前記少なくとも1つの遠近感フィルタの前記適用を変調することを備える、前記[2]に記載の方法。
[4] 前記左および右のオーディオ信号の複数の信号レベルに少なくとも一部は基づき、前記差情報を正規化することをさらに備える、前記[1]、[2]、または[3]に記載の方法。
[5] 前記変調することは、前記正規化された差情報に少なくとも一部は基づき、前記少なくとも1つの遠近感フィルタの前記適用を変調することを備える、前記[4]に記載の方法。
[6] 前記正規化することは、前記左および右のオーディオ信号の幾何平均を計算することと、前記計算された幾何平均で前記差情報を除算することと、を備える、前記[4]または[5]に記載の方法。
[7] 前記左および右の出力信号にクロストークキャンセルを適用して、バックウェーブクロストークを低減することをさらに備える、前記[1]から[6]のいずれかに記載の方法。
[8] 前記少なくとも1つの遠近感フィルタを適用することの前に、前記差情報に少なくとも一部は基づき、前記左および右のオーディオ信号に深度レンダリング拡張を適用することをさらに備える、前記[1]から[7]のいずれかに記載の方法。
[9] 前記左および右のオーディオ信号に前記深度レンダリング拡張を前記適用することは、前記左および右のオーディオ信号を脱相関することを備える、前記[8]に記載の方法。
[10] オーディオ信号に適用される遠近感拡張を変調するシステムであって、
前記システムは、
リスナを基準にして音源の空間的位置に関する情報をそれぞれ備える左および右のオーディオ信号を受信すること、および
前記左および右のオーディオ信号から差信号を得ること
に少なくともより、複数のオーディオ信号を解析するように構成された信号解析構成要素と、
少なくとも1つの遠近感フィルタを前記差信号に適用して、左および右の出力信号をもたらすように構成された、1つまたは複数の物理的プロセッサを備えるサラウンドプロセッサと、
を備え、前記少なくとも1つの遠近感フィルタの出力が、前記計算された差情報に少なくとも一部は基づき変調されるシステム。
[11] 前記信号解析器は、前記差信号の包絡線を検出することおよび前記差信号を平滑化することのうち1つまたは複数を少なくとも実施するようにさらに構成される、前記[10]に記載のシステム。
[12] 前記サラウンドプロセッサは、前記差信号の前記包絡線および前記平滑化された差信号のうちの一方または両方に少なくとも一部は基づき、前記変調を実施するように構成される、前記[11]に記載のシステム。
[13] 前記信号解析器は、前記左および右のオーディオ信号の複数の信号レベルに少なくとも一部は基づき、前記差信号を正規化するようにさらに構成される、前記[10]、[11]、または[12]に記載のシステム。
[14] 前記サラウンドプロセッサは、前記正規化された差信号に少なくとも一部は基づき、前記変調を実施するようにさらに構成される、前記[13]に記載のシステム。
[15] 前記信号解析器は、少なくとも、前記左および右のオーディオ信号の幾何平均を少なくとも計算すること、および前記計算された幾何平均で前記差信号を除算することにより、前記差信号を正規化するようにさらに構成される、前記[13]または[14]に記載のシステム。
[16] 前記左および右の出力信号にクロストークキャンセルを適用するように構成されたクロストークキャンセラをさらに備える、前記[10]から[15]のいずれか一項に記載のシステム。
[17] 前記少なくとも1つの遠近感フィルタを適用する前に、前記差信号に少なくとも一部は基づき、前記左および右のオーディオ信号に深度をレンダリングするように構成された深度レンダリング構成要素をさらに備える、前記[10]から[16]のいずれか一項に記載のシステム。
[18] 前記深度レンダリング構成要素は、前記左および右のオーディオ信号を少なくとも脱相関することにより、前記深度をレンダリングするようにさらに構成される、前記[17]に記載のシステム。
[19] 1つまたは複数のプロセッサ内で、オーディオ信号に適用される遠近感拡張を変調するための複数の動作を実施するように構成された、中に記憶された複数の命令を備える非一時的な物理的コンピュータ記憶装置であって、前記複数の動作は、
リスナを基準にして音源の空間的位置に関する情報をそれぞれ備える左および右のオーディオ信号を受信することと、
前記左および右のオーディオ信号の差情報を計算することと、
左および右の出力信号をもたらすように、記左および右のオーディオ信号の各々に少なくとも1つの遠近感フィルタを適用することと、
前記計算された差情報に少なくとも一部は基づき、前記少なくとも1つの遠近感フィルタの前記適用を変調することと、
を備える非一時的な物理的コンピュータ記憶装置。
[20] オーディオ信号に適用される遠近感拡張を変調するシステムであって、
前記システムは、
リスナを基準にして音源の空間的位置に関する情報をそれぞれ備える左および右のオーディオ信号を受信するための手段と、
前記左および右のオーディオ信号の差情報を計算するための手段と、
左および右の出力信号をもたらすように、前記左および右のオーディオ信号の各々に少なくとも1つの遠近感フィルタを適用するための手段と、
前記計算された差情報に少なくとも一部は基づき、前記少なくとも1つの遠近感フィルタの前記適用を変調するための手段と、
を備えるシステム。