(58)【調査した分野】(Int.Cl.,DB名)
前記第1のボリュームは前記基準位置の周りの球であり、前記第2のボリュームは前記基準位置の周りの球殻であり、前記球殻は前記球の直径よりも大きい直径を有するか、または、
前記第1のボリュームは第1の球殻であり、前記第2のボリュームは第2の球殻であり、前記第1の球殻の直径は前記第2の球殻の直径よりも小さく、
前記メタデータ生成器(110)は、前記球および前記球殻あるいは第1の球殻および第2の球殻の空間記述を提供するように構成される、
請求項1に記載の装置。
前記メタデータ生成器(110)は、各音場記述の距離範囲を決定するように構成され、前記距離範囲は、各ボリュームに対して均一または不均一であり、前記距離範囲が各ボリュームに対して不均一である場合、前記基準位置からさらに離れて延在するボリュームの距離範囲は、前記基準位置により近い距離範囲よりも大きい、
請求項1から4のいずれか一項に記載の装置。
送信または保存のための出力信号を生成するための出力インターフェース(120)をさらに含み、前記出力信号は、時間フレームについて、前記時間フレームの前記音場および前記空間情報から導出された1つまたは複数のオーディオ信号を含む、請求項1から5のいずれか一項に記載の装置。
前記装置は、前記拡張音場記述が、第1の音場記述(330)、第2の音場記述(340)、および前記第1の音場記述および前記第2の音場記述に関する空間情報(350)を前記メタデータとして含むように、前記拡張音場記述を生成するように構成される、
請求項1から6のいずれか一項に記載の装置。
前記音場計算器(420)は、修正レイヤ音場記述を計算する際にレイヤごとにアンビエンス/拡散/残差信号を追加するか、あるいは前記全体音場記述に追加される単一のアンビエンス/拡散/残差信号を計算する、ように構成される、
請求項12に記載の装置。
前記音場計算器(420)は、前記修正音場記述に回転を適用するように構成され、前記修正音場記述は、前記異なる基準位置に関連するレイヤ音場記述または全体音場記述である、
請求項9から15のいずれか一項に記載の装置。
前記音解析(1200)は、音源分離アルゴリズムによって前記音源信号を決定し、前記拡散信号を取得するために前記音場記述から前記音源信号の少なくともいくつかを減算するように構成される、
請求項19から25のいずれか一項に記載の装置。
【発明の概要】
【発明が解決しようとする課題】
【0018】
本発明の目的は、改善された、または柔軟な、または効率的な処理を可能にし、一方で拡張音場記述または他方で修正音場記述の生成を提供することである。
【課題を解決するための手段】
【0019】
この目的は、請求項1の拡張音場記述を生成する装置、請求項10の修正音場記述を生成する装置、請求項27の拡張音場記述を生成する方法、請求項28の修正音場記述を生成する方法、請求項29のコンピュータプログラム、または請求項30の拡張音場記述によって達成される。
【0020】
本発明は、基準位置に関連する典型的な音場記述には、これらの音場記述を処理することができる追加情報が必要であるという知見に基づくものであり、そのようにすれば、元の基準位置になく、別の基準位置に関連しない修正音場記述を算出することができる。この目的のために、この音場の空間情報に関連するメタデータが生成され、メタデータは音場記述と共に、例えば送信または保存できる拡張音場記述に対応する。音場記述およびメタデータ、具体的には音場記述の空間情報に関連するメタデータから、修正音場記述を生成するために、空間情報、音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場が計算される。したがって、音場記述と、音場記述の基礎となるこの音場の空間情報に関連するメタデータで構成される拡張音場記述が処理されて、修正音場記述が取得され、修正音場記述は、例えばデコーダ側で提供または使用できる追加の並進情報によって定義される別の基準位置に関連している。
【0021】
しかし、本発明は、エンコーダ/デコーダのシナリオに関連するだけでなく、拡張音場記述の生成と修正音場記述の生成の両方が基本的に1つの同じ場所で行われるアプリケーションにも適用することができる。修正音場記述は、例えば、修正音場自体の記述、または実際にはチャネル信号、バイノーラル信号の修正音場、または再び関連する基準位置関連の音場、しかし、元の基準位置ではなく新しいまたは異なる基準位置に関連する基準位置に関連する音場であってもよい。このようなアプリケーションは、例えば、メタデータと一緒に音場記述が存在し、リスナーが、音場が与えられた基準位置から出て別の基準位置に移動する仮想現実のシナリオであって、そこでは、仮想エリア内を動き回るリスナーの音場は、現在ユーザが移動した別の基準位置での音場に対応するように計算される。
【0022】
一実施形態では、音場生成器は、複数の少なくとも2つのレイヤの各レイヤについて、1つまたは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間−周波数ビンに対する拡散度データを有する音場のDirAC記述を生成することができる。このコンテキストでは、メタデータ生成器はレイヤに含まれるすべての音源とレイヤに関連するすべての周波数ビンで同じであるため、各レイヤの追加の距離または深度情報を生成するように構成されている。好ましい実施形態は、レイヤに関連付けられた距離または距離範囲を有するであろう。あるいは、レイヤごとに深度マップを提供することができる。特に、さらなる実施形態では、空間情報に関連するメタデータは、特定の距離を到来方向情報などの特定の位置情報に関連付ける深度マップである。
【0023】
実施形態では、到来方向は、仰角のみ、方位角のみ、または両方の角度によって与えられ、深度マップは、レイヤ内の各音源にメートルなどの距離や相対距離または相対距離などの同じ距離情報を関連付ける量子化された絶対距離または相対距離、またはその他の距離情報から、最終的に、音場が関連する異なるまたは新しい基準位置に関する距離を導き出すことができる。
【0024】
続いて、他の好ましい実施態様の概要を説明する。
【0025】
アンビソニックスは、仮想現実、拡張現実、複合現実アプリケーションのコンテキストで、3Dオーディオで最も一般的に使用されるフォーマットの1つになった。アンビソニックスフォーマットの出力信号を生成する、様々なオーディオ取得および制作ツールが開発されている。双方向の仮想現実(VR)アプリケーションでアンビソニックス符号化されたコンテンツを表示するために、アンビソニックスフォーマットは再生用のバイノーラル信号またはチャネルに変換される。前述のアプリケーションでは、リスナーは通常、提示されたシーンにおける自分の向きを対話形式で変更することができ、音響シーンで頭を回転させて3自由度(3DoF、すなわち、ピッチ、ヨー、およびロール)を可能にして、適切な音質を経験することができる。これは、頭の向きに従ってレンダリングする前に音響シーンを回転させることで実現され、これは、計算の複雑さを低く抑えて実施することができ、アンビソニックス表現の利点である。しかし、VRなどの新しいアプリケーションでは、方向の変化(いわゆる「6自由度」または6DoF)だけでなく、ユーザが音響シーンで自由に移動できるようにすることが望まれる。結果として、音響シーンの遠近感を変更する(すなわち、x、y、またはz軸に沿って音響シーン内を仮想的に移動する)ために信号処理が必要である。しかし、アンビソニックスの主な欠点は、フォーマットが音響シーンの単一の視点から音場を記述することである。具体的には、6DoFで必要とされるような音響シーンをシフト(「並進」)できる音響シーン内の音源の実際の場所に関する情報は含まれていない。本発明の説明は、アンビソニックスのいくつかの拡張を提供して、この問題を克服し、並進も容易にし、したがって真の6DoFを可能にする。
【0026】
一次アンビソニックス(FOA)録音は、ヘッドフォンで処理および再生できる。それらは、リスナーの頭の向きに合わせて回転させることができる。しかし、仮想現実(VR)システムでは、リスナーは6自由度(6DoF)、すなわち3つの回転自由度と3つの遷移自由度で移動できる。ここで、音源の見かけの角度と距離は、リスナーの位置に依存する。6DoFを容易にする手法について説明する。特に、FOA録音は、リスナーの位置と音源までの距離に関する情報に基づいて修正されるパラメトリックモデルを使用して記述される。この方法は、リスニングテストによって評価され、リスナーが自由に移動できる合成音響シーンの異なるバイノーラルレンダリングを比較する。
【0027】
さらに好ましい実施形態では、拡張音場記述は、送信または保存のための出力信号を生成するための出力インターフェースによって出力され、出力信号は、時間フレームについて、時間フレームの音場および空間情報から導出された1つまたは複数のオーディオ信号を含む。特に、音場生成器は、さらなる実施形態では、音場から方向データを導出するように適応可能であり、方向データは、ある期間または周波数ビンの音の到来方向を指し、メタデータ生成器は、距離情報を方向データに関連付けるデータ項目として空間情報を導出するように構成される。
【0028】
特に、このような実施形態では、出力インターフェースは、時間フレームのデータ項目が異なる周波数ビンの方向データにリンクされるように出力信号を生成するように構成される。
【0029】
さらなる実施形態では、音場生成器はまた、音場の時間フレームの複数の周波数ビンについて拡散度情報を生成するように構成され、メタデータ生成器は、拡散度の値が所定のしきい値または適応しきい値よりも低い場合に、所定の値と異なる、または無限と異なる周波数ビンの距離情報のみを生成するか、または周波数ビンの距離値をとにかく生成するように構成される。したがって、拡散度の高い時間/周波数ビンの場合、距離値がまったく生成されないか、またはデコーダによって特定の方法で解釈される所定の距離値が生成される。したがって、高い拡散度を有する時間/周波数ビンについては、距離に関連するレンダリングは実行されないことが確認されるが、それは、高い拡散度は、そのような時間/周波数ビンに対して、音が特定の局在化した音源から来るのではなく、任意の方向から来るからであり、したがって、音場が元の基準位置で知覚されるか、異なるまたは新しい基準位置で知覚されるかに関係なく同じであるからである。
【0030】
音場計算器に関して、好ましい実施形態は、並進情報または修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェースと、メタデータを音場計算器に提供するためのメタデータサプライヤと、音場記述を音場計算器に提供するための音場サプライヤと、さらに、修正音場記述および修正メタデータを含む修正音場を出力するための出力インターフェースと、を含み、修正メタデータは、並進情報を使用してメタデータから導出され、または、出力インターフェースは複数のスピーカチャネルを出力し、各スピーカチャネルは、所定のスピーカ位置に関連付けられ、または、出力インターフェースは、修正音場のバイノーラル表現を出力する。
【0031】
一実施形態では、音場記述は複数の音場成分を含む。複数の音場成分は、全方向性成分と少なくとも1つの指向性成分を含む。そのような音場記述は、例えば、全方向性成分と3つの指向性成分X、Y、Zを有する1次アンビソニックス音場記述であるか、または、そのような音場は、全方向成分、X、Y、およびZ方向に関する3つの方向成分と、さらに、X、Y、Z方向以外の他の方向に関連するさらなる方向性成分と、を含む高次アンビソニックス記述である。
【0032】
一実施形態では、装置は、音場成分を解析して、異なる時間または周波数ビンについて、到来方向情報を導出するための解析器を含む。装置は、DoA情報およびメタデータを使用して周波数または時間ビンごとに修正DoA情報を計算するための並進変換器をさらに含み、メタデータは、時間フレームのすべての周波数ビンについて、距離をレイヤ記述、すなわちレイヤのすべての音源に関連付ける深度マップに関連する。したがって、各レイヤには非常に単純な「深度マップ」で十分である。レイヤの深度マップには、
図4cのように、少なくともこのレイヤの距離または距離範囲のみが必要である。
【0033】
さらに、音場計算器は、レイヤからの音源の各周波数または時間ビンに対して同じであるメタデータから、ならびに時間または周波数ビンに関連付けられた新しい距離から提供される距離に依存する距離補償情報を使用して修正音場を計算するための距離補償器を有し、新しい距離は修正DoA情報に関連する。
【0034】
一実施形態では、音場計算器は、基準位置から音場の解析によって得られた音源を指す第1のベクトルを計算する。さらに、音場計算器は、異なる基準位置から音源を指す第2のベクトルを計算し、この計算は第1のベクトルと並進情報を使用して行われる。並進情報は、基準位置から異なる基準位置への並進ベクトルを定義する。そして、別の基準位置から音源までの距離が第2のベクトルを使用して計算される。
【0035】
さらに、音場計算器は、並進情報に加えて、ピッチ、ヨー、およびロールによって与えられる3つの回転方向のうちの1つでのリスナーの頭の回転を示す回転情報を受け取るように構成される。次に、音場計算器は、回転情報を使用して回転変換を実行し、音場の修正された到来方向データを回転させるように構成され、修正された到来方向データは、音場記述の音解析および並進情報により得られた到来方向データから導出される。
【0036】
一実施形態では、音場計算器は、音場記述から音源信号を決定し、音解析によって基準位置に関連する音源信号の方向を決定するように構成される。
【0037】
次に、異なる基準位置に関連する音源の新しい方向が計算され、これはメタデータを使用して行われ、次に、異なる基準位置に関連する音源の距離情報が計算され、その後に、修正音場が距離情報と音源の新しい方向を使用して合成される。
【0038】
一実施形態では、音場合成は、再生設定に関して新しい方向情報によって与えられる方向に音源信号をパンニングすることによって実行され、音源信号のスケーリングは、パンニングを実行する前またはパンニングを実行した後に距離情報を使用して行われる。距離が変化した場合、音源信号を新しいレイヤに関連付ける必要がある。次に、音場記述が生成される場合、1とは異なるスケーリング係数が使用される。トランスコーダの意味で、新しいマルチレイヤ記述が生成される場合、距離の変化を説明するには、一方のレイヤから他方のレイヤへの変更だけで十分である。「パンニング」は、特定の場所に関連するフィールドの形式で新しい音場記述を生成するために、
図4iに概説されているように実行できる。しかし、スピーカ信号を生成するために、新しいDoAから導出されたパンニングゲインを使用したパンニングを実行することができる。
【0039】
さらなる実施形態では、音場合成は、再生設定、音源信号のスケーリングに関する新しい方向情報によって与えられる方向に、レイヤ内のFOAまたはHOA音源信号を回転させ、最後に、距離情報を使用して音源信号をレイヤに関連付けることにより実行される。説明したように、これにより「パンニング」を置き換えることができる。
【0040】
さらなる実施形態では、音源信号の拡散部分が音源信号の直接部分に追加され、直接部分は、拡散部分に追加される前に距離情報によって修正される。
【0041】
さらなる実施形態では、音源信号の拡散部分が専用レイヤに追加される。この専用レイヤに関連付けられた信号は、再生設定に関する新しい方向情報に基づいて回転される。
【0042】
特に、新しい方向情報が各周波数ビンに対して計算されるスペクトル表現で音源合成を実行することが好ましく、各周波数ビンについて距離情報が計算され、周波数ビンのオーディオ信号を使用した各周波数ビンの直接合成が、周波数ビンのオーディオ信号、新しい方向情報から導出された周波数ビンのパンニングゲイン、および周波数ビンの距離情報から導出された周波数ビンのスケーリング係数を使用して実行される。
【0043】
さらに、周波数ビンからのオーディオ信号から導出された拡散オーディオ信号と、周波数ビンの信号解析から導出された拡散パラメータを使用して拡散合成が実行され、直接信号と拡散信号を組み合わせて時間または周波数ビンの合成オーディオ信号を取得し、次に他の時間/周波数ビンのオーディオ信号を使用して周波数−時間変換を実行して、時間領域の合成オーディオ信号を修正音場として取得する。
【0044】
したがって、一般に、音場計算器は、例えば、音源ごとに、音源信号の新しい方向を使用して音源信号を処理することにより、異なる基準位置に関連する音場を音源ごとに合成し、異なる/新しい基準位置に関連する音源信号の音場記述を取得するように構成される。さらに、音源信号は、音源信号を処理する前、または方向情報を使用して音源信号を処理した後に修正される。そして最後に、音源の音場記述を一緒に追加して、異なる基準位置に関連する修正音場を取得する。
【0045】
さらなる実施形態では、音場計算器は、DirAC解析または他の任意の音源解析の代わりに、音源分離アルゴリズムを実行する。音源分離アルゴリズムは、最終的には、例えば時間領域または周波数領域の音源信号になる。次に、拡散信号は、元の音場が拡散信号といくつかの音源信号に分解されるように、元の音場から音源信号を減算することによって計算され、各音源信号は特定の方向に関連付けられている。
【0046】
好ましい実施形態によれば、音場生成器は、基準位置についての第1の音場記述を生成し、第1の音場記述は、基準位置の周りの第1の音場記述に位置する音源からの音データのみを含み、さらに、音場生成器は、基準位置についての第2の音場記述を生成し、第2の音場記述は、基準位置の周りの第2のボリュームに位置する第2の音源からの音データのみを有し、第2のボリュームは第1のボリュームとは異なる。各ボリュームは1つ、好ましくは複数の音源を備えるが、メタデータは、ボリューム内のすべての音源に適用可能な第1のボリュームおよび/または第2のボリュームの空間記述を提供するように構成される。例えば、空間記述が特定のレイヤから基準位置までの代表距離である場合、この距離は、対応する到来方向の推定と共に、レイヤ内の音源の位置を決定するために、レイヤ内のすべての音源に対して同じ方法で使用される。しかし、レイヤ内の位置は、基準位置に対して放射状にのみ決定されるが、同じレイヤ内の各音源の距離は、空間記述、または特定の実施形態では、このボリューム/レイヤに関連する代表距離に対応する。したがって、非常に効率的でコンパクトなメタデータ表現が得られ、これは通常、レイヤ内の任意の数の音源の単一の値で構成され、さらに、音響信号のすべてのサブバンドで同じである。例えば、レイヤの音場の音響解析を使用する場合、距離情報は各サブバンドで同じになる。
【0047】
ここで、各ボリュームはレイヤで表され、ボリュームが重ならないように個別のレイヤで表されることが好ましいことに留意されたい。
【0048】
したがって、マルチレイヤ音場記述に関する本発明は、一方で非常にコンパクトなサイド情報を有するが、単一の音場記述に関しては、レイヤごとに完全な音場記述が提供されるため、よりオーバーヘッドが多い。例えば、単一のレイヤがBフォーマット信号で表される場合、各レイヤに4つの音響成分、すなわち全方向性成分と3つの方向性成分が必要である。したがって、音場が3つのレイヤで表される場合、各レイヤが1次アンビソニックス信号またはBフォーマット信号で表される場合、全体で12の音響成分、すなわちレイヤごとに4つが必要である。当然、音源数の少ないレイヤの成分数が少ない音場記述と比較して、音源数が多いレイヤの高次の音場記述など、レイヤごとに異なる音場記述を使用することができる。
【0049】
しかし、一方で、各音場レイヤのメタデータとして必要なのは単一の幾何学的情報のみである。
【0050】
好ましい実施形態では、ボリュームは基準位置の周りの球または球殻であり、通常、最下位レイヤは基準位置の周りの球であり、上位レイヤは球で表される第1のレイヤの周りに広がる球殻である。
【0051】
しかし、音場で表されるボリュームは必ずしも球である必要はない。あるいは、ボリュームは、立方体、平行六面体要素、または他の任意の、通常は三次元の幾何学的形態であってもよい。しかしながら、本発明は、二次元の状況にも適用することができ、その結果、ボリュームは、面積、通常は、三次元における微小な小さな拡がりによって表される。したがって、「ボリューム」という用語は、真の3次元ボリュームを指すだけでなく、2次元の場合のボリュームが第3の方向にわずかに小さな拡がりを有する平面である2次元の場合も指す。したがって、2次元の場合の「ボリューム」は、第1のレイヤの基準点の周りの円と、第1のレイヤの代表半径よりも大きい代表半径を有する第1の「ボリューム」の周りの円環になる。
【0052】
さらに、拡張音場記述を生成する装置は、元の音場から2つ以上の階層化された音場記述を生成し、これらの音場記述に、第1のボリュームおよび/または第2のボリュームの空間記述を関連付ける一種のエンコーダとして構成されるばかりではない。他の実施形態では、拡張音場記述を生成するための装置は、メタデータを含むレイヤ記述を受け取り、新しいメタデータを含む新しいレイヤ記述を生成するトランスコーダとして実施することもできる。例えば、各レイヤのメタデータが基準点までの代表距離で表される場合、トランスコードされた拡張音場記述が、異なる(新しい)基準点までの代表距離が同じレイヤを有する場合、トランスコーダによって生成された拡張音場のメタデータは元のメタデータと同じになるが、トランスコーダは、個々の音源の新しい方向が考慮された各レイヤの修正音場記述を生成し、さらに、音源から基準位置までの新しい距離は、音源をあるレイヤから別のレイヤに移動することによって、そしてもちろん、音源の音源信号を減衰または増幅することによって考慮される。特に、音源が下位レイヤから上位レイヤに移動する場合、音源信号に減衰が提供されるか、あるいは、音源が上位レイヤから下位レイヤに移動する場合、すなわち、新しい基準位置に近づく場合、音源信号に増幅が提供される。
【0053】
各レイヤの各音場記述は、レイヤ記述から音源信号を生成するだけでなく、さらにこの音源の到来方向を決定するフルバンドの音源分離技術などの音源分離技術によって解析できる。代わりに、その音場記述は、DirAC解析器で周波数選択音源分離を実行して解析することもでき、これにより、時間/周波数ビンごとに、音源オーディオ信号と、通常は拡散度値が計算される。
【0054】
しかし、特定の音源から新しい基準位置までの距離の計算に関しては、各レイヤのメタデータから取得された距離情報は、特定のレイヤ記述から決定された各音源で同じである。したがって、例えば、到来方向が異なる2つ以上の音源がレイヤ記述から決定されているブロードバンド解析の場合、距離情報は各音源で同じである。
【0055】
あるいは、レイヤの音場記述がDirAC解析器によって解析される場合、各時間/周波数ビンの距離情報は再び同じになる。すなわち、対応するレイヤの基準距離に等しくなる。
【0056】
本発明がデコーダとして適用される場合、すなわち、音場計算器は、修正音場を、例えば、アンビソニックス表現などの完全な指向性成分表現の形で計算する場合、メタデータは、基準位置までの新旧の距離に応じて、対応する音響信号をスケーリングするためにのみ必要である。次に、各レイヤの音源ごとに、特定のアンビソニックス表現を計算し、このアンビソニックス表現は、古い到来方向情報から決定された新しい到来方向と、古い基準位置から新しい基準位置への並進情報を使用して計算され、次に、各音源信号は、音源の以前の基準位置から新しい基準位置までの距離を考慮してスケーリングされ、対応するスケーリングに続いて、音源の個々のアンビソニックス表現を互いに重ね合わせて、音場の完全なアンビソニックス表現を得ることができる。したがって、そのような「デコーダ」は、階層化された表現を新しい基準位置に関する単一の音場記述に変換し、スピーカ信号などに変換するなど、さらに処理できるように構成される。
【0057】
あるいは、音場計算器は、個々のレイヤからの意図された実際のまたは仮想のスピーカ設定のスピーカ表現、例えばレイヤの音場記述のDirAC合成を実行するように構成することができ、次に、異なるレイヤからの個々のスピーカ信号を一緒に追加して、最終的に、この所定のスピーカ設定でレンダリングできる、またはバイノーラルレンダラでバイノーラル表示に変換できるスピーカ表現を作成することができる。
【0058】
したがって、本発明は、特定の基準位置に関するメタデータを含む階層化された音場記述を生成するために、または、再度階層化された表現を使用するが、新しい基準位置に関連するレイヤを使用してトランスコードされた拡張音場を再度生成するために、使用することができ、あるいは、本発明は、階層化表現に加えてメタデータを、新しい基準位置に関連するメタデータなしの特定の音場記述に復号化するために適用することができる。
【0059】
本発明の好ましい実施形態は、添付の図面に関して以下で説明される。
【発明を実施するための形態】
【0061】
前述のアンビソニックス/DirAC表現に対して6DoFアプリケーションを有効にするには、変換処理に不足している情報を提供する方法でこれらの表現を拡張する必要がある。この拡張は、例えば、1)オブジェクトの距離または位置を既存のシーン表現に追加すること、および/または2)個々のオブジェクトを分離するプロセスを容易にする情報を追加すること、ができることに留意されたい。
【0062】
さらに、既存の(ノンパラメトリックまたはパラメトリック)アンビソニックスシステムの構造を保存/再利用して、
・拡張された表現は、既存の拡張されていない表現(例えば、レンダリング用)に変換することができ、
・拡張表現を使用する場合、既存のソフトウェアとハードウェアの実施態様を再利用することができるという意味で、これらの表現/システムとの下位互換性を提供することが実施形態の目的である。
【0063】
以下では、いくつかのアプローチ、すなわち、1つの限定された(しかし非常に単純な)アプローチと、6DoFを有効にする3つの異なる拡張アンビソニックスフォーマットについて説明する。
【0064】
通常のアンビソニックス表現の代わりに、複数のアンビソニックス信号(すなわち、複数の信号のセット)が定義される。各アンビソニックス信号は、音響シーンの特定の距離範囲に対応している。距離範囲は、均一なパーティション(0〜1メートル、1〜2メートル、2〜3メートルなど)または不均一なパーティション(0〜1メートル、1〜3メートル、3メートル以上)を含んでもよい。オーバーラップしない距離範囲は、音響シーンの実際のプロパティに応じて静的に定義されるか、動的に定義されてもよく、マルチレイヤアンビソニックスフォーマットで定義される。あるいは、ウィンドウ関数と共に重なり合う距離範囲を定義することができる。レイヤの1つは、正確な距離記述を必要としないが音響シーン全体に分散された拡散/アンビエント音響に個別に割り当てることができる。
【0065】
マルチレイヤアンビソニックス表現の概念は、従来のアンビソニックスとパラメトリック(DirACスタイル)アンビソニックスの両方に適用できる。3つのレイヤの一例を
図4cに示す。
【0066】
以下のテキストは、提案されたマルチレイヤアンビソニックスを使用して変換を実施する方法を説明している。
【0067】
オプションI(
図4d):各アンビソニックスレイヤのオブジェクトは、音源分離手法を適用して生成される。アンビエンス/拡散/残差アンビソニックス信号も生成することができる。DOAは1D/2D音源局在化を使用して取得され、距離はレイヤのメタデータによって与えられる。多くの場合、DOAは音源分離フィルタからも抽出でき、音源分離とDOAの同時推定を実行する方法が存在することに留意されたい。
【0068】
次に、
図4eに示すように、各シングルチャネルオブジェクトが1つまたは複数のレイヤにレンダリングされる。第一に、それぞれDOA’およびDistance’で表される変換後のDOAおよび距離は、並進情報(例えば、ベクトルとして表される)およびレイヤ距離(例えば、そのレイヤの平均または代表距離)に基づいて計算される。第二に、DOA’に基づいてオブジェクトのアンビソニックス信号が生成される。第三に、オブジェクトは、Distance’とオブジェクトが抽出されたレイヤの距離に基づいて適切なレイヤにレンダリングされる。すべてのオブジェクトの修正アンビソニックス信号を生成した後に、第iの修正アンビソニックスレイヤ(i∈{1、…、L})は、すべてのオブジェクトのレイヤiの修正アンビソニックス出力を加算することによって計算される。第iのレイヤのアンビエンス/拡散/残差アンビソニックス信号は、第iの修正アンビソニックス出力に直接追加される。
【0069】
さらに、距離の変化を補償するために、いわゆる距離補償フィルタを適用できる。フィルタは、Distance’とレイヤ距離に基づいてオブジェクトに直接適用できる。
【0070】
オプションII(
図4f):音源分離手法を適用することにより、すべてのLレイヤを使用してオブジェクトが生成される。単一のアンビエンス/拡散/残差アンビソニックス信号も生成することができる。
【0071】
次に、
図4eに示すように、各シングルチャネルオブジェクトが1つまたは複数のレイヤにレンダリングされる。第一に、それぞれDOA’およびDistance’で表される変換後のDOAおよび距離は、並進情報(例えば、ベクトルとして表される)およびレイヤ距離(例えば、そのレイヤの平均または代表距離)に基づいて計算される。第二に、DOAに基づいてオブジェクトのアンビソニックス信号が生成される。第三に、オブジェクトは、Distance’とオブジェクトが抽出されたレイヤの距離に基づいて適切なレイヤにレンダリングされる。さらに、距離の変化を補償するために、いわゆる距離補償フィルタを各オブジェクトに適用できる。すべてのオブジェクトの修正アンビソニックス信号を生成した後に、第iの修正アンビソニックスレイヤ(i∈{1、…、L})は、すべてのオブジェクトのレイヤiの修正アンビソニックス出力を加算することによって計算される。第iのレイヤのアンビエンス/拡散/残差アンビソニックス信号は、第iの修正アンビソニックス出力に直接追加される。
【0072】
さらに、距離の変化を補償するために、いわゆる距離補償フィルタを適用できる。フィルタは、Distance’とレイヤ距離に基づいてオブジェクトに直接適用できる。
【0073】
マルチレイヤのアンビソニックス信号の生成は、コンピュータで生成および制作されたコンテンツに対して簡単である。マイクアレイまたは空間マイク(Bフォーマットのマイクなど)を介した自然な録音をマルチレイヤアンビソニックス信号に変換するのは簡単ではない。
【0074】
レイヤは、投影、加算、またはダウンミキシングにより、従来のアンビソニックス信号に変換できる。シンプルで計算効率の高い変換を
図4gに示す。
【0075】
向きの変化は、マルチレイヤアンビソニックス信号の各々にレイヤに依存しない回転を適用するか、従来のアンビソニックス信号に単一の回転を適用することで実現することができる。レイヤに依存しない回転は、並進の前または後に実行することができる。
【0076】
図1aは、少なくとも1つの基準位置に関する音場を示す少なくとも1つの音場記述を生成するための音場(記述)生成器100を含む、拡張音場記述を生成するための装置を示す。さらに、装置は、音場の空間情報に関するメタデータを生成するためのメタデータ生成器110を含む。メタデータは、入力として、音場を受け取るか、その代わりにまたはさらに、音源に関する個別の情報を受け取る。
【0077】
音場記述生成器100およびメタデータ生成器110の両方の出力は、拡張音場記述を構成する。一実施形態では、音場記述生成器100およびメタデータ生成器110の両方の出力をコンバイナ120または出力インターフェース120内で結合して、空間メタデータまたはメタデータ生成器110によって生成された音場の空間情報を含む拡張音場記述を得ることができる。
【0078】
図1bは、本発明によって対処される状況を示している。例えば、位置Aは少なくとも1つの基準位置であり、音源Aと音源Bによって音場が生成され、位置Aにある特定の実際のマイクまたは例えば仮想マイクが音源Aおよび音源Bからの音を検出する。音は、放出音源から来る音の重ね合わせである。これは、音場記述生成器によって生成された音場記述を表す。
【0079】
さらに、メタデータ生成器は、特定の実施態様により、音源Aに関する空間情報と、これらの音源から位置Aなどの基準位置までの距離などの音源Bに関する別の空間情報と、を導出する。
【0080】
当然、基準位置は代わりに位置Bであってもよい。次に、実際のマイクまたは仮想マイクを位置Bに配置し、音場記述は、例えば、1次アンビソニックス成分または高次アンビソニックス成分、または少なくとも1つの基準位置、つまり位置Bに関する音場を記述する可能性を有する他の任意の音響成分で表される音場である。
【0081】
メタデータ生成器は、音源に関する情報として、音源Aから位置Bまでの距離、または音源Bから位置Bまでの距離を生成してもよい。音源に関する代替情報は、もちろん、基準位置に対する絶対位置または相対位置であってもよい。基準位置は、一般的な座標系の原点にすることも、一般的な座標系の原点に対して定義された関係に配置することもできる。
【0082】
他のメタデータには、1つの音源の絶対位置や、第1の音源に対する他の音源の相対位置などがある。
【0083】
図2は、拡張音場記述を生成するための装置を示し、音場生成器は、第1の音場のための音場生成器250、第2の音場のための音場生成器260、ならびに第3、第4の音場など、1つまたは複数の音場のための任意の数の音場生成器を含む。さらに、メタデータは、第1の音場および第2の音場に関する情報を計算してコンバイナ120に転送するように構成される。このすべての情報は、拡張音場記述を生成するためにコンバイナ120によって使用される。したがって、コンバイナ120はまた、拡張音場記述を生成する出力インターフェースとして構成される。
【0084】
図3aは、第1の音場記述330、第2の音場記述340、およびそれらに関連する第1の音場記述および第2の音場記述に関する情報を含むメタデータ350を含むデータストリームとして拡張音場記述を示す。第1の音場記述は、例えば、Bフォーマットの記述、高次の記述、またはフルバンド表現または周波数選択表現のいずれかで音源の方向分布を決定できる他の任意の記述であってもよい。したがって、第1の音場記述330および第2の音場記述340は、例えば、ダウンミックス信号および異なる時間/周波数ビンの到来方向データを有する個々のレイヤのパラメトリック音場記述であってもよい。
【0085】
それにもかかわらず、第1および第2の音場記述の幾何学的情報350は、第1の音場記述330に含まれるすべての音源、または第2の音場記述340の音源に対してそれぞれ同じである。したがって、例示的に、第1の音場記述330に3つの音源が存在し、第1の音場記述に関する幾何学的情報が存在する場合、この幾何学的情報は第1の音場記述の3つの音源に対して同じである。同様に、例えば、第2の音場記述に5つの音源が存在する場合、メタデータ350に含まれる第2の音場の幾何学的情報は、第2の音場記述のすべての音源に対して同じである。
【0086】
図3bは、
図3aのメタデータ350の例示的な構成を示している。一実施形態では、基準点351をメタデータに含めることができる。しかし、これは必ずしも基準点情報351が省略され得るというわけではない。
【0087】
第1の音場について、第1の幾何学的情報が与えられ、これは、例えば、後述する
図4cの例示的な実施形態の0.5メートルの値となる第1のレイヤの中間半径または代表半径であってもよい。
【0088】
第2のレイヤは1メートルから3メートルに及ぶので、第2の音場は、例えば、
図4cの実施形態の2メートルなどの第2のレイヤの中間半径に対応する第2の幾何学的情報353によって記述される。
【0089】
第3の音場は、第3の幾何学的情報354によって記述され、代表距離は、例えば、4メートル程度などの第3のレイヤの「中間半径」である。当然、各音場記述は複数の音源を含むことが好ましいが、特定のレイヤの音場記述に単一の音源のみが含まれる場合もある。
【0090】
例えば、好ましいマルチレイヤアンビソニックス手法を示す
図4cを考えると、第1のレイヤは0または最小距離、例えば0.5mから1mまで延在する。第2のレイヤは1mから3mまで延在し、第3のレイヤは、
図4cに示す3つの円の中心である第1の基準点から3mを超える距離を有するすべての音源を含む。
【0091】
さらに、
図4cは、2つの音源1、2がレイヤ1に含まれ、2つの音源3、4がレイヤ2に含まれ、音源5および6がレイヤ3に含まれることを示している。
【0092】
概説したように、
図3aは、拡張音場記述を含むビットストリームまたは一般的なデータストリームの一例を示している。データストリームは、時間フレームi、i+1など、および対応する時間フレームの関連サイド情報を含んでもよい。
【0093】
図4bは、
図2の音場解析器210が実際にダウンミックスを生成しないが、BフォーマットまたはAフォーマットまたは特定の期間の高次表現などのその他の完全な表現を生成する別の実施態様を示す。
【0094】
図4cは、新しいリスナーの位置も示している。新しいリスナー位置の周囲に同じレイヤが描画されると、新しいリスナー位置への並進により音源1がレイヤ1からレイヤ3に移動することが明らかになり、したがって(強く)減衰する必要がある。
【0095】
さらに、音源2はレイヤ1からレイヤ2に移動するので、(弱く)減衰する必要がある。
【0096】
さらに、音源3は以前のレイヤ2から新しいレイヤ3に移動するので、(弱く)減衰する必要がある。
【0097】
さらに、音源4は第2のレイヤに残るため、減衰を必要としない。さらに、音源5も同じレイヤに留まるため、スケーリングする必要はない。最後に、音源6は前の第3のレイヤから新しい第1のレイヤに移動するので、(強く)増幅する必要がある。
【0098】
したがって、一般に、基準点から異なる(新しい)基準点への並進により、音源が移動すると、特定のスケーリング係数が決定される。音源の「移動」が上位レイヤから下位レイヤに移動する場合、スケーリングは減衰であり、「移動」が下位レイヤから上位レイヤに移動する場合、スケーリングは減衰である。さらに、「移動」が1つのレイヤから次のレイヤに移動する場合、スケーリング係数は弱い減衰または弱い増幅などの弱いスケーリング係数になり、移動が1つのレイヤから次のレイヤにではなく、1つのレイヤからその1つの層に隣接するレイヤではない別のレイヤに移動する場合、つまり、第1のレイヤから第3のレイヤ、またはその逆の場合、スケーリング係数は、より強い減衰または増幅が実行されるものになる。
【0099】
例えば、音源が第3のレイヤから第2のレイヤに移動し、
図3bの例示的な値を考慮すると、スケーリング係数は2.0の増幅係数、すなわち4mを2mで除算した値になる。しかし、音源が第2のレイヤから第3のレイヤに移動する場合、スケーリング係数は0.5、すなわち2mを4mで除算した値になる。
【0100】
あるいは、音源が第1のレイヤから第3のレイヤに移動し、
図3bの例示的な図を想定すると、スケーリング係数は0.5mを5mで除算して得られる0.1〜5になる。
【0101】
あるいは、
図4cの実施形態における音源6のように、音源が第3の音場から第1の音場に移動する場合、スケーリング係数は、4mを0.5mで除算することによって得られる8.0になる。
【0102】
当然、これらの例は
図4cに示されている2次元の「ボリューム」の場合に関して説明されているが、
図4cの円がレイヤ1の球およびレイヤ2もしくはレイヤ3の球殼を表すと考えられる場合、真の3次元のボリュームの場合にも同じ考慮事項が利用できる。
【0103】
図4dは、一般に、修正音場記述を生成する装置、またはその代わりに、トランスコーダ表現のコンテキストで拡張音場記述を生成する装置の音場計算器の実施態様を示す。アンビソニックスレイヤ1として例示的に示す第1のレイヤ表現、アンビソニックスレイヤ2として示される第2の音場記述、およびアンビソニックスレイヤLに示す任意の追加の音場記述は、異なる音源分離およびDoA推定ブロック422、422a、422bに導入される。さらに、ブロック422、422a、422bの手順によって見つかったオブジェクトを対応する「新しい」レイヤにレンダリングするように構成されたレンダラ450が使用される。さらに、解析ブロック422、422a、422bは、オブジェクト信号およびオブジェクト信号の到来方向を抽出するように構成されているだけでなく、各レイヤの音場記述からアンビエンス/拡散/残差信号を生成するようにも構成されている。この信号は、例えば、個々の表現から音源分離手順によって導出されたすべての個々の音源信号の合計を減算することによって取得できる。あるいは、例えば、音源分離422、422a、422bがDirAC解析として構成される場合、拡散/アンビエンス/残差信号は、パラメトリックな方法で、拡散度パラメータにより表される。
【0104】
さらに、
図4dは、特定のレイヤの修正されたアンビソニックス表現に、そのレイヤに対応する拡散度信号を追加するための加算器601、602、603を示している。
【0105】
これは、レイヤ1、レイヤ2、レイヤLの各々に対して行われ、
図4dの出力は、トランスコードされた拡張音場記述を再度表すが、それは、ブロック601、602、603によって出力される異なる修正された表現のために、特定のメタデータが、レイヤ1、レイヤ2、およびレイヤLの代表距離を示すことに関連付けられるからである。
【0106】
図4eは、
図4dの場合、単一のオブジェクトまたは音源のレンダラを示している。オブジェクトは、例えば、第1のレイヤのブロック422または第2のレイヤのブロック422aまたは第Lのレイヤのブロック422bによって得られ、アンビソニックス信号を計算するためにブロック430に入力され、ブロック430は、例えば、
図4iに示すように構成され得る。アンビソニックス信号を新しいDoA’、すなわち、古いDoAによってブロック423、423a、423bで生成された音源の到来方向の値、元の基準位置から新しいリスナー位置への並進情報を計算するために。
【0107】
したがって、新しいDoAに関してオブジェクトの新しいアンビソニックス信号が計算され、オブジェクトとして出力される。したがって、例えば、
図4iのブロック430の出力は、オブジェクトの信号になる。さらに、ブロック423、423a、423bは、
図4cに関して前述したように新しい距離を計算/決定し、したがって、例えば、
図4cおよび
図4bの例に関して前述したようにスケーリング係数を計算し、次に、レイヤへのレンダリングブロック810は、ブロック430から取得したオブジェクトの信号を、古い距離(レイヤ距離)と新しい距離から導出した特定のスケーリング係数でスケーリングするように構成することができ、次に、
図4cの新しいリスナー位置の周囲の特定のレイヤ1、2、またはLに属するすべての信号を対応するように加算して、再び階層化された表現にすることができる。したがって、
図4cの実施形態に関して、現在レイヤ1にある唯一の音源は元の音源6であり、一方、元の音源5、3、1は、L=3の場合にレイヤ3の信号を取得するために音源ごとに個別に決定されたスケーリングに続いて、アンビソニックス表現に関して共に追加され、同様に、音源2、4の音源信号はレイヤ2の信号を表さないため、
図4cの表に示すように、音源4はスケーリングを必要としないが、音源2はスケーリング操作を必要とする。
【0108】
したがって、
図4eは、各レイヤでオブジェクトがどのように決定され、加算器601、602、603でアンビエンス/拡散/残差信号を加算した後に、各レイヤの完全に修正されたアンビソニックス表現が取得され、これは、
図4hに示すように、関連するメタデータと共に拡張/修正音場記述として出力され得る。
【0109】
しかしながら、代替的に、各レイヤのアンビソニックス表現は、マルチレイヤアンビソニックス表現を従来のアンビソニックス表現に変換し、それを伝統的に実際のまたはスピーカ表現からバイノーラル表現にレンダリングできるようにするために、
図4gに示す加算器600によって単純に加算され得る。
【0110】
図4fに示されている他のオプションIIは、単一のアンビエンス/拡散度/残差信号のみがすべての個々のレイヤから生成され、この単一のアンビエンス/拡散/残差信号は加算器604によって最上位レイヤにのみ追加されるという点で
図4eとは異なる。音源分離およびDoA推定422cは、例えば、
図4dのように、レイヤごとに各レイヤの各音場記述に対して個別に実行することができる。しかし、音源分離とDoA推定アルゴリズムを実装して、個々のレイヤ記述をすべて加算し、信号レイヤ記述を取得してから、この単一のアンビソニックス表現に対して音源分離とDoA推定を実行することもできる。しかし、各レイヤについて個別に進めることが好ましく、単一の拡散信号を生成するために、
図4dの実施形態によって得られた個々の拡散信号をブロック422c内で一緒に追加することができる。
【0111】
したがって、オプションIIを使用すると、下位レイヤのアンビソニックス表現が完全にドライになり、最上位レイヤの「ウェット」表現のみになり、単一の拡散信号が最上位レイヤにのみ追加される。当然、この手順は拡散信号が距離手順によってスケーリングされないため便利であるが、音場記述が元の基準位置または例えば、
図4cのリスナー位置に対応する新しい基準位置に関連しているかどうかに関係なく、最初に決定されたのと同じ方法で使用される。
【0112】
図6に、例えばDirAC解析として構成できる各レイヤの音源分離アルゴリズムを示す。次いで、ブロック422によって出力される
図6に示す拡散信号はそこにないが、この拡散信号は拡散パラメータによって表され、すなわちパラメトリックに表される。これに対応して、オブジェクト信号は、DirAC手順の場合、時間/周波数ビンごとの圧力信号になる。しかし、一般的な場合、オブジェクト信号はフルバンド信号であってもよい。
【0113】
第1のレイヤは上部ブランチで表され、第2のレイヤは
図6の中央のブランチで表され、第3のレイヤは
図6の下部のブランチで表される。
【0114】
一般的な音源分離手順の場合、対応するシンセサイザ425は、例えば
図4dまたは
図4fに示すように、各レイヤのアンビソニックス信号を生成する。次に、これらのすべてのアンビソニックス信号は、
図4gに関して一般的に説明したように結合できる。その後に、例えばバイノーラルの場合、信号が
図6の符号500に示されている仮想現実環境のリスナーの頭部に装着されたヘッドフォンに送信されると、レンダラ427によって信号がレンダリングされる。
【0115】
さらに、
図6は、音源分離、並進、アンビソニックス信号の生成、または回転の手順を様々な順序で適用できることを示している。
【0116】
図6の上部レイヤは、音源分離が回転変換の前に実行され、また並進変換/ボリュームスケーリングの前に実行されることを示しているが、
図6のメディアブランチは、音源分離533aが並進423aの前に実行され、アンビソニックス信号の生成がブロック425aによって実行されると述べているが、このステップに続いて、ブロック422aで回転変換が適用される。
【0117】
繰り返すが、
図6の下側の分岐は、回転変換424bを音源分離422bの前に適用することもできるが、音源分離の後に適用することもできることを示しており、それは、リスナーの頭部の動きはもちろん、レイヤのすべての音源、さらにはすべてのレイヤのすべての音源で同じだからである。さらに、並進変換423bは、アンビソニックス信号の生成前および回転変換前でも実行できるが、いずれの並進でも各音源の到来方向が必要なため、音源分離の前には実行することができない。
【0118】
コンバイナ600への入力でのアンビソニックス信号の場合、およびコンバイナ600の出力がさらに、例えば
図4gに関して説明したような従来のアンビソニックス信号である場合、ブロック600の後に回転変換を適用することもでき、次いで、レンダラ427は、バイノーラル表現に直接、またはスピーカ表現、または仮想スピーカ表現を介したバイノーラル表現のいずれかに直接レンダリングしなければならない。完全に並進変換され、完全に回転した音場記述は、もはやレイヤ化されないが、コンバイナ600での組み合わせにより、レイヤの「特性」は放棄される。
【0119】
これに関連して、
図6と
図4eからも明らかなように、信号をトランスコードするだけでなく、単一の音場記述を生成する場合、
図4cの表のコンテキストで説明した「レイヤへのレンダリング810」は、
図4cに関して示された方法では不要である。音場は1つしか生成されないため、音源が1つのレイヤから別のレイヤに移動するかどうかは関係ない。代わりに、スケーリング係数のみが必要であるが、これらのスケーリング係数は、レイヤの代表距離またはレイヤ情報350で指定された古い距離と、古い距離、音源のDoA、および、例えば
図7に関して説明した並進情報を使用して取得された新しい距離から直接導出できる。したがって、音源が1つのレイヤから別のレイヤに変更または「移動」するかどうかは、トランスコーダ表現の問題であり、
図4gまたは
図6の場合は問題ではない。
【0120】
図4aは、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置の好ましい実施態様を示している。特に、装置は、メタデータ、音場記述、および基準位置から異なる基準位置への並進を示す並進情報を使用して修正音場を生成する音場計算器420を含む。
【0121】
例えば、
図1bの位置Aに関して音場が与えられた場合、異なる基準位置は位置Bになり、並進情報は、例えば位置Aから位置Bへの変換を示すベクトルになる。次に、音場計算器420は、あたかも位置Bにいるリスナーによって知覚されるかのように修正音場を計算し、この計算のために、音場計算器は、位置Aに関連する音場記述と並進情報、さらに音源Aと音源Bの空間位置に関連するメタデータを有する。
【0122】
一実施形態では、音場計算器420は、例えば
図1aまたは2に関して説明したように拡張音場記述を受信するための入力インターフェース400に接続され、入力インターフェース400は、一方で、音場記述、すなわち、
図1aのブロック100または
図2のブロック210によって生成されたものを分離する。さらに、入力インターフェース400は、拡張音場記述、すなわち
図3aの項目350または
図3bのオプション351および352〜354からメタデータを分離する。
【0123】
さらに、変換インターフェース410は、並進情報および/または追加のまたは別個の回転情報をリスナーから取得する。変換インターフェース410の実施態様は、仮想現実環境における頭部の回転を追跡するだけでなく、ある位置、すなわち
図1bの位置Aから別の位置、すなわち
図1bの位置Bへの頭部の並進も追跡する頭部追跡ユニットであってもよい。
【0124】
図4bは、
図1aと同様の別の実施態様を示しているが、エンコーダ/デコーダのシナリオには関係していないが、メタデータサプライヤ402によって示されるメタデータの供給が行われる一般的なシナリオに関係しており、音場サプライヤ404によって示される音場供給は、符号化または拡張音場記述を分離する特定の入力インターフェースなしで行われるが、例えば、仮想現実アプリケーションなどに存在する実際のシナリオですべて行われる。しかしながら、本発明は、仮想現実アプリケーションに限定されず、第1の基準位置に関連する音場を、異なる第2の基準位置に関連する別の音場に変換するために、基準位置に関連する音場の空間オーディオ処理が有用である他の任意のアプリケーションで実施することもできる。
【0125】
次に、音場計算器420は、修正音場記述を生成するか、あるいは(仮想)スピーカ表現を生成するか、ヘッドフォン再生用の2チャネル表現などのバイノーラル表現を生成する。したがって、音場計算器420は、修正音場として、元の音場記述と基本的に同じであるが、今は新しい基準位置に関する修正音場記述を生成することができる。代替的な実施形態では、仮想または実際のスピーカ表現は、5.1方式などの所定のスピーカ設定、またはより多くのスピーカを含み、特に2次元配置だけでなく3次元配置のスピーカ配置、すなわち、スピーカがユーザの位置に対して高くなっているスピーカ配置を備えたスピーカ設定に対して生成することができる。仮想現実アプリケーションに特に役立つ他のアプリケーションは、バイノーラル再生用、すなわち、仮想現実のユーザの頭部に適用できるヘッドフォン用のアプリケーションである。
【0126】
例示的に、後で説明する
図6または
図9は、DirACシンセサイザは、全方向性または圧力成分などのダウンミックス成分でのみ動作するが、
図12bに示したさらに別の実施形態では、DirACシンセサイザは、音場データ全体、すなわち、
図12bのこの実施形態では、全方向成分wおよび3つの方向成分x、y、zを有するフィールド記述を有する完全な成分表現で動作するという状況を示している。
【0127】
図4iは、DirACシンセサイザとは異なる合成を実行するための別の実施態様を示している。例えば、音場解析器が、各音源信号に対して、個別のモノラル信号Sと元の到来方向を生成する場合、および、並進情報に応じて、新しい到来方向が計算される場合、例えば
図4iのアンビソニックス信号生成器430を使用して、音源信号の音場記述、すなわち、モノラル信号Sであるが、水平角θまたは仰角θと方位角φからなる新しい到来方向(DoA)データを生成する。次に、
図4bの音場計算器420によって実行される手順は、例えば、新しい到来方向を有する各音源について一次アンビソニックス音場表現を生成し、次に、音場から新しい基準位置までの距離に応じてスケーリング係数を使用して、音源ごとにさらに修正を行い、次に、個々の音源からのすべての音場を互いに重ね合わせて、最終的に、再度、例えば、特定の新しい基準位置に関連するアンビソニックスの表現で修正音場を取得することができる。
【0128】
図6または
図9のDirAC解析器422、422a、422bによって処理された各時間/周波数ビンが特定の(バンド幅が制限された)音源を表すと解釈すると、DirACシンセサイザ425、425a、425bの代わりに、アンビソニックス信号生成器430を使用して、各時間/周波数ビンに対して、ダウンミックス信号または圧力信号、またはこの時間/周波数ビンの全方向成分を
図4iの「モノラル信号S」として使用する完全なアンビソニックス表現を生成することができる。次に、W、X、Y、Z成分のそれぞれに対する周波数−時間変換器での個々の周波数時間変換により、
図4cに示されているものとは異なる音場記述が得られる。
【0129】
さらなる実施形態を以下に概説する。目標は、元の録音位置での信号と、録音位置からの音源の距離に関する情報が与えられると、リスナーの位置で仮想バイノーラル信号を取得することである。物理的な音源は、録音位置への角度によって分離可能であると想定されている。
【0130】
シーンは、マイクの視点(PoV)から録音され、この位置は基準座標系の原点として使用される。シーンはリスナーのPoVから再現する必要があり、リスナーは6DoFで追跡される(
図5を参照)。ここでは、説明のために単一の音源が示されているが、この関係は、時間−周波数ビンごとに保持される。
【0131】
図5は、空間オーディオの6DoF再生を示している。音源は、マイクの位置と方向(黒い線と円弧)に対する距離d
rのDoA r
rでマイクによって録音される。これは、DoA r
lと距離d
l(破線)を使用して、移動するリスナーに対して相対的に再生する必要がある。これは、リスナーの並進lと回転o(点線)を考慮する必要がある。
【0132】
座標d
r∈R
3の音源は、単位ベクトル
で表される到来方向(DoA)から録音される。このDoAは、録音の解析から推定できる。それは距離
から来ている。この情報は、レイヤ距離として、または一般的に
図3bの項目352、353、354として各レイヤのメタデータに含まれ、録音位置から任意の方向rを有するレイヤlの各音源を、基準点からのレイヤの距離(例えばメートルなどで与えられる)にマッピングする深度マップm(l、r)の形式で距離情報として表現できると仮定する。
【0133】
リスナーは6DoFで追跡される。ある時点で、リスナーはマイクに対して1∈R
3の位置にあり、マイクの座標系に対してo∈R
3の回転を有する。録音位置は、表記を簡素化するために座標系の原点として選択される。
【0134】
したがって、音は異なる距離d
1で再生する必要があり、変化したボリュームと、並進とその後の回転の両方の結果である異なるDoA r
1をもたらす。
【0135】
次のセクションで説明するように、パラメトリック表現に基づいた専用の変換によってリスナーの観点から仮想信号を取得する方法の概要を説明する。
【0136】
提案された方法は、パラメトリック空間音響符号化の基本的なDirAC手法に基づいている[16]。解析されたスペクトルの時間−周波数インスタンスごとに1つの支配的な直接音源があり、これらは独立して処理できると仮定される。録音は、短時間フーリエ変換(STFT)を使用して時間−周波数表現に変換される。時間フレームインデックスはnで、周波数インデックスはkで示される。次に、変換された録音が解析され、複素スペクトルP(k、n)の各時間−周波数ビンの方向r
r(k、n)および拡散度ψ(k、n)が推定される。合成では、信号は直接部分と拡散部分とに分割される。ここでは、スピーカの位置に応じて直接部分をパンニングし、拡散部分を追加することにより、スピーカ信号が計算される。
【0137】
6DoFのリスナーの観点に従ってFOA信号を変換する方法は、5つのステップに分割できる(
図6を参照)。
【0138】
図6は、6DoF再生の方法を示している。Bフォーマットで記録されたFOA信号は、複素スペクトルの各時間−周波数ビンの方向と拡散度の値を計算するDirACエンコーダによって処理される。次に、方向ベクトルは、リスナーの追跡された位置によって、各レイヤの距離マップで指定された距離情報に従って変換される。結果として得られる方向ベクトルは、頭部の回転に応じて回転する。最後に、8+4の仮想スピーカチャネルの信号がDirACデコーダで合成される。次に、これらはバイノーラル化される。
【0139】
実施形態では、入力信号はDirACエンコーダ422で解析され、距離情報は各レイヤの距離を与える距離マップm(l)から追加され、次に、リスナーが並進と回転を追跡したものが新規変換423、424に適用される。DirACデコーダ425は、8+4の仮想スピーカ用の信号を合成し、これらのスピーカは、ヘッドフォン再生用にバイノーラル化427される。並進後の音響シーンの回転は独立した操作であるため、代替的にバイノーラルレンダラに適用することもできることに留意されたい。6DoF用に変換される唯一のパラメータは方向ベクトルである。モデル定義では、拡散部分は等方性で均質であると仮定され、したがって変更されない。
【0140】
DirACエンコーダへの入力は、Bフォーマット表現のFOA音響信号である。これは4つのチャネル、すなわち全方向音圧と3つの1次空間勾配で構成され、特定の仮定の下では粒子速度に比例する。この信号はパラメトリックな方法で符号化される([18]を参照)。パラメータは、変換された全方向性信号である複素音圧P(k、n)および複素粒子速度ベクトルU(k,n)=[U
X(k,n),U
Y(k,n),U
Z(k,n)]
Tは、変換された勾配信号に対応する。
【0141】
DirAC表現は、各時間−周波数ビンでの音波の信号P(k、n)、拡散度ψ(k、n)、および方向r(k、n)で構成される。後者を導出するには、まず、アクティブな音響強度ベクトルI
a(k、n)を、圧力ベクトルと速度ベクトル[18]の複素共役((・)*で示す)の積の実部(Re(・)で示す)として計算する。
【0142】
(1)
拡散度は、このベクトル[18]の変動係数から推定される。
【0143】
(2)
は、移動平均として実施される、時間フレームに沿った期待演算子を示す。
【0144】
レイヤの各音源から基準位置までの距離を有する方向ベースの距離マップを使用して音響を操作することを目的としているため、方向推定値の分散は低くなければならない。通常、フレームは短いので、これは必ずしもそうではない。したがって、移動平均を適用して、平滑化された方向推定値
(k、n)を取得する。信号の直接部分のDoAは、反対方向の単位長さベクトルとして計算される。
【0145】
(3)
方向は各時間−周波数ビンの単位長さの3次元ベクトルとして符号化されるため、距離情報を統合するのは簡単である。方向ベクトルは、ベクトルの長さが対応する音源d
r(k、n)の距離を表すように、対応するマップエントリと乗算される。
=
(k、n)
【0146】
(4)
ここで、d
r(k、n)は、マイクの録音位置から、時間nおよび周波数ビンkでアクティブな音源を指すベクトルである。
【0147】
リスナーの位置は、現在の処理フレームの追跡システムによってl(n)として指定される。音源位置のベクトル表現を使用すると、追跡位置ベクトルl(n)を減算して、長さ
の新しい変換方向ベクトルd
1(k、n)を生成できる(
図7を参照)。リスナーのPoVから音源までの距離が導出され、DoAは単一のステップで適応される。
【0148】
(5)
リアルな再現の重要な側面は、距離の減衰である。減衰は、音源とリスナーとの間の距離の関数であると仮定される[19]。方向ベクトルの長さは、再生のために減衰または増幅を符号化することである。録音位置までの距離は、距離マップに従ってd
r(k、n)で符号化され、再生される距離はd
1(k、n)で符号化される。ベクトルを単位長に正規化し、古い距離と新しい距離の比率とを乗算すると、d
1(k、n)を元のベクトルの長さで除算することによって必要な長さが与えられることが分かる。
【0149】
(6)
リスナーの向きの変更は、次の手順で適用される。トラッキングによって与えられる方向は、原点としての録音位置を基準としたピッチ、ヨー、およびロール
Tで構成されるベクトルとして記述できる。音源方向は、リスナーの方向に従って回転され、これは、2D回転行列を使用して実施される。
【0150】
(7)
結果として得られるリスナーのDoAは、単位長に正規化されたベクトルによって与えられる。
【0151】
(8)
変換された方向ベクトル、拡散度、および複雑なスペクトルを使用して、均一に分散された8+4仮想スピーカ設定用の信号を合成する。8つの仮想スピーカは、リスナー平面上で45°の方位角のステップ(仰角0°)で配置され、4つの仮想スピーカは、45°の仰角で90°のクロスフォーメーションで配置される。合成は、スピーカチャネル
ごとに直接部分および拡散部分に分割され、
はスピーカの数[16]である。
【0152】
(9)
直接部分では、エッジフェージング振幅パンニング(EFAP)パンニングが適用され、仮想スピーカジオメトリ[20]が与えられると、正しい方向から音が再生される。DoAベクトルr
p(k、n)が与えられると、これは各仮想スピーカチャネル
のパンニングゲインG
i(r)を提供する。各DoAの距離依存ゲインは、結果の方向ベクトルの長さd
p(k、n)から導出される。チャネル
の直接合成は次のようになる。
【0153】
(10)
ここで、指数γは、通常は約1に設定される調整係数である[19]。γ=0の場合、距離依存ゲインはオフになることに留意されたい。
圧力
は、
非相関信号
を生成するために使用される。これらの非相関信号は、拡散成分として個々のスピーカチャネルに追加される。これは標準の方法[16]に従う。
【0154】
(11)
各チャネルの拡散部分と直接部分が一緒に加算され、信号は逆STFTによって時間領域に変換される。これらのチャネル時間領域信号は、バイノーラル化された信号を作成するために、スピーカの位置に応じて左右の耳のHRTFと畳み込まれる。
【0155】
図8は、例えば代表的な距離なしで動作するが、レイヤの距離からではなく、音源があるレイヤから、前のレイヤに隣接する別のレイヤに移動するか隣接しない別のレイヤに移動するかどうかだけから得られるスケーリング係数の一般的な決定で動作するトランスコーダ実装の好ましい実施態様を示す。したがって、ブロック800は、音源が同じレイヤに残っているかどうかを判断するように構成されている。例えば、音源4および5の場合と同じレイヤが結果であると判断された場合、ブロック802は、新しい到来方向のオブジェクト信号の特定のスケーリングは不要であると判断し、「スケーリング係数」は、スケーリングは1に設定されないか、あるいは、そのような音源に対してスケーリングが実行されないように、何らかの方法で単にフラグを立てるか通知することもできることを示す。
【0156】
しかしながら、音源が下位レイヤに移動すると決定される場合、ブロック804は1より大きいスケーリング係数を決定する。この決定は、2つのレイヤ、すなわち音源レイヤとターゲットレイヤの代表的な距離を使用して行うことができる。しかし、特定のスケーリング係数を使用することもできる。例えば、あるレイヤから隣接するレイヤに移動する場合は1〜2で、例えば音源が2レイヤなどに移動する場合は4になる。
【0157】
図8は、さらに、音源が例えば音源1、2、3のように上位レイヤに移動するブロック806の状況を示している。次に、この音源のスケーリング係数が決定されるが、これは1未満である。繰り返すが、スケーリング係数は前に説明したように代表的な距離から決定できるが、代わりに、元の基準位置から新しい基準位置またはリスナー位置に並進したために移動したレイヤの数に依存する固定スケーリング係数を使用して取得することもできる。例えば、移動が1つのレイヤのみで行われる場合、0.5〜1などの中程度のスケーリング係数を使用でき、2つ以上のレイヤで移動が行われる場合、0.1〜0.5のより高いスケーリング係数を使用できる。
【0158】
オブジェクト信号プロセッサ/スケーリング808は、アンビソニックス生成の前にオブジェクト信号にスケーリングを適用するか、アンビソニックス表現のすべての成分にスケーリングを適用して、最終的に、音源ごとのモノ表現またはアンビソニックス表現のいずれかで、処理されたオブジェクト信号を取得する。
【0159】
図9は、
図6と同様であるが、例えば
図4dの個々のブロック422、422a、422bがDirACエンコーダ/デコーダ実装として実施されるさらなる実施形態を示す。その結果、個々のスピーカチャネル信号、アンビソニックス信号、または、例えばトランスコーダのその他の信号表現になることができる。しかし、出力がチャネル信号またはバイノーラル信号である場合、それらの対応する信号をコンバイナ600で一緒に追加して、単一の音場記述を表し、その後に、さらなる手順によってブロック427でレンダリングすることができる。
【0160】
図10は、音場計算器420のさらに好ましい実施態様を示している。
図10に示す手順は、各レイヤに対して個別に実行される。唯一の違いは、レイヤごとに異なるレイヤ情報350が使用され、このレイヤ情報はレイヤ内の音源ごとに同じであることである。レイヤ情報は、距離値を生成する距離決定器1120によってメタデータから読み取られる。メタデータに既にメートル単位の距離が含まれている場合、ブロック1120は、データストリームまたはこの情報をブロック1140に転送するものからデータを抽出するだけである。したがって、同じレイヤ内の各音源の各DoAに対して同じ距離情報が生成され、ブロック1140で使用される。
【0161】
音場記述に基づいて、符号1100でフルバンドの到来方向またはバンドごとの到来方向が決定される。これらの到来方向情報は、音場の到来方向データを表する。この到来方向データに基づいて、並進変換がブロック1110で実行される。この目的のために、ブロック1120は、レイヤの音場記述のメタデータを取得する。データに基づいて、ブロック1110は、この実施では基準位置から異なる基準位置への並進のみに依存する音場の新しい到来方向データを生成する。この目的のために、ブロック1110は、例えば、仮想現実の実施のコンテキストでの追跡により生成された並進情報を受け取る。
【0162】
好ましくはまたは代わりに、回転データも使用される。このために、ブロック1130は、回転情報を使用して回転変換を実行する。並進と回転の両方が実行される場合、並進からの情報とブロック1120からのレイヤ距離を既に含む音場の新しいDoAの計算に続いて、回転変換を実行することが好ましい。
【0163】
次に、ブロック1140で、新しい音場記述が生成される。この目的のために、元の音場記述を使用するか、あるいは、音源分離アルゴリズムによって音場記述から分離された音源信号を使用するか、他のアプリケーションを使用できる。基本的に、新しい音場記述は、例えば、アンビソニックス生成器430によって取得されるか、DirACシンセサイザ425によって生成される指向性音場記述であってもよく、または後続のバイノーラルレンダリングで仮想スピーカ表現から生成されるバイノーラル表現であってもよい。
好ましくは、
図10に示すように、特定の音源のボリュームまたは音量を新しい場所、すなわち新しいまたは異なる基準位置に適合させるために、新しい音場記述を生成する際に到来方向ごとの距離も使用される。
【0164】
図10は、回転変換が並進変換の後に実行される状況を示しているが、順序は異なる可能性があることに留意されたい。特に、回転変換は、ブロック1100によって生成された音場のDoAに適用でき、その後に、基準位置から異なる基準位置への対象の並進による追加の並進変換が適用される。
【0165】
音場のDoAがブロック1100によって決定されるとすぐに、ブロック1120を使用してメタデータから距離情報が取得され、次に、この距離情報は、変更された距離、したがって、特定の基準位置に対する特定の音源の音量の変化を考慮するために、ブロック1140で新しい音場記述を生成することによって使用される。基本的に、距離が大きくなると特定の音源信号が減衰し、距離が短くなると音源信号が増幅されると言える。当然、距離に応じた特定の音源の減衰または増幅は距離の変化に比例して行われるが、他の実施形態では、非常に粗い増分での音源信号のこの増幅または減衰にそれほど複雑でない操作を適用できる。このようなそれほど複雑ではない実施態様でも、距離の変化が完全に無視される状況と比較して、優れた結果が得られる。
【0166】
図7は、音場計算器420の好ましい実施態様を示している。ブロック1102では、音源分離および各音源の到来方向または一般に方向情報の計算が実行される。次に、ブロック1104で、到来方向ベクトルに距離情報ベクトル、すなわち、元の基準位置から音源までのベクトル、すなわち、例えば
図5の項目520から項目510までのベクトルが乗算される。次に、ブロック1106において、並進情報、すなわち
図5の項目520から項目500へのベクトルが考慮されて、リスナー位置500から音源位置510へのベクトルである新しい変換方向ベクトルが計算される。次に、ブロック1108で、d
vで示される正しい長さの新しい到来方向ベクトルが計算される。このベクトルはd
rと同じ方向に向いているが長さが異なり、このベクトルの長さは音源510が特定のボリュームで元の音場に録音されているという事実を反映しているため、したがってd
vの長さは多かれ少なかれ音量の変化を示す。これは、ベクトルd
lを録音距離d
r、すなわち、マイク520から音源510までのベクトルd
rの長さで除算することによって得られる。
【0167】
図5のように、再生距離が録音距離よりも大きい場合、d
vの長さは1より短くなる。これにより、新しいリスナー位置での再生のための音源510の減衰が生じる。しかし、再生距離d
lが録音距離よりも小さい場合、ブロック1108で計算されるd
vの長さは1より大きくなり、対応するスケーリング係数により音源が増幅される。
【0168】
図11は、音場計算器のさらに好ましい実施態様を示している。
【0169】
ブロック1200では、音場からの個々の音源が、例えばバンドごとまたはフルバンドのように決定される。フレームおよびバンドごとの決定が実行されると、DirAC解析によってこれを実行できる。フルバンドまたはサブバンドの決定が実行される場合、これはあらゆる種類のフルバンドまたはサブバンドの音源分離アルゴリズムによって実行できる。
【0170】
ブロック1210において、リスナーの並進および/または回転が、例えば頭部追跡により決定される。
【0171】
ブロック1220では、各音源の古い距離は、メタデータを使用することにより、例えば、代表距離などのレイヤのメタデータを使用することにより決定される。したがって、各バンドは特定の音源であると見なされ(拡散度が特定のしきい値よりも低い場合)、その後に、低い拡散度値を有する各時間/周波数ビンの特定の距離が決定される。
【0172】
次に、ブロック1230において、例えば、バンドごとのベクトル計算によって、音源ごとの新しい距離が取得され、これは、例えば、
図7のコンテキストで説明されるか、またはレイヤ変更の検出に依存する
図8の手順を使用する。
【0173】
さらに、ブロック1240に示すように、音源ごとの古い方向は、例えば、DirAC解析で得られたDoA計算により、または例えば音源分離アルゴリズムでの到来方向または方向情報解析により決定される。
【0174】
次に、ブロック1250で、例えばバンドまたはフルバンドごとのベクトル計算を実行することにより、音源ごとの新しい方向が決定される。
【0175】
次に、ブロック1260で、並進および回転したリスナーの新しい音場が生成される。これは、例えば、DirAC合成でチャネルごとの直接部分をスケーリングすることで実行できる。特定の実施態様に応じて、ブロック1260で距離修正を実行することに加えて、または代替として、ブロック1270a、1270bまたは1270cで距離修正を行うことができる。
例えば、音場が単一の音源のみを有すると決定される場合、距離変更はブロック1270aで既に実行されてもよい。
【0176】
あるいは、個々の音源信号がブロック1200によって計算される場合、ブロック1260で実際の新しい音場が生成される前に、ブロック1270bで個々の音源に対して距離修正を実行されてもよい。
【0177】
さらに、例えば、ブロック1260の音場生成がスピーカ設定信号またはバイノーラル信号をレンダリングせず、例えばアンビソニックスエンコーダまたは計算器430を使用する別の音場記述をレンダリングする場合、ブロック1260での生成に続いて距離修正も実行することができ、これはブロック1270cを意味する。実施態様に応じて、距離の変更をいくつかの変更子に分配することもでき、その結果、特定の音源は、音源と基準位置の間の元の距離と、音源と異なる基準位置の間の新しい距離との差によって導かれる特定の音量にある。
【0178】
図12aは、例えば、2009年のIWPASHから先に引用した参考文献「Directional Audio Coding」に最初に開示したDirAC解析器を示している。
【0179】
DirAC解析器は、バンドフィルタ1310のバンク、エネルギー解析器1320、強度解析器1330、時間平均化ブロック1340、拡散度計算器1350および方向計算器1360を含む。
【0180】
DirACでは、解析と合成の両方が周波数領域で実行される。それぞれ異なるプロパティ内で、音響を周波数バンドに分割する方法がいくつかある。最も一般的に使用される周波数変換には、短時間フーリエ変換(STFT)および直交ミラーフィルタバンク(QMF)が含まれる。これらに加えて、特定の目的に最適化された任意のフィルタでフィルタバンクを設計する完全な自由がある。選択された時間−周波数変換に関係なく、設計目標は、人間の空間聴覚の解像度を模倣することである。方向解析の対象は、各周波数バンドで音の到来方向を推定することであり、同時に音が1つまたは複数の方向から同時に到来している場合の推定値である。原則として、これはいくつかの手法で実行できるが、音場のエネルギー解析が適切であることが分かっており、これを
図12aに示す。1次元、2次元、または3次元の圧力信号と速度信号が単一の位置から取り込まれると、エネルギー解析を実行できる。1次Bフォーマット信号では、全方向性信号はW信号と呼ばれ、2の平方根でスケールダウンされている。音圧は、
のように推定することができ、STFTドメインで表される。
【0181】
X、Y、およびZチャネルは、デカルト軸に沿って方向付けられたダイポールの指向性パターンを有し、ベクトルU=[X、Y、Z]を共に形成する。ベクトルは音場速度ベクトルを推定し、STFTドメインでも表現される。音場のエネルギーEが計算される。Bフォーマット信号の取り込みは、指向性マイクの同時配置、または全方向性マイクの狭い間隔のいずれかで取得できる。一部のアプリケーションでは、マイク信号は計算領域で形成、すなわちシミュレートすることができる。
【0182】
音の方向は、強度ベクトルIの反対方向であると定義される。方向は、送信されたメタデータの対応する角度方位角と仰角の値として示される。音場の拡散度も、強度ベクトルとエネルギーの期待演算子を使用して計算される。この方程式の結果は、音のエネルギーが単一の方向(拡散度がゼロ)から到達するか、すべての方向(拡散度が1)から到達するかを特徴付ける0と1の間の実数値である。この手順は、完全な3D以下の速度情報が利用可能な場合に適している。
【0183】
図12bは、再びバンドフィルタ1370のバンク、仮想マイクブロック1400、直接/拡散シンセサイザブロック1450、および特定のスピーカ設定または仮想の意図されたスピーカ設定1460を有するDirAC合成を示す。さらに、拡散度ゲイン変換器1380、ベクトルベースの振幅パンニング(VBAP)ゲインテーブルブロック1390、マイク補償ブロック1420、スピーカゲイン平均化ブロック1430および他のチャネルの分配器1440が使用される。
【0184】
スピーカを使用したこのDirAC合成では、
図12bに示す高品質バージョンのDirAC合成がすべてのBフォーマット信号を受信し、これに対して、スピーカ設定1460の各スピーカ方向について仮想マイク信号が計算される。利用される指向性パターンは通常、ダイポールである。その後に、メタデータに応じて、仮想マイク信号が非線形的に修正される。DirACの低ビットレートバージョンは
図12bには示されていないが、この状況では、
図6に示すようにオーディオの1つのチャネルのみが送信される。処理の違いは、すべての仮想マイク信号が、受信したオーディオの単一チャネルに置き換えられることである。仮想マイク信号は、拡散ストリームと非拡散ストリームの2つのストリームに分けられ、別々に処理される。
【0185】
非拡散音は、ベクトルベースの振幅パンニング(VBAP)を使用してポイント音源として再現される。パンニングでは、スピーカ固有のゲイン係数を乗算した後に、スピーカのサブセットにモノフォニック音響信号が適用される。ゲイン係数は、スピーカ設定の情報と指定されたパンニング方向を使用して計算される。低ビットレートバージョンでは、入力信号はメタデータによって暗示される方向に単純にパンニングされる。高品質バージョンでは、各仮想マイク信号に対応するゲイン係数が乗算され、これにより、パンニングと同じ効果が得られるが、非線形アーチファクトが発生しにくくなる。
【0186】
多くの場合、方向性メタデータは急激な時間的変化の影響を受ける。アーチファクトを回避するために、VBAPで計算されたスピーカのゲイン係数は、各バンドで約50サイクル周期に等しい周波数依存時定数との時間積分により平滑化される。これにより、アーチファクトが効果的に除去されるが、ほとんどの場合、方向の変化は平均化しない場合よりも遅いとは感じられない。
【0187】
拡散音の合成の目的は、リスナーを囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは入力信号を非相関化し、すべてのスピーカからそれを再生することにより再生される。高品質バージョンでは、拡散ストリームの仮想マイク信号は既にある程度インコヒーレントであり、わずかに非相関化するだけで済む。この手法は、低ビットレートバージョンよりも、サラウンドリバーブとアンビエント音響の空間品質を向上させる。
【0188】
ヘッドフォンを使用したDirACシンセシスの場合、DirACは、非拡散ストリーム用のリスナーの周囲に一定量の仮想スピーカ、拡散スチーム用に一定数のスピーカで定式化される。仮想スピーカは、入力信号と測定された頭部伝達関数(HRTF)の畳み込みとして実施される。
【0189】
いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の機能の説明も表す。
【0190】
本発明の拡張音場記述は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。
【0191】
特定の実施態様に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行できる。
【0192】
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的データキャリアを含む。
【0193】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。
【0194】
他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0195】
言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0196】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
【0197】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0198】
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
【0199】
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0200】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
【0201】
上述の実施形態は、本発明の原理の単なる例示にすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。
参考文
【0202】
[1] Liitola,T.,Headphone sound externalization,Ph.D.thesis,Helsinki University of Technology.Department of Electrical and Communications Engineering Laboratory of Acoustics and Audio Signal Processing.,2006
【0203】
[2] Blauert,J.,Spatial Hearing − Revised Edition:The Psychophysics of Human Sound Localization,The MIT Press,1996,ISBN 0262024136
【0204】
[3] Zhang,W.,Samarasinghe,P.N.,Chen,H.,and Abhayapala,T.D.,“Surround by Sound:A Re−view of Spatial Audio Recording and Reproduction,”Applied Sciences,7(5),p.532,2017
【0205】
[4] Bates,E.and Boland,F.,“Spatial Music,Virtual Reality,and 360 Media,”in Audio Eng.Soc.Int.Conf.on Audio for Virtual and Augmented Reality,Los Angeles,CA,U.S.A.,2016
【0206】
[5] Anderson,R.,Gallup,D.,Barron,J.T.,Kontkanen,J.,Snavely,N.,Esteban,C.H.,Agarwal,S.,and Seitz,S.M.,“Jump:Virtual Reality Video,”ACM Transactions on Graphics,35(6),p.198,2016
【0207】
[6] Merimaa,J.,Analysis,Synthesis,and Perception of Spatial Sound:Binaural Localization Modeling and Multichannel Loudspeaker Reproduction,Ph.D.thesis,Helsinki University of Technology,2006
【0208】
[7] Kronlachner,M.and Zotter,F.,“Spatial Trans−formations for the Enhancement of Ambisonics Recordings,”in 2nd International Conference on Spatial Audio,Erlangen,Germany,2014
【0209】
[8] Tsingos,N.,Gallo,E.,and Drettakis,G.,“Perceptual Audio Rendering of Complex Virtual Environments,”ACM Transactions on Graphics,23(3),pp.249−258,2004
【0210】
[9] Taylor,M.,Chandak,A.,Mo,Q.,Lauterbach,C.,Schissler,C.,and Manocha,D.,“Guided multi−view ray tracing for fast auralization,”IEEE Trans.Visualization & Comp.Graphics,18,pp.1797−1810,2012
【0211】
[10] Rungta,A.,Schissler,C.,Rewkowski,N.,Mehra,R.,and Manocha,D.,“Diffraction Kernels for Interactive Sound Propagation in Dynamic Environments,”IEEE Trans.Visualization & Comp.Graphics,24(4),pp.1613−1622,2018
【0212】
[11] Thiergart,O.,Kowalczyk,K.,and Habets,E.A.P.,“An Acoustical Zoom based on Informed Spatial Filtering,”in Int.Workshop on Acoustic Signal Enhancement,pp.109−113,2014
【0213】
[12] Khaddour,H.,Schimmel,J.,and Rund,F.,“A Novel Combined System of Direction Estimation and Sound Zooming of Multiple Speakers,”Radioengineering,24(2),2015
【0214】
[13] Ziegler,M.,Keinert,J.,Holzer,N.,Wolf,T.,Jaschke,T.,op het Veld,R.,Zakeri,F.S.,and Foessel,S.,“Immersive Virtual Reality for Live−Action Video using Camera Arrays,”in IBC,Amsterdam,Netherlands,2017
【0215】
[14] Thiergart,O.,Galdo,G.D.,Taseska,M.,and Habets,E.A.P.,“Geometry−Based Spatial Sound Acquisition using Distributed Microphone Arrays,”IEEE Trans.Audio,Speech,Language Process.,21(12),pp.2583−2594,2013
【0216】
[15] Kowalczyk,K.,Thiergart,O.,Taseska,M.,Del Galdo,G.,Pulkki,V.,and Habets,E.A.P.,“Parametric Spatial Sound Processing:A Flexible and Efficient Solution to Sound Scene Acquisition,Modification,and Reproduction,”IEEE Signal Process.Mag.,32(2),pp.31−42,2015
【0217】
[16] Pulkki,V.,“Spatial Sound Reproduction with Directional Audio Coding,”J.Audio Eng.Soc.,55(6),pp.503−516,2007
【0218】
[17] International Telecommunication Union,“ITU−R BS.1534−3,Method for the subjective assessment of intermediate quality level of audio systems,”2015
【0219】
[18] Thiergart,O.,Del Galdo,G.,Kuech,F.,and Prus,M.,“Three−Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators,”in Audio Eng.Soc.Conv.Spatial Audio:Sense the Sound of Space,2010
【0220】
[19] Kuttruff,H.,Room Acoustics,Taylor & Francis,4 edition,2000
【0221】
[20] Borβ,C.,“A polygon−based panning method for 3D loudspeaker setups,”in Audio Eng.Soc.Conv.,pp.343−352,Los Angeles,CA,USA,2014
【0222】
[21] Rummukainen,O.,Schlecht,S.,Plinge,A.,and Habets,E.A.P.,“Evaluating Binaural Reproduction Systems from Behavioral Patterns in a Virtual Reality −A Case Study with Impaired Binaural Cues and Tracking Latency,”in Audio Eng.Soc.Conv.143,New York,NY,USA,2017
【0223】
[22] Engelke,U.,Darcy,D.P.,Mulliken,G.H.,Bosse,S.,Martini,M.G.,Arndt,S.,Antons,J.−N.,Chan,K.Y.,Ramzan,N.,and Brunnstroem,K.,“Psychophysiology−Based QoE Assessment:A Survey,”IEEE Selected Topics in Signal Processing,11(1),pp.6−21,2017
【0224】
[23] Schlecht,S.J.and Habets,E.A.P.,“Sign−Agnostic Matrix Design for Spatial Artificial Reverberation with Feedback Delay Networks,”in Proc.Audio Eng.Soc.Conf.,pp.1−10−accepted,Tokyo,Japan,2018
【0225】
[31] M.A.Gerzon,”Periphony:With−height sound reproduction,”J.Acoust.Soc.Am.,vol.21,110.1,pp.2−10,1973
【0226】
[32] V.Pulkki,”Directional audio coding in spatial sound reproduction and stereo upmixing,”in Proc.of the 28th AES International Conference,2006
【0227】
[33] ―,”Spatial sound reproduction with directional audio coding,”Journal Audio Eng.Soc,, vol.55,no.6,pp.503−516,Jun.2007
【0228】
[34] C.G.and G.M.,”Coincident microphone simulation covering three dimensional space and yielding various directional outputs,”U.S.Patent 4 042 779,1977
【0229】
[35] C.Faller and F.Baumgarte,”Binaural cue coding − part ii: Schemes and applications,”IEEE Trans.Speech Audio Process,, vol.11,no.6 ,Nov.2003
【0230】
[36] C.Faller,”Parametric multichannel audio coding: Synthesis of coherence cues,”IEEE Trans.Speech Audio Process.,vol.14,no.1,Jan.2006
【0231】
[37] H.P.J.E.E.Schuijers,J.Breebaart,”Low complexity parametric stereo coding,”in Proc.of the 116th A ES Convention,Berlin,Germany,2004
【0232】
[38] V.Pulkki,”Virtual sound source positioning using vector base amplitude panning,”J.Acoust.Soc.A m,, vol.45,no.6,pp.456−466,Jun.1997
【0233】
[39] J.G.Tylka and E.Y.Choueiri,”Comparison of techniques for binaural navigation of higher− order ambisonics sound fields,”in Proc.of the AES International Conference on Audio for Virtual and Augmented Reality,New York,Sep.2016.