(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-05
(45)【発行日】2022-08-16
(54)【発明の名称】マルチポイント音場記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
(51)【国際特許分類】
G10L 19/008 20130101AFI20220808BHJP
G10L 19/00 20130101ALI20220808BHJP
【FI】
G10L19/008 100
G10L19/00 330B
(21)【出願番号】P 2020500728
(86)(22)【出願日】2018-07-13
(86)【国際出願番号】 EP2018069140
(87)【国際公開番号】W WO2019012131
(87)【国際公開日】2019-01-17
【審査請求日】2020-02-15
(32)【優先日】2017-07-14
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ハル・ユルゲン
(72)【発明者】
【氏名】ハーベッツ・エマニュエル
【審査官】菊池 智紀
(56)【参考文献】
【文献】国際公開第2017/098949(WO,A1)
【文献】特表2015-502573(JP,A)
【文献】特表2013-545391(JP,A)
【文献】特表2013-514696(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
H04S 1/00- 7/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
拡張音場記述を生成するための装置であって、前記装置は、
第1の基準位置についての音場を示す第1の音場記述および第2の基準位置についての前記音場を示す第2の音場記述であって前記第2の基準位置は前記第1の基準位置とは異なる第2の音場記述を生成するための音場生成器(100)と、
前記音場の空間情報に関連するメタデータを生成するためのメタデータ生成器(110)と、を含み、
前記メタデータ生成器(110)は、前記第1の音場記述の第1の幾何学的記述および前記第2の音場記述の第2の幾何学的記述のうちの少なくとも1つを前記メタデータとして決定するように構成され、
前記第1の音場記述、前記第2の音場記述、および前記第1の幾何学的記述および前記第2の幾何学的記述のうちの少なくとも1つを含む前記メタデータは、前記拡張音場記述を構成する、装置。
【請求項2】
前記メタデータ生成器(110)は、前記メタデータとして、前記第1の幾何学的記述として前記第1の基準位置および前記第2の基準位置のうちの一方を決定し、前記第2の幾何学的記述として前記第1の基準位置および前記第2の基準位置のうちの他方を決定するか、あるいは、前記第1の基準位置と前記第2の基準位置との間の距離、または前記第1の基準位置と前記第2の基準位置との間の位置ベクトルを決定するように構成される、
請求項1に記載の装置。
【請求項3】
前記第1の音場記述は第1のアンビソニックス記述であり、前記第2の音場記述は第2のアンビソニックス記述であるか、あるいは前記第1の音場記述および前記第2の音場記述はアンビソニックス記述またはDirAC記述の一方である、
請求項2に記載の装置。
【請求項4】
前記第1の幾何学的記述は、所定の原点から前記第1の音場記述の前記第1の基準位置に向かう第1のベクトルに関する情報であり、
前記第2の幾何学的記述は、所定の原点から前記第2の音場記述の前記第2の基準位置に向かう第2のベクトルに関する情報である、
請求項1から3のいずれか一項に記載の装置。
【請求項5】
前記第1の幾何学的記述は、所定の原点から前記第1の音場記述の前記第1の基準位置に向かう第1のベクトル、および前記所定の原点から前記第2の音場記述の前記第2の基準位置に向かう第2のベクトルの一方に関する情報であり、前記第2の幾何学的記述は、前記第1の基準位置と前記第2の基準位置との間のベクトルに関する情報を含む、
請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記第1の基準位置および前記第2の基準位置の一方は前記第1の幾何学的記述を表す所定の原点であり、前記第2の幾何学的記述は、前記所定の原点と前記第1の基準位置および前記第2の基準位置の他方との間のベクトルに関する情報を含む、
請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記音場生成器(100)は、実際のマイク装置を使用して、または仮想マイク技術を使用した音響合成によって、前記第1の音場記述または前記第2の音場記述を生成するように構成される、請求項1から6のいずれか一項に記載の装置。
【請求項8】
装置上のコンピュータまたはプロセッサで実行する拡張音場の記述を生成するための方法であって、
第1の基準位置についての音場を示す第1の音場記述を生成するステップと、
第2の基準位置についての前記音場を示す第2の音場記述であって前記第2の基準位置は前記第1の基準位置とは異なる第2の音場記述を生成するステップと、
前記音場の空間情報に関連するメタデータを生成するステップと、を含み、
前記メタデータを生成するステップは、前記第1の音場記述の第1の幾何学的記述および前記第2の音場記述の第2の幾何学的記述のうちの少なくとも1つを前記メタデータとして決定することを含み、
前記第1の音場記述、前記第2の音場記述、および前記第1の幾何学的記述および前記第2の幾何学的記述のうちの少なくとも1つを含む前記メタデータは、前記拡張音場記述を構成する、方法。
【請求項9】
コンピュータまたはプロセッサで実行される場合に、請求項8に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ処理に関し、特に、マイクまたは仮想マイク位置などの基準位置に関して定義される音場に関するオーディオ処理に関する。
【背景技術】
【0002】
アンビソニックス信号は、音場の切り捨てられた球面調和分解を含む。アンビソニックスには様々なフレーバーがある。今日では「一次アンビソニックス」(FOA)として知られ、4つの信号(すなわち、1つの全方向性信号と最大3つの8桁の方向信号)を含む「伝統的な」アンビソニックス[31]がある。より最近のアンビソニックス変形例は「高次アンビソニックス」(HOA)として知られ、より多くの信号を伝送することを犠牲にして空間分解能を高め、リスナーのスイートスポット領域を大きくする。一般に、完全に定義されたN次のHOA表現は(N+1)2信号で構成される。
【0003】
アンビソニックスのアイデアに関連して、方向性オーディオ符号化(DirAC)表現は、よりコンパクトなパラメトリックスタイルでFOAまたはHOA音響シーンを表現するために考案された。より具体的には、空間音響シーンは、音響シーンと各時間-周波数(TF)ビンの方向と拡散度の関連するサイド情報のダウンミックスを表す1つ(または複数)の送信オーディオチャネルによって表される。DirACについてのさらなる情報は、[32、33]にある。
【0004】
DirAC[32]は、様々なマイクシステムおよび任意のスピーカ設定で使用できる。DirACシステムの目的は、マルチチャネル/3Dスピーカシステムを使用して、既存の音響環境の空間的な印象を可能な限り正確に再現することである。選択された環境内で、応答(連続音またはインパルス応答)は、全方向性マイク(W)と、音の到来方向と音の拡散度を測定できるマイクのセットで測定される。一般的な方法は、対応するデカルト座標軸に合わせて3つの8の字型マイク(X、Y、Z)を適用することである[34]。これを行う方法は、音場マイクを使用することであり、これにより、希望するすべての応答が直接得られる。W、X、Y、およびZ信号は、個別の全方向性マイクのセットから計算することもできる。
【0005】
DirACでは、音響信号は最初に周波数チャネルに分割される。音の方向と拡散度は、各周波数チャネルの時間に応じて測定される。伝送では、解析された方向および拡散度データと共に、1つまたは複数のオーディオチャネルが送信される。合成では、スピーカに適用されるオーディオは、例えば、全方向性チャネルWであるか、または、各スピーカの音は、W、X、Y、およびZの重み付き合計として計算することができ、これは、各スピーカの特定の指向特性を有する信号を形成する。各オーディオチャネルは周波数チャネルに分割され、解析された拡散度に応じて、任意選択で拡散ストリームと非拡散ストリームに分割される。拡散ストリームは、例えばバイノーラルキュー符号化[35-37]で使用される非相関技術など、音響シーンの拡散知覚を生成する技術で再現される。非拡散音は、方向データ(VBAP[38]など)に従って点状の仮想音源を生成することを目的とする手法で再現される。
【0006】
自由度が制限された6DoFでのナビゲーションのための3つの手法が[39]で提案されている。単一のアンビソニックス信号が与えられた場合、単一のアンビソニックス信号は以下を使用して計算される。1)仮想スピーカアレイ内でのHOA再生とリスナーの動きのシミュレーション、2)平面波に沿った計算と変換、3)リスナーに関する音場の再拡張。
【0007】
さらに、DirAC技術については、例えば、出版物「Directional Audio Coding-Perception-Based Reproduction of Spatial Sound」、V.Pulkki et al、International Workshop on the Principles and Applications on Spatial Hearing,November 11-13,2009,Zao,Miyagi,Japanを参照されたい。この参考文献は、特に空間オーディオ処理のための知覚的に動機付けられた技術として、音場処理に関連する基準位置の例として指向性オーディオ符号化について説明している。それは、電話会議、指向性フィルタリング、仮想聴覚環境における空間音の取り込み、符号化、再合成での用途がある。
【0008】
音響シーンの再現は、多くの場合、スピーカの設定に焦点を当てているが、これは、プライベート(リビングルームなど)やプロのコンテキスト(映画館など)での典型的な再現であったためである。ここでは、シーンと再現ジオメトリの関係は静的であり、リスナーが正面方向を見るように強制する2次元画像を伴う。その後に、音響オブジェクトと視覚オブジェクトの空間関係が定義され、制作時に固定される。
【0009】
仮想現実(VR)では、ユーザがシーン内を自由に移動できるようにすることで、没入感が明示的に実現される。したがって、ユーザの動きを追跡し、視覚と聴覚の再現をユーザの位置に調整する必要がある。通常、ユーザはヘッドマウントディスプレイ(HMD)とヘッドフォンを装着している。ヘッドフォンで没入型の体験をするには、オーディオをバイノーラル化する必要がある。バイノーラル化は、人間の頭、耳、上半身が方向と距離に応じて音源の音をどのように変化させるかのシミュレーションである。これは、相対的な方向の頭部伝達関数(HRTF)で信号を畳み込むことで実現される[1、2]。バイノーラル化により、音は頭の内側からではなく、シーンから来ているように見える[3]。既に良好に対処されている一般的なシナリオは、360°ビデオ再生である[4、5]。ここでは、ユーザはHMDを装着しているか、タブレットまたは電話を手に持っている。頭またはデバイスを動かすことにより、ユーザはあらゆる方向を見ることができる。これは、ユーザが3つの運動度(ピッチ、ヨー、ロール)を有するため、3自由度(3DoF)のシナリオである。視覚的には、これはユーザの周囲の球体にビデオを投影することで実現される。多くの場合、オーディオはビデオカメラの近くの空間マイク[6]、例えば1次アンビソニックス(FOA)で録音される。アンビソニックスドメインでは、ユーザの頭の回転は簡単な方法で適応される[7]。次に、オーディオは、例えば、ユーザの周囲に配置された仮想スピーカにレンダリングされる。次に、これらの仮想スピーカ信号がバイノーラル化される。
【0010】
最新のVR用途では、6自由度(6DoF)が可能である。頭の回転に加えて、ユーザは動き回ることができ、その結果、3次元でのユーザの位置が並進される。6DoF再生は、歩行エリアの全体的なサイズによって制限される。多くの場合、この領域はかなり小さく、例えば従来のリビングルームである。6DoFは、一般的にVRゲームで遭遇する。ここでは、シーン全体がコンピュータ生成画像(CGI)で合成されている。多くの場合、オーディオはオブジェクトベースのレンダリングを使用して生成され、各オーディオオブジェクトは、追跡データに基づいてユーザからの距離に依存するゲインと相対方向でレンダリングされる。現実性は、人工的な残響と回折によって強化できる[8、9、10]。
【0011】
記録されたコンテンツに関して、視聴覚6DoF再生を確信させるためのいくつかの明確な課題がある。空間並進ドメインにおける空間音響操作の初期の例は、「音響ズーム」技術の例である[11、12]。ここで、リスナーの位置は、画像にズームインするのと同様に、記録された視覚シーンに仮想的に移動する。ユーザは1つの方向または画像部分を選択し、変換されたポイントからこれを聞くことができる。これは、すべての到来方向(DoA)が元のズームされていない複製に対して変化していることを伴う。
【0012】
記録されたコンテンツの6DoF再生のための方法は、空間的に分布する記録位置を使用して提案されてきた。ビデオの場合、カメラのアレイを使用して明視野レンダリングを生成できる[13]。オーディオの場合、同様の設定では、分散マイクアレイまたはアンビソニックスマイクを使用する。そのような録音から任意の位置に置かれた「仮想マイク」の信号を生成することが可能であることが示されている[14]。
【0013】
技術的に便利な方法でこのような空間音の修正を実現するために、パラメトリックな音処理または符号化技術を使用できる(概要については[15]を参照)。指向性オーディオ符号化(DirAC)[16]は、録音をオーディオスペクトルと、音の方向と拡散度に関するパラメトリックなサイド情報で構成される表現に変換する一般的な方法である。これは、音響ズーム[11]および仮想マイク[14]用途に使用される。
【0014】
ここで提案する方法は、単一のFOAマイクの録音から6DoF再生を可能にする。単一の空間位置からの録音は、3DoF再生または音響ズームに使用されている。しかし、発明者らの知る限り、このようなデータからインタラクティブで完全な6DoFを再生する方法はこれまで提案されていない。録音中の音源の距離に関する情報を統合することにより、6DoF再生を実現する。この距離情報は、変更されたリスナーの視点が正しくマッピングされるように、DirACのパラメータ表現に組み込まれる。
【0015】
アンビソニックスの音場表現(通常のFOAまたはHOAアンビソニックスとして、またはDirACスタイルのパラメトリック音場表現として)はいずれも、6DoF用途に必要なリスナーの位置の並進シフトを可能にする十分な情報を提供しないが、それはこれらのフォーマットでは、オブジェクトの距離も音響シーン内のオブジェクトの絶対位置も決定されないためである。リスナーの位置のシフトは、反対方向の音響シーンの同等のシフトに変換できることに留意されたい。
【0016】
6DoFで移動する場合の典型的な問題を
図1bに示す。音響シーンがアンビソニックスを使用して位置Aで記述されていると仮定する。この場合、音源Aと音源Bからの音は同じ方向から到着する。すなわち、同じ方向の到来方向(DOA)を有する。位置Bに移動した場合、音源Aと音源BのDOAは異なる。音場の標準的なアンビソニックス記述を使用して、すなわち、追加情報なしでは、位置Aのアンビソニックス信号が与えられると、位置Bのアンビソニックス信号を計算することはできない。
【先行技術文献】
【非特許文献】
【0017】
【文献】Directional Audio Coding-Perception-Based Reproduction of Spatial Sound、V.Pulkki et al、International Workshop on the Principles and Applications on Spatial Hearing,November 11-13,2009,Zao,Miyagi,Japan
【発明の概要】
【発明が解決しようとする課題】
【0018】
本発明の目的は、改善された、または柔軟な、または効率的な処理を可能にし、一方で拡張音場記述または他方で修正音場記述の生成を提供することである。
【課題を解決するための手段】
【0019】
この目的は、請求項1の拡張音場記述を生成する装置、請求項8の修正音場記述を生成する装置、請求項46の拡張音場記述を生成する方法、請求項47の修正音場記述を生成する方法、請求項48のコンピュータプログラム、または請求項49の拡張音場記述によって達成される。
【0020】
本発明は、基準位置に関連する典型的な音場記述には、これらの音場記述を処理することができる追加情報が必要であるという知見に基づくものであり、そのようにすれば、元の基準位置になく、別の基準位置に関連しない修正音場記述を算出することができる。この目的のために、この音場の空間情報に関連するメタデータが生成され、メタデータは音場記述と共に、例えば送信または保存できる拡張音場記述に対応する。音場記述およびメタデータ、具体的には音場記述の空間情報に関連するメタデータから、修正音場記述を生成するために、空間情報、音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場が計算される。したがって、音場記述と、音場記述の基礎となるこの音場の空間情報に関連するメタデータで構成される拡張音場記述が処理されて、修正音場記述が取得され、修正音場記述は、例えばデコーダ側で提供または使用できる追加の並進情報によって定義される別の基準位置に関連している。
【0021】
しかし、本発明は、エンコーダ/デコーダのシナリオに関連するだけでなく、拡張音場記述の生成と修正音場記述の生成の両方が基本的に1つの同じ場所で行われるアプリケーションにも適用することができる。修正音場記述は、例えば、修正音場自体の記述、または実際にはチャネル信号、バイノーラル信号の修正音場、または再び関連する基準位置関連の音場、しかし、元の基準位置ではなく新しいまたは異なる基準位置に関連する基準位置に関連する音場であってもよい。このようなアプリケーションは、例えば、メタデータと一緒に音場記述が存在し、リスナーが、音場が与えられた基準位置から出て別の基準位置に移動する仮想現実のシナリオであって、そこでは、仮想エリア内を動き回るリスナーの音場は、現在ユーザが移動した別の基準位置での音場に対応するように計算される。
【0022】
特定の実施形態では、拡張音場記述は、(第1の)基準位置に関連する第1の音場記述と、(第1の)基準位置とは異なるさらなる(第2の)基準位置に関連する第2の音場記述と、を有し、メタデータは、所定の原点からこれらの基準位置を指すベクトルなどの、基準位置およびさらなる基準位置に関する情報を有する。あるいは、メタデータは、基準位置またはさらなる基準位置のいずれかを指す単一のベクトル、ならびに2つの異なる音場記述が関連する2つの基準位置の間に延在するベクトルであってもよい。
【0023】
音場記述は、1次アンビソニックス記述または高次アンビソニックス記述などの、非パラメトリック音場記述であってもよい。代わりにまたはさらに、音場記述は、DirAC記述または他のパラメトリック音場記述であってもよく、あるいは1つの音場記述が、例えば、パラメトリック音場記述であってもよく、他の音場記述が、例えば、非パラメトリック音場記述であってもよい。
【0024】
したがって、音場記述は、音場記述ごとに、1つまたは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間-周波数ビンに対する拡散度データを有する音場のDirAC記述を生成することができる。このコンテキストでは、メタデータ生成器は、両方の音場記述の幾何学的メタデータを生成するように構成されているため、基準位置と追加の基準位置をメタデータから特定することができる。次に、音場記述の両方から個々の音源を抽出し、拡張または修正音場記述を生成するために追加の処理を実行することができる。
【0025】
アンビソニックスは、仮想現実、拡張現実、複合現実アプリケーションのコンテキストで、3Dオーディオで最も一般的に使用されるフォーマットの1つになった。アンビソニックスフォーマットの出力信号を生成する、様々なオーディオ取得および制作ツールが開発されている。双方向の仮想現実(VR)アプリケーションでアンビソニックス符号化されたコンテンツを表示するために、アンビソニックスフォーマットは再生用のバイノーラル信号またはチャネルに変換される。前述のアプリケーションでは、リスナーは通常、提示されたシーンにおける自分の向きを対話形式で変更することができ、音響シーンで頭を回転させて3自由度(3DoF、すなわち、ピッチ、ヨー、およびロール)を可能にして、適切な音質を経験することができる。これは、頭の向きに従ってレンダリングする前に音響シーンを回転させることで実現され、これは、計算の複雑さを低く抑えて実施することができ、アンビソニックス表現の利点である。しかし、VRなどの新しいアプリケーションでは、方向の変化(いわゆる「6自由度」または6DoF)だけでなく、ユーザが音響シーンで自由に移動できるようにすることが望まれる。結果として、音響シーンの遠近感を変更する(すなわち、x、y、またはz軸に沿って音響シーン内を仮想的に移動する)ために信号処理が必要である。しかし、アンビソニックスの主な欠点は、手順が音響シーンの単一の視点から音場を記述することである。具体的には、6DoFで必要とされるような音響シーンをシフト(「並進」)できる音響シーン内の音源の実際の場所に関する情報は含まれていない。本発明の説明は、アンビソニックスのいくつかの拡張を提供して、この問題を克服し、並進も容易にし、したがって真の6DoFを可能にする。
【0026】
一次アンビソニックス(FOA)録音は、ヘッドフォンで処理および再生できる。それらは、リスナーの頭の向きに合わせて回転させることができる。しかし、仮想現実(VR)システムでは、リスナーは6自由度(6DoF)、すなわち3つの回転自由度と3つの遷移自由度で移動できる。ここで、音源の見かけの角度と距離は、リスナーの位置に依存する。6DoFを容易にする手法について説明する。特に、FOA録音は、リスナーの位置と音源までの距離に関する情報に基づいて修正されるパラメトリックモデルを使用して記述される。この方法は、リスニングテストによって評価され、リスナーが自由に移動できる合成音響シーンの異なるバイノーラルレンダリングを比較する。
【0027】
さらに好ましい実施形態では、拡張音場記述は、送信または保存のための出力信号を生成するための出力インターフェースによって出力され、出力信号は、時間フレームについて、時間フレームの音場および空間情報から導出された1つまたは複数のオーディオ信号を含む。特に、音場生成器は、さらなる実施形態では、音場から方向データを導出するように適応可能であり、方向データは、ある期間または周波数ビンの音の到来方向を指し、メタデータ生成器は、距離情報を方向データに関連付けるデータ項目として空間情報を導出するように構成される。
【0028】
特に、このような実施形態では、出力インターフェースは、時間フレームのデータ項目が異なる周波数ビンの方向データにリンクされるように出力信号を生成するように構成される。
【0029】
さらなる実施形態では、音場生成器はまた、音場の時間フレームの複数の周波数ビンについて拡散度情報を生成するように構成され、メタデータ生成器は、拡散度の値が所定のしきい値または適応しきい値よりも低い場合に、所定の値と異なる、または無限と異なる周波数ビンの距離情報のみを生成するか、または周波数ビンの距離値をとにかく生成するように構成される。したがって、拡散度の高い時間/周波数ビンの場合、距離値がまったく生成されないか、またはデコーダによって特定の方法で解釈される所定の距離値が生成される。したがって、高い拡散度を有する時間/周波数ビンについては、距離に関連するレンダリングは実行されないことが確認されるが、それは、高い拡散度は、そのような時間/周波数ビンに対して、音が特定の局在化した音源から来るのではなく、任意の方向から来るからであり、したがって、音場が元の基準位置で知覚されるか、異なるまたは新しい基準位置で知覚されるかに関係なく同じであるからである。
【0030】
音場計算器に関して、好ましい実施形態は、並進情報または修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェースと、メタデータを音場計算器に提供するためのメタデータサプライヤと、音場記述を音場計算器に提供するための音場サプライヤと、さらに、修正音場記述および修正メタデータを含む修正音場を出力するための出力インターフェースと、を含み、修正メタデータは、並進情報を使用してメタデータから導出され、または、出力インターフェースは複数のスピーカチャネルを出力し、各スピーカチャネルは、所定のスピーカ位置に関連付けられ、または、出力インターフェースは、修正音場のバイノーラル表現を出力する。
【0031】
一実施形態では、音場記述は複数の音場成分を含む。複数の音場成分は、全方向性成分と少なくとも1つの指向性成分を含む。そのような音場記述は、例えば、全方向性成分と3つの指向性成分X、Y、Zを有する1次アンビソニックス音場記述であるか、または、そのような音場は、全方向成分、X、Y、およびZ方向に関する3つの方向成分と、さらに、X、Y、Z方向以外の他の方向に関連するさらなる方向性成分と、を含む高次アンビソニックス記述である。
【0032】
一実施形態では、装置は、音場成分を解析して、異なる時間または周波数ビンについて、到来方向情報を導出するための解析器を含む。装置は、DoA情報とメタデータを使用して、周波数または時間ビンごとに修正DoA情報を計算するための並進変換器をさらに有し、メタデータは、例えば、2つの異なる基準位置と距離/位置または基準位置に対する2つの角度を使用した三角測量処理によって得られた両方の音場記述に含まれる音源までの距離を関連付ける深度マップに関連する。これは、フルバンド表現または時間フレームの異なる周波数ビンに適用され得る。
【0033】
さらに、音場計算器は、時間/周波数ビンの各々または一部の異なる音源の各周波数または時間ビンについて同じであるメタデータを使用して計算された距離から、ならびに時間または周波数ビンに関連付けられた新しい距離から、修正DoA情報に関連する新しい距離に依存する、距離補償情報を使用して修正音場を計算するための距離補償器を有する。
【0034】
一実施形態では、音場計算器は、基準位置から音場の解析によって得られた音源を指す第1のベクトルを計算する。さらに、音場計算器は、異なる基準位置から音源を指す第2のベクトルを計算し、この計算は第1のベクトルと並進情報を使用して行われる。並進情報は、基準位置から異なる基準位置への並進ベクトルを定義する。そして、別の基準位置から音源までの距離が第2のベクトルを使用して計算される。
【0035】
さらに、音場計算器は、並進情報に加えて、ピッチ、ヨー、およびロールによって与えられる3つの回転方向のうちの1つでのリスナーの頭の回転を示す回転情報を受け取るように構成される。次に、音場計算器は、回転情報を使用して回転変換を実行し、音場の修正された到来方向データを回転させるように構成され、修正された到来方向データは、音場記述の音解析および並進情報により得られた到来方向データから導出される。
【0036】
一実施形態では、音場計算器は、音場記述から音源信号を決定し、音解析によって基準位置に関連する音源信号の方向を決定するように構成される。
【0037】
次に、異なる基準位置に関連する音源の新しい方向が計算され、これはメタデータを使用して行われ、次に、異なる基準位置に関連する音源の距離情報が計算され、その後に、修正音場が距離情報と音源の新しい方向を使用して合成される。
【0038】
一実施形態では、音場合成は、再生設定に関して新しい方向情報によって与えられる方向に音源信号をパンニングすることによって実行され、音源信号のスケーリングは、パンニングを実行する前またはパンニングを実行した後に距離情報を使用して行われる。
【0039】
さらなる実施形態では、音源信号の拡散部分が音源信号の直接部分に追加され、直接部分は、拡散部分に追加される前に距離情報によって修正される。
【0040】
特に、新しい方向情報が各周波数ビンに対して計算されるスペクトル表現で音源合成を実行することが好ましく、各周波数ビンについて距離情報が計算され、周波数ビンのオーディオ信号を使用した各周波数ビンの直接合成が、周波数ビンのオーディオ信号、新しい方向情報から導出された周波数ビンのパンニングゲイン、および周波数ビンの距離情報から導出された周波数ビンのスケーリング係数を使用して実行される。
【0041】
さらに、周波数ビンからのオーディオ信号から導出された拡散オーディオ信号と、周波数ビンの信号解析から導出された拡散パラメータを使用して拡散合成が実行され、直接信号と拡散信号を組み合わせて時間または周波数ビンの合成オーディオ信号を取得し、次に他の時間/周波数ビンのオーディオ信号を使用して周波数-時間変換を実行して、時間領域の合成オーディオ信号を修正音場として取得する。
【0042】
したがって、一般に、音場計算器は、例えば、音源ごとに、音源信号の新しい方向を使用して音源信号を処理することにより、異なる基準位置に関連する音場を音源ごとに合成し、異なる/新しい基準位置に関連する音源信号の音場記述を取得するように構成される。さらに、音源信号は、音源信号を処理する前、または方向情報を使用して音源信号を処理した後に修正される。そして最後に、音源の音場記述を一緒に追加して、異なる基準位置に関連する修正音場を取得する。
【0043】
さらなる実施形態では、特に、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するために、音場計算器は、第1の音場記述の空間情報を使用し、第2の音場記述の空間情報を使用し、および基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場を計算する。特に、メタデータは、例えば、音場記述の基準位置に向かうベクトル、および同じ原点から第2の音場記述のさらなる基準位置に向かう別のベクトルであってもよい。
【0044】
並進情報に対処するために、音源分離、ビームフォーミング、または一般的に任意の種類の音源解析を第1および第2の音場記述に適用することにより、オブジェクトが生成される。次に、これらのオブジェクトがブロードバンドオブジェクトであるか、個々の時間/周波数ビンのオブジェクトであるかに関係なく、すべてのオブジェクトの到来方向情報が計算される。次に、少なくとも1つの一致したオブジェクト、すなわち第1および第2の音場記述の両方で発生するオブジェクトを見つけるために、異なる音場記述から抽出されたオブジェクトが互いにマッチングされる。このマッチングは、例えば、オブジェクト信号および/または到来方向情報または他の情報を使用する相関またはコヒーレンス計算によって実行される。
【0045】
したがって、手順の結果、一致したオブジェクトについて、基準位置に関連する第1のDoA情報と、さらなる基準位置に関連する第2のDoA情報と、が存在する。次に、一致するオブジェクトの位置、特に一致するオブジェクトから基準位置またはさらなる基準位置までの距離は、基準位置または関連するメタデータに含まれる基準位置に関する情報を使用した三角測量に基づいて計算される。
【0046】
次に、この情報、特に一致したオブジェクトの位置情報は、距離補償処理を使用して、推定位置と所望の位置に基づいて、すなわち並進後に一致した各オブジェクトを修正するために使用される。新しいリスナー位置の新しいDoA情報を計算するために、基準位置と並進情報の両方からの古いDoA情報が使用される。基本的に、この処理は、一致した各オブジェクトが両方の音場記述で発生するため、両方の個々の音場記述に対して実行できる。しかし、好ましい実施形態によれば、並進後の新しいリスナー位置に最も近い基準位置を有する音場記述が使用される。
【0047】
次に、新しいDoAは、異なる基準位置、すなわちユーザが移動した一致したオブジェクトの新しい音場記述を計算するために使用される。次に、不一致オブジェクトも組み込むために、それらのオブジェクトの音場記述も計算されるが、古いDoA情報が使用される。そして最後に、修正音場が、個々の音場記述をすべて追加することによって生成される。
【0048】
仮想アンビソニックス信号に単一の回転を適用することにより、向きの変化を実現することができる。
【0049】
したがって、オブジェクトから基準位置までの距離を直接提供するために、メタデータは使用されない。代わりに、2つ以上の音場記述のそれぞれの基準位置を識別するためのメタデータが提供され、基準位置と特定の一致したオブジェクトとの間の距離が、例えば三角測量処理ステップに基づいて計算される。
【0050】
本発明の好ましい実施形態は、添付の図面に関して以下で説明される。
【図面の簡単な説明】
【0051】
【
図1a】拡張音場記述を生成する装置の好ましい実施形態を示す図である。
【
図1b】本発明の基礎にある例示的な問題を説明する図である。
【
図2】拡張音場記述を生成するための装置の好ましい実施態様を示す図である。
【
図3a】オーディオデータ、およびオーディオデータのサイド情報を含む拡張音場記述を示す図である。
【
図3b】各音場記述の幾何学的情報などの空間情報に関連するオーディオデータおよびメタデータを含む拡張音場を示すさらなる図である。
【
図4a】修正音場記述を生成するための装置の実施態様を示す図である。
【
図4b】修正音場記述を生成するための装置のさらなる実施態様を示す図である。
【
図4c】基準位置/場所A、さらなる基準位置/場所B、および並進による異なる基準位置を有するシナリオを示す図である。
【
図5】一般的な意味での空間オーディオの6DoF再生を示す図である。
【
図6a】音場計算器の実施態様の好ましい実施形態を示す図である。
【
図6b】新しい/異なる基準位置に対する音源の新しいDoAおよび新しい距離を計算するための好ましい実施態様を示す図である。
【
図6c】例えば、個々の音場記述ごとに拡張音場記述を生成するための装置と、一致した音源の修正音場記述を生成するための装置と、を含む6DoF再生の好ましい実施形態を示す図である。
【
図7】ブロードバンドオブジェクトまたはナローバンドオブジェクトの修正音場の計算のために、第1および第2の音場記述のうちの1つを選択するための好ましい実施形態を示す図である。
【
図8】モノラル信号および到来方向データなどのオーディオ信号から音場記述を生成するための例示的なデバイスを示す図である。
【
図9】音場計算器のさらに好ましい実施形態を示す図である。
【
図10】修正音場記述を生成するための装置の好ましい実施態様を示す図である。
【
図11】修正音場記述を生成するための装置のさらに好ましい実施態様を示す図である。
【
図12a】従来技術のDirAC解析の実施態様を示す図である。
【
図12b】従来技術のDirAC合成の実施態様を示す図である。
【発明を実施するための形態】
【0052】
前述のアンビソニックス/DirAC表現に対して6DoFアプリケーションを有効にするには、変換処理に不足している情報を提供する方法でこれらの表現を拡張する必要がある。この拡張は、例えば、1)オブジェクトの距離または位置を既存のシーン表現に追加すること、および/または2)個々のオブジェクトを分離するプロセスを容易にする情報を追加すること、ができることに留意されたい。
【0053】
さらに、既存の(ノンパラメトリックまたはパラメトリック)アンビソニックスシステムの構造を保存/再利用して、
・拡張された表現は、既存の拡張されていない表現(例えば、レンダリング用)に変換することができ、
・拡張表現を使用する場合、既存のソフトウェアとハードウェアの実施態様を再利用することができるという意味で、これらの表現/システムとの下位互換性を提供することが実施形態の目的である。
【0054】
以下では、いくつかのアプローチ、すなわち、1つの限定された(しかし非常に単純な)アプローチと、6DoFを有効にする3つの異なる拡張アンビソニックスフォーマットについて説明する。
【0055】
音響シーンは、それぞれ異なる位置、すなわち異なる視点からの音響シーンを表す2つ以上のアンビソニックス信号を使用して記述される。相対位置は既知であると仮定されている。入力されたアンビソニックス信号から、音響シーンの所望の位置にある修正アンビソニックス信号が生成される。信号ベースまたはパラメトリックベースの手法を使用して、所望の位置で仮想アンビソニックス信号を生成できる。
【0056】
マルチポイントアンビソニックス表現の概念は、従来のアンビソニックスとパラメトリック(DirACスタイル)アンビソニックスの両方に適用できる。
【0057】
信号ベースの並進の実施形態では、次の手順を使用して、所望の位置(すなわち、並進後)の仮想アンビソニックス信号が計算される。
【0058】
1.オブジェクトは、従来の各アンビソニックス信号に音源分離を適用することにより生成される。
【0059】
2.すべてのオブジェクトのDOAは、従来の各アンビソニックス信号に対して計算される。
【0060】
3.1つの従来のアンビソニックス信号から抽出されたオブジェクトは、他の従来のアンビソニックス信号から抽出されたオブジェクトと一致される。マッチングは、対応するDOAおよび/または信号に基づいて実行される(例えば、相関/コヒーレンスによって)。
【0061】
4.一致したオブジェクトの位置は、三角測量に基づいて推定される。
【0062】
5.距離補償フィルタを使用して、推定位置と所望位置(すなわち、並進後)に基づいて、一致した各オブジェクト(単一チャネル入力)が修正される。
【0063】
6.一致したオブジェクトごとに、所望の位置(すなわち、並進後)のDOAが計算される。このDOAはDOA’で表される。
【0064】
7.一致したオブジェクトごとにアンビソニックスオブジェクト信号が計算される。アンビソニックスオブジェクト信号は、一致したオブジェクトが到来方向DOA’を有するように生成される。
【0065】
8.アンビソニックスオブジェクト信号は、不一致オブジェクトごとに計算される。アンビソニックスオブジェクト信号は、不一致オブジェクトが到来方向DOAを有するように生成される。
【0066】
9.仮想アンビソニックス信号は、すべてのアンビソニックスオブジェクト信号を加算することにより得られる。
【0067】
さらなる実施形態によるパラメトリックベースの変換実施形態では、以下のステップを使用して、所望の位置での(すなわち、並進後の)仮想アンビソニックス信号が計算される。
【0068】
1.音場モデルが仮定される。音場は、1つまたは複数の直接音成分と拡散音成分に分解できる。直接音成分は、信号と位置情報(例えば、極座標またはデカルト座標など)で構成される。あるいは、音場を1つまたは複数の直接/主音成分と残留音成分(単一チャネルまたはマルチチャネル)に分解できる。
【0069】
2.仮定された音場モデルの信号成分とパラメータは、入力アンビソニックス信号を使用して推定される。
【0070】
3.信号成分および/またはパラメータは、音響シーンの所望の並進または所望の位置に応じて修正される。
【0071】
4.修正信号成分と修正パラメータを使用して、仮想アンビソニックス信号が生成される。
【0072】
マルチポイントアンビソニックス信号の生成は、コンピュータで生成および作成されたコンテンツの他、マイクアレイまたは空間マイク(Bフォーマットのマイクなど)を介した自然な録音のコンテキストでも簡単である。この実施形態では、ステップ2の後に音源マッチングを実行するか、ステップ3の前に三角測量計算を実行することが好ましい。さらに、両方の実施形態の1つまたは複数のステップは、対応する他の実施形態でも使用することができる。
【0073】
向きの変化は、仮想アンビソニックス信号に単一の回転を適用することで実現することができる。
【0074】
図1aは、少なくとも1つの基準位置に関する音場を示す少なくとも1つの音場記述を生成するための音場(記述)生成器100を含む、拡張音場記述を生成するための装置を示す。さらに、装置は、音場の空間情報に関するメタデータを生成するためのメタデータ生成器110を含む。メタデータは、入力として、音場を受け取るか、その代わりにまたはさらに、音源に関する個別の情報を受け取る。
【0075】
音場記述生成器100およびメタデータ生成器110の両方の出力は、拡張音場記述を構成する。一実施形態では、音場記述生成器100およびメタデータ生成器110の両方の出力をコンバイナ120または出力インターフェース120内で結合して、空間メタデータまたはメタデータ生成器110によって生成された音場の空間情報を含む拡張音場記述を得ることができる。
【0076】
図1bは、本発明によって対処される状況を示している。例えば、位置Aは少なくとも1つの基準位置であり、音源Aと音源Bによって音場が生成され、位置Aにある特定の実際のマイクまたは例えば仮想マイクが音源Aおよび音源Bからの音を検出する。音は、放出音源から来る音の重ね合わせである。これは、音場記述生成器によって生成された音場記述を表す。
【0077】
さらに、メタデータ生成器は、特定の実施態様により、音源Aに関する空間情報と、これらの音源から位置Aなどの基準位置までの距離などの音源Bに関する別の空間情報と、を導出する。
【0078】
当然、基準位置は代わりに位置Bであってもよい。次に、実際のマイクまたは仮想マイクを位置Bに配置し、音場記述は、例えば、1次アンビソニックス成分または高次アンビソニックス成分、または少なくとも1つの基準位置、つまり位置Bに関する音場を記述する可能性を有する他の任意の音響成分で表される音場である。
【0079】
メタデータ生成器は、音源に関する情報として、音源Aから位置Bまでの距離、または音源Bから位置Bまでの距離を生成してもよい。音源に関する代替情報は、もちろん、基準位置に対する絶対位置または相対位置であってもよい。基準位置は、一般的な座標系の原点にすることも、一般的な座標系の原点に対して定義された関係に配置することもできる。
【0080】
他のメタデータには、1つの音源の絶対位置や、第1の音源に対する他の音源の相対位置などがある。
【0081】
図2は、拡張音場記述を生成するための装置を示し、音場生成器は、第1の音場のための音場生成器250、第2の音場のための音場生成器260、ならびに第3、第4の音場など、1つまたは複数の音場のための任意の数の音場生成器を含む。さらに、メタデータは、第1の音場および第2の音場に関する情報を計算してコンバイナ120に転送するように構成される。このすべての情報は、拡張音場記述を生成するためにコンバイナ120によって使用される。したがって、コンバイナ120はまた、拡張音場記述を生成する出力インターフェースとして構成される。
【0082】
図3aは、第1の音場記述330、第2の音場記述340、およびそれらに関連する第1の音場記述および第2の音場記述に関する情報を含むメタデータ350を含むデータストリームとして拡張音場記述を示す。第1の音場記述は、例えば、Bフォーマットの記述、高次の記述、またはフルバンド表現または周波数選択表現のいずれかで音源の方向分布を決定できる他の任意の記述であってもよい。したがって、第1の音場記述330および第2の音場記述340は、例えば、ダウンミックス信号および異なる時間/周波数ビンの到来方向データを有する異なる基準位置のパラメトリック音場記述であってもよい。
【0083】
それにもかかわらず、第1および第2の音場記述の幾何学的情報350は、第1の音場記述330に含まれるすべての音源、または第2の音場記述340の音源に対してそれぞれ同じである。したがって、例示的に、第1の音場記述330に3つの音源が存在し、第1の音場記述に関する幾何学的情報が存在する場合、この幾何学的情報は第1の音場記述の3つの音源に対して同じである。同様に、例えば、第2の音場記述に5つの音源が存在する場合、メタデータ350に含まれる第2の音場の幾何学的情報は、第2の音場記述のすべての音源に対して同じである。
【0084】
図3bは、
図3aのメタデータ350の例示的な構成を示している。一実施形態では、基準位置351をメタデータに含めることができる。しかし、これは必ずしも基準位置情報351が省略され得るというわけではない。
【0085】
第1の音場について、例えば、原点から第1の音場が関連する基準位置/場所Aを指す
図4cに示すベクトルAに関する情報であり得る第1の幾何学的情報が与えられる。
【0086】
第2の幾何学的情報は、例えば、原点から第2の音場記述が関連する第2の基準位置/場所Bを指すベクトルBに関する情報であり得る。
【0087】
AとBは、両方の音場記述の基準位置または録音位置である。
【0088】
代替的な幾何学的情報は、例えば、基準位置Aとさらなる基準位置Bおよび/または原点と、原点から両方の点の一方を指すベクトルとの間に延在するベクトルDに関する情報であり得る。したがって、メタデータに含まれる幾何学的情報は、ベクトルAおよびベクトルDを含むか、ベクトルBおよびベクトルDを含むか、ベクトルDを含まずにベクトルAおよびベクトルBを含むか、または、他の情報を含むことができ、そこから特定の3次元座標系で基準位置Aと基準位置Bを特定することができる。しかし、2次元の場合のみを示す
図4cに特に示すように、2次元の音の説明にも同じ考慮事項が追加で適用される。
【0089】
図4aは、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置の好ましい実施態様を示している。特に、装置は、メタデータ、音場記述、および基準位置から異なる基準位置への並進を示す並進情報を使用して修正音場を生成する音場計算器420を含む。
【0090】
一実施形態では、音場計算器420は、例えば
図1aまたは2に関して説明したように拡張音場記述を受信するための入力インターフェース400に接続され、入力インターフェース400は、一方で、音場記述、すなわち、
図1aのブロック100または
図2のブロック210によって生成されたものを分離する。さらに、入力インターフェース400は、拡張音場記述、すなわち
図3aの項目350または
図3bのオプション351および352~354からメタデータを分離する。
【0091】
さらに、変換インターフェース410は、並進情報および/または追加のまたは別個の回転情報をリスナーから取得する。変換インターフェース410の実施態様は、仮想現実環境における頭部の回転を追跡するだけでなく、ある位置、すなわち
図1bの位置Aから別の位置、すなわち
図1bの位置Bへの頭部の並進も追跡する頭部追跡ユニットであってもよい。
【0092】
図4bは、
図1aと同様の別の実施態様を示しているが、エンコーダ/デコーダのシナリオには関係していないが、メタデータサプライヤ402によって示されるメタデータの供給が行われる一般的なシナリオに関係しており、音場サプライヤ404によって示される音場供給は、符号化または拡張音場記述を分離する特定の入力インターフェースなしで行われるが、例えば、仮想現実アプリケーションなどに存在する実際のシナリオですべて行われる。しかしながら、本発明は、仮想現実アプリケーションに限定されず、第1の基準位置に関連する音場を、異なる第2の基準位置に関連する別の音場に変換するために、基準位置に関連する音場の空間オーディオ処理が有用である他の任意のアプリケーションで実施することもできる。
【0093】
次に、音場計算器420は、修正音場記述を生成するか、あるいは(仮想)スピーカ表現を生成するか、ヘッドフォン再生用の2チャネル表現などのバイノーラル表現を生成する。したがって、音場計算器420は、修正音場として、元の音場記述と基本的に同じであるが、今は新しい基準位置に関する修正音場記述を生成することができる。代替的な実施形態では、仮想または実際のスピーカ表現は、5.1方式などの所定のスピーカ設定、またはより多くのスピーカを含み、特に2次元配置だけでなく3次元配置のスピーカ配置、すなわち、スピーカがユーザの位置に対して高くなっているスピーカ配置を備えたスピーカ設定に対して生成することができる。仮想現実アプリケーションに特に役立つ他のアプリケーションは、バイノーラル再生用、すなわち、仮想現実のユーザの頭部に適用できるヘッドフォン用のアプリケーションである。
【0094】
例示的に、後で説明する
図6は、DirACシンセサイザは、全方向性または圧力成分などのダウンミックス成分でのみ動作するが、
図12bに示したさらに別の実施形態では、DirACシンセサイザは、音場データ全体、すなわち、
図12bのこの実施形態では、全方向成分wおよび3つの方向成分x、y、zを有するフィールド記述を有する完全な成分表現で動作するという状況を示している。
【0095】
図4cは、本発明の好ましい実施形態の基礎となるシナリオを示している。この図は、第1の基準位置/場所A、第2の基準位置/場所B、2つの異なる音源AおよびB、および並進ベクトルlを示している。
【0096】
音源AとBの両方が、基準位置Aに関連する音場記述と、基準位置Bに関連する第2の音場記述と、に含まれている。
【0097】
音源Aの距離、例えば第1の基準位置または第2の基準位置までを計算するために、AとBに関連する異なる音場記述の両方に音源分離手順が適用され、次に、これらの異なる音分離手順によって得られた音源のマッチングが得られる。これにより、例えば音源Aが得られる。音源Aは、第1の音場記述とさらに第2の音場記述の音源分離アルゴリズムで見いだされる。音源Aの到来方向情報は、基準位置Aに関連する第1の音場記述から取得される場合、角度αになる。さらに、同じ音源Aの到来方向情報は、別の基準位置Bに関連する第2の音場記述から取得され、角度βになる。
【0098】
ここで、例えば、音場記述のメタデータから取得または計算可能な既知のまたは計算可能な距離Dに基づいて、かつ2つの角度αおよびβに基づいて、音源A、基準位置Aおよび基準位置Bによって定義される三角形が完全に定義される。したがって、例えば、音源Aから基準位置Aまでの距離、または音源Aから基準位置Bまでの距離、または音源Aの一般的な位置、すなわち、原点から音源Aの実際の位置を指すベクトルを、例えば三角測量処理操作によって計算することができる。位置または距離は両方とも、距離または位置に関する情報を表す。
【0099】
次に、一致した各音源、すなわち音源Bに対しても同じ手順を実行することができる。
【0100】
したがって、一致した各音源の距離/位置情報が計算され、その後に、一致した各音源は、距離/位置が完全に既知であるか、例えば追加のメタデータによって与えられるかのように処理することができる。しかし、個々の音源の距離/深度情報の代わりに、第1の音場記述と第2の音場記述の幾何学的情報のみが必要である。
【0101】
図8は、DirACシンセサイザとは異なる合成を実行するための別の実施態様を示している。例えば、音場解析器が、各音源信号に対して、個別のモノラル信号Sと元の到来方向を生成する場合、および、並進情報に応じて、新しい到来方向が計算される場合、例えば
図8のアンビソニックス信号生成器430を使用して、音源信号の音場記述、すなわち、モノラル信号Sであるが、水平角θまたは仰角θと方位角φからなる新しい到来方向(DoA)データを生成する。次に、
図4bの音場計算器420によって実行される手順は、例えば、新しい到来方向を有する各音源について一次アンビソニックス音場表現を生成し、次に、音場から新しい基準位置までの距離に応じてスケーリング係数を使用して、音源ごとにさらに修正を行い、次に、個々の音源からのすべての音場を互いに重ね合わせて、最終的に、再度、例えば、特定の新しい基準位置に関連するアンビソニックスの表現で修正音場を取得することができる。
【0102】
図6のDirAC解析器422、422a、422bによって処理された各時間/周波数ビンが特定の(バンド幅が制限された)音源を表すと解釈すると、DirACシンセサイザ425、425a、425bの代わりに、アンビソニックス信号生成器430を使用して、各時間/周波数ビンに対して、ダウンミックス信号または圧力信号、またはこの時間/周波数ビンの全方向成分を
図8の「モノラル信号S」として使用する完全なアンビソニックス表現を生成することができる。次に、W、X、Y、Z成分のそれぞれに対する周波数-時間変換器での個々の周波数時間変換により、
図4cに示されているものとは異なる音場記述が得られる。
【0103】
シーンは、マイクの視点(PoV)から録音され、この位置は基準座標系の原点として使用される。シーンはリスナーのPoVから再現する必要があり、リスナーは6DoFで追跡される(
図5を参照)。ここでは、説明のために単一の音源が示されているが、この関係は、時間-周波数ビンごとに保持される。
【0104】
図5は、空間オーディオの6DoF再生を示している。音源は、マイクの位置と方向(黒い線と円弧)に対する距離d
rのDoA r
rでマイクによって録音される。これは、DoA r
lと距離d
l(破線)を使用して、移動するリスナーに対して相対的に再生する必要がある。これは、リスナーの並進lと回転o(点線)を考慮する必要がある。DOAは、音源を指す単位長を有するベクトルとして表される。
【0105】
座標d
r∈R
3の音源は、単位ベクトル
で表される到来方向(DoA)から録音される。このDoAは、録音の解析から推定できる。それは距離
から来ている。この情報は、各音源のメタデータ、または一般的に
図3bの項目352、353、354から取得でき、例えば2つの異なる基準位置と距離/位置または基準位置に対する2つの角度を使用して三角測量処理により得られる、録音位置から距離(例えばメートル単位で与えられる)までの任意の方向rを有する距離記述として表すことができると仮定される。
【0106】
リスナーは6DoFで追跡される。ある時点で、リスナーはマイクに対してl∈R3の位置にあり、マイクの座標系に対してo∈R3の回転を有する。録音位置は、表記を簡素化するために座標系の原点として選択される。
【0107】
したがって、音は異なる距離d1で再生する必要があり、変化したボリュームと、並進とその後の回転の両方の結果である異なるDoA r1をもたらす。
【0108】
次のセクションで説明するように、パラメトリック表現に基づいた専用の変換によってリスナーの観点から仮想信号を取得する方法の概要を説明する。
【0109】
提案された方法は、パラメトリック空間音響符号化の基本的なDirAC手法に基づいている[16]。解析されたスペクトルの時間-周波数インスタンスごとに1つの支配的な直接音源があり、これらは独立して処理できると仮定される。録音は、短時間フーリエ変換(STFT)を使用して時間-周波数表現に変換される。時間フレームインデックスはnで、周波数インデックスはkで示される。次に、変換された録音が解析され、複素スペクトルP(k、n)の各時間-周波数ビンの方向rr(k、n)および拡散度ψ(k、n)が推定される。合成では、信号は直接部分と拡散部分とに分割される。ここでは、スピーカの位置に応じて直接部分をパンニングし、拡散部分を追加することにより、スピーカ信号が計算される。
【0110】
6DoFのリスナーの観点に従ってFOA信号を変換する方法は、5つのステップに分割できる(
図6cを参照)。
【0111】
図6cは、6DoF再生の方法を示している。Bフォーマットで記録されたFOA信号は、複素スペクトルの各時間-周波数ビンの方向と拡散度の値を計算するDirACエンコーダによって処理される。次に、方向ベクトルは、リスナーの追跡された位置によって、例えば三角測量の計算により導出された各音源の距離マップで指定された距離情報に従って変換される。結果として得られる方向ベクトルは、頭部の回転に応じて回転する。最後に、8+4の仮想スピーカチャネルの信号がDirACデコーダで合成される。次に、これらはバイノーラル化される。
【0112】
実施形態では、入力信号はDirACエンコーダ422で解析され、距離情報は各(一致した)音源の距離を与える距離マップm(r)から追加され、次に、リスナーが並進と回転を追跡したものが新規変換423、424に適用される。DirACデコーダ425は、8+4の仮想スピーカ用の信号を合成し、これらのスピーカは、ヘッドフォン再生用にバイノーラル化427される。並進後の音響シーンの回転は独立した操作であるため、代替的にバイノーラルレンダラに適用することもできることに留意されたい。6DoF用に変換される唯一のパラメータは方向ベクトルである。モデル定義では、拡散部分は等方性で均質であると仮定され、したがって変更されない。
【0113】
DirACエンコーダへの入力は、Bフォーマット表現のFOA音響信号である。これは4つのチャネル、すなわち全方向音圧と3つの1次空間勾配で構成され、特定の仮定の下では粒子速度に比例する。この信号はパラメトリックな方法で符号化される([18]を参照)。パラメータは、変換された全方向性信号である複素音圧P(k、n)および複素粒子速度ベクトルU(k,n)=[UX(k,n),UY(k,n),UZ(k,n)]Tは、変換された勾配信号に対応する。
【0114】
DirAC表現は、各時間-周波数ビンでの音波の信号P(k、n)、拡散度ψ(k、n)、および方向r(k、n)で構成される。後者を導出するには、まず、アクティブな音響強度ベクトルIa(k、n)を、圧力ベクトルと速度ベクトル[18]の複素共役((・)*で示す)の積の実部(Re(・)で示す)として計算する。
【0115】
(1)
拡散度は、このベクトル[18]の変動係数から推定される。
【0116】
(2)
は、移動平均として実施される、時間フレームに沿った期待演算子を示す。
基準位置までの各(一致した)音源の距離を有する方向ベースの距離マップを使用して音響を操作することを目的としているため、任意選択の実施形態では方向推定の分散は低くなければならない。通常、フレームは短いので、これは必ずしもそうではない。したがって、移動平均を適用して、平滑化された方向推定値
(k、n)を取得する。信号の直接部分のDoAは、一実施形態では、反対方向の単位長さベクトルとして計算される。
【0117】
(3)
方向は各時間-周波数ビンの単位長さの3次元ベクトルとして符号化されるため、距離情報を統合するのは簡単である。方向ベクトルは、ベクトルの長さが対応する音源dr(k、n)の距離を表すように、対応するマップエントリと乗算されるd
r(k,n):
=
(k,n)
【0118】
(4)
ここで、dr(k、n)は、マイクの録音位置から、時間nおよび周波数ビンkでアクティブな音源を指すベクトルである。
【0119】
リスナーの位置は、現在の処理フレームの追跡システムによってl(n)として指定される。音源位置のベクトル表現を使用すると、追跡位置ベクトルl(n)を減算して、長さ
の新しい変換方向ベクトルd
1(k、n)を生成できる(
図6bを参照)。リスナーのPoVから音源までの距離が導出され、DoAは単一のステップで適応される。
【0120】
(5)
リアルな再現の重要な側面は、距離の減衰である。減衰は、音源とリスナーとの間の距離の関数であると仮定される[19]。方向ベクトルの長さは、再生のために減衰または増幅を符号化することである。録音位置までの距離は、距離マップに従ってdr(k、n)で符号化され、再生される距離はd1(k、n)で符号化される。ベクトルを単位長に正規化し、古い距離と新しい距離の比率とを乗算すると、d1(k、n)を元のベクトルの長さで除算することによって必要な長さが与えられることが分かる。
【0121】
(6)
リスナーの向きの変更は、次の手順で適用される。トラッキングによって与えられる方向は、原点としての録音位置を基準としたピッチ、ヨー、およびロール
Tで構成されるベクトルとして記述できる。音源方向は、リスナーの方向に従って回転され、これは、2D回転行列を使用して実施される。
【0122】
(7)
結果として得られるリスナーのDoAは、単位長に正規化されたベクトルによって与えられる。
【0123】
(8)
変換された方向ベクトル、拡散度、および複雑なスペクトルを使用して、均一に分散された8+4仮想スピーカ設定用の信号を合成する。8つの仮想スピーカは、リスナー平面上で45°の方位角のステップ(仰角0°)で配置され、4つの仮想スピーカは、45°の仰角で90°のクロスフォーメーションで配置される。合成は、スピーカチャネル
ごとに直接部分および拡散部分に分割され、
はスピーカの数[16]である。
【0124】
(9)
直接部分では、エッジフェージング振幅パンニング(EFAP)パンニングが適用され、仮想スピーカジオメトリ[20]が与えられると、正しい方向から音が再生される。DoAベクトルr
p(k、n)が与えられると、これは各仮想スピーカチャネルiのパンニングゲインG
i(r)を提供する。各DoAの距離依存ゲインは、結果の方向ベクトルの長さd
p(k、n)から導出される。チャネルiの直接合成は次のようになる。
【0125】
(10)
ここで、指数γは、通常は約1に設定される調整係数である[19]。γ=0の場合、距離依存ゲインはオフになることに留意されたい。
【0126】
圧力
は、i非相関信号
を生成するために使用される。これらの非相関信号は、拡散成分として個々のスピーカチャネルに追加される。これは標準の方法[16]に従う。
【0127】
(11)
各チャネルの拡散部分と直接部分が一緒に加算され、信号は逆STFTによって時間領域に変換される。これらのチャネル時間領域信号は、バイノーラル化された信号を作成するために、スピーカの位置に応じて左右の耳のHRTFと畳み込まれる。
【0128】
図6aは、例えば
図4cまたは
図5のベクトルlに関して説明するように、空間情報、ならびに第1および第2の音場記述ならびに基準位置の異なる基準位置への変換を示す並進情報を使用して、修正音場を計算するためのさらなる好ましい実施形態を示す。
【0129】
図6aは、
図4cの基準位置Aに関係する第1の音場記述および
図4cの基準位置Bに関係する第2の音場記述への音分離または一般に音響解析手順の適用を示すブロック700を示す。
【0130】
この手順により、1つまたは複数の抽出されたオブジェクトの第1のグループが得られ、さらに、1つまたは複数の抽出されたオブジェクトの第2のグループが得られる。
【0131】
これらのグループは、ブロック702内で、すべての分離された音源、すなわち、抽出された音源の第1グループおよび1つもしくは複数の抽出された音源の第2グループの到来方向情報を計算するために使用される。
【0132】
他の実施形態では、ステップ700、702は、一方では音源に対する信号を、他方では音源に対するDoA情報を提供する単一の手順内で実施される。これは、DirACなどの時間/周波数選択手順などのパラメトリック手順にも当てはまり、音源信号は、時間/周波数ビンのBフォーマット表現の信号、時間/周波数ビンの圧力信号または全方向性信号、およびこの特定のビンのDoAパラメータとしてのDoA情報である。
【0133】
次に、ステップ704において、第1のグループの音源と第2のグループの音源との間で音源マッチングが実行され、音源マッチングの結果は一致した音源である。
【0134】
これらの一致した音源は、ブロック710に示すように、新しいDoAと新しい距離を使用して、一致した各オブジェクトの音場を計算するために使用される。さらに、一致するオブジェクトの到来方向情報、すなわち音源Aの
図4cのαとβなどのオブジェクトごとに2つが、一致するオブジェクトの位置、または代替的もしくは追加的に、例えば三角測量操作を使用して一致したオブジェクトの距離を計算するためにブロック706で使用される。
【0135】
ブロック706の結果は、例えば
図4cに示すように、一致した各オブジェクトの位置、あるいは代替的または追加的に、一致したオブジェクトの第1または第2の基準位置A、Bの一方までの距離である。
【0136】
加えて、ブロック708で並進情報を使用するだけでなく、一致したオブジェクトの新しい到来方向情報および新しい距離を計算するために回転情報も使用することが好ましい。
【0137】
一致したオブジェクトの位置がステップ708に入力されることを概説したが、一致したオブジェクトの新しい到来方向情報を計算するためだけに、一致したオブジェクトの実際の位置、あるいは、言い換えれば、一致したオブジェクトの距離は必要ではなく、リスナーが移動した新しい(異なる)基準位置に対する新しい到来方向を計算するために、例えば距離は必要ではないことが強調されるべきである。
【0138】
しかし、音源信号を新しい状況に適応させるには、距離が必要である。したがって、音源または音響オブジェクトから新しい基準位置までの距離が短くなると、1よりも小さいスケーリング係数が計算される。しかし、距離が高くなると、例えば
図6bで説明したように、スケーリング係数は1より大きくなるように計算される。したがって、一実施形態について
図6aに示されているが、必ずしも一致したオブジェクトの明示的な位置、および一致したオブジェクトの距離が計算され、次に新しい到来方向と新しい距離を使用して一致したオブジェクトごとに音場が計算されるわけではない。代わりに、2つの基準位置のうちの1つの基準位置までの一致したオブジェクトの距離だけで通常十分であり、新しいDoAと新しい距離を使用して、一致した各オブジェクトの音場が計算される。
【0139】
さらに、ブロック714は、ブロック702で取得した古いDoA情報を使用して、不一致オブジェクトの音場の計算を示す。さらに、例えば、1次アンビソニックス記述、高次アンビソニックス記述などのアンビソニックス記述、または特定のスピーカ設定に関連するスピーカチャネル記述などの修正音場記述を取得するために、ブロック710で取得された一致したオブジェクトとブロック714で取得された不一致オブジェクトの音場がブロック712で結合されるが、もちろん、これはブロック710とブロック714で同じであるため、ブロック712では単純なチャネルごとの追加を実行することができる。
【0140】
図6bは、音場計算器420の好ましい実施態様を示している。ブロック1102では、音源分離および各音源の到来方向または一般に方向情報の計算が実行される。次に、ブロック1104で、到来方向ベクトルに距離情報ベクトル、すなわち、元の基準位置から音源までのベクトル、すなわち、例えば
図5の項目520から項目510までのベクトルが乗算される。次に、ブロック1106において、並進情報、すなわち
図5の項目520から項目500へのベクトルが考慮されて、リスナー位置500から音源位置510へのベクトルである新しい変換方向ベクトルが計算される。次に、ブロック1108で、d
vで示される正しい長さの新しい到来方向ベクトルが計算される。このベクトルはd
rと同じ方向に向いているが長さが異なり、このベクトルの長さは音源510が特定のボリュームで元の音場に録音されているという事実を反映しているため、したがってd
vの長さは多かれ少なかれ音量の変化を示す。これは、ベクトルd
lを録音距離d
r、すなわち、マイク520から音源510までのベクトルd
rの長さで除算することによって得られる。上述のように、マイク520から音源510までのベクトルd
rの長さは、三角測量計算により導出することができる。マイクが第1の音場記述の基準位置にある場合、第1の音場記述の基準位置から音源までの距離が使用される。しかし、マイクが第2の音場記述のさらなる基準位置にある場合、第2の音場記述のさらなる基準位置から音源までの距離が使用される。
【0141】
図5のように、再生距離が録音距離よりも大きい場合、d
vの長さは1より短くなる。これにより、新しいリスナー位置での再生のための音源510の減衰が生じる。しかし、再生距離d
lが録音距離よりも小さい場合、ブロック1108で計算されるd
vの長さは1より大きくなり、対応するスケーリング係数により音源が増幅される。
【0142】
図6aにおいて、項目710は、一致した各オブジェクトの音場が、新しい到来方向情報と新しい距離を使用して計算されることを示している。しかし、基本的に、一致した各オブジェクトの音場を計算するには、1つまたは複数の抽出音源の第1のグループあるいは1つまたは複数の抽出音源の第2のグループから取得したオブジェクト信号を一般に使用できる。しかし、一実施形態では、ブロック710で音場計算を実行するためにどの音場記述を使用するかを決定するために、
図7に示す特定の選択が実行される。ブロック720において、新しいリスナー位置から第1の音場記述の第1の基準位置までの第1の距離が決定される。
図4cに関して、これは異なる基準位置と基準位置Aとの間の距離である。
【0143】
さらに、ステップ722で、新しいリスナー位置から第2の音場記述の第2の基準位置までの第2の距離が決定される。
図4cのこの実施形態では、これは、異なる基準位置(並進による)と基準位置Bとの間の距離になる。
【0144】
異なる基準位置から基準位置Bまでの距離は、異なる基準位置から基準位置Aまでの差よりも小さいように見える。したがって、これはステップ724で決定される。そして、ステップ726で、オブジェクト信号は、距離がより小さい音場記述から導出されたグループから選択される。したがって、
図4cの一致した音源に対応する音源AおよびBをレンダリングするために、さらなる基準位置Bに関連する第2の音場記述から導出された音源信号が使用される。
【0145】
しかし、他の実施形態では、並進が原点から異なる基準位置、例えば
図4cの図の左を指す場合、より小さい距離はこの他の基準位置から基準位置Aまでであり、次に、
図6bのブロック710で、一致した各オブジェクトの音場を最終的に計算するために、第1の音場記述が使用される。繰り返すが、選択は
図7に示す手順で実行される。
【0146】
図9は、さらに好ましい実施形態を示している。ステップ740では、第1の音場記述に対する音場解析、例えば、
図6cのブロック422に示すDirAC解析の形のパラメトリック音場解析が実行される。
【0147】
これにより、例えば、各時間/周波数ビンに対してパラメータの第1のセットが生成され、パラメータの各セットは、DoAパラメータと、任意選択で拡散度パラメータとを含む。
【0148】
ステップ741では、音場解析が第2の音場記述に対して実行され、再び、ブロック740のように、例えば
図6cのブロック422に関して説明したように、DirAC解析が実行される。
【0149】
これにより、例えば時間/周波数ビンなどの第2のパラメータセットが得られる。
【0150】
次いで、ブロック746において、各パラメータペアの位置は、第1の時間/周波数ビンからの対応するDoAパラメータおよび第2のパラメータセットからの同じ時間/周波数ビンからのDoAパラメータを使用して決定することができる。これにより、各パラメータペアの位置が得られる。しかし、パラメータの第1のセットおよび/またはパラメータの第2のセットにおいて、対応する時間/周波数ビンの拡散度が低いほど、位置はより有用になる。
【0151】
したがって、第1および第2のパラメータセットの両方で非常に低い拡散度が得られた時間/周波数ビンからの位置のみをさらに使用することが好ましい。
【0152】
加えて、ブロック740およびブロック741によっても出力されるように、時間/周波数ビン内の対応する信号の相関も実行することが好ましい。
【0153】
したがって、
図6aのステップ704の「音源マッチング」は、例えば、完全に回避でき、拡散度パラメータに基づいて一致した音源/一致した時間/周波数ビンの決定によって置き換えることができ、あるいは、例えば、Bフォーマット成分からの、または
図6cのブロック422によって出力される圧力信号またはオブジェクト信号からの時間/周波数ビン内の対応する信号を使用して、マッチングをさらに実行することができる。
【0154】
いずれの場合でも、ブロック46により、
図6aのブロック704で見つかった「一致したオブジェクト」に対応する特定の(選択された)時間/周波数ビンの特定の位置が得られる。
【0155】
次に、ブロック748で、ブロック746によって取得された位置の修正されたパラメータおよび/または信号、および/または、例えばハットトラッカによって取得された対応する並進/回転が計算され、ブロック748の出力は、異なる時間/周波数ビンの修正されたパラメータおよび/または修正された信号を表す。
【0156】
したがって、ブロック748は、修正されたパラメータを計算する目的のためのブロック424の並進変換423および回転変換に対応することができ、修正された信号の計算は、例えば、
図6cのブロック425によって、好ましくは、対応する時間/周波数ビンの位置から導出された特定のスケーリング係数を考慮して実行される。
【0157】
最後に、修正されたデータを使用して、音場記述の合成がブロック750で実行される。これは、例えば、第1または第2の音場記述のいずれかを使用したDirAC合成によって実行でき、あるいは、ブロック425に示すようにアンビソニックス信号生成器で実行することができ、その結果は送信/保存/レンダリング用の新しい音場記述である。
【0158】
図10は、音場計算器420のさらに好ましい実施態様を示している。
図10に示す手順の少なくとも一部は、一致した音源ごとに個別に実行される。ブロック1120は、例えば三角測量計算により一致した音源の距離を決定する。
【0159】
音場記述に基づいて、符号1100でフルバンドの到来方向またはバンドごとの到来方向が決定される。これらの到来方向情報は、音場の到来方向データを表する。この到来方向データに基づいて、並進変換がブロック1110で実行される。この目的のために、ブロック1120は、一致した各音源の距離を計算する。データに基づいて、ブロック1110は、この実施では基準位置から異なる基準位置への並進のみに依存する音場の新しい到来方向データを生成する。この目的のために、ブロック1110は、例えば、仮想現実の実施のコンテキストでの追跡により生成された並進情報を受け取る。
【0160】
好ましくはまたは代わりに、回転データも使用される。このために、ブロック1130は、回転情報を使用して回転変換を実行する。並進と回転の両方が実行される場合、並進からの情報とブロック1120からの音源距離を既に含む音場の新しいDoAの計算に続いて、回転変換を実行することが好ましい。
【0161】
次に、ブロック1140で、新しい音場記述が生成される。この目的のために、元の音場記述を使用するか、あるいは、音源分離アルゴリズムによって音場記述から分離された音源信号を使用するか、他のアプリケーションを使用できる。基本的に、新しい音場記述は、例えば、アンビソニックス生成器430によって取得されるか、DirACシンセサイザ425によって生成される指向性音場記述であってもよく、または後続のバイノーラルレンダリングで仮想スピーカ表現から生成されるバイノーラル表現であってもよい。
【0162】
好ましくは、
図10に示すように、特定の音源のボリュームまたは音量を新しい場所、すなわち新しいまたは異なる基準位置に適合させるために、新しい音場記述を生成する際に到来方向ごとの距離も使用される。
【0163】
図10は、回転変換が並進変換の後に実行される状況を示しているが、順序は異なる可能性があることに留意されたい。特に、回転変換は、ブロック1100によって生成された音場のDoAに適用でき、その後に、基準位置から異なる基準位置への対象の並進による追加の並進変換が適用される。
【0164】
音場のDoAがブロック1100によって決定されるとすぐに、ブロック1120を使用してメタデータから距離情報が取得され、次に、この距離情報は、変更された距離、したがって、特定の基準位置に対する特定の音源の音量の変化を考慮するために、ブロック1140で新しい音場記述を生成することによって使用される。基本的に、距離が大きくなると特定の音源信号が減衰し、距離が短くなると音源信号が増幅されると言える。当然、距離に応じた特定の音源の減衰または増幅は距離の変化に比例して行われるが、他の実施形態では、非常に粗い増分での音源信号のこの増幅または減衰にそれほど複雑でない操作を適用できる。このようなそれほど複雑ではない実施態様でも、距離の変化が完全に無視される状況と比較して、優れた結果が得られる。
【0165】
図11は、音場計算器のさらに好ましい実施態様を示している。ブロック1200では、音場からの個々の音源が、例えばバンドごとまたはフルバンドのように決定される。フレームおよびバンドごとの決定が実行されると、DirAC解析によってこれを実行できる。フルバンドまたはサブバンドの決定が実行される場合、これはあらゆる種類のフルバンドまたはサブバンドの音源分離アルゴリズムによって実行できる。
【0166】
ブロック1210において、リスナーの並進および/または回転が、例えば頭部追跡により決定される。
【0167】
ブロック1220では、各音源の古い距離は、メタデータを使用して、例えば、三角測量計算にメタデータを使用して決定される。したがって、各バンドは特定の音源であると見なされ(拡散度が特定のしきい値よりも低い場合)、その後に、低い拡散度値を有する各時間/周波数ビンの特定の距離が決定される。
【0168】
次に、ブロック1230で、例えば、
図6bのコンテキストで説明されるバンドごとのベクトル計算により、音源ごとの新しい距離が取得される。
【0169】
さらに、ブロック1240に示すように、音源ごとの古い方向は、例えば、DirAC解析で得られたDoA計算により、または例えば音源分離アルゴリズムでの到来方向または方向情報解析により決定される。
【0170】
次に、ブロック1250で、例えばバンドまたはフルバンドごとのベクトル計算を実行することにより、音源ごとの新しい方向が決定される。
【0171】
次に、ブロック1260で、並進および回転したリスナーの新しい音場が生成される。これは、例えば、DirAC合成でチャネルごとの直接部分をスケーリングすることで実行できる。特定の実施態様に応じて、ブロック1260で距離修正を実行することに加えて、または代替として、ブロック1270a、1270bまたは1270cで距離修正を行うことができる。
【0172】
例えば、音場が単一の音源のみを有すると決定される場合、距離変更はブロック1270aで既に実行されてもよい。
【0173】
あるいは、個々の音源信号がブロック1200によって計算される場合、ブロック1260で実際の新しい音場が生成される前に、ブロック1270bで個々の音源に対して距離修正を実行されてもよい。
【0174】
さらに、例えば、ブロック1260の音場生成がスピーカ設定信号またはバイノーラル信号をレンダリングせず、例えばアンビソニックスエンコーダまたは計算器430を使用する別の音場記述をレンダリングする場合、ブロック1260での生成に続いて距離修正も実行することができ、これはブロック1270cを意味する。実施態様に応じて、距離の変更をいくつかの変更子に分配することもでき、その結果、特定の音源は、音源と基準位置の間の元の距離と、音源と異なる基準位置の間の新しい距離との差によって導かれる特定の音量にある。
【0175】
図12aは、例えば、2009年のIWPASHから先に引用した参考文献「Directional Audio Coding」に最初に開示したDirAC解析器を示している。
【0176】
DirAC解析器は、バンドフィルタ1310のバンク、エネルギー解析器1320、強度解析器1330、時間平均化ブロック1340、拡散度計算器1350および方向計算器1360を含む。
【0177】
DirACでは、解析と合成の両方が周波数領域で実行される。それぞれ異なるプロパティ内で、音響を周波数バンドに分割する方法がいくつかある。最も一般的に使用される周波数変換には、短時間フーリエ変換(STFT)および直交ミラーフィルタバンク(QMF)が含まれる。これらに加えて、特定の目的に最適化された任意のフィルタでフィルタバンクを設計する完全な自由がある。方向解析の対象は、各周波数バンドで音の到来方向を推定することであり、同時に音が1つまたは複数の方向から同時に到来している場合の推定値である。原則として、これはいくつかの手法で実行できるが、音場のエネルギー解析が適切であることが分かっており、これを
図12aに示す。1次元、2次元、または3次元の圧力信号と速度信号が単一の位置から取り込まれると、エネルギー解析を実行できる。1次Bフォーマット信号では、全方向性信号はW信号と呼ばれ、2の平方根でスケールダウンされている。音圧は、
のように推定することができ、STFTドメインで表される。
【0178】
X、Y、およびZチャネルは、デカルト軸に沿って方向付けられたダイポールの指向性パターンを有し、ベクトルU=[X、Y、Z]を共に形成する。ベクトルは音場速度ベクトルを推定し、STFTドメインでも表現される。音場のエネルギーEが計算される。Bフォーマット信号の取り込みは、指向性マイクの同時配置、または全方向性マイクの狭い間隔のいずれかで取得できる。一部のアプリケーションでは、マイク信号は計算領域で形成、すなわちシミュレートすることができる。
【0179】
音の方向は、強度ベクトルIの反対方向であると定義される。方向は、送信されたメタデータの対応する角度方位角と仰角の値として示される。音場の拡散度も、強度ベクトルとエネルギーの期待演算子を使用して計算される。この方程式の結果は、音のエネルギーが単一の方向(拡散度がゼロ)から到達するか、すべての方向(拡散度が1)から到達するかを特徴付ける0と1の間の実数値である。この手順は、完全な3D以下の速度情報が利用可能な場合に適している。
【0180】
図12bは、再びバンドフィルタ1370のバンク、仮想マイクブロック1400、直接/拡散シンセサイザブロック1450、および特定のスピーカ設定または仮想の意図されたスピーカ設定1460を有するDirAC合成を示す。さらに、拡散度ゲイン変換器1380、ベクトルベースの振幅パンニング(VBAP)ゲインテーブルブロック1390、マイク補償ブロック1420、スピーカゲイン平均化ブロック1430および他のチャネルの分配器1440が使用される。
【0181】
スピーカを使用したこのDirAC合成では、
図12bに示す高品質バージョンのDirAC合成がすべてのBフォーマット信号を受信し、これに対して、スピーカ設定1460の各スピーカ方向について仮想マイク信号が計算される。利用される指向性パターンは通常、ダイポールである。その後に、メタデータに応じて、仮想マイク信号が非線形的に修正される。DirACの低ビットレートバージョンは
図12bには示されていないが、この状況では、
図6に示すようにオーディオの1つのチャネルのみが送信される。処理の違いは、すべての仮想マイク信号が、受信したオーディオの単一チャネルに置き換えられることである。仮想マイク信号は、拡散ストリームと非拡散ストリームの2つのストリームに分けられ、別々に処理される。
【0182】
非拡散音は、ベクトルベースの振幅パンニング(VBAP)を使用してポイント音源として再現される。パンニングでは、スピーカ固有のゲイン係数を乗算した後に、スピーカのサブセットにモノフォニック音響信号が適用される。ゲイン係数は、スピーカ設定の情報と指定されたパンニング方向を使用して計算される。低ビットレートバージョンでは、入力信号はメタデータによって暗示される方向に単純にパンニングされる。高品質バージョンでは、各仮想マイク信号に対応するゲイン係数が乗算され、これにより、パンニングと同じ効果が得られるが、非線形アーチファクトが発生しにくくなる。
【0183】
多くの場合、方向性メタデータは急激な時間的変化の影響を受ける。アーチファクトを回避するために、VBAPで計算されたスピーカのゲイン係数は、各バンドで約50サイクル周期に等しい周波数依存時定数との時間積分により平滑化される。これにより、アーチファクトが効果的に除去されるが、ほとんどの場合、方向の変化は平均化しない場合よりも遅いとは感じられない。
【0184】
拡散音の合成の目的は、リスナーを囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは入力信号を非相関化し、すべてのスピーカからそれを再生することにより再生される。高品質バージョンでは、拡散ストリームの仮想マイク信号は既にある程度インコヒーレントであり、わずかに非相関化するだけで済む。この手法は、低ビットレートバージョンよりも、サラウンドリバーブとアンビエント音響の空間品質を向上させる。
【0185】
ヘッドフォンを使用したDirACシンセシスの場合、DirACは、非拡散ストリーム用のリスナーの周囲に一定量の仮想スピーカ、拡散スチーム用に一定数のスピーカで定式化される。仮想スピーカは、入力信号と測定された頭部伝達関数(HRTF)の畳み込みとして実施される。
【0186】
いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の機能の説明も表す。
【0187】
本発明の拡張音場記述は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。
【0188】
特定の実施態様に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行できる。
【0189】
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的データキャリアを含む。
【0190】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。
【0191】
他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0192】
言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0193】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
【0194】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0195】
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
【0196】
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0197】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
【0198】
上述の実施形態は、本発明の原理の単なる例示にすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。
参考文
【0199】
[1] Liitola,T.,Headphone sound externalization,Ph.D.thesis,Helsinki University of Technology.Department of Electrical and Communications Engineering Laboratory of Acoustics and Audio Signal Processing.,2006
【0200】
[2] Blauert,J.,Spatial Hearing - Revised Edition:The Psychophysics of Human Sound Localization,The MIT Press,1996,ISBN 0262024136
【0201】
[3] Zhang,W.,Samarasinghe,P.N.,Chen,H.,and Abhayapala,T.D.,“Surround by Sound:A Re-view of Spatial Audio Recording and Reproduction,”Applied Sciences,7(5),p.532,2017
【0202】
[4] Bates,E.and Boland,F.,“Spatial Music,Virtual Reality,and 360 Media,”in Audio Eng.Soc.Int.Conf.on Audio for Virtual and Augmented Reality,Los Angeles,CA,U.S.A.,2016
【0203】
[5] Anderson,R.,Gallup,D.,Barron,J.T.,Kontkanen,J.,Snavely,N.,Esteban,C.H.,Agarwal,S.,and Seitz,S.M.,“Jump:Virtual Reality Video,”ACM Transactions on Graphics,35(6),p.198,2016
【0204】
[6] Merimaa,J.,Analysis,Synthesis,and Perception of Spatial Sound:Binaural Localization Modeling and Multichannel Loudspeaker Reproduction,Ph.D.thesis,Helsinki University of Technology,2006
【0205】
[7] Kronlachner,M.and Zotter,F.,“Spatial Transformations for the Enhancement of Ambisonics Recordings,”in 2nd International Conference on Spatial Audio,Erlangen,Germany,2014
【0206】
[8] Tsingos,N.,Gallo,E.,and Drettakis,G.,“Perceptual Audio Rendering of Complex Virtual Environments,”ACM Transactions on Graphics,23(3),pp.249-258,2004
【0207】
[9] Taylor,M.,Chandak,A.,Mo,Q.,Lauterbach,C.,Schissler,C.,and Manocha,D.,“Guided multi-view ray tracing for fast auralization,”IEEE Trans.Visualization & Comp.Graphics,18,pp.1797-1810,2012
【0208】
[10] Rungta,A.,Schissler,C.,Rewkowski,N.,Mehra,R.,and Manocha,D.,“Diffraction Kernels for Interactive Sound Propagation in Dynamic Environments,”IEEE Trans.Visualization & Comp.Graphics,24(4),pp.1613-1622,2018
【0209】
[11] Thiergart,O.,Kowalczyk,K.,and Habets,E.A.P.,“An Acoustical Zoom based on Informed Spatial Filtering,”in Int.Workshop on Acoustic Signal Enhancement,pp.109-113,2014
【0210】
[12] Khaddour,H.,Schimmel,J.,and Rund,F.,“A Novel Combined System of Direction Estimation and Sound Zooming of Multiple Speakers,”Radioengineering,24(2),2015
【0211】
[13] Ziegler,M.,Keinert,J.,Holzer,N.,Wolf,T.,Jaschke,T.,op het Veld,R.,Zakeri,F.S.,and Foessel,S.,“Immersive Virtual Reality for Live-Action Video using Camera Arrays,”in IBC,Amsterdam,Netherlands,2017
【0212】
[14] Thiergart,O.,Galdo,G.D.,Taseska,M.,and Habets,E.A.P.,“Geometry-Based Spatial Sound Acquisition using Distributed Microphone Arrays,”IEEE Trans.Audio,Speech,Language Process.,21(12),pp.2583-2594,2013
【0213】
[15] Kowalczyk,K.,Thiergart,O.,Taseska,M.,Del Galdo,G.,Pulkki,V.,and Habets,E.A.P.,“Parametric Spatial Sound Processing:A Flexible and Efficient Solution to Sound Scene Acquisition,Modification,and Reproduction,”IEEE Signal Process.Mag.,32(2),pp.31-42,2015
【0214】
[16] Pulkki,V.,“Spatial Sound Reproduction with Directional Audio Coding,”J.Audio Eng.Soc.,55(6),pp.503-516,2007
【0215】
[17] International Telecommunication Union,“ITU-R BS.1534-3,Method for the subjective assessment of intermediate quality level of audio systems,”2015
【0216】
[18] Thiergart,O.,Del Galdo,G.,Kuech,F.,and Prus,M.,“Three-Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators,”in Audio Eng.Soc.Conv.Spatial Audio:Sense the Sound of Space,2010
【0217】
[19] Kuttruff,H.,Room Acoustics,Taylor & Francis,4 edition,2000
【0218】
[20] Borβ,C.,“A polygon-based panning method for 3D loudspeaker setups,”in Audio Eng.Soc.Conv.,pp.343-352,Los Angeles,CA,USA,2014
【0219】
[21] Rummukainen,O.,Schlecht,S.,Plinge,A.,and Habets,E.A.P.,“Evaluating Binaural Reproduction Systems from Behavioral Patterns in a Virtual Reality -A Case Study with Impaired Binaural Cues and Tracking Latency,”in Audio Eng.Soc.Conv.143,New York,NY,USA,2017
【0220】
[22] Engelke,U.,Darcy,D.P.,Mulliken,G.H.,Bosse,S.,Martini,M.G.,Arndt,S.,Antons,J.-N.,Chan,K.Y.,Ramzan,N.,and Brunnstrom,K.,“Psychophysiology-Based QoE Assessment:A Survey,”IEEE Selected Topics in Signal Processing,11(1),pp.6-21,2017
【0221】
[23] Schlecht,S.J.and Habets,E.A.P.,“Sign-Agnostic Matrix Design for Spatial Artificial Reverberation with Feedback Delay Networks,”in Proc.Audio Eng.Soc.Conf.,pp.1-10-accepted,Tokyo,Japan,2018
【0222】
[31] M.A.Gerzon,”Periphony:With-height sound reproduction,”J.Acoust.Soc.Am.,vol.21,110.1,pp.2-10,1973
【0223】
[32] V.Pulkki,”Directional audio coding in spatial sound reproduction and stereo upmixing,”in Proc.of the 28th AES International Conference,2006
【0224】
[33] ―,”Spatial sound reproduction with directional audio coding,”Journal Audio Eng.Soc,, vol.55,no.6,pp.503-516,Jun.2007
【0225】
[34] C.G.and G.M.,”Coincident microphone simulation covering three dimensional space and yielding various directional outputs,”U.S.Patent 4 042 779,1977
【0226】
[35] C.Faller and F.Baumgarte,”Binaural cue coding - part ii: Schemes and applications,”IEEE Trans.Speech Audio Process,, vol.11,no.6 ,Nov.2003
【0227】
[36] C.Faller,”Parametric multichannel audio coding: Synthesis of coherence cues,”IEEE Trans.Speech Audio Process.,vol.14,no.1,Jan.2006
【0228】
[37] H.P.J.E.E.Schuijers,J.Breebaart,”Low complexity parametric stereo coding,”in Proc.of the 116th A ES Convention,Berlin,Germany,2004
【0229】
[38] V.Pulkki,”Virtual sound source positioning using vector base amplitude panning,”J.Acoust.Soc.A m,, vol.45,no.6,pp.456-466,Jun.1997
【0230】
[39] J.G.Tylka and E.Y.Choueiri,”Comparison of techniques for binaural navigation of higher- order ambisonics sound fields,”in Proc.of the AES International Conference on Audio for Virtual and Augmented Reality,New York,Sep.2016.