【文献】
PULKKI, Ville,Spatial Sound Reproduction with Directional Audio Coding,Journal of the Audio Engineering Society,2007年 6月15日,Vol.55, No.6,p.503-516
(58)【調査した分野】(Int.Cl.,DB名)
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器はBフォーマットを使用する、
請求項1乃至3のうちいずれか一項に記載の方法。
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器は、Bフォーマット以外のアンビソニックスフォーマットを使用し、当該方法は、
前記結合するステップより前に、HOAフォーマット適応ユニットにおいて、前記Bフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるステップを更に有し、
前記結合するステップにおいて、前記時間領域結合器は、前記入力信号の前記再フォーマットされたアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
請求項3に記載の方法。
前記少なくとも2次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの更なるHOA入力信号とミキシングして、前記入力信号と前記更なるHOA入力信号との混合を含むHOA信号が得られるステップ
を更に有する請求項1乃至6のうちいずれか一項に記載の方法。
前記高次アンビソニックス符号器は、前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するときに、Bフォーマット以外のアンビソニックスフォーマットを使用し、当該装置は、
前記Bフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるHOAフォーマット適応ユニットを更に有し、
前記時間領域結合器ユニットは、前記入力信号の前記再フォーマットされたアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
請求項11に記載の装置。
前記少なくとも2次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの他のHOA入力信号とミキシングして、前記入力信号と前記他のHOA入力信号との混合を含むHOA信号が得られるミキサユニット
を更に有する請求項9乃至14のうちいずれか一項に記載の装置。
【背景技術】
【0002】
アンビソニックス(Ambisonics)は、音圧に関してオーディオシーンを記述する技術であって、2D及び3Dの両方において、優れた空間分解能による複雑なオーディオシーンの記録、生成、伝送及び再生に対処する。アンビソニックスにおいて、空間オーディオシーンは、フーリエ−ベッセル級数の係数A
nm(k)によって記述される。いわゆるBフォーマット信号として1次アンビソニックス信号を供給するマイクロホンアレイが知られている。しかし、1次アンビソニックス信号を2Dサラウンド又は3Dのためのスピーカ配置へと復号及びレンダリングすることは、音響指向性の限られた認知しか示さない。音源は、しばしば、それらが実際にあるよりも広いと認知される。特に、中心を外れた聴取位置について、音源は、スピーカ間のそれらの意図された実際上の位置の代わりに、最も近いスピーカ位置から聞こえてくるものとしてしばしば位置決めされる。1次アンビソニックス(Bフォーマット)信号は、音圧のフーリエ−ベッセル級数記述の4つの係数から成る。これらの係数は3D音場表現を形成する。それらはWチャネル(モノミックス、すなわち0次)及びX,Y,Zチャネル(1次)である。より高次の信号はより多くの係数を使用する。このことは、それらの係数がスピーカ信号へと復号される場合に、空間的な音源の位置決めの精度を向上させる。しかし、そのような高次の信号は、マイクロホンアレイによって供給されるBフォーマット信号に含まれない。
【0003】
指向性オーディオ・コーディング(Directional Audio Coding)(DirAC)は、オーディオ信号を表現又は再現するための既知の技術[5,9]である。それは、拡散音からダイレクトサウンドを分離するためにBフォーマット復号器を使用し、次いで、周波数領域におけるダイレクトサウンドの選択的な増幅のためにベクトル方式による振幅パニング(Vector-Based Amplitude Panning)(VBAP)を使用し、合成フィルタリングの後に、最終的にその出力でスピーカ信号を供給する。
【0004】
図1a)は、DirACに基づくBフォーマット復号化の構造を示す。Bフォーマット信号10は時間領域信号であり、分析フィルタバンクAFB
DにおいてK個の周波数バンド11へとフィルタリングされる。音場解析ブロックSFA
Dは、拡散推定Ψ(f
k)13及び到来方向(directions-of-arrival)(DoA)12を推定する。DoAは、バンドkの特定の中間周波数でのソースへの方向の方位φ(f
k)及び傾斜Θ(f
k)である。1次アンビソニックス復号器AmbDは、アンビソニックス信号をL個のスピーカ信号14へとレンダリングする。直接拡散分離ブロックDDSは、拡散推定13から決定されるフィルタを用いて、1次アンビソニックス信号をL個のダイレクトサウンド信号15及びL個の拡散音信号16に分離する。L個の拡散音信号16は、復号器AmbDの出力14に、拡散推定13から得られる√Ψ(f
k)を乗じることによって、導出される。指向性信号は、√(1−Ψ(f
k))との乗算から導出される。ダイレクトサウンド信号15は、ベクトル方式による振幅パニング(VBAP)[8]と呼ばれる技術を用いて、更に処理される。VBAPユニットVPにおいて、(各周波数バンドにおける)各スピーカ信号のためのゲイン値は、DoA12及びスピーカの位置に従って、ダイレクトサウンドを所望の方向へパンするように乗じられる。拡散信号16は、無相関フィルタリングDFによって無相関にされ、無相関にされた拡散信号17は、VBAPユニットVPから得られるダイレクトサウンド信号に加えられる。合成フィルタバンクSFB
Dは、周波数バンドを時間領域信号19と結合し、該結合された信号がL個のスピーカによって再生され得る。時間積分のための平滑化フィルタ(
図1に図示せず。)は、拡散推定Ψ(f
k)13を計算するよう、且つ、VBAPによって導出されたゲイン値を平滑化するよう、適用される。
【0005】
図1b)は、音場解析ブロックSFA
Dの詳細を示す。Bフォーマット信号は、原点(観測位置、r=0)での周波数領域における音場を表す。音響強度は、音場における運動及び位置エネルギの輸送を記述する。音場において、音響エネルギの全ての局所的な運動が正味の輸送に相当するわけではない。アクティブインテンシティI
a(時間平均された音響強度、DoA〜I
a)は、指向性の正味エネルギ輸送の割合、すなわち、3つのデカルト方向のための単位時間ごとのエネルギである。Bフォーマット信号のアクティブインテンシティ11aは、アクティブインテンシティ解析ブロックAIA
Dにおいて得られ、拡散解析ブロックDAB
D及びDoA解析ブロックDOAAB
Dへ供給される。DoA解析ブロックDOAAB
D及び拡散解析ブロックDAB
Dは、DoA12及び拡散推定13を夫々出力する。DirACについては[9]において更に、また、基礎をなす理論は[5]において、記載される。
【発明を実施するための形態】
【0014】
図2は、本発明の一般的な実施形態に従う装置の構造を示す。時間領域の1次アンビソニックス信号10(例えば、Bフォーマット信号)は、分析フィルタバンクAFBにおいてフィルタをかけられ、4つの周波数領域チャネル21が得られる。それらは入力信号10の周波数領域表現である。周波数領域チャネルの1つは0次係数(すなわち、Wチャネル)を表し、残り3つの周波数領域チャネルは1次係数(X、Y、Zチャネル)を表す。
【0015】
ダイレクトサウンド分離ユニットDSSは、4つの周波数領域チャネル21に含まれるダイレクトサウンド(すなわち、指向性音響)20を拡散音から分離する。実施形態において、ダイレクトサウンド分離ユニットDSSは、単にWチャネルを選択し、それをダイレクトサウンド20として使用する。更に、音場解析ユニットSFAは、4つの周波数領域チャネルの音場解析を実行して、周波数チャネルの周波数バンドごとにソース方向Θ,Φ22及び拡散推定Ψ23を得る。実施形態において、音場解析ユニットSFAは、方向情報22を得るために到来方向(DoA)解析ユニットを有する。
【0016】
ダイレクトサウンド分離器DSSによって得られたダイレクトサウンド20は、次いでフィルタFにおいてフィルタをかけられ、これによって、拡散成分が減衰されて、指向性音響が選択的に(相対的に)増幅される。フィルタFは、選択的な増幅のために拡散推定Ψ23を使用する。原理上は、それは、選択的に増幅されたダイレクトサウンド24を得るようにダイレクトサウンド20に√(2(1−Ψ(f)))を乗じる。選択的に増幅されたダイレクトサウンド24は、次いでHOA符号器HOAeにおいてアンビソニックス符号化され、所定の次数N
0(N
0>1、すなわち、少なくとも2次)のHOA信号25が得られる。HOA符号器HOAeは、符号化のためにソース方向Θ,Φ22を使用する。それは、Bフォーマットに従って0次及び1次の係数を有するアンビソニックスフォーマットを使用してよい。それはまた、代わりに、異なるアンビソニックスフォーマットを使用してよい。異なるアンビソニックスフォーマットは、通常は、Bフォーマットの順序とは異なる定義された係数の順序、若しくはBフォーマットの係数スケーリングとは異なる係数スケーリング、又はその両方を有する。
【0017】
選択器SELは、HOA信号25の定義された部分を選択し、その選択された部分25aは、次いで結合及び合成ユニットCSにおいて原のBフォーマット信号と結合される。選択された部分25aは、HOA信号25の高次部分、すなわち、少なくとも2次の部分(実施形態では係数)である。結合及び合成ユニットCSは、その出力において、スピーカ信号をレンダリングするのに使用され得る時間領域信号29を(HOAフォーマットにおいて)供給する。結合及び合成ユニットCSは、アンビソニックスフォーマットの信号にフィルタをかけ、時間領域信号を得るために、合成フィルタSFを有する。
【0018】
図2は、得られたHOA出力信号29が高次の他のHOA入力信号30とミキシングされ得る任意的な追加のミキサユニットMXを更に示す。他のHOA入力信号30はまた、後述されるHOAフォーマットアダプタHFAにより、入力信号10とは異なるアンビソニックスフォーマットを有することができる。ミキサMXは、得られたHOA出力信号29(すなわち、エンハンスドBフォーマット入力信号)及びHOA入力信号30の混合を含むHOA信号31を生成する。
【0019】
結合及び合成ユニットCSの実施形態の2つの基本的なタイプは、以下で記載される。1つのタイプの実施形態では、結合及び合成ユニットCSは、時間領域において、選択された部分25aを原のBフォーマット信号10と結合する。従って、それは、時間領域への選択された部分25aのみの合成を実行する。他のタイプの実施形態では、結合及び合成ユニットCSは、周波数領域において、選択された部分25aを原のBフォーマット信号10と結合し、後で時間領域への合成を実行する。
【0020】
図3は、第1のタイプの実施形態を示す。この実施形態では、結合及び合成ユニットCSは、合成された時間領域信号26を得るように、合成フィルタバンクSFBにおいて、HOA信号25のうちの選択された高次係数25aのみを合成する。時間領域結合器ユニットCB
tは、時間領域出力信号29を得るように、時間領域において、合成された時間領域信号26を入力信号と結合する。一実施形態において、時間領域HOAフォーマットアダプタユニットHFA
tは、HOA符号器HOAeが使用するフォーマットに従って、時間領域入力信号のフォーマットを適応させる。これは、時間領域結合器ユニットCB
tにおける得られた時間領域HOA信号28と合成された時間領域信号26との結合を簡単にする。幾つかの実施形態において、例えば、HOA符号器HOAeが、HOA入力信号と互換性があるフォーマットを使用する場合に、HOAフォーマットアダプタユニットHFA
tは必要とされなくてよい。HOAフォーマットアダプタユニットHFA
tは、HOA信号の係数を再配置及び/又は再スケーリングしてよい。
【0021】
分析フィルタバンクAFBは、例えば、FFT(高速フーリエ変換)を実行することによって、異なる周波数バンドを得る。これは時間遅延を生成する。一実施形態において、時間領域入力信号の遅延補償ユニットDC、例えば、分析フィルタバンクAFBや選択的増幅フィルタFなどのフィルタバンク遅延を補償する。表されている実施形態では、遅延補償は、HOAフォーマット適応HFAより前に行われているが、それは、他の実施形態では、HOAフォーマット適応より後に行われ得る。更なる他の実施形態では、遅延補償は2つのステップにおいて行われる。1つの遅延補償ユニットはフォーマット適応より前にあり、もう1つの遅延補償ユニットはフォーマット適応HFAより後にある。
【0022】
図4及び
図5は、第2のタイプの結合及び合成ユニットCSを使用する実施形態を示す。この実施形態では、結合及び合成ユニットCSは、分析フィルタバンクから得られる、入力信号の周波数領域での0次及び1次のアンビソニックス信号を受信する。これは、
図4に示される実施形態で見られるように、別個の分析フィルタバンクAFB’であってよく、あるいは、それは、
図5に示される実施形態で見られるように、上記の分析フィルタバンクAFBであってよい。後者の場合に、分析フィルタバンクAFBによって供給される4つの周波数領域チャネル21は、結合及び合成ユニットCSに直接入力される。周波数領域結合器ユニットCB
fは、HOA信号25のうちの選択された高次係数25aを、周波数領域において、入力信号の0次及び1次のアンビソニックス係数と結合する。合成フィルタバンクSFB’は、結合されたアンビソニックス信号を合成し、時間領域出力信号29が得られる。一実施形態において、任意的な周波数領域HOAフォーマット適応HFA
fは、入力信号の0次及び1次のアンビソニックス係数に対して、それらをHOA信号25のうちの選択された高次係数25aと結合するより前に実行される。HOAフォーマットアダプタユニットHFA
fは、HOA信号の係数を再配置及び/又は再スケーリングしてよい。上述されたように、HOAフォーマットアダプタユニットHFA
fは、幾つかの実施形態では必要とされないことがある。更に、やはり上述されたように、遅延補償(図示せず。)は、処理チェーン(例えば、選択的増幅フィルタF、HOA符号器HOAe)において挿入される可能性があるあらゆる遅延のために、一実施形態において使用されてよい。なお、分析フィルタバンクAFB、AFB’によって挿入される遅延は補償される必要がないので、それは通常必要とされない。
【0023】
時間領域結合器CB
tは、時間領域において動作する結合器であり、一方、周波数領域結合器CB
fは、周波数領域において動作する結合器である。いずれのタイプの結合器も、選択された部分25aの得られた係数を入力信号10の(場合により再フォーマットされた)係数に加える。
【0024】
概して、0次及び1次の係数を有する1次アンビソニックス時間領域信号の指向性を高める装置は、
1次アンビソニックス信号にフィルタをかけて、1次アンビソニックス信号の周波数領域表現である4つの周波数領域チャネルが得られ、周波数領域チャネルのうちの1つの周波数領域チャネル20が0次係数を表し、3つの周波数領域チャネルが1次係数を表す、分析フィルタバンクAFBと、
4つの周波数領域チャネルの音場解析を実行して、ソース方向Θ,Φ22及び拡散推定Ψ23が得られる音場解析ユニットSFAと、
拡散推定Ψ23が使用されて、0次係数を有する周波数領域チャネル20にフィルタをかけ、ダイレクトサウンド成分24が得られる選択的増幅フィルタFと、
ソース方向Θ,Φ22が使用されて、少なくとも2である所定の次数を持ったアンビソニックスフォーマットでダイレクトサウンド成分24を符号化し、少なくとも0次、1次及び2次のアンビソニックス係数を含む、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンド25が得られる、高次アンビソニックス符号器HOAeと、
所定の次数のアンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド25から少なくとも2次のアンビソニックス係数25aを選択する選択器SELと、
符号化されたダイレクトサウンドから選択された少なくとも2次のアンビソニックス係数25aを1次アンビソニックス入力信号10のアンビソニックス係数と結合して、少なくとも2次のアンビソニックス信号の時間領域表現29が得られる結合及び合成ユニットCSと
を有する。少なくとも2次の選択されたアンビソニックス係数25aは、0次又は1次の係数を含まないことが知られる。すなわち、選択器SELは、低次係数を除外する。
【0025】
一実施形態において、本発明は、1次のアンビソニックス信号10(すなわち、0次及び1次の係数のみを持ったアンビソニックス信号)の指向性を高めるための方法に関する。概して、方法は、
音場解析ユニットSFAにおいて、1次アンビソニックス信号から拡散推定Ψ23及び方向情報Θ,Φ22を生成するステップと、
選択的な増幅のためのフィルタFにおいて拡散推定Ψ23を使用して、1次アンビソニックス信号からダイレクトサウンド24を分離して選択的に増幅するステップと、
HOA符号器HOAeにおいて方向情報Θ,Φ22を使用して、選択的に増幅されたダイレクトサウンド24を符号化し、少なくとも2次のHOA信号25が得られるステップと、
HOA信号25から高次部分を選択し、該選択された高次部分が1次よりも高い次数の係数のみを含む(すなわち、0次の係数を含まず且つ1次の係数を含まない)ようにするステップと、
結合及び合成ユニットCSにおいて、HOA信号25から選択された高次係数を、入力された1次アンビソニックス信号と結合し、高次アンビソニックス信号(すなわち、少なくとも2次のアンビソニックス信号)の時間領域表現29が得られるステップと
を有する。
【0026】
一実施形態において、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、分析フィルタバンクAFBから入力信号の周波数領域での0次及び1次のアンビソニックス係数を受け取るステップと、HOA信号25のうちの選択された高次(すなわち、2次以上)係数を、周波数領域において、入力信号の0次及び1次のアンビソニックス係数と結合するステップと、結合されたアンビソニックス信号を合成フィルタバンクSFBにおいて合成して時間領域出力信号29を得るステップとを有する。
【0027】
実施形態において、方法は、入力信号の0次及び1次のアンビソニックス係数に対して、それらをHOA信号25のうちの選択された高次係数と結合するより前に、周波数領域HOAフォーマット適応HFA
fを実行するステップを更に有する。
【0028】
他の実施形態において、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、HOA信号25のうちの選択された高次係数25aのみを合成フィルタバンクSFBにおいて合成して、合成された時間領域信号26を得るステップと、得られた合成された時間領域信号を時間領域において入力信号と結合して、時間領域出力信号29を得るステップとを有する。実施形態において、時間領域入力信号の時間領域HOAフォーマット適応HFA
tは、結合より前に実行される。更なる実施形態では、フィルタバンク遅延を補償するための時間領域入力信号の遅延補償DCが、結合するステップより前に実行される。
【0029】
高次係数は、分析フィルタバンクAFBにおいて1次アンビソニックス入力信号10にフィルタをかけ、フィルタ処理された信号の到来方向(DoA)解析を実行して、拡散推定Ψ23及び方向Φ,Θ22が得られ、拡散推定Ψ23を用いてWチャネル(0次係数)にフィルタをかけ、それによりダイレクトサウンドS(f)20が分離され、高次アンビソニックス符号器HOAeにおいてアンビソニックスフォーマットでダイレクトサウンドS(f)を符号化することによって、得られる。結果として得られるHOA信号25から、高次係数のみが使用され、入力信号の低次係数と結合され、その結果からアンビソニックス出力信号29が合成される。
【0030】
概して、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、それらの夫々の係数を足し合わせることを有する。すなわち、出力信号29は、入力信号10の全ての係数と、更なる係数、すなわち、選択された部分25aのより高次の係数とを含む。
【0031】
図6は、本発明の一実施形態に従う方法のフローチャートを示す。入力信号10(0次及び1次の係数を有する1次アンビソニックス信号)の指向性を高める方法60は、
4つの周波数領域チャネル21が得られ、それらのうちの1つがアンビソニックスWチャネル20であるように、入力信号10にフィルタをかけるステップs1と、
4つの周波数領域チャネル21の音場解析SFAを実行して、ソース方向22及び拡散推定23が得られるステップs1と、
拡散推定23が使用されて、周波数領域のアンビソニックスWチャネル20を選択してフィルタをかけ、入力信号のダイレクトサウンド成分24が得られるステップs3と、
高次アンビソニックス符号器HOAeにおいて、ソース方向22が使用されて、所定の次数N
0を持ったアンビソニックスフォーマットでダイレクトサウンド成分24を符号化し、所定の次数N
0のアンビソニックスフォーマットにおける符号化されたダイレクトサウンド25が得られるステップs4と、
アンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド25から、少なくとも2次(すなわち、より低い次数を除く2次以上の次数)のアンビソニックス係数を含む定義された部分25aを選択するステップs5と、
符号化されたダイレクトサウンド25のうちの選択された部分の少なくとも2次のアンビソニックス係数を表す信号を入力信号10を表す信号と結合し、少なくとも2次のアンビソニックス信号29が得られるステップs6と
を有する。
【0032】
フィルタリングステップs1において得られる4つの周波数領域チャネル21は、1次アンビソニックス信号の周波数表現であり、周波数領域チャネル21のうちの1つの第1の周波数領域チャネル(Wチャネル)20は0次の係数を表し、一方、残り3つの周波数領域チャネル21(X,Y,Zチャネル)は1次の係数を表す。
【0033】
符号化ステップs4で、高次アンビソニックス符号器HOAeは、ソース方向Φ,Θ22を用いて、所定の次数N
0を持ったアンビソニックスフォーマットにおいてダイレクトサウンド成分24を符号化する。所定の数N
0は少なくとも2であり、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドは、少なくとも2次の次数のアンビソニックス係数を有する。
【0034】
図7a)は、結合するステップs6が4つの周波数領域チャネル21を入力信号10の表現として使用する実施形態(
図4,5に示される装置に対応)を示す。それは、
周波数領域結合器ユニットCB
fにおいて、4つの周波数領域チャネル21、21’、28の係数によって表される1次アンビソニックス信号10のアンビソニックス係数を、少なくとも2次のエンハンスメント高次アンビソニックス信号25のうちの選択された周波数成分25aと結合し、少なくとも2次のアンビソニックス信号の周波数領域表現であって、1次アンビソニックス入力信号10と比較して指向性が高められている信号37が得られるステップs61と、
合成フィルタバンクSFB’において、得られた信号37にフィルタをかけ、少なくとも2次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られるステップs64と
を有する。
【0035】
図7b)は、結合するステップs6が入力信号10の時間領域係数を使用する実施形態(
図3に示される装置に対応)を示す。それは、
合成フィルタバンクSFBにおいて、符号化されたダイレクトサウンド25のうちの少なくとも2次の選択されたアンビソニックス係数25aにフィルタをかけ、少なくとも2次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現26が得られるステップs62と、
時間領域結合器CB
tにおいて、1次アンビソニックス信号10(又は、実際のHOAフォーマットは適応され得るので、むしろ、1次アンビソニックス信号10のアンビソニックス係数を表す係数)を、少なくとも2次のエンハンスメント高次アンビソニックス信号の時間領域表現26と結合し、1次アンビソニックス信号10と比較して指向性が高められている少なくとも2次のアンビソニックス信号の時間領域表現29が得られるステップs65と
を有する。
【0036】
下記の記載は、アンビソニックスに関する更なる詳細を提供する。アンビソニックス理論では、空間オーディオシーンは、フーリエ−ベッセル級数の係数A
nm(k)によって記述される。ソースがないボリュームについて、観測位置(r,θ,φ)での音圧は、次の式(1)によって、その球座標の関数として記述され得る(半径r、傾斜Θ、方位角Φ及び空間周波数k=ω/c=2πf/c):
【0037】
【数1】
上記の式において、数A
nm(k)はアンビソニックス係数であり、j
n(kr)は、半径依存性を記述する第1種の球ベッセル関数であり、Y
nm(θ,φ)は、実際に実数値を有する球面調和関数(Spherical Harmonics)(SH)である。それらは角度依存性に関与する。nはアンビソニックス次数インデックスであり、mは等級である。小さいkrについてしか有効数字を有さないベッセル関数の性質により、総和級数は、十分な精度を伴って、ある次数n=Nで切り捨てられ得る。理論上完ぺきな再構成のために、N→∞である。更なる情報及び詳細は[11]、[6]、[7]、[3]、[13]において見直されてよい。アンビソニックス係数A
nmはアンビソニックス信号を形成する。それらは、音圧の物理単位(1Pa)を有し、時間により変化する。信号A
00は、アンビソニック記録のモノバージョンと見なされ得る。アンビソニックス係数の実際の値は、SHの定義、より正確には、その正規化スキームによって、決定される。式(1)における係数A
nmの数は、2D表現についてはO=2N+1によって、そして、3D表現についてはO=(N+1)
2によって、与えられる。
【0038】
実際に、アンビソニックスは、実数値の球面調和関数(SH)を使用する。符号化及び復号化の動作に作用するSHのための正規化スキームの種々の定式化及び種類、すなわち、アンビソニックス係数の値が存在するので、定義は以下で与えられる。符号なし表現による実数値SHの定式化は、ここでは次の式(2)の通りである:
【0040】
[外1]
は、Y
nmとY
n/m/*との間の直交関係に対応する正規化因子である(表1を参照)。すなわち、次の式の通りである;
【0041】
【数3】
上記の式において、クロネッカのデルタδ
aaは、a=a’については1に等しく、それ以外は0である。下記では、直交正規化スキームが使用される。
【0042】
P
n,|m|は、傾斜cos(θ)の依存性を記述する、関連するルジャンドル関数である。
【0043】
[外2]
P
n,|m|は、式(3)によってロドリーグの公式を用いて表現され得る(すなわち、ここで提示される全ての定義は、実数値変数の補償があいまいさを生じさせ得るコンドン−ショートレー位相の使用なしで済ませる。)。しかし、実装される計算のためのより有効な方法が存在する:
【0044】
【数4】
方位角部分φに対する依存性は、次の式(4)によって与えられる:
【0045】
【数5】
表1は、アンビソニックス内で使用される一般的な正規化スキームを示す。δ
0,mは、m=0について1の値をとり、それ以外は0をとる。命名規則SN3D、N3Dは、[3]から採用される:
【0046】
【表1】
SoundField(登録商標)のようなマイクロホンによって記録された信号は、Bフォーマット信号を用いて表される。その技術は[2]において記載されている。4つのBフォーマット信号が存在する。W信号は、無指向性マイクロホンによって記録された音圧に比例する信号を搬送するが、1/√2という因数によってスケーリングされる。X、Y、Z信号は、3つのデカルト方向における圧力勾配に比例する信号を搬送する。4つのBフォーマット係数W、X、Y、Zは、W=A
00N3D/√2、X=A
11N3D/√3、Y=A
1-1N3D/√3、Z=A
10N3D/√3によるN3D正規化スキーム[3],[4]を用いる1次HOA係数に、及びW=A
00SN3D/√2、X=A
11SN3D、Y=A
1-1SN3D、Z=A
10SN3DによるSN3D正規化を用いるHOA係数に関係がある。更に、Bフォーマットは、因数i
nが係数表現内で除外される平面波符号化モデルを想定する。
【0047】
HOA信号は、平面波によっても表現され得る。平面波の音圧は、球面調和関数のためのN3D正規化スキームを用いて、[11]によって与えられている:
【0048】
【数6】
正確には、A
nmは、次のようになる:
【0049】
【数7】
上記の式で、P
S0(f)は、周波数fにおける座標系の原点での音圧である。Θ(f)
s、φ(f)
sは、ソースに対する方向(DoA)(傾斜、方位角)であり、*は複素共役を示す。Bフォーマット及びSoundField(登録商標)マイクロホンシステムを含む多数のアンビソニックスフォーマット及びシステムは、平面波符号化及び復号化モデルを想定し、因数i
nは除外される。その場合に、A
nmは、次のようになる:
【0050】
【数8】
上述されたように、
図1b)は、音場解析ブロックSFA
Dのビルディングブロックを表す。それは、実際には、一般化された時間−周波数の検討が使用され、それにより任意の時間窓が使用可能となる点を除いて、本発明の音場解析ブロックSFAと同じようである。すなわち、音場解析は、種々の時間正規化へと簡略化される。この一般化は、任意の複素フィルタバンクの使用を可能にする。ここで考えられている他の一般化は、アクティブな音場が平面波の重ね合わせから組み立てられる点である。全ての音場パラメータは周波数の関数であり、それらは、フィルタバンクバンドkの夫々の中心周波数について計算され得る。kからのf
kの依存性は、下記の詳細な説明では省略される。
【0051】
アクティブインテンシティが次に記載される。
【0052】
アクティブインテンシティI
a(f)は、次の式(8)に従って定義される([5]を参照):
【0053】
【数9】
アクティブインテンシティの単位はW/m
2=N/(ms)である。P(f)
*は、共役複素音圧(パスカル=1N/m
2)であり、U(f)は、3つのデカルト次元におけるm/sでの粒子速度ベクトルである。Re{.}は実数部分を表す。アクティブインテンシティの他の定式化は、[11]において見られるように、1/2の更なる因数を使用する。それは、次いで、式(13)のための更なる因数をもたらす。Bフォーマット信号Wは、音圧信号P(f)に比例し、信号X(f)=[X(f),Y(f),Z(f)]
Tは、音速Uに比例する。
【0054】
【数10】
上記の式において、e
iはデカルト座標軸の単位ベクトルであり、伝播する平面波の単位ベクトル方向のe
uである。Z
0は特性インピーダンスである(空気の密度と音速との積Z
0=ρ
0×c)。その場合に、アクティブインテンシティI
aは、次の(10)のようにBフォーマットを用いて表現され得る([5]を参照):
【0055】
【数11】
上記の式において、因数√2は、Bフォーマット内のW係数のスケーリングを表し、*は複素共役を表す。I
a(f)、X(f)は、デカルト座標における周波数のベクトル関数である。
【0057】
アクティブインテンシティの単位ベクトルe
I(f)=[e
Ix(f),e
Iy(f),e
Iz(f)]
Tは、e
I=I
a(f)/||I
a(f)||によって与えられる。DoAの方位角は、次の式(11)によってラジアンで与えられる:
【0058】
【数12】
上記の式において、I
ai(f)は、I
a(f)のデカルト成分であり、atan2は4象限逆正接である。仰角Θ(f)は、次の式(12)によって計算され得る:
【0060】
音場のエネルギ密度、すなわち、単位ボリュームごとの音響エネルギ(物理単位N/m
2=(kg・m/s
2)/m
2)は、[5]によって記載される:
【0061】
【数14】
上記の式において、||U||は行列ノルム2を記述し、ベクトルのユークリッド長さである。
【0062】
アンビソニックス信号について、1次/Bフォーマットは、次のようになる:
【0063】
【数15】
下記で、表記法における周波数の依存性は、より良い読みやすさのために断念される。
【0064】
拡散推定Ψは、[5]のように定義される:
【0066】
[外3]
は、IIRフィルタによる1次又は窓掛け平均によって実現される時間平均化を用いて実装され得る期待値演算子である。Ψは、音場の非アクティブ部分の寄与を表す。1の値は、完全に拡散した音場(運動エネルギの寄与なし)を記述し、0の値は、完全にアクティブな音場を記述する。Bフォーマット信号を用いると、拡散は、次の式(16)のように表現され得る:
【0067】
【数17】
拡散推定の代替の実現[1]は、次の式(17)によって与えられる:
【0068】
【数18】
平均フィルタリングが次に記載される。
【0069】
拡散推定及びDoA方向は、時間平均化を必要とする。期待値
【0070】
[外4]
を近似するよう、平滑化フィルタ出力は、[12]によって定義される:
y(n,k)=(1-g)x(n,k)+gy(n-1,k) (18)
ここで、x(n,k)は入力であり、y(n-1,k)は、フィルタバンドkにおいて出力される遅延されたサンプル(変換ブロック)である。フィルタパラメータgはg=exp(-1/f
cτ)によって与えられる。ここで、f
cは、サブサンプリングフィルタバンクのサンプルレートである。50%だけ重なり合った窓を持つブロックベースのフィルタバンクについて、f
cはf
c=f
s/N
hopになる。ホップサイズN
hopは、この50%オーバラップの場合について、窓サイズの半分である。時定数τは平均化の特性を決定づける。小さい値は、入力信号の高速な変化が追随される必要がある場合に適切であり、大きい値は、長期平均に適している。
【0071】
代替の実現手法が存在し、例えば([10]を参照):
y(k,n)=ax(n,k)+(1-a)y(k,n-1) (19)
ここで、a=N
hop/τf
sであり、τ≧N
hop/f
s。なお、τは、fsに対する絶対的な関係において見られる。
【0072】
ブロック依存のスイッチパラメータcc及び2つの時定数τ
max、τ
minを有する適応フィルタは、次の時定数(20)のために使用され得る:
【0073】
【数19】
ほとんどの場合において、如何なる1次アンビソニックス記録もBフォーマット信号である。本発明に従う方法は、1次係数情報を保ちながら、既存の1次アンビソニックス記録のための高次アンビソニックス係数を導出する。到来方向(DoA)解析は、周波数にわたって最も強い方向を導出するために実行される。Wチャネルは、それらの信号の全てのモノミックスに相当する。Wチャネルは、拡散部分が周波数にわたって除去されるようにフィルタをかけられる。よって、フィルタをかけられたWチャネルは、周波数にわたるダイレクトサウンドの推定になる。DoA方向は、3DのためにはO=(
Norder+1)
2個の、2D実現のためにはO=(2N
order+1)個の係数を有して、予め割り当てられたアンビソニックス次数N
order>1の新しいHOA信号を形成するように、フィルタをかけられたWチャネル信号のアンビソニックス符号化のために使用される。Bフォーマット記録(すなわち、1次信号)の4つの係数は、必要ならば新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットであり、出力信号を形成するように新しい係数と結合される。結果として得られる出力HOA信号係数C
nmは、0及び1次係数の変換されたBフォーマット係数と、より高次の成分の新しいHOA係数とから成る。
【0074】
処理又は処理の部分は、分析フィルタバンクのフィルタバンク周波数領域において適用される。
【0075】
一実施形態は、FFTベースの分析フィルタバンクを使用する。50%が重なり合ったサイン窓は960個のサンプルに、又は代替的に、例えば640若しくは512個のサンプルに適用される。左右へのゼロパディングは、1024個のサンプルFFT長を得るために使用される。逆フィルタバンク(合成フィルタバンク)は、480(320,256)個のサンプルをリストアするために窓掛け及びオーバーレイ加算を使用する。代替的に使用可能なフィルタバンクは、人体感覚により良く適合するフィルタバンド幅を使用するものであって、ISO/IEC 23003/2007/2010(MPEG Surround,SAOC)において記載されている。FFTフィルタバンクを使用する場合に、2以上のフィルタバンドは、特に高周波のために、人体感覚により良く適応するように結合され得る。一実施形態において、バークの約4分の1のバンド幅が1つのFFTフィルタバンドの細かさにより使用され、結合されたバンドにわたるアクティブインテンシティ及びエネルギの平均値が使用される。様々な実施形態において、音場パラメータ“アクティブインテンシティ”及び/又は“エネルギ密度”は、DoA角度及び拡散推定を導出するために使用される。
【0076】
一実施形態において、DoA方向及び拡散推定のための式(18)に従う特別の平滑化フィルタが使用される。その場合に、拡散推定の平滑化は、次のように実現される(周波数バンド依存性は、明りょうさのために省略される。)。
【0078】
[外5]
によって与えられる。エニュメレータ
【0079】
[外6]
の平滑化フィルタは、それらの成分のために同じ時定数を用いて1次IIRフィルタによって実現される。更に、フィルタは、小さいτ
min及び大きい時定数τ
maxによって特徴付けられる2つの係数を有する。時定数間の切り替えは、||I
a||の変化及び付加的な状態カウンタccに応じて実行される。このとき、I
aはフィルタ入力であり、
【0080】
[外7]
は前の動作のフィルタ出力である。
【0081】
[外8]
大きい時定数τ
maxを有する係数が使用される。
【0082】
[外9]
小さい時定数τ
minによって特徴付けられる係数が使用され、ccは、1よりも大きいcc
maxにセットされる(例えば、cc
max=10)。
【0083】
[外10]
時定数τ=τ
min+((cc
max-cc)/cc
max)(τ
max-τ
min)が使用され、ccは、それがゼロにならない限り以後デクリメントされる(ブロック処理)。
【0084】
ε
1は正の定数である。エネルギEの平滑化は、同じ適応フィルタ構造だが別個のフィルタを用いて、同じように実行される。それはτ
max、τ
min及び自己cc状態カウンタによって特徴付けられる。このとき、|E(n)|の変化は、大きい、小さい及び補間された時定数の間を切り替えるために使用される。
【0085】
φ(f)及びΘ(f)は、2つの複素信号を生成することによって、アクティブインテンシティe
I(f)=I
a(f)/||I
a(f)||の単位ベクトルから導出される:
a
1=e
Ix+ie
Iy (21)
及び
a
2=√(e
Ix2+e
Iy2)+ie
Iz (22)
上記の式において、i=√(-1)及びe
Ix、e
Iy、e
Izは、アクティブインテンシティの単位ベクトルのデカルト成分である。信号a
1、a
2は、式(18)に従ってサブバンドごとに適応IIR1次フィルタを用いてフィルタをかけられる:
b
1(n)=(1-g(Ψ))a
1(n)+g(Ψ)b
1(n-1) (23)
そして、b
2(n)については、入力a
2(n)と、拡散Ψに依存する同じフィルタパラメータg(Ψ)とを用いて同様である。依存性は線形であってよい:
g(Ψ)=(g
max-g
min)Ψ+g
min
g
minはゼロに近く、g
max≦1である。
【0086】
指向性信号φ,Θは、次のようにフィルタ出力から計算され得る:
φ=atan2(Im{b
1}/Re{b
1}) (24)
Θ=atan2(Re{b
2}/Im{b
2}) (25)
図2〜5を参照して上述された実施形態は、Bフォーマットの場合におけるW、X、Y、Zによって表される4つの1次係数のために4つの分析フィルタを使用する。DoA及び拡散推定の解析は、中心周波数f
kを有するK個の周波数バンドにおける上記の適応平滑化フィルタを用いて実行される。W係数信号は、Bフォーマットの場合には√(2(1-Ψ(f
k)))を、他の正規化された1次信号の場合には√(1-Ψ(f
k))を各周波数バンドにおいて乗じられて、信号Sを実現する。DoA方向は、3DのためにはO=(
Norder+1)
2個の、2D実現のためにはO=(2N
order+1)個の係数を有して、予め割り当てられたアンビソニックス次数N
order>1の新しいHOA信号を形成するように、周波数バンドにおいて信号Sをアンビソニックス符号化するために使用される。O個の新しいアンビソニックス信号はB
nmによって表される。一実施形態において、HOA符号器は、因数i
nを除外する直交正規化球面調和関数又はN3dを使用する。平面波符号化スキームが使用される:
【0087】
【数20】
上記の式において、B(f
k)は、O個のアンビソニックス係数B(f
k)=[B
00(f
k),B
1-1(fk),B
10(f
k),B
11(f
k),B
2-2(f
k),..]
Tを保持する、中間周波数f
kを持った夫々の周波数バンドkのためのベクトルである。
【0088】
[外11]
は、指向性の球面調和関数を保持する、サイズOx1のモードベクトルである:
【0089】
【数21】
Bフォーマット入力信号(例えば、記録)の4つの係数は、HOA符号器HOAeによって生成される新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットである。これは、時々アンビソニックス係数内に含まれる因数i
nの任意的な考慮とともに球面調和関数の種々の正規化への適応と、2D球面調和関数に適応するための3Dから2Dへの変換又はその逆の変換とを暗示することができる。変換され且つソートされ直されたBフォーマット係数は、関係:[W,Y,Z,X]→[A
00,A
1-1,A
10,A
11]及び2Dについては:[W,Y,X]→[A
00,A
1-1,A
11]を用いてA
00,A
1-1,A
10,A
11と表される。
【0090】
結果として得られるHOA信号C
nm29は、変換されたBフォーマット信号と、0及び1次係数が除去された新しいHOA係数B
nmとから成る。すなわち、C
nm:[A
00,A
1-1,A
10,A
11,B
2-2,B
2-1,B
20,B
21,B
22,…’]。結果として得られるHOA信号C
nm29は、3D実現のためのO=(N
order+1)
2個の成分、又はC
nm:[A
00,A
1-1,
A
11,B
2-2,B
22,…]による2D実現のためのO=(2N
order+1)個の成分を有する。このプロシージャは、アンビソニックス信号のための次数アップミックスと見なされ得る。
【0091】
図3に関連して上述された実施形態は、原の係数を時間領域において新しい係数と結合し、O-4個の合成フィルタ(文字“O”は非ゼロを意図される点を留意されたい。)及び付加的な遅延を用いてフィルタバンク遅延を補償する。
図4及び5に示される実施形態は、フィルタバンク領域において結合し、O(非ゼロ)個の合成フィルタを使用する。
【0092】
本発明に従う次数アップミックスの後、新しい信号C
nmは、幾つかの目的、例えば、信号D
nmを形成するようにN
orderの他のアンビソニックスコンテンツとミキシングすること、N
orderのアンビソニックス復号器を用いてL個のスピーカによる再生のためにC
nm又はD
nmを復号すること、データベースにおいてC
nm又はD
nmを伝送及び/又は記憶すること、などのために使用され得る。幾つかの場合、例えば、伝送及び/又は記憶する場合に、メタデータが、アンビソニックス信号のオリジナル及び実行された処理を示すために使用され得る。
【0093】
本発明は、あらゆる低次のアンビソニックス信号の指向性も夫々の高次アンビソニックス信号へと高めるのに適しており、一方、ここで記載される例となる実施形態は、例えば2次信号へと高められるための1次(Bフォーマット)信号しか使用しない。しかし、同じ原理は、所与の次数のアンビソニックス信号をあらゆるより高い次数へも(例えば、2次信号を3次信号へ、1次信号を4次信号へ、など)高めるように適用され得る。一般的に、4次よりも高い次数の係数を生成することは意味をなさない。
【0094】
本発明の1つの利点は、それが、Bフォーマット信号(例えば、1次マイクロホン記録)をより高次のコンテンツとミキシングして、その混合を復号する場合に空間再現の正確さを高めることを可能にする点である。
【0095】
記載されている装置及び方法における、開示されているデバイスの形態及び詳細における、並びにそれらの動作における様々な削除、置換及び変更は、当業者によってなされ得るが、同じ結果を達成するように略同じように略同じ機能を実行するそれらの要素の全ての組み合わせが本発明の適用範囲内にあることは、明示的に意図される。本発明は、例示として記載されているのであり、明細書並びに(必要に応じて)特許請求の範囲及び図面において開示されている各特徴は、独立して、又はあらゆる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。特許請求の範囲に現れる参照符号は、単なる例示であって、特許請求の範囲の適用範囲を制限するものではない。