(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【0005】
1次よりも高いHOA表現の圧縮を取り扱う既存の方法は殆ど存在しない。E.Hellerud、I.Burnett、A.Solvang、およびU.P.Svenssonによって探究されている最も直接的なアプローチ「Encoding Higher Order Ambisonics with AAC(AACを用いた高次アンビソニックスの符号化)」第124回AESコンベンション、アムステルダム、2008年は、知覚符号化アルゴリズムである、AAC(Advanced Audio Coding)を用いて個々のHOA係数列の直接的な符号化を行うものである。しかしながら、この手法に伴う固有の問題は、全く聴かれることのない信号の知覚符号化である。再構築された再生信号は、通常、HOA係数列の加重和によって得られ、特定のラウドスピーカの設定で圧縮解除されたHOA表現がレンダリングされる場合には、知覚符号化ノイズをマスク除去する可能性が高い。知覚符号化ノイズのマスク除去の抱える主要な問題は、個々のHOA係数列間の高い相互相関である。個々のHOA係数列における符号化ノイズ信号は、互いに相関していないため、知覚符号化ノイズの構造的な重畳が発生することがあり、それと同時に、その重畳でノイズのないHOA係数列がキャンセルされてしまう。別の問題は、これらの相互相関が知覚符号化器の効率の低下につながる点である。
【0006】
双方の影響の程度を最小限にするために、欧州特許出願第2469742号(EP2469742A2)では、HOA表現を知覚符号化の前に離散空間領域において、等価な表現に変換することが提案されている。形式的には、離散空間領域は、何らかの離散方向でサンプリングされる、複素調和平面波振幅の空間密度と等価な時間領域である。したがって、離散空間領域は、“Ο”個の従来の時間領域信号によって表現される。この信号は、サンプリング方向から到来する一般的な平面波として解釈することができ、空間領域変換に対して想定されるものと厳密に同じ方向にラウドスピーカが位置しているのであれば、ラウドスピーカ信号に対応するであろう。
【0007】
離散空間領域への変換により、個々の空間領域信号間の相互相関が低減するが、これらの相互相関は、完全には除去されない。比較的に高い相互相関の例は、空間領域信号によって包含される複数の隣接した方向の間を方向とする方向性信号である。
【0008】
双方のアプローチの主な欠点は、知覚符号化される信号の数が(N+1)
2であり、圧縮されたHOA表現のデータ・レートがアンビソニックスの次数Nの二乗で増加することである。
【0009】
知覚符号化される信号の数を減少させるために、欧州特許出願公開第2665208号は、HOA表現を所与の最大数の支配的な方向性信号と残差のアンビエント成分とに分解することを提案している。知覚符号化されるべき信号の数の減少は、残差のアンビエント成分の次数を減少させることによって成し遂げることができる。この手法の背景にある理論的根拠は、支配的な方向性信号に関して高い空間解像度を維持する一方で、より低い次数のHOA表現によって十分な精度で残差を表現することにある。
【0010】
このアプローチは、音場に関する仮定が満たされる限り、すなわち、音場が少ない数の支配的な方向性信号(これは、完全な次数Nで符号化された一般的な平面波関数を表現するものである。)と、方向性を有しない残差のアンビエント成分とからなるという仮定が満たされる限り、大変良好に機能する。しかしながら、分解の後、残差のアンビエント成分が依然として幾らかの支配的な方向性成分を含んでいる場合には、低次元化によって、分解の後のレンダリングの際に顕著に知覚される誤りが生じる。その仮定が満たされない場合のHOA表現の一般的な例は、Nよりも低い次数で符号化される一般的な平面波である。このようなNよりも低い次数の一般的な平面波は、音源の範囲が広がりを有するよう感じられるようにする芸術的な創作の結果として生ずることがあり、球形マイクロフォンによるHOA音場表現の収録に伴って生ずることもある。双方の例において、音場は、多数の相関性の高い空間領域信号によって表現される(説明については、高次アンビソニックスの空間解像度の項目を参照されたい。)。
【0011】
本発明によって解決される課題は、欧州特許出願公開第2665208号に記載された処理の結果として生ずる不都合を解消することによって、他の従来技術の上述した不都合を回避することにある。この課題は、請求項1および3に開示されている方法によって解決される。これらの方法を利用する対応する装置は、請求項2および4に開示されている。
【0012】
本発明は、欧州特許出願公開第2665208号に記載されたHOA音場表現圧縮処理を改良する。まず、欧州特許出願公開第2665208号と同様に、HOA表現が支配的な音源の存在に対して分析され、その方向が推定される。支配的な音源の方向の情報を用いて、HOA表現は一般的な平面波を表現する複数の支配的な方向性信号と残差の成分とに分解される。しかしながら、この残差のHOA成分の次数を直ちに減少させる代わりに、残差のHOA成分を表現する均一なサンプリング方向における一般的な平面波関数を取得するために、この残差のHOA成分が離散空間領域へ変換される。この後、これらの平面波関数が支配的な方向性信号から予測される。この処理を行う理由は、残差のHOA成分の部分が支配的な方向性信号と高い相関性を有している場合があるからである。
【0013】
その予測は、少量の副情報のみを生み出すといった単純なものとすることができる。最も単純な場合では、予測は適切なスケーリングおよび遅延からなる。最終的に、予測誤りは再びHOA領域に変換され、低次元化が行われる残差のアンビエントHOA成分とされる。
【0014】
有利には、残差のHOA成分から予測可能な信号を差し引く効果は、その全体の次数および支配的な方向性信号の残量を減少させることであり、このようにして、低次元化の結果として生じる分解誤りを低減することにある。
【0015】
原理的には、本発明の圧縮方法は、音場に対するHOAと称する高次アンビソニックス表現を圧縮するのに適している。この方法は、
−HOA係数の現在の時間フレームから支配的な音源方向を推定するステップと、
−上記HOA係数および上記支配的な音源方向に依存して、上記HOA表現を時間領域内の支配的な方向性信号と残差のHOA成分とに分解するステップであって、上記残差のHOA成分を表現する均一なサンプリング方向において平面波関数を取得するために、上記残差のHOA成分が離散空間領域に変換され、上記平面波関数が上記支配的な方向性信号から予測されることによって、上記予測を記述するパラメータがもたらされ、対応する予測誤りが上記HOAの領域に再び変換される、上記分解するステップと、
−上記残差のHOA成分の現在の次数をより低い次数に低減するステップであって、結果として、低次元化された残差のHOA成分が得られる、上記低減するステップと、
−上記低次元化された残差のHOA成分を相関除去して対応する残差のHOA成分時間領域信号を取得するステップと、
−圧縮された支配的な方向性信号および圧縮された残差の成分信号を供給するように、上記支配的な方向性信号および上記残差のHOA成分時間領域信号を知覚符号化するステップと、を含む。
【0016】
原理的には、本発明の圧縮装置は、音場に対するHOAと称する高次アンビソニックス表現の圧縮に適している。この装置は、
−HOA係数の現在の時間フレームから支配的な音源方向を推定するように構成された手段と、
−上記HOA係数および上記支配的な音源方向に依存して、上記HOA表現を時間領域内の支配的な方向性信号と残差のHOA成分とに分解するように構成された手段であって、上記残差のHOA成分を表現する均一なサンプリング方向で平面波関数を取得するために、上記残差のHOA成分が離散空間領域に変換され、上記平面波関数が上記支配的な方向性信号から予測されることによって、上記予測を記述するパラメータが供給され、対応する予測誤りが上記HOAの領域に再び変換される、上記手段と、
−上記残差のHOA成分の現在の次数をより低い次数に低減するように構成された手段であって、結果として、低次元化された残差のHOA成分が生成される、上記手段と、
−上記低次元化された残差のHOA成分を相関除去して、対応する残差のHOA成分時間領域信号を取得するように構成された手段と、
−圧縮された支配的な方向性信号および圧縮された残差の成分信号を供給するように、上記支配的な方向性信号および上記残差のHOA成分時間領域信号を知覚符号化するように構成された手段と、を含む。
【0017】
原理的には、本発明の圧縮解除方法は、上述した圧縮方法に従って圧縮された高次アンビソニックス表現の圧縮解除に適している。この方法は、
−圧縮解除された支配的な方向性信号および空間領域内の残差のHOA成分を表現する圧縮解除された時間領域信号を供給するように、上記圧縮された支配的な方向性信号および上記圧縮された残差の成分信号を知覚復号するステップと、
−上記圧縮解除された時間領域信号を再相関させて、対応する低次元化された残差のHOA成分を取得するステップと、
−上記低次元化された残差のHOA成分の次数を当初の次数に拡張するステップであって、対応する圧縮解除された残差のHOA成分を供給する、上記拡張するステップと、
−上記圧縮解除された支配的な方向性信号と、上記当初の次数の圧縮解除された残差のHOA成分と、上記推定された支配的な音源方向と、上記予測を記述する上記パラメータとを使用して、HOA係数の対応する圧縮解除され、再合成されたフレームを合成するステップと、を含む。
【0018】
原理的には、本発明の圧縮解除装置は、上述した圧縮方法に従って圧縮された高次アンビソニックス表現の圧縮解除に適している。この装置は、
−圧縮解除された支配的な方向性信号および空間領域内の残差のHOA成分を表現する圧縮解除された時間領域信号を供給するように、上記圧縮された支配的な方向性信号および上記圧縮された残差の成分信号を知覚復号するように構成された手段と、
−上記圧縮解除された時間領域信号を再相関させるように構成された手段であって、対応する低次元化された残差のHOA成分を取得する、上記手段と、
−上記低次元化された残差のHOA成分の次数を当初の次数に拡張するように構成された手段であって、対応する圧縮解除された残差のHOA成分を供給する、上記手段と、
−上記圧縮解除された支配的な方向性信号と、上記当初の次数の圧縮解除された残差のHOA成分と、上記推定された支配的な音源方向と、上記予測を記述する上記パラメータとを使用することによってHOA係数の対応する圧縮解除され、再合成されたフレームを合成するように構成された手段と、を含む。
【0019】
本発明の有利な追加的な実施形態は、各々の従属請求項に開示されている。
【0020】
本発明の例示的な実施形態は、添付図面を参照して説明される。
【発明を実施するための形態】
【0022】
圧縮処理
本発明に係る圧縮処理は、
図1aおよび
図1bの各々に例示されたステップである2つの連続するステップを含む。個々の信号の正確な定義は、HOA分解および再合成の詳細な説明の項目に記載されている。長さBのHOA係数列の重複しない入力フレームD(k)を用いた圧縮のためのフレーム単位の処理が使用される。ここで、kは、フレームのインデックスを表す。フレームは、下記の式(1)に特定されたHOA係数列に関して規定される。
【数1】
ここで、T
sは、サンプリング期間を表す。
【0023】
図1aにおいて、HOA係数列のフレームD(k)は、支配的な音源方向推定ステップまたはステージ11に入力され、このステップ11で、支配的な方向性信号の存在に対してHOA表現が分析され、その方向が推定される。その方向の推定が行われ、例えば、欧州特許出願公開第2665208号に記載された処理によって行うことができる。その推定された方向は、
【数2】
によって表される。ここで、添字Dは方向推定値の個数を表す。方向推定値は行列
【数3】
に、下記のように配列されるものと仮定される。
【数4】
【0024】
暗黙的に、方向推定値は、これらを従前のフレームからの方向推定値に割り当てることによって適切に順序付けられるものと仮定される。したがって、個々の方向推定値の時間的な列は、支配的な音源の方向軌跡を記述するものと仮定される。特に、d番目の支配的な音源がアクティブでないと想定される場合には、
【数5】
に無効値を割り当てることによってこれを示すことができる。そして、
【数6】
において推定された方向を利用して、HOA表現は、分解ステップまたはステージ12に
おいて最大の数Dの支配的な方向性信号X
DIR(k−1)と、支配的な方向性信号からの残差のHOA成分の空間領域信号の予測を記述する幾らかのパラメータζ(k−1)と、予測誤りを表すアンビエントHOA成分D
A(k−2)とに分解される。HOA分解の項目でこの分解についての詳細な説明を行う。
【0025】
図1bにおいて、方向性信号X
DIR(k−1)の知覚符号化、および残差のアンビエントHOA成分D
A(k−2)の知覚符号化が示されている。方向性信号X
DIR(k−1)は、従来の時間領域信号であり、この信号は、任意の既存の知覚圧縮技術を使用して個々に圧縮することができる。アンビエントHOA領域成分D
A(k−2)の圧縮は、2つの連続したステップまたはステージで実行することができる。低次元化ステップまたはステージ13において、アンビソニックス次数N
REDの低減が行われる。ここで、例えばN
RED=1である。結果として、アンビエントHOA成分D
A,RED(k−2)が得られる。このような低次元化は、D
A(k−2)において、N
REDHOA係数のみを保持し、他の係数を破棄することによって行われる。復号器側では、以下に説明するように、省略された値に対して対応する零値が付加される。
【0026】
なお、欧州特許出願公開第2665208号のアプローチと比較して、低減された次数N
REDは、一般的には、小さくなるように選択されることがある。この理由は、全体の次数、さらに、残差のアンビエントHOA成分の方向性の残量が小さくなるからである。したがって、低次元化により、欧州特許出願公開第2665208号の場合と比較して誤りが小さくなる。
【0027】
以下の相関除去ステップまたはステージ14において、低次元化されたアンビエントHOA成分D
A,RED(k−2)を表現するHOA係数列は相関除去され、時間領域信号W
A,RED(k−2)が得られる。この時間領域信号は、任意の知覚圧縮技術によって動作する(バンクの)パラレル知覚符号化器またはコンプレッサ15に入力される。この相関除去は、圧縮解除した後にHOA表現をレンダリングする際に知覚符号化ノイズのマスク除去を回避するために行われる(説明については、欧州特許出願第12305860号参照)。近似的な相関除去は、欧州特許出願公開第2469742号に記載されているように、球面調和変換を適用してD
A,RED(k−2)を空間領域内のΟ
RED等価信号に変換することによって成し遂げることができる。
【0028】
代替的には、欧州特許出願第12305861号において提案されている適応的球面調和変換を使用できる。ここでは、最大限の相関除去効果を得るためにサンプリング方向のグリッドを回転させる。別の代替的な相関解除技術は、欧州特許出願第12305860号に記載されているカルーネンレーベ変換(KLT)である。なお、これらの最後の2つのタイプの相関除去のために、HOA圧縮解除ステージでの相関除去の逆処理を可能にするべく、α(k−2)で表される何らかの副情報が供給される。
【0029】
一実施形態においては、符号化効率を改善するために、全ての時間領域信号X
DIR(k−1)およびW
A,RED(k−2)の知覚圧縮が共に行われる。
【0030】
知覚符号化の出力は、圧縮された方向性信号
【数7】
および圧縮されたアンビエント時間領域信号
【数8】
である。
【0031】
圧縮解除処理
圧縮解除処理は
図2aおよび
図2bに示されている。圧縮処理の場合と同様に、圧縮解除処理は2つの連続したステップからなる。
図2aにおいて、方向性信号
【数9】
および残差のアンビエントHOA成分を表現する時間領域信号
【数10】
の知覚圧縮解除が、知覚復号または知覚圧縮解除のステップまたはステージ21において行われる。結果として得られる知覚圧縮解除された時間領域信号
【数11】
は次数N
REDの残差の成分のHOA表現
【数12】
を供給するために、再相関ステップまたはステージ22において再相関される。必要に応じて、この再相関は、ステップ/ステージ14に記載された2つの代替的な処理に対して記載されたのとは逆の手順で実行することができ、使用された相関解除方法に依存して送信あるいは格納されたパラメータα(k−2)が使用される。その後、次数拡張によって、次数拡張ステップまたはステージ23において、
【数13】
から、次数Nの適切なHOA表現
【数14】
が推定される。次数拡張は、対応する「零」値の列を
【数15】
に付加することによって行われ、これにより、より高い次数に関し、HOA係数が零値を有するものと仮定する。
【0032】
図2bにおいて、全てのHOA表現は、圧縮解除された支配的な方向性信号
【数16】
が対応する方向
【数17】
および予測パラメータζ(k−1)とから、さらに、残差のアンビエントHOA成分
【数18】
から、合成ステップまたはステージ24において再合成される。結果として、HOA係数の圧縮解除され再合成されたフレーム
【数19】
となる。
【0033】
符号化効率を改善するために、全ての時間領域信号X
DIR(k−1)およびW
A,RED(k−2)の知覚圧縮が共に行われた場合には、圧縮された方向性信号
【数20】
および圧縮された時間領域信号
【数21】
の知覚圧縮解除もまた、対応する方法で共に行われる。
【0034】
再合成の詳細な説明は、HOA再合成の項目に存在する。
【0035】
HOA分解
HOA分解のために実行される処理を例示するブロック図が
図3に与えられている。この処理を以下のように要約する。最初に、平滑化された支配的な方向性信号X
DIR(k−1)は計算され、知覚圧縮のために出力される。次に、支配的な方向性信号のHOA表現D
DIR(k−1)と当初のHOA表現D(k−1)との間の残差は、“Ο”個の数の方向性信号
【数22】
によって表現される。これは、均一に分布した方向からの一般的な平面波と考えることができる。これらの方向性信号は、支配的な方向性信号X
DIR(k−1)から予測される。ここで、予測パラメータζ(k−1)が出力される。最終的に、当初のHOA表現D(k−2)と支配的な方向性信号のHOA表現D
DIR(k−1)との間の残差D
A(k−2)が均一に分布した方向からの予測された方向性信号のHOA表現
【数23】
と共に計算され、出力される。
【0036】
詳細について述べる前に、連続するフレームの間の方向の変化が合成の間の全ての計算された信号に不連続を生じさせることがある点について述べる。したがって、まず、2Bの長さを有する重複するフレームの各々の信号の瞬時推定値が計算される。第2に、連続する重複するフレームの結果が適切な窓関数を使用して平滑化される。しかしながら、各平滑化は、1フレーム分の待ち時間を伴う。
【0037】
瞬時支配的な方向性信号の計算
HOA係数列の現在のフレームD(k)に対する
【数24】
内の推定された音源方向からの、ステップまたはステージ30での瞬時支配的な方向信号の計算は、M.A.Poletti著、“Three−Dimensional Surround Sound Systems Based on Spehrical Harmonics(球面調和関数に基づく3次元サラウンド・サウンド・システム)”、アメリカ音響学会誌、53(11)、1004〜1025頁、2005年、に記載されたモード・マッチングに基づいている。特に、所与のHOA信号の最も良い近似となるHOA表現の方向性信号がサーチされる。
【0038】
さらに、一般性を失うことなく、下記の式に従って、傾斜角θ
DOM,d(k)∈[0,π]および方位角φ
DOM,d(k)∈[0,2π](
図5に示す内容を参照されたい。)のベクトルによって、アクティブな支配的な音源の各方向の推定値
【数25】
を明確に特定できるものと仮定する。
【数26】
【0039】
まず、アクティブ音源の方向推定値に基づくモード行列は、下記の式に従って計算され、
【数27】
ここで、
【数28】
式(4)において、D
ACT(k)は、k番目のフレームに対するアクティブな方向の数を表しており、d
ACT,j(k),1≦j≦D
ACT(k)は、それらの添え字を示している。また、
【数29】
は、実数値の球面調和関数を示しており、これは、実数値の球面調和関数の定義の項目で定義されている。
【0040】
第2に、行列
【数30】
が下記の式にしたがって計算され、これは、(k−1)番目およびk番目のフレームに対する全ての支配的な方向性信号の瞬時推定値を含む。
【数31】
ここで、
【数32】
この計算は、2つのステップで行うことができる。第1のステップにおいては、アクティブでない方向に対応する列の方向性信号サンプルが零に設定され、すなわち、以下のようになる。
【数33】
ここで、M
ACT(k)は、アクティブな方向の組である。第2のステップにおいて、アクティブな方向に対応する方向性信号サンプルは、まず、これらを下記に従った行列に配列することによって取得できる。
【数34】
この行列は、次に、下記の誤りのユークリッドノルムを最小にするように計算される。
【数35】
この解は、下記の式によって与えられる。
【数36】
【0041】
時間的平滑化
ステップまたはステージ31に関しては、方向性信号
【数37】
についてのみ平滑化を説明する。その理由は、信号の他のタイプの平滑化は、完全に類似の方法で行うことができるからである。式(6)に従った行列
【数38】
にサンプルが含まれる方向性信号の推定値
【数39】
は、適切な窓関数w(l)によって窓を掛けられる。
【数40】
この窓関数は、重複領域においてシフトされたバージョンを用いて(B個のサンプルのシフトがあると仮定する)、合計で「1」となる条件を満たさなければならない。
【数41】
このような窓関数の例は、下記の式によって定義されるハン窓(Hann window)によって与えられる。
【数42】
(k−1)番目のフレームに対する平滑化された方向性信号は、下記の式に従って窓を掛けられた瞬時推定値の適切な重ね合わせによって計算される。
【数43】
(k−1)番目のフレームに対する全ての平滑化された方向性信号のサンプルは、下記の行列X
DIR(k−1)に配列される。
【数44】
ここで、
【数45】
平滑化された支配的な方向性信号x
DIR,d(l)は連続した信号であると想定され、これらの信号は知覚符号化器に順次入力される。
【0042】
平滑化された支配的な方向性信号のHOA表現の計算
X
DIR(k−1)および
【数46】
から、ステップまたはステージ32において、連続的な信号x
DIR,d(l)に依存して、HOA合成のために行われる処理と同様の処理を真似るために、平滑化された支配的な方向性信号のHOA表現が計算される。連続するフレーム間の方向推定値の変化が不連続を生じさせることがあるため、長さ2Bの重複するフレームの瞬時HOA表現が再び計算され、連続して重複するフレームの結果が適切な窓関数を使用することによって平滑化される。よって、HOA表現D
DIR(k−1)は、以下の式によって取得される。
【数47】
ここで、
【数48】
さらに、
【数49】
【0043】
均一なグリッド上の方向性信号によって残差HOA表現を表現すること
D
DIR(k−1)およびD(k−1)(すなわち、フレーム遅延381によって遅延されたD(k))から、均一なグリッド上の方向性信号による残差HOA表現がステップまたはステージ33で計算される。この処理の目的は、残差[D(k−2)D(k−1)]−[D
DIR(k−2)D
DIR(k−1)]を表すために、何らかの固定された、ほぼ均一に分布する方向
【数50】
(グリッド方向とも称する)から到来する方向性信号(すなわち、一般的な平面波関数)を取得することにある。
【0044】
最初に、グリッド方向に関して、モード行列Ξ
GRIDが下式のように計算される。
【数51】
ここで、
【数52】
圧縮処理全体の間、グリッド方向は固定されているためモード行列Ξ
GRIDの計算が必要となるのは一度のみである。
【0045】
各グリッド上の方向性信号は、下記の式によって取得される。
【数53】
【0046】
支配的な方向性信号からの均一なグリッド上の方向性信号の予測
【数54】
およびX
DIR(k−1)から、ステップまたはステージ34で均一なグリッド上の方向性信号が予測される。方向性信号からのグリッド方向
【数55】
から構成される均一なグリッド上の方向性信号の予測は、平滑化の目的で、2つの連続したフレームに基づく、すなわち、(長さ2Bの)グリッド信号
【数56】
の拡張されたフレームは、平滑化された支配的な方向性信号の拡張されたフレームから下記のように予測される。
【数57】
【0047】
最初に、
【数58】
に含まれる各グリッド信号
【数59】
が
【数60】
に含まれる支配的な方向性信号
【数61】
に割り当てられる。この割り当ては、グリッド信号と全ての支配的な方向性信号との間の正規化された相互相関関数の計算に基づくことができる。特に、その支配的な方向性信号はグリッド信号に割り当てられ、これは正規化された相互相関関数の最も高い値をもたらすグリッド。この割り当ての結果は、ο番目のグリッド信号をf
A,k−1(ο)番目の支配的な方向性信号に割り当てる割り当て関数
【数62】
によって定式化することができる。
【0048】
次に、各グリッド信号
【数63】
は、割り当てられた支配的な方向性信号
【数64】
から予測される。予測されたグリッド信号
【数65】
は、割り当てられた支配的な方向性信号
【数66】
からの遅延およびスケーリングによって、以下のように計算することができる。
【数67】
ここで、K
ο(k−1)は、スケーリング係数であり、Δ
ο(k−1)は、サンプル遅延を示している。これらのパラメータは、予測誤りを最小にするように選択される。
【0049】
予測誤りの次数がグリッド信号自体のものよりも大きい場合には、予測が失敗していると想定される。そして、各予測パラメータを任意の無効値に設定することができる。
【0050】
なお、予測を他のタイプにすることも可能である。例えば、全帯域のスケーリング係数を計算するかわりに、知覚指向の周波数帯域に対するスケーリング係数を求めることも合理的である。しかしながら、この処理では、予測が改善するものの、副情報の量が増えてしまう。
【0051】
全ての予測パラメータは、下記のように、パラメータ行列に配列させることができる。
【数68】
全ての予測された信号
【数69】
は、行列
【数70】
に配列されていると仮定される。
【0052】
均一なグリッド上の予測された方向性信号のHOA表現の計算
予測されたグリッド信号のHOA表現は、ステップまたはステージ35において、下記の式に従って
【数71】
から計算される。
【数72】
【0053】
残差のアンビエント音場成分のHOA表現の計算
【数73】
の(ステップ/ステージ36における)時間的平滑化されたバージョンである
【数74】
と、D(k)の2フレーム遅延されたバージョンである(遅延381および383)D(k−2)と、D
DIR(k−1)の1フレーム遅延されたバージョン(遅延382)であるD
DIR(k−2)とから、残差のアンビエント音場成分のHOA表現がステップまたはステージ37において、下記の式によって計算される。
【数75】
【0054】
HOA再合成
図4における個々のステップまたはステージの処理について詳細に説明する前に、概要について述べる。均一に分布した方向に対して方向性信号
【数76】
は、予測パラメータ
【数77】
を使用して、復号された支配的な方向性信号
【数78】
から予測される。次に、支配的な方向性信号のHOA表現
【数79】
と、予測された方向性信号のHOA表現
【数80】
と、残差のアンビエントHOA成分
【数81】
とから、全体のHOA表現
【数82】
が合成される。
【0055】
支配的な方向性信号のHOA表現の計算
【数83】
および
【数84】
は、支配的な方向性信号のHOA表現を求めるために、ステップまたはステージ41に入力される。モード行列
【数85】
および
【数86】
をk番目および(k−1)番目のフレームに対するアクティブな音源の方向推定値に基づいて方向推定値
【数87】
および
【数88】
から計算した後、支配的な方向性信号
【数89】
のHOA表現は、下記のように取得される。
【数90】
ここで、
【数91】
並びに、
【数92】
【0056】
支配的な方向性信号から均一なグリッド上の方向性信号の予測
【数93】
および
【数94】
は、支配的な方向性信号から均一なグリッド上の方向性信号を予測するため
に、ステップまたはステージ43に入力される。均一なグリッド上の予測された方向性信
号の拡張フレームは、下記の式に従って要素
【数95】
から構成される。
【数96】
これは、下記の式によって支配的な方向性信号から予測される。
【数97】
【0057】
均一なグリッド上の予測された方向性信号のHOA表現の計算
均一なグリッド上の予測された方向性信号のHOA表現を計算するステップまたはステージ44において、予測されたグリッド方向性信号のHOA表現は、下記の式によって取得される。
【数98】
ここで、Ξ
GRIDは、所定のグリッド方向に対するモード行列を表す(定義については、等式(21)を参照。)。
【0058】
HOA音場表現の合成
【数99】
(すなわち、フレーム遅延42によって遅延された
【数100】
)と、
【数101】
(ステップ/ステージ45において、
【数102】
の時間的平滑化されたバージョン)と、
【数103】
とから、ステップまたはステージ46において全体の音場表現が最終的に下記のように合成される。
【数104】
【0059】
高次アンビソニックスの基礎
高次アンビソニックスは注目されるコンパクトな領域内の音場の記述に基づいていており、音源が存在しないものと仮定される。その場合、注目領域内の時間tおよび位置xでの音圧p(t,x)の空間時間的な挙動は、均質媒質の波動方程式によって物理的に完全に求められる。以下の内容は、
図5に示された球面座標システムに基づいている。x軸は、前方の位置を指し、y軸は、左側を指し、z軸は上方を指す。空間内の位置x=(r,θ,φ)
Tは、半径r>0(すなわち、座標原点へ距離)、極軸zから測定される傾斜角θ∈[0,π]、さらに、x軸からの、x−y平面内で反時計周りに測定される、方位角φ∈[0,2π]によって表される。(・)
Tは、転置を表す。
【0060】
F
t(・)によって表される時間に対する音圧のフーリエ変換、すなわち、
【数105】
は下記の式に従った一連の球面調和関数に拡張される(E.G. Williams著“Fourier Acoustics(フーリエ・アコースティックス))”、応用数理科学、第93巻、アカデミックプレス社、1999年参照)。ここで、ωは角周波数を表し、iは虚数単位を表す。
【数106】
ここで、c
sは音速を示し、kは角波数を示し、この角波数kはk=ω/c
sによって角周波数ωに関連している。j
n(・)は、第1種球ベッセル関数を表しており、
【数107】
は、実数値の球面調和関数の定義の項目で定義されている次数nおよび位数mの実数値の球面調和関数を示している。展開係数
【数108】
は、角波数kのみに依存する。なお、音圧は、空間的に帯域制限されているものと暗黙的に仮定されている。したがって、級数が次数インデックスnに対して上限Nで打ち切られ、これは、HOA表現の次数と呼ばれる。
【0061】
音場が相異なる角周波数の調和平面波ωの無限個の重ね合わせによって表現され、角の組(θ,φ)によって特定される全ての想定可能な方向から到来する場合には、各々の平面波複素振幅関数D(ω,θ,φ)は、下記の球面調和展開によって表すことができることが分かる(B. Rafaely著、“Plane−wave Decomposition of the Sound Field on a Sphere by Spherical Convolution(球面畳み込みによる球面上の音場の平面波分解)”、米国音響学会誌4(116)、2149−2157頁、2004年参照)。
【数109】
ここで、展開係数
【数110】
は、
【数111】
と下記の式によって関連する。
【数112】
【0062】
個々の係数
【数113】
が角周波数ωの関数であると仮定すると、逆フーリエ変換(
【数114】
によって示される)を適用することにより、各次数nおよび位数mに対し、下記の時間領域関数をもたらす。
【数115】
これは、次数nおよび位数mに対して、下記の単一のベクトルにまとめられる。
【数116】
ベクトルd(t)内の時間領域関数
【数117】
の位置インデックスは、n(n+1)+1+mによって与えられる。
【0063】
最終的なアンビソニックス形式は、サンプリング周波数f
sを使用して、下記のd(t)のサンプリングされたバージョンをもたらす。
【数118】
ここで、T
s=1/f
sは、サンプリング期間を示す。d(lTs)の要素は、アンビソニックス係数として参照される。なお、時間領域信号、
【数119】
は、実数値であり、したがって、アンビソニックス係数は、実数値である。
【0064】
実数値の球面調和関数の定義
実数値の球面調和関数
【数120】
は、下記の式によって与えられる。
【数121】
ここで
【数122】
関連するルジャンドル関数P
n,m(x)は、下記の式で定義される。
【数123】
ここで、ルジャンドル多項式P
n(x)を用い、上述した、E.G.Williams著のテキストブックの場合とは異なり、コンドン-ショートレーの位相項(−1)
mを用いない。
【0065】
高次アンビソニックスの空間解像度
方向Ω
0=(θ
0,φ
0)
Tから到来する一般的な平面波関数x(t)は、下記の式によってHOAにおいて表現される。
【数124】
平面波振幅の対応する空間密度
【数125】
は、下記の式によって与えられる。
【数126】
式(48)から理解されるように、これは、一般的な平面波関数x(t)と空間分散関数ν
N(θ)との積であり、空間分散関数ν
N(θ)は、下記の式の特性を有するΩとΩ
0との間の角度θのみに依存するように示されている。
【数127】
想定のとおり、無限次元の極限、つまり、N→∞である場合おいて、空間分散関数はディラックのデルタ関数δ(・)、すなわち、下記のように変化する。
【数128】
しかしながら、有限次元Nの場合には、方向Ω
0からの一般的な平面波の寄与は、近隣の方向ににじみ、このにじみの度合いは次数の増加に伴い減少する。Nの複数の異なる値に対する正規化された関数ν
N(θ)のプロットが
図6に示されている。任意の方向Ωでの平面波振幅の空間密度の時間領域の挙動は、他の任意の方向での平面波振幅の空間密度の時間領域の挙動の倍数となることが指摘される。特に、時間tに対して、何らかの固定方向Ω
1およびΩ
2についての関数d(t,Ω
1)およびd(t,Ω
2)は、高い相関性がある。
【0066】
離散空間領域
平面波振幅の空間密度がΟ個の空間方向Ω
o(1≦ο≦Οで離散化される場合、空間方向Ω
oは単位球面上でほぼ均一に分布するのだが、Ο個の方向性信号d(t,Ω
o)が取得される。これらの信号をベクトルにまとめると、下記の式で表され、
【数129】
式(47)を使用してこのベクトルを、下記のような単純な行列乗算によって式(41)に定義される連続的なアンビソニックス表現d(t)から計算することができることを検証できる。
d
SPAT(t)=Ψ
Hd(t) (52)
ここで、(・)
Hは、複素共役転置を示し、Ψは、下記の式によって定義されるモード行列を表す。
【数130】
ここで、
【数131】
方向Ω
oは単位球面上にほぼ均一に分布しているため、一般的には、モード行列は可逆である。したがって、連続的なアンビソニックス表現は、方向性信号d(t,Ω
o)から下記の式によって計算することができる。
d(t)= Ψ
-Hd
SPAT(t) (55)
双方の式は、アンビソニックス表現と空間領域との間の変換および逆変換を構成する。本願において、これらの変換は、球面調和関数変換および逆球面調和関数変換と呼ばれる。
【0067】
方向Ω
oは単位球面上でほぼ均一に分布するため、
【数132】
となり、式(52)において、Ψ
Hの代わりにΨ
−1を使用することが正当化される。有利には、上述した関係の全ては離散時間領域にも有効である。
【0068】
符号化側、さらに復号側においても、本発明の処理を単一のプロセッサまたは電子回路、または、並列に動作する、および/または、本発明の処理の複数の異なる部分に対して動作する、幾つかのプロセッサまたは電子回路で実行することができる。
【0069】
本発明は、家庭環境におけるラウドスピーカ構成上で、または、劇場におけるラウドスピーカ構成上でレンダリングおよび再生が可能な音声信号に対応する処理に適用することができる。
【0070】
いくつかの態様を記載しておく。
〔態様1〕
音場に対するHOAと称する高次アンビソニックス表現を圧縮する方法であって、
−HOA係数(D(k))の現在の時間フレームから支配的な音源方向(
【数133】
)を推定するステップ(11)と、
−前記HOA係数(D(k))および前記支配的な音源方向(
【数134】
)に依存して、前記HOA表現を時間領域内の支配的な方向性信号(X
DIR(k−1))と残差のHOA成分(D
A(k−2))とに分解するステップ(12)であって、該残差のHOA成分を表現する均一なサンプリング方向で平面波関数を取得するために前記残差のHOA成分が離散空間領域に変換され(33)、前記平面波関数が前記支配的な方向性信号(X
DIR(k−1))から予測されること(34)によって、前記予測を記述するパラメータ(ζ(k−1))がもたらされ、対応する予測誤りが前記HOAの領域に再び変換される(35)、該ステップ(12)と、
−前記残差のHOA成分(D
A(k−2))の現在の次数(N)をより低い次数(N
RED)に低減するステップ(13)であって、結果として、低次元化された残差のHOA成分(D
A,RED(k−2))が得られる、該ステップ(13)と、
−前記低次元化された残差のHOA成分(D
A,RED(k−2)を相関除去して対応する残差のHOA成分時間領域信号(W
A,RED(k−2))を取得するステップ(14)と、
−圧縮された支配的な方向性信号(
【数135】
)および圧縮された残差の成分信号(
【数136】
)を供給するように、前記支配的な方向性信号(X
DIR(k−1))および前記残差のHOA成分時間領域信号(W
A,RED(k−2))を知覚符号化するステップ(15)と、
を含む、前記方法。
〔態様2〕
音場に対するHOAと称する高次アンビソニックス表現を圧縮する装置であって、
−HOA係数(D(k))の現在の時間フレームから支配的な音源方向(
【数137】
)を推定するように構成された手段(11)と、
−前記HOA係数(D(k))および前記支配的な音源方向(
【数138】
)に依存して、前記HOA表現を時間領域内の支配的な方向性信号(X
DIR(k−1))と残差のHOA成分(D
A(k−2))とに分解するように構成された手段(12)であって、該残差のHOA成分を表現する均一なサンプリング方向で平面波関数を取得するために前記残差のHOA成分が離散空間領域に変換され(33)、前記平面波関数が前記支配的な方向性信号(X
DIR(k−1)から予測されること(34)によって前記予測を記述するパラメータ(ζ(k−1))がもたらされ、対応する予測誤りが前記HOAの領域に再び変換される(35)、前記手段(12)と、
−前記残差のHOA成分(D
A(k−2))の現在の次数(N)をより低い次数(N
RED)に低減するように構成された手段(13)であって、結果として、低次元化された残差のHOA成分(D
A,RED(k−2))を生成する、該手段(13)と、
−前記低次元化された残差のHOA成分(D
A,RED(k−2)を相関除去して、対応する残差のHOA成分時間領域信号(W
A,RED(k−2))を取得するように構成された手段(14)と、
−圧縮された支配的な方向性信号(
【数139】
)および圧縮された残差の成分信号(
【数140】
)を供給するように、前記支配的な方向性信号(X
DIR(k−1)および前記残差のHOA成分時間領域信号(W
A,RED(k−2))を知覚符号化するように構成された手段と、
を備える、前記装置。
〔態様3〕
態様1に記載の方法に従って圧縮された高次アンビソニックス表現を圧縮解除する方法であって、
−圧縮解除された支配的な方向性信号(
【数141】
)および空間領域内の残差のHOA成分を表現する圧縮解除された時間領域信号(
【数142】
)を供給するように、前記圧縮された支配的な方向性信号(
【数143】
)および前記圧縮された残差の成分信号(
【数144】
)を知覚復号するステップ(21)と、
−前記圧縮解除された時間領域信号(
【数145】
)を再相関させて、対応する低次元化された残差のHOA成分(
【数146】
)を取得するステップ(22)と、
−前記低次元化された残差のHOA成分(
【数147】
)の次数(N
RED)を当初の次数(N)に拡張するステップ(23)であって、それによって対応する圧縮解除された残差のHOA成分(
【数148】
)を供給する、該ステップ(23)と、
−前記圧縮解除された支配的な方向性信号(
【数149】
【数150】
)と、前記推定された(11)支配的な音源方向(
【数151】
)と、前記予測を記述する前記パラメータ(ζ(k−1))とを使用して、HOA係数の対応する圧縮解除され、再合成されたフレーム
【数152】
を合成するステップ(24)と、
を含む、前記方法。
〔態様4〕
態様1に記載の方法に従って圧縮された高次アンビソニックス表現を圧縮解除する装置であって、
−圧縮解除された支配的な方向性信号(
【数153】
)および空間領域内の残差のHOA成分を表現する圧縮解除された時間領域信号(
【数154】
)を供給するように、前記圧縮された支配的な方向性信号(
【数155】
)および前記圧縮された残差の成分信号(
【数156】
)を知覚復号するように構成された手段(21)と、
−前記圧縮解除された時間領域信号(
【数157】
)を再相関させて、対応する低次元化された残差のHOA成分(
【数158】
)を取得するように構成された手段(22)と、
−前記低次元化された残差のHOA成分(
【数159】
)の次数(N
RED)を当初の次数(N)に拡張するように構成された手段(23)であって、それによって対応する圧縮解除されたHOA成分(
【数160】
)を供給する、該手段(23)と、
−前記圧縮解除された支配的な方向性信号(
【数161】
)と、前記当初の次数の圧縮解除された残差のHOA成分(
【数162】
【数163】
)と、前記予測を記述する前記パラメータ(ζ(k−1))とを使用して、HOA係数の対応する圧縮解除され、再合成されたフレーム(
【数164】
)を合成するように構成された手段(24)と、
を備える、前記装置。
〔態様5〕
前記低次元化された残差のHOA成分(D
A,RED(k−2))の前記相関除去(14)は、球面調和関数変換を使用して、前記低次元化された残差のHOA成分を空間領域内で対応する次数の等価信号に変換することによって行われる、態様1に記載の方法、または態様2に記載の装置。
〔態様6〕
前記低次元化された残差のHOA成分(D
A,RED(k−2))の前記相関除去(14)は、球面調和関数変換を使用して、前記低次元化された残差のHOA成分を空間領域内で対応する次数の等価信号に変換することによって行われ、前記相関除去の反転を可能にする副情報(α(k−2))を提供することによって、サンプリング方向のグリッドが回転されて最大限の相関除去効果を得る、態様1に記載の方法、または態様2に記載の装置。
〔態様7〕
前記支配的な方向性信号(X
DIR(k−1))および前記残差のHOA成分時間領域信号(W
A,RED(k−2))の知覚圧縮(15)が共に行われ、前記圧縮された方向性信号(
【数165】
)および前記圧縮された時間領域信号(
【数166】
)の前記知覚圧縮(21)が対応する方法で共に行われる、態様1、3、5、および6のいずれか1項に記載の方法、または態様2および4〜6のいずれか1項に記載の装置に従った方法。
〔態様8〕
前記分解するステップ(12)は、
−HOA係数の現在のフレーム(D(k))に対して(
【数167】
)における推定された音源方向から支配的な方向性信号(
【数168】
)を計算するステップ(30)であって、その後の時間的平滑化(31)によって平滑化された支配的な方向性信号(X
DIR(k−1))が取得される、該ステップと、
−(
【数169】
)における前記推定された音源方向および前記平滑化された支配的な方向性信号(X
DIR(k−1))から平滑化された支配的な方向性信号(D
DIR(k−1))のHOA表現を計算するステップ(32)と、
【数170】
)による対応する残差のHOA表現を表現するステップ(33)と、
−前記平滑化された支配的な方向性信号(X
DIR(k−1))および方向性信号(
【数171】
)による前記残差のHOA表現から、均一なグリッド上の方向性信号(
【数172】
)を予測し(34)、該予測から均一なグリッド上の予測された方向性信号のHOA表現を計算し(35)、その後、時間的平滑化を行う(36)、ステップと、
−均一なグリッド上での前記平滑化された予測された方向性信号(
【数173】
)と、HOA係数の前記現在のフレーム(D(k))の2フレーム遅延したバージョンと、前記平滑化された支配的な方向性信号(X
DIR(k−1))の1フレーム遅延したバージョンとから、残差のアンビエント音場成分のHOA表現(D
A(k−2))を計算するステップと、
を含む、態様1および5〜7のいずれか1項に記載の方法に従った方法、または態様2および5〜7のいずれか1項に記載の装置に従った装置。
〔態様9〕
前記合成するステップ(24)は、
−HOA係数の現在のフレーム(D(k))に対して前記推定された音源方向(
【数174】
)と、前記圧縮解除された支配的な方向性信号(
【数175】
)とから、支配的な方向性信号(
【数176】
)のHOA表現を計算するステップ(41)と、
前記圧縮解除された支配的な方向性信号(
【数177】
)と、前記予測を記述した前記パラメータ(ζ(k−1))とから、均一なグリッド上の方向性信号
【数178】
を予測するステップ(43)と、当該予測から、均一なグリッド上の予測された方向性信号のHOA表現
【数179】
を計算するステップ(44)であって、その後に、時間的平滑化を行う
【数180】
、該ステップと、
−均一なグリッド上の予測された方向性信号
【数181】
の前記平滑化されたHOA表現と、支配的な方向性信号(
【数182】
)の前記HOA表現の1フレーム遅延された(42)バージョンと、前記圧縮解除された残差のHOA成分(
【数183】
)とから、HOA音場表現(
【数184】
)を合成するステップ(46)と、
を含む、態様3または7に記載の方法に従った方法、または態様4または7に記載の装置に従った装置。
〔態様10〕
均一なグリッド上の方向性信号(
【数185】
)の前記予測(34)において、予測されたグリッド信号(
【数186】
)が、割り当てられた支配的な方向性信号(
【数187】
)からの遅延および全帯域スケーリングによって計算される、態様8に記載の方法に従った方法、または態様8に記載の装置に従った装置。
〔態様11〕
均一なグリッド上の方向性信号(
【数188】
)の前記予測(34)において、知覚指向の周波数帯域に対するスケーリング係数が求められる、態様8に記載の方法に従った方法、または態様8に記載の装置に従った装置。
〔態様12〕
態様1、5〜8、10、および11のいずれか1項に記載の方法に従って符号化されるディジタル・オーディオ信号。