(54)【発明の名称】ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする方法および装置ならびにノイズ削減のための多チャネルHOAオーディオ信号をデコードする方法および装置
(58)【調査した分野】(Int.Cl.,DB名)
適応的DSHTを使って各チャネルを空間的にデコードする前記段階が、複数の空間的デコード・ユニットにおいて同時にすべてのチャネルについて行なわれ、当該方法がさらに、スペクトル帯域化解除する段階と、重複加算をもつ時間から周波数への変換の逆処理を実行する段階とを含む、請求項5または6記載の方法。
前記空間的ベクトルの三つの成分は量子化され、エントロピー符号化され、あるエスケープ・パターンが、サイド情報(SI)を生成するために前に使われた値の再使用を指示する、請求項5ないし8のうちいずれか一項記載の方法。
前記相関器が、適応的DSHTを使って各チャネルを同時に空間的にデコードする複数の空間的デコード・ユニットを有し、当該装置がさらに、スペクトル帯域化解除を実行するためのスペクトル帯域化解除ユニットと、重複加算をもつ時間から周波数への変換の逆処理を実行するiTFT&OLAユニットとを有し、前記スペクトル帯域化解除ユニットはその出力を前記iTFT&OLAユニットに与える、請求項12または13記載の装置。
前記空間的ベクトルの三つの成分が量子化され、エントロピー符号化され、あるエスケープ・パターンが、サイド情報(SI)を生成するために前に使われた値の再使用を指示する、請求項12ないし14のうちいずれか一項記載の装置。
【発明を実施するための形態】
【0022】
図2は、逆DSHTを使ってHOA信号が空間領域に変換される既知のシステムを示している。信号はiDSHT 21を使った変換、レート圧縮E1/圧縮解除D1にかけられ、DSHT 24を使って係数領域に再変換される(S24)。それとは異なり、
図3は本発明のある実施形態に基づくシステムを示している。既知の解決策のDSHT処理ブロックは、それぞれ逆適応的DSHTおよび適応的DSHTを制御する処理ブロック31、34によって置き換えられる。サイド情報SIがビットストリームbs内で伝送される。システムは、多チャネルHOAオーディオ信号をエンコードする装置および多チャネルHOAオーディオ信号をデコードする装置の要素を有する。
【0023】
ある実施形態では、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする装置ENCは、逆適応的DSHT(iaDSHT)を使ってチャネルBを脱相関させる脱相関器31を含み、逆適応的DSHTは回転演算ユニット311および逆DSHT(iDSHT)310を含む。回転演算ユニットはiDSHTの空間的サンプリング格子を回転させる。脱相関器31は脱相関された(decorrelated)チャネルW
sdと、回転情報を含むサイド情報SIとを与える。さらに、この装置は、脱相関されたチャネルW
sdのそれぞれを知覚的にエンコードする知覚的エンコーダ32と、回転情報をエンコードするサイド情報エンコーダ321を含む。回転情報は、前記回転演算を定義するパラメータを含む。知覚的エンコーダ32は、知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を与え、こうしてデータ・レートを低下させる。最後に、このエンコード装置は、知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報からビットストリームbsを生成し、該ビットストリームbsを送信または記憶するインターフェース手段320を有する。
【0024】
削減されたノイズをもつ多チャネルHOAオーディオ信号をデコードする装置DECは、エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領するインターフェース手段330と、受領されたデータを圧縮解除する圧縮解除モジュール33とを含む。圧縮解除モジュール33は各チャネルを知覚的にデコードするための知覚的デコーダを含む。圧縮解除モジュール33は復元された知覚的にデコードされたチャネルW'
sdおよび復元されたサイド情報SI'を与える。さらに、このデコード装置は、適応的DSHT(aDSHT)を使って知覚的にデコードされたチャネルW'
sdを相関させる相関器34であって、DSHTおよび前記回転情報に基づくDSHTの空間的サンプリング格子の回転が実行される相関器と、相関された知覚的にデコードされたチャネルをマトリクス処理する混合器MXであって、ラウドスピーカー位置にマッピングされた再生可能なオーディオ信号が得られる混合器とを含む。少なくとも前記aDSHTは相関器34内のDSHTユニット340において実行されることができる。ある実施形態では、空間的サンプリング格子の回転は格子回転ユニット341においてなされ、これは原理的にはもとのDSHTサンプリング点を再計算する。別の実施形態では、回転はDSHTユニット340内で実行される。
【0025】
以下では、マスキング解除(unmasking)を定義し、記述する数学的モデルが与えられる。I個のチャネルからなる所与の離散時間多チャネル信号x
i(m), i=1,…,Iを想定する。mは時間サンプル・インデックスを表わす。個々の信号は実数値でも複素数値でもよい。時間サンプル・インデックスm
START+1に始まるM個のサンプルのフレームを考える。ここで、個々の信号は定常的であると想定される。対応するサンプルは、行列X∈C
I×M内に
【0026】
【数8】
に従って配置される。(・)
Tは転置を表わす。対応する経験的相関行列は
Σ
X:=XX
H (3)
によって与えられる。(・)
Hは合同的な複素共役および転置を表わす。
【0027】
ここで、上記多チャネル信号フレームが符号化され、それにより再構成時に符号化誤差ノイズを導入するとする。こうして、^付きのXで表わされる再構成されるフレーム・サンプルの行列は、真のサンプル行列Xおよび符号化ノイズ成分Eから
【0029】
各チャネルは独立に符号化されていると想定されるので、符号化ノイズ信号e
i(m)はi=1,…,Iについて互いに独立であると想定できる。この性質およびノイズ信号の平均が0であるという想定を利用すると、ノイズ信号の経験的な相関行列は
【0030】
【数10】
として対角行列によって与えられる。この右辺は、対角線上に経験的なノイズ信号パワー
【0031】
【数11】
をもつ対角行列を表わす。さらなる本質的な想定は、符号化が、各チャネルについてあらかじめ定義された信号対雑音比(SNR)が満たされるように実行されるということである。一般性を失うことなく、該あらかじめ定義されたSNRは各チャネルについて等しい、すなわち
【0033】
これから、再構成された信号をJ個の新しい信号y
j(m), j=1,…,Jにするマトリクス処理を考える。いかなる符号化誤差の導入もなければ、マトリクス処理された信号のサンプル行列は
Y=AX (11)
によって表現されてもよい。ここで、A∈C
J×Iは混合行列を表わし、
【0034】
【数13】
である。しかしながら、符号化ノイズのため、マトリクス処理された信号のサンプル行列は
【0035】
【数14】
によって与えられる。ここで、Nはマトリクス処理されたノイズ信号のサンプルを含む行列である。それは次のように表現できる。
【0037】
【数16】
は時間サンプル・インデックスmにおけるすべてのマトリクス処理されたノイズ信号のベクトルである。
【0038】
式(11)を利用すると、マトリクス処理されたノイズのない信号の経験的相関行列は次のように定式化できる。
【0039】
【数17】
よって、Σ
Yの対角線上のj番目の要素である、j番目のマトリクス処理されたノイズのない信号の経験的パワーは次のように書ける。
【0041】
【数19】
のようなA
Hのj番目の列である。
【0042】
同様に、式(15)により、マトリクス処理されたノイズ信号の経験的相関行列は次のように書ける。
【0043】
【数20】
Σ
Nの対角線上のj番目の要素である、j番目のマトリクス処理されたノイズ信号の経験的パワーは次式によって与えられる。
【0045】
【数22】
によって定義されるマトリクス処理された信号の経験的SNRは、式(19)および(22)を使って、次のように定式化し直すことができる。
【0047】
【数24】
のように対角成分と非対角成分に分解し、想定(7)および(9)から得られる性質
【0048】
【数25】
を利用することによって、すべてのチャネルにわたって一定のSNR(SNR
x)に関し、最終的に、マトリクス処理された信号の経験的SNRについての所望される表現が得られる。
【0049】
【数26】
この式から、このSNRが、あらかじめ定義されたSNRであるSNR
xから、信号相関行列Σ
Xの対角および非対角成分に依存する項の乗算によって得られることが見て取れる。特に、マトリクス処理された信号の経験的SNRは、信号x
i(m)が互いに相関しておらずΣ
X,NGが零行列になる場合には、あらかじめ定義されたSNRに等しくなる。すなわち、
【0050】
【数27】
ここで、0
I×IはI行I列の零行列を表わす。すなわち、x
i(m)が相関している場合には、マトリクス処理された信号の経験的SNRはあらかじめ定義されたSNRから逸脱することがある。最悪の場合には、SNR
yjはSNR
xよりずっと低くなることがある。この現象は、本稿では、マトリクス処理におけるノイズ・マスキング解除(noise unmasking)と呼ばれる。
【0051】
以下のセクションは、高次アンビソニックス(HOA)の簡単な紹介を与え、処理(データ・レート圧縮)されるべき信号を定義する。
【0052】
高次アンビソニックス(HOA)は、音源がないと想定されるコンパクトな関心領域内の音場の記述に基づく。その場合、時刻tおよび関心領域内の(球面座標での)位置x=[r,θ,φ]
Tにおける音圧p(t,x)の空間時間的振る舞いは、斉次波動方程式(homogeneous wave equation)によって物理的には完全に決定される。ωが角周波数を表わすとして、時間に関する音圧のフーリエ変換、すなわち
【0054】
【数29】
のように球面調和関数(SH)の級数に展開されうる(非特許文献9)。
【0055】
式(32)において、c
sは音速を表わし、k=ω/c
sは角波数を表わす。さらに、j
n(・)は第一種のn次球面ベッセル関数を示し、Y
nm(・)は次数(order)nおよび陪数(degree)mの球面調和関数(SH)を表わす。
【0056】
音場についての完全な情報は、実際には音場係数A
nm(k)内に含まれる。
【0057】
SHは一般には複素数値の関数であることを注意しておくべきである。しかしながら、その近似的な線形結合により、実数値の関数を得て、上記展開をこれらの関数に関して実行することが可能である。
【0058】
式(32)における圧力音場(sound field)記述に関係して、源場(source field)が次のように定義できる。
【0059】
【数30】
ここで、源場または振幅密度(非特許文献8)D(kc
s,Ω)は角波数および角方向Ω=[θ,φ]
Tに依存する。源場は遠距離場/近距離場、離散/連続源からなることができる(非特許文献1)。源場係数B
nmは音場係数A
nmと次式によって関係付けられる(非特許文献1)。
【0060】
【数31】
((exp[−ikr]に関係する)はいってくる波について正の周波数および第二種の球面ハンケル関数h
n(2)を使う。)ここで、h
n(2)は第二種の球面ハンケル関数であり、r
sは原点からの源の距離である。
【0061】
HOA領域の信号は、周波数領域または時間領域において、音場または源場の逆フーリエ変換として表現できる。以下の記述では、有限数の源場係数の時間領域表現
【0062】
【数32】
の使用を想定する。(33)における無限級数はn=Nにおいて打ち切られる。打ち切りは、空間的な帯域幅制限に対応する。係数(またはHOAチャネル)の数は
3Dについては O
3D=(N+1)
2 (36)
によって、2Dのみの記述についてはO
2D=2N+1によって与えられる。係数b
nmはラウドスピーカーによるのちの再生のためにある時間サンプルmのオーディオ情報を含む。これらは記憶または送信されることができ、よってデータ・レート圧縮の対象である。
【0063】
単独の時間サンプルmの係数はO
3D個の要素をもつベクトルb(m)
【0064】
【数33】
によって表現でき、M個の時間サンプルのブロックは行列B
【0066】
音場の二次元表現は、円調和関数を用いた展開によって導出できる。これは、上記で呈示した一般的な記述において、固定した傾斜角θ=π/2、係数の異なる重みおよびO
2D個の係数に縮小された集合(m=±n)を使った特殊な場合と見ることができる。よって、以下の考察はみな2D表現にも当てはまる。その場合、球という用語は円という用語によって置き換える必要がある。
【0067】
以下では、HOA係数領域から空間的なチャネル・ベースの領域へのまたその逆の変換を記述する。式(33)は、単位球上のl離散的な空間サンプル位置Ω
l=[θ
l,φ
l]
Tについて、時間領域HOA係数を使って書き換えることができる。
【0068】
【数35】
L
sd=(N+1)
2個の球面サンプル位置Ω
lを想定すると、これはHOAデータ・ブロックBについてのベクトル記法で書き換えることができる。
【0070】
【数37】
はL
sd多チャネル信号の単一の時間サンプルを表わし、行列
【0072】
【数39】
をもつ。球面サンプル位置が非常に規則的に選択される場合には、
【0073】
【数40】
となる行列Ψ
iが存在する。ここでIはO
3D×O
3Dの恒等行列である。すると、式(36)に対応する変換は、
【0075】
式(38)はL
sd個の球面信号を係数領域に変換し、前方変換
B=DSHT{W} (39)
として書き換えられる。ここで、DSHT{ }は離散球面調和関数変換を表わす。対応する逆変換はO
3D個の係数信号を空間領域に変換してL
sd個のチャネル・ベースの信号を形成し、式(36)は
W=iDSHT{B} (40)
となる。
【0076】
離散球面調和関数変換のこの定義は、本稿でのHOAデータのデータ・レート圧縮に関する考察のためには十分である。与えられた係数Bから出発して、B=DSHT{iDSHT{B}}となる場合のみに関心があるからである。離散球面調和関数変換のより厳密な定義は非特許文献2で与えられている。DSHTのための好適な球面サンプル位置およびそのような位置を導出するための手続きは、非特許文献3、4、6、5において概観できる。サンプリング格子の例は
図5に示されている。
【0077】
具体的には、
図5は、エンコーダおよびデコーダ構成ブロックpE、pDにおいて使われるコードブックのための球面サンプリング位置の例を示している。すなわち、
図5のa)はL
sd=4についてであり、
図5のb)はL
sd=9についてであり、
図5のc)はL
sd=16についてであり、
図5のd)はL
sd=25についてである。
【0078】
以下では、高次アンビソニックス係数データのレート圧縮およびノイズ・マスキング解除が記述される。まず、いくつかの性質をハイライトするために、以下で使われる試験信号が定義される。
【0079】
方向Ω
s1に位置する単一の遠距離場源は、M個の離散的な時間サンプルのベクトルg=[g(m),…,g(M)]
Tによって表現され、式(38)と類似の行列B
gおよび方向Ω
s1=[θ
s1,φ
s1]
Tにおいて評価される共役複素球面調和関数(実数値のSHが使われるならば共役は何の影響もない)からなるエンコード・ベクトル
【0081】
【数43】
によってHOA係数のブロックによって表現できる。試験信号B
gは、HOA信号の最も単純な場合と見ることができる。より複雑な信号は、そのような信号の多数の重ね合わせからなる。
【0082】
HOAチャネルの直接的な圧縮に関し、以下では、HOA係数チャネルが圧縮されるときになぜノイズ・マスキング解除が生じるかを示す。HOAデータの実際のブロックBのO
3D個の係数チャネルの直接的な圧縮および圧縮解除は、式(4)と類似の符号化ノイズEを導入する。
【0083】
【数44】
式(9)のような一定のSNR
Bgを想定する。スピーカーでこの信号を再生するには、信号がレンダリングされる必要がある。このプロセスは
【0084】
【数45】
によって記述される。ここで
【0085】
【数46】
はデコード行列(A
H=[a
1,…,a
L])であり、行列
【0086】
【数47】
はL個のスピーカー信号のM個の時間サンプルを保持する。これは(14)と類似である。上記のすべての考察を適用すると、スピーカー・チャネルlのSNRは(式(29)と類似の)
【0087】
【数48】
によって記述できる。ここで、σ
2Boは
【0088】
【数49】
のo番目の対角要素であり、Σ
B,NGはその非対角要素を保持する。
【0089】
任意のスピーカー・レイアウトをデコードできるべきであるからデコード行列Aは影響されるべきではないので、行列Σ
Bは対角になってSNR
wl=SNR
Bgとなる必要がある。式(45)および(49)を用い(B=B
g)、一定のスカラー値c=g
Tgを用いて、Σ
B=yg
Hgy
H=cyy
Hは非対角になる。SNR
Bgに比べると、スピーカー・チャネルにおける信号対雑音比SNR
wlは低下する。しかし、源信号gもスピーカー・レイアウトも通例、エンコード段では知られていないので、係数チャネルの直接的な不可逆圧縮は、特に低データ・レートについては、制御できないマスキング解除効果につながることがある。
【0090】
以下は、HOA係数がDSHTを使ったあとに空間領域において圧縮されるときになぜノイズ・マスキング解除が生じるかを記述する。
【0091】
HOA係数データBの現在ブロックは、式(36)に与えられるような球面調和関数変換を使って圧縮の前に空間領域に変換される:
【0092】
【数50】
ここで、逆変換行列Ψ
iはL
Sd≧O
3D個の空間的サンプル位置および空間的信号行列W
SH∈C
LSd×Mに関係している。これが圧縮および圧縮解除にかけられ、式(5)のような符号化ノイズ成分Eを用いて量子化ノイズが加えられる(式(4)と同様):
【0093】
【数51】
ここでもまた、すべての空間チャネルについて一定であるSNR、SNR
Sdを想定する。信号は、Ψ
fΨ
i=Iという性質(41)をもつ変換行列Ψ
fを使って係数領域に変換される(式(42))。係数の新しいブロックは次のようになる:
【0094】
【数52】
これらの信号は、デコード行列A
Dを適用することによって、L個のスピーカー信号^W∈C
L×Mにレンダリングされる:
【0095】
【数53】
これは(52)およびA=A
DΨ
fを使って、次のように書き直せる。
【0096】
【数54】
ここで、AはA∈C
L×LSdの混合行列である。式(53)は式(14)と類似であることが見て取れるはずである。ここでもまた、上記のすべての考察を適用すると、スピーカー・チャネルlのSNRは(式(29)と類似の)
【0097】
【数55】
によって記述できる。ここで、σ
2Sdlはl番目の対角要素であり、Σ
WSd,NGは
【0098】
【数56】
の非対角要素をを保持する。
【0099】
(任意のスピーカー・レイアウトにレンダリングできるべきであるから)A
Dに影響するすべはなく、よってAに対していかなる影響をもつすべもないので、所望されるSNRを保つためにΣ
WSdは対角になる必要がある。式(45)からの簡単な試験信号を使うと(B=B
g)、一定のc=g
Tgを用いて、
【0100】
【数57】
となる。固定した球面調和関数変換(Ψ
i、Ψ
f固定)を使うと、Σ
WSdが対角になれるのは非常にまれな場合のみであり、さらに悪いことに、上記のように、項
【0101】
【数58】
は係数信号の空間的性質に依存する。こうして、球面領域におけるHOA係数の低レートの不可逆圧縮は、SNRの低下および制御できないマスキング解除効果につながることがある。
【0102】
本発明の基本的発想は、適応的DSHT(aDSHT)を使うことによってノイズ・マスキング解除効果を最小化するということである。適応的DSHTは、HOA入力信号の空間的性質に関係したDSHTの空間的サンプリング格子の回転およびDSHT自身からなる。
【0103】
HOA係数の数O
3Dに一致する球位置の数L
Sdをもつ信号適応的なDSHT(aDSHT)について下記で述べる。まず、通常の非適応的DSHTにおけるようなデフォルトの球状サンプル格子が選択される。M個の時間サンプルのブロックについて、球状サンプル格子は、項
【0104】
【数59】
の対数が最小化されるよう回転される。ここで、|Σ
WSdl,j|は、Σ
WSdの(行列の行インデックスlおよび列インデックスjをもつ)要素の絶対値であり、σ
2SdlはΣ
WSdの対角要素である。これは、式(54)の項
【0105】
【数60】
を最小化することに等しい。
【0106】
視覚化すると、このプロセスは、
図4に示されるような、ある単一の空間的サンプル位置が最も強い源方向に一致するようにする、DSHTの球状サンプリング格子の回転に対応する。式(45)からの簡単な試験信号を使うと(B=B
g)、式(55)の項W
Sdが、一つを除いてすべての要素が0に近い、ベクトル∈C
LSd×1となることが示せる。よって、Σ
WSdはほぼ対角になり、所望されるSNR、SNR
Sdが保てる。
【0107】
図4は、空間領域に変換された試験信号B
gを示している。
図4のa)では、デフォルトのサンプリング格子が使われており、
図4のb)では、aDSHTの回転された格子が使われている。空間的チャネルの関係するΣ
WSd値(dB単位)は、対応するサンプル位置のまわりのボロノイ・セルの色/グレー変動によって示される。この空間的構造の各セルはサンプリング点を表わし、セルの明るさ/暗さは信号強さを表わす。
図4のb)において見て取れるように、最も強い源方向がみつかっており、サンプリング格子は、面の一つ(すなわち、単一の空間的サンプル位置)が最も強い源方向に一致するよう回転されている。この面は白で描かれている(強い源方向に対応)。一方、他の面は暗くなっている(低い源方向に対応)。
図4のa)、すなわち回転前には、どの面も最も強い源方向に一致しておらず、いくつかの面が多少なりとも灰色になっている。これは、かなりの(だが最大でない)強度のオーディオ信号がそれぞれのサンプリング点において受領されることを意味する。
【0108】
以下は、圧縮エンコーダおよびデコーダ内で使用されるaDSHTの主要な構成ブロックを記述する。
【0109】
エンコーダおよびデコーダ処理構成ブロックpEおよびpDの詳細が
図6に示されている。両方のブロックは、DSHTのための基礎である球状サンプリング点格子の同じコードブックを所有する。初期には、係数の数O
3Dは、共通のコードブックに従って、L
Sd=O
3D個の位置をもつ、モジュールpE内の基礎格子を選択する。L
Sdは、
図3において示されるのと同じ基礎サンプリング位置格子を選択する初期化のために、ブロックpDに送信される必要がある。基礎サンプリング格子は、行列
【0110】
【数61】
によって記述される。ここで、Ω
l=[θ
l,φ
l]
Tは単位球上の位置を定義する。上記のように、
図5は基礎格子の例を示す。
【0111】
回転発見ブロック(構成ブロック「最良回転を発見」)320への入力は係数行列Bである。構成ブロックは、式(57)の値が最小化されるよう、基礎サンプリング格子を回転させることを受け持つ。回転は、「軸‐角」表現によって表現され、この回転に関係した圧縮された軸ψ
rotおよび回転角φ
rotがこの構成ブロックにサイド情報SIとして出力される。回転軸ψ
rotは原点から単位球上のある位置への単位ベクトルによって記述できる。球座標では、これは二つの角ψ
rot=[θ
axis,φ
axis]
Tによって明示できる。暗黙的な関係する半径1は送信される必要はない。三つの角度θ
axis,φ
axis,φ
rotは量子化され、エントロピー符号化される。特別なエスケープ・パターンが、サイド情報SIを生成するための前に使用された値の再使用を合図する。
【0112】
構成ブロック「Ψ
iを構築」330は回転軸および角を
【0113】
【数62】
にデコードし、この回転を基礎サンプリング格子D
DSHTに適用して回転された格子
【0114】
【数63】
を導出する。これは、iDSHT行列
【0115】
【数64】
を出力する。これはベクトル
【0117】
構成ブロック「iDSHT」310では、HOA係数データの実際のブロックBが、W
Sd=Ψ
iBによって、空間領域に変換される。
【0118】
デコード処理ブロックpDの構成ブロック「Ψ
fを構築」350は回転軸および角を受領し、
【0119】
【数66】
にデコードし、この回転を基礎サンプリング格子D
DSHTに適用して回転された格子
【0120】
【数67】
を導出する。iDSHT行列
【0122】
【数69】
を用いて導出され、DSHT行列Ψ
f=Ψ
i-1がデコード側で計算される。
【0123】
デコーダ処理ブロック34内の構成ブロック「DSHT」340では、空間領域データの実際のブロック
【0124】
【数70】
が再び係数領域データのブロック
【0126】
以下では、圧縮コーデックの全体的なアーキテクチャを含むさまざまな有利な実施形態が記述される。第一の実施形態は、単一のaDSHTを利用する。第二の実施形態は、諸スペクトル帯域において複数のaDSHTを利用する。
【0127】
第一の(「基本的」)実施形態は
図7に示されている。O
3D個の係数チャネルの、インデックスmをもつHOA時間サンプルb(m)〔ベクトル〕はまずバッファ71に記憶されて、M個のサンプルおよび時間インデックスμのブロックをなす。B(μ)は、上記のように、構成ブロックpE 72において、適応的iDSHTを使って空間領域に変換される。空間信号ブロックW
Sd(μ)は、AACまたはmp3エンコーダのようなL
Sd個のオーディオ圧縮モノ・エンコーダ73または単一のAAC多チャネル・エンコーダ(L
Sd個のチャネル)に入力される。ビットストリームS73は、複数のエンコーダ・ビットストリーム・フレームの統合されたサイド情報SIとの多重化されたフレームまたはサイド情報SIが好ましくは補助データとして統合されている単一の多チャネル・ビットストリームからなる。
【0128】
それぞれの圧縮デコーダ構成ブロックは、ある実施形態では、ビットストリームS73をL
Sd個のビットストリームおよびサイド情報SIに多重分離してそれらのビットストリームをL
Sd個のモノ・デコーダに供給し、それらのビットストリームをL
Sd個の空間的オーディオ・チャネルにデコードしてM個のサンプルでブロック
【0129】
【数72】
を形成し、該^W
Sd(μ)およびSIをpDに供給するデマルチプレクサD1を有している。ビットストリームが多重化されない別の実施形態では、圧縮デコーダ構成ブロックはビットストリームを受領し、それをL
Sd多チャネル信号
【0130】
【数73】
にデコードし、SIをパッキング解除し、該^W
Sd(μ)およびSIをpDに供給する受領器74を有する。
【0131】
^W
Sd(μ)はデコーダ処理ブロックpD 75においてSIとともに適応的DSHTを使って係数領域に変換されて、HOA信号のブロックB(μ)を形成する。これらの信号はバッファ76に記憶され、のちにフレーム解除されて係数の時間信号b(m)を形成する。
【0132】
上記の第一の実施形態は、ある種の条件のもとで、二つの欠点をもつことがある。第一に、空間的な信号分布の変化のため、前のブロックからの(すなわち、ブロックμからμ+1への)ブロッキング・アーチファクトがあることがある。第二に、同時に二つ以上の強い信号があることがあり、aDSHTの脱相関効果が非常に小さくなる。
【0133】
いずれの欠点も、周波数領域で動作する第二の実施形態において対処される。aDSHTは、複数の周波数帯域データを組み合わせるスケール因子帯域データに適用される。ブロッキング・アーチファクトは、重複加算(OLA: Overlay Add)をもつ時間から周波数への変換(TFT: Time to Frequency Transform)処理の重なり合うブロックによって回避される。J個のスペクトル帯域内で本発明を使うことによって、SI
jを送信するためのデータ・レートにおけるオーバーヘッド増大を代償として、改善された信号脱相関が達成できる。
【0134】
図9に示されるようなこの第二の実施形態のいくつかのさらなる詳細について以下で述べる。信号の各係数チャネルb(m)が時間から周波数への変換(TFT)912にかけられる。広く使われるTFTの例は修正コサイン変換(MDCT)である。TFTフレーム化ユニット911では、50%重複するデータ・ブロック(ブロック・インデックスμ)が構築される。TFTブロック変換ユニット912はブロック変換を実行する。スペクトル帯域化(Spectral Banding)ユニット913では、TFT周波数帯域が組み合わされてJ個の新しいスペクトル帯域および関係した信号
【0135】
【数74】
を形成する。ここで、K
Jは帯域jにおける周波数係数の数を表わす。これらのスペクトル帯域は複数の処理ブロック914において処理される。これらのスペクトル帯域のそれぞれについて、信号
【0136】
【数75】
およびサイド情報SI
jを生成する一つの処理ブロックpE
jがある。これらのスペクトル帯域は、不可逆オーディオ圧縮法のスペクトル帯域(AAC/mp3スケール因子帯域のような)に一致してもよいし、あるいはより粗い粒度を有していてもよい。後者の場合、「TFTなしのチャネル独立な不可逆オーディオ圧縮」915が帯域化を再配置する必要がある。処理ブロック914は、各オーディオ・チャネルに一定のビット・レートを割り当てる、周波数領域におけるL
Sd多チャネル・オーディオ・エンコーダのように振る舞う。ビットストリームは、ビットストリーム・パッキング・ブロック916においてフォーマットされる。
【0137】
デコーダは、上記ビットストリーム(少なくともその一部)を受領または記憶し、それをパッキング解除し(921)、オーディオ・データを多チャネル・オーディオ・デコーダ922に「TFTなしのチャネル独立なオーディオ・デコード」のために、サイド情報SI
jを複数のデコード処理ブロックpD
j 923に供給する。「TFTなしのチャネル独立なオーディオ・デコード」のためのオーディオ・デコーダ922はオーディオ情報をデコードし、J個のスペクトル帯域信号
【0138】
【数76】
をデコード処理ブロックpD
j 923への入力としてフォーマットする。デコード処理ブロック923において、これらの信号はHOA係数領域に変換されて
【0139】
【数77】
を形成する。スペクトル帯域化解除(debanding)ブロック924では、J個のスペクトル帯域はTFTの帯域化に一致するよう再グループ化され、ブロックが重なり合う重複加算(OLA)処理を使うiTFT&OLAブロック925において時間領域に変換される。最後に、iTFT&OLAブロック925の出力はTFTフレーム解除ブロック926においてフレーム解除され、信号
【0141】
本発明は、チャネル間の相互相関からSNRの増大が帰結するという知見に基づく。知覚的符号化器は、個々の各単独チャネル信号内に生じる符号化ノイズ・マスキング効果を考えるだけである。しかしながら、そのような効果は典型的には非線形である。そこで、そのような複数の単独チャネルをマトリクス処理して新しい信号にするときに、ノイズ・マスキング解除が起こる可能性が高い。これが、マトリクス処理動作後に通常、符号化ノイズが増大する理由である。
【0142】
本発明は、望まれないノイズ・マスキング解除効果を最小にする適応的な離散球面調和関数変換によるチャネルの脱相関を提案する。aDSHTは、圧縮符号化器および復号器アーキテクチャ内に統合される。これは、DSHTの空間的サンプリング格子を、HOA入力信号の空間的性質に合わせて調整する回転動作を含むので、適応的である。aDSHTは、適応的な回転および実際の、通常のDSHTを含む。実際のDSHTは、従来技術において記載されるように構築できる行列である。適応的な回転はその行列に適用され、それがチャネル間相関の最小化に、よってマトリクス処理後のSNR増大の最小化につながる。回転軸および角は、解析的にではなく、自動化された探索動作によって見出される。デコード後、逆適応的DSHT(iaDSHT)が使われるマトリクス処理をする前に再相関を可能にするために、回転軸および角は、エンコードされ、伝送される。
【0143】
ある実施形態では、時間から周波数への変換(TFT)およびスペクトル帯域化が実行され、aDSHT/iaDSHTは各スペクトル帯域に独立して適用される。
【0144】
図8のa)は、本発明のある実施形態における、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする方法のフローチャートを示している。
図8のb)は、本発明のある実施形態における、ノイズ削減のための多チャネルHOAオーディオ信号をデコードする方法のフローチャートを示している。
【0145】
図8のa)に示した実施形態では、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする方法は、逆適応的DSHTを使ってそれらのチャネルを脱相関81させる段階であって、前記逆適応的DSHTは回転演算および逆DSHT812を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転811させる、段階と、脱相関されたチャネルのそれぞれを知覚的にエンコード82する段階と、回転情報を(サイド情報SIとして)エンコード83する段階であって、前記回転情報は前記回転演算を定義するパラメータを含む、段階と、知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶する84段階とを含む。
【0146】
ある実施形態では、逆適応的DSHTは、初期のデフォルト球状サンプル格子を選択する段階と、最も強い源方向を決定する段階と、M個の時間サンプルのブロックについて、ある単一の空間的サンプル位置が前記最も強い源方向に一致するよう前記球状サンプル格子を回転させる段階とを含む。
【0147】
ある実施形態では、前記球状サンプル格子は、項
【0148】
【数79】
の対数が最小化されるよう回転され、ここで、|Σ
WSdl,j|は、Σ
WSdの(行列の行インデックスlおよび列インデックスjをもつ)要素の絶対値であり、σ
2SdlはΣ
WSdの対角要素であり、
【0149】
【数80】
であり、W
Sdはオーディオ・チャネル数かけるブロック処理サンプル数の行列であり、W
Sdは前記aDSHTの結果である。
【0150】
図8のb)に示される実施形態では、削減されたノイズをもつ符号化された多チャネルHOAオーディオ信号をデコードする方法は、エンコードされた多チャネルHOAオーディオ信号および(サイド情報SI内の)チャネル回転情報を受領85する段階と、受領されたデータを圧縮解除86する段階であって、知覚的デコードが使われる段階と、適応的DSHTを使って各チャネルを空間的にデコード87する段階であって、DSHT 872と、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転871とが実行され、知覚的デコードされたチャネルが再相関される、段階と、再相関された、知覚的デコードされたチャネルをマトリクス処理88する段階であって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる段階とを含む。
【0151】
ある実施形態では、適応的DSHTは、該適応的DSHTのための初期のデフォルト球状サンプル格子を選択する段階と、M個の時間サンプルのブロックについて、前記回転情報に従って前記球状サンプル格子を回転させる段階とを含む。
【0152】
ある実施形態では、前記回転情報は三つの成分をもつ空間的ベクトル
【0153】
【数81】
である。回転軸ψ
rotは単位ベクトルによって記述できることを注意しておく。
【0154】
ある実施形態では、前記回転情報は三つの角度θ
axis,φ
axis,φ
rotから構成されるベクトルである。ここで、θ
axis、φ
axisは、球座標における、暗黙的な半径を1として回転軸についての情報を定義し、φ
rotはこの軸のまわりの回転角を定義する。
【0155】
ある実施形態では、これらの角度は量子化され、エントロピー符号化され、あるエスケープ・パターン(すなわち専用のビット・パターン)が、サイド情報(SI)を生成するための前の値の再使用を合図する(すなわち、示す)。
【0156】
ある実施形態では、ノイズ削減のための多チャネルHOAオーディオ信号をエンコードする装置は、逆適応的DSHTを使ってそれらのチャネルを脱相関させる脱相関器であって、前記逆適応的DSHTは回転演算および逆DSHT(iDSHT)を含み、前記回転演算は前記iDSHTの空間的サンプリング格子を回転させる、脱相関器と;脱相関されたチャネルのそれぞれを知覚的にエンコードする知覚的エンコーダと、回転情報をエンコードするサイド情報エンコーダであって、前記回転情報は前記回転演算を定義するパラメータを含む、サイド情報エンコーダと;知覚的にエンコードされたオーディオ・チャネルおよびエンコードされた回転情報を送信または記憶するインターフェースとを有する。
【0157】
ある実施形態では、削減されたノイズをもつ多チャネルHOAオーディオ信号をデコードする装置は、エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領するインターフェース手段330と、各チャネルを知覚的にデコードする知覚的デコーダを使うことによって、受領されたデータを圧縮解除する圧縮解除モジュール33と、知覚的にデコードされたチャネルを再相関させる相関器34であって、DSHTと、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転とが実行される、相関器と、相関された、知覚的デコードされたチャネルをマトリクス処理する混合器であって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる混合器とを有する。原理的には、相関器34は空間的デコーダとしてはたらく。
【0158】
ある実施形態では、削減されたノイズをもつ多チャネルHOAオーディオ信号をデコードする装置は、エンコードされた多チャネルHOAオーディオ信号およびチャネル回転情報を受領するインターフェース手段330と;各チャネルを知覚的にデコードする知覚的デコーダを用いて受領されたデータを圧縮解除する圧縮解除モジュール33と;知覚的にデコードされたチャネルをaDSHTを使って相関させる相関器34であって、DSHTと、前記回転情報に基づく前記DSHTの空間的サンプリング格子の回転とが実行される、相関器と;相関された、知覚的デコードされたチャネルをマトリクス処理する混合器MXであって、ラウドスピーカー位置にマッピングされる再生可能なオーディオ信号が得られる混合器とを有する。
【0159】
ある実施形態では、前記デコードする装置における前記適応的DSHTは、該適応的DSHTのための初期のデフォルト球状サンプル格子を選択する手段と;M個の時間サンプルのブロックについて、前記回転情報に従って前記デフォルトの球状サンプル格子を回転させる回転処理手段と;回転された球状サンプル格子に対して前記DSHTを実行する変換処理手段とを有する。
【0160】
ある実施形態では、前記デコードする装置における前記相関器34は、適応的DSHTを使って各チャネルを同時に空間的にデコードする複数の空間的デコード・ユニット922を有し、さらに、スペクトル帯域化解除を実行するためのスペクトル帯域化解除ユニット924と、重複加算(OLA)をもつ時間から周波数への変換(TFT)の逆処理を実行するiTFT&OLAユニット925とを有する。前記スペクトル帯域化解除ユニットはその出力をiTFT&OLAユニットに与える。
【0161】
すべての実施形態において、削減されたノイズは、少なくとも、符号化ノイズ・マスキング解除の回避に関する。
【0162】
オーディオ信号の知覚的符号化は、人間の聴覚知覚に適応された符号化を意味する。オーディオ信号を知覚的符号化するとき、通例、量子化は高帯域オーディオ信号サンプルに対してではなく、人間の知覚に関係する個々の周波数帯域において実行されることを注意しておくべきである。よって、信号パワーと量子化ノイズとの比は個々の周波数帯域の間で変わりうる。よって、知覚的符号化は、通例、冗長性および/または非関連情報の削減を含み、一方、空間的符号化は通例、チャネル間の空間的な関係に関する。
【0163】
上記に記載した技術は、カルーネン・レーベ変換(KLT)を使う脱相関に対する代替と見ることができる。本発明の一つの利点は、サイド情報の量の強い削減であり、サイド情報はたった三つの角度を含む。KLTはサイド情報としてブロック相関行列の係数を、よってかなりより多くのデータを必要とする。さらに、本稿に開示した技術は、次の処理ブロックに進むときに遷移アーチファクトを軽減するために回転を微調整(またはファインチューニング)することを許容する。これは、その後の知覚的符号化の圧縮品質のために有益である。
【0164】
表1は、aDSHTとKLTとの間の直接的な比較を与える。いくつかの類似点は存在するものの、aDSHTはKLTに対して著しい利点を提供する。
【0165】
【表1】
表1:aDSHTとKLTの比較。
【0166】
本発明の根本的な新規な特徴がその好ましい実施形態に適用されるものとして示され、記述され、指摘されてきたが、本発明の精神から外れることなく、記載される装置および方法における、開示されるデバイスの形および詳細におけるおよびその動作におけるさまざまな省略および置換および変更が当業者によってなされてもよいことは理解されるであろう。実質的に同じように実質的に同じ機能を実行して同じ結果を達成する要素のあらゆる組み合わせが本発明の範囲内であることが明確に意図されている。ある記載される実施形態から別の記載される実施形態への要素の置換も完全に意図されており、考慮されている。
【0167】
本発明は純粋に例として記載されてきたのであって、本発明の範囲から外れることなく詳細の修正がなしうることは理解されるであろう。
【0168】
本記述および(該当する場合には)請求項および図面に開示される各特徴は、独立にまたは任意の適切な組み合わせにおいて提供されてもよい。適切な場合には、特徴はハードウェア、ソフトウェアまたは両者の組み合わせにおいて実装されうる。該当する場合には、接続は無線接続または有線の、必ずしも直接的または専用のものではない接続として実装されうる。
【0169】
請求項に現われる参照符号は単に例解のためであって、請求項の範囲に対して限定する効果はもたない。