(58)【調査した分野】(Int.Cl.,DB名)
HOA係数シーケンスの入力時間フレームをもつ、音場の高次アンビソニックス表現(HOA)を符号化するために必要とされるサイド情報の符号化を改善する方法であって、優勢な方向性信号および残差周囲HOA成分が決定され、前記優勢な方向性信号について予測が使われ、それにより、HOA係数の符号化されたフレームについて、前記予測を記述するサイド情報データを提供し、前記サイド情報データは:
ある方向について予測が実行されるか否かを示すビット配列;
実行されるべき予測について、使われるべき方向性信号のインデックスを表わす要素をもつ第一のデータ配列;
量子化されたスケーリング因子を表わす要素をもつ第二のデータ配列、を含むことができ、
当該方法は:
前記予測が実行されるべきか否かを示すビット値を提供し;
実行されるべき予測がない場合、前記サイド情報データにおいて前記ビット配列および前記第一および第二のデータ配列を省略し;
前記予測が実行されるべきである場合、ある方向について予測が実行されるか否かを示す前記ビット配列の代わりに、アクティブな予測の数と、予測が実行されるべき方向のインデックスを含む第三のデータ配列とが前記サイド情報データに含められるか否かを示すビット値を提供する
ステップを含む、方法。
HOA係数シーケンスの入力時間フレームをもつ、音場の高次アンビソニックス表現(HOA)を符号化するために必要とされるサイド情報の符号化を改善する装置であって、優勢な方向性信号および残差周囲HOA成分が決定され、前記優勢な方向性信号について予測が使われ、それにより、HOA係数の符号化されたフレームについて、前記予測を記述するサイド情報データを提供し、前記サイド情報データは:
ある方向について予測が実行されるか否かを示すビット配列;
実行されるべき予測について、使われるべき方向性信号のインデックスを表わす要素をもつ第一のデータ配列;
量子化されたスケーリング因子を表わす要素をもつ第二のデータ配列、を含むことができ、
当該装置は:
前記予測が実行されるべきか否かを示すビット値を提供し;
実行されるべき予測がない場合、前記サイド情報データにおいて前記ビット配列および前記第一および第二のデータ配列を省略し;
前記予測が実行されるべきである場合、ある方向について予測が実行されるか否かを示す前記ビット配列の代わりに、アクティブな予測の数と、予測が実行されるべき方向のインデックスを含む第三のデータ配列とが前記サイド情報データに含められるか否かを示すビット値を提供する、
装置。
【背景技術】
【0002】
高次アンビソニックス(HOA: Higher Order Ambisonics)は、波面合成(WFS: wave field synthesis)または2.2マルチチャネル・オーディオ・フォーマットのようなチャネル・ベースのアプローチのような他の技法もあるうちでの、三次元音を表現するための一つの可能性を提供する。チャネル・ベースの方法とは対照的に、HOA表現は特定のスピーカー・セットアップとは独立であるという利点をもたらす。しかしながら、この柔軟性は、特定のスピーカー・セットアップでのHOA表現の再生のために必要とされるデコード・プロセスの代償を伴う。必要とされるスピーカーの数が通例非常に多いWFSアプローチに比べ、HOA信号は少数のスピーカーのみからなるセットアップにレンダリングされてもよい。HOAのさらなる利点は、同じ表現を、修正なしでヘッドフォンへのバイノーラル・レンダリングのために用いることもできるということである。
【0003】
HOAは、複素調和平面波振幅の空間密度の、打ち切りされた球面調和関数(SH)展開による表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数によって等価に表現できる。よって、一般性を失うことなく、完全なHOA音場表現は、実際に、O個の時間領域関数からなると想定されることができる。ここで、Oは展開係数の数を表わす。これらの時間領域関数は、以下では、等価だが、HOA係数シーケンスまたはHOAチャネルと称される。
【0004】
HOA表現の空間分解能は、展開の最大次数Nの増大とともに改善する。残念ながら、展開係数の数Oは次数Nとともに二次で、特にO=(N+1)
2の形で増大する。たとえば、次数N=4を使う典型的なHOA表現はO=25個のHOA(展開)係数を必要とする。以前になされた考察によれば、HOA表現の伝送のための全ビットレートは、所望される単一チャネル・サンプリング・レートf
Sおよびサンプル当たりのビット数N
bを与えられて、O・f
S・N
bによって決定される。結果として、次数N=4のHOA表現をf
S=48kHzのサンプリング・レートで、サンプル当たりN
b=16ビットを用いて伝送することは、19.2MBits/sのビットレートにつながる。これは、たとえばストリーミングのような多くの実際的な用途にとって非常に高い。このように、HOA表現の圧縮がきわめて望ましい。
【0005】
HOA音場表現の圧縮はWO2013/171083A1、EP13305558.2およびPCT/EP2013/075559において提案されている。これらの処理は、音場解析を実行し、与えられたHOA表現を方向性成分(directional component)と残差周囲成分(residual ambient component)に分解することで共通している。一方では、最終的な圧縮された表現は、いくつかの量子化された信号からなることが想定され、該量子化された信号は、方向性信号と周囲HOA成分(ambient HOA component)の関連する係数シーケンスとの知覚的符号化から帰結する。他方では、最終的な圧縮された表現は、量子化された信号に関係する追加的なサイド情報を含むと想定される。このサイド情報は、HOA表現の、その圧縮されたバージョンからの再構成のために必要である。
【0006】
サイド情報の重要な部分は、方向性信号からのもとのHOA表現の諸部分の予測の記述である。この予測のためには、もとのHOA表現は、空間的に一様に分布した諸方向から入射するいくつかの空間的に分散した一般平面波によって等価に表現されると想定されるので、この予測は以下では空間的予測(spatial prediction)と称される。
【0007】
空間的予測に関係したそのようなサイド情報の符号化は、非特許文献1において記述されている。しかしながら、サイド情報のこの現状技術の符号化はかなり非効率的である。
【発明を実施するための形態】
【0016】
以下では、空間的予測に関係するサイド情報の本発明の符号化が使用されるコンテキストを与えるために、特許出願EP13305558.2に記載されるHOA圧縮および圧縮解除処理を要約しておく。
【0017】
〈HOA圧縮〉
図1には、特許出願EP13305558.2に記載されるHOA圧縮処理にどのように空間的予測に関係するサイド情報の符号化を埋め込むことができるかが示されている。HOA表現圧縮については、長さLのHOA係数シーケンスの重なりのない入力フレームC(k)を用いたフレームごとの処理が想定される。ここで、kはフレーム・インデックスを表わす。
図1における最初の段階または段11/12は任意的であり、HOA係数シーケンスC(k)の重なりのないk番目および(k−1)番目のフレームを長フレーム
【数1】
に連結することからなる。この長フレームは隣接する長フレームと50%重なっており、この長フレームは優勢な音源方向の推定のために相続いて使われる。チルダ付きのC(k)についてのこの記法と同様に、チルダ記号は以下では、それぞれの量が重なりのある長フレームについてのものであることを示すために使われる。段階/段11/12が存在しなければ、チルダ記号は特に意味をもたない。ボールドのパラメータは値の集合、たとえば行列またはベクトルを意味する。
【0018】
長フレーム〔チルダ付きのC(k)〕は、EP13305558.2に記載されるように優勢な音源方向の推定のために段階または段13において相続いて使われる。この推定は、検出された関係する方向性信号のインデックスのデータ集合
【数2】
と、それらの方向性信号の対応する方向推定値のデータ集合
【数3】
とを与える。Dは、HOA圧縮を開始する前に設定される必要があり、後続の既知の処理において扱われることのできる方向性信号の最大数を表わす。
【0019】
段階または段14では、HOA係数シーケンスの現在の(長)フレーム〔チルダ付きのC(k)〕が(EP13305156.5において提案されるように)集合
【数4】
に含まれる方向に属するいくつかの方向性信号X
DIR(k−2)と、残差周囲HOA成分C
AMB(k−2)とに分解される。なめらかな信号をえるための重複加算(overlap-add)処理の結果として2フレームぶんの遅延が導入される。X
DIR(k−2)は合計D個のチャネルを含んでいるが、このうちアクティブな方向性信号に対応するもののみが0でないと想定される。これらのチャネルを指定するインデックスは、データ集合
【数5】
において出力されると想定される。加えて、段階/段14における分解は、方向性信号からもとのHOA表現の諸部分を予測するために圧縮解除側で使用できるいくつかのパラメータζ(k−2)を提供する(さらなる詳細についてはEP13305156.5参照)。空間的予測パラメータζ(k−2)の意味を説明するために、下記のセクション〈HOA分解〉において、HOA分解についてより詳細に述べる。
【0020】
段階または段15において、周囲HOA成分C
AMB(k−2)の係数の数は、たったO
RED+D−N
DIR,ACT(k−2)個の0でないHOA係数シーケンスを含むよう低減される。ここで、
【数6】
はデータ集合
【数7】
の濃度、すなわちフレームk−2におけるアクティブな方向性信号の数を示す。周囲HOA成分は常に最小数O
REDのHOA係数シーケンスによって表現されると想定されるので、この問題は、実際には、可能なO−O
RED個からの残りのD−N
DIR,ACT(k−2)個のHOA係数シーケンスの選択に帰着できる。なめらかな低減された周囲HOA表現を得るために、この選択は、直前のフレームk−3において行なわれた選択に比べて、できるだけ少数の変更が生じるように達成される。
【0021】
低減された(reduced)数O
RED+N
DIR,ACT(k−2)個の0でない係数シーケンスをもつ最終的な周囲HOA表現はC
AMB,RED(k−2)によって表わされる。選ばれた周囲HOA係数シーケンスのインデックスはデータ集合
【数8】
において出力される。段階/段16では、X
DIR(k−2)に含まれるアクティブな方向性信号およびC
AMB,RED(k−2)に含まれるHOA係数シーケンスは、EP13305558.2に記載されるように、個々の知覚的エンコードのためのI個のチャネルのフレームY(k−2)に割り当てられる。知覚的符号化段階/段17は、フレームY(k−2)のI個のチャネルをエンコードし、エンコードされたフレーム
【数9】
を出力する。
【0022】
本発明によれば、段階/段14におけるもとのHOA表現の分解後、HOA表現の分解から帰結する空間的予測パラメータまたはサイド情報データζ(k−2)が段階または段19において、符号化された(coded)データ表現ζ
COD(k−2)を提供するために、インデックス集合
【数10】
を遅延18において2フレームだけ遅延させたものを使って、無損失で符号化される。
【0023】
〈HOA圧縮解除〉
図2では、空間的予測に関係する受領されたエンコードされたサイド情報データζ
COD(k−2)のデコードを、段階または段25において、特許出願EP13305558.2の
図3に記載されるHOA圧縮解除処理にどのように埋め込むかが例示的に示されている。エンコードされたサイド情報データζ
COD(k−2)のデコードは、そのデコードされたバージョンζ(k−2)を段階または段23におけるHOA表現の合成に入力する前に、受領されたインデックス集合
【数11】
を遅延24において2フレームだけ遅延させたものを使って、実行される。
【0024】
段階または段21では、
【数12】
に含まれるI個の信号の知覚的デコードが、
【数13】
におけるI個のデコードされた信号を得るために、実行される。
【0025】
信号再分配段階または段22では、
【数14】
における知覚的にデコードされた信号は、方向性信号のフレーム
【数15】
および周囲HOA成分のフレーム
【数16】
を再生成するために再分配される。それらの信号をどのように再分配するかについての情報は、インデックス・データ集合
【数17】
を使って、HOA圧縮のために実行された割り当て動作を再現することによって得られる。
【0026】
合成段階または段23において、所望される全HOA表現の現在フレーム
【数18】
が(PCT/EP2013/075559の
図2bおよび
図4との関連で記載されている処理に従って)再合成される。これには、方向性信号のフレーム
【数19】
と、アクティブな方向性信号のインデックスの集合
【数20】
および対応する方向の集合
【数21】
と、方向性信号からHOA表現の諸部分を予測するためのパラメータζ(k−2)と、低減された周囲HOA成分のHOA係数シーケンスのフレーム
【数22】
とを使う。
【0027】
数22は、PCT/EP2013/075559における成分
【数23】
に対応し、数21および数20はPCT/EP2013/075559における
【数24】
に対応する。ここで、アクティブな方向性信号のインデックスは、有効な要素を含んでいる数24の行のインデックスを取ることによって得られる。すなわち、一様に分布した方向に関する方向性信号は、方向性信号
【数25】
から、予測のための受領されたパラメータζ(k−2)を使って、予測され、その後、現在の圧縮解除されたフレーム
【数26】
が、方向性信号のフレーム
【数27】
と、
【数28】
と、前記の予測された諸部分および低減された周囲HOA成分
【数29】
とから再合成される。
【0028】
〈HOA分解〉
図3との関連で、HOA分解処理について、そこでの空間的予測の意味を説明するために詳細に述べる。処理は、特許出願PCT/EP2013/075559の
図3との関連で記載されている処理から導かれる。
【0029】
第一に、平滑化された方向性信号X
DIR(k−1)およびそのHOA表現C
DIR(k−1)が段階または段31において、入力HOA表現の長フレーム
【数30】
と、方向の集合
【数31】
と、方向性信号の対応するインデックスの集合
【数32】
とを使って計算される。X
DIR(k−1)は合計D個のチャネルを含んでいるが、このうちアクティブな方向性信号に対応するもののみが0でないと想定される。これらのチャネルを指定するインデックスは、集合
【数33】
において出力されると想定される。
【0030】
段階/段33では、もとのHOA表現〔チルダ付きのC(k−1)〕と優勢な方向性信号のHOA表現C
DIR(k−1)との間の残差(residual)が、O個の方向性信号
【数34】
によって表現される。これらの信号は、一様グリッドと称される一様に分布した方向からの一般平面波と考えることができる。
【0031】
段階または段34では、これらの方向性信号が優勢な方向性信号X
DIR(k−1)から予測される。予測される信号
【数35】
を、それぞれの予測パラメータζ(k−1)とともに提供するためである。この予測のためには、集合
【数36】
に含まれるインデックスdをもつ優勢な方向性信号x
DIR,d(k−1)のみが考慮される。予測は、下記の〈空間的予測〉の節でより詳細に述べる。
【0032】
段階または第35では、予測された方向性信号
【数37】
の平滑化されたHOA表現
【数38】
が計算される。
【0033】
段階または段37では、もとのHOA表現〔チルダ付きのC(k−2)〕と、優勢な方向性信号のHOA表現C
DIR(k−2)に一様に分布した方向からの予測された方向性信号のHOA表現
【数39】
を合わせたものとの間の残差C
AMB(k−2)が計算され、出力される。
【0034】
図3の処理における要求される信号遅延は、対応する遅延381および387によって実行される。
【0035】
〈空間的予測〉
空間的予測の目標は、O個の残差信号
【数40】
を、平滑化された方向性信号の拡張されたフレーム
【数41】
から予測することである(上記の節〈HOA分解〉および特許出願PCT/EP2013/075559における記述を参照)。
【0036】
それぞれの残差信号
【数42】
は、方向Ω
qから入射する空間的に分散された一般平面波を表わす。ここで、すべての方向Ω
q、q=1,…,Oは単位球面上にほぼ一様に分布していることが想定される。全方向の総合が「グリッド」と称される。
【0037】
それぞれの方向性信号
【数43】
は、方向Ω
ACT,d(k−3)、Ω
ACT,d(k−2)、Ω
ACT,d(k−1)およびΩ
ACT,d(k)の間で補間された軌跡から入射する一般平面波を表わす。ここで、d番目の方向性信号はそれぞれのフレームについてアクティブであると想定する。
【0038】
空間的予測の意味を一例によって例解するために、次数N=3のHOA表現の分解を考える。ここでは、抽出すべき方向の最大数はD=4に等しい。簡単のため、さらに、インデックス1および4をもつ方向性信号のみがアクティブであり、他方、インデックス2および3をもつ方向性信号は非アクティブであると想定する。さらに、簡単のため、優勢な音源の方向が、考慮される諸フレームについて一定である、すなわち、d=1,4について、
Ω
ACT,d(k−3)=Ω
ACT,d(k−2)=Ω
ACT,d(k−1)=Ω
ACT,d(k)=Ω
ACT,d (5)
あると想定される。次数N=3である結果として、空間的に分散した一般平面波
【数44】
のO=16個の方向Ω
qがある。
図4は、これらの方向を、アクティブな優勢な音源の方向Ω
ACT,1およびΩ
ACT,4とともに示している。
【0039】
〈空間的予測を記述するための現状技術のパラメータ〉
空間的予測を記述する一つの方法が、上述したISO/IECの非特許文献1において呈示されている。非特許文献1では、信号
【数45】
は、あらかじめ定義された最大数D
PREDの方向性信号の重み付けされた和によって、あるいは該重み付けされた和の低域通過フィルタリングされたバージョンによって、予測されると想定される。空間的予測に関係するサイド情報は、パラメータ集合ζ(k−1)={p
TYPE(k−1),P
IND(k−1),P
Q,F(k−1)}によって記述される。このパラメータ集合は次の三つの成分からなる。
【0040】
・要素p
TYPE,q(k−1)、q=1,…,Oからなるベクトルp
TYPE(k−1)は、q番目の方向Ω
qについて、予測が実行されるか否かを示し、もしそうであれば、どの種類の予測かも示す。上記要素の意味は次のとおり:
p
TYPE,q(k−1)=0 方向Ω
qについて予測なしの場合
=1 方向Ω
qについてフル帯域予測の場合 (6)
=2 方向Ω
qについて低域予測の場合。
【0041】
・要素p
IND,d,q(k−1)、d=1,…,D
PRED、q=1,…,Oからなる行列P
IND(k−1)は、対応する方向性信号から方向Ω
qについての予測が実行されなければならないインデックスを表わす。方向Ω
qについて実行されるべき予測がなければ、行列P
IND(k−1)の対応する列は0からなる。さらに、方向Ω
qについての予測のために使われる方向性信号がD
PRED個未満であれば、P
IND(k−1)のq番目の列の必要とされない要素も0である。
【0042】
・対応する量子化された予測因子p
Q,F,d,q(k−1)、d=1,…,D
PRED、q=1,…,Oを含む行列P
Q,F(k−1)。
【0043】
次の二つのパラメータは、これらのパラメータの適切な解釈を可能にするためにデコード側で知られている必要がある:
・一般平面波信号
【数46】
が予測されることが許容されるもとになる方向性信号の最大数D
PRED。
・予測因子p
Q,F,d,q(k−1)、d=1,…,D
PRED、q=1,…,Oを量子化するために使われるビット数B
SC。量子化解除規則は式(10)で与えられる。
【0044】
これら二つのパラメータは、エンコーダおよびデコーダに既知の固定値に設定されるか、あるいは追加的に、ただしフレームレートより著しく低頻度で、伝送される必要がある。後者のオプションは、二つのパラメータを圧縮されるべきHOA表現に適合させるために使われてもよい。パラメータ集合についての例は、O=16、D
PRED=2、B
SC=8として、次のような感じであってもよい。
【0045】
【数47】
そのようなパラメータは、方向Ω
1からの一般平面波信号
【数48】
が方向Ω
ACT,1からの方向性信号
【数49】
から、値40を量子化解除することから帰結する因子との純粋な乗算(すなわち、フル帯域)によって予測されることを意味する。さらに、方向Ω
7からの一般平面波信号
【数50】
は、方向性信号
【数51】
から、低域通過フィルタリングおよび値15および−13を量子化解除することから帰結する因子との乗算によって予測される。
【0046】
このサイド情報を与えられて、予測は次のように実行されると想定される。
【0047】
第一に、量子化された予測因子p
Q,F,d,q(k−1)、d=1,…,D
PRED、q=1,…,Oが量子化解除されて、実際の予測因子を与える。
【0048】
【数52】
すでに述べたように、B
SCは、予測因子の量子化のために使われるべきあらかじめ定義されたビット数を表わす。さらに、p
IND,d,q(k−1)が0に等しければp
F,d,q(k−1)は0に設定されると想定される。
【0049】
先述した例について、B
SC=8とすると、量子化解除された予測因子ベクトルの結果、次が得られる。
【0050】
【数53】
さらに、低域通過予測を実行するために、長さL
h=31のあらかじめ定義された低域通過FIRフィルタ
h
LP:=[h
LP(0) h
LP(1) … h
LP(L
h−1)] (12)
が使われる。フィルタ遅延はD
h=15サンプルによって与えられる。
【0051】
信号として予測された信号
【数54】
および方向性信号
【数55】
が
【数56】
によってそのサンプルから構成されていると想定すると、予測される信号のサンプル値は
【数57】
によって与えられる。
【0052】
すでに述べており、今や式(17)からも見て取れるように、信号
【数58】
は、あらかじめ定義された最大数D
PRED個の方向性信号の重み付けされた和によって、あるいは該重み付けされた和の低域通過フィルタリングされたバージョンによって、予測されると想定される。
【0053】
〈空間的予測に関係したサイド情報の現状技術の符号化〉
上述したISO/IECの非特許文献1において、空間的予測のサイド情報の符号化が扱われている。それは、
図5に描かれるアルゴリズム1にまとめられており、以下で説明する。呈示をより明確にするため、フレーム・インデックスk−1はすべての式において無視する。
【0054】
第一に、O個のビットからなるビット配列ActivePredが生成される。ここで、ビットActivePred[q]は方向Ω
qについて予測が実行されるか否かを示す。この配列における「1」の数はNumActivePredによって表わされる。
【0055】
次に、長さNumActivePredのビット配列PredTypeが生成される。ここで、各ビットは、予測が実行されるべき方向について、予測の種類を、すなわちフル帯域か低域通過かを示す。同時に、長さNumActivePred・D
PREDの符号なし整数配列PredDirSigIdsが生成される。その要素は、各アクティブな予測について、使用されるべき方向性信号のD
PRED個のインデックスを表わす。D
REPD個より少ない方向性信号が予測のために使われる場合には、インデックスは0に設定されると想定される。配列PredDirSigIdsの各要素は、
【数59】
ビットによって表現されると想定される。配列PredDirSigIdsにおける0でない要素の数はNumNonZeroIdsによって表わされる。
【0056】
最後に、長さNumNonZeroIdsの整数配列QuantPredGainsが生成される。その要素は式(17)において使用されるべき量子化されたスケーリング因子p
Q,F,d,q(k−1)を表わすと想定される。対応する量子化解除されたスケーリング因子p
F,d,q(k−1)を得るための量子化解除は式(10)において与えられている。配列QuantPredGainsの各要素は、B
SCビットによって表現されると想定される。
【0057】
結局、サイド情報の符号化された表現ζ
CODは、
ζ
COD=[ActivePred PredType PredDirSigIds QuantPredGains] (19)
に従って上記の四つの配列からなる。
【0058】
この符号化を例によって説明するために、式(7)ないし(9)の符号化された表現が使われる:
【数60】
必要とされるビット数は16+2+3・4+8・3=54に等しい。
【0059】
〈本発明による空間的予測に関係したサイド情報の符号化〉
空間的予測に関係したサイド情報の符号化の効率を高めるために、現状技術の処理が有利に修正される。
【0060】
A)典型的なサウンド・シーンのHOA表現を符号化するとき、本発明者らは、HOA圧縮処理において空間的予測を全く実行しないという決定がなされるフレームがしばしばあることを観察した。しかしながら、そのようなフレームにおいて、ビット配列ActivePredは0のみからなり、0の数はOに等しい。そのようなフレーム内容はきわめて頻繁に生起するため、本発明の処理は、符号化された表現ζ
CODの前に単一のビットPSPredictionActiveを付加する。これは、何らかの予測が実行されるべきか否かを示す。ビットPSPredictionActiveの値が0(または代替例では「1」)であれば、配列ActivePredおよび予測に関係するさらなるデータは、符号化されたサイド情報ζ
CODに含められない。実際上、この処理は、ζ
CODの伝送のための平均ビットレートを時間とともに低下させる。
【0061】
B)典型的なサウンド・シーンのHOA表現を符号化する際になされたさらなる観察は、アクティブな予測の数NumActivePredがしばしば非常に少ないということである。そのような状況では、各方向Ω
qについて予測が実行されるか否かを示すためにビット配列ActivePredを使う代わりに、アクティブな予測の数およびそれぞれのインデックスを伝送または転送するほうが効率的であることがある。特に、アクティブなものを符号化するこの変種は、NumActivePred≦M
Mである場合に、より効率的である。ここで、M
Mは次式を満たす最大の整数である。
【0062】
【数61】
M
Mの値は、上述したように、HOA次数N:O=(N+1)
2の知識があってはじめて計算できる。
【0063】
式(25)において、
【数62】
はアクティブな予測の実際の数NumActivePredを符号化するために必要とされるビット数を表わし、
【数63】
はそれぞれの方向インデックスを符号化するために必要とされるビット数である。式(25)の右辺は配列ActivePredのビット数に対応し、これは既知の方法で同じ情報を符号化するために必要とされるものである。
【0064】
上述した説明により、予測が実行されることになっている方向のインデックスがどのような仕方で符号化されるかを示すために、単一のビットKindOfCodedPredIdsが使用されることができる。ビットKindOfCodedPredIdsが値「1」(または代替例では「0」)をもつ場合には、数NumActivePredと、予測が実行されることになっている方向のインデックスを含む配列PredIdsとが、符号化されたサイド情報ζ
CODに加えられる。そうではなく、ビットKindOfCodedPredIdsが値「0」(または代替例では「1」)をもつ場合には、同じ情報を符号化するために配列ActivePredが使われる。平均的には、この動作は、ζ
CODの伝送のためのビットレートを時間とともに低下させる。
【0065】
C)サイド情報符号化効率をさらに高めるために、予測のために使われるアクティブな方向性信号の実際に利用可能な数はしばしばDより少ないという事実が活用される。これは、インデックス配列PredDirSigIdsの各要素の符号化のために、
【数64】
個未満のビットが必要とされることを意味する。特に、予測のために使われるアクティブな方向性信号の実際に利用可能な数は、それらアクティブな方向性信号のインデックス
【数65】
を含むデータ集合
【数66】
の要素の数
【数67】
によって与えられる。よって、
【数68】
ビットが、インデックス配列PredDirSigIdsの各要素、どの種類の符号化がより効率的かを符号化するために使用できる。デコーダでは、データ集合
【数69】
は既知であると想定される。よって、デコーダは、方向性信号のインデックスをデコードするために何ビット読む必要があるかを知っている。計算されるべきζ
CODのフレーム・インデックスおよび使用されるインデックス・データ集合
【数70】
は同一である必要があることを注意しておく。
【0066】
既知のサイド情報符号化処理についての上記の修正A)ないしC)の結果、
図6に描かれる例示的な符号化処理が得られる。
【0067】
結果的に、符号化されたサイド情報は以下の成分からなる:
【数71】
注:上述したISO/IECの非特許文献1、たとえば6.1.3節では、QuantPredGainsはPredGainsと呼ばれているが、これは量子化された値を含む。
【0068】
式(7)ないし(9)の例についての符号化された表現は次のようになる。
【0069】
【数72】
必要とされるビット数は1+1+2+2・4+2+2・4+8・3=46である。
【0070】
有利なことに、式(20)ないし(23)における現状技術の符号化された表現に比べ、本発明に従って符号化されたこの表現が必要とするのは8ビット少ない。
【0071】
エンコーダ側でビット配列PredTypeを提供しないことも可能である。
【0072】
〈空間的予測に関係した修正されたサイド情報符号化のデコード〉
空間的予測に関係した修正されたサイド情報のデコードが
図7および
図8に描かれる例示的なデコード処理にまとめられており(
図8に描かれている処理は
図7に描かれている処理の続きである)、以下で説明する。
【0073】
最初に、ベクトルp
TYPEならびに行列P
INDおよびP
Q,Fのすべての要素が0によって初期化される。次いで、ビットPSPredictionActiveが読まれる。これはそもそも空間的予測が実行されるかどうかを示す。空間的予測の場合(すなわち、PSPredictionActive=1)、ビットKindOfCodedPredIdsが読まれる。これは、予測が実行されるべき方向のインデックスの符号化の種類を示す。
【0074】
KindOfCodedPredIds=0の場合、長さOのビット配列ActivePredが読まれる。この配列のq番目の要素は方向Ω
qについて予測が実行されるか否かを示す。次の段階では、配列ActivePredから、予測の数NumActivePredが計算され、長さNumActivePredのビット配列PredTypeが読まれる。この配列の要素は、関連する各方向について実行されるべき予測の種類を示す。ActivePredおよびPredTypeに含まれる情報を用いて、ベクトルp
TYPEの要素が計算される。
【0075】
ビット配列PredTypeをエンコーダ側で提供せず、ビット配列ActivePredからベクトルp
TYPEの要素を計算することも可能である。
【0076】
KindOfCodedPredIds=1の場合、
【数73】
ビットを用いて符号化されると想定される、アクティブな予測の数NumActivePredが読まれる。ここで、M
Mは式(25)を満たす最大の整数である。次いで、NumActivePred個の要素からなるデータ配列PredIdsが読まれる。ここで、各要素は
【数74】
ビットによって符号化されると想定される。この配列の要素は、予測が実行される必要のある方向のインデックスである。相続いて、長さNumActivePredのビット配列PredTypeが読まれる。その要素は関連する各方向について実行されるべき予測の種類を示す。NumActivePred、PredIdsおよびPredTypeの知識を用いて、ベクトルp
TYPEの要素が計算される。
【0077】
ビット配列PredTypeをエンコーダ側で提供せず、数NumActivePredおよびデータ配列PredIdsからベクトルp
TYPEの要素を計算することも可能である。
【0078】
いずれの場合にも(すなわち、KindOfCodedPredIds=0およびKindOfCodedPredIds=1)、次の段階で、NumActivePred・D
PRED個の要素からなる配列PredDirSigIdsが読まれる。各要素は
【数75】
ビットによって符号化されると想定される。
【0079】
【数76】
に含まれる情報を使って、行列P
INDの要素が設定され、P
INDにおける0でない要素の数NumNonZeroIdsが計算される。
【0080】
最後に、それぞれB
SCビットによって符号化されるNumNonZeroIds個の要素からなる配列QuantPredGainsが読まれる。P
INDおよびQuantPredGainsに含まれる情報を使って、行列P
Q,Fの要素が設定される。
【0081】
本発明の処理は、単一のプロセッサまたは電子回路によって、あるいは並列に動作するおよび/または本発明の処理の異なる部分に対して作用するいくつかのプロセッサまたは電子回路によって実行されることができる。
いくつかの態様を記載しておく。
〔態様1〕
HOA係数シーケンスの入力時間フレームをもつ、音場の高次アンビソニックス表現(HOA)を符号化するために必要とされるサイド情報の符号化を改善する方法であって、優勢な方向性信号および残差周囲HOA成分が決定され、前記優勢な方向性信号について予測が使われ、それにより、HOA係数の符号化されたフレームについて、前記予測を記述するサイド情報データ(ζ(k−2))を提供し、前記サイド情報データ(ζ(k−2))は:
・ある方向について予測が実行されるか否かを示すビット配列(ActivePred);
・実行されるべき予測について、使われるべき方向性信号のインデックスを表わす要素をもつデータ配列(PredDirSigIds);
・量子化されたスケーリング因子を表わす要素をもつデータ配列(QuantPredGains)、を含むことができ、
当該方法は:
・前記予測が実行されるべきか否かを示すビット値(PSPredictionActive)を提供し(19;34,384);
・実行されるべき予測がない場合、前記サイド情報データ(ζ(k−2))において前記ビット配列および前記データ配列を省略し;
・前記予測が実行されるべきである場合、ある方向について予測が実行されるか否かを示す前記ビット配列(ActivePred)の代わりに、アクティブな予測の数(NumActivePred)と、予測が実行されるべき方向のインデックスを含むデータ配列(PredIds)とが前記サイド情報データ(ζ(k−2))に含められるか否かを示すビット値(KindOfCodedPredIds)を提供する
ステップを含む、方法。
〔態様2〕
HOA係数シーケンスの入力時間フレームをもつ、音場の高次アンビソニックス表現(HOA)を符号化するために必要とされるサイド情報の符号化を改善する装置であって、優勢な方向性信号および残差周囲HOA成分が決定され、前記優勢な方向性信号について予測が使われ、それにより、HOA係数の符号化されたフレームについて、前記予測を記述するサイド情報データ(ζ(k−2))を提供し、前記サイド情報データ(ζ(k−2))は:
・ある方向について予測が実行されるか否かを示すビット配列(ActivePred);
・実行されるべき予測について、使われるべき方向性信号のインデックスを表わす要素をもつデータ配列(PredDirSigIds);
・量子化されたスケーリング因子を表わす要素をもつデータ配列(QuantPredGains)、を含むことができ、
当該装置は:
・前記予測が実行されるべきか否かを示すビット値(PSPredictionActive)を提供し;
・実行されるべき予測がない場合、前記サイド情報データ(ζ(k−2))において前記ビット配列および前記データ配列を省略し;
・前記予測が実行されるべきである場合、ある方向について予測が実行されるか否かを示す前記ビット配列(ActivePred)の代わりに、アクティブな予測の数(NumActivePred)と、予測が実行されるべき方向のインデックスを含むデータ配列(PredIds)とが前記サイド情報データ(ζ(k−2))に含められるか否かを示すビット値(KindOfCodedPredIds)を提供する
手段(19;34,384)を含む、装置。
〔態様3〕
前記HOA表現の前記符号化において、優勢な音源方向の推定(13)が実行され、検出された方向性信号のインデックスのデータ集合
【数77】
を提供する、態様1記載の方法または態様2記載の装置。
〔態様4〕
Dは前記HOA係数シーケンスの前記符号化において使用できる方向性信号の事前設定された最大数であり、実行されるべき予測について、使われるべき方向性信号のインデックスを表わす前記データ配列(PredDirSigIds)の各要素は
【数78】
ビットではなく
【数79】
ビットを使って符号化され、
【数80】
は検出された方向性信号のインデックスの前記データ集合の要素の数である、
態様3記載の方法または態様3記載の装置。
〔態様5〕
アクティブな予測の数NumActivePredと、予測が実行されるべき方向のインデックスを含む配列(PredIds)とが前記サイド情報データ(ζ(k−2))に含められることを示す前記ビット値(KindOfCodedPredIds)が、NumActivePred≦MMの場合にのみ提供され、ここで、MMは
【数81】
を満たす最大の整数であり、Nは前記HOA表現の次数である、態様1、3または4のうちいずれか一項記載の方法または態様2ないし4のうちいずれか一項記載の装置。
〔態様6〕
態様3記載の方法に従って符号化されたサイド情報データ(ζ(k−2))をデコードする方法であって、当該方法は:
・前記予測が実行されるか否かを示す前記ビット値(PSPredictionActive)を評価する段階(25)と;
・前記予測が実行されるべきである場合、
a)ある方向について予測が実行されるべきか否かを示す前記ビット配列(ActivePred)、または
b)アクティブな予測の前記数(NumActivePred)および予測が実行されるべき方向のインデックスを含む前記配列(PredIds)
のどちらが前記サイド情報データ(ζ(k−2))のデコードにおいて使用されるかを示す前記ビット値(KindOfCodedPredIds)を評価し(25)、a)の場合:
ある方向について予測が実行されるべきか否かを示す前記ビット配列(ActivePred)を評価し、その要素が対応する方向について予測が実行されるかどうかを示し;
前記ビット配列(ActivePred)からベクトル(pTYPE)の要素を計算し;
b)の場合:
アクティブな予測の前記数(NumActivePred)を評価し;
予測が実行されるべき方向のインデックスを含む前記データ配列(PredIds)を評価し;
前記数(NumActivePred)および前記データ配列(PredIds)からベクトル(pTYPE)の要素を計算する、段階と;
a)およびb)の場合における:
・実行されるべき予測について、使用されるべき方向性信号のインデックスを表わす要素をもつ前記データ配列(PredDirSigIds)を評価する段階と;
・前記ベクトル(pTYPE)、方向性信号のインデックスの前記データ集合
【数82】
および前記データ配列(PredDirSigIds)から、対応する方向性信号からある方向についての前記予測が実行されるインデックスを表わす行列(PIND)の要素および該行列における0でない要素の数を計算する段階と;
・前記予測において使用される量子化されたスケーリング因子を表わす要素をもつ前記データ配列(QuantPredGains)を評価する段階とを含む、
方法。
〔態様7〕
態様3記載の装置に従って符号化されたサイド情報データ(ζ(k−2))をデコードする装置であって、当該装置は:
・前記予測が実行されるか否かを示す前記ビット値(PSPredictionActive)を評価する段階(25)と;
・前記予測が実行されるべきである場合、
a)ある方向について予測が実行されるべきか否かを示す前記ビット配列(ActivePred)、または
b)アクティブな予測の前記数(NumActivePred)および予測が実行されるべき方向のインデックスを含む前記配列(PredIds)
のどちらが前記サイド情報データ(ζ(k−2))のデコードにおいて使用されるかを示す前記ビット値(KindOfCodedPredIds)を評価し(25)、a)の場合:
ある方向について予測が実行されるべきか否かを示す前記ビット配列(ActivePred)を評価し、その要素が対応する方向について予測が実行されるかどうかを示し;
前記ビット配列(ActivePred)からベクトル(pTYPE)の要素を計算し;
b)の場合:
アクティブな予測の前記数(NumActivePred)を評価し;
予測が実行されるべき方向のインデックスを含む前記データ配列(PredIds)を評価し;
前記数(NumActivePred)および前記データ配列(PredIds)からベクトル(pTYPE)の要素を計算する、段階と;
a)およびb)の場合における:
・実行されるべき予測について、使用されるべき方向性信号のインデックスを表わす要素をもつ前記データ配列(PredDirSigIds)を評価する段階と;
・前記ベクトル(pTYPE)、方向性信号のインデックスの前記データ集合
【数83】
および前記データ配列(PredDirSigIds)から、対応する方向性信号からある方向についての前記予測が実行されるインデックスを表わす行列(PIND)の要素および該行列における0でない要素の数を計算する段階と;
・前記予測において使用される量子化されたスケーリング因子を表わす要素をもつ前記データ配列(QuantPredGains)を評価する段階とを含む実行するプロセッサを含む、
装置。
〔態様8〕
実行されるべき予測について、使われるべき方向性信号のインデックスを表わし、
【数84】
ビットを使って符号化された前記データ配列(PredDirSigIds)の各要素が対応してデコードされ、
【数85】
は方向性信号のインデックスの前記データ集合の要素の数である、
態様6記載の方法または態様7記載の装置。
〔態様9〕
態様1記載の方法に従って符号化されているデジタル・オーディオ信号。
〔態様10〕
コンピュータで実行されたときに態様1記載の方法を実行する命令を含むコンピュータ・プログラム・プロダクト。