(58)【調査した分野】(Int.Cl.,DB名)
1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成するための請求項6乃至10のいずれか1項に記載の装置(250)と、
前記1つ以上の符号化済みオーディオ信号と前記1つ以上の処理済みメタデータ信号とを受信し、前記1つ以上の符号化済みオーディオ信号と前記1つ以上の処理済みメタデータ信号とに依存して1つ以上のオーディオチャネルを生成するための、請求項1乃至4のいずれか1項に記載の装置(100)と、
を備えるシステム。
【発明を実施するための形態】
【0026】
図2は、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成するための一実施形態に係る装置250を示す。
【0027】
装置250は、1つ以上のオリジナル・メタデータ信号を受信し、1つ以上の処理済みメタデータ信号を決定する、メタデータ符号器210を含む。1つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、1つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す。
【0028】
更に、装置250は、1つ以上のオーディオオブジェクト信号を符号化して1つ以上の符号化済みオーディオ信号を取得する、オーディオ符号器220を含む。
【0029】
メタデータ符号器210は、1つ以上の処理済みメタデータ信号(z
1,…,z
N)の各処理済みメタデータ信号(z
i)の複数の処理済みメタデータサンプル(z
i(1),…,z
i(n-1), z
i(n))の各処理済みメタデータサンプル(z
i(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、
処理済みメタデータサンプル(z
i(n))が、前記1つ以上のオリジナル・メタデータ信号の1つ(x
i)の複数のオリジナル・メタデータサンプルの1つ(x
i(n))と処理済みメタデータ信号(z
i)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、処理済みメタデータサンプル(z
i(n))が、1つ以上の
オリジナル・メタデータ信号の1つ(x
i)のオリジナル・メタデータサンプル(x
i(1),…,x
i(n))の1つ(x
i(n))、又はオリジナル・メタデータサンプル(x
i(1),…,x
i(n))の1つ(x
i(n))の量子化済み表現(q
i(n))となるように、決定する。
【0030】
図1は、1つ以上のオーディオチャネルを生成する一実施形態に係る装置100を示す。
【0031】
装置100は、制御信号(b)に依存して、1つ以上の処理済みメタデータ信号(z
1,…,z
N)から1つ以上の再生メタデータ信号(x
1',…,x
N')を生成するメタデータ復号器110を含み、それら1つ以上の再生メタデータ信号(x
1',…,x
N')の各々は、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、メタデータ復号器110は、1つ以上の再生メタデータ信号(x
1',…,x
N')の各々に対し複数の再生メタデータサンプル(x
1'(n),…,x
N'(n))を決定することにより、1つ以上の再生メタデータ信号(x
1',…,x
N')を生成するよう構成されている。
【0032】
更に装置100は、1つ以上のオーディオオブジェクト信号に依存しかつ1つ以上の再生メタデータ信号(x
1',…,x
N')に依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部120を含む。
【0033】
メタデータ復号器110は、1つ以上の処理済みメタデータ信号(z
1,…,z
N)の各々の複数の処理済みメタデータサンプル(z
1(n),…,z
N(n))を受信するよう構成されている。更にメタデータ復号器110は、制御信号(b)を受信するよう構成されている。
【0034】
更に、メタデータ復号器110は、1つ以上の再生メタデータ信号(x
1',…,x
N')の各再生メタデータ信号(x
i')の複数の再生メタデータサンプル(x
i'(n),…,x
i'(n-1),x
i'(n))の各再生メタデータサンプル(x
i'(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第1状態(b(n)=0)を示すとき、再生メタデータサンプル(x
i'(n))が、1つ以上の処理済みメタデータ信号の1つ(z
i)の処理済みメタデータサンプルの1つ(z
i(n))と再生メタデータ信号(x
i')の他の1つの既に生成された再生メタデータサンプル(x
i'(n-1))との合計であり、制御信号が第1状態とは異なる第2状態(b(n)=1)を示すとき、再生メタデータサンプル(x
i'(n))が、1つ以上の処理済みメタデータ信号(z
1,…,z
N)の前記1つ(z
i)の処理済みメタデータサンプル(z
i(1),…,z
i(n))の前記1つ(z
i(n))であるように、決定する。
【0035】
メタデータサンプルについて言及する場合には、1つのメタデータサンプルは、そのメタデータサンプル値によって特徴付けられるだけでなく、そのメタデータサンプルが関連する時点によっても特徴付けられるという点にも留意すべきである。例えば、そのような時点とは、オーディオシーケンスの開始点又はそれと同様な点に対して相対的であってもよい。例えば、インデックスn又はkはメタデータ信号内のメタデータサンプルの位置を識別していてもよく、これにより、(開始時点に関連する)(相対的)時点が示されてもよい。注意すべきは、2つのメタデータサンプルが異なる時点に関連する場合、(時々起こり得ることであるが)たとえそれらのメタデータサンプル値が同一であったとしても、それら2つのメタデータサンプルは異なるメタデータサンプルであるということである。
【0036】
上述の実施形態は、オーディオオブジェクト信号と関連する(メタデータ信号に含まれる)メタデータ情報がゆっくりと変化する場合が多い、という知見に基づいている。
【0037】
例えば、メタデータ信号は、オーディオオブジェクトについての位置情報(例えばオーディオオブジェクトの位置を定義する方位角、仰角又は半径)を示してもよい。殆どの時点でオーディオオブジェクトの位置は変化しないか又はゆっくりとだけ変化する、と想定されてもよい。
【0038】
あるいは、メタデータ信号は、例えばオーディオオブジェクトの音量(例えばゲイン)を示してもよく、殆どの時点でオーディオオブジェクトの音量はゆっくりと変化すると想定されてもよい。
【0039】
このような理由により、全ての時点における(完全な)メタデータ情報を伝送する必要はない。
【0040】
その代わり、幾つかの実施形態によれば、(完全な)メタデータ情報が例えばある時点においてだけ伝送されてもよく、例えばN番目の時点毎に周期的に、例えば時点0,N,2N,3N等において伝送されてもよい。
【0041】
例えば、実施形態においては、3個のメタデータ信号が3D空間におけるオーディオオブジェクトの位置を特定する。メタデータ信号の1番目は、例えばオーディオオブジェクトの位置の方位角を特定してもよい。メタデータ信号の2番目は、例えばオーディオオブジェクトの位置の仰角を特定してもよい。メタデータ信号の3番目は、例えばオーディオオブジェクトの距離に関係する半径を特定してもよい。
【0042】
方位角と仰角と半径とは、3D空間におけるオーディオオブジェクトの原点からの位置を明確に定義する。これについては
図4を参照しながら説明する。
【0043】
図4は、三次元(3D)空間におけるオーディオオブジェクトの原点400からの位置410を、方位角と仰角と半径とで示す。
【0044】
仰角は、例えば、原点からオブジェクト位置までの直線と、この直線のxy平面(x軸とy軸とによって定義される平面)への垂直投影線との角度を特定する。方位角は、例えばx軸と前記垂直投影線との角度を定義する。方位角と仰角とを特定することで、原点400とオーディオオブジェクトの位置410とを通過する直線415が定義され得る。更に半径を特定することで、オーディオオブジェクトの正確な位置410が定義され得る。
【0045】
一実施形態において、方位角は−180°<方位角≦180°の範囲で定義され、仰角は−90°≦仰角≦90°の範囲で定義され、半径は例えばメートル[m](0m以上である)で定義され得る。
【0046】
例えばxyz座標系におけるオーディオオブジェクト位置の全てのx値がゼロ以上であると想定され得るような他の実施形態においては、方位角は−90°≦方位角≦90°の範囲で定義され、仰角は−90°≦仰角≦90°の範囲で定義され、半径は例えばメートル[m]で定義され得る。
【0047】
更なる実施形態において、方位角が−128°<方位角≦128°の範囲で定義され、仰角が−32°≦仰角≦32°の範囲で定義され、半径が例えば対数スケールで定義され得るように、メタデータ信号はスケールされてもよい。幾つかの実施形態において、オリジナル・メタデータ信号、処理済みメタデータ信号、及び再生メタデータ信号は、それぞれ、1つ以上のオーディオオブジェクト信号の1つの位置情報のスケールされた表現及び/又は音量のスケールされた表現を含んでもよい。
【0048】
オーディオチャネル生成部120は、例えば、1つ以上のオーディオオブジェクト信号に依存しかつ再生メタデータ信号に依存して、1つ以上のオーディオチャネルを生成するよう構成されてもよく、その再生メタデータ信号は、例えばオーディオオブジェクトの位置を示してもよい。
【0049】
図5は、オーディオオブジェクトの位置と、オーディオチャネル生成部により想定されるラウドスピーカ設定とを示す。xyz座標系の原点500が示されている。更に、第1オーディオオブジェクトの位置510と、第2オーディオオブジェクトの位置520とが示されている。更に、
図5は、オーディオチャネル生成部120が4個のラウドスピーカのための4個のオーディオチャネルを生成するシナリオを示す。オーディオチャネル生成部120は、4個のラウドスピーカ511,512,513,514が
図5に示す位置に配置されていると想定している。
【0050】
図5において、第1オーディオオブジェクトは、ラウドスピーカ511と512の想定位置に近い位置510に配置されており、ラウドスピーカ513と514からは遠い位置に配置されている。従って、オーディオチャネル生成部120は、第1オーディオオブジェクト510がラウドスピーカ511及び512により再生され、ラウドスピーカ513及び514では再生されないように、4個のオーディオチャネルを生成してもよい。
【0051】
他の実施形態において、オーディオチャネル生成部120は、第1オーディオオブジェクト510がラウドスピーカ511及び512により高い音量で再生され、ラウドスピーカ513及び514により低い音量で再生されるように、4個のオーディオチャネルを生成してもよい。
【0052】
更に、第2オーディオオブジェクトは、ラウドスピーカ513と514の想定位置に近い位置520に配置されており、ラウドスピーカ511と512からは遠い位置に配置されている。従って、オーディオチャネル生成部120は、第2オーディオオブジェクト520がラウドスピーカ513及び514により再生され、ラウドスピーカ511及び512では再生されないように、4個のオーディオチャネルを生成してもよい。
【0053】
他の実施形態において、オーディオチャネル生成部120は、第2オーディオオブジェクト520がラウドスピーカ513及び514により高い音量で再生され、ラウドスピーカ511及び512により低い音量で再生されるように、4個のオーディオチャネルを生成してもよい。
【0054】
代替的な実施形態において、オーディオオブジェクトの位置を特定するために、2個のメタデータ信号だけが使用されてもよい。例えば、全てのオーディオオブジェクトが単一平面に配置されていると想定される場合には、例えば方位角と半径だけが特定されてもよい。
【0055】
更に他の実施形態においては、各オーディオオブジェクトのために、単一のメタデータ信号だけが位置情報として符号化されかつ伝送される。例えば、あるオーディオオブジェクトについて、方位角だけが位置情報として特定されてもよい(例えば全てのオーディオオブジェクトが同一平面上に配置され、中心点から同一距離を持ち、従って同一半径を有すると想定される場合など)。方位角情報は、例えば、オーディオオブジェクトが左のラウドスピーカに近く、右のラウドスピーカからは遠いと判定することで十分であってもよい。そのような状況において、オーディオチャネル生成部120は、例えばオーディオオブジェクトが左のラウドスピーカによって再生されるが、右のラウドスピーカでは再生されないように、1つ以上のオーディオチャネルを生成してもよい。
【0056】
例えば、ラウドスピーカのオーディオチャネルの各々の中におけるオーディオオブジェクト信号の重みを決定するために、ベクトルベース振幅パニング(Vector Base Amplitude Panning(VBAP))が使用されてもよい(例えば非特許文献10を参照)。例えば、VBAPに関しては、オーディオオブジェクトが仮想音源に関連すると想定されている。
【0057】
実施形態において、各オーディオオブジェクトについて、更なるメタデータ信号が音量、例えばゲイン(例えばデシベル[dB]で表現された)を特定してもよい。
【0058】
例えば
図5において、第1ゲイン値は、位置510に配置された第1オーディオオブジェクトのための更なるメタデータ信号により特定されてもよく、その値は、位置520に配置された第2オーディオオブジェクトのための別の更なるメタデータ信号によって特定される第2ゲイン値よりも高い。そのような状況において、ラウドスピーカ511及び512は第1オーディオオブジェクトを、ラウドスピーカ513及び514が第2オーディオオブジェクトを再生する音量よりも高い音量で再生してもよい。
【0059】
実施形態はまた、オーディオオブジェクトのそのようなゲイン値がゆっくりと変化する場合が多いと想定している。従って、そのようなメタデータ情報を全ての時点において伝送する必要はない。代わりに、メタデータ情報は、ある時点において伝送されるだけである。中間の時点においては、メタデータ情報は、例えば伝送された先行するメタデータサンプルと後続のメタデータサンプルとを使用して近似されてもよい。例えば、中間値の近似のために線形補間が使用されてもよい。例えば、オーディオオブジェクトの各々のゲイン、方位角、仰角及び/又は半径が、そのようなメタデータが伝送されなかった時点のために近似されてもよい。
【0060】
そのような手法により、メタデータの伝送レートにおける相当な節約を達成し得る。
【0061】
図3は、一実施形態に従うシステムを示す。
【0062】
このシステムは、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する、上述のような装置250を備える。
【0063】
更に、そのシステムは、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを受信し、その1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とに依存して、上述のように1つ以上のオーディオチャネルを生成する装置100を備える。
【0064】
例えば、1つ以上のオーディオオブジェクトを符号化するための符号化装置250がSAOC符号器を使用した場合には、1つ以上の符号化済みオーディオ信号が、現状技術に係るSAOC復号器を使用して1つ以上のオーディオチャネルを生成する装置100によって復号化されて、1つ以上のオーディオオブジェクト信号が取得されてもよい。
【0065】
実施形態は、差分パルス符号変調の概念が拡張可能であり、そのような拡張された概念はオーディオオブジェクトのためのメタデータ信号を符号化するのに適している、という知見に基づいている。
【0066】
差分パルス符号変調(DPCM)の方法は、量子化を介して不適切さ(irrelevance)を低減し、差分伝送を介して冗長性を低減するような、低速変化する時間信号のための確立された方法である(特許文献1)。あるDPCM符号器を
図6で示す。
【0067】
図6のDPCM符号器において、入力信号xの実際の入力サンプルx(n)が減算ユニット610へと入力される。減算ユニットの他の入力では、別の値が減算ユニットへと入力される。この別の値は、以前に受信されたサンプルx(n-1)であると想定されてもよい。しかし、量子化誤差又は他の誤差により、他の入力における値が以前のサンプルx(n-1)と正確に同一ではないという結果をもたらしている可能性もある。そのようなx(n-1)からの可能性のあるずれに起因して、減算部の他の入力はx
*(n-1)と称されてもよい。減算ユニットは、x(n)からx
*(n-1)を減算して差分値d(n)を取得する。
【0068】
次に、d(n)は量子化部620内で量子化されて、出力信号yの別の出力サンプルy(n)が取得される。一般的に、y(n)はd(n)と等しいか又はd(n)に近い値である。
【0069】
更に、y(n)は加算部630へと入力される。更に、x
*(n-1)も加算部630へと入力される。d(n)が減算d(n)=x(n)-x
*(n-1)からもたらされ、y(n)がd(n)と等しい値又は少なくとも近い値であるため、加算部630の出力x
*(n)は、x(n)と等しいか又は少なくともx(n)に近い。
【0070】
x
*(n)はサンプリング期間中、ユニット640において保持され、次に、処理は次のサンプルx(n+1)で継続される。
【0071】
図7は、対応するDPCM復号器を示す。
【0072】
図7において、DPCM符号器からの出力信号yのサンプルy(n)は加算部710へと入力される。y(n)は、再生されるべき信号x(n)の差分値を表す。加算部710の他の入力においては、以前に再生されたサンプルx'(n-1)が入力される。加算部の出力x'(n)は加算x'(n)=x'(n-1)+y(n)からもたらされる。x'(n-1)は、一般的にx(n-1)と等しいか又は少なくとも近く、また、y(n)は、x(n)-x(n-1) と等しいか又は近いので、加算部710の出力x'(n)は、一般的にx(n)と等しいか又は近い。
【0073】
x'(n)はサンプリング期間中、ユニット740において保持され、次に、処理は次のサンプルy(n+1) で継続される。
【0074】
DPCM圧縮方法は前述した要求される特徴の殆どを満足するが、その圧縮方法はランダムアクセスを許可しない。
【0075】
図8aは、一実施形態に従うメタデータ符号器801を示す。
【0076】
図8aのメタデータ符号器801により使用される符号化方法は、従来のDPCM符号化方法の拡張である。
【0077】
図8aのメタデータ符号器801は、1つ以上のDPCM符号器811,...,81Nを含む。例えば、メタデータ符号器801がN個のオリジナル・メタデータ信号を受信するよう構成されている場合、メタデータ符号器801は、例えば、正にN個のDPCM符号器を含んでもよい。一実施形態において、N個のDPCM符号器の各々は
図6に関して説明したように構成されている。
【0078】
一実施形態において、N個のDPCM符号器の各々は、N個のオリジナル・メタデータ信号x
1,…,x
Nの1つのメタデータサンプルx
i(n)を受信し、かつ、前記DPCM符号器に入力された前記オリジナル・メタデータ信号x
iのメタデータサンプルx
i(n)の各々のために、メタデータ差分信号y
iの差分サンプルy
i(n)としての差分値を生成するよう構成されている。一実施形態において、差分サンプルy
i(n)を生成するステップは、例えば
図6を参照しながら説明したように実行されてもよい。
【0079】
図8aのメタデータ符号器801は、制御信号b(n)を受信するよう構成された選択部830("A")を更に含む。
【0080】
選択部830は、更に、N個のメタデータ差分信号y
1,…,y
Nを受信するよう構成されている。
【0081】
更に
図8aの実施形態において、メタデータ符号器801は、N個のオリジナル・メタデータ信号x
1,…,x
Nを量子化してN個の量子化済みメタデータ信号q
1,…,q
Nを取得する、量子化部820を含む。そのような実施形態において、量子化部は、N個の量子化済みメタデータ信号を選択部830へと供給するよう構成されてもよい。
【0082】
選択部830は、制御信号b(n)に依存して、量子化済みメタデータ信号q
iとDPCM符号化された差分メタデータ信号y
iとから、処理済みメタデータ信号z
iを生成するよう構成されてもよい。
【0083】
例えば、制御信号bが第1状態(例えばb(n)=0)にあるとき、選択部830は、処理済みメタデータ信号z
iのメタデータサンプルz
i(n)として、メタデータ差分信号y
iの差分サンプルy
i(n)を出力するよう構成されてもよい。
【0084】
制御信号bが第1状態とは異なる第2状態(例えばb(n)=1)にあるとき、選択部830は、処理済みメタデータ信号z
iのメタデータサンプルz
i(n)として、量子化済みメタデータ信号q
iのメタデータサンプルq
i(n)を出力するよう構成されてもよい。
【0085】
図8bは、他の実施形態に係るメタデータ符号器802を示す。
【0086】
図8bの実施形態において、メタデータ符号器802は量子化部820を含んでおらず、N個の量子化済みメタデータ信号q
1,…,q
Nの代わりに、N個のオリジナル・メタデータ信号x
1,…,x
Nが選択部830に対して直接的に供給される。
【0087】
そのような実施形態において、例えば制御信号bが第1状態(例えばb(n)=0)にあるとき、選択部830は、処理済みメタデータ信号z
iのメタデータサンプルz
i(n)として、メタデータ差分信号y
iの差分サンプルy
i(n)を出力するよう構成されてもよい。
【0088】
制御信号bが第1状態とは異なる第2状態(例えばb(n)=1)にあるとき、選択部830は、処理済みメタデータ信号z
iのメタデータサンプルz
i(n)として、オリジナル・メタデータ信号x
iのメタデータサンプルx
i(n)を出力するよう構成されてもよい。
【0089】
図9aは、一実施形態に係るメタデータ復号器901を示す。
図9aに係るメタデータ
復号器は、
図8a及び
図8bのメタデータ符号器と対応している。
【0090】
図9aのメタデータ復号器901は、1つ以上のメタデータ復号器サブユニット911,…,91Nを含む。メタデータ復号器901は、1つ以上の処理済みメタデータ信号z
1,…,z
Nを受信するよう構成されている。更に、メタデータ復号器901は、制御信号bを受信するよう構成されている。メタデータ復号器は、制御信号bに依存して、1つ以上の処理済みメタデータ信号z
1,…,z
Nから1つ以上の再生メタデータ信号x
1',…,x
N'を生成するよう構成されている。
【0091】
一実施形態において、N個の処理済みメタデータ信号z
1,…,z
Nの各々が、メタデータ復号器サブユニット911,…,91Nの異なる1つへと供給される。更に、一実施形態によれば、制御信号bがメタデータ復号器サブユニット911,…,91Nの各々に供給される。一実施形態によれば、メタデータ復号器サブユニット911,…,91Nの個数は、メタデータ復号器901によって受信される処理済みメタデータ信号z
1,…,z
Nの個数と等しい。
【0092】
図9bは、一実施形態に係る、
図9aのメタデータ復号器サブユニット911,…,91Nの1つのメタデータ復号器サブユニット(91i)を示す。メタデータ復号器サブユニット91iは、単一の処理済みメタデータ信号z
iのために復号化を実行するよう構成されている。メタデータ復号器サブユニット91iは、選択部930("B")と加算部910とを含む。
【0093】
メタデータ復号器サブユニット91iは、制御信号b(n)に依存して、受信された処理済みメタデータ信号z
iから再生メタデータ信号x
i'を生成するよう構成されている。
【0094】
この操作は、例えば以下のようにして実現され得る。
【0095】
再生メタデータ信号x
i'の最後の再生メタデータサンプルx
i'(n-1)が加算部910へと入力される。更に、処理済みメタデータ信号z
iの実際のメタデータサンプルz
i(n)もまた加算部910へと入力される。加算部は、最後の再生メタデータサンプルx
i'(n-1)と実際のメタデータサンプルz
i(n)とを加算して合計値s
i(n)を取得するよう構成されており、その合計値は選択部930へと入力される。
【0096】
更に、実際のメタデータサンプルz
i(n)もまた、
選択部930へと入力される。
【0097】
選択部930は、制御信号bに依存して、加算部910からの合計値s
i(n)、又は実際のメタデータサンプルz
i(n)のいずれかを、再生メタデータ信号x
i'(n)の実際のメタデータサンプルx
i'(n)として選択するよう構成されている。
【0098】
例えば制御信号bが第1状態(例えばb(n)=0)にあるとき、制御信号bは実際のメタデータサンプルz
i(n)が差分値であることを示しており、よって、合計値s
i(n)が再生メタデータ信号x
i'の正確な実際のメタデータサンプルx
i'(n)である。選択部
930は、制御信号が第1状態にあるとき(b(n)=0のとき)、合計値s
i(n)を、再生メタデータ信号x
i'の実際のメタデータサンプルx
i'(n)として選択するよう構成されている。
【0099】
制御信号bが第1状態とは異なる第2状態(例えばb(n)=1)にあるとき、制御信号bは実際のメタデータサンプルz
i(n)が差分値でないことを示しており、よって、実際のメタデータサンプルz
i(n)が再生メタデータ信号x
i'の正確な実際のメタデータサンプルx
i'(n)である。選択部
930は、制御信号が第2状態にあるとき(b(n)=1のとき)、実際のメタデータサンプルz
i(n)を、再生メタデータ信号x
i'の実際のメタデータサンプルx
i'(n)として選択するよう構成されている。
【0100】
実施形態によれば、メタデータ復号器サブユニット91i'は、さらにユニット920を含む。ユニット920は、再生メタデータ信号の実際のメタデータサンプルx
i'(n)を、サンプリング期間の持続時間中、保持するよう構成されている。一実施形態において、これにより、x
i'(n)が生成されつつあるとき、生成されたx'(n)のフィードバックが早くなり過ぎないことが確保され、z
i(n)が差分値である場合に、x
i'(n)が現実にx
i'(n-1)に基づいて生成されるようになる。
【0101】
図9bの実施形態において、選択部930は、制御信号b(n)に依存して、受信された信号成分z
i(n)及び、遅延された出力成分(再生メタデータ信号の既に生成されたメタデータサンプル)と受信された信号成分z
i(n)との線形結合から、メタデータサンプルxi'(n)を生成してもよい。
【0102】
以下において、DPCM符号化済み信号はy
i(n)で表され、Bの第2入力信号(合計信号)はs
i(n)で表される。対応する入力成分だけに依存する出力成分について、符号器及び復号器の出力は以下のように表される。
z
i(n) = A(x
i(n),
yi(n), b(n))
x
i'(n) = B(z
i(n), s
i(n), b(n))
【0103】
上述した一般的な手法に係る一実施形態に従う解決策は、b(n)を用いて、DPCM符号化済み信号と量子化済み入力信号との間を切り替えることである。簡素化を目的として、時間インデックスnを省略すると、機能ブロックAとBとは以下のように表すことができる。
【0104】
メタデータ符号器801,802において、選択部830(A)は次のように選択する。
A:z
i(x
i, y
i, b) = y
i, b=0のとき (z
iは差分値を示す)
A:z
i(x
i, y
i, b) = x
i, b=1のとき (z
iは差分値を示さない)
【0105】
メタデータ復号器サブユニット91i,91i’において、選択部930(B)は次のように選択する。
B:x
i'(z
i, s
i, b) = s
i, b=0のとき (z
iは差分値を示す)
B:x
i'(z
i, s
i, b) = z
i, b=1のとき (z
iは差分値を示さない)
【0106】
これにより、b(n)が1と等しいときは常に量子化済み入力信号を伝送し、b(n)が0のときは常にDPCM信号を伝送することが可能になる。後者の場合、復号器はDPCM復号器となる。
【0107】
オブジェクト・メタデータの伝送に適用される場合、このメカニズムは、復号器によってランダムアクセスのために使用され得る、未圧縮のオブジェクト位置を規則正しく伝送するために使用される。
【0108】
好ましい実施形態において、メタデータサンプルを符号化するために使用されるビットの数よりも少数のビットが差分値を符号化するために使用される。これらの実施形態は、(例えばN個の)連続するメタデータサンプルは、多くの場合、僅かしか変化しないという知見に基づいている。例えば、一種類のメタデータサンプルが例えば8ビットで符号化される場合、これらメタデータサンプルは256個の異なる値の中から1つをとり得る。一般的に、(例えばN個の)連続するメタデータ値のその僅かな変化に起因して、例えば5ビットだけで差分値を符号化することは十分と考えられ得る。従って、差分値が伝送される場合でも、伝送されるビット数は低減され得る。
【0109】
一実施形態において、メタデータ符号器210は、1つ以上の処理済みメタデータ信号(z
1,…,z
N)の1つ(z
i)の処理済みメタデータサンプル(z
i(1),…,z
i(n))の各々を、制御信号が第1状態(b(n)=0)を示すときには第1のビット数を用いて符号化し、制御信号が第2状態(b(n)=1)を示すときには第2のビット数を用いて符号化するよう構成されており、第1のビット数は第2のビット数よりも少ない。
【0110】
好ましい実施形態においては、1つ以上の差分値が伝送され、1つ以上の差分値の各々はメタデータサンプルの各々よりも少ないビットを用いて符号化され、差分値の各々は整数値である。
【0111】
一実施形態によれば、メタデータ符号器110は、1つ以上の処理済みメタデータ信号の内の1つの1つ以上のメタデータサンプルを第1のビット数を用いて符号化するよう構成されており、ここで、1つ以上の処理済みメタデータ信号の1つの1つ以上のメタデータサンプルの各々は整数を示す。更に、メタデータ符号器(110)は、1つ以上の差分値を第2のビット数を用いて符号化するよう構成されており、ここで1つ以上の差分値の各々は整数を示し、第2のビット数は第1のビット数よりも少ない。
【0112】
例えば一実施形態において、メタデータサンプルが8ビットで符号化された方位角を表現できると考慮されたい。例えば、その方位角は−90≦方位角≦90の整数であってもよい。従って、その方位角は181個の異なる値をとり得る。しかし、(例えばN個の)後続の方位角サンプルは、例えば±15以下しか変化しないと想定することができ、その場合、差分値を符号化するために5ビット(2
5=32)で十分となり得る。差分値が整数として表現される場合、その差分値を決定することは、伝送されるべき追加的な値を適切な値領域へと自動的に変換することになる。
【0113】
例えば、第1オーディオオブジェクトの第1方位角値が60°であり、その後続の値が45°から75°まで変化する場合を考慮されたい。さらに、第2オーディオオブジェクトの第2方位角値が−30°であり、その後続の値が−45°から−15°まで変化する場合を考慮されたい。第1オーディオオブジェクトの両方の後続の値についての差分値、及び第2オーディオオブジェクトの両方の後続の値についての差分値を決定すると、第1方位角値及び第2方位角値の差分値は両方とも−15°から+15°までの値領域内にある。よって、差分値の各々を符号化するために5ビットで十分となり、差分値を符号化するビットシーケンスは、第1方位角の差分値と第2方位角の差分値とに対して同じ意味を持つ。
【0114】
次に、実施形態に係るオブジェクト・メタデータ・フレームと、実施形態に係るシンボル表現とについて説明する。
【0115】
符号化済みオブジェクト・メタデータは、フレーム内で伝送される。これらのオブジェクト・メタデータ・フレームは、イントラ符号化されたオブジェクトデータ、又はダイナミック・オブジェクトデータの何れかを含むことができ、後者の場合は、伝送された最後のフレームからの変化を含んでいる。
【0116】
例えば、オブジェクト・メタデータ・フレームについて、以下のシンタックスの一部又は全部が使用されてもよい。
【0118】
以下に、一実施形態に係るイントラ符号化されたオブジェクトデータについて説明する。
【0119】
符号化済みオブジェクト・メタデータのランダムアクセスが、イントラ符号化されたオブジェクトデータを介して実現され(「Iフレーム」)、イントラ符号化されたオブジェクトデータは規則的な格子上で(例えば長さ1024の32フレーム毎に)サンプリングされた量子化済み値を含む。これらIフレームは、例えば次のようなシンタックスを有し、その中で、position_azimuth, position_elevation, position_radius及び gain_factorは現時点の量子化済み値を特定する。
【0121】
以下に、一実施形態に係るダイナミック・オブジェクトデータについて説明する。
【0122】
DPCMデータは、例えば以下のシンタックスを有するダイナミック・オブジェクト・フレーム内で伝送される。
【0125】
特に、一実施形態において、上述のマクロは例えば以下のような意味を有してもよい。
【0126】
一実施形態に係るobject_data() payloadsの定義:
has_intracoded_object_metadata:そのフレームがイントラ符号化されたか又は差分符号化されたかを示す
【0127】
一実施形態に係るintracoded_object_metadata() payloads の定義:
fixed_azimuth:全てのオブジェクトについて方位角値が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_azimuth 固定又は共通の方位角の値を定義する
common_azimuth:全てのオブジェクトについて共通の方位角が使用されるか否かを示す
position_azimuth:共通の方位角値がない場合、各オブジェクトのための値が伝送される
fixed_elevation:全てのオブジェクトについて仰角値が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_elevation:固定又は共通の仰角の値を定義する
common_elevation:全てのオブジェクトについて共通の仰角が使用されるか否かを示す
position_elevation:共通の仰角値がない場合、各オブジェクトのための値が伝送される
fixed_radius:全てのオブジェクトについて半径が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_radius:共通の半径の値を定義する
common_radius:全てのオブジェクトについて共通の半径値が使用されるか否かを示す
position_radius:共通の半径値がない場合、各オブジェクトのための値が伝送される
fixed_gain:全てのオブジェクトについてゲインファクタが固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_gain:固定又は共通のゲインファクタの値を定義する
common_gain:全てのオブジェクトについて共通のゲイン値が使用されるか否かを示す
gain_factor:共通のゲイン値がない場合、各オブジェクトのための値が伝送される
position_azimuth:単一のオブジェクトだけがある場合、その方位角である
position_elevation:単一のオブジェクトだけがある場合、その仰角である
position_radius:単一のオブジェクトだけがある場合、その半径である
gain_factor:単一のオブジェクトだけがある場合、そのゲインファクタである
【0128】
一実施形態に係るdynamic_object_metadata() payloadsの定義:
flag_absolute:構成要素の値が差分的に伝送されるか又は絶対値で伝送されるかを示す
has_object_metadata:ビットストリーム内にオブジェクトデータが存在するか否かを示す
【0129】
一実施形態に係るsingle_dynamic_object_metadata() payloadsの定義:
position_azimuth:値が固定でない場合の方位角の絶対値
position_elevation:値が固定でない場合の仰角の絶対値
position_radius:値が固定でない場合の半径の絶対値
gain_factor:値が固定でない場合のゲインファクタの絶対値
nbits:差分値を表現するために必要なビットの数
flag_azimuth:方位角値が変化するか否かを示すオブジェクト毎のフラグ
position_azimuth_difference:以前の値と活性値との間の差
flag_elevation:仰角値が変化するか否かを示すオブジェクト毎のフラグ
position_elevation_difference:以前の値と活性値との間の差の値
flag_radius:半径が変化するか否かを示すオブジェクト毎のフラグ
position_radius_difference:以前の値と活性値との間の差
flag_gain:ゲインが変化するか否かを示すオブジェクト毎のフラグ
gain_factor_difference:以前の値と活性値との間の差
【0130】
先行技術においては、低ビットレートで許容可能なオーディオ品質が得られるように、チャネル符号化と一方としオブジェクト符号化を他方として結合するような、柔軟性のある技術は存在しない。
【0131】
この制約は3Dオーディオコーデックシステムにより克服できる。以下に、3Dオーディオコーデックシステムについて説明する。
【0132】
図10は、本発明の一実施形態に係る3Dオーディオ符号器を示す。この3Dオーディオ符号器は、オーディオ入力データ101を符号化してオーディオ出力データ501を取得するよう構成されている。3Dオーディオ符号器は、CHで示された複数のオーディオチャネルとOBJで示された複数のオーディオオブジェクトとを受信する入力インターフェイスを備える。更に、
図10に示すように、入力インターフェイス1100は、複数のオーディオオブジェクトOBJの1つ以上に関連するメタデータを追加的に受信する。更に、3Dオーディオ符号器は、複数のオブジェクトと複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー200を備え、各プレミクス済みチャネルは1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む。
【0133】
更に、3Dオーディオ符号器は、コア符号器入力データをコア符号化するコア符号器300と、複数のオーディオオブジェクトの1つ以上に関連するメタデータを圧縮するメタデータ圧縮部400とを備える。
【0134】
更に、3Dオーディオ符号器は、ミキサーとコア符号器及び/又は出力インターフェイス500を複数の動作モードの1つで制御する、モード制御部600を備え、第1モードでは、コア符号器は、入力インターフェイス1100により受信された複数のオーディオチャネル及び複数のオーディオオブジェクトを、ミキサーによる相互作用なしに、即ちミキサー200によるミキシングなしに、符号化するよう構成されている。しかし、ミキサー200が活性化していた第2モードでは、コア符号器は、複数のミクス済みチャネル、即ちブロック200により生成された出力を符号化する。後者の場合、それ以上のオブジェクトデータを符号化しないことが好ましい。代わりに、オーディオオブジェクトの位置を示すメタデータは、メタデータによって示された通りにオブジェクトをチャネル上へとレンダリングするために、ミキサー200によって既に使用されている。換言すれば、ミキサー200は複数のオーディオオブジェクトに関連するメタデータを、オーディオオブジェクトをプレレンダリングするために使用し、次に、プレレンダリングされたオーディオオブジェクトはチャネルとミキシングされて、ミキサーの出力においてミクス済みチャネルが得られる。この実施形態では、如何なるオブジェクトも必ずしも伝送される必要がなく、このことは、ブロック400により出力される圧縮済みメタデータにも当てはまる。しかし、インターフェイス1100に入力された全てのオブジェクトがミキシングされる訳でなく、所定量のオブジェクトだけがミキシングされる場合には、ミキシングされていない残りのオブジェクト及び関連するメタデータだけが、コア符号化300又はメタデータ圧縮部400へとそれぞれ伝送される。
【0135】
図10において、メタデータデータ圧縮部400は、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、
図10において、ミキサー200及びコア符号器300は一緒に、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
【0136】
図12は、SAOC符号器800を追加的に含む、3Dオーディオ符号器の更なる実施形態を示す。SAOC符号器800は、空間オーディオオブジェクト符号器入力データから、1つ以上の転送チャネル及びパラメトリックデータを生成するよう構成されている。
図12に示すように、空間オーディオオブジェクト符号器入力データは、プレレンダラー/ミキサーによって処理されなかったオブジェクトである。代替的に、個別のチャネル/オブジェクト符号化が活性化しているモード1におけるように、プレレンダラー/ミキサーが迂回されていたと仮定すると、入力インターフェイス1100に入力された全てのオブジェクトはSAOC符号器800により符号化される。
【0137】
更に、
図12に示すように、コア符号器300は好ましくは、USAC符号器、即ちMPEG−USAC標準(USAC=統合されたスピーチ及びオーディオ符号化)の中で定義されかつ標準化されているような符号器として構成される。
図12に示す全体的な3Dオーディオ符号器の出力は、個別のデータタイプについてコンテナ状構造を有しているMPEG4データストリームである。更に、メタデータは「OAM」データとして示され、
図10におけるメタデータ圧縮部400は、圧縮済みOAMデータを取得するOAM符号器400に対応し、その圧縮済みOAMデータはUSAC符号器300へ入力され、USAC符号器300は、
図12に示すように、MP4出力データストリームを取得するための出力インターフェイスを追加的に含み、そのMP4出力データストリームは符号化済みチャネル/オブジェクトデータだけでなく圧縮済みOAMデータをも有する。
【0138】
図12において、OAM符号器400は、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、
図12では、SAOC符号器800とUSAC符号器300とは一緒に、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
【0139】
図14は、3Dオーディオ符号器の更なる実施形態を示し、ここでは、
図12とは対照的に、SAOC符号器はSAOC符号化アルゴリズムを用いて、このモードにおいて活性化していないプレレンダラー/ミキサー200により提供されたチャネルを符号化するか、又は代替的に、プレレンダリング済みチャネル+オブジェクトをSAOC符号化するか、の何れかを実行するよう構成されている。従って、
図14においては、SAOC符号器800は3種類の異なる入力データ、即ち、プレレンダリング済みオブジェクトを持たないチャネル、チャネル及びプレレンダリング済みオブジェクト、又はオブジェクトのみ、に対して作動できる。更に、追加的なOAM復号器420を
図14に設け、SAOC符号器800がその処理のために復号器側と同じデータを使用できるように、即ち、オリジナルOAMデータよりも寧ろ損失の多い圧縮により得られたデータを使用できるようにすることが好ましい。
【0140】
図14の3Dオーディオ符号器は、複数の個別モードにおいて作動できる。
【0141】
図10の文脈の中で説明した第1モード及び第2モードに加え、
図14の3Dオーディオ符号器は追加的に第3モードでも作動でき、そのモードでは、プレレンダラー/ミキサー200が活性化していなかった場合、コア符号器が個別のオブジェクトから1つ以上の転送チャネルを生成する。代替的又は追加的に、この第3モードにおいて、
図10のミキサー200に対応するプレレンダラー/ミキサー200が活性化していなかった場合、SAOC符号器800はオリジナルチャネルから1つ以上の代替的又は追加的な転送チャネルを生成することができる。
【0142】
最後に、3Dオーディオ符号器が第4モードで構成されている場合、SAOC符号器800は、プレレンダラー/ミキサーによって生成されたチャネル+プレレンダリング済みオブジェクトを符号化することができる。そのため、第4モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のSAOC転送チャネル及び
図12と図14の中で「SAOC−SI」として示すような関連するサイド情報へと完全に変換されており、加えて、この第4モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。
【0143】
図14において、OAM符号器400は、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、
図14において、SAOC符号器800とUSAC符号器300とは一緒に、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
【0144】
一実施形態によれば、オーディオ入力データ101を符号化してオーディオ出力データ501を取得する装置が提供される。そのオーディオ入力データ101を符号化する装置は、
−複数のオーディオチャネルと複数のオーディオオブジェクトと複数のオーディオオブジェクトの1つ以上に関連するメタデータとを受信する、入力インターフェイス1100と、
−複数のオブジェクトと複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー200であって、各プレミクス済みチャネルが1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む、ミキサー200と、
−上述したようなメタデータ符号器とオーディオ符号器とを含む、符号化済みオーディオ情報を生成する装置250と、
を備える。
【0145】
符号化済みオーディオ情報を生成する装置250のオーディオ符号器220は、コア符号器入力データを符号化するコア符号器(300)である。
【0146】
符号化済みオーディオ情報を生成する装置250のメタデータ符号器210は、複数のオーディオオブジェクトの1つ以上に関連するメタデータを圧縮するメタデータ圧縮部400である。
【0147】
図11は本発明の一実施形態に係る3Dオーディオ復号器を示す。その3Dオーディオ復号器は、入力として符号化済みオーディオデータ、即ち
図10のデータ501を受信する。
【0148】
3Dオーディオ復号器は、メタデータ解凍部1400と、コア復号器1300と、オブジェクト処理部1200と、モード制御部1600と、後処理部1700とを備える。
【0149】
具体的には、その3Dオーディオ復号器は符号化済みオーディオデータを復号化するよう構成されており、入力インターフェイスは符号化済みオーディオデータを受信するよう構成されており、符号化済みオーディオデータは、複数の符号化済みチャネルと、複数の符号化済みオブジェクトと、あるモードにおいて複数のオブジェクトに関連する圧縮済みメタデータとを含む。
【0150】
更に、コア復号器1300は複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化するよう構成されており、追加的に、メタデータ解凍部は圧縮済みメタデータを解凍するよう構成されている。
【0151】
更に、オブジェクト処理部1200は、コア復号器1300により生成された複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクトデータと復号化済みチャネルとを含む所定数の出力チャネルを得るよう構成されている。符号1205で示されたこれら出力チャネルは、次に後処理部1700へと入力される。後処理部1700は、出力チャネル1205の数を、バイノーラル出力フォーマット又は5.1や7.1などの出力フォーマットのようなラウドスピーカ出力フォーマットであり得る、ある出力フォーマットへと変換するよう構成されている。
【0152】
好ましくは、3Dオーディオ復号器は、符号化済みデータを分析してモード指示を検出するよう構成された、モード制御部1600を備える。従って、そのモード制御部1600が
図11の入力インターフェイス1100に接続されている。しかし、代替的に、モード制御部が必ずしも存在する必要はない。代わりに、柔軟性のあるオーディオ復号器は、ユーザー入力や任意の他の制御のような、他の如何なる種類の制御データによってもプリセットされ得る。好ましくはモード制御部1600により制御される
図11の3Dオーディオ復号器は、その一方では、オブジェクト処理部を迂回して複数の復号化済みチャネルを後処理部1700へと供給するよう構成される。これは、
図10の3Dオーディオ符号器においてモード2が適用されていた場合のモード2における作動であり、即ちプレレンダリング済みチャネルだけが受信される場合である。代替的に、3Dオーディオ符号器においてモード1が適用されていた場合、即ち3Dオーディオ符号器が個別のチャネル/オブジェクト符号化を実行していた場合、オブジェクト処理部1200は迂回されず、複数の復号化済みチャネルと複数の復号化済みオブジェクトとが、メタデータ解凍部1400によって生成された解凍済みメタデータと一緒にオブジェクト処理部1200へと供給される。
【0153】
好ましくは、モード1又はモード2が適用されるべきかどうかの指示は符号化済みオーディオデータの中に含まれており、よって、モード制御部1600がモード指示を検出するために符号化済みデータを分析する。符号化済みオーディオデータは符号化済みチャネルと符号化済みオブジェクトとを含むとモード指示が示す場合には、モード1が使用され、他方、符号化済みオーディオデータはオーディオオブジェクトを何も含まない、即ち、
図10の3Dオーディオ符号器のモード2によって得られたプレレンダリング済みチャネルだけを含むとモード指示が示す場合には、モード2が適用される。
【0154】
図11において、メタデータ解凍部1400は、上述の実施形態の1つに従い1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に
図11において、コア復号器1300とオブジェクト処理部1200と後処理部1700とは一緒に、上述の実施形態の1つに従い1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
【0155】
図13は、
図11の3Dオーディオ復号器と比較した好適な実施形態を示し、
図13の実施形態は
図12のオーディオ符号器に対応する。
図11の3Dオーディオ復号器の構成に加えて、
図13の3Dオーディオ復号器はSAOC復号器1800を含む。更に、
図11のオブジェクト処理部1200は、別個のオブジェクトレンダラー1210とミキサー1220として構成されているが、モードに依存して、オブジェクトレンダラー1210の機能はSAOC復号器1800によっても実行され得る。
【0156】
更に、後処理部1700は、バイノーラルレンダラー1710又はフォーマット変換部1720として構成され得る。代替的に、
図11のデータ1205の直接的な出力もまた、1730で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は22.2や32などの最大数のチャネルに対して実行することが好ましい。しかしながら、5.1フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、
図15におけるショートカット1727で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、SAOC復号器及び/又はUSAC復号器に対するある制御を適用し得ることが望ましい。
【0157】
本発明の好適な実施形態において、オブジェクト処理部1200はSAOC復号器1800を含み、そのSAOC復号器は、コア復号器により出力される1つ以上の転送チャネル及び関連するパラメトリックデータを復号化し、かつ解凍済みメタデータを使用して、複数のレンダリング済みオーディオオブジェクトを取得するよう構成されている。この目的で、OAM出力がボックス1800に接続されている。
【0158】
更に、オブジェクト処理部1200は、コア復号器により出力された復号化済みオブジェクトをレンダリングするよう構成されており、そのオブジェクトはSAOC転送チャネルの中で符号化されたものではなく、オブジェクトレンダラー1210により示されるように、典型的には単一チャネル化された構成要素の中で個別に符号化されたものである。更に、復号器は、ミキサーの出力をラウドスピーカへと出力するための、出力1730に対応する出力インターフェイスを備える。
【0159】
更なる実施形態において、オブジェクト処理部1200は、符号化済みオーディオ信号又は符号化済みオーディオチャネルを表現している1つ以上の転送チャネル及び関連するパラメトリックサイド情報を復号化する、空間オーディオオブジェクト符号化・復号器1800を含む。その空間オーディオオブジェクト符号化・復号器は、関連するパラメトリック情報及び解凍済みメタデータを、出力フォーマットを直接的にレンダリングするために使用可能な、例えばSAOCの初期バージョンで定義されているような、符号変換済みパラメトリックサイド情報へと符号変換するよう構成されている。後処理部1700は、復号化済み転送チャネルと符号変換済みパラメトリックサイド情報とを使用して、出力フォーマットのオーディオチャネルを計算するよう構成されている。後処理部により実行される処理は、MPEGサラウンド処理と類似していてもよく、又はBCC処理などのような他の如何なる処理であってもよい。
【0160】
更なる一実施形態において、オブジェクト処理部1200は、(コア復号器による)復号化済み転送チャネルとパラメトリックサイド情報とを使用して、出力フォーマットのためのチャネル信号を直接的にアップミクス及びレンダリングするよう構成された、空間オーディオオブジェクト符号化・復号器1800を含む。
【0161】
更にかつ重要なことに、
図11のオブジェクト処理部1200は、チャネルとミキシングされたプレレンダリング済みオブジェクトが存在する場合、即ち
図10のミキサー200が活性化していた場合、入力としてUSAC復号器1300により出力されたデータを直接的に受信する、ミキサー1220をさらに備える。加えて、ミキサー1220は、SAOC復号化を用いずにオブジェクトレンダリングを実行しているオブジェクトレンダラーからのデータを受信する。更にミキサーは、SAOC復号器出力データ、即ちSAOCレンダリング済みオブジェクトを受信する。
【0162】
ミキサー1220は、出力インターフェイス1730とバイノーラルレンダラー1710とフォーマット変換部1720とに接続されている。バイノーラルレンダラー1710は、頭部関連伝達関数又はバイノーラル室内インパルス応答(BRIR)を使用して、出力チャネルを2つのバイノーラルチャネルへとレンダリングするよう構成されている。フォーマット変換部1720は、出力チャネルを、ミキサーの出力チャネル1205よりも少数のチャネルを有する出力フォーマットへと変換するよう構成されており、そのフォーマット変換部1720は、5.1スピーカなどのような再生レイアウトについての情報を要求する。
【0163】
図13において、OAM復号器1400は、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に、
図13において、オブジェクトレンダラー1210とUSAC復号器1300とミキサー1220とは一緒に、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
【0164】
図15の3Dオーディオ復号器は、
図13の3Dオーディオ復号器とは以下の点で異なる。即ち、SAOC復号器は、レンダリング済みオブジェクトだけでなくレンダリング済みチャネルをも生成しており、このことは、
図14の3Dオーディオ符号器が使用され、チャネル/プレレンダリング済みオブジェクトとSAOC符号器800の入力インターフェイスとの間の接続900が活性化している場合であるという点である。
【0165】
更に、ベクトル方式振幅パニング(VBAP)ステージ1810は、SAOC復号器から再生レイアウトについての情報を受信し、かつSAOC復号器に対してレンダリング行列を出力するよう構成され、その結果、SAOC復号器が、ミキサーの更なる動作を必要とせずに、レンダリング済みチャネルを高いチャネルフォーマット1205で、即ち32個のラウドスピーカに提供できるようになる。
【0166】
VBAPブロックは、好適には復号化済みOAMデータを受信してレンダリング行列を導出する。より一般的には、VBAPブロックは、再生レイアウトの幾何学的情報だけでなく、その再生レイアウト上で入力信号がレンダリングされるべき位置の幾何学的情報をも要求することが好ましい。この幾何学的入力データは、オブジェクトについてのOAMデータであってもよく、又は、SAOCを用いて伝送されたチャネルについてのチャネル位置情報であってもよい。
【0167】
しかしながら、ある特異な出力インターフェイスだけが要求される場合、VBAPステージ1810は、例えば5.1出力について要求されたレンダリング行列を既に供給することができる。その場合、SAOC復号器1800は、SAOC転送チャネルと関連するパラメトリックデータと解凍済みメタデータとから、直接的レンダリング、即ちミキサー1220の相互作用を何も受けずに、要求された出力フォーマットへの直接的なレンダリングを実行する。しかしながら、モード間のあるミキシングが適用される場合、即ち、複数のチャネルがSAOC符号化されているが、全てのチャネルがSAOC符号化されてはいない場合、複数のオブジェクトがSAOC符号化されているが、全てのオブジェクトがSAOC符号化されてはいない場合、又は、プレレンダリング済みオブジェクトとチャネルとのある量だけがSAOC復号化され、残りのチャネルがSAOC処理されない場合には、ミキサーは、個別の入力部分からのデータ、即ちコア復号器1300とオブジェクトレンダラー1210とSAOC復号器1800とからの直接的なデータを、結合するであろう。
【0168】
図15において、OAM復号器1400は、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に
図15において、オブジェクトレンダラー1210とUSAC復号器1300とミキサー1220とは一緒に、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
【0169】
符号化済みオーディオデータを復号化する装置が提供される。その符号化済みオーディオデータを復号化する装置は、
−符号化済みオーディオデータを受信する入力インターフェイス1100であって、符号化済みオーディオデータは、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は複数のオブジェクトに関連する圧縮済みメタデータを含む、インターフェイス1100と、
−メタデータ復号器110と、上述したように1つ以上のオーディオチャネルを生成するオーディオチャネル生成部120とを含む、装置100と、
を備える。
【0170】
1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110は、圧縮済みメタデータを解凍するメタデータ解凍部400である。
【0171】
1つ以上のオーディオチャネルを生成する装置100のオーディオチャネル生成部120は、複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化する、コア復号器1300を備える。
【0172】
更に、オーディオチャネル生成部120は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル1205を取得する、オブジェクト処理部1200を更に備える。
【0173】
更に、オーディオチャネル生成部120は、幾つかの出力チャネル1205を出力フォーマットへと変換する後処理部1700を更に備える。
【0174】
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
【0175】
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
【0176】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0177】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
【0178】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0179】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0180】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0181】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。
【0182】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0183】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0184】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0185】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0186】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。