(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024147600
(43)【公開日】2024-10-16
(54)【発明の名称】非差分的な利得値を表現するのに必要とされる最低整数ビット数をHOAデータ・フレーム表現の圧縮のために決定する装置
(51)【国際特許分類】
G10L 19/008 20130101AFI20241008BHJP
【FI】
G10L19/008 100
【審査請求】有
【請求項の数】7
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024107100
(22)【出願日】2024-07-03
(62)【分割の表示】P 2023076033の分割
【原出願日】2015-06-22
(31)【優先権主張番号】14306026.7
(32)【優先日】2014-06-27
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】クルーガー,アレクサンダー
(72)【発明者】
【氏名】コルドン,スヴェン
(57)【要約】 (修正有)
【課題】非差分的な利得値を表現するのに必要とされる最低整数ビット数を高次アンビソニックス(HOA)データ・フレーム表現の圧縮のために決定する装置を提供する。
【解決手段】HOA圧縮器において、HOAデータ・フレーム表現を圧縮するとき、各チャネル信号を知覚的にエンコードする知覚的エンコーダ段階またはステージ16前に、各チャネル信号に利得制御15、151を適用し、ストリーミングされ圧縮されたHOAデータ・フレーム表現のデコードを開始するため必要な絶対的利得値を最小数のビットで符号化する。そのような最低の整数ビット数(β
e)を決定するためにHOAデータ・フレーム表現(C(k))は空間領域で単位球面上の仮想スピーカー信号にレンダリングされ、それにHOA成分の方向性信号データ・フレーム表現(C(k))の正規化が続く。次いで、最低整数ビット数が
に設定される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音または音場の圧縮された高次アンビソニックス(HOA)音表現をデコードする方法であって:
ビットストリームから前記圧縮されたHOA表現を多重分離する段階であって、いくつかのHOA係数が前記圧縮されたHOA表現に対応する、段階と;
前記ビットストリームにおいて独立したアクセス単位が存在しているとき、最低の整数β
eに基づいて前記圧縮されたHOA表現をデコードする段階とを含み、前記最低の整数β
eは
【数1】
に基づいて決定され、
【数2】
であり、Nは次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kはモード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比であり、√K
MAX=1.5である、
方法。
【請求項2】
音または音場の圧縮された高次アンビソニックス(HOA)音表現をデコードする装置であって:
ビットストリームから前記圧縮されたHOA表現を多重分離するよう構成されたデマルチプレクサであって、いくつかのHOA係数が前記圧縮されたHOA表現に対応する、デマルチプレクサと;
前記ビットストリームにおいて独立したアクセス単位が存在しているとき、最低の整数β
eに基づいて前記圧縮されたHOA表現をデコードするプロセッサとを含み、前記最低の整数β
eは
【数3】
に基づいて決定され、
【数4】
であり、Nは次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kはモード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比であり、√K
MAX=1.5である、
装置。
【請求項3】
コンピュータに請求項1に記載の方法の段階を実行させる実行可能命令を記憶している非一時的なコンピュータ可読媒体。
【請求項4】
音または音場の圧縮された高次アンビソニックス(HOA)音表現をデコードする方法であって:
前記圧縮されたHOA表現を含むビットストリームを受領する段階であって、前記ビットストリームは、前記圧縮されたHOA表現に対応するいくつかのHOA係数を含む、段階と;
前記ビットストリームにおいて独立したアクセス単位が存在しているとき、最低の整数β
eに基づいて前記圧縮されたHOA表現をデコードする段階とを含み、前記最低の整数β
eは
【数5】
に基づいて決定され、
【数6】
であり、Nは次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は前記仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kはモード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比であり、√K
MAX=1.5である、
方法。
【請求項5】
音または音場の圧縮された高次アンビソニックス(HOA)音表現をデコードする方法であって:
前記圧縮されたHOA表現を含むビットストリームを受領する段階であって、前記ビットストリームは、前記圧縮されたHOA表現に対応するいくつかのHOA係数を含む、段階と;
前記ビットストリームにおいて独立したアクセス単位が存在しているとき、最低の整数β
eに基づいて前記圧縮されたHOA表現をデコードする段階とを含み、前記最低の整数β
eは
【数7】
に基づいて決定され、
【数8】
であり、Nは次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は前記仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kはモード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比であり、e
MAX>0は、利得制御の前のチャネル信号のサンプル値の振幅が閾値より低い場合に前記最低の整数のビット数β
eを増大させるはたらきをし、
【数9】
は前記利得制御によってチャネル信号に適用される最大利得である、
方法。
【請求項6】
HOAデータ・フレーム表現の圧縮のために、前記HOAデータ・フレームのチャネル信号について振幅変化に対応する非差分的な利得値の表現を2の指数として記述するための最低の整数ビット数β
eを決定する方法であって、各フレームにおける各チャネル信号はサンプル値のグループを含み、前記HOAデータ・フレームの各フレームの各チャネル信号に対して差分利得値が割り当てられ、該差分利得値は現在HOAデータ・フレームにおけるチャネル信号の第一のサンプル値の振幅の、直前のHOAデータ・フレームにおけるチャネル信号の第二のサンプル値に対する変化を引き起こすものであり、結果として得られる利得適応されたチャネル信号はエンコーダ(16)においてエンコードされ、
前記HOAデータ・フレーム表現は空間領域においてO個の仮想スピーカー信号w
j(t)にレンダリングされており、それらの仮想スピーカーの位置は単位球上にあり、その単位球上で一様に分布させられるよう目標とされており、前記レンダリングは行列乗算w(t)=(Ψ)
-1・c(t)によって表現され、w(t)はすべての仮想スピーカー信号を含むベクトルであり、Ψは仮想スピーカー位置モード行列であり、c(t)は前記HOAデータ・フレーム表現の対応するHOA係数シーケンスのベクトルであり、
前記HOAデータ・フレーム表現は
【数10】
となるよう正規化されており、当該方法は:
・チャネル信号を、
a)前記チャネル信号における優勢音信号を表現するために、HOA係数シーケンスのベクトルc(t)に混合行列Aを乗算するサブステップであって、混合行列Aは正規化されたHOAデータ・フレーム表現の係数シーケンスの線形結合を表わす、サブステップ;
b)前記チャネル信号における周囲成分c
AMB(t)を表現するために、前記正規化されたHOAデータ・フレーム表現から前記優勢音信号を減算し、結果として得られる最小周囲成分c
AMB,MIN(t)を、w
MIN(t)=Ψ
MIN
-1・c
AMB,MIN(t)を計算することによって変換し、w
MIN(t)はすべての仮想スピーカー信号のベクトルであり、||Ψ
MIN
-1||
2<1であり、Ψ
MINは前記最小周囲成分c
AMB,MIN(t)についてのモード行列である、サブステップ;
c)前記HOA係数シーケンスのベクトルc(t)のうち、空間変換が適用される前記最小周囲成分の係数シーケンスに関係する一部を選択するサブステップ;
を実行することによって形成する段階と;
・ビットストリーム中に独立アクセス単位が存在するときは前記最低の整数ビット数β
eを
【数11】
に基づいて決定する段階とを含み、
【数12】
であり、Nは次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は前記仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kは前記モード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比であり、e
MAX>0は、利得制御の前のチャネル信号のサンプル値の振幅が閾値より低い場合に前記最低の整数のビット数β
eを増大させるはたらきをし、
【数13】
は前記利得制御によってチャネル信号に適用される最大利得である、
方法。
【請求項7】
音または音場の圧縮された高次アンビソニックス(HOA)音表現をデコードする方法であって:
前記圧縮されたHOA表現を含むビットストリームを受領する段階であって、前記ビットストリームは前記圧縮されたHOA表現に対応するいくつかのHOA係数を含む、段階と;
前記ビットストリーム中に独立アクセス単位が存在するとき、最低の整数β
eに基づいて前記圧縮されたHOA表現をデコードする段階であって、前記最低の整数β
eは
【数14】
に基づいて決定される、段階とを含み、
【数15】
であり、Nは次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kは仮想スピーカー位置モード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比であり、e
MAX>0は、利得制御の前のチャネル信号のサンプル値の振幅が閾値より低い場合に前記最低の整数のビット数β
eを増大させるはたらきをし、
【数16】
は前記利得制御によってチャネル信号に適用される最大利得である、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、HOAデータ・フレーム表現の圧縮のために、該HOAデータ・フレームのうちの特定のもののチャネル信号に関連する非差分的な利得値を表現するのに必要とされる最低整数ビット数を決定する装置に関する。
【背景技術】
【0002】
HOAと記される高次アンビソニックス(Higher Order Ambisonics)は、三次元的な音を表現する一つの可能性を提供する。他の技法は波面合成(WFS: wave field synthesis)または22.2のようなチャネル・ベースのアプローチである。チャネル・ベースの方法とは対照的に、HOA表現は特定のスピーカー・セットアップとは独立であるという利点をもたらす。しかしながら、この柔軟性は、特定のスピーカー・セットアップでのHOA表現の再生のために必要とされるデコード・プロセスの代償を伴う。必要とされるスピーカーの数が通例非常に多いWFSアプローチに比べ、HOAは少数のスピーカーのみからなるセットアップにレンダリングされてもよい。HOAのさらなる利点は、同じ表現を、いかなる修正もなしでヘッドフォンへのバイノーラル・レンダリングのために用いることもできるということである。
【0003】
HOAは、複素調和平面波振幅の空間密度の、打ち切りされた球面調和関数(SH)展開による表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数によって等価に表現できる。よって、一般性を失うことなく、完全なHOA音場表現は、実際に、O個の時間領域関数からなると想定できる。ここで、Oは展開係数の数を表わす。これらの時間領域関数は、以下では、等価だが、HOA係数シーケンスまたはHOAチャネルと称される。
【0004】
HOA表現の空間分解能は、展開の最大次数Nの増大とともに改善する。残念ながら、展開係数の数Oは次数Nとともに二次で、特にO=(N+1)2の形で増大する。たとえば、次数N=4を使う典型的なHOA表現はO=25個のHOA(展開)係数を必要とする。HOA表現の伝送のための全ビットレートは、所望される単一チャネル・サンプリング・レートfSおよびサンプル当たりのビット数Nbを与えられて、O・fS・Nbによって決定される。次数N=4のHOA表現を、fS=48kHzのサンプリング・レートで、サンプル当たりNb=16ビットを用いて伝送することは、19.2MBits/sのビットレートにつながる。これは、たとえばストリーミングのような多くの実際的な用途にとって非常に高い。このように、HOA表現の圧縮がきわめて望ましい。
【0005】
以前に、HOA音場表現の圧縮が特許文献1、2、3において提案されている。非特許文献1参照。これらの手法は、音場解析を実行し、与えられたHOA表現を方向性成分(directional component)と残差周囲成分(residual ambient component)に分解することで共通している。一方では、最終的な圧縮された表現は、いくつかの量子化された信号からなると想定され、該量子化された信号は、方向性およびベクトル・ベースの信号と周囲HOA成分(ambient HOA component)の関連する係数シーケンスとの知覚的符号化から帰結する。他方では、最終的な圧縮された表現は、量子化された信号に関係する追加的なサイド情報を含む。このサイド情報は、HOA表現の、その圧縮されたバージョンからの再構成のために必要である。
【0006】
知覚的エンコーダに渡される前に、これらの中間時間領域信号は値範囲[-1,1[内の最大振幅をもつことが要求される。これは、現在利用可能な知覚的エンコーダの実装から生じる要件である。HOA表現を圧縮するときにこの要件を満たすために、利得制御処理ユニット(特許文献4および上記の非特許文献1を参照)が知覚的エンコーダより先に使用される。これは入力信号をなめらかに減衰させるまたは増幅する。結果として得られる信号修正は可逆であり、フレームごとに適用されると想定される。特に、相続くフレーム間での信号振幅の変化は2の冪乗であると想定される。HOA圧縮解除器においてこの信号修正を反転させることを容易にするために、対応する正規化サイド情報が全サイド情報に含められる。この正規化サイド情報は2を底とする指数からなることができ、それらの指数が二つの相続くフレーム間での相対的な振幅変化を記述する。これらの指数は上述した非特許文献1に従ってランレングス符号を使って符号化される。相続くフレームの間では、より大きな変化よりも軽微な振幅変化のほうが可能性が高いからである。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】欧州特許出願公開第2665208号
【特許文献2】欧州特許出願公開第2743922号
【特許文献3】欧州特許出願公開第2800401号
【特許文献4】欧州特許出願公開第2824661号
【非特許文献】
【0008】
【非特許文献1】ISO/IEC JTC1/SC29/WG11, N14264, WD1-HOA Text of MPEG-H 3D Audio、2014年1月
【非特許文献2】J. Fliege, U. Maier、"A two-stage approach for computing cubature formulae for the sphere"、Technical report, Fachbereich Mathematik, University of Dortmund, 1999
【非特許文献3】E. G. Williams、"Fourier Acoustics"、vol.93 of Applied Mathematical Sciences. Academic Press, 1999
【非特許文献4】B. Rafaely、"Plane-wave decomposition of the sound field on a sphere by spherical convolution"、J. Acoust. Soc. Am., 4(116):2149-2157, October 2004
【非特許文献5】J. Daniel、"Repr´esentation de champs acoustiques, application `a la transmission et `a la reproduction de sc`enes sonores complexes dans un contexte multim´edia"、PhD thesis, Universit´e Paris 6, 2001
【発明の概要】
【発明が解決しようとする課題】
【0009】
HOA圧縮解除においてもとの信号振幅を再構成するために、差分符号化された振幅変化を使うことが、たとえば単一のファイルが最初から最後までいかなる時間的なジャンプもなしに圧縮解除される場合に、実用可能である。しかしながら、ランダム・アクセスを容易にするために、独立したアクセス単位が、符号化された表現(これは典型的にはビットストリームである)において存在している必要がある。所望される位置(または少なくともその近傍)から、先行するフレームからの情報とは独立に、圧縮解除を始めることを許容するためである。そのような独立したアクセス単位は、最初のフレームから現在フレームまで利得制御処理ユニットによって引き起こされた合計の絶対的な振幅変化(すなわち、非差分的な利得値)を含む必要がある。二つの相続くフレームの間の振幅変化が2の冪乗であるとすると、合計の絶対的な振幅変化も底2の指数によって記述することが十分である。この指数の効率的な符号化のために、利得制御処理ユニットの適用前に信号の潜在的な最大利得を知っておくことが本質的である。しかしながら、この知識は、圧縮されるべきHOA表現の値範囲に対する制約条件の指定に強く依存する。残念ながら、非特許文献1のMPEG-H 3Dオーディオ文書は入力HOA表現のためのフォーマットの記述を提供するのみであり、値範囲に対するいかなる制約条件も設定していない。
【0010】
本発明によって解決されるべき課題は、非差分的な利得値を表現するために必要とされる最低整数ビット数を提供することである。この課題は、請求項1に開示される方法によって解決される。本発明の有利な追加的実施形態はそれぞれの従属請求項において開示される。
【課題を解決するための手段】
【0011】
本発明は、入力HOA表現の値範囲と、HOA圧縮器内の利得制御処理ユニットの適用前の信号の潜在的な最大利得との間の相互関係を確立する。その相互関係に基づいて、要求されるビットの量が――入力HOA表現の値範囲についての所与の指定について――最初のフレームから現在フレームまでに利得制御処理ユニットによって引き起こされた修正された信号の合計の絶対的な振幅変化(すなわち、非差分的な利得値)をアクセス単位内で記述するための、2を底とする指数の効率的な符号化のために、決定される。
【0012】
さらに、ひとたび指数の符号化のための要求されるビットの量の計算のための規則が固定されたら、本発明は、所与のHOA表現が、正しく圧縮されることができるよう、要求される値範囲制約条件を満たすかどうかを検証するための処理を使う。
【0013】
原理的には、本発明の方法は、HOAデータ・フレーム表現の圧縮のために、前記HOAデータ・フレームのうちの特定のもののチャネル信号についての非差分的な利得値を表現するために必要とされる最低整数ビット数β
eを決定するために好適である。ここで、各フレームにおける各チャネル信号はサンプル値のグループを含み、前記HOAデータ・フレームの各フレームの各チャネル信号に対して差分利得値が割り当てられ、そのような差分利得値は現在HOAデータ・フレームにおけるチャネル信号のサンプル値の振幅の、直前のHOAデータ・フレームにおけるそのチャネル信号のサンプル値に対する変化を引き起こすものであり、そのような利得適応されたチャネル信号はエンコーダにおいてエンコードされ、
前記HOAデータ・フレーム表現は空間領域においてO個の仮想スピーカー信号w
j(t)にレンダリングされており、前記O個の仮想スピーカーの位置は単位球上にあり、β
eの計算のために想定された位置に一致せず、前記レンダリングは行列乗算w(t)=(Ψ)
-1・c(t)によって表現され、w(t)はすべての仮想スピーカー信号を含むベクトルであり、Ψはこれらの仮想スピーカー位置について計算されたモード行列であり、c(t)は前記HOAデータ・フレーム表現の対応するHOA係数シーケンスのベクトルであり、 最大許容される振幅値
【数1】
が計算されており、前記HOAデータ・フレーム表現は
【数2】
となるよう正規化されており、当該方法は:
・前記の正規化されたHOAデータ・フレーム表現から、サブステップa)、b)、c)、すなわち
a)前記チャネル信号における優勢音信号を表現するために、HOA係数シーケンスの前記ベクトルc(t)に混合行列Aを乗算するサブステップであって、混合行列Aのユークリッド・ノルムは1より大きくなく、混合行列Aは前記正規化されたHOAデータ・フレーム表現の係数シーケンスの線形結合を表わす、サブステップ;
b)前記チャネル信号における周囲成分c
AMB(t)を表現するために、前記正規化されたHOAデータ・フレーム表現から前記優勢音信号を減算し、前記周囲成分c
AMB(t)の係数シーケンスの少なくとも一部を選択し、||c
AMB(t)||
2
2≦||c(t)||
2
2であり、結果として得られる最小周囲成分c
AMB,MIN(t)を、w
MIN(t)=Ψ
MIN
-1・c
AMB,MIN(t)を計算することによって変換し、||Ψ
MIN
-1||
2<1であり、Ψ
MINは前記最小周囲成分c
AMB,MIN(t)についてのモード行列である、サブステップ;
c)前記HOA係数シーケンスc(t)の一部を選択するサブステップであって、選択された係数シーケンスは、空間変換が適用される前記周囲HOA成分の係数シーケンスに関係し、前記選択された係数シーケンスの数を記述する最小次数N
MINはN
MIN≦9である、サブステップ;
のうちの一つまたは複数によって前記チャネル信号を形成する段階と;
・前記チャネル信号についての前記非差分的な利得値を表現するために必要とされる前記最低整数ビット数β
eを
【数3】
に設定する段階とを含み、
【数4】
であり、Nは前記次数であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kは前記モード行列の二乗されたユークリッド・ノルムとOとの間の比であり、N
MAX,DESは関心対象の次数であり、Ω
DES,1
(N),…,Ω
DES,1
(N)は各次数について前記HOAデータ・フレーム表現の前記圧縮の実装のために想定された前記仮想スピーカーの方向であり、よってβ
eは、前記非差分的な利得値の底2に対する指数を符号化するために
【数5】
によって選ばれたものであり、
【数6】
の計算について、||Ψ||
2は前記モード行列Ψのユークリッド・ノルムであり、
[外1]
であり、Nは前記次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は前記仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kは前記モード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比である。
【図面の簡単な説明】
【0014】
本発明の例示的な実施形態が付属の図面を参照して記述される。
【
図3】HOA次数N=1,…,29について、仮想方向Ω
j
(N)、1≦j≦Oについてのスケーリング値Kを示す図である。
【
図4】HOA次数N
MIN=1,…,29について、仮想方向Ω
MIN,d
(N)、d=1,…,O
MINについての逆モード行列Ψ
-1のユークリッド・ノルムを示す図である。
【
図5】位置Ω
j
(N)、1≦j≦O、O=(N+1)
2にある仮想スピーカーの信号の最大許容大きさγ
dBの決定を示す図である。
【発明を実施するための形態】
【0015】
たとえ明示的に記述されなくても、以下の実施形態は任意の組み合わせまたはサブコンビネーションにおいて用いることができる。
【0016】
以下では、上述した課題が生起する、より詳細なコンテキストを提供するために、HOA圧縮および圧縮解除の原理が呈示される。この呈示の基礎は非特許文献1のMPEG-H 3Dオーディオ文書に記述された処理である。特許文献1、3、2も参照。非特許文献1においては、「方向性成分」は「優勢音成分(predominant sound component)」に拡張される。方向性成分として、優勢音成分は、部分的には、方向性信号、つまり対応する方向(その方向から聴取者に入射すると想定される方向)をもつモノラル信号に、該方向性信号からもとのHOA表現の諸部分を予測するためのいくつかの予測パラメータを合わせたものによって表現されると想定される。加えて、優勢音成分は、「ベクトル・ベースの信号」、つまり該ベクトル・ベースの信号の方向分布を定義する対応するベクトルをもつモノラル信号によって表現されると想定される。
【0017】
〈HOA圧縮〉
特許文献3に記載されるHOA圧縮器の全体的なアーキテクチャーが
図1に示されている。これは、
図1のAに描かれる空間的HOAエンコード部と、
図1のBに描かれる知覚的および源エンコード部とを有する。空間的HOAエンコーダは、I個の信号からなる第一の圧縮されたHOA表現を、そのHOA表現をどのように生成するかを記述するサイド情報とともに提供する。知覚的およびサイド情報源符号化器では、該I個の信号は知覚的にエンコードされ、該サイド情報は源エンコードにかけられる。その後、二つの符号化された表現が多重化される。
【0018】
〈空間的HOAエンコード〉
第一段階では、もとのHOA表現の現在のk番目のフレームC(k)が方向およびベクトル推定処理段階またはステージ11に入力される。該段階はタプル集合MDIR(k)およびMVEC(k)を提供すると想定される。タプル集合MDIR(k)は、第一の要素が方向性信号のインデックスを表わし、第二の要素がそれぞれの量子化された方向を表わす諸タプルからなる。タプル集合MVEC(k)は、第一の要素がベクトル・ベースの信号のインデックスを表わし、第二の要素がそれらの信号の方向分布、すなわち該ベクトル・ベースの信号のHOA表現がどのようにして計算されるかを定義するベクトルを表わす諸タプルからなる。
【0019】
両方のタプル集合MDIR(k)およびMVEC(k)を使って、初期HOAフレームC(k)はHOA分解段階またはステージ12において、すべての優勢音(すなわち、方向性およびベクトル・ベース)信号のフレームXPS(k-1)と、周囲HOA成分のフレームCAMB(k-1)とに分解される。一フレームの遅延に注意されたい。これは、ブロッキング・アーチファクトを回避するための重複加算処理のためである。さらに、HOA分解段階/ステージ12は、優勢音HOA成分を豊かにするために、これらの方向性信号からもとのHOA表現の諸部分をどのようにして予測するかを記述するいくつかの予測パラメータζ(k-1)を出力すると想定される。さらに、HOA分解処理段階またはステージ12において決定された優勢音信号の、I個の利用可能なチャネルへの割り当てについての情報を含む目標割り当てベクトル(target assignment vector)vA,T(k-1)が提供されると想定される。影響されるチャネルは占有されていると想定されることができる。つまり、それらはそれぞれの時間フレームにおいて周囲HOA成分のいかなる係数シーケンスを転送するためにも利用可能ではない。
【0020】
周囲成分修正処理段階またはステージ13では、周囲HOA成分のフレームCAMB(k-1)は、目標割り当てベクトルvA,T(k-1)によって与えられる情報に従って修正される。特に、周囲HOA成分のどの係数シーケンスが所与のI個のチャネルにおいて伝送されるべきかが、(他の側面もあるが中でも)どのチャネルが利用可能であり、優勢音信号によってすでに占有されていないかについての(目標割り当てベクトルvA,T(k-1)に含まれる)情報に依存して、決定される。さらに、選ばれた係数シーケンスのインデックスが相続くフレームの間で変わる場合には、係数シーケンスのフェードインおよびフェードアウトが実行される。
【0021】
さらに、周囲HOA成分CAMB(k-2)の最初のOMIN個の係数シーケンスは、常に、知覚的に符号化され伝送されるべく選ばれることが想定される。ここで、OMIN=(NMIN+1)2であり、NMIN≦Nは典型的にはもとのHOA表現のものより小さな次数である。これらのHOA係数シーケンスを脱相関するために、これらは、段階/ステージ13において、いくつかのあらかじめ定義された方向ΩMIN,d、d=1,…,OMINから入射する方向性信号(すなわち、一般平面波関数)に変換されることができる。
【0022】
修正された周囲HOA成分CM,A(k-1)とともに、段階/ステージ13において、時間的に予測された修正された周囲HOA成分CP,M,A(k-1)が計算され、合理的な先読みを許容するために、利得制御処理段階またはステージ15、151において使用される。ここで、周囲HOA成分の修正についての情報は、チャネル割り当て段階またはステージ14における、すべての可能な型の信号の、利用可能なチャネルへの割り当てに直接関係している。割り当てについての最終的な情報は、最終的な割り当てベクトルvA(k-2)に含まれると想定される。段階/ステージ13においてこのベクトルを計算するために、目標割り当てベクトルvA,T(k-1)に含まれる情報が活用される。
【0023】
段階/ステージ14におけるチャネル割り当ては、割り当てベクトルvA(k-2)によって与えられる情報を用いて、フレームXPS(k-2)に含まれる適切な信号およびフレームCM,A(k-2)に含まれる適切な信号を、I個の利用可能なチャネルに割り当て、信号フレームyi(k-2)、i=1,…,Iを与える。さらに、フレームXPS(k-1)およびフレームCP,AMB(k-1)に含まれる適切な信号も、I個の利用可能なチャネルに割り当てられて、予測された信号フレームyP,i(k-2)、i=1,…,Iを与える。
【0024】
信号フレームy
i(k-2)、i=1,…,Iのそれぞれは、最終的に利得制御15、151によって処理されて、指数e
i(k-2)および例外フラグβ
i(k-2)、i=1,…,Iならびに信号z
i(k-2)、i=1,…,Iを与える。ここで、知覚的エンコーダ段階またはステージ16に好適な値範囲を達成するよう信号利得がなめらかに修正される。段階/ステージ16は、対応するエンコードされた信号フレーム
【数7】
を出力する。予測された信号フレームy
P,i(k-2)、i=1,…,Iは、相続くブロックの間の激しい利得変化を避けるために一種の先読みを許容する。サイド情報データM
DIR(k-1)、M
VEC(k-1)、e
i(k-2)、β
i(k-2)、ζ(k-1)およびv
A(k-2)はサイド情報源符号化器段階またはステージ17において源符号化され、エンコードされたサイド情報フレーム
【数8】
を与える。マルチプレクサ18において、フレーム(k-2)のエンコードされた信号
【数9】
およびこのフレームについてのエンコードされたサイド情報データ
【数10】
が組み合わされて、出力フレーム
【数11】
を与える。
【0025】
空間的HOAデコーダにおいては、段階/ステージ15、151における利得修正が、指数ei(k-2)および例外フラグβi(k-2)、i=1,…,Iを含む前記利得制御サイド情報を使って反転されると想定される。
【0026】
〈HOA圧縮解除〉
特許文献3に記載されるHOA圧縮解除器の全体的なアーキテクチャーが
図2に示されている。これは、上記HOA圧縮器のコンポーネントの、逆順に配列された対応物からなり、
図2のAに描かれる知覚的および源デコード部と、
図2のBに描かれる空間的HOAデコード部とを含む。
【0027】
(知覚的およびサイド情報源デコーダを表わす)知覚的および源デコード部において、多重分離段階またはステージ21は、ビットストリームからの入力フレーム
【数12】
を受領し、前記I個の信号の知覚的に符号化された表現
【数13】
と、そのHOA表現をどのようにして生成するかを記述する符号化されたサイド情報データ
【数14】
とを与える。信号
【数15】
は知覚的デコーダ段階またはステージ22において知覚的にデコードされて、デコードされた信号
【数16】
を与える。符号化されたサイド情報データ
【数17】
はサイド情報源デコーダ段階またはステージ23においてデコードされて、データ集合M
DIR(k+1)、M
VEC(k+1)、指数e
i(k)、例外フラグβ
i(k)、予測パラメータζ(k+1)および割り当てベクトルv
AMB,ASSIGN(k)を与える。v
Aとv
AMB,ASSIGNの間の相違については、上述したMPEGの非特許文献1を参照。
【0028】
〈空間的HOAデコード〉
空間的HOAデコード部では、知覚的にデコードされた信号
【数18】
のそれぞれが、関連する利得補正指数e
i(k)および利得補正例外フラグβ
i(k)と一緒に逆利得制御処理段階またはステージ24、241に入力される。i番目の逆利得制御処理段階/ステージは利得補正された信号フレーム
【数19】
〔^y
i(k)〕を与える。
【0029】
I個の利得補正された信号フレーム
【数20】
のすべては割り当てベクトルv
AMB,ASSIGN(k)およびタプル集合M
DIR(k+1)およびM
VEC(k+1)と一緒にチャネル再割り当て段階またはステージ25に供給される。タプル集合M
DIR(k+1)およびM
VEC(k+1)の上記の定義を参照。割り当てベクトルv
AMB,ASSIGN(k)はI個の成分からなり、これらの成分は各伝送チャネルについて、周囲HOA成分の係数シーケンスを含んでいるかどうかおよびどの係数シーケンスを含んでいるかを示す。チャネル再割り当て段階/ステージ25において、利得補正された信号フレーム^y
i(k)は、すべての優勢音信号(すなわちすべての方向性およびベクトル・ベースの信号)のフレーム
【数21】
〔^X
PS(k)〕および周囲HOA成分の中間表現のフレームC
I,AMB(k)を再構成するために再分配される。さらに、k番目のフレームにおいてアクティブである、周囲HOA成分の係数シーケンスのインデックスの集合I
AMB,ACT(k)と、(k-1)番目のフレームにおいて有効にされる、無効にされるまたはアクティブなままである必要がある周囲HOA成分の係数インデックスのデータ集合I
E(k-1)、I
D(k-1)およびI
U(k-1)とが提供される。
【0030】
優勢音合成段階またはステージ26では、優勢音成分
【数22】
〔^C
PS(k-1)〕のHOA表現が、すべての優勢音信号のフレーム^X
PS(k)から、タプル集合M
DIR(k+1)および予測パラメータの集合ζ(k+1)、タプル集合M
VEC(k+1)およびデータ集合I
E(k-1)、I
D(k-1)およびI
U(k-1)を使って計算される。
【0031】
周囲合成段階またはステージ27では、周囲HOA成分フレーム
【数23】
〔^C
AMB(k-1)〕が、周囲HOA成分の中間表現のフレームC
I,AMB(k)から、k番目のフレームにおいてアクティブである周囲HOA成分の係数シーケンスのインデックスの集合I
AMB,ACT(k)を使って生成される。一フレームぶんの遅延が、優勢音HOA成分との同期に起因して導入されている。最後に、HOA組成段階またはステージ28において、周囲HOA成分フレーム^C
AMB(k-1)および優勢音HOA成分のフレーム^C
PS(k-1)が重畳されて、デコードされたHOAフレーム^C(k-1)を与える。
【0032】
その後、空間的HOAデコーダは前記I個の信号および前記サイド情報から、前記再構成されたHOA表現を生成する。
【0033】
エンコーダ側で周囲HOA成分が方向性信号に変換された場合、その変換はデコーダ側で段階/ステージ27において反転される。
【0034】
HOA圧縮器内の利得制御処理段階/ステージ15、151より前の信号の潜在的な最大利得は、入力HOA表現の値範囲に強く依存する。よって、まず、入力HOA表現についての意味のある値範囲が定義され、その後、利得制御処理段階/ステージにはいる前の前記信号の前記潜在的な最大利得について結論する。
【0035】
〈入力HOA表現の正規化〉
本発明の処理を使うために、(全)入力HOA表現信号の正規化が、事前に実行される。HOA圧縮については、フレームごとの処理が実行される。ここで、もとの入力HOA表現のk番目のフレームC(k)は、〈高次アンビソニックスの基礎〉の節の式(54)において指定される時間連続的なHOA係数シーケンスのベクトルc(t)に関して
【数24】
のように定義される。ここで、kはフレーム・インデックス、Lはフレーム長(サンプル単位)を表わし、O=(N+1)
2はHOA係数シーケンスの数であり、T
Sはサンプリング周期を示す。
【0036】
特許文献4において述べられているように、実際的な観点から見たHOA表現の意味のある正規化は、個々のHOA係数シーケンスc
n
m(t)の値範囲に対して制約条件を課すことによっては達成されない。これらの時間領域関数は、レンダリング後にスピーカーによって実際に再生される信号ではないからである。その代わり、HOA表現をO個の仮想スピーカー信号w
j(t)、1≦j≦Oにレンダリングすることによって得られる「等価な空間領域表現」を考えるほうが便利である。それぞれの仮想スピーカー位置は、球面座標系によって表わされると想定される。ここで、各位置は単位球上にあり、動径1をもつと想定される。よって、これらの位置は、次数に依存する諸方向Ω
j
(N)=(θ
j
(N),φ
j
(N))、1≦j≦Oによって等価に表わすことができる。ここで、θ
j
(N)およびφ
j
(N)はそれぞれ傾斜角および方位角を表わす(球面座標系の定義については
図6およびその説明を参照)。これらの方向は、できるだけ一様に単位球上に分布させられるべきである。たとえば非特許文献2参照。特定の方向の計算のために、ノード数はhttp://www.mathematik.uni-dortmund.de/lsx/research/projects/
fliege/nodes/nodes.htmlにある。これらの位置は一般に、「球状の一様分布」の定義の種類に依存するもので、よって曖昧さがないこともない。
【0037】
仮想スピーカー信号について値範囲を定義することが、HOA係数シーケンスについて値範囲を定義することに対して有利な点は、前者についての値範囲が、PCM表現を想定する通常のスピーカー信号についての場合のように、区間[-1,1[に等しく直観的に設定されることができることである。これは、空間的に一様に分布した量子化誤差につながり、そのため有利なことに、量子化は、実際の聴取に関して有意な領域で適用される。このコンテキストにおける重要な側面は、通常ならサンプル当たりより多くのビット数(たとえば24あるいはさらには32)が必要とされるところ、サンプル当たりのビット数が通常のスピーカー信号について典型的にそうであるくらい低く、たとえば16に選ばれることができることである。これは、HOA係数シーケンスの直接量子化に比べて効率を高める。
【0038】
空間領域における正規化プロセスを詳細に記述するために、すべての仮想スピーカー信号はw(t):=[w
1(t) … w
O(t)]
T (2)
においてまとめられる。ここで、(・)
Tは転置を表わす。仮想方向Ω
j
(N)、1≦j≦Oに関するモード行列を
【数25】
によって定義されるΨで表わすと、レンダリング・プロセスは、行列乗算
w(t)=(Ψ)
-1・c(t) (5)
として定式化されることができる。
【0039】
これらの定義を使うと、仮想スピーカー信号に対する合理的な要求は:
【数26】
である。これは、各仮想スピーカー信号の大きさは範囲[-1,1[内にあることが要求されることを意味している。時間tの時刻は、サンプル・インデックスlと前記HOAデータ・フレームのサンプル値のサンプル周期T
Sとによって表現される。
【0040】
結果として、スピーカー信号の全パワーは、条件
【数27】
を満たす。HOAデータ・フレーム表現のレンダリングおよび正規化は、
図1のAの入力C(k)の上流で実行される。
【0041】
〈利得制御前の信号値範囲についての帰結〉
入力HOA表現の正規化が〈入力HOA表現の正規化〉の節の記述に従って実行されるとして、HOA圧縮器における利得制御処理ユニット15、151に入力される信号yi、i=1,…,lの値範囲について以下で考察する。これらの信号は、HOA係数シーケンスまたは優勢音信号xPS,d、d=1,…,Dおよび/または周囲HOA成分cAMB,n、n=1,…,Oの特定の諸係数シーケンス(その一部には空間変換が適用される)のうちの一つまたは複数の、利用可能なI個のチャネルへの割り当てによって生成される。よって、式(6)での正規化の想定のもとに、ここに挙げた異なる信号型の可能な値範囲を分析することが必要である。すべての種類の信号は、もとのHOA係数シーケンスから中間的に計算されるので、それらの可能な値範囲を見ておく。
【0042】
I個のチャネルにおいて、一つまたは複数のHOA係数シーケンスのみが含まれる場合は
図1のAおよび
図2のBには描かれていない。すなわち、そのような場合は、HOA分解、周囲成分修正および対応する合成ブロックは必要とされない。
【0043】
〈HOA表現の値範囲についての帰結〉
時間連続的なHOA表現は仮想スピーカー信号から
c(t)=Ψw(t) (8)
によって得られる。これは、式(5)の逆演算である。よって、すべてのHOA係数シーケンスの全パワーは、式(8)および(7)を使って次のように制限される。
【0044】
【数28】
球面調和関数のN3D正規化の想定のもとでは、モード行列の二乗されたユークリッド・ノルムは
||Ψ||
2
2=K・O (10a)
によって書くことができる。ここで、
K=||Ψ||
2
2/O (10b)
はモード行列の二乗されたユークリッド・ノルムとHOA係数シーケンスの数Oとの間の比を表わす。この比は特定のHOA次数Nおよび特定の諸仮想スピーカー方向Ω
j
(N)、1≦j≦Oに依存する。このことは、
K=K(N,Ω
1
(N),…,Ω
O
(N)) (10c)
のように、この比の後に個々のパラメータ・リストを付けることによって表わせる。
【0045】
図3は、上述した非特許文献2の論文に従って仮想方向Ω
j
(N)、1≦j≦OについてのKの値を、HOA次数N=1,…,29について示している。
【0046】
すべてのこれまでの議論および考察を組み合わせると、HOA係数シーケンスの絶対値についての上限が次のように与えられる。
【0047】
【数29】
ここで、最初の不等号はノルムの定義から直接帰結する。
【0048】
式(6)における条件は式(11)における条件を含意するが、逆は成り立たない、すなわち式(11)は式(6)を含意しないことに注意しておくことが重要である。
【0049】
さらに重要な側面は、ほぼ一様に分布した仮想スピーカー位置の想定のもとで、仮想スピーカー位置に関するモード・ベクトルを表わすモード行列Ψの列ベクトルは、ほぼ互いに直交であり、それぞれN+1のユークリッド・ノルムをもつ。この属性は、前記空間変換が、乗算定数を除いてユークリッド・ノルムをほぼ保存することを意味する。すなわち、
【数30】
モード・ベクトルに対する直交性の想定が破られるほど、真のノルム||c(lT
S)||
2は式(12)の近似から異なってくる。
【0050】
〈優勢音信号の値範囲についての帰結〉
優勢音信号の両方の型(方向性およびベクトル・ベース)は、HOA表現への寄与が、N+1のユークリッド・ノルムをもつ、すなわち
||v1||2=N+1 (13)
となる単一のベクトルv1∈ROによって記述されることで共通している。
【0051】
方向性信号の場合、このベクトルは、ある信号源方向Ω
S,1に関するモード・ベクトルに対応する、すなわち、
【数31】
このベクトルは、HOA表現によって、信号源方向Ω
S,1への方向性ビームを記述する。ベクトル・ベースの信号の場合、ベクトルv
1はいかなる方向に関するモード・ベクトルにも制約されず、よってモノラルのベクトル・ベースの信号の、より一般的な方向性分布を記述しうる。
【0052】
以下では、D個の優勢音信号xd(t)、d=1,…,Dの一般的な場合が考察される。これらの信号は、
x(t)=[x1(t) x2(t) … xD(t)]T (16)
に従ってベクトルx(t)に集められることができる。これらの信号は、モノラルの優勢音信号xd(t)、d=1,…,Dの方向性分布を表わすすべてのベクトルvd、d=1,…,Dから形成される行列
V:=[v1 v2 … vD] (17)
に基づいて決定される必要がある。
【0053】
優勢音信号x(t)の意味のある抽出のためには、以下の制約条件が定式化される:
a)各優勢音信号はもとのHOA表現の係数シーケンスの線形結合として得られる、すなわち
x(t)=A・c(t) (18)
ここで、A∈R
D×Oは混合行列を表わす。
b)混合行列Aは、そのユークリッド・ノルムが値1を超えない、すなわち
【数32】
ように、かつもとのHOA表現と優勢音信号のHOA表現との間の残差の二乗されたユークリッド・ノルム(または等価だがパワー)がもとのHOA表現の二乗されたユークリッド・ノルム(または等価だがパワー)より大きくない、すなわち
【数33】
となるよう、選ばれるべきである。
【0054】
式(18)を式(20)に代入すると、式(20)が制約条件
【数34】
と等価であることが見て取れる。ここで、Iは恒等行列を表わす。
【0055】
式(18)および(19)における制約条件ならびにユークリッド行列とベクトル・ノルムの整合性から、優勢音信号の絶対値についての上限は、式(18)、(19)および(11)を使って、
【数35】
によって見出される。よって、優勢音信号がもとのHOA係数シーケンスと同じ範囲(式(11)参照)内に留まること、すなわち、
【数36】
となることが保証される。
【0056】
〈混合行列の選択のための例〉
制約条件(20)を満たす混合行列をどのようにして決定するかの例が、抽出後の残差のユークリッド・ノルムが最小化される、すなわち
【数37】
となるように優勢音信号を計算することによって得られる。式(26)の最小化問題に対する解は
x(t)=V
+c(t) (27)
によって与えられる。ここで、(・)
+はムーア・ペンローズの擬似逆行列を示す。式(27)を式(18)と比較することによって、この場合、混合行列が行列Vのムーア・ペンローズ擬似逆行列に等しい、すなわちA=V
+となることがわかる。
【0057】
にもかかわらず、行列Vは相変わらず制約条件(19)、すなわち
【数38】
を満たすよう選ばれる必要がある。
【0058】
方向性信号のみの場合、行列Vはいくつかの源信号方向Ω
S,d、d=1,…,Dに関するモード行列、すなわち
【数39】
であり、この場合、制約条件(28)は、任意の二つの隣接する方向の距離が小さすぎないように源信号方向Ω
S,d、d=1,…,Dを選ぶことによって満たされることができる。
【0059】
〈周囲HOA成分の係数シーケンスの値範囲についての帰結〉
周囲HOA成分は、もとのHOA表現から優勢音信号のHOA表現を引くことによって計算される。すなわち、
【数40】
優勢音信号x(t)のベクトルが基準(20)に従って決定される場合、
【数41】
と結論できる。
【0060】
〈周囲HOA成分の空間変換された係数シーケンスの値範囲〉
特許文献2および上述した非特許文献1のMPEG文書において提案されたHOA圧縮処理におけるさらなる側面は、周囲HOA成分の最初のO
MIN個の係数シーケンスが常に、トランスポート・チャネルに割り当てられるよう選ばれるということである。ここで、O
MIN=(N
MIN+1)
2であり、N
MIN≦Nは典型的にはもとのHOA表現の次数よりも小さな次数である。これらのHOA係数シーケンスを脱相関させるために、これらは(〈入力HOA表現の正規化〉の節で述べた概念と同様に)いくつかのあらかじめ定義された方向Ω
MIN,d、d=1,…,O
MINから入射する仮想スピーカー信号に変換されることができる。次数インデックスn≦N
MINをもつ周囲HOA成分のすべての係数シーケンスのベクトルをc
AMB,MIN(t)によって定義し、仮想方向Ω
MIN,d、d=1,…,O
MINに関するモード行列をΨ
MINによって定義すると、w
MIN(t)という(によって定義される)すべての仮想スピーカー信号のベクトルは
【数42】
によって得られる。
【0061】
よって、ユークリッド行列とベクトル・ノルムの整合性を使うと、
【数43】
となる。
【0062】
上述した非特許文献1のMPEG文書においては、仮想方向Ω
MIN,d、d=1,…,O
MINは上述した非特許文献2の論文に従って選ばれている。モード行列Ψ
MINの逆行列のそれぞれのユークリッド・ノルムが次数N
MIN=1,…,9について
図4に示されている。
【0063】
【0064】
しかしながら、NMIN>9についてはこのことは一般には成り立たない。この場合、||ΨMIN
-1||2の値は典型的には1よりずっと大きくなる。それにもかかわらず、少なくとも1≦NMIN≦9については、仮想スピーカー信号の振幅は次式によって制限される。
【0065】
【数45】
HOA表現から生成される仮想スピーカー信号の振幅が値1を超えないことを要求する条件(6)を満たすよう入力HOA表現を制約することによって、利得制御前の信号の振幅が値(√K)・Oを超えないことが、次の条件のもとで、保証できる(式(25)、(34)、(40)参照):
a)すべての優勢音信号x(t)のベクトルが式/制約条件(18)、(19)、(20)に従って計算される;
b)仮想スピーカー位置として上述した非特許文献2の論文において定義されるものが使われる場合、空間変換が適用される周囲HOA成分の最初の諸係数シーケンスの数O
MINを決定する最小次数N
MINが9未満である必要がある。
【0066】
関心対象の最大次数N
MAXまでの任意の次数N、すなわち1≦N≦N
MAXについて、利得制御前の信号の振幅が値(√K
MAX)・Oを超えないことが結論できる。ここで、
【数46】
特に、
図3から、初期空間変換について仮想スピーカー方向Ω
j
(N)、1≦j≦Oが非特許文献2の論文における分布に従って選ばれていると想定される場合であり、加えて、関心対象の最大次数がN
MAX=29である(たとえば非特許文献1のMPEG文書のように)と想定される場合、この特別な場合には√K
MAX<1.5なので、利得制御前の信号の振幅は1.5Oを超えない。すなわち、√K
MAX=1.5が選択されることができる。
【0067】
KMAXは関心対象の最大次数NMAXおよび仮想スピーカー方向Ωj
(N)、1≦j≦Oに依存し、次のように表わせる。
【0068】
【数47】
よって、知覚的符号化前の信号が区間[-1,1]内にあることを保証するために利得制御によって適用される最大利得は
【数48】
によって与えられる。
【0069】
利得制御前の信号の振幅があまりに小さい場合には、非特許文献1のMPEG文書において、それらの振幅を
【数49】
までの因子でなめらかに増幅することが可能であることが提案されている。ここで、e
MAX≧0は符号化されたHOA表現内でサイド情報として伝送される。
【0070】
このように、最初から現在フレームまでに利得制御処理ユニットによって引き起こされた、修正された信号の合計の絶対的な振幅変化をアクセス単位内で記述する底2に対するそれぞれの指数は、区間[eMIN,eMAX]内の任意の整数値を取ることができる。結果として、それを符号化するために必要とされるビットの(最低の整数の)数βeは次式によって与えられる。
【0071】
【数50】
利得制御前の信号の振幅が小さすぎない場合には、式(42)は次のように単純化できる。
【0072】
【数51】
このビット数β
eは、利得制御段階/ステージ15、…、151の入力において計算されることができる。
【0073】
指数のためのこのビット数βeを使うと、HOA圧縮器利得制御処理ユニット15、…、151によって引き起こされるすべての可能な絶対的な振幅変化が捕捉できることが保証され、圧縮された表現内のいくつかのあらかじめ定義された入場点において圧縮解除を開始することが許容される。
【0074】
HOA圧縮解除器において、圧縮されたHOA表現の圧縮解除を開始するとき、いくつかのデータ・フレームについてサイド情報に割り当てられた合計の絶対的な振幅変化を表わし、受領されたデータ・ストリーム
【数52】
のうちからデマルチプレクサ21から受領される非差分的な利得値は、利得制御段階/ステージ15、…、151において実行された処理の逆の仕方で、正しい利得制御を適用するために、逆利得制御段階またはステージ24、…、241において使われる。
【0075】
〈さらなる実施形態〉
〈HOA圧縮〉、〈空間的HOAエンコード〉、〈HOA圧縮解除〉および〈空間的HOAデコード〉の節において述べたような具体的なHOA圧縮/圧縮解除システムを実装するとき、前記指数を符号化するためのビットの量β
eが、スケーリング因子K
MAX,DESに依存して式(42)に従って設定される必要がある。このK
MAX,DES自身は圧縮されるべきHOA表現の所望される(desired)最大次数N
MAX,DESおよびある種の仮想スピーカー方向
【数53】
に依存する。
【0076】
たとえば、NMAX,DES=29を想定し、非特許文献2の論文に従って仮想スピーカー方向を選ぶとき、合理的な選択は√KMAX,DES=1.5であろう。その状況では、同じ仮想スピーカー方向ΩDES,1
(N),…,ΩDES,O
(N)を使って〈入力HOA表現の正規化〉の節に従って正規化されている、1≦N≦NMAXとなる次数NのHOA表現については、正しい圧縮が保証される。しかしながら、この保証は、(効率性の理由のために)やはりPCMフォーマットで仮想スピーカー信号によって等価に表現されているが、仮想スピーカーの方向Ωj
(N)、1≦j≦Oがシステム設計段階で想定された上記の仮想スピーカー方向ΩDES,1
(N),…,ΩDES,O
(N)とは異なるように選ばれているHOA表現の場合には、与えられることができない。
【0077】
仮想スピーカー位置のこの異なる選択のため、たとえこれらの仮想スピーカー信号が区間[1,1[内にあったとしても、利得制御前の信号の振幅が値(√KMAX,DES)・Oを超えないことはもはや保証できない。よって、このHOA表現が、非特許文献1のMPEG文書において記述される処理に従った圧縮のために適正な正規化をもつことは保証できない。
【0078】
この状況において、それぞれのHOA表現が非特許文献1のMPEG文書において記述される処理に従った圧縮のために好適であることを保証するために、仮想スピーカー位置の知識に基づいて、仮想スピーカー信号の最大限許容される振幅を与えるシステムをもつことが有利である。
図5では、そのようなシステムが示されている。これは、O=(N+1)
2、N∈N
0であるとして、入力として仮想スピーカー位置Ω
j
(N)、1≦j≦Oを取り、出力として仮想スピーカー信号の(デシベルで測った)最大限許容される振幅γ
dBを与える。段階またはステージ51では、諸仮想スピーカー位置に関するモード行列Ψが式(3)に従って計算される。続く段階またはステージ52では、該モード行列のユークリッド・ノルム||Ψ||
2が計算される。第三の段階またはステージ53では、振幅γが、1、ならびに、仮想スピーカー位置の数の平方根とK
MAX,DESの積とモード行列のユークリッド・ノルムとの間の商のうちの最小として計算される。すなわち、
【数54】
デシベル単位での値は
γ
dB=20log10(γ) (44)
によって得られる。
【0079】
説明のために:上記の導出から、HOA係数シーケンスの大きさが値(√K
MAX,DES)・Oを超えなければ、すなわち
【数55】
であれば、利得制御処理ユニット15、151より前のすべての信号は相応してこの値を超えないことが見て取れる。これは、適正なHOA圧縮のための要件である。
【0080】
式(9)から、HOA係数シーケンスの大きさが
【数56】
によって制限されることが見出される。結果として、γが式(43)に従って設定され、PCMフォーマットでの仮想スピーカー信号が
【数57】
を満たす場合、式(7)から、
【数58】
となり、要件(45)が満たされていることになる。
【0081】
すなわち、式(6)における最大の大きさの値1が、式(47)では最大の大きさの値γによって置き換えられる。
【0082】
〈高次アンビソニックスの基礎〉
高次アンビソニックス(HOA)は、音源がないと想定されるコンパクトな関心領域内の音場の記述に基づく。その場合、関心領域内の位置xおよび時刻tにおける音圧の空間時間的挙動p(t,x)は、斉次の波の式(homogeneous wave equation)によって物理的に完全に決定される。以下では、
図6に示される球面座標系を想定する。使用されるこの座標系では、x軸は前方位置を向き、y軸は左を向き、z軸は上を向く。空間内の位置x=(r,θ,φ)
Tは動径r>0(すなわち、座標原点までの距離)、極軸zから測った傾斜角θ∈[0,π]およびxy平面においてx軸から反時計回りに測った方位角φ∈[0,2π[によって表現される。さらに、(・)
Tは転置を表わす。
【0083】
すると、ωが角周波数を表わし、iは虚数単位を示すものとして、非特許文献3の教科書から、
F
t(・)によって表わされる時間に関する音圧のフーリエ変換、すなわち
【数59】
は、
【数60】
に従って球面調和関数級数に展開されうることが示せる。ここで、c
sは音速を表わし、kは角波数を表わす。角波数は角周波数ωに、k=ω/c
sによって関係付けられる。さらに、j
n(・)は第一種の球面ベッセル関数を表わし、S
n
m(θ,φ)は次数(order)n、陪数(degree)mの実数値の球面調和関数を表わす。これは〈実数値球面調和関数の定義〉の節で定義される。展開係数A
n
m(k)は角波数kのみに依存する。音圧が空間的に帯域制限されていることが暗黙的に想定されていることを注意しておく。よって、級数は次数インデックスnに関して上限Nで打ち切られる。このNはHOA符号化表現の次数と呼ばれる。
【0084】
音場が、角タプル(θ,φ)によって指定されるすべての可能な方向から到来する、異なる角周波数ωの無限個の調和平面波の重ね合わせによって表現されるとすると、それぞれの平面波複素振幅関数C(ω,θ,φ)は次の球面調和関数展開によって表わせることを示せる(非特許文献4)。
【0085】
【数61】
ここで、展開係数C
n
m(k)は展開係数A
n
m(k)に、
A
n
m(k)=i
nC
n
m(k) (52)
によって関係付けられる。個々の係数C
n
m(k=ω/c
s)が角周波数ωの関数であるとすると、逆フーリエ変換(F
-1(・)によって表わされる)の適用は、各次数nおよび陪数mについて、時間領域関数
【数62】
を与える。これらの時間領域関数はここでは連続時間HOA係数シーケンスと称され、これは
【数63】
によって単一のベクトルc(t)にまとめることができる。
【0086】
ベクトルc(t)内のHOA係数シーケンスc
n
m(t)の位置インデックスは
n(n+1)+1+m
によって与えられる。ベクトルc(t)内の全体的な要素数はO=(N+1)
2によって与えられる。
最終的なアンビソニックス・フォーマットは、サンプリング周波数fsを使って、c(t)のサンプリングされたバージョンを、
【数64】
として与える。ここで、T
s=1/fsはサンプリング周期を表わす。c(lT
s)の要素は離散時間HOA係数シーケンスと称される。これは常に実数値であることが示せる。この属性は、連続時間バージョンc
n
m(t)についても成り立つ。
【0087】
〈実数値の球面調和関数の定義〉
実数値の球面調和関数Sn
m(θ,φ)(非特許文献5、3.1章に基づくSN3D規格化を想定)は次式によって与えられる。
【0088】
【数65】
ルジャンドル陪関数P
n,m(x)は次式によって定義される。
【0089】
【数66】
ここで、ルジャンドル多項式P
n(x)を用いているが、非特許文献3とは異なり、コンドン・ショートリー(Condon-Shortley)位相項(-1)
mがない。
【0090】
本発明は、単一のプロセッサまたは電子回路によって、あるいは並列に動作するおよび/または本発明の処理の異なる部分で動作するいくつかのプロセッサまたは電子回路によって実行されることができる。
【0091】
かかるプロセッサ(単数または複数)を動作させるための命令は一つまたは複数のメモリに記憶されることができる。
【0092】
いくつかの態様を記載しておく。
〔態様1〕
HOAデータ・フレーム表現(C(k))の圧縮のために、前記HOAデータ・フレームのうちの個々のもののチャネル信号についての非差分的な利得値(2
e)を表現するために必要とされる最低の整数ビット数β
eを決定する方法であって、各フレームにおける各チャネル信号はサンプル値のグループを含み、前記HOAデータ・フレームの各フレームの各チャネル信号(y
1(k-2),…,y
I(k-2))に対して差分利得値が割り当てられ、そのような差分利得値は現在HOAデータ・フレーム((k-2))におけるチャネル信号のサンプル値の振幅の、直前のHOAデータ・フレーム((k-3))におけるそのチャネル信号のサンプル値に対する変化を引き起こすものであり、そのような利得適応されたチャネル信号はエンコーダ(16)においてエンコードされ、
前記HOAデータ・フレーム表現(C(k))は空間領域においてO個の仮想スピーカー信号w
j(t)にレンダリングされており、前記O個の仮想スピーカーの位置は単位球上にあり、β
eの計算のために想定される位置に一致せず、前記レンダリングは行列乗算w(t)=(Ψ)
-1・c(t)によって表現され、w(t)はすべての仮想スピーカー信号を含むベクトルであり、Ψはこれらの仮想スピーカー位置について計算された(51)モード行列であり、c(t)は前記HOAデータ・フレーム表現(C(k))の対応するHOA係数シーケンスのベクトルであり、
最大許容される振幅値
【数67】
が計算されており(53)、前記HOAデータ・フレーム表現(C(k))は
【数68】
となるよう正規化されており、当該方法は:
・前記の正規化されたHOAデータ・フレーム表現(C(k))から、前記チャネル信号(y
1(k-2),…,y
I(k-2))を、サブステップa)、b)、c)、すなわち
a)前記チャネル信号における優勢音信号(x(t))を表現するために、HOA係数シーケンスの前記ベクトルc(t)に混合行列Aを乗算するサブステップであって、混合行列Aのユークリッド・ノルムは1より大きくなく、混合行列Aは前記正規化されたHOAデータ・フレーム表現の係数シーケンスの線形結合を表わす、サブステップ;
b)前記チャネル信号における周囲成分c
AMB(t)を表現するために、前記正規化されたHOAデータ・フレーム表現(C(k))から前記優勢音信号を減算し、前記周囲成分c
AMB(t)の係数シーケンスの少なくとも一部を選択し、||c
AMB(t)||
2
2≦||c(t)||
2
2であり、結果として得られる最小周囲成分c
AMB,MIN(t)を、w
MIN(t)=Ψ
MIN
-1・c
AMB,MIN(t)を計算することによって変換し、||Ψ
MIN
-1||
2<1であり、Ψ
MINは前記最小周囲成分c
AMB,MIN(t)についてのモード行列である、サブステップ;
c)前記HOA係数シーケンスc(t)の一部を選択するサブステップであって、選択された係数シーケンスは、空間変換が適用される前記周囲HOA成分の係数シーケンスに関係し、前記選択された係数シーケンスの数を記述する最小次数N
MINはN
MIN≦9である、サブステップ;
のうちの一つまたは複数によって形成する段階と;
・前記チャネル信号についての前記非差分的な利得値(2
e)を表現するために必要とされる前記最低の整数ビット数β
eを
【数69】
に設定する段階とを含み、
【数70】
であり、Nは前記次数であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kは前記モード行列の二乗されたユークリッド・ノルムとOとの間の比であり、N
MAX,DESは関心対象の次数であり、Ω
DES,1
(N),…,Ω
DES,1
(N)は各次数について前記HOAデータ・フレーム表現(C(k))の前記圧縮の実装のために想定された前記仮想スピーカーの方向であり、よってβ
eは、前記非差分的な利得値の底2に対する指数(e)を符号化するために
【数71】
によって選ばれたものであり、
【数72】
の計算について、||Ψ||
2は前記モード行列Ψのユークリッド・ノルムであり、
【数73】
であり、Nは前記次数であり、N
MAXは関心対象の最大次数であり、Ω
1
(N),…,Ω
O
(N)は前記仮想スピーカーの方向であり、O=(N+1)
2はHOA係数シーケンスの数であり、Kは前記モード行列の二乗されたユークリッド・ノルム||Ψ||
2
2とOとの間の比である、
方法。
〔態様2〕
前記変換された最小周囲成分に加えて、前記周囲成分c
AMB(t)の変換されていない周囲係数シーケンスが前記チャネル信号(y
1(k-2),…,y
I(k-2))に含まれる、態様1記載の方法。
〔態様3〕
前記HOAデータ・フレームのうちの個々のものの前記チャネル信号に関連付けられた前記非差分的な利得値(2
e)がサイド情報として転送され、そのそれぞれがβ
eビットによって表現される、態様1または2記載の方法。
〔態様4〕
前記最低の整数ビット数β
eが
【数74】
に設定され、e
MAX>0は利得制御(15、151)前のチャネル信号のサンプル値の振幅が小さすぎる場合に前記ビット数β
eを増すはたらきをする、
態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
√KMAX=1.5である、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記混合行列Aが、モノラル優勢音信号の方向分布を表わすすべてのベクトルから形成されるモード行列のムーア・ペンローズの擬似逆行列を取ることによって、もとのHOA表現と優勢音信号のものとの間の残差のユークリッド・ノルムを最小にするよう決定される、態様1ないし5のうちいずれか一項記載の方法。
【外国語明細書】