特許第6378432号(P6378432)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許6378432音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置
<>
  • 特許6378432-音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置 図000150
  • 特許6378432-音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置 図000151
  • 特許6378432-音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置 図000152
  • 特許6378432-音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置 図000153
  • 特許6378432-音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置 図000154
  • 特許6378432-音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置 図000155
  • 特許6378432-音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置 図000156
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6378432
(24)【登録日】2018年8月3日
(45)【発行日】2018年8月22日
(54)【発明の名称】音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置
(51)【国際特許分類】
   G10L 19/008 20130101AFI20180813BHJP
【FI】
   G10L19/008 100
【請求項の数】11
【全頁数】36
(21)【出願番号】特願2017-518906(P2017-518906)
(86)(22)【出願日】2015年9月25日
(65)【公表番号】特表2017-534909(P2017-534909A)
(43)【公表日】2017年11月24日
(86)【国際出願番号】EP2015072064
(87)【国際公開番号】WO2016055284
(87)【国際公開日】20160414
【審査請求日】2017年5月17日
(31)【優先権主張番号】14306607.4
(32)【優先日】2014年10月10日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】クルーガー,アレクサンダー
(72)【発明者】
【氏名】コルドン,スヴェン
(72)【発明者】
【氏名】カイラー,フロリアン
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 国際公開第2014/090660(WO,A1)
【文献】 国際公開第2013/171083(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
H04S 1/00 −7/00
(57)【特許請求の範囲】
【請求項1】
パラメトリック・アンビエンス複製パラメータ集合(ΓPAR(k'−1))を提供するよう、音場の高次アンビソニックスHOA信号表現(C(k))を処理するための方法であって、当該方法は:
−前記HOA信号表現を圧縮し(11)、圧縮解除する(12)し、前記圧縮解除(12)により、空間的に疎なデコードされたHOA表現(D(k'))およびこの表現の係数シーケンスのインデックスの集合(Iused(k'))を提供し
−前記空間的に疎なデコードされたHOA表現(D(k'))をある数(NFB)の複素数値の周波数領域サブバンド表現
【数111】
に変換し(23)、分解フィルタバンクを使って前記HOA信号表現(C(k'))の対応して遅延されたバージョンを対応する数(NFB)の複素数値の周波数領域サブバンド表現
【数112】
に変換し(24);
−前記サブバンド表現のサブバンドをある数(NSB)のサブバンド・グループにグループ分けし(25);
これらサブバンド・グループのそれぞれの中で:
−−脱相関フィルタ(331、332)を使って、サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現
【数113】
から、前記複素数値の周波数領域サブバンド表現と相関していないいくつかの修正位相スペクトル信号
【数114】
を生成する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記修正位相スペクトル信号から、脱相関共分散行列を計算する(341、342)段階と;
−−サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現
【数115】
を、その空間領域表現
【数116】
に変換し(311、312)、それから対応する共分散行列を計算する(313、314)段階と;
−−サブバンド・グループ内の各サブバンドについて、前記HOA信号表現(C(k'))についての複素数値の周波数領域サブバンド表現
【数117】
を、その空間領域表現
【数118】
に変換し(323、324)、それから対応する共分散行列を計算する(323、324)段階とを実行し;
それぞれのサブバンド・グループについて:
−−サブバンド・グループのすべてのサブバンドについて、前記脱相関共分散行列を組み合わせて(351)サブバンド・グループ脱相関共分散行列
【数119】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記複素数値の周波数領域サブバンド表現
【数120】
の前記空間領域表現
【数121】
についての共分散行列を組み合わせて(352)サブバンド・グループ共分散行列
【数122】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記HOA信号表現(C(k'))についての前記複素数値の周波数領域サブバンド表現
【数123】
の前記空間領域表現
【数124】
についての共分散行列を組み合わせて(354)サブバンド・グループ共分散行列
【数125】
を提供する段階と;
−−上記の組み合わされた共分散行列
【数126】
の間の残差を形成して(353)行列
【数127】
を提供する段階と;
−−行列
【数128】
および行列
【数129】
を使って、対応する混合行列(Mg(k'−1))を計算する(36)段階と;
−−前記混合行列をエンコードして(37)、そのサブバンド・グループについてのパラメータ集合(ΓMg(k'−1))を提供する段階とを実行し;
−前記サブバンド・グループについての前記パラメータ集合(ΓMg(k'−1))ならびにエンコードされたサブバンド構成データ(ΓSUBBAND)およびパラメトリック・アンビエンス複製符号化パラメータを多重化して、パラメトリック・アンビエンス複製パラメータ集合(ΓPAR(k'−1))を提供することを含む、
方法。
【請求項2】
パラメトリック・アンビエンス複製パラメータ集合を提供するよう、音場の高次アンビソニックスHOA信号表現を処理する装置であって、当該装置は:
−前記HOA信号表現を圧縮し、圧縮解除し、前記圧縮解除により、空間的に疎なデコードされたHOA表現およびこの表現の係数シーケンスのインデックスの集合を提供し
−前記空間的に疎なデコードされたHOA表現をある数の複素数値の周波数領域サブバンド表現に変換し、分解フィルタバンクを使って前記HOA信号表現の対応して遅延されたバージョンを対応する数の複素数値の周波数領域サブバンド表現に変換し;
−前記サブバンド表現のサブバンドをいくつかのサブバンド・グループにグループ分けし;
これらサブバンド・グループのそれぞれの中で:
−−脱相関フィルタを使って、サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現から、前記複素数値の周波数領域サブバンド表現と相関していないいくつかの修正位相スペクトル信号を生成する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記修正位相スペクトル信号から、脱相関共分散行列を計算する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現を、その空間領域表現に変換し、それから対応する共分散行列を計算する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記HOA信号表現についての複素数値の周波数領域サブバンド表現を、その空間領域表現に変換し、それから対応する共分散行列を計算する段階とを実行し;
それぞれのサブバンド・グループについて:
−−サブバンド・グループのすべてのサブバンドについて、前記脱相関共分散行列を組み合わせてサブバンド・グループ脱相関共分散行列
【数130】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記複素数値の周波数領域サブバンド表現の前記空間領域表現についての共分散行列を組み合わせてサブバンド・グループ共分散行列
【数131】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記HOA信号表現についての前記複素数値の周波数領域サブバンド表現の前記空間領域表現についての共分散行列を組み合わせてサブバンド・グループ共分散行列
【数132】
を提供する段階と;
−−上記の組み合わされた共分散行列
【数133】
の間の残差を形成して行列
【数134】
を提供する段階と;
−−行列
【数135】
および行列
【数136】
を使って、対応する混合行列を計算する段階と;
−−前記混合行列をエンコードして、そのサブバンド・グループについてのパラメータ集合を提供する段階とを実行し;
−前記サブバンド・グループについての前記パラメータ集合ならびにエンコードされたサブバンド構成データおよびパラメトリック・アンビエンス複製符号化パラメータを多重化して、パラメトリック・アンビエンス複製パラメータ集合を提供するよう適応された手段を有する、
装置。
【請求項3】
前記混合行列が周波数領域で実行される混合のための混合行列である、請求項1記載の方法。
【請求項4】
前記空間的に疎なデコードされたHOA表現が、できるだけ一様に単位球上に分布したいくつかのあらかじめ定義された方向からの仮想スピーカー信号によって表現され、
これらあらかじめ定義された方向のそれぞれについて、前記脱相関フィルタ(331、332)を使って対応する仮想スピーカー信号の位相スペクトルを修正することによって一つの無相関な信号が生成され、
記混合行列が、各仮想スピーカー信号およびその特定の方向について、その特定の方向の近傍からの修正位相スペクトル信号のみが使われるような前記修正位相スペクトル信号の混合を表わす
請求項1もしくは3記載の方法。
【請求項5】
前記脱相関フィルタがペアごとに異なり、その数が前記あらかじめ定義された方向の数に等しい、請求項4記載の方法。
【請求項6】
前記あらかじめ定義された方向の数が異なる周波数帯域では変わる、請求項4もしくは5記載の方法。
【請求項7】
前記仮想スピーカー信号の前記脱相関フィルタへの割り当て(331、332)が、置換行列によって表わされる、請求項4ないし6のうちいずれか一項記載の方法。
【請求項8】
空間的に疎なデコードされた(42、43)HOA表現
【数137】
を改善するための方法であって、前記空間的に疎なデコードされたHOA表現について、この表現の係数シーケンスのインデックスの集合(Iused(k))が、前記デコードによって与えられており、パラメトリック・アンビエンス複製パラメータ集合(ΓPAR(k))が、前記デコードが実行されたデータから抽出されており、当該方法は:
−前記空間的に疎なデコードされたHOA表現、係数シーケンスのインデックスの前記集合および前記パラメトリック・アンビエンス複製パラメータ集合から、改善されたHOA表現
【数138】
を再構成する段階(44)を含み、前記再構成は:
−−前記パラメトリック・アンビエンス複製パラメータ集合からサブバンド構成を決定する段階(51、53)と;
−−前記空間的に疎なデコードされたHOA表現をある数(NFB)の周波数帯域HOA表現
【数139】
に変換する段階(52)と;
−−前記サブバンド構成に従って、周波数帯域HOA表現の対応するグループを、関係するパラメータと一緒に、対応する数(NSB)のパラメトリック・アンビエンス複製サブバンド・デコーダ・ステップまたはステージ(55、56)に割り当てる段階(54)と;
−−各パラメトリック・アンビエンス複製サブバンド・デコーダ・ステップまたはステージによって、複製された周囲HOA表現
【数140】
の脱相関された係数シーケンスを生成する段階と;
−−前記複製された周囲HOA表現の前記係数シーケンスを、複製された時間領域HOA表現
【数141】
に変換する段階とを含み;
当該方法はさらに、
−前記複製された時間領域HOA表現
【数142】
を用いて、前記空間的に疎なデコードされたHOA表現
【数143】
を向上させて(59)、向上された圧縮解除されたHOA表現
【数144】
を提供する段階を含む、
方法。
【請求項9】
空間的に疎なデコードされたHOA表現を改善するための装置であって、前記空間的に疎なデコードされたHOA表現について、この表現の係数シーケンスのインデックスの集合が、前記デコードによって与えられており、パラメトリック・アンビエンス複製パラメータ集合(ΓPAR(k))が、前記デコードが実行されたデータから抽出されており、当該装置は:
−前記空間的に疎なデコードされたHOA表現、係数シーケンスのインデックスの前記集合および前記パラメトリック・アンビエンス複製パラメータ集合から、改善されたHOA表現を再構成するよう適応された手段を含み、前記再構成は:
−−前記パラメトリック・アンビエンス複製パラメータ集合からサブバンド構成を決定する段階と;
−−前記空間的に疎なデコードされたHOA表現をある数の周波数帯域HOA表現に変換する段階と;
−−前記サブバンド構成に従って、周波数帯域HOA表現の対応するグループを、関係するパラメータと一緒に、対応する数(NSB)のパラメトリック・アンビエンス複製サブバンド・デコーダ・ステップまたはステージ(55、56)に割り当てる段階(54)と;
−−パラメトリック・アンビエンス複製サブバンド・デコーダ・ステップまたはステージによって、複製された周囲HOA表現の脱相関された係数シーケンスを生成する段階と;
−−前記複製された周囲HOA表現の前記係数シーケンスを、複製された時間領域HOA表現に変換する段階とを含み;
当該装置はさらに、
−前記複製された時間領域HOA表現を用いて、前記空間的に疎なデコードされたHOA表現を向上させて、向上された圧縮解除されたHOA表現を提供するよう適応された手段を含む、
装置。
【請求項10】
前記空間的に疎なデコードされたHOA表現、係数シーケンスのインデックスの前記集合および前記パラメトリック・アンビエンス複製パラメータ集合(ΓPAR(k))から抽出されたアンビエンス複製符号化パラメータ(oPAR,g、nSIG,g(k)、vCOMPLEX,g)から、脱相関フィルタを使って、脱相関された空間領域信号
【数145】
が生成され(611、612)、混合行列
【数146】
が提供され、
前記脱相関された空間領域信号から、前記複製された周囲HOA表現の空間領域信号
【数147】
が生成され(621、622)、
前記複製された周囲HOA表現の前記空間領域信号が、前記向上(59)のために使われる前記複製された周囲HOA表
【数148】
に変換される、
請求項8記載の方法。
【請求項11】
コンピュータ請求項1および3ないし7のうちいずれか一項記載の方法を実行させるためのコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音場の高次アンビソニックスHOA信号表現の低ビットレート圧縮のための方法および装置であって、HOA信号表現が低ビットレートのために空間的に疎であるものに関する。
【背景技術】
【0002】
高次アンビソニックス(HOA: Higher Order Ambisonics)は、三次元的な音を表現する一つの可能性を提供する。他の技法には波面合成(WFS: wave field synthesis)または22.2のようなチャネル・ベースのアプローチがある。しかしながら、チャネル・ベースの方法とは対照的に、HOA表現は特定のスピーカー・セットアップとは独立であるという利点をもたらす。だが、この柔軟性は、特定のスピーカー・セットアップでのHOA表現の再生のために必要とされるデコード・プロセスの代償を伴う。必要とされるスピーカーの数が通例非常に多いWFSアプローチに比べ、HOAは少数のスピーカーのみからなるセットアップにレンダリングされてもよい。HOAのさらなる利点は、同じ表現を、いかなる修正もなしでヘッドフォンへのバイノーラル・レンダリングのために用いることもできるということである。
【0003】
HOAは、複素調和平面波振幅の空間密度の、打ち切りされた球面調和関数(SH)展開による表現に基づく。各展開係数は角周波数の関数であり、これは時間領域関数によって等価に表現できる。よって、一般性を失うことなく、完全なHOA音場表現は、実際に、O個の時間領域関数からなると想定できる。ここで、Oは展開係数の数を表わす。これらの時間領域関数は、以下では、等価だが、HOA係数シーケンスまたはHOAチャネルと称される。
【0004】
HOA表現の空間分解能は、展開の最大次数Nの増大とともに改善する。残念ながら、展開係数の数Oは次数Nとともに二次で、特にO=(N+1)2の形で増大する。たとえば、次数N=4を使う典型的なHOA表現はO=25個のHOA(展開)係数を必要とする。以前に行なった考察によれば、HOA表現の伝送のための全ビットレートは、所望される単一チャネル・サンプリング・レートfSおよびサンプル当たりのビット数Nbを与えられて、O・fS・Nbによって決定される。結果として、次数N=4のHOA表現を、fS=48kHzのサンプリング・レートで、サンプル当たりNb=16ビットを用いて伝送することは、19.2MBits/sのビットレートにつながる。これは、たとえばストリーミングのような多くの実際的な用途にとって非常に高い。このように、HOA表現の圧縮がきわめて望ましい。
【0005】
HOA音場表現の圧縮は特許文献1、2および国際出願第PCT/EP2013/059363号において提案された。非特許文献1参照。これらの手法は、音場解析を実行し、与えられたHOA表現を方向性成分(directional component)と残差周囲成分(residual ambient component)に分解することで共通している。一方では、最終的な圧縮された表現は、いくつかの量子化された信号からなると想定され、該量子化された信号は、方向性およびベクトル・ベースの信号と周囲HOA成分(ambient HOA component)の関連する係数シーケンスとの知覚的符号化から帰結する。他方では、最終的な圧縮された表現は、量子化された信号に関係する追加的なサイド情報を含む。このサイド情報は、HOA表現の、その圧縮されたバージョンからの再構成のために必要である。
【0006】
量子化された信号の合理的な最小数は、特許文献1、2および国際出願第PCT/EP2013/059363号の手法については「8」である。よって、これらの方法の一つでのデータ・レートは典型的には、個々の各知覚的符号化器について32kbit/sのデータ・レートを想定すると、256kbit/sは下らない。たとえばモバイル装置へのオーディオ・ストリーミングのようなある種の用途については、この全データ・レートは高すぎることがあり、そのためずっと低いデータ・レート、たとえば128kbit/sのHOA圧縮方法が望ましい。
【0007】
欧州特許出願第14306077.0号では、基本的にはもとのHOA表現の小さな部分集合である、より少数の量子化された信号を使う、音場のHOA表現の低ビットレート圧縮のための方法が記載されている。欠けているHOA係数の複製のために、それらの量子化された信号から追加的な方向性HOA成分を予測するために、種々の周波数帯域について予測パラメータが得られる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】欧州特許出願公開第2665208号
【特許文献2】欧州特許出願公開第2743922号
【非特許文献】
【0009】
【非特許文献1】ISO/IEC DIS23008-3、MPEG-H 3D audio、2014年7月
【非特許文献2】V. Pulkki、"Directional audio coding in spatial sound reproduction and stereo upmixing", AES 28th International Conference, Pitea, Sweden, June 2006
【非特許文献3】J. Vilkamo, T. Baeckstroem, A. Kuntz、"Optimized covariance domain framework for time-frequency processing of spatial audio", J.Audio Eng.Soc, vol.61(6), pp.403−411, 2013
【非特許文献4】ISO/IEC 23003−1 MPEG Surround
【非特許文献5】ISO/IEC 23003−2 Spatial Audio Object Coding
【非特許文献6】D.D. Lee, H.S. Seung、"Learning the parts of objects by nonnegative matrix factorization", Nature, vol.401, pp.788−791, 1999
【非特許文献7】E. G. Williams、"Fourier Acoustics"、vol.93 of Applied Mathematical Sciences. Academic Press, 1999
【非特許文献8】B. Rafaely、"Plane−wave decomposition of the sound field on a sphere by spherical convolution"、J. Acoust. Soc. Am., 4(116):2149−2157, October 2004
【非特許文献9】J. Daniel、"Repr´esentation de champs acoustiques, application `a la transmission et `a la reproduction de sc`enes sonores complexes dans un contexte multim´edia"、PhD thesis, Universit´e Paris 6, 2001
【発明の概要】
【発明が解決しようとする課題】
【0010】
欧州特許出願第14306077.0号の処理では、再構成されたHOA表現は高度に相関した成分からなる。すべてのHOA成分が少数の量子化された信号だけから再構成されるからである。量子化された信号のそのような少なさのため、その方向性HOA成分の予測は満足いくものでないことがあり、再構成されたHOA表現が空間的に疎であるという効果につながることがある。このため、音は、もとのHOA表現におけるよりも、ドライで、静かになる。典型的には空間的に相関していない信号成分からなる周囲音場〔アンビエント音場〕(ambient sound fields)は、量子化された音の数が非常に少なく、たとえば「1」または「2」であれば、適正に再構成されない。
【0011】
本発明によって解決されるべき問題は、音場のHOA表現の低ビットレート圧縮を改善することである。この問題は、請求項1および8に開示される方法によって解決される。これらの方法を利用する装置は、請求項2および9に開示される。
【0012】
本発明の有利な追加的実施形態は、それぞれの従属請求項において開示される。
【0013】
以下に記述する処理は、低ビットレートでの高次アンビソニックス表現の圧縮を扱い、周囲音場成分を再生成するものであり、非常に少数の量子化された信号の場合、上記の欧州特許出願第14306077.0号を改善する。
【0014】
記載される処理は、パラメトリック・アンビエンス複製(Parametric Ambience Replication)と呼ばれ、再構成された空間的に疎なHOA表現を、自分自身からパラメトリックに複製される欠けている可能性のある周囲成分によって補足する。複製は、まず疎なHOA表現の信号(これは方向性信号および周囲成分を含んでいてもよい)から、修正された位相スペクトルをもち、よって以前の信号と相関していないいくつかの新たな信号を生成することによって実行される。第二に、新たに生成された信号は、複製された周囲HOA成分を提供するために、互いと混合される。最終的な向上されたHOA表現は、もとの疎なHOA表現と複製された周囲HOA成分との重ね合わせによって計算される。混合は、最終的な向上されたHOA表現の空間音響属性を、もとのHOA表現の属性と一致させるよう、実行される。好ましくは、混合は周波数領域で実行され、異なる周波数帯域の間で変わる可能性をもたらす。疎なHOA表現から相関していない信号を生成する上記プロセスが決定論的に規定されているとすると、圧縮されたHOA表現に含められるべきPARのためのサイド情報は、混合パラメータのみからなり、混合パラメータは本質的には複素数値の混合行列である。
【0015】
PARのためのサイド情報の量を減らすという目標をもって前記疎なHOA表現から前記相関していない信号を生成するための一つの具体的な方法は、まず、疎なHOA表現を、いくつかのあらかじめ定義された方向からの仮想スピーカー信号によって(または等価だが一般平面波関数によって)表わす。それらのあらかじめ定義された方向はできるだけ一様に単位球上に分布しているべきである。HOA表現から仮想スピーカー信号を生成するためのレンダリングは、以下では空間変換と称される。第二に、これらの方向のそれぞれについて、一つの相関していない信号が、脱相関フィルタを使って、前記疎なHOA表現の対応する仮想スピーカー信号の位相スペクトルを修正することによって、生成される。第三に、複製された周囲HOA成分は、同じ諸方向についての仮想スピーカー信号によっても表現される。ここで、ある方向についての各仮想スピーカー信号は、その特定の方向の近傍のあらかじめ定義された諸方向について生成された相関していない信号のみから混合される。少数の相関していない信号のみからの混合は、一つの相関していない信号を生成するための混合係数の数およびPARのためのサイド情報の量が少なく保てるという利点をもたらす。もう一つの利点は、複製された周囲HOA成分の個々の仮想スピーカー信号の混合のために、空間的近傍からの、よって同様の振幅スペクトルをもつ信号のみが考慮されるということである。この動作は、疎なHOA表現の方向性成分があらゆる方向にわたって望ましくないほど空間的に分散することを防止する。
【0016】
この手法のためには、脱相関フィルタがペアごとに異なっていて、その数が仮想スピーカー方向の数と等しいことが想定される。多くのそのような脱相関フィルタの実際的な構築では、通例、個々の各フィルタは、限られた脱相関効果しかもたない。仮想方向(あるいは等価だが空間位置)への脱相関フィルタの割り当ては、複製された周囲HOA成分の単一の仮想スピーカー信号を生成するために混合されるべき信号どうしの間の相互相関を最小にするために、合理的に選ばれるべきである。
【0017】
仮想スピーカー方向の数は、個々の周波数帯域について変わることが許され、複製された周囲HOA成分の周波数依存の次数(order)を指定するために使用できる。
【0018】
疎なHOA表現から相関していない信号を生成する方法のさらなる拡張は、複製された周囲HOA成分の仮想スピーカー信号の混合のために考慮されるべく、時間変化する数の相関されていない信号を使うことである。混合されるべき相関していない信号の数は、疎なHOA表現における欠けているアンビエンス(ambience)の量に依存する。この変動は通例、脱相関フィルタの仮想スピーカー位置への割り当ての変化につながる。時間的な割り当て変化に起因する脱相関された信号の不連続を避けるために、疎なHOA表現の仮想スピーカー信号への脱相関フィルタの割り当ては、脱相関フィルタへの仮想スピーカー信号への等価な割り当てによって交換されることができる。この割り当ては、単純な置換(permutation)行列によって表現できる。割り当てが変化する場合、各脱相関フィルタへの入力は、二つの異なる割り当てから生じる信号の間の重複加算(overlap−add)によって計算されることができる。よって、各脱相関フィルタへの入力およびその出力は連続的である。その後、各脱相関フィルタの出力を各仮想スピーカー方向に再割り当てするために、割り当てを反転させる必要がある。
【0019】
マルチチャネル・オーディオのコンテキストにおいて、周囲音成分を生成する問題は、非特許文献2〜5において扱われている。
【0020】
しかしながら、本願はHOA表現のコンテキストにおいてアンビエンス(ambience)の生成のための処理を記述する。
【0021】
原理的には、本発明の圧縮改善方法は、パラメトリック・アンビエンス複製パラメータ・セットを提供するよう、音場の低ビットレート圧縮され、圧縮解除された高次アンビソニックスHOA信号表現を改善するために適応される。前記圧縮解除は、空間的に疎なデコードされたHOA表現およびこの表現の係数シーケンスのインデックスの集合を提供し、当該方法は:
−前記空間的に疎なデコードされたHOA表現をいくつかの複素数値の周波数領域サブバンド表現に変換し、分解フィルタバンクを使って前記HOA信号表現の対応して遅延されたバージョンを対応する数の複素数値の周波数領域サブバンド表現に変換し;
−前記サブバンドをいくつかのサブバンド・グループにグループ分けし;
これらサブバンド・グループのそれぞれの中で:
−−脱相関フィルタを使って、サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現から、前記複素数値の周波数領域サブバンド表現と相関していないいくつかの修正された位相スペクトル信号を生成する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記修正された位相スペクトル信号から、脱相関共分散行列を計算する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現を、その空間領域表現に変換し、それから対応する共分散行列を計算する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記HOA信号表現についての複素数値の周波数領域サブバンド表現を、その空間領域表現に変換し、それから対応する共分散行列を計算する段階とを実行し;
それぞれのサブバンド・グループについて:
−−サブバンド・グループのすべてのサブバンドについて、前記脱相関共分散行列を組み合わせてサブバンド・グループ脱相関共分散行列
【数1】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記複素数値の周波数領域サブバンド表現の前記空間領域表現についての共分散行列を組み合わせてサブバンド・グループ共分散行列
【数2】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記HOA信号表現についての前記複素数値の周波数領域サブバンド表現の前記空間領域表現についての共分散行列を組み合わせてサブバンド・グループ共分散行列
【数3】
を提供する段階と;
−−上記の組み合わされた共分散行列
【数4】
の間の残差を形成して行列
【数5】
を提供する段階と;
−−行列
【数6】
および行列
【数7】
を使って、対応する混合行列を計算する段階と;
−−前記混合行列をエンコードして、そのサブバンド・グループについてのパラメータ集合を提供する段階とを実行し;
−前記サブバンド・グループについての前記パラメータ集合ならびにエンコードされたサブバンド構成データおよびパラメトリック・アンビエンス複製符号化パラメータを多重化して、パラメトリック・アンビエンス複製パラメータ集合を提供することを含む。
【0022】
原理的には、本発明の圧縮改善装置は、パラメトリック・アンビエンス複製パラメータ・セットを提供するよう、音場の低ビットレート圧縮され、圧縮解除された高次アンビソニックスHOA信号表現を改善するために適応される。前記圧縮解除は、空間的に疎なデコードされたHOA表現およびこの表現の係数シーケンスのインデックスの集合を提供し、当該装置は:
−前記空間的に疎なデコードされたHOA表現をいくつかの複素数値の周波数領域サブバンド表現に変換し、分解フィルタバンクを使って前記HOA信号表現の対応して遅延されたバージョンを対応する数の複素数値の周波数領域サブバンド表現に変換し;
−前記サブバンドをいくつかのサブバンド・グループにグループ分けし;
これらサブバンド・グループのそれぞれの中で:
−−脱相関フィルタを使って、サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現から、前記複素数値の周波数領域サブバンド表現と相関していないいくつかの修正された位相スペクトル信号を生成する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記修正された位相スペクトル信号から、脱相関共分散行列を計算する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記複素数値の周波数領域サブバンド表現を、その空間領域表現に変換し、それから対応する共分散行列を計算する段階と;
−−サブバンド・グループ内の各サブバンドについて、前記HOA信号表現についての複素数値の周波数領域サブバンド表現を、その空間領域表現に変換し、それから対応する共分散行列を計算する段階とを実行し;
それぞれのサブバンド・グループについて:
−−サブバンド・グループのすべてのサブバンドについて、前記脱相関共分散行列を組み合わせてサブバンド・グループ脱相関共分散行列
【数8】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記複素数値の周波数領域サブバンド表現の前記空間領域表現についての共分散行列を組み合わせてサブバンド・グループ共分散行列
【数9】
を提供する段階と;
−−サブバンド・グループのすべてのサブバンドについて、前記HOA信号表現についての前記複素数値の周波数領域サブバンド表現の前記空間領域表現についての共分散行列を組み合わせてサブバンド・グループ共分散行列
【数10】
を提供する段階と;
−−上記の組み合わされた共分散行列
【数11】
の間の残差を形成して行列
【数12】
を提供する段階と;
−−行列
【数13】
および行列
【数14】
を使って、対応する混合行列を計算する段階と;
−−前記混合行列をエンコードして、そのサブバンド・グループについてのパラメータ集合を提供する段階とを実行し;
−前記サブバンド・グループについての前記パラメータ集合ならびにエンコードされたサブバンド構成データおよびパラメトリック・アンビエンス複製符号化パラメータを多重化して、パラメトリック・アンビエンス複製パラメータ集合を提供するよう適応された手段を含む。
【0023】
原理的には、本発明の圧縮解除改善方法は、空間的に疎なデコードされたHOA表現を改善するよう適応されており、前記空間的に疎なデコードされたHOA表現について、この表現の係数シーケンスのインデックスの集合が、上記の圧縮改善方法に従って生成されたパラメトリック・アンビエンス複製パラメータ集合を使って前記デコードによって与えられており、当該方法は:
−前記空間的に疎なデコードされたHOA表現、係数シーケンスのインデックスの前記集合および前記パラメトリック・アンビエンス複製パラメータ集合から、改善されたHOA表現を再構成する段階を含み、前記再構成は:
−−前記パラメトリック・アンビエンス複製パラメータ集合からサブバンド構成を決定する段階と;
−−前記空間的に疎なデコードされたHOA表現をいくつかの周波数帯域HOA表現に変換する段階と;
−−前記サブバンド構成に従って、周波数帯域HOA表現の対応するグループを、関係するパラメータと一緒に、複製された周囲HOA表現の脱相関された係数シーケンスを生成する、対応する数のパラメトリック・アンビエンス複製サブバンド・デコーダ・ステップまたはステージに割り当てる段階と;
−−前記複製された周囲HOA表現の前記係数シーケンスを、複製された時間領域HOA表現に変換する段階とを含み;
当該方法はさらに、
−前記複製された時間領域HOA表現を用いて、前記空間的に疎なデコードされたHOA表現を向上させて、向上された圧縮解除されたHOA表現を提供する段階を含む。
【0024】
原理的には、本発明の圧縮解除改善装置は、空間的に疎なデコードされたHOA表現を改善するよう適応されており、前記空間的に疎なデコードされたHOA表現について、この表現の係数シーケンスのインデックスの集合が、上記の圧縮改善方法に従って生成されたパラメトリック・アンビエンス複製パラメータ集合を使って前記デコードによって与えられており、当該装置は:
−前記空間的に疎なデコードされたHOA表現、係数シーケンスのインデックスの前記集合および前記パラメトリック・アンビエンス複製パラメータ集合から、改善されたHOA表現を再構成するよう適応された手段を含み、前記再構成は:
−−前記パラメトリック・アンビエンス複製パラメータ集合からサブバンド構成を決定する段階と;
−−前記空間的に疎なデコードされたHOA表現をいくつかの周波数帯域HOA表現に変換する段階と;
−−前記サブバンド構成に従って、周波数帯域HOA表現の対応するグループを、関係するパラメータと一緒に、複製された周囲HOA表現の脱相関された係数シーケンスを生成する、対応する数のパラメトリック・アンビエンス複製サブバンド・デコーダ・ステップまたはステージに割り当てる段階と;
−−前記複製された周囲HOA表現の前記係数シーケンスを、複製された時間領域HOA表現に変換する段階とを含み;
当該装置はさらに、
−前記複製された時間領域HOA表現を用いて、前記空間的に疎なデコードされたHOA表現を向上させて、向上された圧縮解除されたHOA表現を提供するよう適応された手段を含む。
【図面の簡単な説明】
【0025】
本発明の例示的な実施形態が付属の図面を参照して記述される。
図1】PARエンコーダを含むHOAデータ・エンコーダを示す図である。
図2】k'=k−kHOAとしてPARエンコーダをより詳細に示す図である。
図3】PARサブバンド・エンコーダを示す図である。
図4】PARデコーダを含むHOAデータ圧縮解除器を示す図である。
図5】PARデコーダをより詳細に示す図である。
図6】PARサブバンド・デコーダを示す図である。
図7】球面座標系を示す図である。
【発明を実施するための形態】
【0026】
たとえ明示的に記述されなくても、以下の実施形態は任意の組み合わせまたはサブコンビネーションにおいて用いることができる。
【0027】
〈HOAエンコーダ〉
パラメトリック・アンビエンス複製(PAR)処理は、図1に示されるように、基本的なHOA圧縮を拡張する追加的な符号化ツールとして使われる。ここで、フレーム・インデックスkをもつフレームの、フレーム・ベースの処理が想定される。HOAエンコーダ・ステップまたはステージ11は、特許文献1、2、国際出願第PCT/EP2013/059363号および欧州特許出願第14306077.0号に記載されるように、HOA表現C(k)を、トランスポート信号行列Z(k−kHOA)およびHOAサイド情報ΓHOA(k−kHOA)の集合に分解する。フレーム・インデックスkについてのHOA表現行列C(k)はO個の行を含み、各行は対応するHOA係数のL個の時間領域サンプルを保持し、それはフレーム遅延ステップまたはステージ14にも入力される。行列Z(k−kHOA)の行は、C(k)がそれで構成されているところのトランスポート信号のL個の時間領域サンプルを保持する。Z(k−kHOA)からの時間領域信号は、知覚的オーディオ・エンコーダ・ステップまたはステージ15で知覚的にエンコードされて、トランスポート信号パラメータ集合ΓTrans(k−kHOA−kenc)にされ、これらはマルチプレクサおよびフレーム同期ステップまたはステージ16に入力される。疎なHOA表現のO×L行列D(k−kHOA)がΓHOA(k−kHOA)およびZ(k−kHOA)からHOAデコーダ・ステップまたはステージ12において復元される。HOAデコーダ・ステップまたはステージ12は、アクティブ周囲係数の集合Iused(k−kHOA)をも提供する。このHOAデコーダ・ステップ/ステージ12は、図4に示すHOAデータ圧縮解除器において使われるHOAデコーダ・ステップまたはステージ43と同一である。
【0028】
「疎」または「空間的に疎なHOA表現」という用語は、この表現では、もとの音場の空間的に相関していない信号成分が欠けていることを意味する。特に、用語「疎」は、それぞれのHOA表現の大半の係数シーケンスが0であることを意味することがあるが、それは必須ではない。たとえば、二つの平面波のみによって符号化される/表現される音場は、空間的に疎であることになる。しかしながら、通例、それぞれのHOA係数シーケンスのどれも0ではない。
【0029】
疎なHOA表現D(k−kHOA)は、遅延補償されたHOA表現C(k−kHOA)、アクティブ周囲係数の集合Iused(k−kHOA)およびステップ/ステージ14で遅延補償されたPARエンコーダ・パラメータF、oPAR、nSIG(k−kHOA)およびvCOMPLEXと一緒にPARエンコーダ・ステップまたはステージ13に入力される。PAR処理はNSB個のサブバンド・グループにおいて実行される。ここで、行列Fの行は、それぞれの対応するサブバンド・グループについてのPARフィルタバンクの最初と最後のサブバンド・インデックスを保持する。ベクトルoPARは、すべてのPARサブバンド・グループについて、処理のために使われるHOA次数(order)を保持する。インデックス集合Iused(k−kHOA)は、PAR処理のために使われる、D(k−kHOA)からの行のインデックスを保持する。複製された周囲HOA表現の一つの空間領域信号を計算するために使われるサブバンド・グループ当たりの空間領域信号の数は、フレームkについてベクトルnSIG(k)によって定義される。ベクトルvCOMPLEXは、各サブバンド・グループについて、PAR混合行列の要素が複素数値の数であるか実数値の非負の数であるかを示す。これらの入力信号およびパラメータから、PARエンコーダはエンコードされたPARパラメータ集合ΓPAR(k−kHOA−1)を計算する。これもステップ/ステージ16に入力される。
【0030】
マルチプレクサおよびフレーム同期ステップ/ステージ16は、パラメータ集合ΓHOA(k−kHOA)、ΓPAR(k−kHOA−1)およびΓTrans(k−kHOA−kenc)のフレーム遅延を同期させ、それらを符号化されたHOAフレームΓ(k−kmax)に組み合わせる。
【0031】
HOAエンコーダ遅延はkHOAによって定義される。ここで、HOAデコーダはいかなる追加的遅延も導入しない。知覚的エンコーダ遅延kencについて同じ定義が成り立つ。PAR処理も一フレームの遅延を加えるので、全体的な遅延はkmax=max{kHOA+kenc,kHOA+1}となる。
【0032】
〈PARエンコーダ〉
PAR処理の基本的特徴は、疎なHOA表現D(k')からの脱相関された信号の生成と、これらの脱相関された信号を複製された周囲HOA表現に組み合わせる周波数領域の混合行列の取得であり、その複製された周囲HOA表現が、もとのHOA表現C(k')の空間的属性に合うために疎で高度に相関したHOA表現を向上させる。脱相関は、このコンテキストでは、サブバンド信号の位相がその絶対値を変えることなく修正されることを意味する。したがって、図2に示されるPARエンコーダは、入力HOA表現C(k')およびD(k')から、PARエンコード・パラメータoPAR、nSIG(k')、vCOMPLEXおよびIused(k')の考慮のもとに、符号化されたパラメータ集合ΓPAR(k'−1)を計算する。ここで、簡単のためにインデックスk'=k−kHOAを導入した。
【0033】
PAR処理は周波数領域で実行される。PAR分解フィルタバンクは入力HOA表現をその複素数値の周波数領域表現に変換する。ここで、時間領域サンプルの数は周波数領域サンプルの数に等しいことが想定される。たとえば、NFB個のサブバンドをもつ直交ミラー・フィルタバンク(QMF)がフィルタバンクとして使用されることができる。第一のフィルタバンク24はO×L行列C(k')をNFB個の周波数領域の
【数15】
に変換し、第二のフィルタバンク23はO×L行列D(k')をNFB個の周波数領域の
【数16】
に変換する。
【0034】
F、oPAR、nSIG(k')およびvCOMPLEXをも受領するステップまたはステージ25において、これらのサブバンドはNSB個のサブバンド・グループにグループ化される。各サブバンド・グループg=1…NSBの信号は、対応する数のPARサブバンド・エンコーダ・ステップまたはステージ26および27によって個々にエンコードされる。
【0035】
PARサブバンド構成は次の行列によって定義される。
【0036】
【数17】
ここで、第一および第二の列は、対応するサブバンド・グループgの最初と最後のサブバンド・インデックスのインデックスjを保持する。サブバンド構成は、ステップまたはステージ21において、欧州特許出願第14306077.0号に記載される方法によってパラメータ集合ΓSUBBANDにエンコードされる。それは各フレーム・インデックスkについて固定されているので、デコーダに送信される必要があるのは初期化のための一度だけでよい。
【0037】
ステップ/ステージ25におけるサブバンドのグループ化は、所与のサブバンド構成に従って、入力信号およびパラメータを各PARサブバンド・エンコーダ・ステップ/ステージ26、27に差し向ける。それにより、サブバンド・グループgの各PARサブバンド・エンコーダは、すべてのjg=fg,1、…、fg,2についての入力として、
【数18】
を取得する。
【0038】
パラメータoPAR,gは、PARエンコーダがパラメータを計算するHOA次数を示す。この次数は、HOA表現C(k')のHOA次数N以下である。それは、エンコードされたPARパラメータΓMg(k'−1)を送信するためのデータ・レートを減らすために使われる。ベクトル
【数19】
はすべてのサブバンド・グループについてのHOA次数を保持する。
【0039】
複製された周囲HOA表現の一つの空間領域信号を生成するために使われる脱相関された信号の数は
【数20】
によって定義される。必要とされる信号の数はHOA表現に依存するので、それはフレーム毎に更新される。高度に空間的に拡散したシーンを含むHOA表現については、それほど空間的に拡散していないHOA表現についてよりも、より多くの脱相関された信号が必要とされる。エンコードされたPARパラメータについてのデータ・レートは使用される脱相関された信号の数とともに増大するので、該パラメータもデータ・レートを減らすために使用されることができる。
【0040】
脱相関された信号の混合は、行列乗算によってなされる。ここで、エンコードされた行列はPARパラメータ集合ΓMg(k'−1)に含まれる。ベクトル
【数21】
は、混合行列の要素が実数値の非負の数であるか複素数値の数であるかを示すブール変数を含む。ここで、vCOMPLEX,g=1については、サブバンド・グループgにおいて複素数値の要素の行列が使われると定義されることができる。トランスポート信号Z(k)の圧縮のため、デコードされたトランスポート信号の位相情報が、パラメトリック符号化ツールのためにデコーダ側で失われることがありうる(たとえばスペクトル帯域複製方法が適用される場合)。この場合、PAR処理は、欠けている周囲成分の空間的なパワー分布を複製するだけであることができる。つまり、PAR混合行列の位相情報は古くなっている。
【0041】
さらに、パラメータIused(k')が各PARサブバンド・エンコーダ・ステップ/ステージ26、27に入力される。この集合は、D(k')からの、脱相関された信号を生成するために使われる疎なHOA係数シーケンスのインデックスを保持する。これらのインデックスはHOA次数oPAR,gの範囲内の係数シーケンスを指すべきであり、それはもとのHOA表現C(k')のシーケンスと著しく異ならないべきである。最良の場合には、それらのシーケンスはPARエンコーダにおいて同一であり、デコーダ側では、選択されたシーケンスは知覚的符号化によって加えられる歪みによってのみ異なる。
【0042】
最後に、エンコードされたPARパラメータ集合
【数22】
エンコードされたサブバンド構成集合ΓSUBBANDおよびPAR符号化パラメータoPAR、nSIG(k')およびvCOMPLEXが、マルチプレクサおよびフレーム同期ステップまたはステージ22において、それらのフレーム・インデックスによって同期され、PARビットストリーム・パラメータ集合ΓPAR(k'−1)に多重化される。
【0043】
〈PARサブバンド・エンコーダ〉
PARサブバンド・エンコーダ・ステップ/ステージ26および27は図3においてより詳細に示されている。PARサブバンドgの各サブバンドjg=fg,1,…fg,2について、行列
【数23】
はステップまたはステージ311、312、313においてその空間領域表現
【数24】
に、節〈空間変換〉において後述する空間変換によって変換される。それからステップまたはステージ321、322、323、324において共分散行列
【数25】
が計算される。ここで、AHは、行列Aのエルミート転置を表わす。PARデコーダにおいて二つの隣接するフレームの行列の間のクロスフェードを可能にするために現在フレームおよび前のフレームについて有効な共分散行列を得るために、前のフレームの行列が含められる。ステップまたはステージ331および332における脱相関された信号の生成は
【数26】
からの、使用される係数のインデックス集合Iused(k')に従って選択される係数シーケンスの部分集合を空間領域に変換して、これらの空間領域信号を置換行列
【数27】
を用いて置換する。それらの信号を、行列
【数28】
を生成する対応する脱相関器に割り当てるためである。これらの処理の詳細な記述は、節〈脱相関信号の生成〉において与える。
【0044】
ステップまたはステージ341および342において対応する空間領域信号の共分散行列を得るために、
【数29】
に含まれる置換が、行列
【数30】
によって反転される必要がある。したがって、脱相関された信号の共分散行列は
【数31】
から得られる。
【0045】
【数32】
の計算のために、逆置換行列PHoPAR,g,nSIG,g(k'−1)は、両方のフレームについて有効な共分散行列を得るために現在フレームおよび前のフレームに適用される。これは、二つの隣り合うフレームの混合行列および置換の間の有効なクロスフェードのために必要とされる。
【0046】
各サブバンドのHOA表現は互いに独立であると想定される。よって、サブバンド・グループの共分散行列は、その諸サブバンドの共分散行列の和によって計算できる。よって、PARサブバンド・エンコーダは、組み合わせ器ステップまたはステージ352において共分散行列
【数33】
を計算し、組み合わせ器ステップまたはステージ354において共分散行列
【数34】
を計算し、
組み合わせ器ステップまたはステージ351において共分散行列
【数35】
を計算する。
【0047】
脱相関信号の共分散行列
【数36】
組み合わせ器ステップまたはステージ353において生成された行列
【数37】
および行列
【数38】
から、混合行列Mg(k'−1)が、混合行列計算ステップまたはステージ36において得られる。その処理は節〈混合行列の計算〉において述べる。
【0048】
最後に、ステップまたはステージ37において、混合行列Mg(k'−1)が量子化され、パラメータ集合ΓMg(k'−1)にエンコードされる。これについては節〈混合行列のエンコード〉で述べる。
【0049】
〈空間変換〉
空間変換では、入力HOA表現Cがその空間領域表現Wに、所与のHOA次数oPAR,gについての、節〈実数値の球面調和関数の定義〉からの球面調和関数変換を使って変換される。HOA次数oPAR,gは通例、入力HOA次数Nより小さいので、QPAR,g=(oPAR,g+1)2より大きなインデックスをもつCからの行を除去してはじめて球面調和関数変換が適用できる。
【0050】
〈脱相関信号の生成〉
脱相関された信号の生成は、以下の処理ステップを含む:
・疎なHOA表現〔チルダ付きのD(k',jg)〕から、使用される係数のインデックス集合Iused(k')によって定義される係数シーケンスの部分集合を選択する;
・HOA次数oPAR,gについて、節〈空間変換〉に従って、選択された係数シーケンスの空間変換を実行する;
・アンビエンス複製のために使われる信号の数nSIG,g(k')およびHOA次数oPAR,gについて選択された置換行列PoPAR,g,nSIG,g(k')によって、脱相関器への割り当てのための空間領域信号を置換。
・置換された信号を、サブバンド信号の絶対値を最もよく保存しつつサブバンド信号の位相を修正する個別の処理を使って脱相関する。
【0051】
以下では、これらの処理ステップの詳細な説明を与える。
【0052】
脱相関器は、入力行列〔チルダ付きのD(k',jg)〕から、すべての非アクティブなHOA係数シーケンスを除去する。これは、インデックス集合Iused(k')の要素ではないインデックスをもつ行を、0の
【数39】
ベクトルによって置き換えることによる。結果として得られる。行列
【数40】
は次いで、節〈空間変換〉からの空間変換を使って、その
【数41】
の空間領域表現行列
【数42】
に変換される。
【0053】
混合行列の各行の計算の間、
【数43】
からのnSIG,g(k')個の空間的に隣り合う信号が選択される。したがって、nSIG,g(k')個の選択された信号の間の最良の脱相関が保証されるよう、
【数44】
からの信号を脱相関器に差し向けるために、行列
【数45】
が置換される。nSIG,g(k')とoPAR,gのそれぞれのあらかじめ定義された組み合わせについて、固定のQPAR,g×QPAR,g置換行列PoPAR,g,nSIC,g(k')が定義される必要がある。これらの置換行列の計算および対応する信号選択テーブルは節〈置換および選択行列の計算〉において与えられる。
【0054】
次いで、実際の置換が次式によって実行される。
【0055】
【数46】
ここで、diag(f)はfの要素からの対角行列をなす。
【0056】
異なる置換行列の間の切り換えのためのフェードインおよびフェードアウト・ベクトルは、
【数47】
によって定義され、その要素は
【数48】
から得られる。
【0057】
一方の置換行列から他方へのフェードは、脱相関器の入力信号における不連続を防止する。その後、
【数49】
の各行のQPAR,g個の信号が対応する脱相関器によって脱相関される。行列
【数50】
を形成するためである。使用される脱相関方法は、非特許文献4の節6.6で定義されている。
【0058】
基本的に、各脱相関器は、各周波数帯域信号を、個別のサンプル数だけ遅延させる。ここで、遅延は、QPAR,g個の脱相関器全部について等しい。さらに、それぞれの脱相関器は、その入力信号に個別の全域通過フィルタを適用する。脱相関器の異なる構成は、空間領域信号〔チルダ付きのWPERMUTE〕の位相情報を異なる仕方で歪め、その結果、空間領域信号の脱相関が生じる。
【0059】
〈混合行列の計算〉
混合行列Mg(k'−1)は、変数vCOMPLEX,gによって信号伝達される実数値の非負または複素数値の行列要素について計算できる。1に等しいvCOMPLEX,gについては、複素数値の混合行列が節〈複素数値の混合行列〉に従って計算される。それによれば、この計算は、トランスポート・チャネルの知覚的符号化がサブバンド・グループg内のサンプルの位相情報を破壊しない場合にのみ適用可能である。
【0060】
1に等しいvCOMPLEX,g以外では、実数値の非負の要素の混合行列が、複製された周囲HOA表現の抽出のために十分である。実数値の非負の混合行列の計算のための例示的な処理は節〈実数値の非負の混合行列〉において与えられる。
【0061】
〈複素数値の混合行列〉
混合行列の計算は、上述した非特許文献3に記載される方法に基づく。混合行列Mはマルチチャネル信号Xをより多数のチャネルをもつ信号Yに、Y=MXによってアップミックスするために計算される。
【0062】
【数51】
混合行列Mについての解は
【数52】
によって与えられる。ここで、||・||FROは行列のフロベニウス・ノルムを表わし、信号ベクトルXと、Yの共分散行列ΣYとは既知である。プロトタイプ混合行列Qは
【数53】
〔^Y=QX〕を満たし、よって^YはYのよい近似である。^YおよびYからの信号のエネルギーは異なることがあるので、対角行列Gが^YのエネルギーをYのエネルギーに規格化する。ここで、Gの対角要素は
【数54】
によって与えられ、
【数55】

【数56】
の対角要素である。g番目のサブバンド・グループの各サブバンドjg=fg,1,…,fg,2について、向上された空間領域信号の行列Cout({k',k'−1},jg)は、疎なHOA表現の空間領域信号と混合された空間領域の脱相関された信号との和から次式によって計算されると想定される。
【0063】
【数57】
ここで、記法{k',k'−1}は、混合行列Mg(k'−1)が現在フレームおよび直前フレームについて有効であることを表わすために使われている。
【0064】
空間領域信号
【数58】
は定義により相関していないと想定されるので、向上された空間領域信号Cout({k',k'−1},jg)の相関行列Σout(k'−1)は、二つの成分の相関行列の和として次式によって書くことができる。
【0065】
【数59】
向上された疎なHOA表現が、音響心理学的な観点から、もとのHOA表現〔チルダ付きのC(k',jg)〕と同じように聞こえるようにするために、それらの相関行列がマッチされることができる。すなわち、
【数60】
この要件は、混合行列の次の制約条件につながる:
【数61】
ここで、ΔΣg(k'^1)は式(12)で定義されている。
【0066】
式(18)および(27)の比較は、次の割り当てを与える:
【数62】
ここで、KYおよびKX
【数63】
の特異値分解から計算できる。
【0067】
最後に、行列Qが、提案される方法のために定義される必要がある。行列^YはYのよい近似なので、Qは次の式の解である必要がある。
【0068】
【数64】
この問題についてのよく知られた解法は、ムーア・ペンローズの擬似逆行列を使って
【数65】
として定義される近似誤差のユークリッド・ノルムを最小化することである。
【0069】
混合行列を伝送するためのデータ・レートの低減のために、
【数66】
からのnSIG,g(k'−1)個の空間的に隣接する信号が、複製される周囲HOA表現の各空間領域信号の計算について選択されることができる。よって、混合行列Mg(k'−1)の各行は、個々に次の選択行列に従って計算される必要がある。
【0070】
【数67】
ここで、要素so,nは、複製される周囲HOA表現のo番目の空間領域信号を生成するために使われる
【数68】
からの行ベクトルのインデックスを表わし、n=1…nSIG,g(k'−1)である。混合行列の各行について個々に式(19)を解くためには、
【数69】
に変換される必要がある。
【0071】
【数70】
と定義され、taはTのa=1…QPAR,gの列ベクトルの一つである。Mg(k'−1)のo=1…QPAR,gの行のそれぞれの計算のために、部分行列
【数71】
が構築され、ベクトルmrow,oが次式によって決定される。
【0072】
【数72】
ここで、kY,oはKYからのo番目の行ベクトルであり、To+はムーア・ペンローズ擬似逆行列を表わす。いくつかの場合には、Toは悪条件となることがあり、擬似逆行列の計算において正則化を必要とすることがある。
【0073】
少なくとも、混合行列Mg(k'−1)の要素mo,i
【数73】
に割り当てられる。ここで、mrow,o,aはベクトルmrow,oの要素であり、o=1…QPAR,gである。
【0074】
〈実数値の非負の混合行列〉
しかしながら、知覚的符号化のスペクトル帯域幅複製によって影響されうる高周波数サブバンド・グループgについては、節〈複素数値の混合行列〉で述べた方法は合理的ではない。疎なHOA表現の再構成されたサブバンド信号の位相が、もとのサブバンド信号の位相と、基本的にさえ似ているとは想定できないからである。
【0075】
そのような場合には、位相は無視できる。その代わり、混合行列Mg(k'−1)の計算のために信号パワーにのみ集中する。予測係数の決定のための合理的な基準は、誤差
【数74】
を最小化することである。ここで、演算子|・|2は行列に対して要素ごとに適用されると想定される。換言すれば、混合行列は、脱相関されたHOA表現のすべての重み付けされた空間的サブバンド信号のパワーの和が、疎なHOA表現のもとのおよび空間領域サブバンド信号の残差のパワーを最もよく近似するよう選ばれる。この場合、この最適化問題を解くために、非負行列因子分解(NMF: Nonnegative Matrix Factorisation)技法が使用できる。NMFへの入門については、たとえば非特許文献6を参照。
【0076】
〈混合行列のエンコード〉
各サブバンド・グループg=1,…,NSBの混合行列Mg(k'−1)は、量子化されて、パラメータ集合ΓMg(k'−1)にエンコードされる。ここで、選択行列
【数75】
によって定義されるQPAR,g×nSIG,g(k'−1)の部分行列のみが符号化される。行列要素の量子化は、複製される周囲HOA表現の知覚されるオーディオ品質を低下させることなく、データ・レートを下げる必要がある。したがって、重なり合うフレームでの共分散行列の計算に起因して、相続くフレームの混合行列の間には高い相関があるという事実を活用できる。特に、各部分行列要素は、その絶対値および角度によって表現されることができ、次いで、相続くフレームの間の角度および絶対値の差が符号化される。
【0077】
絶対値が区間[0,mmax]内にはいると想定される場合、絶対値の差は区間[−mmax,mmax]内にはいる。角度の差は区間[−π,π]内にはいると想定される。これらの差の量子化のために、絶対値および角度差のためのあらかじめ定義されたビット数が対応して使われる。実数値の非負の要素をもつ混合行列を使う場合、位相差は常に0なので、絶対値差のみが符号化される。
【0078】
発明者は、実験的に、個々の差の生起確率がきわめて非一様に分布していることを見出した。特に、絶対値および角度における小さな差が、大きな差よりも、著しく頻繁に生起する。よって、符号化されるべき個々の値の先験的確率に基づく符号化方法(ハフマン符号化のような)が、混合行列要素当たりの平均ビット数を有意に減らすために、活用できる。
【0079】
さらに、nSIG,g(k'−1)の値はフレーム毎に伝送される必要がある。この目的のために、あらかじめ定義されたテーブルのインデックスが信号伝達されることができる。該インデックスは、それぞれの有効なPAR HOA次数について定義されている。
【0080】
〈置換および選択行列の計算〉
混合行列の伝送のためのデータ・レートを低減するために、行当たりのアクティブな(すなわち0でない)要素の数を減らすことができる。アクティブな行要素は、ここではターゲット信号と呼ばれる複製された周囲HOA表現の一つの空間領域信号を混合するために使われる、空間領域におけるQPAR個のうちnSIG個の脱相関された信号に対応する。混合されるべき脱相関された空間領域信号の複素数値のサブバンド信号は、理想的には、位相スペクトルは異なるが、ターゲット信号のスケーリングされた絶対値スペクトルをもつべきである。これは、ターゲット信号の空間的近傍から、混合されるべき信号を選択することによって達成できる。
【0081】
こうして、それぞれのo番目のターゲット信号位置、o=1,…,QPAR、についての第一段階では、それぞれのHOA次数oPARおよびそれぞれのアクティブな行の数nSIGについて、nSIG個の空間的に隣接する位置のグループが見出される。第二段階では、各グループ内でのnSIG個の信号の間の相互相関を最小にするために、QPAR個の脱相関器へのQPAR個の入力信号の割り当てが得られる。
【0082】
所与のHOA次数oPARについてあるグループのnSIG個の信号を見出す一つの方法は、すべての空間領域位置とo番目のターゲット信号の位置との間の角距離を計算し、nSIG個の最小の距離に属する信号インデックスをo番目のグループ中に選択することである。こうして、式(34)からの行列
【数76】
のo番目の行ベクトルは、o番目のグループの昇順ソートされたインデックスからなる。oPARおよびnSIGのあらかじめ定義された各組み合わせについての行列は、PARエンコーダおよびデコーダにおいて既知であると想定される。
【0083】
ここで、空間領域信号の脱相関器への割り当ては、oPARおよびnSIGのあらかじめ定義された各組み合わせについて見出され、置換行列PoPAR,nSIGにおいて記憶される必要がある。したがって、ある基準のもとで最良の割り当てを見出すために、すべての可能な割り当てにわたる探索が適用される。一つの可能な基準は、すべての脱相関器の全域通過インパルス応答の共分散行列Σを構築することである。割り当てのペナルティーは以下の段階によって計算される:
・各グループについて、そのグループの信号に割り当てられている行列Σからの要素のみを選択することによって、共分散部分行列を構築する;
・それぞれの共分散部分行列の最大および最小の特異値の商を合計する。
【0084】
最低のペナルティーをもつ割り当てから、置換行列PoPAR,nSIGが得られる。それにより、節〈脱相関信号の生成〉からの行列
【数77】
の各行が、割り当てられた脱相関器の対応するインデックスに置換される(permuted)。
【0085】
〈HOAデコーダ・フレームワーク〉
PARデコーダを含むHOAデコーダ/HOA圧縮解除器のフレームワークが図4に描かれている。ビットストリーム・パラメータ集合Γ(k)はデマルチプレクサ・ステップまたはステージ41において、サイド情報パラメータ集合ΓHOA(k)およびΓPAR(k)ならびに信号パラメータ集合ΓTrans(k)に多重分離される。サイド情報と信号パラメータとの間の遅延はすでにHOAエンコーダにおいて整列されているので、デコーダ側はそのデータを、すでに同期された形で受領する。
【0086】
信号パラメータ集合ΓTrans(k)は知覚的オーディオ・デコーダ・ステップまたはステージ42に入力される。これは、信号パラメータ集合ΓTrans(k)から疎なHOA表現
【数78】
〔便宜上^Z(k)と書く場合がある;以下同様〕をデコードする。続くHOAデコーダ・ステップまたはステージ43は、デコードされたトランスポート信号^Z(k)およびサイド情報パラメータ集合ΓHOA(k)から、デコードされた疎なHOA表現^D(k)を組成する(compose)。
【0087】
インデックス集合Iused(k)もHOAデコーダ・ステップ/ステージ43によって再構成される。デコードされた疎なHOA表現^D(k)、インデックス集合Iused(k)およびPARサイド情報パラメータ集合ΓPAR(k)がPARデコーダ・ステップまたはステージ44に入力され、そこから該PARデコーダ・ステップまたはステージ44が、複製された周囲HOA表現を再構成し、デコードされた疎なHOA表現^D(k)を向上させて、デコードされたHOA表現^C(k)にする。
【0088】
〈PARデコーダ・フレームワーク〉
図5に示されるPARデコーダ・フレームワークは、デコードされたHOA表現^C(k)を再構成するために、デコードされた複製された周囲HOA表現CPAR(k)によって、デコードされた疎なHOA表現^D(k)を向上させる。デコードされたHOA表現^C(k)のサンプルは、適用されたフィルタバンクの分解および合成遅延に従って遅延させられる。PARサイド情報パラメータ集合ΓPAR(k)はデマルチプレクサ・ステップまたはステージ51において、サブバンド構成集合ΓSUBBAND、PARパラメータoPAR、nSIG(k)、vCOMPLEXおよび各サブバンド・グループg=1,…,NSBについてのエンコードされた混合行列の諸データ集合ΓMg(k)に多重分離される。
【0089】
並行して、デコードされた疎なHOA表現^D(k)は分解フィルタバンク・ステップまたはステージ52において、j=1,…,NFB個の周波数帯域HOA表現行列
【数79】
に変換される。適用されるフィルタバンクは、エンコーダ側でPARエンコーダにおいて使われたものと同一である必要がある。
【0090】
サブバンド構成の集合ΓSUBBANDから、サブバンド・グループの数NSBと、式(1)において定義されるサブバンド構成行列Fとがステップまたはステージ53においてデコードされ、グループ割り当てステップまたはステージ54に入力される。これらのパラメータに従って、グループ割り当てステップまたはステージ54は、ステップ/ステージ51および53からのパラメータおよびステップ/ステージ52からの周波数ベースのHOA表現
【数80】
を、サブバンド1…NSBについての対応するPARサブバンド・デコーダ・ステップまたはステージ55、56に差し向ける。
【0091】
NSB個のPARサブバンド・デコーダ55、56は、デコードされた疎なHOA表現行列
【数81】
の係数シーケンスおよび対応する周波数帯域jg=fg,1,…,fg,2についてのPARサブバンド・パラメータoPAR、vCOMPLEX、nSIG(k)、ΓMg(k)およびIused(k)から、複製された周囲HOA表現
【数82】
の係数シーケンスを生成する。
【0092】
各周波数帯域の、結果として得られる複製された周囲HOA表現行列
【数83】
は、合成フィルタバンク・ステップまたはステージ58において時間領域HOA表現CPAR(k)に変換される。最後に、CPAR(k)は、組み合わせステップまたはステージ59において、(フィルタバンク遅延補償57において)遅延補償された疎なHOA表現^DDELAY(k)に、サンプルごとに加算されて、デコードされたHOA表現^C(k)を生成する。
【0093】
〈PARサブバンド・デコーダ〉
図6に描かれるPARサブバンド・デコーダは、サブバンド・グループgの周波数帯域jg=fg,1,…,fg,2について、周波数領域の複製された周囲HOA表現行列
【数84】
を生成する。
【0094】
並行して、置換され、脱相関された空間領域信号行列
【数85】
がステップまたはステージ611、612において、パラメータIused(k)、oPAR,gおよびnSIG,g(k)を使って、疎なHOA表現行列
【数86】
の係数シーケンスから生成される。この処理は、PARサブバンド・エンコーダにおいて使われる、節〈脱相関信号の生成〉からの処理と同一である。
【0095】
さらに、混合行列^Mg(k)が、混合行列デコード・ステップまたはステージ63において、パラメータoPAR,g、nSIG,g(k)およびvCOMPLEX,gを使って、エンコードされた混合行列のデータ・セットΓMg(k)から得られる。混合行列要素の実際のデコードは、節〈混合行列のデコード〉において記述されている。その後、複製された周囲HOA表現
【数87】
の空間領域信号が、対応する脱相関された空間領域信号
【数88】
から、アンビエンス複製ステップまたはステージ621、622において、
【数89】
を使って、節〈アンビエンス複製〉において述べたアンビエンス複製処理によって、サブバンド・グループgの各周波数帯域jgについて、生成される。
【0096】
最後に、複製された周囲HOA表現の空間領域信号
【数90】
が、ステップまたはステージ641、642において、oPAR,gおよび逆空間変換を使って、HOA表現に変換し戻される。ここで、節〈球面調和関数変換〉からの逆球面調和関数変換が適用される。生成された複製された周囲HOA表現行列
【数91】
は、次元
【数92】
をもつ必要があり、ここで、対応するPAR HOA次数oPAR,gの最初のQPAR,g行のみが0でない要素をもつ。
【0097】
〈混合行列のデコード〉
エンコードされた混合行列の要素のインデックスは、、現在の選択行列
【数93】
によって定義される。よって、混合行列当たりQPAR,gかけるnSIG,g(k)の要素がデコードされる必要がある。
【0098】
したがって、第一段階では、各行列要素の角度および絶対値差が、PARエンコーダにおいて適用された対応するエントロピー符号化に応じてデコードされる。次いで、デコードされた角度および絶対値差が、直前のフレームの再構成されたQPAR,g×QPAR,gの角度および絶対値混合行列に加算される。ここで、現在の選択行列
【数94】
のみが使用され、他のすべての要素は0に設定される必要がある。更新された再構成された角度および絶対値混合行列から、デコードされた混合行列
【数95】
の複素数値が、次式によって復元される。
【0099】
【数96】
ここで、ma,bは第a行第b列における^Mg(k)の要素であり、mANGLE,a,bおよびmABS,a,bは更新された再構成された角度および絶対値混合行列の対応する要素である。
【0100】
〈アンビエンス複製〉
アンビエンス複製(ambience replication)は、脱相関された空間領域信号の逆置換を実行する。逆置換は、パラメータoPAR,gおよびnSIG,g(k)についての置換行列によって定義され、その後に混合行列^Mg(k)の乗算が続く。隣り合うフレームのパラメータのなめらかな遷移のために、現在フレームからの脱相関された信号が処理され、現在フレームと前のフレームのパラメータを使ってクロスフェードされる。したがって、アンビエンス複製の処理は
【数97】
によって定義される。ここで、式(14)および(15)からのクロスフェード関数が使われている。
【0101】
〈高次アンビソニックスの基礎〉
高次アンビソニックス(HOA)は、音源がないと想定されるコンパクトな関心領域内の音場の記述に基づく。その場合、関心領域内の時刻tおよび位置xにおける音圧の空間時間的挙動p(t,x)は、斉次の波の式(homogeneous wave equation)によって物理的に完全に決定される。以下では、図7に示される球面座標系を想定する。使用されるこの座標系では、x軸は前方位置を向き、y軸は左を向き、z軸は上を向く。空間内の位置x=(r,θ,φ)Tは動径r>0(すなわち、座標原点までの距離)、極軸zから測った傾斜角θ∈[0,π]およびxy平面においてx軸から反時計回りに測った方位角φ∈[0,2π[によって表現される。さらに、(・)Tは転置を表わす。
【0102】
すると、ωが角周波数を表わし、iは虚数単位を示すものとして、非特許文献7の教科書から、
Ft(・)によって表わされる時間に関する音圧のフーリエ変換、すなわち
【数98】
は、
【数99】
に従って球面調和関数級数に展開されうることが示せる。ここで、csは音速を表わし、kは角波数を表わす。角波数は角周波数ωに、k=ω/csによって関係付けられる。さらに、jn(・)は第一種の球面ベッセル関数を表わし、Snm(θ,φ)は次数(order)n、陪数(degree)mの実数値の球面調和関数を表わす。これは〈実数値球面調和関数の定義〉の節で定義される。展開係数Anm(k)は角波数kのみに依存する。音圧が空間的に帯域制限されていることが暗黙的に想定されていることを注意しておく。よって、級数は次数インデックスnに関して上限Nで打ち切られる。このNはHOA符号化表現の次数と呼ばれる。
【0103】
音場が、角タプル(θ,φ)によって指定されるすべての可能な方向から到来する、異なる角周波数ωの無限個の調和平面波の重ね合わせによって表現されるとすると、それぞれの平面波複素振幅関数C(ω,θ,φ)は次の球面調和関数展開によって表わせることを示せる(非特許文献8)。
【0104】
【数100】
ここで、展開係数Cnm(k)は展開係数Anm(k)に、
Anm(k)=inCnm(k) (46)
によって関係付けられる。
個々の係数Cnm(k=ω/cs)が角周波数ωの関数であるとすると、逆フーリエ変換(F−1(・)によって表わされる)の適用は、各次数nおよび陪数mについて、時間領域関数
【数101】
を与える。これらの時間領域関数はここでは連続時間HOA係数シーケンスと称され、これは
【数102】
によって単一のベクトルc(t)にまとめることができる。
【0105】
ベクトルc(t)内のHOA係数シーケンスcnm(t)の位置インデックスは
n(n+1)+1+m
によって与えられる。ベクトルc(t)内の全体的な要素数はO=(N+1)2によって与えられる。
最終的なアンビソニックス・フォーマットは、サンプリング周波数fsを使って、c(t)のサンプリングされたバージョンを、
【数103】
として与える。ここで、Ts=1/fsはサンプリング周期を表わす。c(lTs)の要素は離散時間HOA係数シーケンスと称される。これは常に実数値であることが示せる。この属性は、連続時間バージョンcnm(t)についても成り立つ。
【0106】
〈実数値の球面調和関数の定義〉
実数値の球面調和関数Snm(θ,φ)(非特許文献9、3.1章に基づくSN3D規格化を想定)は次式によって与えられる。
【0107】
【数104】
ルジャンドル陪関数Pn,m(x)は次式によって定義される。
【0108】
【数105】
ここで、ルジャンドル多項式Pn(x)を用いているが、非特許文献7とは異なり、コンドン・ショートリー(Condon−Shortley)位相項(−1)mがない。
【0109】
〈球面調和関数変換〉
HOAシーケンスの空間表現が、単位球上でほぼ一様に分布しているO個の空間方向Ωo、、1≦o≦Oで離散化される場合、O個の方向性信号c(t,Ωo)が得られる。これらの信号を
【数106】
としてベクトルにまとめると、それは式(48)で定義した連続的アンビソニックス表現c(t)から、簡単な行列乗算により、
【数107】
として計算できる。ここで、(・)Hは統合的な共役転置を示し、Ψは
【数108】
によって定義されるモード行列を表わす。
これらの方向Ωoは単位球上でほぼ一様に分布しているので、モード行列は一般には可逆である。よって、連続的アンビソニックス表現は方向性信号c(t,Ωo)から
【数109】
によって計算できる。
【0110】
両方の式は、アンビソニックス表現と空間領域との間の変換および逆変換をなす。これらの変換は、球面調和関数変換および逆球面調和関数変換と呼ばれる。これらの方向Ωoは単位球上でほぼ一様に分布しているので、近似
【数110】
が利用可能である。これは式(54)においてΨHの代わりにΨ−1を使うことを正当化する。有利なことに、言及されたすべての関係は、離散時間領域についても有効である。
【0111】
本発明は、単一のプロセッサまたは電子回路によって、あるいは並列に動作するおよび/または完全な処理の異なる部分で動作するいくつかのプロセッサまたは電子回路によって実行されることができる。
【0112】
かかるプロセッサ(単数または複数)を記載される処理に従って動作させるための命令は一つまたは複数のメモリに記憶されることができる。少なくとも一つのプロセッサが、これらの命令を実行するよう構成される。
図1
図2
図3
図4
図5
図6
図7