IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オランジュの特許一覧

特表2022-550803マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化
<>
  • 特表-マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 図1
  • 特表-マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 図2
  • 特表-マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 図3
  • 特表-マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 図4
  • 特表-マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 図5
  • 特表-マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 図6
  • 特表-マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-05
(54)【発明の名称】マルチチャネル音声信号に適用する修正の決定と、関連する符号化及び復号化
(51)【国際特許分類】
   G10L 19/008 20130101AFI20221128BHJP
【FI】
G10L19/008 200
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022520097
(86)(22)【出願日】2020-09-24
(85)【翻訳文提出日】2022-03-30
(86)【国際出願番号】 FR2020051668
(87)【国際公開番号】W WO2021064311
(87)【国際公開日】2021-04-08
(31)【優先権主張番号】1910907
(32)【優先日】2019-10-02
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
(71)【出願人】
【識別番号】591034154
【氏名又は名称】オランジュ
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ピエール・クレメン・マエ
(72)【発明者】
【氏名】ステファーヌ・ラゴ
(72)【発明者】
【氏名】ジェローム・ダニエル
(57)【要約】
本発明は、マルチチャネル音響信号に施す修正の組(Corr.)を決定する方法に関し、修正の組は、元のマルチチャネル信号の空間画像を表す情報の項目(Inf.B)、及び符号化され、次いで復号化された元のマルチチャネル信号の空間画像を表す情報の項目(Inf.B)に基づいて決定される。本発明はまた、決定方法を実行する復号化方法及び符号化方法、並びに関連付けられた符号化装置及び復号化装置に関する。
【特許請求の範囲】
【請求項1】
マルチチャネル音響信号に施す修正の組(Corr.)を決定する決定方法であって、前記修正の組が、元のマルチチャネル信号の空間画像を表す情報(Inf.B)から、及び符号化され、次いで復号化された元のマルチチャネル信号の空間画像を表す情報(Inf.
【数1】
)から決定される、決定方法。
【請求項2】
前記修正の組が周波数サブ帯域により決定される、請求項1に記載の決定方法。
【請求項3】
元のマルチチャネル信号からの符号化された音声信号及び前記元のマルチチャネル信号の空間画像を表す情報を含むビットストリームを受信するステップ(350)と、
前記受信した符号化された音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップ(370)と、
前記元のマルチチャネル信号の空間画像を表す情報を復号化するステップ(360)と、
前記復号化されたマルチチャネル信号の空間画像を表す情報を決定するステップ(375)と、
請求項1又は2に記載の決定方法を用いて、前記復号化された信号に施す修正の組を決定するステップ(380)と、
前記決定された修正の組を用いて、前記復号化されたマルチチャネル信号を修正するステップ(390)と
を含む、マルチチャネル音響信号を復号化する復号化方法。
【請求項4】
元のマルチチャネル信号からの音声信号を符号化するステップ(611)と、
前記元のマルチチャネル信号の空間画像を表す情報を決定するステップ(621)と、
前記符号化された音声信号を局所的に復号化して、復号化されたマルチチャネル信号を取得するステップ(612)と、
前記復号化されたマルチチャネル信号の空間画像を表す情報を決定するステップ(615)と、
請求項1又は2に記載の決定方法を用いて、前記復号化されたマルチチャネル信号に施す修正の組を決定するステップ(630)と、
前記決定された修正の組を符号化するステップ(640)と
を含む、マルチチャネル音響信号を符号化する符号化方法。
【請求項5】
前記空間画像を表す情報が共分散行列であり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記元のマルチチャネル信号の前記共分散行列から、前記元のマルチチャネル信号の空間画像を決定するステップと、
前記取得した重み行列から、及び前記決定した復号化済みマルチチャネル信号の前記共分散行列から、前記復号化されたマルチチャネル信号の空間画像を決定するステップと、
利得の組を取得すべく、前記仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間画像と前記復号化されたマルチチャネル信号の前記空間画像の比率を計算するステップと
を含む、請求項3に記載の復号化方法又は請求項4に記載の符号化方法。
【請求項6】
前記元のマルチチャネル信号の空間画像を表す前記受信した情報が前記元のマルチチャネル信号の前記空間画像であり、前記修正の組を決定するステップが更に、
仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
前記取得した重み行列から、及び前記決定された復号化済みマルチチャネル信号の空間画像を表す情報から、前記復号化されたマルチチャネル信号の空間画像を決定するステップと、
利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における前記元のマルチチャネル信号の前記空間画像と前記復号化されたマルチチャネル信号の前記空間画像の比率を計算するステップと
を含む、請求項3に記載の復号化方法。
【請求項7】
前記空間画像を表す情報が共分散行列であり、前記修正の組を決定するステップが、2個の共分散行列の行列分解を介して変換行列を決定するステップを含み、前記変換行列が前記修正の組を構成する、請求項3に記載の復号化方法又は請求項4に記載の符号化方法。
【請求項8】
前記復号化されたマルチチャネル信号が、前記復号化されたマルチチャネル信号に前記修正の組を適用することにより決定された修正の組により修正される、請求項5から7のいずれか一項に記載の復号化方法。
【請求項9】
前記復号化されたマルチチャネル信号が、前記決定された修正の組により、
前記復号化されたマルチチャネル信号を前記仮想スピーカーの定義された組で音響的に復号化するステップと、
前記取得された利得の組を、前記音響的復号化から得られた信号に適用するステップと、
前記マルチチャネル信号の成分を取得すべく、前記音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
修正されたマルチチャネル信号を取得すべく、このように得られた前記マルチチャネル信号の前記成分を合算するステップと
により修正される、請求項5又は6に記載の復号化方法。
【請求項10】
元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって、請求項4、5又は7のいずれか一項に記載の符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
前記符号化された修正の組を復号化するステップと、
前記復号化された修正の組を前記復号化されたマルチチャネル信号に適用することにより、前記復号化されたマルチチャネル信号を修正するステップと
を含む、マルチチャネル音響信号を復号化する復号化方法。
【請求項11】
元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって、請求項5に記載の符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
前記符号化された修正の組を復号化するステップと、
前記復号化されたマルチチャネル信号を、
・前記復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
・前記音響的復号化から得られた信号に得られた利得の組を適用するステップと、
・前記マルチチャネル信号の成分を取得すべく、前記音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
・修正されたマルチチャネル信号を取得すべく、このように得られた前記マルチチャネル信号の前記成分を合算するステップと
において、前記復号化された修正の組を用いて修正するステップと
を含む、マルチチャネル音響信号を復号化する復号化方法。
【請求項12】
請求項3又は5から11のいずれか一項に記載の復号化方法を実行する処理回路を含む復号化装置。
【請求項13】
請求項4、5又は7のいずれか一項に記載の符号化方法を実行する処理回路を含む符号化装置。
【請求項14】
請求項3若しくは5から11のいずれか一項に記載の復号化方法、又は請求項4、5若しくは7のいずれか一項に記載の符号化方法を実行する命令を含むコンピュータプログラムを保存した、プロセッサ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特にアンビオフォニック関連(以下「アンビソニック」とも表記)の空間音響データの符号化/復号化に関する。
【背景技術】
【0002】
モバイルテレフォニで現在用いるエンコーダ/デコーダ(以下「コーデック」と称する)はモノラル(単一スピーカー向けにレンダリングされる単一信号チャネル)である。3GPPEVS(「Enhanced Voice Services」の略)コーデックにより、32又は48kHzでサンプリングされた信号用の超広帯域(SWB)音声帯域又は48kHzでサンプリングされた信号用の全帯域(FB)音声帯域を有する「超HD」品質(「高精細度プラス」又はHD+音声とも呼ばれる)を提供することが可能になり、音声帯域幅はSWBモード(9.6~128kbit/s)で14.4~16kHz、及びFBモード(16.4~128kbit/s)で20kHzである。
【0003】
オペレータが提供する会話サービスにおける品質の次段階の進化は、複数のマイクロフォンを備えたスマートフォン等の端末を使用する、没入型サービス、又はリモートプレゼンスすなわち360°ビデオによる空間音声会議又はビデオ会議設備、或いは単なる2Dステレオレンダリングよりもはるかに没入感がある空間3D音響レンダリングを実現する「ライブ」音声コンテンツ共有設備を含めるべきである。音声ヘッドセットを用いて携帯電話を聴くような使い方が広まると共に、先端的な音声設備(3Dマイクロフォン、音響アンテナを備えた音声アシスタント、仮想現実ヘッドセット等の付属品)の出現に伴い、空間音響シーンの捕捉及びレンダリングは現在、没入的通信体験を提供できる程度に充分普及している。
【0004】
この目的のため、将来的な3GPP標準「IVAS」(「Immersive Voice And Audio Services(没入型音声サービス)」の略)は、少なくとも以下に列挙する空間音響フォーマット(及びそれらの組み合わせ)をコーデック入力フォーマットとして受容することにより、EVSコーデックを没入型向けに拡張することを提案している。
-各チャネルがスピーカーに出力するステレオ又は5.1マルチチャネル(チャネルに基づく)フォーマット(例:ステレオではL及びR、又は5.1ではL、R、Ls、Rs及びC)、
-音響オブジェクトが、当該オブジェクト(空間内での位置、ソースの空間幅等)の属性を記述するメタデータに関連付けられた音声信号(一般にはモノラル)として記述されるオブジェクト(オブジェクトに基づく)フォーマット、
-一般に球形マイクロフォンにより捕捉されるか又は球面調和関数の領域で合成された、所与の点での音場を記述するアンビソニック(シーンに基づく)フォーマット。
【0005】
以下で典型的に興味深いのは、例示的な実施形態によるアンビソニックフォーマットでの音響の符号化である(本発明との関連で提示する少なくともいくつかの態様もアンビソニック以外のフォーマットに適用可能である)。
【0006】
アンビソニックスは、空間化された音響を記録(音響的意味で「符号化」)する方法及び再生(音響的意味で「復号化」)するシステムである。(一次)アンビソニックマイクロフォンは、球面格子、例えば正四面体の頂点に配置された少なくとも4個のカプセル(典型的にカージオイド又はサブカージオイド型の)を含んでいる。これらのカプセルに関連付けられた音声チャネルは「Aフォーマット」と称する。このフォーマットは、音場が4個の同時仮想マイクロフォンに対応するW、X、Y、Zと表記される4個の成分(球面調和関数)に分解された「Bフォーマット」に変換される。成分Wは音場の全方向での捕捉に対応するのに対し、より指向的な成分X、Y及びZは空間の3個の直交軸に沿って向けられた圧力勾配マイクロフォンに類似している。アンビソニックシステムは、記録とレンダリングが別個且つ分離されている意味で柔軟なシステムである。任意の構成のスピーカー(例:バイノーラル、5.1又は7.1.4多重チャネル(上昇を伴う)「サラウンド」音響)向けの(音響的意味の)復号化が可能になる。アンビソニックアプローチは、Bフォーマットの4個を超えるチャネルに一般化することができ、この一般化された表現は「HOA」(「Higher-Order Ambisonics(高次アンビソニック)」の略)と一般に呼ばれる。音響をより多くの球面調和関数に分解することでスピーカー向けにレンダリングする際の空間レンダリング精度が向上する。
【0007】
M次アンビソニック信号は、K=(M+1)個の成分を含み、1次(M=1の場合)では一般にFOA(First-Order Ambisonics(1次アンビソニック)の略)と称する4個の成分W、X、Y及びZがある。また、アンビソニック(W、X、Y)の一般に水平面である平面内で定義される音を分解する「平面型」変型と称するものがある。この場合、成分の数はK=2M+1個のチャネルである。1次アンビソニック(4チャネル:W、X、Y、Z)、平面1次アンビソニック(3チャネル:W、X、Y)及び高次アンビソニックは全て、読み易さのため以下では区別せずに「アンビソニック」と称するものとし、提示する処理動作は平面又は非平面型の如何、及びアンビソニック成分の個数に依らず適用可能である。
【0008】
以下、「アンビソニック信号」は特定個数のアンビソニック成分を有するBフォーマットの所定次数の信号に与えられる名前である。これはまた、ハイブリッドな場合も含んでいる、例えば(9個ではなく)8個の2次チャネルしか存在しない、より厳密には、2次では、4個の1次チャネル(W、X、Y、Z)に加えて通常は5チャネル(通常R、S、T、U、Vと表記)が存在し、例えば高次チャネルのうち1個(例えばR)を無視することができる。エンコーダ/デコーダにより処理される信号は、以下で「フレーム」又は「サブフレーム」と称する音響サンプルの連続的なブロックの形式をとる。
【0009】
更に、以下において、数学的表記は次の規約に従う。
-スカラー:s又はN(小文字は変数、大文字は定数)
-演算子Re(.)は複素数の実部を示す
-ベクトル:u(太小文字)
-行列:A(太大文字)
【0010】
表記A及びAは各々Aの転置及びエルミート転置(転置及び共役)を示す。
-長さLの時間幅i=0,...,L-1にわたり定義される1次元離散時間信号s(i)を行ベクトルで表す。
s=[s(0),...,s(L-1)]
【0011】
これは括弧の使用を避けるべくs=[s,...,sL-1]と書くこともできる。
-長さLの時間幅i=0,...,L-1にわたり定義されるK次元の多次元離散時間信号b(i)をサイズL×Kの行列により表す。
【数1】
【0012】
これは括弧の使用を避けるべくB=[Bij]、i=0,...K-1、j=0...L-1と書くこともできる。
-直交座標(x,y,z)を有する3D点は、球面座標(r,Θ,φ)に変換することができ、rは原点までの距離、Θは方位角、及びφは仰角である。ここで一般性を失うことなく、仰角が水平面(0xy)に関して定義される数学的表記を用いる。本発明は、方位角が軸Ozに関して定義される物理学で用いる表記を含む他の定義に容易に合わせることができる。更に、アンビソニック成分(Ambisonic Channel Number(アンビソニックチャネル番号)の略語ACN、Single Index Designation(単一索引指定)の略語SID、Furse-Malhamの略語FuMAを含む)の次数及びアンビソニック成分の正規化(SN3D、N3D、maxN)に関するアンビソニック関連の従来技術で知られる表記規約についてはここでは触れない。より詳細な事項は例えばオンラインで入手可能な以下のリソースで見ることができる。
https://en.wikipedia.org/wiki/Ambisonic_data_exchange_formats
慣習により、アンビソニック信号で第1の成分は一般に全方向成分Wに対応する。
【0013】
アンビソニック信号を符号化する最も簡単な方式は、モノラルエンコーダを用いて全てのチャネルに並列に適用するものであり、チャネルに応じてビット割り当てが異なる可能性がある。本方式をここでは「マルチモノラル」と呼ぶ。多重モノラル方式は、多重ステレオ符号化(チャネルのペアがステレオコーデックにより別々に符号化される)に、又はより一般的には同一コアコーデックの複数の並列インスタンスの使用に拡張することができる。
【発明の概要】
【発明が解決しようとする課題】
【0014】
このような一実施形態を図1に示す。入力信号は、ブロック100によりチャネル(1個のモノラルチャネル又は多チャネル)に分割される。これらのチャネルは、所定の分布及びビット割り当てに基づいてブロック120~122により別々に符号化される。それらのビットストリームは多重化され(ブロック130)、送信及び/又は保存された後で、復号化チャネル(ブロック150~152)を再構築すべく復号化を適用すべく非多重化(ブロック140)されて、再び結合される(ブロック160)。
【0015】
使用したコア符号化及び復号化(ブロック120~122及び150~152)に応じて付随する品質が変動し、一般に極めて高いビットレートのみで満足すべきものである。例えば、マルチモノラルの場合において、EVS符号化は、少なくとも毎チャネル(モノラル)48kbit/sのビットレートで(知覚的な観点から)準透明であると考えられ、従って、1次アンビソニック信号に対して、4×48=192kbit/sの最小ビットレートが得られる。マルチモノラル符号化方式はチャネル間相関を考慮しないため、ゴースト音源の出現、拡散音又は音源軌道の変位等、各種のアーチファクトの追加により空間変形が生じる。この方式を用いるアンビソニック信号の符号化は、空間化度合の低下につながる。
【0016】
ステレオ又はマルチチャネル信号の全チャネルを別々に符号化するのではない、パラメータの符号化による代替方式を与える。この種の符号化の場合、「ダウンミックス」と称する処理動作の後で、入力マルチチャネル信号が少ない個数のチャネルに減らされ、これらのチャネルが符号化及び送信され、追加的な空間化情報もまた符号化される。パラメトリック復号化は、(典型的には非相関化を介して行われる)「アップミックス」と称する処理動作及び復号化された追加的空間化情報に基づく空間合成を用いて、送信されたチャネルを復号化した後でチャネルの個数を増やすことにある。ステレオパラメトリック符号化の一例が3GPPe-AAC+コーデックにより与えられる。ダウンミックス動作もまた空間化度合の低下につながり、この場合は空間画像が修正される点に注意されたい。
【課題を解決するための手段】
【0017】
本発明は従来技術の改良を目的とする。
【0018】
この目的のため、マルチチャネル音響信号に施す修正の組を決定する方法を提案するものであり、当該修正の組は、元のマルチチャネル信号の空間画像を表す情報から、及び符号化され、次いで復号化された元のマルチチャネル信号の空間画像を表す情報から決定される。
【0019】
復号化されたマルチチャネル信号に適用する修正の決定された組は従って、符号化及び恐らくはチャネル減少/増大動作に起因する空間的劣化の抑制を可能にする。修正の実行は従って、元のマルチチャネル信号の空間画像に最も近い復号化されたマルチチャネル信号の空間画像の復元を可能にする。
【0020】
特定の一実施形態において、修正の組は、全帯域時間領域(1周波数帯域)において決定される。いくつかの変型例において、これは周波数サブ帯域により時間領域で実行される。これにより周波数帯域に応じて修正を適応させることが可能になる。
【0021】
他の変型例において、これは短時間離散フーリエ変換(STFT)、修正離散余弦変換(MDCT)型等の実又は複素変換領域(典型的には周波数領域)で実行される。
【0022】
本発明はまた、以下のステップを含む、マルチチャネル音響信号を復号化する方法に関する。
-元のマルチチャネル信号からの符号化された音声信号及び元のマルチチャネル信号の空間画像を表す情報を含むビットストリームを受信するステップと、
-受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
-元のマルチチャネル信号の空間画像を表す情報を復号化するステップと、
-復号化されたマルチチャネル信号の空間画像を表す情報を決定するステップと、
-上述の決定方法を用いて、復号化された信号に施す修正の組を決定するステップと、
-決定された修正の組を用いて、復号化されたマルチチャネル信号を修正するステップ。
【0023】
このように、本実施形態において、デコーダは、エンコーダから受信した元のマルチチャネル信号の空間画像を表す情報から、復号化されたマルチチャネル信号に施す修正を決定することができる。エンコーダから受信する情報は従って限定的である。修正の決定及び適用の両方の役割を担うのはデコーダである。
【0024】
本発明はまた、以下のステップを含む、マルチチャネル音響信号を符号化する方法に関する。
-元のマルチチャネル信号からの音声信号を符号化するステップと、
-元のマルチチャネル信号の空間画像を表す情報を決定するステップと、
-符号化された音声信号を局所的に復号化して、復号化されたマルチチャネル信号を取得するステップと、
-復号化されたマルチチャネル信号の空間画像を表す情報を決定するステップと、
-上述の決定方法を用いて、復号化されたマルチチャネル信号に施す修正の組を決定するステップと、
-決定された修正の組を符号化するステップ。
【0025】
本実施形態において、復号化されたマルチチャネル信号に施す修正の組を決定してデコーダに送信するのはエンコーダである。従ってこの修正決定を主導するのはエンコーダである。
【0026】
上述の復号化方法の、又は上述の符号化方法の第1の特定の実施形態において、空間画像を表す情報は共分散行列であり、修正の組を決定するステップは更に以下のステップを含んでいる。
-仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
-取得した重み行列から、及び受信した元のマルチチャネル信号の共分散行列から、元のマルチチャネル信号の空間画像を決定するステップと、
-取得した重み行列から、及び決定した復号化済みマルチチャネル信号の共分散行列から、復号化されたマルチチャネル信号の空間画像を決定するステップと、
-利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における元のマルチチャネル信号の空間画像と復号化されたマルチチャネル信号の空間画像の比率を計算するステップ。
【0027】
本実施形態によれば、スピーカーにおけるレンダリングを用いる本方法により、エンコーダからデコーダに限られた量のデータだけを送信することが可能になる。実際、所与の次数Mに対して、(仮想スピーカーの同数の)K=(M+1)個の係数を送信すれば充分であるが、より安定した修正のためにより多くの仮想スピーカーを使用し、従ってより多くの点を送信することが推奨される。更に、修正は、仮想スピーカーに関連付けられた利得の観点から容易に解釈することができる。
【0028】
別の変型実施形態において、エンコーダが様々な方向における信号のエネルギーを直接決定して、元のマルチチャネル信号のこの空間画像をデコーダに送信する場合、復号化方法に対する修正の組の決定は更に以下のステップを含んでいる。
-仮想スピーカーの組に関連付けられた重みベクトルを含む重み行列を取得するステップと、
-取得した重み行列から、及び決定した復号化済みマルチチャネル信号の空間画像を表す情報から、復号化されたマルチチャネル信号の空間画像を決定するステップと、
-利得の組を取得すべく、仮想スピーカーの組のスピーカーの方向における元のマルチチャネル信号の空間画像と復号化されたマルチチャネル信号の空間画像の比率を計算するステップ。
【0029】
さほど極端でない修正値を保証すべく、復号化方法又は符号化方法は、得られた利得の値を少なくとも1個の閾値に制限するステップを含んでいる。
【0030】
この利得の組が、修正の組を構成し、例えばこのように決定された利得の組を含む修正行列の形式であってよい。
【0031】
復号化方法又は符号化方法の第2の特定の実施形態において、空間画像を表す情報は共分散行列であり、修正の組を決定するステップは2個の共分散行列の行列分解を介して変換行列を決定するステップを含み、変換行列が修正の組を構成する。
【0032】
本実施形態は、アンビソニックマルチチャネル信号の場合はアンビソニック領域で直接訂正を行う利点がある。従ってスピーカー向けにレンダリングされた信号をアンビソニック領域に変換するステップが回避される。本実施形態はまた、たとえスピーカー向けにレンダリングする方法と比較してより多くの係数の送信が必要であるにせよ、数学的に最適であるように修正を最適化することが可能になる。実際、次数M、従って、ある個数の成分K=(M+1)の場合、送信される係数の個数はK×(K+1)/2である。特定の周波数領域にわたり過度な増幅を避けるべく、正規化係数が決定されて変換行列に適用する。
【0033】
修正の組が上述のように変換行列又は修正行列により表される場合、復号化されたマルチチャネル信号は、修正の組を復号化されたマルチチャネル信号に、すなわちアンビソニック信号の場合は直接アンビソニック領域で、適用することにより、決定された修正の組により修正される。
【0034】
スピーカーにおけるレンダリングがデコーダにより実行される実施形態において、復号化されたマルチチャネル信号は、以下のステップで決定された修正の組を用いて修正される。
-復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
-音響的復号化から得られた信号に得られた利得の組を適用するステップと、
-マルチチャネル信号の成分を取得すべく音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
-修正されたマルチチャネル信号を取得すべく、このように得られたマルチチャネル信号の成分を合算するステップ。
【0035】
一変型実施形態において、上述の復号化、利得の適用及び符号化/合算ステップは、修正行列を用いて直接的な修正演算にグループ化される。この修正行列は復号化されたマルチチャネル信号に直接適用されてよく、これは上述のように直接アンビソニック領域を修正する利点がある。
【0036】
符号化方法が修正の組を決定する方法を実行する第2の実施形態において、復号化方法は以下のステップを含んでいる。
-元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって上述の符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
-受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
-符号化された修正の組を復号化するステップと、
-復号化されたマルチチャネル信号に復号化された修正の組を適用することにより復号化されたマルチチャネル信号を修正するステップ。
【0037】
本実施形態において、復号化されたマルチチャネル信号に直接アンビソニック領域で施す修正を決定するのはエンコーダであり、これらの修正を直接アンビソニック領域で復号化されたマルチチャネル信号に適用するのはデコーダである。
【0038】
修正の組はこの場合、変換行列であるか又は利得の組を含む修正行列であってよい。
【0039】
スピーカー向けにレンダリングが行われる復号化方法の一変型実施形態において、復号化方法は以下のステップを含んでいる。
-元のマルチチャネル信号からの符号化された音声信号、及び復号化されたマルチチャネル信号に施す修正の符号化された組であって、上述のような符号化方法を用いて符号化された修正の組を含むビットストリームを受信するステップと、
-受信した符号化済み音声信号を復号化して、復号化されたマルチチャネル信号を取得するステップと、
-符号化された修正の組を復号化するステップと、
-復号化されたマルチチャネル信号を以下のステップ、すなわち
・復号化されたマルチチャネル信号を仮想スピーカーの組で音響的に復号化するステップと、
・音響的復号化から得られた信号に得られた利得の組を適用するステップと、
・マルチチャネル信号の成分を取得すべく、音響的復号化から得られた修正済み信号を音響的に符号化するステップと、
・修正されたマルチチャネル信号を取得すべく、このように得られたマルチチャネル信号の成分を合算するステップにおいて、復号化された修正の組を用いて修正するステップ。
【0040】
本実施形態において、仮想スピーカーの組に対する音響的復号化から得られた信号に施す修正を決定するのはエンコーダであり、音響的復号化から得られた信号にこれらの修正を適用し、次いでアンビソニックマルチチャネル信号の場合にはこれらの信号をアンビソニック領域に戻すべく変換するのはデコーダである。
【0041】
一変型実施形態において、上述の復号化、利得の適用及び符号化/合算ステップは、修正行列を用いて直接的な修正演算にグループ化される。この修正は次いで、復号化されたマルチチャネル信号、例えばアンビソニック信号に修正行列を適用することにより直接実行される。上述のように、これはアンビソニック領域で直接修正を施すという利点がある。
【0042】
本発明はまた、上述のような復号化方法を実行する処理回路を含む復号化装置に関する。
【0043】
本発明はまた、上述のような符号化方法を実行する処理回路を含む復号化装置に関する。
【0044】
本発明はまた、プロセッサにより実行された場合に上述のような復号化方法又は符号化方法を実行する命令を含むコンピュータプログラムに関する。
【0045】
本発明は最後に、上述の復号化方法又は符号化方法を実行する命令を含むコンピュータプログラムを保存した、プロセッサに可読な記憶媒体に関する。
【0046】
本発明の他の特徴及び利点は、簡単な例示的且つ非限定的な例及び添付図面を介して提示される特定の実施形態の以下の記述を精査すれば明らかになろう。
【図面の簡単な説明】
【0047】
図1】従来技術による上述のマルチモノラル符号化を示す。
図2】本発明の一実施形態による、修正の組を決定する方法のステップをフロー図の形式で示す。
図3】本発明による、エンコーダ及びデコーダ、符号化方法及び復号化方法の第1の実施形態を示す。
図4】修正の組を決定するブロックの第1の詳細な実施形態を示す。
図5】修正の組を決定するブロックの第2の詳細な実施形態を示す。
図6】本発明による、エンコーダ及びデコーダ、符号化方法及び復号化方法の第2の実施形態を示す。
図7】本発明の一実施形態によるエンコーダ及びデコーダの構造的実施形態の複数の例を示す。
【発明を実施するための形態】
【0048】
以下に述べる方法は、特に復号化された信号の空間画像がなるべく元の信号に近いことを保証するための空間的劣化の修正に基づいている。知覚的キューが符号化されるステレオすなわちマルチチャネル信号向けの既知のパラメトリック符号化方法とは異なり、本発明は、アンビソニック領域が直接「聴取可能」でないため、空間画像情報の知覚的解釈に基づいていない。
【0049】
図2に、符号化次いで復号化されたマルチチャネル信号に適用する修正の組を決定すべく実行される主なステップを示す。
【0050】
次元K×L(すなわちL個の時間又は周波数サンプルのK個の成分)を有する元のマルチチャネル信号Bが本決定方法の入力である。ステップS1において、元のマルチチャネル信号の空間画像を表す情報が抽出される。
【0051】
ここで興味深いのは、上述のようにアンビソニック表現を有するマルチチャネル信号の場合である。本発明はまた、例えば3GPPTS26.260仕様に記述されているように特定の成分の抑制(例:8個のチャネルだけを維持すべく2次R成分の抑制)又は等価な領域(「等価空間領域」と称する)に渡すためのBフォーマットの行列化等の修正が施されたBフォーマット信号等、他の種類のマルチチャネル信号にも適用でき、行列化の別の例がIETFOpusコーデックの「チャネルマッピング3」及び3GPPTS26.918(条項6.1.6.3)に示されている。
【0052】
「空間画像」はここでは、空間内の様々な方向におけるアンビソニック音響シーンの音響エネルギーの分布の呼称である。いくつかの変型例において、音響シーンを記述する当該空間画像は一般に、空間内の各種の所定方向で、例えばこれらの方向においてサンプリングされたMUSIC(MUltiple SIgnal Classification(多重信号分類))疑似スペクトル又は到着方向のヒストグラム(到着方向は、所定の方向により与えられる離散化により決定される)の形式で、評価された正値に対応し、これらの正値はエネルギーと解釈でき、本発明の記述を簡素化すべく以下のようにみなす。
【0053】
アンビソニック音響シーンに関連付けられた空間画像は従って、相対音響エネルギー(又はより一般に正値)を空間の様々な方向における関数として表す。本発明において、空間画像を表す情報は例えば、マルチチャネル信号のチャネル間で計算された共分散行列又は音が発せられた方向に関連付けられた(単位球にわたり分布する仮想スピーカーの方向に関連付けられた)エネルギー情報であってよい。
【0054】
マルチチャネル信号に適用する修正の組は、音が発せられた方向に関連付けられた利得の組により定義できる情報であり、当該利得の組又は変換行列を含む修正行列の形式であってよい。
【0055】
マルチチャネル信号Bの共分散行列は、例えばステップS1で得られる。図3、6に関して以下に述べるように、当該行列は例えば以下のように計算される。
正規化係数内でC=B.B(実数の場合)
又は正規化係数内でC=Re(B.B)(複素数の場合)
【0056】
いくつかの変型例において、共分散行列を時間的に平滑化する演算を用いてよい。時間領域におけるマルチチャネル信号の場合、共分散は以下の形式で再帰的に(1サンプルずつ)推定することができる。
Cij(n)=n/(n+1)Cij(n-1)+1/(n+1)bi(n)bj(n)
【0057】
一変型実施形態において、様々な方向(単位球にわたり分布する仮想スピーカーの方向に関連付けられた)においてエネルギー情報が取得される。この目的のため、例えば図3、4に関して後述するSRP(「Steered-Response Power(制御された応答出力)」の略)法が適用される。いくつかの変型例において、他の空間画像計算方法(MUSIC疑似スペクトル、到着方向のヒストグラム)を用いてよい。
【0058】
元のマルチチャネル信号を符号化する複数の実施形態が考えられ、以下に記述する。
【0059】
第1の実施形態において、ステップS2でBの各種のチャネルb、k=0,..,K-1がマルチモノラル符号化を用いて符号化され、各チャネルbは別々に符号化されている。いくつかの変型実施形態において、チャネルbが別々のペアに符号化されるマルチステレオ符号化も可能である。5.1入力信号の従来の一例は、二つの別々のステレオ符号化演算L/R及びLs/RsをC及びLFE(低周波のみ)モノラル符号化演算と共に用いるものであり、アンビソニックの場合、マルチステレオ符号化を、アンビソニック成分(Bフォーマット)又はチャネルをBフォーマットに行列化した後で取得された等価なマルチチャネル信号に適用してよく、-例えば、1次において、チャネルW、X、Y、Zを変換して4個の変換済みチャネルにすることができ、チャネルの二つのペアは別々に符号化されて復号化においてBフォーマットへ逆変換される。一例をOpusコーデック(「チャネルマッピング3」)及び3GPPTR26.918仕様(条項6.1.6.3)の最新版に示されている。
【0060】
他の変型例において、ステップS2で連結マルチチャネル符号化、例えばアンビソニック(シーンに基づく)フォーマット向けにMPEG-H3D音声コーデックを用いることもできる。この場合、コーデックは入力チャネルを連結して符号化する。MPEG-Hの例において、この連結符号化はアンビソニック信号に対して、支配的モノラルソースの抽出及び符号化、アンビエンスの抽出(典型的には1次アンビソニック信号に)、支配的なチャネルを抽出するための抽出された全てのチャネル(「搬送チャネル」と称する)及び音響ビーム形成ベクトルを記述するメタデータの符号化等、複数のステップに分解される。連結マルチチャネル符号化により、例えば支配的な音源及びアンビエンスを抽出するか又は全ての音声コンテンツを考慮する全てのビット割り当てを実行すべく全てのチャネル間の関係を利用することが可能になる。
【0061】
好適な実施形態において、ステップS2の例示的な実施形態は、上述のように3GPPEVSコーデックを用いて実行されるマルチモノラル符号化である。しかし、本発明による方法はこのように、符号化するチャネルの表現に用いるコアコーデック(マルチモノラル、マルチステレオ、連結符号化)とは独立に用いることができる。
【0062】
このようにビットストリームの形式で符号化された信号は、エンコーダのローカルデコーダにより、又は送信後にデコーダによりステップS3において復号化されてよい。この信号は、マルチチャネル信号
【数2】
のチャネルを(例えばマルチモノラル復号化を用いる複数のEVSデコーダインスタンスにより)復元すべく復号化される。
【0063】
ステップS2a、S2b、S3a、S3bはマルチチャネル信号Bの符号化及び復号化の一変型実施形態を表す。上述のステップS2の符号化との違いは、ステップS2aでチャネルの個数を減らし(「ダウンミックス」)、ステップS3bでチャネルの個数を増やす(「アップミックス」)ための追加的処理動作の使用にある。これらの符号化及び復号ステップ(S2b、S3a)は、ステップS2b、S3aの方が各々の入出力チャネルの個数が少ないこと以外はステップS2、S3と同様である。
【0064】
1次アンビソニック入力信号をダウンミックスする一例は、Wチャネルだけを維持するものであり、次数が1を超えるアンビソニック入力信号に対して、先頭4個の成分W、X、Y、Zがダウンミックスとして取得され(従って信号を1次に切り捨てられ)てよい。いくつかの変型例において、アンビソニック成分(例:成分Rが無い8個の2次チャネル)のサブセットはダウンミックスとして取得されてよく、行列化するケースも考えられ、例えば、ステレオダウンミックスが、L=W-Y+0.3X、R=W+Y+0.3X(FOAチャネルだけを使用)のフォーマットで取得される。モノラル信号をアップミックスする一例は、各種の室内空間インパルス応答(SRIR)又は各種の(全通過型の)非相関化フィルタを時間又は周波数領域で適用するものである。周波数領域における非相関化の例示的な実施形態が例えば文献3GPPS4-180975,pCR to 26.118 on Dolby VRStream audio profile candidate(条項X.6.2.3.5)に示されている。
【0065】
この「ダウンミックス」処理動作から得られた信号B’はステップS2bにおいて例えば3GPPEVSコーデックを有するモノラル又はマルチモノラル方式を用いて、コアコーデック(マルチモノラル、マルチステレオ、連結の符号化)により符号化される。符号化ステップS2bからの入力音声信号及び復号ステップS3aからの出力音声信号は、元のマルチチャネル音声信号よりもチャネルの個数が少ない。この場合、コアコーデックにより表される空間画像は、符号化の前であっても既に大幅に劣化している。極端な場合、Wチャネルだけを符号化することにより、チャネルの個数は単一のモノラルチャネルまで減る。次いで入力信号が単一の音声チャネルに限定され、従って空間画像が失われる。本発明による方法により、この空間画像をなるべく元のマルチチャネル信号の空間画像に近くなるように記述及び再構築することが可能になる。
【0066】
この変型実施形態のS3bにおけるアップミックスステップの出力側で復号化されたマルチチャネル信号
【数3】
が復元される。
【0067】
ステップS4において、復号化されたマルチチャネル信号の空間画像を表す情報が、二つの変型例(S2~S3又はS2a~S2b~S3a~S3b)により復号化されたマルチチャネル信号
【数4】
から抽出される。元の画像と同様に、この情報は、復号化されたマルチチャネル信号に対して計算された共分散行列、又は音が発せられた方向に(又は同等に、単位球の仮想点に)関連付けられたエネルギー情報であってよい。
【0068】
元のマルチチャネル信号及び復号化されたマルチチャネル信号を各々表す情報をステップS5で用いて、空間的劣化を抑制すべく復号化されたマルチチャネル信号に施す修正の組を決定する。
【0069】
上述のステップを示すべく図4、5を参照しながら二つの実施形態について以下に述べる。
【0070】
図2に述べる方法は、周波数全帯域(単一帯域の場合)又は周波数サブ帯域(複数帯域の場合)により、時間領域で実行することができ、且つ本方法の動作を変えることはなく、各サブ帯域が次いで別々に処理される。本方法がサブ帯域で実行される場合、修正の組は従ってサブ帯域毎に決定されるため、単一帯域の場合と比較して計算及びデコーダに送信されるデータの観点から余分なコストが生じる。サブ帯域への分割は、一様又は非一様であってよい。例えば、32kHzでサンプリングされた信号のスペクトルは各種の変型例に従い分割されてよい。
-各々幅が1、3、4及び8kHz、又は2、2、4及び8kHzである4帯域
-24個のバーク帯域(低周波で幅100Hzから最後のサブ帯域で3.5~4kHz)
-24個のバーク帯域は、各々6又は4個の「塊になった」帯域を形成すべく組の4又は6個の連続した帯域のブロックにグループ化される可能性がある。
【0071】
異なるサンプリング周波数(例:16又は48kHz)の場合を含む、(例えばERB帯域(「等価矩形帯域幅」の略)-又は1オクターブの1/3への)他の分割も可能である。
【0072】
いくつかの変型例において、本発明はまた、変換された領域、例えば短時間離散フーリエ変換(STFT)の領域又は修正離散余弦変換(MDCT)の領域で行うことができる。
【0073】
当該修正の組の決定を実行する、及び復号化された信号に対して当該修正の組を適用する複数の実施形態について以下に述べる。
【0074】
アンビソニックフォーマットで音源を符号化する公知の技術をここで想起されたい。モノラル音源は、同数のアンビソニック成分を取得すべく、その信号に、発生源の方向(信号が平面波により搬送されると仮定して)に関連付けられた球面調和関数の値を乗算することにより人工的に空間化することができる。これは、方位角Θ及び仰角φで決定される位置における所望の次数の各球面調和関数の係数を計算するステップを含んでいる。
B=Y(Θ、φ).s
ここでsは空間化するモノラル信号、Y(Θ,φ)はM次における方向(Θ,φ)に関連付けられた球面調和関数の係数を定義する符号化ベクトルである。
符号化ベクトルの一例を、1次の場合にSN3D表記規約で、及びSID又はFuMaチャネルの次数の場合に次式で与える。
【数5】
【0075】
いくつかの変型例において、他の正規化表記規約(例えば:maxN、N3D)及びチャネル次数(例:ACN)を用いてもよく、各種の実施形態は従ってアンビソニック成分(FOA又はHOA)の1個以上の正規化次数に用いる規約に適合されている。これは、行Y(Θ,φ)の次数を修正すること、又はこれらの行に所定の定数を乗算することに等しい。
【0076】
より高い次数の場合、球面調和関数の係数Y(Θ,φ)はB.Rafaelyの著書「Fundamentals of Spherical Array Processing」,Springer,2015に見出すことができる。一般に、次数Mに対して、K=(M+1)個のアンビソニック信号が存在する。
【0077】
同様に、スピーカーによるアンビソニックレンダリングに関するいくつかの概念をここで想起されたい。アンビソニック音響がこのように聴かれることは意図していない。スピーカーに又はヘッドフォンで没入的に聴くために、レンダリング(「レンダラ」とも呼ばれる)音響的意味での「復号化」ステップを実行しなければならない。典型的には単位半径を有する球面上に分布し、方位角及び仰角における方向(Θ,φ),n=0,...,N-1が既知であるN個の(仮想的又は物理的)スピーカーの場合を考察する。ここで考察する復号化は、スピーカーの信号sを取得すべくアンビソニック信号Bに行列Dを適用することを含む線形演算であり、信号sは、
【数6】
で表す行列S=[s,...sN-1]、S=D.Bに結合されてよい。
【0078】
行列Dは
【数7】
のように行ベクトルdに分解することができ、dは、アンビソニック信号の成分を再結合してn番目のスピーカーで再生された信号を計算するのに用いるn番目のスピーカーの重みベクトルとみなしてよい。すなわちs=dn.Bである。
【0079】
音響的意味で「復号化」する複数の方法が存在する。「モードマッチング」とも呼ばれる「基本的復号化」法として知られる方法は、仮想スピーカーの全方向に関連付けられた行列Eの符号化に基づいている。
E=[Y(θ,φ)...Y(θN-1,φN-1)]
【0080】
本方法によれば、行列Dは典型的にEの疑似逆行列として定義される。
E:D=pinv(E)=D(D.D-1
【0081】
代替的に、「射影」法とも呼ばれる方法は、方向の特定の規則的分布に対して同様の結果を与え、次式で与えられる。
【数8】
【0082】
後者の場合、添え字nの各方向に対して、
【数9】
であることが分かる。
【0083】
本発明の関連において、このような行列は、解析及び/又は空間変換を実行すべく空間内の方向を特徴付ける信号を取得する仕方を記述する指向性ビーム形成行列として機能するであろう。
【0084】
本発明の関連において、スピーカー領域からアンビソニック領域まで通過する相互変換を記述することは有用である。二つの変換の連続的な適用は、スピーカー領域に中間的修正が一切適用されなければ元のアンビソニック信号を正確に再現する筈である。相互変換は従って、Dの疑似逆変換の実行として定義される。
pinv(D).S=D(D.D-1.S
【0085】
K=(M+1)ならば、サイズK×Kの行列Dは特定の条件下で逆行列にすることができ、この場合、B=D-1.Sである。
【0086】
「モードマッチング」法の場合、pinv(D)=Eであることが分かる。いくつかの変型例において、対応する逆変換EによりDを用いて復号化する他の方法が用いてもよく、満たすべき唯一の条件は、(音響復号化とび音響符号化の間で一切中間処理動作が実行されない場合に)Dを用いる復号化とEを用いる逆変換の組み合わせが完全な再構築を実現する必要があるということである。
【0087】
このような変型例は例えば以下のように与えられる。
-正則化項がD(D.D+εI)-1のフォーマットである「モードマッチング」復号化、ここでεは小さい値(例:0.01)、
-従来技術で公知の「同相」又は「最大rE」復号化、
-又はスピーカーの方向における分布が球面上で規則的でない変型例である。
【0088】
図3は、図2を参照しながら述べたような修正の組を決定する方法を含む符号化及び復号化方法を実行する符号化装置及び復号化装置の第1の実施形態を示す。
【0089】
本実施形態において、エンコーダは、元のマルチチャネル信号の空間画像を表す情報を計算して、符号化により生じた空間的劣化を修正できるようにデコーダに送信する。これにより、復号化の実行中に、復号化されたアンビソニック信号の空間アーチファクトを減らすことが可能になる。
【0090】
エンコーダは従って、例えばアンビソニック表現FOA、又はHOAすなわち所与の部分的アンビソニック次数までのアンビソニック成分のサブセットを有するハイブリッド表現のマルチチャネル入力信号を受信し、後者の場合は実際にはFOA又はHOAの場合と同様な仕方で含まれており、欠落しているアンビソニック成分はゼロで、アンビソニック次数は所定の成分を全て含むのに必要な最小次数で与えられる。従って、一般性を失うことなく、FOA又はHOAの場合の記述について以下で考察する。
【0091】
上述の実施形態において、入力信号は32kHzでサンプリングされる。エンコーダは、好適には長さが20ms、すなわち32kHzで毎フレームL=640個のサンプルであるフレームで動作する。いくつかの変型例において、他のフレーム長さ及びサンプリング周波数も可能である(例:48kHzで10msフレーム毎にL=480個のサンプル)。好適な一実施形態において、符号化は(1個以上の帯域で)時間領域において実行されるが、いくつかの変型例では、本発明は例えば短時間離散フーリエ変換(STFT)又は修正離散余弦変換(MDCT)の後で変換された領域で実行されてよい。
【0092】
使用する符号化実施形態に応じて、図2に関して説明したように、チャネル(DMX)の個数を減らすブロック310を実行することができ、ブロック311への入力は、ダウンミックスを実行した場合はブロック310の出力信号B’であり、さもなければ信号Bである。一実施形態において、ダウンミックスを適用した場合、これは例えば、1次アンビソニック入力信号のWチャネルだけを維持し、次数>1のアンビソニック入力信号の先頭4個のアンビソニック成分W、X、Y、Zだけ(従って1次まで信号を切り捨てる)を維持するものである。(チャネル及び/又は行列化のサブセットの選択と合わせて上で述べたような)他の種類のダウンミックスも本発明による方法を修正せずに実行できる。
【0093】
ブロック311は、ダウンミックスステップが実行されたならばブロック310の出力側でB’の音声信号b’を、又は元のマルチチャネル信号Bの音声信号bを符号化する。この信号は、チャネルの個数を減らす処理動作が適用されなかったならば、元のマルチチャネル信号のアンビソニック成分に対応する。
【0094】
好適な一実施形態において、ブロック311は、割り当てが固定されているか又は可変なマルチモノラル符号化(COD)を使用し、コアコーデックが標準の3GPPEVSコーデックである。このマルチモノラル方式において、各チャネルb又はb’は、コーデックの1個のインスタンスにより別々に符号化される。しかし、いくつかの変型例では他の符号化方法、例えばマルチステレオ符号化又は連結マルチチャネル符号化も可能である。これは従って、当該符号化ブロック311の出力において、元のマルチチャネル信号から得られた符号化済み音声信号をマルチプレクサ340へ送られるビットストリームの形式で与える。
【0095】
任意選択的に、ブロック320はサブ帯域への分割を実行する。いくつかの変型例において、このサブ帯域への分割は、ブロック310又は311で実行された同等の処理動作を再使用してもよく、ここでブロック320の分割が機能する。
【0096】
好適な一実施形態において、元のマルチチャネル音声信号のチャネルは、各々の幅が1kHz、3kHz、4kHz、8kHzである4個の周波数サブ帯域に分割される(これは周波数を0~1000、1000~4000、4000~8000及び8000~16000Hzに分割することに等しい)。この分割は、短時間離散フーリエ変換(STFT)、(周波数マスクの適用による)フーリエ領域における帯域通過フィルタリング、及び重なりが追加された逆変換として実行されてよい。この場合、サブ帯域は引き続き同じ元の周波数でサンプリングされ、本発明による処理動作が時間領域で適用される。いくつかの変型例において、極めて重要なサンプリングにフィルタバンクを用いることができる。サブ帯域への分割動作は一般に、実装されるフィルタバンクの種類に依存する処理遅延を伴う点に注意されたい。本発明によれば、空間画像情報が修正済み信号と時間的に同期するように、符号化/復号化の前後、及び/又は空間画像情報の抽出前に時間的整列を適用してよい。
【0097】
いくつかの変型例において、全帯域処理を実行してもよく、又は上で説明したように、サブ帯域への分割は異なっていてよい。
【0098】
他の変型例では元のマルチチャネル音声信号の変換から得られた信号を直接使用し、本発明は、変換された領域のサブ帯域への分割と共に、変換された領域に適用する。
【0099】
以下の記述において、上述の符号化及び復号化の各種のステップは、記述を簡潔にすべく、単一の周波数帯域を有する(実又は複素)時間又は周波数領域における処理動作を伴うように記述されている。
【0100】
また、任意選択的に、各サブ帯域において、例えばカットオフ周波数が好適には20又は50Hz(いくつかの変型例では50Hz)に設定された2次楕円IIRフィルタの形式の(典型的には20又は50Hzでのカットオフ周波数による)高域通過フィルタリングを実行することも可能である。この前処理により、符号化実行中に後続の共分散推定に対する潜在的バイアスが回避される。この前処理が無ければ、後述するブロック390で実行される修正は、全帯域処理を実行中に低周波を増幅しがちである。
【0101】
ブロック321は元のマルチチャネル信号の空間画像を表す情報(Inf.B)を決定する。
【0102】
一実施形態において、この情報は、音が発せられた方向に関連付けられた(単位球面上に分布する仮想スピーカーの方向に関連付けられた)エネルギー情報である。
【0103】
この目的のため、単位半径を有する仮想3D球体が定義され、この3D球体は、n番目のスピーカーの方向(Θ,φ)により球面座標で位置が定義されるN個の点(「点」仮想スピーカー)により離散化される。スピーカーは典型的には球面上に(準)一様に配置されている。仮想スピーカーの個数Nは少なくともN=K個の点を有する離散化として決定され、Mは信号のアンビソニック次数且つK=(M+1)、すなわちN≧Kである。例えば「レベデフ」求積法を用いて、参考文献:V.I.Lebedev,and D.N.Laikov“A quadrature formula for the sphere of the 131st algebraic order of accuracy”,Doklady Mathematics,vol.59,no.3,1999,pp.477-481、又はPierre Lecomte,Philippe-Aubert GAUthier,Shristophe Langrenne,Alexandre Garcia and Alain Berry,On the use of a Lebedev grid for Ambisonics,AES Convention 139,New York,2015に従い、この離散化を実行することができる。
【0104】
いくつかの変型例において、参考文献:J.Fliege and U.Maier“A two-stage approach for computing cubature formulae for the sphere”,Technical Report,Dortmund University,1999に記述されているような、少なくともN=K個の点(N≧K)を有するFliege離散化、又はR.H.Hardin and N.J.A.Sloaneによる論文“Mclaren’s Improved Snub Cube and Other New Spherical Designs in Three Dimensions”,Discrete and Computational Geometry,15(1996),pp.429-441に記述されているような「球面t設計」の点を用いる離散化等、他の離散化を用いてよい。
【0105】
上の離散化から、マルチチャネル信号の空間画像を決定することができる。一つの可能な方法は例えばSRP(「Steered-Response Power(制御された応答出力)」の略)法である。実際、この方法は、方位角及び仰角に関して定義される各種の方向から来る短期エネルギーを計算するものである。この目的のため、上述のように、N個のスピーカーにおけるレンダリングと同様に、アンビソニック成分の重み行列が計算され、次いで成分の寄与度を合算してN個の音声ビームの組(又は「ビーム形成器」)を生成すべく当該行列がマルチチャネル信号に適用する。
【0106】
n番目のスピーカーの方向(Θ,φ)への音響ビームから信号がs=d.Bで与えられ、ここでdは所与の方向に対する音響ビーム形成係数与える重み(行)ベクトル、Bは長さLの時間幅にわたり、K個の成分を有するアンビソニック信号(Bフォーマット)を表すサイズK×Lの行列である。
【0107】
N個の音響ビームからの信号の組から式S=D.Bが導かれる。
ここで、
【数10】
及びSは、長さLの時間幅にわたるN個の仮想スピーカーの信号を表すサイズN×Lの行列である。
【0108】
各方向(Θ,φ)での長さLの時間区間にわたる短期エネルギーは次式で表され、
σ =s.s =(d.B).(d.B)=d.B.B.d =d.C.d
ここでC=B.B(実数の場合)又はRe(B.B)(複素数の場合)はBの共分散行列である。
【0109】
各項σ =s.s は仮想スピーカーによる3D球面の離散化に対応する全ての方向(Θ,φ)についてこのように計算することができる。
【0110】
空間画像Σは次式で与えられる。
Σ=[σ ,…,σN-1
SRP法以外に空間画像Σを計算する変型例を用いてよい。
-値dは使用する音響ビーム形成の種類(総遅延、MVDR、LCMV等)に応じて変動し得る。本発明はまた、行列D及び空間画像
Σ=[σ ,…,σN-1
を計算するこれらの変型例にも適用できる。
-MUSIC(複数信号分類)法もまた、部分空間方式にとり空間画像を計算する別の仕方を提供する。
【0111】
本発明はまた、空間画像
Σ=[σ ,…,σN-1
を計算する当該変型例に適用でき、
これは共分散行列を対角化することにより計算され、方向(Θ,φ)に対して評価されたMUSIC疑似スペクトルに対応している。
-空間画像は、例えばS.Tervoによる論文「Direction estimation based on sound intensity vectors」,Proc.EUSIPCO,2009における(1次)強度ベクトルのヒストグラム、又は疑似強度ベクトルへの一般化から計算することができる。この場合、(所定の方向(Θ,φ)における到着値の方向の生起回数を値とする)ヒストグラムが所定の方向におけるエネルギーの組と解釈される。
【0112】
ブロック330は次いで、例えば係数毎の16ビットへのスカラー量子化により(16ビットで切り捨てられた浮動小数点表現を直接用いることにより)このように決定された空間画像を量子化する。いくつかの変型例において、他のスカラー又はベクトル量子化方式も可能である。
【0113】
別の実施形態において、元のマルチチャネル信号の空間画像を表す情報は、入力チャネルBの(サブ帯域の)共分散行列である。この行列は、
(実数の場合)正規化係数の範囲内でC=B.Bとして計算される。
【0114】
本発明が複素数値変換領域で実行される場合、この共分散は、
正規化係数の範囲内でC=Re(B.B)として計算される。
【0115】
いくつかの変型例において、共分散行列を時間的に平滑化する演算を用いてよい。時間領域内のマルチチャネル信号の場合、共分散を再帰的に(1サンプルずつ)推定することができる。
【0116】
共分散行列C(サイズK×Kの)が定義により対称であるため、下側又は上側の三角行列の一方だけが、(Q)K(K+1)/2個の係数を符号化する量子化ブロック330に送信され、Kはアンビソニック成分の個数である。
【0117】
このブロック330は、これらの係数を(16ビットに切り捨てられた浮動小数点表現を直接用いることにより)例えば係数毎に16ビットのスカラー量子化により量子化する。いくつかの変型例において、共分散行列のスカラー又はベクトル量子化の他の方法を実行することができる。例えば、共分散行列の最大値(最大分散)を計算し、次いでより少ない個数のビット(例:8ビット)に対数ステップでスカラー量子化を使用し、共分散行列の上側(又は下側)三角行列の値をその最大値により正規化することができる。
【0118】
いくつかの変型例において、共分散行列Cは、C+εIの形式で量子化される前に正則化することができる。
【0119】
量子化された値はマルチプレクサ340へ送られる。
【0120】
本実施形態において、デコーダは、デマルチプレクサブロック350において、元のマルチチャネル信号から得られた符号化済み音声信号及び元のマルチチャネル信号の空間画像を表す情報を含むビットストリームを受信する。
【0121】
ブロック360は、共分散行列又は元の信号の空間画像を表す他の情報を復号化(Q-1)する。ブロック370はビットストリームにより表される音声信号を復号化(DEC)する。
【0122】
ダウンミックス及びアップミックスステップを実行しない符号化及び復号化の一実施形態において、復号化されたマルチチャネル信号
【数11】
は、復号化ブロック370の出力側で取得される。
【0123】
ダウンミックスステップを符号化に用いる実施形態において、ブロック370で実行される復号化により、アップミックスブロック371の入力へ送られた復号化された音声信号
【数12】
を取得することが可能になる。
【0124】
ブロック371は従って、チャネルの個数を増やす任意選択的ステップ(UPMIX)を実行する。本ステップの一実施形態において、モノラル信号
【数13】
のチャネルに対して、各種の空間室内インパルス応答(SRIR)を用いて信号
【数14】
を畳み込むものである。これらのSRIRは、元のアンビソニック次数Bで定義される。例えば信号
【数15】
の各種のチャネルに全通過非相関化フィルタを適用する他の非相関化方法も可能である。
【0125】
ブロック372は、時間領域又は変換済み領域のいずれかにおけるサブ帯域を取得すべくサブ帯域に分割する任意選択的ステップ(SB)を実行する。逆変換ステップは、ブロック391において、マルチチャネル信号を出力側で復元すべくサブ帯域を集約する。
【0126】
ブロック375は、(元のマルチチャネル信号に関して)ブロック321で記述したのと同様に、復号化されたマルチチャネル信号の空間画像を表す(Inf
【数16】
)情報を決定し、今回は復号化実施形態に応じてブロック371又はブロック370の出力側で取得された復号化済みマルチチャネル信号
【数17】
に適用する。
【0127】
ブロック321で記述したのと同様に、一実施形態において、この情報は音が発せられた方向に関連付けられた(単位球面上に分布する仮想スピーカーの方向に関連付けられた)エネルギー情報である。上述のように、SRP方法(等)を用いて、復号化されたマルチチャネル信号の空間画像を決定することができる。
【0128】
別の実施形態において、この情報は復号化されたマルチチャネル信号のチャネルの共分散行列である。
【0129】
この共分散行列は従って以下のように取得される。すなわち正規化係数の範囲内で
【数18】
(実数の場合)又は、
【数19】
(複素数の場合)。
【0130】
いくつかの変型例において、共分散行列を時間的に平滑化する演算を用いてよい。時間領域におけるマルチチャネル信号の場合、共分散は再帰的に(1サンプルずつ)推定することができる。
【0131】
元のマルチチャネル信号(Inf.B)及び復号化されたマルチチャネル信号(Inf.
【数20】
)の空間画像を各々表す情報、例えば共分散行列C及び
【数21】
から、ブロック380は、図2に関して記述した修正の組を決定する(Det.Corr)方法を実行する。
【0132】
この判定の二つの特定の実施形態について図4、5を参照しながら述べる。
【0133】
図4の実施形態において、仮想スピーカーにおける(明示的又は非明示的)レンダリングを用いる方法を使用し、図5の実施形態において、コレスキー因数分解に基づいて行う方法が用いられる。
【0134】
図3のブロック390は、修正された復号化済みマルチチャネル信号を取得すべくブロック380で決定された修正の組を用いて復号化されたマルチチャネル信号の修正(CORR)を実行する。
【0135】
図4は従って、修正の組を決定するステップの一実施形態を示す。本実施形態は、仮想スピーカーにおけるレンダリングを用いて実行される。
【0136】
本実施形態において、元のマルチチャネル信号及び復号化されたマルチチャネル信号の空間画像を各々表す情報が各々の共分散行列C及び
【数22】
であることを最初に考慮する。
【0137】
この場合、ブロック420、421は各々元のマルチチャネル信号及び復号化されたマルチチャネル信号の空間画像を決定する。
【0138】
この目的のため、上述のように、n番目のスピーカーの方向(Θ,φ)により球面座標における方向が定義される単位半径を有する仮想3D球面がN個の点(「点」仮想スピーカー)により離散化される。
【0139】
複数の離散化方法が上で定義された。
【0140】
上述の離散化からマルチチャネル信号の空間画像を決定することができる。上述のように、一つの考え得る方法は、SRP方法(等)であり、方位角及び仰角に関して定義される各種の方向から来る短期エネルギーを計算するものである。
【0141】
本方法又は上で列挙した他の種類の方法を用いて、420における元のマルチチャネル信号(IMGB)の、及び421における復号化されたマルチチャネル信号(IMG
【数23】
)の空間画像Σ及び
【数24】
(ISB及びIS
【数25】
)を各々決定することができる。
【0142】
デコーダが360で受信して復号化した元の信号の空間画像を表す情報(InfB)が空間画像自体である、すなわち音が発せられた方向に関連付けられた(単位球面上に分布する仮想スピーカーの方向に関連付けられた)エネルギー情報(又は正値)である場合、もはやこれを420で計算する必要は無い。この空間画像は次いで後述するブロック430で直接使用される。
【0143】
同様に、復号化されたマルチチャネル信号(Inf
【数26】
)の空間画像を表す情報の375における決定が、復号化されたマルチチャネル信号の空間画像自体である場合、もはやこれを421で計算する必要は無い。この空間画像は次いで後述するブロック430で直接使用される。
【0144】
空間画像Σ及び
【数27】
から、ブロック430は、(Θ,φ)で与えられる各点に対して、元の信号のエネルギーσ =Σと復号化された信号のエネルギー
【数28】
のエネルギー比を計算する(比)する。従って利得の組gが次式を用いて得られる。
【数29】
【0145】
エネルギー比は方向(Θ,φ)及び周波数帯域に依存し、極めて大きい場合がある。ブロック440により、利得gがとり得る最大値を任意選択的に制限(制限g)することが可能になる。σ 及び
【数30】
と表記する正値が、より一般的にMUSIC疑似スペクトルから得られた値又は離散化された方向(Θ,φ)への到着方向のヒストグラムから得られた値に対応し得ることがここで想起される。
【0146】
可能な一実施形態において、gの値に閾値が適用される。当該閾値よりも大きい任意の値は強制的に当該閾値に等しくされる。当該閾値は、例えば幅±6dBの外側の利得値が±6dBで飽和するように6dBに設定されてよい。
【0147】
この利得gの組は従って、復号化されたマルチチャネル信号に施す修正の組を構成する。
【0148】
この利得の組は、図3の修正ブロック390の入力側で受信される。
【0149】
復号化されたマルチチャネル信号に直接適用可能な修正行列は、例えば形式G=E.diag([g...gN-1]).Dで定義でき、ここでD及びEは上で定義された音響復号化及び符号化行列である。この行列Gが、修正済み出力アンビソニック信号(
【数31】
corr)を取得すべく復号化されたマルチチャネル信号
【数32】
に適用する。
【0150】
修正のため実行されるステップの分解についてここで述べる。ブロック390は、対応する所定の利得gを各仮想スピーカーに適用する。この利得を適用することにより、当該スピーカーで元の信号と同じエネルギーを得ることが可能になる。
【0151】
各スピーカーにおける復号化された信号のレンダリングはこのように修正される。
【0152】
音響符号化ステップ、例えば行列Eを用いるアンビソニック符号化が次いで、マルチチャネル信号の成分、例えばアンビソニック成分を取得すべく実行される。これらのアンビソニック成分は、修正された出力マルチチャネル信号(
【数33】
Corr)を取得すべく最終的に合算される。従って、仮想スピーカーに関連付けられたチャネルを明示的に計算し、これに対して利得を適用し、次いで処理済みチャネルを再結合する、又は等価な仕方で、修正対象の信号に行列Gを適用することができる。
【0153】
いくつかの変型例において、符号化され、次いで復号化されたマルチチャネル信号の共分散行列
【数34】
から、及び修正行列Gからブロック390で修正された信号の共分散行列を次式のように計算することが可能である。
【数35】
【0154】
全方向性成分(Wチャネル)に対応する、行列Rの第1の係数R00の値だけが、正規化係数としてRに適用されて、修正行列Gに起因する全体的な利得の増加を避けるべく保持される。
【数36】
但し
【数37】
ここで
【数38】
は復号化されたマルチチャネル信号の共分散行列の第1の係数に対応する。
【0155】
いくつかの変型例において、R00(従ってgnorm)を決定するために行列要素のサブセットだけを計算すれば充分であるため、正規化係数gnormは行列R全体を計算せずに決定することができる。
【0156】
このように得られた行列G又はGnormは、復号化されたマルチチャネル信号に施す修正の組に対応する。
【0157】
ここで図5に、図3のブロック380で行われる修正の組を決定する方法の別の実施形態を示す。
【0158】
本実施形態において、元のマルチチャネル信号及び復号化されたマルチチャネル信号の空間画像を各々表す情報が各々共分散行列C及び
【数39】
であると考えられる。
【0159】
本実施形態において、マルチチャネル信号の空間画像を修正すべく仮想スピーカー向けにレンダリングを実行しようとしない。特に、アンビソニック信号に対して、空間画像の修正をアンビソニック領域内で直接計算しようとする。
【0160】
この目的のため、復号化された信号
【数40】
に変換行列Tを適用した後で修正された空間画像が元の信号Bの空間画像と同じであるように、復号化された信号に適用する変換行列Tが決定される。
【0161】
求めるものは従って、次式
【数41】
を満たす行列Tであり、
ここでC=B.BはBの共分散行列であり、
【数42】
は現行フレームでの
【数43】
の共分散行列である。
【0162】
本実施形態において、コレスキー因数分解として知られる因数分解を用いて上の方程式を解く。
【0163】
サイズn×nの行列Aを与えられたならば、コレスキー因数分解は、(下側又は上側)三角行列LをA=LL(実数の場合)、A=LL(複素数の場合)であるように決定するものである。分解が可能であるためには、行列Aは、正定値対称行列(実数の場合)又は正定値エルミート行列(複素数の場合)でなければならず、実数の場合、Lの対角係数は厳密に正である。
【0164】
実数の場合、サイズn×nの行列Mが正定値対称であると言えるのは、対称(M=M)且つ正定値(
【数44】
の任意の値に対してxMx>0)の場合である。
【0165】
対称行列Mに対して、当該行列が正定値であることが検証できるのは全ての固有値が厳密に正(λ>0)の場合である。固有値が正(λ≧0)の場合、行列は正半定値であると言われる。
【0166】
サイズn×nの行列Mが正定値対称エルミートであると言われるのは、エルミート(M=M)且つ正定値(
【数45】
の任意の値に対してzMzが実数>0)である場合である。
【0167】
コレスキー因数分解は例えば、Ax=b型の一次方程式系の解を見つけるのに用いられる。例えば、複素数の場合、コレスキー因数分解を用いてAをLLに変換してLy=bを解き、次いでLx=yを解くことが可能である。
【0168】
同様の仕方で、コレスキー因数分解はA=UU(実数の場合)及びA=UU(複素数の場合)と書くことができ、Uは上側三角行列である。
【0169】
ここで述べる実施形態において、一般性を失うことなく、三角行列Lによるコレスキー因数分解の場合だけを扱う。
【0170】
コレスキー因数分解は従って、行列Cが正定値対称であるとの条件で行列C=L.Lを2個の三角行列に分解することを可能にする。これにより次式が得られる。
【数46】
【0171】
識別子を用いて
【数47】
を見つける。
【0172】
すなわち
【数48】
となる。
【0173】
共分散行列C及び
【数49】
が一般に正半定値行列であるため、コレスキー因数分解をこのように用いることができない。
【0174】
ここで注意すべきは、行列L及び
【数50】
は下側(又は上側)三角行列であり、変換行列Tもまた下側(又は上側)三角行列である。
【0175】
ブロック510は従って、共分散行列Cを強制的に正定値にする。この目的のため、行列が実際に正定値であることを保証すべく行列の対角係数に値εを加算する(Fact.Cは因数分解のためのC)。すなわちC=C+εI、ここでεは例えば10-9に設定された小さい値であり、Iは単位行列である。
【0176】
同様に、ブロック520は、行列を
【数51】
の形式に修正することにより、共分散行列
【数52】
を強制的に正定値にし、ここでεは例えば10-9に設定された小さい値であり、Iは単位行列である。
【0177】
二つの共分散行列C及び
【数53】
が正定値であるとの条件を満たしたならば、ブロック530は、関連付けられたコレスキー因数分解を計算して、以下の最適な変換行列Tを見つける(Det.T)。
【数54】
【0178】
いくつかの変型例において、代替的な解決策は固有値への分解により実行されてよい。
【0179】
固有値への分解(「固有値分解」)は、サイズn×nの実又は複素行列Aを以下の形式で因数分解するものである。
A=QΛQ-1
ここのΛは固有値λを含む対角行列であり、Qは固有ベクトルの行列である。
【0180】
行列が実数の場合、次式が成り立つ。
A=QΛQ
【0181】
複素数の場合、分解はA=QΛQと書かれる。
【0182】
この場合、次に求めるのは
【数55】
のような行列Tである。
ここでC=QΛQ且つ
【数56】
すなわち次式が成り立つ。
【数57】
【0183】
識別子を用いて次式を見つける。
【数58】
【0184】
すなわち次式が成り立つ。
【数59】
【0185】
フレーム間の解決策の安定性は典型的に、コレスキー因数分解方式を用いる場合ほどは良くない。この不安定性は、固有値への分解の実行中に潜在的に拡大し得る更なる計算上の近似により悪化する。
【0186】
いくつかの変型例において、対角行列は次式で与えられ、
【数60】
ここで
【数61】

【数62】
の形式で1要素ずつ計算されてよく、sgn(.)は符号関数(正ならば+1、さもなければ-1)であり、εはゼロによる除算を避けるべく正則化項(例:ε=10-9)である。
【0187】
本実施形態において、マルチモノラルEVS符号化のようにエンコーダにより大幅に悪化し得る特に高周波の観点から、復号化されたアンビソニック信号と修正されたアンビソニック信号との間のエネルギーの相対差が極めて大きい可能性がある。特定の周波数域を過度に増幅することを避けるべく正則化項を追加してよい。ブロック640は任意選択的に当該修正を正規化する(Norm.T)役割を担う。
【0188】
好適な実施形態において、正規化係数は従って周波数域を増幅しないように計算される。
【0189】
符号化されてから復号化されたマルチチャネル信号の共分散行列
【数63】
から、及び変換行列Tから、修正された信号の共分散行列を次式のように計算することができる。
【数64】
【0190】
全方向性成分(Wチャネル)に対応する、行列Rの第1の係数R00の値だけが、正規化係数としてTに適用すべく、及び修正行列Tに起因する全利得の増加を避けるべく保持されている。
【数65】
但し
【数66】
ここで
【数67】
は復号化されたマルチチャネル信号の第1の共分散行列の係数に対応する。
【0191】
いくつかの変型例において、R00(従って、gnorm)を決定するのに行列要素のサブセットだけを計算するので充分であるため、正規化係数gnormは行列R全体を計算せずに決定することができる。
【0192】
このように得られたT又はTnorm行列は、復号化されたマルチチャネル信号に施す修正の組に対応する。
【0193】
本実施形態により、図3のブロック390は、修正された出力アンビソニック信号(
【数68】
corr)を取得すべく、アンビソニック領域において、復号化されたマルチチャネル信号に変換行列T又はTnormを直接適用することにより復号化されたマルチチャネル信号を修正するステップを実行する。
【0194】
修正の組を決定する方法がエンコーダで実行される、本発明によるエンコーダ/デコーダの第2の実施形態について以下に述べる。図6に本実施形態を記述している。同図は従って、図2に関して上で述べたように修正の組を決定する方法を含む符号化及び復号化方法を実行する符号化装置及び復号化装置の第2の実施形態を示している。
【0195】
本実施形態において、修正の組(例;方向に関連付けられた利得)を決定する方法はエンコーダが実行し、次いで当該修正の組をデコーダへ送信する。デコーダは、復号化されたマルチチャネル信号に適用すべく当該修正の組を復号化する。本実施形態は従って、エンコーダで局所的復号化を実行することを含み、この局所的復号化はブロック612~613により表される。
【0196】
ブロック610、611、620及び621は各々、図3を参照しながら述べたブロック310、311、320及び321と同一である。
【0197】
元のマルチチャネル信号の空間画像を表す情報(Inf.B)は従ってブロック621の出力側で取得される。
【0198】
ブロック612は、ブロック611で実行された符号化と同様に局所的復号化(DEC_loc)を実行する。
【0199】
この局所的復号化はブロック611からのビットストリームからの完全な復号化を含んでいても、又は、好適にはブロック611に一体化されていてもよい。
【0200】
ダウンミックス及びアップミックスステップを実行しない符号化及び復号化の一実施形態において、復号化されたマルチチャネル信号
【数69】
が局所的復号化ブロック612の出力側で取得される。
【0201】
610でのダウンミックスステップが符号化に用いられた実施形態において、ブロック612で実行する局所的復号化により、アップミックスブロック613の入力へ送られる復号化済み音声信号
【数70】
の取得が可能になる。
【0202】
ブロック613はこのようにチャネルの個数を増やす任意選択的ステップ(UPMIX)を実行する。本ステップの一実施形態において、これはモノラル信号
【数71】
のチャネルに対して、各種の空間室内インパルス応答(SRIR)を用いて信号
【数72】
を畳み込むものである。これらのSRIRはBの元のアンビソニック次数で定義される。例えば信号
【数73】
の各種のチャネルに全通過非相関化フィルタを適用する他の非相関化方法も可能である。
【0203】
ブロック614は、時間領域又は変換済み領域のいずれかにおけるサブ帯域を取得すべくサブ帯域に分割する任意選択的ステップ(SB)を実行する。
【0204】
ブロック615は、復号化されたマルチチャネル信号の空間画像を表す(Inf
【数74】
)情報を、局所的復号化の実施形態に応じて今回はブロック612又はブロック613の出力側で取得された復号化済みマルチチャネル信号
【数75】
に適用された(元のマルチチャネル信号の場合に)ブロック621、321に関して記述されたのと同様の仕方で決定する。このブロック615は、図3のブロック375に等しい。
【0205】
ブロック621、321と同様の仕方で、一実施形態において、この情報は、音が発せられた方向に関連付けられた(単位球面上に分布する仮想スピーカーの方向に関連付けられた)エネルギー情報である。上述のように、(上の変型例のような)SRP方法等を用いて、復号化されたマルチチャネル信号の空間画像を決定することができる。
【0206】
別の実施形態において、この情報は復号化されたマルチチャネル信号のチャネルの共分散行列である。
【0207】
この共分散行列は次いで次式のように得られる。すなわち(実数の場合)正規化係数の範囲内で
【数76】
又は正規化係数の範囲内で(複素数の場合)
【数77】
【0208】
元のマルチチャネル信号(Inf.B)及び復号化されたマルチチャネル信号(Inf.
【数78】
)の空間画像を各々表す情報から、例えば共分散行列C及び
【数79】
、ブロック680が、図2を参照しながら述べた修正の組を決定する(Det.Corr)方法を実行する。
【0209】
この判定の二つの特定の実施形態が可能であり、図4、5を参照しながら記述してきた。
【0210】
図4の実施形態において、スピーカーにおけるレンダリングを用いる方法を使用し、図5の実施形態において、アンビソニック領域で直接実行され、且つコレスキー因数分解又は固有値への分解に基づく方法を使用している。
【0211】
従って、図4の実施形態が630で適用されたならば、決定された修正の組は、仮想スピーカーの組により定義される方向の組(Θ,φ)に対する利得の組gである。この利得の組は、図4を参照しながら述べたように、修正行列Gの形式で決定することができる。この利得の組(corr.)は次いで640で符号化される。この利得の組の符号化は修正行列G又はGnormを符号化するものであってよい。
【0212】
サイズK×Kの行列Gが対称であり、従って本発明によれば、G又はGnormの下側又は上側三角行列だけ、すなわちK×(K+1)/2個の値を符号化することができる点に注意されたい。一般に、対角項の値は正である。一実施形態において、行列G又はGnormは、値が非対角項であるか否かに応じてスカラー量子化を用いて(符号ビットの有無に依らず)符号化される。Gnormを用いる複数の変型例において、Gnormの対角項の第1の値(全方向性成分に対応する)は常に1であるため、その符号化及び送信を省略することができる。例えばK=4個のチャネルを有する1次アンビソニックの場合、これはK×(K+1)/2=10個の値ではなく9個の値だけを送信することに等しい。いくつかの変型例において、他のスカラー又はベクトル量子化方法(予測の有無に依らず)を用いてもよい。
【0213】
図5の実施形態が630で適用されたならば、決定された修正の組は変換行列T又はTnormであり、次いで640で符号化される。
【0214】
サイズK×Kの行列Tがコレスキー因数分解を用いる変型例では三角行列であり、固有値分解を用いる変型例では対称行列である点に注意されたい。従って、本発明によれば、T又はTnormの下側又は上側三角行列だけ、すなわちK×(K+1)/2個の値を符号化することができる。
【0215】
一般に、対角項の値は正である。一実施形態において、行列T又はTnormは、値が非対角項か否かに応じてスカラー量子化(符号ビットの有無に依らず)を用いて符号化される。いくつかの変型例において、他のスカラー又はベクトル量子化方法(予測の有無に依らず)を用いてよい。Tnormを用いる変型例において、Tnormの対角項の第1の値(全方向性成分に対応する)は常に1であるため、その符号化及び送信を省略することができる。例えば、K=4個のチャネルを有する1次アンビソニックの場合、これはK×(K+1)/2=10個の値ではなく9個の値だけを送信することに等しい。
【0216】
ブロック640は従って、決定された修正の組を符号化して、符号化された修正の組をマルチプレクサ650に送る。
【0217】
デコーダは、デマルチプレクサブロック660で、元のマルチチャネル信号から得られた符号化済み音声信号、及び復号化されたマルチチャネル信号に適用する符号化された修正の組を含むビットストリームを受信する。
【0218】
ブロック670は、符号化された修正の組を復号化(Q-1)する。ブロック680は、ストリームで受信した符号化済み音声信号を復号化(DEC)する。
【0219】
ダウンミックス及びアップミックスステップを実行しない符号化及び復号化の一実施形態において、復号化されたマルチチャネル信号
【数80】
が復号化ブロック680の出力側で取得される。
【0220】
符号化にダウンミックスステップを用いる実施形態において、ブロック680で行う復号化により、アップミックスブロック681の入力へ送られる復号化された音声信号
【数81】
を取得可能にする。
【0221】
ブロック681はこのように、チャネルの個数を増やす任意選択的なステップ(UPMIX)を実行する。本ステップの一実施形態において、モノラル信号
【数82】
のチャネルに対して、各種の空間室内インパルス応答(SRIR)を用いる信号
【数83】
の畳み込みである。これらのSRIRはBの元のアンビソニック次数で定義される、例えば信号
【数84】
の各種のチャネルに全通過非相関化フィルタを適用する他の非相関化方法も可能である。
【0222】
ブロック682は、時間領域又は変換された領域内のいずれかのサブ帯域を取得すべくサブ帯域に分割する任意選択的なステップ(SB)を実行し、ブロック691は出力マルチチャネル信号を復元すべくサブ帯域をグループ化する。
【0223】
ブロック690は、修正された復号化済みマルチチャネル信号修正(
【数85】
Corr)を取得すべく、ブロック670で復号化された修正の組を用いて、復号化されたマルチチャネル信号の修正(CORR)を実行する。
【0224】
修正の組が図4を参照しながら述べたような利得の組である一実施形態において、この利得の組は修正ブロック690の入力側で受信される。利得の組が、例えばG=E.diag([g...gN-1]).D又はGnorm=gnorm.Gの形式で定義された復号化されたマルチチャネル信号に直接適用できる修正行列の形式であるならば、この行列G又はGnormは次いで、修正された出力アンビソニック信号(
【数86】
Corr)を取得すべく復号化されたマルチチャネル信号
【数87】
に適用される。
【0225】
ブロック690が利得の組gを受信したならば、ブロック690は対応する利得gを各仮想スピーカーに適用する。この利得を適用することにより、当該スピーカーで元の信号と同じエネルギーを取得することが可能になる。
【0226】
各スピーカー向けの復号化された信号のレンダリングはこのように修正される。
【0227】
音響符号化ステップ、例えばアンビソニック符号化が次いで、マルチチャネル信号の成分、例えばアンビソニック成分を取得すべく実行される。これらのアンビソニック成分は最終的に、修正された出力マルチチャネル信号(
【数88】
Corr)を取得すべく合算される。
【0228】
図5を参照しながら述べたように修正の組が変換行列である一実施形態において、670で復号化された変換行列Tは修正ブロック690の入力側で受信される。
【0229】
本実施形態において、ブロック690は、修正された出力アンビソニック信号(
【数89】
corr)を取得すべく、変換行列T又はTnormを復号化されたマルチチャネル信号にアンビソニック領域で直接適用することにより、復号化済みマルチチャネル信号を修正するステップを実行する。
【0230】
本発明がアンビソニックの場合に適用できるにせよ、いくつかの変型例では、上述の各種の実施形態により実行される方法を適用すべく、他のフォーマット(マルチチャネル、オブジェクト等)をアンビソニックに変換することができる。マルチチャネル又はオブジェクトフォーマットからアンビソニックフォーマットへのこのような変換の例示的な実施形態が3GPPTS26.259仕様(v15.0.0)の図2に記述されている。
【0231】
図7に、本発明の概念の範囲内の符号化装置DCOD及び復号化装置DDECを示しており、これらの装置は互いに(「可逆」という意味で)二重化され、通信ネットワークRESにより互いに接続されている。
【0232】
符号化装置DCODは、典型的に以下を含む処理回路を含んでいる。
-本発明の概念の範囲内の、コンピュータプログラムの命令データを保存するメモリMEM1(これらの命令はエンコーダDCODとデコーダDDECの間で分散されている可能性がある)、
-元のマルチチャネル信号B、例えば各種のチャネル(例えば4個の1次チャネルW、Y、Z、X)にわたり分布するアンビソニック信号を、本発明の概念の範囲内で圧縮符号化する意図で受信するインターフェースINT1、
-当該信号を受信して符号化する意図で、メモリMEM1に保存されたコンピュータプログラム命令を実行することにより処理するプロセッサPROC1、及び
-符号化された信号を、ネットワークを介して送信する通信インターフェースCOM1。
【0233】
復号化装置DDECは、典型的に以下を含む自身の処理回路を含んでいる。
-本発明の概念の範囲内の、コンピュータプログラムの命令データを保存するメモリMEM2(これらの命令は、上述のようにエンコーダDCOD及びデコーダDDECの間で分散されている可能性がある)、
-本発明の概念の範囲内の、符号化された信号を、圧縮復号化する意図でネットワークRESから受信するインターフェースCOM2、
-これらの信号を、復号化する意図で、メモリMEM2に保存されたコンピュータプログラム命令を実行することにより処理するプロセッサPROC2、
-修正された復号化済み信号(
【数90】
Corr)を、レンダリングする意図で、例えばアンビソニックチャネルW...Xの形式で配信する出力インターフェースINT2。
【0234】
無論、当該図7は、本発明の概念の範囲内のコーデック(エンコーダ又はデコーダ)の構造的実施形態の一例を示す。上述の図3~6は、これらのコーデックのより機能的な実施形態を詳述する。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】