(58)【調査した分野】(Int.Cl.,DB名)
複数のオリジナルオーディオオブジェクト信号が符号化された3つ以上のダウンミックス信号を、前記複数のオリジナルオーディオ信号上の情報を示すパラメトリック副情報に基づいてアップミックスするよう構成され、前記3つ以上のダウンミックス信号をアップミックスすることにより、複数の第1推定オーディオオブジェクト信号を生成するパラメトリックデコード部(110)と、
1つ以上の残差信号に基づいて前記複数の第1推定オーディオオブジェクト信号のうちの1つ以上の第1推定オーディオオブジェクト信号を変更修正するよう構成され、前記1つ以上の第1推定オーディオオブジェクト信号を変更修正することにより複数の第2推定オーディオオブジェクト信号を生成する残差処理部(120)と、
を備えるデコーダ。
請求項1から5のいずれか1項に記載のデコーダにおいて、前記1つ以上の残差信号はそれぞれ、前記複数のオリジナルオーディオオブジェクト信号の1つと前記1つ以上の第1推定オーディオオブジェクト信号の1つとの間の差異を示す、デコーダ。
請求項1から8のいずれか1項に記載のデコーダにおいて、チャンネル推定係数を決定せずに前記複数の第2推定オーディオオブジェクト信号を決定するよう構成されたデコーダ。
複数のオリジナルオーディオオブジェクト信号が符号化された3つ以上のダウンミックス信号を、前記複数のオリジナルオーディオ信号上の情報を示すパラメトリック副情報に基づいてアップミックスするよう構成され、前記3つ以上のダウンミックス信号をアップミックスすることにより、複数の推定オーディオオブジェクト信号を生成するパラメトリックデコード部(230)と、
前記複数のオリジナルオーディオオブジェクトに基づいて、かつ前記複数の推定オーディオオブジェクト信号に基づいて、それぞれが前記複数のオリジナルオーディオオブジェクト信号のうちの1つのオリジナルオーディオオブジェクト信号と前記複数の推定オーディオオブジェクト信号のうちの1つの推定オーディオオブジェクト信号との間の差異を示す複数の残差信号を生成する残差推定部(240)と、
を備える残差信号生成器(200)。
請求項11から17のいずれか1項に記載の残差信号生成器(200)において、前記残差推定部(240)は、前記複数のオリジナルオーディオオブジェクト信号のうち少なくとも5つのオリジナルオーディオオブジェクト信号に基づいて、かつ前記複数の推定オーディオオブジェクト信号のうち少なくとも5つの推定オーディオオブジェクト信号に基づいて、少なくとも5つの残差信号を生成するよう構成された、残差信号生成器。
3つ以上のダウンミックス信号を生成し、パラメトリック副情報を生成し、かつ複数の残差信号を生成することにより、複数のオリジナルオーディオオブジェクト信号を符号化するエンコーダであって、
前記複数のオリジナルオーディオオブジェクト信号のダウンミックスを示す3つ以上の信号を前記3つ以上のダウンミックス信号として生成するダウンミックス生成器(210)と、
前記複数のオリジナルオーディオオブジェクト信号に関する情報を示す情報を前記パラメトリック副情報として生成するパラメトリック副情報推定器(220)と、
請求項11から18のいずれか1項に記載の残差信号生成器(200)と、
を備え、
前記残差信号生成器(200)の前記パラメトリックデコード部(230)は、前記パラメトリック副情報推定器(220)により生成された前記パラメトリック副情報に基づいて、前記ダウンミンク生成器(210)により提供される前記3つ以上のダウンミックス信号をアップミックスすることによって、複数の推定オーディオオブジェクト信号を生成するよう構成され、
前記残差信号生成器(200)の前記残差推定部(240)は、前記複数の残差信号を、前記複数のオリジナルオーディオオブジェクト信号に基づいて、かつ前記複数の推定オーディオオブジェクト信号に基づいて、それぞれが前記複数のオリジナルオーディオオブジェクト信号の1つと前記複数の推定オーディオオブジェクト信号の1つとの間の差異を示すように生成するよう構成された、
エンコーダ。
3つ以上のダウンミックス信号、パラメトリック副情報および複数の残差信号を生成することにより、複数のオリジナルオーディオオブジェクト信号を符号化する請求項19または20に記載のエンコーダ(310)と、
請求項1から10のいずれか1項に記載のデコーダ(320)と、
を備え、
前記デコーダ(320)は、前記エンコーダ(310)によって生成された前記3つ以上のダウンミックス信号、前記エンコーダ(310)によって生成された前記パラメトリック副情報、および前記エンコーダ(310)によって生成された前記複数の残差信号に基づき、複数の第2推定オーディオオブジェクト信号を生成するよう構成された
システム。
複数のオリジナルオーディオオブジェクト信号が符号化された3つ以上のダウンミックス信号を、前記複数のオリジナルオーディオオブジェクト信号上の情報を示すパラメトリック副情報に基づいてアップミキシングすることにより、複数の第1推定オーディオオブジェクト信号を生成し、
前記複数の第1推定オーディオオブジェクト信号のうちの1つ以上の第1推定オーディオオブジェクト信号を、1つ以上の残差信号に基づき変更修正することにより、複数の第2推定オーディオオブジェクト信号を生成する
方法。
複数のオリジナルオーディオオブジェクト信号が符号化された3つ以上のダウンミックス信号を、前記複数のオリジナルオーディオオブジェクト信号上の情報を示すパラメトリック副情報に基づいてアップミキシングすることにより、複数の推定オーディオオブジェクト信号を生成し、
前記複数のオリジナルオーディオオブジェクト信号に基づいて、かつ前記複数の推定オーディオオブジェクト信号に基づいて、それぞれが前記複数のオリジナルオーディオオブジェクト信号の1つと前記複数の推定オーディオオブジェクト信号の1つとの間の差異を示す差異信号である複数の残差信号を生成する
方法。
【背景技術】
【0002】
近年、複数のオーディオオブジェクトを有するオーディオシーンを、効率良いビットレートで送信/蓄積するためのパラメトリック技術が、オーディオコーディング(例えば、非特許文献1から5参照)およびインフォームドソース分離(例えば、非特許文献6から11参照)の分野で提案されている。これらの技術は、送信および/または蓄積されたオーディオシーンおよび/またはそのオーディオシーンにおけるオーディオソースオブジェクトについて記述する追加的副情報を基礎として、所望の出力オーディオシーンまたは所望のオーディオソースオブジェクトを再構築することを目的とする。
【0003】
図5は、SAOC(空間オーディオオブジェクトコーディング)システムの概略を示し、MPEG(Moving Picture Experts Group)SAOCの例を用いて、パラメトリックシステムの原理を示す(例えば、非特許文献5、3および4を参照)。
【0004】
一般的処理は、時間/周波数を選択可能な態様により実行されるが、これについては以下の通り説明できる。
【0005】
SAOCエンコーダ510、特に、このSAOCエンコーダ510の副情報推定部530は、最大で32個の入力オーディオオブジェクト信号S
1〜S
32の特徴を記述する副情報を抽出する(最も簡易な形式では、オーディオオブジェクト信号のオブジェクト電力の関係)。SAOCエンコーダ510のミキサー520は、オーディオオブジェクト信号S
1〜S
32をダウンミックスし、ダウンミックスゲイン要素d
1,1〜d
32,2を用いたモノラルまたは2チャンネル混合信号(つまり、1つまたは2つのダウンミックス信号)を生成する。
【0006】
ダウンミックス信号と副情報は、送信あるいは蓄積される。このために、ダウンミックスオーディオ信号は、オーディオエンコーダ540を用いて符号化される。オーディオエンコーダ540としては、良く知られた知覚オーディオエンコーダを用いることができ、例えば、MPEG−1レイヤーIIまたはIII(別名:mp3)オーディオエンコーダや、MPEGアドバンスオーディオコーディング(AAC)オーディオエンコーダなどを用いることができる。
【0007】
受信側では、対応するオーディオデコーダ550、例えば、MPEG−1レイヤーIIまたはIII(別名:mp3)オーディオデコーダやMPEGアドバンストオーディオコーディング(AAC)オーディオデコーダなどの知覚オーディオデコーダが、符号化されたダウンミックスオーディオ信号をデコードする。
【0008】
SAOCデコーダ560は、概念的には、例えばヴァーチャルオブジェクト分離器570により、送信および/または蓄積された副情報を使って、1つまたは2つのダウンミックス信号から、オリジナルの(オーディオ)オブジェクト信号(「オブジェクト分離」)復元しようと試みる。そして、これらの近似(オーディオ)オブジェクト信号S
1,est〜S
32,estは、SAOCデコーダ560のレンダラー580によって、レンダリングマトリックス(係数r
1,1〜r
32,6により記述される)を用いて、最大で6個のオーディオ出力チャンネルy
1,est〜y
6,esにより示される目標シーンにミキシングされる。出力は、シングルチャンネル目標シーン、2チャンネルステレオ目標シーン、または5.1マルチチャンネル目標シーン(例えば、1、2または6のオーディオ出力信号)となる。
【0009】
デコーダ側におけるオーディオオブジェクトのパラメトリック推定に根本的な制約があるため、ほとんどの場合、所望の出力シーンを完全に生成することはできない。例えば、1つのオーディオオブジェクトの単一再生などのように、極端な動作点においては、十分な主観的な音が処理によってはもはや実現できないということがよくある。このために、拡張オーディオオブジェクト(EAO)を導入することによって、SAOCのシステムが拡張されてきた(例えば、非特許文献12、さらには非特許文献5を参照)。EAOとしてエンコーダされたオーディオオブジェクトは、副情報レートの増加という負担はあるものの、同じダウンミックス信号にエンコードされた他の(通常の)非拡張オーディオオブジェクト(non−EAO)からの高い分離性能を示す。EAOコンセプトは、各EAOについて、パラメトリックモデルの推定エラー(残差信号)を考慮する。
【0010】
図6は、エンコーダ側における残差推定を示し、各EAOの残差信号の算出を示す概略図である。SAOCエンコーダにおいて、残差信号(4つのEAOまで)は、抽出されたパラメトリック副情報(PSI)と、波形が符号化されSAOCビットストリームに非パラメトリック残差副情報(RSI)として導入されたオリジナルのソース信号とを用いて推定される。さらに詳しくは、EAO用PSI SAOCデコーダ610は、ダウンミックスXから、推定オーディオオブジェクト信号S
est,EAOを生成する。そして、RSI生成部620は、生成された推定オーディオオブジェクト信号S
est,EAOおよびオリジナルのEAOオーディオオブジェクト信号S
1〜S
4に基づき、4つまでの残差信号S
res,RSI{1〜4}を生成する。
【0011】
図7は、EAO支援のあるSAOCデコーダの基本構成を示し、SAOCデコーディング/トランスコーディング(あるエンコーディングから別のエンコーディングへのデータ変換)のチェーンに組み込まれたEAO処理スキームの概念的概略図である。
【0012】
ダウンミックス信号志向のパラメータ、すなわちチャンネル推定係数(CPC)が、CPC推定部710により、パラメトリック副情報(PSI)から導き出される。
【0013】
CPCおよびダウンミックス信号は、2対N(Two−to−N)ボックス(TTNボックス)720に入力される。TTNボックス720は、送信ダウンミックス信号(X)からEAO(S
eat,EAO)を推定して、非EAOのみから構成される推定非EAOダウンミックス(X
est,nonEAO)を提供するようコンセプトとして試みる。
【0014】
送信/蓄積されデコードされた残差信号(S
res,RSI)は、RSI処理部730により用いられ、EAO(S
est,EAO)および対応する非EAOオブジェクト(X
nonEAO)のみのダウンミックスの推定値を向上させる。
【0015】
先行技術によると、次のステップにおいて、RSI処理部730は、非EAOダウンミックス信号(X
nonEAO)をSAOCダウンミックス処理器(PSIデコーディング部)740に供給し、PSIデコーディング部740は、非EAOオブジェクトS
est,nonEAOを推定する。PSIデコーディング部740は、推定非EAOオーディオオブジェクトS
est,nonEAOを、レンダリング部750に渡す。さらに、RSI処理部は、改善されたEAO、S
^est,EAOをレンダリング部750に直接入力する。そして、レンダリング部750は、推定非EAOオーディオオブジェクトS
est,nonEAOおよび改善されたEAO、S
^est,EAOに基づき、モノラルまたはステレオ出力信号を生成する。
【発明の概要】
【発明が解決しようとする課題】
【0017】
先行技術システムには、以下のような課題がある。
【0018】
残差信号を適用してSAOCデコーダでEAOを計算する前に、ダウンミックス志向のCPCが、送信/蓄積されたパラメトリック副情報から算出される必要がある。
【0019】
全てのダウンミックス信号は、そのEAO処理における有用性に拘わらず、SAOC残差コンセプト内において処理されなければならない。
【0020】
SAOC残差コンセプトは、TTNボックス制限のため、単一または2チャンネル混合信号と組み合わせてのみ使用可能である。EAO残差コンセプトは、例えば5.1マルチチャンネル混合信号などのようなマルチチャンネル混合信号と組み合わせて使用することができない。
さらに、その推定の対応する計算上の煩雑さのため、SAOC EAO処理は、EAOの数に制限を設定している(つまり4までという制限)。
【0021】
この制限のため、SAOC EAO残差取り扱いコンセプトは、マルチチャンネル(例えば5.1)ダウンミックス信号には適用できず、また4を超えるEAOには使用できない。
【0022】
したがって、オーディオ信号エンコーディング、オーディオ信号デコーディング、およびオーディオ信号処理についてのコンセプトが改善されることが非常に重視される。
【課題を解決するための手段】
【0023】
本発明の目的は、オーディオ信号エンコーディング、オーディオ信号デコーディング、およびオーディオ信号処理についてのコンセプトの改善を行うことである。また、本発明の目的は、請求項1に記載のデコーダ、請求項11に記載の残差信号生成器、請求項19に記載のエンコーダ、請求項21に記載のシステム、請求項22に記載の符号化信号、請求項23に記載の方法、請求項24に記載の方法および請求項25に記載のコンピュータプログラムによって解決される。
【0024】
デコーダが提供される。このデコーダは、3つ以上のダウンミックス信号をアップミキシングすることにより複数の第1推定オーディオオブジェクト信号を生成するパラメトリックデコード部を備える。上述の3つ以上のダウンミックス信号には、複数のオリジナルオーディオオブジェクト信号が符号化されており、パラメトリックデコード部は、複数のオリジナルオーディオオブジェクト信号を示すパラメトリック副情報に基づき、3つ以上のダウンミックス信号をアップミキシングするよう構成される。さらにこのデコーダは、上述の第1推定オーディオオブジェクト信号の1つ以上を変更修正することにより、複数の第2推定オーディオオブジェクト信号を生成する残差処理部を備える。残差処理部は、1つ以上の残差信号に基づき、第1推定オーディオオブジェクト信号の1つ以上を変更修正するよう構成される。
【0025】
実施形態によると、EAOの感性品質を改善するオブジェクト志向の残差コンセプトが提供される。従来のシステムと異なり、この提供されるコンセプトにおいて、ダウンミックス信号の数やEAOの数は制限されない。オブジェクト関連の残差信号を導き出す2つの方法が提供される。ひとつはカスケードコンセプトであり、計算が複雑になるという代償はあるものの、残差信号のエネルギーが、EAOの数の増加ととともに反復的に削減する。もうひとつのは計算の複雑さが少ないコンセプトであり、全ての残差が同時に推定される。
【0026】
さらに、実施形態によると、デコーダ側においてオブジェクト志向の残差信号を適用する改善されたコンセプトが提供され、デコーダ側においてEAOのみが処理される適用形態、または非EAOの変更修正が利得の拡大縮小に限定されている適用形態のために設計された複雑性を低減したコンセプトが提供される。
【0027】
一実施形態によると、残差処理部は、少なくとも3つの残差信号に基づき、1つ以上の第1推定オーディオオブジェクト信号を変更修正するよう構成される。当該デコーダは、複数の第2推定オーディオオブジェクト信号に基づき、少なくとも3つのオーディオ出力チャンネルを生成するよう構成される。
【0028】
一実施形態によると、デコーダは、さらにダウンミックス変更部を備えることができる。残差処理部は、複数の第2推定オーディオオブジェクト信号のうち、1つ以上のオーディオオブジェクト信号を決定することができる。ダウンミックス変更部は、決定された1つ以上の第2推定オーディオオブジェクト信号を、3つ以上のダウンミックス信号から除去し、3つ以上の変更ダウンミックス信号を得るよう構成される。パラメトリックデコード部は、第1推定オーディオオブジェクト信号における1つ以上のオーディオオブジェクト信号を、3つ以上の変更ダウンミックス信号に基づき決定するよう構成される。
【0029】
特定の実施形態においては、ダウンミックス変更部は、例えば、次式を適用するよう構成される。
【数1】
【0030】
さらに、デコーダは、2つ以上の反復ステップを実行するよう構成されてもよい。各反復ステップにおいて、パラメトリックデコード部は、複数の第1推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成されてる。さらに、各反復ステップにおいて、残差処理部は、当該複数の第1推定オーディオオブジェクト信号における当該1つのオーディオオブジェクト信号を変更修正することによって、複数の第2推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成される。さらに、その反復ステップにおいて、ダウンミックス変更部は、3つ以上のダウンミックス信号から当該複数の第2推定オーディオオブジェクト信号における当該1つのオーディオオブジェクト信号を除去して、3つ以上のダウンミックス信号を変更修正するよう構成される。その反復ステップの次の反復ステップにおいて、パラメトリックデコード部は、変更された3つ以上のダウンミックス信号に基づいて、複数の第1推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号のみを決定するよう構成される。
【0031】
一実施形態においては、1つ以上の残差信号のそれぞれが、複数のオリジナルオーディオオブジェクト信号の1つと複数の第1推定オーディオオブジェクト信号の1つとの間の相違を示すことができる。
【0032】
一実施形態において、残差処理部は、第1推定オーディオオブジェクト信号を5つ以上変更修正することにより、複数の第2推定オーディオオブジェクト信号を生成するよう構成されてもよく、また残差処理部は、5つ以上の残差信号に基づいて、第1推定オーディオオブジェクト信号のうち5つ以上を変更修正するよう構成されてもよい。
【0033】
他の実施形態においては、デコーダは、7つ以上のオーディオ出力チャンネルを、複数の第2オーディオオブジェクト信号に基づいて生成するよう構成されてもよい。
【0034】
さらに他の実施形態によれば、デコーダは、複数の第2推定オーディオオブジェクト信号を決定するためのチャンネル予測係数を決定しないよう構成されてもよい。実施形態によると、従来のSAOCでのデコードについては、チャンネル予測係数の計算が必要であったが、これが必要となくなるコンセプトが提供される。
【0035】
さらに他の実施形態においては、デコーダがSAOCデコーダであってもよい。
【0036】
さらに、残差信号生成器が提供される。この残差信号生成器は、3つ以上のダウンミックス信号をアップミキシングすることにより複数の推定オーディオオブジェクト信号を生成するパラメトリックデコード部を備える。3つ以上のダウンミックス信号には、複数のオリジナルオーディオオブジェクト信号が符号化され、パラメトリックデコード部は、複数のオリジナルオーディオオブジェクト信号上の情報を示すパラメトリック副情報に基づき、3つ以上のダウンミックス信号をアップミキシングするよう構成される。さらに、この残差信号生成器は、複数のオリジナルオーディオオブジェクトに基づいて、かつ複数の推定オーディオオブジェクト信号に基づいて、それぞれが複数のオリジナルオーディオオブジェクト信号の1つと複数の推定オーディオオブジェクト信号の1つとの間の差異を示す複数の残差信号を生成する残差推定部を備える。
【0037】
一実施形態において、残差推定部は、複数のオリジナルオーディオオブジェクト信号のうち少なくとも5つのオリジナルオーディオオブジェクト信号に基づいて、かつ複数の推定オーディオオブジェクト信号のうち少なくとも5つの推定オーディオオブジェクト信号に基づいて、少なくとも5つの残差信号を生成するよう構成されてもよい。
【0038】
一実施形態において、残差信号生成器は、3つ以上のダウンミックス信号を変更修正して、3つ以上の変更ダウンミックス信号を得るよう構成されたダウンミックス変更部をさらに備えることができる。パラメトリックデコード部は、第1推定オーディオオブジェクト信号における1つ以上のオーディオオブジェクト信号を、3つ以上の変更ダウンミックス信号に基づいて決定するよう構成されてもよい。
【0039】
一実施形態において、ダウンミックス変更部は、例えば、3つ以上のオリジナルダウンミックス信号から、複数のオリジナルオーディオオブジェクト信号のうち1つ以上の信号を取り除くことにより、3つ以上のオリジナルダウンミックス信号を変更修正し、3つ以上の変更ダウンミックス信号を得るよう構成されてもよい。
【0040】
他の実施形態においては、ダウンミックス変更部は、例えば、推定オーディオオブジェクト信号の1つ以上に基づいて、かつ残差信号の1つ以上に基づいて、1つ以上の変更オーディオオブジェクト信号を生成することにより、さらに、その1つ以上の変更オーディオオブジェクト信号を、当該3つ以上のオリジナルダウンミックス信号から除去することにより、当該3つ以上のオリジナルダウンミックス信号を変更修正して3つ以上の変更ダウンミックス信号を得るよう構成されてもよい。例えば、1つ以上の変更オーディオオブジェクト信号は各々、ダウンミックス変更部によって、推定オーディオオブジェクト信号の1つを変更修正することにより生成されてもよい。この場合、ダウンミックス変更部は、当該推定オーディオオブジェクト信号を、1つ以上の残差信号に基づき変更修正するよう構成されてもよい。
【0041】
上述の2つの実施形態のいずれにおいても、ダウンミックス変更部は、例えば、
【数2】
を適用して、複数のオリジナルオーディオオブジェクト信号の1つ以上を、3つ以上のダウンミックス信号から除去して、3つ以上の変更ダウンミックス信号を得るよう構成されることができる。ここで、Xは、変更修正対象の3つ以上のダウンミックス信号を示し、Dは、ダウンミキシング情報を示し、S
eaoは、複数の第2推定オーディオオブジェクト信号のうちの当該1つ以上のオーディオオブジェクト信号からなり、Z
*eaoは、複数の第2推定オーディオオブジェクト信号のうちの当該1つ以上のオーディオオブジェクト信号の所在を示し、X
〜は、3つ以上の変更ダウンミックス信号である。例えば、あるオーディオオブジェクト信号の所在(位置)は、全てのオブジェクトリストにおける当該オブジェクトの所在(位置)に相当する。
【0042】
一実施形態によると、残差信号生成器は、2つ以上の反復ステップを実行するよう構成されてもよい。各反復ステップにおいて、パラメトリックデコード部は、複数の推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成されてもよい。さらに、当該反復ステップにおいて、残差推定部は、当該複数の推定オーディオオブジェクト信号における当該1つのオーディオオブジェクト信号を変更修正することによって、複数の残差信号のうちのまさに1つの残差信号のみを決定するよう構成されてもよい。さらに、当該反復ステップにおいて、ダウンミックス変更部は、3つ以上のダウンミックス信号を変更修正するよう構成されてもよい。当該反復ステップの次の反復ステップにおいて、パラメトリックデコード部は、変更された3つ以上のダウンミックス信号に基づいて、複数の推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成されてもよい。
【0043】
一実施形態において、3つ以上のダウンミックス信号を生成し、パラメトリック副情報を生成し、かつ複数の残差信号を生成することにより、複数のオリジナルオーディオオブジェクト信号を符号化するエンコーダが提供される。このエンコーダは、複数のオリジナルオーディオオブジェクト信号のダウンミックスを示す3つ以上のダウンミックス信号を生成するダウンミックス生成器を備える。さらに、このエンコーダは、複数のオリジナルオーディオオブジェクト信号に関する情報を示すパラメトリック副情報を生成して、パラメトリック副情報を得るパラメトリック副情報推定器を備える。さらにこのエンコーダは、上述の実施形態のいずれかによる残差信号生成器を備える。残差信号生成器のパラメトリックデコード部は、ダウンミックス生成器により提供される3つ以上のダウンミックスをアップミキシングすることによって、複数の推定オーディオオブジェクト信号を生成するよう構成され、このダウンミックス信号には、複数のオリジナルオーディオオブジェクト信号が符号化される。パラメトリックデコード部は、3つ以上のダウンミックス信号を、パラメトリック副情報推定器によって生成されたパラメトリック副情報に基づいてアップミキシングするよう構成される。残差信号生成器の残差推定部は、複数のオーディオオブジェクト信号に基づいて、かつ複数の推定オーディオオブジェクト信号に基づいて、複数の残差信号を生成し、複数の残差信号は各々、複数のオリジナルオーディオオブジェクト信号の1つと複数の推定オーディオオブジェクト信号の1つとの間の差異を示すよう構成されている。
【0044】
一実施形態において、エンコーダはSAOCエンコーダである。
【0045】
さらに、システムが提供される。このシステムは、上述の実施形態のいずれかによるエンコーダを備え、このエンコーダは、3つ以上のダウンミックス信号、パラメトリック副情報および複数の残差信号を生成することによって、複数のオリジナルオーディオオブジェクト信号を符号化する。さらに、このシステムは、上述の実施形態のいずれかによるデコーダを備え、このデコーダは、エンコーダによって生成された3つ以上のダウンミックス信号、エンコーダによって生成されたパラメトリック副情報、およびエンコーダによって生成された複数の残差信号に基づき、複数のオーディオ出力チャンネルを生成するよう構成される。
【0046】
さらに、符号化オーディオ信号が提供される。この符号化オーディオ信号には、3つ以上のダウンミックス信号、パラメトリック副情報、および複数の残差信号が含まれる。3つ以上のダウンミックス信号は、複数のオリジナルオーディオオブジェクト信号をダウンミックスしたものである。パラメトリック副情報には、複数のオリジナルオーディオオブジェクト信号上の副情報を示すパラメータが含まれる。複数の残差信号のそれぞれは、複数のオリジナルオーディオ信号のうちの1つと複数の推定オーディオオブジェクト信号のうちの1つとの間の相違を示す相違信号である。
【0047】
さらに、方法が提供される。この方法は、複数のオリジナルオーディオオブジェクト信号が符号化された3つ以上のダウンミックス信号を、複数のオリジナルオーディオオブジェクト信号上の情報を示すパラメトリック副情報に基づいてアップミキシングすることにより、複数の第1推定オーディオオブジェクト信号を生成し、第1推定オーディオオブジェクト信号の1つ以上を、1つ以上の残差信号に基づき変更修正することにより、複数の第2推定オーディオオブジェクト信号を生成することを含む。
【0048】
さらに、別の方法が提供される。この方法は、複数のオリジナルオーディオオブジェクト信号が符号化された3つ以上のダウンミックス信号を、複数のオリジナルオーディオオブジェクト信号上の情報を示すパラメトリック副情報に基づいてアップミキシングすることにより、複数の推定オーディオオブジェクト信号を生成し、複数のオリジナルオーディオオブジェクト信号に基づいて、かつ複数の推定オーディオオブジェクト信号に基づいて、それぞれが複数のオリジナルオーディオオブジェクト信号の1つと複数の推定オーディオオブジェクト信号の1つとの間の差異を示す差異信号である複数の残差信号を生成することを含む。
【0049】
さらに、コンピュータまたは信号プロセッサによって実行されるとき、上述のいずれかの方法を実行するためのコンピュータプログラムが提供される。
【0050】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【発明を実施するための形態】
【0052】
図2Aは、一実施形態による残差信号生成器200を示す。
【0053】
残差信号生成器200は、複数の推定オーディオオブジェクト信号(推定オーディオオブジェクト信号#1〜推定オーディオオブジェクト信号#M)を、3つ以上のダウンミックス信号(ダウンミックス信号#1、ダウンミックス信号#2、ダウンミックス信号#3、〜ダウンミックス信号#N)をアップミキシングすることにより生成するパラメトリックデコード部230を備える。この3つ以上のダウンミックス信号(ダウンミックス信号#1、ダウンミックス信号#2、ダウンミックス信号#3、〜ダウンミックス信号#N)には、複数のオリジナルオーディオオブジェクト信号(オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#M)が符号化されている。パラメトリックデコード部230は、この3つ以上のダウンミックス信号(ダウンミックス信号#1、ダウンミックス信号#2、ダウンミックス信号#3、〜ダウンミックス信号#N)を、複数のオリジナルオーディオオブジェクト信号(オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#M)に関する情報を示すパラメトリック副情報に基づいて、アップミキシングするよう構成されている。
【0054】
さらに、残差信号生成器200は、複数のオリジナルオーディオオブジェクト信号(オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#M)に基づき、かつ複数の推定オーディオオブジェクト信号(推定オーディオオブジェクト#1〜推定オーディオオブジェクト#M)に基づき、複数の残差信号(残差信号#1〜残差信号#M)を生成する残差推定部240を備える。そして、複数の残差信号(残差信号#1〜残差信号#M)はそれぞれ、複数のオリジナルオーディオオブジェクト信号(オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#M)の1つと、複数の推定オーディオオブジェクト信号(推定オーディオオブジェクト#1〜推定オーディオオブジェクト#M)の1つと、の間の相違を示す相違信号となる。
【0055】
上述の実施形態におけるエンコーダは、先行技術のSAOC制限(非特許文献5参照)を克服している。
【0056】
現行のSAOCシステムは、1つ以上の2対1ボックスまたは1つ以上の3対1ボックスを採用して、ダウンミキシングを実施する。とりわけ、これらの潜在的制限のため、現行のSAOCシステムは、オーディオオブジェクト信号を、最大で2つのダウンミックスチャンネル/2つのダウンミックス信号へとダウンミックスすることができる。
【0057】
本発明による残差信号生成器およびエンコーダのコンセプトによると、3つ以上の送信チャンネルを採用している送信システムにおいてオーディオオブジェクトコーディングが好適となるよう、SAOCの制限を克服することができる。
【0058】
一実施形態において、残差推定部240は、複数のオリジナルオーディオオブジェクト信号のうち少なくとも5つのオリジナルオーディオオブジェクト信号に基づき、かつ複数の推定オーディオオブジェクト信号のうち少なくとも5つの推定オーディオオブジェクト信号に基づき、少なくとも5つの残差信号を生成するよう構成される。
図2Bは、一実施形態によるエンコーダを示す。
図2Bのエンコーダは、残差信号生成器200を備える。
【0059】
さらに、このエンコーダは、複数のオリジナルオーディオオブジェクト信号(オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#M、さらなるオリジナルオーディオオブジェクト信号)のダウンミックスを示す、3つ以上のダウンミックス信号(ダウンミックス信号#1、ダウンミックス信号#2、ダウンミックス信号#3、〜ダウンミックス信号#N)を生成するダウンミックス生成器210を備える。
【0060】
オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#Mについて、残差推定部240は、残差信号(残差信号#1〜残差信号#M)を生成する。したがって、オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#Mは、拡張オーディオオブジェクト(EAO)と称される。
【0061】
しかしながら、
図2Bに示されるように、さらなるオリジナルオーディオオブジェクト信号が選択的に存在し、これはダウンミックスされるものの、残差信号は生成されない。したがって、これらのさらなるオーディオオブジェクト信号は、非拡張オーディオオブジェクト(非EAO)と称される。
【0062】
図2Bのエンコーダは、複数のオリジナルオーディオオブジェクト信号(オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#M、さらなるオリジナルオーディオオブジェクト信号)に関する情報を示すパラメトリック副情報を生成するパラメトリック副情報推定器220をさらに備える。これによってパラメトリック副情報を得る。
図2Bの実施形態において、パラメトリック副情報推定器は、非EAOであるオリジナルオーディオオブジェクト信号(さらなるオリジナルオーディオオブジェクト信号)も考慮する。
【0063】
一実施形態において、オリジナルオーディオオブジェクト信号の数は、例えば全てのオリジナルオーディオオブジェクト信号がEAOであるとき、残差信号の数と等しくなってもよい。
【0064】
しかしながら、その他の実施形態においては、残信号の数は、オリジナルオーディオオブジェクト信号の数と異なってもよく、例えばオリジナルオーディオオブジェクト信号が非EAOであるとき、推定オーディオオブジェクト信号の数と異なってもよい。
【0065】
ある実施形態において、エンコーダは、SAOCエンコーダである。
【0066】
図1Aは、一実施形態によるデコーダを示す。
【0067】
デコーダは、3つ以上のダウンミックス信号(ダウンミックス信号#1、ダウンミックス信号#2、ダウンミックス信号#3〜ダウンミックス信号#N)をアップミキシングすることにより、複数の第一オーディオオブジェクト信号(第1オーディオオブジェクト信号#1〜第1オーディオオブジェクト信号#M)を生成するパラメトリックデコード部110を備える。ここで、この3つ以上のダウンミックス信号(ダウンミックス信号#1、ダウンミックス信号#2、ダウンミックス信号#3〜ダウンミックス信号#N)には、複数のオリジナルオーディオオブジェクト信号が符号化されている。パラメトリックデコード部110は、3つ以上のダウンミックス信号(ダウンミックス信号#1、ダウンミックス信号#2、ダウンミックス信号#3〜ダウンミックス信号#N)を、複数のオリジナルオーディオオブジェクト信号に関する情報を表示するパラマトリック副情報に基づき、アップミックスするよう構成されている。
【0068】
さらに、デコーダは、1つ以上の第1推定オーディオオブジェクト信号(第1オーディオオブジェクト信号#1〜第1オーディオオブジェクト信号#M)を変更修正することによって、複数の第2推定オーディオオブジェクト信号(第2オーディオオブジェクト信号#1〜第2オーディオオブジェクト信号#M)を生成する残差処理部120を備える。この残差処理部120は、1つ以上の第1推定オーディオオブジェクト信号(第1オーディオオブジェクト信号#1〜第1オーディオオブジェクト信号#M)を、1つ以上の残差信号(残差信号#1〜残差信号#M)に基づき、変更修正する。
【0069】
上述の実施形態におけるデコーダは、先行技術のSAOC制限(非特許文献5参照)を克服している。
【0070】
さらに、現行のSAOCシステムは、1つ以上の1対2ボックス(OTTボックス)または1つ以上の2対3ボックス(TTTボックス)を採用することにより、アップミキシングを実行する。とりわけ、これらの制限により、3以上のダウンミックス信号/ダウンミックスチャンネルを符号化したオーディオオブジェクト信号は、先行技術のSAOCデコーダではアップミックスできない。
【0071】
本発明によるデコーダのコンセプトによると、3つ以上の送信チャンネルを採用している送信システムにおいてオーディオオブジェクトコーディングが好適となるよう、SAOCの制限を克服することができる。
【0072】
図1Bは、別の実施形態に係るデコーダを示す。このデコーダは、レンダリング情報に基づき、第2推定オーディオオブジェクト信号(第2推定オーディオオブジェクト信号#1〜第2推定オーディオオブジェクト信号#M)から複数のオーディオ出力チャンネル(オーディオ出力チャンネル#1〜オーディオ出力チャンネル#R)を生成するレンダラー130をさらに備える。例えば、レンダリング情報とは、レンダリングマトリックスおよび/またはレンダリングマトリックスの係数であってもよく、レンダリング部130は、レンダリングマトリックスを第2推定オーディオオブジェクト信号(第2推定オーディオオブジェクト信号#1〜第2推定オーディオオブジェクト信号#M)に対して適用し、複数のオーディオ出力チャンネル(オーディオ出力チャンネル#1〜オーディオ出力チャンネル#R)を得る。
【0073】
一実施形態によると、残差処理部120は、少なくとも3つの残差信号に基づき、1つ以上の第1推定オーディオオブジェクト信号を変更修正するよう構成される。デコーダは、複数の第2推定オーディオオブジェクト信号に基づき、少なくとも3つのオーディオ出力チャンネルを生成するよう構成される。
【0074】
また別の実施形態においては、1つ以上の残差信号が、複数のオリジナルオーディオオブジェクト信号の1つと複数の第1推定オーディオオブジェクト信号の1つとの間の相違を示す。
【0075】
一実施形態によれば、残差処理部120は、5つ以上の第1推定オーディオオブジェクト信号を変更修正することによって、複数の第2推定オーディオオブジェクト信号を生成するよう構成される。残差処理部120は、当該5つ以上の第1推定オーディオオブジェクト信号を、5つ以上の残差信号に基づき変更修正するよう構成される。
【0076】
他の実施形態においては、デコーダは、7つ以上のオーディオ出力チャンネルを、複数の第2オーディオオブジェクト信号に基づき生成するよう構成される。
【0077】
さらに他の実施形態によれば、デコーダは、複数の第2推定オーディオオブジェクト信号を決定するためのチャンネル予測係数を決定しないよう構成される。
【0078】
さらに他の実施形態においては、デコーダは、SAOCデコーダである。
【0079】
図3は、一実施形態によるシステムを示す。このシステムは、上記実施形態のいずれかによるエンコーダ310を備え、このエンコーダ310は、パラメトリック副情報および複数の残差信号を生成することによって、複数のオリジナルオーディオオブジェクト信号(オリジナルオーディオオブジェクト信号#1〜オリジナルオーディオオブジェクト信号#M)を符号化する。さらに、このシステムは、上記実施形態のいずれかによるデコーダ320を備え、このデコーダ320は、エンコーダ310の生成した3つ以上のダウンミックス信号、エンコーダ310の生成したパラメトリック副情報、およびエンコーダ310によって生成された複数の残差信号に基づき、複数の第2推定オーディオオブジェクト信号を生成するよう構成される。
【0080】
図4は、一実施形態による符号化オーディオ信号を示す。符号化オーディオ信号には、3つ以上のダウンミックス信号410、パラメトリック副情報420、および複数の残差信号430が含まれる。当該3つ以上のダウンミックス信号410は、複数のオリジナルオーディオオブジェクト信号をダウンミックスしたものである。当該パラメトリック副情報420には、複数のオリジナルオーディオオブジェクト信号に関する副情報を示すパラメータが含まれる。当該複数の残差信号430は各々、複数のオリジナルオーディオ信号のうちの1つと複数の推定オーディオオブジェクト信号のうちの1つとの間の相違を示す相違信号である。
【0081】
以下において、一実施形態によるコンセプト概略を説明する。
【0082】
図8は、一実施形態により提供された、パラメトリックおよび残差に基づくオーディオオブジェクトコーディングの仕組みを、概念的に示した概略図である。ここでは、コーディングの仕組みによって、進化したダウンミックス信号および進化したEAO支援が示されている。
【0083】
エンコーダ側で、パラメトリック副情報推定器(「PSI生成部」)220は、ソースおよびダウンミックス関連特性を利用しているデコーダでのオブジェクト信号を推定するために、PSIを算出する。RSI生成部245は、拡張すべき各オブジェクト信号に対して、推定オブジェクト信号とオリジナルオブジェクト信号との間の相違を分析することにより、残差信号を算出する。RSI生成部245は、例えば、パラメトリックデコード部230と、残差推定部240とを備えてもよい。
【0084】
デコーダ側では、パラメトリックデコード部(「PSIデコード」部)が、ダウンミックス信号および所定のPSIから、オブジェクト信号を推定する。第2ステップにおいては、残差処理部(「RSIデコード」部)120が、拡張対象となる推定オブジェクト信号の品質を、RSIを用いて改善する。全てのオブジェクト信号(拡張オーディオオブジェクトおよび非拡張オーディオオブジェクト)は、例えば、レンダリング部130へ渡され、目的の出力シーンを生成してもよい。
【0085】
なお、全てのダウンミックス信号を考慮する必要はない。オブジェクト信号の推定または/および推定と拡張に対するダウンミックス信号の貢献度が無視できる程度なのであれば、ダウンミックス信号を計算の対象から外してもよい。
【0086】
理解を容易にするため、
図8およびその後の図面における処理ステップは、別個の処理部として図示されている。実際には、これらは、効果的に結合され、計算上の手間を省いている。
【0087】
以下において、一体残差エンコーディング/デコーディング(joint residual encoding/decoding)のコンセプトを説明する。
【0088】
図9は、一実施形態による、各EAO信号のための残差信号を、エンコーダ側で一体的に推定するコンセプトを示す。
【0089】
パラメトリックデコード部(「PSIデコード」部)230は、推定されたPSIとダウンミックス信号とが入力として与えられ、オーディオオブジェクト信号の推定値(推定オーディオオブジェクト信号s
est,PSI,{1〜M})を生成する。推定オーディオオブジェクト信号s
est,PSI{1〜M}は、残差推定部(「RSI推定」部)240において、オリジナルの変更されていないソース信号S
1〜S
Mと比較される。残差推定部240は、各オーディオオブジェクトを拡張するための残差/エラー信号項s
res,RSI,{1〜M}を提供する。
【0090】
図10は、デコーダにおける一体残差計算と組み合わせて用いられる「RSIデコード」部を表す。特に、
図10は、一実施形態による、デコーダ側での一体残差デコーディングのコンセプトを示す。
【0091】
パラメトリックデコード部(「PSIデコード」部)110からの(第1)推定オーディオオブジェクト信号s
est,PSI,{1〜M}は、残差情報(「残差副情報」)とともに、残差処理部(「RSIデコード」)120に入力される。残差処理部210は、残差(サイド)情報および推定オーディオオブジェクト信号s
est,PSI,{1〜M}から、第2推定オーディオオブジェクト信号s
est,RSI,{1〜M}、例えば拡張および非拡張オーディオオブジェクト信号を算出し、この第2推定オーディオオブジェクト信号s
est,RSI,{1〜M}、例えば拡張および非拡張オーディオオブジェクト信号を、残差処理部120の出力として出力する。
【0092】
さらに、非EAOの再推定を実行することができる(
図10には図示しない)。EAOは、混合信号から除外され、残りの非EAOが、この混合信号から再度推定される。これによって、全てのオブジェクト信号を含む混合信号からの推定と比較したオブジェクトについて、その推定を改善することができる。その目的が、混合信号における拡張オブジェクト信号のみを処理することにある場合には、この再推定は省略してもよい。
【0093】
図11は、一実施形態による残差信号生成器を示す。
【0094】
図11において、残差信号生成器200は、3つ以上のダウンミックス信号を変更修正して、3つ以上の変更ダウンミックス信号を得るよう構成されたダウンミックス変更部250をさらに備える。
【0095】
パラメトリックデコード部230は、第1推定オーディオオブジェクト信号における1つ以上のオーディオオブジェクト信号を、3つ以上の変更ダウンミックス信号に基づき決定するよう構成される。
【0096】
そして、残差推定部240は、第1推定オーディオオブジェクト信号における当該1つ以上のオーディオオブジェクト信号に基づき、例えば、1つ以上の残差信号を決定してもよい。
【0097】
一実施形態において、ダウンミックス変更部250は、例えば、3つ以上のオリジナルダウンミックス信号から、複数のオリジナルオーディオオブジェクト信号のうち1つ以上の信号を取り除くことにより、3つ以上のオリジナルダウンミックス信号を変更修正し、3つ以上の変更ダウンミックス信号を得るよう構成されてもよい。
【0098】
他の実施形態においては、ダウンミックス変更部250は、例えば、1つ以上の推定オーディオオブジェクト信号、および1つ以上の残差信号に基づき1つ以上の変更オーディオオブジェクト信号を生成し、かつ3つ以上のオリジナルダウンミックス信号から、1つ以上の変更オーディオオブジェクト信号を取り除くことにより、3つ以上のオリジナルダウンミックス信号を変更修正し、3つ以上の変更ダウンミックス信号を得るよう構成されてもよい。例えば、1つ以上の変更オーディオオブジェクト信号は各々、推定オーディオオブジェクト信号の1つを変更修正することにより、ダウンミックス変更部によって生成されてもよい。この場合、ダウンミックス変更部は、当該推定オーディオオブジェクト信号を、1つ以上の残差信号に基づき変更修正するよう構成されてもよい。
【0099】
上述の実施形態の両方において、ダウンミックス変更部は、例えば、次式を適用するように構成される。
【数3】
ここで、
Xは、変更修正の対象となる3つ以上のダウンミックス信号を示し、Dは、関連するダウンミキシング情報を示し、S
eaoには、除去されるべきオリジナルオーディオオブジェクト信号または除去されるべき変更オーディオオブジェクト信号が含まれ、Z
*eaoは、除去されるべき信号の所在を示し、X
〜は、変更対象となるダウンミックスである。
【0100】
例えば、あるオーディオオブジェクト信号の所在(位置)は、全てのオブジェクトリストにおける当該オブジェクトの所在(位置)に相当する。
【0101】
図12は、一実施形態によるデコーダを示す。
【0102】
図12の実施形態において、デコーダは、ダウンミックス変更部140をさらに備える。
【0103】
残差処理部120は、複数の第2推定オーディオオブジェクト信号のうち、1つ以上のオーディオオブジェクト信号を決定する。
【0104】
ダウンミックス変更部140は、決定された1つ以上の第2推定オーディオオブジェクト信号を、3つ以上のダウンミックス信号から除去し、3つ以上の変更ダウンミックス信号を得るよう構成されている。
【0105】
パラメトリックデコード部110は、当該3つ以上の変更ダウンミックス信号に基づき、第1推定オーディオオブジェク信号のうち、1つ以上のオブジェクト信号を決定するよう構成される。
【0106】
残差処理部120は、例えば、第1推定オーディオオブジェクト信号における当該決定された1つ以上のオーディオオブジェクト信号に基づいて、1つ以上の更なる第2推定オーディオオブジェクト信号を決定してもよい。
【0107】
特定の実施形態においては、ダウンミックス変更部130は、複数の第2推定オーディオオブジェクト信号のうち残差処理部120によって決定された1つ以上のオーディオオブジェクト信号を3つ以上のダウンミックス信号から除去して、3つ以上の変更ダウンミックス信号を得るために、例えば、下記の式を適用するよう構成されてもよい。
【数4】
ここで、Xは、変更修正前の3つ以上のダウンミックス信号を示し、X
〜nonEAOは、3つ以上の変更ダウンミックス信号を示し、Dは、ダウンミックスマトリックスを示し、Z
eaoは、EAOの位置(所在)を示すマッピングサブマトリックスを示す(この実施形態の特定の変数に関する詳細は下記を参照)。
【0108】
以下において、カスケード残差エンコーディング/デコーディングコンセプトを説明する。
【0109】
図13は、一実施形態による、残差要素をカスケード形式によりエンコーダ側で算出するコンセプトを示す。一体残差算出コンセプトと比較して、カスケード方式のアプローチは、各反復ステップにおいて、計算が複雑になるという代償はあるものの、残差エネルギーのエネルギーを削減する。各ステップにおいては、拡張オーディオオブジェクトにおけるオリジナルオーディオオブジェクト信号(S
M)の1つ(または別の実施形態においては、推定オーディオオブジェクト信号、破線矢印2461、2462を参照。)が、混合信号(ダウンミックス)が次の処理器2452へと渡される前に、混合信号(ダウンミックス)から除去される。これによって、混合信号(ダウンミックス)におけるオブジェクト信号の数が、各処理ステップを経る度に減少する。次のステップにおける拡張オーディオオブジェクト信号の推定(第2推定オーディオオブジェクト信号)がこれによって改善され、よって残差信号のエネルギーを連続的に削減することができる。
(なお、推定オーディオオブジェクト信号が各反復ステップにおいて混合信号から除去される別の実施形態においては、ダウンミックス変更サブ部2501、2502は、オリジナルオーディオオブジェクト信号S
Mを受け取る必要はない。反対に、オリジナルオーディオオブジェクト信号が各反復ステップにおいて混合信号から除去される実施形態においては、ダウンミックス変更サブ部2501、2502は、推定オーディオオブジェクト信号を受け取る必要はない。)
【0110】
より詳細には、
図13は、複数のRSI生成サブ部2451、2452を示す。この複数のRSI生成サブ部2451、2452がともに、RSI生成部を構成する。
【0111】
複数のRSI生成サブ部2451、2452は各々、パラメトリックデコードサブ部2301を備える。複数のパラメトリックデコードサブ部2301がともに、パラメトリックデコード部を構成する。パラメトリックデコードサブ部2301は、第1推定オーディオオブジェクト信号Sest,PSI,{1〜M}を生成する。
【0112】
複数のRSI生成サブ部2451、2452は各々、残差推定サブ部2401を備える。複数の残差推定サブ部2401がともに、残差推定部を構成する。残差推定サブ部2401は、第2推定オーディオオブジェクト信号s
est,RSI,Mおよびs
est,RSI,M−1を生成する。
【0113】
また、
図13は、複数のダウンミックス変更サブ部2501、2502を示す。ダウンミックス変更サブ部2501、2502がともに、ダウンミックス変更部を構成する。
【0114】
図14は、一実施形態において、デコーダ側のカスケード式残差算出との組み合わせにおいて採用されるカスケード式「RSIデコード」部を表す。
【0115】
各ステップにおいて、拡張対象となるオブジェクト信号の1つが、パラメトリックデコードサブ部(「PSIデコード)1101によって、(第1推定オーディオオブジェクト信号s
est,PSI,Mを得るために)推定され、そして第1推定オーディオオブジェクト信号s
est,PSI,Mの1つが、残差処理サブ部(「RSI処理」)1201によって、対応する残差信号s
res,RSI,Mとともに処理される。そして、オブジェクト信号の拡張バージョン(第2推定オーディオオブジェクト信号の1つ)s
est,RSI,Mが出力される。拡張オブジェクト信号s
est,RSI,Mは、変更ダウンミックス信号が次の残差デコードサブ部(「残差デコード」)に入力される前に、ダウンミックス変更サブ部(「ダウンミックス変更」)1401によって、ダウンミックス信号から消去される。
【0116】
一体残差エンコーディング/デコーディングコンセプトと同様、非EAOについても再推定が追加的になされてもよい。
【0117】
その詳細として、
図14は、複数の残差デコードサブ部1251、1252を示す。複数の残差デコードサブ部1251、1252がともに、残差デコード部を構成する。
【0118】
複数の残差デコードサブ部1251、1252は各々、パラメトリックデコードサブ部1101を備える。複数のパラメトリックデコードサブ部1101がともに、パラメトリックデコード部を構成する。パラメトリックデコードサブ部1101は、第1推定オーディオオブジェクト信号s
est,PSI,{1〜M}を生成する。
【0119】
複数の残差デコードサブ部1251、1252は各々、残差処理サブ部1201を備える。複数の残差処理サブ部1201がともに、残差処理部を構成する残差処理サブ部1201は、第2推定オーディオオブジェクト信号s
est,RSI,M、s
est,RSI,M−1を生成する。
【0120】
また、
図14は、複数のダウンミックス変更サブ部1401、1402を示す。複数のダウンミックス変更サブ部1401、1402がともに、ダウンミックス変更部を構成する。
【0121】
図15は、カスケードコンセプトを利用した、一実施形態による残差信号生成器を示す。
【0122】
図15において、残差信号生成器は、ダウンミックス変更部250を備える。
【0123】
残差信号生成器200は、2つ以上の反復ステップを実行するよう構成される。
【0124】
各反復ステップにおいて、パラメトリックデコード部230は、複数の推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成される。
【0125】
さらに、当該反復ステップにおいて、残差推定部240は、当該複数の推定オーディオオブジェクト信号における当該1つのオーディオオブジェクト信号を変更修正することによって、複数の残差信号のうちのまさに1つの残差信号を決定するよう構成される。
【0126】
さらに、当該反復ステップにおいて、ダウンミックス変更部250は、3つ以上のダウンミックス信号を変更修正するよう構成される。
【0127】
当該反復ステップの次の反復ステップにおいて、パラメトリックデコード部230は、変更された3つ以上のダウンミックス信号に基づいて、複数の推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成される。
【0128】
図16は、カスケードコンセプトを採用した、一実施形態によるデコーダを示す。
図16において、デコーダは、ダウンミックス変更部140を再度備えている。
【0129】
図16のデコーダは、2つ以上の反復ステップを実行するよう構成される。
【0130】
各反復ステップにおいて、パラメトリックデコード部110は、複数の第1推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成される。
【0131】
さらに、各反復ステップにおいて、残差処理部120は、当該複数の第1推定オーディオオブジェクト信号における当該1つのオーディオオブジェクト信号を変更修正することによって、複数の第2推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成される。
【0132】
さらに、当該反復ステップにおいて、ダウンミックス変更部140は、3つ以上のダウンミックス信号から当該複数の第2推定オーディオオブジェクト信号における当該1つのオーディオオブジェクト信号を除去して、3つ以上のダウンミックス信号を変更修正するよう構成される。
【0133】
当該反復ステップの次の反復ステップにおいて、パラメトリックデコード部110は、変更された3つ以上のダウンミックス信号に基づいて、複数の第1推定オーディオオブジェクト信号のうちのまさに1つのオーディオオブジェクト信号を決定するよう構成される。
【0134】
以下に、一体残差エンコーディング/デコーディング概念の一例における数学的導出について説明する。
【0135】
以下において、以下の表記が用いられる。
サイズ:
N
Object:オーディオオブジェクト信号の数
N
DmxCh:ダウンミックス信号の数
N
UpmixCh:アップミックスチャンネルの数
N
Samples:処理データの数
N
EAO:EAOの数
項目:
Z
*:ター演算子(*)は、あるマトリックスの共役転置を意味する。
S:エンコーダに入力されたオリジナルオーディオオブジェクト信号(サイズ:N
Object×N
Samples)
D:ダウンミックスマトリックス(サイズ:N
DmxCh×N
Object)
R:レンダリングマトリックス(サイズ:N
UpmixCh×N
Object)
X:ダウンミックスオーディオ信号X=DS(サイズ:N
DmxCh×N
Samples)
Y:理想的オーディオ出力信号Y=RS(サイズ:N
UpmixCh×N
Samples)
S
est:S
est=GX と定義されるS
est Sに近似するパラメトリックに再構築されたオブジェクト信号(サイズN
Object×N
Samples)
S
^est:(パラメトリックに推定された)全ての非EAOとEAO(パラメトリック+残差)信号推定とを含むデコーダ出力、サイズ:N
Object×N
Samples
Y
^est:Y
^est=RS
^estと定義されるY
^est Yに近似するアップミックスオーディオ出力信号 (サイズ:N
UpmixCh×N
Samples)
Z
nonEao;Z
eao:全てのオブジェクトリストにおける非EAOおよびEAOの所在を示すマッピングサブマトリックス。なお、Z
nonEao×Z
eao=[0]である。(サイズ:(N
Object−N
EAO)×N
Object;N
EAO×N
Object)
非EAOのZ
nonEaoおよび対応するZ
eaoマッピングマトリックスは次のように定義される。
【数5】
例えば、N
Object=5でオブジェクト数2および4がEAOの場合、これらのマトリックスは次の通りである。
【数6】
D
nonEao:非EAOに対応するダウンミックスサブマトリックであって、D
nonEao=DZ
nonEaoと定義される(サイズ:N
DmxCh×(N
Object−N
EOA))
D
eao:EAOに対応するダウンミックスサブマトリックであって、D
eao=DZ
*eaoと定義される(サイズ:N
DmxCh×N
EOA)
G:パラメトリックソース推定マトリックス(サイズ:N
Object×N
EOA)
E:オブジェクト共分散マトリックス(サイズ:N
Object×N
Object)
E
nonEao:非EAOに対応する共分散サブマトリックであって、E
nonEao=Z
nonEaoEZ
*nonEaoと定義される(サイズ:(N
Object−N
EOA)×(N
Object−N
EOA))
S
eao:EAOの再構築を含むEAO信号(サイズ:N
EOA×E
Samples)
S
nonEao:非EAOの再構築を含む非EAO信号(サイズ:(N
Object−N
EOA)×N
Samples)
S
res:EAOの残差信号(サイズ:N
EOA×E
Samples)
X
〜nonEAO:非EAO信号のみを含む変更ダウンミックス信号であって、SAOCダウンミックスと再構築EAOのダウンミックスとの差異として算出される(サイズ:N
DmxCh×N
Samples)
【0136】
紹介されるマトリックスは全て、(一般に)時間と周波数の変数である。
【0137】
ここで、デコーダ側における非EAO信号の再推定の一般的方法を考慮する。
【0138】
一般的な方法は、2段階プローチとして説明することができる。まず、対応するダウンミックス信号から全てのEAO信号を抽出し、そして全ての非EAO信号をEAOを考慮して再構築する。オブジェクト信号は、PSI(E,D)および取り込まれた残差信号(S
res)を使って、ダウンミックス信号(X)から復元される。
【0139】
最終的にレンダリングされた出力信号Y
^estは、次のように与えられると考えられる。
【数7】
【0140】
デコーダ出力オブジェクト信号S
^estは、次の合計として表すことができる。
【数8】
【0141】
EAO信号S
eaoは、ダウンミックスXから、パラメトリックEAO再構築マトリックスG
eaoおよび対応するEAO残差S
resを用いて、次のように算出される。
【数9】
【0142】
非EAO信号S
nonEaoは、変更ダウンミックスX
〜nonEaoから、パラメトリック非EAO再構築マトリックスG
〜nonEaoを用いて、次のように算出される。
【数10】
【0143】
変更ダウンミックス信号X
〜nonEaoは、ダウンミックスXと再構築されたEAOの対応するダウンミックスとの差として定義され、これにより、EAOがダウンミックス信号Xからキャンセルされる。
【数11】
【0144】
ここで、EAOおよび非EAO用のパラメトリックオブジェクト再構築マトリックスG
eao,G
〜nonEaoは、PSI(E,D)を使って、次のように決定される。
【数12】
【0145】
以下において、デコーダ側において非EAO信号の再推定をしないシンプルな手法「A」を説明する。
【0146】
混合信号内のEAOのみを取り扱う場合には、目標シーンは、ダウンミックス信号とEAO信号の線形結合と解釈できる。したがって、非EAO信号の追加的再推定を省略できる。非EAO信号再推定を伴う一般的方法は、単一ステップ手順へと簡略化できる。
【数13】
【0147】
信号
【数14】
は、送信されたEAOの残差信号と、残差補償項とを含み、次の定義を有する。
【数15】
【0148】
この条件は、EAOのみの取り扱いに限定されている音響シーンをレンダリングするのに十分である。
【0149】
【数16】
と
【数17】
とにより、項X
difに対して、次の制約が満たされなければならない。
【数18】
【0150】
項X
difは、エンコーダによって決定され(そして送信または蓄積され)た成分S
resと、この等式を用いて定義される成分X
nonEaoとから構成される。
【0151】
ダウンマトリックスの定義
【数19】
と補償項の定義
【数20】
を用いて、次の式を導き出すことができる。
【数21】
【0152】
この式は、
【数22】
と
【数23】
とを用いて、次のように簡略化される。
【数24】
【0153】
この線形方程式をX
nonEaoについて解くと、次の通りとなる。
【数25】
【0154】
この線形方程式の系を解いた後、目標シーンが、次の通り、パラメトリック予測項と残差拡張項との合計として計算される。
【数26】
できる。
【0155】
以下において、デコーダ側において非EAO信号の再推定をしないシンプルな手法「B」を説明する。
【0156】
補償項X
difが、パラメトリック信号予測S
estに対して、
【数27】
であり、残差信号S
resの関数
【数28】
であることから、次の式が導かれる。
【数29】
【0157】
代替的な数式化は、ダウンミックス信号H
dmxX、拡張オブジェクトH
enhZ
*eaoZ
eaoS
enh、および非拡張オブジェクトH
estS
estの3つの部分で構成され、これらの適切な線形結合を含み、次のようになる。
【数30】
【0158】
マトリックスのサイズは、H
dmxがN
objects×N
DmxChであり、H
enhがN
objects×N
objectsであり、S
dmxがN
objects×N
Samplesであり、H
estがN
objects×N
objectsである。
【0159】
この式は、
【数31】
と仮定し、
【数32】
の定義から、以下のように書き換えられる。
【数33】
【0160】
これと再構築信号の上述の定義(数29)とを比較すると、次の通りとなり、
【数34】
項H
estが、次の通り導き出される。
【数35】
【0161】
非拡張信号の寄与が最小限となるとき、最終的再構築におけるエラーが最小限となる。したがって、H
est 0を目標とすると、線形方程式の系から項H
estを解くことができる。
【数36】
ここで、拡張ダウンミックスマトリックスD
extおよびアップミックスマトリックスH
extは、次の連結マトリックスとして定義される。
【数37】
【数38】
したがって、
【数39】
【0162】
この線形方程式の系を解いた後に、所望の修正項X
difが、以下の通り得られ、
【数40】
最終の出力
【数41】
が得られる。
【0163】
以下において、シンプルな手法「C」を説明する。
【0164】
混合信号においてEAOのみを任意に取り扱う場合には、目標シーンは、ダウンミックス信号とEAOとの線形結合として生成することができる。なお、ダウンミックスの代わりに、EAOを削除したダウンミックスを用いてもよい。残差処理が完全にEAOを復元する場合には、目標シーンが完全に生成される。目標シーンは、ダウンミックスおよびEAO再構築について、2つの要素レンダリングマトリックスR
DおよびR
eaoを使ってレンダリングすることができる。マトリックスのサイズは、R
D:N
UpmixCh×N
DmxChおよびR
eao:N
UpmixCh×N
EAOである。目標レンダリングマトリックスRは、レンダリングマトリックスとダウンミックスマトリックスとを結合した結果として、次の通り表される。
【数42】
【0165】
これから、R
extについて、次の通り解くことができ、
【数43】
この解から、サブマトリックスR
DおよびR
eaoが、
【数44】
【数45】
を用いて抽出される。
【0166】
ここで、目標シーンは、
【数46】
により計算される。ここで、S
eaoは、EAOの完全な再構築を含み、上述の通り、
【数47】
と定義される。
【0167】
ダウンミックスからD
eaoS
eaoを差し引くことによってEAOをミックスから削除したダウンミックスを用いて対象をレンダリングする場合にも、同様の方程式を組むことができる。
【0168】
以下において、一体残差エンコーディング/デコーディング概念における他の数学的導出およびさらなる詳細について説明し、一般的方法と簡略方法「A」との統合について説明する。
【0169】
以下の説明においては、以下の表記を用いる。一部の要素について、以下の表記が上述の表記と一貫しない場合には、以下の説明については、以下の表記のみが当該要素について適用される。
定義:
Sは、サイズN
Objects×N
Samolesのオブジェクト信号であり、
E=SS
*は、サイズN
Objects×N
Objectsのオブジェクト共分散マトリックスであり、
Dは、サイズN
DmxCh×N
Objectsのダウンミキシングマトリックスであり、
X=DSは、サイズN
DmxCh×N
Samolesのダウンミックス信号であり、
G=ED
*Jは、サイズN
Objects×N
DmxChのアップミキシングマトリックスであり、
M
renは、サイズN
UpmixCh×N
Objectsのレンダリングマトリックスであり、
X
resは、サイズN
EAO×N
Samolesの残差信号であり、
R
eaoは、サイズN
EAO×N
Objectsのマトリックスであって、
【数48】
として定義される非EAOの位置(所在)を示し、
R
nonEaoは、サイズ(N
Objects−N
EAO)×N
Objectsのマトリックスであって、
【数49】
として定義される非EAOの位置(所在)を示す。
【0170】
非EAOに相当する上記のいくつかのサブマトリクスは、次の通り、選択マトリクスR
nonEaoを用いて特定できる。
【数50】
【0171】
以下において、デコーダ側において非EAO信号の再推定を行う一般的方法の別の詳細なる数学的説明を記載する。
【0172】
オブジェクト信号は、副情報と取り込まれた残差信号を使って、ダウンミックスから復活される。デコーダからの出力X
^は、次の通り生成される。
【数51】
【0173】
EAOからなるサイズN
EAOのEAO項は、次の通り計算される。
【数52】
ここで、サイズN
EAOの残差信号X
res項は、EAOに対する残差信号を含む。
【0174】
非EAOを有するサイズN
Objects−N
EAOの非EAO項は、次の通り計算される。
【数53】
ここで、非EAO信号のみからなる変更ダウンミックス信号X~
nonEaoは、SAOCダウンミックスと再構築EAOのダウンミックスの差として計算される。
【数54】
【0175】
非EAOに対応するサイズ(N
Objects−N
EAO)×(N
Objects−N
EAO)の共分散サブマトリックスが、次の通り計算される。
【数55】
【0176】
非EAOに対応するサイズN
DmxCh×(N
Objects−N
EAO)のダウンミックスサブマトリックスD
nonEaoが、次の通り計算される。
【数56】
【0177】
以下では、簡略方法「A」(デコーダ側において非EAO信号の再推定を行わない)の別の詳細な数学的説明を提供する。
【0178】
オブジェクト信号は、副情報と取り込まれた残差信号を使って、ダウンミックスから復活される。デコーダからの最終出力X
^は、次の通り示される。
【数57】
【0179】
サイズN
ObjectのX
dif項は、次のように、EAOに対するサイズN
EAOの残差信号X
resと、非EAOに対する予測項X
nonEaoとを包含する。
【数58】
【0180】
予測項X
nonEaoは、次の通り推定される。
【数59】
【0181】
EAOに対応するダウンミックスサブマトリックスD
eaoおよび通常のオブジェクトに対応するダウンミックスサブマトリックスD
nonEaoは、次の通り定義される。
【数60】
【0182】
以下では、レンダリングマトリックス1の特殊の場合を検討する。
【0183】
EAOの任意の変形と非EAOの均一のスケーリング(ダウンミックスと比較して)とを伴うサイズN
DmxCh×N
Objectsのダウンミックス様レンダリングマトリックスM
Dの、次の特別な場合を検討する。
【数61】
【0184】
ここで、一般的方法の詳細な数学的説明は、以下の通りとなる。
【数62】
次に、簡略化した方法「A」の詳細な数学的説明は、以下の通りとなる。
【数63】
レンダリングマトリックスの想定が適用されるとき、上記2つの結果が同じになることが分かる。
【0185】
次に、レンダリングマトリックス2の特別なケースを検討する。
【0186】
サイズN
DmxCh×N
ObjectsのレンダリングマトリックスM
Sの構造に追加的な制限を加え、全ての非EAOが、ダウンミックスに比べて共通のスケーリングファクタaによってのみ変更され、全てのEAOがダウンミックスに比べて共通のスケーリングファクタbによってのみ変更されるものとする。
【数64】
前の結果から引き続いて、システムの出力は、次のようになる。
【数65】
【0187】
一部の側面について装置の文脈において説明したが、これらの側面は、対応する方法の記載も示していることは明らかであり、ブロックや装置は、方法的ステップまたは方法的ステップの特徴に対応する。同様に、方法の観点から説明された側面もまた、対応するブロックもしくは物品または対応する装置の特徴の説明としても機能するものである。
【0188】
本発明に係る分解信号は、デジタル記憶媒体に格納することができ、または無線通信媒体やインターネットなどの有線通信媒体のような通信媒体上を転送することもできる。
【0189】
所定の実施要件によっては、本発明に係る実施形態は、ハードウェアとして実施してもよいしソフトウェアとして実施してもよい。実施は、例えばフレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROM(登録商標)、またはフラッシュメモリなどのような、電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体を用いてすることができ、当該方法が実行されるようこれらのデジタル記憶媒体がプログラム可能なコンピュータシステムと協働する(または協働することできる)。
【0190】
本発明による一部の実施形態では、電子的に読み取り可能な制御信号を有する固定データ担体を備え、その担体は、開示される方法のいずれかが実施されるよう、プログラム可能なコンピュータシステムと協働することができる。
【0191】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することが可能であり、当該コンピュータプログラム製品がコンピュータにおいて実行されたとき、当該プログラムコードがいずれかの方法を実行するよう動作する。このプログラムは、例えば機械で読み取り可能な担体に記憶されてもよい。
【0192】
その他の実施形態においては、開示されるいずれかの方法を実行する機械で読み取り可能な担体に記憶されたコンピュータプログラムを備える。
【0193】
すなわち、本発明に係る方法は、その一実施形態においては、コンピュータプログラムがコンピュータで実行されたとき、開示されるいずれかの方法を実行するプログラムコードを有するコンピュータプログラムとして構成される。
【0194】
したがって、本発明に係る方法のさらなる実施形態は、開示される方法のいずれかを実施するコンピュータプログラムが記録されたデータ担体(またはデジタル記憶媒体またはコンピュータに読み取り可能な媒体)として構成される。
【0195】
したがって、本発明に係る方法のさらなる実施形態は、開示される方法のいずれかを実施するコンピュータプログラムを示すデータストリームまたは信号シーケンスとして構成される。 このデータストリームまたは信号シーケンスは、例えば、データコミュニケーション接続(例えばインターネットなど)を介して伝送されるよう構成されてもよい。
【0196】
さらなる実施形態においては、開示されるいずれかの方法を実行するよう構成された処理手段、例えばコンピュータ、プログラム可能な論理機構を備える。
【0197】
さらなるの実施形態においては、開示されるいずれかの方法を実行するコンピュータプログラムをインストールしたコンピュータを備える。
【0198】
いくつかの実施形態においては、開示される方法の機能の一部または全部を実行するために、プログラム可能な論理機構(例えば、フィールドプログラマブルゲートアレイ)を用いてもよい。いくつかの実施形態においては、開示される方法のいずれかを実行するために、フィールドプログラマブルゲートアレイとマイクロプロセッサとを協働させてもよい。一般的に、方法は、ハードウェア装置によって実行されることが好ましい。
【0199】
上述の実施形態は、本発明の原理を単に例示するものに過ぎない。開示される構成や詳細に対して変更または調整が可能であることは、当該分野に知識を有する者にとっては明らかである。従って、現時点における特許クレームの範囲によってのみ限定されるものであり、開示の方法や実施形態の説明によって提供された具体的詳細によっては何ら限定されるものではない。