(58)【調査した分野】(Int.Cl.,DB名)
前記制御デバイス(46)は、前記プロセッサ入力信号(38、38')の入力チャネル(38.1、38.1')が、処理されていない形式で前記プロセッサ出力信号(37、37')の出力チャネル(37.1、37.2、37.1'、37.2')に供給されるように、少なくとも1つ又は複数のプロセッサ(36、36')を機能停止するように構成されている請求項1に記載の復号器デバイス。
前記プロセッサ(36、36')は1入力2出力の復号ツールであり、前記脱相関装置(39、39')は、前記プロセッサ入力信号(38、38')の少なくとも1つの前記チャネル(38.1、38.1')を脱相関することによって脱相関信号(48)を作成するように構成されており、前記混合器(40、40')は、前記プロセッサ出力信号(37、37')が2つの非コヒーレント出力チャネル(37.1、37.2、37.1'、37.2')から構成されるように、チャネルレベル差信号(49)及び/又はチャネル間コヒーレンス信号(50)に基づいて前記プロセッサ入力信号(38)及び前記脱相関信号(46)を混合する請求項1又は2に記載の復号器デバイス。
前記制御デバイスは、前記脱相関信号(48)をゼロに設定することによって、又は、前記混合器(40、40')が前記脱相関信号(46)を混合して前記それぞれのプロセッサ(36、36')の前記プロセッサ出力信号(37)にするのを阻止することによって、1つの前記プロセッサ(36、36')の前記脱相関装置(36、36')をオフにするように構成されている請求項3に記載の復号器デバイス。
前記コア復号器(6)は、USAC復号器(6)のような、音楽及び発話の両方のための復号器であり、少なくとも1つの前記プロセッサ(36、36')の前記プロセッサ入力信号(38)が、USACチャネル対要素のようなチャネル対要素を含む請求項1から4のいずれか一項に記載の復号器デバイス。
前記制御デバイス(46)は、前記プロセッサ出力信号(37')の前記出力チャネルのうちの少なくとも1つの第1の出力チャネル(37.1')、及び、前記プロセッサ出力信号(37')の前記出力チャネルのうちの1つの第2の出力チャネル(37.2')が、前記出力チャネルのうちの第1の出力チャネル(37.1')を混合して前記出力オーディオ信号(31)の共通のチャネル(31.2)にするための第1のスケーリング係数が第1の閾値を超えること、かつ/又は、前記出力チャネルのうちの第2の出力チャネル(37.2')を混合して共通のチャネル(31.2)にするための第2のスケーリング係数が第2の閾値を超えることを前提として、前記目標スピーカ配置に応じて、前記共通のチャネル(31.2)に混合される場合、前記出力チャネル(37')のうちの第1の出力チャネル(37.1')及び前記出力チャネル(37')のうちの第2の出力チャネル(37.2')に対して前記脱相関装置(36')をオフにするように構成されている請求項1から7のいずれか一項に記載の復号器デバイス。
前記制御デバイス(46)は、前記フォーマット変換器デバイス(9、10)から規則セット(47)を受信するように構成されており、該規則セットに従って、前記フォーマット変換器デバイス(9、10)は、前記目標スピーカ配置(45)に応じて前記コア復号器出力信号(13)の前記チャネル(13.1、13.2、13.3、13.4)を前記出力オーディオ信号(31)の前記チャネル(31.1、31.2、31.3)に混合し、前記制御デバイス(46)は、前記受信される規則セット(47)に応じて前記少なくとも1つの前記プロセッサ(36、36')を制御するように構成されている請求項1から8のいずれか一項に記載の復号器デバイス。
前記制御デバイス(46)は、前記コア復号器出力信号(13)の非コヒーレントチャネルの数が前記出力オーディオ信号(31)の前記チャネル(31.1、31.2、31.3)の数に等しくなるように、前記プロセッサ(36、36')の前記脱相関装置(39、39')を制御するように構成されている請求項1から9のいずれか一項に記載の復号器デバイス。
前記フォーマット変換器デバイス(9、10)は、前記コア復号器出力信号(13)をダウンミックスするためのダウンミキサ(10)を備える請求項1から10のいずれか一項に記載の復号器デバイス。
前記ダウンミキサ(9)のダウンミキサ出力信号はバイノーラルレンダラ入力信号として前記バイノーラルレンダラ(10)供給される請求項11及び請求項12から13のいずれか一項に記載の復号器デバイス。
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明の目的は、オーディオ信号処理のための改善された概念を提供することである。
【課題を解決するための手段】
【0013】
本発明の目的は、請求項1に記載の復号器、請求項14に記載の方法、及び請求項15に記載のコンピュータプログラムによって解決される。
【0014】
圧縮入力オーディオ信号を復号するためのオーディオ復号器デバイスであって、プロセッサ入力信号に基づいてプロセッサ出力信号を生成するための1つ又は複数のプロセッサを有する少なくとも1つのコア復号器であり、プロセッサ出力信号の出力チャネルの数はプロセッサ入力信号の入力チャネルの数よりも多く、1つ又は複数のプロセッサの各々は脱相関装置(decorrelator)及び混合器を備え、複数のチャネルを有するコア復号器出力信号はプロセッサ出力信号を含み、コア復号器出力信号は基準スピーカ配置に適している、少なくとも1つのコア復号器と、
コア復号器出力信号を、目標スピーカ配置に適している出力オーディオ信号に変換するように構成されている少なくとも1つのフォーマット変換器と、
プロセッサの脱相関装置がプロセッサの混合器から独立して制御され得るように、少なくとも1つ又は複数のプロセッサを制御するように構成されている制御デバイスであり、制御デバイスは、目標スピーカ配置に応じて1つ又は複数のプロセッサの脱相関装置の少なくとも1つを制御するように構成されている制御デバイスと、を備えるオーディオ復号器デバイスが提供される。
【0015】
プロセッサの目的は、プロセッサ入力信号の入力チャネルの数よりも多数の非コヒーレント/無相関(uncorrelated)チャネルを有するプロセッサ出力信号を作成することである。より詳細には、プロセッサの各々が、例えば、モノラル入力信号からのより少数の入力チャネルを有するプロセッサ入力信号からの訂正空間手掛かりを用いて、複数の非コヒーレント/無相関出力チャネル、例えば、2つの出力チャネルを有するプロセッサ出力信号を生成する。
【0016】
そのようなプロセッサは、脱相関装置及び混合器を備える。脱相関装置は、プロセッサ入力信号のチャネルから脱相関装置信号を作成するのに使用される。一般的に、脱相関装置(脱相関フィルタ)は、周波数依存プリディレイ、及びそれに後続する全域通過(IIR)部分から構成される。
【0017】
脱相関装置信号及びプロセッサ入力信号のそれぞれのチャネルがその後、混合器に供給される。混合器は、脱相関装置信号及びプロセッサ入力信号のそれぞれのチャネルを混合することによってプロセッサ出力信号を確立するように構成されており、プロセッサ出力信号の出力チャネルの訂正コヒーレンス/相関及び訂正強度比を合成するために、サイド情報が使用される。
【0018】
プロセッサ出力信号の出力チャネルはその後、非コヒーレント/無相関にされる。それにより、プロセッサの出力チャネルは、それらが異なる位置に置かれた異なるスピーカに供給されたときに、独立した音源であるように知覚される。
【0019】
フォーマット変換器は、コア復号器出力信号を、基準スピーカ配置とは異なる可能性があるスピーカ配置上での再生に適するように変換することができる。この配置は、目標スピーカ配置と呼ばれる。
【0020】
1つのプロセッサの出力信号が、非コヒーレント/無相関形式で後続のフォーマット変換器によって設定される特定の目標スピーカ配置に必要とされない場合、訂正相関の合成は知覚的に重要でない。したがって、これらのプロセッサについて、脱相関装置は省略されてもよい。しかしながら、一般的に、脱相関装置がオフにされるとき、混合器は完全に動作したままである。結果として、プロセッサ出力信号の出力チャネルは、たとえ脱相関装置がオフにされる場合であっても、生成される。
【0021】
この事例において、プロセッサ出力信号のチャネルはコヒーレント/相関であるが、同一ではないことに留意すべきである。これは、プロセッサ出力信号のチャネルがプロセッサの下流において互いに独立してさらなる処理がなされる場合があり、例えば、出力オーディオ信号のチャネルのレベルを設定するために、強度比及び/又は他の空間情報がフォーマット変換器によって使用され得ることを意味している。
【0022】
脱相関フィルタリングは相当の計算複雑度を必要とするが、提案の復号器デバイスにより、全体的な復号作業負荷を大きく低減することができる。
【0023】
脱相関装置、特にそれらの全域通過フィルタは、主観的な音声品質に及ぼす影響を最小限に抑えるように設計されるが、例えば位相の歪み又は特定の周波数成分の「リンギング(ringing)」に起因する過渡音の不鮮明さといった可聴アーティファクトが入ることを常に回避できるとはかぎらない。それゆえ、脱相関装置プロセスの副次的影響が省略されることにより、オーディオ音声品質の改善を達成することができる。
【0024】
この処理は、脱相関が適用される周波数帯域にのみ適用されるべきであることに留意されたい。残差コード化が使用される周波数帯域は影響を受けない。
【0025】
好ましい実施形態において、制御デバイスは、プロセッサ入力信号の入力チャネルが、処理されていない形式でプロセッサ出力信号の出力チャネルに供給されるように、少なくとも1つ又は複数のプロセッサを機能停止するように構成されている。この機能によって、同一でないチャネルの数を低減することができる。これは、目標スピーカ配置が、基準スピーカ配置のスピーカの数と比較して非常に少ない数のスピーカを含む場合に有利であり得る。
【0026】
有利な実施形態において、プロセッサは、1入力2出力の復号ツール(OTT)であり、脱相関装置は、プロセッサ入力信号の少なくとも1つのチャネルを脱相関することによって脱相関信号を作成するように構成されており、混合器は、プロセッサ出力信号が2つの非コヒーレント出力チャネルから構成されるように、チャネルレベル差(CLD)信号及び/又はチャネル間コヒーレンス(ICC)信号に基づいてプロセッサ入力オーディオ信号及び脱相関信号を混合する。そのような1入力2出力の復号ツールは、チャネル対を有するプロセッサ出力信号を作成することを可能にし、この対のチャネルは、互いに対する訂正振幅及びコヒーレンスを容易にもつ。
【0027】
いくつかの実施形態において、制御デバイスは、脱相関オーディオ信号をゼロに設定することによって、又は、混合器が脱相関信号を混合してそれぞれのプロセッサのプロセッサ出力信号にするのを阻止することによって、1つのプロセッサの脱相関装置をオフにするように構成されている。いずれの方法によっても、脱相関装置を容易にオフにすることができる。
【0028】
好ましい実施形態において、コア復号器は、USAC復号器のような、音楽及び発話の両方のための復号器であり、少なくとも1つのプロセッサのプロセッサ入力信号が、USACチャネル対要素のようなチャネル対要素を含む。この場合、チャネル対要素の復号が現在の目標スピーカ配置にとって必要でない場合は、これを省略することができる。これにより、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトを大幅に低減することができる。
【0029】
いくつかの実施形態において、コア復号器は、SAOC復号器のような、パラメトリックオブジェクトコーダである。これにより、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトをさらに低減することができる。
【0030】
いくつかの実施形態において、基準スピーカ配置のスピーカの数は、目標スピーカ配置のスピーカの数よりも多い。この場合、フォーマット変換器は、コア復号器出力信号を出力オーディオ信号のオーディオにダウンミックスすることができ、また、出力チャネルの数はコア復号器出力信号の出力チャネルの数よりも少ない。
【0031】
ここで、ダウンミックスとは、目標スピーカ配置よりも多数のスピーカが、基準スピーカ配置に存在することを意味する。そのような場合、非コヒーレント信号の形態の1つ又は複数のプロセッサの出力チャネルは、必要とされないことが多い。そのようなプロセッサの脱相関装置がオフにされる場合、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトを大幅に低減することができる。
【0032】
いくつかの実施形態において、制御デバイスは、プロセッサ出力信号の上記出力チャネルのうちの少なくとも1つの第1の出力チャネル、及び、プロセッサ出力信号の上記出力チャネルのうちの1つの第2の出力チャネルが、プロセッサ出力信号の上記出力チャネルのうちの第1の出力チャネルを混合して出力オーディオ信号の共通のチャネルにするための第1のスケーリング係数が第1の閾値を超えること、かつ/又は、プロセッサ出力信号の上記出力チャネルのうちの第2の出力チャネルを混合して共通のチャネルにするための第2のスケーリング係数が第2の閾値を超えることを前提として、目標スピーカ配置に応じて、共通のチャネルに混合される場合、上記出力チャネルのうちの第1の出力チャネル及び上記出力チャネルのうちの第2の出力チャネルに対して脱相関装置をオフにするように構成されている。
【0033】
上記出力チャネルのうちの第1の出力チャネル及び上記出力チャネルのうちの第2の出力チャネルが出力オーディオ信号の共通のチャネルに混合される場合、コア復号器における脱相関は、第1の出力チャネル及び第2の出力チャネルについて省略されてもよい。これにより、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトを大幅に低減することができる。そして、不要な脱相関を回避することができる。
【0034】
さらに好ましい実施形態では、プロセッサ出力信号の上記第1の出力チャネルを混合するための第1のスケーリング係数を予期することができる。同じように、プロセッサ出力信号の上記第2の出力チャネルを混合するための第2のスケーリング係数を使用することができる。本明細書において、スケーリング係数は、元のチャネル(プロセッサ出力信号の出力チャネル)の信号強度と、混合されたチャネル(出力オーディオ信号の共通のチャネル)内の結果もたらされる信号の信号強度との間の比を表す、通常0〜1の数値である。スケーリング係数は、ダウンミックス行列に含まれ得る。第1のスケーリング係数に対する第1の閾値を使用することによって、及び/又は、第2のスケーリング係数に対する第2の閾値を使用することによって、第1の出力チャネルの少なくとも画定された部分及び/又は第2の出力チャネルの少なくとも画定された部分が共通のチャネルに混合される場合には、第1の出力チャネル及び第2の出力チャネルに対する脱相関のみがオフにされるようになっていてもよい。その一例として、閾値がゼロに設定されてもよい。
【0035】
好ましい実施形態において、制御デバイスは、フォーマット変換器から規則セットを受信するように構成されており、その規則セットに従って、フォーマット変換器は、目標スピーカ配置に応じてプロセッサ出力信号のチャネルを出力オーディオ信号のチャネルに混合する。すなわち、制御デバイスは、受信される規則セットに応じてプロセッサを制御するように構成されている。本明細書において、プロセッサの制御は、脱相関装置及び/又は混合器の制御を含み得る。この機能によって、制御デバイスがプロセッサを正確に制御することができる。
【0036】
規則セットにより、プロセッサの出力チャネルが後続のフォーマット変換ステップによって組み合わされるか否かの情報を、制御デバイスに提供することができる。制御デバイスが受信する規則は、概して、各復号器出力チャネルについての、フォーマット変換器によって使用される各オーディオ出力チャネルに対するスケーリング係数を規定するダウンミックス行列の形式内にある。次のステップにおいて、脱相関装置を制御するための制御規則は、ダウンミックス規則から制御デバイスが計算することができる。この制御規則は、いわゆる混合行列に含むことができる。混合行列は、目標スピーカ配置に応じて制御デバイスが生成することができる。そして、この制御規則は、脱相関装置及び/又は混合器を制御するために使用することができる。その結果、制御デバイスは、手作業を介することなく、複数の異なる目標スピーカ配置に適用され得る。
【0037】
好ましい実施形態において、制御デバイスは、コア復号器出力信号の非コヒーレントチャネルの数が目標スピーカ配置のスピーカの数に等しくなるように、コア復号器の脱相関装置を制御するように構成されている。この場合、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトを大幅に低減することができる。
【0038】
実施形態において、フォーマット変換器は、コア復号器出力信号をダウンミックスするためのダウンミキサを備える。そのダウンミキサは、出力オーディオ信号を直接的に生成することができる。しかしながら、いくつかの実施形態において、ダウンミキサは、フォーマット変換器の別の要素に接続されてもよく、その場合には、この別の要素が出力オーディオ信号を生成する。
【0039】
いくつかの実施形態において、フォーマット変換器は、バイノーラルレンダラを備える。バイノーラルレンダラは、通常、ステレオヘッドホンを用いて使用するのに適したステレオ信号へマルチチャネル信号を変換するために使用される。バイノーラルレンダラは、バイノーラルレンダラに供給される信号の各入力チャネルが仮想音源によって表わされるように、この信号のバイノーラルダウンミックスを生成する。この処理は、直交ミラーフィルタ(QMF)ドメインにおいてフレームごとに行われ得る。バイノーラル化は、測定されるバイノーラル室内インパルス応答に基づくとともに、非常に高い計算複雑度をもたらす。計算複雑度は、バイノーラルレンダラに供給される信号の非コヒーレント/無相関チャネルの数と関係する。
【0040】
好ましい実施形態において、コア復号器出力信号は、バイノーラルレンダラ入力信号としてバイノーラルレンダラに供給される。この実施形態において、制御デバイスは、通常、コア復号器出力信号のチャネルの数がヘッドホンのスピーカの数よりも増加するように、コア復号器のプロセッサを制御するように構成されている。このことは、例えば、三次元オーディオ印象を生成するためにヘッドホンに供給されるステレオ信号の周波数特性を調整するチャネルに含まれる空間音声情報を、バイノーラルレンダラが使用することができるため、要求され得る。
【0041】
いくつかの実施形態において、ダウンミキサのダウンミキサ出力信号は、バイノーラルレンダラ入力信号としてバイノーラルレンダラに供給される。ダウンミキサの出力オーディオ信号がバイノーラルレンダラに供給される場合、その入力信号のチャネルの数は、コア復号器出力信号がバイノーラルレンダラに供給される事例よりも大幅に少なく、それによって、計算複雑度が低減する。
【0042】
さらに、圧縮入力オーディオ信号を復号するための方法であって、プロセッサ入力信号に基づいてプロセッサ出力信号を生成するための1つ又は複数のプロセッサを有する少なくとも1つのコア復号器を提供するステップであり、プロセッサ出力信号の出力チャネルの数は、プロセッサ入力信号の入力チャネルの数よりも多く、1つ又は複数のプロセッサの各々は脱相関装置及び混合器を備え、複数のチャネルを有するコア復号器出力信号は、プロセッサ出力信号を含み、コア復号器出力信号が基準スピーカ配置に適している、ステップと、コア復号器出力信号を、目標スピーカ配置に適している出力オーディオ信号に変換するように構成されている少なくとも1つのフォーマット変換器を提供するステップと、プロセッサの脱相関装置がプロセッサの混合器から独立して制御され得るように、少なくとも1つ又は複数のプロセッサを制御するように構成されている制御デバイスを提供するステップであり、制御デバイスは、目標スピーカ配置に応じて1つ又は複数のプロセッサの脱相関装置の少なくとも1つを制御するように構成されているステップと、を含む方法が提供される。
【0043】
その上、コンピュータ又は信号プロセッサ上で実行されるときに、上述した方法を実施するためのコンピュータプログラムが提供される。
【発明を実施するための形態】
【0045】
以下において、本発明の実施形態を、図面を参照してより詳細に説明する。
【0046】
本発明の実施形態を説明する前に、現行の技術水準の符号化器−復号器システムに関するより多くの背景を提示する。
【0047】
図11は、3Dオーディ符号化器1の概念的な概観の概略ブロック図であり、一方、
図12は、3Dオーディ復号器2の概念的な概観の概略ブロック図である。
【0048】
3Dオーディオコーデックシステム1、2は、符号化器3の出力オーディオ信号7の復号のためのMPEG−D統合音声音響符号化(USAC)復号器6に基づくだけでなく、チャネル信号4及びオブジェクト信号5のコード化のためのMPEG−D統合音声音響符号化(USAC)符号化器3に基づいてもよい。大量のオブジェクト5をコード化する効率を向上させるために、空間オーディオオブジェクトコード化(SAOC)技術が使用され得る。3つのタイプのレンダラ8、9、10はそれぞれ、オブジェクト11、12をチャネル13にレンダリングするタスク、チャネル13をヘッドホンにレンダリングするタスク、又は、チャネルを異なるスピーカ配置にレンダリングするタスクを実施する。
【0049】
オブジェクト信号が明示的に送信された場合、又はSAOCを使用してパラメータ的に符号化された場合、対応するオブジェクトメタデータ(OAM)14情報が圧縮されて3Dオーディオビットストリーム7に多重化される。
【0050】
プリレンダラ/混合器15は、チャネル及びオブジェクト入力シーン4、5をチャネルシーン4、16に変換するために、符号化前に任意的に用いてもよい。プリレンダラ/混合器15は、機能的に、後述するオブジェクトレンダラ/混合器15と同一である。
【0051】
オブジェクト5のプリレンダリングは、符号化器3の入力における決定論的信号エントロピーを保証する。符号化器3の入力は、基本的に、同時にアクティブなオブジェクト信号5の数とは無関係である。オブジェクト5をプリレンダリングすることによって、オブジェクトメタデータ14を送信する必要がなくなる。
【0052】
個別のオブジェクト信号5が、符号化器3が使用するように構成されているチャネルレイアウトにレンダリングされる。各チャネル16についてのオブジェクト5の重みは、関連するオブジェクトメタデータ14から得られる。
【0053】
スピーカチャネル信号4、個別のオブジェクト信号5、オブジェクトダウンミックス信号14及びプリレンダリング済み信号16のためのコアコーデックは、MPEG−D USAC技術によるものであってもよい。MPEG−D USAC技術は、入力のチャネル及びオブジェクト割り当ての幾何学的情報及び意味情報に基づいて、チャネル及びオブジェクトのマッピング情報を作成することによって、複数の信号4、5、14のコード化を行なう。このマッピング情報は、入力チャネル4及びオブジェクト5が、USACチャネル要素、すなわち、チャネル対要素(CPE)、単一チャネル要素(SCE)、低周波数増強(LFE)に、どのようにマッピングされるかを描き、それに応じた情報が復号器6に送信される。
【0054】
SAOCデータ17やオブジェクトメタデータ14のようなすべての追加ペイロードは、拡張要素を通じて通すことができ、符号化器3のレート制御において考慮することができる。
【0055】
オブジェクト5のコード化は、レンダラのレート/歪み要件及び対話性要件に応じて、様々な方法で行なうことができる。以下のオブジェクトコード化の変形例が可能である。
【0056】
− プリレンダリング済みオブジェクト16:オブジェクト信号5は、符号化前に、プリレンダリングされ、例えば22.2チャネル信号4などのチャネル信号4に混合される。後続のコード化チェーンは、22.2チャネル信号4を読み取る。
【0057】
− 個別オブジェクト波形:オブジェクト5は、単音波形として符号化器3に供給される。符号化器3は、単一チャネル要素(SCE)を使用して、チャネル信号4に加えてオブジェクト5を送信する。復号済みオブジェクト18は受信機側においてレンダリング及び混合される。圧縮オブジェクトメタデータ情報19、20が、ともに受信機/レンダラ21に送信される。
【0058】
− パラメトリックオブジェクト波形17:SAOCパラメータ22、23は、オブジェクト特性及びそれらの互いの関係を示す。オブジェクト信号17のダウンミックスはUSACを用いてコード化される。パラメトリック情報22は並行して送信される。ダウンミックスチャネル17の数は、オブジェクト5の数及び全体的なデータレートに応じて選択される。圧縮オブジェクトメタデータ情報23が、SAOCレンダラ24に送信される。
【0059】
オブジェクト信号5用のSAOC符号化器25及び復号器24は、MPEG SAOC技術に基づく。このシステムは、より少数の送信チャネル7や、オブジェクトレベル差(OLD)、オブジェクト間コヒーレンス(IOC)及びダウンミックス利得値(DMG)のような追加のパラメータデータ22、23に基づいて、いくつかのオーディオオブジェクト5を再生成、修正及びレンダリングすることができる。追加のパラメータデータ22、23は、すべてのオブジェクト5を個々に送信するのに必要とされるよりも大幅に低いデータレートを呈し、コード化を非常に効率的にする。
【0060】
SAOC符号化器25は、単音波形としてのオブジェクト/チャネル信号5を入力として取り込み、パラメトリック情報22(3Dオーディオビットストリーム7内にパケット化される)とSAOCトランスポートチャネル17(単一チャネル要素を使用して符号化され、送信される)を出力する。SAOC復号器24は、復号済みSAOCトランスポートチャネル26とパラメトリック情報23からオブジェクト/チャネル信号5を再構築し、再生レイアウト、解凍されたオブジェクトメタデータ情報20、任意ではあるがユーザ対話情報に基づいて、出力オーディオシーン27を生成する。
【0061】
各オブジェクト5について、3D空間におけるオブジェクトの幾何学的位置及び体積を指定する関連するメタデータ14が、オブジェクトメタデータ符号化器28によって、時間及び空間におけるオブジェクト特性の量子化によって効率的にコード化される。圧縮オブジェクトメタデータ(cOAM)19が、OAM復号器29によって復号することができるサイド情報20として受信機に送信される。
【0062】
オブジェクトレンダラ21は、与えられた再生フォーマットに従ってオブジェクト波形12を生成するために、圧縮オブジェクトメタデータ20を利用する。各オブジェクト5は、そのメタデータ19、20に従って、特定の出力チャネル12にレンダリングされる。このブロック21の出力は、部分的な結果の合計からもたらされる。チャネルベースの内容11、30及び個別/パラメータオブジェクト12、27の両方が復号される場合、チャネルベースの波形11、30及びレンダリング済みオブジェクト波形12、27が混合され、その後、結果としての波形13が混合器8によって出力される(又はその後、それらが、バイノーラルレンダラ9もしくはスピーカレンダラモジュール10のような後処理モジュール9、10に供給される)。
【0063】
バイノーラルレンダラモジュール9は、各入力チャネル13が仮想音源によって表わされるように、マルチチャネルオーディオ材料13のバイノーラルダウンミックスを生成する。この処理は、直交ミラーフィルタ(QMF)ドメインにおいてフレームごとに行われる。バイノーラル化は、測定されるバイノーラル室内インパルス応答に基づく。
【0064】
図13により詳細に示すスピーカレンダラ10は、送信されるチャネル構成13と所望の再生フォーマット31との間で変換する。したがって、以下において、スピーカレンダラ10を「フォーマット変換器」10と称する。フォーマット変換器10は、より少数の出力チャネル31への変換を行なう。すなわち、フォーマット変換器10は、ダウンミキサ32によってダウンミックスを作成する。DMXコンフィギュレータ33は、入力フォーマット13及び出力フォーマット31の与えられた組み合わせに対して最適化されたダウンミックス行列を自動的に生成し、これらの行列を、混合器出力レイアウト34及び再生レイアウト35が使用されるダウンミックスプロセス32に適用する。フォーマット変換器10は、標準的なスピーカ構成だけでなく、スピーカ位置が非標準的なランダム構成を可能にする。
【0065】
図1は、本発明による復号器2の好ましい実施形態のブロック図である。
【0066】
圧縮入力オーディオ信号38、38'を復号するためのオーディオ復号器デバイス2は、プロセッサ入力信号38、38'に基づいてプロセッサ出力信号37、37'を生成するための1つ又は複数のプロセッサ36、36'を有する少なくとも1つのコア復号器6を備えている。プロセッサ出力信号37、37'の出力チャネル37.1、37.2、37.1'、37.2'の数は、プロセッサ入力信号38、38'の入力チャネル38.1、38.1'の数よりも多い。1つ又は複数のプロセッサ36、36'の各々は、脱相関装置39、39'及び混合器40、40'を備えている。複数のチャネル13.1、13.2、13.3、13.4を有するコア復号器出力信号13は、プロセッサ出力信号37、37'を含む。コア復号器出力信号13は基準スピーカ配置42に適したものである。
【0067】
さらに、オーディオ復号器デバイス2は、少なくとも1つのフォーマット変換器デバイス9、10を備えている。フォーマット変換器デバイス9、10は、コア復号器出力信号13を目標スピーカ配置45に適した出力オーディオ信号31に変換するように構成されている。
【0068】
さらに、オーディオ復号器デバイス2は制御デバイス46を備えている。制御デバイス46は、プロセッサ36、36'の脱相関装置39、39'がプロセッサ36、36'の混合器40、40'から独立して制御され得るように、少なくとも1つ又は複数のプロセッサ36、36'を制御するように構成されている。制御デバイス46は、目標スピーカ配置に応じて1つ又は複数のプロセッサ36、36'の脱相関装置39、39'の少なくとも1つを制御するように構成されている。
【0069】
プロセッサ36、36'の目的は、プロセッサ出力信号37、37'を作成することである。プロセッサ出力信号37、37'は、プロセッサ入力信号38の入力チャネル38.1、38.1'の数よりも多数の非コヒーレント/無相関チャネル37.1、37.2、37.1'、37.2'を有するものである。より詳細には、プロセッサ36、36'の各々が、より少数の入力チャネル38.1、38.1'を有するプロセッサ入力信号38、38'からの訂正空間手掛かりを用いて、複数の非コヒーレント/無相関出力チャネル37.1、37.2、37.1'、37.2'を有するプロセッサ出力信号37を生成することができる。
【0070】
図1に示す実施形態において、第1のプロセッサ36は、モノラル入力信号38から生成される2つの出力チャネル37.1、37.2を有し、第2のプロセッサ36'は、モノラル入力信号38'から生成される2つの出力チャネル37.1'、37.2'を有する。
【0071】
フォーマット変換器デバイス9、10は、コア復号器出力信号13を、基準スピーカ配置42とは異なる可能性があるスピーカ配置45上での再生に適するように変換することができる。この配置は、目標スピーカ配置45と呼ばれる。
【0072】
図1の実施形態において、基準スピーカ配置42は、左正面スピーカ(L)、右正面スピーカ(R)、左サラウンドスピーカ(LS)及び右サラウンドスピーカ(RS)を備える。さらに、目標スピーカ配置42は、左正面スピーカ(L)、右正面スピーカ(R)及び中央サラウンドスピーカ(CS)を備える。
【0073】
1つのプロセッサ36、36'の出力信号37.1、37.2、37.1'、37.2'が、非コヒーレント/無相関形式で後続のフォーマット変換器デバイス9、10によって特定の目標スピーカ配置45に必要とされない場合、訂正相関の合成は知覚的に重要でない。したがって、これらのプロセッサ36、36'について、脱相関装置39、39'は省略されてもよい。しかしながら、通常、脱相関装置がオフにされるとき、混合器40、40'は完全に動作したままである。結果として、脱相関装置39、39'がオフにされたときでも、プロセッサ出力信号の出力チャネル37.1、37.2、37.1'、37.2'は生成される。
【0074】
この事例において、プロセッサ出力信号37、37'のチャネル37.1、37.2、37.1'、37.2'はコヒーレント/相関であるが、同一でないことに留意しなければならない。これは、プロセッサ出力信号37、37'のチャネル37.1、37.2、37.1'、37.2'がプロセッサ36、36'の下流で互いに独立してさらに処理される場合があり、例えば、出力オーディオ信号31のチャネル31.1、31.2、31.3のレベルを設定するために、強度比及び/又は他の空間情報がフォーマット変換器デバイス9、10によって使用され得ることを意味している。
【0075】
脱相関フィルタリングは相当の計算複雑度を必要とするところ、提案の復号器デバイス2により、全体的な復号作業負荷を大きく低減することができる。
【0076】
脱相関装置39、39'、特にそれらの全域通過フィルタは、主観的な音声品質に及ぼす影響を最小限に抑えるように設計されるが、例えば、位相歪み又は特定の周波数成分の「リンギング」に起因する過渡音の不鮮明さといった可聴アーティファクトが導入されることを常に回避できるわけではない。それゆえ、脱相関装置プロセスが省略される副次的影響として、オーディオ音声品質の改善を達成することができる。
【0077】
この処理は、脱相関が適用される周波数帯域にのみ適用されるべきことに留意されたい。残差コード化が使用される周波数帯域は影響を受けない。
【0078】
好ましい実施形態において、プロセッサ入力信号38の入力チャネル38.1、38.1'が処理されていない形式でプロセッサ出力信号37、37'の出力チャネル37.1、37.2、37.1'、37.2'に供給されるように、制御デバイス46は、少なくとも1つ又は複数のプロセッサ36、36'を機能停止するように構成されている。この機能によって、同一でないチャネルの数を低減することができる。これは、目標スピーカ配置45が、基準スピーカ配置42のスピーカの数と比較して非常に少ない数のスピーカを有する場合に有利である。
【0079】
好ましい実施形態において、コア復号器6は、USAC復号器6のような、音楽及び発話の両方のための復号器6であり、少なくとも1つのプロセッサのプロセッサ入力信号38、38'が、USACチャネル対要素のようなチャネル対要素を含む。この形態において、チャネル対要素の復号が現在の目標スピーカ配置45にとって必要でない場合は、これを省略することができる。このように、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトを大幅に低減することができる。
【0080】
いくつかの実施形態において、コア復号器は、SAOC復号器24のような、パラメトリックオブジェクトコーダ24である。これにより、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトをさらに低減することができる。
【0081】
いくつかの実施形態において、基準スピーカ配置42のスピーカの数は、目標スピーカ配置45のスピーカの数よりも多い。この形態では、フォーマット変換器デバイス9、10は、コア復号器出力信号13を出力オーディオ信号31のオーディオにダウンミックスすることができる。また、この形態では、出力チャネル31.1、31.2、31.3の数は、コア復号器出力信号13の出力チャネル13.1、13.2、13.3、13.4の数よりも少ない。
【0082】
ここで、ダウンミックスとは、目標スピーカ配置45におけるよりも多数のスピーカが、基準スピーカ配置42内に存在する事例を表す。そのような事例において、非コヒーレント信号の形態の1つ又は複数のプロセッサ36、36'の出力チャネル37.1、37.2、37.1'、37.2'は、必要とされないことが多い。
図1においては、コア復号器出力信号13の4つの復号器出力チャネル13.1、13.2、13.3、13.4が存在するが、オーディオ出力信号31の出力チャネル31.1、31.2、31.3は3つのみである。そのようなプロセッサ36、36'の脱相関装置39、39'がオフにされることにより、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトが大幅に低減される。
【0083】
下記に説明する理由から、非コヒーレント信号の形態の
図1における復号器出力チャネル13.3及び13.4は必要とされない。それゆえ、脱相関装置39'は制御デバイス46によってオフにされ、一方、脱相関装置39及び混合器40、40'はオンにされる。
【0084】
いくつかの実施形態において、制御デバイス46は、プロセッサ出力信号37、37'の上記出力チャネルのうちの少なくとも1つの第1の出力チャネル37.1'、及び、プロセッサ出力信号37、37'の上記出力チャネルのうちの1つの第2の出力チャネル37.2、37.2'が、プロセッサ出力信号37'の上記出力チャネルのうちの第1の出力チャネル37.1'を混合して出力オーディオ信号31の共通のチャネル31.3にするための第1のスケーリング係数が第1の閾値を超えること、かつ/又は、プロセッサ出力信号37'の上記出力チャネルのうちの第2の出力チャネル37.2'を混合して共通のチャネル31.3にするための第2のスケーリング係数が第2の閾値を超えることを前提として、目標スピーカ配置45に応じて、共通のチャネル31.3に混合される場合、上記出力チャネル37、37'のうちの第1の出力チャネル37.1'及び上記出力チャネル37、37'のうちの第2の出力チャネル37.2、37.2'に対して脱相関装置39'をオフにするように構成されている。
【0085】
図1において、復号器出力チャネル13.3及び13.4は、出力オーディオ信号31の共通のチャネル31.3において混合される。第1のスケーリング係数及び第2のスケーリング係数は0.7071であってもよい。この実施形態における第1の閾値及び第2の閾値がゼロに設定されると、それらの脱相関装置39'はオフにされる。
【0086】
上記出力チャネルのうちの第1の出力チャネル37.1'及び上記出力チャネルのうちの第2の出力チャネル37.2'が出力オーディオ信号31の共通のチャネル31.3に混合される場合、コア復号器6における脱相関は、第1の出力チャネル37.1'及び第2の出力チャネル37.2'について省略されてもよい。これにより、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトを大幅に低減することができる。これにより、不要な脱相関を回避することができる。
【0087】
さらなる実施形態では、プロセッサ出力信号37'の上記第1の出力チャネル37.1'を混合するための第1のスケーリング係数を予期することができる。同じように、プロセッサ出力信号37'の上記第2の出力チャネル37.2'を混合するための第2のスケーリング係数を使用することができる。本明細書において、スケーリング係数は、元のチャネル(プロセッサ出力信号37'の出力チャネル37.1'、37.2')の信号強度と、混合チャネル(出力オーディオ信号31の共通のチャネル31.1)内の結果もたらされる信号の信号強度との間の比を表す、通常0〜1の数値である。スケーリング係数は、ダウンミックス行列に含まれ得る。第1のスケーリング係数に対する第1の閾値を使用することによって、及び/又は、第2のスケーリング係数に対する第1の閾値を使用することによって、第1の出力チャネル37.1'の少なくとも画定された部分及び/又は第2の出力チャネル37.2'の少なくとも画定された部分が共通のチャネル31.3に混合される場合、第1の出力チャネル37.1'及び第2の出力チャネル37.2'に対する脱相関のみがオフにされることを保証することができる。一例として、閾値はゼロに設定されてもよい。
【0088】
図1の実施形態において、復号器出力チャネル13.3及び13.4は、出力オーディオ信号31の共通のチャネル31.3において混合される。第1のスケーリング係数及び第2のスケーリング係数は0.7071であってもよい。この実施形態におおける第1の閾値及び第2の閾値がゼロに設定されると、それらの脱相関装置39'はオフにされる。
【0089】
好ましい実施形態において、制御デバイス46は、フォーマット変換器デバイス9、10から規則セット47を受信するように構成されている。フォーマット変換器9、10は、その規則セットに従って、目標スピーカ配置45に応じてプロセッサ出力信号37、37'のチャネル37.1、37.2、37.1'、37.2'を出力オーディオ信号31のチャネル31.1、31.2、31.3に混合する。制御デバイス46は、受信される規則セット47に応じてプロセッサ36、36'を制御するように構成されている。本明細書において、プロセッサ36、36'の制御は、脱相関装置39、39'及び/又は混合器40、40'の制御を含んでいてもよい。この機能により、制御デバイス46がプロセッサ36、36'を正確に制御することができる。
【0090】
規則セット47によって、プロセッサ36、36'の出力チャネルが後続のフォーマット変換ステップによって組み合わされるか否かの情報を、制御デバイス9、10に提供することができる。制御デバイス46が受信する規則は、概して、各コア復号器出力チャネル13.1、13.2、13.3、13.4についての、フォーマット変換器デバイス9、10によって使用される各オーディオ出力チャネル31.1、31.2、31.3に対するスケーリング係数を規定するダウンミックス行列の形態にある。次のステップにおいて、脱相関装置を制御するための制御規則が、制御デバイスによってダウンミックス規則から計算される。この制御規則は、いわゆる混合行列に含まれ得る。混合行列は、制御デバイス46によって目標スピーカ配置45に応じて生成することができる。そして、この制御規則は、脱相関装置39、39'及び/又は混合器40、40'を制御するために使用することができる。結果として、制御デバイス46は、手作業を介することなく、複数の異なる目標スピーカ配置45に適用され得る。
【0091】
図1において、規則セット47は、復号器出力チャネル13.3及び13.4が、出力オーディオ信号31の共通のチャネル31.3において混合されるという情報を含むことができる。これは、
図1の実施形態においては、基準スピーカ配置42の左サラウンドスピーカ及び右サラウンドスピーカが、目標スピーカ配置45における中央サラウンドスピーカに置き換えられるというように行うことができる。
【0092】
好ましい実施形態において、制御デバイス46は、コア復号器出力信号13の非コヒーレントチャネルの数が目標スピーカ配置45のスピーカの数に等しくなるように、コア復号器6の脱相関装置39、39'を制御するように構成されている。この形態により、脱相関プロセス及びダウンミックスプロセスに由来する計算複雑度及びアーティファクトを大幅に低減することができる。
【0093】
例えば、
図1において、3つの非コヒーレントチャネルが存在し、第1の非コヒーレントチャネルは復号器出力チャネル13.1であり、第2の非コヒーレントチャネルは復号器出力チャネル13.2であり、復号器出力チャネル13.3及び13.4は脱相関装置39'が省略されていることに起因してコヒーレントであるため、第3の非コヒーレントチャネルは復号器出力チャネル13.3及び13.4の各々である。
【0094】
図1の実施形態のような実施形態において、フォーマット変換器デバイス9、10は、コア復号器出力信号13をダウンミックスするためのダウンミキサ10を備える。ダウンミキサ10は、
図1に示すように出力オーディオ信号31を直接生成することができる。しかしながら、いくつかの実施形態において、ダウンミキサ10は、バイノーラルレンダラ9のようなフォーマット変換器10の別の要素に接続されてもよく、その場合、その別の要素が出力オーディオ信号31を生成する。
【0095】
図2は、本発明による復号器の第2の実施形態のブロック図を示す。以下においては、第1の実施形態との差のみを説明する。
図2において、フォーマット変換器9、10は、バイノーラルレンダラ9を備える。バイノーラルレンダラ9は、通常、ステレオヘッドホンを用いて使用するのに適したステレオ信号にマルチチャネル信号を変換するために使用される。バイノーラルレンダラ9は、バイノーラルレンダラに供給されるマルチチャネル信号の各入力チャネルが仮想音源によって表わされるように、この信号のバイノーラルダウンミックスLB及びRBを生成する。マルチチャネル信号は、最大32チャネル又はそれ以上のチャネルを有することができる。しかしながら、
図2においては、事例を単純化するために4つのチャネル信号が示されている。この処理は、直交ミラーフィルタ(QMF)ドメインにおいてフレームごとに行われ得る。バイノーラル化は、測定されるバイノーラル室内インパルス応答に基づくとともに、非常に高い計算複雑度をもたらす。計算複雑度は、バイノーラルレンダラに供給される信号の非コヒーレント/無相関チャネルの数と関係する。計算複雑度を低減するために、脱相関装置39、39'の少なくとも1つがオフにされ得る。
【0096】
図2の実施形態において、コア復号器出力信号13は、バイノーラルレンダラ入力信号13としてバイノーラルレンダラ9に供給される。この実施形態において、制御デバイス46は通常、コア復号器出力信号13のチャネル13.1、13.2、13.3、13.4の数がヘッドホンのスピーカの数よりも多くなるように、コア復号器6のプロセッサを制御するように構成されている。このことは、例えば、三次元オーディオ印象を生成するためにヘッドホンに供給されるステレオ信号の周波数特性を調整するチャネルに含まれる空間音声情報を、バイノーラルレンダラ9が使用することができるため、要求され得る。
【0097】
図示されていない実施形態において、ダウンミキサ10のダウンミキサ出力信号は、バイノーラルレンダラ入力信号としてバイノーラルレンダラ9に供給される。ダウンミキサ10の出力オーディオ信号がバイノーラルレンダラ9に供給される場合、その入力信号のチャネルの数は、コア復号器出力信号13がバイノーラルレンダラ9に供給される事例よりも大幅に少なく、それによって、計算複雑度が低減する。
【0098】
有利な実施形態において、プロセッサ36は、
図3及び
図4に示すような1入力2出力の復号ツール(OTT)36である。
【0099】
図3に示すように、脱相関装置39は、プロセッサ入力信号38の少なくとも1つのチャネル38.1を脱相関することによって脱相関信号48を作成するように構成されている。混合器40は、プロセッサ出力信号37が2つの非コヒーレント出力チャネル37.1、37.2から構成されるように、チャネルレベル差(CLD)信号49及び/又はチャネル間コヒーレンス(ICC)信号50に基づいてプロセッサ入力オーディオ信号48と脱相関信号48を混合する。
【0100】
そのような1入力2出力の復号ツール36は、チャネル対37.1、37.2を有するプロセッサ出力信号37を作成することを可能にし、この対のチャネルは、容易に互いに対する訂正振幅及びコヒーレンスを有する。一般的に、脱相関装置(脱相関フィルタ)は、周波数依存プリディレイ、及び、それに後続する全域通過(IIR)部分から構成される。
【0101】
いくつかの実施形態において、制御デバイスは、脱相関オーディオ信号48をゼロに設定することによって、又は、混合器が脱相関信号48を混合してそれぞれのプロセッサ36のプロセッサ出力信号37にするのを阻止することによって、1つのプロセッサ36の脱相関装置39をオフにするように構成されている。両方の方法は、脱相関装置39をオフにすることを容易にする。
【0102】
いくつかの実施形態は、「ISO/IEC IS 23003−3統合音声音響符号化」に基づくマルチチャネル復号器2向けに規定され得る。
【0103】
マルチチャネルコード化のために、USACは複数の異なるチャネル要素から構成される。5.1オーディオチャネルの一例を下記に与える。
【0105】
各ステレオ要素ID_USAC_CPEは、OTT36によるモノラルからステレオへのアップミックス用のMPEGサラウンドを使用するように構成することができる。下記に説明するように、各要素は、モノラル入力信号をそのモノラル入力信号が供給される脱相関装置39の出力と混合することにより、訂正空間手掛かりを用いて2つの出力チャネル37.1、37.2を生成する[2][3]。
【0106】
重要な構成ブロックは、脱相関装置39である。脱相関装置39は、出力チャネル37.1、37.2の訂正コヒーレンス/相関を合成するのに使用される。概して、脱相関フィルタは、周波数依存プリディレイ、及び、それに後続する全域通過(IIR)部分から構成される。
【0107】
1つのOTT復号ブロック36の出力チャネル37.1、37.2が後続のフォーマット変換ステップによってダウンミックスされる場合、訂正相関の合成は知覚的に重要でなくなる。したがって、これらのアップミックスブロックについて、脱相関装置39は省略することができる。これは、以下のように達成することができる。
【0108】
フォーマット変換9、10と復号との間の相互作用は、
図5に示すように確立され得る。OTT復号ブロック36の出力チャネルが後続のフォーマット変換ステップ9、10によってダウンミックスされるか否かの情報が生成される。この情報は、行列計算器46によって生成されるとともに、USAC復号器6にわたされる、いわゆる混合行列に含まれる。行列計算器によって処理される情報は、一般的に、フォーマット変換モジュール9、10によって提供されるダウンミックス行列である。
【0109】
フォーマット変換処理ブロック9、10は、オーディオデータを、基準スピーカ配置42とは異なる可能性があるスピーカ配置45上での再生に適するように変換する。この配置は、目標スピーカ配置45と呼ばれる。
【0110】
ダウンミックスとは、基準スピーカ配置42に存在するよりも少数のスピーカが、目標スピーカ配置45において使用されることを意味する。
【0111】
図6にコア復号器6が示されている。コア復号器6は、左正面スピーカチャネルL、右正面スピーカチャネルR、左サラウンドスピーカチャネルLS、右サラウンドスピーカチャネルRS、中央正面スピーカチャネルC及び低周波数増強スピーカチャネルLFEを含む5.1基準スピーカ配置42に適した出力チャネル13.1〜13.6を含むコア復号器出力信号を供給する。出力チャネル13.1及び13.2は、プロセッサ36の脱相関装置39がオンにされるときに、脱相関チャネル13.1及び13.2としてプロセッサ36に供給されるチャネル対要素(ID_USAC_CPE)に基づいて、プロセッサ36により作成される。
【0112】
左正面スピーカチャネルL、右正面スピーカチャネルR、左サラウンドスピーカチャネルLS、右サラウンドスピーカチャネルRS及び中央正面スピーカチャネルCは主要チャネルである。一方、低周波数増強スピーカチャネルLFEは任意である。
【0113】
同じように、出力チャネル13.3及び13.4は、プロセッサ36'の脱相関装置39'がオンにされるときに、チャネル対要素(ID_USAC_CPE)に基づいて、プロセッサ36'により作成される。チャネル対要素(ID_USAC_CPE)は、脱相関チャネル13.3及び13.4としてプロセッサ36'に供給される。
【0114】
出力チャネル13.5は単一チャネル要素(ID_USAC_SCE)に基づく。一方で、出力チャネル13.6は低周波数増強要素ID_USAC_LFEに基づく。
【0115】
6つの適切なスピーカが利用可能である場合、コア復号器出力信号13は、いかなるダウンミックスもなしに再生するために使用することができる。しかしながら、ステレオスピーカセットしか利用可能でない場合、コア復号器出力信号13はダウンミックスされる。
【0116】
一般的に、ダウンミックス処理は、各ソースチャネルの、各目標チャネルへのスケーリング係数を定義するダウンミックス行列によって表すことができる。
【0117】
例えば、ITU BS775は、5.1主要チャネルをステレオにダウンミックスするための以下のダウンミックス行列を定義している。そのダウンミックス行列は、チャネルL、R、C、LS及びRSをステレオチャネルL'及びR'にマッピングする。
【0118】
ダウンミックス行列はm×n次元を有し、nはソースチャネルの数であり、mは宛先チャネルの数である。
【0119】
ダウンミックス行列M
DMXから、いわゆる混合行列M
Mixが行列計算器処理ブロックにおいて差し引かれる。混合行列は、いずれのソースチャネルが組み合わされているかを表す。混合行列は、n×n次元を有する。
【0120】
M
Mixは対称行列であることに留意されたい。
【0121】
5つのチャネルをステレオにダウンミックスする上記の例について、混合行列M
Mixは以下の通りである。
【0122】
混合行列を得るための方法は、以下の疑似コードによって与えられる。
【0123】
一例として、閾値thrはゼロに設定されてもよい。
【0124】
各OTT復号ブロックは、チャネル番号i及びjに対応する2つの出力チャネルをもたらす。混合行列M
Mix(i,j)が1に等しい場合、脱相関はこの復号ブロックについてオフにされる。
【0125】
脱相関装置39を省略するために、要素q
l,mはゼロに設定される。代替的に、脱相関経路は下記に示すように省略されてもよい。
【0126】
この結果として、アップミックス行列
の要素
がそれぞれゼロに設定されるか、又は省略されることになる。(詳細については参考文献[2]の「6.5.3.2 Derivation of arbitrary matrix element」を参照されたい)。
【0127】
別の好ましい実施形態において、アップミックス行列
の要素
は、ICC
l,m=1を設定することによって計算されるものとする。
【0128】
図7は、主要チャネルL、R、LS、LR、及びCの、ステレオチャネルL'及びR'へのダウンミックスを示す。プロセッサ36によって作成されるチャネルL及びRは出力オーディオ信号31の共通のチャネルにおいて混合されないため、プロセッサ36の脱相関装置39はオンにされたままである。同じように、プロセッサ36'によって作成されるチャネルLS及びRSは、出力オーディオ信号31の共通のチャネルにおいて混合されないため、プロセッサ36'の脱相関装置39'はオンにされたままである。任意ではあるが、低周波数増強スピーカチャネルLFEが使用されてもよい。
【0129】
図8は、
図6に示す5.1基準スピーカ配置42の、4.0目標スピーカ配置45へのダウンミックスを示す。プロセッサ36によって作成されるチャネルL及びRは出力オーディオ信号31の共通のチャネルにおいて混合されないため、プロセッサ36の脱相関装置39はオンにされたままである。一方、プロセッサ36'によって作成されるチャネル13.3(
図6においてはLS)及び13.4(
図6においてはRS)は、中央サラウンドスピーカチャネルCSを形成するために、出力オーディオ信号31の共通のチャネル31.3において混合される。それゆえ、プロセッサ36'の脱相関装置39'はオフにされ、それによって、チャネル13.3は中央サラウンドスピーカチャネルCS'となり、チャネル13.4は中央サラウンドスピーカチャネルCS''となる。そうすることによって、修正基準スピーカ配置42'が生成される。チャネルCS'及びCS''は相関しているが、同一ではないことに留意されたい。
【0130】
完全を期すために、チャネル13.5(C)及び13.6(LFE)は、中央正面スピーカチャネルCを形成するために出力オーディオ信号31の共通のチャネル31.4において混合されることを付け加えておかなければならない。
【0131】
図9において、コア復号器6が示されている。コア復号器6は、左正面スピーカチャネルL、左正面中央スピーカチャネルLC、左サラウンドスピーカチャネルLS、左サラウンド垂直高後方LVR、右正面スピーカチャネルR、右サラウンドスピーカチャネルRS、右正面中央スピーカチャネルRC、左サラウンド垂直高後方RVR、中央正面スピーカチャネルC及び低周波数増強スピーカチャネルLFEを含む9.1基準スピーカ配置42に適した出力チャネル13.1〜13.10を含むコア復号器出力信号13を供給する。
【0132】
出力チャネル13.1及び13.2は、プロセッサ36の脱相関装置39がオンにされたときに、チャネル対要素(ID_USAC_CPE)に基づいて、プロセッサ36により作成される。チャネル対要素(ID_USAC_CPE)は、脱相関チャネル13.1及び13.2としてプロセッサ36に供給される。
【0133】
同様に、出力チャネル13.3及び13.4は、プロセッサ36'の脱相関装置39'がオンにされたときに、チャネル対要素(ID_USAC_CPE)に基づいて、プロセッサ36'により作成される。チャネル対要素(ID_USAC_CPE)は、脱相関チャネル13.3及び13.4としてプロセッサ36'に供給される。
【0134】
さらに、出力チャネル13.5及び13.6は、プロセッサ36''の脱相関装置39''がオンにされたときに、チャネル対要素(ID_USAC_CPE)に基づいて、プロセッサ36''により作成される。チャネル対要素(ID_USAC_CPE)は、脱相関チャネル13.5及び13.6としてプロセッサ36''に供給される。
【0135】
さらに、出力チャネル13.7及び13.8は、プロセッサ36'''の脱相関装置39'''がオンにされるときに、チャネル対要素(ID_USAC_CPE)に基づいて、プロセッサ36'''により作成される。チャネル対要素(ID_USAC_CPE)は、脱相関チャネル13.7及び13.8としてプロセッサ36'''に供給される。
【0136】
出力チャネル13.9は、単一チャネル要素(ID_USAC_SCE)に基づく。一方で、出力チャネル13.10は低周波数増強要素ID_USAC_LFEに基づく。
【0137】
図10は、
図9に示す9.1基準スピーカ配置42の、5.1目標スピーカ配置45へのダウンミックスを示す。プロセッサ36によって作成されるチャネル13.1及び13.2は、左正面スピーカチャネルL'を形成するために出力オーディオ信号31の共通のチャネル31.1において混合される。そのため、プロセッサ36の脱相関装置39はオフにされ、それによって、チャネル13.1は左正面スピーカチャネルL'になり、チャネル13.2は左正面スピーカチャネルL''になる。
【0138】
さらに、プロセッサ36'によって作成されるチャネル13.3及び13.4は、左サラウンドスピーカチャネルLSを形成するために、出力オーディオ信号31の共通のチャネル31.2において混合される。そのため、プロセッサ36'の脱相関装置39'はオフにされ、それによって、チャネル13.3は左サラウンドスピーカチャネルLS'となり、チャネル13.4は左サラウンドスピーカチャネルLS''となる。
【0139】
プロセッサ36''によって作成されるチャネル13.5及び13.6は、右正面スピーカチャネルLを形成するために出力オーディオ信号31の共通のチャネル31.3において混合される。そのため、プロセッサ36''の脱相関装置39''はオフにされ、それによって、チャネル13.5は右正面スピーカチャネルR'になり、チャネル13.2は右正面スピーカチャネルR''になる。
【0140】
その上、プロセッサ36'''によって作成されるチャネル13.7及び13.8は、右サラウンドスピーカチャネルRSを形成するために、出力オーディオ信号31の共通のチャネル31.4において混合される。そのため、プロセッサ36'''の脱相関装置39'''はオフにされ、それによって、チャネル13.7は右サラウンドスピーカチャネルRS'となり、チャネル13.8は右サラウンドスピーカチャネルRS''となる。
【0141】
そうすることによって、修正基準スピーカ配置42'が生成され、コア復号器出力信号13の非コヒーレントチャネルの数は、目標配置45のスピーカチャネルの数に等しくなる。
【0142】
この処理は、脱相関が適用される周波数帯域にのみ適用されるべきことに留意しなければならない。残差コード化が使用される周波数帯域は影響を受けない。
【0143】
既述のように、本発明はバイノーラルレンダリングに適用可能である。バイノーラル再生は一般的に、ヘッドホン及び/又はモバイルデバイスにおいて行われる。ここでは、復号器及びレンダリング複雑度を制限する制約が存在し得る。
【0144】
脱相関装置処理の低減/省略が実施され得る。オーディオ信号が最終的にバイノーラル再生向けに処理される場合、すべて又はいくつかのOTT復号ブロックにおいて脱相関を省略又は低減することが提案される。
【0145】
これによって、復号器において脱相関されたオーディオ信号のダウンミックスからのアーティファクトが回避される。
【0146】
バイノーラルレンダリングのために復号される出力チャネルの数が低減される。脱相関を省略することに加えて、より少数の非コヒーレント出力チャネルに復号することが望ましい。そうすれば、バイノーラルレンダリングのための非コヒーレント入力チャネルがより少数になる。例えば、元々22.2チャネルの材料は、モバイルデバイス上で復号が行われる場合、22チャネルではなく、5.1チャネルに復号し、5チャネルのみをバイノーラルレンダリングする。
【0147】
全体的な復号器の複雑度を低減するために、以下の処理を適用することが提案される。
【0148】
A)元のチャネル構成よりも少数のチャネルを有する目標スピーカ配置を定義する。目標チャネルの数は、品質及び複雑度制約に応じて決まる。
目標スピーカ配置を達成するために、2つの可能性B1及びB2が存在する。これらの可能性B1及びB2は組み合わせることもできる。
【0149】
B1)より少数のチャネルに復号する、すなわち、復号器において完全なOTT処理ブロックをスキップすることによる。これは、復号器処理を制御するために、バイノーラルレンダラから(USAC)復号器への情報経路を必要とする。
【0150】
B2)元のスピーカチャネル構成又は中間チャネル構成から目標スピーカ配置へのフォーマット変換(すなわち、ダウンミックス)ステップを適用する。これは、(USAC)コア復号器の後の処理ステップにおいて行うことができ、復号プロセスを変更することを必要としない。
【0152】
C)より少数のチャネルのバイノーラルレンダリングを実施する。
【0153】
SAOC復号に対する適用
上述した方法は、パラメトリックオブジェクトコード化(SAOC)処理に適用することもできる。
【0154】
フォーマット変換は、脱相関装置処理を低減/省略して実施することができる。SAOC復号後にフォーマット変換が適用される場合、フォーマット変換器からSAOC復号器への情報が送信される。そのような内部の情報相関によって、SAOC復号器は、人工的に脱相関される信号の量を低減するように制御される。この情報は、完全なダウンミックス行列又は導出された情報となり得る。
【0155】
さらに、バイノーラルレンダリングは、脱相関装置処理を低減/省略して実行することができる。パラメトリックオブジェクトコード化(SAOC)の場合には、復号プロセスに脱相関が適用される。バイノーラルレンダリングが後に実行される場合には、SAOC復号器内部の脱相関処理を省略又は低減すべきである。
【0156】
さらに、バイノーラルレンダリングは、チャネルの数を低減して実行することができる。SAOC復号後にバイノーラル再生が適用される場合、SAOC復号器は、を使用してより少数のチャネルにレンダリングするように構成することができる。ダウンミックス行列は、フォーマット変換器からの情報に基づいて構築される。
【0157】
脱相関フィルタリングは相当の計算複雑度を必要とするが、提案の方法により、全体的な復号作業負荷を大きく低減することができる。
【0158】
全域通過フィルタは主観的な音声品質に及ぼす影響を最小限に抑えるように設計されるが、可聴アーティファクトが導入されることを常に回避できるとはかぎらない。例えば、位相歪み又は特定の周波数成分の「リンギング」に起因する過渡音の不鮮明さ。これにより、脱相関フィルタリングプロセスの副次的影響が省略され、オーディオ音声品質の改善を達成することができる。さらに、後続のダウンミックス、アップミックス又はバイノーラル処理によるそのような脱相関装置アーティファクトの任意の脱マスキングが回避される。
【0159】
さらに、(USAC)コア復号器又はSAOC復号器にバイノーラルレンダリングが組み合わされる場合に複雑度を低減するための方法が説明されている。
【0160】
説明されている実施形態の復号器及び符号化器ならびに方法に関連して、以下が言及される。
【0161】
いくつかの態様が装置という面で説明されているが、これらの態様はまた、対応する方法の説明をも表すことは明らかであり、ブロック又はデバイスが、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップという面で説明されている態様も、対応する装置の対応するブロック又は項目又は特徴の説明を表す。
【0162】
特定の実施要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアにおいて実装することができる。その実施形態は、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、又はフラッシュメモリなど、電子可読制御信号を記憶するデジタル記憶媒体を使用して実施することができる。そのデジタル記憶媒体は、それぞれの方法が実施されるようにプログラム可能なコンピュータシステムと協働する(又は協働することが可能である)。
【0163】
本発明によるいくつかの実施形態は、電子可読制御信号を記憶するデータ担体を含む。そのデータ担体は、本明細書に記載されている方法のうちの1つが実施されるように、プログラム可能なコンピュータシステムと協働することができる。
【0164】
通常、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができる。プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動すると、上記方法のうちの1つを実施するように動作することができる。プログラムコードは、例えば、機械可読担体上に記憶されていてもよい。
【0165】
他の実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを含む。そのようなコンピュータプログラムは、機械可読担体又は持続性記憶媒体上に記憶されている、
【0166】
言い換えれば、本発明の方法の一実施形態は、コンピュータ上で作動したときに、本明細書に記載されている方法のうちの1つを実施するためのプログラムコードをもつコンピュータプログラムである。
【0167】
本発明の方法のさらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを記録されて備えるデータ担体(又はデジタル記憶媒体、又はコンピュータ可読媒体)である。
【0168】
本発明の方法のさらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを表すデータストリーム又は信号系列である。データストリーム又は信号系列は、例えば、データ通信接続、例えば、インターネットを介して転送されるように構成されてもよい。
【0169】
さらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するように構成又は適合されている処理手段、例えば、コンピュータ又はプログラム可能な論理デバイスを含む。
【0170】
さらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。
【0171】
いくつかの実施形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)が、本明細書に記載されている方法の機能のいくつか又はすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法のうちの1つを実施するために、マイクロプロセッサと協働してもよい。通常、この方法は、どのようなハードウェア装置によっても適当に実施される。
【0172】
本発明がいくつかの実施形態に関して説明されているが、本発明の範囲内に入る代替形態、置換形態、及び均等物が存在する。本発明の方法及び構成を実施する多くの代替的な方法が存在することにも留意すべきである。したがって、添付の特許請求の範囲は、本発明の真の思想及び範囲内に入るようなすべての代替形態、置換形態及び均等物を含むものとして解釈されることが意図されている。