(54)【発明の名称】マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0055】
1.
図1によるマルチチャネル・オーディオ・デコーダ
図1は、本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ100のブロック概略図を示す。
【0056】
マルチチャネル・オーディオ・デコーダ100は、符号化表現110を受信して、それに基づいて、少なくとも2つの出力オーディオ信号112,114を供給するように構成される。
【0057】
好ましくは、マルチチャネル・オーディオ・デコーダ100は、符号化表現110に基づいて復号化オーディオ信号122を供給するように構成されるデコーダ120を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、複数のレンダリングされたオーディオ信号134,136を得るために、1つ以上のレンダリング・パラメータ132に基づいて、(例えば、デコーダ120によって)符号化表現110に基づいて得られる複数の復号化オーディオ信号122をレンダリングするために構成されるレンダラ130を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、レンダリングされたオーディオ信号134,136から1つ以上の非相関化オーディオ信号142,144を導出するように構成される非相関器140を含む。さらに、マルチチャネル・オーディオ・デコーダ100は、出力オーディオ信号112,114を得るために、レンダリングされたオーディオ信号134,136またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号142,144とを結合するように構成されるコンバイナ150を含む。
【0058】
しかしながら、上記の機能が与えられる限り、マルチチャネル・オーディオ・デコーダ100の異なるハードウェア構成が可能である点に留意されたい。
【0059】
マルチチャネル・オーディオ・デコーダ100の機能に関して、非相関化オーディオ信号142,144は、レンダリングされたオーディオ信号134,136から導出され、非相関化オーディオ信号142,144は、出力オーディオ信号112,114を得るために、レンダリングされたオーディオ信号134,136と結合される点に留意されたい。レンダリングされたオーディオ信号134,136から非相関化オーディオ信号142,144を導出することによって、レンダリングされたオーディオ信号134,136の数は、典型的には、レンダラ130に入力される復号化オーディオ信号122の数から独立しているので、特に効果的な処理が達成されうる。このように、典型的には、非相関化の効果は、実施効率を改善する復号化オーディオ信号122の数から独立している。さらに、レンダリングの後の非相関化を適用することは、非相関化がレンダリングの前に適用される場合において、複数の非相関化信号を結合する場合に、レンダラによって引き起こされるアーティファクトの導入を回避する。さらに、レンダリングされたオーディオ信号の特性は、典型的には、良好な品質の出力オーディオ信号を結果として得る非相関器140によって実行される非相関化において考慮されうる。
【0060】
さらに、マルチチャネル・オーディオ・デコーダ100が、本願明細書において記載されている特徴および機能によって補充されうる点に留意されたい。特に、本願明細書において記載されるような個々の改良は、それによる処理の効率化および/または出力オーディオ信号の品質の改良のために、マルチチャネル・オーディオ・デコーダ100に導入されうる点に留意されたい。
【0061】
2.
図2によるマルチチャネル・オーディオ・エンコーダ
図2は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ200のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ200は、2つ以上の入力オーディオ信号210,212を受信し、それに基づいて符号化表現214を供給するように構成される。マルチチャネル・オーディオ・エンコーダは、少なくとも2つ以上の入力オーディオ信号210,212に基づいて、1つ以上のダウンミックス信号222を供給するように構成されるダウンミックス信号プロバイダ220を含む。さらに、マルチチャネル・オーディオ・エンコーダ200は、少なくとも2つの入力オーディオ信号210,214の間の関係(例えば、相互相関、相互共分散、レベル差等)を記述している1つ以上のパラメータ232を供給するように構成されるパラメータ・プロバイダ230を含む。
【0062】
さらに、マルチチャネル・オーディオ・エンコーダ200は、オーディオ・デコーダのサイドにおいて使用されるべき複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータ242を供給するように構成される非相関化方法パラメータ・プロバイダ240も含む。1つ以上のダウンミックス信号222、1つ以上のパラメータ232および非相関化方法パラメータ242は、例えば、符号化表現214に、符号化の形式で含まれる。
【0063】
しかしながら、上記のような機能が満足される限り、マルチチャネル・オーディオ・エンコーダ200のハードウェア構成は異なりうることに留意されたい。換言すれば、個々のブロック(例えば、ダウンミックス信号プロバイダ220に、パラメータ・プロバイダ230に、そして非相関化方法パラメータ・プロバイダ240に)マルチチャネル・オーディオ・エンコーダ200の機能の配分は、例として、考慮されるべきである。
【0064】
マルチチャネル・オーディオ・エンコーダ200の機能に関して、1つ以上のダウンミックス信号222および1つ以上のパラメータ232が、例えば、SAOCマルチチャネル・オーディオ・エンコーダまたはUSACマルチチャネル・オーディオ・エンコーダにおけるような従来の方法において供給される点に留意されたい。しかしながら、マルチチャネル・オーディオ・エンコーダ200によっても供給され、そして、符号化表現214に含まれる非相関化方法パラメータ242は、入力オーディオ信号210,212にまたは所望の再生品質に非相関化モードを適用するために使用されうる。従って、非相関化モードは、オーディオ・コンテンツの異なるタイプに適用されうる。例えば、異なる非相関化モードは、入力オーディオ信号210,212が強く相関しているオーディオ・コンテンツのタイプに対して、および入力オーディオ信号210,212が独立しているオーディオ・コンテンツのタイプに対して、選択される。さらに、異なる非相関化モードは、空間印象が特に重要であるオーディオ・コンテンツのタイプに対して、および空間印象がより重要でないかまたは下位の重要性(例えば、個々のチャネルの再生と比較した場合)におけるオーディオ・コンテンツのタイプに対して、非相関化モードパラメータ242によって信号を送信されうる。従って、符号化表現214を受信するマルチチャネル・オーディオ・デコーダは、マルチチャネル・オーディオ・エンコーダ200によって制御され、復号化の複雑さと再生品質の間の最良の可能な妥協をもたらす復号化モードを設定されうる。
【0065】
さらに、マルチチャネル・オーディオ・エンコーダ200は、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載されている可能な付加的な特徴および改良は、それによって、マルチチャネル・オーディオ・エンコーダ200を改良するように(または強化するように)、個々にまたは組み合わせて、マルチチャネル・オーディオ・エンコーダ200に追加されうる点に留意されたい。
【0066】
3.
図3による少なくとも2つの出力オーディオ信号を供給するための方法
図3は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法300のフローチャートを示す。方法は、複数のレンダリングされたオーディオ信号を得るために、1つ以上のレンダリング・パラメータに基づいて得られた複数の復号化オーディオをレンダリングするステップ310を含む。方法300は、また、レンダリングされたオーディオ信号から1つ以上の非相関化オーディオ信号を導出するステップ320を含む。方法300は、また、出力オーディオ信号332を得るために、レンダリングされたオーディオ信号またはそのスケール化バージョンと1つ以上の非相関化オーディオ信号とを結合するステップ330を含む。
【0067】
方法300は、
図1によるマルチチャネル・オーディオ・デコーダ100と同じ考察に基づく点に留意されたい。さらに、方法300は、(個々に、または組み合わせて)本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。
【0068】
4.
図4による符号化表現を提供するための方法
図4は、少なくとも2つの入力オーディオ信号に基づく符号化表現を供給するための方法400のフローチャートを示す。方法400は、少なくとも2つの入力オーディオ信号に基づく1つ以上のダウンミックス信号を供給するステップ410を含む。さらに、方法400は、少なくとも2つの入力オーディオ信号412の間の関係を記述している1つ以上のパラメータを供給するステップ420と、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している非相関化方法パラメータを供給するステップ430とを含む。従って、好ましくは、1つ以上のダウンミックス信号の符号化表現、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータ、および非相関化方法パラメータを含む符号化表現432が供給される。
【0069】
上記の説明も適用されるように、方法400は、マルチチャネル・オーディオ・エンコーダ200と同じ考察に基づく点に留意されたい。
【0070】
さらに、ステップ410,420,430の命令は、柔軟に変化することができ、これが、方法400のための実行環境において可能な限り、ステップ410,420,430も、並行して実行可能である点に留意されたい。さらに、方法400は、個々に、または組み合わせて、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、方法400は、マルチチャネル・オーディオ・エンコーダに関して本願明細書において記載される特徴および機能のいずれかによって補充されうる。しかしながら、符号化表現432を受信する本願明細書に記載されるマルチチャネル・オーディオ・デコーダの特徴および機能に対応する特徴および機能を含むことも可能である。
【0071】
5.
図5による符号化オーディオ表現
図5は、本発明の実施の形態による符号化オーディオ表現500の概略図を示す。
【0072】
符号化オーディオ表現500は、ダウンミックス信号の符号化表現510、少なくとも2つのオーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現520を含む。符号化オーディオ表現500は、オーディオ・デコーダのサイドで使用される複数の非相関化モードのうちの非相関化モードを記述している符号化非相関化方法パラメータ530も含む。従って、符号化オーディオ表現は、オーディオ・エンコーダからオーディオ・デコーダに非相関化モードの信号を送信することを許容する。従って、符号化オーディオ表現は、(例えば、1つ以上のダウンミックス信号の符号化表現510によって、および少なくとも2つのオーディオ信号(例えば、1つ以上のダウンミックス信号の符号化表現510にダウンミックスされている少なくとも2つのオーディオ信号))の間の関係を記述している1つ以上のパラメータの符号化表現520によって記述されるオーディオ・コンテンツの特性によく適応される非相関化モードを得ることが可能である。このように、符号化オーディオ表現500は、特に良好な聴覚器官の空間印象および/または特に、聴覚器官の空間印象と復号化の複雑さとの間の良好なトレードオフを伴う符号化オーディオ表現500によって表わされるオーディオ・コンテンツのレンダリングを許容する。
【0073】
さらに、符号化表現500が、個々に、または組み合わせて、マルチチャネル・オーディオ・エンコーダおよびマルチチャネル・オーディオ・デコーダに関して記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
【0074】
6.
図6によるマルチチャネル非相関器
図6は、本発明の実施の形態によるマルチチャネル非相関器600のブロック概略図を示す。
【0075】
マルチチャネル非相関器600は、N個の非相関器入力信号610a〜610nの第1のセットを受信し、それに基づいて、N’個の非相関器出力信号612a〜612n’の第2のセットを供給するように構成される。換言すると、マルチチャネル非相関器600は、非相関器入力信号610a〜610nに基づいて複数の(少なくともおよそ)非相関化信号612a〜612n’を提供するように構成される。
【0076】
マルチチャネル非相関器600は、N個の非相関器入力信号610a〜610nの第1のセットをK個の非相関器入力信号622a〜622kの第2のセットにプレミックスするように構成される、プレミキサ620を含み、Kは、Nよりも小さい(KおよびNは整数である)。マルチチャネル非相関器600は、K個の非相関器入力信号622a〜622kの第2のセットに基づいてK’個の非相関器出力信号632a〜632k’の第1のセットを供給するように構成される非相関化(または非相関器の主要部)も含む。さらに、マルチチャネル非相関器は、K’個の非相関器出力信号632a〜632k’の第1のセットをN’個の非相関器出力信号612a〜612n’の第2のセットにアップミックスするように構成されるポスト・ミキサ640を含み、N’はK’より大きい(N’およびK’は整数である)。
【0077】
しかしながら、マルチチャネル非相関器600の所与の構成は、例として考慮されるべきであり、本願明細書において記載されている機能が提供される限り、マルチチャネル非相関器600を機能的なブロック(例えば、プレミキサ620、非相関化もしくは非相関器の主要部630、およびポスト・ミキサ640)にさらに分割することは必要ない点に留意されたい。
【0078】
マルチチャネル非相関器600の機能に関して、現実の非相関化が、例えば、直接、N個の非相関器入力信号が適用されるコンセプトを比較したとき、N個の非相関器入力信号の第1のセットからK個の非相関器入力信号の第2のセットを導出するようにプレミックスを実行し、そして、(プレミックスされまたは「ダウンミックされた」)K個の非相関器入力信号の第2のセットに基づいて非相関化を実行するコンセプトは、複雑さの低減をもたらすことに留意されたい。さらに、N’個の非相関器出力信号の第2の(アップミックスされた)セットは、アップミキサ640によって実行されうるポストミキシングに基づいて、現実の非相関化の結果である非相関器出力信号の第1の(元の)セットに基づいて得られる。このように、マルチチャネル非相関器600は、(外側からみられたとき)効果的にN個の非相関器入力信号を受信し、そして、それに基づいて、N’個の非相関器出力信号を供給する。その一方で、現実の非相関器の主要部630は、より少ない数の信号(すなわち、K個の非相関器入力信号の第2のセットのK個のダウンミックスされた非相関器入力信号622a〜622k)のみを処理するだけである。このように、マルチチャネル非相関器600の複雑さは、従来の非相関器と比較したとき、非相関化(または非相関器の主要部)630の入力サイドでの(好ましくは、いかなる非相関化の機能のない線形のプレミキシングである)ダウンミックまたは「プレミキシング」を実行することによって、そして、非相関化(または非相関器の主要部630)の(元の)出力信号632a〜632k’に基づいて、(例えば、いかなる追加の非相関化の機能のない線形のアップミキシングである)アップミキシングまたは「ポストミキシング」を実行することによって、実質的に低減されうる。
【0079】
さらに、マルチチャネル非相関器600は、マルチチャネル非相関化に関して、またマルチチャネル・オーディオ・デコーダにも関して、本願明細書において記載される特徴および機能のいずれかによって補充されうる点に留意されたい。本願明細書において記載される特徴は、それによって、マルチチャネル非相関器600を改良するかまたは強化するように、個々に、または、組み合わせて、マルチチャネル非相関器600に追加されうる点に留意されたい。
【0080】
複雑さの低減のないマルチチャネル非相関器は、K=N(そして、おそらくK’=N’またはK=N=K’=N’でさえ)、に対して上記したマルチチャネル非相関器から導出されうる点に留意されたい。
【0081】
7.
図7によるマルチチャネル・オーディオ・デコーダ
図7は本発明の実施の形態によるマルチチャネル・オーディオ・デコーダ700のブロック概略図を示す。
【0082】
マルチチャネル・オーディオ・デコーダ700は、符号化表現710を受信し、それに基づいて、少なくとも2つの出力信号712,714を供給するように構成される。マルチチャネル・オーディオ・デコーダ700は、
図6によるマルチチャネル非相関器600と実質的に同一であるマルチチャネル非相関器720を含む。さらに、マルチチャネル・オーディオ・デコーダ700は、従来技術において当業者により知られている、または他のマルチチャネル・オーディオ・デコーダに関して本願明細書に記載されるようなマルチチャネル・オーディオ・デコーダの特徴または機能のいずれかを含みうる。
【0083】
さらに、マルチチャネル・オーディオ・デコーダ700が、高効率のマルチチャネル非相関器720を使用するので、マルチチャネル・オーディオ・デコーダ700は、従来のマルチチャネル・オーディオ・デコーダと比較した場合、特に高い効率を含む。
【0084】
8.
図8によるマルチチャネル・オーディオ・エンコーダ
図8は、本発明の実施の形態によるマルチチャネル・オーディオ・エンコーダ800のブロック概略図を示す。マルチチャネル・オーディオ・エンコーダ800は、少なくとも2つの入力オーディオ信号810,812を受信し、それに基づいて、入力オーディオ信号810,812によって表わされるオーディオ・コンテンツの符号化表現814を供給するように構成される。
【0085】
マルチチャネル・オーディオ・エンコーダ800は、少なくとも2つの入力オーディオ信号810,812に基づいて1つ以上のダウンミックス信号822を供給するように構成されるダウンミックス信号プロバイダ820を含む。マルチチャネル・オーディオ・エンコーダ800は、1つ以上のパラメータ832(例えば、相互相関パラメータもしくは相互共分散パラメータ、または内部オブジェクト相関パラメータおよび/もしくはオブジェクト・レベル差パラメータ)を供給するように構成されるパラメータ・プロバイダ830も含む。さらに、マルチチャネル・オーディオ・エンコーダ800は、(符号化表現814を受信する)オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータ842を供給するように構成される非相関化複雑さパラメータ・プロバイダ840を含む。1つ以上のダウンミックス信号822、1つ以上のパラメータ832、および非相関化複雑さパラメータ842が、好ましくは符号化形式において符号化表現814に含まれる。
【0086】
しかしながら、マルチチャネル・オーディオ・エンコーダ800(例えば、ダウンミックス信号プロバイダ820、パラメータ・プロバイダ830および非相関化複雑さパラメータ・プロバイダ840の存在)の内部構造は、単なる例示として考慮されるべきである。異なる構成は、本願明細書に記載されている機能が達成する限り、可能である。
【0087】
マルチチャネル・オーディオ・エンコーダ800の機能に関して、マルチチャネル・エンコーダは、符号化表現814を供給する点に留意されたい。ここで、1つ以上のダウンミックス信号822および1つ以上のパラメータ832は、(例えば、従来のSAOCオーディオ・エンコーダまたはUSACオーディオ・エンコーダのような)従来のオーディオ・エンコーダによって供給されるダウンミックス信号およびパラメータに近似するか、または等しい。しかしながら、マルチチャネル・オーディオ・エンコーダ800は、オーディオ・デコーダのサイドにおいて適用される非相関化の複雑さを決定することを許容する、非相関化複雑さパラメータ842も供給するように構成される。従って、非相関化の複雑さは、現在符号化されるオーディオ・コンテンツに適応されうる。例えば、入力オーディオ信号の特性についてエンコーダ側の情報に基づいて、達成可能なオーディオ品質に対応する所望の非相関化の複雑さの信号を送信することが可能である。例えば、空間的な特性がオーディオ信号に対して重要であることが分かっている場合、空間的な特性が重要でないとき、非相関化複雑さパラメータ842を使用して、より高い非相関化の複雑さの信号の送信がされうる。あるいは、高い複雑さの非相関化が、他の理由のためのオーディオ・デコーダのサイドで必要とされるような、オーディオ・コンテンツ、または全てのオーディオ・コンテンツの通過であることが分かっている場合、高い非相関化の複雑さの使用は、非相関化複雑さパラメータ842を使用して、信号の送信がされうる。
【0088】
要約すると、マルチチャネル・オーディオ・エンコーダ800は、信号特性、またはマルチチャネル・オーディオ・エンコーダ800によって設定されうる所望の再生特性に適用される非相関化の複雑さを使用するために、マルチチャネル・オーディオ・デコーダを制御する可能性を提供する。
【0089】
さらに、マルチチャネル・オーディオ・エンコーダ800が、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記述される特徴および機能のいずれかによって補充されうる点に留意されたい。例えば、マルチチャネル・オーディオ・エンコーダに関して、本願明細書に記載される特徴のいくつかまたは全ては、マルチチャネル・オーディオ・エンコーダ800に追加されうる。さらに、マルチチャネル・オーディオ・エンコーダ800は、本願明細書において記載されるマルチチャネル・オーディオ・デコーダとの協力に対して適応されうる。
【0090】
9.
図9による複数の非相関器入力信号に基づいて複数の非相関化信号を供給するための方法
図9は、複数の非相関器入力信号に基づいて、複数の非相関信号を供給するような方法900のフローチャートを示す。
【0091】
方法900は、N個の非相関器入力信号の第1のセットをK個の非相関器入力信号の第2のセットにプレミックスするステップ910を含み、Kは、Nよりも小さい。方法900は、K個の非相関器入力信号の第2のセットに基づいて、K’個の非相関器出力信号の第1のセットを供給するステップ920も含む。例えば、K’個の非相関器出力信号の第1のセットは、非相関化を使用してK個の非相関器入力信号の第2のセットに基づいて供給され、そして、それは、例えば、非相関器の主要部を使用するか、または非相関化アルゴリズムを使用して実行されうる。更に、方法900は、K’個の非相関器出力信号の第1のセットをN’個の非相関器出力信号の第2のセットにポストミックスするステップ930を含み、N’はK’よりも大きい(N’およびK’は整数である)。従って、方法900の出力であるN’個の非相関器出力信号の第2のセットは、方法900に入力されるN個の非相関器入力の第1のセットに基づいて供給されうる。
【0092】
方法900が、上記のマルチチャネル非相関器と同じ考察に基づく点に留意されたい。さらに、方法900は、個々に、または、組み合わせて、マルチチャネル非相関器に関して(そして、適用できる場合、マルチチャネル・オーディオ・エンコーダに関して)、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
【0093】
10.
図10による符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給する方法
図10は、符号化表現に基づいて少なくとも2つの出力オーディオ信号を供給するための方法1000のフローチャートを示す。
【0094】
方法1000は、符号化表現1012に基づいて少なくとも2つの出力オーディオ信号1014,1016を供給するステップ1010を含む。方法1000は、
図9による方法900に従って、複数の非相関器入力信号に基づいて複数の非相関化信号を供給するステップ1020を含む。
【0095】
方法1000は、
図7によるマルチチャネル・オーディオ・デコーダ700と同じ考察に基づく点に留意されたい。
【0096】
また、方法1000は、個々に、または、組み合わせて、マルチチャネル・デコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。
【0097】
11.
図11による少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給する方法
図11は、少なくとも2つの入力オーディオ信号に基づいて符号化表現を供給する方法1100のフローチャートを示す。
【0098】
方法1000は、少なくとも2つの入力オーディオ信号1112,1114に基づいて1つ以上のダウンミックス信号を供給するステップ1110を含む。方法1100は、少なくとも2つの入力オーディオ信号1112,1114の間の関係を記述している1つ以上のパラメータを供給するステップ1120も含む。さらに、方法1100は、オーディオ・デコーダのサイドで使用される非相関化の複雑さを記述している非相関化複雑さパラメータを供給するステップ1130を含む。従って、符号化表現1132は、少なくとも2つの入力オーディオ信号1112,1114に基づいて供給される。ここで、符号化表現は、典型的には、符号化形式において、1つ以上のダウンミックス信号、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータ、および非相関化複雑さパラメータを含む。
【0099】
ステップ1110,1120,1130は、並行して、または本発明によるいくつかの実施の形態における異なる命令において実行されうる。さらに、方法1100は、
図8によるマルチチャネル・オーディオ・エンコーダ800として同じ考察に基づき、そして、方法1100は、個々に、または、組み合わせて、マルチチャネル・オーディオ・エンコーダに関して、本願明細書において記載されている特徴および機能のいずれかによって補充されうる点に留意されたい。さらに、方法1100は、マルチチャネル・オーディオ・デコーダおよび本願明細書において記載されている少なくとも2つの出力オーディオ信号を供給するための方法をマッチするように適応されうる点に留意されたい。
【0100】
12.
図12による符号化オーディオ表現
図12は、本発明の実施の形態による符号化オーディオ表現の概略図を示す。符号化オーディオ表現は、ダウンミックス信号の符号化表現1210、少なくとも2つの入力オーディオ信号の間の関係を記述している1つ以上のパラメータの符号化表現1220、およびオーディオ・デコーダのサイドにおいて使用される非相関化の複雑さを記述している符号化非相関化複雑さパラメータ1230を含む。従って、符号化オーディオ表現1200は、改良された復号化効率、および改良されたオーディオ品質または符号化効率とオーディオ品質とのトレードオフの改良の可能性をもたらすマルチチャネル・オーディオ・デコーダによって使用される非相関化の複雑さを調整することを許容する。さらに、符号化オーディオ表現1200は、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって供給されえ、そして、本願明細書において記載されるようにマルチチャネル・オーディオ・エンコーダによって使用されうる点に留意されたい。従って、符号化オーディオ表現1200は、マルチチャネル・オーディオ・エンコーダに関しておよびマルチチャネル・オーディオ・デコーダに関して記載される特徴のいずれかによって補充されうる。
【0101】
13.表記法および基本的な検討事項
近年では、複数のオーディオ・オブジェクトを含んでいるオーディオ・シーンのビットレートの効果的な伝送/格納のためのパラメータの技術は、オーディオ符号化の分野(例えば、参考文献[BCC][JSC][SAOC][SAOC1][SAOC2]を参照)およびインフォームド(informed)音源分離の分野(例えば、参考文献[ISS1][ISS2][ISS3][ISS4][ISS5][ISS6]を参照)において提案されている。これらの技術は、伝送され/格納されたオーディオ・シーンおよび/またはオーディオ・シーンにおける音源オブジェクトを記述している追加のサイド情報に基づいて、所望の出力オーディオ・シーンまたはオーディオ音源オブジェクトを再構成することを意図する。この再構成は、パラメータのインフォームド音源分離を使用してデコーダにおいて生じる。さらに、参照は、例えば、国際標準ISO/IEC 23003−1:2007において記載されるいわゆる「MPEG Surround(MPEGサラウンド)」のコンセプトにもなされる。さらに、参照は、国際標準ISO/IEC 23003−2:2010において記載されるいわゆる「Spatial Audio Object Coding(空間オーディオ・オブジェクト符号化)」にもなされる。さらに、参照は、国際規格ISO/IEC 23003−3:2012において記載されるいわゆる「Unified Speech and Audio Coding(音声音響統合符号化方式)」にもなされる。これらの標準からのコンセプトは、例えば、本願明細書において記載されるマルチチャネル・オーディオ・エンコーダおよび本願明細書において記載されるマルチチャネル・オーディオ・デコーダにおいて、本発明による実施の形態において使用される。ここで、いくつかの適応は必要とされうる。
【0102】
以下に、いくつかの背景情報が、記載される。特に、パラメータの分離方式における概要は、MPEG空間オーディオ・オブジェクト符号化(Spatial Audio Object Coding:SAOC)技術(例えば、参考文献[SAOC]を参照)の実施例を使用して、提供される。この方法の数学的プロパティは、考慮される。
【0104】
一般的な損失なしに、方程式の可読性を改良するために、すべての導入される変数に対して、時間および周波数依存を表示しているインデックスは、この明細書において省略される。
【0105】
13.2 パラメータ分離システム
一般的なパラメータ分離システムは、(例えば、内部チャネル相関値、内部チャネルレベル差値、内部オブジェクト相関値および/またはオブジェクト・レベル差情報のような)補助的なパラメータ情報を使用して信号混合(ダウンミックス)からオーディオ音源の数を推定することを意図する。この作業の典型的な解決は、最小2乗平均誤差(Minimum Mean Squared Error:MMSE)推定アルゴリズムのアプリケーションに基づく。SAOC技術は、パラメトリックオーディオ符号化/復号化システムのような1つの実施例である。
【0106】
図13は、SAOCエンコーダ/デコーダ構造の一般的な原理を示す。換言すれば、
図13は、パラメトリックダウンミックス/アップミックスのコンセプトに基づくMMSEの概観を、ブロック概略図の形式で示す。
【0107】
エンコーダ1310は、複数のオブジェクト信号1312a,1312b〜1312nを受信する。さらに、エンコーダ1310は、例えば、ダウンミックス・パラメータであるミキシング・パラメータD,1314も受信する。エンコーダ1310は、それに基づいて、1つ以上のダウンミックス信号1316a,1316b等を供給する。さらに、エンコーダは、サイド情報1318を供給する。1つ以上のダウンミックス信号およびサイド情報は、例えば、符号化形式で供給されうる。
【0108】
エンコーダ1310は、典型的には、オブジェクト信号1312a〜1312nを受信し、ミキシング・パラメータ1314に基づいて、オブジェクト信号1312a〜1312nを結合して(例えば、ダウンミックスして)1つ以上のダウンミックス信号1316a,1316bを作成するように構成されるミキサ1320を含む。さらに、エンコーダは、オブジェクト信号1312a〜1312nからサイド情報1318を導出するように構成されるサイド情報推定器1330を含む。例えば、サイド情報推定器1330は、サイド情報が、例えば、(「内部オブジェクト相関」(IOC:inter−object−correlation))として指定されうる)オブジェクト信号の間の相互相関および/または(「オブジェクト・レベル差情報」(OLD:object level information)として指定されうる)オブジェクト信号の間のレベル差を記述している情報である、オブジェクト信号の間の関係を記述するようなサイド情報1318を導出するように構成されうる。
【0109】
1つ以上のダウンミック信号1316a,1316bおよびサイド情報1318は、参照番号1340に示されるように、デコーダ1350に格納されおよび/または送信されうる。
【0110】
デコーダ1350は、(例えば、符号化形式で)1つ以上のダウンミックス信号1316a,1316bおよびサイド情報1318を受信し、そして、それに基づいて、複数の出力オーディオ信号1352a〜1352nを供給する。デコーダ1350は、(レンダリング行列を定義しうる)1つ以上のレンダリング・パラメータを含みうるユーザ相互作用情報1354も受信する。デコーダ1350は、パラメトリック・オブジェクト・セパレータ1360、サイド情報プロセッサ1370およびレンダラ1380を含む。サイド情報プロセッサ1370は、サイド情報1318を受信し、それに基づいて、パラメトリック・オブジェクト・セパレータ1360に対して制御情報1372を供給する。パラメトリック・オブジェクト・セパレータ1360は、ダウンミックス信号1360a,1360bおよびサイド情報プロセッサ1370によってサイド情報1318から導出された制御情報1372に基づいて、複数のオブジェクト信号1362a〜1362nを供給する。例えば、オブジェクト・セパレータは、符号化ダウンミックス信号およびオブジェクト分離の復号化を実行しうる。レンダラ1380は、それによって出力オーディオ信号1352a〜1352nを得るために、再構成オブジェクト信号1362a〜1362nをレンダリングする。
【0111】
以下に、パラメータ・ダウンミックス/アップミックスのコンセプトに基づくMMSEの機能が述べられる。
【0112】
一般的なパラメトリックダウンミックス/アップミックス処理は、時間/周波数の選択的な方法で実行され、以下のステップのシーケンスとして記載されうる。
【0113】
・「エンコーダ」1310は、入力された「オーディオ・オブジェクト」Xおよび「ミキシング・パラメータ」Dを有する。「ミキサ」1320は、「ミキシング・パラメータ」D(例えば、ダウンミックスゲイン)を使用して「オーディオ・オブジェクト」Xをいくつかの「ダウンミックス信号」Yにダウンミックスする。「サイド情報推定器」は、入力された「オーディオ・オブジェクト」X(例えば、共分散特性)の特性を記述しているサイド情報1318を抽出する。
【0114】
・「ダウンミックス信号」Yおよびサイド情報は、送信されるか、または格納される。これらのダウンミックスオーディオ信号は、さらに、オーディオコーダ(例えば、MPEG−1/2 Layer IIまたはIII,MPEG−2/4 Advanced Audio Coding(AAC),MPEG Unified Speech and Audio Coding(USAC)等)を使用して圧縮されうる。サイド情報は、(例えば、オブジェクトパワーおよびオブジェクト相関係数の無損失性符号化関係として)効果的に再構成され、符号化されうる。
【0116】
さらに、エンコーダ1310およびデコーダ1350に関して記載されている機能は、同様に本願明細書において記載されている他のオーディオ・エンコーダおよびオーディオ・デコーダにおいて使用されうる点に留意されたい。
【0118】
結果として、推定誤差および推定自身は、直交する。
【0119】
幾何学的に、
図14に示される例によって、これを視覚化しうる。
【0125】
我々に、2つのオーディオ信号を使用して音源を再生する実施例を考慮させる。IOC値が1に近い場合、音は、極めて局所化された点の音源として知覚される。IOC値がゼロに近い場合、音源の知覚された幅は増加し、そして、極端な例では、2つの異なった音源としてとして知覚されることさえある[Blauert,第3章]。
【0126】
13.6 再構成誤りの補償
不完全なパラメトリック再構成の場合、出力信号は、元のオブジェクトと比較して低いエネルギーを示しうる。共分散行列の対角要素の誤差は、(理想的な参照出力と比較して)聞き取れるレベル差、および歪められた空間音像における非対角要素での誤差を結果として得る。提案された方法は、この課題を解決するための目的を有する。
【0127】
MPEG Surround(MPS)において、例えば、この問題は、いくつかの特定のチャネル・ベースの処理シナリオ、すなわち、モノラル/ステレオダウンミックスおよび限られた静的な出力構造(例えば、モノラル,ステレオ,5.1,7.1等)ためだけに扱われる。SAOCのようにモノラル/ステレオダウンミックスも使用するオブジェクト指向技術において、この課題は、5.1の出力構造だけのためのMPS後処理レンダリングを適用することによって扱われる。
【0128】
既存の解決策は、標準の出力構成および入出力チャネルの定数に限られる。すなわち、それらは、ちょうど「モノラル対ステレオ」(または「ステレオ対3チャネル」)のチャネル非相関を実装しているいくつかのブロックの結果として生じるアプリケーションとして理解される。
【0129】
それゆえに、パラメトリック再構成誤りの補償のための一般的な解決策(例えば、エネルギーレベルおよび相関特性修正方法)が所望され、そして、それは柔軟な数のダウンミックス/出力チャネルおよび任意の出力構成セットアップに対して適用されうる。
【0130】
13.7 結論
結論として、表記法に関する概要が提供された。さらに、パラメトリック分離システムは、本発明による実施の形態がベースであることが述べられた。さらに、最小2乗平均誤差推定に適用される直交原理が概説された。さらに、再構成誤差X
Errorの存在において適用する共分散行列E
Xの算出のための方程式が提供された。また、例えば、本発明による実施の形態において、(パラメトリックサイド情報において含まれうる)内部オブジェクト相関値から所望の共分散特性(または相関特性)を導出し、そして、おそらくオブジェクト・レベル差を形成するために適用されうる、いわゆる内部オブジェクト相関および共分散行列E
Xの要素との間の関係が提供された。さらに、再構成オブジェクト信号の特性が、不完全な再構成のため、所望の特性と異なることが概説された。さらに、課題を取り扱う既存の解決策が、いくつかの特定の出力構成に限られており、従来の解決策の変更できない標準ブロックの特定の結合に依拠することが概説された。
【0131】
14.
図15による実施の形態
14.1 コンセプトの概要
本発明による実施の形態は、任意の数のダウンミックス/アップミックスチャネルのための非相関化の解決策を有するパラメトリックオーディオ分離方式において使用されるMMSEパラメトリック再構成方法を拡張する。例えば、発明の装置および発明の方法のような本発明による実施の形態は、パラメトリック再構成の間のエネルギー損失を補償することができ、そして、推定されたオブジェクトの相関特性を復元しうる。
【0132】
図15は、統合された非相関化経路を有するパラメトリックダウンミックス/アップミックスのコンセプトの概要を提供する。換言すれば、ブロック概略図の形式において、レンダリングされた出力に適用される非相関化を伴うパラメトリック再構成システムを示す。
【0133】
図15に記載のシステムは、
図13に記載のエンコーダ1310と実質的に同一であるエンコーダ1510を含む。エンコーダ1510は、複数のオブジェクト信号1512a〜1512nを受信し、そして、それに基づいて、1つ以上のダウンミックス信号1516a,1516bおよびサイド情報1518を供給する。ダウンミックス信号1516a,1516bは、ダウンミックス信号1316a,1316bと実質的に同一でありえ、そして、Yによって指定される。サイド情報1518は、サイド情報1318と実質的に同一でありうる。しかしながら、例えば、サイド情報は、非相関化モードパラメータ、または非相関化方法パラメータ、または非相関化複雑さパラメータを含む。さらに、エンコーダ1510は、ミキシング・パラメータ1514を受信しうる。
【0134】
パラメトリック再構成システムは、1つ以上のダウンミックス信号1516a,1516bおよびサイド情報1518の送信および/または格納も含む。ここで、送信および/または格納は、1540で指定され、1つ以上のダウンミックス信号1516a,1516bおよび(パラメトリックサイド情報を含みうる)サイド情報1518が、符号化されうる。
【0135】
さらに、
図15によるパラメトリック再構成システムは、送信されまたは格納された1つ以上の(あるいは符号化)ダウンミックス信号1516a,1516bおよび送信されまたは格納された(あるいは符号化)サイド情報1518を受信し、そして、それに基づいて、出力オーディオ信号1552a〜1552nを供給するように構成される、デコーダ1550を含む。(マルチチャネル・オーディオ・デコーダとして考慮されうる)デコーダ1550は、パラメトリック・オーディオ・セパレータ1560およびサイド情報プロセッサ1570を含む。さらに、デコーダ1550は、レンダラ1580、非相関器1590およびミキサ1598を含む。
【0137】
非相関器1590は、レンダリングされたオーディオ信号1582a〜1582nを受信し、そして、それに基づいて、Wでも指定される非相関化オーディオ信号1592a〜1592nを供給する。ミキサ1598は、レンダリングされたオーディオ信号1582a〜1582nおよび非相関化オーディオ信号1592a〜1592nを受信し、そして、レンダリングされたオーディオ信号1582a〜1582nと非相関化オーディオ信号1592a〜1592nとを結合し、それによって、出力オーディオ信号1552a〜1552nを得る。ミキサ1598は、後述するように、符号化サイド情報1518からサイド情報プロセッサ1570によって導出される制御情報1574も使用しうる。
【0138】
14.2 非相関器の関数
以下に、非相関器1590に関する若干の詳細が記載される。しかしながら、いくつか後述されるように、異なる非相関器が使用されうる点に留意されたい。
【0141】
非相関器の関数の実装のための正確な仕様は、この説明の範囲の外である。例えば、MPEG Surround Standardにおいて特定された非相関器に基づく、いくつかの無限インパルス応答(IIR)フィルタのバンクは、非相関化の目的のために利用されうる([MPS])。
【0143】
これらの関係から、
を結果として得る。
【0144】
非相関器出力Wは、入力として予測された信号を使用することによって、(予測誤差が予測信号に対して直交することを記憶している)MMSE推定器における予測誤りを補償するように使用されうる。
【0145】
それは、予測誤差がそれら自身の間において直交する一般的な場合ではない点に留意されたい。このように、結果として得られるミクスチャーの共分散行列(例えば、出力オーディオ信号1552a〜1552n)が所望の出力の共分散行列に類似することになるように、本発明のコンセプト(例えば、方法)の目的1つは、「ドライ」(すなわち、非相関器入力)信号(例えば、レンダリングされたオーディオ信号1582a〜1582n)および「ウェット」(すなわち、非相関器出力)信号(例えば、非相関化オーディオ信号1592a〜1592n)のミクスチャーを作成することである。
【0146】
さらに、以下に詳細に記載され、そして、しかしながら、受け入れられる、非相関化信号のいくつかの欠点をもたらす、非相関化装置のための複雑さの低減が使用される点に留意されたい。
【0147】
14.3 非相関化信号を使用している出力共分散修正
以下に、コンセプトが、合理的に良好な聴覚印象を得るように、出力オーディオ信号1552a〜1552nの共分散特性を調整することを記載している。
【0152】
理想的に作成されレンダリングされた出力シーンのターゲット共分散Cは、
C=RE
XR
H
として、定義される。
【0155】
原型の行列Hは、直接的なおよび非相関信号パスのために所望の加重に従って選択されうる。
【0156】
例えば、可能な原型行列Hは、
として、決定されうる。
【0157】
以下に、一般の行列Fの構造のための若干の数学的な導出が提供される。
【0158】
換言すれば、一般的な解決法のための混合行列Fの導出は、以下において記載される。
【0159】
共分散行列E
SおよびCは、
E
S=VQV
H,C=UTU
H
として、例えば、特異値分解(SVD)を使用して表わされ、TおよびQは、それぞれCおよびE
Sの特異値を有する対角行列であり、UおよびVは、特異ベクトルに対応するユニタリ行列である。
【0160】
(SVDの代わりに)シューア三角化または固有値分解のアプリケーションが、類似の結果(または、対角行列QおよびTが正値に限定される場合、同一の結果)に至ることに留意されたい。
【0164】
原型行列Hは、直接的なおよび非相関化信号パスのための所望の加重によって選択される。例えば、可能な原型行列Hは、
として、決定されうる。
【0165】
結合信号の共分散行列E
Sの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。
【0167】
しかしながら、あるいは、サイド情報プロセッサ1570は、情報1574として、ミキサ1598に直接的に混合行列Fを供給も、しうる。
【0168】
さらに、混合行列Fのための計算規則は、特異値分解を使用することを記載されていた。しかしながら、原型行列Hの入力a
i,iおよびb
i,iが選択されうるので、ある自由度がある点に留意されたい。好ましくは、原型行列Hの入力は、およそ0および1の間で選択される。非相関化オーディオ信号のインパクトは、比較的小さく、そして、それは、若干の状況において望ましくもある一方、値a
i,iが1に近づくように選択されうる場合、レンダリングされた出力オーディオ信号の重要な混合がある。しかしながら、レンダリングされたオーディオ信号の間における弱い混合がある一方、若干の他の状況において、非相関化オーディオ信号の比較的大きいインパクトを有することをより望まれうる。この場合、値b
i,iは、a
i,iより大きいように典型的に選択される。このように、デコーダ1550は、原型行列Hの入力を適切に選択することによって、前提条件に適応されうる。
【0169】
14.4 出力共分散修正のための簡略化された方法
このセクションにおいて、前述の混合行列Fのための2つの変形例の構造は、その値を決定するための典型的なアルゴリズムとともに記載される。2つの変形例は、異なる入力コンテンツ(例えば、オーディオ・コンテンツ)のために設計される。
− 高い相関コンテンツ(例えば、異なるチャネル対の間の高い相関を伴うチャネル・ベースの入力)のための共分散調整方法
− 独立入力信号(例えば、たいてい独立とみなされる、オブジェクト・ベースの入力)のためのエネルギー補償方法
【0171】
非相関化信号Wの混合が操作されれば、混合行列Pは、単位行列(または、その倍数)に低減されうる。このように、この簡略化された方法は、
による設定によって、記載されうる。
【0172】
システムの最後の出力は、
として、表わされうる。
【0173】
従って、システムの最後の出力共分散は、
として、表わされうる。
【0175】
従って、混合行列Mは、
のように、決定される。
【0177】
このアプローチは、ドライ出力(例えば、レンダリングされたオーディオ信号1582a〜1582n)を使用する良好な相互相関再構成の最大化を確実にし、そして、非相関化信号の混合の自由のみを利用する。換言すれば、レンダリングされたオーディオ信号(または、そのスケール化バージョン)と1つ以上の非相関化オーディオ信号とを結合する場合、異なるレンダリングされたオーディオ信号の間の混合は許容されない。しかしながら、出力オーディオ信号の相互相関特性または相互共分散特性を調整するために、所与の非相関化信号は、同じもしくは異なるスケール化、複数のレンダリングされたオーディオ信号、またはそのスケール化バージョンを結合することを許容する。ここで、定義されるように、例えば、結合は、行列Mによって定義される。
【0178】
以下に、制限行列F構造のためのいくつかの数学的な導出が提供される。
【0179】
換言すれば、簡略化された方法「A」のための混合行列Mの導出が説明される。
【0180】
共分散行列Δ
EおよびE
Wは、
Δ
E=UTU
H,E
W=VQV
H
として、例えば、特異値分解(SVD)を使用して表わされ、TおよびQは、それぞれΔ
EおよびE
Wの特異値を有する対角行列であり、UおよびVは、対応する特異ベクトルを含むユニタリ行列である。
【0181】
(SVDの代わりに)シューア三角化または固有値分解のアプリケーションが、類似の結果(または、対角行列QおよびTが正値に限定される場合、同一の結果)に至ることに留意されたい。
【0183】
方程式の両側が行列の正方形を表す点に留意して、我々は積算を落とし、全行列Mのために解決する。
【0184】
混合行列Mは、
として、決定されうることになる。
【0185】
この方法は、
として理解される原型行列Hを設定することによって、一般的な方法から導出されうる。
【0186】
ウェット信号の共分散行列E
Wの条件に応じて、最後の方程式は、いくつかの正則化を含むことを必要としうるが、さもなければ、数値的に安定でなければならない。
【0187】
14.4.2 エネルギー補償方法(B)
時々(アプリケーション・シナリオに応じて)、(例えば、レンダリングされたオーディオ信号の)パラメトリック再構成または非相関化信号の混合を許容することを望まないが、しかし、個々に、各パラメータ的に再構成された信号(例えば、レンダリングされたオーディオ信号)とそれ自身の非相関化信号のみを混合することが望ましい。
【0188】
この前提条件を達成するために、追加の制約は、簡略化方法「A」にもたらされうる。現在、ウェット信号(非相関化信号)の混合行列Mが、対角形式を有することを必要とする。
【0189】
このアプローチの主な目標は、パラメトリック再構成(例えば、レンダリングされたオーディオ信号)におけるエネルギーの損失を補償するように、非相関化信号を使用することになっている一方、出力信号の共分散行列の対角線の修正が無視される、すなわち、相互相関の直接的な取り扱いは、ない。従って、出力オブジェクト/チャネルの間(例えば、レンダリングされたオーディオ信号の間)のクロスリークは、非相関化信号のアプリケーションにおいて導かれない。
【0190】
その結果、ターゲット共分散行列(または所望の共分散行列)の主対角線のみに達し、非対角は、パラメトリック再構成および付加的な非相関化信号の精度の軽減にある。この方法は、信号が相関関係のないように考慮されるオブジェクトのみのベースのアプリケーションに最も適している。
【0192】
Cは、一般のケースのために前述したように決定されうる。
【0193】
例えば、混合行列Mは、(オーディオ・デコーダによって決定されうる)非相関化信号のエネルギーを伴う補償信号の所望のエネルギー((相互共分散行列Cの対角要素によって記述されうる)所望のエネルギーと(オーディオ・デコーダによって決定されうる)パラメトリック再構成のエネルギーとの間の差)を分割することによって直接的に導出されうる。
ここで、λ
Decは、出力信号(例えば、λ
Dec=4)に加えられる非相関化の構成要素の量を制限するために用いられる0以上の閾値である。
【0194】
エネルギーは、(例えば、OLD,IOC、およびレンダリング係数を使用して)パラメータ的に再構成されうるか、または、(典型的に、より計算的に価値のある)デコーダによって実質的に算出されうる点に留意されたい。
【0195】
この方法は、
に示されるような原型行列Hを設定することによって一般的な方法から導出されうる。
【0196】
この方法は、明確に、ドライのレンダリングされた出力の使用を最大にする。共分散行列が非対角の入力を有さない場合、方法は、単純化の「A」を伴うものと等価である。
【0197】
この方法は、低減された計算量の複雑さを有する。
【0198】
しかしながら、エネルギー補償方法は、相互相関条件が修正されないことを必ずしも意味するものではない点に留意されたい。我々が、理想的な非相関器および非相関化装置のための複雑さの低減でないことを使用する場合だけ、これは保持する。方法の意図は、エネルギーを回復して、交差項における修正を無視することである(交差項における変化は、相関特性を実質的に修正せず、全体の空間印象に影響を及ぼさない)。
【0199】
14.5 混合行列Fの前提条件
以下に、混合行列F、セクション14.3および14.4において記載されているその導出は、低下を回避する必要性を満たすと説明される。
【0200】
出力における低下を回避するために、パラメトリック再構成誤差のための補償をするいかなる方法が、以下の特性を有する結果をもたらさなければならない。レンダリング行列が、ダウンミックス行列に等しい場合、そのとき、出力チャネルは、ダウンミックスチャネルと等しい(または、少なくとも近似する)べきである。提案されたモデルは、この特性を満足させる。レンダリング行列は、ダウンミックス行列と等しい場合R=D、パラメトリック再構成は、
によって、与えられ、そして、所望の共分散行列は、
C=RE
XR
H=DE
XD
H=E
Y
である。
【0202】
これは、非相関化信号が、合計する際において、加重ゼロ(zero−weight)を有し、最後の出力は、ドライ信号によって与えられ、そして、それは、ダウンミックス信号と同一である。
【0203】
その結果、このレンダリングシナリオにおいて、ダウンミックス信号に等しいようなシステム出力のための所与の前提条件は満たされる。
【0204】
14.6 信号共分散行列E
Sの推定
混合行列Fを得るために、結合信号Sの共分散行列E
Sの情報が必要とされるか、または、少なくとも価値がある。
【0207】
非相関器は理想的である(すなわち、エネルギーを保つこと、入力に対して、出力は直交すること、そして、すべての出力は、相互に直交すること)と仮定するならば、共分散行列E
Sは、
として、簡略化された形式を使用して表されうる。
【0210】
相互に直交および/またはエネルギー保存の仮定が妨害される(例えば、利用可能な非相関器の数が、非相関化される信号の数よりも少ないときのケースにおける)場合、そのとき、共分散行列E
Wは、
として、推定される。
【0211】
15.非相関化装置のための複雑さの低減
以下に、本発明による実施の形態において使用される非相関器の複雑さがどのように低減されうるかが記載される。
【0212】
非相関器の機能の実装は、しばしば、計算的に複雑である点に留意されたい。いくつかのアプリケーション(例えば、ポータブル・デコーダ・ソリューション)において、非相関器の数の制限は、制限された計算機のリソースのために導入されることを必要とされうる。このセクションは、適用される非相関器(または非相関化)の数を制御することによって、非相関器の装置の複雑さの低減のための手段の記載を提供する。非相関化装置のインターフェースは、
図16および
図17において表現される。
【0216】
非相関化装置1700は、非相関器出力信号の第1のセットのK個の非相関器出力信号1732a〜1732kを受信し、それに基づいて、(「外部の」非相関器出力信号を構成する)非相関器出力信号の第2のセットのN個の信号1712a〜1712nを供給するように構成される、ポスト・ミキサ1740を含む。
【0217】
プレミキサ1720は、プレミキシング行列M
preによって記載される線形混合処理を、好ましくは実行しうる。さらに、ポスト・ミキサ1740は、K個の非相関器出力信号1732a〜1732kの第1のセットから(すなわち、非相関器の主要部1730の出力信号から)非相関器出力信号の第2のセットのN個の非相関器出力信号1712a〜1712nを導出するために、ポストミキシング行列M
preによって表されうる、線形混合(または、アップミックス)処理を、好ましくは実行する。
【0218】
提案された方法と装置の主要な考えは、以下によって、NからKへ、非相関器への(または非相関器の主要部への)入力信号の数を低減することである。
【0219】
・次式を伴う数を下げるために、信号(例えば、レンダリングされたオーディオ信号)をプレミックスする。
【0220】
・次式を伴う利用可能なK個の非相関器(例えば、非相関器の主要部)を使用して非相関化を適用する。
【0221】
・次式を伴うN個のチャネルへ非相関化信号をアップミックスする。
【0224】
使用される非相関器(または、個々の非相関器)の数Kは、特定されず、所望の計算量の複雑さおよび利用可能な非相関器に依存している。その値は、(最も高い計算量の複雑さの)N個から(最も低い計算量の複雑さの)1個に至るまで変化する。
【0225】
非相関器の装置への入力信号の数Nは、任意であり、そして、提案された方法は、システムのレンダリング構造において独立していて、いかなる入力信号の数を支持する。
【0226】
例えば、3Dのオーディオ・コンテンツを使用しているアプリケーションにおいて、多数出力チャネルについては、出力構成に応じて、プレミキシング行列M
preのためのある可能な表現が後述される。
【0227】
以下において、非相関化装置1700がマルチチャネル・オーディオ・デコーダにおいて使用された場合、プレミキサ1720(および、従って、ポスト・ミキサ1740によって実行されるポストミックス)によって実行されるプレミックスが、どのように調整されるかを記載する。ここで、非相関器入力信号の第1のセットの非相関器入力信号1710a〜1710nは、オーディオ・シーンの異なる空間的な位置と関連している。
【0228】
この目的のために、
図18は、異なる出力フォーマットのために使用されるスピーカ位置のテーブル表現を示す。
【0229】
図18の表1800において、第1列1810は、スピーカのインデックスナンバーを記載する。第2列1820は、スピーカラベルを記載する。第3列1830は、それぞれのスピーカの方位角の位置を記載し、第4列1832は、スピーカの位置の方位角の許容差を記載する。第5列1840は、それぞれのスピーカの位置の仰角を記載し、第6列1842は、対応する仰角許容差を記載する。第7列1850は、スピーカが出力フォーマットO−2.0のために使用されることを指し示す。第8列1860は、スピーカが出力フォーマットO−5.1のために使用されることを示す。第9列1864は、スピーカが出力フォーマットO−7.1のために使用されることを示す。第10列1870は、スピーカが出力フォーマットO−8.1のために使用されることを示し、第11列1880は、スピーカが出力フォーマットO−10.1のために使用されることを示し、そして、第12列1890は、スピーカが出力フォーマットO−22.2のために使用されることを示す。表に示されるように、2個のスピーカが、出力フォーマットO−2.0のために使用され、6個のスピーカが、出力フォーマットO−5.1のために使用され、8個のスピーカが、出力フォーマット7.1のために使用され、9個のスピーカが、出力フォーマットO−8.1のために使用され、11個のスピーカが、出力フォーマットO−10.1に対して使用され、そして、24個のスピーカが、出力フォーマットO−22.2のために使用される。
【0230】
しかしながら、1つの低音効果のスピーカは、出力フォーマットO−5.1,O−7.1,O−8.1およびO−10.1のために使用され、2つの低音効果のスピーカ(LFE1,LFE2)は、出力フォーマットO−22.2のために使用される点に留意されたい。さらに、好ましい実施の形態において、1つ以上の低音効果のスピーカを除いて、1つのレンダリングされたオーディオ信号(例えば、レンダリングされたオーディオ信号1582a〜1582nのうちの1つ)が、スピーカの各々に関連している点に留意されたい。従って、2つのレンダリングされたオーディオ信号は、O−2.1フォーマットにより使用される2個のスピーカに関連しており、O−5.1フォーマットが使用される場合、5つのレンダリングされたオーディオ信号は、5個の低音効果でないスピーカに関連しており、O−7.1フォーマットが使用される場合、7つのレンダリングされたオーディオ信号は、7個の低音効果でないスピーカに関連しており、O−8.1フォーマットが使用される場合、8つのレンダリングされたオーディオ信号は、8個の低音効果でないスピーカに関連しており、O−10.1フォーマットが使用されう場合、10個のレンダリングされたオーディオ信号が、10個の低音効果でないスピーカに関連しており、そして、O−22.2フォーマットが使用される場合、22個のレンダリングされたオーディオ信号は、22個の低音効果でないスピーカに関連している。
【0232】
図19a〜
図19gは、N=22のレンダリングされたオーディオ信号があるという仮定のもとに、レンダリングされたオーディオ信号1582a〜1582nをプレミックスするための異なるオプションを表す。例えば、
図19aは、プレミキシング行列M
preの入力のテーブル表現を示す。
図19aにおける1〜11のラベルを付けられた行は、プレミキシング行列M
preの行を表し、1〜22のラベルを付けられた列は、プレミキシング行列M
preの列を表す。さらに、プレミキシング行列M
preの行の各々は、非相関器入力信号の第2のセットのK個の非相関器入力信号1722a〜1722kのうちの1つ(すなわち、非相関器の主要部の入力信号)に関連している点に留意されたい。さらに、プレミキシング行列M
preの列の各々は、非相関器入力信号の第1のセットのN個の非相関器入力信号1710a〜1710nのうちの1つに関連しており、そして、その結果、(非相関器入力信号の第1のセットの非相関器入力信号1710a〜1710nが、実施の形態におけるレンダリングされたオーディオ信号1582a〜1582nに典型的に同一であるので)レンダリングされたオーディオ信号1582a〜1582nに関連している。従って、プレミキシング行列M
preの列の各々は、特定のスピーカに関連し、そして、特定の空間的な位置に関連しているので、その結果、スピーカは空間的な位置に関連している。行1910は、プレミキシング行列M
preの列が関連しているスピーカ(およびその結果、空間的な位置)を示す(ここで、スピーカのラベルは、表1800の列1820において定義される)。
【0233】
以下において、
図19aのプレミキシングM
preによって定義される機能が、さらに詳細に記載される。表に示すように、スピーカ(または、スピーカ位置と同等)「CH_M_000」および「CH_L_000」に関連するレンダリングされたオーディオ信号は、非相関器入力信号の第2のセットの第1の非相関器入力信号(すなわち、第1のダウンミックスされた非相関器入力信号)を得るために結合され、そして、それは、プレミキシング行列M
preの第1行の第1列および第2列における「1」の値によって指し示される。同様に、スピーカ(または、スピーカ位置と同等)「CH_U_000」および「CH_T_000」に関連するレンダリングされたオーディオ信号は、第2のダウンミックスされた非相関器入力信号(すなわち、非相関器入力信号の第2のセットの第2の非相関器入力信号)を得るために結合される。さらに、11個のダウンミックスされた非相関器入力信号が、22個のレンダリングされたオーディオ信号から導出されるように、
図19aのプレミキシング行列M
preは、2つのレンダリングされたオーディオ信号の11の組み合わせを定義することが示されうる。(プレミキシング行列の1〜4列および1および2行を参照して)2つのダウンミックスされた非相関器入力信号を得るために、4つの中心の信号が結合されることを示す。さらに、他のダウンミックスされた非相関器入力信号が、オーディオ・シーンの同じ側に関連している2つのオーディオ信号を結合することによって各々得られることを示す。例えば、プレミキシング行列の第3行によって表される、第3のダウンミックスされた非相関器入力信号は、+135°(「CH_M_L135」;「CH_U_L135」)の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。さらに、(プレミキシング行列の第4行によって表される)第4の非相関器入力信号は、−135°(「CH_M_R135」;「CH_U_R135」)の方位角の位置に関連しているレンダリングされたオーディオ信号を結合することによって得られる。従って、ダウンミックスされた非相関器入力信号の各々は、その(または同等の)方位角の位置(または、同等の水平位置)に関連している2つのレンダリングされたオーディオ信号を結合することによって得られる。ここで、典型的には、異なる仰角(または、同等の垂直位置)に関連している信号の結合を有する。
【0234】
(プレミキシング行列M
preの入力)N=22およびK=10に対するプレミキシング係数を示す
図19bを現在、参照する。
図19bの表の構成は、
図19aの表の構成と同一である。しかしながら、表に示されるように、第1行が、チャネルID(または位置)「CH_M_000」、「CH_L_000」、「CH_U_000」および「CH_T_000」を有する4つのレンダリングされたオーディオ信号の結合を記載する点において、
図19bによるプレミキシング行列M
preは、
図19aのプレミキシング行列M
preと異なる。換言すれば、垂直に隣接する位置に関連している4つのレンダリングされたオーディオ信号は、必要な非相関器(
図19aによる行列のための11個の非相関器の代わりに10個の非相関器)の数を低減するためにプレミキシングにおいて結合される。
【0235】
(プレミキシング行列M
preの入力)N=22およびK=9に対するプレミキシング係数を示す
図19cを現在、参照し、表に示すように、
図19cによるプレミキシング行列M
preは、9行のみにより構成される。さらに、第2のダウンミックスされた非相関器入力信号(非相関器入力信号の第2のセットの非相関器入力信号)を得るために、チャネルID(または位置)「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」に関連するレンダリングされたオーディオ信号が結合される点において、
図19cのプレミキシング行列M
preの第2行から示されうる。表に示すように、
図19aおよび
図19bによりプレミキシング行列によって別々にダウンミックスされた非相関器入力信号に結合されているレンダリングされたオーディオ信号は、
図19cによる共通のダウンミックスされた非相関器入力信号にダウンミックスされる。さらに、チャネルID「CH_M_L135」および「CH_U_L135」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの同じ側における同一の水平位置(または方位角位置)および空間的に隣接する垂直位置(または仰角)に関連しており、そして、チャネルID「CH_M_R135」および「CH_U_R135」を有するレンダリングされたオーディオ信号は、オーディオ・シーンの第2の側における同一の水平位置(または方位角位置)および空間的に隣接する垂直位置(または仰角)に関連している点に留意されたい。さらに、チャネルID「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」を有するレンダリングされたオーディオ信号は、左側の位置および右側の位置を含んでいる空間的な位置の水平のペア(または、水平の4つの部分から構成される)に関連している。換言すれば、単一の所与の非相関器を使用して非相関化するように結合される4つのレンダリングされたオーディオ信号の2つが、オーディオ・シーンの左側の空間的な位置に関連しており、同じ所与の非相関器を使用して非相関化するように結合される4つのレンダリングされたオーディオ信号の2つが、オーディオ・シーンの右側の空間的な位置に関連している、
図19cのプレミキシング行列M
preの第2行において示されうる。さらに、レンダリングされたオーディオ信号の「対称な」4つの部分から構成されることは、単一の(個々の)非相関器を使用して非相関化するようにプレミックスすることによって結合されるように、(前記4つのレンダリングされたオーディオ信号の)左側のレンダリングされたオーディオ信号は、(前記4つのレンダリングされたオーディオ信号の)右側のレンダリングされたオーディオ信号に関連している空間的な位置を伴って、オーディオ・シーンの中心面に関して対称的である空間的な位置に関連している。
【0236】
図19d,19e,19fおよび19gを参照して、ますますレンダリングされたオーディオ信号が、(個々の)非相関器の数が減少とともに(すなわち、Kの減少とともに)結合されることが分かる。
図19a〜
図19gに示すように、典型的に、2つに分かれたダウンミックスされた非相関器入力信号にダウンミックスされるレンダリングされたオーディオ信号は、1によって非相関器の数を減少させる場合、結合される。さらに、典型的に、空間的な位置の「対称な4つの部分から構成される」に関連している、この種のレンダリングされたオーディオ信号が、結合される。ここで、非相関器の比較的高い数に対して、等しいか、少なくとも類似の水平位置(または方位角位置)に関連しているレンダリングされたオーディオ信号が結合される。その一方で、非相関器の比較的低い数に対して、オーディオ・シーンの対向側における空間的な位置に関連しているレンダリングされたオーディオ信号も結合される。
【0237】
今、
図20a〜20d、21a〜21c、22a〜22bおよび23を参照して、類似のコンセプトが、レンダリングされたオーディオ信号の異なる数に対しても適用されうる。
【0238】
例えば、
図20a〜20dは、N=10およびKは2と5の間に対する、プレミキシング行列M
preの入力を記載する。
【0239】
同様に、
図21a〜21cは、N=8およびKは2と4の間に対する、プレミキシング行列M
preの入力を記載する。
【0240】
同様に、
図21d〜21fは、N=7およびKは2と4の間に対する、プレミキシング行列M
preの入力を記載する。
【0241】
図22aおよび22bは、N=5ならびにK=2およびK=3に対する、プレミキシング行列の入力を示す。
【0242】
最後に、
図23は、N=2およびK=1に対する、プレミキシング行列の入力を示す。
【0243】
要約すると、マルチチャネル・オーディオ・デコーダの一部であるマルチチャネル非相関器において、
図19〜23によるプレミキシング行列は、切り替え可能な方法で使用されうる。プレミキシング行列の間の切り替えは、例えば、(N個のレンダリングされたオーディオ信号を典型的に決定する)所望の出力構成に基づき、そして、(例えば、パラメータKを決定し、そして、オーディオ・コンテンツの符号化表現において含まれる複雑さの情報に基づいて調整されうる)非相関化の所望の複雑さにも基づいて、実行されうる。
【0244】
今、
図24を参照して、22.2出力フォーマットのための複雑さの低減が、詳細に記載されている。既に、上で概説されるように、プレミキシング行列およびポストミキシング行列を構成するための1つの可能な解決法は、一緒に混合されたチャネルを選択するために、再生レイアウトの空間的情報を使用することであり、そして、ミキシング係数を算出する。それらの位置に基づいて、幾何学的に関連したスピーカ(および、例えば、それに関連しているレンダリングされたオーディオ信号)は、
図24において記載されるように垂直および水平の対を与え、グループ化される。換言すれば、
図24は、表の形式において、レンダリングされたオーディオ信号に関連しうるように、スピーカの位置のグループ分けを示す。例えば、第1行2410は、オーディオ・シーンの中央におけるスピーカ位置の第1グループを記載する。第2行2412は、空間的に関連しているスピーカ位置の第2グループを表す。スピーカ位置「CH_M_L135」および「CH_U_L135」は、同一の方位角位置(または水平位置に同等)および隣接する仰角位置(または垂直に隣接する位置に同等)に関連している。同様に、位置「CH_M_R135」および「CH_U_R135」は、同一の方位角(または同一の水平位置に同等)および同様の仰角(または垂直に隣接する位置に同等)を含む。さらに、位置「CH_M_L135」、「CH_U_L135」、「CH_M_R135」および「CH_U_R135」は、位置の4つの部分から構成される。ここで、位置「CH_M_L135」および「CH_U_L135」は、オーディオ・シーンの中心面に関して、位置「CH_M_R135」および「CH_U_R135」に対称である。さらに、位置「CH_M_180」および「CH_U_180」も同一の方位角の位置(または同一の水平位置に同等)および同様の仰角(または隣接する垂直位置に同等)を含む。
【0245】
第3行2414は、位置の第3グループを表す。位置「CH_M_L030」および「CH_L_L045」は、空間的に隣接する位置であり、同様な方位角(または同様な水平位置に同等)および同様な仰角(または同様な垂直位置に同等)を含む点に留意されたい。同じことは、位置「CH_M_R030」および「CH_L_R045」に対しても維持する。さらに、位置の第3グループの位置は、位置の4つの部分から構成されるように形成される。ここで、位置「CH_M_L030」および「CH_L_045」は、位置「CH_M_R030」および「CH_L_R045」に空間的に隣接しており、オーディオ・シーンの中心面に関して対称である。
【0246】
第4行2416は、4つの追加の位置を表し、第2行の第1の4つの位置と比較したとき、同様の特性を有しており、位置の対称に4つの部分から構成されるように形成する。
【0247】
第5行2418は、対称の位置「CH_M_L060」、「CH_U_L045」、「CH_M_R060」および「CH_U_R045」の他の4つの部分から構成されることを表す。
【0248】
さらに、位置の異なるグループの位置に関連しているレンダリングされたオーディオ信号は、非相関器の数の減少とともにますます結合されうる点に留意されたい。例えば、マルチチャネル非相関器における11個の個々の非相関器において、第1および第2列における位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。加えて、第3および第4列において表される位置に関連しているレンダリングされたオーディオ信号は、各グループに対して結合されうる。さらに、第5および第6列において示される位置に関連しているレンダリングされたオーディオ信号は、第2グループに対して結合される。従って、(個々の非相関器に入力される)11個のダウンミックス非相関器入力信号が得られうる。しかしながら、より少ない個々の非相関器を有することが望ましい場合、1〜4列において示される位置に関連しているレンダリングされたオーディオ信号は、1つ以上のグループに対して結合されうる。また、個々の非相関器の数をさらに減少することが望ましい場合、第2のグループのすべての位置に関連しているレンダリングされたオーディオ信号が結合されうる。
【0249】
要約すると、出力レイアウト(例えば、スピーカに)に供給される信号は、水平および垂直依存があり、非相関化処理の間、維持されなければならない。従って、異なるスピーカのグループに対応するチャネルが一緒に混合されないように、ミキシング係数は算出される。
【0250】
利用可能な非相関器の数、または非相関化の所望のレベルに応じて、各グループにおいて、第1は、(中間層および上層との間、または中間層および下層の間における)垂直のペアを一緒に混合される。第2に、(左と右の間における)水平のペアまたは残りの垂直のペアが一緒に混合される。例えば、グループ3において、最初に、左の垂直のペア(「CH_M_L030」および「CH_L_L045」)と右の垂直のペア(「CH_M_R030」および「CH_L_R045」)におけるチャネルが一緒に混合され、このようにして、4から2まで、このグループのための必要な非相関器の数を減少する。非相関器の数をより減らすことが望ましい場合、得られた水平ペアは、1つのチャネルのみにダウンミックスされ、このグループのための必要な非相関器の数は、4から1まで減らされる。
【0251】
提示された混合規則に基づいて、(例えば、
図19〜23において示される)前述の表は、所望の非相関器の異なるレベルに対して(または、所望の非相関器の複雑さの異なるレベルに対して)導出される。
【0252】
16.第2の外部のレンダラ/フォーマット変換器との互換性
SAOCデコーダ(または、さらに一般的にいえば、マルチチャネル・オーディオ・デコーダ)が、外部の第2のレンダラ/フォーマット変換器と共に使用される場合、以下において、提案されたコンセプト(方法または装置)に対する変更が、使用されうる。
【0254】
− 非相関器の数が、レンダラ/フォーマット変換器から受信されたフィードバック情報に基づいて算出されるプレミキシング行列M
preを有するセクション15において記載される方法を使用して低減される(例えば、M
pre=D
convert、ここで、D
convertは、フォーマット変換器の内部で使用されるダウンミックス行列である。)。SAOCデコーダの外側で一緒に混合されるチャネルは、一緒にプレミックスされ、そして、SAOCデコーダの内部の同じ非相関器に供給される。
【0255】
外部フォーマット変換器を用いて、SAOC内部レンダラは、中間の構造(例えば、最多数のスピーカの構造)にプレレンダラする。
【0256】
結論として、プレミキシング行列が、外部レンダラに実際に結合される(非相関器入力信号の第1のセットの)この種の非相関器入力信号の組み合わせを定義するように、いくつかの実施の形態において、出力オーディオ信号についての情報は、外部レンダラにおいて一緒に混合されるか、またはフォーマット変換器がプレミキシング行列M
preを決定するように使用される。このように、(マルチチャネル非相関器の出力オーディオ信号を受信する)外部レンダラ/フォーマット変換器から受信された情報は(例えば、マルチチャネル・オーディオ・デコーダの内部レンダリング行列が固有にセットされるか、または、中間のレンダリング構造から導出されたミキシング係数に初期化するように設定される場合に)、プレミキシング行列を選択もしくは調整するように使用され、そして、外部レンダラ/フォーマット変換器は、マルチチャネル・オーディオ・デコーダに関して、上記したように出力オーディオ信号を受信するように接続される。
【0257】
17.ビットストリーム
以下において、追加の信号伝達情報がビットストリームにおいて(または、オーディオ・コンテンツの符号化表現において、同等に)使用されうることが記載される。本発明による実施の形態において、非相関化の方法は、所望の品質レベルを確実にするためのビットストリームに信号を送信されうる。このような方法で、ユーザ(またはオーディオ・エンコーダ)は、コンテンツに基づいて方法を選択するように、より多くの柔軟性を有する。この目的のために、MPEG SAOCビットストリーム構文は、例えば、使用された非相関化の方法を特定するための2ビットおよび/または構造(または複雑さ)を特定するための2ビットによって延長されうる。
【0258】
図25は、例えば、ビットストリーム部「SAOCSpecifigConfig()」または「SAOC3DSSpecificConfig()」に追加されうる、ビットストリーム要素「bsDecorrllationMethod」および「bsDecorrelationLevel」の構文表現を示す。
図25に示されるように、2つのビットは、ビットストリーム要素「bsDecorrelationMethod」のために使用され、そして、2つのビットは、ビットストリーム要素「bsDecorrelationLevel」のために使用されうる。
【0259】
図26は、表の形式において、ビットストリーム変数「bsDecorrelationMethod」の値と異なる非相関化方法との間の関連性を示す。例えば、3つの異なる非相関化の方法が、前記ビットストリーム変数の異なる値によって信号を送信されうる。例えば、セクション14.3において記載されるように、例えば、非相関化信号を使用する出力共分散修正は、オプションのうちの1つとして信号を送信されうる。他のオプションとして、例えば、セクション14.4.1において記載されるように、共分散調整方法が信号を送信されうる。さらにもう1つのオプションとして、例えば、セクション14.4.2において記載されるように、エネルギー補償方法が信号を送信されうる。従って、レンダリングされたオーディオ信号および非相関化オーディオ信号に基づいて出力オーディオ信号の信号特性の再構成のための3つの異なる方法は、ビットストリーム変数に依存して選択されうる。
【0260】
エネルギー補償モードは、セクション14.4.2において記載される方法を使用し、、制限された共分散調整モードは、セクション14.4.1において記載される方法を使用し、一般の共分散調整モードは、セクション14.3において記載される方法を使用する。
【0261】
今、表の表現の形式において、異なる非相関化レベルが、ビットストリーム変数「bsDecorrelationLevel」によってどのように信号を送信されうるかを示す
図27への参照することで、非相関化の複雑さを選択する方法が記載される。換言すれば、前記変数は、非相関化の複雑さが使用されるかについて決定するように、上記のマルチチャネル非相関器を含むマルチチャネル・オーディオ・デコーダによって評価されうる。例えば、前記ビットストリーム・パラメータは、値0,1,2および3を示されうる異なる非相関化「レベル」の信号を送信しうる。
【0262】
(例えば、非相関化レベルとして示されうる)非相関化の構成の例が、
図27の表において与えられる。
図27は、異なる「レベル」(例えば、非相関化レベル)および出力構造のための非相関器の数の表の表現を示す。換言すれば、
図27は、マルチチャネル非相関器によって使用される(非相関器入力信号の第2のセットの)K個の非相関器入力信号を示す。
図27の表において示されるように、ビットストリーム・パラメータ「bsDecorrelationLevelによって信号を送信される「非相関化レベル」に基づいて、マルチチャネル非相関器において使用される(個々の)非相関器の数は、22.2の出力構造に対して、11,9,7および5の間において切り替えられる。10.1の出力構造に対して、選択は、10,5,3および2の個々の非相関器の間においてなされ、8.1の構造に対して、選択は、8,4,3または2の個々の非相関器の間においてなされ、そして、7.1の出力構造に対して、選択は、前記ビットストリーム・パラメータによって信号を送信される「非相関化レベル」に依存する、7,4,3および2の間において切り替えられる。5.1の出力構造において、個々の非相関器の数、すなわち、5,3または2のような個々の非相関器の数のための3つの有効なオプションのみを有する。2.1の出力構造に対して、2つの個々の非相関器(非相関化レベル0)と1つの個々の非相関器(非相関化レベル1)との間の選択のみである。
【0263】
要約すると、非相関化の方法は、計算機のパワーおよび利用可能な非相関器の数に基づいて、デコーダ側で決定されうる。加えて、非相関器の数の選択は、エンコーダ側でなされ、ビットストリーム・パラメータを使用して信号の送信がなされる。
【0264】
従って、出力オーディオ信号を得るために、非相関化オーディオ信号がどのように適用されるか2つの方法が適用され、そして、非相関化信号の供給のための複雑さが、
図25において示されるビットストリームを使用してオーディオ・エンコーダのサイドから制御され、そして、
図26および27においてより詳細に定義される。
【0265】
18.発明の処理のためのアプリケーションの分野
オーディオ・シーンの人間の認識のためのより大きな重要性である導かれた方法の目的のうちの1つが、オーディオ・キューを復元することである点に留意されたい。本発明による実施の形態は、エネルギーのレベルおよび相関特性の再構成の正確さを改善し、従って、最後の出力信号の知覚的なオーディオ品質を増加させる。本発明による実施の形態は、任意の数のダウンミックス/アップミックスチャネルのために適用されうる。さらに、本願明細書において記載される方法および装置は、既存のパラメータのソース分離アルゴリズムと結合されうる。本発明による実施の形態は、適用される非相関化の機能の数における設定の制約によってシステムの計算の複雑さを制御することを許容する。本発明による実施の形態は、MPSとトランスコーディング・ステップを取り除くことによって、SAOCのようなオブジェクト・ベースのパラメトリック構造アルゴリズムの簡略化に通じうる。
【0266】
19.符号化/復号化の環境
以下において、本発明によるコンセプトにおけるオーディオ符号化/復号化の環境が記載される。
【0267】
本発明によるコンセプトが使用されうる3Dオーディオ・コーデック・システムは、チャネルの符号化のためのMPEG−D USACコーデックおよびオブジェクトの大量の符号化のための効率を増加させるためのオブジェクト信号に基づく。MPEG−SAOC技術は、適応されている。レンダラの3つのタイプは、チャネルのレンダリングオブジェクト、ヘッドホンへのレンダリングチャネル、または異なるスピーカセットへのレンダリングチャネルのタスクを実行する。オブジェクト信号が、SAOCを使用して明確に送信されるか、またはパラメータ的に符号化される場合に、対応するオブジェクトのメタデータ情報が圧縮され、そして、3Dオーディオ・ストリームに多重化される。
【0268】
図28,29および30は、3Dオーディオ・システムの異なるアルゴリズムのブロックに示す。
【0269】
図28は、この種のオーディオ・エンコーダのブロック概略図を示し、そして、
図29は、この種のオーディオ・デコーダのブロック概略図を示す。換言すれば、
図28および29は、3Dオーディオ・システムの異なるアルゴリズムのブロックを示す。
【0270】
3Dオーディオ・エンコーダ2900のブロック概略図を示す
図28を参照することで、いくつかの詳細は説明される。エンコーダ2900は、1つ以上のチャネル信号2912および1つ以上のオブジェクト信号2914を受信し、そして、それに基づいて、1つ以上のチャネル信号2916および1つ以上のオブジェクト信号2918,2920を供給するオプションのプレレンダラ/ミキサ2910を含む。オーディオ・エンコーダは、USACエンコーダ2930および任意にSAOCエンコーダ2940も含む。SAOCエンコーダ2940は、1つ以上のSAOCトランスポート・チャネル2942およびSAOCエンコーダに供給される1つ以上のオブジェクト2920に基づいてSAOCサイド情報2944を供給するように構成される。さらに、USACエンコーダ2930は、プレレンダラ/ミキサ2910からチャネルおよびプレレンダリングされたオブジェクトを含むチャネル信号2916を受信し、プレレンダラ/ミキサ2910から1つ以上のオブジェクト信号2918を受信し、そして、1つ以上のSAOCトランスポート・チャネル2942およびSAOCサイド情報2944を受信し、そして、それに基づいて、符号化表現2932を供給するように構成される。さらに、オーディオ・エンコーダ2900は、(プレレンダラ/ミキサ2910によって評価されうる)オブジェクト・メタデータ2952を受信し、符号化オブジェクト・メタデータ2954を得るためにオブジェクト・メタデータを符号化するように構成される、オブジェクト・メタデータ・エンコーダ2950も含む。符号化メタデータは、USACエンコーダ2930によっても受信され、符号化表現2932を供給するために使用される。
【0271】
オーディオ・エンコーダ2900の個々の構成要素に関するいくつかの詳細が以下に説明される。
【0272】
図29を参照することで、オーディオ・デコーダ3000が記載される。オーディオ・デコーダ3000は、符号化表現3010を受信し、それに基づいて、マルチチャネル・スピーカ信号3012、ヘッドホン信号3014および/または代替フォーマットにおける(例えば、5.1フォーマットにおける)スピーカ信号3016を供給するように構成される。オーディオ・デコーダ3000は、符号化表現3010に基づいて、1つ以上のチャネル信号3022、1つ以上のプレレンダリングされたオブジェクト信号3024、1つ以上のオブジェクト信号3026、1つ以上のSAOCトランスポート・チャネル3028、SAOCサイド情報3030および圧縮されたオブジェクト・メタデータ情報3032を供給する、USACデコーダ3020を含む。オーディオ・デコーダ3000は、1つ以上のオブジェクト信号3026およびオブジェクト・メタデータ情報3044に基づいて、1つ以上のレンダリングされたオブジェクト信号3042を供給するように構成されるオブジェクト・レンダラ3040も含む。ここで、オブジェクト・メタデータ情報3044は、圧縮されたオブジェクト・メタデータ情報3032に基づいて、オブジェクト・メタデータ・デコーダ3050によって供給される。オーディオ・デコーダ3000は、SAOCトランスポート・チャネル3028およびSAOCサイド情報3030を受信し、それに基づいて、1つ以上のレンダリングされたオブジェクト信号3062を供給するように構成されるSAOCデコーダ3060も任意に含む。オーディオ・デコーダ3000は、チャネル信号3022、プレレンダリングされたオブジェクト信号3024.レンダリングされたオブジェクト信号3042、およびレンダリングされたオブジェクト信号3062を受信し、それに基づいて、例えば、マルチチャネル・スピーカ信号3012を構成する複数の混合チャネル信号3072を供給するように構成されるミキサ3070も含む。オーディオ・デコーダ3000は、例えば、混合チャネル信号3072を受信し、それに基づいて、ヘッドホン信号3014を供給するように構成される、バイノーラル・レンダラ3080も含む。さらに、オーディオ・デコーダ3000は、混合チャネル信号3072および再構成レイアウト情報3092を受信し、それに基づいて、代替のスピーカセットのためにスピーカ信号3016を供給するように構成されるフォーマット変換器3090を含みうる。
【0273】
以下において、オーディオ・エンコーダ2900およびオーディオ・デコーダ3000の構成要素に関するいくつかの詳細が、記載されている。
【0274】
19.1 プレレンダラ/ミキサ
プレレンダラ/ミキサ2910は、符号化前に、チャネルに加えて、オブジェクト入力シーンをチャネル・シーンに変換するために任意に使用されうる。機能的に、例えば、それは、後述するオブジェクト・レンダラ/ミキサと同一もありうる。
【0275】
オブジェクトのプレレンダリングは、同時に能動的なオブジェクト信号の数から独立しているエンコーダ入力での決定論的な信号エントロピーを、例えば、確実にしうる。
【0276】
オブジェクトのプレレンダリングについて、オブジェクト・メタデータの伝送は、必要とされない。
【0277】
個別のオブジェクト信号は、エンコーダが使用するように構成されるチャネル・レイアウトにレンダリングされ、各チャネルに対するオブジェクトの重みは、関連するオブジェクト・メタデータ(OAM)1952から得られる。
【0278】
19.2 USACはの主要部のコーデック
スピーカチャネル信号、個々のオブジェクト信号、オブジェクト・ダウンミックス信号およびプレレンダリングされた信号のための主要部のコーデック2930,3020は、MPEG−D USAC技術に基づく。それは、入力チャネルおよびオブジェクト割り当ての幾何学的および意味論的な情報に基づくチャネルおよびオブジェクト・マッピング情報による多数の信号の復号化を扱う。このマッピング情報は、どのように、入力チャネルおよびオブジェクトがUSACチャネル要素(CPE,SCE,LFE)にマッピングされるか、そして、対応する情報は、デコーダに送信されるかを記載する。
【0279】
SAOCデータまたはオブジェクト・メタデータのようなすべての追加のペイロードは、拡張要素を通して渡しており、エンコーダにおいて考慮されている。オブジェクトの復号化は、レンダラのためレート/歪みの前提条件および双方向性の前提条件によって決まる異なる方法で可能である。以下のオブジェクト符号化変数が可能である。
【0280】
・ プレレンダリングされたオブジェクト:オブジェクト信号は、符号化前にプレレンダリングされ、22.2チャネル信号に混合される。次の符号化チェーンは、22.2チャネル信号を参照する。
【0281】
・ 別々のオブジェクト波形:エンコーダにモノラル波形として適用されるようなオブジェクト。エンコーダは、チャネル信号に加えて、オブジェクトを送信するために単一のチャネル要素SCEを使用する。復号化オブジェクトは、レンダリングされ、受信側で混合される。圧縮されたオブジェクト・メタデータ情報は、同時に、受信機/レンダラに送信される。
【0282】
・ パラメータのオブジェクト波形:オブジェクト特性および各々に対するそれらの関係は、SAOCパラメータによって記載されている。オブジェクト信号のダウンミックスは、USACによって符号化される。パラメータ情報は、同時に送信される。ダウンミックスの数は、オブジェクトの数および全体のデータレートに応じて選択される。圧縮されたオブジェクト・メタデータ情報は、SAOCレンダラに送信される。
【0283】
19.3. SAOC
オブジェクト信号のためのSAOCエンコーダ2940およびSAOCデコーダ3060は、MPEG SAOC技術に基づく。システムは、送信されたチャネルおよび付加的なパラメータ・データ(オブジェクト・レベル差OLD、内部オブジェクト相関IOC、ダウンミックス・ゲインDMG)より少ない数に基づいて、オーディオ・オブジェクトの数を再形成し、修正し、そしてレンダリングすることができる。付加的なパラメータのデータは、復号化を非常に効率的にし、個々に、すべてのオブジェクトを送信するための必要であるより著しく低いデータレートを示す。SAOCエンコーダは、モノラル波形としてオブジェクト/チャネル信号を入力し、そして、(3Dオーディオ・ビットストリーム2932,3010に圧縮される)パラメトリック情報および(単一のチャネル要素を使用して符号化され、送信される)SAOCトランスポート・チャネルを出力する。SAOCデコーダ3000は、復号化SAOCトランスポート・チャネル3028およびパラメータの情報3030からオブジェクト/チャネル信号を再構成し、再構成レイアウト、展開されたオブジェクト・メタデータ情報およびユーザ相互作用情報のオプションに基づいて、出力オーディオ・シーンを生成する。
【0284】
19.4. オブジェクト・メタデータ・コーデック
オブジェクト毎に、3D空間におけるオブジェクトの幾何学的な位置および量を特定する関連するメタデータは、時間および空間のオブジェクト特性の量子化によって、効率よく符号化される。圧縮されたオブジェクト・メタデータcOAM2954,3032は、サイド情報として受信機に送信される。
【0285】
19.5. オブジェクト・レンダラ/ミキサ
オブジェクト・レンダラは、所与の再構成フォーマットに従ってオブジェクト波形を生成するために、展開されたオブジェクト・メタデータOAM3044を利用する。各オブジェクトは、そのメタデータに従って、特定の出力チャネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から結果を得る。
【0286】
コンテンツと個々の/パラメータのオブジェクトに基づく両方のチャネルが復号化される場合、結果として得られる波形を出力する前に(または、バイノーラル・レンダラもしくはスピーカ・レンダラ・モジュールのようなポスト・プロセッサ・モジュールにそれらを供給する前に)、チャネル・ベースの波形とレンダリングされたオブジェクトの波形が混合される。
【0287】
19.6. バイノーラル・レンダラ
各入力チャネルが仮想音源によって表されるように、バイノーラル・レンダラ・モジュール3080は、マルチチャネル・オーディオ材料のバイノーラルのダウンミックスを生じる。処理は、QMF領域にフレームごとに実行される。バイノーラル化は、測定されたバイノーラルの部屋のインパルス応答に基づく。
【0288】
19.7 スピーカ・レンダラ/フォーマット変換器
スピーカ・レンダラ3090は、送信されたチャネル構成および所望の再生フォーマットとの間で変換する。以下において、それは、「フォーマット変換器」と呼ばれる。フォーマット変換器は、より少ない数の出力チャネルに変換する、すなわち、ダウンミックスを生成する。システムは、自動的に入出力フォーマットの所与の組み合わせのための最適化されたダウンミックス行列を生成して、ダウンミックス処理においてこれらの行列を適用する。フォーマット変換器は、標準のスピーカの構成と同様に、非標準のスピーカの位置を有するランダムな構成を許容する。
【0289】
図30は、フォーマット変換器のブロック概略図を示す。換言すれば、
図30は、フォーマット変換器の構造を示す。
【0290】
図で示されるように、フォーマット変換器3100は、ミキサ出力信号3110、例えば、混合チャネル信号3072を受信し、スピーカ信号3112、例えば、スピーカ信号3016を供給する。フォーマット変換器は、QMF領域におけるダウンミックス処理3120およびダウンミックス・コンフィギュレータ3130を含む。ここで、ダウンミックス・コンフィギュレータは、ミキサ出力レイアウト情報3032および再構成レイアウト情報3034に基づいて、コンフィギュレーション情報をダウンミックス処理3020に供給する。
【0291】
19.8.概論
さらに、本願明細書において記載されたコンセプト、例えば、オーディオ・デコーダ100、オーディオ・エンコーダ200、マルチチャネル非相関器600、マルチチャネル・オーディオ・デコーダ700、オーディオ・エンコーダ800またはオーディオ・デコーダ1550が、オーディオ・エンコーダ2900および/またはオーディオ・デコーダ3000において使用されうる点に留意されたい。例えば、前述のオーディオ・エンコーダ/デコーダは、SAOCエンコーダ2940の一部としておよび/またはSAOCデコーダ3060の一部として使用されうる。一方、前述のコンセプトは、3Dオーディオ・デコーダ3000および/またはオーディオ・エンコーダ2900の他の位置でも使用されうる。
【0292】
当然、前述の方法は、
図28および29に従って、オーディオ情報を符号化または復号化するためのコンセプトにおいても使用されうる。
【0293】
20.付加的な実施の形態
20.1 はじめに
以下において、本発明による他の実施の形態が、記載される。
【0294】
図31は、本発明の実施の形態によるダウンミックス・プロセッサのブロック概略図を示す。
【0295】
ダウンミックス・プロセッサ3100は、アップミキサ3110、レンダラ3120、コンバイナ3130およびマルチチャネル非相関器3140を含む。レンダラは、レンダリングされたオーディオ信号Y
dryをコンバイナ3130およびマルチチャネル非相関器3140に供給する。マルチチャネル非相関器は、(非相関器入力信号の第1のセットとしてみなされうる)レンダリングされたオーディオ信号を受信し、それに基づいて非相関器入力信号のプレミックスされた第2のセットを非相関器の主要部3160に供給する、プレミキサ3150を含む。非相関器の主要部は、ポスト・ミキサ3170によって利用するために、非相関器入力信号の第2のセットに基づいて、非相関器出力信号の第1のセットを供給する。ポスト・ミキサは、コンバイナ3130に供給されるポストミックスされた非相関器出力信号の第2のセットを得るために、非相関器の主要部3160によって供給された非相関器出力信号をポストミックス(または、アップミックス)する。
【0296】
レンダラ3130は、例えば、レンダリングするための行列Rを適用し、プレミキサは、例えば、プレミックスするための行列M
preを適用し、ポスト・ミキサは、例えば、ポストミックスするための行列M
postを適用し、そして、コンバイナは、例えば、結合するための行列Pを適用する。
【0297】
ダウンミックス・プロセッサ3100または個々の構成要素またはその機能は、本願明細書において記載されるオーディオ・デコーダにおいて、使用されうる点に留意されたい。さらに、ダウンミックス・プロセッサは、本願明細書において記載されるいくつかの特徴および機能によって補充されうる点に留意されたい。
【0298】
20.2. SAOC 3D処理
ISO/IEC 23003−1:2007に記載されているハイブリッド・フィルタバンクが適用される。DMG、OLD、IOCパラメータの逆量子化は、ISO/IEC 23003−2:2010の7.1.2において定義されるように同じ規則に従う。
【0299】
20.2.1 信号およびパラメータ
オーディオ信号は、あらゆる時間枠nおよびあらゆるハイブリッド・サブバンドkに対して定義される。対応するSAOC 3Dパラメータは、各パラメータ時間枠lおよび処理バンドmに対して定義される。ハイブリッドおよびパラメータ領域間の次のマッピングは、ISO/IEC 23003−1:2007の表A.31によって特定される。それゆえ、すべての計算は、特定の時間/バンド・インデックスに関して実行され、そして、対応する次元は、各導入変数に対して暗に定義される。
【0300】
SAOC 3Dデコーダで利用可能なデータは、マルチチャネル・ダウンミックス信号X、共分散行列E、レンダリング行列Rおよびダウンミックス行列Dで構成される。
【0302】
ここで、逆量子化オブジェクト・パラメータは、
OLD
i=D
OLD(i,l,m),IOC
i,j=D
IOC(i,j,l,m)
として、得られる。
【0305】
ここで、逆量子化ダウンミックス・パラメータは、
DMG
i,j=D
DMG(i,j,l)
として、得られる。
【0311】
20.2.2 復号化
SAOC 3Dパラメータおよびレンダリング情報を用いて出力信号を得るための方法が記載される。SAOC 3Dデコーダは、例えば、SAOC 3Dパラメータ・プロセッサおよびSAOC 3Dダウンミックス・プロセッサから構成されうる。
【0312】
20.2.2.1 ダウンミックス・プロセッサ
(ハイブリッドQMF領域において表される)ダウンミックス・プロセッサの出力信号は、SAOC 3Dデコーダの最後の出力を得ている、ISO/IEC 23003−1:2007において記載されるように、対応する合成フィルタバンクに供給される。ダウンミックス・プロセッサの詳細な構造は、
図31において表現される。
【0313】
ここで、Uは、パラメトリック・アンミキシング行列を表し、20.2.2.1.1および20.2.2.1.2.において定義される。
【0315】
混合行列P=(P
dry P
wet)は、20.2.3において記載される。異なる出力構成のための行列M
preは、
図19〜23において与えられ、以下の方程式を使用して得られる。
【0316】
図32において示されるように、復号化モードは、ビットストリーム要素bsNumSaocDmxObjestsによって制御される。
【0317】
20.2.2.1.1 結合復号化モード
結合復号化モードの場合において、パラメトリック・アンミキシング行列Uは、
U=ED
*J
によって、与えられる。
【0325】
ここで、行列Δの特異ベクトルvは、以下の特性方程式を使用して得られる。
【0330】
20.2.4.1 エネルギー補償モード
エネルギー補償モードは、パラメトリック再構成においてエネルギーの損失に対して補償するために、非相関化信号を使用する。混合行列P
dryおよびP
wetは、
によって、与えられる。
ここで、λ
Dec=4は、出力信号に加えられる非相関化要素の量を制限するために使用される定数である。
【0337】
ターゲット共分散行列Cは、
として、特異値非相関化を使用して分解される。
【0344】
21. 実施変形例
いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、ブロックあるいは装置は、方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェアによって(または使用して)実行されうる。いくつかの実施の形態において、最も重要な方法のステップの1つ以上は、この種の装置によって実行されうる。
【0345】
本発明の符号化された音声信号は、デジタル記憶媒体に保存されるか、または、ワイヤレス伝送媒体または例えば、インターネットのような有線の伝送媒体のような伝送媒体上に送信されうる。
【0346】
特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータ・システムと協働するか(または、協働することができる)、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。
【0347】
本発明による若干の実施の形態は、本願明細書において記載される方法のうちの1つが実行されるように、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。
【0348】
通常、本発明の実施の形態は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの1つを実行するために作動される。プログラムコードは、機械可読キャリアに、例えば、格納されうる。
【0349】
他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
【0350】
換言すれば、従って、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
【0351】
従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、一般的には、有形でありおよび/または、暫定的である。
【0352】
従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。
【0353】
更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。
【0354】
更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。
【0355】
本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの1つを実行するためのコンピュータ・プログラムを(例えば、電子的にまたは光学的に)転送するために構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイルサーバを含む。
【0356】
いくつかの実施の形態において、プログラミング可能な論理回路(例えば、現場でプログラム可能なゲートアレイ(Field Programmable Gate Array))が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。
【0357】
上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。
【0358】
参考文献
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[Blauert] J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997.
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.
[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.
[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.
[OCD] J. Vilkamo, T. Baeckstroem, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
International Patent No. WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO CODING" issued on 9 March 2006.