(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-14
(45)【発行日】2022-01-25
(54)【発明の名称】マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
(51)【国際特許分類】
G10L 19/008 20130101AFI20220118BHJP
H04S 7/00 20060101ALI20220118BHJP
G10L 19/00 20130101ALI20220118BHJP
【FI】
G10L19/008 100
H04S7/00 300
G10L19/00 330B
【外国語出願】
(21)【出願番号】P 2019235974
(22)【出願日】2019-12-26
(62)【分割の表示】P 2017522811の分割
【原出願日】2015-10-29
【審査請求日】2020-01-23
(32)【優先日】2014-10-31
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2015-03-04
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
(72)【発明者】
【氏名】レヒトーネン,ヘイディ-マリア
(72)【発明者】
【氏名】クレイサ,ヤヌッシュ
【審査官】渡部 幸和
(56)【参考文献】
【文献】特表2007-519349(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
オーディオ・デコード方法であって:
二チャネル・ダウンミックス信号と、該ダウンミックス信号に基づくMチャネル・オーディオ信号の再構成のためのアップミックス・パラメータとを受領する段階と;
前記Mチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領する段階であって、それらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルを、一つまたは複数のチャネルのそれぞれ第一および第二のグループに分割したものに対応し、示された符号化フォーマットにおいて、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記一つまたは複数のチャネルの第一の線形結合に対応し、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記一つまたは複数のチャネルの第二の線形結合に対応する、段階と;
前記ダウンミックス信号の線形マッピングとして第一のアップミックス信号を計算する段階であって、アップミックス係数の第一の集合が前記ダウンミックス信号に適用される、段階と;
前記ダウンミックス信号の線形マッピングとして第二のアップミックス信号を計算する段階であって、アップミックス係数の第二の集合が前記ダウンミックス信号に適用される、段階と;
前記第一のアップミックス信号および第二のアップミックス信号を組み合わせて、再構成されるべき前記Mチャネル・オーディオ信号に対応する多次元の再構成された信号を得る段階とを含み、
前記Mチャネル・オーディオ信号はあらかじめ定義されたチャネル構成をもち、前記の示される選択された符号化フォーマットは、前記少なくとも二つの符号化フォーマットの間で切り換わ
り、
当該方法は、
示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する段階と;
前記ダウンミックス信号の線形マッピングとして脱相関入力信号を計算する段階であって、前記ダウンミックス信号に前記一組のプレ脱相関係数が適用され、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の第一のチャネル(TBL)が、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第一の固定したチャネル(D3)に寄与するよう、決定される、段階と;
前記脱相関入力信号に基づいて脱相関済み信号を生成する段階と;
前記第二のアップミックス信号を、前記脱相関済み信号の線形マッピングとして決定する段階とをさらに含む、
オーディオ・デコード方法。
【請求項2】
請求項1記載の方法を実行するよう構成された一つまたは複数のコンポーネントを有するオーディオ・デコード・システム。
【請求項3】
前記示される符号化フォーマットに基づいて係数の集合の存在を判別することをさらに含む、請求項1記載のオーディオ・デコード方法。
【請求項4】
係数の前記集合が、前記Mチャネル・オーディオ信号に基づいて適応される、請求項
3記載のオーディオ・デコード方法。
【請求項5】
前記脱相関入力信号および前記脱相関済み信号はそれぞれM-2個のチャネルを含み、前記脱相関済み信号のチャネルは、前記脱相関入力信号のたった一つのチャネルに基づいて生成され、前記プレ脱相関係数は、各符号化フォーマットにおいて、前記脱相関入力信号のチャネルが前記ダウンミックス信号のたった一つのチャネルから寄与を受けるよう決定される、請求項
4記載のオーディオ・デコード方法。
【請求項6】
前記プレ脱相関係数は、さらに、前記Mチャネル・オーディオ信号の第二のチャネル(L)が、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第二の固定したチャネル(D1)に寄与するよう、決定される;および/または前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の一対のチャネル(LS、LB)が、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第三の固定したチャネル(D2)に寄与するよう、決定される、請求項1および3ないし
5のうちいずれか一項記載のオーディオ・デコード方法。
【請求項7】
第一の符号化フォーマットから第二の符号化フォーマットへの前記示された符号化フォーマットの切り換えを検出することに応答して、前記第一の符号化フォーマットに関連付けられたプレ脱相関係数値から前記第二の符号化フォーマットに関連付けられたプレ脱相関係数値への漸進的な遷移を実行することをさらに含む、請求項1および3ないし
6のうちいずれか一項記載のオーディオ・デコード方法。
【請求項8】
受領されたシグナルが第一のあらかじめ定義されたチャネル構成を示すことを検出することに応答して:
二チャネル・ダウンミックス信号および関連するアップミックス・パラメータを受領し;
前記ダウンミックス信号の第一のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第一のオーディオ信号のパラメトリック再構成を実行することをさらに含む、
請求項1および3ないし
7のうちいずれか一項記載のオーディオ・デコード方法。
【請求項9】
受領されたシグナルが前記第一のあらかじめ定義されたチャネル構成を示すことを検出することに応答して、前記ダウンミックス信号の第二のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第二のオーディオ信号のパラメトリック再構成を実行する段階をさらに含む、
請求項
8のうちいずれか一項記載のオーディオ・デコード方法。
【請求項10】
請求項1ないし
8のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2014年10月31日に出願された米国仮特許出願第62/073,642号および2015年3月4日に出願された米国仮特許出願第62/128,425号の優先権を主張するものである。
【0002】
技術分野
ここに開示される発明は、概括的にはオーディオ信号のパラメトリック・エンコードおよびデコードに、チャネル・ベースのオーディオ信号のパラメトリック・エンコードおよびデコードに関する。
【背景技術】
【0003】
複数のスピーカーを有するオーディオ再生システムは、マルチチャネル・オーディオ信号によって表わされるオーディオ・シーンを再生するために頻繁に使われる。ここで、マルチチャネル・オーディオ信号のそれぞれのチャネルはそれぞれのスピーカー上で再生される。マルチチャネル・オーディオ信号は、たとえば複数の音響トランスデューサを介して記録されたものであってもよく、あるいはオーディオ・オーサリング設備によって生成されたものであってもよい。多くの状況において、オーディオ信号を再生設備に伝送するための帯域幅制限および/またはオーディオ信号をコンピュータ・メモリまたはポータブル記憶デバイスに記憶するための限られたスペースがある。帯域幅または記憶サイズを減らすよう、オーディオ信号のパラメトリック符号化のためのオーディオ符号化システムがある。エンコーダ側では、これらのシステムは典型的にはマルチチャネル・オーディオ信号をダウンミックスして、典型的にはモノ(一チャネル)またはステレオ(二チャネル)ダウンミックスであるダウンミックス信号にし、レベル差および相互相関のようなパラメータによってチャネルの属性を記述するサイド情報を抽出する。次いで、ダウンミックスおよびサイド情報はエンコードされ、デコーダ側に送られる。デコーダ側では、サイド情報のパラメータの制御のもとで、マルチチャネル・オーディオ信号がダウンミックスから再構成される、すなわち近似される。
【発明の概要】
【発明が解決しようとする課題】
【0004】
家庭におけるエンドユーザーに向けた台頭しつつあるセグメントを含めマルチチャネル・オーディオ・コンテンツの再生のために利用可能な装置およびシステムの異なる型の幅広い範囲に鑑み、帯域幅要求および/または記憶のための要求されるメモリ・サイズを減らす、デコーダ側でのマルチチャネル・オーディオ信号の再構成を容易にするおよび/またはデコーダ側で再構成されるマルチチャネル・オーディオ信号の忠実度を高めるよう、マルチチャネル・オーディオ・コンテンツを効率的にエンコードする新たな代替的な方法が必要とされている。
【図面の簡単な説明】
【0005】
以下では、付属の図面を参照して、例示的な実施形態についてより詳細に述べる。
【
図1】例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのエンコード部の一般化されたブロック図である。
【
図2】例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのエンコード部の一般化されたブロック図である。
【
図3】ある例示的実施形態に基づく、
図1に描かれたエンコード部を有するオーディオ・エンコード・システムの一般化されたブロック図である。
【
図4】例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法のフローチャートである。
【
図5】例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法のフローチャートである。
【
図6】例示的実施形態に基づく、11.1チャネル(または7.1+4チャネルまたは7.1.4チャネル)オーディオ信号をそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割する代替的な仕方を示す図である。
【
図7】例示的実施形態に基づく、11.1チャネル(または7.1+4チャネルまたは7.1.4チャネル)オーディオ信号をそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割する代替的な仕方を示す図である。
【
図8】例示的実施形態に基づく、11.1チャネル(または7.1+4チャネルまたは7.1.4チャネル)オーディオ信号をそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割する代替的な仕方を示す図である。
【
図9】ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および関連するアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するためのデコード部の一般化されたブロック図である。
【
図10】ある例示的実施形態に基づく、
図9に描かれたデコード部を有するオーディオ・デコード・システムの一般化されたブロック図である。
【
図11】ある例示的実施形態に基づく、
図9に描かれたデコード部に含まれる混合部の一般化されたブロック図である。
【
図12】ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および関連するアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するためのオーディオ・デコード方法のフローチャートである。
【
図13】ある例示的実施形態に基づく、5.1チャネル信号および関連するアップミックス・パラメータに基づいて13.1チャネル・オーディオ信号を再構成するためのデコード部の一般化されたブロック図である。
【
図14】Mチャネル・オーディオ信号(および可能性としてはさらなるチャネル)をエンコードするために使われるべき好適な符号化フォーマットを決定し、選ばれたフォーマットについて、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとして表現するよう構成されたエンコード部の一般化されたブロック図である。
【
図15】
図14に示されるエンコード部におけるデュアルモード・ダウンミックス部の詳細を示す図である。
【
図16】
図14に示されるエンコード部におけるデュアルモード解析部の詳細を示す図である。
【
図17】
図14ないし
図16に示されるコンポーネントによって実行されうるオーディオ・エンコード方法のフローチャートである。 すべての図面は概略的であり、概して本発明を明快にするために必要な部分を示すだけである。一方、他の部分は省略されたり、単に示唆されるだけであることがある。
【発明を実施するための形態】
【0006】
本稿での用法では、「オーディオ信号」は、単体のオーディオ信号、オーディオビジュアル信号もしくはマルチメディア信号のオーディオ部分またはこれらのいずれかをメタデータと組み合わせたものでありうる。本稿での用法では、「チャネル」は、あらかじめ定義された/固定された空間位置/配向または「左」や「右」のような定義されていない空間位置に関連付けられたオーディオ信号である。
【0007】
〈I.概観 ―― デコーダ側〉
第一の側面によれば、例示的実施形態は、オーディオ・デコード・システム、オーディオ・デコード方法および関連するコンピュータ・プログラム・プロダクトを提案する。第一の側面に基づく提案されるデコード・システム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有してもよい。
【0008】
例示的実施形態によれば、オーディオ・デコード方法が提供され、本方法は二チャネル・ダウンミックス信号と、該ダウンミックス信号に基づくMチャネル・オーディオ信号のパラメトリック再構成のためのアップミックス・パラメータとを受領することを含む。ここで、M≧4である。本オーディオ・デコード方法は、前記Mチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領することを含む。ここで、それらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。示される符号化フォーマットにおいて、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する。本オーディオ・デコード方法はさらに:示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する段階と;前記ダウンミックス信号の線形マッピングとして脱相関入力信号を計算する段階であって、前記ダウンミックス信号に前記一組のプレ脱相関係数が適用される、段階と;前記脱相関入力信号に基づいて脱相関済み信号を生成する段階と;本稿でウェット・アップミックス係数と称される第一の型のアップミックス係数および本稿でドライ・アップミックス係数と称される第二の型のアップミックス係数の集合を、受領されたアップミックス・パラメータおよび指示された符号化フォーマットに基づいて決定する段階と;本稿でドライ・アップミックス信号と称される第一の型のアップミックス信号を前記ダウンミックス信号の線形マッピングとして計算する段階であって、前記ドライ・アップミックス係数の集合が前記ダウンミックス信号に適用される、段階と;本稿でウェット・アップミックス信号と称される第二の型のアップミックス信号を前記脱相関済み信号の線形マッピングとして計算する段階であって、前記ウェット・アップミックス係数の集合が前記脱相関済み信号に適用される、段階と;前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべきMチャネル・オーディオ信号に対応する多次元の再構成された信号を得る段階とを含む。
【0009】
前記Mチャネル・オーディオ信号のオーディオ内容に依存して、前記Mチャネル・オーディオ信号のチャネルの第一および第二のグループへの異なる分割であって、各グループが前記ダウンミックス信号のあるチャネルに寄与する、異なる分割が、たとえば前記ダウンミックス信号からの前記Mチャネル・オーディオ信号の再構成を容易にするため、前記ダウンミックス信号から再構成される前記Mチャネル・オーディオ信号の(知覚される)忠実度を改善するためおよび/または前記ダウンミックス信号の符号化効率を改善するために、好適でありうる。本オーディオ・デコード方法が前記符号化フォーマットのうち選択されたものを示すシグナルを受領し、前記プレ脱相関係数および前記ウェットおよびドライ・アップミックス係数の決定を示される符号化フォーマットに適合させることができることにより、エンコーダ側で、たとえば前記Mチャネル・オーディオ信号を表現するためにその特定の符号化フォーマットを用いることの相対的な利点を活用するために前記Mチャネル・オーディオ信号のオーディオ内容に基づいて、符号化フォーマットを選択することを許容する。
【0010】
特に、示される符号化フォーマットに基づいてプレ脱相関係数を決定することは、脱相関済み信号を生成する前に、脱相関済み信号が生成されるもとになる前記ダウンミックス信号のチャネル(単数または複数)が示される符号化フォーマットに基づいて選択されるおよび/または重み付けされることを許容しうる。したがって、本オーディオ・デコード方法がプレ脱相関係数を、異なる符号化フォーマットについては異なるように決定できることにより、再構成される前記Mチャネル・オーディオ信号の忠実度を改善することが許容されうる。
【0011】
前記ダウンミックス信号の第一のチャネルは、たとえば、エンコーダ側で、示される符号化フォーマットに基づいて、前記第一のグループの一つまたは複数のチャネルの線形結合として形成されたものであってもよい。同様に、前記ダウンミックス信号の第二のチャネルは、たとえば、エンコーダ側で、示される符号化フォーマットに基づいて、前記第二のグループの一つまたは複数のチャネルの線形結合として形成されたものであってもよい。
【0012】
前記Mチャネル・オーディオ信号のチャネルは、たとえば、一緒になって音場を表現する、より多数のチャネルの部分集合をなしていてもよい。
【0013】
前記脱相関済み信号〔脱相関された信号〕は、聴取者によって知覚される前記ダウンミックス信号のオーディオ内容の次元性を増すはたらきをする。脱相関済み信号の生成は、たとえば、前記脱相関入力信号に線形フィルタを適用することを含んでいてもよい。
【0014】
前記脱相関入力信号が前記ダウンミックス信号の線形マッピングとして計算されるとは、前記脱相関入力信号が、前記ダウンミックス信号に第一の線形変換を適用することによって得られることを意味する。この第一の線形変換は、前記ダウンミックス信号の二つのチャネルを入力として取り、前記脱相関入力信号のチャネルを出力として与え、前記プレ脱相関係数は、この第一の線形変換の定量的属性を定義する係数である。
【0015】
前記ドライ・アップミックス信号が前記ダウンミックス信号の線形マッピングとして計算されるとは、前記ドライ・アップミックス信号が、前記ダウンミックス信号に第二の線形変換を適用することによって得られることを意味する。この第二の線形変換は、前記ダウンミックス信号の二つのチャネルを入力として取り、M個のチャネルを出力として与え、前記ドライ・アップミックス係数は、この第二の線形変換の定量的属性を定義する係数である
前記ウェット・アップミックス信号が前記脱相関済み信号の線形マッピングとして計算されるとは、前記ウェット・アップミックス信号が、前記脱相関済み信号に第三の線形変換を適用することによって得られることを意味する。この第三の線形変換は、前記脱相関済み信号のチャネルを入力として取り、M個のチャネルを出力として与え、前記ウェット・アップミックス係数は、この第三の線形変換の定量的属性を定義する係数である。
【0016】
前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせることは、前記ドライ・アップミックス信号のそれぞれのチャネルからのオーディオ・コンテンツを、前記ウェット・アップミックス信号のそれぞれの対応するチャネルのオーディオ・コンテンツに、たとえばサンプルごとまたは変換係数ごとの加法的混合を用いて、加えることを含んでいてもよい。
【0017】
前記シグナルは、たとえば、前記ダウンミックス信号および/または前記アップミックス・パラメータと一緒に受領されてもよい。前記ダウンミックス信号、前記アップミックス・パラメータおよび前記シグナルは、たとえば、ビットストリームから抽出されてもよい。
【0018】
ある例示的実施形態では、M=5が成り立ってもよい。すなわち、Mチャネル・オーディオ信号は5チャネル・オーディオ信号であってもよい。本例示的実施形態のオーディオ・デコード方法は、たとえば、現在確立されている諸5.1オーディオ・フォーマットのうちの一つにおける五つの通常のチャネルをそれら五つのチャネルの二チャネル・ダウンミックスから再構成するために、あるいは11.1マルチチャネル・オーディオ信号における左側または右側の五つのチャネルをそれら五つのチャネルの二チャネル・ダウンミックスから再構成するために用いられてもよい。あるいはまた、M=4またはM≧6が成り立ってもよい。
【0019】
ある例示的実施形態では、前記脱相関入力信号および前記脱相関済み信号はそれぞれM-2個のチャネルを含んでいてもよい。本例示的実施形態では、前記脱相関済み信号のチャネルは、前記脱相関入力信号のたった一つのチャネルに基づいて生成されてもよい。たとえば、前記脱相関済み信号の各チャネルは、前記脱相関入力信号のたった一つのチャネルに基づいて生成されうるが、前記脱相関済み信号の異なるチャネルはたとえば前記脱相関入力信号の異なるチャネルに基づいて生成されうる。
【0020】
本例示的実施形態では、前記プレ脱相関係数は、各符号化フォーマットにおいて、前記脱相関入力信号のチャネルが前記ダウンミックス信号のたった一つのチャネルから寄与を受けるよう決定されてもよい。たとえば、前記プレ脱相関係数は、各符号化フォーマットにおいて、前記脱相関入力信号の各チャネルが前記ダウンミックス信号のあるチャネルと一致するよう決定されてもよい。しかしながら、前記脱相関済み入力信号のチャネルの少なくともいくつかがたとえば所与の符号化フォーマットにおけるおよび/または種々の符号化フォーマットにおける前記ダウンミックス信号の異なるチャネルと一致するのでもよいことは理解されるであろう。
【0021】
それぞれの所与の符号化フォーマットにおいて、前記ダウンミックス信号の二つのチャネルは、一つまたは複数のチャネルの分離した第一および第二のグループを表わすので、第一のグループは前記ダウンミックス信号の第一のチャネルから、たとえば前記ダウンミックス信号の第一のチャネルに基づいて生成された脱相関済み信号の一つまたは複数のチャネルを用いて、再構成されてもよく、一方、第二のグループは前記ダウンミックス信号の第二のチャネルから、たとえば前記ダウンミックス信号の第二のチャネルに基づいて生成された脱相関済み信号の一つまたは複数のチャネルを用いて、再構成されてもよい。本例示的実施形態では、第二のグループの一つまたは複数のチャネルからの第一のグループの一つまたは複数のチャネルの再構成されたバージョンへの、前記脱相関済み信号を介した寄与は、各符号化フォーマットにおいて回避されうる。同様に、第一のグループの一つまたは複数のチャネルからの第二のグループの一つまたは複数のチャネルの再構成されたバージョンへの、前記脱相関済み信号を介した寄与は、各符号化フォーマットにおいて回避されうる。したがって、本例示的実施形態は、再構成される前記Mチャネル・オーディオ信号の忠実度を高めることを許容しうる。
【0022】
ある例示的実施形態では、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第一の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、これらの符号化フォーマットの両方において前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、たとえば、所与の符号化フォーマットにおいて前記脱相関入力信号の複数のチャネルに寄与してもよいことは理解されるであろう。
【0023】
本例示的実施形態では、示される符号化フォーマットが前記二つの符号化フォーマットの間で切り換わる場合、前記脱相関入力信号の前記第一の固定したチャネルの少なくとも一部は、前記切り換えの間、留まる。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容しうる。特に、発明者らは、脱相関済み信号がたとえば、前記ダウンミックス信号においてそれらの符号化フォーマット間の切り換えが起こりうる前記ダウンミックス信号のいくつかの時間フレームに対応するセクションに基づいて生成されうるので、符号化フォーマット間の切り換えの結果として、脱相関済み信号において可聴なアーチファクトが潜在的に生成されうることを認識するに至った。たとえウェットおよびドライ・アップミックス係数が符号化フォーマット間の切り換えに応答して補間されたとしても、脱相関済み信号において生成されるアーチファクトが、再構成される前記Mチャネル・オーディオ信号において残存することがある。本例示的実施形態に基づく脱相関入力信号を提供することにより、符号化フォーマット間の切り換えによって引き起こされる脱相関済み信号中のかかるアーチファクトを抑制することが許容され、再構成されるMチャネル・オーディオ信号の再生品質が改善されうる。
【0024】
ある例示的実施形態では、プレ脱相関係数は、さらに、前記Mチャネル・オーディオ信号の第二のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第二の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の第二のチャネルが、前記ダウンミックス信号を介して、これらの符号化フォーマットの両方において前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、示される符号化フォーマットが前記二つの符号化フォーマットの間で切り換わる場合、第二の固定脱相関入力信号の少なくとも一部は、前記切り換えの間、留まる。よって、単一の脱相関器フィードのみが、それらの符号化フォーマットの間の遷移によって影響される。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容しうる。
【0025】
前記Mチャネル・オーディオ信号の第一および第二のチャネルは、たとえば、互いとは異なっていてもよい。前記脱相関入力信号の第一および第二の固定したチャネルは互いとは異なっていてもよい。
【0026】
ある例示的実施形態では、受領されるシグナルは、少なくとも三つの符号化フォーマットのうちの選択されたものを示してもよく、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも三つにおいて前記脱相関入力信号の前記第一の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の第一のチャネルが、前記ダウンミックス信号を介して、これら三つの符号化フォーマットにおいて前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、示される符号化フォーマットが前記三つの符号化フォーマットの任意のものの間で変化する場合、前記脱相関入力信号の前記第一の固定したチャネルの少なくとも一部は、前記切り換えの間、留まる。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容しうる。
【0027】
ある例示的実施形態では、前記プレ脱相関係数は、前記Mチャネル・オーディオ信号の一対のチャネルが、前記ダウンミックス信号を介して、前記符号化フォーマットの少なくとも二つにおいて前記脱相関入力信号の第三の固定したチャネルに寄与するよう、決定されてもよい。すなわち、前記Mチャネル・オーディオ信号の一対のチャネルが、前記ダウンミックス信号を介して、これらの符号化フォーマットの両方において前記脱相関入力信号の同じチャネルに寄与しうる。本例示的実施形態では、示される符号化フォーマットが前記二つの符号化フォーマットの間で切り換わる場合、前記脱相関入力信号の前記第三の固定したチャネルの少なくとも一部は、前記切り換えの間、留まる。これは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容する。
【0028】
前記一対のチャネルはたとえば、前記Mチャネル・オーディオ信号の前記第一および第二のチャネルとは異なっていてもよい。前記脱相関入力信号の前記第三の固定したチャネルは、前記脱相関入力信号の前記第一および第二の固定したチャネルとは異なっていてもよい。
【0029】
ある例示的実施形態では、前記オーディオ・デコード方法はさらに:第一の符号化フォーマットから第二の符号化フォーマットへの示される符号化フォーマットの切り換えを検出することに応答して、前記第一の符号化フォーマットに関連付けられたプレ脱相関係数値から前記第二の符号化フォーマットに関連付けられたプレ脱相関係数値への漸進的な遷移を実行することを含んでいてもよい。符号化フォーマット間の切り換えの間のプレ脱相関係数間の漸進的な遷移を用いることは、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、それらの符号化フォーマットの間での、よりなめらかなおよび/またはそれほど突然でない遷移を許容する。特に、発明者らは、脱相関済み信号がたとえば、前記ダウンミックス信号においてそれらの符号化フォーマット間の切り換えが起こりうるいくつかの時間フレームに対応する前記ダウンミックス信号のセクションに基づいて生成されうるので、符号化フォーマット間の切り換えの結果として、脱相関済み信号において可聴なアーチファクトが潜在的に生成されうることを認識するに至った。たとえウェットおよびドライ・アップミックス係数が符号化フォーマット間の切り換えに応答して補間されたとしても、脱相関済み信号において生成されるアーチファクトが、再構成される前記Mチャネル・オーディオ信号において残存することがある。本例示的実施形態に基づく脱相関入力信号を提供することにより、符号化フォーマット間の切り換えによって引き起こされる脱相関済み信号中のかかるアーチファクトを抑制することが許容され、再構成されるMチャネル・オーディオ信号の再生品質が改善されうる。
【0030】
漸進的な遷移は、たとえば線形または連続的な補間を介して実行されうる。漸進的な遷移は、たとえば制限された変化率をもつ補間を介して実行されてもよい。
【0031】
ある例示的実施形態では、本オーディオ・デコード方法はさらに:第一の符号化フォーマットから第二の符号化フォーマットへの示される符号化フォーマットの切り換えを検出することに応答して、前記第一の符号化フォーマットに関連付けられた、値が0の係数を含むウェットおよびドライ・アップミックス係数値から、前記第二の符号化フォーマットに関連付けられた、やはり値が0の係数を含むウェットおよびドライ・アップミックス係数値への補間を実行することを含んでいてもよい。諸ダウンミックス・チャネルは、もともとエンコードされた前記Mチャネル・オーディオ信号からのチャネルの種々の組み合わせに対応することを想起する。よって、前記第一の符号化フォーマットにおいて値が0であるアップミックス係数は前記第二の符号化フォーマットでも値が0であるとは限らない。好ましくは、この補間は、前記係数のコンパクト表現、たとえばのちに論じる表現ではなく、前記アップミックス係数に対して作用する。
【0032】
前記アップミックス係数値の間の線形または連続的な補間はたとえば、再構成される前記Mチャネル・オーディオ信号の再生中に聴取者によって知覚される、符号化フォーマット間のよりなめらかな遷移を提供するために用いられてもよい。
【0033】
符号化フォーマットの切り換えに関連付けられた時点において新たなアップミックス係数値が古いアップミックス係数値を置き換える急峻な補間は、再構成される前記Mチャネル・オーディオ信号の向上した忠実度を許容しうる。これはたとえば、前記Mチャネル・オーディオ信号のオーディオ・コンテンツが急速に変化し、これらの変化に応答して、再構成される前記Mチャネル・オーディオ信号の忠実度を高めるためにエンコーダ側で符号化フォーマットが切り換えられる場合などにおいてである。
【0034】
ある例示的実施形態では、前記オーディオ・デコード方法はさらに、一つの符号化フォーマット内でウェットおよびドライ・アップミックス・パラメータの補間のために(すなわち、符号化フォーマットの変化が起こらない時間期間において前記アップミックス係数に新たな値が割り当てられるときに)用いられるべき複数の補間方式のうちの一つを示すシグナルを受領し、示された補間方式を用いることを含んでいてもよい。複数の補間方式のうちの一つを示すシグナルはたとえば、前記ダウンミックス信号および/または前記アップミックス・パラメータと一緒に受領されてもよい。好ましくは、前記シグナルによって示される補間方式は、さらに、符号化フォーマット間で遷移するために用いられてもよい。
【0035】
もとのMチャネル・オーディオ信号が利用可能であるエンコーダ側では、たとえば前記Mチャネル・オーディオ信号の実際のオーディオ内容にとって特に好適な諸補間方式が選択されてもよい。たとえば、再構成されるMチャネル・オーディオ信号の全体的な印象にとってなめらかな切り換えが重要である場合には線形または連続的な補間が用いられてもよく、一方、再構成されるMチャネル・オーディオ信号の全体的な印象にとって高速な切り換えが重要であるときは急峻な補間、すなわち符号化フォーマット間の遷移に関連付けられたある時点において新しいアップミックス係数値が古いアップミックス係数値を置き換える補間が用いられてもよい。
【0036】
ある例示的実施形態では、前記少なくとも二つの符号化フォーマットは、第一の符号化フォーマットおよび第二の符号化フォーマットを含んでいてもよい。それぞれの符号化フォーマットにおいて、前記Mチャネル・オーディオ信号のあるチャネルから前記ダウンミックス信号の諸チャネルが対応する諸線形結合の一つへの寄与を制御する利得がある。本例示的実施形態では、第一の符号化フォーマットにおける利得は、第二の符号化フォーマットにおける、前記Mチャネル・オーディオ信号の同じチャネルからの寄与を制御する利得と一致してもよい。
【0037】
第一および第二の符号化フォーマットで同じ利得を用いることは、たとえば、第一の符号化フォーマットでの前記ダウンミックス信号のチャネルの組み合わされたオーディオ・コンテンツと、第二の符号化フォーマットでの前記ダウンミックス信号のチャネルの組み合わされたオーディオ・コンテンツとの間の類似性を高めうる。前記ダウンミックス信号のチャネルは前記Mチャネル・ダウンミックス信号を再構成するために使われるので、これは、聴取者によって知覚されるところのこれら二つの符号化フォーマットの間のよりなめらかな遷移に寄与しうる。
【0038】
第一および第二の符号化フォーマットで同じ利得を用いることは、たとえば、第一の符号化フォーマットでの前記ダウンミックス信号の第一および第二のチャネルのオーディオ・コンテンツが、第二の符号化フォーマットでの前記ダウンミックス信号のそれぞれ第一および第二のチャネルのオーディオ・コンテンツと、より類似していることを許容しうる。これは、聴取者によって知覚されるところのこれら二つの符号化フォーマットの間のよりなめらかな遷移に寄与しうる。
【0039】
本例示的実施形態では、たとえば前記Mチャネル・オーディオ信号の異なるチャネルについては異なる利得が用いられてもよい。第一の例では、第一および第二の符号化フォーマットにおけるすべての利得が値1を有していてもよい。この第一の例では、ダウンミックス信号の第一および第二のチャネルは、第一および第二の符号化フォーマット両方において、それぞれ第一および第二のグループの重み付けされない和に対応してもよい。第二の例では、利得の少なくともいくつかが1とは異なる値を有していてもよい。この第二の例では、ダウンミックス信号の第一および第二のチャネルは、それぞれ第一および第二のグループの重み付けされた和に対応してもよい。
【0040】
ある例示的実施形態では、前記Mチャネル・オーディオ信号は、前記Mチャネル・オーディオ信号のための再生環境における異なる水平方向を表わす三つのチャネルと、再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす二つのチャネルとを含んでいてもよい。換言すれば、前記Mチャネル・オーディオ信号は、聴取者(または聴取者の耳)と実質的に同じ高さに位置するオーディオ源による再生および/または実質的に水平方向の伝搬のために意図された三つのチャネルと、他の高さに位置するオーディオ源による再生および/または(実質的に)水平でない伝搬のために意図された二つのチャネルとを含んでいてもよい。前記二つのチャネルは、たとえば、仰角を付けられた方向を表わしていてもよい。
【0041】
ある例示的実施形態では、第一の符号化フォーマットでは、チャネルの第二のグループは、再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす前記二つのチャネルを含んでいてもよい。これら二つのチャネルの両方を第二のグループにもち、これら二つのチャネル両方を表わすために前記ダウンミックス信号の同じチャネルを用いることは、たとえば、再生環境における垂直次元が前記Mチャネル・オーディオ信号の全体的な印象にとって重要である場合に、再構成される前記Mチャネル・オーディオ信号の忠実度を改善しうる。
【0042】
ある例示的実施形態では、第一の符号化フォーマットでは、一つまたは複数のチャネルの第一のグループは、前記Mチャネル・オーディオ信号の再生環境における異なる水平方向を表わす前記三つのチャネルを含んでいてもよく、一つまたは複数のチャネルの第二のグループは、再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす前記二つのチャネルを含んでいてもよい。本例示的実施形態では、第一の符号化フォーマットは、前記ダウンミックス信号の第一のチャネルが前記三つのチャネルを表わし、前記ダウンミックス信号の第二のチャネルが前記二つのチャネルを表わすことを許容する。これはたとえば、再生環境における垂直次元が前記Mチャネル・オーディオ信号の全体的な印象にとって重要である場合に、再構成される前記Mチャネル・オーディオ信号の忠実度を改善しうる。
【0043】
ある例示的実施形態では、第二の符号化フォーマットでは、第一および第二のグループのそれぞれが、前記Mチャネル・オーディオ信号の再生環境における前記三つのチャネルの方向からは垂直に隔たった方向を表わす前記二つのチャネルのうちの一つを含んでいてもよい。前記二つのチャネルを異なるグループにもち、前記二つのチャネルを表わすために前記ダウンミックス信号の異なるチャネルを用いることは、たとえば、再生環境における垂直次元が前記Mチャネル・オーディオ信号の全体的な印象にとってそれほど重要でない場合に、再構成される前記Mチャネル・オーディオ信号の忠実度を改善しうる。
【0044】
ある例示的実施形態では、ここで特定符号化フォーマットと称されるある符号化フォーマットにおいて、一つまたは複数のチャネルの第一のグループはN個のチャネルからなっていてもよく、N≧3である。本例示的実施形態では、指示される符号化フォーマットが特定符号化フォーマットであることに応答して:前記プレ脱相関係数は、脱相関済み信号のN-1個のチャネルが前記ダウンミックス信号の前記第一のチャネルに基づいて生成されるよう、決定されてもよく;前記ドライおよびウェット・アップミックス係数は、一つまたは複数のチャネルの第一のグループが、前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号の前記N-1個のチャネルの線形マッピングであって、前記ドライ・アップミックス係数の部分集合が前記ダウンミックス信号の前記第一のチャネルに適用され、前記ウェット・アップミックス係数の部分集合が前記脱相関済み信号の前記N-1個のチャネルに適用される、線形マッピングとして再構成されるよう決定されてもよい。
【0045】
前記プレ脱相関係数はたとえば、前記脱相関入力信号のN-1個のチャネルが前記ダウンミックス信号の前記第一のチャネルと一致するよう決定されてもよい。前記脱相関済み信号のN-1個のチャネルは、たとえば、前記脱相関入力信号のこれらN-1個のチャネルを処理することによって生成されてもよい。
【0046】
一つまたは複数のチャネルの第一のグループが前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号の前記N-1個のチャネルの線形マッピングとして再構成されるとは、一つまたは複数のチャネルの第一のグループの再構成されたバージョンが、前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号の前記N-1個のチャネルに線形変換を適用することによって得られることを意味する。この線形変換はN個のチャネルを入力として取り、N個のチャネルを出力として与える。ここで、前記ドライ・アップミックス係数の前記部分集合および前記ウェット・アップミックス係数の前記部分集合が一緒になって、この線形変換の定量的属性を定義する係数からなる。
【0047】
ある例示的実施形態では、受領されるアップミックス・パラメータは、本稿でウェット・アップミックス・パラメータと称される第一の型のアップミックス・パラメータと、本稿でドライ・アップミックス・パラメータと称される第二の型のアップミックス・パラメータとを含んでいてもよい。本例示的実施形態では、特定符号化フォーマットにおいて、ウェットおよびドライ・アップミックス係数の前記集合を決定することは:前記ドライ・アップミックス・パラメータに基づいて、前記ドライ・アップミックス係数の前記部分集合を決定する段階と;受領されたウェット・アップミックス・パラメータの数より多くの要素をもつ中間行列に値を入れる段階であって、受領されたアップミックス・パラメータと、該中間行列があらかじめ定義された行列クラスに属することを知っていることに基づく、段階と;前記中間行列にあらかじめ定義された行列を乗算することによって前記ウェット・アップミックス係数の前記部分集合を得る段階であって、前記ウェット・アップミックス係数の前記部分集合は前記乗算から帰結する行列に対応し、前記中間行列の要素の数より多い係数を含む、段階とを含んでいてもよい。
【0048】
本例示的実施形態において、ウェット・アップミックス係数の前記部分集合におけるウェット・アップミックス係数の数は、受領されるウェット・アップミックス・パラメータの数より多い。前記受領されたウェット・アップミックス・パラメータからウェット・アップミックス係数の前記部分集合を取得するために前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスの知識を活用することにより、一つまたは複数のチャネルの前記第一のグループのパラメトリック再構成のために必要とされる情報の量が低減されうる。これは、ダウンミックス信号と一緒にエンコーダ側から伝送されるメタデータの量の削減を許容する。パラメトリック再構成のために必要とされるデータの量を減らすことによって、前記Mチャネル・オーディオ信号のパラメトリック表現の伝送のための必要とされる帯域幅および/またはそのような表現を記憶するための必要とされるメモリ・サイズが低減されうる。
【0049】
前記あらかじめ定義された行列クラスは、クラス内のすべての行列について有効である、少なくともいくつかの行列要素の既知の属性に関連していてもよい。たとえば、行列要素のいくつかの間のある種の関係またはいくつかの行列要素が0であることなどである。これらの属性の知識は、中間行列における行列要素の総数よりも少数のウェット・アップミックス・パラメータに基づいて中間行列に値を入れることを許容する。デコーダ側は、少なくとも、前記より少数のウェット・アップミックス・パラメータに基づいてすべての行列要素を計算するために必要とする要素の属性および要素間の関係についての知識を有している。
【0050】
前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスをどのように決定し、用いるかは、米国仮特許出願第61/974,544号;筆頭発明者Lars Villemoes;出願日2014年4月3日の第16頁第15行から第20頁第2行においてより詳細に記述されている。特に、あらかじめ定義された行列の例については、同出願の式(9)を参照されたい。
【0051】
ある例示的実施形態では、受領されたアップミックス・パラメータは、N(N-1)/2個のウェット・アップミックス・パラメータを含んでいてもよい。本例示的実施形態では、中間行列に値を入れることは、受領されたN(N-1)/2個のウェット・アップミックス・パラメータおよび中間行列が前記あらかじめ定義された行列クラスに属するという知識に基づいて、(N-1)2個の行列要素についての値を得ることを含んでいてもよい。これは、前記ウェット・アップミックス・パラメータの値をそのまま行列要素として挿入することまたは前記ウェット・アップミックス・パラメータを、前記行列要素のための値を導出するために好適な仕方で処理することを含んでいてもよい。本例示的実施形態では、前記あらかじめ定義された行列はN(N-1)個の要素を含んでいてもよく、ウェット・アップミックス係数の前記部分集合はN(N-1)個の係数を含んでいてもよい。たとえば、受領されたメタデータは、高々N(N-1)/2個の独立に割り当て可能なウェット・アップミックス・パラメータを含んでいてもよく、および/またはウェット・アップミックス・パラメータの数が、ウェット・アップミックス係数の前記部分集合におけるウェット・アップミックス係数の数の高々半分であってもよい。
【0052】
ある例示的実施形態では、受領されたアップミックス・パラメータは、(N-1)個のドライ・アップミックス・パラメータを含んでいてもよい。本例示的実施形態では、ドライ・アップミックス係数の前記部分集合はN個の係数を含んでいてもよく、ドライ・アップミックス係数の前記部分集合は、受領された(N-1)個のドライ・アップミックス・パラメータに基づき、かつドライ・アップミックス係数の前記部分集合内の係数の間のあらかじめ定義された関係に基づいて決定されてもよい。たとえば、受領されたアップミックス・パラメータは、高々(N-1)個の独立に割り当て可能なドライ・アップミックス・パラメータを含んでいてもよい。
【0053】
ある例示的実施形態では、前記あらかじめ定義された行列クラスは:下三角行列または上三角行列(ここでは、クラス内のすべての行列の既知の属性は、あらかじめ定義された行列要素が0であることを含む);対称行列(ここでは、クラス内のすべての行列の既知の属性は、(主対角線のそれぞれの側の)あらかじめ定義された行列要素が等しいことを含む);直交行列と対角行列の積(ここでは、クラス内のすべての行列の既知の属性は、あらかじめ定義された行列要素の間の既知の関係を含む)のうちの一つであってもよい。換言すれば、前記あらかじめ定義された行列クラスは、下三角行列のクラス、上三角行列のクラス、対称行列のクラスまたは直交行列と対角行列の積のクラスであってもよい。上記の各クラスの共通の属性は、その次元性が行列要素の総数より低いということである。
【0054】
ある例示的実施形態では、前記あらかじめ定義された行列および/または前記あらかじめ定義された行列クラスは、指示される符号化フォーマットに関連付けられていてもよい。これはたとえば、デコード方法が、ウェット・アップミックス係数の集合の決定をしかるべく調整することを許容する。
【0055】
例示的実施形態によれば、オーディオ・デコード方法が提供され、本方法は、少なくとも二つのあらかじめ定義されたチャネル構成のうちの一つを示すシグナルを受領し;受領されたシグナルが第一のあらかじめ定義されたチャネル構成を示すことを検出することに応答して、前記第一の側面のオーディオ・デコード方法のいずれかを実行することを含む。本オーディオ・デコード方法は、受領されたシグナルが第二のあらかじめ定義されたチャネル構成を示すことを検出することに応答して:二チャネル・ダウンミックス信号および関連するアップミックス・パラメータを受領し;前記ダウンミックス信号の第一のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第一の三チャネル・オーディオ信号のパラメトリック再構成を実行し;前記ダウンミックス信号の第二のチャネルおよび前記アップミックス・パラメータの少なくともいくつかに基づいて第二の三チャネル・オーディオ信号のパラメトリック再構成を実行することを含む。
【0056】
前記第一のあらかじめ定義されたチャネル構成は、受領された二チャネルのダウンミックス信号と、関連付けられたアップミックス・パラメータとによって表わされるMチャネル・オーディオ信号に対応してもよい。第二のあらかじめ定義されたチャネル構成は、受領されたダウンミックス信号のそれぞれ第一および第二のチャネルによっておよび関連付けられたアップミックス・パラメータによって表わされる第一および第二の三チャネル・オーディオ信号に対応してもよい。
【0057】
少なくとも二つのあらかじめ定義されたチャネル構成のうちの一つを示すシグナルを受領し、示されたチャネル構成に基づいてパラメトリック再構成を実行できることは、上記Mチャネル・オーディオ信号または上記二つの三チャネル・オーディオ信号のいずれかのパラメトリック再構成をエンコーダ側からデコーダ側に搬送するコンピュータ可読媒体のために、共通のフォーマットが用いられることを許容しうる。
【0058】
例示的実施形態によれば、オーディオ・デコード・システムが提供され、本システムは二チャネル・ダウンミックス信号および関連付けられたアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するよう構成されたデコード部を有する。ここで、M≧4である。本オーディオ・デコード・システムは、前記Mチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領するよう構成された制御部を有する。それらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。示される符号化フォーマットにおいて、前記ダウンミックス信号の第一のチャネルは前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記ダウンミックス信号の第二のチャネルは前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する。前記デコード部は:示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する段階と;前記ダウンミックス信号の線形マッピングとして脱相関入力信号を計算する段階であって、前記ダウンミックス信号に前記一組のプレ脱相関係数が適用される、段階とを実行するよう構成されたプレ脱相関部と;前記脱相関入力信号に基づいて脱相関済み信号を生成する段階を実行するよう構成された脱相関部とを有する。前記デコード部は、ウェット・アップミックス係数の集合およびドライ・アップミックス係数の集合を、受領されたアップミックス・パラメータおよび指示された符号化フォーマットに基づいて決定する段階と;ドライ・アップミックス信号を前記ダウンミックス信号の線形マッピングとして計算する段階であって、前記ドライ・アップミックス係数の集合が前記ダウンミックス信号に適用される、段階と;ウェット・アップミックス信号を前記脱相関済み信号の線形マッピングとして計算する段階であって、前記ウェット・アップミックス係数の集合が前記脱相関済み信号に適用される、段階と;前記ドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべき前記Mチャネル・オーディオ信号に対応する多次元の再構成された信号を得る段階とを実行するよう構成された混合部を有する。
【0059】
ある例示的実施形態によれば、本オーディオ・デコード・システムはさらに、追加的な二チャネル・ダウンミックス信号および関連付けられた追加的なアップミックス・パラメータに基づいて追加的なMチャネル・オーディオ信号を再構成するよう構成された追加的なデコード部を有する。前記制御部は、前記追加的なMチャネル・オーディオ信号の少なくとも二つの符号化フォーマットのうちの選択されたものを示すシグナルを受領するよう構成されていてもよい。前記追加的なMチャネル・オーディオ信号のそれらの符号化フォーマットは、前記追加的なMチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。前記追加的なMチャネル・オーディオ信号の示される符号化フォーマットにおいて、前記追加的なダウンミックス信号の第一のチャネルは前記追加的なMチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合に対応し、前記追加的なダウンミックス信号の第二のチャネルは前記追加的なMチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合に対応する。前記追加的なデコード部は:前記追加的なMチャネル・オーディオ信号の示された符号化フォーマットに基づく追加的な一組のプレ脱相関係数を決定する段階と;前記追加的なダウンミックス信号の線形マッピングとして追加的な脱相関入力信号を計算する段階であって、前記追加的なダウンミックス信号に前記追加的な一組のプレ脱相関係数が適用される、段階とを実行するよう構成された追加的なプレ脱相関部と;前記追加的な脱相関入力信号に基づいて追加的な脱相関済み信号を生成する段階を実行するよう構成された追加的な脱相関部とを有する。前記追加的なデコード部は、追加的なウェット・アップミックス係数の集合およびドライ・アップミックス係数の集合を、受領された追加的なアップミックス・パラメータおよび前記追加的なMチャネル・オーディオ信号の指示された符号化フォーマットに基づいて決定する段階と;追加的なドライ・アップミックス信号を前記追加的なダウンミックス信号の線形マッピングとして計算する段階であって、前記追加的なドライ・アップミックス係数の集合が前記追加的なダウンミックス信号に適用される、段階と;追加的なウェット・アップミックス信号を前記追加的な脱相関済み信号の線形マッピングとして計算する段階であって、前記追加的なウェット・アップミックス係数の集合が前記追加的な脱相関済み信号に適用される、段階と;前記追加的なドライ・アップミックス信号およびウェット・アップミックス信号を組み合わせて、再構成されるべき前記追加的なMチャネル・オーディオ信号に対応する追加的な多次元の再構成された信号を得る段階とを実行するよう構成された追加的な混合部を有していてもよい。
【0060】
本例示的実施形態では、前記追加的なデコード部、前記追加的なプレ脱相関部、前記追加的な脱相関部および前記追加的な混合部はたとえば、前記デコード部、前記プレ脱相関部、前記脱相関部および前記混合部とは独立して動作可能であってもよい。
【0061】
本例示的実施形態において、前記追加的なデコード部、前記追加的なプレ脱相関部、前記追加的な脱相関部および前記追加的な混合部はたとえば、それぞれ前記デコード部、前記プレ脱相関部、前記脱相関部および前記混合部と機能的に等価であってもよい(あるいは類似に構成されていてもよい)。あるいはまた、前記追加的なデコード部、前記追加的なプレ脱相関部、前記追加的な脱相関部および前記追加的な混合部のうちの少なくとも一つがたとえば、前記デコード部、前記プレ脱相関部、前記脱相関部および前記混合部のうちの対応する部によって実行されるのとは少なくとも一つの異なる型の補間を実行するよう構成されていてもよい。
【0062】
たとえば、受領されるシグナルが、前記Mチャネル・オーディオ信号および前記追加的なMチャネル・オーディオ信号について異なる符号化フォーマットを示してもよい。あるいはまた、前記二つのMチャネル・オーディオ信号の符号化フォーマットがたとえば常に一致するのでもよく、受領されるシグナルは、前記二つのMチャネル・オーディオ信号についての少なくとも二つの共通の符号化フォーマットのうちの選択されたものを示していてもよい。
【0063】
前記Mチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、プレ脱相関係数の間での漸進的な遷移のために用いられる補間方式は、前記追加的なMチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、追加的なプレ脱相関係数の間での漸進的な遷移のために用いられる補間方式と一致してもよいし、あるいは異なっていてもよい。
【0064】
同様に、前記Mチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、ウェットおよびドライ・アップミックス係数の値の補間のために用いられる補間方式は、前記追加的なMチャネル・オーディオ信号の符号化フォーマットの間で切り換えることに応答しての、追加的なウェットおよびドライ・アップミックス係数の値の補間のために用いられる補間方式と一致してもよいし、あるいは異なっていてもよい。
【0065】
ある例示的実施形態では、本オーディオ・デコード・システムはさらに、前記ダウンミックス信号、前記ダウンミックス信号に関連付けられた前記アップミックス・パラメータおよび離散的に符号化されたオーディオ・チャネルを、ビットストリームから抽出するよう構成されたデマルチプレクサを有していてもよい。本デコード・システムはさらに、前記離散的に符号化されたオーディオ・チャネルをデコードするよう動作可能な単一チャネル・デコード部を有していてもよい。前記離散的に符号化されたオーディオ・チャネルは、たとえば、ドルビー・デジタル、MPEG AACまたはそれらの発展形のような知覚的オーディオ・コーデックを使って前記ビットストリーム内にエンコードされていてもよく、前記単一チャネル・デコード部は、たとえば、前記離散的に符号化されたオーディオ・チャネルをデコードするためのコア・デコーダを有していてもよい。前記単一チャネル・デコード部はたとえば、前記デコード部とは独立して前記離散的に符号化されたオーディオ・チャネルをデコードするよう動作可能であってもよい。
【0066】
例示的実施形態によれば、第一の側面のいずれかの方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
【0067】
〈II.概観 ―― エンコーダ側〉
第二の側面によれば、例示的実施形態は、オーディオ・エンコード・システムならびにオーディオ・エンコード方法および関連するコンピュータ・プログラム・プロダクトを提案する。第二の側面に基づく提案されるエンコード・システム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有してもよい。さらに、第一の側面に基づくデコード・システム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示された利点は一般に、第二の側面に基づくエンコード・システム、方法およびコンピュータ・プログラム・プロダクトの対応する特徴についても有効でありうる。
【0068】
例示的実施形態によれば、オーディオ・エンコード方法が提供され、本方法は、M≧4であるとして、Mチャネル・オーディオ信号を受領することを含む。本オーディオ・エンコード方法は、任意の好適な選択基準、たとえば信号属性、システム負荷、ユーザー選好、ネットワーク条件に基づいて少なくとも二つの符号化フォーマットのうちの一つを反復的に選択することを含む。選択は、オーディオ信号の各時間フレームについて一度、あるいはn番目の時間フレーム毎に一度、繰り返されてもよく、可能性としては、初期に選ばれたものとは異なるフォーマットの選択につながる。あるいはまた、選択はイベント駆動であってもよい。これらの符号化フォーマットは、前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する。各符号化フォーマットにおいて、二チャネル・ダウンミックス信号は、前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合として形成される第一のチャネルと、前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合として形成される第二のチャネルとを含む。選択された符号化フォーマットについて、前記Mチャネル・オーディオ信号に基づいて前記ダウンミックス・チャネルが計算される。ひとたび計算されると、現在選択されている符号化フォーマットの前記ダウンミックス信号が出力され、現在選択されている符号化フォーマットを示すシグナルおよび前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報も出力される。選択の結果、第一の選択された符号化フォーマットから第二の異なる選択された符号化フォーマットへの変化が生じる場合には、遷移が開始されてもよい。それにより、第一の選択された符号化フォーマットに基づくダウンミックス信号および第二の選択された符号化フォーマットに基づくダウンミックス信号のクロスフェードが出力される。このコンテキストにおいて、クロスフェードは、二つの信号の線形または非線形時間補間であってもよい。一例として、
y(t)=tx1(t)+(1-t)x2(t) t∈[0,1]
は、関数x2から関数x1へのクロスフェードを時間的に線形に提供する。ここで、x1、x2は、それぞれの符号化フォーマットに基づくダウンミックス信号を表わす、ベクトル値の時間の関数であってもよい。記法の簡単のため、クロスフェードが実行される時間区間は[0,1]に再スケーリングされている。ここで、t=0がクロスフェードの開始を表わし、t=1がクロスフェードが完了した時点を表わす。
【0069】
物理的な単位でのt=0およびt=1の位置は、再構成されたオーディオの知覚される出力品質にとって重要でありうる。クロスフェードを位置付けするための可能なガイドラインとして、開始は異なるフォーマットの必要性が判別された後できるだけ早く生起してもよく、および/または知覚的に気づかれない可能な最短の時間で完了してもよい。よって、符号化フォーマットの選択がフレームごとに繰り返される実装については、いくつかの例示的実施形態は、クロスフェードはフレームの先頭において始まり(t=0)、その終点(t=1)を、できるだけ近いが、平均的な聴取者が二つの異なる符号化フォーマットに基づく(典型的なコンテンツをもつ)共通のMチャネル・オーディオ信号の二つの再構成の間の遷移に起因するアーチファクトまたは劣化に気づくことができないほど十分に遠いようにする。ある例示的実施形態では、本オーディオ・エンコード方法によって出力されるダウンミックス信号は、時間フレームにセグメント分割され、クロスフェードは一フレームを占めてもよい。別の例示的実施形態では、本オーディオ・エンコード方法によって出力されるダウンミックス信号は重なり合う時間フレームにセグメント分割されてもよく、クロスフェードの継続時間は、ある時間フレームから次の時間フレームへのストライドに対応する。
【0070】
例示的実施形態では、現在選択された符号化フォーマットを示すシグナルは、フレームごとにエンコードされてもよい。あるいはまた、該シグナルは、選択された符号化フォーマットに変化がない場合には一つまたは複数の連続するフレームにおいてそのようなシグナルが省略できるという意味で、時間差動的であってもよい。デコーダ側では、そのようなフレームのシーケンスは、最も最近にシグナルで伝達された符号化フォーマットが選択されたままとなることを意味すると解釈されうる。
【0071】
前記Mチャネル・オーディオ信号のオーディオ内容に依存して、前記Mチャネル・オーディオ信号のチャネルの、前記ダウンミックス信号のそれぞれのチャネルによって表わされる第一および第二のグループへの異なる分割が、この信号がダウンミックス信号および関連付けられたアップミックス・パラメータから再構成されるときに忠実度を保存するために、好適となりうる。したがって、再構成される前記Mチャネル・オーディオ信号の忠実度は、いくつかのあらかじめ定義された符号化フォーマットから適切な符号化フォーマット、すなわち最も好適なものを選択することによって高められうる。
【0072】
ある例示的実施形態では、前記サイド情報は、本開示において先に使ったのと同じ意味でのドライおよびウェット・アップミックス係数を含む。個別的な実装上の理由がない限り、一般に、前記サイド情報(特にドライおよびウェット・アップミックス係数)は、現在選択されている符号化フォーマットについて計算すれば十分である。特に、ドライ・アップミックス係数の集合(これは次元M×2の行列として表現されてもよい)は、前記Mチャネル・オーディオ信号を近似するそれぞれのダウンミックス信号の線形マッピングを定義してもよい。ウェット・アップミックス係数の集合(これは次元M×Pの行列として表現されてもよい;ここで、脱相関器の数PはP=M-2に設定されてもよい)は、脱相関済み信号の線形マッピングを、脱相関済み信号の前記線形マッピングによって得られる信号の共分散が選択された符号化フォーマットの前記ダウンミックス信号の前記線形マッピングによって近似される前記Mチャネル・オーディオ信号の共分散を補足するよう、定義する。ウェット・アップミックス係数の集合が定義する脱相関済み信号のマッピングが(近似される)前記Mチャネル・オーディオ信号の共分散を補足するというのは、前記Mチャネル・オーディオ信号と前記脱相関済み信号の前記マッピングしたものとの和の共分散が典型的には受領されたMチャネル・オーディオ信号の共分散に、より近いという意味においてである。補足的な共分散を加えることの効果は、デコーダ側での再構成された信号の改善された忠実度でありうる。
【0073】
前記ダウンミックス信号の線形マッピングは、前記Mチャネル・オーディオ信号の近似を与える。デコーダ側で前記Mチャネル・オーディオ信号を再構成するとき、脱相関済み信号は、前記ダウンミックス信号のオーディオ・コンテンツの次元性を増すために用いられ、脱相関済み信号の線形マッピングによって得られる信号が、ダウンミックス信号の線形マッピングによって得られる信号と組み合わされて、前記Mチャネル・オーディオ信号の近似の忠実度を改善する。脱相関済み信号は前記ダウンミックスの少なくとも一つのチャネルに基づいて決定され、前記ダウンミックス信号においてすでに利用可能ではない前記Mチャネル・オーディオ信号からのいかなるオーディオ・コンテンツも含まないので、受領された前記Mチャネル・オーディオ信号の共分散と前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差は、前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の忠実度のみならず、前記ダウンミックス信号および前記脱相関済み信号の両方を使って再構成された前記Mチャネル・オーディオ信号の忠実度をも示しうる。特に、受領された前記Mチャネル・オーディオ信号の共分散と前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の低下した差は、再構成された前記Mチャネル・オーディオ信号の改善された忠実度を示しうる。ウェット・アップミックス係数の集合が定義する脱相関済み信号のマッピングが(ダウンミックス信号から得られる)前記Mチャネル・オーディオ信号の共分散を補足するというのは、前記Mチャネル・オーディオ信号と前記脱相関済み信号の前記マッピングとの和の共分散が、受領されたMチャネル・オーディオ信号の共分散に、より近いという意味においてである。したがって、それぞれの計算された差に基づいて符号化フォーマットの一つを選択することは、再構成される前記Mチャネル・オーディオ信号の忠実度を改善することを許容する。
【0074】
符号化フォーマットは、たとえば計算された差に直接基づいて、あるいは計算された差に基づいて決定された係数および/または値に基づいて選択されてもよいことは理解されるであろう。
【0075】
符号化フォーマットは、それぞれの計算された差に加えて、たとえばそれぞれの計算されたドライ・アップミックス・パラメータに基づいて選択されてもよいことも理解されるであろう。
【0076】
ドライ・アップミックス係数の集合はたとえば、ダウンミックス信号のみが再構成のために利用可能であるという想定のもとに、すなわち脱相関済み信号は再構成のために用いられないという想定のもとに、最小平均二乗誤差近似を介して決定されてもよい。
【0077】
前記の計算された差は、たとえば、受領された前記Mチャネル・オーディオ信号の共分散行列と、異なる複数の符号化フォーマットの前記ダウンミックス信号のそれぞれの線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散行列との間の差であってもよい。符号化フォーマットの一つを選択することは、たとえば、共分散行列の間のそれぞれの差についての行列ノルムを計算し、計算された行列ノルムに基づいて符号化フォーマットの一つを選択する、たとえば計算された行列のうちの最小のものに関連付けられた符号化フォーマットを選択することを含んでいてもよい。
【0078】
脱相関済み信号は、たとえば、少なくとも一つのチャネルおよび高々M-2個のチャネルを含んでいてもよい。
【0079】
ダウンミックス信号の線形マッピングを定義するドライ・アップミックス係数の集合がMチャネル・ダウンミックス信号を近似するとは、前記ダウンミックス信号に線形変換を適用することによって前記Mチャネル・ダウンミックス信号の近似が得られることを意味する。この線形変換は、前記ダウンミックス信号の二つのチャネルを入力として取り、M個のチャネルを出力として与える。前記ドライ・アップミックス係数は、この線形変換の定量的属性を定義する係数である。
【0080】
同様に、前記ウェット・アップミックス・パラメータは、前記脱相関済み信号のチャネル(単数または複数)を入力として取り、M個のチャネルを出力として与える線形変換の定量的属性を定義する。
【0081】
ある例示的実施形態では、前記ウェット・アップミックス・パラメータは、前記脱相関済み信号の線形マッピング(これは前記ウェット・アップミックス・パラメータが定義する)によって得られる信号の共分散が、受領された前記Mチャネル・オーディオ信号の共分散と選択された符号化フォーマットの前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差を近似するよう決定されてもよい。異なる言い方をすれば、ダウンミックス信号の(ドライ・アップミックス・パラメータによって定義される)第一の線形マッピングと脱相関済み信号の(この例示的実施形態に従って決定されるウェット・アップミックス・パラメータによって定義される)第二の線形マッピングとの和の共分散が、上記で論じているオーディオ・エンコード方法への入力をなすMチャネル・オーディオ信号の共分散に近くなる。本例示的実施形態に従ってウェット・アップミックス係数を決定することは、再構成されるMチャネル・オーディオ信号の忠実度を改善しうる。
【0082】
あるいはまた、前記ウェット・アップミックス・パラメータは、前記脱相関済み信号の線形マッピングによって得られる信号の共分散が、受領された前記Mチャネル・オーディオ信号の共分散と選択された符号化フォーマットの前記ダウンミックス信号の線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差の一部を近似するよう決定されてもよい。たとえば、デコーダ側で限られた数の脱相関器が利用可能である場合、受領されたMチャネル・オーディオ信号の共分散を完全に復元することは可能でないことがある。そのような例では、前記Mチャネル・オーディオ信号の共分散の部分的な再構成のために好適なウェット・アップミックス・パラメータが、エンコーダ側で決定されてもよい。
【0083】
ある例示的実施形態では、本オーディオ・エンコード方法はさらに、前記少なくとも二つの符号化フォーマットのそれぞれについて:(その符号化フォーマットについての)前記ドライ・アップミックス係数と一緒になって、(その符号化フォーマットの)前記ダウンミックス信号からかつ(そのフォーマットの)前記ダウンミックス信号に基づいて決定された脱相関済み信号からの前記Mチャネル・オーディオ信号のパラメトリック再構成を許容するウェット・アップミックス・パラメータの集合を決定する段階を含んでいてもよい。ここで、ウェット・アップミックス・パラメータの前記集合は、前記脱相関済み信号の線形マッピングを、前記脱相関済み信号の前記線形マッピングによって得られる信号の共分散が、受領された前記Mチャネル・オーディオ信号の共分散と(そのフォーマットの)前記ダウンミックス信号の前記線形マッピングによって近似された前記Mチャネル・オーディオ信号の共分散との間の差を近似するよう、定義する。本例示的実施形態では、選択された符号化フォーマットは、ウェット・アップミックス係数のそれぞれの決定された集合の値に基づいて選択されてもよい。
【0084】
再構成された前記Mチャネル・オーディオ信号の指標が、たとえば、決定されたウェット・アップミックス係数に基づいて得られてもよい。符号化フォーマットの選択は、たとえば、決定されたウェット・アップミックス係数の重み付けされたまたは重み付けされない和に、決定されたウェット・アップミックス係数の絶対値の重み付けされたまたは重み付けされない和に、および/または決定されたウェット・アップミックス係数の二乗の重み付けされたまたは重み付けされない和に基づいていてもよく、たとえばそれぞれの計算されたドライ・アップミックス係数の対応する和にも基づいていてもよい。
【0085】
ウェット・アップミックス・パラメータは、たとえば、前記Mチャネル信号の複数の周波数帯域について計算されてもよく、符号化フォーマットの選択は、たとえば、それぞれの周波数帯域におけるそれぞれの決定された集合のウェット・アップミックス係数の値に基づいていてもよい。
【0086】
ある例示的実施形態では、第一と第二の符号化フォーマットの間の遷移は、ある時間フレームでは第一の符号化フォーマットの、その後の時間フレームでは第二の符号化フォーマットの、ドライおよびウェット・アップミックス係数の離散的な値を出力することを含む。前記Mチャネル信号を最終的に再構成するデコーダにおける機能は、出力の離散的な値の間のアップミックス係数の補間を含んでいてもよい。そのようなデコーダ側機能のおかげで、第一の符号化フォーマットから第二の符号化フォーマットへのクロスフェードが実効的に帰結する。上記したダウンミックス信号に適用されるクロスフェードと同様に、そのようなクロスフェードは、前記Mチャネル・オーディオ信号が再構成されるときに、符号化フォーマットの間での、より知覚されにくい遷移につながりうる。
【0087】
前記Mチャネル・オーディオ信号に基づいて前記ダウンミックス信号を計算するために用いられる前記係数は補間されてもよい、すなわちダウンミックス信号が第一の符号化フォーマットに従って計算されるフレームに関連付けられた値から、ダウンミックス信号が第二の符号化フォーマットに従って計算されるフレームに関連付けられた値に補間されてもよい。少なくともダウンミックスが時間領域で行なわれる場合には、概説される型の係数補間から帰結するダウンミックス・クロスフェードは、それぞれのダウンミックス信号に対して直接実行される補間から帰結するクロスフェードと等価であろう。ダウンミックス信号を計算するために用いられる係数の値は典型的には信号依存ではなく、利用可能な符号化フォーマットのそれぞれについて事前に定義されてもよいことが想起される。
【0088】
ダウンミックス信号およびアップミックス係数のクロスフェードに戻ると、二つのクロスフェードの間の同期を保証することが有利であるとみなされる。好ましくは、ダウンミックス信号およびアップミックス係数についてのそれぞれの遷移期間は、一致してもよい。特に、それぞれのクロスフェードを受け持つエンティティは、制御データの共通ストリームによって制御されてもよい。そのような制御データは、クロスフェードの始点および終点ならびに任意的には線形、非線形などのクロスフェード波形を含んでいてもよい。アップミックス係数の場合、クロスフェード波形は、デコード装置の挙動を支配する所定の補間規則によって与えられてもよい;だが、クロスフェードの始点および終点は、アップミックス係数の離散的な値が定義および/または出力される位置によって暗黙的に制御されてもよい。二つのクロスフェード・プロセスの時間依存性の類似性は、ダウンミックス信号およびその再構成のために与えられるパラメータの間の良好な一致を保証する。これは、デコーダ側でのアーチファクトの低減につながりうる。
【0089】
ある例示的実施形態では、符号化フォーマットの選択は、受領された前記Mチャネル信号と前記ダウンミックス信号に基づいて再構成された前記Mチャネル信号との共分散に関する差を比較することに基づく。特に、再構成は、ドライ・アップミックス係数のみによって、すなわち(たとえばダウンミックス信号のオーディオ・コンテンツの次元性を増すために)脱相関を使って決定された信号からの寄与なしに、定義される、ダウンミックス信号の線形マッピングに等しくてもよい。特に、ウェット・アップミックス係数のいかなる集合によって定義される線形マッピングの寄与も、前記比較において考慮されない。異なる言い方をすれば、前記比較は、脱相関済み信号が利用可能ではないかのようになされる。選択のためのこの基礎は、現在、より忠実な再生を許容する符号化フォーマットを優先してもよい。任意的には、この比較が実行されて、符号化フォーマットの選択についての決定がなされた後、ウェット・アップミックス係数の集合が決定される。このプロセスに関連する利点は、受領されたMチャネル・オーディオ信号の所与のセクションについて、ウェット・アップミックス係数の重複した決定がないということである。
【0090】
前段落で述べた例示的実施形態への変形において、ドライおよびウェット・アップミックス係数は、前記符号化フォーマットのすべてについて計算され、前記ウェット・アップミックス係数の定量的尺度が、符号化フォーマットの選択のための基礎として使われる。実際、決定されたウェット・アップミックス係数に基づいて計算される量は、再構成されるMチャネル・オーディオ信号の忠実度の(逆)指標を提供しうる。符号化フォーマットの選択は、たとえば、決定されたウェット・アップミックス係数の重み付けされたまたは重み付けされない和に、決定されたウェット・アップミックス係数の絶対値の重み付けされたまたは重み付けされない和に、および/または決定されたウェット・アップミックス係数の二乗の重み付けされたまたは重み付けされない和に基づいていてもよい。これらのオプションのそれぞれは、それぞれの計算されるドライ・アップミックス係数の対応する和と組み合わされてもよい。ウェット・アップミックス・パラメータは、たとえば、前記Mチャネル信号の複数の周波数帯域について計算されてもよく、符号化フォーマットの選択は、たとえば、それぞれの周波数帯域におけるそれぞれの決定された集合のウェット・アップミックス係数の値に基づいていてもよい。
【0091】
ある例示的実施形態では、本オーディオ・エンコード方法はさらに:前記少なくとも二つの符号化フォーマットのそれぞれについて、対応するウェット・アップミックス係数の二乗の和および対応するドライ・アップミックス係数の二乗の和を計算することを含んでいてもよい。本例示的実施形態では、選択された符号化フォーマットは、これらの計算された二乗和に基づいて選択されてもよい。発明者らは、これらの計算された二乗和が、前記Mチャネル・オーディオ信号がウェットおよびドライ寄与の混合に基づいて再構成されるときに生じる、聴取者によって知覚される忠実度の損失の、特に良好な指標を提供しうることを認識するに至った。
【0092】
たとえば、各符号化フォーマットについて、それぞれの符号化フォーマットについてのそれらの計算された二乗和に基づいて比が形成されてもよく、選択された符号化フォーマットは、形成された比のうち最小または最大のものに関連付けられていてもよい。比を形成することは、たとえば、ウェット・アップミックス係数の二乗の和をドライ・アップミックス係数の二乗の和とウェット・アップミックス係数の二乗の和との和で割ることを含んでいてもよい。あるいはまた、比は、ウェット・アップミックス係数の二乗の和をドライ・アップミックス係数の二乗の和で割ることによって形成されてもよい。
【0093】
ある例示的実施形態では、本方法は、Mチャネル・オーディオ信号および少なくとも一つの関連する(M2チャネル)オーディオ信号のエンコードを提供する。これらのオーディオ信号は、たとえば同時に録音されたまたは共通のオーサリング・プロセスにおいて生成されたことにより、共通のオーディオ・シーンを記述するという意味で、関連していてもよい。これらのオーディオ信号は、共通のダウンミックス信号によってエンコードされる必要はなく、別個のプロセスでエンコードされてもよい。そのようなセットアップでは、符号化フォーマットのうちの一つの選択は、さらに、前記少なくとも一つのさらなるオーディオ・チャネルに関係するデータを考慮に入れ、こうして選択された符号化フォーマットは、前記Mチャネル・オーディオ信号および関連する(M2チャネル)オーディオ信号の両方をエンコードするために使われる。
【0094】
ある例示的実施形態では、本オーディオ・エンコード方法によって出力されるダウンミックス信号は、時間フレームにセグメント分割されていてもよく、符号化フォーマットの選択はフレームごとに一度実行されてもよく、選択された符号化フォーマットは、異なる符号化フォーマットが選択される前に、少なくともあらかじめ定義された数の時間フレームにわたって維持されてもよい。あるフレームについての符号化フォーマットの選択は、上記で概説した方法のいずれによって実行されてもよく、たとえば共分散の間の差を考慮することによって、利用可能な符号化フォーマットについてのウェット・アップミックス係数の値を考慮することによって、などで実行されてもよい。選択された符号化フォーマットをある最小数の時間フレーム数にわたって維持することにより、符号化フォーマット間での行ったり来たりの繰り返されるジャンプがたとえば回避されうる。本例示的実施形態は、たとえば、再構成されるMチャネル・オーディオ信号の、聴取者によって知覚される再生品質を改善しうる。
【0095】
前記最小数はたとえば10であってもよい。
【0096】
受領されるMチャネル・オーディオ信号はたとえば、前記最小数の時間フレームにわたってバッファリングされてもよく、符号化フォーマットの選択は、たとえば、選択された符号化フォーマットが維持されるべきフレームの前記最小数に鑑みて選ばれるある数の時間フレームを含む移動窓にわたる多数決に基づいて実行されてもよい。そのような安定化機能の実装は、さまざまな平滑化フィルタ、特にデジタル信号処理において知られている有限インパルス応答平滑化フィルタの一つを含んでいてもよい。この手法への代替として、符号化フォーマットは、新たな符号化フォーマットが前記最小数のフレームにわたって続けて選択されたと見出されるときに、該新たな符号化フォーマットに切り換えられることができる。この基準を実施するために、前記最小数の連続するフレームをもつ移動時間窓が、たとえばバッファリングされているフレームについての過去の符号化フォーマット選択に適用されてもよい。第一の符号化フォーマットのフレームのシーケンス後に、第二の符号化フォーマットが移動窓内の各フレームについて選択されたままであれば、第二の符号化フォーマットへの遷移が確証され、その移動窓の先頭以降、有効になる。上記の安定化機能の実装は状態機械を含んでいてもよい。
【0097】
ある例示的実施形態では、ドライおよびウェット・アップミックス・パラメータのコンパクトな表現が提供される。これは、中でも、あらかじめ定義された行列クラスに属するおかげで、行列内の要素よりも少数のパラメータによって一意的に決定される中間行列を生成することを含む。このコンパクトな表現の諸側面は、米国仮特許出願第61/974,544号;筆頭発明者Lars Villemoes;出願日2014年4月3日を特に参照して、本開示の先の部分で述べた。
【0098】
ある例示的実施形態では、選択された符号化フォーマットにおいて、前記Mチャネル・オーディオ信号の一つまたは複数のチャネルの第一のグループはN個のチャネルからなっていてもよい。ここで、N≧3である。一つまたは複数のチャネルの前記第一のグループは、前記ダウンミックス信号の前記第一のチャネルおよび前記脱相関済み信号のN-1個のチャネルから、ウェットおよびドライ・アップミックス係数の少なくともいくつかを適用することによって再構成可能であってもよい。
【0099】
本例示的実施形態では、選択された符号化フォーマットのドライ・アップミックス係数の集合を決定することは、選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループを近似する選択された符号化フォーマットの前記ダウンミックス信号の前記第一のチャネルの線形マッピングを定義するために、選択された符号化フォーマットのドライ・アップミックス係数の部分集合を決定することを含んでいてもよい。
【0100】
本例示的実施形態では、選択された符号化フォーマットのウェット・アップミックス係数の集合を決定することは:受領された前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループの共分散と、前記選択された符号化フォーマットの前記ダウンミックス信号の前記第一のチャネルの前記線形マッピングによって近似される前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループの共分散との間の差に基づいて中間行列を決定することを含んでいてもよい。あらかじめ定義された行列を乗算されると、前記中間行列は、前記選択された符号化フォーマットの一つまたは複数のチャネルの前記第一のグループのパラメトリック再構成の一部として、前記脱相関済み信号の前記N-1個のチャネルの線形マッピングを定義する前記選択された符号化フォーマットのウェット・アップミックス係数の部分集合に対応してもよい。前記選択された符号化フォーマットのウェット・アップミックス係数の前記部分集合は、前記中間行列内の要素の数より多くの係数を含んでいてもよい。
【0101】
本例示的実施形態では、出力されるアップミックス・パラメータは、ドライ・アップミックス係数の前記部分集合が導出可能なもとになる、本稿でドライ・アップミックス・パラメータと称される第一の型のアップミックス・パラメータの集合と、前記中間行列があらかじめ定義された行列クラスに属するという前提で前記中間行列を一意的に定義する、本稿でウェット・アップミックス・パラメータと称される第二の型のアップミックス・パラメータの集合とを含んでいてもよい。前記中間行列は、前記選択された符号化フォーマットの前記ウェット・アップミックス・パラメータの前記部分集合内の要素の数より多くの要素を有していてもよい。
【0102】
本例示的実施形態では、デコーダ側での一つまたは複数のチャネルの前記第一のグループのパラメトリック再構成コピーは、一つの寄与としての、前記ダウンミックス信号の前記第一のチャネルの線形マッピングによって形成されるドライ・アップミックス信号と、さらなる寄与としての、前記脱相関済み信号の前記N-1個のチャネルの線形マッピングによって形成されるウェット・アップミックス信号とを含む。ドライ・アップミックス係数の前記部分集合は、前記ダウンミックス信号の前記第一のチャネルの線形マッピングを定義し、ウェット・アップミックス係数の前記部分集合は、前記脱相関済み信号の線形マッピングを定義する。ウェット・アップミックス係数の前記部分集合内の係数の数より少数の、前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスに基づいてウェット・アップミックス係数の前記部分集合が導出されるもとになるウェット・アップミックス・パラメータを出力することにより、前記Mチャネル・オーディオ信号の再構成を可能にするためにデコーダ側に送られる情報の量が減らされうる。パラメトリック再構成のために必要とされるデータの量を減らすことにより、前記Mチャネル・オーディオ信号のパラメトリック表現の伝送のための必要とされる帯域幅および/またはそのような表現を記憶するための必要とされるメモリ・サイズが低減されうる。
【0103】
前記中間行列は、たとえば、前記脱相関済み信号の前記N-1個のチャネルの線形マッピングによって得られる信号の共分散が、前記ダウンミックス信号の前記第一のチャネルの線形マッピングによって近似される一つまたは複数のチャネルの前記第一のグループの共分散を補足するよう、決定されてもよい。
【0104】
前記あらかじめ定義された行列および前記あらかじめ定義された行列クラスをどのように決定し、用いるかは、上述した米国仮特許出願第61/974,544号;筆頭発明者Lars Villemoes;出願日2014年4月3日の第16頁第15行から第20頁第2行により詳細に記述されている。特に、あらかじめ定義された行列の例については、同出願の式(9)を参照されたい。
【0105】
ある例示的実施形態では、前記中間行列を決定することは、ウェット・アップミックス係数の前記部分集合によって定義される前記脱相関済み信号の前記N-1個のチャネルの前記線形マッピングによって得られる前記信号の共分散が、受領された前記第一のグループの一つまたは複数のチャネルの共分散と、前記ダウンミックス信号の前記第一のチャネルの前記線形マッピングによって近似された前記第一のグループの一つまたは複数のチャネルの共分散との間の差を近似するまたは該差と実質的に一致するよう、前記中間行列を決定することを含んでいてもよい。換言すれば、前記中間行列は、前記ダウンミックス信号の前記第一のチャネルの前記線形マッピングによって形成されるドライ・アップミックス信号と前記脱相関済み信号の前記N-1個のチャネルの前記線形マッピングによって形成されるウェット・アップミックス信号との和として得られる前記第一のグループの一つまたは複数のチャネルの再構成コピーが、受領された前記第一のグループの一つまたは複数のチャネルの共分散を完全にまたは少なくとも近似的に再現するように決定されてもよい。
【0106】
ある例示的実施形態では、ウェット・アップミックス・パラメータは、高々N(N-1)/2個の独立して割り当て可能なウェット・アップミックス・パラメータを含んでいてもよい。本例示的実施形態では、中間行列は(N-1)2個の行列要素を有していてもよく、中間行列があらかじめ定義された行列クラスに属する限り、前記ウェット・アップミックス・パラメータによって一意的に定義されてもよい。本例示的実施形態では、ウェット・アップミックス係数の前記部分集合はN(N-1)個の係数を含んでいてもよい。
【0107】
ある例示的実施形態では、ドライ・アップミックス係数の前記部分集合はN個の係数を含んでいてもよい。本例示的実施形態では、前記ドライ・アップミックス・パラメータは、高々N-1個のドライ・アップミックス・パラメータを含んでいてもよい。ドライ・アップミックス係数の前記部分集合は、あらかじめ定義された規則を使って、前記N-1個のドライ・アップミックス・パラメータから導出可能であってもよい。
【0108】
ある例示的実施形態では、決定されたドライ・アップミックス係数の前記部分集合は、前記第一のグループの一つまたは複数のチャネルの最小平均二乗誤差近似に対応する前記ダウンミックス信号の前記第一のチャネルの線形マッピングを定義してもよい。すなわち、前記ダウンミックス信号の前記第一のチャネルの線形マッピングの集合の間で、ドライ・アップミックス係数の決定された集合は、最小平均二乗の意味で前記第一のグループの一つまたは複数のチャネルを最もよく近似する線形マッピングを定義しうる。
【0109】
ある例示的実施形態では、オーディオ・エンコード・システムが提供され、本システムは、M≧4であるとして、Mチャネル・オーディオ信号を、二チャネル・オーディオ信号および関連するアップミックス・パラメータとしてエンコードするよう構成されたエンコード部を有する。前記エンコード部は:前記Mチャネル・オーディオ信号のチャネルの、一つまたは複数のチャネルのそれぞれ第一および第二のグループへのそれぞれ異なる分割に対応する少なくとも二つの符号化フォーマットのうちの少なくとも一つについて、その符号化フォーマットに従って、前記Mチャネル・オーディオ信号に基づく二チャネル・ダウンミックス信号を計算するよう構成されたダウンミックス部を有する。前記ダウンミックス信号の第一のチャネルは、前記Mチャネル・オーディオ信号の前記第一のグループの一つまたは複数のチャネルの線形結合として形成され、前記ダウンミックス信号の第二のチャネルは、前記Mチャネル・オーディオ信号の前記第二のグループの一つまたは複数のチャネルの線形結合として形成される。
【0110】
本オーディオ・エンコード・システムはさらに、任意の好適な選択基準、たとえば信号属性、システム負荷、ユーザー選好、ネットワーク条件に基づいて前記符号化フォーマットのうちの一つを選択するよう構成された制御部を有する。本オーディオ・エンコード・システムはさらに、前記制御部によって遷移が命令されたときに二つの符号化フォーマットの間で前記ダウンミックス信号をクロスフェードさせるダウンミックス補間器をさらに有する。そのような遷移の間は、両方の符号化フォーマットについてのダウンミックス信号が計算されてもよい。前記ダウンミックス信号――または該当するときはそのクロスフェード――に加えて、本オーディオ・エンコード・システムは、現在選択されている符号化フォーマットを示すシグナルおよび前記ダウンミックス信号に基づく前記Mチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報を少なくとも出力する。システムが、たとえばオーディオ・チャネルのそれぞれのグループをエンコードするために並列に動作する複数のエンコード部を有する場合には、前記制御部は、そのそれぞれから自律的であり、各エンコード部によって使われるべき共通の符号化フォーマットを選択することを受け持つよう実装されてもよい。
【0111】
ある例示的実施形態によれば、本節で述べたいずれかの方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
【0112】
〈III.例示的実施形態〉
図6~
図8は、11.1チャネル・オーディオ信号を5.1チャネル・オーディオ信号としてパラメトリック・エンコードするために、11.1チャネル・オーディオ信号をチャネルの諸グループに分割する代替的な諸仕方を示している。11.1チャネル・オーディオ信号は、L(左)、LS(左側方)、LB(左後方)、TFL(上前方左)、TBL(上後方左)、R(右)、RS(右側方)、RB(右後方)、TFR(上前方右)、TBR(上後方右)、C(中央)およびLFE(低域効果)のチャネルを含む。五つのチャネルL,LS,LB,TFL,TBLは11.1チャネル・オーディオ信号の再生環境における左半空間を表わす5チャネル・オーディオ信号をなす。三つのチャネルL,LS,LBは再生環境における異なる水平方向を表わし、二つのチャネルTFL,TBLは三つのチャネルL,LS,LBの方向から垂直に離間した方向を表わす。二つのチャネルTFL,TBLはたとえば天井スピーカーにおける再生のために意図されていてもよい。同様に、五つのチャネルR,RS,RB,TFR,TBRは再生環境の右半空間を表わす追加的な5チャネル・オーディオ信号をなし、三つのチャネルR,RS,RBは再生環境における異なる水平方向を表わし、二つのチャネルTFR,TBRは三つのチャネルR,RS,RBの方向から垂直に離間した方向を表わす。
【0113】
11.1チャネル・オーディオ信号を5.1チャネル・オーディオ信号として表わすために、チャネルL,LS,LB,TFL,TBL,R,RS,RB,TFR,TBR,C,LFEのコレクションは、関連するアップミックス・パラメータおよびそれぞれのダウンミックス・チャネルによって表わされるチャネルの諸グループに分割されてもよい。5チャネル・オーディオ信号L,LS,LB,TFL,TBLは二チャネル・ダウンミックス信号L1,L2および関連するアップミックス・パラメータによって表わされてもよく、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRは追加的な二チャネル・ダウンミックス信号R1,R2および関連する追加的なアップミックス・パラメータによって表わされてもよい。チャネルCおよびLFEは、11.1チャネル・オーディオ信号の5.1チャネル表現においても別個のチャネルとして保持されてもよい。
【0114】
図6は第一の符号化フォーマットF
1を示している。ここでは、5チャネル・オーディオ信号L,LS,LB,TFL,TBLはチャネルL,LS,LBの第一のグループ601およびチャネルTFL,TBLの第二のグループ602に分割され、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRはチャネルR,RS,RBの追加的な第一のグループ603およびチャネルTFR,TBRの追加的な第二のグループ604に分割される。第一の符号化フォーマットF
1では、チャネルの第一のグループ601は二チャネル・ダウンミックス信号の第一のチャネルL
1によって表わされ、チャネルの第二のグループ602は二チャネル・ダウンミックス信号の第二のチャネルL
2によって表わされる。ダウンミックス信号の第一のチャネルL
1は、L
1=L+LS+LBのように第一のグループ601のチャネルの和に対応していてもよく、ダウンミックス信号の第二のチャネルL
2は、L
2=TFL+TBLのように第二のグループ602のチャネルの和に対応していてもよい。
【0115】
いくつかの例示的実施形態では、チャネルの一部または全部は、総和に先立って再スケーリングされてもよい。それにより、ダウンミックス信号の第一のチャネルL
1は、L
1=c
1L+c
2LS+c
3LBに従って第一のグループ601のチャネルの線形結合に対応していてもよく、ダウンミックス信号の第二のチャネルL
2は、L
2=c
4TFL+c
5TBLに従って第二のグループ602のチャネルの線形結合に対応していてもよい。利得c
2,c
3,c
4,c
5はたとえば一致してもよい。一方、利得c
1はたとえば異なる値を有していてもよい。たとえば、c
1は再スケーリングなしに対応してもよい。たとえば、値c
1=1およびc
2=c
3=c
4=c
5=1/√2が使われてもよい。たとえば、第一の符号化フォーマットF
1におけるそれぞれのチャネルL,LS,LB,TFL,TBLに適用される利得c
1,…,c
5が
図7および
図8を参照して後述する他の符号化フォーマットF
2およびF
3においてこれらのチャネルに適用される利得と一致する場合、これらの利得は、異なる符号化フォーマットF
1、F
2、F
3の間で切り換えるときにダウンミックス信号がどのように変化するかには影響しない。したがって、再スケーリングされたチャネルc
1L,c
2LS,c
3LB,c
4TFL,c
5TBLは、これらがあたかももとのチャネルL,LS,LB,TFL,TBLであるかのように扱われてもよい。他方、異なる符号化フォーマットにおいて同じチャネルの再スケーリングのために異なる利得が用いられる場合には、これらの符号化フォーマットの間での切り換えは、たとえば、ダウンミックス信号におけるチャネルL,LS,LB,TFL,TBLの異なるスケーリングをされたバージョンの間のジャンプを引き起こすことがある。これはデコーダ側で可聴なアーチファクトを引き起こす可能性がある。そのようなアーチファクトはたとえば、符号化フォーマットの切り換え前にダウンミックス信号を形成するために用いられる係数から符号化フォーマットの切り換え後にダウンミックス信号を形成するために用いられる係数への補間を用いることによって、あるいは式(3)(4)との関係で後述するプレ脱相関係数の補間を用いることによって、抑制されてもよい。
【0116】
同様に、チャネルの追加的な第一のグループ603は追加的なダウンミックス信号の第一のチャネルR1によって表わされ、チャネルの追加的な第二のグループ604は追加的なダウンミックス信号の第二のチャネルR2によって表わされる。
【0117】
第一の符号化フォーマットF1は、天井チャネルTFL、TBL、TFR、TBRを表わすための専用のダウンミックス・チャネルL2およびR2を提供する。したがって、第一の符号化フォーマットF1の使用は、たとえば再生環境の垂直方向次元が11.1チャネル・オーディオ信号の全体的な印象にとって重要である場合に、比較的高い忠実度で11.1チャネル・オーディオ信号のパラメトリック再構成を許容しうる。
【0118】
図7は第二の符号化フォーマットF
2を示している。ここでは、5チャネル・オーディオ信号L,LS,LB,TFL,TBLはダウンミックス信号のそれぞれのチャネルL
1、L
2によって表わされるチャネルの第一701および第二702のグループに分割される。ここで、チャネルL
1およびL
2は、それぞれのグループ701および702のチャネルの和、あるいはそれぞれのチャネルL,LS,LB,TFL,TBLを再スケーリングするための第一の符号化フォーマットF
1におけるのと同じ利得c
1,…,c
5を用いてのそれぞれのグループ701および702のチャネルの線形結合に対応する。同様に、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRはそれぞれのチャネルR
1およびR
2によって表わされるチャネルの追加的な第一703および第二704のグループに分割される。
【0119】
第二の符号化フォーマットF2は、天井チャネルTFL、TBL、TFR、TBRを表わすための専用のダウンミックス・チャネルを提供しないが、たとえば再生環境の垂直方向次元が11.1チャネル・オーディオ信号の全体的な印象にとってそれほど重要でない場合に、比較的高い忠実度で11.1チャネル・オーディオ信号のパラメトリック再構成を許容しうる。
【0120】
図8は第三の符号化フォーマットF
3を示している。ここでは、5チャネル・オーディオ信号L,LS,LB,TFL,TBLはダウンミックス信号のそれぞれのチャネルL
1およびL
2によって表わされる一つまたは複数のチャネルの第一801および第二802のグループに分割される。ここで、チャネルL
1およびL
2は、それぞれのグループ801および802の一つまたは複数のチャネルの和、あるいはそれぞれのチャネルL,LS,LB,TFL,TBLを再スケーリングするための第一の符号化フォーマットF
1におけるのと同じ利得c
1,…,c
5を用いてのそれぞれのグループ801および802の一つまたは複数のチャネルの線形結合に対応する。同様に、追加的な5チャネル・オーディオ信号R,RS,RB,TFR,TBRはそれぞれのチャネルR
1およびR
2によって表わされるチャネルの追加的な第一803および第二804のグループに分割される。第三の符号化フォーマットF
3では、チャネルLのみがダウンミックス信号の第一のチャネルL
1によって表わされ、四つのチャネルLS、FB、TFL、TBLはダウンミックス信号の第二のチャネルL
2によって表わされる。
【0121】
図1~
図5を参照して述べるエンコーダ側では、二チャネル・ダウンミックス信号L
1、L
2は5チャネル・オーディオ信号X=[L LS LB TFL TBL]
Tの線形マッピングとして、
【数1】
に従って計算される。ここで、d
n,m(n=1,2、m=1,…,5)はダウンミックス行列Dによって表わされるダウンミックス係数である。
図9~
図13を参照して述べるデコーダ側では、5チャネル・オーディオ信号X=[L LS LB TFL TBL]
Tのパラメトリック再構成が
【数2】
に従って実行される。ここで、c
n,m(n=1,…,5、m=1,2)はドライ・アップミックス行列β
Lによって表わされるドライ・アップミックス係数であり、p
n,k(n=1,…,5、k=1,2,3)はウェット・アップミックス行列γ
Lによって表わされるウェット・アップミックス係数であり、z
k(k=1,2,3)はダウンミックス信号L
1、L
2に基づいて生成される三チャネル脱相関済み信号Zのチャネルである。
【0122】
図1は、ある例示的実施形態に基づく、Mチャネル信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのエンコード部100の一般化されたブロック図である。
【0123】
Mチャネル・オーディオ信号は、ここでは
図6~
図8を参照して述べた5チャネル・オーディオ信号L、LS、LB、TFLおよびTBLによって例示される。エンコード部100がMチャネル・オーディオ信号に基づいて二チャネル・ダウンミックス信号を計算し、M=4またはM≧6である例示的実施形態も構想されうる。
【0124】
エンコード部100は、ダウンミックス部110および解析部120を有する。
図6~
図8を参照して述べた符号化フォーマットF
1、F
2、F
3のそれぞれについて、ダウンミックス部110は5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L
1,L
2を計算する。たとえば第一の符号化フォーマットF
1においては、ダウンミックス信号の第一のチャネルL
1は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのチャネルの第一のグループ601の線形結合(たとえば和)として形成され、ダウンミックス信号の第二のチャネルL
2は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのチャネルの第二のグループ602の線形結合(たとえば和)として形成される。ダウンミックス部110によって実行される動作は、たとえば式(1)のように表わせる。
【0125】
符号化フォーマットF1、F2、F3のそれぞれについて、解析部120は、5チャネル・オーディオ信号L、LS、LB、TFL、TBLを近似するそれぞれのダウンミックス信号L1、L2の線形マッピングを定義するドライ・アップミックス係数の集合βLを決定し、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散とそれぞれのダウンミックス信号L1、L2のそれぞれの線形マッピングによって近似される5チャネル・オーディオ信号の共分散との間の差を計算する。計算された差は、ここでは、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とそれぞれのダウンミックス信号L1、L2のそれぞれの線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差によって例示される。符号化フォーマットF1、F2、F3のそれぞれについて、解析部120は、それぞれの計算された差に基づいてウェット・アップミックス係数の集合γLを決定する。これは、ドライ・アップミックス係数βLと一緒になって、ダウンミックス信号L1、L2と、ダウンミックス信号L1、L2に基づいてデコーダ側で決定された三チャネル脱相関済み信号とから、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの式(2)に基づくパラメトリック再構成を許容する。アップミックス係数の集合γLは、脱相関済み信号の線形マッピングによって得られる信号の共分散行列が、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とダウンミックス信号L1、L2の線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差を近似するように、脱相関済み信号の線形マッピングを定義する。
【0126】
ダウンミックス部110はたとえば、時間領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの時間領域表現に基づいて、あるいは周波数領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域表現に基づいて、ダウンミックス信号L1、L2を計算してもよい。
【0127】
解析部120はたとえば、ドライ・アップミックス係数βLおよびウェット・アップミックス係数γLを、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域解析に基づいて決定してもよい。解析部120は、ドライ・アップミックス係数βLおよびウェット・アップミックス係数γLを決定するために、たとえば、ダウンミックス部110によって計算されたダウンミックス信号L1、L2を受領してもよく、あるいはダウンミックス信号L1、L2の自分自身のバージョンを計算してもよい。
【0128】
図3は、ある例示的実施形態に基づく、
図1を参照して述べたエンコード部100を有するオーディオ・エンコード・システム300の一般化されたブロック図である。本例示的実施形態では、たとえば一つまたは複数の音響トランスデューサ301によって記録されたまたはオーディオ・オーサリング設備301によって生成されたオーディオ・コンテンツは、
図6ないし
図8を参照して記述した11.1チャネル・オーディオ信号の形で与えられる。直交ミラー・フィルター(QMF)解析部302が5チャネル・オーディオ信号L、LS、LB、TFL、TBLを時間セグメントごとにQMF領域に変換する。エンコード部100が時間/周波数タイルの形で5チャネル・オーディオ信号L、LS、LB、TFL、TBLを処理するためである。(のちにさらに説明するように、QMF解析部302およびその対応物であるQMF合成部305は任意的である。)オーディオ・エンコード・システム300は、エンコード部100と同様の、追加的な5チャネル・オーディオ信号R、RS、RB、TFR、TBRを追加的な二チャネル・ダウンミックス信号R
1、R
2および付随する追加的なドライ・アップミックス・パラメータβ
Rおよび追加的なウェット・アップミックス・パラメータγ
Rとしてエンコードするよう適応された追加的なエンコード部303を有する。QMF解析部302は、追加的な5チャネル・オーディオ信号R、RS、RB、TFR、TBRをも、追加的なエンコード部303による処理のために、QMF領域に変換する。
【0129】
制御部304は、符号化フォーマットF
1、F
2、F
3のうちの一つを、それぞれの符号化フォーマットF
1、F
2、F
3についてエンコード部100および追加的なエンコード部303によって決定されたウェットおよびドライ・アップミックス係数γ
L、γ
Rおよびβ
L、β
Rに基づいて選択する。たとえば、符号化フォーマットF
1、F
2、F
3のそれぞれについて、制御部304は比
【数3】
を計算してもよい。ここで、E
wetはウェット・アップミックス係数γ
Lおよびγ
Rの二乗の和であり、E
dryはドライ・アップミックス係数β
Lおよびβ
Rの二乗の和である。選択された符号化フォーマットは、符号化フォーマットF
1、F
2、F
3の比Eのうちの最小のものに関連付けられたものであってもよい。すなわち、制御部304は、最小の比Eに対応する符号化フォーマットを選択してもよい。発明者らは、比Eについての低減された値は、関連する符号化フォーマットから再構成される11.1チャネル・オーディオ信号の向上した忠実度を示しうることを認識するに至った。
【0130】
いくつかの例示的実施形態では、ドライ・アップミックス係数βLおよびβRの二乗の和Edryはたとえば、値1をもつ追加的な項を含んでいてもよい。これは、チャネルCがデコーダ側に伝送され、脱相関なしに、たとえば値1をもつドライ・アップミックス係数を用いるだけで再構成されうるという事実に対応するものである。
【0131】
いくつかの例示的実施形態では、制御部304は二つの5チャネル・オーディオ信号L、LS、LB、TFL、TBLおよびR、RS、RB、TFR、TBRについての符号化フォーマットを、それぞれウェットおよびドライ・アップミックス・パラメータγL、βLおよび追加的なウェットおよびドライ・アップミックス・パラメータγR、βRに基づいて独立に選択してもよい。
【0132】
次いで、オーディオ・エンコード・システム300は、選択された符号化フォーマットのダウンミックス信号L1、L2および追加的なダウンミックス信号R1、R2と、選択された符号化フォーマットに関連するドライおよびウェット・アップミックス係数βL、γLおよび追加的なドライおよびウェット・アップミックス係数βR、γRが導出できるもとになるアップミックス・パラメータαと、選択された符号化フォーマットを示すシグナルSとを出力してもよい。
【0133】
本例示的実施形態では、制御部304は、選択された符号化フォーマットのダウンミックス信号L
1、L
2および追加的なダウンミックス信号R
1、R
2と、選択された符号化フォーマットに関連するドライおよびウェット・アップミックス係数β
L、γ
Lおよび追加的なドライおよびウェット・アップミックス係数β
R、γ
Rが導出できるもとになるアップミックス・パラメータαと、選択された符号化フォーマットを示すシグナルSとを出力する。ダウンミックス信号L
1、L
2および追加的なダウンミックス信号R
1、R
2はQMF合成部305(またはフィルタバンク)によってQMF領域から変換し戻され、変換部306によって修正離散コサイン変換(MDCT)領域に変換される。量子化部307はアップミックス・パラメータαを量子化する。たとえば、きざみサイズ0.1または0.2(無次元)をもつ一様量子化とそれに続く、ハフマン符号化の形のエントロピー符号化が用いられてもよい。きざみサイズ0.2でのより粗い量子化はたとえば伝送帯域幅を節約するために用いられてもよく、きざみサイズ0.1でのより細かい量子化はたとえばデコーダ側での再構成の忠実度を改善するために用いられてもよい。チャネルCおよびLFEも変換部308によってMDCT領域に変換される。MDCT変換されたダウンミックス信号およびチャネル、量子化されたアップミックス・パラメータおよび前記シグナルが次いで、マルチプレクサ309によって、デコーダ側への伝送のためにビットストリームBに組み合わされる。オーディオ・エンコード・システム300は、ダウンミックス信号およびチャネルC、LFEがマルチプレクサ309に与えられる前に、ダウンミックス信号L
1、L
2、追加的なダウンミックス信号R
1、R
2およびチャネルCおよびLFEを、ドルビー・デジタル、MPEG AACまたはその発展形のような知覚的オーディオ・コーデックを使ってエンコードするよう構成されたコア・エンコーダ(
図3には示さず)をも有していてもよい。ビットストリームBを形成する前に、たとえば-8.7dBに対応するクリップ利得がたとえばダウンミックス信号L
1、L
2、追加的なダウンミックス信号R
1、R
2およびチャネルCに適用されてもよい。あるいはまた、これらのパラメータは絶対レベルとは独立なので、クリップ利得は、L
1、L
2に対応する線形結合を形成する前に、すべての入力チャネルに適用されてもよい。
【0134】
制御部304が、符号化フォーマットを選択するために異なる符号化フォーマットF1、F2、F3についてのウェットおよびドライ・アップミックス係数γL、γR、βL、βR(またはこれらの異なる符号化フォーマットについてのウェットおよびドライ・アップミックス係数γL、γR、βL、βRの二乗の和)を受領するだけである、すなわち、制御部304はこれらの異なる符号化フォーマットについてダウンミックス信号L1、L2、R1、R2を必ずしも受領する必要がない実施形態も、構想されうる。そのような実施形態では、制御部304は、たとえば、選択された符号化フォーマットについてのダウンミックス信号L1、L2、R1、R2、ドライ・アップミックス係数βL、βRおよびウェット・アップミックス係数γL、γRをオーディオ・エンコード・システム300の出力として、あるいはマルチプレクサ309への入力として送達するよう、エンコード部100、303を制御してもよい。
【0135】
選択された符号化フォーマットが符号化フォーマット間で切り換わる場合、式(1)に従ってダウンミックス信号を形成するための、符号化フォーマットの切り換えの前後に用いられるダウンミックス係数値の間で、たとえば補間が実行されてもよい。これは一般に、ダウンミックス係数値のそれぞれの集合に基づいて生成されるダウンミックス信号の補間と等価である。
【0136】
図3は、ダウンミックス信号がQMF領域で生成されてその後時間領域に変換し戻される様を示しているが、同じ任務を充足する代替的なエンコーダは、QMF部302、305なしで実装されてもよい。それによれば、ダウンミックス信号は時間領域で直接計算される。これは、ダウンミックス係数が周波数依存でない状況において可能であり、このことは一般には成り立つ。該代替的なエンコーダでは、符号化フォーマットの遷移は、それぞれの符号化フォーマットについての二つのダウンミックス信号の間のクロスフェードによって、あるいはダウンミックス信号を生成するダウンミックス係数(一方のフォーマットで値0である係数を含む)の間で補間することによって、対処できる。そのような代替的なエンコーダは、より低い遅延/レイテンシーおよび/またはより低い計算量を有しうる。
【0137】
図2は、ある例示的実施形態に基づく、
図1を参照して述べたエンコード部100と同様のエンコード部の一般化されたブロック図である。エンコード部200は、ダウンミックス部210および解析部220を有する。
図1を参照して述べたエンコード部100と同様に、ダウンミックス部210は、符号化フォーマットF
1、F
2、F
3のそれぞれについて、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L
1,L
2を計算し、解析部220は、ドライ・アップミックス係数のそれぞれの集合β
Lを決定し、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とそれぞれのダウンミックス信号のそれぞれの線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差Δ
Lを計算する。
【0138】
図1を参照して述べたエンコード部100における解析部120とは対照的に、解析部220はすべての符号化フォーマットについてのウェット・アップミックス・パラメータを計算するのではない。その代わり、符号化フォーマットの選択のために、制御部304(
図3参照)には計算された差Δ
Lが提供される。計算された差Δ
Lに基づいてひとたび符号化フォーマットが選択されたら、選択された符号化フォーマットについてのウェット・アップミックス係数(アップミックス・パラメータの集合に含められるべきもの)が制御部304によって決定されうる。あるいはまた、制御部304が、上記で論じた共分散行列の間の計算された差Δ
Lに基づいて符号化フォーマットを選択することを受け持つが、上流方向へのシグナル伝達を介して解析部220にウェット・アップミックス係数γ
Lを計算するよう命令する。この代替(図示せず)によれば、解析部220は、差およびウェット・アップミックス係数の両方を出力する能力をもつ。
【0139】
本例示的実施形態では、ウェット・アップミックス係数の集合は、該ウェット・アップミックス係数によって定義される前記脱相関済み信号の線形マッピングによって得られる信号の共分散が、選択された符号化フォーマットの前記ダウンミックス信号の前記線形マッピングによって近似される前記5チャネル・オーディオ信号の共分散行列を補足するよう、決定される。換言すれば、デコーダ側で5チャネル・オーディオ信号L、LS、LB、TFL、TBLを再構成するときに完全な共分散再構成を達成するために、ウェット・アップミックス・パラメータは必ずしも決定される必要はない。ウェット・アップミックス・パラメータは、再構成される5チャネル・オーディオ信号の忠実度を改善するために決定されてもよいが、たとえばデコーダ側での脱相関器の数が限られている場合には、ウェット・アップミックス・パラメータは、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列のできるだけ多くの再構成を許容するよう決定されてもよい。
【0140】
図3を参照して述べたオーディオ・エンコード・システム300と同様のオーディオ・エンコード・システムが
図2を参照して述べた型の一つまたは複数のエンコード部200を有する実施形態が構想されうる。
【0141】
図4は、ある例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法400のフローチャートである。本オーディオ・エンコード方法400はここでは
図2を参照して記述したエンコード部200を有するオーディオ・エンコード・システムによって実行される方法によって例示される。
【0142】
オーディオ・エンコード方法400は:5チャネル・オーディオ信号L、LS、LB、TFL、TBLを受領し410;
図6~
図8を参照して述べた符号化フォーマットF
1、F
2、F
3のうちの第一のものに従って、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L
1、L
2を計算し420;その符号化フォーマットに従ってドライ・アップミックス係数β
Lの集合を決定し430;その符号化フォーマットに従って差分Δ
Lを計算する440ことを含む。オーディオ・エンコード方法400は:符号化フォーマットF
1、F
2、F
3のそれぞれについて差分Δ
Lが計算されたかどうかを判定450することを含む。少なくとも一つの符号化フォーマットについて差分Δ
Lが計算されるべく残っている限り、オーディオ・エンコード方法400は次の順番の符号化フォーマットに従ってダウンミックス信号L
1、L
2を計算すること420に戻る。これはフローチャートではNによって示されている。
【0143】
符号化フォーマットF1、F2、F3のそれぞれについて差分ΔLが計算され終わっている、フローチャートにおいてYによって示される場合には、方法400は、それぞれの計算された差分ΔLに基づいて符号化フォーマットF1、F2、F3の一つを選択し460;選択された符号化フォーマットのドライ・アップミックス係数βLと一緒に、式(2)に従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成を許容する、ウェット・アップミックス係数の集合を決定する470ことによって進む。オーディオ・エンコード方法400はさらに:選択された符号化フォーマットのダウンミックス信号L1、L2と、選択された符号化フォーマットに関連付けられたドライおよびウェット・アップミックス係数が導出できるもとになるアップミックス・パラメータとを出力し480;選択された符号化フォーマットを示すシグナルSを出力する490ことを含む。
【0144】
図5は、ある例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するアップミックス・パラメータとしてエンコードするためのオーディオ・エンコード方法500のフローチャートである。本オーディオ・エンコード方法500はここでは
図3を参照して記述したエンコード部300によって実行される方法によって例示される。
【0145】
図4を参照して述べたオーディオ・エンコード方法400と同様に、オーディオ・エンコード方法500は:5チャネル・オーディオ信号L、LS、LB、TFL、TBLを受領し410;符号化フォーマットF
1、F
2、F
3のうちの第一のものに従って、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L
1、L
2を計算し420;その符号化フォーマットに従ってドライ・アップミックス係数β
Lの集合を決定し430;その符号化フォーマットに従って差分Δ
Lを計算する440ことを含む。オーディオ・エンコード方法500は:その符号化フォーマットのドライ・アップミックス係数β
Lと一緒に、式(2)に従ってMチャネル・オーディオ信号のパラメトリック再構成を許容する、ウェット・アップミックス係数γ
Lの集合を決定する560ことを含む。オーディオ・エンコード方法500は、符号化フォーマットF
1、F
2、F
3のそれぞれについてウェットおよびドライ・アップミックス係数γ
L、β
Lが計算されたかどうかを判定する550ことを含む。少なくとも一つの符号化フォーマットについてウェットおよびドライ・アップミックス係数γ
L、β
Lが計算されるべく残っている限り、オーディオ・エンコード方法500は次の順番の符号化フォーマットに従ってダウンミックス信号L
1、L
2を計算すること420に戻る。これはフローチャートではNによって示されている。
【0146】
符号化フォーマットF1、F2、F3のそれぞれについてウェットおよびドライ・アップミックス係数γL、βLが計算され終わっている、フローチャートにおいてYによって示される場合には、オーディオ・エンコード方法500は、それぞれの計算されたウェットおよびドライ・アップミックス係数γL、βLに基づいて符号化フォーマットF1、F2、F3の一つを選択し570;選択された符号化フォーマットのダウンミックス信号L1、L2と、選択された符号化フォーマットに関連付けられたウェットおよびドライ・アップミックス係数βL、γLが導出できるもとになるアップミックス・パラメータとを出力し480;選択された符号化フォーマットを示すシグナルを出力する490ことによって進む。
【0147】
図9は、ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および付随するアップミックス・パラメータα
Lに基づいてMチャネル・オーディオ信号を再構成するためのデコード部900の一般化されたブロック図である。
【0148】
本例示的実施形態では、ダウンミックス信号は
図1を参照して述べたエンコード部100によって出力されるダウンミックス信号L
1、L
2によって例示される。本例示的実施形態では、エンコード部100によって出力され、5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成のために適応されているドライおよびウェット・アップミックス・パラメータβ
L、γ
Lが、アップミックス・パラメータα
Lから導出できる。しかしながら、アップミックス・パラメータα
LがMチャネル・オーディオ信号のパラメトリック再構成のために適応されていてM=4またはM≧6である実施形態も構想されうる。
【0149】
デコード部900は、プレ脱相関部910、脱相関部920および混合部930を有する。プレ脱相関部は、5チャネル・オーディオ信号L、LS、LB、TFL、TBLをエンコードするためにエンコーダ側で用いられた選択された符号化フォーマットに基づいて、一組のプレ脱相関係数を決定する。
図10を参照して後述するように、選択された符号化フォーマットは、エンコーダ側からのシグナルを介して示されてもよい。プレ脱相関部910は、ダウンミックス信号L
1、L
2の線形マッピングとして、脱相関入力信号D
1、D
2、D
3を計算する。ここで、前記一組のプレ脱相関係数がダウンミックス信号L
1、L
2に適用される。
【0150】
脱相関部920は、前記脱相関入力信号D1、D2、D3に基づいて脱相関済み信号を生成する。脱相関済み信号は、ここでは、それぞれ脱相関部920の脱相関器921~923において脱相関入力信号のチャネルの一つを処理することによって生成される三つのチャネルによって例示される。この処理は、たとえば、脱相関入力信号D1、D2、D3のそれぞれのチャネルに線形フィルタを適用することを含む。
【0151】
混合部930は、受領されたアップミックス・パラメータα
Lと、5チャネル・オーディオ信号L、LS、LB、TFL、TBLをエンコードするためにエンコーダ側で用いられた選択された符号化フォーマットとに基づいて、ウェットおよびドライ・アップミックス係数β
L、γ
Lの集合を決定する。混合部930は、式(2)に従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成を実行する。すなわち、ダウンミックス信号L
1、L
2の線形マッピングとしてドライ・アップミックス信号を計算し、ここで、ダウンミックス信号L
1、L
2にドライ・アップミックス係数の集合β
Lが適用され;脱相関済み信号の線形マッピングとしてウェット・アップミックス信号を計算し、ここで、脱相関済み信号にウェット・アップミックス係数の集合γ
Lが適用され;ドライおよびウェット・アップミックス信号を組み合わせて、再構成されるべき5チャネル・オーディオ信号L、LS、LB、TFL、TBLに対応する多次元の再構成された信号
【数4】
を得る。
【0152】
いくつかの例示的実施形態では、受領されたアップミックス・パラメータαLは、ウェットおよびドライ・アップミックス係数βL、γL自身を含んでいてもよく、あるいはウェットおよびドライ・アップミックス係数βL、γLの数より少ないパラメータを含む、よりコンパクトな形に対応していてもよい。該コンパクトな形から、デコーダ側で、用いられたその特定のコンパクトな形の知識に基づいて、ウェットおよびドライ・アップミックス係数βL、γLが導出されうる。
【0153】
図11は、ダウンミックス信号L
1、L
2が
図6を参照して述べた第一の符号化フォーマットF
1に従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLを表現する例示的なシナリオにおいて、
図9を参照して述べた混合部930の動作を例解する。ダウンミックス信号L
1、L
2が第二および第三の符号化フォーマットF
2、F
3のいずれかに従って5チャネル・オーディオ信号L、LS、LB、TFL、TBLを表現する例示的なシナリオにおいても、混合部930の動作は同様でありうることは理解されるであろう。特に、混合部930は、計算される複数のダウンミックス信号が同時が利用可能であることを要求しうる二つの符号化フォーマットの間のクロスフェードを可能にするために、すぐあとで述べるアップミックス部および組み合わせ部のさらなるインスタンスを一時的にアクティブ化してもよい。
【0154】
本例示的シナリオでは、ダウンミックス信号の第一のチャネルL1は三つのチャネルL、LS、LBを表わし、ダウンミックス信号の第二のチャネルL2は二つのチャネルTFL、TBLを表わす。プレ脱相関部910は、脱相関済み信号の二つのチャネルがダウンミックス信号の第一のチャネルL1に基づいて生成され、脱相関済み信号の一つのチャネルがダウンミックス信号の第二のチャネルL2に基づいて生成されるよう、プレ脱相関係数を決定する。
【0155】
第一のドライ・アップミックス部931は、三チャネル・ドライ・アップミックス信号X
1をダウンミックス信号の第一のチャネルL
1の線形マッピングとして与える。ここで、受領されたアップミックス・パラメータα
Lから導出可能な前記ドライ・アップミックス係数のある部分集合が、ダウンミックス信号の第一のチャネルL
1に適用される。第一のウェット・アップミックス部932は、三チャネル・ウェット・アップミックス信号Y
1を脱相関済み信号の二つのチャネルの線形マッピングとして与える。ここで、受領されたアップミックス・パラメータα
Lから導出可能な前記ウェット・アップミックス係数のある部分集合が、脱相関済み信号の二つのチャネルに適用される。第一の組み合わせ部933が、第一のドライ・アップミックス信号X
1および第一のウェット・アップミックス信号Y
1を、チャネルL、LS、LBの再構成されたバージョン
【数5】
に組み合わせる。
【0156】
同様に、第二のドライ・アップミックス部934は、二チャネル・ドライ・アップミックス信号X
2をダウンミックス信号の第二のチャネルL
2の線形マッピングとして与え、第二のウェット・アップミックス部935は、二チャネル・ウェット・アップミックス信号Y
2を脱相関済み信号の一つのチャネルの線形結合として与える。第二の組み合わせ部936が、第二のドライ・アップミックス信号X
2および第二のウェット・アップミックス信号Y
2を、チャネルTFL、TBLの再構成されたバージョン
【数6】
に組み合わせる。
【0157】
図10は、ある例示的実施形態に基づく、
図9を参照して述べたデコード部900を有するオーディオ・デコード・システム1000の一般化されたブロック図である。たとえばデマルチプレクサを含む受領部1001は、
図3を参照して記述したオーディオ・エンコード・システム300から伝送されたビットストリームBを受領し、ダウンミックス信号L
1、L
2、追加的なダウンミックス信号R
1、R
2およびアップミックス・パラメータαならびにチャネルCおよびLFEを、ビットストリームBから抽出する。アップミックス・パラメータαは、再構成されるべき11.1チャネル・オーディオ信号L、LS、LB、TFL、TBL、R、RS、RB、TFR、TBR、C、LFEのそれぞれ左側および右側に関連付けられた第一および第二の部分集合α
Lおよびα
Rを含む。
【0158】
ダウンミックス信号L
1、L
2、追加的なダウンミックス信号R
1、R
2および/またはチャネルCおよびLFEがビットストリームBに、ドルビー・デジタル、MPEG AACまたはその発展形のような知覚的オーディオ・コーデックを使ってエンコードされている場合、オーディオ・デコード・システム1000は、ビットストリームBから抽出されるときにそれぞれの信号およびチャネルをデコードするよう構成されたコア・デコーダ(
図10には示さず)を含んでいてもよい。
【0159】
変換部1002は、逆MDCTを実行することによってダウンミックス信号L
1、L
2を変換し、QMF解析部1003はダウンミックス信号L
1、L
2をQMF領域に変換する。デコード部900が時間/周波数タイルの形でダウンミックス信号L
1、L
2を処理するためである。量子化解除部1004は、アップミックス・パラメータα
Lを、デコード部900に供給する前に、たとえばエントロピー符号化されたフォーマットから量子化解除する。
図3を参照して述べたように、量子化は、たとえば0.1または0.2という二つの異なるきざみサイズのうちの一方を用いて実行されていてもよい。用いられる実際のきざみサイズはあらかじめ定義されていてもよく、あるいはエンコーダ側からオーディオ・デコード・システム1000にビットストリームBなどを介して信号伝達されてもよい。
【0160】
本例示的実施形態では、オーディオ・デコード・システム1000は、デコード部900と同様の追加的なデコード部1005を有する。追加的なデコード部1005は、
図3を参照して記述した追加的な二チャネル・ダウンミックス信号R
1、R
2およびアップミックス・パラメータの第二の部分集合α
Rを受領して、追加的なダウンミックス信号R
1、R
2およびアップミックス・パラメータの第二の部分集合α
Rに基づいて追加的な5チャネル出力信号R、RS、RB、TFR、TBRの再構成されたバージョン
【数7】
を提供するよう構成されている。
【0161】
変換部1006は、逆MDCTを実行することによって追加的なダウンミックス信号R1、R2を変換し、QMF解析部1007はダウンミックス信号R1、R2をQMF領域に変換する。追加的なデコード部1005が時間/周波数タイルの形で追加的なダウンミックス信号R1、R2を処理するためである。量子化解除部1008は、アップミックス・パラメータの第二の部分集合αRを、追加的なデコード部1005に供給する前に、たとえばエントロピー符号化されたフォーマットから量子化解除する。
【0162】
エンコーダ側でダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2およびチャネルCにクリップ利得が適用されている例示的実施形態では、該クリップ利得を補償するためにオーディオ・デコード・システム1000において、たとえば8.7dBに対応する対応利得がこれらの信号に適用されてもよい。
【0163】
制御部1009が、11.1チャネル・オーディオ信号をダウンミックス信号L1、L2、追加的なダウンミックス信号R1、R2および関連するアップミックス・パラメータαにエンコードするためにエンコーダ側で用いられた符号化フォーマットF1、F2、F3のうちの選択されたものを示すシグナルSを受領する。制御部1009は、示された符号化フォーマットに従ってパラメトリック再構成を実行するよう、デコード部900(たとえばその中のプレ脱相関部910および混合部920)および追加的なデコード部(1005)を制御する。
【0164】
本例示的実施形態では、デコード部900によって出力される5チャネル・オーディオ信号L、LS、LB、TFL、TBLおよび追加的な5チャネル・オーディオ信号R、RS、RB、TFR、TBRの再構成されたバージョンならびに追加的なデコード部1005はそれぞれ、QMF合成部1011によってQMF領域に変換し戻されてから、チャネルCおよびLFEと一緒に、オーディオ・デコード・システム1000の出力として、マルチスピーカー・システム1012での再生のために提供される。変換部1010はチャネルCおよびLFEを、これらのチャネルがオーディオ・デコード・システム1000の出力に含められる前に、逆MDCTを実行することによって時間領域に変換する。
【0165】
チャネルCおよびLFEはたとえばビットストリームBから、離散的に符号化された形で抽出されてもよい。オーディオ・デコード・システム1000はたとえば、それぞれの離散的に符号化されたチャネルをデコードするよう構成されている単一チャネル・デコード部(
図10には示さず)を含んでいてもよい。単一チャネル・デコード部はたとえば、ドルビー・デジタル、MPEG AACまたはその発展形のような知覚的オーディオ・コーデックを使ってエンコードされたオーディオ・コンテンツをデコードするためのコア・デコーダを含んでいてもよい。
【0166】
本例示的実施形態では、プレ脱相関係数は、符号化フォーマットF1、F2、F3のそれぞれにおいて、脱相関入力信号D1、D2、D3の各チャネルが表1に従ってダウンミックス信号L1、L2のチャネルと一致するように、プレ脱相関部910によって決定される。
【0167】
【表1】
表1で見て取れるように、チャネルTBLは、符号化フォーマットF
1、F
2、F
3の三つすべてにおいて、ダウンミックス信号L
1、L
2を介して脱相関入力信号の第三のチャネルD3に寄与する。一方、チャネル対LS、LBおよびTFL、TBLのそれぞれは、ダウンミックス信号L
1、L
2を介して、それぞれ符号化フォーマットの少なくとも二つにおいて、脱相関入力信号の第三のチャネルD3に寄与する。
【0168】
表1は、チャネルLおよびTFLのそれぞれが、ダウンミックス信号L1、L2を介して、それぞれ符号化フォーマットの二つにおいて、脱相関入力信号の第一のチャネルD1に寄与し、チャネル対LS、LBが、ダウンミックス信号L1、L2を介して、符号化フォーマットの少なくとも二つにおいて、脱相関入力信号の第一のチャネルD1に寄与することを示している。
【0169】
表1はまた、三つのチャネルLS、LB、TBLが、ダウンミックス信号L1、L2を介して、第二および第三の符号化フォーマットF2、F3の両方において、脱相関入力信号の第二のチャネルD2に寄与し、チャネル対LS、LBが、三つの符号化フォーマットF1、F2、F3すべてにおいて、ダウンミックス信号L1、L2を介して、脱相関入力信号の第二のチャネルD2に寄与することを示している。
【0170】
示される符号化フォーマットが異なる符号化フォーマットの間の切り換わるとき、脱相関器921~923への入力が変化する。本例示的実施形態では、脱相関入力信号D1、D2、D3の少なくともいくつかの部分が切り換えの間、そのままに留まる。すなわち、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの少なくとも一つのチャネルは、符号化フォーマットF1、F2、F3のうちの二つの間でのいかなる切り換えにおいても、脱相関入力信号D1、D2、D3の各チャネルにおいて留まる。これは、符号化フォーマット間での、再構成されるMチャネル・オーディオ信号の再生の間に聴取者によって知覚される、よりなめらかな遷移を許容する。
【0171】
発明者らは、脱相関済み信号はいくつかの時間フレームに対応するダウンミックス信号L1、L2のセクションに基づいて生成されることがあり、その間に符号化フォーマットの切り換えが生じることがあるので、符号化フォーマットの切り換えの結果として脱相関済み信号において、可聴なアーチファクトが生成される可能性がありうることを認識するに至った。たとえウェットおよびドライ・アップミックス係数βL、γLが符号化フォーマットの間の遷移に応答して補間されるとしても、脱相関済み信号において引き起こされたアーチファクトは、再構成される5チャネル・オーディオ信号L、LS、LB、TFL、TBLにおいていまだ持続していることがありうる。表1に従って脱相関入力信号D1、D2、D3を提供することは、符号化フォーマットの切り換えによって引き起こされる脱相関済み信号における可聴なアーチファクトを抑制でき、再構成される5チャネル・オーディオ信号L、LS、LB、TFL、TBLの再生品質を改善しうる。
【0172】
表1は、ダウンミックス信号L1、L2のチャネルがそれぞれ第一および第二のグループのチャネルの和として生成される符号化フォーマットF1、F2、F3に関して表現されているが、プレ脱相関係数についての同じ値はたとえば、ダウンミックス信号のチャネルがそれぞれ第一および第二のグループのチャネルの線形結合として形成されているときに用いられてもよい。脱相関入力信号D1、D2、D3のチャネルは、表1に従って、ダウンミックス信号L1、L2のチャネルと一致する。ダウンミックス信号のチャネルがそれぞれ第一および第二のグループのチャネルの線形結合として形成されるときにも再構成される5チャネル・オーディオ信号の再生品質はこのようにして改善されうることが理解されるであろう。
【0173】
再構成される5チャネル・オーディオ信号の再生品質をさらに改善するために、プレ脱相関係数の値の補間がたとえば、符号化フォーマットの切り換えに応答して実行されてもよい。第一の符号化フォーマットF
1では、脱相関入力信号D1、D2、D3は
【数8】
として決定されてもよく、一方、第二の符号化フォーマットF
2では、脱相関入力信号D1、D2、D3は
【数9】
として決定されてもよい。第一の符号化フォーマットF
1から第二の符号化フォーマットF
2への切り換えに応答して、たとえば式(3)のプレ脱相関行列と式(4)のプレ脱相関行列との間で連続的または線形な補間が実行されてもよい。
【0174】
式(3)および(4)におけるダウンミックス信号L1、L2はたとえばQMF領域にあってもよく、符号化フォーマットの間で切り換えるとき、式(1)に従ってダウンミックス信号L1、L2を計算するためにエンコーダ側で用いられるダウンミックス係数は、たとえば32個のQMFスロットの間、補間されていてもよい。プレ脱相関係数(または行列)の補間は、たとえば、ダウンミックス係数の補間と同期されてもよく、たとえば、同じ32個のQMFスロットの間、実行されてもよい。プレ脱相関係数の補間はたとえば、ブロードバンド補間であってもよく、たとえばオーディオ・デコード・システム1000によってデコードされたすべての周波数帯域について用いられてもよい。
【0175】
ドライおよびウェット・アップミックス係数βL、γLも補間されてもよい。ドライおよびウェット・アップミックス係数βL、γLの補間は、過渡の扱いを改善するために、たとえば、エンコーダ側からのシグナルSを介して制御されてもよい。符号化フォーマットの切り換えの場合、デコーダ側でドライおよびウェット・アップミックス係数βL、γLを補間するためにエンコーダ側で選択された補間方式は、たとえば、符号化フォーマットの切り換えのために適切な補間方式であってもよく、これは符号化フォーマットのそのような切り換えが生じないときにドライおよびウェット・アップミックス係数βL、γLのために用いられる補間方式とは異なっていてもよい。
【0176】
いくつかの例示的実施形態では、デコード部900において、追加的なデコード部1005とは異なる少なくとも一つの補間方式が用いられてもよい。
【0177】
図12は、ある例示的実施形態に基づく、二チャネル・ダウンミックス信号および付随するアップミックス・パラメータに基づいてMチャネル・オーディオ信号を再構成するオーディオ・デコード方法1200のフローチャートである。デコード方法1200はここでは、
図10を参照して述べたオーディオ・デコード・システム1000によって実行されてもよいデコード方法によって例示される。
【0178】
オーディオ・デコード方法1200は:二チャネル・ダウンミックス信号L
1、L
2と、ダウンミックス信号L
1、L
2に基づいて
図6~
図8を参照して述べた5チャネル・オーディオ信号L、LS、LB、TFL、TBLのパラメトリック再構成のためのアップミックス・パラメータα
Lとを受領し1201;
図6~
図8を参照して述べた、符号化フォーマットF
1、F
2、F
3のうちの選択されたものを示すシグナルSを受領し1202;示された符号化フォーマットに基づいて一組のプレ脱相関係数を決定する1203ことを含む。
【0179】
オーディオ・デコード方法1200は、示されるフォーマットがある符号化フォーマットから別の符号化フォーマットに切り換わるかどうかを検出する1204ことを含む。切り換えが検出されない、フローチャートでNによって示される場合には、次の段階は、脱相関入力信号D1、D2、D3をダウンミックス信号L1、L2の線形マッピングとして計算する1205ことである。ここで、前記一組のプレ脱相関係数がダウンミックス信号に適用される。他方、符号化フォーマットの切り換えが検出される、フローチャートでYによって示される場合には、次の段階は、その代わりに、ある符号化フォーマットのプレ脱相関係数値から別の符号化フォーマットのプレ脱相関係数値への漸進的な遷移の形での補間を実行し1206、次いで、補間されたプレ脱相関係数値を用いて脱相関入力信号D1、D2、D3を計算する1205ことである。
【0180】
オーディオ・デコード方法1200は、脱相関入力信号D1、D2、D3に基づいて脱相関済み信号を生成し1207;受領されたアップミックス・パラメータおよび示された符号化フォーマットに基づいて、ウェットおよびドライ・アップミックス・パラメータβL、γLの集合を決定する1208ことを含む。
【0181】
符号化フォーマットの切り換えが検出されない、判断ボックス1209からの分枝Nによって示される場合には、方法1200は、ドライ・アップミックス信号をダウンミックス信号の線形マッピングとして計算する段階1210であって、ドライ・アップミックス係数の集合β
Lがダウンミックス信号L
1、L
2に適用される、段階と;ウェット・アップミックス信号を脱相関済み信号の線形マッピングとして計算する段階1211であって、ウェット・アップミックス係数の集合γ
Lが脱相関済み信号に適用される、段階とによって続けられる。他方、示される符号化フォーマットがある符号化フォーマットから別の符号化フォーマットに切り替わる、判断ボックス1209からの分枝Yによって示される場合、本方法は、その代わりに:ある符号化フォーマットに適用可能なドライおよびウェット・アップミックス係数(値が0の係数を含む)の値から別の符号化フォーマットに適用可能なドライおよびウェット・アップミックス係数(値が0の係数を含む)の値への補間を実行する段階1212と;ドライ・アップミックス信号をダウンミックス信号L
1、L
2の線形マッピングとして計算する段階1210であって、ドライ・アップミックス係数の補間された集合がダウンミックス信号L
1、L
2に適用される、段階と;ウェット・アップミックス信号を脱相関済み信号の線形マッピングとして計算する段階1211であって、ウェット・アップミックス係数の補間された集合が脱相関済み信号に適用される、段階とによって続けられる。本方法はまた、ドライおよびウェット・アップミックス信号を組み合わせて1213,再構成されるべき5チャネル・オーディオ信号に対応する多次元の再構成された信号
【数10】
を得ることをも含む。
【0182】
図13は、ある実施形態に基づく、5.1チャネル・オーディオ信号および関連するアップミックス・パラメータαに基づいて13.1チャネル・オーディオ信号を再構成するためのデコード部1300の一般化されたブロック図である。
【0183】
本例示的実施形態では、13.1チャネル・オーディオ信号は、チャネルLW(左ワイド)、LSCRN(左スクリーン)、TFL(上前方左)、LS(左側方)、LB(左後方)、TBL(上後方左)、RW(右ワイド)、RSCRN(右スクリーン)、TFR(上前方右)、RS(右側方)、RB(右後方)、TBR(上後方右)、C(中央)およびLFE(低域効果)によって例示される。5.1チャネル信号は:ダウンミックス信号L1、L2であって、そのうち第一のチャネルL1はチャネルLW、LSCRN、TFLの線形結合に対応し、第二のチャネルL2はチャネルLS、LB、TBLの線形結合に対応する、ダウンミックス信号と;追加的なダウンミックス信号R1、R2であって、そのうち第一のチャネルR1はチャネルRW、RSCRN、TFRの線形結合に対応し、第二のチャネルL2はチャネルRS、RB、TBRの線形結合に対応する、追加的なダウンミックス信号と;チャネルCおよびLFEとを含む。
【0184】
第一のアップミックス部1310は、アップミックス・パラメータαのうち少なくともいくつかの制御のもとでダウンミックス信号の第一のチャネルL
1に基づいてチャネルLW、LSCRN、TFLを再構成する;第二のアップミックス部1320は、前記アップミックス・パラメータαのうち少なくともいくつかの制御のもとでダウンミックス信号の第二のチャネルL
2に基づいてチャネルLS、LB、TBLを再構成する;第三のアップミックス部1330は、前記アップミックス・パラメータαのうち少なくともいくつかの制御のもとで追加的なダウンミックス信号の第一のチャネルR
1に基づいてチャネルRW、RSCRN、TFRを再構成する;第四のアップミックス部1340は、前記アップミックス・パラメータαのうち少なくともいくつかの制御のもとでダウンミックス信号の第二のチャネルR
2に基づいてチャネルRS、RB、TBRを再構成する。13.1チャネル・オーディオ信号の再構成されたバージョン
【数11】
が、デコード部1310の出力として与えられてもよい。
【0185】
ある例示的実施形態では、
図10を参照して述べたオーディオ・デコード・システム1000が、デコード部900および1005に加えてデコード部1300を有していてもよく、あるいは少なくとも、デコード部1300によって実行されるものと同様の方法によって13.1チャネル信号を再構成するよう動作可能であってもよい。ビットストリームBから抽出されるシグナルSは、たとえば、5.1チャネル・オーディオ信号L1、L2、R1、R2、C、LFEおよび関連するアップミックス・パラメータが、
図10を参照して述べた11.1チャネル信号を表わすかどうか、あるいは
図13を参照して述べた13.1チャネル・オーディオ信号を表わすかどうかを示してもよい。
【0186】
制御部1009は、受領されたシグナルSが11.1チャネル構成または13.1チャネル構成のどちらを示すかを検出してもよく、オーディオ・デコード・システム1000の他の部分を制御して、
図10を参照して述べた11.1チャネル・オーディオ信号または
図13を参照して述べた13.1チャネル・オーディオ信号のどちらかのパラメトリック再構成を実行してもよい。11.1チャネル構成についての二つまたは三つの符号化フォーマットの代わりに、13.1チャネル構成についてはたとえば単一の符号化フォーマットが用いられてもよい。したがって、シグナルが13.1チャネル構成を示す場合には、符号化フォーマットは暗黙的に示されてもよく、シグナルSが明示的に選択される符号化フォーマットを示す必要はないことがある。
【0187】
図1~
図5を参照して述べた例示的実施形態は
図6~
図8を参照して述べた11.1チャネル・オーディオ信号に関して定式化されたが、任意の数のエンコード部を含んでいてもよく、M≧4であるとして任意の数のMチャネル・オーディオ信号をエンコードするよう構成されていてもよいエンコード・システムが構想されうる。同様に、
図9~
図12を参照して述べた例示的実施形態は
図6~
図8を参照して述べた11.1チャネル・オーディオ信号に関して定式化されたが、任意の数のデコード部を含んでいてもよく、M≧4であるとして任意の数のMチャネル・オーディオ信号を再構成するよう構成されていてもよいデコード・システムが構想されうる。
【0188】
いくつかの例示的実施形態では、エンコーダ側は、三つすべての符号化フォーマットF1、F2、F3の間で選択してもよい。他の例示的実施形態では、エンコーダ側は、二つだけの符号化フォーマット、たとえば第一および第二の符号化フォーマットF1、F2の間で選択してもよい。
【0189】
図14は、ある例示的実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号および関連するドライおよびウェット・アップミックス係数としてエンコードするためのエンコード部1400の一般化されたブロック図である。エンコード部1400は、
図3に示される型のオーディオ・エンコード・システム内に配置されていてもよい。より精密には、エンコード部100によって示される位置に配置されていてもよい。示されるコンポーネントの内部動作が記述されるときに明らかになるように、エンコード部1400は二つの相異なる符号化フォーマットにおいて動作可能である;しかしながら、本発明の範囲から外れることなく、三つ以上の符号化フォーマットにおいて動作可能である同様のエンコード部が実装されてもよい。
【0190】
エンコード部1400は、ダウンミックス部1410および解析部1420を有する。
図6~
図7を参照して述べたものの一つであってもよく、あるいは異なるフォーマットであってもよい符号化フォーマットF
1、F
2のうちの少なくとも選択されたもの(エンコード部1400の制御部1430の下記の記述を参照)について、ダウンミックス部1410は、符号化フォーマットに従って、5チャネル・オーディオ信号L、LS、LB、TFL、TBLに基づいて二チャネル・ダウンミックス信号L
1、L
2を計算する。たとえば第一の符号化フォーマットF
1では、ダウンミックス信号の第一のチャネルL
1は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのうち第一のグループのチャネルの線形結合(たとえば和)として形成され、ダウンミックス信号の第二のチャネルL
2は5チャネル・オーディオ信号L、LS、LB、TFL、TBLのうち第二のグループのチャネルの線形結合(たとえば和)として形成される。ダウンミックス部1410によって実行される動作は、たとえば、式(1)として表現されてもよい。
【0191】
符号化フォーマットF1、F2のうち少なくとも前記選択されたものについて、解析部1420は、5チャネル・オーディオ信号L、LS、LB、TFL、TBLを近似するそれぞれのダウンミックス信号L1、L2の線形マッピングを定義するドライ・アップミックス係数の集合βLを決定する。符号化フォーマットF1、F2のそれぞれについて、解析部1420はさらに、それぞれの計算された差に基づいて、ウェット・アップミックス係数の集合γLを決定する。これは、ドライ・アップミックス係数βLと一緒になって、ダウンミックス信号L1、L2およびダウンミックス信号L1、L2に基づいてデコーダ側で決定される三チャネルの脱相関済み信号からの5チャネル・オーディオ信号L、LS、LB、TFL、TBLの式(2)に基づくパラメトリック再構成を許容する。ウェット・アップミックス係数の集合γLは、脱相関済み信号線形マッピングによって得られる信号の共分散行列が、受領された5チャネル・オーディオ信号L、LS、LB、TFL、TBLの共分散行列とダウンミックス信号L1、L2の線形マッピングによって近似される5チャネル・オーディオ信号の共分散行列との間の差を近似するよう、脱相関済み信号の線形マッピングを定義する。
【0192】
ダウンミックス部1410は、たとえば、時間領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの時間領域表現に基づいて、あるいは周波数領域で、すなわち5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域表現に基づいて、ダウンミックス信号L1、L2を計算してもよい。少なくとも、符号化フォーマットについての決定が周波数選択的でなく、よってMチャネル・オーディオ信号のすべての周波数成分について当てはまる場合には、時間領域でL1、L2を計算することが可能である。これは現在のところ好ましい場合である。
【0193】
解析部1420はたとえば、ドライ・アップミックス係数β
Lおよびウェット・アップミックス係数γ
Lを、5チャネル・オーディオ信号L、LS、LB、TFL、TBLの周波数領域解析に基づいて決定してもよい。周波数領域解析は、Mチャネル・オーディオ信号の窓掛けされたセクションに対して実行されてもよい。窓掛けのためには、分離した長方形または重なり合う三角形の窓がたとえば使われてもよい。解析部1420は、ドライ・アップミックス係数β
Lおよびウェット・アップミックス係数γ
Lを決定するために、たとえば、ダウンミックス部1410によって計算されたダウンミックス信号L
1、L
2を受領してもよく(
図14には示さず)、あるいはダウンミックス信号L
1、L
2の自分自身のバージョンを計算してもよい。
【0194】
エンコード部1400はさらに、現在使用されるべき符号化フォーマットを選択することを受け持つ制御部1430を有する。選択されるべき符号化フォーマットを決定するために制御部1430が特定の基準または特定の理由付けを利用することは本質的ではない。制御部1430によって生成されるシグナルSの値が、Mチャネル・オーディオ信号の現在考慮されているセクション(たとえば時間フレーム)についての、制御部1430の決定の結果を示す。シグナルSは、エンコードされたオーディオ信号の再構成を容易にするよう、エンコード部1400が含まれるエンコード・システム300によって生成されるビットストリームBに含められてもよい。さらに、シグナルSは、ダウンミックス部1410および解析部1420のそれぞれに入力されて、これらのセクションに使用されるべき符号化フォーマットを通知する。解析部1420と同様に、制御部1430はMチャネル信号の窓掛けされたセクションを考慮してもよい。完全を期すため述べておくと、ダウンミックス部1410は、制御部1430に関して、1フレームまたは2フレームの遅延をもって、また可能性としては追加的な先読みをもって動作してもよい。任意的に、シグナルSは、フレームより小さな時間フレームでの同期を保証するよう、ダウンミックス部1410が生成するダウンミックス信号のクロスフェードに関係する情報および/または解析部1420が提供するドライおよびウェット・アップミックス係数の離散的な値のデコーダ側補間に関係する情報をも含んでいてもよい。
【0195】
任意的なコンポーネントとして、エンコード部1400は、制御部1430のすぐ下流に配置され、その出力信号が他のコンポーネントによって処理される直前に該出力信号に対して作用する安定化器1440を含んでいてもよい。この出力信号に基づいて、安定化器1440はサイド情報Sを下流のコンポーネントに供給する。安定化器1440は、選択された符号化フォーマットをあまりに頻繁に変更しないという望ましいねらいを実現しうる。この目的のために、安定化器1440は、Mチャネル・オーディオ信号の過去の時間フレームについてのいくつかの符号化フォーマット選択を考慮して、選ばれた符号化フォーマットが少なくともあらかじめ定義された数の時間フレームにわたって維持されることを保証してもよい。あるいはまた、安定化器は、いくつかの過去の符号化フォーマット選択(たとえば離散的な値として表わされる)に対して、平滑化効果をもたらしうる平均化フィルタを適用してもよい。さらにもう一つの代替として、安定化器1440は状態機械を有していてもよく、該状態機械は、制御部1430によって与えられる符号化フォーマット選択が移動時間窓を通じて安定したままであったと該状態機械が判定した場合にはその移動時間窓内のすべての時間フレームについてのサイド情報Sを供給するよう構成される。移動時間窓は、いくつかの過去の時間フレームについての符号化フォーマット選択を記憶するバッファに対応していてもよい。本開示を吟味する当業者は容易に認識するように、そのような安定化機能には、安定化器1440と少なくともダウンミックス部1410および解析部1420との間での動作遅延の増大を伴う必要がありうる。その遅延は、Mチャネル・オーディオ信号の諸セクションをバッファリングすることによって実装されてもよい。
【0196】
図14は、
図3のエンコード・システムの部分図であることを想起しておく。
図14に示されるコンポーネントは、左側のチャネルL、LS、LB、TFL、TBLの処理にのみ関するが、エンコード・システムは、少なくとも右側のチャネルR、RS、RB、TFR、TBRをも処理する。たとえば、エンコード部1400のさらなるインスタンス(たとえば機能的に等価なレプリカ)が、前記チャネルR、RS、RB、TFR、TBRを含む右側信号をエンコードするために並列に動作していてもよい。左側および右側のチャネルは二つの別個のダウンミックス信号に(または少なくとも共通のダウンミックス信号の別個のチャネル・グループに)寄与するが、すべてのチャネルについて共通の符号化フォーマットを使うことが好ましい。これはつまり、左側エンコード部1400内の制御部1430が、左側および右側のチャネル両方について使用されるべき共通の符号化フォーマットを決定することを受け持ってもよいということである。そうすると、制御部1430は、右側チャネルR、RS、RB、TFR、TBRへの、あるいはこれらの信号から導出される共分散、ダウンミックス信号などといった量へのアクセスをもち、使用されるべき符号化フォーマットを決定するときにこれらを考慮に入れられることが好ましい。その場合、シグナルSは、(左側)制御部1430のダウンミックス部1410および解析部1420だけでなく、右側エンコード部(図示せず)の等価な部分にも提供される。あるいはまた、すべてのチャネルについての共通の符号化フォーマットを使う目的は、制御部1430自身をエンコード部1400の左側インスタンスとその右側インスタンスの両方に共通にすることによって達成されてもよい。
図3に描かれる型のレイアウトにおいて、エンコード部1430は、それぞれ左側および右側チャネルを受け持つエンコード部100および追加的なエンコード部303の両方の外に設けられて、左側および右側チャネルL、LS、LB、TFL、TBL、R、RS、RB、TFR、TBRの全部を受領し、符号化フォーマットの選択を示し少なくともエンコード部100および追加的なエンコード部303に供給されるシグナルSを出力してもよい。
【0197】
図15は、シグナルSに従って二つのあらかじめ定義された符号化フォーマットF
1、F
2の間で交替し、これらのクロスフェードを提供するよう構成されたダウンミックス部1410のある可能な実装を概略的に描いている。ダウンミックス部1410は、Mチャネル・オーディオ信号を受領し、二チャネル・ダウンミックス信号を出力するよう構成された二つのダウンミックス・サブセクション1411、1412を有する。二つのダウンミックス・サブセクション1411、1412は、異なるダウンミックス設定(たとえばMチャネル・オーディオ信号に基づいてダウンミックス信号L
1、L
2を生成するための係数の値)で構成されているが、一つの設計の機能的に等価なコピーであってもよい。通常動作では、二つのダウンミックス・サブセクション1411、1412は一緒になって、第一の符号化フォーマットF
1に従う一つのダウンミックス信号L
1(F
1)、L
2(F
1)および/または第二の符号化フォーマットF
2に従う一つのダウンミックス信号L
1(F
2)、L
2(F
2)を提供する。ダウンミックス・サブセクション1411、1412の下流には、第一のダウンミックス補間部1413および第二のダウンミックス補間部1414が配置されている。第一のダウンミックス補間部1413は、ダウンミックス信号の第一のチャネルL
1をクロスフェードすることを含めて補間するよう構成されており、第二のダウンミックス補間部1414は、ダウンミックス信号の第二のチャネルL
2をクロスフェードすることを含めて補間するよう構成されている。第一のダウンミックス補間部1413は少なくとも以下の状態で動作可能である:
a)第一の符号化フォーマットのみ(L
1=L
1(F
1))。これは第一の符号化フォーマットでの定常動作において使用されうる。
b)第二の符号化フォーマットのみ(L
1=L
1(F
2))。これは第二の符号化フォーマットでの定常動作において使用されうる。
c)両方の符号化フォーマットに基づくダウンミックス・チャネルの混合(L
1=α
1L
1(F
1)+α
2L
1(F
2)、ここで、0<α
1<1かつ0<α
2<1)。これは第一の符号化フォーマットから第二の符号化フォーマットへの、あるいはその逆の遷移において使用されうる。
【0198】
混合状態(c)は、ダウンミックス信号が第一および第二のダウンミックス・サブセクション1411、1412の両方から利用可能であることを要求しうる。好ましくは、第一のダウンミックス補間部1413は複数の混合状態(c)において動作可能であり、細かいサブステップでの遷移、あるいはさらには準連続的なクロスフェードが可能になる。これは、クロスフェードを知覚されにくくするという利点がある。たとえば、α1+α2=1である補間器設計では、(α1,α2)の値として(0.2,0.8),(0.4,0.6),(0.6,0.4),(0.8,0.2)が定義されれば、5ステップのクロスフェードが可能である。第二のダウンミックス補間部1414は同一のまたは同様の機能を有していてもよい。
【0199】
ダウンミックス部1410の上記の実施形態のある変形においては、
図15で破線によって示されるように、シグナルSは第一および第二のダウンミックス・サブセクション1411、1412にも供給されうる。上記で説明したように、その場合、選択されていない符号化フォーマットに関連するダウンミックス信号の生成は、抑制されうる。これは、平均的な計算負荷を低下させうる。
【0200】
この変形への追加または代替として、二つの異なる符号化フォーマットのダウンミックス信号の間のクロスフェードは、ダウンミックス係数をクロスフェードすることによって達成されてもよい。その場合、第一のダウンミックス・サブセクション1411は、利用可能な符号化フォーマットF1、F2において使用されるべきダウンミックス係数のあらかじめ定義された値を記憶している係数補間器(図示せず)によって生成される補間されたダウンミックス係数を供給され、シグナルSを入力として受領してもよい。この構成では、第二のダウンミックス・サブセクション1412および第一および第二の補間サブセクション1413、1414のすべては、なくされたり、あるいは恒久的に非アクティブ化されたりしてもよい。
【0201】
ダウンミックス部1410が受領するシグナルSは、少なくともダウンミックス補間部1413、1414に供給されるが、必ずしもダウンミックス・サブセクション1411、1412には供給されない。交互する動作が所望される場合、すなわち符号化フォーマット間の遷移の外では冗長なダウンミックスの量が減らされる場合に、シグナルSをダウンミックス・サブセクション1411、1412に供給することが必要になる。シグナルは、たとえばダウンミックス補間部1413、1414の異なる動作モードを指す低レベル・コマンドであってもよく、あるいは示された開始点においてあらかじめ定義されたクロスフェード・プログラム(たとえばそれぞれがあらかじめ定義された継続時間をもつ一連の動作モード)を実行する命令のような高レベルの命令に関係していてもよい。
【0202】
図16に目を転じると、シグナルSに従って二つのあらかじめ定義された符号化フォーマットF
1、F
2の間で交替するよう構成された解析部1412のある可能な実装が描かれている。解析部1420は、Mチャネル・オーディオ信号を受領し、ドライおよびウェット・アップミックス係数を出力するよう構成された二つの解析サブセクション1421、1422を有する。二つの解析サブセクション1421、1422は、一つの設計の機能的に等価なコピーであってもよい。通常動作では、二つの解析サブセクション1421、1422は一緒になって、第一の符号化フォーマットF
1に従うドライおよびウェット・アップミックス係数の一つの集合β
L(F
1)、γ
L(F
1)および/または第二の符号化フォーマットF
2に従うドライおよびウェット・アップミックス係数の一つの集合β
L(F
2)、γ
L(F
2)を提供する。
【0203】
全体としての解析部1420について上記で説明したように、現在のダウンミックス信号はダウンミックス部1410から受領されてもよく、あるいはこの信号の複製が解析部1420において生成されてもよい。より精密には、第一の解析サブセクション1421は、ダウンミックス部1410内の第一のダウンミックス・サブセクション1411から第一の符号化フォーマットF1に従うダウンミックス信号L1(F1)、L2(F1)を受領してもよく、あるいは自分で複製を生成してもよい。同様に、第二の解析サブセクション1422は、第二のダウンミックス・サブセクション1412から第二の符号化フォーマットF2に従うダウンミックス信号L1(F2)、L2(F2)を受領してもよく、あるいは自分でこの信号の複製を生成してもよい。
【0204】
解析セクション1421、1422の下流には、ドライ・アップミックス係数選択器1423およびウェット・アップミックス係数選択器1424が配置されている。ドライ・アップミックス係数選択器1423は、第一または第二の解析サブセクション1421、1422のいずれかからのドライ・アップミックス係数の集合β
Lを転送するよう構成され、ウェット・アップミックス係数選択器1424は、第一または第二の解析サブセクション1421、1422のいずれかからのウェット・アップミックス係数の集合γ
Lを転送するよう構成される。ドライ・アップミックス係数選択器1423は少なくとも、第一のダウンミックス補間部1413について上記で論じた状態(a)および(b)で動作可能である。しかしながら、その一部がここで記述されているところの
図3のエンコード・システムが、
図9に示されるもののように受領するアップミックス係数の補間された離散的な値に基づいてパラメトリック再構成を実行するデコード・システムと協働するよう構成される場合には、ダウンミックス補間部1413、1414について定義されている(c)のような混合状態を構成する必要はない。ウェット・アップミックス係数選択器1424は同様の機能を有していてもよい。
【0205】
解析部1420が受領するシグナルSは、少なくともウェットおよびドライ・アップミックス係数選択器1423、1424に供給される。解析サブセクション1421、1422がシグナルを受領することは必要ではないが、これは、遷移の外側でアップミックス係数の冗長な計算を回避するために有利である。シグナルは、たとえばドライおよびウェット・アップミックス係数選択器1423、1424の異なる動作モードを指す低レベル・コマンドであってもよく、あるいは所与の時間フレームにおいてある符号化フォーマットから別の符号化フォーマットに遷移する命令のような高レベルの命令に関係していてもよい。上記で説明したように、これは好ましくは、クロスフェード動作を含まず、ある好適な時点についてのアップミックス係数の値を定義することまたはある好適な時点において適用すべきこれらの値を定義することに帰着してもよい。
【0206】
ここで、ある実施形態に基づく、Mチャネル・オーディオ信号を二チャネル・ダウンミックス信号としてエンコードするための方法の変形である方法1700が記述される。これは
図17においてフローチャートとして概略的に描いてある。ここに例示される方法は、
図14~
図16を参照して上記したエンコード部1400を有するオーディオ・エンコード・システムによって実行されてもよい。
【0207】
オーディオ・エンコード方法1700は:Mチャネル・オーディオ信号L、LS、LB、TFL、TBLを受領し1710;
図6~
図8を参照して述べた符号化フォーマットF
1、F
2、F
3のうち少なくとも二つのうちの一つを選択し1720;選択された符号化フォーマットについて、Mチャネル・オーディオ信号L、LS、LB、TFL、TBLに基づく二チャネル・ダウンミックス信号L
1、L
2を計算し1730;選択された符号化フォーマットのダウンミックス信号L
1、L
2および該ダウンミックス信号に基づいてMチャネル・オーディオ信号のパラメトリック再構成を可能にするサイド情報αを出力し1740;選択された符号化フォーマットを示すシグナルSを出力する1750ことを含む。本方法は、たとえばMチャネル・オーディオ信号の各時間フレームについて繰り返される。選択1720の結果が、直前に選択されたものとは異なる符号化フォーマットであれば、ダウンミックス信号は、ある好適な継続時間にわたって、前の符号化フォーマットと現在の符号化フォーマットに基づくダウンミックス信号の間のクロスフェードによって置換される。すでに論じたように、サイド情報をクロスフェードすることは必要ではなく、あるいは可能ではない。これは、内在するデコーダ側の補間によることがある。
【0208】
ここに記載される方法は、
図4に描かれた四つの段階430、440、450、470のうちの一つまたは複数なしで実装されてもよい。
【0209】
〈V.等価物、拡張、代替その他〉
本開示は特定の例示的実施形態を記述し、図示しているが、本発明はそうした特定の例に制約されるものではない。上記の例示的実施形態に対する修正および変形が、付属の請求項によってのみ定義される本発明の範囲から外れることなく、なされることができる。
【0210】
請求項において、単語「有する/含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
【0211】
上記で開示された装置および方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって分散式に実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル・プロセッサ、信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。