(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-08
(45)【発行日】2024-11-18
(54)【発明の名称】オーディオ・エンコーダおよびデコーダ
(51)【国際特許分類】
G10L 19/008 20130101AFI20241111BHJP
G10L 19/038 20130101ALI20241111BHJP
H03M 7/40 20060101ALI20241111BHJP
【FI】
G10L19/008 200
G10L19/038
H03M7/40
【外国語出願】
(21)【出願番号】P 2023060522
(22)【出願日】2023-04-04
(62)【分割の表示】P 2021121510の分割
【原出願日】2014-05-23
【審査請求日】2023-04-04
(32)【優先日】2013-05-24
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】サミュエルソン,レイフ ヨナス
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
【審査官】菊池 智紀
(56)【参考文献】
【文献】特許第6920382(JP,B2)
【文献】国際公開第2013/064957(WO,A1)
【文献】国際公開第2012/058229(WO,A1)
【文献】国際公開第2011/049416(WO,A2)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
H03M 7/30- 7/50
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
オーディオ・デコード・システムにおいてオーディオ・オブジェクトの時間/周波数タイルを再構成する方法であって:
M個のチャネルを含むダウンミックス信号を受領する段階と;
アップミックス行列におけるある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素を受領する段階であって、各エンコードされた要素は、値および前記アップミックス行列におけるその行における位置を含み、前記位置は、そのエンコードされた要素が対応する前記ダウンミックス信号の前記M個のチャネルのうちの一つを指示する、段階と;
前記少なくとも一つのエンコードされた要素に対応する前記ダウンミックス・チャネルの線形結合を形成することによって前記ダウンミックス信号から前記オーディオ・オブジェクトの前記時間/周波数タイルを再構成する段階であって、前記線形結合において、各ダウンミックス・チャネルはその対応するエンコードされた要素の値を乗算される、段階とを含み、
複数の周波数帯域または複数の時間フレームについて、前記少なくとも一つのエンコードされた要素の値および/または位置が一つまたは複数のベクトルを形成し、
前記少なくとも一つのエンコードされた要素の位置は、複数の周波数帯域を横断して、および/または複数の時間フレームを横断して変わり、
各位置はエントロピー符号化されたシンボルによって表わされる、
方法。
【請求項2】
一つまたは複数のプロセッサと、
前記一つまたは複数のプロセッサによって実行されたときに、前記一つまたは複数のプロセッサに、オーディオ・オブジェクトの時間/周波数タイルを再構成する動作を実行させる命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体とを有する
オーディオ・デコード・システムであって、前記動作は、
M個のチャネルを含むダウンミックス信号を受領する段階と;
アップミックス行列におけるある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素を受領する段階であって、各エンコードされた要素は、値および前記アップミックス行列におけるその行における位置を含み、前記位置は、そのエンコードされた要素が対応する前記ダウンミックス信号の前記M個のチャネルのうちの一つを指示する、段階と;
前記少なくとも一つのエンコードされた要素に対応する前記ダウンミックス・チャネルの線形結合を形成することによって前記ダウンミックス信号から前記オーディオ・オブジェクトの前記時間/周波数タイルを再構成する段階であって、前記線形結合において、各ダウンミックス・チャネルはその対応するエンコードされた要素の値を乗算される、段階とを含み、
複数の周波数帯域または複数の時間フレームについて、前記少なくとも一つのエンコードされた要素の値および/または位置が一つまたは複数のベクトルを形成し、
前記少なくとも一つのエンコードされた要素の位置は、複数の周波数帯域を横断して、および/または複数の時間フレームを横断して変わり、
各位置はエントロピー符号化されたシンボルによって表わされる、
システム。
【請求項3】
一つまたは複数のプロセッサによって実行されたときに、前記一つまたは複数のプロセッサに請求項
1に記載の方法を実行させる命令を記憶している、非一時的なコンピュータ読み取り可能な媒体。
【請求項4】
コンピュータ
に請求項
1に記載の方法を実行
させるため
のコンピュータ・プログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2013年5月24日に出願された米国仮特許出願第61/827,264号の出願日の利益を主張するものである。同出願の内容はここに参照により組み込まれる。
【0002】
技術分野
本稿の開示は概括的にはオーディオ符号化に関する。詳細には、オーディオ符号化システムにおけるパラメータのベクトルのエンコードおよびデコードに関する。本開示はさらに、オーディオ・デコード・システムにおいてオーディオ・オブジェクトの再構成するための方法および装置に関する。
【背景技術】
【0003】
通常のオーディオ・システムでは、チャネル・ベースのアプローチが用いられる。各チャネルはたとえば、一つのスピーカーまたは一つのスピーカー・アレイのコンテンツを表わしてもよい。そのようなシステムのための可能な符号化方式は、離散的なマルチチャネル符号化またはMPEGサラウンドのようなパラメトリック符号化を含む。
【0004】
より最近は、新たなアプローチが開発されている。このアプローチはオブジェクト・ベースである。オブジェクト・ベースのアプローチを用いるシステムでは、三次元のオーディオ・シーンが、関連付けられた位置メタデータをもつオーディオ・オブジェクトによって表現される。これらのオーディオ・オブジェクトは、オーディオ信号の再生中に三次元オーディオ・シーン内を動き回る。システムはさらに、いわゆるベッド・チャネルを含んでいてもよい。ベッド・チャネルは、たとえば上記のような通常のオーディオ・システムのスピーカー位置に直接マッピングされる静的なオーディオ・オブジェクトとして記述されてもよい。
【0005】
オブジェクト・ベースのオーディオ・システムにおいて生じうる問題は、いかにして効率的にオーディオ信号をエンコードおよびデコードし、符号化された信号の品質を保持するかである。ある可能な符号化方式は、エンコーダ側で、前記オーディオ・オブジェクトおよびベッド・チャネルからのいくつかのチャネルを含むダウンミックス信号と、デコーダ側で前記オーディオ・オブジェクトおよびベッド・チャネルの再生成を可能にするサイド情報とを生成することを含む。
【0006】
MPEG空間的オーディオ・オブジェクト符号化(MPEG SAOC: MPEG Spatial Audio Object Coding)は、オーディオ・オブジェクトのパラメトリック符号化のためのシステムを記述している。このシステムは、前記オブジェクトの属性を記述するサイド情報、アップミックス行列参照、を、オブジェクトのレベル差および相互相関のようなパラメータによって送る。次いで、これらのパラメータは、デコーダ側でオーディオ・オブジェクトの再生成を制御するために使われる。このプロセスは、数学的に複雑であり、しばしば、該パラメータによって明示的に記述されない、オーディオ・オブジェクトの属性についての想定に依拠する必要がある。MPEG SAOCにおいて呈示される方法は、オブジェクト・ベースのオーディオ・システムについての必要とされるビットレートを下げうるが、上記のように効率および品質をさらに増すためにさらなる改善が必要とされることがある。
【図面の簡単な説明】
【0007】
例示的な実施形態についてこれから付属の図面を参照して記述する。
【
図1】ある例示的実施形態に基づくオーディオ・エンコード・システムの一般化されたブロック図である。
【
図2】
図1に示される例示的なアップミックス行列エンコーダの一般化されたブロック図である。
【
図3】
図1のオーディオ・エンコード・システムによって決定されたアップミックス行列中の要素に対応するパラメータのベクトルにおける第一の要素についての例示的な確率分布を示す図である。
【
図4】
図1のオーディオ・エンコード・システムによって決定されたアップミックス行列中の要素に対応するパラメータのベクトルにおける少なくとも一つのモジュロ差分符号化された第二の要素についての例示的な確率分布を示す図である。
【
図5】ある例示的実施形態に基づくオーディオ・デコード・システムの一般化されたブロック図である。
【
図6】
図5に示されるアップミックス行列デコーダの一般化されたブロック図である。
【
図7】
図1のオーディオ・エンコード・システムによって決定されたアップミックス行列中の要素に対応するパラメータのベクトルにおける前記第二の要素についてのエンコード方法を示す図である。
【
図8】
図1のオーディオ・エンコード・システムによって決定されたアップミックス行列中の要素に対応するパラメータのベクトルにおける第一の要素についてのエンコード方法を示す図である。
【
図9】例示的なパラメータのベクトル中の前記第二の要素についての
図7のエンコード方法の諸部分を示す図である。
【
図10】例示的なパラメータのベクトル中の前記第一の要素についての
図8のエンコード方法の諸部分を示す図である。
【
図11】
図1に示した第二の例示的なアップミックス行列エンコーダの一般化されたブロック図である。
【
図12】ある例示的な実施形態に基づくオーディオ・デコード・システムの一般化されたブロック図である。
【
図13】アップミックス行列の行の疎なエンコードのためのエンコード方法を示す図である。
【
図14】アップミックス行列の例示的な行についての
図10のエンコード方法の諸部分を示す図である。
【
図15】アップミックス行列の例示的な行についての
図10のエンコード方法の諸部分を示す図である。 すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すのみである。一方、他の部分は省略されたり示唆されるだけであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図面における同様の部分を指す。
【発明を実施するための形態】
【0008】
上記に鑑み、増大した効率および符号化されたオーディオ信号の品質を提供するエンコーダおよびデコーダならびに関連する方法を提供することが目的である。
【0009】
〈I.概観――エンコーダ〉
第一の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは、一般に、同じ特徴および利点を有していてもよい。
【0010】
例示的実施形態によれば、オーディオ・エンコード・システムにおいてパラメータのベクトルをエンコードする方法が提供される。各パラメータは非周期的な量に対応する。ベクトルは、第一の要素および少なくとも一つの第二の要素をもつ。本方法は:N通りの値を取り得るインデックス値によって前記ベクトル中の各パラメータを表現する段階と;前記少なくとも一つの第二の要素のそれぞれをシンボルに関連付ける段階とを含み、前記シンボルは:前記第二の要素のインデックス値と前記ベクトル中でその先行する要素のインデックス値との間の差を計算し;該差にモジュロNを適用することによって計算される。本方法はさらに、前記少なくとも一つの第二の要素に関連付けられたシンボルを、シンボルの確率を含む確率テーブルに基づいてエントロピー符号化することによって、前記少なくとも一つの第二の要素のそれぞれをエンコードする段階を含む。
【0011】
この方法の利点は、可能なシンボルの数が、差にモジュロNが適用されない通常の差分符号化戦略に比べて約2分の1に低減されるということである。結果として、確率テーブルのサイズが約2分の1に低減される。結果として、確率テーブルを記憶するために必要とされるメモリが少なくなり、確率テーブルはしばしばエンコーダにおける高価なメモリに記憶されるので、エンコーダはこのようにしてより安価にされうる。さらに、確率テーブルにおいてシンボルを検索するスピードが増しうる。さらなる利点は、確率テーブル中のすべてのシンボルが特定の第二の要素に関連付けられるべき可能な候補であるので、符号化効率が増しうるということである。これは、確率テーブル中のシンボルの約半分しか特定の第二の要素に関連付けられるための候補ではない通常の差分符号化戦略と比較されることができる。
【0012】
諸実施形態によれば、本方法はさらに、前記ベクトル中の前記第一の要素をシンボルと関連付けることを含む。前記シンボルは:前記ベクトル中の前記第一の要素を表わすインデックス値をあるオフセット値だけシフトし;シフトされたインデックス値にモジュロNを適用することによって計算される。本方法はさらに、前記少なくとも一つの第二の要素をエンコードするために使われる同じ確率テーブルを使った前記第一の要素に関連付けられたシンボルのエントロピー符号化によって、前記第一の要素をエンコードする段階を含む。
【0013】
この実施形態は、前記第一の要素のインデックス値の確率分布および前記少なくとも一つの第二の要素のシンボルの確率分布が、あるオフセット値だけ互いに対してシフトしているものの、似通っているという事実を使う。結果として、専用の確率テーブルの代わりに、同じ確率テーブルが、前記ベクトル中の前記第一の要素について使用されうる。その結果、上記のように、低減したメモリ要求およびより安価なエンコーダにつながりうる。
【0014】
ある実施形態によれば、前記オフセット値は、前記第一の要素についての最も確からしいインデックス値と前記確率テーブルにおける前記少なくとも一つの第二の要素についての最も確からしいシンボルとの間の差に等しい。これは、それらの確率分布のピークが整列されることを意味する。結果として、前記第一の要素について、前記第一の要素について専用の確率テーブルが使われる場合に比べ、実質的に同じ符号化効率が維持される。
【0015】
諸実施形態によれば、前記パラメータのベクトルの前記第一の要素および前記少なくとも一つの第二の要素は、特定の時間フレームにおいて前記オーディオ・エンコード・システムにおいて使用される異なる周波数帯域に対応する。つまり、複数の周波数帯域に対応するデータが同じ動作でエンコードされることができる。たとえば、前記パラメータのベクトルは、複数の周波数帯域にわたって変化するアップミックスまたは再構成係数に対応してもよい。
【0016】
ある実施形態によれば、前記パラメータのベクトルの前記第一の要素および前記少なくとも一つの第二の要素は、特定の周波数帯域において前記オーディオ・エンコード・システムにおいて使用される異なる時間フレームに対応する。つまり、複数の時間フレームに対応するデータが、同じ動作でエンコードされることができる。たとえば、前記パラメータのベクトルは、複数の時間フレームにわたって変化するアップミックスまたは再構成係数に対応してもよい。
【0017】
諸実施形態によれば、前記確率テーブルはハフマン・コードブックに翻訳される。ここで、前記ベクトル中のある要素に関連付けられたシンボルは、コードブック・インデックスとして使われ、エンコードする段階は、前記第二の要素を、前記第二の要素に関連付けられたコードブック・インデックスによってインデックスされるコードブック中の符号語で表わすことによって、前記少なくとも一つの第二の要素のそれぞれをエンコードすることを含む。シンボルをコードブック・インデックスとして使うことにより、前記要素を表わす符号語の検索スピードが向上されうる。
【0018】
諸実施形態によれば、エンコードする段階は、前記第一の要素を、前記第一の要素に関連付けられたコードブック・インデックスによってインデックスされる前記ハフマン・コードブック中の符号語で表わすことによって、前記少なくとも一つの第二の要素をエンコードするために使われる同じハフマン・コードブックを使って前記ベクトル中の前記第一の要素をエンコードすることを含む。結果として、一つのハフマン・コードブックがエンコーダのメモリに記憶される必要があるだけであり、このことは上記のようにより安価なエンコーダにつながりうる。
【0019】
あるさらなる実施形態によれば、前記パラメータのベクトルは、前記オーディオ・エンコード・システムによって決定されるアップミックス行列中の要素に対応する。これは、アップミックス行列が効率的に符号化されうるので、オーディオ・エンコード/デコード・システムにおける必要とされるビットレートを低減しうる。
【0020】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第一の側面の任意の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0021】
例示的実施形態によれば、オーディオ・エンコード・システムにおいてパラメータのベクトルをエンコードするエンコーダが提供される。各パラメータは非周期的な量に対応する。ベクトルは、第一の要素および少なくとも一つの第二の要素をもつ。本エンコーダは:前記ベクトルを受領するよう適応された受領コンポーネントと;N通りの値を取り得るインデックス値によって前記ベクトル中の各パラメータを表現するよう適応されたインデックス付けコンポーネントと;前記少なくとも一つの第二の要素のそれぞれをシンボルに関連付けるよう適応された関連付けコンポーネントとを有する。前記シンボルは:前記第二の要素のインデックス値と前記ベクトル中でその先行する要素のインデックス値との間の差を計算し;該差にモジュロNを適用することによって計算される。本エンコーダはさらに、前記少なくとも一つの第二の要素に関連付けられたシンボルを、シンボルの確率を含む確率テーブルに基づいてエントロピー符号化することによって、前記少なくとも一つの第二の要素のそれぞれをエンコードするエンコード・コンポーネントを有する。
【0022】
〈II.概観――デコーダ〉
第二の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは、一般に、同じ特徴および利点を有していてもよい。
【0023】
上記のエンコーダの概観において呈示された特徴およびセットアップに関する利点は、一般に、デコーダについての対応する特徴およびセットアップについても有効でありうる。
【0024】
例示的実施形態によれば、オーディオ・デコード・システムにおけるエントロピー符号化されたシンボルのベクトルを、非周期的な量に関係するパラメータのベクトルにデコードする方法が提供される。エントロピー符号化されたシンボルのベクトルは、第一のエントロピー符号化されたシンボルおよび少なくとも一つの第二のエントロピー符号化されたシンボルをもち、前記パラメータのベクトルは第一の要素および少なくとも第二の要素をもつ。本方法は:確率テーブルを使うことによって、N通りの整数値を取り得るシンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現する段階と;前記第一のエントロピー符号化されたシンボルをインデックス値に関連付ける段階と;前記少なくとも一つの第二のエントロピー符号化されたシンボルのそれぞれをインデックス値に関連付ける段階とを含み、前記少なくとも一つの第二のエントロピー符号化されたシンボルのインデックス値は:エントロピー符号化されたシンボルの前記ベクトルにおける前記第二のエントロピー符号化されたシンボルに先行するエントロピー符号化されたシンボルに関連付けられたインデックス値と、前記第二のエントロピー符号化されたシンボルを表わすシンボルとの和を計算し;該和にモジュロNを適用することによって計算される。本方法はさらに、前記パラメータのベクトルの前記少なくとも一つの第二の要素を、前記少なくとも一つの第二のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現する段階を含む。
【0025】
例示的実施形態によれば、シンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現する段階は、エントロピー符号化されたシンボルの前記ベクトルにおけるすべてのエントロピー符号化されたシンボルについて同じ確率テーブルを使って実行される。前記第一のエントロピー符号化されたシンボルに関連付けられたインデックス値は:エントロピー符号化されたシンボルの前記ベクトル中の前記第一のエントロピー符号化されたシンボルを表わすシンボルをあるオフセット値だけシフトし;シフトされたシンボルにモジュロNを適用することによって計算される。本方法はさらに、前記パラメータのベクトルの前記第一の要素を、前記第一のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現する段階を含む。
【0026】
ある実施形態によれば、前記確率テーブルはハフマン・コードブックに翻訳され、各エントロピー符号化されたシンボルは、ハフマン・コードブックにおける符号語に対応する。
【0027】
さらなる実施形態によれば、ハフマン・コードブックにおける各符号語はコードブック・インデックスに関連付けられ、シンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現する段階は、エントロピー符号化されたシンボルを、該エントロピー符号化されたシンボルに対応する符号語に関連付けられているコードブック・インデックスによって表現することを含む。
【0028】
諸実施形態によれば、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルは、特定の時間フレームにおいて前記オーディオ・デコード・システムにおいて使用される異なる周波数帯域に対応する。
【0029】
ある実施形態によれば、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルは、特定の周波数帯域において前記オーディオ・デコード・システムにおいて使用される異なる時間フレームに対応する。
【0030】
諸実施形態によれば、前記パラメータのベクトルは、前記オーディオ・デコード・システムによって使用されるアップミックス行列におけるある要素に対応する。
【0031】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第二の側面の任意の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0032】
例示的実施形態によれば、オーディオ・デコード・システムにおけるエントロピー符号化されたシンボルのベクトルを、非周期的な量に関係するパラメータのベクトルにデコードするデコーダが提供される。エントロピー符号化されたシンボルのベクトルは、第一のエントロピー符号化されたシンボルおよび少なくとも一つの第二のエントロピー符号化されたシンボルをもち、前記パラメータのベクトルは第一の要素および少なくとも第二の要素をもつ。本デコーダは:エントロピー符号化されたシンボルのベクトルを受領するよう構成された受領コンポーネントと;確率テーブルを使うことによって、N通りの整数値を取り得るシンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現するよう構成されたインデックス付けコンポーネントと;前記第一のエントロピー符号化されたシンボルをインデックス値に関連付けるよう構成された関連付けコンポーネントとを含み;前記関連付けコンポーネントは、前記少なくとも一つの第二のエントロピー符号化されたシンボルのそれぞれをインデックス値に関連付けるようさらに構成されており、前記少なくとも一つの第二のエントロピー符号化されたシンボルのインデックス値は:エントロピー符号化されたシンボルの前記ベクトルにおける前記第二のエントロピー符号化されたシンボルに先行するエントロピー符号化されたシンボルのインデックス値と、前記第二のエントロピー符号化されたシンボルを表わすシンボルとの和を計算し;該和にモジュロNを適用することによって計算される。本デコーダはさらに、前記パラメータのベクトルの前記少なくとも一つの第二の要素を、前記少なくとも一つの第二のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現するよう構成されたデコード・コンポーネントを有する。
【0033】
〈III.概観――疎行列エンコーダ〉
第三の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは、一般に、同じ特徴および利点を有していてもよい。
【0034】
例示的実施形態によれば、オーディオ・エンコード・システムにおいてアップミックス行列をエンコードする方法が提供される。前記アップミックス行列の各行は、M個のチャネルを含むダウンミックス信号からのオーディオ・オブジェクトの時間/周波数タイルの再構成を許容するM個の要素を含む。本方法は、アップミックス行列の各行について:アップミックス行列のその行のM個の要素から要素の部分集合を選択し;要素の選択された部分集合における各要素を、値およびアップミックス行列における位置によって表現し;要素の選択された部分集合における各要素の、値およびアップミックス行列における位置をエンコードすることを含む。
【0035】
本稿での用法では、M個のチャネルを含むダウンミックス信号という用語によって、M個の信号またはチャネルを含む信号であって、各チャネルが、再構成されるべき前記オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせであるものを意味する。チャネルの数は典型的には1より大きく、多くの場合チャネルの数は5以上である。
【0036】
本稿での用法では、アップミックス行列という用語は、M個のチャネルを含むダウンミックス信号からN個のオーディオ・オブジェクトが再構成されることを許容するN行M列をもつ行列をいう。アップミックス行列の各行の要素は一つのオーディオ・オブジェクトに対応し、該オーディオ・オブジェクトを再構成するためにダウンミックスのM個のチャネルと乗算されるべき係数を与える。
【0037】
本稿での用法では、アップミックス行列における位置とは、行列要素の行および列を指示する行および列インデックスを意味する。位置という用語は、アップミックス行列の所与の行における列インデックスを意味することもある。
【0038】
いくつかの場合には、時間/周波数タイル毎にアップミックス行列のすべての要素を送ることは、オーディオ・エンコード/デコード・システムにおける望ましくないほど高いビットレートを要求する。本方法の利点は、アップミックス行列要素の部分集合がエンコードされ、デコーダに伝送されるだけでよいということである。より少ないデータが伝送されるので、オーディオ・エンコード/デコード・システムの要求されるビットレートを減少させることがあり、データがより効率的に符号化されうる。
【0039】
オーディオ・エンコード/デコード・システムは典型的には、たとえば入力オーディオ信号に好適なフィルタバンクを適用することによって、時間‐周波数空間を時間/周波数タイルに分割する。時間/周波数タイルとは、一般に、ある時間区間および周波数サブバンドに対応する時間‐周波数空間の部分を意味する。時間区間は典型的には、オーディオ・エンコード/デコード・システムにおいて使われる時間フレームの継続時間に対応する。周波数サブバンドは典型的には、エンコード/デコード・システムにおいて使われるフィルタバンクによって定義される一つまたはいくつかの近隣の周波数サブバンドに対応する。周波数サブバンドがフィルタバンクによって定義されるいくつかの近隣の周波数サブバンドに対応する場合には、これは、オーディオ信号のデコード・プロセスにおける非一様な周波数サブバンド、たとえばオーディオ信号のより高い周波数についてはより幅広い周波数サブバンドをもつことを許容する。オーディオ・エンコード/デコード・システムが周波数範囲全体に対して作用するブロードバンドの場合、時間/周波数タイルの周波数サブバンドは周波数範囲全体に対応してもよい。上記の方法は、一つのそのような時間/周波数タイルの間のオーディオ・オブジェクトの再構成を許容するためのオーディオ・エンコード・システムにおけるアップミックス行列をエンコードするための諸エンコード段階を開示している。しかしながら、本方法は、オーディオ・エンコード・システムの各時間/周波数タイルについて繰り返されてもよいことは理解される。いくつかの時間/周波数タイルが同時にエンコードされてもよいことも理解される。典型的には、近隣の時間/周波数タイルは、時間および/または周波数において少し重なり合ってもよい。たとえば、時間における重なりは、再構成行列の要素の時間的な、すなわちある時間区間から次の時間区間にかけての線形補間と等価でありうる。しかしながら、本開示は、エンコード/デコード・システムの他の部分もターゲットとしており、近隣の時間/周波数タイルの間の時間および/または周波数におけるいかなる重なりも、当業者の実装に任される。
【0040】
諸実施形態によれば、アップミックス行列における各行について、要素の選択された部分集合の、アップミックス行列における位置は、複数の周波数帯域を横断しておよび/または複数の時間フレームを横断して変わる。よって、それらの要素の選択は、特定の時間/周波数タイルに依存することがあり、よって異なる時間/周波数タイルについては異なる要素が選択されることがある。これは、より柔軟なエンコード方法を提供し、それは符号化された信号の品質を高める。
【0041】
諸実施形態によれば、要素の選択された部分集合は、アップミックス行列の各行について同数の要素を含む。さらなる実施形態では、選択される要素の数はちょうど1であってもよい。これは、アルゴリズムが各行について同数の要素(単数または複数)、すなわち、デコーダ側でアップミックスを実行するときに最も重要な要素(単数または複数)を選択するだけでよいので、エンコーダの複雑さを低減する。
【0042】
諸実施形態によれば、アップミックス行列中の各行についておよび複数の周波数帯域または複数の時間フレームについて、要素の選択された部分集合の要素の値は、パラメータの一つまたは複数のベクトルを形成し、パラメータのベクトルにおける各パラメータは、前記複数の周波数帯域または前記複数の時間フレームの一つに対応し、パラメータの前記一つまたは複数のベクトルは、第一の側面に基づく方法を使ってエンコードされる。換言すれば、選択された要素の値は効率的に符号化されうる。上記の第一の側面の概観において呈示された特徴およびセットアップに関する利点は、一般に、この実施形態についても有効でありうる。
【0043】
諸実施形態によれば、アップミックス行列中の各行についておよび複数の周波数帯域または複数の時間フレームについて、要素の選択された部分集合の要素の位置は、パラメータの一つまたは複数のベクトルを形成し、パラメータのベクトルにおける各パラメータは、前記複数の周波数帯域または前記複数の時間フレームの一つに対応し、パラメータの前記一つまたは複数のベクトルは、第一の側面に基づく方法を使ってエンコードされる。換言すれば、選択された要素の位置は効率的に符号化されうる。上記の第一の側面の概観において呈示された特徴およびセットアップに関する利点は、一般に、この実施形態についても有効でありうる。
【0044】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第三の側面の任意の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0045】
例示的実施形態によれば、オーディオ・エンコード・システムにおいてアップミックス行列をエンコードするエンコーダが提供される。前記アップミックス行列の各行は、M個のチャネルを含むダウンミックス信号からのオーディオ・オブジェクトの時間/周波数タイルの再構成を許容するM個の要素を含む。本エンコーダは:アップミックス行列における各行を受領するよう適応された受領コンポーネントと;アップミックス行列における当該行のM個の要素から要素の部分集合を選択するよう適応された選択コンポーネントと;要素の選択された部分集合における各要素を、値およびアップミックス行列における位置によって表現するよう適応されたエンコード・コンポーネントとを有し、前記エンコード・コンポーネントはさらに、要素の選択された部分集合における各要素の、値およびアップミックス行列における位置をエンコードするよう適応されている。
【0046】
〈IV.概観――疎行列デコーダ〉
第四の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは、一般に、同じ特徴および利点を有していてもよい。
【0047】
上記の疎行列エンコーダの概観において呈示された特徴およびセットアップに関する利点は、一般に、デコーダについての対応する特徴およびセットアップについても有効でありうる。
【0048】
例示的実施形態によれば、オーディオ・デコード・システムにおいてオーディオ・オブジェクトの時間/周波数タイルを再構成する方法が提供される。本方法は:M個のチャネルを含むダウンミックス信号を受領する段階と;アップミックス行列におけるある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素を受領する段階であって、各エンコードされた要素は、値およびアップミックス行列におけるその行における位置を含み、前記位置は、そのエンコードされた要素が対応する前記ダウンミックス信号の前記M個のチャネルのうちの一つを指示する、段階と;前記少なくとも一つのエンコードされた要素に対応する前記ダウンミックス・チャネルの線形結合を形成することによって前記ダウンミックス信号から前記オーディオ・オブジェクトの前記時間/周波数タイルを再構成する段階とを含む。前記線形結合において、各ダウンミックス・チャネルはその対応するエンコードされた要素の値を乗算される。
【0049】
よって、この方法によれば、オーディオ・オブジェクトの時間/周波数タイルが、ダウンミックス・チャネルの部分集合の線形結合を形成することによって再構成される。ダウンミックス・チャネルの部分集合は、それについてエンコードされたアップミックス係数が受領されたところのチャネルに対応する。よって、本方法は、アップミックス行列の部分集合、たとえば疎な部分集合が受領されるだけであるという事実にもかかわらず、オーディオ・オブジェクトを再構成することを許容する。前記少なくとも一つのエンコードされた要素に対応するダウンミックス・チャネルのみの線形結合を形成することによって、デコード・プロセスの複雑さが低減されうる。代替は、すべてのダウンミックス信号の線形結合を形成し、次いでそれらのうちの一部(前記少なくとも一つのエンコードされた要素に対応しないもの)に値0を乗算することであろう。
【0050】
諸実施形態によれば、前記少なくとも一つのエンコードされた要素の位置は、複数の周波数帯域を横断しておよび/または複数の時間フレームを横断して変わる。よって、換言すれば、異なる時間/周波数タイルについては、アップミックス行列の異なる要素がエンコードされることがある。
【0051】
諸実施形態によれば、前記少なくとも一つのエンコードされた要素の要素数は1に等しい。つまり、オーディオ・オブジェクトは、各時間/周波数タイルにおける一つのダウンミックス・チャネルから再構成される。しかしながら、オーディオ・オブジェクトを再構成するために使用されるその一つのダウンミックス・チャネルは、異なる時間/周波数タイルの間で変わりうる。
【0052】
諸実施形態によれば、複数の周波数帯域または複数の時間フレームについて、前記少なくとも一つのエンコードされた要素の値は一つまたは複数のベクトルを形成し、各値はエントロピー符号化されたシンボルによって表わされ、エントロピー符号化されたシンボルの各ベクトルにおける各シンボルは、前記複数の周波数帯域の一つまたは前記複数の時間フレームの一つに対応し、エントロピー符号化されたシンボルの前記一つまたは複数のベクトルは、第二の側面に基づく方法を使ってデコードされる。このようにして、アップミックス行列の要素の値が効率的に符号化されうる。
【0053】
諸実施形態によれば、複数の周波数帯域または複数の時間フレームについて、前記少なくとも一つのエンコードされた要素の位置は一つまたは複数のベクトルを形成し、各位置はエントロピー符号化されたシンボルによって表わされ、エントロピー符号化されたシンボルの各ベクトルにおける各シンボルは、前記複数の周波数帯域または前記複数の時間フレームの一つに対応し、エントロピー符号化されたシンボルの前記一つまたは複数のベクトルは、第二の側面に基づく方法を使ってデコードされる。このようにして、アップミックス行列の要素の位置が効率的に符号化されうる。
【0054】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに第三の側面の任意の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0055】
例示的実施形態によれば、オーディオ・オブジェクトの時間/周波数タイルを再構成するデコーダが提供される。本デコーダは:M個のチャネルを含むダウンミックス信号およびアップミックス行列におけるある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素を受領するよう構成された受領コンポーネントであって、各エンコードされた要素は、値およびアップミックス行列におけるその行における位置を含み、前記位置は、そのエンコードされた要素が対応する前記ダウンミックス信号の前記M個のチャネルのうちの一つを指示する、受領コンポーネントと;前記少なくとも一つのエンコードされた要素に対応する前記ダウンミックス・チャネルの線形結合を形成することによって前記ダウンミックス信号から前記オーディオ・オブジェクトの前記時間/周波数タイルを再構成するよう構成された再構成コンポーネントとを有する。前記線形結合において、各ダウンミックス・チャネルはその対応するエンコードされた要素の値を乗算される。
【実施例】
【0056】
〈V.例示的実施形態〉
図1は、オーディオ・オブジェクト104をエンコードするためのオーディオ・エンコード・システム100の一般化されたブロック図を示している。本オーディオ・エンコード・システムは、諸オーディオ・オブジェクト104からダウンミックス信号110を生成するダウンミックス・コンポーネント106を有している。ダウンミックス信号110はたとえば、ドルビー・デジタル・プラスまたはMPEG規格、たとえばAAC、USACもしくはMP3のような確立されたサウンド・デコード・システムと後方互換な5.1または7.1サラウンド信号であってもよい。さらなる実施形態では、ダウンミックス信号は後方互換ではない。
【0057】
ダウンミックス信号110からオーディオ・オブジェクト104を再構成できるために、アップミックス・パラメータがダウンミックス信号110およびオーディオ・オブジェクト104から、アップミックス・パラメータ解析コンポーネント112において決定される。たとえば、アップミックス・パラメータは、ダウンミックス信号110からのオーディオ・オブジェクト104の再構成を許容するアップミックス行列の要素に対応してもよい。アップミックス・パラメータ解析コンポーネント112は、ダウンミックス信号110およびオーディオ・オブジェクト104を、個々の時間/周波数タイルに関して処理する。このように、アップミックス・パラメータは、各時間/周波数タイルについて決定される。たとえば、各時間/周波数タイルについてあるアップミックス行列が決定されてもよい。たとえば、アップミックス・パラメータ解析コンポーネント112は、周波数選択的な処理を許容する直交ミラー・フィルタ(QMF: Quadrature Mirror Filters)領域のような周波数領域で動作してもよい。この理由で、ダウンミックス信号110およびオーディオ・オブジェクト104をフィルタバンク108にかけることによって、ダウンミックス信号110およびオーディオ・オブジェクト104は周波数領域に変換されてもよい。これはたとえば、QMF変換または他の任意の好適な変換を適用することによってなされてもよい。
【0058】
アップミックス・パラメータ114はベクトル・フォーマットで編成されてもよい。ベクトルは、特定の時間フレームにおける種々の周波数帯域におけるオーディオ・オブジェクト104からの特定のオーディオ・オブジェクトを再構成するためのアップミックス・パラメータを表わしていてもよい。たとえば、ベクトルは、アップミックス行列におけるある行列要素に対応してもよい。ここで、該ベクトルは、一連の諸周波数帯域についての前記ある行列要素の値を含む。さらなる実施形態では、ベクトルは、特定の周波数帯域における種々の時間フレームにおけるオーディオ・オブジェクト104からの特定のオーディオ・オブジェクトを再構成するためのアップミックス・パラメータを表わしていてもよい。たとえば、ベクトルはアップミックス行列のある行列要素に対応していてもよく、該ベクトルは、一連の時間フレームについての、ただし同じ周波数帯域における前記ある行列要素の値を含む。
【0059】
ベクトルにおける各パラメータは、非周期的な量、たとえば-9.6から9.4までの間の値を取る量に対応する。非周期的な量とは、一般に、その量が取り得る値に周期性がない量を意味する。これは、その量が取り得る値の間に明確な周期的な対応がある角度のような周期的な量とは対照的である。たとえば、角度については、2πの周期性があり、たとえば角度0は角度2πに対応する。
【0060】
次いで、アップミックス・パラメータ114はベクトル・フォーマットでアップミックス行列エンコーダ102によって受領される。アップミックス行列エンコーダについてここで
図2との関連で詳細に説明する。ベクトルは、受領コンポーネント202によって受領され、第一の要素および少なくとも一つの第二の要素をもつ。要素の数はたとえば、オーディオ信号における周波数帯域の数に依存する。要素の数は、一つのエンコード動作においてエンコードされるオーディオ信号の時間フレームの数に依存してもよい。
【0061】
次いで、ベクトルはインデックス付けコンポーネント204によってインデックス付けされる。インデックス付けコンポーネントは、ベクトル中の各パラメータを、あらかじめ定義された数の値を取り得るインデックス値によって表現するよう適応されている。この表現は、二段階でできる。第一に、パラメータが量子化され、次いで、量子化された値がインデックス値によってインデックス付けされる。例として、ベクトル中の各パラメータが-9.6から9.4までの間の値を取ることができる場合、これは、0.2の量子化きざみを使うことによってできる。次いで、量子化された値は、インデックス0~95、すなわち96通りの異なる値によってインデックス付けされてもよい。以下の例では、インデックス値は0~95の範囲内であるが、これはもちろん単に例であり、インデックス値の他の範囲、たとえば0~191や0~63も等しく可能である。より小さな量子化きざみは、デコーダ側で、より歪みの少ないデコードされたオーディオ信号を生じうるが、オーディオ・エンコード・システム100とデコーダとの間のデータの伝送のためにより大きな要求されるビットレートをも生じうる。
【0062】
インデックス付けされた値はその後、関連付けコンポーネント206に送られる。関連付けコンポーネント206は、モジュロ差分エンコード戦略を使って、前記少なくとも一つの第二の要素のそれぞれを、シンボルに関連付ける。関連付けコンポーネント206は、第二の要素のインデックス値とベクトル中での直前の要素のインデックス値との間の差を計算するよう適応されている。単に通常の差分エンコード戦略を使うことによれば、差は-95から95までの範囲内のどこかでありうる。すなわち、191通りの可能な値がある。これは、エントロピー符号化を使って差がエンコードされるとき、191個の確率を含む確率テーブルが必要とされることを意味する。すなわち、差についての191通りの可能な値のそれぞれについて一つの確率である。さらに、各差について、191個の確率のうち約半分は不可能なので、エンコードの効率が低下することになる。たとえば、差分エンコードされるべき第二の要素がインデックス値90をもつ場合、可能な差は-5から+90の範囲内である。典型的には、符号化されるべき各値について確率のいくつかが不可能であるエントロピー・エンコード戦略をもつことは、エンコードの効率を低下させる。本開示における差分符号化戦略は、差にモジュロ96演算を適用することによって、この問題を克服し、同時に、必要とされる符号の数を96に減らす。よって、関連付けアルゴリズムは、次のように表現されうる。
【0063】
Δidx(b)=(idx(b)-idx(b-1)) mod NQ (式1)
ここで、bは差分エンコードされているベクトル中の要素であり、NQは可能なインデックス値の数であり、Δidx(b)は要素bに関連付けられたシンボルである。
【0064】
いくつかの実施形態によれば、確率テーブルはハフマン・コードブックに変換される。この場合、ベクトル中のある要素に関連付けられたシンボルは、コードブック・インデックスとして使われる。次いで、エンコード・コンポーネント208は、第二の要素を、該第二の要素に関連付けられたコードブック・インデックスによってインデックス付けされているハフマン・コードブック中の符号語をもって表現することにより、前記少なくとも一つの第二の要素のそれぞれをエンコードしうる。
【0065】
他の任意の好適なエントロピー符号化戦略がエンコード・コンポーネント208によって実装されてもよい。たとえば、そのようなエンコード戦略は、レンジ符号化(range coding)戦略または算術符号化戦略であってもよい。
【0066】
以下では、モジュロ・アプローチのエントロピーが、常に通常の差分アプローチのエントロピー以下になることを示す。通常の差分アプローチのエントロピーE
pは
【数1】
である。ここで、p(n)は単純な差分インデックス値nの確率である。
【0067】
モジュロ・アプローチのエントロピーE
qは
【数2】
である。ここで、q(n)はモジュロ差分インデックス値nの確率であり、
q(0)=p(0) (式4)
q(n)=p(n)+p(n-N
Q) n=1…N
Q-1 (式5)
によって与えられる。
【0068】
よって次のようになる。
【数3】
最後の和においてn=j-N
Qを代入すると、次のようになる。
【0069】
【数4】
和を項ごとに比べると、
【数5】
なので、E
p≧E
qとなる。
【0070】
上記で示したように、モジュロ・アプローチについてのエントロピーは常に、通常の差分アプローチのエントロピー以下になる。エントロピーが等しくなる場合は、エンコードされるデータが病的なデータである、すなわち振る舞いがよくないデータであるまれなケースであり、たいていの場合、たとえばアップミックス行列には当てはまらない。
【0071】
モジュロ・アプローチについてのエントロピーは常に、通常の差分アプローチのエントロピー以下になるので、モジュロ・アプローチによって計算されるシンボルのエントロピー符号化は、通常の差分アプローチによって計算されるシンボルのエントロピー符号化に比べて、より低いまたは少なくとも同じビットレートになる。換言すれば、モジュロ・アプローチによって計算されるシンボルのエントロピー符号化はたいていの場合、通常の差分アプローチによって計算されるシンボルのエントロピー符号化より効率的である。
【0072】
さらなる利点は、上述したように、モジュロ・アプローチにおける確率テーブルにおける必要とされる確率の数が、通常の非モジュロ・アプローチにおける必要とされる確率の数のほぼ半分になる。
【0073】
上記では、パラメータのベクトルにおける前記少なくとも一つの第二の要素をエンコードするためのモジュロ・アプローチについて述べた。第一の要素は、第一の要素を表わすインデックス値を使ってエンコードされてもよい。第一の要素のインデックス値と前記少なくとも一つの第二の要素のモジュロ差分値の確率分布は非常に異なることがあるので(インデックス付けされた第一の要素の確率分布については
図3参照、前記モジュロ差分値、すなわち前記少なくとも一つの第二の要素についてのシンボルの確率分布については
図4参照)、第一の要素についての専用の確率テーブルが必要とされることがありうる。このことは、オーディオ・エンコード・システム100および対応するデコーダの両方がそのような専用の確率テーブルをメモリ中にもつことを要求する。
【0074】
しかしながら、本発明者らは、確率分布の形はいくつかの場合には、互いに対してシフトしていながらもきわめて似通っていることがあることを観察した。この観察は、インデックス付けされた第一の要素の確率分布を、前記少なくとも一つの第二の要素についてのシンボルの確率分布のシフトされたバージョンによって近似するために使用されうる。そのようなシフトは、関連付けコンポーネント206が、ベクトル中の第一の要素を表わすインデックス値をあるオフセット値だけシフトすることによってベクトル中の第一の要素をあるシンボルと関連付け、その後、シフトされたインデックス値にモジュロ96(または対応する値)を適用するよう適応することによって実装されてもよい。
【0075】
よって、第一の要素に関連付けられたシンボルの計算は、
idxshifted(1)=(idx(1)-abs_offset) mod NQ (式11)
と表わされてもよい。
【0076】
こうして達成されるシンボルがエンコード・コンポーネント208によって使われる。エンコード・コンポーネント208は、前記少なくとも一つの第二の要素をエンコードするために使われるのと同じ確率テーブルを使って前記第一の要素に関連付けられたシンボルのエントロピー符号化を行なうことによって、前記第一の要素をエンコードする。オフセット値は、確率テーブルにおいて、前記第一の要素についての最も確からしいインデックス値と前記少なくとも一つの第二の要素についての最も確からしいシンボルとの間の差に等しいまたは少なくとも近くてもよい。
図3では、前記第一の要素についての最も確からしいインデックス値は矢印302によって表わされている。前記少なくとも一つの第二の要素についての最も確からしいシンボルが0であるとすると、矢印302によって表わされる値が使用されるオフセット値となる。オフセット・アプローチを使うことによって、
図3および
図4の分布のピークが整列される。このアプローチは、第一の要素についての専用の確率テーブルの必要を回避し、よってオーディオ・エンコード・システム100および対応するデコーダにおけるメモリを節約する。一方、しばしば専用の確率テーブルが与えるのとほとんど同じ符号化効率を維持する。
【0077】
前記少なくとも一つの第二の要素のエントロピー符号化がハフマン・コードブックを使ってなされる場合、エンコード・コンポーネント208は、ベクトル中の第一の要素を、前記少なくとも一つの第二の要素をエンコードするために使われる同じハフマン・コードブックを使ってエンコードしてもよい。それは、第一の要素に関連付けられたコードブック・インデックスによってインデックス付けされているハフマン・コードブック中の符号語をもって第一の要素を表現することによる。
【0078】
オーディオ・デコード・システムにおいてパラメータをエンコードするときには検索スピードが重要になることがあるので、コードブックが記憶されるメモリは有利には高速なメモリであり、よって高価である。よって、一つの確率テーブルだけを使うことによって、エンコーダは、二つの確率テーブルが使われる場合よりも安価になりうる。
【0079】
図3および
図4に示される確率分布がしばしば、トレーニング・データセットに対して事前に計算され、よってベクトルをエンコードする間に計算されないことを注意しておいてもよいだろう。だが、もちろん、エンコードする間に分布を「オンザフライ」で計算することも可能である。
【0080】
アップミックス行列からのベクトルをエンコードされるパラメータのベクトルとして使った、オーディオ・エンコード・システム100の上記の記述は単に例示的な用途であることを注意しておいてもよいだろう。本開示に基づく、パラメータのベクトルをエンコードする方法は、オーディオ・エンコード・システムにおける他の用途において使用されてもよい。たとえば、スペクトル帯域複製(SBR: spectral band replication)のようなパラメトリック帯域幅拡張システムにおいて使用されるパラメータのような、ダウンミックス・エンコード・システムにおける他の内部パラメータをエンコードするときである。
【0081】
図5は、符号化されたダウンミックス信号510および符号化されたアップミックス行列512からエンコードされたオーディオ・オブジェクトを再生成するためのオーディオ・デコード・システム500の一般化されたブロック図である。符号化されたダウンミックス信号510はダウンミックス受領コンポーネント506によって受領され、そこで信号はデコードされ、すでに好適な周波数領域になっているのでなければ、好適な周波数領域に変換される。次いで、デコードされたダウンミックス信号516はアップミックス・コンポーネント508に送られる。アップミックス・コンポーネント508では、デコードされたダウンミックス信号516およびデコードされたアップミックス行列504を使って、エンコードされたオーディオ・オブジェクトが再生成される。より具体的には、アップミックス・コンポーネント508は、デコードされたアップミックス行列504が、デコードされたダウンミックス信号516を含むベクトルを乗算される、行列演算を実行してもよい。アップミックス行列のデコード・プロセスが以下に記述される。オーディオ・デコード・システム500はさらに、オーディオ・デコード・システム500に接続されている再生ユニットの型に依存して、再構成されたオーディオ・オブジェクト518に基づくオーディオ信号を出力するレンダリング・コンポーネント514を有する。
【0082】
符号化されたアップミックス行列512は、アップミックス行列デコーダ502によって受領される。このアップミックス行列デコーダ502についてここで
図6との関連で詳細に説明する。アップミックス行列デコーダ502は、オーディオ・デコード・システムにおいて、エントロピー符号化されたシンボルのベクトルを、非周期的な量に関係するパラメータのベクトルにデコードするよう構成されている。エントロピー符号化されたシンボルのベクトルは、第一のエントロピー符号化されたシンボルおよび少なくとも一つの第二のエントロピー符号化されたシンボルを含み、パラメータのベクトルは第一の要素および少なくとも第二の要素を含む。こうして、符号化されたアップミックス行列512がベクトル・フォーマットで受領コンポーネント602によって受領される。デコーダ502はさらに、確率テーブルを使うことによって、ベクトル中の各エントロピー符号化されたシンボルを、N通りの値を取り得るシンボルによって表現するよう構成されたインデックス付けコンポーネント604を有する。Nはたとえば96であってもよい。関連付けコンポーネント606は、第一のエントロピー符号化されたシンボルを、パラメータのベクトル中の前記第一の要素をエンコードするために使われたエンコード方法に依存して、任意の好適な手段によってインデックス値に関連付けるよう構成されている。次いで、第二の符号のそれぞれについてのシンボルおよび第一の符号についてのインデックス値が関連付けコンポーネント606によって使用される。関連付けコンポーネント606は、前記少なくとも一つの第二のエントロピー符号化されたシンボルのそれぞれを、インデックス値と関連付ける。前記少なくとも一つのエントロピー符号化されたシンボルのインデックス値は、まず、エントロピー符号化されたシンボルのベクトルにおける前記第二のエントロピー符号化されたシンボルに先行するエントロピー符号化されたシンボルに関連付けられたインデックス値と、前記第二のエントロピー符号化されたシンボルを表わすシンボルとの和を計算することによって計算される。その後、モジュロNが和に適用される。一般性を失うことなく、最小インデックス値が0であり、最大インデックス値がN-1、たとえば95であるとする。すると、関連付けアルゴリズムは:
idx(b)=(idx(b-1)+Δ
idx(b)) mod N
Q (式12)
と表わされてもよい。ここで、bはデコードされているベクトル中の要素であり、N
Qは可能なインデックス値の数である。
【0083】
アップミックス行列デコーダ502はさらに、パラメータのベクトルの前記少なくとも一つの第二の要素を、前記少なくとも一つの第二のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現するよう構成されているデコード・コンポーネント608を有する。よって、この表現は、たとえば
図1に示されるオーディオ・エンコード・システムによってエンコードされたパラメータのデコードされたバージョンである。換言すれば、この表現は、
図1に示されるオーディオ・エンコード・システムによってエンコードされた、量子化されたパラメータに等しい。
【0084】
本発明のある実施形態によれば、エントロピー符号化されたシンボルのベクトルにおける各エントロピー符号化されたシンボルは、エントロピー符号化されたシンボルのベクトルにおけるすべてのエントロピー符号化されたシンボルについて同じ確率テーブルを使ってシンボルによって表現される。このことの利点は、デコーダのメモリに、一つの確率テーブルが記憶されるだけでよいということである。オーディオ・デコード・システムにおいて、エントロピー符号化されたシンボルをデコードするときには検索スピードが重要になることがあるので、確率テーブルが記憶されるメモリは有利には高速なメモリであり、よって高価である。よって、一つの確率テーブルだけを使うことによって、デコーダは、二つの確率テーブルが使われる場合よりも安価になりうる。この実施形態によれば、関連付けコンポーネント606は、まずエントロピー符号化されたシンボルのベクトルにおける第一のエントロピー符号化されたシンボルを表わすシンボルをあるオフセット値だけシフトさせることによって、第一のエントロピー符号化されたシンボルをインデックス値に関連付けるよう構成されていてもよい。次いでモジュロNがシフトされたシンボルに適用される。よって、関連付けアルゴリズムは、
idx(1)=(idxshifted(1)+abs_offset) mod NQ (式13)
として表わされてもよい。
【0085】
デコード・コンポーネント608は、パラメータのベクトルの第一の要素を、第一のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現するよう構成されている。よって、この表現は、たとえば
図1に示されるオーディオ・エンコード・システム100によってエンコードされたパラメータのデコードされたバージョンである。
【0086】
非周期的な量を差分エンコードする方法について
図7~
図10との関連でさらに説明する。
【0087】
図7および
図9は、パラメータのベクトルにおける四つの第二の要素についてのエンコード方法を記述している。よって、入力ベクトル902は五つのパラメータを含む。これらのパラメータはある最小値とある最大値との間の任意の値を取り得る。この例では、最小値は-9.6であり、最大値は9.4である。エンコード方法の第一段階S702は、ベクトル902中の各パラメータを、N通りの値を取り得るインデックス値によって表現する。この場合、Nは96に選ばれる。つまり、量子化きざみサイズは0.2である。これはベクトル904を与える。次の段階S704は、第二の要素、すなわちベクトル904における四つの上のパラメータのそれぞれと、その先行要素との間の差を計算する。よって、結果として得られるベクトル906は四つの差分値――ベクトル906における四つの上の値を含む。
図9で見て取れるように、これらの差分値は負、0および正のいずれであってもよい。上記で説明したように、N通りの値、この場合には96通りの値を取ることができるだけの差分値をもつことが有利である。これを達成するために、この方法の次の段階S706では、モジュロ96がベクトル906における第二の要素に適用される。結果として得られるベクトル908はいかなる負の値も含まない。ベクトル908に示されるこうして達成されたシンボルは次いで、
図7に示される方法の最終段階S708においてベクトルの第二の要素をエンコードするために使われる。それは、ベクトル908中に示されるシンボルの確率を含む確率テーブルに基づいて、前記少なくとも一つの第二の要素に関連付けられたシンボルをエントロピー符号化することによる。
【0088】
図9で見て取れるように、第一の要素は、インデックス付け段階S702のあとは処理されない。
図8および
図10では、入力ベクトル中の第一の要素をエンコードする方法が記述される。パラメータの最小および最大値ならびに可能なインデックス値の数に関して
図7および
図9の上記の記述でなされたのと同じ想定が、
図8および
図10を説明するときに有効である。第一の要素1002がエンコーダによって受領される。エンコード方法の第一の段階S802では、第一の要素のパラメータがインデックス値1004によって表現される。次の段階S804では、インデックス付けされた値1004があるオフセット値だけシフトされる。この例では、オフセットの値は49である。この値は、上記のようにして計算される。次の段階S806では、モジュロ96がシフトされたインデックス値1006に適用される。結果として得られる値1008は次いで、
図7において前記少なくとも一つの要素をエンコードするために使われる同じ確率テーブルを使って、シンボル1008のエントロピー符号化を行なうことによって第一の要素をエンコードするために使われる。
【0089】
図11は、
図1におけるアップミックス行列エンコード・コンポーネント102のある実施形態102′を示している。アップミックス行列エンコーダ102′は、オーディオ・エンコード・システム、たとえば
図1に示されるオーディオ・エンコード・システム100において、アップミックス行列をエンコードするために使われてもよい。上記のように、アップミックス行列の各行は、M個のチャネルを含むダウンミックス信号からのオーディオ・オブジェクトの再構成を許容するM個の要素を含む。
【0090】
低い全体的なターゲット・ビットレートにおいて、オブジェクトおよびT/Fタイル毎にM個のアップミックス行列要素すべてを、各ダウンミックス・チャネルについて一つずつエンコードして送ることは、望ましくないほど高いビットレートを必要とすることがある。これは、アップミックス行列の「疎行列化」(sparsening)、すなわち0でない要素の数を減らそうとすることによって低減できる。いくつかの場合には、五つの要素のうちの四つが0であり、単一のダウンミックス・チャネルがオーディオ・オブジェクトの再構成の基礎として使われる。疎行列は、疎でない行列とは異なる、符号化されたインデックス(絶対的または差分)の確率分布をもつ。アップミックス行列が大きな割合の0を含み、値0が0.5より確からしくなり、ハフマン符号化が使われる場合には、符号化効率は低下する。ハフマン符号化アルゴリズムは、特定の値、たとえば0が0.5より大きな確率をもつときには非効率的だからである。さらに、アップミックス行列における要素の多くが値0をもつので、それらの要素は全く情報を含まない。よって、一つの戦略は、アップミックス行列要素の部分集合を選択し、それだけをエンコードしてデコーダに伝送するということでありうる。これは、伝送されるデータが少なくなるので、オーディオ・エンコード/デコード・システムの要求されるビットレートを低減させうる。
【0091】
アップミックス行列の符号化の効率を増すために、疎行列についての専用の符号化モードが使われてもよい。これについて以下で詳細に説明する。
【0092】
エンコーダ102′は、アップミックス行列における各行を受領するよう適応された受領コンポーネント1102を有する。エンコーダ102′はさらに、アップミックス行列における行のM個の要素から要素の部分集合を選択するよう適応された選択コンポーネント1104を有する。たいていの場合、部分集合は、0の値をもたないすべての要素を含む。だが、ある種の実施形態では、選択コンポーネントは、0でない値をもつ要素、たとえば0に近い値をもつ要素を選択しないことを選んでもよい。諸実施形態によれば、要素の選択された部分集合は、アップミックス行列の各行について、同数の要素を含んでいてもよい。必要とされるビットレートをさらに低減するため、選択される要素の数は1であってもよい。
【0093】
エンコーダ102′はさらに、要素の選択された部分集合における各要素を、値およびアップミックス行列中での位置によって表現するよう適応されているエンコード・コンポーネント1106を有する。エンコード・コンポーネント1106はさらに、要素の選択された部分集合における各要素の値およびアップミックス行列中での位置をエンコードするよう適応されている。エンコード・コンポーネント1106はたとえば、上記のようなモジュロ差分エンコードを使って値をエンコードするよう適応されていてもよい。この場合、アップミックス行列における各行についておよび複数の周波数帯域または複数の時間フレームについて、要素の選択された部分集合の要素の値は、パラメータの一つまたは複数のベクトルを形成する。パラメータのベクトルにおける各パラメータは、前記複数の周波数帯域または前記複数の時間フレームの一つに対応する。パラメータのベクトルは、上記のモジュロ差分エンコードを使って符号化されてもよい。さらなる実施形態では、パラメータのベクトルは通常の差分エンコードを使って符号化されてもよい。さらに別の実施形態では、エンコード・コンポーネント1106は、各値の真の量子化値、すなわち差分エンコードされていない量子化値の固定レート符号化を使って別個に各値を符号化するよう適応される。
【0094】
平均ビットレートの下記の例は、典型的なコンテンツについて観察された。それらのビットレートは、M=5であり、デコーダ側で再構成されるべきオーディオ・オブジェクトの数が11であり、周波数帯域の数が12であり、パラメータ量子化器のきざみサイズが0.1であり、192個のレベルをもつ場合について測定された。アップミックス行列中の行ごとに五つの要素すべてがエンコードされた場合については、次の平均ビットレートが観察された。
【0095】
固定レート符号化:165kb/sec
差分符号化:51kb/sec
モジュロ差分符号化:51kb/sec、ただし、上記のように確率テーブルまたはコードブックのサイズは半分。
【0096】
アップミックス行列中の各行について選択コンポーネント1104によって一つの要素だけが選ばれる、すなわち疎エンコードの場合については、次の平均ビットレートが観察された。
【0097】
固定レート符号化(値について8ビット、位置について3ビットを使用):45kb/sec
要素の値および要素の位置の両方についてのモジュロ差分符号化:20kb/sec。
【0098】
エンコード・コンポーネント1106は、値と同じようにして、要素の部分集合における各要素のアップミックス行列中の位置をエンコードするよう適応されてもよい。エンコード・コンポーネント1106は、値のエンコードと比べて異なる仕方で、要素の部分集合における各要素のアップミックス行列中の位置をエンコードするよう適応されてもよい。差分符号化またはモジュロ差分符号化を使って位置を符号化する場合、アップミックス行列中の各行についておよび複数の周波数帯域または複数の時間フレームについて、要素の選択された部分集合の要素の位置は、パラメータの一つまたは複数のベクトルを形成する。パラメータのベクトルにおける各パラメータは、前記複数の周波数帯域または複数の時間フレームの一つに対応する。パラメータのベクトルは、上記の差分符号化またはモジュロ差分符号化を使ってエンコードされる。
【0099】
エンコーダ102′は、
図2のエンコーダ102と組み合わされて、上記の疎アップミックス行列のモジュロ差分符号化を達成してもよいことを注意しておいてもよいだろう。
【0100】
さらに、疎行列における行をエンコードする方法は、上記では疎なアップミックス行列における行をエンコードすることについて例解されているが、本方法は当業者によく知られている他の型の疎行列を符号化するために使われてもよいことを注意しておいてもよいだろう。
【0101】
疎なアップミックス行列をエンコードする方法について、
図13~
図15との関連でこれからさらに説明する。
【0102】
アップミックス行列が、たとえば
図11の受領コンポーネント1102によって受領される。アップミックス行列中の各行1402、1502について、本方法は、アップミックス行列のその行のM、たとえば5個の要素のうちから部分集合を選択することを含む(S1302)。次いで、要素の選択された部分集合における各要素が値およびアップミックス行列中での位置によって表現される(S1304)。
図14では、一つの要素が上記部分集合として選択される(S1302)。たとえば、2.34の値をもつ要素番号3である。こうして、表現は二つのフィールドをもつベクトル1404であってもよい。ベクトル1404中の第一のフィールドは値、たとえば2.34を表わし、ベクトル1404中の第二のフィールドは位置、たとえば3を表わす。
図15では、二つの要素が上記部分集合として選択される(S1302)。たとえば、2.34の値をもつ要素番号3と-1.81の値をもつ要素番号5である。よって、表現は四つのフィールドをもつベクトル1504であってもよい。ベクトル1504における第一のフィールドは第一の要素の値、たとえば2.34を表わし、ベクトル1504における第二のフィールドは第一の要素の位置、たとえば3を表わす。ベクトル1504における第三のフィールドは第二の要素の値、たとえば-1.81を表わし、ベクトル1504における第四のフィールドは第二の要素の位置、たとえば5を表わす。次いで、表現1404、1504が上記に従ってエンコードされる(S1306)。
【0103】
図12は、ある例示的実施形態に基づくオーディオ・デコード・システム1200の一般化されたブロック図である。デコーダ1200は、M個のチャネルを含むダウンミックス信号1210と、アップミックス行列中のある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素1204とを受領するよう構成された受領コンポーネント1206を有する。エンコードされた要素のそれぞれは、値およびアップミックス行列中のその行における位置を含む。位置は、ダウンミックス信号1210のM個のチャネルのうちの、エンコードされた要素が対応するものを指示する。前記少なくとも一つのエンコードされた要素1204は、アップミックス行列要素デコード・コンポーネント1202によってデコードされる。アップミックス行列要素デコード・コンポーネント1202は、前記少なくとも一つのエンコードされた要素1204をエンコードするために使われたエンコード戦略に従って、前記少なくとも一つのエンコードされた要素1204をデコードするよう構成されている。そのようなエンコード戦略についての例は上記に開示されている。次いで、前記少なくとも一つのデコードされた要素1214は、再構成コンポーネント1208に送られる。この再構成コンポーネント1208は、前記少なくとも一つのエンコードされた要素1204に対応するダウンミックス・チャネルの線形結合を形成することによって、ダウンミックス信号1210からオーディオ・オブジェクトの時間/周波数タイルを再構成するよう構成されている。線形結合を形成するとき、各ダウンミックス・チャネルは、その対応するエンコードされた要素1204を乗算される。
【0104】
たとえば、デコードされた要素1214が値1.1および位置2を含む場合、第二のダウンミックス・チャネルの時間/周波数タイルは1.1を乗算され、これがその後、オーディオ・オブジェクトを再構成するために使われる。
【0105】
オーディオ・デコード・システム500はさらに、再構成されたオーディオ・オブジェクト1218に基づいてオーディオ信号を出力するレンダリング・コンポーネント1216を有する。該オーディオ信号の型は、どんな型の再生ユニットがオーディオ・デコード・システム1200に接続されているかに依存する。たとえば、一対のヘッドフォンがオーディオ・デコード・システム1200に接続されている場合には、レンダリング・コンポーネント1216によってステレオ信号が出力されてもよい。
【0106】
〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
【0107】
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する当業者によって、開示される実施形態に対する変形が理解され、実施されることができる。請求項において、「有する/含む」の語は他の要素またはステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実がこれらの施策の組み合わせが有利に使用できないことを示すものではない。
【0108】
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。逆に、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働していくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
【0109】
いくつかの態様を記載しておく。
〔態様1〕
オーディオ・エンコード・システムにおいてパラメータのベクトルをエンコードする方法であって、各パラメータは非周期的な量に対応し、前記ベクトルは、第一の要素および少なくとも一つの第二の要素をもち、当該方法は:
N通りの値を取り得るインデックス値によって前記ベクトル中の各パラメータを表現する段階と;
前記少なくとも一つの第二の要素のそれぞれをシンボルに関連付ける段階であって、前記シンボルは:
前記第二の要素のインデックス値と前記ベクトル中でその先行する要素のインデックス値との間の差を計算し;
該差にモジュロNを適用することによって計算される、段階と;
前記少なくとも一つの第二の要素に関連付けられた前記シンボルを、シンボルの確率を含む確率テーブルに基づいてエントロピー符号化することによって、前記少なくとも一つの第二の要素のそれぞれをエンコードする段階とを含む、
方法。
〔態様2〕
前記ベクトル中の前記第一の要素をシンボルと関連付ける段階であって、前記シンボルは:
前記ベクトル中の前記第一の要素を表わすインデックス値をあるオフセット値だけシフトし;
シフトされたインデックス値にモジュロNを適用することによって計算される、段階と;
前記少なくとも一つの第二の要素をエンコードするために使われる同じ確率テーブルを使った前記第一の要素に関連付けられたシンボルのエントロピー符号化によって、前記第一の要素をエンコードする段階とをさらに含む、
態様1記載の方法。
〔態様3〕
前記オフセット値は、前記第一の要素についての最も確からしいインデックス値と前記確率テーブルにおける前記少なくとも一つの第二の要素についての最も確からしいシンボルとの間の差に等しい、態様2記載の方法。
〔態様4〕
前記パラメータのベクトルの前記第一の要素および前記少なくとも一つの第二の要素は、特定の時間フレームにおいて前記オーディオ・エンコード・システムにおいて使用される異なる周波数帯域に対応する、態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記パラメータのベクトルの前記第一の要素および前記少なくとも一つの第二の要素は、特定の周波数帯域において前記オーディオ・エンコード・システムにおいて使用される異なる時間フレームに対応する、態様1ないし3のうちいずれか一項記載の方法。
〔態様6〕
前記確率テーブルはハフマン・コードブックに変換され、前記ベクトル中のある要素に関連付けられたシンボルは、コードブック・インデックスとして使われ、前記エンコードする段階は、前記少なくとも一つの第二の要素のそれぞれをエンコードすることを、該第二の要素を、該第二の要素に関連付けられたコードブック・インデックスによってインデックスされるコードブック中の符号語で表わすことによって行なうことを含む、態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
前記エンコードする段階は、前記第一の要素を、前記第一の要素に関連付けられたコードブック・インデックスによってインデックスされる前記ハフマン・コードブック中の符号語で表わすことによって、前記少なくとも一つの第二の要素をエンコードするために使われる同じハフマン・コードブックを使って前記ベクトル中の前記第一の要素をエンコードすることを含む、態様2を引用する場合の態様6記載の方法。
〔態様8〕
前記パラメータのベクトルは、前記オーディオ・エンコード・システムによって決定されるアップミックス行列中のある要素に対応する、態様1ないし7のうちいずれか一項記載の方法。
〔態様9〕
処理機能をもつ装置上で実行されたときに態様1ないし8のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読記憶媒体。
〔態様10〕
オーディオ・エンコード・システムにおいてパラメータのベクトルをエンコードするエンコーダであって、各パラメータは非周期的な量に対応し、前記ベクトルは、第一の要素および少なくとも一つの第二の要素をもち、当該エンコーダは:
前記ベクトルを受領するよう適応された受領コンポーネントと;
N通りの値を取り得るインデックス値によって前記ベクトル中の各パラメータを表現するよう適応されたインデックス付けコンポーネントと;
前記少なくとも一つの第二の要素のそれぞれをシンボルに関連付けるよう適応された関連付けコンポーネントであって、前記シンボルは:
前記第二の要素のインデックス値と前記ベクトル中でのその先行する要素のインデックス値との間の差を計算し;
該差にモジュロNを適用することによって計算される、関連付けコンポーネントと;
前記少なくとも一つの第二の要素に関連付けられたシンボルを、シンボルの確率を含む確率テーブルに基づいてエントロピー符号化することによって、前記少なくとも一つの第二の要素のそれぞれをエンコードするエンコード・コンポーネントとを有する、
エンコーダ。
〔態様11〕
オーディオ・デコード・システムにおけるエントロピー符号化されたシンボルのベクトルを、非周期的な量に関係するパラメータのベクトルにデコードする方法であって、エントロピー符号化されたシンボルの前記ベクトルは、第一のエントロピー符号化されたシンボルおよび少なくとも一つの第二のエントロピー符号化されたシンボルをもち、前記パラメータのベクトルは第一の要素および少なくとも一つの第二の要素をもち、当該方法は:
確率テーブルを使うことによって、N通りの整数値を取り得るシンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現する段階と;
前記第一のエントロピー符号化されたシンボルをインデックス値に関連付ける段階と;
前記少なくとも一つの第二のエントロピー符号化されたシンボルのそれぞれをインデックス値に関連付ける段階とを含み、前記少なくとも一つの第二のエントロピー符号化されたシンボルのインデックス値は:
エントロピー符号化されたシンボルの前記ベクトルにおける前記第二のエントロピー符号化されたシンボルに先行するエントロピー符号化されたシンボルに関連付けられたインデックス値と、前記第二のエントロピー符号化されたシンボルを表わすシンボルとの和を計算し;
該和にモジュロNを適用することによって計算される、段階と;
前記パラメータのベクトルの前記少なくとも一つの第二の要素を、前記少なくとも一つの第二のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現する段階とを含む、
方法。
〔態様12〕
シンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現する前記段階は、エントロピー符号化されたシンボルの前記ベクトルにおけるすべてのエントロピー符号化されたシンボルについて同じ確率テーブルを使って実行され、前記第一のエントロピー符号化されたシンボルに関連付けられたインデックス値は:
エントロピー符号化されたシンボルの前記ベクトル中の前記第一のエントロピー符号化されたシンボルを表わすシンボルをあるオフセット値だけシフトし;
シフトされたシンボルにモジュロNを適用することによって計算され、
当該方法はさらに:
前記パラメータのベクトルの前記第一の要素を、前記第一のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現する段階を含む、
態様11記載の方法。
〔態様13〕
前記確率テーブルはハフマン・コードブックに変換され、各エントロピー符号化されたシンボルは、ハフマン・コードブックにおける符号語に対応する、態様11または12記載の方法。
〔態様14〕
ハフマン・コードブックにおける各符号語はコードブック・インデックスに関連付けられ、シンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現する前記段階は、エントロピー符号化されたシンボルを、該エントロピー符号化されたシンボルに対応する符号語に関連付けられているコードブック・インデックスによって表現することを含む、態様13記載の方法。
〔態様15〕
エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルは、特定の時間フレームにおいて前記オーディオ・デコード・システムにおいて使用される異なる周波数帯域に対応する、態様11ないし14のうちいずれか一項記載の方法。
〔態様16〕
エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルは、特定の周波数帯域において前記オーディオ・デコード・システムにおいて使用される異なる時間フレームに対応する、態様11ないし14のうちいずれか一項記載の方法。
〔態様17〕
前記パラメータのベクトルは、前記オーディオ・デコード・システムによって使用されるアップミックス行列におけるある要素に対応する、態様11ないし16のうちいずれか一項記載の方法。
〔態様18〕
処理機能をもつ装置上で実行されたときに態様11ないし17のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読記憶媒体。
〔態様19〕
オーディオ・デコード・システムにおけるエントロピー符号化されたシンボルのベクトルを、非周期的な量に関係するパラメータのベクトルにデコードするデコーダであって、エントロピー符号化されたシンボルの前記ベクトルは、第一のエントロピー符号化されたシンボルおよび少なくとも一つの第二のエントロピー符号化されたシンボルをもち、前記パラメータのベクトルは第一の要素および少なくとも第二の要素をもち、当該デコーダは:
エントロピー符号化されたシンボルの前記ベクトルを受領するよう構成された受領コンポーネントと;
確率テーブルを使うことによって、N通りの整数値を取り得るシンボルによって、エントロピー符号化されたシンボルの前記ベクトルにおける各エントロピー符号化されたシンボルを表現するよう構成されたインデックス付けコンポーネントと;
前記第一のエントロピー符号化されたシンボルをインデックス値に関連付けるよう構成された関連付けコンポーネントであって、
前記関連付けコンポーネントは、前記少なくとも一つの第二のエントロピー符号化されたシンボルのそれぞれをインデックス値に関連付けるようさらに構成されており、前記少なくとも一つの第二のエントロピー符号化されたシンボルのインデックス値は:
エントロピー符号化されたシンボルの前記ベクトルにおける前記第二のエントロピー符号化されたシンボルに先行するエントロピー符号化されたシンボルのインデックス値と、前記第二のエントロピー符号化されたシンボルを表わすシンボルとの和を計算し;
該和にモジュロNを適用することによって計算される、
関連付けコンポーネントと;
前記パラメータのベクトルの前記少なくとも一つの第二の要素を、前記少なくとも一つの第二のエントロピー符号化されたシンボルに関連付けられたインデックス値に対応するパラメータ値によって表現するよう構成されたデコード・コンポーネントとを有する、
デコーダ。
〔態様20〕
オーディオ・エンコード・システムにおいてアップミックス行列をエンコードする方法であって、前記アップミックス行列の各行は、M個のチャネルを含むダウンミックス信号からのオーディオ・オブジェクトの時間/周波数タイルの再構成を許容するM個の要素を含み、当該方法は:
前記アップミックス行列における各行について:
前記アップミックス行列におけるその行のM個の要素から要素の部分集合を選択し;
要素の選択された部分集合における各要素を、値および前記アップミックス行列における位置によって表現し;
要素の選択された部分集合における各要素の、値および前記アップミックス行列における位置をエンコードすることを含む、
方法。
〔態様21〕
前記アップミックス行列における各行について、前記選択された部分集合の要素の、前記アップミックス行列における位置は、複数の周波数帯域を横断しておよび/または複数の時間フレームを横断して変わる、態様20記載の方法。
〔態様22〕
要素の選択された部分集合は、前記アップミックス行列の各行について同数の要素を含む、態様20または21記載の方法。
〔態様23〕
前記アップミックス行列の各行について、要素の選択された部分集合は、前記アップミックス行列におけるその行のM個の要素のうちからのちょうど一つの要素を含む、態様20ないし22のうちいずれか一項記載の方法。
〔態様24〕
前記アップミックス行列における各行についておよび複数の周波数帯域または複数の時間フレームについて、要素の選択された部分集合の要素の値は、パラメータの一つまたは複数のベクトルを形成し、該パラメータのベクトルにおける各パラメータは、前記複数の周波数帯域または前記複数の時間フレームのうちの一つに対応し、パラメータの前記一つまたは複数のベクトルは、態様1ないし8のうちいずれか一項記載の方法を使ってエンコードされる、態様20ないし23のうちいずれか一項記載の方法。
〔態様25〕
前記アップミックス行列における各行についておよび複数の周波数帯域または複数の時間フレームについて、要素の選択された部分集合の要素の位置は、パラメータの一つまたは複数のベクトルを形成し、該パラメータのベクトルにおける各パラメータは、前記複数の周波数帯域または前記複数の時間フレームの一つに対応し、パラメータの前記一つまたは複数のベクトルは、態様1ないし8のうちいずれか一項記載の方法を使ってエンコードされる、態様20ないし24のうちいずれか一項記載の方法。
〔態様26〕
処理機能をもつ装置上で実行されたときに態様20ないし25のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読記憶媒体。
〔態様27〕
オーディオ・エンコード・システムにおいてアップミックス行列をエンコードするエンコーダであって、前記アップミックス行列の各行は、M個のチャネルを含むダウンミックス信号からのオーディオ・オブジェクトの時間/周波数タイルの再構成を許容するM個の要素を含み、当該エンコーダは:
前記アップミックス行列における各行を受領するよう適応された受領コンポーネントと;
前記アップミックス行列における当該行のM個の要素から要素の部分集合を選択するよう適応された選択コンポーネントと;
要素の選択された部分集合における各要素を、値および前記アップミックス行列における位置によって表現するよう適応されたエンコード・コンポーネントとを有し、前記エンコード・コンポーネントはさらに、要素の選択された部分集合における各要素の、値および前記アップミックス行列における位置をエンコードするよう適応されている、
エンコーダ。
〔態様28〕
オーディオ・デコード・システムにおいてオーディオ・オブジェクトの時間/周波数タイルを再構成する方法であって:
M個のチャネルを含むダウンミックス信号を受領する段階と;
アップミックス行列におけるある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素を受領する段階であって、各エンコードされた要素は、値および前記アップミックス行列におけるその行における位置を含み、前記位置は、そのエンコードされた要素が対応する前記ダウンミックス信号の前記M個のチャネルのうちの一つを指示する、段階と;
前記少なくとも一つのエンコードされた要素に対応する前記ダウンミックス・チャネルの線形結合を形成することによって前記ダウンミックス信号から前記オーディオ・オブジェクトの前記時間/周波数タイルを再構成する段階であって、前記線形結合において、各ダウンミックス・チャネルはその対応するエンコードされた要素の値を乗算される、段階とを含む、
方法。
〔態様29〕
前記少なくとも一つのエンコードされた要素の位置は、複数の周波数帯域を横断しておよび/または複数の時間フレームを横断して変わる、態様28記載の方法。
〔態様30〕
前記少なくとも一つのエンコードされた要素の要素数は1に等しい、態様28または29記載の方法。
〔態様31〕
複数の周波数帯域または複数の時間フレームについて、前記少なくとも一つのエンコードされた要素の値が一つまたは複数のベクトルを形成し、各値はエントロピー符号化されたシンボルによって表わされ、エントロピー符号化されたシンボルの各ベクトルにおける各エントロピー符号化されたシンボルは、前記複数の周波数帯域の一つまたは前記複数の時間フレームの一つに対応し、エントロピー符号化されたシンボルの前記一つまたは複数のベクトルは、態様11ないし17のうちいずれか一項記載の方法を使ってデコードされる、態様28ないし30のうちいずれか一項記載の方法。
〔態様32〕
複数の周波数帯域または複数の時間フレームについて、前記少なくとも一つのエンコードされた要素の位置が一つまたは複数のベクトルを形成し、各位置はエントロピー符号化されたシンボルによって表わされ、エントロピー符号化されたシンボルの各ベクトルにおける各シンボルは、前記複数の周波数帯域または前記複数の時間フレームの一つに対応し、エントロピー符号化されたシンボルの前記一つまたは複数のベクトルは、態様11ないし17のうちいずれか一項記載の方法を使ってデコードされる、態様28ないし31のうちいずれか一項記載の方法。
〔態様33〕
処理機能をもつ装置上で実行されたときに態様28ないし32のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読記憶媒体。
〔態様34〕
オーディオ・オブジェクトの時間/周波数タイルを再構成するデコーダであって:
M個のチャネルを含むダウンミックス信号およびアップミックス行列におけるある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素を受領するよう構成された受領コンポーネントであって、各エンコードされた要素は、値および前記アップミックス行列におけるその行における位置を含み、前記位置は、そのエンコードされた要素が対応する前記ダウンミックス信号の前記M個のチャネルのうちの一つを指示する、受領コンポーネントと;
前記少なくとも一つのエンコードされた要素に対応する前記ダウンミックス・チャネルの線形結合を形成することによって前記ダウンミックス信号から前記オーディオ・オブジェクトの前記時間/周波数タイルを再構成するよう構成された再構成コンポーネントとを有しており、前記線形結合において、各ダウンミックス・チャネルはその対応するエンコードされた要素の値を乗算される、
デコーダ。