特許第6248186号(P6248186)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許6248186オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
<>
  • 特許6248186-オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ 図000004
  • 特許6248186-オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ 図000005
  • 特許6248186-オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ 図000006
  • 特許6248186-オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ 図000007
  • 特許6248186-オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ 図000008
  • 特許6248186-オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ 図000009
  • 特許6248186-オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6248186
(24)【登録日】2017年11月24日
(45)【発行日】2017年12月13日
(54)【発明の名称】オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
(51)【国際特許分類】
   G10L 19/008 20130101AFI20171204BHJP
   G10L 19/00 20130101ALI20171204BHJP
【FI】
   G10L19/008 200
   G10L19/00 330B
   G10L19/00 400Z
【請求項の数】20
【全頁数】26
(21)【出願番号】特願2016-514441(P2016-514441)
(86)(22)【出願日】2014年5月23日
(65)【公表番号】特表2016-522445(P2016-522445A)
(43)【公表日】2016年7月28日
(86)【国際出願番号】EP2014060728
(87)【国際公開番号】WO2014187987
(87)【国際公開日】20141127
【審査請求日】2016年1月13日
(31)【優先権主張番号】61/827,288
(32)【優先日】2013年5月24日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
(72)【発明者】
【氏名】ヴィレモーズ,ラルス
(72)【発明者】
【氏名】サミュエルソン,レイフ ヨナス
(72)【発明者】
【氏名】ヒルヴォーネン,トニ
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特表2009−508157(JP,A)
【文献】 特表2008−507184(JP,A)
【文献】 特表2011−527456(JP,A)
【文献】 特表2012−530952(JP,A)
【文献】 特表2008−516290(JP,A)
【文献】 特表2007−526522(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
H04S 1/00− 7/00
(57)【特許請求の範囲】
【請求項1】
N個のオーディオ・オブジェクトの時間/周波数タイルを再構成する方法であって:
M個のダウンミックス信号を受領する段階と;
前記M個のダウンミックス信号からの前記N個のオーディオ・オブジェクトの近似の再構成を可能にする再構成行列を受領する段階と;
N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号に前記再構成行列を適用する段階と;
少なくとも一つの脱相関されたオーディオ・オブジェクトを生成するために、前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかける段階であって、前記少なくとも一つの脱相関されたオーディオ・オブジェクトのそれぞれは前記N個の近似されたオーディオ・オブジェクトの一つに対応する、段階と;
対応する脱相関されたオーディオ・オブジェクトをもたない前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、その近似されたオーディオ・オブジェクトによって再構成する段階と;
対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを:
第一の重み付け因子および第二の重み付け因子を導出できるもとになる単一の重み付けパラメータを受領し、
前記第一の重み付け因子によって前記近似されたオーディオ・オブジェクトを重み付けし、
前記第二の重み付け因子によって前記近似されたオーディオ・オブジェクトに対応する前記脱相関されたオーディオ・オブジェクトを重み付けし、
重み付けされた近似されたオーディオ・オブジェクトを対応する重み付けされた脱相関されたオーディオ・オブジェクトと加算を実行することによって組み合わせて前記近似されたオーディオ・オブジェクトの時間/周波数タイルを再構成して、該再構成された時間/周波数タイルのエネルギー・レベルが前記近似されたオーディオ・オブジェクトの対応する時間/周波数タイルのエネルギー・レベルに等しくなるようにすることによって、
再構成する段階とを含む、
方法。
【請求項2】
前記第一の重み付け因子および前記第二の重み付け因子の平方和が1に等しく、前記単一の重み付けパラメータは、前記第一の重み付け因子または前記第二の重み付け因子を含む、請求項1記載の方法。
【請求項3】
前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかける段階は、前記N個の近似されたオーディオ・オブジェクトのそれぞれを脱相関プロセスにかけることを含み、それにより、前記N個の近似されたオーディオ・オブジェクトのそれぞれがある脱相関されたオーディオ・オブジェクトに対応する、請求項1または2記載の方法。
【請求項4】
前記第一および第二の重み付け因子が時間および周波数可変である、請求項1ないし3のうちいずれか一項記載の方法。
【請求項5】
前記再構成行列が時間および周波数可変である、請求項1ないし4のうちいずれか一項記載の方法。
【請求項6】
受領時の前記再構成行列および前記少なくとも一つの重み付けパラメータはフレーム内に配置されており、前記再構成行列は、第一のフォーマットを使ってフレームの第一のフィールド内に配置され、前記少なくとも一つの重み付けパラメータは第二のフォーマットを使ってフレームの第二のフィールドに配置され、それにより、第一のフォーマットをサポートするだけのデコーダが、第一のフィールド中の前記再構成行列をデコードして第二のフィールド中の前記少なくとも一つの重み付けパラメータを破棄することを許容する、請求項1ないし5のうちいずれか一項記載の方法。
【請求項7】
L個の補助信号を受領する段階をさらに含んでおり、前記再構成行列はさらに、前記M個のダウンミックス信号および前記L個の補助信号から前記N個のオーディオ・オブジェクトの前記近似の再構成を可能にし、当該方法はさらに、前記N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号および前記L個の補助信号に前記再構成行列を適用することを含む、請求項1ないし6のうちいずれか一項記載の方法。
【請求項8】
前記L個の補助信号のうち少なくとも一つは、再構成されるべき前記N個のオーディオ・オブジェクトのうちの一つに等しい、
再構成されるべき前記N個のオーディオ・オブジェクトのうちの少なくとも二つの組み合わせである、または前記M個のダウンミックス信号によって張られる超平面内にない、請求項7記載の方法。
【請求項9】
前記L個の補助信号のうちの前記少なくとも一つは、前記M個のダウンミックス信号によって張られる超平面と直交する、請求項8記載の方法。
【請求項10】
処理機能をもつ装置上で実行されたときに請求項1ないし9のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を記憶しているコンピュータ可読記憶媒体。
【請求項11】
N個のオーディオ・オブジェクトの時間/周波数タイルを再構成する装置であって:
M個のダウンミックス信号を受領するよう構成された第一の受領コンポーネントと;
前記M個のダウンミックス信号からの前記N個のオーディオ・オブジェクトの近似の再構成を可能にする再構成行列を受領するよう構成された第二の受領コンポーネントと;
N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号に前記再構成行列を適用するよう構成されている、前記第一および第二の受領コンポーネントの下流に配置されたオーディオ・オブジェクト近似コンポーネントと;
少なくとも一つの脱相関されたオーディオ・オブジェクトを生成するために、前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかけるよう構成された、前記オーディオ・オブジェクト近似コンポーネントの下流に配置された脱相関コンポーネントであって、前記少なくとも一つの脱相関されたオーディオ・オブジェクトのそれぞれは前記N個の近似されたオーディオ・オブジェクトのうちの一つに対応する、コンポーネントとを有し;
前記第二の受領コンポーネントは、対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについて、第一の重み付け因子および第二の重み付け因子が導出できるもとになる単一の重み付けパラメータを受領するようさらに構成されており、
当該装置はさらに、
前記オーディオ・オブジェクト近似コンポーネント、前記脱相関コンポーネントおよび前記第二の受領コンポーネントの下流に配置されたオーディオ・オブジェクト再構成コンポーネントを有しており、前記オーディオ・オブジェクト再構成コンポーネントは:
対応する脱相関されたオーディオ・オブジェクトをもたない前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、前記近似されたオーディオ・オブジェクトによって再構成し;
対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを:
前記第一の重み付け因子によって前記近似されたオーディオ・オブジェクトを重み付けし、
前記第二の重み付け因子によって前記近似されたオーディオ・オブジェクトに対応する前記脱相関されたオーディオ・オブジェクトを重み付けし、
重み付けされた近似されたオーディオ・オブジェクトを対応する重み付けされた脱相関されたオーディオ・オブジェクトと加算を実行することによって組み合わせて前記近似されたオーディオ・オブジェクトの時間/周波数タイルを再構成して、該再構成された時間/周波数タイルのエネルギー・レベルが前記近似されたオーディオ・オブジェクトの対応する時間/周波数タイルのエネルギー・レベルに等しくなるようにすることによって、再構成するよう構成されている、装置。
【請求項12】
特定のオーディオ・オブジェクトの時間/周波数タイルを再構成するときに使われる少なくとも一つの重み付けパラメータを生成するための、エンコーダにおける方法であって、当該方法は:
前記特定のオーディオ・オブジェクトを含む少なくともN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号を受領する段階と;
前記特定のオーディオ・オブジェクトを受領する段階と;
前記特定のオーディオ・オブジェクトのエネルギー・レベルを示す第一の量を計算する段階と;
前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応するエネルギー・レベルを示す第二の量を計算する段階であって、前記エンコーダ側近似は前記M個のダウンミックス信号の組み合わせである、段階と;
前記第一および第二の量に基づいて少なくとも一つの重み付けパラメータを計算する段階であって、前記少なくとも一つの重み付けパラメータは、前記特定のオーディオ・オブジェクトのデコーダ側近似および前記特定のオーディオ・オブジェクトの前記デコーダ側近似の脱相関されたバージョンに重み付けするためのものである、
方法。
【請求項13】
前記少なくとも一つの重み付けパラメータは、第一の重み付け因子および第二の重み付け因子が導出できるもとになる単一の重み付けパラメータを含み、前記第一の重み付け因子は、前記特定のオーディオ・オブジェクトのデコーダ側近似の重み付けのためであり、前記第二の重み付け因子は、デコーダ側近似されたオーディオ・オブジェクトの脱相関されたバージョンを重み付けするためである、請求項12記載の方法。
【請求項14】
少なくとも一つの重み付けパラメータを計算する段階は、前記第一の量および前記第二の量を比較することを含む、請求項12または13記載の方法。
【請求項15】
前記第一の量および前記第二の量を比較することは、前記第二の量と前記第一の量の間の比を計算し、その比をα乗し、前記重み付けパラメータを計算するために該α乗された比を使うことを含む、請求項14記載の方法。
【請求項16】
αが2に等しい、請求項15記載の方法。
【請求項17】
α乗された比は、α乗された比を前記少なくとも一つの重み付けパラメータにマッピングする増加関数にかけられる、請求項15または16記載の方法。
【請求項18】
エネルギー・レベルを示す前記第二の量は、前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応し、前記エンコーダ側近似は前記M個のダウンミックス信号およびL個の補助信号の線形結合であり、前記ダウンミックス信号および前記補助信号は前記N個のオーディオ・オブジェクトから形成される、請求項14ないし17のうちいずれか一項記載の方法。
【請求項19】
処理機能をもつ装置上で実行されたときに請求項14ないし18のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を記憶しているコンピュータ可読記憶媒体。
【請求項20】
特定のオーディオ・オブジェクトの時間/周波数タイルを再構成するときに使われる少なくとも一つの重み付けパラメータを生成するエンコーダであって、当該装置は:
前記特定のオーディオ・オブジェクトを含む少なくともN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号を受領するよう構成された受領コンポーネントであって、該受領コンポーネントはさらに、前記特定のオーディオ・オブジェクトを受領するよう構成されている、コンポーネントと;
計算ユニットとを有しており、前記計算ユニットは:
前記特定のオーディオ・オブジェクトのエネルギー・レベルを示す第一の量を計算する段階と;
前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応するエネルギー・レベルを示す第二の量を計算する段階であって、前記エンコーダ側近似は前記M個のダウンミックス信号の組み合わせである、段階と;
前記第一および第二の量に基づいて前記少なくとも一つの重み付けパラメータを計算する段階であって、前記少なくとも一つの重み付けパラメータは、前記特定のオーディオ・オブジェクトのデコーダ側近似および前記特定のオーディオ・オブジェクトの前記デコーダ側近似の脱相関されたバージョンに重み付けするためのものである、段階とを実行するよう構成されている、
エンコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2013年5月24日に出願された米国仮特許出願第61/827,268号の優先権を主張する。同出願の内容はここに参照によってその全体において組み込まれる。
【0002】
技術分野
本開示は概括的にはオーディオ符号化に関する。特に、本開示はオーディオ符号化システムにおける、オーディオ・オブジェクトの脱相関のための重み付け因子の使用および計算に関する。
【0003】
本開示は、本願と同日に出願された、「オーディオ・シーンの符号化」という名称の、Heiko Pumhagenらを発明者とする米国仮出願第61/827,246号に関する。参照された出願はここに参照によってその全体において含められる。
【背景技術】
【0004】
通常のオーディオ・システムでは、チャネル・ベースのアプローチが用いられる。各チャネルはたとえば、一つのスピーカーまたは一つのスピーカー・アレイのコンテンツを表わしてもよい。そのようなシステムのための可能な符号化方式は、離散的なマルチチャネル符号化またはMPEGサラウンドのようなパラメトリック符号化を含む。
【0005】
より最近は、新たなアプローチが開発されている。このアプローチはオブジェクト・ベースである。オブジェクト・ベースのアプローチを用いるシステムでは、三次元のオーディオ・シーンが、関連付けられた位置メタデータをもつオーディオ・オブジェクトによって表現される。これらのオーディオ・オブジェクトは、オーディオ信号の再生中に三次元シーン内を動き回る。システムはさらに、いわゆるベッド・チャネルを含んでいてもよい。ベッド・チャネルは、たとえば上記のような通常のオーディオ・システムのスピーカー位置に直接マッピングされる静的なオーディオ・オブジェクトとして記述されてもよい。そのようなシステムのデコーダ側では、オブジェクト/ベッド・チャネルは、ダウンミックス信号およびアップミックスもしくは再構成行列を使って再構成されてもよい。ここで、オブジェクト/ベッド・チャネルは、再構成行列における対応する要素の値に基づいてダウンミックス信号の線形結合を形成することによって再構成される。
【0006】
低い目標ビットレートにおいて特に、オブジェクト・ベースのオーディオ・システムにおいて生じうる問題は、デコードされたオブジェクト/ベッド・チャネルの間の相関がエンコードされたもとのオブジェクト/ベッド・チャネルについてよりも大きくなることがあるということである。そのような問題を解決し、オーディオ・オブジェクトの再構成を改善するための、たとえばMPEG SAOCにおけるような一般的なアプローチは、デコーダに脱相関器を導入することである。MPEG SAOCでは、導入された脱相関は、オーディオ・オブジェクトの指定されたレンダリングが与えられたときに、すなわち、どんな型の再生ユニットがオーディオ・システムに接続されているかに依存して、オーディオ・オブジェクト間の正しい相関を復元することをねらいとする。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】J. Engdegard, H. Purnhagen, J. Roeden, L. Liljeryd、"Synthetic ambience in parametric stereo coding"、AES 116th Convention, Berlin, DE, May 2004
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、オブジェクト・ベースのオーディオ・システムのための既知の方法は、ダウンミックス信号の数およびオブジェクト/ベッド・チャネルの数に敏感であり、さらに、オーディオ・オブジェクトのレンダリングに依存する複雑な動作であることがある。したがって、そのようなシステムにおいてデコーダにおいて導入される脱相関の量を制御し、それによりオーディオ・オブジェクトの改善された再構成を許容するための簡単で柔軟な方法が必要とされている。
【図面の簡単な説明】
【0009】
例示的な実施形態について、ここで、付属の図面を参照して述べる。
図1】ある例示的実施形態に基づく、オーディオ・デコード・システムの一般化されたブロック図である。
図2図1のオーディオ・デコード・システムによって再構成行列および重み付けパラメータが受領されるフォーマットを例として示す図である。
図3】オーディオ・デコード・システムにおける脱相関処理において使用される少なくとも一つの重み付けパラメータを生成するためのオーディオ・エンコーダの一般化されたブロック図である。
図4】前記少なくとも一つの重み付けパラメータを生成するための図3のエンコーダの一部の一般化されたブロック図である。
図5】a〜cは、図4のエンコーダの前記一部において使用されるマッピング関数を例として示す図である。 すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すのみである。一方、他の部分は省略されたり示唆されるだけであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図面における同様の部分を指す。
【発明を実施するための形態】
【0010】
上記に鑑み、導入される脱相関の、より複雑でない、より柔軟な制御を提供し、それによりオーディオ・オブジェクトの改善された再構成を許容するエンコーダおよびデコーダならびに関連する方法を提供することが目的である。
【0011】
〈I.概観――デコーダ〉
第一の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもつことがある。
【0012】
例示的実施形態によれば、N個のオーディオ・オブジェクトの時間/周波数タイルを再構成する方法が提供される。本方法は:M個のダウンミックス信号を受領する段階と;前記M個のダウンミックス信号から前記N個のオーディオ・オブジェクトの近似の再構成を可能にする再構成行列を受領する段階と;N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号に前記再構成行列を適用する段階と;少なくとも一つの脱相関されたオーディオ・オブジェクトを生成するために、前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかける段階であって、前記少なくとも一つの脱相関されたオーディオ・オブジェクトのそれぞれは前記N個の近似されたオーディオ・オブジェクトの一つに対応する、段階と;対応する脱相関されたオーディオ・オブジェクトをもたない前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、前記近似されたオーディオ・オブジェクトによって再構成する段階と;対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、第一の重み付け因子および第二の重み付け因子を表わす少なくとも一つの重み付けパラメータを受領し、前記第一の重み付け因子によって前記近似されたオーディオ・オブジェクトを重み付けし、前記第二の重み付け因子によって前記近似されたオーディオ・オブジェクトに対応する前記脱相関されたオーディオ・オブジェクトを重み付けし、重み付けされた近似されたオーディオ・オブジェクトを対応する重み付けされた脱相関されたオーディオ・オブジェクトと組み合わせることによって、再構成する段階とを含む、方法が提供される。
【0013】
オーディオ・エンコード/デコード・システムは典型的には、たとえば入力オーディオ信号に好適なフィルタ・バンクを適用することによって、時間周波数空間を時間/周波数タイルに分割する。時間/周波数タイルというのは、一般に、ある時間区間および周波数サブバンドに対応する時間周波数空間の一部を意味する。時間区間は典型的には、オーディオ・エンコード/デコード・システムにおいて使われる時間フレームの継続時間に対応してもよい。周波数サブバンドは典型的には、エンコード/デコード・システムにおいて使われるフィルタ・バンクによって定義される一つまたはいくつかの近隣の周波数サブバンドに対応してもよい。周波数サブバンドがフィルタ・バンクによって定義されるいくつかの近隣の周波数サブバンドに対応する場合には、これはオーディオ信号のデコード・プロセスにおける非一様な周波数サブバンドを、たとえばオーディオ信号のより高い周波数についてはより幅広い周波数サブバンドをもつことを許容する。オーディオ・エンコード/デコード・システムが周波数範囲全体で動作するブロードバンドの場合には、時間/周波数タイルの周波数サブバンドは周波数範囲全体に対応してもよい。上記の方法は、N個のオーディオ・オブジェクトのそのような時間/周波数タイルを再構成するための諸段階を開示している。しかしながら、本方法は、オーディオ・デコード・システムの各時間/周波数タイルについて繰り返されてもよい。いくつかの時間/周波数タイルが同時にエンコードされてもよいことも理解される。典型的には、隣り合う時間/周波数タイルは時間および/または周波数において少し重複していてもよい。たとえば、時間における重複は、時間における、すなわちある時間区間から次への、再構成行列の要素の線形補間と等価である。しかしながら、本開示はエンコード/デコード・システムの他の部分をターゲットとするものであり、隣り合う時間/周波数タイルの間の時間および/または周波数における重複は当業者が実装するに任せられる。
【0014】
本稿での用法では、ダウンミックス信号は、一つまたは複数のベッド・チャネルおよび/またはオーディオ・オブジェクトの組み合わせである信号である。
【0015】
上記の方法は、N個のオーディオ・オブジェクトの時間/周波数タイルを再構成する柔軟かつ単純な方法であって、近似されるN個のオーディオ・オブジェクトの間の望まれない相関が軽減されるものを提供する。近似されたオーディオ・オブジェクトについて一つ、脱相関されたオーディオ・オブジェクトについて一つの二つの重み付け因子を使うことにより、導入される脱相関の量の柔軟な制御を許容する単純なパラメータ化が達成される。
【0016】
さらに、本方法における単純なパラメータ化は再構成されたオーディオ・オブジェクトがどの型のレンダリングにかけられるかに依存しない。この利点は、どんな型の再生ユニットが本方法を実装するオーディオ・デコード・システムに接続されているかとは独立に、同じ方法が使用され、オーディオ・デコード・システムがより複雑でなくなるということである。
【0017】
ある実施形態によれば、対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについて、前記少なくとも一つの重み付けパラメータは、前記第一の重み付け因子および前記第二の重み付け因子を導出できるもとになる単一の重み付けパラメータを含む。
【0018】
この利点は、オーディオ・デコード・システムに導入される脱相関の量を制御するための単純なパラメータ化が提案されるということである。このアプローチは、オブジェクトおよび時間/周波数タイル毎に「ドライな」(脱相関されていない)および「ウェットな」(脱相関された)寄与の混合を記述する単一のパラメータを使う。単一のパラメータを使うことによって、いくつかのパラメータ、たとえばウェットな寄与を記述するものとドライな寄与を記述するものを使うことに比べて、必要とされるビットレートが低減されうる。
【0019】
ある実施形態によれば、第一の重み付け因子および第二の重み付け因子の平方和は1に等しい。この場合、単一の重み付けパラメータは、第一の重み付け因子または第二の重み付け因子を含む。これは、オブジェクトおよび時間/周波数タイル毎のドライおよびウェットな寄与の混合を記述するための単一の重み付け因子を実装する単純な仕方である。さらに、これは、再構成されるオブジェクトが近似されるオブジェクトと同じエネルギーをもつことを意味する。
【0020】
ある実施形態によれば、前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかける段階は、前記N個の近似されたオーディオ・オブジェクトのそれぞれを脱相関プロセスにかけることを含み、それにより、前記N個の近似されたオーディオ・オブジェクトのそれぞれは脱相関されたオーディオ・オブジェクトに対応する。これは、再構成されたオーディオ・オブジェクトの間の望まれない相関をさらに低減しうる。すべての再構成されたオーディオ・オブジェクトが脱相関されたオーディオ・オブジェクトと近似されたオーディオ・オブジェクトとの両方に基づいているからである。
【0021】
ある実施形態によれば、第一および第二の重み付け因子は、時間および周波数可変である。結果として、異なる時間/周波数タイルについて異なる量の脱相関が導入されうるという点で、オーディオ・デコード・システムの柔軟性が高められうる。これは、再構成されたオーディオ・オブジェクトの間の望まれない相関をさらに低減するとともに、再構成されたオーディオ・オブジェクトの品質を改善しうる。
【0022】
ある実施形態によれば、再構成行列は時間および周波数可変である。それにより、ダウンミックス信号からオーディオ・オブジェクトを再構成または近似するために使われるパラメータが、異なる時間/周波数タイルについて変わりうるという点で、オーディオ・デコード・システムの柔軟性が高められる。
【0023】
もう一つの実施形態によれば、受領時の再構成行列および前記少なくとも一つの重み付けパラメータはフレーム内に配置されている。再構成行列は、第一のフォーマットを使ってフレームの第一のフィールド内に配置され、前記少なくとも一つの重み付けパラメータは第二のフォーマットを使ってフレームの第二のフィールドに配置され、それにより、第一のフォーマットをサポートするだけのデコーダが、第一のフィールド中の再構成行列をデコードして第二のフィールド中の前記少なくとも一つの重み付けパラメータを破棄することを許容する。このように、脱相関を実装しないデコーダとの互換性が達成されうる。
【0024】
ある実施形態によれば、本方法はさらに、L個の補助信号を受領することを含んでいてもよい。ここで、再構成行列はさらに、M個のダウンミックス信号およびL個の補助信号から前記N個のオーディオ・オブジェクトの近似の再構成を可能にする。本方法はさらに、N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号および前記L個の補助信号に前記再構成行列を適用することを含む。L個の補助信号はたとえば、再構成されるべきN個のオーディオ・オブジェクトのうちの一つに等しい少なくとも一つのL補助信号を含んでいてもよい。これは、特定の再構成されるオーディオ・オブジェクトの品質を高めうる。これは、再構成されるべきN個のオーディオ・オブジェクトのうちの一つが、特に重要なオーディオ信号の一部を表わす場合、たとえばドキュメンタリーにおいて話者の声を表わすオーディオ・オブジェクトの場合に有利でありうる。ある実施形態によれば、L個の補助信号のうちの少なくとも一つは、再構成されるべきN個のオーディオ・オブジェクトのうちの少なくとも二つの組み合わせであり、それによりビットレートと品質との間の妥協を提供する。
【0025】
ある実施形態によれば、M個のダウンミックス信号は超平面を張り、L個の補助信号のうちの少なくとも一つはM個のダウンミックス信号によって張られる超平面内にない。それにより、L個の補助信号のうちの一つまたは複数は、M個のダウンミックス信号のどれにも含まれない信号次元を表わしてもよい。結果として、再構成されるオーディオ・オブジェクトの品質は増大しうる。ある実施形態では、L個の補助信号のうちの少なくとも一つは、M個のダウンミックス信号によって張られる超平面と直交する。こうして、L個の補助信号のうちの前記一つまたは複数の補助信号の信号全体は、M個のダウンミックス信号のどれにも含まれないオーディオ信号の部分を表わす。これは、再構成されたオーディオ・オブジェクトの品質を高め、同時に、必要とされるビットレートを低減しうる。L個の補助信号のうちの前記少なくとも一つは、M個のダウンミックス信号のいずれかにすでに存在しているいかなる情報も含まないからである。
【0026】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに上記第一の側面の任意の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0027】
例示的実施形態によれば、N個のオーディオ・オブジェクトの時間/周波数タイルを再構成する装置であって:M個のダウンミックス信号を受領するよう構成された第一の受領コンポーネントと;前記M個のダウンミックス信号から前記N個のオーディオ・オブジェクトの近似の再構成を可能にする再構成行列を受領するよう構成された第二の受領コンポーネントと;N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号に前記再構成行列を適用するよう構成されている、前記第一および第二の受領コンポーネントの下流に配置されたオーディオ・オブジェクト近似コンポーネントと;少なくとも一つの脱相関されたオーディオ・オブジェクトを生成するために、前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかけるよう構成された、前記オーディオ・オブジェクト近似コンポーネントの下流に配置された脱相関コンポーネントであって、前記少なくとも一つの脱相関されたオーディオ・オブジェクトのそれぞれは前記N個の近似されたオーディオ・オブジェクトの一つに対応する、コンポーネントとを有し;前記第二の受領コンポーネントは、対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについて、第一の重み付け因子および第二の重み付け因子を表わす少なくとも一つの重み付けパラメータを受領するようさらに構成されており、当該装置はさらに、前記オーディオ・オブジェクト近似コンポーネント、前記脱相関コンポーネントおよび前記第二の受領コンポーネントの下流に配置されたオーディオ・オブジェクト再構成コンポーネントを有しており、前記オーディオ・オブジェクト再構成コンポーネントは:対応する脱相関されたオーディオ・オブジェクトをもたない前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、前記近似されたオーディオ・オブジェクトによって再構成し;対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、前記第一の重み付け因子によって前記近似されたオーディオ・オブジェクトを重み付けし、前記第二の重み付け因子によって前記近似されたオーディオ・オブジェクトに対応する前記脱相関されたオーディオ・オブジェクトを重み付けし、重み付けされた近似されたオーディオ・オブジェクトを対応する重み付けされた脱相関されたオーディオ・オブジェクトと組み合わせることによって、再構成するよう構成されている、装置が提供される。
【0028】
〈II.概観――エンコーダ〉
第二の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもつことがある。
【0029】
例示的実施形態によれば、少なくとも一つの重み付けパラメータを生成するエンコーダにおける方法であって、前記少なくとも一つの重み付けパラメータは、特定のオーディオ・オブジェクトの重み付けされたデコーダ側近似を、デコーダ側近似された特定のオーディオ・オブジェクトの対応する重み付けされた脱相関されたバージョンと組み合わせることによって該特定のオーディオ・オブジェクトの時間/周波数タイルを再構成するときにデコーダにおいて使用されるものであり、当該方法は:前記特定のオーディオ・オブジェクトを含む少なくともN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号を受領する段階と;前記特定のオーディオ・オブジェクトを受領する段階と;前記特定のオーディオ・オブジェクトのエネルギー・レベルを示す第一の量を計算する段階と;前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応するエネルギー・レベルを示す第二の量を計算する段階であって、前記エンコーダ側近似は前記M個のダウンミックス信号の組み合わせである、段階と;前記第一および第二の量に基づいて前記少なくとも一つの重み付けパラメータを計算する段階とを含む、方法が提供される。
【0030】
上記の方法は、一つの時間/周波数タイルの間に特定のオーディオ・オブジェクトについて少なくとも一つの重み付けパラメータを生成する諸段階を開示している。しかしながら、本方法は、オーディオ・エンコード/デコード・システムの各時間/周波数タイルについておよび各オーディオ・オブジェクトについて反復されてもよいことは理解される。
【0031】
オーディオ・エンコード・システムにおけるタイリング、すなわちオーディオ信号/オブジェクトの時間/周波数タイルへの分割は、オーディオ・デコード・システムにおけるタイリングと同じである必要はないことを注意しておいてもよいだろう。
【0032】
また、特定のオーディオ・オブジェクトのデコーダ側近似および特定のオーディオのエンコーダ側近似は異なる近似であることができ、あるいは同じ近似であることができることも注意しておいてもよいだろう。
【0033】
要求されるビットレートを減らし、複雑さを低減するために、前記少なくとも一つの重み付けパラメータは、第一の重み付け因子および第二の重み付け因子が導出されうるもとになる単一の重み付けパラメータを含んでいてもよい。前記第一の重み付け因子は、特定のオーディオ・オブジェクトのデコーダ側近似の重み付けのためであり、前記第二の重み付け因子は、デコーダ側近似されたオーディオ・オブジェクトの脱相関されたバージョンを重み付けするためである。
【0034】
デコーダ側で、特定のオーディオの前記デコーダ側近似および前記デコーダ側近似されたオーディオ・オブジェクトの脱相関されたバージョンを含む再構成されたオーディオ・オブジェクトにエネルギーが追加されるのを防止するために、第一の重み付け因子および第二の重み付け因子の平方和は1に等しくてもよい。この場合、前記単一の重み付けパラメータは、第一の重み付け因子または第二の重み付け因子のいずれかを含んでいてもよい。
【0035】
ある実施形態によれば、少なくとも一つの重み付けパラメータを計算する段階は、前記第一の量および前記第二の量を比較することを含む。たとえば、近似された特定のオーディオ・オブジェクトのエネルギーおよび特定のオーディオ・オブジェクトのエネルギーが比較されてもよい。
【0036】
例示的実施形態によれば、前記第一の量および前記第二の量を比較することは、前記第二の量と前記第一の量の間の比を計算し、その比をα乗し、α乗された比を使って前記重み付けパラメータを計算することを含む。これは、エンコーダの柔軟性を高めうる。パラメータαは2に等しくてもよい。
【0037】
例示的実施形態によれば、α乗された比は、α乗された比を前記少なくとも一つの重み付けパラメータにマッピングする増加関数にかけられる。
【0038】
例示的実施形態によれば、前記第一および第二の重み付け因子は時間および周波数可変である。
【0039】
例示的実施形態によれば、エネルギー・レベルを示す前記第二の量は、前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応し、前記エンコーダ側近似は前記M個のダウンミックス信号およびL個の補助信号の線形結合であり、前記ダウンミックス信号および前記補助信号は前記N個のオーディオ・オブジェクトから形成される。デコーダ側でのオーディオ・オブジェクトの再構成を改善するために、補助信号がオーディオ・エンコード/デコード・システムに含められてもよい。
【0040】
ある例示的実施形態によれば、前記L個の補助信号のうちの少なくとも一つは、ダイアログを表わすオーディオ・オブジェクトのような特に重要なオーディオ・オブジェクトに対応してもよい。このように、前記L個の補助信号の少なくとも一つは、前記N個のオーディオ・オブジェクトの一つに等しくてもよい。さらなる実施形態によれば、前記L個の補助信号の少なくとも一つは、前記N個のオーディオ・オブジェクトのうちの少なくとも二つの組み合わせである。
【0041】
諸実施形態によれば、前記M個のダウンミックス信号は超平面を張り、前記L個の補助信号のうちの少なくとも一つはM個のダウンミックス信号によって張られる超平面内にない。つまり、L個の補助信号のうちの少なくとも一つは、M個のダウンミックス信号を生成する工程において失われたオーディオ・オブジェクトの信号次元を表わす。これは、デコーダ側でのオーディオ・オブジェクトの再構成を改善しうる。さらなる実施形態によれば、L個の補助信号のうちの前記少なくとも一つは、M個のダウンミックス信号によって張られる超平面と直交する。
【0042】
例示的実施形態によれば、処理機能をもつ装置上で実行されたときに上記第二の側面の任意の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体が提供される。
【0043】
ある実施形態によれば、少なくとも一つの重み付けパラメータを生成するエンコーダであって、前記少なくとも一つの重み付けパラメータは、特定のオーディオ・オブジェクトの重み付けされたデコーダ側近似を、デコーダ側近似された特定のオーディオ・オブジェクトの対応する重み付けされた脱相関されたバージョンと組み合わせることによって該特定のオーディオ・オブジェクトの時間/周波数タイルを再構成するときにデコーダにおいて使用されるものであり、当該装置は:前記特定のオーディオ・オブジェクトを含む少なくともN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号を受領するよう構成された受領コンポーネントであって、該受領コンポーネントはさらに、前記特定のオーディオ・オブジェクトを受領するよう構成されている、コンポーネントと;前記特定のオーディオ・オブジェクトのエネルギー・レベルを示す第一の量を計算し;前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応するエネルギー・レベルを示す第二の量を計算し、前記エンコーダ側近似は前記M個のダウンミックス信号の組み合わせであり;前記第一および第二の量に基づいて前記少なくとも一つの重み付けパラメータを計算するよう構成されている計算ユニットとを有する、装置が提供される。
【実施例】
【0044】
図1は、N個のオーディオ・オブジェクトを再構成するためのオーディオ・デコード・システム100の一般化されたブロック図を示している。オーディオ・デコード・システム100は、時間/周波数分解された処理を実行する。つまり、個々の時間/周波数タイルに対して作用して、N個のオーディオ・オブジェクトを再構成する。以下では、N個のオーディオ・オブジェクトの一つの時間/周波数タイルを再構成するためのシステム100の処理が記載される。N個のオーディオ・オブジェクトは一つまたは複数のオーディオ・オブジェクトであってもよい。
【0045】
システム100は、M個のダウンミックス信号106を受領するよう構成された第一の受領コンポーネント102を有する。M個のダウンミックス信号は一つまたは複数のダウンミックス信号であってもよい。M個のダウンミックス信号106はたとえば、ドルビー・デジタル・プラス、MPEGまたはAACのような確立された音デコード・システムと後方互換な5.1または7.1サラウンド信号であってもよい。他の実施形態では、M個のダウンミックス信号106は後方互換ではない。第一の受領コンポーネント102への入力信号は、受領コンポーネントがそこからM個のダウンミックス信号106を抽出できるビット・ストリーム130であってもよい。
【0046】
システム100はさらに、M個のダウンミックス信号106からN個のオーディオ・オブジェクトの近似の再構成を可能にする再構成行列104を受領するよう構成された第二の受領コンポーネント112を有する。再構成行列104はアップミックス行列と呼ばれることもある。第二の受領コンポーネント112への入力信号126は、該受領コンポーネントがそこから再構成行列104またはその要素ならびにのちに詳細に説明する追加的情報を抽出できるビット・ストリーム126であってもよい。オーディオ・デコード・システム100のいくつかの実施形態では、第一の受領コンポーネント102および第二の受領コンポーネント112は、単一の受領コンポーネントに組み合わされる。いくつかの実施形態では、入力信号130、126は単一の入力信号に組み合わされ、該単一の入力信号は、受領コンポーネント102、112がその単一の入力信号から異なる情報を抽出することを許容するフォーマットをもつビット・ストリームであってもよい。
【0047】
システム100はさらに、N個の近似されたオーディオ・オブジェクト110を生成するために前記M個のダウンミックス信号106に前記再構成行列104を適用するよう構成されている、前記第一102および第二112の受領コンポーネントの下流に配置されたオーディオ・オブジェクト近似コンポーネント108を有していてもよい。より具体的には、オーディオ・オブジェクト近似コンポーネント108は、再構成行列104にM個のダウンミックス信号を含むベクトルが乗算される行列演算を実行してもよい。再構成行列は時間および周波数変化してもよい。すなわち、再構成行列104における要素の値は各時間/周波数タイルについて異なっていてもよい。このように、再構成行列104の要素は、どの時間/周波数タイルが現在処理されているかに依存してもよい。
【0048】
周波数kおよび時間スロットl、すなわち時間/周波数タイルにおける近似された
【数1】
オーディオ・オブジェクトnはたとえば、オーディオ・オブジェクト近似コンポーネント108において、たとえば周波数帯域b(b=1,…,B)内のすべての周波数サンプルkについて
【数2】
によって計算される。ここで、cm,b,nは周波数帯域bにおけるオブジェクトnの、ダウンミックス・チャネルYmに関連付けられた再構成係数である。再構成係数cm,b,nは、当該時間/周波数タイル上では固定されていると想定されるが、さらなる実施形態では該係数は時間/周波数タイルの間に変化してもよいことを注意してもよいであろう。
【0049】
システム100はさらに、オーディオ・オブジェクト近似コンポーネント108の下流に配置された脱相関コンポーネント118を有する。脱相関コンポーネント118は、少なくとも一つの脱相関されたオーディオ・オブジェクト136を生成するために、前記N個の近似されたオーディオ・オブジェクト110の少なくとも部分集合140を脱相関プロセスにかけるよう構成されている。つまり、N個の近似されたオーディオ・オブジェクト110の全部または一部だけが脱相関プロセスにかけられてもよい。前記少なくとも一つの脱相関されたオーディオ・オブジェクト136のそれぞれは前記N個の近似されたオーディオ・オブジェクト110の一つに対応する。より正確には、脱相関されたオーディオ・オブジェクト136の集合は、脱相関プロセス118に入力される、近似されたオーディオ・オブジェクトの集合140に対応する。前記少なくとも一つの脱相関されたオーディオ・オブジェクト136の目的は、N個の近似されたオーディオ・オブジェクト110の間の望まれない相関を低減することである。この望まれない相関は、特に、オーディオ・デコード・システム100を含むオーディオ・システムの低目標ビットレートにおいて現われうる。低目標ビットレートでは、再構成行列は疎になることがある。つまり、再構成行列の要素の多くが0になることがある。この場合、特定の近似されたオーディオ・オブジェクト110は、M個のダウンミックス信号106からの単一のダウンミックス信号または若干数のダウンミックス信号に基づくことがあり、近似されたオーディオ・オブジェクト110の間の望まれない相関を導入するリスクを高める。いくつかの実施形態によれば、N個の近似されたオーディオ・オブジェクト110のそれぞれが脱相関コンポーネント118によって脱相関プロセスにかけられてもよい。それにより、N個の近似されたオーディオ・オブジェクト110のそれぞれが、脱相関されたオーディオ・オブジェクト136に対応する。
【0050】
脱相関コンポーネント118によって脱相関プロセスにかけられる前記N個の近似されたオーディオ・オブジェクト110のそれぞれは、異なる脱相関プロセスにかけられてもよい。これはたとえば、脱相関される近似されたオーディオ・オブジェクトに白色雑音フィルタを適用することによる、あるいは全域通過フィルタリングのような他の任意の好適な脱相関プロセスを適用することによる。
【0051】
さらなる脱相関プロセスの例は、MPEGパラメトリック・ステレオ符号化ツール(ISO/IEC14496-3および非特許文献1の論文に記載されているHE-AAC v2において使われている)、MPEGサラウンド(ISO/IEC23003-1)およびMPEG SAOC(ISO/IEC23003-2)に見出すことができる。
【0052】
望まれない相関を導入しないために、前記異なる脱相関プロセスは互いに脱相関している。他の実施形態によれば、近似されたオーディオ・オブジェクト110のいくつかまたは全部が同じ脱相関プロセスにかけられる。
【0053】
システム100はさらに、オーディオ・オブジェクト再構成コンポーネント128を有する。オブジェクト再構成コンポーネント128は、オーディオ・オブジェクト近似コンポーネント108、脱相関コンポーネント118および第二の受領コンポーネント112の下流に配置される。オブジェクト再構成コンポーネント128は、対応する脱相関されたオーディオ・オブジェクト136をもたない前記N個の近似されたオーディオ・オブジェクトのそれぞれ138については、そのオーディオ・オブジェクト142の時間/周波数タイルを、前記近似されたオーディオ・オブジェクト138によって再構成するよう構成されている。つまり、ある近似されたオーディオ・オブジェクト138が脱相関プロセスにかけられない場合、それは単に、オーディオ・オブジェクト近似コンポーネント108によって提供される近似されたオーディオ・オブジェクト110として再構成される。オブジェクト再構成コンポーネント128はさらに、対応する脱相関されたオーディオ・オブジェクト136をもつ前記N個の近似されたオーディオ・オブジェクト110のそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、脱相関されたオーディオ・オブジェクト136と対応する近似されたオーディオ・オブジェクト110との両方を使って再構成するよう構成される。
【0054】
このプロセスを容易にするために、第二の受領コンポーネント112はさらに、対応する脱相関されたオーディオ・オブジェクト136をもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについて、少なくとも一つの重み付けパラメータ132を受領するよう構成される。前記少なくとも一つの重み付けパラメータ132は、第一の重み付け因子116および第二の重み付け因子114を表わす。ドライ因子とも呼ばれる第一の重み付け因子116およびウェット因子とも呼ばれる第二の重み付け因子114は、前記少なくとも一つの重み付けパラメータ132から、ウェット/ドライ抽出器134によって導出される。第一および/または第二の重み付け因子116、114は時間および周波数変化してもよい。すなわち、重み付け因子116、114の値は、処理されるそれぞれの時間/周波数タイルについて異なっていてもよい。
【0055】
いくつかの実施形態では、前記少なくとも一つの重み付けパラメータ132は第一の重み付け因子116および第二の重み付け因子114を含む。いくつかの実施形態では、前記少なくとも一つの重み付けパラメータ132は、単一の重み付けパラメータを含む。その場合、ウェット/ドライ抽出器134は、その単一の重み付けパラメータ132から第一および第二の重み付け因子116、114を導出してもよい。たとえば、第一および第二の重み付け因子116、114は、それらの重み付け因子の一方が、ひとたび他方の重み付け因子がわかれば導出できるようなある種の関係を満たしてもよい。そのような関係の例は、第一の重み付け因子116と第二の重み付け因子114の平方和が1に等しいというものであってもよい。こうして、単一の重み付けパラメータ132が第一の重み付け因子116を含むなら、第二の重み付け因子114は、1から第一の重み付け因子116の二乗を引いたものの平方根として導出でき、その逆も成り立つ。
【0056】
第一の重み付け因子116は、近似されたオーディオ・オブジェクト110を重み付け122するために、すなわち近似されたオーディオ・オブジェクト110に乗算するために使われる。第二の重み付け因子114は、前記対応する脱相関されたオーディオ・オブジェクト136を重み付けするために、すなわち前記対応する脱相関されたオーディオ・オブジェクト136に乗算するために使われる。オーディオ・オブジェクト再構成コンポーネント128はさらに、重み付けされた近似されたオーディオ・オブジェクト150を対応する重み付けされた脱相関されたオーディオ・オブジェクト152と、たとえば和を実行することによって組み合わせて124、対応するオーディオ・オブジェクト142の時間/周波数タイルを再構成するよう構成されている。
【0057】
換言すれば、各オブジェクトおよび各時間/周波数タイルについて、脱相関の量は、一つの重み付けパラメータ132によって制御されうる。ウェット/ドライ抽出器134において、この重み付けパラメータ132が、近似されたオブジェクト110に適用される重み因子116(wdry)および脱相関されたオブジェクト136に適用される重み因子114(wwet)に変換される。これらの重み因子の平方和は1である。すなわち、
wwet2+wdry2=1
これは、和124の出力である最終的なオブジェクト142は、対応する近似されたオブジェクト110と同じエネルギーをもつことを意味する。
【0058】
入力信号126、130が、脱相関を扱うことのできないオーディオ・デコーダ・システムによってデコードできるようにするために、すなわち、そのようなオーディオ・デコーダとの後方互換性を保持するために、入力信号126は、図2に描かれるようにフレーム202内に配置されてもよい。この実施形態によれば、再構成行列104は、第一のフォーマットを使ってフレーム202の第一のフィールド中に配置され、前記少なくとも一つの重み付けパラメータ132は第二のフォーマットを使ってフレーム202の第二のフィールド中に配置される。このようにして、第一のフォーマットを読むことはできるが第二のフォーマットは読むことができないデコーダは、任意の通常の仕方で、ダウンミックス信号106をアップミックスするために再構成行列104をデコードし、使用することができる。フレーム202の第二のフィールドはこの場合、破棄されてもよい。
【0059】
いくつかの実施形態によれば、図1のオーディオ・デコード・システム100はさらに、L個の補助信号144を、たとえば第一の受領コンポーネント102において受領してもよい。一つまたは複数のそのような補助信号があってもよい。すなわち、L≧1である。これらの補助信号144は入力信号130に含まれていてもよい。補助信号144は、上記に基づく後方互換性が維持されるような仕方で、すなわち、補助信号を扱うことのできないデコーダ・システムでも入力信号130からダウンミックス信号106を導出できるように、入力信号130に含まれていてもよい。再構成行列104はさらに、M個のダウンミックス信号106およびL個の補助信号144からN個のオーディオ・オブジェクト110の近似の再構成を可能にしうる。このように、オーディオ・オブジェクト近似コンポーネント108は、N個の近似されたオーディオ・オブジェクト110を生成するためにM個のダウンミックス信号106およびL個の補助信号144に再構成行列104を適用するよう構成されていてもよい。
【0060】
補助信号144の役割は、オーディオ・オブジェクト近似コンポーネント108におけるN個のオーディオ・オブジェクトの近似を改善することである。一例によれば、補助信号144のうちの少なくとも一つは、再構成されるべきN個のオーディオ・オブジェクトのうちの一つに等しい。その場合、その特定のオーディオ・オブジェクトを再構成するために使われる再構成行列104内のベクトルは、単一の0でないパラメータ、すなわち値1をもつパラメータを含むだけとなる。他の例によれば、L個の補助信号144のうちの少なくとも一つは、再構成されるべきN個のオーディオ・オブジェクトのうちの少なくとも二つの組み合わせである。
【0061】
いくつかの実施形態では、L個の補助信号は、N個のオーディオ・オブジェクトからM個のダウンミックス信号106を生成する工程における失われた情報であった、前記N個のオーディオ・オブジェクトの信号次元を表わしてもよい。これは、M個のダウンミックス信号106が信号空間において超平面を張り、L個の補助信号144がこの超平面内にないと言うことによって説明できる。たとえば、L個の補助信号144は、M個のダウンミックス信号106が張る超平面と直交してもよい。M個のダウンミックス信号106だけに基づくなら、上記超平面内にある信号しか再構成され得ない。すなわち、上記超平面内にないオーディオ・オブジェクトは、上記超平面内のオーディオ信号によって近似されることになる。再構成においてL個の補助信号144をさらに使うことによって、上記超平面内にない信号も再構成されうる。結果として、L個の補助信号をも使うことによって、オーディオ・オブジェクトの近似が改善されうる。
【0062】
図3は、例として、少なくとも一つの重み付けパラメータ320を生成するためのオーディオ・エンコーダ300の一般化されたブロック図を示している。前記少なくとも一つの重み付けパラメータ320はデコーダ、たとえば上記のオーディオ・デコード・システム100において、特定のオーディオ・オブジェクトの時間/周波数タイルを再構成するときに使用されるものである。該再構成は、特定のオーディオ・オブジェクトの重み付けされたデコーダ側近似(図1の参照符号150)を、デコーダ側近似された特定のオーディオ・オブジェクトの対応する重み付けされた脱相関されたバージョン(図1の参照符号152)と組み合わせることによる。
【0063】
エンコーダ300は、前記特定のオーディオ・オブジェクトを含む少なくともN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号を受領するよう構成された受領コンポーネント302を有する。受領コンポーネント302はさらに、特定のオーディオ・オブジェクト314を受領するよう構成されている。いくつかの実施形態では、受領コンポーネント302はL個の補助信号322を受領するようさらに構成されている。上記で論じたように、L個の補助信号322の少なくとも一つは、前記N個のオーディオ・オブジェクトのうちの一つに等しくてもよく、前記L個の補助信号322の少なくとも一つは、前記N個のオーディオ・オブジェクトのうちの少なくとも二つの組み合わせであってもよく、前記L個の補助信号322の少なくとも一つは、前記M個のダウンミックス信号のどれにも存在しない情報を含んでいてもよい。
【0064】
エンコーダ300はさらに、計算ユニット304を有する。計算ユニット304は、前記特定のオーディオ・オブジェクトのエネルギー・レベルを示す第一の量316を、たとえば第一エネルギー計算コンポーネント306において計算するよう構成されている。第一の量316は、前記特定のオーディオ・オブジェクトのノルムとして計算されてもよい。たとえば、第一の量316は、前記特定のオーディオ・オブジェクトのエネルギーに等しくてもよく、よって2ノルムQ1=||S||2によって計算されてもよい。ここで、Sは前記特定のオーディオ・オブジェクトを表わす。第一の量はまた、前記特定のオーディオ・オブジェクトのエネルギーを示す別の量、たとえばエネルギーの平方根として計算されてもよい。
【0065】
計算ユニット304はさらに、前記特定のオーディオ・オブジェクト314のエンコーダ側近似のエネルギー・レベルに対応するエネルギー・レベルを示す第二の量318を計算するよう構成されている。エンコーダ側近似はたとえば、前記M個のダウンミックス信号312の、線形結合などの組み合わせであってもよい。あるいはまた、エンコーダ側近似は、前記M個のダウンミックス信号312および前記L個の補助信号322の、線形結合などの組み合わせであってもよい。第二の量は、第二エネルギー計算コンポーネント308において計算されてもよい。
【0066】
次いで、エンコーダ側近似が、たとえば、非エネルギー整合アップミックス行列および前記Mダウンミックス信号312を使うことによって計算されてもよい。「非エネルギー整合」という用語は、本明細書のコンテキストでは、その特定のオーディオ・オブジェクトの近似がその特定のオーディオ・オブジェクト自身にエネルギー整合されないこと理解される。すなわち、近似は、その特定のオーディオ・オブジェクト314に比べて、異なる、しばしばより低いエネルギー・レベルをもつことになる。
【0067】
非エネルギー整合アップミックス行列は、種々のアプローチを使って生成されうる。たとえば、少なくとも前記N個のオーディオ・オブジェクトおよび前記M個のダウンミックス信号312(および可能性としては前記L個の補助信号322)を入力として取る最小平均平方誤差(MMSE: Minimum Mean Squared Error)予測アプローチが使用されることができる。これは、前記N個のオーディオ・オブジェクトの近似の平均平方誤差を最小にするアップミックス行列を見出すことをねらいとする逐次反復的なアプローチとして記述できる。特に、このアプローチは、前記N個のオーディオ・オブジェクトを、前記M個のダウンミックス信号312(および可能性としては前記L個の補助信号322)と乗算される候補アップミックス行列をもって近似し、近似を前記N個のオーディオ・オブジェクトと、平均平方誤差に関して比較する。平均平方誤差を最小にする候補アップミックス行列が、前記特定のオーディオ・オブジェクトのエンコーダ側近似を定義するために使われるアップミックス行列として選択される。
【0068】
MMSEアプローチが使われるとき、特定のオーディオ・オブジェクトSと近似されたオーディオ・オブジェクトS'との間の予測誤差eはSに直交する。つまり、
||S'||2+||e||2=||S||2
である。
【0069】
換言すれば、オーディオ・オブジェクトSのエネルギーは、近似されたオーディオ・オブジェクトのエネルギーと、予測誤差のエネルギーとの和に等しい。上記の関係のため、こうして予測誤差eのエネルギーは、エンコーダ側近似S'のエネルギーの指標を与える。
【0070】
結果として、第二の量318は、特定のオーディオ・オブジェクトの近似S'または予測誤差を使って計算されうる。第二の量は、特定のオーディオ・オブジェクトの近似S'のノルムまたは予測誤差eのノルムとして計算されてもよい。たとえば、第二の量は、2ノルムとして計算されてもよい。すなわち、Q2=||S'||2またはQ2=||e||2である。あるいはまた、第二の量は、近似された特定のオーディオ・オブジェクトのエネルギーを示す別の量、たとえば近似されたオーディオ・オブジェクトのエネルギーの平方根または予測誤差のエネルギーの平方根として計算されてもよい。
【0071】
計算ユニットはさらに、第一316および第二318の量に基づいて前記少なくとも一つの重み付けパラメータ320を、たとえばパラメータ計算コンポーネント310において計算するよう構成される。パラメータ計算コンポーネント310はたとえば、第一の量316および第二の量318を比較することによって前記少なくとも一つの重み付けパラメータ320を計算してもよい。例示的なパラメータ計算コンポーネント310についてここで図4および図5のa〜cとの関連で詳細に説明する。
【0072】
図4は、前記少なくとも一つの重み付けパラメータ320を生成するためのパラメータ計算コンポーネント310の一般化されたブロック図を例として示している。パラメータ計算コンポーネント310は、第一の量316および第二の量318を、たとえば比計算コンポーネント402において、第二の量318と第一の量316の比rを計算することによって、比較する。次いで、比はα乗される。すなわち、
r=(Q2/Q1α
ここで、Q2は第二の量318であり、Q1は第一の量316である。いくつかの実施形態によれば、Q2=||S'||でありQ1=||S||であるとき、αは2に等しい。すなわち、比rは、近似された特定のオーディオ・オブジェクトと特定のオーディオ・オブジェクトのエネルギーの比である。次いで、α乗された比406は、前記少なくとも一つの重み付けパラメータ320を計算するために、たとえばマッピング・コンポーネント404において使われる。マッピング・コンポーネント404はr 406を、rを前記少なくとも一つの重み付けパラメータ320にマッピングする増加関数にかける。そのような増加関数は図5のa〜cにおいて例示されている。図5のa〜cでは、横軸はr 406の値を表わし、縦軸は重み付けパラメータ320の値を表わす。この例では、重み付けパラメータ320は、図1における第一の重み付け因子116に対応する単一の重み付けパラメータである。
【0073】
一般に、マッピング関数についての原理は:
Q2≪Q1であれば、第一の重み付け因子は0に近づき、Q2〜Q1であれば第一の重み付け因子は1に近づく。
【0074】
図5のaは、0から1までの間のr 406の値について、rの値が重み付けパラメータ312の値と同じであるマッピング関数502を示している。1より大きなrの値については、重み付けパラメータ320の値は1となる。
【0075】
図5のbは、0から0.5までの間のr 406の値について、重み付けパラメータ320の値が0になるマッピング関数504を示している。1より大きなrの値については、重み付けパラメータ320の値は1となる。0.5から1までの間のrの値については、重み付けパラメータ320の値は(r−0.5)*2となる。
【0076】
図5のcは、図5のa〜bのマッピング関数を一般化する第三の代替的なマッピング関数506を示している。マッピング関数506は、少なくとも四つのパラメータb1、b2、β1およびβ2によって定義される。これら四つのパラメータは、デコーダ側での再構成されるオーディオ・オブジェクトの最良の知覚上の品質のために調整される定数であってもよい。一般に、出力オーディオ信号における脱相関の最大量を制限することが有益でありうる。脱相関された近似されたオーディオ・オブジェクトはしばしば、別個に聞いたとき、近似されたオーディオ・オブジェクトより貧弱な品質であるからである。b1を0より大きくなるよう設定することがこれを直接的に制御し、よって重み付けパラメータ320が(よって図1の第一の重み付け因子116も)すべての場合において0より大きくなることを保証しうる。b2を1より小さく設定することは、オーディオ・デコード・システム100からの出力において常にある最小レベルの脱相関エネルギーがあるという効果をもつ。換言すれば、図1における第二の重み付け因子114が常に0より大きくなる。β1は、オーディオ・デコード・システム100からの出力において加えられる脱相関の量を陰に制御するが、(b1に比べ)関わっているダイナミクスは異なる。同様に、β2は、オーディオ・デコード・システム100からの出力における脱相関の量を陰に制御する。
【0077】
rの値β1とβ2の間の曲がったマッピング関数が所望される場合には、定数であってもよい少なくとも一つのさらなるパラメータが必要とされる。
【0078】
〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
【0079】
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する当業者によって、開示される実施形態に対する変形が理解され、実施されることができる。請求項において、「有する/含む」の語は他の要素またはステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実がこれらの施策の組み合わせが有利に使用できないことを示すものではない。
【0080】
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。逆に、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働していくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様1〕
N個のオーディオ・オブジェクトの時間/周波数タイルを再構成する方法であって:
M個のダウンミックス信号を受領する段階と;
前記M個のダウンミックス信号からの前記N個のオーディオ・オブジェクトの近似の再構成を可能にする再構成行列を受領する段階と;
N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号に前記再構成行列を適用する段階と;
少なくとも一つの脱相関されたオーディオ・オブジェクトを生成するために、前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかける段階であって、前記少なくとも一つの脱相関されたオーディオ・オブジェクトのそれぞれは前記N個の近似されたオーディオ・オブジェクトの一つに対応する、段階と;
対応する脱相関されたオーディオ・オブジェクトをもたない前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、その近似されたオーディオ・オブジェクトによって再構成する段階と;
対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを:
第一の重み付け因子および第二の重み付け因子を表わす少なくとも一つの重み付けパラメータを受領し、
前記第一の重み付け因子によって前記近似されたオーディオ・オブジェクトを重み付けし、
前記第二の重み付け因子によって前記近似されたオーディオ・オブジェクトに対応する前記脱相関されたオーディオ・オブジェクトを重み付けし、
重み付けされた近似されたオーディオ・オブジェクトを対応する重み付けされた脱相関されたオーディオ・オブジェクトと組み合わせることによって、
再構成する段階とを含む、
方法。
〔態様2〕
対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについて、前記少なくとも一つの重み付けパラメータは、前記第一の重み付け因子および前記第二の重み付け因子を導出できるもとになる単一の重み付けパラメータを含む、態様1記載の方法。
〔態様3〕
前記第一の重み付け因子および前記第二の重み付け因子の平方和が1に等しく、前記単一の重み付けパラメータは、前記第一の重み付け因子または前記第二の重み付け因子を含む、態様2記載の方法。
〔態様4〕
前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかける段階は、前記N個の近似されたオーディオ・オブジェクトのそれぞれを脱相関プロセスにかけることを含み、それにより、前記N個の近似されたオーディオ・オブジェクトのそれぞれがある脱相関されたオーディオ・オブジェクトに対応する、態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記第一および第二の重み付け因子が時間および周波数可変である、態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
前記再構成行列が時間および周波数可変である、態様1ないし5のうちいずれか一項記載の方法。
〔態様7〕
受領時の前記再構成行列および前記少なくとも一つの重み付けパラメータはフレーム内に配置されており、前記再構成行列は、第一のフォーマットを使ってフレームの第一のフィールド内に配置され、前記少なくとも一つの重み付けパラメータは第二のフォーマットを使ってフレームの第二のフィールドに配置され、それにより、第一のフォーマットをサポートするだけのデコーダが、第一のフィールド中の前記再構成行列をデコードして第二のフィールド中の前記少なくとも一つの重み付けパラメータを破棄することを許容する、態様1ないし6のうちいずれか一項記載の方法。
〔態様8〕
L個の補助信号を受領する段階をさらに含んでおり、前記再構成行列はさらに、前記M個のダウンミックス信号および前記L個の補助信号から前記N個のオーディオ・オブジェクトの前記近似の再構成を可能にし、当該方法はさらに、前記N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号および前記L個の補助信号に前記再構成行列を適用することを含む、態様1ないし7のうちいずれか一項記載の方法。
〔態様9〕
前記L個の補助信号のうち少なくとも一つは、再構成されるべき前記N個のオーディオ・オブジェクトのうちの一つに等しい、態様8記載の方法。
〔態様10〕
前記L個の補助信号のうち少なくとも一つは、再構成されるべき前記N個のオーディオ・オブジェクトのうちの少なくとも二つの組み合わせである、態様8または9記載の方法。
〔態様11〕
前記M個のダウンミックス信号は超平面を張り、前記L個の補助信号のうちの少なくとも一つは前記M個のダウンミックス信号によって張られる超平面内にない、態様8ないし10のうちいずれか一項記載の方法。
〔態様12〕
前記L個の補助信号のうちの前記少なくとも一つは、前記M個のダウンミックス信号によって張られる超平面と直交する、態様11記載の方法。
〔態様13〕
処理機能をもつ装置上で実行されたときに態様1ないし11のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体。
〔態様14〕
N個のオーディオ・オブジェクトの時間/周波数タイルを再構成する装置であって:
M個のダウンミックス信号を受領するよう構成された第一の受領コンポーネントと;
前記M個のダウンミックス信号からの前記N個のオーディオ・オブジェクトの近似の再構成を可能にする再構成行列を受領するよう構成された第二の受領コンポーネントと;
N個の近似されたオーディオ・オブジェクトを生成するために前記M個のダウンミックス信号に前記再構成行列を適用するよう構成されている、前記第一および第二の受領コンポーネントの下流に配置されたオーディオ・オブジェクト近似コンポーネントと;
少なくとも一つの脱相関されたオーディオ・オブジェクトを生成するために、前記N個の近似されたオーディオ・オブジェクトの少なくとも部分集合を脱相関プロセスにかけるよう構成された、前記オーディオ・オブジェクト近似コンポーネントの下流に配置された脱相関コンポーネントであって、前記少なくとも一つの脱相関されたオーディオ・オブジェクトのそれぞれは前記N個の近似されたオーディオ・オブジェクトのうちの一つに対応する、コンポーネントとを有し;
前記第二の受領コンポーネントは、対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについて、第一の重み付け因子および第二の重み付け因子を表わす少なくとも一つの重み付けパラメータを受領するようさらに構成されており、
当該装置はさらに、
前記オーディオ・オブジェクト近似コンポーネント、前記脱相関コンポーネントおよび前記第二の受領コンポーネントの下流に配置されたオーディオ・オブジェクト再構成コンポーネントを有しており、前記オーディオ・オブジェクト再構成コンポーネントは:
対応する脱相関されたオーディオ・オブジェクトをもたない前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを、前記近似されたオーディオ・オブジェクトによって再構成し;
対応する脱相関されたオーディオ・オブジェクトをもつ前記N個の近似されたオーディオ・オブジェクトのそれぞれについては、そのオーディオ・オブジェクトの時間/周波数タイルを:
前記第一の重み付け因子によって前記近似されたオーディオ・オブジェクトを重み付けし、
前記第二の重み付け因子によって前記近似されたオーディオ・オブジェクトに対応する前記脱相関されたオーディオ・オブジェクトを重み付けし、
重み付けされた近似されたオーディオ・オブジェクトを対応する重み付けされた脱相関されたオーディオ・オブジェクトと組み合わせることによって、再構成するよう構成されている、装置。
〔態様15〕
少なくとも一つの重み付けパラメータを生成するための、エンコーダにおける方法であって、前記少なくとも一つの重み付けパラメータは、デコーダにおいて、特定のオーディオ・オブジェクトの重み付けされたデコーダ側近似を、デコーダ側近似された特定のオーディオ・オブジェクトの対応する重み付けされた脱相関されたバージョンと組み合わせることによって該特定のオーディオ・オブジェクトの時間/周波数タイルを再構成するときに使用されるものであり、当該方法は:
前記特定のオーディオ・オブジェクトを含む少なくともN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号を受領する段階と;
前記特定のオーディオ・オブジェクトを受領する段階と;
前記特定のオーディオ・オブジェクトのエネルギー・レベルを示す第一の量を計算する段階と;
前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応するエネルギー・レベルを示す第二の量を計算する段階であって、前記エンコーダ側近似は前記M個のダウンミックス信号の組み合わせである、段階と;
前記第一および第二の量に基づいて前記少なくとも一つの重み付けパラメータを計算する段階とを含む、
方法。
〔態様16〕
前記少なくとも一つの重み付けパラメータは、第一の重み付け因子および第二の重み付け因子が導出できるもとになる単一の重み付けパラメータを含み、前記第一の重み付け因子は、前記特定のオーディオ・オブジェクトのデコーダ側近似の重み付けのためであり、前記第二の重み付け因子は、デコーダ側近似されたオーディオ・オブジェクトの脱相関されたバージョンを重み付けするためである、態様15記載の方法。
〔態様17〕
前記第一の重み付け因子および前記第二の重み付け因子の平方和は1に等しく、前記単一の重み付けパラメータは、前記第一の重み付け因子または前記第二の重み付け因子のいずれかを含む、態様16記載の方法。
〔態様18〕
少なくとも一つの重み付けパラメータを計算する段階は、前記第一の量および前記第二の量を比較することを含む、態様15ないし17のうちいずれか一項記載の方法。
〔態様19〕
前記第一の量および前記第二の量を比較することは、前記第二の量と前記第一の量の間の比を計算し、その比をα乗し、前記重み付けパラメータを計算するために該α乗された比を使うことを含む、態様18記載の方法。
〔態様20〕
αが2に等しい、態様19記載の方法。
〔態様21〕
α乗された比は、α乗された比を前記少なくとも一つの重み付けパラメータにマッピングする増加関数にかけられる、態様19または20記載の方法。
〔態様22〕
前記第一および第二の重み付け因子は時間および周波数可変である、態様15ないし21のうちいずれか一項記載の方法。
〔態様23〕
エネルギー・レベルを示す前記第二の量は、前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応し、前記エンコーダ側近似は前記M個のダウンミックス信号およびL個の補助信号の線形結合であり、前記ダウンミックス信号および前記補助信号は前記N個のオーディオ・オブジェクトから形成される、態様15ないし22のうちいずれか一項記載の方法。
〔態様24〕
前記L個の補助信号のうちの少なくとも一つは、前記N個のオーディオ・オブジェクトのうちの一つに等しい、態様23記載の方法。
〔態様25〕
前記L個の補助信号のうちの少なくとも一つは、前記N個のオーディオ・オブジェクトのうちの少なくとも二つの組み合わせである、態様23または24記載の方法。
〔態様26〕
前記M個のダウンミックス信号は超平面を張り、前記L個の補助信号のうちの少なくとも一つは前記M個のダウンミックス信号によって張られる超平面内にない、態様23ないし25のうちいずれか一項記載の方法。
〔態様27〕
前記L個の補助信号のうちの前記少なくとも一つは、前記M個のダウンミックス信号によって張られる超平面と直交する、態様26記載の方法。
〔態様28〕
処理機能をもつ装置上で実行されたときに態様15ないし27のうちいずれか一項記載の方法を実行するよう適応されたコンピュータ・コード命令を有するコンピュータ可読媒体。
〔態様29〕
少なくとも一つの重み付けパラメータを生成するエンコーダであって、前記少なくとも一つの重み付けパラメータは、デコーダにおいて、特定のオーディオ・オブジェクトの重み付けされたデコーダ側近似を、デコーダ側近似された特定のオーディオ・オブジェクトの対応する重み付けされた脱相関されたバージョンと組み合わせることによって該特定のオーディオ・オブジェクトの時間/周波数タイルを再構成するときに使用されるものであり、当該装置は:
前記特定のオーディオ・オブジェクトを含む少なくともN個のオーディオ・オブジェクトの組み合わせであるM個のダウンミックス信号を受領するよう構成された受領コンポーネントであって、該受領コンポーネントはさらに、前記特定のオーディオ・オブジェクトを受領するよう構成されている、コンポーネントと;
計算ユニットとを有しており、前記計算ユニットは:
前記特定のオーディオ・オブジェクトのエネルギー・レベルを示す第一の量を計算する段階と;
前記特定のオーディオ・オブジェクトのエンコーダ側近似のエネルギー・レベルに対応するエネルギー・レベルを示す第二の量を計算する段階であって、前記エンコーダ側近似は前記M個のダウンミックス信号の組み合わせである、段階と;
前記第一および第二の量に基づいて前記少なくとも一つの重み付けパラメータを計算する段階とを実行するよう構成されている、
エンコーダ。
図1
図2
図3
図4
図5a
図5b
図5c