(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022173257
(43)【公開日】2022-11-18
(54)【発明の名称】QMFベースの処理データの時間整列
(51)【国際特許分類】
G10L 19/00 20130101AFI20221111BHJP
G10L 19/02 20130101ALI20221111BHJP
G10L 21/0388 20130101ALI20221111BHJP
【FI】
G10L19/00 330B
G10L19/02 160A
G10L21/0388
【審査請求】有
【請求項の数】7
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022142201
(22)【出願日】2022-09-07
(62)【分割の表示】P 2020200954の分割
【原出願日】2014-09-08
(31)【優先権主張番号】61/877,194
(32)【優先日】2013-09-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】61/909,593
(32)【優先日】2013-11-27
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】クヨーリング,クリストファー
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
(72)【発明者】
【氏名】ポップ,イェンス
(57)【要約】
【課題】オーディオ・エンコーダのエンコードされたデータの、スペクトル帯域複製(SBR)メタデータのような関連するメタデータとの時間整列を提供する。
【解決手段】受領されたデータ・ストリームのアクセス単位(110)からオーディオ信号(237)の再構成されたフレームを決定するよう構成されたオーディオ・デコーダ(100、300)が記述される。アクセス単位(110)は、波形データ(111)およびメタデータ(112)を含み、波形データ(111)およびメタデータ(112)はオーディオ信号(127)の同じ再構成されたフレームに関連付けられる。オーディオ・デコーダ(100、300)は、波形データ(111)から複数の波形サブバンド信号(123)を生成するよう構成された波形処理経路(101、102、103、104、105)と、メタデータ(111)から、デコードされたメタデータ(128)を生成するよう構成された、メタデータ処理経路(108、109)とを有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
オーディオ信号をデコードするためのオーディオ・デコーダ装置であって、当該装置は:
波形処理経路を処理するためのプロセッサであって、前記プロセッサは、前記オーディオ信号のアクセス単位から得られた波形データから少なくとも一つの波形信号を生成するよう構成されている、プロセッサと;
前記アクセス単位から得られたメタデータから、デコードされたメタデータを生成するよう構成されたメタデータ処理経路を処理するためのメタデータ・プロセッサであって、前記メタデータ処理経路は、デコードされたメタデータをある遅延だけ遅延させるよう構成されたメタデータ遅延ユニットを有しており、前記遅延は0より大きな値をもち、前記遅延の前記値は第一の整数である、メタデータ・プロセッサと;
前記少なくとも一つの波形信号からおよび前記デコードされたメタデータから前記オーディオ信号の再構成されたフレームを生成するよう構成されたメタデータ適用および合成ユニットとを有しており、
前記波形処理経路または前記メタデータ処理経路の少なくとも一方が、前記少なくとも一つの波形信号および前記デコードされたメタデータを時間整列させるよう構成された少なくとも一つの遅延ユニットを有する、
装置。
【請求項2】
フレーム長が960より大きい、請求項1記載の装置。
【請求項3】
前記波形処理経路の全体的な遅延が、メタデータ処理経路の全体的な遅延に対応するよう、少なくとも一つの波形信号および前記デコードされたメタデータが時間整列させられる、請求項1記載の装置。
【請求項4】
オーディオ信号をデコードする方法であって:
波形処理経路を使って、前記オーディオ信号のアクセス単位から得られた波形データから、該波形データからの少なくとも一つの波形信号を生成する段階と;
メタデータ処理経路を使って、前記アクセス単位から得られたメタデータから、デコードされたメタデータを生成する段階であって、前記メタデータ処理経路は、デコードされたメタデータをある遅延だけ遅延させるよう構成されたメタデータ遅延ユニットを有しており、前記遅延は0より大きな値をもち、前記遅延の前記値は第一の整数である、段階と;
メタデータ適用および合成ユニットを使って、前記少なくとも一つの波形信号からおよび前記デコードされたメタデータから前記オーディオ信号の再構成されたフレームを生成する段階とを含み、
前記波形処理経路または前記メタデータ処理経路の少なくとも一方が、前記少なくとも一つの波形信号および前記デコードされたメタデータを時間整列させるよう構成された少なくとも一つの遅延ユニットを有する、
方法。
【請求項5】
フレーム長が960より大きい、請求項4記載の方法。
【請求項6】
前記波形処理経路の全体的な遅延が、メタデータ処理経路の全体的な遅延に対応するよう、前記少なくとも一つの波形信号および前記デコードされたメタデータが時間整列させられる、請求項4記載の方法。
【請求項7】
プロセッサ上での実行のための、該プロセッサ上で実行されたときに請求項4に記載の方法を実行するように適応されている非一時的な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は2013年9月12日に出願された米国仮特許出願第61/877,194号および2013年11月27日に出願された米国仮特許出願第61/909,593号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。
【0002】
技術分野
本稿は、オーディオ・エンコーダのエンコードされたデータの、スペクトル帯域複製(SBR)、特に高効率(HE)先進オーディオ符号化(AAC)のメタデータのような関連するメタデータとの時間整列に関する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
オーディオ符号化のコンテキストにおける一つの技術的課題は、たとえば生ブロードキャストのようなリアルタイム用途を許容するために、低遅延を示すオーディオ・エンコードおよびデコード・システムを提供することである。さらに、他のビットストリームと接合されることのできるエンコードされたビットストリームを交換するオーディオ・エンコードおよびデコード・システムを提供することが望ましい。さらに、システムのコスト効率のよい実装を許容するために、計算効率のよいオーディオ・エンコードおよびデコード・システムが提供されるべきである。本稿は、レイテンシーを生ブロードキャストのために適切なレベルに維持しつつ、効率的な仕方で接合されることができるエンコードされたビットストリームを提供するという技術的課題に対処する。本稿は、合理的な程度の符号化遅延でのビットストリームの接合を許容し、それにより生ブロードキャストのような用途を可能にするオーディオ・エンコードおよびデコード・システムを記述する。ここで、ブロードキャストされるビットストリームは、複数の源ビットストリームから生成されうる。
【課題を解決するための手段】
【0004】
ある側面によれば、受領されたデータ・ストリームのアクセス単位からオーディオ信号の再構成されたフレームを決定するよう構成されたオーディオ・デコーダが記述される。典型的には、データ・ストリームは、オーディオ信号の再構成されたフレームのそれぞれのシーケンスを決定するためのアクセス単位のシーケンスを含む。オーディオ信号のフレームは、典型的には、前記オーディオ信号の、あらかじめ決定された数N個の時間領域サンプルを含む(Nは1より大きい)。アクセス単位のシーケンスは、対応して前記オーディオ信号のフレームのシーケンスを記述しうる。
【0005】
アクセス単位は、波形データおよびメタデータを含む。ここで、前記波形データおよび前記メタデータは前記オーディオ信号の同じ再構成されたフレームに関連付けられている。換言すれば、前記オーディオ信号の再構成されたフレームを決定するための前記波形データおよび前記メタデータは、同じアクセス単位内に含まれる。アクセス単位のシーケンスの各アクセス単位は、前記オーディオ信号の再構成されたフレームの前記シーケンスのそれぞれの再構成されたフレームを生成するための前記波形データおよび前記メタデータを含んでいてもよい。特に、特定のフレームのアクセス単位は、その特定のフレームについての再構成されたフレームを決定するために必要な(たとえばすべての)データを含んでいてもよい。
【0006】
一例では、特定のフレームのアクセス単位は、その特定のフレームの高域信号を、(前記アクセス単位の前記波形データ内に含まれる)その特定のフレームの低域信号に基づき、かつデコードされたメタデータに基づいて生成するために高周波再構成(HFR)方式を実行するために必要な(たとえばすべての)データを含んでいてもよい。
【0007】
代替的または追加的に、特定のフレームのアクセス単位は、その特定のフレームのダイナミックレンジの拡張を実行するために必要な(たとえばすべての)データを含んでいてもよい。特に、その特定のフレームの低域信号の拡張または拡大は、デコードされたメタデータに基づいて実行されてもよい。この目的のために、デコードされたメタデータは、一つまたは複数の拡張パラメータを含んでいてもよい。前記一つまたは複数の拡張パラメータは、前記特定のフレームに圧縮/拡張が適用されるか否か;マルチチャネル・オーディオ信号のすべてのチャネルについて均一な仕方で圧縮/拡張が適用されるかどうか(すなわち、マルチチャネル・オーディオ信号のすべてのチャネルについて同じ拡張利得(単数または複数)が適用されるかどうか、あるいはマルチチャネル・オーディオ信号の異なるチャネルについて異なる拡張利得(単数または複数)が適用されるかどうか);および/または拡張利得の時間分解能のうちの一つまたは複数を示していてもよい。
【0008】
アクセス単位のシーケンスであって、各アクセス単位が先行するまたは後続するアクセス単位とは独立に、前記オーディオ信号の対応する再構成されたフレームを生成するために必要なデータを含むようなものを提供することは、接合用途のために有益である。接合点での(たとえば、接合点の直後の)オーディオ信号の再構成されたフレームの知覚的な品質に影響することなく、二つの隣り合うアクセス単位の間でデータ・ストリームが接合されることを許容するからである。
【0009】
一例では、オーディオ信号の再構成されたフレームは、低域信号および高域信号を有する。ここで、前記波形データは前記低域信号を示す。前記メタデータは前記高域信号のスペクトル包絡を示す。前記低域信号は、相対的に低い周波数範囲(たとえば、あらかじめ決定されたクロスオーバー周波数より小さな周波数を含む)をカバーする前記オーディオ信号の成分に対応してもよい。前記高域信号は、相対的に高い周波数範囲(たとえば、前記あらかじめ決定されたクロスオーバー周波数より高い周波数を含む)をカバーする前記オーディオ信号の成分に対応してもよい。低域信号および高域信号は、低域信号および高域信号によってカバーされる周波数範囲に関して相補的であってもよい。オーディオ・デコーダは、メタデータおよび波形データを使って高域信号のスペクトル帯域複製(SBR)のような高周波再構成(HFR)を実行するよう構成されていてもよい。よって、メタデータは、高域信号のスペクトル包絡を示すHFRまたはSBRメタデータを含んでいてもよい。
【0010】
オーディオ・デコーダは、前記波形データから複数の波形サブバンド信号を生成するよう構成された波形処理経路を有していてもよい。前記複数の波形サブバンド信号は、サブバンド領域における(たとえば、QMF領域における)時間領域波形信号の表現に対応してもよい。時間領域波形信号は、上述した低域信号に対応してもよく、前記複数の波形サブバンド信号は複数の低域サブバンド信号に対応してもよい。さらに、オーディオ・デコーダは、前記メタデータから、デコードされたメタデータを生成するよう構成された、メタデータ処理経路を有していてもよい。
【0011】
さらに、オーディオ・デコーダは、前記複数の波形サブバンド信号からおよび前記デコードされたメタデータから前記オーディオ信号の前記再構成されたフレームを生成するよう構成されたメタデータ適用および合成ユニットを有していてもよい。特に、前記メタデータ適用および合成ユニットは、前記複数の波形サブバンド信号から(すなわち、その場合、前記複数の低域サブバンド信号から)および前記デコードされたメタデータから複数の(たとえばスケーリングされた)高域サブバンド信号を生成するためにHFRおよび/またはSBR方式を実行するよう構成されていてもよい。次いで、前記複数の(たとえばスケーリングされた)高域サブバンド信号に基づき、かつ前記複数の低域信号に基づいて、前記オーディオ信号の前記再構成されたフレームが決定されてもよい。
【0012】
代替的または追加的に、オーディオ・デコーダは、前記デコードされたメタデータの少なくとも一部を使って、特に前記デコードされたメタデータ内に含まれる前記一つまたは複数の拡張パラメータを使って、前記複数の波形サブバンド信号を拡張するよう構成されている、あるいはその拡大を実行するよう構成されている拡張ユニットを有していてもよい。この目的のために、拡張ユニットは、前記複数の波形サブバンド信号に一つまたは複数の拡張利得を適用するよう構成されていてもよい。拡張ユニットは、前記複数の波形サブバンド信号に基づき、一つまたは複数のあらかじめ決定された圧縮/拡張規則もしくは関数に基づき、および/または前記一つまたは複数の拡張パラメータに基づき、前記一つまたは複数の拡張利得を決定するよう構成されていてもよい。
【0013】
前記波形処理経路および/または前記メタデータ処理経路は、前記複数の波形サブバンド信号および前記デコードされたメタデータを時間整列させるよう構成された少なくとも一つの遅延ユニットを有していてもよい。特に、前記少なくとも一つの遅延ユニットは、前記複数の波形サブバンド信号および前記デコードされたメタデータを整列させる、および/または前記波形処理経路および/または前記メタデータ処理経路中に少なくとも一つの遅延を挿入して、前記波形処理経路の全体的な遅延がメタデータ処理経路の全体的な遅延に対応するようにするよう構成されていてもよい。代替的または追加的に、前記少なくとも一つの遅延ユニットは、前記複数の波形サブバンド信号および前記デコードされたメタデータを時間整列させて、前記複数の波形サブバンド信号および前記デコードされたメタデータが、前記メタデータ適用および合成ユニットによって実行される処理のためにちょうど間に合うタイミングで前記メタデータ適用および合成ユニットに提供されるようにするよう構成されていてもよい。特に、前記複数の波形サブバンド信号および前記デコードされたメタデータは、前記複数の波形サブバンド信号および/または前記デコードされたメタデータに対する処理(たとえばHFRもしくはSBR処理)を実行するのに先立って前記複数の波形サブバンド信号および/または前記デコードされたメタデータをバッファリングする必要がないよう、前記メタデータ適用および合成ユニットに提供されてもよい。
【0014】
換言すれば、オーディオ・デコーダは、前記デコードされたメタデータおよび/または前記複数の波形サブバンド信号の、HFR方式を実行するよう構成されていてもよい前記メタデータ適用および合成ユニットへの提供を、前記デコードされたメタデータおよび/または前記複数の波形サブバンド信号が処理のために必要とされる際に提供されるよう、遅延させるよう構成されていてもよい。挿入される遅延は、アクセス単位のシーケンスをなすビットストリームの接合を可能にしつつ、(オーディオ・デコーダおよび対応するオーディオ・エンコーダを含む)オーディオ・コーデックの全体的な遅延を短縮する(たとえば最小化する)よう選択されてもよい。よって、オーディオ・デコーダは、オーディオ・コーデックの全体的な遅延に対する最小限の影響で前記オーディオ信号の特定の再構成されたフレームを決定するために、前記波形データおよび前記メタデータをなす時間整列されたアクセス単位を扱うよう構成されていてもよい。さらに、オーディオ・デコーダは、メタデータを再サンプリングする必要なしに時間整列されたアクセス単位を扱うよう構成されていてもよい。こうすることにより、オーディオ・デコーダは、前記オーディオ信号の特定の再構成されたフレームを、計算効率のよい仕方で、オーディオ品質を劣化させることなく、決定するよう構成される。よって、オーディオ・デコーダは、高いオーディオ品質および低い全体的な遅延を維持しつつ、計算効率のよい仕方で接合アプリケーションを許容するよう構成されうる。
【0015】
さらに、前記複数のサブバンド信号および前記デコードされたメタデータを時間整列させるよう構成された少なくとも一つの遅延ユニットの使用は、(前記複数の波形サブバンド信号および前記デコードされたメタデータの前記処理が典型的に実行される領域である)サブバンド領域における前記複数の波形サブバンド信号および前記デコードされたメタデータの精密かつ一貫した整列を保証しうる。
【0016】
前記メタデータ処理経路は、前記オーディオ信号の前記再構成されたフレームのフレーム長Nの0より大きい整数倍だけ、前記デコードされたメタデータを遅延させるよう構成されたメタデータ遅延ユニットを有していてもよい。前記メタデータ遅延ユニットによって導入される追加的な遅延は、メタデータ遅延と称されてもよい。フレーム長Nは前記オーディオ信号の前記再構成されたフレーム内に含まれる時間領域サンプルの数Nに対応してもよい。前記整数倍は、前記メタデータ遅延ユニットによって導入される遅延が(たとえば前記波形処理経路に導入される追加的な波形遅延は考慮しないときの)前記波形処理経路の前記処理によって導入される遅延より大きいようなものであってもよい。前記メタデータ遅延は、前記オーディオ信号の前記再構成されたフレームのフレーム長Nに依存してもよい。これは、前記波形処理経路内における前記処理によって引き起こされる遅延がフレーム長Nに依存するという事実のためであってもよい。特に、前記整数倍は、960より大きいフレーム長Nについては1であってもよく、および/または前記整数倍は960以下のフレーム長Nについては2であってもよい。
【0017】
上記のように、前記メタデータ適用および合成ユニットは、サブバンド領域において(たとえばQMF領域において)前記デコードされたメタデータおよび前記複数の波形サブバンド信号を処理するよう構成されていてもよい。さらに、前記デコードされたメタデータは、サブバンド領域におけるメタデータを示してもよい(たとえば、高域信号のスペクトル包絡を記述するスペクトル係数を示す)。さらに、前記メタデータ遅延ユニットは、デコードされたメタデータを遅延させるよう構成されていてもよい。フレーム長Nの0より大きな整数倍であるメタデータ遅延の使用は、有益でありうる。(たとえば前記メタデータ適用および合成ユニット内での処理のための)サブバンド領域における前記複数の波形サブバンド信号および前記デコードされたメタデータの一貫した整列を保証するからである。特に、これは、前記デコードされたメタデータが、メタデータを再サンプリングする必要なしに、前記波形信号の正しいフレームに(すなわち、前記複数の波形サブバンド信号の正しいフレームに)適用されることができることを保証する。
【0018】
前記波形処理経路は、前記波形処理経路の全体的な遅延が前記オーディオ信号の再構成されたフレームのフレーム長Nの0より大きな整数倍に対応するよう、前記複数の波形サブバンド信号を遅延させるよう構成された波形遅延ユニットを有していてもよい。波形遅延ユニットによって導入される追加的な遅延は、波形遅延と称されてもよい。前記波形処理経路の前記整数倍は、前記メタデータ処理経路の前記整数倍に対応してもよい。
【0019】
前記波形遅延ユニットおよび/または前記メタデータ遅延ユニットは、前記複数の波形サブバンド信号および/または前記デコードされたメタデータを、前記波形遅延に対応する時間量にわたっておよび/または前記メタデータ遅延に対応する時間量にわたって記憶するよう構成されているバッファとして実装されてもよい。前記波形遅延ユニットは、前記メタデータ適用および合成ユニットの上流の、前記波形処理経路内の任意の位置に配置されうる。よって、前記波形遅延ユニットは、前記波形データおよび/または前記複数の波形サブバンド信号(および/または前記波形処理経路内の任意の中間データまたは信号)を遅延させるよう構成されていてもよい。一例では、前記波形遅延ユニットは、前記波形処理経路に沿って分散されていてもよい。ここで、各分散した遅延ユニットは、総合的な波形遅延の一部を提供する。波形遅延ユニットの分散は、波形遅延ユニットのコスト効率のよい実装のために有益でありうる。波形遅延ユニットと同様に、メタデータ遅延ユニットは、前記メタデータ適用および合成ユニットの上流の、前記メタデータ処理経路内の任意の位置に配置されうる。さらに、前記波形遅延ユニットは、前記メタデータ処理経路に沿って分散されていてもよい。
【0020】
前記波形処理経路は、前記波形信号を示す複数の周波数係数を提供するよう前記波形データをデコードし、量子化解除するよう構成されたデコードおよび量子化解除ユニットを有していてもよい。よって、前記波形データは、前記複数の周波数係数を含んでいてもよく、あるいは前記複数の周波数係数を示していてもよい。これは、前記オーディオ信号の前記再構成されたフレームの前記波形信号の前記生成を許容する。さらに、前記波形処理経路は、前記複数の周波数係数から前記波形信号を生成するよう構成された波形合成ユニットを有していてもよい。前記波形合成ユニットは、周波数領域から時間領域への変換を実行するよう構成されていてもよい。特に、前記波形合成ユニットは、逆修正離散コサイン変換(MDCT)を実行するよう構成されていてもよい。前記波形合成ユニットまたは前記波形合成ユニットの前記処理は、前記オーディオ信号の前記再構成されたフレームのフレーム長Nに依存する遅延を導入しうる。特に、前記波形合成ユニットによって導入される遅延は、フレーム長Nの半分に対応してもよい。
【0021】
前記波形データから前記波形信号を再構成したのち、前記波形信号は、前記デコードされたメタデータとの関連で処理されてもよい。一例では、前記波形信号は、前記デコードされたメタデータを使って前記高域信号を決定するためのHFRまたはSBR方式のコンテキストにおいて使われてもよい。この目的のために、前記波形処理経路は、前記波形信号から前記複数の波形サブバンド信号を生成するよう構成された分解ユニットを有していてもよい。前記分解ユニットは、たとえば直交ミラーフィルタ(QMF)バンクを適用することによって、時間領域からサブバンド領域への変換を実行するよう構成されていてもよい。典型的には、前記波形合成ユニットによって実行される変換の周波数分解能は、前記分解ユニットによって実行される変換の周波数分解能より(たとえば少なくとも5倍または10倍)高い。これは、「周波数領域」および「サブバンド領域」という用語によって示されてもよい。ここで、周波数領域は、サブバンド領域よりも高い周波数分解能に関連付けられてもよい。分解ユニットは、前記オーディオ信号の前記再構成されたフレームのフレーム長Nとは独立である固定遅延を導入しうる。分解ユニットによって導入される固定遅延は、分解ユニットによって使用されるフィルタバンクのフィルタの長さに依存してもよい。例として、分解ユニットによって導入される固定遅延は、前記オーディオ信号の320サンプルに対応してもよい。
【0022】
前記波形処理経路の全体的な遅延はさらに、メタデータと波形データとの間のあらかじめ決定された先読み〔ルックアヘッド〕に依存してもよい。そのような先読みは、前記オーディオ信号の隣り合う再構成されたフレームの間の連続性を増すために有益でありうる。前記あらかじめ決定された先読みおよび/または付随する先読み遅延は、前記オーディオ・サンプルの192または384サンプルに対応してもよい。先読み遅延は、高域信号のスペクトル包絡を示すHFRまたはSBRメタデータの決定のコンテキストにおける先読みであってもよい。特に、先読みは、前記オーディオ信号の前記特定のフレームのHFRまたはSBRメタデータを、前記オーディオ信号の直後のフレームからのあらかじめ決定された数のサンプルに基づいて決定することを、対応するオーディオ・エンコーダに許容しうる。これは、前記特定のフレームが音響過渡を含む場合に、有益でありうる。先読み遅延は、波形処理経路内に含まれる先読み遅延ユニットによって適用されてもよい。
【0023】
よって、前記波形処理経路の全体的な遅延、すなわち波形遅延は、前記波形処理経路内で実行される種々の処理に依存してもよい。さらに、前記波形遅延は、前記メタデータ処理経路によって導入されるメタデータ遅延に依存してもよい。波形遅延は、前記オーディオ信号のサンプルの任意の倍数に対応してもよい。この理由により、前記波形信号を遅延させるよう構成されている波形遅延ユニットを利用することが有益となりうる。ここで、前記波形信号は時間領域で表現される。換言すれば、波形信号に対して波形遅延を適用することが有益であることがある。こうすることにより、前記オーディオ信号のサンプルの任意の倍数に対応する波形遅延の精密でありかつ一貫した適用が保証されうる。
【0024】
例示的なデコーダは、サブバンド領域で表現されていてもよい前記メタデータに対してメタデータ遅延を適用するよう構成されているメタデータ遅延ユニットと、時間領域で表現されている波形信号に対して波形遅延を適用するよう構成されている波形遅延ユニットとを有していてもよい。メタデータ遅延ユニットは、フレーム長Nの整数倍に対応するメタデータ遅延を適用してもよく、波形遅延ユニットは、前記オーディオ信号のサンプルの整数倍に対応する波形遅延を適用してもよい。結果として、前記メタデータ適用および合成ユニット内での処理のための前記複数の波形サブバンド信号および前記デコードされたメタデータの精密かつ一貫した整列が保証されうる。前記複数の波形サブバンド信号および前記デコードされたメタデータの前記処理は、サブバンド領域で生起してもよい。前記複数の波形サブバンド信号および前記デコードされたメタデータの前記整列は、前記デコードされたメタデータの再サンプリングなしに達成されてもよく、それにより計算効率がよく、品質を保存する整列手段を提供する。
【0025】
上記で概説したように、オーディオ・デコーダはHFRまたはSBR方式を実行するよう構成されていてもよい。前記メタデータ適用および合成ユニットは、前記複数の低域サブバンド信号を使ってかつ前記デコードされたメタデータを使って、高周波再構成(たとえばSBR)を実行するよう構成されているメタデータ適用ユニットを有していてもよい。特に、前記メタデータ適用ユニットは、前記複数の低域サブバンド信号の一つまたは複数を転移して複数の高域サブバンド信号を生成するよう構成されていてもよい。さらに、前記メタデータ適用ユニットは、前記複数の高域サブバンド信号に前記デコードされたメタデータを適用して、複数のスケーリングされた高域サブバンド信号を提供するよう構成されていてもよい。前記複数のスケーリングされた高域サブバンド信号は、前記オーディオ信号の前記再構成されたフレームの前記高域信号を示してもよい。前記オーディオ信号の前記再構成されたフレームを生成するために、前記メタデータ適用および合成ユニットはさらに、前記複数の低域サブバンド信号からおよび前記複数のスケーリングされた高域サブバンド信号から前記オーディオ信号の前記再構成されたフレームを生成するよう構成された合成ユニットを有していてもよい。前記合成ユニットは、たとえば逆QMFバンクを適用することによって、前記分解ユニットによって実行された変換に関する逆変換を実行するよう構成されていてもよい。前記合成ユニットの前記フィルタバンク内に含まれるフィルタの数は、前記分解ユニットの前記フィルタバンク内に含まれるフィルタの数より多くてもよい(たとえば、前記複数のスケーリングされた高域サブバンド信号に起因する延長された周波数範囲を考慮に入れるため)。
【0026】
上記のように、オーディオ・デコーダは、拡張ユニット(expanding unit)を有していてもよい。拡張ユニットは、前記複数の波形サブバンド信号のダイナミックレンジを修正する(たとえば増大させる)よう構成されていてもよい。拡張ユニットは、前記メタデータ適用および合成ユニットの上流に位置していてもよい。特に、前記複数の拡張された波形サブバンド信号は、HFRまたはSBR方式を実行するために使われてもよい。換言すれば、HFRまたはSBR方式を実行するために使われる前記複数の低域サブバンド信号は、拡張ユニットの出力における前記複数の拡張された波形サブバンド信号に対応していてもよい。
【0027】
拡張ユニットは、好ましくは先読み遅延ユニットの下流に位置される。特に、拡張ユニットは、前記先読み遅延ユニットと前記メタデータ適用および合成ユニットとの間に位置されていてもよい。拡張ユニットを先読み遅延ユニットの下流に位置させることによって、すなわち、前記複数の波形サブバンド信号を拡張する前に前記波形データに先読み遅延を適用することによって、前記メタデータ内に含まれる前記一つまたは複数の拡張パラメータが正しい波形データに適用されることが保証される。換言すれば、前記先読み遅延によってすでに遅延された波形データに対する拡張を実行することは、前記メタデータからの前記一つまたは複数の拡張パラメータが前記波形データと同期していることを保証する。
【0028】
よって、前記デコードされたメタデータは、一つまたは複数の拡張パラメータを含んでいてもよく、オーディオ・デコーダは、前記一つまたは複数の拡張パラメータを使って、前記複数の波形サブバンド信号に基づいて複数の拡張された波形サブバンド信号を生成するよう構成された拡張ユニットを有していてもよい。特に、拡張ユニットは、あらかじめ決定された圧縮関数の逆を使って前記複数の拡張された波形サブバンド信号を生成するよう構成されていてもよい。前記一つまたは複数の拡張パラメータは、前記あらかじめ決定された圧縮関数の逆を示していてもよい。前記オーディオ信号の前記再構成されたフレームは、前記複数の拡張された波形サブバンド信号から決定されていてもよい。
【0029】
上記のように、オーディオ・デコーダは、前記あらかじめ決定された先読みに従って前記複数の波形サブバンド信号を遅延させて、複数の遅延された波形サブバンド信号を生じるよう構成された先読み遅延ユニットを有していてもよい。拡張ユニットは、前記複数の遅延された波形サブバンド信号を拡張することによって、前記複数の拡張された波形サブバンド信号を生成するよう構成されていてもよい。換言すれば、拡張ユニットは、先読みユニットの下流に位置されてもよい。これは、前記一つまたは複数の拡張パラメータと、前記一つまたは複数の拡張パラメータが適用可能である前記複数の波形サブバンド信号との間の同期を保証する。
【0030】
前記メタデータ適用および合成ユニットは、前記複数の波形サブバンド信号の時間的な一部分について前記デコードされたメタデータを使うことによって(特にSBR/HFR関係のメタデータを使うことによって)前記オーディオ信号の前記再構成されたフレームを生成するよう構成されていてもよい。前記時間的な一部分は、前記複数の波形サブバンド信号のいくつかの時間スロットに対応してもよい。前記時間的な一部分の時間長は、可変であってもよい。すなわち、前記デコードされたメタデータが適用される前記複数の波形サブバンド信号の時間長は、あるフレームから次のフレームへと変化してもよい。さらに換言すれば、前記デコードされたメタデータのフレーム構成(framing)は変わってもよい。時間的な一部分の時間長の変動は、あらかじめ決定された限界までに制限されてもよい。前記あらかじめ決定された範囲は、前記フレーム長から前記先読み遅延を引いたものおよび前記フレーム長に前記先読み遅延を加えたものに対応してもよい。種々の時間長の時間的部分についての前記デコードされた波形データ(またはその一部)の適用は、過渡的オーディオ信号を扱うために有益でありうる。
【0031】
拡張ユニットは、前記複数の波形サブバンド信号の同じ時間的な一部分について前記一つまたは複数の拡張パラメータを使うことによって、前記複数の拡張された波形サブバンド信号を生成するよう構成されていてもよい。換言すれば、前記一つまたは複数の拡張パラメータのフレーム構成(framing)は、前記メタデータ適用および合成ユニットによって使用される前記デコードされたメタデータについてのフレーム構成(たとえば、SBR/HFRメタデータについてのフレーム構成)と同じであってもよい。そうすることにより、SBR方式と圧伸方式との一貫性が保証されることができ、符号化システムの知覚的品質が改善されることができる。
【0032】
あるさらなる側面によれば、オーディオ信号のフレームをデータ・ストリームのアクセス単位にエンコードするよう構成されたオーディオ・エンコーダが記述される。オーディオ・エンコーダは、オーディオ・デコーダによって実行される処理タスクに関する対応する処理タスクを実行するよう構成されていてもよい。特に、オーディオ・エンコーダは、オーディオ信号のフレーム(frame)から波形データおよびメタデータを決定し、該波形データおよび該メタデータをアクセス単位(access unit)に挿入するよう構成されていてもよい。前記波形データおよび前記メタデータは、前記オーディオ信号のそのフレームの再構成されたフレームを示しうる。換言すれば、前記波形データおよび前記メタデータは、対応するオーディオ・デコーダが、前記オーディオ信号のもとのフレームの再構成されたバージョンを決定できるようにする。前記オーディオ信号の前記フレームは、低域信号および高域信号を含んでいてもよい。前記波形データは低域信号を示してもよく、前記メタデータは高域信号のスペクトル包絡を示してもよい。
【0033】
オーディオ・エンコーダは、前記オーディオ信号の前記フレームから、たとえば前記低域信号から(たとえば先進オーディオ符号化器AACのようなオーディオ・コア・デコーダを使って)前記波形データを生成するよう構成された波形処理経路を有していてもよい。さらに、オーディオ・エンコーダは、前記オーディオ信号の前記フレームから、たとえば前記高域信号および前記低域信号から、前記メタデータを生成するよう構成されたメタデータ処理経路を有する。例として、オーディオ・エンコーダは、高効率(HE)AACを実行するよう構成されていてもよく、対応するオーディオ・デコーダは、HE AACに従って、受領されたデータ・ストリームをデコードするよう構成されていてもよい。
【0034】
前記波形処理経路および/または前記メタデータ処理経路は、前記オーディオ信号の前記フレームについてのアクセス単位が前記オーディオ信号の同じフレームについての前記波形データおよび前記メタデータを含むよう、前記波形データおよび前記メタデータを時間整列させるよう構成された少なくとも一つの遅延ユニットを有していてもよい。前記少なくとも一つの遅延ユニットは、前記波形データおよび前記メタデータを時間整列して、前記波形処理経路の全体的な遅延がメタデータ処理経路の全体的な遅延に対応するようにするよう構成されていてもよい。特に、前記少なくとも一つの遅延ユニットは、前記波形処理経路の全体的な遅延が前記メタデータ処理経路の全体的な遅延に対応するよう、前記波形処理経路に追加的な遅延を挿入するよう構成された波形遅延ユニットであってもよい。代替的または追加的に、前記少なくとも一つの遅延ユニットは、前記波形データおよび前記メタデータを時間整列させて、前記波形データおよび前記メタデータが、前記波形データおよび前記メタデータから単一のアクセス単位を生成するためにちょうど間に合うタイミングでオーディオ・エンコーダのアクセス単位生成ユニットに提供されるようにするよう構成されていてもよい。特に、前記波形データおよび前記メタデータは、前記波形データおよび/または前記メタデータをバッファリングするためのバッファの必要なしに前記単一のアクセス単位が生成されうるよう、提供されてもよい。
【0035】
オーディオ・エンコーダは、前記オーディオ信号の前記フレームから複数のサブバンド信号を生成するよう構成された分解ユニットを有していてもよい。ここで、前記複数のサブバンド信号は前記低域信号を示す複数の低域信号を含んでいてもよい。オーディオ・エンコーダは、圧縮関数を使って前記複数の低域信号を圧縮し、複数の圧縮された低域信号を提供するよう構成された圧縮ユニットを有していてもよい。前記波形データは、前記複数の圧縮された低域信号を示していてもよく、前記メタデータは前記圧縮ユニットによって使われた圧縮関数を示していてもよい。前記高域信号のスペクトル包絡を示すメタデータが、前記オーディオ信号の、前記圧縮関数を示すメタデータと同じ部分に適用可能であってもよい。換言すれば、前記高域信号のスペクトル包絡を示すメタデータは、前記圧縮関数を示すメタデータと同期していてもよい。
【0036】
あるさらなる側面によれば、オーディオ信号のフレームのシーケンスについて対応してアクセス単位のシーケンスを含むデータ・ストリームが記述される。アクセス単位のシーケンスからのアクセス単位は、波形データおよびメタデータを有する。波形データおよびメタデータは、オーディオ信号のフレームのシーケンスの同じ特定のフレームに関連している。波形データおよびメタデータは、その特定のフレームの再構成されたフレームを示していてもよい。一例では、オーディオ信号のその特定のフレームは、低域信号および高域信号を含む。ここで、前記波形データは前記低域信号を示し、前記メタデータは前記高域信号のスペクトル包絡を示す。前記メタデータは、オーディオ・デコーダが、HFR方式を使って前記低域信号から前記高域信号を生成できるようにしてもよい。代替的または追加的に、前記メタデータは、前記低域信号に適用された圧縮関数を示していてもよい。よって、前記メタデータは、オーディオ・デコーダが受領された低域信号のダイナミックレンジの拡張を(前記圧縮関数の逆を使って)実行することを可能にしてもよい。
【0037】
あるさらなる側面によれば、受領されたデータ・ストリームのアクセス単位からオーディオ信号の再構成されたフレームを決定する方法が記述される。アクセス単位は、波形データおよびメタデータを含む。ここで、前記波形データおよび前記メタデータは前記オーディオ信号の同じ再構成されたフレームに関連付けられている。一例では、前記オーディオ信号の前記再構成されたフレームは、低域信号および高域信号を含む。ここで、前記波形データは前記低域信号を(たとえば、前記低域信号を記述する周波数係数を)示し、前記メタデータは前記高域信号のスペクトル包絡を(たとえば、前記高域信号の複数のスケール因子帯域についてのスケール因子を)示す。本方法は、前記波形データから複数の波形サブバンド信号を生成し、前記メタデータから、デコードされたメタデータを生成することを含む。さらに、本方法は、前記複数の波形サブバンド信号および前記デコードされたメタデータを、本稿に記載されるように時間整列させることを含む。さらに、本方法は、前記時間整列された複数の波形サブバンド信号およびデコードされたメタデータから、前記オーディオ信号の前記再構成されたフレームを生成することを含む。
【0038】
もう一つの側面によれば、オーディオ信号のフレームをデータ・ストリームのアクセス単位にエンコードする方法が記述される。前記オーディオ信号の前記フレームは、前記アクセス単位が波形データおよびメタデータを含むようエンコードされている。前記波形データおよび前記メタデータは前記オーディオ信号の前記フレームの再構成されたフレームを示す。一例では、前記オーディオ信号の前記フレームは、低域信号および高域信号を含み、前記フレームは、前記波形データが前記低域信号を示し、前記メタデータが前記高域信号のスペクトル包絡を示すようエンコードされている。本方法は、前記オーディオ信号の前記フレームから、たとえば前記低域信号から前記波形データを生成し、前記オーディオ信号の前記フレームから、たとえば前記高域信号および前記低域信号から(たとえばHFR方式に従って)前記メタデータを生成することを含む。さらに、本方法は、前記波形データおよび前記メタデータを、前記オーディオ信号の前記フレームについての前記アクセス単位が前記オーディオ信号の同じフレームについての前記波形データおよび前記メタデータを含むよう時間整列させる段階を含む。
【0039】
あるさらなる側面によれば、ソフトウェア・プログラムが記述される。前記ソフトウェア・プログラムは、プロセッサ上での実行のために、該プロセッサ上で実行されたときに本稿で概説される方法段階を実行するために適応されていてもよい。
【0040】
もう一つの側面によれば、記憶媒体(たとえば非一時的な記憶媒体)が記述される。本記憶媒体は、プロセッサ上での実行のために、該プロセッサ上で実行されたときに本稿で概説される方法段階を実行するために適応されているソフトウェア・プログラムを有していてもよい。
【0041】
あるさらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。本コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を含んでいてもよい。
【0042】
本特許出願において概説される好ましい実施形態を含む方法およびシステムは、単独で、あるいは本稿に開示される他の方法およびシステムとの組み合わせで使われてもよいことを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、任意に組み合わされうる。特に、請求項の特徴は、任意の仕方で互いに組み合わされうる。
【図面の簡単な説明】
【0043】
本発明は、付属の図面を参照して例示的な仕方で下記に説明される。
【
図1】例示的なオーディオ・デコーダのブロック図を示す。
【
図2a】もう一つの例示的なオーディオ・デコーダのブロック図を示す。
【
図2b】例示的なオーディオ・エンコーダのブロック図を示す。
【
図3a】オーディオ拡張を実行するよう構成されている例示的なオーディオ・デコーダのブロック図である。
【
図3b】オーディオ圧縮を実行するよう構成されている例示的なオーディオ・エンコーダのブロック図である。
【
図4】オーディオ信号のフレームのシーケンスの例示的なフレーム構成を示す図である。
【発明を実施するための形態】
【0044】
上記のように、本稿はメタデータ整列に関する。以下では、メタデータの整列は、MPGE HE(高効率)AAC(先進オーディオ符号化)方式のコンテキストで概説されるが、本稿において記述されるメタデータ整列の原理は、他のオーディオ・エンコード/デコード・システムにも適用可能である。特に、本稿において記述されるメタデータ整列方式は、HFR(高周波再構成)および/またはSBR(スペクトル帯域幅複製)を利用し、HFR/SBRメタデータをオーディオ・エンコーダから対応するオーディオ・デコーダに伝送するオーディオ・エンコード/デコード・システムに適用可能である。さらに、本稿において記述されるメタデータ整列方式は、サブバンド(特にQMF)領域における適用を利用するオーディオ・エンコード/デコード・システムに適用可能である。そのような適用の例はSBRである。他の例はA結合(A-coupling)、後処理などである。以下では、メタデータ整列方式はSBRメタデータの整列のコンテキストにおいて記述される。しかしながら、メタデータ整列方式は他の型のメタデータにも、特にサブバンド領域における他の型のメタデータにも、適用可能であることを注意しておくべきである。
【0045】
MPEG HE-AACデータ・ストリームは、SBRメタデータ(A-SPXメタデータとも称される)を含む。データ・ストリームの特定のエンコードされたフレーム(データ・ストリームのAU(access unit[アクセス単位])とも称される)におけるSBRメタデータは、典型的には、過去の波形(W)データに関係する。換言すれば、データ・ストリームのAU内に含まれるSBRメタデータおよび波形データは典型的には、もとのオーディオ信号の同じフレームに対応するのではない。これは、波形データのデコード後に波形データがいくつかの処理段階(たとえばIMDCT(逆修正離散コサイン変換)およびQMF(直交ミラーフィルタ)分解)にかけられ、これらの段階が信号遅延を導入するという事実のためである。SBRメタデータが波形データに適用される時点では、SBRメタデータは処理された波形データと同期している。よって、SBRメタデータおよび波形データは、オーディオ・デコーダにおいてSBRメタデータがSBR処理のために必要とされるときにSBRメタデータがオーディオ・デコーダに到達するよう、MPEG HE-AACデータ・ストリーム中に挿入される。この型のメタデータ送達は、「ジャストインタイム(Just-In-Time)」(JIT)メタデータ送達と称されることがある。SBRメタデータがオーディオ・デコーダの信号または処理チェーン内で直接適用されることができるように、SBRメタデータがデータ・ストリーム中に挿入されるからである。
【0046】
JITメタデータ送達は、全体的な符号化遅延を低減するためおよびオーディオ・デコーダにおけるメモリ要求を低減するために、通常のエンコード‐伝送‐デコードの処理チェーンにとって有益でありうる。しかしながら、伝送経路に沿ったデータ・ストリームのスプライス(splice)は、波形データと対応するSBRメタデータとの間のミスマッチにつながりうる。そのようなミスマッチは、オーディオ・デコーダにおいてスペクトル帯域複製のために誤ったSBRメタデータが使われるため、スプライシング〔接合〕点における可聴なアーチファクトにつながることがある。
【0047】
上記に鑑み、低い全体的な符号化遅延を維持しつつ、データ・ストリームの接合を許容するオーディオ・エンコード/デコード・システムを提供することが望ましい。
【0048】
図1は、上述した技術的課題に対処する例示的なオーディオ・デコーダ100のブロック図を示している。具体的には、
図1のオーディオ・デコーダ100は、オーディオ信号の特定のセグメント(たとえばフレーム)の波形データ111を含み、かつオーディオ信号の該特定のセグメントの対応するメタデータ112を含むAU 110をもつデータ/ストリームのデコードを許容する。時間整列された波形データ111および対応するメタデータ112をもつAU 110を含むデータ・ストリームをデコードするオーディオ・デコーダ100を提供することによって、データ・ストリームの一貫した接合が可能にされる。特に、データ・ストリームが、波形データ111およびメタデータ112の対応する対が維持される仕方で接合されることができることが保証される。
【0049】
オーディオ・デコーダ100は、波形データ111の処理チェーン内に遅延ユニット105を有する。遅延ユニット105はMDCT合成ユニット102の後または下流かつオーディオ・デコーダ100内のQMF合成ユニット107の前または上流に配置されてもよい。特に、遅延ユニット105は、処理された波形データにデコードされたメタデータ128を適用するよう構成されているメタデータ適用ユニット106(たとえばSBRユニット106)の前または上流に配置されてもよい。遅延ユニット105(波形遅延ユニット105とも称される)は処理された波形データに遅延(波形遅延とも称される)を適用するよう構成されている。波形遅延は好ましくは、波形処理チェーンまたは波形処理経路(たとえば、MDCT合成ユニット102からメタデータ適用ユニット106におけるメタデータの適用まで)の全体的な処理遅延が合計するとちょうど1フレーム(またはその整数倍)になるように選ばれる。そうすることにより、パラメトリック制御データは、一フレーム(またはその倍数)だけ遅延されることができ、AU 110内での整列が達成される。
【0050】
図1は、例示的なオーディオ・デコーダ100のコンポーネントを示している。AU 110から取られた波形データ111は、波形デコードおよび量子化解除ユニット101内でデコードされ、量子化解除されて、(周波数領域における)複数の周波数係数121を与える。前記複数の周波数係数121は、低域合成ユニット102(たとえばMDCT合成ユニット)内で適用される周波数領域から時間領域への変換(たとえば逆MDCT(修正離散コサイン変換))を使って(時間領域の)低域信号122に合成される。その後、低域信号122は、分解ユニット103を使って複数の低域サブバンド信号123に変換される。分解ユニット103は、低域信号122に直交ミラーフィルタ(QMF)バンクを適用して、前記複数の低域サブバンド信号123を与えるよう構成されていてもよい。メタデータ112は典型的には、前記複数の低域サブバンド信号123に(またはその転移されたバージョンに)適用される。
【0051】
AU 110からのメタデータ112は、メタデータ・デコードおよび量子化解除ユニット108内でデコードされ、量子化解除されて、デコードされたメタデータ128を与える。さらに、オーディオ・デコーダ100は、デコードされたメタデータ128に遅延(メタデータ遅延とも称される)を適用するよう構成されているさらなる遅延ユニット109(メタデータ遅延ユニット109とも称される)を有していてもよい。メタデータ遅延は、フレーム長Nの整数倍に対応してもよい。たとえば、D1がメタデータ遅延であるとして、D1=N。よって、メタデータ処理チェーンの全体的な遅延はD1に対応する。たとえばD1=Nとなる。
【0052】
処理された波形データ(すなわち、遅延された複数の低域サブバンド信号123)および処理されたメタデータ(すなわち、遅延されたデコードされたメタデータ128)がメタデータ適用ユニット106に同時に到達することを保証するために、波形処理チェーン(または経路)の全体的な遅延は、メタデータ処理チェーン(または経路)の全体的な遅延に(すなわち、D1に)対応するべきである。波形処理チェーン内において、低域合成ユニット102は典型的にはN/2の(すなわち、フレーム長の半分の)遅延を挿入する。合成ユニット103は典型的には(たとえば320サンプルの)固定遅延を挿入する。さらに、先読み(すなわち、メタデータと波形データとの間の固定したオフセット)が考慮に入れられる必要があることがある。MPEG HE-AACの場合、そのようなSBR先読みは(先読みユニット104によって表現される)384サンプルに対応してもよい。先読みユニット104(先読み遅延ユニット104と称されることもある)は波形データ111を固定したSBR先読み遅延だけ遅延させる(たとえば、前記複数の低域サブバンド信号123を遅延させる)よう構成されていてもよい。先読み遅延は、対応するオーディオ・エンコーダが、オーディオ信号の後続フレームに基づいてSBRメタデータを決定できるようにする。
【0053】
波形処理チェーンの全体的な遅延に対応するメタデータ処理チェーンの全体的な遅延を提供するために、波形遅延D2は
D1=320+384+D2+N/2
となるようなものであるべきである。すなわち、D2=N/2-320-384である(D1=Nの場合)。
【0054】
表1は、複数の異なるフレーム長Nについての波形遅延D2を示している。HE-AACの種々のフレーム長Nについての最大波形遅延D2は928サンプルであり、全体的な最大デコーダ・レイテンシーは2177サンプルであることが見て取れる。換言すれば、単一のAU 110内での波形データ111および対応するメタデータ112の整列の結果、最大928サンプルの追加的なPCM遅延となる。フレーム・サイズN=1920/1536のブロックについては、メタデータは1フレーム遅延され、フレーム・サイズN=960/768/512/384については、メタデータは2フレーム遅延される。つまり、オーディオ・デコーダ100における再生遅延はブロック・サイズNに依存して増大させられ、全体的な符号化遅延は1または2個の完全なフレームだけ増大させられる。対応するオーディオ・エンコーダにおける最大PCM遅延は1664サンプルである(オーディオ・デコーダ100の固有のレイテンシーに対応)。
【0055】
【表1】
そこで、本稿では、単一のAU 110中に対応する波形データ111と整列されている信号整列されたメタデータ112(SAM: signal-aligned-metadata)を使うことによってJITメタデータの欠点に対処することが提案される。具体的には、すべてのエンコードされたフレーム(またはAU)が、のちの処理段において、たとえばメタデータが根底にある波形データに適用されるときの処理段において使う(たとえばA-SPXの)メタデータを担持するよう、一つまたは複数の追加的な遅延ユニットを、オーディオ・デコーダ100および/または対応するオーディオ・エンコーダ中に導入することが提案される。
【0056】
注意しておくべきことは、原理的には、フレーム長Nの一部に対応するメタデータ遅延D
1を適用することが考えられるということである。こうすることにより、全体的な符号化遅延が可能性としては低減されることができる。しかしながら、たとえば
図1に示されるように、メタデータ遅延D
1はQMF領域で(すなわちサブバンド領域で)適用される。これに鑑み、またメタデータ112が典型的にはフレーム毎に一度定義されるだけであるという事実に鑑み、すなわち、メタデータ112が典型的にはフレーム当たり一つの専用のパラメータ集合を含むという事実に鑑み、フレーム長Nの一部に対応するメタデータ遅延D
1の挿入は、波形データ111に関する同期問題につながりうる。他方、波形遅延D
2は(
図1に示されるように)時間領域で適用され、この場合、フレームの一部に対応する遅延は精密な仕方で(たとえば波形遅延D
2に対応する数のサンプルだけ時間領域信号を遅延させることによって)実装できる。よって、メタデータ112をフレームの整数倍だけ遅延させ(ここで、フレームはメタデータ112が定義されている最低の時間分解能に対応する)、波形データ111を任意の値を取り得る波形遅延D
2だけ遅延させることが有益である。フレーム長Nの整数倍に対応するメタデータ遅延D
1は、精密な仕方でサブバンド領域で実装されることができ、サンプルの任意の倍数に対応する波形遅延D
2は精密な仕方で時間領域で実装されることができる。結果として、メタデータ遅延D
1と波形遅延D
2の組み合わせは、メタデータ112と波形データ111の正確な同期を許容する。
【0057】
フレーム長Nの一部に対応するメタデータ遅延D1の適用は、メタデータ遅延D1に従ってメタデータ112を再サンプリングすることによって実装できる。しかしながら、メタデータ112の再サンプリングは、実質的な計算コストを伴う。さらに、メタデータ112の再サンプリングは、メタデータ112の歪みにつながることがあり、それによりオーディオ信号の再構成されたフレームの品質に影響する。これに鑑み、計算効率に鑑みかつオーディオ品質に鑑みて、メタデータ遅延D1をフレーム長Nの整数倍に制限することが有益である。
【0058】
図1は、遅延されたメタデータ128および遅延された複数の低域サブバンド信号123のさらなる処理を示している。メタデータ適用ユニット106は、前記複数の低域サブバンド信号123に基づき、かつメタデータ128に基づいて、複数の(たとえばスケーリングされた)高域サブバンド信号126を生成するよう構成されている。この目的のために、メタデータ適用ユニット106は、前記複数の低域サブバンド信号123の一つまたは複数を転移して複数の高域サブバンド信号を生成するよう構成されていてもよい。転移(transposition)は、前記複数の低域サブバンド信号123の前記一つまたは複数の上へのコピー(copy-up)プロセスを含んでいてもよい。さらに、メタデータ適用ユニット106は、前記複数のスケーリングされた高域サブバンド信号126を生成するために、前記複数の高域サブバンド信号にメタデータ128(たとえば、メタデータ128内に含まれるスケール因子)を適用するよう構成されていてもよい。前記複数のスケーリングされた高域サブバンド信号126は典型的には前記スケール因子を使ってスケーリングされ、前記複数の高域サブバンド信号126のスペクトル包絡が前記オーディオ信号のもとのフレーム(これは、前記複数の低域サブバンド信号123に基づき、前記複数のスケーリングされた高域サブバンド信号126から生成されるオーディオ信号127の再構成されたフレームに対応する)の高域信号のスペクトル包絡を模倣するようにする。
【0059】
さらに、オーディオ・デコーダ100は、前記複数の低域サブバンド信号123からおよび前記複数のスケーリングされた高域サブバンド信号126から(たとえば逆QMFバンクを使って)オーディオ信号127の前記再構成されたフレームを生成するよう構成された合成ユニット107を有する。
【0060】
図2aは、別の例示的オーディオ・デコーダ100のブロック図を示している。
図2aのオーディオ・デコーダ100は
図1のオーディオ・デコーダ100と同じコンポーネントを有する。さらに、マルチチャネル・オーディオ処理のための例示的コンポーネント210が示されている。
図2aの例では、波形遅延ユニット105は逆MDCTユニット102の直後に置かれていることが見て取れる。オーディオ信号127の再構成されたフレームの決定は、(たとえば5.1または7.1マルチチャネル・オーディオ信号の)マルチチャネル・オーディオ信号の各チャネルについて実行されてもよい。
【0061】
図2bは、
図2aのオーディオ・デコーダ100に対応する例示的なオーディオ・エンコーダ250のブロック図を示している。オーディオ・エンコーダ250は、対応する波形データ111およびメタデータ112の対を担持するAUを含むデータ・ストリームを生成するよう構成されている。オーディオ・エンコーダ250は、メタデータを決定するためのメタデータ処理チェーン256、257、258、259、260を有する。メタデータ処理チェーンは、メタデータを対応する波形データと整列させるためのメタデータ遅延ユニット256を有していてもよい。図示した例では、オーディオ・エンコーダ250のメタデータ遅延ユニット256はいかなる追加的な遅延も導入しない(メタデータ処理チェーンによって導入される遅延が波形処理チェーンによって導入された遅延より大きいため)。
【0062】
さらに、オーディオ・エンコーダ250は、オーディオ・エンコーダ250の入力におけるもとのオーディオ信号から前記波形データを決定するよう構成された波形処理チェーン251、252、253、254、255を有する。波形処理チェーンは、波形データを対応するメタデータと整列させるために、波形処理チェーンに追加的な遅延を導入するよう構成された波形遅延ユニット252を有する。波形遅延ユニット252によって導入される遅延は、メタデータ処理チェーンの全体的な遅延(波形遅延ユニット252によって挿入される波形遅延を含む)が波形処理チェーンの全体的な遅延に対応するようなものであってもよい。フレーム長N=2048の場合、波形遅延ユニット252の遅延は2048-320=1728サンプルであってもよい。
【0063】
図3aは、拡張ユニット301を有するオーディオ・デコーダ300の抜粋を示している。
図3aのオーディオ・デコーダ300は、
図1および/または
図2aのオーディオ・デコーダ100に対応してもよく、さらに、アクセス単位110のデコードされたメタデータ128から取られた一つまたは複数の拡張パラメータ310を使って、前記複数の低域信号123から複数の拡張された低域信号を決定するよう構成されている拡張ユニット301を有する。典型的には、前記一つまたは複数の拡張パラメータ310は、アクセス単位110内に含まれるSBR(たとえばA-SPX)メタデータと結合される。換言すれば、前記一つまたは複数の拡張パラメータ310は、典型的には、オーディオ信号の、SBRメタデータと同じ抜粋または一部分に適用可能である。
【0064】
上記で概説したように、アクセス単位110のメタデータ112は典型的には、オーディオ信号のフレームの波形データ111と関連付けられている。ここで、前記フレームは、あらかじめ決定された数N個のサンプルを有する。SBRメタデータは典型的には、複数の低域信号(複数の波形サブバンド信号とも称される)に基づいて決定される。ここで、前記複数の低域信号はQMF分解(QMF analysis)を使って決定されてもよい。QMF分解は、オーディオ信号のフレームの時間‐周波数表現を与える。特に、オーディオ信号のフレームのN個のサンプルは、それぞれがN/Q個の時間スロットまたはスロットを有するQ個(たとえばQ=64)の低域信号によって表現されうる。N=2048サンプルをもつフレームについて、Q=64について、各低域信号はN/Q=32個のスロットを有する。
【0065】
ある特定のフレーム内の過渡信号の場合、直後のフレームのサンプルに基づいてSBRメタデータを決定することが有益でありうる。この特徴は、SBR先読み〔ルックアヘッド〕と称される。特に、SBRメタデータは、直後のフレームからのあらかじめ決定された数のスロットに基づいて決定されてもよい。例として、直後のフレームの6個までのスロットが考慮に入れられてもよい(すなわち、Q*6=384サンプル)。
【0066】
SBR先読みの使用は、SBRまたはHFR方式のために異なるフレーム構成400、430を使うオーディオ信号のフレーム401、402、403のシーケンスを示す
図4に示されている。フレーム構成400の場合、SBR/HFR方式は、SBR先読みによって提供される柔軟性を利用しない。にもかかわらず、SBR先読みの使用を可能にするために、固定したオフセット、すなわち固定したSBR先読み遅延480が使われる。図示した例では、固定したオフセットは6個の時間スロットに対応する。この固定したオフセット480の結果として、特定のフレーム402の特定のアクセス単位110のメタデータ112は、その特定のアクセス単位110に先行する(かつ直前のフレーム401に関連付けられている)アクセス単位110内に含まれる波形データ111の諸時間スロットに部分的に適用可能である。これは、SBRメタデータ411、412、413とフレーム401、402、403の間のオフセットによって示される。よって、アクセス単位110内に含まれるSBRメタデータ411、412、413は、SBR先読み遅延480だけオフセットされている波形データ111に適用可能であってもよい。SBRメタデータ411、412、413は波形データ111に適用されて、再構成されたフレーム421、422、423を提供する。
【0067】
フレーム構成430は、SBR先読みを利用する。たとえばフレーム401内での過渡成分の生起に起因して、SBRメタデータ431は波形データ111の32個より多い時間スロットに適用可能であることが見て取れる。他方、後続のSBRメタデータ432は、波形データ111の32個より少ない時間スロットに適用可能である。SBRメタデータ433は再び32個の時間スロットに適用可能である。よって、SBR先読みは、SBRメタデータの時間分解能に関して柔軟性を許容する。SBR先読みの使用に関わりなく、かつSBRメタデータ431、432、433の適用可能性に関わりなく、再構成されたフレーム421、422、423はフレーム401、402、403に関して固定したオフセット480を使って生成される。
【0068】
オーディオ・エンコーダが、前記SBRメタデータおよび前記一つまたは複数の拡張パラメータを、オーディオ信号の同じ抜粋または一部分を使って決定するよう構成されていてもよい。よって、SBRメタデータがSBR先読みを使って決定されるならば、同じSBR先読みについて前記一つまたは複数の拡張パラメータが決定されてもよく、適用可能であってもよい。特に、前記一つまたは複数の拡張パラメータは、対応するSBRメタデータ431、432、433と同数の時間スロットについて適用可能であってもよい。
【0069】
拡張ユニット301は、前記複数の低域信号123に一つまたは複数の拡張利得を適用するよう構成されていてもよい。ここで、前記一つまたは複数の拡張利得は、典型的には、前記一つまたは複数の拡張パラメータ310に依存する。特に、前記一つまたは複数の拡張パラメータ310は、前記一つまたは複数の拡張利得を決定するために使われる一つまたは複数の圧縮/拡張規則に対する影響を有することがありうる。換言すれば、前記一つまたは複数の拡張パラメータ310は、対応するオーディオ・エンコーダの圧縮ユニットによって使用された圧縮関数を示してもよい。前記一つまたは複数の拡張パラメータ310は、オーディオ・デコーダがこの圧縮関数の逆を決定することを可能にしてもよい。
【0070】
前記一つまたは複数の拡張パラメータ310は、対応するオーディオ・エンコーダが前記複数の低域信号を圧縮したか否かを示す第一の拡張パラメータを有していてもよい。圧縮が適用されていなければ、オーディオ・デコーダによって拡張は適用されない。よって、第一の拡張パラメータは、圧伸機能をオンまたはオフにするために使用されうる。
【0071】
代替的または追加的に、前記一つまたは複数の拡張パラメータ310は、マルチチャネル・オーディオ信号のチャネルの全部に同じ一つまたは複数の拡張利得が適用されるべきか否かを示す第二の拡張パラメータを有していてもよい。よって、第二の拡張パラメータは、圧伸機能の、チャネル毎またはマルチチャネル毎の適用の間で切り換えうる。
【0072】
代替的または追加的に、前記一つまたは複数の拡張パラメータ310は、フレームのすべての時間スロットについて同じ一つまたは複数の拡張利得を適用するべきか否かを示す第三の拡張パラメータを有していてもよい。よって、第三の拡張パラメータは、圧伸機能の時間分解能を制御するために使用されうる。
【0073】
前記一つまたは複数の拡張パラメータ310を使って、拡張ユニット301は、対応するオーディオ・エンコーダにおいて適用された圧縮関数の逆を適用することによって、前記複数の拡張された低域信号を決定してもよい。対応するオーディオ・エンコーダにおいて適用された圧縮関数は、前記一つまたは複数の拡張パラメータ310を使ってオーディオ・デコーダ300に信号伝達される。
【0074】
拡張ユニット301は、先読み遅延ユニット104の下流に位置されてもよい。これは、前記一つまたは複数の拡張パラメータ310が前記複数の低域信号123の正しい部分に適用されることを保証する。特に、これは、前記一つまたは複数の拡張パラメータ310が(SBR適用ユニット106内で)前記複数の低域信号の、SBRパラメータと同じ部分に適用されることを保証する。よって、拡張がSBR方式と同じ時間フレーム構成400、430に対して作用することが保証される。SBR先読みに起因して、フレーム構成400、430は可変数の時間スロットを有していてもよく、結果として、拡張は、可変数の時間スロットに対して作用してもよい(
図4のコンテキストで概説したように)。拡張ユニット301を先読み遅延ユニット104の下流に配置することによって、前記一つまたは複数の拡張パラメータに対して正しいフレーム構成400、430が適用されることが保証される。この結果として、接合点後でも、高品質オーディオ信号が保証されることができる。
【0075】
図3bは、圧縮ユニット351を有するオーディオ・エンコーダ350の抜粋を示している。オーディオ・エンコーダ350は、
図2bのオーディオ・エンコーダ250のコンポーネントを有していてもよい。圧縮ユニット351は、圧縮関数を使って、前記複数の低域信号を圧縮する(たとえば、そのダイナミックレンジを小さくする)よう構成されていてもよい。さらに、圧縮ユニット351は、圧縮ユニット351によって使用された圧縮関数を示す一つまたは複数の拡張パラメータ310を決定するよう構成されていてもよい。オーディオ・デコーダ300の対応する拡張ユニット301が該圧縮関数の逆を適用できるようにするためである。
【0076】
前記複数の低域信号の圧縮は、SBR先読み258の下流で実行されてもよい。さらに、オーディオ・エンコーダ350は、SBRメタデータが、前記オーディオ信号の、前記一つまたは複数の拡張パラメータ310と同じ部分について決定されることを保証するよう構成されているSBRフレーム構成ユニット353を有していてもよい。換言すれば、SBRフレーム構成ユニット353は、SBR方式が圧伸方式と同じフレーム構成400、430に対して作用することを保証しうる。SBR方式が(たとえば過渡の場合)延長されたフレームに対して作用しうるという事実に鑑み、圧伸方式も(追加的な時間スロットを有する)延長されたフレームに対して作用しうる。
【0077】
本稿では、オーディオ・エンコーダおよび対応するオーディオ・デコーダであって、オーディオ信号を、該オーディオ信号のセグメントのシーケンスに関連付けられている波形データおよびメタデータを含む時間整列されたAUのシーケンスにエンコードすることを許容するものが記述された。時間整列されたAUを使うことは、接合点における低減したアーチファクトをもつデータ・ストリームの接合を可能にする。さらに、オーディオ・エンコーダおよびオーディオ・デコーダは、接合可能なデータ・ストリームが計算効率のよい仕方で処理され、全体的な符号化遅延が低いままであるよう、設計される。
【0078】
本稿で記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアおよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光学式記憶媒体のような媒体上に記憶されてもよい。そうした信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークもしくは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿で記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするために使用されるポータブル電子装置または他の消費者装置である。
【0079】
次の箇条書実施例(EEE: enumerated example embodiment)から本発明のさまざまな側面が理解されうる。
〔EEE1〕
受領されたデータ・ストリームのアクセス単位からオーディオ信号の再構成されたフレームを決定するよう構成されたオーディオ・デコーダ(100、300)であって、前記アクセス単位は、波形データおよびメタデータを含み、前記波形データおよび前記メタデータは前記オーディオ信号の同じ再構成されたフレームに関連付けられており、当該オーディオ・デコーダは、
・前記波形データから複数の波形サブバンド信号を生成するよう構成された波形処理経路(101、102、103、104、105)と;
・前記メタデータから、デコードされたメタデータを生成するよう構成された、メタデータ処理経路(108、109)と;
・前記複数の波形サブバンド信号からおよび前記デコードされたメタデータから前記オーディオ信号の前記再構成されたフレームを生成するよう構成されたメタデータ適用および合成ユニット(106、107)とを有しており、
前記波形処理経路および/または前記メタデータ処理経路は、前記複数の波形サブバンド信号および前記デコードされたメタデータを時間整列させるよう構成された少なくとも一つの遅延ユニット(105、109)を有する、
オーディオ・デコーダ。
〔EEE2〕
前記少なくとも一つの遅延ユニットは、前記複数の波形サブバンド信号および前記デコードされたメタデータを、前記波形処理経路の全体的な遅延がメタデータ処理経路の全体的な遅延に対応するよう時間整列させるよう構成されている、EEE1記載のオーディオ・デコーダ。
〔EEE3〕
前記少なくとも一つの遅延ユニットは、前記複数の波形サブバンド信号および前記デコードされたメタデータを時間整列させて、前記複数の波形サブバンド信号および前記デコードされたメタデータが、前記メタデータ適用および合成ユニットによって実行される処理のためにちょうど間に合うタイミングで前記メタデータ適用および合成ユニットに提供されるようにするよう構成されている、EEE1または2記載のオーディオ・デコーダ。
〔EEE4〕
前記メタデータ処理経路は、前記オーディオ信号の前記再構成されたフレームのフレーム長Nの0より大きい整数倍だけ、前記デコードされたメタデータを遅延させるよう構成されたメタデータ遅延ユニット(109)を有する、EEE1ないし3のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE5〕
前記整数倍は、前記メタデータ遅延ユニットによって導入される遅延が前記波形処理経路の処理によって導入される遅延より大きいようなものである、EEE4記載のオーディオ・デコーダ。
〔EEE6〕
前記整数倍は、960より大きいフレーム長Nについては1であり、前記整数倍は960以下のフレーム長Nについては2である、EEE4または5記載のオーディオ・デコーダ。
〔EEE7〕
前記波形処理経路は、前記波形処理経路の全体的な遅延が前記オーディオ信号の前記再構成されたフレームのフレーム長Nの0より大きな整数倍に対応するよう、前記複数の波形サブバンド信号を遅延させるよう構成された波形遅延ユニット(105)を有する、EEE1ないし6のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE8〕
前記波形処理経路は、
・前記波形信号を示す複数の周波数係数(121)を提供するよう前記波形データ(111)をデコードし、量子化解除するよう構成されたデコードおよび量子化解除ユニット(101)と;
・前記複数の周波数係数から前記波形信号(122)を生成するよう構成された波形合成ユニット(102)と;
・前記波形信号から前記複数の波形サブバンド信号を生成するよう構成された分解ユニット(103)とを有する、
EEE1ないし7のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE9〕
・前記波形合成ユニットは、周波数領域から時間領域への変換を実行するよう構成されており;
・前記分解ユニットは、時間領域からサブバンド領域への変換を実行するよう構成されており;
・前記波形合成ユニットによって実行される変換の周波数分解能は、前記分解ユニットによって実行される変換の周波数分解能より高い、
EEE8記載のオーディオ・デコーダ。
〔EEE10〕
・前記波形合成ユニットは、逆修正離散コサイン変換を実行するよう構成されており;
・前記分解ユニットは、直交ミラー・フィルタ・バンクを適用するよう構成されている、
EEE9記載のオーディオ・デコーダ。
〔EEE11〕
・前記波形合成ユニットは、前記オーディオ信号の前記再構成されたフレームのフレーム長Nに依存する遅延を導入する;および/または
・前記分解ユニットは、前記オーディオ信号の前記再構成されたフレームのフレーム長Nとは独立である固定遅延を導入する、
EEE8ないし10のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE12〕
・前記波形合成ユニットによって導入される遅延は、フレーム長Nの半分に対応する;および/または
・前記分解ユニットによって導入される固定遅延は、前記オーディオ信号の320サンプルに対応する、
EEE11記載のオーディオ・デコーダ。
〔EEE13〕
前記波形処理経路の全体的な遅延が、メタデータと波形データとの間のあらかじめ決定された先読みに依存する、EEE8ないし12のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE14〕
前記あらかじめ決定された先読みは、前記オーディオ・サンプルの192または384サンプルに対応する、EEE13記載のオーディオ・デコーダ。
〔EEE15〕
・前記デコードされたメタデータは、一つまたは複数の拡張パラメータを含み;
・当該オーディオ・デコーダは、前記一つまたは複数の拡張パラメータを使って、前記複数の波形サブバンド信号に基づいて複数の拡張された波形サブバンド信号を生成するよう構成された拡張ユニットを有しており;
・前記オーディオ信号の前記再構成されたフレームは、前記複数の拡張された波形サブバンド信号から決定される、
EEE1ないし14のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE16〕
・当該オーディオ・デコーダは、あらかじめ決定された先読みに従って前記複数の波形サブバンド信号を遅延させて、複数の遅延された波形サブバンド信号を生じるよう構成された先読み遅延ユニットを有しており;
・前記拡張ユニットは、前記複数の遅延された波形サブバンド信号を拡張することによって、前記複数の拡張された波形サブバンド信号を生成するよう構成されている、
EEE15記載のオーディオ・デコーダ。
〔EEE17〕
・前記拡張ユニットは、あらかじめ決定された圧縮関数の逆を使って前記複数の拡張された波形サブバンド信号を生成するよう構成されており;
・前記一つまたは複数の拡張パラメータは、前記あらかじめ決定された圧縮関数の逆を示す、
EEE15または16記載のオーディオ・デコーダ。
〔EEE18〕
・前記メタデータ適用および合成ユニットは、前記複数の波形サブバンド信号の時間的な一部分について前記デコードされたメタデータを使うことによって前記オーディオ信号の前記再構成されたフレームを生成するよう構成されており;
・前記拡張ユニットは、前記複数の波形サブバンド信号の同じ時間的な一部分についての前記一つまたは複数の拡張パラメータを使うことによって、前記複数の拡張された波形サブバンド信号を生成するよう構成されている、
EEE15ないし17のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE19〕
前記複数の波形サブバンド信号の前記時間的な一部分の時間長は可変である、EEE18記載のオーディオ・デコーダ。
〔EEE20〕
前記波形遅延ユニットは前記波形信号を遅延させるよう構成されており、前記波形信号は時間領域で表現される、EEE8ないし19のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE21〕
前記メタデータ適用および合成ユニットは、サブバンド領域において前記デコードされたメタデータおよび前記複数の波形サブバンド信号を処理するよう構成されている、EEE1ないし20のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE22〕
・前記オーディオ信号の前記再構成されたフレームは、低域信号および高域信号を含み;
・前記複数の波形サブバンド信号は前記低域信号を示し;
・前記メタデータは前記高域信号のスペクトル包絡を示し;
・前記メタデータ適用および合成ユニットは、前記複数の波形サブバンド信号および前記デコードされたメタデータを使って、高周波再構成を実行するよう構成されているメタデータ適用ユニットを有する、
EEE1ないし21のうちいずれか一項記載のオーディオ・デコーダ。
〔EEE23〕
前記メタデータ適用ユニットは、
・前記複数の波形サブバンド信号の一つまたは複数を転移して複数の高域サブバンド信号を生成し;
・前記複数の高域サブバンド信号に前記デコードされたメタデータを適用して、複数のスケーリングされた高域サブバンド信号を提供するよう構成されており、
前記複数のスケーリングされた高域サブバンド信号は、前記オーディオ信号の前記再構成されたフレームの前記高域信号を示す、
EEE22記載のオーディオ・デコーダ。
〔EEE24〕
前記メタデータ適用および合成ユニットはさらに、前記複数の波形サブバンド信号からおよび前記複数のスケーリングされた高域サブバンド信号から、前記オーディオ信号の前記再構成されたフレームを生成するよう構成された合成ユニット(107)を有する、EEE23記載のオーディオ・デコーダ。
〔EEE25〕
前記合成ユニットは、前記分解ユニットによって実行された変換に関する逆変換を実行するよう構成されている、EEE24がEEE9を引用する場合のEEE24記載のオーディオ・デコーダ。
〔EEE26〕
オーディオ信号のフレームをデータ・ストリームのアクセス単位にエンコードするよう構成されたオーディオ・エンコーダ(250、350)であって、前記アクセス単位は波形データおよびメタデータを含み、前記波形データおよび前記メタデータは、前記オーディオ信号の前記フレームの再構成されたフレームを示し、当該オーディオ・エンコーダは、
・前記オーディオ信号の前記フレームから前記波形データを生成するよう構成された波形処理経路(251、252、253、254、255)と;
・前記オーディオ信号の前記フレームから前記メタデータを生成するよう構成されたメタデータ処理経路(256、257、258、259、260)とを有し、
前記波形処理経路および/または前記メタデータ処理経路は、前記オーディオ信号の前記フレームについての前記アクセス単位が前記オーディオ信号の同じフレームについての前記波形データおよび前記メタデータを含むよう、前記波形データおよび前記メタデータを時間整列させるよう構成された少なくとも一つの遅延ユニットを有する、
オーディオ・エンコーダ。
〔EEE27〕
前記少なくとも一つの遅延ユニット(252、256)は、前記波形データおよび前記メタデータを時間整列して、前記波形処理経路の全体的な遅延がメタデータ処理経路の全体的な遅延に対応するようにするよう構成されている、EEE26記載のオーディオ・エンコーダ。
〔EEE28〕
前記少なくとも一つの遅延ユニットは、前記波形データおよび前記メタデータを時間整列させて、前記波形データおよび前記メタデータが、前記波形データおよび前記メタデータから単一のアクセス単位を生成するためにちょうど間に合うタイミングで当該オーディオ・エンコーダのアクセス単位生成ユニットに提供されるようにするよう構成されている、EEE26または27記載のオーディオ・エンコーダ。
〔EEE29〕
前記波形処理経路は、前記波形処理経路中に少なくとも一つの遅延を挿入するよう構成された波形遅延ユニット(252)を有する、EEE26ないし28のうちいずれか一項記載のオーディオ・エンコーダ。
〔EEE30〕
・前記オーディオ信号の前記フレームは、低域信号および高域信号を含み;
・前記波形データは前記低域信号を示し;
・前記メタデータは前記高域信号のスペクトル包絡を示し;
・前記波形処理経路は、前記低域信号から前記波形データを生成するよう構成されており;
・前記メタデータ処理経路は、前記低域信号および前記高域信号から前記メタデータを生成するよう構成されている、
EEE26ないし29のうちいずれか一項記載のオーディオ・エンコーダ。
〔EEE31〕
・当該オーディオ・エンコーダは、前記オーディオ信号の前記フレームから複数のサブバンド信号を生成するよう構成された分解ユニットを有しており;
・前記複数のサブバンド信号は前記低域信号を示す複数の低域信号を含み;
・当該オーディオ・エンコーダは、圧縮関数を使って前記複数の低域信号を圧縮し、複数の圧縮された低域信号を提供するよう構成された圧縮ユニットを有しており;
・前記波形データは、前記複数の圧縮された低域信号を示し;
・前記メタデータは、前記圧縮ユニットによって使われた圧縮関数を示す、
EEE30記載のオーディオ・エンコーダ。
〔EEE32〕
前記高域信号のスペクトル包絡を示すメタデータが、前記オーディオ信号の、前記圧縮関数を示すメタデータと同じ部分に適用可能である、EEE31記載のオーディオ・エンコーダ。
〔EEE33〕
オーディオ信号のフレームのシーケンスについてそれぞれアクセス単位のシーケンスを含むデータ・ストリームであって、アクセス単位のシーケンスからのアクセス単位は、波形データおよびメタデータを含み、前記波形データおよび前記メタデータは、前記オーディオ信号のフレームのシーケンスの同じ特定のフレームに関連しており、前記波形データおよび前記メタデータは、その特定のフレームの再構成されたバージョンを示す、データ・ストリーム。
〔EEE34〕
前記オーディオ信号の前記特定のフレームは、低域信号および高域信号を含み、前記波形データは前記低域信号を示し、前記メタデータは前記高域信号のスペクトル包絡を示す、EEE33記載のデータ・ストリーム。
〔EEE35〕
前記メタデータは、前記低域信号に適用された圧縮関数を示す、EEE33または34記載のデータ・ストリーム。
〔EEE36〕
受領されたデータ・ストリームのアクセス単位からオーディオ信号の再構成されたフレームを決定する方法であって、前記アクセス単位は、波形データおよびメタデータを含み、前記波形データおよび前記メタデータは前記オーディオ信号の同じ再構成されたフレームに関連付けられており、当該方法は:
・前記波形データから複数の波形サブバンド信号を生成し;
・前記メタデータから、デコードされたメタデータを生成し;
・前記複数の波形サブバンド信号および前記デコードされたメタデータを時間整列させ;
・時間整列された複数の波形サブバンド信号およびデコードされたメタデータから、前記オーディオ信号の前記再構成されたフレームを生成することを含む、
方法。
〔EEE37〕
オーディオ信号のフレームをデータ・ストリームのアクセス単位にエンコードする方法であって、前記アクセス単位は波形データおよびメタデータを含み、前記波形データおよび前記メタデータは前記オーディオ信号の前記フレームの再構成されたフレームを示し、当該方法は:
・前記オーディオ信号の前記フレームから前記波形データを生成し;
・前記オーディオ信号の前記フレームから前記メタデータを生成し;
・前記波形データおよび前記メタデータを、前記オーディオ信号の前記フレームについての前記アクセス単位が前記オーディオ信号の同じフレームについての前記波形データおよび前記メタデータを含むよう時間整列させることを含む、
方法。
【外国語明細書】