【文献】
STEFAN MELTZER,MPEG-4 HE-AAC V2 - AUDIO CODING FOR TODAY'S DIGITAL MEDIA WORLD,[ONLINE],2006年 1月31日,P1-12,URL,http://tech.ebu.ch/Jahia/site/tech/cache/bypass/publications
(58)【調査した分野】(Int.Cl.,DB名)
オーディオ・データを担持するオーディオ・フレームにセグメント分割されたオーディオ・ビットストリームを受け入れるよう構成されたオーディオ処理システムであって、当該オーディオ処理システムは:
フロントエンド・コンポーネントであって:
前記オーディオ・ビットストリーム中のあるオーディオ・フレームに対応する量子化されたスペクトル係数を繰り返し受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段;および
前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段とを含むフロントエンド・コンポーネントと;
処理段であって:
前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンク;
前記中間信号の前記第二の周波数領域表現を受領し、処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネント;および
前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクとを含む処理段と;
前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するサンプル・レート変換器とを有しており、
当該オーディオ処理システムは、少なくとも二つの異なるあらかじめ定義されたオーディオ・フレーム・レートのうちの任意のオーディオ・フレーム・レートをもつオーディオ・ビットストリームを受け入れるよう構成されており、前記フロントエンド・コンポーネントは可変の最大フレーム長をもち、前記異なるあらかじめ定義されたオーディオ・フレーム・レートに対応する少なくとも二つのモードで動作可能であり、前記あらかじめ定義されたオーディオ・フレーム・レートは、5%以下の変動範囲のオーディオ・フレーム・レートのサブグループを含み、前記フロントエンド・コンポーネントは、前記サブグループ中のすべてのフレーム・レートについて同じフレーム長を使うよう構成されている、ことを特徴とする、
オーディオ処理システム。
前記量子化解除段は、量子化インデックスを、各フレーム長に関連付けられた、非一様な周波数依存の量子化レベルにマッピングし、各周波数について人間の聴覚に対して知覚不能な量子化ノイズ割り当てを達成するよう構成されている、請求項1記載のオーディオ処理システム。
前記フロントエンド・コンポーネントが、各最大フレーム長について、該最大フレーム長の同サイズのブロックへの細分である代替的なフレーム長で動作可能である、請求項1または2記載のオーディオ処理システム。
前記量子化解除段が、臨界サンプリングされた量子化解除されたスペクトル係数を含む前記中間オーディオ信号の量子化解除された周波数領域表現を出力するよう構成されており、
前記逆変換段が重複加算合成フィルタバンクを有する、
請求項1ないし5のうちいずれか一項記載のオーディオ処理システム。
オーディオ・データを担持するオーディオ・フレームにセグメント分割されたオーディオ・ビットストリームを処理する方法であって、前記オーディオ・ビットストリームはフレームにセグメント分割されており、各ビデオ・フレームは、一つまたは複数のビデオ・フレームと等しい継続時間の関連付けられたオーディオ・データを担持する、前記オーディオ・ビットストリーム中のフレームに時間的に関係しており、当該方法は:
・前記オーディオ・ビットストリーム中のあるオーディオ・フレームに対応する量子化されたスペクトル係数を繰り返し受領し、周波数から時間への変換が後続する逆量子化を実行する段階であって、それにより中間オーディオ信号の表現が得られる、段階と;
・前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理段階を実行する段階と;
・処理されたオーディオ信号のサンプリング・レートをターゲット・サンプリング周波数に変更する段階であって、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含み、
前記オーディオ・ビットストリームの現在フレーム・レートを確立するさらなる段階および前記逆量子化および周波数から時間への変換が、異なる最大フレーム長をもつ少なくとも二つのモードで動作可能な機能コンポーネント(112)において実行され、現在モードは、前記オーディオ・ビットストリームの現在フレーム・レートに応答して選択され、前記オーディオ・ビットストリームの確立された現在フレーム・レートが、いくつかの所定のフレーム・レートの一つに対してマッチングされ、前記所定のフレーム・レートは、5%以下の変動範囲のサブグループを含み、量子化されたスペクトル係数を繰り返し受領する前記の段階は、同じフレーム長をもつ前記機能コンポーネントの動作中に実行されること、を特徴とする、
方法。
【背景技術】
【0003】
今日利用可能なたいていの商業用途において使われるオーディオおよびビデオのフレーム・レート(またはフレーム周波数)は、記録および再生ソフトウェア・プロダクト、ハードウェア・コンポーネントならびに通信当事者間でオーディオおよびビデオを伝送するための合意されたフォーマットの両方において現われる別個の確立された業界標準に従う。オーディオ・フレーム・レートは典型的には種々の符号化アルゴリズムに固有であり、44.1および48kHzのようなオーディオ・サンプリング周波数に関連付けられる。これらはそれぞれの地理的領域におけるビデオ・フレーム・レート29.97fps(NTSC)および25fps(PAL)と同じくらい有名である。さらなる標準的なビデオ・フレーム・レートは23.98、24および30fpsまたはより一般化された形では24、25、30fpsおよび(24,25,30)×1000/1001fpsを含む。オーディオ・フレーム・レートを統一または調和させる試みは、アナログからデジタル頒布へのシフトにもかかわらず、まだうまくいっていない。このことは、オーディオ・フレーム(たとえばネットワークを通じた伝送のために好適なパケットまたは符号化単位)が一般には整数個のビデオ・フレームに対応しないことを含意する。
【0004】
オーディオビジュアル・データ・ストリームを同期させる必要性は、クロック・ドリフトの結果として、あるいはいくつかのストリームが異なる現からサーバーにおける共通の処理、編集またはスプライシングのために受領されるとき、絶えず生じている。こうした状況は放送局では頻繁に遭遇される。
図3に示した状況では、オーディオ・フレーム(ストリームS1内のA11、A12、…およびストリームS2内のA21、A22、…)およびビデオ・フレーム(ストリームS1内のV11、V12、…およびストリームS2内のV21、V22、…)は一致しない。(たとえば両ストリームをスプライシングする試みにおいて)ストリームの一方におけるビデオ・フレームを複製または除去することによってストリーム間でビデオからビデオへの同期を改善する試みは、典型的にはそのストリーム内でのオーディオからビデオの非同期につながる。一般に、たとえ対応するオーディオ・フレームが削除または複製されたとしても、――少なくともある程度は――非同期は持続する。
【0005】
さらなる処理を代償として、同期の間にオーディオを時間的にデコードしてフレーム分割とは独立な低レベル・フォーマット、たとえばもとのサンプリング周波数の分解能のベースバンド・フォーマットまたはパルス符号変調(PCM)にすることによって、より大きな工夫の余地を作り出すことができる。しかしながら、そのようなデコードは、メタデータの、特定のオーディオ・セグメントへの厳密なアンカー付けをぼかし、「完璧な」中間フォーマットにデコードすることによっては是正できない情報損失を生じる。一例として、ダイナミックレンジ制御(DRC)は典型的にはモード依存かつ設備依存であり、したがって実際の再生の時点でのみ消費されることができる。オーディオ・パケットを通じてDRCの特性を支配するデータ構造は、同期が行なわれた後で忠実に復元するのは難しい。よって、相続くデコード、同期およびエンコード段を過ぎてこの型のメタデータを保存するタスクは、複雑さの制約条件を受ける場合には、簡単なタスクではない。
【0006】
一層深刻な困難が、二チャネルPCM信号を担持するよう設計されており、よって符号化された形でしかマルチチャネル・コンテンツを扱えないレガシー・インフラストラクチャーとの関連で生じうる。
【0007】
所与のフレームにおけるデータが記録され、符号化されたオーディオビジュアル信号における同じ時間セグメントに正確に対応するという意味でフレーム同期的にオーディオおよびビデオ・データをエンコードすることがより便利であることは確かである。これはオーディオビジュアル・ストリームのフレームごとの操作、すなわち、ストリーム内の一つまたは複数の独立した符号化単位全体の複製または除去のもとで、オーディオからビデオへの同期を保存する。ドルビーE(商標)オーディオ・フォーマットにおいて利用可能なフレーム長はビデオ・フレーム長に一致する。典型的なビットレート448kbpsでは、このフォーマットは、デジタル・ビデオ・カセットのようなハード・メディアを好ましい記憶態様として、主として業務用の制作のために設計された。
【発明を実施するための形態】
【0010】
〈I.概観〉
オーディオ処理システムは、オーディオ・データを担持するフレームにセグメント分割されたオーディオ・ビットストリームを受け入れる。オーディオ・データは、音波をサンプリングし、こうして得られた電子的な時間サンプルをスペクトル係数に変換し、それが次いで量子化され、伝送または記憶に好適なフォーマットで符号化されることによって用意されたものでもよい。オーディオ処理システムは、単一チャネル、ステレオまたはマルチチャネルのフォーマットにおいてサンプリングされた音波を再構成するよう適応されている。フレーム中のオーディオ・データは、当該オーディオ・データが表わす音波の追加的な時間区間を再構成するための基礎として十分であるという意味で自己完結的であってもよい。再構成は、重複変換などのために先行するオーディオ・データの知識を必要としてもしなくてもよい。
【0011】
オーディオ処理システムは、少なくともフロントエンド・コンポーネントと、処理段と、所望されるターゲット・サンプリング周波数で処理されたオーディオ信号の時間領域表現を提供するためのサンプル・レート変換器とを有する。ターゲット・サンプリング周波数はあらかじめ定義された量であり、入来オーディオ・ビットストリームの属性(たとえばオーディオ・フレーム・レート)とは独立にユーザーまたはシステム設計者によって構成設定可能であることを強調しておく。一つのオプションとして、ターゲット・サンプリング周波数はオーディオ・フレーム・レートの関数であってもよい。もう一つのオプションとして、ターゲット・サンプリング周波数は一定および/またはオーディオ・フレーム・レートに関して非適応的であってもよい。
【0012】
フロントエンド・コンポーネントにおいて、量子化解除段がオーディオ・ビットストリームからの一オーディオ・フレームぶんの数の量子化されたスペクトル係数を受領し、該係数を合同して処理してフレーム中のオーディオ・データの逆量子化を制御する情報を生成し、逆量子化を実行する。フロントエンド・コンポーネントにおいて量子化解除段の下流で、逆変換段が前記出力――中間信号の第一の周波数領域表現をなすスペクトル係数――を受け、該中間信号の時間領域表現を合成する。次いで、フロントエンド・コンポーネントは、オーディオ・ビットストリームから同数のその後の量子化されたスペクトル係数(ただしこれはいくつかの変換にわたって分散していてもよい)を受領し、処理し、これらの係数を処理することに進む。量子化解除段は、オーディオ・データを所定の量子化レベル(または再構成レベルまたは再構成点)にデコードすることによって前記スペクトル係数を生成するよう構成されている。量子化レベルは、音響心理学的考察に基づいてエンコーダによって選ばれている。たとえば、所与の周波数(または周波数帯域)についての量子化雑音がマスキング閾値を超えないような仕方で選ばれている。マスキング閾値は周波数依存なので、経済的な観点からは、エンコーダに、周波数に関して非一様な諸量子化レベルを選択させることが好ましい。結果として、量子化および量子化解除は典型的には、最適な出力が生成される特定の物理的サンプリング周波数を念頭に行なわれる。
【0013】
オーディオ処理システムにおける処理段は、周波数領域で処理を実行するよう適応されていてもよい。この目的のために、処理段は、前記中間信号の周波数領域表現を提供する初期分解フィルタバンクと、一つまたは複数の処理コンポーネントとを有する。該処理コンポーネントに続いて、処理されたオーディオ信号を時間領域に戻す変換をする合成フィルタバンクがくる。
【0014】
ある例示的実施形態では、オーディ処理システムは、少なくとも二つの異なるあらかじめ定義されたオーディオ・フレーム・レートのうちの任意のものをもつオーディオ・ビットストリームを受け入れるよう構成されている。このことは、オーディオ処理システムが、各ビデオ・フレームが一つまたは複数のビデオ・フレーム、好ましくは一つまたは複数のフル・ビデオ・フレームの継続時間に等しい継続時間のオーディオ・データを担持するオーディオ・フレームに時間的に関係しているという意味でビデオ・フレームのストリームと関連付けられているオーディオ・ストリームに対して作用することを許容する。それにより、二つ以上の異なるビデオ・フレーム・レートが、オーディオ処理システムにおけるオーディオからビデオへの同期を犠牲にすることなくマッチされることができる。本稿での用法では、ビデオ・フレームの「継続時間」(秒単位)は、ビデオ・フレーム・レートの逆数として理解されてもよい。同様に、オーディオ・フレームの「継続時間」(秒単位)は、オーディオ・フレーム・レートの逆数として定義されてもよい。フレーム中のビデオ・データは、関係するオーディオ・データがサンプリングされた期間の初期時点、中間時点または最終時点におけるサンプリングから帰結しうる。あるいはまた、ビデオ・データは、オーディオ・サンプリング期間と少なくとも部分的に重なる(たとえばローリング・シャッター・プロセスによる)長い期間にわたってサンプリングされている。フロントエンド・コンポーネントは(サンプル数で測られる)可変最大フレーム長をもち、前記あらかじめ定義されたオーディオ・フレーム・レートに対応する少なくとも二つのモードで動作可能である。
【0015】
オーディオ処理システムは、相対的により低いオーディオ・フレーム・レートについて相対的により大きなフレーム長(または最大フレーム長、可能性のある細分は考慮する、下記参照)を選択することができるので、所望されるフレーム・レート適応性を達成する。逆もまたしかりである。臨界サンプリングされるシステムでは、物理的なサンプリング周波数は、オーディオ・フレームの物理的な継続時間のそこに含まれるスペクトル係数の数に対する比に対応する。量子化解除段および逆変換段は、フレーム中の係数の物理的継続時間を知っている必要はなく、係数が同じフレームに属することを知っているだけでよい。結果として得られる内部的なサンプリング周波数(物理的な単位での)の変動は、フロントエンド・コンポーネントにおけるフレーム長を変えることによって境界内に――あるいはさらにほぼ一定に――保持できるので、最終的なサンプリング・レート変換において使われる再サンプリング因子は1に近くなり、内部サンプリング周波数が一定でないことは典型的にはオーディオのいかなる知覚可能な劣化にもつながらない。換言すると、ターゲット・サンプリング周波数からわずかに異なるサンプリング周波数において最適であるよう生成されたフロントエンド段の出力のわずかなアップサンプリングまたはダウンサンプリングは、音響心理学的に有意ではない。さらに、処理段における分解フィルタバンクおよび合成フィルタバンクは、(たとえばオーディオ処理システムによって受領されるオーディオ・ビットストリームにおけるオーディオ・フレーム・レートにおける変化に応答するために)適応可能である必要がなく、固定数の周波数帯域を有していてもよい。
【0016】
上記で概説した特性をもつオーディオ処理システムは、フレーム同期的なオーディオ頒布フォーマットの先述した必要性に応答するオーディオ・フォーマットを扱うよう適応される。たとえば、ステレオ信号または他の二チャネル・オーディオ信号を伝送するために必要とされるビットレートは200kbps未満、たとえば100kbps未満であってもよい。
【0017】
ある例示的実施形態では、フロントエンド・コンポーネントが動作可能であるモードの一つは、あらかじめ定義されたオーディオ・フレーム・レートの二つ以上について使われる。たとえば、高々5%しか互いに異ならないオーディオ・フレーム・レート(あるいは別の言い方をすれば、設計フレーム・レートから高々2.5%しか異ならないオーディオ・フレーム・レート)は、物理的なサンプリング周波数におけるあまり大きな変動には対応しない。よって、フロントエンド・コンポーネントによって生成される出力、可能性としては特定のサンプリング周波数に適合するようエンコーダの戦略的なビット割り当てから帰結するスペクトル係数は、すべての周波数帯域をたとえば5%まで有効的にシフトさせるサンプリング・レート変換に対して堅牢となる。
【0018】
このことを記述するもう一つの仕方は、フロントエンド・コンポーネント、特に量子化解除段が、ビットストリーム中のエンコーダ側から受領される命令を適用するとき、ある特定の物理的サンプリング周波数について最適なオーディオ出力を生成するよう適応されるということである。本発明者は、フロントエンド・コンポーネントの意図される物理的なサンプリング周波数とその下流の何らかのコンポーネントが同調される物理的なサンプリング周波数との間のある程度のミスマッチは、逸脱が限られている限り、容認可能であることを認識するに至った。
【0019】
オーディオ符号化においてはフレーム長(または変換窓長またはブロック・サイズ)を適応的に変えることは一般的な慣行である。ここで、典型的には、静的な特性をもつオーディオ信号には相対的により大きなフレーム長が使われ、過渡成分には相対的により小さなフレーム長が使われる。ある例示的実施形態では、フロントエンド・コンポーネントは、あらかじめ定義された最大フレーム長に加えて、最大フレーム長のある割合である代替的なフレーム長で動作可能である。たとえば、代替フレーム長は、最大長のフレーム中のサンプル数の1/2、1/3、1.4、1/6、1/8、1/16を含んでいてもよい。
【0020】
ある例示的実施形態では、上記のオーディオ処理システムは、ビデオ処理システムと組み合わされて、フレーム同期的なマルチメディア・ビットストリームを受け入れ、処理されたビデオ・ストリームを出力するマルチメディア処理システムにされる。マルチメディア・ビットストリームは、オーディオ・ビットストリームと、各ビデオ・フレームがオーディオ・ビットストリーム中のあるフレームに時間的に関係しているという意味でオーディオ・ビットストリームに関連付けられているビデオ・フレームのストリームとを含んでいてもよい。オーディオおよびビデオ・フレームの間の時間的関係は、一対一、一対多または多対一でありうる。これは、マルチメディア処理システムがフレーム同期的な仕方で、すなわちマルチメディア・ストリームにおけるオーディオからビデオの同期性を乱すことなくオーディオおよびビデオ・フレームの同時の複製または削除を実行することを許容する。すでに述べたように、これは、二つのマルチメディア・ストリームのスプライシングのような動作を容易にする。フレーム同期的フォーマットの二つのマルチメディア・ストリームがスプライシングされる場合、フレーム境界をスプライシング点として使うことが常に安全である。それでも、本発明の範囲内で、マルチメディア処理システムは、異なる源、たとえばライブ・レコーディング・サイト、電波またはネットワーク受信機または記憶媒体からの二つ以上のマルチメディア・ストリームを受け入れてもよい。
【0021】
ある例示的実施形態では、オーディオ処理方法は、ビデオ・フレームのストリームと関連付けられたオーディオ・ビットストリームを入力する。ここで、オーディオ・ビットストリームはフレームにセグメント分割されており、各ビデオ・フレームは、一つまたは複数のビデオ・フレームと同じ継続時間の関連付けられたオーディオ・データを担持する、オーディオ・ビットストリーム中のフレームに時間的に関係している。そしてオーディオ処理方法は、再構成されたオーディオ信号を出力する。本方法は:
・オーディオ・ビットストリームの現在フレーム・レートを確立する段階と;
・オーディオ・ビットストリーム中のあるオーディオ・フレームに対応する量子化されたスペクトル係数を繰り返し受領し、周波数から時間への変換が後続する逆量子化を実行する段階であって、それにより中間オーディオ信号の表現が得られる、段階と;
・前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理段階を実行する段階と;
・処理されたオーディオ信号のサンプリング・レートをターゲット・サンプリング周波数に変更する段階であって、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含む。
【0022】
この例示的実施形態では、第二の段階(逆量子化および周波数から時間への変換)は、それぞれ異なる最大フレーム長をもつ少なくとも二つのモードで動作可能な、ソフトウェア・モジュールまたは量子化解除および合成回路内のコンポーネントといった機能コンポーネントにおいて実行される。機能コンポーネントを動作させるモードは、オーディオ・ビットストリームの現在フレーム・レートに応答して選択される。ここで、二つの異なるフレーム・レート値が機能コンポーネントの異なる動作モードを生じさせる。
【0023】
上記の特性をもつオーディオ処理方法は、多様なオーディオ・フレーム・レートに適応可能である。逆量子化を先述した同じ機能コンポーネントで実行する必要も、そもそもオーディオ・フレーム・レート変化に応答する機能コンポーネントで実行する必要もない。実際、逆量子化は、オーディオ・フレーム・レート変化に特に適応しないという意味で静的な(または単一モード)型の機能コンポーネントにおいて実行されてもよい。
【0024】
ある例示的実施形態では、上記のオーディオ処理方法を実行するための命令をもつコンピュータ可読な一時的または非一時的な媒体を有するコンピュータ・プログラム・プロダクトが提供される。
【0025】
第二の側面では、本発明は、いくつかの受け入れ可能なフレーム・レートのうちの一つをもつオーディオ・ビットストリームを処理する問題に対する代替的な解決策を提供する。ある例示的実施形態では、オーディオ処理システムは、ビデオ・フレームのストリームに関連付けられたオーディオ・ビットストリームを受け入れるよう構成されている。ここで、オーディオ・ビットストリームはフレームにセグメント分割されており、各ビデオ・フレームは、一つまたは複数のビデオ・フレームと同じ継続時間の関連付けられたオーディオ・データを担持する、オーディオ・ビットストリーム中のフレームに時間的に関係している。本オーディオ処理システムは:
・フロントエンド・コンポーネントであって:
○オーディオ・ビットストリーム中のあるオーディオ・フレームに対応する量子化されたスペクトル係数を繰り返し受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段;および
○前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段とを含むフロントエンド・コンポーネントと;
・処理段であって:
○前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンク;
○前記中間信号の前記周波数領域表現を受領し、処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネント;および
○前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクとを含む処理段と;
・前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するサンプル・レート変換器とを有する。
【0026】
この例示的実施形態によれば、フロントエンド・コンポーネントは固定フレーム長を有していてもよい。フロントエンド・コンポーネントが異なるフレーム継続時間(または等価だが異なるフレーム・レート)だが等しいフレーム長に対応する量子化されたスペクトル係数を処理するとき、サンプル・レート変換器がオーディオ処理システムの出力の物理的なサンプリング周波数を所望されるターゲット物理的サンプリング周波数に復元してもよい。先の例示的実施形態と同様に、異なるフレーム・レートへの適応可能性は、フロントエンド・コンポーネントが前提とする(あるいはより正確にはそれが受領する制御データを準備するエンティティが前提とする)物理的なサンプリング周波数と再構成されたオーディオ信号の物理的なサンプリング周波数との間の限られたミスマッチを受け入れることによって達成される。
【0027】
本発明のあるさらなる側面は、上記で概説したオーディオ処理システムのいずれかによってデコードされるオーディオ・ビットストリームを準備するのに好適なエンコーダ・システムおよびエンコード方法を提供する。
【0028】
特に断りのない限り、本発明は、たとえ互いに異なる請求項に記載されていたとしても、特徴のあらゆる組み合わせに関する。
【0029】
〈II.例示的実施形態〉
図1は、エンコードされたオーディオ・ビットストリームPを受領し、
図1においてステレオ・ベースバンド信号L、Rの対として示される再構成されたオーディオ信号をその最終出力とする、オーディオ処理システム100の一般化されたブロック図である。この例では、ビットストリームPが量子化された変換符号化された二チャネル・オーディオ・データを含むことが想定される。オーディオ処理システム100は通信ネットワーク、無線受信機またはメモリ(図示せず)からオーディオ・ビットストリームPを受領しうる。システム100の出力は、再生のためにラウドスピーカーに供給されてもよく、あるいは通信ネットワークまたは無線リンクを通じたさらなる伝送のためまたはメモリ内での記憶のために同じまたは異なるフォーマットで再エンコードされてもよい。
【0030】
オーディオ処理システム100は、ビットストリームPを量子化されたスペクトル係数および制御データにデコードするためのデコーダ108を有する。その構造についてのちにより詳細に論じるフロントエンド・コンポーネント110は、これらのスペクトル係数を量子化解除し、処理段120によって処理されるべき中間オーディオ信号の時間領域表現を供給する。中間オーディオ信号は分解フィルタバンク122L、122Rによって、先述した符号化変換に関連付けられたものとは異なる第二の周波数領域に変換される。第二の周波数領域表現は、直交ミラー・フィルタ(QMF)表現であってもよく、その場合、分解フィルタバンク122L、122RはQMFフィルタバンクとして提供されてもよい。分解フィルタバンク122L、122Rの下流では、高周波数再構成を受け持つスペクトル帯域複製(SBR)モジュール124およびダイナミックレンジ制御(DRC)モジュール126が、中間オーディオ信号の第二の周波数領域表現を処理する。その下流では、合成フィルタバンク128L、128Rがこのように処理されたオーディオ信号の時間領域表現を生成する。本開示を吟味した当業者は理解するであろうが、スペクトル帯域複製モジュール124もダイナミックレンジ制御モジュール126も本発明の必須要素ではない。逆に、異なる例示的実施形態に基づくオーディオ処理システムは、処理段120内の追加的または代替的なモジュールを含んでいてもよい。処理段120の下流では、サンプル・レート変換器130が、処理されたオーディオ信号のサンプリング・レートを調整して、意図された再生設備(図示せず)が指定されている所望されるオーディオ・サンプリング・レート、たとえば44.1kHzまたは48kHzにするよう動作可能である。出力におけるアーチファクトが少ないサンプル・レート変換器130をどのように設計するか自身は当技術分野において既知である。サンプル・レート変換器130は、これが必要とされない時、すなわち処理段120が供給する処理されたオーディオ信号がすでにターゲット・サンプリング周波数をもつ時には非アクティブ化されてもよい。サンプル・レート変換器130の下流に配置される任意的な信号制限モジュール140が、クリップなし(no-clip)条件に従って必要に応じてベースバンド信号値を制限するよう構成される。クリップなし条件はやはり特定の意図される再生設備に鑑みて選ばれてもよい。
【0031】
図1の下部に示されるように、フロントエンド・コンポーネント110は、異なるブロック・サイズをもついくつかのモードの一つで動作できる量子化解除段114と、やはり異なるブロック・サイズに対して動作できる逆変換段118L、118Rとを有する。好ましくは、量子化解除段114および逆変換段118L、118Rのモード変化は同期的であり、よってブロック・サイズはすべての時点においてマッチする。これらのコンポーネントの上流では、フロントエンド・コンポーネント110は、制御データから量子化されたスペクトル係数を分離するためのデマルチプレクサ112を有する。典型的には、それは制御データを逆変換段118L、118Rに転送し、量子化されたスペクトル係数(および任意的には前記制御データ)を量子化解除段114に転送する。量子化解除段114は、(典型的には整数として表わされる)量子化インデックスの一つのフレームから(典型的には浮動小数点数として表わされる)スペクトル係数の一つのフレームへのマッピングを実行する。各量子化インデックスは、量子化レベル(または再構成点)に関連付けられている。オーディオ・ビットストリームが上記で論じたように非一様量子化を使って準備されたとすると、量子化インデックスがどの周波数帯域を指すかが指定されない限り、その関連付けは一意的ではない。別の言い方をすれば、量子化解除プロセスは、各周波数帯域についての異なるコードブックに従ってもよく、コードブックの集合がフレーム長および/またはビットレートの関数として変わってもよい。
図1では、これは概略的に示されている。ここで、縦軸は周波数を表わし、横軸は単位周波数当たりに割り当てられた符号化ビットの量を表わす。周波数帯域は典型的にはより高い周波数についてはより広くなり、内部サンプリング周波数fiの半分で終わることを注意しておく。内部サンプリング周波数は、サンプル・レート変換器130における再サンプリングの結果として、数値的に異なる物理的なサンプリング周波数にマッピングされてもよい。たとえば、4.3%のアップサンプリングはfi=46.034kHzを近似的な物理的周波数48kHzにマッピングし、低いほうの周波数帯域境界を同じ因子だけ増大させる。
図1がさらに示唆するように、オーディオ・ビットストリームを準備するエンコーダは典型的には、異なる周波数帯域には、符号化される信号の複雑さおよび人間の聴覚の期待される感度変動に従って、異なる量の符号化ビットを割り当てる。
【0032】
オーディオ処理システム100、特にフロントエンド・コンポーネント110の動作モードを特徴付ける定量的データが表1に与えられている。
【0033】
【表1】
表1における強調された列は、制御可能な量の値を含んでいる。残りの量はこれらに依存するものと見なされてよい。さらに、再サンプリング(SRC)因子の理想的な値が(24/25)×(1000/1001)≒0.9560、24/25=0.96および1000/1001≒0.9990であることを注意しておく。表1に挙げたSRC因子の値は丸められている。フレーム・レート値も同様である。再サンプリング因子1.000は厳密であり、SRC 130が非アクティブ化されているまたは完全に存在しないことに対応する。例示的実施形態では、オーディオ処理システム100は、そのうちの一つまたは複数が表1のエントリーに一致してもよい異なるフレーム長をもつ少なくとも二つのモードで動作可能である。
【0034】
フロントエンド・コンポーネントのフレーム長が1920サンプルに設定されるモードa-dは、普及している符号化フォーマットのビデオ・フレーム・レートに厳密に一致するよう選択された(オーディオ)フレーム・レート23.976、24.000、24.975および25.000Hzを扱うために使われる。異なるフレーム長のため、モードa〜dでは、内部サンプリング周波数(フレーム・レート×フレーム長)は約46.034kHzから48.000kHzまで変わる。臨界サンプリングおよび均等に離間した周波数ビンを想定すると、これは11.988Hzから12.500Hzの範囲内のビン幅値(内部サンプリング周波数の半分/フレーム長)に対応する。内部サンプリング周波数の変動は制限されているので(フレーム・レートの変動範囲が約5%である結果、それは約5%)、オーディオ処理システム100は、はいってくるオーディオ・ビットストリームが準備された物理的なサンプリング周波数に厳密にマッチしないにもかかわらず、四つのモードa〜dのすべてにおいて合理的な出力品質を与える。
【0035】
フロントエンド・コンポーネント110の下流に続けると、分解(QMF)フィルタバンク122は、すべてのモードa〜dにおいて64個の帯域またはQMFフレーム当たり30個のサンプルをもつ。物理的には、これは各分解周波数帯域のわずかに変動する幅に対応するが、変動はやはり無視できるほど限られている。特に、SBRおよびDRC処理モジュール124、126は、出力品質に不都合なく、現在モードについて不可知であってもよい。しかしながら、SRC 130はモード依存であり、処理されたオーディオ信号の各フレームが物理的単位において48kHzのターゲット外部サンプリング周波数に対応する数のサンプルを含むことを保証するために―ターゲット外部サンプリング周波数と内部サンプリング周波数の商に一致するよう選ばれる―特定の再サンプリング因子を使う。
【0036】
モードa〜dのそれぞれにおいて、オーディオ処理システム100は、ビデオ・フレーム・レートと外部サンプリング周波数両方に厳密にマッチする。すると、オーディオ処理システム100は
図4のマルチメディア・ビットストリームT1およびT2のオーディオ部分を扱いうる。ここで、オーディオ・フレームA11、A12、A13、…;A22、A23、A24、…およびビデオ・フレームV11、V12、V13、…;V22、V23、V24は各ストリーム内において時間的に一致する。
図4に示唆されるように、このとき、進んでいるストリームにおけるオーディオ・フレームおよび関連付けられたビデオ・フレームを削除することによって、ストリームT1、T2の同期を改善することができる。あるいはまた、遅れているストリームにおけるオーディオ・フレームおよび関連付けられたビデオ・フレームが複製され、もとの位置の次に挿入される。この際、可能性としては知覚可能なアーチファクトを軽減するために補間措置が組み合わされる。
【0037】
フレーム・レート29.97Hzおよび30.00Hzを扱うよう意図されたモードeおよびfは、第二のサブグループとして見分けられる。すでに説明したように、オーディオ・データの量子化は、約48kHzの内部サンプリング周波数のために適応される(または最適化される)。よって、各フレームがより短いので、フロントエンド・コンポーネント110のフレーム長はより小さな値、1536サンプルに設定され、それにより約46.034および46.080kHzの内部サンプリング周波数となる。分解フィルタバンク122が64個の周波数帯域をもちモード独立であれば、各QMFフレームは24サンプルを含む。
【0038】
同様に、50Hzおよび60Hz(標準化されたテレビジョン・フォーマットにおけるリフレッシュ・レートの二倍に対応)および120Hzまたはその付近のフレーム・レートは、それぞれモードg〜i(フレーム長960サンプル)、モードj〜k(フレーム長768サンプル)およびモードl(フレーム長384サンプル)によってカバーされる。内部サンプリング周波数はそれぞれの場合において48kHzに近いままであり、よってオーディオ・ビットストリームが生成されたときの量子化プロセスのいかなる音響心理学的チューニングも少なくとも近似的には有効なままであることを注意しておく。64帯域フィルタバンクにおけるそれぞれのQMFフレーム長は15、12および6サンプルである。
【0039】
上述したように、オーディオ処理システム100は、オーディオ・フレームをより短いサブフレームに細分するよう動作可能であってもよい。これを行なう理由は、オーディオ過渡成分をより効率的に捕捉することであってもよい。48kHzサンプリング周波数および表1で与えられた設定については、下記の表2〜表4が2、4、8(
図4におけるオーディオ・フレームA29参照)および16サブフレームへの細分から帰結するビン幅およびフレーム長を示している。表1に基づく設定は時間および周波数分解能の有利なバランスを達成すると思われる。
【0042】
【表4】
フレームの細分に関係する決定は、オーディオ・エンコード・システム(図示せず)におけるようなオーディオ・ビットストリームを準備するプロセスの一部として行なわれてもよい。
【0043】
表1においてモードmによって示されるように、オーディオ処理システム100はさらに、96kHzの増大した外部サンプリング周波数および128QMF帯域で動作することを可能にされてもよい。これはQMFフレーム当たり30サンプルに対応する。外部サンプリング周波数はたまたま内部サンプリング周波数と一致するので、SRC因子は1である。これは再サンプリングが必要ないことに相当する。
【0044】
図2は、受信サイト210を有するメディア頒布システムを示している。受信サイト210は衛星受信機211および/または電波周波数受信機212を有していてもよく、これらは統合受信機兼復号器(IRD:integrated receiver and decoder)におけるコンポーネントとして設けられてもよい。オーディオおよびビデオ・データを搬送するマルチメディア・ビットストリームは受信サイト210において受信される。マルチメディア・ビットストリームは、ビットストリーム・コンテンツのローカル時間219、たとえばサンプリング装置におけるローカル時間を定義するタイムスタンプを有する。受信され、可能性としては復号されたマルチメディア・ビットストリームは次いで、コンテンツ・ルーティングおよび管理が行なわれてもよいターンアラウンド・サイト220に伝送される。いくつかのターンアラウンド・サイト220は復号を全く実行しなくてもよい。マルチメディア・ビットストリームのオーディオ部分はたとえば、映画テレビ技術者協会によって定義された業界標準SMPTE337のあるバージョンに従ってフォーマットされてもよい。このフォーマットは、データが他のインターフェースを通じて送達される情報コンテンツと同期されることを許容する時間整列情報を含むので、使うのが有利である。そのような属性をもつ他のフォーマットがこの使用においてSMPTE337を置き換えてもよい。
【0045】
ターンアラウンド・サイト220におけるローカル時間229は、ターンアラウンド・サイト220および下流のエンティティに対して共通のローカル参照クロックまたはネットワーク参照時間によって定義されてもよい。理想的には、コンテンツのローカル時間219およびターンアラウンド・サイト220におけるローカル時間229は等しいが、実際上は、クロック・ドリフトの結果として違いがあることがある。その点で、受信されたマルチメディア・ビットストリームを同期させる必要性が生じる。より正確には、ターンアラウンド処理がHD-SDI(high definition serial digital interface[高精細度シリアル・デジタル・インターフェース])レベルでなされる実装では、圧縮解除されたビデオは、従来は未使用のHANCおよびVANC(horizontal and vertical ancillary data[水平および垂直補助データ])スペースをいまだ有するフレームにおいて搬送される。HANCおよびVANCスペースは、エンコードされたオーディオ・データを輸送するために使われる。この実装では、オーディオおよびビデオ・データの間の唯一の相対的なタイミング情報は、HD-SDI信号の特定の諸フレームにおけるオーディオ・データの配置によって暗黙的に与えられる。オーディオが同期的な仕方でフレーミングされないとすると、HD-SDIフレームの反復または脱落は、そのビデオ・フレームと一緒に反復/脱落されるオーディオ・データの継続時間(または時間的な局在化)についていかなる情報も返さないであろう。反復/脱落が隣接する諸HD-SDIフレームが、次のまたは直前のHD-SDIフレームに依拠することによって完全なオーディオ・フレームに復元されることのできないオーディオ・フレームの断片を含むようになる場合、該隣接する諸HD-SDIフレームも破損することがありうる。フレーム同期的なオーディオ符号化は、この障害を回避する。等しい物理的継続時間のオーディオおよびビデオ・データおよび実際にはその完全なフレームを反復する/脱落させることしか許容しないからである。
【0046】
複数のマルチメディア・ビットストリームをたとえば異なるコンテンツ・オブジェクトの間でまたはコンテンツと広告素材の間で接合することは、フレーム同期性が非常に有用であるさらなる例である。実際、これは各フレームがオーディオおよびビデオ・データの対応するおよび時間同期的な部分を符号化することを保証する。よって、二つの連続するフレームの間でビットストリームを中断または開始することが常に安全である。したがって、フレーム境界が接合点として使われてもよい。
【0047】
ターンアラウンド・サイト220の下流では、シリアル・デジタル・インターフェース(SDI)ルーター230、次いでビデオ・エンコーダが配置されていてもよい。ビデオ・エンコーダにはオーディオ・パススルー・コンポーネントが並列接続されていて、まとめて参照符号240で示される。SDIルーター230はたとえば、それぞれSMPTE259MおよびSMPTE292Mとして標準化された標準精細度および高精細度フォーマットに準拠していてもよい。ビデオ・エンコーダおよびオーディオ・パススルー・コンポーネント240から供給されるトランスコードされたオーディオビジュアル・データは次いで、有線または無線通信ネットワーク290を通じて消費者291、292、293に伝送される。
【0049】
本発明の第二の側面に関し、
図1に示したオーディオ処理システム100と同じ一般的な特性をもつが、フロントエンド・コンポーネントのマルチモード機能を全く必要としない代替的なオーディオ処理システムを提供することが構想される。よって、そのフロントエンド・コンポーネントの(恒久的な)設定に依存して、代替的なオーディオ処理システムは、モードa〜dまたはモードe〜fまたはモードg〜iまたはモードj〜kのいずれかで動作可能である。代替的なオーディオ処理システムの適応可能性は主としてSRCに起因する。フロントエンド・コンポーネントは、変わりうる物理的継続時間を必ずしも知ることなく(あるいは少なくともそれに適応することなく)各フレーム内のサンプルを処理する。よって、物理的なサンプリング周波数は変わりうるが、その変動が限られている限り、著しい不都合な音響心理学的な副作用はない。
【0050】
図5では、ある例示的実施形態に基づくエンコーダ・システム501が概略的に描かれている。入力信号5011はサンプリング・レートFsをもち、これは48kHzであってもよい。さらに、ビデオ・フレーム・レート5010がエンコーダに入力され、これにオーディオ・フレーム・レートが整列されるべきである。「適応」モジュール502は、要求されるフレーム・レートを扱うようシステムをベース変換サイズ(または最大フレーム長)に適応させ、このベース変換サイズを、(表2〜4に基づく)入力信号特性の関数として、より小さな変換に細分する。所望されるフレーム・レートはさらにサンプル・レート変換器(SRC)モジュール508に供給される。システムが、単一のベース変換サイズをもって種々のフレーム・レートの倍数を扱うことができるようにする内部サンプリング・レート(内部Fs)を与えるためである。ベース変換サイズは、オーディオ符号化の観点から最適または少なくとも有利であるよう選ばれる。すなわち、それは静的な信号については(合理的な限界の範囲内で)できるだけ長いべきであり、たとえば48kHzのサンプリング・レートについて2048、1920、1536MDCTラインであり、好ましくは過渡的なパッセージについてはより小さな変換に、たとえば8個または16個の変換に細分可能である。本例示的実施形態によれば、SRCモジュール508は、外部サンプリング・レートからの制限された逸脱をもつ内部サンプリング・レートを提供するよう制限されるよう設計される。それにより、選択されたMDCTベース変換サイズの物理的な時間/周波数属性を有意に変えない。
【0051】
MDCTモジュール504は、サンプリング・レート「内部FS」の入力時間領域信号を周波数領域に変換する。「量子化&エンコード」モジュール503はMDCTラインを、実際の(物理的な)周波数の関数としての人間の聴覚系の感度および周波数分解能の変動を考慮に入れる音響心理学的モデルに従って量子化する。「量子化およびエンコード」モジュール503は、内部サンプリング周波数または外部サンプリング周波数を使って量子化および音響心理学を実行するよう適応されることができる。後者が選択される場合、サンプリング・レート変換器が考慮に入れられないので、実際の物理的周波数からの逸脱が存在する。しかしながら、本システムの設計を与えられると、この逸脱は無視できるほど十分に小さい。別の言い方をすれば、音響心理学は、MDCTの特定のサイズが与えられてサンプリング・レートの異なる範囲に適応する能力があるが、サンプリング・レート変換器に起因する信号の外部サンプリング・レートからの内部サンプリング・レートの逸脱は、外部サンプリング・レートについてのチューニング・パラメータの範囲外にはならないほど十分に小さい。
【0052】
デコーダ側で高周波数再構成が有効にされていることに頼る「HFRエンコーダ」506は、たとえば64サブバンドの固定したQMF変換507のサブバンドに対して作用する。HFRエンコードおよびデコードのためのQMFフィルタバンクは常に固定した変換サイズなので(HFR処理に一般に使われる擬似QMFはMDCTのように変化する窓シーケンスおよび変換サイズをもつことができない)、関連するビデオ/オーディオ・フレーム・レートの大半について64サブバンドに固定されたQMF変換サイズを維持することが可能であるということは、本例示的実施形態の恩恵である。
【0053】
HFRエンコーダ506は、QMFサンプルのグループ、たとえば48kHzにおける2048サンプル・フレームについての32サンプルに対して作用する(64サブバンドかける32QMFサンプルは2048時間領域サンプルに等しい)。表1で概説された提案された変換サイズおよびSRC因子を与えられて、HFRエンコーダ506は、ビデオ・フレーム・レートに従ってフレーム・サイズを適応させる必要があるだけである。これは上記で概説した32サンプルの例とはわずかに異なる仕方で時間的にQMFサブバンド・サンプルをグループ化することによる。SRC因子の選択は、フレームに対応するQMFサンプルの数が整数(やはり表1で概説している)であることを保証する。
【0054】
さらに、HFRエンコーダ506は典型的には、バーク・スケールに関係した近似に従って、スペクトルを広い諸帯域にグループ分けする。この観点から、サブバンドのグループ分けがビデオ・フレーム・レートの関数として変化しないので、QMFサブバンドの数を一定に保つことは、本例示的実施形態の利点である。
【0055】
MDCTからの量子化されたスペクトルは制御データとともにマルチプレクサ505によって多重化されて出力オーディオ・ビットストリームを形成する。
【0056】
まとめると、
図5に示した例示的実施形態は、次の性質をもつエンコーダ・システム501を(実際は、デコーダとして作用する対応するオーディオ処理システム100も)提供する:
・内部および外部サンプリング・レートの間の差を最小にするために、SRC因子を1に近く保つ;
・オーディオ符号化のために機能することが知られており、過渡成分を扱うためにサブ変換にうまく細分できるMDCTベース変換サイズを使う;
・実装、チューニングを簡単にし、エンコーダからデコーダへの信号伝達オーバーヘッドを最小にするために種々のMDCTベース変換サイズの最小のものを使い、
・高周波数再構成および同様のアルゴリズムについてうまく機能することが知られており、整数個のQMFサンプルをフレームにグループ化することを許容するサブバンドの数(64)をもつ単一の固定サイズのQMFフィルタバンクを含む。
【0057】
エンコーダ・システム501のあるさらなる発展では、システムは帯域幅制限コンポーネント(図示せず)を含んでいてもよい。実際、入力サンプリング・レート48kHzの信号については、そのような帯域幅制限コンポーネントはオーディオ帯域幅をたとえば20kHz、すなわちナイキスト周波数より4kHz下制限してもよい。これは、デコーダ側でSRC 130の設計を軽減する。サンプリング・レート変換プロセスにおいてより急峻でない低域通過フィルタが使用できるからである。
【0058】
〈III.等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本発明のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本発明の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
【0059】
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働していくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様1〕
ビデオ・フレームのストリームに関連付けられたオーディオ・ビットストリームを受け入れるよう構成されたオーディオ処理システムであって、前記オーディオ・ビットストリームはフレームにセグメント分割されており、各ビデオ・フレームは、一つまたは複数のビデオ・フレームと等しい継続時間の関連付けられたオーディオ・データを担持する前記オーディオ・ビットストリーム中のフレームに時間的に関係しており、当該オーディオ処理システムは:
フロントエンド・コンポーネントであって:
前記オーディオ・ビットストリーム中のあるオーディオ・フレームに対応する量子化されたスペクトル係数を繰り返し受領し、中間信号の第一の周波数領域表現を出力するよう適応された量子化解除段;および
前記中間信号の前記第一の周波数領域表現を受領し、それに基づいて前記中間信号の時間領域表現を合成する逆変換段とを含むフロントエンド・コンポーネントと;
処理段であって:
前記中間信号の前記時間領域表現を受領し、前記中間信号の第二の周波数領域表現を出力する分解フィルタバンク;
前記中間信号の前記第二の周波数領域表現を受領し、処理されたオーディオ信号の周波数領域表現を出力する少なくとも一つの処理コンポーネント;および
前記処理されたオーディオ信号の前記周波数領域表現を受領し、前記処理されたオーディオ信号の時間領域表現を出力する合成フィルタバンクとを含む処理段と;
前記処理されたオーディオ信号の前記時間領域表現を受領し、ターゲット・サンプリング周波数でサンプリングされた再構成されたオーディオ信号を出力するサンプル・レート変換器とを有しており、
当該オーディオ処理システムは、少なくとも二つの異なるあらかじめ定義されたオーディオ・フレーム・レートのうちの任意のオーディオ・フレーム・レートをもつオーディオ・ビットストリームを受け入れるよう構成されており、前記フロントエンド・コンポーネントは可変の最大フレーム長をもち、前記異なるあらかじめ定義されたオーディオ・フレーム・レートに対応する少なくとも二つのモードで動作可能であることを特徴とする、
オーディオ処理システム。
〔態様2〕
前記あらかじめ定義されたオーディオ・フレーム・レートは、5%以下の変動範囲のオーディオ・フレーム・レートのサブグループを含み;
前記フロントエンド・コンポーネントは、前記サブグループ中のすべてのフレーム・レートについて同じフレーム長を使うよう構成されている、
態様1記載のオーディオ処理システム。
〔態様3〕
前記量子化解除段は、量子化インデックスを、各フレーム長に関連付けられた、非一様な周波数依存の量子化レベルにマッピングし、各周波数について人間の聴覚に対して知覚不能な量子化ノイズ割り当てを達成するよう構成されている、態様1または2記載のオーディオ処理システム。
〔態様4〕
前記フロントエンド・コンポーネントが、各最大フレーム長について、該最大フレーム長の同サイズのブロックへの細分である代替的なフレーム長で動作可能である、態様1ないし3のうちいずれか一項記載のオーディオ処理システム。
〔態様5〕
前記オーディオ・ビットストリームの全ビットレートが、二チャネル・オーディオ・データを担持するとき、200kbps未満、好ましくは100kbps未満である、態様1ないし4のうちいずれか一項記載のオーディオ処理システム。
〔態様6〕
前記分解フィルタバンクおよび合成フィルタバンクが固定数の周波数帯域をもつフィルタバンクである、態様1ないし5のうちいずれか一項記載のオーディオ処理システム。
〔態様7〕
前記量子化解除段が、臨界サンプリングされた量子化解除されたスペクトル係数を含む前記中間オーディオ信号の量子化解除された周波数領域表現を出力するよう構成されており、
前記逆変換段が重複加算合成フィルタバンクを有する、
態様1ないし6のうちいずれか一項記載のオーディオ処理システム。
〔態様8〕
前記オーディオ・ビットストリームがマルチチャネル・オーディオ信号をパラメトリック・エンコードするものである、態様1ないし7のうちいずれか一項記載のオーディオ処理システム。
〔態様9〕
態様1ないし8のうちいずれか一項記載のオーディオ処理システムと;
前記オーディオ・ビットストリームに関連付けられたビデオ・フレームのストリームを受け入れ、処理されたビデオ・フレームのストリームを出力するよう構成されたビデオ処理システムとを有するマルチメディア処理システムであって、
当該マルチメディア処理システムが、一つまたは複数のオーディオ・フレームおよびそれに時間的に関係した一つまたは複数のビデオ・フレームの複製および/または削除を実行するよう動作可能である、
マルチメディア処理システム。
〔態様10〕
ビデオ・フレームのストリームと関連付けられたオーディオ・ビットストリームを処理する方法であって、前記オーディオ・ビットストリームはフレームにセグメント分割されており、各ビデオ・フレームは、一つまたは複数のビデオ・フレームと等しい継続時間の関連付けられたオーディオ・データを担持する、前記オーディオ・ビットストリーム中のフレームに時間的に関係しており、当該方法は:
・前記オーディオ・ビットストリーム中のあるオーディオ・フレームに対応する量子化されたスペクトル係数を繰り返し受領し、周波数から時間への変換が後続する逆量子化を実行する段階であって、それにより中間オーディオ信号の表現が得られる、段階と;
・前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理段階を実行する段階と;
・処理されたオーディオ信号のサンプリング・レートをターゲット・サンプリング周波数に変更する段階であって、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含み、
前記オーディオ・ビットストリームの現在フレーム・レートを確立するさらなる段階および前記逆量子化および周波数から時間への変換が、異なる最大フレーム長をもつ少なくとも二つのモードで動作可能な機能コンポーネント(112)において実行され、現在モードは、前記オーディオ・ビットストリームの現在フレーム・レートに応答して選択される、
方法。
〔態様11〕
前記逆量子化が、静的な第二の機能コンポーネント(114)において実行される、態様10記載の方法。
〔態様12〕
前記オーディオ・ビットストリームがマルチチャネル・オーディオ信号をパラメトリック・エンコードするものである、態様10または11記載の方法。
〔態様13〕
前記オーディオ・ビットストリームの確立された現在フレーム・レートが、いくつかの所定のフレーム・レートの一つに対してマッチングされ、前記所定のフレーム・レートは、5%以下の変動範囲のサブグループを含み、量子化されたスペクトル係数を繰り返し受領する前記の段階は、同じフレーム長をもつ前記機能コンポーネントの動作中に実行される、態様10ないし12のうちいずれか一項記載の方法。
〔態様14〕
態様10ないし13のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。