(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-10
(45)【発行日】2022-03-18
(54)【発明の名称】少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード
(51)【国際特許分類】
G10L 21/0388 20130101AFI20220311BHJP
G10L 19/00 20130101ALI20220311BHJP
G10L 19/02 20130101ALI20220311BHJP
【FI】
G10L21/0388
G10L19/00 330B
G10L19/00 330A
G10L19/02 150
【外国語出願】
(21)【出願番号】P 2020035671
(22)【出願日】2020-03-03
(62)【分割の表示】P 2018146625の分割
【原出願日】2016-03-10
【審査請求日】2020-04-01
(32)【優先日】2015-03-13
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2015-03-16
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ヴィレモーズ,ラルス
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
(72)【発明者】
【氏名】エクストランド,ペール
【審査官】菊池 智紀
(56)【参考文献】
【文献】特表2014-512020(JP,A)
【文献】特開2013-125187(JP,A)
【文献】国際公開第2014/115225(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26,
21/038-21/0388
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
エンコードされたオーディオ・ビットストリームのブロックを多重分離するよう構成されたビットストリーム・ペイロード・フォーマット解除器と;
前記ビットストリーム・ペイロード・フォーマット解除器に結合され、前記エンコードされたオーディオ・ビットストリームの前記ブロックの少なくとも一部をデコードするよう構成されたデコード・サブシステムとを有するオーディオ処理装置であって、前記エンコードされたオーディオ・ビットストリームの前記ブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは
向上スペクトル帯域複製メタデータを含み、該向上スペクトル帯域複製メタデータは:
前記エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグと;
MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述または言及されていない少なくとも一つのeSBRツールを有効にするよう構成されたメタデータ
とを含み、
少なくとも一つの向上スペクトル帯域複製ツールを有効にするよう構成された前記メタデータは、前置平坦化を実行するかどうかを示すパラメータを含み、
前記向上スペクトル帯域複製メタデータは、スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含まず、前記デコード・サブシステムは、前記パラメータが前置平坦化が実行されるべきであることを示す場合、包絡調整器に入力される高周波数信号のスペクトル包絡の形における不連続を避けるための追加的な前処理を実行するよう構成される、
オーディオ処理装置。
【請求項2】
前記エンコードされたオーディオ・ビットストリームがMPEG-4 AACビットストリームである、請求項1記載のオーディオ処理
装置。
【請求項3】
前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、請求項1記載のオーディオ処理
装置。
【請求項4】
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、前記スペクトル帯域複製拡張データは:
スペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記
向上スペクトル帯域複製メタデータは、前記スペクトル帯域複製拡張要素に含まれる、
請求項1記載のオーディオ処理
装置。
【請求項5】
エンコードされたオーディオ・ビットストリームをデコードする方法であって、当該方法は:
前記エンコードされたオーディオ・ビットストリームのブロックを多重分離し;
前記エンコードされたオーディオ・ビットストリームの前記ブロックの少なくとも一部をデコードすることを含み、
前記エンコードされたオーディオ・ビットストリームの前記ブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定するフラグと;
スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含まない向上スペクトル帯域複製メタデータとを含み、前記向上スペクトル帯域複製メタデータは、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述または言及されていない少なくとも一つのeSBRツールを有効にするよう構成されたメタデータであり、
前記向上スペクトル帯域複製メタデータは、前置平坦化を実行するかどうかを示すパラメータを含み、
当該方法がさらに、前記パラメータが前置平坦化が実行されるべきであることを示す場合、包絡調整器に入力される高周波数信号のスペクトル包絡の形における不連続を避けるための追加的な前処理を実行することを含む、
方法。
【請求項6】
前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、請求項5記載の方法。
【請求項7】
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、前記スペクトル帯域複製拡張データは:
スペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
請求項5記載の方法。
【請求項8】
前記エンコードされたオーディオ・ビットストリームがMPEG-4 AACビットストリームである、請求項5記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関する。いくつかの実施形態はオーディオ・ビットストリーム(たとえばMPEG-4 AACフォーマットをもつビットストリーム)のエンコードおよびデコードに関する。他の実施形態は、そのようなビットストリームの、eSBR処理を実行するよう構成されておらずそのようなメタデータを無視するレガシー・デコーダによるデコードに関し、あるいはそのようなメタデータを含まないオーディオ・ビットストリームのデコードに関し、それは該ビットストリームに応答してeSBR制御データを生成することによることを含む。
【背景技術】
【0002】
典型的なオーディオ・ビットストリームは、オーディオ・コンテンツの一つまたは複数のチャネルを示すオーディオ・データ(たとえばエンコードされたオーディオ・データ)と、前記オーディオ・データまたはオーディオ・コンテンツの少なくとも一つの特性を示すメタデータとの両方を含む。エンコードされたオーディオ・ビットストリームを生成するための一つのよく知られたフォーマットは、MPEG規格ISO/IEC14496-3:2009に記載されるMPEG-4先進オーディオ符号化(AAC: Advanced Audio Coding)フォーマットである。MPEG-4規格では、AACは「advanced audio coding(先進オーディオ符号化)」を表わし、HE-AACは「high-efficiency advanced audio coding(高効率先進オーディオ符号化)」を表わす。
【0003】
MPEG-4 AAC規格はいくつかのオーディオ・プロファイルを定義しており、それらのオーディオ・プロファイルがどのオブジェクトおよび符号化ツールが準拠するエンコーダまたはデコーダにおいて存在しているかを決める。これらのオーディオ・プロファイルのうちの三つは、(1)AACプロファイル、(2)HE-AACプロファイルおよび(3)HE-AAC v2プロファイルである。AACプロファイルはAAC低計算量(AAC low complexity)(または「AAC-LC」)オブジェクト型を含む。AAC-LCオブジェクト型は、若干の調整はあるがMPEG-2 AAC低計算量プロファイルに対応するものであり、スペクトル帯域複製(spectral band replication)(「SBR」)オブジェクト型もパラメトリック・ステレオ(parametric stereo)(「PS」)オブジェクト型も含まない。HE-AACプロファイルはAACプロファイルの上位集合であって、追加的にSBRオブジェクト型を含む。HE-AAC v2プロファイルはHE-AACプロファイルの上位集合であって、追加的にPSオブジェクト型を含む。
【0004】
SBRオブジェクト型は、スペクトル帯域複製ツールを含む。これは、知覚的オーディオ・コーデックの圧縮効率を著しく改善する重要な符号化ツールである。SBRは受信器側で(たとえばデコーダにおいて)オーディオ信号の高周波数成分を再構成する。そのため、エンコーダは低周波数成分をエンコードして伝送するだけでよく、低データ・レートにおいてずっと高いオーディオ品質を許容する。SBRは、データ・レートを削減するために以前に打ち切りされた高調波のシーケンスを、エンコーダから得られる利用可能な帯域幅制限された信号および制御データから複製することに基づく。トーン様成分とノイズ様成分の間の比は適応的な逆フィルタリングならびにノイズおよび正弦波の任意的な追加によって維持される。MPEG-4 AAC規格では、SBRツールは、いくつかの隣り合う直交ミラー・フィルタ(QMF)サブバンドがオーディオ信号の伝送された低域部分から、デコーダにおいて生成されるオーディオ信号の高域部分にコピーされる、スペクトル・パッチング(spectral patching)を実行する。
【先行技術文献】
【非特許文献】
【0005】
【文献】MPEG規格ISO/IEC14496-3:2009
【発明の概要】
【発明が解決しようとする課題】
【0006】
スペクトル・パッチングは、比較的低いクロスオーバー周波数をもつ音楽コンテンツのようなある種のオーディオ型については理想的ではないことがある。したがって、スペクトル帯域複製を改善するための技法が必要とされている。
【課題を解決するための手段】
【0007】
第一のクラスの実施形態は、メモリと、ビットストリーム・ペイロード・フォーマット解除器と、デコード・サブシステムとを含むオーディオ処理ユニットに関する。メモリは、エンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)の少なくとも一つのブロックを記憶するよう構成される。ビットストリーム・ペイロード・フォーマット解除器は、エンコードされたオーディオ・ブロックを多重分離するよう構成される。デコード・サブシステムは、エンコードされたオーディオ・ブロックのオーディオ・コンテンツをデコードするよう構成される。エンコードされたオーディオ・ブロックは、充填要素(fill element)を含む。充填要素は、該充填要素の先頭を示す識別子と、該識別子後の充填データとをもつ。充填データは、そのエンコードされたオーディオ・ブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製(eSBR: enhanced spectral band replication)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む。
【0008】
第二のクラスの実施形態は、エンコードされたオーディオ・ビットストリームをデコードするための方法に関する。本方法は、エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを受領し、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくともいくつかの部分を多重分離し、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくともいくつかの部分をデコードすることを含む。前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは、充填要素(fill element)を含む。充填要素は、該充填要素の先頭を示す識別子と、該識別子後の充填データとをもつ。充填データは、そのエンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製(eSBR: enhanced spectral band replication)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む。
【0009】
他のクラスの実施形態は、向上スペクトル帯域複製(eSBR: enhanced spectral band replication)処理が実行されるべきかどうかを同定するメタデータを含むオーディオ・ビットストリームをエンコードおよびトランスコードすることに関する。
【図面の簡単な説明】
【0010】
【
図1】本発明の方法のある実施形態を実行するよう構成されうるシステムの実施形態のブロック図である。
【
図2】本発明のオーディオ処理ユニットの実施形態であるエンコーダのブロック図である。
【
図3】本発明のオーディオ処理ユニットの実施形態であるデコーダと、任意的にはそれに結合された後処理器をも含むシステムのブロック図である。
【
図4】本発明のオーディオ処理ユニットの実施形態であるデコーダのブロック図である。
【
図5】本発明のオーディオ処理ユニットのもう一つの実施形態であるデコーダのブロック図である。
【
図6】本発明のオーディオ処理ユニットのもう一つの実施形態のブロック図である。
【
図7】分割されたセグメントを含むMPEG-4 AACビットストリームのブロックを示す図である。
【発明を実施するための形態】
【0011】
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する(たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する)という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して(たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して)該動作を実行することを表わすために広義で使用される。
【0012】
請求項を含む本開示を通じて、「オーディオ処理ユニット」という表現は、オーディオ・データを処理するよう構成されているシステム、デバイスまたは装置を表わす広義で使用される。オーディオ処理ユニットの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム(時にビットストリーム処理ツールと称される)を含むがそれに限られない。携帯電話、テレビジョン、ラップトップおよびタブレット・コンピュータといった事実上あらゆる消費者電子装置がオーディオ処理ユニットを含む。
【0013】
請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために広義で使われる。よって、第一の装置が第二の装置に結合する場合、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。さらに、他のコンポーネントの中にまたは他のコンポーネントと一緒に統合されたコンポーネントも互いに結合される。
【0014】
〈本発明の実施形態の詳細な説明〉
MPEG-4 AAC規格は、エンコードされたMPEG-4 AACビットストリームが、該ビットストリームのオーディオ・コンテンツをデコードするためにデコーダによって適用されるべき(もし適用されるべきものがあるとして)SBR処理のそれぞれの型を示すおよび/またはそのようなSBR処理を制御するおよび/または該ビットストリームのオーディオ・コンテンツをデコードするために用いられるべき少なくとも一つのSBRツールの少なくとも一つの特性またはパラメータを示すメタデータを含むことを考えている。ここで、MPEG-4 AAC規格で記述または言及されているこの型のメタデータを表わすために「SBRメタデータ」という表現を使う。
【0015】
MPEG-4 AACビットストリームの最上レベルはデータ・ブロック(「raw_data_block」要素)のシーケンスであり、各データ・ブロックは、(典型的には1024または960サンプルの時間期間にわたる)オーディオ・データおよび関係した情報および/または他のデータを含む、データのセグメント(本稿では「ブロックと称される」)である。ここで、一つの(二つ以上ではない)「raw_data_block」要素を決定するまたは示すオーディオ・データ(および対応するメタデータおよび任意的には他の関係したデータ)を含むMPEG-4 AACビットストリームのセグメントを表わすために、用語「ブロック」を使う。
【0016】
MPEG-4 AACビットストリームの各ブロックは、いくつかのシンタックス要素を含むことができる(そのそれぞれも、ビットストリームにおけるデータのセグメントとして具現される)。七つの型のそのようなシンタックス要素がMPEG-4 AAC規格において定義されている。各シンタックス要素はデータ要素「id_syn_ele」の異なる値によって識別される。シンタックス要素の例は「single_channel_element()」、「channel_pair_element()」および「fill_element()」を含む。単一チャネル要素(single channel element)は、単一のオーディオ・チャネルのオーディオ・データ(モノフォニック・オーディオ信号)を含むコンテナである。チャネル対要素(channel pair element)は二つのオーディオ・チャネルのオーディオ・データ(すなわち、ステレオ・オーディオ信号)を含む。
【0017】
充填要素(fill element)は、識別子(たとえば上記の要素「id_syn_ele」の値)および「充填データ」(fill data)と称されるそれに続くデータを含む情報のコンテナである。充填要素は、歴史的には、一定レート・チャネルを通じて伝送されるべきビットストリームの瞬時ビットレートを調整するために使われてきた。各ブロックに適切な量の充填データを加えることによって、一定データ・レートが達成されうる。
【0018】
本発明の諸実施形態によれば、充填データは、ビットストリームにおいて伝送されることのできるデータ(たとえばメタデータ)の型を拡張する一つまたは複数の拡張ペイロードを含みうる。新しい型のデータを含む充填データをもつビットストリームを受け取るデコーダは、任意的に、該ビットストリームを受け取る装置(たとえばデコーダ)によって、該装置の機能を拡張するために使用されてもよい。このように、当業者には理解できるように、充填要素は特殊な型のデータ構造であり、オーディオ・データ(たとえばチャネル・データを含むオーディオ・ペイロード)を伝送するために典型的に使われるデータ構造とは異なる。
【0019】
本発明のいくつかの実施形態では、充填要素を識別するために使われる識別子は、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数(unsigned integer transmitted most significant bit first)(「uimsbf」)からなっていてもよい。一つのブロックにおいて、同じ型のシンタックス要素のいくつかのインスタンス(たとえばいくつかの充填要素)が生起してもよい。
【0020】
オーディオ・ビットストリームをエンコードするためのもう一つの規格は、MPEG統合音声音響符号化(USAC: Unified Speech and Audio Coding)規格(ISO/IEC 23003-3:2012)である。MPEG USAC規格は、スペクトル帯域複製処理(MPEG-4 AAC規格に記述されるSBR処理を含み、他の向上された形のスペクトル帯域複製処理をも含む)を使ってオーディオ・コンテンツをエンコードおよびデコードすることを記述している。この処理は、MPEG-4 AAC規格において記述されているSBRツールの集合の、拡張され、向上されたバージョンのスペクトル帯域複製ツール(本稿では時に「向上SBRツール」または「eSBRツール」と称される)を適用する。このように、eSBR(USAC規格において定義されている)はSBR(MPEG-4 AAC規格において定義されている)に対する改良である。
【0021】
本稿において、「向上SBR処理」(enhanced SBR processing)(または「eSBR処理」)という表現は、MPEG-4 AACにおいて記述または言及されていない少なくとも一つのeSBRツール(たとえば、MPEG USAC規格において記述または言及されている少なくとも一つのeSBRツール)を使うスペクトル帯域複製処理を表わすために使う。そのようなeSBRツールの例は高調波転換(harmonic transposition)、QMFパッチング追加的前処理もしくは「前置平坦化(pre-flattening)」およびサブバンド・サンプル間時間包絡整形(Temporal Envelope Shaping)または「インターTES」である。
【0022】
MPEG USAC規格に従って生成されたビットストリーム(本稿では時にUSACビットストリームと称される)は、エンコードされたオーディオ・コンテンツを含み、典型的には、該USACビットストリームのオーディオ・コンテンツをデコードするためにデコーダによって適用されるべきスペクトル帯域複製処理のそれぞれの型を示すメタデータおよび/またはそのようなスペクトル帯域複製処理を制御するおよび/または該USACビットストリームのオーディオ・コンテンツをデコードするために用いられるべき少なくとも一つのSBRツールおよび/またはeSBRツールの少なくとも一つの特性またはパラメータを示すメタデータを含む。
【0023】
ここでは、「向上SBRメタデータ」(または「eSBRメタデータ」)という表現は、エンコードされたオーディオ・ビットストリーム(たとえばUSACビットストリーム)のオーディオ・コンテンツをデコードするためにデコーダによって適用されるべきスペクトル帯域複製処理のそれぞれの型を示すおよび/またはそのようなスペクトル帯域複製処理を制御するおよび/またはそのようなオーディオ・コンテンツをデコードするために用いられるべき少なくとも一つのSBRツールおよび/またはeSBRツールの少なくとも一つの特性またはパラメータを示すメタデータであって、MPEG-4 AAC規格において記述または言及されていないものを表わすために使う。eSBRメタデータの例は、MPEG USAC規格において記述または言及されているがMPEG-4 AAC規格では記述も言及もされていない(スペクトル帯域複製処理を示すまたは制御するための)メタデータである。このように、本稿でのeSBRメタデータは、SBRメタデータではないメタデータを表わし、本稿でのSBRメタデータはeSBRメタデータではないメタデータを表わす。
【0024】
USACビットストリームは、SBRメタデータおよびeSBRメタデータ両方を含んでいてもよい。より具体的には、USACビットストリームは、デコーダによるeSBR処理の実行を制御するeSBRメタデータおよびデコーダによるSBR処理の実行を制御するSBRメタデータを含んでいてもよい。本発明の典型的な実施形態によれば、eSBRメタデータ(たとえばeSBR固有の構成設定データ)が(本発明に従って)(たとえばSBRペイロードの末尾のsbr_extension()コンテナにおいて)MPEG-4 AACビットストリームに含められる。
【0025】
(少なくとも一つのeSBRツールを含む)eSBRツール集合を使ったエンコードされたビットストリームのデコードの間の、デコーダによるeSBR処理の実行は、エンコードの間に打ち切りされた高調波のシーケンスの複製に基づいてオーディオ信号の高周波数帯域を再生成する。そのようなeSBR処理は典型的には、もとのオーディオ信号のスペクトル特性を再現するために、生成された高周波数帯域のスペクトル包絡を調整し、逆フィルタリングを適用し、ノイズおよび正弦波成分を加える。
【0026】
本発明の典型的な実施形態によれば、eSBRメタデータが(たとえばeSBRメタデータである少数の制御ビットが)、エンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)のメタデータ・セグメントの一つまたは複数に含められる。エンコードされたオーディオ・ビットストリームは他のセグメント(オーディオ・データ・セグメント)において、エンコードされたオーディオ・データをも含む。典型的には、ビットストリームの各ブロックの少なくとも一つのそのようなメタデータ・セグメントが充填要素(該充填要素の先頭を示す識別子を含む)であり(または充填要素を含み)、eSBRメタデータは該識別子の後に該充填要素に含められる。
【0027】
図1は、例示的なオーディオ処理チェーン(オーディオ・データ処理システム)のブロック図であり、該システムの要素の一つまたは複数が本発明の実施形態に従って構成されてもよい。本システムは、図のように一緒に結合された以下の要素を含む:エンコーダ1、送達サブシステム2、デコーダ3および後処理ユニット4。図示したシステムの変形においては、要素の一つまたは複数が省略され、あるいは追加的なオーディオ・データ処理ユニットが含められる。
【0028】
いくつかの実装では、エンコーダ1(これは任意的には前処理ユニットを含む)は、入力としてオーディオ・コンテンツを含むPCM(時間領域)サンプルを受け入れ、該オーディオ・コンテンツを示すエンコードされたオーディオ・ビットストリーム(MPEG-4 AAC規格に準拠するフォーマットをもつ)を出力するよう構成されている。オーディオ・コンテンツを示すビットストリームのデータは本稿では時に「オーディオ・データ」または「エンコードされたオーディオ・データ」と称される。エンコーダが本発明の典型的な実施形態に従って構成される場合、エンコーダから出力されるオーディオ・ビットストリームは、オーディオ・データのほかにeSBRメタデータを(典型的には他のメタデータも)含む。
【0029】
エンコーダ1から出力される一つまたは複数のエンコードされたオーディオ・ビットストリームは、エンコードされたオーディオ送達サブシステム2に呈されてもよい。サブシステム2は、エンコーダ1から出力されたそれぞれのエンコードされたビットストリームを記憶および/または送達するよう構成される。エンコーダ1から出力されたエンコードされたオーディオ・ビットストリームはサブシステム2によって(たとえばDVDまたはブルーレイディスクの形で)記憶されてもよく、あるいはサブシステム2(これは伝送リンクまたはネットワークを実装してもよい)によって伝送されてもよく、あるいはサブシステム2によって記憶されかつ伝送されてもよい。
【0030】
デコーダ3は、サブシステム2を介して受け取る(エンコーダ1によって生成された)エンコードされたMPEG-4 AACオーディオ・ビットストリームをデコードするよう構成される。いくつかの実施形態では、デコーダ3は、ビットストリームの各ブロックからeSBRメタデータを抽出し、ビットストリームをデコードして(抽出されたeSBRメタデータを使ってeSBR処理を実行することによることを含む)、デコードされたオーディオ・データ(たとえば、デコードされたPCMオーディオ・サンプルのストリーム)を生成するよう構成される。いくつかの実施形態では、デコーダ3は、ビットストリームからSBRメタデータを抽出し(だがビットストリームに含まれるeSBRメタデータは無視し)、ビットストリームをデコードして(抽出されたSBRメタデータを使ってSBR処理を実行することによることを含む)、デコードされたオーディオ・データ(たとえば、デコードされたPCMオーディオ・サンプルのストリーム)を生成するよう構成される。典型的には、デコーダ3は、サブシステム2から受領されたエンコードされたオーディオ・ビットストリームの諸セグメントを(たとえば非一時的な仕方で)記憶するバッファを含む。
【0031】
図1の後処理ユニット4は、デコーダ3からのデコードされたオーディオ・データ(たとえばデコードされたPCMオーディオ・サンプル)のストリームを受け入れ、それに対して後処理を実行するよう構成される。後処理ユニットは、後処理されたオーディオ・コンテンツ(またはデコーダ3から受領されたデコードされたオーディオ)を一つまたは複数のスピーカーによる再生のためにレンダリングするよう構成されてもよい。
【0032】
図2は、本発明のオーディオ処理ユニットのある実施形態であるエンコーダ(100)のブロック図である。エンコーダ100のコンポーネントまたは要素のいずれも、一つまたは複数のプロセスおよび/または一つまたは複数の回路(たとえばASIC、FPGAまたは他の集積回路)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、実装されてもよい。エンコーダ100は、図のように接続された、エンコーダ105、詰め込み器(stuffer)/フォーマッタ段107、メタデータ生成段106およびバッファ・メモリ109を有する。典型的には、エンコーダ100は、他の処理要素(図示せず)をも含む。エンコーダ100は、入力オーディオ・ビットストリームを、エンコードされた出力MPEG-4 AACビットストリームに変換するよう構成される。
【0033】
メタデータ生成器106は、エンコーダ100から出力されるべきエンコードされたビットストリームに段107によって含められるべきメタデータ(eSBRメタデータおよびSBRメタデータを含む)を生成する(および/または段107に素通しにする)よう結合され、構成される。
【0034】
エンコーダ105は、入力オーディオ・データを(たとえばそれに対して圧縮を実行することにより)エンコードし、結果として得られるエンコードされたオーディオを、段107から出力されるべきエンコードされたビットストリームに含めるために、段107に呈するよう結合され、構成される。
【0035】
段107は、エンコーダ105からのエンコードされたオーディオおよび生成器106からのメタデータ(eSBRメタデータおよびSBRメタデータを含む)を多重化して、段107から出力されるべきエンコードされたビットストリームを生成するよう構成される。好ましくは、エンコードされたビットストリームが本発明の実施形態の一つによって規定されるフォーマットをもつようにする。
【0036】
バッファ・メモリ109は、段107から出力されたエンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶するよう構成される。その後、エンコードされたオーディオ・ビットストリームのブロックのシーケンスがバッファ・メモリ109から、エンコーダ100からの出力として、送達システムに呈される。
【0037】
図3は、本発明のオーディオ処理ユニットの実施形態であるデコーダ(200)を含み、任意的にはそれに結合された後処理器(300)をも含むシステムのブロック図である。デコーダ200のコンポーネントまたは要素のいずれも、一つまたは複数のプロセスおよび/または一つまたは複数の回路(たとえばASIC、FPGAまたは他の集積回路)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、実装されてもよい。デコーダ200は、図のように接続された、バッファ・メモリ201、ビットストリーム・ペイロード・フォーマット解除器(パーサー)205、オーディオ・デコード・サブシステム202(時に「コア」デコード段または「コア」デコード・サブシステムと称される)、eSBR処理段203および制御ビット生成段204を有する。典型的には、デコーダ200は、他の処理要素(図示せず)をも含む。
【0038】
バッファ・メモリ(バッファ)201は、デコーダ200によって受領されるエンコードされたMPEG-4 AACオーディオ・ビットストリームの少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶する。デコーダ200の動作において、ビットストリームのブロックのシーケンスがバッファ201からフォーマット解除器205に呈される。
【0039】
図3実施形態の変形(またはのちに述べる
図4の実施形態)では、デコーダではないAPU(たとえば
図6のAPU 500)が、
図3または
図4のバッファ201によって受領されるのと同じ型のエンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACオーディオ・ビットストリーム)(すなわち、eSBRメタデータを含むエンコードされたオーディオ・ビットストリーム)の少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶するバッファ・メモリ(たとえばバッファ201と同一のバッファ・メモリ)を含む。
【0040】
再び
図3を参照するに、フォーマット解除器205は、ビットストリームの各ブロックを多重分離して、それからSBRメタデータ(量子化された包絡データを含む)およびeSBRメタデータを(典型的には他のメタデータも)抽出し、少なくとも前記eSBRメタデータおよび前記SBRメタデータをeSBR処理段203に呈するとともに、典型的にはさらに他の抽出されたメタデータをデコード・サブシステム202に(任意的には制御ビット生成器204にも)呈するよう結合され、構成される。フォーマット解除器205は、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データをデコード・サブシステム(デコード段)202に呈するようにも結合され、構成される。
【0041】
図3のシステムは任意的には、後処理器300をも含む。後処理器300はバッファ・メモリ(バッファ)301と、バッファ301に結合された少なくとも一つの処理要素を含む他の処理要素(図示せず)とを含む。バッファ301は、デコーダ200から後処理器300によって受領されたデコードされたオーディオ・データの少なくとも一つのブロック(またはフレーム)を(たとえば非一時的な仕方で)記憶する。後処理器300の処理要素は、バッファ301から出力されたデコードされたオーディオのブロック(またはフレーム)のシーケンスを受領し、デコード・サブシステム202(および/またはフォーマット解除器205)から出力されたメタデータおよび/またはデコーダ200の段204から出力された制御ビットを使って適応的に処理するよう結合され、構成される。
【0042】
デコーダ200のオーディオ・デコード・サブシステム202は、パーサー205によって抽出されたオーディオ・データをデコードして(そのようなデコードは「コア」デコード動作と称されてもよい)、デコードされたオーディオ・データを生成し、デコードされたオーディオ・データをeSBR処理段203に呈するよう構成される。デコードは周波数領域で実行され、典型的には逆量子化とそれに続くスペクトル処理(spectral processing)を含む。典型的には、サブシステム202における処理の最終段が、デコードされた周波数領域オーディオ・データに周波数領域から時間領域への変換を適用し、そのためサブシステムの出力は時間領域のデコードされたオーディオ・データである。段203は、(パーサー205によって抽出された)SBRメタデータおよびeSBRメタデータによって示されるSBRツールおよびeSBRツールを、デコードされたオーディオ・データに適用して(すなわち、SBRおよびeSBRメタデータを使ってデコード・サブシステム202の出力に対してSBRおよびeSBR処理を実行して)、デコーダ200から(たとえば後処理器300に)出力される完全にデコードされたオーディオ・データを生成するよう構成される。典型的には、デコーダ200は、フォーマット解除器205から出力されるフォーマット解除されたオーディオ・データおよびメタデータを記憶するメモリ(サブシステム202および段203によってアクセス可能)を含み、段203はSBRおよびeSBR処理の間に必要に応じてオーディオ・データおよびメタデータ(SBRメタデータおよびeSBRメタデータを含む)にアクセスするよう構成される。段203におけるSBR処理およびeSBR処理は、コア・デコード・サブシステム202の出力に対する後処理であると考えられてもよい。任意的に、デコーダ200は、最終的なアップミックス・サブシステム(これは、フォーマット解除器205によって抽出されたPSメタデータおよび/またはサブシステム204において生成された制御ビットを使って、MPEG-4 AAC規格において定義されているパラメトリック・ステレオ(「PS」)ツールを適用しうる)をも含む。アップミックス・サブシステムは、段203の出力に対してアップミックスを実行して、デコーダ200から出力される、完全にデコードされた、アップミックスされたオーディオを生成するよう結合され、構成される。あるいはまた、後処理器300が(たとえばフォーマット解除器205によって抽出されたPSメタデータおよび/またはサブシステム204において生成された制御ビットを使って)デコーダ200の出力に対してアップミックスを実行するよう構成される。
【0043】
フォーマット解除器205によって抽出されたメタデータに応答して、制御ビット生成器204は制御データを生成してもよい。制御データは、デコーダ200内で(たとえば最終的なアップミックス・サブシステムにおいて)使われてもよく、および/またはデコーダ200の出力として(たとえば後処理で使うために後処理器300に)呈されてもよい。入力ビットストリームから抽出されたメタデータに応答して(任意的には制御データにも応答して)、段204は、eSBR処理段203から出力されたデコードされたオーディオ・データが特定の型の後処理を受けるべきであることを示す制御ビットを生成し(後処理器300に呈し)てもよい。いくつかの実装では、デコーダ200は、入力ビットストリームからフォーマット解除器205によって抽出されたメタデータを後処理器300に呈するよう構成され、後処理器300は、デコーダ200から出力されたデコードされたオーディオ・データに対して、前記メタデータを使って後処理を実行するよう構成される。
【0044】
図4は、本発明のオーディオ処理ユニットのもう一つの実施形態であるオーディオ処理ユニット(「APU」)(210)のブロック図である。APU 210は、eSBR処理を実行するよう構成されていないレガシー・デコーダである。APU 210のコンポーネントまたは要素のいずれも、一つまたは複数のプロセスおよび/または一つまたは複数の回路(たとえばASIC、FPGAまたは他の集積回路)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、実装されてもよい。APU 210は、図のように接続された、バッファ・メモリ201、ビットストリーム・ペイロード・フォーマット解除器(パーサー)215、オーディオ・デコード・サブシステム202(時に「コア」デコード段または「コア」デコード・サブシステムと称される)およびSBR処理段213を有する。典型的には、APU 210は、他の処理要素(図示せず)をも含む。
【0045】
APU 210の要素201および202は、(
図3の)デコーダ200の同じ番号を付された要素と同一であり、それらについての上記の記述は繰り返さない。APU 210の動作においては、APU 210によって受領されるエンコードされたオーディオ・ビットストリーム(MPEG-4 AACビットストリーム)のブロックのシーケンスはバッファ201からフォーマット解除器215に呈される。
【0046】
フォーマット解除器215は、ビットストリームの各ブロックを多重分離して、それからSBRメタデータ(量子化された包絡データを含む)を、典型的には他のメタデータも抽出するが、本発明の任意の実施形態によりビットストリームに含まれることがありうるeSBRは無視するよう結合され、構成される。フォーマット解除器215は、少なくとも前記SBRメタデータをSBR処理段213に呈するよう構成される。フォーマット解除器215は、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データをデコード・サブシステム(デコード段)202に呈するようにも結合され、構成される。
【0047】
デコーダ200のオーディオ・デコード・サブシステム202は、フォーマット解除器215によって抽出されたオーディオ・データをデコードして(そのようなデコードは「コア」デコード動作と称されてもよい)、デコードされたオーディオ・データを生成し、デコードされたオーディオ・データをSBR処理段213に呈するよう構成される。デコードは周波数領域で実行される。典型的には、サブシステム202における処理の最終段が、デコードされた周波数領域オーディオ・データに周波数領域から時間領域への変換を適用し、そのためサブシステムの出力は時間領域のデコードされたオーディオ・データである。段213は、(フォーマット解除器215によって抽出された)SBRメタデータによって示されるSBRツールをデコードされたオーディオ・データに適用して(だがeSBRツールは適用しない)(すなわち、SBRメタデータを使ってデコード・サブシステム202の出力に対してSBR処理を実行して)、APU 210から(たとえば後処理器300に)出力される完全にデコードされたオーディオ・データを生成するよう構成される。典型的には、APU 210は、フォーマット解除器215から出力されるフォーマット解除されたオーディオ・データおよびメタデータを記憶するメモリ(サブシステム202および段213によってアクセス可能)を含み、段213はSBR処理の間に必要に応じてオーディオ・データおよびメタデータ(SBRメタデータを含む)にアクセスするよう構成される。段213におけるSBR処理は、コア・デコード・サブシステム202の出力に対する後処理であると考えられてもよい。任意的に、APU 210は、最終的なアップミックス・サブシステム(これは、フォーマット解除器215によって抽出されたPSメタデータを使って、MPEG-4 AAC規格において定義されているパラメトリック・ステレオ(「PS」)ツールを適用しうる)をも含む。アップミックス・サブシステムは、段213の出力に対してアップミックスを実行して、APU 210から出力される、完全にデコードされた、アップミックスされたオーディオを生成するよう結合され、構成される。あるいはまた、後処理器が(たとえばフォーマット解除器215によって抽出されたPSメタデータおよび/またはAPU 210において生成された制御ビットを使って)APU 210の出力に対してアップミックスを実行するよう構成される。
【0048】
エンコーダ100、デコーダ200およびAPU 210のさまざまな実装が、本発明の方法の異なる実施形態を実行するよう構成される。
【0049】
いくつかの実施形態によれば、(eSBRメタデータをパースしたりeSBRメタデータが関係する何らかのeSBRツールを使ったりするよう構成されていない)レガシー・デコーダがeSBRメタデータを無視するが、それでもビットストリームをeSBRメタデータやeSBRメタデータが関係する何らかのeSBRツールを使うことなく、典型的にはデコードされたオーディオ品質におけるいかなる有意なペナルティもなしに可能な限りデコードできるように、eSBRメタデータが(たとえば、eSBRメタデータである少数の制御ビットが)エンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)に含められる。しかしながら、ビットストリームをパースしてeSBRメタデータを識別し、該eSBRメタデータに応答して少なくとも一つのeSBRツールを使うよう構成されたeSBRデコーダは、少なくとも一つのそのようなeSBRツールを使うことの恩恵を享受する。したがって、本発明の実施形態は、向上されたスペクトル帯域複製(eSBR)制御データまたはメタデータを、後方互換な仕方で効率的に伝送する手段を提供する。
【0050】
典型的には、ビットストリーム中のeSBRメタデータは、(MPEG USAC規格において記述されており、ビットストリームの生成の際にエンコーダによって適用されていてもいなくてもよい)次のeSBRツールのうちの一つまたは複数を示す(たとえば、次のeSBRツールのうちの一つまたは複数の、少なくとも一つの特性またはパラメータを示す):
・高調波転換;
・QMFパッチング追加的前処理(前置平坦化(pre-flattening));および
・サブバンド・サンプル間時間包絡整形(Temporal Envelope Shaping)または「インターTES」。
たとえば、ビットストリームに含まれるeSBRメタデータは、(MPEG USAC規格および本開示において記述される)パラメータ:harmonicSBR[ch]、sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]、bs_interTes、bs_temp_shape[ch][env]、bs_inter_temp_shape_mode[ch][env]およびbs_sbr_preprocessingの値を示してもよい。
【0051】
ここで、Xが何らかのパラメータであるとして記法X[ch]は、そのパラメータがデコードされるべきエンコードされたビットストリームのオーディオ・コンテンツのあるチャネル(「ch」)に関することを表わす。簡単のため、時に表現[ch]を略し、関連するパラメータがオーディオ・コンテンツのあるチャネルに関することを前提とする。
【0052】
ここで、Xが何らかのパラメータであるとして記法X[ch][env]は、そのパラメータがデコードされるべきエンコードされたビットストリームのオーディオ・コンテンツのあるチャネル(「ch」)のSBR包絡(「env」)に関することを表わす。簡単のため、時に表現[env]および[ch]を略し、関連するパラメータがオーディオ・コンテンツのあるチャネルのSBR包絡に関することを前提とする。
【0053】
前記したように、MPEG USACは、USACビットストリームが、デコーダによるeSBR処理の実行を制御するeSBRメタデータを含むことを考えている。eSBRメタデータは、以下の一ビットのメタデータ・パラメータを含む:harmonicSBR;bs_interTES;およびbs_pvc。
【0054】
パラメータharmonicSBRは、SBRについての高調波パッチング(harmonic patching)(高調波転換(harmonic transposition))の使用を示す。具体的には、harmonicSBR=0は、MPEG-4 AAC規格の4.6.18.6.3節に記載される非高調波(non-harmonic)スペクトル・パッチングを示し;harmonicSBR=1は、(MPEG USAC規格の7.5.3または7.5.4節に記載される、eSBRにおいて使われる型の)高調波SBRパッチングを示す。高調波SBRパッチングは、非eSBRスペクトル帯域複製(すなわち、eSBRでないSBR)によれば使われない。本開示を通じて、スペクトル帯域複製の基本形としてはスペクトル・パッチング(spectral patching)といい、スペクトル帯域複製の向上された形としては高調波転換(harmonic transposition)という。
【0055】
パラメータbs_interTESの値は、eSBRのインターTESツールの使用を示す。
【0056】
パラメータbs_pvcの値は、eSBRのPVCツールの使用を示す。
【0057】
エンコードされたビットストリームのデコードの間、(ビットストリームによって示されるオーディオ・コンテンツの各チャネル「ch」についての)デコードのeSBR処理段の間の高調波転換の実行が、以下のeSBRメタデータ・パラメータによって制御される:sbrPatchingMode[ch];sbrOversamplingFlag[ch];sbrPitchInBinsFlag[ch]およびsbrPitchInBins[ch]。
【0058】
sbrPatchingMode[ch]の値は、eSBRにおいて使われる転換器(transposer)の型を示す。sbrPatchingMode[ch]=1はMPEG-4 AAC規格の4.6.18.6.3節に記載される非高調波パッチングを示し;sbrPatchingMode[ch]=0は、MPEG USAC規格の7.5.3または7.5.4節に記載される高調波SBRパッチングを示す。
【0059】
sbrOversamplingFlag[ch]の値は、MPEG USAC規格の7.5.3節に記載されるDFTベースの高調波SBRパッチングと組み合わせたeSBRにおける信号適応的な周波数領域オーバーサンプリングの使用を示す。このフラグは転換器において利用されるDFTのサイズを制御する。1はMPEG USAC規格の7.5.3.1節に記載されるように有効にされた信号適応的な周波数領域オーバーサンプリングを示し;0はMPEG USAC規格の7.5.3.1節に記載されるように無効にされた信号適応的な周波数領域オーバーサンプリングを示す。
【0060】
sbrPitchInBinsFlag[ch]の値は、sbrPitchInBins[ch]パラメータの解釈を制御する。1はsbrPitchInBins[ch]における値が有効であり、0より大きいことを示し;0はsbrPitchInBins[ch]の値が0に設定されていることを示す。
【0061】
sbrPitchInBins[ch]の値は、SBR高調波転換器におけるクロス積の項の付加(addition)を制御する。値sbrPitchInBins[ch]は[0,127]の範囲内の整数値であり、コア符号化器のサンプリング周波数に対して作用する1536ラインのDFTについての周波数ビンにおいて測られる距離を表わす。
【0062】
MPEG-4 AACビットストリームが、(単一のSBRチャネルではなく)チャネルどうしが結合されていないSBRチャネル対を示す場合、該ビットストリームは(高調波または非高調波転換について)上記のシンタックスの二つのインスタンスを示す。sbr_channel_pair_element()の各チャネルについて一つのインスタンスである。
【0063】
eSBRツールの高調波転換は典型的には、比較的低いクロスオーバー周波数におけるデコードされた音楽信号の品質を改善する。非高調波転換(すなわち、レガシーのスペクトル・パッチング)は典型的には発話信号を改善する。よって、特定のオーディオ・コンテンツをエンコードするためにどの型の転換が好ましいかについての判断における出発点は、発話/音楽検出に依存して転換方法を選択することである。ここで、音楽コンテンツに対しては高調波転換が用いられ、発話コンテンツに対してはスペクトル・パッチングが用いられる。
【0064】
eSBR処理の間の前置平坦化の実行は、bs_sbr_preprocessingとして知られる一ビットのeSBRメタデータ・パラメータの値によって制御される。それは、前置平坦化がこの単一のビットの値に依存して実行されるか、実行されないという意味においてである。MPEG-4 AAC規格の4.6.18.6.3節に記載されるSBR QMFパッチング・アルゴリズムが使われるとき、高周波数信号のスペクトル包絡の形における不連続がその後の包絡調整器(該包絡調整器は前記eSBR処理の別の段階を実行する)に入力されるのを避けようとして、前置平坦化の段階が実行されてもよい(bs_sbr_preprocessingパラメータによって示されるとき)。前置平坦化は典型的には、その後の包絡調整段の動作を改善し、結果として、知覚される高域信号がより安定することになる。
【0065】
デコーダにおけるeSBR処理の間のサブバンド・サンプル間時間包絡整形(inter-subband sample Temporal Envelope Shaping)(「インターTES」ツール)の実行は、デコードされているUSACビットストリームのオーディオ・コンテンツの各チャネル(「ch」)の各SBR包絡(「env」)についての以下のeSBRメタデータ・パラメータによって制御される:bs_temp_shape[ch][env]およびbs_inter_temp_shape_mode[ch][env]。
【0066】
インターTESツールは、包絡調整器の後にQMFサブバンド・サンプルを処理する。この処理段階は、包絡調整器の時間的粒度より細かい時間的粒度をもって、より高い周波数帯域の時間的包絡を整形する。SBR包絡における各QMFサブバンド・サンプルに利得因子を適用することによって、インターTESは、諸QMFサブバンド・サンプルの間で時間的包絡を整形する。
【0067】
パラメータbs_temp_shape[ch][env]は、インターTESの使用を合図するフラグである。パラメータbs_inter_temp_shape_mode[ch][env]は、インターTESにおけるパラメータγの値を(MPEG USAC規格において定義されているように)示す。
【0068】
MPEG-4 AACビットストリームに上述したeSBRツール(高調波転換、前置平坦化およびインターTES)を示すeSBRメタデータを含めるための全体的なビットレート要求は、毎秒数百ビットのオーダーであると期待される。本発明のいくつかの実施形態によれば、eSBR処理を実行するために必要とされる差分の制御データが伝送されるだけだからである。この情報は(のちに説明するように)後方互換な仕方で含められるので、レガシー・デコーダはこの情報を無視できる。したがって、eSBRメタデータを含めることに関連するビットレートに対する悪影響は、次のことを含むいくつかの理由により、無視できる:
・(eSBRメタデータを含めることに起因する)ビットレート・ペナルティーは、eSBR処理を実行するために必要とされる差分の制御データだけが伝送される(SBR制御データのサイマルキャストではない)ので、全ビットレートの非常に小さな割合であること;
・SBRに関係した制御情報のチューニングは典型的には転換の詳細には依存しないこと;および
・(eSBR処理の間に用いられる)インターTESツールは、転換された信号のシングルエンドの後処理を実行すること。
【0069】
このように、本発明の諸実施形態は、向上されたスペクトル帯域複製(eSBR)制御データまたはメタデータを後方互換な仕方で効率的に伝送する手段を提供する。eSBR制御データのこの効率的な伝送は、ビットレートに対して明確な悪影響なしに、本発明の諸側面を用いるデコーダ、エンコーダおよびトランスコーダにおけるメモリ要求を軽減する。さらに、本発明の実施形態に従ってeSBRを実行することに関連する複雑さおよび処理要求も軽減される。SBRデータが処理される必要があるのは一度だけであり、eSBRが後方互換な仕方でMPEG-4 AACコーデックに統合されるのではなくMPEG-4 AACにおける完全に別個のオブジェクト型として扱われるとしたらそうであるようにサイマルキャストされる必要がないからである。
【0070】
次に、
図7を参照して、本発明のいくつかの実施形態に従ってeSBRメタデータが含められるMPEG-4 AACビットストリームのブロック(raw_data_block)の要素を記述する。
図7は、MPEG-4 AACビットストリームのブロック(raw_data_block)の図であり、そのセグメントのいくつかを示している。
【0071】
MPEG-4 AACビットストリームのブロックは、オーディオ・プログラムについてのオーディオ・データを含む、少なくとも一つのsingle_channel_element()(たとえば
図7に示される単一チャネル要素)および/または少なくとも一つのchannel_pair_element()(
図7には特定的に示していないが、存在しうる)を含んでいてもよい。ブロックは、プログラムに関係したデータ(たとえばメタデータ)を含むいくつかのfill_element(たとえば
図7の充填要素1および/または充填要素2)をも含んでいてもよい。各single_channel_element()は、単一チャネル要素の先頭を示す識別子(たとえば
図7の「ID1」)を含み、マルチチャネル・オーディオ・プログラムの異なるチャネルを示すオーディオ・データを含むことができる。各channel_pair_elementはチャネル対要素の先頭を示す識別子(
図7には示さず)を含み、プログラムの二つのチャネルを示すオーディオ・データを含むことができる。
【0072】
MPEG-4 AACビットストリームのfill_element(本稿では充填要素と称される)は、充填要素の先頭を示す識別子(たとえば
図7の「ID2」)を含み、識別子の後に充填データを含む。識別子ID2は、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数(「uimsbf」)からなっていてもよい。充填データは、extension_payload()要素(本稿では時に拡張ペイロードと称される)を含むことができる。そのシンタックスはMPEG-4 AAC規格の表4.57に示されている。拡張ペイロードのいくつかの型が存在し、extension_typeパラメータを通じて識別される。このパラメータは、四ビットの、最上位ビットが最初に伝送される符号なし整数(「uimsbf」)である。
【0073】
充填データ(たとえばその拡張ペイロード)は、SBRオブジェクトを示す充填データのセグメントを示すヘッダまたは識別子(たとえば
図7の「ヘッダ1」)を含むことができる(すなわち、ヘッダが、MPEG-4 AAC規格においてsbr_extension_data()と称される「SBRオブジェクト」型を初期化する)。たとえば、スペクトル帯域複製(SBR)拡張ペイロードは、ヘッダにおけるextension_typeフィールドについての値「1101」または「1110」をもって識別され、識別子「1101」はSBRデータを用いた拡張ペイロードを同定し、「1110」はSBRデータの正しさを検証するための巡回冗長検査(CRC)をもつSBRデータを用いた拡張ペイロードを同定する。
【0074】
ヘッダが(たとえばextension_typeフィールドが)SBRオブジェクト型を初期化するとき、ヘッダにはSBRメタデータ(本稿では時に「スペクトル帯域複製データ」と称され、MPEG-4 AAC規格ではsbr_data()と称される)が後続し、該SBRメタデータには少なくとも一つのスペクトル帯域複製拡張要素(たとえば、
図7の充填要素1の「SBR拡張要素」)が後続することができる。そのようなスペクトル帯域複製拡張要素(ビットストリームのセグメント)は、MPEG-4 AAC規格ではsbr_extension()コンテナと称される。スペクトル帯域複製拡張要素は任意的に、ヘッダ(たとえば、
図7の充填要素1の「SBR拡張ヘッダ」)を含む。
【0075】
MPEG-4 AAC規格は、スペクトル帯域複製拡張要素がプログラムのオーディオ・データのためのPS(パラメトリック・ステレオ)データを含むことができることを考えている。MPEG-4 AAC規格は、充填要素の(たとえばその拡張ペイロードの)ヘッダが(
図7の「ヘッダ1」のように)SBRオブジェクト型を初期化し、充填要素のスペクトル帯域複製拡張要素がPSデータを含むとき、充填要素(たとえばその拡張ペイロード)がスペクトル帯域複製データbs_extension_idパラメータを含むことを考えている。このパラメータの値(すなわちbs_extension_id=2)はPSデータが充填要素のスペクトル帯域複製拡張要素に含まれることを示す。
【0076】
本発明のいくつかの実施形態によれば、eSBRメタデータ(たとえば向上スペクトル帯域複製(eSBR)処理がそのブロックのオーディオ・コンテンツに対して実行されるかどうかを示すフラグ)が充填要素のスペクトル帯域複製拡張要素に含められる。たとえば、そのようなフラグは
図7の充填要素1に含められ、フラグは充填要素1の「SBR拡張要素」のヘッダ(充填要素1の「SBR拡張ヘッダ」)の後に現われる。任意的に、そのようなフラグおよび追加的なeSBRメタデータがスペクトル帯域複製拡張要素において、スペクトル帯域複製拡張要素のヘッダの後に(たとえば
図7における充填要素1のSBR拡張要素において、SBR拡張ヘッダ後に)含められる。本発明のいくつかの実施形態によれば、eSBRメタデータを含む充填要素はbs_extension_idパラメータをも含む。そのパラメータの値(たとえばbs_extension_id=3)は、充填要素にeSBRメタデータが含まれ、当該ブロックのオーディオ・コンテンツに対してeSBR処理が実行されるべきであることを示す。
【0077】
本発明のいくつかの実施形態によれば、eSBRメタデータは、充填要素のスペクトル帯域複製拡張要素(SBR拡張要素)以外のMPEG-4 AACビットストリームの充填要素(たとえば
図7の充填要素2)に含められる。これは、SBRデータまたはCRCをもつSBRデータをもつextension_payload()を含む充填要素は、他のいかなる拡張型の他のいかなる拡張ペイロードをも含まないからである。したがって、eSBRメタデータが自分自身の拡張ペイロードに記憶される実施形態では、eSBRメタデータを記憶するために別個の充填要素が使われる。そのような充填要素は、充填要素の先頭を示す識別子(たとえば
図7の「ID2」)を含み、該識別子の後に充填データを含む。充填データは、extension_payload()要素(本稿では時に拡張ペイロードと称される)を含むことができる。そのシンタックスはMPEG-4 AAC規格の表4.57に示されている。充填データ(たとえばその拡張ペイロード)は、eSBRオブジェクトを示すヘッダ(たとえば
図7の充填要素2の「ヘッダ2」)を含むことができ(すなわち、ヘッダが、向上スペクトル帯域複製(eSBR)オブジェクト型を初期化する)、充填データ(たとえばその拡張ペイロード)は、前記ヘッダ後にeSBRメタデータを含む。たとえば、
図7の充填要素2はそのようなヘッダ(「ヘッダ2」)を含み、該ヘッダ後に、eSBRメタデータ(すなわち、向上スペクトル帯域複製(eSBR)処理がそのブロックのオーディオ・コンテンツに対して実行されるかどうかを示す、充填要素2内の「フラグ」)をも含んでいる。任意的には、ヘッダ2後に、
図7の充填要素2の充填データに追加的なeSBRメタデータも含められる。本段落で述べている実施形態では、ヘッダ(たとえば
図7のヘッダ2)は、MPEG-4 AAC規格の表4.57において指定されている通常の値のうちの一つではなく、eSBR拡張ペイロードを示す識別情報値をもつ(よって、ヘッダのextension_typeフィールドが充填データがeSBRメタデータを含むことを示す)。
【0078】
第一のクラスの実施形態では、本発明は、オーディオ処理ユニット(たとえばデコーダ)であって:
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロック(たとえばMPEG-4 AACビットストリームの少なくとも一つのブロック)を記憶するよう構成されたメモリ(たとえば
図3または
図4のバッファ201)と;
前記メモリに結合され、前記ビットストリームの前記ブロックの少なくとも一部を多重分離するよう構成されているビットストリーム・ペイロード・フォーマット解除器(たとえば、
図3の要素205または
図4の要素215)と;
前記ビットストリームの前記ブロックのオーディオ・コンテンツの少なくとも一つの部分をデコードするよう結合され、構成されたデコード・サブシステム(たとえば
図3の要素202および203または
図4の要素202および213)とを有し、前記ブロックは、
充填要素を含み、該充填要素の先頭を示す識別子(たとえば、MPEG-4 AAC規格の表4.85の値0x6をもつid_syn_ele識別子)と、該識別子後の充填データとを含み、前記充填データは:
前記ブロックのオーディオ・コンテンツに対して(たとえば前記ブロックに含まれるスペクトル帯域複製データおよびeSBRメタデータを使って)向上スペクトル帯域複製(eSBR)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
オーディオ処理ユニットである。
【0079】
前記フラグは、eSBRメタデータであり、前記フラグの例はsbrPatchingModeフラグである。前記フラグのもう一つの例はharmonicSBRフラグである。これらのフラグはいずれも、基本形のスペクトル帯域複製または向上した形のスペクトル複製のどちらが前記ブロックのオーディオ・データに対して実行されるべきかを示す。基本形のスペクトル複製はスペクトル・パッチングであり、向上した形のスペクトル帯域複製は高調波転換である。
【0080】
いくつかの実施形態では、前記充填データは追加的なeSBRメタデータ(すなわち、前記フラグ以外のeSBRメタデータ)をも含む。
【0081】
前記メモリは、エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶するバッファ・メモリ(たとえば、
図4のバッファ201の実装)であってもよい。
【0082】
eSBRメタデータを含むMPEG-4 AACビットストリームのデコードの間のeSBRデコーダによる(eSBR高調波転換、前置平坦化およびインターTESツールを使う)eSBR処理(前記eSBRメタデータがこれらのeSBRツールを示す)の実行の複雑さは、(示されるパラメータを用いた典型的なデコードについて)以下のようになると推定される:
●高調波転換(16kbps、14400/28800Hz)
○DFTベース:3.68WMOPS(weighted million operations per second[加重百万演算毎秒]);
○WMFベース:0.98WMOPS;
●QMFパッチング前処理(前置平坦化):0.1WMOPS;
●サブバンド・サンプル間時間的包絡整形(インターTES):高々0.16WMOPS
過渡成分については、DFTベースの転換が典型的にはQMFベースの転換よりよい性能を発揮することがわかっている。
【0083】
本発明のいくつかの実施形態によれば、eSBRメタデータを含む(エンコードされたオーディオ・ビットストリームの)充填要素は、eSBRメタデータが充填要素に含まれることおよび当該ブロックのオーディオ・コンテンツに対してeSBR処理が実行されるべきであることを合図する値(たとえばbs_extension_id=3)をもつパラメータ(たとえばbs_extension_idパラメータ)および/または充填要素のsbr_extension()コンテナがPSデータを含むことを合図する値(たとえばbs_extension_id=2)をもつパラメータ(たとえば同じbs_extension_idパラメータ)をも含む。たとえば、下記の表1に示されるように、値bs_extension_id=2をもつそのようなパラメータは、充填要素のsbr_extension()コンテナがPSデータを含むことを合図してもよく、値bs_extension_id=3をもつそのようなパラメータは、充填要素のsbr_extension()コンテナがeSBRメタデータを含むことを合図してもよい。
【0084】
【表1】
本発明のいくつかの実施形態によれば、eSBRメタデータおよび/またはPSデータを含む各スペクトル帯域複製拡張要素のシンタックスは下記の表2に示されるとおりである(ここで、sbr_extension()はスペクトル帯域複製拡張要素であるコンテナを表わし、bs_extension_idは上記の表1で述べたとおりであり、ps_dataはPSデータを表わし、esbr_dataはeSBRメタデータを表わす)。
【0085】
【表2】
ある例示的実施形態では、上記の表2で言及されているesbr_data()は以下のメタデータ・パラメータの値を示す。
1.上記の一ビットのメタデータ・パラメータharmonicSBR;bs_interTES;およびbs_sbr_preprocessing;
2.デコードされるべきエンコードされたビットストリームのオーディオ・コンテンツの各チャネル(「ch」)について、上記のパラメータ:sbrPatchingMode[ch];sbrOversamplingFlag[ch];sbrPitchInBinsFlag[ch];およびsbrPitchInBins[ch]のそれぞれ;および
3.デコードされるべきエンコードされたビットストリームのオーディオ・コンテンツの各チャネル(「ch」)の各SBR包絡(「env」)について、上記のパラメータ:bs_temp_shape[ch][env];およびbs_inter_temp_shape_mode[ch][env]のそれぞれ。
【0086】
たとえば、いくつかの実施形態では、esbr_data()は、これらのメタデータ・パラメータを示すために、表3に示されるシンタックスを有していてもよい。
【0087】
【表3】
上記のシンタックスは、高調波転換のような向上した形のスペクトル帯域複製の、レガシー・デコーダへの拡張としての効率的な実装を可能にする。具体的には、表3のeSBRデータは、向上した形のスペクトル帯域複製を実行するために必要とされるパラメータであって、ビットストリームにおいてすでにサポートされていたりビットストリームにおいてすでにサポートされているパラメータから直接導入可能であったりするものではないもののみを含む。向上した形のスペクトル帯域複製を実行するために必要とされる他のすべてのパラメータおよび処理データは、ビットストリームにおいてすでに定義されている位置にある既存のパラメータから抽出される。
【0088】
たとえば、MPEG-4 HE-AACまたはHE-AAC-v2準拠デコーダは、高調波転換のような向上した形のスペクトル帯域複製を含むよう拡張されてもよい。この向上した形のスペクトル帯域複製は、デコーダによってすでにサポートされている基本形のスペクトル帯域複製に加えてのものである。MPEG-4 HE-AACまたはHE-AAC-v2準拠デコーダのコンテキストでは、この基本形のスペクトル帯域複製は、MPEG-4 AAC規格の4.6.18節において定義されているQMFスペクトル・パッチングSBRツールである。
【0089】
向上した形のスペクトル帯域複製を実行するとき、拡張されたHE-AACデコーダは、ビットストリームのSBR拡張ペイロードにすでに含まれているビットストリーム・パラメータの多くを再利用しうる。再利用されうる具体的なパラメータは、たとえば、マスター周波数帯域テーブルを決定するさまざまなパラメータを含む。これらのパラメータは、bs_start_freq(マスター周波数テーブル・パラメータの先頭を決定するパラメータ)、bs_stop_freq(マスター周波数テーブルの終わりを決定するパラメータ)、bs_freq_scale(オクターブ当たりの周波数帯域の数を決定するパラメータ)およびbs_alter_scale(周波数帯域のスケールを変更するパラメータ)を含む。再利用されうるパラメータは、ノイズ帯域テーブルを決定するパラメータ(bs_noise_bands)およびリミッター帯域テーブル・パラメータ(bs_limiter_bands)をも含む。よって、さまざまな実施形態において、USAC規格において指定されている等価なパラメータの少なくともいくつかがビットストリームから省略され、それによりビットストリームにおける制御オーバーヘッドを軽減する。典型的には、AAC規格において指定されているパラメータがUSAC規格において指定されている等価なパラメータをもつ場合には、USAC規格において指定されている等価なパラメータはAAC規格において指定されているパラメータと同じ名前をもつ。たとえば、包絡スケール因子(envelope scalefactor)EOrigMapped。しかしながら、USAC規格において指定されている等価なパラメータは典型的には、AAC規格において定義されているSBR処理のためではなくUSAC規格において定義されている向上SBR処理のために「チューニングされた」異なる値をもつ。
【0090】
前記の数多くのパラメータに加えて、他のデータ要素も、本発明の実施形態に従って向上した形のスペクトル帯域複製を実行するときに、拡張されたHE-AACデコーダによって再利用されてもよい。たとえば、包絡データおよびノイズ・フロア・データは、bs_data_envおよびbs_noise_envデータから抽出されて、向上した形のスペクトル帯域複製の間に使われてもよい。
【0091】
本質的には、これらの実施形態は、SBR拡張ペイロードにおいてレガシーのHE-AACまたはHE-AAC v2デコーダによってすでにサポートされている構成設定パラメータおよび包絡データを、できるだけ追加的な伝送データを必要とせずに向上した形のスペクトル帯域複製を可能にするために、活用する。よって、向上した形のスペクトル帯域複製をサポートする拡張されたデコーダは、すでに定義されたビットストリーム要素(たとえばSBR拡張ペイロード内のもの)に頼り、向上した形のスペクトル帯域複製をサポートするために必要とされるパラメータのみを(充填要素拡張ペイロード内に)追加することによって、非常に効率的な仕方で生成されうる。このデータ削減特徴は、新たに追加されたパラメータを拡張コンテナのようなリザーブされたデータ・フィールドに配置することと組み合わさって、ビットストリームが向上した形のスペクトル帯域複製をサポートしないレガシー・デコーダと後方互換であることを保証することによって、向上した形のスペクトル帯域複製をサポートするデコーダを作り出すことへの障壁を実質的に軽減する。
【0092】
表3では、中央の列における数字は左の列における対応するパラメータのビット数を示す。
【0093】
いくつかの実施形態では、本発明は、エンコードされたビットストリーム(たとえばMPEG-4 AACビットストリーム)を生成するためにオーディオ・データをエンコードする段階を含む方法である。該生成は、eSBRメタデータをエンコードされたビットストリームの少なくとも一つのブロックの少なくとも一つのセグメントに含め、オーディオ・データを前記ブロックの少なくとも一つの他のセグメントに含めることによることを含む。典型的な実施形態では、本方法は、エンコードされたビットストリームの各ブロックにおいてオーディオ・データをeSBRメタデータと多重化する段階を含む。eSBRデコーダにおける前記エンコードされたビットストリームの典型的なデコードでは、デコーダはeSBRメタデータをビットストリームから抽出し(これはeSBRメタデータおよびオーディオ・データをパースして多重分離することによることを含む)、eSBRメタデータを、オーディオ・データを処理してデコードされたオーディオ・データのストリームを生成するために使う。
【0094】
本発明のもう一つの側面は、eSBRメタデータを含まないエンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)のデコードの間に、(たとえば高調波転換、前置平坦化またはインターTESとして知られるeSBRツールの少なくとも一つを使って)eSBR処理を実行するよう構成されたeSBRデコーダである。そのようなデコーダの例について、
図5を参照して述べる。
【0095】
図5のeSBRデコーダ(400)は、図のように接続された、バッファ・メモリ201(これは
図3および
図4のメモリ201と同一)と、ビットストリーム・ペイロード・フォーマット解除器215(これは
図4のフォーマット解除器215と同一)と、オーディオ・デコード・サブシステム202(時に「コア」デコード段または「コア」デコード・サブシステムと称され、
図3のコア・デコード・サブシステム202と同一)と、eSBR制御データ生成サブシステム401と、eSBR処理段203(これは
図3の段203と同一)とを含む。典型的には、デコーダ400は他の処理要素(図示せず)も含む。
【0096】
デコーダ400の動作においては、デコーダ400によって受領されたエンコードされたオーディオ・ビットストリーム(MPEG-4 AACビットストリーム)のブロックのシーケンスがバッファ201からフォーマット解除器215に呈される。
【0097】
フォーマット解除器215は、ビットストリームの各ブロックを多重分離して、それからSBRメタデータ(量子化された包絡データを含む)を、典型的には他のメタデータも抽出するよう結合され、構成される。フォーマット解除器215は、少なくとも前記SBRメタデータをeSBR処理段203に呈するよう構成される。フォーマット解除器215は、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データをデコード・サブシステム(デコード段)202に呈するようにも結合され、構成される。
【0098】
デコーダ400のオーディオ・デコード・サブシステム202は、フォーマット解除器215によって抽出されたオーディオ・データをデコードして(そのようなデコードは「コア」デコード動作と称されてもよい)、デコードされたオーディオ・データを生成し、デコードされたオーディオ・データをeSBR処理段203に呈するよう構成される。デコードは周波数領域で実行される。典型的には、サブシステム202における処理の最終段が、デコードされた周波数領域オーディオ・データに周波数領域から時間領域への変換を適用し、そのためサブシステムの出力は時間領域のデコードされたオーディオ・データである。段203は、(フォーマット解除器215によって抽出された)SBRメタデータおよびサブシステム401において生成されたeSBRメタデータによって示されるSBRツール(およびeSBRツール)を、デコードされたオーディオ・データに適用して(すなわち、SBRおよびeSBRメタデータを使ってデコード・サブシステム202の出力に対してSBRおよびeSBR処理を実行して)、デコーダ400から出力される完全にデコードされたオーディオ・データを生成するよう構成される。典型的には、デコーダ400は、フォーマット解除器215(および任意的にはサブシステム401)から出力されるフォーマット解除されたオーディオ・データおよびメタデータを記憶するメモリ(サブシステム202および段203によってアクセス可能)を含み、段203はSBRおよびeSBR処理の間に必要に応じてオーディオ・データおよびメタデータにアクセスするよう構成される。段203におけるSBR処理は、コア・デコード・サブシステム202の出力に対する後処理であると考えられてもよい。任意的に、デコーダ400は、最終的なアップミックス・サブシステム(これは、フォーマット解除器215によって抽出されたPSメタデータを使って、MPEG-4 AAC規格において定義されているパラメトリック・ステレオ(「PS」)ツールを適用しうる)をも含む。アップミックス・サブシステムは、段203の出力に対してアップミックスを実行して、APU 210から出力される、完全にデコードされた、アップミックスされたオーディオを生成するよう結合され、構成される。
【0099】
図5の制御データ生成サブシステム401は、デコードされるべきエンコードされたオーディオ・ビットストリームの少なくとも一つの属性を検出し、検出段階の少なくとも一つの結果に応答してeSBR制御データ(これは、本発明の他の実施形態に従って、エンコードされたオーディオ・ビットストリームに含まれている型のうちいずれかの型のeSBRメタデータであってもく、それを含んでいてもよい)を生成するよう結合され、構成される。eSBR制御データは、段203に呈されて、ビットストリームの特定の属性(または複数の属性の組み合わせ)を検出したときに個々のeSBRツールまたはeSBRツールの組み合わせの適用を惹起するおよび/またはそのようなeSBRツールの適用を制御する。たとえば、高調波転換を使ったeSBR処理の実行を制御するために、制御データ生成サブシステム401のいくつかの実施形態は:ビットストリームが音楽を示すまたは示さないことを検出することに応答してsbrPatchingMode[ch]パラメータを設定する(そして設定されたパラメータを段203に呈する)ための音楽検出器(たとえば、通常の音楽検出器の単純化されたバージョン);ビットストリームによって示されるオーディオ・コンテンツにおける過渡成分の存在または不在を検出することに応答してsbrOversamplingFlag[ch]パラメータを設定する(そして設定されたパラメータを段203に呈する)ための過渡検出器;および/またはビットストリームによって示されるオーディオ・コンテンツのピッチを検出することに応答してsbrPitchInBinsFlag[ch]およびsbrPitchInBins[ch]パラメータを設定する(そして設定されたパラメータを段203に呈する)ためのピッチ検出器を含むことになる。本発明の他の側面は、この段落および前段落において述べた本発明のデコーダのいずれかの実施形態によって実行されるオーディオ・ビットストリーム・デコード方法である。
【0100】
本発明の諸側面は、本発明のAPU、システムまたはデバイスのいずれかの実施形態が実行するよう構成される(たとえばプログラムされる)型のエンコードまたはデコード方法を含む。本発明の他の側面は、本発明の方法のいずれかの実施形態を実行するよう構成された(たとえばプログラムされた)システムまたはデバイスならびに本発明の方法のいずれかの実施形態もしくはその段階を実装するためのコードを(たとえば非一時的な仕方で)記憶するコンピュータ可読媒体(たとえばディスク)を含む。たとえば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサが、本発明の方法の実施形態またはその段階を含む多様な動作のいずれかをデータに対して実行するようソフトウェアもしくはファームウェアを用いてプログラムされたおよび/または他の仕方で構成されたものであるまたはそれを含むことができる。そのような汎用プロセッサは、入力装置、メモリおよび処理回路を含むコンピュータ・システムが、それに呈されるデータに応答して本発明の方法の実施形態(またはその段階)を実行するようプログラムされた(および/または他の仕方で構成された)ものであってもよく、あるいはそれを含んでいてもよい。
【0101】
本発明の実施形態は、ハードウェア、ファームウェアまたはソフトウェアまたは両者の組み合わせにおいて(たとえばプログラム可能な論理アレイとして)実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していることはない。特に、さまざまな汎用機械が、本稿の教示に従って書かれたプログラムと一緒に使われてもよいし、あるいは要求される方法段階を実行するよう、より特化した装置(たとえば集積回路)を構築するほうが便利であることもありうる。このように本発明は、一つまたは複数のプログラム可能なコンピュータ・システム(たとえば、
図1の要素または
図2のエンコーダ100(またはそのある要素)または
図3のデコーダ200(またはそのある要素)または
図4のデコーダ210(またはそのある要素)または
図5のデコーダ400(またはそのある要素)のいずれかの実装)上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは少なくとも一つのプロセッサと、少なくとも一つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶要素を含む)と、少なくとも一つの入力装置またはポートと、少なくとも一つの出力装置またはポートとを有する。プログラム・コードは、本稿に記載される機能を実行して出力情報を生成するために、入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に加えられる。
【0102】
そのような各プログラムは、コンピュータ・システムと連絡するためにいかなる所望されるコンピュータ言語(機械語、アセンブリーまたは高レベルの手続き型、論理的またはオブジェクト指向のプログラミング言語を含む)で実装されてもよい。いずれにせよ、言語はコンパイルまたはインタープリットされる言語でありうる。
【0103】
たとえば、コンピュータ・ソフトウェア命令シーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて走るマルチスレッド・ソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能はソフトウェア命令の諸部分に対応しうる。
【0104】
そのような各コンピュータ・システムは、好ましくは、汎用または特殊目的のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス(たとえば半導体メモリもしくはメディアまたは磁気もしくは光学式メディア)に記憶され、またはダウンロードされる。該記憶媒体またはデバイスがコンピュータ・システムによって読まれるときに、本稿に記載される手順を実行するようコンピュータを構成し、動作させるためである。本発明のシステムは、コンピュータ・プログラムをもって構成された(すなわちコンピュータ・プログラムを記憶している)コンピュータ可読記憶媒体として実装されてもよい。ここで、そのように構成された記憶媒体はコンピュータ・システムに、本稿に記載される機能を実行するよう、特定のあらかじめ定義された仕方で動作させる。
【0105】
本発明のいくつかの実施形態を記述してきた。にもかかわらず、本発明の精神および範囲から外れることなくさまざまな修正がなしうることは理解されるであろう。上記の教示に照らして本発明の数多くの修正および変形が可能である。付属の請求項の範囲内で、本発明は、本稿に具体的に記述されている以外の仕方で実施されうることは理解される。請求項に含まれる参照符号があったとしても、単に例解目的のためであり、いかなる仕方であれ請求項を解釈したり限定したりするために使われるべきではない。
【0106】
いくつかの態様を記載しておく。
〔態様1〕
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを記憶するよう構成されたバッファと;
前記バッファに結合され、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部を多重分離するよう構成されたビットストリーム・ペイロード・フォーマット解除器と;
前記ビットストリーム・ペイロード・フォーマット解除器に結合され、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部をデコードするよう構成されたデコード・サブシステムとを有するオーディオ処理ユニットであって、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
オーディオ処理ユニット。
〔態様2〕
前記充填データはさらに向上スペクトル帯域複製メタデータを含む、態様1記載のオーディオ処理ユニット。
〔態様3〕
前記向上スペクトル帯域複製メタデータは、スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含まない、態様2記載のオーディオ処理ユニット。
〔態様4〕
前記向上スペクトル帯域複製メタデータは、高調波転換とスペクトル・パッチングの間で選択するためのパラメータを含まない、態様2または3記載のオーディオ処理ユニット。
〔態様5〕
前記向上スペクトル帯域複製メタデータは、i)前置平坦化を実行するかどうかを示すパラメータ;ii)サブバンド・サンプル間時間的包絡整形を実行するかどうかを示すパラメータ;およびiii)信号適応的な周波数領域オーバーサンプリングを実行するかどうかを示すパラメータのうちの少なくとも一つを含む、態様2ないし4のうちいずれか一項記載のオーディオ処理ユニット。
〔態様6〕
前記向上スペクトル帯域複製メタデータは、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述も言及もされていない少なくとも一つのeSBRツールを有効にするよう構成されたメタデータである、態様2ないし5のうちいずれか一項記載のオーディオ処理ユニット。
〔態様7〕
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックがスペクトル帯域複製メタデータを含む、態様1ないし6のうちいずれか一項記載のオーディオ処理ユニット。
〔態様8〕
前記向上スペクトル帯域複製メタデータは、前記スペクトル帯域複製メタデータのパラメータと等価なパラメータを含まない、態様2を引用する場合の態様7記載のオーディオ処理ユニット。
〔態様9〕
前記スペクトル帯域複製メタデータは、MPEG-4 AAC規格において記述または言及されている少なくとも一つのSBRツールを有効にするよう構成されたメタデータである、態様7または8記載のオーディオ処理ユニット。
〔態様10〕
前記スペクトル帯域複製メタデータは、スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含む、態様7ないし9のうちいずれか一項記載のオーディオ処理ユニット。
〔態様11〕
前記向上スペクトル帯域複製処理が高調波転換を含むが、スペクトル・パッチングを含まない、態様1ないし10のうちいずれか一項記載のオーディオ処理ユニット。
〔態様12〕
前記少なくとも一つのフラグのある値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して前記向上スペクトル帯域複製処理が実行されるべきであることを示し、前記少なくとも一つのフラグの別の値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して基本的なスペクトル帯域複製処理が実行されるべきであることを示す、態様1ないし11のうちいずれか一項記載のオーディオ処理ユニット。
〔態様13〕
前記基本的なスペクトル帯域複製処理はスペクトル・パッチングを含むが高調波転換を含まない、態様12記載のオーディオ処理ユニット。
〔態様14〕
前記基本的なスペクトル帯域複製処理は、MPEG-4 AAC規格に記載されるスペクトル・パッチングを使ったスペクトル帯域複製処理である、態様12または13記載のオーディオ処理ユニット。
〔態様15〕
前記向上スペクトル帯域複製処理は、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述も言及もされていない少なくとも一つのeSBRツールを使うスペクトル帯域複製処理である、態様1ないし14のうちいずれか一項記載のオーディオ処理ユニット。
〔態様16〕
当該オーディオ処理ユニットがオーディオ・デコーダであり、前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、態様1ないし15のうちいずれか一項記載のオーディオ処理ユニット。
〔態様17〕
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、任意的には、
前記スペクトル帯域複製拡張データは:
任意的なスペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
態様1ないし16のうちいずれか一項記載のオーディオ処理ユニット。
〔態様18〕
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは、第一の充填要素および第二の充填要素を含み、前記第一の充填要素にはスペクトル帯域複製データが含まれ、前記第二の充填要素には前記フラグが含まれるが、スペクトル帯域複製データは含まれない、態様1ないし17のうちいずれか一項記載のオーディオ処理ユニット。
〔態様19〕
前記少なくとも一つのフラグを使ってまたは前記少なくとも一つのフラグに応答して向上スペクトル帯域複製処理を実行するよう構成された向上スペクトル帯域複製処理サブシステムをさらに有する、態様1ないし18のうちいずれか一項記載のオーディオ処理ユニット。
〔態様20〕
エンコードされたオーディオ・ビットストリームをデコードする方法であって:
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを受領する段階と;
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部を多重分離する段階と;
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部をデコードする段階とを含み、
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
方法。
〔態様21〕
前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、態様20記載の方法。
〔態様22〕
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、任意的には、
前記スペクトル帯域複製拡張データは:
任意的なスペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
態様20または21記載の方法。
〔態様23〕
前記向上スペクトル帯域複製処理が高調波転換であり、前記少なくとも一つのフラグのある値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して前記向上スペクトル帯域複製処理が実行されるべきであることを示し、前記少なくとも一つのフラグの別の値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対してスペクトル・パッチングが実行されるべきだが前記高調波転換は実行されるべきではないことを示す、態様20ないし22のうちいずれか一項記載の方法。
〔態様24〕
前記スペクトル帯域複製拡張要素が、前記フラグ以外の向上スペクトル帯域複製メタデータを含み、前記向上スペクトル帯域複製メタデータが前置平坦化を実行するかどうかを示すパラメータを含む、または、
前記スペクトル帯域複製拡張要素が、前記フラグ以外の向上スペクトル帯域複製メタデータを含み、前記向上スペクトル帯域複製メタデータがサブバンド・サンプル間時間的包絡整形を実行するかどうかを示すパラメータを含む、
態様22または23記載の方法。
〔態様25〕
前記少なくとも一つのフラグを使って向上スペクトル帯域複製処理を実行する段階をさらに含み、前記向上スペクトル帯域複製は高調波転換を含む、態様20ないし24のうちいずれか一項記載の方法。
〔態様26〕
前記エンコードされたオーディオ・ビットストリームがMPEG-4 AACビットストリームである、態様20ないし25のうちいずれか一項記載の方法または態様1ないし19のうちいずれか一項記載のオーディオ処理ユニット。