(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022091968
(43)【公開日】2022-06-21
(54)【発明の名称】オーディオ信号の高周波再構成を行う方法及びオーディオ処理ユニット
(51)【国際特許分類】
G10L 21/0388 20130101AFI20220614BHJP
G10L 19/02 20130101ALI20220614BHJP
【FI】
G10L21/0388 100
G10L19/02 150
【審査請求】有
【請求項の数】11
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022063330
(22)【出願日】2022-04-06
(62)【分割の表示】P 2020544033の分割
【原出願日】2019-01-28
(31)【優先権主張番号】62/622,205
(32)【優先日】2018-01-26
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ショエルリンク,クリストファー
(72)【発明者】
【氏名】ヴィレモウズ,ラルス
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
(72)【発明者】
【氏名】エクストランド,ペル
(57)【要約】 (修正有)
【課題】スペクトル・バンド複製を改善するための符号化された音声ビットストリームをデコードする方法及び記憶媒体を提供する。
【解決手段】オーディオ処理ユニット(APU210)において、デコードする方法は、符号化された音声ビットストリームを受信するステップと、復号化されたローバンド音声信号を生成するために音声データを復号化するステップと、高周波再構成メタデータを抽出し、復号化されたローバンド音声信号を分析フィルタバンクでフィルタリングして、フィルタリングされたローバンド音声信号を生成するステップと、音声データに対してスペクトル変換又はハーモニック・トランスポジションのいずれが実行されるべきかを示すフラグを抽出し、フラグに従って高周波再構成メタデータ及びフィルタリングされたローバンド音声信号を利用して音声信号のハイバンド部分を再生成するステップと、を含む。
【選択図】
図4
【特許請求の範囲】
【請求項1】
オーディオ信号の高周波再構成を実行する方法であって:
エンコードされたオーディオ・ビットストリームを受信するステップであって、前記エンコードされたオーディオ・ビットストリームは前記オーディオ信号のローバンド部分を表すオーディオ・データと高周波再構成メタデータとを含む、ステップ;
デコードされたローバンド・オーディオ信号を生成するために前記オーディオ・データをデコードするステップ;
前記高周波再構成メタデータを前記エンコードされたオーディオ・ビットストリームから抽出するステップであって、前記高周波再構成メタデータは高周波再構成プロセスの動作パラメータを含み、前記動作パラメータは前記エンコードされたオーディオ・ビットストリームの後方互換性のある拡張コンテナ内に位置するパッチ処理モード・パラメータを含み、第1値の前記パッチ処理モード・パラメータはスペクトル変換を示し、第2値の前記パッチ処理モード・パラメータは位相ボコーダ周波数拡散によるハーモニック・トランスポジションを示す、ステップ;
フィルタリングされたローバンド・オーディオ信号を生成するために、前記デコードされたローバンド・オーディオ信号をフィルタリングするステップ;
前記フィルタリングされたローバンド・オーディオ信号及び前記高周波再構成メタデータを利用して前記オーディオ信号のハイバンド部分を再生成するステップであって、前記再生成は前記パッチ処理モード・パラメータが前記第1値である場合にはスペクトル変換を含み、前記再生成は前記パッチ処理モード・パラメータが前記第2値である場合には位相ボコーダ周波数拡散によるハーモニック・トランスポジションを含む、ステップ;
を含む方法。
【請求項2】
前記後方互換性のある拡張コンテナは、前記パッチ処理モード・パラメータが前記第2値に等しい場合に使用されるべきインバース・フィルタリング制御データを含む、請求項1に記載の方法。
【請求項3】
前記後方互換性のある拡張コンテナは、前記パッチ処理モード・パラメータが前記第2値に等しい場合に使用されるべき欠落高調波制御データを更に含む、請求項1に記載の方法。
【請求項4】
前記フィルタリングは、プロトタイプ・フィルタp
0(n)の変調されたバージョンである分析フィルタh
k(n)を含む分析フィルタバンクによって次式に従って実行され:
【数7】
ここで、p
0(n)は実数値の対称又は非対称プロトタイプ・フィルタであり、Mは前記分析フィルタバンクにおけるチャネル数であり、Nは前記プロトタイプ・フィルタの次数である、請求項1に記載の方法。
【請求項5】
前記プロトタイプ・フィルタp0(n)は、以下の処理:端数処理、サブサンプリング、補間、及びデシメーションのうちの1つ以上の数学的演算によって導出される、請求項4に記載の方法。
【請求項6】
前記プロトタイプ・フィルタp0(n)は、端数処理、サブサンプリング、補間、又はデシメーションから成る群から選択された1つ以上の数学的演算によって、本願の表4の係数から導出される、請求項5に記載の方法。
【請求項7】
位相シフトは、前記フィルタリングの後に、前記フィルタリングされたローバンド・オーディオ信号に付加され、本方法の複雑性を減らすために合成の前に補償される、請求項1に記載の方法。
【請求項8】
前記後方互換性のある拡張コンテナは、前記パッチ処理モード・パラメータが前記第1値に等しい場合に、前記ハイバンド部分のスペクトル包絡線の形状における不連続性を回避するために追加的な前処理が使用されるかどうかを示すフラグを更に含み、第1値の前記フラグは前記追加的な前処理をイネーブルにし、第2値の前記フラグは前記追加的な前処理をディセーブルにする、請求項1に記載の方法。
【請求項9】
前記追加的な前処理は、線形予測フィルタ係数を使用してプリゲイン曲線を計算することを含む、請求項8に記載の方法。
【請求項10】
プロセッサにより実行されると請求項1に記載の方法を実行する命令を含む非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項11】
オーディオ信号の高周波再構成を実行するオーディオ処理ユニットであって:
エンコードされたオーディオ・ビットストリームを受信する入力インターフェースであって、前記エンコードされたオーディオ・ビットストリームは前記オーディオ信号のローバンド部分を表すオーディオ・データと高周波再構成メタデータとを含む、入力インターフェース;
デコードされたローバンド・オーディオ信号を生成するために前記オーディオ・データをデコードするコア・オーディオ・デコーダ;
前記高周波再構成メタデータを前記エンコードされたオーディオ・ビットストリームから抽出するデフォーマッタであって、前記高周波再構成メタデータは高周波再構成プロセスの動作パラメータを含み、前記動作パラメータは前記エンコードされたオーディオ・ビットストリームの後方互換性のある拡張コンテナ内に位置するパッチ処理モード・パラメータを含み、第1値の前記パッチ処理モード・パラメータはスペクトル変換を示し、第2値の前記パッチ処理モード・パラメータは位相ボコーダ周波数拡散によるハーモニック・トランスポジションを示す、デフォーマッタ;
フィルタリングされたローバンド・オーディオ信号を生成するために、前記デコードされたローバンド・オーディオ信号をフィルタリングする分析フィルタバンク;
前記フィルタリングされたローバンド・オーディオ信号及び前記高周波再構成メタデータを利用して前記オーディオ信号のハイバンド部分を再構成する高周波再生成部であって、前記再構成は前記パッチ処理モード・パラメータが前記第1値である場合にはスペクトル変換を含み、前記再構成は前記パッチ処理モード・パラメータが前記第2値である場合には位相ボコーダ周波数拡散によるハーモニック・トランスポジションを含む、高周波再生成部;
を含むオーディオ処理ユニット。
【発明の詳細な説明】
【背景技術】
【0001】
関連出願の相互参照
本願は以下の出願に基づく優先権を主張しており、これは本願で援用されている:2018年1月26日付で出願された米国仮出願第62/622,205号。
【0002】
技術分野
実施形態はオーディオ信号処理に関連し、より具体的には、高周波再構成(HFR)のベーシック形式又はHFRのエンハンスト形式の何れかがオーディオ・データに関して実行されるべきことを指定する制御データによるオーディオ・ビットストリームのエンコーディング、デコーディング、又はトランスコーディングに関連する。
【0003】
発明の背景
典型的なオーディオ・ビットストリームは、オーディオ・コンテンツの1つ以上のチャネルを示すオーディオ・データ(例えば、符号化されたオーディオ・データ)と、オーディオ・データ又はオーディオ・コンテンツの少なくとも1つの特徴を示すメタデータとの両方を含む。符号化されたオーディオ・ビットストリームを生成するためのよく知られたフォーマットの1つは、MPEG-4アドバンスト・オーディオ・コーディング(AAC)フォーマットであり、これはMPEG規格ISO/IEC14496-3:2009に記載されている。MPEG4規格では、AACは「アドバンスト・オーディオ・コーディング」を意味し、HE-AACは「高効率アドバンスト・オーディオ・コーディング」を意味する。
【0004】
MPEG-4AAC規格は、オブジェクト及び符号化ツールが準拠するエンコーダ又はデコーダに存在することを判定する幾つかのオーディオ・プロファイルを定義している。これらのオーディオ・プロファイルのうちの3つは、(1)AACプロファイル、(2)HE-AACプロファイル、及び(3)HE-AAC v2プロファイルである。AACプロファイルは、AAC低複雑性(又は「AAC-LC」)オブジェクト・タイプを含む。AAC-LCオブジェクトは、若干の調整を伴うMPEG-2AAC低複雑性プロファイルに対応するものであり、スペクトル・バンド複製(「SBR」)オブジェクト・タイプもパラメトリック・ステレオ(「PS」)オブジェクト・タイプも含まない。HE-AACプロファイルは、AACプロファイルのスーパーセットであり、SBRオブジェクト・タイプを追加的に含む。HE-AACv2プロファイルは、HE-AACプロファイルのスーパーセットであり、PSオブジェクト・タイプを追加的に含む。
【0005】
SBRオブジェクト・タイプはスペクトル・バンド複製ツールを含み、これは知覚音声コーデックの圧縮効率を著しく改善する重要な高周波再構成(「HFR」)符号化ツールである。SBRは、受信機側で(例えば、デコーダにおいて)オーディオ信号の高周波成分を再構成する。従って、エンコーダは、低周波成分を符号化し、送信することだけを必要とし、低いデータ・レートで非常に高いオーディオ品質を可能にする。SBRは、エンコーダから得られる制御データ及び利用可能な帯域幅制限信号から、データ・レートを低減するために事前に打ち切られた高調波のシーケンスを複製することに基づいている。トーン成分(tonal)及びノイズ成分の間の比率は、ノイズと正弦波の選択的な付加に加えて、適応逆フィルタリングによって維持される。MPEG-4AAC規格では、SBRツールはスペクトル・パッチ処理(線形変換又はスペクトル変換とも呼ばれる)を実行し、この場合、多数の連続した直交ミラー・フィルタ(QMF)サブバンドが、デコーダで生成された、オーディオ信号の送信されたローバンド部分から、オーディオ信号のハイバンド部分へコピーされる(又は「パッチ」される)。
【0006】
スペクトル・パッチ処理又は線形変換は、比較的低いクロス・オーバー周波数を伴う音楽コンテンツのような特定のオーディオ・タイプには理想的ではないかもしれない。従って、スペクトル・バンド複製を改善するための技術が必要とされる。
【発明の概要】
【0007】
第1クラスの実施形態に関し、符号化されたオーディオ・ビットストリームをデコードするための方法が開示される。方法は、符号化されたオーディオ・ビットストリームを受信するステップと、デコードされたローバンド・オーディオ信号を生成するためにオーディオ・データをデコードするステップとを含む。方法は、更に、高周波再構成メタデータを抽出するステップと、デコードされたローバンド・オーディオ信号を分析フィルタバンクでフィルタリングして、フィルタリングされたローバンド・オーディオ信号を生成するステップとを含む。方法は、オーディオ・データに対してスペクトル変換又は高調波トランスポジションのいずれが実行されるべきかを示すフラグを抽出するステップと、フラグに従って高周波再構成メタデータ及びフィルタリングされたローバンド・オーディオ信号を用いてオーディオ信号のハイバンド部分を再生成するステップとを更に含む。最後に、方法は、フィルタリングされたローバンド・オーディオ信号と再生成されたハイバンド部分とを組み合わせて広帯域オーディオ信号を形成するステップを含む。
【0008】
第2クラスの実施形態は、符号化されたオーディオ・ビットストリームを復号化するためのオーディオ・デコーダに関する。デコーダは、符号化されたオーディオ・ビットストリームを受信するための入力インターフェース(符号化されたオーディオ・ビットストリームは、オーディオ信号のローバンド部分を表すオーディオ・データを含む)と、デコードされたローバンド・オーディオ信号を生成するためにオーディオ・データをデコードするコア・デコーダとを含む。デコーダはまた、符号化されたオーディオ・ビットストリーム高周波再構成メタデータから抽出するためのデマルチプレクサ(高周波再構成メタデータは、オーディオ信号のローバンド部分からオーディオ信号のハイバンド部分へ、連続する数のサブバンドを線形に変換する高周波再構成プロセスのための動作パラメータを含む)と、デコードされたローバンド・オーディオ信号をフィルタリングして、フィルタリングされたローバンド・オーディオ信号を生成するための分析フィルタバンクとを含む。デコーダは更に、オーディオ・データに対して線形変換又は高調波トランスポジションのいずれが実行されるべきかを示すフラグを、符号化されたオーディオ・ビットストリームから抽出するためのデマルチプレクサと、フラグに従って高周波再構成メタデータ及びフィルタリングされたローバンド・オーディオ信号を使用してオーディオ信号のハイバンド部分を再生成するための高周波再生器とを含む。最後に、デコーダは、広帯域オーディオ信号を形成するために、フィルタリングされたローバンド・オーディオ信号と再生成されたハイバンド部分とを組み合わせるための合成フィルタバンクを含む。
【0009】
他のクラスの実施形態は、強化されたスペクトル・バンド複製(eSBR)処理が実行されるべきかどうかを識別するメタデータを含むオーディオ・ビットストリームをエンコード及びトランスコーディングすることに関する。
【図面の簡単な説明】
【0010】
【
図1】本発明の方法の実施形態を実施するように構成される可能性のあるシステムの実施形態のブロック図である。
【
図2】本発明のオーディオ処理ユニットの実施形態であるエンコーダのブロック図である。
【
図3】本発明のオーディオ処理ユニットの実施形態であるデコーダと、オプションとしてそれに結合されたポスト・プロセッサとを含むシステムのブロック図である。
【
図4】本発明のオーディオ処理ユニットの実施形態であるデコーダのブロック図である。
【
図5】本発明のオーディオ処理ユニットの別の実施形態であるデコーダのブロック図である。
【
図6】本発明のオーディオ処理ユニットの別の実施形態のブロック図である。
【
図7】分割されたセグメントを含むMPEG-4AACビットストリームのブロックの図を示す。
【発明を実施するための形態】
【0011】
表記及び用語
特許請求の範囲を含む本開示全体を通じて、信号又はデータ「に対して」処理を実行するという表現(例えば、信号又はデータのフィルタリング、スケーリング、変換、又は利得の適用)は、信号又はデータ、又は信号又はデータの処理されたバージョンに(例えば、その処理の実行前に、予備的なフィルタリング又は前処理を施した信号のバージョンに)直接的な処理を実行することを示す広義に使用される。
【0012】
特許請求の範囲を含む本開示全体を通じて、「オーディオ処理ユニット」又は「オーディオ・プロセッサ」という表現は、オーディオ・データを処理するように構成されたシステム、デバイス、又は装置を示すように広義に使用される。オーディオ処理ユニットの例としては、エンコーダ、トランスコーダ、デコーダ、コーデック、前処理システム、後処理システム、及びビットストリーム処理システム(しばしばビットストリーム処理ツールと言及される)を含むが、これらに限定されない。モバイル・フォン、テレビ、ラップトップ、タブレット・コンピュータのような事実上すべての消費者電子製品は、オーディオ処理ユニット又はオーディオ・プロセッサを内蔵している。
【0013】
特許請求の範囲を含む本開示全体を通じて、「結合する」又は「結合される」という用語は、直接的又は間接的な接続を意味するように広義に使用される。従って、第1デバイスが第2デバイスに結合する場合、その接続は、直接的な接続を介している可能性、又は他のデバイス及び接続を介する間接的な接続を介している可能性がある。更に、他の構成要素の中に又はそれと共に一体化された構成要素も互いに結合される。
【0014】
発明の実施形態の詳細な説明
MPEG-4AAC規格は、符号化されたMPEG-4AACビットストリームが、ビットストリームのオーディオ・コンテンツをデコードするためにデコーダによって(もし適用されるべきであるならば)適用されるべき高周波再構成(HFR)処理の各タイプを示す、及び/又はそのようなHFR処理を制御する、及び/又はビットストリームのオーディオ・コンテンツをデコードするために使用されるべき少なくとも1つのHFRツールの少なくとも1つの特性又はパラメータを示すメタデータを含むことを想定している。ここで、我々は、スペクトル・バンド複製(「SBR」)で使用するためにMPEG-4AAC規格で記述又は言及されているこの種のメタデータを示すために、「SBRメタデータ」という表現を使用する。当業者には理解されるように、SBRはHFRの一形態である。
【0015】
SBRは、好ましくはデュアル・レート・システムとして使用され、基礎となるコーデックはオリジナルのサンプリング・レートの半分で動作する一方、SBRはオリジナルのサンプリング・レートで動作する。SBRエンコーダは、より高いサンプリング・レートではあるが、基礎とするコア・コーデックと並列的に動作する。SBRは主にデコーダにおける後処理であるが、デコーダにおける最も高い精度の高周波再構成を補償するために、重要なパラメータがエンコーダで抽出される。エンコーダは、現在の入力信号セグメント特性に適した時間及び周波数レンジ/分解能に対して、SBRレンジのスペクトル包絡線を推定する。スペクトル包絡線は、複雑なQMF解析とその後のエネルギー計算により推定される。スペクトル包絡線の時間及び周波数分解能は、所与の入力セグメントに対して最適な時間周波数分解能を保証するために、高いレベルの自由度で選択されることが可能である。包絡線推定は、オリジナルの領域、主に高周波領域(例えば、ハイ・ハット(a higt-hat))に位置する一過性のもの(a transient)が、包絡線調整前に生成されたSBRハイバンドに僅かに存在することを考慮する必要があり、なぜならデコーダにおけるハイバンドはローバンドに基づくからであり、その一過性のものはハイバンドと比較してはるかに小さいと判断される。この態様は、他のオーディオ符号化アルゴリズムで使用されるような通常のスペクトル包絡線推定と比較して、スペクトル包絡線データの時間周波数分解能に対する異なる条件を課す。
【0016】
スペクトル包絡線とは別に、異なる時間及び周波数領域に対する入力信号のスペクトル特性を表す幾つかの追加的なパラメータが抽出される。エンコーダは、当然に、オリジナル信号だけでなく、デコーダ内のSBRユニットがどのようにしてハイバンドを生成するかに関する情報に対するアクセスも有するので、ローバンドが強い高調波系列を構成し且つ再生成されるハイバンドが主にランダム信号成分を構成するような状況だけでなく、ハイバンド領域が基礎とするローバンドに対応物が無いオリジナル・ハイバンドに強いトーン成分が存在するような状況を、システムは取り扱うことが可能である。更に、SBRエンコーダは、基礎とするコア・コーデックと密接に関係して動作し、所与の時間にどの周波数範囲がSBRによってカバーされるべきかを評価する。SBRデータは、ステレオ信号の場合に、制御データのチャネル依存性だけでなく、エントロピー符号化も利用することによって伝送前に効率的に符号化される。
【0017】
制御パラメータ抽出アルゴリズムは、典型的には、所与のビットレート及び所与のサンプリング・レートで、基礎とするコーデックに注意深く調整されることを必要とする。これは、より低いビットレートは、通常、高いビットレートと比較して、より大きなSBR範囲を示し、異なるサンプリング・レートは、SBRフレームの異なる時間分解能に対応するという事実に起因する。
【0018】
SBRデコーダは、典型的には、幾つかの異なるパートを含む。これは、ビットストリーム復号化モジュール、高周波再構成モジュール(HFR)、追加的な高周波コンポーネント・モジュール、及び包絡線調整モジュールを含む。システムは、複素数値QMFフィルタバンク(高品質SBRに対するもの)又は実数値QMFフィルタバンク(低電力SBRに対するもの)に基づいている。本発明の実施形態は、高品質SBR及び低電力SBRの両方に適用可能である。ビットストリーム抽出モジュールでは、制御データがビットストリームから読み出され、デコードされる。時間周波数グリッドは、ビットストリームから包絡線データを読み取る前に、現在フレームに対して得られる。基礎とするコア・デコーダは、(より低いサンプリング・レートではあるが)現在フレームのオーディオ信号をデコードし、時間ドメインのオーディオ・サンプルを生成する。結果のオーディオ・データのフレームは、HFRモジュールによる高周波再構成に使用される。次いで、デコードされたローバンド信号は、QMFフィルタバンクを用いて分析される。その後、QMFフィルタバンクのサブバンド・サンプルに対して高周波再構成と包絡線調整とが実行される。高周波は、与えられた制御パラメータに基づいて、柔軟な方法でローバンドから再構成される。更に、再構成されたハイバンドは、所与の時間/周波数領域の適切なスペクトル特性を保証するために、制御データに従ってサブバンド・チャネル・ベースで適応的にフィルタリングされる。
【0019】
MPEG-4AACビットストリームのトップ・レベルは、データ・ブロックのシーケンス(「raw_data_block」要素)であり、それらの各々は、オーディオ・データ(典型的には、1024個又は960個のサンプルの期間にわたる)及び関連情報及び/又は他のデータを含むデータのセグメント(以下「ブロック」という)である。ここで、我々は、1つの(1つより多くない)「raw_data_block」要素を決定するか又は示すオーディオ・データ(及び対応するメタデータ及びオプションとして他の関連データ)を含むMPEG-4AACビットストリームのセグメントを示すために、用語「ブロック」を使用する。
【0020】
MPEG-4AACビットストリームの各ブロックは、多数の構文要素を含むことが可能である(それらの各々はまた、データのセグメントとしてビットストリームに現れる)。このような構文要素の7つのタイプがMPEG-4AAC標準で定義されている。各々の構文要素は、データ要素「id_syn_ele」の異なる値によって識別される。構文要素の具体例は、「single_channel_element()」、「channel_pair_element()」、及び「fill_element()」を含む。単一のチャネル要素は、単一のオーディオ・チャネルのオーディオ・データを含むコンテナ(モノラル・オーディオ信号)である。チャネル・ペア要素は、2つのオーディオ・チャネル(ステレオ・オーディオ信号)のオーディオ・データを含む。
【0021】
フィル要素は、識別子(例えば、上記のid_syn_ele要素の値)と、それに続くデータを含む情報のコンテナであり、これは「フィル・データ」と言及される。フィル要素は、歴史的には、一定のレートのチャネルを介して伝送されるビットストリームの瞬時的なビットレートを調整するために使用されてきた。各ブロックに適切な量のフィル・データを加えることによって、一定のデータ・レートが達成されることが可能である。
【0022】
本発明の実施形態によれば、フィル・データは、ビットストリームで送信されることが可能なデータのタイプ(例えば、メタデータ)を拡張する1つ以上の拡張ペイロードを含む可能性がある。新しいタイプのデータを含むフィル・データとともにビットストリームを受信するデコーダは、デバイスの機能を拡張するために、ビットストリームを受信するデバイス(例えば、デコーダ)によってオプションとして使用される可能性がある。従って、当業者には理解されるように、フィル要素は、特殊なタイプのデータ構造であり、オーディオ・データを送信するために典型的に使用されるデータ構造(例えば、チャネル・データを含むオーディオ・ペイロード)とは異なる。
【0023】
本発明の幾つかの実施形態において、フィル要素を識別するために使用される識別子は、0x6という値を有する最上位ビット・ファーストで送信される3ビット符号なし整数(a three bit unsigned integer transmitted most significant bit first:uimsbf)から成る可能性がある。1つのブロックでは、同じタイプの構文要素(例えば、複数のフィル要素)の幾つかのインスタンスが発生する可能性がある。
【0024】
音声ビットストリームを符号化するための別の規格は、MPEG(Unified Speech and Audio Coding:USAC)規格(ISO/IEC23003-3:2012)である。MPEG USAC規格は、スペクトル・バンド複製処理を用いるオーディオ・コンテンツの符号化及び復号化(MPEG-4 AAC規格に記載されているようなSBR処理を含み、また、スペクトル・バンド複製処理の他の強化された形態も含む)を記述している。この処理は、MPEG-4 AAC規格に記載されている一群のSBRツールの拡張された及び強化されたバージョンのスペクトル・バンド複製ツール(本願では「拡張SBRツール」又は「eSBRツール」としばしば言及する)を適用する。従って、(USAC規格で定義されているような)eSBRは、(MPEG-4AAC標準で定義されているような)SBRに対する改良である。
【0025】
ここでは、MPEG-4AAC規格に記載又は言及されていない少なくとも1つのeSBRツール(例えば、MPEG USAC規格に記載又は言及されている少なくとも1つのeSBRツール)を用いるスペクトル・バンド複製処理を表すために、「エンハンストSBR処理」(又は「eSBR処理」)という表現を用いる。このようなeSBRツールの例は、ハーモニック・トランスポジション及びQMFパッチ処理追加前処理又は「事前平坦化」である。
【0026】
整数次数Tのハーモニック・トランスポーザは、周波数ωの正弦波を周波数Tωの正弦波にマッピングする一方、信号持続時間を維持する。可能な最小のトランスポジション次数を用いて所望の出力周波数範囲の各パートを生成するために、典型的には、T=2、3、4の3つの次数が順番に使用される。4次のトランスポジション範囲より上の出力が必要とされる場合には、それは周波数シフトにより生成される可能性がある。可能であれば、計算の複雑さを最小限にするために、ほぼ臨界的にサンプリングされるベースバンド時間ドメインが処理のために作成される。
【0027】
ハーモニック・トランスポーザは、QMF又はDFTベースの何れかであってもよい。QMFベースのハーモニック・トランスポーザを使用する場合、コア符号器時間ドメイン信号の帯域幅拡張は、修正された位相ボコーダ構造を使用して、QMFドメイン内で完全に実行され、全QMFサブバンドに対してデシメーションの後に時間伸長を実行する。幾つかのトランスポジション因子(例えば、T=2、3、4)を用いるトランスポジションは、共通のQMF分析/合成変換ステージで実行される。QMFベースのハーモニック・トランスポーザは信号適応周波数ドメイン・オーバーサンプリングを特徴としないので、ビットストリームの対応するフラグ(sbrOversamplingFlag[ch])は無視される可能性がある。
【0028】
DFTベースのハーモニック・トランスポーザを使用する場合、因子3及び4のトランスポーザ(3次及び4次トランスポーザ)は、好ましくは、複雑性を低減するために、内挿によって因子2のトランスポーザ(2次トランスポーザ)に組み込まれる。(coreCoderFrameLengthコア符号化器サンプルに対応する)各フレームに対して、トランスポーザの公称「フル・サイズ」変換サイズが、ビットストリーム内の信号適応周波数ドメイン・オーバーサンプリング・フラグ(sbrOverSamplingFlag[ch])によって最初に決定される。
【0029】
sbrPatchingMode==1である場合、線形トランスポジションはハイバンドを生成するために使用されるべきことを示し、後続の包絡線調整器に入力される高周波信号のスペクトル包絡線の形状における不連続性を避けるために、追加のステップが導入される可能性がある。これは、次の包絡線調整ステージの動作を改善し、結果として、より安定的であると知覚されるハイバンド信号を生じる。追加的な前処理の動作は、高周波再構成のために使用されるローバンド信号の粗いスペクトル包絡線がレベルの大きな変動を示す信号タイプにとって有益である。しかしながら、ビットストリーム要素の値は、任意の種類の信号依存分類を適用することによって、エンコーダ内で決定される可能性がある。追加の前処理は、好ましくは、1ビット・ビットストリーム要素bs_sbr_preprocessingによって活性化される。bs_sbr_preprocessingが1に設定される場合、追加的な処理はイネーブルにされる。bs_sbr_preprocessingがゼロに設定される場合、追加的な処理はディセーブルにされる。追加的な処理は、各パッチについてローバンドX
Lowをスケーリングするために高周波発生器によって使用されるプリゲイン曲線を利用することが好ましい。例えば、プリゲイン曲線は、以下に従って計算されてもよい:
【数1】
ここで、k
0はマスター周波数バンド・テーブルにおける最初のQMFサブバンドであり、lowEnvSlopeは、polyfit()のような、最良適合多項式の係数を計算する関数を使用して計算される。例えば(3次多項式を用いて)次式が使用される可能性がある:
【数2】
ここで
【数3】
であり、x_lowband(k)=[0...k
0-1]であり、numTimeSlotはフレーム内に存在するSBR包絡線タイムスロットの数であり、RATEはタイムスロットあたりのQMFサブバンド・サンプルの数を示す定数(例えば、2)であり、φ
kは線形予測フィルタ係数(共分散法から得られる可能性がある)であり、ここで、次式の関係がある:
【数4】
【0030】
MPEG USAC規格に従って生成されたビットストリーム(本願では「USACビットストリーム」としばしば言及される)は、符号化されたオーディオ・コンテンツを含み、典型的には、USACビットストリームのオーディオ・コンテンツを復号化するためにデコーダによって適用される各タイプのスペクトル・バンド複製処理を示すメタデータ、及び/又は、そのようなスペクトル・バンド複製処理を制御し、及び/又はUSACビットストリームのオーディオ・コンテンツを復号化するために使用される少なくとも1つのSBRツール及び/又はeSBRツールの少なくとも1つの特性又はパラメータを示すメタデータを含む。
【0031】
本願において、符号化されたオーディオ・ビットストリーム(例えば、USACビットストリーム)のオーディオ・コンテンツを復号化するためにデコーダによって適用される各タイプのスペクトル・バンド複製処理を示す、及び/又はそのようなスペクトル・バンド複製処理を制御し、及び/又はそのようなオーディオ・コンテンツを復号化するために使用される少なくとも1つのSBRツール及び/又はeSBRツールの少なくとも1つの特性又はパラメータを示すが、MPEG4AAC規格には記述又は言及されてないメタデータを示すために、「エンハンストSBRメタデータ」(又はeSBRメタデータ)という表現を使用する。eSBRメタデータの具体例には、MPEG USAC規格では記述又は言及されているが、MPEG-4AAC規格では記述又は言及されていないメタデータ(スペクトル・バンド複製処理を示す、又は制御するためのもの)がある。従って、本願におけるeSBRメタデータは、SBRメタデータではないメタデータを指し、本願におけるSBRメタデータは、eSBRメタデータではないメタデータを指す。
【0032】
USACビットストリームは、SBRメタデータ及びeSBRメタデータの両方を含む可能性がある。より具体的には、USACビットストリームは、デコーダによるeSBR処理のパフォーマンスを制御するeSBRメタデータと、デコーダによるSBR処理のパフォーマンスを制御するSBRメタデータとを含む可能性がある。本発明の典型的な実施形態によれば、eSBRメタデータ(例えば、eSBR固有のコンフィギュレーション・データ)は、(本発明によれば)MPEG-4AACビットストリーム(例えば、SBRペイロードの終わりにあるsbr_extension()コンテナ)に含まれる。
【0033】
(少なくとも1つのeSBRツールを含む)eSBRツール・セットを用いる符号化されたビットストリームの復号化中における、デコーダによるeSBR処理の実行は、符号化中に切り捨てられた高調波のシーケンスの複製に基づいて、オーディオ信号の高周波バンドを再生成する。このようなeSBR処理は、典型的には、生成された高周波バンドのスペクトル包絡線を調整し、逆フィルタリングを適用し、ノイズ及び正弦波成分を加えて、オリジナルのオーディオ信号のスペクトル特性を再現する。
【0034】
本発明の典型的な実施形態によれば、eSBRメタデータは、他のセグメント(オーディオ・データ・セグメント)にエンコードされたオーディオ・データを含むエンコードされたオーディオ・ビットストリーム(例えばMPEG-4AACビットストリーム)の1つ以上のメタデータ・セグメントに含まれる(例えば、eSBRメタデータである少数の制御ビットが含まれる)。典型的には、ビットストリームの各ブロックの少なくとも1つのそのようなメタデータ・セグメントは、フィル要素(フィル要素の開始を示す識別子を含む)であり(又はそれを含み)、eSBRメタデータは、識別子の後のフィル要素に含まれる。
【0035】
図1は、例示的なオーディオ処理チェーン(オーディオ・データ処理システム)のブロック図であり、システムの1つ以上の要素は、本発明の実施形態に従って構成されることが可能である。システムは、エンコーダ1、配信サブシステム2、デコーダ3、及び後処理ユニット4として示されるように共に結合される要素を含む。図示のシステムの変形では、1つ以上の要素が省略されるか、又は追加のオーディオ・データ処理ユニットが含まれる。
【0036】
幾つかの実装において、エンコーダ1(前処理ユニットをオプションとして含む)は、入力としてオーディオ・コンテンツを含むPCM(時間ドメイン)サンプルを受け入れ、オーディオ・コンテンツを示す符号化されたオーディオ・ビットストリーム(MPEG-4AAC規格に準拠したフォーマットを有する)を出力するように構成される。オーディオ・コンテンツを示すビットストリームのデータは、本願では「オーディオ・データ」又は「符号化されたオーディオ・データ」としばしば言及される。エンコーダが本発明の典型的な実施形態に従って構成される場合、エンコーダから出力されるオーディオ・ビットストリームは、音声データと同様にeSBRメタデータを(及び典型的には他のメタデータも)含む。
【0037】
エンコーダ1から出力される1つ以上の符号化されたオーディオ・ビットストリームは、符号化オーディオ配信サブシステム2にアサートされてもよい。サブシステム2は、エンコーダ1からの各エンコードされたビットストリーム出力を格納及び/又は配信するように構成される。エンコーダ1から出力される符号化されたオーディオ・ビットストリームは、サブシステム2によって(例えば、DVD又はブルー・レイ・ディスクの形式で)記憶されるか、又は(伝送リンク又はネットワークを実現することが可能な)サブシステム2によって送信されるか、又はサブシステム2によって記憶及び送信の双方が行われる可能性がある。
【0038】
デコーダ3は、サブシステム2を介して受信するエンコードされた(エンコーダ1によって生成される)MPEG-4AACオーディオ・ビットストリームをデコードするように構成される。幾つかの実施形態では、デコーダ3は、ビットストリームの各ブロックからeSBRメタデータを抽出し、ビットストリームをデコードし(抽出されたeSBRメタデータを使用してeSBR処理を実行することを含む)、デコードされたオーディオ・データ(例えば、デコードされたPCMオーディオ・サンプルのストリーム)を生成するように構成される。幾つかの実施形態では、デコーダ3は、ビットストリームからSBRメタデータを抽出し(ただし、ビットストリームに含まれるeSBRメタデータを無視する)、ビットストリームをデコードし(抽出されたSBRメタデータを使用してSBR処理を実行することを含む)、デコードされたオーディオ・データ(例えば、デコードされたPCMオーディオ・サンプルのストリーム)を生成するように構成される。典型的には、デコーダ3は、サブシステム2から受信した符号化されたオーディオ・ビットストリームのセグメントを(例えば、非一時的な方法で)記憶するバッファを含む。
【0039】
図1の後処理ユニット4は、デコーダ3からのデコードされたオーディオ・データのストリーム(例えば、デコードされたPCMオーディオ・サンプル)を受け入れ、それに対して後処理を実行するように構成される。後処理ユニットはまた、後処理されたオーディオ・コンテンツ(又はデコーダ3から受信したデコードされた音声)を、1つ以上のスピーカによる再生のためにレンダリングするように構成されることも可能である。
【0040】
図2は、本発明のオーディオ処理ユニットの実施形態であるエンコーダ(100)のブロック図である。エンコーダ100の構成要素又は素子のいずれも、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにおいて、1つ以上のプロセス及び/又は1つ以上の回路(例えば、ASIC、FPGA、又は他の集積回路)として実装される可能性がある。エンコーダ100は、図示のように接続されたエンコーダ105、スタッファ/フォーマッタ・ステージ(stuffer/formatter stage)107、メタデータ生成ステージ106、及びバッファ・メモリ109を含む。典型的には、エンコーダ100は、(図示されていない)他の処理要素も含む。エンコーダ100は、入力音声ビットストリームを、符号化された出力MPEG-4AACビットストリームに変換するように構成される。
【0041】
メタデータ生成部106は、エンコーダ100から出力されるべき符号化されたビットストリーム内にステージ107によって含められるべきメタデータ(eSBRメタデータ及びSBRメタデータを含む)を生成する(及び/又はステージ107を通過する)ように構成され結合される。
【0042】
エンコーダ105は、入力オーディオ・データを(例えば、そこで圧縮を実行することによって)符号化し、その結果得られた符号化された音声を、ステージ107から出力されるべき符号化ビットストリームに含めるために、ステージ107にアサートするように構成され結合される。
【0043】
ステージ107は、エンコーダ105からのエンコードされた音声と、生成部106からのメタデータ(eSBRメタデータ及びSBRメタデータを含む)とを多重化して、ステージ107から出力されるエンコードされたビットストリームを生成するように構成され、好ましくは、エンコードされたビットストリームが、本発明の実施形態のうちの何れかによって特定されるようなフォーマットを有するように構成される。
【0044】
バッファ・メモリ109は、ステージ107から出力される符号化されたオーディオ・ビットストリームの少なくとも1つのブロックを(例えば、非一時的な方法で)格納するように構成され、次いで、符号化されたオーディオ・ビットストリームのブロックのシーケンスが、エンコーダ100から送出システムへの出力としてバッファ・メモリ109からアサートされる。
【0045】
図3は、本発明のオーディオ処理ユニットの実施形態であるデコーダ(200)と、オプションとしてそれに結合されるポスト・プロセッサ(300)とを含むシステムのブロック図である。デコーダ200及びポスト・プロセッサ300の構成要素又は素子のいずれも、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにおいて、1つ以上のプロセス及び/又は1つ以上の回路(例えば、ASIC、FPGA、又は他の集積回路)として実装される可能性がある。デコーダ200は、バッファ・メモリ201、ビットストリーム・ペイロード・デフォーマッタ205、オーディオ・デコーディング・サブシステム202(「コア」デコーディング・ステージ又は「コア」デコーディング・サブシステムと言及されることもある)、eSBR処理ステージ203、及び制御ビット生成ステージ204を図示のように接続された形式で含む。典型的には、デコーダ200は、(図示されていない)他の処理要素も含む。
【0046】
バッファ・メモリ(バッファ)201は、デコーダ200によって受信されるエンコードされたMPEG-4AACオーディオ・ビットストリームの少なくとも1つのブロックを(例えば、非一時的な形式で)記憶する。デコーダ200の動作において、ビットストリームのブロックのシーケンスは、バッファ201からデフォーマッタ205にアサートされる。
【0047】
図3の実施形態(又は後述する
図4の実施形態)の変形例において、デコーダではないAPU(例えば、
図6のAPU500)はバッファ・メモリ(例えば、バッファ201と同一のバッファ・メモリ)を含み、バッファ・メモリは、
図3又は
図4のバッファ201によって受信された同じタイプの符号化オーディオ・ビットストリーム(例えば、MPEG-4AACオーディオ・ビットストリーム)(即ち、eSBRメタデータを含む符号化オーディオ・ビットストリーム)の少なくとも1つのブロックを(例えば、非一時的な方法で)格納する。
【0048】
図3を再度参照すると、デフォーマッタ205は、ビットストリームの各ブロックをデマルチプレクス(又は分離)し、(量子化された包絡線データを含む)SBRメタデータ及びeSBRメタデータ(及び典型的には他のメタデータ)をそこから抽出し、少なくともeSBRメタデータ及びSBRメタデータをeSBR処理ステージ203にアサートし、典型的には、他の抽出されたメタデータを復号化サブシステム202にもアサートするように(及び、オプションとして、ビット生成部204を制御するようにも)構成され結合される。デフォーマッタ205はまた、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データを復号化サブシステム(復号化ステージ)202にアサートするように構成され結合される。
【0049】
図3のシステムは、オプションとしてポスト・プロセッサ300も含む。ポスト・プロセッサ300は、バッファ・メモリ(バッファ)301及びバッファ301に結合された少なくとも1つの処理要素を含む他の処理要素(図示せず)を含む。バッファ301は、デコーダ200からポスト・プロセッサ300によって受信されたデコードされたオーディオ・データの少なくとも1つのブロック(又はフレーム)を(非一時的な方法で)記憶する。ポスト・プロセッサ300の処理要素は、デコーディング・サブシステム202(及び/又はデフォーマッタ205)から出力されるメタデータ及び/又はデコーダ200のステージ204から出力される制御ビットを用いて、バッファ301からデコードされたオーディオ出力のブロックのシーケンスを受信し、適応的に処理するように構成され結合される。
【0050】
デコーダ200のオーディオ復号化サブシステム202は、パーサー205によって抽出されたオーディオ・データを復号化して(そのような復号化は「コア」復号化処理と言及されてもよい)、復号化されたオーディオ・データを生成し、復号化されたオーディオ・データをeSBR処理ステージ203にアサートするように構成される。復号化は周波数ドメインで実行され、典型的には逆量子化とそれに続くスペクトル処理を含む。典型的には、サブシステム202における処理の最終ステージは、周波数ドメインから時間ドメインへの変換を、復号化された周波数ドメインの音声データに適用し、その結果、サブシステムの出力は、時間ドメインの復号化されたオーディオ・データである。ステージ203は、eSBRメタデータ及びeSBR(パーサー205によって抽出されたもの)によって示されるSBRツール及びeSBRツールを、デコードされたオーディオ・データに適用し(即ち、SBR及びeSBRメタデータを使用して復号化サブシステム202の出力に対してSBR及びeSBR処理を実行し)、デコーダ200から(例えば、ポスト・プロセッサ300へ)出力される完全にデコードされたオーディオ・データを生成するように構成される。典型的には、デコーダ200は、デフォーマッタ205からのメタデータ及びデフォーマットされたオーディオ・データを格納するメモリ(サブシステム202及びステージ203によってアクセス可能である)を含み、ステージ203は、SBR及びeSBR処理中に必要に応じてオーディオ・データ及びメタデータ(SBRメタデータ及びeSBRメタデータを含む)にアクセスするように構成される。ステージ203におけるSBR処理及びeSBR処理は、コア復号化サブシステム202の出力に対する後処理であると考えられてもよい。オプションとして、デコーダ200はまた、ステージ203の出力に対してアップミックスを実行し、デコーダ200から出力される完全にデコードされたアップミックスされたオーディオを生成するように構成され結合される最終的なアップミキシング・サブシステム(MPEG-4AAC規格で定義されるパラメトリック・ステレオ(PS)ツールを、デフォーマッタ205によって抽出されたPSメタデータ及び/又はサブシステム204で生成された制御ビットを使用して適用することができる)を含む。代替的に、ポスト・プロセッサ300は、デコーダ200の出力に対してアップミキシングを実行するように構成される(例えば、デフォーマッタ205によって抽出されたPSメタデータ及び/又はサブシステム204において生成された制御ビットを使用する)。
【0051】
デフォーマッタ205によって抽出されたメタデータに応答して、制御ビット発生部204は制御データを生成することが可能であり、制御データはデコーダ200内で(例えば、最終的なアップミキシング・サブシステムにおいて)使用され、及び/又はデコーダ200の出力として(例えば、後処理で使用するためにポスト・プロセッサ300へ)アサートされることが可能である。入力ビットストリームから抽出されたメタデータに応答して(及びオプションとして制御データに応答して)、ステージ204は、eSBR処理ステージ203からのデコードされたオーディオ・データ出力が特定のタイプの後処理を受けるべきであることを示す制御ビットを生成(及びポスト・プロセッサ300にアサート)することが可能である。幾つかの実装において、デコーダ200は、入力ビットストリームからポスト・プロセッサ300へのデフォーマッタ205によって抽出されたメタデータをアサートするように構成され、ポスト・プロセッサ300は、メタデータを使用してデコーダ200からのデコードされたオーディオ・データ出力に対して後処理を実行するように構成される。
【0052】
図4は、本発明のオーディオ処理ユニットの別の実施形態であるオーディオ処理ユニット(「APU」)(210)のブロック図である。APU210は、eSBR処理を実行するようには構成されていないレガシー・デコーダである。APU210のコンポーネント又はエレメントのいずれかは、ハードウェア、ソフトウェア、又はハードウェアの組み合わせで、1つ以上のプロセス及び/又は1つ以上の回路(例えば、ASIC、FPGA、又は他の集積回路)として実装されてもよい。APU210は、バッファ・メモリ201、ビットストリーム・ペイロード・デフォーマッタ(パーサー)215、オーディオ復号化サブシステム202(「コア」復号化ステージ又は「コア」復号化サブシステムとしばしば言及される)、及びSBR処理ステージ213を図示のように接続された形式で含む。典型的には、APU210は、(図示されていない)他の処理要素を含む。APU210は例えばオーディオ・エンコーダ、デコーダ又はトランスコーダを表す可能性がある。
【0053】
APU210のエレメント201及び202は、(
図3の)デコーダ200と同様に付番されたエレメントと同一であり、それらの上述の説明は繰り返さない。APU 210の動作において、APU210によって受信された符号化オーディオ・ビットストリーム(MPEG-4AACビットストリーム)のブロックのシーケンスは、バッファ201からデフォーマッタ215にアサートされる。
【0054】
デフォーマッタ215は、ビットストリームの各ブロックをデマルチプレクスして、SBRメタデータ(量子化エンベロープ・データを含む)及び典型的には他のメタデータをそこから抽出するが、本発明の何らかの実施形態に従ってビットストリームに含まれることが可能なeSBRメタデータは無視するように構成され結合される。デフォーマッタ215は、少なくともSBRメタデータをSBR処理ステージ213にアサートするように構成される。デフォーマッタ215はまた、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データを復号化サブシステム(復号化ステージ)202にアサートするように構成され結合される。
【0055】
デコーダ200のオーディオ・デコーディング・サブシステム202は、デフォーマッタ215によって抽出されたオーディオ・データをデコードしてデコードされたオーディオ・データを生成し(そのようなデコードは「コア」復号化処理と言及されてもよい)、デコードされたオーディオ・データをSBR処理ステージ213にアサートするように構成される。復号化は周波数ドメインで実行される。典型的には、サブシステム202における処理の最終ステージは、周波数ドメインから時間ドメインへの変換を、復号化された周波数ドメインのオーディオ・データに適用し、そのため、サブシステムの出力は、時間ドメインの復号化された音声データである。ステージ213は、SBRメタデータ(デフォーマッタ215によって抽出される)によって示されるSBRツール(ただし、eSBRツールではない)を、デコードされたオーディオ・データに適用し(即ち、SBRメタデータを使用して復号化サブシステム202の出力に対してSBR処理を実行し)、APU210から(例えば、ポスト・プロセッサ300へ)出力される完全にデコードされたオーディオ・データを生成するように構成される。典型的には、APU210は、デフォーマットされたオーディオ・データ及びデフォーマッタ215からのメタデータ出力を格納するメモリ(サブシステム202及びステージ213によってアクセス可能である)を含み、ステージ213は、SBR処理中に必要に応じてオーディオ・データ及びメタデータ(SBRメタデータを含む)にアクセスするように構成される。ステージ213におけるSBR処理は、コア復号化サブシステム202の出力に対する後処理であると考えられてもよい。オプションとして、APU210はまた、ステージ213の出力に対してアップミキシングを実行してAPU210から出力される完全にデコードされたアップミキシングされた音声を生成するように構成され結合された最終アップミキシング・サブシステム(これは、MPEG-4AAC規格で定義されるパラメトリック・ステレオ(PS)ツールを、デフォーマッタ215によって抽出されたPSメタデータを使用して適用することができる)を含む。代替的に、ポスト・プロセッサは、APU 210の出力に対してアップミキシングを実行するように構成される(例えば、デフォーマッタ215によって抽出されたPSメタデータ及び/又はAPU210において生成された制御ビットを使用する)。
【0056】
エンコーダ100、デコーダ200、及びAPU210の様々な実装は、本発明の方法の様々な実施形態を実行するように構成される。
【0057】
幾つかの実施形態によれば、eSBRメタデータは、符号化されたオーディオ・ビットストリーム(例えば、MPEG-4AACビットストリーム)に含まれ(例えば、eSBRメタデータである少数の制御ビットが含まれる)、その結果、(eSBRメタデータを解析するように構成されていないか、又はeSBRメタデータが関係する如何なるeSBRツールも使用するように構成されていない)レガシー・デコーダはeSBRメタデータを無視することが可能であるが、それにもかかわらず、eSBRメタデータが関係する何らかのeSBRツール又はeSBRメタデータを利用すること無く、典型的には復号化されたオーディオ品質における如何なる重大なペナルティも無しに、可能な範囲でビットストリームをデコードすることが可能である。しかしながら、eSBRメタデータを識別するためにビットストリームを解析し、eSBRメタデータに応じて少なくとも1つのeSBRツールを使用するように構成されたeSBRデコーダは、少なくとも1つのそのようなeSBRツールを利用する音型を享受するであろう。従って、本発明の実施形態は、強化されたスペクトル・バンド複製(eSBR)制御データ又はメタデータを後方互換性のある方法で効率的に伝送する手段を提供する。
【0058】
典型的には、ビットストリームにおけるeSBRメタデータは、以下のeSBRツール(これは、MPEG USAC規格で記載されているものであり、ビットストリームの生成中にエンコーダによって適用されてもされていなくてもよい)のうちの1つ以上を示す(例えば、それについての少なくとも1つの特性又はパラメータを示す):
・ハーモニック・トランスポジション;及び
・QMFパッチ処理追加前処理(事前フラット化)(QMF-patching additional pre-processing (pre-flattening))。
【0059】
例えば、ビットストリームに含まれるeSBRメタデータは、sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]、及びbs_sbr_preprocessingというパラメータ値を示す可能性がある(これらは、MPEG USAC規格及び本開示に記載されている)。
【0060】
ここで、Xが何らかのパラメータである場合に、表記X[ch]は、そのパラメータが、復号化されるべき符号化されたビットストリームのオーディオ・コンテンツのチャネル(「ch」)に関係していることを示す。簡明化のため、我々はしばしば表現[ch]を省略し、関連するパラメータはオーディオ・コンテンツのチャネルに関連していることを仮定する。
【0061】
ここで、Xが何らかのパラメータである場合に、表記X[ch][env]は、そのパラメータが、復号化されるべき符号化されたビットストリームのオーディオ・コンテンツのチャネル(「ch」)のSBR包絡線(「env」)に関係していることを示す。簡明化のため、我々はしばしば表現[env]及び[ch]を省略し、関連するパラメータはオーディオ・コンテンツのチャネルのSBR包絡線に関連していることを仮定する。
【0062】
符号化ビットストリームの復号化の間に、復号化のeSBR処理ステージ(ビットストリームによって示される音声コンテンツの各チャネル「ch」)の間にハーモニック・トランスポジションのパフォーマンス、次のeSBRメタデータ・パラメータによって制御される:sbrPatchingMode[ch]:sbrOversamplingFlag[ch];sbrPitchInBinsFlag[ch];及びsbrPitchInBins[ch]。
【0063】
値「sbrPatchingMode[ch]」はeSBRで使用されるトランスポーザのタイプを示し:sbrPatchingMode[ch]=1は(高品質SBR又は低消費電力SBRで使用されるような)MPEG-4AAC規格のセクション4.6.18に記載されているような線形のトランスポジション・パッチ処理を示し;sbrPatchingMode[ch]=0はMPEG USAC規格のセクション7.5.3又は7.5.4に記載されているような高調波SBRパッチ処理を示す。
【0064】
値「sbrOversamplingFlag[ch]」は、MPEG USAC規格のセクション7.5.3に記載されているように、DFTベースの高調波SBRパッチ処理と組み合わせたeSBRにおける信号適応周波数ドメイン・オーバーサンプリングの使用を示す。このフラグは、トランスポーザで使用されるDFTのサイズを制御し:1は、MPEG USAC規格のセクション7.5.3.1に記載されているように、信号適応周波数ドメイン・オーバーサンプリングがイネーブルにされていることを示し;0は、MPEG USAC規格のセクション7.5.3.1に記載されているように、信号適応周波数ドメイン・オーバーサンプリングがディセーブルにされていることを示す。
【0065】
値「sbrPitchInBinsFlag[ch]」は、sbrPitchInBins[ch]パラメータの解釈を制御し:1は、sbrPitchInBins[ch]の値が有効であり且つゼロより大きいことを示し;0は、sbrPitchInBins[ch]の値がゼロに設定されることを示す。
【0066】
値「sbrPitchInBins[ch]」は、SBR高調波トランスポーザにおける相互積項(cross product terms)の追加を制御する。値sbrPitchinBins[ch]は[0,127]の範囲内の整数値であり、コア・コーダのサンプリング周波数に作用する1536ラインDFTの周波数ビンで測定される距離を表す。
【0067】
MPEG-4AACビットストリームがSBRチャネル・ペアを示し、それらのチャネルは結合されていない場合(単一のSBRチャネルではない場合)、ビットストリームは、sbr_channel_pair_element()の各チャネルに対して1つずつ、上記の構文の2つのインスタンス(高調波又は非高調波トランスポジションに関するもの)を示す。
【0068】
eSBRツールのハーモニック・トランスポジションは、典型的には、比較的低いクロス・オーバー周波数でデコードされた音楽信号の品質を改善する。非ハーモニック・トランスポジション(即ち、レガシー・スペクトル・パッチ処理)は、典型的には、スピーチ信号を改善する。従って、特定のオーディオ・コンテンツを符号化するためにどのタイプのトランスポジションが好ましいかの決定における出発点は、スピーチ/ミュージック検出に依存してトランスポジション方法を選択することであり、ハーモニック・トランスポジションが音楽コンテンツに対して使用され、スペクトル・パッチ処理がスピーチ・コンテンツに対して使用される。
【0069】
eSBR処理中の事前フラット化のパフォーマンスは、この単一ビットの値に応じて事前フラット化が行われるか又は行われないかという意味で、「bs_sbr_preprocessing」として知られる1ビットのeSBRメタデータ・パラメータの値によって制御される。MPEG-4AAC規格のセクション4.6.18.6.3に記載されているようなSBR QMFパッチ処理アルゴリズムが使用される場合、後続の包絡線調整器に入力される高周波信号のスペクトル包絡線の形状における不連続性を回避するために、(「bs_sbr_preprocessing」パラメータによって示される場合に)事前フラット化のステップが実行される可能性がある(包絡線調整器は、eSBR処理の別のステージを実行する)。事前フラット化は、典型的には、以後の包絡線調整ステージの動作を改善し、その結果、より安定的であると知覚されるハイバンド信号を生じる。
【0070】
(ハーモニック・トランスポジション及び事前フラット化のような)上述のeSBRツールを示すeSBRメタデータをMPEG-4AACビットストリームに含めるための全体的なビットレート条件は、数百ビット/秒のオーダーであると予想され、なぜならeSBR処理を実行するために必要とされる差分の制御データのみが本発明の幾つかの実施形態に従って伝送されるに過ぎないからである。レガシー・デコーダはこの情報を無視することが可能であり、なぜならそれは(後述するように)後方互換性のある方式で含まれるからである。従って、eSBRメタデータを包含することに付随するビットレートへの悪影響は、以下を含む多くの理由から無視できるものである:
・(eSBRメタデータを含むことに起因する)ビットレート・ペナルティは総ビットレートのごく一部であるにすぎず、なぜならeSBR処理を実行するために必要な差分の制御データのみが送信されるからである(SBR制御データのサイマルキャストではない);及び
・SBR関連制御情報の調整は、典型的には、トランスポジションの詳細に依存しない。制御データがトランスポーザの動作に依存する場合の例については、本願において後述される。
【0071】
従って、本発明の実施形態は、強化されたスペクトル・バンド複製(eSBR)制御データ又はメタデータを、後方互換性のある方法で効率的に伝送するための手段を提供する。このeSBR制御データの効率的な伝送は、ビットレートに実体的な悪影響を及ぼさない一方、本発明の態様を使用するデコーダ、エンコーダ、及びトランスコーダにおけるメモリ要求を低減する。更に、本発明の実施形態に従ってeSBRを実行することに関連する複雑性及び処理条件も低減され、なぜならSBRデータはサイマルキャストではなく一度だけ処理されることしか必要としないからであり、サイマルキャストするような場合は、MPEG-4AACコーデックに後方互換性のある方法で統合されるのではなく、eSBRがMPEG-4AACにおいて完全に別個のオブジェクト・タイプとして扱われるような場合である。
【0072】
次に、
図7を参照しながら、本発明の幾つかの実施形態に従ってeSBRメタデータが含まれるMPEG-4AACビットストリームのブロック(「raw_data_block」)の要素を説明する。
図7は、MPEG-4AACビットストリームのブロック(「raw_data_block」)の図であり、そのうちの幾つかのセグメントを示す。
【0073】
MPEG-4AACビットストリームのブロックは、少なくとも1つの「single_channel_element()」(例えば、
図7に示すシングル・チャネル要素)及び/又は少なくとも1つの「channel_pair_element()」(
図7には特に示されていないが、存在する可能性がある)を含む可能性があり、これは音声番組の音声データを含む。そのブロックはまた、プログラムに関連するデータ(例えば、メタデータ)を含む多数の「フィル要素」(例えば、
図7のフィル要素1及び/又はフィル要素2)を含むことが可能である。それぞれの「single_channel_element()」は、単一チャネル要素の開始を示す識別子(例えば、
図7の「ID1」)を含み、マルチチャネル・オーディオ・プログラムの異なるチャネルを示すオーディオ・データを含むことが可能である。それぞれの「channe_pair_element()」は、チャネル・ペア要素の開始を示す識別子(
図7には示されていない)を含み、プログラムの2つのチャネルを示すオーディオ・データを含むことができる。
【0074】
MPEG-4AACビットストリームの「fill_element」(本願においてフィル要素と言及される)は、フィル要素の開始を示す識別子(
図7の「ID2」)と、識別子の後のフィル・データとを含む。識別子ID2は、0x6という値を有する最上位ビット・ファーストで送信される3つの符号なし整数(「uimsbf」)から構成されることが可能である。フィル・データは、MPEG-4AAC規格の表4.57にその構文が示されている「extension_payload()」要素(本願では拡張ペイロードとしばしば言及される)を含むことが可能である。幾つかのタイプの拡張ペイロードが存在し、これは、最上位ビット・ファーストで送信される4ビット符号なし整数(「uimsbf」)である「extension_type」パラメータによって識別される。
【0075】
フィル・データ(例えば、その拡張ペイロード)は、SBRオブジェクトを示すフィル・データのセグメントを示すヘッダ又は識別子(例えば、
図7の「ヘッダ1」)を含むことが可能である(即ち、ヘッダは、MPEG-4AAC規格においてsbr_extension_data()と呼ばれる「SBRオブジェクト」タイプを初期化する)。例えば、スペクトル・バンド複製(SBR)拡張ペイロードは、ヘッダ内のextension_typeフィールドに対して‘1101’又は‘1110’の値で識別され、識別子‘1101’はSBRデータを有する拡張ペイロードを識別し、‘1110’は巡回冗長検査(CRC)と共にSBRデータを有する拡張ペイロードを識別し、SBRデータの適正を検証する。
【0076】
ヘッダ(例えば、extension_typeフィールド)がSBRオブジェクト・タイプを初期化すると、SBRメタデータ(本願では「スペクトル・バンド複製データ」と呼ばれ、MPEG-4AAC規格では「sbr_data()」と呼ばれる)がヘッダに続き、少なくとも1つのスペクトル・バンド複製拡張要素(例えば、
図7のフィル要素1の「SBR拡張要素」)がSBRメタデータに続くことが可能である。そのようなスペクトル・バンド複製拡張要素(ビットストリームのセグメント)は、MPEG-4AAC規格では「sbr_extension()」コンテナと呼ばれる。スペクトル・バンド複製拡張要素は、オプションとして、ヘッダ(例えば、
図7のフィル要素1の「SBR拡張ヘッダ」)を含む。
【0077】
MPEG-4AAC規格は、スペクトル・バンド複製拡張要素がプログラムのオーディオ・データのPS(パラメトリック・ステレオ)データを含むことが可能であることを想定している。MPEG-4AAC規格は、フィル要素のヘッダ(例えば、拡張ペイロードのヘッダ)が(
図7の「ヘッダ1」のような)SBRオブジェクト・タイプを初期化し、フィル要素のスペクトル・バンド複製要素がPSデータを含む場合、フィル要素(例えば、その拡張ペイロード)はスペクトル・バンド複製データと「bs_extension_id」パラメータとを含み、その値(即ち、bs_extension_id=2)はPSデータがフィル要素のスペクトル・バンド複製拡張要素に含まれることを示すことを想定している。
【0078】
本発明の幾つかの実施形態によれば、eSBRメタデータ(例えば、強化されたスペクトル・バンド複製(eSBR)処理がブロックのオーディオ・コンテンツに対して実行されるべきか否かを示すフラグ)が、フィル素子のスペクトル・バンド複製延長要素に含まれる。例えば、このようなフラグは、
図7のフィル要素1において示され、この場合において、フラグはフィル要素1の「SBR拡張要素」のヘッダ(フィル要素1の「SBR拡張ヘッダ」)の後に生じる。オプションとして、このようなフラグ及び追加的なeSBRメタデータは、スペクトル・バンド複製拡張要素のヘッダの後のスペクトル・バンド複製拡張要素(SBR拡張ヘッダの後の、
図7のフィル要素1のSBR拡張要素)に含まれる。本発明の幾つかの実施形態によれば、SBRメタデータを含むフィル要素もまた「bs_extension_id」パラメータを含み、その値(例えば、bs_extension_id = 3)は、eSBRメタデータがフィル要素に含まれること、及びeSBR処理が関連するブロックのオーディオ・コンテンツで実行されるべきことを示す。
【0079】
本発明の幾つかの実施形態によれば、eSBRメタデータは、フィル要素のスペクトル・バンド複製拡張要素(SBR拡張要素)内にではなく、MPEG-4AACビットストリームのフィル要素(例えば、
図7のフィル要素2)内に含まれる。これは、SBRデータ又はCRCを伴うSBRデータを有するextension_peyload()を含むフィル要素は、如何なる他の拡張タイプの如何なる他の拡張ペイロードも含まないからである。従って、eSBRメタデータがそれ自身の拡張ペイロードに格納される実施形態では、別個のフィル要素がeSBRメタデータを格納するために使用される。そのようなフィル要素は、フィル要素の開始を示す識別子(例えば、
図7の「ID2」)と、その識別子の後のフィル・データとを含む。フィル・データはextension_payload()要素(本願ではしばしば拡張ペイロードと呼ぶことがある)を含み、そのシンタックスはMPEG-4AAC規格の表4.57に示されている。フィル・データ(例えば、その拡張ペイロード)は、eSBRオブジェクト(即ち、ヘッダは、強化されたスペクトル・バンド複製(eSBR)オブジェクト・タイプを初期化すること)を示すヘッダ(例えば、
図7のフィル要素2のヘッダ2)を含み、フィルデータ(例えば、その拡張ペイロード)は、ヘッダの後にeSBRメタデータを含む。例えば、
図7のフィル要素2は、そのようなヘッダ(「ヘッダ2」)を含み、ヘッダの後に、eSBRメタデータ(即ち、フィル要素2の「フラグ」であり、これは強化されたスペクトル・バンド複製(eSBR)処理がブロックのオーディオ・コンテンツに対して実行されるべきかどうかを示す)を含む。オプションとして、追加のeSBRメタデータもまた、ヘッダ2の後に、
図7のフィル要素2のフィル・データに含まれる。この段落で説明されている実施形態では、ヘッダ(例えば、
図7のヘッダ2)は、MPEG-4AAC規格の表4.57に規定されている従来の値のうちの1つではない、むしろeSBR拡張ペイロードを示す識別値を有する(その結果、ヘッダのextension_typeフィールドは、フィル・データがeSBRメタデータを含むことを示す)。
【0080】
第1クラスの実施形態では、本発明はオーディオ処理ユニット(例えば、デコーダ)であり:
符号化されたオーディオ・ビットストリームの少なくとも1つのブロック(例えば、MPEG-4AACビットストリームの少なくとも1つのブロック)を格納するように構成されたメモリ(例えば、
図3又は4のバッファ201);
メモリに結合され、ビットストリームのブロックの少なくとも一部分をデマルチプレクスするように構成されたビットストリーム・ペイロード・デフォーマッタ(例えば、
図3の要素205又は
図4の要素215);及び
ビットストリームのブロックのオーディオ・コンテンツの少なくとも一部分をデコードするように構成され結合された復号化サブシステム(例えば、
図3の要素202及び203、又は
図4の要素202及び213);
を含み、ブロックは:
フィル要素の開始を示す識別子と識別子の後のフィル・データとを含むフィル要素であって(例えば、「id_syn_ele」識別子はMPEG-4AAC規格の表4.85の値0x6を有する)、フィル・データは:
強化されたスペクトル・バンド複製(eSBR)処理がブロックのオーディオ・コンテンツに対して実行されるべきかどうかを識別する少なくとも1つのフラグ(例えば、ブロックに含まれるeSBRメタデータ及びスペクトル・バンド複製データを使用する)を含む。
【0081】
フラグはeSBRメタデータであり、フラグの例はsbrPatchingModeflagである。フラグの別の例は、harmonicSBRフラグである。これら双方のフラグは、スペクトル・バンド複製の基本形式、又はスペクトル複製の強化された形式が、ブロックのオーディオ・データに対して実行されるかどうかを示す。スペクトル複製の基本形式はスペクトル・パッチ処理であり、スペクトル・バンド複製の強化された形式はハーモニック・トランスポジションである。
【0082】
幾つかの実施形態では、フィル・データは、追加のeSBRメタデータ(即ち、フラグ以外のeSBRメタデータ)も含む。
【0083】
メモリは、符号化されたオーディオ・ビットストリームの少なくとも1つのブロックを(例えば、非一時的な方法で)記憶するバッファ・メモリ(例えば、
図4のバッファ201の実装)であってもよい。
【0084】
eSBRメタデータ(以下のeSBRツールを示す)を含むMPEG-4AACビットストリームの復号化中のeSBRデコーダによるeSBR処理(eSBRハーモニック・トランスポジション及び事前フラット化を使用するもの)の性能の詳細は、(指定されたパラメータによる典型的な復号化のために)以下のようになるであろう:
●ハーモニック・トランスポジション(16kbps,14400/28800Hz)
○DFTベース:3.68WMOPS(weighted million operations per second)
○QMFベース:0.98WMOPS
●QMFパッチ処理・事前処理(事前フラット化):0.1WMOPS
DFTベースのトランスポジションは、典型的には、過渡的なものに対してQMFベースのトランスポジションよりも良好に機能することが知られている。
【0085】
本発明の幾つかの実施形態によれば、eSBRメタデータを含む(符号化されたオーディオ・ビットストリームの)フィル要素はまた、
その値が(例えば、bs_extension_id=3が)eSBRメタデータがフィル要素に含まれていること、及びeSBR処理が関連するブロックのオーディオ・コンテンツに対して実行されるべきことを示すパラメータ(例えば、bs_extension_idパラメータ)、及び/又は
その値が(例えば、bs_extension_id=2が)がフィル要素のsbr_extension()コンテナがPSデータを含むことを示すパラメータ(例えば、同じ「bs_extension_id」パラメータ)を含む。
例えば、以下の表1に示すように、値bs_extension_id=2を有するようなパラメータは、フィル要素のsbr_extension()コンテナがPSデータを含むことを示す可能性があり、値bs_extension_id=3を有するようなパラメータは、フィル要素のsbr_extension()コンテナがeSBRメタデータを含むことを示す可能性がある。
表1
【表1】
【0086】
本発明の幾つかの実施形態によれば、eSBRメタデータ及び/又はPSデータを含む各スペクトル・バンド複製拡張要素の構文は、以下の表2に示されるようなものである(「sbr_extension()」はスペクトル・バンド複製拡張要素であるコンテナを示し、「bs_extension_id」は上記表1に示されるようなものであり、「ps_data」はPSデータを示し、「esbr_data」はeSBRメタデータを示す)。
表2
【表2】
【0087】
例示的な実施形態では、上記の表2で参照されるesbr_data()は、以下のメタデータ・パラメータの値を示す:
1.1ビット・メタデータ・パラメータ「bs_sbr_preprocessing」;及び
2.復号化されるべき符号化ビットストリームのオーディオ・コンテンツの各チャネル(「ch」)に対する、上述の各パラメータ:「sbrPatchingMode[ch]」;「sbrOversamplingFlag[ch]」;「sbrPitchInBinsFlag[ch]」;及び「sbrPitchInBins[ch]」。
例えば、幾つかの実施形態では、これらのメタデータ・パラメータを示すために、esbr_data()は表3で示される構文を有する可能性がある:
表3
【表3-1】
【表3-2】
【0088】
上記の構文は、レガシー復号器に対する拡張として、ハーモニック・トランスポジションのようなスペクトル・バンド複製の強化された形式の効率的な実装を可能にする。具体的には、表3のeSBRデータは、ビットストリームで既にサポートされておらず、またビットストリームで既にサポートされているパラメータから直接的に導出できない、スペクトル・バンド複製の強化された形式を実行するために必要とされるパラメータのみを含む。強化された形式のスペクトル・バンド複製を実行するために必要とされる他の全てのパラメータ及び処理データは、ビットストリーム内の既に定義された場所における既存のパラメータから抽出される。
【0089】
例えば、MPEG-4HE-AAC又はHE-AACv2に準拠したデコーダは、ハーモニック・トランスポジションのような強化された形式のスペクトル・バンド複製を含むように拡張される可能性がある。スペクトル・バンド複製のこの強化された形態は、デコーダで既にサポートされているスペクトル・バンド複製の基本形態に加えられる。MPEG-4HE-AAC又はHE-AACv2に準拠するデコーダの場合において、スペクトル・バンド複製の基本形式は、MPEG-4AAC規格のセクション4.6.18に定義されているQMFスペクトル・パッチ処理SBRツールである。
【0090】
増強された形式のスペクトル・バンド複製を実行する場合に、拡張されたHE-AACデコーダは、ビットストリームのSBR拡張ペイロードに既に含まれている多くのビットストリーム・パラメータを再利用することができる。再利用される可能性がある特定の具体的なパラメータは、例えば、マスター周波数帯域テーブルを決定する種々のパラメータを含む。これらのパラメータは、bs_start_freq (マスター周波数テーブル・パラメータの始まりを決定するパラメータ)、bs_stop_freq(マスター周波数テーブルの終わりを決定するパラメータ)、bs_freq_scale(オクターブ毎に周波数帯域数を決定するパラメータ)、bs_alter_scale(周波数帯域のスケールを変更するパラメータ)を含む。再利用される可能性のあるパラメータは、ノイズ・バンド・テーブル(bs_noid_bands)を決定するパラメータと、リミッタ・バンド・テーブル・パラメータ(bs_limiter_bands)とを含む。従って、様々な実施形態において、USAC規格で指定されている少なくとも幾つかの同等なパラメータはビットストリームから省略され、それによってビットストリームにおける制御オーバーヘッドを低減する。典型的には、AAC規格で指定されるパラメータがUSAC規格で指定される同等のパラメータを有する場合、USAC規格で指定される同等のパラメータは、AAC規格で指定されるパラメータと同じ名前、例えば包絡線スケールファクタEOrigMapped(the envelope scalefactor EOrigMapped)である。しかしながら、USAC規格で指定されている同等のパラメータは、通常、異なる値を有し、これはAAC規格で規定されているSBR処理に対してではなく、USAC規格で規定される強化されたSBR処理に対して「調整」される。
【0091】
高調波周波数構造及び強いトーン特性を有するオーディオ・コンテンツに対する主観的品質を、特に低ビットレートで改善するために、強化されたSBRの起動が推奨される。対応するビットストリーム要素の値(即ち、esbr_data())は、これらのツールを制御して、信号依存分類メカニズムを適用することによって、エンコーダにおいて決定されてもよい。一般に、ハーモニックパッチ処理方法(sbrPatchingMode==1)を使用することは、非常に低いビットレートで音楽信号を符号化する場合に好ましく、この場合、コア・コーデックはオーディオ帯域幅においてかなり制限される可能性がある。これは、これらの信号が顕著な高調波構造を含む場合に特に当てはまる。反対に、正規のSBRパッチ処理方法を使用することはスピーチ及び混合信号に対して好ましく、なぜならそれはスピーチにおける時間的な構造のより良い保存を提供するからである。
【0092】
ハーモニック・トランスポーザのパフォーマンスを改善するために、後続の包絡線調整器に向かう信号のスペクトル不連続性の導入を避けるように努める前処理ステップが活性化されることが可能である(bs_sbr_preprocessing ==1)。ツールの動作は、高周波再構成のために使用される低バンド信号の粗いスペクトル包絡線がレベルの大きな変動を示す信号タイプに有益である。
【0093】
ハーモニックSBRパッチ処理の過渡応答を改善するために、信号適応周波数ドメイン・オーバーサンプリング(sbrOversamplingFlag==1)を適用することが可能である。信号適応周波数ドメイン・オーバーサンプリングはトランスポンダの計算複雑性を増加させるが、過渡現象を含むフレームにのみ利益をもたらすので、このツールを使用することはビットストリーム要素によって制御され、これはフレーム当たり1回、及び独立SBRチャネル当たり1回送信される。
【0094】
提案される強化されたSBRモードで動作するデコーダは、典型的には、レガシーの及び強化されたSBRパッチ処理の間で切り替え可能であることを必要とする。従って、デコーダの設定に応じて、1つのコア・オーディオ・フレームの継続時間と同じ長さの持続時間であることが可能な遅延が導入される可能性がある。典型的には、レガシーの及び強化されたSBRパッチ処理の両方の遅延は、同様であろう。
【0095】
多数のパラメータに加えて、本発明の実施形態に従って強化された形式のスペクトル・バンド複製を実行する場合、他のデータ要素もまた、拡張されたHE-AACデコーダによって再利用される可能性がある。例えば、エンベロープ・データ及びノイズ・フロア・データはまた、bs_data_env(envelope scalefactors)及びbs_noid_env(noise floor scalefactors)データから抽出され、強化された形式のスペクトル・バンド複製の間に使用される可能性がある。
【0096】
本質的に、これらの実施形態は、SBR拡張ペイロードにおいてレガシーHE-AAC又はHE-AACv2デコーダによって既にサポートされているコンフィギュレーション・パラメータ及び包絡線データを利用して、可能な限り余分な送信データを必要としない強化された形式のスペクトル・バンド複製を可能にする。メタデータは、元来は(例えば、SBRのスペクトル変換処理のような)HFRの基本形式に対して合わせられていたが、実施形態によれば、(eSBRのハーモニック・トランスポジションのような)HFRの強化された形式に対して使用される。前述したように、メタデータは、一般に、(例えば、線形スペクトル変換のような)HFRの基本形式とともに使用されるように意図され合わせられる動作パラメータを表現する(動作パラメータは、例えば、包絡線スケール因子、ノイズ・フロア・スケール因子、時間/周波数グリッド・パラメータ、正弦波加算情報、可変クロス・オーバー周波数/バンド、逆フィルタリング・モード、包絡線分解能、平滑化モード、周波数補間モードである)。しかしながら、このメタデータは、HFRの強化された形式(例えば、ハーモニック・トランスポジション)に特有の追加のメタデータ・パラメータと組み合わされて、HFRの強化された形式を使用してオーディオ・データを効率的かつ効果的に処理するために使用されることが可能である。
【0097】
従って、スペクトル・バンド複製の強化された形式をサポートする拡張されたデコーダは、既に定義されたビットストリーム要素(例えば、SBR拡張ペイロード内の要素)を当てにし、強化された形式のスペクトル・バンド複製をサポートするために必要なパラメータのみを(フィル要素拡張ペイロードに)追加することによって、非常に効率的な方法で作成されることが可能である。このデータ低減の性質は、拡張コンテナのような予約済みデータ・フィールドに新しく追加されたパラメータを配置することで組み合わされ、ビットストリームが、強化された形式のスペクトル・バンド複製をサポートしないレガシー・デコーダと後方互換性があることを保証することによって、強化された形式のスペクトル・バンド複製をサポートするデコーダを生成する際の障壁をかなり削減する。予約済みデータ・フィールドは後方互換性のあるデータ・フィールドであり、即ち、レガシーHE-AAC又はHE-AACv2デコーダのような、以前のデコーダによって既にサポートされているデータ・フィールドであることが理解されるであろう。同様に、拡張コンテナは後方互換性があり、即ち、レガシーHE-AAC又はHE-AACv2デコーダのような、以前のデコーダによって既にサポートされている拡張コンテナである。
表3において、右列の数字は、左列の対応するパラメータのビット数を示す。
【0098】
幾つかの実施形態では、MPEG-4AACで定義されたSBRオブジェクト・タイプは、SBR拡張要素(bs_extension_id==EXTENSION_ID_ESBR)で示されるように、拡張SBR(eSBR)ツールの特徴及びSBR-Toolを含むように更新される。デコーダがこのSBR拡張要素を検出すると、デコーダは、拡張されたSBRツールの通知された特徴を使用する。
【0099】
幾つかの実施形態では、本発明は、符号化されたビットストリーム(例えば、MPEG-4AACビットストリーム)を生成するためにオーディオ・データを符号化するステップを含む方法であり、符号化されたビットストリームの少なくとも1つのブロックの少なくとも1つのセグメントにeSBRメタデータを含め、ブロックの少なくとも1つの他のセグメントにオーディオ・データを含める。典型的な実施態様において、本方法は、符号化されたビットストリームの各ブロックにおいてオーディオ・データとeSBRメタデータとを多重化するステップを含む。eSBRデコーダにおける符号化ビットストリームの典型的な復号化において、デコーダは、eSBRメタデータをビットストリームから抽出し(eSBRメタデータ及びオーディオ・データを分離して解析することを含む)、eSBRメタデータを使用してオーディオ・データを処理し、復号化されたオーディオ・データのストリームを生成する。
【0100】
本発明の別の態様は、eSBRメタデータを含まない符号化されたオーディオ・ビットストリーム(例えば、MPEG-4AACビットストリーム)の復号化中に、eSBR処理を実行する(例えば、ハーモニック・トランスポジション又はプレ・フラット化として知られるeSBRツールのうちの少なくとも1つが使用される)ように構成されたeSBRデコーダである。このようなデコーダの一例は
図5を参照して説明される。
【0101】
図5のeSBRデコーダ(400)は、バッファ・メモリ201(
図3及び
図4のメモリ201と同じである)、ビットストリーム・ペイロード・デフォーマッタ215(
図4のデフォーマッタ215と同じである)、オーディオ復号化サブシステム202(「コア」復号化ステージ又は「コア」復号化サブシステムと呼ばれることがあり、
図3のコア復号化サブシステム202と同じである)、eSBR制御データ生成サブシステム401、及びeSBR処理ステージ203(
図3のステージ203と同じである)を図示のように接続された形式で含む。典型的には、デコーダ400は、(図示されていない)他の処理要素も含む。
【0102】
デコーダ400の動作において、デコーダ400によって受信されたエンコードされたオーディオ・ビットストリーム(MPEG-4AACビットストリーム)のブロックのシーケンスは、バッファ201からデフォーマッタ215にアサートされる。
【0103】
デフォーマッタ215は、ビットストリームの各ブロックを分離して、SBRメタデータ(量子化されたエンベロープ・データを含む)及び典型的には他のメタデータをそこから抽出するように構成され結合される。デフォーマッタ215は、少なくともSBRメタデータをeSBR処理ステージ203にアサートするように構成される。デフォーマッタ215はまた、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出したオーディオ・データを復号化サブシステム(復号化ステージ)202にアサートするように構成され結合される。
【0104】
デコーダ400のオーディオ復号化サブシステム202は、デフォーマッタ215によって抽出されたオーディオ・データを復号化して(そのような復号化は「コア」復号化処理と言及されてもよい)、復号化されたオーディオ・データを生成し、復号化されたオーディオ・データをeSBR処理ステージ203にアサートするように構成される。復号化は周波数ドメインで実行される。典型的には、サブシステム202における処理の最終ステージは、周波数ドメインから時間ドメインへの変換を、復号化された周波数ドメインのオーディオ・データに適用し、そのため、サブシステムの出力は、時間ドメインの復号化されたオーディオ・データである。ステージ203は、SBRメタデータ(デフォーマッタ215によって抽出される)及びサブシステム401で生成されたeSBRメタデータによって示されるSBRツール(及びeSBRツール)を、復号化されたオーディオ・データに適用し(即ち、SBR及びeSBRメタデータを使用して復号化サブシステム202の出力に対してSBR及びeSBR処理を実行し)、デコーダ400から出力される完全に復号化されたオーディオ・データを生成するように構成される。典型的には、デコーダ400は、デフォーマッタ215(及びオプションとしてサブシステム401)からのデフォーマットされたオーディオ・データ及びメタデータ出力を格納するメモリ(サブシステム202及びステージ203によってアクセス可能)を含み、ステージ203は、SBR及びeSBR処理中に必要に応じてオーディオ・データ及びメタデータにアクセスするように構成される。ステージ203におけるSBR処理は、コア復号化サブシステム202の出力に対する後処理であると考えられてもよい。オプションとして、デコーダ400はまた最終アップミキシング・サブシステム(デフォーマッタ215によって抽出されたPSメタデータを使用して、MPEG-4AAC規格で定義されているパラメトリック・ステレオ(PS)ツールを適用することができる)を含み、これはステージ203の出力に対してアップミキシングを実行し、APU210から出力される完全にデコードされたアップミックスされたオーディオを生成するように構成され結合される。
【0105】
パラメトリック・ステレオは、ステレオ信号の左右チャネルの線形ダウンミックスと、ステレオ・イメージを記述する空間パラメータのセットとを使用してステレオ信号を表すコーディング・ツールである。パラメトリック・ステレオは、典型的には:(1)チャネル間の強度差を記述するチャネル間強度差(IID);(2)チャネル間の位相差を記述するチャネル間位相差(IPD);及び(3)チャネル間のコヒーレンス(又は類似性)を記述するチャネル間コヒーレンス(ICC)という3つのタイプの空間パラメータを使用する。コヒーレンスは、時間又は位相の関数としての相互相関の最大値として測定されてもよい。これらの3つのパラメータは、一般に、ステレオ・イメージの高品質な再構成を可能にする。しかしながら、IPDパラメータは、ステレオ入力信号のチャネル間の相対的な位相差を指定するだけであり、これらの位相差の左右チャネルに対する分布を示さない。従って、全体的な位相オフセット又は全体的な位相差(overall phase difference:OPD)を記述する第4タイプのパラメータが追加的に使用されてもよい。ステレオ再構成プロセスでは、受信したダウンミックス信号s[n]と受信したダウンミックスの非相関バージョンd[n]の両方の連続したウィンドウ・セグメントが、空間パラメータと共に処理され、次のように左(lk(n))と右(rk(n))の再構成された信号を生成する:
lk(n)=H11(k,n)sk(n)+H21(k,n)dk(n)
rk(n)=H12(k,n)sk(n)+H22(k,n)dk(n)
ここで、H11、H12、H21及びH22は、ステレオ・パラメータによって定義される。信号lk(n)及び信号rk(n)は、周波数-時間変換によって最終的に時間ドメインに変換される。
【0106】
図5の制御データ生成サブシステム401は、復号化されるべき符号化オーディオ・ビットストリームの少なくとも1つの特性を検出し、検出ステップの少なくとも1つの結果に応じてeSBR制御データ(本発明の他の実施形態では、符号化オーディオ・ビットストリームに含まれる任意のタイプのeSBRメタデータであってもよいし、又はそれを含んでもよい)を生成するように構成され結合される。ビットストリームの特定の特性(又は特性の組み合わせ)を検出した場合に、eSBR制御データは、個々のeSBRツール又はeSBRツールの組み合わせの適用をトリガするため、及び/又はそのようなeSBRツールの適用を制御するために、ステージ203にアサートされる。例えば、ハーモニック・トランスポジションを用いてeSBR処理のパフォーマンスを制御するために、制御データ生成サブシステム401の幾つかの実施形態は:ビットストリームが音楽を示すか否かを検出したことに応答して、sbrPatchingMode[ch]パラメータを設定する(及び、設定パラメータをステージ203にアサートする)音楽検出器;ビットストリームによって示されるオーディオ・コンテンツにおける過渡現象の存否を検出することに応答して、sbrOversamplingFlag[ch]パラメータを設定する(及び、設定パラメータをステージ203にアサートする)過渡性検出器;及び/又はビットストリームによって示されるオーディオ・コンテンツのピッチを検出することに応答して、sbrPitchInBinsFlag[ch]及び sbrPitchInBins[ch]パラメータを設定する(及び、設定パラメータをステージ203にアサートする)ピッチ検出器を含むであろう。本発明の他の態様は、この段落及び先行する段落に記載された本発明のデコーダの任意の実施形態によって実行されるオーディオ・ビットストリーム復号化方法である。
【0107】
本発明の態様は、本発明のAPU、システム又はデバイスの任意の実施形態が実行するように構成された(例えば、プログラムされた)タイプの符号化又は復号化方法を含む。本発明の他の態様は、本発明の方法の任意の実施形態を実行するように構成された(例えば、プログラムされた)システム又はデバイスと、本発明の方法又はそのステップの任意の実施形態を実行するためのコードを(例えば、非一時的な方法で)記憶するコンピュータ読み取り可能な媒体(例えば、ディスク)とを含む。例えば、本発明のシステムは、ソフトウェア又はファームウェアでプログラミングされた及び/又はデータに対して任意の様々な動作(本発明の方法又はそのうちのステップの実施形態を含む)を実行するように別に構成されたプログラマブル汎用プロセッサ、デジタル信号プロセッサ、又はマイクロプロセッサであること又はそれを含むことが可能である。そのような汎用プロセッサは、入力デバイス、メモリ、及び処理回路を含むコンピュータ・システム(データがアサートされたことに応じて本発明の方法(又はそのうちのステップ)の実施形態を実行するようにプログラムされたもの)である又はそれを含む可能性がある。
【0108】
本発明の実施形態は、ハードウェア、ファームウェア、又はソフトウェア、又はその両方の組み合わせ(例えば、プログラマブル論理アレイ)で実装されることが可能である。別段の指定がない限り、本発明の一部として含まれるアルゴリズム又はプロセスは、特定のコンピュータ又は他の装置に本質的には関連付けられない。特に、種々の汎用マシンが、本明細書の教示に従って書かれたプログラムと共に使用されることができ、又は、必要な方法ステップを実行するために、より特化された装置(例えば、集積回路)を構築することはより有意義であるかもしれない。従って、本発明は、1つ以上のプログラマブル・コンピュータ・システム(例えば、
図1の要素、又は
図2のエンコーダ100(又はその要素)、又は
図3のデコーダ200(又はその要素)、又は
図4のデコーダ210(又はその要素)、又は
図5のデコーダ400(又はその要素)ののうちの任意のものの実装)において実行する1つ以上のコンピュータ・プログラムで実装される可能性があり、それら各々は少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム(揮発性及び不揮発性メモリ及び/又は記憶素子を含む)、少なくとも1つの入力デバイス又はポート、及び少なくとも1つの出力デバイス又はポートを含む。プログラム・コードは、本願に記載の機能を実行し、出力情報を生成するために入力データに適用される。出力情報は、公知の方法で1つ以上の出力デバイスに適用される。
【0109】
このような各プログラムは、コンピュータ・システムと通信するために、任意の所望のコンピュータ言語(マシン、アセンブリ、又はハイレベル手続、論理、又はオブジェクト指向のプログラミング言語を含む)で実装されることができる。いずれの場合においても、言語は、コンパイルされた又は解釈された言語であり得る。
【0110】
例えば、コンピュータ・ソフトウェア命令シーケンスによって実装される場合、本発明の実施形態の様々な機能及びステップは、適切なデジタル信号処理ハードウェアで動作されるマルチスレッド・ソフトウェア命令シーケンスによって実現されることが可能であり、その場合、実施形態の様々なデバイス、ステップ及び機能がソフトウェア命令の一部に対応する可能性がある。
【0111】
そのようなコンピュータ・プログラムの各々は、好ましくは、本願で説明される手順を実行するためにコンピュータ・システムによって記憶媒体又はデバイスが読み込まれる場合に、コンピュータを構成及び動作させるために、汎用又は専用のプログラム可能なコンピュータによって読み込むことが可能な記憶媒体又はデバイス(例えば、ソリッド・ステート・メモリ又は媒体、又は磁気又は光学媒体)に記憶される又はダウンロードされる。本発明のシステムは、コンピュータ・プログラムとともに構成される(即ち、記憶する)コンピュータ読み取り可能な記憶媒体として実装されることが可能であり、このように構成された記憶媒体は、コンピュータ・システムを、本願で説明される機能を実行するために特定の所定の方法で動作させる。
【0112】
本発明の多くの実施形態が説明されている。それにもかかわらず、本発明の精神及び範囲から逸脱することなく様々な修正が行われる可能性があることは理解されるであろう。本発明の多くの修正及び変形は、上記の教示に照らして可能である。例えば、効率的な実装を容易にするために、複雑なQMF分析及び合成フィルタバンクと組み合わせて位相シフトが使用されてもよい。分析フィルタバンクは、コア・デコーダによって生成される時間ドメイン低バンド信号を、複数のサブバンド(例えば、QMFサブバンド)にフィルタリングする役割を担う。合成フィルタバンクは、選択されたHFR技術によって生成される再生ハイバンドを(受信したsbrPatchingModeパラメータによって示されるように)復号されたローバンドと組み合わせて広帯域出力オーディオ信号を生成する役割を担う。しかしながら、特定のサンプル・レートモード、例えば通常のデュアル・レート動作又はダウン・サンプリングSBRモードで動作する所与のフィルタバンク実装は、ビットストリームに依存する位相シフトを持つべきでない。SBRで使用されるQMFバンクは、コサイン変調フィルタバンクの理論の複素指数拡張(a complex-exponential extension)である。複素指数変調でコサイン変調フィルタバンクを拡張すると、エイリアス相殺制約はもはや使用されなくなることが示され得る。従って、SBR QMFバンクでは、分析フィルタh
k(n)と合成フィルタf
k(n)の両方が次式のように定義されることが可能である:
【数5】
ここで、p
0(n)は実数値の対称又は非対称プロトタイプ・フィルタ(典型的には低域通過プロトタイプ・フィルタ)であり、Mはチャネル数を表し、Nはプロトタイプ・フィルタ次数である。分析フィルタバンクで使用されるチャネル数は、合成フィルタバンクで使用されるチャネル数と異なる場合がある。例えば、分析フィルタバンクは32チャネルを有し、合成フィルタバンクは64チャネルを有するかもしれない。ダウン・サンプリング・モードで合成フィルタバンクを動作させる場合に、合成フィルタバンクは32チャネルしか持たなくてよい。フィルタバンクからのサブバンド・サンプルは複素値であるので、おそらく追加的なチャネル依存位相シフト・ステップが、分析フィルタバンクに加えられてもよい。これらの余分な位相シフトは、合成フィルタバンクの前に補償される必要がある。原則として、位相シフト項は、QMF分析/合成チェーンの動作を破壊することなく、任意の値とすることが可能であるが、適合性検証(conformance verification)のために特定の値に制約されるかもしれない。SBR信号は位相因子の選択による影響を受けるが、コア・デコーダから来るローパス信号は影響を受けないであろう。出力信号のオーディオ品質は影響を受けない。
【0113】
プロトタイプ・フィルタの係数p
0(n)は、以下の表4に示すように、640の長さLで定義されることが可能である。
表4
【表4-1】
【表4-2】
【表4-3】
【表4-4】
【表4-5】
【表4-6】
プロトタイプ・フィルタ、p
0(n)は、丸め、サブサンプリング、補間、及びデシメーションのような1つ以上の数学的な演算によって、表4から導出されることも可能である。
【0114】
SBRに関連する制御情報の調整は、典型的には(上述したように)トランスポジションの詳細には依存しないが、幾つかの実施形態では、制御データの特定の要素は、再生成された信号の品質を改善するために、eSBR拡張コンテナ(bs_extension_id==EXTENSION_ID_ESBR)でサイマルキャストされてもよい。サイマルキャストされる要素の幾つかは、ノイズ・フロア・データ(例えば、ノイズ・フロア・スケール因子、及び各ノイズ・フロアに対するデルタ符号化についての周波数又は時間方向の何れかにおける方向を示すパラメータ)、インバース・フィルタリング・データ(例えば、インバース・フィルタリング無し、低レベルのインバース・フィルタリング、中間レベルのインバース・フィルタリング、及び強レベルのインバース・逆フィルタリングの中から選択されたインバース・フィルタリング・モードを示すパラメータ)、及び欠落ハーモニクス・データ(例えば、再生成されたハイバンドの特定の周波数帯域に正弦波が加えるべきかどうかを示すパラメータ)を含む可能性がある。これらの要素の全ては、エンコーダ内で実行されるデコーダのトランスポーザの合成エミュレーションに依存しており、従って、選択されたトランスポーザに対して適切に調整されるならば、再生成される信号の品質を増加させることが可能である。
【0115】
具体的には、幾つかの実施形態において、欠落している高調波及びインバース・フィルタリング制御データは、(表3の他のビットストリーム・パラメータとともに)eSBR拡張コンテナで送信され、eSBRのハーモニック・トランスポーザに対して調整される。eSBRのハーモニック・トランスポーザのために、これら2つのクラスのメタデータを伝送するために必要となる追加のビットレートは比較的小さい。従って、調整された欠落高調波及び/又はインバース・フィルタリング制御データをeSBR拡張コンテナで送信することは、ビットレートに最小限の影響しか与えずに、トランスポーザによって生成されるオーディオ品質を増加させるであろう。レガシー・デコーダとの後方互換性を保証するために、SBRのスペクトル変換処理のために調整されたパラメータは、黙示的又は明示的なシグナリングのいずれかを使用してSBR制御データの一部としてビットストリームで送信されてもよい。
【0116】
添付の特許請求の範囲の目的の範囲内で、本発明は、本願で具体的に説明されているようなもの以外の方法で実施されてもよいことが理解されるべきである。以下の請求項に含まれるかもしれない如何なる参照番号も、例示のみを目的とするものであり、如何なる方法によっても特許請求の範囲を解釈又は限定するために使用されるべきではない。本開示の様々な側面は、以下に列挙される例示的な形態(EEE)から理解されるであろう:
【0117】
EEE1.
オーディオ信号の高周波再構成を実行する方法であって:
エンコードされたオーディオ・ビットストリームを受信するステップであって、前記エンコードされたオーディオ・ビットストリームは前記オーディオ信号のローバンド部分を表すオーディオ・データと高周波再構成メタデータとを含む、ステップ;及び
デコードされたローバンド・オーディオ信号を生成するために前記オーディオ・データをデコードするステップ;
前記高周波再構成メタデータを前記エンコードされたオーディオ・ビットストリームから抽出するステップであって、前記高周波再構成メタデータは高周波再構成プロセスの動作パラメータを含み、前記動作パラメータは前記エンコードされたオーディオ・ビットストリームの拡張コンテナ内に位置するパッチ処理モード・パラメータを含み、第1値の前記パッチ処理モード・パラメータはスペクトル変換を示し、第2値の前記パッチ処理モード・パラメータは位相ボコーダ周波数拡散によるハーモニック・トランスポジションを示す、ステップ;
フィルタリングされたローバンド・オーディオ信号を生成するために、前記デコードされたローバンド・オーディオ信号をフィルタリングするステップ;
前記フィルタリングされたローバンド・オーディオ信号及び前記高周波再構成メタデータを利用して前記オーディオ信号のハイバンド部分を再生成するステップであって、前記再生成は前記パッチ処理モード・パラメータが前記第1値である場合にはスペクトル変換を含み、前記再生成は前記パッチ処理モード・パラメータが前記第2値である場合には位相ボコーダ周波数拡散によるハーモニック・トランスポジションを含む、ステップ;及び
広帯域オーディオ信号を形成するために、前記フィルタリングされたローバンド・オーディオ信号と前記再生成されたハイバンド部分とを合成するステップを含む方法。
EEE2.
前記拡張コンテナは、前記パッチ処理モード・パラメータが前記第2値に等しい場合に使用されるべきインバース・フィルタリング制御データを含む、EEE1に記載の方法。
EEE3.
前記拡張コンテナは、前記パッチ処理モード・パラメータが前記第2値に等しい場合に使用されるべき欠落高調波制御データを更に含む、EEE1~2のうち何れか1項に記載の方法。
EEE4.
前記エンコードされたオーディオ・ビットストリームはフィル要素(フィル要素の始まりを示す識別子を有する)と前記識別子の後にあるフィル・データとを含み、前記フィル・データは前記拡張コンテナを含む、先行する何れかのEEEに記載の方法。
EEE5.
前記識別子は、最上位ビット・ファーストで送信される3ビット符号なし整数であり、0x6という値を有する、EEE4に記載の方法。
EEE6.
前記フィル・データは拡張ペイロードを含み、前記拡張ペイロードはスペクトル・バンド複製拡張データを含み、前記拡張ペイロードは、最上位ビット・ファーストで送信される4ビット符号なし整数で識別され、‘1101’又は‘1110’という値を有し、オプションとして、前記スペクトル・バンド複製拡張データは:
オプションのスペクトル・バンド複製ヘッダ、
前記ヘッダの後のスペクトル・バンド複製データ、及び
前記スペクトル・バンド複製データの後のスペクトル・バンド複製拡張要素
を含み、前記スペクトル・バンド複製拡張要素にフラグが含まれる、EEE4又はEEE5に記載の方法。
EEE7.
前記高周波再構成メタデータは、包絡線スケール因子、ノイズ・フロア・スケール因子、時間/周波数グリッド情報、又はクロスオーバー周波数を示すパラメータを含む、EEE1~6のうちの何れか1項に記載の方法。
EEE8.
前記フィルタリングは、プロトタイプ・フィルタp
0(n)の変調されたバージョンである分析フィルタh
k(n)を含む分析フィルタバンクによって次式に従って実行され:
【数6】
ここで、p
0(n)は実数値の対称又は非対称プロトタイプ・フィルタであり、Mは前記分析フィルタバンクにおけるチャネル数であり、Nは前記プロトタイプ・フィルタの次数である、EEE1~7のうちの何れか1項に記載の方法。
EEE9.
前記プロトタイプ・フィルタp
0(n)は本願の表4の係数から導出される、EEE8に記載の方法。
EEE10.
前記プロトタイプ・フィルタp
0(n)は、丸め、サブサンプリング、補間、又はデシメーションから成る群から選択された1つ以上の数学的演算によって、本願の表4の係数から導出される、EEE8に記載の方法。
EEE11.
位相シフトは、前記フィルタリングの後に前記フィルタリングされたローバンド・オーディオ信号に付加され、本方法の複雑性を減らすために前記合成の前に補償される、EEE1~10のうちの何れか1項に記載の方法。
EEE12.
前記拡張コンテナは、前記パッチ処理モード・パラメータが前記第1値に等しい場合に、前記ハイバンド部分のスペクトル包絡線の形状における不連続性を回避するために追加的な前処理が使用されるかどうかを示すフラグを更に含み、前記フラグの第1値は前記追加的な前処理をイネーブルにし、前記フラグの第2値は前記追加的な前処理をディセーブルにする、先行する何れかのEEEに記載の方法。
EEE13.
前記追加的な前処理は、線形予測フィルタ係数を使用してプリゲイン曲線を計算することを含む、EEE12に記載の方法。
EEE14.
前記拡張コンテナは後方互換性のある拡張コンテナである、EEE1~13のうちの何れか1項に記載の方法。
EEE15.
エンコードされたオーディオ・ストリームがあるフォーマットに従ってエンコードされ、拡張コンテナは、前記フォーマットの少なくとも1つのレガシー・バージョンで定義される拡張コンテナである、EEE1~14のうちの何れか1項に記載の方法。
EEE16.
プロセッサにより実行されるとEEE1~15のうちの何れか1項に記載の方法を実行する命令を含む非一時的なコンピュータ読み取り可能な媒体。
EEE17.
オーディオ信号の高周波再構成を実行するためのオーディオ処理ユニットであって、前記オーディオ処理ユニットは、EEE1~15のうちの何れか1項に記載の方法を実行するように構成されているオーディオ処理ユニット。
【先行技術文献】
【特許文献】
【0118】
【特許文献1】米国特許出願公開第2018/0025737号明細書
【外国語明細書】