(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2015-521759(P2015-521759A)
(43)【公表日】2015年7月30日
(54)【発明の名称】サブバンド領域内での自由選択可能な周波数偏移のための装置、方法およびコンピュータプログラム
(51)【国際特許分類】
G10L 21/0388 20130101AFI20150703BHJP
【FI】
G10L21/0388 100
【審査請求】有
【予備審査請求】未請求
【全頁数】79
(21)【出願番号】特願2015-519171(P2015-519171)
(86)(22)【出願日】2013年7月1日
(85)【翻訳文提出日】2015年3月5日
(86)【国際出願番号】EP2013063827
(87)【国際公開番号】WO2014005992
(87)【国際公開日】20140109
(31)【優先権主張番号】61/667,119
(32)【優先日】2012年7月2日
(33)【優先権主張国】US
(31)【優先権主張番号】12175808.0
(32)【優先日】2012年7月10日
(33)【優先権主張国】EP
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LT,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US,UZ,VC
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(71)【出願人】
【識別番号】515005231
【氏名又は名称】テヒニシェ・ウニヴェルジテート・イルメナウ
(74)【代理人】
【識別番号】110000121
【氏名又は名称】アイアット国際特許業務法人
(72)【発明者】
【氏名】ナゲル,フレデリク
(72)【発明者】
【氏名】シュナベル,ミヒャエル
(72)【発明者】
【氏名】ノイカム,クリスティアン
(72)【発明者】
【氏名】シュラー,ゲラルト
(57)【要約】
【課題】周波数が偏移したオーディオ信号をオーディオ入力信号に基づいて生成する装置(100)を提供する。
【解決手段】装置(100)は、インターフェース(110)および周波数偏移部(120)を備える。インターフェース(110)は、オーディオ入力信号を受信するように構成されている。周波数偏移部(120)は、周波数偏移したオーディオ信号を生成するように構成されている。周波数偏移部(120)は、第2サブバンド値の1つを、第1サブバンド値の1つに基づいて、当該第2サブバンド値の第2位相角の当該第1サブバンド値の第1位相角からの位相角差が、周波数偏移したオーディオ信号を得るためにオーディオ入力信号を偏移させるべき周波数差を示す周波数情報に依存し、第1サブバンドの1つの周波数帯域幅に依存する位相角差となるように生成する構成である。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
周波数が偏移したオーディオ信号をオーディオ入力信号に基づいて生成する装置(100;150;300)において、
前記オーディオ入力信号は、複数の第1サブバンドに対して、1または複数の第1サブバンド値により表されており、
前記装置(100;150;300)は、
前記オーディオ入力信号を受信するインターフェース(110;310)と、
前記周波数が偏移したオーディオ信号を、複数の第2サブバンドに対して1または複数の第2サブバンド値を各々含む信号として生成する周波数偏移部(120;320)と
を備え、
前記第1サブバンド値と前記第2サブバンド値とは各々、それぞれの位相角に関する情報を含み、
前記周波数偏移部(120;320)は、前記第2サブバンド値の1つを、前記第1サブバンド値の1つに基づいて、当該第2サブバンド値の第2位相角の当該第1サブバンド値の第1位相角からの位相角差が、前記周波数偏移したオーディオ信号を得るために前記オーディオ入力信号を偏移させるべき周波数差を示す周波数情報に依存し、前記第1サブバンドの1つの周波数帯域幅に依存する位相角差となるように生成する構成である
ことを特徴とする成装置。
【請求項2】
請求項1記載の装置(100;150;300)において、
前記周波数偏移部(120;320)は、
前記第1サブバンドの1つを、前記第2サブバンドの各々に対する周波数情報に基づいて決定し、
前記第2サブバンドのそれぞれの前記1または複数の第2サブバンド値を、決定された各第1サブバンドの1または複数の第1サブバンド値に基づいて生成し、
前記第2のサブバンドのそれぞれの第2サブバンド値のそれぞれ1つを、前記決定された各第1サブバンドの第1サブバンド値のそれぞれ1つに基づいて、各第2サブバンド値の位相角の情報が、各第1サブバンド値の位相各の情報に依存し、かつ、前記オーディオ入力信号を偏移させる周波数差とそのサブバンドの周波数帯域幅に依存するように生成する
構成である
装置。
【請求項3】
請求項1または2に記載の装置(100;150;300)において、
前記第1サブバンド値の各々および前記第2サブバンド値の各々は複素数として表され、
前記周波数偏移部(120;320)は、複素指数関数の結果値を決定する構成であり、
前記周波数偏移部(120;320)は、第2サブバンド値の少なくとも1つを、前記第1サブバンド値の1つに基づいて、前記第1サブバンド値の前記1つを表す第1の複素数に前記結果値を乗算して前記第2サブバンド値の前記1つを表す第2の複素数を得ることにより生成する構成である
装置。
【請求項4】
請求項3に記載の装置(100;150;300)において、
前記周波数偏移部(120;320)は、前記複素指数関数の前記結果値を決定する構成であり、前記複素指数関数は、
e-jbφπ/180°
であり、ここで、jは虚数単位であり、bは整数であり、φは、度数法での角度であって、前記サブバンドの前記第1サブバンド値を偏移させる周波数差に依存する角度である
装置。
【請求項5】
請求項1から4のいずれか1項に記載の装置(100;150;300)において、
前記周波数偏移部(120;320)は、前記第2サブバンド値の前記1つを、前記第1サブバンド値の前記1つに基づいて生成する構成であり、
前記第1サブバンド値は、前記オーディオ入力信号の第1のMDCT係数、すなわち前記オーディオ入力信号の修正離散余弦変換の係数、あるいは、前記オーディオ入力信号の第1のQMF係数、すなわち前記オーディオ入力信号のQMF変換の係数である
装置。
【請求項6】
請求項1から5のいずれか1項に記載の装置(100;150;300)において、
MDCT/MDST変換部(315)をさらに備え、
前記MDCT/MDST変換部(315)は、前記オーディオ入力信号の1または複数の第1のMDCT係数、すなわち前記オーディオ入力信号の修正離散余弦変換の係数を得る構成であり、
前記MDCT/MDST変換部(315)は、前記オーディオ入力信号の前記第1のMDCT係数の1または複数に基づいて、前記オーディオ入力信号の1または複数の第1のMDST係数、すなわち前記オーディオ入力信号の修正離散正弦変換の係数を決定するように構成され、
前記周波数偏移部(120;320)は、前記第1サブバンド値のそれぞれ1つに基づいて、前記第2サブバンド値のそれぞれを生成する構成であり、前記第1サブバンド値はそれぞれ、前記第1のMDCT係数の1つと、この第1のMDCT係数に基づいて決定されている前記第1のMDST係数の1つとに基づいている
装置。
【請求項7】
請求項6記載の装置(100;150;300)において、
前記周波数偏移部(120;320)は、前記第2サブバンド値のそれぞれを前記第1サブバンド値のそれぞれ1つに基づいて生成する構成であり、前記第1のMDCT係数のそれぞれ、および前記第1のMDST係数のそれぞれは実数値であり、前記第1サブバンド値はそれぞれ、前記第1のMDCT係数の1つと、この第1のMDCT係数に基づいて決定されている虚数単位jの乗算された前記第1のMDST係数の1つとの合計を表す
装置。
【請求項8】
請求項6または7に記載の装置(100;150;300)において、
前記MDCT/MDST変換部(315)は、前記オーディオ入力信号の前記1または複数の第1のMDST係数を、前記オーディオ入力信号の前記第1のMDCT係数の1または複数に基づいて決定する構成であり、
前記オーディオ入力信号の前記第1のMDCT係数は、1つまたは複数の列を含むMDCT係数行列Xの行列係数として表され、
前記オーディオ入力信号はブロックにサブ分割され、
前記MDCT係数行列Xの前記列のそれぞれは、前記オーディオ入力信号の前記ブロックの1つを表し、
前記MDCT係数行列Xの前記列のそれぞれは、前記オーディオ入力信号のそれぞれの前記ブロックのMDCTスペクトルを形成し、
前記MDCT/MDST変換部(315)は、変換行列Hの行列係数を、前記変換行列Hに前記MDCT係数行列Xを行列乗算することによって行列係数が前記第1のMDST係数を表すMDST係数行列XMDSTが得られるように決定する
装置。
【請求項9】
請求項6または7に記載の装置(100;150;300)において、
前記MDCT/MDST変換部(315)は、前記オーディオ入力信号の前記1または複数の第1のMDST係数を、前記オーディオ入力信号の前記1または複数の第1のMDCT係数に基づいて決定する構成であり、
前記オーディオ入力信号の前記第1のMDCT係数は、1または複数の列を含むMDCT係数行列Xの行列係数として表され、
前記オーディオ入力信号は、複数のブロックに細分割され、前記MDCT係数行列Xの列のそれぞれが前記複数のブロックの1つを表し、
前記MDCT/MDST変換部(315)は、前記第1のMDST係数を決定するために、
【数1】
を適用する構成であり、
ここで、
X(b)は、前記行列Xのb番目の列であり、
X(b−1)は、前記行列Xのb−1番目の列であり、
X(b−2)は、前記行列Xのb−2番目の列であり、
H
0は、第1のサブ行列であり、
H
1は、第2のサブ行列であり、
H
2は、第3のサブ行列であり、
X
MDST(b-1)は、前記第1のMDST係数を含むブロックb−1のMDSTスペクトルを表す
装置。
【請求項10】
請求項9に記載の装置(100;150;300)において、
前記MDCT/MDST変換部(315)は、前記第1のMDST係数を決定するために、
【数2】
を適用する構成であり、
ここで、前記第1のサブ行列H
0の2以上の行列係数は零値であり、前記第2のサブ行列H1
1の2以上の行列係数は零値であり、前記第3のサブ行列H
2の2以上の行列係数は零値である
装置。
【請求項11】
請求項9または10に記載の装置(100;150;300)において、
前記MDCT/MDST変換部(315)は、前記第1のMDST係数を決定するために、
【数3】
を適用する構成であり、
ここで、 前記第2のサブ行列H
1は、
【数4】
であり、「...」は、前記第2のサブ行列H
1の以前の行列係数と同じ値が、前記第2のサブ行列H
1の後続する行列係数においても継続していることを意味する
装置。
【請求項12】
請求項1から11のいずれか1項に記載の装置(100;150;300)において、フィルタ部(330)をさらに備え、このフィルタ部(330)は、前記第2サブバンド値を、複数のフィルタ係数を含むフィルタを適用することによりフィルタリングし、前記第1サブバンド値に基づいて前記第2サブバンド値を生成するときに形成された前記第2サブバンド値のスプリアス成分を削減する構成である装置。
【請求項13】
請求項12記載の装置(100;150;300)において、
前記周波数偏移部(120;320)は、前記第2サブバンド値の前記1つを、前記第1サブバンド値の前記1つに基づいて、前記第2サブバンド値の前記第2位相角が前記第1サブバンド値の前記第1位相角と前記位相角差だけ異なるように、生成する構成であり、
前記フィルタ部(330)は、前記第2サブバンド値を、前記フィルタを適用することによりフィルタリングする構成であり、前記フィルタ係数の1または複数が前記位相角差に依存する
装置。
【請求項14】
請求項13に記載の装置(100;150;300)において、
記憶装置またはデータベースをさらに備え、
前記フィルタ係数の1または複数が前記位相角差に依存し、
前記フィルタ部(330)は、前記位相角差に依存して、前記記憶装置または前記データベースから前記フィルタ係数を読み出す構成であり、
前記フィルタ部(330)は、前記記憶装置または前記データベースから読み出された前記フィルタ係数を含む前記フィルタを適用することにより、前記第2サブバンド値をフィルタリングする構成である
装置。
【請求項15】
請求項12から14のいずれか1項に記載の装置(100;150;300)において、
前記フィルタ部(330)は、前記第2サブバンドのそれぞれの前記1または複数の第2サブバンド値のそれぞれをフィルタリングして、前記第2サブバンドのそれぞれに対する1または複数のフィルタリングされたサブバンド値を得る構成であり、
前記フィルタ部(330)は、前記フィルタリングされたサブバンド値のそれぞれを、第1の加数あるいは1または複数のさらなる加数の合計を計算することにより決定する構成であり、
前記第1の加数は、前記第2サブバンドの1つの第2サブバンド値の1つであり、
前記1または複数のさらなる加数は、1または複数の重み付けされたサブバンド値であり、
前記フィルタ部(330)は、前記1または複数の重み付けされたサブバンド値をそれぞれ、前記フィルタ係数の1つに他のサブバンドの1つのサブバンド値をそれぞれ乗算することにより決定する構成である
装置。
【請求項16】
請求項12から15のいずれか1項に記載の装置(100;150;300)において、
前記フィルタ部(330)は、前記複数のフィルタ係数を含む前記フィルタを適用することによりフィルタリングして、前記第2サブバンド値のスプリアス成分を削減する構成であり、
前記フィルタの前記フィルタ係数は整然とした順序となっており、零ではないフィルタ係数に続く全てのフィルタ係数が零値となっている
装置。
【請求項17】
請求項1から16のいずれか1項に記載の装置(100;150;300)において、
前記インターフェース(110;310)は、前記オーディオ入力信号の前記サブバンドの前記第1サブバンド値を偏移させる周波数差を示す前記周波数情報を受信する構成である装置。
【請求項18】
請求項1から17のいずれか1項に記載の装置(100;150;300)において、
合成変換部(340)をさらに備え、
この合成変換部は、前記周波数偏移したオーディオ信号を、前記第2サブバンド値を複数の時間領域標本に変換することにより取得する構成である装置。
【請求項19】
請求項1から18のいずれか1項に記載の装置(150)において、
周波数が拡張されたオーディオ信号を生成する構成であり、
前記周波数が拡張されたオーディオ信号を、前記周波数偏移したオーディオ信号の前記第2サブバンド値を生成することにより生成し、前記周波数が拡張されたオーディオ信号は、前記オーディオ入力信号の前記第1サブバンド値と、前記周波数偏移されたオーディオ信号の前記第2サブバンド値とを含む
装置。
【請求項20】
請求項19に記載の装置(150)において、
合成変換部(340)をさらに備え、
この合成変換部は、前記周波数が拡張されたオーディオ信号を、前記第1サブバンド値と前記第2サブバンド値とを複数の時間領域標本に変換することにより得る構成である装置。
【請求項21】
請求項19または20に記載の装置(150)において、
スペクトル包絡線が前記周波数が拡張されたオーディオ信号に印加されるように前記周波数が拡張されたオーディオ信号をフィルタリングする構成の包絡線適応部(350)をさらに備える
装置。
【請求項22】
請求項21に記載の装置(150)において、前記包絡線適応部(350)は、前記周波数が拡張されたオーディオ信号を、LPC係数を使用する逆フィルタリングによりフィルタリングして、前記スペクトル包絡線を前記周波数が拡張されたオーディオ信号に印加する構成である装置。
【請求項23】
周波数が偏移したオーディオ信号をオーディオ入力信号に基づいて生成する方法において、
前記オーディオ入力信号は、複数の第1サブバンドに対して、1または複数の第1サブバンド値により表されており、
前記オーディオ入力信号を受信し、
前記周波数が偏移したオーディオ信号を、複数の第2サブバンドに対して1または複数の第2サブバンド値を各々含む信号として生成し、
前記第1サブバンド値と前記第2サブバンド値とは各々、それぞれの位相角に関する情報を含み、
前記第2サブバンド値の1つを、前記第1サブバンド値の1つに基づいて、当該第2サブバンド値の第2位相角の当該第1サブバンド値の第1位相角からの位相角差が、前記周波数偏移したオーディオ信号を得るために前記オーディオ入力信号を偏移させるべき周波数差を示す周波数情報に依存し、前記第1サブバンドの1つの周波数帯域幅に依存する位相角差となるように生成する
【請求項24】
コンピュータまたは信号プロセッサ上でコンピュータプログラムが実行されるときに、請求項23に記載の方法を実行するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理に関し、特に、サブバンド領域における任意の周波数偏移のための装置、方法およびコンピュータプログラムに関する。
【背景技術】
【0002】
コンピュータ支援データ処理システムは、新しいメディアにより特徴付けられる現在の社会において、日常生活に不可欠な部分である。新しいメディアを消費するためのシステムは、だいぶ前から、ほぼ全ての家庭に存在してきた。デジタル形式で信号を送信および再生するこのようなシステムの例は、例えば、DVDおよびブルーレイ(登録商標)、CDおよびmp3ファイルフォーマットのような、ビデオならびにオーディオデータのためのプレーヤである。これらの再生システムは、メディアコンテンツをほぼ損失なく再生することを特徴とする。従来の電気通信とは別に、インターネットは、通信のための、典型的にはVoIPによる通信のための、重要な扉(ポータル)である。基礎となるデジタル信号処理は、言及される全ての技術に共通している。これは、再生の品質およびデジタル技術の効率に対して、決定的に重要である。
【0003】
このような分野では、オーディオ信号処理が重要性を増している。現在、多くのオーディオエンコーダが市場で入手可能であり、それらは、例えば、オーディオ素材を蓄積または送信のためにデジタル的にレンダリングするアルゴリズムにより実現されている。全ての符号化方法の目標は、信号の情報コンテンツを圧縮し、それが最低限の記憶スペースのみを必要とし、その一方で同時に、最良の再生品質可能性を維持するようにすることである。最新のオーディオエンコーダの効率性は、必要とされる蓄積量と、とりわけアルゴリズムに必要な、計算の複雑性とに主に依存する。
【0004】
基本的に、デジタルオーディオエンコーダは、オーディオ信号を蓄積または送信に適したフォーマットに移し替える道具である。これは、送信側のオーディオエンコーダ(エンコーダ)で行われる。このように生成されたデータは、その後、受信機(デコーダ)においてオリジナルの形に戻され、理想的な場合には、一定の遅延以外は、オリジナルデータに対応する。オーディオエンコーダの一般的な目的は、オーディオ信号を表すのに必要とされるデータ量を最小化すると同時に、知覚される再生品質を最高にすることである。オーディオエンコーダの開発時には、例えば、再生の忠実性、データ転送速度および複雑性のような、いくつかの要因に留意しなければならない。これとは別に、信号処理により追加される遅延(追加遅延)もまた、重要な役割を有する(非特許文献2)。
【0005】
特に、オーディオ符号化の初期には、蓄積およびコンピューティングの性能は、非常に限定された範囲でのみ利用可能であったため、方法の効率性は非常に重要であった。現在では、この需要は重要性が低くなっているように思われる。家庭用のPCまたはラップトップでさえ、複雑なアルゴリズムをリアルタイムで容易に計算することができ、広帯域インターネット接続は、符号化されたオーディオ素材を送信するのに十分な帯域幅を提供する。しかし、オーディオ符号化方法を洗練させることは特に重要である。モバイル通信および衛星送信の分野において、帯域幅は非常に限られている。送信されることになるデータの量を減少させることは重要である。さらに、この分野では、使用される符号化技術の効率性にも重要性が付き物である。基礎となるアルゴリズムは、コンピューティング性能および電流消費を最小化するために、単純な構造を呈していなければならない。
【0006】
別の側面は、再生される符号化されたオーディオ信号の品質である。多くのオーディオエンコーダは、無意味な音の削減を利用して、データの量を減少させる。ここでは、データ転送速度に依存して、信号部分が損失する。低データ転送速度の場合、再生されるオーディオ信号の品質は低下する。
【0007】
一般に、2つのタイプのオーディオ符号化、すなわち、損失のないオーディオ符号化と損失のあるオーディオ符号化とに区別される。損失のないオーディオ符号化により、受信側でオリジナルの信号を正確に再構築することが可能になる。これとは対照的に、損失のある方法は、主観的知覚のモデルを介して、オリジナルの信号から非可逆な偏位を引き起こす(非特許文献24)。
【0008】
損失のない(ロスレス)オーディオ符号化は、符号化されることになる信号に含まれる冗長性の削減に基づいている。ここでの一般的な方法は、例えば、後続するエントロピー符号化に関連する線形予測コーディング(LPC)である。このようなオーディオ符号化方法により、符号化されたビットストリームから、ビット単位で、正確に入力信号を再構築することが可能になる。
【0009】
線形予測は、将来の値を予測することができるように、信号の連続的な標本間の統計的依存性を使用する。これは、連続的な標本同士は、より大きな距離のある標本同士よりも類似しているということに基づく。以前のいくつかの標本を使用して、現在の標本を推定する線形予測フィルタにより、予測が実現される。ただし、さらに処理されるのは、この予測自体ではなく、その値とそのときの実際の標本との差である。線形予測の目標は、最適化されたフィルタによりこの誤差信号のエネルギーを最小化し、小さな帯域幅しか必要としないこの誤差信号を送信することである(非特許文献21)。
【0010】
その後、誤差信号は、エントロピー符号化される。エントロピーは、信号の意味情報コンテンツの尺度であり、符号化に必要とされるビットの理論的な最小値を示す。ここでの典型的な方法は、ハフマン符号化である。ここでは、ある符号語は、個々の標本の発生の確率に依存して、個々の標本に関係付けられる。短いシンボルは、頻繁に発生する標本に関係付けられ、めったに発生しない信号値は、長い符号語により表される。したがって、平均すると、符号化される信号は、可能な限り最小のビット数で表される(非特許文献2)。
【0011】
線形予測およびエントロピー符号化は、双方とも可逆的であり、したがって、信号から何らの情報をも除去しない。2つの方法を組み合わせると、符号化されることになる信号から冗長性のみが除去される。このような損失のないアプローチは、信号特性に強く依存することから、符号化の利得は比較的小さい。達成される圧縮率、すなわち、入力ビットレートと符号化された信号のビットレートとの比は、1.5:1と3:1との間の領域にある(非特許文献21)。
【0012】
損失のあるオーディオ符号化は、無意味な音の削減の原則に基づく。この方法は、時間および周波数の分解能に関して聴覚の心理音響現象を説明する、人間の知覚モデルを必要とする。したがって、オーディオ符号化は、知覚に適応される符号化または心理音響符号化のことも指す。オーディオ符号化の分野では、人間が知覚できないため聞こえない信号部分は全て、「無意味な音」と称される(非特許文献24)。知覚に適応されるオーディオエンコーダの機能のモードをさらに正確に理解するために、心理音響の深い知識が非常に重要になる。
【0013】
人間の聴覚は、サウンドイベントを周波数グループに分解することにより、サウンドイベントを解析する。これらの周波数グループは、バーク尺度で表され、臨界帯域と呼ばれる。これらの周波数グループのそれぞれは、人間の聴覚により一緒と評価される周波数領域をまとめたものである。したがって、周波数領域は、基底膜上の局所的な領域に対応する。一般的に、24の臨界帯域が基底膜に関係付けられ、その帯域幅は、周波数が増加するにつれて増加する(非特許文献8)。損失のあるオーディオエンコーダもまた、ブロードバンド信号をサブバンドに分解し、各帯域を個別に符号化するために、このモデルの周波数グループを使用する(非特許文献24)。このモデルは頻繁に適応され、しばしば、24を超える帯域の線形周波数分割がバーク尺度の代わりに使用される。
【0014】
聴覚型の知覚の別の重要な特性は、等しい音圧レベルの音の大きさを、周波数依存的に感じることである。このことから、聴覚の2つの特徴が生じる。1つは、異なる周波数だが音圧レベルが等しいサウンドが、異なる大きさであると知覚されることで、もう1つは、周波数依存性の閾値があり、その閾値から、まさにサウンドが知覚され始めることである(非特許文献8)。この閾値は、絶対聴覚閾値または静音時聴覚閾値と呼ばれる。この閾値を
図22に例示する。このことから、オーディオ符号化に関して、2つの結論が導き出される。絶対聴覚閾値を下回るレベルの信号は、いずれにしても知覚できないため、処理される必要がない。これとは別に、周波数帯域ごとに必要とされる量子化ステップの数もまた、静音時聴覚閾値と信号レベルとの間の距離から決定されてもよい(非特許文献24)。
【0015】
カバリングまたはマスキングの効果は、オーディオ符号化に対して最も大きな影響を有する。時間依存のマスキングと周波数依存のマスキングとは、互いに区別される。双方の事例において、マスカーとは、別のサウンドイベントを覆い隠すサウンドイベントをいう。したがって、マスクされたイベントは聞こえない。時間的マスキングの場合、マスカーの前または後のイベントでさえも覆い隠される。プレマスキングは、マスカーの持続時間から独立しており、マスカー自体を知覚する前に最高50ミリ秒のサウンドイベントを覆い隠す(非特許文献23)。これとは対照的に、ポストマスキングは、マスカーの持続時間に依存する。ここでのサウンドイベントは、マスカーが中止された後に覆い隠される。マスカーの持続時間に依存して、静音時聴覚閾値の範囲内の信号に聴覚が再び反応するまで、最高200ミリ秒が経過することがある(非特許文献8)。
【0016】
図21は、時間的マスキングの概略図を示す。特に、
図21は、プレマスキングおよびポストマスキングの領域と、そのレベルを下回ると信号がカバーされるそれぞれのレベルとを概略的に示す。時間的マスキングは、高レベル信号シーケンス(過渡信号)に対して、例えば、量子化雑音のような、符号化プロセスにより引き起こされるスプリアス雑音を隠すために、オーディオ符号化において使用されてもよい。
【0017】
周波数領域におけるマスキング効果は、時間的カバリング効果よりも、さらに非常に重要な役割を果たす。周波数依存マスキングは、個々のサウンドおよび狭帯域雑音に対する静音時聴覚閾値の変化を表現する。個々のサウンドおよび狭帯域雑音の信号は、それらに特有のマスクされた聴覚閾値のため、静音時聴覚閾値を大きく歪ませる。レベルがマスカーのマスクされた聴覚閾値より小さく、この閾値の有効範囲にある信号は、知覚されない(非特許文献8)。この事情を
図22に示す。
【0018】
図22は、人間の聴覚における周波数依存マスキングの概略図を示す。図示の通り、マスクされたサウンドは、マスカーのマスクされた聴覚閾値を下回るため、聞こえない。この効果は、損失のあるオーディオ符号化方法に利用される。周波数依存のマスクされた聴覚閾値を下回る信号部分は、信号から除去され、それ以上は処理されない(非特許文献24)。
【0019】
図23に、知覚に適応された典型的なエンコーダの一般的なセットアップが示される。
図23は、心理音響オーディオエンコーダのブロック回路図を示す。最初に、符号化されることになるPCM信号が、解析フィルタバンクにより周波数帯域に分割され、心理音響モデルに供給される。ここでは、異なる周波数帯域に関する量子化の正確性を調整する時間依存のマスクされた聴覚閾値が、説明した聴覚の心理音響的特徴により決定される。したがって、重要な周波数帯域、すなわち、容易に知覚される周波数帯域は、非常に高分解能で量子化され、重要でない周波数帯域は、少数のビットの分解能で表される。その後、エントロピー符号化が、データ低減のために実行される。エントロピー符号化は、損失のないオーディオ符号化においても同様に行われるものである。解析フィルタバンクおよび心理音響モデルにより追加の制御パラメータを送信しなければならないため、実際のビットストリームは、ビットストリームマルチプレクサによりセットアップされる。ここでは、損失のあるオーディオエンコーダでの符号化における利得は、量子化とエントロピー符号化との組み合わせにより得られる(非特許文献24)。達成されることになる品質に依存して、圧縮レートは、4:1と50:1との間にある(非特許文献21)。
【0020】
デコーダは、比較的単純にセットアップできる。最初に、デマルチプレクサにより、受信されたビットストリームが、信号データと制御パラメータとに再分割される。その後、エントロピー復号化および逆量子化が実行される。ここでの制御パラメータは、有効なデータの逆量子化を制御する。その後、このように得られたサブバンド信号は、ブロードバンドPCM信号を再構築するための合成フィルタバンクに供給される(非特許文献24)。心理音響オーディオデコーダのそれぞれのブロック回路図を
図24に示す。
【0021】
信号変換に関するいくつかの先行技術を以下で論じる。多くのオーディオエンコーダにおける量子化は、周波数領域における人間の知覚を説明する知覚モデルに基づいているため、符号化されることになる信号を周波数領域にも変換する必要がある。このことに関して、異なる特性および適用分野を有する非常に多くの変換がある。オーディオ符号化に関連する変換を以下に提示し、フィルタバンクのセットアップについて論じる。
【0022】
フーリエ変換は、信号の高調波構造を解析するための最も重要な方法である。フーリエ変換は、フーリエ解析の一部であり、フーリエ変換を最初に導入したフランスの数学者および物理学者であるJean−Baptiste−Joseph Fourier(1768年〜1830年)にちなんで名付けられた。フーリエ変換は、時間信号を周波数領域における表現に変換するための関数である。これを使用して、とりわけ、線形時不変(LTI)システムの性能を説明し、それを予測することができる(非特許文献4)。したがって、これは、例えば、人間の聴覚の音響および特徴付けにおいて、非常に重要である。フーリエ変換の基本的な手順は、時間信号を、正弦波振動および余弦波振動の重み付けされた合計に分解することである。非周期性の連続信号に関して、以下のように計算される(非特許文献2)。
【数1】
ここで、x(t)は、時間領域において解析されることになる信号であり、X(f)は、周波数領域におけるそれぞれのフーリエスペクトルである。実信号が変換されるが、結果は複素数であることに留意しなければならない。数式2.2のユークリッド関係を使用して、X(f)の実部がx(t)の余弦項に対応し、虚部が正弦成分に対応することが示される。
【数2】
【0023】
数式2.2を使用して、数式2.1の結果は、以下のようになる。
【数3】
【0024】
その結果、以下のようになる。
【数4】
【0025】
正弦と余弦とはそれらの位相だけが互いに異なることから、信号の位相は、対応する項の比から結論付けられる。以下が適用される。
【数5】
ここで、│X(f)│は、絶対値周波数応答と呼ばれ、φ(f)は、位相周波数応答または単に位相と呼ばれる。
【0026】
逆フーリエ変換(数式2.9)により、変換された信号は、時間領域におけるそのオリジナルの表現に再変換される。フーリエ変換とその逆とは、先頭の定数係数と指数関数の符号とが異なることに留意しなければならない(非特許文献4)。
【数6】
【0027】
離散フーリエ変換を以下でさらに詳細に論じる。
【0028】
現実問題として、フーリエ変換を使用するときに、デジタルコンピュータで問題が生じる。1つは、時間値の有限数しか処理できないことに起因し、もう1つは、周波数変数も、時間変数とは別に、離散的に標本化されなければならないということに起因する。これらの問題の解決策が、離散フーリエ変換(DFT)である。DFTを使用して、有限の離散的な時間信号を、離散的な周期スペクトルに変換する。これは、DFTが、デジタル信号処理における最も重要な変換のうちの1つであることを意味する。DFTの起源はフーリエ変換にあり、正確な導出は(非特許文献12)に示されている。長さNの離散時間信号x[n]は、以下のように定義される(非特許文献4)。
【数7】
【0029】
同様に、逆離散フーリエ変換(IDFT)は、以下のようになる。
【数8】
【0030】
ここでは、以下の複素回転位相ベクトルWを用いている。
【数9】
【0031】
以上の数式において、X[k]はx[n]の離散周期スペクトルであり、k,nは非負の整数
【数10】
である。スペクトルの周期の長さは変換長Nに対応し、正規化された周波数は、[0,2π]の間隔にマッピングされる。
【0032】
実数入力信号に対して、DFTは重要な特性を有する。ここでは、一般的な場合と同様にN個の独立周波数係数が計算されるのではなく、Nの半分のみが計算される。この特性は、例えば、データの蓄積または送信に利用できる。再変換のため、以下の相関を使用して、第2のN/2値が計算される(非特許文献19)。
【数11】
【0033】
数式2.13中の演算子*は、複素共役を示す。したがって、X[k]*は、X[k]に関する複素共役シーケンスの値である。
【0034】
DFTおよびIDFTの計算の複雑性は、N
2個の複素乗算および加算にある。計算時に対称性が利用されるとき、必要とされる計算ステップの数はNlog
2Nに削減され、複雑性は、
【数12】
に対応する。しかし、高速の方法を用いる場合には、変換長Nは2の累乗に対応する。高速フーリエ変換は、FFTと呼ばれる(非特許文献10)。
【0035】
離散フーリエ変換は、データ圧縮の分野では支持が得られていない。DFTの重大な欠点は、計算の複雑性の高さと、スペクトルに含まれる冗長性である。DFTを計算するための効率的な方法、すなわち、FFTがあるが、結果は常に複素スペクトルになる。このことは、N個の複素対の値は、N個の変換値から計算されることを意味する。加えて、最初のN/2個のスペクトル値のみが新規の情報を含む。
【0036】
離散余弦変換および離散正弦変換を以下で論じる。
【0037】
離散余弦変換(DCT)は、前述したDFTの問題の解決策である。DCTは、実数の、離散的な、線形の直交変換である。まさにこれらの特徴により、DCTは、デジタルデータ圧縮において最も頻繁に使用される変換である(非特許文献3)。
【0038】
DCTは、離散三角関数変換である。一般的に、8通りのDCT形式が互いに区別される。エッジの連続性に依存して、DCT形式は偶数および奇数の変換に分けられ、タイプI、II、IIIおよびIVに分けられる。ただし、デジタル信号処理に関しては、偶数タイプのDCTのみが重要である。これらを以下に列挙する(非特許文献19)。
【数13】
ここで、
【数14】
である。
【0039】
これらの形式のそれぞれは、符号化において特殊な目的を有する。DCT−IIは、主に画像データの変換として使用される。非特許文献1によると、これが第1のタイプのDCTとして記載されている。これは、「DCT」という用語が、一般にDCT−IIを指すことを意味する。先頭の係数を除けば、DCT−IIIはDCT−IIの逆変換であり、逆もまたしかりである。オーディオ符号化用には、DCT−IVは特に重要である。これは、修正離散余弦変換の基礎となっている。
【0040】
DCTの重要な特性を実証することができるように、DFTとDCTとの相関を以下に挙げる。先に例示してきたように、DFTは、長さNの実数値信号からN/2個の独立周波数係数のみを計算する。逆に、これは、N個のスペクトル値を得るために、時間領域において2N個の値が必要とされることを意味する。しかし、N個の時間値のみが利用可能である場合に、信号は適切に連続していなければならない。ここでは、信号全体の反映/ミラーリングによる対称的な拡張が適切であると考える。このため、拡張された信号は、周期長2Nにおいて拡張された信号自体を繰り返すと考える。これは、クリッピングされた信号でのDFTのスプリアス漏洩効果が抑圧されるという点で有益である(非特許文献10)。
【0041】
長さNの任意の実信号x[n]は、対称的に拡張され、結果は以下のようになる。
【数15】
ここで、0≦n≦2N−1である。したがって、
【数16】
の長さは、2Nである。その後、数式2.12による数式2.10からのDFTが、この信号に適用され、変形される(非特許文献19)。詳細な導出は添付書類A.1に示されている。以下が適用される。
【数17】
【0042】
この結果を数式2.14bにおけるDCT−IIと比較したときに、これらの二つの式は、位相項2e
jπ/2Nだけが異なっていることがわかる。同一のものは信号非依存であり、任意の情報を含まないため、DCTを計算するときに無視できる(非特許文献19)。DCT−Iに関しては、同様の相関が見られるが、x[n]の異なる信号連続性を使用する。DCT−IVは、DCT−IIの基底関数の位相回転の結果となる。これに関する詳細な導出は、(非特許文献19)に見られる。
【0043】
この結果からいくつかの結論を導き出すことができる。最初に気づくことは、DFTとは対照的に、DCTは、純粋な実変換であることである。このことから、結果として2つの利点が得られる。第1に、この計算には複素乗算および加算を行う必要がなく、第2に、複素対の値がないため、データを蓄積する蓄積スペースが半分でよい。さらに、DCTは、N個の独立周波数係数を計算するために、正確に変換のためのN個の値を必要とすることが印象的である。周波数は全て、[0,π]の間隔にある。DFTとは対照的に、実数値の入力信号に対するスペクトルに含まれる冗長性は消えるため、周波数分解能は2倍になる。しかし、DCTスペクトルは、絶対値(または大きさ)および位相に関して、変換できないという欠点がある。さらに、DCTの基底関数(数式2.14a〜2.14d)に対応するが、この関数と比較して、位相が90度回転している周波数が信号に含まれるという状況が生じことがある。これらの周波数は、DCTにより表現されない、すなわち、それぞれのDCT係数は0である。これらの理由から、DCTは、有効な高速のデータ圧縮によく適しているが、信号解析に対してはそれほど適していない(非特許文献13)。
【0044】
離散余弦変換とは別に、離散正弦変換(DST)がある。一般的に、8個の形式のDSTが互いに区別される。ここでは、DST−IVのみが重要である。DST−IVの形式および特性に関しては、DCT−IVに対応する(非特許文献19)。
【数18】
【0045】
DCT−IVおよびDST−IVの双方を使用して信号が変換されるときに、2つの実スペクトルの組み合わせから再形成される複素スペクトルは、再び絶対値および位相に関する情報を含む。ここでの周波数分解能は依然としてDFTの2倍であり、これは、N個の周波数が間隔[0,π]にマッピングされることを意味する(非特許文献13)。
【0046】
長いオーディオ信号の信号処理に関して、信号全体を変換することは不可能である。一方、N
2個の計算演算子がDCTの計算に対しても必要とされることから、ここでの計算の複雑性は大幅に増加する。他方、データストリーム全体の送信は、信号が再構築されるまで常に待機されなければならないことから、信号をリアルタイムで処理することは不可能である。結果として、信号をブロックに分割する必要がある。この事例では、DCTは、いわゆるブロック変換として適用される(非特許文献19)。ブロックインデックス
【数19】
を使用して、数式2.14dからのDCT−IVに関する結果は以下の通りである。
【数20】
【0047】
信号の長さx[n]は、bNに対応する。ブロック変換の場合、量子化によりブロックアーティファクトが生じる。この種のアーティファクトが認識されることがある既知の例は、JPEG圧縮方法である。ブロックアーティファクトは、周期化のために行われることになるエッジの連続性に起因する。これらは、オリジナルに仮定された信号の連続性に対応しない(数式2.16参照)。結果は、周波数領域においてエネルギーを高周波数に偏移させるブロック制限での音飛びである(非特許文献13)。オーディオ信号における音飛びは、パチパチ音として知覚されることがある。人間の聴覚はこのようなアーティファクトに対して非常に敏感である。したがって、これらは絶対に回避されなければならない。
【0048】
修正離散余弦変換を以下に論じる。
【0049】
修正離散余弦変換(MDCT)は、オーディオ圧縮に関する中心的な変換である。MDCTは、とりわけ、mp3、AACおよびドルビー(登録商標)デジタル(ac−3)において使用される。MDCTは、実数の、離散的で、線形的で、直交の変換であり、DCT−IVの修正である。これは、以下のように定義される(非特許文献19)。
【数21】
【0050】
DCT−IVと比較したMDCTの利点は、ブロックアーティファクトの回避である。これは、複数の連続ブロックのオーバーラップにより主に達成される。この種の変換は、重複直交変換(LOT)としても知られる(非特許文献14)。
【0051】
冗長性は、重畳加算法(OLA)により再除去される。したがって、逆変換で形成するブロックは最大50%まで重畳されて加算され、この手順は重畳加算と呼ばれる。
【0052】
MDCTの周波数分解能は、窓関数により入力シーケンスx[n+bN]を重み付けすることにより、さらに改善されている。数式2.20において、窓は、信号全体から現在のブロックbをクリップする三角関数に対応する。周波数領域において、これは、si関数を使用した畳み込みに対応する。si関数の阻止帯域の減衰は不十分であるが、この窓関数を適応することにより改善され、したがって、周波数選択性の増加が達成される。MDCTを完全に再構築できるようにするために、長さ2Nの窓関数w[n]は、プリンセン‐ブラッドリー(PR)条件を満たさなければならない(非特許文献18)。
【数22】
【0053】
これらの条件を満たし、十分な阻止帯域減衰を示す単純な窓は、正弦半波窓である。これは、とりわけ、mp3およびAACにおいて使用され、以下のように定義される(非特許文献13)。
【数23】
【0054】
窓関数w[2N−1−n]を数式2.20に挿入することにより、MDCTの別の重要な特性が認識される。結果は、変調された窓関数w[n]を使用した、x[n+bN]の離散畳み込みに対応する。ここで、∀k∈[0,N−1]に対して、結果は以下の通りである(非特許文献20)。
【数24】
【0055】
ここで、MDCTは、ブロック変換として見られるだけではなく、変調されたフィルタバンクとしても見ることができる(非特許文献13)。したがって、窓関数は、余弦カーネルにより変調されたローパスプロトタイプFIRフィルタに対応し、このため、フィルタバンクの周波数帯域を表現する。この結果は、入力シーケンスx[n+bN]のちょうどN個のサブバンドへの分解である。TDA特性に関連して、MDCTは、いわゆる「臨界標本化フィルタバンク」の前提条件を満たす。
【0056】
このような臨界標本化フィルタバンクを
図25に示す。特に、
図25は、n
d標本のシステム遅延を有するN帯域の臨界標本化PRフィルタバンクを示す。このようなフィルタバンクは、最小数の標本で信号を可能な限り正確および完全に記述することから、オーディオ符号化のために特に重要である(非特許文献19)。
【0057】
下方向矢印とNのシンボルは、係数1/Nによる標本速度の低減に対応し、上方向矢印とNのシンボルは、係数Nによる増加に対応する。合成フィルタバンク後の信号
【数25】
は、n
d個の標本の一定の遅延を除いて、解析フィルタバンク前の入力信号x[n」と同一である。MDCTの場合には、h
k[n]は変調された窓関数wk[n]である。w[n]がPR条件を満たすことから、解析フィルタh
kは合成フィルタg
kと同一である。
【0058】
数学的観点から、ここまで言及した全ての変換を含む線形数式系を、ベクトル行列の表記法にすることが適切である。長さbNの信号x[n]は、列ベクトル
【数26】
として表現される。ここでの演算子Tは、転置を特徴づける。ブロックの形成は、行列の全列がx[n]のブロックを含む行列として表現される。
【数27】
【0059】
変換規則もまた行列として表現される。ここでの変調された窓関数は、行列の行を形成する。∀k∈[0,N−1],∀n∈[0,2N−1]に対して、以下が適用される。
【数28】
【0060】
信号ベクトルxのMDCTを計算することができるように、数式2.24のブロック構造は、TDAに対する50%の重ね合せにより拡張されなければならない。したがって、MDCTは以下のように記載される。
【数29】
ここで、
【数30】
である。
【0061】
数式2.26のすべての列は、信号ベクトルxにおけるインデックスbを有するそれぞれのブロックのMDCTスペクトルを形成する。
【0062】
ブロックの計算に関して、この形式のMDCTは、2N
2個の乗算および加算を必要とする。しかし、計算の複雑性は大きく削減される。
【0063】
ここで、
図25におけるフィルタバンクを同等の多相フィルタバンク(
図26参照)に変換する必要がある。多相表現およびz変換を使用して、MDCTフィルタバンクのようなマルチレートシステムが、より広範囲に解析される。
【0064】
フィルタの長さがMの整数倍に対応するときに、FIRフィルタh[n]は、常に非負の整数
【数31】
の相に分割できる。h[n]のm番目の位相p
m[n]は、z
−mによる遅延n[n]および係数Mによる標本速度の減少により生成される(非特許文献13)。以下が適用される。
【数32】
【0065】
分解およびz変換を使用して、フィルタh[n]は以下のように表現される(非特許文献13)。
【数33】
【0066】
合計の表記法の代わりに、ベクトル表記法がここでも好まれる。したがって、数式2.30は、N次元のベクトルとして表現される。
【数34】
ここで、
【数35】
である。
【0067】
この多相分解は、次に、MDCTフィルタバンクの各フィルタに適用される。結果は、
図26における、前述した、フィルタバンクの同等の多相表現である(非特許文献20)。したがって、
図26は、同等のN帯域の臨界標本化PR多相フィルタバンクを表す。
【0068】
MDCTカーネルおよびTDAの特徴における対称性を利用することにより、解析多相フィルタ行列
【数36】
および合成多相フィルタ行列
【数37】
は、それぞれ、疎畳み込み行列と変換行列とに分割される(非特許文献20)。ここで、畳み込み行列
【数38】
および
【数39】
は、窓関数w[n]の係数をz領域における多項式として有するダイヤモンド構造を表す。これらは、窓行列および遅延行列にさらに分解される。
【数40】
【0069】
畳み込み行列の正確な形式および分割を以下でさらに示す。変換行列は、DCT−IV行列に対応する。
【数41】
【0070】
これらの行列を使用して、ブロックXに分割される入力信号のMDCTスペクトルは、以下のように計算される(非特許文献20)。
【数42】
ここで、以下が逆変換に適用される。
【数43】
【0071】
この解は、数式2.26にしたがってMDCTを計算するのと比較して、複数の利点をもたらす。最初に、時間領域エイリアシング形成がさらに容易に認識される。数式2.33aによる重畳行列の多相表現の場合、プロセスは、ブロック(b−1)の重み付けされた信号部分を、現在のブロックbに折り返すように解釈される。これらの信号部分を追加することにより、TDAが形成される。多相を使用してMDCTを計算する最大の利点は、計算の複雑性が顕著に減少することである。正方DCT−IV行列およびまばらに占有された畳み込み行列により、計算の複雑性はN(N+2)個の乗算および加算に削減される。FFTに類似するDCTの高速実装を使用することにより、必要とされる演算の数はN(logN+2)に削減され、したがって、複雑性は、数11にランダウの記号で示した値に削減される(非特許文献19)。これらの理由のために、ここでのMDCTは、多相アプローチにしたがって実装されることが考えられる。
【0072】
オーディオ信号処理において、低い周波数の信号をより高い周波数に偏移させる必要があることがある。このとき、この周波数偏移は、自由に選択可能であり、正確であるべきである。信号のより高い周波数を復元しようと試みるオーディオエンコーダは、この問題に直面するにちがいない。現代のオーディオ符号化技術は、オーディオデータのさらに効率的な圧縮のために、帯域幅拡張の方法を使用する。人間の聴覚の心理音響的特徴とは別に、低周波数信号部分の高周波数部分に対する相関が、データ削減に利用される。
【0073】
オーディオ符号化によりデータ転送速度を減少させる様々な方法が存在するにもかかわらず、現在のオーディオエンコーダは、低ビットレートが所望されるときに限界に達する。特に、この事例における心理音響的な方法は、所望でない信号破損を生成する。これは、再生されるオーディオ信号の高音の欠落、ぼやけた過渡信号または人工的なヒス音のような、干渉アーティファクトに見られる。しかし、多くの利用事例では、限られた送信帯域幅しか利用できない。帯域幅拡張(BWE)は、これらの問題に対する解決策をもたらす。一般に、帯域幅拡張は、オリジナルの帯域幅を再度得るために、帯域制限されたオーディオ信号をスペクトル的に拡張するのに使用されるいくつかの方法を統合する。一般的に、帯域幅拡張のための方法の4つのカテゴリーが、互いに区別される(非特許文献11)。これらを
図27にグラフとして示す。
【0074】
図27は、帯域幅拡張のカテゴリーを示す(非特許文献11)。
図27において、左上は、低周波数の心理音響的BWEを示す。
図27において、右上は、高周波数の心理音響的BWEを示す。
図27において、左下は、低周波数のBWEを示す。加えて、
図27の右下に、高周波数のBWEを示す。帯域「a」(破線)のエネルギーは、帯域「b」(点線)に偏移させられる。
【0075】
カテゴリーIII(
図27の右下)のみが、オーディオ符号化に有用である。いわゆる「高周波数のBWE」の場合、高周波数範囲のスペクトルを再構築するために、帯域制限された信号に存在する周波数が使用される。オーディオ信号の帯域幅拡張のためのこのような方法を使用するという考えは、信号の高周波数部分と低周波数部分との間に強い相関があるということに基づく。したがって、欠落した高周波数を、存在する低信号部分から再構築することが可能である(非特許文献11)。帯域制限された信号が、高周波数のBWEによりそのオリジナルの帯域幅に拡張されることがある現在の技術および方法を、以下に提示する。
【0076】
スペクトル帯域複製(SBR)は、とりわけHE−AACで用いられているように、先行技術として既知である。SBRによるスペクトル帯域複製の場合、エンコーダによりスペクトル的に提供されるローパス信号をスペクトル的に拡大するために、低周波数信号部分と高周波数部分との間の相関が利用される。基礎となるフィルタバンクの低周波数帯域が、欠落している高帯域にコピーされ、スペクトル包絡線が適応される。このコピープロセスは、特に低カットオフ周波数により、粗さおよび所望でない音色のような、知覚可能なアーティファクトを引き起こす。これらは、ベースバンドと、アルゴリズム的に生成される高周波数帯域との間の制限内にあるスペクトルの高調波の連続性が欠落することにより主に引き起こされる。
【0077】
先行技術であるSBRオーディオエンコーダは、信号のpQMFサブバンドの分解を使用しており、この方法で、高い符号化効率を保証する(非特許文献7)。これは、より低い周波数帯域のみを送信することにより達成されるのに対し、より高い周波数部分は、前述したより低い帯域のサイド情報および周波数偏移を使用して、再構築される。
【0078】
現在のスペクトル帯域複製は、帯域幅拡張に関して最も広く知られた方法である。これは、とりわけ、HE−AACおよびmp3PROにおいて用いられる。SBRは、符号化技術により開発されてきたが、その目標は、既存のオーディオエンコーダの効率性を増加させることである。これは、エンコーダにより、あるエッジ周波数f
gを下回る周波数のみを処理することにより達成される。言及している例では、mp3およびAACエンコーダが、コアエンコーダとして使用されている。エッジ周波数を上回る周波数は、いくつかのパラメータによってのみ記述される。達成されることになる品質に依存して、これらは5kHzと13kHzとの間にある。その後、高周波数部分は、前出のサイド情報および復号化された帯域制限信号を使用して、受信機において再構築される(非特許文献7)。
【0079】
図28は、拡張されたSBRエンコーダのブロック回路図を示す。入力信号の標本速度は制限され、その後、実際のエンコーダに供給される。並行して、信号は、複素直交ミラーフィルタバンク(QMF)により解析され、エネルギー計算が行われる。使用されるQMFは64個のサブバンドからなる。スペクトル包絡線を推定するのに必要なパラメータは、これから導き出される。さらなるパラメータにより、入力信号の特別な特性に反応することが可能になる。SBRエンコーダを知ることにより、高周波数帯域を生成することによるオリジナルの高周波数部分(HF)と合成されたHF部分との間の大きな差が認識される。
【0080】
例えば、カットオフ周波数を上回るはっきりと異なる個々のサウンドが信号中に存在するときに、これらは、追加のパラメータにより記述され、再構築された信号に再供給される。生成されるサイド情報は、実際のオーディオデータとは別に、送出されるビットストリームに挿入される(非特許文献11)。
【0081】
図29は、SBRにより拡張されるそれぞれのデコーダのブロック回路図を示す。帯域制限オーディオデータがデコーダにより復号化され、制御パラメータがビットストリームから抽出される。その後、オーディオデータは、高周波数部分を再構築するために、QMFフィルタバンクに再供給される。このフィルタバンク内にベースバンドがコピーされ、カットオフ周波数の上側に挿入される(
図30、左図を参照)。
【0082】
図30は、絶対値周波数応答の概略図である。したがって、
図30は、SBR−HF再構築の概略図である。
図30において、左図は、ベースバンドのコピーおよび偏移を示す。
図30において、右図は、スペクトル包絡線の調節後のスペクトルを示す。
【0083】
SBRエンコーダにおいて生成されるスペクトル包絡線上の情報は、コピーされたスペクトルの包絡線をオリジナルの包絡線に一致させるために使用される。送信される制御パラメータおよびそれぞれのQMF帯域のエネルギーを使用して、この適応が行われる。再構築されたスペクトルの特性が、オリジナルのスペクトルの特性と異なる場合に、音調(トーン)成分または雑音が、信号にさらに追加される(非特許文献11)。
図30は、適応された再構築スペクトルを右に示す。
【0084】
最後に、帯域制限信号および再構築された高周波数信号は、合成フィルタバンクにより統合され、時間領域に変換される。このようにして、再生用に現在準備の整っている帯域幅拡張信号が形成される。
【0085】
この種の帯域幅拡張において、大きく異なる高調波構造の高音調信号により問題が生じる。SBR方法がスペクトルの音調適応のための技術を提供する場合でさえ、これらは、破壊された高調波構造を復元するためには不十分である。結果は、信号における知覚可能な粗さである(非特許文献22)。これらのアーティファクトは、リスナーにとって非常に不快である。これは、SBRデコーダのコピープロセスに起因する。これは、信号の高調波の微細構造を考慮に入れず、単にベースバンドを複製する。その結果を
図31に示す。
【0086】
図31は、SBRによる高調波構造の破壊を示す。
図31において、左図は、オリジナルのブロードバンドスペクトルを示す。
図31において、右図は、SBR HF再構築後のスペクトルを示す。
【0087】
明白に認識できるように、高周波が、カットオフ周波数の上側の範囲にあるオリジナルのスペクトルと比較して、偏移させられている。再構築されたHFスペクトルは高調波であるが、高調波構造は、カットオフ周波数において、追加の周波数スウィングf
lagだけ広がっている。さらに、高調波サブトーンの振幅比は、包絡線を再構築することにより歪められている。この効果は、典型的には楽器により生成されるように、全ての高調波信号に生じる。
【0088】
例えばピッチパイプのような高調波信号に関して、SBRおよび同等の帯域幅拡張方法は、信号の高調波構造が完全には保持されないことから、例えば、音調の粗さおよび不快な音色のような、好ましくないアーティファクトを生成する。異なる高調波構造を表す信号に関して、SBRを適用したときに、粗さおよび音色の変化のような、好ましくないアーティファクトが生じる。
【0089】
これが、これらの構造を含む2つの時間領域帯域幅拡張方法、すなわち、位相ボコーダ制御高調波帯域幅拡張(HBE)、および特別の側波帯変調を用いる連続的な変調(CM)BWEが開発された理由である(非特許文献15、16)。自由に選択可能な周波数による連続変調により、特にCM−BWEは、良好な高調波復元を達成する。
【0090】
不調和なスペクトルの連続性の問題を回避するいくつかの代替的な帯域幅拡張方法がある。これらの方法のうちの2つを以下に紹介する。基本的に、これらの方法は、
図29におけるSBRデコーダのHF発生器を置換し、したがって、単純なコピープロセスに対する代替を表す。スペクトル包絡線および調性の適応に変化はない。入力信号は時間領域になければならないことから、この方法は、帯域幅拡張のための時間領域方法とも呼ばれる。
【0091】
高調波帯域幅拡張(HBE)について最初に言及する。HBEは、高ピッチ範囲を生成するための位相ボコーダを使用する。位相ボコーダを適用することにより、スペクトルが拡大される。
図32の左図に示すように、ベースバンドは最大信号周波数f
maxまで広がり、カットオフ周波数とf
maxとの間の周波数範囲はクリップアウトされる。その後、スペクトルは、前述の部分およびベースバンドから構成される(
図32の右を参照)。SBRにおいて行われるのと同様に、包絡線が適応される(非特許文献15)。
【0092】
図32は、HBE−HF再構築の概略図である。
図32において、左図は、係数「2」によるベースバンドの拡大を示す。
図32において、右図は、スペクトル包絡線が適応された後のスペクトルを示す。
【0093】
正整数の拡張係数σ
【数44】
を使用することにより、カットオフ周波数f
gが高調波構造を変化させないことが保証される。以下が適用される。
【数45】
【0094】
欠点として、
図33に見られるように、HF領域におけるサブトーン間の距離が、スペクトルを広げることにより、拡張係数で変化するということがある。さらに、スペクトルを広げるには複雑な計算が必要とされる。これらの中には、高分解能DFT、位相適応および標本速度変換がある(非特許文献6)。オーディオ信号がブロックにサブ分割されると、隣接ブロックの位相を連続できるように、オーバーラップ追加構造がさらに必要とされる。高音調信号に対しては、位相ボコーダ技術を使用して非常に良好な結果を達成できるが、衝撃信号では過渡部がぼやけ、別個の過渡処理を行うことが必要となる(非特許文献22)。
【0095】
図33は、HBEを用いた高調波構造を示す。
図33において、左図は、オリジナルのブロードバンドスペクトルを示す。
図33において、右図は、HBE HF再構築後のスペクトルを示す。
【0096】
連続的な単側波帯変調を以下に提示する。
【0097】
連続的に変調された帯域幅拡張(CM−BWE)は、帯域幅拡張のための別の時間領域方法である。この方法では、
図34に示したと同様に、ベースバンドが周波数f
modで単側波帯変調により変調され、したがって、別のスペクトル位置に偏移される。可変変調周波数により、帯域幅拡張された信号の高調波構造が確実に保持される。カットオフ周波数f
gより大きい変調周波数の場合、スペクトルにおいて形成されるギャップは、雑音で満たされなければならない(非特許文献16)。
【0098】
図34は、CM−BWE−HF再構築の概略図を示す。
図34において、左図は、周波数f
modによるベースバンドの変調を示す。
図34において、右図は、スペクトル包絡線を適応後のスペクトルを示す。
【0099】
図34に示す事例とは別に、ベースバンドが複数回変調されることも必要である。このような事例では、変調周波数はあらゆる変調に適応されなければならず、その変調では、その変調周波数のそれぞれ次の整数の倍数が選択される(非特許文献16)。変調後に最大の許容信号周波数f
maxを超えないように、変調前に、変調周波数にしたがって、ベースバンドは低域通過によってフィルタリングされなければならない。既に提示された方法と同様に、その後、スペクトル包絡線が形成され、音調が適応される。
【0100】
図35は、高調波構造を、CM−BWEにより拡張された信号に形成するものとして示す。
図35において、左図は、オリジナルのブロードバンドスペクトルを示す。
図35において、右図は、CM−BWE−HF再構築後のスペクトルを示す。HBE法におけるのと同様に、CM−BWEは、スペクトル中の高調波サブトーンを欠いている。しかし、これは、否定的に注意を引くものではない。高調波構造自体が保持されているからである。
【0101】
この方法の欠点は、単側波帯変調の計算にある。解析信号が、正しい計算、すなわち信号が正の周波数のみを含むこと、のために必要である。ヒルベルト変換がこのような信号の計算に必要である。これは、基本的に、無限インパルス応答の非因果性フィルタである。このようなフィルタは実現できず、簡潔化されなければならない。しかし、それでもなお可能な限り最高のストップ帯域減衰を最小フィルタ次数で達成するために、無視できない遅延が、フィルタの因果性化により、信号に追加される(非特許文献22)。
【0102】
しかし、周波数偏移が時間領域内で実現される場合、これは、非常に複雑になる。これとは対照的に、偏移をサブバンドオーディオエンコーダのサブバンド領域で実現することは、要求される周波数偏移に対して周波数分解能があまりに粗くなるという結果をもたらす。
【先行技術文献】
【非特許文献】
【0103】
【非特許文献1】Ahmed,N.;Natarajan,T.;Rao,K.R.:Discrete Cosine Transform. In:Computers,IEEE Transactions on C-23(1974),Januar,Nr.1
【非特許文献2】Bosi,M.;Goldberg,R.E.:Introduction to Digital Audio Coding and Standards.2nd edition. Boston;Dordrecht;London:Kluwer Academic Publishers,2003
【非特許文献3】Britanak,V.;Yip,P.C.;Rao,K.R.:Discrete Cosine and Sine Transforms:General Properties, Fast Algorithms and Integer Approximations.Amsterdam;u.a.:Elsevier,2007
【非特許文献4】Burrus,C.S.;Parks,T.:DFT/FFT and Convolution Algorithms:Theory and Implementation.New York:John Wiley & Sons Ltd.,1985
【非特許文献5】Cheng,C.:Method for Estimating Magnitude and Phase in the MDCT Domain.In:Audio Engineering Society Convention 116,Mai 2004
【非特許文献6】Dolson,M:The Phase Vocoder:A Tutorial. In:Computer Music Journal 10(1986),Nr.4
【非特許文献7】Ekstrand,P.:Bandwidth Extension of Audio Signals by Spectral Band Replication. In:Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, Belgium. Bd. 1, November 2002
【非特許文献8】Fastl,H.;Zwicker,E.:Psychoacoustics:Facts and Models.3.Auflage.Berlin;Heidelberg;New York:Springer,2007
【非特許文献9】Jordan-Engeln,G.;Reutter,F.:Numerische Mathematik fuer Ingenieure.2nd revised edition.Mannheim:Bibliographisches Institut,1978
【非特許文献10】Kiencke,U.;Jaekel,H.:Signale und Systeme.3rd revised edition.Muenchen;Wien:Oldenburg Verlag,2005
【非特許文献11】Larsen,E.;Aarts,R.M.:Audio Bandwidth Extension:Application of Psychoacoustics,Signal Processing and Loudspeaker Design.Chichester:John Wiley & Sons Ltd.,2004
【非特許文献12】Lochmann,D.:Digitale Nachrichtentechnik:Digitale Modulation und Signalverarbeitung.Bd.1.Berlin:VBE Verlag Technik,1990
【非特許文献13】Malvar,H.S.:Signal Processing with Lapped Transforms.Boston;London:Artech House,1992
【非特許文献14】Malvar,H.S.;Staelin,D.H.:The LOT:transform coding without blocking effects. In:Acoustics,Speech and Signal Processing,IEEE Transactions on 37(1989),April,Nr.4
【非特許文献15】Nagel,F.;Disch,S.:A harmonic bandwidth extension method for audio codecs. In:Acoustics,Speech and Signal Processing,2009.ICASSP 2009.IEEE International Conference on,April 2009
【非特許文献16】Nagel,F.;Disch,S.;Wilde,S.:A continuous modulated single sideband bandwidth extension. In:Acoustics Speech and Signal Processing (ICASSP),2010 IEEE International Conference on, Maerz 2010
【非特許文献17】Princen,J.;Bradley,A.:Analysis/Synthesis filter bank design based on time domain aliasing cancellation. In:Acoustics, Speech and Signal Processing,IEEE Transactions on 34(1986),oct,Nr.5
【非特許文献18】Princen,J.;Johnson,A.;Bradley,A.:Subband/Transform coding using filter bank designs based on time domain aliasing cancellation. In:Acoustics, Speech, and Signal Processing,IEEE International Conference on ICASSP ’87.Bd.12,April 1987
【非特許文献19】Rao,K.R.;Yip,P.C.:The Transform and Data Compression Handbook.London;New York;Washington, D.C.:CRC Press,2001
【非特許文献20】Schuller,G.D.T.;Smith,M.J.T.:New framework for modulated perfect reconstruction filter banks. In:Signal Processing,IEEE Transactions on 44(1996),August,Nr.8
【非特許文献21】Weinzierl,S.:Handbuch der Audiotechnik. Berlin;Heidelberg:Springer,2008
【非特許文献22】Wilde,Stephan:Entwicklung von Zeitbereichsverfahren zur Bandbreitenerweiterung von Audiosignalen, Friedrich-Alexander-Universitaet Erlangen-Nuernberg,dissertation,2009
【非特許文献23】Yost,W.A.:Fundamentals of Hearing:An Introduction.3rd edition.San Diego;New York;Boston;London;Sydney;Tokyo:Academic Press,1994
【非特許文献24】Zoelzer,U.:Digitale Audiosignalverarbeitung.3rd revised and extended edition.Stuttgart;Leipzig;Wiesbaden:Teubner,2005
【発明の概要】
【発明が解決しようとする課題】
【0104】
オーディオ信号の符号化に望まれるのは、必要とされるデジタルデータのメモリスペース、またはそのデータを送信するのに必要とされる帯域幅、を最小化することである。同時に、再生されるオーディオ信号の知覚される品質は、CDの標準規格と同等であるべきである(16ビットの量子化深度における標本化周波数44100Hz)。したがって、品質は、低データ速度で最大化されることになる。
【0105】
本発明は、サブバンド領域における自由に選択可能な周波数偏移に関する概念の改善を提供することを目的とする。
【課題を解決するための手段】
【0106】
本発明の目的は、請求項1に記載の装置により、請求項23に記載の方法により、および、請求項24に記載のコンピュータプログラムにより、達成される。
【0107】
オーディオ入力信号に基づいて、周波数偏移したオーディオ信号を生成する装置が提供される。オーディオ入力信号は、複数の第1サブバンドに対して、1または複数の第1のブバンド値により表される。この装置は、インターフェースと周波数偏移部とを備える。インターフェースは、オーディオ入力信号を受信するように構成されている。周波数偏移部は、周波数偏移したオーディオ信号を生成するように構成され、この周波数偏移されたオーディオ信号は、複数の第2サブバンドに対して1または複数の第2サブバンド値を各々含む。加えて、第1サブバンド値と第2サブバンド値とは各々、それぞれの位相角に関する情報を含む。周波数偏移部は、第2サブバンド値の1つを、第1サブバンド値の1つに基づいて、当該第2サブバンド値の第2位相角の当該第1のサブバンド値の第1位相角からの位相角差が、周波数偏移したオーディオ信号を得るためにオーディオ入力信号を偏移されるべき周波数差を示す周波数情報に依存し、第1のサブバンドの1つの周波数帯域幅に依存するように生成する。
【0108】
実施形態は、帯域幅拡張のための改善された概念を提供し、これらの改善された概念は、ここでは、「高調波スペクトル帯域拡張」または「HSBE」と呼ばれる。周波数領域におけるこの開発された高調波帯域幅拡張により、好ましくないアーティファクトの抑圧が可能になる。ここで複製されるスペクトルは、オリジナルの高調波構造が保持されるように変調される。他の方法とは対照的に、HSBEは、MDCT領域における信号表現に基づくことができ、したがって、効率的な実現が可能になる。後続の変調によりスペクトル値をコピーするプロセスにより、高調波的に正しい帯域幅拡張が達成される。
【0109】
一実施形態では、オーディオエンコーダにおいて既に通常実現されているMDCTのサブバンド領域が使用される。このようにして、変換が追加の複雑性または遅延を引き起こすことはない。
【0110】
信号がサブバンド帯域幅の偶数の整数倍だけ偏移させられるとき、実施形態では、より低い周波数のサブバンド信号は、対応するより高い周波数帯域に偏移させられる。
【0111】
信号がサブバンド帯域幅の奇数の整数倍だけ偏移させられるとき、実施形態では、コピーされることになるサブバンド信号の全ての第2標本値に、逆の符号(時間の方向における、ブロックインデックスの増加)が提供される。このように、MDCTフィルタバンクのエイリアシング消去特性は、周波数偏移したコピー信号に対して依然として作用する。
【0112】
より低い周波数の信号がサブバンド帯域幅の整数ではない倍数だけ偏移させられるときに、実施形態では、より低い周波数のサブバンドの複素数値のバージョンが生成され、これらのコピーが行われ、これらは、複素指数関数により変調(乗算)される。ここで、この複素指数関数は、サブバンド帯域幅の次の整数倍の周波数の差に対応する周波数である(これは、断片化されたサブバンド帯域幅偏移である)。しかし、MDCTフィルタバンクのエイリアシング補償特性は、これにより影響を受け、または破壊される。
【0113】
結果として生じる周波数の歪みを防ぐ、または削減するために、隣接するサブバンド信号間での畳み込み様の処理が行われ、1つのサブバンド信号の重み付けされたバージョンが、その隣接のサブバンドのサブバンド信号に追加される。これにより、逆符号のエイリアシング成分が提示され、これにより、エイリアシングが補償または削減される。1つの実施形態では、ここでの重みは、重みが所望の断片化された周波数偏移に対応するように選ばれる。
【0114】
スペクトルの変調は、MDCTのTDAC特性に違反し、結果としてエイリアシング成分となる。これらをなくすために、実施形態では、エイリアシング消去のためのFIRフィルタ構造が提供される。このために必要とされるフィルタインパルス応答は、連続近似により最適化され、例えば、ルックアップテーブルとして記憶される。
【0115】
しかし、ここで提示した概念の適用性に関して、符号化プロセスを適応する必要はなく、すなわち、例示的には、心理音響モデルを適用することにより、データを圧縮する必要はない。
【0116】
提供される概念は、既に存在する帯域幅拡張方法に基づき、これを改善する。この新規の方法を使用して、一定の記憶要件とともに、再生されるオーディオ素材の品質を向上させることが可能である。ここでの符号化プロセスは影響を受けないが、デコーダがさらに開発される。開発された方法は、高調波帯域幅拡張を実現する。これは、HE−AAC技術において使用されるような、スペクトル帯域複製(SBR)に基づく。
【0117】
提供される、発明の効率的なスペクトル帯域複製の概念は、オリジナルのスペクトルの高調波構造を保持するため、既知のSBR技術で生じるアーティファクトを削減する。
【0118】
高調波スペクトル帯域拡張(HSBE)に関する概念が提供される。効率性が重要な役割を果たすことから、基礎となる信号処理が、FIRフィルタによりアーティファクトを抑圧するために使用されるフィルタバンクから始まって、説明される。
【0119】
ここで提示する高調波スペクトル帯域拡張は、オーディオ信号の帯域制限されたスペクトルの高調波構造を持続したまま、オーディオ信号の帯域制限されたスペクトルを拡張する強力で効率的な方法を提供する。
【0120】
スペクトルを高調波的に正しい方法で連続させるために、高調波スペクトル帯域拡張に関するいくつかの問題に留意すべきであることを示す。スペクトルの高調波構造を再構築するためのいくつかの方法が知られている場合でさえ、それでもなお、新規でさらに効率的な技術を開発することが有用である。特に、AACまたはUSACのような、現在のオーディオエンコーダ構造における統合に対して、そこでの一般的な条件への適応は不可欠である。
【0121】
連続的な高調波スペクトル帯域拡張の本質的な要件が、発生するスプリアス成分を抑圧する。これは、まさに、このために設計されたエイリアシング消去の機能および最適化のモードが、ここで重点を置かれる理由である。適切なFIRフィルタを選択することにより、不要な信号部分を大きく削減できることが示される。したがって、従来のフィルタリングとは対照的に、これは、フィルタインパルス応答を使用して折り畳まれる時間信号ではなく、複素MDCT/MDST係数である。この方法が、生じている全てのエイリアシング成分を消去できない場合でさえ、わずかな支配的なスプリアス部分をなくすことで十分である。
【0122】
これとは別に、MDCT係数のMDSTスペクトル値への変換は、高調波スペクトル帯域拡張の別の重要な要素である。現代のオーディオエンコーダは、MDCT領域において排他的に動作する。信号は、そのスペクトル表現で、十分に正確に記述されるが、それでもなお、この情報は、HSBEを使用してスペクトルを複製するのに十分ではない。必要とされる位相の形は、追加のMDST係数のみにより修正できる。ここで変換が導入され、変換により、一定の遅延を使用して、既知のMDCT値から可能な限り効率的に、欠落しているMDST係数を計算することが可能になる。正確な解とは別に、誤差が出やすいが、リソースを節約する代替策を提示する。
【0123】
スペクトルの変調はHSBEとともに重要である。スペクトルの効率的な複製のために2つのステップが有用であることを示す。一方で、スペクトルが整数のMDCTサブバンドだけ偏移し、他方で、MDCTサブバンドの帯域幅内の変調は、微細な分解能のために行われる。CD品質の信号にとって、この技術により達成される分解能は約0.5Hzである。これは、スペクトルの高調波構造が高度に正確に複製されることがあることを意味する。
【0124】
変調の決定に必要とされるラグ周波数は、典型的には、エンコーダにより提供される。
【0125】
実施形態では、周波数偏移した信号を生成するために、装置または方法またはコンピュータプログラムが提供され、サブバンドの分解が使用され、断片化されたサブバンド帯域幅偏移に対して、サブバンドに、複素指数関数が乗算される。
【0126】
実施形態では、隣接するサブバンド信号間でバタフライ処理を行うことにより、エイリアシング成分が補償され、または、少なくとも削減される。
【0127】
さらなる実施形態では、オーディオ符号化システムのサブバンド領域において、周波数偏移が行われる。
【0128】
実施形態では、オーディオ符号化システムにおいて信号の欠落した周波数部分および/または信号の周波数表現のスペクトルホールを満たすために、周波数偏移が使用される。
【0129】
実施形態では、再生スピードを変化させ、ピッチを同じままとする標本速度コンバージョンと組み合わせて、周波数偏移が使用される。
【0130】
典型的には、最初に周波数偏移により周波数を増やし、その後に再生スピードを減らすと、ある量のオーディオデータの再生時間は、一定のピッチで長くなる。他方、典型的には、最初に周波数偏移により周波数を減らし、その後にある量のオーディオデータの再生時間を増やすと、再生時間は一定のピッチで短くなる。
【0131】
さらなる実施形態では、音楽信号の微細な調節のための概念が使用される。例示的に、提供される概念は、オーディオチューンにとって特に有益な方法で使用されてもよい。例えば、デジタル音楽信号の小さなピッチ変化のみが実現されることになるとき、すなわち、典型的に、周波数変化がサブバンドの帯域幅より小さくなる、例えば、MDCTまたはQMFサブバンドより小さくなるときに、提供される概念は特に有益である。
【0132】
実施形態によると、概念は、スペクトルのより小さい周波数部分をコピーする、または周波数偏移することにより、より高い周波数のスペクトルを生成するために使用される。
【0133】
実施形態では、サブバンドの分解は修正離散余弦変換(MDCT)である。
【0134】
さらなる実施形態では、サブバンドの分解は多相直交ミラーフィルタバンク(QMF)である。
【0135】
先の実施形態において提供された概念は、とりわけ、システム、装置の双方、または方法またはコンピュータプログラムとして実現される。
【0136】
高調波スペクトル帯域拡張の実行可能な実現は、提供および開発されるアルゴリズムおよび機能原則に基づいて形成されている。Matlabあるいはプログラミング言語Cまたは別のプログラミング言語でのリアルタイムの実現が可能である。これは、提供された概念がリアルタイムシステムにおいて適用されてもよいことを意味する。再生される信号の品質は、これらの方法を使用すると増加すると予想され、SBRについても同様である。
【0137】
提供される概念にしたがったスペクトルの変調の複雑性を解析することにより、非常に良好な値がもたらされる。ここでの計算の複雑性は、MDCT−MDST変換に大きく依存する。
【0138】
加えて、オーディオ入力信号に基づいて、周波数偏移されたオーディオ信号を生成するための方法が提供され、ここで、オーディオ入力信号は、複数の第1サブバンドに対して、1または複数の第1サブバンド値により表される。
【0139】
方法は、オーディオ入力信号を受信し、周波数が偏移したオーディオ信号を、複数の第2サブバンドに対して1または複数の第2サブバンド値を各々含む信号として生成することを含み、ここで、第1サブバンド値と第2サブバンド値とは各々、それぞれの位相角に関する情報を含み、第2サブバンド値の1つを、第1サブバンド値の1つに基づいて、当該第2サブバンド値の第2位相角の当該第1サブバンド値の第1位相角からの位相角差が、周波数偏移したオーディオ信号を得るためにオーディオ入力信号を偏移させるべき周波数差を示す周波数情報に依存し、第1サブバンドの1つの周波数帯域幅に依存する位相角差となるように生成する。
【0140】
さらに、コンピュータプログラムがコンピュータまたは信号プロセッサにおいて実行されるときに、先の方法を行うためのコンピュータプログラムが提供される。
【0141】
好ましい実施形態は従属請求項にて説明する。
【0142】
好ましい実施形態は以下で図面を参照して説明する。
【図面の簡単な説明】
【0143】
【
図1A】一実施形態に係る帯域幅拡張のための装置を示す。
【
図1B】実施形態に係る装置を示し、ここで、装置は、周波数が広げられたオーディオ信号を生成するように構成されている。
【
図2】一実施形態に係るHSBE−HFの概略図である。
【
図3】一実施形態に係る周波数偏移したオーディオ信号を生成するための装置300を示す。
【
図4A】一実施形態に係るMDCT−MDST変換行列の推定を示す。
【
図4B】一実施形態に係るMDCT−MDST変換行列の推定を示す。
【
図5】一実施形態に係るMDCT−MDST変換行列のインパルス応答を示す。
【
図6】白色雑音に対するMDSTスペクトルの推定を示す。
【
図7】一実施形態に係るHSBEによる高調波構造を示す。
【
図8】一実施形態に係る拡張されたHSBE−HF再構築の図を示す。
【
図9】φ=45度に対するエイリアシング成分を示す。
【
図10】φ=90度に対する、一実施形態に係るアンチエイリアシングフィルタのフィルタインパルス応答を示す。
【
図11】一実施形態に係るφ=90度に対するアンチエイリアシングフィルタリングの正弦波信号への影響を示す。
【
図12】一実施形態に係るエイリアシング削減に対するバタフライ構造を示す。
【
図13】一実施形態に係るHSBE−LPCの包絡線適応化を示す。
【
図14】HSBEにおける変調およびアンチエイリアシングフィルタリングの複雑性を示す。
【
図16】MDCT−MDST変換の複雑性の図を示す。
【
図17】変換長に依存したHSBEにおける残余の障害を示す。
【
図19】高速ユニバーサルDCT−III/DST−III構造を示す。
【
図22】人間の聴覚における周波数依存マスキングの概略図である。
【
図23】心理音響オーディオエンコーダのブロック回路図を示す。
【
図24】心理音響オーディオエンコーダのブロック回路図を示す。
【
図25】n
d個の標本のシステム遅延を有するフィルタバンクを示す。
【
図28】拡張SBRエンコーダのブロック回路図を示す。
【
図29】SBRにより拡張されたデコーダのブロック回路図を示す。
【
図34】CM−BWE−HF再構築の概略図である。
【発明を実施するための形態】
【0144】
図1Aは、周波数偏移したオーディオ信号をオーディオ入力信号に基づいて生成する装置100を示す。オーディオ入力信号は、複数の第1サブバンドに対して、ここでは1または複数の第1サブバンド値により表される。この装置は、インターフェース110および周波数偏移部120を備える。インターフェース110は、オーディオ入力信号を受信するように構成されている。周波数偏移部120は、周波数偏移したオーディオ信号を生成するように構成され、周波数偏移オーディオ信号は、複数の第2サブバンドに対して、1または複数の第2サブバンド値をそれぞれ含む。加えて、第1および第2サブバンド値のそれぞれは、それぞれの位相角に関する情報を含む。周波数偏移部120はさらに、第2サブバンド値の1つを、第1サブバンド値に基づいて生成するように構成される。このとき、第2サブバンド値の第2位相角が、第1サブバンドの第1位相角と、ある位相角差だけ異なるようにする。この位相角差は周波数情報に依存し、この周波数情報の示す周波数差により、オーディオ入力信号が偏移させられる。すなわち、例えば、周波数情報の示す周波数差により、オーディオ入力信号のサブバンドの第1サブバンド値が、周波数偏移したオーディオ信号を得るために偏移させられる。位相角差は、第1サブバンドの1つの周波数帯域幅に依存する。
【0145】
いくつかの実施形態では、インターフェースは、オーディオ入力信号のサブバンドの第1サブバンド値が偏移させられることになる周波数差を示す周波数情報を受信するように構成される。
【0146】
図1Bは、一実施形態に係る装置150を示す。この装置150は、周波数が拡張されたオーディオ信号(周波数拡張オーディオ信号)を生成するように構成されている。ここで示す装置150は、装置150が周波数偏移したオーディオ信号の第2サブバンド値を生成することにより、周波数拡張オーディオ信号を生成するように構成されている。周波数拡張オーディオ信号は、オーディオ入力信号の第1サブバンド値および周波数偏移したオーディオ信号の第2サブバンド値を含む。
【0147】
実施形態に係る帯域幅拡張の概念を以下に紹介する。この概念は、高調波スペクトル帯域拡張(HSBE)と呼ばれる。これは、ほとんど、SBRの利点と連続的な単一側波帯変調の利点とを組み合わせた概念である。これは、MDCT領域における信号表現に基づく。したがって、HSBEは、SBRにおいて行われているように、追加のQMFフィルタバンクを使用することなく、HE−AACまたはUSACのような、現在のオーディオエンコーダに直接統合されてもよい。時間領域方法とは対照的に、高分解能DFTが計算されることになり、解析信号は必要とされない。
【0148】
高調波スペクトル帯域拡張の機能の形態を以下に論じる。高調波スペクトル帯域拡張は、HF部を発生させるために、ベースバンドのコピーを使用する。ベースバンドは、コピープロセスを使用して、高周波数領域に複製される。ある高調波サブトーンが欠落しているギャップがコピーにより形成されるCM−BWEとは対照的に、HSBEにおけるベースバンドの偏移は拡張される。ベースバンドは、この場合も、最初に上方向にコピーされ、これにより、0Hzの周波数がf
gとなる。したがって、ベースバンド内の周波数f<f
gの最後の高調波と周波数f
gとの間に形成されるギャップは、コピーされたベースバンドを再度下方向に偏移させ、高調波構造が再度連続的になるようにすることで補償される。したがって、時間領域方法におけるような、高調波サブトーンをスキップすることにより生じるギャップは回避される。ここでの帯域幅拡張プロセスは2つの部分からなる。一方の部分は、MDCT領域におけるコピープロセスにより実現される。低周波数MDCT係数は、単純なコピーにより複製される。帯域幅拡張の他方の部分、すなわち高調波構造の保持は、位相を操作することにより得られる。したがって、位相情報は、このステップのために存在する必要がある。高調波スペクトル帯域拡張は、基本的に純粋な実MDCT係数を使用して動作する。これは、位相情報を変更するために、複素スペクトルへの変換が行われることを意味する。これは、ここで提供されるMDCT−MDST変換により達成される。
【0149】
ベースバンドの高周波数が、適応中に複製された帯域の周波数と重複しないように、HF帯域はハイパスフィルタリングを受ける。信号をMDCT係数として表すので、望ましくない係数は零に設定されてもよいことから、このフィルタリングは非常に単純である。しかし、このタイプの偏移は、合成された信号の帯域制限を引き起こす。これは、HF帯域再構築後に、オリジナルの最大信号周波数f
maxを得ることができず、周波数f
synのみであることを意味する。f
maxとf
synとの間に生じているギャップは、必要な場合には、雑音で満たされてもよい。
【0150】
図2は、高調波の適応を含むコピープロセスの概略図である。したがって、
図2は、HSBE−HF再構築の概略図である。
図2において、左図は、ベースバンドのコピーおよび偏移を示す。
図2において、右図は、スペクトル包絡線の適応後のスペクトルを示す。
【0151】
位相に必要な適応は、信号における追加のスプリアス成分の原因となる。これらは、開発された、複素MDCT/MDSTスペクトル値のアンチエイリアシングフィルタリングにより抑圧される。最後に、包絡線は、適切な方法により、包絡線のオリジナルの方向に適応される。
【0152】
図3は、HSBEデコーダ、すなわち、上述の手順によりもたらされるHSBEにより拡張されたデコーダを示す。
【0153】
図3は、一実施形態に係る周波数偏移オーディオ信号生成装置300を示す。1つの実施形態では、これは、HSBEデコーダ、すなわち、HSBEにより拡張されたデコーダである。
【0154】
装置300は、インターフェース310および周波数偏移部320を備える。
【0155】
MDCT/MDST変換部315が、インターフェース310と周波数偏移部320との間に設けられる。さらに、装置300は、フィルタ部330を備える。さらに、装置300は、典型的にはフィルタバンクの形態で、合成変換部340と、包絡線適応部350とを備える。さらに、
図3の実施形態における装置300は、τおよびφを計算する計算部を備える。
【0156】
MDCT/MDST変換部315は、オーディオ入力信号の1または複数の第1のMDCT係数、すなわちオーディオ入力信号の修正離散余弦波変換の係数を得るように構成される。MDCT/MDST変換部315は、例えばインターフェース310から、これらの第1のMDCT係数を得ることができる。
【0157】
MDCT/MDST変換部315は、オーディオ入力信号の1または複数の第1のMDCT係数に基づいて、オーディオ入力信号の1または複数の第1のMDST係数、すなわち修正離散正弦波変換の係数を決定するように構成されている。
【0158】
次に、周波数偏移部320は、第1サブバンド値のそれぞれの1つに基づいて、第2サブバンド値を生成するように構成され、第1サブバンド値のそれぞれは、第1のMDCT係数のうちの1つに基づいており、第1のMDST係数のうちの1つは、この第1のMDCT係数に基づいて決定されている。
【0159】
ここで示す装置300の構造は、典型的にはHSBEデコーダとして実現され、実装されるアルゴリズムに依存する。他の環境でこのデコーダを使用するときには、周波数領域において包絡線の再構築を行う必要があるかもしれない。その場合の対応ブロックは、MDCT/MDST合成フィルタバンクの前に直接設けられる。SBRで使用される調性適応のような、さらなるコンポーネントもまたここに挿入されてもよい。ただし、これらは、高調波スペクトル帯域拡張の機能の一般モードに影響するものではない。
【0160】
実施形態に係るMDCT領域で符号化された信号の復号化プロセスもまた、
図3から得られる。スペクトルのいくつかの部分を所望のように偏移させるために、復号化されたMDCT係数が、最初に、結合されたMDCT/MDST表現に変換される。これは、複素スペクトルの変調が、全ての第2サブバンドにおいてのみ、より大きなエイリアシング成分を生成することから、有用である。したがって、補償は、全ての第2サブバンドにおいてのみ必要であり、ここで、この補償は、提案されるエイリアシング補償方法を使用して行われる。
【0161】
HF発生器は、所望の偏移にしたがって、ビットストリームによる復号化方法で、あるいは、デコーダにおいてまたは外部プロセスにより決定される復号化方法で、MDCT/MDSTからの複素周波数入力を偏移させる。使用される変調項は以下の通りである。
【数46】
bは、ブロックインデックスであり、φは、度数法での周波数偏移である(180度だけの周波数偏移は、次のサブバンドの中央への偏移に対応する)。
【0162】
この後、エイリアシング削減が行われ、複素スペクトルが時間領域に逆再変換されて、再生される。
【0163】
使用される変調項は、複素指数関数である。φは、度数法での角度であり、サブバンドの第1サブバンド値が偏移させられることになる周波数差に依存する。
【0164】
MDCTからMDSTへの変換を以下に論じる。
【0165】
高調波構造を保持するための単一側波帯変調は、位相の操作を使用して、部分的に実現される。高調波スペクトル帯域拡張に関して、位相応答は本質的に重要である。既に論じてきたように、一般的にHSBEは実MDCT領域にて動作する。
【0166】
エンコーダは、MDCT係数のみを利用可能にし、これにより、MDST係数が位相応答に対してさらに必要とされる。MDCT係数の、対応するMDST係数への変換が可能であり、以下に論じる。
【0167】
MDSTの正確な計算を以下に論じる。
【0168】
DCTにおけるように、MDCTにおいて、信号中の正弦波部を計算するための対応する関数、すなわち修正離散正弦波変換(MDST)がある。MDSTに関して、MDCTと同一の特性が適用されるが、オーディオ符号化で使用されることはほとんどない。
【0169】
しかし、例えば、HSBEのような、いくつかの適用に対して、信号のMDSTスペクトルを計算することは有用である。2つのスペクトルを合成することにより、正確な絶対値および位相スペクトルを得ることができる(非特許文献5)。
【0170】
MDSTは、MDCTと同様に、数式2.35にて計算される。変換行列および窓行列は、差を表す。DST−IVの変調コアを使用して、MDST変換行列が計算される(数式2.18参照)。
【数47】
【0171】
DST−IVと比較した、他の対称的性質およびDST−IVの他のエッジの連続性により、畳み込み行列はそれに応じて適応されなければならない。修正は、窓行列の第2象限および第4象限の正弦波の変化である。
【数48】
【0172】
これらの適応を使用して、ブロックに分割される信号xのMDSTは、以下のように計算される。
【数49】
【0173】
逆変換に関して、以下を適用する。
【数50】
【0174】
MDCTスペクトルおよびMDSTスペクトルの合成から計算される複素変換関数は、例えば、位相応答を操作するために必要である。MDCTスペクトルをMDST係数に変換するために実行される方法を以下に提示する。
【0175】
平凡ではあるがその計算に関しては複雑な方法で、MDCT領域中の信号を時間領域に戻すように変換し、続いてMDSTを以下のように計算することである。
【数51】
【0176】
この計算を単純化して、必要とされる複雑性を削減する。そこで、最初に、多相行列Hを以下のように定義する。
【数52】
【0177】
行列Hの要素はそれぞれ、zにおける3次多項式からなる。この性質は、行列Hを3つの行列の加算として表現するために使用される。
【数53】
【0178】
3つのサブ行列H
0、H
1およびH
2は、結果的に効率的な計算になる特有の特性を示す。行列H
1は、要素0.5および−0.5を有する疎行列である。行列H
0とH
2との間には直接的な関連性があり、行列H
2がその第二の対角線に対してH
0の要素を反映する。これらの行列の正確な形および詳細な計算を以下に提示する。ブロック(b−1)のMDSTスペクトルは、その場合、以下のように計算される。
【数54】
【0179】
ここで、下線付きで示すX(b)は、下に波線付きで示す行列Xのb番目の列である。この数式から、1つのブロックの遅延が、MDSTスペクトルの計算のために導入されることも認識される。ブロックbのMDSTスペクトルが存在するときに、最初に、以前のブロックのMDSTスペクトルが利用可能である。この方法で得られるMDST係数を使用して、複素MDCT/MDSTスペクトルから位相応答を計算してもよく、以前に論じたように、高調波構造を保持するために位相回転を使用して位相応答を操作してもよい。
【0180】
簡潔化されたMDSTの計算を以下に論じる。
【0181】
導出された方法にしたがってMDSTが大幅に簡潔化された場合でさえ、この変換の計算は、非常に大変である。加えて、行列を記憶するために、多数のメモリスペースが必要とされる。これは、変換のさらなる簡潔化が求められていることを意味する。
【0182】
行列およびをさらに正確に解析するときに、注目すべきは、これらが零に近似する値を非常に多く含むことである。絶対値が最も大きい係数は、行列の主対角線に近い狭い領域に集中する。したがって、この方法で計算能力および蓄積要求の双方を節約するために、残りの係数を零に置換することが良いように思われる。さらに、対角線上の値は、非常に似ている。これらは、基本的に、符号が互いに異なるのみである。角に近い領域にだけ、より大きな値の係数がある。
【0183】
簡潔化の目的のために、主対角線の上下の値が等しいと仮定する。これは、主対角線に関して、行列の軸対称性があることを意味する。簡潔化された行列が計算され、行列の値は行列の中央の列から取られる。したがって、主対角線の要素および主対角線の下にある任意の数のさらなる要素を含む領域が、中央の列から切り出される。この切り出されたセクターを下線付きのh[n]で表す。その後、新規の行列の中央の列は、h[n]および主軸要素であるh
ijに対するh[n]の点対称から形成され、列の残りは零である。その後、簡潔化された行列の他の列は、この列のサイクリック偏移により形成される。2列目は全て符号が適応される。密行列を簡潔にするためのこれらの方法を使用して、下波線付きH′
0で表す疎行列が、非常に少数の係数を使用して決定される。対称的なテプリッツ様の構造が、この行列の特異性である。これは、主対角線に関してミラーリングされた、クリップされたインパルス応答h[n]の巡回偏移により形成される。
【数55】
【0184】
ここで、iは、行列の行のインデックスであり、jは、行列の列のインデックスであり、σは、セクターの長さを決定する窓インデックスである。このセクターの長さは常に2σ+1となる。σ=1およびN=6に関して、行列H′
0の構造に以下が適用される。
【数56】
【0185】
留意すべきことは、1列目から開始して各次の列は全て−1が乗算されていることである。以下の検討では、窓インデックスσが変換長Nの約10%に対応する、すなわち、σ=「0.1・N」であるとする。これは、h[n]の値をミラーリングすることにより、変換行列に対するメモリ要求が20%減少していることを意味する。
【0186】
図4は、MDCT−MDST変換行列の推定を表す。
図4において、左図は、N=64に関する完全に占有された変換行列を示す。
図4において、右図は、N=64に関する簡潔化された変換行列H′
0を示す。
【0187】
図4において、左図は、完全に占有された変換行列H
0を示し、これに対して、右図は、対称的なテプリッツ様の構造における簡潔化された行列H′
0を示す。見て分かるように、H′
0の主対角線から離れた大部分の係数は、単純化に起因して、零に等しい。
【0188】
図5は、MDCT−MDST変換行列のインパルス応答を表す。特に、
図5は、行列の33番目の列のオリジナルのインパルス応答を示す(連続した線)。比較のために、さらに、コピープロセスおよびミラーリングにより形成されている新規の行列H′
0の対応するインパルス応答を示す。値のクリッピングアウト(切り抜き)は、窓インデックスσ=6による矩形窓を使用して行われる。
【0189】
この種のMDCT−MDST変換の簡潔化は、数式4.8の計算により形成されるような、正確なMDSTスペクトルは提供しない。行列H
0およびH
2の簡潔化が行われることにより、スペクトルに誤差が追加される。
図6に示すように、これは、信号対雑音比のおおよそ−70dBの減少を引き起こす。
図6は、白色雑音に関するMDSTスペクトルの推定を示す。MDSTスペクトルの推定誤差は、スペクトルのエッジ領域において増加する。この効果は、主対角線の端に近い行列係数の正確でない推定が原因である。生成されるミラーは、HSBEアルゴリズムのハイパスフィルタリングにより削減され、結果として、高周波数にのみ存在する。
【0190】
周波数スペクトルの高調波構造の適応を以下に論じる。
【0191】
HSBE方法の利点は、帯域幅拡張後に高調波構造を保持することである。言及してきたように、これは、複素MDCT/MDST領域における位相操作により行われる。ここで、帯域幅B=f
max−f
gのコピーされたスペクトル帯域を検討する。目的は、偏移後のこの帯域における第1高調波(例示的には周波数f
H,n>f
gを有する)が、周波数f
H,α<f
gのベースバンド中の最高高調波の周波数になるように、スペクトルを下方向に偏移することである。周波数f
H,nとf
H,αとの間の距離を、ラグ周波数f
lagという。
【0192】
高調波構造の適応は、この周波数を使用して調整される。この周波数は、MDCTサブバンドの整数倍およびMDCTサブバンドの非整数倍としてそれぞれ表わされ、これにより、周波数帯域は下方向に偏移させられることになる。これにより、開発された方法の柔軟性を最大にできる。前述の条件を満たした後に、ベースバンドおよび偏移させられた帯域がオーバーラップしないように、f
gより小さい離散周波数を有する全てのMDCT係数が零に設定される。
【0193】
図7は、音調信号に対するHSBE方法の所望の結果の概略図である。ここで、
図7は、HSBEにおける高調波構造を示す。
図7において、左図は、オリジナルのブロードバンドスペクトルを示す。
図7において、右図は、HSBE HF再構築後のスペクトルを示す。
【0194】
ここでは、オリジナルの高調波構造が保持される。複製された高周波数帯域のカットオフ周波数f
gより小さい周波数への論じた偏移により、どの高調波サブトーンも、取り除かれてはいない。したがって、スペクトルの偏移は、変調周波数f
modを使用した、ハイパスフィルタリングされたベースバンド信号の単一側波帯変調である解釈される。以下が適用される。
【数57】
【0195】
ここで、MDCT帯域の帯域幅の半分より大きい周波数f
lagの場合、f=f
maxに近いMDCT係数が偏移により零になることに留意しなければならない。これらは、雑音により満たされてもよい。周波数f
lagがMDCT帯域の帯域幅の半分より小さいときには、零に設定されるMDCT係数がないことから、これは必要ない。
【0196】
非整数サブバンドの適応を以下で論じる。
【0197】
MDCT帯域が高調波構造の連続的なサブトーンの周波数差と比較して高い帯域幅を含むときに、高調波構造の保持は複雑化する。MDCT帯域の帯域幅の整数倍である周波数のみを使用して変調を行うときに、高調波再構築の分解能は大きく制限され、結果として、微細な高調波構造を復元できない。そこで、高い変調精度を持たせるために、ベースバンドのスペクトルがMDCT帯域の帯域幅の整数倍により変調されるだけでなく、MDCT帯域の帯域幅の分数によっても変調されることが必要である。
【0198】
以下のアプローチを使用すると、MDCTサブバンドの帯域幅内でスペクトルを偏移することが可能である。方法は、複素MDCT/MDSTスペクトルの位相の修正に基づく。ここでの位相は、信号の時間的経過に依存して、正規化された周波数偏移φで回転させられる。この位相角の時間的回転により、非常に微細なスペクトルの偏移が可能になる。以下が適用される。
【数58】
【0199】
ここで、X(b)は、複素行列
【数59】
のb番目の列であり、φは、度数法での正規化された周波数偏移である。理論的に、φとしてどのような角度を使用してもよいが、実用上の理由から、値の範囲は大きく制限されて、区間
【数60】
内となる。この区間を使用して、MDCT帯域の帯域幅をカバーする変調を計算することが可能である。正規化された周波数偏移を示された区間に設定することにより、スペクトルは、より高いまたはより低い周波数に向けて、MDCT帯域幅の半分ずつそれぞれ偏移させられる。
【0200】
bおよびφに依存する複素指数関数
【数61】
°に関して、結果値が最初に計算される。φは、サブバンドの第1サブバンド値が偏移させられることになる角度であり、周波数差に依存する度数法での角度である。その後、決定されるべき第2サブバンド値が、X(b)内の第1サブバンド値の1つに結果値を乗算することにより確立される。
【0201】
整数のサブバンドの適応を以下で論じる。
【0202】
位相角φの値の制限範囲が、導入された変調を用いて、スペクトルのMDCT態域の帯域幅のほとんどにわたる偏移のみを許容する。MDCT帯域の帯域幅より大きいスペクトルの偏移については、その偏移が、2つの部分、すなわちMDCT帯域の帯域幅の整数倍とその帯域幅の分数、に分割される。最初に、スペクトルは、数式4.12にしたがって、MDCT帯域の帯域幅より小さい必要な周波数により変調され、その後、スペクトルは、整数のスペクトル値だけ偏移させられる。
【0203】
続いて、MDCT帯域の帯域幅の倍数に正確に対応する偏移を検討する。この場合、位相角φ’があり、これは180度の整数倍である。したがって、整数のMDCTスペクトル値によるスペクトルの偏移は、整数でないサブバンドに関する先に導入された方法の特別な場合と考えてもよい。数式4.12における複素変調関数を評価することにより、以下の結果が得られる。ブロックインデックスbおよびφ’の積が180度の偶数の倍数である場合に、変調関数の結果は常に1であり、そうでない場合は−1である。これを知ると、整数のサブバンドの適応に関する数式4.12における関数を評価する必要はなく、単純な場合分けで十分である。以下が適用される。
【数62】
ここでは、以下の整数変調インデックスτを使用している。
【数63】
【0204】
ここで、X(b,τ:N−1)は、この場合にも、複素行列
【数64】
のb番目の列である。ただし、τで始まり最終要素Nまでのベクトル要素だけを用いることが異なる。このベクトル要素のクリッピングは、複素MDCT/MDSTスペクトルの上述のハイパスフィルタリングに対応する。
【0205】
変調の適用に関して、変調周波数は、f
lagに依存して、変調インデックスτおよび位相角φに変換される。最初に、周波数f
lagは標本化周波数f
sの半分に正規化される。その後、MDCT帯域φ
lagにおける同等な偏移が確立され、変調インデックスτおよび位相角φが以下のように計算される。
【数65】
【0206】
2つの方法を組み合わせることにより、可変パッチ比を実現することが可能である。ここでのパッチ比は、可能な最大信号周波数f
maxとベースバンドカットオフ周波数f
gとの比である。例えば2:1のパッチ比は、ベースバンドの単一のコピーが確立および変調されることを表す(
図2参照)。2:1より大きいパッチ比は、より低速レートまたは可変の転送速度により生じる。このような比は、CM−BWE(先の説明を参照)に類似し、ベースバンドを複数回コピーおよび変調することにより実現される。ここでも留意しておくべきことは、ここで必要とされるラグ周波数が、2.5:1のパッチ比に関して
図8に示すように、ベースバンドの各コピーでf
lagずつ増加させられることである。
【0207】
図8は、拡張されたHSBE−HF再構築の概略図を示す。
図8において、左図は、ベースバンドのコピーおよび偏移を示す。
図8において、右図は、スペクトル包絡線を適応した後のスペクトルを示す。
【0208】
続いて、生じているスプリアス成分を抑圧するための概念を以下で説明する。ここで説明する概念は、典型的には、
図3のフィルタ部330に適用される。
【0209】
MDCT領域におけるスペクトルの変調は、容易には行うことができない。逆MDCTにおける完全な再構築は、スペクトルの変調に起因して、もはや可能ではない。原因は、形成された時間領域のエイリアシング成分である。これらのスプリアス成分のエネルギーは、スペクトルの変調により再分散される。MDCTのTDAC特性はこのことにより乱され、もはや、逆変換によりこれらの成分を取り消すことはできない。この理由のために、逆MDCT後の変調信号を検討するときに、スプリアス成分がDFT絶対値周波数応答に見出される。φ=0度およびτ>0だけスペクトルを偏移するときに、これらのエイリアシング成分は、非常に低い振幅のみを表し、第1または最後のMDCT帯域に位置する。その場合、成分を削減する必要はない。偏移因子φ≠0度の場合、形成されるスプリアス成分の振幅は、顕著に大きくなる。その場合、これらは明確に聞こえる。結果として、これらの成分は処理される。
【0210】
図9は、φ=45度に関するエイリアシング成分を示す。y
refはオリジナルの正弦波音調であり、y
modはエイリアシング成分を含む変調された正弦波音調であり、説明のため、DCT−IVフィルタバンクを拡大して示す。
【0211】
特に、
図9は、φ=45度偏移した正弦波音調(y
mod)の絶対値の周波数応答を示す。オリジナルの正弦波音調(y
ref)の周波数は、12番目のMDCT帯域の中央に対応する。選択された位相角だけ高周波数に向かうMDCT帯域の帯域幅の1/4により、スペクトル全体が変調される。図に示すように、8個の支配的なエイリアシング成分が、それぞれ、12番目のMDCT帯域の上下それぞれ2番目の帯域ごとに位置している。エイリアシング成分のこの特性はいずれの信号に対して適用される。この理由は、各信号が、正弦振動および余弦振動の重み付けされた合計に分解されるからである(先を参照)。これらのサブ振動のそれぞれに関して、数式4.12にしたがって変調するときに、エイリアシング成分のこの特別なパターンが生じる。これを知ると、どのような信号からでも不要なスプリアス成分を無くすことのできる方法が開発される。したがって、これは、正弦波信号の変調により形成されるエイリアシング成分を解析および消去するのに十分である。
【0212】
続いて、アンチエイリアシングフィルタリングに関する概念を提供する。
【0213】
追加の信号部分が、TDAに関するブロックの時間的オーバーラッピングにより、周波数領域に形成される。これらは、周波数領域における偏移による逆変換において消去されないため、帯域幅拡張された信号のスペクトル中でスプリアス成分として存在する。MDCTでは、これらのスプリアス成分は、FFTスペクトル(
図9参照)においてピークとして認識でき、オーバーラップするMDCT帯域の幾つかにおける部分の合計により、DCT−IVフィルタバンクの約15dBだけの低ストップ帯域減衰により示される。したがって、高分解能DFTスペクトルにおけるスプリアス成分のエネルギーは、複数のMDCT帯域のエネルギーの合計とみなされる。
【0214】
この関係により、MDCT領域においてスプリアス成分を減少させるフィルタが提供される。フィルタは、フィルタ係数により重み付けされた周波数値のシーケンシャルな合計に基づく。中央にある周波数値によるフィルタの拡張は、スプリアス成分が消去される周波数領域を表す。全ての支配的なエイリアシング成分に関して、それを最小化するフィルタ係数が必要とされる。フィルタは、周波数偏移φに依存する。以下が適用される。
【数66】
【0215】
ここで、h(φ)は、ある位相角φに対する実アンチエイリアシングフィルタであり、X(b)は、複素MDCT/MDSTスペクトルである。ここでのフィルタリング(X
AntiAlias(b))後のスペクトルは、オリジナルスペクトルX(b)よりも長い。これは、スペクトルが、変換長Nに再度対応するために、スペクトルが切り抜かれなければならないことを意味する。フィルタが決定および減衰するスペクトルのこの部分は、除去される。したがって、複素MDCT/MDST領域における重畳の積の開始および終了の双方において、フィルタ長の半分による切り抜き(クリッピング)が行われる。
【0216】
図10では、φ=90度に関するアンチエイリアシングフィルタ(AAF)のフィルタインパルス応答について見ることができる。単一正弦波音調の例を使用すると、示したフィルタを使用して、7個の支配的なエイリアシング成分の合計を消去することができる。3個の成分は、正弦波音調の周波数を下回る。正弦波音調の周波数にこれらの位置を対応させる、3次までの成分であるこれらの成分は、フィルタ係数(フィルタタップ)0、2および4により処理される。フィルタタップ8、10、12および14は、正弦波音調を上回る周波数、すなわち、4次までの成分の周波数において、4個のスプリアス成分を消去する。一般的に、フィルタは15個の係数を含み、2番目ごとの値は全て0に等しい。これは、2番目ごとの帯域においてのみ生じるエイリアシング成分についての、先の観察に対応する。
【0217】
図10のフィルタ係数は整然とした順序となっている。この順序では、零ではないフィルタ係数に続く全てのフィルタ係数が、零値となっている。
【0218】
このようなフィルタ構造を使用して、どのような数のエイリアシング成分でも抑圧することが一般に可能である。4次までの成分を消去すれば十分である。これにより、少なくとも70dBの信号対雑音比を達成でき、これは、十分であると考えられる。加えて、高次のエイリアシング成分は、非常に大きい位相角φによってのみ目立つようになる。したがって、4次までの消去に対する制限は、エイリアシング消去に関して、達成可能なSNRと計算の複雑性との間の良好な妥協である。
【0219】
アンチエイリアシングフィルタの最適化を以下に論じる。
【0220】
説明するエイリアシング消去の重要な要素は、使用されるアンチエイリアシングフィルタである。達成可能な個々のスプリアス成分の振幅の削減は、決定的に、適切なフィルタ係数の選択に依存する。したがって、可能な限り最高の抑圧が保証されるように、これらのフィルタを最適化する必要がある。ここで信頼できる方法は、連続近似によるフィルタ係数の数値の最適化である。
【0221】
連続近似は、数値的な数学の反復的な方法であり、計算の問題をステップ単位で正確な解に近似するプロセスのことを指す。したがって、計算方法が繰り返し適用され、1つのステップの結果は、そのそれぞれの次のステップに関する開始値として使用される。結果のシーケンスは収束することになる。正確な解に関する許容誤差が最小であるときに、結果は、十分に正確な程度であると決定される(非特許文献9)。
【0222】
最適化プロセスの開始時に、解析信号は、数式4.12を使用して、ある位相角φにより変調される。解析信号は、先に引用された理由のために、正弦波音調である。音調の周波数は、理想的には、基礎となる標本化周波数の1/4である。この利点は、4次まで形成されるエイリアシング成分が、スペクトルのエッジに対して可能な限り最大の距離を表し、他のスプリアス成分と干渉しないことである。最適化の目的のために、32標本のMDCT変換長が理想である。次に続くのは、正弦波音調の周波数が、16番目のMDCT帯域の帯域中央に対応するということである。この変換長に対する制限は、複数の利点をもたらす。一方で、これは、MDCTの計算の複雑性の減少を可能にする。他方、4次までのエイリアシング成分が、互いに最大距離で、干渉せずに生成される。これは、必要な信号のピーク認識に対して特に有益である。信号のピーク認識は、高分解能DFTの絶対値の周波数応答において抑圧されることになるエイリアシング成分を自動的に検出する。
【0223】
解析信号の変調後に、エイリアシング成分は、交互に順次最適化される。これは、スプリアス成分が互いに影響することから、必要となる。ここで、次数は、最も弱い4次の成分から、最も支配的な1次の成分までである。これは、1次のエイリアシング成分が、可能な限り最大の減衰を受けることを保証する。直接成分、すなわち、エイリアシング成分が計算されることになるスペクトル値に関して、フィルタは「1」に設定される。この値は、最適化の間変更されない。
【0224】
示した連続近似の原則にしたがって、実際の数値の最適化が行われる。このため、開始値は、最適化されるフィルタ係数に割り振られ、他の全ての係数は、直接的な成分を除いて、零のままである。その後、複素MDCT/MDSTスペクトルは、このフィルタを使用して折り畳まれ、絶対値の周波数応答は、それぞれのスプリアス成分の減少に関して検査される。この場合であれば、フィルタ係数は、ステップサイズ設定に対応して増加させられる。この検査および増加方法は、このエイリアシング成分のさらに強い抑圧がもはや可能でなくなるまで繰り返される。その後、以降のフィルタ係数が同じ方法で処理され、既に最適化されたフィルタ係数は保持される。
【0225】
エイリアシング成分の相互の影響により、実用的には、このプロセスは複数回反復される。フィルタ係数を増加させるステップサイズは、各反復のたびに減少する。これは、最適化フィルタの品質が各回ごとに増加することを意味する。位相角ごとにそれぞれ1つのフィルタからなる最適化フィルタセットのために、3回の反復で十分であることが示される。これにより、エイリアシング成分を<−90dBに減少させることが可能になる。
【0226】
図11は、φ=90度に対する、アンチエイリアシングフィルタリングの正弦波信号への影響を示す。X
Aliasは、φ=90度により変調された正弦波信号であり、X
AntiAliasは、抑圧されたスプリアス成分を含むフィルタリングされた信号である。
【0227】
図11は特に、絶対値周波数応答における、φ=90度で変調された正弦波信号へのアンチエイリアシングフィルタリングの影響を示す。X
Aliasは、変調信号のスペクトルであり、X
AntiAliasは、対応する位相角に対して最適化フィルタを使用して折り畳まれた変調信号のスペクトルである。「ピーク認識」により特徴づけられるスペクトルのピークは、信号ピーク認識により検出されるエイリアシング成分であり、直接成分(左から4番目のピーク認識)を含んでいる。この例では、フィルタの数値の最適化は、スプリアス成分を、平均して−103dBに削減する。
【0228】
値の範囲にある各位相角に対するフィルタの設定は、1回確立すれば十分である。この場合、信号のフィルタリングのために、必要とされるフィルタをデータベースからロードしてもよい。
【0229】
典型的には、フィルタのフィルタ係数を、位相角に依存して周波数偏移したオーディオ信号を生成する装置のデータベースまたは記憶装置から読み出すことができる。
【0230】
図12は、バタフライ構造を示す。重みは、連続近似により決定される。したがって、
図12は、サブバンドX
4に対するエイリアシング減少を示す(黒線)。同じ方法が、全ての修正されたサブバンドに対して、相応に行われることになる。X
4の変調により引き起こされるエイリアシング成分を削減するため、X
4は重みw
0〜w
4が乗算され、サブバンド信号X
0、X
2、X
4、X
6およびX
8に加算されることになる。重みw
2は常に「1」に等しいことに留意しなければならない。
【0231】
逆に、これは、サブバンドのうちの1つのフィルタリングされたサブバンド値を生成させるために、このサブバンドのフィルタリングされていないサブバンド値およびさらなる加数の合計が形成されなければならない(このサブバンドのフィルタリングされていないサブバンド値に適用される重み/フィルタ係数w
2は、w
2=1である)ことを意味する。さらなる加数は重み付けされたサブバンド値であり、すなわち、他の重み/フィルタ係数により乗算されている/重み付けされている他のサブバンドのそれぞれの1つのサブバンド値である。
【0232】
スペクトル包絡線の再構築を以下に論じる。
【0233】
スペクトル包絡線の再構築は、LPCフィルタリングを使用して行われる。ここで、信号の音調部分は、エンコーダにおいて線形予測フィルタにより除去され、LPC係数として個別に送信される。これに必要とされるフィルタ係数は、レビンソン−ダービン再帰法を使用して計算される(非特許文献11)。結果として、デコーダにおけるベースバンドが、白色スペクトル特性を得る。HSBEによる帯域幅拡張後に、LPC係数を使用する逆フィルタリングが行われ、オリジナルのスペクトル包絡線が、信号上に再度印加される。
【0234】
図13は、HSBE−LPC包絡線適応を示す。ここで、Xは包絡線適応前のBWE信号を表す。X
iLPCは、包絡線適応後のBWE信号である。
【0235】
図13は特に、HSBEを使用する、帯域幅拡張された信号のDFTの絶対値の周波数応答を示す。スペクトル包絡線の再構築前に、信号Xは、上述した白色信号特性を含む。逆LPCフィルタリングによる包絡線の適応後は、包絡線が、オリジナルのスペクトル特性に対応する。さらに、
図13は、使用されるLPCフィルタの伝達関数を示す。スペクトル包絡線の十分に正確な記述のために、いくつかのフィルタ係数で既に十分であり、この例では、14個のLPCフィルタタップが使用される。包絡線の再構築は、HSBEの標準コンポーネントではなく、別の方法により置換されてもよい。
【0236】
提供される概念について、ここで評価する。ここでの評価は、高調波スペクトル帯域拡張の新規の方法とCM−BWEによる帯域幅拡張との間の比較と、可能性および制限に関するHSBEの効率性ならびにアルゴリズム的な計算の複雑性の検査との双方を意味する。
【0237】
スペクトル帯域複製方法の比較を最初に提示する。
【0238】
連続単一側波帯変調による帯域幅拡張は、時間領域方法である。これは、この方法を適用するために、時間信号が常に必要であることを意味する。帯域幅拡張後に、包絡線および調性の適応が行われ、それぞれがスペクトル領域において信号を必要とすることから、CM−BWE方法を適用するときに、帯域幅拡張された信号を変換して周波数領域に戻されなければならない。この時間領域への変換および周波数領域への逆変換は、MDCT/MDST領域において行われていることから、高調波スペクトル帯域拡張では省略できる。
【0239】
さらに、連続的な単一側波帯変調の適用前に、時間信号が解析信号に変換されることになる。必要とされる解析信号の計算は、ヒルベルト変換器を使用して実現されることから、確率的である。ヒルベルト変換の理想的な変換関数は、正弦関数である。この関数は、無限長のフィルタによってのみ時間領域で表現できる。有限インパルス応答の実現可能なフィルタを使用するときには、理想的なヒルベルト変換器は近似されるだけである。さらに、信号は、近似ヒルベルト変換後に完全な解析特性を持たない。したがって、計算される擬似解析信号の品質は、使用されるフィルタの長さに依存する。
【0240】
高調波スペクトル帯域拡張の適用は、追加の変換も必要とする。周波数領域においてHSBEが動作することから、位相変調の計算に複素スペクトルが必要とされる。しかし、帯域幅拡張の適用前に、MDCT係数しかデコーダ構造中に存在しない。したがって、複素スペクトルを得るため、そして必要な位相情報を得るためには、MDCT係数をMDST領域に変換しなければならない。これは、典型的には、逆MDCT変換およびそれに続くMDST変換を簡潔化して形成された行列乗算を使用して実現されることが、ここでは考えられる。既に示してきたように、これに対して必要とされる計算の複雑性は、MDST係数の正確な計算が行われるにもかかわらず、極度に最小化される。
【0241】
CM−BWEおよびHSBEを適用後の絶対値周波数応答の概略的な設定を検討するときに、見ての通り、CM−BWEにおけるスペクトルの一部が白色雑音で満たされなければならない。個々の高調波サブ音調をここでは複製できないことから、この部分の高調波構造は失われる。この問題は、HSBEを適用するときには生じない。高調波構造は、ギャップなく連続する。
【0242】
高調波スペクトル帯域拡張の複雑性を以下で検討する。
【0243】
新規の高調波スペクトル帯域拡張の効率性は、計算の複雑性および必要なメモリスペースに依存する。これらの要因の検討を、プログラミング言語Cでのアルゴリズムの実装に基づいて行う。アルゴリズムの実現において、最も強調されるのは、計算ステップ数の最小化である。しかし、MDCT係数のMDSTスペクトル値への変換およびアンチエイリアシングフィルタリングは、計算が最も複雑なステップに含まれる。スペクトルの高調波的に正しい複製を形成する変調は、変調インデックスτによる偏移がコピープロセスのみに対応し、角度φの位相回転はスペクトル値ごとの複素数乗算に還元されることから、比較的容易である。スペクトル包絡線の適応はここでは考慮に入れない。これは、評価の目的のために重要なHSBE方法の一部ではないことから、アルゴリズム的には実現されない。
【0244】
アンチエイリアシングフィルタリングにおいて行われる加算(ADD)、乗算(MULT)および乗累算(MAC)命令などの関連する命令は全て、評価において考慮される。表1は、スペクトルの変調およびフィルタリングに対する結果の概要である。これらは、対応するアルゴリズムが実現される関数であるlocal_HSBEpatching()として参照される。
【表1】
【0245】
表1は、表中で、HSBE変調およびアンチエイリアシングフィルタリングの複雑性を示す。リストには、変換長Nに依存する関連する演算の数を含む。N=2048のスペクトルの変調には合計10241の演算が必要とされ、その内訳は、2N個の加算と3N個の乗算である。必要とされるエイリアシング消去は、さらに複雑である。ここでは16384個のMAC演算が行われる。これは、変換長により乗算されるアンチエイリアシングフィルタの非零の要素の数に対応し、この場合は、8Nである(先のアンチエイリアシングフィルタリングに関連する説明を参照)。この結果のため、複雑性
【数67】
を有する線形のコンテキストが、変調およびAAFの複雑性の計算に対して得られる。
【0246】
図14は、このコンテキストの視覚的な例示である。ここで、
図14は、HSBE変調およびアンチエイリアシングフィルタリングの複雑性を示す。
【0247】
高調波スペクトル帯域拡張の中心的な要素は、MDCTおよびMDSTによる信号の変換である。高速フーリエ変換と同様に、これらの変換に対しても、高速アルゴリズムが使用される。基礎となる高速DCT−IVの構造を以下でさらに論じる。評価の結果は、上述した多相アプローチにしたがった、高速MDCT/MDSTが実装された関数fmdcst1d()に関連する。MDCTおよびMDSTの解析を表2にまとめる。
【表2】
【0248】
これらの結果を評価するときに、合計がおよそ9・Nlog
2Nの演算が、MDCT/MDSTの計算に必要とされることが理解できる。さらに逆変換においてN個の乗算が行われる。この理由は、変換に必要とされるスケーリングがここで行われるからである。対応する評価を表3にまとめる。
【表3】
【0249】
この結果、順方向の変換および逆変換に対して、複雑性は
【数68】
となる。したがって、予想されるように、実現されるアルゴリズムは、高速変換に対する要件を満たす。この評価の結果を
図15に示す。
【0250】
図15は、高速MDCT/MDSTの複雑性を示す。複素MDCT/MDST領域から時間領域への信号の変換のために、2個の逆変換が計算されなければならないことに留意しなければならない。必要とされる演算の数は2倍になる。
【0251】
MDCT係数のMDSTスペクトル値への正確な変換は、HSBEにおける計算が最も複雑なプロセスである。1つのブロックの一定の遅延がここに形成されるだけでなく、最長の計算時間も必要になる。導入された方法により、必要とされる複雑性が減少されるときでさえ、表4にまとめたように、これは、結果として、最大数の演算となる。
【表4】
【0252】
完全に満たされた密行列であるH
0およびH
2の双方のスペクトルベクトルへの乗算のため、合計N
2個の乗算およびN(N−1)個の加算がそれぞれ必要とされる。疎行列H
1は、2N個の乗算およびN個の加算がここで行われなければならないような効率的な実現を可能にする。MDCT値のMDST係数への正確な変換に関して、合計4N
2+N個の加算および乗算が計算される。実現されるアルゴリズムの複雑性に関して、変換長への自乗の依存がある。これは、
【数69】
により表される。簡潔化された方法は、およそ2σ+1/Nの割合だけ少ない演算を必要とする。
図16において、対応するコンテキストを例示する。ここで、
図16は、MDCT/MDST変換の複雑性を示す。
【0253】
アルゴリズムの複雑性とは別に、メモリ利用は、効率性を考えるときに重要な役割を果たす。オーディオデコーダが実装される端末装置に依存して、非常に限られた量の記憶装置のみが利用可能である。したがって、主記憶装置の利用を可能な限り低く保つ必要がある。表5は、使用されるリソースについてリスト作成する。「モジュール」欄の記載は、同名のCソースファイルを指す。信号ベクトルおよび行列を記憶および処理するのに必要とされる最も重要なバッファのみをここでは考慮する。
【表5】
カッコ内の情報は、MDCT/MDST変換の簡潔化された計算を示す。
【0254】
高調波スペクトル帯域拡張の実装は、単精度浮動小数点算術に基づいており、これは、浮動小数点数が32ビットで表されることを意味する。表5において示されている数は、このモジュールにおいて必要とされる浮動小数点数の個数に関連する。表から推測できるように、実際のHSBEアルゴリズムのためのメモリの利用は、変調、エイリアシング消去およびMDCT/MDSTに対しておよそ109KBと、比較的小さい。アンチエイリアシングフィルタに対するデータベースもまた、ルックアップテーブルとして記憶され、合計数2715のフィルタ係数に対してほぼ11KBを必要とする。メモリスペース要件に関する明白な影響があるのは、変換行列H
0である。この行列のために、およそ16MBの作業メモリが使用される。行列H
0のメモリ要件は、先に提示したMDCT/MDST変換の簡潔化により大幅に減少される。σ=「0.1・N」をとる例に関して、約0.8KBの作業メモリのみがここでは消費される。
【0255】
提示された技術を使用すると、ここで提供される高調波スペクトル帯域拡張による帯域幅拡張により、スペクトルの高調波的に正しい拡張が可能になる。その後、提供される概念の可能性および限界を論じる。
【0256】
一般に、異なる長さの信号が処理される。しかし、実現される高速MDCT/MDSTを計算するために、変換長Nが正の整数の2乗であることが絶対に必要である。可能性のある最大ブロック長は、AACと同様に、2
11、すなわち、2048に制限される。HSBEの場合、ランタイム中にブロック長を変化させることも可能である。これは、現代のオーディオエンコーダにおける過渡処理に対しては特に必要である。ブロック長により信号対雑音比SNRが明白に決定される。最大変換長は、結果として、非常に短いブロック長よりも良好な結果となる傾向がある。これは、変調により生じるエイリアシング成分により引き起こされる。4次までのスプリアス成分はアンチエイリアシングフィルタリングにより抑圧されるが、それでもなお、何らかの不要成分が依然として信号中に残る。非常に短いブロック長の場合に、これらのエイリアシング成分は、大きな帯域幅にわたって拡張し、明確に聞こえる。大きな変換長の場合、帯域幅は、これに対応して小さくなり、エイリアシング成分はマスクされる。256のブロック長は、異なる試行では極限となることが分かっている。
図17に示すように、この長さ以降、アーティファクトはほとんど知覚されない。
【0257】
図17は、変換長に依存して、HSBEに残っている干渉を示す。
図17において、左図は、N=32およびφ=90による逆MDCT後のスペクトルを示す。
図17において、右図は、N=256およびφ=90による逆MDCT後のスペクトルを示す。
【0258】
ここに示されるのは、位相角φにより変調された正弦信号の絶対値の周波数応答である。明確に認識できるように、小さなブロックサイズ(
図17の左)では、エイリアシング消去後に明確なスプリアス成分がある。これらは、およそ−70dBの範囲にあり、SNRに対して明白である。256より大きいブロックサイズでは(
図17の右)、これらの部分は有効な信号によりマスクされる。
【0259】
一般的に、高調波スペクトル帯域拡張は、信号の高調波構造の非常に正確な再構築をもたらす。2156の変換長およびCDの標準規格である44100Hzに対応するオーディオデータに対する標本化周波数に関して、開発された方法の分解能は、およそ0.5Hzの範囲にある。これは、スペクトルが、1ヘルツの半分の正確さにより変調できることを意味する。より小さな標本化周波数またはより大きなブロック長の場合、分解能は増加し、変調はさらに正確な範囲で行わる。HSBEをマルチ正弦信号に適用した結果を
図18に示す。
【0260】
図18は、HSBEとSBRとの比較を示す。REF freq.resp.は、オリジナルのマルチ正弦波信号のスペクトルを指す。SBR freq.resp.は、SBRにより拡張された信号の帯域幅を指す。HSBE freq.resp.は、HSBEにより拡張された信号の帯域幅を指す。
【0261】
示した絶対値の周波数応答において認識できるように、スペクトルは、開発されたHSBE方法を使用して正確に再構築される。HSBE(HSBE freq.resp.)を使用して、帯域制限された信号を処理した後に、スペクトルはオリジナルのスペクトル(REF freq.resp.)を正確に上回る。高調波的に適応されていない対応するスペクトル(SBR freq.resp.)を、比較のために示す。この信号は、HSBEアルゴリズムを使用して計算されるが、基礎となるラグ周波数は零である。これは、SBR方法に基本的に対応する帯域幅拡張の原因となる。カットオフ周波数f
g=6400Hzにおける高調波構造を偏移し、この周波数を2倍にすることが、ここでは明確に理解される。
【0263】
最初にDFTのDCT−IIへの変換が導出される。特に、DCT−IIは、数式2.12を使用して、数式2.10におけるDFTから導出される(非特許文献19も参照)。以下が適用される。
【数70】
ここで、
【数71】
であり、正弦関数および余弦関数の特性は以下の通りである。
【数72】
【0264】
FFTを使用してDCTを効率的に計算するために、この関連性も使用される(非特許文献1も参照)。
【0266】
MDCTの計算に必要とされる畳み込み行列F
aおよびF
s(数式2.35参照)は、遅延行列Dおよび窓行列Fから構成される。窓行列は、ダイヤモンド構造で配置された、窓関数w[n]の係数を含む。以下が適用される。
【数73】
【数74】
ここで、
【数75】
および、
【数76】
である。
【0267】
因果性を保つために、逆遅延行列D
−1に遅延z
−1が乗算されている。これは、MDCTフィルタバンクの遅延の元である(非特許文献20)。
【0268】
変換行列H
変換行列Hは、MDCTスペクトルをそれぞれのMDSTスペクトルに変換するのに必要とされる。以下が適用される。
【数77】
【0269】
N=4の例を使用して、詳細な分解を示す。
【数78】
【数79】
【数80】
【0270】
遅延要素z
−1の行列は、2つの行列のそれぞれの加算として表現される。結果は以下のようになる。
【数81】
【0271】
この分解および行列を使用して、数式A.8は、以下のように表される。
【数82】
【0272】
その後、数式の個々の項は、これらのzへの依存性を使用して置換される。
【数83】
【0273】
そして、数式A.11aに挿入される。
【数84】
【0274】
結果は、数式4.7からの簡潔化された表記法となる。
【数85】
【0275】
三つのサブ行列およびの数値解析は、行列の計算の複雑性の顕著な削減に寄与するいくつかの重要な理解をもたらす。最初に注意すべきことは、が、疎行列であることである。これは、異なる変換長Nに対する同じ形を常に表し、要素0.5および−0.5を排他的に含む。以下が適用される。
【数86】
【0276】
行列H
0とH
2との間に直接的な関連性があり、結果として以下のようになる。
【数87】
ここで、
【数88】
である。
【0277】
ここで、Π
Nは、左から乗算すると行の次数が逆転し、右から乗算すると列の次数が逆転するN×Nの行列である。したがって、数式A.16は、行列H
0の値を第二の対角線に対して鏡映すると解釈される。これらの特性を使用して、行列Hを計算するのに必要とされる複雑性は、本来必要とされる4N
3演算(数式A.11dも参照)から、その1/4に削減される。
【0278】
高速DCT−IVを以下に論じる。DCT−IVの実現は、高速DCT−IVのアルゴリズムに依存する。この実現の利点は、変換および変換に関連するアルゴリズム的な短い遅延の効率的な計算である。DCT−IVの核心部は、数式2.14cにしたがった、並列に接続された2つのDCT−III変換である。FFTと同様に、これは、いわゆるバタフライ構造およびパイプライン構造から構成される(非特許文献19)。このアルゴリズムの複雑性は、
【数89】
であり、FFTの必要とされる計算の複雑性と同等である。DCT−IIIの特有の設定を
図19に示す。特に、
図19は、高速ユニバーサルDCT−III/DST−III構造を示す(非特許文献19)。
【0279】
入力シーケンスx
nは、DCT−IIスペクトル値x
IInに変換される。DCT−IIIはDCT−IIへの逆変換を表すことから、2つの変換は、この構造を使用して計算される。DCT−III/DST−IIIおよびそれぞれの逆変換であるDCT−IIおよびDST−IIを計算するためのこの一般構造は、数式2.14dにしたがって、DCT−IVの基礎を形成する。
図20は、実現されるDCT−IVのセットアップを示す。したがって、
図20は、高速DCT−IV構造を示す(非特許文献19)。
【0280】
この構造は、典型的にはプログラミング言語Cで実現される。対応する関数は、一般DCT−III/DST−III(DST−II/DST−II)に対してはdct_processor()であり、高速DCT−IV/DST−IVに対してはfdcstiv1d()である。アルゴリズムの性能はここでは重要でないため、この変換の高速バリエーションはMatlabでは実現されない。
【0281】
以下のセクションは、Matlab関数およびプログラミング言語Cの関数を説明するものである。
【0282】
Matlab 関数:
decoder_hsbe()
説明:
decoder_hsbe()は、高調波スペクトルバンド拡張(HSBE)のためのデコーダである。ここでのMDCTドメインにおけるローパス信号は、信号の高調波構造が保持されるようにスペクトル的に拡張される。包絡線を再構築するために逆LPCフィルタリングが実行される。信号は逆MDCTにより時間ドメインに変換される。
プロトタイプ:
[y varargout]=decoder_hsbe(X_core,T_idct,G,sideinfo,...
aaf_dat,b_noisefill,b_useMDST);
出力:
y 再構築された時間信号
varargout(1) 包絡線適応前の拡張されたMDCTスペクトル
varargout(2) 包絡線適応前の拡張されたMDSTスペクトル
varargout(3) 包絡線適応前の複素数スペクトル
入力:
X_core MDCT領域における信号のベースバンド
T_idct 逆DCT−IV変換行列
G ダイヤモンド形でのiMDCTに対する逆畳み込み行列
sideinfo 副情報
aaf_dat アンチエイリアシングフィルタ係数を有するデータベース
オプション:
b_noisefill ブーリアン、雑音が追加されたか否かを示す
標準:偽
b_useMDST ブーリアン、あらかじめ計算されたMDSTが使用されることになるか否かを示す。真の場合、X_coreは複素数となる必要がある
標準:偽
【0283】
AAFCreator.m
説明:
アンチエイリアシングフィルタ(AAF)FIRフィルタ作成ツールである「AAFCreator」:AAF FIRフィルタ作成ツールは、HSBEアルゴリズムのサブバンドシフトによるエイリアシング消去のために必要とされるアンチエイリアシングフィルタを計算する。フィルタは、データベース中のFIRフィルタである。データベースは、.matファイルとして記憶され、1次元構造体を含む。データベース中の全アイテムは、FIRフィルタが使用されることになる角度の表示およびベクトルとしてのフィルタ係数を含む。
プロトタイプ:
Matlab script,no functional name.
出力:
.bmp AAFインパルス応答によるビットマップおよびエイリアシング消去の結果
.mat MATファイルフォーマットでのAAFフィルタを有するデータベース
.wav RIFFオーディオファイルとしてのAAF インパルス応答
入力:
fs テスト信号のサンプリング周波数
NMDCT 変換長N
sig_typ テスト信号タイプ
f テスト信号の周波数
t テスト信号の連続時間
phi 位相角φ、可能な複数の角度
num_opt 最適化パスの数
num_alias 抑制される最高次のエイリアシング成分
b_save_wav ブーリアン、.wavファイルが記憶されるか否かを示す
b_save_bmp ブーリアン、.bmpファイルが記憶されるか否かを示す
b_break ブーリアン、中間結果によりbreakが行われるか否かを示す
path_bmp .bmpファイルに対するパス
path_wav .wavファイルに対するパス
【0284】
AAFoptimizer()
説明:
AAFoptimizer()は、FIRフィルタとしてアンチエリアシングフィルタ(AAF)を発生させる。アルゴリズムは、連続近似による数値的なピーク認識により検出されるエイリアシング成分を最適化する。
プロトタイプ:
[fir x_antialias]=AAFoptimizer(x,X_cmpx,T_imdct,...T_imdst,varargin);
出力:
fir時間ドメインにおけるアンチエイリアシングフィルタのフィルタインパルス応答
x_antialias FIRによるエイリアシングフリーの入力信号x
入力:
X エイリアシング成分を提供された時間信号
X_cmpx MDCT/MDST領域におけるxの複素数表現
T_imdct 逆MDCT行列
T_imdst 逆MDST行列
オプション:
varargin(1) 抑制される最高次のエイリアシング成分
標準:4
varargin(2) 最適化パスの数;標準:3
varargin(3) 位相角φを使用してxが変調されている位相角φ;標準:0
varargin(4) ブーリアン、プロットが確立されるか否かを示す
標準:偽
varargin(5) ブーリアン、確立されたプロットが記憶されるか否かを示す
標準:偽
varargin(6) .bmpファイルに対するパス
標準:0
【0285】
C関数
HSBE processing()
説明:
HSBE processing()は、HSBEによる帯域幅拡張に対して確立される静的ライブラリhsbe.libに対するメインインターフェースである。現在のバージョン1.0では、時間ドメインの信号部分はMDCT/MDSTを使用して変換され、高調波構造が保持されるようにスペクトル的に拡張される。複素帯域幅拡張信号は時間ドメインおよび出力に再変換される。Matlab関数であるdecoder_hsbe()において行われるような包絡線の再構築は、行われない。
プロトタイプ:
HSBE_RESULT HSBEprocessing(HSBE_HANDLE HSBEhandle,...
float *pSamplesIn,float *pSamplesOut,...
unsigned short nSamplesIn,float frequencyOffset);
出力:
HSBE_RESULT エラーコード
pSamplesOut 帯域幅拡張時間信号のベクトルに対するポインタ
入力:
HSBEhandle HSBEハンドル構造体
pSamplesIn 入力信号のベクトルに対するポインタ
nSamplesIn 変換長N
frequencyOffset正規化された周波数としてのラグ周波数f
lag
【0286】
HSBEinit()
説明:
HSBEinit()は、HSBEを初期化するための関数である。ここでは、必要とされる作業メモリが予約され、窓関数が計算され、MDCT/MDST変換行列
が計算される。加えて、HSBE processing()に必要とされる全パラメータがハンドルに導入される。
プロトタイプ:
HSBE_RESULT HSBEinit(HSBE_HANDLE *HSBEhandle,...
unsigned short nSamplesIn,float f_core,float f_hsbe,...
unsigned char windowtype,char flags);
出力:
HSBE_RESULT エラーコード
HSBEhandle HSBEハンドル構造体に対するポインタ
入力:
HSBEhandle HSBEハンドル構造体に対するポインタ
nSamplesIn 変換長N
f_core 正規化された周波数としてのベースバンドのカットオフ周波数f
g
f_hsbe 正規化された周波数として再構築されることになる最大周波数
windowtype 使用されることになる窓関数のタイプ
flags チェックフラグ
【0287】
HSBEfree()
説明:
HSBE free()は、HSBEinit()により求められたリソースを解放する。
プロトタイプ:
HSBE_RESULT HSBEfree(HSBE_HANDLE*HSBEhandle);
出力:
HSBE_RESULT エラーコード
HSBEhandle HSBEハンドル構造体に対するポインタ
入力:
HSBEhandle HSBEハンドル構造体に対するポインタ
【0288】
装置に関連していくつかの態様を説明してきたが、これらの態様は対応する方法の説明も表すことを理解すべきであり、それにより、装置のブロックまたは要素も対応する方法のステップまたは方法のステップの特徴であると理解すべきである。同様に、方法のステップに関連して、または、方法のステップとして説明してきた態様は、対応するブロックの説明あるいは対応する装置の詳細または特性も表す。方法のステップのうちのいくつかまたは全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のような、ハードウェア装置により(またはハードウェア装置を使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいくつかまたは複数は、このような装置により実行されてもよい。
【0289】
特有の実現要件に依存して、発明の実施形態は、ハードウェアまたはソフトウェアのいずれかにおいて実現されてもよい。実現は、例えば、フレキシブルディスク、DVD、ブルーレイディスク(登録商標)、CD、ROM、PROM、EPROM、EEPROM(登録商標)またはフラッシュメモリ、あるいは、ハードディスクのような、デジタル記憶媒体、あるいは、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムとともに協働することができる電子的に読取可能な制御信号が記憶されている、別の磁気記憶媒体または光記憶媒体を使用して実行されてもよい。したがって、デジタル記憶媒体は、コンピュータ読取可能である。
【0290】
発明に係るいくつかの実施形態は、ここで説明した方法のうちの1つが実行されるような、プログラム可能なコンピュータシステムと協働することができる電子的に読取可能な制御信号を含むデータ担体を含む。
【0291】
一般に、本発明の実施形態は、プログラムコードを含むコンピュータプログラム製品として実現されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法のうちの1つを実行するのに有効である。
【0292】
プログラムコードは、典型的には、機械読取可能担体に記憶される。
【0293】
他の実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムを含み、コンピュータプログラムは、機械読取可能キャリアに記憶される。言い換えると、方法の発明の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書で説明した方法のうちの1つを実行するためのプログラムコードを含むコンピュータプログラムである。
【0294】
したがって、方法の発明の別の実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムが記録されているデータキャリア(またはデジタル記憶媒体またはコンピュータ読取可能媒体)である。
【0295】
したがって、方法の発明の別の実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムを表現する信号のデータストリームまたはシーケンスである。信号のデータストリームまたはシーケンスは、例えば、インターネットのような、データ通信リンクを通じて伝送されるように構成されていてもよい。
【0296】
別の実施形態は、例えば、本明細書で説明した方法のうちの1つを実行するように構成または適合されたコンピュータまたはプログラム可能な論理装置のような、処理手段を含む。
【0297】
別の実施形態は、本明細書で説明した方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0298】
本発明に係る別の実施形態は、本明細書で説明した方法のうちの少なくとも1つを実行するためのコンピュータプログラムを受信機に送信するように構成されている装置またはシステムを含む。送信は、典型的には、電子的または光により行われる。受信機は、典型的には、コンピュータ、モバイル装置、メモリ装置またはこれらに類するものである。装置またはシステムは、典型的には、コンピュータプログラムを受信機に送信するためのファイルサーバを含む。
【0299】
いくつかの実施形態では、例示的に、本明細書で説明した方法の機能性のうちのいくつかまたは全てを実行するために、プログラム可能な論理装置(フィールドプログラム可能なゲートアレイ(FPGA))が使用されてもよい。いくつかの実施形態では、フィールドプログラム可能なゲートアレイは、本明細書で説明した方法のうちの少なくとも1つを実行するようにマイクロプロセッサと協働してもよい。一般に、いくつかの実施形態では、方法は、任意のハードウェア装置の一部で実行される。これは、コンピュータプロセッサ(CPU)のような、一般的に用いることができるハードウェア、または、例えば、ASICのような、方法に特有のハードウェアであってもよい。
【0300】
先に説明した実施形態は、本発明の原則の例示のみを表す。本明細書で説明した構成および特徴の修正および変形は当業者にとって明らかであろうことが理解されるべきである。そのため、発明は、以下の特許請求の範囲によってのみ限定されるが、実施形態の説明および議論を使用して本明細書で提示してきた特有の詳細によっては限定されないことを意図している。
【0301】
以上で使用した略語の意味を、以下に示す。
AAC 高度オーディオ符号化
AAF アンチエイリアシングフィルタ
ac−3 ドルビーデジタル適応変換コーダ3
BWE 帯域幅拡張
CD コンパクトディスク
CM−BWE 連続的に修正される帯域幅拡張
DCT 離散余弦波変換
DFT 離散フーリエ変換
DST 離散正弦波変換
DVD デジタル多用途ディスク
FFT 高速フーリエ変換
FIR 有限インパルス応答
HBE 高調波帯域幅拡張
HE−AAC MPEG−4高効率高度オーディオ符号化
HF 高周波数
HSBE 高調波スペクトル帯域幅拡張
JPEG ジョイント・フォトグラフィック・エキスパート・グループ
KiB キビバイト 2
10バイト=1024バイト
LOT ラップド直交変換
LPC 線形予測コーディング
LTI 線形時不変
MDCT 修正離散余弦波変換
MDST 修正離散正弦波変換
MiB メビバイト=2
20バイト=1048576バイト
mp3 MPEG−1 オーディオレイヤIII
PC パーソナルコンピュータ
PCM パルスコード変調
PR 完全再構築
QMF 直交ミラーフィルタ
SBR スペクトル帯域複製
SNR 信号対雑音比
TDA 時間ドメインエリアシング
TDAC 時間ドメインエリアシング消去
USAC 統合音声音オーディオコーディング
VoIP ボイス・オーバー・インターネット・プロトコル
【0302】
以上で使用したシンボルの意味を表6および表7に示す。
【表6】
【表7】
【国際調査報告】