【文献】
江原宏幸他,"高能率符号励振線形予測符号化と帯域選択型変形離散余弦変換符号化を用いた32kbit/sスケーラブル広帯域音声・オーディオ符号化方式の開発",日本音響学会誌,2008年 4月,64巻,4号,pp.196-207
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0021】
上述の目的、特徴、及び長所は、添付した図面を参照して詳しく後述され、これにより、本発明の属する技術分野における通常の知識を有した者が本発明の技術的思想を容易に実施できるであろう。本発明を説明するにおいて本発明と関連した公知技術に対する具体的な説明が本発明の要旨を不明にすると判断される場合には、その詳細な説明を省略する。以下、添付された図面を参照して、本発明に係る好ましい実施形態を詳細に説明する。図面において、同じ参照符号は、同一または類似した構成要素を示すものとして使用される。
【0022】
図1は、狭帯域コーデックとの互換性を提供する超広帯域拡張コーデックの構造を示す。
【0023】
一般的に、拡張コーデックは、入力信号を複数個の周波数帯域に分けた後、各周波数帯域の信号を符号化または復号化する構造を有する。
図1に示すように、入力された信号は、1次低帯域通過フィルタ102及び1次高帯域通過フィルタ104に入力される。1次低帯域通過フィルタ102は、フィルタリング及びダウンサンプリングを行って入力信号のうち、低帯域信号A(0−8kHz)を出力する。そして、1次高帯域通過フィルタ104は、フィルタリング及びダウンサンプリングを行って入力信号のうち、高帯域信号B(8−16kHz)を出力する。
【0024】
1次低帯域通過フィルタ102から出力された低帯域信号Aは、2次低帯域通過フィルタ106及び2次高帯域通過フィルタ108に入力される。2次低帯域通過フィルタ106は、フィルタリング及びダウンサンプリングを行って低−低帯域信号A1(0−4kHz)を出力し、2次高帯域通過フィルタ108は、フィルタリング及びダウンサンプリングを行って低−高帯域信号A2(4−8kHz)を出力する。
【0025】
つまり、低−低帯域信号A1は狭帯域コーディングモジュール110に、低−高帯域信号A2は広帯域拡張コーディングモジュール112に、高帯域信号Bは超広帯域拡張コーディングモジュール114に各々入力される。もし、狭帯域コーディングモジュール110のみ動作する場合には、狭帯域信号のみが再生され、狭帯域コーディングモジュール110と広帯域拡張コーディングモジュール112とが動作する場合には、広帯域信号が再生される。そして、狭帯域コーディングモジュール110、広帯域拡張コーディングモジュール112、及び超広帯域拡張コーディングモジュール114が動作すれば、超広帯域信号が再生される。
【0026】
図1に示された拡張コーデックの代表的な例としてITU−T G.729.1を挙げることができる。ITU−T G.729.1は、狭帯域コーデックであるG.729を基盤とする広帯域拡張コーデックである。このコーデックは、8kbit/sでG.729とビットストリームレベルとの互換性を提供し、12kbit/sでは、より向上した品質の狭帯域信号を提供する。そして、14kbit/sから32kbit/sまででは、2kbit/sのビット率拡張性を有して広帯域信号を再生するが、ビット率の増加に応じて出力信号の品質も良くなる。
【0027】
最近では、G.729.1を基盤として超広帯域品質を提供できる拡張コーデックが開発中である。この拡張コーデックは、狭帯域、広帯域、そして、超広帯域信号を符号化及び復号化することができる。
【0028】
このような拡張コーデックでは、
図1のように、周波数帯域別に異なるコーディング方式を適用することができる。例えば、G.729.1とG.711.1コーデックは、狭帯域信号を既存の狭帯域コーデックであるG.729とG.711でコーディングし、残りの信号に対しては、MDCT(Modified Discrete Cosine Transform)を行って、出力されたMDCT係数をコーディングする方式を使用する。
【0029】
MDCT領域コーディングでは、MDCT係数を複数個のサブ帯域に分けて、各サブ帯域のゲイン(gain)とシェープ(shape)をコーディングし、ACELP(Algebraic Code−Excited Linear Prediction)または正弦波(sinusoidal)パルスを用いてMDCT係数をコーディングする。拡張コーデックは、一般的に帯域幅拡張のための情報を先にコーディングした後、品質向上のための情報をコーディングする構造を有する。例えば、各サブ帯域のゲインとシェープを用いて7−14kHz帯域の信号を合成した後、ACELPまたは正弦波パルスコーディングを用いて合成された信号の品質を向上させる構造がそれである。
【0030】
すなわち、超広帯域品質を提供する1番目の階層では、ゲインとシェープなどの情報を利用して7−14kHz帯域に該当する信号を合成する。そして、追加的なビットを用いて合成された信号の品質向上のための正弦波パルスコーディングなどを適用する。このような構造により、ビット率の増加に応じて合成された信号の品質を改善させることができる。
【0031】
一般的に、正弦波パルスコーディングでは、定められた区間で大きさが一番大きいパルス、すなわち、品質に一番大きい影響を及ぼすことができるパルスの位置、大きさ、そして、符号情報がコーディングされる。このようなパルスを検索する区間が広いほど計算量は増加する。したがって、全体フレーム(時間領域の場合)または全体周波数帯域に対して正弦波パルスコーディングを適用するよりは、サブフレームまたはサブ帯域別に正弦波パルスコーディングを適用することが好ましい。正弦波パルスコーディングは、1つのパルスを伝送するのに相対的に多いビットが必要であるが、信号の品質に影響を与える信号を正確に表現できるという長所を有する。
【0032】
コーデックの入力信号は、周波数によってエネルギ分布が様々に現れる。特に、音楽信号の場合には、周波数によるエネルギの変化が音声信号に比べて大きい方である。エネルギが大きいサブ帯域の信号は、合成信号の品質に一層大きい影響を及ぼす。もし、全体サブ帯域をコーディングする程度にビットが十分であれば問題ないが、そうでない場合には、合成信号の品質に多くの影響を与える、すなわち、エネルギが大きいサブ帯域の信号を先にコーディングすることが効果的である。
【0033】
本発明は、
図1とような拡張コーデックで限定されたビット数を考慮して、より効率的な正弦波パルスコーディングを行うことにより、合成された信号の品質を向上させることができるオーディオ信号の符号化及び復号化に関するものである。以下では、音声及びオーディオ信号をオーディオ信号と称し、本発明を説明する。
【0034】
図2は、本発明の一実施形態に係るオーディオ信号符号化装置の構成図である。
【0035】
図2に示すように、オーディオ信号符号化装置202は、入力部204、演算部206、及びコーディング部208を備える。入力部204は、変換されたオーディオ信号、例えば、オーディオ信号がMDCTによって変換された結果物であるMDCT係数を受信する。
【0036】
演算部206は、入力部204を介して入力された変換されたオーディオ信号を複数個のサブ帯域に分けて、このサブ帯域のエネルギを各々演算する。そして、演算部206は、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する。このとき、1つのサブ帯域でコーディングする正弦波パルス数及び1つの正弦波パルスをコーディングするのに必要なビット数によって予め定められた数が決定される。
【0037】
コーディング部208は、演算部206によって選択されたサブ帯域に対して正弦波パルスコーディングを行う。コーディング部208は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順に正弦波パルスコーディングを行うことができる。本発明の他の実施形態において、コーディング部208は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順序ではない他の順序、例えば、帯域幅またはインデックス順序に正弦波パルスコーディングを行うことができる。
【0038】
一方、演算部206は、選択されたサブ帯域のうち、互いに隣接したサブ帯域があるか否かを確認し、隣接したサブ帯域を1つのサブ帯域に併合することができる。そして、コーディング部208は、このように併合されたサブ帯域に対して正弦波パルスコーディングを行うことができる。
【0039】
図3は、本発明の一実施形態に係るオーディオ信号復号化装置の構成図である。
【0040】
図3に示すように、オーディオ信号復号化装置302は、入力部304、演算部306、及び復号化部308を備える。入力部204は、変換されたオーディオ信号、例えば、MDCT係数を受信する。
【0041】
演算部306は、入力部304を介して入力された変換されたオーディオ信号を複数個のサブ帯域に分けて、このサブ帯域のエネルギを各々演算する。そして、演算部306は、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する。このとき、1つのサブ帯域でコーディングする正弦波パルス数及び1つの正弦波パルスをコーディングするのに必要なビット数によって予め定められた数が決定される。
【0042】
復号化部308は、演算部306によって選択されたサブ帯域に対して正弦波パルス復号化を行う。復号化部308は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順に正弦波パルスコーディングを行うことができる。本発明の他の実施形態において、復号化部308は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順序ではない他の順序、例えば、帯域幅またはインデックス順序に正弦波パルスコーディングを行うことができる。
【0043】
図2及び
図3に示されたオーディオ信号符号化装置202及びオーディオ信号復号化装置302は、
図1の狭帯域コーディングモジュール110、広帯域拡張コーディングモジュール112、または超広帯域拡張コーディングモジュール114に含まれることができる。
【0044】
以下では、
図4〜
図6及び
図1の超広帯域拡張コーディングモジュール114でオーディオ信号を符号化または復号化する実施形態によって本発明によるオーディオ信号符号化及び復号化方法を説明する。
【0045】
超広帯域拡張コーディングモジュール114は、7−14kHzに該当するMDCT係数を複数個のサブ帯域に分けて、各サブ帯域のゲインとシェープをコーディングまたは復号化して誤差信号を求める。その後、超広帯域拡張コーディングモジュール114は、誤差信号に対して正弦波パルスコーディングまたは復号化を行う。もし、正弦波パルスコーディングに用いられるビット数が十分であれば、全てのサブ帯域に正弦波パルスコーディングが適用され得るが、実際にそのようなビット数が十分でないため、一部のサブ帯域に対してのみ正弦波パルスコーディングが適用される。したがって、合成信号の品質により多くの影響を及ぼすサブ帯域に正弦波パルスコーディングを適用することにより、同じビット率が与えられたとき、よりよい信号品質を得ることができる。
【0046】
図4は、本発明の一実施形態に係るオーディオ信号符号化方法のフローチャートである。
【0047】
図4に示すように、超広帯域拡張コーディングモジュール114に含まれたオーディオ信号符号化装置は、変換されたオーディオ信号、例えば、7−14kHzに該当するMDCT係数を受信する(S402)。そして、受信された変換されたオーディオ信号を複数個のサブ帯域に分け(S404)、分けられた複数個のサブ帯域のエネルギを各々演算する(S406)。
図7は、9個のサブ帯域に分けられたMDCT係数と、各サブ帯域の相対的エネルギの大きさを示す。
図7に示すように、サブ帯域1、4、5、6、7のエネルギが他のサブ帯域のエネルギに比べて相対的に大きいことが分かる。
【0048】
表1は、8個のサブ帯域に分けられたMDCT係数のインデックス及びエネルギを表す。
【表1】
【0049】
オーディオ信号符号化装置は、サブ帯域のうち、大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する(S408)。例えば、表1のMDCT係数は、表2のようにエネルギ順に整列され、そのうち、エネルギが一番大きい5個のサブ帯域(陰影表示)が選択される。
【表2】
【0050】
本発明では、表2のように予め定められた数、例えば、5個のサブ帯域を選択するようになる。この予め定められた数は、1つのサブ帯域でコーディングする正弦波パルス数及び1つの正弦波パルスをコーディングするのに必要なビット数によって決定される。
【0051】
1つの正弦波パルスをコーディングするのに必要なビット数は次のとおりである。まず、1つの正弦波パルスの符号(+、−)をコーディングするのに1ビットが必要である。そして、正弦波パルスの位置をコーディングするのに必要なビット数は、正弦波パルス検索区間の大きさ、例えば、1つのサブ帯域の大きさによって決定される。もし、サブ帯域の大きさが32であれば、正弦波パルスの位置をコーディングするのには5ビットが必要である(2
5=32)。そして、正弦波パルスの大きさ(利得)をコーディングするのに必要なビット数は、量子化器の構造及びコードブックの大きさによって決定される。つまり、1つの正弦波パルスをコーディングするのに必要なビット数は、正弦波パルスの符号、位置、大きさをコーディングするのに必要なビットの合計である。
【0052】
正弦波パルスコーディングのために与えられたビット及び1つの正弦波パルスをコーディングするのに必要なビット数によって10個の正弦波パルスを伝送できる場合、1つのサブ帯域当り2個の正弦波パルスをコーディングするとしたら、総5個のサブ帯域に正弦波パルスコーディングを適用することができる。したがって、オーディオ信号コーディング装置は、表2のように、エネルギが一番大きい5個のサブ帯域を選択し、選択されたサブ帯域(5、6、3、1、2)に対して正弦波パルスコーディングを行う(S410)。
【0053】
図5は、本発明の一実施形態に係る正弦波パルスコーディング実行ステップ(
図4のS410)を示したフローチャートである。
【0054】
本発明の他の実施形態では、
図4のステップS408で選択されたサブ帯域のうち、互いに隣接したサブ帯域があるか否かを確認し(S502)、隣接したサブ帯域を1つのサブ帯域に併合し(S504)、併合されたサブ帯域に対して正弦波パルスコーディングを行う(S506)。
【0055】
例えば、表2において選択された5個のサブ帯域(5、6、3、1、2)のうち、サブ帯域5と隣接したサブ帯域、すなわち4または6があるか否かを確認する。5個のサブ帯域のうち、サブ帯域5と隣接したサブ帯域6が存在するので、オーディオ信号符号化装置は、サブ帯域5とサブ帯域6の各々に2個の正弦波パルスをコーディングする代わりに、2つのサブ帯域を1つのサブ帯域に併合し、この1つのサブ帯域に対して4個の正弦波パルスをコーディングする。例えば、サブ帯域5がサブ帯域6より大きいエネルギを有しているとしたら、併合されたサブ帯域では、4個の正弦波パルスが全てサブ帯域5にのみ位置することができる。このように、隣接したサブ帯域を併合し、併合されたサブ帯域に正弦波パルスコーディングを適用することにより、さらに効率的な正弦波パルスコーディングがなされる。
【0056】
一方、コーデックの特性によって符号器と復号器とで合成された7−14kHz帯域の信号が互いに一致しないことがある。符号器と復号器とで各々演算されたサブ帯域のエネルギの差による誤差を減らすために、オーディオ信号符号化装置は、表3のようにサブ帯域を再整列して正弦波パルスコーディングを行うこともできる。
【表3】
【0057】
すなわち、オーディオ信号符号化装置は、5個のサブ帯域に対してエネルギの大きさ順に正弦波パルスコーディングを行わず、帯域幅の順序またはインデックスの順序によって正弦波パルスコーディングを行うことができる。このように選択されたサブ帯域のエネルギの大きさ順序を考慮しないことにより、符号器と復号器とで発生し得る上位帯域合成信号の差による誤差を減らすことができる。
【0058】
図6は、本発明の一実施形態に係るオーディオ信号復号化方法のフローチャートである。
【0059】
まず、変換されたオーディオ信号を受信する(S602)。そして、変換されたオーディオ信号を複数個のサブ帯域に分け(S604)、サブ帯域のエネルギを各々演算する(S606)。
【0060】
次に、サブ帯域のうち、大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択し(S608)、選択されたサブ帯域に対して正弦波パルス復号化を行う(S610)。
図6のステップS602〜ステップS610は、前述した本発明の一実施形態に係るオーディオ信号符号化方法の各ステップと類似しているので、詳細な説明を省略する。
【0061】
図7は、既存正弦波パルスコーディング及び本発明に係る適応型正弦波パルスコーディングの結果を比較するための図である。
【0062】
図7(a)は、既存正弦波パルスコーディングによる結果を示す。
図7に示された各サブ帯域の相対的エネルギの大きさをみると、サブ帯域1、4、5、6、7のエネルギが他のサブ帯域に比べて相対的に大きい。しかし、既存の正弦波パルスコーディングは、サブ帯域のエネルギの大きさとは関係なく、帯域順またはインデックス順にパルスコーディングを適用するので、(a)のように、サブ帯域1、2、3、4、5に正弦波パルスがコーディングされる。
【0063】
図7(b)は、本発明に係る適応的正弦波パルスコーディングによる結果を示す。本発明によれば、(b)のように、相対的にエネルギが大きいサブ帯域、すなわち、サブ帯域1、4、5、6、7に正弦波パルスコーディングが適用される。
【0064】
前述したように、本発明は、音声を含むオーディオ信号に適用される。音声信号のエネルギ分布をみると、有声音のエネルギは、ほとんど低い周波数帯域に位置し、無声音と破裂音のエネルギは、相対的に高い周波数帯域に位置する。それに対し、音楽信号は、周波数によってエネルギの変化が多様に現れる。したがって、音楽信号は、音声信号のように周波数帯域によるエネルギ分布の特徴を定義するのが難しい。合成された信号の品質は、エネルギが大きい周波数帯域の信号によってさらに多くの影響を受ける。したがって、正弦波パルスコーディングを適用するサブ帯域を固定させるよりは、本発明のように、入力信号の特性によってサブ帯域を選択して正弦波パルスコーディングを適用することにより、同じビット率で合成された信号の品質をより向上させることができる。
【0065】
以下では、
図8及び
図9によって本発明の他の実施形態に係るオーディオ信号符号化及び復号化方法及び装置について説明する。
【0066】
図8は、本発明の他の実施形態に係るオーディオ信号符号化装置の構成図である。
【0067】
図8に示されたオーディオ信号符号化装置は、32kHzの入力信号を受信し、広帯域信号及び超広帯域信号を合成して出力する。このオーディオ信号符号化装置は、広帯域拡張コーディングモジュール802、808、822と超広帯域拡張コーディングモジュール804、806、810、812とで構成される。広帯域拡張コーディングモジュール、すなわち、G.729.1コアコーデック(core codec)は、16kHz信号を用いて動作することに対し、超広帯域拡張コーディングモジュールは、32kHz信号を用いる。超広帯域拡張コーディングは、MDCTドメインで行われる。2つのモード、すなわち、ジェネリックモード814と正弦波モード816とが超広帯域拡張コーディングモジュールの1番目の階層をコーディングするために用いられる。ジェネリックモード814または正弦波モード816のうち、いずれかを用いるかの可否は、入力信号の測定されたトーナリティ(Tonality)に基づいて決定される。より上位の超広帯域階層は、高周波数コンテンツ(content)の品質を改善する正弦波コーディング部818、820または広帯域コンテンツの認知品質(perceptual quality)を改善するのに用いられる広帯域信号改善部822によってコーディングされる。
【0068】
32kHzの入力信号は、まず、ダウンサンプリング部802に入力され、16kHzでダウンサンプリングされる。そして、ダウンサンプリングされた16kHz信号は、G.729.1コーデック808に入力される。G.729.1コーデック808は、入力された16kHz信号に対して広帯域コーディングを行う。G.729.1コーデック808から出力された合成された32kbit/s信号は、広帯域信号改善部822に入力され、広帯域信号改善部822は、入力された信号の品質を改善する。
【0069】
一方、32kHz入力信号は、MDCT部806に入力され、MDCTドメインに変換される。MDCTドメインに変換された入力信号は、トーナリティ測定部804に入力され、入力信号のトーナル(tonal)可否が決定される(810)。言い替えれば、1番目の超広帯域階層のコーディングモードは、MDCTドメインで入力信号の現在フレーム及び以前フレームのログドメインエネルギ(logarithmic domain energies)を比較することにより行われるトーナリティ測定に基づいて定義される。トーナリティ測定は、入力信号の現在フレームと過去フレームのスペックトラルピーク(spectral peaks)間の相関関係分析(correlation analysis)に基づく。
【0070】
次に、トーナリティ測定部804によって出力されたトーナリティ情報により、入力信号がトーナルであるか否かが決定される(810)。例えば、トーナリティ情報が特定しきい値(threshold)より大きければ、入力信号はトーナルであるものと、それとも、入力信号はトーナルでないものと判断される。トーナリティ情報は、さらに、復号器に伝達されるビットストリームにも含まれる。もし、入力信号がトーナルであれば正弦波モード816が、それとも、ジェネリックモード814が用いられる。
【0071】
ジェネリックモード814は、入力信号のフレームがトーナルでないとき(tonal=0)に用いられる。ジェネリックモード814は、高周波数をコーディングするために、G.729.1広帯域コーデック808のコーディングされたMDCTドメイン表現を活用する。高周波数帯域(7−14kHz)は、4個のサブ帯域に分けられ、コーディングされエンベロープ標準化された(envelope normalized)広帯域コンテンツからそれぞれのサブバンドに対する選択された類似性基準(similarity criteria)が探索される。最も類似したマッチ(match)は、合成された高周波数コンテンツを取得するために、2つのスケーリング要素、すなわち、リニア(linear)ドメインの1番目のスケーリング要素及びログドメインの2番目のスケーリング要素によってスケーリングされる。このコンテンツは、さらに、ジェネリックモード814及び正弦波コーディング部818内の追加的な正弦波によって改善される。
【0072】
ジェネリックモード814では、本発明に係るオーディオ符号化方法によって、コーディングされた信号の品質改善がなされ得る。例えば、ビットバジェット(bit budget)は、初めの4kbit/sの超広帯域階層に2つの正弦波を追加するように許容する。追加する正弦波の位置を探索するトラックの開始位置は、合成された高周波数信号のサブ帯域エネルギに基づいて選択される。合成されたサブ帯域のエネルギは、次の数式1のように演算されることができる。
【数1】
ここで、kはサブ帯域インデックスを表し、
【数2】
はk番目のサブ帯域のエネルギを表す。また、
【数3】
は合成された高周波数信号を表す。それぞれのサブ帯域は32個のMDCT係数からなる。相対的に大きいエネルギを有するサブ帯域が正弦波コーディングの探索トラックとして選択される。例えば、探索トラックは、1の単位の大きさを有する32個の位置を含むことができる。このような場合、探索トラックはサブ帯域と一致する。
【0073】
2つの正弦波の大きさ(amplitude)は、それぞれ4−bit、1次元コードブックによって量子化される。
【0074】
正弦波モード816は、入力信号がトーナルであるときに用いられる。正弦波モード816で、高周波数信号は、高周波数スペクトルに有限個の正弦波コンポーネントセットを追加することにより生成される。例えば、追加される正弦波の総個数は10個であるが、4個は7000−8600Hz周波数範囲に、4個は8600−10200Hz周波数範囲に、1個は10200−11800Hz周波数範囲に、1個は11800−12600Hz周波数範囲に位置することができる。
【0075】
正弦波コーディング部818、820は、ジェネリックモード814または正弦波モード816によって出力された信号の品質を改善する。正弦波コーディング部818、820によって追加される正弦波の数(Nsin)はビットバジェットによって変わる。正弦波コーディング部818、820の正弦波コーディングのためのトラックは、合成された高周波数コンテンツのサブ帯域エネルギに基づいて選択される。
【0076】
例えば、7000−13400Hz周波数範囲の合成された高周波数コンテンツは、8個のサブ帯域に分けられる。それぞれのサブ帯域は、32個のMDCT係数で構成され、サブ帯域エネルギは、各々数式1のように演算されることができる。
【0077】
正弦波コーディングのためのトラックは、相対的に大きいエネルギを有するNsin/Nsin_track個のサブ帯域を探すことにより選択される。ここで、Nsin_trackは、トラック当り正弦波の個数であり、2に設定される。選択されたNsin/Nsin_track個のサブ帯域は、各々正弦波コーディングに用いられるトラックに対応する。例えば、Nsinが4であれば、初めの2個の正弦波が一番大きいサブ帯域エネルギを有するサブ帯域に位置し、残りの2個の正弦波は、2番目に大きいエネルギを有するサブ帯域に位置する。正弦波コーディングのためのトラック位置は、利用可能なビットバジェット及び高周波数信号エネルギ特性によってフレーム毎に(frame by frame)変わる。
【0078】
図9は、本発明の他の実施形態に係るオーディオ信号復号化装置の構成図である。
【0079】
図9に示されたオーディオ信号復号化装置は、符号化装置によって符号化された広帯域信号及び超広帯域信号を受信し、これを32kHz信号で出力する。このオーディオ信号復号化装置は、広帯域拡張復号化モジュール902、914、916、918と超広帯域拡張復号化モジュール904、920、922とで構成される。広帯域拡張復号化モジュールは、入力された16kHz信号を復号化し、超広帯域拡張復号化モジュールは、32kHz出力を提供するために、高周波数を復号化する。超広帯域拡張復号化は、ほとんどMDCTドメインで行われる。2つのモード、すなわち、ジェネリックモード906及び正弦波モード908が拡張の1番目の階層を復号化するために用いられるが、これは、初めて復号化されるトーナリティ指示子(indicator)に依存する。2番目の階層は、広帯域信号改善及び追加的な正弦波間にビットを分散させるために、符号器と同様のビット割当を利用する。3番目の超広帯域階層は正弦波復号化部910、912で構成されるが、これは、高周波数コンテンツの品質を改善する。4番目及び5番目の拡張階層は広帯域信号改善を提供する。合成された超広帯域コンテンツを改善するために、時間ドメインで前処理(pre−processing)が利用される。
【0080】
符号化装置によって符号化された信号はG.729.1コーデック902に入力される。G/729。1コーデック902は16kHzの合成信号を出力し、これは、広帯域信号改善部914に入力される。広帯域信号改善部914は、入力された信号の品質を改善する。広帯域信号改善部914から出力された信号は、前処理部916による前処理、アップサンプリング部918によるアップサンプリングを経る。
【0081】
一方、高周波数復号化を始める前に、広帯域信号が合成される必要がある。このような合成は、G.729.1コーデック902によって行われる。高周波数信号復号化では、一般的な前処理関数を適用する前に、32kbit/s広帯域合成が利用される。
【0082】
高周波数信号の復号化は、G.729.1広帯域復号化から合成されたMDCTドメイン表現を取得することにより始まる。MDCTドメイン広帯域コンテンツは、ジェネリックコーディングフレームの高周波数信号を復号化するために要求されるが、ここで、高周波数信号は、広帯域周波数範囲からのコーディングされたサブ帯域の適応的応答(adaptive replication)によって構成される。
【0083】
ジェネリックモード906は、適応的サブ帯域応答によって高周波数信号を構成する。また、2個の正弦波コンポーネントが1番目の4kbit/s超広帯域拡張階層のスペクトルに追加される。ジェネリックモード906と正弦波モード808とは、正弦波モード復号化技術に基づいた類似した向上階層(enhancement layers)を活用する。
【0084】
ジェネリックモード906では、本発明に係るオーディオ復号化方法によって、復号化された信号の品質改善がなされ得る。ジェネリックモード906は、2個の正弦波コンポーネントを再構成された全体高周波数スペクトルに追加する。この正弦波は、位置、符号、及び大きさで表現される。このとき、正弦波を追加するためのトラックの開始位置は、上述したように、相対的に大きいエネルギを有するサブ帯域のインデックスから取得される。
【0085】
正弦波モード908において、高周波数信号は、有限個の正弦波コンポーネントセットによって生成される。例えば、追加される正弦波の総個数は10個であるが、4個は7000−8600Hz周波数範囲に、4個は8600−10200Hz周波数範囲に、1個は10200−11800Hz周波数範囲に、1個は11800−12600Hz周波数範囲に位置することができる。
【0086】
正弦波復号化部910、912は、ジェネリックモード906または正弦波モード908によって出力された信号の品質を改善する。1番目の超広帯域向上階層は、10個の正弦波コンポーネントを正弦波モードフレームの高周波数信号スペクトルにさらに追加する。ジェネリックモードフレームで、追加される正弦波コンポーネントの数は、低周波数及び高波数改善間の適応的ビット割当によって設定される。
【0087】
正弦波復号化部910、912の復号化過程は次のとおりである。まず、ビットストリームから正弦波の位置が取得される。その後、ビットストリームは、伝送されたコーディングインデックス及び大きさコードブックインデックスを求めるために復号化される。
【0088】
正弦波復号化のためのトラックは、相対的に大きいエネルギを有するNsin/Nsin_track個のサブ帯域を探すことにより選択される。ここで、Nsin_trackは、トラック当り正弦波の個数であり、2に設定される。選択されたNsin/Nsin_track個のサブ帯域は、それぞれ正弦波復号化に用いられるトラックに対応する。
【0089】
それぞれの対応するトラックと関係のある10個の正弦波の位置インデックスは、ビットストリームから初めて求められる。その後、10個の正弦波の符号が復号化される。最後に、正弦波の大きさ(3個の8ビットコードブックインデックス)が復号化される。
【0090】
このように、正弦波復号化部910、912によって品質が改善された信号は、IMDCT920による逆MDCT、前処理部922による前処理を経る。アップサンプリング部918の出力信号及び前処理部922の出力信号は加えられて32kHz出力信号で出力される。
【0091】
前述した本発明は、本発明の属する技術分野における通常の知識を有した者にとって、本発明の技術的思想を逸脱しない範囲内で様々な置換、変形及び変更が可能であるため、前述の実施形態及び添付した図面によって限定されるものではない。