【文献】
Guillaume Fuchs, et al.,MDCT-Based Coder for Highly Adaptive Speech and Audio Coding,Proc. 17th European Signal Processing Conferenece,英国,EURASIP,2009年 8月24日,pp.1264-1268
【文献】
Ravi K. Chivukula, et al.,Efficient Algorithms for MPEG-4 AAC-ELD, AAC-LD and AAC-LC Filterbanks,Proc. International Conference on Audio, Language and Image Processing, 2008,中国,IEEE,2008年 7月 7日,pp.1629-1634
(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
スピーチコーデックは、スピーチ信号の特徴に応じて特別に設計される[1]。スピーチコーデックは、スピーチ信号を効率的に符号化する効果を有する。たとえば、スピーチ信号を低ビットレートで符号化する際に高音質で符号化することが可能であり、低遅延ではある。一方で、スピーチ信号より広帯域なオーディオ信号を符号化する際の音質は、AAC方式など一部の変換コーデック程よい音質ではない。一方、AAC方式に代表される変換コーデックはオーディオ信号を符号化することに適しているが、スピーチコーデックと同じ音質でスピーチ信号を符号化するには、高いビットレートを要する。ハイブリッドコーデックは、スピーチ信号およびオーディオ信号を低ビットレートでも高音質で符号化することが可能である。ハイブリッドコーデックは低ビットレートで高音質な符号化を実現するために、2つの異なるコーデックの利点を組み合わせたものである。
【0003】
低遅延のハイブリッドコーデックが、テレビ会議システムなどのリアルタイム通信を行う用途で所望されている。低遅延のハイブリッドコーデックの1つは、AAC−LD(低遅延AAC)符号化技術とスピーチ符号化技術とを組み合わせるものである。このAAC−LDには、アルゴリズム遅延量が20ミリ秒以内のモードがある。AAC−LDは、通常のAAC符号化技術から派生したものである。アルゴリズム遅延量を低減させるために、AAC−LDは、AACにいくつか変更が加えられたものである。第1に、AAC−LDのフレームサイズは、1024または960時間領域サンプルに減少しており、従ってMDCTフィルタバンクの出力スペクトル数も512および480スペクトル値に減少している。第2に、アルゴリズム遅延量を低減させるために、先読み処理を無効にし、その結果としてブロック切替処理を用いない。第3に、通常遅延量のAACにおける窓関数処理で用いるカイザー・ベッセル窓関数の代わりに、オーバーラップが少ない窓関数を用いる。オーバーラップが少ない窓関数は、AAC−LDにおいて過渡信号を効率的に符号化するために用いられる。第4に、ビットリザーバを最小化するか、一切使用しない。第5に、時間領域ノイズ整形と、長期予測関数とが、低遅延のフレームサイズに対応した修正を行って処理する。
【0004】
一般的に、スピーチコーデックでは、線形予測符号化(ACELP:代数符号励振線形予測)に基づいて符号化している[1]。ACELP符号化において、線形予測分析をスピーチ信号に対して適用し、線形予測分析によって算出した励振信号を代数コードブックを用いて符号化する。ACELP符号化の音質をさらに向上させるため、昨今のスピーチコーデックではさらに変換符号化励振(変換符号化励振)符号化(TCX符号化)も用いて高音質化している。TCX符号化において、線形予測分析の後、変換符号化が励振信号に用いられる。フーリエ変換された、重み付けされた信号が代数ベクトル量子化(algebraic vector quantization)を用いて量子化される。スピーチコーデックには異なるフレームサイズが利用可能であり、たとえば、1024時間領域サンプル、512時間領域サンプル、および256時間領域サンプルなどが可能である。符号化モードが閉ループ分析合成方法を用いて選択される。
【0005】
低遅延ハイブリッドコーデックは、AAC−LD符号化モード、ACELPモード、およびTCXモードの3つの異なる符号化モードを有する。異なるモードは、異なるドメインで信号を符号化し、異なるフレームサイズを有するため、ハイブリッドコーデックは、符号化モードが切り替わる遷移フレームに対してブロック切替方法を構成する必要がある。遷移フレームの一例を、
図2に示す。たとえば、先行フレームがAAC−ELDモードで符号化され、対象フレームがACELPモードで符号化される場合、対象フレームは遷移フレームと定義される。先行技術においては、異なる符号化モードに切り替えるために、窓処理された先行フレームのエイリアシング部分が遷移フレームの対象ブロックの対象部分とは異なる方法で処理される[特許文献1:WO2010/003532、フラウンホーファー研究機構の特許出願]。
【0006】
後述の段落におけるこの特許の説明を簡単にするために、AAC−ELDの変換および逆変換を背景技術において説明する。
【0007】
エンコーダにおけるAAC−ELDモードの変換処理は、以下の通りである。
【0008】
処理されたAAC−ELDのフレーム数は、4フレームである。フレームi−1が先行する3フレームに連結されて、長さが4Nの拡張フレームを形成する。ここで、Nは入力フレームのサイズである。すなわち、AAC−ELDモードでは、符号化対象フレームを符号化するために、符号化対象フレームのサンプルだけでなく、当該符号化対象フレームに先行する3つの先行フレームのサンプルを必要とする。
【0009】
第1に、AAC−ELDモードにおいて拡張フレームを窓処理する。
図3は、エンコーダのAAC−ELDモードにおけるエンコーダの窓形状を示す。エンコーダにおける窓を、w
encと定義する。図示の便宜上、エンコーダの窓を8つに分割し、[w
1、w
2、w
3、w
4、w
5、w
6、w
7、w
8]とする。エンコーダの窓の長さは4Nである。AAC−ELDモードにおけるエンコーダの窓は、AAC−ELDモードで用いられている低遅延フィルタバンクに合致するように構成される。説明の便宜上、
図3に示すように1つのフレームを2つの部分に分割する。たとえば、フレームi−1を2つのベクトル[a
i−1、b
i−1]に分割する。ここでa
i−1はN/2個のサンプルを有し、b
i−1がN/2個のサンプルを有している。したがって、エンコーダの窓は、[a
i−4、b
i−4、a
i−3、b
i−3、a
i−2、b
i−2、a
i−1、b
i−1]と示されるベクトルに適用され、窓処理された信号、[a
i−4w
1、b
i−4w
2、a
i−3w
3、b
i−3w
4、a
i−2w
5、b
i−2w
6、a
i−1w
7、b
i−1w
8]が得られる。
【0010】
次に、窓処理された信号を変換するために複数の低遅延フィルタバンクが用いられる。低遅延フィルタバンクは、以下のように定義される。
【0011】
【数1】
【0012】
式中、x
n=[a
i−4w
1、b
i−4w
2、a
i−3w
3、b
i−3w
4、a
i−2w
5、b
i−2w
6、a
i−1w
7、b
i−1w
8]である。
【0013】
上記低遅延フィルタバンクに基づいて、出力係数の長さをNとし、処理するフレームの長さは4Nとする。
【0014】
低遅延フィルタバンクは、DCT−IV変換によって表すこともできる。DCT−IV変換の定義を以下に示す。
【0015】
【数2】
【0016】
以下の恒等式により、
【数3】
【0017】
【数4】
【0018】
低遅延フィルタバンクにより変換されたフレームi−1の信号は、DCT−IV変換により以下のように表すことができる。
[DCT−IV(−(a
i−4w
1)
R−b
i−4w
2+(a
i−2w
5)
R+b
i−2w
6))、
DCT−IV(−a
i−3w
3+(b
i−3w
4)
R+a
i−1w
7−(b
i−1w
8)
R)]、
式中、(a
i−4w
1)
R、(a
i−2w
5)
R、(b
i−3w
4)
R、(b
i−1w
8)
Rは、それぞれ、ベクトルa
i−4w
1、a
i−2w
5、b
i−3w
4、b
i−1w
8の逆順を示す。
【0019】
デコーダにおけるAAC−ELDモードの逆変換処理を、以下に説明する。
【0020】
デコーダにおいて、フレームi−1がAAC−ELDモードで復号される場合を説明する。
図7にAAC−ELDモードに対する逆変換処理を示す。デコーダにおけるAAC−ELDモードの逆低遅延フィルタバンクを、以下に示す。
【0021】
【数5】
【0022】
低遅延フィルタバンクの逆変換信号の長さは、4Nである。第1の実施の形態において説明したように、フレームi−1に対する逆変換信号は以下の通りである。
【0023】
【数6】
【0024】
逆低遅延フィルタバンクを適用した後、窓がy
i−1に適用され、
【数7】
が得られる。
図6は、AAC−ELDモードのデコーダの窓形状を示す。AAC−ELDモードにおける窓の長さは4Nである。これは、AAC−ELDモードのエンコーダの窓の逆順である。デコーダにおける窓は、w
decと示される。図示の便宜上、
図6に示すように、デコーダの窓は8つの部分に分割され、[w
R,8、w
R,7、w
R,6、w
R,5、w
R,4、w
R,3、w
R,2、w
R,1]と示される。
【0025】
窓処理された逆変換信号
【数8】
は、以下の通りである。
【0026】
【数9】
【0027】
AAC−ELDモードによって符号化された次のフレームiにおいて、窓処理された逆変換信号
【数10】
は、以下の通りである。
【0028】
【数11】
【0029】
フレームiの信号[a
i−1、b
i−1]を再構成するために、重複加算処理には先行する3つのフレームを必要とする。
図7では、そのAAC−ELDモードの重複加算処理を示す。再構成された信号out
iの長さはNである。
【0030】
重複加算処理は、以下の式により表すことができる。
【0031】
【数12】
【0032】
AAC−ELDのエイリアシングを除去するメカニズムを、
図22に示す。フレームi、フレームi−1、フレームi−2、フレームi−3の窓処理された逆変換信号を
図22に示す。視覚化するために、グラフは、
【数13】
である、特殊な場合の例を示す。
【0033】
【数14】
【0034】
窓は、以下の特性を有するように構成される。
【0035】
【数15】
【0036】
信号a
i−1は、重複加算された後に再構成される。
【0037】
同じ分析方法が信号b
i−1の再構成に用いられる。
【0038】
【数16】
【0039】
【数17】
【0040】
信号b
i−1は、重複加算された後に再構成される。
【発明を実施するための形態】
【0054】
以下の実施の形態は、様々な発明ステップの原理を説明するものである。ここに説明する具体例の様々な変形例は、当業者には明らかであろう。
【0055】
(第1の実施の形態)
第1の実施の形態において、AAC−ELDモードをACELPモードに切り替える途中のフレームである遷移フレームを符号化するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
【0056】
デコーダにおいて、AAC−ELDモードに起因する先行フレームのエイリアシングを除去するために、ACELPのフレームサイズを拡張する。AAC−ELDモードからACELPモードに切替える際に生じるエイリアシングは、AAC−ELDモードでは符号化対象フレームを符号化するために先行するフレームのサンプルが必要であるのに対し、ACELPでは符号化対象フレームを符号化するために符号化対象フレームの1フレーム分のサンプルしか使わないことに起因する。これに対し、まず符号化対象フレームに先行する先行フレームの後半は、対象フレームに連結され、通常の入力フレームサイズよりも長い拡張フレームを形成する。拡張フレームは、エンコーダにおいてACELPモードで符号化される。
【0057】
図20は、AAC−ELD符号化技術とACELP符号化技術とを組み合わせたハイブリッドエンコーダの構成を示すブロック図である。
図20において、入力信号が高周波エンコーダ2001に送信される。符号化された高周波パラメータは、ビットマルチプレクサブロック2006に送信される。入力信号は、信号分類ブロック2003にも送信される。信号分類では、低周波帯域の時間領域信号に対して、どの符号化モードを選択するかを決定する。信号分類ブロック2003からのモード指標が、ビットマルチプレクサブロック2006に送信される。モード指標は、ブロック切替アルゴリズム2002を制御するためにも用いられる。符号化対象の低周波帯域における時間領域信号は、モード指標に従って、対応する符号化技術2004、2005に送信される。ビットマルチプレクサブロック2006は、ビットストリームを生成する。
【0058】
入力信号は、フレーム毎に符号化される。入力フレームサイズは、本実施の形態ではNと定義される。
【0059】
図20において、複数のブロック切替アルゴリズム2002は、符号化モードが切り替えられる遷移フレームの処理に用いられる。
図4は、第1の実施の形態におけるAAC−ELDからACELPへのブロック切替アルゴリズムを示す。
【0060】
ブロック切替アルゴリズムは、先行フレームi−1の後半を連結して、処理フレームの長さが
【数18】
の拡張フレームを形成する。この処理が行われたフレームは、符号化のためにACELPモードに送信される。
【0061】
(効果)
本実施の形態のブロック切替アルゴリズムを有するエンコーダにより、符号化モードをAAC−ELDモードからACELPモードに切り替える際、デコーダにおけるエイリアシングの除去を容易に行うことができ、オーディオ符号化モードとスピーチ符号化モードとの2つの符号化モードを有する低遅延のスピーチおよびオーディオハイブリッドコーデックにおいて、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
【0062】
(第2の実施の形態)
第2の実施の形態において、AAC−ELDモードがACELPモードに切り替えられる遷移フレームを符号化するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
【0063】
第2の実施の形態では、第1の実施の形態と同様にACELPフレームの長さを拡張することである。エンコーダの構成は、第1の実施の形態と異なる。第2の実施の形態のエンコーダには、3つの符号化モードがある。それは、AAC−ELDモード、ACELPモード、およびTCXモードである。
【0064】
図1は、オーディオコーデックであるAAC−ELDと、スピーチコーデックであるACELP符号化技術およびTCX符号化技術とを組み合わせる構成を示す。
図1において、入力信号が高周波エンコーダ101に送信される。符号化された高周波パラメータは、ビットマルチプレクサブロック107に送信される。入力信号は、信号分類ブロック103にも送信される。信号分類は、どの符号化モードを選択するかを決定する。信号分類ブロックからのモード指標が、ビットマルチプレクサブロック107に送信される。モード指標は、ブロック切替アルゴリズム102を制御するためにも用いられる。符号化対象の低周波帯域における時間領域信号は、モード指標に従って、対応する符号化技術104、105、106に送信される。ビットマルチプレクサブロック107は、ビットストリームを生成する。
【0065】
(効果)
本実施の形態のブロック切替アルゴリズムを有するエンコーダにより、符号化モードをAAC−ELDモードからACELPモードに切り替える際、デコーダにおけるエイリアシングの除去を容易に行うことができ、3つの符号化モードを有する低遅延のスピーチおよびオーディオハイブリッドコーデックにおいて、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
【0066】
(第3の実施の形態)
第3の実施の形態において、AAC−ELDモードがACELPモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
【0067】
本実施の形態において、対象フレームをフレームiと示す。AAC−ELD符号化モードに起因するフレームi−1のエイリアシングを除去するために、ブロック切替アルゴリズムは、フレームiのACELP合成信号の非エイリアシング部分およびフレームi−2の再構成信号を用いて逆エイリアシング成分を生成する。
【0068】
図21は、AAC−ELD符号化技術とACELP復号技術とを組み合わせたスピーチおよびオーディオハイブリッドデコーダを示す。
図21において、入力ビットストリームが2101において逆多重化される。モード指標が復号モードおよびブロック切替アルゴリズム2104の選択を制御するために送信される。高周波信号を再構成するために高周波パラメータが高周波デコーダ2105に送信される。モード指標に従って、低周波係数が対応するデコーダ2102、2103に送信される。逆変換信号および合成信号は、ブロック切替アルゴリズムに送信される。ブロック切替アルゴリズム2104は、異なる切替状況に応じて低周波帯域の時間領域信号を再構成する。高周波デコーダ2105は、高周波パラメータおよび低周波帯域の時間領域信号に基づいてこれらの信号を再構成する。
【0069】
第3の実施の形態において、デコーダにおいてAAC−ELDモードからACELPモードに切り替えるためのブロック切替方法を考案する。
図23は、AAC−ELDからACELPに遷移する場合を示す。フレームi−1は、AAC−ELDモードによって通常フレームとして逆変換される。フレームiは、ACELPモードにおいて通常フレームとして合成される。サブフレーム2301で示す非エイリアシング部分と、サブフレーム2304およびサブフレーム2305で示すフレームi−2の復号信号とを処理し、これを用いてサブフレーム2302で示すエイリアシング部分におけるエイリアシングを除去する。
【0070】
図8は、ブロックの切り替えの一例を示す。
【0071】
フレームiに対して、ACELP合成信号を、
【数19】
と示す。ACELP合成信号の長さは、第1の実施の形態において示されている符号化処理に基づき、
【数20】
である。
図23においてサブフレーム2301と示されている非エイリアシング部分の一部は、エイリアシング除去のために抽出される。
【0073】
先行フレームi−1のAAC−ELD逆変換信号は、y
i−1と示され、4Nの長さを有する。
図23において、サブフレーム2302として示されている1つのエイリアシング部分が抽出され、このエイリアシング部分は背景技術の項目において説明したAAC−ELD逆変換に基づき以下のように表される。
【0075】
非エイリアシング部分2301(b
i−1)と、フレームi−1のエイリアシング部分2302(−a
i−3w
3+(b
i−3w
4)
R+a
i−1w
7−(b
i−1w
8)
R)と、フレームi−2[a
i−3、b
i−3]の再構成信号であるサブフレーム2304、2305とが、遷移フレームの信号を再構成するために用いられる。
【0076】
図8に示されるように、窓w
8が非エイリアシング部分b
i−1に適用されて、b
i−1w
8が得られる。
【0077】
窓処理後、折り畳みが適用されて、(b
i−1w
8)
Rで示されるb
i−1w
8の逆順が得られる。
【0078】
図8に示すように、得られた非エイリアシング部分a
i−3に窓w
3が適用され、a
i−3w
3が得られる。
【0079】
図8に示すように、非エイリアシングb
i−3に窓w
4が適用されて、b
i−3w
4が得られる。b
i−3w
4の逆順が得られ、901に示すように、これを(b
i−3w
4)
Rで示す。
【0080】
エイリアシングを除去するために、
図8に示すように−a
i−3w
3+(b
i−3w
4)
R+a
i−1w
7−(b
i−1w
8)
R、(b
i−1w
8)
R、a
i−3w
3、(b
i−3w
4)
Rを加算する。
【0081】
a
i−1w
7に逆窓関数が適用されて、a
i−1が得られる。
a
i−1=a
i−1w
7/7
【0082】
したがって、フレームiの出力は、サブフレーム2301とサブフレーム801とを連結することによって再構成された信号[a
i−1、b
i−1]である。
【0083】
(効果)
以上のように、ブロック切替アルゴリズムを有する本実施の形態のデコーダによれば、AAC−ELDモードからACELPモードに切り替える際に遷移フレームで生じるエイリアシングを、先行フレームの非エイリアシング部分を用いて信号処理を行うことにより除去することができる。これによって、2つの復号モードを有する低遅延のハイブリッドデコーダにおいては、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
【0084】
(第4の実施の形態)
第4の実施の形態において、AAC−ELDモードがACELPモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
【0085】
第4の実施の形態の原理は、第3の実施の形態と同じである。デコーダの構成は、第3の実施の形態と異なる。第4の実施の形態のデコーダには3つの復号モードがある。その復号モードは、AAC−ELD復号モード、ACELP復号モード、およびTCX復号モードである。
【0086】
図5は、AAC−ELDとACELP符号化技術およびTCX符号化技術とを組み合わせるスピーチおよびオーディオハイブリッドデコーダを示す。
図5において、入力ビットストリームが501において逆多重化される。モード指標が、復号モード502、503、504、およびブロック切替アルゴリズム505の選択を制御するために送信される。高周波パラメータは、高周波デコーダ506に送信されて、高周波信号が再構成される。低周波係数が、モード指標に従って、対応の復号モードに送信される。逆変換信号および合成信号がブロック切替アルゴリズム505に送信される。ブロック切替アルゴリズム505は、異なる切替状況に応じて低周波帯域の時間領域信号を再構成する。高周波デコーダ506は、高周波パラメータおよび低周波帯域の時間領域信号に基づいて、信号を再構成する。
【0087】
(効果)
本実施の形態のブロック切替アルゴリズムを有するデコーダは、AAC−ELDモードがACELPモードに切り替えられる遷移フレームにおけるエイリアシング除去の問題を解決し、3つの復号モードを有する低遅延ハイブリッドコーデックにおいて、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
【0088】
(第5の実施の形態)
第5の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するために、スピーチおよびオーディオハイブリッドエンコーダを有するブロック切替アルゴリズムを考案する。
【0089】
符号化モードがACELPからAAC−ELDモードに切り替えられる時、復号処理が通常のAAC−ELD重複加算処理に戻される。先行技術において、この遷移フレームは、通常のAAC−ELD低遅延フィルタバンクによって符号化される。先行技術とは異なり、本実施の形態のエンコーダはMDCTフィルタバンクを用いる。本実施の形態の方法の効果は、AAC−ELD符号化と比較して、符号化演算の複雑性を低減させることである。本実施の形態の方法を用いることによって、通常のAAC−ELDモードと比較して、デコーダに送信される変換係数が半分に低減される。そのため、ビットレートが節約される。
【0090】
エンコーダの構成は、第1の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第1の実施の形態と異なる。本実施の形態は、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するためのものである。
【0091】
図10は、遷移フレームに対する本実施の形態の符号化方法を示す。対象フレームi[a
i、b
i]が、ゼロ埋めによって2Nの長さに拡張され、[a
i、b
i、0、0]と示される。このベクトルに窓処理が行われて、ベクトル[a
iw
7、b
iw
8、0、0]が得られる。
【0092】
窓処理後、MDCTフィルタバンクを用いて窓処理されたベクトルが変換される。
【0094】
MDCT変換係数は、DCT−IVでは以下のように表される。
[0、DCT−IV(a
iw
7−(b
iw
8)
R)]
【0095】
この結果、N/2の部分の係数がすべて0となるために、N/2の長さを有するDCT−IV(a
iw
7−(b
iw
8)
R)のみをデコーダに送信すればよいことになる。AAC−ELD係数の長さは、Nである。したがって、本実施の形態の方法を用いることによって、ビットレートが半分に節約される。
【0096】
(効果)
ブロック切替アルゴリズムを有する本実施の形態のエンコーダは、符号化モードがACELPモードからAAC−ELDモードに切り替えられる時に、AAC−ELDモードによって符号化された後続フレームのエイリアシングの除去を行うためのフレームiのエイリアシング成分の作成に役立つものである。AAC−ELDモードを遷移フレームに直接用いる場合と比較して、符号化の演算複雑性およびビットレートが低減される。
【0097】
(第6の実施の形態)
第6の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
【0098】
第6の実施の形態の原理は、第5の実施の形態と同じであるが、エンコーダの構成は第5の実施の形態とは異なる。
【0099】
第6の実施の形態のエンコーダは3つの符号化モードを有し、そのモードはAAC−ELDモード、ACELPモード、およびTCXモードである。第6の実施の形態のエンコーダの構成は、第2の実施の形態と同じである。
【0100】
(第7の実施の形態)
第7の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
【0101】
本実施の形態において、第5の実施の形態におけるエンコーダに従って、デコーダにおいてACELPからAAC−ELDへのブロックの切り替えが行われる。符号化モードがACELPからAAC−ELDモードに切り替えられる時、後続のフレームがAAC−ELD重複加算モードに戻される。フレームiの逆MDCT変換信号のエイリアシング部分と、フレームi−1のACELP合成信号の非エイリアシング部分と、フレームi−2およびフレームi−3の再構成信号を用いて、AAC−ELDのエイリアシングが生成される。
図9は、デコーダにおいてACELPからAAC−ELDへ遷移する場合を示す。
【0102】
デコーダの構成は、第3の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第3の実施の形態とは異なる。
図9、11、および12は、復号処理の一例を示す。
【0103】
第5の実施の形態によると、受信された低帯域の係数は、この遷移フレームiにおいてMDCT変換係数DCT−IV(a
iw
7−(b
iw
8)
R)である。したがって、対応する逆フィルタバンクは、第7の実施の形態においてはIMDCTである。IMDCTのエイリアシングの出力は、長さNを有する[a
iw
7−(b
iw
8)
R’−(a
iw
7)
R+b
iw
8]で示され、
図9においてサブフレーム901およびサブフレーム902と示される。
【0104】
先行フレームi−1からのACELP合成信号の非エイリアシング部分は、長さNを有する[a
i−1、b
i−1]で示され、
図9においてサブフレーム903およびサブフレーム904と示される。
【0105】
先行する2つのフレームの出力は、[a
i−2、b
i−2]、(a
i−3、b
i−3]で示され、
図9においてそれぞれ、サブフレーム905、906、907、908と示される。
【0106】
逆AAC−ELDのエイリアシング部分は、上記サブフレームを用いて作成される。この目的は、通常のAAC−ELDモードに戻すことができるように、AAC−ELDモードにより符号化された後続フレームと重複加算するためにエイリアシング成分を作成することである。
【0107】
逆低遅延フィルタバンクに起因するエイリアシング成分を生成する方法の一つを以下に説明する。
図11、12は、AAC−ELDのエイリアシング要素を作成する方法の処理の詳細を示す。
【0108】
図11において、フレームi−3の復号信号a
i−3が窓処理されて、a
i−3w
1が得られる。逆順(a
i−3w
1)
Rを得るために折り畳みが適用される。
【0109】
フレームi−3の復号信号b
i−3の後半が窓処理されてb
i−3w
2が得られる。
【0110】
フレームi−1のACELP合成信号a
i−1の非エイリアシング部分の前半が窓処理されて、a
i−1w
5が得られる。逆順(a
i−1w
5)Rを得るために折り畳みが用いられる。
【0111】
ACELP合成信号の非エイリアシング部分の後半を、b
i−1と示す。b
i−1に窓処理が行われて、b
i−1w
6が得られる。
【0112】
ベクトル(a
i−3w
1)
R、b
i−3w
2、(a
i−1w
5)
R、b
i−1w
6を合算することにより、逆低遅延フィルタバンク係数yiのエイリアシング成分が以下のように再構成される。
【0114】
同じ分析方法を用いることで、逆変換係数y
iの残りの成分が再構成される。
図12は、AAC−ELDのエイリアシング部分の生成処理の詳細を示す。
【0116】
図12に示すように、AAC−ELDフレームiのエイリアシング部分が得られる。
【0118】
デコーダの窓[w
R,8、w
R,7、w
R,6、w
R,5、w
R,4、w
R,3、w
R,2、w
R,1]が適用されて、窓処理されたエイリアシング部分
【数27】
が得られる。
【0120】
再生成されたAAC−ELDのエイリアシング部分を用いて、後続のAAC−ELDフレームのエイリアシング除去を続行することができる。
【0121】
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、MDCT係数を用いてAAC−ELDモードのエイリアシング成分を生成して、AAC−ELDモードによって符号化された後続フレームのエイリアシングを容易に除去できるようにする。本発明は、2つの符号化モードを有する低遅延スピーチおよびオーディオハイブリッドコーデックにおいて、ACELPモードからのAAC−ELDモードへのシームレスな遷移を実現する。
【0122】
(第8の実施の形態)
第8の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
【0123】
第8の実施の形態の原理は、第7の実施の形態と同じである。デコーダの構成は、第7の実施の形態と異なる。
【0124】
第8の実施の形態において、AAC−ELDモード、ACELPモード、およびTCXモードの3つの復号モードがある。第8の実施の形態の構成は、第4の実施の形態の構成と同じである。
【0125】
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、AAC−ELDモードのエイリアシングを生成して、AAC−ELDモードによって符号化された後続フレームのエイリアシングを容易に除去できるようにする。本発明は、3つの符号化モードを有する低遅延スピーチおよびオーディオハイブリッドコーデックにおいて、ACELPモードからのAAC−ELDモードへのシームレスな遷移を実現する。
【0126】
(第9の実施の形態)
第9の実施の形態において、AAC−ELDモードがTCXモードに切り替えられる遷移フレームを符号化するためにブロック切替アルゴリズムを有するスピーチおよびオーディオエンコーダを考案する。
【0127】
デコーダにおけるAAC−ELDモードに起因する先行フレームのエイリアシングを除去するために、TCXフレームサイズを拡張する。本実施の形態において、ブロック切替アルゴリズムは、対象フレームを先行フレームと連結して、通常のフレームサイズよりも長い拡張フレームを形成する。この拡張フレームは、エンコーダにおいてTCXモードにより符号化される。
【0128】
エンコーダの構成は、第2の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第2の実施の形態とは異なる。本実施の形態は、AAC−ELDモードがTCXモードに切り替えられる遷移フレームを符号化するためのものである。
【0129】
図13は、符号化処理を示す。先行フレームはAAC−ELDモードにより符号化される。AAC−ELDモードに起因する先行フレームi−1のエイリアシングを除去するために、対象フレームiを先行フレームi−1と連結して長いフレームを形成する。処理フレームサイズは、2Nであり、Nはフレームサイズである。拡張されたフレームは、
図13に示すように、TCXによって符号化される。
【0130】
TCXモードの窓のサイズはNである。TCXモードにおいて、重複する長さは
【数29】
である。したがって、拡張フレームは、
図13に示されるように、3つのTCX窓を含む。
【0131】
(効果)
ブロック切替アルゴリズムを有する本実施の形態のエンコーダは、符号化モードがAAC−ELDモードからTCXモードに切り替えられる時、デコーダにおけるエイリアシングを容易に除去できるようにし、3つの符号化モードを有する低遅延のスピーチおよびオーディオハイブリッドコーデックにおいてAAC−ELD符号化技術とTCX符号化技術とをシームレスに組み合わせることができる。
【0132】
(第10の実施の形態)
第10の実施の形態において、AAC−ELDモードがTCXモードに切り替えられる遷移フレームを復号するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
【0133】
本実施の形態において、対象フレームをフレームiと示す。AAC−ELDモードに起因する先行フレームi−1のエイリアシングを除去するために、ブロック切替アルゴリズムは、フレームiのTCX合成信号とフレームi−2の再構成信号とを用いて逆エイリアシング成分を生成する。
【0134】
デコーダの構成は、第4の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第4の実施の形態とは異なる。
図14は、ブロック切替処理を示す。
【0135】
第9の実施の形態によると、対象遷移フレームは、処理フレームサイズ2Nを用いて、TCXモードにより符号化される。ここで、Nはフレームサイズである。第9の実施の形態におけるエンコーダによると、デコーダにおける合成に、TCX合成を用いる。TCX合成信号は、長さ2Nを有する[a
i−1+エイリアシング、b
i−1、a
i、b
i+エイリアシング]である。
図14においてサブフレーム1401として示す非エイリアシング部分のb
i−1は、サブフレーム1402のエイリアシング成分を生成するために用いられる。
【0136】
先行フレームi−1のAAC−ELD合成信号をyi−1で示し、長さは4Nである。背景技術において述べたAAC−ELD逆変換に基づき、yi−1を以下のように示す。
【0138】
サブフレーム1402として示すAAC−ELDエイリアシング成分−a
i−3w
3+(b
i−3w
4)
R+a
i−1w
7−(b
i−1w
8)
Rは、サブフレーム1401のTCX合成信号b
i−1と、サブフレーム1403、1040として示すフレームi−2における再構成信号out
i−2=[a
i−3、b
i−3]とを用いて除去される。遷移フレームが再構成される。
【0139】
図14におけるエイリアシング除去処理の詳細は、
図8の説明と同じである。
図23におけるサブフレーム2301は、サブフレーム1401の非エイリアシング部分b
i−1によって置き換えられる。エイリアシング部分であるサブフレーム2302は、
図14において1402と置き換えられる。サブフレーム2304および2305として示される非エイリアシング部分は、out
i−2=[a
i−3、b
i−3]により置き換えられ、
図14においてサブフレーム1403および1404として示される。遷移フレームiの再構成信号は、[a
i−1、b
i−1]である。
【0140】
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、AAC−ELDモードに起因するフレームi−1のエイリアシングを除去する。これにより、低遅延のハイブリッドスピーチおよびオーディオコーデックにおいて、AAC−ELDモードからTCXモードへのシームレスな遷移を実現する。
【0141】
(第11の実施の形態)
第11の実施の形態において、TCXモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
【0142】
対象の遷移フレームは、フレームiと示し、このフレームiがAAC−ELDモードで符号化される。先行フレームは、TCXモードにより符号化されている。AAC−ELD低遅延フィルタバンクに起因するフレームiのエイリアシングを除去するために、ブロック切替アルゴリズムは、対象フレームを先行する3フレームとともにAAC−ELDモードで符号化する。
【0143】
エンコーダの構成は、第2の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第2の実施の形態とは異なる。
【0144】
図15は、エンコーダにおいてTCXモードがAAC−ELDモードに切り替えられる遷移フレームに対する符号化処理を示す。第9の実施の形態によると、重複する長さは、TCXモードにおいて
【数31】
であり、Nはフレームサイズである。通常のTCXモードにより符号化されたフレームに対して、
図15に示すように2つのTCX窓が適用される。
【0145】
図15に示されるように、対象の遷移フレームに対してAAC−ELDモードが直接適用されている。
【0146】
(効果)
第11の実施の形態におけるエンコーダは、TCXモードがAAC−ELDモードに切り替えられる時にデコーダにおいて行われるエイリアシングの除去を容易にする。本実施の形態におけるブロック切替アルゴリズムは、低遅延のスピーチおよびオーディオハイブリッドコーデックにおけるAAC−ELD符号化技術とTCX符号化技術とのシームレスな組み合わせを実現する。
【0147】
(第12の実施の形態)
第12の実施の形態において、TCXモードがAAC−ELDモードに切り替えられる遷移フレームを復号するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
【0148】
本実施の形態におけるブロック切替アルゴリズムは、TCX合成信号およびフレームi−2の再構成信号を用いてAAC−ELDのエイリアシングを生成し、ブロックを切り替えるために、AAC−ELDのエイリアシングを除去する。
【0149】
図16は、TCXモードがAAC−ELDモードに切り替えられる遷移フレームに対応する復号処理を示す。第11の実施の形態に記載のエンコーダによると、先行フレームはTCXモードで符号化される。TCX合成後、TCXで合成された信号は、[b
i−2+エイリアシング、a
i−1、b
i−1+エイリアシング]であり、
【数32】
の長さを有する。a
i−1は、
図16においてサブフレーム1601と示す。
【0150】
対象フレームiに対して、逆低遅延フィルタバンクの後、以下に示すように、逆変換信号はy
iと示され、長さ4Nを有する。
【0152】
エイリアシング部分である、−(a
i−3w
1)
R−b
i−3w
2+(a
i−1w
5)
R+b
i−1w
6は、サブフレーム1602として示され、TCX合成信号a
i−1およびサブフレーム1603、1604として示されるフレームi−2における再構成信号out
i−2=[a
i−3、b
i−3]により除去されて、遷移フレーム[a
i−1、b
i−1]の信号を再構成する。
【0153】
図17は、エイリアシング除去の一例を示す。フレームi−2の再構成信号a
i−3が窓処理されて、
図17に示すようにa
i−3w
1が得られる。a
i−3w
1の逆ベクトルを、(a
i−3w
1)
Rと示す。
【0154】
out
i−2の後半が窓処理されて、b
i−3w
2が得られる。
【0155】
TCX合成信号a
i−1が窓処理されて、a
i−1w
5が得られる。a
i−1w
5の逆順は、(a
i−1w
5)
Rである。
【0156】
再度生成されたエイリアシング成分b
i−1w
6を加算および逆窓処理することにより、サブフレーム1701(b
i−1)が再構成される。対象遷移フレームを得るために、サブフレーム1701が、
図17に示すようにサブフレーム1601と連結される。
【0157】
量子化の誤差により、連結部分の境界は滑らかではない。アーチファクトを除去するために、境界の平滑化に適応したアルゴリズムを考案する。
図24は、サブフレーム境界平滑化処理を示す。
【0158】
サブフレーム1701(b
i−1)は、TCX窓形状により窓処理される。折り畳みおよび展開処理を適用してMDCT−TCXエイリアシング成分を生成する。得られた結果と、元々はMDCT−TCX逆変換に起因するサブフレーム1605のエイリアシング部分とが重ね合わされて、サブフレーム2401が得られる。サブフレーム1601と2401との間の境界は、重複加算処理により滑らかになる。過渡信号[a
i−1、b
i−1]が再構成される。
【0159】
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、AAC−ELDモードに起因するフレームiのエイリアシングを除去する。これにより、TCXモードからAAC−ELDモードへのシームレスな遷移を実現する。
【0160】
(第13の実施の形態)
第13の実施の形態において、低遅延のスピーチおよびオーディオハイブリッドコーデックにおいて過渡信号を符号化するための符号化方法を考案する。
【0161】
AAC−ELDコーデックにおいて、ロングウインドウ形状のみが用いられる。これにより、エネルギーが急激に変化する過渡信号の符号化性能が低下する。過渡信号に対処するには、ショートウインドウが好ましい。本実施の形態では、過渡信号符号化アルゴリズムを考案する。過渡信号を有する対象フレームiが、先行フレームと連結されて、より長いフレームサイズを有する拡張フレームを形成する。複数のショートウインドウおよびMDCTフィルタバンクが、この処理されたフレームの符号化に用いられる。
【0162】
エンコーダの構成は、第1および第2の実施の形態と同じである。
図18は、エンコーダにおける符号化処理を示す。先行するフレームi−1は、先行する3つのフレームとともにAAC−ELDモードによって符号化される。フレームiは、
図18に示すように先行フレームと連結される。拡張された長い遷移フレームの長さは、
【数34】
である。長さ
【数35】
を有する6つのショートウインドウが、拡張フレームに適用される。ショートウインドウ形状は、MDCTフィルタバンクによって用いられる対称のウィンドウであればどのような形状でもよい。MDCTフィルタバンクは、ショートウインドウ処理された信号に適用される。
【0163】
(効果)
本実施の形態のエンコーダは、過渡信号処理アルゴリズムを提供し、AAC−ELD符号化技術を用いる低遅延ハイブリッドコーデックの音質を向上させる。
【0164】
(第14の実施の形態)
第14の実施の形態において、過渡信号を復号するためのスピーチおよびオーディオハイブリッドデコーダを考案する。
【0165】
第13の実施の形態において説明したように、過渡フレームiは、ショートウインドウMDCTによって符号化される。AAC−ELDモードに起因するフレームi−1のエイリアシングを除去するために、本実施の形態における過渡信号復号方法は、フレームiの逆MDCT変換信号とフレームi−3の再構成信号とを用いてAAC−ELDモードの逆エイリアシングを生成する。
【0166】
過渡フレームの復号処理を、
図19に示す。第13の実施の形態に記載の符号化処理によると、IMDCTおよび重複加算した後、信号1902は、[a
i−1+エイリアシング、b
i−1、a
i、b
i+エイリアシング]となり、長さ
【数36】
を有する。
【0167】
MDCTからの非エイリアシング部分b
i−1は、
図19において1902として示されており、フレームi−1のAAC−ELD逆変換信号y
i−11904およびフレーム
i−3の再構成信号out
i−2=[a
i−3、b
i−3]1905は、信号[a
i−1、b
i−1]を再構成するために
図19のブロック1901に送信される。したがって、フレームiの出力は[a
i−1、b
i−1]である。
【0168】
図19におけるブロック1901の処理は、
図8と同じである。
図23におけるサブフレーム2301は、非エイリアシング部分1902により置き換えられる。
図19におけるエイリアシング部分であるサブフレーム2302は、1904によって置き換えられる。サブフレーム2304、2305と示される非エイリアシング部分は、
図19の1905と示されるout
i−2=[a
i−3、b
i−3]によって置き換えられる。
【0169】
(効果)
本実施の形態のデコーダは、過渡信号の符号化性能を向上させるために、過渡信号処理方法を提供する。その結果、AAC−ELD符号化技術を用いる低遅延ハイブリッドコーデックの音質が向上する。