(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
以下、図面を参照して本発明の実施形態について具体的に説明する。本明細書の実施形態を説明するに際して、関連した公知構成又は機能に関する具体的な説明が本明細書の要旨を不明瞭にする恐れがあると判断される場合には、その詳細な説明を省略する。
【0012】
ある構成要素が他の構成要素に「連結されて」いる又は「接続されて」いると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されていることもあるが、中間に他の構成要素が存在できるとも理解されなければならない。さらに、本発明において特定構成を「含む」と記述する内容は、当該構成以外の構成を排除するものではなく、追加的な構成が本発明の実施又は本発明の技術的思想の範囲に含まれ得ることを意味する。
【0013】
第1、第2などの用語は、種々の構成要素を説明するのに使用することがあるが、この構成要素等は、この用語等によって限定されてはならない。この用語等は、一つの構成要素を他の構成要素から区別する目的としてだけ使用される。例えば、本発明の権利範囲を逸脱せずに、第1の構成要素を第2の構成要素と呼ぶことができ、同様に、第2の構成要素を第1の構成要素と呼ぶことができる。
【0014】
また、本発明の実施形態に現れる構成部は、別個の特徴的な機能を表すために独立して図示されるものであって、各構成部が分離されたハードウェア又は一つのソフトウェア構成単位でなされることを意味しない。すなわち、各構成部は、説明の便宜上、個別に配置されるものであって、各構成部のうち、少なくとも2個の構成部を組み合わせて一つの構成部としてもよいし、一つの構成部が複数個の構成部に分けられて機能を果たしてもよい。このような各構成部の統合された実施形態及び分離された実施形態も本発明の本質から外れない限り、本発明の権利範囲に含まれる。
【0015】
また、一部の構成要素は、本発明で本質的な機能を行う必須な構成要素ではなく、単に性能を向上させるための選択的構成要素であってよい。本発明は、単に性能向上のために使用される構成要素を除いた、本発明の本質を実現するのに必須な構成部だけを含んで実現することができ、単に、性能向上のために使用される選択的構成要素を除いた必須構成要素だけを含む構造も本発明の権利範囲に含まれる。
【0016】
図1は、本発明の実施形態による音声符号化器を示した概念図である。
【0017】
図1に示すように、音声符号化器は、帯域幅確認部103、サンプリング変換部106、前処理部109、帯域分割部112、線形予測分析部115、118、線形予測量子化部121、124、TCXモード実行部127、CELPモード実行部136、モード選択部151、帯域予測部154、及び補償利得予測部157を備えることができる。
【0018】
図1は、音声符号化器を説明するための一つの実施形態であって、本発明の本質から外れない限り、本発明の実施形態による音声符号化器は他の構成を有することができる。また、
図1に示された各構成部は、音声符号化器における別個の特徴的な機能を示すために独立して図示したものであって、各構成部が分離されたハードウェア又は一つのソフトウェア構成単位でなされることを意味しない。すなわち、各構成部は、説明の便宜上、各々の構成部を個別に配置したものであって、各構成部のうち、少なくとも2つの構成部を組み合わせて一つの構成部としてもよいし、一つの構成部が複数個の構成部に分けられて機能を果たしてもよい。このような各構成部の統合された実施形態及び分離された実施形態も本発明の本質から外れない限り、本発明の権利範囲に含まれる。また、一部の構成要素は、本発明において本質的な機能を果たす必須な構成要素ではなく、単に性能を向上させるための選択的構成要素であってよい。例えば、音声信号の帯域幅によっては、
図1から不要な構成部が除かれた音声符号化器を実現してもよく、このような音声符号化器の実施形態も本発明の権利範囲に含まれる。
【0019】
本発明は、単に性能向上のために使用される構成要素を除いた、本発明の本質を実現するのに必須な構成部だけを含んで実現することができ、単に性能向上のために使用される選択的構成要素を除いた必須構成要素のみを含む構造も本発明の権利範囲に含まれる。
【0020】
帯域幅確認部103は、入力される音声信号の帯域幅情報を判断することができる。音声信号は、帯域幅によって、約4kHzの帯域幅を有し、公衆交換電話網(PSTN)で多く使用される狭帯域信号と、約7kHzの帯域幅を有し狭帯域の音声信号より自然な、高音質音声又はAMラジオで多く使用される広帯域信号と、約14kHz程度の帯域幅を有し、音楽、デジタル放送のように音質が重要視される分野で多く使用される超広帯域信号(Super widebandと)、20kHz程度の帯域幅を有する全帯域(fullband)とに分類することができる。帯域幅確認部103では、入力された音声信号を周波数領域に変換して現在の音声信号の帯域幅を判断することができる。
【0021】
音声符号化器では、音声の帯域幅によって符号化動作が変わることがある。例えば、入力音声が超広帯域信号である場合、帯域分割部112ブロックだけに入力され、サンプリング変換部106は動作しない。入力音声が狭帯域信号又は広帯域信号である場合、信号はサンプリング変換部106ブロックだけに入力され、帯域分割部112ブロック以後のブロック115、121、157、154は動作しない。実施例によっては、入力される音声信号の帯域幅が固定されている場合、帯域幅確認部103は音声符号化器に備えられないこともある。
【0022】
サンプリング変換部106は、入力された狭帯域信号又は広帯域信号を一定の標本化速度に変更することができる。例えば、入力された狭帯域音声信号の標本化速度が8kHzである場合、12.8kHzにアップサンプリングして高周波音声帯域信号を生成することができ、入力された広帯域音声信号が16kHzである場合、12.8kHzにダウンサンプリングを行って低周波音声帯域信号を作ることができる。内部サンプリング周波数は、12.8kHzとは異なるサンプリング周波数であってもよい。
【0023】
前処理部109は、サンプリング変換部106から変換された内部サンプリング周波数を有した音声信号に対して前処理を行い、前処理部109の後段で音声パラメータを効果的に算出できるようにする。例えば、高域通過ろ波又はプリエンファシスろ波のようなろ波を使用して重要な領域の周波数成分を抽出することができる。例えば、音声帯域幅によって遮断周波数を異なるように設定して、相対的に重要さが低い情報が集まっている周波数帯域である超低周波(very low frequency)を高域通過ろ波することによって、フォーカスをパラメータ抽出時に必要な重要帯域に合わせることができる。さらに他の例として、プリエンファシスろ波を使用して入力信号の高い周波数帯域を強化し、低周波領域及び高周波領域のエネルギを調整して、線形予測分析の際、解像度を増加させることができる。
【0024】
帯域分割部112は、入力された超広帯域信号のサンプリング周波数を変換し、上位の高周波音声帯域と下位の低周波音声帯域とに分割することができる。例えば、32kHzの音声信号を25.6kHzのサンプリング周波数に変換し、高周波音声帯域と低周波音声帯域とに12.8kHzずつ分割することができる。分割された帯域のうち低周波音声帯域は、前処理部109に伝送してろ波することができる。
【0025】
線形予測分析部118は、線形予測係数(Linear Prediction Coefficient、LPC)を算出することができる。線形予測分析部118では、音声信号の周波数スペクトルの全体形状を示すフォルマントをモデル化することができる。線形予測分析部118では、元の音声信号と、線形予測分析部118で算出された線形予測係数を用いて生成した予測音声信号との差である誤差値の平均2乗誤差(MSE)が最も小さくなるようにLPC係数値を算出することができる。LPC係数を算出するためには、自己相関法又は共分散法など、様々なLPC係数算出方法を使用することができる。
【0026】
線形予測量子化部124では、低周波音声帯域音声信号に対して抽出されたLPC係数をLSP又はLSFのような周波数領域の変換係数に変換して量子化することができる。LPC係数は、大きな変動範囲(Dynamic Range)を有するため、このようなLPC係数をそのまま伝送すると圧縮率が低下する。したがって、周波数領域に変換された変換係数を使用して少ない情報量でLPC係数情報を生成することができる。線形予測量子化部124では、LPC係数情報を量子化して符号化し、逆量子化を行って時間領域に変換されたLPC係数を用いてフォルマント成分を除いた信号であるピッチ情報成分と、ランダム信号を含む線形予測残余信号とを線形予測量子化部124の後段に伝送することができる。高周波音声帯域では、線形予測残余信号が補償利得予測部157に伝送され、低周波音声帯域では、TCXモード実行部127とCELP実行部136とに伝送されることができる。
【0027】
以下、本発明の実施形態では、狭帯域信号又は広帯域信号の線形予測残余信号を変換符号化励起(Transform Coded Excitation、TCX)モード又は符号励起線形予測(Code Excited Linear Prediction、CELP)モードで符号化する方法について説明する。
【0028】
図2は、本発明の実施形態によるTCXモードを行うTCXモード実行部を示した概念図である。
【0029】
TCXモード実行部は、TCX変換部200、TCX量子化部210、TCX逆変換部220、及びTCX合成部230を備えることができる。
【0030】
TCX変換部200では、DFT又は修正離散コサイン変換(MDCT)のような変換関数に基づいて入力された残余信号を周波数領域に変換することができ、変換係数情報をTCX量子化部210に伝送することができる。
【0031】
TCX量子化部210では、TCX変換部200を介して変換された変換係数に対して様々な量子化方法を使用して量子化を行うことができる。本発明の実施形態によれば、TCX量子化部210で選択的に周波数帯域によって量子化を行うことができ、また、AbSを用いて最適の周波数組合せを算出することができ、このような実施形態については、以下、本発明の実施形態で詳述する。
【0032】
TCX逆変換部220では、量子化された情報に基づいて変換部で周波数領域に変換された線形予測残余信号を再度時間領域の励起信号に逆変換することができる。
【0033】
TCX合成部230は、逆変換されたTCXモードで量子化された線形予測係数値及び復元された励起信号を用いて合成された音声信号を算出することができる。合成された音声信号は、モード選択部151に提供され、TCXモードで復元された音声信号は、この後、後述するCELPモードで量子化され、復元された音声信号と比較される。
【0034】
図3は、本発明の実施形態によるCELPモードを行うCELPモード実行部を示した概念図である。
【0035】
CELPモード実行部は、ピッチ検出部300、適応符号表検索部310、固定符号表検索部320、CELP量子化部330、CELP逆変換部340、及びCELP合成部350を備えることができる。
【0036】
ピッチ検出部300では、線形予測残余信号に基づいてピッチの周期情報及びピーク情報を自己相関法のような開ループ方式で求めることができる。
【0037】
ピッチ検出部300では、合成された音声信号と実際の音声信号とを比較してピッチ周期(ピーク値)を算出することができる。算出されたピッチ情報は、CELP量子化部で量子化され、適応符号表検索部に伝達されてピッチ周期(ピッチ値)をAbSのような方法で算出することができる。
【0038】
適応符号表検索部310は、ピッチ検出部300で算出された量子化されたピッチ情報に基づいて、AbSのような方法で線形予測残余信号からピッチ構造を算出することができる。適応符号表検索部310では、ピッチ構造を除いた残りのランダム信号成分が算出される。
【0039】
固定符号表検索部320は、適応符号表検索部310から算出されたランダム信号成分に対して、符号表インデクス情報及び符号表利得情報を用いて符号化を行うことができる。固定符号表検索部320で算出された符号表インデクス情報及び符号表利得情報は、CELP量子化部330で量子化することができる。
【0040】
CELP量子化部330は、前述したように、ピッチ検出部300、適応符号表検索部310、固定符号表検索部320で算出されたピッチ関連情報、及び符号表関連情報を量子化することができる。
【0041】
CELP逆変換部340は、CELP量子化部330で量子化された情報を利用して励起信号を復元することができる。
【0042】
CELP合成部350は、逆変換されたCELPモードで量子化された線形予測残余信号である復元された励起信号に対して線形予測の逆過程を行って、復元された音声信号及び量子化された線形予測係数に基づいて合成された音声信号を算出することができる。CELPモードで復元された音声信号はモード選択部151に提供され、前述したTCXモードで復元された音声信号と比較することができる。
【0043】
モード選択部151では、TCXモードで復元された励起信号で生成したTCX復元音声信号と、CELPモードで復元された励起信号で生成したCELP復元音声信号とを比較して、元の音声信号と最も類似した信号を選択することができ、どのモードで符号化されたかに関するモード情報も符号化することができる。選択情報は、帯域予測部154に伝送することができる。
【0044】
帯域予測部154では、モード選択部151から伝送された選択情報と、復元された励起信号とを用いて高周波音声帯域の予測励起信号を生成することができる。
【0045】
補償利得予測部157は、帯域予測部154から伝送された高周波音声帯域予測励起信号と高周波音声帯域予測残余信号とを比較してスペクトル上の利得を補償することができる。
【0046】
図4は、本発明の実施形態による音声復号器を示した概念図である。
【0047】
図4に示すように、音声復号器は、逆量子化部401、402、逆変換部405、第1の線形予測合成部410、サンプリング変換部415、後処理ろ波部420、445、帯域予測部440、利得補償部430、第2の線形予測合成部435、及び帯域合成部440を備えることができる。
【0048】
逆量子化部401、402は、音声符号化器で量子化されたパラメータ情報を逆量子化して音声復号器の各構成部に提供することができる。
【0049】
逆変換部405では、TCXモード又はCELPモードで符号化された音声情報を逆変換して励起信号を復元することができる。本発明の実施形態によれば、逆変換部では、音声符号化器で選択された一部帯域に対する逆変換だけを行うことができ、このような実施形態については、以下、本発明の実施形態で詳述する。復元された励起信号は、第1の線形予測合成部410と帯域予測部425とに伝送することができる。
【0050】
第1の線形予測合成部410は、逆変換部405から伝送された励起信号と、音声符号化器から伝送された線形予測係数情報とを利用して低周波音声帯域信号を復元することができる。復元された低周波音声帯域音声信号は、サンプリング変換部415と帯域合成部440とに伝送されることができる。
【0051】
帯域予測部425は、逆変換部405から伝送された復元された励起信号値に基づいて高周波音声帯域の予測励起信号を生成することができる。
【0052】
利得補償部430では、帯域予測部425から伝送された高周波音声帯域予測励起信号と、符号化器から伝送された補償利得値とに基づいて超広帯域音声信号のスペクトル上の利得を補償することができる。
【0053】
第2の高周波音声帯域線形予測合成部435は、利得補償部430から伝送された補償された高周波音声帯域予測励起信号値と、音声符号化器から伝送された線形予測係数値とに基づいて高周波音声帯域の音声信号を復元することができる。
【0054】
帯域合成部440では、第1の線形予測合成部410から伝送された復元された低周波音声帯域信号と、第2の高周波音声帯域線形予測合成部435から伝送された復元された高周波音声帯域信号との帯域を合成して帯域合成を行うことができる。
【0055】
サンプリング変換部415では、内部サンプリング周波数値を再度元のサンプリング周波数値に変換することができる。
【0056】
後処理ろ波部420、445は、例えば、前処理部でプリエンファシスフィルタの逆ろ波をすることができるデエンファシスフィルタを含んでもよい。このようなろ波だけでなく、後処理ろ波部は、量子化エラーの最小化及び高調波のピークを回復し、谷(valley)を抑圧する動作など、種々の後処理動作を行うことができる。
【0057】
前述したように、
図1及び
図2で説明した音声符号化器は、本発明で説明された発明が使用される一つの例示であって、本発明の本質から外れない限り、他の音声符号化器の構造を使用することができ、このような実施形態も本発明の本質に含まれる。
【0058】
図5〜7は、本発明の実施形態によるTCXモードで符号化を行う方法を示した順序図である。
【0059】
本発明の実施形態によるTCX符号化方法では、信号の重要度によって量子化を選択的に行う方法を使用することによって、高い符号化効率を有することができる。
【0060】
図5に示すように、入力された音声信号に対してターゲット信号を算出する(ステップS500)。ターゲット信号は、時間軸で音声サンプル間の短期間相関性を除去した線形予測残余信号である。
【0061】
Aw(z)は、LPC分析及び量子化部を経た後の量子化された線形予測係数LPCなどからなるフィルタを示す。入力信号は、Aw(z)フィルタを通過して線形予測残余信号を出力することができる。このような線形予測残余信号は、TCXモードを用いた符号化対象の信号であってよい。
【0062】
前のフレームがTCXモードでない他のモードで符号化された場合、無入力応答(Zero Input Response、ZIR)を除去する(ステップS510)。
【0063】
例えば、前のフレームがTCXモードでないACELPで符号化されたフレームである場合、前の入力信号による出力値の効果をなくすために、加重された信号から、加重フィルタと合成フィルタとの組合せの無入力応答を除去してもよい。
【0064】
適応的窓開け(Adaptive windowing)を行う(ステップS520)。
【0065】
線形予測残余信号は、前述したように、TCX又はCELPのように複数個の方法で符号化することができる。連続したフレームが別個の方法で符号化される場合、フレームの境界面で音声品質の低下が起こる可能性がある。したがって、前のフレームが現在フレームと異なるモードで符号化された場合、窓開けを使用してフレーム間の連続性が得られる。
【0066】
次に変換を行う(ステップS530)。
【0067】
窓開けされた線形予測残余信号を、DFT又はMDCTのような変換関数を使用して、時間領域信号から周波数領域信号に変換することができる。
【0068】
図6に示すように、ステップS530を介して変換された線形予測残余信号に対してスペクトル予整形(spectrum preshaping)及び帯域分割を行う(ステップS600)。
【0069】
本発明の実施形態による音声信号帯域分割方法は、線形予測残余信号を周波数によって低周波音声帯域と高周波音声帯域とに分けて符号化を行うことができる。帯域を区分する方法を使用することによって、帯域が有する重要度によって量子化を行うか否かを決定することができる。以下、本発明の実施形態では、低周波音声帯域の一部周波数帯域を固定して量子化を行い、残りの上位高周波の周波数帯域のうち、エネルギ比重の高い帯域を選択して量子化を行う方法について説明する。量子化を行う帯域を量子化対象の周波数帯域という用語で表すことができ、また、複数個の固定された低周波音声帯域を固定低周波音声帯域という用語で、選択的に量子化を行う複数個の高周波音声帯域を選択高周波音声帯域という用語で表すことができる。
【0070】
周波数帯域を高周波音声帯域と低周波音声帯域とに区分し、区分された周波数帯域で量子化を行う周波数帯域を選択することは任意である。したがって、本発明の本質から外れない限り、他の方式の周波数帯域区分方法を使用して周波数帯域を選択することができ、また、各周波数帯域に対して量子化を行う帯域の個数は変えてもよい。このような発明の実施形態も本発明の権利範囲に含まれる。以下、本発明の実施形態では、説明の便宜上、変換方法としてDFTを使用した場合についてだけ説明するが、他の変換方法(例えば、MDCT)を使用することもでき、このような実施形態も本発明の権利範囲に含まれる。
【0071】
スペクトル予整形を介してTCXモードのターゲット信号は周波数領域の係数に変換される。本発明の実施形態では、説明の便宜上、内部動作サンプリング周波数12.8kHzでの20ms(256サンプル)のフレーム区間を処理する過程を説明するが、フレームサイズの変更によって具体的な値(周波数係数の個数及び帯域分割の特定値など)は任意である。
【0072】
周波数領域の係数は、288サンプルを有する周波数領域に変換することができ、また、変換された周波数領域の信号は、8個のサンプルを有する36個の帯域に分割することができる。周波数領域の信号は、8個のサンプルを有する36個の帯域に分割するために、変換係数の実数部と虚数部とを交互に再配置した後、グループ分けする予整形を行うことができる。例えば、288サンプルをDFTするとき、周波数領域では、Fs/2を中心として対称であるため、符号化する係数は144個の周波数領域サンプルであってよい。1個の周波数領域係数は実数部及び虚数部で構成される。したがって、量子化するために、実数部と虚数部とを交互に再配置して、288個を8個ずつグループ分けして36個の帯域を生成することができる。
【0073】
次の式1は、分割された周波数領域信号を示したものである。
【0075】
このとき、4個の低周波音声帯域(X
n(k),n=0,...,3)は固定し、32個の高周波音声帯域のうち、エネルギ分布による重要帯域を4個選択して量子化選択帯域として定義することができる。最終的に量子化選択帯域は、4個の低周波音声帯域及び4個の高周波音声帯域を含む8個の帯域
【数2】
になる。前述したように、量子化を行うための対象周波数帯域の個数は任意であり、変えることができる。選択された帯域の位置に関する情報は復号器に伝送することができる。
【0076】
図8は、本発明の実施形態による量子化対象帯域選択方法の一例を示した図である。
【0077】
図8に示すように、
図8の上段で横軸は、元の線形予測残余信号を周波数帯域に変換したときの周波数帯域を示したものである(800)。前述したように、線形予測残余信号の周波数変換係数は、周波数帯域によって32個の帯域に分割することができ、元のLP残余信号周波数帯域で低周波音声帯域の固定された4個の帯域(820)と、高周波音声帯域の選択的な4個の帯域(840)である8個の帯域とが量子化対象帯域として選択され得る。選択される8個の帯域は、低周波音声帯域の固定された4個の帯域を除いた32個の帯域のうち、エネルギが大きい順に配置し、8個の上位帯域を選択する。
【0078】
さらに
図6を参照すれば、選択された量子化帯域は正規化することができる(ステップS610)。
【0079】
量子化対象周波数帯域は、次の式2を使用して選択された帯域別のエネルギ(E(n),n=0,...,7))を計算して総エネルギE
totalを算出することができる。
【0081】
総エネルギは、選択されたサンプルの数で除して、最終的に正規化される利得値Gを求めることができる。選択された量子化対象の周波数帯域は、次の式3から算出された利得で除して最終的に正規化された信号M(k)を得ることができる。
【0083】
図9は、本発明の実施形態による前述した量子化選択帯域の線形予測残余信号の正規化過程の一例を図示したものである。
【0084】
図9に示すように、
図9の上段は、原線形予測残余信号の周波数変換係数であり、
図9の中段は、原周波数変換係数で選択された周波数領域を示したものである。
図9の下段は、
図9の中段で選択された帯域を正規化した線形予測残余信号の周波数変換係数を示す。
【0085】
さらに
図6を参照すれば、正規化された線形予測残余信号の周波数係数は、帯域別のエネルギ値と平均エネルギ値とを比較して、場合ごとに符号表を異なるように選択して量子化する(ステップS620)。
【0086】
符号表の符号語と量子化すべき正規化された信号の最小2乗誤差(MMSE)とを求めて符号表のインデクスを選択することができる。
【0087】
本発明の実施形態では、所定の数式によって別個の符号表を選択することができる。量子化対象の周波数帯域で量子化された信号の帯域別のエネルギと平均エネルギとを演算して、量子化対象の周波数帯域のエネルギが平均エネルギより大きい場合、大きいエネルギがある帯域でトレーニングされた第1の符号表を選択し、量子化選択帯域のエネルギが平均エネルギより小さい場合、低いエネルギ比率を有する帯域でトレーニングされた第2の符号表を選択する。平均エネルギと量子化する帯域のエネルギとの比較によって選択された符号表に基づいて形状ベクトル量子化(shape vector quantization)を行うことができる。式4は、帯域別のエネルギ及び帯域別のエネルギの平均値を示したものである。
【0089】
スペクトルを逆整形(deshaping)し、量子化された変換係数を逆変換して時間軸の線形予測残余信号を復元する(ステップS630)。
【0090】
前述したスペクトル予整形過程の逆過程としてスペクトル逆整形を行うことができ、スペクトル逆整形後、逆変換を行うことができる。
【0091】
時間領域の全利得を算出する。これは量子化された線形予測残余信号の逆変換を介して得られる(ステップS640)。
【0092】
全利得は、ステップS520の適応的な窓開けを行った線形予測残余信号と、ステップS630で算出された量子化された係数に逆変換された時間軸予測残余信号とに基づいて算出することができる。
【0093】
図7に示すように、ステップS640によって量子化された線形予測残余信号に対して再度適応的窓開けを行う(ステップS700)。
【0094】
復元された線形予測残余信号に対して適応的に窓開けを行うことができる。
【0095】
後で伝送される信号から窓開けされた重複信号を除去するために、窓開けされた重複信号を記憶する(ステップS710)。重複信号は、前述されたS520での次のフレームと重なる区間と同じであり、記憶される信号は、次のフレームの重ね合わせ/合算過程(S720)で使用される。
【0096】
ステップS700を介して窓開けされた復元された予測残余信号は、前のフレームで記憶された窓開けされた重複信号を重ね合わせ/合算することによって、フレーム間の不連続性を除去する(ステップS720)。
【0097】
擬似背景雑音レベルを算出する(ステップS730)。
【0098】
聴覚的に改善された音質を提供するために、擬似背景雑音を使用することができる。
【0099】
図10は、本発明の実施形態による擬似背景雑音レベルを挿入する方法を示した概念図である。
【0100】
図10の上段は、擬似背景雑音を挿入していない場合、
図10の下段は、擬似背景雑音を挿入した場合を示す。擬似背景雑音は、量子化されていない帯域に満たすことができ、このような擬似背景雑音情報は符号化されて音声復号器に伝送される。音声信号を聴取した場合、擬似背景雑音が挿入されていない信号に対しては、量子化誤差及び帯域の不連続性に対する雑音が聴取されることがあるが、雑音が挿入された信号では、最も安定した音を聴取することができる。
【0101】
したがって、各フレーム別の雑音のレベルは、下記の過程を介して算出され得る。算出された利得(G)を用いて原信号X(k)の上位18個の帯域に対して正規化過程を行う。正規化過程を経た信号
【数6】
の帯域別のエネルギが算出され、算出された帯域の総エネルギ
【数7】
と、平均エネルギ
【数8】
とが算出される。次の式5は、帯域の総エネルギ及び平均エネルギを算出する過程を示したものである。
【0103】
上位18個の帯域に対して
【数10】
のしきい値を越える帯域に対しては、総エネルギ
【数11】
から除外することができる。このとき、定数0.8は実験によって求められた加重値であり、異なる値を使用することもできる。これは、擬似背景雑音のレベルが余りに高い場合、量子化された帯域より雑音が挿入された帯域の影響が大きくなって音質に悪影響を与える恐れがあるため、所定のしきい値以下のエネルギだけを用いてレベルを決定する。
【0104】
図11は、本発明の実施形態による擬似背景雑音算出方法を示した概念図である。
【0105】
図11の上段は、上位18個の周波数帯域の信号を示す。
図11の中段は、しきい値及び上位18個の周波数帯域のエネルギ値を示す。しきい値は、前述したように、エネルギの平均値に任意の値をかけて算出することができ、このようなしきい値を越える周波数帯域のエネルギだけを用いてエネルギのレベルを決定することができる。
【0106】
算出された音声信号(量子化された線形予測残余信号)に対して1/Aw(z)フィルタを適用して音声信号を復元する(ステップS740)。
【0107】
ステップS500でAw(z)を使用したこととは反対に、LPC係数フィルタである1/Aw(z)フィルタを使用して復元音声信号を生成することができる。ステップS730とS740の順序は変えることができ、このような場合も本発明の権利範囲に含まれる。
【0108】
図12は、本発明の実施形態による音声符号化器の一部(TCXモードブロックの量子化部)を示した概念図である。
【0109】
図12では、説明の便宜上、音声符号化器の量子化器で下記において説明する動作がすべて起こることと仮定したものであって、他の音声符号化器の構成部で下記において説明した動作が行われてもよく、このような実施形態も本発明の権利範囲に含まれる。
【0110】
図12に示すように、音声符号化器の量子化部1200は、帯域選択部1210、正規化部1220、符号表判断部1230、擬似背景雑音係数算出部1240、及び量子化実行部1250を備えることができる。
【0111】
帯域選択部1210は、予整形によって帯域を決め、どの帯域を固定低周波音声帯域及び選択高周波音声帯域として選択するかを決定することができる。
【0112】
正規化部1220では、選択された帯域を正規化することができる。前述したように、選択された帯域別のエネルギ、選択されたサンプル数に基づいて正規化する利得値を求め、最終的に、正規化された信号を得る。
【0113】
符号表判断部1230は、所定の判断数式に基づいて当該帯域にどの符号表を適用するかを決定し、符号表インデクス情報を算出することができる。
【0114】
擬似背景雑音係数算出部1240は、所定の周波数帯域に基づいて選択されていない帯域に挿入する雑音レベルを算出することができ、算出された雑音レベル値に基づいて量子化対象でない帯域の雑音係数を計算することができる。音声復号器では、符号化器で量子化された雑音係数に基づいて復元された線形予測残余信号と合成された音声信号を生成することができる。復元された線形予測残余信号は、帯域予測部(
図1の154)の入力として使用され、復元された線形予測残余信号が1/Aw(z)フィルタを通過して生成された合成された音声信号は、モード選択部151の入力として入ってモードを選択するときに使用することができる。また、量子化された雑音係数は、復号器で同じ情報を生成するために量子化して伝送することができる。
【0115】
量子化実行部1250は、符号表インデクス情報を量子化することができる。
【0116】
図13は、本発明の実施形態によるTCXモードブロックの逆量子化過程を示した順序図である。
【0117】
図13に示すように、音声符号化器で伝送された量子化されたパラメータ情報を逆量子化する(ステップS1300)。
【0118】
音声符号化器で伝送された量子化されたパラメータ情報には、利得情報、形状情報、雑音係数情報、選択量子化帯域情報などがあってもよく、このような量子化されたパラメータ情報を逆量子化する。
【0119】
逆量子化されたパラメータ情報に基づいて逆変換を行って音声信号を復元する(ステップS1310)。
【0120】
逆量子化されたパラメータ情報に基づいてどの周波数帯域が選択された周波数帯域であるかを判断し(ステップS1310−1)、判断された結果に応じて選択された周波数帯域には他の符号表を適用して逆変換を行うことができる(ステップS1310−2)。また、逆量子化された擬似背景雑音レベル情報に基づいて、非選択の周波数帯域に雑音レベルを加えることができる(ステップS1310−3)。
【0121】
図14は、本発明の実施形態による音声復号装置の一部(TCXモードブロックの逆量子化部)を示した概念図である。
【0122】
図14において
図12と同様に、説明の便宜上、音声復号器の逆量子化部と逆変換部とで下記において説明する動作がすべて起こることと仮定したものであって、他の音声符号化器の構成部で下記において説明した動作を行ってもよく、このような実施形態も本発明の権利範囲に含まれる。
【0123】
音声復号装置は、逆量子化部1400及び逆変換部1450を備えることができる。
【0124】
逆量子化部1400は、音声符号化装置で伝送された量子化されたパラメータに基づいて逆量子化を行うことができ、利得情報、形状情報、雑音係数情報、選択量子化帯域情報を算出することができる。
【0125】
逆変換部1450は、周波数帯域判断部1410、符号表適用部1420、擬似背景雑音係数適用部1430を備えることができ、逆量子化された音声パラメータ情報に基づいて音声信号を復元することができる。
【0126】
周波数帯域判断部1410は、現在の周波数帯域が固定低周波音声帯域であるか、選択高周波音声帯域であるか、擬似背景雑音係数適用周波帯域であるかを判断することができる。
【0127】
符号表適用部1420は、周波数帯域判断部によって判断された量子化対象周波数帯域及び逆量子化部1400によって伝送された符号表インデクス情報に基づいて、固定低周波音声帯域又は選択高周波音声帯域に応じて異なる符号表を適用することができる。
【0128】
擬似背景雑音係数適用部1430は、擬似背景雑音適用周波帯域に逆量子化された擬似背景雑音係数を適用することができる。
【0129】
図15〜20は、本発明の更に他の実施形態であって、AbS法を使用してTCXモードの符号化を行う方法を示す。
【0130】
図15は、本発明の実施形態によるAbS法を使用するTCXモードで符号化を行う方法を示した概念図である。
【0131】
前述した音声符号化器の場合、低周波音声帯域は固定して量子化し、高周波音声帯域のうち、帯域エネルギに基づいて一部の帯域を選択して量子化する方法を使用した。エネルギ分布が信号の符号化時に、一部性能に比例することはあるが、目的信号、すなわち、音声信号と類似したエネルギ分布を有する周波数帯域のうち、実際音質に影響を及ぼす帯域を選択することが更に重要なことがある。
【0132】
実際TCXモードの量子化ターゲット信号は、聴覚的に聴取される原信号ではなく、Aw(z)フィルタを経た残余信号である。したがって、エネルギが類似する場合、LPC合成フィルタ(1/Aw(z))を介して実際聴取する信号で合成した後、その結果を確認することによって、実際音質に影響を及ぼす帯域を効果的に選択することができ、符号化効率を高めることができる。したがって、以下、本発明の実施形態では、候補帯域等の組合せ及びAbS構造に基づいて最適の帯域を選択する方法について説明する。
【0133】
図15のステップS1500以前は、
図5のステップS500からステップS520までと同じであり、
図15のステップS1540以後は、
図7のステップS700からステップS740までと同じように行うことができる。
【0134】
本発明の一実施形態による音声符号化方法では、
図6と同じ方式で低周波音声帯域では固定低周波音声帯域に基づいて量子化を行うことができ、残りの高周波音声帯域のうち、エネルギ比重の高い帯域を選択して量子化を行い、候補選択高周波音声帯域の数を最終選択する選択高周波音声帯域の数より多く選択されるようにすることができる(ステップS1500)。
【0135】
ステップS1500では、量子化対象周波数帯域を、正規化を行う固定低周波音声帯域と候補選択高周波音声帯域とに分けることができ、候補選択高周波音声帯域は、最終的に選択する選択高周波音声帯域の数より多く選択することができ、この後、分析合成段では、候補選択高周波音声帯域で最適の組合せを探して、最終的に量子化を行う選択高周波音声帯域を決定することができる。
【0136】
ステップS1510及びステップS1520の過程は、前述した
図6のステップS610及びステップS620と同様に選択された量子化帯域に対して正規化を行い(ステップS1510)、正規化された線形予測残余信号は、帯域別のエネルギ値と平均エネルギ値とを比較して、場合に応じて異なる符号表を選択して量子化する(ステップS1520)。
【0137】
AbSブロック(ステップS1540)を実行するために、低周波音声帯域に対する時間領域信号が、固定された4個の帯域に対する周波数逆変換過程によって取得され、高周波音声帯域に対する時間領域信号が、上位高周波音声帯域のうち候補帯域に対する帯域選択逆DFTによって取得される。(ステップS1530)。
【0138】
AbS過程(ステップS1540)は、固定された低周波信号に対しては変化がなく、上位高周波音声帯域を切替え、組み合わせる過程であるため、信号の変化がない低周波信号には、相対的に演算量が少ないIFFTを適用し、各帯域に対する時間領域信号が必要な高周波候補帯域には、帯域別の逆変換が可能な帯域選択逆DFTを適用する。ステップS1530については、下記において詳細に説明する。
【0139】
IFFT及び帯域選択逆DFTを通過した低周波信号と、高周波候補帯域の信号との組合せによって量子化された線形予測残余信号に対する時間領域信号を得て、AbSを使用して最適の組合せを算出する(ステップS1540)。
【0140】
IFFT及び帯域選択逆DFTを通過した低周波信号と、高周波候補帯域の信号との組合せによって生成された復元された候補線形予測残余信号は、AbSブロックの内部に存在する合成フィルタである1/Aw(z)フィルタを通過して可聴信号を作り出すことができる。この信号等は、聴覚加重フィルタを通過して復元された音声信号を生成する。同じフィルタを通過して得た信号の信号対雑音比は、TCXモードの目的信号である線形予測残余信号には量子化を行わないようにして、演算することができる。上記の過程を候補の組合せ個数の分だけ繰り返し行って、最も高い信号対雑音比を有する候補帯域の組合せを選択帯域として最終的に決定することができる。最終的に選択された帯域の変換係数量子化値は、S1520で量子化された候補帯域の変換係数の量子化値から選択される。
【0141】
利得を算出し量子化を行う(ステップS1550)。
【0142】
ステップS1550では、時間軸線形予測残余信号と、ステップS1540で合成された線形予測残余信号とに基づいて利得値を算出することができ、また、利得値を量子化することができる。
【0143】
本発明の実施形態によるAbS構造で提案する帯域選択逆変換(BS−IDFT)は、組合せに必要な帯域等の逆変換を介して演算量を最小化することができる。すなわち、AbS構造の適用時に、固定された低周波音声帯域は相対的に演算量が少ないIFFTを適用し、高周波音声帯域のうち、候補帯域は、各帯域に対する時間領域信号を得るために帯域選択逆変換を適用して演算量を減らすことができる。式6は、本発明の実施形態による逆離散フーリエ変換を示すものである。
【0145】
本発明の実施形態による帯域選択IDFT(BS−IDFT)は、選択された帯域の周波数成分に対する逆変換を実行するため、演算量はk
DFTN
2から帯域のサンプル数(K
band)だけ行うk
bandN
2に減少させることができる。また、BS−IDFTは、IFFT演算を行う場合と比較しても、必要とした部分に対してだけ演算を行うため、演算量を減らすことができる。
【0146】
図16は、本発明の実施形態による帯域選択IDFTがAbS構造に適用される方法を示した概念図である。
【0147】
本発明の実施形態によるAbS法は、逆変換を繰り返し行わないために、AbS構造の外部で帯域選択IDFTを行う方法を使用して、各候補帯域に対する時間軸信号を求めることができる。
【0148】
図16に示すように、4個の固定された低周波音声帯域に対してはIFFTを行い(1600)、高周波音声帯域に対してはAbSブロック(S1540)の外部で逆量子化を行い(1620)、AbSブロック(S1540)の内部で候補帯域の時間領域信号の組合せによって合成を行う(1640)。固定された低周波音声帯域と候補帯域との組合せによって合成された時間軸の復元された線形予測残余信号は、1/Aw(z)フィルタを通過して復元音声信号を生成する。最適比を有する高周波音声帯域信号の組合せは、復元された音声信号と、TCXモードの入力信号、すなわち、量子化される時間軸線形予測信号との信号対雑音比に基づいて選択することができる(1660)。
【0149】
最適な高周波音声帯域信号の組合せを選択するための比較信号として、W(z)のような聴覚認知加重フィルタを通過させた入力音声信号を使用してもよく、このような実施形態は、
図21に説明される。
図17は、本発明の実施形態によるAbS構造の前段で処理される帯域選択IDFTの過程を示した概念図である。
【0150】
図17に示すように、固定された低周波数帯域に対してはIFFTを適用し、候補選択高周波音声帯域では所定の組合せを生成して誤差を最小化する最適の組合せを生成することができる。
【0151】
図17でも同様に、最適の高周波音声帯域信号の組合せを選択するための比較信号として、W(z)のような聴覚認知加重フィルタを通過してろ波された入力音声信号を使用してもよく、このような実施形態は
図22に説明される。
図22及び
図23と同様に、
図19の分割及び合成部でも線形予測残余係数情報の代わりに、入力音声信号を受信して高周波音声帯域信号の組合せを選択するために使用してもよく、このような実施形態は
図23に説明される。
【0152】
図18は、本発明の実施形態による音声符号化器の一部を示した概念図である。
【0153】
図18に示すように、音声符号化器は量子化部1800と、逆変換部1855とを備えることができ、量子化部1800は、帯域分割部1810、正規化部1820、符号表適用部1830、帯域組合せ部1840、擬似背景雑音レベル算出部1850、逆変換部1855、分析合成部1860、及び量子化実行部1870を備えることができる。
【0154】
帯域分割部1810は、周波数帯域を固定低周波音声帯域及び候補選択高周波音声帯域に分けることができる。周波数帯域を、正規化を行う固定低周波音声帯域と候補選択高周波音声帯域とに分けることができる。いくつかの候補選択高周波音声帯域は、組合せによって分析合成部1860で最終選択高周波音声帯域として決定される。
【0155】
正規化部1820では、帯域分割部で選択された帯域である固定低周波音声帯域と選択される候補高周波音声帯域とを正規化することができる。前述したように、選択された帯域別のエネルギ及び選択されたサンプル数に基づいて正規化する利得値を求め、最終的に正規化された信号を得る。
【0156】
符号表適用部1830は、所定の判断数式に基づいて当該帯域にどの符号表を適用するのかを決定することができる。符号表インデクス情報は、量子化実行部1870に伝送されて量子化される。
【0157】
高周波数帯域組合せ部1840は、逆変換部1855でどの選択高周波数帯域を組み合わせて選択するかを決定することができる。
【0158】
量子化実行部1870は、選択された帯域情報、各帯域に適用された符号表インデクス情報、擬似背景雑音係数情報など、LP残余信号を復元するための音声パラメータ情報を量子化することができる。
【0159】
逆変換部1855では、固定低周波音声帯域に対してはIFFT、候補選択高周波音声帯域に対してはBS−IDFTを行って逆変換を行うことができる。
【0160】
分析合成部1860は、BS−IDFTを行った候補選択高周波音声帯域に対しては所定の組合せを行い、繰り返し原信号と比較して最適の選択高周波音声帯域の組合せを選択することができる。最終的に決定された選択高周波音声帯域情報は、量子化実行部1870に伝送される。
【0161】
擬似背景雑音レベル算出部1850は、所定の周波数帯域に基づいて選択されていない帯域に挿入する雑音レベルを決定することができる。雑音レベルに基づいた雑音係数値は、量子化実行部1870を介して量子化されて伝送される。
【0162】
図19は、本発明の実施形態による音声復号方法を示した順序図である。
【0163】
図19に示すように、音声符号化器で伝送された量子化されたパラメータ情報を逆量子化する(ステップS1900)。
【0164】
音声符号化器で伝送された量子化されたパラメータ情報は、利得情報、形状情報、雑音係数情報、符号化器のAbS構造によって量子化対象として選択された選択量子化帯域情報などがあってよく、このような量子化されたパラメータ情報を逆量子化する。
【0165】
逆量子化されたパラメータ情報に基づいて逆変換を行う(ステップS1910)。
【0166】
AbSによって量子化対象として選択された選択量子化帯域情報に基づいて、どの周波数帯域が選択された周波数帯域であるかを判断し(ステップS1910−1)、判断された結果に応じて選択された周波数帯域に異なる符号表を適用して逆変換を行うことができる(ステップS1910−2)。また、逆量子化された擬似背景雑音レベル情報に基づいて、非選択の周波数帯域に雑音レベルを加えることができる(ステップS1910−3)。
【0167】
図20は、本発明の実施形態による音声復号装置の一部を示した概念図である。
【0168】
図20でも説明の便宜上、音声復号器の逆量子化部及び逆変換部で下記において説明する動作がすべて起こることを仮定したものであって、更に他の実施形態では、音声符号化器に含まれた他の構成部で下記において説明した動作を行ってもよく、このような実施形態も本発明の権利範囲に含まれる。
【0169】
音声復号装置は、逆量子化部2000と逆変換部2010とを備えることができる。
【0170】
逆量子化部2000は、音声符号化装置で伝送された量子化されたパラメータに基づいて逆量子化を行うことができ、利得情報、形状情報、雑音係数情報、音声符号化器の分析合成部で選択された選択量子化帯域情報などを算出することができる。
【0171】
逆変換部2010は、周波数帯域判断部2020、符号表適用部2030、及び擬似背景雑音レベル適用部2040を備えることができる。
【0172】
周波数帯域判断部2020は、現在の周波数帯域が固定低周波音声帯域であるか、選択高周波音声帯域であるか、擬似背景雑音レベル適用周波帯域であるかを判断することができる。
【0173】
符号表適用部2030は、周波数帯域判断部によって判断された量子化対象周波数帯域及び逆量子化部2000によって伝送された符号表インデクス情報に基づいて、固定低周波音声帯域又は選択高周波音声帯域によって符号表を異なるように適用することができる。
【0174】
擬似背景雑音係数適用部2040は、擬似背景雑音適用周波数帯域に逆量子化された擬似背景雑音レベルを適用することができる。
【0176】
以上で説明した映像符号化及び映像復号方法は、
図1〜
図4で前述した各音声符号化器及び音声復号器装置の各構成部によって実現することができる。
【0177】
以上、実施形態を参照して説明したが、当該技術分野の熟練された当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得ることが理解できるであろう。