【課題を解決するための手段】
【0006】
一局面において本発明は、音声信号を符号化して符号化信号を生成するための音声エンコーダであって、前記音声エンコーダは、
前記音声信号からフレームを抽出するように構成されたフレーム化装置と、
前記音声信号のフレームから導出したスペクトル信号のスペクトル線を量子化インデックスにマッピングするように構成された量子化器と、を備え、前記量子化器は、前記スペクトル線が量子化インデックス・ゼロに対してマッピングされた不感帯を有し、前記音声エンコーダは更に、
前記不感帯を変更するように構成された制御装置、を備え、
前記制御装置は、少なくとも1つのスペクトル線又は少なくとも1つのスペクトル線群についての少なくとも1つの調性表示値を算出するように構成された調性算出装置を含み、
前記制御装置は、それぞれの前記調性表示値に応じて、前記少なくとも1つのスペクトル線又は前記少なくとも1つのスペクトル線群についての不感帯を変更するように構成される、音声エンコーダを提供する。
【0007】
フレーム化装置は、窓関数を音声信号に適用することによって音声信号からフレームを抽出するように構成することができる。信号処理においては、窓関数(アポディゼーション関数又はテーパリング関数(tapering function)としても知られる)とは、或る選択された間隔の外側で「0」の値にされる数学的関数である。窓関数を信号に適用することによって、信号を短い複数の部分へと分割することができ、通常これらはフレームと呼ばれる。
【0008】
デジタル音声信号処理において、量子化とは、入力値の大集合を、(数えることのできる)より小さな集合、例えば或る精密さの単位に対する丸め値、へとマッピングするプロセスである。量子化を実行する装置又はアルゴリズム機能は量子化器と呼ばれる。
【0009】
本発明によると、音声信号のフレームについてスペクトル信号を算出する。スペクトル信号は、時間領域の信号である音声信号の各フレームのスペクトルを含む場合があり、各スペクトルは、周波数領域におけるフレームの1つを表すものである。周波数スペクトルは、信号の数学的変換によって生成することができ、その結果得られた値は、通常、振幅対周波数として表される。
【0010】
不感帯とは、量子化中に用いられる帯域であり、スペクトル線(周波数ビン)又はスペクトル線群(周波数帯域)が「0」へとマッピングされる。この不感帯は、通常「0」の振幅である下限値と、異なるスペクトル線又はスペクトル線群で異なり得る上限値とを有する。
【0011】
本発明によると、制御装置によって不感帯を変更することができる。制御装置は、少なくとも1つのスペクトル線又は少なくとも1つのスペクトル線群についての少なくとも1つの調性表示値を算出するように構成された調性算出装置を含む。
【0012】
「調性」という用語は、スペクトル信号の調的な特性を指す。一般的には、スペクトルが主に周期的な成分を含むためフレームのスペクトルが支配的なピークを含む場合に調性は高いと言うことができる。調的な特性の反対がノイズ的な特性である。後者の場合、フレームのスペクトルはより平坦である。
【0013】
更に、制御装置は、それぞれの調性表示値に応じて、前記少なくとも1つのスペクトル線又は前記少なくとも1つのスペクトル線群について前記不感帯を変更するように構成される。
【0014】
本発明は、信号適応不感帯による量子化方式であって、
・補足的な情報を必要としないため、既存のメディアコーデックにおいて使用可能であり、
・ビン又は帯域ごとにどの不感帯を用いるべきかを量子化に先立ち決定することで複雑度を減らし、
・帯域周波数及び/又は信号調性に基づいてビン又は帯域ごとの不感帯を決定することができるものを開示する。
【0015】
本発明は、エンコーダにおける信号量子化器のみを変化させるため、既存の符号化インフラにおいて適用可能である。それでも対応のデコーダは、符号化された信号から生成された(変更されていない)ビットストリームを読み出し、出力を復号することが可能である。[非特許文献6]及びそこにおける参照とは異なり、各スペクトル線群又は各スペクトル線についての不感帯が量子化に先立ち選択されるため、量子化演算は、群又はスペクトル線につき1回だけで良い。また、量子化の決定は、2つの可能な不感帯値の間での選択に限定されず、値の全範囲に亘る。この決定については後で詳細に説明する。上述の調性適応量子化方式は、xHE−AAC[非特許文献4]の低遅延の別形であるLD−USACエンコーダの変換符号化励振(TCX)パスにおいて実現することができる。
【0016】
本発明の好ましい一実施例によると、前記制御装置は、前記スペクトル線の1つにおける不感帯が、より大きな調性を有するスペクトル線の1つにおける不感帯よりも大きくなるように、又は、前記スペクトル線群の1つにおける前記不感帯が、より大きな調性を有するスペクトル線群の1つにおける不感帯よりも大きくなるように、前記不感帯を変更するように構成される。この特徴によって、非調的なスペクトル領域が「0」へと量子化される傾向が生じ、このためデータの量を減少させることができる。
【0017】
本発明の好ましい一実施例によると、前記制御装置は、前記音声信号のフレームのパワースペクトルを算出するように構成されたパワースペクトル算出装置を含み、前記パワースペクトルは、スペクトル線又はスペクトル線群についてのパワー値を含み、前記調性算出装置は、前記パワースペクトルに応じて前記少なくとも1つの調性表示値を算出するように構成される。パワースペクトルに基づいて調性表示値を算出することにより、計算の複雑度が極めて低く抑えられる。
【0018】
本発明の好ましい一実施例によると、前記スペクトル線の1つについての調性表示値は、それぞれの前記スペクトル線についての前記パワー値と、前記パワースペクトルにおける、予め規定された数の周辺パワー値の合計との比較に基づいており、又は、前記スペクトル線群の1つについての調性表示値は、それぞれの前記スペクトル線群についての前記パワー値と、前記パワースペクトルにおける、予め規定された数の周辺パワー値の合計との比較に基づいている。パワー値を、これに隣接するパワー値と比較することにより、パワースペクトルにおけるピーク区域又は平坦区域を容易に特定し、調性表示値を容易に算出することができる。
【0019】
本発明の好ましい一実施例によると、前記スペクトル線の1つについての調性表示値は、前記音声信号の先行フレームのスペクトル線の調性表示値に基づき、又は、前記スペクトル線群の1つについての調性表示値は、前記音声信号の先行フレームについてのスペクトル線群の調性表示値に基づく。これらの特徴により、一定の期間に亘って不感帯をスムーズに変更することができる。
【0020】
本発明の好ましい一実施例によると、前記調性表示値は、以下の式によって計算され、
【0021】
【数1】
【0022】
ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、kは、特定のスペクトル線を示すインデックスであり、P
k,iは、i番目のフレームのk番目のスペクトル線のパワー値であり、又は、前記調性表示値は、以下の式によって計算され、
【0023】
【数2】
【0024】
ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、mは、特定のスペクトル線群を示すインデックスであり、P
m,iは、i番目のフレームのm番目のスペクトル線群のパワー値である。式から分かるように、調性表示値は、現在フレームであるi番目のフレームのパワー値、及び、先行フレームであるi−1番目のフレームから算出される。この式は、i−1番目のフレームに対する依存性を削除することで変更することができる。ここで、k番目のパワー値の左7つ及び右7つの隣接するパワー値の合計を算出し、それぞれのパワー値によって除算する。この式を用いると、低い調性表示値は、高い調性を示す。
【0025】
本発明の一実施例によると、前記音声エンコーダは、前記不感帯を変更するための開始周波数を算出するように構成された開始周波数算出装置を含み、前記不感帯は、前記開始周波数以上の周波数を表すスペクトル線についてのみ変更される。これは、不感帯が、低周波数については固定され、高周波数については可変であることを意味する。人間の聴覚系は低周波数に対してより敏感であるため、これらの特徴により音声品質が向上する。
【0026】
本発明の好ましい一実施例によると、前記開始周波数算出装置は、前記音声信号のサンプルレートに基づき、且つ/又は、前記符号化信号から生成されたビットストリームについて予想される最大ビットレートに基づき、前記開始周波数を算出するように構成される。これらの特徴により、音声品質を最適化することができる。
【0027】
本発明の好ましい一実施例によると、前記音声エンコーダは、前記音声信号のフレームから変更後離散余弦変換を算出するように構成された変更後離散余弦変換算出装置と、前記音声信号のフレームから変更後離散正弦変換を算出するように構成された変更後離散正弦変換算出装置と、を含み、前記パワースペクトル算出装置は、前記変更後離散余弦変換及び前記変更後離散正弦変換に基づき前記パワースペクトルを算出するように構成される。変更後離散余弦変換は、音声信号の符号化の目的のためにいずれにせよ算出しなければならないものである。従って、調性適応量子化の目的のためには、変更後離散正弦変換のみを追加的に算出することになる。従って、複雑度を減少させることができる。しかしながら、離散フーリエ変換又は奇関数の離散フーリエ変換といった他の変換を用いても良い。
【0028】
本発明の好ましい一実施例によると、前記パワースペクトル算出装置は、P
k,i=(MDCT
k,i)
2+(MDST
k,i)
2の式によって前記パワー値を算出するように構成され、ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、kは、特定のスペクトル線を示すインデックスであり、MDCT
k,iは、i番目のフレームのk番目のスペクトル線における変更後離散余弦変換の値であり、MDST
k,iは、i番目のフレームのk番目のスペクトル線における変更後離散正弦変換の値であり、P
k,iは、i番目のフレームのk番目のスペクトル線のパワー値である。上記の式によって、パワー値を容易に算出することができる。
【0029】
本発明の好ましい一実施例によると、前記音声エンコーダは、前記スペクトル信号を生成するように構成されたスペクトル信号算出装置を含み、前記スペクトル信号算出装置は、前記不感帯の変更によるエネルギーの損失を補償するように前記スペクトル信号のスペクトル線の振幅を設定するように構成された振幅設定装置を含む。これらの特徴により、エネルギーを節約する態様で量子化を行うことができる。
【0030】
本発明の好ましい一実施例によると、前記振幅設定装置は、それぞれの前記スペクトル線における不感帯の変更に応じて前記スペクトル信号の振幅を設定するように構成される。例えば、不感帯を拡大したスペクトル線を、この目的のために僅かに増幅させることができる。
【0031】
本発明の好ましい一実施例によると、前記スペクトル信号算出装置は、正規化装置を含む。この特徴により、後続の量子化ステップを容易に行うことができる。
【0032】
本発明の好ましい一実施例によると、前記変更後離散余弦変換算出装置によって算出された前記音声信号のフレームからの変換後離散余弦変換は、前記スペクトル信号算出装置に入力される。この特徴により、変更後離散余弦変換は、量子化適応の目的と、符号化信号を算出する目的とのために用いられる。
【0033】
一局面において本発明は、エンコーダと、デコーダと、を備えるシステムであって、前記エンコーダは、本発明に従って設計される、システムを提供する。
【0034】
一局面において本発明は、音声信号を符号化して符号化信号を生成するための方法であって、前記方法は、
前記音声信号からフレームを抽出するステップと、
前記音声信号のフレームから導出したスペクトル信号のスペクトル線を量子化インデックスにマッピングするステップと、を備え、前記入力スペクトル線がゼロに対してマッピングされた不感帯が用いられ、前記方法は更に、
前記不感帯を変更するステップ、を備え、
少なくとも1つのスペクトル線又は少なくとも1つのスペクトル線群についての少なくとも1つの調性表示値が算出され、
それぞれの前記調性表示値に応じて、前記少なくとも1つのスペクトル線又は前記少なくとも1つのスペクトル線群についての不感帯が変更される、方法を提供する。
【0035】
一局面において本発明は、コンピュータ又はプロセッサにおいて実行された際に本発明による方法を実行するためのコンピュータプログラムを提供する。
【0036】
以下、本発明の好ましい実施例について、添付の図面を参照して説明する。