【課題を解決するための手段】
【0008】
本発明の目的は、線形予測係数(LPC)を含む符号化済みオーディオ情報に基づいて復号化済みオーディオ情報を提供するオーディオ復号器によって解決され、そのオーディオ復号器は、現在フレームの線形予測係数を使用してノイズの傾き(tilt)を調整し、傾き情報を取得するよう構成された傾き調整部と、傾き
調整部によって取得された傾き情報に依存して現在フレームにノイズを付加するよう構成されたノイズ挿入部とを含む。さらに、本発明の目的は、線形予測係数(LPC)を含む符号化済みオーディオ情報に基づいて復号化済みオーディオ情報を提供する方法によって解決され、その方法は、現在フレームの線形予測係数を使用してノイズの傾きを調整し、傾き情報を取得するステップと、取得された傾き情報に依存して現在フレームにノイズを付加するステップとを含む。
【0009】
本発明の第2の解決策として、本発明は線形予測係数(LPC)を含む符号化済みオーディオ情報に基づいて復号化済みオーディオ情報を提供するオーディオ復号器を提案し、そのオーディオ復号器は、少なくとも1つの以前のフレームの線形予測係数を使用して現在フレームについてのノイズレベルを推定し、ノイズレベル情報を取得するよう構成されたノイズレベル推定部と、ノイズレベル推定部によって提供されたノイズレベル情報に依存して現在フレームにノイズを付加するよう構成されたノイズ挿入部とを含む。さらに、本発明の目的は、線形予測係数(LPC)を含む符号化済みオーディオ情報に基づいて復号化済みオーディオ情報を提供する方法によって解決され、その方法は、少なくとも1つの以前のフレームの線形予測係数を使用して現在フレームについてのノイズレベルを推定し、ノイズレベル情報を取得するステップと、ノイズレベル推定によって提供されたノイズレベル情報に依存して現在フレームにノイズを付加するステップとを含む。追加的に、本発明の目的は、コンピュータ上で実行されたとき、前述の方法を実行するためのコンピュータプログラムによって解決され、前述の方法によって処理されたオーディオ信号又は当該オーディオ信号が格納された記憶媒体によって解決される。
【0010】
提案された解決策では、ノイズ充填期間中に復号器側で提供されるノイズを調整するために、CELPビットストリーム内でサイド情報を提供する必要がない。このことは、ビットストリームによって伝送されるべきデータ量を削減でき、その一方で、現在又は以前の復号化済みフレームの線形予測係数だけに基づいて、挿入されるノイズの品質を高めることができることを意味している。換言すると、ビットストリームによって伝送されるべきデータ量を増大させるであろうノイズに関するサイド情報は省略されてもよい。本発明は、ビットストリームに関するより小さい帯域幅を消費する低ビットレート・デジタルコーダ及び方法の提供を可能とし、かつ従来技術の解決策に比べて背景ノイズの改善された品質を提供することを可能にする。
【0011】
オーディオ復号器は現在フレームのフレームタイプを決定するフレームタイプ決定部を備えるのが望ましく、フレームタイプ決定部は、現在フレームのフレームタイプがスピーチタイプであると検出された場合には、ノイズの傾きを調整する傾き調整部を活性化させるよう構成される。幾つかの実施形態では、フレームタイプ決定部は、フレームがACELP又はCELP符号化されている場合には、そのフレームをスピーチタイプフレームであると認識するよう構成されている。現在フレームの傾きに従ってノイズを整形することは、より自然な背景ノイズを提供し、ビットストリーム内に符号化された所望信号の背景ノイズに関してオーディオ圧縮の望ましくない効果を低減できる可能性がある。これらの不所望な圧縮効果やアーチファクトはスピーチ情報の背景ノイズに関して知覚可能になり易いので、現在フレームにノイズを付加する前に、ノイズの傾きを調整することによってスピーチタイプフレームに付加されるべきノイズの品質を向上させることが有利であり得る。したがって、ノイズ挿入部は、現在フレームがスピーチフレームである場合だけ現在フレームにノイズを付加するようにしてもよい。なぜなら、スピーチフレームだけがノイズ充填によって処理される場合には、復号器側での作業負荷を低減できる可能性があるからである。
【0012】
本発明の好ましい実施形態によれば、傾き調整部は現在フレームの線形予測係数の一次分析の結果を使用して、傾き情報を取得するよう構成されている。そのような線形予測係数の一次分析を使用することによって、ビットストリーム内でノイズを特徴付けるサイド情報を省略することが可能になる。さらに、追加すべきノイズの調整は、現在フレームのオーディオ情報の復号化を可能にするために、いずれにせよビットストリームと共に伝送されるべき現在フレームの線形予測係数に基づくことが可能になる。このことは、現在フレームの線形予測係数がノイズの傾きを調整するプロセスにおいて有利に再利用されることを意味する。さらに、一次分析は適度に簡易であるから、オーディオ復号器の演算複雑性が有意に増加しない。
【0013】
本発明の幾つかの実施形態では、傾き調整部は、一次分析として現在フレームの線形予測係数のゲインgの計算を使用して、傾き情報を取得するよう構成されている。さらに好ましくは、ゲインgは次式によって与えられ、
g=Σ[a
k・a
k+1]/Σ[a
k・a
k],
ここで、a
kは現在フレームのLPC係数である。幾つかの実施形態では、2つ又はそれ以上のLPC係数a
kが計算において使用される。好ましくは、全体として16個のLPC係数が使用され、そのためk=0・・・15である。本発明の実施形態では、16個より多いか又は少ないLPC係数を使用して、ビットストリームが符号化されてもよい。現在フレームの線形予測係数がビットストリーム内に利用可能に存在するので、傾き情報はサイド情報を使用せずに取得可能であり、そのためビットストリーム内で伝送されるべきデータ量を削減できる。付加されるべきノイズは、符号化済みオーディオ情報を復号化するのに必要な線形予測係数だけを使用して調整されてもよい。
【0014】
好ましくは、傾き調整部は現在フレームに関する直接形フィルタ(direct form filter)x(n)−g・x(n−1)の伝達関数の計算を使用して傾き情報を取得するよう構成されている。このタイプの計算は適度に容易であり、復号器側での高い演算能力を必要としない。上述のように、ゲインgは現在フレームのLPC係数から容易に計算し得る。このことは、符号化済みオーディオ情報を復号化するために必須のビットストリームデータだけを使用しながら、低ビットレートのデジタルコーダにおけるノイズ品質の改善を可能にする。
【0015】
本発明の好ましい実施形態では、ノイズ挿入部は、現在フレームにノイズを付加する前に、ノイズの傾きを調整するために現在フレームの傾き情報をノイズに適用するよう構成される。ノイズ挿入部がしかるべく構成されている場合には、簡素なオーディオ復号器が提供され得る。まず傾き情報を適用し、次に調整済みノイズを現在フレームに付加することで、オーディオ復号器の簡素で効果的な方法が提供され得る。
【0016】
本発明のある実施形態では、オーディオ復号器はさらに、ノイズレベル情報を取得するために少なくとも1つの以前のフレームの線形予測係数を使用して、現在フレームのノイズレベルを推定するよう構成されたノイズレベル推定部を含み、ノイズ挿入部は、ノイズレベル推定部によって提供されたノイズレベル情報に依存して現在フレームにノイズを付加するよう構成されている。これにより、現在フレームに付加されるべきノイズが現在フレーム内に恐らく存在しているノイズレベルに従って調整され得るので、背景ノイズの品質及びそれにより全体のオーディオ伝送の品質が向上されうる。例えば、高いノイズレベルが以前のフレームから推定されたために高いノイズレベルが現在フレーム内で予想される場合、ノイズ挿入部は、現在フレームにノイズを付加する前に現在フレームに付加されるべきノイズのレベルを増加させるよう構成され得る。よって、付加されるべきノイズは、現在フレームにおいて予測されたノイズレベルに比較して余り静かすぎず又は余りうるさすぎないように調整され得る。この調整は、やはりビットストリーム内の専用のサイド情報に基づかず、ビットストリーム内で伝送された必要データの情報を単に使用するだけであり、この場合、以前のフレームにおけるノイズレベルについての情報をも提供する少なくとも1つの以前のフレームの線形予測係数が使用される。このように、現在フレームに付加されるべきノイズは、gから導出された傾きを使用して整形されかつノイズレベル推定を視野に入れてスケールされることが望ましい。さらに好ましくは、現在フレームに付加されるべきノイズの傾きとノイズレベルとは、現在フレームがスピーチタイプである場合に調整される。幾つかの実施形態では、現在フレームに付加されるべきノイズの傾き及び/又はノイズレベルは、現在フレームが通常のオーディオタイプ、例えばTCX又はDTX型である場合にも調整される。
【0017】
好ましくは、オーディオ復号器は現在フレームのフレームタイプを決定するフレームタイプ決定部を含み、そのフレームタイプ決定部は、現在フレームのフレームタイプがスピーチであるか又は通常のオーディオであるかを識別するよう構成され、その結果、ノイズレベル推定が現在フレームのフレームタイプに依存して実行され得る。例えば、フレームタイプ決定部は、現在フレームがスピーチフレームの一つのタイプであるCELPフレーム若しくはACELPフレームであるか、又は通常のオーディオフレームの一つのタイプであるTCX/MDCTフレーム若しくはDTXフレームであるかを検出するよう構成可能である。これら符号化フォーマットは異なる法則に基づくので、ノイズレベル推定を実行する前にフレームタイプを決定することが望ましく、その結果、フレームタイプに依存して好適な計算方法を選択できる。
【0018】
本発明の幾つかの実施形態において、オーディオ復号器は、現在フレームのスペクトル的に未整形の励振を表す第1情報を計算し、かつ現在フレームのスペクトルスケーリングに関する第2情報を計算するよう適応されており、その結果、第1情報と第2情報との商を計算してノイズレベル情報を取得する。これにより、ノイズレベル情報は、如何なるサイド情報も使用せずに取得され得る。よって、符号器のビットレートを低く保つことができる。
【0019】
好ましくは、現在フレームがスピーチタイプであるという条件下において、オーディオ復号器は、現在フレームの励振信号を復号化し、かつその二乗平均平方根e
rmsを、ノイズレベル情報を取得するための第1情報として現在フレームの時間ドメイン表現から計算するよう適応されている。この実施例においては、現在フレームがCELPタイプ又はACELPタイプである場合に、オーディオ復号器がそのように実行するよう適応されるのが望ましい。スペクトル的に平坦化された励振信号(知覚ドメインにおいて)はビットストリームから復号化され、ノイズレベル推定を更新するために使用される。現在フレームについての励振信号の二乗平均平方根e
rmsは、ビットストリームが読み込まれた後で計算される。このタイプの演算は高い演算能力を必要としないので、低い演算能力しか持たないオーディオ復号器でも実行可能である。
【0020】
好ましい一実施形態では、現在フレームがスピーチタイプであるという条件下において、オーディオ復号器は、現在フレームのLPCフィルタの伝達関数のピークレベルpを第2情報として計算するよう適応されており、従って線形予測係数を使用して、ノイズレベル情報を取得する。ここでも、現在フレームがCELPタイプ又はACELPタイプであることが望ましい。ピークレベルpの計算はむしろ安価であり、現在フレームに含まれているオーディオ情報を復号化するためにも使用される現在フレームの線形予測係数を再利用することにより、サイド情報は省略可能であり、ビットストリームのデータレートを増大させずに背景ノイズを向上させることができる。
【0021】
本発明の好ましい一実施形態では、現在フレームがスピーチタイプであるという条件下において、オーディオ復号器は、二乗平均平方根e
rmsとピークレベルpとの商を計算することによって、現在のオーディオフレームのスペクトル最小値m
fを計算して、ノイズレベル情報を取得するよう適応されている。この計算はむしろ簡易であり、多数のオーディオフレームの範囲に亘ってノイズレベルを推定するのに有用な数値を提供し得る。よって、連続した現在のオーディオフレームのスペクトル最小値m
fは、そのような連続したオーディオフレームによってカバーされた期間中のノイズレベルを推定するのに使用されてもよい。このことは、複雑性を適度に低く保ちながら、現在フレームのノイズレベルの良好な推定を得ることを可能にし得る。ピークレベルpは以下の式、
p=Σ|a
k|,
を使用して好適に計算され、ここでa
kは好ましくはk=0・・・15である線形予測係数である。よって、そのフレームが16個の線形予測係数を含む場合には、幾つかの実施形態では、pは好ましくは16個のa
kの振幅を合計することによって計算される。
【0022】
好ましくは、現在フレームが通常のオーディオタイプである場合、オーディオ復号器は、現在フレームの未整形のMDCT励振を復号化し、かつその二乗平均平方根e
rmsを、ノイズレベル情報を取得するための第1情報として、現在フレームのスペクトルドメイン表現から計算するよう適応されている。これは、現在フレームがスピーチフレームではなく通常のオーディオフレームであれば常に、本発明の好ましい実施形態である。MDCT又はDTXフレームにおけるスペクトルドメイン表現は、例えばCELPや(A)CELPフレームのようなスピーチフレームにおける時間ドメイン表現と殆ど等価である。違いは、MDCTはパーセバルの定理(Parseval's theorem)を考慮しないという点である。よって、通常のオーディオフレームについての二乗平均平方根e
rmsは、スピーチフレームについての二乗平均平方根e
rmsと同様にして計算されるのが望ましい。次に、特許文献1に記載のように、例えばバーク尺度におけるMDCT値の平方を参照するMDCTパワースペクトルを使用して、通常のオーディオフレームのLPC係数等価値を計算するのが望ましい。代替的な一実施形態では、スペクトルの尺度が線形尺度に対応するよう、MDCTパワースペクトルの周波数帯域が一定の幅を持ち得る。このような線形尺度を使用することで、計算されたLPC係数等価値は、同じフレームの時間ドメイン表現におけるLPC係数と類似し、例えば、ACELPやCELPフレームについて計算されたものと同等となる。さらに、現在フレームが通常のオーディオタイプである場合に、特許文献1で開示されているように、MDCTフレームから計算されている現在フレームのLPCフィルタの伝達関数のピークレベルpが第2情報として計算されるのが望ましく、それにより、現在フレームが通常のオーディオタイプであるという条件下で、線形予測係数を使用してノイズレベル情報を取得することになる。次に、現在フレームが通常のオーディオタイプである場合に、二乗平均平方根e
rmsとピークレベルpとの商を計算することによって、現在のオーディオフレームのスペクトル最小値を計算し、現在フレームが通常のオーディオタイプであるという条件下でのノイズレベル情報を取得することが望ましい。よって、現在フレームがスピーチタイプか通常のオーディオタイプかに拘わらず、現在のオーディオフレームのスペクトル最小値m
fを表す商を取得することが可能になる。
【0023】
好ましい一実施形態では、オーディオ復号器は、フレームタイプに関係なくノイズレベル推定部において現在のオーディオフレームから取得される商をエンキュー(enqueue)するよう適応され、ノイズレベル推定部は、異なるオーディオフレームから取得された2つ又はそれ以上の商のためのノイズレベル記憶部を含む。このことは、例えば低遅延統合型スピーチ及びオーディオ復号化(LO−USAC、EVS)を適用する場合に、もしオーディオ復号器がスピーチフレームの復号化と通常のオーディオフレームの復号化とを切り替えるときに有利であり得る。これにより、フレームタイプを考慮せずに多数のフレームにわたる平均ノイズレベルが取得され得る。好ましくは、ノイズレベル記憶部は10個又はそれ以上の以前のオーディオフレームから取得された10個又はそれ以上の商を保持できる。例えば、ノイズレベル記憶部は30フレームの商のための空間(room)を含み得る。よって、ノイズレベルは現在フレームより以前の拡張された時間について計算され得る。幾つかの実施形態では、商は、現在フレームがスピーチタイプであると検出された場合にノイズレベル推定部においてエンキューされるだけでもよい。他の実施形態では、商は、現在フレームが通常のオーディオタイプであると検出された場合にノイズレベル推定部においてエンキューされるだけでもよい。
【0024】
ノイズレベル推定部は、異なるオーディオフレームの2つ又はそれ以上の商の統計的分析に基づいてノイズレベルを推定するよう構成される。本発明の一実施形態では、オーディオ復号器は、前記商を統計的に分析するために、最小二乗平均誤差ベースのノイズパワースピーチ密度追跡を使用するよう構成される。この追跡は、非特許文献2に記載されている。非特許文献2に従う方法が適用される場合には、オーディオ復号器は、現在の事例において振幅スペクトルが直接的にサーチされるように、統計的分析における追跡値の平方根を使用するよう構成される。本発明の他の実施形態では、異なるオーディオフレームの2つ又はそれ以上の商を分析するために、非特許文献3から知られている最小統計値が使用される。
【0025】
好ましい一実施形態では、オーディオ復号器は、現在フレームの線形予測係数を使用して、現在フレームのオーディオ情報を復号化し、復号化済みコアコーダ出力信号を取得するよう構成された復号器コアを含み、ノイズ挿入部は、現在フレームのオーディオ情報を復号化する際に使用され、及び/又は1つ又は複数の以前のフレームのオーディオ情報を復号化する際に使用された、線形予測係数に依存してノイズを付加する。よって、ノイズ挿入部は、現在フレームのオーディオ情報を復号化するために使用されているのと同じ線形予測係数を利用する。ノイズ挿入部に指令するためのサイド情報は省略可能である。
【0026】
好ましくは、オーディオ復号器は、現在フレームをデ・エンファサイズするデ・エンファシスフィルタ(de-emphasis filter)を備えており、オーディオ復号器は、ノイズ挿入部がノイズを現在フレームに付加した後で、現在フレームに対してデ・エンファシスフィルタを適用するよう構成されている。デ・エンファシスは低周波数を増強する一次のIIRであるから、このことは、低周波数における可聴のノイズアーチファクトを回避しながら、付加されたノイズの低複雑性で急峻なIIR高域通過フィルタリングを可能とする。
【0027】
好ましくは、オーディオ復号器はノイズ発生部を含み、このノイズ発生部は、ノイズ挿入部によって現在フレームに付加されるべきノイズを発生するよう構成される。オーディオ復号器に含まれるノイズ発生部を備えることで、如何なる外部のノイズ発生部を必要としないので、一層簡便なオーディオ復号器を提供できる。代替的に、ノイズは外部のノイズ発生部によって供給されてもよく、そのノイズ発生部はインターフェースを介してオーディオ復号器に接続されてもよい。例えば、現在フレーム内において強化されるべき背景ノイズに依存して、特殊なタイプのノイズ発生部が適用されてもよい。
【0028】
好ましくは、ノイズ発生部はランダム・ホワイトノイズを発生するよう構成される。そのようなノイズは一般的な背景ノイズに適度に似ており、そのようなノイズ発生部は容易に提供し得る。
【0029】
本発明の好ましい実施形態では、ノイズ挿入部は、符号化済みオーディオ情報のビットレートが1サンプル当り1ビットより小さいという条件下で、現在フレームにノイズを付加するよう構成されている。好ましくは、符号化済みオーディオ情報のビットレートが1サンプル当り0.8ビットより小さい。ノイズ挿入部は、符号化済みオーディオ情報のビットレートが1サンプル当り0.5ビットより小さいという条件下で、現在フレームにノイズを付加するよう構成されているのがさらに望ましい。
【0030】
好ましい実施形態では、オーディオ復号器は、符号化済みオーディオ情報を復号化するために、1つ又は複数のAMR−WB、G.718又はLD−USAC(EVS)
デコーダに基づく
デコーダを使用するよう構成されている。これら
デコーダは、上述のノイズ充填法の追加的使用が殊に有利である、周知でかつ広く普及した(A)CELP
デコーダである。
【0031】
以下に、本発明の実施形態について図面を参照しながら以下に説明する。