特許第6289508号(P6289508)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6289508
(24)【登録日】2018年2月16日
(45)【発行日】2018年3月7日
(54)【発明の名称】ノイズフィリング概念
(51)【国際特許分類】
   G10L 19/035 20130101AFI20180226BHJP
【FI】
   G10L19/035 Z
【請求項の数】24
【全頁数】38
(21)【出願番号】特願2015-555679(P2015-555679)
(86)(22)【出願日】2014年1月28日
(65)【公表番号】特表2016-505171(P2016-505171A)
(43)【公表日】2016年2月18日
(86)【国際出願番号】EP2014051630
(87)【国際公開番号】WO2014118175
(87)【国際公開日】20140807
【審査請求日】2015年9月28日
(31)【優先権主張番号】61/758,209
(32)【優先日】2013年1月29日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ディスヒ サッシャ
(72)【発明者】
【氏名】ゲイヤー マルク
(72)【発明者】
【氏名】ヘルムリッヒ クリスティアン
(72)【発明者】
【氏名】マルコビック ゴラン
(72)【発明者】
【氏名】ルイス バレロ マリア
【審査官】 五貫 昭一
(56)【参考文献】
【文献】 特表2005−530205(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/035
(57)【特許請求の範囲】
【請求項1】
オーディオ信号の調性に依存する方法で前記オーディオ信号のスペクトル(34)にノイズフィリングを実行するように構成される装置であって、前記装置は、前記スペクトル(34)が符号化される(164)データストリーム内の線形予測係数(162)を介してシグナリングされる線形予測スペクトルエンベロープ、または、前記スペクトル(34)が符号化される前記データストリームにおいてシグナリングされるスケールファクタバンド(110)に関するスケールファクタ(112)を介して制御されるスペクトル的に変化する信号適応量子化ステップサイズを用いて、前記ノイズフィリングの後に導き出され前記スペクトル(34)を逆量子化する(132;174)ように構成され、
前記装置は、
連続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにその絶対傾きが前記調性に否定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
前記連続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにそのスペクトル幅(54、56)が前記調性に肯定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
1の積分が、前記連続したスペクトルゼロ部分(40)にわたって1の積分に正規化され、そして、第2の積分fが、前記連続したスペクトルゼロ部分(40)の外側のクォーター(a、d)にわたって前記調性に否定的に依存する、一定のまたは単一モードの関数(48、50)
を用いてスペクトル整形されるノイズで前記オーディオ信号のスペクトル(34)の連続したスペクトルゼロ部分(40)をフィリングするように構成される、装置。
【請求項2】
オーディオ信号の調性に依存する方法で前記オーディオ信号のスペクトル(34)にノイズフィリングを実行するように構成される装置であって、前記装置は、
前記スペクトル(34)が符号化される(164)データストリーム内の線形予測係数(162)を介してシグナリングされる線形予測スペクトルエンベロープ、または、前記スペクトル(34)が符号化される前記データストリームにおいてシグナリングされるスケールファクタバンド(110)に関するスケールファクタ(112)を介して制御されるスペクトル的に変化する信号適応量子化ステップサイズを用いて、前記ノイズフィリングの後に導き出され前記スペクトル(34)を逆量子化し(132;174)、
前記オーディオ信号のスペクトルの連続したスペクトルゼロ部分を識別し(70)、さらに、識別され前記連続したスペクトルゼロ部分に前記ノイズフィリングを適用し、さらに
関数がそれぞれの連続したスペクトルゼロ部分に限られるようにそれぞれの連続したスペクトルゼロ部分の幅に依存して、さらに、前記オーディオ信号の前記調性が増加する場合に、前記関数が前記それぞれの連続したスペクトルゼロ部分の内側でよりコンパクトになりさらに前記それぞれの連続したスペクトルゼロ部分の外側のエッジから離間されるように前記オーディオ信号の前記調性に依存して、設定される(80)関数でスペクトル整形されるノイズで、前記オーディオ信号のスペクトルの連続したスペクトルゼロ部分をそれぞれフィリングするように構成される、装置。
【請求項3】
前記装置は、前記スペクトルがスペクトル的にグローバルな方法で符号化される前記データストリームにおいてシグナリングされるスカラーグローバルなノイズレベルを用いて、前記連続したスペクトルゼロ部分フィリングされる前記ノイズをスケーリングするように構成される、請求項1または請求項2に記載の装置。
【請求項4】
前記装置は、ランダムな若しくは疑似ランダムなプロセスを用いてまたはパッチングを用いて、前記連続したスペクトルゼロ部分フィリングされる前記ノイズを生成するように構成される、請求項1ないし請求項3のいずれかに記載の装置。
【請求項5】
前記装置は、前記データストリームへ符号化される符号化パラメータから前記調性を導き出すように構成される、請求項1ないし請求項4のいずれかに記載の装置。
【請求項6】
前記装置は、前記符号化パラメータがLTP(長期予測)またはTNS(時間ノイズ整形)イネーブルメントフラグまたはゲインおよび/またはスペクトル再配置イネーブルメントフラグであるように構成され、前記スペクトル再配置イネーブルメントフラグは、前記データストリーム内で再配置プリスクリプションをさらに送信するとともに量子化されたスペクトル値がスペクトル的に再配置される符号化オプションをシグナリングする、請求項5に記載の装置。
【請求項7】
前記装置は、前記オーディオ信号のスペクトルの高周波スペクトル部分に前記ノイズフィリングの実行を限るように構成される、請求項1ないし請求項6のいずれかに記載の装置。
【請求項8】
前記装置は、前記データストリームにおける明確なシグナリングに対応する前記高周波スペクトル部分の低周波開始位置を設定するように構成される、請求項7に記載の装置。
【請求項9】
前記装置は、前記ノイズフィリングを実行する際に、前記オーディオ信号のスペクトルを符号化するために用いられるプリエンファシスによって生じるスペクトル傾斜を弱めるためにスペクトルローパスフィルタの伝達関数に近い、そのレベルが低周波から高周波への低減を示すノイズで前記スペクトル(34)の連続したスペクトルゼロ部分(40)をフィリングするように構成される、請求項1ないし請求項8のいずれかに記載の装置。
【請求項10】
前記装置は、前記プリエンファシスのプリエンファシスファクタに前記低減の峻度を適応させるように構成される、請求項9に記載の装置。
【請求項11】
前記装置は、前記オーディオ信号のスペクトルの連続したスペクトルゼロ部分を識別し、さらに、前記関数(48、50)がそれぞれの連続したスペクトルゼロ部分に限られるようにそれぞれの連続したスペクトルゼロ部分の幅に依存して、さらに、前記オーディオ信号の前記調性が増加する場合に、前記関数が前記それぞれの連続したスペクトルゼロ部分の内側で徐々によりコンパクトになりさらに前記それぞれの連続したスペクトルゼロ部分のエッジから離間されるように前記オーディオ信号の前記調性に依存して、さらに、加えて、前記関数(48、50)のスケーリングが前記それぞれの連続したスペクトルゼロ部分のスペクトル位置に依存するように前記それぞれの連続したスペクトルゼロ部分のスペクトル位置に依存して、設定される関数で、前記連続したスペクトルゼロ部分をフィリングするように構成される、請求項1ないし請求項10のいずれかに記載の装置。
【請求項12】
請求項1ないし請求項11のいずれかに記載の装置を含むノイズフィリングをサポートする、オーディオデコーダ。
【請求項13】
請求項1ないし請求項11のいずれかに記載のオーディオ信号のスペクトル(34)にノイズフィリングを実行するように構成される装置、および
スペクトル知覚的な重み関数を用いて前記ノイズフィリングされたスペクトルをスペクトル整形にするように構成される周波数領域ノイズシェーパ
を含む、知覚的な変換オーディオデコーダ。
【請求項14】
請求項1ないし請求項11のいずれかに記載の装置を含むノイズフィリングをサポートするオーディオエンコーダであって、前記エンコーダは、合成による分析のために、前記装置によってノイズでフィリングされスペクトルを用いるように構成される、オーディオエンコーダ。
【請求項15】
ノイズフィリングをサポートするオーディオエンコーダであって、
データストリームにオーディオ信号のスペクトル(34)を量子化しさらに符号化し、さらに
続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにその絶対傾きが調性に否定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
前記連続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにそのスペクトル幅(54、56)が前記調性に肯定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
1の積分が、前記連続したスペクトルゼロ部分(40)にわたって1の積分に正規化され、そして、第2の積分fが、前記連続したスペクトルゼロ部分(40)の外側のクォーター(a、d)にわたって前記調性に否定的に依存する、一定のまたは単一モードの関数(48、50)
を用いて、
前記オーディオ信号のスペクトル(34)の連続したスペクトルゼロ部分(40)を前記オーディオ信号の前記調性に依存してスペクトル整形し、さらに、
前記オーディオ信号の前記調性に依存してスペクトル整形された、前記スペクトルの前記連続しスペクトルゼロ部分内で前記オーディオ信号のレベルを測定する
ことによって、前記オーディオ信号の前記スペクトルにノイズフィリングを実行するためのスペクトル的にグローバルなノイズフィリングレベルを、前記データストリームに設定しさらに符号化する
ように構成される、オーディオエンコーダ。
【請求項16】
ノイズフィリングをサポートするオーディオエンコーダであって、
データストリームにオーディオ信号のスペクトル(34)を量子化しさらに符号化し、さらに
関数がそれぞれの連続したスペクトルゼロ部分に限られるようにそれぞれの連続したスペクトルゼロ部分の幅に依存して、さらに、前記オーディオ信号の調性が増加する場合に、前記関数が前記それぞれの連続したスペクトルゼロ部分の内側でよりコンパクトになりさらに前記それぞれの連続したスペクトルゼロ部分の外側のエッジから離間されるように前記オーディオ信号の前記調性に依存して、設定される(80)関数
を用いて、
前記オーディオ信号のスペクトル(34)の連続したスペクトルゼロ部分(40)を前記オーディオ信号の前記調性に依存してスペクトル整形し、さらに、
前記オーディオ信号の前記調性に依存してスペクトル整形された、前記スペクトルの前記連続しスペクトルゼロ部分内で前記オーディオ信号のレベルを測定する
ことによって、前記オーディオ信号の前記スペクトルにノイズフィリングを実行するためのスペクトル的にグローバルなノイズフィリングレベルを、前記データストリームに設定しさらに符号化する
ように構成される、オーディオエンコーダ。
【請求項17】
前記測定することは、2乗平均平方根である、請求項15または請求項16に記載のオーディオエンコーダ。
【請求項18】
前記エンコーダは、線形予測スペクトルエンベロープに従ってスペクトル的に変化する信号適応量子化ステップサイズを用いて前記スペクトル(34)を量子化し、前記データストリーム内の線形予測係数(162)を介して前記線形予測スペクトルエンベロープをシグナリングし、さらに、前記データストリームに前記スペクトル(34)を符号化するように構成される、請求項15ないし請求項17のいずれかに記載のオーディオエンコーダ。
【請求項19】
前記エンコーダは、スケールファクタバンド(110)に関するスケールファクタ(112)に従ってスペクトル的に変化する信号適応量子化ステップサイズを用いて前記スペクトル(34)を量子化し、前記データストリーム内の前記スケールファクタをシグナリングし、さらに、前記データストリームに前記スペクトル(34)を符号化するように構成される、請求項15ないし請求項17のいずれかに記載のオーディオエンコーダ。
【請求項20】
前記オーディオ信号のスペクトルを符号化するために用いられる符号化パラメータから前記調性を導き出すように構成される、請求項15ないし請求項19のいずれかに記載のオーディオエンコーダ。
【請求項21】
オーディオ信号の調性に依存する方法でオーディオ信号のスペクトル(34)にノイズフィリングを実行するステップを含む方法であって、前記方法は、前記スペクトル(34)が符号化される(164)データストリーム内の線形予測係数(162)を介してシグナリングされる線形予測スペクトルエンベロープ、または、前記スペクトル(34)が符号化される前記データストリームにおいてシグナリングされるスケールファクタバンド(110)に関するスケールファクタ(112)を介して制御されるスペクトル的に変化する信号適応量子化ステップサイズを用いて、前記ノイズフィリングの後に導き出され前記スペクトル(34)を逆量子化するステップ(132;174)を含み、
前記方法は、
連続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにその絶対傾きが前記調性に否定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
前記連続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにそのスペクトル幅(54、56)が前記調性に肯定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
1の積分が、前記連続したスペクトルゼロ部分(40)にわたって1の積分に正規化され、そして、第2の積分fが、前記連続したスペクトルゼロ部分(40)の外側のクォーター(a、d)にわたって前記調性に否定的に依存する、一定のまたは単一モードの関数(48、50)
を用いてスペクトル整形されるノイズで前記オーディオ信号のスペクトル(34)の連続したスペクトルゼロ部分(40)をフィリングするステップを含む、方法。
【請求項22】
ノイズフィリングをサポートするオーディオ符号化のための方法であって、前記方法は、データストリームにオーディオ信号のスペクトル(34)を量子化しさらに符号化するステップ、および、
続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにその絶対傾きが調性に否定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
前記連続したスペクトルゼロ部分(40)の内側(52)で最大値を取りさらにそのスペクトル幅(54、56)が前記調性に肯定的に依存する外側に立ち下がるエッジ(58、60)を有する関数(48、50)、または
1の積分が、前記連続したスペクトルゼロ部分(40)にわたって1の積分に正規化され、そして、第2の積分fが、前記連続したスペクトルゼロ部分(40)の外側のクォーター(a、d)にわたって前記調性に否定的に依存する、一定のまたは単一モードの関数(48、50)
を用いて、
前記オーディオ信号のスペクトル(34)の連続したスペクトルゼロ部分(40)を前記オーディオ信号の前記調性に依存してスペクトル整形し、さらに、
前記オーディオ信号の前記調性に依存してスペクトル整形された、前記スペクトルの前記連続しスペクトルゼロ部分内で前記オーディオ信号のレベルを測定すること
によって、前記オーディオ信号の前記スペクトルにノイズフィリングを実行するためのスペクトル的にグローバルなノイズフィリングレベルを、前記データストリームに設定しさらに符号化するステップを含む、
方法。
【請求項23】
ノイズフィリングをサポートするオーディオ符号化のための方法であって、前記方法は、データストリームにオーディオ信号のスペクトル(34)を量子化しさらに符号化するステップ、および、
関数がそれぞれの連続したスペクトルゼロ部分に限られるようにそれぞれの連続したスペクトルゼロ部分の幅に依存して、さらに、前記オーディオ信号の調性が増加する場合に、前記関数が前記それぞれの連続したスペクトルゼロ部分の内側でよりコンパクトになりさらに前記それぞれの連続したスペクトルゼロ部分の外側のエッジから離間されるように前記オーディオ信号の前記調性に依存して、設定される(80)関数
を用いて、
前記オーディオ信号のスペクトル(34)の連続したスペクトルゼロ部分(40)を前記オーディオ信号の前記調性に依存してスペクトル整形し、さらに、
前記オーディオ信号の前記調性に依存してスペクトル整形された、前記スペクトルの前記連続しスペクトルゼロ部分内で前記オーディオ信号のレベルを測定すること
によって、前記オーディオ信号の前記スペクトルにノイズフィリングを実行するためのスペクトル的にグローバルなノイズフィリングレベルを、前記データストリームに設定しさらに符号化するステップを含む、
方法。
【請求項24】
コンピュータ上で実行されるときに、請求項21、請求項22または請求項23に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、オーディオ符号化に関し、特にオーディオ符号化に関連するノイズフィリングに関する。
【背景技術】
【0002】
変換符号化において、スペクトルの部分をゼロに量子化することが知覚的な劣化をもたらすということがしばしば認識される([1]、[2]、[3]に匹敵する)。ゼロに量子化されるそのような部分は、スペクトルホールと呼ばれる。[1]、[2]、[3]および[4]に示されるこの問題のための解決策は、ゼロ量子化されたスペクトル線をノイズに置き換えることである。ノイズの挿入は、特定の周波数より下で回避されることがある。ノイズフィリングのための開始周波数は、固定されるが、周知の先行技術間で異なる。
【0003】
FDNS(周波数領域ノイズ整形)は、USACにおけるように、スペクトル(挿入されたノイズを含む)を整形するためにおよび量子化ノイズの制御のために用いられることがある([4]に匹敵する)。FDNSは、LPCフィルタの振幅特性を用いて実行される。LPCフィルタ係数は、プリエンファシスされた入力信号を用いて計算される。
【0004】
[1]において、音の成分のすぐ近くで付加ノイズが劣化をもたらすことに留意されたく、したがって、[5]と同じようにゼロのロングランだけが、注入された周囲のノイズによって非ゼロの量子化された値を隠すことを回避するためにノイズでフィリングされる。
【0005】
[3]において、ノイズフィリングの粒度および必要なサイド情報のサイズ間の妥協の問題があることに留意されたい。[1]、[2]、[3]および[5]において、完全なスペクトルごとに1つのノイズフィリングパラメータが送信される。挿入されたノイズは、[2]におけるようなLPCを用いてまたは[3]におけるようなスケールファクタを用いてスペクトル整形される。全体のスペクトルのために1つのノイズフィリングレベルでノイズフィリングにスケールファクタを適応する方法が、[3]において記載されている。[3]において、ゼロに完全に量子化されるバンドのためのスケールファクタは、スペクトルホールを回避するようにおよび正しいノイズレベルを有するように修正される。
【0006】
[1]および[5]における解決策は、それらが小さいスペクトルホールをフィリングしないことを示唆するという点で、音の成分の劣化を回避するにしても、特に超低ビットレートで、ノイズフィリングを用いて符号化されるオーディオ信号の品質をさらに改善する必要がまだある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】米国特許出願公開第2011/0173012号:[1] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J. H. Nikolaus Rettelbach, "Noise Filler, Noise Filling Parameter Calculator Encoded Audio Signal Representation, Methods and Computer Program". Patent US 2011/0173012 A1.
【特許文献2】国際公開第2010/003556号:[3] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J. H. Nikolaus Rettelbach, "Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program". Patent WO 2010/003556 A1.
【特許文献3】国際公開第2012/046685号:[6] H. Y. K. Y. M. T. Harada Noboru, "Coding Mmethod, Decoding Method, Coding Device, Decoding Device, Program, and Recording Medium". Patent WO 2012/046685 A1.
【非特許文献】
【0008】
【非特許文献1】[2] Extended Adaptive Multi-Rate-Wideband (AMR-WB+) codec, 3GPP TS 26.290 V6.3.0, 2005-2006.
【非特許文献2】[4] M. M. N. R. G. F. J. R. J. L. S. W. S. B. S. D. C. H. R. L. P. G. B. B. J. L. K. K. H. Max Neuendorf, "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types," in 132nd Convertion AES, Budapest, 2012. Also appears in the Journal of the AES, vol. 61, 2013.
【非特許文献3】[5] M. M. M. N. a. R. G. Guillaume Fuchs, "MDCT-Based Coder for Highly Adaptive Speech and Audio Coding," in 17th European Signal Processing Conference (EUSIPCO 2009), Glasgow, 2009.
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、改良された特徴を有するノイズフィリングのための概念を提供することである。
【課題を解決するための手段】
【0010】
この目的は、ここに含まれる独立した請求項の主題によって達成され、本願の有利な態様は、従属した請求項の主題である。
【0011】
オーディオ信号の調性に依存する方法でノイズフィリングを実行することによって、ノイズフィリングされたオーディオ信号の再生がほとんど迷惑でないように、オーディオ信号のスペクトルのノイズフィリングがノイズフィリングされたスペクトルに関する品質において改善され得ることは、本願の基本的な知見である。
【0012】
本願の実施形態によれば、オーディオ信号のスペクトルの連続したスペクトルゼロ部分が、関数を用いてスペクトル整形されるノイズでフィリングされ、その関数は、連続したスペクトルゼロ部分の内側で最大値を取り、さらに、その絶対傾きが調性に否定的に依存する外側に立ち下がるエッジを有し、すなわちその傾きは、調性の増加とともに低減する。加えてまたは代わりに、フィリングのために用いられる関数は、連続したスペクトルゼロ部分の内側で最大値を取り、さらに、そのスペクトル幅が調性に肯定的に依存する外側に立ち下がるエッジを有し、すなわちそのスペクトル幅は、調性の増加とともに増加する。さらに、加えてまたは代わりに、一定のまたは単一モードの関数が、フィリングのために用いられ得り、連続したスペクトルゼロ部分の外側のクォーターにわたる、1の積分に正規化される、その積分が、調性に否定的に依存し、すなわちその積分は、調性の増加とともに低減する。これらの対策の全てによって、ノイズフィリングは、オーディオ信号の音の部分のためにほとんど有害でない傾向があるが、それにもかかわらず、スペクトルホールの低減に関してオーディオ信号の非音の部分のために効果がある。換言すれば、オーディオ信号が音のコンテンツを有するときはいつでも、オーディオ信号のスペクトルにフィリングされるノイズは、そこから十分な距離を保つことによって影響を受けないスペクトルの音のピークを残すが、それにもかかわらず、非音としてオーディオコンテンツを有するオーディオ信号の時間位相の非音の特徴は、ノイズフィリングによって満たされる。
【0013】
本願の実施形態によれば、連続したスペクトルゼロ部分ごとに、それぞれの関数がそれぞれの連続したスペクトルゼロ部の幅およびオーディオ信号の調性に依存して設定されるように、オーディオ信号のスペクトルの連続したスペクトルゼロ部分が識別され、さらに、識別されるゼロ部分が関数でスペクトル整形されるノイズでフィリングされる。実施の容易さのために、依存は、関数のルックアップテーブルにおいて検索によって達成され得り、または、関数は、連続したスペクトルゼロ部分の幅およびオーディオ信号の調性に応じて数式を用いて分析的に計算され得る。いずれの場合でも、依存を実現するための労力は、依存から生じる利点と比較して比較的少ない。特に、依存は、関数がそれぞれの連続したスペクトルゼロ部分に限られるように連続したスペクトルゼロ部分の幅に依存して、さらに、オーディオ信号のより高い調性のために、関数の質量がそれぞれの連続したスペクトルゼロ部分の内側でよりコンパクトになりさらにそれぞれの連続したスペクトルゼロ部分のエッジから離間されるようにオーディオ信号の調性に依存して、それぞれの関数が設定されるようにしてもよい。
【0014】
さらなる実施形態によれば、スペクトル整形され、さらに、連続したスペクトルゼロ部分にフィリングされるノイズは、スペクトル的にグローバルなノイズフィリングレベルを用いて一般にスケーリングされる。特に、ノイズは、連続したスペクトルゼロ部分においてノイズにわたる積分または連続したスペクトルゼロ部分の関数にわたる積分が、グローバルなノイズフィリングレベルに対応するように例えば等しいように、スケーリングされる。有利なことに、グローバルなノイズフィリングレベルは、付加構文がそのようなオーディオコーデックのために提供される必要がないように、とにかく既存のオーディオコーデック内で符号化される。すなわち、グローバルなノイズフィリングレベルは、オーディオ信号が低い労力で符号化されるデータストリームにおいて明確にシグナリングされ得る。実際には、連続したスペクトルゼロ部分のノイズがスペクトル整形される関数は、全ての連続したスペクトルゼロ部分がフィリングされるノイズにわたる積分がグローバルなノイズフィリングレベルに対応するように、スケーリングされ得る。
【0015】
本願の実施形態によれば、調性は、オーディオ信号が符号化される符号化パラメータから導き出される。この対策によって、付加情報は、既存のオーディオコーデック内で送信される必要がない。特定の実施形態によれば、符号化パラメータは、LTP(長期予測)フラグまたはゲイン、TNS(時間ノイズ整形)イネーブルメントフラグまたはゲインおよび/またはスペクトル再配置イネーブルメントフラグである。
【0016】
さらなる実施形態によれば、ノイズフィリングの実行は、高周波スペクトル部分に限られ、高周波スペクトル部分の低周波開始位置は、データストリームにおいてオーディオ信号が符号化される明確なシグナリングに対応して設定される。この対策によって、ノイズフィリングが実行される高周波スペクトル部分の下限の信号適応設定が可能である。次に、この対策によって、ノイズフィリングから生じるオーディオ品質が増加され得る。次に、明確なシグナリングによって生じる必要な付加サイド情報は、比較的小さい。
【0017】
本願のさらなる実施形態によれば、装置は、オーディオ信号のスペクトルを符号化するために用いられるプリエンファシスによって生じるスペクトル傾斜を弱めるために、スペクトルローパスフィルタを用いてノイズフィリングを実行するように構成される。この対策によって、ノイズフィリング品質は、さらにもっと増加され、それは、残りのスペクトルホールの深さが、さらに低減されるからである。より一般に言って、知覚的な変換オーディオコーデックにおけるノイズフィリングは、スペクトルホール内でノイズを調性依存してスペクトル整形することに加えて、スペクトル的にフラットな方法でよりはむしろスペクトル的にグローバルな傾斜でノイズフィリングを実行することによって改善され得る。例えば、スペクトル的にグローバルな傾斜は、ノイズフィリングされたスペクトルをスペクトル知覚的な重み関数にかけることによって生じるスペクトル傾斜を少なくとも部分的に逆にするために、負の傾きを有することができ、すなわち低周波から高周波への低減を示す。正の傾きは、例えば符号化されたスペクトルがハイパスのような特性を示す場合において、同様に考えられ得る。特に、スペクトル知覚的な重み関数は、典型的に、低周波から高周波への増加を示す傾向がある。したがって、スペクトル的にフラットな方法で知覚的な変換オーディオコーダのスペクトルにフィリングされるノイズは、最終的に再構成されたスペクトルにおいて傾斜したノイズフロアとなる。しかしながら、本願の発明者は、最終的に再構成されたスペクトルにおいてこの傾斜がオーディオ品質に否定的に影響を及ぼすことに気づき、その理由は、それがスペクトルのノイズフィリングされた部分に残っているスペクトルホールをもたらすからである。したがって、ノイズレベルが低周波から高周波に低減するように、スペクトル的にグローバルな傾斜でノイズを挿入することは、スペクトル知覚的な重み関数を用いてノイズフィリングされたスペクトルの後の整形によって生じるそのようなスペクトル傾斜を少なくとも部分的に補償し、それによって、オーディオ品質を改善する。状況に応じて、正の傾きは、例えば特定のハイパスのようなスペクトルに好まれ得る。
【0018】
実施形態によれば、スペクトル的にグローバルな傾斜の傾きは、スペクトルが符号化されるデータストリームにおいてシグナリングに応答して変化される。シグナリングは、例えば、峻度を明確にシグナリングすることができ、さらに、符号化側で、スペクトル知覚的な重み関数によって生じるスペクトル傾斜の量に適応され得る。例えば、スペクトル知覚的な重み関数によって生じるスペクトル傾斜の量は、オーディオ信号がそれにLPC分析を適用する前に対象となるプリエンファシスから生じることができる。
【0019】
ノイズフィリングは、オーディオ符号化側および/またはオーディオ復号化側で用いられ得る。オーディオ符号化側で用いられるときに、ノイズフィリングされたスペクトルは、合成による分析目的のために用いられ得る。
【0020】
実施形態によれば、エンコーダは、調性依存を考慮に入れることによって、グローバルなノイズスケーリングレベルを決定する。
【0021】
本願の好適な実施形態が、図に関して以下に記載される。
【図面の簡単な説明】
【0022】
図1図1は、例示の目的のために、上から下まで、1つが他の上に、時間整列された方法で、オーディオ信号からの時間フラグメント、スペクトルエネルギーの概略的に示された「グレースケール」スペクトル時間変化を用いるそのスペクトログラム、およびオーディオ信号の調性を示す。
図2図2は、実施形態によるノイズフィリング装置のブロック図を示す。
図3図3は、ノイズフィリングの対象となるスペクトルおよび実施形態によるこのスペクトルの連続したスペクトルゼロ部分をフィリングするために用いられるノイズをスペクトル整形するために用いられる関数の概略図を示す。
図4図4は、ノイズフィリングの対象となるスペクトルおよびさらなる実施形態によるこのスペクトルの連続したスペクトルゼロ部分をフィリングするために用いられるノイズをスペクトル整形するために用いられる関数の概略図を示す。
図5図5は、ノイズフィリングの対象となるスペクトルおよびさらなる実施形態によるこのスペクトルの連続したスペクトルゼロ部分をフィリングするために用いられるノイズをスペクトル整形するために用いられる関数の概略図を示す。
図6図6は、実施形態による図2のノイズフィラーのブロック図を示す。
図7図7は、実施形態による、一方では決定されるオーディオ信号の調性および他方では連続したスペクトルゼロ部分をスペクトル整形するために利用できる可能な関数間の可能な関係を概略的に示す。
図8図8は、実施形態によるノイズのレベルをスケーリングする方法を示すために、概略的に、ノイズフィリングされるスペクトルを示し、さらに、スペクトルの連続したスペクトルゼロ部分をフィリングするためのノイズをスペクトル整形するために用いられる関数を示す。
図9図9は、図1図8に関して記載されるノイズフィリング概念を採用するオーディオコーデック内で用いられ得るエンコーダのブロック図を示す。
図10図10は、実施形態による、送信されたサイド情報、すなわちスケールファクタおよびグローバルなノイズレベルとともに図9のエンコーダによって符号化されるようにノイズフィリングされる量子化されたスペクトルを概略的に示す。
図11図11は、図9のエンコーダに適合し、さらに、図2によるノイズフィリング装置を含むデコーダのブロック図を示す。
図12図12は、図9および図11のエンコーダおよびデコーダの実施の変形による関連したサイド情報データを有するスペクトログラムの概略図を示す。
図13図13は、実施形態による図1図8のノイズフィリング概念を用いるオーディオコーデックに含まれ得る線形予測変換オーディオエンコーダを示す。
図14図14は、図13のエンコーダに適合するデコーダのブロック図を示す。
図15図15は、ノイズフィリングされるスペクトルからのフラグメントの例を示す。
図16図16は、実施形態によるノイズフィリングされるスペクトルの特定の連続したスペクトルゼロ部分にフィリングされるノイズを整形ための関数のための明確な例を示す。
図17a図17a〜図17dは、異なる調性のために用いられる異なるゼロ部分幅および異なるトランジション幅のための連続したスペクトルゼロ部分にフィリングされるノイズをスペクトル整形するための関数のためのさまざまな例を示す。
図17b図17a〜図17dは、異なる調性のために用いられる異なるゼロ部分幅および異なるトランジション幅のための連続したスペクトルゼロ部分にフィリングされるノイズをスペクトル整形するための関数のためのさまざまな例を示す。
図17c図17a〜図17dは、異なる調性のために用いられる異なるゼロ部分幅および異なるトランジション幅のための連続したスペクトルゼロ部分にフィリングされるノイズをスペクトル整形するための関数のためのさまざまな例を示す。
図17d図17a〜図17dは、異なる調性のために用いられる異なるゼロ部分幅および異なるトランジション幅のための連続したスペクトルゼロ部分にフィリングされるノイズをスペクトル整形するための関数のためのさまざまな例を示す。
図18a図18aは、実施形態による知覚的な変換オーディオエンコーダのブロック図を示す。
図18b図18bは、実施形態による知覚的な変換オーディオデコーダのブロック図を示す。
図18c図18cは、実施形態によるフィリングされるノイズに導入されるスペクトル的にグローバルな傾斜を達成する可能な方法を示す概略図を示す。
【発明を実施するための形態】
【0023】
図の以下の説明において、等しい参照符号がこれらの図に示される要素のために用いられる場合はいつでも、1つの図における1つの要素に関して前倒しにされる説明は、同じ参照符号を用いて示されている別の図における要素に移動できるように解釈されるものとする。この対策によって、広範囲にわたる繰り返しの説明は、可能な限り回避され、それによって、何度も、最初から新たに全ての実施形態を表すよりも、むしろそれぞれの中の違いにおいてさまざまな実施形態の説明に集中する。
【0024】
以下の説明は、最初に、オーディオ信号のスペクトルにノイズフィリングを実行するための装置のための実施形態から開始する。第2に、異なる実施形態は、さまざまなオーディオコーデックのために示され、そのようなノイズフィリングは、示されるそれぞれのオーディオコーデックに関連して適用することができる詳細とともに組み込まれ得る。次に記載されるノイズフィリングが、いずれの場合でも、復号化側で実行され得ることに留意されたい。しかしながら、エンコーダに応じて、次に記載されるようなノイズフィリングは、例えば、合成による分析理由のためのように、符号化側でも実行され得る。以下に概説される実施形態によるノイズフィリングの修正された方法が、例えば、スペクトル的にグローバルなノイズフィリングレベルを決定するためのようにエンコーダが働く方法を、単に部分的に変えるという中間の場合が、以下に記載される。
【0025】
図1は、例えば、例示の目的のために、オーディオ信号10、すなわちそのオーディオサンプルの時間的経過を示し、オーディオ信号の時間整列されたスペクトログラム12は、少なくともとりわけ、例えば2つの連続した変換ウィンドウ16のための例となる14で示される重複変換などの適切な変換を介して、オーディオ信号10から導き出され、さらに、このように、関連したスペクトル18は、例えば、関連した変換ウィンドウ16の中間に対応する時間インスタンスでスペクトログラム12からのスライスを表す。スペクトログラム12およびそれが導き出される方法のための例が、さらに以下に示される。いずれの場合でも、スペクトログラム12は、いくつかの種類の量子化の対象となり、ひいては、スペクトログラム12がスペクトル時間的にサンプリングされるスペクトル値が連続的にゼロであるゼロ部分を有する。重複変換14は、例えば、MDCTなどのクリティカルにサンプリングされた変換であってもよい。変換ウィンドウ16は、互いに50%の重なりを有することができるが、異なる実施形態が、同様に可能である。さらに、スペクトログラム12がスペクトル値にサンプリングされるスペクトル時間分解能は、時間的に変化することができる。換言すれば、スペクトログラム12の連続したスペクトル18間の時間的距離は、時間的に変化することができ、さらに、それは、それぞれのスペクトル18のスペクトル分解能に当てはまる。特に、連続したスペクトル18間の時間的距離に関する限り時間的な変化は、スペクトルのスペクトル分解能の変化と逆であってもよい。量子化は、例えば、スペクトル的に変化する信号適応量子化ステップサイズを用い、それは、例えば、ノイズフィリングされるスペクトル18を有するスペクトログラム12の量子化されたスペクトル値が符号化されるデータストリームにおいてシグナリングされるLP係数によって記載されるオーディオ信号のLPCスペクトルエンベロープに従って、または、決定されるスケールファクタに従って変化し、次に、心理音響モデルに従って、さらに、データストリームにおいてシグナリングされる。
【0026】
そのほかに、時間整列された方法で、図1は、オーディオ信号10の特徴およびその時間変化、すなわちオーディオ信号の調性を示す。一般に言って、「調性」は、オーディオ信号のエネルギーが時間的にその位置に関連するそれぞれのスペクトル18において時間の特定の位置でどれくらい圧縮されるかを表す測定値を示す。エネルギーがオーディオ信号10のノイズの多い時間位相におけるように非常に広がる場合に、調性は低い。しかしながら、エネルギーが1つ以上のスペクトルピークに実質的に圧縮される場合に、調性は高い。
【0027】
図2は、本願の実施形態によるオーディオ信号のスペクトルにノイズフィリングを実行するように構成される装置を示す。以下にさらに詳細に記載されるように、その装置は、オーディオ信号の調性に依存してノイズフィリングを実行するように構成される。
【0028】
図2の装置は、参照番号30を用いて一般に示され、ノイズフィラー32および調性決定器3を含み、それは、任意である。
【0029】
実際のノイズフィリングは、ノイズフィラー32によって実行される。ノイズフィラー32は、ノイズフィリングが適用されるものとするスペクトルを受信する。このスペクトルは、まばらなスペクトル34として図2に示される。まばらなスペクトル34は、スペクトログラム12からのスペクトル18であってもよい。スペクトル18は、連続的にノイズフィラー32に入る。ノイズフィラー32は、スペクトル34をノイズフィリングにかけ、さらに、「フィリングされたスペクトル」36を出力する。ノイズフィラー32は、図1における調性20のように、オーディオ信号の調性に依存してノイズフィリングを実行する。状況に応じて、調性は、直接利用できなくてもい。例えば、既存のオーディオコーデックは、データストリームにおいてオーディオ信号の調性の明確なシグナリングを提供しないため、装置30が復号化側にインストールされる場合に、高度な誤った推定なしに調性を再構成することが可能でない。例えば、スペクトル34は、そのまばらさのためにおよび/またはその信号適応変化量子化のために、調性推定のために最適なベースでなくてもよい。
【0030】
したがって、以下にさらに詳細に記載されるように、別の調性ヒント38に基づいて調性の推定をノイズフィラー32に提供することは、調性決定器3のタスクである。後述する実施形態によれば、調性ヒント38は、装置30が例えば用いられるオーディオコーデックのデータストリーム内で伝達されるそれぞれの符号化パラメータによって、とにかく符号化側および復号化側で利用できる。
【0031】
図3は、ゼロに量子化される、まばらなスペクトル34、すなわちスペクトル34のスペクトル的に隣接するスペクトル値のランからなる連続した部分40および42を有する量子化されたスペクトルのための例を示す。このように、連続した部分40および42は、スペクトル的にばらばらでありまたはスペクトル34においてゼロスペクトル線に量子化されない少なくとも1つを介して互いに離間される。
【0032】
図2に関して一般に上述されるノイズフィリングの調性依存は、以下のように実施され得る。図3は、46で誇張される、連続したスペクトルゼロ部分40を含む時間的部分44を示す。ノイズフィラー32は、スペクトル34が属するときにオーディオ信号の調性に依存する方法でこの連続したスペクトルゼロ部分40をフィリングするように構成される。特に、ノイズフィラー32は、連続したスペクトルゼロ部分の内側で最大値を取りさらにその絶対傾きが調性に否定的に依存する外側に立ち下がるエッジを有する関数を用いて、スペクトル整形されるノイズで連続したスペクトルゼロ部分をフィリングする。図3は、2つの異なる調性のための2つの関数48を例示的に示す。両方の関数は、「単一モード」であり、すなわち連続したスペクトルゼロ部分40の内側で絶対最大値を取り、さらに、プラトーまたは単一のスペクトル周波数であってもよい単に1つの極大値だけを有する。ここでは、極大値は、ゼロ部分40の中央に配置される、広げられた間隔52、すなわちプラトーに連続的にわたる関数48および50によって取られる。関数48および50の領域は、ゼロ部分40である。中央の間隔52は、単にゼロ部分40の中央部分をカバーし、さらに、間隔52の高周波側のエッジ部分54および間隔52の低周波側の低周波エッジ部分56が隣接している。関数48および50は、エッジ部分54内で立ち下がるエッジ58を有し、さらに、エッジ部分56内で立ち上がるエッジ60を有する。絶対傾きは、それぞれ、エッジ部分54および56内の平均傾きのように、それぞれ、それぞれのエッジ58および60に起因することができる。すなわち、立ち下がるエッジ58に起因する傾きは、それぞれ、エッジ部分54内のそれぞれの関数48および50の平均傾きであってもよく、さらに、立ち上がるエッジ60に起因する傾きは、それぞれ、エッジ部分56内の関数48および50の平均傾きであってもよい。
【0033】
分かるように、エッジ58および60の傾きの絶対値は、関数48よりも関数50のために高い。ノイズフィラー32は、ノイズフィラー32がゼロ部分40をフィリングするために関数48を用いることを選択する調性よりも低い調性のために関数50でゼロ部分40をフィリングすることを選択する。この対策によって、ノイズフィラー32は、例えばピーク62のように、スペクトル34の潜在的な音のスペクトルピークのすぐ周辺をクラスタリングすることを回避する。エッジ58および60の絶対傾きが小さいほど、ゼロ部分40にフィリングされるノイズは、ゼロ部分40を囲むスペクトル34の非ゼロの部分から離れる。
【0034】
ノイズフィラー32は、例えば、オーディオ信号の調性がτ2である場合に関数48を選択しさらにオーディオ信号の調性がτ1である場合に関数50を選択することができるが、さらに以下に前倒しにされる説明は、ノイズフィラー32がオーディオ信号の調性の2つの異なる状態よりも多くを区別することができ、すなわち、特定の連続したスペクトルゼロ部分をフィリングするための2つの異なる関数48、50よりも多くをサポートすることができ、さらに、調性から関数への全射的なマッピングを介して調性に応じてそれらのどちらかを選ぶことができることを明らかにする。
【0035】
軽微な注意として、単一モードの関数をもたらすためにエッジ58および60が隣接している内側の間隔52においてプラトーを有する関数48および50の構造が、単に例であることに留意されたい。代わりに、ベル形の関数が、例えば、変形例に従って用いられてもよい。間隔52は、代わりに、関数がその最大値の95%よりも高い間隔として定義されてもよい。
【0036】
図4は、調性において、特定の連続したスペクトルゼロ部分40がノイズフィラー32によってフィリングされるノイズをスペクトル整形するために用いられる関数の変化のための変形例を示す。図4によれば、変化は、それぞれ、エッジ部分54および56のスペクトル幅と外側に立ち下がるエッジ58および60とに関連する。図4に示されるように、図4の例によれば、エッジ58および60の傾きは、調性から独立していてもよくすなわち調性に従って変えられなくてもよい。特に、図4の例によれば、ノイズフィラー32は、外側に立ち下がるエッジ58および60のスペクトル幅が調性に肯定的に依存するように、ゼロ部分40をフィリングするためのノイズがスペクトル整形される関数を設定し、すなわち、より高い調性のために、外側に立ち下がるエッジ58および60のスペクトル幅がより大きい関数48が用いられ、さらに、より低い調性のために、外側に立ち下がるエッジ58および60のスペクトル幅がより小さい関数50が用いられる。
【0037】
図4は、連続したスペクトルゼロ部分40がフィリングされるノイズをスペクトル整形するためのノイズフィラー32によって用いられる関数の変化の別の例を示す。ここでは、調性で変化する関数の特徴は、ゼロ部分40の外側のクォーターにわたる積分である。調性が高いほど、間隔は、大きくなる。間隔を決定する前に、完全なゼロ部分40にわたる関数の全体の間隔は、例えば1に等しくされ/正規化される。
【0038】
これを説明するために、図5を参照する。連続したスペクトルゼロ部分40は、4つの等しい大きさのクォーターa、b、c、dに仕切られることを示し、その中でクォーターaおよびdは、外側のクォーターである。分かるように、両方の関数50および48は、内側において、ここでは例示的にゼロ部分40の中間において、それらの重心を有するが、それらの両方は、内側のクォーターb、cから外側のクォーターaおよびdに広がる。外側のクォーターaおよびdを重ねる、関数48および50の重なり部分は、それぞれ、単に斜線で示される。
【0039】
図5において、両方の関数は、全体のゼロ部分40にわたるすなわち全4つのクォーターa、b、c、dにわたる、同じ積分を有する。積分は、例えば1に正規化される。
【0040】
この状態において、クォーターa、dにわたる関数50の積分は、クォーターa、dにわたる関数48の積分よりも大きく、したがって、ノイズフィラー32は、より高い調性のために関数50を用い、さらに、より低い調性のために関数48を用い、すなわち正規化された関数50および48の外側のクォーターにわたる積分は、調性に否定的に依存する。
【0041】
例示の目的のために、図5の場合において、両方の関数48および50は、一定のまたはバイナリの関数であることを例示的に示されている。例えば、関数50は、全体の領域、すなわち全体のゼロ部分40にわたる一定の値を取る関数であり、さらに、関数48は、ゼロ部分40の外側のエッジでゼロであり、さらに、それらの間に非ゼロの一定の値を取るバイナリの関数である。一般に言って、図5の例による関数50および48が、いかなる一定のまたは単一モードの関数、例えば図3および図4に示されるそれらに対応するものなどであってもよいことは、明らかである。さらに正確には、少なくとも1つは、単一モードであって、少なくとも1つは、(区分的に)一定であって、潜在的にさらなるものは、単一モードでまたは一定であってもよい。
【0042】
調性に応じて関数48および50の変化のタイプが変化するにもかかわらず、図3図5の全ての例は、調性を増加するために、スペクトル34において音のピークのすぐ周囲のスミアの程度が低減されまたは回避されることを共通して有し、そのため、ノイズフィリングの品質が増加し、なぜなら、ノイズフィリングが、オーディオ信号の音の位相に否定的に影響を及ぼさなく、それにもかかわらずオーディオ信号の非音の位相の快適な近似をもたらすからである。
【0043】
これまで、図3図5の説明は、1つの連続したスペクトルゼロ部分のフィリングに焦点を置いた。図6の実施形態によれば、図2の装置は、オーディオ信号のスペクトルの連続したスペクトルゼロ部分を識別し、さらに、このように識別される連続したスペクトルゼロ部分にノイズフィリングを適用するように構成される。特に、図6は、ゼロ部分識別器70およびゼロ部分フィラー72を含むようにさらに詳細に図2のノイズフィラー32を示す。ゼロ部分識別器は、スペクトル34において図3における40および42などの連続したスペクトルゼロ部分をサーチする。すでに上述されているように、連続したスペクトルゼロ部分は、ゼロに量子化されているスペクトル値のランとして定義され得る。ゼロ部分識別器70は、識別を、開始するすなわちいくつかの開始周波数の上に存在するオーディオ信号スペクトルの高周波スペクトル部分に限るように構成され得る。したがって、装置は、そのような高周波スペクトル部分にノイズフィリングの実行を限るように構成され得る。ゼロ部分識別器70が連続したスペクトルゼロ部分の識別を実行し、さらに、装置がノイズフィリングの実行を限るように構成される、開始周波数は、固定され得りまたは変化することができる。例えば、オーディオ信号がそのスペクトルを介して符号化されるオーディオ信号のデータストリームにおける明確なシグナリングは、用いられる開始周波数をシグナリングするために用いられ得る。
【0044】
ゼロ部分フィラー72は、図3図4または図5に関して上述されるような関数に従ってスペクトル整形されるノイズで識別器70によって識別される識別された連続したスペクトルゼロ部分をフィリングするように構成される。したがって、ゼロ部分フィラー72は、スペクトル値の数がそれぞれの連続したスペクトルゼロ部分およびオーディオ信号の調性のゼロ量子化されたスペクトル値のランのゼロに量子化されているように、それぞれの連続したスペクトルゼロ部分の幅に依存して設定される関数で識別器70によって識別される連続したスペクトルゼロ部分をフィリングする。
【0045】
特に、識別器70によって識別されるそれぞれの連続したスペクトルゼロ部分の個々のフィリングは、以下のようにフィラー72によって実行され得る。関数は、関数がそれぞれの連続したスペクトルゼロ部分に限られるように、連続したスペクトルゼロ部分の幅に依存して設定され、すなわち、関数の領域は、連続したスペクトルゼロ部分の幅と一致する。関数の設定は、すなわち図3図5に関して上に概説される方法で、オーディオ信号の調性にさらに依存し、そのため、オーディオ信号の調性が増加する場合に、関数の質量は、それぞれの連続したゼロ部分の内側でよりコンパクトになり、さらに、それぞれの連続したスペクトルゼロ部分のエッジから離間される。この関数を用いて、それぞれのスペクトル値がランダムな、疑似ランダムなまたはパッチされ/コピーされた値に設定される連続したスペクトルゼロ部分の予めフィリングされた状態は、すなわち予備スペクトル値で関数の乗算によって、スペクトル整形される。
【0046】
調性におけるノイズフィリングの依存が3、4または4よりも多いように2つの異なる調性だけよりも多くの間で区別することができることは、すでに上に概説されている。図7は、例えば、参照符号74で決定器3によって決定されるように、可能な調性の領域、すなわち可能なインター調性値の間隔を示す。図7は、76で、例示的に、連続したスペクトルゼロ部分がフィリングされ得るノイズをスペクトル整形するために用いられる可能な関数の設定を示す。図7に示されるようなセット76は、スペクトル幅または領域長および/または形状、すなわちコンパクト性および外側のエッジからの距離によって互いに相互に区別する離散関数インスタンス化のセットである。図7は、78で、可能なゼロ部分幅の領域をさらに示す。間隔78は、いくらかの最小幅からいくらかの最大幅までの範囲の離散値の間隔である一方、オーディオ信号の調性を測定する決定器3によって出力される調性値は、整数値であってもよく、または、浮動小数点値のように、いくつかの他のタイプの値であってもよい。一対の間隔74および78から可能な関数のセット76へのマッピングは、テーブル検索によってまたは数学的関数を用いて実現され得る。例えば、識別器70によって識別される特定の連続したスペクトルゼロ部分のために、ゼロ部分フィラー72は、例えば、シーケンスの長さが連続したスペクトルゼロ部分の幅に一致する、関数値のシーケンスとして、定義されるセット76の関数をテーブルにおいて検索するために、決定器3によって決定されるようにそれぞれの連続したスペクトルゼロ部分の幅および現在の調性を用いることができる。代わりに、ゼロ部分フィラー72は、それぞれの連続したスペクトルゼロ部分にフィリングされるノイズをスペクトル整形するために用いられる関数を導き出すために、関数パラメータを検索し、さらに、これらの関数のパラメータを予め決められた関数にフィリングする。別の変形例において、ゼロ部分フィラー72は、数学的に計算される関数パラメータによるそれぞれの関数を構築するために、関数パラメータに到達するための数式に、それぞれの連続したスペクトルゼロ部分の幅および現在の調性を直接挿入することができる。
【0047】
これまで、本願の特定の実施形態の説明は、特定の連続したスペクトルゼロ部分がフィリングされるノイズをスペクトル整形するために用いらる関数の形状に焦点を置いた。しかしながら、快適な再構成をもたらすためにノイズフィリングされる特定のスペクトルに付加されるノイズの全体のレベルを制御し、または、スペクトル的にノイズ導入のレベルを制御することも、有利である。
【0048】
図8は、ノイズフィリングされるスペクトルを示し、ゼロに量子化されない部分、したがって、ノイズフィリングの対象とならない部分は、クロスハッチングされて示され、3つの連続したスペクトルゼロ部分90、92および94は、ドントケアスケールを用いて、これらの部分90〜94にフィリングされるノイズをスペクトル整形するために選択された関数がそこに書かれているゼロ部分によって示されるプリフィリングされた状態で示される。
【0049】
1つの実施形態によれば、部分90〜94にフィリングされるノイズをスペクトル整形するための関数48、50の利用できるセットは、全て、エンコーダおよびデコーダに知られている所定のスケールを有する。スペクトル的にグローバルなスケーリングファクタは、オーディオ信号すなわちスペクトルの非量子化された部分が符号化されるデータストリーム内で明確にシグナリングされる。このファクタは、例えば、ノイズのレベルのためのRMSまたは別の測定値、すなわちランダムなまたは疑似ランダムなスペクトル線値を示し、それによって、部分90〜94は、復号化側で予め設定され、そして、調性依存して選択されたありのままの関数48、50を用いてスペクトル整形される。グローバルなノイズスケーリングファクタがエンコーダ側で決定されることができる方法として、さらに以下に記載される。例えば、Aは、スペクトルがゼロに量子化されさらに部分90〜94のいずれかに属するスペクトル線のインデックスiのセットであるとし、さらに、Nは、グローバルなノイズスケーリングファクタを意味するとする。スペクトルの値は、xiで意味されるものとする。さらに、「random(N)」は、レベル「N」に対応するレベルのランダムな値を与える関数を意味するものとし、さらに、left(i)は、インデックスiでいかなるゼロ量子化されたスペクトル値のために、iが属するゼロ部分の低周波端でゼロ量子化された値のインデックスを示す関数であるものとし、さらに、j=0からJi−1でFi(j)は、Jiがゼロ部分の幅を示すとともに、調性に応じて、インデックスiで開始するゼロ部分90〜94に割り当てられる関数48または50を意味するものとする。そして、部分90〜94は、xi=Fleft(i)(i−left(i))・random(N)に従ってフィリングされる。
【0050】
さらに、部分90〜94へのノイズのフィリングは、ノイズレベルが低周波から高周波に低減するように制御され得る。これは、部分が予め設定されるノイズをスペクトル整形し、または、ローパスフィルタの伝達関数に従って関数48、50の配置をスペクトル整形することによって行われ得る。これは、例えば、量子化ステップサイズのスペクトル経過を決定する際に用いられるプリエンファシスによるフィリングされたスペクトルを再スケーリングし/逆量子化するときに生じるスペクトル傾斜を補償することができる。したがって、低減の峻度またはローパスフィルタの伝達関数は、適用されるプリエンファシスの程度に従って制御され得る。上で用いられる命名を適用すると、部分90〜94は、線形であってもよい低周波フィルタの伝達関数を意味するLPF(i)でxi=Fleft(i)(i−left(i))・random(N)・LPF(i)に従ってフィリングされ得る。状況に応じて、関数15に対応する関数LPFは、正の傾きを有することができ、それに応じて、LPFは、HPFを読み込むために変えられる。
【0051】
調性およびゼロ部分の幅に応じて選択される関数の固定されたスケーリングを用いる代わりに、ちょうど概説されたスペクトル傾斜の修正は、それぞれの連続したスペクトルゼロ部分がフィリングされなければならないノイズをスペクトル整形するために用いられる関数の検索または他の決定80の際にインデックスとしてもそれぞれの連続したゼロ部分のスペクトル位置を用いることによって直接説明され得る。例えば、関数の平均値または特定のゼロ部分90〜94にフィリングされるノイズをスペクトル整形するために用いられるそのプリスケーリングは、スペクトルの全体の帯域幅にわたって、連続したスペクトルゼロ部分90〜94のために用いられる関数が、スペクトルの非ゼロの量子化された部分を導き出すために用いられるいかなるハイパスプリエンファシス伝達関数も補償するためにローパスフィルタ伝達関数をエミュレートするためにプリスケーリングされるように、ゼロ部分90〜94のスペクトル位置に依存することができる。
【0052】
ノイズフィリングを実行するための記載されている実施形態が、オーディオコーデックのための以下の実施形態において示され、上に概説されるノイズフィリングが、有利に組み込まれ得る。図9および図10は、それぞれ、例えばAAC(アドバンストオーディオ符号化)のベースを形成するタイプの変換ベースの知覚的なオーディオコーデックを一緒に実施する、例えば一対のエンコーダおよびデコーダを示す。図9に示されるエンコーダ100は、オリジナルのオーディオ信号102を変換器104における変換にかける。変換器104によって実行される変換は、例えば、図1の変換14に対応する重複変換である。それは、スペクトログラム12を一緒に含むスペクトル18のシーケンスにオリジナルのオーディオ信号の連続した相互に重なる変換ウィンドウをかけることによって、入ってくるオリジナルのオーディオ信号102をスペクトル的に分解する。上に示されるように、スペクトログラム12の時間分解能を定義するインター変換ウィンドウパッチは、それぞれのスペクトル18のスペクトル分解能を定義する変換ウィンドウの時間的長さが行うのと同じように、時間的に変化することができる。エンコーダ100は、変換器104に入る時間領域バージョンまたは変換器104によって出力されるスペクトル的に分解されたバージョンに基づいて、オリジナルのオーディオ信号から導き出される知覚モデラー106を含み、知覚的なマスキング閾値は、量子化ノイズが知覚できないように隠され得るスペクトル曲線を定義する。
【0053】
オーディオ信号のスペクトル線的表現すなわちスペクトログラム12およびマスキング閾値は、マスキング閾値に依存するスペクトル的に変化する量子化ステップサイズを用いてスペクトログラム12のスペクトルサンプルを量子化するために関与する量子化器108に入る。マスキング閾値が大きいほど、量子化ステップサイズは、小さくなる。特に、量子化器108は、一方では量子化ステップサイズおよび他方では知覚的なマスキング閾値間の前述の関係によって、知覚的なマスキング閾値自体の一種の表現を表すいわゆるスケールファクタの形で量子化ステップサイズの変化を復号化側に知らせる。スケールファクタを復号化側に送信するために費やされるサイド情報の量および量子化ノイズを知覚的なマスキング閾値に適応する粒度間の良好な妥協を見つけるために、量子化器108は、量子化されたスペクトルレベルがオーディオ信号のスペクトログラム12のスペクトル線的表現を記載するスペクトル時間分解能よりも低いまたは粗いスペクトル時間分解能においてスケールファクタを設定し/変化する。例えば、量子化器108は、それぞれのスペクトルをバークバンドなどのスケールファクタバンド110に再分割し、さらに、スケールファクタバンド110ごとに1つのスケールファクタを送信する。時間分解能に関する限り、それは、スペクトログラム12のスペクトル値のスペクトルレベルと比較して、スケールファクタの送信に関する限りより低くてもよい。
【0054】
スペクトログラム12のスペクトル値のスペクトルレベルもスケールファクタ112も両方とも、復号化側に送信される。しかしながら、オーディオ品質を改善するために、エンコーダ100は、表現12のゼロ量子化された部分が、スケールファクタ112を適用することによってスペクトルを再スケーリングしまたは逆量子化する前にノイズでフィリングされなければならないまでのノイズレベルを復号化側にシグナリングするグローバルなノイズレベルもデータストリーム内で送信する。これは、図10に示される。図10は、クロスハッチングを用いて、図9における18などのまだ再スケーリングされていないオーディオ信号のスペクトルを示す。それは、連続したスペクトルゼロ部分40a、40b、40cおよび40dを有する。スペクトル18ごとにデータストリームにおいて送信され得るグローバルなノイズレベル114は、これらのゼロ部分40a〜40dがスケールファクタ112を用いてこのフィリングされたスペクトルを再スケーリングまたは再量子化にかける前にノイズでフィリングされるものとするまでのレベルをデコーダに示す。
【0055】
すでに上に示されているように、グローバルなノイズレベル114が参照するノイズフィリングは、この種のノイズフィリングが単にfstartとして例示の目的のために図10に示されるいくつかの開始周波数の上の周波数を単に参照するという制限の対象となり得る。
【0056】
図10は、エンコーダ100において実施され得る別の特定の特徴を示す。それぞれのスケールファクタバンド内の全てのスペクトル値がゼロに量子化されているスケールファクタバンド110を含むスペクトル18があってもよいように、そのようなスケールファクタバンドに関連するスケールファクタ112は、実際に余分である。したがって、量子化器100は、グローバルなノイズレベル114を用いてスケールファクタバンドにフィリングされるノイズに加えてノイズでスケールファクタバンドを個々にフィリングするために、または他の用語で、グローバルなノイズレベル114に応答してそれぞれのスケールファクタバンドに起因するノイズをスケーリングするために、このまさにスケールファクタを用いる。例えば、図10を参照する。図10は、スケールファクタバンド110a〜110hへのスペクトル18の例示的な再分割を示す。スケールファクタバンド110eは、スペクトル値の全てがゼロに量子化されているスケールファクタバンドである。したがって、関連したスケールファクタ112は、「フリー」であり、さらに、このスケールファクタバンドが完全にフィリングされるまでのノイズのレベルを決定する114ために用いられる。非ゼロのレベルに量子化されるスペクトル値を含む他のスケールファクタバンドは、代表的に、スケーリングが矢印116を用いて示される、ゼロ部分40a〜40dがフィリングされているノイズを含む、ゼロに量子化されていないスペクトル18のスペクトル値を再スケーリングするために用いられる、関連するスケールファクタを有する。
【0057】
図9のエンコーダ100は、復号化側内でグローバルなノイズレベル114を用いるノイズフィリングが、上述されるノイズフィリング実施形態を用いて、例えば調性への依存を用いておよび/またはスペクトル的にグローバルな傾斜をノイズに課しておよび/またはノイズフィリング開始周波数などを変化して、実行されることをすでに考慮に入れることができる。
【0058】
調性への依存に関する限り、エンコーダ100は、それぞれのゼロ部分をフィリングするためにノイズをスペクトル整形するための関数をゼロ部分40a〜40dに関連付けることによって、グローバルなノイズレベル114を決定し、さらに、それをデータストリームに挿入することができる。特に、エンコーダは、グローバルなノイズレベル114を決定するために、これらの部分40a〜40dにおいてオリジナルのすなわち重み付けされているがまだ量子化されていないオーディオ信号のスペクトル値に重み付けするために、これらの関数を用いることができる。それによって、データストリーム内で決定されさらに送信されるグローバルなノイズレベル114は、オリジナルのオーディオ信号のスペクトルをより密接にリカバーする復号化側でノイズフィリングをもたらす。
【0059】
エンコーダ100は、オーディオ信号のコンテンツに応じて、いくつかの符号化オプションの使用を決めることができ、次に、部分40a〜40dをフィリングするために用いられるノイズをスペクトル整形するための関数を復号化側に正しく設定することを可能にするために、図2に示される調性ヒント38などの調性ヒントとして用いられ得る。例えば、エンコーダ100は、いわゆる長期予測ゲインパラメータを用いて前のスペクトルから1つのスペクトル18を予測するために、時間予測を用いることができる。換言すれば、長期予測ゲインは、そのような時間予測が用いられまたは用いられないまでの程度を設定することができる。したがって、長期予測ゲインまたはLTPゲインは、LTPゲインが高いほど、オーディオ信号の調性が高いという可能性が最も高い、調性ヒントとして用いられ得るパラメータである。このように、図2の調性決定器3は、例えば、LTPゲインへの単調な肯定的な依存に従って調性を設定することができる。LTPゲインの代わりにまたはそれに加えて、データストリームは、例えば、LTPのオン/オフを切り替え、それによって調性に関するバイナリ値のヒントを明らかにする、LTPイネーブルメントフラグシグナリングを含むことができる。
【0060】
加えてまたは代わりに、エンコーダ100は、時間ノイズ整形をサポートすることができる。すなわち、スペクトル18ごとに、例えば、エンコーダ100は、デコーダに時間ノイズ整形イネーブルメントフラグによってこの決定を示すとともに、時間ノイズ整形にスペクトル18をかけることを選択することができる。TNSイネーブルメントフラグは、スペクトル18のスペクトルレベルがスペクトルの予測残差、すなわち、決定される周波数方向に沿ってスペクトルの線形予測を形成するかどうかを、または、スペクトルが予測されるLPでないどうかを示す。TNSがイネーブルにされるとシグナリングされる場合に、データストリームは、デコーダが再スケーリングまたは逆量子化の前にまたは後にそれをスペクトルに適用することによってこれらの線形予測係数を用いてスペクトルをリカバーすることができるように、スペクトルをスペクトル的に線形予測するための線形予測係数をさらに含む。TNSイネーブルメントフラグは、調性ヒントでもある。例えば一時的に、TNSイネーブルメントフラグが切り替えられるTNSをシグナリングする場合に、オーディオ信号は、スペクトルが周波数軸に沿った線形予測によってかなり予測可能であるように見えるので、音である可能性がほとんどなく、よって非定常である。したがって、調性は、TNSイネーブルメントフラグがTNSをディセーブルにする場合に調性がより高く、さらに、TNSイネーブルメントフラグがTNSのイネーブルメントをシグナリングする場合に調性がより低いように、TNSイネーブルメントフラグに基づいて決定され得る。TNSイネーブルメントフラグの代わりにまたはそれに加えて、TNSがスペクトルを予測するために使用可能であるまでの程度を示すTNSゲインをTNSフィルタ係数から導き出すことが可能であってもよく、それによって調性に関する2よりも大きい値のヒントを明らかにする。
【0061】
他の符号化パラメータは、エンコーダ100によってデータストリーム内で符号化され得る。例えば、スペクトル再配置イネーブルメントフラグは、デコーダがスペクトル18をリカバーするためにスペクトルレベルを再配置しまたは再スクランブルすることができるように、データストリーム内で再配置プリスクリプションをスペクトル的にさらに送信するとともに、スペクトル18がスペクトルレベルすなわち量子化されたスペクトル値を再配置することによって符号化される1つの符号化オプションをシグナリングすることができる。スペクトル再配置イネーブルメントフラグがイネーブルにされる場合に、すなわちスペクトル再配置が適用される場合に、これは、多くの音のピークがスペクトル内にある場合に、オーディオ信号が、データストリームを圧縮する際によりレート/歪の効果的である傾向がある再配置として音である可能性が高いことを示す。したがって、加えてまたは代わりに、スペクトル再配置イネーブルメントフラグは、音のヒントとして用いられ得り、さらに、ノイズフィリングのために用いられる調性は、スペクトル再配置イネーブルメントフラグがイネーブルにされる場合により大きく設定され得り、さらに、スペクトル配置イネーブルメントフラグがディセーブルにされる場合により小さく設定され得る。
【0062】
完全性のために、図2に関して、ゼロ部分40a〜40dをスペクトル整形するための異なる関数の数、すなわちスペクトル整形するための関数を設定するために区別される異なる調性の数は、例えば、4よりも大きくてもよく、または、少なくとも予め決められた最小幅よりも上の連続したスペクトルゼロ部分の幅のための8よりもさらに大きくてもよいことに留意されたい。
【0063】
スペクトル的にグローバルな傾斜をノイズに課し、さらに、ノイズレベルパラメータを符号化側で計算するときに、それを考慮に入れる概念に関する限り、エンコーダ100は、少なくともスペクトル帯域幅の全体のノイズフィリング部分にわたってスペクトル的に広がりさらにノイズフィリングのための復号化側で用いられる関数15と比較して逆の符号の傾きを有する関数で、スペクトル的にゼロ部分40a〜40dと同じ位置に配置される、オーディオ信号のスペクトル値に重み付けする知覚的な重み関数の逆で、まだ量子化されていない部分に重み付けし、さらに、例えば、このように重み付けされた非量子化された値に基づいてレベルを測定することによって、グローバルなノイズレベル114を決定し、さらに、それをデータストリームに挿入することができる。
【0064】
図11は、図9のエンコーダに適合するデコーダを示す。図11のデコーダは、参照符号130を用いて一般に示され、さらに、上述された実施形態に対応するノイズフィラー30、逆量子化器132および逆変換器134を含む。ノイズフィラー30は、スペクトログラム12内でスペクトル18のシーケンス、すなわち量子化されたスペクトル値を含むスペクトル線的表現、および、任意に、上述される符号化パラメータの1つまたはいくつかのようなデータストリームからの調性ヒントを受信する。そして、ノイズフィラー30は、例えば、上述される調性依存を用いておよび/またはスペクトル的にグローバルな傾斜をノイズに課すことによって、さらに、上述されるようにノイズレベルをスケーリングするためのグローバルなノイズレベル114を用いて、上述されるように連続したスペクトルゼロ部分40a〜40dをノイズでフィリングする。このようにフィリングされた、これらのスペクトルは、スケールファクタ112を用いてノイズフィリングされたスペクトルを次に逆量子化しまたは再スケーリングする逆量子化器132に達する。次に、逆変換器134は、オーディオ信号をリカバーするために、逆量子化されたスペクトルを逆変換にかける。上述されるように、逆変換134は、例えばMDCTなどのクリティカルにサンプリングされた重複変換である変換器104によって用いられる変換の場合に生じる時間領域エイリアシング取消を達成するために重畳加算プロセスを含むことができ、逆変換が逆変換器134によって適用される場合にはIMDCT(逆MDCT)である。
【0065】
図9および図10に関してすでに記載されているように、逆量子化器132は、プリフィリングされたスペクトルにスケールファクタを適用する。すなわち、ゼロに完全に量子化されていないスケールファクタバンド内のスペクトル値は、非ゼロのスペクトル値または上述されるようにノイズフィラー30によってスペクトル整形されているノイズを表すスペクトル値に関わりなくスケールファクタを用いてスケーリングされる。完全にゼロ量子化されたスペクトルバンドは、ノイズフィリングを制御することが完全にフリーである関連するスケールファクタを有し、さらに、ノイズフィラー30は、スケールファクタバンドが連続したスペクトルゼロ部分のノイズフィラー30のノイズフィリングによってフィリングされているノイズを個々にスケーリングするためにこのスケールファクタを用いることもでき、または、ノイズフィラー30は、これらのゼロ量子化されたスペクトルバンドに関する限り付加ノイズをさらにフィリングしすなわち付加するためにスケールファクタを用いることができる。
【0066】
ノイズフィラー30が上述される調性依存の方法でスペクトル整形しおよび/または上述される方法でスペクトル的にグローバルな傾斜にかけるノイズが、疑似ランダムなノイズソースから生じることができ、または、例えば別のチャネルの時間整列されたスペクトルまたは時間的に前のスペクトルのように、同じスペクトルの他の領域または関連したスペクトルからスペクトルのコピーまたはパッチングに基づいてノイズフィラー30から導き出され得ることに留意されたい。同じスペクトルからのパッチングも、例えばスペクトル18の低周波領域からのコピー(スペクトルのコピー)のように、可能であり得る。ノイズフィラー30がノイズを導き出す方法に関わりなく、フィラー30は、上述される調依存の方法で連続したスペクトルゼロ部分40a〜40dにフィリングするためのノイズをスペクトル整形しおよび/または上述される方法でそれをスペクトル的にグローバルな傾斜にかける。
【0067】
完全性のためだけに、一方ではスケールファクタおよびスケールファクタに特定のノイズレベル間の並置が異なって実施されるという点で、図9および図11のエンコーダ100およびデコーダ130の実施形態が変化され得ることが、図12に示される。図12の例によれば、エンコーダは、例えば、スケールファクタ112に加えて、スケールファクタ112と同じスペクトル時間分解能などで、スペクトログラム12のスペクトル線的分解能よりも粗い分解能でスペクトル時間的にサンプリングされる、ノイズエンベロープの情報をデータストリーム内で送信する。このノイズエンベロープ情報は、図12に参照符号140を用いて示される。この対策によって、ゼロに完全に量子化されなかったスケールファクタバンドのために2つの値:そのそれぞれのスケールファクタバンド内で非ゼロのスペクトル値を再スケーリングしまたは逆量子化するためのスケールファクタと、そのスケールファクタバンド内でゼロ量子化されたスペクトル値のノイズレベルを個々にスケーリングするスケールファクタバンドのためのノイズレベル140とが存在する。この概念は、IGF(インテリジェントギャップフィリング)とも呼ばれる。
【0068】
ここでも、ノイズフィラー30は、図12に例示的に示されるように連続したスペクトルゼロ部分40a〜40dの調性依存のフィリングを適用することができる。
【0069】
図9図12に関して上で概説されるオーディオコーデックの例によれば、量子化ノイズのスペクトル整形は、スケールファクタの形でスペクトル時間表現を用いて知覚的なマスキング閾値に関する情報を送信することによって実行されている。図13および図14は、一対のエンコーダおよびデコーダを示し、図1図8に関して記載されるノイズフィリング実施形態は、用いられ得るが、量子化ノイズは、オーディオ信号のスペクトルのLP(線形予測)記述に従ってスペクトル整形される。両方の実施形態において、ノイズフィリングされるスペクトルは、重み付けされた領域にあり、すなわち、それは、重み付けされた領域または知覚的に重み付けされた領域においてスペクトル的に一定のステップサイズを用いて量子化される。
【0070】
図13は、変換器152、量子化器154、プリエンファサイザ156、LPCアナライザ158、およびLPC対スペクトル線コンバータ160を含むエンコーダ150を示す。プリエンファサイザ156は、任意である。プリエンファサイザ156は、入ってくるオーディオ信号12をプリエンファシスに、すなわち、例えばFIRまたはIIRフィルタを用いて浅いハイパスフィルタ伝達関数を有するハイパスフィルタリングにかける。一次のハイパスフィルタは、例えば、プリエンファシスの量または強さを線で設定するαでH(z)=1−αz-1のようにプリエンファサイザ156のために用いられ得り、実施形態の1つによれば、スペクトルにフィリングされるためのノイズがかけられるスペクトル的にグローバルな傾斜が変化される。αの可能な設定は、0.68であり得る。プリエンファサイザ156によって生じるプリエンファシスは、高周波から低周波に、エンコーダ150によって送信される量子化されたスペクトル値のエネルギーをシフトすることであり、それによって、人間の知覚が高周波領域においてよりも低周波領域においてより高い心理音響法則を考慮に入れる。オーディオ信号がプリエンファシスされるか否か、LPCアナライザ158は、オーディオ信号を線形に予測し、または、そのスペクトルエンベロープをより正確に推定するために、入ってくるオーディオ信号12にLPC分析を実行する。LPCアナライザ158は、例えば、線形予測係数を、オーディオ信号12の多くのオーディオサンプルからなるサブフレームの時間単位で決定し、さらに、それをデータストリーム内で復号化側に162で示されるように送信する。LPCアナライザ158は、例えば、分析ウィンドウにおける自己相関を用いて、さらに、例えばレビンソンダービンアルゴリズムを用いて、線形予測係数を決定する。線形予測係数は、例えばスペクトル線対などの形で量子化されおよび/または変換されたバージョンでデータストリームにおいて送信され得る。いずれの場合でも、LPCアナライザ158は、データストリームを介して復号化側で利用できるように線形予測係数をLPC対スペクトル線コンバータ160に送り、さらに、コンバータ160は、量子化ステップサイズをスペクトル的に変化し/設定するために量子化器154によって用いられるスペクトル曲線に線形予測係数を変換する。特に、変換器152は、例えば変換器104が行うのと同じ方法で入ってくるオーディオ信号12を変換にかける。このように、変換器152は、スペクトルのシーケンスを出力し、さらに、量子化器154は、例えば、全体のスペクトルのためのスペクトル的に一定の量子化ステップサイズを用いて、コンバータ160から得られるスペクトル曲線によってそれぞれのスペクトルを分割することができる。量子化器154によって出力されるスペクトルのシーケンスのスペクトログラムは、図13の164で示され、さらに、復号化側でフィリングされ得るいくつかの連続したスペクトルゼロ部分を含む。グローバルなノイズレベルパラメータは、エンコーダ150によってデータストリーム内で送信され得る。
【0071】
図14は、図13のエンコーダに適合するデコーダを示す。図14のデコーダは、参照符号170を用いて一般に示され、さらに、ノイズフィラー30、LPC対スペクトル線コンバータ172、逆量子化器174および逆変換器176を含む。ノイズフィラー30は、量子化されたスペクトル164を受信し、上述されるように連続したスペクトルゼロ部分にノイズフィリングを実行し、さらに、このようにフィリングされたスペクトログラムを逆量子化器174に送る。逆量子化器174は、LPC対スペクトル線コンバータ172から、フィリングされたスペクトルを再整形するための、または、換言すれば、それを逆量子化するための逆量子化器174によって用いられるスペクトル曲線を受信する。このプロセスは、FDNS(周波数領域ノイズ整形)とも呼ばれる。LPC対スペクトル線コンバータ172は、データストリームにおいてLPC情報162に基づいてスペクトル曲線を導き出す。逆量子化器174によって出力される、逆量子化されたスペクトル、または再整形されたスペクトルは、オーディオ信号をリカバーするために、逆変換器176による逆変換にかけられる。また、再整形されたスペクトルのシーケンスは、例えばMDCTなどのクリティカルにサンプリングされた重複変換である変換器152の変換の場合に連続した再変換間で時間領域エイリアシング取消を実行するために、逆変換器176によって、重畳加算プロセスが続く逆変換にかけられ得る。
【0072】
図13および図14における点線によって、プリエンファサイザ156によって適用されるプリエンファシスがデータストリーム内でシグナリングされるバリエーションで時間的に変化することができることが、示される。その場合において、ノイズフィラー30は、図8に関して上述されるようにノイズフィリングを実行するときにプリエンファシスを考慮に入れることができる。特に、プリエンファシスは、量子化されたスペクトル値すなわちスペクトルレベルが低周波から高周波に低減する傾向があるという点で、すなわち、それらがスペクトル傾斜を示すという点で、量子化器154によって出力される量子化されたスペクトルにおいてスペクトル傾斜を生じる。このスペクトル傾斜は、上述される方法でノイズフィラー30によって、補償され、または、よりよくエミュレートされ、または、適応され得る。データストリームにおいてシグナリングされる場合に、シグナリングされるプリエンファシスの程度は、プリエンファシスの程度に依存する方法で、フィリングされたノイズの適応傾斜を実行するために用いられ得る。すなわち、データストリームにおいてシグナリングされるプリエンファシスの程度は、ノイズフィラー30によってスペクトルにフィリングされるノイズに課されるスペクトル傾斜の程度を設定するためにデコーダによって用いられ得る。
【0073】
これまで、いくつかの実施形態が記載されており、さらに、以下に特定の実施例が示される。これらの例に関して前倒しにされる詳細は、それをさらに特定するために上述の実施形態に個々に移動できるとして理解されるものとする。しかしながら、その前に、上述される実施形態の全てが、オーディオおよびスピーチの符号化において用いられ得ることに留意すべきである。それらは、一般に、変換符号化を参照し、さらに、サイド情報の非常に少ない量を用いて量子化プロセスにおいて導入されるゼロをスペクトル整形されたノイズに置き換えるための信号適応概念を用いる。上述される実施形態において、そのような開始周波数が用いられる場合にスペクトルホールがノイズフィリング開始周波数のすぐ下に現れもし、さらに、そのようなスペクトルホールが知覚的に迷惑でもあるという、観察が利用されている。開始周波数の明確なシグナリングを用いる上述の実施形態は、劣化をもたらすホールを取り除くことを可能にするが、ノイズの挿入が歪を導入するところではどこでも低周波でノイズを挿入することを回避することを可能にする。
【0074】
さらに、上で概説される実施形態のいくつかは、プリエンファシスによって生じるスペクトル傾斜を補償するために、プリエンファシス制御されたノイズフィリングを用いる。これらの実施形態は、LPCフィルタがプリエンファシス信号で計算される場合に、挿入されるノイズのグローバルな若しくは平均の振幅または平均エネルギーを単に適用して、復号化側でFDNSのように挿入されたノイズにおいてスペクトル傾斜を導入するためにノイズ整形を生じ、スペクトル的にフラットな挿入されたノイズをプリエンファシスのスペクトル傾斜をまだ示すスペクトル整形にかける、観察を考慮に入れる。したがって、後の実施形態は、プリエンファシスからスペクトル傾斜が考慮されさらに補償されるような方法で、ノイズフィリングを実行している。
【0075】
このように、換言すれば、図11および図14は、それぞれ、知覚的な変換オーディオデコーダを示している。それは、オーディオ信号のスペクトル18にノイズフィリングを実行するように構成されるノイズフィラー30を含む。その実行は、上述されるように調性依存して行われ得る。その実行は、上述されるように、ノイズフィリングされたスペクトルを得るために、スペクトル的にグローバルな傾斜を示すノイズでスペクトルをフィリングすることによって行われ得る。「スペクトル的にグローバルな傾斜」は、例えば、傾斜が、例えば、ノイズでフィリングされる全ての部分40にわたるノイズを包囲するエンベロープにおいて、それ自体を明らかにすることを意味するものとし、それは、傾けられ、すなわち非ゼロの傾きを有する。「エンベロープ」は、例えば全て自己連続しているがスペクトル的に離間される部分40にフィリングされるノイズの極大値を通して導かれる、例えば線形関数または二次若しくは三次の別の多項式のようなスペクトル回帰曲線であるように定義される。「低周波から高周波への低減」は、この傾斜が負の傾きを有することを意味し、さらに、「低周波から高周波への増加」は、この傾斜が正の傾きを有することを意味する。両方の実行態様は、同時にまたは単にそれらの1つを適用することができる。
【0076】
さらに、知覚的な変換オーディオデコーダは、スペクトル知覚的な重み関数を用いてノイズフィリングされたスペクトルをスペクトル整形にかけるように構成される、逆量子化器132、174の形で周波数領域ノイズシェーパ6を含む。図11の場合において、周波数領域ノイズシェーパ132は、スペクトルが符号化されるデータストリームにおいてシグナリングされる線形予測係数情報162からスペクトル知覚的な重み関数を決定するように構成される。図14の場合において、周波数領域ノイズシェーパ174は、データストリームにおいてシグナリングされる、スケールファクタバンド110に関するスケールファクタ112からスペクトル知覚的な重み関数を決定するように構成される。図8に関して記載されさらに図11に関して示されるように、ノイズフィラー3は、データストリームにおいて明確なシグナリングに応答してスペクトル的にグローバルな傾斜の傾きを変化し、または、それを、例えばLPCスペクトルエンベロープまたはスケールファクタを評価することによってスペクトル知覚的な重み関数をシグナリングするデータストリームの部分から推定し、または、それを、量子化されさらに送信されたスペクトル18から推定するように構成され得る。
【0077】
さらに、知覚的な変換オーディオデコーダは、逆変換を得るために、周波数領域ノイズシェーパによってスペクトル整形される、ノイズフィリングされたスペクトルを逆変換し、さらに、逆変換を重畳加算プロセスにかけるように構成される逆変換器134、176を含む。
【0078】
対応して、図13および図9は、両方とも、図9および図13に示される量子化器モジュール108、154において両方とも実施されるスペクトル重み付け1および量子化2を実行するように構成される知覚的な変換オーディオエンコーダのための例を示している。スペクトル重み付け1は、知覚的に重み付けされたスペクトルを得るために、スペクトル知覚的な重み関数の逆に従ってオーディオ信号のオリジナルのスペクトルにスペクトル的に重み付けし、さらに、量子化2は、量子化されたスペクトルを得るために、スペクトル的に一様な方法で知覚的に重み付けされたスペクトルを量子化する。知覚的な変換オーディオエンコーダは、量子化モジュール108、154内でノイズレベル計算3をさらに実行し、例えば、低周波から高周波へ増加するスペクトル的にグローバルな傾斜で重み付けされる方法で量子化されたスペクトルのゼロ部分と同じ位置に配置される知覚的に重み付けされたスペクトルのレベルを測定することによってノイズレベルパラメータを計算する。図13によれば、知覚的な変換オーディオエンコーダは、オーディオ信号のオリジナルのスペクトルのLPCスペクトルエンベロープを表す線形予測係数情報162を決定するように構成されるLPCアナライザ158を含み、スペクトル重み付け器154は、LPCスペクトルエンベロープに続くためにスペクトル知覚的な重み関数を決定するように構成される。前述のように、LPCアナライザ158は、プリエンファシスフィルタ156にかける、オーディオ信号のバージョンにLP分析を実行することによって線形予測係数情報162を決定するように構成され得る。図13に関して上述されるように、プリエンファシスフィルタ156は、プリエンファシスフィルタにかける、オーディオ信号のバージョンを得るために、変化するプリエンファシス量でオーディオ信号をハイパスフィルタにかけるように構成され得り、ノイズレベル計算は、プリエンファシス量に応じてスペクトル的にグローバルな傾斜の量を設定するように構成され得る。スペクトル的にグローバルな傾斜の量またはデータストリームにおいてプリエンファシス量の明確なシグナリングが用いられ得る。図9の場合において、知覚的な変換オーディオエンコーダは、マスキング閾値に続くためにスケールファクタバンド110に関するスケールファクタ112を決定する知覚モデル106を介して制御されるスケールファクタ決定を含む。この決定は、例えば、スケールファクタに続くためにスペクトル知覚的な重み関数を決定するように構成されるスペクトル重み付け器として働く量子化モジュール108において実施される。
【0079】
図9図14を説明するために用いられるちょうど適用された代わりの一般化する言葉遣いは、図18aおよび図18bを記載するためにこれからピックアップされる。
【0080】
図18aは、本願の実施形態による知覚的な変換オーディオエンコーダを示し、さらに、図18bは、本願の実施形態による知覚的な変換オーディオデコーダを示し、両方は、一緒に知覚的な変換オーディオコーデックを形成するために適合する。
【0081】
図18aに示すように、知覚的な変換オーディオエンコーダは、例が以下に示される予め決められた方法でスペクトル重み付け器1によって決定されるスペクトル重み付け知覚的な重み関数の逆に従ってスペクトル重み付け器1によって受信されるオーディオ信号のオリジナルのスペクトルにスペクトル的に重み付けするように構成されるスペクトル重み付け器1を含む。スペクトル重み付け器1は、この対策によって、知覚的な変換オーディオエンコーダの量子化器2において、スペクトル的に一様な方法ですなわちスペクトル線のために等しい方法で量子化にかけられる知覚的に重み付けされたスペクトルを得る。一様量子化器2によって出力される結果は、知覚的な変換オーディオエンコーダによって出力されるデータストリームに最終的に符号化される量子化されたスペクトル34である。
【0082】
ノイズのレベルを設定することに関して、スペクトル34を改善するために復号化側で実行されるノイズフィリングを制御するために、量子化されたスペクトル34のゼロ部分40と同じ位置に配置される部分5で知覚的に重み付けされたスペクトル4のレベルを測定することによってノイズレベルパラメータを計算する、知覚的な変換オーディオエンコーダのノイズレベルコンピュータ3が、任意に存在してもよい。このように計算されるノイズレベルパラメータは、デコーダに到達するために上述されたデータストリームにおいて符号化され得る。
【0083】
知覚的な変換オーディオデコーダが、図18bに示される。それは、ノイズレベルがノイズフィリングされたスペクトル36を得るために低周波から高周波に低減するようにスペクトル的にグローバルな傾斜を示すノイズでスペクトル34をフィリングすることによって、図18aのエンコーダによって生成されるデータストリームに符号化されるように、オーディオ信号の入ってくるスペクトル34にノイズフィリングを実行するように構成されるノイズフィリング装置30を含む。参照符号6を用いて示される、知覚的な変換オーディオデコーダのノイズ周波数領域ノイズシェーパは、さらに以下の特定の例によって記載される方法でデータストリームを介して符号化側から得られるスペクトル知覚的な重み関数を用いてノイズフィリングされたスペクトルをスペクトル整形にかけるように構成される。周波数領域ノイズシェーパ6によって出力されるこのスペクトルは、時間領域においてオーディオ信号を再構成するために逆変換器7に送られ得り、さらに、同様に、知覚的な変換オーディオエンコーダ内で、変換器8は、オーディオ信号のスペクトルをスペクトル重み付け器1に提供するためにスペクトル重み付け器1に先行することができる。
【0084】
スペクトル的にグローバルな傾斜を示すノイズ9でスペクトル34をフィリングする重要性は、以下のとおりである。後に、ノイズフィリングされたスペクトル36が周波数領域ノイズシェーパ6によってスペクトル整形にかけられるときに、スペクトル36は、傾斜した重み関数にかけられる。例えば、スペクトルは、低周波の重み付けと比較したときに、高周波で増幅される。すなわち、スペクトル36のレベルは、低周波と比較して高周波で増加する。これは、スペクトル36のオリジナルのスペクトル的にフラットな部分において正の傾きを有するスペクトル的にグローバルな傾斜を生じる。したがって、ノイズ9が、スペクトル的にフラットな方法で、そのゼロ部分40をフィリングするためにスペクトル36にフィリングされる場合に、FDNS6によって出力されるスペクトルは、これらの部分40内で、例えば、低周波から高周波へ増加する傾向があるノイズフロアを示す。すなわち、全体のスペクトルまたは少なくともスペクトル帯域幅の部分を調べるときに、ノイズフィリングが実行され、部分40内のノイズが正の傾きまたは負の傾きを有する傾向または線形回帰関数を有することが分かる。しかしながら、ノイズフィリング装置30は、スペクトル34を、図18bにαで示される、正のまたは負の傾きのスペクトル的にグローバルな傾斜を示し、さらに、FDNSによって生じる傾斜と比較して反対方向に傾けられているノイズでフィリングするので、FDNS6によって生じるスペクトル傾斜は、補償され、さらに、このようにFDNS6の出力で最終的に再構成されたスペクトルに導入されるノイズフロアは、フラットまたは少なくともよりフラットであり、それによって、深いノイズホールをほとんど残さないオーディオ品質を増加する。
【0085】
「スペクトル的にグローバルな傾斜」は、スペクトル34にフィリングされるノイズ9が低周波から高周波に低減する(または増加する)傾向があるレベルを有することを意味するものとする。例えば、相互にスペクトル的に離間される、連続したスペクトルゼロ部40にフィリングされるようにノイズ9の極大値を通して線形回帰直線を置くときに、結果として生じる線形回帰直線は、負の(または正の)傾きαを有する。
【0086】
義務的でないにもかかわらず、知覚的な変換オーディオエンコーダのノイズレベルコンピュータは、例えば、αが負である場合に正の傾きおよびαが正である場合に負の傾きを有するスペクトル的にグローバルな傾斜で重み付けされる方法で部分5で知覚的に重み付けされたスペクトル4のレベルを測定することによってスペクトル34にノイズフィリングの傾斜した方法で説明することができる。図18aにβとして示されるノイズレベルコンピュータによって適用される傾きは、その絶対値に関する限り、復号化側で適用されるものと同様である必要はないが、実施形態によれば、これは、そうであってもよい。そのようにすることによって、ノイズレベルコンピュータ3は、最良の方法で全体のスペクトル帯域幅にわたってオリジナルの信号に近いノイズレベルにより正確に復号化側で挿入されるノイズ9のレベルを適応することができる。
【0087】
後に、データストリームにおいて明確なシグナリングを介して、または、例えば、ノイズフィリング装置30がスペクトル知覚的な重み関数自体から若しくは変換ウィンドウ長切り替えから峻度を推定する潜在的なシグナリングを介して、スペクトル的にグローバルな傾斜αの傾きの変化を制御することが可能であり得ることが記載される。レター推論によって、例えば、傾きは、ウィンドウ長に適応され得る。
【0088】
ノイズフィリング装置30がスペクトル的にグローバルな傾斜を示すためにノイズ9を生じる方法によって可能な異なる方法がある。図18cは、例えば、ノイズフィリング装置30が、ノイズ9を得るために、ノイズフィリングプロセスにおいて中間状態を表す中間ノイズ信号13と、単調に低減する(または増加する)関数15、すなわち全体のスペクトルまたは少なくともノイズフィリングが実行される部分にわたって単調にスペクトル的に低減する(または増加する)関数との間で、スペクトル線的乗算11を実行することを示す。図18cに示されるように、中間ノイズ信号13は、すでにスペクトル整形され得る。この点に関しての詳細は、ノイズフィリングが調性に依存して実行される、さらに以下に概説される特定の実施形態に関連する。しかしながら、スペクトル整形は、省略され得りまたは乗算11の後に実行され得る。ノイズレベルパラメータ信号およびデータストリームは、中間ノイズ信号13のレベルを設定するために用いられ得るが、代わりに、中間ノイズ信号は、乗算11の後にスペクトル線をスケーリングするためにスカラーノイズレベルパラメータを適用する、標準レベルを用いて生成され得る。単調に低減する関数15は、図18cに示されるように、線形関数、区分的線形関数、多項式関数または他のいかなる関数であってもよい。
【0089】
以下にさらに詳細に記載されるように、ノイズフィリングがノイズフィリング装置30によって実行される全体のスペクトルの部分を適応的に設定することが可能である。
【0090】
さらに以下に概説される実施形態に関連して、スペクトル34において連続したスペクトルゼロ部分すなわちスペクトルホールが、特定のフラットでない調性依存の方法でフィリングされ、今までに述べられるスペクトル的にグローバルな傾斜を引き起こすために図18cに示される乗算11の代わりもあることが説明される。
【0091】
上述される実施形態の全ては、スペクトルホールが回避されること、および、音の非ゼロの量子化された線を隠すことが回避されることを共通して有する。上述される方法において、信号のノイズの多い部分におけるエネルギーが保存され得り、さらに、音の成分をマスキングするノイズの付加が上述される方法で回避される。
【0092】
後述される特定の実施において、調性依存のノイズフィリングを実行するためのサイド情報の部分は、ノイズフィリングが用いられるコーデックの既存のサイド情報に何も加えない。スペクトルの再構成のために用いられるデータストリームからの全ての情報は、ノイズフィリングに関係なく、ノイズフィリングの整形のために用いられ得る。
【0093】
実施例によれば、ノイズフィラー30におけるノイズフィリングは、以下のように実行される。ゼロに量子化されるノイズフィリング開始インデックスの上の全てのスペクトル線は、非ゼロの値に置き換えられる。これは、例えば、スペクトル的に一定の確率密度関数でランダムなまたは疑似ランダムな方法で、または、他のスペクトルスペクトログラム位置(ソース)からのパッチングを用いて、行われる。例えば、図15を参照する。図15は、量子化器108によって出力されるスペクトログラム12におけるスペクトル34若しくはスペクトル18または量子化器154によって出力されるスペクトル164と同じようにノイズフィリングにかけられるスペクトルのための2つの例を示す。ノイズフィリング開始インデックスは、iFreq0およびiFreq1(0<iFreq0<=iFreq1)間のスペクトル線インデックスであり、iFreq0およびiFreq1は、予め決められた、ビットレートおよび帯域幅に依存するスペクトル線インデックスである。ノイズフィリング開始インデックスは、非ゼロの値に量子化されるスペクトル線のインデックスiStart(iFreq0<=iStart<=iFreq1)に等しく、インデックスj(iStart<j<=Freq1)を有する全てのスペクトル線は、ゼロに量子化される。iStart、iFreq0またはiFreq1のための異なる値は、特定の信号に超低周波ノイズ(例えば環境ノイズ)を挿入することを可能にするためにビットストリームにおいて送信され得る。
【0094】
挿入されたノイズは、以下のステップにおいて整形される。
1.残差領域または重み付けされた領域において。残差領域または重み付けされた領域における整形は、図1図14に関して上に広範囲に記載されている。
2.LPCを用いるスペクトル整形またはFDNS(LPCの振幅特性を用いる変換領域における整形)は、図13および図14に関して記載されている。スペクトルは、スケールファクタ(AACにおけるような)を用いて、または、図9図12に関して記載されるように完全なスペクトルを整形するための他のいかなるスペクトル整形方法を用いて、整形され得る。
3.より少ない数のビットを用いるTNS(時間ノイズ整形)を用いる任意の整形は、図9図12に関して簡潔に記載されている。
【0095】
ノイズフィリングのために必要とされる付加サイド情報だけが、例えば、3ビットを用いて送信されるレベルである。
【0096】
FDNSを用いるときに、それを特定のノイズフィリングに適応する必要がなく、さらに、それは、スケールファクタよりも少ない数のビットを用いて完全なスペクトルにわたるノイズを整形する。
【0097】
スペクトル傾斜は、LPCベースの知覚的なノイズ整形においてプリエンファシスからスペクトル傾斜を弱めるために、挿入されたノイズにおいて導入され得る。プリエンファシスが,入力信号に適用される穏やかなハイパスフィルタを表すので、傾斜補償は、挿入されたノイズスペクトルに微妙なローパスフィルタの伝達関数に相当するものを乗算することによってこれを弱めることができる。このローパス操作のスペクトル傾斜は、プリエンファシスファクタ、さらに、好ましくは、ビットレートおよび帯域幅に依存する。これは、図8を参照して述べられている。
【0098】
1つ以上の連続したゼロ量子化されたスペクトル線から構成される、スペクトルホールごとに、挿入されたノイズは、図16に表現されるように整形され得る。ノイズフィリングレベルは、エンコーダにおいて見つけられ得り、さらに、ビットストリームにおいて送信され得る。非ゼロの量子化されたスペクトル線でノイズフィリングがなく、さらに、それは、完全なノイズフィリングまでのトランジション領域において増加する。完全なノイズフィリングの領域において、ノイズフィリングレベルは、例えば、ビットストリームにおいて送信されるレベルに等しい。これは、音の成分を潜在的にマスキングしまたは歪めることができる非ゼロの量子化されたスペクトル線のすぐ近くでノイズの高いレベルを挿入することを回避する。しかしながら、全てのゼロ量子化された線は、スペクトルホールを残さないで、ノイズに置き換えられる。
【0099】
トランジション幅は、入力信号の調性に依存している。調性は、時間フレームごとに得られる。図17a〜図17dにおいて、ノイズフィリング整形は、異なるホールサイズおよびトランジション幅のために例示的に表現される。
【0100】
スペクトルの調性測定値は、ビットストリームにおいて利用できる情報に基づくことができる。
・LTPゲイン
・スペクトル再配置イネーブルドフラグ([6]を参照)
・TNSイネーブルドフラグ
【0101】
トランジション幅は、調性と比例し、信号のようなノイズのために小さく、まさに音の信号のために大きい。
【0102】
実施形態において、トランジション幅は、LTPゲイン>0の場合に、LTPゲインと比例している。LTPゲインが0に等しく、さらに、スペクトル再配置がイネーブルにされる場合に、平均LTPゲインのためのトランジション幅が用いられる。TNSがイネーブルにされる場合に、トランジション領域がないが、完全なノイズフィリングは、全てのゼロ量子化されたスペクトル線に適用されるべきである。LTPゲインが0に等しく、さらに、TNSおよびスペクトル再配置がディセーブルにされる場合に、最小トランジション幅が用いられる。
【0103】
ビットストリームにおいて調性情報がない場合に、調性測定値は、ノイズフィリングなしに復号化された信号で計算され得る。TNS情報がない場合に、時間的平坦度測定値は、復号化された信号で計算され得る。しかしながら、TNS情報が利用できる場合に、そのような平坦度測定値は、例えばフィルタの予測ゲインを計算することによって、直接TNSフィルタ係数から導き出され得る。
【0104】
【0105】
【0106】
しかしながら、このアプローチに関する問題は、RMS計算において、エネルギー合計が分割される合計におけるスペクトル線の数が不変であるので、小さいホール領域(すなわちトランジション幅の2倍よりもずっと小さい幅を有する領域)におけるスペクトルエネルギーが過小評価されることである。換言すれば、量子化されたスペクトルが多くの小さいホール領域を主に示すときに、結果として生じるノイズフィリングレベルは、スペクトルがまばらで少数のロングホール領域だけを有するときよりも低い。これらの場合の両方において、類似のノイズレベルが見つけられることを確実にするために、トランジション幅にRMS計算の分母において用いられる行カウントを適応することが有利である。最も重要なことだが、ホール領域サイズがトランジション幅の2倍よりも小さい場合に、ホール領域におけるスペクトル線の数は、そのままの状態で、すなわち整数の行として、カウントされないが、整数の行数よりも小さい小数の行数としてカウントされる。Nに関する上述の式において、例えば、「cardinality(A)」は、「小さい」ゼロ部分の数に応じてより小さい数に置き換えられる。
【0107】
【0108】
Nの可能な計算は、例えば108または154におけるようなエンコーダにおいて実行され得る。
【0109】
最終的に、まさに音の定常信号の高調波がゼロに量子化されたときに、これらの高調波を表す線が比較的高いまたは不安定な(すなわち時間変動する)ノイズレベルをもたらすことが見つけられている。このアーチファクトは、ノイズレベル計算においてそれらのRMSの代わりにゼロ量子化された線の平均振幅を用いることによって低減することができる。この代わりのアプローチは、デコーダにおいてノイズフィリングされた線のエネルギーがノイズフィリング領域においてオリジナルの線のエネルギーを再生することを必ずしも保証しない一方、それは、ノイズフィリング領域におけるスペクトルピークが全体のノイズレベルへの貢献を制限していることを確実にし、それによって、ノイズレベルの過大評価のリスクを低減する。
【0110】
最終的に、エンコーダは、例えば、合成による分析目的のために、それ自体をデコーダに整列するように保つために、ノイズフィリングを完全に実行するように構成されてもよいことに留意されたい。
【0111】
このように、上述の実施形態は、とりわけ、量子化プロセスにおいて導入されるゼロをスペクトル整形されたノイズに置き換えるための信号適応方法を記載する。エンコーダおよびデコーダのためのノイズフィリング拡張は、以下のように実施することによって上述した要件を満たすことが記載される。
・ノイズフィリング開始インデックスは、スペクトル量子化の結果に適応され得るが、特定の範囲に制限される。
・スペクトル傾斜は、知覚的なノイズ整形からスペクトル傾斜を弱めるために、挿入されたノイズにおいて導入され得る。
・ノイズフィリング開始インデックスの上の全てのゼロ量子化された線は、ノイズに置き換えられる。
・トランジション関数によって、挿入されたノイズは、ゼロに量子化されないスペクトル線の近くで減衰される。
・トランジション関数は、入力信号の瞬時特性に依存している。
・ノイズフィリング開始インデックス、スペクトル傾斜およびトランジション関数の適応は、デコーダにおいて利用できる情報に基づくことができる。
ノイズフィリングレベルを除いて、付加サイド情報の必要がない。
【0112】
いくつかの態様が装置との関連で記載されているにもかかわらず、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関連で記載されている態様は、対応するブロック若しくはアイテムまたは対応する装置の特徴の説明も表す。方法ステップのいくつかまたはすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(またはそれを用いて)実行されてもよい。いくつかの実施形態において、最も重要な方法ステップのいずれかの1つ以上は、そのような装置によって実行されてもよい。
【0113】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に可読の制御信号が格納される、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ(登録商標)、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。
【0114】
本発明によるいくつかの実施形態は、ここに記載される方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に可読の制御信号を有するデータキャリアを含む。
【0115】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、そのプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、それらの方法のうちの1つを実行するために働く。プログラムコードは、例えば、機械可読のキャリアに格納されてもよい。
【0116】
他の実施形態は、機械可読のキャリアに格納される、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0117】
したがって、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、ここに記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0118】
したがって、本発明の方法のさらなる実施形態は、それに記録される、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体またはコンピュータ可読の媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、典型的に有形でありおよび/または一時的でない。
【0119】
したがって、本発明の方法のさらなる実施形態は、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えばインターネットを介して、転送されるように構成されてもよい。
【0120】
さらなる実施形態は、ここに記載される方法のうちの1つを実行するように構成されまたは適している処理手段、例えばコンピュータまたはプログラム可能な論理デバイスを含む。
【0121】
さらなる実施形態は、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0122】
本発明によるさらなる実施形態は、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムをレシーバに(例えば、電子的にまたは光学的に)転送するように構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを含んでもよい。
【0123】
いくつかの実施形態において、プログラム可能な論理デバイス(例えばフィールドプログラム可能なゲートアレイ)は、ここに記載される方法の機能のいくらかまたはすべてを実行するために用いられてもよい。いくつかの実施形態において、フィールドプログラム可能なゲートアレイは、ここに記載される方法のうちの1つを実行するために、マイクロプロセッサと協働してもよい。一般に、その方法は、好ましくは、いかなるハードウェア装置によっても実行される。
【0124】
ここに記載される装置は、ハードウェア装置を用いて、コンピュータを用いて、または、ハードウェア装置およびコンピュータの組合せを用いて、実施されてもよい。
【0125】
ここに記載される方法は、ハードウェア装置を用いて、コンピュータを用いて、または、ハードウェア装置およびコンピュータの組合せを用いて、実行されてもよい。
【0126】
上述の実施形態は、本発明の原理のために単に例示するだけである。ここに記載される構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、本発明は、特許請求の範囲によってだけ制限され、ここに実施形態の記述および説明として示される具体的な詳細によって制限されないと意図される。
【0127】
文献
[1] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J. H. Nikolaus Rettelbach, "Noise Filler, Noise Filling Parameter Calculator Encoded Audio Signal Representation, Methods and Computer Program". Patent US 2011/0173012 A1.
[2] Extended Adaptive Multi-Rate-Wideband (AMR-WB+) codec, 3GPP TS 26.290 V6.3.0, 2005-2006.
[3] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J. H. Nikolaus Rettelbach, "Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program". Patent WO 2010/003556 A1.
[4] M. M. N. R. G. F. J. R. J. L. S. W. S. B. S. D. C. H. R. L. P. G. B. B. J. L. K. K. H. Max Neuendorf, "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types," in 132nd Convertion AES, Budapest, 2012. Also appears in the Journal of the AES, vol. 61, 2013.
[5] M. M. M. N. a. R. G. Guillaume Fuchs, "MDCT-Based Coder for Highly Adaptive Speech and Audio Coding," in 17th European Signal Processing Conference (EUSIPCO 2009), Glasgow, 2009.
[6] H. Y. K. Y. M. T. Harada Noboru, "Coding Mmethod, Decoding Method, Coding Device, Decoding Device, Program, and Recording Medium". Patent WO 2012/046685 A1.
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17a
図17b
図17c
図17d
図18a
図18b
図18c