【解決手段】時変高周波ゲイン情報104をサイド情報として有するオーディオ信号102を後処理するためのオーディオポストプロセッサ100であって、オーディオ信号102の高周波帯域112とオーディオ信号102の低周波帯域114とを抽出するための帯域抽出部110と、時変高周波ゲイン情報104に従って高周波帯域112の時変変更を行って処理済高周波帯域122を取得するための高帯域プロセッサ120と、処理済高周波帯域122と低周波帯域114とを結合するための結合器130と、を含む。
前記帯域抽出部(110)は、ローパスフィルタ装置(111)を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する(113)ことによって前記高周波帯域を抽出するように構成されている請求項1に記載のオーディオポストプロセッサ。
前記時変高周波ゲイン情報(104)は、前記オーディオ信号(102)のサンプリング値のブロックのシーケンス(300〜303)に対して設けられていて、サンプリング値の第1のブロック(301)に第1のゲイン情報(311)が付随し、前記オーディオ信号のサンプリング値の第2の後ブロック(302)が異なる第2のゲイン情報(312)を有するようになっており、前記帯域抽出部(110)は、前記サンプリング値の第1のブロック(301)から第1の低周波帯域と第1の高周波帯域とを抽出し、前記サンプリング値の第2のブロック(302)から第2の低周波帯域と第2の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ(120)は、前記第1のゲイン情報(311)を用いて前記第1の高周波帯域を変更して第1の処理済高周波帯域を取得し、前記第2のゲイン情報(312)を用いて前記第2の高周波帯域を変更して第2の処理済高周波帯域を取得するように構成され、
前記結合器(130)は、前記第1の低周波帯域と前記第1の処理済高周波帯域とを結合して第1の結合ブロックを取得し、前記第2の低周波帯域と前記第2の処理済高周波帯域とを結合して第2の結合ブロックを取得するように構成されている請求項1又は2に記載のオーディオポストプロセッサ。
前記帯域抽出部(110)は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号(102)をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部(121)であって、前記オーディオ信号ウィンドウ処理部(121)は前記ウィンドウ処理部(115、119)と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部(121)を含む、請求項5に記載のオーディオポストプロセッサ。
前記帯域抽出部(110)は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算(113)を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている請求項5又は6に記載のオーディオポストプロセッサ。
前記高帯域プロセッサ(120)は、前記変更を、ハイパス時間ドメインサンプリング値のブロックの前記シーケンスの各ブロックの各サンプルに適用するように構成され、ブロックのサンプルに対する変更は、前ブロックのゲイン情報と現在のブロックのゲイン情報か又は現在のブロックのゲイン情報と次のブロックのゲイン情報とに依存する請求項7に記載のオーディオポストプロセッサ。
前記オーディオ信号は更なる制御パラメータ(500)を更なるサイド情報として含み、前記高帯域プロセッサ(120)は、前記変更を前記更なる制御パラメータ(500)も考慮して適用するように構成され、前記更なる制御パラメータ(500)の時間分解能は前記時変高周波ゲイン情報の時間分解能よりも低いか、又は前記更なる制御パラメータは特定のオーディオ素片に対して固定されている請求項1〜7のいずれか1項に記載のオーディオポストプロセッサ。
前記結合器(130)は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の増幅されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている請求項8に記載のオーディオポストプロセッサ。
更に、ブロック重複範囲(321)内の結合信号値の前記シーケンスの第1のブロック(301)のオーディオサンプルと前記第1のブロックに隣接する隣の第2のブロック(302)のオーディオサンプルとを加算することによって、後処理済オーディオ信号部分を計算するための重複加算(140)プロセッサを含む請求項10に記載のオーディオポストプロセッサ。
前記帯域抽出部(110)、前記高帯域プロセッサ(120)、及び前記結合器(130)は重複ブロック内で動作して、重複範囲(321)はブロック長の40%〜ブロック長の60%であるか、又はブロック長は0.8ミリ秒〜5ミリ秒であるか、又は前記高帯域プロセッサ(120)によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数であるか、又は前記低周波帯域のカットオフ又はコーナー周波数は、前記オーディオ信号の最大周波数の1/8〜1/3であり、好ましくは前記オーディオ信号の前記最大周波数の1/6に等しい請求項1〜11のいずれか1項に記載のオーディオポストプロセッサ。
前記ローパス整形器(117)は、対応するブロックに対する前記時変高周波ゲイン情報(104)に応じて整形関数を適用するように構成されている請求項5に記載のオーディオポストプロセッサ。
前記整形関数は更に、対応するブロックに対する前記時変高周波ゲイン情報を用いて前記オーディオ信号の高周波帯域を変更するか又は減衰させるためにオーディオプレプロセッサ(200)内で用いられる整形関数に依存する請求項13に記載のオーディオポストプロセッサ。
ブロックのサンプルに対する前記変更は更に、前記分析ウィンドウ関数又は前記合成ウィンドウ関数によって規定されるあるサンプルに対して適用されるウィンドウ処理係数に依存する請求項8に記載のオーディオポストプロセッサ。
前記帯域抽出部(110)、前記高帯域プロセッサ(120)、及び前記結合器(130)は、前記オーディオ信号から重複ブロックとして得られるブロック(300〜303)のシーケンスを処理して、前ブロックの後部分が、前記前ブロックに時間的に隣接している後ブロックの前部分と同じオーディオ信号オーディオサンプルから得られるように構成されている請求項1〜15のいずれか1項に記載のオーディオポストプロセッサ。
前記重複ブロックの重複範囲(321)は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記ポストプロセッサは更に、前記重複加算演算を行うための重複加算器(140)を含む請求項16に記載のオーディオポストプロセッサ。
前記帯域抽出部(110)は、分割フィルタ(111)の勾配であって前記分割フィルタのストップ範囲とパス範囲との間の勾配を、オーディオサンプルのブロックに適用するように構成され、前記勾配はサンプルの前記ブロックに対する前記時変高周波ゲイン情報に依存する請求項16又は17に記載のオーディオポストプロセッサ。
前記高周波ゲイン情報はゲイン値を含み、前記勾配は、より低いゲイン値に対する前記勾配の増加と比べて、より高いゲイン値に対してより強く増加される請求項18に記載のオーディオポストプロセッサ。
前記高周波ゲイン情報は、隣接するブロックに対するゲイン値を含み、前記高帯域プロセッサ(120)は、前記隣接するブロックに対する前記ゲイン値に応じて、及び対応するサンプルに対するウィンドウ係数に応じて、各サンプルに対する補正係数を計算するように構成されている請求項16〜20のいずれか一項に記載のオーディオポストプロセッサ。
前記高帯域プロセッサ(120)は、前記オーディオポストプロセッサ(100)による処理の前に行われる処理によって前記オーディオ信号内に導入される過渡事象の減衰を更に補償するように構成されている請求項17〜22のいずれか1項に記載のオーディオポストプロセッサ。
前記時変高周波ゲイン情報はゲインインデックス(600)及びゲイン拡張範囲情報(602)のシーケンスを含んでいるか、又は前記サイド情報はゲイン補償情報(603)及びゲイン補償精度情報(604)を更に含み、
前記オーディオポストプロセッサは、
前記ゲイン精度情報(602)に応じて前記ゲインインデックス(601)を復号して、第1の精度情報に対する第1の数の異なる値の復元済ゲイン(621)又は第2の精度情報に対する第2の数の異なる値の復元済ゲイン(621)を取得するための復号器(620)であって、前記第2の数は前記第1の数よりも大きい、復号器(620)、又は、
前記補償精度(604)情報に応じて前記ゲイン補償インデックス(603)を復号して、第1の補償精度情報に対する第1の数の異なる値の復元済ゲイン補償値(622)又は第2の異なる補償精度情報に対する第2の数の異なる値の復元済ゲイン補償値(622)を取得するための復号器(620)であって、前記第1の数は前記第2の数よりも大きい、復号器(620)を含む、請求項1〜27のいずれか1項に記載のオーディオポストプロセッサ。
前記帯域抽出部(110)は、Nサンプリング値のブロック長によってブロック毎の離散フーリエ変換(116)を実行して、N/2複素スペクトル値の数よりも小さいスペクトル値の数を、スパース離散フーリエ変換アルゴリズムであって、最大周波数を上回るスペクトル値に対する分岐の計算が省略されるスパース離散フーリエ変換アルゴリズムを行うことによって取得するように構成され、
前記帯域抽出部(110)は、前記低周波帯域信号の計算を、遷移開始周波数範囲までのスペクトル値を用いることによって、及び前記遷移開始周波数範囲内のスペクトル値を重み付けする(117a、117b)ことによって行うように構成され、前記遷移開始周波数範囲は前記最大周波数又は前記最大周波数よりも小さい周波数までのみ及んでいる請求項1〜29のいずれか1項に記載のオーディオポストプロセッサ。
前記高周波帯域の前記時変増幅に対するサイド情報(106)が利用可能である最大数のチャンネル又はオブジェクトに対する後処理のみを実行して、前記高周波帯域の前記時変増幅に対する何らのサイド情報も利用できないチャンネル又はオブジェクトの数に対しては何らの後処理も実行しないように構成されているか、又は、
前記帯域抽出部(110)は、前記高周波帯域の前記時変増幅に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている請求項1〜30のいずれか1項に記載のオーディオポストプロセッサ。
前記信号分析器(260)は、前記オーディオ信号を分析して、前記オーディオ信号の第1の時間ブロック(301)内の第1の特徴と前記オーディオ信号の第2の時間ブロック(302)内の第2の特徴とを決定する(801、802)ように構成され、前記第2の特徴は、前記第1の特徴よりも過渡的であるか、又は前記第1の特徴よりも大きい高周波エネルギーレベルであり、
前記信号分析器(260)は、前記第1の特徴に対する第1のゲイン情報(311)と前記第2の特徴に対する第2のゲイン情報(312)とを決定する(803)ように構成され、
前記高帯域プロセッサ(220)は、乗算係数(804)を、前記第2のゲイン情報に従って前記第2の時間ブロック(302)の高帯域部分に適用することを、前記第1のゲイン情報に従って前記第1の時間ブロック(301)の高帯域部分に適用する場合よりも強く行うように構成されている請求項32に記載のオーディオプレプロセッサ。
前記信号分析器(260)は、前記現在時刻ブロックの前に配置されているか若しくは前記現在時刻ブロックの後に配置されているか若しくは前記現在時刻ブロックの前後に配置されているか、又は前記現在時刻ブロックを含むか若しくは前記現在時刻ブロックを除外する時間的に隣接する1つ以上の時間ブロックに対して、前記高帯域のバックグラウンドエネルギーに対するバックグラウンド尺度を計算し(805)、
現在のブロックの高帯域に対するエネルギー尺度を計算し(808)、
前記バックグラウンド尺度と前記エネルギー尺度とを用いてゲイン係数を計算する(809)ように構成されている請求項32〜33のうちのいずれかに記載のオーディオプレプロセッサ。
前記信号分析器(260)と前記高帯域プロセッサ(120)とは、前記時変高周波ゲイン情報を計算し、前記時変高周波ゲイン情報を適用して、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのエネルギーの変動が少なくとも50%、好ましくは75%だけ低減されるように構成されている請求項32〜35のいずれか1項に記載のオーディオプレプロセッサ。
前記信号分析器(260)は、ゲイン情報値の未処理シーケンスを量子化及びクリップして(812)、前記時変高周波ゲイン情報を量子化値のシーケンスとして取得するように構成され、
前記高帯域プロセッサ(220)は、前記量子化値のシーケンスに従って前記高帯域の前記時変変更を実行する(813)ように構成され、
前記出力インターフェース(250)は、前記量子化値のシーケンスを前記サイド情報(206)内に前記時変高周波ゲイン情報(204)として導入する(814)ように構成されている請求項32〜36のいずれか1項に記載のオーディオプレプロセッサ。
前記帯域抽出部(210)は、ローパスフィルタ装置(111)を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する(113)ことによって前記高周波帯域を抽出するように構成されている請求項32〜39のいずれか1項に記載のオーディオプレプロセッサ。
前記時変高周波ゲイン情報(204)は、前記オーディオ信号のサンプリング値のブロックのシーケンス(300〜303)に対して設けられていて、サンプリング値の第1のブロック(301)に第1のゲイン情報(311)が付随し、前記オーディオ信号のサンプル値の第2の後ブロック(302)が異なる第2のゲイン情報(312)を有するようになっており、前記帯域抽出部は、サンプリング値の前記第1のブロックから第1の低周波帯域と第1の高周波帯域とを抽出し、サンプリング値の前記第2のブロックから第2の低周波帯域と第2の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ(220)は、前記第1のゲイン情報(311)を用いて前記第1の高周波帯域を変更して第1の処理済高周波帯域を取得し、前記第2のゲイン情報(312)を用いて前記第2の高周波帯域を変更して第2の処理済高周波帯域を取得するように構成され、
前記結合器(230)は、前記第1の低周波帯域と前記第1の処理済高周波帯域とを結合して第1の結合ブロックを取得し、前記第2の低周波帯域と前記第2の処理済高周波帯域とを結合して第2の結合ブロックを取得するように構成されている請求項32〜40のいずれか1項に記載のオーディオプレプロセッサ。
前記ブロック抽出部は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部(221)であって、前記オーディオ信号ウィンドウ処理部は、前記ウィンドウ処理部(215、219)と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部(221)を含む、請求項43又は44のいずれか1項に記載のオーディオプレプロセッサ。
前記帯域抽出部(210)は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算(113)を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている請求項43〜45のいずれか1項に記載のオーディオプレプロセッサ。
前記分析器(260)は更に、メタゲイン制御(806)によって計算される制御パラメータ(807)をもたらし、前記高帯域プロセッサ(220)は前記変更を前記制御パラメータも考慮して適用するように構成されている請求項32〜46のいずれか1項に記載のオーディオプレプロセッサ。
前記結合器(230)は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の変更されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている請求項43〜47のいずれか1項に記載のオーディオプレプロセッサ。
更に、ブロック重複範囲内の結合信号値の前記シーケンスの第1のブロックのオーディオサンプルと前記第1のブロックに隣接する隣の第2のブロックのオーディオサンプルとを加算することによって、前処理済オーディオ信号部分を計算するための重複加算プロセッサを含む請求項48に記載のオーディオプレプロセッサ。
前記重複ブロックの重複範囲(321)は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記結合器は前記重複加算演算を行うための重複加算器を含む請求項32〜50のいずれか1項に記載のオーディオプレプロセッサ。
最大数のチャンネル又はオブジェクトに対する前処理のみを実行して前記最大数のチャンネル又はオブジェクトに対する前記サイド情報(206)を生成し、前記サイド情報(206)が生成されないチャンネル又はオブジェクトの数に対しては何らの前処理も実行しないように構成されているか、又は、
前記帯域抽出部(210)は、前記信号分析器(260)によって決定された前記時変高周波ゲイン情報(204)に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている請求項32〜51のいずれか1項に記載のオーディオポストプロセッサ。
前記オーディオ信号は多チャンネル又は多オブジェクト信号であり、前記オーディオプレプロセッサ(200)は各チャンネル又は各オブジェクトを別個に前処理するように構成され、前記コア符号器(900)は、前記前処理済チャンネル(232)に対して、結合多チャンネル符号器処理又は結合多オブジェクト符号器処理又は符号器帯域ギャップ充填又は符号器帯域幅拡張処理を適用するように構成されている請求項53に記載のオーディオ符号化装置。
【背景技術】
【0002】
<プレエコー:時間的なマスキング問題>
典型的なフィルタバンクベースの知覚符号器(例えば、MP3又はAAC)は主に、同時マスキングの知覚効果を利用するようにデザインされているが、マスキング現象の時間的側面にも対処しなければならない。ノイズはマスキング信号を与える前及び与えた後の短時間でマスキングされる(プレマスキング及びポストマスキング現象)。ポストマスキングは、プレマスキングよりも非常に長い時間、観察される(マスカのレベル及び継続時間に応じて、0.5ms〜2.0msではなく10.0〜50.0msのオーダー)。
【0003】
その結果、マスキングの時間的側面は、知覚符号化方式に対する更なる要求につながる。知覚的に透明な符号化品質を実現するために、量子化ノイズはまた、時間依存性のマスキングされた閾値を超えてはならない。
【0004】
実際には、この要求を知覚符号器に対して実現するのは容易ではない。なぜならば、量子化及び符号化に対してスペクトル信号分解を用いることは、このドメインに導入される量子化誤差が、合成フィルタバンクによって再構成された後に時間とともに広がることを意味するからである(時間/周波数不確定性原理)。一般的に用いられるフィルタバンクデザイン(例えば、1024ラインMDCT)の場合、これは、量子化ノイズが、CDサンプリングレートにおいて40ミリ秒を超える時間に渡って広がり得ることを意味する。この結果、符号化すべき信号が、分析フィルタバンクウィンドウの部分にのみ強力な信号成分を含むとき(すなわち過渡信号に対して)、問題が生じる。詳細には、量子化ノイズは、信号の開始前に広がり、極端な場合には、ある時間間隔の間に原信号成分のレベルを超える場合さえある。クリティカルな打楽器信号の良く知られた例はカスタネット録音であり、復号後に、量子化ノイズ成分が、原信号の「アタック」前に、ある時間だけ広がる。このような配置は従来、「プレエコー現象」として知られている。[Joh92b]
【0005】
ヒトの聴覚系の特性に起因して、このような「プレエコー」がマスキングされるのは、信号開始前に約2.0msよりも長く存在する著しい量の符号化ノイズがない場合のみである。そうでない場合には、符号化ノイズは、プレエコー人工物(すなわち、信号開始に先行する短いノイズ様事象)として知覚される。このような人工物を回避するために、量子化ノイズの適切な時間特性を維持して、それが依然として時間マスキングに対する条件を満たすように注意を払わなければならない。この時間領域ノイズ整形問題のために、従来、過渡信号(例えば、カスタネット、グロッケンシュピール、三角形など)に対して、低ビットレートにおいて良好な知覚信号品質を実現することが難しかった。
【0006】
<拍手様信号(Applause−like signals):極めてクリティカルな種類の信号>
前述した過渡信号は、知覚オーディオ符号復号器においてプレエコーをトリガする場合がある一方で、この過渡信号は単一の分離されたアタックを示す。すなわち、次のアタックが現れるまである最短時間が存在する。そのため、知覚符号器は、最後のアタックの処理から回復するのに多少の時間がかかり、例えば、次のアタックに対処するために予備ビットを再び集める可能性がある(以下に説明する「ビットリザーバ」を参照)。これとは対照的に、観客の拍手の音は、高密度に離隔して配置された拍手の音の安定したストリームからなり、それぞれの拍手の音はそれ自身の過渡事象である。
図11に示すのは、ステレオ拍手信号の高周波時間エンベロープの説明図である。図からわかるように、以後の拍手事象間の平均時間は10msを著しく下回る。
【0007】
この理由のために、拍手及び拍手様信号(例えば、雨滴又はパチパチと音を立てる花火)は、信号の符号化が極めて難しい種類を構成するが、これは多くのライブ録音にとって良く知られていることである。これは、2つ以上のチャンネルの結合符号化に対するパラメータ方法を用いるときにも当てはまる[Hot08]。
【0008】
<過渡信号の符号化に対する従来のアプローチ>
一組の技術が、符号化/復号信号におけるプレエコー人工物を回避するために提案されている。
【0009】
・プレエコー制御及びビットリザーバ
1つの方法は、過渡信号部分を最初に覆うフィルタバンクウィンドウのスペクトル係数に対する符号化精度を上げることである(いわゆる「プレエコー制御」、[MPEG1])。これは、このようなフレームの符号化に対する必要なビット量がかなり増加するため、この方法は一定ビットレート符号器においては適用できない。ビットリザーバを用いることによって、ある程度、ビットレート要求の局所変化を考慮することができる([Bra87]、[MPEG1])。この技術によって、平均ビットレートが依然として一定のままで、以前のフレームの符号化の間に取っておいたビットを用いてビットレートにおけるピーク需要を取り扱うことができる。
【0010】
・適応ウィンドウ切り替え
多くの知覚的オーディオ符号器において用いられる異なる方策は、Edlerによって導入された適応ウィンドウ切り替えである[Edl89]。この技術は、フィルタバンクウィンドウのサイズを入力信号の特徴に適応させる。固定された信号部分を、長いウィンドウ長を用いて符号化する一方で、短いウィンドウを用いて信号の過渡部分を符号化する。このようにして、ピークビット要求をかなり減らすことができる。なぜならば、高符号化精度が要求される領域は時間的に制約されるからである。プレエコーは、変換サイズが短くなることによって暗黙的に継続時間が制限される。
【0011】
・時間領域ノイズ整形(TNS)
時間領域ノイズ整形(TNS)を[Her96]に導入した。TNSによって、量子化ノイズの時間整形が、スペクトルドメイン内の時間ブロック上で周波数方向に沿って開ループ予測符号化を適用することによって実現される。
【0012】
・ゲイン変更(ゲイン制御)
量子化ノイズの時間的広がりを回避する別の方法は、動的ゲイン変更(ゲイン制御プロセス)を信号に、そのスペクトル分解及び符号化を計算する前に適用することである。
このアプローチの原理を
図12に例示する。入力信号のダイナミクスは、その符号化の前に、ゲイン変更(乗法前処理)によって低減される。このようにして、信号中の「ピーク」は符号化の前に減衰される。ゲイン変更のパラメータはビットストリームにおいて伝達される。この情報を用いて、プロセスは復号器サイドで逆になる。すなわち復号後に、別のゲイン変更によって原信号ダイナミクスが復元される。
【0013】
[Lin93]では、知覚的オーディオ符号器への追加としてゲイン制御を提案した。ここでは、ゲイン変更は、時間ドメイン信号上で(したがって、信号スペクトル全体に対して)行う。
【0014】
周波数依存性のゲイン変更/制御が、多くの状況において以前に用いられている。
【0015】
<フィルタベースのゲイン制御>:彼の論文[Vau91]では、Vaupelは、全帯域ゲイン制御がうまく機能しないことに注目している。周波数依存性ゲイン制御を実現するために、そのゲイン特徴において動的に制御することができる圧縮拡張器フィルタ対を提案している。この方式を示す
図13a及び13bに示す。
【0016】
フィルタの周波数応答の変動を
図13bに示す。
【0017】
<ハイブリッドフィルタバンクを伴うゲイン制御>(
図14に例示):MPEG−2先進的音響符号化[Bos96]方式のSSRプロファイルにおいて、ゲイン制御がハイブリッドフィルタバンク構造内で用いられている。第1のフィルタバンクステージ(PQF)で、入力信号を等幅の4つの帯域に分割する。次に、ゲイン検出器及びゲイン変更器によってゲイン制御符号器処理を実行する。最後に、第2ステージとして、サイズを縮めた(1024の代わりに256の)4つの別個のMDCTフィルタバンクによって、結果として生じる信号を更に分割して、以後の符号化で用いるスペクトル成分を生成する。
【0018】
・誘導エンベロープ整形(GES)は、チャンネル個別の時間エンベロープパラメータを伝達して復号器サイド上で時間エンベロープを復元するMPEGサラウンドに含まれるツールである。なお、HREP処理とは反対に、ダウンミックス上での後方互換性を維持するために、符号器サイドではエンベロープ平坦化はない。エンベロープ整形を実行する働きをするMPEGサラウンドにおける別のツールは、サブ帯域時間的処理(STP)である。ここで、低次LPCフィルタを、オーディオ信号のQMFフィルタバンク表現内で適用する。
関連する従来技術は、特許公報WO2006/045373A1、WO2006/045371A1、WO2007/042108A1、WO2006/108543A1、又はWO2007/110101A1において記録に残っている。
【0019】
<参考文献>
[Bos96]:M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,Oikawa:"MPEG-2 Advanced Audio Coding",101st
AES Convention,Los Angeles 1996
[Bra87]:K.Brandenburg:"OCF-A New Coding Algorithm for High Quality Soun
d Signals",Proc.IEEEICASSP,1987
[Joh92b]:J.D.Johnston,K.Brandenburg:"Wideband Coding Perceptual Consi
derations for Speech and Music",in S.Furui and M.M.Sondhi,editors:"Ad
vances in Speech Signal Processing",Marcel Dekker,New York,1992
[Edl89]:B.Edler:「Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen」、Frequenz,Vol.43,pp.252~256,1989
[Her96]:J.Herre,J.D.Johnston:"Enhancing the Performance of Perceptual
Audio Coders by Using Temporal Noise Shaping(TNS)",101st AES Conventio
n,Los Angeles 1996,Preprint 4384
[Hot08]:Gerard Hotho,Steven van de Par,and Jeroen Breebaart:"Multichann
el coding of applause signals",EURASIP Journal of Advances in Signal P
rocessing,Hindawi,January 2008,doi:10.1155/2008/531693
[Lin93]:M.Link:"An Attack Processing of Audio Signals for Optimizing the Temporal Characteristics of a Low Bit-Rate Audio Coding System",95th AES convention,New York 1993,Preprint 3696
[MPEG1]:ISO/IEC JTC1/SC29/WG11 MPEG,International Standard ISO 11172-3"Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s"
[Vau91]:T.Vaupel:「Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der'Time Domain Aliasing Cancellation(TDAC)'und einer Signalkompandierung im Zeitbereich」,PhD Thesis,Universitat-Gesamthochschule Duisburg,Germany,1991
【0020】
ビットリザーバは、知覚符号器におけるビットレートに対するピーク需要を取り扱うことを助けることができ、その結果、過渡信号の知覚品質が向上する。しかし実際には、ビットリザーバのサイズは、非常に過渡的性質の入力信号を更なる予防策を取らずに符号化するときに人工物を回避するために、非現実的なほど大きくせざるを得ない。
【0021】
適応ウィンドウ切り替えがあれば、過渡事象を短い変換ブロック内に閉じ込めることを通して、信号の過渡部分及び減少したプレエコーのビット需要が制限される。適応ウィンドウ切り替えの制限が、その待ち時間及び繰り返し時間によって与えられる。2つの短いブロックシーケンス間の最速の可能なターンアラウンドサイクルは、少なくとも3つのブロックが必要であり(「短い」→「停止する」→「開始する」→「短い」、512〜1024のサンプルの典型的なブロックサイズに対して約30.0〜60.0ms)、これは、拍手を含むあるタイプの入力信号にとっては長すぎる。結果として、拍手様信号に対する量子化ノイズの時間的広がりは、短いウィンドウ寸法を永続的に選択することによってのみ回避でき、これは通常、符号器の情報源符号化効率の減少につながる。
【0022】
TNSは、符号器における時間平坦化と復号器における時間整形とを実行する。原理的には、任意の高時間分解能が可能である。しかし実際には、性能は、符号器フィルタバンクの時間的エイリアシングによって制限される(典型的にMDCT、すなわち50%重複の重複ブロック変換)。その結果、整形された符号化ノイズはまた、合成フィルタバンクの出力において鏡映しの仕方で現れる。
【0023】
広帯域ゲイン制御技術はスペクトル分解能が無いという欠点を持つ。しかし、多くの信号に対して良好に機能するためには、ゲイン変更処理がオーディオスペクトルの異なる部分において独立に適用できることが重要である。なぜならば、過渡事象はスペクトルの一部でのみ支配的であることが多いからである(実際には、符号化が難しい事象は、スペクトルの高周波部分においてほとんど常に存在する)。事実上、入力信号の動的な乗法的変更を、符号器におけるそのスペクトル分解の前に適用することは、フィルタバンクの分析ウィンドウの動的変更と同等である。ゲイン変更関数の形状に応じて、分析フィルタの周波数応答は合成ウィンドウ関数により変更される。しかし、フィルタバンクの低周波フィルタチャンネルの周波数応答を広くすることは望ましくない。なぜならば、これによってクリティカルな帯域幅スケールに対する不一致が増すからである。
【0024】
ハイブリッドフィルタバンクを用いるゲイン制御には計算の複雑性が増えるという欠点がある。なぜならば、第1のステージのフィルタバンクは、第2のフィルタバンクステージによる後の分割の後にエイリアシング歪みが生じることを回避するために、相当な選択性を実現する必要があるからである。また、ゲイン制御帯域間のクロスオーバー周波数は、ナイキスト(Nyquist)周波数の4分の1に固定され、すなわち48kHzのサンプリングレートに対して6、12、及び18kHzである。ほとんどの信号に対して、6kHzにおける第1のクロスオーバーは、優れた性能を得るには高すぎる。
【0025】
セミパラメトリック多チャンネル符号化解決法(例えば、MPEGサラウンド(STP、GES))に含まれるエンベロープ整形技術が、過渡事象の知覚品質を、出力信号又はその一部を復号器内で時間的に再整形することを通して向上させることが知られている。しかしこれらの技術は、符号器の前に時間平坦化を実行しない。したがって、過渡信号は依然として、その当初の短時間ダイナミクスを伴って符号器に入り、符号器ビット配分に対して高ビットレート要求を課す。
【発明を実施するための形態】
【0065】
図1に例示するのは、時変高周波ゲイン情報104をサイド情報106(
図3aに例示する)として有するオーディオ信号102を後処理するためのオーディオポストプロセッサ100の好ましい実施形態である。オーディオポストプロセッサは、オーディオ信号102の高周波帯域112とオーディオ信号102の低周波帯域114とを抽出するための帯域抽出部110を含む。更に、この実施形態によるオーディオポストプロセッサは、時変高周波ゲイン情報104に従って高周波帯域112の時変変更を行って処理済高周波帯域122を取得するための高帯域プロセッサ120を含んでいる。更に、オーディオポストプロセッサは、処理済高周波帯域122と低周波帯域114とを結合するための結合器130を含んでいる。
【0066】
好ましくは、高帯域プロセッサ120は、この特定の帯域に対する時変高周波ゲイン情報に従って高周波帯域の選択的増幅を実行する。これは、当初の高周波帯域を元通りにするか又は再構成するためである。なぜならば、対応する高周波帯域が、オーディオプレプロセッサ(例えば、後に説明する
図7のオーディオプレプロセッサ)に入る前に減衰されているからである。
【0067】
特に、実施形態では、帯域抽出部110は、その入力に、サイド情報が付随するオーディオ信号から抽出されたオーディオ信号102が与えられる。更に、帯域抽出部の出力が結合器の入力に接続されている。更に、第2の結合器の入力が高帯域プロセッサ120の出力に接続されて、処理済高周波帯域122を結合器130内に送る。更に、帯域抽出部110の更なる出力が高帯域プロセッサ120の入力に接続されている。更に、高帯域プロセッサは更に、
図1に例示するように時変高周波ゲイン情報を受け取るための制御入力を有している。
【0068】
図2に例示するのは、帯域抽出部110の好ましい実施態様である。特に、帯域抽出部110はローパスフィルタ111を含んでいる。ローパスフィルタ111は、その出力において、低周波帯域114を供給する。更に、高周波帯域112は、オーディオ信号102(すなわち、ローパスフィルタ111内に入力されたオーディオ信号)から低周波帯域114を減算することによって生成される。しかし、減算器113は、実際の典型的なサンプル毎の減算の前にある種の前処理を実行することができる。これについては、
図4のオーディオ信号ウィンドウ処理部(ウィンドウ処理部)121又は
図5aの対応するブロック121に対して示す。したがって、帯域抽出部110は、
図2に例示するように、ローパスフィルタ111とその後に接続される減算器113とを含んでいてもよい。すなわち、減算器113は、入力がローパスフィルタ111の出力に接続され、更なる入力がローパスフィルタ111の入力に接続されている。
【0069】
しかしその代わりに、帯域抽出部110はまた、ハイパスフィルタを実際に用いることによって、またオーディオ信号からハイパス出力信号又は高周波帯域を減算して低周波帯域を得ることによって、実施することができる。又は、代替的に、帯域抽出部を、何らの減算器も伴うことなく、すなわち、例えば2チャンネルフィルタバンクとしてローパスフィルタとハイパスフィルタとを結合することによって、実施することができる。好ましくは、
図1(又は
図2)の帯域抽出部110を実施して、2つの帯域のみ(すなわち、単一の低周波帯域及び単一の高周波帯域)を抽出するが、これらの帯域は全体としてオーディオ信号の全周波数範囲に及ぶ。
【0070】
好ましくは、帯域抽出部110によって抽出された低周波帯域のカットオフ又はコーナー周波数は、オーディオ信号の最大周波数の1/8〜1/3であり、好ましくはオーディオ信号の最大周波数の1/6に等しい。
【0071】
図3aに例示するのは、ブロック300、301、302、303のシーケンスにおいて有用な情報を有するオーディオ信号102の概略図である。説明のために、ブロック301をサンプリング値の第1のブロックであると考え、ブロック302をオーディオ信号のサンプリング値の第2の後ブロックであると考える。ブロック300は第1のブロック301に時間的に先行し、ブロック303はブロック302に時間的に続き、第1のブロック301と第2のブロック302とは互いに時間的に隣接している。更に、
図3aの106に例示するように、各ブロックにはサイド情報(side information)106が付随している。サイド情報106には、第1のブロック301に対しては、第1のゲイン情報311が含まれ、第2のブロックに対しては、第2のゲイン情報312が含まれている。
【0072】
図3bに例示するのは、重複ブロックにおける帯域抽出部110(及び高帯域プロセッサ120及び結合器130)の処理である。したがって、第1のブロック301を計算するために用いられるウィンドウ313は、第2のブロック302を抽出するために用いられるウィンドウ314と重複しており、両方のウィンドウ313及び314は、重複範囲321内で重複している。
【0073】
図3a及び3bにおける尺度によって、各ブロックの長さがウィンドウの長さのサイズの半分であるということが大まかに分かるが、状況が異なっている可能性もある。すなわち、各ブロックの長さが、対応するブロックをウィンドウ処理するために用いられるウィンドウと同じサイズということである。実際に、これは、
図4(又は、特にポストプロセッサに対する
図5a若しくはプレプロセッサに対する
図9c)に例示するこれらの以後の好ましい実施形態に対して好ましい実施態様である。
【0074】
次に、重複範囲321の長さは、サンプリング値のブロックの半分サイズ又は長さに対応するウィンドウの半分サイズである。
【0075】
特に、時変高周波ゲイン情報は、オーディオ信号102のサンプリング値のブロックのシーケンス300〜303に対して設けられていて、サンプリング値の第1のブロック301に第1のゲイン情報311が付随し、オーディオ信号のサンプリング値の第2の後ブロック302が異なる第2のゲイン情報312を有するようになっており、帯域抽出部110は、サンプリング値の第1のブロック301から第1の低周波帯域と第1の高周波帯域とを抽出し、サンプリング値の第2のブロック302から第2の低周波帯域と第2の高周波帯域とを抽出するように構成されている。更に、高帯域プロセッサ120は、第1のゲイン情報311を用いて第1の高周波帯域を変更して第1の処理済高周波帯域を取得し、第2のゲイン情報312を用いて第2の高周波帯域を変更して第2の処理済高周波帯域を取得するように構成されている。更に、結合器130は次に、第1の低周波帯域と第1の処理済高周波帯域とを結合して第1の結合ブロックを取得し、第2の低周波帯域と第2の処理済高周波帯域とを結合して第2の結合ブロックを取得するように構成されている。
【0076】
図3cに例示するように、帯域抽出部110、高帯域プロセッサ120、及び結合器130は、
図3bに例示した重複ブロックで動作するように構成されている。更に、オーディオポストプロセッサ100は更に、ブロック重複範囲321において第1のブロックのオーディオサンプル301と第2のブロックのオーディオサンプル302とを加算することによって後処理部分を計算するための重複加算器140を含んでいる。好ましくは、重複加算器140は、減少又はフェードアウト関数を用いて第1のブロックの後半のオーディオサンプルを重み付けするように、及びフェードイン又は増加関数を用いて第1のブロックの後の第2のブロックの前半を重み付けするように、構成されている。フェードアウト関数及びフェードイン関数は、フェードイン関数に対しては単調増加していて、フェードアウト関数に対しては単調に減少している線形又は非線形関数とすることができる。
【0077】
重複加算器140の出力において、後処理済オーディオ信号(例えば、
図3aに例示したもの)のサンプルのシーケンスが存在するが、ここでは何らのサイド情報もない。なぜならば、サイド情報はオーディオポストプロセッサ100によって「消費されて」いるからである。
【0078】
図4に例示するのは、
図1に例示したオーディオポストプロセッサの帯域抽出部110(又は、代替的に、
図7のオーディオプレプロセッサ200の帯域抽出部210)の好ましい実施形態である。
図1の帯域抽出部110又は
図7の帯域抽出部210は両方とも、
図4に例示したように、又はポストプロセッサに対する
図5a若しくはプレプロセッサに対する
図9cに例示するように同じ方法で実施することができる。一実施形態では、オーディオポストプロセッサは、帯域抽出部であって、ある特徴として、分析ウィンドウを用いてオーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部115を有する帯域抽出部を含んでおり、ブロックは、
図3bに例示するように、重複範囲321によって時間重複している。更に、帯域抽出部110は、スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換を行うためのDFTプロセッサ116を含んでいる。その結果、サンプリング値の各個別のブロックが、スペクトル値のブロックであるスペクトルの表現に変換される。したがって、スペクトル値の同じ数のブロックが、まるでサンプリング値のブロックであるかのように生成される。
【0079】
DFTプロセッサ116の出力は、ローパス整形器117の入力に接続されている。ローパス整形器117は実際にローパスフィルタリング動作を実行し、ローパス整形器117の出力は、ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するためのDFT逆プロセッサ118に接続されている。最後に、合成ウィンドウ処理部119がDFT逆プロセッサの出力に、合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックのシーケンスをウィンドウ処理するために、設けられている。合成ウィンドウ処理部119の出力は時間ドメインローパス信号である。その結果、ブロック115〜119は
図2の「ローパスフィルタ」ブロック111に対応し、ブロック121及び113は
図2の「減算器」113に対応する。そのため、
図4に例示した実施形態では、帯域抽出部は更に、分析ウィンドウと合成ウィンドウとを用いてオーディオ信号102をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部121を含んでいる。特に、オーディオ信号ウィンドウ処理部121は分析ウィンドウ処理部115及び/又は合成ウィンドウ処理部119と同期しているため、合成ウィンドウ処理部119によって出力されるローパス時間ドメインサンプリング値のブロックのシーケンスは、ブロック121によって出力されるオーディオ信号値のウィンドウ処理済ブロックのシーケンスと時間同期している。これは全帯域信号である。
【0080】
しかし、全帯域信号をここでは、オーディオ信号ウィンドウ処理部121を用いてウィンドウ処理し、したがって、サンプル毎の減算を
図4のサンプル毎の減算器113によって行って、最終的にハイパス信号を取得する。その結果、ハイパス信号が、更にブロックのシーケンスにおいて利用可能である。なぜならば、サンプル毎の減算113が各ブロックに対して行われたからである。
【0081】
更に、高帯域プロセッサ120は、変更を、
図3cのブロック110によって生成されたハイパス時間ドメインサンプリング値のブロックのシーケンスの各ブロックの各サンプルに適用するように構成されている。好ましくは、ブロックのサンプルに対する変更は、再び前ブロックの情報に、及び再び現在のブロックの情報に、又はその代わりに若しくはそれに加えて再び現在のブロックの情報に、及び再び次のブロックの情報に依存する。特に、好ましくは、変更は
図5aの乗算器125によって行い、変更の前に補間補正ブロック124を行う。
図5aに例示するように、補間補正を現在のブロックに続く次のブロックの先行するゲイン値g[k−1]、g[k]、及び再び係数g[k+1]の間で行う。
【0082】
更に、述べたように、乗算器125はゲイン補償ブロック126によって制御され、ゲイン補償ブロック126は、一方でベータ因子(beta_factor)500によって他方でゲイン係数g[k]104(現在のブロックに対する)によって制御される。特に、beta_factorを用いて、乗算器125によって適用される実際の変更(1/gc[k]として示す)を、現在のブロックに付随しているゲイン係数g[k]から計算する。
【0083】
その結果、ベータ因子によって過渡事象の更なる減衰が記述され、過渡事象はこのベータ因子によってほぼモデル化される。ここで、この過渡事象の更なる減衰は、
図5aに例示したポストプロセッサの前に動作する符号器又は復号器のいずれかの副次的効果である。
【0084】
前処理及び後処理は、入力信号をローパス(LP)部分とハイパス(HP)部分とに分割することによって適用される。これは以下のようにして行うことができる。a)FFTを用いてLP部分又はHP部分を計算するか、b)ゼロ位相FIRフィルタを用いてLP部分又はHP部分を計算するか、又はc)両方向に適用される(ゼロ位相が達成される)IIRフィルタを用いて、LP部分又はHP部分を計算する。LP部分又はHP部分が与えられたら、他方の部分を時間ドメインにおける単純な減算によって得ることができる。時間依存性のスカラゲインをHP部分に適用する。そして、これをLP部分に加え戻して、前処理済又は後処理済出力を形成する。
【0085】
○信号をLP部分及びHP部分にFFTを用いて分割する(
図5a、9c)
提案した実施態様では、FFTを用いてLP部分を計算する。FFT変換サイズをN、詳細にはN=128にする。入力信号sを、サイズNのブロック(半分重複している)に分割して、入力ブロック
【数1】
を生成する。ここで、kはブロックインデックスであり、iはブロックk内のサンプル位置である。ウィンドウw[i]はib[k]、詳細には正弦ウィンドウに適用される(115、215)。正弦ウィンドウは以下のように規定される。
【数2】
またFFT(116、216)を適用した後にも、複素係数c[k][f]が以下のように得られる。
【数3】
符号器サイド(
図9c)(217a)では、LP部分を取得するために、c[k][f]が要素毎に処理形状ps[f]と乗算(217a)される。処理形状(processing shape)は以下からなる。
【数4】
lp_size=lastFFTLine[sig]+1−transitionWidthLines[sig]パラメータは、ローパス領域のFFTラインにおける幅を表し、tr_size=transitionWidthLines[sig]パラメータは、遷移領域のFFTラインにおける幅を表す。提案した処理形状の形状は直線であるが、どんな任意形状も用いることができる。
【0086】
LPブロックlpb[k]は、IFFT(218)の適用及びウィンドウ処理(219)を再び行うことによって、以下のように得られる。
【数5】
前述の方程式は
図9cの符号器/プレプロセッサに対して有効である。復号器又はポストプロセッサ、適応的処理形状rs[f]をps[f]の代わりに用いる。
HPブロックhpb[k]を次に、時間ドメインにおける単純な減算(113、213)によって、以下のように得る。
【数6】
出力ブロックob[k]は、スカラゲインg[k]を(225)(230)のようなHPブロックに適用することによって、以下のように得られる。
【数7】
出力ブロックob[k]を最終的に、重複加算を用いて、以前の出力ブロックob[k−1]と結合して、N/2の更なる最終サンプルを、前処理済出力信号oに対して、以下のように形成する。
【数8】
すべての処理は各入力チャネルに対して別個に行われる。これは、sigによってインデックス付けされる。
【0087】
○後処理サイドでの適応的再構成形状(
図5a)
復号器サイドにおいて、遷移領域において完全な再構成を得るために、遷移領域における適応的再構成形状rs[f](117b)を、符号器サイドで用いる処理形状ps[f](217b)の代わりに用いなければならず、これは処理形状ps[f]及びg[k]に以下のように依存する。
【数9】
LP領域では、ps[f]及びrs[f]は両方とも1であり、HP領域では、ps[f]及びrs[f]は両方ともゼロであり、それらは遷移領域でのみ異なっている。また、g[k]=1のときは、rs[f]=ps[f]となる。
【0088】
適応的再構成形状を、遷移領域におけるFFTラインの絶対値(magnitude)を後処理後に復元することを確実にすることによって差し引くことができる。これによって以下の関係が与えられる。
【数10】
処理は前処理サイドと同様である。但し、rs[f]がps[f]の代わりに、以下のように用いる。
【数11】
また、出力ブロックob[k][i]は、スカラゲインg[k]の逆を用いて、(125)のように計算する。
【数12】
【0089】
○後処理サイドでの補間補正(124)(
図5a)
最終の前処理済出力に対する出力ブロックk寄与の前半は、
【数13】
によって与えられ、
【数14】
である。したがって、前処理サイドで適用されたゲインg[k−1]及びg[k]は、ウィンドウ処理及び重複加算操作によって暗黙的に補間される。HP領域における各FFTラインの絶対値には、時間ドメインにおいてスカラ係数
【数15】
が効果的に乗じられる。
【0090】
同様に、後処理サイドにおいて、HP領域における各FFTラインの絶対値を、時間ドメインにおいて以下の係数と効果的に乗じる。
【数16】
【0091】
完全な再構成を実現するために、上述した2つの項の積、
【数17】
(HP領域内の各FFTラインに対する位置jにおける全体時間ドメインゲインを表す)が、出力ブロックkの前半において以下のように規格化しなければならない。
【数18】
corr[j]の値を、以下のように単純化して書き換えることができる。
【数19】
【0092】
最終の前処理済出力に対する出力ブロックk寄与の後半を、
【数20】
によって与え、補間補正を、ゲインg[k]及びg[k+1]に基づいて以下のように書くことができる。
【数21】
出力ブロックkの後半に対する更新値が、以下によって与えられる。
【数22】
【0093】
○前処理サイドでのゲイン計算(
図9c)
前処理サイドにおいて、ブロックkのHP部分(過渡事象を含むと仮定する)を、スカラゲインg[k]を用いて調整して、その近辺におけるバックグラウンドにより類似させる。ブロックkのHP部分のエネルギーをhp_e[k]によって示し、ブロックkの近辺のHPバックグラウンドの平均エネルギーをhp_bg_e[k]によって示す。
【0094】
調整量を制御するパラメータα∈[0,1]を以下のように規定する。
【数23】
g
float[k]の値を量子化して、拡張ゲイン範囲(extendedGainRange)構成選択肢の選択値によって許容される範囲に対してクリップして、ゲインインデックスgainIdx[k][sig]を以下のように生成する。
【数24】
【0095】
処理のために用いる値g[k]が量子化値であり、復号器サイドにおいて以下のように規定される。
【数25】
【0096】
αが0のときは、ゲインは値g
float[k]=1を有しており、したがって調整は行わず、αが1のときは、ゲインは値g
float[k]=hp_bg_e[k]/hp_e[k]を有しており、したがってバックグラウンドの平均エネルギーと一致するように、調整されたエネルギーを形成する。前述の関係を以下のように書き換えることができる。
【数26】
これが表しているのは、バックグラウンドhp_bg_e[k]の対応する平均エネルギーの周りでの調整されたエネルギーg
float[k]×hp_e[k]の変動が、係数(1−α)によって低減されるということである。提案するシステムでは、α=0.75を用いているため、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのHPエネルギーの変動は、当初の25%まで低減される。
【0097】
○後処理サイドでのゲイン補償(126)(
図5a)
コア符号器及び復号器によって、過渡事象の更なる減衰が導入される。この減衰は、追加の減衰ステップを導入することによって、パラメータβ∈[0,1]を用いて、コア符号器構成とフレームの信号特徴とに応じて、以下のようにほぼモデリングされる。
【数27】
これが表しているのは、コア符号器及び復号器を通過した後に、バックグラウンドhp_bg_e[k]の対応する平均エネルギーの周りでの復号化エネルギーgc
float[k]×hp_e[k]の変動が、更なる係数(1−β)によって更に低減されるということである。
【0098】
単にg[k]、α及びβを用いて、gc[k]の推定を復号器サイドにおいて、以下のように計算することができる。
【数28】
【数29】
をbetaFactorIdx[sig]に対して量子化して、各フレームに対するサイド情報として伝達する。補償されたゲインgc[k]を、ベータ因子(beta_factor)を用いて、以下のように計算することができる。
【数30】
【0099】
○メタゲイン制御(MGC)
ライブコンサートなどの拍手信号には通常、拍手音の音だけでなく、群衆の叫び、口笛、及び観客の足の踏みならしも含まれている。多くの場合に、アーチストは、拍手又は長く続く拍手と重複する機器(を扱う)音の間にお知らせを伝える。ここで、時間エンベロープ整形(例えば、STP又はGES)の既存の方法はこれらの非拍手成分を、干渉音のまさにその瞬間にアクティブにされると損なう場合がある。したがって、信号分類器によってこのような信号の間に非アクティブ化を保証する。HREPはいわゆるメタゲイン制御(MGC)の特徴を示す。MGCを用いてHREP処理の知覚効果を適切に緩和して、非常に正確な入力信号分類の必要性を回避する。MGCを用いれば、すべての種類の雰囲気及び干渉音とミックスした拍手を、不要な人為的なものを導入することなく取り扱うことができる。
【0100】
前述したように、好ましい実施形態は更に、制御パラメータ807又は代替的に制御パラメータベータ因子(
図5aの500に示す)を有している。その代わりに、又はそれに加えて、前述した個々の係数アルファ又はベータを、更なるサイド情報として伝達することができるが、一方でベータ及び他方でアルファからなる単一の制御パラメータベータ因子を有することが好ましい。ここで、ベータはパラメータ0〜1であり、コア符号器構成に、任意的に信号特徴に依存し、更に、係数アルファは、各ブロックの高周波部分エネルギーの、バックグラウンドの対応する平均エネルギーの周りでの変動を決定し、アルファもパラメータ0〜1である。1フレーム内の過渡事象の数が非常に小さいと(例えば、1〜2)、TNSはそれらを潜在的により良好に保つことができ、その結果、フレームに対して符号器及び復号器を通る更なる減衰が低減される場合がある。したがって、高性能な符号器は、ベータ因子を相応にわずかに減らして過増幅を防止することができる。
【0101】
言い換えれば、MGCは現時点で、計算されたゲインg(ここではg_float[k]と示す)を、確率様パラメータ(probability−like parameter)pを用いて変更する(例えば、g’=g1^p)。これによって、ゲインが1の方へ、それらが量子化される前にスクイーズされる。ベータ因子パラメータは、量子化ゲインの拡張を制御するための更なるメカニズムであるが、本実施態様では、コア符号器構成に基づいて固定値を用いる(例えばビットレート)。
【0102】
ベータ因子はβX(1−α)/αによって決定され、好ましくは符号器サイド上で計算されて量子化される。量子化されたベータ因子インデックスbetaFactorIdxは、時変高周波ゲイン情報g[k]に加えてフレーム毎に1回、サイド情報として伝達される。
【0103】
特に、更なる制御パラメータ807(例えば、ベータ又はベータ因子500)の時間分解能は時変高周波ゲイン情報の時間分解能よりも低いか、又は更なる制御パラメータは、特定のコア符号器構成又はオーディオ素片に対して固定さえされている。
【0104】
好ましくは、高帯域プロセッサ、帯域抽出部、及び結合器は重複ブロック内で動作し、重複範囲としてブロック長の40%〜60%、好ましくは50%重複範囲321を用いる。
【0105】
他の実施形態では、又は同じ実施形態において、ブロック長は0.8ms〜5.0msである。
【0106】
更に、好ましくは又は追加として、高帯域プロセッサ120によって行われる変更は、時間依存性の乗算係数を時間ドメイン内のブロックの各サンプルに、g[k]に従って、更に制御パラメータ500に従って、更に
図5aのブロック124の文脈で述べたように補間補正に沿って適用することである。
【0107】
更に、低周波帯域のカットオフ又はコーナー周波数はオーディオ信号の最大周波数の1/8〜1/3であり、好ましくはオーディオ信号の最大周波数の1/6に等しい。
【0108】
更に、好ましい実施形態において
図5aの117b及び117aからなるローパス整形器は、対応するブロックに対する時変高周波ゲイン情報に依存する整形関数rs[f]を適用するように構成されている。整形関数rs[f]の好ましい実施態様について前述したが、代替的な関数を用いることもできる。
【0109】
更に、好ましくは、整形関数rs[f]は更に、対応するブロックに対する時変高周波ゲイン情報を用いてオーディオ信号の高周波帯域を変更するか又は減衰させるためのオーディオプレプロセッサ200において用いられる整形関数ps[f]に依存する。ps[f]から得られるrs[f]の特定の依存関係について、
図5aに対して前述したが、他の依存関係を用いることもできる。
【0110】
更に、
図5aのブロック124に関して前述したように、ブロックのサンプルに対する変更は更に、前述した分析ウィンドウ関数又は合成ウィンドウ関数によって規定される(例えば、補正係数であって、ウィンドウ関数w[j]に依存し、更にいっそう好ましくはウィンドウ係数w[j]の二乗に由来する補正係数に対して)あるサンプルに対して適用されるウィンドウ処理係数に依存する。
【0111】
前述したように、特に
図3bに対して、帯域抽出部、結合器、及び高帯域プロセッサによって行われる処理は重複ブロック内で行われて、前ブロックの後部分が、前ブロックに時間的に隣接する後ブロックの前部分と同じオーディオ信号のオーディオサンプルから得られるようになっており、すなわち処理は重複範囲321内でこの範囲を用いて行われる。この重複ブロック313及び314の重複範囲321は前ブロックの半分に等しく、後ブロックはサンプル値の数に対して前ブロックと同じ長さであり、ポストプロセッサは更に、
図3cに例示するように重複加算演算を行うための重複加算器140を含んでいる。
【0112】
特に、帯域抽出部110は、分割フィルタのストップ範囲とパス範囲との間の分割フィルタ111の勾配をオーディオサンプルのブロックに適用するように構成されている。この勾配は、サンプルのブロックに対する時変高周波ゲイン情報に依存する。以前に規定し
図5aの文脈で述べたゲイン情報g[k]に依存する勾配rs[f]に対して好ましい勾配が与えられているが、他の依存関係も有用である可能性がある。
【0113】
全般的に、高周波ゲイン情報は好ましくは、現在のブロックkに対してゲイン値g[k]を有しており、勾配は、より低いゲイン値に対する勾配の増加と比べて、より高いゲイン値に対してより大きく増加される。
【0114】
図6aに
図3のサイド情報106のより詳細な表現を例示する。特に、サイド情報は、ゲインインデックス601、ゲイン精度情報602、ゲイン補償情報603、及び補償精度情報604のシーケンスを含む。
【0115】
好ましくは、オーディオポストプロセッサは、サイド情報を伴うオーディオ信号からオーディオ信号102とサイド情報106とを抽出するためのサイド情報抽出部610を含み、サイド情報は、サイド情報復号器620であって、復元済ゲイン621及び/又は復元済ゲイン補償値622を、対応するゲイン精度情報及び対応する補償精度情報に基づいて生成及び計算するサイド情報復号器620に転送される。
【0116】
特に、精度情報によって、異なる値の数が決定される。ここで、高ゲイン精度情報によって、ゲイン値が有することができるより小さい数の値を示すより低いゲイン精度情報と比べて、ゲインインデックスが有することができるより大きな数の値が規定される。
【0117】
その結果、高精度ゲイン情報は、ゲイン情報を伝達するために用いられるより小さい数のビットを示すより低いゲイン精度情報と比べて、ゲインインデックスを伝達するために用いられるより大きい数のビットを示す場合がある。高精度情報は4ビット(ゲイン情報に対して16値)を示すことができ、より低いゲイン情報はゲイン量子化に対して3ビット(8値)のみである。したがって、ゲイン精度情報は、例えば、「拡張ゲイン範囲:extendedGainRange」と示される単純なフラッグとすることができる。後者の場合、構成フラッグextendedGainRangeは、精度も精度情報も示さないが、ゲインが正常範囲なのか拡張範囲なのかを示す。拡張範囲には、正常範囲におけるすべての値と、加えて、正常範囲を用いて可能なものよりも小さい及び大きい値が含まれる。ある実施形態において使用できる拡張範囲によって潜在的に、強力な過渡事象に対してより強い前処理効果を適用することができる(そうでない場合は正常範囲にクリップされる)。
【0118】
同様に、ベータ因子精度に対しては、すなわちゲイン補償精度情報に対しては、フラッグを用いることもできる。フラッグは、ベータ因子インデックスが用いるのが3ビットなのか又は4ビットなのかを大まかに述べるものであり、このフラッグは拡張ベータ因子精度(extendedBetaFactorPrecision)と言ってもよい。
【0119】
好ましくは、FFTプロセッサ116は、Nサンプリング値のブロック長によってブロック毎の離散フーリエ変換を実行して、N/2複素スペクトル値の数よりも小さいスペクトル値の数を、スパース離散フーリエ変換アルゴリズムであって、最大周波数を上回るスペクトル値に対する分岐の計算が省略されるスパース離散フーリエ変換アルゴリズムを行うことによって取得するように構成され、帯域抽出部は、低周波帯域信号の計算を、遷移開始周波数範囲までのスペクトル値を用いることによって、及び遷移周波数範囲内のスペクトル値を重み付けすることによって行うように構成され、遷移周波数範囲は最大周波数又は最大周波数よりも小さい周波数までのみ及んでいる。
【0120】
この手順を例えば
図15に例示する。ここでは、あるバタフライ操作を例示している。N=8ポイント時間間引き基数2FFTトポロジから開始する例を示す。更なる処理に対してX(0)及びX(1)のみが必要である。結果として、E(2)及びE(3)並びにO(2)及びO(3)は必要ではない。次に、両方のN/2ポイントDFTを更に、2つのN/4ポイントDFT及びそれ以降のバタフライにそれぞれ再分割することを仮定する。次に、
図15に例示するように、前述の省略を同様に繰り返すことができる。
【0121】
続いて、オーディオプレプロセッサ200を
図7に関してより詳細に説明する。
【0122】
オーディオプレプロセッサ200は、オーディオ信号202を分析して時変高周波ゲイン情報204を決定するための信号分析器260を含んでいる。
【0123】
更に、オーディオプレプロセッサ200は、オーディオ信号202の高周波帯域212とオーディオ信号202の低周波帯域214とを抽出するための帯域抽出部210を含む。更に、高帯域プロセッサ220が、時変高周波ゲイン情報204に従って高周波帯域212の時変変更を行って処理済高周波帯域222を取得するために設けられている。
【0124】
オーディオプレプロセッサ200は更に、処理済高周波帯域222と低周波帯域214とを結合して前処理済オーディオ信号232を取得するための結合器230を含んでいる。更に、出力インターフェース250が、前処理済オーディオ信号232と時変高周波ゲイン情報204とをサイド情報206(
図3の文脈で説明したサイド情報106に対応する)を含む出力信号252を生成するために設けられている。
【0125】
好ましくは、信号分析器260は、オーディオ信号を分析して、
図8aのブロック801によって例示されるように第1の時間ブロック301における第1の特徴と、
図8aのブロック802に例示されるようにオーディオ信号の第2の時間ブロック302における第2の特徴(第2の特徴は第1の特徴よりも過渡的である)とを決定するように構成されている。
【0126】
更に、分析器260は、第1の特徴に対する第1のゲイン情報311と第2の特徴に対する第2のゲイン情報312とを決定するように構成されている。これを
図8aのブロック803に例示する。次に、高帯域プロセッサ220は、第2のゲイン情報に従って第2の時間ブロック302の高帯域部分を減衰させることを、第1のゲイン情報に従って第1の時間ブロック301の高帯域部分を減衰させるよりも強く行うように構成されている。これを
図8aのブロック804に例示する。
【0127】
更に、信号分析器260は、現在時刻ブロックの前に配置されているか若しくは現在時刻ブロックの後に配置されているか若しくは現在時刻ブロックの前後に配置されているか、又は現在時刻ブロックを含むか若しくは現在時刻ブロックを除外する時間的に隣接する1つ以上の時間ブロックに対して、高帯域のバックグラウンドエネルギーに対するバックグラウンド尺度を計算するように構成されている。これを
図8bのブロック805に例示する。更に、ブロック808に例示したように、現在のブロックの高帯域に対するエネルギー尺度を計算し、ブロック809に概説したように、ゲイン係数の計算を、一方でバックグラウンド尺度及び他方でエネルギー尺度を用いて計算する。したがって、ブロック809の結果は
図8bにおいて810で示されたゲイン係数である。
【0128】
好ましくは、信号分析器260は、g_floatの前に例示した方程式に基づいてゲイン係数810を計算するように構成されているが、他の計算方法を行うこともできる。
【0129】
更に、パラメータアルファαは、ゲイン係数に、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのエネルギーの変動が少なくとも50%、好ましくは75%だけ低減されるように影響を与える。その結果、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのハイパスエネルギーの変動は好ましくは、係数アルファによって当初の25%まで低減される。
【0130】
更に、メタゲイン制御ブロック/機能806は、制御因子pを生成するように構成されている。一実施形態では、MGCブロック806は、潜在的な過渡事象を特定するために統計的検出方法を用いている。各ブロック(例えば、128サンプル)に対して、それは0〜1の確率様「信頼」因子pを生成する。ブロックに適用すべき最終的なゲインはg’=g^pである(gは当初のゲインである)。pがゼロであるとき、g’=1であり、したがって処理は適用されない。またpが1であるとき、g’=gであり、全処理強度が適用される。
【0131】
MGC806を用いて、ゲインを1の方へ、前処理中の量子化の前にスクイーズして、無変化と最大効果との間で処理強度を制御する。パラメータベータ因子(パラメータベータの改良パラメータ化である)を用いて、後処理中に逆量子化後にゲインを拡張し、1つの可能性は各符号器構成に対して固定値を用いることである(ビットレートによって規定される)。
【0132】
一実施形態では、パラメータアルファは0.75に固定される。したがって、係数αは平均のバックグラウンドの周りでのエネルギー変動の減少であり、MP
EG−H実施態様では75%に固定されている。
図8bの制御因子pは確率様「信頼」係数pとして機能する。
【0133】
図8cに例示するように、信号分析器は、ゲイン情報値の未処理シーケンスを量子化及びクリップして、時変高周波ゲイン情報を量子化値のシーケンスとして取得するように構成されており、高帯域プロセッサ220は、非量子化値ではなく量子化値のシーケンスに従って高帯域の時変変更を実行するように構成されている。
【0134】
更に、出力インターフェース250は、量子化値のシーケンスをサイド情報206内に時変高周波ゲイン情報204として導入するように構成されている。これを、
図8cのブロック814に例示する。
【0135】
更に、オーディオプレプロセッサ200は、その後に接続される符号器又は復号器によって導入されるエネルギー変動の損失を記述する更なるゲイン補償値を決定する(815)ように構成され、更に、オーディオプレプロセッサ200はこの更なるゲイン補償情報を量子化して(816)、この量子化された更なるゲイン補償情報をサイド情報内に導入し(817)、更に、信号分析器は好ましくは、時変高周波ゲイン情報を決定するときにメタゲイン制御を適用して、更なる制御データ807に従ってオーディオ信号に対する高帯域プロセッサの効果を徐々に減らすか又は徐々に高めるように構成されている。
【0136】
好ましくは、オーディオプレプロセッサ200の帯域抽出部210を、
図4又は
図9cに例示するように、より詳細に実施する。したがって、帯域抽出部210は、ローパスフィルタ装置111を用いて低周波帯域を抽出し、オーディオ信号から低周波帯域を減算113することによって高周波帯域を抽出することを、ポストプロセッサデバイスに対して前述したものと正確に同じ方法で行うように構成されている。
【0137】
更に、帯域抽出部210、高帯域プロセッサ220、及び結合器230は、重複ブロック内で動作するように構成されている。結合器230は更に、ブロック重複範囲において第1のブロックのオーディオサンプルと第2のブロックのオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器を含んでいる。したがって、
図7の結合器230に付随する重複加算器は、
図3cの参照数字130に例示したポストプロセッサに対する重複加算器と同じ方法で実施してもよい。
【0138】
一実施形態では、オーディオプレプロセッサに対して、重複範囲320はブロック長の40%〜ブロック長の60%である。他の実施形態では、ブロック長は0.8ms〜5.0msであり、及び/又は高帯域プロセッサ220によって行われる変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数であるため、前処理全体の結果は過渡的性質が減少した信号である。
【0139】
更なる実施形態では、低周波帯域のカットオフ又はコーナー周波数は、オーディオ信号202の最大の周波数範囲の1/8〜1/3であり、好ましくはオーディオ信号の最大周波数の1/6に等しい。
【0140】
例えば
図9cに例示したように、また
図4のポストプロセッサに対して説明したように、帯域抽出部210は、分析ウィンドウを用いてオーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部215を含んでおり、これらのブロックは
図3bの321に例示したように時間重複している。更に、スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ216が設けられ、その後に接続されるローパス整形器217a、217bも設けられていて、スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するようになっている。更に、時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ218が設けられ、合成ウィンドウ処理部219が離散逆フーリエ変換プロセッサ218の出力に接続されて、合成ウィンドウを用いてローパス時間ドメインサンプリング値に対するブロックのシーケンスをウィンドウ処理するようになっている。
【0141】
好ましくは、ブロック217a、217bからなるローパス整形器は、乗算器217aによって例示されるように個々のFFTラインを乗じることによってローパス形状ps[f]を適用する。ローパス形状ps[f]を、
図9cに対して前述したように計算する。
【0142】
更に、オーディオ信号自体(すなわち、全帯域オーディオ信号)もオーディオ信号ウィンドウ処理部221を用いてウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得し、このオーディオ信号ウィンドウ処理部221は分析ウィンドウ処理部215及び/又は合成ウィンドウ処理部219と同期して、ローパス時間ドメインサンプリング値のブロックのシーケンスがオーディオ信号値のウィンドウブロックのシーケンスと同期するようになっている。
【0143】
更に、
図7の分析器260は、更に制御パラメータ807(前処理の強度を無及び最大効果の間で制御するために用いられる)と500(すなわち、更なるサイド情報としてのベータ因子)とをもたらすように構成されている。ここで、高帯域プロセッサ220は、変更を更なる制御パラメータ807も考慮して適用するように構成され、ベータ因子パラメータの時間分解能は時変高周波ゲイン情報の時間分解能よりも低いか、又は更なる制御パラメータは特定のオーディオ素片に対して固定されている。前述したように、MGCからの確率様の制御パラメータを用いてゲインを1の方へ、量子化の前にスクイーズし、制御パラメータは明示的にはサイド情報として伝達しない。
【0144】
更に、結合器230は、ローパス時間ドメインサンプリング値のブロックのシーケンスと、ハイパス時間ドメインサンプリング値の変更された(すなわち処理済)ブロックのシーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている。これは、
図3cのポストプロセッササイドに対して例示した通りである。
【0145】
図9aに例示するのは、オーディオ信号を符号化するためのオーディオ符号化装置であって、前述したオーディオプレプロセッサ200(時変高周波ゲイン情報をサイド情報として有する出力信号252を生成するように構成されている)を含む装置である。更に、コア符号器900が、コア符号化信号902及びコアサイド情報904を生成するために設けられている。更に、オーディオ符号化装置は、コア符号化信号902、コアサイド情報904、及び時変高周波ゲイン情報を更なるサイド情報106として含む符号化信号912を生成するための出力インターフェース910を含んでいる。
【0146】
好ましくは、オーディオプレプロセッサ200は、
図10aに例示するように、各チャンネル又は各オブジェクトの前処理を別個に実行する。この場合、オーディオ信号は多チャンネル又は多オブジェクト信号である。更なる実施形態(
図5cに例示する)では、オーディオプレプロセッサ200は、各SAOC輸送チャンネル又は各高次アンビソニックス(HOA)輸送チャンネルの前処理を別個に実行する(
図10aに例示する)。この場合、オーディオ信号は、空間オーディオオブジェクト輸送チャンネル又は高次アンビソニックス輸送チャンネルである。
【0147】
それとは反対に、コア符号器900は、結合多チャンネル符号器処理又は結合多オブジェクト符号器処理又は符号器ギャップ充填又は符号器帯域幅拡張処理を、前処理済チャンネル232上で適用するように構成されている。
【0148】
その結果、典型的に、コア符号化信号902は、結合多チャンネル/多オブジェクトコア符号器900内に導入されたときよりもチャンネルが少ない。なぜならば、コア符号器900は典型的に、ある種のダウンミックス操作を含んでいるからである。
【0149】
オーディオ復号装置を
図9bに例示する。オーディオ復号装置は、コア符号化信号902、コアサイド情報904、及び時変高周波ゲイン情報104を更なるサイド情報106として含む符号化オーディオ信号912を受け取るためのオーディオ入力インターフェース920を有している。更に、オーディオ復号装置は、コアサイド情報904を用いてコア符号化信号902復号して復号化コア信号102を取得するためのコア復号器930を含んでいる。更に、オーディオ復号装置は、時変高周波ゲイン情報104を用いて復号化コア信号102を後処理するためのポストプロセッサ100を有している。
【0150】
好ましくは、また
図10bに例示するように、コア復号器930は、多チャンネル復号器処理又は多オブジェクト復号器処理又は帯域幅拡張復号器処理又はギャップ充填復号器処理を適用して、多チャンネル信号102の復号化チャンネル又は多オブジェクト信号102の復号化オブジェクトを生成するように構成されている。したがって、言い換えれば、結合復号器プロセッサ930は典型的に、ある種のアップミックスを含んでいて、符号化オーディオ信号902内のより小さい数のチャンネルから、より大きい数の個々のオブジェクト/チャンネルを生成する。これらの個々のチャンネル/オブジェクトは、チャンネル個別の後処理内に、オーディオポストプロセッサ100によって、各チャンネル又は各オブジェクトに対する個々の時変高周波ゲイン情報を用いて入力される。これを
図10bの104に例示する。チャンネル個別のポストプロセッサ100は、後処理済チャンネルを出力する。このチャンネルは、デジタル/アナログ変換器及びその後に接続されたラウドスピーカーに出力することができるか、又はある種の更なる処理若しくは記憶又はオーディオオブジェクト若しくは音響チャンネルを処理するための任意の他の好適な手順に出力することができる。
【0151】
図10cに例示するのは、
図9a又は9bに例示したものと同様の状況であり、すなわち、完全なチェーンであって、高分解能エンベロープ処理プレプロセッサ100が、ビットストリームを生成するための符号器900に接続され、ビットストリームは復号器930によって復号化され、復号器出力は、高分解能エンベローププロセッサポストプロセッサ100によって後処理されて、最終的な出力信号を生成する、チェーンである。
【0152】
図16及び
図17a〜17hに例示するのは、5.1チャンネルラウドスピーカーリスニング(128kbps)に対するリスニング試験結果である。更に、中間(48kbps)及び高(128kbps)品質におけるステレオヘッドフォンリスニングに対する結果を示す。
図16aにリスニングテストセットアップをまとめる。結果を、17a〜17hに例示する。
【0153】
図17aにおいて、知覚品質は「良い」〜「非常に良い」の範囲にある。拍手様信号は、範囲「良い」における最低スコーリング項目の中であることに注意されたい。
【0154】
図17bに、すべての拍手項目が著しい改善を示す一方で、非拍手項目に対しては知覚品質における著しい変化が観察されないことを例示する。著しく低下している項目はない。
【0155】
図17c及び17dに関して、絶対的な知覚品質は「良い」範囲にあると概説される。差分において、全体として、7つのポイントの著しいゲインがある。個々の品質ゲインは4〜9ポイントの範囲であり、すべて著しい。
【0156】
図17eにおいて、テストセットのすべての信号は拍手信号である。知覚品質は「並み」〜「良い」の範囲にある。常に、「HREP」条件のスコアは「NOHREP」条件よりも高い。
図17fにおいて、1つを除くすべての項目に対して、「HREP」スコアは「NOHREP」よりも著しく良好であることが明白である。3〜17ポイントの範囲の改善が観察された。全体として、12ポイントの著しい平均ゲインがある。著しく低下している項目はない。
【0157】
図17g及び17hに関して、絶対スコアにおいて、すべての信号のスコアが範囲「非常に良い」にあることが明白である。差分スコアにおいて、知覚品質はほとんど透明であるにもかかわらず、8信号のうち6つに対して、全体として3〜9ポイントの著しい改善があって、平均で5MUSHRAポイントになることが見られる。著しく低下している項目はない。
【0158】
結果は、好ましい実施形態のHREP技術が広範囲のビットレート/絶対的品質において拍手様信号の符号化に対して著しいメリットがあることを明瞭に示している。また、非拍手信号に対して全く障害がないことが証明されている。HREPは、主に多くの高密度な過渡事象(例えば、拍手、雨音など)からなる信号の知覚符号化を改善するためのツールである。HREPを適用する効果は二重である。HREPは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、HREPは、復号器の(アップ)ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。主観テストをしたところ、48kbpsステレオにおいてHREP処理によって約12MUSHRAポイントの改善が見られ、128kbps5.1チャンネルにおいて7MUSHRAポイントの改善が見られた。
【0159】
続いて、
図5bを参照して、MPEG−H3Dオーディオ符号器/復号器フレームワーク内での一方で後処理又は他方で前処理の実施態様を例示する。具体的には、
図5bに例示するのは、MPEG−H3Dオーディオ復号器内で実施したHREPポストプロセッサ100である。具体的には、本発明のポストプロセッサを
図5bの100に示す。
【0160】
HREP復号器が、550に例示される3Dオーディオコア復号器の出力に接続されていることが明白である。更に、上部における要素550とブロック100との間に、MPEGサラウンド要素が例示されている。これは典型的に、ブロック560の入力におけるベースチャンネルからMPEGサラウンド実施のアップミックスを実行して、ブロック560の出力においてより多くの出力チャンネルを取得する。
【0161】
更に、
図5bにオーディオコア部分以外の他の要素を例示する。これらは、オーディオレンダリング部分では、一方でチャンネル及び他方でオブジェクトに対するdrc_1(570)である。更に、フォーマット変換ブロック580、オブジェクトレンダラ590、オブジェクトメタデータ復号器592、SAOC3D復号器594、及び高次アンビソニックス(HOA)復号器596が設けられている。
【0162】
これらの要素はすべて、リサンプラ582に送り、リサンプラはその出力データをミキサ584内に送る。ミキサはその出力を、チャンネルラウドスピーカーフィード586又はヘッドフォンフィード588のいずれかに転送する。これらは、「チェーンの終了」における要素を表し、ミキサ584出力の後の更なる後処理を表す。
【0163】
図5cに例示するのは、MPEG−H3Dオーディオ復号器のフレームワークにおけるオーディオポストプロセッサ(HREP)の更なる好ましい埋め込みである。
図5bとは対照的に、HREP処理をSAOC輸送チャンネル及び/又はHOA輸送チャンネルにも適用する。
図5cにおける他方の機能は
図5bにおけるそれらと同様である。
【0164】
帯域抽出部に関係する添付の請求項は、たとえ請求項がポストプロセッサ又はプレプロセッサの一方におけるポストプロセッサに対してのみ設けられている場合であっても、オーディオポストプロセッサ内の帯域抽出部及びオーディオプレプロセッサ内の帯域抽出部にも適用されることに注意されたい。高帯域プロセッサ及び結合器に対して同じことが通用する。
特に、付録及び付録Aに例示した更なる実施形態に言及する。
【0165】
本発明をいくつかの実施形態に関して説明してきたが、本発明の範囲に含まれる変更、並べ換え、及び均等物が存在する。本発明の方法及び構成を実施する多くの代替的な方法があることにも注意されたい。したがって、以下の添付の請求項は、本発明の真の趣旨及び範囲に含まれるすべてのこのような変更、並べ換え、及び均等物を含むものと解釈することが意図されている。
【0166】
いくつかの態様は装置の文脈について説明してきたが、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明した態様も、対応する装置の対応するブロック又は項目又は特徴の説明を表す。本方法ステップの一部又は全部を、ハードウェア装置(例えば、マイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路など)によって(又はこれを用いて)実行してもよい。いくつかの実施形態では、最も重要な方法ステップのうちの何らかの1つ以上をこのような装置によって実行してもよい。
【0167】
本発明の符号化オーディオ信号を、デジタル記憶媒体上に記憶することもできるし、又は伝送媒体(例えば無線伝送媒体又は有線伝送媒体例えばインターネット)上で伝達することができる。
【0168】
ある実施態様要求に応じて、本発明の実施形態をハードウェア又はソフトウェアで実施することができる。実施態様をデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、又はフラッシュメモリであって、電子的に読取可能な制御信号が記憶されているものを用いて行うことができる。これらは、プログラム可能なコンピュータシステムと協同して(又は協同することができて)、対応する方法が行われるようになっている。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。
【0169】
本発明によるいくつかの実施形態は、電子的に読取可能な制御信号を有するデータキャリアを含んでいる。この制御信号は、本明細書で説明した本方法の1つが行われるように、プログラム可能なコンピュータシステムと協同することができる。
【0170】
全般的に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実施することができる。プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されたときに、本方法の1つを行う働きをする。プログラムコードを、例えば機械読取可能なキャリア上に記憶してもよい。
【0171】
他の実施形態は、本明細書で説明した本方法の1つを行うためのコンピュータプログラム(機械読取可能なキャリア上に記憶された)を含んでいる。
【0172】
言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書で説明した本方法の1つを行うためのプログラムコードを有するコンピュータプログラムである。
【0173】
したがって、本発明の方法の更なる実施形態は、本明細書で説明した本方法の1つを行うためのコンピュータプログラムが記録されたデータキャリア(又はデジタル記憶媒体、又はコンピュータ可読媒体)である、データキャリア、デジタル記憶媒体、又は記録された媒体は典型的に、有形及び/又は非一過性である。
【0174】
したがって、本発明の方法の更なる実施形態は、本明細書で説明した本方法の1つを行うためのコンピュータプログラムを表す信号のデータストリーム又はシーケンスである。信号のデータストリーム又はシーケンスは、例えば、データ通信接続部を介して(例えばインターネットを介して)伝達するように構成してもよい。
【0175】
更なる実施形態は、本明細書で説明した本方法の1つを実行するように構成された又は適応された処理手段(例えば、コンピュータ、又はプログラマブル論理回路)を含んでいる。
【0176】
更なる実施形態は、本明細書で説明した本方法の1つを行うためのコンピュータプログラムがインストールされたコンピュータを含んでいる。
【0177】
本発明による更なる実施形態は、本明細書で説明した本方法の1つを行うためのコンピュータプログラムを受信部に伝達する(例えば、電子的に又は光学的に)ように構成された装置又はシステムを含んでいる。受信部は、例えば、コンピュータ、モバイルデバイス、メモリ装置などであってもよい。装置又はシステムは、例えば、コンピュータプログラムを受信部に伝達するためのファイルサーバを含んでいてもよい。
【0178】
いくつかの実施形態では、プログラマブル論理回路(例えばフィールドプログラマブルゲートアレイ)を用いて、本明細書で説明した本方法の機能の一部又は全部を実行してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイがマイクロプロセッサと協同して、本明細書で説明した本方法の1つを実行してもよい。全般的に、本方法は好ましくは、何らかのハードウェア装置によって行う。
【0179】
本明細書で説明した装置を、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置及びコンピュータの結合を用いて実施してもよい。
【0180】
本明細書で説明した本方法を、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置及びコンピュータの結合を用いて行ってもよい。
【0181】
前述の実施形態は単に本発明の原理に対する説明である。当然のことながら、本明細書で説明した配置及び詳細の変更及び変動は当業者には明らかである。したがって、間近の特許請求の範囲によってのみ制限され、本明細書の実施形態の記載及び説明によって示した具体的な詳細によっては制限されないことが意図されている。
【0182】
<付録>
○MPEG−H3DAudioにおけるHREPの更なる実施形態の説明
高分解能エンベロープ処理(HREP)は、主に多くの高密度な過渡事象(例えば、拍手、雨滴音など)からなる信号の知覚符号化を改善するためのツールである。これらの信号は従来、MPEGオーディオ符号復号器を、特に低いビットレートにおいて符号化することが非常に難しかった。主観テストをしたところ、48kbpsステレオにおいてHREP処理によって約12MUSHRAポイントの著しい改善が見られた。
【0183】
○要旨
HREPツールによって、高密度に離隔して配置された過渡事象(例えば拍手信号、これらはライブ録音の重要な部分であるため)を含む信号に対する符号化性能の改善が得られる。同様に、雨滴音又は他の音(例えば花火)はこのような特徴を示すことができる。しかしながら、この種類の音によって、既存のオーディオ符号復号器に対する問題が、特に、低ビットレートにおいて及び/又はパラメータの符号化ツールを用いて符号化したときに生じる。
【0184】
図10cに示すのは、HREPが備わった符号復号器における信号フローである。符号器サイドにおいて、ツールは、わずかなサイド情報(ステレオ信号に対して1〜4kbps)を生成しながら、高周波に対する信号を時間的に平坦化するプリプロセッサとして機能する。復号器サイドにおいて、ツールは、高周波に対する信号を時間的に整形してサイド情報を利用するポストプロセッサとして機能する。HREPを適用する効果は二重である。HREPは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、HREPは、復号器の(アップ)ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。
【0185】
図10c:HREPが備わった符号復号器における信号フローの概略。
HREPツールは、すべての入力チャネル構成(モノ、ステレオ、多チャンネル(3Dを含む))に対して、またオーディオオブジェクトに対しても機能する。
コア実験において、MUSHRAリスニング試験結果を行う。これは、拍手信号を符号化するためのHREPのメリットを示すものである。知覚品質における著しい改善を以下のテストケースに対して実証する。
128kbit/sにおいて5.1チャンネルに対して7MUSHRAポイント平均改善
ステレオ48kbit/sに対して12MUSHRAポイント平均改善
ステレオ128kbit/sに対して5MUSHRAポイント平均改善
典型的には、フルの良く知られたMPEGサラウンドテストセットを用いて、5.1ch信号に対する知覚品質を評価することを通して、非拍手信号の品質がHREPによって損なわれないことを証明する。
【0186】
○HREPの詳細な説明
図10cにHREPが備わった符号復号器における信号フローを示す。符号器サイドにおいて、ツールは、実際の知覚オーディオ符号復号器の前に高時間分解能を伴うプレプロセッサとして機能することを、入力信号を分析し、過渡事象の高周波部分を減衰させてしたがって時間的に平坦化し、少しのサイド情報(ステレオ信号に対して1〜4kbps)を生成することによって行う。拍手分類器が、符号器にHREPをアクティブにするか否かの決定を導いてもよい。復号器サイドにおいて、このツールは、オーディオ符号復号器の後のポストプロセッサとして機能することを、過渡事象の高周波部分を高めてしたがって時間整形して、符号化の間に生成されたサイド情報を用いることによって行う。
【0187】
図9c:符号器内の詳細なHREP信号フロー
図9cに符号器内のHREPプロセッサの内部の信号フローを表示する。前処理を、入力信号をローパス(LP)部分及びハイパス(HP)部分に分割することによって適用する。これは、FFTを用いてLP部分を計算することによって行う。LP部分が与えられたら、HP部分は時間ドメインにおいて減算することによって得られる。時間依存性のスカラゲインをHP部分に適用し、これをLP部分に加え戻して前処理済出力を形成する。
【0188】
サイド情報は、ローパス(LP)形状情報及びスカラゲイン(HREP分析ブロック(図示せず)内で推定される)を含んでいる。HREP分析ブロックは、HREPが完全に適用できるわけではない場合に、信号コンテンツ(「非拍手信号」)に対するHREP処理の効果を適切に減少させられる更なるメカニズムを含んでいてもよい。その結果、拍手検出精度に対する要求がかなり緩和される。
【0189】
図5a:復号器内の詳細なHREP信号フロー
復号器サイド処理について、
図5aで概説する。HP形状情報及びスカラゲインに対するサイド情報を、ビットストリーム(図示せず)から構文解析して、符号器前処理のそれと逆の復号器後処理に類似する信号に適用する。後処理を、信号をローパス(LP)部分及びハイパス(HP)部分に再び分割することによって適用する。これは、FFTを用いてLP部分を計算することによって行う。LP部分が与えられたら、HP部分は時間ドメインにおいて減算することによって得られる。伝達されたサイド情報に依存するスカラゲインをHP部分に適用し、これをLP部分に加え戻して前処理済出力を形成する。
すべてのHREPサイド情報を拡張ペイロードに信号で伝えて、MPEG−H3DAudioビットストリーム内に下位互換性があるように埋め込む。
【0190】
○仕様テキスト
必要なWD変化、提案したビットストリーム構文、セマンティクス、及び復号プロセスの詳細な説明を、文献の付録Aにおいてdiffテキストとして見ることができる。
【0191】
○複雑さ
HREP処理の計算複雑性は、信号のLP/HP分割を実施するDFT/IDFT対の計算によって占められている。1024の時間ドメイン値を含む各オーディオフレームに対して、16対の128ポイント実数値DFT/IDFTを計算しなければならない。
低複雑性(LC)プロファイルに含めるために、以下の制限を提案する。
アクティブなHREPチャンネル/オブジェクトの制限
非自明な最大伝達ゲイン係数g(k)に対する制限(0dBの自明なゲイン係数によって、付随するDFT/IDFT対に対する必要性が軽減される)
効率的な分割基数2スパーストポロジにおけるDFT/iDFTの計算
【0192】
○メリットの証拠
・リスニングテスト
メリットの証拠として、リスニング試験結果を5.1チャンネルラウドスピーカーリスニング(128kbps)に対して示す。更に、中間(48kbps)及び高(128kbps)品質におけるステレオヘッドフォンリスニングに対する結果を示す。
図16にリスニングテストセットアップをまとめる。
図16−リスニングテスト概略
【0193】
・結果
*128kbps5.1ch
図は、128kbps5.1chテストの絶対MUSHRAスコアを示している。知覚品質は「良い」〜「非常に良い」の範囲にある。なお拍手様信号は、範囲「良い」における最も低いスコーリング項目の中にある。
【0194】
図17a:128kbps5.1chテストに対する絶対MUSHRAスコア。
図17bに、128kbps5.1chテストの差分MUSHRAスコアを示す。拍手項目はすべて著しい改善を示しているが、非拍手項目に対しては知覚品質における著しい変化は観察されない。著しく低下している項目はない。
図17b:128kbps5.1chテストに対する差分MUSHRAスコア。
図17cに示すのは、テストセットに含まれるすべての拍手項目に対する絶対MUSHRAスコアであり、
図17dに示すのは、テストセットに含まれるすべての拍手項目に対する差分MUSHRAスコアである。絶対的知覚品質は「良い」範囲にある。差分において、全体として、7ポイントの著しいゲインがある。個々の品質ゲインは4〜9ポイントの範囲にあり、すべて著しい。
【0195】
図17c:128kbps5.1chテスト拍手信号に対する絶対MUSHRAスコア。
図17d:128kbps5.1chテスト拍手信号に対する差分MUSHRAスコア。
【0196】
*48kbpsステレオ
図17eに、48kbpsステレオテストの絶対MUSHRAスコアを示す。ここで、セットの信号はすべて拍手信号である。知覚品質は「並み」〜「良い」の範囲である。常に、「hrep」条件のスコアは「nohrep」条件よりも高い。
図17fに差分MUSHRAスコアを示す。1つを除くすべての項目に対しては、「hrep」スコアは「nohrep」よりも著しく良好である。3〜17ポイントの範囲の改善が観察されている。全体として、12ポイントの著しい平均のゲインがある。著しく低下している項目はない。
図17e:48kbpsステレオテストに対する絶対MUSHRAスコア。
図17f:48kbpsステレオテストに対する差分MUSHRAスコア。
【0197】
*128kbpsステレオ
図17g及び
図17hに、128kbpsステレオテストの絶対及び差分MUSHRAスコアをそれぞれ示す。絶対スコアにおいて、すべての信号スコアは範囲「非常に良い」にある。差分スコアにおいて、知覚品質はほとんど透明であるにもかかわらず、8信号のうち6つに対して、全体として3〜9ポイントの著しい改善があって、平均で5MUSHRAポイントになることが見られる。著しく低下している項目はない。
【0198】
図17g:128kbpsステレオテストに対する絶対MUSHRAスコア。
図17h:128kbpsステレオテストに対する差分MUSHRAスコア。
結果は、CEプロポーザルのHREP技術が、広い範囲のビットレート/絶対的品質において拍手様信号の符号化に対して著しいメリットがあることを明瞭に示している。また、非拍手信号に対して全く障害がないことが証明されている。
【0199】
・結論
HPREPは、主に多くの高密度な過渡事象(例えば、拍手、雨滴音など)からなる信号の知覚符号化を改善するためのツールである。HREPを適用する効果は二重である。HREPは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、HREPは、復号器の(アップ)ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。主観テストをしたところ、48kbpsステレオにおいてHREP処理によって約12MUSHRAポイントの改善が見られ、128kb5.1chにおいて7MUSHRAポイントが見られた。
【0200】
<付録A>
○MPEG−H3DAudio内にHREPの好ましい実施形態
続いて、ISO/IEC23008−3:2015及びISO/IEC23008−3:2015/EAM3文献に対してHREPに対して要求される変化に対するデータ変更を与える。
【0201】
以下の行を表1、「MPEG−H3DA機能ブロック及び内部処理ドメイン。f
s,coreはコア復号器出力サンプリングレートを示し、f
s,outは復号器出力サンプリングレートを示す」(セクション10.2)に加える:
表1−MPEG−H3DA機能ブロック及び内部処理ドメイン。f
s、
coreはコア復号器出力サンプリングレートを示し、f
s、
out復号器出力サンプリングレートを示す。
【表1】
【0202】
以下のケースを表13、「mpegh3daExtElementConfig()の構文」(セクション5.2.2.3)に加える:
表13−mpegh3daExtElementConfig()の構文
【表2】
【0203】
以下の値定義を表50、「usacExtElementTypeの値」、セクション5.3.4に加える:
表50−usacExtElementTypeの値
【表3】
【0204】
以下の解釈を表51、「拡張ペイロード復号に対するデータブロックの解釈」(セクション5.3.4)に加える:
表51−拡張ペイロード復号に対するデータブロックの解釈
【表4】
【0205】
新しい従属節(subclause)を5.2.2の終わりに加え、以下の表を加える:
5.2.2.X拡張要素構成
表2−HREPConfig()の構文
【表5】
【0206】
5.2.2.3の終わりに以下の表を加える:
表3−HREPFrame()の構文
【表6】
【0207】
ヘルパー関数HREP_decode_ac_data(gain_count,signal_count)は、以下のUSAC低レベル算術符号化関数を用いて配列gainIdx内へのゲイン値の読み取り値を記述する。
arith_decode(*ari_state,cum_freq,cfl),
arith_start_decoding(*ari_state),
arith_done_decoding(*ari_state).
以下の2つの更なるヘルパー関数を導入する。
ari_decode_bit_with_prob(*ari_state,count_0,count_total),
(p0=count_0/total_count及びp1=1−p0として1ビットを復号する)
ari_decode_bit(*ari_state)
(モデリングを用いずに、p0=0.5及びp1=0.5として1ビットを復号する)
【0208】
ari_decode_bit_with_prob(*ari_state,count_0,count_total)
[
prob_scale=1<<14;
tbl[0]=probScale-(count_0*prob_scale)/count_total;
tbl[1]=0;
res=arith_decode(ari_state,tbl,2);
return res;
}
ari_decode_bit(*ari_state)
[
prob_scale=1<<14;
tbl[0]=prob_scale>>1;
tbl[1]=0;
res=arith_decode(ari_state,tbl,2);
return res;
]
HREP_decode_ac_data(gain_count,signal_count)
[
cnt_mask[2]=[1,1];
cnt_sign[2]=[1,1];
cnt_neg[2]=[1,1];
cnt_pos[2]=[1,1];
arith_start_decoding(&ari_state);
for(pos=0;pos<gain_count;pos++)[
for(sig=0;sig<signal_count;sig++)[
if(!isHREPActive[sig])[
continue;
]
mask_bit=ari_decode_bit_with_prob(&ari_state,cnt_mask[0],cnt_mask[0]
+cnt_mask[1]);
cnt_mask[mask_bit]++;
if(mask_bit)[
sign_bit=ari_decode_bit_with_prob(&ari_state,cnt_sign[0],cnt_sig
n[0]+cnt_sign[1]);
cnt_sign[sign_bit]+=2;
if(sign_bit)[
large_bit=ari_decode_bit_with_prob(&ari_state,cnt_neg[0],cnt
_neg[0]+cnt_neg[1]);
cnt_neg[large_bit]+=2;
last_bit=ari_decode_bit(&ari_state);
gainIdx[pos][sig]=-2*large_bit-2+last_bit;
]else[
large_bit=ari_decode_bit_with_prob(&ari_state,cnt_pos[0],cnt
_pos[0]+cnt_pos[1]);
cnt_pos[large_bit]+=2;
if(large_bit)[
gainIdx[pos][sig]=3;
]else[
last_bit=ari_decode_bit(&ari_state);
gainIdx[pos][sig]=2-last_bit;
]
]
]else[
gainIdx[pos][sig]=0;
]
if(extendedGainRange)[
prob_scale=1<<14;
esc_cnt=prob_scale/5;
tbl_esc[5]=[prob_scale-esc_cnt,prob_scale-2*esc_cnt,prob_scale-3
*esc_cnt,prob_scale-4*esc_cnt,0];
sym=gainIdx[pos][sig];
if(sym<=-4)[
esc=arith_decode(ari_state,tbl_esc,5);
sym=-4-esc;
]else if(sym>=3)[
esc=arith_decode(ari_state,tbl_esc,5);
sym=3+esc;
]
gainIdx[pos][sig]=sym;
]
gainIdx[pos][sig]+=GAIN_INDEX_0dB;
]
]
arith_done_decoding(&ari_state);
]
【0209】
以下の新しい従属節「5.5.X高分解能エンベロープ処理(HREP)ツール」を従属節5.5の終わりに加える:
5.5.X高分解能エンベロープ処理(HREP)ツール
5.5.X.1ツール説明
HREPツールによって、高密度に離隔して配置された過渡事象(例えば拍手信号、これらはライブ録音の重要な部分であるため)を含む信号に対する符号化性能の改善が得られる。同様に、雨滴音又は他の音(例えば花火)はこのような特徴を示すことができる。しかしながら、この種類の音によって、既存のオーディオ符号復号器に対する問題が、特に、低ビットレートにおいて及び/又はパラメータの符号化ツールを用いて符号化したときに生じる。
【0210】
図5b又は5cは、HREPが備わった符号復号器における信号フローを示す。符号器サイドにおいて、ツールは、わずかなサイド情報(ステレオ信号に対して1〜4kbps)を生成しながら、高周波に対する信号を時間的に平坦化するプリプロセッサとして機能する。復号器サイドにおいて、ツールは、高周波に対する信号を時間的に整形してサイド情報を利用するポストプロセッサとして機能する。HREPを適用する効果は二重である:HREPは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、HREPは、復号器の(アップ)ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。HREPツールは、すべての入力チャネル構成(モノ、ステレオ、多チャンネル(3Dを含む))に対して、またオーディオオブジェクトに対しても機能する。
【0211】
5.5.X.2データ及びヘルプ要素
current_signal_group:current_signal_groupパラメータは、Signals3d()構文要素及びmpegh3daDecoderConfig()構文要素に基づく。
signal_type:電流信号グループのタイプであり、チャンネル信号及びオブジェクト、HOA、及びSAOC信号の間を区別するために用いる。
signal_count:電流信号グループにおける信号数
channel_layout:電流信号グループがチャンネル信号を有する場合には、各チャンネルに対する話者の特性(LFE話者を特定するために用いる)を含む。
extendedGainRange:ゲインインデックスが用いるのが3ビット(8値)なのか4ビット(16値)なのかを示す(nBitsGainによって計算する)。
extendedBetaFactorPrecision:示すベータ因子インデックスが用いるのが3ビットなのか4ビットなのかを示す(nBitsBetaによって計算する)。
isHREPActive[sig]:ツールが、電流信号グループ内のインデックスsig上の信号に対してアクティブか否かを示す。
lastFFTLine[sig]:FFTを用いて実施するローパス手順において用いられる最後の非ゼロラインの位置。
【0212】
transitionWidthLines[sig]:FFTを用いて実施されるローパス手順で用いられる遷移領域のラインにおける幅。
defaultBetaFactorIdx[sig]:ゲイン補償手順においてゲインを変更するために用いられる初期設定のベータ因子インデックス。
outputFrameLength:フレームあたりのサンプルの等価数、当初のサンプリング周波数を用いており、USAC基準において規定されている。
gain_count:1フレーム内の信号あたりのゲイン数
useRawCoding:ゲインインデックスは、それぞれnBitsGainを用いて未処理を符号化したものなのか、又は算術符号化を用いて符号化したのかを示す。
gainIdx[pos][sig]:電流信号グループ内の位置sig上の信号の位置pos上のブロックに対応するゲインインデックス。extendedGainRange=0である場合、可能な値は範囲{0、…、7}であり、extendedGainRange=1である場合、可能な値は範囲{0、…、15}である。
GAIN_INDEX_0dB:0dBに対応するゲインインデックスオフセット、extendedGainRange=0の場合に値4が用いられ、extendedGainRange=1の場合に値8が用いられる。ゲインインデックスはは、GAIN_INDEX_0dBをそれらの当初の符号付きデータ範囲に加えることによって符号無し値として伝達される。
all_zero:電流信号に対する1フレーム内のすべてのゲインインデックスが値GAIN_INDEX_0dBを有するか否かを示す。
useDefaultBetaFactorIdx:電流信号に対するベータ因子インデックスが、defaultBetaFactor[sig]によって特定される初期設定の値を有するか否かを示す。
betaFactorIdx[sig]:ゲイン補償手順におけるゲインを変更するために用いるベータ因子インデックス。
【0213】
5.5.X.2.1低複雑性プロファイルに対する制限
信号の総数(すべての信号群に渡ってカウントされる)が最大で6である場合、制限はない。
そうでない場合、HREPがアクティブである信号の総数(HREPConfig()におけるisHREPActive[sig]構文要素によって示され、すべての信号群に渡ってカウントされる)が最大で4である場合、更なる制限はない。
そうでない場合、HREPがアクティブである信号の総数(HREPConfig()におけるisHREPActive[sig]構文要素によって示され、すべての信号群に渡ってカウントされる)は、最大で8に制限されるものとする。
更に、各フレームに対して、GAIN_INDEX_0dBとは異なるゲインインデックスの総数(HREPがアクティブである信号に対して、すべての信号群に渡ってカウントされる)は、最大で4×gain_countとする。ブロックがGAIN_INDEX_0dBと等しいゲインインデックスを有する場合、FFT、補間補正、及びIFFTは省略するものとする。この場合、入力ブロックに正弦ウィンドウの二乗を乗じて、重複加算手順において直接用いるものとする。
【0214】
5.5.X.3復号プロセス
5.5.X.3.1概要
構文要素mpegh3daExtElementConfig()において、フィールドusacExtElementPayloadFragは、ID_EXT_ELE_HREP要素の場合、ゼロとする。HREPツールは、タイプSignalGroupTypeChannels及びSignalGroupTypeObject(SignalGroupType[grp]Signals3d()構文要素によって規定される)の信号群に対してのみ適用可能である。したがって、ID_EXT_ELE_HREP要素は、タイプSignalGroupTypeChannels及びSignalGroupTypeObjectの信号グループに対してのみ存在するものとする。
用いるブロックサイズ及び相応にFFTサイズは、N=128である。
処理全体を、電流信号グループにおける各信号に対して独立に行う。したがって、表記を単純にするために、復号プロセスの説明を、位置sig上の1つの信号に対してのみ行う。
【0215】
図5a:復号サイドにおける高分解能エンベロープ処理(HREP)ツールのブロック図
5.5.X.3.2量子化されたベータ因子の復号
ベータ因子インデックスbetaFactorIdx[sig]をベータ因子beta_factorに変換するための以下のルックアップテーブルを、extendedBetaFactorPrecisionの値に応じて用いるものとする。
【0216】
tab_beta_factor_dequant_coarse[8]=[
0.000f,0.035f,0.070f,0.120f,0.170f,0.220f,0.270f,0.320f
]
tab_beta_factor_dequant_precise[16]=[
0.000f,0.035f,0.070f,0.095f,0.120f,0.145f,0.170f,0.195f,
0.220f,0.245f,0.270f,0.295f,0.320f,0.345f,0.370f,0.395f
]
extendedBetaFactorPrecision=0の場合、変換を次のように計算する
beta_factor=tab_beta_factor_dequant_coarse[betaFactorIndex[sig]]
extendedBetaFactorPrecision=1の場合、変換を次のように計算する
beta_factor=tab_beta_factor_dequant_precise[betaFactorIndex[sig]]
【0217】
5.5.X.3.3量子化ゲインの復号
1フレームを、gain_countブロック(それぞれNサンプルからなる)として処理する。これらは半分重複している。各ブロックに対するスカラゲインを、extendedGainRangeの値に基づいて得る。
【数31】
【0218】
5.5.X.3.4LP部分及びHP部分の計算
入力信号sを、サイズNのブロック(半分重複している)に分割して、入力ブロック
【数32】
を生成する。ここで、kはブロックインデックスであり、iはブロックk内のサンプル位置である。ウィンドウw[i]は、ib[k]に、詳細には正弦ウィンドウ(と規定される)に適用する。
【数33】
またFFTを適用した後にも、複素係数c[k][f]を、以下のように得る。
【数34】
【0219】
符号器サイドにおいて、LP部分を取得するために、c[k]の要素毎の乗算を、処理形状ps[f]を用いて適用する。処理形状は以下からなる。
【数35】
lp_size=lastFFTLine[sig]+1−transitionWidthLines[sig]パラメータは、ローパス領域のFFTラインにおける幅を表し、tr_size=transitionWidthLines[sig]パラメータは、遷移領域のFFTラインにおける幅を表す。
【0220】
復号器サイドにおいて、遷移領域において完全な再構成を得るために、遷移領域における適応的再構成形状rs[f]を、符号器サイドで用いる処理形状ps[f]の代わりに用いなければならず、これは処理形状ps[f]及びg[k]に以下のように依存する。
【数36】
【0221】
LPブロックipb[k]を、以下のようにIFFTとウィンドウ処理とを再び適用することによって得る。
【数37】
HPブロックhpb[k]を次に、時間ドメインにおける単純な減算によって得る。
【数38】
【0222】
5.5.X.3.5補間補正の計算
ゲインg[k−1]及びg[k]は、符号器サイド上で、位置k−1及びk上のブロックに適用されるが、ウィンドウ処理及び重複加算操作によって暗黙的に補間される。遷移領域の上方のHP部分において完全な再構成を実現するために、以下のように補間補正係数が必要である。
【数39】
【0223】
5.5.X.3.6補償されたゲインの計算
コア符号器及び復号器によって過渡事象の更なる減衰が導入される。この減衰は、ゲインg[k]を、以前に計算したベータ因子を用いて調整することによって、以下のように補償される。
【数40】
【0224】
5.5.X.3.7出力信号の計算
gc[k]及びcorr[i]に基づいて、出力ブロックob[k]の値を、以下のように計算する。
【数41】
【0225】
最後に、出力信号を出力ブロックを用いて重複加算を用いて以下のように計算する。
【数42】
【0226】
5.5.X.4符号器説明(参考情報)
図9c:符号化サイドでの高分解能エンベロープ処理(HREP)ツールのブロック図
5.5.X.4.1ゲイン及びベータ因子の計算
前処理サイドにおいて、ブロックkのHP部分(過渡事象を含むと仮定する)を、スカラゲインg[k]を用いて調整して、その近辺におけるバックグラウンドにより類似させる。ブロックkのHP部分のエネルギーをhp_e[k]によって示し、ブロックkの近辺のHPバックグラウンドの平均エネルギーをhp_bg_e[k]によって示す。
パラメータα∈[0,1](調整量を制御する)を以下のように規定する。
【数43】
g
float[k]の値を量子化して、extendedGainRange構成選択肢の選択値によって許容される範囲に対してクリップして、ゲインインデックスgainldx[k][sig]を以下のように生成する。
【数44】
処理のために用いる値g[k]が量子化値であり、復号器サイドにおいて以下のように規定される。
【数45】
【0227】
αが0のときは、ゲインは値g
float[k]=1を有しており、したがって調整は行わず、αが1のときは、ゲインは値
【数46】
を有しており、したがってバックグラウンドの平均エネルギーと一致するように、調整されたエネルギーを形成する。前述の関係を以下のように書き換えることができる。
【数47】
これが表しているのは、バックグラウンドhp_bg_e[k]の対応する平均エネルギーの周りでの調整されたエネルギーg
float[k]×hp_e[k]の変動が、係数(1−α)によって低減されるということである。提案するシステムでは、α=0.75を用いているため、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのHPエネルギーの変動は、当初の25%まで低減される。
【0228】
コア符号器及び復号器によって、過渡事象の更なる減衰が導入される。この減衰は、追加の減衰ステップを導入することによって、パラメータβ∈[0,1]を用いて、コア符号器構成とフレームの信号特徴とに応じて、以下のようにほぼモデリングされる。
【数48】
これが表しているのは、コア符号器及び復号器を通過した後に、バックグラウンドhp_bg_e[k]の対応する平均エネルギーの周りでの復号化エネルギーgc
float[k]×hp_e[k]の変動が、更なる係数(1−β)によって更に低減されることである。
【0229】
g[k]、α及びβを用いて、gc[k]の推定値を復号器サイドにおいて、以下のように計算することができる。
【数49】
パラメータ
【数50】
を、betaFactorId[sig]に対して量子化して、各フレームに対するサイド情報として伝達する。補償されたゲインgc[k]を、ベータ因子を用いて以下のように計算することができる。
【数51】
【0230】
5.5.X.4.2LP部分及びHP部分の計算
処理は、以前に規定した復号器サイドにおける対応するものと同一であるが、但し、処理形状ps[f]を、適応的再構成形状rs[f]の代わりに、LPブロックlpb[k]の計算において用いる。LPブロックを、以下のように、IFFTとウィンドウ処理とを再び適用することによって得る。
【数52】
【0231】
5.5.X.4.3出力信号の計算
g[k]に基づいて、出力ブロックob[k]の値を以下のように計算する。
【数53】
復号器サイドと同じで、出力信号を出力ブロックを用いて重複加算を用いて以下のように計算する。
【数54】
【0232】
5.5.X.4.4算術符号化を用いたゲインの符号化
ヘルパー関数HREP_encode_ac_data(gain_count、si
gnal_count)は、以下のUSAC低レベル算術符号化関数を用いて配列gai
nIdxからのゲイン値の書き込みを記述する。
arith_encode(*ari_state,symbol,cum_freq),
arith_encoder_open(*ari_state),
arith_encoder_flush(*ari_state).
2つの更なるヘルパー関数を導入する。
ari_encode_bit_with_prob(*ari_state,bit_value,count_0,count_total),
これは、1ビットbit_valueを、p0=count_0/total_count及びp1=1-p0及び
ari_encode_bit(*ari_state,bit_value)を用いて符号化する。
これは、1ヒ_ットbit_valueを、モデリングを用いずに、p0=0.5及びp1=0.5を用いて符号
化する。
ari_encode_bit_with_prob(*ari_state,bit_value,count_0,count_total)
[
prob_scale=1<<14;
tbl[0]=prob_scale-(count_0*prob_scale)/count_total;
tbl[1]=0;
arith_encode(ari_state,bit_value,tbl);
]
ari_encode_bit(*ari_state,bit_value)
[
prob_scale=1<<14;
tbl[0]=prob_scale>>1;
tbl[1]=0;
ari_encode(ari_state,bit_value,tbl);
]
HREP_encode_ac_data(gain_count,signal_count)
[
cnt_mask[2]=[1,1];
cnt_sign[2]=[1,1];
cnt_neg[2]=[1,1];
cnt_pos[2]=[1,1];
arith_encoder_open(&ari_state);
for(pos=0;pos<gain_count;pos++)[
for(sig=0;sig<signal_count;sig++)[
if(!isHREPActive[sig])[
continue;
]
sym=gainIdx[pos][sig]-GAIN_INDEX_0dB;
if(extendedGainRange)[
sym_ori=sym;
sym=max(min(sym_ori,GAIN_INDEX_0dB/2-1),-GAIN_INDEX_0dB/2);
]
mask_bit=(sym!=0);
arith_encode_bit_with_prob(ari_state,mask_bit,cnt_mask[0],cnt_mask[0
]+cnt_mask[1]);
cnt_mask[mask_bit]++;
if(mask_bit)[
sign_bit=(sym<0);
arith_encode_bit_with_prob(ari_state,sign_bit,cnt_sign[0],cnt_si
gn[0]+cnt_sign[1]);
cnt_sign[sign_bit]+=2;
if(sign_bit)[
large_bit=(sym<-2);
arith_encode_bit_with_prob(ari_state,large_bit,cnt_neg[0],cn
t_neg[0]+cnt_neg[1]);
cnt_neg[large_bit]+=2;
last_bit=sym&1;
arith_encode_bit(ari_state,last_bit);
]else[
large_bit=(sym>2);
arith_encode_bit_with_prob(ari_state,large_bit,cnt_pos[0],cn
t_pos[0]+cnt_pos[1]);
cnt_pos[large_bit]+=2;
if(large_bit==0)[
last_bit=sym&1;
ari_encode_bit(ari_state,last_bit);
]
]
]
if(extendedGainRange)[
prob_scale=1<<14;
esc_cnt=prob_scale/5;
tbl_esc[5]=[prob_scale-esc_cnt,prob_scale-2*esc_cnt,prob_scale-3
*esc_cnt,prob_scale-4*esc_cnt,0];
if(sym_ori<=-4)[
esc=-4-sym_ori;
arith_encode(ari_state,esc,tbl_esc);
]else if(sym_ori>=3)[
esc=sym_ori-3;
arith_encode(ari_state,esc,tbl_esc);
]
]
]
arith_encode_flush(ari_state);
]
【0233】
一実施形態として、本発明のオーディオポストプロセッサは、
時変高周波ゲイン情報(104)をサイド情報(106)として有するオーディオ信号(102)を後処理するためのオーディオポストプロセッサ(100)であって、
前記オーディオ信号(102)の高周波帯域(112)と前記オーディオ信号(102)の低周波帯域(114)とを抽出するための帯域抽出部(110)と、
前記時変高周波ゲイン情報(104)に従って前記高周波帯域(112)の時変増幅を行って処理済高周波帯域(122)を取得するための高帯域プロセッサ(120)と、
前記処理済高周波帯域(122)と前記低周波帯域(114)とを結合するための結合器(130)と、
を含むオーディオポストプロセッサ(100)である。
【0234】
前記帯域抽出部(110)は、ローパスフィルタ装置(111)を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する(113)ことによって前記高周波帯域を抽出するように構成されている。
【0235】
前記時変高周波ゲイン情報(104)は、前記オーディオ信号(102)のサンプリング値のブロックのシーケンス(300〜303)に対して設けられていて、サンプリング値の第1のブロック(301)に第1のゲイン情報(311)が付随し、前記オーディオ信号のサンプリング値の第2の後ブロック(302)が異なる第2のゲイン情報(312)を有するようになっており、前記帯域抽出部(110)は、前記サンプリング値の第1のブロック(301)から第1の低周波帯域と第1の高周波帯域とを抽出し、前記サンプリング値の第2のブロック(302)から第2の低周波帯域と第2の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ(120)は、前記第1のゲイン情報(311)を用いて前記第1の高周波帯域を変更して第1の処理済高周波帯域を取得し、前記第2のゲイン情報(312)を用いて前記第2の高周波帯域を変更して第2の処理済高周波帯域を取得するように構成され、
前記結合器(130)は、前記第1の低周波帯域と前記第1の処理済高周波帯域とを結合して第1の結合ブロックを取得し、前記第2の低周波帯域と前記第2の処理済高周波帯域とを結合して第2の結合ブロックを取得するように構成されている。
【0236】
前記帯域抽出部(110)と前記高帯域プロセッサ(120)と前記結合器(130)とは、重複ブロック内で動作するように構成され、
前記オーディオポストプロセッサ(100)は更に、ブロック重複範囲内の第1のブロック(301)のオーディオサンプルと第2のブロック(302)のオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器(140)を含む。
【0237】
前記帯域抽出部(110)は、
分析ウィンドウを用いて前記オーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部(115)であって、前記ブロックは時間重複している、分析ウィンドウ処理部(115)と、
スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ(116)と、
スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するためのローパス整形器(117)と、
ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ(118)と、
合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックの前記シーケンスをウィンドウ処理するための合成ウィンドウ処理部(119)と、
を含む。
【0238】
前記帯域抽出部(110)は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号(102)をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部(121)であって、前記オーディオ信号ウィンドウ処理部(121)は前記ウィンドウ処理部(115、119)と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部(121)を含む。
【0239】
前記帯域抽出部(110)は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算(113)を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている。
【0240】
前記高帯域プロセッサ(120)は、前記変更を、ハイパス時間ドメインサンプリング値のブロックの前記シーケンスの各ブロックの各サンプルに適用するように構成され、ブロックのサンプルに対する変更は、前ブロックのゲイン情報と現在のブロックのゲイン情報か又は現在のブロックのゲイン情報と次のブロックのゲイン情報とに依存する。
【0241】
前記オーディオ信号は更なる制御パラメータ(500)を更なるサイド情報として含み、前記高帯域プロセッサ(120)は、前記変更を前記更なる制御パラメータ(500)も考慮して適用するように構成され、前記更なる制御パラメータ(500)の時間分解能は前記時変高周波ゲイン情報の時間分解能よりも低いか、又は前記更なる制御パラメータは特定のオーディオ素片に対して固定されている。
【0242】
前記結合器(130)は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の増幅されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている。
【0243】
更に、ブロック重複範囲(321)内の結合信号値の前記シーケンスの第1のブロック(301)のオーディオサンプルと前記第1のブロックに隣接する隣の第2のブロック(302)のオーディオサンプルとを加算することによって、後処理済オーディオ信号部分を計算するための重複加算(140)プロセッサを含む。
【0244】
前記帯域抽出部(110)、前記高帯域プロセッサ(120)、及び前記結合器(130)は重複ブロック内で動作して、重複範囲(321)はブロック長の40%〜ブロック長の60%であるか、又はブロック長は0.8ミリ秒〜5ミリ秒であるか、又は前記高帯域プロセッサ(120)によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数であるか、又は前記低周波帯域のカットオフ又はコーナー周波数は、前記オーディオ信号の最大周波数の1/8〜1/3であり、好ましくは前記オーディオ信号の前記最大周波数の1/6に等しい。
【0245】
前記ローパス整形器(117)は、対応するブロックに対する前記時変高周波ゲイン情報(104)に応じて整形関数を適用するように構成されている。
【0246】
前記整形関数は更に、対応するブロックに対する前記時変高周波ゲイン情報を用いて前記オーディオ信号の高周波帯域を変更するか又は減衰させるためにオーディオプレプロセッサ(200)内で用いられる整形関数に依存する。
【0247】
ブロックのサンプルに対する前記変更は更に、前記分析ウィンドウ関数又は前記合成ウィンドウ関数によって規定されるあるサンプルに対して適用されるウィンドウ処理係数に依存する。
【0248】
前記帯域抽出部(110)、前記高帯域プロセッサ(120)、及び前記結合器(130)は、前記オーディオ信号から重複ブロックとして得られるブロック(300〜303)のシーケンスを処理して、前ブロックの後部分が、前記前ブロックに時間的に隣接している後ブロックの前部分と同じオーディオ信号オーディオサンプルから得られるように構成されている。
【0249】
前記重複ブロックの重複範囲(321)は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記ポストプロセッサは更に、前記重複加算演算を行うための重複加算器(140)を含む。
【0250】
前記帯域抽出部(110)は、分割フィルタ(111)の勾配であって前記分割フィルタのストップ範囲とパス範囲との間の勾配を、オーディオサンプルのブロックに適用するように構成され、前記勾配はサンプルの前記ブロックに対する前記時変高周波ゲイン情報に依存する。
【0251】
前記高周波ゲイン情報はゲイン値を含み、前記勾配は、より低いゲイン値に対する前記勾配の増加と比べて、より高いゲイン値に対してより強く増加される。
【0252】
前記分割フィルタ(111)の前記勾配は、以下の方程式:
【数55】
に基づいて規定され、式中、rs[f]は前記分割フィルタ(111)の前記勾配であり、ps[f]は前記オーディオ信号を生成するときに用いられる分割フィルタの勾配であり、g[k]は前記時変高周波ゲイン情報から得られるゲイン係数であり、fは周波数インデックスであり、kはブロックインデックスである。
【0253】
前記高周波ゲイン情報は、隣接するブロックに対するゲイン値を含み、前記高帯域プロセッサ(120)は、前記隣接するブロックに対する前記ゲイン値に応じて、及び対応するサンプルに対するウィンドウ係数に応じて、各サンプルに対する補正係数を計算するように構成されている。
【0254】
前記高帯域プロセッサ(120)は以下の方程式:
【数56】
に基づいて動作するように構成され、式中、corr[j]はインデックスjを伴うサンプルに対する補正係数であり、g[k−1]は先行するブロックに対するゲイン係数であり、g[k]は現在のブロックに対するゲイン係数であり、w[j]はサンプルインデックスjを伴うサンプルに対するウィンドウ関数係数であり、Nはブロックのサンプルにおける長さであり、g[k+1]は前記後ブロックに対するゲイン係数であり、kは前記ブロックインデックスであり、前記方程式からの上方の方程式は出力ブロックkの前半に対するものであり、前記方程式の下方の方程式は前記出力ブロックkの後半に対するものである。
【0255】
前記高帯域プロセッサ(120)は、前記オーディオポストプロセッサ(100)による処理の前に行われる処理によって前記オーディオ信号内に導入される過渡事象の減衰を更に補償するように構成されている。
【0256】
前記高帯域プロセッサは、以下の方程式:
【数57】
に基づいて動作するように構成され、式中、gc[k]はブロックインデックスkを伴うブロックに対する補償されたゲインであり、g[k]は、前記サイド情報として含まれる前記時変高周波ゲイン情報によって示される非補償ゲインであり、ベータ因子(500)は、前記サイド情報(106)内に含まれる更なる制御パラメータ値である。
【0257】
前記高帯域プロセッサ(120)は、前記処理済高帯域を以下の方程式:
【数58】
に基づいて計算するように構成され、式中、phpb[k][i]はブロックk及びサンプル値iに対する処理済高帯域を示し、gc[k]は補償されたゲインであり、corr[i]は補正係数であり、kはブロックインデックスであり、iはサンプリング値インデックスであり、hpb[k][i]はブロック及びサンプリング値iに対する高帯域であり、Nはブロックのサンプルにおける長さである。
【0258】
前記結合器(130)は前記結合ブロックを、
ob[k][i]=lpb[k][i]+phpb[k][i]
として計算するように構成され、式中、lpb[k][i]はブロックk及びサンプルインデックスiに対する低周波帯域である。
【0259】
更に、以下の方程式:
【数59】
に基づいて動作する重複加算器(140)を含み、式中、o[]は、k及びjから得られるサンプルインデックスに対する後処理済オーディオ出力信号のサンプルの値であり、kはブロック値であり、Nはブロックのサンプルにおける長さであり、jはブロック内のサンプリングインデックスであり、ob[]は、前記前ブロックインデックスk−1、現在のブロックインデックスk、又は後ブロックインデックスk+1に対する結合ブロックを示す。
【0260】
前記時変高周波ゲイン情報はゲインインデックス(600)及びゲイン拡張範囲情報(602)のシーケンスを含んでいるか、又は前記サイド情報はゲイン補償情報(603)及びゲイン補償精度情報(604)を更に含み、
前記オーディオポストプロセッサは、
前記ゲイン精度情報(602)に応じて前記ゲインインデックス(601)を復号して、第1の精度情報に対する第1の数の異なる値の復元済ゲイン(621)又は第2の精度情報に対する第2の数の異なる値の復元済ゲイン(621)を取得するための復号器(620)であって、前記第2の数は前記第1の数よりも大きい、復号器(620)、又は、
前記補償精度(604)情報に応じて前記ゲイン補償インデックス(603)を復号して、第1の補償精度情報に対する第1の数の異なる値の復元済ゲイン補償値(622)又は第2の異なる補償精度情報に対する第2の数の異なる値の復元済ゲイン補償値(622)を取得するための復号器(620)であって、前記第1の数は前記第2の数よりも大きい、復号器(620)を含む。
【0261】
前記復号器(620)は、ブロックに対するゲイン係数(621)を計算するように構成され:
【数60】
式中、g[k]は、ブロックインデックスkを伴うブロック(301)に対するゲイン係数(621)であり、gainIdx[k][sig]は前記時変高周波ゲイン情報(104)として前記サイド情報に含まれる量子化値であり、GAIN_INDEX_0dBは、前記ゲイン精度情報が第1のステータスを有するときに第1の値を伴い、前記ゲイン精度情報が第2のステータスを有するときに第2の異なる値を伴う0dBに対応するゲインインデックスオフセットである。
【0262】
前記帯域抽出部(110)は、Nサンプリング値のブロック長によってブロック毎の離散フーリエ変換(116)を実行して、N/2複素スペクトル値の数よりも小さいスペクトル値の数を、スパース離散フーリエ変換アルゴリズムであって、最大周波数を上回るスペクトル値に対する分岐の計算が省略されるスパース離散フーリエ変換アルゴリズムを行うことによって取得するように構成され、
前記帯域抽出部(110)は、前記低周波帯域信号の計算を、遷移開始周波数範囲までのスペクトル値を用いることによって、及び前記遷移開始周波数範囲内のスペクトル値を重み付けする(117a、117b)ことによって行うように構成され、前記遷移開始周波数範囲は前記最大周波数又は前記最大周波数よりも小さい周波数までのみ及んでいる。
【0263】
前記高周波帯域の前記時変増幅に対するサイド情報(106)が利用可能である最大数のチャンネル又はオブジェクトに対する後処理のみを実行して、前記高周波帯域の前記時変増幅に対する何らのサイド情報も利用できないチャンネル又はオブジェクトの数に対しては何らの後処理も実行しないように構成されているか、又は、
前記帯域抽出部(110)は、前記高周波帯域の前記時変増幅に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている。
【0264】
本発明の一実施形態に係るオーディオプレプロセッサは、オーディオ信号(202)を前処理するためのオーディオプレプロセッサ(200)であって、
前記オーディオ信号(202)を分析して時変高周波ゲイン情報(204)を決定するための信号分析器(260)と、
前記オーディオ信号(202)の高周波帯域(212)と前記オーディオ信号の低周波帯域(214)とを抽出するための帯域抽出部(210)と、
前記時変高周波ゲイン情報に従って前記高周波帯域(212)の時変変更を行って処理済高周波帯域(222)を取得するための高帯域プロセッサ(220)と、前記処理済高周波帯域(222)と前記低周波帯域(214)とを結合して前処理済オーディオ信号(232)を取得するための結合器(230)と、
前記前処理済オーディオ信号(232)と前記時変高周波ゲイン情報(204)とをサイド情報(206)として含む出力信号(252)を生成するための出力インターフェース(250)と、を含む。
【0265】
前記信号分析器(260)は、前記オーディオ信号を分析して、前記オーディオ信号の第1の時間ブロック(301)内の第1の特徴と前記オーディオ信号の第2の時間ブロック(302)内の第2の特徴とを決定する(801、802)ように構成され、前記第2の特徴は、前記第1の特徴よりも過渡的であるか、又は前記第1の特徴よりも大きい高周波エネルギーレベルであり、
前記信号分析器(260)は、前記第1の特徴に対する第1のゲイン情報(311)と前記第2の特徴に対する第2のゲイン情報(312)とを決定する(803)ように構成され、
前記高帯域プロセッサ(220)は、乗算係数(804)を、前記第2のゲイン情報に従って前記第2の時間ブロック(302)の高帯域部分に適用することを、前記第1のゲイン情報に従って前記第1の時間ブロック(301)の高帯域部分に適用する場合よりも強く行うように構成されている。
【0266】
前記信号分析器(260)は、前記現在時刻ブロックの前に配置されているか若しくは前記現在時刻ブロックの後に配置されているか若しくは前記現在時刻ブロックの前後に配置されているか、又は前記現在時刻ブロックを含むか若しくは前記現在時刻ブロックを除外する時間的に隣接する1つ以上の時間ブロックに対して、前記高帯域のバックグラウンドエネルギーに対するバックグラウンド尺度を計算し(805)、
現在のブロックの高帯域に対するエネルギー尺度を計算し(808)、
前記バックグラウンド尺度と前記エネルギー尺度とを用いてゲイン係数を計算する(809)ように構成されている。
【0267】
前記信号分析器(260)は、前記ゲイン係数を以下の方程式:
【数61】
に基づいて計算するように構成され、式中、g
floatは非量子化ゲイン係数であり、kはブロックインデックスであり、αは変動影響係数でり、hp_bg_e[k]はブロックkに対する高周波バックグラウンドエネルギーであり、hp_e[k]は高周波ブロックのエネルギーであり、T_quietは静穏な閾値であり、前記係数α及び前記静穏な閾値は予め決められているか又は更なる制御パラメータによって制御可能である。
【0268】
前記信号分析器(260)と前記高帯域プロセッサ(220)とは、前記時変高周波ゲイン情報を計算し、前記時変高周波ゲイン情報を適用して、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのエネルギーの変動が少なくとも50%、好ましくは75%だけ低減されるように構成されている。
【0269】
前記信号分析器(260)は、ゲイン情報値の未処理シーケンスを量子化及びクリップして(812)、前記時変高周波ゲイン情報を量子化値のシーケンスとして取得するように構成され、
前記高帯域プロセッサ(220)は、前記量子化値のシーケンスに従って前記高帯域の前記時変変更を実行する(813)ように構成され、
前記出力インターフェース(250)は、前記量子化値のシーケンスを前記サイド情報(206)内に前記時変高周波ゲイン情報(204)として導入する(814)ように構成されている。
【0270】
前記オーディオプレプロセッサ(200)は、
その後に接続される符号器又は復号器によって導入されるエネルギー変動の損失を記述する更なるゲイン補償値を決定し(815)、
前記更なるゲイン補償情報を量子化する(816)ように構成され、
前記出力インターフェース(250)は、前記量子化された更なるゲイン補償情報を前記サイド情報内に導入する(817)ように構成されている。
【0271】
前記信号分析器(260)は、前記計算された時変高周波ゲイン情報の前記更なる変更を制御するメタゲイン制御(806)を適用して、前記オーディオ信号から更に得られる更なる制御データ(807)に従って前記オーディオ信号に対する前記高帯域プロセッサ(220)の効果を徐々に減らすか又は徐々に高めるように構成されているか、又は、
前記信号分析器(260)は、以下の方程式に基づいて前記ゲイン情報を計算するときに係数アルファに影響を与えるように構成され、アルファを増加させると影響が大きくなり、アルファを減少させると影響が小さくなり、
【数62】
式中、g
floatは非量子化ゲイン係数であり、kはブロックインデックスであり、hp_bg_e[k]は前記ブロックkに対する高周波バックグラウンドエネルギーであり、hp_e[k]は高周波ブロックのエネルギーであり、T_quietは静穏な閾値であり、前記係数α及び前記静穏な閾値は予め決められているか又は更なる制御パラメータによって制御可能である。
【0272】
前記帯域抽出部(210)は、ローパスフィルタ装置(111)を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する(113)ことによって前記高周波帯域を抽出するように構成されている。
【0273】
前記時変高周波ゲイン情報(204)は、前記オーディオ信号のサンプリング値のブロックのシーケンス(300〜303)に対して設けられていて、サンプリング値の第1のブロック(301)に第1のゲイン情報(311)が付随し、前記オーディオ信号のサンプル値の第2の後ブロック(302)が異なる第2のゲイン情報(312)を有するようになっており、前記帯域抽出部は、サンプリング値の前記第1のブロックから第1の低周波帯域と第1の高周波帯域とを抽出し、サンプリング値の前記第2のブロックから第2の低周波帯域と第2の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ(220)は、前記第1のゲイン情報(311)を用いて前記第1の高周波帯域を変更して第1の処理済高周波帯域を取得し、前記第2のゲイン情報(312)を用いて前記第2の高周波帯域を変更して第2の処理済高周波帯域を取得するように構成され、
前記結合器(230)は、前記第1の低周波帯域と前記第1の処理済高周波帯域とを結合して第1の結合ブロックを取得し、前記第2の低周波帯域と前記第2の処理済高周波帯域とを結合して第2の結合ブロックを取得するように構成されている。
【0274】
前記帯域抽出部(210)と前記高帯域プロセッサ(220)と前記結合器(230)とは、重複ブロック内で動作するように構成され、
前記結合器(230)は更に、ブロック重複範囲(321)内の第1のブロックのオーディオサンプルと第2のブロックのオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器を含むか、又は、
前記帯域抽出部(210)、前記高帯域プロセッサ(220)、及び前記結合器(230)は重複ブロック内で動作して、重複範囲(321)はブロック長の40%〜ブロック長の60%であるか、又は、
ブロック長は0.8ミリ秒〜5ミリ秒であるか、又は、
前記高帯域プロセッサ(220)によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される減衰であるか、又は、
前記低周波帯域のカットオフ又はコーナー周波数は、前記オーディオ信号(202)の最大周波数の1/8〜1/3であり、好ましくは前記オーディオ信号の前記最大周波数の1/6に等しい。
【0275】
前記帯域抽出部(210)は、
分析ウィンドウを用いて前記オーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部(215)であって、前記ブロックは時間重複している、分析ウィンドウ処理部(215)と、
スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ(216)と、
スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するためのローパス整形器(217a、217b)と、
ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ(218)と、
合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックの前記シーケンスをウィンドウ処理するための合成ウィンドウ処理部(219)と、を含む。
【0276】
前記ローパス整形器(217a、217b)は以下の方程式:
【数63】
に基づいて動作するように構成され、式中、ps[f]は、周波数値fに対して前記ローパス整形器によって適用されるべき整形の整形係数を示し、fは周波数値であり、tr_sizeは遷移領域のスペクトル線における幅を決定する値であり、lp_sizeは、前記遷移領域がないローパス部分のサイズを示し、Nはブロックに対するサンプリング値の数を示す。
【0277】
前記ブロック抽出部は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部(221)であって、前記オーディオ信号ウィンドウ処理部は、前記ウィンドウ処理部(215、219)と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部(221)を含む。
【0278】
前記帯域抽出部(210)は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算(113)を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている。
【0279】
前記分析器(260)は更に、メタゲイン制御(806)によって計算される制御パラメータ(807)をもたらし、前記高帯域プロセッサ(220)は前記変更を前記制御パラメータも考慮して適用するように構成されている。
【0280】
前記結合器(230)は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の変更されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている。
【0281】
更に、ブロック重複範囲内の結合信号値の前記シーケンスの第1のブロックのオーディオサンプルと前記第1のブロックに隣接する隣の第2のブロックのオーディオサンプルとを加算することによって、前処理済オーディオ信号部分を計算するための重複加算プロセッサを含む。
【0282】
前記帯域抽出部(211)、前記高帯域プロセッサ(720)、及び前記結合器(230)は、
重複ブロック内で動作して、重複範囲はブロック長の40%〜ブロック長の60%であるか、又は、
ブロック長は0.8ミリ秒〜5ミリ秒であるか、又は、
前記高帯域プロセッサ(220)によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数である。
【0283】
前記重複ブロックの重複範囲(321)は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記結合器は前記重複加算演算を行うための重複加算器を含む。
【0284】
最大数のチャンネル又はオブジェクトに対する前処理のみを実行して前記最大数のチャンネル又はオブジェクトに対する前記サイド情報(206)を生成し、前記サイド情報(206)が生成されないチャンネル又はオブジェクトの数に対しては何らの前処理も実行しないように構成されているか、又は、
前記帯域抽出部(210)は、前記信号分析器(260)によって決定された前記時変高周波ゲイン情報(204)に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている。
【0285】
本発明の一実施形態に係るオーディオ符号化装置は、オーディオ信号を符号化するためのオーディオ符号化装置であって、
上記のオーディオプレプロセッサであって、前記時変高周波ゲイン情報をサイド情報として有する出力信号(252)を生成するように構成されたオーディオプレプロセッサと、
コア符号化信号(902)とコアサイド情報(904)とを生成するためのコア符号器(900)と、
前記コア符号化信号(902)、前記コアサイド情報(904)、及び前記時変高周波ゲイン情報を更なるサイド情報(106)として含む符号化信号(912)を生成するための出力インターフェース(910)と、を含む。
【0286】
前記オーディオ信号は多チャンネル又は多オブジェクト信号であり、前記オーディオプレプロセッサ(200)は各チャンネル又は各オブジェクトを別個に前処理するように構成され、前記コア符号器(900)は、前記前処理済チャンネル(232)に対して、結合多チャンネル符号器処理又は結合多オブジェクト符号器処理又は符号器帯域ギャップ充填又は符号器帯域幅拡張処理を適用するように構成されている。
【0287】
本発明の一実施形態に係るオーディオ復号装置は、
コア符号化信号(902)、コアサイド情報(904)、及び前記時変高周波ゲイン情報(104)を更なるサイド情報として含む符号化オーディオ信号(912)を受け取るための入力インターフェース(920)と、
前記コアサイド情報(904)を用いて前記コア符号化信号(902)を復号して復号化コア信号を取得するためのコア復号器(930)と、
上記の時変高周波ゲイン情報(104)を用いて前記復号化コア信号(102)を後処理するためのポストプロセッサ(100)と、を含む。
【0288】
前記コア復号器(930)は、
多チャンネル信号(102)の復号化チャンネル又は多オブジェクト信号(102)の復号化オブジェクトを生成するために、多チャンネル復号器処理又は多オブジェクト復号器処理又は帯域幅拡張復号器処理又はギャップ充填復号器処理を適用するように構成されており、
前記ポストプロセッサ(100)は、各チャンネル又は各オブジェクトに対する前記個々の時変高周波ゲイン情報を用いて、各チャンネル又は各オブジェクトに対して別個に前記後処理を適用するように構成されている。
【0289】
本発明の一実施形態に係る方法は、時変高周波ゲイン情報(104)をサイド情報(106)として有するオーディオ信号(102)を後処理する(100)方法であって、
前記オーディオ信号の高周波帯域(112)と前記オーディオ信号の低周波帯域(114)とを抽出する(110)ことと、
前記時変高周波ゲイン情報(104)に従って前記高帯域の時変変更を行って(120)処理済高周波帯域(122)を取得することと、
前記処理済高周波帯域(122)と前記低周波帯域(114)とを結合する(130)ことと、を含む。
【0290】
本発明の一実施形態に係る方法は、オーディオ信号(202)を前処理する(200)方法であって、
前記オーディオ信号(202)を分析して(260)時変高周波ゲイン情報(204)を決定することと、
前記オーディオ信号の高周波帯域(212)と前記オーディオ信号の低周波帯域(214)とを抽出する(210)ことと、
前記時変高周波ゲイン情報に従って前記高周波帯域の時変変更を行って(220)処理済高周波帯域を取得することと、
前記処理済高周波帯域(222)と前記低周波帯域(214)とを結合して(230)前処理済オーディオ信号を取得することと、
前記前処理済オーディオ信号(232)と前記時変高周波ゲイン情報(204)とをサイド情報(106)として含む出力信号(252)を生成する(250)ことと、を含む。
【0291】
本発明の一実施形態に係るオーディオ信号を符号化する方法は、
前記時変高周波ゲイン情報(204)をサイド情報(106)として有する出力信号を生成するように構成された上記のオーディオ信号を前処理する(200)方法と、
コア符号化信号(902)とコアサイド情報(904)とを生成することと、
前記コア符号化信号(902)、前記コアサイド情報(904)、及び前記時変高周波ゲイン情報(204)を更なるサイド情報(106)として含む符号化信号(912)を生成する(910)ことと、を含む。
【0292】
本発明の一実施形態に係るオーディオ復号する方法は、
コア符号化信号(902)、コアサイド情報(904)、及び前記時変高周波ゲイン情報(204)を更なるサイド情報(106)として含む符号化オーディオ信号(912)を受け取る(920)ことと、
前記コアサイド情報(904)を用いて前記コア符号化信号(902)を復号して(930)復号化コア信号(102)を取得することと、
上記の方法によって前記時変高周波ゲイン情報(104)を用いて前記復号化コア信号(102)を後処理(100)することと、を含む。
【0293】
また、本発明の一実施形態は、コンピュータ又はプロセッサ上で実行されたときに、上述した方法の少なくとも1つ以上を行うためのコンピュータプログラムを含んでいる。