(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-13
(45)【発行日】2024-06-21
(54)【発明の名称】低域ポストフィルタの低コストな適応化
(51)【国際特許分類】
G10L 19/26 20130101AFI20240614BHJP
【FI】
G10L19/26 B
(21)【出願番号】P 2022554398
(86)(22)【出願日】2021-04-23
(86)【国際出願番号】 EP2021060643
(87)【国際公開番号】W WO2021214280
(87)【国際公開日】2021-10-28
【審査請求日】2022-10-25
(32)【優先日】2020-04-24
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】モラディ アシュア, チャムラーン
(72)【発明者】
【氏名】ノーベル, エリック
【審査官】中村 天真
(56)【参考文献】
【文献】特表2013-533983(JP,A)
【文献】特表2010-520503(JP,A)
【文献】特表2002-517022(JP,A)
【文献】特開平10-083200(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
符号化された一次信号を復号化して復号化一次信号を形成し、その後、前記復号化一次信号をポストフィルタリングしてポストフィルタリングされた信号を形成し、前記復号化一次信号および前記ポストフィルタリングされた信号のうちの1つをデコーダの出力信号とする、オーディオ復号化のための方法であって、
前記デコーダによって再構成される前記一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得すること(1101、800)と、
前記復号化一次信号の前記ポストフィルタリングによって生じる、時間ドメインにおける
前記ポストフィルタリングされた信号の不連続性の分析値を取得すること(1103、820)と、
前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成すること(1105、830)と、
前記判定変数をしきい値と比較すること(1107、850)と、
前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定すること(1109)と、
を有する、ことを特徴とする方法。
【請求項2】
前記一次信号の再構成は周波数ドメインにおいて行われる、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記エネルギ推定値を取得することは、前記周波数ドメインにおいて前記少なくとも一部の周波数スペクトルのエネルギ係数を合計することを含む、ことを特徴とする請求項2に記載の方法。
【請求項4】
フレーム番号をm、再構成信号の臨界帯域のエネルギをE
S^cb(m)、再構成信号をS^(m, k)とし、周波数ビン制限値k
startおよびk
endが臨界帯域の周波数範囲に適合するように設定されるとき、
前記エネルギ推定値を取得することは、
【数28】
に従って、再構成信号の臨界帯域のエネルギを測定することを含む、
ことを特徴とする請求項3に記載の方法。
【請求項5】
修正離散コサイン変換(MDCT)合成ウィンドウの形状と、オーバーラップの長さとに依存するローパスフィルタリング係数であるγを、γ∈(0,1]とするとき、
前記再構成信号の前記臨界帯域の前記エネルギE
S^cb(m)に、
【数29】
に従うローパスフィルタを適用することを更に含む、
ことを特徴とする請求項4に記載の方法。
【請求項6】
時間ドメインにおける前記不連続性の分析値を取得することは、前記不連続性のサイズの平均エネルギを測定することを含む、ことを特徴とする請求項1から5のいずれか1項に記載の方法。
【請求項7】
前記判定変数を生成することは、前記判定変数を最大値に制限すること(1201、840)を含む、ことを特徴とする請求項1から6のいずれか1項に記載の方法。
【請求項8】
前記判定変数をローパスフィルタリングすること(1203、840)を更に含む、ことを特徴とする請求項1から7のいずれか1項に記載の方法。
【請求項9】
フレーム
番号をm、
前記ポストフィルタリングされた信号のサブフレーム境界における段差の平均エネルギ
をE~
step(m)、再構成信号の臨界帯域のエネルギE
s^cb(m)をローパスフィルタリングしたものをE~
s^cb(m)、E~
step(m)とE~
s^cb(m)との間のエネルギ比をE~
ratio(m)、ローパスフィルタリング係数であるβを、β∈(0,1]とし、前記エネルギ比の上限をE
ratio,limとするとき、
前記判定変数を生成することは、
【数31】
に従って前記判定変数E~
ratio,LP(m)を生成することを含む、ことを特徴とする請求項8に記載の方法。
【請求項10】
前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定することは、
前記ポストフィルタリングされた信号のサブフレーム境界における段差の平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルのエネルギ推定値との間のエネルギ比がしきい値未満であることに応答して(1301)、前記出力信号を前記ポストフィルタリングされた信号に設定すること(1303)と、
前記サブフレーム境界における前記段差の前記平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルの前記エネルギ推定値との間の前記エネルギ比が前記しきい値以上であることに応答して(1301)、前記出力信号を前記復号化一次信号に設定すること(1305)を含む、ことを特徴とする請求項1から9のいずれか1項に記載の方法。
【請求項11】
前記エネルギ比が指定された期間において前記しきい値レベルを上回ったり下回ったりするときに、前記出力信号が前記一次信号と前記ポストフィルタリングされた信号との間で行き来することを防止するために、前記判定変数を前記しきい値と比較することに対するヒステリシスを提供することを更に有する、ことを特徴とする請求項10に記載の方法。
【請求項12】
前記ポストフィルタリング前後の信号の差を示す差信号に基づいて、前記ポストフィルタリングされた信号のサブフレーム境界における段差を求めることを更に含む、ことを特徴とする請求項9から11のいずれか1項に記載の方法。
【請求項13】
オーディオ復号化のためのデコーダ(100)であって、符号化された一次信号を復号化して復号化一次信号を形成し、その後、前記復号化一次信号をポストフィルタリングしてポストフィルタリングされた信号を形成し、前記復号化一次信号および前記ポストフィルタリングされた信号のうちの1つを前記デコーダの出力信号とする、デコーダであって、処理回路(1001)と、前記処理回路と接続されたメモリ(1003)とを備え、前記メモリは、前記処理回路によって実行されたときに前記デコーダに処理を実行させる命令を含み、前記処理は、
前記デコーダによって再構成される前記一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得すること(1101、800)と、
前記復号化一次信号の前記ポストフィルタリングによって生じる、時間ドメインにおける
前記ポストフィルタリングされた信号の不連続性の分析値を取得すること(1103、820)と、
前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成すること(1105、830)と、
前記判定変数をしきい値と比較すること(1107、850)と、
前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定すること(1109)と、
を含む、ことを特徴とするデコーダ。
【請求項14】
前記一次信号の再構成は周波数ドメインにおいて行われる、ことを特徴とする請求項1
3に記載のデコーダ。
【請求項15】
前記メモリは、前記エネルギ推定値の取得において、前記周波数ドメインにおいて前記少なくとも一部の前記周波数スペクトルのエネルギ係数を合計することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項1
4に記載のデコーダ。
【請求項16】
フレーム番号をm、再構成信号の臨界帯域のエネルギをE
S^cb(m)、再構成信号をS^(m, k)とし、周波数ビン制限値k
startおよびk
endが臨界帯域の周波数範囲に適合するように設定されるとき、
前記メモリは、前記エネルギ推定値の取得において、
【数32】
に従って、再構成信号の臨界帯域のエネルギを測定することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項1
5に記載のデコーダ。
【請求項17】
修正離散コサイン変換(MDCT)合成ウィンドウの形状と、オーバーラップの長さとに依存するローパスフィルタリング係数であるγを、γ∈(0,1]とするとき、
前記メモリは、前記再構成信号の前記臨界帯域の前記エネルギE
S^cb(m)に、
【数33】
に従うローパスフィルタを適用することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項1
6に記載のデコーダ。
【請求項18】
前記メモリは、時間ドメインにおける前記不連続性の分析値の取得において、前記不連続性のサイズの平均エネルギを測定することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項1
3から1
7のいずれか1項に記載のデコーダ。
【請求項19】
前記メモリは、前記判定変数の生成において、前記判定変数を最大値に制限すること(1201、840)を含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項1
3から1
8のいずれか1項に記載のデコーダ。
【請求項20】
前記メモリは、前記判定変数をローパスフィルタリングすること(1203、840)を含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項1
3から1
9のいずれか1項に記載のデコーダ。
【請求項21】
フレーム
番号をm、
前記ポストフィルタリングされた信号のサブフレーム境界における段差の平均エネルギ
をE~
step(m)、再構成信号の臨界帯域のエネルギE
s^cb(m)をローパスフィルタリングしたものをE~
s^cb(m)、E~
step(m)とE~
s^cb(m)との間のエネルギ比をE~
ratio(m)、ローパスフィルタリング係数であるβを、β∈(0,1]とし、前記エネルギ比の上限をE
ratio,limとするとき、
前記メモリは、前記判定変数の生成において、
【数35】
に従って前記判定変数E~
ratio,LP(m)を生成することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項
20に記載のデコーダ。
【請求項22】
前記メモリは、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定することにおいて、
前記ポストフィルタリングされた信号のサブフレーム境界における段差の平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルのエネルギ推定値との間のエネルギ比がしきい値未満であることに応答して(1301)、前記出力信号を前記ポストフィルタリングされた信号に設定すること(1303)と、
前記サブフレーム境界における前記段差の前記平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルの前記エネルギ推定値との間の前記エネルギ比が前記しきい値以上であることに応答して(1301)、前記出力信号を前記復号化一次信号に設定すること(1305)を含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項1
3から2
1のいずれか1項に記載のデコーダ。
【請求項23】
前記メモリは、前記エネルギ比が指定された期間において前記しきい値レベルを上回ったり下回ったりするときに、前記出力信号が前記一次信号と前記ポストフィルタリングされた信号との間で行き来することを防止するために、前記判定変数を前記しきい値と比較することに対するヒステリシスを提供することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項2
2に記載のデコーダ。
【請求項24】
前記メモリは、前記ポストフィルタリング前後の信号の差を示す差信号に基づいて、前記ポストフィルタリングされた信号のサブフレーム境界における段差を求める処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする請求項21から23のいずれか1項に記載のデコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般には通信に関し、より詳細には、モノラル、ステレオ、またはマルチチャネルのオーディオ符号化および復号化のための方法および装置に関する。
【背景技術】
【0002】
電気通信ネットワークにおける容量は継続的に増加しているが、通信チャネルごとに必要な帯域幅を制限することは依然として大きな関心事である。モバイルネットワークにおいて、各呼のためのより伝送帯域幅を小さくすることにより、モバイルデバイスおよび基地局の両方においてより電力消費を低くすることができる。これより、携帯電話事業者に対してエネルギおよびコストが低減される一方、エンドユーザに対してはバッテリの長寿命化および通話時間の増加がもたらされることになる。さらに、ユーザ当たりの消費帯域幅がより少なければ、モバイルネットワークは並列に、より多くのユーザをサービスすることができる。
【0003】
音声符号化の分野では、ACELP(代数符号励起線形予測 (algebraic code-excited linear prediction))アルゴリズムが、低ビットレートで高品質の音を提供する際の主要な技術であった。ACELPモデルは、要約すると、声道をモデル化し、再構成される音声の粗いスペクトル形状を提供する線形予測(LP)フィルタから構成される。LPフィルタは、2つのコードブック、すなわち、音声の周期的成分をモデル化するピッチコードブック(または適応コードブック)と、非周期的音声セグメントを生成し、ピッチコードブックも構築する励起コードブック(または固定コードブック)とによって駆動される。ACELPアルゴリズムのコアアルゴリズムは、ポストフィルタなどの後処理ツールを含めて、さらに改善されている。2つの主なそのようなフィルタは、フォルマントポストフィルタおよびピッチポストフィルタであり、両者ともACELPスピーチモデルの一部であるパラメータを利用する。フォルマントポストフィルタは、線形予測(LP)フィルタを使用して粗いスペクトル形状を強調し、ピッチポストフィルタは、ピッチ周期を強調することによって高調波間歪みを低減する。低周波数範囲をターゲットとするピッチポストフィルタの変形が、低域ポストフィルタ(bass post-filter: BPF)である。このツールは、3GPP TS 26.445 V16.0.0、Codec for Enhanced Voice Services(EVS); Detailed Algorithmic Description、6.1.4.2 Bass post-filter[1]に示されているように、ITU-T G.718および3GPP EVSのような最近の音声コーデック標準規格に存在している。
【0004】
低域ポストフィルタは一般に、復号化されたオーディオの品質を改善するものの、いくつかの信号に悪影響を及ぼす可能性がある。ポストフィルタ強度を制御するために、いくつかの適応方法が使用されてきた。3GPP EVS [1]では、ポストフィルタ強度は、ポストフィルタリングされた信号が入力信号とどの程度良好に相関するかに対して適応される。相関が低い場合、フィルタは、劣化する方向に影響し、その結果、フィルタ出力が減衰されうることを示唆する。ポストフィルタ強度は、LPフィルタの安定性にも適応され、この場合、安定性が低いと、フィルタが減衰される。
【0005】
米国特許第9,224,403号には、低域ポストフィルタの更なる適応化方法が記載されている。米国特許第9,224,403号では、コーデックが複数のモードを使用しうることを考慮しており、CELPまたはACELPアルゴリズムは、それらのモードのうちの1つである。低域ポストフィルタはACELPモードに対してのみアクティブであるので、低域ポストフィルタの強度は、頻繁なモード切り替えがある場合におけるフィルタを有効化および無効化するときのアーチファクトを回避するように適合されうる。米国特許第9,224,403号は、入力信号がACELPまたはCELP符号化モデルによってどの程度良好に表されるかをさらに考察している。著しいエネルギ損失がある場合、信号は十分にモデル化されず、低域ポストフィルタは有害である可能性がある。フィルタのオン/オフを切り替えることによるアーチファクトを低減するために、ポストフィルタの強度は、より滑らかな遷移を与えるように徐々に適合されうる。フィルタ影響の分析は、フィルタリングされた信号とフィルタリングされていない信号との間の差を記述するフィルタ差信号に対して行われうる。また、近似差信号に対して実行して、方法の計算の複雑さを低減することもできる。
【0006】
H. Chibaらによる、「CELPベース音声符号化器のためのピッチ周波数により制御される適応ポストフィルタリング(Adaptive Post-Filtering Controlled by Pitch Frequency for CELP-based Speech Coder)」、2014 48th Asilomar Conference on Signals、Systems and Computersでは、低域ポストフィルタの適合性が信号のピッチまたは基本周波数に依存しうることが認識されている。ここで、ポストフィルタ強度はピッチの関数として制限され、ポストフィルタはより低い周波数に対して減衰される。フィルタの出力はまた、基本周波数に依存するカットオフ周波数でローパスフィルタリングされ、より低い基本周波数に対してより低い動作帯域幅をもたらす。
【発明の概要】
【発明が解決しようとする課題】
【0007】
ポストフィルタはノイズを低減することを意図したものであるが、場合によっては新しいアーチファクトが生じることがある。特に、ピッチ周期パラメータまたはポストフィルタ強度などのパラメータの急激な変化が、スペクトルの低エネルギ領域において可聴になる不連続性が生じうる。
【0008】
米国特許第9,224,403号によって示唆されているように、段階的な有効化および非無効化では、不連続性がパラメータの切り替わりの効果としてフィルタにおいて内部的に起こりうるという事実に対処できない。経験によれば、パラメータ切り替わりの遷移を平滑化しようとする試みは、より遅いフィルタ適応につながり、それはポストフィルタの性能を低下させ、アーチファクトは依然として完全には除去されないことを示す。
【課題を解決するための手段】
【0009】
一側面において、符号化された一次信号を復号化して復号化一次信号を形成し、その後、前記復号化一次信号をポストフィルタリングしてポストフィルタリングされた信号を形成し、前記復号化一次信号および前記ポストフィルタリングされた信号のうちの1つを前記デコーダの出力信号とする、オーディオ復号化のための方法が提供される。前記デコーダによって再構成される前記一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値と、前記復号化一次信号の前記ポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値とが得られる。前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数が生成される。前記判定変数はしきい値と比較され、前記判定変数と前記しきい値との比較に基づいて、出力信号が、前記復号化一次信号または前記ポストフィルタリングされた信号に設定される。
【0010】
別の側面において、オーディオ復号化のためのデコーダであって、符号化された一次信号を復号化して復号化一次信号を形成し、その後、前記復号化一次信号をポストフィルタリングしてポストフィルタリングされた信号を形成し、前記復号化一次信号および前記ポストフィルタリングされた信号のうちの1つを前記デコーダの出力信号とする、デコーダが提供される。デコーダは、処理回路と、前記処理回路と接続されたメモリとを備え、前記メモリは、前記処理回路によって実行されたときに前記デコーダに処理させる命令を含み、前記処理は、前記デコーダによって再構成される前記一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値と、前記復号化一次信号のポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値とを取得することと、前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成することと、前記判定変数をしきい値と比較することと、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定することとを含む。
【0011】
別の側面において、デコーダであって、復号化一次信号を形成するために、前記デコーダによって再構成される一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得することと、前記復号化一次信号のポストフィルタリングによって生じる、時間ドメインにおける不連続の分析値を取得することと、前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成することと、前記判定変数としきい値とを比較することと、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号またはポストフィルタリングされた信号に設定することとを含む処理を実行するように構成されたデコーダが提供される。
【0012】
別の側面において、デコーダの処理回路によって実行される、プログラムコードを含むコンピュータプログラムであって、前記プログラムコードが実行されることによって、前記デコーダは、復号化一次信号を形成するために、前記デコーダによって再構成される一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得することと、前記復号化一次信号のポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値を取得することと、前記取得されたエネルギ推定値および前記取得された不連続性の分析値とに基づいて、判定変数を生成することと、前記判定変数としきい値とを比較することと、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号またはポストフィルタリングされた信号に設定することとを含む処理を実行するコンピュータプログラムが提供される。
【0013】
別の側面において、デコーダの処理回路によって実行される、プログラムコードを含む非一時的記憶媒体を含むコンピュータプログラム製品であって、前記プログラムコードが実行されることによって、前記デコーダは、復号化一次信号を形成するために、前記デコーダによって再構成される一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得することと、前記復号化一次信号のポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値を取得することと、前記取得されたエネルギ推定と前記取得された不連続性の分析値とに基づいて、判定変数を生成することと、前記判定変数としきい値とを比較することと、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号またはポストフィルタリングされた信号に設定することとを含む処理を実行する、コンピュータプログラム製品が提供される。
【0014】
本明細書に記載される本発明の概念を使用して得ることができる1つの利点は、ポストフィルタの利点が維持されるようにポストフィルタの適応を追加することであり、ポストフィルタを減衰または無効化することによって、問題のあるケースが軽減される。さらに、この利点は、複雑性の低い方法によって達成されるものであり、オーディオデコーダの全体的な計算の複雑さに与える影響は限定的である。
【図面の簡単な説明】
【0015】
添付の図面は、本開示のさらなる理解を提供するものであり、本出願に組み込まれ、その一部を構成する発明概念の特定の非限定的な実施形態を示すものである。図面は以下のものを含む。
【0016】
【
図1】
図1は、いくつかの実施形態による、ネットワーク内で動作するデコーダシステムの例を示す図である。
【0017】
【
図2】
図2は、いくつかの実施形態によるピッチポストフィルタを有するデコーダの例を示すブロック図である。
【0018】
【
図3】
図3は、ピッチポストフィルタ調整信号におけるサブフレーム境界に現れうる不連続性の例示である。
【0019】
【
図4】
図4は、「低域ポストフィルタ(BPF)」と呼ばれるピッチポストフィルタを適用する前後の信号のパワースペクトルの説明図である。
【0020】
【
図5】
図5は、ピッチポストフィルタを有するデコーダを示す図であり、デコーダは、いくつかの実施形態により、周波数ドメインにおいて信号を再構成する。
【0021】
【
図6】
図6は、発明概念のいくつかの実施形態による適応ポストフィルタの要素のブロック図である。
【0022】
【
図7】
図7は、発明概念のいくつかの実施形態による適応ポストフィルタの要素を示すブロック図である。
【0023】
【
図8】
図8は、発明概念のいくつかの実施形態による適応ポストフィルタによって実行される動作を示すフローチャートである。
【0024】
【
図9】
図9は、発明概念のいくつかの実施形態による代替の適応ポストフィルタの要素を示すブロック図である。
【0025】
【
図10】
図10は、発明概念のいくつかの実施形態によるデコーダを示すブロック図である。
【0026】
【
図11】
図11は、発明概念のいくつかの実施形態によるデコーダの動作を示すフローチャートである。
【0027】
【
図12】
図12は、発明概念のいくつかの実施形態によるデコーダの動作を示すフローチャートである。
【0028】
【
図13】
図13は、発明概念のいくつかの実施形態によるデコーダの動作を示すフローチャートである。
【発明を実施するための形態】
【0029】
以下で、本発明の概念の実施形態の例が示される添付の図面を参照して、本発明の概念がより完全に説明される。しかしながら、本発明の概念は多くの異なる形態で具現化することができ、本明細書に記載される実施形態に限定されると解釈されるべきではない。むしろ、これらの実施形態は本開示が徹底的かつ完全であり、本発明の概念の範囲を当業者に十分に伝えるように提供される。また、これらの実施形態は相互に排他的ではないことに留意されたい。一実施形態からの構成要素は、別の実施形態において存在/使用されると暗黙に仮定され得る。
【0030】
以下の説明では、開示される主題の様々な実施形態を提示する。これらの実施形態は、教示例として提示され、開示される主題の範囲を限定するものとして解釈されるべきではない。例えば、説明される実施形態の特定の詳細は、説明される主題の範囲から逸脱することなく、修正、省略、または拡張されうる。
【0031】
図1は、本明細書で説明するように、モノラル、ステレオ、またはマルチチャネルビットストリームを復号するために使用されうるデコーダ100の動作環境の例を示す。デコーダ100は、メディアプレーヤ、モバイル端末、セットトップデバイス、デスクトップコンピュータなどの一部でありうる。デコーダ100は、符号化ビットストリームを受信する。ビットストリームは、エンコーダ、記憶部104、ネットワーク102を介したクラウド上のデバイス等から送信されうる。動作中、デコーダ100は、本明細書で説明するように、ビットストリームのフレームを受信し、処理する。デコーダ100は、オーディオ信号(例えば、モノラル、ステレオ、またはマルチチャネルオーディオ信号)を出力し、モノラル、ステレオ、またはマルチチャネルオーディオ信号の再生のための少なくとも1つのラウドスピーカを有するオーディオプレーヤ106にオーディオ信号を送信する。記憶部104は、格納またはストリーミング音楽サービスの記憶リポジトリ、別個の記憶構成要素、モバイル端末の構成要素など、モノラル、ステレオ、またはマルチチャネルオーディオ信号の記憶デポジトリの一部でありうる。オーディオプレーヤは、ブルートゥース(登録商標)スピーカ、少なくとも1つのラウドスピーカを有するデバイス、モバイル端末、ストリーミング音楽サービスなどでありうる。
【0032】
図10は、本発明の概念の実施形態による無線通信を提供するように構成されたデコーダ装置100の要素を示すブロック図である。デコーダ100は、モバイル端末、モバイル通信端末、無線通信装置、ワイヤレス端末、無線通信端末、ユーザ装置、UE、ユーザ装置ノード/端末/デバイスなどの一部でありうる。図示のように、デコーダ100は、他のデバイス/エンティティ/機能/等との通信を提供するように構成された、ネットワークインタフェースとも呼ばれるネットワークインタフェース回路1005を含みうる。デコーダ100はまた、ネットワークインタフェース回路1005に動作可能に接続されたプロセッサとも呼ばれる処理回路1001と、処理回路に動作可能に接続されたメモリとも呼ばれるメモリ回路1003とを含み得る。メモリ回路1003は、処理回路1001によって実行されると、本明細書で開示される実施形態による処理を処理回路に実行させるコンピュータ読み取り可能なプログラムコードを含みうる。
【0033】
他の実施形態によれば、処理回路1001は、別個のメモリ回路が必要とされないように、メモリを含むように定義されうる。本明細書で説明するように、デコーダ100の動作は、プロセッサ1001および/またはネットワークインタフェース1005によって実行されうる。たとえば、プロセッサ1001は、マルチチャネルオーディオプレーヤに通信を送信するように、および/または、エンコーダノード、保管サーバなどの1つまたは複数の他のネットワークノード/エンティティ/サーバからネットワークインタフェース1005を通して通信を受信するように、ネットワークインタフェース1005を制御しうる。さらに、メモリ1003にはモジュールが記憶され、これらのモジュールは、モジュールの命令がプロセッサ1001によって実行されるとき、プロセッサ1001がそれぞれの処理を実行するように、命令を与えうる。
【0034】
図2は、ピッチポストフィルタを含むオーディオ復号化システムを示す。デコーダ220は、例えば、伝送ネットワークまたは記憶媒体からビットストリーム210を受信する。デコーダは、再構成時間ドメイン信号 (reconstructed time domain signal) s^(m, n)を生成する。ここで、nはサンプルインデックス、mはフレーム番号である。再構成時間ドメイン信号s^(m, n)は、以下の説明では、一次信号 (primary signal) または復号化一次信号 (decoded primary signal) と呼ばれることもある。再構成時間ドメイン信号s^(m, n)は、ピッチ周期Tも利用しうるピッチポストフィルタ230によってさらに強調される。
【0035】
ピッチ周期Tは、復号化されたオーディオに対して行われるピッチ分析によって得られるか、または、ターゲット信号、またはポストフィルタ入力信号と同一または同様の支配的なピッチを有し得る関連オーディオ信号に対するエンコーダまたはデコーダにおける分析から得られる。
【0036】
ポストフィルタリングされた信号s^
f(m, n)は、次の形式のピッチポストフィルタを用いて導出されうる。
【数1】
ただし、Tはサンプルの基本ピッチ周期、αはポストフィルタ強度を制御するもので、α∈[0, 0.5]である。ポストフィルタリングされた信号の等価表現は次のようになる。
【数2】
ここで、
【数3】
は、負の差信号または補正信号または誤差信号として表されるフィルタの影響である。パラメータαおよびTは、典型的にはサブフレームごとに更新され、1サブフレームは4または5msの長さでありうる。フルオーディオフレームが20msである場合、このことは、フルフレームがそれぞれ5または4サブフレームに分割されることを意味する。3GPP EVS [1]では、ポストフィルタ強度αは、信号のスペクトル安定性に基づいて適応される。また、フィルタリング後のオーディオと入力信号との相関を測定することにより、フェールセーフ機構を内蔵している。相関が低ければ、フィルタが品質に悪影響を及ぼしうることを意味し、フィルタが減衰またはオフにされる。
【0037】
ポストフィルタリングされた信号s^f(m, n)は、デコーダシステムから出力され、オーディオプレーヤによって再生されるか、あるいは、復号化PCMフォーマットで潜在的に記憶または送信されうる。なお、デコーダシステムは、最終信号が出力される前に、追加の強調または他の信号もしくは信号成分との組み合わせなどの、ポストフィルタリングされた信号のさらなる処理を含みうる。再構成信号は、そのような場合、ITU-T G.718 「8~32kbit/sからのスピーチおよびオーディオの、フレームエラーに対してロバストな狭帯域および広帯域エンベデッド可変ビットレート符号化 (Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s)、(セクション7.14.1.2 デュアル低域ポストフィルタ)で概説されているように、差信号または残差信号に対応しうる。残差信号は、強調された出力信号を提供するために別の信号と組み合わされうる。
【0038】
低域ポストフィルタ適応-実施形態A
【0039】
図2の低域ポストフィルタの欠点は、
図3の不連続性300によって示されるように、サブフレーム境界における低域ポストフィルタパラメータの急激な変化によって、フィルタリングされた信号に望ましくない不連続性が生じうることである。これらの不連続性は、周波数範囲にわたって広がる歪みを与えうる。入力信号のスペクトルに依存して、これらの歪みは顕著なものとなり妨害となりうる。例えば、
図4のスペクトル400を考慮すると、ポストフィルタ演算によって、およそ1kHzを超えたところで可聴ノイズ402が生成される。なお、200Hz未満では、フィルタは依然として高調波間歪みが低減される所望の効果を発揮している。
【0040】
フィルタ出力とフィルタ入力信号との相関を測定するフィルタのフェールセーフ機構は、サブフレーム遷移の問題には対処しない。各サブフレームで相関が計算されるので、サブフレーム間の遷移およびそれらの潜在的な影響は考慮されていない。
【0041】
不連続性の影響を低減するための可能な技法は、パラメータをローパスフィルタリングすることによって、またはサブフレーム間のポストフィルタ出力をクロスフェードすることによって、平滑化を適用することである。そのような処理によってアーチファクトが低減することは分かったが、一方そのような処理によって、フィルタの適応が遅くなりフィルタの正の効果が低減する。さらに、パラメータのローパスフィルタリングによってアーチファクトは低減するものの、これらの臨界セグメントのためにポストフィルタをオフに切り替えることが、より良好であることが分かった。したがって、ポストフィルタは負の影響を有する場合には完全にオフにされるべきである一方で、ポストフィルタが正の影響を有する領域についてはそのポストフィルタに触れないままにされることが望ましいように思われる。歪みを予測し、必要に応じてフィルタを無効にすることができるポストフィルタの適応化が、不連続性の影響を低減し、いくつかの実施形態では除去することができる。
【0042】
図5に概説されるデコーダは、そのような適応化を提供する。デコーダ520は、ビットストリーム510を受信し、周波数ドメインにおいて再構成された信号を生成する。ただし、mはフレーム番号、kは周波数ビンのインデックスである。オーディオエンコーダ及びデコーダシステムにおいてしばしば使用される変換は、MDCT(modified discrete cosine transform: 修正離散コサイン変換)である。本明細書に提示される概念は、DFT(discrete Fourier transform: 離散フーリエ変換)、QMF(quadrature mirror filterbank: 直交ミラーフィルタバンク)、またはハイブリッドQMFフィルタバンクなど、エネルギ計算が可能な任意の変換領域に適用可能であることに留意されたい。処理ブロック530は、逆MDCT(IMDCT)変換を実行し、ポストフィルタを適用する。本発明の概念のいくつかの実施形態によるポストフィルタ適応方法は、
図5の処理ブロック530を
図6の適応ポストフィルタブロック600に置き換えることによって説明することができる。周波数ドメインの再構成信号s^(m, n) 620は、時間ドメインに変換される。得られた時間ドメイン信号は、ポストフィルタ差分生成ブロック610に入力される。
ポストフィルタ差分s
diff(m, n) 630および
周波数ドメインにおける再構成信号s^(m, n) 620は、ポストフィルタアダプタ640に入力され、ポストフィルタを適用すべきかどうかの判定値650を形成する。判定値650は、再構成一次信号からのポストフィルタ差分の減算をアクティブ化または非アクティブ化することによって適応ポストフィルタブロックの出力660を制御するために使用される。
【0043】
図9には、フィルタ差信号ではなくフィルタリングされた信号をポストフィルタが出力する代替方法が示されている。ここで、代替の適応ポストフィルタブロック900の決定メカニズムは、フィルタリングされた信号902を使用するか、またはフィルタリングされていない信号904を使用するかを決定する。フィルタリングされた信号の時間ドメイン分析は、差信号の代わりにフィルタリングされた信号902に対して実行され、同様の結果が得られる。
【0044】
図6のポストフィルタアダプタ640は、
図8に概説されるステップを実行する
図7の要素によってさらに説明することができる。
図3および
図4に示されるような問題のある項目の分析に基づいて、ポストフィルタ適応化方法は以下の2つの条件を検出することに基づいてもよい。
1.信号400がポストフィルタからの歪み402が顕在化する1000Hz付近から始まる谷を有することを示している
図4に示されるように、スペクトルが、ポストフィルタの潜在的な歪みを顕在化しうる強い傾斜または深い谷を有すること。
2.不連続性300によって
図3に示されるようにサブフレーム境界における不連続性が大きいこと。
【0045】
スペクトルにおける強い傾斜または深い谷の検出は、特定の臨界帯域におけるスペクトルのエネルギを測定することによって行うことができる。臨界帯域においてエネルギが低いことは、スペクトルの知覚的に敏感な部分に深い谷が見られることを示しうる。各フレームmにおけるエネルギ測定値E
S^cb(m)は、MDCTドメインにおける再構成信号S^(m, k)に対して行われうる。MDCTドメインエネルギ推定器710は、臨界帯域のエネルギを測定することによってブロック800を実行する。
【数4】
【0046】
周波数ビン制限値kstartおよびkendは、臨界帯域の周波数範囲に適合するように設定されうる。例えば、MDCTフレーム長NMDCT=160、サンプリングレートが8000Hz、臨界周波数範囲が1000Hz~1600Hzである場合、適切な値は、kstart=39、kend=64でありうる。厳密なハイパスフィルタリング演算の場合、上限は4000Hz、kend=160となる。上記の説明では、臨界帯域は適応的であり、たとえば、再構成された信号に依存しうる。臨界帯域は例えば、知覚重み付きスペクトル上で測定された識別された低エネルギ領域の周りに集束されうる。知覚的に重み付けされたスペクトルは、再構成された信号のスペクトルに基づいて生成され、知覚的に重要な領域が強調されるように、周波数およびレベル次元において変換されうる。適応臨界帯域はまた、ポストフィルタがどの周波数範囲に対して歪みを生成しうるかを考慮に入れることができる。
【0047】
s^(m, k)のMDCT合成は、オーバーラップ加算演算を伴いうるので、エネルギ推定においてオーバーラップ加算を模倣することが望ましい場合がある。これは、ブロック810におけるローパスFIRフィルタ720を次式のエネルギ推定に適用することによって行いうる。
【数5】
ただし、γは、例えば、MDCT合成ウィンドウの形状およびオーバーラップの長さに依存するローパスフィルタリング係数であり、γ∈(0,1]である。適切な値はγ=0.61でありうる。
【0048】
不連続性のサイズは、サブフレーム不連続分析器730を使用して、ブロック820におけるフィルタ差信号s
diff(m, n)のサブフレーム境界における段差を平均化することによって測定される。
【数6】
ただし、mはフレーム番号、iはサブフレーム番号、N
sfはサブフレームの数、n
1, n
2, ..., n
Nsfは各新しいサブフレームの開始を示すサブフレーム境界のサンプルインデックスである。サブフレームの数N
sf=5で、フレーム長さN=160の場合、サブフレーム境界インデックスは、n
1=0, n
2=32, n
3=64, n
4=96, n
5=128でありうる。なお、最初のサンプルについては、サンプルn
1=0、サンプルs
diff(m, -1)が参照される。ただしこれは、前のフレームの最後のサンプルs
diff(m-1, N-1)と同じサンプルである。実際の実装では、このサンプル値がフレーム間のでメモリに記憶される。
【0049】
ブロック830で、乗算器740において、判定変数が、E~
step(m)とE~
s^cb(m)との間の比として形成される。
【数7】
あるいは、オプショナルなローパスフィルタリングステップ810が省略される場合、判定変数は、E~
step(m)とブロック800で計算されたエネルギ推定値であるE~
s^cb(m)との間の比として形成される。
【0050】
判定を安定化させるために、E~
ratio(m)は、フレーム間のブロック840で、例えば次式で表されるようなローパスフィルタ760を適用することによって、ローパスフィルタリングされうる。
【数8】
ただし、βはローパスフィルタリング係数であり、β∈(0,1)であり、適切な値は、β=0.68でありうる。
【0051】
リミッタ750を介して、ブロック840において、ローパスフィルタリングされたエネルギ比の範囲を制限することがさらに有益でありうる。この場合の数式は以下のように書ける。
【数9】
ただし、E
ratio,limはエネルギ比の上限を設定し、適切な値としてE
ratio,lim=2が見つかった。なお、βが1のとき、エネルギ比はローパスフィルタリングされない。
【0052】
様々な実施形態におけるポストフィルタの有効化(activation)の決定は、ブロック850において、ローパスフィルタリングされたエネルギ比をしきい値比較器770においてしきい値と比較し、ブロック860において、ポストフィルタを使用する(例えば、アクティベートする)か否かを決定することによって行われる。本発明の概念の一実施形態では、しきい値E
thrは1に設定される。
【数10】
ただし、activeはポストフィルタを有効化することを示し、inactiveはポストフィルタを無効化することを示す。オプショナルなブロック840が省略された場合、ブロック830で計算された判定変数E~
ratio(m)はしきい値と比較される。上述のように、ポストフィルタが有効の場合、ポストフィルタの出力は、再構成一次信号からポストフィルタ差分を減算する。ポストフィルタが無効の場合、ポストフィルタの出力は、再構成一次信号である。
【0053】
図9に示すように、差信号s
diff(m, n)の代わりに、フィルタ出力信号s
f(m, n)に対しても同様の不連続性の分析を行うことができる。これは例えば、フィルタ定数β、γ、E
ratio,lim、およびE
thrに対して異なる選択をもたらす可能性が高いが、上述の概念の原理は同じままであることに留意されたい。
【0054】
いくつかの実施形態では、ローパスフィルタリングされたエネルギ比がしきい値近辺で推移している場合にトグルするのを低減するようにスイッチングのための何らかのヒステリシスを与えることが有用でありうる。ヒステリシスを実施する1つの方法は、2つのしきい値を有することである。1つは有効化用であり、1つは無効化用である。有効化しきい値が無効化しきい値よりも少し高い場合、これは、判定変数のための「デッドゾーン」を生成し、変数がしきい値の近辺で推移している場合、トグルすることが低減されうる。ヒステリシスを実施するための別の方法はローパスフィルタリングされたエネルギ比がある期間においてしきい値を下回る(または代替的に、上回る)回数のカウントを決定し、ローパスフィルタリングされたエネルギ比がその期間においてしきい値を下回る(または代替的に、上回る)所定の回数後に、ポストフィルタを有効化(または無効化)することである。
【0055】
上述の実施形態では、臨界帯域が使用される。本発明の概念の様々な他の実施形態では、2つ以上のスペクトル谷に対応する2つ以上の臨界帯域が存在しうる。一実施形態において、分析するために選択される臨界帯域は、最も感度の高い領域であり、ポストフィルタを使用するかどうかの決定は選択された臨界帯域に対して実行される。他の実施形態では、ノイズが顕著であるためにしきい値をわずかに下回る領域が複数ある可能性があり、これらの領域の多くを組み合わせると、ユーザにノイズが聞こえる可能性があるが、領域ごとの分析ではノイズが目立たないことが示される。これを考慮する1つの方法は、いくつかの臨界帯域からの寄与を合計し、上述の実施形態に基づいて、出力を一次信号とするかポストフィルタリングされた信号とするかを決定することでありうる。別のアプローチは、帯域を別々に分析し、その後、分析される帯域のいずれか1つについてしきい値がトリガされた場合にポストフィルタを無効にすることである。
【0056】
実施形態B
【0057】
ノイズがマスクされるかどうかを判定するための代替的な方法は、ポストフィルタの前後の臨界領域における信号のエネルギを比較することである。この代替方法は、実施形態Aで説明した発明概念と同様の結果を与えるが、より高い遅延および複雑さを犠牲にしていることが分かった。再構成信号の臨界帯域のエネルギは、時間ドメインで測定することができる。
【数11】
ただし、f
cb(・)は、臨界帯域に適合するハイパスフィルタまたはバンドパスフィルタである。同様に、ポストフィルタリングされた再構成信号の臨界帯域のエネルギは以下のように書ける。
【数12】
【0058】
フレームに対してポストフィルタを有効化または無効化するための判定値D(m)は、ポストフィルタを適用する前後の信号の臨界帯域のエネルギ比を判定しきい値E
thrと比較することによって得ることができる。ここで、activeは、ポストフィルタが有効化されることを示し、inactiveは、ポストフィルタが無効化されることを示す。本発明の概念の一実施形態では、しきい値E
thrは1に設定される。言い換えれば、ポストフィルタを適用した後に、あるカットオフ周波数を超えるエネルギが高い場合、エネルギ増加はノイズによって引き起こされると仮定され、ポストフィルタは無効にされる。
【数13】
【0059】
フレームに対するポストフィルタを無効にすることは、いくつかの実施形態では、ポストフィルタリングされたバージョンsf(m, n)の代わりに、復号化信号s^(m, n)を使用することによって実施されうる。フィルタルーチンがフィルタ差信号sdiff(m, n)を生成する場合、フィルタの無効化は、復号化信号からのフィルタ差信号の減算をスキップすることによって実施されうる。
【0060】
いくつかの実施形態では、エネルギ比がしきい値近辺で推移している場合、トグルするのを低減するように一次信号とポストフィルタリングされた信号との間のスイッチングのためのヒステリシスを与えることが有用でありうる。ヒステリシスを実施する1つの方法は、2つのしきい値を有することである。1つは有効化用であり、1つは無効化用である。有効化しきい値が無効化しきい値よりも少し高い場合、これは、判定変数のための「デッドゾーン」を生成し、変数がしきい値近辺で推移している場合、トグルすることが低減される。ヒステリシスを実施するための別の方法は、ローパスフィルタリングされたエネルギ比がある期間においてしきい値を下回る(または代替的に、上回る)回数のカウントを決定し、ローパスフィルタリングされたエネルギ比がその期間においてしきい値を下回る(または代替的に、上回る)所定の回数後に、ポストフィルタを有効化(または無効化)することである。
【0061】
(
図10のブロック図の構造を使用して実装される)デコーダ100の動作を、発明概念のいくつかの実施形態による
図11のフローチャートを参照して説明する。たとえば、
図3のメモリ1003にモジュールが記憶され、これらのモジュールは、モジュールの命令がそれぞれの通信装置処理回路1001によって実行されるとき、処理回路1001がフローチャートのそれぞれの処理を実行するように、命令を与えうる。
【0062】
図11を参照して、ブロック1101において、処理回路1001は、デコーダ100によって再構成すなわち復号化された一次信号の、少なくとも一部の周波数スペクトルのエネルギ推定値を取得する。一次信号の再構成は周波数ドメインにおいて行われうる。ブロック1101の処理は、上述のブロック800の処理に類似している。本発明の概念の様々な実施形態では、処理回路1001は、周波数ドメインにおける、少なくとも一部の周波数スペクトルのエネルギ係数を合計することによってエネルギ推定値を取得することができる。例えば、いくつかの実施形態では、処理回路1001は、次式に従って再構成信号の臨界帯域のエネルギを測定することによって、エネルギ推定値を取得する。
【数14】
ただし、mはフレーム番号、E
s^cb(m)は再構成信号の臨界帯域のエネルギ、s^(m, k)は再構成信号であり、周波数ビン制限値k
startおよびk
endは、臨界帯域の周波数範囲に適合するように設定される。
【0063】
処理回路1001は、再構成信号の臨界帯域のエネルギE
s^cb(m)に、次式に従うローパスフィルタを適用することによって、測定値をさらに処理することができる。
【数15】
ただし、γは修正離散コサイン変換(MDCT)合成ウィンドウの形状およびオーバーラップの長さに依存するローパスフィルタリング係数であり、γ∈(0,1]である。
【0064】
ブロック1103において、処理回路1001は、一次信号のポストフィルタリングによって生じる時間ドメインにおける不連続性の分析値を取得する。ブロック1103の処理は、上述のブロック820の処理に類似している。本発明の概念の様々な実施形態では、処理回路1001が不連続性サイズの平均エネルギを測定することによって、時間ドメインにおける不連続性の分析値を取得することができる。例えば、いくつかの実施形態では、処理回路1001は、次式に従ってフィルタ差信号s
diff(m, n)のサブフレーム境界における段差を平均化することによって、不連続性サイズの平均エネルギを測定する。
【数16】
ただし、mはフレーム番号、iはサブフレーム番号、E~
step(m)はサブフレーム境界における段差の平均エネルギ、N
sfはサブフレームの数、n
1, n
2,..., n
Nsfは各サブフレームの開始をマークするサブフレーム境界のサンプルインデックスである。
【0065】
ブロック1105において、処理回路1001は、取得されたエネルギ推定値と取得された不連続性の分析値とに基づいて、判定変数を生成する。ブロック1105の処理は、上述のブロック830の処理に類似している。発明概念の様々な実施形態では、処理回路1001は、次式に従って判定変数を生成することができる。
【数17】
ただし、E~
ratio(m)はE~
step(m)とE~
s^cb(m)との間のエネルギ比、E~
step(m)はサブフレーム境界における段差の平均エネルギ
、E~
s^cb(m)は再構成信号の臨界帯域のエネルギE
s^cb(m)をローパスフィルタリングしたものである。
【0066】
図12を参照すると、本発明の概念のいくつかの実施形態では、処理回路1001は、ブロック1201で判定変数を最大値に制限し、ブロック1203で判定変数をローパスフィルタリングすることができる。ブロック1201およびブロック1203の処理は、上述のブロック840の処理に類似している。いくつかの実施形態では、処理回路1001は、次式に従って判定変数を制限し、判定変数をローパスフィルタリングする。
【数18】
ただし、mはフレーム
番号、E~
ratio(m)はE~
step(m)とE~
s^cb(m)との間のエネルギ比、E~
step(m)はサブフレーム境界における段差の平均エネルギ
、E~
s^cb(m)は再構成信号の臨界帯域のエネルギE
s^cb(m)をローパスフィルタリングしたもの、βはローパスフィルタリング係数でβ∈(0,1]、E
ratio,limはエネルギ比の上限である。
【0067】
図11に戻り、ブロック1107において、処理回路1001は、判定変数としきい値とを比較する。例えば、上述のように、判定変数がE~
step(m)とE~
s^cb(m)との間のエネルギ比であるとき、エネルギ比は、しきい値E
thrと比較される。
【0068】
ブロック1109において、処理回路1001は、判定変数としきい値との比較に基づいて、デコーダ100の出力信号を、復号化一次信号またはポストフィルタリングされた(ポストフィルタリングによって形成された)信号に設定する。例えば、上述したように、いくつかの実施形態では、処理回路1001は、次式に従って判定変数を比較する。
【数19】
本発明の概念の様々な実施形態では、しきい値エネルギE
thrは1の値に設定されうる。
【0069】
図13に、出力信号を設定する例を示す。
図13を参照すると、ブロック1301において、処理回路1001は、サブフレーム境界における段差の平均エネルギと一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値とのエネルギ比を、しきい値と比較する。
【0070】
ブロック1303では、サブフレーム境界における段差の平均エネルギと一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値との間のエネルギ比がしきい値未満であることに応答して、処理回路1001は、出力信号をポストフィルタリングされた信号に設定する。
【0071】
ブロック1305では、サブフレーム境界における段差の平均エネルギと一次信号の少なくとも一部の周波数スペクトルのエネルギとの間のエネルギ比がしきい値以上であることに応答して、処理回路1001は、出力信号を復号化一次信号に設定する。
【0072】
本発明の概念のいくつかの実施形態では、エネルギ比がしきい値近辺で推移している場合、トグルするのを低減するように復号化一次信号とポストフィルタリングされた信号との間の出力を設定するために、ヒステリシスが追加されうる。
【0073】
例示的な実施形態を以下に説明する。
【0074】
実施形態1 符号化された一次信号を復号化して復号化一次信号を形成し、その後、前記復号化一次信号をポストフィルタリングしてポストフィルタリングされた信号を形成し、前記復号化一次信号および前記ポストフィルタリングされた信号のうちの1つを前記デコーダの出力信号とする、オーディオ復号化のための方法であって、前記デコーダによって再構成される前記一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得すること(1101、800)と、前記復号化一次信号の前記ポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値を取得すること(1103、820)と、前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成すること(1105、830)と、前記判定変数をしきい値と比較すること(1107、850)と、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定すること(1109)と、を有する、ことを特徴とする方法。
【0075】
実施形態2 前記一次信号の再構成は周波数ドメインにおいて行われる、ことを特徴とする実施形態1に記載の方法。
【0076】
実施形態3 前記エネルギ推定値を取得することは、前記周波数ドメインにおいて前記少なくとも一部の周波数スペクトルのエネルギ係数を合計することを含む、ことを特徴とする実施形態2に記載の方法。
【0077】
実施形態4 フレーム番号をm、再構成信号の臨界帯域のエネルギをE
S^cb(m)、再構成信号をS^(m, k)とし、周波数ビン制限値k
startおよびk
endが臨界帯域の周波数範囲に適合するように設定されるとき、
前記エネルギ推定値を取得することは、
【数20】
に従って、再構成信号の臨界帯域のエネルギを測定することを含む、
ことを特徴とする実施形態3に記載の方法。
【0078】
実施形態5 修正離散コサイン変換(MDCT)合成ウィンドウの形状と、オーバーラップの長さとに依存するローパスフィルタリング係数であるγを、γ∈(0,1]とするとき、
前記再構成信号の前記臨界帯域の前記エネルギE
S^cb(m)に、
【数21】
に従うローパスフィルタを適用することを更に含む、
ことを特徴とする実施形態4に記載の方法。
【0079】
実施形態6 時間ドメインにおける前記不連続性の分析値を取得することは、前記不連続性のサイズの平均エネルギを測定することを含む、ことを特徴とする実施形態1から5のいずれか1項に記載の方法。
【0080】
実施形態7 フレーム番号をm、サブフレーム番号をi、サブフレーム境界における段差の平均エネルギをE~
step(m)、サブフレームの数をN
sf、各サブフレームの開始をマークするサブフレーム境界のサンプルインデックスをn
1, n
2,..., n
Nsfとするとき、
前記不連続性のサイズの前記平均エネルギを測定することは、
【数22】
に従って、フィルタ差信号s
diff(m, n)のサブフレーム境界における段差を平均化することを含む、
ことを特徴とする実施形態6に記載の方法。
【0081】
実施形態8 前記判定変数を生成することは、前記判定変数を最大値に制限すること(1201、840)を含む、ことを特徴とする実施形態1から7のいずれか1項に記載の方法。
【0082】
実施形態9 前記判定変数をローパスフィルタリングすること(1203、840)を更に含む、ことを特徴とする実施形態1から8のいずれか1項に記載の方法。
【0083】
実施形態10 フレーム
番号をm、サブフレーム境界における段差の平均エネルギ
をE~
step(m)、再構成信号の臨界帯域のエネルギE
s^cb(m)をローパスフィルタリングしたものをE~
s^cb(m)、E~
step(m)とE~
s^cb(m)との間のエネルギ比をE~
ratio(m)、ローパスフィルタリング係数であるβを、β∈(0,1]とし、前記エネルギ比の上限をE
ratio,limとするとき、
前記判定変数を生成することは、
【数23】
に従って前記判定変数E~
ratio,LP(m)を生成することを含む、ことを特徴とする実施形態9に記載の方法。
【0084】
実施形態11 前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定することは、サブフレーム境界における段差の平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルのエネルギ推定値との間のエネルギ比がしきい値未満であることに応答して(1301)、前記出力信号を前記ポストフィルタリングされた信号に設定すること(1303)と、サブフレーム境界における前記段差の前記平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルの前記エネルギとの間の前記エネルギ比が前記しきい値以上であることに応答して(1301)、前記出力信号を前記復号化一次信号に設定すること(1305)を含む、ことを特徴とする実施形態1から10のいずれか1項に記載の方法。
【0085】
実施形態12 前記エネルギ比が指定された期間において前記しきい値レベルを上回ったり下回ったりするときに、前記出力信号が前記一次信号と前記ポストフィルタリングされた信号との間で行き来することを防止するために、前記判定変数を前記しきい値と比較することに対するヒステリシスを提供することを更に有する、ことを特徴とする実施形態11に記載の方法。
【0086】
実施形態13 オーディオ復号化のためのデコーダ(100)であって、符号化された一次信号を復号化して復号化一次信号を形成し、その後、前記復号化一次信号をポストフィルタリングしてポストフィルタリングされた信号を形成し、前記復号化一次信号および前記ポストフィルタリングされた信号のうちの1つを前記デコーダの出力信号とする、デコーダであって、処理回路(1001)と、前記処理回路と接続されたメモリ(1003)とを備え、前記メモリは、前記処理回路によって実行されたときに前記デコーダに処理を実行させる命令を含み、前記処理は、前記デコーダによって再構成される前記一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得すること(1101、800)と、前記復号化一次信号の前記ポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値を取得すること(1103、820)と、前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成すること(1105、830)と、前記判定変数をしきい値と比較すること(1107、850)と、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号または前記ポストフィルタリングされた信号に設定すること(1109)と、を含む、ことを特徴とするデコーダ。
【0087】
実施形態14 前記一次信号の再構成は周波数ドメインにおいて行われる、ことを特徴とする実施形態13に記載のデコーダ。
【0088】
実施形態15 前記メモリは、前記エネルギ推定値の取得において、前記周波数ドメインにおいて前記少なくとも一部の前記周波数スペクトルのエネルギ係数を合計することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態14に記載のデコーダ。
【0089】
実施形態16 フレーム番号をm、再構成信号の臨界帯域のエネルギをE
S^cb(m)、再構成信号をS^(m, k)とし、周波数ビン制限値k
startおよびk
endが臨界帯域の周波数範囲に適合するように設定されるとき、
前記メモリは、前記エネルギ推定値の取得において、
【数24】
に従って、再構成信号の臨界帯域のエネルギを測定することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態15に記載のデコーダ。
【0090】
実施形態17 修正離散コサイン変換(MDCT)合成ウィンドウの形状と、オーバーラップの長さとに依存するローパスフィルタリング係数であるγを、γ∈(0,1]とするとき、
前記メモリは、前記再構成信号の前記臨界帯域の前記エネルギE
S^cb(m)に、
【数25】
に従うローパスフィルタを適用することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態16に記載のデコーダ。
【0091】
実施形態18 前記メモリは、時間ドメインにおける前記不連続性の分析値の取得において、前記不連続性のサイズの平均エネルギを測定することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態13から17のいずれか1項に記載のデコーダ。
【0092】
実施形態19 フレーム番号をm、サブフレーム番号をi、サブフレーム境界における段差の平均エネルギをE~
step(m)、サブフレームの数をN
sf、各サブフレームの開始をマークするサブフレーム境界のサンプルインデックスをn
1, n
2,..., n
Nsfとするとき、
前記不連続性のサイズの平均エネルギの測定において、前記メモリは、
【数26】
に従って、フィルタ差信号s
diff(m, n)のサブフレーム境界における段差を平均化することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、実施形態13から18のいずれか1項に記載のデコーダ。
【0093】
実施形態20 前記メモリは、前記判定変数の生成において、前記判定変数を最大値に制限すること(1201、840)を含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態13から19のいずれか1項に記載のデコーダ。
【0094】
実施形態21 前記メモリは、前記判定変数をローパスフィルタリングすること(1203、840)を含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態13から20のいずれか1項に記載のデコーダ。
【0095】
実施形態22 フレーム
番号をm、サブフレーム境界における段差の平均エネルギ
をE~
step(m)、再構成信号の臨界帯域のエネルギE
s^cb(m)をローパスフィルタリングしたものをE~
s^cb(m)、E~
step(m)とE~
s^cb(m)との間のエネルギ比をE~
ratio(m)、ローパスフィルタリング係数であるβを、β∈(0,1]とし、前記エネルギ比の上限をE
ratio,limとするとき、
前記メモリは、前記判定変数の生成において、
【数27】
に従って前記判定変数E~
ratio,LP(m)を生成することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態21に記載のデコーダ。
【0096】
実施形態23 前記メモリは、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記一次信号または前記ポストフィルタリングされた信号に設定することにおいて、サブフレーム境界における段差の平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルのエネルギ推定値との間のエネルギ比がしきい値未満であることに応答して(1301)、前記出力信号を前記ポストフィルタリングされた信号に設定すること(1303)と、サブフレーム境界における前記段差の前記平均エネルギと前記一次信号の前記少なくとも一部の前記周波数スペクトルの前記エネルギとの間の前記エネルギ比が前記しきい値以上であることに応答して(1301)、前記出力信号を前記復号化一次信号に設定すること(1305)を含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態13から22のいずれか1項に記載のデコーダ。
【0097】
実施形態24 前記メモリは、前記エネルギ比が指定された期間において前記しきい値レベルを上回ったり下回ったりするときに、前記出力信号が前記一次信号と前記ポストフィルタリングされた信号との間で行き来することを防止するために、前記判定変数を前記しきい値と比較することに対するヒステリシスを提供することを含む処理を、前記処理回路によって実行されたときに前記デコーダに実行させる命令を更に含む、ことを特徴とする実施形態23に記載のデコーダ。
【0098】
実施形態25 デコーダ(100)であって、復号化一次信号を形成するために、前記デコーダによって再構成される一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得すること(1101、800)と、前記復号化一次信号のポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値を取得すること(1103、820)と、前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成すること(1105、830)と、前記判定変数としきい値とを比較すること(1107、850)と、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号またはポストフィルタリングされた信号に設定すること(1109)とを含む処理を実行するように構成されたことを特徴とするデコーダ(100)。
【0099】
実施形態26 前記デコーダ(100)は、請求項2から12のいずれか1項に記載の処理を実行するように構成される、ことを特徴とする実施形態25に記載のデコーダ(100)。
【0100】
実施形態27 デコーダ(100)の処理回路(1001)によって実行される、プログラムコードを含むコンピュータプログラムであって、前記プログラムコードが実行されることによって、前記デコーダ(100)は、復号化一次信号を形成するために、前記デコーダによって再構成される一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得すること(1101、800)と、前記復号化一次信号のポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値を取得すること(1103、820)と、前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成すること(1105、830)と、前記判定変数としきい値とを比較すること(1107、850)と、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号またはポストフィルタリングされた信号に設定すること(1109)とを含む処理を実行する、ことを特徴とするコンピュータプログラム。
【0101】
実施形態28 追加のプログラムコードを含み、該追加のプログラムコードが実行されることによって、前記デコーダ(100)は、請求項2から12のいずれか1項に記載の処理を実行する、ことを特徴とする実施形態27に記載のコンピュータプログラム。
【0102】
実施形態29 デコーダ(100)の処理回路(1001)によって実行される、プログラムコードを含む非一時的記憶媒体を含むコンピュータプログラム製品であって、前記プログラムコードが実行されることによって、前記デコーダ(100)は、復号化一次信号を形成するために、前記デコーダによって再構成される一次信号の少なくとも一部の周波数スペクトルのエネルギ推定値を取得すること(1101、800)と、前記復号化一次信号のポストフィルタリングによって生じる、時間ドメインにおける不連続性の分析値を取得すること(1103、820)と、前記取得されたエネルギ推定値と前記取得された不連続性の分析値とに基づいて、判定変数を生成すること(1105、830)と、前記判定変数としきい値とを比較すること(1107、850)と、前記判定変数と前記しきい値との前記比較に基づいて、前記出力信号を前記復号化一次信号またはポストフィルタリングされた信号に設定すること(1109)とを含む処理を実行する、ことを特徴とするコンピュータプログラム製品。
【0103】
実施形態30 前記非一時的記憶媒体は、追加のプログラムコードを含み、該追加のプログラムコードが実行されることによって、前記デコーダ(100)は、請求項2から12のいずれか1項に記載の処理を実行する、ことを特徴とする実施形態29に記載のコンピュータプログラム製品。
【0104】
本開示で使用される様々な略語/頭字語についての説明を以下に提供する。
略語 説明
BPF 低域ポストフィルタ (Bass Post-Filter)
DFT 離散フーリエ変換 (Discrete Fourier Transform)
MDCT 修正離散コサイン変換 (Modified Discrete Cosine Transform)
EVS エンハンスト音声サービス (Enhanced Voice Service)
QMF 直交ミラーフィルタバンク (Quadrature Mirror Filterbank)
【0105】
追加の説明を以下に提供する。
【0106】
一般に、本明細書で使用されるすべての用語は、異なる意味が明確に与えられ、かつ/または、それが使用される文脈から暗示されない限り、関連する技術分野におけるそれらの通常の意味に従って解釈されるべきである。a/an/要素、装置、構成要素、手段、ステップなどへのすべての参照は、明示的に別段の定めがない限り、要素、装置、構成要素、手段、ステップなどの少なくとも1つのインスタンスを指すものとして開放的に解釈されるべきである。本明細書に開示される任意の方法のステップは、ステップが別のステップの後または先行として明示的に記載されない限り、および/または、ステップが別のステップの後または先行しなければならないことが暗示的である場合を除き、開示される正確な順序で実行される必要はない。本明細書に開示される実施形態のいずれかの任意の特徴は、適切な場合にはいつでも、任意の他の実施形態に適用されうる。同様に、任意の実施形態の任意の利点は任意の他の実施形態にも適用されうるものであり、その逆もまた同様である。添付の実施形態の他の目的、特徴および利点は、以下の説明から明らかになろう。
【0107】
さらなる定義および実施形態を以下に説明する。
【0108】
本発明概念の様々な実施形態の上記の説明において、本明細書で使用される用語は、特定の実施形態を説明することのみを目的とし、本発明概念を限定することを意図していないことを理解されたい。別途定義されない限り、本明細書で使用されるすべての用語(技術用語および科学用語を含む)は、本発明の概念が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。一般的に使用される辞書で定義される用語などの用語は、本明細書および関連技術の文脈におけるそれらの意味と一致する意味を有すると解釈されるべきであり、本明細書で明示的に定義されない限り、理想化されたまたは過度に形式的な意味で解釈されないことがさらに理解されよう。
【0109】
要素が別の要素に「接続される」、「結合される」、「応答する」、またはそれらの変形と呼ばれるとき、それは、他の要素に直接接続される、結合される、または応答することができ、または、介在する要素が存在し得る。対照的に、ある要素が、「直接接続されている」、「直接結合されている」、「直接応答性である」、またはそれらの変形形態であると言及される場合、介在する要素は存在しない。同じ参照符号は全体を通して同じ要素を指す。さらに、本明細書で使用される「結合された」、「接続された」、「応答する」、またはそれらの変形は、ワイヤレスに結合された、接続された、または応答することを含み得る。本明細書で使用される場合、単数形「a」、「an」および「the」は、文脈が明らかにそわないことを示さない限り、複数形も含むことが意図される。よく知られている機能または構成は、簡潔さおよび/または明瞭さのために詳細に説明されない場合がある。「および/または」(「/」と略記される)という用語は、関連する列挙された項目のうちの1つまたは複数の任意のおよびすべての組み合わせを含む。
【0110】
第1、第2、第3などの用語は様々な要素/動作を説明するために本明細書で使用され得るが、これらの要素/動作はこれらの用語によって限定されるべきではないことを理解されたい。これらの用語は、1つの要素/動作を別の要素/動作から区別するためにのみ使用される。したがって、いくつかの実施形態における第1の要素/動作は、本発明の概念の教示から逸脱することなく、他の実施形態における第2の要素/動作と呼ぶことができる。本明細書全体を通して、同じ参照番号または同じ参照符号は、同じまたは同様の要素を示す。
【0111】
本文書において用いられるように、「有する」、「有している」、「含む」、「含んでいる」、「備える」、「備えている」、又はその変形はオープンエンドであり、1つ又は複数の規定された特徴、整数、要素、ステップ、コンポーネント、又は機能を含むが、その一つ又は複数の他の特徴、整数、要素、ステップ、コンポーネント、機能、又はそれらのグループの存在又は追加を妨げない。さらに、本明細書で使用される場合、ラテン語句「exempli gratia」に由来する一般的な略語「例えば(e.g.)」は、先に言及されたアイテムの一般的な例または例を導入または指定するために使用され、そのようなアイテムを限定することを意図しない。ラテン語句「id est」に由来する一般的な略語「すなわち(i.e.)」は、より一般的な列挙から特定の項目を指定するために使用され得る。
【0112】
例示的な実施形態は、本明細書ではコンピュータ実装方法、装置(システムおよび/またはデバイス)および/またはコンピュータプログラム製品のブロック図および/またはフローチャート図を参照して説明される。ブロック図および/またはフローチャート図のブロック、ならびにブロック図および/またはフローチャート図のブロックの組み合わせは、1つまたは複数のコンピュータ回路によって実行されるコンピュータプログラム命令によって実装され得ることを理解されたい。これらのコンピュータプログラム命令は汎用コンピュータ回路、専用コンピュータ回路、および/または他のプログラマブルデータ処理回路の処理回路に提供されて、コンピュータおよび/または他のプログラマブルデータ処理装置のプロセッサを介して実行される命令、変換および制御トランジスタ、メモリ位置に記憶された値、およびそのような回路内の他のハードウェア構成要素がブロック図および/またはフローチャートブロックまたはブロックに指定された機能/動作を実装し、それによって、ブロック図および/またはフローチャートブロックに指定された機能/動作を実装するための手段(機能)および/または構造を作成するように、マシンを生成することができる。
【0113】
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラマブルデータ処理装置に特定の方法で機能するように指示することができる有形のコンピュータ可読媒体に記憶されてもよく、その結果、コンピュータ可読媒体に記憶された命令は、ブロック図および/またはフローチャートブロックまたはブロックに指定された機能/行為を実施する命令を含む製品を生成する。したがって、本発明の概念の実施形態は、「回路」、「モジュール」、またはそれらの変形と総称され得る、デジタル信号プロセッサなどのプロセッサ上で実行されるハードウェアおよび/またはソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)において実施され得る。
【0114】
いくつかの代替的な実装形態では、ブロック中に記された機能/動作がフローチャート中に記された順序から外れて発生し得ることにも留意されたい。例えば、連続して示される2つのブロックは実際には実質的に同時に実行されてもよく、またはブロックが関与する機能/行為に応じて、逆の順序で実行されてもよい。さらに、フローチャートおよび/またはブロック図の所与のブロックの機能は複数のブロックに分離され得、および/またはフローチャートおよび/またはブロック図の2つ以上のブロックの機能が少なくとも部分的に統合され得る。最後に、図示されるブロック間に他のブロックが追加/挿入されてもよく、および/または、ブロック/動作が本発明の概念の範囲から逸脱することなく省略されてもよい。さらに、図のいくつかは通信の主要な方向を示すために通信経路上に矢印を含むが、通信は描写された矢印とは反対の方向に起こりうることを理解されたい。
【0115】
本発明の概念の原理から実質的に逸脱することなく、実施形態に対して多くの変形および修正を行うことができる。すべてのそのような変形および修正は、本発明の概念の範囲内に含まれることが意図される。したがって、上記で開示された主題は例示的であり、限定的ではないとみなされるべきであり、実施形態の例は、本発明の概念の趣旨および範囲内に入る、すべてのそのような修正、強化、および他の実施形態を網羅することが意図される。したがって、法律によって許容される最大限に、本発明の概念の範囲は実施形態の例およびそれらの均等物を含む本開示の最も広い許容可能な解釈によって決定されるべきであり、前述の詳細な説明によって制限または限定されないものとする。