特許第6306175号(P6306175)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特許6306175時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法
<>
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000011
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000012
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000013
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000014
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000015
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000016
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000017
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000018
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000019
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000020
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000021
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000022
  • 特許6306175-時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6306175
(24)【登録日】2018年3月16日
(45)【発行日】2018年4月4日
(54)【発明の名称】時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法
(51)【国際特許分類】
   G10L 19/005 20130101AFI20180326BHJP
   G10L 19/06 20130101ALI20180326BHJP
   G10L 19/125 20130101ALI20180326BHJP
   G10L 19/00 20130101ALN20180326BHJP
【FI】
   G10L19/005
   G10L19/06 B
   G10L19/125
   !G10L19/00 330C
【請求項の数】44
【全頁数】62
(21)【出願番号】特願2016-527210(P2016-527210)
(86)(22)【出願日】2014年10月27日
(65)【公表番号】特表2016-539360(P2016-539360A)
(43)【公表日】2016年12月15日
(86)【国際出願番号】EP2014073035
(87)【国際公開番号】WO2015063044
(87)【国際公開日】20150507
【審査請求日】2016年6月28日
(31)【優先権主張番号】13191133.1
(32)【優先日】2013年10月31日
(33)【優先権主張国】EP
(31)【優先権主張番号】14178824.0
(32)【優先日】2014年7月28日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ルコント ジェレミー
(72)【発明者】
【氏名】マルコビック ゴラン
(72)【発明者】
【氏名】シュナーベル ミヒャエル
(72)【発明者】
【氏名】ピェトルズィク グジェゴジュ
【審査官】 五貫 昭一
(56)【参考文献】
【文献】 特表2011−521290(JP,A)
【文献】 特表2012−533094(JP,A)
【文献】 特表2016−528535(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/005
G10L 19/06
G10L 19/125
G10L 19/00
G10L 19/08
(57)【特許請求の範囲】
【請求項1】
符号化されたオーディオ情報(110;310)に基づいて復号化されたオーディオ情報(112;312)を提供するオーディオデコーダであって、
時間ドメイン励振信号(532)を用いて、周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、エラーコンシールメント(130;380;500)を備え、
前記エラーコンシールメント(130;380;500)は、LPC合成(580)に対する入力信号(572)を取得するために、外挿された時間ドメイン励振信号(552)とノイズ信号(562)を結合するように構成され、
前記エラーコンシールメントは、前記LPC合成を実行するように構成され、
前記LPC合成は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、線形予測符号化パラメータに依存して前記LPC合成の入力信号(572)をフィルタリングするように構成され、
前記エラーコンシールメント(130;380;500)は、前記外挿された時間ドメイン励振信号(552)と結合された前記ノイズ信号(562)をハイパスフィルタリングするように構成された、
オーディオデコーダ(100;300)。
【請求項2】
符号化されたオーディオ情報(110;310)に基づいて復号化されたオーディオ情報(112;312)を提供するオーディオデコーダであって、
時間ドメイン励振信号(532)を用いて、周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、エラーコンシールメント(130;380;500)を備え、
前記オーディオデコーダは、前記周波数ドメイン表現(322)から導き出された複数のスペクトル値(342)に、スケールファクタベースのスケーリング(360)を適用するように構成された、周波数ドメインデコーダコア(120;340、350、360、366、370)を備え、
前記エラーコンシールメント(130;380;500)は、前記周波数ドメイン表現から導き出された時間ドメイン励振信号(532)を用いて、複数の符号化されたスケールファクタ(328)を備える周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするための前記エラーコンシールメントオーディオ情報(132;382;512)を提供するように構成され、
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームに基づいて、前記時間ドメイン励振信号(532)を取得するように構成された、オーディオデコーダ(100;300)。
【請求項3】
符号化されたオーディオ情報(110;310)に基づいて復号化されたオーディオ情報(112;312)を提供するオーディオデコーダであって、
時間ドメイン励振信号(532)を用いて、周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、エラーコンシールメント(130;380;500)を備え、
前記周波数ドメイン表現は、複数のスペクトル値の符号化された表現(326)と、前記スペクトル値をスケーリングするための複数のスケールファクタの符号化された表現(328)とを備え、前記オーディオデコーダは、複数の符号化されたスケールファクタに基づいて、スペクトル値をスケーリングするための複数の復号化スケールファクタ(352、354)を提供するように構成され、または、前記オーディオデコーダは、LPCパラメータの符号化された表現から前記スペクトル値をスケーリングするための複数のスケールファクタを導き出すように構成され、
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームに基づいて、前記時間ドメイン励振信号(532)を取得するように構成された、オーディオデコーダ(100;300)。
【請求項4】
前記オーディオデコーダは、前記周波数ドメイン表現において符号化された前記オーディオフレームに対して、中間量として時間ドメイン励振信号を用いることなく、前記周波数ドメイン表現(322)から時間ドメインオーディオ信号表現(122;372)を導き出すように構成された、周波数ドメインデコーダコア(120;340、350、350、366、370)を備えた、請求項1〜3のいずれかに記載のオーディオデコーダ(100;300)。
【請求項5】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームに基づいて前記時間ドメイン励振信号(532)を取得するように構成され、
前記エラーコンシールメントは、前記時間ドメイン励振信号を用いて、前記ロストオーディオフレームをコンシールするための前記エラーコンシールメントオーディオ情報(122;382;512)を提供するように構成された、
請求項1〜4のいずれかに記載のオーディオデコーダ(100;300)。
【請求項6】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームに基づいてLPC分析(530)を実行し、線形予測符号化パラメータのセットと、前記ロストオーディオフレームに先行する前記周波数ドメイン表現において符号化された前記オーディオフレームのオーディオコンテンツを表現する前記時間ドメイン励振信号(532)とを取得するように構成された、または
前記エラーコンシールメント(130;380;500)は、前記ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームに基づいてLPC分析(530)を実行し、前記ロストオーディオフレームに先行する前記周波数ドメイン表現において符号化された前記オーディオフレームのオーディオコンテンツを表現する前記時間ドメイン励振信号(532)を取得するように構成された、または
前記オーディオデコーダは、線形予測符号化パラメータ推定を用いて、線形予測符号化パラメータのセットを取得するように構成された、または
前記オーディオデコーダは、変換を用いて、スケールファクタのセットに基づいて線形予測符号化パラメータのセットを取得するように構成された、
請求項1〜5のいずれかに記載のオーディオデコーダ(100;300)。
【請求項7】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する前記周波数ドメイン表現において符号化された前記オーディオフレームのピッチを記述するピッチ情報(542)を取得し、前記ピッチ情報に依存して、前記エラーコンシールメントオーディオ情報(122;382;512)を提供するように構成された、請求項1〜6のいずれかに記載のオーディオデコーダ(100;300)。
【請求項8】
前記エラーコンシールメント(130;380;500)は、前記ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームから導き出された前記時間ドメイン励振信号(532)に基づいて、前記ピッチ情報(542)を取得するように構成された、請求項7に記載のオーディオデコーダ(100;300)。
【請求項9】
前記エラーコンシールメント(130;380;500)は、前記時間ドメイン励振信号(532)または時間ドメイン信号(522)の相互相関を評価し、粗いピッチ情報を決定するように構成され、
前記エラーコンシールメントは、前記粗いピッチ情報によって決定されたピッチの周辺で、クローズドループ探索を用いて、前記粗いピッチ情報をリファインするように構成された、
請求項8に記載のオーディオデコーダ(100;300)。
【請求項10】
前記エラーコンシールメントは、前記符号化されたオーディオ情報のサイド情報に基づいて、ピッチ情報を取得するように構成された、請求項1〜6のいずれかに記載のオーディオデコーダ。
【請求項11】
前記エラーコンシールメントは、前に復号化されたオーディオフレームに対して利用可能なピッチ情報に基づいて、ピッチ情報を取得するように構成された、請求項1〜6のいずれかに記載のオーディオデコーダ。
【請求項12】
前記エラーコンシールメントは、時間ドメイン信号上でまたは残差信号上で実行されたピッチ探索に基づいて、ピッチ情報を取得するように構成された、請求項1〜6のいずれかに記載のオーディオデコーダ。
【請求項13】
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)の合成(580)のための励振信号(572)を取得するために、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームから導き出された前記時間ドメイン励振信号(532)のピッチサイクルを1回または複数回複製するように構成された、請求項1〜12のいずれかに記載のオーディオデコーダ(100;300)。
【請求項14】
前記エラーコンシールメント(130;380;500)は、バンド幅が周波数ドメイン表現において符号化されたオーディオフレームのサンプリングレートに依存するサンプリングレート依存フィルタを用いて、前記ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームの時間ドメイン表現から導き出された前記時間ドメイン励振信号(532)の前記ピッチサイクルをローパスフィルタリングするように構成された、請求項13に記載のオーディオデコーダ(100;300)。
【請求項15】
前記エラーコンシールメント(130;380;500)は、ロストフレームの終わりにおけるピッチを予測するように構成され、
前記エラーコンシールメントは、LPC合成(580)に対する入力信号(572)を取得するために、前記時間ドメイン励振信号(532)またはその1つ以上の複製を前記予測されたピッチに適応させるように構成された、
請求項1〜14のいずれかに記載のオーディオデコーダ。
【請求項16】
前記エラーコンシールメント(130;380;500)は、LPC合成(580)に対する入力信号(572)を取得するために、外挿された時間ドメイン励振信号(552)とノイズ信号(562)を結合するように構成され、
前記エラーコンシールメントは、LPC合成を実行するように構成され、
前記LPC合成は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、線形予測符号化パラメータに依存して、前記LPC合成の入力信号(572)をフィルタリングするように構成された、
請求項1〜15のいずれかに記載のオーディオデコーダ。
【請求項17】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームの時間ドメイン表現(122;372;378;510)に基づいて実行された時間ドメインにおける相関を用いて、前記LPC合成(580)の入力信号(572)を取得するために用いられる前記外挿された時間ドメイン励振信号(552)のゲインを演算するように構成され、相関の遅延は、前記時間ドメイン励振信号(532)に基づいて取得されたピッチ情報に依存して、または励振ドメインにおける相関を用いて、セットされる、請求項16に記載のオーディオデコーダ(100;300)。
【請求項18】
前記エラーコンシールメント(130;380;500)は、前記外挿された時間ドメイン励振信号(552)と結合された前記ノイズ信号(562)を、ハイパスフィルタリングするように構成された、請求項16または17に記載のオーディオデコーダ(100;300)。
【請求項19】
前記エラーコンシールメント(130;380;500)は、前記ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームが有声であるまたは立上りを備える場合に、ノイズ信号が外挿された時間ドメイン励振信号(552)と結合されるプリエンファシスフィルタを用いて、前記ノイズ信号(562)のスペクトル形状を変えるように構成された、請求項13〜15のいずれかに記載のオーディオデコーダ(100;300)。
【請求項20】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームの時間ドメイン表現(122;372;378;510)に基づいて実行された時間ドメインにおける相関に依存して、前記ノイズ信号(562)のゲインを演算するように構成された、請求項1〜19のいずれかに記載のオーディオデコーダ(100;300)。
【請求項21】
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号(532)を修正するように構成された、請求項1〜20のいずれかに記載のオーディオデコーダ(100;300)。
【請求項22】
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)の1つ以上の修正された複製を用いるように構成された、請求項21に記載のオーディオデコーダ(100;300)。
【請求項23】
前記エラーコンシールメント(132;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製を修正し、それにより前記エラーコンシールメントオーディオ情報(132;382;512)の周期的な成分を時間とともに低減するように構成された、請求項21または22に記載のオーディオデコーダ(100;300)。
【請求項24】
前記エラーコンシールメント(132;380;500)は、前記ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングし、それにより前記時間ドメイン励振信号を修正するように構成された、請求項21〜23のいずれかに記載のオーディオデコーダ(100;300)。
【請求項25】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減するように構成された、請求項23または24に記載のオーディオデコーダ(100;300)。
【請求項26】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、前記ロストオーディオフレームに先行する1つ以上のオーディオフレームの1つ以上のパラメータに依存しておよび/または連続するロストオーディオフレームの数に依存して調整するように構成された、請求項23〜25のいずれかに記載のオーディオデコーダ(100;300)。
【請求項27】
前記エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、LPC合成に入力される時間ドメイン励振信号が、より長いピッチ周期の長さを有する信号と比較したとき、より短いピッチ周期の長さを有する信号に対して、より速くフェードアウトするように、前記時間ドメイン励振信号(532)のピッチ周期の長さに依存して調整するように構成された、請求項25または26に記載のオーディオデコーダ(100;300)。
【請求項28】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、
LPC合成(580)に入力される時間ドメイン励振信号(572)の決定的な成分が、より小さい単位時間当りのピッチ変化を有する信号と比較したとき、より大きい単位時間当りのピッチ変化を有する信号に対して、より速くフェードアウトするように、および/または、LPC合成(580)に入力される時間ドメイン励振信号(572)の決定的な成分が、ピッチ予測が成功する信号と比較したとき、ピッチ予測が失敗する信号に対して、より速くフェードアウトするように、
ピッチ分析(540)またはピッチ予測の結果に依存して調整するように構成された、請求項25〜27のいずれかに記載のオーディオデコーダ(100;300)。
【請求項29】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製を、1つ以上のロストオーディオフレームの時間に対するピッチの予測(540)に依存して時間スケーリングするように構成された、請求項21〜28のいずれかに記載のオーディオデコーダ(100;300)。
【請求項30】
前記エラーコンシールメント(130;380;500)は、1つ以上のロストオーディオフレームの時間的な継続期間より長い時間に対して、前記エラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、請求項1〜29のいずれかに記載のオーディオデコーダ(100;300)。
【請求項31】
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)と、前記1つ以上のロストオーディオフレームに引き続く1つ以上の適切に受信されたオーディオフレームの時間ドメイン表現(122;372,378;512)とのオーバーラップ加算(390;590)を実行するように構成された、請求項30に記載のオーディオデコーダ(100;300)。
【請求項32】
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームまたはロストウィンドウに先行する少なくとも3つの部分的にオーバーラップするフレームまたはウィンドウに基づいて、前記エラーコンシールメントオーディオ情報(132;382;512)を導き出すように構成された、請求項1〜31のいずれかに記載のオーディオデコーダ(100;300)。
【請求項33】
符号化されたオーディオ情報(110;310)に基づいて復号化されたオーディオ情報(112;312)を提供するオーディオデコーダであって、
時間ドメイン励振信号(532)を用いて、周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、エラーコンシールメント(130;380;500)を備え、
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)の合成(580)のための励振信号(572)を取得するために、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームから導き出された前記時間ドメイン励振信号(532)のピッチサイクルを1回または複数回複製するように構成され、
前記エラーコンシールメント(130;380;500)は、バンド幅が周波数ドメイン表現において符号化されたオーディオフレームのサンプリングレートに依存するサンプリングレート依存フィルタを用いて、前記ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームの時間ドメイン表現から導き出された前記時間ドメイン励振信号(532)の前記ピッチサイクルをローパスフィルタリングするように構成された、
オーディオデコーダ(100;300)。
【請求項34】
符号化されたオーディオ情報(110;310)に基づいて復号化されたオーディオ情報(112;312)を提供するオーディオデコーダであって、
時間ドメイン励振信号(532)を用いて、周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、エラーコンシールメント(130;380;500)を備え、
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号(532)を修正するように構成され、
前記エラーコンシールメント(132;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製を修正し、それにより前記エラーコンシールメントオーディオ情報(132;382;512)の周期的な成分を時間とともに低減するように構成され、
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減するように構成され、
前記エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、LPC合成に入力される時間ドメイン励振信号が、より長いピッチ周期の長さを有する信号と比較したとき、より短いピッチ周期の長さを有する信号に対して、より速くフェードアウトするように、前記時間ドメイン励振信号(532)のピッチ周期の長さに依存して調整するように構成された、
オーディオデコーダ(100;300)。
【請求項35】
符号化されたオーディオ情報(110;310)に基づいて復号化されたオーディオ情報(112;312)を提供するオーディオデコーダであって、
時間ドメイン励振信号(532)を用いて、周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、エラーコンシールメント(130;380;500)を備え、
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号(532)を修正するように構成され、
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製を、前記1つ以上のロストオーディオフレームの時間に対するピッチの予測(540)に依存して時間スケーリングするように構成された、
オーディオデコーダ(100;300)。
【請求項36】
符号化されたオーディオ情報(110;310)に基づいて復号化されたオーディオ情報(112;312)を提供するオーディオデコーダであって、
時間ドメイン励振信号(532)を用いて、周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報(132;382;512)を提供するように構成された、エラーコンシールメント(130;380;500)を備え、
前記エラーコンシールメント(130;380;500)は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号(532)を修正するように構成され、
前記エラーコンシールメント(132;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製を修正し、それにより前記エラーコンシールメントオーディオ情報(132;382;512)の周期的な成分を時間とともに低減するように構成され、または、前記エラーコンシールメント(132;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングし、それにより前記時間ドメイン励振信号を修正するように構成され、
前記エラーコンシールメント(130;380;500)は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、
LPC合成(580)に入力される時間ドメイン励振信号(572)の決定的な成分が、より小さい単位時間当りのピッチ変化を有する信号と比較したとき、より大きい単位時間当りのピッチ変化を有する信号に対して、より速くフェードアウトするように、および/または、LPC合成(580)に入力される時間ドメイン励振信号(572)の決定的な成分が、ピッチ予測が成功する信号と比較したとき、ピッチ予測が失敗する信号に対して、より速くフェードアウトするように、
ピッチ分析(540)またはピッチ予測の結果に依存して調整するように構成された、
オーディオデコーダ(100;300)。
【請求項37】
符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法であって、
時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ(910)を備え、
前記方法は、LPC合成(580)に対する入力信号(572)を取得するために、外挿された時間ドメイン励振信号(552)とノイズ信号(562)を結合するステップを備え、
前記方法は、前記LPC合成を実行するステップを備え、
前記LPC合成は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、線形予測符号化パラメータに依存して前記LPC合成の入力信号(572)をフィルタリングし、
前記方法は、前記外挿された時間ドメイン励振信号(552)と結合された前記ノイズ信号(562)をハイパスフィルタリングするステップを備えた、
方法(900)。
【請求項38】
符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法であって、
時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ(910)と、
前記周波数ドメイン表現(322)から導き出された複数のスペクトル値(342)に、スケールファクタベースのスケーリング(360)を適用するステップと、
を備え、
複数の符号化されたスケールファクタ(328)を備える周波数ドメイン表現(322)において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするための前記エラーコンシールメントオーディオ情報(132;382;512)は、前記周波数ドメイン表現から導き出された時間ドメイン励振信号(532)を用いて提供され、
前記時間ドメイン励振信号(532)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームに基づいて取得される、
方法(900)。
【請求項39】
符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法であって、
時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ(910)を備え、
前記周波数ドメイン表現は、複数のスペクトル値の符号化された表現(326)と、前記スペクトル値をスケーリングするための複数のスケールファクタの符号化された表現(328)とを備え、スペクトル値をスケーリングするための複数の復号化スケールファクタ(352、354)は、複数の符号化されたスケールファクタに基づいて提供され、または、前記スペクトル値をスケーリングするための複数のスケールファクタは、LPCパラメータの符号化された表現から導き出され、
前記時間ドメイン励振信号(532)は、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームに基づいて取得される、
方法(900)。
【請求項40】
符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法であって、
時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ(910)を備え、
前記エラーコンシールメントオーディオ情報(132;382;512)の合成(580)のための励振信号(572)を取得するために、ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームから導き出された前記時間ドメイン励振信号(532)のピッチサイクルは、1回または複数回複製され、
前記ロストオーディオフレームに先行する前記周波数ドメイン表現(322)において符号化された前記オーディオフレームの時間ドメイン表現から導き出された前記時間ドメイン励振信号(532)の前記ピッチサイクルは、バンド幅が周波数ドメイン表現において符号化されたオーディオフレームのサンプリングレートに依存するサンプリングレート依存フィルタを用いて、ローパスフィルタリングされる、
方法(900)。
【請求項41】
符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法であって、
時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ(910)を備え、
前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号(532)は修正され、
ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製は修正され、それにより前記エラーコンシールメントオーディオ情報(132;382;512)の周期的な成分を時間とともに低減し、
ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインは徐々に低減され、
ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度は、LPC合成に入力される時間ドメイン励振信号が、より長いピッチ周期の長さを有する信号と比較したとき、より短いピッチ周期の長さを有する信号に対して、より速くフェードアウトするように、前記時間ドメイン励振信号(532)のピッチ周期の長さに依存して調整される、
方法(900)。
【請求項42】
符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法であって、
時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ(910)を備え、
前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号(532)は修正され、
ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製は、前記1つ以上のロストオーディオフレームの時間に対するピッチの予測(540)に依存して時間スケーリングされる、
方法(900)。
【請求項43】
符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法であって、
時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ(910)を備え、
前記方法は、前記エラーコンシールメントオーディオ情報(132;382;512)を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号(532)を修正するステップを備え、
ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製は修正され、それにより前記エラーコンシールメントオーディオ情報(132;382;512)の周期的な成分を時間とともに低減し、または、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製はスケーリングされ、それにより前記時間ドメイン励振信号を修正し、
ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された前記時間ドメイン励振信号(532)またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度は、
LPC合成(580)に入力される時間ドメイン励振信号(572)の決定的な成分が、より小さい単位時間当りのピッチ変化を有する信号と比較したとき、より大きい単位時間当りのピッチ変化を有する信号に対して、より速くフェードアウトするように、および/または、LPC合成(580)に入力される時間ドメイン励振信号(572)の決定的な成分が、ピッチ予測が成功する信号と比較したとき、ピッチ予測が失敗する信号に対して、より速くフェードアウトするように、
ピッチ分析(540)またはピッチ予測の結果に依存して調整される、
方法(900)。
【請求項44】
コンピュータプログラムがコンピュータ上で動作するとき、請求項37〜43のいずれかに記載の方法を実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明に係る実施形態は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供するオーディオデコーダを構築する。
【0002】
本発明に係るいくつかの実施形態は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法を構築する。
【0003】
本発明に係るいくつかの実施形態は、前記方法のうちの1つを実行するコンピュータプログラムを構築する。
【0004】
本発明に係るいくつかの実施形態は、変換ドメインコーデックに対する時間ドメインコンシールメントに関する。
【背景技術】
【0005】
近年、オーディオコンテンツのデジタル伝送と記憶に対して増大する要求がある。しかしながら、オーディオコンテンツは、1つ以上のオーディオフレーム(たとえば、符号化された周波数ドメイン表現または符号化された時間ドメイン表現のような、符号化された表現の形の)を備えるデータユニット(たとえば、パケット)が失われるリスクをもたらす信頼できないチャネル上をしばしば伝送される。いくつかの状況において、ロストオーディオフレーム(または1つ以上のロストオーディオフレームを備える、パケットのようなデータユニット)の反復(再送信)を要求することが可能である。しかしながら、これは、通常は実質的な遅延をもたらし、それ故にオーディオフレームの広範囲にわたるバッファリングを必要とする。他のケースでは、ロストオーディオフレームの反復を要求することがほとんど可能でない。
【0006】
広範囲にわたるバッファリング(これは大量のメモリを消費し、オーディオ符号化能力を実質的に劣化させる)を提供することなくオーディオフレームが失われるケースが提供される良好なまたは少なくとも許容されるオーディオ品質を得るために、1つ以上のオーディオフレームのロスを処理するコンセプトを有することが望ましい。特に、オーディオフレームが失われたケースにおいてさえ、良好なオーディオ品質または少なくとも許容されるオーディオ品質をもたらすコンセプトを有することが望ましい。
【0007】
過去において、異なるオーディオ符号化コンセプトにおいて使用することができるいくつかのエラーコンシールメントコンセプトが開発されてきた。
【0008】
以下に、従来のオーディオ符号化コンセプトが記述される。
【0009】
3gpp規格TS26.290において、エラーコンシールメントによる変換−符号化−励振−復号化(TCX復号化)が説明される。以下に、参考文献[1]におけるセクション「TCXモード復号化および信号合成」に基づくいくつかの説明が提供される。
【0010】
図7および8において、国際規格3gppTS26.290によるTCXデコーダが示されており、図7および8はTCXデコーダのブロック図を示す。しかしながら、図7は、通常演算におけるTCX復号化または部分的なパケットロスのケースに関連するそれらの機能ブロックを示す。対照的に、図8は、TCX−256パケット消去コンシールメントのケースにおけるTCX復号化の関連する処理を示す。
【0011】
言い換えれば、図7および8は、以下のケースを含むTCXデコーダのブロック図を示す。
【0012】
ケース1(図8):TCXフレーム長が256のサンプルであり、関連するパケットが失われたときのTCX−256におけるパケット消去コンシールメント、すなわちBFI_TCX=(1)
【0013】
ケース2(図7):通常のTCX復号化、おそらく部分的なパケットロスによる。
【0014】
以下に、いくつかの説明が図7および8に関して提供される。
【0015】
上述のように、図7は、通常演算におけるまたは部分的なパケットロスのケースにおけるTCX復号化を実行するTCXデコーダのブロック図を示す。図7によるTCXデコーダ700は、TCX特定のパラメータ710を受信し、それに基づいて復号化されたオーディオ情報712、714を提供する。
【0016】
オーディオデコーダ700は、TCX特定のパラメータ710および情報「BFI_TCX」を受信するように構成された、デマルチプレクサ「DEMUX TCX 720」を備える。デマルチプレクサ720は、TCXに特定のパラメータ710を分離し、符号化された励振情報722と、符号化されたノイズ充填情報724と、符号化されたグローバルゲイン情報726とを提供する。オーディオデコーダ700は、符号化された励振情報722と、符号化されたノイズ充填情報724と、符号化されたグローバルゲイン情報726とを、いくつかの付加情報(たとえば、ビットレートフラグ「bit_rate_flag」、情報「BFI_TCX」およびTCXフレーム長情報のような)とともに受信するように構成された、励振デコーダ730を備える。励振デコーダ730は、それに基づいて、xによっても示される時間ドメイン励振信号728を提供する。励振デコーダ730は、励振情報プロセッサ732を備える。符号化された励振情報722をデマルチプレクスし、代数ベクトル量子化パラメータを復号化する。励振情報プロセッサ732は、通常は周波数ドメイン表現にあり、Yによって示される中間励振信号734を提供する。励振エンコーダ730は、中間励振信号734からノイズ充填された励振信号738を導き出すために、非量子化されたサブバンドにノイズを注入するように構成された、ノイズインジェクタ736も備える。ノイズ充填された励振信号738は、通常は周波数ドメインにあって、Zによって示される。ノイズインジェクタ736は、ノイズ充填レベルデコーダ740からノイズ強度情報742を受信する。励振デコーダは、ノイズ装填された励振信号738に基づいて低周波デエンファシス演算を実行し、それによって、依然として周波数ドメインにあり、Xによって示される処理された励振信号746を取得するように構成された、適応低周波デエンファシス744も備える。励振デコーダ730は、処理された励振信号746を受信し、それに基づいて周波数ドメイン励振パラメータ(たとえば、処理された励振信号746)のセットによって表される特定の時間部分に関連する、時間ドメイン励振信号750を提供するように構成された、周波数ドメイン−時間ドメイン変換器748も備える。励振デコーダ730は、時間ドメイン励振信号754をスケーリングし、それによってスケーリングされた時間ドメイン励振信号750を取得するように構成された、スケーラ752も備える。スケーラ752は、グローバルゲインデコーダ758からグローバルゲイン情報756を受信し、代わりにグローバルゲインデコーダ758は、符号化されたグローバルゲイン情報726を受信する。励振デコーダ730は、複数の時間部分に関連するスケーリングされた時間ドメイン励振信号754を受信する、オーバーラップ加算合成760を備える。オーバーラップ加算合成760は、時間においてより長い期間(個々の時間ドメイン励振信号750、754が提供される時間より長い期間)に対して、一時的に結合された時間ドメイン励振信号728を取得するために、スケーリングされた時間ドメイン励振信号754に基づいてオーバーラップ加算演算(それは、ウィンドウ処理演算を含むことができる)を実行する。
【0017】
オーディオデコーダ700は、オーバーラップ加算合成760によって提供される時間ドメイン励振信号728と、LPC合成フィルタ関数772を定義する1つ以上のLPC係数とを受信する、LPC合成770も備える。LPC合成770は、たとえば、時間ドメイン励振信号728を合成フィルタリングし、これにより復号化されたオーディオ信号712を取得することができる、第1のフィルタ774を備えることができる。オプションとして、LPC合成770は、他の合成フィルタ関数を用いて第1のフィルタ714の出力信号を合成フィルタリングし、それにより復号化されたオーディオ信号714を取得するように構成された、第2の合成フィルタ772を備えることができる。
【0018】
以下に、TCX復号化は、TCX−256パケット消去コンシールメントのケースにおいて記述される。図8は、このケースにおけるTCXデコーダのブロック図を示す。
【0019】
パケット消去コンシールメント800は、「pitch_tcx」によっても示され、前の復号化されたTCXフレームから得られる、ピッチ情報810を受信する。たとえば、ピッチ情報810は、励振デコーダ730において(「通常の」復号化の間)、支配的ピッチ推定器747を用いて、処理された励振信号746から取得することができる。さらに、パケット消去コンシールメント800は、LPC合成フィルタ関数を表すことができる。LPCパラメータ812を受信する。LPCパラメータ812は、たとえば、LPCパラメータ772と同一とすることができる。従って、パケット消去コンシールメント800は、ピッチ情報810とLPCパラメータ812とに基づいて、エラーコンシールメントオーディオ情報と考えることができるエラーコンシールメント信号814を提供するように構成することができる。パケット消去コンシールメント800は、たとえば、前の励振をバッファリングすることができる、励振バッファ820を備える。励振バッファ820は、たとえば、ACELPの適応コードブックを使用することができ、励振信号822を提供することができる。パケット消去コンシールメント800は、フィルタ関数が図8に示されるように定義することができる、第1のフィルタ824を更に備えることができる。このように、第1のフィルタ824は、励振信号822のフィルタリングされたバージョン826を取得するために、LPCパラメータ812に基づいて励振信号822をフィルタリングすることができる。パケット消去コンシールメントは、ターゲット情報またはレベル情報rmswsynに基づいて、フィルタリングされた励振信号826の振幅を制限することができる、振幅リミッタ828も備える。さらに、パケット消去コンシールメント800は、振幅リミッタ822から振幅制限されたフィルタリングされた励振信号830を受信し、それに基づいて、エラーコンシールメント信号814を提供するように構成された、第2のフィルタ832を備えることができる。第2のフィルタ832のフィルタ関数は、たとえば、図8に示すように定義することができる。
【0020】
以下に、復号化およびエラーコンシールメントに関するいくつかの詳細が記述される。
【0021】

【0022】
ステップ1:Tによって遅延された励振をTCXターゲットドメインにマップするために、次式によってフィルタリングする。
【0023】
ステップ2:リミッタ(大きさが±rmswsynに制限される)を適用する。
【0024】
ステップ3:合成を求めるために、次式によってフィルタリングする。
このケースにおいて、バッファOVLP_TCXはゼロにセットされることに留意されたい。
【0025】
代数VQパラメータの復号化
【0026】
【0027】
a)第5.3.5.7節のステップ5において記述されたような単一体のコードで送信される、コードブックインデックスnk
【0028】
b)格子点cを得るために、特定のリーダー(セクション5.3.5.7のステップ5を参照)に対してどのような置換が適用されなければならないかを示す、いわゆるベースコードブックにおける選択された格子点cのランクlk
【0029】
【0030】
【0031】
【0032】
支配的なピッチ値の推定
【0033】
それがTCX−256に対応する場合および関連するパケットが失われた場合に、支配的なピッチの推定が実行され、復号化される次のフレームは適切に外挿することができる。この推定は、TCXターゲットのスペクトルにおける最大限の大きさのピークが支配的なピッチに対応しているという仮定に基づいている。最大Mの探索は、Fs/64kHz以下の周波数に制限され、
【0034】
【0035】
【0036】
以下に、いくつかの更なる従来のコンセプトが簡単に議論される。
【0037】
ISO_IEC_DIS_23003−3(参考文献[3])において、MDCTを使用するTCX復号化は、統合されたスピーチおよびオーディオコーデックの文脈において説明される。
【0038】
AAC技術水準(たとえば、参考文献[4]を与える)において、内挿モードのみが記述される。参考文献[4]によれば、AACコアデコーダは、デコーダの遅延が1フレームだけ増えるコンシールメント関数を含む。
【0039】
ヨーロッパ特許EP1207519B1(参考文献[5])において、エラーが検出されたフレームにおいて、復号化されたスピーチに対して、更なる改良を達成することができるスピーチデコーダおよびエラー補償方法を提供することが記載されている。この特許によれば、スピーチ符号化パラメータは、スピーチの各ショートセグメント(フレーム)の構成を表すモード情報を含んでいる。スピーチコーダは、モード情報に従って、スピーチの復号化に用いられる遅延パラメータおよびゲインパラメータを最適に計算する。さらに、スピーチデコーダは、モード情報に従って、適応励振ゲインと固定励振ゲインとの比率を最適に制御する。さらに、この特許に係るコンセプトは、符号化されたデータがエラーを含むことが検出される復号化ユニットの直後に、エラーが検出されない通常の復号化ユニットにおいて、復号化されたゲインパラメータの値に従って、スピーチの復号化に用いられる適応制御する適応励振ゲインパラメータと固定励振ゲインパラメータとを備えることである。
【0040】
ここで、従来技術からみて、より良好な聴覚インプレッションを提供するエラーコンシールメントの付加的な改良に対するニーズがある。
【発明の概要】
【0041】
本発明に係る実施形態は、符号化されたオーディオ情報に基づいて、復号化されたオーディオ情報を提供するオーディオデコーダを構築する。オーディオデコーダは、周波数ドメイン表現において符号化されたオーディオフレームに引き続く1つのオーディオフレームのロス(または複数のフレームのロス)をコンシールするために、時間ドメイン励振信号を用いて、エラーコンシールメントオーディオ情報を提供するように構成された、エラーコンシールメントを備える。
【0042】
本発明に係るこの実施形態は、ロストオーディオフレームに先行するオーディオフレームが周波数ドメイン表現において符号化された場合であっても、時間ドメイン励振信号に基づいてエラーコンシールメントオーディオ情報を提供することによって、改良されたエラーコンシールメントを得ることができるという発見に基づいている。言い換えれば、周波数ドメインにおいて実行されたエラーコンシールメントと比較するとき、ロストオーディオフレームに先行するオーディオコンテンツが周波数ドメインにおいて(すなわち、周波数ドメイン表現において)符号化された場合であっても、時間ドメイン励振信号を用いて、時間ドメインエラーコンシールメントにスイッチングすることに価値があるように、エラーコンシールメントが時間ドメイン励振信号に基づいて実行される場合に、エラーコンシールメントの品質が通常は良好であると認識される。それは、たとえば、モノラル信号に対して、そして大抵はスピーチに対して真である。
【0043】
したがって、ロストオーディオフレームに先行するオーディオフレームが周波数ドメインにおいて(すなわち、周波数ドメイン表現において)符号化された場合であっても、本発明は良好なエラーコンシールメントを得ることができる。
【0044】
好ましい実施形態において、周波数ドメイン表現は、スペクトル値のスケーリングに対して、複数のスペクトル値の符号化された表現と複数のスケールファクタの符号化された表現とを備える、またはオーディオデコーダは、LPCパラメータの符号化された表現から、スペクトル値のスケーリングに対して、複数のスケールファクタを導き出すように構成される。それは、FDNS(周波数ドメインノイズ成形)を用いて行うことができる。しかしながら、ロストオーディオフレームに先行するオーディオフレームが、実質的に異なる情報(すなわち、スペクトル値のスケーリングに対して、複数のスケールファクタの符号化された表現における複数のスペクトル値の符号化された表現)を備える周波数ドメイン表現において、もともと符号化された場合であっても、時間ドメイン励振信号を導き出すこと(それはLPC合成のための励振として役立つことができる)に価値があることが分かっている。たとえば、TCXのケースにおいて、スケールファクタを(エンコーダからデコーダまで)送信しないが、LPCにおいて、従ってデコーダにおいて、LPCをMDCTビンに対するスケールファクタ表現に変換する。違う言葉で表現すれば、TCXのケースにおいて、LPC係数を送信し、従ってデコーダにおいて、USACにおけるまたはAMR−WB+におけるTCXに対して、それらのLPC係数をスケールファクタ表現に変換し、スケールファクタが全くない。
【0045】
好ましい実施形態において、オーディオデコーダは、周波数ドメイン表現から導き出された複数のスペクトル値に対して、スケールファクタベースのスケーリングを適用するように構成された、周波数ドメインデコーダコアを備える。このケースにおいて、エラーコンシールメントは、複数の符号化されたスケールファクタを備える周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするために、周波数ドメイン表現から導き出された時間ドメイン励振信号を用いて、エラーコンシールメントオーディオ情報を提供するように構成される。本発明に係るこの実施形態は、上述された周波数ドメイン表現からの時間ドメイン励振信号の導出が、周波数ドメインにおいて直接実行されたエラーコンシールメントと比較したとき、通常はより良好なエラーコンシールメント結果を提供するという発見に基づいている。たとえば、励振信号は、前のフレームの合成に基づいて構築され、従って前のフレームが周波数ドメイン(MDCTに、FFT…)であるか時間ドメインフレームであるかはあまり重要でない。しかしながら、前のフレームが周波数ドメインであった場合、特別な効果が観測される可能性がある。さらに、スピーチのようなモノラル信号に対して、たとえば、特に良好な結果が達成されることに留意すべきである。他の実施例として、スケールファクタは、たとえばデコーダ側において次にスケールファクタに変換される多項表現を用いて、LPC係数として送信することができるかもしれない。
【0046】
好ましい実施形態において、オーディオデコーダは、周波数ドメイン表現において符号化されたオーディオフレームに対して、時間ドメイン励振信号を中間量として用いることなく、周波数ドメイン表現から時間ドメインオーディオ信号表現を導き出すように構成された、周波数ドメインデコーダコアを備える。言い換えれば、エラーコンシールメントに対する時間ドメイン励振信号の使用は、ロストオーディオフレームに先行するオーディオフレームが中間量としていかなる時間ドメイン励振信号も使用しない(そして、結果的にLPC合成に基づかない)「真の」周波数モードにおいて符号化される場合であっても、有利であることが分かっている。
【0047】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームに基づいて、時間ドメイン励振信号を取得するように構成される。このケースにおいて、エラーコンシールメントは、ロストオーディオフレームをコンシールするために、前記時間ドメイン励振信号を用いて、エラーコンシールメントオーディオ情報を提供するように構成される。言い換えれば、エラーコンシールメントに対して用いられる時間ドメイン励振信号は、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームから導き出されたこの時間ドメイン励振信号がロストオーディオフレームに先行するオーディオフレームのオーディオコンテンツの良好な表現を提供するので、エラーコンシールメントが適度な労力と良好な精度によって実行することができるように、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームから導き出されなければならないと認識されている。
【0048】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームのオーディオコンテンツを表現する線形予測符号化パラメータと時間ドメイン励振信号のセットを取得するために、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームに基づいてLPC分析を実行するように構成される。ロストオーディオフレームに先行するオーディオフレームが周波数ドメイン表現において符号化された(それは、いかなる線形予測符号化パラメータおよび時間ドメイン励振信号の表現も含まない)場合であっても、前記時間ドメイン励振信号に基づいて多くの入力オーディオ信号に対して良好な品質のエラーコンシールメントオーディオ情報を得ることができるので、線形予測符号化パラメータおよび時間ドメイン励振信号を導き出すために、LPC分析を実行する労力に値することが分かっている。代替として、エラーコンシールメントは、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームに基づいてLPC分析を実行し、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームのオーディオコンテンツを表現する時間ドメイン励振信号を取得するように構成することができる。更に代替として、オーディオデコーダは、線形予測符号化パラメータ推定を用いて線形予測符号化パラメータのセットを取得するように構成することができ、またはオーディオデコーダは、スケールファクタのセットに基づいて、変換を用いて線形予測符号化パラメータのセットを取得するように構成することができる。違う言葉で表現すれば、LPCパラメータは、LPCパラメータ推定を用いて取得することができる。それは、周波数ドメイン表現において符号化されたオーディオフレームに基づいて、窓化/自己相関/レビンソン・ダービンのいずれかによって、または前のスケールファクタからのLPC表現への直接の変換によって、行うことができる。
【0049】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する周波数ドメインにおいて符号化されたオーディオフレームのピッチを記述するピッチ(または遅延)情報を取得し、そのピッチ情報に依存してエラーコンシールメントオーディオ情報を提供するように構成される。ピッチ情報を考慮に入れることによって、エラーコンシールメントオーディオ情報(それは、通常は少なくとも1つのロストオーディオフレームの時間的な継続期間をカバーしているエラーコンシールメントオーディオ信号である)が、実際のオーディオコンテンツによく適応していることを達成することができる。
【0050】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームから導き出された時間ドメイン励振信号に基づいてピッチ情報を取得するように構成される。時間ドメイン励振信号からのピッチ情報の導出は、高精度をもたらすことが分かっている。さらに、ピッチ情報は時間ドメイン励振信号の修正に対して用いられるので、ピッチ情報が時間ドメイン励振信号によく適応している場合に有効であることが分かっている。時間ドメイン励振信号からピッチ情報を導き出すことによって、このような密接関係を達成することができる。
【0051】
好ましい実施形態において、エラーコンシールメントは、時間ドメイン励振信号の相互相関を評価し、粗いピッチ情報を決定するように構成される。さらに、エラーコンシールメントは、粗いピッチ情報によって決定されたピッチの周辺でクローズドループを用いて粗いピッチ情報をリファインするように構成することができる。したがって、適度な演算労力によって非常に正確なピッチ情報を獲得することができる。
【0052】
好ましい実施形態において、オーディオデコーダのエラーコンシールメントは、符号化されたオーディオ情報のサイド情報に基づいてピッチ情報を取得するように構成することができる。
【0053】
好ましい実施形態において、エラーコンシールメントは、前に復号化されたオーディオフレームに対して利用可能なピッチ情報に基づいてピッチ情報を取得するように構成することができる。
【0054】
好ましい実施形態において、エラーコンシールメントは、時間ドメイン信号または残差信号に対して実行されるピッチ探索に基づいてピッチ情報を取得するように構成される。
【0055】
違う言葉で表現すれば、ピッチは、サイド情報として伝送することができ、または、たとえばLTPがある場合は前のフレームから来ることもできる。ピッチ情報は、エンコーダで利用可能であれば、ビットストリームにおいて伝送することもできる。オプションとして、時間ドメイン信号上で直接または残差上でピッチ探索を行うことができ、通常は残差(時間ドメイン励振信号)上でより良好な結果を与える。
【0056】
好ましい実施形態において、エラーコンシールメントは、エラーコンシールメントオーディオ信号の合成のための励振信号を取得するために、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームから導き出された時間ドメイン励振信号のピッチサイクルを1回または複数回複製するように構成される。時間ドメイン励振信号を1回または複数回複製することによって、エラーコンシールメントオーディオ情報の決定的な(すなわち実質的に周期的な)成分が良好な精度で取得され、ロストオーディオフレームに先行するオーディオフレームのオーディオコンテンツの決定的な(たとえば実質的に周期的な)成分の良好な継続であることを達成することができる。
【0057】
好ましい実施形態において、エラーコンシールメントは、バンド幅が周波数ドメイン表現において符号化されたオーディオフレームのサンプリングレートに依存する、サンプリングレート依存フィルタを用いて、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームの周波数ドメイン表現から導き出された時間ドメイン励振信号のピッチサイクルをローパスフィルタリングするように構成される。したがって、時間ドメイン励振信号は、良好な聴覚インプレッションに結果としてなるエラーコンシールメントオーディオ情報の利用可能なオーディオバンド幅に適応することができる。たとえば、最初のロストフレームのみをローパスすることが好ましく、好ましくは信号が100%安定でない場合にのみローパスする。しかしながら、ローパスフィルタリングはオプションであり、最初のピッチサイクルのみに対して実行することができることに留意すべきである。たとえば、フィルタは、カットオフ周波数がバンド幅から独立するように、サンプリングレート依存とすることができる。
【0058】
好ましい実施形態において、エラーコンシールメントは、時間ドメイン励振信号またはその1つ以上の複製を予測されたピッチに適応させるため、ロストフレームの終りにおけるピッチを予測するように構成される。したがって、ロストオーディオフレームの間の予想されるピッチ変化を考慮することができる。結果的に、エラーコンシールメントオーディオ情報と1つ以上のロストオーディオフレームに引き続く適切に復号化されたフレームのオーディオ情報の間の遷移におけるアーチファクトが回避される(または、それが予測されたピッチのみであって実際のものではないので、少なくとも低減される)。たとえば、適応は、最後の良好なピッチから予測されたものまで進行する。それは、パルス再同期[7]によって行われる。
【0059】
好ましい実施形態において、エラーコンシールメントは、LPC合成のための入力信号を取得するために、外挿された時間ドメイン励振信号とノイズ信号とを結合するように構成される。このケースにおいて、エラーコンシールメントは、LPC合成を実行するように構成され、LPC合成は、エラーコンシールメントオーディオ情報を取得するために、線形予測符号化パラメータに依存してLPC合成の入力信号をフィルタリングするように構成される。したがって、オーディオコンテンツの決定的な(たとえば、ほぼ周期的な)成分とオーディオコンテンツのノイズライクな成分の両方を考慮することができる。
したがって、エラーコンシールメントオーディオ情報は、「自然な」聴覚インプレッションを備えることが達成される。
【0060】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する周波数ドメインにおいて符号化されたオーディオフレームの時間ドメイン表現に基づいて実行される時間ドメインにおける相関を用いて、LPC合成のための入力信号を取得するために用いられる、外挿された時間ドメイン励振信号のゲインを演算するように構成され、相関遅延は時間ドメイン励振信号に基づいて取得されたピッチ情報に依存してセットされる。言い換えれば、周期的な成分の強度は、ロストオーディオフレームに先行するオーディオフレーム内で決定され、この決定された周期的な成分の強度はエラーコンシールメントオーディオ情報を取得するために用いられる。しかしながら、周期成分の強度の上述された演算は、ロストオーディオフレームに先行するオーディオフレームの実際の時間ドメインオーディオ信号が考慮されるので、特に良好な結果を提供することが分かっている。代替として、励振ドメインにおけるまたは直接時間ドメインにおける相関を、ピッチ情報を取得するために用いることができる。しかしながら、どの実施形態が用いられるかによって異なる可能性もある。実施形態において、ピッチ情報は、最後のフレームのltpから取得されたピッチのみまたはサイド情報として伝送されたピッチまたは計算されたものとすることができる。
【0061】
好ましい実施形態において、エラーコンシールメントは、外挿された時間ドメイン励振信号と結合されたノイズ信号をハイパスフィルタリングするように構成される。ノイズ信号(それは、通常はLPC合成に入力される)をハイパスフィルタリングすることは、自然な聴覚インプレッションに結果としてなることが分かっている。たとえば、ハイパス特性は、フレームロスの量によって変化させることができ、一定量のフレームロスの後にこれ以上ハイパスしないようにすることができる。ハイパス特性は、デコーダが実行するサンプリングレートに依存させることもできる。たとえば、ハイパスはサンプリングレート依存であり、フィルタ特性を時間とともに(連続するフレームロス上で)変えることができる。ハイパス特性は、オプションとして、バックグラウンドノイズに接近する良好な快適なノイズを得るために、一定量のフレームロスの後に、フルバンド形状にされたノイズのみを取得するために、これ以上フィルタリングしないように、連続するフレームロス上で変えることができる。
【0062】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームが有声のオーディオフレームであるまたは立上りを備える場合に、ノイズ信号が外挿された時間ドメイン励振信号と結合されるプリエンファシスフィルタを用いて、ノイズ信号(562)のスペクトル形状を選択的に変えるように構成される。エラーコンシールメントオーディオ情報の聴覚インプレッションは、この種のコンセプトによって改善できることが分かっている。たとえば、いくつかのケースにおいてゲインや形状を減らすことはより良好であり、いくつかの所においてそれを増やすことはより良好である。
【0063】
好ましい実施形態において、エラーコンシールメントは、時間ドメインにおける相関に依存してノイズ信号のゲインを演算するように構成され、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームの時間ドメイン表現に基づいて実行される。ノイズ信号のゲインのこの種の決定は、ロストオーディオフレームに先行するオーディオフレームに関連する実際の時間ドメインオーディオ信号を考慮することができるので、特に正確な結果を提供することが分かっている。このコンセプトを用いて、前の良好なフレームのエネルギーに近い、コンシールされたフレームのエネルギーを得ることができる可能性がある。たとえば、ノイズ信号に対するゲインは、結果のエネルギー:入力信号の励振−生成されたピッチベースの励振、を測定することによって生成することができる。
【0064】
好ましい実施形態において、エラーコンシールメントは、エラーコンシールメントオーディオ情報を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号を修正するように構成される。時間ドメイン励振信号の修正は、時間ドメイン励振信号を所望の時間的進化に適応させることを可能とすることが分かっている。たとえば、時間ドメイン励振信号の修正は、エラーコンシールメントオーディオ情報において、オーディオコンテンツの決定的な(たとえば、実質的に周期的な)成分を「フェードアウト」させることを可能とする。さらに、時間ドメイン励振信号の修正は、時間ドメイン励振信号を(推定されたまたは予想された)ピッチ変動に適応させることも可能とする。これは、エラーコンシールメントオーディオ情報の特性を、時間とともに調整することを可能とする。
【0065】
好ましい実施形態において、エラーコンシールメントは、エラーコンシールメント情報を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号の1つ以上の修正された複製を用いるように構成される。時間ドメイン励振信号の修正された複製は、適度な労力によって取得することができ、修正は単純なアルゴリズムを用いて実行することができる。このように、エラーコンシールメントオーディオ情報の所望の特性は、適度な労力によって達成することができる。
【0066】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製を修正し、これによりエラーコンシールメントオーディオ情報の周期的な成分を時間とともに低減するように構成される。したがって、ロストオーディオフレームに先行するオーディオフレームのオーディオコンテンツと1つ以上のロストオーディオフレームのオーディオコンテンツとの間の相関が時間とともに減少すると考えることができる。また、エラーコンシールメントオーディオ情報の周期的な成分の長い維持によって不自然な聴覚インプレッションが生じることを回避することができる。
【0067】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングし、それにより時間ドメイン励振信号を修正するように構成される。スケーリング演算は少ない労力によって実行することができ、スケーリングされた時間ドメイン励振信号は、通常は良好なエラーコンシールメントオーディオ情報を提供することが分かっている。
【0068】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減するように構成される。したがって、周期的な成分のフェードアウトは、エラーコンシールメントオーディオ情報内で達成することができる。
【0069】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、ロストオーディオフレームに先行する1つ以上のオーディオフレームの1つ以上のパラメータに依存しておよび/または連続するロストオーディオフレームの数に依存して調整するように構成される。したがって、決定的な(たとえば、少なくともほぼ周期的な)成分がエラーコンシールメントオーディオ情報においてフェードアウトする速度を調整することが可能である。フェードアウトの速度は、ロストオーディオフレームに先行する1つ以上のオーディオフレームの1つ以上のパラメータから通常分かるオーディオコンテンツの特定の特性に適応させることができる。代替としてまたは加えて、エラーコンシールメントオーディオ情報の決定的な(たとえば、少なくともほぼ周期的な)成分をフェードアウトする速度を決定するときに、連続するロストオーディオフレームの数を考慮することができ、それはエラーコンシールメントを特定の状況に適応させることを助ける。たとえば、音のパートのゲインおよびノイズの多いパートのゲインは、別々にフェードアウトさせることができる。音のパートに対するゲインは、一定量のフレームロスの後にゼロまで収束させることができるが、ノイズのゲインは、特定の快適なノイズに到達するために決定されるゲインに収束させることができる。
【0070】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、LPC合成に入力される時間ドメイン励振信号が、より長いピッチ周期の長さを有する信号と比較したとき、より短いピッチ周期の長さを有する信号に対してより速くフェードアウトするように、時間ドメイン励振信号のピッチ周期の長さに依存して調整するように構成される。したがって、より短いピッチ周期長を有する信号が高い強度で非常にしばしば繰り返されることは、通常は不自然な聴覚インプレッションに結果としてなるので、回避することができる。このように、エラーコンシールメントオーディオ情報の全体の品質を改善することができる。
【0071】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、LPC合成に入力される時間ドメイン励振信号の決定的な成分が、より小さい単位時間当りのピッチ変化を有する信号と比較したとき、より大きい単位時間当りのピッチ変化を有する信号に対して、より速くフェードアウトするように、および/または、LPC合成に入力される時間ドメイン励振信号の決定的な成分が、ピッチ予測が成功する信号と比較したとき、ピッチ予測が失敗する信号に対して、より速くフェードアウトするように、ピッチ分析またはピッチ予測の結果に依存して調整するように構成される。したがって、フェードアウトは、より小さいピッチの不確定度がある信号と比較したとき、大きいピッチの不確定度がある信号に対してより速くすることができる。しかしながら、比較的大きいピッチの不確定度を備える信号に対して、決定的な成分をより速くフェードアウトさせることによって、聞き取れるアーチファクトを回避することができるまたは少なくとも実質的に低減することができる。
【0072】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製を、1つ以上のロストオーディオフレームの時間に対するピッチの予測に依存して時間スケーリングするように構成される。したがって、時間ドメイン励振信号は、エラーコンシールメントオーディオ情報がより自然な聴覚インプレッションを備えるように、変動するピッチに適応させることができる。
【0073】
好ましい実施形態において、エラーコンシールメントは、1つ以上のロストオーディオフレームの時間的な継続期間より長い時間に対して、エラーコンシールメントオーディオ情報を提供するように構成される。したがって、エラーコンシールメントオーディオ情報に基づいて、オーバーラップ加算演算を実行することが可能であり、それはブロッキングアーチファクトを低減することを助ける。
【0074】
好ましい実施形態において、エラーコンシールメントは、エラーコンシールメントオーディオ情報と1つ以上のロストオーディオフレームに引き続く1つ以上の適切に受信されたオーディオフレームの時間ドメイン表現とのオーバーラップ加算を実行するように構成される。このように、ブロッキングアーチファクトを回避する(または少なくとも低減する)ことが可能である。
【0075】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームまたはロストウィンドウに先行する少なくとも3つの部分的にオーバーラップするフレームまたはウィンドウに基づいてエラーコンシールメントオーディオ情報を導き出すように構成される。したがって、エラーコンシールメントオーディオ情報は、2つ以上のフレーム(またはウィンドウ)がオーバーラップする(この種のオーバーラップは、遅延を低減するのを助けることができる)符号化モードに対してでさえ、良好な精度で取得することができる。
【0076】
本発明に係る他の実施形態は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法を構築する。この方法は、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするために、時間ドメイン励振信号を用いて、エラーコンシールメントオーディオ情報を提供するステップを備える。この方法は、上述したオーディオデコーダと同じ考察に基づいている。
【0077】
本発明に係る更に他の実施形態は、コンピュータプログラムがコンピュータ上で動作するときに、前記方法を実行するためのコンピュータプログラムを構築する。
【0078】
本発明に係る他の実施形態は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供するオーディオデコーダを構築する。このオーディオデコーダは、オーディオフレームのロスをコンシールするために、エラーコンシールメントオーディオ情報を提供するように構成された、エラーコンシールメントを備える。エラーコンシールメントは、エラーコンシールメントオーディオ情報を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号を修正するように構成される。
【0079】
本発明に係るこの実施形態は、良好なオーディオ品質を有するエラーコンシールメントは時間ドメイン励振信号に基づいて取得することができるというアイデアに基づいており、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号の修正は、ロストフレームの間、オーディオコンテンツの予想される(または予測される)変化に対するエラーコンシールメントオーディオ情報の適応を可能とする。したがって、アーチファクトおよび、特に、時間ドメイン励振信号の変化しない使用によって生じる不自然な聴覚インプレッションを、回避することができる。
結果的に、エラーコンシールメントオーディオ情報の改良された提供は、ロストオーディオフレームを改良された結果によってコンシールすることができるように達成することができる。
【0080】
好ましい実施形態において、エラーコンシールメントは、エラーコンシールメント情報を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号の1つ以上の修正された複製を用いるように構成される。ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号の1つ以上の修正された複製を用いることによって、エラーコンシールメントオーディオ情報の良好な品質を小さい演算労力によって達成することができる。
【0081】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号またはその1つ以上の複製を修正し、それによりエラーコンシールメントオーディオ情報の周期的な成分を時間とともに低減するように構成される。エラーコンシールメントオーディオ情報の周期的な成分を時間とともに低減することによって、決定的な(たとえば、ほぼ周期的な)音の不自然に長い維持を回避することができ、エラーコンシールメントオーディオ情報が自然に聞こえるようにすることを助ける。
【0082】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングし、それにより時間ドメイン励振信号を修正するように構成される。時間ドメイン励振信号のスケーリングは、エラーコンシールメントオーディオ情報を時間とともに変化させる特に効率的な方法を組成する。
【0083】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減するように構成される。ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減することが、決定的な成分(たとえば、少なくともほぼ周期的な成分)がフェードアウトされるように、エラーコンシールメントオーディオ情報の提供に対して時間ドメイン励振信号を取得することを可能にすることが分かっている。たとえば、それは1つのゲインのみでなくてもよい。たとえば、音のパート(ほぼ周期的なパートとも称される)に対して1つのゲインを持ち、ノイズパートに対して1つのゲインを持つことができる。両方の励振(または励振成分)は、異なる速度係数によって別々に減衰させることができ、そのとき2つの結果として生じる励振(または励振成分)を、合成のためにLPCに供給する前に結合することができる。いかなるバックグラウンドノイズの推定もないケースにおいて、ノイズに対するフェードアウトファクタと音のパートに対するフェードアウトファクタは類似している可能性があり、1つのフェードアウトのみを、それぞれ固有のゲインで乗算された2つの励振の結果に適用し、一緒に結合するようにすることができる。
【0084】
このように、エラーコンシールメントオーディオ情報は、通常は不自然な聴覚インプレッションを提供する時間的に拡張された決定的な(たとえば、少なくともほぼ周期的な)オーディオ成分を備えることを回避することができる。
【0085】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、ロストオーディオフレームに先行する1つ以上のオーディオフレームの1つ以上のパラメータに依存しておよび/または連続するロストオーディオフレームの数に依存して調整するように構成される。このように、エラーコンシールメントオーディオ情報における決定的な(たとえば、少なくともほぼ周期的な)成分のフェードアウトの速度は、適度な演算労力で特定の状況に適応させることができる。エラーコンシールメントオーディオ情報の提供に対して用いられる時間ドメイン励振信号は、通常はロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号のスケーリングされた(前述のゲインを用いてスケーリングされた)バージョンであるので、前記ゲイン(エラーコンシールメントオーディオ情報の提供に対して時間ドメイン励振信号を導き出すために用いられる)のバリエーションは、エラーコンシールメントオーディオ情報を特定ニーズに適応させる単純であるが効果的な方法を組成する。しかしながら、フェードアウトの速度は、ごくわずかな労力で制御可能でもある。
【0086】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、LPC合成に入力される時間ドメイン励振信号が、より大きいピッチ周期の長さを有する信号と比較したとき、より短いピッチ周期の長さを有する信号に対して、より速くフェードアウトするように、時間ドメイン励振信号のピッチ周期の長さに依存して調整するように構成される。したがって、フェードアウトは、より短いピッチ周期の長さを有する信号に対してより速く実行され、ピッチ周期が非常に頻繁に複製される(それは、通常は不自然な聴覚インプレッションに結果としてなる)ことを回避する。
【0087】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して取得された時間ドメイン励振信号またはその1つ以上の複製をスケーリングするために適用されるゲインを徐々に低減する速度を、LPC合成に入力された時間ドメイン励振信号の決定的な成分が、より小さい単位時間当りのピッチ変化を有する信号と比較したとき、より大きい単位時間当りのピッチ変化を有する信号に対して、より速くフェードアウトするように、および/または、LPC合成に入力された時間ドメイン励振信号の決定的な成分が、ピッチ予測が成功する信号と比較したとき、ピッチ予測が失敗する信号に対して、より速くフェードアウトするように、ピッチ分析またはピッチ予測の結果に依存して調整するように構成される。したがって、決定的な(たとえば、少なくともほぼ周期的な)成分は、より大きいピッチの不確定度がある(より大きい単位時間当りのピッチ変化、またはさらにピッチ予測の失敗は、比較的大きなピッチの不確定度を示す)信号に対して、より速くフェードアウトする。このように、実際のピッチが不確定である状況において、非常に決定的なエラーコンシールメントオーディオ情報の提供から生じるアーチファクトを回避することができる。
【0088】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して(またはそれに基づいて)取得された時間ドメイン励振信号またはその1つ以上の複製を、1つ以上のロストオーディオフレームの時間に対するピッチの予測に依存して時間スケーリングするように構成される。したがって、エラーコンシールメントオーディオ情報の提供に対して用いられる時間ドメイン励振信号は、(ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して(またはそれに基づいて)取得された時間ドメイン励振信号のピッチと比較したとき)時間ドメイン励振信号のピッチがロストオーディオフレームの時間周期の要求に追従するように修正される。結果的に、エラーコンシールメントオーディオ情報によって達成することができる聴覚インプレッションを改善することができる。
【0089】
好ましい実施形態において、エラーコンシールメントは、修正された時間ドメイン励振信号を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームを復号化するために用いられた時間ドメイン励振信号を取得し、ロストオーディオフレームに先行する1つ以上のオーディオフレームを復号化するために用いられた前記時間ドメイン励振信号を修正するように構成される。このケースにおいて、時間ドメインコンシールメントは、修正された時間ドメインオーディオ信号に基づいてエラーコンシールメントオーディオ情報を提供するように構成される。したがって、ロストオーディオフレームに先行する1つ以上のオーディオフレームを復号化するために既に用いられた時間ドメイン励振信号を再利用することが可能である。このように、時間ドメイン励振信号がロストオーディオフレームに先行する1つ以上のオーディオフレームの復号化に対して既に取得されていた場合に、演算労力を非常に小さく保つことができる。
【0090】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームを復号化するために用いられたピッチ情報を取得するように構成される。このケースにおいて、エラーコンシールメントは、前記ピッチ情報に依存してエラーコンシールメントオーディオ情報を提供するようにも構成される。
したがって、前に用いられたピッチ情報は再利用することができ、ピッチ情報の新たな演算のための演算労力を回避する。このように、エラーコンシールメントは、特に演算上効率的である。たとえば、ACELPのケースにおいて、フレーム当り4つのピッチ遅延とゲインを有する。コンシールしなければならないフレームの終わりにおけるピッチを予測することができる最後の2つのフレームを用いることができる。
【0091】
次に、フレーム当り1つまたは2つのピッチのみが導き出される前述の周波数ドメインコーデック(2つを超えることができるが、品質において多くないゲインに対して多くの煩雑性を付加する)と比較する。たとえば、ACELP−FD−ロスにあてはまるスイッチコーデックのケースにおいて、ピッチは、ビットストリームにおいて伝送され、オリジナルの入力信号に基づいている(デコーダにおいて行われるような復号化されたものでない)ので、より良好なピッチ精度を有する。高いビットレートのケースにおいて、たとえば、周波数ドメイン符号化フレームに当り1つのピッチ遅延およびゲイン情報、またはLTP情報を送ることもできる。
【0092】
好ましい実施形態において、オーディオデコーダのエラーコンシールメントは、符号化されたオーディオ情報のサイド情報に基づいてピッチ情報を取得するようにすることができる。
【0093】
好ましい実施形態において、エラーコンシールメントは、前に復号化されたオーディオフレームに対して利用可能なピッチ情報に基づいて、ピッチ情報を取得するように構成することができる。
【0094】
好ましい実施形態において、エラーコンシールメントは、時間ドメイン信号上または残差信号上で実行されるピッチ探索に基づいてピッチ情報を取得するように構成される。
【0095】
違う言葉で表現すれば、ピッチは、サイド情報として伝送することができ、またはたとえばLTPがある場合は、前のフレームから来ることもできる。ピッチ情報は、エンコーダで利用可能である場合は、ビットストリームにおいて伝送することもできる。オプションとして、直接時間ドメイン信号上または残差上でピッチ探索を行うことができ、通常は残差(時間ドメイン励振信号)上でより良好な結果を与える。
【0096】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームを復号化するために用いられた、線形予測係数のセットを取得するように構成される。このケースにおいて、エラーコンシールメントは、前記線形予測係数のセットに依存してエラーコンシールメントオーディオ情報を提供するように構成される。このように、エラーコンシールメントの効率は、たとえば前に用いられた線形予測係数のセットのように、前に生成された(または前に復号化された)情報を再利用することによって増大する。このように、不必要に高い演算量が回避される。
【0097】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームを復号化するために用いられた線形予測係数のセットに基づいて、新たな線形予測係数のセットを外挿するように構成される。このケースにおいて、エラーコンシールメントは、エラーコンシールメント情報を提供するために、新たな線形予測係数のセットを用いるように構成される。外挿を用いて、前に用いられた線形予測係数のセットからエラーコンシールメントオーディオ情報を提供するために用いられる新たな線形予測係数のセットを導き出すことによって、線形予測係数の完全な再計算を回避することができ、演算労力を適度に小さく保つのを助ける。さらに、前に用いられた線形予測係数のセットに基づいて外挿を実行することによって、新たな線形予測係数のセットは、前に用いられた線形予測係数のセットと少なくとも類似することを確実にすることができ、エラーコンシールメント情報を提供するときに不連続を回避することを助ける。たとえば、一定量のフレームロスの後にバックグラウンドノイズのLPC形状を推定する傾向がある。この収束の速度は、たとえば、信号特性に依存する可能性がある。
【0098】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームにおける決定的な信号成分の強度に関する情報を取得するように構成される。この場合、エラーコンシールメントは、ロストオーディオフレームに先行する1つ以上のオーディオフレームにおける決定的な信号成分の強度に関する情報を閾値と比較し、時間ドメイン励振信号の決定的な成分をLPC合成(線形予測係数ベースの合成)に入力するかどうか、または時間ドメイン励振信号のノイズ成分のみをLPC合成に入力するかどうか、を決定するように構成される。したがって、ロストオーディオフレームに先行する1つ以上のフレーム内で小さい決定的な信号貢献度のみがあるケースにおいて、エラーコンシールメントオーディオ情報の決定的な(たとえば、少なくともほぼ周期的な)成分の提供を省略することが可能である。これが良好な聴覚インプレッションを得ることを助けることが分かっている。
【0099】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行するオーディオフレームのピッチを記述するピッチ情報を取得し、ピッチ情報に依存してエラーコンシールメントオーディオ情報を提供するように構成される。したがって、エラーコンシールメント情報のピッチを、ロストオーディオフレームに先行するオーディオフレームのピッチに適応させることが可能である。したがって、不連続性は回避され、自然な聴覚インプレッションを達成することができる。
【0100】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行するオーディオフレームに関連する時間ドメイン励振信号に基づいてピッチ情報を取得するように構成される。時間ドメイン励振信号に基づいて取得されたピッチ情報は、特に信頼性が高く、時間ドメイン励振信号の処理にも非常に良く適応することが分かっている。
【0101】
好ましい実施形態において、エラーコンシールメントは、時間ドメイン励振信号の(または、代替として時間ドメインオーディオ信号の)相互相関を評価し、粗いピッチ情報を決定し、粗いピッチ情報によって決定された(または記述された)ピッチの周辺で、クローズドループ探索を用いて粗いピッチ情報をリファインするように構成される。このコンセプトは、適度な演算労力で非常に正確なピッチ情報を取得することを可能とすることが分かっている。言い換えれば、いくつかのコーデックにおいては、時間ドメイン信号上で直接ピッチ探索を行うが、他のいくつかにおいては、時間ドメイン励振信号上でピッチ探索を行う。
【0102】
好ましい実施形態において、エラーコンシールメントは、エラーコンシールメントオーディオ情報の提供に対して、ロストオーディオフレームに先行する1つ以上のオーディオフレームの復号化に対して用いられた前に演算されたピッチ情報に基づいて、そしてエラーコンシールメントオーディオ情報の提供に対して修正された時間ドメイン励振信号を取得するために、修正された時間ドメイン励振信号の相互相関の評価に基づいてピッチ情報を取得するように構成される。前に演算されたピッチ情報と時間ドメイン励振信号に基づいて(相互相関を用いて)取得されたピッチ情報の両方を考慮することは、ピッチ情報の信頼性を改善し、結果的にアーチファクトおよび/または不連続性を回避することを助けることが分かっている。
【0103】
好ましい実施形態において、エラーコンシールメントは、前に演算されたピッチ情報によって表されたピッチに最も近いピッチを表しているピークが選択されるように、前に演算されたピッチ情報に依存して、複数の相互相関のピークからピッチを表しているピークとして1つの相互相関のピークを選択するように構成される。したがって、たとえば、多重のピークに結果としてなる可能性のある相互相関の起こり得る曖昧さを克服することができる。前に演算されたピッチ情報は、これにより相互相関の「適切な」ピークを選択するために用いられ、それは実質的に信頼性を増大することを助ける。一方では、実際の時間ドメイン励振信号は、主にピッチの決定に対して考慮され、それは良い精度を提供する(それは、前に演算されたピッチ情報のみに基づいて取得可能な精度より実質的に良好である)。
【0104】
好ましい実施形態において、オーディオデコーダのエラーコンシールメントは、符号化されたオーディオ情報のサイド情報に基づいてピッチ情報を取得するように構成することができる。
【0105】
好ましい実施形態において、エラーコンシールメントは、前に復号化されたオーディオフレームに対して利用可能なピッチ情報に基づいてピッチ情報を取得するように構成することができる。
【0106】
好ましい実施形態において、エラーコンシールメントは、時間ドメイン信号上または残差信号上で実行されるピッチ探索に基づいてピッチ情報を取得するように構成される。
【0107】
違う言葉で表現すれば、ピッチは、サイド情報として伝送することができ、またはたとえばLTPがある場合は前のフレームから来ることもできる。ピッチ情報は、エンコーダで利用可能な場合は、ビットストリームにおいて伝送することもできる。オプションとして、直接時間ドメイン信号上または残差上のピッチ探索を行うことができ、通常は残差(時間ドメイン励振信号)上でより良好な結果を与える。
【0108】
好ましい実施形態において、エラーコンシールメントは、エラーコンシールメントオーディオ情報の合成に対して励振信号(または少なくともその決定的な成分)を取得するために、ロストオーディオフレームに先行するオーディオフレームに関連する時間ドメイン励振信号のピッチサイクルを1回または複数回複製するように構成される。ロストオーディオフレームに先行するオーディオフレームに関係する時間ドメイン励振信号のピッチサイクルを1回または複数回複製することによって、そして比較的単純な修正アルゴリズムを用いて前記1つ以上の複製を修正することによって、エラーコンシールメントオーディオ情報の合成に対して、励振信号(または少なくともその決定的な成分)を小さい演算労力で取得することができる。しかしながら、ロストオーディオフレームに先行するオーディオフレームに関連する時間ドメイン励振信号を(前記時間ドメイン励振信号を複製することによって)再利用することは、聞き取れる不連続性を回避する。
【0109】
好ましい実施形態において、エラーコンシールメントは、ロストオーディオフレームに先行するオーディオフレームに関連する時間ドメイン励振信号のピッチサイクルを、バンド幅が周波数ドメイン表現において符号化されたオーディオフレームのサンプリングレートに依存するサンプリングレート依存フィルタを用いて、ローパスフィルタリングするように構成される。したがって、時間ドメイン励振信号はオーディオデコーダの信号バンド幅に適応し、オーディオコンテンツの良好な再生に結果としてなる。
【0110】
詳細およびオプションの改良に対しては、たとえば、上記の説明が参照される。
【0111】
たとえば、最初のロストフレームのみをローパスすることが好ましく、好ましくは信号が無声でない場合にのみローパスする。しかしながら、ローパスフィルタリングがオプションであることに留意すべきである。さらに、フィルタは、カットオフ周波数がバンド幅から独立するサンプリングレート依存とすることができる。
【0112】
好ましい実施形態において、エラーコンシールメントは、ロストフレームの終わりにおけるピッチを予測するように構成される。このケースにおいて、エラーコンシールメントは、時間ドメイン励振信号またはその1つ以上の複製を予測されたピッチに適応させるように構成される。エラーコンシールメントオーディオ情報の提供に対して実際に用いられた時間ドメイン励振信号がロストオーディオフレームに先行するオーディオフレームに関連する時間ドメイン励振信号に関して修正されるように、時間ドメイン励振信号を修正することによって、エラーコンシールメントオーディオ情報がオーディオコンテンツの実際の進化(または少なくとも期待されるまたは予測される進化に)によく適応するように、ロストオーディオフレームの間の期待される(または予測される)ピッチ変化を考慮することができる。たとえば、適応は、最後の良好なピッチから予測されたピッチまで進む。これは、パルス再同期[7]によって行われる。
【0113】
好ましい実施形態において、エラーコンシールメントは、LPC合成に対する入力信号を取得するために、外挿された時間ドメイン励振信号とノイズ信号を結合するように構成される。このケースにおいて、エラーコンシールメントは、LPC合成を実行するように構成され、LPC合成は、エラーコンシールメントオーディオ情報を得るために、線形予測符号化パラメータに依存して、LPC合成の入力信号をフィルタリングするように構成される。外挿された時間ドメイン励振信号(それは、通常はロストオーディオフレームに先行する1つ以上のオーディオフレームに対して導き出された時間ドメイン励振信号の修正されたバージョンである)とノイズ信号を結合することによって、オーディオコンテンツの決定的な(たとえば、ほぼ周期的な)成分とノイズ成分の両方がエラーコンシールメントにおいて考慮することができる。このように、エラーコンシールメントオーディオ情報が、ロストフレームに先行するフレームによって提供される聴覚インプレッションに類似する聴覚インプレッションを提供することを達成することができる。
【0114】
また、LPC合成に対する入力信号(それは、結合された時間ドメイン励振信号と考えることができる)を取得するために、時間ドメイン励振信号とノイズ信号を結合することによって、(LPC合成の入力信号の、またはさらにLPC合成の出力信号の)エネルギーを維持しながら、LPC合成に対する入力オーディオ信号の決定的な成分のパーセンテージを変えることが可能である。結果的に、エラーコンシールメントオーディオ信号のエネルギーまたは音量を実質的に変化させることなくエラーコンシールメントオーディオ情報の特性(たとえば、純音特性)を、許容されない聞き取れる歪みを生じることなく時間ドメイン励振信号を修正することが可能なように、変化させることが可能である。
【0115】
本発明に係る実施形態は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法を構築する。この方法は、オーディオフレームのロスをコンシールするために、エラーコンシールメントオーディオ情報を提供するステップを備える。エラーコンシールメントオーディオ情報を提供するステップは、エラーコンシールメントオーディオ情報を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号を修正するステップを備える。
【0116】
この方法は、上述したオーディオデコーダと同じ考察に基づいている。
【0117】
本発明に係る更なる実施形態は、コンピュータプログラムがコンピュータ上で動作するときに、前記方法を実行するコンピュータプログラムを構築する。
【図面の簡単な説明】
【0118】
本発明の実施形態は、以下の図面を参照して、引き続いて記述される。
図1】本発明の一実施形態に係るオーディオデコーダの概略ブロック図を示す。
図2】本発明の他の実施形態に係るオーディオデコーダの概略ブロック図を示す。
図3】本発明の他の実施形態に係るオーディオデコーダの概略ブロック図を示す。
図4a】本発明の他の実施形態に係るオーディオデコーダの概略ブロック図の左部を示す。
図4b】本発明の他の実施形態に係るオーディオデコーダの概略ブロック図の右部を示す。
図5】変換コーダに対する時間ドメインコンシールメントの概略ブロック図を示す。
図6】スイッチコーデックに対する時間ドメインコンシールメントの概略ブロック図を示す。
図7a】通常演算においてまたは部分的なパケットロスのケースにおいてTCX復号化を実行するTCXデコーダのブロック図の左部を示す。
図7b】通常演算においてまたは部分的なパケットロスのケースにおいてTCX復号化を実行するTCXデコーダのブロック図の右部を示す。
図8】ロストオーディオフレームの間の期待される(または予測される)ピッチ変化を、パケット消去コンシールメントのケースにおいてTCX復号化を実行するTCXデコーダの概略ブロック図を示す。
図9】本発明の一実施形態に係る符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法のフローチャートを示す。
図10】本発明の他の実施形態に係る符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法のフローチャートを示す。
図11】本発明の他の実施形態に係るオーディオデコーダの概略ブロック図を示す。
【発明を実施するための形態】
【0119】
1.図1に係るオーディオデコーダ
【0120】
図1は、本発明の一実施形態に係るオーディオデコーダ100の概略ブロック図を示す。オーディオデコーダ100は、たとえば、周波数ドメイン表現において符号化されたオーディオフレームを備えることができる符号化されたオーディオ情報110を受信する。
符号化されたオーディオ情報は、たとえば、フレームロスが時々起こるような信頼できないチャネルを介して受信される可能性がある。オーディオデコーダ100は、更に符号化されたオーディオ情報110に基づいて復号化されたオーディオ情報112を提供する。
【0121】
オーディオデコーダ100は、フレームロスの非存在下で符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する、復号化/処理120を備えることができる。
【0122】
オーディオデコーダ100は、更にエラーコンシールメントオーディオ情報を提供する、エラーコンシールメント130を備える。エラーコンシールメント130は、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするために、時間ドメイン励振信号を用いて、エラーコンシールメントオーディオ情報132を提供するように構成される。
【0123】
言い換えれば、復号化/処理120は、周波数ドメイン表現の形で、すなわち符号化された値が異なる周波数ビンにおける強度を記述する符号化された表現の形で、符号化されたオーディオフレームに対して、復号化されたオーディオ情報122を提供することができる。違う言葉で表現すれば、復号化/処理120は、たとえば、付加的な後処理があるケースにおいて、符号化されたオーディオ情報110からスペクトル値のセットを導き出し、周波数ドメインから時間ドメインへの変換を実行し、それにより復号化されたオーディオ情報122を構成する、または復号化されたオーディオ情報122の提供に対するベースを形成する、時間ドメイン表現を導き出す、周波数ドメインオーディオデコーダを備えることができる。
【0124】
しかしながら、エラーコンシールメント130は、周波数ドメインにおけるエラーコンシールメントを実行せず、むしろ、たとえば、時間ドメイン励振信号に基づいて、また更にLPCフィルタ係数(線形予測符号化フィルター係数)に基づいて、オーディオ信号(たとえば、エラーコンシールメントオーディオ情報)の時間ドメイン表現を提供する、LPC合成フィルタのような合成フィルタを励振するために役立つことができる、時間ドメイン励振信号を用いる。
【0125】
したがって、エラーコンシールメント130は、たとえば、ロストオーディオフレームに対して時間ドメインオーディオ信号とすることができる、エラーコンシールメントオーディオ情報132を提供し、エラーコンシールメント130によって用いられる時間ドメイン励振信号は、周波数ドメイン表現の形で符号化された1つ以上前に適切に受信されたオーディオフレーム(ロストオーディオフレームに先行する)に基づいて、あるいはそれから導き出すことができる。結論として、オーディオデコーダ100は、エラーコンシールメントを実行する(すなわち、エラーコンシールメントオーディオ情報132を提供する)ことができ、少なくともいくつかのオーディオフレームが周波数ドメイン表現において符号化された符号化オーディオ情報に基づいて、オーディオフレームのロスによるオーディオ品質の劣化を低減する。周波数ドメイン表現において符号化された適切に受信されたオーディオフレームに引き続くフレームが失われた場合でさえ、時間ドメイン励振信号を用いてエラーコンシールメントを実行することが、周波数ドメインにおいて実行された(たとえば、ロストオーディオフレームに先行する周波数ドメイン表現において符号化されたオーディオフレームの周波数ドメイン表現を用いた)エラーコンシールメントと比較したとき、改良されたオーディオ品質をもたらすことが分かっている。これは、通常は時間ドメイン励振信号に基づいて実行される信号合成が不連続性を回避することを助けるので、ロストオーディオフレームに先行する適切に受信されたオーディオフレームに関連する復号化されたオーディオ情報とロストオーディオフレームに関連するエラーコンシールメントオーディオ情報との間のスムースな遷移は、時間ドメイン励振信号を用いて達成することができるという事実による。このように、周波数ドメイン表現において符号化された適切に受信されたオーディオフレームに引き続くオーディオフレームが失われた場合でさえ、オーディオデコーダ100を用いて、良好な(または少なくとも許容される)聴覚インプレッションを達成することができる。たとえば、時間ドメインアプローチは、スピーチコーデックコンシールメントのケースにおいて行われることに近いので、スピーチのようなモノラル信号上の改良をもたらす。LPCの使用は不連続性を回避し、より良好なフレームの成形を与えることを助ける。
【0126】
さらに、オーディオデコーダ100は、以下に記述されるいずれかの構成および機能によって、個別にまたは組合せて補充することができることに留意すべきである。
【0127】
2. 図2に係るオーディオデコーダ
【0128】
図2は、本発明の一実施形態に係るオーディオデコーダ200の概略ブロック図を示す。オーディオデコーダ200は、符号化されたオーディオ情報210を受信し、それに基づいて復号化されたオーディオ情報220を提供するように構成される。符号化されたオーディオ情報210は、たとえば、時間ドメイン表現において符号化された、周波数ドメイン表現において符号化された、または時間ドメイン表現と周波数ドメイン表現の両方において符号化された、オーディオフレームのシーケンスの形をとることができる。違う言葉で表現すれば、符号化されたオーディオ情報210の全てのフレームは、周波数ドメイン表現において符号化することができる、または符号化されたオーディオ情報210の全てのフレームは、時間ドメイン表現において(たとえば、符号化された時間ドメイン励振信号と、たとえばLPCパラメータのような符号化された信号合成パラメータの形で)符号化することができる。あるいは、たとえば、オーディオデコーダ200が、異なる復号化モードの間でスイッチすることができるスイッチングオーディオデコーダである場合は、符号化されたオーディオ情報のいくつかのフレームは周波数ドメイン表現において符号化することができ、符号化されたオーディオ情報の他のいくつかのフレームは時間ドメイン表現において符号化することができる。復号化されたオーディオ情報220は、たとえば、1つ以上のオーディオチャネルの時間ドメイン表現とすることができる。
【0129】
オーディオデコーダ200は、通常は、たとえば、適切に受信されたオーディオフレームに対して、復号化されたオーディオ情報232を提供することができる、復号化/処理220を備えることができる。言い換えれば、復号化/処理230は、周波数ドメイン表現において符号化された1つ以上の符号化されたオーディオフレームに基づいて、周波数ドメイン復号化(たとえば、AACタイプ復号化等)を実行することができる。代替としてまたは加えて、復号化/処理230は、たとえば、TCX励振線形予測復号化(TCX=変換符号化励振)またはACELP復号化(代数コードブック励振線形予測復号化)のような、時間ドメイン表現において(または、言い換えれば、線形予測ドメイン表現において)符号化された1つ以上の符号化されたオーディオフレームに基づいて、時間ドメイン復号化(または線形予測ドメイン復号化)を実行するように構成することができる。オプションとして、復号化/処理230は、異なる復号化モードの間でスイッチするように構成することができる。
【0130】
オーディオデコーダ200は、1つ以上のロストオーディオフレームに対して、エラーコンシールメントオーディオ情報242を提供するように構成された、エラーコンシールメント240を更に備える。エラーコンシールメント240は、1つのオーディオフレームのロス(またはさらに多重のオーディオフレームのロス)をコンシールするために、エラーコンシールメントオーディオ情報242を提供するように構成される。エラーコンシールメント240は、エラーコンシールメントオーディオ情報242を取得するために、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号を修正するように構成される。違う言葉で表現すれば、エラーコンシールメント240は、ロストオーディオフレームに先行する1つ以上の符号化されたオーディオフレームに対して(またはそれに基づいて)時間ドメイン励振信号を取得する(または導き出す)ことができ、ロストオーディオフレームに先行する1つ以上の適切に受信されたオーディオフレームに対して(またはそれに基づいて)取得された前記時間ドメイン励振信号を修正し、それによりエラーコンシールメントオーディオ情報242を提供するために用いられる時間ドメイン励振信号を(修正によって)取得することができる。言い換えれば、修正された時間ドメイン励振信号は、1つのロストオーディオフレーム(またはさらに多重のロストオーディオフレーム)に関連するエラーコンシールメントオーディオ情報の合成(たとえば、LPC合成)に対する入力として(または入力の成分として)として用いることができる。ロストオーディオフレームに先行する1つ以上の適切に受信されたオーディオフレームに基づいて取得された時間ドメイン励振信号に基づいてエラーコンシールメントオーディオ情報242を提供することによって、聞き取れる不連続性を回避することができる。他方では、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して(またはそれから)導き出された時間ドメイン励振信号を修正することによって、そして修正された時間ドメイン励振信号に基づいてエラーコンシールメントオーディオ情報を提供することによって、オーディオコンテンツの変化する特性(たとえば、ピッチ変化)を考慮することが可能であり、そしてまた、不自然な聴覚インプレッション(たとえば、決定的な(たとえば、少なくともほぼ周期的な)信号成分を「フェードアウト」するによって)を回避することが可能である。このように、エラーコンシールメントオーディオ情報242は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームに基づいて取得された復号化されたオーディオ情報232といくつかの類似性を備えることを達成することができ、エラーコンシールメントオーディオ情報242は、時間ドメイン励振信号をいくらか修正することによって、ロストオーディオフレームに先行するオーディオフレームに関連する復号化されたオーディオ情報232と比較したとき、いくらか異なるオーディオコンテンツを備えることを依然として達成することができる。(ロストオーディオフレームに関連する)エラーコンシールメントオーディオ情報の提供に対して用いられた時間ドメイン励振信号の修正は、たとえば、振幅スケーリングまたは時間スケーリングを備えることができる。しかしながら、他のタイプの修正(またはさらに振幅スケーリングと時間スケーリングの結合)が可能であり、好ましくは、エラーコンシールメントによって(入力情報として)取得された時間ドメイン励振信号と修正された時間ドメイン励振信号の一定程度の関係が残らなければならない。
【0131】
結論として、 オーディオデコーダ200は、1つ以上のオーディオフレームが失われたケースにおいてさえ、エラーコンシールメントオーディオ情報が良好な聴覚インプレッションを提供するように、エラーコンシールメントオーディオ情報242を提供することを可能とする。 エラーコンシールメントは、時間ドメイン励振信号に基づいて実行され、ロストオーディオフレームに先行するもう1つのオーディオフレームに基づいて取得された時間ドメイン励振信号を修正することによって、ロストオーディオフレームの間のオーディオコンテンツの信号特性の変化が考慮される。
【0132】
さらに、オーディオデコーダ200は、本願明細書に記述されたいずれかの構成および機能によって、個別にまたは組合せて補充することができることに留意すべきである。
【0133】
3. 図3に係るオーディオデコーダ
【0134】
図3は、本発明の他の実施形態に係るオーディオデコーダ300の概略ブロック図を示す。
【0135】
オーディオデコーダ300は、符号化されたオーディオ情報310を受信し、それに基づいて、復号化されたオーディオ情報312を提供するように構成される。オーディオデコーダ300は、「ビットストリームデフォーマッタ」または「ビットストリームパーサ」としても示すことができる、ビットストリームアナライザ320を備える。ビットストリームアナライザ320は、符号化されたオーディオ情報310を受信し、それに基づいて、周波数ドメイン表現322と、おそらくは付加的な制御情報324を提供する。周波数ドメイン表現322は、たとえば、ノイズ充填、中間処理、または後処理のような特定の処理ステップを制御することができる、たとえば、付加的なサイド情報330を備えることができる。オーディオデコーダ300は、また、符号化されたスペクトル値326を受信し、それに基づいて、復号化スペクトル値342のセットを提供するように構成された、スペクトル値復号化340を備える。オーディオデコーダ300は、また、符号化されたスケールファクタ328を受信し、それに基づいて、復号化されたスケールファクタ352を提供するように構成することができる、スケールファクタ復号化350を備えることができる。
【0136】
スケールファクタ復号化の代替として、たとえば、符号化されたオーディオ情報がスケールファクタ情報よりむしろ符号化されたLPC情報を備えるケースにおいて、LPC−スケールファクタ変換354を用いることができる。しかしながら、いくつかの符号化モードにおいて(たとえば、USACオーディオデコーダのTCX復号化モードにおいてまたはEVSオーディオデコーダにおいて)、オーディオデコーダの側でスケールファクタのセットを導き出すために、LPC係数のセットを用いることができる。この機能は、LPC−スケールファクタ変換354によって到達することができる。
【0137】
オーディオデコーダ300は、また、スケーリングされたファクタ352のセットをスペクトル値342のセットに適用し、これによりスケーリングされた復号化スペクトル値362のセットを取得するように構成することができる、スケーラ360を備えることができる。たとえば、多重の復号化スペクトル値342を備える第1の周波数バンドは、第1のスケールファクタを用いてスケーリングすることができ、多重の復号化スペクトル値342を備える第2の周波数バンドは、第2のスケールファクタを用いてスケーリングすることができる。したがって、スケーリングされた復号化スペクトル値362のセットが取得される。オーディオデコーダ300は、スケーリングされた復号化スペクトル値362にいくつかの処理を適用することができる、オプションの処理366を更に備えることができる。たとえば、オプションの処理366は、ノイズ充填またはいくつかの他の演算を備えることができる。
【0138】
オーディオデコーダ300は、スケーリングされた復号化スペクトル値362、またはその処理されたバージョン368を受信し、スケーリングされた復号化スペクトル値362のセットに関連する時間ドメイン表現372を提供するように構成された、周波数ドメイン−時間ドメイン変換370を備える。たとえば、周波数ドメイン−時間ドメイン変換370は、オーディオコンテンツのフレームまたはサブフレームに関連する時間ドメイン表現372を提供することができる。たとえば、周波数ドメイン−時間ドメイン変換は、MDCT係数のセット(それは、スケーリングされた復号化スペクトル値と考えることができる)を受信し、それに基づいて、時間ドメイン表現372を形成することができる、時間ドメインサンプルのブロックを提供することができる。
【0139】
オーディオデコーダ300は、時間ドメイン表現372を受信し、時間ドメイン表現372をいくらか修正し、それにより時間ドメイン表現372の後処理されたバージョン378を取得することができる、後処理376をオプションとして備えることができる。
【0140】
オーディオデコーダ300は、また、たとえば、周波数ドメイン−時間ドメイン変換370から時間ドメイン表現372を受信し、たとえば、1つ以上のロストオーディオフレームに対してエラーコンシールメントオーディオ情報382を提供することができる、エラーコンシールメント380を備える。言い換えれば、オーディオフレームが失われた場合に、たとえば、いかなる符号化されたスペクトル値326も、前記オーディオフレーム(またはオーディオサブフレーム)に対して利用可能でないように、エラーコンシールメント380は、ロストオーディオフレームに先行する1つ以上のオーディオフレームに関連する時間ドメイン表現372に基づいてエラーコンシールメントオーディオ情報を提供することができる。エラーコンシールメントオーディオ情報は、通常はオーディオコンテンツの時間ドメイン表現とすることができる。
【0141】
エラーコンシールメント380は、たとえば、上述されたエラーコンシールメント130の機能を実行することができることに留意すべきである。また、エラーコンシールメント380は、たとえば、図5を参照して記述されたエラーコンシールメント500の機能を備えることができる。しかしながら、一般的に言って、エラーコンシールメント380は、本願明細書においてエラーコンシールメントに関して記述されたいずれかの構成および機能を備えることができる。
【0142】
エラーコンシールメントに関して、エラーコンシールメントはフレーム復号化の同時刻に起こらないことに留意すべきである。たとえば、フレームnが良好であり、次に通常の復号化を行い、最後で次のフレームをコンシールしなければならない場合に助けるいくつかの変数を保存し、次にn+1が失われた場合に、前の良好なフレームから来る変数を与えるコンシールメント関数を呼ぶ。また、次のフレームロスに対してまたは次の良好なフレームへのリカバリーを助けるために、いくつかの変数をアップデートする。
【0143】
オーディオデコーダ300は、また、時間ドメイン表現372(または後処理376があるケースにおいて後処理された時間ドメイン表現378)を受信するように構成された、信号結合390を備える。さらに、信号結合390は、通常はロストオーディオフレームに対して提供されたエラーコンシールメントオーディオ信号の時間ドメイン表現でもある、エラーコンシールメントオーディオ情報382を受信することができる。信号結合390は、たとえば、次のオーディオフレームに関連する時間ドメイン表現を結合することができる。次の適切に復号化されたオーディオフレームがあるケースにおいて、信号結合390は、これらの次の適切に復号化されたオーディオフレームに関連する時間ドメイン表現を結合する(たとえば、オーバーラップ加算する)ことができる。しかしながら、オーディオフレームが失われた場合に、信号結合390は、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームに関連する時間ドメイン表現と、ロストオーディオフレームに関連するエラーコンシールメントオーディオ情報とを結合する(たとえば、オーバーラップ加算する)ことができる。それにより適切に受信されたオーディオフレームとロストオーディオフレームとの間のスムースな遷移を有することができる。同様に、信号結合390は、ロストオーディオフレームに関連するエラーコンシールメントオーディオ情報と、ロストオーディオフレームに引き続く他の適切に復号化されたオーディオフレームに関連する時間ドメイン表現(または多重の連続するオーディオフレームが失われたケースにおいて他のロストオーディオフレームに関連する他のエラーコンシールメントオーディオ情報)とを結合する(たとえばオーバーラップ加算する)ように構成することができる。
【0144】
したがって、信号結合390は、時間ドメイン表現372、またはそれの後処理されたバージョン378が適切に復号化されたオーディオフレームに対して提供されるように、そしてエラーコンシールメントオーディオ情報382がロストオーディオフレームに対して提供されるように、復号化されたオーディオ情報312を提供することができ、オーバーラップ加算演算は、(それが周波数ドメイン−時間ドメイン変換370によってまたはエラーコンシールメント380によって提供されるかどうかに拘りなく)通常は次のオーディオフレームのオーディオ情報の間で実行される。いくつかのコーデックは、オーバーラップ加算部分にキャンセルされることを必要とするいくつかのエイリアシングを有し、オプションとしてオーバーラップ加算を実行するために生成したいくつかの人工的なエイリアシングを半フレーム上に生成することができる。
【0145】
オーディオデコーダ300の機能は、図1に係るオーディオデコーダ100の機能に類似することに留意すべきであり、付加的な詳細は図3に示されている。さらに、図3に係るオーディオデコーダ300は、本願明細書に記述されたいずれかの構成および機能によって補充することができることに留意すべきである。特に、エラーコンシールメント380は、エラーコンシールメントに関して本願明細書に記述されたいずれかの構成および機能によって補充することができる。
【0146】
4.図4に係るオーディオデコーダ400
【0147】
図4は、本発明の他の実施形態に係るオーディオデコーダ400を示す。オーディオデコーダ400は、符号化されたオーディオ情報を受信し、それに基づいて、復号化されたオーディオ情報412を提供するように構成される。オーディオデコーダ400は、たとえば、異なるオーディオフレームが異なる符号化モードを用いて符号化された、符号化オーディオ情報410を受信するように構成することができる。たとえば、オーディオデコーダ400は、多重モードオーディオデコーダまたは「スイッチング」オーディオデコーダと考えることができる。たとえば、いくつかのオーディオフレームは、周波数ドメイン表現を用いて符号化することができ、符号化されたオーディオ情報は、スペクトル値(たとえば、FFT値またはMDCT値)の符号化された表現と、異なる周波数バンドのスケーリングを表すスケールファクタとを備える。さらに、符号化されたオーディオ情報410は、また、オーディオフレームの「時間ドメイン表現」、または多重のオーディオフレームの「線形予測符号化ドメイン表現」を備えることができる。「線形予測符号化ドメイン表現」(簡単に「LPC表現」としても示される)は、たとえば、励振信号の符号化された表現と、LPCパラメータ(線形予測符号化パラメータ)の符号化された表現を備えることができ、線形予測符号化パラメータは、たとえば、時間ドメイン励振信号に基づいてオーディオ信号を復元するために用いられる線形予測符号化合成フィルタを記述する。
【0148】
以下に、オーディオデコーダ400のいくつかの詳細が記述される。
【0149】
オーディオデコーダ400は、たとえば、符号化されたオーディオ情報410を分析し、符号化されたオーディオ情報410から、たとえば、符号化されたスペクトル値と、符号化されたスケールファクタと、オプションとして、付加的なサイド情報とを備える、周波数ドメイン表現422を抽出することができる、ビットストリームアナライザ420を備える。ビットストリームアナライザ420は、また、たとえば、符号化された励振426と、符号化された線形予測係数428(それは、符号化された線形予測パラメータとも考えることができる)とを備えることができる、線形予測符号化ドメイン表現424を抽出するように構成することができる。さらに、ビットストリームアナライザは、符号化されたオーディオ情報から、付加的な処理ステップを制御するために用いることができる、付加的なサイド情報を、オプションとして抽出することができる。
【0150】
オーディオデコーダ400は、たとえば、図3に係るオーディオデコーダ300の復号化パスと実質的に同一とすることができる、周波数ドメイン復号化パス430を備える。言い換えれば、周波数ドメイン復号化パス430は、図3に関して上述されたように、スペクトル値復号化340と、スケールファクタ復号化350と、スケーラ360と、オプションの処理366と、周波数ドメイン−時間ドメイン変換370と、オプションの後処理376と、エラーコンシールメント380とを備えることができる。
【0151】
オーディオデコーダ400は、また、線形予測ドメイン復号化パス440(これは、LPC合成が時間ドメインにおいて実行されるので、時間ドメイン復号化パスと考えることもできる)を備えることができる。線形予測ドメイン復号化パスは、励振復号化450を備える。ビットストリームアナライザ420によって提供された符号化された励振426を受信し、それに基づいて、復号化された励振452(これは、復号化された時間ドメイン励振信号という形をとることができる)を提供する。たとえば、励振復号化450は、符号化された変換符号化励振情報を受信することができ、それに基づいて、復号化された時間ドメイン励振信号を提供することができる。このように、励振復号化450は、たとえば、図7を参照して記述される励振デコーダ730によって実行される機能を実行することができる。しかしながら、代替としてまたは加えて、励振復号化450は、符号化されたACELP励振を受信することができ、前記符号化されたACELP励振情報に基づいて、復号化された時間ドメイン励振信号452を提供することができる。
【0152】
励振復号化に対して、異なるオプションがあることに留意すべきである。たとえば、CELP符号化コンセプト、ACELP符号化コンセプト、CELP符号化コンセプトとACELP符号化コンセプトの修正、およびTCX符号化コンセプトを定義する関連する規格および刊行物が参照される。
【0153】
線形予測ドメイン復号化パス440は、処理された時間ドメイン励振信号456が時間ドメイン励振信号452から導き出される、処理454をオプションとして備える。
【0154】
線形予測ドメイン復号化パス440は、また、符号化された線形予測係数を受信し、それに基づいて、復号化された線形予測係数462を提供するように構成された、線形予測係数復号化460を備える。線形予測係数復号化460は、入力情報428として、線形予測係数の異なる表現を用いることができ、出力情報462として、復号化された線形予測係数の異なる表現を提供することができる。詳細は、線形予測係数の符合化および/または復号化が記述された異なる規格ドキュメントが参照される。
【0155】
線形予測ドメイン復号化パス440は、復号化された線形予測係数を処理し、それの処理されたバージョン466を提供することができる、処理464をオプションとして備える。
【0156】
線形予測ドメイン復号化パス440は、また、復号化された励振452、またはそれの処理されたバージョン456と、復号化された線形予測係数462、またはそれの処理されたバージョン466とを受信し、復号化された時間ドメインオーディオ信号472を提供するように構成された、LPC合成(線形予測符号化合成)470を備える。たとえば、LPC合成470は、復号化された時間ドメインオーディオ信号472が、時間ドメイン励振信号452(または456)をフィルタリング(合成フィルタリング)することによって取得されるように、復号化された線形予測係数462(またはそれの処理されたバージョン466)によって、復号化時間ドメイン励振信号452、またはそれの処理されたバージョンに対して定義された、フィルタリングを適用するように構成することができる。線形予測ドメイン復号化パス440は、復号化された時間ドメインオーディオ信号472の特性をリファインするまたは調整するために用いることができる、後処理474をオプションとして備えることができる。
【0157】
線形予測ドメイン復号化パス440は、また、復号化された線形予測係数462(またはそれの処理されたバージョン466)と、復号化された時間ドメイン励振信号452(またはそれの処理されたバージョン456)を受信するように構成された、エラーコンシールメント480を備える。エラーコンシールメント480は、たとえばピッチ情報のような、付加情報をオプションとして受信することができる。エラーコンシールメント480は、符号化されたオーディオ情報410のフレーム(またはサブフレーム)が失われたケースにおいて、時間ドメインオーディオ信号の形とすることができる、エラーコンシールメントオーディオ情報を、結果的に提供することができる。このように、エラーコンシールメント480は、エラーコンシールメントオーディオ情報482の特性が、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームの特性に実質的に適応されるように、エラーコンシールメントオーディオ情報482を提供することができる。エラーコンシールメント480は、エラーコンシールメント240に関して記述されたいずれかの構成および機能を備えることができることに留意すべきである。加えて、エラーコンシールメント480は、また、図6の時間ドメインコンシールメントに関して記述されるいずれかの構成および機能を備えることができることに留意すべきである。
【0158】
オーディオデコーダ400は、また、復号化された時間ドメインオーディオ信号372(またはそれの後処理されたバージョン378)と、エラーコンシールメント380によって提供されるエラーコンシールメントオーディオ情報382と、復号化された時間ドメインオーディオ信号472(またはそれの後処理されたバージョン476)と、エラーコンシールメント480によって提供されるエラーコンシールメントオーディオ情報482とを受信するように構成された、信号結合器(または信号結合490)を備える。信号結合器490は、前記信号372(または378)、382、472(または476)および482を結合し、これにより復号化されたオーディオ情報412を取得するように構成することができる。特に、オーバーラップ加算演算は、信号結合器490によって適用することができる。したがって、信号結合器490は、時間ドメインオーディオ信号が、異なるエンティティ(たとえば、異なる復号化パス430、440によって)によって提供される次のオーディオフレーム間のスムースな遷移を提供することができる。しかしながら、信号結合器490は、また、時間ドメインオーディオ信号が、次のフレームに対して、同じエンティティによって(たとえば、周波数ドメイン−時間ドメイン変換370またはLPC合成470によって)提供される場合に、スムースな遷移を提供することができる。いくつかのコーデックは、オーバーラップ加算部分にキャンセルされることを必要とするいくつかのエイリアシングを有するので、オプションとして、オーバーラップ加算を実行するために生成されたいくつかの人工的なエイリアシングを半フレーム上に生成することができる。言い換えれば、人工的な時間ドメインエイリアシング補償(TDAC)を、オプションとして用いることができる。
【0159】
また、信号結合器490は、エラーコンシールメントオーディオ情報(それは、通常は時間ドメインオーディオ信号でもある)が提供されるフレームへのおよびそれからのスムースな遷移を提供することができる。
【0160】
要約すると、オーディオデコーダ400は、周波数ドメインにおいて符号化されたオーディオフレームと、線形予測ドメインにおいて符号化されたオーディオフレームとを復号化することを可能とする。特に、信号特性に依存して(たとえば、オーディオエンコーダによって提供されるシグナリング情報を用いて)、周波数ドメイン復号化パスの使用と線形予測ドメイン復号化パスの使用との間でスイッチすることが可能である。フレームロスのケースにおいて、エラーコンシールメントオーディオ情報を提供に対して、最後の適切に復号化されたオーディオフレームが、周波数ドメインにおいて(または、等価的に、周波数ドメイン表現において)、または時間ドメインにおいて(または、等価的に、時間ドメイン表現において、または、等価的に、線形予測ドメインにおいて、または、等価的に、線形予測ドメイン表現において)符号化されたかどうかに従って、異なるタイプのエラーコンシールメントを用いることができる。
【0161】
5. 図5に係る時間ドメインコンシールメント
【0162】
図5は、本発明の一実施形態に係るエラーコンシールメントの概略ブロック図を示す。図5に係るエラーコンシールメントは、全体において500として示される。
【0163】
エラーコンシールメント500は、時間ドメインオーディオ信号510を受信し、それに基づいて、たとえば、時間ドメインオーディオ信号の形をとることができる、エラーコンシールメントオーディオ情報512を提供するように構成される。
【0164】
エラーコンシールメント500は、たとえば、エラーコンシールメントオーディオ情報512がエラーコンシールメントオーディオ情報132に対応することができるように、エラーコンシールメント130に置き換えることができることに留意すべきである。さらに、エラーコンシールメント500は、時間ドメインオーディオ信号510が時間ドメインオーディオ信号372(または時間ドメインオーディオ信号378に)に対応することができるように、そしてエラーコンシールメントオーディオ情報512がエラーコンシールメントオーディオ情報382に対応することができるように、エラーコンシールメント380に置き換えることができることに留意すべきである。
【0165】
エラーコンシールメント500は、オプションと考えることができる、プリエンファシス520を備える。プリエンファシスは、時間ドメインオーディオ信号を受信し、それに基づいて、プリエンファサイズされた時間ドメインオーディオ信号522を提供する。
【0166】
エラーコンシールメント500は、また、時間ドメインオーディオ信号510またはそれのプリエンファサイズされたバージョン522を受信し、LPCパラメータ532のセットを備えることができるLPC情報532を取得するように構成された、LPC分析530を備える。たとえば、LPC情報は、LPCフィルタ係数のセット(またはそれの表現)と、時間ドメイン励振信号(それは、LPCフィルタ係数に従って構成されたLPC合成フィルタの励振に対して適応され、少なくともほぼ、LPC分析の入力信号を復元する)を備えることができる。
【0167】
エラーコンシールメント500は、また、たとえば、前に復号化されたオーディオフレームに基づいて、ピッチ情報542を取得するように構成された、ピッチ探索540を備える。
【0168】
エラーコンシールメント500は、また、LPC分析の結果に基づいて(たとえば、LPC分析によって決定された時間ドメイン励振信号に基づいて)、そしておそらくはピッチ探索の結果に基づいて、外挿された時間ドメイン励振信号を取得するように構成することができる、外挿550を備える。
【0169】
エラーコンシールメント500は、また、ノイズ信号562を提供する、ノイズ生成560を備える。エラーコンシールメント500は、また、外挿された時間ドメイン励振信号552とノイズ信号562とを受信し、それに基づいて、結合された時間ドメイン励振信号572を提供するように構成された、コンバイナ/フェーダ570を備える。コンバイナ/フェーダ570は、外挿された時間ドメイン励振信号552とノイズ信号562とを結合するように構成することができ、フェーディングは、外挿された時間ドメイン励振信号552(それは、LPC合成の入力信号の決定的な成分を決定する)の相対的な貢献度が時間とともに減少する一方、ノイズ信号562の相対的な貢献度が時間とともに増加するように、実行することができる。しかしながら、コンバイナ/フェーダの異なる機能も可能である。また、以下の説明も参照される。
【0170】
エラーコンシールメント500は、また、結合された時間ドメイン励振信号572を受信し、それに基づいて時間ドメインオーディオ信号582を提供する、LPC合成580を備える。たとえば、LPC合成は、また、結合された時間ドメイン励振信号572に適用され、時間ドメインオーディオ信号582を導き出す、LPC成形フィルタを記述するLPCフィルタ係数を受信することができる。LPC合成580は、たとえば、1つ以上前に復号化されたオーディオフレーム(たとえば、LPC分析530によって提供される)に基づいて取得されたLPC係数を用いることができる。
【0171】
エラーコンシールメント500は、また、オプションと考えることができる、デエンファシス584を備える。デエンファシス584は、デエンファサイズされたエラーコンシールメント時間ドメインオーディオ信号586を提供することができる。
【0172】
エラーコンシールメント500は、また、オプションとして、次のフレーム(またはサブフレーム)に関連する時間ドメインオーディオ信号のオーバーラップ加算演算を実行する、オーバーラップ加算590を備える。しかしながら、オーバーラップ加算590は、エラーコンシールメントがオーディオデコーダ環境において既に提供された信号結合を用いることもできるので、オプションと考える必要があることに留意すべきである。たとえば、オーバーラップ加算590は、いくつかの実施形態において、オーディオデコーダ300における信号結合390によって置換することができる。
【0173】
以下に、エラーコンシールメント500に関するいくつかの更なる詳細が記述される。
【0174】
図5に係るエラーコンシールメント500は、変換ドメインコーデックの文脈をAAC_LCまたはAAC_ELDとしてカバーする。違う言葉で表現すれば、エラーコンシールメント500は、この種の変換ドメインコーデックにおける(そして、特に、この種の変換ドメインオーディオデコーダにおける)使用に対してよく適応される。変換コーデックのみ(たとえば、線形予測ドメイン復号化パスがない)のケースにおいて、最後のフレームからの出力信号が起点として用いられる。たとえば、時間ドメインオーディオ信号372は、エラーコンシールメントの起点として用いることができる。好ましくは、励振信号、ちょうど(1つ以上)前のフレーム(たとえば、時間ドメインオーディオ信号372のような)からの出力時間ドメイン信号は、利用可能でない。
【0175】
以下に、エラーコンシールメント500のサブユニットおよび機能がより詳細に記述される。
【0176】
5.1 LPC分析
【0177】
図5に係る実施形態において、全てのコンシールメントは、連続するフレーム間のよりスムースな遷移を得るために、励振ドメインにおいて行われる。それ故に、LPCパラメータの適当なセットを見つける(または、さらに一般的にいえば、取得する)ことが、最初に必要である。図5に係る実施形態において、LPC分析530は、過去のプリエンファサイズされた時間ドメイン信号522上で行われる。LPCパラメータ(またはLPCフィルタ係数)は、励振信号(たとえば時間ドメイン励振信号)を得るために、過去の合成信号のLPC分析を(たとえば、時間ドメインオーディオ信号510に基づいて、またはプリエンファサイズされた時間ドメインオーディオ信号522に基づいて)実行するために用いられる。
【0178】
5.2 ピッチ探索
【0179】
新しい信号(たとえば、エラーコンシールメントオーディオ情報)を造るために用いられるピッチを得るために、異なるアプローチがある。
【0180】
最後のフレームがLTPによるAACである場合に、AAC−LTPのようなLTPフィルタ(長期予測フィルタ)を用いたコーデックの文脈において、ハーモニックパートの生成に対して、この最後に受信されたLTPピッチ遅延および対応するゲインを用いる。このケースにおいて、ゲインは、ハーモニックパートを信号に組み込むか否かを決定するために用いられる。たとえば、LTPゲインが0.6(または他のいかなる既定値)より高い場合に、LTP情報は、ハーモニックパートを造るために用いられる。
【0181】
前のフレームから利用可能ないかなるピッチ情報もない場合に、たとえば、以下に記述される2つのソリューションがある。
【0182】
たとえば、エンコーダでピッチ探索に行い、ビットストリームにおいてピッチ遅延およびゲインを伝送することが可能である。これはLTPと類似しているが、いかなるフィルタリング(また、クリーンチャネルにおけるLTPフィルタリング)も適用されない。
【0183】
代替として、デコーダにおいてピッチ探索を実行することが可能である。TCXのケースにおけるAMR−WBピッチ探索は、FFTドメインにおいて行われる。ELDにおいて、たとえば、MDCTドメインが用いられる場合に、位相は欠落されるであろう。それ故に、ピッチ探索は、好ましくは励振ドメインにおいて直接行われる。これは、合成ドメインにおいてピッチ探索を行うよりも良好な結果を与える。励振ドメインにおけるピッチ探索は、正規化相互相関によって最初にオープンループで行われる。次に、オプションとして、特定のデルタによって、オープンループピッチの周辺でクローズドループ探索を行うことによって、ピッチ探索をリファインする。ELDウィンドウ化の制限のため、間違ったピッチが見つかる可能性があり、従って見つかったピッチが正しいことを検証する、またはさもないとそれを廃棄する。
【0184】
結論として、エラーコンシールメントオーディオ情報を提供するとき、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームのピッチを考慮することができる。いくつかのケースにおいて、前のフレーム(すなわち、ロストオーディオフレームに先行する最後のフレーム)の復号化から利用可能なピッチ情報がある。この場合、このピッチは、(おそらくいくつかの外挿と時間上のピッチ変化の考慮によって)再利用することができる。また、コンシールされたフレームの終わりにおいて必要とするピッチを外挿することを試みるために、過去の複数のフレームのピッチをオプションとして再利用することができる。
【0185】
また、決定的な(たとえば、少なくともほぼ周期的な)信号成分の強度(または相対的強度)を記述する、利用可能な情報(たとえば、長期予測ゲインとして示される)がある場合に、この値は、エラーコンシールメントオーディオ情報に決定的な(またはハーモニックな)成分が含まれる必要があるかどうかを決定するために用いることができる。言い換えれば、前記値(たとえばLTPゲイン)を、所定の閾値と比較することによって、エラーコンシールメントオーディオ情報の供給に対して、前に復号化されたオーディオフレームから導き出された時間ドメイン励振信号を考慮する必要があるか否かを決定することができる。
【0186】
前のフレームから(または、より正確に言うと、前のフレームの復号化から)利用可能なピッチ情報がない場合には、異なるオプションがある。ピッチ情報は、オーディオエンコーダからオーディオデコーダまで伝送することができる可能性があり、それはオーディオデコーダを単純化するが、ビットレートオーバーヘッドを発生させる。代替として、ピッチ情報は、オーディオデコーダにおいて、たとえば、励振ドメインにおいて、すなわち、時間ドメイン励振信号に基づいて、決定することができる。たとえば、前の適切に復号化されたオーディオフレームから導き出された時間ドメイン励振信号は、エラーコンシールメントオーディオ情報の供給に対して用いられるピッチ情報を識別するために、評価することができる。
【0187】
5.3 励振の外挿またはハーモニックパートの生成
【0188】
前のフレームから取得された励振(たとえば、時間ドメイン励振信号)(ロストフレームに対して丁度演算されたかまたは多重のフレームロスに対して前のロストフレームにおいて既に保存されたかのいずれか)は、1つ半のフレームを得るために必要なだけ最後のピッチサイクルを複製することによって、ハーモニックパート(決定的な成分またはほぼ周期的な成分としても示される)を、励振に(たとえば、LPC合成の入力信号に)組み込むために用いられる。煩雑性を省くため、最初のロスフレームに対して1つ半のフレームを生成し、そして続くフレームロスに対して半フレームだけ処理をシフトし、各々1フレームのみを生成することができる。次に、オーバーラップの半フレームに常にアクセスする。
【0189】
良好なフレーム(すなわち、適切に復号化されたフレーム)の後の最初のロストフレームのケースにおいて、最初のピッチサイクル(たとえば、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号の)は、(ELDが実際に広いサンプリングレートの組合せ―AAC−ELDコアからSBRまたはAAC−ELDデュアルレートSBRによるAAC−ELDまでをカバーするので)サンプリングレート依存フィルタによってローパスフィルタリングされる。
【0190】
ボイス信号におけるピッチは、ほとんどいつでも変化している。それ故に、上記提案されたコンシールメントは、コンシールされた信号の終わりにおける(すなわち、エラーコンシールメントオーディオ情報の終わりにおける)ピッチがしばしば最初の良好なフレームのピッチにマッチしないので、リカバリーにおいていくつかの問題(または少なくとも歪み)を発生させる傾向がある。それ故に、オプションとして、いくつかの実施形態において、コンシールされたフレームの終わりにおけるピッチをリカバリーフレームの始めにおけるピッチにマッチするように予測することが試みられる。たとえば、ロストフレーム(それは、コンシールされたフレームと考えられる)の終わりにおけるピッチが予測され、予測のターゲットは、ロストフレーム(コンシールされたフレーム)の終わりにおけるピッチを、1つ以上のロストフレームに引き続く最初の適切に復号化されたフレーム(最初の適切に復号化されたフレームが「リカバリーフレーム」とも呼ばれる)の始めにおけるピッチに近づくようにセットすることである。これは、フレームロスの間、または最初の良好なフレームの間(すなわち、最初の適切に受信されたフレームの間)、行われる可能性がある。さらに良好な結果を得るために、オプションとして、ピッチ予測およびピッチ再同期のようないくつかの従来のツールを再利用し、それらを適応させることが可能である。詳細に対して、たとえば、参考文献[6]および[7]が参照される。
【0191】
長期予測(LTP)が周波数ドメインコーデックにおいて用いられる場合に、ピッチに関する開始情報として遅延を用いることができる。しかしながら、いくつなの実施形態において、ピッチ輪郭をより良く追跡することができる良好なデータの塊を有することも望ましい。それ故に、最後の良好な(適切に復号化された)フレームの始めと終わりにおいてピッチ探索を行うことが好ましい。信号を動くピッチに適応させるために、技術水準に存在するパルス再同期を用いることが望ましい。
【0192】
5.4 ピッチのゲイン
【0193】
いくつかの実施形態において、所望のレベルに達するために、前に取得された励振上のゲインを適用することが好ましい。「ピッチのゲイン」(たとえば、時間ドメイン励振信号の決定的な成分のゲイン、すなわちLPC合成の入力信号を取得するために、前に復号化されたオーディオフレームから導き出された時間ドメイン励振信号に適用されたゲイン)は、たとえば、最後の良好な(たとえば、適切に復号化された)フレームの終わりにおいて時間ドメインで正規化相関を行うことによって取得することができる。相関の長さは、2つのサブフレームの長さに等しいとすることができる、または適応的に変えることができる。遅延は、ハーモニックパートの生成に対して用いられるピッチ遅延に等しい。また、オプションとして、最初のロストフレーム上でのみゲイン計算を実行し、引き続く連続するフレームロスに対してフェードアウト(低減されたゲイン)を適用するのみとすることもできる。
【0194】
「ピッチのゲイン」は、生成される純音性の量(または決定的な、少なくともほぼ周期的な信号成分の量)を決定する。しかしながら、人工的な音のみを有することがないように、いくつかの成型されたノイズを加えることが望ましい。非常に低いピッチのゲインを得る場合には、成形されたノイズのみからなる信号を造る。
【0195】
結論として、いくつかのケースにおいて、たとえば、前に復号化されたオーディオフレームに基づいて取得された、いくつかの時間ドメイン励振信号は、(たとえば、LPC分析に対する入力信号を取得するための)ゲインに依存してスケーリングされる。したがって、時間ドメイン励振信号は決定的な(少なくともほぼ周期的な)信号成分を決定するので、ゲインは、エラーコンシールメントオーディオ情報における前記決定的な(少なくともほぼ周期的な)信号成分の相対的な強度を決定することができる。加えて、エラーコンシールメントオーディオ情報は、エラーコンシールメントオーディオ情報のトータルエネルギーが、少なくともいくらかの程度で、ロストオーディオフレームに先行する適切に復号化されたオーディオフレームに、そして理想的には、1つ以上のロストオーディオフレームに引き続く適切に復号化されたオーディオフレームにも、適応されるように、LPC合成によって成形されたノイズに基づくことができる。
【0196】
5.5 ノイズパートの構築
【0197】
ランダムノイズ発生器によって、「イノベーション」が構築される。このノイズは、オプションとして更にハイパスフィルタリングされ、有声のおよび立上りのフレームに対してオプションとしてプリエンファサイズされる。ハーモニックパートのローパスに関しては、このフィルタ(たとえば、ハイパスフィルタ)はサンプリングレート依存である。このノイズ(たとえば、ノイズ生成560によって提供された)は、できる限りバックグラウンドノイズに近くなるように、LPCによって(たとえば、LPC合成580によって)成形される。ハイパス特性は、また、オプションとして、フルバンド成形されたノイズのみを得てバックグラウンドノイズに近い快適なノイズを得るために、もはやフィルタリングのない特定の量のフレームロスを断言するように、連続するフレームロス上で変えられる。
【0198】
イノベーションゲイン(それは、たとえば、結合/フェーディング570におけるノイズ562のゲイン、すなわちそれを用いてノイズ信号562がLPC合成の入力信号572に含まれるゲインを決定することができる)は、たとえば、最後の良好なフレームの終わりにおいて相関を行うことによって、前に演算されたピッチ(それが存在する場合)の貢献度(たとえば、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号の「ピッチのゲイン」を用いてスケーリングされた、スケーリングバージョン)を除去することによって計算される。ピッチゲインに関しては、オプションとして最初のロストフレーム上でのみ行うことができ、次にフェードアウトするが、このケースにおいてフェードアウトは、完全なミューティングに結果としてなる0またはバックグラウンドにおいて存在する推定ノイズレベルのいずれかまで進む可能性がある。相関の長さは、たとえば、2つのサブフレームの長さに等しく、遅延はハーモニックパートの生成に対して用いられるピッチ遅延に等しい。
【0199】
オプションとして、このゲインは、また、ピッチのゲインが1でない場合に、ノイズ上に同程度のゲインを適用し、エネルギー喪失に到達するために、(1−「ピッチのゲイン」)によって逓倍される。オプションとして、このゲインは、ノイズファクタによっても逓倍される。ノイズファクタは、たとえば、前の有効フレーム(たとえば、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームから)から来る。
【0200】
5.6 フェードアウト
【0201】
フェードアウトは、大部分は多重のフレームロスに対して用いられる。しかしながら、フェードアウトは、単一のオーディオフレームのみが失われたケースにおいても用いることができる。
【0202】
多重のフレームロスのケースにおいて、LPCパラメータは再計算されない。最後に演算されたものが保持されるかまたはバックグラウンド形状への収束によってLPCコンシールメントが行われるかのいずれかである。このケースにおいて、信号の周期性はゼロに収束される。たとえば、ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号502は、時間とともに徐々に低減するゲインが依然として用いられる一方、ノイズ信号562は、一定に保たれるか、または、時間ドメイン励振信号552の相対的な重みがノイズ信号562の相対的な重みと比較したときに低減されるように、時間とともに徐々に増大するゲインによってスケーリングされる。結果的に、LPC合成580の入力信号572は、ますます「ノイズ−ライク」になる。結果的に、「周期性」(または、より正確にはLPC合成580の出力信号582の決定的なまたは少なくともほぼ周期的な成分)は、時間とともに低減される。
【0203】
信号572の周期性および/または信号582の周期性に従う収束の速度は、0に収束され、従って最後の正しく受信された(または適切に復号化された)フレームのパラメータおよび/または連続する消去されたフレームの数に依存し、減衰率αによって制御される。ファクタαは、LPフィルタの安定性に更に依存している。オプションとして、ピッチ長による比率においてファクタαを変えることが可能である。ピッチ(たとえば、ピッチによる周期長)は、実際に長い場合にはαを「ノーマル」にキープするが、ピッチが実際に短い場合には通常は過去の励振の同じパートを何度も複製することが必要である。これは、すぐに非常に人工的に聞こえ、それ故に、この信号を速くフェードアウトさせることが好ましい。
【0204】
更にオプションとして、利用可能であれば、ピッチ予測出力を考慮することができる。ピッチが予測される場合は、それはピッチが前のフレームにおいて既に変化していたことを意味し、より多くのフレームを自由にするとより真実から離れる。それ故に、このケースにおいては音のパートのフェードアウトを少しスピードアップすることが好ましい。
【0205】
ピッチがあまりに多く変化しているという理由でピッチ予測が失敗した場合、それはピッチ値が、実際に信頼性が高くないかまたは信号が実際に予測不能であるかのいずれかであることを意味する。それ故に、再び、より速くフェードアウトする(たとえば、1つ以上のロストオーディオフレームに先行する1つ以上の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号552をより速くフェードアウトする)ことが好ましい。
【0206】
5.7 LPC合成
【0207】
時間ドメインに戻るために、デエンファシスに引き続く2つの励振(音のパートとノイズが多いパート)の合計についてLPC合成580を実行することが好ましい。違う言葉で表現すれば、ロストオーディオフレーム(音のパート)に先行する1つ以上の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号552とノイズ信号562(ノイズが多いパート)との重み付け結合に基づいてLPC合成580を実行することが好ましい。上述したように、時間ドメイン励振信号552は、LPC分析530(LPC合成580に対して用いられたLPC合成フィルタの特性を記述するLPC係数に加えて)によって取得された時間ドメイン励振信号532と比較したとき、修正することができる。たとえば、時間ドメイン励振信号552は、LPC分析530によって取得された時間ドメイン励振信号532の1回スケーリングされた複製とすることができ、時間スケーリングは、時間ドメイン励振信号552のピッチを所望のピッチに適応させるために用いることができる。
【0208】
5.8 オーバーラップ加算
【0209】
変換コーデックのみのケースにおいて、最高のオーバーラップ加算を得るために、コンシールされたフレームを超える半フレームに対して人工的な信号を生成し、その上に人工的なエイリアシングを生成する。しかしながら、異なるオーバーラップ加算コンセプトを適用することもできる。
【0210】
正規のAACまたはTCXの文脈において、オーバーラップ加算は、コンシールメントから来る余分な半フレームと最初の良好なフレームの最初のパートとの間で適用される(AAC−LDとして、より低い遅延ウィンドウに対して半分以下である可能性がある)。
【0211】
ELD(特別な低遅延)の特殊ケースにおいて、最初のロストフレームに対して、最後の3つのウィンドウから適切な貢献度を得るために、分析を3回実行し、次に最初のコンシールメントフレームと全ての引き続くフレームに対して、もう1回分析を実行することが好ましい。次に、MDCTドメインにおいて、引き続くフレームに対して、全ての適当なメモリによって時間ドメインに戻されるように、1つのELD合成が行われる。
【0212】
結論として、LPC合成580の入力信号572(および/または時間ドメイン励振信号552)は、ロストオーディオフレームの継続期間より長い時間的な継続期間に対して提供することができる。したがって、LPC合成580の出力信号582は、ロストオーディオフレームより長い期間に対して提供することもできる。したがって、オーバーラップ加算は、エラーコンシールメントオーディオ情報(それは、結果的にロストオーディオフレームの時間的拡張より長い期間に対して取得される)と、1つ以上のロストオーディオフレームに引き続く適切に復号化されたオーディオフレームに対して提供された復号化されたオーディオ情報との間で実行することができる。
【0213】
要約すると、エラーコンシールメント500は、オーディオフレームが周波数ドメインにおいて符号化されるケースによく適応される。オーディオフレームが周波数ドメインにおいて符号化される場合であっても、エラーコンシールメントオーディオ情報の提供は、時間ドメイン励振信号に基づいて実行される。異なる修正は、ロストオーディオフレームに先行する1つ以上の適切に復号化されたオーディオフレームに基づいて取得された時間ドメイン励振信号に対して異なる修正が適用される。たとえば、LPC分析530によって提供された時間ドメイン励振信号は、たとえば、時間スケーリングを用いてピッチ変化に適応される。さらに、LPC分析530によって提供された時間ドメイン励振信号は、また、スケーリング(ゲインのアプリケーション)によって修正され、決定的な(または音の、または少なくともほぼ周期的な)成分のフェードアウトは、LPC合成580の入力信号572がLPC分析によって取得された時間ドメイン励振信号から導き出された成分とノイズ信号562に基づくノイズ成分の両方を備えるように、スケーラ/フェーダ570によって実行することができる。LPC合成580の入力信号572の決定的な成分は、しかしながら、通常はLPC分析530によって提供された時間ドメイン励振信号に関して修正される(たとえば、時間スケーリングされるおよび/または振幅スケーリングされる)。
【0214】
このように、時間ドメイン励振信号は、ニーズに適応させることができ、不自然な聴覚インプレッションが回避される。
【0215】
6.図6に係る時間ドメインコンシールメント
【0216】
図6は、スイッチコーデックに対して用いることができる、時間ドメインコンシールメントの概略ブロック図を示す。たとえば、図6に係る時間ドメインコンシールメント600は、たとえば、エラーコンシールメント240またはエラーコンシールメント480に置き換えることができる。
【0217】
さらに、図6に係る実施形態は、USAC(MPEG−D/MPEG−H)またはEVS(3GPP)のような、時間および周波数ドメインを用いて結合された、スイッチコーデックの文脈をカバーする(文脈の中で用いることができる)ことに留意すべきである。言い換えれば、時間ドメインコンシールメント600は、周波数ドメイン復号化と時間ドメイン復号化(または、等価的に、線形予測係数ベースの復号化)の間のスイッチングがあるオーディオデコーダにおいて用いることができる。
【0218】
しかしながら、図6に係るエラーコンシールメント600は、また、単に時間ドメイン(または、等価的に、線形予測係数ドメインにおいて)において復号化を実行するオーディオデコーダを用いることができることに留意すべきである。
【0219】
スイッチドコーデックのケースにおいて(そして、さらに単に線形予測係数ドメインにおいて復号化を実行するコーデックのケースにおいて)、通常は前のフレーム(たとえば、ロストオーディオフレームに先行する適切に復号化されたオーディオフレーム)から来る励振信号(たとえば、時間ドメイン励振信号)を既に有する。そうでない場合(たとえば、ドメイン励振信号が利用可能でない場合)は、図5に係る実施形態において説明したように行う、すなわちLPC分析を実行することが可能である。前のフレームがACELPライクであった場合は、最後のフレームにおけるサブフレームのピッチ情報も既に有する。最後のフレームがLTP(長期予測)によるTCX(変換符号化励振)であった場合は、長期予測から来る遅延情報も有する。そして、最後のフレームが長期予測(LTP)なしに周波数ドメインにあった場合は、ピッチ探索は、好ましくは励振ドメインにおいて(たとえば、LPC分析によって提供された時間ドメイン励振信号に基づいて)直接行われる。
【0220】
デコーダが時間ドメインにおけるいくつかのLPCパラメータを既に用いている場合は、それらを再利用し、LPCパラメータの新たなセットを外挿する。LPCパラメータの外挿は、過去のLPC、たとえば最後の3つのフレームと、オプションとして、DTX(不連続な変換)がコーデックにおいて存在する場合に、DTXノイズ推定の間に導き出されたLPC形状の平均に基づいている。
【0221】
全てのコンシールメントは、連続するフレーム間のよりスムースな遷移を得るために、励振ドメインにおいて行われる。
【0222】
以下に、図6に係るエラーコンシールメント600が更に詳細に記述される。
【0223】
エラーコンシールメント600は、過去の励振610と過去のピッチ情報640とを受信する。さらに、エラーコンシールメント600は、エラーコンシールメントオーディオ情報612を提供する。
【0224】
エラーコンシールメント600によって受信された過去の励振610は、たとえば、LPC分析530の出力532に対応することができることに留意すべきである。さらに、過去のピッチ情報640は、たとえば、ピッチ探索540の出力情報542に対応することができる。
【0225】
エラーコンシールメント600は、上記説明が参照される外挿550に対応することができる、外挿650を更に備える。
【0226】
さらに、エラーコンシールメントは、上記説明が参照されるノイズ発生器560に対応することができる、ノイズ発生器660を備える。
【0227】
外挿650は、外挿された時間ドメイン励振信号552に対応することができる、外挿された時間ドメイン励振信号652を提供する。ノイズ発生器660は、ノイズ信号562に対応する、ノイズ信号662を提供する。
【0228】
エラーコンシールメント600は、また、コンバイナ/フェーダ670を備える。外挿された時間ドメイン励振信号652とノイズ信号662とを受信し、それに基づいて、上記説明もあてはまるように、LPC合成680がLPC合成580に対応することができる、LPC合成680に対する入力信号672を提供する。LPC合成680は、時間ドメインオーディオ信号582に対応することができる、時間ドメインオーディオ信号682を提供する。エラーコンシールメントは、また、デエンファシス584に対応することができ、デエンファシスされたエラーコンシールメント時間ドメインオーディオ信号686を提供する、デエンファシス684を(オプションとして)備える。エラーコンシールメント600は、オプションとして、オーバーラップ加算590に対応することができる、オーバーラップ加算690を備える。しかしながら、オーバーラップ加算590に関する上記説明は、オーバーラップ加算690にもあてはまる。言い換えれば、オーバーラップ加算690は、また、LPC合成の出力信号682またはデエンファシスの出力信号686がエラーコンシールメントオーディオ情報と考えることができるように、オーディオデコーダの全体のオーバーラップ加算によって置換することができる。
【0229】
結論として、エラーコンシールメント600は、エラーコンシールメント600が、LPC分析および/またはピッチ分析を実行する必要なしに、1つ以上の前に復号化されたオーディオフレームから過去の励振情報610と過去のピッチ情報640とを直接取得する点で、実質的にエラーコンシールメント500と異なる。しかしながら、エラーコンシールメント600は、オプションとして、LPC分析および/またはピッチ分析(ピッチ探索)を備えることができることに留意すべきである。
【0230】
以下に、エラーコンシールメント600のいくつかの詳細が更に詳細に記述される。しかしながら、特定の詳細が本質的な構成でなく実施例と考える必要があることに留意すべきである。
【0231】
6.1 ピッチ探索の過去のピッチ
【0232】
新しい信号を造るために用いられるピッチを取得するために異なるアプローチがある。
【0233】
AAC−LTPのような、LTPフィルタを用いるコーデックの文脈において、最後のフレーム(ロストフレームに先行する)がLTPによるAACであった場合は、最後のLTPピッチ遅延および対応するゲインから来るピッチ情報を有する。このケースにおいて、ハーモニックパートを信号に組み込みたいか否かを決定するためにゲインを用いる。たとえば、LTPゲインが0.6より高い場合は、ハーモニックパートを造るためにLTP情報を用いる。
【0234】
前のフレームから利用可能ないかなるピッチ情報も有しない場合は、たとえば、2つの他のソリューションがある。
【0235】
1つのソリューションは、エンコーダでピッチ探索を行い、ビットストリームにおいてピッチ遅延およびゲインを伝送することである。これは、長期予測(LTP)と類似しているが、いかなるフィルタリング(また、きれいなチャネルにおけるLTPフィルタリング)も適用しない。
【0236】
他のソリューションは、デコーダにおいてピッチ探索を実行することである。TCXのケースにおいて、AMR−WBピッチ探索はFFTドメインにおいて行われる。たとえばTCXにおいては、MDCTドメインを用い、位相を失っている。それ故に、ピッチ探索は、好ましい実施形態において、励振ドメインにおいて(たとえば、LPC合成に対する入力として用いられる、またはLPC合成に対する入力を導き出すために用いられる、時間ドメイン励振信号に基づいて)直接行われる。これは、通常は合成ドメインにおいて(たとえば、完全に復号化された時間ドメインオーディオ信号に基づいて)ピッチ探索を行うことより良好な結果を与える。
【0237】
励振ドメインにおける(たとえば、時間ドメイン励振信号に基づく)ピッチ探索は、正規化相互相関によって最初にオープンループによって行われる。次に、オプションとして、ピッチ探索は、特定のデルタによって、オープンループピッチの周辺でクローズドループ探索を行うことによってリファインすることができる。
【0238】
好ましい実施態様においては、単に相関の1つの最高値を考慮しない。ノンエラーの傾向がある前のフレームからのピッチ情報を有する場合、正規化相互相関ドメインにおいて最も高い5つの値の1つに対応するが、前のフレームピッチに最も近いピッチを選択する。次に、また、見つかった最大がウィンドウ制限による間違った最大でないことが検証される。
【0239】
結論として、ピッチを決定する異なるコンセプトがあり、過去のピッチ(すなわち、前に復号化されたオーディオフレームに関連するピッチ)を考慮することが演算的に効率的である。代替として、ピッチ情報は、オーディオエンコーダからオーディオデコーダに伝送することができる。他の代替として、ピッチ探索は、オーディオデコーダの側で実行することができ、ピッチの決定は、好ましくは、時間ドメイン励振信号に基づいて(すなわち、励振ドメインにおいて)実行される。特に信頼性が高く正確なピッチ情報を得るために、オープンループ探索とクローズドループ探索とを備える2段階のピッチ探索を実行することができる。代替としてまたは加えて、前に復号化されたオーディオフレームからのピッチ情報は、ピッチ探索が信頼性の高い結果を提供することを確実にするために用いることができる。
【0240】
6.2 励振の外挿またはハーモニックパートの構築
【0241】
前のフレームから取得された(ロストフレームに対してちょうど演算されたかまたは多重のフレームロスに対して前のロストフレームにおいて既に保存されたかのいずれかの)励振(たとえば、時間ドメイン励振信号の形の)は、たとえば、1つ半の(ロスト)フレームを得るために必要に応じて何度でも、最後のピッチサイクル(たとえば、その時間的な継続期間がピッチの周期の継続期間に等しい、時間ドメイン励振信号610の部分)を複製することによって、励振(たとえば外挿された時間ドメイン励振信号662)にハーモニックパートを組み込むために用いられる。
【0242】
更により良好な結果を得るために、技術水準から公知のいくつかのツールを再利用し、それらを適応させることがオプションとして可能である。詳細に対して、たとえば、参考文献[6]および[7]が参照される。
【0243】
ボイス信号におけるピッチは、ほとんどいつでも変化していることが分かっている。それ故に、上述されたコンシールメントは、コンシールされた信号の終わりにおけるピッチがしばしば最初の良好なフレームのピッチにマッチしないので、リカバリーにおいていくつかの問題を発生させる傾向があることが分かっている。それ故に、オプションとして、コンシールされたフレームの終わりにおけるピッチをリカバリーフレームの始めにおけるピッチにマッチさせるために予測することが試みられる。この機能は、たとえば、外挿650によって実行される。
【0244】
TCXにおいてLTPが用いられる場合、遅延は、ピッチに関する開始情報として用いることができる。しかしながら、より良好にピッチ輪郭を追跡することができるより良好なデータの塊を有することが望ましい。それ故に、ピッチ探索は、オプションとして最後の良好なフレームの終わりにおいて行われる。信号を動くピッチに適応させるために、技術水準に存在するパルス再同期を用いることができる。
【0245】
結論として、外挿(たとえば、ロストフレームに先行する最後の適切に復号化されたまたはそれに基づいて取得された時間ドメイン励振信号の)は、前のオーディオフレームに関連する前記時間ドメイン励振信号の時間部分の複製を備えることができ、複製された時間部分は、ロストオーディオフレームの間の(予想される)ピッチ変化の演算または推定に依存して修正することができる。ピッチ変化の決定に対しては、異なるコンセプトも利用可能である。
【0246】
6.3 ピッチのゲイン
【0247】
図6に係る実施形態において、ゲインは、所望のレベルに到達するため、前に取得された励振に適用される。ピッチのゲインは、たとえば、最後の良好なフレームの終わりにおいて時間ドメインで正規化相関を行うことによって取得される。たとえば、相関の長さは2つのサブフレーム長に等しくすることができ、遅延は、ハーモニックパートの生成に対して(たとえば、時間ドメイン励振信号の複製に対して)用いられるピッチ遅延に等しくすることができる。時間ドメインにおいてゲイン計算を行うことは、励振ドメインにおいてそれを行うことより非常に信頼性の高いゲインを与えることが分かっている。LPCはフレームごとに変化し、前のフレーム上で計算された他のLPCセットによって処理される励振信号上のゲインは、時間ドメインにおいて期待されるエネルギーを与えない。
【0248】
ピッチのゲインは、生成される純音性の量を決定するが、人工的な音のみを有さないようにいくつかの成形されたノイズも加えられる。非常に低いゲインのピッチが取得された場合は、成形されたノイズのみからなる信号を造ることができる。
【0249】
結論として、前のフレームに基づいて取得された時間ドメイン励振信号(または前に復号化されたフレームに対して取得されたまたは前に復号化されたフレームに関連する時間ドメイン励振信号)をスケーリングするために適用されるゲインは、それによりLPC合成680の入力信号内で、そして結果的にエラーコンシールメントオーディオ情報内で、音の(または決定的である、または少なくともほぼ周期的な)成分の重みを決定するように調整される。前記ゲインは、前に復号化されたフレームの復号化によって取得された時間ドメインオーディオ信号に適用される、相関に基づいて決定することができる(ここで、前記時間ドメインオーディオ信号は、復号化の過程において実行されるLPC合成を用いて取得することができる)。
【0250】
6.4 ノイズパートの生成
【0251】
ランダムノイズ発生器660によって、イノベーションが構築される。
このノイズは、更にハイパスフィルタリングされ、有声のおよび立上りのフレームに対してオプションとしてプリエンファサイズされる。有声のおよび立上りのフレームに対して選択的に実行することができる、ハイパスフィルタリングおよびプリエンファシスは、図6において明示的には示されていないが、たとえば、ノイズ発生器660内でまたはコンバイナ/フェーダ670内で実行することができる。
【0252】
ノイズは、できる限りバックグラウンドノイズに近くなるように、LPCによって(たとえば、外挿650によって取得された時間ドメイン励振信号652との結合の後で)成形される。
【0253】
たとえば、イノベーションゲインは、前に計算されたピッチ(それが存在する場合)の貢献度を除去し、最後の良好なフレームの終わりにおいて相関を行うことによって計算することができる。相関の長さは、2つのサブフレーム長に等しくすることができ、遅延は、ハーモニックパートの生成に対して用いられるピッチ遅延に等しくすることができる。
【0254】
オプションとして、このゲインは、また、ピッチのゲインが1でない場合に、ノイズ上に同程度のゲインを適用し、エネルギー喪失に到達するために、(1−ピッチのゲイン)によって逓倍することができる。オプションとして、このゲインは、ノイズのファクタによっても逓倍される。ノイズのこのファクタは、前の有効なフレームから来ることができる。
【0255】
結論として、エラーコンシールメントオーディオ情報のノイズ成分は、LPC合成680(そして、おそらくは、デエンファシス684)を用いてノイズ発生器660によって提供される成形されたノイズによって取得される。加えて、付加的なハイパスフィルタリングおよび/またはプリエンファシスを適用することができる。LPC合成680の入力信号672に対するノイズ貢献度のゲイン(「イノベーションゲイン」としても示される)は、ロストオーディオフレームに先行する最後の適切に復号化されたオーディオフレームに基づいて演算することができ、決定的な(または少なくともほぼ周期的な)成分は、ロストオーディオフレームに先行するオーディオフレームから除去することができ、相関は、次にロストオーディオフレームに先行するオーディオフレームの復号化された時間ドメイン信号内で、ノイズ成分の強度(またはゲイン)を決定するために実行することができる。
【0256】
オプションとして、いくつかの付加的な修正をノイズ成分のゲインに適用することができる。
【0257】
6.5 フェードアウト
【0258】
フェードアウトは、大抵は多重のフレームロスに対して用いられる。しかしながら、フェードアウトは、単一のオーディオフレームのみが失われたケースにおいても用いることができる。
【0259】
多重のフレームロスのケースにおいては、LPCパラメータは再計算されない。最後に計算されたものが保持されるかまたはLPCコンシールメントが前述されたように実行されるかのいずれかである。
【0260】
信号の周期性は、ゼロに収束される。収束の速度は、最後の正しく受信された(または正しく復号化された)フレームのパラメータと連続する消去された(または失われた)フレームの数とに依存しており、減衰率αによって制御される。ファクタαは、LPフィルタの安定性に更に依存している。オプションとして、ファクタαは、ピッチ長による比率において変えることができる。たとえば、ピッチが実際に長い場合には、αはノーマルに保持することができるが、ピッチが実際に短い場合には、過去の励振の同じパートを何度も複製することが望ましい(または必要である)。これは、すぐに非常に人工的に聞こえることが分かっているので、それ故にこの信号はより速くフェードアウトされる。
【0261】
さらにオプションとして、ピッチ予測出力を考慮することが可能である。ピッチが予測される場合、ピッチが前のフレームにおいて既に変化し、より多くフレームが失われるとより真実から離れることを意味する。それ故に、このケースにおいて、音のパートのフェードアウトを少しスピードアップすることが望ましい。
【0262】
ピッチがあまり多く変化しているという理由でピッチ予測が失敗する場合、これはピッチ値が、実際に信頼性が高くないかまたは信号が実際に予測不可能であるかのいずれかを意味する。それ故に、再びフェードアウトをより速くする必要がある。
【0263】
結論として、LPC合成680の入力信号672に対する外挿された時間ドメイン励振信号652の貢献度は、通常は時間とともに低減される。これは、たとえば、外挿された時間ドメイン励振信号652に適用されるゲイン値を時間とともに低減することによって達成することができる。ロストオーディオフレームに先行する1つ以上のオーディオフレームに基づいて取得された時間ドメイン励振信号552(またはその1つ以上の複製)をスケーリングするために適用されるゲインを徐々に低減する速度は、1つ以上のオーディオフレームの1つ以上のパラメータに依存して(および/または連続するロストオーディオフレームの数に依存して)調整される。特に、時間とともにピッチが変化するピッチ長および/またはレート、および/または、ピッチ予測が失敗するかまたは成功するかどうかの問題は、前記速度を調整するために用いることができる。
【0264】
6.6 LPC合成
【0265】
時間ドメインに戻って、LPC合成680は、デエンファシス684によって追従される2つの励振(音のパート652およびノイズが多いパート662)の合計(または一般に、重み付け結合)上で実行される。
【0266】
言い換えれば、外挿された時間ドメイン励振信号652とノイズ信号662との重み付け結合(フェーディング)の結果は、結合された時間ドメイン励振信号を形成し、たとえば、合成フィルタを記述するLPC係数に依存して、前記結合された時間ドメイン励振信号672に基づいて合成フィルタリングを実行することができる、LPC合成680に入力される。
【0267】
6.7 オーバーラップ加算
【0268】
次のフレームのモードに何が来るか(たとえばACELP、TCXまたはFD)はコンシールメントの間知られていないので、前もって異なるオーバーラップを準備することが好ましい。次のフレームが変換ドメイン(TCXまたはFD)にある場合に最高のオーバーラップ加算を得るために、人工的な信号(たとえばエラーコンシールメントオーディオ情報)は、たとえば、コンシールされた(失われた)フレームを超える半フレームに対して生成することができる。さらに、人工的なエイリアシングをその上に生成することができる(人工的なエイリアシングは、たとえば、MDCTオーバーラップ加算に適応させることができる)。
【0269】
良好なオーバーラップ加算と時間ドメイン(ACELP)における将来のフレームによる不連続性がないことを得るために、長いオーバーラップ加算ウィンドウを適用することができるように上述したように行うが、エイリアシングはなしに行い、またはスクウェアウィンドウを用いたい場合は、ゼロ入力レスポンス(ZIR)が合成バッファの終わりにおいて計算される。
【0270】
結論として、スイッチングオーディオデコーダ(それは、たとえば、ACELP復号化とTCX復号化と周波数ドメイン復号化(FD復号化)との間でスイッチすることができる)において、オーバーラップ加算は、ロストオーディオフレームに対して主に提供されるがロストオーディオフレームに引き続く特定の時間部分に対しても提供されるエラーコンシールメントオーディオ情報と、1つ以上のロストオーディオフレームに引き続く最初の適切に復号化されたオーディオフレームに対して提供される復号化されたオーディオ情報との間で、実行することができる。次のオーディオフレーム間の遷移において時間ドメインエイリアシングをもたらす復号化モードに対してさえも適当なオーバーラップ加算を取得するために、エイリアシングキャンセル情報(たとえば、人工的なエイリアシングとして示される)を提供することができる。したがって、エラーコンシールメントオーディオ情報と、ロストオーディオフレームに引き続く最初の適切に復号化されたオーディオフレームに基づいて取得された時間ドメインオーディオ情報との間のオーバーラップ加算は、エイリアシングのキャンセルに結果としてなる。
【0271】
1つ以上のロストオーディオフレームのシーケンスに引き続く最初の適切に復号化されたオーディオフレームがACELPモードにおいて符号化される場合は、LPCフィルタのゼロ入力レスポンス(ZIR)に基づくことができる、特定のオーバーラップ情報を計算することができる。
【0272】
結論として、エラーコンシールメント600は、スイッチングオーディオコーデックにおける使用によく適合する。しかしながら、エラーコンシールメント600は、また、単にTCXモードにおいて符号化されたオーディオコンテンツを復号化するオーディオコーデックにおいてまたはACELPモードにおいて用いることができる。
【0273】
6.8 結論
【0274】
特に良好なエラーコンシールメントは、時間ドメイン励振信号を外挿し、外挿の結果を、フェーディング(たとえばクロスフェーディング)を用いてノイズ信号と結合し、クロスフェーディングの結果に基づいてLPC合成を実行する上述されたコンセプトによって達成されることに留意すべきである。
【0275】
7. 図11に係るオーディオデコーダ
【0276】
本発明の一実施形態によれば、図11は、オーディオデコーダ1100の概略ブロック図を示す。
【0277】
オーディオデコーダ1100は、スイッチングオーディオデコーダの部分とすることができることに留意すべきである。たとえば、オーディオデコーダ1100は、オーディオデコーダ400における線形予測ドメイン復号化パス440を置換することができる。
【0278】
オーディオデコーダ1100は、符号化されたオーディオ情報1110を受信し、それに基づいて、復号化されたオーディオ情報1112を提供するように構成される。符号化されたオーディオ情報1110は、たとえば、符号化されたオーディオ情報410に対応することができ、復号化されたオーディオ情報1112は、たとえば、復号化されたオーディオ情報412に対応することができる。
【0279】
オーディオデコーダ1100は、符号化されたオーディオ情報1110からスペクトル係数のセットの符号化された表現1122と線形予測符号化係数1124の符号化された表現とを導き出すように構成された、ビットストリームアナライザ1120を備える。しかしながら、ビットストリームアナライザ1120は、オプションとして符号化されたオーディオ情報1110から付加的な情報を抽出することができる。
【0280】
オーディオデコーダ1100は、また、符号化されたスペクトル係数1122に基づいて復号化スペクトル値1132のセットを提供するように構成された、スペクトル値復号化1130を備える。復号化スペクトル係数に対して知られたいかなる復号化コンセプトも用いることができる。
【0281】
オーディオデコーダ1100は、また、線形予測符号化係数の符号化された表現1124に基づいてスケールファクタ1142のセットを提供するように構成されたスケールファクタ変換1140に対する線形予測符号化係数を備える。たとえば、スケールファクタ変換1142に対する線形予測符号化係数は、USAC規格において記述された機能を実行することができる。たとえば、線形予測符号化係数の符号化された表現1124は、スケールファクタ変換1142に対して復号化され、線形予測符号化係数によってスケールファクタのセットに変換された多項式の表現を備えることができる。
【0282】
オーディオデコーダ1100は、また、スケールファクタ1142を復号化スペクトル値1132に適用し、それによりスケーリングされた復号化スペクトル値1152を取得するように構成された、スケーラ1150を備える。さらに、オーディオデコーダ1100は、オプションとして、たとえば、上述された処理366に対応することができる、処理1160を備え、処理されたスケーリングされた復号化スペクトル値1162は、オプションの処理1160によって取得される。オーディオデコーダ1100は、また、周波数ドメイン−時間ドメイン変換1170を備える。スケーリングされた復号化スペクトル値1152(それは、スケーリングされた復号化スペクトル値362に対応することができる)、または処理されたスケーリングされた復号化スペクトル値1162(それは、処理されたスケーリングされた復号化スペクトル値368に対応することができる)を受信し、それに基づいて、上述された時間ドメイン表現372に対応することができる、時間ドメイン表現1172を提供するように構成される。オーディオデコーダ1100は、また、たとえば、前述されたオプションの後処理376に少なくとも部分的に対応することができる、オプションの第1の後処理1174と、オプションの第2の後処理1178とを備える。したがって、オーディオデコーダ1110は、時間ドメインオーディオ表現1172の後処理されたバージョン1179を取得する(オプションとして)。
【0283】
オーディオデコーダ1100は、また、時間ドメインオーディオ表現1172またはそれの後処理されたバージョンと、線形予測符号化係数(符号化された形または復号化された形のいずれかの)とを受信し、それに基づいて、エラーコンシールメントオーディオ情報1182を提供するように構成された、エラーコンシールメントブロック1180を備える。
【0284】
エラーコンシールメントブロック1180は、時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするために、エラーコンシールメントオーディオ情報1182を提供するように構成され、それ故に、エラーコンシールメント380とエラーコンシールメント480に、そしてまたエラーコンシールメント500とエラーコンシールメント600に類似する。
【0285】
しかしながら、エラーコンシールメントブロック1180は、LPC分析530と実質的に同一である、LPC分析1184を備える。しかしながら、LPC分析1184は、オプションとして、分析を容易にするため(LPC分析530と比較したとき)、LPC係数1124を用いることができる。LPC分析1134は、実質的に時間ドメイン励振信号532と(また、時間ドメイン励振信号610と)同一である、時間ドメイン励振信号1186を提供する。さらに、エラーコンシールメントブロック1180は、たとえば、エラーコンシールメント500のブロック540、550、560、570、580、584の機能を実行することができる、または、たとえば、エラーコンシールメント600のブロック640、650、660、670、680、684の機能を実行することができる、エラーコンシールメント1188を備える。しかしながら、エラーコンシールメントブロック1180は、エラーコンシールメント500から、そしてエラーコンシールメント600からもわずかに異なる。たとえば、エラーコンシールメントブロック1180(LPC分析1184を備える)は、LPC係数(LPC合成580に対して用いられる)がLPC分析530によって決定されないが、(オプションとして)ビットストリームから受信されるという点において、エラーコンシールメント500と異なる。さらに、LPC分析1184を備えるエラーコンシールメントブロック1188は、「過去の励振」610が、直接利用可能であることよりむしろ、LPC分析1184によって取得されるという点で、エラーコンシールメント600と異なる。
【0286】
オーディオデコーダ1100は、また、時間ドメインオーディオ表現1172、またはそれの後処理されたバージョンと、エラーコンシールメントオーディオ情報1182(当然、次のオーディオフレームに対する)とを受信するように構成された、信号結合1190を備え、好ましくはオーバーラップ加算演算を用いて前記信号を結合し、それにより復号化されたオーディオ情報1112を取得する。
【0287】
更なる詳細は、上記説明が参照される。
【0288】
8.図9に係る方法
【0289】
図9は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法のフローチャートを示す。図9に係る方法900は、時間ドメイン励振信号を用いて、周波数ドメイン表現において符号化されたオーディオフレームに引き続くオーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ910を備える。図9に係る方法900は、図1に係るオーディオデコーダと同じ考察に基づいている。さらに、方法900は、本願明細書に記述されたいずれかの構成および機能によって、個別にまたは組合せて補充することができることに留意すべきである。
【0290】
9.図10に係る方法
【0291】
図10は、符号化されたオーディオ情報に基づいて復号化されたオーディオ情報を提供する方法のフローチャートを示す。方法1000は、オーディオフレームのロスをコンシールするためのエラーコンシールメントオーディオ情報を提供するステップ1010を備え、ロストオーディオフレームに先行する1つ以上のオーディオフレームに対して(またはそれに基づいて)取得された時間ドメイン励振信号は、エラーコンシールメントオーディオ情報を取得するために、修正される。
【0292】
図10に係る方法1000は、図2に係る上述されたオーディオデコーダと同じ考察に基づいている。
【0293】
さらに、図10に係る方法は、本願明細書に記述されたいずれかの機能および機能によって、個別にまたは組合せて補充することができることに留意すべきである。
【0294】
10.付加的な注釈
【0295】
上述された実施形態において、多重のフレームロスを、異なる方法で取り扱うことができる。たとえば、2つ以上のフレームが失われた場合、第2のロストフレームに対する時間ドメイン励振信号の周期的なパートは、第1のロストフレームに関連する時間ドメイン励振信号の音のパートの複製(または、等しい)から導き出すことができる。代替として、第2のロストフレームに対する時間ドメイン励振信号は、前のロストフレームの合成信号のLPC分析に基づくことができる。たとえばコーデックにおいて、LPCはあらゆるロストフレームを変えることができ、そのときあらゆるロストフレームに対する分析をやり直すことは意味がある。
【0296】
11.実施態様の変形例
【0297】
いくつかの態様が装置の文脈において記載されたが、これらの態様は、また対応する方法の記載を表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの構成に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロックまたは項目または構成の記載を表す。いくつかのまたは全ての方法ステップは、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置によって(またはそれを用いて)実行することができる。いくつかの実施形態において、いくつかの1つ以上の最も重要な方法ステップは、この種の装置によって実行することができる。
【0298】
特定の実施要求に従い、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に格納される電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、デジタル記憶媒体、たとえば、フロッピーディスク(登録商標)、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリを用いて実行することができる。それ故に、デジタル記憶媒体は、コンピュータ読取可能とすることができる。
【0299】
本発明に係るいくつかの実施形態は、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータキャリアを備える。
【0300】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、方法の1つを実行するために動作するプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、機械読取可能キャリアに格納することができる。
【0301】
他の実施形態は、機械読取可能キャリアに格納された、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを備える。
【0302】
言い換えれば、発明の方法の実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するプログラムコードを有するコンピュータプログラムである。
【0303】
発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上に記録されて備える、データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、通常は有形および/または非過渡的である。
【0304】
発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するコンピュータプログラムを表す、データストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を介して、たとえばインターネットを介して、伝送されるように構成することができる。
【0305】
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成されたまたは適合された、処理手段、たとえばコンピュータ、またはプログラマブルロジックデバイスを備える。
【0306】
更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムがその上にインストールされた、コンピュータを備える。
【0307】
本発明に係る更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムをレシーバに伝送する(たとえば、電子的にまたは光学的に)ように構成された、装置またはシステムを備える。レシーバは、たとえば、コンピュータ、モバイル機器、記憶装置等とすることができる。装置またはシステムは、たとえば、コンピュータプログラムをレシーバへ伝送するファイルサーバを備えることができる。
【0308】
いくつかの実施形態では、プログラマブルロジックデバイス(たとえばフィールドプログラマブルゲートアレイ)を、本願明細書に記載された方法の機能の一部または全てを実行するために用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するためにマイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
【0309】
本願明細書に記載された装置は、ハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組合せを用いて実施することができる。
【0310】
本願明細書に記載された方法は、ハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組合せを用いて実行することができる。
【0311】
上述された実施形態は、単に本発明の原理に対して示されたものである。本願明細書に記載された構成および詳細の修正および変更は、他の当業者にとって明らかであると理解される。それ故に、本願発明は、間近に迫った特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述および説明の方法によって示された特定の詳細によって制限されないことが意図される。
【0312】
12.結論
【0313】
結論として、変換ドメインコーデックに対するいくつかのコンシールメントはフィールドにおいて記載されてきたが、本発明に係る実施形態は、従来のコーデック(またはデコーダ)より優れている。本発明に係る実施形態は、コンシールメントに対するドメインの変更(周波数ドメインから時間または励振ドメイン)を用いる。したがって、本発明に係る実施形態は、変換ドメインデコーダに対して高品質のスピーチコンシールメントを構築する。
【0314】
変換符号化モードは、USAC(たとえば、参考文献[3]を参照)におけるそれと類似している。それは、変換として修正された離散コサイン変換(MDCT)を用い、スペクトルノイズ成形は、周波数ドメインにおける重み付けLPCスペクトル包絡(FDNS「周波数ドメインノイズ成形」としても知られる)を適用することによって達成される。違う言葉で表現すれば、本発明に係る実施形態は、USAC規格に記載された復号化コンセプトを用いるオーディオデコーダにおいて用いることができる。しかしながら、本願明細書に開示されたエラーコンシールメントコンセプトは、「AAC」ライクのまたはいかなるAACファミリーコーデック(またはデコーダ)におけるオーディオデコーダにおいても用いることができる。
【0315】
本発明に係るコンセプトは、USACのようなスイッチドコーデックならびに純粋な周波数ドメインコーデックに対して適用される。いずれのケースにおいても、コンシールメントは、時間ドメインにおいてまたは励振ドメインにおいて実行される。
【0316】
以下に、時間ドメインコンシールメントの(または励振ドメインコンシールメントの)いくつかの効果および機能が記載される。
【0317】
たとえば、ノイズ置換とも呼ばれる、図7および8を参照して記述されたような、従来のTCXコンシールメントは、スピーチライクな信号またはさらに音の信号に対してよく適合しない。本発明に係る実施形態は、時間ドメイン(または線形予測符号化デコーダの励振ドメイン)において適用される変換ドメインコーデックに対して、新規なコンシールメントを構築する。それは、ACELPライクなコンシールメントに類似し、コンシールメント品質を増大する。ピッチ情報は、ACELPライクなコンシールメントに対して有利である(またはいくつかのケースにおいて必要でさえある)ことが分かっている。このように、本発明に係る実施形態は、周波数ドメインにおいて符号化された前のフレームに対して、信頼性が高いピッチ値を見つけるように構成される。
【0318】
異なる部分および詳細が、たとえば図5および6に係る実施形態に基づいて上述されてきた。
【0319】
結論として、本発明に係る実施形態は、従来のソリューションより優れているエラーコンシールメントを構築する。
【0320】
<参考文献>
[1]3GPP, "Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions," 2009, 3GPP TS 26.290.
[2]"MDCT-BASED CODER FOR HIGHLY ADAPTIVE SPEECH AND AUDIO CODING"; Guillaume Fuchs & al.; EUSIPCO 2009.
[3]ISO_IEC_DIS_23003-3_(E); Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding.
[4]3GPP, "General Audio Codec audio processing functions; Enhanced aacPlus general audio codec; Additional decoder tools," 2009, 3GPP TS 26.402.
[5]"Audio decoder and coding error compensating method", 2000, EP 1207519 B1
[6]"Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation", 2014, PCT/EP2014/062589
[7]"Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization", 2014, PCT/EP2014/062578
図1
図2
図3
図4a
図4b
図5
図6
図7a
図7b
図8
図9
図10
図11