IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サムスン エレクトロニクス カンパニー リミテッドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-18
(45)【発行日】2022-08-26
(54)【発明の名称】パケット損失隠匿方法
(51)【国際特許分類】
   G10L 19/005 20130101AFI20220819BHJP
【FI】
G10L19/005
【請求項の数】 5
(21)【出願番号】P 2020184812
(22)【出願日】2020-11-05
(62)【分割の表示】P 2017504656の分割
【原出願日】2015-07-28
(65)【公開番号】P2021036332
(43)【公開日】2021-03-04
【審査請求日】2020-11-05
(31)【優先権主張番号】62/029,708
(32)【優先日】2014-07-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】503447036
【氏名又は名称】サムスン エレクトロニクス カンパニー リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ソン,ホ-サン
(72)【発明者】
【氏名】オ,ウン-ミ
【審査官】大野 弘
(56)【参考文献】
【文献】米国特許出願公開第2014/0142957(US,A1)
【文献】米国特許出願公開第2013/0144632(US,A1)
【文献】特表2015-534655(JP,A)
【文献】特表2014-531056(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/005
(57)【特許請求の範囲】
【請求項1】
プロセッサを含むオーディオ復号装置によるパケット損失隠匿方法において、
現在フレームが消去フレームである場合、周波数ドメインでのパケット損失隠匿のために、以前フレームのnorm値を回帰分析して前記現在フレームのnorm値を獲得し、前記以前フレームのnorm値と前記現在フレームのnorm値とに基づいてゲインを獲得し、前記獲得されたゲインによって前記以前フレームから前記現在フレームのスペクトル係数を獲得する段階と、
時間ドメインでのパケット損失隠匿のために、現在フレームが消去フレームであるか否かを示す第1パラメータ、以前フレームが消去フレームであるか否かを示す第2パラメータ、連続した消去フレームの個数を示す第3パラメータ、消去フレームに対して位相マッチングプロセスが使用されるか否かを示す第4パラメータ、バースト消去または次の正常フレームに対して位相マッチングプロセスが使用されるか否かを示す第5パラメータ、現在フレームのステーショナリティを示す第6パラメータ、及び現在フレームのエネルギーと現在フレームの移動平均エネルギーとの正規化されたエネルギー差の絶対値のうち少なくとも1つを考慮し、位相マッチングツールと反復及びスムージングツールのうち1つを選択する段階と、
前記選択されたツールを利用して、前記現在フレームに対してパケット損失隠匿処理を行う段階と、を含み、
前記反復及びスムージングツールは、第1反復及びスムージングプロセス及び第2反復及びスムージングプロセスを含むが、
前記位相マッチングツールは、第1位相マッチングプロセス、第2位相マッチングプロセス、及び第3位相マッチングプロセスを含み、
前記第1パラメータが、前記現在フレームが消去フレームであることを示し、前記第3パラメータが連続した消去フレームの個数が1個であることを示し、前記第4パラメータが前記消去フレームに対して位相マッチングプロセスが使用されることを示す場合、前記第1位相マッチングプロセスによって前記現在フレームに対してパケット損失隠匿処理が行われ、
前記第1パラメータが、前記現在フレームが消去フレームではないということを示し、前記第2パラメータが前記以前フレームが消去フレームであることを示し、前記第5パラメータがバースト消去または次の正常フレームに対して位相マッチングプロセスが使用されることを示す場合、前記第2位相マッチングプロセスによって前記現在フレームに対してパケット損失隠匿処理が行われ、
前記第1パラメータが、前記現在フレームが消去フレームであることを示し、前記第2パラメータが前記以前フレームが消去フレームであることを示し、前記第5パラメータがバースト消去または次の正常フレームに対して位相マッチングプロセスが使用されることを示す場合、前記第3位相マッチングプロセスによって前記現在フレームに対してパケット損失隠匿処理が行われ、
前記第1パラメータが前記現在フレームが消去フレームであることを示し、前記第4パラメータが前記消去フレームに対して位相マッチングプロセスが使用されないということを示し、前記第5パラメータがバースト消去または次の正常フレームに対して位相マッチングプロセスが使用されないということを示し、前記第6パラメータが前記現在フレームがステーショナリティであることを示すか、前記正規化されたエネルギー差の絶対値が既設定の値よりも小さい場合、前記第1反復及びスムージングプロセスによって前記現在フレームに対してパッケージ損失隠匿処理が行われ、
前記第1パラメータが前記現在フレームが消去フレームではないということを示し、前記第2パラメータが前記以前フレームが消去フレームであることを示し、前記第4パラメータが前記消去フレームに対して位相マッチングプロセスが使用されないということを示し、前記第5パラメータがバースト消去または次の正常フレームに対して位相マッチングプロセスが使用されないということを示し、前記第6パラメータが前記現在フレームがステーショナリティであることを示すか、前記正規化されたエネルギー差の絶対値が既設定の値よりも小さい場合、前記第2反復及びスムージングプロセスによって前記現在フレームに対してパッケージ損失隠匿処理が行われる、パケット損失隠匿方法。
【請求項2】
前記反復及びスムージングツールは、時間・周波数逆変換処理以後のOLA(overlap and add)処理の代わりに、前記現在フレームの状態によって、互いに異なる反復及びスムージングプロセスを行うことを特徴とする請求項1に記載のパケット損失隠匿方法。
【請求項3】
前記第1反復及びスムージングプロセスは、スムージング処理結果、オーバーラップ区間と、前記オーバーラップ以外の区間とのエネルギー変動程度を閾値と比較し、該比較結果により、前記スムージング処理の代わりに、OLA処理を行うことを特徴とする請求項1に記載のパケット損失隠匿方法。
【請求項4】
前記第1反復及びスムージングプロセスは、
時間・周波数逆変換処理以後、前記現在フレームの信号に対して、ウィンドウイング処理を行う段階と、
前記時間・周波数逆変換処理以後、2フレーム以前の信号を、前記現在フレームの開始部分に反復する段階と、
前記現在フレームで反復された信号と、前記現在フレームの信号とに対して、OLA処理を行う段階と、
所定のオーバーラップ区間を有するスムージングウィンドウを、前記以前フレームの信号と、前記現在フレームの信号とに適用し、OLA処理を行う段階と、を含むことを特徴とする請求項1に記載のパケット損失隠匿方法。
【請求項5】
前記第2反復及びスムージングプロセスは、
時間・周波数逆変換処理以後、スムージングウィンドウを、前記以前フレームの信号と、前記現在フレームの信号とに適用し、OLA処理を行う段階を含むことを特徴とする請求項1に記載のパケット損失隠匿方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、パケット損失隠匿に係り、さらに具体的には、オーディオ信号の一部フレームに損失が生じた場合、復元音質の劣化を最小化させることができるパケット損失隠匿方法及びその装置、並びにそれを適用した復号方法及びその装置に関する。
【背景技術】
【0002】
有無線網を介して、符号化されたオーディオ信号を伝送するにおいて、伝送エラー(transmission error)によって、一部パケットが損失されたり歪曲されたりする場合が生じれば、復号されたオーディオ信号の一部フレームが消去される場合が生じてしまう。ところで、消去フレームに対する処理が適切ではなければ、消去フレーム及び隣接フレームを含む区間において、復号されたオーディオ信号の音質が低下してしまう。
【0003】
一方、オーディオ信号符号化と係わり、特定信号については、時間・周波数変換処理を行った後、周波数ドメインにおいて圧縮過程を遂行する方式が、優秀な復元音質を提供すると知られている。時間・周波数変換処理中では、MDCT(modified discrete cosine transform)が汎用されている。その場合、オーディオ信号復号のためには、IMDCT(inverse modified discrete cosine transform)を介して、時間ドメイン信号に変換した後、オーバーラップアンドアド(OLA:overlap and add)処理を行うことができる。ところで、OLA処理においては、現在フレームにエラーが生じれば、次のフレームまで影響を及ぼす。特に、時間ドメイン信号でオーバーラッピングされる部分は、以前フレームと以後フレームとのエイリアシング(aliasing)成分が加わりながら、最終時間ドメイン信号が生成されるが、エラーが生じれば、正確なエイリアシング成分が存在しなくなり、ノイズが生じ、その結果、復元音質に相当な劣化をもたらす。
【0004】
かような時間・周波数変換処理を利用して、オーディオ信号を符号化及び復号する場合、消去フレームを隠匿するための方式のうち、以前正常フレーム(PGF:previous good frame)のパラメータを回帰分析し、消去フレームのパラメータを求める回帰分析(regression analysis)方式は、消去フレームに対して、本来のエネルギーをある程度考慮した隠匿が可能であるが、信号がだんだんと大きくなるか、あるいは信号の変動がはなはだしいところでは、エラー隠匿効率が低下してしまう。また、回帰分析法は、適用しなければならないパラメータの種類が多くなれば、複雑度の高くなる傾向がある。一方、消去フレームの以前正常フレーム(PGF)を反復して再生することにより、消去フレームの信号を復元する反復(repetition)方式は、OLA処理の特性上、復元音質の劣化を最小化させ難い。一方、以前正常フレーム(PGF)と、次の正常フレーム(NGF:next good frame)とのパラメータを補間し、消去フレームのパラメータを予測する補間(interpolation)方式は、1フレームというさらなる遅延を必要とするので、遅延に敏感な通信用コーデックでは、採択が適切ではない。
【0005】
従って、時間・周波数変換処理を利用して、オーディオ信号を符号化及び復号する場合、時間・周波数変換処理の前後で、パケット損失による復元音質の劣化を最小化させるために、さらなる時間遅延、あるいは複雑度の過度な上昇なしに、消去フレームを隠匿することができる方式の必要性が高まっている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、周波数ドメインあるいは時間ドメインにおいて、低複雑度で、さらなる遅延なしに、信号の特性に適応的に、消去フレームをさらに正確に隠匿するためのパケット損失隠匿方法及びその装置を提供するところにある。
【0007】
本発明が解決しようとする課題はまた、周波数ドメインあるいは時間ドメインにおいて、低複雑度で、さらなる遅延なしに、信号の特性に適応的に、消去フレームをさらに正確に復元することにより、パケット損失による音質低下を最小化させることができる復号方法及びその装置を提供するところにある。
【0008】
本発明が解決しようとする課題はまた、パケット損失隠匿方法あるいは復号方法を、コンピュータで実行させるためのプログラムを記録したコンピュータで読取り可能な記録媒体を提供するところにある。
【課題を解決するための手段】
【0009】
一側面による時間ドメインパケット損失隠匿方法は、現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームであるかということをチェックする段階と、前記現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームである場合、信号特性を獲得する段階と、前記信号特性を含む複数のパラメータに基づいて、位相マッチングツールと、反復及びスムージングツールとのうち一つを選択する段階と、前記選択されたツールを利用して、前記現在フレームに対するパケット損失隠匿処理を行う段階と、を含んでもよい。
【0010】
他の側面による時間ドメインパケット損失隠匿装置は、現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームであるかということをチェックし、前記現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームである場合、信号特性を獲得し、前記信号特性を含む複数のパラメータに基づいて、位相マッチングツールと、反復及びスムージングツールとのうち一つを選択し、前記選択されたツールを利用して、前記現在フレームに対するパケット損失隠匿処理を行うプロセッサを含んでもよい。
【0011】
他の側面による復号方法は、現在フレームが、消去フレームである場合、周波数ドメインにおいて、パケット損失隠匿処理を行う段階と、前記現在フレームが正常フレームである場合、スペクトル係数を復号する段階と、周波数ドメインにおいて、パケット損失隠匿処理が行われた前記消去フレーム、あるいは正常フレームである現在フレームに対して、時間・周波数逆変換処理を行う段階と、前記現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームであるかということをチェックし、前記現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームである場合、信号特性を獲得し、前記信号特性を含む複数のパラメータに基づいて、位相マッチングツールと、反復及びスムージングツールとのうち一つを選択し、前記選択されたツールを利用して、前記現在フレームに対するパケット損失隠匿処理を行う段階と、を含んでもよい。
【0012】
他の側面による復号装置は、現在フレームが、消去フレームである場合、周波数ドメインにおいて、パケット損失隠匿処理を行い、前記現在フレームが正常フレームである場合、スペクトル係数を復号し、周波数ドメインにおいて、パケット損失隠匿処理が行われた前記消去フレーム、あるいは正常フレームである現在フレームに対して、時間・周波数逆変換処理を行い、前記現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームであるかということをチェックし、前記現在フレームが、消去フレームであるか、あるいは消去フレーム以後の正常フレームである場合、信号特性を獲得し、前記信号特性を含む複数のパラメータに基づいて、位相マッチングツールと、反復及びスムージングツールとのうち一つを選択し、前記選択されたツールを利用して、前記現在フレームに対するパケット損失隠匿処理を行うプロセッサを含んでもよい。
【発明の効果】
【0013】
周波数ドメインにおいて、急激な信号変動をスムージングさせ、低複雑度で、さらなる遅延なしに、信号の特性、特に、トランジェント特性及びバースト消去区間に適応的に、消去フレームをさらに正確に復元することができる。
【0014】
時間ドメインにおいて、信号の特性によって、最適な方式でスムージング処理を行うことにより、復号された信号において、消去フレームによる急激な信号変動を、低複雑度で、さらなる遅延なしにスムージングさせることができる。
【0015】
特に、トランジェントフレームである消去フレームあるいはバースト消去を構成するフレームをさらに正確に復元することができ、その結果、消去フレーム以後の正常フレームに対して及ぼす影響を最小化させることができる。
【0016】
また、バッファに保存された複数個の以前フレームにおいて、位相マッチングを適用して得られた所定サイズのセグメントを、消去フレームである現在フレームにコピーし、隣接フレーム間スムージング処理を行うことにより、低周波数帯域に対する復元音質の向上を追加して図ることができる。
【図面の簡単な説明】
【0017】
図1】一実施形態による周波数ドメインオーディオ復号装置の構成を示したブロック図である。
図2】一実施形態による周波数ドメインパケット損失隠匿装置の構成を示したブロック図である。
図3】回帰分析を適用する場合、グルーピングされたサブバンド構造の例を示した図面である。
図4】線形回帰分析と非線形回帰分析との概念を示した図面である。
図5】一実施形態による時間ドメインパケット損失隠匿装置の構成を示したブロック図である。
図6】一実施形態による位相マッチング隠匿処理装置の構成を示すブロック図である。
図7図6に図示された第1隠匿部の動作について説明する図面である。
図8】一実施形態による位相マッチングの概念について説明する図面である。
図9】一般OLA(overlap and add)部の構成について説明するブロック図である。
図10】一般OLA処理について説明する図面である。
図11】一実施形態による反復及びスムージング消去隠匿装置の構成について説明するブロック図である。
図12図11において、第1隠匿部及びOLA部の構成を示すブロック図である。
図13】消去フレームに対する反復及びスムージング処理のウィンドウイングについて説明する図面である。
図14図11において、第3隠匿部の構成を示すブロック図である。
図15】消去フレーム以後の正常フレームに対する反復及びスムージング処理のウィンドウイングについて説明する図面である。
図16図11において、第2隠匿部の一実施形態の構成を示すブロック図である。
図17図16において、バースト消去以後の正常フレームに対する反復及びスムージング処理のウィンドウイングについて説明する図面である。
図18図11において、第2隠匿部の他の実施形態の構成を示すブロック図である。
図19図18において、バースト消去以後の正常フレームに対する反復及びスムージング処理のウィンドウイングについて説明する図面である。
図20A】一実施形態によるオーディオ符号化装置の構成を示したブロック図である。
図20B】一実施形態によるオーディオ復号装置の構成を示したブロック図である。
図21A】他の実施形態によるオーディオ符号化装置の構成を示したブロック図である。
図21B】他の実施形態によるオーディオ復号装置の構成を示したブロック図である。
図22A】他の実施形態によるオーディオ符号化装置の構成を示したブロック図である。
図22B】他の実施形態によるオーディオ復号装置の構成を示したブロック図である。
図23A】他の実施形態によるオーディオ符号化装置の構成を示したブロック図である。
図23B】他の実施形態によるオーディオ復号装置の構成を示したブロック図である。
【発明を実施するための形態】
【0018】
本開示は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって具体的に説明する。しかし、それは、特定の実施形態に対して限定するものではなく、技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。実施形態についての説明において、関連公知技術に係わる具体的な説明が、要旨を不明確にすると判断される場合、その詳細な説明を省略する。
【0019】
第1、第2のような用語は、多様な構成要素についての説明に使用されるが、構成要素は、用語によって限定されるものではない。該用語は、1つの構成要素を他の構成要素から区別する目的のみに使用される。
【0020】
本開示で使用した用語は、ただ特定の実施形態についての説明に使用されたものであり、本発明を限定する意図ではない。使用される用語は、実施形態での機能を考慮しながら、可能な限り、現在広く使用される一般的な用語を選択したが、それは、当分野の当業者の意図、判例、または新たな技術の出現などによっても異なる。また、特定の場合、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分において、詳細にその意味を記載する。従って、使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本開示の全般にわたる内容とを基に定義されなければならないのである。
【0021】
単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。「含む」または「有する」というような用語は、明細書上に記載された特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであり、1またはそれ以上の他の特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないと理解されなければならない。
【0022】
以下、実施形態について、添付図面を参照して詳細に説明するが、添付図面を参照しての説明において、同一であるか、あるいは対応する構成要素は、同一図面番号を付し、それについての重複説明は省略する。
【0023】
図1は、一実施形態による周波数ドメインオーディオ復号装置の構成を示したブロック図である。図1に図示された装置は、パラメータ獲得部110、周波数ドメイン復号部130及び後処理部150を含んでもよい。周波数ドメイン復号部130は、周波数ドメインPLC(packet loss concealment)モジュール135、スペクトル復号部133、メモリ更新部134、逆変換部135、一般OLA(overlap and add)部136及び時間ドメインPLCモジュール137を含んでもよい。メモリ更新部134に内蔵されるメモリ(図示せず)を除いた各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。一方、メモリ更新部134の機能は、周波数ドメインPLCモジュール135及びスペクトル復号部133に分散されて含まれてもよい。
【0024】
図1を参照すれば、パラメータ獲得部110は、受信されたビットストリームを復号したり、上位階層からパラメータを獲得したりし、獲得されたパラメータから、フレーム単位で消去が生じたか否かということをチェックすることができる。パラメータ獲得部110から提供される情報は、消去フレームであるか否かということを示すフラグと、現在まで連続して生じた消去フレームの数と、を含んでもよい。現在フレームに消去が生じたと判断されれば、フラグBFI(bad frame indicator)が1に設定され、それは、消去フレームについては、何らの情報も存在しないということを意味する。
【0025】
周波数ドメインPLCモジュール135は、周波数ドメインパケット損失隠匿アルゴリズムを内蔵しており、パラメータ獲得部110で提供されるフラグBFIが1であり、以前フレームの復号モードが周波数ドメインである場合、動作する。一実施形態によれば、周波数ドメインPLCモジュール135は、メモリ(図示せず)に保存されている以前正常フレームの合成されたスペクトル係数を反復し、消去フレームのスペクトル係数を生成することができる。このとき、以前フレームのフレームタイプと、現在まで生じた消去フレームの個数とを考慮し、反復過程を遂行することができる。説明の便宜のために、連続して生じた消去フレームが2個以上である場合、バースト消去に該当することにする。
【0026】
一実施形態によれば、周波数ドメインPLCモジュール135は、現在フレームがバースト消去を形成しながら、以前フレームがトランジェントフレームではない場合、例えば、5番目消去フレームからは、以前正常フレームで復号されたスペクトル係数に対して、強制的に3dBずつ固定された値にダウンスケーリングすることができる。すなわち、現在フレームが、連続して生じた5番目消去フレームに該当すれば、以前正常フレームで復号されたスペクトル係数のエネルギーを低下させた後、消去フレームに反復してスペクトル係数を生成することができる。
【0027】
他の実施形態によれば、周波数ドメインPLCモジュール135は、現在フレームがバースト消去を形成しながら、以前フレームがトランジェントフレームである場合、例えば、2番目消去フレームからは、以前正常フレームで復号されたスペクトル係数に対して強制的に3dBずつ固定された値にダウンスケーリングすることができる。すなわち、現在フレームが連続して生じた2番目消去フレームに該当すれば、以前正常フレームで復号されたスペクトル係数のエネルギーを低下させた後、消去フレームに反復してスペクトル係数を生成することができる。
【0028】
さらに他の実施形態によれば、周波数ドメインPLCモジュール135は、現在フレームがバースト消去を形成する場合、消去フレームについて生成されたスペクトル係数の符号をがランダムに変更させることにより、フレームごとにスペクトル係数の反復によって生じる変調ノイズ(modulation noise)を低減させることができる。バースト消去を形成するフレームグループにおいて ランダム符号が適用され始める消去フレームは、信号特性によって異なる。一実施形態によれば、信号特性がトランジェントであるか否かということにより、ランダム符号が適用され始める消去フレームの位置を異なって設定したり、トランジェントではない信号のうちステーショナリ信号について、ランダム符号が適用され始める消去フレームの位置を異なって設定したりすることができる。例えば、入力信号にハーモニック成分が多く存在すると判断された場合、信号の変化が大きくないステーショナリ信号と決定し、それに対応したパケット損失隠匿(PLC)アルゴリズムを遂行することができる。一般的に、入力信号のハーモニック情報は、エンコーダから伝送される情報を利用することができる。低い複雑度を必要としない場合には、デコーダで合成された信号を利用して、ハーモニック情報を求めることもできる。
【0029】
さらに他の実施形態によれば、周波数ドメインPLCモジュール135は、ダウンスケーリングあるいはランダム符号の適用を、バースト消去を形成するフレームだけではなく、1フレームずつ飛ばしながら、消去フレームが存在する場合にも同一に適用することができる。すなわち、現在フレームが消去フレームであり、1フレーム以前フレームが正常フレームであり、2フレーム以前フレームが消去フレームである場合、ダウンスケーリングあるいはランダム符号を適用することができる。
【0030】
スペクトル復号部133は、パラメータ獲得部110で提供されるフラグBFIが0である場合、すなわち、現在フレームが正常フレームである場合に動作する。スペクトル復号部133は、パラメータ獲得部110で獲得されたパラメータを利用して、スペクトル復号を行い、スペクトル係数を合成することができる。
【0031】
メモリ更新部134は、正常フレームである現在フレームについて合成されたスペクトル係数、復号されたパラメータを利用して得られた情報、現在まで連続した消去フレームの個数、各フレームの信号特性あるいはフレームタイプ情報などを、次のフレームのために更新することができる。ここで、該信号特性は、トランジェント特性、ステーショナリ特性を含んでもよく、該フレームタイプは、トランジェントフレーム、ステーショナリフレームあるいはハーモニックフレームを含んでもよい。
【0032】
逆変換部135は、合成されたスペクトル係数に対して時間・周波数逆変換を行い、時間ドメイン信号を生成することができる。消去フレームである場合、以前正常フレームの合成されたスペクトル係数を反復するか、あるいは回帰分析を介して予測されたスペクトル係数に対して逆変換を行うことができる。一方、逆変換部135においては、現在フレームに対するフラグ、及び以前フレームに対するフラグに基づいて、現在フレームの時間ドメイン信号を、一般OLA部136あるいは時間ドメインPLCモジュール137のうち一つに提供することができる。
【0033】
一般OLA部136は、現在フレーム及び以前フレームがいずれも正常フレームである場合に動作し、以前フレームの時間ドメイン信号を利用して一般的なOLA処理を行い、その結果、現在フレームに係わる最終時間ドメイン信号を生成し、後処理部150に提供することができる。
【0034】
時間ドメインPLCモジュール137は、現在フレームが消去フレームであるか、あるいは現在フレームが正常フレームでありながら、以前フレームが消去フレームであり、最後の以前正常フレームの復号モードが周波数ドメインモードである場合に動作することができる。すなわち、現在フレームが消去フレームである場合には、周波数ドメインPLCモジュール135及び時間ドメインPLCモジュール137を介して、パケット損失隠匿処理が行われ、以前フレームが消去フレームであり、現在フレームが正常フレームである場合には、時間ドメインPLCモジュール137を介して、パケット損失隠匿処理が行われる。
【0035】
後処理部150は、周波数ドメイン復号部130から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部150は、出力信号として、復元されたオーディオ信号を提供する。
【0036】
図2は、一実施形態による周波数ドメインパケット損失隠匿装置の構成を示したブロック図である。図2に図示された装置は、BFIフラグが1であり、以前フレームの復号モードが周波数ドメインモードである場合に適用される。図2に図示された装置は、適応的フェードアウトを達成することができ、バースト消去に適用される。
【0037】
図2に図示された装置は、信号特性判断部210、パラメータ制御部230、回帰分析部250、ゲイン算出部270及びスケーリング部290を含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0038】
図2を参照すれば、信号特性判断部210は、復号された信号を利用して、信号の特性を判断することができる。一例として挙げれば、復号された信号の特性を、トランジェントフレーム、normalフレームあるいはステーショナリフレームに分類することができる。一実施形態によれば、エンコーダから伝送されるフレームタイプ(is_transient)とエネルギー差(energy_diff)とを利用して、トランジェントフレームであるか、あるいはステーショナリフレームであるかということを判断することができる。そのために、正常フレームについて得られる移動平均エネルギー(EMA)とエネルギー差(energy_diff)とを使用することができる。
【0039】
MA及びenergy_diffを得る方法は、次の通りである。
【0040】
現在フレームのエネルギーまたはnorm値の平均をEcurrとすれば、EMAは、EMA=EMA_old*0.8+Ecurr*0.2のように求めることができる。このとき、EMAの初期値は、例えば、100に設定することができる。EMA_oldは、以前フレームの移動平均エネルギーを示し、EMAは、次のフレームでEMA_oldに更新される。
【0041】
次に、energy_diffは、現在フレームのエネルギー平均(Ecurr)と、現在フレームの移動平均エネルギー(EMA)との正規化されたエネルギー差の絶対値を示すものである。
【0042】
信号特性判断部210は、エネルギー差(energy_diff)が閾値より小さく、フレームタイプ(is_transient)が0、すなわち、トランジェントフレームではない場合、現在フレームをトランジェントではないと判断することができる。一方、信号特性決定部210は、エネルギー差(energy_diff)が閾値と同じであるか、あるいはそれより大きい場合、またはフレームタイプ(is_transient)が1、すなわち、トランジェントフレームである場合、現在フレームをトランジェントであると判断することができる。ここで、energy_diffが1.0である場合には、EcurrがEMAの2倍であるということを示すものであり、以前フレームと比較し、現在フレームのエネルギー変動がはるかに大きいということを意味する。
【0043】
パラメータ制御部230は、信号特性判断部210で決定された信号特性、エンコーダで伝送された情報であるフレームタイプ及び符号化モードなどを利用して、パケット損失隠匿のためのパラメータを制御することができる。
【0044】
パケット損失隠匿のために制御されるパラメータの一例としては、回帰分析に使用される以前正常フレームの個数を有することができる。そのために、トランジェントフレームであるか否かということを判断するが、エンコーダで伝送された情報を利用するか、あるいは信号特性判断部210で求められたトランジェント情報を利用することができる。ところで、二つを同時に利用する場合には、以下のような条件を利用することができる。すなわち、エンコーダで伝送されたトランジェント情報であるis_transientが1であるか、あるいはデコーダで求められた情報であるenergy_diffが閾値(ED_THRES)、例えば、1.0以上である場合、現在フレームが、エネルギー変化がはなはだしいトランジェントフレームであるということを意味し、従って、回帰分析に使用される以前正常フレームの個数(num_pgf)を減少させ、それ以外の場合は、トランジェントではないフレームであると判断し、以前正常フレームの個数(num_pgf)を増加させることができる。それを、pseudo codeで示せば、次の通りである。
【0045】
if (energy_diff<ED_THRES)&&(is_transient==0) {
num_pgf = 4;
}
else {
num_pgf = 2;
}
ここで、ED_THRESは、閾値であり、一例によれば、1.0に設定することができる。
【0046】
パケット損失隠匿のために制御されるパラメータの他の例としては、バースト消去区間に対するスケーリング方式を挙げることができる。1つのバースト消去区間において、同一energy_diff値を使用することができる。現在フレームが消去フレームであり、トランジェントフレームではないと判断されれば、バースト消去が生じた場合、例えば、5番目フレームからは、以前フレームで復号されたスペクトル係数について、回帰分析とは別途に、強制的に、3dBずつ固定された値にスケーリングすることができる。一方、現在フレームが消去フレームであり、トランジェントフレームと判断されれば、バースト消去が生じた場合、例えば、2番目フレームからは、以前フレームで復号されたスペクトル係数について、回帰分析とは別途に、強制的に、3dBずつ固定された値にスケーリングすることができる。パケット損失隠匿のために制御されるパラメータのさらに他の例としては、適応的ミューティング及びランダム符号の適用方式を挙げることができる。それについては、スケーリング部290で説明する。
【0047】
回帰分析部250は、保存されている以前フレームに係わるパラメータを利用して、回帰分析を行うことができる。一方、回帰分析を行う消去フレームの条件については、デコーダ設計時にあらかじめ定義される。もしバースト消去が生じたとき、回帰分析を行う場合、例えば、連続した消去フレームの個数を意味するnbLostCmptが2である場合、2番目の連続した消去フレームから回帰分析を行う。その場合、最初の消去フレームは、以前フレームで求めたスペクトル係数を単純反復するか、あるいは決定された値ほどスケーリングする方法が可能である。
【0048】
if (nbLostCmpt==2){
regression_anaysis();
}
一方、周波数ドメインにおいては、時間ドメインにおいてオーバーラッピングされた信号を変換した結果について、バースト消去が生じていないにもかかわらず、バースト消去と類似した問題が生じる。例えば、1フレーム飛ばして消去が生じる場合、すなわち、消去フレーム-正常フレーム-消去フレームの順序で消去が生じれば、50%のオーバーラッピングで変換ウィンドウを構成した場合、中間に、正常フレームが存在するにもかかわらず、音質は、消去フレーム-消去フレーム-消去フレームの順序で消去が生じた場合と大きい差がなくなる。すなわち、フレームnが正常フレームであるとしても、(n-1)フレームと(n+1)フレームとが消去フレームである場合、オーバーラッピング過程で全く異なる信号が作られるためである。従って、消去フレーム-正常フレーム-消去フレームの順序で消去が生じる場合、2番目に消去が生じる3番目フレームのnbLostCmptは、1であるが、1を強制的に増加させる。その結果、nbLostCmptが2になり、バースト消去が生じたと判断され、回帰分析が使用される。
【0049】
if((prev_old_bfi==1) && (nbLostCmpt==1))
{
st->nbLostCmpt++;
}
ここで、prev_old_bfiは、2フレーム以前のフレーム消去情報を意味する。前記過程は、現在フレームが消去フレームである場合に適用される。
【0050】
回帰分析部250は、複雑度を低下させるために、2個以上の帯域を1つのグループに構成し、各グループの代表値を導き出し、代表値に対して回帰分析を適用することができる。代表値の一例としては、平均値、中間値、最大値などを使用することができるが、それらに限定されるものではない。一実施形態によれば、各グループに含まれた帯域のnorm平均値であるグルーピングされたnormの平均ベクトルを代表値として使用することができる。回帰分析のための以前正常フレームの個数は、2あるいは4でもある。そして、回帰分析のための行列のロウ(row)の個数は、一例を挙げれば、2に設定することができる。
【0051】
回帰分析部250での回帰分析の結果、消去フレームに対して、各グループの平均norm値を予測することができる。すなわち、消去フレームにおいて、1つのグループに属する各帯域は、同一norm値に予測される。具体的には、回帰分析部250は、回帰分析を介して、線形回帰分析方程式において、a値及びb値を算出し、算出されたa値及びb値を利用して、各グループの平均norm値を予測することができる。一方、算出された値aは、所定範囲に調整される。EVSコーデックにおいて、当該範囲は、負数値に制限される。下記のpseudo codeにおいて、norm_valuesは、以前正常フレームにおける各グループの平均norm値であり、norm_pは、各グループの予測された平均norm値を示す。
【0052】
if( a > 0 ){
a = 0;
norm_p[i] = norm_values[0];
}
else {
norm_p[i] = (b+a*(nbLostCmpt-1+num_pgf);
}
このように、aを修正することにより、各グループの平均norm値を予測することができる。
【0053】
ゲイン算出部270は、消去フレームのために予測された各グループの平均norm値と、以前正常フレームにある各グループの平均normとのゲインを算出することができる。一実施形態によれば、該ゲイン算出は、予測されたnorm値が0より大きく、以前フレームのnorm値が0ではない場合に行われる。もし予測されたnorm値が0より小さいか、あるいは以前フレームのnorm値が0である場合、該ゲインは、初期値から3dBずつスケーリングダウンされる。ここで、該初期値は1.0に設定される。算出されたゲインは、所定範囲に調整される。EVSコーデックにおいて、ゲインの最大値は、1.0に設定することができる。
【0054】
スケーリング部290は、以前正常フレームにゲインスケーリングを適用し、消去フレームのスペクトル係数を予測することができる。また、スケーリング部290は、入力信号の特性によって、消去フレームに適応的ミューティング(adaptive muting)を適用するか、あるいは予測されたスペクトル係数に対して、ランダム符号(random sign)を適用することができる。
【0055】
まず、入力信号を、トランジェント信号と、トランジェントではない信号とに区分することができる。トランジェントではない信号のうち、正常(stationary)である信号を分類し、他の方式で処理することができる。例えば、入力信号にハーモニック成分が多く存在すると判断された場合、信号の変化が大きくない正常(stationary)である信号と決定し、それに対応したパケット損失隠匿アルゴリズムを遂行することができる。一般的に、入力信号のハーモニック情報は、エンコーダで伝送される情報を利用することができる。低い複雑度を必要としない場合には、デコーダで合成された信号を利用して求めることもできる。
【0056】
入力信号を、大きく見て、トランジェント信号、正常な信号、そして残りの信号の三種類に分類する場合、適応的ミューティング及びランダム符号は、下記のように適用される。ここで、mute_startが意味する数は、連続した消去が生じたとき、bfi_cntがmute_start以上である場合、強制的にミューティングを始めるということを意味する。ランダム符号と係わるrandom_startも、同一方式に解釈される。
【0057】
if((old_clas == HARMONIC) && (is_transient==0)) /* Stationaryである場合、*/
{
mute_start = 4;
random_start = 3;
}
else if((Energy_diff<ED_THRES) && (is_transient==0)) /* 残りの信号 */
{
mute_start = 3;
random_start = 2;
}
else /* Transient 信号 */
{
mute_start = 2;
random_start = 2;
}
ここで、適応的ミューティングを適用する方式は、スケーリング遂行時に強制的に固定された値にダウンさせる。例えば、現在フレームのbfi_cntが4であり、現在フレームが正常(stationary)フレームである場合には、現在フレームにおいて、スペクトル係数のスケーリングを3dBずつダウンさせる。
【0058】
そして、スペクトル係数の符号をがランダムに修正することは、フレームごとにスペクトル係数の反復によって生じる変調ノイズ(modulation noise)を低減させるためのものである。ランダム符号を適用する方式としては、多様な公知の方式を使用することができる。
【0059】
一実施形態によれば、フレームの全体スペクトル係数に対して、ランダム符号を適用することもでき、他の実施形態によれば、ランダム符号を適用し始める周波数帯域をあらかじめ定義した後、定義された周波数帯域以上に対して、ランダム符号を適用することができる。その理由は、非常に低い周波数帯域においては、符号の変化によって、波形やエネルギーが急激に変動する場合が生じるので、非常に低い周波数帯域、すなわち、例えば、200Hz以下、または最初の帯域のような低帯域では、以前フレームと同一スペクトル係数の符号使用がさらに良好な性能を有することができる。
【0060】
一実施形態によるスケーリング方式によって、信号において急激な変動がスムージングされ、消去フレームが信号特性、特に、トランジェント特性に適応的に、さらに正確に復元される。
【0061】
図3は、回帰分析を適用する場合、グルーピングされたサブバンド構造の例を示したのである。一実施形態によれば、該回帰分析は、狭帯域信号に適用されるが、例えば、4KHzまでの帯域信号が支援される。
【0062】
図3を参照すれば、最初の領域は、8個の帯域が1つのグループになり、平均norm値を求め、以前フレームに対して求められたグルーピングされた平均norm値を利用して、消去フレームのグルーピングされた平均norm値を予測する。グルーピングされたサブバンドから求められたグルーピングされた平均norm値は、1つのベクトルを形成し、それを、グルーピングされたnormの平均ベクトル(average vector of the grouped norm)と命名する。グルーピングされたnormの平均ベクトルを利用して、数式(1)に代入し、勾配及びy切片にそれぞれ該当するa値及びb値を求めることができる。各グルーピングされたサブバンド(GSb)のK個のグルーピングされた平均norm値が、回帰分析のために使用される。
【0063】
図4は、線形回帰分析と非線形回帰分析との概念を示した図面である。一実施形態によるパケット損失隠匿アルゴリズムには、線形回帰分析が適用される。ここで、「norm平均(average of norms)」は、多くの帯域をグルーピングして求められた平均norm値であり、回帰分析が適用される対象である。以前フレームの平均norm値に対して、normsの量子化された値を使用する場合、線形回帰分析が行われる。回帰分析に使用され、以前正常フレームの個数を意味する「以前正常フレーム個数(PGF:number of previous good frame)は、可変的に設定することができる。
【0064】
線形回帰分析の一例は、下記数式(1)のように示すことができる。
【0065】
【数1】
このように、線形方程式を使用する場合、a及びbを求めれば、その後のトランジション(y)を予測することができる。数式(1)において、xは、フレームインデックスに該当し、a,b値は、逆行列によって求めることができる。簡単に逆行列を求める方式は、Gauss-Jordan eliminationを利用することができる。
【0066】
図5は、一実施形態による時間ドメインパケット損失隠匿装置の構成を示したブロック図である。図5に図示された装置は、信号の特性を考慮し、さらなる品質向上を達成するためのものであり、位相マッチングツールと、反復及びスムージングツールとの2つのツールと、一般OLAモジュールとを含んでもよい。位相マッチングツールと、反復及びスムージングツールとの選択は、入力信号のステーショナリティ(stationarity)チェックを介して行われる。
【0067】
図5に図示された装置530は、PLCモード選択部531、位相マッチング処理部533、OLA処理部535、反復及びスムージング処理部537及び第2メモリ更新部539を含んで構成される。同様に、第2メモリ更新部539の機能は、各処理部533,535,537に含まれてもよい。ここで、第1メモリ更新部510は、図1のメモリ更新部134に対応する。
【0068】
図5を参照すれば、第1メモリ更新部510は、PLCモード選択のための多様なパラメータを提供することができる。該パラメータは、Phase_matching_flag、stat_mode_out、diff_energyを含んでもよい。
【0069】
PLCモード選択部531は、現在フレームのフラグ(BFI)、以前フレームのフラグ(Prev_BFI)、及び連続した消去フレームの数(nbLostCmpt)と、第1メモリ更新部510から提供されるパラメータとを入力にし、PLCモードを選択することができる。各フラグの場合、1は、消去フレーム、0は、正常フレームを示すことができる。一方、連続した消去フレームの数が、例えば、2以上である場合、バースト消去を形成すると判断することができる。PLCモード選択部531での選択結果、現在フレームの時間ドメイン信号は、各処理部533,535,537のうち一つに提供される。
【0070】
次の表1は、PLCモードについて説明するためのものであり、時間ドメインPLCのために、2つのツールが存在するということが分かる。
【0071】
【表1】
次の表2は、PLCモード選択部531でのPLCモード選択方法について説明するためのものである。
【0072】
【表2】

一方、位相マッチングツールにおいて、PLCモードを選択するためのpseudo codeを整理すれば、次の通りである。
【0073】
if( (nbLostCmpt==1)&&(phase_mat_flag==1)&&(phase_mat_next==0) ) {
Phase matching for erased frame ();
}
else if((prev_bfi == 1)&&(bfi == 0) &&(phase_mat_next == 1)) {
Phase matching for next good frame ();
}
else if((prev_bfi == 1)&&(bfi == 1) &&(phase_mat_next == 1)) {
Phase matching for burst erasures ();
}
位相マッチングフラグ(phase_matching_flag)は、以前正常フレームでの第1メモリ更新部510において、毎正常フレームに対して、次のフレームで消去が生じた場合、位相マッチング隠匿処理を使用するか否かということを決定するためのものである。そのために、各サブバンドのエネルギーと、スペクトル係数とが使用される。ここで、エネルギーは、normから求められるが、それに限定されるものではない。具体的には、正常フレームである現在フレームにおいて、最大エネルギーを有するサブバンドが所定低周波数帯域に属しながら、フレーム内あるいはフレーム間のエネルギー変化が大きくない場合、位相マッチングフラグを1に設定することができる。一実施形態によれば、現在フレームにおいて、最大エネルギーを有するサブバンドが、75~1000Hzに属しながら、当該サブバンドに対して、現在フレームのインデックスと、以前フレームのインデックスとが1以下であり、現在フレームが、エネルギー変化が少ないステーショナリフレームであり、バッファに保存された複数の以前フレーム、例えば、3個の以前フレームが、トランジェントフレームではない場合、消去が生じた後、フレームに、位相マッチング隠匿処理を適用することができる。それについて、pseudo codeを整理すれば次の通りである。
【0074】
if ((Min_ind<5) && ( abs(Min_ind - old_Min_ind)< 2) && (diff_energy<ED_THRES_90P) && (!bfi) && (!prev_bfi) && (!prev_old_bfi) && (!is_transient) && (!old_is_transient[1])) {
if((Min_ind==0) && (Max_ind<3)) {
phase_mat_flag = 0;
}
else {
phase_mat_flag = 1;
}
}
else {
phase_mat_flag = 0;
}
次に、反復及びスムージングツール、並びに一般OLAモジュールに対するPLCモード選択方法は、ステーショナリティ検出を介して行われ、具体的に説明すれば、次の通りである。
【0075】
まず、ステーショナリティ検出時、検出結果の頻繁な変動を防止するために、履歴(hysteresis)を使用することができる。消去フレームのステーショナリティ検出によって、以前フレームのステーショナリモード(stat_mode_old)、エネルギー差(diff_energy)を含む情報を受信し、現在消去フレームがステーショナリであるか否かということを判断することができる。特に、エネルギー差(diff_energy)が閾値より小さい場合、現在フレームのステーショナリモード(stat_mode_curr)を1に設定することができる。ここで、閾値として、0.032209を使用することができるが、それに限定されるものではない。
【0076】
現在フレームがステーショナリであると判断されれば、履歴、すなわち、以前フレームのステーショナリティモード(stat_mode_old)を適用し、現在フレームに係わる最終ステーショナリパラメータ(stat_mode_out)を生成することにより、現在フレームのステーショナリティ情報の頻繁な変化を防止することができる。すなわち、現在フレームがステーショナリであると判断された場合、以前フレームがステーショナリである場合、現在フレームをステーショナリフレームとして検出することができる。
【0077】
PLCモードは、現在フレームが消去フレームであるか、あるいは現在フレームが、消去フレーム以後の正常フレームであるかということによって選択される。表2を参照すれば、消去フレームに対して、さまざまなパラメータを使用して、入力信号がステーショナリであると判断することができる。具体的には、以前正常フレームがステーショナリであり、エネルギー差が閾値より小さい場合、入力信号がステーショナリであると決定することができる。その場合、反復及びスムージング処理が行われる。もし入力信号がステーショナリではない場合、一般OLA処理が行われる。
【0078】
一方、入力信号がステーショナリではなく、消去フレーム以後の正常フレームに該当する場合、連続した消去フレームの個数が1より大きいか否かということをチェックし、以前フレームがバースト消去に該当するか否かということを判断することができる。その場合、次の正常フレームに係わる消去隠匿処理は、バースト消去に該当する以前フレームに対応して行われる。該入力信号がステーショナリではなく、以前フレームがランダム消去である場合には、一般OLA処理が行われる。
【0079】
入力信号がステーショナリである場合、以前消去フレームに対応し、次の正常フレームに対して、反復及びスムージング処理が行われる。次の正常フレームに係わる反復及びスムージング処理は、二つ存在するが、一つは、消去フレーム以後の正常フレームに係わるものであり、他の一つは、バースト消去以後の正常フレームに係わるものである。
【0080】
反復及びスムージングツールと、並びに一般OLAに対するモード選択について、pseudo codeで整理すれば、次の通りである。
【0081】
if(BFI == 0 && st->prev_ BFI == 1) {
if((stat_mode_out==1) || (diff_energy<0.032209) ) {
Repetition &smoothing for next good frame ();
}
else if(nbLostCmpt > 1) {
Next good frame after burst erasures ();
}
else {
Conventional OLA ();
}
}
else { /* if(BFI == 1) */
if( (stat_mode_out==1) || (diff_energy<0.032209) ) {
if(Repetition &smoothing for erased frame () ) {
Conventional OLA ();
}
}
else {
Conventional OLA ();
}
}
位相マッチング処理部533は、図6ないし図8を参照して具体的に説明する。
【0082】
OLA処理部535は、図9及び図10を参照して具体的に説明する。
【0083】
反復及びスムージング処理部537は、図11ないし図19を参照して具体的に説明する。
【0084】
第2メモリ更新部539は、次のフレームのために、現在フレームのパケット損失隠匿処理に使用された各種情報を更新し、メモリ(図示せず)に保存することができる。
【0085】
図6は、一実施形態による位相マッチング隠匿処理装置の構成を示すブロック図である。図6に図示された装置は、第1隠匿部610、第2隠匿部630及び第3隠匿部650)を含んでもよい。位相マッチングツールは、以前正常フレームから得られる位相マッチングされた時間ドメイン信号をコピーし、現在消去フレームに係わる時間ドメイン信号を生成することができる。消去フレームに対して、いったん位相マッチングツールが使用されれば、次の正常フレーム、あるいは連続したバースト消去についても、位相マッチングツールを使用することができる。すなわち、次の正常フレームに対する位相マッチングツール、あるいはバースト消去に対する位相マッチングツールが使用される。
【0086】
図6を参照すれば、第1隠匿部610は、現在消去フレームに係わる位相マッチング隠匿処理を行うことができる。
【0087】
第2隠匿部630は、次の正常フレームに係わる位相マッチング隠匿処理を行うことができる。すなわち、以前フレームが消去フレームであり、以前フレームに対して、位相マッチング処理が行われた場合、次の正常フレームである現在フレームに対して、位相マッチング隠匿処理を行うことができる。それについて具体的に説明すれば、次の通りである。
【0088】
第2隠匿部630においては、高帯域の平均エネルギーとして、最後の正常フレーム間の類似度を示すmean_en_highパラメータを使用することができる。mean_en_highパラメータは、下記数式(2)のように示すことができる。
【0089】
【数2】
ここで、kは、決定された高帯域の開始バンドインデックスである。
【0090】
mean_en_highパラメータが0.5より小さいか、あるいは2より大きい場合は、エネルギー間の変化がはなはだしいということを意味する。エネルギーの変化がはなはだしい場合には、oldout_pha_idxは1に設定され、oldout_pha_idxは、Oldauoutメモリを使用するために、スイッチとして作用する。消去フレームに係わる位相マッチングと、バースト消去に対する位相マッチングとのために、2セットのOldauoutが保存される。最初のOldauoutは、位相マッチング処理を介してコピーされた信号から生成され、2番目Oldauoutは、逆変換から得られる時間ドメイン信号から生成される。oldout_pha_idxが1に設定されれば、それは、高帯域信号が不安定であり、次の正常フレームにおいて、OLA処理のために、2番目Oldauoutが使用されるということを示す。oldout_pha_idxが0に設定されれば、それは、高帯域信号が安定しており、次の正常フレームにおいて、OLA処理のために、最初のOldauoutが使用されるということを示す。
【0091】
第3隠匿部650は、バースト消去に対する位相マッチング隠匿処理を行うことができる。すなわち、以前フレームが消去フレームであり、以前フレームに対して、位相マッチング処理が行われた場合、バースト消去の一部である現在フレームに対して、位相マッチング隠匿処理を行うことができる。
【0092】
第3隠匿部650においては、必要とする全ての情報は、消去フレームに係わる位相マッチングによって再使用されるので、最適セグメント探索処理及びコピー処理を必要としない。第3隠匿部650においては、コピーされた信号のオーバーラップ区間に対応する信号と、オーバーラッピング処理のために、現在フレームに保存されているOldauout信号との間でスムージング処理が行われる。Oldauout信号は、実際は、以前フレームでの位相マッチング処理によってコピーされた信号に該当する。
【0093】
図7は、図6に図示された第1隠匿部610の動作について説明する図面である。図7を参照すれば、位相マッチングツールを使用するために、phase_mat_flagは、1に設定されている。すなわち、以前正常フレームが、所定低周波数帯域において、最大エネルギーを有しながら、エネルギー変化が閾値より小さい場合、ランダム消去フレームである現在フレームに対して、位相マッチング消去隠匿処理を行うことができる。一実施形態によれば、前述の条件を満足しても、相関度スケール(accA)を求め、相関度スケール(accA)が所定範囲に属するか否かということにより、位相マッチング処理を行うか、あるいは一般OLA処理を行うことができる。すなわち、セグメント間の相関度が探索範囲に存在するか否かということ、及び探索セグメントとセグメントとの相互相関度が探索範囲に存在するか否かということを考慮し、位相マッチング処理を行うか否かということを決定することができる。それについて、さらに具体的に説明すれば、次の通りである。
【0094】
相関度スケール(accA)は、下記の数式(3)のように求められる。
【0095】
【数3】
ここで、dは、探索範囲に存在するセグメントの数であり、Rxyは、探索セグメント(x信号)、及びバッファに保存された過去N個の正常フレーム(y信号)について、同一長のマッチングセグメントを探索するために使用される相互相関度を示し、Ryyは、バッファに保存された過去N個の正常フレーム(y信号)に存在するセグメント間相関度を示す。
【0096】
次に、相関度スケール(accA)が所定範囲に属するか否かということを判断し、所定範囲に属する場合、消去フレームである現在フレームに対して、位相マッチング消去隠匿処理を行うことができ、所定範囲を外れる場合、一般的なOLA処理を行うことができる。一実施形態によれば、相関度スケール(accA)が0.5より小さいか、あるいは1.5より大きい場合には、一般的なOLA処理を行い、それ以外の場合、位相マッチング消去隠匿処理を行うことができる。ここで、上限値及び下限値は、例示したものに過ぎず、あらかじめ実験あるいはシミュレーションを介して、最適値に設定される。
【0097】
まず、バッファに保存された過去N個の正常フレーム(good frame)に対して、以前正常フレームで復号が完了した信号のうち現在フレームに隣接した探索セグメントと最大相関度を有する、すなわち、最も類似したマッチングセグメントを探索することができる。一方、位相マッチング消去隠匿処理を行うことによって決定された消去フレームである現在フレームに対して、相関度スケールを求め、再び位相マッチング消去隠匿処理が適するか否かということを決定することができる。
【0098】
次に、探索結果として得られるマッチングセグメントの位置インデックスを参照し、マッチングセグメントの端の部分から、所定区間ほど、消去フレームである現在フレームにコピーすることができる。また、以前フレームがランダム消去フレームでありながら、位相マッチング消去隠匿処理が行われた場合、マッチングセグメントの位置インデックスを参照し、マッチングセグメントの端の部分から、所定区間ほど、正常フレームである現在フレームにコピーすることができる。このとき、ウィンドウ長に対応する区間を、現在フレームにコピーすることができる。一実施形態によれば、マッチングセグメントの端の部分からコピーされる区間が、ウィンドウ長より短い場合には、マッチングセグメントの端の部分からコピーされる区間を反復し、現在フレームにコピーすることができる。
【0099】
次に、現在フレームと隣接したフレーム間の不連続性を最小化させるために、OLAを介したスムージング処理を行い、消去が隠匿された現在フレームに係わる時間ドメイン信号を生成することができる。OLAを介したスムージング処理については、後述する。
【0100】
図8は、一実施形態による位相マッチングの概念について説明する図面である。図8を参照すれば、復号されたオーディオ信号のうち、フレームnで消去が生じた場合、バッファに保存された過去N個の正常フレーム(good frame)に対して、以前フレーム(n-1)で復号が完了した信号のうち、フレームnと隣接した探索セグメント810と最も類似したマッチングセグメント830を探索することができる。このとき、探索セグメント810の大きさと、バッファでの探索範囲は、探索するトーナル成分に該当する最小周波数の波長サイズによって決定される。ここで、探索の複雑度を最小化させるために、探索セグメントの大きさは、小さいことが望ましい。例えば、探索セグメント810の大きさは、最小周波数の波長サイズの半分より大きく、最小周波数の波長サイズより小さく設定することができる。一方、バッファでの探索範囲は、探索する最小周波数の波長と同じであるか、あるいはそれより大きく設定することができる。一実施形態によれば、前述の基準により、入力帯域NB,WB,SWB,FBに対応し、探索セグメントの大きさ及びバッファの探索範囲をあらかじめ設定することができる。
【0101】
具体的には、探索範囲内において、過去の復号された信号のうち、探索セグメント810と相互相関度(cross-correlation)が最も高いマッチングセグメント830を探索し、マッチングセグメント830に該当する位置情報を求め、マッチングセグメント830の端の部分から所定区間850を、ウィンドウ長、例えば、フレーム長とオーバーラップ区間の長さとを合わせた長さを考慮して設定し、消去が生じたフレームnにコピーすることができる。
【0102】
コピー処理が完了すれば、現在フレームnの開始部分でコピーされた信号と、オーバーラッピングのために、以前フレーム(n-1)に保存されているOldauout信号とに対して、オーバーラップ区間ほどオーバーラッピング処理が行われ、最終反復信号を生成することができる。ここで、オーバーラップ区間の長さは、2msに設定される。
【0103】
図9は、一般OLA部の構成について説明するブロック図であり、ウィンドウイング部910とOLA部930とを含んでもよい。図9において、ウィンドウイング部910は、時間ドメインエイリアシングを除去するために、現在フレームのIMDCT信号に対して、ウィンドウイング処理を行うことができる。一実施形態によれば、50%以下のオーバーラップ区間を有するウィンドウイングが適用される。
【0104】
OLA部930は、ウィンドウイングされたIMDCT信号に対して、OLA処理を行うことができる。
【0105】
図10は、一般OLA処理について説明する図面である。
【0106】
消去が周波数ドメイン符号化で生じた場合、過去のスペクトル係数が反復されるので、消去フレームにおいて、時間ドメインエイリアシングを除去することが不可能になる。
【0107】
図11は、一実施形態による反復及びスムージング消去隠匿装置の構成について説明するブロック図である。
【0108】
図11に図示された構成は、第1隠匿部1110、第2隠匿部1150及び第3隠匿部1170と、OLA部1130とを含んでもよい。図11において、第1隠匿部1110とOLA部1130は、図12及び図13を参照して後述する。
【0109】
第2隠匿部1130は、図16ないし図19を参照して後述する。
【0110】
第3隠匿部1130は、図14及び図15を参照して後述する。
【0111】
図12は、図11において、第1隠匿部1110及びOLA部1130の構成を示すブロック図であり、ウィンドウイング部1210、反復部1230、スムージング部1250、判断部1270及びOLA部1290(一般OLA部1130(図11))を含んでもよい。図12の反復処理及びスムージング処理は、本来の反復方式を使用するとしても、ノイズ発生を最小化させるためのものである。
【0112】
図12において、ウィンドウイング部1210は、図9のウィンドウイング部910と同一に動作することができる。
【0113】
反復部1230は、現在フレームについて、2フレーム以前フレーム(previous old(図13))のIMDCT信号を、現在消去フレームの開始部分に適用することができる。
【0114】
スムージング部1250は、スムージングウィンドウを以前フレームの信号(old audio output)と現在フレームの信号(current audio output)とに適用し、OLA処理を行うことができる。ここで、スムージングウィンドウは、隣接するウィンドウ間のオーバーラップ区間の和が1になるように形成することができる。かような条件を満足するウィンドウの例としては、サイン波形ウィンドウ、一次関数を利用したウィンドウ、ハニングウィンドウ(hanning window)があるが、それらに限定されるものではない。一実施形態によれば、サイン波形ウィンドウを使用することができ、このとき、ウィンドウ関数(w(k))は、下記数式(4)のように示すことができる。
【0115】
【数4】
ここで、OV_SIZEは、スムージング処理時に適用するオーバーラップ区間の長さを示す。
【0116】
前述のように、スムージング処理を行うことにより、現在フレームが消去フレームである場合、以前フレームで保存されたIMDCT信号の代わりに、2フレーム以前にコピーされたIMDCT信号を使用することによって生じる以前フレームと現在フレームとの不連続を防止することができる。
【0117】
判断部1270は、反復及びスムージング処理が完了した後、オーバーラッピングされる領域の一定区間のエネルギーPow1と、オーバーラッピングされていない領域の一定区間のエネルギーPow2とを比較することができる。具体的には、消去隠匿処理後、オーバーラッピングされる領域のエネルギーが低下するか、あるいは大幅に増加する場合には、一般的なOLA処理を行うことができる。エネルギー低下は、オーバーラッピング時に位相が正反対である場合に生じ、エネルギー増加は、位相が同一である場合に生じるからである。信号がある程度ステーショナリである場合、反復及びスムージングによる隠匿性能が優秀であるために、オーバーラッピングされる領域と、オーバーラッピングされていない領域とのエネルギー差が大きければ、オーバーラッピング時、位相によって問題が生じる。それにより、オーバーラッピングされる領域と、オーバーラッピングされていない領域とのエネルギー差が大きい場合、反復及びスムージング処理結果を採択せず、一般的なOLA処理を行うことができる。一方、段階2603での比較結果、オーバーラッピングされる領域とbオーバーラッピングされていない領域とのエネルギー差が大きくない場合には、反復及びスムージング処理結果を採択することができる。一例を挙げれば、Pow2>Pow1*3を介して比較が行われる。Pow2>Pow1*3であるならば、反復及びスムージング処理結果を採択せず、OLA部1290でのOLA処理結果を採択することができる。反対に、Pow2>Pow1*3ではなければ、反復及びスムージング処理結果を採択することができる。
【0118】
OLA部1290は、反復部1230で反復された信号と、現在フレームのIMDCT信号とに対してOLA処理を行うことができる。その結果、現在フレームのオーディオ出力信号が生成され、オーディオ出力信号の開始部分でのノイズ発生が低減される。周波数ドメインにおいて、以前フレームのスペクトルコピーと共に、スケーリングが適用されれば、現在フレームの開始部分で生じるノイズは、大幅に減少される。
【0119】
図13は、消去フレームに係わる反復及びスムージング処理のウィンドウイングについて説明する図面であり、図11の第1隠匿部1110の動作に該当する。
【0120】
図14は、図11において、第3隠匿部1170の構成を示すブロック図であり、ウィンドウイング部1410を含んでもよい。図14において、スムージング部1410は、スムージングウィンドウを、old IMDCT信号と、current IMDCT信号とに適用し、OLA処理を行うことができる。同様に、スムージングウィンドウは、隣接するウィンドウ間のオーバーラップ区間の和が1になるように形成することができる。
【0121】
すなわち、以前フレームがランダム消去フレームでありながら、現在フレームが正常フレームである場合、正常なウィンドウイングが不可能であるために、以前フレームのIMDCT信号と、現在フレームのIMDCT信号とのオーバーラップ区間での時間ドメインエイリアシングを除去し難い。従って、OLA処理の代わりに、スムージングウィンドウによるスムージング処理を行うことにより、ノイズを最小化させることができる。
【0122】
図15は、消去フレーム以後の正常フレームに係わる反復及びスムージング処理のウィンドウイングについて説明する図面であり、図11の第3隠匿部1170の動作に該当する。
【0123】
図16は、図11において、第2隠匿部1170の一実施形態の構成を示すブロック図であり、反復部1610、スケーリング部1630、第1スムージング部1650及び第2スムージング部1670を含んでもよい。
【0124】
図16を参照すれば、反復部1610は、正常フレームである現在フレームのIMDCT信号において、次のフレームのために使用される部分を、現在フレームの開始部分にコピーすることができる。
【0125】
スケーリング部1630は、突然の信号増大を防ぐために、現在フレームのスケールを調整することができる。一実施形態によれば、3dBのスケーリングダウンを行うことができる。
【0126】
第1スムージング部1650は、以前フレームのIMDCT信号と、未来フレームからコピーしたIMDCT信号とに対してスムージングウィンドウを適用し、OLA処理を行うことができる。同様に、スムージングウィンドウは、隣接するウィンドウ間のオーバーラップ区間の和が1になるように形成することができる。すなわち、コピーされた信号が使用される場合、以前フレームと現在フレームとの間に生じる不連続を除去するために、ウィンドウイングを必要とし、old IMDCT信号を第1スムージング部1650でのOLA処理を介して得られる信号で代置することができる。
【0127】
第2スムージング部1670は、スムージングウィンドウを、置き換えられた信号であるold IMDCT信号と、現在フレーム信号であるcurrent IMDCT信号とに適用し、不連続性を除去しながらOLA処理を行うことができる。同様に、スムージングウィンドウは、隣接するウィンドウ間のオーバーラップ区間の和が1になるように形成することができる。
【0128】
すなわち、以前フレームがバースト消去でありながら、現在フレームが正常フレームである場合、正常なウィンドウイングが不可能であるために、以前フレームのIMDCT信号と、現在フレームのIMDCT信号とのオーバーラップ区間での時間ドメインエイリアシングを除去することができない。一方、バースト消去の場合には、エネルギーが低下したり、打ち続く反復によってノイズなどが生じたりするので、現在フレームとのオーバーラッピングのために、未来フレームから信号をコピーする方式を適用することができる。その場合、以前フレームと現在フレームとに生じる不連続を除去しながら、現在フレームに対して、生じうるノイズを除去するために、二次にわたってスムージング処理を行うことができる。
【0129】
図17は、図16において、バースト消去以後の正常フレームに係わる反復及びスムージング処理のウィンドウイングについて説明するためのものである。
【0130】
図18は、図11において、第2隠匿部1170の他の実施形態の構成を示すブロック図である。図18は、図11において第2隠匿部1170の他の実施形態の構成を示すブロック図であり、反復部1810、スケーリング部1830、スムージング部1850及びOLA部1870を含んでもよい。
【0131】
図18を参照すれば、反復部1810は、正常フレームである現在フレームのIMDCT信号において、次のフレームのために使用される部分を、現在フレームの開始部分にコピーすることができる。
【0132】
スケーリング部1830は、突然の信号増大を防ぐために、現在フレームのスケールを調整することができる。一実施形態によれば、3dBのスケーリングダウンを行うことができる。
【0133】
スムージング部1850は、以前フレームのIMDCT信号と、未来フレームからコピーしたIMDCT信号とに対してOLA処理を行うことができる。同様に、スムージングウィンドウは、隣接するウィンドウ間のオーバーラップ区間の和が1になるように形成することができる。すなわち、コピーされた信号が使用される場合、以前フレームと現在フレームとに生じる不連続を除去するために、ウィンドウイングを必要とし、old IMDCT信号を、スムージング部1850でのOLA処理を介して得られる信号で代置することができる。
【0134】
OLA部1870は、スムージングウィンドウによって置き換えられた信号であるold IMDCT信号と、現在フレーム信号であるcurrent IMDCT信号とにOLA処理を行うことができる。
【0135】
図19は、図18において、バースト消去以後の正常フレームに係わる反復及びスムージング処理のウィンドウイングについて説明するためのものである。
【0136】
図20A及び図20Bは、一実施形態による、オーディオ符号化装置及びオーディオ復号装置の構成をそれぞれ示したブロック図である。
【0137】
図20Aに図示されたオーディオ符号化装置2110は、前処理部2112、周波数ドメイン符号化部2114及びパラメータ符号化部2116を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0138】
図20Aにおいて、前処理部2112は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。該入力信号は、音声信号、音楽信号、あるいは音声と音楽とが混合された信号を含んでもよい。以下では、説明の便宜のために、オーディオ信号とする。
【0139】
周波数ドメイン符号化部2114は、前処理部2112から提供されるオーディオ信号に対して、時間・周波数変換を行い、オーディオ信号のチャネル数、符号化帯域及びビット率に対応して符号化ツールを選択し、選択された符号化ツールを利用して、オーディオ信号に対する符号化を行うことができる。時間・周波数変換は、MDCT(modified discrete cosine transform)、MLT(modulated lapped transform)あるいはFFT(fast Fourier transform)を使用するが、それらに限定されるものではない。ここで、与えられたビット数が十分である場合、全体帯域に対して一般的な変換符号化方式を適用し、与えられたビット数が十分ではない場合、一部帯域については、帯域拡張方式を適用することができる。一方、オーディオ信号がステレオあるいはマルチチャネルである場合、与えられたビット数が十分であるならば、各チャネル別に符号化し、十分ではなければ、ダウンミキシング方式を適用することができる。周波数ドメイン符号化部2114からは、符号化されたスペクトル係数が生成される。
【0140】
パラメータ符号化部2116は、周波数ドメイン符号化部2114から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化することができる。該パラメータは、例えば、サブバンド別に抽出され、各サブバンドは、スペクトル係数をグルーピングした単位であり、臨界帯域を反映させ、均一名あるいは非均一長を有することができる。非均一長を有する場合、低周波数帯域に存在するサブバンドの場合、高周波数帯域と比較し、相対的短い長さを有することができる。1フレームに含まれるサブバンドの個数及び長さは、コーデックアルゴリズムによって異なり、符号化性能に影響を及ぼす。一方、該パラメータは、サブバンドのスケールファクタ、パワー、平均エネルギーあるいはnormを例として挙げることができるが、それらに限定されるものではない。符号化の結果として得られるスペクトル係数とパラメータは、ビットストリームを形成し、記録媒体に保存されるか、あるいはチャネルを介して、例えば、パケット形態で伝送される。
【0141】
図20Bに図示されたオーディオ復号装置2130は、パラメータ復号部2132、周波数ドメイン復号部2134及び後処理部2136を含んでもよい。ここで、周波数ドメイン復号部2134は、一実施形態による周波数ドメインでのパケット損失隠匿アルゴリズムを含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0142】
図20Bにおいて、パラメータ復号部2132は、受信されたビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位で消去が生じたが否かということをチェックすることができる。消去チェックは、公知された多様な方法を使用することができ、現在フレームが、正常フレームであるか、あるいは消去フレームであるかということに係わる情報を、周波数ドメイン復号部2134に提供する。
【0143】
周波数ドメイン復号部2134は、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成することができる。一方、周波数ドメイン復号部2134は、現在フレームが消去フレームである場合、消去隠匿アルゴリズムを介して、以前正常フレームのスペクトル係数をスケーリングし、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部2134は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。
【0144】
後処理部2136は、周波数ドメイン復号部2134から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部2136は、出力信号として、復元されたオーディオ信号を提供する。
【0145】
図21A及び図21Bは、他の実施形態による、オーディオ符号化装置及びオーディオ復号装置の構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0146】
図21Aに図示されたオーディオ符号化装置2210は、前処理部2212、モード決定部2213、周波数ドメイン符号化部2214、時間ドメイン符号化部2215及びパラメータ符号化部2216を含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0147】
図21Aにおいて、前処理部2212は、図20Aの前処理部2112と実質的に同一であるので、説明を省略する。
【0148】
モード決定部2213は、入力信号の特性を参照し、符号化モードを決定することができる。入力信号の特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに係わる長区間特性などを利用して、入力信号の特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードと決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードと決定することができる。モード決定部2213は、入力信号の特性が音楽モードあるいは周波数ドメインモードに該当する場合には、前処理部2212の出力信号を、周波数ドメイン符号化部2214に提供し、入力信号の特性が音声モードあるいは時間ドメインモードに該当すれば、時間ドメイン符号化部2215に提供することができる。
【0149】
周波数ドメイン符号化部2214は、図20Aの周波数ドメイン符号化部2114と実質的に同一であるので、説明を省略する。
【0150】
時間ドメイン符号化部2215は、前処理部2212から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行うことができる。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。時間ドメイン符号化2215からは、符号化されたスペクトル係数が生成される。
【0151】
パラメータ符号化部2216は、周波数ドメイン符号化部2214あるいは時間ドメイン符号化部2215から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部2216は、図20Aのパラメータ符号化部2116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介して、パケット形態で伝送されるか、あるいは記録媒体に保存される。
【0152】
図21Bに図示されたオーディオ復号装置2230は、パラメータ復号部2232、モード決定部2233、周波数ドメイン復号部2234、時間ドメイン復号部2235及び後処理部2236を含んでもよい。ここで、周波数ドメイン復号部2234と時間ドメイン復号部2235は、それぞれ当該ドメインでのパケット損失隠匿アルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0153】
図21Bにおいて、パラメータ復号部2232は、パケット形態で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位で消去が生じたか否かということをチェックすることができる。消去チェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームであるかということに係わる情報を、周波数ドメイン復号部2234あるいは時間ドメイン復号部2235に提供する。
【0154】
モード決定部2233は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号部2234あるいは時間ドメイン復号部2235に提供する。
【0155】
周波数ドメイン復号部2234は、符号化モードが、音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームが消去フレームであり、以前フレームの符号化モードが、音楽モードあるいは周波数ドメインモードである場合、一実施形態による周波数ドメインでのパケット損失隠匿アルゴリズムを介して、以前正常フレームのスペクトル係数をスケーリングし、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部2234は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。
【0156】
時間ドメイン復号部2235は、符号化モードが、音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号過程を介して復号を行い、時間ドメイン信号を生成する。一方、現在フレームが消去フレームであり、以前フレームの符号化モードが、音声モードあるいは時間ドメインモードである場合、一実施形態による時間ドメインでのパケット損失隠匿アルゴリズムを遂行することができる。
【0157】
後処理部2236は、周波数ドメイン復号部2234あるいは時間ドメイン復号部2235から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部2236は、出力信号として、復元されたオーディオ信号を提供する。
【0158】
図22A及び図22Bは、他の実施形態による、オーディオ符号化装置及びオーディオ復号装置の構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0159】
図22Aに図示されたオーディオ符号化装置2310は、前処理部2312、線形予測(LP:linear prediction)分析部2313、モード決定部2314、周波数ドメイン励起符号化部2315、時間ドメイン励起符号化部2316及びパラメータ符号化部2317を含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0160】
図22Aにおいて、前処理部2312は、図20Aの前処理部2112と実質的に同一であるので、説明を省略する。
【0161】
LP分析部2313は、入力信号に対してLP分析を行い、LP係数を抽出し、抽出されたLP係数から励起信号を生成する。該励起信号は、符号化モードにより、周波数ドメイン励起符号化部2315及び時間ドメイン励起符号化部2316のうち一つに提供される。
【0162】
モード決定部2314は、図21Bのモード決定部2213と実質的に同一であるので、説明を省略する。
【0163】
周波数ドメイン励起符号化部2315は、符号化モードが、音楽モードあるいは周波数ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、図20Aの周波数ドメイン符号化部2114と実質的に同一であるので、説明を省略する。
【0164】
時間ドメイン励起符号化部2316は、符号化モードが、音声モードあるいは時間ドメインモードである場合に動作し、該入力信号が励起信号であることを除いては、図21Aの時間ドメイン符号化部2215と実質的に同一であるので、説明を省略する。
【0165】
パラメータ符号化部2317は、周波数ドメイン励起符号化部2315あるいは時間ドメイン励起符号化部2316から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部2317は、図20Aのパラメータ符号化部2116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介して、パケット形態で伝送されるか、あるいは記録媒体に保存される。
【0166】
図22Bに図示されたオーディオ復号装置2330は、パラメータ復号部2332、モード決定部2333、周波数ドメイン励起復号部2334、時間ドメイン励起復号部2335、LP合成部2336及び後処理部2337を含んでもよい。ここで、周波数ドメイン励起復号部2334と時間ドメイン励起復号部2335は、それぞれ一実施形態によるパケット損失隠匿アルゴリズムを含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0167】
図22Bにおいて、パラメータ復号部2332は、パケット形態で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位で消去が生じたか否かということをチェックすることができる。該消去チェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームであるかということに係わる情報を、周波数ドメイン励起復号部2334あるいは時間ドメイン励起復号部2335に提供する。
【0168】
モード決定部2333は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン励起復号部2334あるいは時間ドメイン励起復号部2335に提供する。
【0169】
周波数ドメイン励起復号部2334は、符号化モードが、音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームが消去フレームであり、以前フレームの符号化モードが、音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのパケット損失隠匿アルゴリズムを介して、以前正常フレームのスペクトル係数をスケーリングし、合成されたスペクトル係数を生成することができる。周波数ドメイン励起復号部2334は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号である励起信号を生成することができる。
【0170】
時間ドメイン励起復号部2335は、符号化モードが、音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号過程を介して復号を行い、時間ドメイン信号である励起信号を生成する。一方、現在フレームが消去フレームであり、以前フレームの符号化モードが、音声モードあるいは時間ドメインモードである場合、時間ドメインでのパケット損失隠匿アルゴリズムを遂行することができる。
【0171】
LP合成部2336は、周波数ドメイン励起復号部2334あるいは時間ドメイン励起復号部2335から提供される励起信号に対して、LP合成を行い、時間ドメイン信号を生成する。
【0172】
後処理部2337は、LP合成部2336から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部2337は、出力信号として、復元されたオーディオ信号を提供する。
【0173】
図23A及び図23Bは、他の実施形態による、オーディオ符号化装置及びオーディオ復号装置の構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0174】
図23Aに図示されたオーディオ符号化装置2410は、前処理部2412、モード決定部2413、周波数ドメイン符号化部2414、LP分析部2415、周波数ドメイン励起符号化部2416、時間ドメイン励起符号化部2417及びパラメータ符号化部2418を含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。図23Aに図示されたオーディオ符号化装置2410は、図21Aのオーディオ符号化装置2210と、図22Aのオーディオ符号化装置2310とを結合したものと見ることができるので、共通部分の動作説明は省略する一方、モード決定部2413の動作について説明する。
【0175】
モード決定部2413は、入力信号の特性及びビット率を参照し、入力信号の符号化モードを決定することができる。モード決定部2413は、入力信号の特性によって、現在フレームが、音声モードであるか、あるいは音楽モードであるかということにより、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということにより、CELPモードと、それ以外のモードとに決定することができる。もし入力信号の特性が音声モードである場合には、CELPモードと決定し、音楽モードでありながら、高ビット率である場合、FDモードと決定し、音楽モードでありながら、低ビット率である場合、オーディオモードと決定することができる。モード決定部2413は、FDモードである場合、入力信号を周波数ドメイン符号化部2414に提供し、オーディオモードである場合、LP分析部2415を介して、周波数ドメイン励起符号化部2416に提供し、CELPモードである場合、LP分析部2415を介して、時間ドメイン励起符号化部2417に提供することができる。
【0176】
周波数ドメイン符号化部2414は、図20Aのオーディオ符号化装置2110の周波数ドメイン符号化部2114、あるいは図21Aのオーディオ符号化装置2210の周波数ドメイン符号化部2214に対応し、周波数ドメイン励起符号化部2416あるいは時間ドメイン励起符号化部2417は、図22Aのオーディオ符号化装置2310の周波数ドメイン励起符号化部2315あるいは時間ドメイン励起符号化部2316に対応する。
【0177】
図23Bに図示されたオーディオ復号装置2430は、パラメータ復号部2432、モード決定部2433、周波数ドメイン復号部2434、周波数ドメイン励起復号部2435、時間ドメイン励起復号部2436、LP合成部2437及び後処理部2438を含んでもよい。ここで、周波数ドメイン復号部2434、周波数ドメイン励起復号部2435及び時間ドメイン励起復号部2436は、それぞれ一実施形態によるパケット損失隠匿アルゴリズムを含んでもよい。各構成要素は、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。図23Bに図示されたオーディオ復号装置2430は、図21Bのオーディオ復号装置2230と、図22Bのオーディオ復号装置2330とを結合したものと見ることができるので、共通部分の動作説明は省略する一方、モード決定部2433の動作について説明する。
【0178】
モード決定部2433は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号部2434、周波数ドメイン励起復号部2435あるいは時間ドメイン励起復号部2436に提供する。
【0179】
周波数ドメイン復号部2434は、図20Bのオーディオ復号装置2130の周波数ドメイン復号部2134、あるいは図21Bのオーディオ復号装置2230の周波数ドメイン復号部2234に対応し、周波数ドメイン励起復号部2435あるいは時間ドメイン励起復号部2436は、図22Bのオーディオ復号装置2330の周波数ドメイン励起復号部2334あるいは時間ドメイン励起復号部2335に対応する。
【0180】
前記実施形態による方法は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読取り可能な記録媒体に、多様な手段を介して記録される。コンピュータで読取り可能な記録媒体は、コンピュータシステムによって読取り可能なデータが保存される全ての種類の保存装置を含んでもよい。コンピュータで読取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD-ROM(compact disc read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media);フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical media);及びROM(read-only memory)、RAM(random access memory)、フラッシュメモリのようなプログラム命令を保存して遂行するように特別に構成されたハードウェア装置が含まれてもよい。また、コンピュータで読取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。
【0181】
以上、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたにしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それは、本発明が属する分野で当業者であるならば、かような記載から、多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価である変形は、いずれも本発明の技術的思想の範疇に属するものである。
【0182】
(付記1)
現在フレームが消去フレームであるか、あるいは消去フレーム以後の正常フレームであるかということをチェックする段階と、
前記現在フレームが消去フレームであるか、あるいは消去フレーム以後の正常フレームである場合、信号特性を獲得する段階と、
前記信号特性を含む複数のパラメータに基づいて、位相マッチングツールとスムージングツールとのうち一つを選択する段階と、
前記選択されたツールを利用して、前記現在フレームに係わるパケット損失隠匿処理を行う段階と、を含む時間ドメインパケット損失隠匿方法。
(付記2)
前記信号特性は、前記現在フレームのステーショナリティに基づくことを特徴とする付記1に記載の時間ドメインパケット損失隠匿方法。
(付記3)
前記複数のパラメータは、正常フレームごとに、次の消去フレームに対して、前記位相マッチングツールを適用するか否かということを決定する第1パラメータと、現在フレームの以前フレームにおいて、前記位相マッチングツールが使用されたか否かということを示す第2パラメータとのうち少なくとも一つを含むことを特徴とする付記1に記載の時間ドメインパケット損失隠匿方法。
(付記4)
前記第1パラメータは、前記現在フレームにおいて、最大エネルギーを有するサブバンドと、フレーム間インデックスとに基づいて得られることを特徴とする付記3に記載の時間ドメインパケット損失隠匿方法。
(付記5)
前記位相マッチングツールは、前記位相マッチングツールが、以前消去フレームに適用された場合、以前消去フレーム以後の正常フレームに対して選択されることを特徴とする付記1に記載の時間ドメインパケット損失隠匿方法。
(付記6)
前記スムージングツールは、時間・周波数逆変換処理以後のOLA(overlap and add)処理の代わりに、前記現在フレームの状態によって、互いに異なるスムージング処理を行うことを特徴とする付記1に記載の時間ドメインパケット損失隠匿方法。
(付記7)
前記スムージングツールによるスムージング処理結果、オーバーラップ区間と、前記オーバーラップ以外の区間とのエネルギー変動程度を閾値と比較し、該比較結果により、前記スムージング処理の代わりに、前記OLA処理を行うことを特徴とする付記7に記載の時間ドメインパケット損失隠匿方法。
(付記8)
前記スムージングツールは、消去フレームである前記現在フレームに対して、
時間・周波数逆変換処理以後、前記現在フレームの信号に対して、ウィンドウイング処理を行う段階と、
前記時間・周波数逆変換処理以後、2フレーム以前の信号を、前記現在フレームの開始部分に反復する段階と、
前記現在フレームで反復された信号と、前記現在フレームの信号とに対して、OLA処理を行う段階と、
所定のオーバーラップ区間を有するスムージングウィンドウを、前記以前フレームの信号と、前記現在フレームの信号とに適用し、OLA処理を行う段階と、を含むことを特徴とする付記1に記載の時間ドメインパケット損失隠匿方法。
(付記9)
前記スムージングツールは、前記以前フレームがランダム消去フレームであり、正常フレームである前記現在フレームに対して、
時間・周波数逆変換処理以後、スムージングウィンドウを、前記以前フレームの信号と、前記現在フレームの信号とに適用し、OLA処理を行う段階を含むことを特徴とする付記1に記載の時間ドメインパケット損失隠匿方法。
【先行技術文献】
【特許文献】
【0183】
【文献】特表2015-527765号公報
【文献】特表2015-534655号公報
【文献】特開2005-077889号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20A
図20B
図21A
図21B
図22A
図22B
図23A
図23B