(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2021-502608(P2021-502608A)
(43)【公表日】2021年1月28日
(54)【発明の名称】異なる損失隠蔽ツールのセットをサポートするオーディオデコーダ
(51)【国際特許分類】
G10L 19/005 20130101AFI20201225BHJP
G10L 25/90 20130101ALI20201225BHJP
【FI】
G10L19/005
G10L25/90
【審査請求】有
【予備審査請求】未請求
【全頁数】28
(21)【出願番号】特願2020-526135(P2020-526135)
(86)(22)【出願日】2018年11月5日
(85)【翻訳文提出日】2020年6月27日
(86)【国際出願番号】EP2018080198
(87)【国際公開番号】WO2019091924
(87)【国際公開日】20190516
(31)【優先権主張番号】17201142.1
(32)【優先日】2017年11月10日
(33)【優先権主張国】EP
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】トマシェク・アドリアン
(72)【発明者】
【氏名】ラヴェッリ・エマニュエル
(72)【発明者】
【氏名】シュネル・マーカス
(72)【発明者】
【氏名】チェカリンスキー・アレクサンダー
(72)【発明者】
【氏名】シュナベル・ミヒャエル
(72)【発明者】
【氏名】スペルシュナイダー・ラルフ
(57)【要約】
オーディオデコーダの様々な損失隠蔽ツールの位相セットの1つを、データストリームからデコードされるオーディオ信号の損失の影響を受ける部分に割り当てること、つまり異なる損失隠蔽ツールのセットからの選択は、割り当て/選択が次の2つの尺度に基づいて行われる場合には、損失をより快適に隠蔽する方法で行われてもよい。決定される第1の尺度は、オーディオ信号のスペクトルのスペクトル重心のスペクトル位置を示し、決定される第2の尺度は、オーディオ信号の時間的予測可能性を示す。次に、割り当てられた、または選択された損失隠蔽ツールを使用して、オーディオ信号の部分を復元することができる。
【特許請求の範囲】
【請求項1】
データストリーム(14)からオーディオ信号(12)をデコードするためのオーディオデコーダであって、前記オーディオデコーダは、異なる損失隠蔽ツール(28)のセット(26)を含み、
前記オーディオ信号のスペクトル(46)のスペクトル重心のスペクトル位置(48)を示す第1の尺度(42)を決定し(40)、
前記オーディオ信号の時間的予測可能性を示す第2の尺度(52)を決定し(50)、
異なる損失隠蔽ツール(28)の前記セット(26)のうちの1つ(62)を、前記第1および第2の尺度に基づいて前記オーディオ信号(12)の損失の影響を受ける部分(22)に割り当て(32)、
前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して、前記オーディオ信号の前記部分(22)を回復する、
ように構成される、オーディオデコーダ。
【請求項2】
異なる損失隠蔽ツール(28)の前記セット(26)は、
前記データストリームから導出されたピッチ値(66)に依存する周期性(68)の周期信号(70)を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
前記オーディオ信号の調性スペクトル成分(72)を検出し、調性スペクトル成分(72)での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分(72)に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
複製の変更の有無にかかわらず、フレームの繰り返しを使用してオーディオ信号を回復するための第3の損失隠蔽ツール(PLC#3)と、
のうちの1つまたは複数を含む、請求項1に記載のオーディオデコーダ。
【請求項3】
異なる損失隠蔽ツールの前記セット(26)は、
モノフォニック部分のオーディオ信号を回復するための第1の損失隠蔽ツール(PLC#1)と、
ポリフォニック部分のオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
を含む、請求項1または2に記載のオーディオデコーダ。
【請求項4】
異なる損失隠蔽ツールの前記セット(26)は、
調性時間領域パケット損失隠蔽を使用してオーディオ信号を回復するための第1の損失隠蔽ツール(PLC#1)と、
調性周波数領域パケット損失隠蔽を使用してオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
を含む、請求項1または2に記載のオーディオデコーダ。
【請求項5】
異なる損失隠蔽ツールの前記セットは、
前記データストリームから導出されたピッチ値に依存する周期性の周期信号を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
前記オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
を含む、請求項1または2に記載のオーディオデコーダ。
【請求項6】
前記オーディオデコーダは、
前記データストリームで搬送された最新のピッチパラメータを前記ピッチ値として使用することにより、前記データストリームから前記ピッチ値(66)を導出するように構成される、請求項5に記載のオーディオデコーダ。
【請求項7】
前記オーディオデコーダは、
前記データストリームの最新の非損失部分から導出された1つまたは複数の連続スペクトル(46)において同じ場所にあるピークを特定することにより、前記調性スペクトル成分(72)の前記検出を実行するように構成される、請求項5または6に記載のオーディオデコーダ。
【請求項8】
前記データストリーム(14)は、スペクトル領域においてエンコードされた前記データストリームの前記最新の非損失部分を有する、請求項7に記載のオーディオデコーダ。
【請求項9】
前記オーディオデコーダは、異なる損失隠蔽ツールの前記セットのうちの前記1つを、前記第1および第2の尺度に基づいて前記オーディオ信号の前記部分に割り当てる際に、前記スペクトル重心の前記スペクトル位置が低くなるほど、かつ前記時間的予測可能性が高くなるほど、前記第1の損失隠蔽ツールを前記部分に割り当てる可能性が大きくなり、前記スペクトル重心の前記スペクトル位置が高くなるほど、かつ前記時間的予測可能性が低くなるほど、前記第2の損失隠蔽ツールを前記部分に割り当てる可能性が大きくなる、請求項3から8のいずれか一項に記載のオーディオデコーダ。
【請求項10】
損失の影響を受けた部分(22)を検出するために損失検出(36)を実行し、
損失の影響を受けた前記部分(22)を検出する損失検出に応答して、前記部分(22)について前記第1および第2の尺度(42;52)の決定を実行し、損失の影響を受けない部分について前記決定を実行することを抑える、
ように構成される、請求項1から9のいずれか一項に記載のオーディオデコーダ。
【請求項11】
前記オーディオ信号の調性を示す調性インジケータ(86)を決定し(84)、
互いに共通の要素をもたない異なる損失隠蔽ツールの前記セット(26)からの1つまたは複数の損失隠蔽ツールの第1および第2のサブセット(80、82)の1つを、前記調性インジケータ(86)に基づいて前記オーディオ信号の前記部分(22)に割り当て、
前記第1のサブセット(80)が前記部分(22)に割り当てられ、前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して前記オーディオ信号の前記部分(22)の前記回復を実行する場合には、1つまたは複数の損失隠蔽ツールの前記第1のサブセット(80)からの前記第1および第2の尺度に基づいて、異なる損失隠蔽ツールの前記セットの前記1つを前記オーディオ信号の前記部分に割り当てる(60)ことにより、前記第1および第2の尺度に基づいて、前記オーディオ信号の前記部分に異なる損失隠蔽ツールの前記セットの前記1つを割り当て、前記損失隠蔽ツールの前記第2のサブセット(82)が前記部分に割り当てられている場合には、前記損失隠蔽ツールの前記第2のサブセット(82)のうちの1つを使用して前記オーディオ信号の前記部分(22)の前記回復を実行する、
ようにさらに構成される、請求項1から10のいずれかに一項に記載のオーディオデコーダ。
【請求項12】
前記オーディオデコーダは、
前記第3の尺度として、前記データストリームで搬送されるパラメータを使用するように構成される、請求項11に記載のオーディオデコーダ。
【請求項13】
前記オーディオデコーダは、
前記データストリームの最新の失われていないフレームにおけるピッチパラメータ(66)の存在または非存在を前記第3の尺度(86)として使用するように構成される、請求項11または12に記載のオーディオデコーダ。
【請求項14】
異なる損失隠蔽ツールの前記セット(26)は、
前記データストリームから導出されたピッチ値に依存する周期性の周期信号を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
前記オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
複製の変更の有無にかかわらず、フレームの繰り返しを使用してオーディオ信号を回復するための第3の損失隠蔽ツール(PLC#3)と、を含み、
前記第3の損失隠蔽ツールは前記第2のサブセット(82)に含まれ、前記第2および前記第1および第2の損失隠蔽ツールは前記第1のサブセット(80)に含まれる、請求項11から13のいずれか一項に記載のオーディオデコーダ。
【請求項15】
スペクトル成分位置値の加重和によって前記第1の尺度(42)を決定する(40)ように構成され、各々は前記それぞれのスペクトル成分位置値での前記オーディオ信号の前記スペクトルを使用して重み付けされる、請求項1から14のいずれか一項に記載のオーディオデコーダ。
【請求項16】
前記オーディオ信号の自己相似性を示す相関尺度によって前記第2の尺度(52)を決定する(50)ように構成された、請求項1から15のいずれか一項に記載のオーディオデコーダ。
【請求項17】
前記オーディオ信号からピッチを導出し、前記ピッチに依存する時間的シフトでの前記オーディオ信号の自己相関を示す相関尺度として前記第2の尺度を決定することにより、前記第2の尺度(52)を決定する(50)ように構成される、請求項1から16のいずれか一項に記載のオーディオデコーダ。
【請求項18】
前記第1および第2の尺度に基づいて、異なる損失隠蔽ツールの前記セットの1つを前記オーディオ信号の損失の影響を受ける部分(22)に割り当てる際に、スカラー和を取得し、前記スカラー和をしきい値処理するために、前記第1および第2の尺度(42、52)の総和演算を実行するように構成される、請求項1から17のいずれか一項に記載のオーディオデコーダ。
【請求項19】
データストリーム(14)からオーディオ信号(12)をオーディオデコードする際に損失隠蔽を実行するための方法であって、前記方法は、
前記オーディオ信号のスペクトル(46)のスペクトル重心のスペクトル位置(48)を示す第1の尺度(42)を決定し(40)、
前記オーディオ信号の時間的予測可能性を示す第2の尺度(52)を決定し(50)、
異なる損失隠蔽ツール(28)のセット(26)のうちの1つ(62)を、前記第1および第2の尺度に基づいて前記オーディオ信号(12)の損失の影響を受ける部分(22)に割り当て(32)、
前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して、前記オーディオ信号の前記部分(22)を回復する、
ことを含む方法。
【請求項20】
プロセッサ上で実行される場合に、請求項19に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、異なる損失隠蔽ツールのセットをサポートするオーディオデコーダに関する。
【背景技術】
【0002】
パケット損失隠蔽(PLC)は、エンコーダからデコーダへの送信中に失われたパケットまたは破損したパケットを隠蔽するために、オーディオコーデックで使用される。PLCはデコーダ側で実行され、変換領域または時間領域のいずれかでデコードされた信号を外挿することによって機能する。理想的には、隠蔽された信号はアーチファクトがなく、欠落した信号と同じスペクトル特性を有する必要がある。
【0003】
[2]と[4]で説明されているように、エラーロバストオーディオコーデックは一般に、モノフォニック信号の例としてのスピーチ、ポリフォニック信号の例としての音楽またはノイズ信号など、様々な信号タイプに対して複数の隠蔽方法を備えている。選択は、ビットストリームから送信されデコードされるか、あるいはデコーダで推定される信号特徴のセットに基づいている。
【0004】
ピッチベースのPLC技術は、一般にスピーチ信号とモノフォニック信号に良い結果をもたらす。これらの手法は、信号が局所的に定常的であると仮定し、外挿されたピッチ周期を使用して周期的な信号を合成することにより、失われた信号を回復する。これらの技術は、ITU−T G.718[2]などのCELPベースのスピーチコーディングで広く使用されている。これらは、ITU−T G.711[3]などのPCMコーディングにも使用することができ、最近では、DECTベースのオーディオコーディングに適用され、最も良い例は、3GPP EVS標準[4]のTCX時間領域隠蔽TCX TD−PLCである。
【0005】
ピッチラグは、ピッチベースのPLCで使用される主要なパラメータである。このパラメータは、エンコーダ側で推定し、ビットストリームにエンコードすることができる。この場合、最後の良好なフレームのピッチラグを使用して、[2]および[4]のように現在の失われたフレームを隠蔽する。ビットストリームにピッチラグがない場合、[3]のようにデコードされた信号に対してピッチ検出アルゴリズムを実行することにより、デコーダ側でピッチラグを推定することができる。
【0006】
非周期的、非調性、ノイズのような信号の場合、符号スクランブリングを使用したフレーム反復と呼ばれる複雑度の低い手法が効果的であることが分かっている。これは、最後のフレームを繰り返し、失われたフレームを隠蔽するためにランダムに生成された符号をスペクトル係数に乗算することに基づいている。符号スクランブリングを使用したMDCTフレーム反復の一例は、3GPP EVS標準[4]に見いだすことができる。
【0007】
調性ポリフォニック信号または複雑な音楽信号の場合、検出された調性成分のスペクトル係数の位相を予測することに基づく方法が使用される。この方法は、定常的な調性信号の一貫した改善を示している。調性成分は、前に受信したフレームにも存在していたピークで構成される。調性成分に属するスペクトル係数の位相は、最後に受信したフレームのパワースペクトルから決定される。調性MDCT隠蔽の一例は、3GPP EVS標準[4]に見いだすことができる。
【0008】
上記を要約すると、様々なPLC方法が知られているが、それらは特定の状況、つまり特定のオーディオ特性に固有である。すなわち、これらのPLC方法のいくつかをサポートするオーディオコーダには、フレームまたはパケットの損失が発生したときに最も適切なPLC方法を選択するメカニズムが必要である。最も適切なPLC方法は、失われた信号を最も目立たないように置き換えるものである。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本出願の目的は、異なる損失隠蔽ツールのセットを含むオーディオデコーダが改善された損失隠蔽を達成することを可能にするオーディオデコードのコンセプトを提供することである。
【課題を解決するための手段】
【0010】
この目的は、本出願の独立請求項の主題によって達成される。
【0011】
本発明のアイデアは、オーディオデコーダの異なる損失隠蔽ツールの位相セットの1つを、データストリームからデコードされる、損失の影響を受けるオーディオ信号の部分に割り当てるという発見に基づいている。すなわち、異なる損失隠蔽ツールのセットからの選択は、割り当て/選択が次の2つの尺度に基づいて行われる場合には、より快適な損失隠蔽につながる方法で行うことができる。決定される第1の尺度は、オーディオ信号のスペクトルのスペクトル重心のスペクトル位置を示し、決定される第2の尺度は、オーディオ信号の時間的予測可能性を示す。次に、割り当てられた、または選択された損失隠蔽ツールを使用して、オーディオ信号の部分を復元することができる。
【0012】
例えば、前述の第1および第2の尺度に基づいて、第1および第2の損失隠蔽ツールのうちの一方は、損失部分に割り当てることができ、第1は、データストリームから導出されたピッチ値に依存する周期性の周期信号を使用するオーディオ信号合成によってオーディオ信号を回復するように構成され、第2の損失隠蔽ツールは、オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、位相検出に応じて信号間の相互位相シフトを調整して調性スペクトル成分に依存する周期性の信号を組み合わせることによるオーディオ信号合成を実行することによってオーディオ信号を回復するように構成することができる。換言すれば、第1および第2の尺度に基づいて、調性周波数領域PLCツールおよび調性時間領域PLCツールの一方を損失部分に割り当てることができる。
【0013】
一実施形態によれば、損失部分に対する割り当て/選択は、段階的に実行される。オーディオ信号のスペクトルの調性を示す第3の尺度が決定され、異なる損失隠蔽ツールのセットからの1つまたは複数の損失隠蔽ツールの第1および第2サブセットの1つが損失部分に割り当てられ、単に、1つまたは複数の損失隠蔽ツールの第1のサブセットが損失部分に割り当てられている場合には、損失部分に対する1つのPLCツールの割り当ては、この第1のサブセットからの第1および第2の尺度に基づいて実行される。それ以外の場合には、割り当て/選択は第2のサブセットから実行される。
【0014】
本出願の有利な態様は、従属請求項の主題である。本出願の好ましい実施形態は、以下の図面に関して述べる。
【図面の簡単な説明】
【0015】
【
図1】本出願の一実施形態によるオーディオデコーダの概略的なブロック図である。
【
図2】一実施形態による、
図1のオーディオデコーダのアサイナ32の動作モードの流れ図である。
【
図3】一実施形態による、
図2のPLC割り当ての第1の尺度を決定するためのスペクトル重心検出を示す概略図である。
【
図4】一実施形態による、
図2のPLC割り当ての第2の尺度を決定するための時間的予測可能性検出を示す概略図である。
【
図5】
図2のPLC1の動作モードを例示するための概略図である。
【
図6】一実施形態によるPLC2の動作モードを例示する概略図である。
【
図7】一実施形態による、パケット損失隠蔽PLC1からPLC3のためのPLCツールのセットから割り当てを実行するように拡張された、
図2の割り当て動作の変更されたバージョンの流れ図である。
【
図8】
図7の実施形態が対応する3つのPLCツールの間で決定するための決定木を示す図である。
【発明を実施するための形態】
【0016】
図1は、本出願の一実施形態によるオーディオデコーダを示す。そこに示すように、オーディオデコーダ10は、データストリーム14からのオーディオ信号12をデコードするように構成される。オーディオ信号12は、時間領域ベースのオーディオコーデックまたは周波数領域オーディオコーデックなどの任意の適切なオーディオコーデックに従ってデータストリーム14にエンコードされてもよい。オーディオ信号12は、それぞれフレーム18の時間部分16の単位でデータストリーム14にコード化されてもよい。より正確には、オーディオ信号12は、時間的に重複または非重複の時間部分または間隔16に細分することができ、その各々は、データストリーム14が細分されるフレーム18の特定の1つに対応する。各フレーム18は、対応する時間部分16をエンコードする。例えば、部分18は、対応する部分16内のオーディオ信号のスペクトル包絡線を表す線形予測係数に関する情報を含むことができる。さらに、フレーム18は、そのフレームに含まれる線形予測係数に従って、例えばオーディオデコーダ10によって成形される部分16内のオーディオ信号12のスペクトルを表すスペクトル係数をその中にエンコードしていてもよい。データストリーム14からオーディオ信号12を再構成する際に、オーディオデコーダ10によってオーバーラップ加算プロセスが適用されることもある。当然のことながら、可能性はここに提示された例にも当てはまり、理解を容易にするために役立つだけである。
【0017】
データストリーム14は、パケット化された形式で、すなわちパケットの単位で、オーディオデコーダ10によって受信され得る。データストリーム14のフレーム18自体への分割は、一種のパケット化を表す。つまり、フレーム18はパケットを表す。さらに、データストリーム14は、トランスポートストリームまたはメディアファイルフォーマットのパケットにパックされ得るが、この状況は、ここではさらに詳細には検査されない。むしろ、オーディオデコーダ10によるデータストリーム14の受信は、以下ではパケット損失と呼ばれるデータまたは信号の損失を起こしやすいことを述べておけば十分であろう。すなわち、データストリーム14の一部の連続部分20は、送信中に失われ、したがってオーディオデコーダ10によって受信されなかった可能性があり、その結果、対応する部分が欠落し、オーディオデコーダ10で利用することができない。結果として、オーディオデコーダ10は、データストリーム14内の情報を見落として、部分20に対応する部分22を再構成する。言い換えると、オーディオデコーダ10は、例えば、オーディオデコーダのオーディオデコードコア24では、データストリーム14の部分20が失われているときに、実装された通常のオーディオデコードプロセスに従って、データストリーム14から部分22を再構成することができない。むしろ、そのような欠落部分20に対処するために、オーディオデコーダ10は、部分22内のオーディオ信号12を代替信号30によって回復または合成するように、PLCツール28のセット26を含む。セット26に含まれるPLCツール28は、異なるオーディオ信号特性に対するそれらの適合性が異なる。すなわち、オーディオ信号12の特定の部分22内の信号代替物30の回復のために特定のPLCツールを使用するときの不快さの程度は、その部分22でのオーディオ信号特性に依存し、セット26内のPLCツール28は、オーディオ信号特性の特定のセットについて相互に異なる程度の不快さを示す。したがって、オーディオデコーダ10は、パケット損失隠蔽ツール28のセット26の1つを、データストリーム14の損失部分22などの、パケット損失によって影響を受けるオーディオ信号12の部分22に割り当てるアサイナ32を含む。アサイナ32は、最良のPLCツール28、すなわち、もたらす不快さが最低のものを部分22に割り当てようと試みる。
【0018】
アサイナ32が特定のPLCツール28をオーディオ信号12の損失部分22に割り当てると、オーディオデコーダ10は、割り当てられたPLCツール28を使用してオーディオ信号のこの部分22を回復し、それにより、この部分22内のオーディオ信号12を置き換えるが、対応するデータストリーム部分22が失われていない場合は、アサイナ32によって部分22に割り当てられたPLCツール28を使用して取得された代替信号30によって、オーディオデータストリーム14から再構築されるからである。
【0019】
すでに上で示したように、特定のPLCツール28の特定の損失部分22への割り当ては、損失隠蔽を可能な限り煩わしくしないために、信号に依存させる必要がある。しかしながら、信号依存性は、失われたデータストリーム部分20に先行するデータストリーム14の部分に制限され、ここに記載された実施形態によれば、アサイナ32は以下のように機能する。
【0020】
これをより詳細に説明するために、
図2を参照する。
図2は、特定の欠落部分22に対する割り当てプロセス全体が、恐らくオーディオデコーダ10に存在する可能性のある損失検出器34によって引き起こされる可能性があることを示している。特に、符号38でチェックされるように、損失検出器34によって実行される損失検出36が、データストリーム14の一部20が欠落または損失していることを明らかにした場合には、以下の割り当てプロセスがトリガされる。決定40は、オーディオ信号のスペクトルのスペクトル重心のスペクトル位置を示す第1の尺度42を決定するために実行される。すなわち、アサイナ32は、オーディオ信号のスペクトルの質量中心のスペクトル位置を決定する(
図3を参照)。オーディオデコーダは、オーディオ信号のスペクトル46を、データストリーム14の損失部分20に先行する部分44から、データストリーム順に先行して取り出す。
図1に関して上述したように、データストリーム14は、いずれにせよ、スペクトル領域においてエンコードされたオーディオ信号12を有し、その結果、アサイナ32がスペクトル46を取得するためのスペクトル分解は必要ない。例えば、損失部分20の前の、データストリーム14の最新の受信されたフレーム18または2つ以上の最近の取り出されたフレーム18のスペクトル係数が、スペクトル46を得るために使用される。2つ以上のフレーム18が使用される場合には、アサイナ32によって使用されるスペクトル46が平均化によって得られる可能性がある。決定40を実行するために、このスペクトル46の質量中心、すなわち、スペクトル46のスペクトル位置48を示す尺度42が決定される。後ほど、特定の例を示す。
【0021】
さらに、損失検出によってトリガされる割り当てプロセスは、この時間的予測可能性の尺度52を得るために、オーディオ信号の時間的予測可能性の決定50を含み、詳細については
図4を参照されたい。そこに示されているように、一実施形態によれば、時間的予測可能性の検出50は、データストリーム14から、データストリーム14の部分20の損失により欠落している信号部分22まで、デコードされた信号またはオーディオ信号12に依存し得る。言い換えると、時間的予測可能性の検出50は、損失部分22の直前にある部分50内のオーディオ信号12に基づくことができ、その損失は隠蔽され、データストリーム14の部分44からデコードされる。時間的予測可能性の検出50は、尺度52が
図4の54に示すように信号部分50の自己類似性または自己相関の尺度であるような方法で行われてもよい。信号50の自己相似性が尺度52によって示される相互シフトは、異なる方法でアサイナ32によって決定され得る。例えば、アサイナ32は、データストリーム14の損失部分20に先行する部分44内のフレーム18のうちの1つまたは複数で搬送される対応するピッチパラメータを検査することができる。すなわち、自己相似性が示され得る相互シフトは、ピッチがデータストリーム14内のパラメータ、すなわち部分44に基づいて決定されるピッチ周期に対応し得る。そのピッチ周期シフトにおける自己相似性または相関56は、第2の尺度52として使用されてもよい。
【0022】
決定40および50をそれぞれ実行する順序が入れ替えられてもよいこと、または両方の検出が同時に実行されてもよいことは明らかである。尺度42と52に基づいて、割り当て60が実行される。この割り当て60は、部分22の損失を隠蔽するために2つのPLCツール28のうちの1つを選択する。このPLCツール、すなわち、割り当てられたもの62は、部分22の損失の隠蔽に使用される。
【0023】
簡単な注記として、割り当て60による選択がその間に実行される、PLCツール28の数は、2よりも多くてもよいことに留意されたい。
【0024】
しかしながら、以下にさらに概説される実施形態によれば、
図2のPLCツールPLC1が1として記述されてもよく、それを用いて、代替信号30、すなわち、部分22内のオーディオ信号推定値が調性時間領域パケットの損失隠蔽を使用して取得または回復される。言い換えれば、PLC1は、モノフォニック部分のオーディオ信号回復専用のパケット損失隠蔽であり得る。PLC1は、データストリームから導出されたピッチパラメータまたはピッチ値に依存する周期性の周期信号を使用して、すなわち、データストリーム14の部分44から、つまり、データストリーム14の損失部分20に先行する部分44から、オーディオ信号12の欠落部分22内のオーディオ信号を回復することができる。
【0025】
第2のPLCツールPLC2は、ポリフォニックタイプのオーディオ信号の回復のための専用であってもよい。この第2のPLCツールPLC2の隠蔽は、調性周波数領域のパケット損失隠蔽に基づくことができる。
【0026】
図5および
図6に関して、PLC1およびPLC2の可能な実施態様を簡単に説明する。
【0027】
図5にPLC1を示す。データストリーム14の損失部分20に先行する部分44内のフレーム18で搬送されるピッチパラメータまたはピッチ値66を使用して、周期信号70の周期性または周期長68を設定し、次にそれを用いて代替物を形成するか、あるいはオーディオ信号12の部分22内の損失を隠蔽する。ピッチパラメータまたはピッチ値66は、例えば、高調波フィルタツールなどを制御するために、通常のオーディオデコード、すなわち信号損失がない場合にオーディオデコーダ10によって使用されるために、データストリーム14に存在してもよい。すなわち、パラメータ66はとにかくデータストリーム14に存在してもよい。そうでなければ、
図5に従ってPLC1を実行するPLCツール28は、損失部分22の前のデコードされた信号50を解析すること、または
図3に示すスペクトル46などのスペクトルの最新のアクセス可能なバージョンを解析すること、などの解析によって、ピッチ周期68を決定することができる。
【0028】
図6は、一実施形態によるPLC2を示す。ここで、PLC2を実行することを担当するPLCツール28は、例えば、データストリーム14の部分44から得られた1つまたは2つ以上の最新の取得されたスペクトルを使用して、その中の調性スペクトル成分、すなわち、それぞれ特定の数の連続するスペクトルまたはフレーム18のスペクトルのその位置または十分に類似した位置で発生するスペクトル46のピーク72またはスペクトル46のピーク72を検出または決定する。十分に類似した位置は、スペクトル距離が特定のしきい値を下回っている位置であり得る。ピーク72のスペクトル位置は、調性スペクトル成分を表し、ここでは、これらのスペクトル位置で、位相検出は、例えば、オーディオ信号のパワースペクトルの使用により、または例えば、評価により実行される。次に、信号損失が隠蔽される時間部分22内で、周期性が調性スペクトル成分に依存する信号の組み合わせが形成されて、補足信号30を生成し、組み合わされた信号間の相互位相シフトが位相検出に応じて調整される。例えば、各調性成分72について位相が決定されるか、またはこれらの調性成分間の単に位相差が決定され、信号は、部分22内の代替物30として形成され、これは位相差または位相に従ってこれらの調性成分72によって合成される。組み合わせは、逆変換によって代替信号30を導出することによりスペクトル領域で、または例えば適切に相互にシフトされた信号を追加することによって時間領域で直接形成され、相互シフトは決定された相互位相シフトを反映する。
【0029】
以下でより詳細に説明するように、割り当て60は、スペクトル位置48が低くなるほど、かつ時間的予測可能性が高くなるほど、PLC1が部分22に選択または割り当てられる可能性が大きくなり、その逆も同様であって、スペクトル位置48が高くなるほど、かつ時間的予測可能性が低くなるほど、PLC2が割り当てられるか選択される可能性が大きくなるように、行うことができる。高いスペクトル位置は高い周波数に対応し、低いスペクトル位置は低い周波数に対応する。この方法でこれを行うことにより、損失したスピーチに対応する部分22の場合にPLC1が選択される可能性が高くなり、ポリフォン信号または音楽に関連する部分22の場合にPLC2が選択される可能性が高くなる。
【0030】
完全を期すために、
図7は、
図2の割り当てプロセスを拡張することができることを示している。特に、
図2に示すように、割り当て60は、割り当てまたは割り当て60の選択をPLCツール28のサブセット80に制限することによって行われた。PLCツール28のセット26は、サブセット82などの1つまたは複数のPLCツール28のさらなるサブセットを含んでもよく、損失検出36によってトリガされると、調性検出84は、部分22が調性部分に関連するかどうかを決定するために、最初にアサイナ32によって使用されてもよい。調性決定84は、調性尺度またはインジケータ86をもたらし、この調性尺度インジケータ86は、例えば、部分44内の最新のフレーム18が、
図5に記載されているようなピッチ値66などの特定のピッチパラメータを含むかどうかを検査することなどによって、データストリーム14の部分44内の1つまたは複数のパラメータを使用することによって符号84で取得することができる。存在しない場合、これは、オーディオ信号が現在非調性であることを示すと解釈されてもよく、ピッチパラメータ66が存在する場合、これは、オーディオ信号が現在調性であることを示すと解釈されてもよい。次に、この指標は調性尺度86である。尺度86を使用して、オーディオ信号が調性であるか否かが88で識別され、それが非調性である場合には、部分22に割り当てられたPLC62は、サブセット82から割り当てられる。
図7は、1つのPLCツール28がサブセット82によって構成され、これが選択された場合を示している。しかしながら、ここでも、サブセット82からのさらなる選択が続く場合がある。調性が88で確認された場合には、決定40および50に基づく割り当て60は、
図2に関して上述したように、サブセット80に関して実行される。
【0031】
PLC3は、複製の変更の有無にかかわらず、フレーム反復を使用することにより部分22のオーディオ信号を回復するPLCなどの非調性PLCであってもよく、上記のように、複製の変更が符号スクランブリング、すなわち、スペクトル46などの最新の受信したスペクトルのスペクトル係数のランダムな符号反転を伴う場合、これは、逆変換され、代替信号30を導出するために使用される。
【0032】
図8は、例えば
図7に対応する方法に従って、PLCツール28の中から選択するための決定木を視覚化する。決定AとBは、最良の隠蔽性能を得るために、特定の欠落信号部分22に異なる信号タイプ用に設計された3つのPLC方法PLC1〜PLC3のどれを使用するかを決定するために行われる。第1の決定である決定Aは、調性に基づいている。信号が非調性であることが判明した場合には、PLC3が隠蔽に使用される。調性である場合には、決定Bが行われる。決定Bは、
図2および
図7に関して上記で説明した方法で尺度42、52に基づいて調性信号特性をチェックし、特性に応じて、PLC1またはPLC2のいずれかを選択する。上記で説明したように、PLC1は、モノフォンおよび/またはスピーチ信号のための調性時間領域PLCであってもよく、一方、PLC2は、ポリフォンおよび/または音楽信号のための調性周波数領域PLCであってもよい。
【0033】
したがって、
図8の決定木は決定を視覚化し、これは、最高の隠蔽性能を得るために、異なる信号タイプの3つのPLC方法間で行われてもよい。
図7のチェック88に対応し得る決定Aは、信号タイプ分類を検査することによって、すなわちそれを指標として使用することによって、またはそこから調性インジケータを導出することによって行うことができる。信号タイプの分類は、各フレーム18に存在する可能性があり、各フレームのフレームクラスを示す。これは、エンコーダ側で計算され、ビットストリーム14でオーディオデコーダに送信される。あるいは、デコーダ側で計算することもできる。しかし、フレームクラスの計算は非常に複雑であり、フレームクラスのフレーム依存関係のために、すべての特徴をすべてのフレームで計算する必要があり得る。したがって、複雑度の低いアプリケーションでは、より単純な手法を使用することが望ましい場合がある。上記のように、いくつかのピッチパラメータ66の存在または不在は、インジケータ86として使用することができる。
【0034】
決定40、52に基づく割り当て60に対応する決定Bは、PLC#1とPLC#2との間の適切な選択をもたらす。[6]では、このような選択は、信号の短期的な定常性に相関するスペクトル包絡線の安定性測定に基づいて行われた。しかし、信号が定常的であるほど、調性PLC方法PLC#1とPLC#2の両方の性能が向上する。それゆえ、定常性は、最適な調性隠蔽方法を選択するための適切な基準ではない。定常性特徴は調性を非常によく示すが、スピーチ/モノフォニックとポリフォニック/音楽を区別することができない。
【0035】
上述のように、アサイナ32によって表されるPLC分類器を使用して
図8の決定木を実行することが可能であり、フレーム間依存性なしにフレームごとに動作することができ、したがって複雑さを低くするだけでよい。符号38で検出またはチェックされたフレーム損失の場合にのみ、分類特徴42および52を計算し、したがってフレーム18間のエラーのないフレームに内在的な複雑さのオフセットを追加しない。
【0036】
決定Aは、最後の良好な受信されたオーディオフレームにおけるピッチ値の存在であり得る調性インジケータ86に基づいて行われ得る。決定Bは、スペクトル重心48と、最後の良好な受信されたオーディオフレームで計算された長期予測ゲイン56と、を使用することによって行うことができる。
【0037】
決定Bは、モノフォニックおよびスピーチのような信号に最も適したピッチベースの時間領域隠蔽法PLC#1と、ポリフォンまたは複雑な音楽信号に最も適した周波数領域法PLC#2と、の間で切り替えることができる。決定Bの分類の利点は、以下の事実から生じる。
【0038】
・スペクトルの重心は、スピーチ信号の場合はスペクトル的に非常に低い位置にあり、音楽信号の場合はより高い位置にある。
【0039】
・長期予測ゲインは、スピーチ信号などのモノフォニック信号および定常信号では高く、調性信号もしくは複雑な音楽信号などのポリフォニック信号または定常的でない信号では低くなる。
【0040】
したがって、特徴42、52の両方の重み付けされた組み合わせを決定Bおよび割り当てプロセス60に使用することができ、スピーチ/モノフォニックおよびポリフォニック/複雑な音楽信号の信頼することができる識別をもたらす。同時に、複雑さを低く抑えることができる。
【0041】
オーディオデコーダが破損したフレームを受信した場合、またはフレームが失われた場合、つまり、符号38で検出されたように損失部分20に遭遇した場合には、以下を実行することができ、
図2も参照されたい。
【0042】
a.符号88で、PLC#2のような調性隠蔽方法を使用するか、あるいは部分20を表す損失/破損したフレームを隠蔽する、または対応する部分22の損失を隠蔽するためにPLC#1を用いるかの決定Aが成される。この決定Aは、ビットストリームの最後の良好なフレームにおけるピッチ値66の存在を使用することができる調性インジケータ68に基づく。
【0043】
b.否定的な決定Aの場合、調性PLCは使用されない。代わりに、その場合は別のPLC方法、つまりPLC#3が使用される。同じものが、符号のスクランブリングを伴うフレーム反復を使用することができる。
【0044】
c.肯定的な決定Aの場合、2つの調性PLC方法PLC#1およびPLC#2の1つを使用して、損失/破損したフレームを隠蔽する。2つのPLC方法は、[4]のTCX TD−PLCなどの時間領域ピッチベースのPLCか、[4]の調性MDCT隠蔽などの周波数領域の調性隠蔽のいずれかであり得る。対応する記載は参照により本明細書に組み込まれる。
【0045】
肯定的な決定Aの場合、特徴42および52は、次の方法で最後の良好なフレームに基づいて計算することができる。
【0046】
・特徴または尺度52として、長期予測ゲイン
:
は、符号50で計算することができる。ここで、
は最後の良好なフレームのピッチ値であり、
は最後の良好なフレームの最後のデコードされた時間サンプルであり、
ここで、
は最大ピッチ値やフレーム長(例えば10ms)などの制限された値とすることができる。
【0047】
・特徴または尺度42として、スペクトル重心
:
は符号40で計算することができる。ここで、
は最後に受信したスペクトル
の長さであり、
はマグニチュードスペクトルを意味する。
【0048】
2つの計算された特徴は、次の式と組み合わされる。
ここで、
、
および
は重みである。一実施形態では、これらは、
、
および
である。代替案が
、
および
を設定しているので、
、
および
である。重みは、[−1:1]の範囲になるようにここで正規化することができる。
【0049】
次に、PLC#1、例えば時間領域のピッチベースのPLC方法は、符号60および周波数領域の調性隠蔽などのPLC#2において
である場合に選択することができる。
【0050】
上記の説明に関して、いくつかの留意事項がある。例えば、第1の尺度42を得るためにスペクトル重心が測定されたスペクトルは、予め強調されたバージョンなどの、いわゆる重み付けされたバージョンであるかもしれない。このような重み付けは、例えば、量子化ノイズを心理音響マスキングしきい値に適合させるために使用される。言い換えれば、それは、第1の尺度42が、音響信号の音響心理学的にスケーリングされたスペクトルのスペクトル重心のスペクトル位置48を示すことであってもよい。これは、エンコードされた基礎となるオーディオデコードコア24でコーディングされた通常のオーディオデコードが、とにかく、データストリーム14は、スペクトル領域、すなわち重み付けされた領域において、その中にエンコードされたオーディオ信号12を有することを含む場合に特に有利であるかもしれない。それに加えてまたはその代わりに、第1の尺度42を得るためにスペクトル重心が測定されたスペクトルは、時間領域に移行するためにオーディオデコードコア24で使用されるスペクトル分解能と同じくらい高いスペクトル分解能で表されるとは限らない。むしろ、それはより高くても低くてもよい。それに加えてまたはその代わりに、オーディオ信号のスペクトルもスケールファクタとして現れることに留意されたい。このようなスケールファクタは、オーディオ信号のスペクトルのコード化された表現を一緒に形成するために、スペクトル係数と共にデータストリーム14で送信される。特定の部分22について、スペクトル係数は、スケールファクタに従ってスケールされる。スケーラファクタよりも多くのスペクトル係数がある。例えば、各スケールファクタは、オーディオ信号の帯域幅が分割される、いわゆるスケールファクタバンドと呼ばれるいくつかのスペクトル帯域の1つに割り当てられる。したがって、スケールファクタは、量子化されたスペクトル係数がデータストリーム14でコード化されるものと比較して低減されたあるスペクトル分解能での包絡線に関して、特定の部分のオーディオ信号のスペクトルを定義する。スケールファクタがデータストリーム14でコード化されるスペクトル分解能は、デコードコア24がスペクトル係数の逆量子化を実行するスペクトル分解能よりもさらに低い場合さえあり得る。例えば、デコードコア24は、データストリーム14にコード化されたスケールファクタをスペクトル補間にかけて、データストリームにコード化されたものとしてより高いスペクトル分解能の補間スケールファクタを得て、逆量子化のために補間スケールファクタを使用する。データストリームにコード化されたスケールファクタと補間されたスケールファクタのいずれかが、オーディオ信号のスペクトルとして使用され、そのスペクトル重心は、第1の尺度42によって示される。これは、さらに努力を増やす、デコードされたオーディオ信号を追加のスペクトル分解にかけることにより重心測定用のスペクトルを取得する場合は、スペクトル係数がコード化されている場所やその他の分解能など、より高い分解能で重心測定を実行する場合と比較して、第1の尺度が低いと判断するために実行される計算操作の数として決定されるのに、重心測定は非常に計算効率が良くなることを意味する。したがって、具体的な例として、コード化されたダウンサンプリングされたスケールファクタSNS(スペクトルノイズシェーピング)に基づいて、次のように第1および第2の尺度を計算することができる。
【0051】
まず、ピッチ値
が基礎として計算される。
ここで、
および
は、最後の適切なフレームからデコーダによって導出されたビットストリームパラメータである。
は調性指標として解釈することができる。
【0052】
第2の尺度として、長期予測ゲイン
は次のように計算される。
ここで、
は最後にデコードされた時間サンプルであり、
は最大ピッチ値などの制限された値やフレーム長
(例えば10ms)などの所定の長さの値にすることができる。
は最小ピッチ値である。したがって、第2の尺度は、ピッチで相互にシフトされた、それ自体との最新の受信された部分におけるデコードされたオーディオ時間信号の自己類似性として計算される。
【0053】
第2の尺度として、スペクトル重心
は次のように計算することができる。
ここで、
はサンプリングレートおよび
であり、
は不均一なバンドインデックスである。つまり、各バンドに対して、周波数の下限と上限をある方法で定義したバンドインデックスであり、関連する下側境界と上側境界の差によって定義される帯域幅は、周波数の増加に伴って増加するなど、相互に異なるが、差は任意選択である。バンドインデックスは、オーディオ信号のサンプリングレート/周波数に応じて定義することができる。さらに、
ここで、
は最後の適切なフレームのビットストリームに格納されているスケールファクタベクトルであり、
は既定で設定されている可能性のある所定のチルトファクタであり、オーディオ信号のサンプル周波数に応じて異なる。項
は、対数領域でスケールファクタをコード化して線形領域に戻すために適用される。項
は、エンコーダ側のプリエンファシスフィルタを反転させるために適用され、これは、ディエンファシスフィルタと呼ばれる。
【0054】
スケールファクタベクトルはエンコーダ側で計算され、ビットストリームで送信される。これは、MDCT係数のバンドあたりのエネルギーで決定され、バンドは不均一であり、知覚的に関連するバークスケールに従う(低周波数では小さく、高周波数では大きくなる)。エネルギーを平滑化し、予め強調し、対数領域に変換した後に、それらはエンコーダ側で64個のパラメータから16個のパラメータにダウンサンプリングされ、スケールファクタベクトルを形成し、その後に、これがコード化され、ビットストリームで送信される。したがって、
は、音声信号のスペクトル46のスペクトル重心のスペクトル位置48の尺度であり、ここでは、スペクトル的に粗くサンプリングされたバージョン、すなわちSNSパラメータに基づいて決定される。
【0055】
次に、様々なPLC方法の決定または選択が、基準
および
を使用して行われる。
であれば、符号スクランブリングを使用したフレーム反復が選択されている場合がある(調性インジケータ
であることを意味する)。それ以外の場合、値
は次のように計算される。
であれば、時間領域ピッチベースのPLC方法が選択される可能性があり、それ以外の場合は、周波数領域の調性隠蔽である。
【0056】
したがって、データストリーム14からオーディオ信号12をデコードするためのオーディオデコーダは、異なる損失隠蔽ツール28のセット26を含み、データストリームの最新の非損失部分のスケールファクタからスペクトルを導出することにより、オーディオ信号のスペクトル46のスペクトル重心のスペクトル位置48を示す第1の尺度42を決定し40、オーディオ信号の時間的予測可能性を示す第2の尺度52を決定し50、異なる損失隠蔽ツール28のセット26の1つ62を、第1および第2の尺度に基づいて損失の影響を受けるオーディオ信号12の部分22に割り当て32、そして、部分22に割り当てられた1つの損失隠蔽ツール62を使用して、オーディオ信号の部分22を回復する、ように構成されてもよい。説明したように、スペクトルの導出には、データストリームでコード化されたスケーラファクタにスペクトル補間を施すことが含まれてもよい。それに加えてまたはその代わりに、これらはディエンファシスフィルタリングが施されてもよい。つまり、ディエンファシスフィルタの伝達関数が乗算されてもよい。結果として得られるスケールファクタは、スペクトルの重心測定が施されてもよい。上記の他のすべての詳細も同様に適用される。つまり、排他的に意図されていない例に言及すると以下のようになる。異なる損失隠蔽ツールのセット26は、モノフォニック部分のオーディオ信号回復のための第1の損失隠蔽ツールと、ポリフォニック部分のオーディオ信号回復のための第2の損失隠蔽ツールと、を含んでもよく、オーディオデコーダは、第1および第2の尺度に基づいて、異なる損失隠蔽ツールのセットの1つをオーディオ信号の部分に割り当てる際に、スペクトル重心のスペクトル位置が低くなるほど、かつ時間的予測可能性が高くなるほど、第1の損失隠蔽ツールをその部分に割り当てる可能性が大きくなり、スペクトル重心のスペクトル位置が高くなるほど、かつ時間的予測可能性が低くなるほど、第2の損失隠蔽ツールをその部分に割り当てる可能性が大きくなるように、構成されてもよい。それに加えてまたはその代わりに、オーディオデコーダは、異なる損失隠蔽ツールのセットの1つを、第1および第2の尺度に基づいて損失の影響を受けるオーディオ信号の部分22に割り当てる際に、第1および第2の尺度42、52の総和演算を実行して、スカラー和を取得し、スカラー和にしきい値処理を適用するように構成することができる。
【0057】
いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の特徴の説明も表す。方法ステップの一部またはすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路などのハードウェア装置によって(または使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つまたは複数は、そのような装置によって実行されてもよい。
【0058】
特定の実施態様の要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施態様は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行することができる。したがって、デジタル記憶媒体はコンピュータで読み取り可能であってもよい。
【0059】
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0060】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。
【0061】
他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
【0062】
言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0063】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタルストレージメディア、または記録されたメディアは、通常、有形および/または非一時的である。
【0064】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0065】
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
【0066】
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0067】
本発明によるさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを(例えば、電子的または光学的に)受信機に転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。
【0068】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
【0069】
本明細書で説明する装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実施されてもよい。
【0070】
本明細書で説明される装置、または本明細書で説明される装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実施されてもよい。
【0071】
本明細書で説明する方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されてもよい。
【0072】
本明細書で説明される方法、または本明細書で説明される装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアによって少なくとも部分的に実行されてもよい。
【0073】
上述の実施形態は、本発明の原理の単なる例示に過ぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の記載および説明として提示される特定の詳細によってではなく、以下の特許請求の範囲によってのみ限定されることが意図されている。
【0074】
[1] 3GPP TS 26.445;Codec for Enhanced Voice Services (EVS);Detailed algorithmic description
【0075】
[2] ITU−T G.718:Frame error robust narrow−band and wideband embedded variable bit−rate coding of speech and audio from 8−32 kbit/s
【0076】
[3] ITU−T G.711 Appendix I:A high quality low−complexity algorithm for packet loss concealment with G.711
【0077】
[4] 3GPP TS 26.447;Codec for Enhanced Voice Services(EVS);Error concealment of lost packets
【0078】
[5] Method and device for efficient frame erasure concealment in speech codecs;WO2007073604 (A1)−2007−07−0
【0079】
[6] Selecting a Packet Loss Concealment Procedure;EP3111624 A1−2017−01−04
【手続補正書】
【提出日】2020年6月27日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データストリーム(14)からオーディオ信号(12)をデコードするためのオーディオデコーダであって、前記オーディオデコーダは、異なる損失隠蔽ツール(28)のセット(26)を含み、
前記オーディオ信号のスペクトル(46)のスペクトル重心のスペクトル位置(48)を示す第1の尺度(42)を決定し(40)、
前記オーディオ信号の時間的予測可能性を示す第2の尺度(52)を決定し(50)、
異なる損失隠蔽ツール(28)の前記セット(26)のうちの1つ(62)を、前記第1および第2の尺度に基づいて前記オーディオ信号(12)の損失の影響を受ける部分(22)に割り当て(32)、
前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して、前記オーディオ信号の前記部分(22)を回復する、
ように構成される、オーディオデコーダ。
【請求項2】
異なる損失隠蔽ツール(28)の前記セット(26)は、
前記データストリームから導出されたピッチ値(66)に依存する周期性(68)の周期信号(70)を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
前記オーディオ信号の調性スペクトル成分(72)を検出し、調性スペクトル成分(72)での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分(72)に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
複製の変更の有無にかかわらず、フレームの繰り返しを使用してオーディオ信号を回復するための第3の損失隠蔽ツール(PLC#3)と、
のうちの1つまたは複数を含む、請求項1に記載のオーディオデコーダ。
【請求項3】
異なる損失隠蔽ツールの前記セット(26)は、
モノフォニック部分のオーディオ信号を回復するための第1の損失隠蔽ツール(PLC#1)と、
ポリフォニック部分のオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
を含む、請求項1または2に記載のオーディオデコーダ。
【請求項4】
異なる損失隠蔽ツールの前記セット(26)は、
調性時間領域パケット損失隠蔽を使用してオーディオ信号を回復するための第1の損失隠蔽ツール(PLC#1)と、
調性周波数領域パケット損失隠蔽を使用してオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
を含む、請求項1または2に記載のオーディオデコーダ。
【請求項5】
異なる損失隠蔽ツールの前記セットは、
前記データストリームから導出されたピッチ値に依存する周期性の周期信号を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
前記オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
を含む、請求項1または2に記載のオーディオデコーダ。
【請求項6】
前記オーディオデコーダは、
前記データストリームで搬送された最新のピッチパラメータを前記ピッチ値として使用することにより、前記データストリームから前記ピッチ値(66)を導出するように構成される、請求項5に記載のオーディオデコーダ。
【請求項7】
前記オーディオデコーダは、
前記データストリームの最新の非損失部分から導出された1つまたは複数の連続スペクトル(46)において同じ場所にあるピークを特定することにより、前記調性スペクトル成分(72)の前記検出を実行するように構成される、請求項5または6に記載のオーディオデコーダ。
【請求項8】
前記データストリーム(14)は、スペクトル領域においてエンコードされた前記データストリームの前記最新の非損失部分を有する、請求項7に記載のオーディオデコーダ。
【請求項9】
前記オーディオデコーダは、異なる損失隠蔽ツールの前記セットのうちの前記1つを、前記第1および第2の尺度に基づいて前記オーディオ信号の前記部分に割り当てる際に、前記スペクトル重心の前記スペクトル位置が低くなるほど、かつ前記時間的予測可能性が高くなるほど、前記第1の損失隠蔽ツールを前記部分に割り当てる可能性が大きくなり、前記スペクトル重心の前記スペクトル位置が高くなるほど、かつ前記時間的予測可能性が低くなるほど、前記第2の損失隠蔽ツールを前記部分に割り当てる可能性が大きくなる、請求項3から8のいずれか一項に記載のオーディオデコーダ。
【請求項10】
損失の影響を受けた部分(22)を検出するために損失検出(36)を実行し、
損失の影響を受けた前記部分(22)を検出する損失検出に応答して、前記部分(22)について前記第1および第2の尺度(42;52)の決定を実行し、損失の影響を受けない部分について前記決定を実行することを抑える、
ように構成される、請求項1から9のいずれか一項に記載のオーディオデコーダ。
【請求項11】
前記オーディオ信号の調性を示す調性インジケータ(86)を決定し(84)、
互いに共通の要素をもたない異なる損失隠蔽ツールの前記セット(26)からの1つまたは複数の損失隠蔽ツールの第1および第2のサブセット(80、82)の1つを、前記調性インジケータ(86)に基づいて前記オーディオ信号の前記部分(22)に割り当て、
前記第1のサブセット(80)が前記部分(22)に割り当てられ、前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して前記オーディオ信号の前記部分(22)の前記回復を実行する場合には、1つまたは複数の損失隠蔽ツールの前記第1のサブセット(80)からの前記第1および第2の尺度に基づいて、異なる損失隠蔽ツールの前記セットの前記1つを前記オーディオ信号の前記部分に割り当てる(60)ことにより、前記第1および第2の尺度に基づいて、前記オーディオ信号の前記部分に異なる損失隠蔽ツールの前記セットの前記1つを割り当て、前記損失隠蔽ツールの前記第2のサブセット(82)が前記部分に割り当てられている場合には、前記損失隠蔽ツールの前記第2のサブセット(82)のうちの1つを使用して前記オーディオ信号の前記部分(22)の前記回復を実行する、
ようにさらに構成される、請求項1から10のいずれかに一項に記載のオーディオデコーダ。
【請求項12】
前記オーディオデコーダは、
前記第3の尺度として、前記データストリームで搬送されるパラメータを使用するように構成される、請求項11に記載のオーディオデコーダ。
【請求項13】
前記オーディオデコーダは、
前記データストリームの最新の失われていないフレームにおけるピッチパラメータ(66)の存在または非存在を前記第3の尺度(86)として使用するように構成される、請求項11または12に記載のオーディオデコーダ。
【請求項14】
異なる損失隠蔽ツールの前記セット(26)は、
前記データストリームから導出されたピッチ値に依存する周期性の周期信号を使用したオーディオ信号合成によるオーディオ信号回復のための第1の損失隠蔽ツール(PLC#1)と、
前記オーディオ信号の調性スペクトル成分を検出し、調性スペクトル成分での位相検出と、前記位相検出に応じて前記信号間の相互位相シフトを調整して前記調性スペクトル成分に依存する周期性の前記信号を組み合わせることによるオーディオ信号合成を実行することによるオーディオ信号を回復するための第2の損失隠蔽ツール(PLC#2)と、
複製の変更の有無にかかわらず、フレームの繰り返しを使用してオーディオ信号を回復するための第3の損失隠蔽ツール(PLC#3)と、を含み、
前記第3の損失隠蔽ツールは前記第2のサブセット(82)に含まれ、前記第2および前記第1および第2の損失隠蔽ツールは前記第1のサブセット(80)に含まれる、請求項11から13のいずれか一項に記載のオーディオデコーダ。
【請求項15】
スペクトル成分位置値の加重和によって前記第1の尺度(42)を決定する(40)ように構成され、各々は前記それぞれのスペクトル成分位置値での前記オーディオ信号の前記スペクトルを使用して重み付けされる、請求項1から14のいずれか一項に記載のオーディオデコーダ。
【請求項16】
前記オーディオ信号の自己相似性を示す相関尺度によって前記第2の尺度(52)を決定する(50)ように構成された、請求項1から15のいずれか一項に記載のオーディオデコーダ。
【請求項17】
前記オーディオ信号からピッチを導出し、前記ピッチに依存する時間的シフトでの前記オーディオ信号の自己相関を示す相関尺度として前記第2の尺度を決定することにより、前記第2の尺度(52)を決定する(50)ように構成される、請求項1から16のいずれか一項に記載のオーディオデコーダ。
【請求項18】
前記第1および第2の尺度に基づいて、異なる損失隠蔽ツールの前記セットの1つを前記オーディオ信号の損失の影響を受ける部分(22)に割り当てる際に、スカラー和を取得し、前記スカラー和をしきい値処理するために、前記第1および第2の尺度(42、52)の総和演算を実行するように構成される、請求項1から17のいずれか一項に記載のオーディオデコーダ。
【請求項19】
前記データストリームの最新の非損失部分のスケールファクタから前記スペクトルを導出することにより、前記第1の尺度(42)を決定する(40)ように構成された、請求項1から18のいずれか一項に記載のオーディオデコーダ。
【請求項20】
前記データストリームの最新の非損失部分のスケールファクタから前記スペクトルを導出し、前記データストリームにコード化された前記スケールファクタにスペクトル補間を施すことにより、前記第1の尺度(42)を決定する(40)ように構成された、請求項1から19のいずれか一項に記載のオーディオデコーダ。
【請求項21】
デエンファシスフィルタの伝達関数との乗算により、前記スケールファクタにデエンファシスフィルタリングを施すように構成された、請求項19または20に記載のオーディオデコーダ。
【請求項22】
データストリーム(14)からオーディオ信号(12)をオーディオデコードする際に損失隠蔽を実行するための方法であって、前記方法は、
前記オーディオ信号のスペクトル(46)のスペクトル重心のスペクトル位置(48)を示す第1の尺度(42)を決定し(40)、
前記オーディオ信号の時間的予測可能性を示す第2の尺度(52)を決定し(50)、
異なる損失隠蔽ツール(28)のセット(26)のうちの1つ(62)を、前記第1および第2の尺度に基づいて前記オーディオ信号(12)の損失の影響を受ける部分(22)に割り当て(32)、
前記部分(22)に割り当てられた前記1つの損失隠蔽ツール(62)を使用して、前記オーディオ信号の前記部分(22)を回復する、
ように構成される方法。
【請求項23】
プロセッサ上で実行される場合に、請求項22に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【国際調査報告】