特許6827997 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6827997符号化器、復号器ならびに隠蔽を増強するためのパラメータを使用してオーディオ内容を符号化および復号するための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6827997

(24)【登録日】2021年1月22日

(45)【発行日】2021年2月10日

(54)【発明の名称】符号化器、復号器ならびに隠蔽を増強するためのパラメータを使用してオーディオ内容を符号化および復号するための方法

(51)【国際特許分類】

G10L 19/005 20130101AFI20210128BHJP

G10L 19/22 20130101ALI20210128BHJP

G10L 19/00 20130101ALI20210128BHJP

G10L 19/02 20130101ALI20210128BHJP

【ＦＩ】

G10L19/005

G10L19/22

G10L19/00 330B

G10L19/02 150

【請求項の数】11

【全頁数】51

(21)【出願番号】特願2018-208097(P2018-208097)

(22)【出願日】2018年11月5日

(62)【分割の表示】特願2017-511668(P2017-511668)の分割

【原出願日】2015年8月24日

(65)【公開番号】特開2019-49743(P2019-49743A)

(43)【公開日】2019年3月28日

【審査請求日】2018年11月7日

(31)【優先権主張番号】14182553.9

(32)【優先日】2014年8月27日

(33)【優先権主張国】EP

(31)【優先権主張番号】15164126.3

(32)【優先日】2015年4月17日

(33)【優先権主張国】EP

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100205981

【弁理士】

【氏名又は名称】野口大輔

(72)【発明者】

【氏名】ジェレミー・レコムテ

(72)【発明者】

【氏名】ベンジャミン・シューベルト

(72)【発明者】

【氏名】ミヒャエル・シュナベル

(72)【発明者】

【氏名】マーティン・ディエッツ

【審査官】上田雄

(56)【参考文献】

【文献】米国特許出願公開第２０１３／０１８５０６２（ＵＳ，Ａ１）

【文献】国際公開第２０１４／０４６５２６（ＷＯ，Ａ１）

【文献】 Telefon AB LM Ericsson, Fraunhofer IIS, Huawei Technologies Co. Ltd, Nokia Corporation, NTT, NTT DOC，Draft TS 26.445- EVS Codec Detailed Algorithmic Description (Release 12), v. 0.1.0[online]， 3GPP TSG-SA WG4#80 S4-140827，インターネット＜URL:http://www.3gpp.org/ftp/tsg_sa，２０１４年８月８日，pp.348-349，[2018年4月17日検索]

【文献】 3GPP TS 26.447 V.0.0.1 Codec for Enhanced Voice Services EVS Codec Error Concealment of Lost Packet，３ＧＰＰＴＳ２６．４４７ V.0.0.1 Codec for Enhanced Voice Services EVS Codec Error Concealment，インターネット＜URL:http://www.3gpp.org/ftp/tsg_sa，２０１４年７月３０日，pp.8-9,12,14-15,38-40，ファイル名 S4-140829\26447_010_s01_s53_4_23 S4-140829\26447_010_s01_end、[2018年4月17日検索]

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−１９／２６

(57)【特許請求の範囲】

【請求項1】

少なくともＴＣＸコード化方式を使用してオーディオ内容（２）をコード化するための符号化器（１）であって、前記符号化器（１）は、
現在のフレームのプライマリ符号化表現（４）、および、前記現在のフレームの復号器側誘導エラー隠蔽を提供するための、少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するように構成されており、少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）はペイロードの一部として帯域内で送信され、
前記符号化器（１）は、前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）が前記現在フレームの前記プライマリ符号化表現（４ｂ）に対してある時間遅延をもって送信されるように、前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）と将来のフレームのプライマリ符号化表現（４ｃ）を組み合わせて輸送パケット（９）にするように構成されており、
前記符号化器（１）は、前記現在のフレーム内に含まれている前記オーディオ内容（２）の信号特性を表す１つまたは複数のパラメータに基づいて、前記少なくとも１つのエラー隠蔽パラメータ（６）を選択するように構成されており、
前記符号化器（１）は、前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための少なくとも２つのモードの間で選択的に選択するように構成されており、
前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための前記モードのうちの少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＴＣＸＬＴＰラグ遅延および分類子情報のうちの１つまたは複数を含むような、時間領域隠蔽モードであり、
少なくとも１つのエラー隠蔽パラメータの符号化表現（８）を提供するための前記モードのうち少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの１つまたは複数を含むような、周波数領域隠蔽モードである、符号化器（１）。

【請求項2】

少なくともＴＣＸコード化方式を使用してオーディオ内容（２）を符号化するための符号化器（１）であって、
前記符号化器（１）は、現在のフレームのプライマリ符号化表現と前記現在のフレームの復号器側誘導エラー隠蔽を提供するための少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するように構成されており、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）がペイロードの一部として帯域内で送信され、
前記符号化器（１）は、前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）が前記現在フレームの前記プライマリ符号化表現（４ｂ）に対してある時間遅延をもって送信されるように、前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）と将来のフレームのプライマリ符号化表現（４ｃ）を組み合わせて輸送パケット（９）にするように構成されており、
前記符号化器（１）は、前記現在のフレーム内に含まれる前記オーディオ内容（２）の信号特性を表わす１つ以上のパラメータに基づいて、前記少なくとも１つのエラー隠蔽パラメータ（６）を選択するように構成され、
前記符号化器（１）は、前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための少なくとも２つのモードから選択的に選択するように構成され、
前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための前記モードのうちの少なくとも１つは、前記現在のフレーム内に含まれている前記オーディオ内容（２）が過渡を含む場合、または、前記現在のフレーム内に含まれている前記オーディオ内容（２）のグローバルゲインが先行するフレームのグローバルゲインよりも低い場合に選択される時間領域隠蔽モードであり、
前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための前記モードのうちの少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの１つまたは複数を含むような、周波数領域隠蔽モードである、符号化器（１）。

【請求項3】

前記復号器側エラー隠蔽は外挿ベースのエラー隠蔽である、請求項１又は２に記載の符号化器（１）。

【請求項4】

前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するためのモードの選択は、フレームクラス、ＬＴＰピッチ、ＬＴＰゲイン、および、１つまたは複数の先行するフレームの少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するためのモードのうちの少なくとも１つを含むパラメータに基づくものである、請求項１〜３のいずれか一項に記載の符号化器（１）。

【請求項5】

少なくともＴＣＸコード化方式を使用してオーディオ内容（２）を復号するための復号器（３１）であって、
現在のフレームのプライマリ符号化表現（４）、および／または、前記現在のフレームの復号器側誘導エラー隠蔽を提供するための、少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を受信するように構成されており、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）はコーデックペイロードの一部として帯域内で送信され、
前記復号器（３１）は、前記現在のフレームの前記プライマリ符号化表現（４）が含まれているパケット（９ａ）とは別個のものであるパケット（９ｂ）から、現在のフレームのエラー隠蔽パラメータ（６）を抽出するように構成されており、
前記復号器（３１）は、前記現在のフレームの前記プライマリ符号化表現（４）が損失、破損または遅延している場合に、前記少なくとも１つのエラー誘導隠蔽パラメータ（６）を使用することによって、前記現在のフレームの前記オーディオ内容（２）を少なくとも部分的に再構築するために前記エラー隠蔽を使用するように構成されており、
前記復号器（３１）は、前記エラー隠蔽を使用して前記オーディオ内容（２）を少なくとも部分的に再構築するために、１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を使用する少なくとも２つのエラー隠蔽モードの間で選択的に選択するように構成されており、
１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を使用する前記少なくとも２つのエラー隠蔽モードのうちの少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＴＣＸＬＴＰラグ遅延および分類子情報のうちの少なくとも１つを含む、時間領域隠蔽モードであり、
１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を使用する前記少なくとも２つのエラー隠蔽モードのうちの少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの１つまたは複数を含む、周波数領域隠蔽モードである、復号器（３１）。

【請求項6】

前記復号器側誘導エラー隠蔽は外挿ベースのエラー隠蔽である、請求項５に記載の復号器（３１）。

【請求項7】

請求項１〜４のいずれか一項に記載の符号化器と請求項５又は６に記載の復号器を備えたシステム。

【請求項8】

少なくともＴＣＸコード化方式を使用してオーディオ内容（２）を符号化するための方法であって、
現在フレームのプライマリ符号化表現（４）と前記現在フレームの復号器側誘導エラー隠蔽を提供するための少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供し、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現を、コーデックペイロードの一部として帯域内で送信するステップと、
前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）が前記現在フレームの前記プライマリ符号化表現（４ｂ）に対してある時間遅延をもって送信されるように、前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）と将来のフレームのプライマリ符号化表現（４ｃ）を組み合わせて輸送パケット（９）にするステップと、
前記現在のフレーム内に含まれる前記オーディオ内容（２）の信号特性を表わす１つ以上のパラメータに基づいて、前記少なくとも１つのエラー隠蔽パラメータ（６）を選択するステップと、
前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための少なくとも２つのモードから選択的に選択するステップと、を備え、
１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を提供するための少なくとも１つの前記モードは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＴＣＸＬＴＰラグ遅延および分類子情報のうちの少なくとも１つを含む、時間領域隠蔽モードであり、
前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための前記モードのうちの少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの１つまたは複数を含むような、周波数領域隠蔽モードである、方法。

【請求項9】

少なくともＴＣＸコード化方式を使用してオーディオ内容（２）を符号化するための方法であって、
現在フレームのプライマリ符号化表現（４）と前記現在フレームの復号器側誘導エラー隠蔽パラメータを提供するための少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供し、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）を、コーデックペイロードの一部として帯域内で送信するステップと、
前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）が前記現在フレームの前記プライマリ符号化表現（４ｂ）に対してある時間遅延をもって送信されるように、前記現在フレームの前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８ｂ）と将来のフレームのプライマリ符号化表現（４ｃ）を組み合わせて輸送パケット（９）にするステップと、
前記現在のフレーム内に含まれる前記オーディオ内容（２）の信号特性を表わす１つ以上のパラメータに基づいて、前記少なくとも１つのエラー隠蔽パラメータ（６）を選択するステップと、
前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための少なくとも２つのモードから選択的に選択するステップと、を備え、
前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を提供するための前記モードのうちの少なくとも１つは、前記現在のフレーム内に含まれている前記オーディオ内容（２）が過渡を含む場合、または、前記現在のフレーム内に含まれている前記オーディオ内容（２）のグローバルゲインが先行するフレームのグローバルゲインよりも低い場合に選択される時間領域隠蔽モードであり、
１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を提供するための少なくとも１つの前記モードは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの１つまたは複数を含む、周波数領域隠蔽モードである、方法。

【請求項10】

少なくともＴＣＸコード化方式を使用してオーディオ内容（２）を復号するための方法であって、
現在フレームのプライマリ符号化表現（４）、および／または、前記現在フレームの復号器側エラー隠蔽を提供するための少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）を受信するステップであって、前記少なくとも１つのエラー隠蔽パラメータ（６）の符号化表現（８）が、コーデックペイロードの一部として帯域内で送信される、ステップと、
前記現在のフレームの前記プライマリ符号化表現（４）が含まれているパケット（９ａ）とは別個のものであるパケット（９ｂ）から、現在のフレームの前記少なくとも１つのエラー隠蔽パラメータ（６）を抽出するステップと、
前記現在のフレームの前記プライマリ符号化表現（４）が損失、破損または遅延している場合に、前記少なくとも１つのエラー誘導隠蔽パラメータ（６）を使用することによって、前記現在のフレームの前記オーディオ内容（２）を少なくとも部分的に再構築するために前記エラー隠蔽を使用するステップと、
前記エラー隠蔽を使用して前記オーディオ内容（２）を少なくとも部分的に再構築するために、１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を使用する少なくとも２つのエラー隠蔽モードの間で選択的に選択するステップと、を備え、
１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を使用する前記少なくとも２つのエラー隠蔽モードのうちの少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＴＣＸＬＴＰラグ遅延および分類子情報のうちの少なくとも１つを含む、時間領域隠蔽モードであり、
１つまたは複数のエラー隠蔽パラメータ（６）の異なる符号化表現（８）を使用する前記少なくとも２つのエラー隠蔽モードのうちの少なくとも１つは、前記少なくとも１つのエラー隠蔽パラメータ（６）の前記符号化表現（８）が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの１つまたは複数を含む、周波数領域隠蔽モードである、方法。

【請求項11】

コンピュータまたは信号プロセッサ上で実行されたときに、請求項８〜１０のいずれか一項に記載の方法を実施するように構成されたコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、符号化器および復号器を使用したオーディオコーデックに関し、欠陥のある、たとえば、損失、破損または遅延したオーディオフレームが、エラー隠蔽メカニズムを使用することによって少なくとも部分的に再構築される。本発明は、選択されたエラー隠蔽補助パラメータをビットストリーム内で提供することによって、従来のエラー隠蔽メカニズムを増強する。エラー隠蔽補助パラメータは、復号器側隠蔽を増強する。

【背景技術】

【0002】

ＶｏＩＰシステムにおいて、パケットは、受信機において異なる待ち時間で、さらには時間的順序が入れ替わって到来する。発話／オーディオ復号器における復号のために、各パケットは所定の定期的な時点において予測されるため、時間ジッタを除去し、可能な場合にパケット間の正確な順序を復元するために、いわゆるデジッタバッファが必要とされる。

【0003】

デジッタバッファが利用可能であることによって、チャネルアウェアなコード化を使用することが可能であり、符号化器内で、将来のフレームのプライマリコピーに加えて、現在のフレームの部分冗長コピーがコード化される。現在のフレームが損失するか、または、受信機に到来するのが遅すぎる場合、後のフレーム内で到来するその部分冗長コピーを、損失したフレームを合成するために使用することができる。プライマリフレームとその部分冗長コピーとの間の遅延（またはフレーム数）、いわゆるＦＥＣオフセット、および、特定のフレームの部分冗長コピーが仮にも送信される必要があるか否かの決定は、実際の利用可能なシステム遅延およびフレームエラー率（ＦＥＲ）、すなわち、現在のチャネル状態に応じて、符号化器において動的に制御することができる。

【0004】

この技法は、ビットレートを一定に保持するためにプライマリフレームの合計サイズが低減されることを必要とするが、中程度のおよび高いＦＥＲにおいて、非チャネルアウェア／冗長性ベース手法と比較して、より良好な品質を可能にする。

【0005】

インターネットのようなネットワークは、データの送信に加えて、会議のようなＶｏＩＰ通信に使用される。したがって、複数の音声または音楽がデジタルデータへと符号化され、データはパケットに構成され、パケットはネットワークを介して受信者へと送信される。ＶｏＩＰは、このプロセスがリアルタイムで行われることを必要とする。

【0006】

リアルタイム使用を可能にするプロトコルの欠点は、それらのプロトコルが、パケットを回収しなければ、パケットが失われることを許容してしまうという点において、それらのプロトコルが信頼性を欠くということである。これが発生すると、それらのパケットが搬送している音声またはオーディオセグメントは再構築されず、受信者は、発話または音楽の中で不快な間隙を聞くことになる。これらの間隙は、サービス品質の低減として知覚される。

【0007】

パケットが損失されているという事実を隠蔽するために、冗長性方式が考案されている。元のデータの態様を反復する冗長パケットが符号化および送信される。パケットが損失した場合、うまくいけば損失していないその対応する冗長パケットから、そのパケットのデータが回復および／または再構築される。受信側にあるジッタバッファが、プライマリパケットおよび冗長パケットを回収し、それらを再生する復号器へと、それらを供給する。

【0008】

ＲＴＰについて規定されている、最初の媒体特有のエラー訂正方式は、ＲＦＣ２１９８［１］において記述されている、オーディオ冗長性コード化であった。これは、音声電話会議のために設計されたものである。各パケットは、オーディオデータの元のフレームと、より高度に圧縮されたフォーマットの、先行するフレームの冗長コピーの両方を含む。

【0009】

パケットベースのトラフィックは、高いパケット損失比、ジッタおよび並べ替えを被る可能性がある。順方向エラー訂正（ＦＥＣ）は、このパケット損失の問題に対処するための１つの技法である。一般的に、ＦＥＣは、コード化発話とともに冗長情報を送信することを含む。復号器は、損失したパケットを再構築するために、冗長情報を使用することを試みる。媒体非依存ＦＥＣ技法は、オーディオストリーム内のビットに基づいて（発話ストリームの特性のより高度な知識に依存せずに）冗長情報を付加する。他方、媒体依存ＦＥＣ技法は、発話ストリームの特性に基づいて、冗長情報を付加する。

【0010】

米国特許第６，７５７，６５４号明細書［２］は、発話データをコード化するための改善されたＦＥＣ技法を記載している。米国特許第６，７５７，６５４号明細書は、以下のように開示している。

【0011】

「（本発明の技法は、）プライマリ符号化データを生成するためにプライマリ合成モデルを使用して入力発話信号をプライマリ符号化し、冗長符号化データを生成するために冗長合成モデルを使用して入力発話信号を冗長符号化する符号化器モジュール（から構成される）。パケタイザが、プライマリ符号化データと冗長符号化データとを組み合わせて一連のパケットにし、インターネットプロトコル（ＩＰ）ネットワークのようなパケットベースのネットワークを介して、これらのパケットを送信する。復号モジュールは、プライマリ合成モデルを使用してパケットをプライマリ復号し、冗長合成モデルを使用してパケットを冗長復号する。本技法は、合成出力発話信号の品質を改善するために、復号の間および後のプライマリ合成モデルと冗長合成モデルとの間の相互作用を可能にする。そのような「相互作用」は、たとえば、一方のモデルにおける状態を、他方のモデルを使用して更新するという形態をとり得る。

【0012】

さらに、本発明の技法は、符号化器モジュールおよび復号器モジュールにおける先読み処理を可能にするために、プライマリフレームと冗長フレームとのＦＥＣスタガード結合（すなわち、フレームｎのプライマリデータを、フレームｎ−１の冗長データと結合すること）を利用する。先読み処理は、発話信号に関する利用可能な情報を補完し、したがって、出力合成発話の品質を改善する。

【0013】

発話信号をコード化するための両モデルの相互作用的協調によって、従来のシステムによってこれまで企図されていた冗長コード化の使用が大きく拡大される。」

【0014】

会議論文［３］は、知覚されるオーディオ品質におけるエンドツーエンド遅延の影響を組み込んでいる、インターネット電話の統合再生バッファ順方向エラー訂正（ＦＥＣ）調整方式を提示している。会議論文［３］は、知覚されるオーディオ品質を、音声信号のエンドツーエンド遅延と歪みの両方の関数として表現している。この品質の測度を最適化する統合速度／エラー／再生遅延制御アルゴリズムが開発されている。

【0015】

［３］において言及されているように、媒体特異的ＦＥＣは、ほとんどの音声会議ツールに使用されている。信号処理ＦＥＣの原理は、異なる品質のコード化器によって符号化されている、各オーディオセグメントを複数のパケットにおいて送信することである。パケットが損失すると、同じセグメント（別様に符号化されたものであり得る）を含む別のパケットが、損失をカバーすることが可能であり得る。
すべての現行の技術は冗長性に基づき、これは、後のフレームによって、現在のフレームの実際には低ビットレートのバージョンを送信することを意味する。冗長オーディオ符号化は、（冗長コピーがプライマリと同一である場合）正確な修復を可能にすることができるが、より低いビットレートが使用される可能性が高くなり、それによって、達成される品質がより低くなる。先進的発話およびオーディオコード化の文脈において、データレートは、フレームごとに大きくなっており、その実際には低ビットレートのバージョンを送信することによって、品質は相対的に不満足なものになる。

【先行技術文献】

【特許文献】

【0016】

【非特許文献1】[１]RTP Payload for Redundant Audio Data", Internet Engineering Task Force, RFC 2198, September 1997

【非特許文献2】[２] US 6,757,654 _ "Forward error correction in speech coding", Westerlund, M. and al., 29 June 2004

【非特許文献3】[３] "Adaptive joint playout buffer and FEC adjustment for Internet telephony" C. Boutremans,J .-Y. Le Boudec, INFOCOM 2003. Twenty-Second Annual Joint Conference of the IEEE Computer and Communications . IEEE Societies; 04/2003

【非特許文献4】[４] Patent application: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT BASED ON A TIME DOMAIN EXCITATION SIGNAL

【非特許文献5】[５] Patent application: AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT MODIFYING A TIME DOMAIN EXCITATION SIGNAL

【非特許文献6】[６] 3GPP TS 26.448: "Codec for Enhanced Voice Services (EVS); Jitter Buffer Management".

【非特許文献7】[７] 3GPP TS 26.442: "Codec for Enhanced Voice Services (EVS); ANSI C code (fixed-point)".

【非特許文献8】[８] D. J. Sinder, I. Varga, V. Krishnan, V. Rajendran and S. Villette, "Recent Speech Coding Technologies and Standards," in Speech and Audio Processing for Coding, Enhancement and Recognition, T. Ogunfunmi, R. Togneri, M. Narasimha, Eds., Springer, 2014.

【非特許文献9】[９] J. Sjoberg, M. Westerlund, A. Lakaniemi and Q. Xie, "RTP Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs," April 2007. [Online]. Available: http://tools.ietf.org/html/rfc4867.

【非特許文献10】[１０] 3GPP TS 26.114, "Multimedia Telephony Service for IMS," V12.7.0, September 2014.

【非特許文献11】[１１] 3GPP TS 26.445: "EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12)," 2014.

【非特許文献12】[１２] 3GPP, TS 26.447, "Codec for Enhanced Voice Services (EVS); Error Concealment of Lost Packets (Release 12)," 2014.

【非特許文献13】[１３] 3GPP TS 26.448: "EVS Codec Jitter Buffer Management (Release 12)," 2014.

【非特許文献14】[１４] 3GPP Tdoc S4-130522, "EVS Permanent Document (EVS-3): EVS performance requirements," Version 1.4.

【非特許文献15】[１５] S. Bruhn, et al., "Standardization of the new EVS Codec," submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.

【非特許文献16】[１６] M. Dietz, et al., "Overview of the EVS codec architecture," submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.

【非特許文献17】[１７] V. Atti, et al., "Super-wideband bandwidth extension for speech in the 3GPP EVS codec," submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.

【非特許文献18】[１８] G. Fuchs, et al., "Low delay LPC and MDCT-based Audio Coding in EVS," submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.

【非特許文献19】[１９] S. Disch et al., "Temporal tile shaping for spectral gap filling within TCX in EVS Codec," submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.

【非特許文献20】[２０] J. Lecomte et al., "Packet Loss Concealment Technology Advances in EVS," submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.

【非特許文献21】[２１] B. Bessette, et al, "The adaptive multi-rate wideband speech codec (AMR-WB)," IEEE Trans. on Speech and Audio Processing, vol. 10, no. 8, pp. 620-636, November 2002.

【非特許文献22】[２２] E. Ravelli, et al., "Open loop switching decision based on evaluation of coding distortions for audio codecs," submitted to IEEE ICASSP, Brisbane, Australia, April, 2015.

【非特許文献23】[２３] M. Jelinek, T. Vaillancourt, and Jon Gibbs, "G.718: A New Embedded Speech and Audio Coding Standard with High Resilience to Error-Prone Transmission Channels," IEEE Communications Magazine, vol. 47, no. 10, pp. 117-123, October 2009.

【非特許文献24】[２４] ITU-T P.800, "Methods for Subjective Determination of Transmission Quality," International Telecommunication Union (ITU), Series P., August 1996.

【発明の概要】

【発明が解決しようとする課題】

【0017】

したがって、既存のエラー隠蔽メカニズムを改善することが所望されている。

【課題を解決するための手段】

【0018】

本発明の実施形態は、少なくとも独立請求項１の特徴を有する符号化器、少なくとも独立請求項２２の特徴を有する復号器、請求項４２に記載のシステム、少なくとも独立請求項４３の特徴を含む符号化するための方法、少なくとも独立請求項４４の特徴を含む復号するための方法、請求項４５に記載のコンピュータプログラム、少なくとも請求項４６の特徴を有する符号化器、少なくとも請求項５５の特徴を有する復号器、独立請求項６２〜６４のうちの少なくとも一項に記載の装置、少なくとも独立請求項６５の特徴を有する切り替えコード化器または復号器、少なくとも独立請求項６６の特徴を有する変換領域コード化器または復号器、および、独立請求項６８に記載の方法またはコンピュータプログラムを提供することによって、改善されたソリューションを生成する。

【0019】

請求項１によれば、発話様内容および／または一般オーディオ内容をコード化するための符号化器を提供することが提案されており、符号化器は、少なくともいくつかのフレームにおいて、ビットストリーム内にパラメータを組み込むように構成されており、当該パラメータは、元のフレームが損失、破損または遅延した場合に隠蔽を増強する。損失したフレームに標準的な隠蔽メカニズムが使用され得るとしても、この隠蔽を増強するためにフレーム内に組み込まれているパラメータが使用される。したがって、本発明は、プライマリの低ビットレートバージョンに過ぎない部分コピーを有するのではなく、隠蔽を増強する何らかの選択されたパラメータのみを送信することを提案する。それゆえ、復号器は、現行の技術において提案されているような復号器とは別様に作動し得る。

【0020】

エラー隠蔽を増強する（たとえば、そうでなければ損失、破損または遅延している欠陥のあるフレームに先行する以前のフレームに基づいて推定される必要があることになる、損失フレームの特性を規定する）何らかの選択されたパラメータを提供することによって、必要とされるビットレートを低いままにしながら、（欠陥のあるフレームの）エラー隠蔽が良好なものになることが分かっている。

【0021】

すなわち、隠蔽を増強するパラメータを送信することによって、以前に復号されているフレームに関する情報に基づいて欠陥のあるフレームを再構築することが可能になり、隠蔽されるフレームの情報のほとんどは、欠陥のあるフレームに先行する（または後続する）１つまたは複数のフレームから導出されるが、通常は先行または後続する正確にコード化されたフレームから導出される必要がある、欠陥のあるフレームの最も関連する特性のうちの１つもしくは複数（またはエラー隠蔽の最も重要なパラメータのうちの１つもしくは複数）は、隠蔽を増強するパラメータによって比較的正確に表される。

【0022】

また言い換えれば、エラー隠蔽を増強するための組み込まれているパラメータは、すべての必要とされるタイプの情報を含むとは限らず、最も重要なタイプの情報がそのパラメータによって提供されるという点においてエラー隠蔽をサポートし、一方で隠蔽のための他のタイプの情報は、復号器側で以前に復号されているフレームから導出されなければならないという点において、欠陥のあるフレームを再構築するには不十分であることが好ましい。

【0023】

したがって、エラー隠蔽品質とビットレートとの間の良好な妥協が達成される。

【0024】

一実施形態において、符号化器は、プライマリフレームおよびいわゆる「部分コピー」を生成するように構成することができ、「部分コピー」は、プライマリフレームの低ビットレートバージョンではなく、「部分コピー」は、パラメータ（たとえば、考慮されているフレームに欠陥がある場合に、隠蔽のために必要とされる最も関連するパラメータのうちのいくつか）を含む。すなわち、本明細書において使用されるものとしては、「部分コピー」は、冗長情報としてビットストリームに組み込まれており、出力信号を完全に合成するために後に使用され得る（元の）オーディオ内容の低ビットレート表現ではない。代わりに、本発明の概念は、何らかのパラメータデータ、すなわち、上記パラメータデータが利用可能である場合に、復号器側で隠蔽を増強する前述したパラメータを組み込むことである。この情報を使用するとき、復号器は、隠蔽モードでなくてはならない。したがって、復号器は、欠陥のある、すなわち、損失、破損または遅延したフレームの「部分コピー」（デジッタバッファ遅延に起因して利用可能である可能性がある）を復号し、復号器側における隠蔽ルーチンを支援するために、上記復号パラメータを使用する。したがって、１つまたは複数のパラメータのみを含む部分コピーを符号化するために必要とされ得るサイズは、プライマリフレーム全体の内容を（たとえば、低減したビットレートで）冗長符号化することによって冗長コピーを符号化するために必要とされるサイズと比較したときに低減することができ、一方で、一般的に、部分コピーを符号化するために同じビットレートまたはより高いビットレートを使用することも可能である。しかしながら、本発明の概念、すなわち、エラー隠蔽補助パラメータによる隠蔽の増強によって、それぞれのプライマリパラメータの低ビットレートバージョンの従来の復号と比較してより良好な品質がもたらされる。

【0025】

一実施形態において、符号化器は、いくらかの時間だけパラメータを遅延させ、後の時点において符号化および送信されるパケット内にパラメータを組み込むように構成することができる。すなわち、符号化器は、最初に、第１のパケット内でプライマリフレームを送信する。特定の時間遅延をおいて、符号化器はその後、第１のパケットよりも後に送信される別のパケット内で「部分コピー」を送信する。符号化器は、依然としてパラメータを量子化し、ただし、それらを後のパケット内でビットストリームに追加する。したがって、たとえプライマリフレームが利用不可能であるか、または、欠陥がある、たとえば、損失、破損または遅延しているときであっても、その内容は、後に送信されており、それゆえ復号器において利用可能であり得るパラメータの支援による隠蔽によって、依然として復号器側で正確に再構築する（または、少なくとも、深刻なアーティファクトなしに近似する）ことができる。

【0026】

一実施形態において、符号化器は、プライマリフレームビットレートを低減するように構成されてもよく、プライマリフレームビットレート低減および部分コピーフレームコード化メカニズムはともに、一定の合計ビットレート内に含まれるべきプライマリフレームと部分コピーフレームとの間でビットレート配分を決定する。したがって、符号化器は、プライマリフレームおよび部分コピーフレームを送信するときに一定の合計ビットレートをもたらすと同時に、知覚的影響を低くして良好なオーディオ品質を提供する。

【0027】

一実施形態において、符号化器は、発話様内容タイプおよび一般オーディオ内容タイプのうちの一方のプライマリフレームを、発話様内容タイプおよび一般オーディオ内容タイプのうちの他方の部分コピーと組み合わせて生成するように構成されてもよい。したがって、符号化器は、複数の異なるタイプのオーディオ内容を互いに別個にまたは組み合わせて取り扱うことができるため、多用途である。したがって、これは、符号化器が、たとえば、ＡＣＥＬＰプライマリフレームをＴＣＸ部分冗長コピーと、または、その逆に組み合わせるように適合されるため、特に有用である。

【0028】

一実施形態において、符号化器は、ＴＣＸコード化方式を使用するコーデックの一部分であってもよい。この実施形態によれば、符号化器は、一般オーディオ内容、音楽、背景雑音などを効率的に符号化するためにＴＣＸコード化を使用することが好ましい。符号化器は、部分冗長フレームが、たとえば、符号化スペクトル値を一切含み得ず、それゆえ、それ自体では欠陥のあるフレームを再構築するのに十分であり得ないときに、復号器側でのＴＣＸ隠蔽に使用することができるＴＣＸ特有のパラメータを確実に決定および送信することができる。

【0029】

一実施形態において、符号化器は、フレームがノイズの多いもしくはノイズのようなオーディオ信号を含むか否か、または、フレームが、一定の期間にわたって変化しない鮮鋭なスペクトルラインを有するノイズフロアを含むか否かを検出し、この検出に基づいて、パラメータをＴＣＸフレーム内へと組み込むように構成することができる。したがって、現在の信号特性に関する決定を、隠蔽を増強するために、それらの信号の特定のパラメータが符号化され、復号器に送信されるように、符号化器側ですでに行うことができる。

【0030】

一実施形態において、パラメータは、ＩＳＦまたはＬＳＦパラメータ、特に、予測コード化ＩＳＦまたはＬＳＦパラメータを含んでもよい。ＩＳＦまたはＬＳＦパラメータ表現は、ＬＰＣパラメータの量子化およびコード化のために使用される。ＴＣＸコード化方式において、ＬＰＣは、マスキング閾値を表現するために使用される。これは重要なパラメータであり、フレーム損失が発生した場合に、復号器側で正確に利用可能にするために非常に有用である。特に、ＩＳＦ／ＬＳＦが予測コード化される場合、この情報を隠蔽中に利用可能にすることによって、復号器側の予測器状態が正確なままになり、すなわち、符号化器に同期し、これによって利用不可能なプライマリフレームの迅速な回復がもたらされるため、隠蔽品質が改善される。

【0031】

一実施形態において、パラメータは、信号分類パラメータを含んでもよい。信号分類は、以下の内容タイプ、すなわち、ＵＮＶＯＩＣＥＤ（無声）、ＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）、ＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（有声遷移）、ＶＯＩＣＥＤ（有声）およびＯＮＳＥＴ（オンセット）をシグナリングするために使用される。一般的に、このタイプの分類は、発話コード化、および、トーン／予測成分が信号中に存在するか、または、トーン／予測成分が変化しているかの指示において使用される。隠蔽中にこの情報を復号器側で利用可能にすることによって、信号の予測可能性を判定するのを助けることができ、したがって、ＬＰＣパラメータの振幅フェードアウト速度、ＬＰＣパラメータの補間速度を調整するのを助けることができる。

【0032】

一実施形態において、パラメータは、ＴＣＸグローバルゲインまたはＴＣＸグローバルレベルを含んでもよい。グローバルゲインは、隠蔽されるフレームのエネルギーを、利用可能である場合に正確なレベル（符号化器によって決定されるレベル）に容易に設定するために送信され得る。

【0033】

一実施形態において、パラメータは、ウィンドウ情報およびスペクトルピーク位置のうちの少なくとも一方を含んでもよい。この情報を符号化器側ですでに利用可能にすることは、それらのパラメータを隠蔽のために復号器に選択的に送信するのに有用である。

【0034】

一実施形態において、符号化器は、切り替えコーデックの一部分であってもよく、切り替えコーデックは、少なくとも２つのコアコード化方式から構成され、第１のコアコード化方式はＡＣＥＬＰを使用し、第２のコアコード化方式はＴＣＸを使用する。たとえば、符号化器は、発話様オーディオ内容をコード化するためにＡＣＥＬＰを使用し、一般オーディオ内容をコード化するためにＴＣＸを使用する。したがって、オーディオ内容を符号化するためにいくつかのコード化方式を使用することによって、符号化器が多用途になる。さらに、符号化器は、信号ごとに信号特有のコード化方式を使用することによって、良好な結果をもたらす。

【0035】

一実施形態において、符号化器は、ＡＣＥＬＰフレームの後に最初のＴＣＸフレームがあるときに、切り替え後にＴＣＸフレームの先頭に「部分コピー」を置かないように構成されてもよい。たとえば、隠蔽を増強するパラメータを提供することは、この事例においては選択的に省略されてもよい。最初のＴＣＸフレームが損失した場合、ＴＣＸモードにおいて隠蔽することは可能ではない。したがって、代わりにＡＣＥＬＰ隠蔽が使用される。この事例において、ＴＣＸ部分コピーは、単独ではフレームを完全に合成するには十分でなく、復号器が、隠蔽モードである必要があり、部分コピーによってサポートされ得る。したがって、隠蔽は、信号内容を外挿するために先行するフレームを必要とするため、この事例においては、ＴＣＸ部分コピーの有用性を低くするＡＣＥＬＰ隠蔽（先行するフレームがＡＣＥＬＰであったため）を使用することが好ましい。符号化器は切り替えを検出し、選択的に、すなわち、切り替え事象に応じて、特定のタイプの部分コピーを提供するように構成されているため、復号器側における隠蔽は、良好な結果をもたらす。

【0036】

一実施形態において、符号化器は、符号化の前に信号を分析し、分析された信号に基づいて、部分コピーの使用をオフにする（たとえば、一切のパラメータを提供しない）か、または、低減された部分コピーを提供する（たとえば、通常の事例よりも少ないパラメータを提供する）ように構成することができる。たとえば、復号器内で追加の部分コピー情報の支援なしに信号が満足に良好に隠蔽され得るが、プライマリフレームの低減のためにクリーンチャネル性能が不満足なものになる場合、部分コピーの使用をオフにすることができ、または、特に低減した部分コピーを、符号化器内で使用することができる。したがって、符号化器は、部分コピーを選択的に提供する、すなわち、利用不可能なプライマリフレームのオーディオ内容を再構築するために復号器側において隠蔽パラメータが必要である場合にのみ、部分コピーを提供するように適合される。さらに、プライマリフレーム送信の帯域幅使用を最適化することができる。

【0037】

一実施形態において、符号化器は、種々の量の情報および／または異なるパラメータセットを使用する複数の部分コピーモードの間で選択するように構成されてもよく、部分コピーモードの選択は、パラメータ（たとえば、符号化されるべき信号を記述するパラメータ）に基づく。したがって、符号化器は、復号器側における特定の利用不可能なプライマリフレームの隠蔽によく適している部分コピーを提供するために、特定の部分コピーモードを選択的に選択することができる。複数の部分コピーモードの間の選択は、ピッチ安定性、ＬＴＰピッチ、ＬＴＰゲイン、信号の時間的傾向、最後の２つのフレームのモード、および、フレームクラスを含む、現在のおよび／または以前のフレームの信号特性のような、様々なパラメータに基づく。

【0038】

一実施形態において、複数の部分コピーモードのうちの少なくとも１つは、周波数領域隠蔽モードであり得る。このモードは、復号器側において、周波数領域信号を含む利用不可能なプライマリフレームの良好な隠蔽結果をもたらすのによく適している特定のパラメータを含む部分コピーを提供するために、符号化器によって選択的に選択することができる。

【0039】

一実施形態において、複数の部分コピーモードのうちの少なくとも２つは、異なる時間領域隠蔽モードであり得る。たとえば、それぞれの時間領域信号が、少なくとも特定の特性を含む場合に、第１の部分コピーモードが選択され得る。そうではなく、時間領域信号がこの特定の特性を含まない場合、または、時間領域信号が異なる信号特性を含む場合、第２の部分コピーモードが選択される。したがって、符号化器は、部分コピー内に含まれるパラメータの信号特定的な選択を可能にする。

【0040】

一実施形態において、フレームが過渡を含む場合、または、フレームのグローバルゲインが以前のフレームのグローバルゲインよりも（たとえば、少なくとも所定量だけ）低い場合、少なくとも２つの時間領域隠蔽モードのうちの１つが選択され得る。したがって、符号化器は、たとえこの欠陥のある、または、利用不可能なプライマリフレームの信号特性が、以前のフレームの信号特性から一定程度まで逸脱している場合であっても、この欠陥のある、または、利用不可能なプライマリフレームの隠蔽を増強するために、復号器側において使用されるパラメータを提供するためのモードを選択的に選択する。

【0041】

一実施形態において、符号化器は、ＬＴＰデータが存在する場合、ＬＴＰラグ遅延を（隠蔽を増強するためのパラメータとして）送信するように構成されてもよい。したがって、符号化器は、復号器側において、長期予測復号のために使用されるパラメータを選択的に提供する。

【0042】

一実施形態において、符号化器は、分類子情報を（隠蔽を増強するためのパラメータとして）送信するように構成することができる。信号分類は、以下の内容タイプ、すなわち、ＵＮＶＯＩＣＥＤ（無声）、ＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）、ＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（有声遷移）、ＶＯＩＣＥＤ（有声）およびＯＮＳＥＴ（オンセット）をシグナリングするために使用される。一般的に、このタイプの分類は、発話コード化、および、トーン／予測成分が信号中に存在するか、または、トーン／予測成分が変化しているかの指示において使用される。隠蔽中にこの情報を復号器側で利用可能にする（符号化器によって送信されるようにする）ことによって、信号の予測可能性を判定するのを助けることができ、したがって、ＬＰＣパラメータの振幅フェードアウト速度、および／または、ＬＰＣパラメータの補間速度を調整するのを助けることができ、（たとえば、ノイズ除去のために）有声もしくは無声励振信号のハイパスもしくはローパスフィルタリングの可能な使用状況を制御することができる。

【0043】

一実施形態において、符号化器は、ＬＰＣパラメータ、ＬＴＰゲイン、ノイズレベルおよびパルス位置のうちの少なくとも１つを（隠蔽を増強するためのパラメータとして）送信するように構成されてもよい。したがって、符号化器は、復号器側において、欠陥のある、または、利用不可能なプライマリフレームの内容を隠蔽するのに（すなわち、隠蔽を増強するために）よく適している特定のパラメータを送信する。

【0044】

別の実施形態は、発話様内容および／または一般オーディオ内容を復号するための復号器を提供し、復号器は、元のフレームが損失、破損または遅延した場合に隠蔽を増強するために、後の時点において送信されるパラメータを使用するように構成される。したがって、受信機（または復号器）において、後の時点において送信されるパラメータは、復号器側においてエラー隠蔽を増強し、したがって、元のフレームが、欠陥がある、たとえば、損失、破損または遅延している場合に信号（たとえば、深刻なアーティファクトを回避する隠蔽信号）を再生成するために使用することができる。したがって、本発明の概念は、所与の帯域幅を効率的に使用しながら、隠蔽を増強するパラメータを使用することによって、利用不可能なオーディオ内容を確実に再構築することができる。

【0045】

たとえば、オーディオ復号器によって隠蔽を増強するために送信される（および、評価される）パラメータは、復号器の隠蔽ユニットによって欠陥のあるフレームの隠蔽に必要とされる最も重要な情報タイプのうちの１つまたは複数を含むことができる。しかしながら、パラメータは一般的に、パラメータ単独では完全なエラー隠蔽を実施するには不十分であるように選択される。むしろ、エラー隠蔽を実際に実施するために、復号器の隠蔽ユニットは一般的に、たとえば、以前に復号されている（または後続して復号される）フレームに基づいて、追加の情報タイプを取得する。したがって、後の時点において送信されるパラメータは隠蔽を増強するに過ぎず、それらは、完全な隠蔽情報を構成するものではない。

【0046】

したがって、後の時点において送信されるパラメータの使用は、たとえば、外挿または補間を使用して、１つまたは複数の以前に復号されている（または後続して復号される）復号フレームに基づいて、隠蔽フレームを提供するために必要とされる追加の情報が、オーディオ復号器自体によって生成される一方で、わずかなビットレート試行のみで、オーディオ復号器において利用可能な最も重要な隠蔽パラメータに関する正確な情報を有することを可能にする。

【0047】

一実施形態において、復号器は、プライマリフレームおよび「部分コピー」を受信するように構成されてもよく、「部分コピー」は、プライマリフレームの低ビットレートバージョンではなく、「部分コピー」は、隠蔽を増強するためのパラメータを含む。「部分コピー」はこれらのパラメータを含むため、これらのパラメータの送信に使用される帯域幅は、プライマリフレームの低ビットレートバージョンを送信するために使用される帯域幅と比較すると、さらにより低い。

【0048】

一実施形態において、パラメータは部分コピー内に含まれ、復号器はデジッタバッファから、現在損失しているフレームの部分コピーが利用可能であれば、受信するように構成される。デジッタバッファは、ジッタ遅延をもたらすことが可能であり、一定数のフレームをバッファリングすることができるため、本発明の概念をさらに改善する。したがって、誤った時間的順序で復号器に到来するフレーム（すなわち、たとえ第１のフレームが第２のフレームよりも早く復号器側に到来すると予測されるとしても、符号化器側において第２のフレームの前に送信されている第１のフレームが、第２のフレームよりも後に復号器側に到来する）は、バッファリングして、正確な時間的順序において提供することができる。これは、フレームが遅延される場合に特に有用である。

【0049】

一実施形態において、復号器は、発話様内容タイプおよび一般オーディオ内容タイプのうちの一方のプライマリフレームを、発話様内容タイプおよび一般オーディオ内容タイプのうちの他方の部分コピーと組み合わせて受信するように構成されてもよい。したがって、復号器は、複数の異なるタイプのオーディオ内容を互いに別個にまたは組み合わせて取り扱うことができるため、多用途である。したがって、復号器は、たとえば、ＡＣＥＬＰプライマリフレームの先頭において輸送されているＴＣＸ部分冗長コピー、または、その逆を抽出するように適合されるため、これは特に有用である。

【0050】

一実施形態において、復号器は、ＴＣＸコーデック方式を使用するコーデックの一部分であってもよい。この実施形態によれば、復号器は、一般オーディオ内容、音楽、背景雑音などを効率的に復号するためにＴＣＸ復号を使用することが好ましい。復号器は、ＴＣＸ隠蔽を増強するための部分コピーから（隠蔽を増強するための）ＴＣＸ特有のパラメータを確実に抽出することができる。

【0051】

一実施形態において、パラメータは、ＩＳＦまたはＬＳＦパラメータ、特に、予測コード化ＩＳＦまたはＬＳＦパラメータを含んでもよい。ＩＳＦまたはＬＳＦパラメータ表現は、ＬＰＣパラメータの量子化およびコード化のために使用される。ＴＣＸコード化方式において、ＬＰＣは、マスキング閾値を表現するために使用される。これは重要なパラメータであり、フレーム損失の場合に復号器側で正確に利用可能にするために非常に有用である。特に、ＩＳＦ／ＬＳＦが予測コード化される場合、この情報を隠蔽中に利用可能にすることによって、復号器側の予測器状態が正確なままになり、すなわち、符号化器に同期し、これによって利用不可能なプライマリフレームの迅速な回復がもたらされるため、隠蔽品質が改善される。

【0052】

【0053】

【0054】

一実施形態において、パラメータは、ウィンドウ情報およびスペクトルピーク位置のうちの少なくとも一方を含んでもよい。この情報を復号器側において利用可能にすることは、隠蔽を選択的に増強するために有用である。

【0055】

一実施形態において、復号器は、切り替えコーデックの一部分であってもよく、切り替えコーデックは、少なくとも２つのコアコード化方式から構成され、第１のコアコード化方式はＡＣＥＬＰを使用し、第２のコアコード化方式はＴＣＸを使用する。たとえば、復号器は、発話様オーディオ内容を復号するためにＡＣＥＬＰ復号方式を使用し、一般オーディオ内容を復号するためにＴＣＸ復号方式を使用する。したがって、異なるオーディオ内容を復号するためにいくつかの復号方式を使用することによって、復号器が多用途になる。

【0056】

一実施形態において、復号器は、ＡＣＥＬＰフレームの後の最初のＴＣＸフレームが復号器にとって利用可能でない場合に、切り替え後にＡＣＥＬＰ隠蔽を使用するように構成されてもよい。第１のＴＣＸフレームに欠陥がある、すなわち、損失、破損または遅延される場合、ＴＣＸモードにおいて隠蔽することは可能でない。したがって、代わりにＡＣＥＬＰ隠蔽が使用される。この事例において、ＴＣＸ部分コピーは、単独ではフレームを完全に合成するには十分でなく、復号器が、隠蔽モードである必要があり、部分コピーによってサポートされ得る。隠蔽は、信号内容を外挿するために先行するフレームを必要とするため、この事例においては、ＴＣＸ部分コピーの有用性を低くするＡＣＥＬＰ隠蔽（先行するフレームがＡＣＥＬＰであったため）を使用することが好ましい。

【0057】

一実施形態において、復号器は、復号器において利用可能な複数のいくつかのモードの間で種々の量の情報および／または異なるパラメータセットを使用する、複数の部分コピーモードまたは隠蔽モードの間で選択するように構成されてもよい。一実施形態において、復号器は、復号器がそれぞれのモードを取得しない場合、すなわち、復号器が、部分コピーからこれを判定することができない、または、他の様態で取り出すことができない場合、隠蔽モードを選択する。そうでない場合、利用可能な部分コピーによって隠蔽モードが指示され、このとき決定を行うのは符号化器である。したがって、復号器は、復号器側において送信されるビットストリームから直接的に、それぞれコード化されている種々の量の情報および／または異なるパラメータセットを使用する。したがって、復号器は、部分コピーモードに基づいてよく適している隠蔽モードを適用することができる。一つのモードにおいてはより多くのサポート（増強）情報（すなわち、パラメータ）があり、別のモードにおいてはより少ない。すなわち、ＣＡモードにおいて、符号化器が適切な隠蔽モードに関して決定し、それに従って部分コピーを準備する。部分コピーが復号器にとって利用可能であり、かつ、隠蔽を増強するためにこれを使用すべきである場合、復号器は、符号化器によって行われる決定に忠実でなければならず、そうでない場合、部分コピー内の情報を適切に利用することができない。部分コピーが利用可能でない場合、または、他の理由から部分コピーが使用されない、かつ／もしくは、使用されるべきではない場合、復号器は、それ自体では隠蔽モードに関し決定するのみである。

【0058】

一実施形態において、複数の部分コピーモードのうちの少なくとも１つは、周波数領域隠蔽モードであり得る。このモードは、周波数領域信号を含む利用不可能なプライマリフレームの良好な隠蔽結果をもたらすのによく適している特定のパラメータを含む部分コピーを使用するために、復号器によって選択的に選択することができる。

【0059】

一実施形態において、複数の部分コピーモードのうちの少なくとも２つは、異なる時間領域隠蔽モードであり得る。たとえば、第１の部分コピーは、少なくとも一定の特性を含むそれぞれの時間領域信号のパラメータを含み、一方で、第２の部分コピーは、異なる信号特性を含むそれぞれの時間領域信号のパラメータを含む。これら２つの時間領域モードのうちの一方は、時間領域信号を含む利用不可能なプライマリフレームの良好な隠蔽結果をもたらすのによく適している特定のパラメータを含む部分コピーを使用するために、復号器によって選択的に選択することができる。

【0060】

一実施形態において、復号器は、対応するプライマリフレーム内にＬＴＰデータが存在する場合、ＬＴＰラグ遅延を受信するように構成することができる。したがって、復号器は、長期予測復号し、それによって、部分コピー内で受信されているＬＴＰパラメータを使用することによって、利用不可能なプライマリフレームの内容を再構築することを可能にされる。

【0061】

一実施形態において、復号器は、分類子情報を受信するように構成することができる。信号分類は、以下の内容タイプ、すなわち、ＵＮＶＯＩＣＥＤ（無声）、ＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）、ＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（有声遷移）、ＶＯＩＣＥＤ（有声）およびＯＮＳＥＴ（オンセット）をシグナリングするために使用される。一般的に、このタイプの分類は、発話コード化、および、トーン／予測成分が信号中に存在するか、または、トーン／予測成分が変化しているかの指示において使用される。隠蔽中にこの情報を復号器側で利用可能にする（符号化器によって送信されるようにする）ことによって、信号の予測可能性を判定するのを助けることができ、したがって、ＬＰＣパラメータの振幅フェードアウト速度、ＬＰＣパラメータの補間速度を調整するのを助けることができ、（たとえば、ノイズ除去のために）有声もしくは無声励振信号のハイパスもしくはローパスフィルタリングの可能な使用状況を制御することができる。

【0062】

一実施形態において、復号器は、ＬＰＣパラメータ、ＬＴＰゲイン、ノイズレベルおよびパルス位置のうちの少なくとも１つを（隠蔽を増強するためのパラメータとして）受信するように構成されてもよい。したがって、復号器は、部分コピー内で受信されているこれらのパラメータのうちの少なくとも１つを使用することによって、利用不可能なプライマリフレームの内容を再構築することを可能にされる。

【0063】

一実施形態において、復号器は、隠蔽モードに応じて２つの異なる係数を用いて、ピッチゲインおよびコードゲインを低減するように構成されてもよい。これは、元の信号がより過渡様であったときはいつでも、長い定常信号を有することを回避する役割を果たす。

【0064】

一実施形態において、ピッチゲインおよびコードゲインを低減するための第１の係数は０．４であり、第２の係数は０．７である。これら２つの係数は、元の信号がより過渡様であったときはいつでも、長い定常信号を有することを回避するために、特に効率的である。

【0065】

一実施形態において、復号器は、以前のプライマリフレームが損失している場合に部分コピーから復号されるピッチを考慮に入れないように構成されてもよく、復号器は、送信されるピッチを使用する代わりに、後続する損失したプライマリフレームの予測されるピッチへと、ピッチを修正、すなわち、調整するように構成されている。したがって、ビットストリーム内で送信されたピッチは、符号化器側でグランドトゥルースに基づいて計算されているが、以前のフレームが損失している場合、以前に損失し、隠蔽されている合成の合成は、実際には符号化器グランドトゥルースに対して異なっている場合があるため、部分コピーから復号されるピッチは、以前のフレームが損失している場合は考慮に入れられるべきではない。そのため、一般的に、複数のフレーム損失の場合には符号化器／復号器の共時性に依拠するという危険を冒さず、送信されるピッチを使用する代わりに、後続する損失したフレームの予測されるピッチへと、ピッチを修正することがより良好である。

【0066】

別の実施形態は、発話様内容および／または一般オーディオ内容を符号化するための方法を生成し、方法は、少なくともいくつかのフレームにおいて、ビットストリーム内にパラメータを組み込むステップを含み、当該パラメータは、元のフレームが損失、破損または遅延した場合に隠蔽を増強する。たとえ、欠陥のある、すなわち、損失、破損または遅延しているフレームに対して標準的な隠蔽メカニズムが使用され得るとしても、フレーム内に組み込まれているパラメータが、この隠蔽を増強するために、本発明の方法によって使用される（また、ビットストリームパラメータは、従来復号器側において導出されているパラメータを置換することができる）。したがって、本発明は、プライマリの低ビットレートバージョンに過ぎない部分コピーを有するのではなく、隠蔽を増強する（ただし、一般的には完全なエラー隠蔽情報を構成しない）パラメータを送信することを提案する。それゆえ、復号器は、現行の技術と比較すると、いくらか修正されたものであり得る。

【0067】

別の実施形態は、発話様内容および／または一般オーディオ内容を復号するための方法を生成し、方法は、元のフレームが損失、破損または遅延した場合に隠蔽を増強するために、後の時点において送信されるパラメータを使用するステップを含む。したがって、受信機では、後の時点において送信されるパラメータを使用して、復号器側においてエラー隠蔽を増強し、元のフレームが、欠陥がある、すなわち、損失、破損または遅延している場合に信号を再生成することができる。したがって、本発明の方法を使用することによって、欠陥がある、破損したまたは利用不可能なオーディオ内容を、冗長なコード化フレーム全体の代わりにパラメータを使用することによって、（少なくとも部分的に）確実に再構築することができる。

【0068】

別の実施形態は、オーディオ内容をコード化するための符号化器を生成し、符号化器は、現在のフレームのプライマリ符号化表現、および、現在のフレームの復号器側エラー隠蔽を増強するための少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するように構成されており、符号化器は、現在のフレーム内に含まれているオーディオ内容の信号特性を表す１つまたは複数のパラメータに基づいて（またはそれに依存して）少なくとも１つの隠蔽パラメータを選択するように構成されている。例として、またそれゆえ限定ではなく、信号特性を表すパラメータは少なくとも、ピッチ安定性、ＬＴＰピッチ、ＬＴＰゲイン、信号の時間的傾向、最後の２つのフレームのモード、および、フレームクラスを含む、現在のおよび以前のフレームの信号特性から選択され得る。これらの信号特性パラメータに基づいて、符号化器は、復号器側におけるエラー隠蔽によく適している１つまたは複数の隠蔽パラメータを選択的に選択する。これらのエラー隠蔽パラメータは、別個に、すなわち、送信されるべき信号のプライマリ符号化表現とは別個に符号化される。したがって、復号器は、たとえその信号のプライマリ符号化表現が損失、破損または遅延している場合であっても、エラー隠蔽を使用することによって、これらのエラー隠蔽パラメータから信号を再構築することができる。したがって、少なくともいくつかのフレーム（またはパケット）において、エラー隠蔽パラメータ（冗長コード化パラメータとしても指定される）がビットストリーム内に組み込まれ、復号器側に送信される。したがって、通常より低いビットレートにおいて符号化され、それゆえ、より低い品質を含み得る、信号全体の「部分コピー」を提供する必要はない。したがって、本発明は、符号器側において（たとえば、信号特性に従って）すでに選択されており、ビットストリーム内に組み込まれている、選択されたエラー隠蔽パラメータによって、欠陥のある、たとえば、損失、破損または遅延しているフレームを隠蔽するための改善された概念を提供する。したがって、本発明は、たとえ送信信号の一部分（たとえば、フレーム）が復号器側における隠蔽によって再構築される場合であっても、送信信号の良好な品質を同時に保持しながら、所与の帯域幅内に留まる。

【0069】

一実施形態において、復号器側エラー隠蔽は、外挿ベースのエラー隠蔽である。したがって、隠蔽ルーチンは、将来の信号特性を推定または予測するために、外挿を使用することができ、これは、欠陥のあるプライマリフレームの隠蔽をさらに助け、支援することができる。

【0070】

一実施形態において、符号化器は、現在のフレームの少なくとも１つのエラー隠蔽パラメータの符号化表現と、将来のフレームのプライマリ符号化表現とを組み合わせて輸送パケットにするように構成されてもよく、それによって、現在のフレームの少なくとも１つのエラー隠蔽パラメータの符号化表現は、現在のフレームのプライマリ符号化表現に対してある時間遅延をもって送信される。すなわち、符号化器は最初に、第１のパケット内でプライマリフレーム（すなわち、フレームのプライマリ符号化表現）を送信する。一定の時間遅延をもって、符号化器はその後、第１のパケットよりも後に送信される別のパケット内で「部分コピー」（すなわち、少なくとも１つのエラー隠蔽パラメータの符号化表現）を送信する。したがって、符号化器は、依然としてパラメータを量子化し、ただし、それらの後のパケット内でビットストリームに追加する。したがって、本発明は、ボイスオーバＩＰ（ＶｏＩＰ）、ボイスオーバＬＴＥ（ＶｏＬＴＥ）などのような、パケットベースのネットワークにおいて特に有用である。フレームのプライマリ符号化表現は復号器側にすでに送信されているものであり得るが、その対応するエラー隠蔽パラメータは、後続する輸送パケットのうちの１つによって送信される。したがって、プライマリ符号化表現を含むパケットが損失、破損または遅延した場合、それでもなお、エラー隠蔽パラメータを含むパケットが、後の時点において送信されているため、復号器側に正しく到来することができる。さらに、これらのエラー隠蔽パラメータと、別のフレームのプライマリ符号化表現とを組み合わせて１つのパケットにすることによって、帯域幅を効率的に使用することができる。

【0071】

一実施形態において、符号化器は、エラー隠蔽パラメータの符号化表現を提供するための少なくとも２つのモードの間で選択的に選択するように構成されてもよい。したがって、符号化器は、異なる信号特性を有し得る異なる信号を取り扱うための異なるモードを提供するため、多用途であり、エラー隠蔽パラメータの異なるセットが、異なるモードにおいて提供され得る。これらの２つのモードは、少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するために使用されるため、これらの少なくとも２つのモードはまた、部分コピーモードとされる。

【0072】

一実施形態において、符号化器の、少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するためのモードの選択は、フレームクラス、ＬＴＰピッチ、ＬＴＰゲイン、および、１つまたは複数の先行するフレームの少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するためのモードのうちの少なくとも１つを含む、１つまたは複数のパラメータに基づき得る。これらのパラメータは、復号器側におけるエラー隠蔽のためのモードに関する決定によく適している。

【0073】

一実施形態において、少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するためのモードのうちの少なくとも１つは、少なくとも１つのエラー隠蔽パラメータの符号化表現が、ＴＣＸＬＴＰラグ遅延および分類子情報のうちの１つまたは複数を含むような、時間領域隠蔽モードであってもよい。たとえば、時間領域隠蔽モードである第１のモードは、少なくとも一定の特性を含む時間領域信号が存在する場合に選択され得る。そうではなく、時間領域信号がこの特定の特性を含まない場合、または、時間領域信号が異なる信号特性を含む場合、第２のモードが選択される。したがって、符号化器は、エラー隠蔽パラメータの信号特定的な選択を可能にする。

【0074】

一実施形態において、少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するためのモードのうちの少なくとも１つは、現在のフレーム内に含まれているオーディオ内容が過渡を含む場合、または、現在のフレーム内に含まれているオーディオ内容のグローバルゲインが先行するフレームのグローバルゲインよりも低い場合に選択される時間領域隠蔽モードであってもよい。したがって、符号化器は、たとえ利用不可能なプライマリフレームの信号特性が、先行するフレームの信号特性から一定程度まで逸脱している場合であっても、この利用不可能なプライマリ符号化表現を隠蔽するために、復号器側において使用されるエラー隠蔽パラメータを提供するためのモードを選択的に選択する。

【0075】

一実施形態において、少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するためのモードのうちの少なくとも１つは、少なくとも１つのエラー隠蔽パラメータの符号化表現が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの１つまたは複数を含むような、周波数領域隠蔽モードであってもよい。このモードは、少なくとも１つのエラー隠蔽パラメータの符号化表現を提供するために、符号化器によって選択的に選択することができ、このパラメータは、復号器側において、周波数領域信号を含む利用不可能なプライマリ符号化表現の良好な隠蔽結果をもたらすのによく適している。

【0076】

一実施形態において、符号化器は、少なくともＴＣＸコード化方式を使用することができる。この実施形態によれば、符号化器は、一般オーディオ内容、音楽、背景雑音などを効率的に符号化するためにＴＣＸコード化を使用することが好ましい。したがって、符号化器は、復号器側においてＴＣＸ隠蔽に使用することができるＴＣＸ特有のパラメータを確実に決定および送信することができる。

【0077】

一実施形態は、オーディオ内容を復号するための復号器を生成し、復号器は、現在のフレームのプライマリ符号化表現、および／または、現在のフレームの復号器側エラー隠蔽を増強するための少なくとも１つのエラー隠蔽パラメータの符号化表現を受信するように構成されており、復号器は、現在のフレームのプライマリ符号化表現が損失、破損または遅延している場合に、少なくとも１つのエラー隠蔽パラメータを使用することによって、現在のフレームのオーディオ内容を少なくとも部分的に再構築するために、エラー隠蔽を使用するように構成されている。一般的に、復号器は、符号化器が、特定の過去のフレームのいかなるサイドデータをも送信しないように決定している場合のいかなるサイドデータ（すなわち、少なくとも１つのエラー隠蔽パラメータ）もない、単一のプライマリフレーム（すなわち、現在のフレームのプライマリ符号化表現）、または、プライマリフレーム（すなわち、現在のフレームのプライマリ符号化表現）および少なくとも１つもしくは複数のエラー隠蔽パラメータのいずれかであり得るビットストリームを受信することが可能である。したがって、復号器は、たとえその信号のプライマリ符号化表現が、欠陥がある、たとえば、損失、破損または遅延している場合であっても、エラー隠蔽を使用することによって、これらの１つまたは複数のエラー隠蔽パラメータを使用して、信号を少なくとも部分的に再構築することができる。したがって、少なくともいくつかのフレームにおいて、エラー隠蔽パラメータ（冗長コード化パラメータ）がビットストリーム内に組み込まれ、復号器側に送信される。したがって、通常より低いビットレートにおいて符号化され、それゆえ、より低い品質を含み得る、信号全体の部分コピーを提供する必要はない。したがって、本発明は、１つまたは複数の以前に復号されているフレームに基づいて取得される情報を使用する隠蔽が、受信されるエラー隠蔽パラメータを使用して「ガイド」（たとえば、増強または改善）されるときに、符号化器側においてすでに選択されており、ビットストリーム内に組み込まれて、復号器側に送信される、選択されるエラー隠蔽パラメータを使用することによって、欠陥のある、たとえば、損失、破損または遅延しているフレームを隠蔽するための改善された概念を提供する。したがって、本発明の概念は、たとえ信号が復号器側における隠蔽によって再構築される場合であっても、復号信号の良好な品質を（エラー隠蔽パラメータを使用してエラー隠蔽を増強することによって）同時に保持しながら、（すべてのエラー隠蔽情報が符号化器から復号器へと送信されることを必要としない、外挿ベースのエラー隠蔽を使用することによって）所与の帯域幅内に留まる。

【0078】

一実施形態において、復号器側エラー隠蔽は、外挿ベースのエラー隠蔽である。したがって、復号器側において提供される隠蔽ルーチンは、将来の信号特性を推定または予測するために、外挿を使用することができ、これは、欠陥のあるプライマリフレームの隠蔽をさらに助け、支援することができる。

【0079】

一実施形態において、復号器は、現在のフレームのプライマリ符号化表現が含まれているパケットとは別個のものであるパケットから、現在のフレームのエラー隠蔽パラメータを抽出するように構成されてもよい。したがって、２つの別個のパケットを利用可能にすることによって、復号器は、現在のフレームのプライマリ符号化表現を含むパケットが損失、破損または遅延した場合に、これらの別個のパケットのうちの１つの中に含まれているエラー隠蔽パラメータを使用することができる。

【0080】

一実施形態において、復号器は、外挿ベースのエラー隠蔽を使用してオーディオ内容を少なくとも部分的に再構築するために、１つまたは複数のエラー隠蔽パラメータの異なる符号化表現を使用する少なくとも２つのエラー隠蔽モードの間で選択的に選択するように構成されてもよい。復号器は、部分コピーから（すなわち、少なくとも１つのエラー隠蔽パラメータの符号化表現から）復号器がそれぞれのモードを取得しない場合、すなわち、復号器がそれぞれのモードを決定または他の様態で取り出すことができない場合、少なくとも２つのエラー隠蔽モードのうちの１つを選択する。そうでない場合、隠蔽モードは、利用可能な部分コピーによって、すなわち、少なくとも１つのエラー隠蔽パラメータの符号化表現によって指示される。この場合、符号化器がすでに選択を行っており、一方で復号器は、選択されるもの少なくとも２つのモードのうちの１つを使用する。すなわち、ＣＡモードにでは、符号化器が適切な隠蔽モードを決定し、それに従って部分コピーを準備する。部分コピーが復号器にとって利用可能であり、かつ、隠蔽を増強するためにこれを使用されるべきである場合、復号器は、符号化器によって行われる決定に忠実でなければならず、そうでない場合、部分コピー内の情報を適切に利用することができない。部分コピーが利用可能でない場合、または、他の理由から部分コピーが使用されない、かつ／もしくは、使用されるべきではない場合、復号器は、それ自体では隠蔽モードに関し決定するのみである。したがって、復号器は、１つまたは複数のエラー隠蔽パラメータの信号特定的な復号、および、増強されたエラー隠蔽を可能にする。

【0081】

一実施形態において、１つまたは複数のエラー隠蔽パラメータの異なる符号化表現を使用するエラー隠蔽モードのうちの少なくとも１つは、少なくとも１つのエラー隠蔽パラメータの符号化表現が、ＴＣＸＬＴＰラグ遅延および分類子情報のうちの少なくとも１つを含む、時間領域隠蔽モードであってもよい。たとえば、時間領域隠蔽モードである第１のモードは、少なくとも一定の特性を含む時間領域信号が存在する場合に選択され得る。そうではなく、時間領域信号がこの特定の特性を含まない場合、または、時間領域信号が異なる信号特性を含む場合、第２のモードが選択される。したがって、符号化器は、復号器がこの符号化器の選択に従い得るときに、エラー隠蔽パラメータの信号特定的な選択を可能にすることができる。

【0082】

一実施形態において、１つまたは複数のエラー隠蔽パラメータの異なる符号化表現を使用する少なくとも２つのエラー隠蔽モードのうちの少なくとも１つは、少なくとも１つのエラー隠蔽パラメータの符号化表現が、ＬＳＦパラメータ、ＴＣＸグローバルゲインおよび分類子情報のうちの少なくとも１つを含む、周波数領域隠蔽モードであってもよい。このモードは、周波数領域信号を含む利用不可能なプライマリ符号化表現の良好な隠蔽結果をもたらすために、復号器によって選択的に選択することができる。

【0083】

一実施形態において、復号器は、少なくともＴＣＸコード化方式を使用することができる。この実施形態によれば、復号器は、一般オーディオ内容、音楽、背景雑音などを効率的に復号するためにＴＣＸ復号を使用することが好ましい。したがって、復号器は、プライマリ符号化表現が損失、破損または遅延している場合に、ＴＣＸ信号を再構築するためにＴＣＸ特定的なエラー隠蔽パラメータを使用することができる。

【0084】

一実施形態は、エラー隠蔽のための装置を生成し、装置は、損失したフレームに対して標準的な隠蔽メカニズムを実施し、隠蔽を増強するために、送信可能なパラメータを使用するように構成されている。したがって、本発明は、特定のパラメータを使用することによって、標準的な隠蔽メカニズムを改善する。

【0085】

一実施形態は、エラー隠蔽のための装置を生成し、装置は、プライマリの低ビットレートバージョンに過ぎない部分コピーを有するのではなく、隠蔽を増強するための複数の重要なパラメータから構成されている部分コピーを有するように構成されている。したがって、帯域幅容量を効率的に使用することができる。

【0086】

一実施形態は、将来のフレームのいずれかにおいて利用可能である場合に、現在の損失したフレームの部分冗長コピーを提供するためのデジッタバッファを備える受信機を有する、エラー隠蔽のための装置を生成し、装置は、部分冗長情報ビットストリームを読み出し、対応するパラメータを更新するように構成されている。したがって、現在のフレームが損失、破損または遅延した場合、本発明の装置は、フレームを再構築するために、後の時点において送信されている、すなわち、将来のフレームを有する部分冗長コピーを使用することができる。

【0087】

一実施形態は、切り替えコード化器または復号器を生成する。ここで、２つ以上のコアコード化方式があり、たとえば、１つのコアコード化方式は、発話様内容をコード化するためにＡＣＥＬＰを使用し、第２のコアコード化方式は、一般オーディオ内容をコード化するためにＴＣＸを使用する。ＡＣＥＬＰフレームは部分冗長コピーコード化を使用して処理され、ＴＣＸフレームは異なる手法を使用して処理される。コアコード化器切り替えに近いフレームにおいて、２つの特別な事例が発生し得る。すなわち、将来のＴＣＸフレームから生成される部分コピーが先頭にあるＡＣＥＬＰプライマリフレーム、もしくは、将来のＡＣＥＬＰフレームから生成される部分コピーが先頭にあるＴＣＸプライマリフレームが発生し得、これらの事例について、両方のコアコード化器は、一定のビットレートを保証するために、必要とされるフレームの合計サイズを侵害することなく、他方のコード化器タイプからの部分コピーと組み合わせて、プライマリフレームを生成するように構成可能であり、または、ＡＣＥＬＰフレームの後に最初のＴＣＸフレームがあり、ここで、このフレームが損失し、したがって、復号器にとって利用可能でない場合に、提案されている技法は、別のフレームの先頭において輸送されている部分コピー情報を使用してフレームをＴＣＸ隠蔽する。隠蔽は、信号内容を外挿するために先行するフレームを必要とし、ＡＣＥＬＰ隠蔽が使用され（以前のフレームがＡＣＥＬＰであったため）、これは切り替え後にＴＣＸフレームの先頭に部分コピーを置かないために、符号化器においてすでに決定されており、または、信号適応的部分コピー選択が行われ、部分コピーの使用が好ましいか否かを判定するために符号化の前に信号が分析され、復号器内で信号が追加の部分コピー情報の助けなしに良好に隠蔽され得るが、プライマリフレームの低減のためにクリーンチャネル性能が不満足なものである場合、部分コピー使用がオフにされるか、または、特に低減された部分コピーが、符号化器内で使用される。したがって、本発明のコード化器または復号器は、異なるコード化方式の組み合わせを可能にするため、多用途である。

【0088】

一実施形態は、変換領域コード化器または復号器を生成し、少なくともいくつかのフレームにおいて、冗長コード化パラメータがビットストリーム内に組み込まれ、復号器側に送信される符号化／復号方式が使用され、または、冗長情報がいくらかの時間だけ遅延され、後の時点において符号化および送信されるパケット内に組み込まれ、それによって、情報は、復号器がすでに将来のフレームを利用可能にしており、元のフレームがさらにより損失、破損または遅延している場合に、使用することができる。したがって、ビットストリーム内で冗長コード化パラメータを提供することによって、所与の帯域幅を効率的に使用することができる。

【0089】

変換領域コード化器または復号器は、前述のように、ＩＳＦ／ＬＳＦパラメータを含む冗長情報を使用することができる。ＩＳＦ／ＬＳＦパラメータ表現は、ＬＣＰパラメータの量子化およびコード化に使用される。ＴＣＸでは、ＬＰＣは、マスキング閾値を表現するために使用される。これは必須のパラメータであり、フレーム損失が発生した場合に復号器側で正確に利用可能にするために非常に有用である。特に、ＩＳＦ／ＬＳＦが予測的にコード化された場合、この情報を隠蔽中に利用可能にすることによって、復号器側の予測器状態が（符号化器に同期して）正確に維持され、これによって損失後の回復が非常に迅速になるため、隠蔽品質が大幅に改善する。信号分類は、以下の内容タイプ、すなわち、ＵＮＶＯＩＣＥＤ（無声）、ＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）、ＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（有声遷移）、ＶＯＩＣＥＤ（有声）およびＯＮＳＥＴ（オンセット）をシグナリングするために使用される。一般的に、この種の分類は、発話コード化、および、トーン／予測成分が信号中に存在するか、または、トーン／予測成分が変化しているかの指示において使用される。この情報を隠蔽中に復号器側で利用可能にすることによって、信号の予測可能性を判定することを助けることができ、したがって、ＬＰＣパラメータの振幅フェードアウト速度、ＬＰＣパラメータの補間速度を調整することを助けることができる。ＴＣＸグローバルゲイン／レベルについて、グローバルゲインは、利用可能である場合に隠蔽フレームのエネルギーを正確なレベル（符号化器によって決定されるレベル）に容易に設定するために送信され得る。重なり長のようなウィンドウ情報、または、トーン隠蔽を助けるためのスペクトルピーク位置。

【0090】

「冗長」、「冗長コピー」、「部分冗長コピー」という用語、および「冗長」と言う用語を含む表現の他の組み合わせは、「部分」情報を提供する意味において使用されてもよい。部分情報は、プライマリ符号化フレームの、すなわち、符号化オーディオ信号の冗長な、可能性として低ビットレートの表現を含まない。代わりに、部分情報は、プライマリ符号化フレームが、欠陥がある、たとえば、損失、破損または遅延している場合に、対応するプライマリフレーム、すなわち、プライマリ符号化オーディオデータを隠蔽するために、パラメータ、特に、復号器側において利用可能である隠蔽メカニズムを増強する隠蔽補助パラメータを含むかまたは備え得る。すなわち、「冗長」および「部分」と言う用語、ならびに、たとえば、「冗長コピー」および「部分コピー」のようなそれらの派生形は、両方の用語が、前述したパラメータを含むかまたは備え得る情報を表すため、本明細書内で交換可能に使用される場合がある。

【0091】

以後、添付の図面を参照して、本発明の実施形態を詳述する。

【図面の簡単な説明】

【0092】

【図1】本発明の符号化器の概略図である。

【図2】本発明の符号化器の一実施形態の概略図である。

【図3】本発明の符号化器の一実施形態の概略図である。

【図4】本発明の符号化器の一実施形態の概略図である。

【図5】本発明の復号器の一実施形態の概略図である。

【図6】チャネルアウェアモードにおける部分冗長性の概念を示す一実施形態の概略図である。

【図7】チャネルアウェアモードにおける部分冗長性の概念を示す一実施形態の概略図である。

【図8】チャネルアウェア符号化器フレームワークを示す一実施形態の概略図である。

【図9】チャネルアウェア復号器フレームワークを示す一実施形態の概略図である。

【図10】広帯域ＩＴＵ−ＴＰ．８００ＡＣＲＭＯＳテスト結果を表す図である。

【図11】超広帯域ＩＴＵ−ＴＰ．８００ＤＣＲＭＯＳテスト結果を表す図である。

【発明を実施するための形態】

【0093】

図１は、本発明の符号化器１を示す。符号化器１は、オーディオ内容２を符号化するように構成されている。特に、符号化器１は、発話様内容および／または一般オーディオ内容を符号化するように構成されている。それぞれの符号化オーディオ内容３は、少なくともフレーム４において、ビットストリーム５内へと組み込まれる。

【0094】

符号化器１は、少なくともいくつかのフレーム７において、パラメータ６をビットストリーム５内に組み込むようにさらに構成されている。これらのパラメータ６は、元のフレーム４が損失、破損または遅延した場合に、隠蔽を増強するために使用される。

【0095】

ビットストリーム５は、復号器を備える受信機に送信される。

【0096】

図２に示すように、符号化器１は、プライマリフレーム４ｂおよび部分コピー８ｂを生成するように構成されている。しかしながら、部分コピー８ｂは、プライマリフレーム４ｂの単なる低ビットレートバージョンではない。代わりに、部分コピー８ｂは、復号器側において隠蔽を増強するパラメータ６を含むが、他方において、欠陥のある、たとえば、損失、破損または遅延したプライマリフレームのオーディオ内容を再構築するための完全な情報を含むものではない。すなわち、部分コピーは、復号器側エラー隠蔽を増強するための１つまたは複数のパラメータを含むが、エラー隠蔽に必要とされるすべての情報を含むわけではない。

【0097】

符号化器１は、いくらかの時間だけパラメータ６を遅延させ、プライマリフレーム４ｂを含むパケットよりも後の時点において符号化および送信されるパケット９内にパラメータ６を組み込むように構成されている。

【0098】

符号化器１は、１つまたは複数のプライマリフレーム４ｂ、４ｃおよび１つまたは複数の部分コピー８ａ、８ｂを生成することができる。たとえば、オーディオ内容２の少なくとも一定の部分が符号化され、プライマリフレーム４ｂ内へと組み込まれる。オーディオ内容２の同じ部分が、符号化器１によって、特定の信号特性に関して分析される。それに基づいて、符号化器１は、復号器側での隠蔽を増強する１つまたは複数のパラメータ６の選択を決定する。これらのパラメータ６は、対応する「部分コピー」８ｂ内へと組み込まれる。

【0099】

すなわち、プライマリフレーム４ｂは、オーディオ内容２の少なくとも一部分の符号化表現を含む。対応する部分コピー８ｂは、プライマリフレーム４ｂが損失、破損または遅延した場合に、オーディオ内容２の符号化表現を再構築するために、復号器側におけるエラー隠蔽によって使用される１つまたは複数のパラメータ６を含む。

【0100】

プライマリコピー４ｂは、部分コピー８ａとともにパケット化されて輸送パケット９になり、部分コピー８ａは、すでに時間的に先行して送信されているプライマリフレーム４ａ内で符号化されているオーディオ内容の部分コピーである。したがって、符号化器１は、パラメータ６をいくらかの時間だけ遅延させている。図２からさらに見てとれるように、部分コピー８ａに後続する部分コピー８ｂ（プライマリフレーム４ｂに属する）は、プライマリフレーム４ｃとともに後の輸送パケット内にパケット化される。プライマリフレーム４ｃと４ｂとの間に１つまたは複数のさらなるプライマリフレームがある場合もある。

【0101】

本明細書に記載の概念が、少なくともいくつかのフレーム８ａ、８ｂにおいて、冗長なコード化パラメータ６がビットストリーム５内に組み込まれ、復号器側に送信される符号化／復号方式を使用することが、重要な特徴である。冗長情報（パラメータ６）はいくらかの時間だけ遅延され、後の時点において符号化および送信されるパケット９内に組み込まれ、それによって、情報は、復号器がすでに将来のフレーム４ｂ、８ａを利用可能にしており、ただし、元のフレーム４ａがさらにより損失、破損または遅延している場合に、使用することができる。

【0102】

ビットストリーム５は、たとえば、一定の合計ビットレートを含むことができる。符号化器１は、一定の合計ビットレートと比較したときに、プライマリフレームビットレート、すなわち、プライマリフレーム４ｂ、４ｃを符号化するために必要とされるビットレートを低減するように構成されてもよい。プライマリフレーム４ｂ、４ｃのビットレート低減、および、部分冗長フレームコード化メカニズムはともに、ビットストリーム５の一定の合計ビットレート内に含まれるべきプライマリフレームおよび冗長フレーム（部分コピー）４ｂ、４ｃ、８ａ、８ｂの間のビットレート配分を決定する。したがって、符号化器１は、プライマリフレーム４ｂおよび部分コピー８ａを含むパケット９を提供するように構成されており、パケット９のサイズ、すなわち、ビットレートは、一定の合計ビットレート以下である。

【0103】

すなわち、プライマリフレームのビットレート低減、および、部分冗長フレームコード化メカニズムはともに、一定の合計ビットレート内に含まれるべきプライマリフレームおよび冗長フレーム４ｂ、４ｃ、８ａ、８ｂの間のビットレート配分を決定する。（プライマリフレームに加えて）部分コピーパラメータ８ａを保持するフレーム４ｂの全体的なビットレートは増加しない。

【0104】

ＴＣＸコード化方式

【0105】

一実施形態によれば、符号化器１は、ＴＣＸコード化方式を使用するコーデックの一部分である。本発明の符号化器１は、好ましくは一般オーディオ内容をコード化するためにＴＣＸを使用する。ＴＣＸの事例において、部分コピー８ａ、８ｂは、いくつかの補助パラメータ６を送信することによって、復号器側におけるエラー隠蔽のフレーム損失アルゴリズムを増強するために使用される。

【0106】

変換領域コーデックを使用するとき、ＴＣＸフレーム４ｂ、４ｃへの冗長情報８ａ、８ｂの組み込みは、以下の場合に選択され得る。

【0107】

・フレームが、ノイズの非常に多いオーディオ信号を含む。これは、低い自己相関測度によって、または、ＵＮＶＯＩＣＥＤ（無声）またはＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）であるフレーム分類子出力によって示され得る。ＵＮＶＯＩＣＥＤまたはＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ分類は、低い予測ゲインを示す。

【0108】

・フレームが、より長い期間にわたって変化しない鮮鋭なスペクトルラインを有するノイズフロアを含む。これは、ＴＣＸスペクトル（パワースペクトルまたは実スペクトル）における極大値を探索し、その結果を、以前のフレームのピーク検出の結果と比較することである、ピーク検出アルゴリズムによって検出することができる。ピークが動いていない場合、トーン隠蔽と呼ばれる位相外挿器を有するスペクトルの後処理によってノイズスペクトルを隠蔽した後に容易に隠蔽することができる定常トーンがある可能性がある。

【0109】

・ＬＴＰ情報が存在し、ラグ遅延が実際のおよび過去のフレームトーン隠蔽にわたって安定している場合、復号器において［６］が適用されるべきである。
冗長情報（パラメータ６）は以下のようなものであり得る

【0110】

・ＩＳＦ／ＬＳＦパラメータ：
ＩＳＦ／ＬＳＦパラメータ表現は、ＬＰＣパラメータの量子化およびコード化のために使用される。ＴＣＸにおいて、ＬＰＣは、マスキング閾値を表現するために使用される。これは重要なパラメータであり、フレーム損失の場合に復号器側で正確に利用可能にするために非常に有用である。特に、ＩＳＦ／ＬＳＦが予測コード化される場合、この情報を隠蔽中に利用可能にすることによって、復号器側の予測器状態が正確な（符号化器に同期した）ままになり、これによって損失後の迅速な回復がもたらされるため、隠蔽品質が大幅に改善される。

【0111】

・信号分類：
信号分類は、以下の内容タイプ、すなわち、ＵＮＶＯＩＣＥＤ（無声）、ＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）、ＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（有声遷移）、ＶＯＩＣＥＤ（有声）およびＯＮＳＥＴ（オンセット）をシグナリングするために使用される。一般的に、このタイプの分類は、発話コード化、および、トーン／予測成分が信号中に存在するか、または、トーン／予測成分が変化しているかの指示において使用される。隠蔽中にこの情報を復号器側で利用可能にすることによって、信号の予測可能性を判定するのを助けることができ、したがって、ＬＰＣパラメータの振幅フェードアウト速度、ＬＰＣパラメータの補間速度を調整するのを助けることができる。

【0112】

・ＴＣＸグローバルゲイン／レベル：
グローバルゲインは、隠蔽されるフレームのエネルギーを、利用可能である場合に正確なレベル（符号化器によって決定されるレベル）に容易に設定するために送信され得る。

【0113】

・重なり長のようなウィンドウ情報。

【0114】

・トーン隠蔽を助けるためのスペクトルピーク位置。

【0115】

符号化器１において、周波数領域部分コピーについて、信号２がオンセットを含むか否かがチェックされる特別な事例がある。実際のフレーム４ｃのゲイン（量子化され得る）が、以前のフレーム４ｂのゲインの一定の係数（たとえば、１．６）倍よりも大きく、かつ、実際のフレーム４ｃと以前のフレーム４ｂとの間の相関が低い場合、限られた（切り詰められた）ゲインのみが送信される。これによって、隠蔽の場合にプレエコーアーティファクトになることが回避される。オンセットの場合、以前のフレーム４ｂは、実際には、実際のフレーム４ｃとは無相関である。したがって、隠蔽が以前のフレーム４ｂのスペクトルビンに基づいて行われる場合、実際のフレーム４ｃに対して計算されるゲインに依拠することはできない。

【0116】

切り替えコーデック方式（ＴＣＸ−ＡＣＥＬＰ）

【0117】

さらなる実施形態において、符号化器１は、切り替えコーデックの一部分であり、切り替えコーデックは、少なくとも２つのコアコード化方式から構成される。第１のコアコード化方式はＡＣＥＬＰを使用し、第２のコアコード化方式はＴＣＸを使用する。図３を参照すると、符号化器１は、ＡＣＥＬＰコアコード化方式とＴＣＸコアコード化方式との間で切り替えることができるコアコード化器１０を備える。

【0118】

符号化器は、ＡＣＥＬＰコード化内容１３を処理するためのＡＣＥＬＰプロセッサ１１と、ＴＣＸコード化内容１４を処理するためのＴＣＸプロセッサ１２とをさらに備える。ＡＣＥＬＰプロセッサ１１は、プライマリフレーム１５がプライマリコード化され、冗長フレーム１６が冗長コード化される、従来の部分コピー手法を使用する一般的に知られたプロセッサである。冗長フレーム１６は、それらの対応するプライマリフレーム１５の低ビットレートバージョンである。

【0119】

ＴＣＸプロセッサ１２は、本発明の概念に従って符号化されているフレームを処理する。第１の分岐１７において、符号化内容３が、プライマリフレーム４ｂ、４ｃの形態で提供される。第２の分岐１８において、隠蔽を増強するパラメータ６が、図２に示されるような、「部分コピー」８ａ、８ｂの形態で提供される。ＡＣＥＬＰ内容１５、１６およびＴＣＸ内容１７、１８は、前述したようにパケット化されて一連の輸送パケット９になり、ビットストリーム５内で復号器側に送信される。

【0120】

さらに図３を参照しながら、ただし言い換えると、本発明の概念の使用は、切り替えコード化システムにおける、現行の技術の部分冗長コピーベースの手法と組み合わせて説明される。そのようなシステムは、２つ（またはそれ以上）のコアコード化方式から構成されており、１つのコアコード化方式は発話様内容をコード化するためにＡＣＥＬＰを使用し、第２のコアコード化方式は、一般オーディオ内容をコード化するためにＴＣＸを使用する。

【0121】

ＡＣＥＬＰフレーム１５、１６が従来の部分冗長コピーコード化を使用して処理され、ＴＣＸフレーム４ｂ、４ｃ、８ａ、８ｂが本発明の手法を使用して処理されると仮定すると、特別な動作は必要とされず、フレーム４ｂ、４ｃ、８ａ、８ｂ、１５、１６を、基礎となるコアコード化器１０の部分コピー手法を使用して処理することができる２つの主な事例が発生する。

【0122】

・将来のＡＣＥＬＰフレームから生成される部分コピー１６が先頭にあるＡＣＥＬＰプライマリフレーム１５。
・将来のＴＣＸフレーム４ｂから生成される部分コピー８ｂが先頭にあるＴＣＸプライマリフレーム４ｃ。

【0123】

しかしながら、コアコード化器切り替えに近いフレームにおいては、２つの特別な事例が発生し得る。すなわち、

【0124】

・将来のＴＣＸフレームから生成される部分コピー８が先頭にあるＡＣＥＬＰプライマリフレーム１５。
・将来のＡＣＥＬＰフレームから生成される部分コピー１６が先頭にあるＴＣＸプライマリフレーム４。

【0125】

これらの事例について、両方のコアコード化器が、一定のビットレートを保証するために、必要とされるフレームの合計サイズを侵害することなく、他方のコード化器タイプからの部分コピー８、１６と組み合わせて、プライマリフレーム４、１５を生成するように構成可能であることが必要である。

【0126】

したがって、符号化器１は、発話様内容タイプ（ＡＣＥＬＰ）および一般オーディオ内容タイプ（ＴＣＸ）のうちの一方のプライマリフレーム４、１５を、発話様内容タイプおよび一般オーディオ内容タイプのうちの他方の部分コピー８、１６と組み合わせて生成するように構成されている。

【0127】

しかしながら、たとえば、以下のような、部分コピー８、１６のより洗練された選択が適切である、より特定的な事例が存在する。
ＡＣＥＬＰフレーム１５の後の最初のＴＣＸフレーム４

【0128】

このフレーム４が損失し、したがって、復号器にとって利用可能でない場合、本発明の技法は、別の（願わくは損失していない）フレームの先頭において輸送されている部分コピー情報（パラメータ６）を使用してフレーム４をＴＣＸ隠蔽する。しかし、隠蔽は、信号内容を外挿するために先行するフレームを必要とするため、この事例においては、ＴＣＸ部分コピーを不要にするＡＣＥＬＰ隠蔽（先行するフレームがＡＣＥＬＰであったため）を使用することが好ましい。したがって、切り替え後にＴＣＸフレーム４の先頭に部分コピー８を置かないことが、すでに符号化器１において決定される。

【0129】

したがって、符号化器１は、ＡＣＥＬＰフレーム１５の後に最初のＴＣＸフレーム４があるときに、切り替え後にＴＣＸフレーム４の先頭に部分コピー８を置かないように構成されている。

【0130】

信号適応的部分コピー選択

【0131】

信号（オーディオ内容）２は、（パラメータ６を使用した）本発明の部分コピーの使用が好ましいか否かを判定するために、符号化の前に分析され得る。たとえば、復号器内で追加の部分コピー情報、すなわちパラメータ６の支援なしに信号２が良好に隠蔽され得るが、プライマリフレーム４の低減のためにクリーンチャネル性能が損なわれる場合、本発明の部分コピーの使用（すなわち、ビットストリーム５内のパラメータ６の組み込み）を、たとえば、オフにすることができ、または、特に低減した部分コピー８を、符号化器１内で使用することができる。

【0132】

したがって、符号化器１は、符号化の前に信号２を分析し、分析された信号２に基づいて、部分コピーの使用をオフにするか、または、低減した部分コピーを提供するように構成されている。

【0133】

一般的に、符号化器１は、部分コピーモードにおいて構築されている部分冗長コピー８を提供するように構成されている。一実施形態において、符号化器１は、種々の量の情報および／または異なるパラメータセットを使用する複数の部分コピーモードの間で選択するように構成され、部分コピーモードの選択は、様々なパラメータに基づく。
ＴＣＸフレームの部分冗長フレームの構築

【0134】

ＴＣＸ部分冗長フレームタイプの場合、いくつかの補助パラメータ６から構成されている部分コピー８が、フレーム損失隠蔽アルゴリズムを増強するために使用される。一実施形態において、ＲＦ＿ＴＣＸＦＤ、ＲＦ＿ＴＣＸＴＤ１およびＲＦ＿ＴＣＸ＿ＴＤ２である、利用可能な３つの異なる部分コピーモードがある。復号器側におけるＰＬＣモード決定と同様に、ＴＣＸについての部分コピーモードの選択は、最後の２つのフレームのモード、フレームクラス、ＬＴＰピッチおよびゲインのような、様々なパラメータに基づく。モードの選択に使用されるパラメータは、「部分コピー」内に含まれる隠蔽を増強するためのパラメータと等しくてもよく、または、異なっていてもよい。

【0135】

ａ）周波数領域隠蔽（ＲＦ＿ＴＣＸＦＤ）部分冗長フレームタイプ

【0136】

一実施形態によれば、複数の部分コピーモードのうちの少なくとも１つは周波数領域（「ＦＤ」）隠蔽モードであり、その一例を以下に説明する。

【0137】

ＲＦ＿ＴＣＸＦＤ部分コピーモードには、２９ビットが使用される。
・通常の低レートＴＣＸコード化に使用されるものと同じＬＳＦ量子化器（たとえば、ＬＰＣパラメータをコード化するための）に１３ビットが使用される。
・グローバルＴＣＸゲインが７ビットを使用して量子化される。
・分類子情報（たとえば、ＶＯＩＣＥＤ（有声）、ＵＮＶＯＩＣＥＤ（無声）など）が２ビットでコード化される。

【0138】

ｂ）時間領域隠蔽（ＲＦ＿ＴＣＸＴＤ１およびＲＦ＿ＴＣＸＴＤ２）部分冗長フレームタイプ

【0139】

一実施形態によれば、複数の部分コピーモードのうちの少なくとも２つは異なる時間領域（「ＴＤ」）隠蔽モードであり、その一例を以下に説明する。第１の時間領域隠蔽モード、すなわち、部分コピーモードＲＦ＿ＴＣＸＴＤ１は、フレーム４ｃが過渡を含む場合、または、フレーム４ｃのグローバルゲインが、以前のフレーム４ｂのグローバルゲインよりも（はるかに）低い場合に選択される。そうでない場合、第２の時間領域隠蔽モード、すなわち、ＲＦ＿ＴＣＸＴＤ２が選択される。

【0140】

１８ビットのサイドデータ全体が両方のモードに使用される。

【0141】

・ＴＣＸＬＴＰ（長期予測）ラグ遅延をシグナリングするために９ビットが使用される。

【0142】

・分類子情報（たとえば、ＶＯＩＣＥＤ（有声）、ＵＮＶＯＩＣＥＤ（無声）など）をシグナリングするために２ビットが使用される。

【0143】

時間領域隠蔽

【0144】

実施態様に応じて、コーデックは、変換領域コーデックのみ、または、［４］もしくは［５］に記載されている時間領域隠蔽を使用した切り替えコーデック（変換／時間領域）であり得る。当該文献に記載されている、復号器側におけるパケット損失隠蔽モード決定と同様に、本発明による部分コピーモードの選択は、上述したように、たとえば、最後の２つのフレームのモード、フレームクラス、ＬＴＰピッチおよびゲインのような、様々なパラメータに基づく。

【0145】

時間領域モードが選択される場合、以下のパラメータ６を送信することができる。
・ＬＴＰデータが存在する場合、ＬＴＰラグ遅延が送信される。
・分類子情報がシグナリングされる（ＵＮＶＯＩＣＥＤ（無声）、ＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）、ＶＯＩＣＥＤ（有声）、ＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（有声遷移）、ＯＮＳＥＴ（オンセット）…）。信号分類は、以下の内容タイプ、すなわち、ＵＮＶＯＩＣＥＤ（無声）、ＵＮＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（無声遷移）、ＶＯＩＣＥＤＴＲＡＮＳＩＴＩＯＮ（有声遷移）、ＶＯＩＣＥＤ（有声）およびＯＮＳＥＴ（オンセット）をシグナリングするために使用される。一般的に、このタイプの分類は、発話コード化、および、トーン／予測成分が信号中に存在するか、または、トーン／予測成分が変化しているかの指示において使用される。隠蔽中にこの情報を復号器側で利用可能にすることによって、信号の予測可能性を判定するのを助けることができ、したがって、ＬＰＣパラメータの振幅フェードアウト速度、ＬＰＣパラメータの補間速度を調整するのを助けることができ、（たとえば、ノイズ除去のために）有声もしくは無声励振信号のハイパスもしくはローパスフィルタリングの可能な使用状況を制御することができる。

【0146】

任意選択的に、以下のパラメータ６のうちの少なくとも１つも送信することができる。
・帯域幅拡張の場合に全スペクトル範囲を記述するＬＰＣパラメータが通常のコード化に使用される、
・ＬＴＰゲイン、
・ノイズレベル、および
・パルス位置。

【0147】

送信されるパラメータ６のほとんどは、変換領域においてコード化されている実際のフレーム４から直接的に導出され、そのため、さらなる複雑度は発生しない。しかし、複雑度が問題ではない場合、送信され得る変数６を改良するために符号化器１における隠蔽シミュレーションを追加することができる。

【0148】

上述したように、部分コピー８を提供するための複数のモードも使用されてもよい。これによって、種々の量の情報または異なるパラメータセットを送信することが可能である。たとえば、時間領域（ＴＤ）のための２つのモードがある。部分コピーモードＴＤ１は、フレーム４ｃが過渡を含む場合、または、フレーム４ｃのグローバルゲインが、以前のフレーム４ｂのグローバルゲインよりもはるかに低い場合に選択され得る。そうでない場合、ＴＤ２が選択される。その後、復号器において、元の信号２がより過渡様であったときはいつでも、長い定常信号を有することを回避するために、ピッチゲインおよびコードゲインが２つの異なる係数（したがって、０．４および０．７）によって低減される。
複数フレーム損失

【0149】

さらなる特別な事例、すなわち、複数フレーム損失の事例がある。ビットストリーム５内で送信されているピッチは、符号化器側でグランドトゥルースに基づいて計算されているが、以前のフレーム４ａが損失している場合、以前に損失し、隠蔽されている合成の合成は、実際には符号化器グランドトゥルースに対して異なっている場合があるため、部分コピー８ｂから復号されるピッチは、以前のフレーム４ａが損失している場合は考慮に入れられるべきではない。そのため、一般的に、複数のフレーム損失の場合には符号化器／復号器の共時性に依拠するという危険を冒さず、送信されるピッチを使用する代わりに、後続する損失したフレームの予測されるピッチへと、ピッチを修正することがより良好である。

【0150】

符号化器１の本発明の概念を、図４に示すような実施形態を参照して以下に要約することとする。

【0151】

符号化器１は、オーディオ内容２を含む入力信号を受信する。オーディオ内容２は、発話様内容、および／または、音楽、背景雑音などのような一般オーディオ内容であり得る。

【0152】

符号化器１は、コアコード化器１０を備える。コアコード化器１０は、ＡＣＥＬＰのような、発話様内容を符号化するためのコアコード化方式、または、ＴＣＸのような、一般オーディオ内容を符号化するためのコアコード化方式を使用することができる。コアコード化器１０はまた、切り替えコーデックの一部分を形成してもよい。すなわち、コアコード化器１０は、発話様内容コアコード化方式と、一般オーディオ内容コアコード化方式との間で切り替えることができる。特に、コアコード化器１０は、ＡＣＥＬＰとＴＣＸとの間で切り替えることができる。

【0153】

分岐２０において示されている様に、コアコード化器１０は、オーディオ内容２の符号化表現を含むプライマリフレーム４を作成する。

【0154】

符号化器１は、部分冗長フレームプロバイダ２１をさらに備えることができる。分岐３０において示されているように、コアコード化器１０は、１つまたは複数のパラメータ６を部分冗長フレームプロバイダ２１に提供することができる。これらのパラメータ６は、復号器側における隠蔽を増強するパラメータである。

【0155】

付加的にまたは代替的に、符号化器１は、隠蔽パラメータ抽出ユニット２２を備えてもよい。隠蔽パラメータ抽出ユニット２２は、分岐４０において示されているように、オーディオ信号から、すなわち、内容２から直接的に隠蔽パラメータ６を抽出する。隠蔽パラメータ抽出ユニット２２は、抽出されたパラメータ６を、部分冗長フレームプロバイダ２１に提供する。

【0156】

符号化器１は、モード選択器２３をさらに備える。モード選択器２３は、部分冗長コピーモードとも呼ばれる隠蔽モードを選択的に選択する。部分冗長コピーモードに応じて、モード選択器２３は、いずれのパラメータ６が復号器側におけるエラー隠蔽に適しているかを判定する。

【0157】

それゆえ、コアコード化器１０は、信号、すなわち、オーディオ内容２を分析し、分析された信号特性に基づいて、モード選択器２３に提供される特定のパラメータ２４を決定する。これらのパラメータ２４は、モード選択パラメータ２４とも称される。たとえば、モード選択パラメータは、フレームクラス、最後の２つのフレームのモード、ＬＴＰピッチおよびＬＴＰゲインのうちの少なくとも１つであり得る。コアコード化器１０は、これらのモード選択パラメータ２４を、モード選択器２３に提供する。

【0158】

モード選択パラメータ２４に基づいて、モード選択器２３は、部分冗長コピーモードを選択する。モード選択器２３は、３つの異なる部分冗長コピーモードの間で選択的に選択することができる。特に、モード選択器２３は、たとえば、上述したような、周波数領域部分冗長コピーモード、ならびに、２つの異なる時間領域部分冗長コピーモード、たとえば、ＴＤ１およびＴＤ２の間で選択的に選択することができる。

【0159】

分岐５０において示されているように、モード選択情報２５、すなわち、選択されている部分冗長コピーモードに関する情報が、部分冗長フレームプロバイダ２１に提供される。モード選択情報２５に基づいて、部分冗長フレームプロバイダ２１は、復号器側において、エラー隠蔽に使用されることになるパラメータ６を選択的に選択する。それゆえ、部分冗長フレームプロバイダ２１は、上記エラー隠蔽パラメータ６の符号化表現を含む部分冗長フレーム８を生成して提供する。

【0160】

すなわち、部分冗長フレームプロバイダ２１は、信号特定的な部分冗長コピーを提供する。これらの部分冗長コピーは、部分冗長フレーム８において提供され、各部分冗長フレーム８は、少なくとも１つのエラー隠蔽パラメータ６を含む。

【0161】

分岐２０および６０において示されているように、符号化器１は、プライマリフレーム４と部分冗長フレーム８とを組み合わせて発信ビットストリーム５にする。パケットベースのネットワークの場合、プライマリフレーム４と部分冗長フレーム８とはともにパケット化されて輸送パケットになり、輸送パケットは、ビットストリーム内で復号器側に送信される。しかしながら、現在のオーディオフレームのプライマリフレーム４ｃは、以前のフレーム（すなわち、すでに時間的に先行して送信されているフレーム）の（隠蔽を増強するためのパラメータ６のみを含む）部分冗長フレーム８ｂとともにパケット化されてパケット９になることに留意されたい。

【0162】

ビットストリーム５は、一定の合計ビットレートを含む。ビットストリーム５が一定の合計ビットレート以下であることを保証するために、符号化器１は、プライマリフレームと部分冗長フレーム８との組み合わせを含む輸送パケットのビットレートを制御する。付加的にまたは代替的に、符号化器１は、この機能を引き受けるビットレートコントローラ２６を備えてもよい。

【0163】

すなわち、符号化器１は、現在のフレームの少なくとも１つの隠蔽パラメータ６の符号化表現８と、将来のフレーム（現在のフレームよりも後の時点において送信されるフレーム）のプライマリ符号化表現４とを組み合わせるように構成されている。したがって、現在のフレームの少なくとも１つのエラー隠蔽パラメータ６の符号化表現８は、この現在のフレームのプライマリ符号化表現４に対する時間遅延をもって送信される。

【0164】

言い換えれば、また、依然として図４を参照すると、第１のステップにおいて、内容２ａが符号化され、プライマリフレーム４ａとして提供される。その対応する１つまたは複数のエラー隠蔽パラメータ６ａが選択され、部分冗長フレーム８ａとして提供される。その後、第２のステップにおいて、後続する内容２ｂが符号化され、（後続する）プライマリフレーム４ｂとして提供され、その１つまたは複数のエラー隠蔽パラメータ６ｂが選択され、（後続する）部分冗長フレーム８ｂとして提供される。次に、符号化器１は、（現在の内容の）部分冗長フレーム８ａと、（後続する内容の）プライマリフレーム４ｂとを組み合わせて、共通の輸送パケット９ｂにする。したがって、プライマリフレーム４ａを含む先行するパケット９ａが損失、破損または遅延した場合、上述した後続する輸送パケット９ｂ（部分冗長フレーム８ａおよびプライマリフレーム４ｂを含む）内で後の時点において送信されるその部分冗長フレーム８ａが、（欠陥のある）プライマリフレーム４ａ内の符号化表現内に元々含まれていたオーディオ内容の隠蔽のために、復号器側において使用され得る。

【0165】

復号器の説明

【0166】

一実施形態によれば、本発明は、パケット交換、または、パケットベースのネットワークを使用する。この事例において、フレームは、図５に示すように、輸送パケット９ａ、９ｂ内で送信される。輸送パケット９ａは、プライマリフレーム４ｂおよび部分コピー８ａを含む。輸送パケット９ｂは、プライマリフレーム４ｃおよび部分コピー８ｂを含む。

【0167】

すなわち、部分コピー８ａは、現在のフレームの少なくとも１つのエラー隠蔽パラメータ６の符号化表現である。少なくとも１つのエラー隠蔽パラメータ６は、図１〜図４を参照して前述したように、符号化器１によって選択的に選択されている。少なくとも１つのエラー隠蔽パラメータ６は、下記により詳細に説明するように、復号器３１における隠蔽を増強する。

【0168】

復号器３１において、それぞれ送信フレーム４、８または輸送パケット９ａ、９ｂに関して２つの異なる事例があり得る。

【0169】

プライマリ符号化表現の標準的な復号

【0170】

分岐７０によって示されている第１の事例において、送信されている輸送パケット９ａ、９ｂが、正確な順序で、すなわち、それらが符号化器側において送信されたものと同じ順序で受信される。

【0171】

復号器３１は、フレーム内に含まれる、送信されている符号化オーディオ内容２を復号するための復号ユニット３４を備える。特に、復号ユニット３４は、特定のフレームの送信されているプライマリ符号化表現４ｂ、４ｃを復号するように構成されている。それぞれのフレームの符号化方式に応じて、復号器３１は、復号のための同じ方式、すなわち、一般オーディオ内容のためのＴＣＸ復号方式、または、発話様内容のためのＡＣＥＬＰ復号方式を使用することができる。このように、復号器３１は、それぞれ復号されたオーディオ内容３５を出力する。

【0172】

少なくとも１つのエラー隠蔽パラメータの符号化表現を使用した増強エラー隠蔽

【0173】

第２の事例は、分岐８０によって示されているように、フレームのプライマリ符号化表現４に欠陥がある場合、すなわち、（たとえば、輸送パケット９ａが損失、破損、または、復号器のバッファ長よりも長く遅延しているために）プライマリ符号化表現４が損失、破損または遅延している場合に発生し得る。オーディオ内容はこのとき、少なくとも部分的に、エラー隠蔽によって再構築されなければならない。

【0174】

それゆえ、復号器３１は、隠蔽ユニット３６を備える。隠蔽ユニット３６は、従来の隠蔽メカニズムに基づく隠蔽メカニズムを使用することができるが、隠蔽は、符号化器１から受信される１つまたは複数のエラー隠蔽パラメータ６によって増強（または支援）される。本発明の一実施形態によれば、隠蔽ユニット３６は、参照により本明細書に組み込まれる特許出願［４］および［５］に記載されている様な、外挿ベースの隠蔽メカニズムを使用する。

【0175】

上記外挿ベースのエラー隠蔽メカニズムは、フレームのプライマリ符号化表現４に欠陥のある、すなわち、損失、破損または遅延している場合に、このプライマリ符号化表現４において利用可能であったオーディオ内容を再構築するために使用される。本発明の概念は、これらの従来のエラー隠蔽メカニズムを増強するために、少なくとも１つのエラー隠蔽パラメータ６を使用する。

【0176】

これは、図５に示す実施形態を参照してより詳細に説明することとする。復号器３１は通常、輸送パケット９ａおよび輸送パケット９ｂを受信する。輸送パケット９ａは、現在のフレームのプライマリ符号化表現４ｂと、先行するフレーム（図示せず）の少なくとも１つのエラー隠蔽パラメータ６の符号化表現８ａとを含む。輸送パケット９ｂは、現在のフレームの復号器側外挿ベースエラー隠蔽を増強するための、現在のフレームの少なくとも１つのエラー隠蔽パラメータ６の符号化表現８ｂを含む。輸送パケット９ｂは、後続するフレーム、すなわち、現在のフレームに（直接的にまたは１つもしくは複数のフレームを間に挟んで）続くフレームのプライマリ符号化表現４ｃをさらに含む。

【0177】

すなわち、現在のフレームの欠陥のあるオーディオ内容を再構築するための少なくとも１つのエラー隠蔽パラメータ６の符号化表現８ｂは輸送パケット９ｂ内に含まれており、一方で、この現在のフレームのプライマリ符号化表現４ｂは輸送パケット９ａ内に含まれている。

【0178】

たとえば、現在のフレームのプライマリ符号化表現４ｂに欠陥がある、すなわち、損失、破損または遅延していることが復号器３１によって検出された場合、欠陥のあるオーディオ内容は、前述した利用可能なエラー隠蔽メカニズムを使用することによって再構築される。本発明によれば、利用可能なエラー隠蔽メカニズムは、エラー隠蔽中に少なくとも１つのエラー隠蔽パラメータ６を使用することによって増強される。

【0179】

この理由から、復号器３１は、輸送パケット９ｂ内に含まれている符号化表現８ｂから少なくとも１つのエラー隠蔽パラメータ６を抽出する。復号器３１は、抽出されている少なくとも１つのパラメータ６に基づいて、（損失したプライマリ符号化表現のオーディオ内容にいくらか類似していると予測される隠蔽されたオーディオ内容が提供されるという意味において）欠陥のあるオーディオ内容を少なくとも部分的に再構築するための少なくとも２つの隠蔽モードの間で選択的に選択する。特に、復号器３１は、周波数領域隠蔽モードおよび少なくとも１つの時間領域隠蔽モードの間で選択することができる。

【0180】

周波数領域隠蔽（ＲＦ＿ＴＣＸＦＤ）部分冗長フレームタイプ

【0181】

周波数領域隠蔽モードの場合、少なくとも１つのエラー隠蔽パラメータ６の符号化表現８ｂは、ＩＳＦ／ＬＳＦパラメータ、ＴＣＸグローバルゲイン、ＴＣＸグローバルレベル、信号分類子情報、重なり長のようなウィンドウ情報、および、トーン隠蔽を助けるためのスペクトルピーク位置のうちの１つまたは複数を含む。

【0182】

それぞれの抽出された１つまたは複数のパラメータ６は、欠陥のあるオーディオ内容を少なくとも部分的に再構築するために、外挿ベースのエラー隠蔽を増強するために少なくとも１つのパラメータ６を使用するエラー隠蔽ユニット３６に供給される。結果として、復号器３１は、隠蔽されたオーディオ内容３５を出力する。

【0183】

周波数領域隠蔽の一例を使用する、本発明の一実施形態を以下に説明する。
ＲＦ＿ＴＣＸＦＤ部分コピーモードには２９ビットが使用される（すなわち、エラー隠蔽パラメータ６の符号化表現内に２９ビットが含まれており、隠蔽ユニット３６によって使用される）。
・通常の低レートＴＣＸコード化に使用されるものと同じであるＬＳＦ量子化器には１３ビットが使用される。
・グローバルＴＣＸゲインは、７ビットを使用して量子化される。
・分類子情報は、２ビットでコード化される。

【0184】

時間領域隠蔽（ＲＦ＿ＴＣＸＴＤ１およびＲＦ＿ＴＣＸＴＤ２）部分冗長フレームタイプ

【0185】

時間領域隠蔽モードの場合、復号器３１は、欠陥のあるオーディオ内容を少なくとも部分的に再構築するために、少なくとも２つの異なる時間領域隠蔽モードの間で選択的に選択することができる。

【0186】

たとえば、第１のモードＲＦ＿ＴＣＸＴＤ１は、フレームが過渡を含む場合、または、フレームのグローバルゲインが、以前のフレームのグローバルゲインよりもはるかに低い場合に選択される。そうでない場合、第２のモードＲＦ＿ＴＣＸＴＤ２が選択される。

【0187】

時間領域隠蔽モードの場合、少なくとも１つのエラー隠蔽パラメータ６の符号化表現８ｂは、ＬＳＦパラメータ、ＴＣＸＬＴＰラグ遅延、分類子情報、ＬＰＣパラメータ、ＬＴＰゲイン、ノイズレベルおよびパルス位置のうちの１つまたは複数を含む。それぞれの抽出された１つまたは複数のパラメータ６は、欠陥のあるオーディオ内容を少なくとも部分的に再構築（または近似）するために、外挿ベースのエラー隠蔽を増強するために少なくとも１つのパラメータ６を使用するエラー隠蔽ユニット３６に供給される。結果として、復号器３１は、隠蔽されたオーディオ内容３５を出力する。

【0188】

時間領域隠蔽の一例を使用する、本発明の一実施形態を以下に説明する。
全体的に、１８ビットのサイドデータ（すなわち、パラメータ６）が両方のモードに使用される。
・ＴＣＸＬＴＰラグ遅延をシグナリングするためには、９ビットが使用される。
・分類子情報をシグナリングするためには、２ビットが使用される。

【0189】

復号器３１は、上述したように、ＴＣＸフレームを復号および／または隠蔽するためにＴＣＸ復号方式を使用するコーデックの一部分であってもよい。復号器３１はまた、ＡＣＥＬＰフレームを復号および／または隠蔽するためにＡＣＥＬＰコード化方式を使用するコーデックの一部分であってもよい。ＡＣＥＬＰコード化方式の場合、少なくとも１つのエラー隠蔽パラメータ６の符号化表現８ｂは、適応的コードブックパラメータおよび固定コードブックパラメータのうちの１つまたは複数を含んでもよい。

【0190】

本発明によれば、復号器３１において、現在のフレーム４ｂの少なくとも１つのエラー隠蔽パラメータ６の符号化表現のタイプは同一であり、復号およびエラー隠蔽は、１つもしくは複数の適応的コードブックパラメータのみ（たとえば、ＡＣＥＬＰ）、１つもしくは複数の固定コードブックパラメータのみ（たとえば、ＡＣＥＬＰ）、または、１つもしくは複数の適応的コードブックパラメータおよび１つもしくは複数の固定コードブックパラメータ、ＴＣＸエラー隠蔽パラメータ６、またはノイズ励起線形予測パラメータがコード化されているかに基づいて実施される。現在のフレーム４ｂまたは以前のフレーム４ａが、それぞれのフレームの少なくとも１つのエラー隠蔽パラメータ６の符号化表現を使用することによって隠蔽される場合、上述したように出力信号３５を再構築するために、現在のフレーム４ｂの少なくとも１つのエラー隠蔽パラメータ６、例えばＬＳＰパラメータ、適応的コードブックのゲイン、固定コードブックまたはＢＷＥゲイン、が最初に取得され、その後、現在のフレーム４ｂの以前のフレームからの、または、現在のフレーム４ｂの将来のフレームからの復号パラメータ、分類情報またはスペクトル傾斜と組み合わせて処理される。最後に、フレームは、隠蔽方式（たとえば、時間領域隠蔽または周波数領域隠蔽）に基づいて再構築される。ＴＣＸ部分情報が復号されるが、ＡＣＥＬＰ部分コピーモードとは対照的に、復号器３１は隠蔽モードにおいて作動される。上述した従来の外挿ベースの隠蔽との相違点は、ビットストリーム５から利用可能である少なくとも１つのエラー隠蔽パラメータ６が直接的に使用され、上記従来の隠蔽から導出されないことである。

【0191】

第１のＥＶＳ実施形態

【0192】

以下の説明の流れは、いわゆるＥＶＳ（高度音声サービス）コーデックを使用した、符号化器１と復号器３１との間の相乗的相互作用に関する本発明の概念の要約を与える。

【0193】

ＥＶＳ実施形態への前置き

【0194】

ＥＶＳ（高度音声サービス）は、広帯域と超広帯域の両方のオーディオ帯域幅に対して１３．２ｋｂｐｓにおける部分冗長性ベースのエラー耐性チャネルアウェアモードを提供する。フレームの重要性に応じて、１３．２ｋｂｐｓの固定ビット配分を維持しながら、特定のフレームについて部分冗長性が動的に有効化または無効化される。
チャネルアウェアコード化の原理

【0195】

ＶｏＩＰシステムにおいて、パケットは、それらの到来時刻においてランダムなジッタを有して復号器に到来する。パケットはまた、順序を外れて復号器に到来する場合もある。復号器は、周期的ブロックにおいて発話サンプルを出力するために２０ｍｓｅｃごとに発話パケットを供給されることを期待するため、パケット到来時刻におけるジッタを吸収するために、デジッタバッファ［６］が必要とされる。デジッタバッファのサイズが大きくなるほど、到来時刻におけるジッタを吸収するためのその能力はより良好になり、したがって、後に到来するパケットで廃棄されるものがより少なくなる。音声通信もまた、遅延が致命的なシステムであり、それゆえ、双方向の会話を維持することができるように、エンドツーエンド遅延を可能な限り低いままにすることが必須になる。

【0196】

適応的デジッタバッファの設計は、上述したトレードオフを反映する。パケット損失を最小限に抑えるように試行しながら、復号器内のジッタバッファ管理アルゴリズムはまた、バッファリングの結果としてのパケット送達における遅延も追跡する。ジッタバッファ管理アルゴリズムは、遅延と遅れた損失との間のトレードオフを達成するために、デジッタバッファの深度を適切に調整する。

【0197】

図６を参照すると、ＥＶＳチャネルアウェアモードは、エラー隠蔽のために、将来のフレーム４ｂとともに現在のフレーム４ａの部分冗長コピー８ａを使用する。部分冗長性技術は、（ネットワーク損失または到来の遅れのいずれかに起因する）現在のフレーム４ａの損失の場合に、損失からの回復を改善するために、将来のフレーム４ｂからの部分コピー８ａを、ジッタバッファから取り出すことができることを期待して、将来のフレーム４ｂとともに現在のフレーム４ａの部分コピー８ａを送信する。

【0198】

フレームのプライマリコピー４ａの送信時間と、そのフレームの冗長コピー８ａ（将来のフレーム４ｂに対してピギーバックされている）の送信時間との間の時間単位の差は、ＦＥＣオフセットと呼ばれる。任意の所与の時点におけるジッタバッファの深度が少なくともＦＥＣオフセットに等しい場合、現在の時刻においてデジッタバッファ内で将来のフレームが利用可能である可能性が非常に高い。ＦＥＣオフセットは、ネットワーク状態に応じて動的に調整することができる、符号化器における構成可能パラメータである。

【0199】

［７］に等しいＦＥＣオフセットを有するＥＶＳにおける部分冗長性の概念が、図６に示されている。

【0200】

冗長コピー８ａは、復号またはエラー伝播の阻止にとって最も重要であるパラメータのサブセットだけを含む部分コピーに過ぎない。
ＥＶＳチャネルアウェアモードは、（たとえば、単一のＲＴＰペイロード内に複数のパケットを含むことによる）トランスポート層における冗長性の送信とは対照的に、コーデックペイロードの一部分として帯域内で冗長性を送信する。帯域内に冗長性を含むことによって、冗長性の送信が、（たとえば、ネットワークの混雑に対抗するために）チャネルまたはソースのいずれかで制御されることを可能にする。後者の事例において、符号化器は、入力ソース信号の特性を使用して、復号器における高品質再構築のためにいずれのフレームが最も致命的であるかを判定し、それらのフレームのみについて冗長性を選択的に送信することができる。帯域内冗長性のもう１つの利点は、ソース制御を使用して、合計パケットサイズを変更することなく冗長性の付随に対応するために、入力のいずれのフレームが低減したフレームレートにおいて最良にコード化され得るかを判定することができることである。このように、チャネルアウェアモードは、一定ビットレートチャネル（１３．２ｋｂｐｓ）における冗長性を含む。

【0201】

プライマリおよび部分冗長フレームコード化のためのビットレート配分

【0202】

プライマリフレームビットレート低減

【0203】

低減したフレームレートにおいていずれのフレームが最良にコード化され得るかを判定するために、プライマリフレームの圧縮可能性の測度が使用される。ＴＣＸフレームについて、ＷＢおよびＳＷＢに対して９．６ｋｂｐｓ設定が適用される。ＡＣＥＬＰについては、以下が適用される。信号分類アルゴリズムに由来するコード化モード決定が、最初にチェックされる。無声コード化（ＵＣ）または有声コード化（ＶＣ）について分類されている発話フレームが、圧縮に適している。共通コード化（ＧＣ）モードについては、フレーム内の隣接するサブフレーム間の（ピッチラグ遅延における）相関が、圧縮可能性を判定するために使用される。チャネルアウェアモードにおける上側帯域信号（すなわち、ＳＷＢにおいては６．４〜１４．４ｋＨｚ、および、ＷＢにおいては６．４〜８ｋＨｚ）のプライマリフレームコード化は、時間領域帯域幅拡張（ＴＢＥ）を使用する。チャネルアウェアモードにおけるＳＷＢＴＢＥについては、非チャネルアウェアモードフレームワークの縮小版が、プライマリフレームに使用されるビットの低減を達成するために使用される。ＬＳＦ量子化は、チャネルアウェアモードにおいては８ビットベクトル量子化を使用して実施され、一方で、非チャネルアウェアモードにおいては、２１ビットスカラー量子化ベースの手法が使用される。チャネルアウェアモードにおけるＳＷＢＴＢＥプライマリフレームゲインパラメータは、１３．２ｋｂｐｓにおける非チャネルアウェアモードのものと同様に、すなわち、ゲインパラメータについては８ビットで符号化される。チャネルアウェアモードにおけるＷＢＴＢＥは、非チャネルアウェアモードの９．６ｋｂｐｓのＷＢＴＢＥにおいて使用されるものと同様の符号化、すなわち、ＬＳＦについては２ビット、および、ゲインパラメータについては４ビットを使用する。

【0204】

部分冗長フレームコード化

【0205】

部分冗長フレームのサイズは可変であり、入力信号の特性に依存する。同じく致命度測度が、重要な基準である。フレームの損失が受信機における発話品質に大幅な影響を引き起こすとき、フレームは保護のために致命的であると考えられる。致命度はまた、以前のフレームが損失したか否かにも依存する。たとえば、フレームは、以前のフレームも損失している場合に、非致命的から致命的へと移行し得る。コード化器タイプ分類情報、サブフレームピッチラグ遅延、係数Ｍなどのような、プライマリコピーコード化から計算されるパラメータが、フレームの致命度を測定するために使用される。特定のフレームが致命的であるか否かを判定するための閾値は、ネットワーク状態に応じて動的に調整することができる、符号化器における構成可能パラメータである。たとえば、高ＦＥＲ条件下において、より多くのフレームを致命的であるとして分類するように、閾値を調整することが望ましい場合がある。上側帯域信号の部分フレームコード化は、ゲインパラメータの粗い符号化、および、プライマリフレームからのＬＳＦパラメータの補間／外挿に依拠する。（ｎ−ＦＥＣオフセット）番目のフレームのプライマリフレーム符号化の間に推定されるＴＢＥゲインパラメータは、部分コピー情報としてｎ番目のフレーム中に再送信される。部分フレームコード化モード、すなわち、ＧＥＮＥＲＩＣ（共通）またはＶＯＩＣＥＤ（有声）またはＵＮＶＯＩＣＥＤ（無声）に応じて、ゲインフレームの再送信は、異なる量子化分解能およびゲイン平滑化を使用する。

【0206】

以下の節は、種々の部分冗長フレームタイプおよびそれらの構成を説明する。

【0207】

共通および有声コード化モードの部分冗長フレームの構築

【0208】

フレームの冗長バージョンのコード化において、適応的および固定コードブックエネルギーに基づいて係数Ｍが求められる。

【0209】

この式において、Ｅ（ＡＣＢ）は適応的コードブックエネルギーを示し、Ｅ（ＦＣＢ）は、固定コードブックエネルギーを示す。低い値のＭは、現在のフレーム内の情報のほとんどが、固定コードブック寄与分によって搬送されることを示す。そのような場合、部分冗長コピー（ＲＦ＿ＮＯＰＲＥＤ）は、１つまたは複数の固定コードブックパラメータ（ＦＣＢパルスおよびゲイン）のみを使用して構築される。高い値のＭは、現在のフレーム内の情報のほとんどが、適応的コードブック寄与分によって搬送されることを示す。そのような場合、部分冗長コピー（ＲＦ＿ＡＬＬＰＲＥＤ）は、１つまたは複数の適応的コードブックパラメータ（ピッチラグ遅延およびゲイン）のみを使用して構築される。Ｍが中程度の値をとる場合、１つまたは複数の適応的コードブックパラメータおよび１つまたは複数の固定コードブックパラメータがコード化される混合コード化モードが選択される（ＲＦ＿ＧＥＮＰＲＥＤ）。共通および有声コード化モードを使用すると、ＴＢＥゲインフレーム値は一般的に低く、より小さい分散を示す。したがって、ゲイン平滑化を用いる粗いＴＢＥゲインフレーム量子化が使用される。

【0210】

無声コード化モードの部分冗長フレームの構築

【0211】

無声フレームタイプの部分冗長コピーを構築するために、低ビットレートノイズ励起線形予測コード化方式が使用される（ＲＦ＿ＮＥＬＰ）。無声コード化モードにおいて、ＴＢＥゲインフレームはより広いダイナミックレンジを有する。このダイナミックレンジを保持するために、無声コード化モードにおけるＴＢＥゲインフレーム量子化は、プライマリフレームにおいて使用されるものと同様の量子化範囲を使用する。

【0212】

ＴＣＸフレームの部分冗長フレームの構築

【0213】

ＴＣＸ部分冗長フレームタイプの場合、いくつかの補助パラメータから構成されている部分コピーが、フレーム損失隠蔽アルゴリズムを増強するために使用される。ＲＦ＿ＴＣＸＦＤ、ＲＦ＿ＴＣＸＴＤ１およびＲＦ＿ＴＣＸＴＤ２である、利用可能な３つの異なる部分コピーモードがある。復号器側におけるＰＬＣモード決定と同様に、ＴＣＸについての部分コピーモードの選択は、最後の２つのフレームのモード、フレームクラス、ＬＴＰピッチおよびゲインのような、様々なパラメータに基づく。

【0214】

周波数領域隠蔽（ＲＦ＿ＴＣＸＦＤ）部分冗長フレームタイプ

【0215】

ＲＦ＿ＴＣＸＦＤ部分コピーモードには、２９ビットが使用される。

【0216】

・通常の低レートＴＣＸコード化に使用されるものと同じく、ＬＳＦ量子化器には、１３ビットが使用される。
・グローバルＴＣＸゲインは、７ビットを使用して量子化される。
・分類子情報は、２ビットでコード化される。

【0217】

時間領域隠蔽（ＲＦ＿ＴＣＸＴＤ１およびＲＦ＿ＴＣＸＴＤ２）部分冗長フレームタイプ

【0218】

部分コピーモードＲＦ＿ＴＣＸＴＤ１は、フレームが過渡を含む場合、または、フレームのグローバルゲインが、以前のフレームのグローバルゲインよりもはるかに低い場合に選択される。そうでない場合、ＲＦ＿ＴＣＸＴＤ２が選択される。

【0219】

全体的に、１８ビットのサイドデータが両方のモードに使用される。
・ＴＣＸＬＴＰラグ遅延をシグナリングするためには、９ビットが使用される。
・分類子情報をシグナリングするためには、２ビットが使用される。

【0220】

ＲＦ＿ＮＯ＿ＤＡＴＡ部分冗長フレームタイプ

【0221】

これは、部分冗長コピーが送信されず、すべてのビットがプライマリコピーコード化向けに使用される構成をシグナリングするために使用される。
プライマリフレームのビットレート低減、および、部分冗長フレームコード化メカニズムはともに、１３．２ｋｂｐｓペイロード内に含まれるべきプライマリフレームおよび冗長フレームの間のビットレート配分を決定する。

【0222】

復号

【0223】

受信機において、デジッタバッファは、将来のフレームのいずれかにおいて利用可能である場合に、現在の損失したフレームの部分冗長コピーを提供する。存在する場合、この部分冗長情報は、損失したフレームを合成するために使用される。復号において、部分冗長フレームタイプが識別され、１つもしくは複数の適応的コードブックパラメータのみがコード化されているか、１つもしくは複数の固定コードブックパラメータのみがコード化されているか、または、１つもしくは複数の適応的コードブックパラメータおよび１つもしくは複数の固定コードブックパラメータがコード化されているか、ＴＣＸフレーム損失隠蔽補助パラメータがコード化されているか、または、ノイズ励起線形予測パラメータがコード化されているかに基づいて、復号が実施される。現在のフレームまたは以前のフレームが部分冗長フレームである場合、ＬＳＰパラメータ、適応的コードブック、固定コードブックのゲイン、またはＢＷＥゲインのような現在のフレームの復号パラメータが、最初に取得され、その後、現在のフレームの以前のフレーム、または、現在のフレームの将来のフレームからの復号パラメータ、分類情報またはスペクトル傾斜に従って、後処理される。後処理されたパラメータは、出力信号を再構築するために使用される。最後に、コード化方式に基づいてフレームが再構築される。ＴＣＸ部分情報が復号されるが、ＡＣＥＬＰ部分コピーモードとは対照的に、復号器は隠蔽モードにおいて作動される。通常の隠蔽に対する差は、ビットストリームから利用可能なパラメータが直接的に使用され、隠蔽によって導出されないことだけである。

【0224】

チャネルアウェアモード符号化器構成可能パラメータ

【0225】

チャネルアウェアモード符号化器は、受信機に見られるチャネル特性を追跡するようにその動作を適合させるために、以下の構成可能パラメータを使用することができる。これらのパラメータは、ことによると受信機において計算され、受信機によってトリガされるフィードバックメカニズムを介して符号化器に通信され得る。

【0226】

：フレーム（ｎ）のプライマリコピーの送信時間と、将来のフレーム（ｎ＋Ｘ）に対してピギーバックされているそのフレームの冗長コピーの送信時間との間の、時間単位の差は、ＦＥＣオフセットＸと呼ばれる。最適なＦＥＣオフセットは、受信機においてフレーム損失があるときに部分冗長コピーの可用性の確率を最大化する値である。

【0227】

以下の値を有するフレーム消去レート指示子（ｐ）：ＦＥＲレートのＬＯ（ロー）＜５％またはＦＥＲのＨＩ（ハイ）＞５％。このパラメータは、特定のフレームが致命的であるか否かを判定するために使用される閾値を制御する。そのような致命度閾値の調整は、部分コピー送信の頻度を制御するために使用される。ＨＩ設定は、ＬＯ設定と比較してより多くのフレームを、送信することが重要であるとして分類するように、致命度閾値を調整する。

【0228】

これらの符号化器構成可能パラメータは、任意選択であり、デフォルトでｐ＝ＨＩかつ

に設定されることに留意されたい。

【0229】

第２のＥＶＳ実施形態

【0230】

以下の説明の流れは、ボイスオーバＩＰ（ＶｏＩＰ）、ボイスオーバＬＴＥ（ＶｏＬＴＥ）またはボイスオーバＷｉＦｉ（ＶｏＷｉＦｉ）のような、パケット交換ネットワークにおいて使用される本発明の概念の例示的な実施形態を説明する。

【0231】

新規に標準化されている３ＧＰＰＥＶＳ発話コーデックのエラー耐性の高いモードが説明される。ＡＭＲ−ＷＢコーデックおよび他の会話コーデックと比較して、ＥＶＳチャネルアウェアモードは、ボイスオーバＩＰ（ＶｏＩＰ）およびボイスオーバＬＴＥ（ＶｏＬＴＥ）のようなパケット交換ネットワークを介して音声通信において、大幅に改善されたエラー耐性をもたらす。このエラー耐性は、ある形態の帯域内順方向エラー訂正を使用して達成される。ビットレート低減のための候補発話フレームを識別するためにソース制御式コード化技法が使用され、一定のビットレートが維持されるように、先行するフレームの部分コピーを送信するための予備ビットが残される。自己完結型部分コピーは、元のプライマリフレームが損失するか、または、到来が遅いことに起因して廃棄される場合にエラーロバスト性を改善するために、使用される。ＩＴＵ−ＴＰ．８００平均オピニオン評点（ＭＯＳ）テストからの主観評価結果が提供され、これは、チャネル障害下での品質の改善、および、クリーンチャネル性能に対する影響がごくわずかであることを示している。

【0232】

前置き

【0233】

パケット交換ネットワークにおいて、パケットは、スケジューリングおよびルーティング条件の変動を受ける場合があり、結果としてエンドツーエンド遅延が時間変動的になる。遅延ジッタは、一般的にパケットが固定時間間隔をおいて受信されることを期待するほとんどの従来の発話復号器および音声後処理アルゴリズムに従わない。それゆえ、ジッタを除去し、正確な連続的順序においてパケットを復号器に送達するために、受信端末において、デジッタバッファ（ジッタバッファ管理（ＪＢＭ）としても参照される［８］、［１３］）が一般的に使用される。

【0234】

デジッタバッファが長くなるほど、ジッタを除去するその能力はより良好になり、到来が遅いこと（またはバッファアンダーフロー）に起因してパケットを廃棄することなくジッタを許容することができる可能性がより大きくなる。しかしながら、エンドツーエンド遅延は、会話型音声ネットワークにおける通話品質の重要な決定因子であり、ＪＢＭが過剰なバッファリング遅延を加えることなくジッタを吸収することが可能であることは、重要な要件である。したがって、受信機における、ＪＢＭ遅延とジッタによって誘発されるパケット損失との間にはトレードオフが存在する。ＪＢＭ設計は、平均遅延を最小限に維持しながら性能レベルをますます増大することを可能にするように発展している［８］。遅延ジッタとは別に、パケット交換ネットワークの他の主要な特性は、回線交換網上よりもより一般的に見られる、複数の連続的なパケット損失（エラーバースト）の存在である。そのようなバーストは、複数の異なるネットワーク層においてパケットが集約されること、スケジューラ挙動、無線周波数カバレッジが乏しいこと、または、さらには、ＪＢＭの適合が遅いことからもたらされる可能性がある。しかしながら、アンダーフロー防止を改善し、パケット損失隠蔽をより高度化するために、ＶｏＩＰにとって必須の構成要素であるデジッタバッファを利用することができる［８］。そのような技法の１つは、元の情報が受信機において損失するときに使用するために符号化情報を冗長に送信することによって、順方向エラー訂正を使用することである。

【0235】

ＥＶＳコーデックにおけるチャネルアウェアモード

【0236】

ＥＶＳチャネルアウェアモードは、ビットレートが一定のストリーム内でコーデックペイロードの一部分として帯域内で冗長性を送信するための新規の技法を導入し、１３．２ｋｂｐｓにおいて広帯域（ＷＢ）および超広帯域（ＳＷＢ）に対して実施される。この技法は、従来のコーデックとは対照的であり、そのために、トランスポート層において冗長性を送信するためのメカニズムを定義することによって、結果論として一般的に冗長性が付加される。たとえば、ＡＭＲ−ＷＢＲＴＰペイロードフォーマットは、冗長性を、単一のＲＴＰペイロード内へと含めるために、複数の発話フレームを集約することを可能にする［９］。代替的に、単一の発話フレームを含むＲＴＰパケットが単純に、後の時点において再送信されてもよい。

【0237】

図７は、ＥＶＳチャネルアウェアモードにおける部分冗長性の概念を示す。この着想は、（Ｎ＋Ｋ）番目のフレームのプライマリ符号化４ｂとともに、Ｎ番目のフレームと関連付けられる部分冗長コピー８ａを符号化および送信することである。プライマリフレーム４と部分フレーム８との間の分離を決定するオフセットパラメータＫも、部分コピー８とともに送信される。パケット交換ネットワークにおいて、Ｎ番目のフレーム４ａのパケットが損失した場合、デジッタバッファ７１が、将来のパケットの可用性について検査される。利用可能である場合、損失したフレームの部分コピー抽出および合成のために適切な将来のパケットを識別するために、送信されるオフセットパラメータが使用される。図７におけるプロセスを示すために、一例として３のオフセットが使用される。オフセットパラメータは、固定値であってもよく、または、ネットワーク状態に基づいて符号化器において構成されてもよい。ＥＶＳチャネルアウェアモードにおいて帯域内に冗長性を含むことによって、冗長性の送信が、（たとえば、ネットワークの混雑に対抗するために）チャネルまたはソースのいずれかで制御されることを可能にする。後者の事例において、符号化器は、入力ソース信号の特性を使用して、高品質再構築のために最も致命的であるフレームを判定し、それらのフレームのみについて冗長性を選択的に送信することができる。さらに、符号化器はまた、ビットストリームを一定の１３．２ｋｂｐｓのレートに維持しながら、冗長性の付随に対応するために、低減したビットレートにおいて最良にコード化することができるフレームを識別することもできる。これらの新規の技法は、クリーンチャネル品質を維持しながら、劣化したチャネル条件下で性能を大幅に改善する。

【0238】

チャネルアウェア符号化

【0239】

図８は、チャネルアウェア符号化器１の高レベル記述を示す。１６ｋＨｚ（ＷＢ）または３２ｋＨｚ（ＳＷＢ）のいずれかにおいてサンプリングされる入力オーディオ２が、２０ｍｓｅｃのフレームへとセグメント化される。入力フレームを１２．８ｋＨｚへとリサンプリングし、音声区間検出（ＶＡＤ）および信号分類のようなステップを実施するために、「前処理」段階８１が使用される［１６］。特定の分析パラメータ（たとえば、正規化相関、ＶＡＤ、フレームタイプ、およびピッチラグ遅延）に基づいて、「冗長フレーム（ＲＦ）構成」モジュール８２は、以下のものを決定する。

【0240】

１．現在のフレーム４ｂの圧縮可能性、すなわち、現在のフレーム４ｂが、以前のフレーム４ａと関連付けられる部分コピー８ａを含めることを可能にするために、知覚的影響を最小限に抑えながら、ビットレート低減を可能にすることができるか否か、および

【0241】

２．将来のフレーム４ｃ内で送信される部分コピー８ｂを通じて現在のフレーム４ｂを忠実に再構築するために必要とされるビット数を制御するＲＦフレームタイプ分類。図８において、部分コピー８ｂは、２フレームのフレーム消去隠蔽（ＦＥＣ）オフセットにおいて将来のプライマリコピー４ｃとともに送信される。

【0242】

音声成分の多いフレームおよび無声フレームは、プライマリフレーム品質に対する知覚的影響をごくわずかにして以前のフレームの部分コピーを搬送するのに適している。現在のフレームが部分コピーを搬送することを可能にされる場合、これは、ビットストリーム内のＲｆＦｌａｇを１に設定することによってシグナリングされ、そうでない場合は０に設定される。ＲｆＦｌａｇが１に設定される場合、現在のプライマリフレームを符号化するために利用可能なビット数Ｂ_primaryは、付随する部分コピーによってすでに消耗しているビット数ＢＲＦを補償することによって求められる。すなわち、１３．２ｋｂｐｓの一定の合計ビットレートにおいて、Ｂ_primary＝２６４−ＢＲＦである。ビット数ＢＲＦは、フレーム致命度およびＲＦフレームタイプに応じて５〜７２ビットに及び得る（３．２節）。

【0243】

プライマリフレームコード化

【0244】

図８に示す「プライマリフレームコード化」モジュール８３は、６．４ｋＨｚまでの低帯域コアを符号化するためにＡＣＥＬＰコード化技術［２１］、［２３］を使用し、一方で、６．４ｋＨｚを超え、ナイキスト周波数までの上側帯域は、時間領域帯域幅拡張（ＴＢＥ）技術［１７］を使用して符号化される。上側帯域は、サブフレームごとと、フレーム全体にわたっての両方の時間的発展を捕捉するために、ＬＳＰおよびゲインパラメータへとパラメータ化される［１７］。「プライマリフレームコード化」モジュール８３はまた、背景雑音フレームおよび混合／音楽内容をより効率的に符号化するために、ＭＤＣＴベースの変換コード化励起（ＴＣＸ）およびインテリジェントギャップ充填（ＩＧＦ）コード化技法［１１］、［１８］をも使用する。プライマリフレームを符号化するためにＡＣＥＬＰ／ＴＢＥ技術を選択すべきか、または、ＴＣＸ／ＩＧＦ技術を選択すべきかを決定するために、ＳＮＲベースの開ループ分類器［２２］が使用される。

【0245】

Ｄｉｅｔｚ他［１６］は、ＡＣＥＬＰ技術のコード化効率を、３ＧＰＰＡＭＲ−ＷＢコード化効率［２１］を超えてさらに改善するＥＶＳプライマリモードに対する様々な発展の概説を与えている。ＥＶＳチャネルアウェアモードは、プライマリフレーム符号化のために、これらのＡＣＥＬＰおよびＴＣＸコアの発展を利用する。加えて、部分コピーは、フレームにわたって変化するビット数を使用するため、プライマリフレーム符号化はまた、それに応じて適応的ビット配分にも対応する必要がある。

【0246】

冗長フレームコード化

【0247】

「冗長フレーム（ＲＦ）コード化」モジュール８４は、保護にとって致命的であるパラメータのみのコンパクトな再符号化を実施する。致命的なパラメータのセットは、フレームの信号特性に基づいて識別され、はるかにより低いビットレート（たとえば、３．６ｋｂｐｓ未満）において再符号化される。「ビットパッカ」モジュール８５は、ＲＦフレームタイプおよびＦＥＣオフセット（表Ｉ参照）のような特定のＲＦパラメータとともに、プライマリフレームビットストリーム８６および部分コピー８７を、ビットストリーム内の固定位置に配列する。

【0248】

【0249】

そのフレームの損失が受信機における発話品質に大幅な影響を引き起こすとき、フレームは保護のために致命的であるとみなされる。特定のフレームが致命的であるか否かを判定するための閾値は、符号化器における構成可能パラメータであり、ネットワーク状態に応じて動的に調整することができる。たとえば、高ＦＥＲ条件下において、より多くのフレームを致命的であるとして分類するように、閾値を調整することが望ましい場合がある。致命度はまた、以前のフレームの損失から迅速に回復する能力にも依存し得る。たとえば、現在のフレームが以前のフレームの合成に大きく依存する場合、現在のフレームは、以前のフレームが復号器において損失した可能性がある場合にエラー伝播を阻止するために、致命的でないものから致命的なものへと再分類され得る。

【0250】

ａ）ＡＣＥＬＰ部分フレーム符号化

【0251】

ＡＣＥＬＰフレームについて、部分コピー符号化は、フレームの信号特性に応じて、４つのＲＦフレームタイプ、すなわち、ＲＦ＿ＮＯＰＲＥＤ、ＲＦ＿ＡＬＬＰＲＥＤ、ＲＦ＿ＧＥＮＰＲＥＤ、およびＲＦ＿ＮＥＬＰのうちの１つを使用する。フレームタイプ、ピッチラグ遅延、および係数τのような、プライマリフレームコード化から計算されるパラメータが、ＲＦフレームタイプおよび致命度を判定するために使用され、

式中、Ｅ_ACBは適応的コードブック（ＡＣＢ）エネルギーを示し、Ｅ_FCBは、固定コードブック（ＦＣＢ）エネルギーを示す。低い値のτ（たとえば、０．１５以下）は、現在のフレーム内の情報の大部分が、ＦＣＢ寄与分によって搬送されることを示す。そのような場合、ＲＦ＿ＮＯＰＲＥＤ部分コピー符号化は、１つまたは複数のＦＣＢパラメータ（たとえば、ＦＣＢパルスおよびゲイン）のみを使用する。他方、高い値のτ（たとえば、０．３５以上）は、現在のフレーム内の情報のほとんどが、ＡＣＢ寄与分によって搬送されることを示す。そのような場合、ＲＦ＿ＡＬＬＰＲＥＤ部分コピー符号化は、１つまたは複数のＡＣＢパラメータ（たとえば、ピッチラグ遅延およびゲイン）のみを使用する。τが［０．１５，０．３５］の範囲内にある場合、混合コード化モードＲＦ＿ＧＥＮＰＲＥＤが、部分コピー符号化のために、ＡＣＢとＦＣＢの両方のパラメータを使用する。ＵＮＶＯＩＣＥＤフレームについて、低ビットレートノイズ励起線形予測（ＮＥＬＰ）［１６］が、ＲＦ＿ＮＥＬＰ部分コピーを符号化するために使用される。上側帯域部分コピーコード化は、ゲインパラメータの粗い符号化、および、以前のフレームからのＬＳＦパラメータの外挿に依拠する［１１］。

【0252】

ｂ）ＴＣＸ部分フレーム符号化

【0253】

有用なＴＣＸ部分コピーを取得するためには、多くのビットがＭＤＣＴスペクトルデータをコード化するために消費されなければならず、これによって、プライマリフレームに利用可能なビット数が大幅に低減し、したがって、クリーンチャネル品質が劣化する。この理由から、ＴＣＸプライマリフレームのためのビット数は、可能な限り大きく維持され、同時に、部分コピーは制御パラメータのセットを搬送し、高度に誘導されたＴＣＸ隠蔽が可能になる。

【0254】

ＴＣＸ部分コピー符号化は、３つのＲＦフレームタイプ、すなわち、ＲＦ＿ＴＣＸＦＤ、ＲＦ＿ＴＣＸＴＤ１、およびＲＦ＿ＴＣＸＴＤ２のうちの１つを使用する。ＲＦ＿ＴＣＸＦＤが周波数領域隠蔽を増強するための制御パラメータを搬送する一方、ＲＦ＿ＴＣＸＴＤ１およびＲＦ＿ＴＣＸＴＤ２は、時間領域隠蔽において使用される［２０］。ＴＣＸＲＦフレームタイプ選択は、ピッチ安定性、ＬＴＰゲインおよび信号の時間的傾向を含む、現在および以前のフレームの信号特性に基づく。信号分類、ＬＳＰ、ＴＣＸゲインおよびピッチラグ遅延のような特定の致命的なパラメータが、ＴＣＸ部分コピーにおいて符号化される。

【0255】

背景雑音または非アクティブ発話フレームにおいては、損失したフレームに起因する知覚的アーティファクトを最小限に抑えるには、誘導されないフレーム消去隠蔽で十分である。背景雑音中、ビットストリーム内に部分コピーがないことを示すＲＦ＿ＮＯ＿ＤＡＴＡがシグナリングされる。加えて、ＡＣＥＬＰフレームからの切り替え後の最初のＴＣＸフレームも、そのようなコード化タイプ切り替えシナリオにおいては外挿データがないことに起因して、ＲＦ＿ＮＯＤＡＴＡを使用する。

【0256】

チャネルアウェア復号

【0257】

図９は、チャネルアウェア復号器３１の高レベル図解を表す。受信機９０において、現在のフレーム９１が損失していない場合、ＪＢＭ９５は、「プライマリフレーム復号」９６のためのパケットを提供し、パケット内に存在するいかなるＲＦ（冗長フレーム）情報をも無視する。現在のフレームが損失しており、かつ、将来のフレーム９４がデジッタバッファにおいて利用可能である場合、ＪＢＭ９５は、「部分フレーム復号」９７のためのパケットを提供する。将来のフレーム９３がデジッタバッファにおいて利用可能でない場合、誘導されない消去隠蔽［２０］が実施される。

【0258】

ＪＢＭとのインターフェース

【0259】

前述したように、Ｎ番目のフレームが再生時に利用可能でない（損失または遅延している）場合、ＪＢＭは、Ｋ∈｛２，３，５，７｝である現在のフレームの部分冗長性を含む将来の（Ｎ＋Ｋ）番目のフレームの可用性についてチェックされる。フレームの部分コピーは一般的には、プライマリフレームの後に到来する。特に５および７のより大きいＦＥＣオフセットについて、将来のフレームにおいて部分コピーが利用可能である可能性を増大させるために、ＪＢＭ遅延適合メカニズムが使用される。ＥＶＳＪＢＭは、チャネルアウェアモードを含むすべてのＥＶＳモードについて３ＧＰＰＴＳ２６．１１４［１０］によって指定されている遅延ジッタ要件に従う。

【0260】

上述した機能に加えて、ＥＶＳＪＢＭ［１３］は、チャネル統計に基づいて、チャネルエラーレート、および、部分冗長コピーの可用性を最大化する最適なＦＥＣオフセットＫを計算する。計算された最適なＦＥＣオフセットおよびチャネルエラーレートは、エンドユーザ体験を改善するように、部分冗長性が送信されるＦＥＣオフセットおよびレートを適合させるために、受信機フィードバックメカニズムを通じて（たとえば、コーデックモード要求（ＣＭＲ）［９］を通じて）符号化器へと返信することができる。

【0261】

ＡＣＥＬＰおよびＴＣＸ部分フレーム復号

【0262】

図９内の「ビットストリーム解析器」モジュール９８は、ＲＦフレームタイプ情報を抽出し、部分コピー情報を「部分フレーム復号」モジュール９７に渡す。ＲＦフレームタイプに応じて、現在のフレームがＡＣＥＬＰ部分コピーに対応する場合、ＲＦパラメータ（たとえば、ＬＳＰ、ＡＣＢおよび／またはＦＣＢゲイン、および上側帯域ゲイン）が、ＡＣＥＬＰ合成のために復号される。ＡＣＥＬＰ部分コピー合成は、欠けているパラメータ（たとえば、特定のゲインおよびピッチラグ遅延は、代替のサブフレームにおいてしか送信されない）が外挿される点を除いて、プライマリフレーム復号９６のものと同様のステップに従う。

【0263】

さらに、以前のフレームが合成のために部分コピーを使用した場合、ＬＳＰおよび時間的ゲインのより円滑な展開のために、現在のフレームにおいて後処理が実施される。後処理は、フレームタイプ（たとえば、ＶＯＩＣＥＤまたはＵＮＶＯＩＣＥＤ）および以前のフレームにおいて推定されるスペクトル傾斜に基づいて制御される。現在のフレームがＴＣＸ部分コピーに対応する場合、高度に誘導された隠蔽を実施するために、ＲＦパラメータが使用される。

【0264】

主観的品質テスト

【0265】

ＥＶＳチャネルアウェアモードの広範な試験が、３２人の投薬を受けていない聴き手を擁する独立試験機関によって行われる主観的ＩＴＵ−ＴＰ．８００平均オピニオン評点（ＭＯＳ）テストを介して行われている。テストは、それぞれ絶対範疇尺度法（ＡＣＲ）および妨害範疇尺度法（ＤＣＲ）のテスト方法［２４］を使用して、ＷＢとＳＷＢの両方について行われた。チャネルアウェアモードは、ＶｏＬＴＥネットワークについて性能を改善するように特に設計されているため、そのようなネットワークにおける性能の評価は、可能性のある利点を確立するために重要である。それゆえ、試験は、パケット遅延および損失のＶｏＬＴＥ様パターンが、デジッタバッファへの挿入前に受信ＲＴＰパケットに適用されるシミュレーションからのコーデック出力を使用して行われた。これらのパターンまたは遅延−損失プロファイルのうちの４つは、韓国および米国内のＶｏＬＴＥネットワークにおいて収集されているＲＴＰパケット到来時刻の実世界の通話ログ記録から導出された。

【0266】

結果としてもたらされたプロファイルは、種々のチャネルエラー条件下でＶｏＬＴＥネットワーク特性を近密に模倣している。プロファイルの導出において、ジッタ、ジッタの時間的展開、およびエラーのバースト性のような特性が考慮された。これら４つのプロファイルは、図１０においてプロファイル７、８、９および１０として識別されており、それぞれ約３％、６％、８％、および１０％の、復号器におけるフレーム消去レート（ＦＥＲ）に対応する。これらの同じ４つのプロファイルはまた、チャネル障害下でのＥＶＳチャネルアウェアモードのそれ自体の特性化試験のために、その機関による使用のために３ＧＰＰによっても選択されている。

【0267】

ＶｏＬＴＥプロファイルに加えて、ここで考慮されているすべてのコーデックが、エラーのない条件下で、また、復号器において約６％のフレーム消去レートをもたらす３ＧＰＰＭＴＳＩ仕様［１０］に含まれるＨＳＰＡプロファイルについてテストされた。すべての実験において、ＥＶＳ条件は、基準ＥＶＳデジッタバッファを使用した［１３］。ＡＭＲ−ＷＢ条件は、固定閾値よりも大きい遅延を受けるパケットがＥＶＳ性能要件仕様［１４］に記載されているように廃棄されるように、遅延−損失プロファイルをパケット−損失プロファイルに変換するために、固定遅延バッファを使用した。

【0268】

ＷＢ事例に関するＡＣＲ評点が図１０に示されている。エラーのない（「クリーン」）プロファイルから始まる各プロファイルについて、グラフは、（左から右へと）ＡＭＲ−ＷＢ、ＥＶＳＡＭＲ−ＷＢＩＯモード、ＥＶＳベースラインＷＢ、およびＥＶＳＷＢチャネルアウェア（「ＲＦ」）を比較している。ＡＭＲ−ＷＢおよびＥＶＳＡＭＲ−ＷＢＩＯ条件は、１５．８５ｋｂｐｓのより高いビットレートを使用しており、一方で、両方のＥＶＳ条件は、同じ１３．２ｋｂｐｓのレートを使用した。これらの結果は、チャネルアウェアモードが、エラーのない条件下における均等な品質をさらに維持しながら、すべてのフレーム消去条件下で非チャネルアウェアモードと比較して、統計的に大幅な改善をもたらすことを示している。特に、チャネルアウェアモード品質は、さらにプロファイル１０の１０％のＦＥＲへとはるかにより率直に劣化する。ＡＭＲ−ＷＢおよびＡＭＲ−ＷＢ−ＩＯ条件と比較して、この品質の利点はこれらのＦＥＲレートにおいてさらにより劇的であり、ハンドオフ、乏しい無線条件、セルのエッジのシナリオの間、またはさらにはベストエフォートネットワークにおいて遭遇し得るような損失の高い期間の下で理解度を回復する可能性を有する［８］。

【0269】

チャネルアウェアモードの性能上の利点は、超広帯域モードにおいても同様に強力であり、その結果が図１１に示されている。ＷＢと同様に、チャネルアウェアモードは、エラーのない条件下で性能を劣化させないが、損失の多いプロファイルの各々の下で統計的に大きな性能上の利点を有し、改善の度合いは、エラーレートが増大するにつれて増大する。図１１はまた、２３．８５ｋｂ／ｓのその最大レートにおけるＡＭＲ−ＷＢ−ＩＯと比較して、１３．２ｋｂ／ｓにおいてＥＶＳＳＷＢチャネルアウェアモードの大幅な改善をも示している。

【0270】

結論

【0271】

新規の３ＧＰＰＥＶＳコーデックのチャネルアウェアコード化モードは、ユーザおよびネットワークオペレータに、ＡＭＲおよびＡＭＲ−ＷＢに基づく既存の展開されているサービスの最も広く使用されているビットレートと同様の容量動作点においてＶｏＬＴＥのためのエラー耐性の高いコード化モードをもたらす。このモードは、コーデックに、たとえネットワークの混雑、乏しい無線周波数カバレッジ、ハンドオフの間、または、ベストエフォートチャネルにおいて発生し得る高いＦＥＲの存在下でも、高品質のＷＢおよびＳＷＢ会話型音声サービスを維持する能力を与える。たとえ高い損失下でその品質が率直に劣化しても、低損失またはさらには損失のない条件下では品質に対する影響はごくわずかである。チャネルアウェアモードによってもたらされるこのエラーロバスト性はさらに、再送信の頻度のような特定のシステムレベル態様を緩和し、スケジューラ遅延を低減することを可能にする。この結果として、ネットワーク容量の増大、シグナリングオーバヘッドの低減、および、モバイルハンドセットにおける電力節約のような、潜在的な利点がもたらされる。それゆえ、チャネルアウェアモードを使用することは、高品質の通信を保証するために容量に影響を与えることなく、ほとんどのネットワークにおいて有益であり得る。

【0272】

要約すると、本発明は、エラーの多い条件下で発話／オーディオ品質を改善するために、コード化器がチャネル品質を把握するという事実を利用する。最先端のチャネルアウェアコード化とは対照的に、その着想は、プライマリ符号化フレームの低ビットレートバージョンに過ぎない部分コピーを有することではなく、部分コピーは、隠蔽を劇的に増強する複数の重要なパラメータから構成される。それゆえ、復号器は、すべてのパラメータが隠蔽される通常の隠蔽モードと、部分コピーパラメータが利用可能であるフレーム損失モードとの間で区別する必要がある。隠蔽が部分隠蔽と完全隠蔽との間で切り替える必要がある事例については、バーストフレーム損失に特に注意を払う必要がある。

【0273】

本発明はいくつかの実施形態に関して説明されているが、本発明の範囲内に入る代替形態、置換形態および均等物がある。本発明の方法および構成を実施する多くの代替的な様式があることも留意されるべきである。それゆえ、以下の添付の特許請求の範囲は、本発明の真の趣旨および範囲内に入るようなすべての代替形態、置換形態および均等物を含むように解釈されることが意図されている。

【0274】

いくつかの態様は装置の文脈において説明されているが、これらの態様は対応する方法の説明をも表し、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈において説明されている態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明をも表す。方法ステップのいくつかまたはすべては、たとえば、マイクロプロセッサ、プログラム可能コンピュータまたは電子回路のようなハードウェア装置によって（またはそれを使用して）実行されてもよい。いくつかの実施形態において、最も重要な方法ステップのうちの何らかの１つまたは複数は、そのような装置によって実行されてもよい。

【0275】

本発明の符号化オーディオ信号は、デジタル記憶媒体上に記憶することができ、または、インターネットのような、無線伝送媒体または有線伝送媒体のような伝送媒体上で伝送することができる。

【0276】

特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアにおいて実施することができる。実施態様は、それぞれの方法が実施されるように、プログラム可能コンピュータシステムと協働する（または協働することが可能である）電子可読制御信号を記憶されているデジタル記憶媒体、たとえば、フロッピーディスク、ＤＶＤ、Ｂｌｕ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実施することができる。それゆえ、デジタル記憶媒体は、コンピュータ可読であってもよい。

【0277】

本発明によるいくつかの実施形態は、本明細書において説明されている方法のうちの１つが実施されるように、プログラム可能コンピュータシステムと協働することが可能である、電子可読制御信号を有するデータキャリアを含む。

【0278】

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で作動するときに、方法のうちの１つを実施するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。

【0279】

他の実施形態は、機械可読キャリア上に記憶されている、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを含む。

【0280】

すなわち、本発明の方法の一実施形態は、それゆえ、コンピュータプログラムがコンピュータ上で作動すると、本明細書において説明されている方法のうちの１つを実施するためのプログラムコードを有するコンピュータプログラムである。

【0281】

本発明の方法のさらなる実施形態は、それゆえ、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを記録されて含む、データキャリア（またはデジタル記憶媒体もしくはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は、一般的に有形かつ／または非一時的である。

【0282】

本発明の方法のさらなる実施形態は、それゆえ、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを表すデータストリームまたは信号系列である。データストリームまたは信号系列は、たとえば、データ通信接続を介して、たとえば、インターネットを介して転送されるように構成されてもよい。

【0283】

さらなる実施形態は、本明細書において説明されている方法のうちの１つを実施するように構成または適合されている処理手段、たとえば、コンピュータ、または、プログラム可能論理デバイスを含む。

【0284】

さらなる実施形態は、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムをインストールされているコンピュータを含む。

【0285】

本発明によるさらなる実施形態は、本明細書において説明されている方法のうちの１つを実施するためのコンピュータプログラムを受信機に転送（たとえば、電子的または光学的に）するように構成されている装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを含んでもよい。

【0286】

いくつかの実施形態において、プログラム可能論理デバイス（たとえば、フィールドプログラマブルゲートアレイ）が、本明細書において説明されている方法の機能の一部またはすべてを実施するために使用されてもよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書において説明されている方法のうちの１つを実施するために、マイクロプロセッサと協働してもよい。一般的に、方法は、任意のハードウェア装置によって実施されることが好ましい。

【0287】

本明細書において説明されている装置は、ハードウェア装置を使用して、コンピュータを使用して、または、ハードウェア装置とコンピュータとの組み合わせを使用して実装されてもよい。

【0288】

本明細書において説明されている方法は、ハードウェア装置を使用して、コンピュータを使用して、または、ハードウェア装置とコンピュータとの組み合わせを使用して実施されてもよい。

【0289】

上述した実施形態は、本発明の原理の例示に過ぎない。本明細書において説明されている構成および詳細の修正及び変形が、当業者には諒解されることは理解されたい。それゆえ、本明細書において実施形態の記述および説明によって提示されている特定の詳細によってではなく、添付の特許請求項の範囲のみによって限定されることが意図されている。

【図1】