【文献】
Johansson et al.,Bandwidth efficient AMR operation for VoIP,IEEE Workshop Proceedings on Speech Coding 2002,IEEE,2002年10月6日,pp.150−152
(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
エンコーディングされたスピーチまたはオーディオのフレームが伝送される間、時折損失されると予想される環境で遂行されるコーディングされたスピーチとオーディオとのための伝送システムまたはデコーディング・システムは、フレーム損失を何パーセントかに制限するために考案された。
【0003】
かようなフレーム損失を制限するため、またはフレーム損失を補償するために、フレーム損失隠匿(FEC:frame erasure concealment)アルゴリズムは、デコーディング・システムで、スピーチやオーディオをエンコーディングしたりデコーディングするときに使用されるスピーチ・コーデックと独立して具現される。多くのコーデックは、フレーム損失による劣化(degradation)を低下させるために、デコーダシステムで専用的に使用される専用アルゴリズムを使用する。
【0004】
かようなフレーム損失隠匿アルゴリズムは、最近、特定標準(standard)や規格(specification)によって作動するセルラ通信ネットワークまたは環境で活用された。ここで、標準または規格は、連結及び通信のために使用されなければならない通信プロトコル及び/またはパラメータを定義することができる。例えば、前記標準または規格は、通信プロトコル及びモバイル通信のためのGSM(global system for mobile communications)、GSM/enhanced data rates for GSM evolution、AMPS(American mobile phone system)、WCDMA(登録商標(wideband code division multiple access))、3G(generation) UMTS(universal mobile telecommunications system)、IMT2000(international mobile telecommunications 2000)などを含む。
【0005】
ここで、スピーチ・コーディングは、以前に可変レート(variable rate)または固定レート(fixed rate)のうちいずれか一つで遂行された。可変レートでエンコーディングするとき、ソースは、スピーチを異なる比率に分類するアルゴリズムを使用し、分類されたスピーチを既設定のビットレートそれぞれに対応してエンコーディングすることができる。代案として、探知されたボイススピーチ・オーディオが固定されたビットレートによってコーディングされなければならない場合、スピーチ・コーディングは、固定されたビットレートを利用して遂行された。
【0006】
例えば、かような固定レートでコーディングするコーデックは、AMR(adaptive multi-rate)及びAMR−WB(adaptive multi-rate wideband)のようなGSM/EDGEとWCDMAとの通信ネットワークのために、3GPP(3rd generation partnership project)によって開発されたマルチレート・スピーチ・コーデックを含んでもよい。かようなコーデックは、探知されたボイス情報によってスピーチをコーディングし、さらに無線インターフェースのネットワーク容量(networkcapacity)及び無線チャンネル条件(radio channel condition)のようなファクタに基づいて、スピーチをコーディングすることができる。ここで、マルチレートは、コーデックの動作モードに依存して使用される固定レートを意味する。
【0007】
例えば、AMRコーデックは、スピーチのために、4.7kbit/sから12.2kbit/sまで8個の使用可能なビットレートを含む。一方、AMR−WBは、スピーチのために、6.6kbit/sから23.85kbit/sまで9個の使用可能なビットレートを含む。AMRコーデック及びAMR−WBコーデックの規格は、それぞれ3GPP無線システムの3世代に対する技術規格である3GPPTS26.090と3GPPTS26.190で使用可能である。そして、AMR−WBコーデックのスピーチ感知部分は3GPP無線システムの3世代に係わる技術規格である3GPP TS26.194技術規格で求めることができる。
【0008】
例えば、かようなセルラ環境で、損失(losses)は、セルラ無線リンク内での干渉、またはIP(internet protocol)ネットワーク内でのルータオーバーフローによって発生する。LTE(long term evolution)と呼ばれるEPS(enhanced packet services)のための主要無線インターフェースで、EPSと知られた3GPP無線システムの4世代技術は、現在開発中にある。例えば、
図1は、スピーチメディア・コンポーネント12を有したEPS 10を図示している。ここで、ボイスデータは、AMR−WB(wideband)とAMR−NB(narrowband)によってコーディングされる。
【0009】
例えば、3GPPリリース8,9で、EPS 10は、UMTSとLTEとのボイス・コーデックによる。3GPPリリース8,9で、LTEスピーチ・コーデックを含むUMTSは、EPSによって、IMS(IP multimedia core network subsystem)のためのマルチメディア・テレフォニ・サービスと呼ばれる。UMTSは、4世代3GPP無線システムのために最初にリリースされた。IMSは、IPマルチメディア・サービスのための構造的なフレームワークである。
【0010】
たとえLTEが潜在的な伝送干渉の観点で開発され、セルラ・ネットワークまたは無線ネットワークに失敗したとしても、3GPPセルラ・ネットワークで伝送されるスピーチフレームは、伝送される間、一部フレーム及び/またはパケットが除去(erasure)されやすい。除去は、デコーダ側面で、パケットの情報が損失されたり、あるいは使用されたりするということを仮定するための分類(classification)である。例えば、EPSネットワークの場合、フレーム除去が予想される。除去されたフレームを、処理(address)するために、デコーダは、損失されたフレームに対応する衝撃を緩和するためのフレーム損失隠匿(FEC)アルゴリズムを遂行することができる。
【0011】
いくつかのFECアルゴリズムは、ただ損失されたフレームのように除去されたフレームの隠匿をデコーダで処理するために使用されるのみである。例えば、デコーダは、フレーム除去が発生したということを認知したり認識することができ、除去されたフレームの直前または直後にデコーダに達する良好な状態のフレームから除去されたフレームのコンテンツを推正することができる。
【0012】
いくつかの3GPPセルラ・ネットワークのフレーム除去が発生された受信端(receving station)を識別して通知することができる能力を有している。従って、スピーチ・デコーダは、受信されたスピーチフレームが良好な状態のフレームであるか否か、または除去されたフレームと見なされるか否かということが分かる。かようなスピーチ及びオーディオの本質的特性のために、適切なフレーム損失の緩和または隠匿の技法が遂行されるのであるならば、低比率のフレーム損失は容認されるであろう。いくつかのFECアルゴリズムは、フレーム損失があまり目立たないように損失されたパケット、サイレンス、いくつかのタイプのフェーディングアウト/フェーディングイン、またはいくつかのタイプの補間(interpolation)をノイズに代替する。
【0013】
代替的なFECアルゴリズムのアプローチ方式は、リダンダント方式(redundant fashion)で規格情報を伝送するエンコーダを含む。例えば、参照によって含まれたITU−TG.718標準は、向上レイヤ(enhancement layer)で、コアエンコーダ出力と係わるリダンダント情報を伝送することを推薦する。向上レイヤは、コアレイヤと異なるパケットを伝送することができる。
【発明の概要】
【課題を解決するための手段】
【0014】
本発明の一実施形態による端末機は、コーデックを利用して入力オーディオデータをコーディングするために、複数の動作モードから1つの動作モードを設定するコーディング・モード設定部と、前記動作モードがハイフレーム除去レートモード(high FER:frame erasure rate)であるとき、複数のフレーム損失隠匿(FEC:frame erasure concealment)モードのうちいずれか一つによって、入力オーディオデータの現在フレームをコーディングすることにより、前記入力オーディオデータをコーディングするコーデックと、を含み、前記動作モードをhigh FER動作モードに設定するやいなや、前記コーディング・モード設定部は、high FER動作モードに係わる既設定のFECモードから、いずれか1つのFECモードを選択し、入力オーディオデータをコーディングするとき、リダンダンシ(redundancy)を導入したり、あるいは設定された1つのFECモードによってコーディングされた入力オーディオデータから分類されたリダンダンシ情報に基づいて、入力オーディオデータをコーディングするようにコーデックを制御することができる。
【0015】
前記端末機の前記コーディング・モード設定部は、前記入力オーディオデータを構成する複数のフレームそれぞれのために、複数のFECモードから1つのFECモードを選択することができる。
【0016】
前記high FER動作モードは、3GPP標準のEVS(enhanced voice services)コーデックのための動作モードであり、前記コーデックは、EVSコーデックであり、前記EVSコーデックが現在フレームのオーディオをエンコーディングするとき、前記EVSコーデックは、少なくとも1つの隣接フレームでエンコーディングされたオーディオを、結合されたEVSソースビットとして、現在フレームのためのパケットで、現在フレームのエンコーディング結果に追加し、前記隣接フレームは、一つ以上の以前フレーム及び/または一つ以上の以後フレームそれぞれのエンコーディングされたオーディオを含み、前記結合されたEVSソースビットは、現在パケットでRTPペイロード部分と区分されて表現され、前記EVSコーデックは、エンコーディングされたオーディオである少なくとも1つの隣接フレームそれぞれから、個別的にオーディオをエンコーディングし、現在パケットから分離されたパケットに、少なくとも1つの隣接フレームそれぞれからエンコーディングされたオーディオを追加させることができる。
【0017】
前記複数のFECモードのうち一つ以上は、選択的に異なる固定ビットレート及び/または異なるパケットサイズによって、現在フレームと隣接フレームとをコーディングするようにコーデックを制御することができる。
【0018】
前記複数のFECモードのうち一つ以上は、同一の固定ビットレートによって、現在フレームと隣接フレームとをコーディングするようにコーデックを制御することができる。
【0019】
前記複数のFECモードのうち一つ以上は、同一のパケットサイズによって、現在フレームと隣接フレームとをエンコーディングするように制御することができる。
【0020】
前記複数のFECモードのうち一つ以上は、現在フレームをサーブフレームに分割し、同一の固定ビットレートより低いビットレートでコーディングされたサーブフレームそれぞれのコードブック・ビットの数を計算し、サーブフレームのビットに係わるコードワードを定義するために使用されるそれぞれのコードブック・ビットの数と同一の固定ビットレートを利用して、サーブフレームをエンコーディングするように、コーデックを制御することができる。
【0021】
前記EVSコーデックは、現在フレームのビットを、少なくとも最初のサブフレームと2番目のサブフレームとを含むサブフレームに分類したところに基づいて、現在フレームのビットのための差等的なリダンダンシ(unequal redundancy)を提供し、最初のサブフレームに分類された現在フレームのエンコーディングビットを、隣接パケットでは、2番目のサブフレームに分類して加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加することができる。
【0022】
前記EVSコーデックは、現在フレームのビットを、少なくとも最初のサブフレームと2番目のサブフレームとを含むサブフレームに分類したところに基づいて、線形予測パラメータのための差等的なリダンダンシを提供し、最初のサブフレームに分類された現在フレームの線形予測パラメータのエンコーディングビットを、隣接パケットでは、2番目のサブフレームに分類して加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加することができる。
【0023】
前記現在フレームのためのパケットは、以前フレーム及び/または以後フレームからリダンダンシ情報に含まれたFECビットと直接に連結された区分された部分を含まなくともよい。
【0024】
前記コーデックは、現在フレームに係わる設定された動作モードを、high FER動作モードとして識別するために、現在フレームのためのパケットに、high FER動作モードフラグを追加することができる。
【0025】
前記high FER動作モードフラグは、現在パケットのRTPペイロード部分で、1つのビットとして、現在パケットに表現されもする。
【0026】
前記コーデックは、現在フレームについて選択された複数のFECモードを識別するFECモードフラグを、現在フレームのためのパケットに追加することができる。前記FECモードフラグは、既設定の個数のビットで、現在パケットで表現されもする。代替的な一実施形態で、既設定の個数は2個でもある。前記コーデックは、現在フレームに係わるFECモードフラグを、異なるフレームのパケットで、リダンダンシでもってエンコーディングすることができる。
【0027】
前記high FER動作モードは、3GPP標準のEVS(enhanced voice services)コーデックのための動作モードであり、前記コーデックは、EVSコーデックであり、前記EVSコーデックは、high FER動作モードのフラグを探知するやいなや、high FER動作モードとして、現在フレームに係わる動作モードを識別するために、少なくとも1つの現在パケットで、high FER動作モードフラグをデコーディングし、現在パケットから現在フレームのために選択された複数のFECモードを識別する現在フレームのためのFECモードフラグをデコーディングし、前記入力オーディオデータのコーディングは、選択されたFECモードによって、入力オーディオデータをデコーディングし、前記EVSコーデックが入力オーディオデータをデコーディングするとき、現在パケットで少なくとも1つの隣接フレームからエンコーディングされたリダンダント・オーディオ(redundant audio)をパージングし、一つ以上の以前フレーム及び/または一つ以上の以後フレームそれぞれのエンコーディングされたオーディオを現在フレームに含め、現在パケットでパージングされたエンコーディングされたリダンダント・オーディオそれぞれに基づいて、一つ以上の以前フレーム及び/または一つ以上の以後フレームそれぞれで損失フレーム(lost frame)をデコーディングすることができる。
【0028】
前記EVSコーデックは、入力オーディオデータ内部で、現在フレームのためのビットまたはパラメータに係わる差等的なリダンダンシに基づいて、現在フレームをデコーディングし、前記差等的なリダンダンシは、現在フレームのビットまたはパラメータを、第1カテゴリー及び第2カテゴリーに以前に分類したところに基づいて、第1カテゴリーに分類された現在フレームのビットまたはパラメータのエンコーディングビットを、隣接パケットでは、第2カテゴリーに分類してそれぞれのリダンダント情報に加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加するところに基づいて、前記現在フレームのコーディングは、現在フレームが損失されたとき、一つ以上の隣接パケットからデコーディングされた現在フレームのオーディオに基づいて、現在フレームをデコーディングすることを含んでもよい。
【0029】
前記high FER動作モードは、3GPP標準のEVSコーデックのための動作モードであり、前記コーデックは、EVSコーデックであり、前記EVSコーデックは、high FER動作モードとして、現在フレームに係わる動作モードを識別するために、少なくとも1つの現在パケットで、high FER動作モードのフラグをデコーディングし、high FER動作モードのフラグを探知するやいなや、現在パケットから現在フレームのために選択された複数のFECモードを識別する現在フレームのためのFECモードフラグをデコーディングし、前記入力オーディオデータのコーディングは、選択されたFECモードによって、入力オーディオデータをデコーディングし、前記EVSコーデックは、入力オーディオデータ内部で、現在フレームのためのビットまたはパラメータに係わる差等的なリダンダンシに基づいて、現在フレームをデコーディングし、前記差等的なリダンダンシは、現在フレームのビットまたはパラメータを、第1カテゴリー及び第2カテゴリーに以前に分類したところに基づいて、第1カテゴリーに分類された現在フレームのビットまたはパラメータのエンコーディングビットを、隣接パケットでは、第2カテゴリーに分類してそれぞれのリダンダント情報に加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加し、前記現在フレームのコーディングは、現在フレームが損失されたとき、一つ以上の隣接パケットからデコーディングされた現在フレームのオーディオに基づいて、現在フレームをデコーディングすることができる。
【0030】
前記EVSコーデックは、現在フレームのビットを第1カテゴリー及び第2カテゴリーに分類することにより、現在フレームのビットに係わる差等的なリダンダンシを提供し、第1カテゴリーに分類された現在フレームのビットのエンコーディングビットを、隣接パケットでは、第2カテゴリーに分類して加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加することができる。
【0031】
前記EVSコーデックは、現在フレームのビットを、少なくとも第1カテゴリー及び第2カテゴリーに分類することにより、現在フレームの線形予測パラメータのための差等的なリダンダンシを提供し、第1カテゴリーに分類された現在フレームのビットの線形予測パラメータのエンコーディングビットを、隣接パケットでは、第2カテゴリーに分類して加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加することができる。
【0032】
前記EVSコーデックが現在フレームのオーディオをエンコーディングするとき、前記EVSコーデックは、少なくとも1つの隣接フレームでエンコーディングされたオーディオを、現在フレームのエンコーディング結果を含むエンコーディングされたソースビット部分と区別される現在フレームのためのパケットのFEC部分に追加し、前記隣接フレームは、一つ以上の以前フレーム及び/または一つ以上の以後フレームそれぞれのエンコーディングされたオーディオを含み、前記現在パケットのエンコーディングされたソースビット部分と、現在パケットのFEC部分は、現在パケットで、RTPペイロード部分と区分されて表現され、前記EVSコーデックは、少なくとも1つの隣接フレームそれぞれに対して個別的にオーディオをエンコーディングし、少なくとも1つの隣接フレームそれぞれについてエンコーディングされたオーディオを、現在パケットから分離されたパケットに追加させることができる。
【0033】
前記コーデックは、少なくとも1つの隣接フレームのビットのエンコーディング結果を、現在パケットの分離されたFEC部分に追加することにより、少なくとも1つの隣接フレームのビットに係わるリダンダンシを提供することができる。前記分離されたパケット(separate packers)は、隣接しない。
【0034】
前記複数のFECモードのうち一つ以上は、選択的に異なる固定ビットレート及び/または異なるパケットサイズによって、現在フレームと隣接フレームとをコーディングするように、コーデックを制御することができる。
【0035】
前記複数のFECモードのうち一つ以上は、選択的に同一の固定ビットレートによって、現在フレームと隣接フレームとをコーディングするように、コーデックを制御することができる。
前記複数のFECモードのうち一つ以上は、同一のパケットサイズによって、現在フレームと隣接フレームとをコーディングするように、制御することができる。
【0036】
前記複数のFECモードのうち一つ以上は、現在フレームをサブフレームに分割し、同一の固定ビットレートより低いビットレートでコーディングされたサブフレームそれぞれのコードブック・ビットの数を計算し、サブフレームのビットに係わるコードワードを定義するために使用されるそれぞれのコードブック・ビットの数と同一の固定ビットレートを利用して、サブフレームをエンコーディングするようにコーデックを制御することができる。
【0037】
前記EVSコーデックは、現在フレームのビットを、少なくとも最初のサブフレームと2番目のサブフレームとを含むサブフレームに分類したところに基づいて、現在フレームのビットのための差等的なリダンダンシを提供し、最初のサブフレームに分類された現在フレームのエンコーディングビットを、隣接パケットでは、2番目のサブフレームに分類して加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加することができる。
【0038】
前記EVSコーデックは、現在フレームのビットを、少なくとも最初のサブフレームと2番目のサブフレームとを含むサブフレームに分類したところに基づいて、線形予測パラメータのための差等的なリダンダンシを提供し、最初のサブフレームに分類された現在フレームの線形予測パラメータのエンコーディングビットを、隣接パケットでは、2番目のサブフレームに分類して加えるように、それぞれの一つまたはそれ以上の隣接パケットに、異なる方式で追加することができる。
【0039】
前記コーディング・モード設定部は、端末機外部の伝送品質のうち一つ以上、及び/または伝送過程でフレーム損失にさらに敏感であるか、あるいは入力オーディオデータの他のフレームよりさらに重要性が高い入力オーディオデータの現在フレームの決定に基づいて、端末機で活用可能なフィードバック情報の分析に基づいて、一般動作モードのための複数の動作モードのうち残っているモードを比較した他の(different)、増加した(increased)、かつ/または多様な(varied)リダンダンシで、動作モードをhigh FER動作モードに設定することができる。
【0040】
前記フィードバック情報は、物理的階層で伝送されたハイブリッド自動反復要請(HARQ:hybrid automatic repeat request )フィードバックであるファースト・フィードバック(FFB:FastFeedback )情報;物理的階層よりさらに高い階層で伝送されたネットワーク・シグナリングからフィードバックされたスロー・フィードバック(SFB:slow feedback:SFB)情報;終端(far end)でコーデックからインバンド・シグナリングされたフィードバック(ISB:in-band feedback:ISB)情報;及びリダンダント方式(redundant fashion)で伝送される特定クリティカル・フレーム(specific critical frame)のコーデックによる選択であるハイセンシティビティフレーム(HSF:high sensitivity frame)情報のうち少なくとも一つを含んでもよい。
【0041】
前記端末機は、FFB情報、HARQフィードバック、SFB情報、ISB情報のうち少なくとも一つを受信し、端末外部からの伝送と係わる一つ以上の品質を決定するために、受信されたフィードバック情報を分析することができる。
【0042】
前記端末機は、パケットに受信されたフラグに基づいて、以前に遂行されるFFB情報、HARQフィードバック、SFB情報、ISB情報のうち少なくとも1つの分析結果を示す情報を受信し、前記フラグは、high FER動作モードによってエンコーディングされた現在パケットの現在フレーム、またはhigh FER動作モードでコーデックによって遂行されなければならない現在パケットのコーディングを示すことができる。
【0043】
前記コーディング・モード設定部は、複数の使用可能なコーディング・タイプで、現在フレーム及び/または隣接フレームの決定されたコーディング・タイプ、または複数の使用可能なフレーム分類で、現在フレーム及び/または隣接フレームの決定されたフレーム分類のうち一つに基づいて、複数のFECモードのうち一つに動作モードを設定することができる。
【0044】
前記複数の使用可能なコーディング・タイプは、アンボイスされたスピーチフレーム(unvoiced speech frames)のためのアンボイスされたワイドバンド・タイプ(unvoiced wideband type)、ボイスされたスピーチフレーム(voiced speech frames)のためのボイスされたワイドバンド・タイプ(voiced wideband type)、ノンステーショナリ・スピーチフレーム(non-stationary speech frame)のための一般ワイドバンド・タイプ(generic wideband type)、及び向上されたフレーム除去パフォーマンス(enhanced frame erasure performance)のために使用されたトランジション・ワイドバンド・タイプ(transition wideband type)を含んでもよい。
【0045】
前記複数の使用可能なフレーム分類は、アンボイス、サイレンス、ノイズ、ボイスされたオフセット(voiced offset)のためのアンボイスされたフレーム分類(unvoiced frame classification)、アンボイスされたコンポーネントからボイスされたコンポーネントへのトランジションのためのアンボイスされたトランジション分類(unvoiced transition classification)、ボイスされたコンポーネントからアンボイスされたコンポーネントへのトランジションのためのボイスされたトランジション分類(voiced transition classification)、ボイスされたフレーム及びすでにボイスされたか、あるいはオンセッフレーム(onset frame)に分類された以前フレームのためのボイスされた分類(voiced classification)、及びデコーディング器によってボイス隠匿(voice concealment)に従うように十分に良好に設計されたボイスされたオンセットのためのオンセット分類を含んでもよい。
【0046】
本発明の一実施形態によるコーディング方法は、コーデックを利用して入力オーディオデータをコーディングするために、複数の動作モードから1つの動作モードを設定する段階と、前記動作モードがハイフレーム除去レートモード(high FER:frame erasure rate)であるとき、複数のフレーム損失隠匿(FEC:frame erasure concealment)モードのうちいずれか一つによって、入力オーディオデータの現在フレームをコーディングすることにより、前記入力オーディオデータをコーディングする段階と、を含み、前記動作モードをhigh FER動作モードに設定するやいなや、前記入力オーディオデータをコーディングする段階は、high FER動作モードに係わる既設定のFECモードから、いずれか1つのFECモードを選択し、入力オーディオデータをコーディングするとき、リダンダンシを導入したり、あるいは設定された1つのFECモードによってコーディングされた入力オーディオデータに分類されたリダンダンシ情報に基づいて、入力オーディオデータをコーディングすることができる。
【発明の効果】
【0047】
本発明の一実施形態によれば、フレーム伝送過程で除去されたフレームに対して、効率的にフレーム損失隠匿を遂行したりまたは復元することができる。
【発明を実施するための形態】
【0049】
以下、図示された図面によって、本発明の一実施形態について具体的に説明する。そして、同じ参照図面は、同じ構成要素を示す。本発明の一実施形態は、他の形態によって構成され、特定の構成要素に限定解釈されるものではなく、システムの多様な変更、修正、同一性の範囲まで包括しなければならない。そして、説明される装置及び/または方法は、従来技術に基づいて理解されもする。従って、本発明の一実施形態は、図面によって、以下で具体的に説明する。
【0050】
本発明の一実施形態は、スピーチ・コーディング及びオーディオ・コーディングの技術領域と係わるものであり、エンコーディングされたスピーチまたはオーディオのフレームは、伝送過程で時折損失されもする。セルラ無線リンク(cellular radio link)での妨害(interference)、またはIP(internet protocol)ネットワークでのルータ・オーバーフロー(router overflow)のような理由で、スピーチフレームまたはオーディオフレームの損失が発生することがある。
【0051】
本発明の一実施形態は、3GPP(3rd generation partnership project)無線システム構造の4世代方式に採択されるEVS(enhanced voice service)コーデックと係わるものであるが、本発明の一実施形態は、必ずしもEVSに制限されるものではない。
【0052】
3GPPは、将来の無線携帯電話または無線システムのための新たなスピーチ・コーデック及びオーディオ・コーデックを標準化する過程である。EVSコーデックとして周知のこのコーデックは、EPS(enhanced packet services)として周知の3GPPの4世代ネットワークのためのエンコーディングされたビットレートの広い範囲で、スピーチ及びオーディオを効率的に圧縮するように設計された。EPSの特徴のうち一つは、LTE(long term evolution)として知られたEPS無線インターフェース(air interface)を介して、スピーチ及びオーディオの圧縮結果を含む全てのサービスのために、パケット基盤の伝送で使用されるものである。EVSコーデックは、パケット基盤環境で、効率的に動作するように設計される。
【0053】
EVSコーデックは、狭帯域(narrowband)から全帯域(full-band)に至るまでの帯域幅で、オーディオを圧縮することができ、ステレオ能力もあり、存在する3GPPコーデックのための窮極的な代替と見られる。3GPPで、新たなコーデックの動機(motivation)は、さらに高いオーディオ帯域幅及びステレオを要求する新たなアプリケーションを除いたスピーチ・コーディング及びオーディオ・コーディング・アルゴリズムの発展(advancement)、並びにサーキットスイッチされた環境で、パケットスイッチされた環境でスピーチ及びオーディオのマイグレーション(migration)を含む。
【0054】
以前の3GPP基盤ネットワークの場合のように、EVSコーデックが動作する環境の主な様相(aspect)は、送信機(sender)から受信機(receiver)へのスピーチ/オーディオフレームが伝送されるときの損失である。これは、セルラ・ネットワークでの伝送時に予想される結果であり、かような環境で動作するように設計されたスピーチ及びオーディオの設計過程とすることができる。EVSコーデックは、スピーチのフレーム損失と、フレーム除去の衝撃とを最小化するためのアルゴリズムを含んでもよい。EPSだけではなく、レガシー3GPPセルラ・ネットワークも、一般的な条件の間、ほとんどのユーザに係わる合理的なフレーム除去の比率を維持するように設計される。
【0055】
図1のEVSコーデック26は、パケットが損失される環境である3GPPアプリケーションだけでなく、その後の3GPPでも使用されもする。さらに、何人のユーザは、所望のEVSより、フレーム除去の一般的な比率よりさらに高い比率を経験することができる。かような観点で、本発明は、EVSコーデックのためのhigh FER(high frame erasure rate)動作モードを提案する。high FER動作モードは、特定環境で、追加的なフレーム損失軽減(mitigation)を提供するために、追加的なリソース(追加的なビットレート及び/またはディレイ)を使用することができる。
【0056】
例えば、high FER動作モードは、LTEで、極限的な動作環境でのフレーム除去の比率を意味する。high FER動作モードで、10%またはそれ以上の程度でのフレーム除去の比率で、さらに優れた性能を発揮するためには、追加的なリソース(ビットレート、ディレイ)が要求されるトレードオフ(trade off)が存在する。
【0057】
本発明の一実施形態によれば、EVSコーデック26のhigh FER動作モードのために、FEC(frame erasure concealment)と直接に連結される。本発明の一実施形態は、特定パラメータの重要性に基づいて、スピーチフレームの多様なエンコーディングされたパラメータが、多様なリダンダンシ(redundancy)と共に伝送されるリダンダンシ方式を提案する。さらに、エンコーディングされたスピーチ部分ではない、エンコーダで生成されるFECビットは、優先化(prioritized)され、多様なリダンダンシと共に伝送される。リダンダンシは、多重パケットで、同じビットまたは全てのビットの反復を介して導出され、フレーム間またはフレーム内部で、差等的な(unequal)方式で遂行されもする。
【0058】
図1はスピーチメディア・コンポーネント22の内部で、4世代3GPP方式のために、EVS(enhanced voice service)コーデック26及びボイスサービス・コーデック24を含むEPS(evolved packet system)20を図示している。EVSコーデック26は、LTE無線インターフェースを介して、効率的に動作する。かような効率的な設計によって、多様なコーデック・フレームサイズとRTPペイロードは、LTEですでに定義された伝送ブロックサイズとマッチングされる。EVSコーデック26は、無線インターフェース及びVOIPネットワークでフレーム損失が発生したり発生しうる環境で動作するマルチレート及びマルチ帯域幅コーデックである。従って、本発明の一実施形態によれば、EVSコーデック26は、フレーム損失の衝撃を低減させるためのFEC(frame erasure concealment)アルゴリズムを含む。
【0059】
オーディオ・コーディングでFECを利用するのは、スピーチまたはオーディオをエンコーディングしたり、あるいはエンコーディングするために使用されたスピーチ・コーデックと独立したデコーディング・システムによって遂行された。しかし、潜在的に、さらに効果的な利用のために、EVSコーデック26のデコーダ側面の開発段階で、EVSコーデック26で、FECアルゴリズムを設計するのである。
【0060】
エンコーダ側面で、エンコーダは、オーディオデータのスピーチをエンコーディングするために遂行されるコーデックと独立して、データに提供されたリダンダンシを有することができる。そのために、たとえ以前コーデックは、フレーム損失による品質悪化(degradation)を減らすために、ただデコーダと係わるアルゴリズムを利用したが、本発明の一実施形態によれば、たとえシステム帯域幅の追加コストや潜在的なディレイが必要であるとしても、EVSコーデック26のデコーダ側面の開発段階で、EVSコーデック26のエンコーダに、FECアルゴリズムを採択することができる。
【0061】
本発明の一実施形態によれば、エンコーダに適用されるFECアルゴリズムだけでなくエラーまたはパケットの損失を隠匿するために、デコーダにも適切なFECアルゴリズムを適用することができる。そして、追加的なフレームエラー隠匿アルゴリズムの組み合わせが使用されもする。また、デコーダは、デコーディングされたオーディオデータの適切なタイミングを維持するために、エラーが発生したビットまたは損失されたパケットを再構成することができる。従って、EVSコーデック26は、前述のフレーム損失隠匿だけでなく、FECフレームと係わる事項を遂行することができる。
【0062】
従って、本発明の一実施形態によれば、4世代3GPP無線システム方式のように、エンコーダ基盤のFECアルゴリズムを採択することができる。そして、他の実施形態によれば、本発明は、エンコーディング動作とデコーディング動作とをそれぞれ遂行することができるエンコーダとデコーダとを含んでもよい。
【0063】
図2Aによれば、エンコーディング端末100、一つ以上のネットワーク140及びデコーディング端末150が図示されている。本発明の一実施形態によれば、一つ以上のネットワーク140は、EVSコーデック26を含み、エンコーディング、デコーディングまたは変形(transformation)を遂行することができる一つ以上の中間端末(intermediary terminals)を含んでもよい。エンコーディング端末100は、エンコーダ側コーデック120、ユーザ・インターフェース130を含み、デコーディング端末150は、同様にデコーダ側コーデック160及びユーザ・インターフェース130を含んでもよい。
【0064】
図2Bは、本発明の一実施形態による、
図2Aのエンコーディング端末100及びデコーディング端末150を一つまたは二ともいずれもだけではなく、一つ以上のネットワーク140内部の中間端末を代表する端末200を図示する。端末200は、マイク260のようなオーディオ入力装置と連結されたエンコーディング部205、スピーカ270のように、オーディオ出力装置と連結されたデコーディング部250、潜在的なディスプレイ230、入出力インターフェース235、中央処理装置(CPU)210のようなプロセッサを含んでもよい。
【0065】
CPU 210は、エンコーディング部205及びデコーディング部250と連結される。CPU 210は、エンコーディング部205とデコーディング部250との動作を制御するだけではなく、端末200の他の構成要素を、エンコーディング部205とデコーディング部250との相互作用で制御することができる。本発明の一実施形態によれば、端末200は、モバイルフォン、スマートフォン、タブレットPC(personal computer)またはPDA(personal digital assistant)のようなモバイル装置でもある。そして、CPU 210は、端末の他の特徴を利用することができ、モバイルフォン、スマートフォン、タブレットPCまたはPDAでの一般的な機能のために、端末の能力(capability)を利用することができる。
【0066】
例えば、本発明の一実施形態によれば、エンコーディング部205は、FECアルゴリズムまたはフレームワークに基づいて、デジタル的に入力オーディオをエンコーディングすることができる。保存されたコードブックは、適用されたFECアルゴリズムに基づいて、選択的に使用されもする。コードブックは、エンコーディング部205及びデコーディング部250のメモリに保存される。エンコーディングされたデジタルオーディオは、キャリア信号に変調されたパケットを介して伝送され、アンテナ240によって伝送されもする。また、エンコーディング・オーディオデータは、その後の再生のために、不揮発性メモリまたは揮発性メモリのようなメモリ215に保存されもする。
【0067】
他の一例として、本発明の一実施形態によれば、デコーディング部250は、FECアルゴリズムに基づいて、入力オーディオをデコーディングすることができる。デコーディング部250によってデコーディングされたオーディオは、アンテナ240から提供されたり、あるいは以前にエンコーディングされたオーディオが保存されたメモリ215から獲得されもする。さらに、保存されたコードブックは、エンコーディング部205、デコーディング部250またはメモリ215に保存され、FECアルゴリズムに基づいて、選択的に使用されもする。
【0068】
前述のように、本発明の一実施形態によれば、エンコーディング部205及びデコーディング部250は、それぞれ適切なコードブック、及び適切なコーデック・アルゴリズムまたはFECアルゴリズムを保存するためのメモリを含んでもよい。エンコーディング部205及びデコーディング部250は、オーディオデータをエンコーディングしたり、あるいはデコーディングするために使用されるコーデックと共に、プロセシング装置に含まれ、同一に使用される単一ユニット(single unit)でもある。本発明の一実施形態によれば、プロセシング装置は、入力オーディオ、または他のオーディオ・ストリームの他の部分のために、並列的にエンコーディング・プロセシング及び/またはデコーディング・プロセシングを遂行することができる。
【0069】
端末200は、エンコーディング部205及び/またはデコーディング部250で遂行される複数の動作モードを選択するコーデックモード設定部255を含んでもよい。それぞれのコーデックモード設定部255それぞれは、エンコーディング部205及びデコーディング部250いずれものための1つのコーデックモード設定部255でもある。EVSコーデックは、同一の動作モードで、スピーチーオーディオ及びノンスピーチ・オーディオである音楽(music)をエンコーディングすることができる。もし入力オーディオがノンスピーチ・オーディオである場合、エンコーディング部205またはデコーディング部250は、音楽、またはさらに良質のオーディオのために設計されたコーデックのように、広帯域コーデック(wideband codec)によって、ノンスピーチ・オーディオをそれぞれエンコーディングしたり、あるいはデコーディングすることができる。
【0070】
もし入力オーディオがスピーチ・オーディオであると決定されれば、コーデックモード設定部255は、エンコーディング部205またはデコーディング部250それぞれが、オーディオデータをエンコーディングまたはデコーディングすることができるように、複数の動作モードを決定することができる。
【0071】
もしコーデックモード設定部255が、high FER動作モードが決定されたということを感知した場合、コーデックモード設定部255は、high FER動作モードで動作するために、FECモードのうち一つを選択するができる。たとえ動作モードが、high FER動作モードに設定されたために、スピーチ・コーディングのために活用可能な他の動作モードが利用されないとしても、FECモードは、FECフレームワークで、他のスピーチ・コーディング・モードと共に使用されもする。
【0072】
コーデックモード設定部255は、エンコーディングされた入力パケットをパージングし、受信されたエンコーディングされたオーディオがスピーチであるか否かを識別する情報、high FER動作モードが設定されているか否かを示すノンスピーチ・オーディオのための動作モード、FERモードのために、いかなる潜在的なFEC動作モードも抽出することができる。また、コーデックモード設定部255は、パージングされた情報を、エンコーディングされた出力パケットに追加することができる。そして、かような情報は、窮極的な(ultimate)エンコーディングが遂行されるように、エンコーディング部205によって追加されもする。
【0073】
本発明の一実施形態によれば、EVSコーデック26は、スピーチ・オーディオのための複数の動作モードを含んでもよい。動作モードそれぞれは、関連したエンコーディングされたビットレートを有することができる。特定モードでのビットレートに従属し、動作モードは、オーディオ帯域幅の選択を伝送たり、あるいはレガシーAMR−WBコーデックでエンコーディングされたスピーチを伝送するために多様に使用されもする。スピーチ・オーディオに係わる動作モードの例示は、以下の表1に図示されている。
【0074】
LTE無線インターフェースは、多様なサイズを有する伝送パケットで使用することができる固定された個数の伝送ブロックサイズに設計されもする。3GPP無線システムでは、存在する3GPPコーデックのために、伝送ブロックサイズよりさらに小さく設計されもする。そして、伝送ブロックサイズは、コーデックが動作するビットレートの厳格な選択を介して、EVSコーデック26によって再使用されもする。本発明の一実施形態において、EVSコーデック26は、エンドツーエンド・ディレイ(end-to-end delay)を最小化するために、スピーチを20msフレームにエンコーディングすることができ、1つのフレームは、パケットごとに伝送される。しかし、本発明は、かような実施形態に限定されるものではない。
【0075】
以下で図示された表1は、ビットレート範囲の低い部分でのスピーチEVSコーデック・ビットレートの例示と、ビットレート・モードと結合して使用される伝送ブロックサイズを図示している。表1で例示されたRTPペイロードのサイズは、AMR−WBコーデックで存在するRTPペイロードサイズに基づく。しかし、本発明の一実施形態は、表1のRTPペイロードサイズに限定されるものではない。
【0076】
【表1】
前述のところは、固定レートコーデック、や固定レートでスピーチフレームをエンコーディングするコーデックに係わる。パケット・スイッチされた環境で動作するように、スピーチ発話(utterances)間のサイレンスまたは中止(pause)がエンコーディングされ、不連続的な方式で非常に低いレートで伝送されもする。
【0077】
前述のように、ネットワークと、3GPPセルラ・ネットワークとで伝送されたスピーチフレームは、伝送過程で伝送されたデータの小さい比率ほど除去される。
【0078】
フレーム損失隠匿(FEC)アルゴリズムは、一般的に、2個のカテゴリーに分類される。一つは、コーデック独立的FECアルゴリズムと、コーデック従属的FECアルゴリズムとである。コーデック独立的FECアルゴリズムは、特定コーディング・アルゴリズムの知識なしにも十分に適用され、コーデック従属的FECアルゴリズムほど、その結果が効率的である。コーデック従属的FECアルゴリズムは、開発過程で、コーデックと結合されるように設計され、一般的に、さらに効果的である。本発明の一実施形態によれば、少なくとも1つのコーデック従属的FECアルゴリズムを含んでもよく、コーデック従属的FECアルゴリズムと、コーデック独立的FECアルゴリズムとを含んでもよい。
【0079】
フレーム損失隠匿(FEC)アルゴリズムは、2個のセットに分類される。フレーム損失隠匿(FEC)アルゴリズムは、受信機基盤のFECアルゴリズム、及び送信機基盤のFECアルゴリズムに分類される。受信機基盤のFECアルゴリズムは、スピーチ・デコーダ、及び/またはデコーディング部250のジッタバッファに単独で位置することができる。そして、受信機基盤のFECアルゴリズムは、デコーダのために受信機で生成されたフレーム除去フラグによって、触発になる。デコーディング部250のエラー隠匿(errorcon cealment)は、サイレンス利用、ホワイトノイズ、波形置換(waveform substitution)、サンプル補間(sample interpolation)、ピッチ波形置換(pitch waveform replacement)、タイムスケール修正(time scale modification)、知識または隣接オーディオ特徴に基づいた再生成(regeneration)、及び/またはモデルへのエラーまたは損失のうちいずれか1つのスピーチ特徴にマッチングされた復旧(recover)に基づいたモデルを含むデータ隠匿を含んでもよい。
【0080】
ユーザがパケット損失を認知することを最小化することができるように簡単なアルゴリズムは、除去されたフレーム、または以前良好なフレームの反復のために復元されたオーディオ(restored audio)に、サイレンスまたはノイズ代替(noise substitution)を含んでもよい。フレーム除去の連続したストリング(continuing string)のために、デコーダは、デコーディングされたスピーチボリュームを音消去することができる。さらに向上されたアルゴリズムは、以前に受信された状態が良好なスピーチフレームの特徴を考慮し、以前に受信された状態が良好なパラメータを補間することができる。もしジッタバッファが採択されれば、補間目的のために除去されたフレームの両側面で、状態が良好なスピーチフレームを使用する機会がある。
【0081】
送信機基盤のFECアルゴリズムは、さらにリソースを消費するが、受信機基盤のFECアルゴリズムよりさらに強力である。送信機基盤のFECアルゴリズムは、一般的に、フレーム除去が発生した場合、損失されたフレームの再構成のために使用するリダンダント情報を、サイドチャンネルを介して伝送することができる。送信機基盤のFECアルゴリズムの性能は、プライマリー・チャネルからの付加情報伝送と相関関係がない。セルラ・ネットワークで、リアルタイムスピーチ・コーディング・アプリケーションのために、部分的に相関関係を除去することは、一つ以上のフレームにリダンダント情報を伝送することをディレイすることによって行われる。それは、典型的には、ディレイが制限されたシステムの伝送経路でディレイをもたらし、ディレイは、受信機にジッタバッファによって部分的に軽減される。ジッタバッファは、デコーディング部250に含まれる。
【0082】
本発明の一実施形態によれば、受信機に提供される付加(side)情報またはリダンダンシ情報は、本来スピーチフレーム(全体リダンダンシ)の完璧な複写本(copy)、またはフレームの臨界的(critical)サブセット(部分リダンダンシ)を含んでもよい。選択的なリダンダンシは、スピーチフレームの選択されたサブセットが、付加情報と共に伝送される技術を意味する。全体スピーチフレームまたはフレームのサブセットは、選択的な方式で伝送される。
【0083】
他のアプローチ方式は、スピーチを、2つの異なるコーデックでエンコーディングするのである。一つは、一般的なコーディングのために、所望のコーデックでエンコーディングするものであり、他の一つは、低いレート、低い正確度のコーデックでエンコーディングするのである。本発明の一実施形態によれば、多様なレンダリングが適用される。付加チャネルの考慮された低いレートバージョンでエンコーディングされたスピーチが、デコーダに伝送される。
【0084】
さらに、本発明の一実施形態によれば、差等的なエラー保護(unequal error protection)が行われる。フレームの符号化されたビットは、クラスに分類される。クラスA,B,Cは、除去されるビットまたはパラメータの敏感度に基づいて決定される。クラスAに属するビットまたはパラメータの除去(erasure)は、クラスCに属するビットまたはパラメータが損失されるときより、ボイス品質にさらに大きい影響を及ぼす。符号化されたビットまたはパラメータをクラスに分類することは、フレームをサブフレームに分割することと参照される。サブフレームという用語の使用は、分類されたエンコーディングされたビットが、サブフレームそれぞれが連続的になることを要求しないということを意味する。
【0085】
送信機基盤のFECシステムで、受信機は、フレーム除去を認識し、除去されたフレームのためのリダンダント付加情報が受信されているか否かを判断することができる。もし付加情報も損失された状況は、受信機基盤のFECシステムで、付加情報が損失されることと同一である。それにより、受信機基盤のFECアルゴリズムが適用される。もしリダンダント付加情報が存在する場合、付加情報は、受信機が隠匿目的に使用することができる他の関連情報と、損失されたフレームとを隠匿するために使用される。
【0086】
前述のように、EVSコーデック26は、他の動作モードと区分されるhigh FER動作モードを含んでもよい。EVSコーデック26のhigh FER動作モードは、プライマリー動作モードではなく、ユーザが、フレーム損失が発生する一般的な状況よりさらによく経験する場合に選択される。
【0087】
このメカニズムの成功と失敗は、フレームが無線インターフェースを介して首尾よく伝送された否かということのように、迅速なフィードバックを提供するのである。全体伝送経路を伴うリンク品質のフィードバックは、一般的に遅い。そして、フィードバックは、さらに高い階層通信、またはモバイルとモバイルとの通話のような場合、EVSコーデック26間に専念するバンド信号のうちいずれか一つを伴う。
【0088】
本発明の一実施形態によれば、EVSコーデック26のhigh FER動作モードのために、FECフレームワークが提供される。このフレームワークは、EVSコーデック26の固定レートモード及び帯域幅に有効である。一実施形態で、このFECフレームワークは、EVSコーデック26の全体固定レートモード及び帯域幅に有効である。従って、本発明の一実施形態によれば、フレームワークは、固定レートでエンコーディングされたフレームの部分的または全体的なリダンダンシの伝送方法を含んでもよい。
【0089】
本発明の一実施形態によれば、部分的及び全体的なリダンダンシは、high FER動作モードの間、固定されたサイズの伝送ブロックを伝送することができる。一般的な動作モードで、high FER動作モードへの転移は、伝送ブロックサイズの変化を引き起こす。本発明の一実施形態によれば、(1)固定されたか、あるいは多様なビットレートと、固定されたサイズとの伝送ブロックと共に、部分的(partial)、差等的(unequal)または全体的(full)なリダンダンシを使用したり、あるいは(2)固定されたり、あるいは多様なビットレートと多様なサイズとの伝送ブロックと共に、部分的、差等的または全体的なリダンダンシを使用することができる。
【0090】
本発明の一実施形態によれば、
図1で、EVSコーデック26のhigh FER動作モードは、選択的なリダンダンシの例示を示している。
【0091】
以下で説明するように、EPS環境で、EVSコーデック26と相互作用する2種の例示がある。ここで、相互作用というのは、エンコーディング部100がhigh FER動作モードとして決定するか否かを判断するために、デコーディング部150からエンコーディング部100へのフィードバックを意味する。そして、デコーディング部150は、フレーム除去レートをモニタリングすることにより、high FER動作モードに入るか否かを決定することができる。
【0092】
もしデコーディング部150が、high FER動作モードに入ると決定する場合、かような決定は、オーディオまたはスピーチの次のフレームを、high FER動作モードでエンコーディングするように、エンコーディング部100に伝送される。同様に、
図2Bから分かるように、もしエンコーディング部100及びデコーディング部150のうちいずれか一つが受信された情報に基づいて、high FER動作モードに入ると決定されれば、端末200は、カンファレンス・コールまたはVOIPセッションから、オーディオデータまたはスピーチデータをエンコーディングしたり、あるいはデコーディングすることができる。そして、端末200は、high FER動作モードで、次のフレームをエンコーディングすることができ、終端に位置した端末200が、high FERモードで動作するように、終端に位置した端末200に通知することができる。また、デコーダは、フレームと関連したシグナリングから、フレームがhigh FERモードにあるか否かが分かる。
【0093】
EVSコーデック26は、4種のソースのうち一つ以上を処理された情報に基づいて、high FER動作モードに入ることができる。ここで、4種ソースは、次の通りである。(1)物理的階層で伝送されたハイブリッド自動反復要請(HARQ:hybrid automatic repeat request)フィードバックであるファースト・フィードバック(FFB:fast feedback)情報、(2)物理的階層よりさらに高い階層で伝送されたネットワーク・シグナリングからフィードバックされたスロー・フィードバック(SFB:slow feedback)情報、(3)終端(far end)で、EVSコーデック26からインバンド・シグナリングされたフィードバック(IS:in-band feedback)情報、及び(4)リダンダント方式(redundant fashion)で伝送される特定クリティカル・フレーム(specific critical frame)のEVSコーデック26による選択であるハイセンシティビティ・フレーム(HSF:high sensitivity frame:HSF)情報。ソース(1)及び(2)は、EVSコーデック26に独立的である一方、ソース(3)及び(4)は、EVSコーデック26に依存的であり、EVSコーデック26のための特定アルゴリズムを要求する。
【0094】
high FER動作モードに入るか否かを決定することは、high FER動作モード・アルゴリズムに基づく。本発明の一実施形態によれば、
図2Bのコーディング・モード設定部255は、以下のアルゴリズム1で図示されたところによって、high FER動作モード・アルゴリズムを遂行することができる。
(アルゴリズム1)
前述のように、本発明の一実施形態によれば、
図2Bのコーディング・モード設定部255は、4個のソースのうち一つ以上処理された分析情報に基づいて、EVSコーデック26に、high FERモードに入ることを指示することができる。ここで、ソースは、次の通りである。(1)SSF情報を利用して、Nsフレームの計算された平均エラーレートから導出されたSFBavg、(2)FFB情報を利用して、Nsフレーム平均の計算された平均エラーレートから導出されたFFBavg、(3)ISB情報と、それぞれの臨界値であるTs、Tf及びTiを利用して、Nsフレームの計算された平均エラーレート路から導出されたISBavG。
【0095】
それぞれの臨界値を比較した結果に基づいて、
図2Bのコーディング・モード設定部255は、high FER動作モードに入るか否かということと、選択するFECモードとを決定することができる。選択されたFECモードは、表6及び表7で説明するコーディング・タイプ及びフレーム分類決定に基づく。
【0096】
本発明の一実施形態によれば、high FER動作モードに入るという決定に従属し、オーディオ情報またはスピーチ情報をエンコーディングするために、追加してhigh FER動作モードに含まれた複数のサブモードが存在する。ここで、high FER動作モードは、複数のサブモードで動作し、小さい数のビットは、選択されたそれぞれのサブモードに係わるシグナリングのために使用される。ここで、小さい数のビットは、オーバーヘッド部分になり、潜在的に、現在または将来の4世代3GPP無線ネットワーク方式で、保有ビット(reserved bit)にもなる。
【0097】
本発明の一実施形態によれば、RTPペイロードでの1つのビットは、high FER動作モードをシグナリングするために要求される。この1つのビットは、high FERモードフラグとすることができる。例えば、既存のAMR−WBで、RTPペイロードは、4個の余分ビット(extra bit)を有し、かようなビットは、割り当てられずに保有される。さらに、high FER動作モードで、サブモードをシグナリングするために、いくつかのビットの保有が要求される。かようなビットは、FECモードフラグとすることができる。それらビットは、表3のクラスAに属するビットのためのリダンダンシと類似した方式でリダンダンシとして保護される。
【0098】
送信機基盤のFECアルゴリズムは、一般的に、リダンダント情報を伝送するために、付加チャネル(side channel)を使用することができる。本発明の一実施形態によれば、EVSコーデック26のコンテクスト及びEPSで、コンテクストの使用側面で、たとえ予想されるEVSコーデックが付加チャネルを提供しないとしても、LTE無線インターフェースで定義された伝送ブロックを効率的に使用することができる。動作モードそれぞれについて、下記表2は、最初から次に大きい(next higher)、または2番目の次に大きい(second next)伝送ブロックサイズが活用可能な追加ビットの個数を示す。本発明の一実施形態によれば、効率的な動作のために、全ての追加ビットが使用される。
【0099】
【表2】
フレームnと無関係なパケットに、フレームnと係わるリダンダント・ビットまたはパラメータを伝送することにより、フレーム損失の強靭性(robustness)が遂行される。例えば、フレームnと係わるエンコーディングされたビットは、パケットNで伝送される一方、フレームnと係わるリダンダント・ビットは、パケットN+1で伝送される。それは、時間ダイバーシティ(time diversity)として知られている。もしパケットNが除去され、パケットN+1が有効に伝送されるのであるならば、リダンダント・ビットは、フレームnを隠匿したり、あるいは再構成するために使用される。
【0100】
図3は、本発明の一実施形態による、代替パケット(alternate packet)に提供される1つのフレームのためのリダンダント・ビットの例示を示している。
図3で、第1パケットは、EVSコーデック26で、high FER動作モードではない一般動作モードを示す。そして、AMR−WBコーデックのRTPペイロードのヘッダーサイズと同一に、
図3のRTPペイロードのヘッダーサイズは、74ビットである。
【0101】
中間パケットは、high FER動作モードでの伝送メカニズムを示す。そして、118個のFECビットは、以前フレーム(n−1)のためにパケットに含まれる。リダンダント情報が含まれた中間パケットは、伝送ブロックのサイズが472である。3番目のパケットは、high FER動作モードで動作するパケットの次のところに位置する。3番目のパケットは、再びhigh FER動作モードでの伝送メカニズムを示し、118個のFECビットが、以前フレームnのために、パケットに含まれる。従って、本発明の一実施形態によれば、high FER動作モードで、少なくとも1つの代替パケットでのデータは、リダンダント情報を伝送するために使用される。
【0102】
図4は、本発明の一実施形態による、フレームnのためのリダンダンシ・ビットが2個の代替パケットに提供されるところを図示している。
図4に図示されたように、それぞれのパケットは、それぞれのフレームのためのEVSエンコーディングされたソースビットと、2個の以前フレームのためのFECビットとを含む。例えば、パケット(N+2)は、EVSエンコーディングされたソースビット、フレーム(n+1)のためのFECビット、及びフレームnのためのFECビットを含む。他の方法として、フレームnのためのリダンダンシ・ビットは、2個の以後の(N+1)パケットと(N+2)パケットとを介して伝送される。
【0103】
図5は、本発明のの一実施形態による、フレームnのパケットの前後に位置した代替パケットに提供されるフレームnに係わるリダンダント・ビットの例示を図示した図面である。
図5を参照すれば、パケットの前後位置に存在するパケットに、リダンダンシ・ビットが位置するように、エンコーダは、ディレイのための余分フレームを挿入することができる。ここで、リダンダンシ・ビット(redundancy bits)は、ターゲット・フレームに係わるEVSエンコーディングされたソースビットを含む。
図5でのように、デコーダで、エンコーダへの追加的なディレイがシフトされる。さらに、
図5のように、シーケンスで真っ先に除去されたリダンダンシ・ビットよりは、伝送が成功したシーケンス内部で、中間に除去されたリダンダンシ・ビットの3個の除去結果(triple erasure results)のような除去パターンがシフトされる。代替パケットは、隣接パケットとされ、追加パケットは、中間パケットの前後に位置する非連続的な(non-consecutive)パケットを含む。追加パケットは、隣接パケットとして参照される。
【0104】
さらに、他の隣接パケットで、リダンダンシ・ビットが位置し、リダンダンシ・ビットは、知覚的な重要度(perceptual importance)に基づいて、過不足(more orl ess)リダンダンシが選択的に含まれもする。
【0105】
従って、本発明の一実施形態によれば、固定ビットレートに係わるhigh FERモードは、知覚的な重要度により、さらに大きいリダンダンシ、同一のリダンダンシ、またはさらに小さいリダンダンシでエンコーディングされたスピーチビットを優先化して保護することができる差等的なリダンダンシ保護概念(unequal redundancy protection concept)を使用することができる。例えば、本発明は、3GPPコーデックであるAMR及びAMR−WBを使用してエンコーディングされたビットをクラスに分類することができる。例えば、クラスA,B,Cで、クラスAに属するビットは、除去されるとき、最も敏感なビットを意味し、クラスCに属するビットは、除去されるとき、最も敏感ではないビットを意味する。アプリケーションが、サーキット・スイッチされた伝送(circuit-switched transport)、またはパケット・スイッチされた伝送(packet-switched transport)を使用するか否かにより、それらビットを保護するための異なるメカニズムが存在する。
【0106】
本発明の一実施形態によれば、差等的なリダンダンシ保護概念は、エンコーディングされたソースビットだけではなく、追加的なFEC付加情報に拡張される。異なるクラスに属するビットは、時間ダイバーシティを利用して、リダンダント方式で伝送される。そして、ビットのクラスにより、リダンダンシの量が変更される。
【0107】
図6は、本発明の一実施形態による、ソースビットが属する異なる分類に基づいて、代替パケットに含まれたソースビットの差等的なリダンダンシを図示している。
図6は、
図3ないし
図5に図示された方法と異なる方法を意味する。
【0108】
図6に図示されたように、ソースビットに係わる3個のカテゴリーが定義される。クラスAに属するソースビットは、3個の連続的なパケットを介して、3回リダンダントに(redundantly)伝送される。そして、クラスBに属するソースビットは、2個の連続的なパケットを介して、2回リダンダントに伝送される。また、クラスCに属するソースビットは、1回リダンダントに伝送される。
図6で、Nは、パケット番号を示し、nは、フレーム番号を示す。
図6の例示で、同じサイズを有したパケットそれぞれは、RTPペイロードに追加された3*A+2*B+Cビットを含む。
【0109】
デコーディング部250のように、デコーダのジッタバッファ深(jitter buffer depth)が十分である場合、デコーダは、クラスAに属するソースビットまたはパラメータを3回デコーディングする機会を有し、クラスBに属するソースビットまたはパラメータを2回デコーディングする機会を有し、クラスCに属するソースビットまたはパラメータを1回デコーディングする機会を有する。
【0110】
例えば、選択的な実施形態として、エンコーディングされたソースビットは、クラス(A,B)または(A,B,C,D)のように、さらに少なかったり、あるいは多いクラスに分類される。全体リダンダンシは、部分リダンダンシよりクラスCに属するビットを追加的に伝送することによって行われる。そして、さらに高い動作効率のために、クラスCに属するビットは、伝送されないこともある。そして、効率的な目標のために、クラスAに属するビットだけ伝送されもする。
【0111】
従って、本発明の一実施形態によれば、現在フレームの以前フレームまたは以後フレームである隣接フレームに、現在フレームのためのFECビットが追加して含まれる。ソースフレームのビットは、それらの知覚的な重要度のような優先度に基づいて、カテゴリー化される。最大の知覚的重要度を有したり、あるいは損失されたとき、人間の耳にさらに敏感であったり、あるいは認知されるソースフレームのビットまたはパラメータは、さらに低い知覚度を有した同じソースフレームのビットまたはパラメータよりさらに多くの隣接パケットを介してリダンダントに伝送される。
【0112】
エンコーダから導き出された付加情報は、エンコーディング・アルゴリズムの一部にもなる。以下で具体的に説明するように、付加情報は、他のビットまたはパラメータのようにリダンダントに伝送される。
【0113】
隠匿目的のために、本発明の一実施形態によるデコーダは、
図3ないし
図6でのように、エンコーディングされたソースビットのリダンダント複写本に係わる利益だけではなく、デコーダFECアルゴリズムのために、特別に設計されたFECパラメータに係わる利益を受けることができる。一例として、ITU−Tスピーチ・コーデック標準G.718で、16個のFECビットは、コーデックの3階層から付加情報として伝送され、隠匿目的に1階層が使用される。
【0114】
一例として、下記表3では、G.718コーデックと係わり、EVSコーデック26及び付加情報の6.6Kbpsモードを使用することができる。EVSコーデック26の6.6Kモードは、132個のソースビットを含む。さらに、G.718コーデックと同様に、FECビットをシグナリングするための2個のビットと、FEC付加情報のための16個のビットとを追加して定義することができる。下記下表は、本発明の一実施形態による、優先度に基づいて、EVSソースビットとFECビットとを割り当てする例を示している。
【0115】
【表3】
前記表3から分かるように、全体(45+57+48)ビットが伝送される。前述のリダンダンシ方法を利用すれば、各パケットは、全体(3A+2B+C=297)ビットと、74RTPペイロード・ビットとから構成された総371ビットを含む。伝送ブロックの全体サイズ376で5ビットが余る。そして、他のクラスA,B,Cに分類されたソースビットは、動作モードに基づいて、コーデックがCELP(code-excited linear prediction)コーデックで動作するとき、線形予測パラメータのように、異なって分類されたスピーチのパラメータを示す。
【0116】
従って、本発明の一実施形態による、一回high FERモードに入る場合、使用可能な帯域幅(容量:capacity)及びFEC保護(強靭性)の程度により、使用可能なさまざまなサブモードが存在する。それらパラメータは、要求する固有したスピーチ品質の量とトレードオフ関係にある。例えば、帯域幅、品質、エラー強靭性の互いに異なる優先順位に基づいて、6個のサブモードが存在する。下記表4は、多様なサブモードの属性を示している。
【0117】
以下の例示のように、クラスA,B及びCと表現されるソースビットのリダンダンシ伝送を仮定し、献身的な(dedicated)FECビットがないと仮定する。さらに容易には、RTPペイロードのサイズは、全ての例で74と仮定する。
【0118】
【表4】
図7は、本発明の一実施形態による、差等的なリダンダンシが適用されたFEC動作モードの例示を図示している。例えば、多くのサブモードは、high FER動作モードではないスピーチモードで遂行するように、同一のEVSコーディング・モードを使用する。当該例として、最も低いモードは、効率性目的のために選択され、high FER動作モードであるとき、強靭性及び容量の優先順位が最も高い。さらに、同じEVSコーディング・モードを使用することは、デコーダが1つのFECコーディング・モードを使用するように、FECアルゴリズムを単純化することができる。選択的に、以下で説明するように、本発明の他の実施形態は、追加的なコーディング・モードを使用することができる。
【0119】
図7から分かるように、増加されたリダンダンシを収容するように、サイズがさらに大きいパケットのために、サブモード1からでサブモード6にサブモード過程が増大する。
【0120】
図11は、本発明の一実施形態による、high FER動作モードの異なるFECモードを利用して、オーディオデータをコーディングする方法を図示する。
図11に図示されたように、段階(1105)で、入力オーディオが分析され、入力オーディオは、スピーチ・オーディオであるか、あるいはノンスピーチ・オーディオであるかが決定される。もし入力オーディオがノンスピーチ・オーディオである場合、段階(1110)で、入力オーディオは、ノンスピーチ・コーデックでエンコーディングされたり、あるいはノンスピーチモードのEVSコーデック26でエンコーディングされる。もし入力オーディオがスピーチ・オーディオである場合、段階(1115)でbhigh FER動作モードに入るか否かを判断することができる。high FER動作モードに入るか否かを判断するのは、前述のアルゴリズム1と係わる。
【0121】
もし段階(1115)でhigh FER動作モードに入ると決定されていなければ、段階(1120)で、前述の表1の動作モードのうち一つが、EVSコーデック26のために選択される。段階(1120)で、一回スピーチ・エンコーディングのための動作モードが選択されれば、段階(1130)で、スピーチ・エンコーディングのために選択された動作モードによって、入力オーディオがエンコーディングされる。もし段階(1115)で、high FER動作モードに入ると決定されれば、段階(1125)で、多様なFEC動作モードのうち1つのFEC動作モードが選択される。そのために、段階(1135)で、入力オーディオは、選択されたFEC動作モードで、EVSコーデック26を利用してエンコーディングされる。
【0122】
同様に、
図14は、本発明の一実施形態による、high FER動作モードで、異なるFECモードを使用して、オーディオデータをデコーディングする過程を図示している。段階(1405)で、受信されたパケット内部に存在するエンコーディングされたフレームが、スピーチ・オーディオまたはノンスピーチ・オーディオに基づいて、エンコーディングされているか否かを判断することができる。もしエンコーディングされたフレームが、ノンスピーチ・オーディオである場合、段階(1410)で、EVSコーデック26が適切な動作モードを利用して、ノンスピーチ・オーディオをデコーディングすることができる。
【0123】
もし受信されたパケットに、エンコーディングされたスピーチデータが含まれた場合、段階(1415)で、パケットは、スピーチデコーディングのための動作モードを決定するためにパージングされる。ここで、動作モードは、フレームがhigh FER動作モードでエンコーディングされているか否かを決定することができる。例えば、high FERモードフラグが受信されたパケットに設定されておらず、フレームがhigh FER動作モードでエンコーディングされていない場合、段階(1420)で、スピーチ・デコーディングのための適切な動作モードが選択され、EVSコーデック26は、選択された動作モードで、スピーチ・デコーディングを遂行することができる。もしフレームがhigh FER動作モードでエンコーディングされたものであるならば、段階(1425)で、フレームをエンコーディングするとき、いかなるFEC動作モードが使用されたかを判断するために、パケットがパージングされる。EVSコーデック26は、判断されたFEC動作モードに基づいて、フレームをデコーディングすることができる。
【0124】
ここで、本発明の一実施形態によれば、
図14の方法は、段階(1405)と段階(1405)とが動作する以前、あるいは動作する間に判断する段階をさらに含む。具体的には、パケットが損失されているか否かを判断する段階がさらに含まれる。かような判断は、本発明の一実施形態による、隣接パケットに含まれたリダンダント情報に基づいて、損失されたパケットを再構成(reconstruct)したり、あるいは損失されたパケットを隠匿するために、FECフレームワークに基づいて、以前パケットまたは以後パケットで、リダンダント情報を使用するように、EVSコーデック26での命令を含む。
【0125】
図7と異なる伝送ブロックサイズを代替するために、一般的な(regular)伝送モードで使用されるような複数の動作モードのために、同じ伝送ブロックサイズが維持される。かような場合、EPSシステムが、パケットサイズの変更をシグナリングする必要のないものではなく、high FERモードで、多くのEVSコーデック26の動作モードを利用する短所がないということを意味する。さらに多くのコーデックモードを使用するほど、隠匿アルゴリズムは、さらに複雑になる。
【0126】
図8は、本発明の一実施形態による、同じ伝送ブロックサイズを有したhigh FER動作モードで、異なるFEC動作モードを図示した図面である。ここで、異なるFEC動作モードは、high FER動作モードのサブモードとすることができる。その例として、EVSコーデック26の12.65Kbpsは、一般的なnon−high FER動作モードの一例として使用される。high FER動作モードのサブモード1−4それぞれは、同じ伝送ブロックサイズ328を維持する。低いソース・コーディングの比率によって、リダンダンシの増加が伴いもする。
【0127】
サーキット・スイッチされた伝送で、マルチモードAMRコーデック及びAMR−WBコーデックのように、他の3GPPコーデックによって使用される以前の方法と異なり、チャネル条件に基づいて、さらに低いか、あるいは増加されたビットレートで、モードがスイッチされる。
図8は、追加的なリダンダンシまたはFECビットが含まれたり、あるいはフレームパケットサイズが維持されるように、異なるサブモードでビットレートが低下するところを図示している。
【0128】
図12は、本発明の一実施形態による、全てのFEC動作モードのために、同じビットレートまたはパケットサイズで維持するか否かに基づいたFECフレームワークを図示した図面である。
図12に図示されたように、段階(1125)で、FEC動作モードが選択され、段階(1125)で、EVSコーデック260は、選択されたFEC動作モードによって遂行される。図示されているように、段階(1125)で、段階(1220)または段階(1230)によって表現されたFEC動作モードのうち一つを直接に選択したり、あるいは段階(1210)で、同じビットレートまたは同じパケットサイズが決定されれば、段階(1220)が遂行され、他のビットレートまたは異なるパケットサイズが決定されれば、段階(1230)が遂行される。
【0129】
図7と同様に、段階(1230)が考慮される。ここで、パケットサイズは、多様に変更可能である。そして、段階(1220)で、隣接フレームから抽出されたエンコーディングされたEVSソースビットは、現在パケットのエンコーディングされたEVSソースビットの低減されたレートモードに追加される。具体的には、段階(1220)で、EVSビットレートは、低いビットレート・モードに変更される。その場合、隣接フレームから抽出したソースビットは、本来の動作モードとパケットサイズを同一に維持するために追加される。段階(1220)で、EVSビットレートは、本来の動作モードと同一に維持される。その場合、隣接フレームから抽出したソースビットは、パケットサイズと無関係に追加される。
【0130】
段階(1240)で、high FER動作モードに入り、FEC動作モードが選択されれば、FEC付加情報は、エンコーディングされたフレームのパケットで、フラグとして反映される。high FER動作モードは、パケット内部で、1つのビットを利用して設定され、選択されたFEC動作モードは、2〜3個のビットを利用して設定される。
【0131】
隣接フレームから導き出された全ての情報は、リダンダンシ情報である。リダンダンシ情報は、現在パケットで伝送される。現在フレームと関連したリダンダンシ情報は、隣接した隣接パケットを介して伝送される。もし同じビットレートを維持するためには、リダンダンシ・ビットを収容するように、パケットサイズが増大させることができる。そして、同じパケットサイズを維持するために、ソースビットの個数が減少するように、コーディング・モードが変更される。
【0132】
本発明の一実施形態によれば、high FER動作モードに入った後、コードブック「robbing」を伴い、同じ伝送ブロックサイズを維持することができる。そして、コードブックは、表4及び
図8のサブモード1と同様に、リダンダンシの小さい量を提供するときに有用である。EVSコーデック26は、サブフレームに分割され、各サブフレームについて、複数のコードブック・ビットがパラメータとして計算される。下記表5に図示されたように、コードブック・ビットの個数は、エンコーディング・モードによって異なって決定される。
【0133】
【表5】
本発明の一実施形態において、もしEVSコーデック26の一般的な動作モードが、12.65Kbpsであるならば、high FER動作モードに入るように、一般的な動作モードが維持される。エンコーダが、4個のサブフレームのうち一つについて、high FER動作モードで動作すれば、動作モードが、実際に12.65Kbpsであるとしても、動作モードが8.85Kbpsで動作するように、コードブック・ビットを計算することができる。サブフレームは、フレームのオーディオを表現するフレームのビットまたはパラメータによって表現される。パラメータは、コーデックがCELPコーデックで動作するとき、コーデックによって生成されるCELP(code-excited linear prediction)コーディングの線形予測パラメータを含む。
【0134】
前述の表5のように、12.65Kbps動作モードによって、コードブック・ビットが計算されるのであるならば、要求される36ビットの代わりに、最初ないし3番目のサブフレームのビットについて、コードブックを定義するために、20ビットが使用される。FECの目的のために、コードブック「robbing」を利用することにより、16ビットが節約される。FECビットの伝送は、同じ個数のビットが存在するために、本来の動作モードのように、同じパケットサイズで行われる。ほとんどのhigh FER動作モードのサブモードのように、かようなアプローチと関連した若干の品質劣化が存在する。
【0135】
表4及び
図8のアプローチと異なり、high FER動作モードのサブモードそれぞれについてソース・コーディングを行うコーデックのために、ビットレートは、順次に低下する。表5によれば、ビットレートが低下したビットレートである場合、ビットレートは、低下させるだけではなく、コードワードを計算する必要がない。
図8に図示されたFEC情報は、
図1ないし
図6で説明されるところと類似したリダンダンシを含む。前記リダンダンシは、前記表3で説明された差等的なリダンダンシを含む。ここで、分割されたサブフレームは、それぞれ表3で、A,BまたはCそれぞれのために使用される。ここで、さらに重要なサブフレームまたはパラメータは、他のサブフレームまたはパラメータよりさらに多くのリダンダンシを有する。
【0136】
図13は、本発明の一実施形態による、FEC動作モードの3種の例示を図示している。表3及び
図6で考慮したように、フレームのビットまたはパラメータは、知覚的重要度によってクラスに分類される。従って、段階(1310)で、ビットを異なるクラスまたはサブフレームに分類するために、フレームは、分割されたり、あるいは分離される。そして、段階(1315)で、各クラスまたはサブフレームに係わるリダンダント情報は、
図6及び
図7のように、隣接フレームに差等的に提供される。
【0137】
段階(1320)で、分割されたり、あるいは分離されたビットまたはパラメータそれぞれについて、コードブック・ビットの個数が計算される。フレームの動作モードに係わるビットレートより低いビットレートでエンコーディングされるために、ビットまたはパラメータは、クラスとサブフレームとに分類される。従って、段階(1330)で、計算されたコードブック・ビットの個数に基づいて、定義されたコードワードは、エンコーディングされる。
【0138】
さらに、段階(1340)で、定義されたコードワードを考慮するとき、
図6及び
図7と同様に、エンコーディングされたクラスまたはサブフレームのリダンダント情報は、隣接パケットに差等的に提供される。
【0139】
前述の
図3ないし
図8、及び表3ないし表5のhigh FER動作モードは、スピーチフレームが、ビットのクラスまたはパラメータのクラスに分類するために利用される。ビットのクラスまたはパラメータのクラスは、除去されるビットまたはパラメータの知覚的重要度によって区分される。
【0140】
しかし、G.718コーデック及び予想されたEVS候補コーデックを含むいくつかのスピーチ・コーデックで、入力スピーチフレームは、スピーチタイプにより、多様なコーディング・タイプにコーディングされる。G.718コーデック及び予想されたEVS候補コーデックのいずれでも、エンコーディングされたスピーチフレームは、FEC目的のために追加して分類される。それらフレームの分類は、スピーチフレームのシーケンスで、コーディング・タイプ及びスピーチフレームの位置に基づく。
【0141】
例えば、広帯域スピーチのために、下記表6に図示されたように、G.718コーデック及び予想されたEVS候補コーデックで、4個のコーディング・タイプが使用される。
【0142】
【表6】
G.718コーデックによれば、コーディング・タイプ情報は、付加チャネルを介して伝送される。付加チャネルは、予想されたEVS候補コーデックで、現在使用可能ではない。付加チャネルの不足を克服するために、G.718コーデックのアプローチと類似した付加情報は、前述のコンセプトと、表3で説明したコンセプトとを利用して、FECビットに伝送される。特定フレームの分類タイプが隣接したフレームの分類タイプに従属すれば、5個のコーディング・タイプは、既設定の個数のビットでシグナリングされる。本発明の一実施形態によれば、表7に図示されたコーディング・タイプが図示される。
【0143】
【表7】
前述のように、
図6に図示された多様なパケット構造は、知覚的な重要度を考慮して、多様な量のリダンダンシを有したスピーチフレームを伝送するために使用される。フレームの知覚的重要度は、表6に図示されたコーディング・タイプ、表7に図示されたフレーム分類または隣接したフレームで示されるあるアルゴリズムのうちいずれか一つから決定される。そして、フレームの知覚的重要度は、隣接したフレーム間に、リダンダンシ・ビットに係わる最適のトレードオフを決定することができる。
【0144】
本発明の一実施形態によれば、
図6のアプローチ方式、表6のコーディング・タイプ及び表7のフレーム分類を考慮して、コーディング・タイプまたはフレーム分類に基づいて、使用される多様な量のリダンダンシを有したスピーチフレームを伝送するように、
図6のパケット構造が制限される。本発明の一実施形態によれば、前記制限は、クラスAの個数は、クラスCの個数と同一である。
【0145】
かようなアプローチによって、リダンダンシを伝送するときに使用される4種のサブタイプが
図9に図示される。
【0146】
図9は、本発明の一実施形態による、クラスAの個数と、クラスCの個数とが同一であるという制約に基づいて、リダンダンシを伝送するときに使用されるパケットの4種サブタイプを図示している。
【0147】
例えば、
図9のパケットタイプ1は、
図6のリダンダンシの伝送で使用されるように、同じパケット配列である。例えば、
図6のパケットNについてエンコーディングされたソースビットA
n,B
n,C
n,A
n−1,B
n−1及びA
n−2が使用される。
【0148】
図10は、本発明の一実施形態による、オンセット・フレームに、向上された保護を提供する多様なパケット・サブタイプを図示している。
【0149】
図9に図示された4種のパケット・サブタイプから、データパケット・サブタイプを選択することにより、エンコーディングされたスピーチフレームは、それぞれのフレームに係わる知覚的重要度により、さらに高いか、あるいはさらに低いリダンダンシ保護のために選択される。
図10は、オンセット・フレーム(隣接したフレームのコストで)の向上された保護(enhanced protection)を提供するために、多様なパケット・サブタイプが使用される。
【0150】
図10の例示で、パケット(N−1)は、オンセット・フレームを含む。オンセット・フレームは、知覚的な観点で除去されるとき、最も敏感度が高いと知られたフレームを意味する。フレーム(n−1)のリダンダンシ保護のために、パケットN及びパケット(N+1)が使用される。従って、パケットNは、サブタイプ0が選択され、パケット(N+1)は、サブタイプ3が選択される。フレーム(n−1)の向上されたリダンダンシ保護の結果が図示される。
【0151】
図10で図示されたように、フレーム(n−1)は、パケット(N−1)、パケットN及びパケット(N+1)を介して、全体的に3回連続的に伝送される。増加された保護は、フレーム(n−1)及びフレームnの保護に係わるコストとして示される。一般的に、フレーム(n−1)がオンセットであるならば、フレーム(n−2)は、相対的に低い保護が必要なアンボイスされたフレームである。本発明の一実施形態によれば、2個のシグナリングビットを伝送するために、4個のパケット・サブタイプが使用される。例えば、表3に図示されたように、それらのシグナリングビットは、クラスAに属するFECビットのように伝送される。
【0152】
前述のように、
図2A及び
図2Bは、FECアルゴリズムを介して、オーディオデータをエンコーディングまたはデコーディングすることができる一つ以上の端末200を含む。端末200は、
図1のように、EPSコーデック及び/またはEVSコーデック26で行われる。代替的な環境(alternative environment)とコーデックは、同等に使用される。
【0153】
さらに、本発明の一実施形態による
図2Bの端末200は、ソース端末、受信機端末、エンコーディング動作とデコーディング動作とを遂行することができる中間エンコーディング/デコーディング端末、デコーディング端末150、またはネットワーク140によって提供された2個の端末間のネットワーク経路を含む。一つ以上の実施形態によれば、端末200は、異なるプロトコルで異なるネットワークタイプを介して、オーディオデータを受信したり伝送することができる。ここで、異なるネットワークタイプは、有線電話通信システム、セルラ電話またはデータ通信ネットワーク、あるいは無線携帯電話またはデータ通信ネットワークを含む。本発明の一実施形態によれば、端末200は、VOIPアプリケーション及びシステムを含むだけではないリアルタイム・ブロードキャスティング、マルチキャスト・ブロードキャスティング、及び時間遅延、保存またはストリーミングされたオーディオ・アプリケーション及びシステムを介した遠隔カンファレンス・アプリケーション及びシステムを含む。エンコーディングされたオーディオデータは、その後の再生のために記録され、ストリーミングされたブロードキャストまたは保存されたオーディオデータからデコーディングされる。
【0154】
本発明の一実施形態によれば、一つ以上の端末200は、有線携帯電話、モバイルフォン、PDA、スマトフォン、タブレット・コンピュータ、セットトップボックス、ネットワーク端末、ラップトップ・コンピュータ、デスクトップ・コンピュータ、サーバ、ルータまたはゲートウェイを含む。端末200は、DSP(digital signal processor)、MCU(main control unit)またはCPUのようなプロセシング装置のうち少なくとも一つを含む。
【0155】
本発明の一実施形態によれば、無線ネットワークは、ブルートゥース(登録商標(Bluetooth))または赤外線通信のようなWPAN(wireless personal area network)、無線LAN(local area network)(IEEE 802.11と同様)、無線大都市ネットワーク(wireless metropolitan area network)、802.16eのようなWiMaxネットワーク、802.16eのようなWiBroネットワーク、ネットワーク、GSM(登録商標(global system for mobile communications))、PCS(personal communications service)、及びいかなる3GPPネットワークをを含む。
【0156】
有線ネットワークは、地上基盤または衛星基盤の電話ネットワーク、ケーブルTV(television)、インターネット接続、光ファイバ通信、導波路、イーサネット(登録商標)通信ネットワーク、ISDN(integrated services digital network)、DSL(digital subscriber line)ネットワーク、HDSL(high bit rate digital subscriber line)ネットワーク、SDSL(symmetric digital subscriber line)ネットワーク、ADSL(asymmetric digital subscriber line)ネットワーク、ILECs(local exchange carriers)と係わるRADSL(rate-adaptive digital subscriber line)ネットワーク、VDSLネット、及びスイッチされたデジタルサービス(Non−P)及びPOTSシステムを含む。
【0157】
ネットワーク140と通信することができるソース端末は、ネットワーク140と通信することができる受信端末と異なる。そして、オーディオデータは、オーディオソースと、オーディオ受信機140との経路を介して、特定ポイントで、端末及び2個以上の異なるネットワークを介して通信することができる。本発明の一実施形態によれば、オーディオデータのエンコーディング、伝送、保存及び/またはデコーディングは、FEC情報を有することができる。そして、オーディオデータは、伝送プロトコルに適するパケットで包まれる。
【0158】
伝送プロトコルは、RTPパケットまたはHTTPパケットを支援することができる。RTPパケットまたはHTTPパケットそれぞれは、少なくとも1つのヘッダ、コンテンツ・テーブル及びペイロードデータをそれぞれ有することができる。例えば、RTPパケットまたはHTTPパケットは、それぞれTCP protocol、UDP protocol、Cyclic UDP protocol、DCCP protocol、Fiber Channel Protocol、NetBIOS protocol、Reliable Datagram Protocol、RDP、SCTP protocol、SPX(sequenced packete xchange)、SST(structured stream transport)、VSP protocol、ATM(asynchronous transfer mode)、MTP/IP(multipurpose transaction protocol)、μTP(micro transport protocol)、及び/またはLTEでもある。
【0159】
本発明の一実施形態によれば、デコーディング端末150とエンコーディング端末100とのQoS(quality of service)通信を含む。QoSは、RTCPまたはオーディオデータ伝送経路から外れた経路を含むいかなる経路またはプロトコルを介しても伝送される。QoSは、データパケットに含まれたエラーチェック・コードに基づいて決定される。本発明の一実施形態によれば、QoSに基づいて、FECモードを変更することができる。そして、FECモードを適用することにより、コーディング・ビットレートとコーディング・モードを変更することができる。
【0160】
本発明の一実施形態によれば、FEC方式を適用するか否か、及び/またはいかなるFECモードを適用するかを決定するために、QoSを比較するための一つ以上の臨界値を使用することができる。それぞれの比較のための一つ以上の臨界値が存在する。そして、QoSが、特定臨界値(Th1)より小さいか、あるいはそれと同じであるならば、臨界値は、FECモードがさらに信頼性があるか、低下されなければならないか、または増加されなければならないかを調節する必要があるか否かを示す。そして、QoSが、特定臨界値(Th2)より大きいが、あるいはそれと同じであるならば、臨界値は、ビットレートとFECモードとが信頼性が不足しているか、低減されなければならないか、あるいは増加されなければならないかを調節する必要があるか否かを示す。ここで、臨界値Th1とTh2は、同一でもある。
【0161】
本発明の一実施形態によれば、エンコーディング端末100とデコーディング端末150は、FECアプローチを利用して、オーディオデータをコーディングするために使用されるオーディオ・コーデックを含む。オーディオ・コーディングは、LPC(LAR、LSP)、WLPC、CELP、ACELP、A−law、μ−law、ADPCM、DPCM、MDCT、bit rate control(CBR、ABR、VBR)、及び/またはsub-bandコーディングを利用した一つ以上のアルゴリズムを使用することができる。そして、FECアプローチを利用するオーディオ・コーデックは、AMR、AMR−WB(G.722.2)、AMR−WB+、GSM−HR、GSM−FR、GSM−EFR、G.718及びEVSコーデックを含むいかなる3GPPコーデックをも含む。本発明の一実施形態で使用されるコーデックは、以前バージョンのコーデックと、逆に相互互換性を有することができる。
【0162】
エンコーディング端末100によって生成されたエンコーディングされたオーディオデータ・パケットは、エンコーダ側の一つ以上のコーデック120によってエンコーディングされたオーディオデータを含む。エンコーディングされたオーディオデータ・パケットは、エンコーダによってダウンミックスされたモノ信号であるSWB(super wideband audio)、エンコーダによってダウンミックスされたbinaural stereo audio data、フルバンド(FB)オーディオ及び/またはマルチチャネル・オーディオを含む。本発明の一実施形態によれば、エンコーディング過程は、同じであるか、あるいは異なるビットレートで、異なるタイプのオーディオデータをエンコーディングすることができる。本発明の一実施形態によれば、デコーディング端末150は、エンコーディングされたオーディオデータ・パケットと同様にパージングされる。
【0163】
従って、本発明の一実施形態によれば、端末200は、通信経路で制限された、マルチレート、多様なエンコーディングまたは翻訳(translation)を行うコーデックを含む。そして、端末200は、同じサンプリング・レートまたは異なるサンプリング・レートを有する多重レイヤ、または向上されたレイヤで、スケーラブル・コーディングを行うことができる。そして、デコーダは、ジッタバッファを含む。エンコーダ側面のコーデック120は、空間パラメータ推定、及びモノまたはバイナリのダウンミキシングを含む。前記リスティングされたオーディオ・コーデックのうち一つ以上は、一つ以上の異なるオーディオデータを生成することができる。そして、デコーダ側面のコーデック150は、推定されたパラメータのデコーディングに基づいて、対応するコーデック、モノまたはバイナリのアップミキシング及び空間レンダリングを含む。
【0164】
本発明の一実施形態によれば、ある装置、システム及びユニットの説明は、一つ以上のハードウェア装置またはハードウェア・プロセシング要素を含む。例えば、本発明の一実施形態で、説明された装置、システム及びユニットは、追加してメモリ、ハードウェア入出力伝送装置を含む。そして、装置は、物理的なシステムの構成要素と同意関係にあると見なされる。しかし、装置は、1つのデバイスに制限されたり、あるいは限定解釈されるものではない。そして、全ての説明された構成要素は、1つのそれぞれの保護範囲内に含まれもする。
【0165】
本発明の実施形態による方法は、多様なコンピュータ手段を介して遂行されるプログラム命令形態に具現され、コンピュータ可読媒体に記録される。前記コンピュータ可読媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせで含む。前記媒体に記録されるプログラム命令は、本発明のために特別に設計されて構成されたものであるか、コンピュータ・ソフトウェア当業者に公知されて使用可能なものでもある。
【0166】
以上のように本発明は、たとえ限定された実施形態及び図面によって説明されたにしても、本発明は、前記の実施形態に限定されるものではなく、本発明が属する分野で当業者であるならば、かような記載から多様な修正及び変形が可能であろう。
【0167】
従って、本発明の範囲は、説明された実施形態に限って決められるものではなく、特許請求の範囲だけではなく、当該特許請求の範囲と均等なものなどによっても決められるものである。