(58)【調査した分野】(Int.Cl.,DB名)
前記スペクトルデータは、入力オーディオ信号に対して、MDCT(modified discrete cosine transform)及び正規化を行って得られることを特徴とする請求項1に記載のスペクトル符号化方法。
【発明を実施するための形態】
【0012】
本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって具体的に説明する。しかし、それらは、本発明を特定の実施形態に対して限定するものではなく、本発明の技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。本発明についての説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。
【0013】
第1、第2のような用語は、多様な構成要素についての説明に使用されるが、構成要素は、用語によって限定されるものではない。該用語は、1つの構成要素を他の構成要素から区別する目的のみに使用される。
【0014】
本発明で使用した用語は、ただ特定の実施形態について説明するために使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り現在広く使用される一般的な用語を選択したが、それは、当分野の当業者の意図、判例、または新たな技術の出現などによって異なりもする。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分で詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本発明の全般にわたる内容とを基に定義されなければならない。
【0015】
単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであって、1またはそれ以上の他の特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないと理解されなければならない。
【0016】
以下、本発明の実施形態について、添付図面を参照して詳細に説明する。
【0017】
図1A及び
図1Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の一例による構成をそれぞれ示したブロック図である。
【0018】
図1Aに図示されたオーディオ符号化装置110は、前処理部112、周波数ドメイン符号化部114及びパラメータ符号化部116を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0019】
図1Aにおいて、前処理部112は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。入力信号は、オーディオ、ミュージックまたはスピーチ、あるいはそれらの混合信号を示すサウンドなどのメディア信号を意味するが、以下では、説明の便宜のために、オーディオ信号と称する。
【0020】
周波数ドメイン符号化部114は、前処理部112から提供されるオーディオ信号に対して時間・周波数変換を行い、オーディオ信号のチャネル数、符号化帯域及びビット率に対応して符号化ツールを選択し、選択された符号化ツールを利用して、オーディオ信号に対する符号化を行うことができる。時間・周波数変換は、MDCT(modified discrete cosine transform)、MLT(modulated lapped transform)あるいはFFT(fast Fourier transform)を使用するが、それらに限定されるものではない。ここで、与えられたビット数が十分な場合、全体帯域に対して一般的な変換符号化方式を適用し、与えられたビット数が十分ではない場合、一部帯域については、帯域拡張方式を適用することができる。一方、オーディオ信号が、ステレオあるいはマルチチャネルであるである場合、与えられたビット数が十分であるならば、各チャネル別に符号化し、十分ではなければ、ダウンミキシング方式を適用することができる。周波数ドメイン符号化部114からは、符号化されたスペクトル係数が生成される。
【0021】
パラメータ符号化部116は、周波数ドメイン符号化部114から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化することができる。該パラメータは、例えば、サブバンド別あるいはバンド別に抽出され、以下では、説明の簡素化のために、サブバンドと称する。各サブバンドは、スペクトル係数をグルーピングした単位であり、臨界帯域を反映し、均一あるいは非均一の長さを有することができる。非均一長を有する場合、低周波数帯域に存在するサブバンドの場合、高周波数帯域と比較し、相対的に短い長さを有することができる。1フレームに含まれるサブバンドの個数及び長さは、コーデックアルゴリズムによって異なり、符号化性能に影響を及ぼす。一方、該パラメータは、サブバンドのスケールファクタ、パワー、平均エネルギーあるいはnormを例として挙げることができるが、それらに限定されるものではない。符号化の結果として得られるスペクトル係数とパラメータは、ビットストリームを形成し、記録媒体に保存されるか、あるいはチャネルを介して、例えば、パケット状で伝送される。
【0022】
図1Bに図示されたオーディオ復号装置130は、パラメータ復号部132、周波数ドメイン復号部134及び後処理部136を含んでもよい。ここで、周波数ドメイン復号部134は、フレーム消去隠匿(FEC:frame erasure concealment)アルゴリズムあるいはパケット損失隠匿(PLC:packet loss concelament)アルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0023】
図1Bにおいて、パラメータ復号部132は、受信されたビットストリームから符号化されたパラメータを復号し、復号されたパラメータから、フレーム単位で、消去あるいは損失のようなエラーが発生したか否かということをチェックすることができる。該エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームあるいは損失フレームであるかということに係わる情報を、周波数ドメイン復号部134に提供する。以下では、説明の簡素化のために、消去フレームあるいは損失フレームをエラーフレームと称する。
【0024】
周波数ドメイン復号部134は、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成することができる。一方、周波数ドメイン復号部134は、現在フレームがエラーフレームである場合、FECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介して、スケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部134は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。
【0025】
後処理部136は、周波数ドメイン復号部134から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部136は、出力信号として、復元されたオーディオ信号を提供する。
【0026】
図2A及び
図2Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0027】
図2Aに図示されたオーディオ符号化装置210は、前処理部212、モード決定部213、周波数ドメイン符号化部214、時間ドメイン符号化部215及びパラメータ符号化部216を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0028】
図2Aにおいて、前処理部212は、
図1Aの前処理部112と実質的に同一であるので、説明を省略する。
【0029】
モード決定部213は、入力信号の特性を参照し、符号化モードを決定することができる。入力信号の特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、または複数のフレームに係わる長区間特性などを利用して、入力信号の特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードと決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードまたは周波数ドメインモードと決定することができる。モード決定部213は、入力信号の特性が、音楽モードまたは周波数ドメインモードに該当する場合には、前処理部212の出力信号を周波数ドメイン符号化部214に提供し、入力信号の特性が、音声モードまたは時間ドメインモードに該当する場合、時間ドメイン符号化部215に提供することができる。
【0030】
周波数ドメイン符号化部214は、
図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
【0031】
時間ドメイン符号化部215は、前処理部212から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行うことができる。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。
【0032】
パラメータ符号化部216は、周波数ドメイン符号化部214または時間ドメイン符号化部215から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部216は、
図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共に、ビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。
【0033】
図2Bに図示されたオーディオ復号装置230は、パラメータ復号部232、モード決定部233、周波数ドメイン復号部234、時間ドメイン復号部235及び後処理部236を含んでもよい。ここで、周波数ドメイン復号部234と時間ドメイン復号部235は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0034】
図2Bにおいて、パラメータ復号部232は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。該エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン復号部234あるいは時間ドメイン復号部235に提供する。
【0035】
モード決定部233は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン復号部234あるいは時間ドメイン復号部235に提供する。
【0036】
周波数ドメイン復号部234は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音楽モードまたは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介して、スケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部234は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。
【0037】
時間ドメイン復号部235は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号過程を介して復号を行い、時間ドメイン信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音声モードまたは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
【0038】
後処理部236は、周波数ドメイン復号部234あるいは時間ドメイン復号部235から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部236は、出力信号として、復元されたオーディオ信号を提供する。
【0039】
図3A及び
図3Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0040】
図3Aに図示されたオーディオ符号化装置310は、前処理部312、LP(linear prediction)分析部313、モード決定部314、周波数ドメイン励起符号化部315、時間ドメイン励起符号化部316及びパラメータ符号化部317を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0041】
図3Aにおいて、前処理部312は、
図1Aの前処理部112と実質的に同一であるので、説明を省略する。
【0042】
LP分析部313は、入力信号に対してLP分析を行ってLP係数を抽出し、抽出されたLP係数から励起信号を生成する。該励起信号は、符号化モードによって、周波数ドメイン励起符号化部315と時間ドメイン励起符号化部316とのうちいずれか一つに提供される。
【0043】
モード決定部314は、
図2Bのモード決定部213と実質的に同一であるので、説明を省略する。
【0044】
周波数ドメイン励起符号化部315は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、入力信号が励起信号であるということを除いては、
図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
【0045】
時間ドメイン励起符号化部316は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、入力信号が励起信号であるということを除いては、
図2Aの時間ドメイン符号化部215と実質的に同一であるので、説明を省略する。
【0046】
パラメータ符号化部317は、周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部317は、
図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。
【0047】
図3Bに図示されたオーディオ復号装置330は、パラメータ復号部332、モード決定部333、周波数ドメイン励起復号部334、時間ドメイン励起復号部335、LP合成部336及び後処理部337を含んでもよい。ここで、周波数ドメイン励起復号部334と時間ドメイン励起復号部335は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0048】
図3Bにおいて、パラメータ復号部332は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。該エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335に提供する。
【0049】
モード決定部333は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335に提供する。
【0050】
周波数ドメイン励起復号部334は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音楽モードまたは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介して、スケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン励起復号部334は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号である励起信号を生成することができる。
【0051】
時間ドメイン励起復号部335は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号過程を介して復号を行い、時間ドメイン信号である励起信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音声モードまたは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
【0052】
LP合成部336は、周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335から提供される励起信号に対してLP合成を行い、時間ドメイン信号を生成する。
【0053】
後処理部337は、LP合成部336から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部337は、出力信号として、復元されたオーディオ信号を提供する。
【0054】
図4A及び
図4Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0055】
図4Aに図示されたオーディオ符号化装置410は、前処理部412、モード決定部413、周波数ドメイン符号化部414、LP分析部415、周波数ドメイン励起符号化部416、時間ドメイン励起符号化部417及びパラメータ符号化部418を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
図4Aに図示されたオーディオ符号化装置410は、
図2Aのオーディオ符号化装置210と、
図3Aのオーディオ符号化装置310とを結合したものであると見ることができるので、共通する部分の動作説明を省略する一方、モード決定部413の動作について説明する。
【0056】
モード決定部413は、入力信号の特性及びビット率を参照し、入力信号の符号化モードを決定することができる。モード決定部413は、入力信号の特性によって、現在フレームが、音声モードであるか、あるいは音楽モードであるかということによって、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということによって、CELPモード、及びそれ以外のモードと決定することができる。もし入力信号の特性が音声モードである場合には、CELPモードと決定し、音楽モードでありながら、高ビット率である場合、FDモードと決定し、音楽モードでありながら、低ビット率の場合オーディオモードと決定することができる。モード決定部413は、FDモードであるの場合、入力信号を周波数ドメイン符号化部414に提供し、オーディオモードである場合、LP分析部415を介して、周波数ドメイン励起符号化部416に提供し、CELPモードである場合、LP分析部415を介して、時間ドメイン励起符号化部417に提供することができる。
【0057】
周波数ドメイン符号化部414は、
図1Aのオーディオ符号化装置110の周波数ドメイン符号化部114、あるいは
図2Aのオーディオ符号化装置210の周波数ドメイン符号化部214に対応し、周波数ドメイン励起符号化部416あるいは時間ドメイン励起符号化部417は、
図3Aのオーディオ符号化装置310の周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316に対応する。
【0058】
図4Bに図示されたオーディオ復号装置430は、パラメータ復号部432、モード決定部433、周波数ドメイン復号部434、周波数ドメイン励起復号部435、時間ドメイン励起復号部436、LP合成部437及び後処理部438を含んでもよい。ここで、周波数ドメイン復号部434、周波数ドメイン励起復号部435と時間ドメイン励起復号部436は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
図4Bに図示されたオーディオ復号装置430は、
図2Bのオーディオ復号装置230と、
図3Bのオーディオ復号装置330とを結合したものであると見ることができるので、共通する部分の動作説明を省略する一方、モード決定部433の動作について説明する。
【0059】
モード決定部433は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン復号部434、周波数ドメイン励起復号部435あるいは時間ドメイン励起復号部436に提供する。
【0060】
周波数ドメイン復号部434は、
図1Bのオーディオ符号化装置130の周波数ドメイン復号部134、あるいは
図2Bのオーディオ復号装置230の周波数ドメイン復号部234に対応し、周波数ドメイン励起復号部435あるいは時間ドメイン励起復号部436は、
図3Bのオーディオ復号装置330の周波数ドメイン励起復号部334あるいは時間ドメイン励起復号部335に対応する。
【0061】
図5は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。
図5に図示された周波数ドメインオーディオ符号化装置510は、トランジェント検出部511、変換部512、信号分類部513、エネルギー符号化部514、スペクトル正規化部515、ビット割当て部516、スペクトル符号化部517及び多重化部518を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。ここで、周波数ドメインオーディオ符号化装置510は、
図2に図示された周波数ドメイン符号化部214の全ての機能と、パラメータ符号化部216の一部機能とを遂行することができる。一方、周波数ドメインオーディオ符号化装置510は、信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成で代替され、このとき、変換部512は、50%のオーバーラップ区間を有する変換ウィンドウを使用することができる。また、周波数ドメインオーディオ符号化装置510は、トランジェント検出部511及び信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成でも代替される。各場合において、図示されていない、ITU−T G.719標準でのように、スペクトル符号化部517の後端に、ノイズレベル推定部をさらに具備し、ビット割当て過程において、ゼロビットが割り当てられたスペクトル係数のためのノイズレベルを推定し、ビットストリームに含めることができる。
【0062】
図5を参照すれば、トランジェント検出部511は、入力信号を分析し、トランジェント特性を示す区間を検出し、検出結果に対応し、各フレームに係わるトランジェントシグナリング情報を生成することができる。このとき、トランジェント区間の検出には、公知の多様な方法を使用することができる。一実施形態によれば、トランジェント検出部511は、まず、現在フレームがトランジェントフレームであるか否かということを一次的に判断し、トランジェントフレームと判断された現在フレームに対して、二次的に検証を行うことができる。トランジェントシグナリング情報は、多重化部518を介してビットストリームに含まれる一方、変換部512に提供される。
【0063】
変換部512は、トランジェント区間の検出結果によって、変換に使用されるウィンドウサイズを決定し、決定されたウィンドウサイズに基づいて、時間・周波数変換を行うことができる。一例として、トランジェント区間が検出されたサブバンドの場合、短区間ウィンドウ(short window)を適用し、検出されていないサブバンドの場合、長区間ウィンドウ(long window)を適用することができる。他の例として、トランジェント区間を含むフレームに対して、短区間ウィンドウを適用することができる。
【0064】
信号分類部513は、変換部512から提供されるスペクトルをフレーム単位で分析し、各フレームがハモニックフレームに該当するか否かということを判断することができる。このとき、ハモニックフレームの判断には、公知の多様な方法を使用することができる。一実施形態によれば、信号分類部513は、変換部512から提供されるスペクトルを複数のサブバンドに分け、各サブバンドについて、エネルギーのピーク値と平均値とを求めることができる。次に、各フレームに対して、エネルギーのピーク値が平均値より所定比率以上大きいサブバンドの数を求め、求められたサブバンドの数が所定値以上であるフレームを、ハモニックフレームと決定することができる。ここで、所定比率及び所定値は、実験あるいはシミュレーションを介して事前に決められる。ハモニックシグナリング情報は、多重化部518を介してビットストリームに含まれる。
【0065】
エネルギー符号化部514は、各サブバンド単位でエネルギーを求め、量子化及び無損失符号化することができる。一実施形態によれば、エネルギーとして、各サブバンドの平均スペクトルエネルギーに該当するnorm値を使用することができ、スケールファクタあるいはパワーを代わりに使用することもできるが、それに限定されるものではない。ここで、各サブバンドのnorm値は、スペクトル正規化部515及びビット割当て部516に提供される一方、多重化部518を介して、ビットストリームに含まれる。
【0066】
スペクトル正規化部515は、各サブバンド単位で求められたnorm値を利用して、スペクトルを正規化することができる。
【0067】
ビット割当て部516は、各サブバンド単位で求められたnorm値を利用して、整数単位あるいは小数点単位で、ビット割当てを行うことができる。また、ビット割当て部516は、各サブバンド単位で求められたnorm値を利用して、マスキング臨界値を計算し、マスキング臨界値を利用して、知覚的に必要なビット数、すなわち、許容ビット数を推定することができる。次に、ビット割当て部516は、各サブバンドについて、割当てビット数が許容ビット数を超えないように制限することができる。一方、ビット割当て部516は、norm値が大きいサブバンドから順次にビットを割り当て、各サブバンドのnorm値に対して、各サブバンドの知覚的重要度によって、加重値を付与することにより、知覚的に重要なサブバンドに、さらに多くのビットが割り当てられるように調整することができる。このとき、norm符号化部514からビット割当て部516に提供される量子化されたnorm値は、ITU−T G.719と同様に、心理音響加重(psycho-acoustical weighting)及びマスキング効果を考慮するために事前に調整された後、ビット割当てに使用される。
【0068】
スペクトル符号化部517は、正規化されたスペクトルに対して、各サブバンドの割当てビット数を利用して量子化を行い、量子化された結果に対して、無損失符号化することができる。一例として、スペクトル符号化に、TCQ(trellis coded quantizer)、USQ(uniform scalar quantizer)、FPC(factorial pulse coder)、AVQ(analog vector quantizer)、PVQ(predictive vector quantizer)、あるいはそれらの組み合わせと、各量子化器に対応する無損失符号化器とを使用することができる。また、当該コーデックが搭載される環境、あるいはユーザの必要によって、多様なスペクトル符号化技法を適用することができる。スペクトル符号化部517で符号化されたスペクトルに係わる情報は、多重化部518を介して、ビットストリームに含まれる。
【0069】
図6は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。
図6に図示されたオーディオ符号化装置600は、前処理部610、周波数ドメイン符号化部630、時間ドメイン符号化部650及び多重化部670を含んでもよい。周波数ドメイン符号化部630は、トランジェント検出部631、変換部633及びスペクトル符号化部635を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0070】
図6において、前処理部610は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。前処理部610は、信号特性に基づいて、符号化モードを決定することができる。信号特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、または複数のフレームに係わる長区間特性などを利用して、信号特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードまたは時間ドメインモードと決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードまたは周波数ドメインモードと決定することができる。前処理部610は、信号特性が、音楽モードまたは周波数ドメインモードに該当する場合には、入力信号を周波数ドメイン符号化部630に提供し、信号特性が、音声モードまたは時間ドメインモードに該当する場合、入力信号を時間ドメイン符号化部650に提供することができる。
【0071】
周波数ドメイン符号化部630は、前処理部610から提供されるオーディオ信号を、変換符号化に基づいて処理することができる。具体的には、トランジェント検出部631は、オーディオ信号からトランジェント成分を検出し、現在フレームがトランジェントフレームであるか否かということを判断することができる。変換部633は、トランジェント検出部631から提供されるフレームタイプ、すなわち、トランジェント情報に基づいて、変換ウィンドウの長さがあるいは形態を決定し、決定された変換ウィンドウに基づいて、オーディオ信号を周波数ドメインに変換することができる。変換技法としては、MDCT、FFTあるいはMLTを適用することができる。一般的には、トランジェント成分を有するフレームについては、短い長さの変換ウィンドウを適用することができる。スペクトル符号化部635は、周波数ドメインに変換されたオーディオスペクトルに対して符号化を行うことができる。スペクトル符号化部635については、
図7及び
図9を参照し、さらに具体的に説明する。
【0072】
時間ドメイン符号化部650は、前処理部610から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行うことができる。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。
【0073】
多重化部670は、周波数ドメイン符号化部630あるいは時間ドメイン符号化部650での符号化結果として生成されるスペクトル成分あるいは信号成分と、多様なインデックスとを多重化してビットストリームを生成し、該ビットストリームは、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。
【0074】
図7は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。
図7に図示された装置は、
図6のスペクトル符号化部635に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
【0075】
図7に図示されたスペクトル符号化装置700は、エネルギー推定部710、エネルギー量子化及び符号化部720、ビット割当て部730、スペクトル正規化部740、スペクトル量子化及び符号化部750及びノイズフィリング部760を含んでもよい。
【0076】
図7を参照すれば、エネルギー推定部710は、本来のスペクトル係数をサブバンドに分離し、各サブバンド別エネルギー、例えば、norm値を推定することができる。ここで、1つのフレームにおいて、各サブバンドは、同一サイズを有するか、あるいは低域から高域に行くほど、各サブバンドに含まれるスペクトル係数の数を増加させることができる。
【0077】
エネルギー量子化及び符号化部720は、各サブバンドに対して推定されたnorm値を量子化及び符号化することができる。このとき、該norm値は、ベクトル量子化、スカラー量子化、TCQ、LVQ(lattice vector quantization)など多様な方式によって量子化される。エネルギー量子化及び符号化部720は、さらなる符号化効率を向上させるために、無損失符号化を追加して行うことができる。
【0078】
ビット割当て部730は、サブバンド別に量子化されたnorm値を利用して、フレーム当たり許容ビットを考慮しながら、符号化に必要なビットを割り当てることができる。
【0079】
スペクトル正規化部740は、サブバンド別に量子化されたnorm値を利用して、スペクトルに対する正規化を行うことができる。
【0080】
スペクトル量子化及び符号化部750は、正規化されたスペクトルに対して、サブバンド別に割り当てられたビットに基づいて、量子化及び符号化を行うことができる。
【0081】
ノイズフィリング部760は、スペクトル量子化及び符号化部750において、許容ビットの制約として、0に量子化された部分に適切なノイズを追加することができる。
【0082】
図8は、サブバンド分割の例を示す図面である。
図8を参照すれば、入力信号が48kHzのサンプリング周波数を使用し、20msのフレームサイズを有する場合、毎フレーム当たり処理するサンプルの個数は、960個になる。すなわち、入力信号を、MDCTを利用して、50%のオーバーラッピングを適用して変換すれば、960個のスペクトル係数が得られる。ここで、オーバーラッピングの比率は、符号化方式によって多様に設定される。周波数ドメインとしては、理論的に24kHzまで処理可能であるが、人間の可聴帯域を考慮し、20kHzまでの帯域を表現する。低域である0〜3.2kHzまでは、8個のスペクトル係数(coefficient)を、1つのサブバンドにまとめて使用し、3.2〜6.4kHzの帯域においては、16個のスペクトル係数を1つのサブバンドにまとめて使用する。6.4〜13.6kHzの帯域においては、24個のスペクトル係数を1つのサブバンドにまとめて使用し、13.6〜20kHzの帯域においては、32個のスペクトル係数を1つのサブバンドにまとめて使用する。実際のnorm値を求めて符号化を行う場合、符号化器において定めた帯域までnormを求めて符号化することができる。決定された帯域以後の特定高域では、帯域拡張のような多様な方式に基づいた符号化が可能である。
【0083】
図9は、一実施形態によるスペクトル量子化装置の構成を示すブロック図である。
図9に図示された装置は、量子化器選択部910)、USQ 930及びTCQ 950を含んでもよい。
【0084】
図9において、量子化器選択部910は、入力信号、すなわち、量子化される信号の特性によって、多様な量子化器のうち最も効率的な量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドのサイズ情報などが使用可能である。選択結果によって、量子化される信号を、USQ 930及びTCQ 950のうちいずれか一つに提供し、対応する量子化を行うことができる。該入力信号は、正規化されたMDCT(modified discrete cosine transform)スペクトルでもある。入力信号の帯域幅は、狭帯域(narrow band)あるいは広帯域(wide band)でもある。入力信号の符号化モードは、正常モード(normal mode)でもある。
【0085】
図10は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。
図10に図示された装置は、
図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
【0086】
図10に図示された装置は、符号化方式選択部1010、ゼロ符号化部1020、スケーリング部1030、ISC符号化部1040、量子化成分復元部1050及び逆スケーリング部1060を含んでもよい。ここで、量子化成分復元部1050及び逆スケーリング部1060は、オプションとして具備される。
【0087】
図10において、符号化方式選択部1010は、入力信号特性を考慮し、符号化方式を選択することができる。該入力信号特性は、帯域幅と、バンド別に割り当てられたビットとのうち少なくとも一つを含んでもよい。正規化されたスペクトルは、バンド別に選択された符号化方式に基づいて、ゼロ符号化部1020あるいはスケーリング部1030に提供される。一実施形態によれば、帯域幅が、狭帯域あるいは広帯域である場合、バンドの各サンプルに割り当てられた平均ビット数が、所定値、例えば、0.75以上である場合、当該バンドは、非常に重要であると判断され、USQが使用される一方、全ての他のバンドは、TCQが使用される。ここで、平均ビット数は、バンド長あるいはバンドサイズを考慮し決定される。選択された符号化方式は、1ビットのフラグを利用して設定される。他の実施形態によれば、帯域幅が超広帯域(super wide band)あるいは全帯域(full band)である場合、USQとTCQとを結合した方式を使用することができる。
【0088】
ゼロ符号化部1020は、割り当てられたビットが0であるバンドについて、全てのサンプルを0に符号化することができる。
【0089】
スケーリング部1030は、バンドに割り当てられたビットに基づいて、スペクトルに対するスケーリングを行うことにより、ビット率を調節することができる。このとき、正規化されたスペクトルが使用される。スケーリング部1030は、バンドに含まれた各サンプル、すなわち、スペクトル係数に割り当てられた平均ビット数を考慮し、スケーリングを行うことができる。例えば、平均ビット数が多いほど、さらに大きいスケーリングが行われる。
【0090】
一実施形態によれば、スケーリング部1030は、バンド別にビット割当てによって、適切なスケーリング値を決定することができる。
【0091】
具体的には、まず、バンド長(band length)とビット割当て情報とを利用して、現在バンドのためのパルス個数を推定することができる。ここで、該パルスは、単位パルスを意味する。まず、下記の数式(1)に基づいて、現在バンドで実際に必要なビットbを算出することができる。
【0092】
【数1】
ここで、nは、バンドの長さを示し、mは、パルス個数(number of pulses)を意味し、iは、ISC(the important spectral component)を有するノンゼロ位置の数を意味する。
【0093】
一方、ノンゼロ位置の個数は、例えば、下記数式(2)でのように、確率に基づいて得られる。
【0094】
【数2】
そして、ノンゼロ位置のために必要なビット数は、下記数式(3)でのように推定される。
【0095】
【数3】
最終的には、パルスの個数は、各バンドに割り当てられたビットに最も近い値を有するb値によって選択される。
【0096】
次に、バンド別に求められたパルス個数推定値と、入力信号の絶対値とを利用して、初期スケーリングファクタを決定することができる。該入力信号は、初期スケーリングファクタによってスケーリングされる。もしスケーリングされた原信号、すなわち、量子化された信号に係わるパルス個数の和が、パルス個数推定値と同じではない場合には、アップデートされたスケーリングファクタを利用して、パルス再分配(redistribution)処理を行うことができる。該パルス再分配処理は、現在バンドについて選択されたパルス個数が、バンド別に求められたパルス個数推定値より少ない場合には、スケーリングファクタを減少させてパルス個数を増加させ、反対に多い場合には、スケーリングファクタを増加させ、パルス個数を減少させる。このとき、原信号との歪曲を最小化させる位置を選択し、事前に決定された値ほど増加させるか、あるいは減少させることができる。
【0097】
TSQのための歪曲関数は、正確な距離よりは相対的な大きさを必要とするために、下記の数式(4)でのように、各バンドにおいて、それぞれ量子化及び逆量子化された値の自乗距離の和として得られる。
【0098】
【数4】
ここで、p
iは、実際値であり、q
iは、量子化された値を示す。
【0099】
一方、USQのための歪曲関数は、最善の量子化された値を決定するために、ユークリッド距離を使用することができる。このとき、複雑度を最小化させるために、スケーリングファクタを含む修正された数式を使用し、歪曲関数は、下記数式(5)によって算出される。
【0100】
【数5】
もしバンド当たりパルス個数が要求される値とマッチングしない場合、最小メトリックを維持しながら、所定数のパルスを加減する必要がある。それは、1つのパルスを加減する過程を、パルス個数が要求される値に至るまで反復する方法によって遂行される。
【0101】
1つのパルスを加減するために、最も最適の歪曲値を求めるためのn犬の歪曲値を求める必要がある。例えば、歪曲値jは、記数式(6)でのように、バンドにおいて、j番目の位置にパルスを追加することに該当する。
【0102】
【数6】
前記数式(6)をn回遂行することを避けるために、下記数式(7)でのように、同じ偏差(deviation)を使用することができる。
【0104】
【数8】
は、1回だけ計算すればよい。一方、nは、バンド長、すなわち、バンドにある係数数を示し、pは、原信号、すなわち、量子化器の入力信号を示し、qは、量子化された信号を示し、gは、スケーリングファクタを示す。最終的には、歪曲dを最小化させる位置jが選択され、qjがアップデートされる。
【0105】
一方、ビット率を制御するために、スケーリングされたスペクトル係数を使用し、適切なISCを選択して符号化することができる。具体的には、量子化するためのスペクトル成分は、各バンドのビット割当てを使用して選択される。このとき、スペクトル成分の分布及び分散による多様な組み合わせに基づいて、スペクトル成分を選択することができる。次に、実際のノンゼロ位置を算出することができる。該ノンゼロ位置は、スケーリング量と再分配動作とを分析して得ることができ、かように選択されたノンゼロ位置を、他の言葉で言い換え、ISCとすることができる。要約すれば、スケーリングと再分配との過程を経た信号の大きさを分析し、最適スケーリングファクタとISCとに該当するノンゼロ位置情報を求めることができる。ここで、該ノンゼロ位置情報は、ノンゼロ位置の個数と位置とを意味する。もしスケーリングと再分配との過程を介してパルス個数が調節されない場合、選択されたパルスを、実際のTCQ過程を介して量子化し、その結果を利用して、余剰ビットを調整することができる。該過程は、次のような例が可能である。
【0106】
ノンゼロ位置数と、バンド別に求められたパルス個数推定値とが同じではなく、ノンゼロ位置の個数が、所定値、例えば、1より大きく、求められた量子化器選択情報がTCQを示す条件である場合、実際のTCQ量子化を介して余剰ビットを調整することができる。具体的には、前記条件に該当する場合、余剰ビットを調整するために、まず、TCQ量子化過程を経る。事前にバンド別に求められたパルス個数推定値に比べ、実際のTCQ量子化を介して求められた現在バンドのパルス個数がさらに少ない場合には、以前に決定されたスケーリングファクタに、1より大きい値、例えば、1.1を乗じてスケーリングファクタを増加させ、反対の場合には、1より少ない値、例えば、0.9を乗じてスケーリングファクタを減少させる。このような過程を反復し、バンド別に求められたパルス個数推定値と、TCQ量子化を介して求められた現在バンドのパルス個数とが同じになる場合、実際のTCQ量子化過程で使用されたビットを計算し、余剰ビットをアップデートする。かように求められたノンゼロ位置がISCに該当する。
【0107】
ISC符号化部1040においては、最終的に選択されたISCの個数情報及びノンゼロ位置情報を符号化することができる。該過程において、符号化効率を高めるために、無損失符号化を適用することもできる。ISC符号化部1040は、割り当てられたビットが0ではないノンゼロバンドに対して、選択された量子化器を利用して、符号化を行うことができる。具体的には、ISC符号化部1040は、正規化されたスペクトルに対して、各バンド別にISCを選択し、各バンド別に選択されたISCの情報を、数、位置、大きさ及び符号に基づいて、符号化することができる。このとき、ISCの大きさは、数、位置及び符号とは異なる方式によって符号化することができる。一例を挙げれば、ISCの大きさは、USQ及びTCQのうち一つを利用して量子化して算術符号化する一方、ISCの数、位置及び符号については、算術符号化を行うことができる。一実施形態によれば、信号特性に基づいて、TCQ及びUSQのうち一つを選択するが、各バンドに係わる本来のビット割当て情報だけではなく、以前符号化されたバンドからの余剰ビットに対する二次ビット割当て処理を追加して利用して、量子化器選択が行われる第1ジョイント方式が使用される。第1ジョイント方式において、二次ビット割当て処理は、以前符号化されたバンドからの余剰ビットを分配するものであり、2バンドを選択することができる。ここで、該信号特性は、各バンドに割り当てられたビットあるいはバンド長を含んでもよい。例えば、特定バンドが重要な情報を含んでいると判断される場合、USQを使用し、そうではない場合、TCQを使用することができる。もしバンドに含まれた各サンプルに割り当てられた平均ビット数が、臨界値、例えば、0.75以上である場合、当該バンドは、非常に重要な情報を含んでいると判断することができるので、USQが使用される。一方、バンド長が短い低域の場合にも、必要によって、USQが使用される。第1ジョイント方式が使用される入力信号の帯域幅は、狭帯域あるいは広帯域でもある。他の実施形態によれば、全ての帯域をUSQを使用して符号化するが、LSB(least significant bit)については、TCQを使用する第2ジョイント方式が使用される。第2ジョイント方式が使用される入力信号の帯域幅は、超広帯域あるいは全帯域でもある。
【0108】
量子化成分復元部1050は、量子化された成分に、ISCの位置、大きさ及び符号情報を付加し、実際の量子化された成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに符号化されたスペクトル係数には、0が割り当てられる。
【0109】
逆スケーリング部1060は、復元された量子化成分に対して逆スケーリングを行い、正規化された入力スペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。スケーリング部1030及び逆スケーリング部1060においては、同一スケーリングファクタを使用することができる。
【0110】
図11は、一実施形態によるISC符号化装置の構成を示すブロック図である。
図11に図示された装置は、ISC選択部1110及びISC情報符号化部1130を含んでもよい。
図11の装置は、
図10のISC符号化部1040に対応するか、あるいは独立した装置で具現される。
【0111】
図11において、ISC選択部1110は、ビット率を調節するために、スケーリングされたスペクトルから所定基準に基づいて、ISCを選択することができる。ISC選択部1110は、スケーリングされたスペクトルから、スケーリングされた程度を分析し、実際のノンゼロ位置を求めることができる。ここで、該ISCは、スケーリング以前の実際のノンゼロスペクトル係数に該当する。ISC選択部1110は、バンド別に割り当てられたビットに基づいて、スペクトル係数の分布及び分散を考慮し、符号化するスペクトル係数、すなわち、ノンゼロ位置を選択することができる。ISC選択のために、TCQを使用することができる。
【0112】
ISC情報符号化部1130は、選択されたISCに基づいて、ISC情報、すなわち、ISC個数情報、位置情報、サイズ情報及び符号を復号することができる。
【0113】
図12は、一実施形態によるISC情報符号化装置の構成を示すブロック図である。
図12に図示された装置は、位置符号化部1210、サイズ符号化部1230及び符号符号化部1250を含んでもよい。
【0114】
図12において、位置符号化部1210は、ISC選択部1110(
図11)で選択されたISCの位置情報、すなわち、ノンゼロスペクトル係数の位置情報を符号化することができる。該位置情報は、選択されたISCの数及び位置を含んでもよい。位置情報の符号化には、算術符号化(arithmetic coding)が使用される。一方、選択されたISCを集めて新たなバッファを構成することができる。ISC収集のために、ゼロバンドと、選択されなかったスペクトルは、除外される。
【0115】
サイズ符号化部1230は、新たに構成されたISCのサイズ情報に対して符号化を行うことができる。このとき、TCQ及びUSQのうち一つを選択して量子化を行い、次に、算術符号化を追加して行うことができる。算術符号化の効率を高めるために、ノンゼロ位置情報、とISCの数とが使用される。
【0116】
符号符号化部1250は、選択されたISCの符号情報に対して符号化を行うことができる。符号情報の符号化には、算術符号化が使用される。
【0117】
図13は他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。
図13に図示された装置は、
図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
【0118】
図13に図示された装置は、スケーリング部1330、ISC符号化部1340、量子化成分復元部1350及び逆スケーリング部1360を含んでもよい。
図10と比較するとき、ゼロ符号化部1020及び符号化方式選択部1010が省略され、ISC符号化部1340は、TCQを使用することができるということを除いては、各構成要素の動作は同一である。
【0119】
図14は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。
図14に図示された装置は、
図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。
【0120】
図14に図示された装置は、符号化方式選択部1410、スケーリング部1430、ISC符号化部1440、量子化成分復元部1450及び逆スケーリング部1460を含んでもよい。
図10と比較するとき、ゼロ符号化部1020が省略されているところを除いては、各構成要素の動作は同一である。
【0121】
図15は、一実施形態によるISC収集過程及び符号化過程ISC収集過程の概念を示す図面であり、まず、ゼロバンド、すなわち、0に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたISCを利用して、新たなバッファを構成することができる。新たに構成されたISCに対して、バンド単位において、USCとTCQとを結合した第1ジョイント方式あるいは第2ジョイント方式によって量子化を行い、対応する無損失符号化を行うことができる。
【0122】
図16は、USQとTCQとを結合した第2ジョイント方式について説明する図面である。
図16を参照すれば、まず、バンド単位において、スペクトルデータに対して、USQを利用して量子化することができる。量子化されたスペクトルデータが1より大きい値を有する場合、ゼロあるいは1に該当するLSBを含んでもよい。各バンドについて、LSBシーケンスを得て、LSBシーケンスをTCQを利用して量子化することにより、LSBシーケンスと、可能なトレリス経路とのベストマッチを探すことができる。SNR基準によって量子化されたシーケンスに一部エラーが発生することがあるが、代わりに、シーケンスの長さを短くすることができる。
【0123】
第2ジョイント方式によれば、1つのスキームで2つの量子化器、すなわち、USQ及びTCQの利点を活用することができ、TCQからの経路制限を排除することができる。
【0124】
図17は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。
図17に図示された装置は、
図10のISC符号化部1040に対応するか、あるいは独立しても具現される。
図17に図示された装置は、第1量子化部1710、第2量子化部1730、第1無損失符号化部1750、第2無損失符号化部1760、第3無損失符号化部1770及びビットストリーム生成部1790を含んでもよい。該装置に含まれた構成要素は、少なくとも1つのプロセッサによっても一体化される。
【0125】
図17を参照すれば、第1量子化部1710は、バンド、すなわち、ノンゼロバンドのスペクトルデータを、USQを利用して量子化することができる。各バンドの量子化のために割り当てられるビット数は、事前に決定される。このとき、第2量子化部1730でのTCQに使用されるビット数を、各ノンゼロバンドから均等に確保し、ノンゼロバンドの残りビット数を利用して、USQを遂行することができる。ここで、該スペクトルデータは、normsに該当し、正規化されたスペクトルデータでもある。
【0126】
第2量子化部1730は、第1量子化部1710で量子化されたスペクトルデータのうち下位ビットを、TCQを利用して量子化することができる。該下位ビットは、LSBに該当する。このとき、全てのバンドから、下位ビット、すなわち、レジデュアルデータを収集し、TCQを遂行することができる
。ノンゼロバンドにおいて、一部周波数がゼロに量子化された場合、それらは、レジデュアルデータに含まれない。該レジデュアルデータは、1つのアレイを構成することができる。
【0127】
第1無損失符号化部1750は、バンドに含まれたISC情報、例えば、ISCの数、位置及び符号に対して無損失符号化を行うことができる。このとき、算術符号化が使用される。
【0128】
第2無損失符号化部1760は、第1量子化部1710で量子化されたスペクトルデータのうち下位ビットを除いた残りのビットからなるサイズ情報に対して、無損失符号化を行うことができる。このとき、算術符号化が使用される。
【0129】
第3無損失符号化部1770は、第2量子化部1730において量子化の結果として得られるTCQ情報、すなわち、トレリス経路データに対して無損失符号化を行うことができる。このとき、算術符号化が使用される。トレリス経路データは、equi-probableシンボルに符号化される。すなわち、トレリス経路データは、二進シーケンスであり、均一な確率モデルを有する算術符号化器を使用して符号化される。
【0130】
ビットストリーム生成部1790は、第1無損失符号化部1750、第2無損失符号化部1760及び第3無損失符号化部1770から提供されるデータを利用して、ビットストリームを生成することができる。
【0131】
図18は、
図17に図示された第2量子化部の構成を示すブロック図である。
図18に図示された装置は、下位ビット抽出部1810、レジデュアルデータ生成部1830及びTCQ 1850を含んでもよい。該装置に含まれた構成要素は、少なくとも1つのプロセッサによっても一体化される。
【0132】
図18を参照すれば、下位ビット抽出部1810は、第1量子化部1710から提供される量子化されたノンゼロスペクトルデー
タに基づいたレジデュアルデータを抽出することができる。このとき、該レジデュアルデータは、量子化されたノンゼロスペクトルデータの下位ビット、例えば、LSBに該当する。
【0133】
レジデュアルデータ生成部1830は、全てのノンゼロバンドに存在する
レジデュアルデータを収集し、レジデュアルアレイを構成することができる。
図19は、該レジデュアルデータを生成する方法について説明している。
【0134】
TCQ 1850は、レジデュアルデータ生成部1830から提供されるレジデュアルアレイに対してTCQを遂行することができる。このとき、(7,5)
8コードと知られたコードレート1/2を有するTCQを使用することができる。
図20は、4個のステートを有するTCQの一例を示している。一実施形態によれば、TCQを利用した量子化は、始めに、2XTCQ_AMP個の大きさに対して行われ、このとき、整数TCQ_AMPが10に定義される場合、符号化されるフレーム当たり20個の大きさまで許容されるということを意味する。量子化後、経路メトリックがチェックされ、ベストトレリス経路が選択され、トラックバック手続きが行われながら、無損失符号化のために、ベストトレリス経路に係わるデータが別途のアレイに保存される。
【0135】
図21は、一実施形態による周波数ドメインオーディオ復号装置の構成を示したブロック図である。
図21に図示された周波数ドメインオーディオ復号装置2100は、フレームエラー検出部2110、周波数ドメイン復号部2130、時間ドメイン復号部2150及び後処理部2170を含んでもよい。周波数ドメイン復号部2130は、スペクトル復号部2131、メモリ更新部2133、逆変換部2135及びOLA(overlap and add)部2137を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0136】
図21を参照すれば、フレームエラー検出部2110は、受信されたビットストリームから、フレームエラーが発生したか否かということを検出することができる。
【0137】
周波数ドメイン復号部2130は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的な変換復号過程を介して、時間ドメイン信号を生成する。具体的には、スペクトル復号部2131は、復号されたパラメータを利用して、スペクトル復号を行い、スペクトル係数を合成することができる。スペクトル復号部2131については、
図22及び
図23を参照し、さらに具体的に説明する。
【0138】
メモリ更新部2133は、正常フレームである現在フレームについて合成されたスペクトル係数、復号されたパラメータを利用して得られた情報、現在まで連続したエラーフレームの個数、各フレームの信号特性あるいはフレームタイプ情報などを、次のフレームのために更新することができる。ここで、該信号特性は、トランジェント特性、ステーショナリ特性を含んでもよく、該フレームタイプは、トランジェントフレーム、ステーショナリフレームあるいはハーモニックフレームを含んでもよい。
【0139】
逆変換部2135は、合成されたスペクトル係数に対して、時間・周波数逆変換を行い、時間ドメイン信号を生成することができる。
【0140】
OLA部2137は、以前フレームの時間ドメイン信号を利用して、OLA処理を行い、その結果、現在フレームに係わる最終時間ドメイン信号を生成し、後処理部2170に提供することができる。
【0141】
時間ドメイン復号部2150は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的なCELP復号過程を介して、時間ドメイン信号を生成する。
【0142】
後処理部2170は、周波数ドメイン復号部2130あるいは時間ドメイン復号部2150から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部2170は、出力信号として、復元されたオーディオ信号を提供する。
【0143】
図22は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。
図22に図示された装置は、
図21のスペクトル復号部2131に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
【0144】
図22に図示されたスペクトル復号装置2200は、エネルギー復号及び逆量子化部2210、ビット割当て部2230、スペクトル復号及び逆量子化部2250、ノイズフィリング部2270及びスペクトルシェーピング部2290を含んでもよい。ここで、ノイズフィリング部2270は、スペクトルシェーピング部2290の後端に位置することもできる。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)によっても具現される。
【0145】
図22を参照すれば、エネルギー復号及び逆量子化部2210は、符号化過程において、無損失符号化が行われてパラメータ、例えば、norm値のようなエネルギーに対して無損失復号を行い、復号されたnorm値に対して逆量子化を行うことができる。符号化過程において、norm値の量子化された方式に対応する方式を使用して、逆量子化を行うことができる。
【0146】
ビット割当て部2230は、量子化されたnorm値、あるいは逆量子化されたnorm値に基づいて、サブバンド別に必要とするビット数を割り当てることができる。その場合、サブバンド単位に割り当てられたビット数は、符号化過程で割り当てられたビット数と同一である。
【0147】
スペクトル復号及び逆量子化部2250は、符号化されたスペクトル係数に対して、サブバンド別に割り当てられたビット数を使用して無損失復号を行い、復号されたスペクトル係数に対して、逆量子化過程を遂行し、正規化されたスペクトル係数を生成することができる。
【0148】
ノイズフィリング部2270は、正規化されたスペクトル係数のうち、サブバンド別にノイズフィリングを必要とする部分に対してノイズを充填することができる。
【0149】
スペクトルシェーピング部2290は、逆量子化されたnorm値を利用して、正規化されたスペクトル係数をシェーピングすることができる。スペクトルシェーピング過程を介して、最終的に復号されたスペクトル係数が得られる。
【0150】
図23は、一実施形態によるスペクトル逆量子化装置の構成を示すブロック図である。
図23に図示された装置は、逆量子化器選択部2310、USQ 2330及びTCQ 2350を含んでもよい。
【0151】
図23において、逆量子化器選択部2310は、入力信号、すなわち、逆量子化される信号の特性によって、多様な逆量子化器のうち最も効率的な逆量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドのサイズ情報などが使用可能である。選択結果によって、逆量子化される信号をUSQ 2330及びTCQ 2350のうちいずれか一つに提供し、対応する逆量子化を行うことができる。
図23は、第1ジョイント方式に対応する。
【0152】
図24は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。
図24に図示された装置は、
図22のスペクトル復号及び逆量子化部2250に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
【0153】
図24に図示された装置は、復号方式選択部2410、ゼロ復号部2430、ISC復号部2450、量子化成分復元部2470及び逆スケーリング部2490を含んでもよい。ここで、量子化成分復元部2470及び逆スケーリング部2490は、オプションとして具備される。
【0154】
図24において、復号方式選択部2410は、バンド別に割り当てられたビットに基づいて、復号方式を選択することができる。正規化されたスペクトルは、バンド別に選択された復号方式に基づいて、ゼロ復号部2430あるいはISC復号部2450に提供される。
【0155】
ゼロ復号部2430は、割り当てられたビットが0であるバンドについて、全てのサンプルを0に復号することができる。
【0156】
ISC復号部2450は、割り当てられたビットが0ではないバンドに対して選択された逆量子化器を利用して、復号を行うことができる。ISC復号部2450は、符号化されたスペクトルの各バンド別に重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて、復号することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号することができる。一例を挙げれば、重要周波数成分の大きさは、算術復号し、USQ及びTCQのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して、算術復号を行うことができる。逆量子化器選択は、
図10に図示されたISC符号化部1040と同一結果を利用して行うことができる。ISC復号部2450は、割り当てられたビットが0ではないバンドについて、第1ジョイント方式あるいは第2ジョイント方式によって対応して逆量子化を行うことができる。
【0157】
量子化成分復元部2470は、復元されたISCの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに復号されたスペクトル係数である量子化されていない部分には、0が割り当てられる。
【0158】
さらに、逆スケーリング部(図示せず)を含んで復元された量子化成分に対して、逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。
【0159】
図25は、一実施形態によるISC復号装置の構成を示すブロック図である。
図25の装置は、パルス数推定部2510及びISC情報復号部2530を含んでもよい。
図25の装置は、
図24のISC復号部2450に対応するか、あるいは独立した装置で具現される。
【0160】
図25において、パルス数推定部2510は、バンドサイズとビット割当て情報とを利用して、現在バンドにおいて必要なパルス個数推定値を決定することができる。すなわち、現在フレームのビット割当て情報がエンコーダと同一であるので、同一ビット割当て情報を利用して、同一パルス個数推定値を導き出して復号を進める。
【0161】
ISC情報復号部2530は、推定されたパルス数に基づいて、ISC情報、すなわち、ISC個数情報、位置情報、サイズ情報及び符号を復号することができる。
【0162】
図26は、一実施形態によるISC情報復号装置の構成を示すブロック図である。
図26に図示された装置は、位置復号部2610、サイズ復号部2630及び符号復号部2650を含んでもよい。
【0163】
図26において、位置復号部2610は、ビットストリームに含まれた位置情報と係わるインデックスを復号し、ISCの数及び位置を復元することができる。該位置情報の復号には、算術復号が使用される。サイズ復号部2630は、ビットストリームに含まれたサイズ情報と係わるインデックスに対して算術復号を行い、復号されたインデックスに対して、第1ジョイント方式あるいは第2ジョイント方式のうち一つに対応して逆量子化を行うことができる。算術復号の効率を高めるために、ノンゼロ位置情報と、ISCの数とが使用される。符号復号部2550は、ビットストリームに含まれた符号情報と係わるインデックスを復号し、ISCの符号を復元することができる。符号情報の復号には、算術復号が使用される。一実施形態によれば、ノンゼロバンドが必要とするパルス数を推定し、位置情報、サイズ情報あるいは符号情報復号に使用することができる。
【0164】
図27は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。
図27に図示された装置は、
図22のスペクトル復号及び逆量子化部2250に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
【0165】
図27に図示された装置は、ISC復号部2750、量子化成分復元部2770及び逆スケーリング部2790を含んでもよい。
図24と比較するとき、復号方式選択部2410とゼロ復号部2430とが省略されており、ISC復号部2450がTCQを使用するということを除いては、各構成要素の動作は、同一である。
【0166】
図28は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。
図28に図示された装置は、
図22のスペクトル復号及び逆量子化部2250に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。
【0167】
図28に図示された装置は、復号方式選択部2810、ISC復号部2850、量子化成分復元部2870及び逆スケーリング部2890を含んでもよい。
図24と比較するとき、ゼロ復号部2430が省略されているところを除いては、各構成要素の動作は、同一である。
【0168】
図29は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。
図29に図示された装置は、
図24のISC復号部2450に対応するか、あるいは独立しても具現される。
図29に図示された装置は、第1デコーティング部2910、第2デコーディング部2930及び第3デコーディング部2950と、スペクトル成分復元部2970とを含んでもよい。
【0169】
図29において、第1デコーディング部2910は、ビットストリームから、バンドのISC情報を抽出し、ISCの数、位置及び符号をデコーディングすることができる。デコーディングされたISC情報は、スペクトル成分復元部2970に提供され、ISCの位置情報は、第2デコーディング部2930に提供される。
【0170】
第2デコーディング部2930は、第1デコーディング部2910から提供されるデコーディングされたISCの位置情報、及び各バンドに割り当てられたビット数に基づいて、スペクトルデータの下位ビットを除いた残りのビットを、バンド別にデコーディングすることができる。このとき、各バンドに割り当てられたビット数と、実際に使用されたビット数との差に該当する余剰ビットを累積し、次のバンドに使用される。
【0171】
第3デコーディング部2950は、ビットストリームから、TCQ経路情報を抽出してデコーディングすることにより、下位ビットシーケンスに該当するTCQレジデュアルアレイを復元することができる。
【0172】
スペクトル成分復元部2970は、第1デコーティング部2910、第2デコーディング部2930及び第3デコーディング部2950から提供されるデータに基づいて、スペクトル成分を復元することができる。
【0173】
第1デコーティング部2910、第2デコーディング部2930及び第3デコーディング部2950においては、無損失復号方式で算術復号を使用することができる。
【0174】
図30は、
図29に図示された第3デコーディング部の構成を示すブロック図である。
図30に図示された第3デコーディング部は、TCQ経路復号部3010とTCQレジデュアルデータ復元部3030とを含んでもよい。
【0175】
図30において、TCQ経路復号部3010は、ビットストリームから得られるTCQ経路情報を復号することができる。
【0176】
TCQレジデュアルデータ復元部3030は、復号されたTCQ経路情報に基づいて、TCQレジデュアルデータを復元することができる。具体的には、復号されたトレリスステートによって、レジデュアルデータ、すなわち、レジデュアルアレイを復元することができる。各経路ビットから、レジデュアルアレイにいる2個のLSBビットが生成される。それをpseudo codeで示せば、次の通りである。
【0177】
for(state = 0, i = 0; i < bcount; i++)
{
residualbuffer[2*i] = dec_LSB[state][dpath[i]] & 0x1;
residualbuffer [2*i + 1] = dec_LSB[state][dpath[i]] & 0x2;
state = trellis_nextstate[state][dpath[i]];
}
すなわち、ステート0から始めて、復号されたdpathビットを使用して、トレリスに沿って動き、現在トレリスエッジに該当する2個のビットを抽出することができる。
【0179】
図31は、本発明の一実施形態による符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。
図31に図示されたマルチメディア機器3100は、通信部3110と、符号化モジュール3130とを含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部3150をさらに含んでもよい。また、マルチメディア機器3100は、マイクロフォン3170をさらに含んでもよい。すなわち、保存部3150とマイクロフォン3170は、オプションとして具備される。一方、
図31に図示されたマルチメディア機器3100は、任意の復号モジュール(図示せず)、例えば、一般的な復号機能を遂行する復号モジュール、あるいは本発明の一実施形態による復号モジュールをさらに含んでもよい。ここで、符号化モジュール3130は、マルチメディア機器3100に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0180】
図31を参照すれば、通信部3110は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、あるいは復元されたオーディオと、符号化モジュール3130の符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。
【0181】
通信部3110は、無線インターネット、無線イントラネット、無線電話網、無線LAN(local area network)、Wi−Fi(wireless fidelity)、WFD(Wi−Fi direct)、3G(3rd generation)、4G(4th generation)、ブルートゥース(登録商標(Bluetooth))、赤外線通信(IrDA:infrared data association)、RFID(radio frequency identification)、UWB(ultra wideband)、ジグビー(Zigbee)、NFC(near field communication)のような無線ネットワーク;または有線電話網、有線インターネットのような有線ネットワークを介して,外部のマルチメディア機器あるいはサーバとデータを送受信することができるように構成される。
【0182】
符号化モジュール3130は、一実施形態によれば、現在バンドのスペクトルデータを、第1量子化方式によって量子化し、スペクトルデータ、及び量子化されたスペクトルデータを利用して、現在バンドの下位ビットを生成し、現在バンドの下位ビットが含まれた下位ビットシーケンスを、第2量子化方式によって量子化し、量子化されたスペクトルデータのうちNビット(ここで、Nは1以上)を除いた上位ビット、及び量子化された下位ビットシーケンスに基づいて、ビットストリームを生成することができる。
【0183】
保存部3150は、マルチメディア機器3100の運用に必要な多様なプログラムを保存することができる。
【0184】
マイクロフォン3170は、ユーザあるいは外部のオーディオ信号を符号化モジュール3130に提供することができる。
【0185】
図32は、本発明の一実施形態による復号モジュールを含むマルチメディア機器の構成を示したブロック図である。
図32に図示されたマルチメディア機器3200は、通信部3210と復号モジュール3230とを含んでもよい。また、復号の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部3250をさらに含んでもよい。また、マルチメディア機器3200は、スピーカ3270をさらに含んでもよい。すなわち、保存部2950とスピーカ3270は、オプションとして具備される。一方、
図32に図示されたマルチメディア機器3200は、任意の符号化モジュール(図示せず)、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号モジュール3230は、マルチメディア機器3200に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1つの以上のプロセッサ(図示せず)によっても具現される。
【0186】
図32を参照すれば、通信部3210は、外部から提供される符号化されたビットストリームとオーディオ信号とのうち少なくとも一つを受信するか、あるいは復号モジュール3230の復号の結果として得られる復元されたオーディオ信号と、符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。一方、通信部3210は、
図31の通信部3110と実質的に類似して具現される。
【0187】
復号モジュール3230は、一実施形態によれば、通信部3210を介して提供されるビットストリームを受信し、TCQ経路情報を抽出し、下位ビットシーケンスをデコーディングし、ISC情報を抽出し、ISCの数、位置及び符号をデコーディングする一方、下位ビットを除いた残りのビットを抽出してデコーディングし、デコーディングされた下位ビットシーケンスと、デコーディングされた下位ビットを除いた残りのビットとに基づいて、スペクトル成分を復元することができる。
【0188】
保存部3250は、復号モジュール3230で生成される復元されたオーディオ信号を保存することができる。一方、保存部3250は、マルチメディア機器3200の運用に必要な多様なプログラムを保存することができる。
【0189】
スピーカ3270は、復号モジュール3230で生成される復元されたオーディオ信号を外部に出力することができる。
【0190】
図33は、本発明の一実施形態による符号化モジュールと復号モジュールとを含むマルチメディア機器の構成を示したブロック図である。
【0191】
図33に図示されたマルチメディア機器3300は、通信部3310、符号化モジュール3320と復号モジュール3330とを含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号の結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリームあるいは復元されたオーディオ信号を保存する保存部3340をさらに含んでもよい。また、マルチメディア機器3300は、マイクロフォン3350あるいはスピーカ3360をさらに含んでもよい。ここで、符号化モジュール3320と復号モジュール3330は、マルチメディア機器3300に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)によっても具現される。
【0192】
図33に図示された各構成要素は、
図31に図示されたマルチメディア機器3100の構成要素、あるいは
図32に図示されたマルチメディア機器3200の構成要素と重複するので、その詳細な説明を省略する。
【0193】
図31ないし
図33に図示されたマルチメディア機器3100,3200,3300には、電話、モバイルフォンなどを含む音声通信専用端末;TV(television)、MP3プレーヤなどを含む放送専用装置あるいは音楽専用装置;音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置;テレカンファレンシングあるいはインタラクションシステムのユーザ端末が含まれてもよいが、それらに限定されるものではない。また、マルチメディア機器3100,3200,3300は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。
【0194】
一方、マルチメディア機器3100,3200,3300が、例えば、モバイルフォンである場合、図示されていないキーパッドのようなユーザ入力部、ユーザインターフェース、あるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部、モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも1以上の構成要素とをさらに含んでもよい。
【0195】
一方、マルチメディア機器3100,3200,3300が、例えば、TVである場合、図示されていないキーパッドのようなユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、TVの全般的な機能を制御するプロセッサをさらに含んでもよい。また、該TVは、TVで必要とする機能を遂行する少なくとも1以上の構成要素をさらに含んでもよい。
【0196】
図34は、一実施形態によるスペクトル符号化方法の動作を示したフローチャートである。
図34を参照すれば、3410段階においては、現在バンドのスペクトルデータを、第1量子化方式によって量子化することができる。ここで、該第1量子化方式は、スカラー量子化でもあり、均一な量子化間隔を使用するUSQを使用することができる。
【0197】
3430段階においては、スペクトルデータ、及び量子化されたスペクトルデータを利用して、現在バンドの下位ビットを生成することができる。ここで、該下位ビットは、スペクトルデータと、量子化されたスペクトルデータとの差に基づいて得られる。第2量子化方式は、トレリス符号量子化(TCQ)に該当する。
【0198】
3450段階においては、現在バンドの下位ビットが含まれた下位ビットシーケンスを、第2量子化方式によって量子化することができる。
【0199】
3470段階においては、量子化されたスペクトルデータのうちNビット(ここで、Nは1以上)を除いた上位ビット、及び量子化された下位ビットシーケンスに基づいて、ビットストリームを生成することができる。
【0200】
一方、
図34に図示されたスペクトル符号化方法と係わるスペクトルデータの帯域幅は、超広帯域あるいは全帯域でもある。また、スペクトルデータは、入力オーディオ信号に対して、MDCT(modified discrete cosine transform)及び正規化を行って得られることができ、正常モードで符号化される。
【0201】
図34の各段階については、必要によって、前述の符号化装置の各構成要素の動作がさらに付加されもする。
【0202】
図35は、一実施形態によるスペクトル復号方法の動作を示したフローチャートである。
図35を参照すれば、3510段階においては、ビットストリームからISC情報を抽出し、ISCの数、位置及び符号をデコーディングする一方、下位ビットを除いた残りのビットを抽出してデコーディングすることができる。
【0203】
3530段階においては、ビットストリームからTCQ経路情報を抽出し、下位ビットシーケンスをデコーディングすることができる。
【0204】
3550段階においては、3510段階でデコーディングされた下位ビットを除いた残りのビットと、3530段階でデコーディングされた下位ビットシーケンスとに基づいて、スペクトル成分を復元することができる。
【0205】
図35の各段階については、必要によって、前述の復号装置の各構成要素の動作がさらに付加されもする。
【0206】
図36は、一実施形態によるビット割当て装置の構成を示すブロック図である。
図36に図示された装置は、
図5のビット割当て部516、
図7のビット割当て部730、あるいは
図22のビット割当て部2230に対応するか、あるいは独立しても具現される。
【0207】
図36に図示された装置は、ビット推定部3610、再分配部3630及び調整部3650を含んでもよく、少なくとも1つのプロセッサによっても一体化される。スペクトル量子化のためのビット割当てのために、フラクショナブルビット割当て(fractional bit allocation)が使用される。それによれば、3ビットのフラクショナブル部分を有するビット割当てが可能になるので、さらに精密なビット割当てが可能になる。ここで、該符号化モードは、一般モード(generic mode)に該当する。
【0208】
図36において、割り当てビット推定部3610は、バンドの平均エネルギー、例えば、normsに基づいて、割り当てビットを推定することができる。
【0209】
バンドの初期ビットR0(p,0)は、下記数式(8)によって推定される。
【0210】
【数9】
ここで、L
M(p)は、バンドpにあるサンプル当たり1ビットから得られるビット数であり、10個のサンプルが存在する場合、10ビットを示す。TBは、許容可能な全体ビット数(total bit budget)を示す。
【0211】
【数10】
は、バンドiの量子化されたnormsを示す。
【0212】
再分配部3630は、バンドの初期ビットを、所定基準によって再分配することができる。
【0213】
1段階反復処理を介して、フレームに含まれた全てのバンドの初期ビットの和が、全体ビット数TBと同じになるまで、ノンゼロビットを有するバンドに、割り当てビットを再分配することができる。それは、下記数式(9)でのように遂行される。
【0214】
【数11】
ここで、NSL
0(k−1)は、k番目反復処理の後、割り当てビットを有するバンドに存在するスペクトルラインの数を示す。
【0215】
一方、過度に少ないビットが割り当てられた場合、SNR(signal-to-noise ratio)の減少によって、品質低下をもたらすことにもなる。それを解決するために、バンドの割り当てビットに、最小ビット制限を適用することができる。第1最小ビット数は、バンドインデックス及びビットレートによって、整数値からなる。一例を挙げれば、バンドpの第1最小ビット数LNB(p)は、バンドpが0ないし15である場合、3と決定し、バンドpが16ないし23である、場合4と決定し、バンドpが24ないしN
bands−1である場合、5と決定することができる。
【0216】
次に、2段階反復処理を介して、割り当てビットの再分配が行われ、L
M(p)より多い割り当てビットを有するバンドに、ビットを割り当てることができる。ここで、L
M(p)は、各バンドの第2最小ビット数に該当する。
【0217】
まず、割り当てビットが、1段階反復処理結果と、第1最小ビット数及び第2最小ビット数とに基づいて算出される。一例を挙げれば、割り当てビットR
1(p,0)は、下記数式(10)でのように求められる。
【0218】
【数12】
ここで、R(p)は、1段階反復処理の後、バンドpの割り当てビットを示し、bsは、24kbpsの場合、2を示し、32kbpsの場合、3を示すが、それらに限定されるものではない。
【0219】
一方、許容可能な全体ビット数TBは、L
M(p)ビットを有するバンドのビット数を減算することによって更新され、バンドインデックスpは、L
M(p)ビットより多いビットを有するバンドインデックスを示すp’に更新される。N
bandsは、p’に対するバンド数であるN’
bandsに更新される。
【0220】
次に、更新されたTB、すなわち、TB’がL
M(p’)ビットより多いビット数を有するバンドのビット数と同じになるまで、2段階反復処理が行われる。一例を挙げれば、下記数式(11)でのように遂行される。
【0221】
【数13】
ここで、NSL
1(k−1)は、k番目反復処理の後、L
M(p’)ビットより多いビット数を有するバンドに存在するスペクトルラインの数を示す。
【0222】
第2反復処理の間、L
M(p’)ビットより多いビット数を有するバンドがない場合、TB’が0になるまでノンゼロ割当てビットを有するバンドの割り当てビットが、最上位バンドから0に設定される。
【0223】
次に、超えて割り当てられたビット、及び少なく割り当てられたビットに対する最終再分配処理が行われる。このとき、所定基準値に基づいて、最終再分配処理が行われる。
【0224】
調整部3650は、割り当てビットの小数点部分(fractional part)が所定ビットになるように調整することができる。一例を挙げれば、小数点以下3ビットに調整することができ、それは下記数式(12)を介して行われる。
【0225】
【数14】
図37は、一実施形態によるモード決定装置の構成を示したブロック図である。
図37に図示された装置は、音声/音楽分類部3710と、訂正部3730とを含んでもよい。
図37に図示された装置は、
図2Aのモード決定部213、
図3Aのモード決定部314、あるいは
図4Aのモード決定部413に含まれるか、
図2Aの時間ドメイン符号化部215、
図3Aの時間ドメイン励起符号化部316、あるいは
図4Aの時間ドメイン励起符号化部417に追加して含まれるか、あるいは独立しても具現される。ここで、各構成要素は、別途のハードウェアによって具現されなければならない必要がある場合を除いては、1つのプロセッサによっても一体化される。一方、オーディオ信号は、音楽信号あるいは音声信号、あるいは音楽と音声との混合信号を意味する。
【0226】
図37を参照すれば、音声/音楽分類部110は、多様な初期分類パラメータに基づいて、オーディオ信号が音楽信号に該当するか、あるいは音声信号に該当するかということを分類することができる。オーディオ信号分類過程は、少なくとも1以上の段階を含んでもよい。
【0227】
一実施形態によれば、現在フレームと、複数個の以前フレームとの信号特性に基づいて、オーディオ信号を、音声信号あるいは音楽信号に分類することができる。該信号特性は、短区間特性と長区間特性とのうち少なくとも一つを含んでもよい。また、該信号特性は、時間ドメイン特性と周波数ドメイン特性とのうち少なくとも一つを含んでもよい。ここで、音声信号に分類されれば、CELP(code excited linear prediction)タイプコーダを利用して符号化される。一方、音楽信号に分類されれば、トランスフォームコーダを利用して符号化される。ここで、該トランスフォームコーダの一例としては、MDCT(modified discrete cosine transform)コーダを有することができるが、それに限定されるものではない。
【0228】
他の実施形態によれば、オーディオ信号分類過程は、オーディオ信号が音声特性を有するか否かということによって、オーディオ信号を、音声信号と、一般的なオーディオ信号(generic audio signal)、すなわち、音楽信号とに分類する第1段階と、一般オーディオ信号が、GSC(generic signal audio coder)に適するか否かということを判断するための第2段階と、を含んでもよい。第1段階の分類結果と、第2段階の分類結果とを組み合わせ、オーディオ信号が、音声信号に分類されるか、あるいは音楽信号に分類されるかということを決定することができる。音声信号に分類されれば、CELPタイプコーダによって符号化される。CELPタイプコーダは、ビット率あるいは信号特性によって、無声音符号化(UC:unvoiced coding)モード、有声音符号化(VC:voiced coding)モード、トランジェント符号化(TC:transition coding)モード、一般符号化(GC:generic coding)モードのうち複数個を含んでもよい。一方、GSC(generic signal audio coding)モードは、別途のコーダによって具現されるか、あるいはCELPタイプコーダの1つのモードに含まれる。音楽信号に分類されれば、トランスフォームコーダあるいはCELP/トランスフォームハイブリッドコーダのうち一つを利用して符号化される。細部的には、トランスフォームコーダは、音楽信号に適用され、CELP/トランスフォームハイブリッドコーダは、音声信号ではない非音楽(non-music)信号、あるいは音楽と音声とが混合した信号(mixed signal)に適用される。一実施形態によれば、帯域幅によって、CELPタイプコーダ、CELP/トランスフォームハイブリッドコーダ及びトランスフォームコーダがいずれも使用されるか、あるいはCELPタイプコーダ及びトランスフォームコーダが使用される。例えば、狭帯域(NB)である場合、CELPタイプコーダ及びトランスフォームコーダが使用され、広帯域(WB)、超広帯域(SWB)、全帯域(FB)である場合、CELPタイプコーダ、CELP/トランスフォームハイブリッドコーダ及びトランスフォームコーダが使用される。CELP/トランスフォームハイブリッドコーダは、時間ドメインで動作するLP基盤コーダと、トランスフォームドメインコーダとを結合したものであり、GSC(generic signal audio coder)ともいう。
【0229】
第1段階の信号分類は、GMM(Gaussian mixture model)に基づく。GMMのために多様な信号特性が使用される。該信号特性の例としては、オープンループピッチ、正規化された相関度、スペクトルエンベロープ、トーナル安定度、信号のノンステーショナリティ、LPレジデュアルエラー、スペクトル差値、スペクトルステーショナリティのような特性を有することができるが、それらに限定されるものではない。第2段階の信号分類のために使用される信号特性の例としては、スペクトルエネルギー変動特性、LP分析レジデュアルエネルギーのチルト特性、高域スペクトルピーキネス特性、相関度特性、ボイシング特性、トーナル特性などを挙げることができるが、それらに限定されるものではない。第1段階で使用される特性は、CELPタイプコーダによって符号化することが適するか否かということを判断するために、音声特性であるか、あるいは非音性特性であるかということを判断するためのものであり、第2段階で使用される特性は、GSCによって符号化することが適するか否かということを判断するために、音楽特性であるか、あるいは非音楽特性であるかということを判断するためのものでもある。例えば、第1段階において、音楽信号に分類された1セットのフレームは、第2段階において音声信号に転換され、CELPモードのうち一つによって符号化される。すなわち、大きいピッチ周期及び高い安定度を有しながら、相関度が高い信号、あるいはアタック信号である場合、第2段階において、音楽信号から音声信号に転換される。かような信号分類結果によって、符号化モードが変更される。
【0230】
訂正部3730は、音声/音楽分類部3710の分類結果を、少なくとも1つの修正パラメータに基づいて修正することができる。訂正部3730は、コンテクストに基づいて、音声/音楽分類部3710の分類結果を修正することができる。例えば、現在フレームが、音声信号に分類された場合、音楽信号に修正されるか、あるいは音声信号に維持され、現在フレームが音楽信号に分類された場合、音声信号に修正されるか、あるいは音楽信号に維持される。現在フレームの分類結果にエラーが存在するか否かということを判断するために、現在フレームを含む複数個のフレームの特性が使用される。例えば、8個のフレームが使用されるが、それに限定されるものではない。
【0231】
修正パラメータの例としては、トーナリティ、線形予測エラー、ボイシング、相関度のような特性のうち少なくとも一つを組み合わせて使用される。ここで、トーナリティは、1〜2kHz領域のトーナリティton
2と、2〜4kHz領域のトーナリティton
3とを含んでもよく、それぞれ下記数式(13)及び(14)によって定義される。
【0232】
【数15】
ここで、上添字(superscript)[−i]は、以前フレームを示す。例えば、tonality2
[−1]は、1フレーム以前フレームの1〜2kHz領域のトーナリティを示す。
【0233】
一方、低域の長区間トーナリティton
LTは、ton
LT=0.2*log
10[lt_tonality]のように定義される。ここで、lt_tonalityは、全帯域の長区間トナリティーを示すことができる。
【0234】
一方、nフレームにおいて、1〜2kHz領域のトーナリティton
2と、2〜4kHz領域のトーナリティton
3との差d
ftは、d
ft=0.2*{log
10(tonality2(n))−log
10(tonality3(n))}のように定義される。
【0235】
次に、線形予測エラーLP
errは、下記数式(15)によって定義される。
【0236】
【数16】
ここで、FV
s(9)は、FV
s(i)=sfa
iFV
i+sfb
i(ここで、i=0,…,11)によって定義され、音声/音楽分類部3710で使用される特徴パラメータのうち、数式(16)によって定義されるLPレジデュアルログ・エネルギー比率特徴パラメータをスケーリングした値に該当するのである。ここで、sfa
i、sfb
iは、特徴パラメータの種類及び帯域幅によって異なり、各特徴パラメータを[0;1]範囲に近似化させるために使用される。
【0237】
【数17】
ここで、E(1)は、最初のLP係数のエネルギー、E(13)は、13番目LP係数のエネルギーを示す。
【0238】
次に、音声/音楽分類部3710で使用される特徴パラメータのうち、数式(17)によって定義される正規化された相関度特徴あるいはボイシング特徴FV
1を、FV
s(i)=sfa
iFV
i+sfb
i(ここで、i=0,…,11)に基づいてスケーリングした値FV
s(1)と、下記数式(18)によって定義される相関度マップ特徴FV(7)を、FV
s(i)=sfa
iFVi+sfb
i(ここで、i=0,…,11)に基づいてスケーリングした値FV
s(7)との差d
vcorは、d
vcor=max(FV
s(1)−FV
s(7),0)と定義される。
【0240】
【数19】
は最初または2番目のハーフフレームでの正規化された相関度を示す。
【0241】
【数20】
ここで、M
corは、フレームの相関度マップを示す。
【0242】
前記複数個の特徴パラメータを組み合わせるか、あるいは単一特徴パラメータを利用して、次の条件1ないし条件4のうち少なくとも1以上を含む修正パラメータを生成することができる。ここで、条件1と条件2は、音声分類と係わる状態マシーンで使用される条件を意味し、条件3と条件4は、音楽分類と係わる状態マシーンで使用される条件を意味する。具体的には、条件1は、音声状態SPEECH_STATEを、0から1に変更することができ、条件2は、音声状態SPEECH_STATEを、1から0に変更することができる。一方、条件3は、音楽状態MUSIC_STATEを、0から1に変更することができ、条件4は、音楽状態MUSIC_STATEを、1から0に変更することができる。音声状態SPEECH_STATEが1であるならば、音声である確率が高いということ、すなわち、CELPタイプコーディングが適するということを意味し、0であるならば、音声ではない確率が高いということを意味する。一例を挙げれば、音楽状態MUSIC_STATEが1であるならば、トランスフォームコーディングに適するということを意味し、0であるならば、CELP/トランスフォームハイブリッドコーディング、すなわち、GSCに適するということを意味する。他の例を挙げれば、音楽状態MUSIC_STATEが1であるならば、トランスフォームコーディングに適するということを意味し、0であるならば、CELPタイプコーディングに適するということを意味する。
【0243】
条件1 cond
Aは、例えば、次のように定義される。すなわち、d
vcor>0.4 AND d
ft<0.1 AND FV
s(1)>(2*FV
s(7)+0.12) AND ton
2<d
vcor AND ton
3<d
vcor AND ton
LT<d
vcor AND FV
s(7)<d
vcor AND FV
s(1)>d
vcor AND FV
s(1)>0.76であるならば、cond
Aは、1に設定される。
【0244】
条件2 cond
Bは、例えば、次のように定義される。すなわち、d
vcor<0.4であるならば、cond
Bは、1に設定される。
【0245】
条件3 cond
Cは、例えば、次のように定義される。すなわち、0.26<ton
2<0.54 AND ton
3>0.22 AND 0.26<ton
LT<0.54 AND LP
err>0.5であるならば、cond
Cは、1に設定される。
【0246】
条件4 cond
Dは、例えば、次のように定義される。すなわち、ton
2<0.34 AND ton
3<0.26 AND 0.26<ton
LT<0.45であるならば、cond
Dは、1に設定される。
【0247】
各条件を生成するために使用された特徴、あるいは特徴の組み合わせは、それらに限定されるものではない。また、各整数値は、例示的なものに過ぎず、具現方式によって最適値に設定される。
【0248】
一実施形態によれば、訂正部3730は、2つの独立した状態マシーン、例えば、音声状態マシーンと音楽状態マシーンとを利用して、初期分類結果に存在するエラーを訂正することができる。各状態マシーンは、2つの状態を有し、各状態において、ハングオーバーが使用され、頻繁なトランジションを防止することができる。該ハングオーバーは、例えば、6個フレームから構成される。音声状態マシーンにおいて、ハングオーバー変数をhang
spとして示し、音楽状態マシーンにおいて、ハングオーバー変数をhang
musで示す場合、与えられた状態に、分類結果に変化がある場合、それぞれ6に初期化され、その後、該ハングオーバーがそれぞれ次のフレームに対して、1ずつ減少する。該状態変化は、ハングオーバーがゼロに減少する場合に、発生する。各状態マシーンには、オーディオ信号から抽出される少なくとも1以上の特徴が組み合わせされて生成される修正パラメータが使用される。
【0249】
図38は、
図37に図示された訂正部3730で使用される状態マシーンを示す図面である。
図38を参照すれば、左側は、一実施形態によるCELPコアに適する状態マシーン、すなわち、音声状態において、コンテクスト基盤訂正のための状態マシーンを示すものである。訂正部3730においては、音楽状態マシーンで決定される音楽状態と、音声状態マシーンで決定される音声状態とによって、分類結果に対する修正(corection)が適用される。例えば、初期分類結果が音楽信号に設定された場合、修正パラメータに基づいて、音声信号に変更することができる。具体的には、初期分類結果のうち第1段階の分類結果が音楽信号であり、音声状態が1になった場合、第1段階の分類結果と、第2段階の分類結果とをいずれも音声信号に変更することができる。そのような場合、初期分類結果にエラーが存在すると判断され、分類結果に対する修正が行われる。
【0250】
それについて、さらに具体的に説明すれば、次の通りである。
【0251】
まず、修正パラメータ、例えば、条件1及び条件2を受信することができる。また、音声状態マシーンのハングオーバー情報を受信することができる。また、初期分類結果を受信することができる。該初期分類結果は、音声/音楽分類部3710から提供される。
【0252】
該初期分類結果、すなわち、音声状態が0でありながら、条件1 cond
Aが1であり、音声状態マシーンのハングオーバーhang
spが0であるか否かということを判断することができる。音声状態が0でありながら、条件1が1であり、音声状態マシーンのハングオーバーhang
spが0であると判断された場合、430段階において音声状態を1に変更し、ハングオーバーhang
spを6に初期化させることができる。
【0253】
一方、初期分類結果、すなわち、音声状態が1でありながら、条件2 cond
Bが1であり、音声状態マシーンのハングオーバーhang
spが0であるか否かということを判断することができる。音声状態が1でありながら、条件2が1であり、音声状態マシーンのハングオーバーhang
spが0であると判断された場合、音声状態を0に変更し、ハングオーバーhang
spを6に初期化させることができる。一方、音声状態が1ではないか、条件2が1ではないか、あるいは音声状態マシーンのハングオーバーhang
spが0ではない場合、ハングオーバーを1ほど減少させるハングオーバーアップデートを行うことができる。
【0254】
図38を参照すれば、右側は、一実施形態によるHQ(high quality)コアに適する状態、すなわち、音楽状態において、コンテクスト基盤訂正のための状態マシーンを示すものである。訂正部3730では、音楽状態マシーンで決定される音楽状態と、音声状態マシーンで決定される音声状態とによって、分類結果に対する修正(corection)が適用される。例えば、初期分類結果が音声信号に設定された場合、修正パラメータに基づいて、音楽信号に変更することができる。具体的には、初期分類結果のうち第1段階の分類結果が音声信号であり、音楽状態が1になった場合、第1段階の分類結果と、第2段階の分類結果とをいずれも音楽信号に変更することができる。一方、初期分類結果が音楽信号に設定された場合、修正パラメータに基づいて、音声信号に変更することができる。そのような場合、初期分類結果にエラーが存在すると判断され、分類結果に対する修正が行われる。
【0255】
それについて、さらに具体的に説明すれば、次の通りである。
【0256】
まず、修正パラメータ、例えば、条件3及び条件4を受信することができる。また、音楽状態マシーンのハングオーバー情報を受信することができる。また、初期分類結果を受信することができる。該初期分類結果は、音声/音楽分類部3710から提供される。
【0257】
初期分類結果、すなわち、音楽状態が0でありながら、条件3 cond
Cが1であり、音楽状態マシーンのハングオーバーhang
musが0であるか否かということを判断することができる。音楽状態が0でありながら、条件3が1であり、音楽状態マシーンのハングオーバーhang
musが0であると判断された場合、音楽状態を1に変更し、ハングオーバーhang
musを6に初期化させることができる。
【0258】
一方、初期分類結果、すなわち、音楽状態が1でありながら、条件4 cond
Dが1であり、音楽状態マシーンのハングオーバーhang
musが0であるか否かということを判断することができる。音楽状態が1でありながら、条件4が1であり、音楽状態マシーンのハングオーバーhang
musが0であると判断された場合、音楽状態を0に変更し、ハングオーバーhang
musを6に初期化させることができる。一方、音楽状態が1ではないか、条件4が1ではないか、あるいは音楽状態マシーンのハングオーバーhang
musが0ではない場合、ハングオーバーを1ほど減少させるハングオーバーアップデートを行うことができる。
【0259】
前記実施形態は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータでも具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読取り可能な記録媒体に多様な手段を介して記録される。コンピュータで読取り可能な記録媒体は、コンピュータシステムによって読取り可能なデータが保存される全ての種類の保存装置を含んでもよい。コンピュータで読取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD−ROM(compact disc read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media);フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical media);及びROM(read-only memory)、RAM(random access memory)、フラッシュメモリのような、プログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、コンピュータで読取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。
【0260】
以上、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたにしても、本発明の一実施形態は、前述の実施形態によって限定されるものではなく、それについては、本発明が属する分野で当業者であるならば、かような記載から、多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的な変形は、いずれも本発明技術的思想の範疇に属するものである。