(58)【調査した分野】(Int.Cl.,DB名)
前記重要周波数成分の大きさは、USQ(uniform scalar quantization)及びTCQ(trellis coded quantization)のうち一つを利用して量子化し、算術符号化することを特徴とする請求項1に記載のスペクトル符号化方法。
前記正規化されたスペクトルを、各バンド別に割り当てられたビットに基づいて、スケーリングを行う段階をさらに含み、スケーリングされたスペクトルに対して、前記重要周波数成分を選択することを特徴とする請求項1に記載のスペクトル符号化方法。
前記重要周波数成分の大きさは、算術復号化し、USQ(uniform scalar quantization)及びTCQ(trellis coded quantization)のうち一つを利用して逆量子化することを特徴とする請求項6に記載のスペクトル復号化方法。
【発明を実施するための形態】
【0010】
本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明で具体的に説明する。しかし、それは、本発明を特定の実施形態について限定するものではなく、本発明の技術的思想、及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。本発明の説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。
【0011】
第1、第2のような用語は、多様な構成要素の説明に使用されるが、構成要素が用語によって限定されるものではない。用語は、1つの構成要素を他の構成要素から区別する目的にのみ使用される。
【0012】
本発明で使用した用語は、ただ特定実施形態の説明に使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り現在広く使用される一般的な用語を選択したが、それは当分野に携わる技術者の意図、判例または新たな技術の出現などによって異なる。また、特定の場合、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分において、詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味、及び本発明の全般にわたった内容を基に定義されなければならない。
【0013】
単数の表現は、文脈上、明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであり、一つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性を事前に排除するものではないということを理解しなければならない。
【0014】
以下、本発明の実施形態について、添付図面を参照し、詳細に説明する。
【0015】
図1A及び
図1Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の一例による構成をそれぞれ示したブロック図である。
【0016】
図1Aに図示されたオーディオ符号化装置110は、前処理部112、周波数ドメイン符号火部114及びパラメータ符号化部116を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0017】
図1Aにおいて、前処理部112は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うが、それらに限定されるものではない。入力信号は、オーディオ、ミュージックまたはスピーチ、あるいはそれらの混合信号を示すサウンドのようなメディア信号を意味するが、以下では、説明の便宜のために、オーディオ信号とする。
【0018】
周波数ドメイン符号化部114は、前処理部112から提供されるオーディオ信号に対して、時間−周波数変換を行い、オーディオ信号のチャンネル数、符号化帯域及びビット率に対応して符号化ツールを選択し、選択された符号化ツールを利用して、オーディオ信号に対する符号化を行う。時間−周波数変換は、MDCT(modified discrete cosine transform)、MLT(modulated lapped transform)あるいはFFT(fast Fourier transform)を使用するが、それらに限定されるものではない。ここで、与えられたビット数が十分である場合、全体帯域に対して一般的な変換符号化方式を適用し、与えられたビット数が十分ではない場合、一部帯域については、帯域拡張方式を適用することができる。一方、オーディオ信号が、ステレオあるいはマルチチャンネルである場合、与えられたビット数が十分であるならば、各チャンネル別に符号化し、十分ではなければ、ダウンミキシング方式を適用することができる。周波数ドメイン符号化部114からは、符号化されたスペクトル係数が生成される。
【0019】
パラメータ符号化部116は、周波数ドメイン符号化部114から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化することができる。パラメータは、例えば、サブバンド別あるいはバンド別に抽出され、以下では、説明の簡素化のためにサブバンドとする。各サブバンドは、スペクトル係数をグルーピングした単位であり、臨界帯域を反映させ、均一あるいは非均一の長さを有することができる。非均一長を有する場合、低周波数帯域に存在するサブバンドの場合、高周波数帯域と比較し、相対的に短い長さを有する。1フレームに含まれるサブバンドの個数及び長さは、コーデックアルゴリズムによって異なり、符号化性能に影響を及ぼす。一方、パラメータは、サブバンドのスケールファクタ、パワー、平均エネルギーあるいはnormを例として挙げることができるが、それらに限定されるものではない。符号化の結果として得られるスペクトル係数とパラメータは、ビットストリームを形成し、記録媒体に保存されるか、あるいはチャネルを介して、例えば、パッケージ形態で伝送される。
【0020】
図1Bに図示されたオーディオ復号化装置130は、パラメータ復号化部132、周波数ドメイン復号化部134及び後処理部136を含んでもよい。ここで、周波数ドメイン復号化部134は、フレーム消去隠匿(FEC:frame erasure concealment)アルゴリズムあるいはパケット損失隠匿(PLC:packet loss concealment)アルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0021】
図1Bにおいて、パラメータ復号化部132は、受信されたビットストリームから、符号化されたパラメータを復号化し、復号化されたパラメータから、フレーム単位で消去あるいは損失のようなエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームまたは損失フレームであるかということに係わる情報を、周波数ドメイン復号化部134に提供する。以下では、説明の簡素化のために、消去フレームあるいは損失フレームをエラーフレームであるとする。
【0022】
周波数ドメイン復号化部134は、現在フレームが正常フレームである場合、一般的な変換復号化過程を介して復号化を行い、合成されたスペクトル係数を生成することができる。一方、周波数ドメイン復号化部134は、現在フレームがエラーフレームである場合、FECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するとか回帰分析を介してスケーリングして繰り返すことで、合成されたスペクトル係数を生成することができる。周波数ドメイン復号化部134は、合成されたスペクトル係数に対して、周波数−時間変換を行い、時間ドメイン信号を生成することができる。
【0023】
後処理部136は、周波数ドメイン復号化部134から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部136は、出力信号として、復元されたオーディオ信号を提供する。
【0024】
図2A及び
図2Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0025】
図2Aに図示されたオーディオ符号化装置210は、前処理部212、モード決定部213、周波数ドメイン符号化部214、時間ドメイン符号化部215及びパラメータ符号化部216を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
図2Aにおいて、前処理部212は、
図1Aの前処理部112と実質的に同一であるので、説明を省略する。
【0026】
モード決定部213は、入力信号の特性を参照し、符号化モードを決定することができる。入力信号の特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定し、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに係わる長区間特性などを利用して、入力信号の特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。モード決定部213は、入力信号の特性が、音楽モードあるいは周波数ドメインモードに該当する場合には、前処理部212の出力信号を周波数ドメイン符号化部214に提供し、入力信号の特性が、音声モードあるいは時間ドメインモードに該当する場合、時間ドメイン符号化部215に提供することができる。
【0027】
周波数ドメイン符号化部214は、
図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
【0028】
時間ドメイン符号化部215は、前処理部212から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行う。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。
【0029】
パラメータ符号化部216は、周波数ドメイン符号化部214あるいは時間ドメイン符号化部215から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部216は、
図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット形態で伝送したり記録媒体に保存されたりする。
【0030】
図2Bに図示されたオーディオ復号化装置230は、パラメータ復号化部232、モード決定部233、周波数ドメイン復号化部234、時間ドメイン復号化部235及び後処理部236を含んでもよい。ここで、周波数ドメイン復号化部234と時間ドメイン復号化部235は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0031】
図2Bにおいて、パラメータ復号化部232は、パケット形態で伝送されるビットストリームから、パラメータを復号化し、復号化されたパラメータから、フレーム単位で、エラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン復号化部234あるいは時間ドメイン復号化部235に提供する。
【0032】
モード決定部233は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号化部234あるいは時間ドメイン復号化部235に提供する。
【0033】
周波数ドメイン復号化部234は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号化過程を介して復号化を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用したり、回帰分析を介してスケーリングして反復したりすることにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号化部234は、合成されたスペクトル係数に対して周波数−時間変換を行い、時間ドメイン信号を生成することができる。
【0034】
時間ドメイン復号化部235は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号化過程を介して復号化を行い、時間ドメイン信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
【0035】
後処理部236は、周波数ドメイン復号化部234あるいは時間ドメイン復号化部235から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部236は、出力信号として、復元されたオーディオ信号を提供する。
【0036】
図3A及び
図3Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0037】
図3Aに図示されたオーディオ符号化装置310は、前処理部312)、LP(linear prediction)分析部313、モード決定部314、周波数ドメイン励起符号化部315、時間ドメイン励起符号化部316及びパラメータ符号化部317を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0038】
図3Aにおいて、前処理部312は、
図1Aの前処理部112と実質的に同一であるので、説明を省略する。
【0039】
LP分析部313は、入力信号に対してLP分析を行ってLP係数を抽出し、抽出されたLP係数から励起信号を生成する。励起信号は、符号化モードにより、周波数ドメイン励起符号化部315と時間ドメイン励起符号化部316とのうち一つに提供される。
【0040】
モード決定部314は、
図2Bのモード決定部213と実質的に同一であるので、説明を省略する。
【0041】
周波数ドメイン励起符号化部315は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、
図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
【0042】
時間ドメイン励起符号化部316は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、
図2Aの時間ドメイン符号化部215と実質的に同一であるので、説明を省略する。
【0043】
パラメータ符号化部317は、周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部317は、
図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット形態で伝送されるか、あるいは記録媒体に保存される。
【0044】
図3Bに図示されたオーディオ復号化装置330は、パラメータ復号化部332、モード決定部333、周波数ドメイン励起復号化部334、時間ドメイン励起復号化部335、LP合成部336及び後処理部337を含んでもよい。ここで、周波数ドメイン励起復号化部334と時間ドメイン励起復号化部335は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0045】
図3Bにおいて、パラメータ復号化部332は、パケット形態で伝送されるビットストリームから、パラメータを復号化し、復号化されたパラメータから、フレーム単位で、エラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335に提供する。
【0046】
モード決定部333は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335に提供する。
【0047】
周波数ドメイン励起復号化部334は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号化過程を介して復号化を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用したり、回帰分析を介してスケーリングして反復したりすることにより、合成されたスペクトル係数を生成することができる。周波数ドメイン励起復号化部334は、合成されたスペクトル係数に対して周波数−時間変換を行い、時間ドメイン信号である励起信号を生成することができる。
【0048】
時間ドメイン励起復号化部335は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号化過程を介して復号化を行い、時間ドメイン信号である励起信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
【0049】
LP合成部336は、周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335から提供される励起信号に対してLP合成を行い、時間ドメイン信号を生成する。
【0050】
後処理部337は、LP合成部336から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部337は、出力信号として、復元されたオーディオ信号を提供する。
【0051】
図4A及び
図4Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。
【0052】
図4Aに図示されたオーディオ符号化装置410は、前処理部412、モード決定部413、周波数ドメイン符号化部414、LP分析部415、周波数ドメイン励起符号化部416、時間ドメイン励起符号化部417及びパラメータ符号化部418を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
図4Aに図示されたオーディオ符号化装置410は、
図2Aのオーディオ符号化装置210と、
図3Aのオーディオ符号化装置310とを結合したものであると見ることができるので、共通する部分の動作説明は省略する一方、モード決定部413の動作について説明する。
【0053】
モード決定部413は、入力信号の特性及びビット率を参照し、入力信号の符号化モードを決定することができる。モード決定部413は、入力信号の特性によって、現在フレームが音声モードであるか、あるいは音楽モードであるかということにより、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということにより、CELPモードと、それ以外のモードとに決定することができる。もし入力信号の特性が音声モードである場合には、CELPモードに決定し、音楽モードでありながら、高ビット率である場合、FDモードに決定し、音楽モードでありながら、低ビット率である場合、オーディオモードに決定することができる。モード決定部413は、FDモードである場合、入力信号を周波数ドメイン符号化部414に提供し、オーディオモードである場合、LP分析部415を介して周波数ドメイン励起符号化部416に提供し、CELPモードである場合、LP分析部415を介して、時間ドメイン励起符号化部417に提供することができる。
【0054】
周波数ドメイン符号化部414は、
図1Aのオーディオ符号化装置110の周波数ドメイン符号化部114、あるいは
図2Aのオーディオ符号化装置210の周波数ドメイン符号化部214に対応し、周波数ドメイン励起符号化部416あるいは時間ドメイン励起符号化部417は、
図3Aのオーディオ符号化装置310の周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316に対応する。
【0055】
図4Bに図示されたオーディオ復号化装置430は、パラメータ復号化部432、モード決定部433、周波数ドメイン復号化部434、周波数ドメイン励起復号化部435、時間ドメイン励起復号化部436、LP合成部437及び後処理部438を含んでもよい。ここで、周波数ドメイン復号化部434、周波数ドメイン励起復号化部435及び時間ドメイン励起復号化部436は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
図4Bに図示されたオーディオ復号化装置430は、
図2Bのオーディオ復号化装置230と、
図3Bのオーディオ復号化装置330とを結合したものであると見ることができるので、共通する部分の動作説明は省略する一方、モード決定部433の動作について説明する。
【0056】
モード決定部433は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン復号化部434、周波数ドメイン励起復号化部435あるいは時間ドメイン励起復号化部436に提供する。
【0057】
周波数ドメイン復号化部434は、
図1Bのオーディオ符号化装置130の周波数ドメイン復号化部134、あるいは
図2Bのオーディオ復号化装置230の周波数ドメイン復号化部234に対応し、周波数ドメイン励起復号化部435あるいは時間ドメイン励起復号化部436は、
図3Bのオーディオ復号化装置330の周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335に対応する。
【0058】
図5は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。
【0059】
図5に図示された周波数ドメインオーディオ符号化装置510は、トランジェント検出部511)、変換部512、信号分類部513、エネルギー符号化部514、スペクトル正規化部515、ビット割当て部516、スペクトル符号化部517及び多重化部518を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。ここで、周波数ドメインオーディオ符号化装置510は、
図2に図示された周波数ドメイン符号化部214の全ての機能と、パラメータ符号化部216の一部機能とを遂行することができる。一方、周波数ドメインオーディオ符号化装置510は、信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成にも代替され、そのとき、変換部512は、50%のオーバーラップ区間を有する変換ウィンドウを使用することができる。また、周波数ドメインオーディオ符号化装置510は、トランジェント検出部511及び信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成にも代替される。各場合において、図示されていないが、ITU−T G.719標準でのように、スペクトル符号化部517の後端に、ノイズレベル推定部をさらに具備し、ビット割り当て過程において、ゼロビットが割り当てられたスペクトル係数のためのノイズレベルを推定してビットストリームに含めることができる。
【0060】
図5を参照すれば、トランジェント検出部511は、入力信号を分析し、トランジェント特性を示す区間を検出し、検出結果に対応し、各フレームに係わるトランジェントシグナリング情報を生成することができる。そのとき、トランジェント区間の検出には、公知の多様な方法を使用することができる。一実施形態によれば、トランジェント検出部511は、まず現在フレームがトランジェントフレームであるか否かということを一次的に判断し、トランジェントフレームであると判断された現在フレームに対して、二次的に検証を行う。トランジェントシグナリング情報は、多重化部518を介してビットストリームに含まれる一方、変換部512に提供される。
【0061】
変換部512は、トランジェント区間の検出結果によって、変換に使用されるウィンドウサイズを決定し、決定されたウィンドウサイズに基づいて、時間−周波数変換を行う。一例として、トランジェント区間が検出されたサブバンドの場合、短区間ウィンドウ(short window)を適用し、検出されていないサブバンドの場合、長区間ウィンドウ(long window)を適用することができる。他の例として、トランジェント区間を含むフレームに対して、短区間ウィンドウを適用することができる。
【0062】
信号分類部513は、変換部512から提供されるスペクトルをフレーム単位で分析し、各フレームがハーモニックフレームに該当するか否かということを判断することができる。そのとき、ハーモニックフレームの判断には、公知の多様な方法を使用することができる。一実施形態によれば、信号分類部513は、変換部512から提供されるスペクトルを複数のサブバンドに分け、各サブバンドに対して、エネルギーのピーク値及び平均値を求めることができる。次に、各フレームに対して、エネルギーのピーク値が、平均値より所定比率以上大きいサブバンドの数を求め、求められたサブバンドの数が所定値以上であるフレームをハーモニックフレームと決定することができる。ここで、所定比率及び所定値は、実験あるいはシミュレーションを介して、既定でもある。ハーモニックシグナリング情報は、多重化部518を介して、ビットストリームに含められる。
【0063】
エネルギー符号化部514は、各サブバンド単位でエネルギーを求め、量子化及び無損失符号化を行うことができる。一実施形態によれば、エネルギーとして、各サブバンドの平均スペクトルエネルギーに該当するnorm値を使用することができ、スケールファクタあるいはパワーを代わりに使用することができるが、それらに限定されるものではない。ここで、各サブバンドのnorm値は、スペクトル正規化部515及びビット割当て部516に提供される一方、多重化部518を介してビットストリームに含められる。
【0064】
スペクトル正規化部515は、各サブバンド単位で求められたnorm値を利用して、スペクトルを正規化することができる。
【0065】
ビット割当て部516は、各サブバンド単位で求められたnorm値を利用して、整数単位あるいは小数点単位でビット割り当てを行う。また、ビット割当て部516は、各サブバンド単位で求められたnorm値を利用して、マスキング臨界値を計算し、マスキング臨界値を利用して、知覚的に必要なビット数、すなわち、許容ビット数を推定することができる。次に、ビット割当て部516は、各サブバンドに対して、割り当てビット数が許容ビット数を超えないように制限することができる。一方、ビット割当て部516は、norm値が大きいサブバンドから順次にビットを割り当て、各サブバンドのnorm値に対して、各サブバンドの知覚的重要度によって、加重値を付与することにより、知覚的に重要なサブバンドにさらに多くのビットが割り当てられるように調整することができる。そのとき、norm符号化部514からビット割当て部516に提供される量子化されたnorm値は、ITU−T G.719におけると同様に、心理音響加重(psycho-acoustical weighting)及びマスキングの効果を考慮するために、事前に調整された後でビット割り当てに使用される。
【0066】
スペクトル符号化部517は、正規化されたスペクトルに対して、各サブバンドの割り当てビット数を利用して量子化を行い、量子化された結果に対して、無損失符号化することができる。一例として、スペクトル符号化に、TCQ、USQ、FPC、AVQ、PVQ、あるいはそれらの組み合わせ、及び各量子化器に対応する無損失符号化器を使用することができる。また、当該コーデックが搭載される環境、あるいはユーザの必要によって、多様なスペクトル符号化技法を適用することができる。スペクトル符号化部517で符号化されたスペクトルに係わる情報は、多重化部518を介してビットストリームに含められる。
【0067】
図6は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。
図6に図示されたオーディオ符号化装置600は、前処理部610、周波数ドメイン符号化部630、時間ドメイン符号化部650及び多重化部670を含んでもよい。周波数ドメイン符号化部630は、トランジェント検出部631、変換部633及びスペクトル符号化部635を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0068】
図6において、前処理部610は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。前処理部610は、信号特性に基づいて、符号化モードを決定することができる。信号特性によって、現在フレームに適する符号化モードが音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに係わる長区間特性などを利用して、信号特性を把握することができるが、それらに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。前処理部610は、信号特性が音楽モードあるいは周波数ドメインモードに該当する場合には、入力信号を周波数ドメイン符号化部630に提供し、信号特性が音声モードあるいは時間ドメインモードに該当する場合、入力信号を時間ドメイン符号化部650に提供することができる。
【0069】
周波数ドメイン符号化部630は、前処理部610から提供されるオーディオ信号を、変換符号化に基づいて、処理することができる。具体的には、トランジェント検出部631は、オーディオ信号からトランジェント成分を検出し、現在フレームがトランジェントフレームであるかを判断することができる。変換部633は、トランジェント検出部631から提供されるフレームタイプ、すなわち、トランジェント情報に基づいて、変換ウィンドウの長さあるいは形態を決定し、決定された変換ウィンドウに基づいて、オーディオ信号を、周波数ドメインに変換することができる。変換技法においては、MDCT、FFTあるいはMLTを適用することができる。一般的に、トランジェント成分を有するフレームについては、短い長さの変換ウィンドウを適用することができる。スペクトル符号化部635は、周波数ドメインに変換されたオーディオスペクトルに対して符号化を行う。スペクトル符号化部635については、
図7及び
図9を参照してさらに具体的に説明する。
【0070】
時間ドメイン符号化部650は、前処理部610から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行う。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。
【0071】
多重化部670は、周波数ドメイン符号化部630あるいは時間ドメイン符号化部650において、符号化の結果として生成されるスペクトル成分あるいは信号成分と、多様なインデックスとを多重化してビットストリームを生成し、ビットストリームは、チャネルを介してパケット形態で伝送されるか、あるいは記録媒体に保存される。
【0072】
図7は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。
図7に図示された装置は、
図6のスペクトル符号化部635に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立して具現される。
図7に図示されたスペクトル符号化装置700は、エネルギー推定部710、エネルギー量子化及び符号化部720、ビット割当て部730、スペクトル正規化部740、スペクトル量子化及び符号化部750及びノイズフィリング部760を含んでもよい。
【0073】
図7を参照すれば、エネルギー推定部710は、本来のスペクトル係数に対して、サブバンドに分離し、各サブバンド別エネルギー、例えば、norm値を推定することができる。ここで、1つのフレームにおいて、各サブバンドは、同一サイズを有するか、低帯域から高帯域に行くほど、各サブバンドに含まれるスペクトル係数の数を増加させることができる。
【0074】
エネルギー量子化及び符号化部720は、各サブバンドに対して推定されたnorm値を、量子化及び符号化することができる。そのとき、norm値は、VQ(vector quantization)、SQ(scalar quantization)、TCQ(trellis coded quantization)、LVQ(lattice vector quantization)など多様な方式で量子化される。エネルギー量子化及び符号化部720は、さらなる符号化効率を向上させるために無損失符号化をさらに行う。
【0075】
ビット割当て部730は、サブバンド別に量子化されたnorm値を利用して、フレーム当たり許容ビットを考慮しながら、符号化に必要なビットを割り当てることができる。
【0076】
スペクトル正規化部740は、サブバンド別に量子化されたnorm値を利用して、スペクトルに係わる正規化を行う。
【0077】
スペクトル量子化及び符号化部750は、正規化されたスペクトルに対して、サブバンド別に割り当てられたビットに基づいて、量子化及び符号化を行う。
【0078】
ノイズフィリング部760は、スペクトル量子化及び符号化部750において、許容ビットの制約によって0に量子化された部分に、適切なノイズを追加することができる。
【0079】
図8は、サブバンド分割の例を示す図面である。
図8を参照すれば、入力信号が48kHzのサンプリング周波数を使用し、20msのフレームサイズを有する場合、毎フレーム当たり処理するサンプルの個数は、960個になる。すなわち、入力信号を、MDCTを利用して、50%のオーバーラッピングを適用して変換すれば、960個のスペクトル係数が得られる。ここで、オーバーラッピングの比率は、符号化方式によって多様に設定される。周波数ドメインにおいては、理論的に、24kHzまで処理可能であるが、人間の可聴帯域を考慮し、20kHzまでの帯域を表現する。低帯域である0〜3.2kHzまでは、8個のスペクトル係数を1つのサブバンドにまとめて使用し、3.2〜6.4kHzの帯域においては、16個のスペクトル係数を1つのサブバンドにまとめて使用する。6.4〜13.6kHzの帯域においては、24個のスペクトル係数を1つのサブバンドにまとめて使用し、13.6〜20kHzの帯域においては、32個のスペクトル係数を1つのサブバンドにまとめて使用する。実際、norm値を求めて符号化を行う場合、符号化器で定めた帯域までnormを求めて符号化することができる。決定された帯域後の特定高帯域では、帯域拡張のような多様な方式に基づいた符号化が可能である。
【0080】
図9は、一実施形態によるスペクトル量子化及び符号化装置の構成を示すブロック図である。
図9に図示された装置は、
図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立して具現される。
図9に図示されたスペクトル量子化及び符号化装置900は、符号化方式選択部910、ゼロ符号化部930、係数符号化部950、量子化成分復元部970及び逆スケーリング部990を含んでもよい。係数符号化部950は、スケーリング部951、ISC(important spectral component)選択部952、位置情報符号化部953、ISC収集部954、サイズ情報符号化部955、符号情報符号化部956を含んでもよい。
【0081】
図9を参照すれば、符号化方式選択部910は、バンド別に割り当てられたビットに基づいて、符号化方式を選択することができる。正規化されたスペクトルは、バンド別に選択された符号化方式に基づいて、ゼロ符号化部930あるいは係数符号化部950に提供される。
【0082】
ゼロ符号化部930は、割り当てられたビットが0であるバンドに対して、全てのサンプルを0に符号化することができる。
【0083】
係数符号化部950は、割り当てられたビットが0ではないバンドに対して選択された量子化器を利用して符号化を行う。具体的には、係数符号化部950は、正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択し、各バンド別に選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することができる。一例を挙げれば、重要周波数成分の大きさは、USQ及びTCQのうち一つを利用して、量子化して算術符号化(arithmetic coding)を行う一方、重要周波数成分の数、位置及び符号に対して算術符号化を行う。特定バンドが重要な情報を含んでいると判断される場合、USQを使用し、そうではない場合、TCQを使用することができる。一実施形態によれば、信号特性に基づいて、TCQ及びUSQのうち一つを選択することができる。ここで、信号特性は、各バンドに割り当てられたビットあるいはバンドの長さを含んでもよい。もしバンドに含まれた各サンプルに割り当てられた平均ビット数が、臨界値、例えば、0.75以上である場合、当該バンドは、非常に重要な情報を含んでいると判断することができるので、USQが使用される。一方、バンドの長さが短い低帯域の場合にも、必要によって、USQが使用される。
【0084】
スケーリング部951は、ビット率を調節するためにバンドに割り当てられたビットに基づいて、正規化されたスペクトルに係わるスケーリングを行う。スケーリング部951は、バンドに含まれた各サンプル、すなわち、スペクトル係数に割り当てられた平均ビット数を考慮することができる。例えば、平均ビット数が多いほど、さらに大きいスケーリングが行われる。
【0085】
ISC選択部952は、ビット率を調節するためにスケーリングされたスペクトルから、所定基準に基づいて、ISCを選択することができる。ISC選択部953は、スケーリングされたスペクトルからスケーリングされた程度を分析し、実際のノンゼロ位置を求めることができる。ここで、ISCは、スケーリング以前の実際のノンゼロスペクトル係数に該当する。ISC選択部953は、バンド別に割り当てられたビットに基づいて、スペクトル係数の分布及び分散を考慮し、符号化するスペクトル係数、すなわち、ノンゼロ位置を選択することができる。ISC選択のために、TCQを使用することができる。
【0086】
位置情報符号化部953は、ISC選択部952で選択されたISCの位置情報、すなわち、ノンゼロスペクトル係数の位置情報を符号化することができる。位置情報は、選択されたISCの数及び位置を含んでもよい。位置情報の符号化には、算術符号化が使用される。
【0087】
ISC収集部954は、選択されたISCを集め、新たなバッファを構成することができる。ISC収集のために、ゼロバンドと、選択されていないスペクトルは、除外される。
【0088】
サイズ情報符号化部955は、新たに構成されたISCのサイズ情報に対して符号化を行う。そのとき、TCQ及びUSQのうち一つを選択して量子化を行い、続けて算術符号化をさらに行う。算術符号化の効率を高めるために、ノンゼロ位置情報と、ISCの数とが使用される。
【0089】
符号情報符号化部956は、選択されたISCの符号情報に対して符号化を行う。符号情報の符号化には、算術符号化が使用される。
【0090】
量子化成分復元部970は、ISCの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに符号化されたスペクトル係数には、0が割り当てられる。
【0091】
逆スケーリング部990は、復元された量子化成分に対して逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。スケーリング部951及び逆スケーリング部990においては、同一スケーリングファクタを使用することができる。
【0092】
図10は、ISC収集過程の概念を示す図面であり、まず、ゼロバンド、すなわち、0に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたISCを利用して、新たなバッファを構成することができる。新たに構成されたISCに対して、帯域単位でUSCあるいはTCQを遂行し、対応する無損失符号化を行う。
【0093】
図11は、本発明で使用されたTCQの一例を示す図面であり、2つのゼロレベルを有する8ステート4コセットのトレリス構造に該当する。当該TCQに係わる詳細な説明は、US7605727に開示されている。
【0094】
図12は、本発明が適用される周波数ドメインオーディオ復号化装置の構成を示したブロック図である。
図12に図示された周波数ドメインオーディオ復号化装置1200は、フレームエラー検出部1210、周波数ドメイン復号化部1230、時間ドメイン復号化部1250及び後処理部1270を含んでもよい。周波数ドメイン復号化部1230は、スペクトル復号化部1231、メモリ更新部1233、逆変換部1235及びOLA(overlap and add)部1237を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0095】
図12を参照すれば、フレームエラー検出部1210は、受信されたビットストリームから、フレームエラーが発生したか否かということを検出することができる。
【0096】
周波数ドメイン復号化部1230は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的な変換復号化過程を介して、時間ドメイン信号を生成する。具体的には、スペクトル復号化部1231は、復号化されたパラメータを利用してスペクトル復号化を行い、スペクトル係数を合成することができる。スペクトル復号化部1231については、
図13及び
図14を参照し、さらに具体的に説明する。
【0097】
メモリ更新部1233は、正常フレームである現在フレームについて合成されたスペクトル係数、復号化されたパラメータを利用して得られた情報、現在まで連続したエラーフレームの個数、各フレームの信号特性あるいはフレームタイプ情報などを、次のフレームのために更新することができる。ここで、信号特性は、トランジェント特性、ステーショナリ特性を含んでもよく、フレームタイプは、トランジェントフレーム、ステーショナリフレームあるいはハーモニックフレームを含んでもよい。
【0098】
逆変換部1235は、合成されたスペクトル係数に対して時間−周波数逆変換を行い、時間ドメイン信号を生成することができる。
【0099】
OLA部1237は、以前フレームの時間ドメイン信号を利用してOLA処理を行い、その結果、現在フレームに係わる最終時間ドメイン信号を生成し、後処理部1270に提供することができる。
【0100】
時間ドメイン復号化部1250は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的なCELP復号化過程を介して時間ドメイン信号を生成する。
【0101】
後処理部1270は、周波数ドメイン復号化部1230あるいは時間ドメイン復号化部1250から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部1270は、出力信号として、復元されたオーディオ信号を提供する。
【0102】
図13は、一実施形態によるスペクトル復号化装置の構成を示すブロック図である。
図13に図示された装置は、
図12のスペクトル復号化部1231に対応するか、他の周波数ドメイン復号化装置に含まれるか、あるいは独立して具現される。
図13に図示されたスペクトル復号化装置1300は、エネルギー復号化及び逆量子化部1310、ビット割当て部1330、スペクトル復号化及び逆量子化部1350、ノイズフィリング部1370及びスペクトルシェーピング部1390を含んでもよい。ここで、ノイズフィリング部1370は、スペクトルシェーピング部1390の後端に位置することもできる。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0103】
図13を参照すれば、エネルギー復号化及び逆量子化部1310は、符号化過程で無損失符号化が遂行されたパラメータ、例えば、norm値のようなエネルギーに対して無損失復号化を行い、復号化されたnorm値に対して逆量子化を行う。符号化過程において、norm値は、多様な方式、例えば、VQ(vector quantization)、SQ(sclar quantization)、TCQ(trellis coded quantization)、LVQ(lattice vector quantization)などを利用して量子化され、対応する方式を使用して逆量子化を行う。
【0104】
ビット割当て部1330は、量子化されたnorm値、あるいは逆量子化されたnorm値に基づいて、サブバンド別に必要とするビット数を割り当てることができる。その場合、サブバンド単位に割り当てられたビット数は、符号化過程で割り当てられたビット数と同一でもある。
【0105】
スペクトル復号化及び逆量子化部1350は、符号化されたスペクトル係数に対して、サブバンド別に割り当てられたビット数を使用して無損失復号化を行い、復号化されたスペクトル係数に対して逆量子化過程を遂行し、正規化されたスペクトル係数を生成することができる。
【0106】
ノイズフィリング部1370は、正規化されたスペクトル係数のうち、サブバンド別にノイズフィリングを必要とする部分に対してノイズを充填することができる。
【0107】
スペクトルシェーピング部1390は、逆量子化されたnorm値を利用して、正規化されたスペクトル係数をシェーピングすることができる。スペクトルシェーピング過程を介して、最終的に復号化されたスペクトル係数が得られる。
【0108】
図14は、一実施形態によるスペクトル復号化及び逆量子化装置の構成を示すブロック図である。
図14に図示された装置は、
図13のスペクトル復号化及び逆量子化部1350に対応するか、他の周波数ドメイン復号化装置に含まれるか、あるいは独立して具現される。
図14に図示されたスペクトル復号化及び逆量子化装置1400は、復号化方式選択部1410、ゼロ復号化部1430、係数復号化部1450、量子化成分復元部1470及び逆スケーリング部1490を含んでもよい。係数復号化部1450は、位置情報復号化部1451、サイズ情報復号化部1453及び符号情報復号化部1455を含んでもよい。
【0109】
図14を参照すれば、復号化方式選択部1410は、バンド別に割り当てられたビットに基づいて、復号化方式を選択することができる。正規化されたスペクトルは、バンド別に選択された復号化方式に基づいて、ゼロ復号化部1430あるいは係数復号化部1450に提供される。
【0110】
ゼロ復号化部1430は、割り当てられたビットが0であるバンドについて、全てのサンプルを0に復号化することができる。
【0111】
係数復号化部1450は、割り当てられたビットが0ではないバンドについて選択された逆量子化器を利用して復号化を行う。係数復号化部1450は、符号化されたスペクトルの各バンド別に、重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて、復号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号化することができる。一例を挙げれば、重要周波数成分の大きさは、算術復号化してUSQ及びTCQのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して算術復号化を行う。逆量子化器選択は、
図9で図示された係数符号化部950と同一結果を利用して行う。係数復号化部1450は、割り当てられたビットが0ではないバンドに対して、TCQ及びUSQのうち一つを利用して逆量子化を行う。
【0112】
位置情報復号化部1451は、ビットストリームに含まれた位置情報と係わるインデックスを復号化し、ISCの数及び位置を復元することができる。位置情報の復号化には、算術復号化が使用される。サイズ情報復号化部1453は、ビットストリームに含まれたサイズ情報と係わるインデックスに対して算術復号化を行い、復号化されたインデックスに対して、TCQ及びUSQのうち一つを選択して逆量子化を行う。算術復号化の効率を高めるために、ノンゼロ位置情報と、ISC数とが使用される。符号情報復号化部1455は、ビットストリームに含まれた符号情報と係わるインデックスを復号化し、ISCの符号を復元することができる。符号情報の復号化には、算術復号化が使用される。一実施形態によれば、ノンゼロバンドが必要とするパルス数を推定し、位置情報、サイズ情報あるいは符号情報の復号化に使用することができる。
【0113】
量子化成分復元部1470は、復元されたISCの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに復号化されたスペクトル係数である量子化されていない部分には、0が割り当てられる。
【0114】
逆スケーリング部1490は、復元された量子化成分に対して逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。
【0115】
図15は、本発明の一実施形態による符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。
図15に図示されたマルチメディア機器1500は、通信部1510と、符号化モジュール1530とを含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部1550をさらに含んでもよい。また、マルチメディア機器1500は、マイクロフォン1570をさらに含んでもよい。すなわち、保存部1550とマイクロフォン1570は、オプションとして具備される。一方、
図15に図示されたマルチメディア機器1500は、任意の復号化モジュール(図示せず)、例えば、一般的な復号化機能を遂行する復号化モジュール、あるいは本発明の一実施形態による復号化モジュールをさらに含んでもよい。ここで、符号化モジュール1530は、マルチメディア機器1500に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0116】
図15を参照すれば、通信部1510は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、復元されたオーディオと、符号化モジュール1530の符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。
【0117】
通信部1510は、無線インターネット、無線イントラネット、無線電話網、無線LAN(local area network)、Wi−Fi(wireless fidelity)、WFD(Wi−Fi direct)、3G(3rd generation)、4G(4th generation)、ブルートゥース(登録商標(Bluetooth))、赤外線通信(IrDA:infrared data association)、RFID(radio frequency identification)、UWB(ultra wideband)、ジグビー(ZigBee)、NFC(near field communication)のような無線ネットワーク;または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器あるいはサーバとデータを送受信することができるように構成される。
【0118】
符号化モジュール1530は、一実施形態によれば、正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択し、各バンド別に選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することができ、一例を挙げれば、重要周波数成分の大きさは、USQ及びTCQのうち一つを利用して、量子化して算術符号化する一方、重要周波数成分の数、位置及び符号に対して算術符号化を行う。一実施形態によれば、正規化されたスペクトルを、各バンド別に割り当てられたビットに基づいてスケーリングを行い、スケーリングされたスペクトルに対して、重要周波数成分を選択することができる。
【0119】
保存部1550は、マルチメディア機器1500の運用に必要な多様なプログラムを保存することができる。
【0120】
マイクロフォン1570は、ユーザ、あるいは外部のオーディオ信号を符号化モジュール1530に提供することができる。
【0121】
図16は、本発明の一実施形態による復号化モジュールを含むマルチメディア機器の構成を示したブロック図である。
図16に図示されたマルチメディア機器1600は、通信部1610と復号化モジュール1630とを含んでもよい。また、復号化の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部1650をさらに含んでもよい。また、マルチメディア機器1600は、スピーカ1670をさらに含んでもよい。すなわち、保存部1650とスピーカ1670は、オプションとして具備される。一方、
図16に図示されたマルチメディア機器1600は、任意の符号化モジュール(図示せず)、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号化モジュール1630は、マルチメディア機器1600に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1つの以上のプロセッサ(図示せず)でもっても具現される。
【0122】
図16を参照すれば、通信部1610は、外部から提供される符号化されたビットストリームと、オーディオ信号とのうち少なくとも一つを受信するか、復号化モジュール1630の復号化の結果として得られる復元されたオーディオ信号と、符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。一方、通信部1610は、
図15の通信部1510と実質的に類似して具現される。
【0123】
復号化モジュール1630は、一実施形態によれば、通信部1610を介して提供されるビットストリームを受信し、符号化されたスペクトルの各バンド別に重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて、復号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号化することができ、一例を挙げれば、重要周波数成分の大きさは、算術復号化し、USQ及びTCQのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して算術復号化を行う。
【0124】
保存部1650は、復号化モジュール1630で生成される復元されたオーディオ信号を保存することができる。一方、保存部1650は、マルチメディア機器1600の運用に必要な多様なプログラムを保存することができる。
【0125】
スピーカ1670は、復号化モジュール1630で生成される復元されたオーディオ信号を外部に出力することができる。
【0126】
図17は、本発明の一実施形態による符号化モジュールと復号化モジュールとを含むマルチメディア機器の構成を示したブロック図である。
図17に図示されたマルチメディア機器1700は、通信部1710、符号化モジュール1720及び復号化モジュール1730を含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号化の結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリーム、あるいは復元されたオーディオ信号を保存する保存部1740をさらに含んでもよい。また、マルチメディア機器1700は、マイクロフォン1750あるいはスピーカ1760をさらに含んでもよい。ここで、符号化モジュール1720と復号化モジュール1730は、マルチメディア機器1700に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
【0127】
図17に図示された各構成要素は、
図15に図示されたマルチメディア機器1500の構成要素、あるいは
図16に図示されたマルチメディア機器1600の構成要素と重複するので、その詳細な説明は省略する。
【0128】
図15ないし
図17に図示されたマルチメディア機器1500,1600,1700には、電話、モバイルフォンなどを含む音声通信専用端末;TV(television)、MP3プレーヤなどを含む放送専用装置または音楽専用装置、あるいは音声通信専用端末と、放送専用装置または音楽専用装置との融合端末装置;テレカンファレンスあるいはインタラクションシステムのユーザ端末;が含まれるが、それらに限定されるものではない。また、マルチメディア機器1500,1600,1700は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。
【0129】
一方、マルチメディア機器1500,1600,1700)が、例えば、モバイルフォンである場合、図示されていないが、キーパッドのようなユーザ入力部、ユーザインターフェース;モバイルフォンで処理される情報をディスプレイするディスプレイ部;またはモバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも1以上の構成要素とをさらに含んでもよい。
【0130】
一方、マルチメディア機器1500,1600,1700が、例えば、TVである場合、図示されていないが、キーパッドなどのようなユーザ入力部;受信された放送情報をディスプレーするディスプレイ部;あるいはTVの全般的な機能を制御するプロセッサをさらに含んでもよい。また、TVは、TVで必要とする機能を遂行する少なくとも1以上の構成要素をさらに含んでもよい。
【0131】
前記実施形態は、コンピュータで実行されるプログラムによって作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に、多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD(compact disc)−ROM(read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto-optical media);及びROM、RAM(random access memory)、フラッシュメモリのような、プログラム命令を保存して遂行するように特別に構成されたハードウェア装置;が含まれる。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。
【0132】
以上のように、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたとしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それらは、本発明が属する分野で当業者であるならば、そのような記載から多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それらと均等または等価的変形は、いずれも本発明の技術的思想の範疇に属すると言えるのである。