【文献】
谷口徹他,HMMを用いた音声・音楽識別,電子情報通信学会技術研究報告,2003年 9月,Vol.103,No.331,p.47-51
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0011】
以下、図面を参照し、本発明の実施形態について具体的に説明する。該実施形態についての説明において、関連公知構成または機能についての具体的な説明が要旨を不明確にすると判断される場合には、その詳細な説明は省略する。
【0012】
ある構成要素が他の構成要素に連結されているか、あるいは接続されていると言及されたときには、当該他の構成要素に直接に連結されていたり接続されていたりするということもあるが、中間にさらに他の構成要素が存在することもあると理解されなければならないであろう。
【0013】
第1、第2のような用語は、多様な構成要素についての説明にも使用されるが、前記構成要素は、前記用語によって限定されるものではない。前記用語は、1つの構成要素を他の構成要素から区別する目的のみに使用されるのである。
【0014】
該実施形態に示される構成部は、互いに異なる特徴的な機能を示すために独立して図示されることにより、各構成部が、分離されたハードウェアや1つのソフトウェア構成単位からなるということを意味するものではない。各構成部は、説明の便宜上、それぞれの構成部を並べたものであり、各構成部のうち少なくとも2つの構成部が合わされて1つの構成部からなるか、1つの構成部が、複数個の構成部に分けられて機能を遂行することができる。
【0015】
図1は、一実施形態によるオーディオ信号分類装置の構成を示したブロック図である。
図1に図示されたオーディオ信号分類装置100は、信号分類部110と修正部130とを含んでもよい。ここで、各構成要素は、別途のハードウェアによって具現されなければならない必要がある場合を除いては、少なくとも1つのモジュールに一体化され、少なくとも1つのプロセッサ(図示せず)としても具現される。ここで、オーディオ信号は、音楽信号または音声信号、あるいは音楽と音声との混合信号を意味する。
【0016】
図1を参照すれば、信号分類部110は、多様な初期分類パラメータに基づいて、オーディオ信号が、音楽信号に該当するか、あるいは音声信号に該当するかということを分類することができる。オーディオ信号分類過程は、少なくとも1以上の段階を含んでもよい。一実施形態によれば、現在フレーム、と複数個の以前フレームとの信号特性に基づいて、オーディオ信号を、音声信号または音楽信号に分類することができる。該信号特性は、短区間特性と長区間特性とのうち少なくとも一つを含んでもよい。また、該信号特性は、時間ドメイン特性と周波数ドメイン特性とのうち少なくとも一つを含んでもよい。ここで、音声信号に分類されれば、CELP(code excited linear prediction)タイプコーダを利用して符号化される。一方、音楽信号に分類されれば、トランスフォームコーダを利用して符号化される。ここで、トランスフォームコーダの一例としては、MDCT(modified discrete cosine transform)コーダを挙げることができるが、それに限定されるものではない。
【0017】
他の実施形態によれば、オーディオ信号分類過程は、オーディオ信号が音声特性を有する否かということにより、オーディオ信号を、音声信号と、一般的なオーディオ信号(generic audio signal)、すなわち、音楽信号に分類する第1段階と、一般オーディオ信号が、GSC(generic signal audio coder)に適するか否かということを判断するための第2段階と、を含んでもよい。第1段階の分類結果と、第2段階の分類結果とを組み合わせ、オーディオ信号が音声信号に分類されるか、あるいは音楽信号に分類されるかということを決定することができる。音声信号に分類されれば、CELPタイプコーダによって符号化される。CELPタイプコーダは、ビット率あるいは信号特性により、無声音符号化(UC:unvoiced codingモード、有声音符号化(VC:voiced coding)モード、トランジェント符号化(TC:transition coding)モード、一般符号化(GC:generic coding)モードのうち複数個を含んでもよい。一方、GSC(generic signal audio coding)モードは、別途のコーダによって具現されるか、あるいはCELPタイプコーダの1つのモードに含まれてもよい。音楽信号に分類されれば、トランスフォームコーダ、あるいはCELP/トランスフォームハイブリッドコーダのうち一つを利用して符号化される。細部的には、トランスフォームコーダは、音楽信号に適用され、CELP/トランスフォームハイブリッドコーダは、音声信号ではない非音楽(non-music)信号、あるいは音楽と音声とが混合された信号(mixed signal)に適用される。一実施形態によれば、帯域幅により、CELPタイプコーダ、CELP/トランスフォームハイブリッドコーダ及びトランスフォームコーダがいずれも使用されるか、CELPタイプコーダとトランスフォームコーダとが使用される。例えば、狭帯域(NB)である場合、CELPタイプコーダとトランスフォームコーダとが使用され、広帯域(WB)、超広帯域(SWB)、全帯域(FB)の場合、CELPタイプコーダ、CELP/トランスフォームハイブリッドコーダ及びトランスフォームコーダが使用される。CELP/トランスフォームハイブリッドコーダは、時間ドメインで動作するLP基盤コーダと、トランスフォームドメインコーダとを結合したものであり、GSCともいう。
【0018】
第1段階の信号分類は、GMM(Gaussian mixture model)に基づく。GMMのために、多様な信号特性が使用される。該信号特性の例としては、オープンループピッチ、正規化された相関度、スペクトルエンベロープ、トーナル安定度、信号のノンステーショナリティ、LPレジデュアルエラー、スペクトル差値、スペクトルステーショナリティのような特性を有することができるが、それらに限定されるものではない。第2段階の信号分類のために使用される信号特性の例としては、スペクトルエネルギー変動特性、LP分析レジデュアルエネルギーのチルト特性、高域スペクトルピーキネス特性、相関度特性、ボイシング特性、トーナル特性などを挙げることができるが、それらに限定されるものではない。第1段階で使用される特性は、CELPタイプコーダによって符号化することが適するか否かということを判断するために、音声特性であるか、あるいは非音性特性であるかということを判断するためのものであり、第2段階で使用される特性は、GSCで符号化することが適するか否かということを判断するために、音楽特性であるか、あるいは非音楽特性であるかということを判断するためのものでもある。例えば、第1段階において音楽信号に分類された1セットのフレームは、第2段階において音声信号に転換され、CELPモードのうち一つで符号化される。すなわち、大きいピッチ周期及び高い安定度を有しながら、相関度が大きい信号あるいはアタック信号である場合、第2段階において、音楽信号から音声信号に転換される。かような信号分類結果により、符号化モードが変更される。
【0019】
修正部130は、信号分類部110の分類結果を、少なくとも1つの修正パラメータに基づいて修正したり維持したりすることができる。修正部130は、コンテクストに基づいて、信号分類部110の分類結果を修正したり維持したりすることができる。例えば、現在フレームが音声信号に分類された場合、音楽信号に修正されたり音声信号として維持されたりすることができ、現在フレームが音楽信号に分類された場合、音声信号に修正されたり音楽信号として維持されたりすることができる。現在フレームの分類結果にエラーが存在するか否かということを判断するために、現在フレームを含む複数個フレームの特性が使用される。例えば、8個のフレームが使用されるが、それらに限定されるものではない。
【0020】
修正パラメータの例としては、トーナリティ、線形予測エラー、ボイシング、相関度のような特性のうち少なくとも一つを組み合わせて使用される。ここで、該トーナリティは、1〜2kHz領域のトーナリティ(ton
2)と2〜4kHz領域のトーナリティ(ton
3)とを含んでもよく、それぞれ下記数式(1)及び(2)によって定義される。
【0021】
【数1】
ここで、上添字(superscript)[−i]は、以前フレームを示す。例えば、tonality2
[−1]は、1フレーム以前フレームの1〜2kHz領域のトーナリティを示す。
【0022】
一方、低域の長区間トーナリティton
LTは、ton
LT=0.2*log
10[lt_tonality]と一緒に定義される。ここで、lt_tonalityは、全帯域の長区間トナリティーを示すことができる。
【0023】
一方、nフレームにおいて、1〜2kHz領域のトーナリティ(ton
2)と2〜4kHz領域のトーナリティ(ton
3)との差d
ftは、dft=0.2*{log
10(tonality2(n))−log10(tonality3(n)))のように定義される。
【0024】
次に、線形予測エラーLP
errは、次の数式(3)によって定義される。
【0025】
【数2】
ここで、FV
s(9)は、FV
s(i)=sfa
iFV
i+sfb
i(ここで、i=0,…,11)によって定義され、信号分類部110,210で使用される特徴パラメータのうち、次の数式(4)によって定義されるLPレジデュアルログ・エネルギーの比率特徴パラメータをスケーリングした値に該当するのである。ここで、sfa
i、sfb
iは、特徴パラメータの種類及び帯域幅によって異なり、各特徴パラメータを[0;1]範囲に近似化するために使用される。
【0026】
【数3】
ここで、E(1)は、最初LP係数のエネルギーを示し、E(13)は、13番目LP係数のエネルギーを示す。
【0027】
次に、信号分類部110,210で使用される特徴パラメータにおいて、下記数式(5)によって定義される正規化された相関度特徴あるいはボイシング特徴FV
1を、FV
s(i)=sfa
iFV
i+sfb
i(ここで、i=0,…,0,…,11)に基づいてスケーリングした値FVs(1)と、下記数式(6)で定義される相関度マップ特徴FV(7)を、FV
s(i)=sfa
iFVi+sfb
i(ここで、i=0,…,11)に基づいてスケーリングした値FV
s(7)との差d
vcorは、d
vcor=max(FV
s(1)−FV
s(7),0)と定義される。
【0029】
【数5】
は、最初あるいは2番目のハーフフレームでの正規化された相関度を示す。
【0030】
【数6】
ここで、M
corは、フレームの相関度マップを示す。
【0031】
前記複数個の特徴パラメータを組み合わせるか、あるいは単一特徴パラメータを利用して、次の条件1ないし条件4のうち少なくとも1以上を含む修正パラメータを生成することができる。ここで、条件1と条件2は、音声状態(SPEECH_STATE)を変更することができる条件を意味し、条件3と条件4は、音楽状態(MUSIC_STATE)を変更することができる条件を意味する。具体的には、条件1は、音声状態(SPEECH_STATE)を0から1に変更することができ、条件2は、音声状態(SPEECH_STATE)を1から0に変更することができる。一方、条件3は、音楽状態(MUSIC_STATE)を0から1に変更することができ、条件4は、音楽状態(MUSIC_STATE)を1から0に変更することができる。音声状態(SPEECH_STATE)が1であるならば、音声である確率が高い、すなわち、CELPタイプコーディングが適するということを意味し、0であるならば、音声ではない確率が高いということを意味する。音楽状態(MUSIC_STATE)が1であるならば、トランスフォームコーディングに適するということを意味し、0であるならば、CELP/トランスフォームハイブリッドコーディング、すなわち、GSCに適するということを意味する。他の例として、音楽状態(MUSIC_STATE)が1であるならば、トランスフォームコーディングに適するということを意味し、0であるならば、CELPタイプコーディングに適するということを意味する。
【0032】
条件1(f
A)は、例えば、次のように定義される。すなわち、d
vcor>0.4 AND d
ft<0.1 AND FV
s(1)>(2*FV
s(7)+0.12) AND ton
2<d
vcor AND ton
3<d
vcor AND ton
LT<d
vcor AND FV
s(7)<d
vcor AND FV
s(1)>d
vcor AND FV
s(1)>0.76であるならば、f
Aは、1に設定される。
【0033】
条件2(f
B)は、例えば、次のように定義される。すなわち、d
vcor<0.4であるならば、f
Bは、1に設定される。
【0034】
条件3(f
C)は、例えば、次のように定義される。すなわち、0.26<ton
2<0.54 AND ton
3>0.22 AND 0.26<ton
LT<0.54 AND LP
err>0.5であるならば、f
Cは、1に設定される。
【0035】
条件4(f
D)は、例えば、次のように定義される。すなわち、ton
2<0.34 AND ton
3<0.26 AND 0.26<ton
LT<0.45であるならば、f
Dは、1に設定される。
【0036】
各条件を生成するために使用された特徴、あるいは特徴の組み合わせは、それらに限定されるものではない。また、各定数値は、例示的なものに過ぎず、具現方式により、最適値に設定される。
【0037】
具体的には、修正部130は、2つの独立した状態マシーン、例えば、音声状態マシーンと音楽状態マシーンとを利用して、初期分類結果に存在するエラーを訂正することができる。各状態マシーンは、2つの状態を有し、各状態においてハングオーバーが使用され、頻繁なトランジションを防止することができる。該ハングオーバーは、例えば、6個フレームから構成される。音声状態マシーンにおいて、ハングオーバー変数をhang
spと示し、音楽状態マシーンにおいて、ハングオーバー変数をhang
musと示す場合、与えられた状態において分類結果に変化がある場合、それぞれ6に初期化され、その後、ハングオーバーが、それぞれ次のフレームについて1ずつ減少する。状態変化は、ハングオーバーがゼロに減少される場合にのみ発生する。それぞれの状態マシーンには、オーディオ信号から抽出される少なくとも1以上の特徴が組み合わせされて生成される修正パラメータが使用される。
【0038】
図2は、他の実施形態によるオーディオ信号分類装置の構成を示したブロック図である。
図2に図示されたオーディオ信号分類装置200は、信号分類部210、修正部230及び細部分類部(fine classifier)250を含んでもよい。
図1のオーディオ信号分類装置100との差異は、細部分類部250をさらに含むというところにあり、信号分類部210と修正部230との機能は
図1と同一であるので、その細部的な説明は省略する。
【0039】
図2を参照すれば、細部分類部250は、修正部230で修正されるか維持された分類結果について、細部分類パラメータに基づいて、細部的に分類することができる。一実施形態によれば、細部分類部250は、音楽信号に分類されたオーディオ信号が、CELP/トランスフォームハイブリッドコーダ、すなわち、GSCで符号化することが適するか否かということを判断して修正するためのものである。このとき、修正方法としては、特定パラメータあるいはフラグを変更し、トランスフォームコーダが選択されないようにする。細部分類部250は、修正部230から出力される分類結果が、音楽信号である場合、細部分類を行い、再び音楽信号であるか音声信号であるかということを分類することができる。細部分類部250の分類結果が音楽信号である場合、第2符号化モードとして、トランスフォームコーダをそのまま利用して符号化することができ、細部分類部250の分類結果が音声信号である場合、第3符号化モードとして、CELP/トランスフォームハイブリッドコーダを利用して符号化することができる。一方、修正部230から出力される分類結果が音声信号である場合、第1符号化モードとして、CELPタイプコーダを利用して符号化することができる。細部分類パラメータの一例としては、トーナリティ、ボイシング、相関度、ピッチ利得、ピッチ差のような特徴を含んでもよいが、それらに限定されるものではない。
【0040】
図3は、一実施形態によるオーディオ符号化装置の構成を示したブロック図である。
図3に図示されたオーディオ符号化装置300は、符号化モード決定部310と符号化モジュール330とを含んでもよい。符号化モード決定部310は、
図1のオーディオ信号分類装置100、あるいは
図2のオーディオ信号分類装置200の構成要素を含んでもよい。符号化モジュール330は、第1符号化部331、第2符号化部333及び第3符号化部335を含んでもよい。ここで、第1符号化部331は、CELPタイプコーダにも該当し、第2符号化部333は、CELP/トランスフォームハイブリッドコーダにも該当し、第3符号化部335は、トランスフォームコーダにも該当する。一方、GSCがCELPタイプコーダの1つのモードで具現されるとき、符号化モジュール330は、第1符号化部331及び第3符号化部335を含んでもよい。符号化モジュール330及び第1符号化部331は、ビット率あるいは帯域幅によって、多様な構成(configuration)を有することができる。
【0041】
図3を参照すれば、符号化モード決定部310は、信号特性に基づいて、オーディオ信号が音楽信号であるか音声信号であるかということを分類し、分類結果に対応し、符号化モードを決定することができる。該符号化モードは、スーパーフレーム単位、フレーム単位あるいはバンド単位で遂行される。また、符号化モードは、複数のスーパーフレームグループ、複数のフレームグループ、複数のバンドグループ単位で遂行される。ここで、符号化モードの例としては、トランスフォームドメインモードと線形予測ドメインモードとの二つがあるが、それらに限定されるものではない。線形予測ドメインモードは、UCモード、VCモード、TCモード、GCモードを含んでもよい。一方、GSCモードは、別途の符号化モードに分類されるか、線形予測ドメインモードの細部モードに含まれてもよい。プロセッサの性能及び処理速度などが支援され、符号化モードスイッチングによるディレイが解決される場合、符号化モードをさらに細分化させることができ、符号化モードに対応し、符号化方式も細分化させることができる。具体的には、符号化モード決定部310は、初期分類パラメータに基づいて、オーディオ信号を、音楽信号と音声信号とのうち一つに分類することができる。符号化モード決定部310は、修正パラメータに基づいて、音楽信号である分類結果を、音声信号に修正するかそのまま維持するか、あるいは音声信号である分類結果を、音楽信号に修正するかそのまま維持することができる。符号化モード決定部310は、修正されるか維持された分類結果、例えば、音楽信号である分類結果に対して、細部分類パラメータに基づいて、音楽信号と音声信号とのうち一つに分類することができる。符号化モード決定部310は、最終分類結果を利用して、符号化モード決定することができる。一実施形態によれば、符号化モード決定部310は、ビット率と帯域幅とのうち少なくとも一つに基づいて、符号化モードを決定することができる。
【0042】
符号化モジュール330において第1符号化部331は、修正部130,230の分類結果が、音声信号に該当する場合に動作される。第2符号化部333は、修正部130の分類結果が音楽信号に該当するか、あるいは細部分類部350の分類結果が音声信号に該当する場合に動作される。第3符号化部335は、修正部130の分類結果が音楽信号に該当するか、あるいは細部分類部350の分類結果が音楽信号に該当する場合に動作される。
【0043】
図4は、一実施形態による、CELPコアでの信号分類修正方法について説明するフローチャートであり、
図1あるいは
図2の修正部130,230で遂行される。
【0044】
図4を参照すれば、410段階においては、修正パラメータ、例えば、条件1及び条件2を受信することができる。また、410段階においては、音声状態マシーンのハングオーバー情報を受信することができる。また、410段階においては、初期分類結果を受信することができる。初期分類結果は、
図1あるいは
図2の信号分類部110,210から提供される。
【0045】
420段階においては、初期分類結果、すなわち、音声状態が0でありながら、条件1(f
A)が1であり、音声状態マシーンのハングオーバーhang
spが0であるか否かということを判断することができる。420段階において、音声状態が0でありながら、条件1が1であり、音声状態マシーンのハングオーバーhang
spが0であると判断された場合、430段階において、音声状態を1に変更し、ハングオーバーhang
spを6に初期化することができる。初期化されたハングオーバー値は、460段階に提供される。一方、420段階において、音声状態が0ではないか、条件1が1ではないか、あるいは音声状態マシーンのハングオーバーhang
spが0ではない場合、440段階に進むことができる。
【0046】
440段階においては、初期分類結果、すなわち、音声状態が1でありながら、条件2(f
B)が1であり、音声状態マシーンのハングオーバーhang
spが0であるか否かということを判断することができる。440段階において、音声状態が1でありながら、条件2が1であり、音声状態マシーンのハングオーバーhang
spが0であると判断された場合、450段階において、音声状態を0に変更し、ハングオーバーhang
spを6に初期化することができる。初期化されたハングオーバー値は、460段階に提供される。一方、440段階において、音声状態が1ではないか、条件2が1ではないか、あるいは音声状態マシーンのハングオーバーhang
spが0ではない場合、460段階に進み、ハングオーバーを1ほど減少させるハングオーバーアップデートを行うことができる。
【0047】
図5は、一実施形態による、HQコアでの信号分類修正方法について説明するフローチャートであり、
図1あるいは
図2の修正部130,230で遂行される。
図5を参照すれば、510段階においては、修正パラメータ、例えば、条件3及び条件4を受信することができる。また、510段階においては、音楽状態マシーンのハングオーバー情報を受信することができる。また、510段階においては、初期分類結果を受信することができる。初期分類結果は、
図1あるいは
図2の信号分類部110,210から提供される。
【0048】
520段階においては、初期分類結果、すなわち、音楽状態が1でありながら、条件3(f
C)が1であり、音楽状態マシーンのハングオーバーhang
musが0であるか否かということを判断することができる。520段階において、音楽状態が1でありながら、条件3が1であり、音楽状態マシーンのハングオーバーhangn
musが0であると判断された場合、530段階において、音楽状態を0に変更し、ハングオーバーhang
musを6に初期化することができる。初期化されたハングオーバー値は、560段階に提供される。一方、520段階において、音楽状態が1ではないか、条件3が1ではないか、あるいは音楽状態マシーンのハングオーバーhang
musが0ではない場合、540段階に進むことができる。
【0049】
540段階においては、初期分類結果、すなわち、音楽状態が0でありながら、条件4(f
D)が1であり、音楽状態マシーンのハングオーバーhang
musが0であるか否かということを判断することができる。540段階において、音楽状態が0でありながら、条件4が1であり、音楽状態マシーンのハングオーバーhang
musが0であると判断された場合、550段階において、音楽状態を1に変更し、ハングオーバーhang
musを6に初期化することができる。初期化されたハングオーバー値は、560段階に提供される。一方、540段階において音楽状態が0ではないか、条件4が1ではないか、あるいは音楽状態マシーンのハングオーバーhang
musが0ではない場合、560段階に進み、ハングオーバーを1ほど減少させるハングオーバーアップデートを行うことができる。
【0050】
図6は、一実施形態によるCELPコアに適する状態、すなわち、音声状態において、コンテクスト基盤信号分類修正のための状態マシーンを示すものであり、
図4に対応する。
【0051】
図6によれば、修正部130,230(
図1)においては、音楽状態マシーンで決定される音楽状態と、音声状態マシーンで決定される音声状態とにより、分類結果に対する修正(corection)が適用される。例えば、初期分類結果が音楽信号に設定された場合、修正パラメータに基づいて、音声信号に変更することができる。具体的には、初期分類結果のうち第1段階の分類結果が音楽信号であり、音声状態が1になった場合、第1段階の分類結果と、第2段階の分類結果とのいずれも音声信号に変更することができる。かような場合、初期分類結果にエラーが存在すると判断され、分類結果に対する修正が行われる。
【0052】
図7は、一実施形態によるHQ(high quality)コアに適する状態、すなわち、音楽状態において、コンテクスト基盤信号分類修正のための状態マシーンを示すものであり、
図5に対応する。
【0053】
図7によれば、修正部130,230(
図1)においては、音楽状態マシーンで決定される音楽状態と、音声状態マシーンで決定される音声状態とにより、分類結果に対する修正が適用される。例えば、初期分類結果が音声信号に設定された場合、修正パラメータに基づいて、音楽信号に変更することができる。具体的には、初期分類結果のうち第1段階の分類結果が音声信号であり、音楽状態が1になった場合、第1段階の分類結果と、第2段階の分類結果とのいずれも音楽信号に変更することができる。一方、初期分類結果が音楽信号に設定された場合、修正パラメータに基づいて、音声信号に変更することができる。かような場合、初期分類結果にエラーが存在すると判断され、分類結果に対する修正が行われる。
【0054】
図8は、一実施形態による符号化モード決定装置の構成を示したブロック図である。
図8に図示された符号化モード決定装置は、初期符号化モード決定部810と修正部830とを含んでもよい。
【0055】
図8を参照すれば、初期符号化モード決定部810は、オーディオ信号が音声特性を有するか否かということを判断し、音声特性を有する場合、第1符号化モードを初期符号化モードに決定することができる。第1符号化モードである場合、オーディオ信号をCELPタイプコーダによって符号化することができる。初期符号化モード決定部810は、オーディオ信号が音声特性を有さない場合、第2符号化モードを初期符号化モードに決定することができる。第2符号化モードである場合、オーディオ信号をトランスフォームコーダによって符号化することができる。一方、初期符号化モード決定部810は、オーディオ信号が音声特性を有さない場合、ビット率によって、第2符号化モードと第3符号化モードとのうち一つを初期符号化モードに決定することができる。ここで、第3符号化モードである場合、オーディオ信号をCELP/トランスフォームハイブリッドコーダによって符号化することができる。一実施形態によれば、初期符号化モード決定部810は、スリーウェイ(3−way)方式を使用することができる。
【0056】
修正部830は、初期符号化モードが第1符号化モードに決定された場合、修正パラメータに基づいて、第2符号化モードに修正することができる。例えば、初期分類結果が音声信号であるが、音楽特性を有する場合、初期分類結果を音楽信号に修正することができる。一方、修正部830は、初期符号化モードが第2符号化モードに決定された場合、修正パラメータに基づいて、第1符号化モードあるいは第3符号化モードに修正することができる。例えば、初期分類結果が音楽信号であるが、音声特性を有する場合、初期分類結果を音声信号に修正することができる。
【0057】
図9は、一実施形態によるオーディオ信号分類方法について説明するフローチャートである。
図9を参照すれば、910段階においては、オーディオ信号を、音楽信号あるいは音声信号のうち一つに分類することができる。具体的には、910段階においては、信号特性に基づいて、現在フレームが音楽信号に該当するか、あるいは音声信号に該当するかということを分類することができる。910段階は、
図1あるいは
図2の信号分類部110,210で遂行される。
【0058】
930段階においては、修正パラメータに基づいて、910段階での分類結果にエラーが存在するか否かということを判断することができる。950段階においては、930段階において、分類結果にエラーが存在すると判断された場合、分類結果を修正することができる。一方、970段階においては、930段階において、分類結果にエラーが存在しないと判断された場合、分類結果をそのまま維持することができる。930段階ないし970段階は、
図1あるいは
図2の修正部130,230で遂行される。
【0059】
図10は、一実施形態によるマルチメディア機器の構成を示したブロック図である。
図10に図示されたマルチメディア機器1000は、通信部1010と符号化モジュール1030とを含んでもよい。また、符号化結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部1050をさらに含んでもよい。また、マルチメディア機器1000は、マイクロフォン1070をさらに含んでもよい。すなわち、保存部1050とマイクロフォン1070は、オプションとして具備される。一方、
図10に図示されたマルチメディア機器1000は、任意の復号モジュール(図示せず)、例えば、一般的な復号機能を遂行する復号モジュール、あるいは本発明の一実施形態による復号モジュールをさらに含んでもよい。ここで、符号化モジュール1030は、マルチメディア機器1000に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
【0060】
図10を参照すれば、通信部1010は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、復元されたオーディオと、符号化モジュール1030の符号化結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。
【0061】
通信部1010は、無線インターネット、無線イントラネット、無線電話網、無線LAN(local area network)、Wi−Fi(wireless fidelity)、WFD(Wi−Fi direct)、3G(3rd generation)、4G(4th generation)、ブルートゥース(Bluetooth(登録商標))、赤外線通信(IrDA:infrared data association)、RFID(radio frequency identification)、UWB(ultra wideband)、ジグビー(Zigbee(登録商標))、NFC(near field communication)のような無線ネットワーク、または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器あるいはサーバとデータを送受信することができるように構成されてもよい。
【0062】
符号化モジュール1030は、一実施形態によれば、通信部1010あるいはマイクロフォン1050を介して提供される時間ドメインのオーディオ信号に対して符号化を行うことができる。符号化処理は、
図1ないし
図9に図示された装置あるいは方法を利用して具現される。
【0063】
保存部1050は、マルチメディア機器1000の運用に必要な多様なプログラムを保存することができる。
【0064】
マイクロフォン1070は、ユーザあるいは外部のオーディオ信号を符号化モジュール1030に提供することができる。
【0065】
図11は、他の実施形態によるマルチメディア機器の構成を示したブロック図である。
図11に図示されたマルチメディア機器1100は、通信部1110、符号化モジュール1120及び復号モジュール1130を含んでもよい。また、符号化結果として得られるオーディオビットストリーム、あるいは復号結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリーム、あるいは復元されたオーディオ信号を保存する保存部1140をさらに含んでもよい。また、マルチメディア機器1100は、マイクロフォン1150あるいはスピーカ1160をさらに含んでもよい。ここで、符号化モジュール1120と復号モジュール1130は、マルチメディア機器1100に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)としても具現される。
【0066】
図11に図示された各構成要素のうち、
図10に図示されたマルチメディア機器1000と重複する構成要素については、その詳細な説明は省略する。
【0067】
復号モジュール1130は、一実施形態によれば、通信部1110を介して提供されるビットストリームを受信し、ビットストリームに含まれたオーディオスペクトルに対して復号を行うことができる。復号モジュール1130は、
図3の符号化モジュール330に対応して具現される。
【0068】
スピーカ1170は、復号モジュール1130で生成される復元されたオーディオ信号を外部に出力することができる。
【0069】
図10及び
図11に図示されたマルチメディア機器1000,1100には、電話、モバイルフォンなどを含む音声通信専用端末;TV、MP3プレーヤなどを含む放送専用装置あるいは音楽専用装置、あるいは音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置が含まれてもよいが、それらに限定されるものではない。また、マルチメディア機器1000,1100は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。
【0070】
一方、マルチメディア機器1000,1100が、例えば、モバイルフォンである場合、図示されていないが、キーパッドのようなユーザ入力部、ユーザインターフェース、あるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部、モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、該モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも1以上の構成要素とをさらに含んでもよい。
【0071】
一方、マルチメディア機器1000,1100が、例えば、TV(television)である場合、図示されていないが、キーパッドのようなユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、TVの全般的な機能を制御するプロセッサをさらに含んでもよい。また、TVは、TVで必要とする機能を遂行する少なくとも1以上の構成要素をさらに含んでもよい。
【0072】
前記実施形態による方法は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータにおいて具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に、多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種類の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD(compact disc)−ROM(read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media);フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical media)、及びROM、RAM(random access memory)、フラッシュメモリのような、プログラム命令を保存して遂行するように特別に構成されたハードウェア装置が含まれてもよい。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用し、コンピュータによって実行される高級言語コードを含んでもよい。
【0073】
以上のように、本発明の一実施形態は、たとえ限定された実施形態と図面とによって説明されたとしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、本発明が属する分野で当業者であるならば、かような記載から多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的変形も、いずれも本発明技術的思想の範疇に属するものであるといえる。