【文献】
Jonas ENGDEGARD, et al.,Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding,Proc. 124th Convention of Audio Engineering Society,NL,Audio Engineering Society,2008年 5月17日,pp.1-15
【文献】
Jurgen HERRE, et al.,New Concepts in Parametric Coding of Spatial Audio: From SAC to SAOC,Proc. 2007 IEEE International Conference on Multimedia and Expo,中国,IEEE,2007年 7月 2日,pp.1894-1897
(58)【調査した分野】(Int.Cl.,DB名)
前記アップミックス手段が、予め決められたスピーカ構成に、前記第1のアップミックス音声信号を、前記第2のアップミックス音声信号から離して空間的に提供し、もしくは、前記第2のアップミックス音声信号を、前記第1のアップミックス音声信号から離して空間的に提供し、もしくは、前記第1のアップミックス音声信号と前記第2のアップミックス音声信号とを混合して、混合した信号を空間的に提供するように構成されていることを特徴とする、請求項1ないし4のいずれかに記載の音声復号器。
【発明を実施するための形態】
【0013】
本発明に係る実施形態が以下で詳細に説明される前に、SAOC符号器/復号器とSAOCビット・ストリームで送信されたSAOCパラメータとが、以下で詳細に概説される本発明に係る特定の実施形態の理解を容易にするために提供される。
【0014】
図1は、SAOC符号器10とSAOC復号器12の概略配置を示すブロック図である。SAOC符号器10は、入力としてN個のオブジェクト、すなわち、音声信号14
1〜14
Nを受信する。特に、SAOC符号器10はダウンミキサ16を備え、ダウンミキサ16は音声信号14
1〜14
Nを受信し、それらをダウンミックス信号18にダウンミックスする。
図1には、ダウンミックス信号18が、ステレオ・ダウンミックス信号として例示的に示されている。しかしながら、ダウンミックス信号はモノラル・ダウンミックス信号であってもよい。ステレオ・ダウンミックス信号18のチャンネルは、L0とR0とで表示されている。モノラル・ダウンミックスの場合には、ダウンミックス信号は単にL0で表示される。SAOC復号器12が個々のオブジェクト(音声信号)14
1〜14
Nを復号するように、ダウンミキサ16は、SAOCパラメータを含んでいるサイド情報20を、SAOC復号器12に提供する。SAOCパラメータは、オブジェクト・レベル差(OLD)、オブジェクト相関関係パラメータ(IOC)、ダウンミックス利得値(DMG)、およびダウンミックス・チャンネル・レベル差(DCLD)を含んでいる。SAOCパラメータを含むサイド情報20は、ダウンミックス信号18と共に、SAOC復号器12によって受信されるSAOC出力データ・ストリームを形成する。
【0015】
SAOC復号器12は、SAOC復号器12に入力される演奏情報26によって予め定められた演奏情報と共に、ダウンミックス信号18とサイド情報20とを受信するアップミキサ22を備えている。アップミキサ22は、ユーザが選択したチャンネル24
1〜24
Mのどんなセット上にも、音声信号14
1〜14
Nを復号して提供する。
【0016】
音声信号14
1〜14
Nは、どんな符号化領域(例えば、時間領域やスペクトル領域など)のダウンミキサ16の中にも入力される。音声信号14
1〜14
Nが、符号化されたPCMなどの時間領域のダウンミキサ16に搬送される場合には、ダウンミキサ16は、ハイブリッドQMFバンクのようなフィルタ・バンク、すなわち、最も少ない周波数帯のナイキスト(Nyquist)フィルタ拡張部を有する複雑に指数関数的に調整されたフィルタのバンクを使用し、その中で周波数分解能を増加させる。スペクトル領域に音声信号14
1〜14
Nを移すために、スペクトル領域の中で、音声信号14
1〜14
Nは、異なるスペクトル部分に関連している数個の副バンドに表示される。仮に、音声信号14
1〜14
Nが、既にダウンミキサ16によって予想された表現であるならば、音声信号14
1〜14
Nはスペクトル分解を実行する必要はない。
【0017】
図2は、前記スペクトル領域の音声信号を示す。見てのとおり、音声信号は、複数の副バンド信号として表示される。それぞれの副バンド信号30
1〜30
Pは、小ボックスによって示される副バンド値32のシーケンスから成る。副バンド信号30
1〜30
Pの副バンド値32は、時間的に互いに同期している。従って、連続したフィルタ・バンク時間帯34ごとに、それぞれの副バンド信号30
1〜30
Pは、1個の正確な副バンド値32を含む。周波数軸36によって示されるように、副バンド信号30
1〜30
Pは、異なる周波数領域に関係している。そして、時間軸38によって示されるように、フィルタ・バンク時間帯34は、時間的に連続して配置されている。
【0018】
前述したように、SAOCダウンミキサ16は、入力音声信号14
1〜14
NからSAOCパラメータを計算する。SAOCダウンミキサ16は、この計算を時間/周波数分解能の中で実行する。時間/周波数分解能は、フィルタ・バンク時間スロット34と副バンド分解によって決定されるので、オリジナルの時間/周波数分解能に比例して、所定量減少する。この所定量は、サイド情報20の中で、それぞれの構文要素のbsフレーム長(bsFrameLength)とbs残留周波数(bsFreqRes)によって、SAOC復号器12の側に合図される。例えば、連続したフィルタ・バンク時間スロット34のグループは、フレーム40を形成する。言い換えれば、音声信号は、例えば、時間的に重なっているフレーム、または、時間的にすぐ隣のフレームに分割される。この場合、bsフレーム長は、パラメータ時間スロット41の数を定義する。すなわち、時間ユニットは処理周波数帯の数を定義し、処理周波数帯ごとにSAOCパラメータが計算される。時間ユニットでは、OLDやIOCなどのSAOCパラメータが、SAOCフレーム40とbs残留周波数の中で計算される。この基準によれば、各フレーム40は、
図2中の点線42によって例示された時間/周波数タイル(tile)に分割される。
【0019】
SAOCダウンミキサ16は、以下の計算式に従ってSAOCパラメータを計算する。特に、SAOCダウンミキサ16は、各オブジェクトiごとに、オブジェクト・レベル差(OLD)を計算する。
合計とインデックス(指数)n,kとは、それぞれ、所定の時間/周波数タイル42に属する、全てのフィルタ・バンク時間スロット34、および、全てのフィルタ・バンク副バンド30(30
1〜30
P)にわたる。その結果、音声信号または音声オブジェクトiの全ての副バンド値x
iのエネルギーは合算され、全ての音声オブジェクトまたは音声信号の中で、そのタイルの最も高いエネルギー値に正規化される。
【0020】
さらに、SAOCダウンミキサ16は、異なる音声オブジェクト(音声信号)14
1〜14
Nの組の対応する時間/周波数タイルの類似測度(similarity measure)を計算できる。SAOCダウンミキサ16は、音声オブジェクト14
1〜14
Nの全ての組の間の類似測度を計算するけれども、SAOCダウンミキサ16は、音声オブジェクト14
1〜14
Nに対して、類似測度の信号を抑圧したり、類似測度の計算を制限したりする。音声オブジェクト14
1〜14
Nは、コモン・ステレオ・チャンネルの左または右のチャンネルを形成する。どのような場合でも、類似測度は、オブジェクト相関関係パラメータIOC
i,jと称される。計算式は以下の通りである。
インデックスn,kは、所定の時間/周波数タイル42に属する全ての副バンド値にわたる。英字iとjは、音声オブジェクト14
1〜14
Nの所定の組を示している。
【0021】
SAOCダウンミキサ16は、それぞれの音声オブジェクト14
1〜14
Nに適用される利得ファクタの使用によって、音声オブジェクト14
1〜14
Nをダウンミックスする。すなわち、利得ファクタD
iは音声オブジェクトiに適用され、こうして重み付けされた全ての音声オブジェクト14
1〜14
Nが合計され、モノラル・ダウンミックス信号を得る。
図1に例示されているステレオ・ダウンミックス信号の場合は、利得ファクタD
1,iは音声オブジェクトiに適用され、こうして利得ファクタD
1,iが適用された(重み付けされた)全ての音声オブジェクトが合算され、左のダウンミックス・チャンネルL0を得る。さらに、利得ファクタD
2,iは音声オブジェクトiに適用され、こうして利得ファクタD
2,iが適用された全ての音声オブジェクトが合算され、右のダウンミックス・チャンネルR0を得る。
【0022】
このダウンミックス方法は、ダウンミックス利得DMG
iによって、そして、ステレオ・ダウンミックス信号の場合にはダウンミックス・チャンネル・レベル差DCLD
iによって、SAOC復号器12の側に信号で合図される。
【0023】
ダウンミックス利得は、以下の計算式に従って計算される。
【0024】
正規モードにおいて、SAOCダウンミキサ16は、以下の計算式に従ってダウンミックス信号を発生させる。
上記計算式において、パラメータOLDとIOCは音声信号の関数であり、パラメータDMGとDCLDは利得ファクタDの関数である。ところで、利得ファクタDが時間変化することは注意される。
【0025】
正規モードにおいて、SAOCダウンミキサ16は、全ての音声オブジェクト14
1〜14
Nを贔屓なく、すなわち、全ての音声オブジェクト14
1〜14
Nを等しく処理してミックスする。
【0026】
アップミキサ22は、1個の計算ステップにおいて、ダウンミックス手順の逆と、マトリクスAによって表示された「演奏情報」の履行と、を実行する。
ここに、マトリクスEは、パラメータOLDとIOCの関数である。
【0027】
言い換えれば、正規モードにおいて、音声オブジェクト14
1〜14
Nを、バックグラウンド・オブジェクト(BGO)、または、フォアグランド・オブジェクト(FGO)に分類することは、実行されない。音声オブジェクトがアップミキサ22の出力で提供される情報は、演奏マトリクスAによって供給される。仮に、例えば、インデックス1の音声オブジェクトObj
1が、ステレオ・バックグラウンド・オブジェクト(BGO)の左チャンネルであり、そして、インデックス2の音声オブジェクトObj
2が、ステレオ・バックグラウンド・オブジェクト(BGO)の右チャンネルであり、そして、インデックス3の音声オブジェクトObj
3が、フォアグランド・オブジェクト(FGO)であったならば、演奏マトリクスAは以下のようになり、カラオケタイプの出力信号を作り出す。
【0028】
しかしながら、前述したように、この正規モードのSAOC符号器/復号器の使用によるバックグラウンド・オブジェクト(BGO)とフォアグランド・オブジェクト(FGO)の伝送は、許容できる結果を達成しない。
【0029】
図3および
図4は、前記説明した欠点を克服する本発明の実施形態を示す。
図3および
図4に記載された音声復号器50および音声符号器80と、それらの関連する機能とは、「向上モード」のような追加モードを表わす。
図1のSAOC符号器/復号器は、「向上モード」に切り替えることができる。後者の可能性の例は、以下に提示される。
【0030】
図3は音声復号器50を示している。音声復号器50は、予測係数計算手段52とダウンミックス信号をアップミックスするアップミックス手段54とを含む。
【0031】
音声復号器50は、符号化された第1のタイプの音声信号と第2のタイプの音声信号とを有する多重音声オブジェクト信号を、復号するために専念する。第1のタイプの音声信号と第2のタイプの音声信号とは、それぞれ、モノラルまたはステレオ音声信号である。例えば、第1のタイプの音声信号はバックグラウンド・オブジェクトであり、第2のタイプの音声信号はフォアグランド・オブジェクトである。すなわち、
図3と
図4の実施形態は、必ずしもカラオケ/独奏モード・アプリケーションに制限されるものではない。むしろ、
図3の音声復号器50と
図4の音声符号器80は、他の場所で有効に使用される。
【0032】
多重音声オブジェクト信号は、ダウンミックス信号56とサイド情報58とから成る。サイド情報58はレベル情報60を含む。レベル情報60は、例えば時間/周波数タイル42のような、第1の予め決められた時間/周波数分解能で、第1のタイプの音声信号と第2のタイプの音声信号のスペクトルエネルギーを記述している。特に、レベル情報60は、オブジェクト当たり1個の正規化されたスペクトルエネルギースカラ値と時間/周波数タイル(時間/周波数分解能)とを含む。正規化は、それぞれの時間/周波数分解能で、第1のタイプの音声信号と第2のタイプの音声信号との中の最も高いスペクトルエネルギー値に関連付けられる。後者は、レベル情報60を代表するオブジェクト・レベル差(OLD)を結果として生ずる。レベル情報60は、ここではレベル差情報とも呼ばれる。以下の実施形態では、オブジェクト・レベル差(OLD)を使用するけれども、他に正規化されたスペクトルエネルギー表現を使用してもよい。
【0033】
サイド情報58は、任意に、第2の予め決められた時間/周波数分解能の中の残留レベル値を規定する残留信号62を含む。第2の予め決められた時間/周波数分解能は、第1の予め決められた時間/周波数分解能に等しくてもよいし、異なっていてもよい。
【0034】
予測係数計算手段52は、レベル情報60に基づいて予測係数を計算するように構成されている。さらに加えて、予測係数計算手段52は、サイド情報58に含まれる相関関係情報に基づいて予測係数を計算してもよい。さらに、予測係数計算手段52は、サイド情報58に含まれる時間変化ダウンミックス方法情報を使用して、予測係数を計算してもよい。予測係数計算手段52によって計算された予測係数は、ダウンミックス信号56から、元の音声オブジェクトまたは音声信号を、検索したり、アップミックスしたりするために必要である。
【0035】
アップミックス手段54は、予測係数計算手段52から受信した予測係数64に基づいたダウンミックス信号56と、任意の残留信号62と、をアップミックスするように構成されている。残留信号62を使用するとき、復号器50は、一方のタイプの音声信号から他方のタイプの音声信号へのクロストーク(混線)を、より一層抑圧できる。また、アップミックス手段54は、時間変化ダウンミックス方法情報を使用して、ダウンミックス信号56をアップミックスする。さらに、アップミックス手段54は、ユーザ入力66を使用して、ダウンミックス信号56から復号した音声信号のうちのどれを、またはどの範囲までを、出力68において実際に出力すべきか、を決定する。第1の極端な場合として、ユーザ入力66は、第1のタイプの音声信号に近似する第1のアップミックス信号のみを出力するように、アップミックス手段54に命令する。正反対の第2の極端な場合によれば、ユーザ入力66は、第2のタイプの音声信号に近似する第2のアップミックス信号のみを出力するように、アップミックス手段54に命令する。中間的オプションの場合も同様に可能であり、第1および第2のアップミックス信号の混合が出力68で出力される。
【0036】
図4は、
図3の音声復号器50によって復号される多重音声オブジェクト信号を、発生させるために適した音声符号器80の一実施形態を示すブロック図である。
図4の音声符号器80は、符号化されるべき音声信号84がスペクトル領域の範囲内にない場合には、スペクトル分解手段82を含む。音声信号84の中には、順に、少なくとも1個の第1のタイプの音声信号(バックグラウンド・オブジェクト)と、少なくとも1個の第2のタイプの音声信号(フォアグランド・オブジェクト)とが存在する。スペクトル分解手段82は、これらの音声信号84のそれぞれを、例えば、
図2に示したような表現にスペクトル分解するように構成されている。すなわち、スペクトル分解手段82は、予め決められた時間/周波数分解能で、音声信号84をスペクトル分解する。スペクトル分解手段82は、ハイブリッドQMFバンクなどのフィルタ・バンクを含む。
【0037】
音声符号器80は、さらに、レベル情報計算手段86とダウンミックス手段88とを含み、任意に、予測係数計算手段90と残留信号設定手段92とを含む。さらに、音声符号器80は、相関関係情報計算手段94を含んでいてもよい。レベル情報計算手段86は、スペクトル分解手段82によって任意に出力されている音声信号から、第1の予め決められた時間/周波数分解能で、第1のタイプの音声信号のレベルと第2のタイプの音声信号のレベルとを記述しているレベル情報を計算する。同様に、ダウンミックス手段88は、第1のタイプの音声信号と第2のタイプの音声信号とをダウンミックスする。ダウンミックス手段88は、ダウンミックス信号56を出力する。また、レベル情報計算手段86は、レベル情報60を出力する。予測係数計算手段90は、
図3の予測係数計算手段52と同様の行動をする。すなわち、予測係数計算手段90は、レベル情報60から予測係数64を計算して、予測係数64を残留信号設定手段92に出力する。残留信号設定手段92は、同様に、ダウンミックス信号56、予測係数64、および第2の予め決められた時間/周波数分解能の元の音声信号に基づいて、残留信号62を設定する。その結果、予測係数64と残留信号62の両方に基づいて、ダウンミックス信号56をアップミックスすることは、第1のタイプの音声信号に近似する第1のアップミックス音声信号と、第2のタイプの音声信号に近似する第2のアップミックス音声信号と、を結果として発生させる。承認された近似は、残留信号62が無い場合と比較される。
【0038】
レベル情報60(仮に存在するとすれば、残留信号62とレベル情報60)は、サイド情報58に含まれる。サイド情報58は、ダウンミックス信号56と共に、
図3の音声復号器50によって復号される多重音声オブジェクト信号を形成する。
【0039】
図4に示すように、および
図3の記述との類似から、仮に、予測係数計算手段90が存在しているならば、相関関係情報計算手段94によって出力された相関関係情報、および/または、ダウンミックス手段88によって出力された時間変化ダウンミックス方法を使用して、予測係数64を計算してもよい。さらに、仮に、残留信号設定手段92が存在しているならば、ダウンミックス手段88によって出力された時間変化ダウンミックス方法を使用して、適切に残留信号62を設定してもよい。
【0040】
第1のタイプの音声信号(バックグラウンド・オブジェクト)は、モノラルまたはステレオ音声信号である。同様に、第2のタイプの音声信号(フォアグランド・オブジェクト)は、モノラルまたはステレオ音声信号である。残留信号62は任意である。しかしながら、残留信号62が仮に存在しているならば、残留信号62は、例えば、レベル情報を計算するために使用されたパラメータ時間/周波数分解能と同じ時間/周波数分解能のサイド情報の範囲内の信号であってもよいし、あるいは、異なった時間/周波数分解能が使用されてもよい。さらに、残留信号62の合図は、レベル情報60が信号で合図する時間/周波数分解能42によって支配されるスペクトル領域の副部分に制限される。例えば、残留信号62が送られる際の時間/周波数分解能は、構文要素のbs残留帯(bsResidualBands)とbsSAOCフレーム当たりの残留フレーム(bsResidualFramesPerSAOCFrame)との使用によって、サイド情報58の範囲内で示される。これら2個の構文要素は、フレームを、時間/周波数分解能42に導く副分割より、別の時間/周波数分解能に導く副分割を定義する。
【0041】
ところで、残留信号62は、潜在的に使用されるコア符号器96から生じる情報損失を反映したり、反映しなかったりする。コア符号器96は、音声符号器80によってダウンミックス信号56を符号化するために、任意に使用される。
図4に示すように、残留信号設定手段92は、復元可能なダウンミックス信号のバージョンに基づいて、コア符号器96の出力から、または、コア符号器96’へのバージョン入力から、残留信号62の設定を実行する。同様に、
図3の音声復号器50はコア復号器98を含み、ダウンミックス信号56を復号または解凍する。
【0042】
多重音声オブジェクト信号の中で、残留信号62に使用される時間/周波数分解能は、レベル情報60を計算するために使用される時間/周波数分解能と異なる。残留信号62に使用される時間/周波数分解能は、音質と多重音声オブジェクト信号の圧縮比との間の良好な妥協を達成可能にする。どのような場合でも、残留信号62は、ユーザ入力66に従って出力68で出力されるべき第1および第2のアップミックス信号(
図3参照)の中で、1個の音声信号から他の音声信号へのクロストークを、より一層抑圧することを可能にする。
【0043】
以下の実施形態から明確になるように、2個以上の第2のタイプの音声信号(フォアグランド・オブジェクト)が符号化される場合に、2個以上の残留信号62が、サイド情報58の中に送信される。サイド情報58は、残留信号62が第2のタイプの特定の音声信号のために送信されれるかどうかに関して個々の決定を許す。その結果、残留信号62の数は、1から第2のタイプの音声信号の数にアップする。
【0044】
図3の音声復号器50において、予測係数計算手段52は、レベル情報(OLD)60に基づいて、予測係数から成る予測係数マトリクスCを計算するように構成される。アップミックス手段54は、以下の計算式に従って、ダウンミックス信号dから、第1のアップミックス信号S
1、および/または、第2のアップミックス信号S
2を発生させるように構成される。
ここに、前記計算式中の「1」は、スカラまたはアイデンティティ・マトリクスを示し、ダウンミックス信号dのチャンネル数に依存する。D
−1は、第1のタイプの音声信号(バックグラウンド・オブジェクト)および第2のタイプの音声信号(フォアグランド・オブジェクト)がダウンミックス信号にダウンミックスされるというダウンミックス方法によって、独自に決定されるマトリクスである。また、D
−1は、サイド情報
を含む。Hは、ダウンミックス信号dから独立している項である。しかし、仮に、残留信号62が存在するならば、Hは、残留信号62に依存している項である。
【0045】
上述したように、そして、以下でさらに説明するように、ダウンミックス方法は、サイド情報58の中で、時間的に変化する、および/または、スペクトル的に変化する。仮に、第1のタイプの音声信号(バックグラウンド・オブジェクト)が、第1の入力チャンネル(L)と第2の入力チャンネル(R)とを有するステレオ音声信号であるならば、例えば、レベル情報60は、時間/周波数分解能42で、第1の入力チャンネル(L)、第2の入力チャンネル(R)および第2のタイプの音声信号(フォアグランド・オブジェクト)の、それぞれの正規化されたスペクトルエネルギーについて記述する。
【0047】
残留信号resに依存している項Hが関係する限り、アップミックス手段54は、以下の式によって表わされるアップミックスを実行する。
【0048】
多重音声オブジェクト信号は、複数の第2のタイプの音声信号(フォアグランド・オブジェクト)を等しく含み、サイド情報58は、第2のタイプの音声信号あたり1個の残留信号62を含む。残留分解能パラメータは、サイド情報58の中に存在し、残留信号62がサイド情報58の範囲内で送信されるスペクトル領域を定義する。残留分解能パラメータは、スペクトル領域の上限および下限を等しく定義する。
【0049】
さらに、多重音声オブジェクト信号は、予め決められたスピーカ構成に、第1のタイプの音声信号(バックグラウンド・オブジェクト)を空間的に提供するための空間的演奏情報を含む。言い換えれば、第1のタイプの音声信号は、ステレオにダウンミックスされた多重チャンネル(3個以上のチャンネル)MPEGサラウンド信号である。
【0050】
以下において、前記残留信号62を使用して合図をする実施形態が説明される。しかしながら、「オブジェクト」という用語は、二重の意味でしばしば使用される。時々、オブジェクトは、個々のモノラル音声信号を示す。したがって、ステレオ・オブジェクトは、ステレオ信号の1個のチャンネルを形成するモノラル音声信号を示す。しかしながら、他の状況では、ステレオ・オブジェクトは、2個のオブジェクト、すなわち、ステレオ・オブジェクトの右チャンネルに関係するオブジェクトと左チャンネルに関係するオブジェクトとを示す。実際の意味は、文脈から明らかになる。
【0051】
次の実施形態について説明する前に、次の実施形態は、2007年の規範モデル0(RM0)として選定されたSAOC規格の基本的技術で現れた欠陥によって動機を与えた。規範モデル0(RM0)は、パンニング(panning)位置および増幅/減衰に関して、複数の音声オブジェクトの個々の操作を許した。特別なシナリオは、「カラオケ」タイプのアプリケーションの文脈の中で提示されてきた。この場合において、
・モノラル、ステレオ、またはサラウンド・バックグランド・シーン(以下、バックグランド・オブジェクトと称される、BGO)は、あるSAOCオブジェクトの1セットから伝送されて、変更なしで再生される。すなわち、あらゆる入力チャンネル信号は、変更のないレベルで、同じ出力チャンネルを通して再生される。
・興味を引く所定のオブジェクト(以下、フォアグランド・オブジェクト(FGO)と称する、通常はリード・ボーカル)は、変更されて再生される。フォアグランド・オブジェクト(FGO)は、通常、防音スタジオの中央に置かれて音を消される。すなわち、歌の間中、十分に許容される程度まで減衰される。
【0052】
オブジェクト位置の操作は、主観的な評価の手順から目に見え、そして、基本的な技術原則から期待できるので、高品質な結果に導く。しかし、オブジェクト・レベルの操作は、一般的に、より一層やりがいがある。通常、追加的な信号の増幅/減衰が高ければ高いほど、より多くの潜在的な人工物が生じる。この意味で、カラオケ・シナリオは非常に要求が厳しい。なぜなら、フォアグランド・オブジェクト(FGO)の極端な(理想的には全部の)減衰が要求されるからである。
【0053】
二重の使用の場合は、バックグラウンド/MBOなしで、フォアグランド・オブジェクト(FGO)だけを再生させる場合であり、以下において独奏モードと称される。
【0054】
しかしながら、仮に、サラウンド・バックグランド・シーンが関わるならば、それは多重チャンネル・バックグランド・オブジェクト(MBO)と称される。多重チャンネル・バックグランド・オブジェクト(MBO)の取り扱いは以下の通りであり、
図5に示されている。
・多重チャンネル・バックグランド・オブジェクト(MBO)は、通常の5−2−5MPEGサラウンド・ツリー102を使用して符号化される。5−2−5MPEGサラウンド・ツリー102は、ステレオMBOダウンミックス信号104、およびMBO MPSサイド情報ストリーム106を発生させる。
・ステレオMBOダウンミックス信号104は、(数個の)フォアグランド・オブジェクト(FGO)110と共に、ステレオ・オブジェクト(すなわち、2個のオブジェクト・レベル差、およびチャンネル相関関係)として、後続のSAOC符号器108によって符号化される。SAOC符号器108は、コモン・ダウンミックス信号112およびSAOCサイド情報ストリーム114を発生させる。
【0055】
トランスコーダ116において、ダウンミックス信号112が前処理され、MPSサイド情報ストリーム106とSAOCサイド情報ストリーム114が、1個のMPS出力サイド情報ストリーム118の中に再符号化される。これは、現在、不連続な方法で起こる。すなわち、フォアグランド・オブジェクト(FGO)110の完全な抑圧、または、多重チャンネル・バックグランド・オブジェクト(MBO)の完全な抑圧のいずれか一方のみが、支持される。
【0056】
最終的に、結果として発生したダウンミックス120とMPS出力サイド情報ストリーム118とは、MPEGサラウンド復号器122によって提供される。
【0057】
図5において、ステレオMBOダウンミックス信号104と制御可能なフォアグランド・オブジェクト(FGO)信号110との両方が、コモン(単一のステレオ)ダウンミックス信号112に結合される。制御可能なFGO信号110によるこのダウンミックスの「汚染」は、制御可能なFGO信号110を取り除いたカラオケ・バージョンを復号することが、困難だからであり、それは十分に高音質である。以下の提案は、この問題を回避することを目的とする。
【0058】
1個のフォアグランド・オブジェクト(FGO)、例えば1個のリード・ボーカルを想定して、
図6の以下の実施形態によって使用される主要な観点は、SAOCダウンミックス信号112が、バックグランド・オブジェクト(BGO)信号104とフォアグランド・オブジェクト(FGO)信号110との結合であるということである。すなわち、3個の音声信号が、2個のダウンミックス・チャンネルを介して、ダウンミックスされ、送信されるということである。理想的には、これらの信号は、明確なカラオケ信号を作り出すために(すなわち、フォアグランド・オブジェクト(FGO)信号110を取り除くために)、または、明確な独奏信号を作り出すために(すなわち、バックグランド・オブジェクト(BGO)信号104を取り除くために)、再びトランスコーダ116の中で再び分離されるべきである。これは、
図6の実施形態によれば、SAOC符号器108の中のTTT(two−to−three)符号器ボックス124(以下、MPEGサラウンド仕様から知られているように、TTT
-1ボックスと称する)を使用することによって達成される。バックグランド・オブジェクト(BGO)信号104とフォアグランド・オブジェクト(FGO)信号110とは、SAOC符号器108の中で、単一のSAOCダウンミックス信号112に結合される。ここに、フォアグランド・オブジェクト(FGO)信号110は、TTT
-1ボックス124の「中央」の信号入力に送られ、バックグランド・オブジェクト(BGO)信号104は、TTT
-1ボックス124の「左/右」の信号入力に送られる。次に、トランスコーダ116は、TTT復号器ボックス126(以下、MPEGサラウンド仕様から知られているように、TTTボックスと称する)を使用することによって、バックグランド・オブジェクト(BGO)信号104の近似を作り出すことができる。すなわち、TTTボックス126の「左/右」の出力L、Rは、バックグランド・オブジェクト(BGO)信号104の近似を搬送する。TTTボックス126の「中央」の出力Cは、フォアグランド・オブジェクト(FGO)信号110の近似を搬送する。
【0059】
図6の実施形態と
図3,4の音声復号器50と音声符号器80の実施形態とを比較するとき、符号104は、音声信号84の中の第1のタイプの音声信号(バックグランド・オブジェクト(BGO)信号)に対応している。スペクトル分解手段82は、MPS符号器102に含まれている。符号110は、音声信号84の中の第2のタイプの音声信号(フォアグランド・オブジェクト(FGO)信号)に対応している。TTT
-1ボックス124が、手段88〜92の機能に対して責任を負う。レベル情報計算手段86と相関関係情報計算手段94の機能は、SAOC符号器108で実行される。符号112は、符号56に対応している。符号114は、残留信号62を差し引いたサイド情報58に対応している。TTTボックス126が、予測係数計算手段52およびアップミックス手段54の機能に対して責任を負う。ミックスボックス128の機能は、アップミックス手段54に含まれる。最後に、信号120は、出力68の信号出力に対応する。さらに、
図6は、SAOC符号器108からSAOCトランスコーダ116へ、ダウンミックス信号112を輸送するためのコア符号器/復号器経路131を示す。このコア符号器/復号器経路131は、任意のコア符号器96とコア復号器98に対応している。
図6に示されているように、このコア符号器/復号器経路131は、符号器108からトランスコーダ116へ合図を輸送されたサイド情報ストリーム114を、符号化/圧縮する。
【0060】
図6のTTTボックス126の導入から生じる利点は、以下の記述で明確になる。例えば、
・TTTボックス126の「左/右」の出力信号L、Rを、容易にMPSダウンミックス120に搬送する。(そして、伝送されたMBO MPSビット・ストリーム106を、容易にストリーム118に通す。)多重チャンネル・バックグランド・オブジェクト(MBO)だけが、最終のMPS復号器122によって再生される。これはカラオケモードに対応している。
・TTTボックス126の「中央」の出力信号Cを、容易に左と右のMPSダウンミックス120に搬送する。(そして、フォアグランド・オブジェクト(FGO)信号110を、所望の位置とレベルに提供する、ありふれたMPSビット・ストリーム118を容易に作り出す。)フォアグランド・オブジェクト(FGO)信号110だけが、最終のMPS復号器122によって再生される。これは独奏モードに対応している。
【0061】
TTTボックス126の3個の出力信号L.R.C.の取り扱いは、SAOCトランスコーダ116のミックスボックス128の中で実行される。
【0062】
図6の処理構成は、
図5の処理構成より多くの異なる利点を提供する。
・この枠組みは、多重チャンネル・バックグランド・オブジェクト(MBO)信号100と、フォアグランド・オブジェクト(FGO)信号110との明確な構造的分離を提供する。
・TTTボックス126の構造は、基本波形に基づいて、3個の出力信号L.R.C.の可能な限り良い再建を試みる。したがって、最終のMPS出力信号130は、ダウンミックス信号のエネルギーの重み付け(および相関関係除去)によって形成されるだけなく、TTT処理のおかげで、波形に関して、より接近している。
・MPEGサラウンドTTTボックス126と共に、残留符号化を使用することによって、再構築精度を高めることができる。このように、残留信号132の残留帯域幅と残留ビット速度が増加するので、再構築の品質において意義のある増進が達成できる。残留信号132は、TTT
-1ボックス124によって出力され、アップミックスするためのTTTボックス126によって使用される。理想的には(すなわち、残留符号化とダウンミックス信号の符号化において、無限に優れた量子化のためには)、多重チャンネル・バックグランド・オブジェクト(MBO)信号100とフォアグランド・オブジェクト(FGO)信号110との間の干渉は、打ち消される。
【0063】
図6の処理構成は、多くの特性を有している。
・二重のカラオケ/独奏モード:
図6の取り組み方は、同じ技術手段を使用することによって、カラオケと独奏の両方の機能を提供する。すなわち、SAOCパラメータは再利用される。
・洗練性:カラオケ/独奏信号の品質は、TTT
-1ボックス124およびTTTボックス126の中で使用される残留符号情報の量を制御することによって、必要に応じて洗練される。例えば、パラメータの「bs残留サンプリング周波数インデックス」、「bs残留帯域」、および「bsSAOCフレーム当たりの残留フレーム」が使用される。
・ダウンミックスでのフォアグランド・オブジェクト(FGO)信号の位置決め:MPEGサラウンド仕様に規定されるTTTボックスを使用するとき、フォアグランド・オブジェクト(FGO)信号は、常に、左右のダウンミックス・チャンネルの間の中央の位置にミックスされる。位置決めにおけるより多くの柔軟性を許容するために、同じ原則に従う「一般化されたTTT符号器ボックス」が採用される。一般化されたTTT符号器ボックスは、「中央」の入力/出力に関連した信号の左右非対称の位置決めを許す。
・多重フォアグランド・オブジェクト(FGOs)信号:説明された構成においては、1個のフォアグランド・オブジェクト(FGO)信号だけの使用が、説明される(これは、最も重要なアプリケーションの場合に対応する)。しかしながら、提案された概念は、以下の尺度を1個または組み合わせを使用することによって、数個のフォアグランド・オブジェクト(FGOs)信号を収容できる。
・グループ化されたフォアグランド・オブジェクト(FGOs)信号:
図6に示すように、TTTボックスの中央の入力/出力に接続される信号は、実際に、ただ一つのフォアグランド・オブジェクト(FGO)信号だけより、むしろいくつかのフォアグランド・オブジェクト(FGOs)信号110の合計である。これらのフォアグランド・オブジェクト(FGOs)信号110は、多重チャンネル出力信号130において、独自に位置決め/制御ができる。しかしながら、フォアグランド・オブジェクト(FGOs)信号110が、同じようにスケーリングされ、かつ、位置決めされるとき、最高の品質の利点が達成される。フォアグランド・オブジェクト(FGOs)信号110は、ステレオ・ダウンミックス信号112において、共通の位置を共有する。そして、1個の残留信号132だけが存在する。どのような場合においても、多重チャンネル・バックグランド・オブジェクト(MBO)100と制御可能なFGOs信号110との間の干渉は打ち消される。ただし、制御可能なFGOs信号110間の干渉は打ち消されない。
・順に搬送されるFGOs信号:
図6の取り組み方を拡張することによって、ダウンミックス信号112の中のコモンFGO信号の位置に関する制限が、克服できる。多重FGOs信号は、説明したTTT構成の数ステージを順に搬送されることによって、調整することができる。それぞれのステージは、1個のFGO信号に対応し、残留符号化ストリームを作り出す。このようにして、制御可能なFGOs信号110間の干渉は、それぞれのFGO信号間で理想的に打ち消される。もちろん、このオプションは、グループ化されたFGO信号取り組み方で使用したビット速度より高いビット速度を必要とする。実施形態は後述する。
・SAOCサイド情報:MPEGサラウンドでは、TTTボックスに関連するサイド情報は、1組のチャンネル予測係数(CPC)である。対照的に、SAOCパラメータ化とMBO/カラオケ・シナリオとは、それぞれのオブジェクト信号ごとのオブジェクトエネルギーと、MBOダウンミックスの2個のチャンネル間の相関関係信号(すなわち、「ステレオ・オブジェクト」のパラメータ化)と、を送信する。向上カラオケ/独奏モード無しの場合に関連するパラメータ化における変化の数を最小化するために、つまり、ビット・ストリーム形式を最小化のために、1組のチャンネル予測係数(CPC)が、ダウンミックス信号(MBOダウンミックス信号およびFGOs信号)のエネルギーとMBOダウンミックス・ステレオ・オブジェクトの相関関係信号と、から計算できる。したがって、送信されてきたパラメータ化を変更させたり、増大させたりする必要は全くない。そして、1組のチャンネル予測係数(CPC)は、SAOCトランスコーダ116の中で、送信されてきたSAOCパラメータ化から計算できる。こうして、残留データが無視されるとき、向上カラオケ/独奏モードを使用したビット・ストリームは、(残留符号化無しの)正規モード復号器によって復号される。
【0064】
概要において、
図6の実施形態は、ある選択されたオブジェクト(または、それらのオブジェクトのない場面)の高められた再生を目的とし、以下の方法の中で、ステレオ・ダウンミックスを使用する現在のSAOC符号化の取り組み方を拡張する。
・正規モードにおいて、それぞれのオブジェクト信号は、(左右のダウンミックス・チャンネルへの貢献のために、)ダウンミックス・マトリクスの中への記入(エントリー)によって重み付けされる。そして、左右のダウンミックス・チャンネルへの全ての重み付けされた貢献が、左右のダウンミックス・チャンネルを形成するために合算される。
・向上カラオケ/独奏形式、すなわち、向上モードにおいて、全てのオブジェクトの貢献は、フォアグランド・オブジェクト(FGO)と残りのオブジェクトの貢献(BGO)とを形成する1セットのオブジェクトの貢献に区切られる。フォアグランド・オブジェクト(FGO)は、モノラル・ダウンミックス信号に加えられる。残りのオブジェクトの貢献(BGO)は、ステレオ・ダウンミックスに加えられる。そして、両者は、一般化されたTTT符号器ボックスを使用して合算され、コモンSAOCステレオ・ダウンミックスを形成する。
【0065】
したがって、通常の合算は、「TTT合算」に置き換えられる。TTT合算は、所望すれば、順に合算される。
【0066】
SAOC符号器の正規モードと向上モードとの間の前述の違いを強調するために、
図7aと
図7bを参照する。ここに、
図7aは正規モードに関係し、
図7bは向上モードに関係する。正規モードでは、SAOC符号器108は、前述のDMXパラメータD
ijを使用する。DMXパラメータD
ijは、オブジェクトjを重み付けし、かつ、重み付けされたオブジェクトjをSAOCチャンネルi、すなわちL0またはR0に加えるためのものである。
図7bの向上モードの場合には、DMXパラメータD
iのベクトルのみが必要である。すなわち、DMXパラメータD
iは、フォアグランド・オブジェクト(FGOs)110の重み付けされた合計を形成する方法を示し、その結果、TTT
-1ボックス124の中央チャンネルCを得る。そして、DMXパラメータD
iは、左のMBOチャンネルと右のMBOチャンネルとに、それぞれ、中央信号Cを分配する方法をTTT
-1ボックス124に命令し、その結果、L
DMXまたはR
DMXを得る。
【0067】
問題として、
図7bに従った処理は、波形を保存しない符号器/復号器(HE−AAC/SBR)では、それほどよく働かない。その問題の解決策は、HE−AACのエネルギーベースの一般化されたTTTモードと高周波である。この問題と取り組む実施形態は後述される。
【0068】
順に搬送されるTTTsを持つものの可能なビット・ストリーム形式は以下の通りである。仮に、「正規の復号モード」が読みこなされるならば、SAOCビット・ストリームは、更にスキップできることを必要とする。
numTTTs int
for (ttt=0; ttt<numTTTs; ttt++)
{ no_TTT_obj[ttt] int
TTT_bandwidth[ttt];
TTT_residual_stream[ttt]
}
【0069】
複雑さとメモリ仕様に関して、以下のことを述べることができる。前記説明からわかるように、
図6の向上カラオケ/独奏モードは、それぞれ、符号器と復号器/トランスコーダの中に1個の概念的な要素、すなわち、一般化されたTTT
-1/TTT符号器要素のステージを加えることによって、実行される。両方の要素は、複雑さにおいて、正規の「中央に置かれた」TTT対応部品に一致する。係数値における変化は、複雑さに影響を及ぼさない。考えられる主要なアプリケーション(リード・ボーカルとしての1個のフォアグランド・オブジェクト(FGO))に対しては、単一のTTTで十分である。
【0070】
この追加構成とMPEGサラウンドシステムの複雑さとの関係は、MPEGサラウンド復号器全体の構成を見ることによって認識できる。MPEGサラウンド復号器は、等価ステレオ・ダウンミックス(5−2−5構成)の場合、1個のTTT要素と2個のOTT要素とから成る。これは、追加された機能が、計算の複雑さとメモリ消費の観点から、妥当な価格で手に入ることを示している。残留符号化を使用する概念的な要素が、「反−相関器(decorrelator)」を代わりに含む対応部品より、平均して複雑でないことに注意しなさい。
【0071】
MPEG SAOC規範モデル0(RM0)の
図6のこの拡張は、特別な独奏、またはミュート(消音)/カラオケタイプのアプリケーションの音質改善を提供する。
図5,6,7に対応する記述は、多重チャンネル・バックグランド・オブジェクト(MBO)を、背景シーンまたはバックグランド・オブジェクト(BGO)と呼ぶ。一般に、多重チャンネル・バックグランド・オブジェクト(MBO)は、このタイプのオブジェクトに制限されず、むしろ、モノラル・オブジェクトまたはステレオ・オブジェクトである。
【0072】
主観的な評価の手順が、カラオケまたは独奏のアプリケーションの出力信号の音質に関しての改善を示す。評価された条件は、以下の通りである。
・規範モデル0(RM0)
・向上モード・・・res 0(残留符号化無し)
・向上モード・・・res 6(最低6個のハイブリッドQMF帯域における残留符号化有り)
・向上モード・・・res 12(最低12個のハイブリッドQMF帯域における残留符号化有り)
・向上モード・・・res 24(最低24個のハイブリッドQMF帯域における残留符号化有り)
・隠された参照(Hidden Reference)
・低アンカー(Lower anchor)・・・リファレンスの3.5kHz帯制限バージョン
【0073】
仮に、残留符号化無しで使用されるならば、提案された向上モードのビット速度は、規範モデル0(RM0)と同様です。他の全ての向上モードは、残留符号化の6つの帯域毎に約10キロビット/秒を必要とする。
【0074】
図8aは、10個のリスニング対象を有するミュート/カラオケ・テストの結果を示す。提案された解決法は、常に、規範モデル0(RM0)より高く、追加された残留符号化のステップごとに増加する、平均MUSHRA得点を有する。規範モデル0(RM0)の性能における統計的に重要な改善は、残留符号化の6個以上のハイブリッドQMF帯域を持つ向上モードに対して、明確に観測できる。
【0075】
図8bは、9個のリスニング対象を有する独奏テストの結果を示す。提案された解決法は、同様の利点を示している。追加された残留符号化が多ければ多いほど、平均MUSHRA得点は明確に増加する。残留符号化の24個のハイブリッドQMF帯域を持つ向上モードと、残留符号化無しの向上モードとの間の利得は、略50MUSHRAポイントである。
【0076】
全体的に見て、カラオケのアプリケーションの良好な品質は、規範モデル0(RM0)より約10キロビット/秒早いビット速度を有する装置の費用で達成される。優れた品質は、規範モデル0(RM0)の最速ビット速度に、約40キロビット/秒追加すれば、達成できる。最大固定ビット速度が与えられている現実的なアプリケーション・シナリオでは、提案された向上モードは、残留符号化の「未使用のビット速度」を、許される最大のビット速度に達するまで、うまく費やすことを許す。したがって、可能な限り良好で総合的な音質が獲得される。提示された実験結果の更なる改善は、残留符号化のビット速度の、より知的な使用によって可能である。提示された構成は、常に、残留符号化を、直流から所定の上限周波数まで使用することである。高められた実行は、フォアグランド・オブジェクト(FGO)とバックグランド・オブジェクト(BGO)との分離に関連している周波数領域のビットだけを費やす。
【0077】
以上の記述において、カラオケタイプのアプリケーションのSAOC技術の向上が説明されている。MPEG SAOCが処理する多重チャンネルFGO音声場面の向上カラオケ/独奏モードのアプリケーションの追加の詳細な実施形態が提示される。
【0078】
変更して再生される多重フォアグランド・オブジェクト(FGOs)信号との対照で、多重チャンネル・バックグランド・オブジェクト(MBO)信号は、変更しないで再生しなければならない。すなわち、あらゆる入力チャンネル信号は、同じものが出力チャンネルを通して、変更のないレベルで再生される。その結果、MPEGサラウンド符号器によって合図する多重チャンネル・バックグランド・オブジェクト(MBO)信号の前処理は、ステレオ・ダウンミックス信号の発生を提案している。ステレオ・ダウンミックス信号は、SAOC符号器、MBOトランスコーダおよびMPS復号器を含む後続のカラオケ/独奏モード処理ステージに入力されるべき(ステレオ)バックグラウンド・オブジェクト(BGO)信号として機能する。
図9は全体構成図を示す。
【0079】
図9に示したカラオケ/独奏モード符号器構成によれば、入力オブジェクトは、ステレオ・バックグラウンド・オブジェクト(BGO)104とフォアグランド・オブジェクト(FGO)110に分類される。
【0080】
規範モデル0(RM0)において、これらのアプリケーション・シナリオの取り扱いは、SAOC符号器/トランスコーダ・システムによって実行される。しかし、
図6の向上は、さらに、MPEGサラウンド構成の要素的な構築ブロックを利用する。特定の音声オブジェクトの強い増幅/減衰が要求されるとき、符号器108にTTT
-1(three−to−two)ボックス124を組み込み、トランスコーダ116にTTT(two−to−three)ボックス126を対応させると、性能が向上する。拡張した構成の2個の基本特性は、以下の通りである。
・(規範モデル0(RM0)と比較して)残留信号の利用による、より一層良好な信号分離。
・ミキシング仕様を一般化することによって、TTT
-1ボックス124の中央の入力として示される信号(すなわち、フォアグランド・オブジェクト(FGO)信号)の柔軟な位置決め。
【0081】
TTT構築ブロックの簡単な装置は、符号器側にて3個の入力信号に関係するので、
図6は、
図10に記載された(ダウンミックスした)モノラル信号と同じ多重フォアグランド・オブジェクト(FGOs)信号の処理に焦点を当てている。多重フォアグランド・オブジェクト(FGOs)信号の処理も、記述されている。しかし、さらに、以下において、より詳細に説明される。
【0082】
図10から見て取れるように、
図6の向上モードにおいて、全ての多重フォアグランド・オブジェクト(FGOs)信号の組み合わせが、TTT
-1ボックス124の中央チャンネルCに送られる。
【0083】
図6と
図10のフォアグランド・オブジェクト(FGO)モノラル・ダウンミックスの場合において、符号器108のTTT
-1ボックス124の構成は、中央入力Cに送り込まれるフォアグランド・オブジェクト(FGO)と、左右の入力を提供するバックグランド・オブジェクト(BGO)とを含む。基本的な対称マトリクスDは、以下に与えられる。
【0084】
この線形システムを通して得られた3番目の信号F0は捨てられる。しかし、2個の予測係数c
1とc
2(CPC)を、以下の計算式に組み込むことによって、トランスコーダ116側にて復号できる。
【0085】
トランスコーダ116での逆処理は、以下の計算式によって与えられる。
【0088】
さらに、CPCsの実行によって導入されたエラーは、ビット・ストリームの範囲内で送信できる残留信号132によって表わされる。
【0089】
いくつかのアプリケーション・シナリオにおいて、全ての多重フォアグランド・オブジェクト(FGOs)信号の単一のモノラル・ダウンミックスの制限は、不適当である。したがって、克服される必要がある。例えば、多重フォアグランド・オブジェクト(FGOs)信号は、送信されたステレオ・ダウンミックスにおける異なる位置、および/または、個々の減衰で、2個以上の独立したグループに分割できる。したがって、
図11に示した、順に搬送する(カスケード)構成は、2以上の連続したTTT
-1ボックス124a,124bを含む。カスケード構成は、所望のステレオ・ダウンミックス112が得られるまで、符号器108の側で、全てのFGOグループF
1,F
2の段階的なダウンミックスを発生させる。TTT
-1ボックス124a,124bのそれぞれ(または、少なくともいくつか)は、それぞれのステージまたはTTT
-1ボックス124a、124bに対応する、残留信号132a,132bを設定する。逆に、トランスコーダ116は、入手可能な対応するCPCsと残留信号132a,132bとを組み込んで、連続して適用されたTTTボックス126a,126bを使用して、連続したアップミックスを実行する。フォアグランド・オブジェクト(FGO)処理の順は、符号器108で指定され、トランスコーダ116の側で考慮しなければならない。
【0090】
図11に示した2ステージのカスケード構成に関係する詳細な数学は、以下で説明される。
【0091】
一般的に損失がなければ、簡単な図であるが、以下の説明は、
図11に示した2個のTTTボックスから成るカスケード構成に基づいている。2個の対称マトリクスは、フォアグランド・オブジェクト(FGO)モノラル・ダウンミックスの場合と同様であるが、適切にそれぞれの信号に適用されなければならない。
【0092】
逆過程は、以下の式によって表される。
【0093】
2ステージのカスケード構成の特別な場合は、左右のチャンネルを有する1個のステレオ・フォアグランド・オブジェクト(FGO)を含む。左右のチャンネルは、バックグランド・オブジェクト(BGO)の対応するチャンネルに、適切にまとめられ、以下の式を発生させる。
【0095】
一般的なNステージカスケード構成の場合は、以下の式に従って、多重チャンネル・フォアグランド・オブジェクト(FGO)ダウンミックスについて言及する。
各ステージは、それ自身のCPCsと残留信号とを特徴付ける。
【0096】
トランスコーダ116側では、逆のカスケード構成のステップが、以下の式によって与えられる。
【0097】
TTTボックスの順を保存するという必要性を撤廃するために、カスケード構成は、N個のマトリクスを1個の単一対称TTNマトリクスの中に再配列することによって、容易に等価パラレルに変換できる。その結果、以下の一般的なTTNスタイルが生じる。
ここに、マトリクスの最初の2個の行は、送信されるべきステレオ・ダウンミックスを示す。他方、TTN(two−to−N)という用語は、トランスコーダ116側でのアップミックス過程を示す。
【0098】
この記述を使用して、特にパンニングされたステレオ・フォアグランド・オブジェクト(FGO)の特別な場合は、以下のようにマトリクスを減少させる。
従って、このユニットは、TTF(two−to−four)ボックスと称することができる。また、SAOCステレオ・前置プロセッサ・モジュールを再利用するTTF構成を生ずることも可能である。
【0099】
N=4の制限のために、既存のSAOCシステムの部品を再利用するTTF構成の実現が、可能になる。処理は、以下で説明される。
【0110】
5つ以上のフォアグランド・オブジェクト(FGO)の取り扱いに対しては、前述した処理ステップのパラレル(平行)ステージを組み立てることによって、前記実施形態を拡張できる。
【0111】
直前に説明された実施形態は、多重チャンネル・フォアグランド・オブジェクト(FGO)音声場面のための向上カラオケ/独奏モードの詳細な記述を提供する。この一般化は、カラオケ・アプリケーション・シナリオのクラスを拡大することを目指す。MPEG SAOC規範モデルの音質は、向上カラオケ/独奏モードの適用によって、さらに改良できる。改良は、一般的なNTT構成を、SAOC符号器のダウンミックス部分に取り入れることによって、かつ、SAOC符号器に対応する部品を、SAOC−MPSトランスコーダに取り入れることによって、達成される。残留信号の使用は、音質の結果を高める。
【0112】
図13a〜
図13hは、本発明に係る実施形態に従うSAOCサイド情報ビットの可能な構文を示す。
【0113】
SAOC符号器/復号器の向上モードに関するいくつかの実施形態について説明した後、実施形態のいくつかは、SAOC符号器への音声入力が、通常のモノラル音源またはステレオ音源だけではなく、多重チャンネル・オブジェクトも含むアプリケーション・シナリオに関係があることに注目されるべきである。このことは、
図5〜
図7bに関して明らかに説明された。そのような多重チャンネル・バックグランド・オブジェクト(MBO)は、多数の、そして、しばしば未知数の音源に関係する複合サウンドシーンと見做すことができる。制御可能な演奏機能は、音源ごとに必要ない。これらの音源は、個別に、SAOC符号器/復号器構成によって、効率的に扱うことができない。したがって、SAOC構成の概念は、これらの複雑な入力信号、すなわち、典型的なSAOC音声オブジェクトを伴った、MBOチャンネルに対処するために、拡張することであると考えられる。したがって、
図5〜
図7bの実施形態において、MPEGサラウンド符号器は、SAOC符号器108およびMPS符号器100を囲んでいる点線によって示されるように、SAOC符号器の中に組み込まれるべきであると考えられる。結果として生じるダウンミックス104は、ステレオ入力オブジェクトとして、SAOC符号器108に提供される。制御可能なSAOCオブジェクト110も、一緒に、SAOC符号器108に提供され、トランスコーダ側に送信されて結合ステレオ・ダウンミックス112を作り出す。パラメータ領域において、MPSビットストリーム106とSAOCビットストリーム114の両者が、SAOCトランスコーダ116の中に搬送される。SAOCトランスコーダ116は、特定のMBOアプリケーション・シナリオに依存し、適切なMPSビットストリーム118を、MPEGサラウンド復号器122に供給する。この操作は、ダウンミックス信号112を、MPS復号器122のダウンミックス信号120に変更するために、演奏情報または演奏マトリクスを使用して、何らかのダウンミックス前処理を使うことで実行される。
【0114】
向上カラオケ/独奏モードの別の実施形態が、以下で説明される。それは、結果として生じる音質の重要な減少無しで、複数の音声オブジェクトのレベル増幅/減衰に関して、複数の音声オブジェクトの個々の操作を許す。特別な「カラオケタイプ」アプリケーション・シナリオは、バックグラウンド音声シーンの知覚品質を傷付けること無く維持して、特定のオブジェクトである、通常のリード・ボーカル(以下、フォアグランド・オブジェクト(FGO)と称する)の完全抑制を必要とする。また、それは、静的バックグラウンド音声シーン(以下、バックグランド・オブジェクト(BGO)と称す)無しで、特定のFGO信号を個別に再生させる能力を伴う。BGOは、パンニングに関してユーザの制御可能性を必要としない。このシナリオは、「独奏」モードと称される。通常のアプリケーションの場合は、ステレオBGO信号と最大4個のFGO信号とを含む。FGO信号は、例えば、2個の独立したステレオ・オブジェクトを表わすことができる。
【0115】
この実施形態と
図14によると、向上カラオケ/独奏トランスコーダ150は、TTN(two−to−N)ボックスまたはOTN(one−to−N)ボックス152のいずれかを組み込んでいる。両者は、MPEGサラウンド仕様から知られているTTTボックスを、一般化して高めた変更品である。適切な要素ボックスの選択は、送信されるダウンミックス信号112の数に依存する。すなわち、TTNボックスはステレオ・ダウンミックス信号に専念する。一方、モノラル・ダウンミックス信号に対しては、OTNボックスが適用される。SAOC符号器の中の対応するTTN
-1ボックスまたはOTN
-1ボックスは、BGO信号およびFGO信号を、コモンSAOCステレオ・ダウンミックス信号またはモノラル・ダウンミックス信号112に結合して、SAOCサイド情報(ビットストリーム)114を発生させる。ダウンミックス信号112における、全ての個々のフォアグランド・オブジェクト(FGO)の任意の予め定義された位置決めは、TTNボックスまたはOTNボックス152のいずれかによって支持される。トランスコーダ150側では、(外部から適用される操作モード158に依存している、)BGO信号154またはFGO信号156の組み合わせが、SAOCサイド情報114と任意に組み込まれる残留信号だけを使用して、TTNまたはOTNボックス152によって、ダウンミックス信号112から復号される。復号された音声オブジェクト信号154/156と演奏情報160とは、MPEGサラウンド・ビットストリーム162と対応する前処理ダウンミックス信号164とを作り出すために使用される。ミキサー166は、ダウンミックス信号112の処理を実行し、MPS入力ダウンミックス信号164を得る。そして、MPSトランスコーダ168は、SAOCパラメータ(SAOCサイド情報)114をMPSパラメータ162にコード変換する責任を負う。TTN/OTNボックス152とミキサー166とは、向上カラオケ/独奏モード処理170を共に実行し、ミキサーの機能がアップミックス手段54に含まれている状態で、
図3の予測係数計算手段52とアップミックス手段54に対応する。
【0116】
多重チャンネル・バックグランド・オブジェクト(MBO)は、前述したのと同様にを扱うことができる。すなわち、それは、モノラルまたはステレオ・ダウンミックス信号を生じるMPEGサラウンド符号器によって前処理される。モノラルまたはステレオ・ダウンミックス信号は、BGOとして機能し、後続の向上SAOC符号器に入力される。この場合、トランスコーダは、SAOCビット・ストリームの次に、追加のMPEGサラウンド・ビットストリームを提供しなければならない。
【0117】
次に、TTN/OTNボックス152によって実行される計算を説明する。第1の予め決められた時間/周波数分解能42の中で表わされたTTN/OTNマトリクスMは、2個のマトリクスの積である。
【0120】
2個のオブジェクトグループBGOとFGOとを再構築するために、ダウンミックス情報は、ダウンミックス・マトリクスDの逆によって利用される。ダウンミックス・マトリクスDは、信号F0
1〜F0
Nの線形結合を更に定めるために拡張される。
【0121】
以下において、符号器側でのダウンミックスが記載される。TTN
-1ボックスの中において、拡張ダウンミックス・マトリクスは、以下の式で表される。
【0122】
TTN/OTNボックス152は、ステレオBGOとステレオ・ダウンミックスとに対して、以下の式で表される出力を生じる。この場合、BGO、および/または、ダウンミックスは、モノラル信号である。従って、線形システムは変化する。
【0124】
以下の実施形態によると、TTNマトリクスは、エネルギーモードで使用される。符号化/復号化手順に基づいたエネルギーは、ダウンミックス信号の符号化を波形でなく保存するために設計される。したがって、対応するエネルギーモードのTTNアップミックス・マトリクスは、特定の波形を当てにしないが、入力音声オブジェクトの相対的なエネルギー分布を説明する。このマトリクスM
Energyの要素は、以下の式に従って対応するOLDsから得られる。
【0125】
従って、モノラル・ダウンミックスに対して、エネルギーに基づいたアップミックス・マトリクスM
Energyは、以下の式となる。
【0128】
これに関して、残留信号resは、復号器によって無視される、または、提供されない、すなわち、それは任意であることに再び注目する。残留信号がない場合、復号器(例えば、予測係数計算手段52)は、以下の式に従って、CPCsに基づいた仮想信号を予測する。
【0129】
次に、以下の式で表わされるBGO信号、および/または、FGO信号が、符号器の4つの可能な線形結合の1個の逆によって、例えば、アップミックス手段54によって得られる。
ここに、D
-1は、パラメータDMGとDCLDの関数である。
【0130】
したがって、合計で、残留信号resを無視しているTTN(OTN)ボックス152は、以下の式で表わされる、直前に記載した両方の計算ステップを計算する。
【0132】
最後に、
図15は、サイド情報の中で、残留データを移送するために費やされたデータ量を、どのようにセットするかの更なる可能性を示す。この構文によると、サイド情報は「bs残留サンプリング周波数インデックス(bsResidualSamplingFrequencyIndex)」、すなわち、表に関連しているインデックス、例えば、インデックス対周波数分解能を含む。あるいは、分解能は、フィルタ・バンクの分解能またはパラメータ分解能などの予め決められた分解能になるように推論される。さらに、サイド情報は、残留信号が送信される時間分解能を定義する「bsSAOCフレーム当たりの残留フレーム(bsResidualFramesPerSAOCFrame)」を含む。サイド情報が含む「bsNumGroupsFGO」は、FGOsの数を示す。構文要素「bs残留提供(bsResidualPresent)」は、各FGOに対して伝送され、それぞれのFGOに対して、残留信号が伝送されるかどうかに関して示す。仮に、存在するならば、「bs残留帯域(bsResidualBands)」は、残留値が伝送されるスペクトル帯の数を示す。
【0133】
実際の実行に依存して、ハードウェアまたはソフトウェアの中で、本発明に係る符号化/復号化方法が実行される。したがって、本発明は、CD、ディスクまたは他のデータキャリアなどのコンピュータ読み込み可能な媒体に格納できる、コンピュータ・プログラムに関する。したがって、本発明は、コンピュータで実行されるとき、上図に関係して記載された符号化の本発明の方法または復号化の本発明的の方法を実行するプログラム・コードを有するコンピュータ・プログラムである。