特表2016-530557(P2016-530557A)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特表2016-530557多チャネルオーディオ符号化におけるノイズ充填
<>
  • 特表2016530557-多チャネルオーディオ符号化におけるノイズ充填 図000005
  • 特表2016530557-多チャネルオーディオ符号化におけるノイズ充填 図000006
  • 特表2016530557-多チャネルオーディオ符号化におけるノイズ充填 図000007
  • 特表2016530557-多チャネルオーディオ符号化におけるノイズ充填 図000008
  • 特表2016530557-多チャネルオーディオ符号化におけるノイズ充填 図000009
  • 特表2016530557-多チャネルオーディオ符号化におけるノイズ充填 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2016-530557(P2016-530557A)
(43)【公表日】2016年9月29日
(54)【発明の名称】多チャネルオーディオ符号化におけるノイズ充填
(51)【国際特許分類】
   G10L 19/028 20130101AFI20160902BHJP
   G10L 19/008 20130101ALI20160902BHJP
   H04S 3/00 20060101ALI20160902BHJP
   G10L 19/032 20130101ALI20160902BHJP
【FI】
   G10L19/028
   G10L19/008 100
   H04S3/00 Z
   G10L19/032
【審査請求】有
【予備審査請求】有
【全頁数】38
(21)【出願番号】特願2016-528471(P2016-528471)
(86)(22)【出願日】2014年7月18日
(85)【翻訳文提出日】2016年3月14日
(86)【国際出願番号】EP2014065550
(87)【国際公開番号】WO2015011061
(87)【国際公開日】20150129
(31)【優先権主張番号】13177356.6
(32)【優先日】2013年7月22日
(33)【優先権主張国】EP
(31)【優先権主張番号】13189450.3
(32)【優先日】2013年10月18日
(33)【優先権主張国】EP
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LT,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】ヴァレーロ,マリア ルイス
(72)【発明者】
【氏名】ヘルムリッヒ,クリスチャン
(72)【発明者】
【氏名】ヒルペルト,ヨハネス
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA04
5D162BA01
5D162BA13
5D162BA17
5D162CA11
5D162DA27
5D162EG02
(57)【要約】
多チャネルオーディオ符号化において、以下の手段によって符号化効率の改善が達成される。即ち、人工的に生成されるノイズ又はスペクトル複製の代わりに、ノイズ充填ソースを使用して、ゼロ量子化されたスケールファクタ帯域のノイズ充填が実施される。特に、多チャネルオーディオ信号の前フレーム、又は現フレームの異なるチャネルからのスペクトル線を使用して生成されたノイズに基づくノイズ充填を実施することにより、多チャネルオーディオ符号化における符号化効率をより効率的にすることができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
パラメトリック周波数ドメイン・オーディオ復号器であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルの第1スケールファクタ帯域と、前記スペクトルの第2スケールファクタ帯域とを識別する手段(12)であって、前記第1スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第2スケールファクタ帯域内では少なくとも1つのスペクトル線が非ゼロに量子化されている、手段と、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の1つのスケールファクタを使用して調整しながら充填する手段(16)と、
前記第2スケールファクタ帯域内のスペクトル線を、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化する手段(14)と、
前記ノイズで充填され、かつそのレベルが前記第1スケールファクタ帯域のスケールファクタを使用して調整されている前記第1スケールファクタ帯域と、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化された前記第2スケールファクタ帯域と、から得られた前記スペクトルを逆変換する手段(18)であって、前記逆変換により前記多チャネルオーディオ信号の前記第1チャネルの時間ドメイン部分を取得する、手段と、
を備える復号器。
【請求項2】
請求項1に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記充填にあたって、前記所定のスケールファクタ帯域に対してスペクトル的に同一位置にある、前記前フレームのダウンミックスのスペクトルの同一位置部分のレベルを、前記所定のスケールファクタ帯域の前記スケールファクタを使用して調整し、その調整されたレベルを持つ前記同一位置部分を前記所定のスケールファクタ帯域に加算するよう更に構成されている、復号器。
【請求項3】
請求項2に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームの異なるチャネル又はダウンミックスから前記スケールファクタ帯域のサブセットを予測してチャネル間予測を取得し、前記ノイズで充填された前記所定のスケールファクタ帯域と、前記第2スケールファクタ帯域の前記スケールファクタを前記チャネル間予測の予測残余として使用して逆量子化された前記第2スケールファクタ帯域と、を使用して前記スペクトルを取得するよう構成された、復号器。
【請求項4】
請求項3に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記スケールファクタ帯域のサブセットを予測する際に、前記前フレームのダウンミックスのスペクトルを使用して、前記現フレームの前記異なるチャネル又はダウンミックスの虚数部推定を実行するよう更に構成された、復号器。
【請求項5】
請求項1〜4のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
現チャネル及び他のチャネルは、データストリーム内でMS符号化されており、
前記パラメトリック周波数ドメイン・オーディオ復号器は、前記スペクトルをMS復号化するよう構成されている、復号器。
【請求項6】
請求項1〜5のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
データストリームから、前記第1と第2のスケールファクタ帯域の前記スケールファクタを、コンテキスト適応型エントロピー復号化及び/又は予測復号化を使用して順序的に抽出するよう更に構成され、
前記コンテキスト適応型エントロピー復号化のコンテキスト決定及び/又は前記予測復号化のスペクトル予測は、現時点で抽出されつつあるスケールファクタのスペクトル的に近隣の部分において既に抽出されたスケールファクタに依存しており、前記スケールファクタは、前記第1と第2のスケールファクタ帯域の中でスペクトル順序に従ってスペクトル的に配置される、復号器。
【請求項7】
請求項1〜6のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
擬似ランダムノイズ又はランダムノイズを使用して前記ノイズが追加的に生成されるよう更に構成された、復号器。
【請求項8】
請求項7に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達されたノイズパラメータに従って、前記擬似ランダムノイズ又はランダムノイズのレベルを、前記第1スケールファクタ帯域について均等に調整するよう更に構成された、復号器。
【請求項9】
請求項1〜8のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達された修正パラメータを使用して、前記第1スケールファクタ帯域のスケールファクタを、前記第2スケールファクタ帯域のスケールファクタに比べて同等に修正するよう更に構成された、復号器。
【請求項10】
パラメトリック周波数ドメイン・オーディオ符号器であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化する手段と、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第1スケールファクタ帯域と、少なくとも1つのスペクトル線が非ゼロに量子化されている前記スペクトルの第2スケールファクタ帯域とを識別する手段と、
予測及び/又はレート制御ループ内で、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は前記現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整しながら充填する手段と、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達する手段と、
を備える、符号器。
【請求項11】
請求項10に記載のパラメトリック周波数ドメイン・オーディオ符号器であって、
前記所定のスケールファクタ帯域内の前記第1チャネルのスペクトルの前記スペクトル線の非量子化バージョンのレベルに基づいて、かつ前記多チャネルオーディオ信号の前フレームのスペクトル線又は前記現フレームの異なるチャネルのスペクトル線に追加的に基づいて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを計算するよう更に構成された、符号器。
【請求項12】
パラメトリック周波数ドメイン・オーディオ復号化の方法であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルの第1スケールファクタ帯域と、前記スペクトルの第2スケールファクタ帯域とを識別するステップであって、前記第1スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第2スケールファクタ帯域内では少なくとも1つのスペクトル線が非ゼロに量子化されている、ステップと、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の1つのスケールファクタを使用して調整しながら充填するステップと、
前記第2スケールファクタ帯域内のスペクトル線を、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化するステップと、
前記ノイズで充填され、かつそのレベルが前記第1スケールファクタ帯域のスケールファクタを使用して調整されている前記第1スケールファクタ帯域と、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化された前記第2スケールファクタ帯域と、から得られた前記スペクトルを逆変換するステップであって、前記逆変換により前記多チャネルオーディオ信号の前記第1チャネルの時間ドメイン部分を取得する、ステップと、
を備える方法。
【請求項13】
パラメトリック周波数ドメイン・オーディオ符号化の方法であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化するステップと、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第1スケールファクタ帯域と、少なくとも1つのスペクトル線が非ゼロに量子化されている前記スペクトルの第2スケールファクタ帯域とを識別するステップと、
予測及び/又はレート制御ループ内で、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのスペクトル線又は前記現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで充填するステップであって、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整する、ステップと、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達するステップと、
を備える方法。
【請求項14】
コンピュータ上で作動されたとき、請求項12又は13に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、多チャネルオーディオ符号化におけるノイズ充填に関する。
【背景技術】
【0002】
IETF[非特許文献1]、MPEG−4(HE−)AAC[非特許文献2]又は特にMPEG−D xHE−AAC(USAC)[非特許文献3]のOpus/Celtコーデックのような現代の周波数ドメイン・スピーチ/オーディオ符号化システムは、信号の時間的定常性に依存して、1つの長い変換−ロングブロック−、又は8個の連続する短い変換−ショートブロック−のいずれか一方を使用して、オーディオフレームを符号化するための手段を提供する。加えて、低ビットレート符号化のために、これらの符号化方式は、擬似ランダムノイズ又は同じチャネルのより低周波数の係数を使用して、周波数係数を再生するツールを提供する。xHE−AACにおいて、これらのツールは、それぞれノイズ充填及びスペクトル帯域複製として知られている。
【0003】
しかしながら、非常に調性の高い又は過渡的なステレオ入力にとって、ノイズ充填及び/又はスペクトル帯域複製だけでは、非常に低いビットレートにおける達成可能な符号化品質が制限される。その主たる理由は、両方のチャネルのあまりに多くのスペクトル係数が明示的に伝送される必要があるからである。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】[1] Internet Engineering Task Force (IETF), RFC 6716, “Definition of the Opus Audio Codec,” Int. Standard, Sep. 2012. Available online at http://tools.ietf.org/html/rfc6716.
【非特許文献2】[2] International Organization for Standardization, ISO/IEC 14496-3:2009, “Information Technology - Coding of audio-visual objects - Part 3: Audio,” Geneva, Switzerland, Aug. 2009.
【非特許文献3】[3] M. Neuendorf et al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc. 132nd AES Convention, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013.
【非特許文献4】[4] International Organization for Standardization, ISO/IEC 23003-3:2012, “Information Technology - MPEG audio - Part 3: Unified speech and audio coding,” Geneva, Jan. 2012.
【発明の概要】
【発明が解決しようとする課題】
【0005】
従って、本発明の目的は、特に非常に低いビットレートにおいてより効率的な符号化を可能にする、多チャネルオーディオ符号化におけるノイズ充填を実施するための概念を提供することである。
【課題を解決するための手段】
【0006】
この目的は、添付の独立請求項の主題によって達成される。
【0007】
本出願は、多チャネルオーディオ符号化において、チャネルのゼロ量子化されたスケールファクタ帯域のノイズ充填が、人工的に生成されるノイズ又は同じチャネルのスペクトル複製ではなく、ノイズ充填ソースを使用して実施される場合に、符号化効率の改善を達成できるという知見に基づく。特に、多チャネルオーディオ信号の前フレーム又は現フレームの異なるチャネルからの、スペクトル線を使用して生成されるノイズに基づいてノイズ充填を実施することによって、多チャネルオーディオ符号化における効率をより効率的に達成することができる。
【0008】
多チャネルオーディオ信号の、前フレームのスペクトル的に同じ位置にあるスペクトル線、又は他のチャネルのスペクトル時間的に同じ位置にあるスペクトル線を使用することによって、再生多チャネルオーディオ信号のより快適な品質を達成することが可能であり、これは特に、スペクトル線をゼロ量子化するための符号器の要件がスケールファクタ帯域を全体としてゼロ量子化するような状況に近い非常に低いビットレートにおいて、顕著である。ノイズ充填が改善されることによって、符号器は、より少ない品質損失でより多くのスケールファクタ帯域をゼロ量子化することを選択することができ、その結果として符号化効率が改善する。
【0009】
本出願の一実施形態によれば、ノイズ充填を実施するためのソースは、複素値ステレオ予測を実施するのに使用されるソースと部分的にオーバーラップしている。特に、前フレームのダウンミックスを、ノイズ充填のためのソースとして使用されてもよく、また、複素チャネル間予測を実施するための虚数部推定を実施するため又は少なくとも促進するためのソースとして、共同使用されてもよい。
【0010】
実施形態によれば、既存の多チャネルオーディオコーデックは、チャネル間ノイズ充填の使用をフレーム毎の基準で信号伝達するように、後方互換(backward-compatible)的に拡張されている。以下に概説する特異な実施形態は、例えば、条件付きで符号化されるノイズ充填パラメータの不使用状態を活用して、チャネル間ノイズ充填をオン及びオフに切り替える信号伝達を用いることで、xHE−AACを信号伝達によって後方互換的に拡張する。
【0011】
本出願の有利な実施形態は、従属請求項の主題である。本出願の好ましい実施形態を、図面を参照して以下に説明する。
【図面の簡単な説明】
【0012】
図1】本出願の一実施形態に係るパラメトリック周波数ドメイン復号器のブロック図である。
図2図1の復号器の説明の理解を容易にするための、多チャネルオーディオ信号のチャネルのスペクトログラムを形成するスペクトルシーケンスを示す概略図である。
図3図1の説明の理解を促進するための、図2に示すスペクトログラムからの現スペクトルを示す概略図である。
図4a】前フレームのダウンミックスがチャネル間ノイズ充填の基礎として使用される、代替的な実施形態に係るパラメトリック周波数ドメイン・オーディオ復号器のブロック図の上半分を示す。
図4b】前フレームのダウンミックスがチャネル間ノイズ充填の基礎として使用される、代替的な実施形態に係るパラメトリック周波数ドメイン・オーディオ復号器のブロック図の下半分を示す。
図5】一実施形態に係るパラメトリック周波数ドメイン・オーディオ符号器のブロック図である。
【発明を実施するための形態】
【0013】
図1は、本出願の一実施形態に係る周波数ドメイン・オーディオ復号器を示す。復号器は、全体的に参照符号10を使用して示されており、スケールファクタ帯域識別部12と逆量子化部14とノイズ充填部16と逆変換部18とに加え、スペクトル線抽出部20とスケールファクタ抽出部22とを備える。復号器10によって含まれ得る任意選択の更なる構成要素として、複素ステレオ予測部(complex stereo predictor)24とMS(中間−側方)復号部26と逆TNS(時間領域ノイズ整形)フィルタツールとが含まれ、そのフィルタツールの2つの例28a及び28bが図1に示されている。加えて、ダウンミックス提供部が示されており、参照符号30を使用して以下に詳細に概説する。
【0014】
図1の周波数ドメイン・オーディオ復号器10は、ノイズ充填をサポートするパラメトリック復号器であり、そのノイズ充填に従って、あるゼロ量子化されたスケールファクタ帯域がノイズで充填されるが、その際に、そのスケールファクタ帯域のスケールファクタが、そのスケールファクタ帯域に充填されるノイズのレベルを制御するための手段として使用される。さらに、図1の復号器10は、入来するデータストリーム30から多チャネルオーディオ信号を再生するよう構成されている多チャネルオーディオ復号器を表す。しかしながら、図1は、データストリーム30内へと符号化されている多チャネルオーディオ信号のうちの1つを再生することに関与する復号器10の構成要素に焦点を当てたものであり、この(出力)チャネルを出力32において出力する。参照符号34は、復号器10が、更なる構成要素を備えてもよく、又は、多チャネルオーディオ信号の他のチャネルを再生する役割を担う幾つかのパイプライン動作制御を備えてもよいことを示し、以下に提示する説明は、復号器10による出力32における考慮対象のチャネルの再生が、他のチャネルの復号化とどのように相互作用するかを示している。
【0015】
データストリーム30によって表されている多チャネルオーディオ信号は、2つ以上のチャネルを含んでもよい。以下において、本出願の実施形態の説明は、多チャネルオーディオ信号が2つのチャネルのみを含むステレオ事例に焦点を当てるが、原則として、以下において提示する実施形態は、3つ以上のチャネルを含む多チャネルオーディオ信号及びそれらの信号の符号化に関する代替的な実施形態に容易に置き換えることができる。
【0016】
以下の図1の説明から更に明らかになるように、図1の復号器10は、変換復号器である。即ち、復号器10の根底にある符号化技法によれば、チャネルは、チャネルの重複変換(lapped transform)を使用するなどにより、変換ドメインにおいて符号化される。更に、オーディオ信号の作成者に依存するが、オーディオ信号の複数のチャネルが大部分は同じオーディオコンテンツを表す時間相(time phases)が存在し、それらチャネルは、異なる振幅及び/又は位相のような僅かな又は決定論的な変化だけチャネル間で互いにずれており、それによってあるオーディオシーンが表現され、そのシーンの中では、チャネル間の差異により、多チャネルオーディオ信号の出力チャネルと関連付けられる仮想のスピーカ位置に対するオーディオシーンのオーディオソースの仮想的な位置付けが可能になる。しかしながら、他の時間相では、オーディオ信号の複数の異なるチャネルは、互いに対して多かれ少なかれ無相関であってもよく、更には、例えば完全に異なるオーディオソースを表現してもよい。
【0017】
オーディオ信号のチャネル間の可能な時間変化する関係を考慮にいれるために、図1の復号器10の根底にあるオーディオコーデックは、チャネル間冗長性を活用するために、時間的に変化する複数の異なる尺度の使用を可能にしている。例えば、MS符号化は、ステレオオーディオ信号の左チャネル及び右チャネルをそのまま表す表現と、左チャネルと右チャネルのダウンミックス及びその半減した差をそれぞれ表すM(中間)チャネルとS(側方)チャネルのペアとしての表現と、の間の切り替えを可能にしている。即ち、データストリーム30によって伝送される2つのチャネルのスペクトログラムが−スペクトル時間的な意味で−連続して存在するが、これらの(伝送された)チャネルの意味は、時間的に、及び、出力チャネルに対して、それぞれ変化し得る。
【0018】
もう1つのチャネル間冗長性活用ツールである複素ステレオ予測は、スペクトルドメインにおいて、別のチャネルのスペクトル的に同じ位置にある線を使用して、1つのチャネルの周波数ドメイン係数又はスペクトル線を予測することを可能にする。この予測に関する更なる詳細は以下に説明される。
【0019】
図1及び図1に示すその構成要素の以下の説明の理解を容易にするために、図2は、データストリーム30によって表されるステレオオーディオ信号の例示的な事例について、2つのチャネルのスペクトル線のサンプル値が、どのようにデータストリーム30内へと符号化されて、図1の復号器10によって処理されるようになるかという、可能性のある方法を示す。特に、図2の上半分において、ステレオオーディオ信号の第1チャネルのスペクトログラム40が示されている一方で、図2の下半分は、ステレオオーディオ信号の他方のチャネルのスペクトログラム42を示す。再度注意喚起するが、スペクトログラム40及び42の「意味」は、例えばMS符号化されたドメインと非MS符号化されたドメインとの間の時間変化する切り替えに起因して、時間的に変化し得る。第1の事例において、スペクトログラム40と42とはそれぞれMチャネルとSチャネルとに関係するが、他方、後者の事例においては、スペクトログラム40と42とは、左チャネルと右チャネルとに関係する。MS符号化されたドメインと非MS符号化されたドメインとの間の切り替えは、データストリーム30内で信号伝達されてもよい。
【0020】
図2は、スペクトログラム40及び42が、時間変化するスペクトル時間分解能でデータストリーム30内へと符号化されてもよいことを示す。例えば、両方の(伝送された)チャネルは、時間的に整列された状態で、フレームのシーケンスへとサブ分割されてもよく、これらフレームは、長さが等しくオーバーラップせずに隣接するような波括弧44を使用して示されている。上述したように、スペクトログラム40及び42がデータストリーム30内で表現されるスペクトル分解能は、時間的に変化してもよい。前提として、スペクトル時間分解能はスペクトログラム40及び42について等しく時間的に変化すると想定されるが、以下の説明から明らかになるように、この単純化を拡張することも実現可能である。スペクトル時間分解能の変化は、例えば、データストリーム30内でフレーム44の単位で信号伝達される。即ち、スペクトル時間分解能はフレーム44を単位として変化する。スペクトログラム40及び42のスペクトル時間分解能の変化は、各フレーム44内でスペクトログラム40及び42を記述するのに使用される変換長及び変換の数を切り替えることによって達成される。図2の例において、フレーム44a及び44bは、内部のオーディオ信号のチャネルをサンプリングするために1つの長い変換が使用されていたフレームを例示しており、その結果として、1チャネルあたりのそのようなフレームの各々について、1スペクトル線あたり1つのスペクトル線サンプル値を有する最高のスペクトル分解能がもたらされる。図2において、スペクトル線のサンプル値はボックス内の小さいx印を使用して示されており、それらボックスは、行及び列に配列されており、かつ各スペクトル時間格子を表しており、ここで、各行は1つのスペクトル線に対応し、各列は、スペクトログラム40及び42の形成に関与する最短の変換に対応するフレーム44の部分間隔に対応している。特に、図2は、例えばフレーム44dについて、フレームが代替的に、より短い長さの連続的な変換を施され得ることを示しており、その結果として、フレーム44dのようなフレームについては、スペクトル分解能が低減された幾つかの時間的に連続するスペクトルがもたらされる。フレーム44dについて、例示的に8つの短い変換が使用されており、その結果、8番目毎のスペクトル線だけが取り込まれるように、互いに離間したスペクトル線で、そのフレーム42d内のスペクトログラム40及び42のスペクトル時間サンプリングが行われるが、フレーム44dを変換するのに使用された8つの変換窓又はより短い長さの変換の各々について、1つのサンプル値がもたらされる。例示を目的として、図2には、他の個数の変換も実現可能であることが示されている。例えば、フレーム44a及び44bの長い変換の変換長の例えば半分の変換長を持つ、2つの変換を使用することも可能であり、その結果、スペクトル時間格子又はスペクトログラム40及び42のサンプリングをもたらし、2番目毎のスペクトル線について、2つのスペクトル線サンプル値が得られ、その内の一方が前端の変換に関連し、他方が後端の変換に関連する。
【0021】
図2の各スペクトログラムの下方には、フレームが分割されるような変換のための変換窓が、オーバーラップする窓状の線を使用して示されている。時間的なオーバーラップは、例えば、TDAC(時間ドメインエイリアシング消去)の目的を果たす。
【0022】
以下に更に説明する実施形態は別の様式でも実施され得るが、図2が示す場合では、個々のフレーム44について異なるスペクトル時間分解能の間での切り替えは以下の通り実行される。即ち、各フレーム44について、図2内の小さいx印によって示されている同じ個数のスペクトル線値がスペクトログラム40及び42についてもたらされ、それらのスペクトル線が個別のフレーム44に対応している個別のスペクトル時間タイルをスペクトル時間的にサンプリングする点においてだけ異なり、そのスペクトル時間タイルは、それぞれのフレーム44の時間にわたって時間的に広がり、しかもゼロ周波数から最大周波数fmaxまでスペクトル的に広がっている。
【0023】
図2の矢印を使用して、図2がフレーム44dに関連して示すことは、1つのチャネルの1つのフレーム内の同じスペクトル線に属する複数の短い変換窓のスペクトル線サンプル値を、その同じフレームの次の満たされたスペクトル線まで、そのフレーム内の満たされていない(空の)スペクトル線上へと適切に配分することによって、フレーム44のすべてについて同様なスペクトルが取得され得るということである。その結果としてもたらされるスペクトルは、以下において「インターリーブされたスペクトル」と呼ばれる。例えば、1つのチャネルの1つのフレームの例えばn個の変換をインターリーブする場合、それらn個の短い変換のスペクトル的に同じ位置にあるスペクトル線値が互いに連続するように配列され、その後、スペクトル的に後続するスペクトル線のn個の短い変換のn個のスペクトル的に同じ位置にあるスペクトル線値のセットが連続する。インターリーブの中間形態も実現可能である。即ち、1つのフレームの全てのスペクトル線係数をインターリーブする代わりに、フレーム44dの短い変換の適切なサブセットのスペクトル線係数のみをインターリーブすることも実現可能である。いずれにせよ、スペクトログラム40及び42に対応する2つのチャネルのフレームのスペクトルについて述べるときは常に、これらスペクトルは、インターリーブされたもの又はインターリーブされていないものを指していてもよい。
【0024】
データストリーム30を介して復号器10に渡されるスペクトログラム40及び42を表すスペクトル線係数を効率的に符号化するために、スペクトル線係数は量子化される。量子化ノイズをスペクトル時間的に制御するために、あるスペクトル時間格子内で設定されるスケールファクタを介して量子化刻み幅(quantization step size)が制御される。特に、各スペクトログラムのスペクトルシーケンスの各々の中で、スペクトル線は、スペクトル的に連続しかつオーバーラップしないスケールファクタグループへとグループ化される。図3は、その上半分にスペクトログラム40のスペクトル46を示し、スペクトログラム42からの時間的に同位置のスペクトル48を示す。その中に示されているように、スペクトル46及び48は、スペクトル線を非オーバーラップのグループにグループ化するように、スペクトル軸fに沿ったスケールファクタ帯域へと分割されている。図3において、スケールファクタ帯域は、波括弧50を使用して示されている。単純化するために、スケールファクタ帯域間の境界はスペクトル46と48との間で一致すると仮定されているが、これは必ずしもそうである必要はない。
【0025】
即ち、データストリーム30における符号化によって、スペクトログラム40及び42はそれぞれスペクトルの時間的なシーケンスへと分割され、これらスペクトルの各々はスケールファクタ帯域へとスペクトル的に分割され、各スケールファクタ帯域について、データストリーム30は、それぞれのスケールファクタ帯域に対応するスケールファクタに関する情報を符号化又は搬送する。それぞれのスケールファクタ帯域50内に含まれるスペクトル線係数はそれぞれのスケールファクタを使用して量子化され、又は、復号器10が関係する限り、対応するスケールファクタ帯域のスケールファクタを使用して逆量子化されてもよい。
【0026】
再び図1及びその説明に戻る前に、以下において、特異的に取り扱われるチャネル、即ち、その符号化に図1の復号器の34を除く特異な構成要素が関与しているチャネルは、既に上述したように、データストリーム30内に符号化されている多チャネルオーディオ信号がステレオオーディオ信号であると仮定した場合、左チャネル及び右チャネルの一方、Mチャネル又はSチャネルを表し得る、スペクトログラム40の伝送チャネルであると想定されるものとする。
【0027】
スペクトル線抽出部20が、データストリーム30から、フレーム44についてのスペクトル線データ、即ちスペクトル線係数を抽出するよう構成されている一方で、スケールファクタ抽出部22は、各フレーム44について、対応するスケールファクタを抽出するよう構成されている。この目的のために、抽出部20及び22は、エントロピー復号化を使用してもよい。一実施形態によれば、スケールファクタ抽出部22は、コンテキスト適応型エントロピー復号化を使用して、データストリーム30から、例えば図3のスペクトル46のスケールファクタ、即ちスケールファクタ帯域50のスケールファクタを、順序的に抽出するよう構成されている。順序的復号化の順序は、例えば、低周波数から高周波数へと連なる、スケールファクタ帯域の間で規定されるスペクトル順に従ってもよい。スケールファクタ抽出部22は、コンテキスト適応型エントロピー復号化を使用することができ、直前のスケールファクタ帯域のスケールファクタに依存するなど、現在抽出されているスケールファクタのスペクトル的に近隣にある既に抽出されたスケールファクタに依存して、各スケールファクタのコンテキストを決定してもよい。代替的に、スケールファクタ抽出部22は、例えば、直前のスケールファクタのような以前に復号化されたスケールファクタのいずれかに基づいて、現在復号化されつつあるスケールファクタを予測しながら差分復号化を使用するなどして、データストリーム30からスケールファクタを予測的に復号化してもよい。特に、このスケールファクタ抽出処理は、スケールファクタに関して、ゼロ量子化されたスペクトル線によって排他的に取り込まれたスケールファクタ帯域に属するか、又は、その中の少なくとも1つが非ゼロ値に量子化されているスペクトル線によって取り込まれたスケールファクタ帯域に属するかを関知していない。ゼロ量子化されたスペクトル線のみによって取り込まれたスケールファクタ帯域に属するスケールファクタは、その中の1つが非ゼロであるスペクトル線によって取り込まれたスケールファクタ帯域に属する可能性がある後続の復号化されるスケールファクタの予測の根拠としての役割を果たしてもよく、その中の1つが非ゼロであるスペクトル線によって取り込まれたスケールファクタ帯域に属する可能性がある以前に復号化されたスケールファクタに基づいて予測されてもよい。
【0028】
完全性を求める意味だけあるが、スペクトル線抽出部20は、例えばエントロピー符号化及び/又は予測符号化を使用して、スケールファクタ帯域50が同様に取り込まれている、スペクトル線係数を抽出することに留意すべきである。エントロピー符号化は、現在復号化されているスペクトル線係数のスペクトル時間的に近隣のスペクトル線係数に基づくコンテキスト適応性を使用してもよく、同様に、その予測は、スペクトル時間的に近隣の以前に復号化されたスペクトル線係数に基づいて、現在復号化されているスペクトル線係数を予測するような、スペクトル的予測、時間的予測又はスペクトル時間的予測であってもよい。符号化効率を増大させるために、スペクトル線抽出部20は、周波数軸に沿ってスペクトル線を集合し又はグループ化するタプルにおいて、スペクトル線又は線係数の復号化を実施するよう構成されてもよい。
【0029】
従って、スペクトル線抽出部20の出力において、スペクトル線係数が、例えば対応するフレームのスペクトル線係数のすべてを集合する、又は代替的に、対応するフレームのある短い変換のスペクトル線係数のすべてを集合するスペクトル46のような、スペクトルの単位等で提供される。次いで、スケールファクタ抽出部22の出力において、それぞれのスペクトルの対応するスケールファクタが出力される。
【0030】
スケールファクタ帯域識別部12及び逆量子化部14は、スペクトル線抽出部20の出力に連結されているスペクトル線入力を有し、逆量子化部14及びノイズ充填部16は、スケールファクタ抽出部22の出力に連結されているスケールファクタ入力を有する。スケールファクタ帯域識別部12は、現スペクトル46内のいわゆるゼロ量子化されたスケールファクタ帯域、即ち図3のスケールファクタ帯域50cのようにその中の全てのスペクトル線がゼロに量子化されているスケールファクタ帯域と、スペクトルの中の少なくとも1つのスペクトル線が非ゼロに量子化されている残りのスケールファクタ帯域と、を識別するよう構成されている。特に図3において、スペクトル線係数は、図3内でハッチングされた領域を使用して示されている。その領域から、スペクトル46において、スケールファクタ帯域50bを除く全てのスケールファクタ帯域が、そのスペクトル線係数が非ゼロ値に量子化されている少なくとも1つのスペクトル線を有することが見てとれる。後段で、50dのようなゼロ量子化されたスケールファクタ帯域が、チャネル間ノイズ充填の対象を形成することが明らかになり、それについては後段で更に説明する。説明を進める前に、スケールファクタ帯域識別部12がその識別を、ある開始周波数52を上回るスケールファクタ帯域に制限するなど、スケールファクタ帯域50の適切なサブセットのみに制限してもよいことに留意すべきである。図3では、スケールファクタ帯域識別部12は、識別手順をスケールファクタ帯域50d、50e及び50fに制限している。
【0031】
スケールファクタ帯域識別部12は、ゼロ量子化されたスケールファクタ帯域であるスケールファクタ帯域について、ノイズ充填部16に通知する。逆量子化部14は、入来するスペクトル46と関連するスケールファクタを使用し、関連するスケールファクタ、即ちスケールファクタ帯域50と関連するスケールファクタに従って、スペクトル46のスペクトル線のスペクトル線係数を逆量子化又はスケーリングする。特に、逆量子化部14は、それぞれのスケールファクタ帯域と関連するスケールファクタを用いて、それぞれのスケールファクタ帯域内に含まれるスペクトル線係数を逆量子化及びスケーリングする。図3は、スペクトル線の逆量子化の結果を示しているものとして解釈されるべきである。
【0032】
ノイズ充填部16は、後続するノイズ充填の対象を形成するゼロ量子化されたスケールファクタ帯域と、逆量子化済みスペクトルと、ゼロ量子化されたスケールファクタ帯域として識別される少なくともそれらスケールファクタ帯域のスケールファクタと、に関する情報、及びチャネル間ノイズ充填が現フレームについて実施されるべきであるか否かを明らかにする、現フレームについてのデータストリーム30から得られる信号伝達を得る。
【0033】
以下の実例において説明するチャネル間ノイズ充填処理は、実際には2つのタイプのノイズ充填、即ち、任意のゼロ量子化されたスケールファクタ帯域に対するそれらの潜在的な帰属性とは無関係にゼロに量子化されてきた全てのスペクトル線に関係するノイズフロア54の挿入、及び、実際のチャネル間ノイズ充填手順を含む。この組み合わせについては以下に説明するが、代替的な一実施形態によれば、ノイズフロア挿入は省略されてもよいことは強調されるべきである。更に、現フレームに関係しかつデータストリーム30から得られる、ノイズ充填スイッチオン及びスイッチオフに関する信号伝達は、チャネル間ノイズ充填のみに関連し得るか、又は、両種類のノイズ充填の組み合わせを共に制御し得る。
【0034】
ノイズフロア挿入が関連する限り、ノイズ充填部16は以下のように動作し得る。特に、ノイズ充填部16は、スペクトル線係数がゼロであったスペクトル線を充填するために、擬似乱数生成器又は他の何らかのランダム性のソースのような人工ノイズ生成を利用することができる。こうしてゼロ量子化されたスペクトル線に挿入されるノイズフロア54のレベルは、現フレーム又は現スペクトル46についてのデータストリーム30内の明示的な信号伝達に従って設定され得る。ノイズフロア54の「レベル」は、例えば、二乗平均平方根(RMS)又はエネルギー尺度を使用して決定され得る。
【0035】
従って、ノイズフロア挿入は、図3のスケールファクタ帯域50dのようなゼロ量子化されたスケールファクタ帯域として識別されているスケールファクタ帯域に対する、ある種の予備充填(pre-filling)を表す。ノイズフロア挿入はまた、ゼロ量子化されたスケールファクタ帯域を超えて他のスケールファクタ帯域にも影響を与えるが、ゼロ量子化されたスケールファクタ帯域はさらに、以下のチャネル間ノイズ充填を受ける。以下に説明するように、チャネル間ノイズ充填処理は、ゼロ量子化されたスケールファクタ帯域を、それぞれのゼロ量子化されたスケールファクタ帯域のスケールファクタを介して制御されるレベルにまで充填することである。そのスケールファクタは、それぞれのゼロ量子化されたスケールファクタ帯域の全てのスペクトル線がゼロに量子化されていることに起因して、この充填の目的のために直接的に使用され得る。しかしながら、データストリーム30は、各フレーム又は各スペクトル46のために、あるパラメータの追加的な信号伝達を含んでいてもよく、そのパラメータは、対応するフレーム又はスペクトル46の全てのゼロ量子化されたスケールファクタ帯域のスケールファクタに共通して適用され、その結果、ゼロ量子化されたスケールファクタ帯域のスケールファクタに対してノイズ充填部16によって適用されたときに、ゼロ量子化されたスケールファクタ帯域について個別である個々の充填レベルをもたらす。即ち、ノイズ充填部16は、同じ修正機能を使用して、スペクトル46の各ゼロ量子化されたスケールファクタ帯域について、個々のスケールファクタ帯域のスケールファクタを修正してもよく、その際、データストリーム30に含まれた、現フレームのそのスペクトル46のための上述のパラメータを使用してもよい。それにより、それぞれのゼロ量子化されたスケールファクタ帯域についての充填目標レベルが取得され、そのレベルは、エネルギー又はRMSに関し、例えば、チャネル間ノイズ充填処理が個々のゼロ量子化されたスケールファクタ帯域を(ノイズフロア54に加えて)(任意選択的な)追加のノイズを用いてどの程度まで充填すべきか、というレベルを示す尺度となる。
【0036】
特に、チャネル間ノイズ充填56を実施するために、ノイズ充填部16は、既に殆ど又は完全に復号化された状態にある、他のチャネルのスペクトル48のスペクトル的に同じ位置にある部分を取得し、スペクトル48のその取得さられた部分を、この部分とスペクトル的に同じ位置にあるゼロ量子化されたスケールファクタ帯域へとコピーする。コピーに際して−それぞれのスケールファクタ帯域のスペクトル線にわたる積分によって導出される−そのゼロ量子化されたスケールファクタ帯域内の結果的な全体ノイズレベルが、ゼロ量子化されたスケールファクタ帯域のスケールファクタから得られた上述の充填目標レベルと等しくなるようにスケーリングされる。このような手段によって、個々のゼロ量子化されたスケールファクタ帯域内に充填されるノイズの調性は、ノイズフロア54の基礎を形成するノイズのような人工的に生成されたノイズと比較して改善され、また、同じスペクトル46内の非常に低い周波数ラインからの未制御のスペクトル・コピー/複製よりも良好である。
【0037】
更に正確には、ノイズ充填部16は、50dのような現帯域のために、他のチャネルのスペクトル48内のスペクトル的に同じ位置にある部分を配置し、ゼロ量子化されたスケールファクタ帯域50dのスケールファクタに依存して、そのスペクトル線を次のような手法でスケールする。その手法は、任意ではあるが、現フレーム又はスペクトル46についてデータストリーム30内に含まれる何らかの追加的なオフセット又はノイズファクタパラメータを含んでもよく、その結果、ゼロ量子化されたスケールファクタ帯域50dのスケールファクタによって規定されるような所望のレベルまで、それぞれのゼロ量子化されたスケールファクタ帯域50dが充填されるようになる。本発明の実施形態において、これは、充填がノイズフロア54に対して付加的に行われることを意味する。
【0038】
簡略化された一実施形態によれば、結果として得られるノイズ充填済みスペクトル46は、逆変換部18の入力に直接的に入力されてもよく、それにより、スペクトル46のスペクトル線係数が属する各変換窓について、それぞれのチャネルオーディオ時間信号の時間ドメイン部分を取得し、その後、これらの時間ドメイン部分を(図1には図示していないが)オーバーラップ加算処理により結合してもよい。即ち、スペクトル46がインターリーブされていないスペクトルであり、そのスペクトル線係数が1つの変換にのみ属する場合には、逆変換部18は、その変換に対し1つの時間ドメイン部分をもたらすような逆変換を施し、時間ドメイン部分の前端及び後端は、例えば時間ドメインエイリアシング消去が実現できるように、先行及び後続の変換を逆変換することによって得られた先行する時間ドメイン部分及び後続する時間ドメイン部分とのオーバーラップ加算処理を受けるであろう。しかし、スペクトル46がその中に2つ以上の連続する変換のスペクトル線係数をインターリーブしていた場合には、逆変換部18は、それらに別々の逆変換を施し、各逆変換あたり1つの時間ドメイン部分を取得するであろう。そして、これらの時間ドメイン部分は、それらの間で定義された時間的順序に従って、それらの間で、他のスペクトル又はフレームの先行する時間ドメイン部分及び後続する時間ドメイン部分に対して、オーバーラップ加算処理を受けるであろう。
【0039】
しかしながら、完全性を求めるために、ノイズ充填済みスペクトルに対して更なる処理が実施されてもよいことに注意すべきである。図1に示すように、逆TNSフィルタは、ノイズ充填済みスペクトルに対して逆TNSフィルタリングを実施してもよい。即ち、現フレーム又はスペクトル46についてTNSフィルタ係数を介して制御されて、それまでに取得されたスペクトルは、スペクトル方向に沿った線形フィルタリングを受ける。
【0040】
逆TNSフィルタリングの有無にかかわらず、次に、複素ステレオ予測部24は、そのスペクトルを、チャネル間予測の予測残余として処理し得る。より具体的には、チャネル間予測部24は、他のチャネルのスペクトル的に同じ位置にある部分を使用して、スペクトル46又は少なくともそのスケールファクタ帯域50のサブセットを予測し得る。複素予測処理は、図3において、スケールファクタ帯域50bに関連して破線のボックス58によって示されている。即ち、データストリーム30は、例えば、スケールファクタ帯域50のどの帯域がチャネル間予測されるべきか、及び、どの帯域がそのように予測されるべきでないかを制御する、チャネル間予測パラメータを含んでもよい。更に、データストリーム30中のチャネル間予測パラメータは、チャネル間予測結果を得るために、チャネル間予測部24により適用された複素チャネル間予測ファクタを更に含んでもよい。これらのファクタは、チャネル間予測が活性化されるか、又は活性化されるべくデータストリーム30内で信号伝達される、各スケールファクタ帯域について個別に、又は代替的に1つ以上のスケールファクタ帯域の各グループについて個別に、データストリーム30内に含まれてもよい。
【0041】
チャネル間予測のソースは、図3に示すように、他のチャネルのスペクトル48であってもよい。より正確には、チャネル間予測のソースは、スペクトル48のスペクトル的に同じ位置にある部分であって、チャネル間予測されるべきスケールファクタ帯域50bと同じ位置にあり、その虚数部の推定によって拡張されたものであってもよい。虚数部の推定は、スペクトル48自体のスペクトル的に同じ位置にある部分60に基づいて実施されてもよく、及び/又は、前フレーム、即ち、スペクトル46が属する現在復号化されつつあるフレームの直前のフレームの既に復号化されたチャネルのダウンミックスを使用してもよい。要するに、チャネル間予測部24は、図3におけるスケールファクタ帯域50bのようなチャネル間予測されるべきスケールファクタ帯域に対し、上述したようにして得られた予測信号を加える。
【0042】
これまでの説明において既に述べたように、スペクトル46が属するチャネルは、MS符号化されたチャネルであってもよく、又は、ステレオオーディオ信号の左又は右チャネルのようなスピーカ関連チャネルであってもよい。従って、任意ではあるが、MS復号部26は、任意選択的にチャネル間予測されたスペクトル46に対してMS復号化を施し、そのMS復号化が、スペクトル線又はスペクトル46ごとに、スペクトル48に対応する他のチャネルのスペクトル的に対応するスペクトル線との加算又は減算を実行してもよい。例えば、図1には示されていないが、図3に示すスペクトル48は、復号器10の部分34によって、スペクトル46が属するチャネルに関して上述した方法と同様にして取得されたものであり、MS復号化モジュール26は、MS復号化を実行する中で、スペクトル46及び48に対してスペクトル線ごとの加算又はスペクトル線ごとの減算を施し、ここで、両方のスペクトル46及び48は処理ラインの同じ段階にあり、これは、両方のスペクトルが例えばチャネル間予測によって正に取得されたものであるか、又は、両方のスペクトルがノイズ充填又は逆TNSフィルタリングによって正に取得されたものであることを意味する。
【0043】
任意ではあるが、MS復号化は、スペクトル46全体に関係するようにグローバルに、又は、例えばスケールファクタ帯域50の単位でデータストリーム30によって個別に活性化され得るように、実施されてもよいことに注意すべきである。換言すれば、MS復号化は、例えばフレームの単位で、又は、例えばスペクトログラム40及び/又は42のスペクトル46及び/又は48のスケールファクタ帯域毎に個別となるような何らかのより細かいスペクトル時間分解能の単位で、データストリーム30中のそれぞれの信号伝達を使用してオン又はオフに切り替えられてもよい。ここで、両方のチャネルのスケールファクタ帯域の同一の境界が規定されると想定されている。
【0044】
図1に示すように、逆TNSフィルタ28による逆TNSフィルタリングはまた、チャネル間予測58のような任意のチャネル間処理又はMS復号部26によるMS復号化の後に実施され得る。チャネル間処理の前又は後における実施は、固定であるか、又は、データストリーム30中の各フレームについて若しくは何らかの他のレベルの粒度において、それぞれの信号伝達を介して制御され得る。逆TNSフィルタリングが実施される場合は常に、現スペクトル46のためのデータストリーム中に存在する個々のTNSフィルタ係数が、TNSフィルタ、即ちスペクトル方向に沿って作動する線形予測フィルタを、それぞれの逆TNSフィルタモジュール28a及び/又は28b内へと入来するスペクトルを線形フィルタリングするように制御する。
【0045】
従って、逆変換部18の入力に到来するスペクトル46には、上述したような更なる処理が施されている場合がある。ここでも、上記の説明は、これらの任意選択のツールのすべてが同時に又は同時でなく存在すべきであると理解されるよう意図していない。これらのツールは、部分的に又は集合的に復号器10内に存在していてもよい。
【0046】
いずれにせよ、逆変換部の入力に結果としてもたらされるスペクトルは、チャネルの出力信号の最終的な再生を表し、現フレームの前述したダウンミックスの基礎を形成するものであり、その現フレームは、複素予測58に関連して説明したように、復号化されるべき次のフレームの潜在的な虚数部推定の基礎としての役割を果たす。このスペクトルは更に、図1に示す34を除く構成要素が関係するチャネルではなく、別のチャネルをチャネル間予測するための最終的な再生としての役割を果たすこともできる。
【0047】
それぞれのダウンミックスは、ダウンミックス提供部31によって、この最終的なスペクトル46を、スペクトル48のそれぞれの最終バージョンと結合することによって形成される。後者のエンティティ、即ちスペクトル48のそれぞれの最終バージョンは、予測部24の中で、複素チャネル間予測の基礎を形成したものである。
【0048】
図4は、チャネル間ノイズ充填の基礎が前フレームのスペクトル的に同じ位置にあるスペクトル線のダウンミックスによって表現される、という点で図1に対する代替例を示すが、複素チャネル間予測を使用する任意選択の事例において、この複素チャネル間予測のソースは、チャネル間ノイズ充填のソースとして、及び、複素チャネル間予測における虚数部推定のソースとして、2回使用される。図4は、スペクトル46が属する第1チャネルの復号化に関係する部分70と、スペクトル48を含む他のチャネルの復号化に関与する前述した他の部分34の内部構造と、を含む復号器10を示す。一方の部分70及び他方の34の内部の構成要素には、同じ参照符号が使用されている。図から分かるように、構造は同じである。出力32において、ステレオオーディオ信号の一方のチャネルが出力され、第2復号器部分34の逆変換部18の出力において、ステレオオーディオ信号の他方の(出力)チャネルがもたらされ、この出力は、参照符号74よって示されている。ここでも、上述した実施形態は、3つ以上のチャネルを使用する事例に容易に置き換えることができる。
【0049】
ダウンミックス提供部31は、両方の部分70及び34によって共同使用され、スペクトログラム40及び42の時間的に同じ位置にあるスペクトル48及び46を受信して、スペクトル線ごとにこれらのスペクトルを合計することによってそれらに基づくダウンミックスを形成し、さらに、場合によっては、各スペクトル線における合計を、ダウンミックスされるチャネルの数、即ち、図4の事例においては2で除算することによって、合計から平均を形成することを伴う。ダウンミックス提供部31の出力において、この手段によって前フレームのダウンミックスがもたらされる。これに関連して、前フレームがスペクトログラム40及び42のいずれか一方に2つ以上のスペクトルを含む場合、ダウンミックス提供部31がその事例においてどのように動作するかについて複数の異なる可能性が存在することに留意すべきである。例えば、その事例において、ダウンミックス提供部31は、現フレームの後端部変換のスペクトルを使用してもよいし、スペクトログラム40及び42の現フレームの全てのスペクトル線係数をインターリーブしたインターリーブ結果を使用してもよい。ダウンミックス提供部31の出力に接続されているものとして図4に示された遅延要素74は、ダウンミックス提供部31の出力において提供されたダウンミックスが、前フレーム76のダウンミックスを形成することを示している(チャネル間ノイズ充填56及び複素予測58に関しては、それぞれ図3を参照されたい)。従って、遅延要素74の出力は、一方では復号器部分34及び70のチャネル間予測部24の入力に接続されており、他方では復号器部分70及び34のノイズ充填部16の入力に接続されている。
【0050】
即ち、図1においては、ノイズ充填部16が、チャネル間ノイズ充填の基礎として、同じ現フレームの他のチャネルの最終的に再生された時間的に同じ位置にあるスペクトル48を受信する一方、図4においては、代わりに、ダウンミックス提供部31によって提供される前フレームのダウンミックスに基づいて、チャネル間ノイズ充填が実施される。チャネル間ノイズ充填が実施される方法は同じである。即ち、チャネル間ノイズ充填部16は、図1においては、現フレームの他のチャネルのそれぞれのスペクトルからスペクトル的に同じ位置にある部分を取り込み、図4の事例においては、前フレームのダウンミックスを表現している、前フレームから取得された殆ど又は完全に復号化された最終的なスペクトルを取り込むものであり、更に、図3の50dのようなノイズ充填されるべきスケールファクタ帯域内のスペクトル線に対し、それぞれのスケールファクタ帯域のスケールファクタによって決定された目標ノイズレベルに従ってスケーリングされた、同じ「ソース」部分を加える。
【0051】
オーディ復号器におけるチャネル間ノイズ充填を説明する実施形態の上述した論説の結論として、「ソース」スペクトルの取り込まれたスペクトル的又は時間的に同じ位置にある部分を「目標」スケールファクタ帯域のスペクトル線へと加える前に、チャネル間充填の一般概念から逸脱することなく、「ソース」スペクトル線に対してある前処理が適用されもよいことは、当該技術分野における読者には自明のはずである。特に、チャネル間ノイズ充填処理のオーディオ品質を改善するために、例えばスペクトル平坦化又は傾き除去のようなフィルタリング操作を、図3の50dのような「目標」スケールファクタ帯域に加えられるべき「ソース」領域のスペクトル線に適用することが有益であるかもしれない。同様に、ほとんど(完全にではなく)復号化されたスペクトルの一例として、前述した「ソース」部分は、利用可能な逆(即ち、合成)TNSフィルタによってまだフィルタリングされていないスペクトルから取得されてもよい。
【0052】
上記の実施形態は、チャネル間ノイズ充填の概念に関係していた。以下においては、チャネル間ノイズ充填の上記概念を、既存のコーデック、即ちxHE−AACに準後方互換(semi-backward compatible)的に如何にして組み込めるかの可能性を説明する。特に、以下において、上記の実施形態の好ましい一構成を説明するが、この構成に従えば、ステレオ充填ツールが、xHE−AACベースのオーディオコーデックに準後方互換的な信号伝達様式で組み込まれる。以下に更に説明される構成を使用することによって、MPEG−D xHE−AAC(USAC)に基づくオーディオコーデックにおいて、あるステレオ信号について、2つのチャネルのいずれか一方への変換係数のステレオ充填が実現可能であり、それによって、特に低ビットレートにおけるオーディオ信号の符号化品質を改善できる。レガシーxHE−AAC復号器が明らかなオーディオエラー又は脱落なしにビットストリームを解析及び復号化できるように、ステレオ充填ツールは準後方互換的に信号伝達される。既に上述したように、オーディオ符号器が、現在復号化されつつあるチャネルのいずれか1つのゼロ量子化された(伝送されない)係数を再生するために、2つのステレオチャネルの以前に復号化/量子化された係数の結合を使用できる場合に、より良好な全体的品質を得ることができる。それゆえ、オーディオ符号器、特にxHE−AAC又はそれに基づく符号器において、(低周波数チャネル係数から高周波数チャネル係数への)スペクトル帯域複製と、(無相関擬似ランダムソースからの)ノイズ充填とに加えて、(以前のチャネル係数から現在のチャネル係数への)そのようなステレオ充填を可能にすることが望ましい。
【0053】
ステレオ充填を用いた符号化済みビットストリームがレガシーxHE−AAC復号器によって読み出され解析されることを可能にするために、所望のステレオ充填ツールは、準後方互換的に使用されるべきである。即ち、その存在が、レガシー復号器による復号化の停止を−又は開始さえ−引き起こしはならない。xHE−AAC設備によるビットストリームの可読性によって、市場における採用を促進させることもできる。
【0054】
xHE−AAC又はその潜在的な派生物の文脈において前述した、ステレオ充填ツールに関する準後方互換性についての要望を達成するために、以下の構成は、ステレオ充填の機能と、ノイズ充填に実際に関連するデータストリーム内のシンタックスを介してそのステレオ充填の機能を信号伝達する能力とを含む。ステレオ充填ツールは、上記の説明と整合して機能する。共通の窓構成を有するチャネルペアにおいて、ステレオ充填ツールがノイズ充填に対する代替形態として(又は、上述したようにノイズ充填に加えて)活性化された場合、ゼロ量子化されたスケールファクタ帯域の係数は、2つのチャネルのうちのいずれか一方、好ましくは右チャネル中の、前フレームの係数の和又は差によって再生される。ステレオ充填はノイズ充填と同様に実施される。信号伝達は、xHE−AACのノイズ充填信号伝達を介して行われるであろう。ステレオ充填は、8ビットのノイズ充填サイド情報によって搬送される。MPEG−D USAC規格(非特許文献4)に記載のように、適用されるべきノイズレベルがたとえゼロであったとしても、8ビットすべてが伝送されるので、この搬送は実現可能である。そのような状況において、ノイズ充填ビットの幾つかは、ステレオ充填ツールのために再使用することができる。
【0055】
レガシーxHE−AAC復号器によるビットストリーム解析及び再生に関する準後方互換性は、以下のように保証される。ステレオ充填は、ゼロのノイズレベル(即ち、すべてゼロの値を有する最初の3つのノイズ充填ビット)と、それに続く、ステレオ充填ツールのサイド情報及び損失ノイズレベルを含む5つの非ゼロのビット(伝統的にノイズオフセットを表す)と、を介して信号伝達される。3ビットのノイズレベルがゼロであれば、レガシーxHE−AAC復号器は5ビットのノイズオフセットの値を無視するため、ステレオ充填ツールの信号伝達の存在は、レガシー復号器におけるノイズ充填に対して影響を及ぼすのみである。即ち、最初の3ビットがゼロであるためノイズ充填はオフにされ、残りの復号化操作は意図された通りに作動する。特に、ステレオ充填は、不活性化されているノイズ充填処理と同様に操作されるという事実に起因して、実施されない。従って、レガシー復号器は依然として、強化されたビットストリーム30の「上品な」復号化を行う。なぜなら、ステレオ充填がオンになっているフレームに到達したとき、レガシー復号器は出力信号をミュートする必要がなく、又は更には復号化を中断する必要もないからである。しかしながら、当然のこととして、ステレオ充填された線係数を意図通りに正確に再生することは不可能であり、その結果、新規のステレオ充填ツールに対して適切に対処できる適切な復号器による復号化と比較すると、影響を受けたフレームにおける品質の劣化を招く。しかしながら、ステレオ充填ツールが意図通りに使用される、即ち、低ビットレートでのステレオ入力に対してのみ使用されると仮定すると、xHE−AAC復号器による品質は、影響を受けたフレームが、ミューティングに起因して脱落するか、又は他の明白な再生エラーをもたらす場合と比較して、良好となるはずである。
【0056】
以下においては、拡張として、ステレオ充填ツールをxHE−AACコーデックにどのように組み込むことができるかについて、詳細に説明する。
【0057】
標準に組み込まれる場合、ステレオ充填ツールは、以下のように説明することができる。特に、そのようなステレオ充填(SF)ツールは、MPEG−H 3Dオーディオの周波数ドメイン(FD)部分における新たなツールを表すことになるであろう。上記の説明に倣って、そのようなステレオ充填ツールの目的は、[非特許文献4]に記載されている標準のセクション7.2に従うノイズ充填によって既に達成できるものと同様に、低ビットレートでのMDCTスペクトル係数のパラメトリック再生であろう。しかしながら、任意のFDチャネルのMDCTスペクトル値の生成に擬似ランダムノイズソースを利用するノイズ充填とは異なり、SFは、前フレームの左及び右のMDCTスペクトルのダウンミックスを使用して、チャネルのジョイント符号化されたステレオペアの右チャネルのMDCT値を再生するためにも利用可能であろう。SFは、以下に記載する構成によれば、レガシーMPEG−D USAC復号器によって正確に解析することができるノイズ充填サイド情報によって、準後方互換的に信号伝達される。
【0058】
このツールの説明は、以下の通りであり得る。SFがジョイントステレオFDフレームにおいて活性化しているとき、50dのような、右(第2)チャネルの空の(即ち完全にゼロ量子化された)スケールファクタ帯域のMDCT係数が、前フレーム(FDの場合)の対応する復号化済み左及び右チャネルのMDCT係数の和又は差に置き換えられる。レガシーノイズ充填が第2チャネルに対して活性化している場合、擬似ランダム値も各係数に加えられる。結果として得られる各スケールファクタ帯域の係数は、その後、各帯域のRMS(係数の二乗平均平方根)がその帯域のスケールファクタによって伝送された値と一致するように、スケーリングされる。[非特許文献4]における標準のセクション7.3を参照されたい。
【0059】
MPEG−D USAC標準において新たなSFツールを使用するには、幾つかの操作上の制約がもたらされ得る。例えば、SFツールは、共通のFDチャネルペア、即ち、common_window == 1を用いてStereoCoreToolInfo( )を伝送するチャネルペア要素の、右FDチャネルにおける使用のためだけに利用可能であってもよい。加えて、準後方互換的な信号伝達に起因して、SFツールは、シンタックスコンテナUsacCoreConfig( )内でnoiseFilling == 1である場合だけの使用のために利用可能であってもよい。そのペアにおけるチャネルのいずれかがLPD core_modeにある場合には、たとえ右チャネルがFDモードにある場合であっても、SFツールは使用されなくてもよい。
【0060】
[非特許文献4]に記載されている標準の拡張をより明瞭に説明するために、以下の用語及び定義が使用される。
【0061】
特に、データ要素に関する限り、以下のデータ要素が新たに導入される。
stereo_filling 現フレーム及びチャネルにおいてSFが利用されるか否かを示す2値フラグ
【0062】
更に、新たな補助要素が導入される。
noise_offset ゼロ量子化された帯域のスケールファクタを修正するためのノイズ充填オフセット(セクション7.2)
noise_level 追加されるスペクトルノイズの振幅を表すノイズ充填レベル(セクション7.2)
downmix_prev[ ] 前フレームの左及び右チャネルのダウンミックス(即ち、和又は差)
sf_index[g][sfb] 窓グループg及び帯域sfbのためのスケールファクタインデックス(即ち、伝送される整数)
【0063】
この標準の復号化処理は以下のように拡張され得る。特に、SFツールが活性化されている状態でのジョイントステレオ符号化済みFDチャネルの復号化は、以下の様な3つの順序的ステップにおいて実行される。
【0064】
まず、stereo_fillingフラグの復号化が行われ得る。
【0065】
stereo_fillingは独立したビットストリーム要素を表すのではなく、UsacChannelPairElement()内のノイズ充填要素、noise_offset及びnoise_levelと、StereoCoreToolInfo()中のcommon_windowフラグとから導出される。noiseFilling == 0、common_window == 0、又は現チャネルがその要素中の左(第1)チャネルである場合、stereo_fillingは0であり、ステレオ充填処理は終了する。
【数1】
【0066】
言い換えれば、noise_level == 0である場合、noise_offsetは、stereo_fillingフラグ、及び、それに続く4ビットのノイズ充填データを含み、これらのデータはその後、再配列される。この動作はnoise_level及びnoise_offsetの値を変更するため、セクション7.2のノイズ充填処理の前に実施される必要がある。更に、上記の疑似コードは、UsacChannelPairElement( )又は任意の他の要素の左(第1)チャネルでは実行されない。
【0067】
次に、downmix_prevの計算が行われるであろう。
【0068】
ステレオ充填に使用されるべきスペクトルダウンミックスであるdownmix_prev[ ]は、複素ステレオ予測におけるMDSTスペクトル推定(セクション7.7.2.3)に使用されるdmx_re_prev[ ]と同一である。これは、以下のことを意味する。
・ダウンミックスが実施されるフレーム及び要素、即ち、現在復号化されているフレームの前のフレームのチャネルのいずれかがcore_mode == 1 (LPD)を使用する場合、又は、当該チャネルが不均一な変換長(split_transform == 1若しくは唯一のチャネルにおけるwindow_sequence == EIGHT_SHORT_SEQUENCEへのブロック切り替え)若しくはusacIndependencyFlag == 1を使用する場合、downmix_prev[ ]の全ての係数はゼロでなければならない。
・現在の要素においてチャネルの変換長が最後のフレームから現フレームまでに変化していた場合(即ち、split_transform == 0の前にsplit_transform == 1があるか、又はwindow_sequence != EIGHT_SHORT_SEQUENCEの前にwindow_sequence == EIGHT_SHORT_SEQUENCEがあるか、又はそれぞれその逆)、downmix_prev[ ]の全ての係数は、ステレオ充填処理の間中、ゼロでなければならない。
・前フレーム又は現フレームのチャネルにおいて変換分割(transform splitting)が適用される場合、downmix_prev[ ]は線ごとにインターリーブされたスペクトルダウンミックスを表す。詳細については変換分割ツールを参照されたい。
・複素ステレオ予測が現フレーム及び要素において利用されない場合、pred_dirは0に等しい。
【0069】
結果として、前ダウンミックスは、両方のツールについて一度だけ計算されればよく、演算量が節約される。セクション7.7.2におけるdownmix_prev[ ]とdmx_re_prev[ ]との唯一の差は、複素ステレオ予測が現在使用されていないとき、又は、複素ステレオ予測が活性化しているがuse_prev_frame == 0であるときの挙動である。その場合、たとえdmx_re_prev[ ]が複素ステレオ予測復号化に必要とされておらず、それゆえ、未定義/ゼロであったとしても、セクション7.7.2.3に従ってステレオ充填復号化のためにdownmix_prev[ ]が計算される。
【0070】
その後、空のスケールファクタ帯域のステレオ充填が実施されるであろう。
【0071】
stereo_filling == 1である場合、max_sfb_steを下回る、初期的には空であった全てのスケールファクタ帯域sfb[ ]、即ち、全てのMDCT線がゼロに量子化されていた全ての帯域におけるノイズ充填処理の後、以下の手順が実行される。最初に、この所与のsfb[ ]及びdownmix_prev[ ]内の対応する線のエネルギーが、線の二乗の和によって計算される。その後、sfb[ ]あたり上記の数の線を含む所与のsfbWidthは、各グループ窓のスペクトルについて、次の通りである。
【0072】
if (energy[sfb] < sfbWidth[sfb]) { /* ノイズレベルが最大でない、又は、帯域がノイズ充填領域の下で始まる */
facDmx = sqrt((sfbWidth[sfb] - energy[sfb]) / energy_dmx[sfb]);
factor = 0.0;
/* 前ダウンミックスが空でない場合、帯域が単位エネルギーに達するように、スケーリング済みダウンミックス線を加える */
for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {
spectrum[window][index] += downmix_prev[window][index] * facDmx;
factor += spectrum[window][index] * spectrum[window][index];
}
if ((factor != sfbWidth[sfb]) && (factor > 0)) { /*単位エネルギーに達していないため、帯域を修正する */
factor = sqrt(sfbWidth[sfb] / (factor + 1e-8));
for (index = swb_offset[sfb]; index < swb_offset[sfb+1]; index++) {
spectrum[window][index] *= factor;
}
}
}
【0073】
その後、セクション7.3におけるように、結果的に得られるスペクトルに対してスケールファクタが適用され、空の帯域のスケールファクタは、通常のスケールファクタのように処理される。
【0074】
xHE−AAC標準の上記の拡張に対する代替形態は、暗黙の準後方互換的な信号伝達方法を使用するであろう。
【0075】
xHE−AACコードの枠組みにおける上記の構成は、図1に係る復号器に対し、新たなステレオ充填ツールの使用状況を、stereo_fillingに含まれているビットストリーム中の1ビットを利用して信号伝達する手法を記述している。より正確には、そのような信号伝達(明示的な準後方互換的信号伝達と呼ぶ)は、後続するレガシービットストリームデータ−ここではノイズ充填サイド情報−がSF信号伝達とは独立して使用されることを可能にする。即ち、本発明の実施形態では、ノイズ充填データはステレオ充填情報に依存せず、その逆も成り立つ。例えば、すべてゼロからなるノイズ充填データ(noise_level = noise_offset = 0)が伝送されてもよい一方で、stereo_fillingが任意の可能な値(0又は1のいずれかの2値フラグである)を信号伝達してもよい。
【0076】
レガシービットストリームデータと本発明のビットストリームデータとの間の厳密な独立性が必要とされず、本発明の信号が2値決定である場合、信号伝達ビットの明示的な伝送を回避することができ、上記2値決定は、暗黙の準後方互換的信号伝達と呼ばれ得る信号の存否によって、信号伝達されることもできる。上記の実施形態を再び一例として取り上げると、ステレオ充填の使用状況は、新たな信号伝達を単に利用することによって伝送されることができる。即ち、noise_levelがゼロであり、同時にnoise_offsetがゼロでない場合、stereo_fillingフラグは1に等しく設定される。noise_levelとnoise_offsetとが共にゼロでない場合、stereo_fillingは0に等しい。レガシーノイズ充填信号に対するこの暗黙の信号の依存は、noise_levelとnoise_offsetとが共にゼロであるときに発生する。この場合、レガシー又は新たなSF暗黙信号伝達のいずれが使用されているかは明確でない。そのような曖昧さを回避するために、stereo_fillingの値は事前に定義されなければならない。この例において、ノイズ充填データがすべてゼロからなる場合、stereo_filling = 0を定義することが適切である。なぜなら、これは、ノイズ充填がフレームに適用されるべきでないときに、ステレオ充填機能を有しないレガシー符号器が信号伝達するものだからである。
【0077】
暗黙の準後方互換的信号伝達の場合に未解決である問題は、stereo_filling == 1であり同時にノイズ充填がないことをどのように信号伝達するかである。上述したように、ノイズ充填データは「すべてゼロ」であってはならず、ゼロのノイズの大きさが要求される場合、noise_level(上述したように(noise_offset & 14)/2)は0に等しくなければならない。これによって、0よりも大きいnoise_offset(上述したように(noise_offset & 1)*16)だけが解として残る。しかしながら、たとえnoise_levelがゼロであったとしても、ステレオ充填の場合にスケールファクタを適用するとき、noise_offsetが考慮される。好都合なことに、符号器は、ゼロのnoise_offsetが伝送されない可能性がある、という事実を補償できる。つまり、ビットストリームを書き込む際に、影響を受けたスケールファクタがnoise_offsetを介して復号器において実行されないオフセットを含むように、符号器は、その影響を受けたスケールファクタを変更する。これによって、スケールファクタのデータレートにおける潜在的な増加の代償として、上記の実施形態における前記暗黙の信号伝達が可能になる。従って、上記の説明の疑似コードにおけるステレオ充填の信号伝達は、節約されたSF信号伝達ビットを、1ビットに代えて2ビット(4つの値)でnoise_offsetを伝送するために使用することで、以下のように変更され得る。
【0078】
【数2】
【0079】
完全性を求める意味で、図5は、本出願の一実施形態に係るパラメトリックオーディオ符号器を示す。まず最初に、全体的に参照符号100を使用して示されている図5の符号器は、図1の出力32において再生されたオーディオ信号の歪みのないオリジナルバージョンの変換を実行するための変換部102を備える。図2に関連して説明したように、対応する変換窓を有する複数の異なる変換長をフレーム44の単位で切り替えながら、重複変換が使用されてもよい。異なる変換長及び対応する変換窓は、図2において参照符号104を使用して示されている。図1と同様に、図5は、多チャネルオーディオ信号の1つのチャネルを符号化する役割を担う復号器100の一部分に着目しており、その一方で、復号器100の別のチャネルドメイン部分は図5において全体的に参照符号106を使用して示されている。
【0080】
変換部102の出力において、スペクトル線及びスケールファクタは量子化されておらず、実質的に符号化損失はまだ発生していない。変換部102によって出力されたスペクトログラムが量子化部108に入り、量子化部は、スケールファクタ帯域の予備スケールファクタを設定及び使用して、変換部102によって出力されたスペクトログラムのスペクトル線を、スペクトルごとに量子化するよう構成されている。即ち、量子化部108の出力において、予備スケールファクタ及び対応するスペクトル線係数がもたらされ、ノイズ充填部16'、任意選択の逆TNSフィルタ28a'、チャネル間予測部24'、MS復号部26'及び逆TNSフィルタ28b'から成る系列が、順次接続されており、その結果、図5の符号器100に対し、復号器側のダウンミックス提供部の入力(図1参照)において取得可能であるような、現スペクトルの再生された最終バージョンを取得する能力を付与している。チャネル間予測部24'を使用する場合、及び/又は、前フレームのダウンミックスを使用してチャネル間ノイズを形成するバージョンにおけるチャネル間ノイズ充填を使用する場合には、符号器100はまた、多チャネルオーディオ信号のチャネルのスペクトルの再生された最終バージョンのダウンミックスを形成するダウンミックス提供部31'をも備える。無論、計算量を節約するために、最終バージョンの代わりに、チャネルの前記スペクトルの量子化されていないオリジナルバージョンが、ダウンミックスの形成に当たってダウンミックス提供部31'によって使用されてもよい。
【0081】
符号器100は、スペクトルの利用可能な再生された最終バージョンに関する情報を使用して、虚数部推定を使用したチャネル間予測を実行する前述した可能なバージョンのような、フレーム間スペクトル予測を実行してもよく、及び/又は、レート制御を実行してもよく、即ち、レート制御ループ内で、符号器100によって最終的にデータストリーム30内へと符号化される可能なパラメータが、レート/歪みにおいて最適に設定されるよう決定してもよい。
【0082】
例えば、符号器100のそのような予測ループ及び/又はレート制御ループ内で設定される1つのパラメータは、識別部12'によって識別された各ゼロ量子化されたスケールファクタ帯域について、量子化部108によって単に事前に設定された、それぞれのスケールファクタ帯域のスケールファクタである。符号器100の予測及び/又はレート制御ループの中で、ゼロ量子化されたスケールファクタ帯域のスケールファクタは、聴覚心理的に又はレート/歪みが最適になるように設定され、それにより、上述した目標ノイズレベルと共に、対応するフレームについてデータストリームによって復号器側へと搬送される上述した任意選択の修正パラメータとが決定される。注意すべきは、このスケールファクタは、スペクトルのスペクトル線及びそのスペクトルが属するチャネル(即ち、前述の「目標」スペクトル)のみを使用して計算されもよいし、代替的に、「目標」チャネルスペクトルのスペクトル線と、追加的に、他のチャネルスペクトルのスペクトル線、又はダウンミックス提供部31'から得られた前フレームからのダウンミックススペクトル(即ち、上述した「ソース」スペクトル)と、の両方を使用して決定されてもよい。特に、目標ノイズレベルを安定させ、また、チャネル間ノイズ充填が適用されている復号化済みオーディオチャネルにおける時間的なレベル変動を低減するために、目標スケールファクタは、「目標」スケールファクタ帯域中のスペクトル線のエネルギー尺度と、対応する「ソース」領域中の同じ位置にあるスペクトル線のエネルギー尺度と、の間の関係を使用して計算されてもよい。最後に、上述したように、この「ソース」領域は、別のチャネルの再生された最終バージョン若しくは前フレームのダウンミックスに由来してもよいし、符号器の演算量が低減されるべきである場合は、前記他のチャネルの量子化されていないオリジナルバージョン又は前フレームのスペクトルの量子化されていないオリジナルバージョンのダウンミックスに由来してもよい。
【0083】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0084】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
【0085】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0086】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0087】
換言すれば、本発明の方法の一実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0088】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。そのデータキャリア、デジタル記憶媒体、記録された媒体は、典型的には有形であり、非一時的である。
【0089】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0090】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0091】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0092】
本発明に従う他の実施形態は、ここで説明した方法の1つを実行するためのコンピュータプログラムを、受信器へ(例えば電子的に又は光学的に)伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、携帯機器、メモリーデバイス又はそれらの類似物であってもよい。装置又はシステムは、例えばコンピュータプログラムを受信器へと転送するファイルサーバを含んでもよい。
【0093】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0094】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3
図4a
図4b
図5
【手続補正書】
【提出日】2016年3月15日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
パラメトリック周波数ドメイン・オーディオ復号器であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルの第1スケールファクタ帯域と、前記スペクトルの第2スケールファクタ帯域とを識別する手段(12)であって、前記第1スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第2スケールファクタ帯域内では少なくとも1つのスペクトル線が非ゼロに量子化されている、手段と、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのダウンミックスのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の1つのスケールファクタを使用して調整しながら充填する手段(16)と、
前記第2スケールファクタ帯域内のスペクトル線を、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化する手段(14)と、
前記ノイズで充填され、かつそのレベルが前記第1スケールファクタ帯域のスケールファクタを使用して調整されている前記第1スケールファクタ帯域と、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化された前記第2スケールファクタ帯域と、から得られた前記スペクトルを逆変換する手段(18)であって、前記逆変換により前記多チャネルオーディオ信号の前記第1チャネルの時間ドメイン部分を取得する、手段と、
を備える復号器。
【請求項2】
請求項1に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記充填にあたって、前記所定のスケールファクタ帯域に対してスペクトル的に同一位置にある、前記前フレームの前記ダウンミックスのスペクトルの同一位置部分のレベルを、前記所定のスケールファクタ帯域の前記スケールファクタを使用して調整し、その調整されたレベルを持つ前記同一位置部分を前記所定のスケールファクタ帯域に加算するよう更に構成されている、復号器。
【請求項3】
請求項2に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームの異なるチャネル又はダウンミックスから前記スケールファクタ帯域のサブセットを予測してチャネル間予測を取得し、前記ノイズで充填された前記所定のスケールファクタ帯域と、前記第2スケールファクタ帯域の前記スケールファクタを前記チャネル間予測の予測残余として使用して逆量子化された前記第2スケールファクタ帯域と、を使用して前記スペクトルを取得するよう構成された、復号器。
【請求項4】
請求項3に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記スケールファクタ帯域のサブセットを予測する際に、前記前フレームのダウンミックスのスペクトルを使用して、前記現フレームの前記異なるチャネル又は前記ダウンミックスの虚数部推定を実行するよう更に構成される、復号器。
【請求項5】
請求項1〜4のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
現チャネル及び他のチャネルは、前記データストリーム内でMS符号化されており、
前記パラメトリック周波数ドメイン・オーディオ復号器は、前記スペクトルをMS復号化するよう構成されている、復号器。
【請求項6】
請求項1〜5のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
データストリームから、前記第1と第2のスケールファクタ帯域の前記スケールファクタを、コンテキスト適応型エントロピー復号化及び/又は予測復号化を使用して順序的に抽出するよう更に構成され、
前記コンテキスト適応型エントロピー復号化のコンテキスト決定及び/又は前記予測復号化のスペクトル予測は、現時点で抽出されつつあるスケールファクタのスペクトル的に近隣の部分において既に抽出されたスケールファクタに依存しており、前記スケールファクタは、前記第1と第2のスケールファクタ帯域の中でスペクトル順序に従ってスペクトル的に配置される、復号器。
【請求項7】
請求項1〜6のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
擬似ランダムノイズ又はランダムノイズを使用して前記ノイズが追加的に生成されるよう更に構成された、復号器。
【請求項8】
請求項7に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達されたノイズパラメータに従って、前記擬似ランダムノイズ又はランダムノイズのレベルを、前記第1スケールファクタ帯域について均等に調整するよう更に構成された、復号器。
【請求項9】
請求項1〜8のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達された修正パラメータを使用して、前記第1スケールファクタ帯域のスケールファクタを、前記第2スケールファクタ帯域のスケールファクタに比べて同等に修正するよう更に構成された、復号器。
【請求項10】
パラメトリック周波数ドメイン・オーディオ符号器であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化する手段と、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第1スケールファクタ帯域と、少なくとも1つのスペクトル線が非ゼロに量子化されている前記スペクトルの第2スケールファクタ帯域とを識別する手段と、
予測及び/又はレート制御ループ内で、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのダウンミックスのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整しながら充填する手段と、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達する手段と、
を備える、符号器。
【請求項11】
請求項10に記載のパラメトリック周波数ドメイン・オーディオ符号器であって、
前記所定のスケールファクタ帯域内の前記第1チャネルのスペクトルの前記スペクトル線の非量子化バージョンのレベルに基づいて、かつ前記多チャネルオーディオ信号の前フレームの前記ダウンミックスのスペクトル線に追加的に基づいて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを計算するよう更に構成された、符号器。
【請求項12】
パラメトリック周波数ドメイン・オーディオ復号器であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルの第1スケールファクタ帯域と、前記スペクトルの第2スケールファクタ帯域とを識別する手段(12)であって、前記第1スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第2スケールファクタ帯域内では少なくとも1つのスペクトル線が非ゼロに量子化されている、手段(12)と、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前記現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の1つのスケールファクタを使用して調整しながら充填する手段(16)と、
前記第2スケールファクタ帯域内のスペクトル線を、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化する手段(14)と、
前記ノイズで充填され、かつそのレベルが前記第1スケールファクタ帯域のスケールファクタを使用して調整されている前記第1スケールファクタ帯域と、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化された前記第2スケールファクタ帯域と、から得られた前記スペクトルを逆変換する手段(18)であって、前記逆変換により前記多チャネルオーディオ信号の前記第1チャネルの時間ドメイン部分を取得する、手段と、
を備える復号器。
【請求項13】
請求項12に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記充填にあたって、前記所定のスケールファクタ帯域に対してスペクトル的に同一位置にある、前記前フレームの前記ダウンミックスのスペクトルの同一位置部分のレベルを、前記所定のスケールファクタ帯域の前記スケールファクタを使用して調整し、その調整されたレベルを持つ前記同一位置部分を前記所定のスケールファクタ帯域に加算するよう更に構成されている、復号器。
【請求項14】
請求項13に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームの異なるチャネル又はダウンミックスから前記スケールファクタ帯域のサブセットを予測してチャネル間予測を取得し、前記ノイズで充填された前記所定のスケールファクタ帯域と、前記第2スケールファクタ帯域の前記スケールファクタを前記チャネル間予測の予測残余として使用して逆量子化された前記第2スケールファクタ帯域と、を使用して前記スペクトルを取得するよう更に構成された、復号器。
【請求項15】
請求項14に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記スケールファクタ帯域のサブセットを予測する際に、前記前フレームのダウンミックスのスペクトルを使用して、前記現フレームの前記異なるチャネル又はダウンミックスの虚数部推定を実行するよう更に構成された、復号器。
【請求項16】
請求項12〜15のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
現チャネル及び他のチャネルは、データストリーム内でMS符号化されており、
前記パラメトリック周波数ドメイン・オーディオ復号器は、前記スペクトルをMS復号化するよう構成されている、復号器。
【請求項17】
請求項12〜16のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
データストリームから、前記第1と第2のスケールファクタ帯域の前記スケールファクタを、コンテキスト適応型エントロピー復号化及び/又は予測復号化を使用して順序的に抽出するよう更に構成され、
前記コンテキスト適応型エントロピー復号化のコンテキスト決定及び/又は前記予測復号化のスペクトル予測は、現時点で抽出されつつあるスケールファクタのスペクトル的に近隣の部分において既に抽出されたスケールファクタに依存しており、前記スケールファクタは、前記第1と第2のスケールファクタ帯域の中でスペクトル順序に従ってスペクトル的に配置される、復号器。
【請求項18】
請求項12〜17のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
擬似ランダムノイズ又はランダムノイズを使用して前記ノイズが追加的に生成されるよう更に構成された、復号器。
【請求項19】
請求項18に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達されたノイズパラメータに従って、前記擬似ランダムノイズ又はランダムノイズのレベルを、前記第1スケールファクタ帯域について均等に調整するよう更に構成された、復号器。
【請求項20】
請求項12〜19のいずれか1項に記載のパラメトリック周波数ドメイン・オーディオ復号器であって、
前記現フレームについてデータストリーム内で信号伝達された修正パラメータを使用して、前記第1スケールファクタ帯域のスケールファクタを、前記第2スケールファクタ帯域のスケールファクタに比べて同等に修正するよう更に構成された、復号器。
【請求項21】
パラメトリック周波数ドメイン・オーディオ符号器であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化する手段と、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第1スケールファクタ帯域と、少なくとも1つのスペクトル線が非ゼロに量子化されている前記スペクトルの第2スケールファクタ帯域とを識別する手段と、
予測及び/又はレート制御ループ内で、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前記現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整しながら充填する手段と、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達する手段と、
を備える、符号器。
【請求項22】
請求項21に記載のパラメトリック周波数ドメイン・オーディオ符号器であって、
前記所定のスケールファクタ帯域内の前記第1チャネルのスペクトルの前記スペクトル線の非量子化バージョンのレベルに基づいて、かつ前記多チャネルオーディオ信号の前記現フレームの異なるチャネルのスペクトル線に追加的に基づいて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを計算するよう更に構成された、符号器。
【請求項23】
パラメトリック周波数ドメイン・オーディオ復号化の方法であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルの第1スケールファクタ帯域と、前記スペクトルの第2スケールファクタ帯域とを識別するステップであって、前記第1スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第2スケールファクタ帯域内では少なくとも1つのスペクトル線が非ゼロに量子化されている、ステップと、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのダウンミックスのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の1つのスケールファクタを使用して調整しながら充填するステップと、
前記第2スケールファクタ帯域内のスペクトル線を、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化するステップと、
前記ノイズで充填され、かつそのレベルが前記第1スケールファクタ帯域の前記スケールファクタを使用して調整されている前記第1スケールファクタ帯域と、前記第2スケールファクタ帯域の前記スケールファクタを使用して逆量子化された前記第2スケールファクタ帯域と、から得られた前記スペクトルを逆変換するステップであって、前記逆変換により前記多チャネルオーディオ信号の前記第1チャネルの時間ドメイン部分を取得するステップと、
を備える方法。
【請求項24】
パラメトリック周波数ドメイン・オーディオ符号化の方法であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化するステップと、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第1スケールファクタ帯域と、少なくとも1つのスペクトル線が非ゼロに量子化されている前記スペクトルの第2スケールファクタ帯域とを識別するステップと、
予測及び/又はレート制御ループ内で、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前フレームのダウンミックスのスペクトル線を使用して生成されたノイズで充填するステップであって、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整する、ステップと、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達するステップと、
を備える方法。
【請求項25】
パラメトリック周波数ドメイン・オーディオ復号化の方法であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルの第1スケールファクタ帯域と、前記スペクトルの第2スケールファクタ帯域とを識別するステップであって、前記第1スケールファクタ帯域内では全てのスペクトル線がゼロに量子化され、前記第2スケールファクタ帯域内では少なくとも1つのスペクトル線が非ゼロに量子化されている、ステップと、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の前記現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで、前記ノイズのレベルを前記所定のスケールファクタ帯域の1つのスケールファクタを使用して調整しながら充填するステップと、
前記第2スケールファクタ帯域内のスペクトル線を、前記第2スケールファクタ帯域のスケールファクタを使用して逆量子化するステップと、
前記ノイズで充填され、かつそのレベルが前記第1スケールファクタ帯域の前記スケールファクタを使用して調整されている前記第1スケールファクタ帯域と、前記第2スケールファクタ帯域の前記スケールファクタを使用して逆量子化された前記第2スケールファクタ帯域と、から得られた前記スペクトルを逆変換するステップであって、前記逆変換により前記多チャネルオーディオ信号の前記第1チャネルの時間ドメイン部分を取得するステップと、
を備える方法。
【請求項26】
パラメトリック周波数ドメイン・オーディオ符号化の方法であって、
多チャネルオーディオ信号の現フレームの第1チャネルのスペクトルのスペクトル線を、前記スペクトル内のスケールファクタ帯域の予備的スケールファクタを使用して量子化するステップと、
全てのスペクトル線がゼロに量子化されている前記スペクトル内の第1スケールファクタ帯域と、少なくとも1つのスペクトル線が非ゼロに量子化されている前記スペクトルの第2スケールファクタ帯域とを識別するステップと、
予測及び/又はレート制御ループ内で、
前記第1スケールファクタ帯域の所定のスケールファクタ帯域内のスペクトル線を、前記多チャネルオーディオ信号の現フレームの異なるチャネルのスペクトル線を使用して生成されたノイズで充填するステップであって、前記ノイズのレベルを前記所定のスケールファクタ帯域の実際のスケールファクタを使用して調整する、ステップと、
前記予備的スケールファクタに代えて、前記所定のスケールファクタ帯域についての前記実際のスケールファクタを信号伝達するステップと、
を備える方法。
【請求項27】
コンピュータ上で作動されたとき、請求項23〜26のいずれか1項に記載の方法を実行するための、プログラムコードを有するコンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正の内容】
【0013】
図1は、本出願の一実施形態に係る周波数ドメイン・オーディオ復号器を示す。復号器は、全体的に参照符号10を使用して示されており、スケールファクタ帯域識別部12と逆量子化部14とノイズ充填部16と逆変換部18とに加え、スペクトル線抽出部20とスケールファクタ抽出部22とを備える。復号器10によって含まれ得る任意選択の更なる構成要素として、複素ステレオ予測部(complex stereo predictor)24とMS(中間−側方)復号部26と逆TNS(時間領域ノイズ整形)フィルタツールとが含まれ、そのフィルタツールの2つの例28a及び28bが図1に示されている。加えて、ダウンミックス提供部が示されており、参照符号31を使用して以下に詳細に概説する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0020
【補正方法】変更
【補正の内容】
【0020】
図2は、スペクトログラム40及び42が、時間変化するスペクトル時間分解能でデータストリーム30内へと符号化されてもよいことを示す。例えば、両方の(伝送された)チャネルは、時間的に整列された状態で、フレームのシーケンスへとサブ分割されてもよく、これらフレームは、長さが等しくオーバーラップせずに隣接するような波括弧44を使用して示されている。上述したように、スペクトログラム40及び42がデータストリーム30内で表現されるスペクトル分解能は、時間的に変化してもよい。前提として、スペクトル時間分解能はスペクトログラム40及び42について等しく時間的に変化すると想定されるが、以下の説明から明らかになるように、この単純化を拡張することも実現可能である。スペクトル時間分解能の変化は、例えば、データストリーム30内でフレーム44の単位で信号伝達される。即ち、スペクトル時間分解能はフレーム44を単位として変化する。スペクトログラム40及び42のスペクトル時間分解能の変化は、各フレーム44内でスペクトログラム40及び42を記述するのに使用される変換長及び変換の数を切り替えることによって達成される。図2の例において、フレーム44a及び44bは、内部のオーディオ信号のチャネルをサンプリングするために1つの長い変換が使用されていたフレームを例示しており、その結果として、1チャネルあたりのそのようなフレームの各々について、1スペクトル線あたり1つのスペクトル線サンプル値を有する最高のスペクトル分解能がもたらされる。図2において、スペクトル線のサンプル値はボックス内の小さいx印を使用して示されており、それらボックスは、行及び列に配列されており、かつ各スペクトル時間格子を表しており、ここで、各行は1つのスペクトル線に対応し、各列は、スペクトログラム40及び42の形成に関与する最短の変換に対応するフレーム44の部分間隔に対応している。特に、図2は、例えばフレーム44dについて、フレームが代替的に、より短い長さの連続的な変換を施され得ることを示しており、その結果として、フレーム44dのようなフレームについては、スペクトル分解能が低減された幾つかの時間的に連続するスペクトルがもたらされる。フレーム44dについて、例示的に8つの短い変換が使用されており、その結果、8番目毎のスペクトル線だけが取り込まれるように、互いに離間したスペクトル線で、そのフレーム44d内のスペクトログラム40及び42のスペクトル時間サンプリングが行われるが、フレーム44dを変換するのに使用された8つの変換窓又はより短い長さの変換の各々について、1つのサンプル値がもたらされる。例示を目的として、図2には、他の個数の変換も実現可能であることが示されている。例えば、フレーム44a及び44bの長い変換の変換長の例えば半分の変換長を持つ、2つの変換を使用することも可能であり、その結果、スペクトル時間格子又はスペクトログラム40及び42のサンプリングをもたらし、2番目毎のスペクトル線について、2つのスペクトル線サンプル値が得られ、その内の一方が前端の変換に関連し、他方が後端の変換に関連する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0030
【補正方法】変更
【補正の内容】
【0030】
スケールファクタ帯域識別部12及び逆量子化部14は、スペクトル線抽出部20の出力に連結されているスペクトル線入力を有し、逆量子化部14及びノイズ充填部16は、スケールファクタ抽出部22の出力に連結されているスケールファクタ入力を有する。スケールファクタ帯域識別部12は、現スペクトル46内のいわゆるゼロ量子化されたスケールファクタ帯域、即ち図3のスケールファクタ帯域50dのようにその中の全てのスペクトル線がゼロに量子化されているスケールファクタ帯域と、スペクトルの中の少なくとも1つのスペクトル線が非ゼロに量子化されている残りのスケールファクタ帯域と、を識別するよう構成されている。特に図3において、スペクトル線係数は、図3内でハッチングされた領域を使用して示されている。その領域から、スペクトル46において、スケールファクタ帯域50dを除く全てのスケールファクタ帯域が、そのスペクトル線係数が非ゼロ値に量子化されている少なくとも1つのスペクトル線を有することが見てとれる。後段で、50dのようなゼロ量子化されたスケールファクタ帯域が、チャネル間ノイズ充填の対象を形成することが明らかになり、それについては後段で更に説明する。説明を進める前に、スケールファクタ帯域識別部12がその識別を、ある開始周波数52を上回るスケールファクタ帯域に制限するなど、スケールファクタ帯域50の適切なサブセットのみに制限してもよいことに留意すべきである。図3では、スケールファクタ帯域識別部12は、識別手順をスケールファクタ帯域50d、50e及び50fに制限している。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0048
【補正方法】変更
【補正の内容】
【0048】
図4は、チャネル間ノイズ充填のソースが前フレームのスペクトル的に同じ位置にあるスペクトル線のダウンミックスによって表現される、という点で図1に対する代替例を示すが、複素チャネル間予測を使用する任意選択の事例において、この複素チャネル間予測のソースは、チャネル間ノイズ充填のソースとして、及び、複素チャネル間予測における虚数部推定のソースとして、2回使用される。図4は、スペクトル46が属する第1チャネルの復号化に関係する部分70と、スペクトル48を含む他のチャネルの復号化に関与する前述した他の部分34の内部構造と、を含む復号器10を示す。一方の部分70及び他方の34の内部の構成要素には、同じ参照符号が使用されている。図から分かるように、構造は同じである。出力32において、ステレオオーディオ信号の一方のチャネルが出力され、第2復号器部分34の逆変換部18の出力において、ステレオオーディオ信号の他方の(出力)チャネルがもたらされ、この出力は、参照符号72によって示されている。ここでも、上述した実施形態は、3つ以上のチャネルを使用する事例に容易に置き換えることができる。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0079
【補正方法】変更
【補正の内容】
【0079】
完全性を求める意味で、図5は、本出願の一実施形態に係るパラメトリックオーディオ符号器を示す。まず最初に、全体的に参照符号100を使用して示されている図5の符号器は、図1の出力32において再生されたオーディオ信号の歪みのないオリジナルバージョンの変換を実行するための変換部102を備える。図2に関連して説明したように、対応する変換窓を有する複数の異なる変換長をフレーム44の単位で切り替えながら、重複変換が使用されてもよい。異なる変換長及び対応する変換窓は、図2において参照符号104を使用して示されている。図1と同様に、図5は、多チャネルオーディオ信号の1つのチャネルを符号化する役割を担う符号器100の一部分に着目しており、その一方で、符号器100の別のチャネルドメイン部分は図5において全体的に参照符号106を使用して示されている。
【手続補正7】
【補正対象書類名】図面
【補正対象項目名】図4
【補正方法】変更
【補正の内容】
図4b
【国際調査報告】