【文献】
Oliver HELLMUTH, et al.,MPEG Spatial Audio Object Coding - The ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes,Proc. 129th Convention of the Audio Engineering Society,米国,AES,2010年11月 4日,pp.1-19
【文献】
Jurgen HERRE, et al.,The Reference Model Architecture for MPEG Spatial Audio Coding,Proc. 118th Convention of the Audio Engineering Society,ES,AES,2005年 5月28日,pp.1-13
【文献】
Cornelia FALCH, et al.,Spatial Audio Object Coding with Enhanced Audio Object Separation,Proc. DAFx-10,オーストリア,IEM,2010年 9月 6日,pp.1-7
(58)【調査した分野】(Int.Cl.,DB名)
該デコーダは、時間−周波数領域において表現されるダウンミックス信号を得るべく時間領域において表現されるダウンミックス入力を変換するための第1の変換ユニット(111)をさらに備え、
該デコーダは、前記非混合オーディオ信号を前記時間−周波数領域から前記時間領域へ変換するための第2の変換ユニット(114)を備えている請求項1に記載のデコーダ。
前記非混合情報決定器(112)は、前記修正されたパラメトリック情報が前記第2のパラメトリックサイド情報の周波数分解能に等しい周波数分解能を有するように、前記第1のパラメトリックサイド情報および前記第2のパラメトリックサイド情報を結合して前記修正されたパラメトリック情報を得ることにより、前記非混合情報を決定するように構成されている請求項1または2に記載のデコーダ。
該デコーダは、前記第1のパラメトリックサイド情報、前記第2のパラメトリックサイド情報およびレンダリング情報に依存して非混合行列を生成するための非混合行列発生器(118)をさらに備え、かつ、
前記非混合モジュール(113)は、前記ダウンミックス信号に前記非混合行列を適用して前記非混合オーディオ信号を得るように構成されている請求項1から6のいずれか一項に記載のデコーダ。
前記エンコーダは、1つまたは複数の変換されたオーディオオブジェクト信号を得るために、前記1つまたは複数の入力されたオーディオオブジェクト信号を時間領域から時間−周波数領域へ変換するための変換ユニット(92)をさらに備え、かつ、
前記パラメトリックサイド情報発生器(93)は、前記1つまたは複数の変換されたオーディオオブジェクト信号に基づいて前記第1のパラメトリックサイド情報および前記第2のパラメトリックサイド情報を生成するように構成されている請求項9に記載のエンコーダ。
前記変換ユニット(92)は、前記1つまたは複数の入力されたオーディオオブジェクト信号を、前記1つまたは複数の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号値を含む信号変換ブロックのウインドウ長さに依存して、前記時間領域から前記時間−周波数領域へ変換するように構成され、
前記変換ユニット(92)は、前記少なくとも1つのオーディオオブジェクト信号のうちの1つまたはそれ以上に過渡が存在するかどうかを示す過渡検出結果を決定するための過渡検出ユニット(101)を備え、過渡は前記少なくとも1つのオーディオオブジェクト信号のうちの1つまたはそれ以上における信号変化を示し、かつ、
前記変換ユニット(92)は前記ウインドウ長さを前記過渡検出結果に依存して決定するためのウインドウシーケンス・ユニット(102)をさらに備えている請求項10に記載のエンコーダ。
該エンコーダは、複数の補正係数を複数のパラメータ値に基づいて推定するためのデルタ推定ユニット(108)をさらに備え、前記複数のパラメータ値は少なくとも1つの前記オーディオオブジェクト信号に依存し、前記第2のパラメトリックサイド情報は前記複数の補正係数に依存する請求項9から11のいずれか一項に記載のエンコーダ。
該エンコーダは、前記複数の補正係数から、線形予測を実行することによって線形予測係数を決定するためのデルタモデリングユニット(109)をさらに備え、前記第2のパラメトリックサイド情報は前記線形予測係数を含む請求項12に記載のエンコーダ。
1つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示す1つまたは複数のダウンミックス信号を得ることと、前記少なくとも1つのオーディオオブジェクト信号に関する第1のパラメトリックサイド情報を入手することと、前記少なくとも1つのオーディオオブジェクト信号に関する第2のパラメトリックサイド情報であって周波数分解能が前記第1のパラメトリックサイド情報の周波数分解能よりも高い第2のパラメトリックサイド情報を入手することによって、1つまたは複数の入力されたオーディオオブジェクト信号を符号化するための請求項9から13のいずれか一項に記載のエンコーダ(61)と、
前記1つまたは複数のダウンミックス信号に基づき、かつ前記第1のパラメトリックサイド情報および前記第2のパラメトリックサイド情報に基づいて非混合オーディオ信号を生成するための請求項1から8のいずれか一項に記載のデコーダ(62)と、を備えているシステム。
【背景技術】
【0002】
最新のデジタル・オーディオ・システムにおいては、受信機側における、送信コンテンツのオーディオ−オブジェクト関連の修正を見込むことが主たる傾向である。これらの修正には、オーディオ信号の選択部分のゲイン修正、および/または空間的に分散されたスピーカを介する多チャネル再生の場合の専用オーディオオブジェクトの空間的再ポジショニングが含まれる。これは、オーディオ・コンテンツの異なる部分を異なるスピーカへ個々に送出することによって達成できる。
【0003】
言い替えれば、オーディオ処理、オーディオ送信およびオーディオ蓄積の分野では、オブジェクト指向のオーディオ・コンテンツ再生に対するユーザ相互作用を見込む願望が高まり、また、聴覚印象を向上させるために、多チャネル再生の拡張された可能性を利用してオーディオ・コンテンツまたはその一部を個々に演出するという要望も高まっている。これにより、ユーザにとって、多チャネル・オーディオ・コンテンツの使用が大幅に向上する。例えば、三次元的聴覚印象の達成が可能であり、これにより、娯楽アプリケーションにおけるユーザの満足感は高まる。しかしながら、多チャネルオーディオ再生の使用により話者の了解度を高めることができるので、多チャネル・オーディオ・コンテンツは、職業環境、例えばテレビ会議のアプリケーションにおいても有益である。別の可能なアプリケーションは、楽曲の聴取者に、ボーカル部分または異なる楽器等の、異なる部分(「オーディオオブジェクト」とも称する)もしくはトラックの再生レベルおよび/または空間位置を個々に調整することを提案する。ユーザは、このような調整を、個人的な嗜好、楽曲の一部または複数部分のより容易な転写、教育上の目的、カラオケ、リハーサル、他の理由で実行することができる。
【0004】
全てのデジタル多チャネルまたは多オブジェクト・オーディオ・コンテンツの、例えばパルス符号変調(PCM)データ形式またはさらには圧縮されたオーディオフォーマット形式での直接的な離散送信は、極めて高いビットレートを要求する。しかしながら、同時に、オーディオデータをビットレート効率的な方法で送信しかつ蓄積することも望ましい。したがって、多チャネル/多オブジェクトアプリケーションに起因する過度なリソース負荷を回避するために、オーディオ品質とビットレート要件との間の妥当なトレードオフ(tradeoff)が歓迎される。
【0005】
最近では、オーディオコーディングの分野において、多チャネル/多オブジェクトオーディオ信号のビットレート効率的な送信/蓄積のためのパラメトリック手法が、例えば、動画専門家グループ(MPEG:Moving Picture Experts Group)他によって導入されている。一例は、チャネル指向的手法[MPS、BCC]としてのMPEG Surround(MPS)、またはオブジェクト指向的手法[JSC、SAOC、SAOC1、SAOC2]としてのMPEG空間オーディオオブジェクト符号化(SAOC)である。別のオブジェクト指向的な手法は、「インフォームド・ソース分離(informed source separation)」[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]と称される。これらの技法の目的は、チャネル/オブジェクトのダウンミックスと、送信/蓄積されたオーディオシーンおよび/またはオーディオシーンにおけるオーディオ・ソース・オブジェクトについて記述する追加的なサイド情報とに基づいて、望ましい出力オーディオシーンまたは望ましいオーディオ・ソース・オブジェクトを再構成することにある。
【0006】
このようなシステムにおけるチャネル/オブジェクト関連サイド情報の推定および適用は、時間−周波数選択式に行われる。したがって、このようなシステムは、離散フーリエ変換(DFT:Discrete Fourier Transform)、短時間フーリエ変換(STFT:Short Time Fourier Transform)または直交ミラーフィルタ(QMF:Quadrature Mirror Filter)バンクのようなフィルタバンク、他等の時間−周波数変換を用いる。このようなシステムの基本原理は、
図4に、MPEG SAOCを例に用いて描かれている。
【0007】
STFTの場合、時間次元は時間−ブロック番号で表され、スペクトル次元は分光係数(「ビン」)数字によって捕捉される。QMFの場合、時間次元は時間−スロット番号で表され、スペクトル次元はサブバンド番号によって捕捉される。QMFのスペクトル分解能が続く第2のフィルタ段の適用によって増大される場合は、フィルタバンク全体がハイブリッドQMFと称され、精密分解能サブバンドはハイブリッドサブバンドと称される。
【0008】
既に述べたように、SAOCでは全体の処理は時間−周波数選択式に行われ、各周波数帯域内では下記のように記述することができる。
【0009】
・N個の入力オーディオオブジェクト信号s
1・・・s
Nが、要素d
1,1・・・d
N,Pより成るダウンミックス行列を用いてエンコーダ処理の一部としてP個のチャネルx
1・・・x
Pへダウンミックスされる。さらに、エンコーダは、入力されるオーディオオブジェクトの特徴を記述するサイド情報を抽出する(サイド情報推定器(SIE)モジュール)。MPEG SAOCの場合、オブジェクト電力の相対的な関係がこのようなサイド情報の最も基本的な形式である。
【0010】
・ダウンミックス信号とサイド情報が送信/蓄積される。この目的のために、ダウンミックスオーディオ信号は、例えば、MPEG−1/2レイヤIIまたはIII(aka.mp3)、MPEG−2/4アドバンスト・オーディオ・コーディング(AAC:Advanced Audio Coding)等の周知の知覚オーディオコーダを用いて圧縮することができる。
【0011】
・受信側において、デコーダは、概念的には、送信されたサイド情報を用いて(復号された)ダウンミックス信号からオリジナルのオブジェクト信号を復元(「オブジェクト分離」)しようとする。これの近似されたオブジェクト信号
は、次に、
図4において係数r
1,1・・・r
N,Mにより記述されるレンダリング行列を用いて、M個のオーディオ出力チャネル
により表されるターゲットシーンにミックスされる。望ましいターゲットシーンは、極端な事例では混合物の中の1つだけのソース信号を実現するもの(ソース分離シナリオ)であってもよいが、送信された複数のオブジェクトより成る他の任意の音響シーンであってもよい。例えば、その出力は、単チャネル、2チャネルステレオまたは5.1多チャネルターゲットシーンであることができる。
【0012】
時間−周波数ベースのシステムは、静的な時間および周波数分解能を有する時間−周波数(t/f)変換を利用することができる。所定の固定t/f分解能グリッドの選択は、典型的には、時間分解能と周波数分解能の間のトレードオフを包含する。
【0013】
固定t/f分解能の効果は、オーディオ信号混合物における典型的なオブジェクト信号の例で説明することができる。例えば、トーン音のスペクトルは基本周波数と幾つかのオーバートーンをもつ調和関係のある構造を示す。このような信号のエネルギーは、所定の周波数領域に集中している。このような信号の場合、利用されるt/f表現の高周波数分解能は、信号混合物から狭帯域トーンスペクトル領域を分離するために有益である。反対に、過渡信号は、ドラム音のように、明確な時間構成を有する場合が多く、即ち、実質的エネルギーは短時間でしか存在せず、かつ広範囲の周波数に渡って広がっている。これらの信号の場合、利用されるt/f表現の高い時間分解能は、信号混合物から過渡信号部分を分離する際に効果的である。
【0014】
標準SAOC表現から得られる周波数分解能は、標準SAOCにおいて最大値28を有するパラメトリック帯域数に限定される。それらは、64バンドQMF分析より成るハイブリッドQMFバンクであって、最も低い帯域にこれらの帯域をさらに4つまでの複合サブバンドに分割する追加的なハイブリッドフィルタリング段をもつものとから得られる。得られる周波数帯域は、ヒト聴覚系の臨界帯域分解能を模倣するパラメトリック帯域にグルーピングされる。そのグルーピングにより、要求されるサイド情報データレートを実際の適用において効率的に処理され得るサイズまで低減できる。
【0015】
現行のオーディオオブジェクト符号化スキームは、SAOC処理の時間−周波数選択性における多様性が限られている。例えば、MPEG SAOC[SAOC][SAOC1][SAOC2]は、所謂ハイブリッド直交ミラーフィルタバンク(ハイブリッド−QMF)およびこれに続くパラメトリック帯域へのグルーピングの使用によって取得され得る時間−周波数分解能に限定される。したがって、標準SAOCにおけるオブジェクト復元は、他のオーディオオブジェクトからの可聴変調クロストーク(例えば、音声におけるダブルトークアーティファクト、または音楽における聴覚粗さアーティファクト)に繋がるハイブリッド−QMFの粗な周波数分解能に煩わされる場合が多い。
【0016】
既存のシステムは、適度に低いデータレートであれば適度な分離品質をもたらす。主たる問題点は、トーン音をきれいに分離するには周波数分解能が不十分な点にある。これは、オブジェクトのトーン成分を取り巻く他のオブジェクトの「ハロ(halo)」として表れる。知覚的には、これは、粗さまたはボコーダ状アーティファクトとして観測される。このハロの有害な影響は、パラメトリック周波数分解能を増大させることによって減らすことができる。(44.1kHzのサンプリング速度で)512バンド以上の分解能は、試験信号において知覚的に著しく向上した分離をもたらすに足ることが示された。このような高いパラメトリック分解能の場合の問題点は、必要とされるサイド情報の量が非実際的な量にまで著しく増大することにある。さらに、既存の標準SAOCシステムとの互換性も失われることになる。
【0017】
したがって、こうした従来技術に関わる上述の制約を克服する方法について教示する概念を提供することができれば有益である。
【先行技術文献】
【非特許文献】
【0018】
【非特許文献1】[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
【非特許文献2】[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006.
【非特許文献3】[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: “From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio”, 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.
【非特許文献4】[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: “ Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding”, 124th AES Convention, Amsterdam, 2008.
【非特許文献5】[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.
【非特許文献6】[AAC] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, “ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.
【非特許文献7】[ISS1] M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixture using Source Index Embedding”, IEEE ICASSP, 2010.
【非特許文献8】[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
【非特許文献9】[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
【非特許文献10】[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
【非特許文献11】[ISS5] S. Zhang and L. Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.
【非特許文献12】[ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.
【非特許文献13】[ISS7] A. Nesbit, E. Vincent, and M. D. Plumbley: “Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation”, IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.
【発明を実施するための形態】
【0039】
本発明の実施形態について述べる前に、従来技術であるSAOCシステムの背景をさらに詳述する。
【0040】
図4はSAOCエンコーダ10およびSAOCデコーダ12の全体の配置を示す。SAOCエンコーダ10は、入力としてN個のオブジェクト、即ちオーディオ信号s
1−s
Nを受信する。具体的には、エンコーダ10は、オーディオ信号s
1−s
Nを受信しかつこれをダウンミックス信号18へダウンミックスするダウンミキサ16を備えている。あるいは、ダウンミックスは外部から提供されてもよく(「アーティスティックダウンミックス」)、その場合、システムは提供されたダウンミックスを計算されたダウンミックスに一致させるために追加的なサイド情報を推定する。
図4において、ダウンミックス信号はPチャネル信号であるものとして示されている。したがって、モノ(P=1)、ステレオ(P=2)または多チャネル(P>2)ダウンミックス信号構成の何れもが考えられる。
【0041】
ステレオダウンミックスの場合、ダウンミックス信号18のチャネルはL0とR0で示され、モノダウンミックスの場合は単にL0で示される。SAOCデコーダ12が個々のオブジェクトs
1−s
Nを回復できるようにするために、サイド情報推定器17はSAOCデコーダ12にSAOCパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベル差(OLD:object level difference)、オブジェクト間相関(IOC:inter-object correlation)(オブジェクト間相互相関パラメータ)、ダウンミックス利得値(DMG:downmix gain value)およびダウンミックス・チャネル・レベル差(DCLD:downmix channel level difference)を含む。SAOCパラメータを含むサイド情報20は、ダウンミックス信号18と共に、SAOCデコーダ12により受信されるSAOC出力データストリームを形成する。
【0042】
SAOCデコーダ12は、オーディオ信号
および
を復元してユーザが選択する任意のチャネルセット
上へレンダリングするために、サイド情報20だけでなくダウンミックス信号18も受信するアップミキサを備えている。そのレンダリングは、SAOCデコーダ12へ入力されるレンダリング情報26によって規定される。
【0043】
オーディオ信号s
1−s
Nは、時間領域またはスペクトル領域のような任意の符号化領域でエンコーダ10へ入力することができる。オーディオ信号s
1−s
NがPCM符号化のような時間領域でエンコーダ10へ供給される場合は、エンコーダ10はその信号をスペクトル領域へ伝達するためにハイブリッドQMFバンクのようなフィルタバンクを用いることができ、スペクトル領域において、オーディオ信号は異なるスペクトル部分に関連づけられる幾つかのサブバンドにおいて固有のフィルタバンク分解能で表現される。オーディオ信号s
1−s
Nが既にエンコーダ10により予期される表現になっている場合は、エンコーダ10はスペクトル分解を実行する必要がない。
【0044】
図5は直前で述べたスペクトル領域におけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表されている。各サブバンド信号30
1−30
Kは、小さいボックス32により示されるサブバンド値の時間シーケンスより成る。図から分かるように、サブバンド信号30
1−30
Kのサブバンド値32は、連続するフィルタバンク時間スロット34の各々について、各サブバンド30
1−30
Kが正確に1つのサブバンド値32を含むように、互いに時間的に同期している。周波数軸36により示されるように、サブバンド信号30
1−30
Kは異なる周波数領域に関連づけられ、かつ時間軸38によって示されるように、フィルタバンク時間スロット34は時間的に連続して配置されている。
【0045】
先に概説したように、
図4のサイド情報抽出器17は、入力されたオーディオ信号s
1−s
NからSAOCパラメータを計算する。現時点で実装されるSAOC標準によれば、エンコーダ10は、この計算を、フィルタバンク時間スロット34およびサブバンド分解により決定されるオリジナルの時間/周波数分解能より所定量だけ低減される場合のある時間/周波数分解能で実行し、この低減された所定量はサイド情報20内の情報としてデコーダ側へ知らされる。連続するフィルタバンク時間スロット34群はSAOCフレーム41を形成することができる。SAOCフレーム41内のパラメータ帯域の数も、同じくサイド情報20内の情報として伝達される。このように、時間/周波数領域は、
図5において破線42により例示される時間/周波数タイルに分割される。
図5において、パラメータ帯域は、時間/周波数タイルの規則的配列が得られるように、図示されている様々なSAOCフレーム41において同様に配分される。しかしながら、一般的には、パラメータ帯域は、個々のSAOCフレーム41におけるスペクトル分解能に対する異なる必要性に応じてSAOCフレーム41間で変わってもよい。さらに、SAOCフレーム41の長さも変わってもよい。結果として、時間/周波数タイルの配列は不規則であってもよい。それにもかかわらず、ある特定のSAOCフレーム41内の時間/周波数タイルは、典型的には同じ持続時間をもって時間方向に配列され、即ち、そのSAOCフレーム41内の全てのt/fタイルは、そのSAOCフレーム41の始まりにおいて始まり、かつそのSAOCフレーム41の終わりで終わる。
【0046】
図4に描かれているサイド情報抽出器17は次の式に従ってSAOCパラメータを計算する。具体的には、サイド情報抽出器17は、各オブジェクトiのオブジェクトレベル差を、
として計算する。ここで、和および指数n、kは各々、SAOCフレーム(または処理用時間スロット)の指数lとパラメータ帯域のmで表わされる所定の時間/周波数タイル42に属する全ての時間指数34および全てのスペクトル指数30に及び、χ
in,k*はχ
in,kの複素共役である。これにより、あるオーディオ信号またはオブジェクトiの全てのサブバンド値χ
iのエネルギーが合計され、かつ全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最高エネルギー値に対して正規化される。
【0047】
さらに、SAOCサイド情報抽出器17は、異なる入力オブジェクトs
1−s
Nのペアの対応する時間/周波数タイルの相似度(similarity measure)を計算することができる。SAOCサイド情報抽出器17は、入力オブジェクトs
1−s
Nの全ペア間の相似度を計算してもよいが、計算した相似度を伝えることを抑えてもよく、または共通ステレオチャネルの右または左のチャネルを形成するオーディオオブジェクトs
1−s
Nに対する相似度の計算を制限してもよい。いずれの場合も、相似度はオブジェクト間相互相関パラメータ(inter-object cross-correlation parameter)
と呼ばれる。計算式は、次の通りである。
ここで、同じく、指数nおよびkは所定の時間/周波数タイル42に属する全てのサブバンド値に及び、iおよびjはオーディオオブジェクトs
1−s
Nの所定のペアを示し、かつRe{ }は複素数値引数の実数部のみを保持する(即ち、虚数部を放棄する)演算を示す。
【0048】
図4のダウンミキサ16は、オブジェクトs
1−s
Nの各々へ適用される利得係数を用いてオブジェクトs
1−s
Nをダウンミックスする。即ち、利得係数d
iがオブジェクトiへ適用され、次に、こうして重み付けされた全てのオブジェクトs
1−s
Nが合計されてモノダウンミックス信号が得られる。これは、
図4においてP=1の場合の例として示される。
図4においてP=2として示される2チャネルダウンミックス信号の別の事例では、利得係数d
1,iがオブジェクトiへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて左のダウンミックスチャネルL0が得られ、かつ利得係数d
2,iがオブジェクトiへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて右のダウンミックスチャネルR0が得られる。多チャネルダウンミックス(P>2)の場合にも、上記と同様の処理が適用される。
【0049】
このダウンミックス処理は、ダウンミックス利得DMG
iによってデコーダ側へ伝えられ、ステレオダウンミックス信号の場合はダウンミックス・チャネル・レベル差DCLD
iによってデコーダ側へ伝えられる。
【0050】
ダウンミックス利得は、次式、
DMG
i=20log
10(d
i+ε) (モノダウンミックス)、
DMG
i=10log
10(d
1,i2+d
2,i2+ε) (ステレオダウンミックス)
に従って計算される。但し、εは10
-9のような小値である。
【0051】
DCLDの場合、次の式が適用される。
【0052】
正規モードにおいて、ダウンミキサ16は、ダウンミックス信号を、モノダウンミックスの場合、
に従って、または、ステレオダウンミックスの場合、
に従って生成する。
【0053】
したがって、上述の式において、変数OLDとIOCはオーディオ信号の関数であり、変数DMGとDCLDはダウンミックス係数dの関数である。ただし、dは時間に関しても周波数に関しても変わりうる。
【0054】
したがって、正規モードにおいて、ダウンミキサ16は全てのオブジェクトs
1−s
Nを優先順位をつけることなく、即ち全てのオブジェクトs
1−s
Nを均等に扱ってミックスする。
【0055】
デコーダ側において、アップミキサは、ダウンミックス手順の逆、および行列R(本明細書ではAと称する場合もある)で表される「レンダリング情報」26の実装を1つの計算ステップにおいて、即ち、2チャネルダウンミックスの場合、
において実行する。但し、行列Eは変数OLDおよびIOCの関数であり、行列Dは
のようにダウンミックス係数を含み、かつD
*はDの複素転置を示す。行列Eは、オーディオオブジェクトs
1−s
Nの推定される共分散行列である。現行のSAOC実装において、推定される共分散行列Eの計算は、典型的には、SAOCパラメータのスペクトル/時間分解能で実行され、即ち、各(l,m)について実行され、よって、推定される共分散行列をE
l,mと書くことができる。推定される共分散行列E
l,mのサイズはN×Nであり、その係数は、次式のように定義される。
【0056】
したがって、
である行列E
l,mは、i=jの場合、
および
であるので、その対角線沿いにオブジェクトレベル差、即ちi=jの場合の
を有する。その対角線の外側において、推定される共分散行列Eは、オブジェクト間相互相関度(inter-object cross correlation measure)
で重み付けされたオブジェクトiおよびj各々のオブジェクトレベル差の幾何学的平均を表す行列係数を有する。
【0057】
図6は、SAOCエンコーダ10の一部としてのサイド情報推定器(SIE:Side Information Estimator)の例に関する可能な1つの実装原理を表示したものである。SAOCエンコーダ10は、ミキサ16とサイド情報推定器(SIE)17とを備えている。サイド情報推定器は、概念的には2つのモジュールからなる。一方のモジュール45は各信号の短時間ベースのt/f表現(例えば、STFTまたはQMF)を計算する。計算された短時間t/f表現は、第2のモジュール46、即ちt/f選択性サイド情報推定モジュール(t/f−SIE:t/f-selective Side Information Estimation module)へ供給される。t/f−SIEモジュール46は各t/f−タイル毎にサイド情報を計算する。現行のSAOC実装においては、時間/周波数変換は固定されており、オーディオオブジェクトs
1−s
Nの全てについて同一である。さらに、SAOCパラメータは、全てのオーディオオブジェクトで同一でありかつ全てのオーディオオブジェクトs
1−s
Nで同じ時間/周波数分解能を有するSAOCフレームに渡って決定され、かくして、幾つかの事例における精密な時間分解能、または他の事例における精密なスペクトル分解能に対するオブジェクト固有のニーズは無視されている。
【0058】
以下、本発明の実施形態について説明する。
【0059】
図1Aは、一実施形態による、複数の非混合オーディオチャネルを含む非混合オーディオ信号を生成するためのデコーダを示す。
【0060】
本デコーダは、少なくとも1つのオーディオオブジェクト信号に関する第1のパラメトリックサイド情報および少なくとも1つのオーディオオブジェクト信号に関する第2のパラメトリックサイド情報を受信することによって、非混合情報を決定するための非混合情報決定器112を備え、第2のパラメトリックサイド情報の周波数分解能は、第1のパラメトリックサイド情報の周波数分解能より高い。
【0061】
さらに、本デコーダは、複数の非混合オーディオチャネルを含む非混合オーディオ信号を得るために、少なくとも1つのオーディオオブジェクト信号のダウンミックスを示すダウンミックス信号に非混合情報を適用するための非混合モジュール113を備えている。
【0062】
非混合情報決定器112は、修正されたパラメトリック情報が第1の周波数分解能より高い周波数分解能を有するように、第1のパラメトリック情報および第2のパラメトリック情報を修正して修正されたパラメトリック情報を得ることにより、非混合情報を決定するように構成されている。
【0063】
図1Bは、別の実施形態による、複数の非混合オーディオチャネルを含む非混合オーディオ信号を生成するためのデコーダを示す。
図1Bのデコーダは、さらに、時間−周波数領域において表現されるダウンミックス信号を得るべく時間領域において表現されたダウンミックス入力を変換するための第1の変換ユニット111を備えている。さらに、
図1Bのデコーダは、非混合オーディオ信号を時間−周波数領域から時間領域へ変換するための第2の変換ユニット114を備えている。
【0064】
図2Aは、一実施形態による、1つまたは複数の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。
【0065】
本エンコーダは、1つまたは複数のダウンミックス信号を得るために、入力された1つまたは複数のオーディオオブジェクト信号をダウンミックスするためのダウンミックスユニット91を備えている。
【0066】
さらに、本エンコーダは、第2のパラメトリックサイド情報の周波数分解能が第1のパラメトリックサイド情報の周波数分解能より高くなるように、少なくとも1つのオーディオオブジェクト信号に関する第1のパラメトリックサイド情報および少なくとも1つのオーディオオブジェクト信号に関する第2のパラメトリックサイド情報を発生するためのパラメトリックサイド情報発生器93を備えている。
【0067】
図2Bは、別の実施形態による、1つまたは複数の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。
図2Bのエンコーダは、さらに、1つまたは複数の変換されたオーディオオブジェクト信号を得るために、1つまたは複数の入力されたオーディオオブジェクト信号を時間領域から時間−周波数領域へ変換するための変換ユニット92を備えている。
図2Bの実施形態において、パラメトリックサイド情報発生器93は、1つまたは複数の変換されたオーディオオブジェクト信号に基づいて第1のパラメトリックサイド情報および第2のパラメトリックサイド情報を発生するように構成されている。
【0068】
図2Cは、一実施形態による符号化されたオーディオ信号を示す。この符号化されたオーディオ信号は、1つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示すダウンミックス部分51と、少なくとも1つのオーディオオブジェクト信号に関する第1のパラメトリックサイド情報および少なくとも1つのオーディオオブジェクト信号に関する第2のパラメトリックサイド情報を備えるパラメトリックサイド情報部分52とを含む。第2のパラメトリックサイド情報の周波数分解能は、第1のパラメトリックサイド情報の周波数分解能より高い。
【0069】
図3は、一実施形態によるシステムを示す。本システムは、先に述べたようなエンコーダ61と、先に述べたようなデコーダ62とを備えている。
【0070】
エンコーダ61は、1つまたは複数の入力されたオーディオオブジェクト信号のダウンミックスを示す1つまたは複数のダウンミックス信号を得ることと、少なくとも1つのオーディオオブジェクト信号に関する第1のパラメトリックサイド情報を得ることと、少なくとも1つのオーディオオブジェクト信号に関する第2のパラメトリックサイド情報を得ることによって、1つまたは複数の入力されたオーディオオブジェクト信号を符号化するように構成され、第2のパラメトリックサイド情報の周波数分解能は第1のパラメトリックサイド情報の周波数分解能より高い。
【0071】
デコーダ62は、非混合オーディオ信号を、1つまたは複数のダウンミックス信号に基づいて、かつ第1のパラメトリックサイド情報および第2のパラメトリックサイド情報に基づいて発生するように構成されている。
【0072】
以下、後方互換性のある周波数分解能の改良を用いる強化SAOCについて説明する。
【0073】
図7は実施形態による後方互換性表現を示す。表現されるべき信号特性、例えばパワースペクトル包絡線71は、周波数に渡って変わる。周波数軸はパラメータ帯域に分割され、かつサブバンド毎に単一セットの信号記述子が割り当てられている。各周波数ビンに個々に記述子を割り当てる代わりにサブバンド毎の信号記述子を使用すれば、知覚品質を著しく失うことなく必要なサイド情報の量を節約することができる。標準SAOCにおいて、各帯域の単一記述子は、そのビン関連記述子の平均値72、73、74である。これはその大きさが信号特性に依存する情報の損失を招く場合がある、ということがわかる。
図7において、帯域K−1とKは極めて大きいエラーを有するが、帯域K+1はエラーが遙かに少ない。
【0074】
図8は、一実施形態による、真のパラメータ値と低分解能平均値との間の差曲線81、例えば、標準SAOCパラメータ化において失われる微細構造情報を示す。本明細書では、平均値72、73、74(例えば、標準SAOC記述子)と真の精密分解能値との間の差曲線81を、デコーダにおける精密分解能構成の近似を可能にする効率的な方式でパラメータ化しかつ送信するための方法について述べる。
【0075】
混合体における単一オブジェクトへエンハンスメント情報を追加することが、その特有のオブジェクトの結果的な品質を向上させるだけでなく、近似空間ロケーションを共有しかつ幾分かのスペクトルの重なりを有する全オブジェクトの品質をも向上させることに留意すべきである。
【0076】
以下、強化エンコーダを用いた後方互換性のある強化SAOC符号化、具体的には、後方互換性サイド情報部分および追加的なエンハンスメントを含むビットストリームを生成する強化SAOCエンコーダについて述べる。古い規格準拠のデコーダは単に追加データを無視するが、強化デコーダはこれを利用するような方法で追加される情報を標準SAOCビットストリームへ挿入することができる。既存の標準SAOCデコーダは、パラメトリックサイド情報(PSI:parametric side information)の後方互換性部分を復号してオブジェクトの復元を生成することはできるが、強化SAOCデコーダにより使用される追加情報はほとんどの場合に復元の知覚品質を向上させるものである。また、強化SAOCデコーダが限定的なリソース上で実行される場合、エンハンスメントは無視される可能性があっても、基本的な品質の復元は達成される。留意すべきことは、標準SAOCデコーダからの復元と、標準SAOC準拠のPSIのみを用いる強化SAOCデコーダからの復元とは異なるが、知覚的には極めて似ていると判断されることである(その相違は、標準SAOCビットストリームを強化SAOCデコーダで復号する場合と同類のものである。)。
【0077】
図9は、一実施形態による、エンハンスメントをもった後方互換性のあるビットストリームを提供する強化エンコーダを描いた高レベル図解である。
【0078】
本エンコーダは、1つまたは複数のダウンミックス信号を得るために、複数のオーディオオブジェクト信号をダウンミックスするためのダウンミックスユニット91を備えている。例えば、オーディオオブジェクト信号(例えば、個々の(オーディオ)オブジェクト)は、ダウンミックス信号を生成するために、ダウンミックスユニット91により使用される。ダウンミックス信号は、時間領域、周波数領域において発生してもよいが、外部から提供されるダウンミックスも使用することができる。
【0079】
PSI経路において、(オーディオ)オブジェクト信号は、変換ユニット92(例えば、1つまたは複数のt/f変換サブユニット921、922を備えた変換ユニット92)により、時間領域から周波数領域、時間−周波数領域またはスペクトル領域へ変換される。
【0080】
さらに、このエンコーダは、パラメトリックサイド情報を発生するためのパラメトリックサイド情報発生器93を備えている。
図9の実施形態において、パラメトリックサイド情報発生器93は、例えば、PSI抽出ユニット94とPSIスプリッタ95とを備えることができる。このような実施形態によれば、周波数領域において、PSIはPSI抽出ユニット94によって抽出される。次に、PSIスプリッタ95が、PSIを2つの部分、即ち任意の規格準拠SAOCデコーダで復号できる標準周波数分解能部分と、強化された周波数分解能部分とに分割する。強化された周波数分解能部分は、標準デコーダでは無視され、強化デコーダでは利用されるように、ビット・ストリーム・エレメント内に「隠されて」いてもよい。
【0081】
図10は、上述のエンコーダのパラメトリック経路を実装する、特定の一実施形態によるエンコーダを示すブロック図である。太黒字の機能ブロック(102、105、106、107、108、109)は、本発明による処理の主たるコンポーネントを示す。具体的には、
図10は、より有能なデコーダのための、エンハンスメントをもった後方互換性のあるビットストリームを生成する2段符号化を示すブロック図である。このエンコーダは、双方のデコーダバージョンで復号可能なPSIを生成するように構成されている。
図9の変換ユニット92は、
図10における過渡検出ユニット101、ウインドウシーケンス生成ユニット102およびt/f分析ユニット103によって実装されている。
図10における他のユニット104、105、106、107、108、109は、パラメトリックサイド情報発生器93を実装するものである(例えば、ユニット104、105、106、107、108、109は、PSI抽出ユニット94およびPSIスプリッタ95を組み合わせた機能を実装することができる)。
【0082】
まず、信号は分析フレームに細分され、分析フレームは次に周波数領域へ変換される。複数の分析フレームが固定長のパラメータフレームにグルーピングされる。固定長のパラメータフレームは、例えば、標準SAOCでは、16および32分析フレームの長さが一般的である。そのパラメータフレームの間は、信号特性は準定常に留まり、よって唯一のパラメータセットで特徴づけることができると想定される。信号特性がパラメータフレーム内で変わればモデリングエラーを被るので、より長いパラメータフレームは準定常の想定が満たされるようになる部分に細分することが有益であろう。このために、過渡検出が必要とされる。
【0083】
一実施形態において、変換ユニット92は1つまたは複数の入力されたオーディオオブジェクト信号を時間領域から時間−周波数領域へ変換するように構成されており、その変換は1つまたは複数の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号値を含む信号変換ブロックのウインドウ長さに依存する。変換ユニット92は、少なくとも1つのオーディオオブジェクト信号のうちの1つまたはそれ以上に過渡が存在するかどうかを示す過渡検出結果を決定するための過渡検出ユニット101を備えている。過渡は、少なくとも1つのオーディオオブジェクト信号のうちの1つまたはそれ以上における信号変化を示す。また、変換ユニット92は、さらに、ウインドウ長さを過渡検出結果に依存して決定するためのウインドウシーケンスユニット102を備えている。
【0084】
例えば、過渡は、入力される全てのオブジェクトから過渡検出ユニット101によって別々に検出することができ、それらのオブジェクトのうちの唯一のオブジェクトにおいて過渡事象が存在すれば、その位置がグローバルな過渡位置とされる。過渡位置の情報は適切なウインドウイングシーケンスを構成するために使用される。その構成は、例えば、次の論理に基づくことができる。
・デフォルトウインドウ長さ、即ちデフォルトの信号変換ブロックの長さを、例えば2048サンプルに設定する。
・パラメータフレームの長さを、例えば、50%の重なりをもった4つのデフォルトウインドウに対応する4096サンプルに設定する。パラメータフレームは、複数のウインドウを纏めてグルーピングし、ウインドウ毎に記述子を別々に有する代わりに、ブロック全体に単一の信号記述子セットが使用される。これにより、PSIの量を減らすことができる。
・過渡が検出されていなければ、デフォルトウインドウおよびパラメータフレーム全長を用いる。
・過渡が検出されれば、過渡の位置においてより優れた時間分解能を与えるようにウインドウイングを適合化する。
【0085】
ウインドウシーケンス生成ユニット102はウインドウイングシーケンスを構成する。同時に、ウインドウシーケンス生成ユニット102は1つまたは複数の分析ウインドウからパラメータサブフレームを生成することも行う。各サブセットが構成要素として分析され、サブブロック毎に唯一のPSIパラメータセットが送信される。標準SAOCと互換性のあるPSIを生成するために、規定のパラメータブロック長さが主たるパラメータブロック長さとして使用され、そのブロック内に位置決めされる可能な過渡がパラメータサブセットを規定する。
【0086】
構成されたウインドウシーケンスは、t/f分析ユニット103が実行する入力オーディオ信号の時間−周波数分析のために出力され、PSIの強化SAOCエンハンスメント部分において送信される。
【0087】
PSIは、オブジェクトレベル差(OLD)、オブジェクト間相関(IOC)およびエンコーダにおける個々のオブジェクトからダウンミックス信号を生成するために使用されるダウンミックス行列Dの情報の集合より成る。各パラメータセットは、パラメータが関連する時間領域を規定するパラメータ境界に関連づけられている。
【0088】
各分析ウインドウのスペクトルデータは、PSI推定ユニット104によって、標準SAOC部分のPSIを推定するために使用される。このPSIの推定は、複数個のスペクトルビンを標準SAOCのパラメトリック帯域へグルーピングし、かつこれらの帯域内のIOC、OLDおよび絶対オブジェクトエネルギー(NRG)を推定することによって行われる。標準SAOCの表記法におおまかに従えば、パラメータ化タイルにおける2つのオブジェクトスペクトルS
i(f,n)とS
j(f,n)の正規化積は、
と定義される。但し、行列
は、次式によって、フレームnにおけるF
nt/f表現ビンからBパラメトリック帯域へのマッピングを定義する。
【0089】
スペクトル分解能は、1つのパラメータブロック内のフレーム間で変わる可能性があり、よって、マッピング行列はデータを共通の分解能ベースに変換する。このパラメータ化タイルにおける最大オブジェクトエネルギーは、最大オブジェクトエネルギー
であるものとして定義される。この値を得れば、OLDは、次式のような正規化されたオブジェクトエネルギーであるものと定義される。
【0090】
最後に、IOCはクロスパワーから次式のように得ることができる。
【0091】
これにより、ビットストリームの標準SAOC互換部分の推定が完結する。
【0092】
粗パワースペクトル復元ユニット105は、OLDおよびNRGを用いてパラメータ分析ブロックにおけるスペクトル包絡線の概算を復元するように構成されている。包絡線は、そのブロックにおいて使用される最も高い周波数分解能で構成される。
【0093】
各分析ウインドウのオリジナルのスペクトルは、パワースペクトル推定ユニット106によって、そのウインドウにおけるパワースペクトルを計算するために使用される。
【0094】
得られたパワースペクトルは、周波数分解能適合化ユニット107によって、共通の高周波数分解能表現へ変換される。これは、例えば、パワースペクトル値の補間によって行うことができる。次に、パラメータブロック内のスペクトルを平均することにより、パワースペクトルの平均プロファイルが計算される。これは、パラメトリック帯域集計を省略するOLD推定にほぼ一致する。得られたスペクトルプロファイルは、精密分解能OLDとして考慮される。
【0095】
このエンコーダは、さらに、第2のパラメトリックサイド情報を得るべく、少なくとも1つのオーディオオブジェクト信号のうちの1つの複数のOLDの各々を前記少なくとも1つのオーディオオブジェクト信号のうちの1つのパワースペクトル復元の値で除することによって、複数の補正係数を推定するためのデルタ推定ユニット108を備えている。前記複数のOLDは、前記パワースペクトル復元より高い周波数分解能を有する。
【0096】
一実施形態において、デルタ推定ユニット108は、第2のパラメトリックサイド情報を得るために、複数の補正係数を、少なくとも1つのオーディオオブジェクト信号に依存する複数のパラメトリック値に基づいて推定するように構成されている。例えば、デルタ推定ユニット108は、補正係数「デルタ」を、例えば精密分解能OLDを粗いパワースペクトル復元で除することによって推定するように構成することができる。その結果、これは、各周波数ビンに対し、粗なスペクトルが与えられたとすると精密分解能OLDを近似するのに使用することのできる1つの(倍数的な)補正係数を与えるものである。
【0097】
最後に、デルタモデリングユニット109は、推定された補正係数を送信用に効率的にモデリングするように構成されている。このモデリングに関しては、線形予測係数(LPC:Linear Prediction Coefficient)を用いる1つの可能性について後述する。
【0098】
効果的には、強化されたSAOC修正は、ウインドウイングシーケンス情報と「デルタ」を送信するためパラメータとをビットストリームへ追加することからなる。
【0100】
図11は、標準ビットストリームと強化ビットストリームの双方を復号することができる、一実施形態による強化デコーダを描いた高レベルブロック図である。具体的には、
図11は、周波数分解能エンハンスメントを含むビットストリームだけでなく標準ビットストリームも復号することのできる強化デコーダを示す動作ブロック図である。
【0101】
入力されたダウンミックス信号は、t/f変換ユニット111によって周波数領域に変換される。
【0102】
推定された非混合行列(un-mixing matrix)は、非混合出力(un-mixing output)を生成するために、非混合ユニット(un-mixing unit)110により、変換されたダウンミックス信号へ適用される。
【0103】
さらに、非混合におけるオブジェクトのより優れた空間制御を可能にするために、非相関経路が含まれている。非相関ユニット119は変換されたダウンミックス信号に対して非相関を実行し、非相関の結果が非混合ユニット110へ供給される。非混合ユニット110は非相関結果を用いて非混合出力を生成する。
【0104】
非混合出力は、次に、f/t変換ユニット114によって時間領域に変換し戻される。
【0105】
パラメトリック処理経路は入力として標準分解能PSIを受け取ることができ、その場合、標準PSI復号ユニット115により生成される復号されたPSIは、周波数分解能変換ユニット116によって、t/f変換で使用される周波数分解能に適合化される。
【0106】
別の入力はPSIの標準周波数分解能部分を強化周波数分解能部分と結合させ、その計算には強化周波数分解能情報が含まれる。より詳細には、強化PSI復号ユニット117が、強化された周波数分解能を示す復号されたPSIを生成する。
【0107】
非混合行列発生器118が、周波数分解能変換ユニット116から受信した復号されたPSIに基づいて、または強化PSI復号ユニット117から受信した復号されたPSIに基づいて、非混合行列を生成する。非混合行列発生器118はレンダリング情報に基づいて非混合行列を生成することもできる。そのレンダリング情報は、例えばレンダリング行列に基づくものである。非混合ユニット110は、非混合行列発生器118により生成されるこの非混合行列を、変換されたダウンミックス信号に適用することによって非混合出力を生成するように構成されている。
【0108】
図12は
図11の強化PSI復号ユニット117の一実施形態を示すブロック図である。
【0109】
第1のパラメトリック情報は複数の第1のパラメータ値を含み、第2のパラメトリック情報は複数の第2のパラメータ値を含む。非混合情報決定器112は、周波数分解能変換サブユニット122と、コンバイナ124とを備えている。周波数分解能変換ユニット112は、追加的なパラメータ値を、例えば第1のパラメータ値を複製することによって生成するように構成され、第1のパラメータ値と追加的なパラメータ値はいっしょになって複数の第1の処理されたパラメータ値を形成する。コンバイナ124は、修正されたパラメトリック情報として複数の修正されたパラメータ値を得るために、第1の処理されたパラメータ値と第2のパラメータ値とを結合するように構成されている。
【0110】
一実施形態によれば、標準周波数分解能部分は復号サブユニット121によって復号され、周波数分解能変換サブユニット122によって、エンハンスメント部分により使用される周波数分解能に変換される。強化PSI復号サブユニット123により生成される復号されたエンハンスメント部分は、コンバイナ124によって変換された標準分解能部分と結合される。
【0111】
以下、可能な実装を有する2つの復号モードについてさらに詳述する。
【0112】
まず、強化デコーダによる標準SAOCビットストリームの復号について述べる。
【0113】
強化SAOCデコーダは、標準SAOCエンコーダからのビットストリームを高品質で復号できるように設計されている。復号はパラメトリック復元のみに限定され、残余ストリームの可能性は無視される。
【0114】
図13は、一実施形態による、復号プロセスを例示する強化SAOCデコーダによる標準SAOCビットストリームの復号を描いたブロック図である。太黒字の機能ブロック(131、132、133、135)が本発明による処理の主要部分を示す。
【0115】
非混合行列計算器131、時間補間器132およびウインドウ周波数分解能適合化ユニット133は、
図11の標準PSI復号ユニット115、周波数分解能変換ユニット116および非混合行列発生器118の各機能を実装したものである。ウインドウシーケンス発生器134およびt/f分析モジュール135は、
図11のt/f変換ユニット111を実装したものである。
【0116】
通常、基礎を成す時間−周波数表現の周波数ビンは、パラメトリック帯域にグルーピングされる。帯域の間隔はヒト聴覚系における臨界帯域のそれに似ている。さらに、複数のt/f表現フレームは、パラメータフレームにグルーピングすることができる。これらの動作は共に、モデリングの不正確さという犠牲を伴うが、必要とされるサイド情報の量を低減させる。
【0117】
SAOC標準において述べたように、OLDおよびIOCは、非混合行列G=ED
*Jを計算するために使用される。ここで、Eの要素は、
として定義され、オブジェクト相互相関行列に近似し、iとjはオブジェクト指数であり、J≒(DED
*)
-1である。非混合行列計算器131は非混合行列を計算するために使用することができる。
【0118】
非混合行列は、次に、時間補間器132によって、標準SAOCのように、先行フレームの非混合行列からパラメータフレームを経て推定値が到達するパラメータ境界まで線形補間される。これにより、結果的に、各時間/周波数分析ウインドウおよびパラメトリック帯域毎に非混合行列が生じる。
【0119】
非混合行列のパラメトリック帯域周波数分解能は、ウインドウ周波数分解能適合化ユニット133によって、その分析ウインドウにおける時間/周波数表現の分解能まで拡張される。時間フレームにおけるパラメトリック帯域bの補間された非混合行列がG(b)として定義される場合は、そのパラメトリック帯域内部の全ての周波数ビンに同じ非混合係数(un-mixing coefficient)が使用される。
【0120】
ウインドウシーケンス発生器134は、PSIからのパラメータセット領域情報を用いて、入力されたダウンミックスオーディオ信号を分析するための適切なウインドウイングシーケンスを決定するように構成されている。主たる要件は、そのPSIにパラメータセット境界が存在すれば、連続する分析ウインドウ間のクロスオーバーポイントがこれに一致しなければならないことである。ウインドウイングは各ウインドウ内のデータの周波数分解能(先に述べたように、非混合データ(un-mixing data)拡張に使用される)も決定する。
【0121】
ウインドウイングされたデータは、次に、t/f分析モジュール135により、適切な時間−周波数変換、例えば離散フーリエ変換(DFT:Discrete Fourier Transform)、複素修正離散コサイン変換(CMDCT:Complex Modified Discrete Cosine Transform)または奇積層離散フーリエ変換(ODFT:Oddly stacked Discrete Fourier Transform)を用いて周波数領域表現に変換される。
【0122】
最後に、非混合ユニット136は、ダウンミックス信号Xのスペクトル表現に、フレーム当たり周波数ビン当たりの非混合行列を適用して、パラメトリックレンダリングYを取得する。出力チャネルjは、ダウンミックスチャネルの線形結合
である。
【0123】
このプロセスによって達成できる品質は、ほとんどの目的に関して、標準SAOCデコーダによって達成される結果とは知覚的に区別不可能である。
【0124】
なお、これまでの記述は、個々のオブジェクトの復元に関するものであるが、標準SAOCにおいては、レンダリングは、非混合行列に含まれ、即ち、パラメトリック補間に含まれている。線形演算としては、演算の順序は問題ではないが、差分には注目すべきである。
【0125】
以下、強化デコーダによる強化SAOCビットストリームの復号について述べる。
【0126】
強化SAOCデコーダの主要な機能については、標準SAOCビットストリームの復号において既に述べた。本項では、PSIに導入される強化されたSAOCエンハンスメントを如何に用いれば、より高い知覚品質を達成できるか、について詳述する。
【0127】
図14は、一実施形態によるデコーダの主要な機能ブロックを描いたものであり、周波数分解能エンハンスメントの復号を示している。太黒字の機能ブロック(141、142、143)が本発明による処理の主要部分を示す。帯域上値拡張ユニット141、デルタ関数回復ユニット142、デルタ適用ユニット143、非混合行列計算器131、時間補間器132およびウインドウ周波数分解能適合化ユニット133は、
図11の強化PSI復号ユニット117および非混合行列発生器118の機能を実装する。
【0128】
図14のデコーダは非混合情報決定器112を備えている。とりわけ、非混合情報決定器112は、デルタ関数回復ユニット142と、デルタ適用ユニット143とを備えている。第1のパラメトリック情報は、少なくとも1つのオーディオオブジェクト信号、例えばオブジェクトレベル差値、に依存して、複数のパラメトリック値を含む。第2のパラメトリック情報は補正係数パラメータ化を含む。デルタ関数回復ユニット142は、補正係数パラメータ化を反転してデルタ関数を得るように構成されている。デルタ適用ユニット143は、非混合情報を決定するために、パラメトリック値、例えばオブジェクトレベル差値へデルタ関数を適用するように構成されている。一実施形態において、補正係数パラメータ化は複数の線形予測係数を含み、かつデルタ関数回復ユニット142は、複数の線形予測係数に依存して複数の補正係数を生成することにより、補正係数パラメータ化を反転するように構成され、かつ複数の補正係数に基づいてデルタ関数を生成するように構成されている。
【0129】
例えば、まず、帯域上値拡張ユニット141は、各パラメトリック帯域のOLDおよびIOC値を、エンハンスメントにおいて使用される周波数分解能、例えば1024ビンへ適合させる。これは、パラメトリック帯域に対応する周波数ビン上の値を複製することによって行われる。これにより、新しいOLD
およびIOC
が生じる。K(f,b)は、周波数ビンfのパラメトリック帯域bへの割当てを定義するカーネル行列である。
【0130】
これと並行して、デルタ関数回復ユニット142は、補正係数パラメータ化を反転して、拡張されたOLDおよびIOCと同じサイズのデルタ関数
を得る。
【0131】
次に、デルタ適用ユニット143が拡張されたOLD値にデルタを適用し、精密分解能OLD値が、
によって得られる。
【0132】
ある特定の実施形態において、非混合行列の計算は、例えば、非混合行列計算器131によって、標準SAOCビットストリームの復号と同様に、即ち、G(f)=E(f)D
*(f)J(f)により行うことができる。ここで、
およびJ(f)≒(D(f)E(f)D
*(f))
-1である。望むなら、レンダリング行列は、非混合行列G(f)へ乗算することができる。続いて、標準SAOCのように、時間補間器132による時間補間が行われる。
【0133】
各ウインドウ内の周波数分解能は、公称高周波数分解能とは異なる(低い)場合があることから、ウインドウ周波数分解能適合化ユニット133は、非混合行列をオーディオからのスペクトルデータの分解能に整合させ、これを適用可能にすべく適合化する必要がある。これは、例えば、周波数軸上の係数を適正な分解能へリサンプリングすることによって行なうことができる。あるいは、分解能が整数倍であれば、単に、高分解能データから、より低い分解能における1つの周波数ビンに対応する指数を平均することによって行なうことができる。
【0134】
ビットストリームからのウインドウイングシーケンス情報は、エンコーダにおいて使用されるものに対して完全に相補的な時間−周波数分析を達成するために使用することができ、または、ウインドウイングシーケンスは、標準SAOCビットストリームの復号において行われるように、パラメータ境界に基づいて構成することができる。そのためにウインドウシーケンス発生器134を使用することができる。
【0135】
次に、ダウンミックスオーディオの時間−周波数分析が、t/f分析モジュール135により、所定のウインドウを用いて実行される。
【0136】
最後に、時間補間されかつ(おそらくは)スペクトル的に適合化された非混合行列が、非混合ユニット136によって、入力オーディオの時間−周波数表現に適用され、出力チャネルjを次式のように入力チャネルの線形結合として得ることができる。
【0137】
以下、実施形態の特定の態様について述べる。
【0138】
一実施形態において、
図10のデルタモデリングユニット109は、複数の補正係数(デルタ)から、線形予測を実行することによって線形予測係数を決定するように構成されている。
【0139】
次に、このような実施形態による、線形予測係数(LPC:linear prediction coefficient)を用いる補正係数、デルタ、および可能なモデリング代替物の推定プロセスについて述べる。
【0140】
まず、一実施形態によるデルタ推定について述べる。
【0141】
推定への入力は、パラメータブロック上の推定された精密分解能パワー・スペクトル・プロファイル、およびOLDおよびNRGパラメータに基づくパワー・スペクトル・プロファイルの粗な復元より成る。精密パワー・スペクトル・プロファイルは、次のようにして計算される。S
i(f,n)をi番目のオブジェクトの複素スペクトルとし、fは周波数ビン指数、n(0≦n≦N−1)は長さNのモデリングブロックにおける時間ウインドウ指数とすると、精密分解能パワースペクトルは次式になる。
【0142】
粗な復元は(逆量子化された)OLDおよびNRGから、
によって計算される。但し、K(f,b)は周波数ビンfのパラメトリック帯域bへの割当てを規定するカーネル行列である。
【0143】
本項では、例として、異なるスペクトル特性を有する2つの信号を用いる。第1の信号は事実上平坦なスペクトル(スペクトル傾斜を無視)を有する(ピンク)ノイズであり、第2の信号は高い調性をもつ楽器グロッケンシュピールからのトーン、即ち尖ったスペクトルである。
【0144】
図15はトーン信号とノイズ信号のパワースペクトルを示す。即ちそれらの高分解能パワースペクトル(「オリジナル」)と、OLDおよびNRGに基づく対応する粗な復元(「復元」)である。具体的には、
図15は双方の信号の精密および粗なパワースペクトルを示す。より具体的には、オリジナルのトーン信号のパワースペクトル151、オリジナルのノイズ信号のパワースペクトル152、トーン信号の復元されたパワースペクトル153およびノイズ信号の復元されたパワースペクトル154が示されている。なお、下記の図において、信号153と54に関しては、完全に復元された信号ではなく、スケール因子(復元されたパワー・スペクトル・パラメータ)が略示されている。
【0145】
精密値と粗な値との間の平均差は、ノイズ信号の場合には比較的小さいが、トーン信号ではかなり大きいことがすぐに分かる。これらの差は、全てのオブジェクトのパラメトリック復元を知覚的に劣化させる。
【0146】
補正係数は、次式のように、精密分解能曲線を粗な復元曲線で除することによって得られる。
【0147】
これにより、精密分解能曲線を得るために粗な復元に適用することのできる倍数因子を回復することができる。
【0148】
図16は、双方の信号例の修正、具体的には、信号例の補正係数を示す。具体的には、トーン信号151の補正係数とノイズ信号152の補正係数が示されている。
【0149】
以下、デルタモデリングについて述べる。
【0150】
補正曲線Cは周波数軸上の1つまたは複数のモデリングブロックへ割り当てられる。自然な代替方法は、標準SAOC PSIに使用されるものと同じパラメータ帯域定義を用いることである。次に、モデリングは以下のステップによってブロック毎に行われる。
【0151】
1.スペクトル補正係数Cが、逆離散フーリエ変換(IDFT:Inverse Discrete Fourier Transform)によって時間領域自己相関シーケンスに変換される。
モデリングブロックの長さが奇数である場合、変換されるべき擬似スペクトルは次式のように定義される。
モデリングブロックが偶数である場合、擬似スペクトルは次式のように定義される。
よって、変換結果は、r(t)=IDFT(R(l))となる。
【0152】
2.結果は前半部分へ切り詰め(truncate)られる。
【0153】
3.自己相関シーケンスr(t)にレビンソン−ダービン再帰法(Levinson-Durbin recursion)が適用され、増加するモデル順に反射係数kおよびモデリング残差分散eが取得される。
【0154】
4.オプション:モデリング残差分散eに基づいて、モデリング全体を省略するか(利得が得られなかったため)、適切な順序を選択する。
【0155】
5.モデルパラメータが送信用に量子化される。
【0156】
各t−fタイル毎にデルタを送信すべきかどうかについては、t−fタイル毎に決定することができる(標準パラメトリック帯域は周波数領域を画定し、パラメータブロックは時間領域を画定する)。決定は、例えば、下記に基づいて行うことができる。
・デルタモデリングの残余エネルギーを調べる。モデリングの残余エネルギーが所定のしきい値を超えていなければ、エンハンスメント情報は送信されない。
・オーディオオブジェクト信号の精密分解能モデルパラメトリック記述、デルタモデリングまたはパワースペクトル包絡線の「尖り度(spikiness)」/非平坦性を測定する。測定値に依存して、精密なスペクトル分解能を記述するデルタ・モデリング・パラメータは、オーディオオブジェクト信号のパワースペクトル包絡線の非平坦性次第で送信され、もしくは送信されず、またはとりあえず計算される。適切な目安は、例えば、スペクトル波高率、スペクトル平坦性度(spectral flatness measure)または最小−最大比である。
・復元の知覚品質を得る。エンコーダは複数のエンハンスメントについてそれらがある場合とない場合とでレンダリング復元を計算し、各エンハンスメントの品質利得を決定する。次に、モデリングの複雑さと品質利得との間の適切な均衡点を決め、示されたエンハンスメントを送信する。例えば、決定には、信号に対して知覚的に重み付けされた歪の比または強化された知覚度(perceptual measure)を用いることができる。決定は、(粗な)パラメトリック帯域毎に別々に(即ち、局部的な品質最適化)行うことができるが、隣接する帯域が時間−周波数係数の時間変動操作および周波数変動操作に起因する信号歪の原因になることを考慮して(即ち、グローバルな品質最適化)行うこともできる。
【0157】
次に、デルタ復元および適用について述べる。
【0158】
補正曲線の復元は、下記のステップを辿る。
【0159】
1.受信した反射係数k(長さL−1のベクトル)が、擬似コード構文(但し、関数X=diag(x)は行列Xを出力し、Xの対角線要素はxであり、かつXの非対角線要素は全てゼロである)において、逆量子化され、かつ長さLのIIRフィルタ係数aに変換される。
【0160】
2.結果的なフィルタaの周波数応答h(n)が、
によって計算される。但し、iは、虚数単位
である。
【0161】
3.これから、補正関数復元が
によって得られる。
【0162】
4.応答が、単一平均を有するように正規化され、よって、モデリングされたブロックの全体エネルギーは変わらない。
【0163】
5.補正関数が、精密分解能
へ拡張されているOLDに適用される。ただし、絶対エネルギーの場合、後の計算においてキャンセルされることから、これは無視できる。
【0164】
図17は、双方の信号例のオリジナルの補正係数と低次元LPCベースの近似(モデリング後)を示す。具体的には、トーン信号のオリジナルの補正係数151、オリジナルのノイズ信号152、トーン信号の復元された補正係数推定153およびノイズ信号の復元された補正係数推定154が示されている。
【0165】
図18は、モデリングされた補正係数を
図15に示す粗な復元に適用した結果を示す。具体的には、オリジナルのトーン信号のパワースペクトル151、オリジナルのノイズ信号のパワースペクトル152、トーン信号の復元されたパワースペクトル推定153およびノイズ信号の復元されたパワースペクトル推定154が示されている。これらの曲線、特に、モデリングされた補正係数を適用した後の復元された精密分解能パワースペクトルは、OLDの代わりに後続計算に用いることができる。ここでは、比較をより明らかにするために、絶対エネルギー情報を含んでいるが、この情報なしでも同じ原理が働く。
【0166】
本発明による方法および装置は従来技術のSAOC処理における前述の欠点を軽減するものであって、フィルタバンクまたは時間−周波数変換を高い周波数分解能で用い、かつ追加情報の効率的なパラメータ化を提供する。さらに、標準SAOCデコーダが情報の後方互換性部分を整合的な標準SAOCエンコーダを用いて達成されるものに比肩し得る達成可能な品質で復号することができ、しかも強化されたデコーダでもより良い知覚品質のために追加情報を利用できるような方法で、この追加情報を送信することができる。最も重要なことには、追加情報は、送信または蓄積を効率的にするために極めてコンパクトに表現できるということである。
【0167】
提示した本発明方法は、あらゆるSAOCスキームに適用することができる。本方法は、現在および未来のあらゆるオーディオフォーマットと組み合わせることができる。本発明方法は、スペクトルサイド情報の2レベル表現によって、SAOCアプリケーションにおける強化された知覚的オーディオ品質を可能にする。
【0168】
この考えは、OLDの概念をチャネルレベル差(CLD:channel-level difference)で置換する場合のMPEGサラウンドに関連しても使用できる。
【0169】
これまでに述べたように、オーディオエンコーダ、オーディオ符号化方法または関連のコンピュータプログラムが提供される。さらに、これまでに述べたように、オーディオエンコーダ、オーディオ復号方法または関連のコンピュータプログラムが提供される。さらに、これまでに述べたように、符号化されたオーディオ信号、または符号化されたオーディオ信号を格納している記憶媒体が提供される。
【0170】
幾つかの態様は装置について記述されているが、これらの態様が対応する方法に関する記述でもあることは明らかであり、その場合、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップについて記述されている態様は、対応するブロック、アイテム、または対応する装置の特徴を記述するものでもある。
【0171】
本発明による分解された信号は、デジタル記憶媒体に格納することができ、または伝送媒体上、例えば無線伝送媒体上もしくはインターネット等の有線伝送媒体上で送信することができる。
【0172】
所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアに実装することができる。その実装は、個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する(または、協働することができる)電子的に読取り可能な制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ、を用いて実行することができる。
【0173】
本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの1つが実行されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な制御信号を有する非一時的データキャリアを含む。
【0174】
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができる。そのプログラムコードは、そのコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると本発明の方法のうちの1つを実行するように動作可能なものである。そのプログラムコードは、例えば、機械読取り可能キャリア上へ格納することができる。
【0175】
他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0176】
したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0177】
したがって、本発明方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録して備えるデータキャリア(または、デジタル記憶媒体もしくはコンピュータ読取り可能媒体)である。
【0178】
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0179】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成され、または適合化された処理手段、例えばコンピュータ、またはプログラマブル論理デバイスを含む。
【0180】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0181】
実施形態によっては、本明細書に記述されている方法の機能のうちの幾つか、または全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイが、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサと協働することができる。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。
【0182】
これまでに述べた実施形態は、本発明の原理を単に例示したものである。いうまでもなく、当業者である他の者には、本明細書に記述されている配置および詳細の修正および変形は明らかである。したがって、本発明は、添付の特許請求の範囲によってのみ限定されるものであり、本明細書において実施形態を記述しかつ説明するために提示された特有の詳細によって限定されるものではない。