(58)【調査した分野】(Int.Cl.,DB名)
ダウンミックス信号(X)とサイド情報(PSI)とからなるマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器であって、前記サイド情報は、少なくとも1つの時間/周波数領域(R(tR,fR))における少なくとも1つのオーディオオブジェクト(si)についてのオブジェクト特有サイド情報(PSIi)と、前記少なくとも1つの時間/周波数領域(R(tR,fR))における少なくとも1つのオーディオオブジェクト(si)についての前記オブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能(TFRh)を示すオブジェクト特有時間/周波数分解能情報(TFRIi)と、を含み、
前記オーディオ復号器は、
前記少なくとも1つのオーディオオブジェクト(si)について、前記サイド情報(PSI)から前記オブジェクト特有時間/周波数分解能情報(TFRIi)を決定するよう構成されたオブジェクト特有時間/周波数分解能決定部(110)と、
前記オブジェクト特有時間/周波数分解能情報(TFRIi)に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号(X)から前記少なくとも1つのオーディオオブジェクト(si)を分離するよう構成されたオブジェクト分離部(120)と、を含み、
前記オブジェクト特有サイド情報は、前記少なくとも1つの時間/周波数領域(R(tR,fR))における前記少なくとも1つのオーディオオブジェクト(si)についての第1のオブジェクト特有サイド情報と、前記少なくとも1つの時間/周波数領域(R(tR,fR))における前記少なくとも1つのオーディオオブジェクト(si)についての第2のオブジェクト特有サイド情報とを含み、前記第1のオブジェクト特有サイド情報の時間/周波数分解能は周波数次元において前記第2のオブジェクト特有サイド情報の時間/周波数分解能よりも微細であり、
前記第2のオブジェクト特有サイド情報は前記少なくとも1つの時間/周波数領域(R(tR,fR))内では一定であり、又は
前記第1のオブジェクト特有サイド情報は、前記第2のオブジェクト特有サイド情報と前記少なくとも1つのオーディオオブジェクト(si)との差を記述している、オーディオ復号器。
ダウンミックス信号(X)とサイド情報(PSI)とからなるマルチオブジェクト・オーディオ信号を復号化する方法であって、前記サイド情報は、少なくとも1つの時間/周波数領域(R(tR,fR))における少なくとも1つのオーディオオブジェクト(si)についてのオブジェクト特有サイド情報(PSIi)と、前記少なくとも1つの時間/周波数領域(R(tR,fR))における前記少なくとも1つのオーディオオブジェクト(si)についての前記オブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能(TFRh)を示すオブジェクト特有時間/周波数分解能情報(TFRIi)と、を含み、
前記方法は、
前記少なくとも1つのオーディオオブジェクト(si)について、前記サイド情報(PSI)から前記オブジェクト特有時間/周波数分解能情報(TFRIi)を決定するステップと、
前記オブジェクト特有時間/周波数分解能情報(TFRIi)に従って前記オブジェクト特有サイド情報を使用して、前記ダウンミックス信号(X)から前記少なくとも1つのオーディオオブジェクト(si)を分離するステップと、を含み、
前記オブジェクト特有サイド情報は、前記少なくとも1つの時間/周波数領域(R(tR,fR))における前記少なくとも1つのオーディオオブジェクト(si)についての第1のオブジェクト特有サイド情報と、前記少なくとも1つの時間/周波数領域(R(tR,fR))における前記少なくとも1つのオーディオオブジェクト(si)についての第2のオブジェクト特有サイド情報とを含み、前記第1のオブジェクト特有サイド情報の時間/周波数分解能は周波数次元において前記第2のオブジェクト特有サイド情報の時間/周波数分解能よりも微細であり、
前記第2のオブジェクト特有サイド情報は前記少なくとも1つの時間/周波数領域(R(tR,fR))内では一定であり、又は
前記第1のオブジェクト特有サイド情報は、前記第2のオブジェクト特有サイド情報と前記少なくとも1つのオーディオオブジェクト(si)との差を記述している、
方法。
【発明を実施するための形態】
【0026】
図1は、あるSAOC符号器10及びSAOC復号器12の全体的な構成を示す。SAOC符号器10はN個の入力オブジェクト、即ちオーディオ信号s
1〜s
Nを受信する。具体的には、符号化10は、オーディオ信号s
1〜s
Nを受信してそれらをダウンミックス信号18へとダウンミックスするダウンミキサ16を含む。代替的に、そのダウンミックスは外部的に提供されてもよく(「アーティスティック・ダウンミックス」)、そのシステムは、その提供されたダウンミックスが計算されたダウンミックスと一致するように、追加的サイド情報を推定してもよい。
図1において、ダウンミックス信号はP−チャネルの信号として示されている。従って、モノラル(P=1)、ステレオ(P=2)又はマルチチャネル(P>=2)の如何なるダウンミックス信号構成も考慮対象となる。
【0027】
ステレオダウンミックスの場合、ダウンミックス信号18のチャネルはL0及びR0と記載され、モノラルダウンミックスの場合、ダウンミックスは単にL0と記載される。SAOC復号器12が個別のオブジェクトs
1〜s
Nを復元できるようにするため、サイド情報推定部17は、SAOC復号器12に対してSAOCパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベル差(OLD)、オブジェクト間クロス相関パラメータ(IOC)、ダウンミックスゲイン値(DMG)、及びダウンミックスチャネル・レベル差(DCLD)を含む。SAOCパラメータを含むサイド情報20は、ダウンミックス信号18と共に、SAOC復号器12によって受信されるべきSAOC出力データストリームを形成する。
【0028】
SAOC復号器12はアップミキサを含み、そのアップミキサはダウンミックス信号18及びサイド情報20を受信して、任意のユーザー選択されたチャネルのセット
に対してオーディオ信号s
1〜s
Nを復元しかつレンダリングするが、このときレンダリングはSAOC復号器12に入力されるレンダリング情報26によって規定されている。
【0029】
オーディオ信号s
1〜s
Nは、符号器10に対し、例えば時間ドメイン又はスペクトルドメインなど、如何なる符号化ドメインにおいて入力されてもよい。オーディオ信号s
1〜s
Nが符号器10に対して時間ドメインで、例えばPCM符号化された状態で入力される場合、符号器10は、例えばハイブリッドQMFバンクのようなフィルタバンクを使用してそれら信号をスペクトルドメインへと変換してもよく、そのスペクトルドメインにおいては、オーディオ信号は、異なるスペクトル部分に関連する複数のサブバンドの中に特定のフィルタバンク分解能で表現される。既にオーディオ信号s
1〜s
Nが符号器10によって求められる表現で存在している場合には、符号器10はスペクトル分解を実行する必要がない。
【0030】
図2は、上述したスペクトルドメインにおけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表現されている。各サブバンド信号30
1〜30
Kは、小さなボックス32で示されたサブバンド値のシーケンスを含む。図から分かるように、連続的なフィルタバンク時間スロット34の各々について、各サブバンド30
1〜30
Kが正に1つのサブバンド値32を含むように、サブバンド信号30
1〜30
Kのサブバンド値32は、時間的に互いに同期している。周波数軸36によって示されるように、サブバンド信号30
1〜30
Kは異なる周波数領域と関連付けられており、時間軸38によって示されるように、フィルタバンク時間スロット34は時間的に連続して配置されている。
【0031】
上述したように、サイド情報抽出部17は、入力オーディオ信号s
1〜s
NからSAOCパラメータを計算する。現在構築されているSAOC標準によれば、符号器10はこの計算をある時間/周波数分解能で実行するが、その分解能は、フィルタバンク時間スロット34及びサブバンド分解によって決定されたオリジナルの時間/周波数分解能と比較してある量だけ低減されてもよく、このある量はサイド情報20の中で復号器側へと信号伝達されている。連続的なフィルタバンク時間スロット34のグループは、SAOCフレーム41を形成してもよい。また、SAOCフレーム41内のパラメータ帯域の数は、サイド情報20の中で伝達される。その結果、時間/周波数ドメインは、
図2で破線42により例示するような時間/周波数タイルへと分割される。
図2において、パラメータ帯域は同様に、時間/周波数タイルの規則的な配列が得られるように、様々に示されたSAOCフレーム41内に分散される。しかし、一般的に、パラメータ帯域は、それぞれのSAOCフレーム41内のスペクトル分解能に係る異なる必要事項に依存して、1つのSAOCフレーム41から後続のフレームへと変化し得る。さらに、SAOCフレーム41の長さもまた変化し得る。結果的に、時間/周波数タイルの配列は、不規則ともなり得る。しかしながら、特定のSAOCフレーム41内の時間/周波数タイルは、典型的には同一の持続時間を有し、時間方向においては整列されている。即ち、SAOCフレーム41内の全てのt/fタイルは、所与のSAOCフレーム41の開始時において開始し、SAOCフレーム41の終了時において終了する。
【0032】
サイド情報抽出部17は、以下の数式に従ってSAOCパラメータを計算する。特に、サイド情報抽出部17は、各オブジェクトiについてのオブジェクトレベル差を次式で計算する。
[数1]
ここで、合計とインデックスn及びkとはそれぞれ、ある時間/周波数タイル42に帰属する全ての時間的インデックス34と全てのスペクトルインデックス30を表すものであり、SAOCフレーム(又は処理しつつある時間スロット)についてのインデックスlとパラメータ帯域についてのインデックスmとによって参照される。これにより、1つのオーディオ信号又はオブジェクトiの全てのサブバンド値x
iのエネルギーが合計され、かつ全てのオブジェクト又はオーディオ信号の間のそのタイルの最高エネルギー値へと正規化される。
【0033】
更に、SAOCサイド情報抽出部17は、異なる入力オブジェクトs
1〜s
Nのペアの対応する時間/周波数タイルの類似性尺度を計算することができる。SAOCダウンミキサ16が入力オブジェクトs
1〜s
Nの全てのペア間の類似性尺度を計算してもよいが、ダウンミキサ16はまた、通常のステレオチャネルの左又は右のチャネルを形成するオーディオオブジェクトs
1〜s
Nに対して、その類似性尺度の信号伝達を抑制し又はその類似性尺度の計算を制限してもよい。いずれの場合でも、その類似性尺度はオブジェクト間クロス相関パラメータ
と称される。その計算は以下の通りである。
[数2]
ここでも、インデックスn及びkは、ある時間/周波数タイル42に帰属する全てのサブバンド値を代表するものであり、iとjとはオーディオオブジェクトs
1〜s
Nのあるペアを示している。
【0034】
オブジェクトs
1〜s
Nの各々に適用されるゲインファクタを使用して、ダウンミキサ16がオブジェクトs
1〜s
Nをダウンミックスする。つまり、ゲインファクタD
iがオブジェクトiに適用され、次に、そのように重み付けられたオブジェクトs
1〜s
Nの全てが合計されて、モノラルダウンミックス信号が得られる。これは
図1内ではP=1の場合として例示されている。2チャネルダウンミックス信号の場合の他の実例として、
図1内のP=2の場合となるが、ゲインファクタD
1,iがオブジェクトiに対して適用され、次に、そのようにゲイン増幅されたオブジェクトの全てが合計されて、左ダウンミックスチャネルL0が得られ、また、ゲインファクタD
2,iがオブジェクトiに対して適用され、次に、そのようにゲイン増幅されたオブジェクトが合計されて、右ダウンミックスチャネルR0が得られる。マルチチャネル・ダウンミックス(P>=2)の場合にも、これと同様の処理が適用されることになる。
【0035】
このダウンミックス規定は、ダウンミックスゲインDMG
iによって、またステレオダウンミックス信号の場合には、ダウンミックスレベル差DCLD
iによって、復号器側に信号伝達される。
【0036】
ダウンミックスゲインは以下のように計算される。
[数3]
ここで、εは10
-9のような小さな数である。
【0037】
DCLD
sについては、以下の数式が適用される。
[数4]
【0038】
標準的モードにおいて、ダウンミキサ16は、モノラルダウンミックスに関しては次式
[数5]
により、ステレオダウンミックスに関しては次式
[数6]
により、それぞれダウンミックス信号を生成する。
【0039】
このように、上述の数式において、パラメータOLD及びIOCはオーディオ信号の関数であり、パラメータDMG及びDCLDはDの関数である。ここで、Dは時間的に可変であり得ることにも注意されたい。
【0040】
このように、標準的モードにおいて、ダウンミキサ16は、全てのオブジェクトs
1〜s
Nを優先順位なしで、即ち全てのオブジェクトs
1〜s
Nを平等に、ミキシングする。
【0041】
復号器側において、アップミキサは、ダウンミックス処理の逆と、行列R(文字的には時にはAとも称される)により表現される「レンダリング情報」26の実行とを、1つの計算ステップにおいて実行する。即ち、2チャネルダウンミックスの場合には、次式
[数7]
を実行するが、ここで、行列EはパラメータOLD及びIOCの関数である。行列Eはオーディオオブジェクトs
1〜s
Nの推定された共分散行列である。現状のSAOCの構成において、推定された共分散行列Eの計算は、典型的にはSAOCパラメータの時間/周波数分解能において、即ち、各(l,m)について実行される。そのため、推定された共分散行列はE
l,mと記述され得る。推定された共分散行列はE
l,mは、サイズN×Nの大きさであり、その係数は次式で定義される。
[数8]
【0042】
このように、次式のような行列E
l,mは、
[数9]
その対角線に沿って、オブジェクトレベル差を有する。即ちi=jのとき
となる。なぜなら、i=jのとき
となるからである。その対角線の外側には、推定された共分散行列Eは、オブジェクト間クロス相関尺度
を用いて重み付けられたオブジェクトi及びjのそれぞれのオブジェクトレベル差の幾何平均をそれぞれ表現する行列係数を有する。
【0043】
図3は、SAOC符号器10の一部としてのサイド情報推定部(SIE)の実例について、1つの可能な構成の原理を示す。SAOC符号器10は、ミキサ16とサイド情報推定部SIEとを含む。SIEは、概念的には2つのモジュールから構成される。つまり、各信号の短時間ベースのt/f表現(例えばSTFT又はQMF)を計算するための1つのモジュールがあり、その計算された短時間t/f表現は、第2のモジュール、即ちt/f選択的サイド情報推定モジュール(t/f−SIE)へと入力される。t/f−SIEは、各t/fタイルについてサイド情報を計算する。現状のSAOC構成においては、時間/周波数変換は固定的であり、全てのオーディオオブジェクトs
1〜s
Nについて同一である。さらに、SAOCパラメータは、全てのオーディオオブジェクトについて同一でありかつ全てのオーディオオブジェクトs
1〜s
Nについて同一の時間/周波数分解能を有する、SAOCフレームにわたって決定されている。従って、ある場合には細密な時間分解能であり、他の場合には細密なスペクトル分解能であるオブジェクト特有の必要項目を無視している。
【0044】
現状のSAOC概念の幾つかの制限を以下に説明する。サイド情報に関連するデータの量を比較的小さくするために、異なるオーディオオブジェクトのためのサイド情報が、それらオーディオオブジェクトに対応している入力信号の複数の時間スロット及び複数の(ハイブリッド)サブバンドにわたって伸びる時間/周波数領域について、好ましくは粗い方法で決定される。上述したように、使用されるt/f表現が、混合信号(ダウンミックス信号)から分離されるべきオブジェクト信号の時間的又はスペクトル的特徴に対し、各処理ブロック(即ちt/f領域又はt/fタイル)において適応されていない場合には、復号器側で観測される分離性能が最適になり得ないことがある。オーディオオブジェクトの調性部分とオーディオオブジェクトの過渡部分とについてのサイド情報が、現時点のオブジェクト特性に関係なく、同じ時間/周波数タイリングに対して決定されかつ適用される。その結果、典型的には、主に調性のオーディオオブジェクト部分についてのサイド情報が幾分粗すぎるスペクトル分解能で決定されることになり、また、主に過渡オーディオオブジェクト部分についてのサイド情報が幾分粗すぎる時間分解能で決定されることになる。同様に、復号器内でこのような非適応型のサイド情報を適用することは、最適とは言えないオブジェクト分離の結果であって、例えばスペクトル的粗さ及び/又は可聴のプリエコーやポストエコーの形態を有するようなオブジェクトクロストークによる、障害を受けた結果をもたらす。
【0045】
復号器側における分離性能を向上させる目的で、復号器又は復号器に対応する方法が、復号器入力信号(サイド情報及びダウンミックス)を処理するために使用されるt/f表現を、分離されるべき所望の目標信号の特徴に従って個別に適応させ得るようにすることは、望ましいことである。各目標信号(オブジェクト)のために、例えば使用可能な表現の所与のセットから、処理及び分離に関して最適なt/f表現が個別に選択される。そのため復号器は、所与のタイムスパン及び所与のスペクトル領域において、各個別のオブジェクトのために使用されるべきt/f表現を信号伝達する、サイド情報によって駆動されることになる。この情報は符号器において計算され、SAOC内で既に伝送されているサイド情報に追加して伝達される。
【0046】
本発明は、オブジェクト信号の各々について最適な個別のt/f表現を示す情報によって補強されたサイド情報を計算する、符号器における強化されたサイド情報推定部(Enhanced Side Information Estimator)(E−SIE)に関するものである。
【0047】
本発明は更に、受信端における(仮想の)強化されたオブジェクト分離部(E−OS)に関する。そのE−OSは、次に各オブジェクトの推定のために使用される実際のt/f表現を信号伝達する、追加的な情報を使用する。
【0048】
E−SIEは、2つのモジュールを含み得る。1つのモジュールは、各オブジェクト信号についてH個までのt/f表現を計算し、それら表現は時間及びスペクトル分解能において異なり、且つ次の要件を満たす。即ち、これら領域内の信号コンテンツが、H個のt/f表現の何れによっても記述され得るように、時間/周波数−領域R(t
R,f
R)が定義され得る。
図5は、H個のt/f表現の実例についての概念を示し、また、2つの異なるt/f表現によって表現される1つのt/f領域R(t
R,f
R)を示す。t/f領域R(t
R,f
R)内の信号コンテンツは、高いスペクトル分解能と低い時間分解能(t/f表現#1)を用いるか、高い時間分解能と低いスペクトル分解能(t/f表現#2)を用いるか、又は、時間分解能とスペクトル分解能の他の何れかの組合せ(t/f表現#H)を用いるかして表現されることができる。可能なt/f表現の個数は制限されていない。
【0049】
このように、複数のオーディオオブジェクト信号s
iをダウンミックスX及びサイド情報PSIへと符号化するオーディオ符号器が提供される。オーディオ符号器は、
図4に概略的に示す強化されたサイド情報推定部E−SIEを含む。強化されたサイド情報推定部E−SIEは複数のオーディオオブジェクト信号s
iを、少なくとも第1の時間/周波数分解能TFR
1(第1の時間/周波数離散化)を使用して第1の複数の対応する変換済み信号s
1,1(t/f)…s
N,1(t/f)へと変換し、かつ少なくとも第2の時間/周波数分解能TFR
2(第2の時間/周波数離散化)を使用して第2の複数の対応する変換済み信号s
1,2(t/f)…s
N,2(t/f)へと変換するよう構成された、時間/周波数変換器52を含む。幾つかの実施形態において、時間/周波数変換器52は3つ以上の時間/周波数分解能TFR
1〜TFR
Hを使用するよう構成されてもよい。強化されたサイド情報推定部(E−SIE)は、サイド情報計算及び選択モジュール(SI−CS)54を更に含む。そのサイド情報計算及び選択モジュール(
図6参照)は、1つのサイド情報決定部(t/f−SIE)又は複数のサイド情報決定部55−1…55−Hであって、第1の複数の対応する変換形態s
1,1…s
N,1(t/f)のための第1のサイド情報と、第2の複数の対応する変換形態s
1,2…s
N,2(t/f)のための第2のサイド情報と、を少なくとも決定するよう構成されたサイド情報決定部を更に含み、第1及び第2のサイド情報は、ある時間/周波数領域R(t
R,f
R)における複数のオーディオオブジェクト信号s
iの相互関係を、第1及び第2の時間/周波数分解能TFR
1,TFR
2においてそれぞれ示している。複数のオーディオオブジェクト信号s
iの相互関係は、例えば異なる周波数帯域におけるオーディオ信号の相対的エネルギー及び/又はオーディオ信号間の相関度に関連してもよい。サイド情報計算及び選択モジュール54は、各オーディオオブジェクト信号s
iについて、少なくとも第1及び第2のサイド情報からある適性基準に基づいて1つのオブジェクト特有サイド情報を選択するよう構成された、サイド情報選択部(SI−AS)56をさらに含み、この適性基準は、オーディオオブジェクト信号s
iを時間/周波数ドメインで表現するための少なくとも第1又は第2の時間/周波数分解能のある適性を示している。次に、オブジェクト特有サイド情報は、オーディオ符号器によって出力されるサイド情報PSIの中に導入される。
【0050】
t/f面のt/f領域R(t
R,f
R)内へのグルーピングは、
図5に示すように必ずしも等距離間隔で行われる必要がない点に注意されたい。領域R(t
R,f
R)内へのグルーピングは、例えば知覚的に適応されるべく非均一であり得る。そのグルーピングはまた、SAOCのような現存するオーディオオブジェクト・コーディングスキームと協調することができ、強化されたオブジェクト推定能力との後方互換性を持つコーディングスキームを可能にすることができる。
【0051】
t/f分解能の適応は、異なるオブジェクトに対して異なるパラメータ・タイリングを特定することに限らない。SAOCスキームが基礎とする変換(即ち、典型的には現状技術のシステムにおいてSAOC処理のために使用される通常の時間/周波数分解能により提供される)はまた、個別の目標オブジェクトに対してより良好に適合するよう修正され得る。この点は、例えばSAOCスキームが基礎としている通常の変換によって提供されるものよりも高いスペクトル分解能が必要される場合、特に有益である。MPEG SAOCの実例の場合、raw分解能は(ハイブリッド)QMFバンクの(通常の)分解能に限られる。本発明の処理によれば、スペクトル分解能を増大させることができるが、しかしその代償として幾分かの時間分解能が処理の中で失われる。これは、第1フィルタバンクの出力に対して適用される所謂(スペクトル的)ズーム変換を使用して達成される。概念的には、幾つかの連続的なフィルタバンク出力サンプルが1つの時間ドメイン信号として扱われ、それに対して第2の変換が適用されて(ただ1つの時間スロットを有する)対応する個数のスペクトルサンプルが取得される。ズーム変換は、(MPEG SAOCにおけるハイブリッド・フィルタステージと同様の)フィルタバンク、又はDFT若しくはComplex修正離散コサイン変換(CMDCT)のようなブロックベースの変換に基づくことができる。同様に、スペクトル分解能を犠牲にして時間分解能を増大させることもできる(時間的ズーム変換)。即ち、(ハイブリッド)QMFバンクの複数のフィルタの幾つかの同時発生的出力が1つの周波数ドメイン信号としてサンプリングされ、それに対して第2の変換が適用されて、(複数のフィルタのスペクトル領域をカバーするただ1つの大きなスペクトル帯域を有する)対応する個数の時間的サンプルが取得される。
【0052】
各オブジェクトについて、H個のt/f表現はミキシングパラメータと一緒に第2のモジュール、即ちサイド情報計算及び選択モジュールSI−CS内へと入力される。SI−CSモジュールは、オブジェクト信号の各々について、復号器においてオブジェクト信号を推定するために、H個のt/f表現のうちのどの表現がどのt/f領域R(t
R,f
R)に使用されるべきかを決定する。
図6はSI−CSモジュールの原理を詳細に示す。
【0053】
H個の異なるt/f表現の各々について、対応するサイド情報(SI)が計算される。例えば、SAOC内のt/f−SIEモジュールが利用され得る。計算されたH個のサイド情報データは、サイド情報査定及び選択モジュール(SI−AS)内へと入力される。各オブジェクト信号に関し、SI−ASモジュールは、信号混合からオブジェクト信号を推定する際の各t/f領域についての最適なt/f表現を決定する。
【0054】
通常のミキシングシーンパラメータの他に、SI−ASは、各オブジェクト信号及び各t/f領域について個別に選択されたt/f表現について言及するサイド情報を出力する。対応するt/f表現を示す追加的パラメータもまた出力されてもよい。
【0055】
各オブジェクト信号に対して最適なt/f表現を選択する2つの方法を以下に説明する。
【0056】
1.ソース推定に基づくSI−AS:各オブジェクト信号は、H個のt/f表現に基づいて計算されたサイド情報データを用いて混合信号から推定され、各オブジェクト信号についてH個のソース推定がもたらされる。各オブジェクトに対し、各t/f領域R(t
R,f
R)内の推定品質がH個のt/f表現の各々についてソース推定性能尺度を用いて査定される。そのような尺度の簡易な実例は、達成された信号対歪み比(SDR)である。更に精緻な知覚的尺度もまた利用され得る。SDRは、オリジナル・オブジェクト信号又は混合信号が既知でなくても、SAOC内で定義されたパラメトリックサイド情報だけに基づいて効率的に実現可能である点に注意されたい。SAOCベースのオブジェクト推定の場合におけるSDRのパラメトリック推定の概念について、以下に説明する。各t/f領域R(t
R,f
R)に関し、最高のSDRをもたらすt/f表現がサイド情報の推定及び伝送と復号器側におけるオブジェクト信号の推定のために選択される。
【0057】
2.H個のt/f表現の分析に基づくSI−AS:各オブジェクトのために別々にH個のオブジェクト信号表現の各々のスパースネスが決定される。換言すれば、異なる表現の各々の中のオブジェクト信号のエネルギーが少数の値にどれだけよく集中しているか、又は全ての値にわたって拡散しているかが査定される。オブジェクト信号を最も粗く表現するt/f表現が選択される。信号表現のスパースネスは、例えば信号表現の平坦度又はピークネスを特徴付ける尺度を用いて査定され得る。そのような尺度の実例として、スペクトル平坦度(SFM)、クレストファクタ(CF)及びL0−ノルムが挙げられる。この実施形態によれば、適性基準は、所与のオーディオオブジェクトの少なくとも第1の時間/周波数表現と第2の時間/周波数表現(及び更なる時間/周波数表現もあり得る)のスパースネスに基づいてもよい。サイド情報選択部(SI−AS)は、オーディオオブジェクト信号s
iを最も粗く表現する時間/周波数表現に対応する少なくとも第1及び第2のサイド情報の中から前記サイド情報を選択するよう構成されている。
【0058】
SAOCベースのオブジェクト推定の場合のSDRのパラメトリック推定について、以下に説明する。
【0059】
記号の説明
S N個のオリジナル・オーディオオブジェクト信号の行列
X M個の混合信号の行列
D∈
o M×N ダウンミックス行列
X=DS ダウンミックスシーンの計算
S
est N個の推定されたオーディオオブジェクト信号の行列
【0060】
SAOCの中で、オブジェクト信号は概念的には次式を用いて混合信号から概念的に推定される:
[数10]
【0061】
XをDSで置き換えると、次式が得られる。
[数11]
【0062】
推定されたオブジェクト信号内のオリジナル・オブジェクト信号部分のエネルギーは、次式のように演算され得る。
[数12]
【0063】
推定された信号内の歪み項目は、次式により演算され得る。
[数13]
ここで、diag(E)はオリジナル・オブジェクト信号のエネルギーを含む対角行列を示している。次に、diag(E)をE
distに関連付けることで、SDRが計算され得る。あるt/f領域R(t
R,f
R)において目標ソースエネルギーに対して相対的なSDRを推定するために、歪みエネルギーの計算が領域R(t
R,f
R)内の各処理済みt/fタイルに対して実行され、目標エネルギー及び歪みエネルギーがそのt/f領域R(t
R,f
R)内の全てのt/fタイルにわたって集積される。
【0064】
従って、適性基準はソース推定に基づいてもよい。その場合、サイド情報選択部(SI−AS)56は、ダウンミックス信号Xと、第1及び第2の時間/周波数分解能TFR
1,TFR
2にそれぞれ対応する少なくとも第1情報及び第2情報とを使用して、複数のオーディオオブジェクト信号s
iの少なくとも選択されたオーディオオブジェクト信号を推定するソース推定部を更に含んでもよい。そのようにして、ソース推定部は、少なくとも第1の推定されたオーディオオブジェクト信号s
i,estm1と第2の推定されたオーディオオブジェクト信号s
i,estm2と(可能性としてH個のオーディオオブジェクト信号s
i,estmHまで)を提供する。サイド情報選択部56はまた、少なくとも第1の推定されたオーディオオブジェクト信号s
i,estm1と第2の推定されたオーディオオブジェクト信号s
i,estm2との品質を査定する、品質査定部を含む。更に、品質査定部は、少なくとも第1の推定されたオーディオオブジェクト信号s
i,estm1と第2の推定されたオーディオオブジェクト信号s
i,estm2との品質を、ソース推定性能尺度としての信号対歪み比SDRに基づいて査定してもよく、その信号対歪み比SDRは、サイド情報PSI、特に推定された共分散行列E
estだけに基づいて決定されてもよい。
【0065】
幾つかの実施形態に係るオーディオ符号器は、ダウンミックス信号Xを時間/周波数ドメインで複数の時間スロット及び複数の(ハイブリッド)サブバンドへとサンプリングされるある表現へと変換する、ダウンミックス信号処理部を更に含んでもよい。時間/周波数領域R(t
R,f
R)は、ダウンミックス信号Xの少なくとも2つのサンプルにわたって延びてもよい。少なくとも1つのオーディオオブジェクトについて特定されたオブジェクト特有時間/周波数分解能TFR
hは、時間/周波数領域R(t
R,f
R)よりも微細であってもよい。上述したように、時間/周波数表現の不確実性原理との関係から、信号のスペクトル分解能は時間分解能を犠牲にして増大させることができ、その逆もまた可能である。オーディオ符号器からオーディオ復号器へと送信されたダウンミックス信号は、典型的には復号器内で固定的な所定の時間/周波数分解能を有する時間−周波数変換によって分析されるが、オーディオ復号器は更に、当該時間/周波数領域R(t
R,f
R)内の分析済みダウンミックス信号を、所与のオーディオオブジェクトs
iをダウンミックス信号から抽出するのにより適切な他の時間/周波数分解能へと、オブジェクト個別的に変換してもよい。復号器におけるダウンミックス信号のそのような変換は、この明細書の中ではズーム変換と称される。そのズーム変換は時間的ズーム変換であってもよく、又はスペクトル的ズーム変換であってもよい。
【0066】
サイド情報の量の削減
原理的に、本発明のシステムの簡易な実例において、H個までのt/f表現についてのサイド情報が全てのオブジェクト及び全てのt/f領域R(t
R,f
R)について伝送される必要がある。なぜなら、復号器側における分離は、H個までのt/f表現からの選択によって実行されるからである。この多量のデータは、知覚的品質を有意に失うことなく劇的に低減させることができる。各オブジェクトのために、各t/f領域R(t
R,f
R)について以下の情報を伝送するだけで十分である。
・t/f領域R(t
R,f
R)内のオーディオオブジェクトの信号コンテンツをグローバル的に/粗く記述する1つのパラメータ、例えば領域R(t
R,f
R)内のオブジェクトの平均信号エネルギー
・オーディオオブジェクトの微細構造の記述。この記述は、混合信号からオーディオオブジェクトを最適に推定するために選択された個別のt/f表現から取得される。微細構造に関する情報は、粗い信号表現と微細構造との差をパラメータ化することによって、効率的に記述され得ることに留意されたい。
・オーディオオブジェクトを推定するために使用されるべきt/f表現を示す情報信号
【0067】
復号器においては、混合信号から所望のオーディオオブジェクトを復号器で推定することが、各t/f領域R(t
R,f
R)について下記のように実行され得る。
・このオーディオオブジェクトのための追加的サイド情報によって示される個々のt/f表現が計算される。
・所望のオーディオオブジェクトを分離するために、対応する(微細構造の)オブジェクト信号情報が使用される。
・残りの全てのオーディオオブジェクト、即ち抑制されるべき干渉するオーディオオブジェクトについて、微細構造のオブジェクト信号情報は、もしその情報が選択されたt/f表現のために利用可能であれば、使用される。その他の場合には、粗い信号記述が使用される。他の選択肢は、特定の残りのオーディオオブジェクトについて、利用可能な微細構造のオブジェクト信号情報を使用すること、及び、例えばt/f領域R(t
R,f
R)のサブ領域内の利用可能な微細構造のオーディオオブジェクト信号情報を平均化することによって、選択されたt/f表現を近似することである。このような方法で、そのt/f分解能は選択されたt/f表現ほど微細ではないが、粗いt/f表現よりは微細となる。
【0068】
強化されたオーディオオブジェクト推定を有するSAOC復号器
図7は、強化された(仮想の)オブジェクト分離(E−OS)モジュールを含むSAOC復号化を概略的に示し、(仮想の)強化されたオブジェクト分離部(E−OS)を含む改善されたSAOC復号器のこの実例の原理を具象化して示す。SAOC復号器には、信号混合が強化されたパラメトリックサイド情報(E−PSI)と一緒に入力される。E−PSIは、オーディオオブジェクトに係る情報と、ミキシングパラメータと、追加的情報とを含む。この追加的サイド情報によって、各オブジェクトs
1…s
Nに対し、また各t/f領域R(t
R,f
R)に対し、どのt/f表現が使用されるべきかが仮想のE−OSへと信号伝達される。所与のt/f領域R(t
R,f
R)について、オブジェクト分離部は、サイド情報の中で各オブジェクトのために信号伝達された個々のt/f表現を使用して、オブジェクトの各々を推定する。
【0069】
図8は、E−OSモジュールの概念を詳細に示す。所与のt/f領域R(t
R,f
R)に関し、P個のダウンミックス信号について計算するための個々のt/f表現#hがt/f表現信号伝達モジュール110によってマルチt/f変換モジュールへと信号伝達される。(仮想の)オブジェクト分離部120は、概念的には、追加的サイド情報によって指示されたt/f変換#hに基づいてソースs
nを推定しようと試みる。(仮想の)オブジェクト分離部は、オブジェクトの微細構造についての情報が指示されたt/f変換#hに関して伝送された場合にはそれを利用し、その他の場合には、ソース信号の伝送された粗い記述を使用する。各t/f領域R(t
R,f
R)に関して計算されるべき異なるt/f表現の可能な最大の個数は、Hであることに留意されたい。マルチ時間/周波数変換モジュールは、P個のダウンミックス信号(単数又は複数)の上述したズーム変換を実行するよう構成されてもよい。
【0070】
図9は、ダウンミックス信号Xとサイド情報PSIを含むマルチオブジェクト・オーディオ信号を復号化するオーディオ復号器の概略的なブロック図を示す。サイド情報PSIは、少なくとも1つの時間/周波数領域R(t
R,f
R)における少なくとも1つのオーディオオブジェクトs
iについてのオブジェクト特有サイド情報PSI
iを含み、i=1…Nである。サイド情報PSIはまた、オブジェクト特有時間/周波数分解能情報TFRI
iを含み、i=1…NTFである。変数NTFは、オブジェクト特有時間/周波数分解能情報が提供されるオーディオオブジェクトの個数を示し、NTF≦Nである。オブジェクト特有時間/周波数分解能情報TFRI
iはまた、オブジェクト特有時間/周波数表現情報と称されてもよい。特に、「時間/周波数分解能」という用語は、時間/周波数ドメインの均一な離散を必ずしも意味するものではなく、1つの時間/周波数タイル内又は全帯域スペクトルの全てのt/fタイルにわたる不均一な離散を意味してもよい点を理解すべきである。典型的かつ好適には、時間/周波数分解能は、所与のt/fタイルの両方の次元の1つは微細な分解能を有し、他の次元は低い分解能を有するように選択される。例えば、過渡信号については、時間次元が微細な分解能を有し、スペクトル分解能が粗くなる一方で、静的な信号については、スペクトル分解能が微細で、時間次元が粗い分解能を持つように選択される。時間/周波数分解能情報TFRI
iは、少なくとも1つの時間/周波数領域R(t
R,f
R)における、少なくとも1つのオーディオオブジェクトs
iについての、オブジェクト特有サイド情報PSI
iの1つのオブジェクト特有時間/周波数分解能TFR
h(h=1…H)を示している。オーディオ復号器は、少なくとも1つのオーディオオブジェクトs
iについて、サイド情報PSIからオブジェクト特有時間/周波数分解能情報TFRI
iを決定するよう構成された、オブジェクト特有時間/周波数分解能決定部110を含む。オーディオ復号器は、オブジェクト特有時間/周波数分解能TFR
iに従ってオブジェクト特有サイド情報PSI
iを使用して、ダウンミックス信号Xから少なくとも1つのオーディオオブジェクトs
iを分離するよう構成された、オブジェクト分離部120を更に含む。これは、オブジェクト特有サイド情報PSI
iがオブジェクト特有時間/周波数分解能情報TFRI
iによって特定されたオブジェクト特有時間/周波数分解能TFR
iを有することを意味しており、更に、オブジェクト分離部120によりオブジェクト分離を実行するときに、このオブジェクト特有時間/周波数分解能が考慮されることを意味している。
【0071】
オブジェクト特有サイド情報(PSI
i)は、少なくとも1つの時間/周波数領域R(t
R,f
R)における、少なくとも1つのオーディオオブジェクトs
iについての微細構造のオブジェクト特有サイド情報
を含んでもよい。微細構造のオブジェクト特有サイド情報
は、時間/周波数領域R(t
R,f
R)の中で、レベル(例えばオーディオオブジェクトの信号エネルギー、信号パワー、振幅など)がどのように変化するかを記述している微細構造のレベル情報であってもよい。微細構造のオブジェクト特有サイド情報
は、オーディオオブジェクトiとjそれぞれのオブジェクト間相関情報であってもよい。ここで、微細構造のオブジェクト特有サイド情報
は、オブジェクト特有時間/周波数分解能TFR
iに応じて、微細構造の時間スロットηと微細構造の(ハイブリッド)サブバンドκを用いて、ある時間/周波数グリッド上で定義される。この点については以下に
図12の文脈の中で説明する。ここでは、少なくとも3つの基本的な場合が識別され得る。
(a)オブジェクト特有時間/周波数分解能TFR
iは、QMF時間スロット及び(ハイブリッド)サブバンドの粒度に対応する。この場合、η=nであり、κ=kである。
(b)オブジェクト特有時間/周波数分解能情報TFRI
iは、スペクトルズーム変換が時間/周波数領域R(t
R,f
R)又はその一部分の中で実行されるべきであると示している。この場合、各(ハイブリッド)サブバンドkは、2つ以上の微細構造の(ハイブリッド)サブバンドκ
k,κ
k+1,…へとサブ分割され、そのためスペクトル分解能が増大する。換言すれば、微細構造の(ハイブリッド)サブバンドκ
k,κ
k+1,…は、オリジナル(ハイブリッド)サブバンドの小数部(fractions)である。その代わり、時間分解能は時間/周波数不確実性のために低下する。そのため、微細構造の時間スロットηは、2つ以上の時間スロットn,n+1,…を含む。
(c)オブジェクト特有時間/周波数分解能情報TFRI
iは、時間的ズーム変換が時間/周波数領域R(t
R,f
R)又はその一部分の中で実行されるべきであると示している。この場合、各時間スロットnは、2つ以上の更に微細構造の時間スロットη
n,η
n+1…へとサブ分割されて、その時間分解能が増大する。換言すれば、微細構造の時間スロットη
n,η
n+1…は時間スロットnの小数部である。その代わり、スペクトル分解能は時間/周波数不確実性のために低下する。そのため、微細構造の(ハイブリッド)サブバンドκは2つ以上の(ハイブリッド)サブバンドk,k+1,…を含む。
【0072】
サイド情報は、考慮対象の時間/周波数領域R(t
R,f
R)内の少なくとも1つのオーディオオブジェクトs
iについて、粗いオブジェクト特有サイド情報OLD
i,IOC
ij及び/又は絶対エネルギーレベルNRG
iを更に含んでもよい。その粗いオブジェクト特有サイド情報OLD
i,IOC
ij及び/又はNRG
iは、少なくとも1つの時間/周波数領域R(t
R,f
R)内において一定である。
【0073】
図10は、1つの時間/周波数タイルR(t
R,f
R)内におけるH個の全てのt/f表現内のN個の全てのオーディオオブジェクトについてのサイド情報を受信しかつ処理するよう構成された、オーディオ復号器の概略的ブロック図を示す。オーディオオブジェクトの個数Nとt/f表現の個数Hとに依存して、t/f領域R(t
R,f
R)当りの伝送され又は記憶されるべきサイド情報の量は非常に大きくなる可能性がある。そのため、
図10に示す概念は、少数のオーディオオブジェクトと異なるt/f表現とを有するシナリオのために使用されると想定される。とは言え、
図10に示す実例は、異なるオーディオオブジェクトについて異なるオブジェクト特有t/f表現を使用する原理の幾つかに係る示唆を提供している。
【0074】
要約すると、
図10に示す実施形態に従えば、関係するH個の全てのt/f表現について、パラメータ(特にOLD及びIOC)の全セットが決定され且つ伝送/記憶される。加えて、サイド情報は、各オーディオオブジェクトについて、どの特定のt/f表現の中でこのオーディオオブジェクトが抽出/合成されるべきかを指示する。オーディオ復号器の中では、全てのt/f表現h内におけるオブジェクト再構築
が実行される。次に、オーディオオブジェクト及び関係するタイルに関してサイド情報内で信号伝達された特有t/f表現(単数又は複数)を使用して生成されていた、それらオブジェクト特有のタイル又はt/f表現から、時間及び周波数にわたって最終的なオーディオオブジェクトが組み立てられる。
【0075】
ダウンミックス信号Xは、複数のオブジェクト分離部120
1〜120
Hに対して供給される。オブジェクト分離部120
1〜120
Hの各々は、1つの特有t/f表現のための分離作業を実行するよう構成されている。この目的で、各オブジェクト分離部120
1〜120
Hは、そのオブジェクト分離部が関連する特有t/f表現におけるN個の異なるオーディオオブジェクトs
1〜s
Nのサイド情報を更に受信する。
図10は、図示する目的だけのために複数のH個のオブジェクト分離部を示していることに注意されたい。代替的な実例において、t/f領域R(t
R,f
R)当りのH個の分離作業は、より少数のオブジェクト分離部により又は単一のオブジェクト分離部によっても実行され得る。更なる可能な実施形態によれば、その分離作業は、多目的プロセッサ又はマルチコアプロセッサ上で異なる手順として実行されてもよい。その分離作業の幾つかは、対応するt/f表現がどれだけ細密かに依存して、他よりも演算的に集中的となる。各t/f領域R(t
R,f
R)について、サイド情報のN×H個のセットがオーディオ復号器に対して提供される。
【0076】
オブジェクト分離部120
1〜120
Hは、N×H個の推定された分離済みオーディオオブジェクト
を提供する。これらオブジェクトは、推定された分離済みオーディオオブジェクト
を通常のt/f表現にするために(既にそうでない場合)、任意選択的なt/f分解能変換器130へと入力されてもよい。典型的には、通常のt/f分解能又は表現とは、フィルタバンク又はオーディオ信号の全般的な処理が基礎とする変換の真のt/f分解能であってもよく、即ち、MPEG SAOCの場合、通常の分解能はQMF時間スロット及び(ハイブリッド)サブバンドの粒度である。説明を目的として、推定されたオーディオオブジェクトは行列140内に一時的に記憶されると想定されてもよい。実際の構成においては、後に使用されないであろう推定された分離済みオーディオオブジェクトは、即座に廃棄されてもよく、又は最初から計算されなくてもよい。行列140の各行は、同じオーディオオブジェクトのH個の異なる推定、即ち、H個の異なるt/f表現に基づいて決定された推定された分離済みオーディオオブジェクトを含む。行列140の中央部分がグリッドを用いて概略的に示されている。各行列要素
は、推定された分離済みオーディオオブジェクトのオーディオ信号に対応する。換言すれば、各行列要素は、目標t/f領域R(t
R,f
R)内の複数の時間スロット/サブバンドのサンプル(例えば
図11の実施例においては、7個の時間スロット×3個のサブバンド=21個の時間スロット/サブバンドのサンプル)を含む。
【0077】
オーディオ復号器は更に、異なるオーディオオブジェクト及び現時点のt/f領域R(t
R,f
R)に関するオブジェクト特有時間/周波数分解能情報TFRI
1〜TFRI
Nを受信するよう構成されている。各オーディオオブジェクトiについて、オブジェクト特有時間/周波数分解能情報TFRI
iは、オリジナル・オーディオオブジェクトを近似的に復元するために、推定された分離済みオーディオオブジェクト
のうちのどれが使用されるべきかを示している。オブジェクト特有時間/周波数分解能情報は、典型的には符号器によって決定されており、サイド情報の一部として復号器へと供給されている。
図10において、行列140内の破線のボックスと×印とは、各オーディオオブジェクトについてどのt/f表現が選択されたのかを示している。その選択は、オブジェクト特有時間/周波数分解能情報TFRI
1…TFRI
Nを受信する選択部112によって行われる。
【0078】
選択部112は、N個の選択されたオーディオオブジェクト信号を出力し、これら信号は更なる処理を受けてもよい。例えば、N個の選択されたオーディオオブジェクト信号はレンダラー150へと供給されてもよく、そのレンダラー150は、選択されたオーディオオブジェクト信号を利用可能なラウドスピーカ設定、例えばステレオ又は5.1ラウドスピーカ設定へとレンダリングするよう構成されている。この目的で、レンダラー150は、推定された分離済みオーディオオブジェクトのオーディオ信号が利用可能なラウドスピーカへとどのように分配されるべきかを記述する、プリセットレンダリング情報及び/又はユーザーレンダリング情報を受信してもよい。レンダラー150は任意選択的であり、選択部112の出力における推定された分離済みオーディオオブジェクト
は、直接的に使用されかつ処理されてもよい。他の実施形態では、レンダラー150は、「ソロモード」又は「カラオケモード」のような特殊な設定へとセットされてもよい。ソロモードにおいては、出力信号へとレンダリングされるべく単一の推定されたオーディオオブジェクトが選択される。カラオケモードにおいては、1つの推定されたオーディオオブジェクトを除く全てが出力信号へとレンダリングされるべく選択される。典型的には、リードボーカルのパートがレンダリングされず、伴奏のパートがレンダリングされる。両方のモードでは、小さなクロストークでさえ知覚可能であるため、高い分離性能が求められる。
【0079】
図11は、オーディオオブジェクトiに関する微細構造のサイド情報
及び粗いサイド情報がどのように編成されるかを概略的に示す。
図11の上部分は、時間スロット(典型的には表記上、及び特にオーディオコーディング関連のISO/IEC標準において、インデックスnにより示される)と、(ハイブリッド)サブバンド(典型的には表記上、インデックスkにより示される)と、に応じてサンプリングされた時間/周波数ドメインの一部を示している。その時間/周波数ドメインはまた、異なる時間/周波数領域へと分割される(
図11内では太い破線によって図示されている)。典型的には、1つのt/f領域は、複数の時間スロット/サブバンドのサンプルを含む。1つのt/f領域R(t
R,f
R)は、他のt/f領域のための代表例としての役割を果たすであろう。例示した考慮対象のt/f領域R(t
R,f
R)は、7個の時間スロットn〜n+6と3個の(ハイブリッド)サブバンドk〜k+2にわたって延びており、従って21個の時間スロット/サブバンドのサンプルを含む。次に、2つの異なるオーディオオブジェクトi及びjを想定する。オーディオオブジェクトiは、t/f領域R(t
R,f
R)内において実質的に調性の特徴を持っていてもよく、他方、オーディオオブジェクトjは、t/f領域R(t
R,f
R)内において実質的に過渡の特徴を持っていてもよい。オーディオオブジェクトi及びjのこれらの異なる特徴をより適切に表現するために、t/f領域R(t
R,f
R)は、オーディオオブジェクトiについてはスペクトル方向に、オーディオオブジェクトjについては時間方向に、サブ分割されてもよい。t/f領域は、t/f表現ドメインの中で必ずしも同一又は均一に分布している必要はないが、オーディオオブジェクトの必要項目に応じてサイズ、位置及び分布において適応され得るという点に注意されたい。換言すれば、ダウンミックス信号Xは、時間/周波数ドメインにおいて複数の時間スロット及び複数の(ハイブリッド)サブバンドへとサンプリングされる。t/f領域R(t
R,f
R)は、ダウンミックス信号Xの少なくとも2つのサンプルにわたって延びている。オブジェクト特有時間/周波数分解能TFR
hは、時間/周波数領域R(t
R,f
R)よりも細密である。
【0080】
オーディオ符号器側でオーディオオブジェクトiについてのサイド情報を決定する際に、オーディオ符号器はそのオーディオオブジェクトiをt/f領域R(t
R,f
R)内で分析し、粗いサイド情報と微細構造のサイド情報とを決定する。粗いサイド情報は、とりわけSAOC標準ISO/IEC23003−2の中で定義されている、オブジェクトレベル差情報OLD
i、オブジェクト間共分散IOC
ij及び/又は絶対エネルギーレベルNRG
iであってもよい。粗いサイド情報は、t/f領域ベースで定義されており、現存のSAOC復号器がこの種のサイド情報を使用することから、典型的には後方互換性を提供する。オブジェクトiについての微細構造のオブジェクト特有サイド情報
は、オーディオオブジェクトiのエネルギーがどのように3つのスペクトルサブ領域間に配分されるかを示す3個の更なる値を提供する。図示されたケースでは、3つのスペクトルサブ領域の各々が1つの(ハイブリッド)サブバンドに対応しているが、他の配分もまた可能である。1つのスペクトルサブ領域を他のスペクトルサブ領域よりも小さくして、より小さなスペクトルサブバンドにおいて使用可能な特に細密なスペクトル分解能を得ることさえも、視野に入り得る。同様に、オーディオオブジェクトjのコンテンツをt/f領域R(t
R,f
R)内でより適切に表現するために、同じt/f領域R(t
R,f
R)が複数の時間サブ領域へとサブ分割されてもよい。
【0081】
微細構造のオブジェクト特有サイド情報
は、粗いオブジェクト特有サイド情報(例えばOLD
i、IOC
ij及び/又はNRG
i)と少なくとも1つのオーディオオブジェクトs
iとの差を記述してもよい。
【0082】
図11の下部分は、オーディオオブジェクトi及びjについての微細構造のサイド情報に起因して、推定された共分散行列Eがt/f領域R(t
R,f
R)にわたって変化することを示している。オブジェクト分離作業において使用される他の行列又は値もまた、t/f領域R(t
R,f
R)内での変化の影響を受ける。共分散行列E(及び他の行列又は値)の変化は、オブジェクト分離部120によって考慮されなければならない。図示されたケースでは、t/f領域R(t
R,f
R)の各時間スロット/サブバンドのサンプルについて、異なる共分散行列Eが決定される。複数のオーディオオブジェクトの内のただ1つだけがそれ(例えばオブジェクトi)に関連付けられた細密なスペクトル構造を有する場合、共分散行列Eは、3つのスペクトルサブ領域の各1つの中では一定となるであろう(ここでは3個の(ハイブリッド)サブバンドの各1つの中では一定となるが、一般的に他のスペクトルサブ領域でも同様に可能である)。
【0083】
オブジェクト分離部120は、少なくとも1つのオーディオオブジェクトs
i及び少なくとも1つの更なるオーディオオブジェクトs
jの要素
を有する推定された共分散行列E
n,kを、次式に従って決定するよう構成されてもよい。
[数13]
ここで、
は時間スロットn及び(ハイブリッド)サブバンドkに関するオーディオオブジェクトi及びjの推定された共分散であり、
は時間スロットn及び(ハイブリッド)サブバンドkに関するオーディオオブジェクトi及びjのオブジェクト特有サイド情報であり、
は時間スロットn及び(ハイブリッド)サブバンドkに関するオーディオオブジェクトi及びjのオブジェクト間相関情報である。
【0084】
の少なくとも1つは、オブジェクト特有時間/周波数分解能情報TFRI
i,TFRI
jによってそれぞれ示されたオーディオオブジェクトi又はjについてのオブジェクト特有時間/周波数分解能TFR
hに応じて、時間/周波数領域R(t
R,f
R)内で変化する。オブジェクト分離部120は更に、上述した方法で、推定された共分散行列E
n,kを使用して、ダウンミックス信号Xから少なくとも1つのオーディオオブジェクトs
iを分離するよう構成されてもよい。
【0085】
例えば後続のズーム変換を用いて、スペクトル又は時間的分解能が基礎となる変換の分解能から増大させられる場合、上述した手法に対する代替的手法が考慮されなければならない。そのような場合、オブジェクト共分散行列の推定は、ズームされたドメインで実行される必要があり、オブジェクト再構築もまたズームされたドメインで実行される。次に、再構築結果はオリジナル変換のドメイン、例えば(ハイブリッド)QMFへと逆変換されることができ、最終的再構築へのタイルのインターリービングはこのドメインで行われる。原理的にその計算は、追加的変換を除いて、異なるパラメータ・タイリングを利用する場合と同様に行われる。
【0086】
図12は、スペクトル軸におけるズームの例を用いたズーム変換、ズームされたドメインでの処理、及び逆ズーム変換を示している。ここでは、時間スロットnと(ハイブリッド)サブバンドkとによって定義されたダウンミックス信号のt/f分解能における、ある時間/周波数領域R(t
R,f
R)内のダウンミックスについて考察する。
図12に示された実例において、時間/周波数領域R(t
R,f
R)は4個の時間スロットn〜n+3と1つのサブバンドkとを有する。ズーム変換は、信号時間/周波数変換ユニット115によって実行されてもよい。ズーム変換は、時間ズーム変換でもよく、又は
図12に示すように、スペクトルズーム変換でもよい。スペクトルズーム変換は、DFT,STFT,QMFベースの分析フィルタバンクなどによって実行されてもよい。時間ズーム変換は、逆DFT,逆STFT,逆QMFベースの合成フィルタバンクなどによって実行されてもよい。
図12の実例において、ダウンミックス信号Xは、時間スロットnと(ハイブリッド)サブバンドkとによって定義されるダウンミックス信号時間/周波数表現から、ただ1つのオブジェクト特有時間スロットηと4個のオブジェクト特有(ハイブリッド)サブバンドκ〜κ+3とにわたるスペクトル的にズームされたt/f表現へと変換される。従って、時間/周波数領域R(t
R,f
R)内のダウンミックス信号のスペクトル分解能は、時間分解能を犠牲にして、4倍に増大されている。
【0087】
この処理は、オブジェクト分離部121によってオブジェクト特有時間/周波数分解能TFR
hで実行され、このオブジェクト分離部121はまた、少なくとも1つのオーディオオブジェクトのサイド情報をオブジェクト特有時間/周波数分解能TFR
hで受信する。
図12の実例において、オーディオオブジェクトiは、オブジェクト特有時間/周波数分解能TFR
hに合致する、即ち1つのオブジェクト特有時間スロットη及び4個のオブジェクト特有(ハイブリッド)サブバンド
κ〜κ+3に合致する時間/周波数領域R(t
R,f
R)内で、サイド情報により定義されている。説明上、2つの更なるオーディオオブジェクトi+1及びi+2についてのサイド情報も、また
図12内に概略的に示されている。オーディオオブジェクトi+1は、ダウンミックス信号の時間/周波数分解能を有するサイド情報により定義される。オーディオオブジェクトi+2は、時間/周波数領域R(t
R,f
R)内に2個のオブジェクト特有時間スロット及び2個のオブジェクト特有(ハイブリッド)サブバンドを有するサイド情報により定義される。オーディオオブジェクトi+1のために、オブジェクト分離部121は、時間/周波数領域R(t
R,f
R)内の粗いサイド情報を考慮してもよい。オーディオオブジェクトi+2のために、オブジェクト分離部121は、2つの異なるハッチングにより示すように、時間/周波数領域R(t
R,f
R)内での2つのスペクトル平均値を考慮してもよい。一般的なケースでは、対応するオーディオオブジェクトのためのサイド情報は、現時点でオブジェクト分離部121により処理されつつある厳密なオブジェクト特有時間/周波数分解能TFR
h内では使用できないが、時間及び/又はスペクトル次元において時間/周波数領域R(t
R,f
R)よりも微細に離散化されている場合には、複数のスペクトル平均値及び/又は複数の時間平均値がオブジェクト分離部121によって考慮されてもよい。このようにして、オブジェクト分離部121は、現時点でオブジェクト分離部121により処理されているオブジェクト特有時間/周波数分解能TFR
hと必ずしも同等に微細とは言えなくても、粗いサイド情報(例えばOLD、IOC及び/又はNRG)と比べてより微細に離散化されている、オブジェクト特有サイド情報の有用性から利益を得る。
【0088】
オブジェクト分離部121は、時間/周波数領域R(t
R,f
R)について少なくとも1つの抽出されたオーディオオブジェクト
を、オブジェクト特有時間/周波数分解能(ズームt/f分解能)で出力する。次に、少なくとも1つの抽出されたオーディオオブジェクト
は逆ズーム変換器132により逆ズーム変換され、R(t
R,f
R)において抽出されたオーディオオブジェクト
を、ダウンミックス信号の時間/周波数分解能で、又は他の所望の時間/周波数分解能で取得する。R(t
R,f
R)において抽出されたオーディオオブジェクト
は次に他の時間/周波数領域、例えばR(t
R-1,f
R-1),R(t
R-1,f
R),…R(t
R+1,f
R+1)で抽出されたオーディオオブジェクト
と結合され、抽出されたオーディオオブジェクト
が組み立てられる。
【0089】
対応する実施形態によれば、オーディオ復号器は、時間/周波数領域R(t
R,f
R)内のダウンミックス信号Xを、ダウンミックス信号の時間/周波数分解能から少なくとも1つのオーディオオブジェクトs
iの少なくともオブジェクト特有時間/周波数分解能TFR
hへと変換して、再変換されたダウンミックス信号X
η,κを取得する、ダウンミックス信号時間/周波数変換器115を含んでもよい。ダウンミックス信号時間/周波数分解能は、ダウンミックス時間スロットn及びダウンミックス(ハイブリッド)サブバンドkに関連している。オブジェクト特有時間/周波数分解能TFR
hは、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関連している。オブジェクト特有時間スロットηは、ダウンミックス時間/周波数分解能のダウンミックス時間スロットnと比べてより微細か又はより粗くてもよい。同様に、オブジェクト特有(ハイブリッド)サブバンドκは、ダウンミックス時間/周波数分解能のダウンミックス(ハイブリッド)サブバンドと比べてより微細か又はより粗くてもよい。時間/周波数表現の不確実性原理に関連して上述したように、信号のスペクトル分解能は時間分解能を犠牲にして増大させることができ、その逆もまた真である。オーディオ復号器は、時間/周波数領域R(t
R,f
R)内の少なくとも1つのオーディオオブジェクトs
iを、オブジェクト特有時間/周波数分解能TFR
hからダウンミックス信号時間/周波数分解能へと時間/周波数変換し戻す、逆時間/周波数変換器132を更に含んでもよい。オブジェクト分離部121は、ダウンミックス信号
Xη,κから少なくとも1つのオーディオオブジェクトs
iを、オブジェクト特有時間/周波数分解能TFR
hにおいて分離するよう構成されている。
【0090】
ズームされたドメインにおいて、推定された共分散行列E
η,κは、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関して定義されている。少なくとも1つのオーディオオブジェクトs
iと少なくとも1つの更なるオーディオオブジェクトs
jとの推定された共分散行列の要素について上述した式は、ズームされたドメインにおいて次式で表すことができる。
[数14]
ここで、
は、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関するオーディオオブジェクトi及びjの推定された共分散行列であり、
は、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関するオーディオオブジェクトi及びjのオブジェクト特有サイド情報であり、
は、オブジェクト特有時間スロットηとオブジェクト特有(ハイブリッド)サブバンドκとに関するオーディオオブジェクトi及びjのそれぞれのオブジェクト間相関情報である。
【0091】
上述したように、更なるオーディオオブジェクトjは、オーディオオブジェクトiのオブジェクト特有時間/周波数分解能TFR
hを有するサイド情報によっては定義されない可能性があり、そのため、パラメータ
がオブジェクト特有時間/周波数分解能TFR
hにおいて利用可能でない又は決定できない場合もあり得る。この場合、R(t
R,f
R)内のオーディオオブジェクトjの粗いサイド情報、時間的に平均化された値、又はスペクトル的に平均化された値が、パラメータ
を時間/周波数領域R(t
R,f
R)内又はそのサブ領域内において近似するために、使用されてもよい。
【0092】
符号器側においても、微細構造のサイド情報が典型的に考慮されるべきである。実施形態に係るオーディオ符号器において、サイド情報決定部(t/f−SIE)55−1…55−Hは、微細構造のオブジェクト特有サイド情報
と粗いオブジェクト特有サイド情報OLD
iとを、第1サイド情報及び第2サイド情報の少なくとも1つの一部として提供するよう更に構成されてもよい。粗いオブジェクト特有サイド情報OLD
iは、少なくとも1つの時間/周波数領域R(t
R,f
R)内で一定である。微細構造のオブジェクト特有サイド情報
は、粗いオブジェクト特有サイド情報OLD
iと少なくとも1つのオーディオオブジェクトs
iとの差を記述してもよい。オブジェクト間相関関係IOC
i,j及び
は、他のパラメトリックサイド情報と同様に、アナログ方式で処理されてもよい。
【0093】
図13は、ダウンミックス信号Xとサイド情報PSIとからなるマルチオブジェクト・オーディオ信号を復号化する方法の概略的なフロー図を示す。サイド情報は、少なくとも1つの時間/周波数領域R(t
R,f
R)における少なくとも1つのオーディオオブジェクトs
iについてのオブジェクト特有サイド情報PSI
iと、その少なくとも1つの時間/周波数領域R(t
R,f
R)における少なくとも1つのオーディオオブジェクトs
iについてのオブジェクト特有サイド情報のオブジェクト特有時間/周波数分解能TFR
hを示すオブジェクト特有時間/周波数分解能情報TFRI
iと、を含む。この方法は、少なくとも1つのオーディオオブジェクトs
iについて、サイド情報PSIからオブジェクト特有時間/周波数分解能情報TFRI
iを決定するステップ1302を含む。この方法はさらに、オブジェクト特有時間/周波数分解能TFRI
iに応じたオブジェクト特有サイド情報を使用して、ダウンミックス信号Xから少なくとも1つのオーディオオブジェクトs
iを分離するステップ1304を含む。
【0094】
図14は、複数のオーディオオブジェクト信号s
iを1つのダウンミックスX及びサイド情報PSIへと符号化する方法の更なる実施形態に係る概略的なフロー図を示す。その
符号化の方法は、ステップ1402において、複数のオーディオオブジェクト信号s
iを少なくとも第1の複数の対応する変換形態s
1,1(t/f)…s
N,1(t/f)へと変換することを含む。この目的で、第1の時間/周波数分解能TFR
1が使用される。複数のオーディオオブジェクト信号s
iはまた、第2の時間/周波数離散化TFR
2を使用して、少なくとも第2の複数の対応する変換形態s
1,2(t/f)…s
N,2(t/f)へと変換される。ステップ1404において、少なくとも、第1の複数の対応する変換形態s
1,1(t/f)…s
N,1(t/f)についての第1サイド情報と、第2の複数の対応する変換形態s
1,2(t/f)…s
N,2(t/f)についての第2サイド情報と、が決定される。第1及び第2のサイド情報は、第1及び第2の時間/周波数分解能TFR
1及びTFR
2のそれぞれにおける複数のオーディオオブジェクト信号s
iの互いの関係を、1つの時間/周波数領域R(t
R,f
R)において示している。この方法は更に、各オーディオオブジェクト信号s
iについて、第1及び第2のサイド情報からある適性基準に基づいて各1つのオブジェクト特有サイド情報を選択するステップ1406を含み、その適性基準は、オーディオオブジェクト信号s
iを時間/周波数ドメインで表現するための少なくとも第1又は第2の時間/周波数分解能のある適性を示しており、そのオブジェクト特有サイド情報はサイド情報PSIの中に導入される。
【0095】
SAOCとの後方互換性
提案された解決策は知覚的オーディオ品質を良好に改善するが、これは可能性としては、完全に復号器−互換性を持つ方法で実現できる。t/f領域R(t
R,f
R)を現状のSAOC内のt/fグルーピングに対して調和するように定義することで、現存する標準SAOC復号器は、PSIの後方互換性のある部分を復号化でき、粗いt/f分解能レベルでオブジェクトの再構築を生成できる。追加された情報が強化されたSAOC復号器によって使用される場合、再構築の知覚的品質はかなり向上する。各オーディオオブジェクトについて、この追加的サイド情報は、オブジェクトを推定するためにどの個別のt/f表現が使用されるべきかという情報と、選択されたt/f表現に基づくオブジェクトの微細構造の記述と、を含んでいる。
【0096】
加えて、強化されたSAOC復号器が制限された資源上で操作している場合、その強化された部分は無視されることができ、低い演算量だけを必要としながら基本的な品質の再構築を得ることもできる。
【0097】
本発明の処理に係るアプリケーションの分野
オブジェクト特有t/f表現とそれに関連する復号器への信号伝達は、如何なるSAOCスキームに対しても適用できる。それは、現在及び将来の、如何なるオーディオフォーマットとも組み合わせることができる。その概念は、SAOCアプリケーションにおいて、オーディオオブジェクトのパラメトリック推定のための個別的なt/f分解能のオーディオオブジェクト適応型の選択がもたらす、強化された知覚的オーディオオブジェクト推定を可能にする。
【0098】
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全てが、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路のようなハードウエア装置によって(又は使用して)実行されてもよい。幾つかの実施形態では、最も重要な方法ステップの1つ又は複数がそれら装置によって実行されてもよい。
【0099】
本発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
【0100】
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ読み取り可能であってもよい。
【0101】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
【0102】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0103】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0104】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0105】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。そのデータキャリア、デジタル記憶媒体、又は記録された媒体は、典型的に有形及び/又は非一時的である。
【0106】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。
【0107】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0108】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0109】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0110】
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。