【文献】
Kyungryeol KOO, et al.,Variable Subband Analysis for High Quality Spatial Audio Object Coding,Proc. ICACT 2008,KR,IEEE,2008年 2月17日,pp.1205-1208
【文献】
Jonas ENGDEGARD, et al.,Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding,Proc. 124th Convention of the Audio Engineering Society,NL,AES,2008年 5月17日,pp.1-15
(58)【調査した分野】(Int.Cl.,DB名)
ダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダであって、前記ダウンミックス信号は1つまたは複数のオーディオオブジェクト信号を符号化し、
該デコーダは、
前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット(181)と、
複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、前記ダウンミックス信号を変換するための第1の分析モジュール(182)と、
複数の第2のサブバンドチャネルを得るために、前記起動指示が前記起動状態に設定されていれば、前記第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成するための第2の分析モジュール(183)であって、前記第2の変換されたダウンミックスは、前記第2の分析モジュールによって変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含んでいる第2の分析モジュール(183)と、
非混合ユニット(184)と、を備え、
前記非混合ユニット(184)は、前記起動指示が前記起動状態に設定されていれば、前記オーディオ出力信号を得るために前記1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて前記第2の変換されたダウンミックスをアンミックスするように、かつ前記起動指示が前記起動状態に設定されていなければ、前記オーディオ出力信号を得るために前記1つまたは複数のオーディオオブジェクト信号に関する前記パラメトリックサイド情報に基づいて前記第1の変換されたダウンミックスをアンミックスするように構成されており、
前記制御ユニット(181)は、前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つが、前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存して、前記起動指示を前記起動状態に設定するように構成されているデコーダ。
前記第1の分析モジュール(182)は、前記複数の第1のサブバンドチャネルを含む前記第1の変換されたダウンミックスを得るために、直交ミラーフィルタを使用することにより前記ダウンミックス信号を変換するように構成されている請求項1又は2に記載のデコーダ。
前記第1の分析モジュール(182)は、前記ダウンミックス信号を第1の分析ウインドウ長さに依存して変換するように構成され、前記第1の分析ウインドウ長さは前記信号特性に依存し、または、
前記第2の分析モジュール(183)は、前記起動指示が前記起動状態に設定されていると、前記第2の変換されたダウンミックスを、前記第1のサブバンドチャネルのうちの前記少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより生成するように構成され、前記第2の分析ウインドウ長さは前記信号特性に依存する請求項1から3のいずれか一項に記載のデコーダ。
該デコーダは、前記ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含む前記オーディオ出力信号を生成するように構成され、前記ダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化し、
前記制御ユニット(181)は、前記2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の前記信号特性に依存して前記起動指示を前記起動状態に設定するように構成され、かつ、
前記非混合ユニット(184)は、前記起動指示が前記起動状態に設定されていれば、前記オーディオ出力信号を得るために前記1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて前記第2の変換されたダウンミックスをアンミックスするように、かつ前記起動指示が前記起動状態に設定されていなければ、前記オーディオ出力信号を得るために前記2つ以上のオーディオオブジェクト信号に関する前記パラメトリックサイド情報に基づいて前記第1の変換されたダウンミックスをアンミックスするように構成されている請求項1から4のいずれか一項に記載のデコーダ。
前記第1の分析モジュール(192)は、前記入力されたオーディオオブジェクト信号の各々を、直交ミラーフィルタを使用することによって変換するように構成されている請求項6又は7に記載のエンコーダ。
前記第1の分析モジュール(192)は、前記入力されたオーディオオブジェクト信号を第1の分析ウインドウ長さに依存して変換するように構成され、前記第1の分析ウインドウ長さは前記信号特性に依存し、または、
前記第2の分析モジュール(193)は、前記起動指示が前記起動状態に設定されていると、前記第2の変換されたオーディオオブジェクト信号を、前記複数の第1のサブバンドチャネルのうちの少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより生成するように構成され、前記第2の分析ウインドウ長さは前記信号特性に依存する、請求項6から8のいずれか一項に記載のエンコーダ。
ダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによって復号するための方法であって、前記ダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化し、
該方法は、
前記2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定することと、
複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、前記ダウンミックス信号を変換することと、
複数の第2のサブバンドチャネルを得るために、前記起動指示が前記起動状態に設定されていれば、前記第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成することであって、前記第2の変換されたダウンミックスは、変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含むことと、
前記起動指示が前記起動状態に設定されていれば、前記オーディオ出力信号を得るために前記2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて前記第2の変換されたダウンミックスをアンミックスし、かつ前記起動指示が前記起動状態に設定されていなければ、前記オーディオ出力信号を得るために前記2つ以上のオーディオオブジェクト信号に関する前記パラメトリックサイド情報に基づいて前記第1の変換されたダウンミックスをアンミックスすることを含み、
1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つが、前記1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存して、前記起動指示を前記起動状態に設定する、方法。
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明の目的は、オーディオオブジェクト符号化の改良された概念を提供することにある。
【課題を解決するための手段】
【0016】
本発明のこの目的は、請求項1に記載のデコーダ、請求項7に記載のエンコーダ、請求項13に記載の復号方法、請求項14に記載の符号化方法および請求項15に記載のコンピュータプログラムによって解決される。
【0017】
従来技術SAOCとは対照的に、時間−周波数分解能を後方互換性のある方法で信号に動的に適合化させるための実施形態が提供され、その結果、
標準SAOCエンコーダ([SAOC]で標準化されているようなMPEG SAOC)から発生するSAOCパラメータ・ビット・ストリームを、強化デコーダによっても標準デコーダで取得されるものに匹敵する知覚品質で復号することができ、
強化SAOCパラメータ・ビット・ストリームを、強化デコーダにより最適品質で復号することができ、かつ、
標準SAOCパラメータ・ビット・ストリームと強化SAOCパラメータ・ビット・ストリームを、例えば多地点制御装置(MCU:multi-point control unit)シナリオにおいて、標準デコーダまたは強化デコーダによって復号され得る1つの共通ビットストリームに混合することができる。
【0018】
上述の特性に関して、新規強化SAOCデータの複合と伝統的な標準SAOCデータの後方互換性マッピングの何れも同時にサポートするために、時間−周波数分解能で動的に適合化できる共通のフィルタバンク/変換表現を用意することが有益である。そのような共通表現があれば、強化SAOCデータと標準SAOCデータの合体が可能である。
【0019】
強化されたSAOC知覚品質は、オーディオ・オブジェクト・キューの推定に採用される、またはオーディオ・オブジェクト・キューの合成に使用されるフィルタバンクまたは変換の時間−周波数分解能を入力オーディオオブジェクトの固有の特性に動的に適合化することによって得ることができる。例えば、オーディオオブジェクトが所定の時間スパンの間、準定常であれば、パラメータ推定と合成は、粗い時間分解能と密な周波数分解能で効果的に実行される。オーディオオブジェクトが所定の時間スパンの間、過渡または非定常性を包含すれば、パラメータ推定と合成は、密な時間分解能と粗い周波数分解能を用いて効果的に行われる。これにより、フィルタバンクまたは変換の動的な適合は、下記を可能にする。すなわち、
オブジェクト間クロストークを回避するために、準定常信号のスペクトル分離では周波数選択性を高くすること、および、
プレエコーおよびポストエコーを最小限に抑えるために、オブジェクト開始または過渡事象に対しては時間精度を高くすること。
【0020】
同時に、伝統的なSAOC品質は、標準SAOCデータを、オブジェクト信号特性を記述するサイド情報に依存する発明的な後方互換性信号適応変換により提供される時間−周波数グリッド上へマッピングすることによって得ることができる。
【0021】
標準SAOCデータと強化SAOCデータの双方を、1つの共通変換を用いて復号可能であることは、標準SAOCデータと新規な強化SAOCデータのミキシングを包含するアプリケーションに対する直接的な後方互換性を可能にする。
【0022】
複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は、2つ以上のオーディオオブジェクト信号を符号化する。
【0023】
このデコーダは、ウインドウシーケンス発生器を備えているか、または、複数の分析ウインドウを決定するものであり、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含む。複数の分析ウインドウの各々は、その分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有する。そのウインドウシーケンス発生器は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。
【0024】
さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、その分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換するためのt/f分析モジュールを備えている。
【0025】
さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックス(un-mix)するための非混合ユニット(un-mixing unit)を備えている。
【0026】
一実施形態によれば、ウインドウシーケンス発生器は、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心c
kはc
k=t−l
bと画定され、第1の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0027】
一実施形態では、ウインドウシーケンス発生器は、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心c
kはc
k=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心c
k-1はc
k-1=t−l
bと画定され、複数の分析ウインドウのうちの第3の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0028】
一実施形態によれば、ウインドウシーケンス発生器は、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを含むように、複数の分析ウインドウを決定すべく構成することができる。その場合、第2の数の時間領域信号サンプルは第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号変化がダウンミックス信号によって符号化されつつあることを示す過渡を含むときに第1の数の時間領域信号サンプルを含む。
【0029】
一実施形態では、t/f分析モジュールは、各分析ウインドウの時間領域ダウンミックスサンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成することができる。その場合、t/f分析モジュール(135)は、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成されている。
【0030】
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダが提供される。それらの2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニットを備えている。各分析ウインドウは入力されたオーディオオブジェクト信号のうちの1つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有する。ウインドウシーケンス・ユニットは、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。
【0031】
さらに、このエンコーダは、変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換するためのt/f分析ユニットを備えている。t/f分析ユニットは、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成することができる。
【0032】
さらに、このエンコーダは、変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのPSI推定ユニットを備えている。
【0033】
一実施形態において、このエンコーダは、さらに、各分析ウインドウについてその分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号変化を示す過渡を含むかどうかを決定するために、2つ以上の入力されたオーディオオブジェクト信号の複数のオブジェクトレベル差を決定するように構成され、かつオブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するように構成された過渡検出ユニットを備えることができる。
【0034】
一実施形態によれば、その過渡検出ユニットは、オブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するために、次のように定義される検出関数d(n)を使用するように構成することができる。
但し、nは指数、iは第1のオブジェクト、jは第2のオブジェクト、bはパラメトリック帯域を示す。OLD(object level difference)は、例えば、オブジェクトレベル差を示す。
【0035】
一実施形態において、ウインドウシーケンス・ユニットは、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置をtとすると、第1の分析ウインドウの中心c
kはc
k=t−l
bと画定され、第1の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0036】
一実施形態によれば、ウインドウシーケンス・ユニットは、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成さすることができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心c
kはc
k=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心c
k-1はc
k-1=t−l
bと画定され、複数の分析ウインドウのうちの第3の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0037】
一実施形態において、ウインドウシーケンス・ユニットは、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを備えるように、複数の分析ウインドウを決定すべく構成することができる。その場合、第2の数の時間領域信号サンプルは第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含む場合に第1の数の時間領域信号サンプルを含むものとする。
【0038】
一実施形態によれば、t/f分析ユニットは、各分析ウインドウの時間領域信号サンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成することができ、その場合、t/f分析ユニットは、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成することができる。
【0039】
さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する。このデコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換するための第1の分析サブモジュールを備えている。さらに、このデコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス発生器を備え、その分析ウインドウは各々、複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス発生器は各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように複数の分析ウインドウを決定すべく構成されている。さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュールを備えている。さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニットを備えている。
【0040】
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを提供される。それらの2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。このエンコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換するための第1の分析サブモジュールを備えている。さらに、このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニットを備え、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス・ユニットは、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。さらに、このエンコーダは、変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュールを備えている。さらに、このエンコーダは、パラメトリックサイド情報を、変換された信号サンプルに依存して決定するためのPSI推定ユニットを備えている。
【0041】
さらに、ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダが提供される。そのダウンミックス信号は1つまたは複数のオーディオオブジェクト信号を符号化する。このデコーダは、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニットを備えている。さらに、このデコーダは、複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、ダウンミックス信号を変換するための第1の分析モジュールを備えている。さらに、このデコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成するための第2の分析モジュールを備え、その第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含む。さらに、このデコーダは非混合ユニットを備え、その非混合ユニットは、起動指示が起動状態に設定されていれば、1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得るように、かつ起動指示が起動状態に設定されていなければ、1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得るように構成されている。
【0042】
さらに、1つの入力されたオーディオオブジェクト信号を符号化するためのエンコーダが提供される。このエンコーダは、入力されたオーディオオブジェクト信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニットを備えている。さらに、このエンコーダは、第1の変換されたオーディオオブジェクト信号を得るために入力されたオーディオオブジェクト信号を変換するための第1の分析モジュールを備え、その第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含む。さらに、このエンコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、複数の第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成するための第2の分析モジュールを備え、その第2の変換されたオーディオオブジェクト信号は、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと第2のサブバンドチャネルとを含む。さらに、このエンコーダは、PSI推定ユニットを備え、そのPSI推定ユニットは、起動指示が起動状態に設定されていれば第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ第1の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定するように構成されている。
【0043】
さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するための復号方法が提供される。そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する。本方法は、
複数の分析ウインドウを決定することであって、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、前記分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換することと、
オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む。
【0044】
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するための方法が提供される。それらの2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含んでいる。本方法は、
複数の分析ウインドウを決定することであって、各分析ウインドウは入力されたオーディオオブジェクト信号のうちの1つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換することであって、各分析ウインドウの複数の時間領域信号サンプルの変換はその分析ウインドウのウインドウ長さに依存することと、
変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む。
【0045】
さらに、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによる復号方法であって、そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する、方法が提供される。本方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換することと、
複数の分析ウインドウを決定することであって、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルをその分析ウインドウのウインドウ長さに依存して変換することと、
オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスすること、を含む。
【0046】
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するための方法であって、2つ以上の入力されたオーディオオブジェクト信号の各々が複数の時間領域信号サンプルを含む、方法が提供される。本方法は、
複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換することと、
複数の分析ウインドウを決定することであって、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、複数の分析ウインドウの決定は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように実行されることと、
変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルをその分析ウインドウのウインドウ長さに依存して変換することと、
変換された信号サンプルに依存してパラメトリックサイド情報を決定すること、を含む。
【0047】
さらに、ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成することによる復号方法であって、そのダウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する、方法が提供される。本方法は、
2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定することと、
複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、ダウンミックス信号を変換することと、
複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成することであって、第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含むことと、
起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスし、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスすること、を含む。
【0048】
さらに、2つ以上の入力されたオーディオオブジェクト信号を符号化するための方法が提供される。本方法は、
2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定することと、
前記入力されたオーディオオブジェクト信号の第1の変換されたオーディオオブジェクト信号を得るために、入力されたオーディオオブジェクト信号の各々を変換することであって、前記第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含むことと、
複数の第2のサブバンドチャネルを得るために、入力されたオーディオオブジェクト信号の各々について、起動指示が起動状態に設定されていると、前記入力されたオーディオオブジェクト信号の第1の変換されたオーディオオブジェクト信号の第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成することであって、前記第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない前記第1のサブバンドチャネルと、前記第2のサブバンドチャネルとを含むことと、
起動指示が起動状態に設定されていれば、入力されたオーディオオブジェクト信号の各々の第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ、入力されたオーディオオブジェクト信号の各々の第1の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定すること、を含む。
【0049】
さらに、コンピュータまたは信号プロセッサ上で実行される場合に、上述の方法のうちの1つを実装するためのコンピュータプログラムが提供される。
【0050】
好適な実施形態については、従属請求項において提示される。
【0051】
以下、図面を参照して、本発明の実施形態をより詳細に説明する。
【発明を実施するための形態】
【0053】
本発明の実施形態について述べる前に、従来技術であるSAOCシステムの背景をさらに詳述する。
【0054】
図3はSAOCエンコーダ10およびSAOCデコーダ12の全体の配置を示す。SAOCエンコーダ10は、入力としてN個のオブジェクト、即ちオーディオ信号s
1−s
Nを受信する。具体的には、エンコーダ10は、オーディオ信号s
1−s
Nを受信しかつこれをダウンミックス信号18へダウンミックスするダウンミキサ16を備えている。あるいは、ダウンミックスは外部から提供されてもよく(「アーティスティックダウンミックス」)、その場合、システムは提供されたダウンミックスを計算されたダウンミックスに一致させるために追加的なサイド情報を推定する。
図3において、ダウンミックス信号はPチャネル信号であるものとして示されている。したがって、モノラル(P=1)、ステレオ(P=2)または多チャネル(P>2)ダウンミックス信号構成の何れもが考えられる。
【0055】
ステレオダウンミックスの場合、ダウンミックス信号18のチャネルはL0とR0で示され、モノラルダウンミックスの場合は単にL0で示される。SAOCデコーダ12が個々のオブジェクトs
1−s
Nを回復できるようにするために、サイド情報推定器17はSAOCデコーダ12にSAOCパラメータを含むサイド情報を提供する。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベル差(OLD)、オブジェクト間相関(IOC:inter-object correlation)(オブジェクト間相互相関パラメータ)、ダウンミックス利得値(DMG:downmix gain value)およびダウンミックス・チャネル・レベル差(DCLD:downmix channel level difference)を含む。SAOCパラメータを含むサイド情報20は、ダウンミックス信号18と共に、SAOCデコーダ12により受信されるSAOC出力データストリームを形成する。
【0056】
SAOCデコーダ12は、オーディオ信号
および
を回復してユーザが選択する任意のチャネルセット
上へレンダリングするために、サイド情報20だけでなくダウンミックス信号18も受信するアップミキサを備えている。そのレンダリングは、SAOCデコーダ12へ入力されるレンダリング情報26によって規定される。
【0057】
オーディオ信号s
1−s
Nは、時間領域またはスペクトル領域のような任意の符号化領域でエンコーダ10へ入力することができる。オーディオ信号s
1−s
NがPCM符号化のような時間領域でエンコーダ10へ供給される場合は、エンコーダ10はその信号をスペクトル領域へ伝達するためにハイブリッドQMFバンクのようなフィルタバンクを用いることができ、スペクトル領域において、オーディオ信号は異なるスペクトル部分に関連づけられる幾つかのサブバンドにおいて固有のフィルタバンク分解能で表現される。オーディオ信号s
1−s
Nが既にエンコーダ10により予期される表現になっている場合は、エンコーダ10はスペクトル分解を実行する必要がない。
【0058】
図4は直前で述べたスペクトル領域におけるオーディオ信号を示す。図から分かるように、オーディオ信号は複数のサブバンド信号として表されている。各サブバンド信号30
1−30
Kは、小さいボックス32により示されるサブバンド値の時間シーケンスより成る。図から分かるように、サブバンド信号30
1−30
Kのサブバンド値32は、連続するフィルタバンク時間スロット34の各々について、各サブバンド30
1−30
Kが正確に1つのサブバンド値32を含むように、互いに時間的に同期している。周波数軸36により示されるように、サブバンド信号30
1−30
Kは異なる周波数領域に関連づけられ、かつ時間軸38によって示されるように、フィルタバンク時間スロット34は時間的に連続して配置されている。
【0059】
先に概説したように、
図3のサイド情報抽出器17は、入力されるオーディオ信号s
1−s
NからSAOCパラメータを計算する。現時点で実装されるSAOC標準によれば、エンコーダ10は、この計算を、フィルタバンク時間スロット34およびサブバンド分解により決定されるオリジナルの時間/周波数分解能より所定量だけ低減される場合のある時間/周波数分解能で実行し、この低減された所定量はサイド情報20内の情報としてデコーダ側へ知らされる。連続するフィルタバンク時間スロット34群はSAOCフレーム41を形成することができる。SAOCフレーム41内のパラメータ帯域の数も、同じくサイド情報20内の情報として伝達される。このように、時間/周波数領域は、
図4において破線42により例示される時間/周波数タイルに分割される。
図4において、パラメータ帯域は、時間/周波数タイルの規則的配列が得られるように、図示されている様々なSAOCフレーム41において同様に配分される。しかしながら、一般的には、パラメータ帯域は、個々のSAOCフレーム41におけるスペクトル分解能に対する異なる必要性に応じてSAOCフレーム41間で変わってもよい。さらに、SAOCフレーム41の長さも変わってもよい。結果として、時間/周波数タイルの配列は不規則であってもよい。それにもかかわらず、ある特定のSAOCフレーム41内の時間/周波数タイルは、典型的には同じ持続時間をもって時間方向に配列され、即ち、そのSAOCフレーム41内の全てのt/fタイルは、そのSAOCフレーム41の始まりにおいて始まり、かつそのSAOCフレーム41の終わりで終わる。
【0060】
図3に描かれているサイド情報抽出器17は次の式に従ってSAOCパラメータを計算する。具体的には、サイド情報抽出器17は、各オブジェクトiのオブジェクトレベル差を、
として計算する。ここで、和および指数n、kは各々、SAOCフレーム(または処理用時間スロット)の指数lとパラメータ帯域のmで表わされる所定の時間/周波数タイル42に属する全ての時間指数34および全てのスペクトル指数30に及ぶ。これにより、あるオーディオ信号またはオブジェクトiの全てのサブバンド値χ
iのエネルギーが合計され、かつ全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最高エネルギー値に対して正規化される。x
in,k*はx
in,kの複素共役を示す。
【0061】
さらに、SAOCサイド情報抽出器17は、異なる入力オブジェクトs
1−s
Nのペアの対応する時間/周波数タイルの相似度(similarity measure)を計算することができる。SAOCサイド情報抽出器17は、入力オブジェクトs
1−s
Nの全ペア間の相似度を計算してもよいが、計算した相似度を伝えることを抑えてもよく、または共通ステレオチャネルの右または左のチャネルを形成するオーディオオブジェクトs
1−s
Nに対する相似度の計算を制限してもよい。いずれの場合も、相似度はオブジェクト間相互相関パラメータ(inter-object cross-correlation parameter)
と呼ばれる。計算式は、次の通りである。
ここで、同じく、指数nおよびkは所定の時間/周波数タイル42に属する全てのサブバンド値に及び、iおよびjはオーディオオブジェクトs
1−s
Nの所定のペアを示し、かつRe{ }は複素引数の虚数部を放棄する演算を示す。
【0062】
図3のダウンミキサ16は、オブジェクトs
1−s
Nの各々へ適用される利得係数を用いてオブジェクトs
1−s
Nをダウンミックスする。即ち、利得係数d
iがオブジェクトiへ適用され、次に、こうして重み付けされた全てのオブジェクトs
1−s
Nが合計されてモノラルダウンミックス信号が得られる。これは、
図3においてP=1の場合の例として示される。
図3においてP=2として示される2チャネルダウンミックス信号の別の事例では、利得係数d
1,iがオブジェクトiへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて左のダウンミックスチャネルL0が得られ、かつ利得係数d
2,iがオブジェクトiへ適用され、次にこうして利得増幅された全てのオブジェクトが合計されて右のダウンミックスチャネルR0が得られる。多チャネルダウンミックス(P>2)の場合にも、上記と同様の処理が適用される。
【0063】
このダウンミックス処方は、ダウンミックス利得DMG
iによってデコーダ側へ伝えられ、ステレオダウンミックス信号の場合はダウンミックス・チャネル・レベル差DCLD
iによってデコーダ側へ伝えられる。
【0064】
ダウンミックス利得は、次式、
DMG
i=20log
10(d
i+ε) (モノラルダウンミックス)、
DMG
i=10log
10(d1
1,i2+d1
2,i2+ε) (ステレオダウンミックス)、
に従って計算される。但し、εは10
-9のような小値である。
【0065】
DCLDの場合、次の公式が適用される。
【0066】
正規モードにおいて、ダウンミキサ16は、ダウンミックス信号を、モノラルダウンミックスの場合、
に従って、または、ステレオダウンミックスの場合、
に従って各々生成する。
【0067】
したがって、上述の式において、変数OLDとIOCはオーディオ信号の関数であり、変数DMGとDCLDはdの関数である。ただし、dは時間に関しても周波数に関しても変わりうる。
【0068】
したがって、正規モードにおいて、ダウンミキサ16は全てのオブジェクトs
1−s
Nを優先順位をつけることなく、即ち全てのオブジェクトs
1−s
Nを均等に扱ってミックスする。
【0069】
デコーダ側において、アップミキサは、ダウンミックス手順の逆、および行列R(本明細書ではAと称する場合もある)で表される「レンダリング情報」26の実装を1つの計算ステップにおいて、即ち、2チャネルダウンミックスの場合、
において実行する。但し、行列Eは変数OLDおよびIOCの関数であり、行列Dは、次式のようなダウンミックス係数を含む。
【0070】
行列Eは、オーディオオブジェクトs
1−s
Nの推定される共分散行列である。現行のSAOC実装において、推定される共分散行列Eの計算は、典型的には、SAOCパラメータのスペクトル/時間分解能で実行され、即ち、各(l,m)について実行され、よって、推定される共分散行列をE
l,mと書くことができる。推定される共分散行列E
l,mのサイズはN×Nであり、その係数は、次式のように定義される。
【0071】
したがって、
である行列E
l,mは、i=jの場合、
および
であるので、その対角線沿いにオブジェクトレベル差、即ちi=jの場合の
を有する。その対角線の外側において、推定される共分散行列Eは、オブジェクト間相互相関度(inter-object cross-correlation measure)
で重み付けされたオブジェクトiおよびj各々のオブジェクトレベル差の幾何学的平均を表す行列係数を有する。
【0072】
図5は、SAOCエンコーダ10の一部としてのサイド情報推定器(SIE:Side Information Estimator)の例に関する可能な1つの実装原理を表示したものである。SAOCエンコーダ10は、ミキサ16と、サイド情報推定器(SIE)17とを備えている。サイド情報推定器は、概念的には2つのモジュールより成る。一方のモジュール45は各信号の短時間ベースのt/f表現(例えば、STFTまたはQMF)を計算する。計算された短時間t/f表現は、第2のモジュール46、即ちt/f選択性サイド情報推定モジュール(t/f−SIE:t/f-selective Side Information Estimation module)へ供給される。t/f−SIEモジュール46は各t/f−タイル毎にサイド情報を計算する。現行のSAOC実装においては、時間/周波数変換は固定されており、オーディオオブジェクトs
1−s
Nの全てについて同一である。さらに、SAOCパラメータは、全てのオーディオオブジェクトで同一でありかつ全てのオーディオオブジェクトs
1−s
Nで同じ時間/周波数分解能を有するSAOCフレームに渡って決定され、かくして、幾つかの事例における精密な時間分解能、または他の事例における精密なスペクトル分解能に対するオブジェクト固有のニーズは無視されている。
【0073】
以下、本発明の実施形態について説明する。
【0074】
図1Aは、一実施形態による、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。そのダウンミックス信号は、2つ以上のオーディオオブジェクト信号を符号化する。
【0075】
このデコーダは、(例えば、パラメトリックサイド情報、例えばオブジェクトレベル差、に基づいて)複数の分析ウインドウを決定するためのウインドウシーケンス発生器134を備えており、各分析ウインドウはダウンミックス信号の複数の時間領域ダウンミックスサンプルを含む。複数の分析ウインドウの各分析ウインドウは、その分析ウインドウの時間領域ダウンミックスサンプルの数を示すウインドウ長さを有する。ウインドウシーケンス発生器134は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、ウインドウ長さは、その分析ウインドウが、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化がダウンミックス信号によって符号化されつつあることを示す過渡を含むかどうかに依存することができる。
【0076】
複数の分析ウインドウの決定に際して、ウインドウシーケンス発生器134は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、例えば、パラメトリックサイド情報、例えば2つ以上のオーディオオブジェクト信号に関連する送信されたオブジェクトレベル差、を分析して分析ウインドウのウインドウ長さを決定することができる。あるいは、例えば、複数の分析ウインドウの決定に際して、ウインドウシーケンス発生器134は、ウインドウの形状または分析ウインドウ自体を分析してもよく、その場合、ウインドウ形状または分析ウインドウは、例えば、ビットストリームにおいてエンコーダからデコーダへ送信することができ、各分析ウインドウのウインドウ長さは、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存する。
【0077】
さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数の時間領域ダウンミックスサンプルを、その分析ウインドウのウインドウ長さに依存して時間領域から時間−周波数領域へ変換するためのt/f分析モジュール135を備えている。
【0078】
さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット136を備えている。
【0079】
下記の実施形態は特別なウインドウシーケンス構成機構を用いる。ウインドウ長さN
wについて、指数範囲0≦n≦N
w−1のプロトタイプウインドウ関数f(n,N
w)が定義される。単一のウインドウW
k(n)を設計すると、3つの制御ポイント、即ち先行ウインドウ、現行ウインドウおよび次のウインドウの中心c
k-1、c
kおよびc
k+1が必要とされる。
【0080】
これらを用いると、ウインドウイング関数は、次式のように定義される。
【0081】
よって、実際のウインドウの位置は、
但し
である(
は、次の整数への引数の切り上げ演算を示し、かつ
は、同様に次の整数への引数の切り捨て演算を示す)。本例示において使用されるプロトタイプウインドウ関数は、
として定義される正弦波ウインドウであるが、他の形式を用いることもできる。過渡の位置tは、3つのウインドウの中心c
k-1=t−l
b、c
k=tおよびc
k+1=t+l
aを画定し、数字l
bおよびl
aは過渡前後の所望されるウインドウ範囲を画定する。
【0082】
後に、
図9に関連して説明するように、ウインドウシーケンス発生器134は、例えば、過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心c
kはc
k-1=t−l
bと画定され、第1の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0083】
後に、
図10に関連して説明するように、ウインドウシーケンス発生器134は、例えば、過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成してもよい。その場合、過渡の位置tによって、第1の分析ウインドウの中心c
kはc
k=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心c
k-1はc
k-1=t−l
bと画定され、かつ複数の分析ウインドウのうちの第3の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0084】
後に、
図11に関連して説明するように、ウインドウシーケンス発生器134は、例えば、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを含むように複数の分析ウインドウを決定すべく構成してもよい。その場合、第2の数の時間領域信号サンプルは第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが過渡を含む場合に第1の数の時間領域信号サンプルを含む。
【0085】
一実施形態において、t/f分析モジュール135は、各分析ウインドウの時間領域ダウンミックスサンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成されており、t/f分析ユニット135は、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成されている。
【0086】
図2Aは2つ以上の入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含む。
【0087】
このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット102を備えている。各分析ウインドウは入力されたオーディオオブジェクト信号のうちの1つの信号の複数の時間領域信号サンプルを含み、各分析ウインドウはその分析ウインドウの時間領域信号サンプルの数を示すウインドウ長さを有する。ウインドウシーケンス・ユニット102は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、ウインドウ長さは、その分析ウインドウが、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存することができる。
【0088】
さらに、このエンコーダは、変換された信号サンプルを得るために、各分析ウインドウの時間領域信号サンプルを時間領域から時間−周波数領域へ変換するためのt/f分析ユニット103を備えている。t/f分析ユニット103は、各分析ウインドウの複数の時間領域信号サンプルを、その分析ウインドウのウインドウ長さに依存して変換するように構成することができる。
【0089】
さらに、このエンコーダは、パラメトリックサイド情報を変換された信号サンプルに依存して決定するためのPSI推定ユニット104を備えている。
【0090】
一実施形態において、このエンコーダは、例えば、分析ウインドウの各々について、その分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかを決定するために、2つ以上の入力されたオーディオオブジェクト信号の複数のオブジェクトレベル差を決定するように構成され、かつオブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するように構成された過渡検出ユニット101をさらに備えることができる。
【0091】
一実施形態によれば、過渡検出ユニット101は、オブジェクトレベル差のうちの第1の差と第2の差との差がしきい値を超えているかどうかを決定するために、検出関数d(n)を使用するように構成され、その検出関数d(n)は、
として定義される。但し、nは時間指数を示し、iは第1のオブジェクトを示し、jは第2のオブジェクトを示し、bはパラメトリック帯域を示す。OLDは、例えば、オブジェクトレベル差を示すことができる。
【0092】
後に、
図9に関連して説明するように、ウインドウシーケンス・ユニット102は、例えば、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウと第2の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成することができる。その場合、過渡の位置tによって、第1の分析ウインドウの中心c
kはc
k=t−l
bと画定され、第1の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0093】
後に、
図10に関連して説明するように、ウインドウシーケンス・ユニット102は、例えば、2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡が複数の分析ウインドウのうちの第1の分析ウインドウによって構成されるように、複数の分析ウインドウを決定すべく構成してもよい。その場合、過渡の位置tによって、第1の分析ウインドウの中心c
kはc
k=tと画定され、複数の分析ウインドウのうちの第2の分析ウインドウの中心c
k-1はc
k-1=t−l
bと画定され、かつ複数の分析ウインドウのうちの第3の分析ウインドウの中心c
k+1はc
k+1=t+l
aと画定される。l
aとl
bは数字である。
【0094】
後に、
図11に関連して説明するように、ウインドウシーケンス・ユニット102は、例えば、複数の分析ウインドウの各々が第1の数の時間領域信号サンプルまたは第2の数の時間領域信号サンプルの何れかを含むように、複数の分析ウインドウを決定すべく構成してもよい。その場合、第2の数の時間領域信号サンプルは、第1の数の時間領域信号サンプルより多く、かつ複数の分析ウインドウの各分析ウインドウは、その分析ウインドウが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含む場合に第1の数の時間領域信号サンプルを含む。
【0095】
一実施形態によれば、t/f分析ユニット103は、各分析ウインドウの時間領域信号サンプルを、QMFフィルタバンクとナイキスト・フィルタバンクを使用することにより時間領域から時間−周波数領域へ変換するように構成されており、t/f分析ユニット103は、各分析ウインドウの複数の時間領域信号サンプルをその分析ウインドウのウインドウ長さに依存して変換するように構成されている。
【0096】
以下、実施形態による、後方互換性のある適応フィルタバンクを用いる強化されたSAOCについて述べる。
【0097】
まず、強化されたSAOCデコーダによる標準SAOCビットストリームの復号について説明する。
【0098】
この強化SAOCデコーダは、標準SAOCエンコーダからのビットストリームを高品質で復号することができるように設計されている。その復号は、パラメトリック復元のみに限定され、残余ストリームの可能性は無視される。
【0099】
図6は一実施形態による強化SAOCデコーダを描いたブロック図であり、標準SAOCビットストリームの復号を示している。太黒字の機能ブロック(132、133、134、135)は本発明による処理を示す。パラメトリックサイド情報(PSI:parametric side information)は、オブジェクトレベル差(OLD)、オブジェクト間相関(IOC)、およびデコーダにおける個々のオブジェクトからダウンミックス信号(DMXオーディオ)を生成するために使用されるダウンミックス行列Dの集合より成る。各パラメータセットは、パラメータが関連する時間領域を画定するパラメータ境界に関連づけられる。標準SAOCにおいて、基礎を成す時間/周波数表現の周波数ビンは、パラメトリック帯域にグルーピングされる。帯域の間隔はヒト聴覚系における臨界帯域のそれに似ている。さらに、複数のt/f表現フレームは、パラメータフレームにグルーピングすることができる。これらの動作は共に、モデリングの不正確さという犠牲を伴うが、必要とされるサイド情報の量を低減させる。
【0100】
SAOC標準において述べたように、OLDおよびIOCは、非混合行列(un-mixing matrix)G=ED
TJを計算するために使用され、ここで、Eの要素は、
であってオブジェクト相互相関行列に近似し、iとjはオブジェクト指数であり、J≒(DED
T)
-1であり、かつD
TはDの転置行列である。非混合行列計算器131は、適宜、非混合行列を計算するように構成することができる。
【0101】
非混合行列は、次に、時間補間器132によって、標準SAOCのように、先行フレームの非混合行列からパラメータフレームを経て推定値が到達するパラメータ境界まで線形補間される。これにより、結果的に、各時間/周波数分析ウインドウおよびパラメトリック帯域毎に非混合行列が生じる。
【0102】
非混合行列のパラメトリック帯域周波数分解能は、ウインドウ周波数分解能適合化ユニット133によって、その分析ウインドウにおける時間−周波数表現の分解能まで拡張される。時間フレームにおけるパラメトリック帯域bの補間された非混合行列がG(b)として定義される場合は、そのパラメトリック帯域内部の全ての周波数ビンに同じ非混合係数(un-mixing coefficient)が使用される。
【0103】
ウインドウシーケンス発生器134は、PSIからのパラメータセット範囲情報を用いて、入力されたダウンミックスオーディオ信号を分析するための適切なウインドウイングシーケンスを決定するように構成されている。主たる要件は、そのPSIにパラメータセット境界が存在すれば、連続する分析ウインドウ間のクロスオーバーポイントがこれに一致しなければならないことである。ウインドウイングは、各ウインドウ内のデータの周波数分解能(先に述べたように、非混合データ(un-mixing data)拡張に使用される)も決定する。
【0104】
ウインドウイングされたデータは、次に、t/f分析モジュール135により、適切な時間−周波数変換、例えば離散フーリエ変換(DFT:Discrete Fourier Transform)、複素修正離散コサイン変換(CMDCT:Complex Modified Discrete Cosine Transform)または奇積層離散フーリエ変換(ODFTOddly stacked Discrete Fourier Transform)を用いて、周波数領域表現に変換される。
【0105】
最後に、非混合ユニット136は、ダウンミックス信号Xのスペクトル表現に、フレーム当たり周波数ビン当たりの非混合行列を適用して、パラメトリック復元Yを取得する。出力チャネルjは、ダウンミックスチャネルの線形結合
である。
【0106】
このプロセスによって達成できる品質は、ほとんどの目的に関して、標準SAOCデコーダによって達成される結果とは知覚的に区別不可能である。
【0107】
なお、これまでの記述は、個々のオブジェクトの復元に関するものであるが、標準SAOCにおいてf、レンダリングは、非混合行列に含まれ、即ち、パラメトリック補間に含まれている。線形演算としては、演算の順序は問題ではないが、差分には注目すべきである。
【0108】
以下、強化SAOCデコーダによる強化SAOCビットストリームの復号について述べる。
【0109】
強化SAOCデコーダの主要な機能については、標準SAOCビットストリームの復号において既に述べた。本項では、PSIに導入される強化されたSAOCエンハンスメントを如何に用いれば、より高い知覚品質を達成できるか、について詳述する。
【0110】
図7は、一実施形態によるデコーダの主要な機能ブロックを描いたものであり、周波数分解能エンハンスメントの復号を示している。太黒字の機能ブロック(132、133、134、135)は本発明による処理を示す。
【0111】
まず、帯域上値拡張ユニット141は、各パラメトリック帯域のOLDおよびIOC値を、エンハンスメントにおいて使用される周波数分解能、例えば1024ビンへ適合させる。これは、パラメトリック帯域に対応する周波数ビン上の値を複製することによって行われる。これにより、新しいOLD
およびIOC
が生じる。K(f,b)は、次式によって、周波数ビンfのパラメトリック帯域bへの割当てを定義するカーネル行列である。
【0112】
これと並行して、デルタ関数回復ユニット142は、補正係数パラメータ化を反転して、拡張されたOLDおよびIOCと同じサイズのデルタ関数
を得る。
【0113】
次に、デルタ適用ユニット143が拡張されたOLD値にデルタを適用し、精密分解能OLD値が、
によって得られる。
【0114】
ある特定の実施形態において、非混合行列の計算は、例えば、非混合行列計算器131によって、標準SAOCビットストリームの復号と同様に、即ち、G(f)=E(f)D
T(f)J(f)により行うことができる。ここで、
およびJ(f)≒(D(f)E(f)D
T(f))
-1である。望むなら、レンダリング行列は、非混合行列G(f)へ乗算することができる。続いて、標準SAOCのように、時間補間器132による時間補間が行われる。
【0115】
各ウインドウ内の周波数分解能は、公称高周波数分解能とは異なる(通常は低い)場合があることから、ウインドウ周波数分解能適合化ユニット133は、非混合行列をオーディオからのスペクトルデータの分解能に整合させ、これを適用可能にすべく適合化する必要がある。これは、例えば、周波数軸上の係数を適正な分解能へリサンプリングすることによって行なうことができる。あるいは、分解能が整数倍であれば、単に、高分解能データから、より低い分解能における1つの周波数ビンに対応する指数を平均することによって行なうことができる。
【0116】
ビットストリームからのウインドウイングシーケンス情報は、エンコーダにおいて使用されるものに対して完全に相補的な時間−周波数分析を達成するために使用することができ、または、ウインドウイングシーケンスは、標準SAOCビットストリームの復号において行われるように、パラメータ境界に基づいて構成することができる。そのためにウインドウシーケンス発生器134を使用することができる。
【0117】
次に、ダウンミックスオーディオの時間−周波数分析が、t/f分析モジュール135により、所定のウインドウを用いて実行される。
【0118】
最後に、時間補間されかつ(おそらくは)スペクトル的に適合化された非混合行列が、非混合ユニット136によって、入力オーディオの時間−周波数表現に適用され、出力チャネルjを入力チャネルの線形結合として得ることができる。
【0119】
以下、後方互換性のある強化されたSAOC符号化について述べる。
【0120】
それでは、後方互換性サイド情報部分および追加的なエンハンスメントを含むビットストリームを生成する強化されたSAOCエンコーダについて述べる。既存の標準SAOCデコーダは、PSIの後方互換性部分を復号し、かつオブジェクトの復元を生成することができる。強化SAOCデータにより使用される追加情報は、ほとんどの場合で、復元の知覚品質を向上させる。さらに、強化SAOCデコーダが限定的なリソース上で実行されている場合は、エンハンスメントは無視される可能性があっても、基本的な品質の復元は達成される。留意すべきことは、標準SAOCデコーダからの復元と、標準SAOC準拠PSIのみを用いる強化SAOCデコーダからの復元とは異なるが、知覚的には極めて似ていると判断されることである(その相違は、標準SAOCビットストリームを強化SAOCデコーダで復号する場合と同類のものである)。
【0121】
図8は、上述のエンコーダのパラメトリック経路を実装した特定の一実施形態によるエンコーダを示すブロック図である。太黒字の機能ブロック(102、103)が本発明による処理を示す。具体的には、
図8は、より有能なデコーダのためのエンハンスメントによって後方互換性のあるビットストリームを生成する2段符号化を示すブロック図である。
【0122】
まず、信号は分析フレームに細分され、分析フレームは次に周波数領域へ変換される。複数の分析フレームが固定長のパラメータフレームにグルーピングされる。固定長のパラメータフレームは、例えば、標準SAOCでは、16および32分析フレームの長さが一般的である。そのパラメータフレームの間は、信号特性は準定常に留まり、よって唯一のパラメータセットで特徴づけることができると想定される。信号特性がパラメータフレーム内で変わればモデリングエラーを被るので、より長いパラメータフレームは準定常の想定が満たされるようになる部分に細分することが有益であろう。このために、過渡検出が必要とされる。
【0123】
過渡は、入力される全てのオブジェクトから過渡検出ユニット101によって別々に検出することができ、それらのオブジェクトのうちの唯一のオブジェクトにおいて過渡事象が存在すれば、その位置がグローバルな過渡位置とされる。過渡位置の情報は適切なウインドウイングシーケンスを構成するために使用される。その構成は、例えば、次の論理に基づくことができる。
- デフォルトウインドウ長さ、即ちデフォルトの信号変換ブロックの長さを、例えば2048サンプルに設定する。
- パラメータフレームの長さを、例えば、50%の重なりをもった4つのデフォルトウインドウに対応する4096サンプルに設定する。パラメータフレームは、複数のウインドウを纏めてグルーピングし、ウインドウ毎に記述子を別々に有する代わりに、ブロック全体に単一の信号記述子セットが使用される。これにより、PSIの量を減らすことができる。
- 過渡が検出されていなければ、デフォルトウインドウおよびパラメータフレーム全長を用いる。
- 過渡が検出されれば、過渡の位置においてより優れた時間分解能を与えるようにウインドウイングを適合化する。
【0124】
ウインドウシーケンス・ユニット102は、ウインドウイングシーケンスを構成する一方で、1つまたは複数の分析ウインドウからパラメータサブフレームも生成する。各サブセットが構成要素として分析され、サブブロック毎に唯一のPSIパラメータセットが送信される。標準SAOCと互換性のあるPSIを生成するために、規定のパラメータブロック長さが主たるパラメータブロック長さとして使用され、そのブロック内に位置決めされる可能な過渡がパラメータサブセットを規定する。
【0125】
構成されたウインドウシーケンスは、t/f分析ユニット103が実行する入力オーディオ信号の時間−周波数分析のために出力され、PSIの強化SAOCエンハンスメント部分において送信される。
【0126】
各分析ウインドウのスペクトルデータは、PSI推定ユニット104によって、後方互換性のある(例えば、MPEG)SAOC部分のPSIを推定するために使用される。このPSIの推定は、複数個のスペクトルビンをMPEG SAOCのパラメトリック帯域へグルーピングし、かつこれらの帯域内のIOC、OLDおよび絶対オブジェクトエネルギー(NRG)を推定することによって行われる。MPEG SAOCの表記法におおまかに従えば、パラメータ化タイルにおける2つのオブジェクトスペクトルS
i(f,n)とS
j(f,n)の正規化積は、
と定義される。但し、行列
は、次式によって、(このパラメータフレームにおけるN個のフレームの)フレームnにおけるF
nt/f表現ビンからパラメトリックB帯域へのマッピングを定義し、
かつ、S
*はSの複素共役である。スペクトル分解能は、1つのパラメータブロック内のフレーム間で変わる可能性があり、よって、マッピング行列はデータを共通の分解能ベースに変換する。このパラメータ化タイルにおける最大オブジェクトエネルギーは、最大オブジェクトエネルギー
であるものとして定義される。この値を得れば、OLDは、次式のような正規化されたオブジェクトエネルギーであるものと定義される。
【0127】
最後に、IOCはクロスパワーから次式のように得ることができる。
【0128】
これにより、ビットストリームの標準SAOC互換部分の推定が完結する。
【0129】
粗パワースペクトル復元ユニット105は、OLDおよびNRGを用いてパラメータ分析ブロックにおいてスペクトル包絡線の概算を復元するように構成されている。包絡線は、このブロックにおいて使用される最も高い周波数分解能で構成される。
【0130】
各分析ウインドウのオリジナルのスペクトルは、パワースペクトル推定ユニット106によって、そのウインドウにおけるパワースペクトルを計算するために使用される。
【0131】
得られたパワースペクトルは、周波数分解能適合化ユニット107によって、共通の高周波数分解能表現へ変換される。これは、例えば、パワースペクトル値の補間によって行うことができる。次に、パラメータブロック内のスペクトルを平均することにより、パワースペクトルの平均プロファイルが計算される。これは、パラメトリック帯域集計を省略するOLD推定にほぼ一致する。得られたスペクトルプロファイルは、精密分解能OLDとして考慮される。
【0132】
デルタ推定ユニット108は、補正係数「デルタ」を、例えば、精密分解能OLDを粗なパワースペクトル復元で除することによって推定するように構成することができる。その結果、これは、各周波数ビンに対し、粗なスペクトルが与えられたとすると精密分解能OLDを近似するのに使用することのできる1つの(倍数的な)補正係数を与えるものである。
【0133】
最後に、デルタモデリングユニット109は、推定された補正係数を送信用に効率的にモデリングするように構成されている。
【0134】
効果的には、ビットストリームに対する強化SAOCの修正は、ウインドウイングシーケンス情報と、「デルタ」を送信するためのパラメータとより成る。
【0136】
信号特性が準定常のままであれば、(サイド情報の量に関する)符号化利得は、幾つかの時間フレームをパラメータブロックに結合することによって得ることができる。例えば、標準SAOCの場合、1パラメータブロック当たり16QMFフレームと32QMFフレームという値がよく使用される。これらは、各々、1024サンプルおよび2048サンプルに相当する。パラメータブロックの長さは予め固定値に設定することができる。これによる1つの直接的効果はコーデック遅延である(エンコーダは、フルフレームを保有しなければ、これを符号化することができない)。長いパラメトリックブロックを用いる場合、基本的には準定常な想定が破られる場合の信号特性の著しい変化を検出することが有益であると思われる。著しい変化の位置を発見した後は、その位置で時間領域信号を分割することができ、準定常な想定は、これらの部分によって再びより良好に達成することができる。
【0137】
ここでは、SAOCに関連して使用されるべき新しい過渡検出方法について述べる。厳密な見方をすれば、本方法の目的は、過渡の検出ではなく、例えば音オフセットによって同じくトリガされる可能性のある信号パラメータ化の変化を検出することにある。
【0138】
入力信号は、短い、重なり合ったフレームに分割され、かつこれらのフレームは、例えば離散フーリエ変換(DFT:Discrete Fourier Transform)によって周波数領域へ変換される。複素スペクトルは、その複素共役を有する値を乗算する(即ち、その絶対値を二乗する)ことにより、パワースペクトルへ変換される。次に、標準SAOCにおいて使用されるものに類似するパラメトリック帯域グルーピングが使用され、各オブジェクトにおける各時間フレーム内の各パラメトリック帯域のエネルギーが計算される。演算は、簡単に言えば、
であり、ここで、S
i(f,n)はオブジェクトiの時間フレームnにおける複素スペクトルである。合計は、帯域bにおける周波数ビンfに渡って行われる。データから何らかの雑音効果を除去するために、値は、一次IIRフィルタ
によって低域通過フィルタリングされる。但し、0≦a
LP≦1はフィルタフィードバック係数であり、例えば、a
LP=0.9である。
【0139】
SAOCにおける主たるパラメータ化は、オブジェクトレベル差(OLD)である。提案する検出方法は、OLDがいつ変わるか、を検出しようとする。したがって、全てのオブジェクトペアが、
を用いて調べられる。全ての一意のオブジェクトペアの変化は、次式によって検出関数へと合計される。
【0140】
取得された値は、しきい値Tと比較されて僅かなレベル偏差がフィルタリングで除かれ、連続する検出間の最小距離Lが強化される。したがって、検出関数は、次のようになる。
【0141】
以下、強化されたSAOC周波数分解能について述べる。
【0142】
標準SAOC分析から得られる周波数分解能は、標準SAOCにおいて最大値28を有するパラメトリック帯域数に限定される。これらは、最も低い帯域上でこれらの帯域をさらに4つまでの複合サブバンドに分割するハイブリッドフィルタリング段へと続く64バンドQMF分析より成るハイブリッドフィルタバンクから得られる。取得される周波数帯域は、ヒト聴覚系の臨界帯域分解能を模倣するパラメトリック帯域にグルーピングされる。そのグルーピングにより、必要とされるサイド情報データレートを下げることができる。
【0143】
既存のシステムは、適度に低いデータレートであれば適度な分離品質をもたらす。主たる問題点は、トーン音をきれいに分離するには不十分な周波数分解能にある。これは、オブジェクトのトーン成分を取り巻く他のオブジェクトの「ハロ(halo)」として表れる。知覚的には、これは、粗さまたはボコーダ状アーティファクトとして観測される。このハロの有害な影響は、パラメトリック周波数分解能を増大させることによって減らすことができる。(44.1kHzのサンプリング速度で)512バンド以上の分解能は、試験信号において知覚的に良好な分離をもたらすことが示されている。この分解能は、既存のシステムのハイブリッドフィルタリング段を拡張することによって達成することも可能ではあるが、十分な分離のためにはハイブリッドフィルタが極めて高次である必要があると思われ、計算コストが高くなる。
【0144】
必要とされる周波数分解能を達成する単純な方法は、DFTベースの時間周波数変換を用いることである。これらは、高速フーリエ変換(FFT:Fast Fourier Transform)アルゴリズムによって効率的に実装することができる。通常のDFTの代わりとなる代替方法としては、CMDCTまたはODFTが考えられる。相違点は、後者の2つが奇数であって、達成されるスペクトルが純粋な正および負の周波数を含むことにある。DFTと比較すると、周波数ビンは、0.5ビン幅だけシフトされる。DFTでは、一方のビンの中心が0Hzであり、かつもう一方のビンのそれはナイキスト周波数である。ODFTとCMDCTとの相違点は、CMDCTが位相スペクトルに影響する追加的な変調後演算を含むことにある。これによる利点は、結果的に得られる複素スペクトルが、変形離散コサイン変換(MDCT:Modified Discrete Cosine Transform)および変形離散サイン変換(MDST:Modified Discrete Sine Transform)より成ることにある。
【0145】
長さNのDFTベース変換はN個の値を有する複素スペクトルを生成する。変換されたシーケンスが実数値であれば、完全な復元に必要なものはこれらの値のN/2個であり、他のN/2個の値はこれらの所与の値から単純な操作で得ることができる。分析は、通常、信号からN個の時間領域サンプルより成るフレームを取り出し、これらの値にウインドウイング関数を適用し、次にウインドウイングされたデータに対する実際の変換を計算して行なう。連続するブロックは、時間的に50%重複し、かつウインドウイング関数は、連続するウインドウの二乗の合計が1になるように設計される。これにより、ウインドウイング関数がデータに2回適用される場合(時間領域信号を分析する際の1回目と、合成変換後、重複加算前の2回目)、信号修正のない分析プラス合成チェーンは、ロスレスであることが保証される。
【0146】
連続するフレーム間の重複が50%で、サンプルのフレーム長さが2048とすれば、効果的な時間分解能は1024サンプルである(44.1kHzのサンプリング速度における23.2ミリ秒に相当する)。これは、まず、標準SAOCエンコーダにより生成されるビットストリームを復号できること、第2に、必要であれば、信号を強化SAOCエンコーダにおいてより精密な時間分解能で分析できることが望ましい、という2つの理由にとって小さい値ではない。
【0147】
SAOCでは、複数のブロックをパラメータフレームにグルーピングすることが可能である。信号特性は、パラメータフレームを通じて、そのパラメータフレームが単一のパラメータセットで特徴づけられるに足る類似性を保つことが想定される。標準SAOCにおいて通常遭遇するパラメータフレームの長さは、16QMFフレームまたは32QMFフレーム(標準により許容される長さは、72QMFフレームまで)である。高周波数分解能を有するフィルタバンクを用いる場合も類似のグルーピングを行うことができる。パラメータフレームの間に信号特性が変わらない場合、グルーピングは、品質低下を生じることのない符号化効率を提供する。しかしながら、パラメータフレーム内で信号特性が変わる場合、グルーピングは、エラーを誘導する。標準SAOCでは準定常信号によって使用されるデフォルトのグルーピング長さを規定できるだけでなく、パラメータサブブロックも規定できる。サブブロックはデフォルト長さより短いグルーピングを規定し、かつパラメータ化はサブブロック毎に別々に行われる。基礎を成すQMFバンクの時間分解能に起因して、結果的に得られる時間分解能は64時間領域サンプルであり、これは、高周波数分解能を有する固定フィルタバンクを用いて達成可能な分解能より遙かに精密である。この要件は、強化SAOCデコーダに影響を与える。
【0148】
変換長さが大きいフィルタバンクの使用は、良好な周波数分解能を提供するが、同時に時間分解能は低下する(所謂、不確定性原理)。単一の分析フレーム内で信号特性が変われば、低時間分解能が合成出力におけるブラーリング(blurring)を引き起こすことがある。したがって、信号が著しく変化する位置においてサブフレーム時間分解能を達成することが有益であると思われる。サブフレーム時間分解能は、当然ながら、より低い周波数分解能に繋がるが、信号変化の間は、時間分解能の方が正確に捕捉されるべき重要な側面であることが想定される。このサブフレーム時間分解能要件は、主として強化SAOCエンコーダに(および必然的に、結果的にデコーダにも)影響を与える。
【0149】
この同じ解法原理は次の2つの場合にも用いることができる。すなわち、信号が準定常である(過渡が検出されない)場合とパラメータ境界が存在しない場合に長い分析フレームを用いるということである。これらの2つの条件のうちの何れかが欠ければ、ブロック長さのスイッチングスキームを使用する。この条件に関しては、(標準SAOCビットストリームを復号する間に)分割されていないフレームグループ間に存在しかつ2つの長いウインドウ間のクロスオーバーポイントに一致するパラメータ境界を例外とすることができる。このような場合、信号特性は、高分解能フィルタバンクにとって十分な定常性を保つことが想定される。パラメータ境界が(ビットストリームまたは過渡検出器から)伝えられると、フレーミングはより小さいフレーム長さを用いるように調整され、よって、時間分解能が局部的に高まる。
【0150】
最初の2実施形態は、同じ基本的なウインドウシーケンス構成機構を用いる。ウインドウ長さNのプロトタイプウインドウ関数f(n,N)を、指数範囲0≦n≦N−1で定義する。単一のウインドウW
k(n)を設計すると、3つの制御ポイント、即ち先行ウインドウ、現行ウインドウおよび次のウインドウの中心、c
k-1、c
kおよびc
k+1が必要とされる。
【0151】
これらを用いると、ウインドウイング関数は、次式のように定義される。
【0152】
よって、実際のウインドウの位置は、
となる。但し、
である。本例示において使用されるプロトタイプウインドウ関数は、
として定義される正弦波ウインドウであるが、他の形式を用いることもできる。
【0153】
以下、一実施形態による、過渡におけるクロスオーバについて述べる。
【0154】
図9は、「過渡におけるクロスオーバ」ブロックのスイッチングスキームの原理を示したものである。具体的には、
図9は、過渡におけるウインドウ・クロスオーバ・ポイントに対応するための正規ウインドウイングシーケンスの適合化を示す。線111は時間領域信号サンプルを表し、垂線112は検出された過渡(またはビットストリームからのパラメータ境界)の位置tを表し、線113はウインドウイング関数およびその時間範囲を示す。このスキームは、ウインドウの急峻さを規定する、過渡を取り巻く2つのウインドウw
kとw
k+1の間の重なりの量を決定することを必要とする。重なりの長さが小値に設定される場合、これらのウインドウは、その最大点を過渡の近くに有し、かつ過渡をまたぐ部分は急速に減衰する。重なりの長さも過渡の前後で異なる可能性がある。この手法では、過渡を囲む2つのウインドウまたはフレームの長さが調整される。過渡の位置は、取り囲むウインドウの中心をc
k=t−l
bおよびc
k+1=t+l
aであるように画定する。ここで、l
bおよびl
aは、各々、過渡の前および後の重なりの長さである。これらが画定されれば、上述の方程式を用いることができる。
【0155】
以下、一実施形態による過渡分離について述べる。
【0156】
図10は、一実施形態による、過渡分離ブロックのスイッチングスキームの原理を示す。過渡上には短いウインドウw
kの中心が位置し、隣接する2つのウインドウw
k-1とw
k+1は、この短いウインドウを補足するように調整される。効果的には、隣接するウインドウは過渡に位置に限定され、よって、先行するウインドウは過渡より前にのみ信号を含み、かつ後続ウインドウは過渡後にのみ信号を含む。この手法において、過渡は3つのウインドウの中心c
k=t−l
b、c
k=tおよびc
k+1=t+l
aを画定し、l
bおよびl
aは過渡より前と後の所望されるウインドウ範囲を画定する。これらが画定されれば、上述の方程式を用いることができる。
【0157】
以下、一実施形態による、AAC状フレーミングについて述べる。
【0158】
先に述べた2つのウインドウイングスキームの自由度は、必ずしも必要とされない場合がある。知覚オーディオ符号化の分野では、異なる過渡処理も使用される。その場合の目的は、所謂プレエコーを引き起こすと思われる過渡の時間的拡散を低減することにある。MPEG−2/4AAC[AAC]では、LONG(サンプル長さ、2048)およびSHORT(サンプル長さ、256)という、2つの基本的なウインドウ長さが使用される。これらの2つに加えて、LONGからSHORTへ、かつその逆の遷移を有効化する2つの遷移ウインドウも規定されている。追加的な制約として、SHORTウインドウは8個のウインドウより成るグループにおいて発生する必要がある。この方法では、ウインドウ間およびウインドウグループ間のストライドが、1024サンプルという一定の値を保つ。
【0159】
SAOCシステムが、オブジェクト信号、ダウンミックスまたはオブジェクト残留のためのAACベースコーデックを使用する場合は、このコーデックと容易に同期できるフレーミングスキームを有することが有益であると思われる。こうした理由により、AACウインドウに基づくブロックのスイッチングスキームについて述べる。
【0160】
図11はAAC状ブロックスイッチングの一例を描いたものである。具体的には、
図11は、過渡を有する同じ信号、および結果として生じるAAC状ウインドウイングシーケンスを示す。過渡の時間的位置は、8個のSHORTウインドウでカバーされ、これらは、LONGウインドウからLONGウインドウまでの遷移ウインドウによって囲まれていることが分かる。図から、過渡自体の中心は、単一のウインドウ内にも、2ウインドウ間のクロスオーバーポイントにも存在しないことが分かる。これは、ウインドウの位置が1つのグリッドに固定されるものの、このグリッドは、同時に一定のストライドを保証することに起因する。結果的に生じる時間的な丸め誤差は、LONGウインドウのみを使用することで生じる誤差に比べれば、知覚的に無関係であるとするに足る僅かなものであることが想定される。
【0161】
ウインドウは、下記のように定義される。
- LONGウインドウ:W
LONG(n)=f(n,N
LONG)、但しN
LONG=2048である。
- SHORTウインドウ:W
SHORT(n)=f(n,N
SHORT)、但しN
SHORT=256である。
- LONGからSHORTへの遷移ウインドウ
- SHORTからLONGへの遷移ウインドウ:W
STOP(n)=W
START(N
LONG−n−1)
【0162】
以下、実施形態による実装変形例について述べる。
【0163】
ブロックのスイッチングスキームに関わらず、設計の別の選択肢として、実際のt/f変換の長さがある。主たる目的が、後続の周波数領域演算をその分析フレームに渡って単純に保つことであれば、一定の変換長さを用いることができる。その長さは、適切な大値に、例えば、許容される最大フレームの長さに一致する大きな値に設定される。時間領域フレームがこの値より短ければ、その時間領域フレームは全長までゼロ詰めされる。留意すべきことは、ゼロ詰めの後、スペクトルがより多数のビンを有するとしても、実際の情報の量は、より短い変換と比較して増大されないことである。この場合、カーネル行列K(b,f,n)は、nの全ての値に対して同じ次元を有する。
【0164】
別の代替方法は、ウインドウイングされたフレームをゼロ詰めなしに変換するものである。これは、計算の複雑さが一定の変換長さの場合より小さい。しかしながら、カーネル行列K(b,f,n)の場合、連続するフレーム間の異なる周波数分解能を考慮する必要がある。
【0165】
以下、一実施形態による拡張されたハイブリッドフィルタリングについて述べる。
【0166】
より高い周波数分解能を達成するための別の可能性は、標準SAOCに使用されるハイブリッドフィルタバンクを、より精密な分解能用に修正することにあると思われる。標準SAOCでは、64個のQMF帯域のうちの最下の3つがナイキスト−フィルタバンクを通過され、帯域コンテンツがさらに細分される。
【0167】
図12は拡張されたQMFハイブリッドフィルタリングを示す。ナイキストフィルタはQMF帯域毎に別々に反復され、出力は単一の高分解能スペクトル用に結合される。具体的には、
図12は、各QMF帯域を、例えば16のサブバンドに細分する(32サブバンドへの複素フィルタリングを必要とする)、DFTベース手法が必要とするものに比較し得る周波数分解能を達成する方法を示している。この手法の欠点は、必要とされるフィルタプロトタイプが、帯域の狭さに起因して長いことにある。これにより、何らかの処理遅延が生じ、かつ計算の複雑さが増す。
【0168】
ある代替方法は、ナイキストフィルタ・セットを効率的なフィルタバンク/変換(例えば、「ズーム」DFT、離散コサイン変換、他)で置換することにより、拡張されたハイブリッドフィルタリングを実装することである。さらに、結果的な高分解能スペクトル係数に包含される、第1のフィルタ段(この場合は、QMF)の漏出効果に起因して生じるエイリアシングは、周知のMPEG−1/2レイヤ3ハイブリッドフィルタバンク[FB][MPEG−1]に類似する高分解能スペクトル係数のエイリアシング相殺ポスト処理によって大幅に低減させることができる。
【0169】
図1Bは、ある対応する実施形態による、複数の時間領域ダウンミックスサンプルを含むダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。ダウンミックス信号は、2つ以上のオーディオオブジェクト信号を符号化する。
【0170】
このデコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域ダウンミックスサンプルを変換するための第1の分析サブモジュール161を備えている。
【0171】
さらに、このデコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス発生器162を備え、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、複数の分析ウインドウの各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有する。ウインドウシーケンス発生器162は、各分析ウインドウのウインドウ長さが2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを、例えばパラメトリックサイド情報に基づいて決定すべく構成されている。
【0172】
さらに、このデコーダは、変換されたダウンミックスを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュール163を備えている。
【0173】
さらに、このデコーダは、オーディオ出力信号を得るために、変換されたダウンミックスを、2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいてアンミックスするための非混合ユニット164を備えている。
【0174】
言い替えれば、その変換は2段階で実行される。第1の変換段階では、各々が複数のサブバンドサンプルを含む複数のサブバンドが生成される。次に、第2の段階において、さらなる変換が実行される。とりわけ、第2の段階に使用される分析ウインドウは、結果的に得られる変換されたダウンミックスの時間分解能および周波数分解能を決定する。
【0175】
図13は、変換にショートウインドウが使用される一例を示す。ショートウインドウの使用は、低周波数分解能に繋がるが、時間分解能を高くする。ショートウインドウの使用は、例えば、符号化されたオーディオオブジェクト信号に過渡が存在する場合に適切であることがある。(u
i,jはサブバンドサンプルを示し、v
s,rは時間−周波数領域における変換されたダウンミックスのサンプルを示す。)
【0176】
図14は、変換に、
図13の例よりも長いウインドウが使用される一例を示す。ロングウインドウの使用は、高周波数分解能に繋がるが、時間分解能を低くする。ロングウインドウの使用は、例えば、符号化されたオーディオオブジェクト信号に過渡が存在しない場合に適切であることがある。(この場合も同じく、u
i,jはサブバンドサンプルを示し、v
s,rは時間−周波数領域における変換されたダウンミックスのサンプルを示す。)
【0177】
図2Bは、一実施形態による、2つ以上の入力されたオーディオオブジェクト信号を符号化するための対応するエンコーダを示す。2つ以上の入力されたオーディオオブジェクト信号は各々、複数の時間領域信号サンプルを含む。
【0178】
このエンコーダは、複数のサブバンドサンプルを含む複数のサブバンドを得るために、複数の時間領域信号サンプルを変換するための第1の分析サブモジュール171を備えている。
【0179】
さらに、このエンコーダは、複数の分析ウインドウを決定するためのウインドウシーケンス・ユニット172を備え、各分析ウインドウは複数のサブバンドのうちの1つのサブバンドの複数のサブバンドサンプルを含み、各分析ウインドウはその分析ウインドウのサブバンドサンプルの数を示すウインドウ長さを有し、ウインドウシーケンス・ユニット172は、各分析ウインドウのウインドウ長さが2つ以上の入力されたオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存するように、複数の分析ウインドウを決定すべく構成されている。例えば、(任意選択の)過渡検出ユニット175は、入力されたオーディオオブジェクト信号のうちの1つの信号に過渡が存在するかどうかに関する情報をウインドウシーケンス・ユニット172へ提供することができる。
【0180】
さらに、このエンコーダは、変換された信号サンプルを得るために、複数の分析ウインドウの各分析ウインドウの複数のサブバンドサンプルを、その分析ウインドウのウインドウ長さに依存して変換するための第2の分析モジュール173を備えている。
【0181】
さらに、このエンコーダは、変換された信号サンプルに依存してパラメトリックサイド情報を決定するためのPSI推定ユニット174を備えている。
【0182】
他の実施形態によれば、分析を2段階で実行するために2つの分析モジュールが存在してもよいが、第2のモジュールは信号特性に依存してオンとオフが切り換えられる。
【0183】
例えば、高い周波数分解能が要求され、かつ低い時間分解能を容認できれば、第2の分析モジュールはオンに切り換えられる。
【0184】
これに対して、高い時間分解能が要求され、かつ低い周波数分解能を容認できれば、第2の分析モジュールはオフに切り換えられる。
【0185】
図1Cは、このような実施形態による、ダウンミックス信号から1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するためのデコーダを示す。そのダウンミックス信号は、1つまたは複数のオーディオオブジェクト信号を符号化する。
【0186】
このデコーダは、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット181を備えている。
【0187】
さらに、このデコーダは、複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、ダウンミックス信号を変換するための第1の分析モジュール182を備えている。
【0188】
さらに、このデコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたダウンミックスを生成するための第2の分析モジュール183を備え、第2の変換されたダウンミックスは、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含む。
【0189】
さらに、このデコーダは、非混合ユニット184を備え、非混合ユニット184は、起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスするように、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスするように構成されている。
【0190】
図15は、高い周波数分解能が要求され、かつ低い時間分解能を容認できる一例を示す。結果的に、制御ユニット181は起動指示を起動状態に設定することによって(例えば、ブール変数(boolean variable)「activation_indication」を、「activation_indication=true」に設定することによって)、第2の分析モジュールをオンに切り換える。ダウンミックス信号は、第1の分析モジュール182(
図15には示されていない)によって変換され、第1の変換されたダウンミックスが得られる。
図15の例では、変換されたダウンミックスが3つのサブバンドを有する。より現実的なアプリケーションシナリオでは、変換されたダウンミックスは、例えば、32個のサブバンドまたは64個のサブバンドを有することができる。次に、第1の変換されたダウンミックスは、第2の分析モジュール183(
図15には示されていない)によって変換され、第2の変換されたダウンミックスが得られる。
図15の例では、変換されたダウンミックスが9個のサブバンドを有する。より現実的なアプリケーションシナリオでは、変換されたダウンミックスは、例えば、512個のサブバンド、1024個のサブバンドまたは2048個のサブバンドを有することができる。次に、非混合ユニット184は、第2の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得る。
【0191】
例えば、非混合ユニット184は、制御ユニット181から起動指示を受信することができる。あるいは、例えば、非混合ユニット184は、第2の分析モジュール183から第2の変換されたダウンミックスを受信する場合はいつも、第2の変換されたダウンミックスがアンミックスされなければならないものと決定し、第2の分析モジュール183から第2の変換されたダウンミックスをしない場合はいつも、第1の変換されたダウンミックスがアンミックスされなければならないものと決定するようにする。
【0192】
図16は、高い時間分解能が要求され、かつ低い周波数分解能を容認できる一例を示す。結果的に、制御ユニット181は、起動指示を起動状態とは異なる状態に設定することによって(例えば、ブール変数「activation_indication」を、「activation_indication=false」に設定することによって)、第2の分析モジュールをオフに切り換える。ダウンミックス信号は、第1の分析モジュール182(
図16には示されていない)によって変換され、第1の変換されたダウンミックスが得られる。次は、
図15とは対照的に、第1の変換されたダウンミックスは、第2の分析モジュール183によってもう一度変換されることはない。その代わりに、非混合ユニット184は、第1の変換されたダウンミックスをアンミックスしてオーディオ出力信号を得る。
【0193】
一実施形態によれば、制御ユニット181は、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つが、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号変化を示す過渡を含むかどうかに依存して、起動指示を起動状態に設定するように構成されている。
【0194】
別の実施形態では、サブバンド変換指示が第1のサブバンドチャネルの各々へ割り当てられる。制御ユニット181は、1つまたは複数のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して、第1のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成されている。さらに、第2の分析モジュール183は、そのサブバンド変換指示がサブバンド変換状態に設定されている第1のサブバンドチャネルの各々を変換して複数の第2のサブバンドチャネルを取得するように、かつそのサブバンド変換指示がサブバンド変換状態に設定されていない第2のサブバンドチャネルの各々を変換しないように構成されている。
【0195】
図17は、制御ユニット181(
図17には示されていない)が第2のサブバンドのサブバンド変換指示をサブバンド変換状態に(例えば、ブール変数「subband_transform_indication_2」を、「subband transform_indication_2=true」に設定することによって)設定した一例を示す。したがって、第2の分析モジュール183(
図17には示されていない)は、第2のサブバンドを変換して3つの新しい「精密分解能」サブバンドを得る。
図17の例では、制御ユニット181は、第1および第3のサブバンドのサブバンド変換指示をサブバンド変換状態に設定していない(例えば、これは、制御ユニット181がブール変数「subband_transform_indication_1」および「subband_transform_indication_3」を「subband transform_indication_1=false」および「subband transform_indication_3=false」に設定することによって示すことができる)。したがって、第2の分析モジュール183は第1および第3のサブバンドを変換しない。その代わりに、第1のサブバンドおよび第3のサブバンドは、これら自体が第2の変換されたダウンミックスのサブバンドとして使用される。
【0196】
図18は、制御ユニット181(
図18には示されていない)が第1および第2のサブバンドのサブバンド変換指示をサブバンド変換状態に(例えば、ブール変数「subband_transform_indication_1」を「subband transform_indication_1=true」に設定することによって、かつ例えば、ブール変数「subband_transform_indication_2」を「subband transform_indication_2=true」に設定することによって)設定した一例を示す。したがって、第2の分析モジュール183(
図18には示されていない)は、第1および第2のサブバンドを変換して6つの新しい「精密分解能」サブバンドを得る。
図18の例では、制御ユニット181は、第3のサブバンドのサブバンド変換指示をサブバンド変換状態に設定していない(例えば、これは、制御ユニット181がブール変数「subband_transform_indication_3」を「subband transform_indication_3=false」に設定することによって示すことができる)。したがって、第2の分析モジュール183は第3のサブバンドを変換しない。その代わりに、第3のサブバンドは、それ自体が第2の変換されたダウンミックスのサブバンドとして使用される。
【0197】
一実施形態によれば、第1の分析モジュール182は、複数の第1のサブバンドチャネルを含む第1の変換されたダウンミックスを得るために、直交ミラーフィルタ(QMF)を使用することによりダウンミックス信号を変換するように構成されている。
【0198】
一実施形態において、第1の分析モジュール182はダウンミックス信号を第1の分析ウインドウ長さに依存して変換するように構成され、第1の分析ウインドウ長さはその信号特性に依存し、かつ/または第2の分析モジュール183は、起動指示が起動状態に設定されていると、第1のサブバンドチャネルのうちの少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより第2の変換されたダウンミックスを生成するように構成され、第2の分析ウインドウ長さはその信号特性に依存する。このような実施形態は、第2の分析モジュール183のオンとオフの切換え、および分析ウインドウの長さの設定を実現する。
【0199】
一実施形態において、デコーダは、ダウンミックス信号から、1つまたは複数のオーディオ出力チャネルを含むオーディオ出力信号を生成するように構成され、そのウンミックス信号は2つ以上のオーディオオブジェクト信号を符号化する。制御ユニット181は、2つ以上のオーディオオブジェクト信号のうちの少なくとも1つの信号の信号特性に依存して起動指示を起動状態に設定するように構成されている。さらに、非混合ユニット184は、起動指示が起動状態に設定されていれば、オーディオ出力信号を得るために1つまたは複数のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第2の変換されたダウンミックスをアンミックスするように、かつ起動指示が起動状態に設定されていなければ、オーディオ出力信号を得るために2つ以上のオーディオオブジェクト信号に関するパラメトリックサイド情報に基づいて第1の変換されたダウンミックスをアンミックスするように構成されている。
【0200】
図2Cは、一実施形態による、入力されたオーディオオブジェクト信号を符号化するためのエンコーダを示す。
【0201】
このエンコーダは、入力されたオーディオオブジェクト信号の信号特性に依存して起動指示を起動状態に設定するための制御ユニット191を備えている。
【0202】
さらに、このエンコーダは、第1の変換されたオーディオオブジェクト信号を得るために、入力されたオーディオオブジェクト信号を変換するための第1の分析モジュール192を備え、第1の変換されたオーディオオブジェクト信号は複数の第1のサブバンドチャネルを含む。
【0203】
さらに、このエンコーダは、複数の第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていると、複数の第1のサブバンドチャネルのうちの少なくとも1つを変換することによって第2の変換されたオーディオオブジェクト信号を生成するための第2の分析モジュール193を備え、第2の変換されたオーディオオブジェクト信号は、第2の分析モジュールによって変換されていない第1のサブバンドチャネルと、第2のサブバンドチャネルとを含む。
【0204】
さらに、このエンコーダは、PSI推定ユニット194を備え、PSI推定ユニット194は、起動指示が起動状態に設定されていれば、第2の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定し、かつ起動指示が起動状態に設定されていなければ、第1の変換されたオーディオオブジェクト信号に基づいてパラメトリックサイド情報を決定するように構成されている。
【0205】
一実施形態によれば、制御ユニット191は、入力されたオーディオオブジェクト信号が、入力されたオーディオオブジェクト信号の信号変化を示す過渡を含むかどうかに依存して、起動指示を起動状態に設定するように構成されている。
【0206】
別の実施形態では、サブバンド変換指示が第1のサブバンドチャネルの各々へ割り当てられる。制御ユニット191は、入力されたオーディオオブジェクト信号の信号特性に依存して、第1のサブバンドチャネルの各々のサブバンド変換指示をサブバンド変換状態に設定するように構成されている。第2の分析モジュール193は、そのサブバンド変換指示がサブバンド変換状態に設定されている第1のサブバンドチャネルの各々を変換して複数の第2のサブバンドチャネルを取得するように、かつそのサブバンド変換指示がサブバンド変換状態に設定されていない第2のサブバンドチャネルの各々を変換しないように構成されている。
【0207】
一実施形態によれば、第1の分析モジュール192は、入力されたオーディオオブジェクト信号の各々を直交ミラーフィルタを使用することによって変換するように構成されている。
【0208】
別の実施形態において、第1の分析モジュール192は、入力されたオーディオオブジェクト信号を第1の分析ウインドウ長さに依存して変換するように構成され、第1の分析ウインドウ長さはその信号特性に依存し、かつ/または第2の分析モジュール193は、起動指示が起動状態に設定されていると、複数の第1のサブバンドチャネルのうちの少なくとも1つを第2の分析ウインドウ長さに依存して変換することにより第2の変換されたオーディオオブジェクト信号を生成するように構成され、第2の分析ウインドウ長さはその信号特性に依存する。
【0209】
別の実施形態によれば、エンコーダは、入力されたオーディオオブジェクト信号および少なくとも1つのさらなる入力されたオーディオオブジェクト信号を符号化するように構成されている。制御ユニット191は、入力されたオーディオオブジェクト信号の信号特性に依存して、かつ少なくとも1つのさらなる入力されたオーディオオブジェクト信号の信号特性に依存して、起動指示を起動状態に設定するように構成されている。第1の分析モジュール192は、少なくとも1つのさらなる入力されたオーディオオブジェクト信号を変換して少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号を得るように構成され、少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号は、各々、複数の第1のサブバンドチャネルを含む。第2の分析モジュール193は、複数のさらなる第2のサブバンドチャネルを得るために、起動指示が起動状態に設定されていれば、少なくとも1つのさらなる第1の変換されたオーディオオブジェクト信号のうちの少なくとも1つの信号の複数の第1のサブバンドチャネルのうちの少なくとも1つを変換するように構成されている。さらに、PSI推定ユニット194は、起動指示が起動状態に設定されていれば、複数のさらなる第2のサブバンドチャネルに基づいてパラメトリックサイド情報を決定するように構成されている。
【0210】
本発明による方法および装置は、固定フィルタバンクまたは時間−周波数変換を用いる従来技術SAOC処理による上述の欠点を軽減する。より優れた主観的オーディオ品質は、SAOC内のオーディオオブジェクトの分析および合成に使用される変換またはフィルタバンクの時間/周波数分解能を動的に適合化することによって達成することができる。同時に、時間精度の欠如により生じるプレエコーおよびポストエコーのようなアーティファクト、および不十分なスペクトル精度により生じる聴覚粗さおよびダブルトークのようなアーティファクトは、同一のSAOCシステム内で最小限に抑えることができる。最も重要なこととして、本発明による適応型変換を備えた強化されたSAOCシステムは、標準SAOCとの後方互換性を保持し、しかも標準SAOCのそれに比肩し得る優れた知覚品質を提供する。
【0211】
実施形態は、これまでに述べたようなオーディオエンコーダ、またはオーディオ符号化方法、または関連のコンピュータプログラムを提供する。さらに、実施形態は、これまでに述べたようなオーディオエンコーダ、またはオーディオ復号方法、または関連のコンピュータプログラムを提供する。さらに、実施形態は、これまでに述べたような符号化されたオーディオ信号、または符号化されたオーディオ信号を格納している記憶媒体を提供する。
【0212】
幾つかの態様は、装置について記述されているが、これらの態様が、対応する方法に関する記述でもあることは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップについて記述されている態様は、対応するブロック、アイテム、または対応する装置の特徴を記述するものでもある。
【0213】
本発明による分解された信号は、デジタル記憶媒体に格納することができ、または伝送媒体上、例えば無線伝送媒体上もしくはインターネット等の有線伝送媒体上で送信することができる。
【0214】
所定の実装要件に依存して、本発明の実施形態は、ハードウェアまたはソフトウェアに実装することができる。その実装は、個々の方法が実行されるようにプログラム可能コンピュータシステムと協働する(または、協働することができる)電子的に読取り可能な制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ、を用いて実行することができる。
【0215】
本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの1つが実行されるように、プログラム可能コンピュータシステムと協働することができる電子的に読取り可能な制御信号を有する非一時的データキャリアを含む。
【0216】
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとして実装することができる。そのプログラムコードは、そのコンピュータ・プログラム・プロダクトがコンピュータ上で実行されると本発明の方法のうちの1つを実行するように動作可能なものである。そのプログラムコードは、例えば、機械読取り可能キャリア上へ格納することができる。
【0217】
他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0218】
したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0219】
したがって、本発明方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを記録して備えるデータキャリア(または、デジタル記憶媒体、またはコンピュータ読取り可能媒体)である。
【0220】
したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
【0221】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するように構成され、または適合化される処理手段、例えばコンピュータ、またはプログラマブル論理デバイスを含む。
【0222】
さらなる実施形態は、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0223】
実施形態によっては、本明細書に記述されている方法の機能のうちの幾つか、または全てを実行するために、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用することができる。実施形態によっては、フィールド・プログラマブル・ゲート・アレイが、本明細書に記述されている方法のうちの1つを実行するために、マイクロプロセッサと協働することができる。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。
【0224】
これまでに述べた実施形態は、本発明の原理を単に例示したものである。いうまでもなく、当業者である他の者には、本明細書に記述されている配置および詳細の修正および変形は明らかである。したがって、本発明は、添付の特許請求の範囲によってのみ限定されるものであり、本明細書において実施形態を記述しかつ説明するために提示された特有の詳細によって限定されるものではない。