(58)【調査した分野】(Int.Cl.,DB名)
マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちのオーディオチャネル信号の符号化パラメータを決定するエンコーダの作動方法であって、各オーディオチャネル信号は、オーディオチャネル信号値を有し、前記方法は、
前記オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、
参照オーディオ信号の参照オーディオ信号値の周波数変換を決定するステップであって、前記参照オーディオ信号は、前記複数のオーディオチャネル信号のうちの別のオーディオチャネル信号又は前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から引き出されるダウンミックスオーディオ信号である、ステップと、
周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するステップであって、各チャネル間差は、前記チャネル間差の関連する個々の周波数サブ帯域において前記オーディオチャネル信号の帯域の限られた信号部分と前記参照オーディオ信号の帯域の限られた信号部分との間の位相差又は時間差を示す、ステップと、
前記チャネル間差の正の値に基づき第1の平均を決定し、及び前記チャネル間差の負の値に基づき第2の平均を決定するステップと、
前記第1の平均及び前記第2の平均のうちの一方を前記符号化パラメータとして選択することにより前記符号化パラメータを決定するステップと、
を有する方法。
周波数サブ帯域の前記チャネル間時間差は、前記チャネル間位相差の関数として決定され、前記関数は、周波数ビンの数、及び前記周波数ビン又は周波数サブ帯域インデックスに依存する、請求項7に記載の方法。
マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号の符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、各オーディオチャネル信号は、オーディオチャネル信号値を有し、前記マルチチャネルオーディオエンコーダは、
前記オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定し、及び参照オーディオ信号の参照オーディオ信号値の周波数変換を決定する周波数変換器であって、前記参照オーディオ信号は、前記複数のオーディオチャネル信号のうちの別のオーディオチャネル信号又は前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から引き出されるダウンミックスオーディオ信号である、周波数変換器と、
周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するチャネル間差決定器であって、各チャネル間差は、前記チャネル間差の関連する個々の周波数サブ帯域において前記オーディオチャネル信号の帯域の限られた信号部分と前記参照オーディオ信号の帯域の限られた信号部分との間の位相差又は時間差を示す、チャネル間差決定器と、
前記チャネル間差の正の値に基づき第1の平均を決定し、及び前記チャネル間差の負の値に基づき第2の平均を決定する平均決定器と、
前記第1の平均及び前記第2の平均のうちの一方を前記符号化パラメータとして選択することにより前記符号化パラメータを決定する符号化パラメータ決定器と、
を有するマルチチャネルオーディオエンコーダ。
【背景技術】
【0002】
例えばC.Faller及びF.Baumgarte, “Efficient representation of spatial audio using perceptual parametrization,” in Proc. IEEE Workshop on Appl. of Sig. Proc. to Audio and Acoust., Oct. 2001, pp.199−202に記載のようなパラメトリックステレオ又はマルチチャネルオーディオ符号化は、通常はモノ若しくはステレオのダウンミックスオーディオ信号から、ダウンミックスオーディオ信号より多くのチャネルを有するマルチチャネルオーディオ信号を合成するために、空間的キューを用いる。通常、ダウンミックスオーディオ信号は、例えばステレオオーディオ信号のマルチチャネルオーディオ信号の複数のオーディオチャネル信号の重畳の結果生じる。これらのより少数のチャネルは波形符号化され、元の信号チャネル関係に関連するサイド情報、つまり空間的キューは、符号化パラメータとして符号化オーディオチャネルに追加される。デコーダは、このサイド情報を用いて、復号化された波形符号化オーディオチャネルに基づき、元の数のオーディオチャネルを再生成する。
【0003】
基本パラメトリックステレオコーダは、チャネル間レベル差(inter-channel level differences:ILD)を、モノダウンミックスオーディオ信号からステレオ信号を生成するためのキューとして用いても良い。より多くの高機能コーダは、チャネル間コヒーレンス(inter-channel coherence:ICC)も用いても良い。ICCは、オーディオチャネル信号、つまりオーディオチャネル間の類似度を表し得る。さらに、例えば3Dオーディオ又はヘッドフォンに基づくサラウンド再生のために両耳ステレオ信号を符号化するとき、チャネル間位相差(inter-channel phase difference:IPD)は、チャネル間の位相/遅延差を再生する役割を果たし得る。
【0004】
両耳間時間差(inter-aural time difference:ITD)は、
図7から分かるように、2つの耳703、705の間の音701の到着時間の差である。音の定位には、音源701の(頭709に対する)入射の方向707又は角度θ(シータ)を識別することは、キューを提供するので、重要である。信号が片側から耳703、705に到着する場合、信号は、(反対側の)遠くの耳703に達するためにより長い経路を有し、(同じ側の)近くの耳705に達するためにより短い経路を有する。この経路長の差は、耳703、705に音が到着する時間差715を生じる。この時間差は、検出され、音源701の方向707を識別する処理を支援する。
【0005】
図7は、ITD(Δt又は時間差715として示される)の一例を与える。2つの耳703、705における到着時間差は、音波の遅延により示される。左耳703への波形が最初に到来する場合には、ITD715は正である。その他の場合、ITD715は負である。音源701が聴取者の直接前に存在する場合、波形は、両方の耳703、705に同時に到着し、したがってITD715はゼロである。
【0006】
ITDキューは、多くのステレオ録音にとって重要である。例えば、両耳オーディオ信号は、例えばダミーヘッド又は両耳合成に基づく頭部伝達関数(Head Related Transfer Function:HRTF)処理を用いて実際の録音から得ることができ、音楽録音又はオーディオ会議のために用いられる。したがって、それは、低ビットレートパラメトリックステレオコーデックにとって、及び特に会話アプリケーションを対象とするコーデックにとって、非常に重要なパラメータである。低複雑性及び安定したITD推定アルゴリズムが、低ビットレートステレオコーデックのために必要である。さらに、例えばチャネル間レベル差(CLD又はILD)及びチャネル間コヒーレンス(ICC)のような他のパラメータに加えて、ITDパラメータの使用はビットレートオーバヘッドを増大し得る。この特定の非常に低いビットレートのシナリオでは、1つの全帯域ITDパラメータのみが送信され得る。1つの全帯域ITDのみが推定されるとき、安定性に対する制約は、達成することが更に困難になる。
【0007】
従来、ITD推定方法は、3つの主なカテゴリに分類できる。
【0008】
ITD推定は、時間領域の方法に基づいても良い。ITDは、チャネル間の時間領域相互関係に基づき推定される。ITDは、時間領域相互関係(次式に示す)が最大になる遅延に対応する。
【数1】
この方法は、幾つかのフレームに渡る遅延の非安定推定を提供する。これは、特に、異なるサブ帯域信号が異なるITD値を有するために、f及びgの入力信号が複雑な音響シーンを有する広帯域信号であるとき、真である。非安定ITDは、デコーダ内の連続フレームに対して遅延が切り替えられるとき、クリック(ノイズ)の導入を生じ得る。この時間領域の分析が全帯域信号に対して実行されるとき、1つのITDのみが推定され、符号化され及び送信されるので、時間領域ITD推定のビットレートは低い。しかしながら、高いサンプリング周波数を有する信号の相互関係計算のために、複雑性は非常に高い。
【0009】
第2のカテゴリのITD推定方法は、周波数及び時間領域アプローチの組合せに基づく。Marple, S.L., Jr.;, "Estimatinggroup delay and phase delay via discrete-time “analytic” cross-correlation," Signal Processing, IEEE Transactions on, vol.47, no.9, pp.2604-2607, Sep1999では、周波数及び時間領域ITD推定は、以下のステップを含む。
【0010】
1.周波数係数を得るために、高速フーリエ変換(Fast Fourier Transform:FFT)分析が入力信号に適用される。
2.周波数領域で、相互関係が計算される。
3.周波数領域相互関係は、逆FFTを用いて時間領域に変換される。
4.ITDは複素時間領域で推定される。
【0011】
この方法は、1つの全帯域ITDのみが推定され、符号化され、及び送信されるので、低ビットレートの制約を達成できる。しかしながら、相互関係計算、及び計算の複雑性が限られるときこの方法を適用不可能にする逆FFTにより、複雑性は非常に高い。
【0012】
最後に、最後のカテゴリは、ITD推定を周波数領域で直接実行する。Baumgarte, F.; Faller, C.;, "Binaural cue coding-PartI: psychoacoustic fundamentals and design principles, "Speech and Audio Processing, IEEE Transactions on, vol.11, no.6, pp.509-519, Nov. 2003及びFaller, C.; Baumgarte, F.;, "Binaural cue coding-Part II: Schemes and applications, "Speech and Audio Processing, IEEE Transactions on, vol.11, no.6, pp.520-531, Nov. 2003では、ITDは周波数領域で推定され、各周波数帯域毎にITDは符号化され送信される。このソリューションの複雑性は限られるが、サブ帯域当たり1つのITDが送信されるので、この方法のために必要なビットレートは高い。
【0013】
さらに、推定されたITDの信頼性及び安定性は、大きなサブ帯域ITDでは一貫しない場合のあるサブ帯域信号の周波数帯域幅に依存する(異なる位置を有する異なる音源は、帯域の限られた音声信号内に存在する場合がある)。
【0014】
非常に低いビットレートのパラメトリックマルチチャネルオーディオ符号化スキームは、ビットレートに対する制約だけでなく、特に、バッテリ寿命が節約されなければならないモバイル端末内の実装を対象とするコーデックのために可能な複雑性に対する制限も有する。従来のITD推定アルゴリズムは、ITD推定の安定性の点で良好な品質を維持しながら、低ビットレート及び低複雑性の両方の要件を同時に満たすことができない。
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明の目的は、ITD推定の安定性の点で良好な品質を維持しながら低ビットレート及び低複雑性の両方を提供するマルチチャネルオーディオエンコーダのための概念を提供することである。
【0016】
この目的は、独立請求項の特徴により達成される。さらに実装形態は、従属請求項、説明及び図面から明らかである。
【課題を解決するための手段】
【0017】
本発明は、マルチチャネルオーディオ信号の2つのオーディオチャネル信号の帯域の限られた信号部分の間のITD及びIPDのようなチャネル間差に洗練された平均化を適用することが、帯域の限られた処理により、ITD推定の安定性の点で良好な品質を維持しながらビットレート及び計算の複雑性の両方を低減することの発見に基づく。洗練された平均化は、チャネル間差をそれらの符号により区別し、該符号に依存して異なる平均化を実行し、それにより、チャネル間差処理の安定性を増大する。
【0018】
本発明を詳細に説明するために、以下の用語、略語及び注釈が用いられる。
【0019】
BCC:両耳間キュー符号化(Binaural cues coding)。チャネル間関係を記述するためにダウンミックス及び両耳間キュー(又は空間パラメータ)を用いたステレオ又はマルチチャネル信号の符号化。
【0020】
両耳間キュー:左及び右耳に入力する信号の間のチャネル間キュー(ITD、ILD、及びICも参照)。
【0021】
CLD:チャネルレベル差、ILDと同じ。
【0022】
FFT:DFTの高速実装、高速フーリエ変換と表す。
【0023】
HRTF:頭部伝達関数。自由音場におけるソースから左及び右耳への入力の音の変換のモデル化。
【0024】
IC:両耳間コヒーレンス(Inter-aural coherence)。つまり、左及び右耳へ入力する信号の間の類似度。これは、IAC又は両耳間相互関係(interaural cross-correlation:IACC)とも表される場合がある。
【0025】
ICC:チャネル間コヒーレンス(Inter-channel coherence)、チャネル間相関。ICと同じだが、任意の信号対(例えば、ラウドスピーカ信号対、耳に入力する信号対、等)の間でより一般的に定められる。
【0026】
ICPD:チャネル間位相差(Inter-channel phase difference)。単一の対の間の平均位相差。
【0027】
ICLD:チャネル間レベル差(Inter-channel level difference)。ILDと同じだが、任意の信号対(例えば、ラウドスピーカ信号対、耳に入力する信号対、等)の間でより一般的に定められる。
【0028】
ICTD:チャネル間時間差(Inter-channel time difference)。ITDと同じだが、任意の信号対(例えば、ラウドスピーカ信号対、耳に入力する信号対、等)の間でより一般的に定められる。
【0029】
ILD:両耳間レベル差(Interaural level difference)、つまり左及び右耳に入力する信号間のレベル差。これは、両耳間強度差(interaural intensity difference:IID)と表される場合がある。
【0030】
IPD:両耳間位相差(Interaural phase difference)、つまり左及び右耳に入力する信号間の位相差。
【0031】
ITD:両耳間時間差(Interaural time difference)、つまり左及び右耳に入力する信号間の時間差。これは、両耳間時間遅延(interaural time delay)と表される場合がある。
【0032】
ICD:チャネル間差(Inter-channel difference)。2つのチャネル間の差、例えば2つのチャネル間の時間差、位相差、レベル差、又はコヒーレンスの一般的用語。
【0033】
ミキシング:ソース信号の数が与えられる場合(例えば、別個に録音された楽器、マルチトラック録音)、空間オーディオ再生を目的としてステレオ又はマルチチャネルオーディオ信号を生成する処理がミキシングと表される。
【0034】
OCPD:全体チャネル位相差(Overall channel phase difference)。2以上のオーディオチャネルの共通の位相変更。
【0035】
空間オーディオ:適切な再生システムを通じて再生されるとき、聴覚空間像を引き起こすオーディオ信号。
【0036】
空間キュー:空間認知に関連するキュー。この用語は、ステレオ又はマルチチャネルオーディオ信号のチャネル対間のキューに対して用いられる(ICTD、ICLD、及びICCも参照)。空間パラメータ又は両耳キュ―とも表される。
【0037】
第1の態様によると、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号の符号化パラメータを決定する方法であって、各オーディオチャネル信号は、オーディオチャネル信号値を有し、前記方法は、前記オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、参照オーディオ信号の参照オーディオ信号値の周波数変換を決定するステップであって、前記参照オーディオ信号は、前記複数のオーディオチャネル信号のうちの別のオーディオチャネル信号である、ステップと、周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するステップであって、各チャネル間差は、前記オーディオチャネル信号の帯域の限られた信号部分と前記チャネル間差の関連付けられる個々の周波数サブ帯域内の前記参照オーディオ信号の帯域の限られた信号部分との間の位相差又は時間差を示す、ステップと、前記チャネル間差の正の値に基づき第1の平均を決定し、及び前記チャネル間差の負の値に基づき第2の平均を決定するステップと、前記第1の平均及び前記第2の平均に基づき前記符号化パラメータを決定するステップと、を有する方法に関する。
【0038】
第2の態様によると、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号の符号化パラメータを決定する方法であって、各オーディオチャネル信号は、オーディオチャネル信号値を有し、前記方法は、前記オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定するステップと、参照オーディオ信号の参照オーディオ信号値の周波数変換を決定するステップであって、前記参照オーディオ信号は、前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から引き出されるダウンミックスオーディオ信号である、ステップと、周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するステップであって、各チャネル間差は、前記オーディオチャネル信号の帯域の限られた信号部分と前記チャネル間差の関連付けられる個々の周波数サブ帯域内の前記参照オーディオ信号の帯域の限られた信号部分との間の位相差又は時間差を示す、ステップと、前記チャネル間差の正の値に基づき第1の平均を決定し、及び前記チャネル間差の負の値に基づき第2の平均を決定するステップと、前記第1の平均及び前記第2の平均に基づき前記符号化パラメータを決定するステップと、を有する方法に関する。
【0039】
帯域の限られた信号部分は、周波数領域信号部分であり得る。しかしながら、帯域の限られた信号部分は、時間領域信号部分であり得る。この例では、逆フーリエ変換器のような周波数領域−時間領域変換器が用いられ得る。時間領域では、帯域の限られた信号部分の時間遅延平均が実行され、これは、周波数領域の位相平均に対応する。信号処理でが、ウインドウ化、例えばハミングウインドウ化は、時間領域信号部分をウインドウ化するために用いることができる。
【0040】
帯域の限られた信号部分は、1つの周波数ビンのみに渡って又は1より多い周波数ビンに渡って、広がり得る。
【0041】
第1の態様による又は第2の態様による方法の第1の可能な実施形態では、前記チャネル間差はチャネル間位相差又はチャネル間時間差である。
【0042】
前記第1の態様自体による、又は前記第2の態様自体による、又は前記第1の態様の前記第1の実施形態による、又は前記第2の態様の前記第1の実施形態による、方法の第2の可能な可能な実施形態では、前記方法は、前記チャネル間差の正の値に基づき第1の標準偏差を決定し、及び前記チャネル間差の負の値に基づき第2の標準偏差を決定するステップ、を更に有し、前記符号化パラメータを決定するステップは、前記第1の標準偏差及び前記第2の標準偏差に基づく。
【0043】
前記第1の態様自体による、又は前記第2の態様自体による、又は前記第1の態様の前述の実施形態のいずれかによる、又は前記第2の態様の前述の実施形態のいずれかによる、方法の第3の可能な実施形態では、周波数サブ帯域は、1又は複数の周波数ビンを有する。
【0044】
前記第1の態様自体による、又は前記第2の態様自体による、又は前記第1の態様の前述の実施形態のいずれかによる、又は前記第2の態様の前述の実施形態のいずれかによる、方法の第4の可能な実施形態では、周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するステップは、前記オーディオチャネル信号値の前記周波数変換及び前記参照オーディオ信号値の前記周波数変換から相互関係として相互スペクトルを決定するステップと、前記相互スペクトルに基づき各周波数サブ帯域についてチャネル間位相差を決定するステップと、を有する。
【0045】
前記第1の態様の前記第4の実施形態による、又は前記第2の態様の前記第4の実施形態による、方法の第5の可能な実施形態では、周波数ビン又は周波数サブ帯域の前記チャネル間位相差は、前記相互スペクトルの角度として決定される。
【0046】
前記第1の態様の前記第4若しくは前記第5の実施形態による、又は前記第2の態様の前記第4若しくは前記第5の実施形態による、方法の第6の可能な実施形態では、前記方法は、前記チャネル間位相差に基づき両耳間時間差を決定するステップを更に有し、前記第1の平均を決定するステップは、前記両耳間時間差の正の値に基づき、前記第2の平均を決定するステップは、前記両耳間時間差の負の値に基づく。
【0047】
前記第1の態様の前記第4若しくは前記第5の実施形態による、又は前記第2の態様の前記第4若しくは前記第5の実施形態による、方法の第7の可能な実施形態では、周波数サブ帯域の前記両耳間時間差は、前記チャネル間位相差の関数として決定され、前記関数は、周波数ビンの数及び前記周波数ビン若しくは周波数サブ帯域インデックスに依存する。
【0048】
前記第1の態様の前記第6若しくは前記第7の実施形態による、又は前記第2の態様の前記第6若しくは前記第7の実施形態による、方法の第8の可能な実施形態では、前記符号化パラメータを決定するステップは、周波数サブ帯域の前記サブセットに含まれる周波数サブ帯域の数に渡り、正の両耳間時間差の第1の数及び負の両耳間時間差の第2の数を計数するステップを有する。
【0049】
前記第1の態様の前記第8の実施形態による、又は前記第2の態様の前記第8の実施形態による、方法の第9の可能な実施形態では、前記符号化パラメータは、正の両耳間時間差の第1の数と負の両耳間時間差の第2の数との間の比較に基づき決定される。
【0050】
前記第1の態様の前記第9の実施形態による、又は前記第2の態様の前記第9の実施形態による、方法の第10の可能な実施形態では、前記符号化パラメータは、前記第1の標準偏差と前記第2の標準偏差との間の比較に基づき決定される。
【0051】
前記第1の態様の前記第9若しくは前記第10の実施形態による、又は前記第2の態様の前記第9若しくは前記第10の実施形態による、方法の第11の可能な実施形態では、前記符号化パラメータは、正の両耳間時間差の第1の数と第1の係数により乗算された負の両耳間時間差の第2の数との間の比較に基づき決定される。
【0052】
前記第1の態様の前記第11の実施形態による、又は前記第2の態様の前記第11の実施形態による、方法の第12の可能な実施形態では、前記符号化パラメータは、前記第1の標準偏差と第2の係数により乗算された前記第2の標準偏差との間の比較に基づき決定される。
【0053】
前記第1の態様の前記第6若しくは前記第7の実施形態による、又は前記第2の態様の前記第6若しくは前記第7の実施形態による、方法の第13の可能な実施形態では、前記符号化パラメータを決定するステップは、周波数サブ帯域の前記サブセットに含まれる周波数サブ帯域の数に渡り、正のチャネル間時間差の第1の数及び負のチャネル間時間差の第2の数を計数するステップを有する。
【0054】
前記第1の態様自体による、又は前記第2の態様自体による、又は前記第1の態様の前述の実施形態のいずれかによる、又は前記第2の態様の前述の実施形態のいずれかによる、方法の第14の実施形態では、前記方法は、以下のエンコーダ:ITU−T G.722エンコーダ、ITU−T G.722 Annex Bエンコーダ、ITU−T G.711.1エンコーダ、ITU−T G.711.1 Annex Dエンコーダ、及び3GPP拡張音声サービスエンコーダのうちの1つ又は組合せで適用される。
【0055】
サブ帯域ITDの平均推定を提供するITDの推定と比べて、前記第1又は第2の態様による方法は、サブ帯域内の大部分の関連するITDを選択する。したがって、低ビットレート及び低複雑性のITD推定が達成され、同時にITD推定の安定性の点で良好な品質を維持する。
【0056】
第3の態様によると、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号の符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、各オーディオチャネル信号は、オーディオチャネル信号値を有し、前記パラメトリック空間オーディオエンコーダは、前記オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定し、及び参照オーディオ信号の参照オーディオ信号値の周波数変換を決定する、フーリエ変換器のような周波数変換器であって、前記参照オーディオ信号は、前記複数のオーディオチャネル信号のうちの別のオーディオチャネル信号である、周波数変換器と、周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するチャネル間差決定器であって、各チャネル間差は、前記オーディオチャネル信号の帯域の限られた信号部分と前記チャネル間差の関連付けられる個々の周波数サブ帯域内の前記参照オーディオ信号の帯域の限られた信号部分との間の位相差又は時間差を示す、チャネル間差決定器と、前記チャネル間差の正の値に基づき第1の平均を決定し、及び前記チャネル間差の負の値に基づき第2の平均を決定する平均決定器と、前記第1の平均及び前記第2の平均に基づき前記符号化パラメータを決定する符号化パラメータ決定器と、を有するマルチチャネルオーディオエンコーダに関する。
【0057】
第4の態様によると、本発明は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号の符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、各オーディオチャネル信号は、オーディオチャネル信号値を有し、前記パラメトリック空間オーディオエンコーダは、前記オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定し、及び参照オーディオ信号の参照オーディオ信号値の周波数変換を決定する、フーリエ変換器のような周波数変換器であって、前記参照オーディオ信号は、前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から引き出されるダウンミックスオーディオ信号である、周波数変換器と、周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するチャネル間差決定器であって、各チャネル間差は、前記オーディオチャネル信号の帯域の限られた信号部分と前記チャネル間差の関連付けられる個々の周波数サブ帯域内の前記参照オーディオ信号の帯域の限られた信号部分との間の位相差又は時間差を示す、チャネル間差決定器と、前記チャネル間差の正の値に基づき第1の平均を決定し、及び前記チャネル間差の負の値に基づき第2の平均を決定する平均決定器と、前記第1の平均及び前記第2の平均に基づき前記符号化パラメータを決定する符号化パラメータ決定器と、を有するマルチチャネルオーディオエンコーダに関する。
【0058】
第5の態様によると、本発明は、コンピュータで実行されると、前記第1の態様自体による又は前記第2の態様自体による又は前記第1の態様の前述の請求項のいずれかによる又は前記第2の態様の前述の請求項のいずれかによる方法を実行するプログラムコードを有するコンピュータプログラムに関する。
【0059】
前記コンピュータプログラムは、複雑性を低減され、したがってバッテリ寿命が節約されなければならないモバイル端末内で効率的に実装できる。
【0060】
第6の態様によると、本発明は、前記第1の態様自体による又は前記第2の態様自体による又は前記第1の態様の前述の実施形態のいずれかによる又は前記第2の態様の前述の実施形態のいずれかによる方法を実施するよう構成されるパラメトリック空間オーディオエンコーダに関する。
【0061】
前記第6の態様によるパラメトリック空間オーディオエンコーダの第1の可能な実施形態では、前記パラメトリック空間オーディオエンコーダは、前記第1の態様自体による又は前記第2の態様自体による又は前記第1の態様の前述の実施形態のいずれかによる又は前記第2の態様の前述の実施形態のいずれかによる方法を実施するプロセッサを有する。
【0062】
前記第6の態様自体による又は前記第6の態様の前記第1の実施形態による前記パラメトリック空間オーディオエンコーダの第2の可能な実施形態では、マルチチャネルオーディオ信号の複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号の符号化パラメータを決定するマルチチャネルオーディオエンコーダであって、各オーディオチャネル信号は、オーディオチャネル信号値を有し、前記パラメトリック空間オーディオエンコーダは、前記オーディオチャネル信号の前記オーディオチャネル信号値の周波数変換を決定し、及び参照オーディオ信号の参照オーディオ信号値の周波数変換を決定する、フーリエ変換器のような周波数変換器であって、前記参照オーディオ信号は、前記複数のオーディオチャネル信号のうちの別のオーディオチャネル信号又は前記複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号から引き出されるダウンミックスオーディオ信号である、周波数変換器と、周波数サブ帯域のサブセットの中の少なくとも各周波数サブ帯域についてチャネル間差を決定するチャネル間差決定器であって、各チャネル間差は、前記オーディオチャネル信号の帯域の限られた信号部分と前記チャネル間差の関連付けられる個々の周波数サブ帯域内の前記参照オーディオ信号の帯域の限られた信号部分との間の位相差又は時間差を示す、チャネル間差決定器と、前記チャネル間差の正の値に基づき第1の平均を決定し、及び前記チャネル間差の負の値に基づき第2の平均を決定する平均決定器と、前記第1の平均及び前記第2の平均に基づき前記符号化パラメータを決定する符号化パラメータ決定器と、を有する。
【0063】
第7の態様によると、本発明は、コンピュータで実行されると、前記第1の態様自体による又は前記第2の態様自体による又は前記第1の態様の前述の請求項のいずれかによる又は前記第2の態様の前述の請求項のいずれかによる方法を実行するプログラムコードを有するコンピュータプログラムを有する記憶装置、特にコンパクトディスク、のような機械可読媒体に関する。
【0064】
本願明細書に記載の方法は、デジタル信号プロセッサ(DSP)内の、マイクロコントローラ内の、又は任意の他のサイドプロセッサ内のソフトウェアとして、又は特定用途向け集積回路(ASIC)内のハードウェア回路として、実装できる。
【0065】
本発明は、デジタル電子回路で、又はコンピュータハードウェア、ファームウェア、ソフトウェア又はそれらの組合せで実装できる。
【発明を実施するための形態】
【0067】
図1は、一実施形態によるオーディオチャネル信号のための符号化パラメータを生成する方法の概略図を示す。
【0068】
方法100は、マルチチャネルオーディオ信号の複数のオーディオチャネル信号x
1、x
2のうちオーディオチャネル信号x
1の符号化パラメータITDを決定するためのものである。各オーディオチャネル信号x
1、x
2は、オーディオチャネル信号値x
1[n]、x
2[n]を有する。
図1は、複数のオーディオチャネル信号が左オーディオチャネルx
1及び右オーディオチャネルx
2を有するステレオの例を示す。方法100は以下のステップを有する。
【0069】
オーディオチャネル信号x
1のオーディオチャネル信号値x
1[n]の周波数変換X
1[k]を決定するステップ101。
【0070】
参照オーディオ信号x
2の参照オーディオ信号値x
2[n]の周波数変換X
2[k]を決定するステップ103。ここで、参照オーディオ信号は、複数のオーディオチャネルのうちの別のオーディオチャネル信号x
2又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号x
1、x
2から引き出されるダウンミックスオーディオ信号である。
【0071】
周波数サブ帯域のサブセットのうち少なくとも各周波数サブ帯域bについて、チャネル間差ICD[b]を決定するステップ105。ここで、各チャネル間差は、チャネル間差の関連する個々の周波数サブ帯域bにおいてオーディオチャネル信号の帯域の限られた信号部分と参照オーディオ信号の帯域の限られた信号部分と間の位相差IPD[b]又は時間差ITD[b]を示す。
【0072】
チャネル間差ICD[b]の正の値に基づき第1の平均ITD
mean_posを決定し、及びチャネル間差ICD[b]の負の値に基づき第2の平均ITD
mean_negを決定するステップ107。
【0073】
第1の平均及び第2の平均に基づき、符号化パラメータITDを決定するステップ109。
【0074】
一実施形態では、オーディオチャネル信号の帯域の限られた信号部分及び参照オーディオ信号の帯域の限られた信号部分は、周波数領域内のそれぞれのサブ帯域及びその周波数ビンを参照する。
【0075】
一実施形態では、オーディオチャネル信号の帯域の限られた信号部分及び参照オーディオ信号の帯域の限られた信号部分は、時間領域内のサブ帯域のそれぞれの時間変換された信号を参照する。
【0076】
帯域の限られた信号部分は、周波数領域信号部分であり得る。しかしながら、帯域の限られた信号部分は、時間領域信号部分であり得る。この例では、逆フーリエ変換器のような周波数領域−時間領域変換器が用いられ得る。時間領域では、帯域の限られた信号部分の時間遅延平均が実行され、これは、周波数領域の位相平均に対応する。信号処理で
は、ウインドウ化、例えばハミングウインドウ化は、時間領域信号部分をウインドウ化するために用いることができる。
【0077】
帯域の限られた信号部分は、1つの周波数ビンのみに渡って又は1より多い周波数ビンに渡って、広がり得る。
【0078】
一実施形態では、方法100は、以下のように処理される。
【0079】
図1の101及び103に対応する第1のステップで、時間周波数変換は、時間領域入力チャネル、例えば第1の入力チャネルx
1、及び時間領域参照チャネル、例えば第2の入力チャネルx
2に適用される。ステレオの例では、これらは左及び右チャネルである。好適な実施形態では、時間周波数変換は、高速フーリエ変換(Fast Fourier Transform:FFT)又は短時間フーリエ変換(Short Term Fourier Transform)である。代替の実施形態では、時間周波数変換は、コサイン変調フィルタバンク又は複合フィルタバンクである。
【0080】
図1の105に対応する第2のステップでは、FFTの各周波数ビン[b]について相互スペクトルが次式のように計算される。
【数2】
ここで、c[b]は周波数ビン[b]の相互スペクトルであり、X
1[b]及びX
2[b]は2つのチャネルのFFT係数である。*は複素共役を表す。この例では、サブ帯域bは、1つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は正確に同じ周波数ビンを表す。
【0081】
代替で、相互スペクトルはサブ帯域[k]毎に次式のように計算される。
【数3】
ここで、c[b]はサブ帯域[b]の相互スペクトルであり、X
1[k]及びX
2[k]は2つのチャネル、例えばステレオの例では左及び右チャネルのFFT係数である。*は複素共役を表し、k
bはサブ帯域[b]の開始ビンである。
【0082】
相互スペクトルは、次式により計算される平滑化バージョンであり得る。
【数4】
ここで、SMW1は平滑化因子である。iはフレームインデックスである。
【0083】
チャネル間位相差(inter channel phase difference:IPD)は、次式のように相互スペクトルに基づきサブ帯域毎に計算される。
【数5】
ここで、演算子∠はc[b]の角度を計算するための偏角演算子(argument operator)である。留意すべき事に、相互スペクトルの平滑化の例では、c
sm[b,i]は、次式のようにIPD計算のために用いられる。
【数6】
図1の105に対応する第3のステップでは、各周波数ビン(又はサブ帯域)のITDは、IPDに基づき計算される。
【数7】
ここで、NはFFTビンの数である。
【0084】
図1の107に対応する第4のステップでは、ITDの正及び負の値の計数が実行される。正及び負のITDの平均及び標準偏差は、次式のようにITDの符号に基づく。
【数8】
ここで、Nb
pos及びNb
negは、それぞれ正及び負のITDの数である。Mは抽出されるITDの合計数である。留意すべきことに、代替で、ITDが0に等しい場合、それは負ITDで計数し、又は平均していずれも計数しないこともできる。
【0085】
図1の109に対応する第5のステップでは、ITDは、平均及び標準偏差に基づき正及び負ITDから選択される。選択アルゴリズムは、
図3に示される。
【0086】
図2は、一実施形態によるITD推定アルゴリズム200の概略図を示す。
【0087】
図1の101に対応する第1のステップ201で、時間周波数変換は、時間領域入力チャネル、例えば第1の入力チャネルx
1に適用される。好適な実施形態では、時間周波数変換は、高速フーリエ変換(Fast Fourier Transform:FFT)又は短時間フーリエ変換(Short Term Fourier Transform)である。代替の実施形態では、時間周波数変換は、コサイン変調フィルタバンク又は複合フィルタバンクである。
【0088】
図1の103に対応する第2のステップ203で、時間周波数変換は、時間領域参照チャネル、例えば第2の入力チャネルx
2に適用される。好適な実施形態では、時間周波数変換は、高速フーリエ変換(Fast Fourier Transform:FFT)又は短時間フーリエ変換(Short Term Fourier Transform)である。代替の実施形態では、時間周波数変換は、コサイン変調フィルタバンク又は複合フィルタバンクである。
【0089】
図1の105に対応する次の第3のステップ205で、各周波数ビンの相互関係が計算される。これは、限られた数の周波数ビン又は周波数サブ帯域に対して実行される。相互スペクトルは、次式のようにFFTの各周波数ビン[b]の相互関係から計算される。
【数9】
ここで、c[b]は周波数ビン[b]の相互スペクトルであり、X
1[b]及びX
2[b]は2つのチャネルのFFT係数である。*は複素共役を表す。この例では、サブ帯域bは、1つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は正確に同じ周波数ビンを表す。
【0090】
代替で、相互スペクトルはサブ帯域[k]毎に次式のように計算される。
【数10】
ここで、c[b]はサブ帯域[b]の相互スペクトルであり、X
1[k]及びX
2[k]は2つのチャネル、例えばステレオの例では左及び右チャネルのFFT係数である。*は複素共役を表し、k
bはサブ帯域[b]の開始ビンである。
【0091】
相互スペクトルは、次式により計算される平滑化バージョンであり得る。
【数11】
ここで、SMW1は平滑化因子である。iはフレームインデックスである。
【0092】
チャネル間位相差(inter channel phase difference:IPD)は、次式のように相互スペクトルに基づきサブ帯域毎に計算される。
【数12】
ここで、演算子∠はc[b]の角度を計算するための偏角演算子(argument operator)である。留意すべき事に、相互スペクトルの平滑化の例では、c
sm[b,i]は、次式のようにIPD計算のために用いられる。
【数13】
図1の105に対応する次の第4のステップ207では、各周波数ビン(又はサブ帯域)のITDは、IPDに基づき計算される。
【数14】
ここで、NはFFTビンの数である。
【0093】
図1の107に対応する次の第5のステップ209で、ステップ207の計算されたITDは、0より大きいかチェックされる。0より大きい場合、ステップ211が処理され、0より大きくない場合、ステップ213が処理される。
【0094】
ステップ209の後に、ステップ211で、例えば「Nb_itd_pos++,,Itd_sum_pos+=ITD」に従って、ITDのM個の周波数ビン(又はサブ帯域)値に渡る和が計算される。
【0095】
ステップ209の後に、ステップ213で、例えば「Nb_itd_neg++,,Itd_sum_neg+=ITD」に従って、ITDのM個の周波数ビン(又はサブ帯域)値に渡る和が計算される。
【0096】
ステップ211の後に、ステップ215で、正ITDの平均は、次式に従って計算される。
【数15】
ここで、Nb
posは正ITD値の数であり、Mは抽出されるITDの合計数である。
【0097】
ステップ215の後に、ステップ219で、正ITDの標準偏差は、次式に従って計算される。
【数16】
ステップ213の後に、ステップ217で、負ITDの平均は、次式に従って計算される。
【数17】
ここで、Nb
negは負ITD値の数であり、Mは抽出されるITDの合計数である。
【0098】
ステップ217の後に、ステップ221で、負ITDの標準偏差は、次式に従って計算される。
【数18】
図1の109に対応する最後のステップ223では、ITDは、平均に及び任意的に標準偏差に基づき正及び負ITDから選択される。選択アルゴリズムは、
図3に示される。
【0099】
この方法200は、全帯域ITD推定に適用できる。この場合、サブ帯域bは、全周波数範囲を(Bまで)カバーする。サブ帯域bは、例えば臨界帯域又は等価矩形帯域幅(Equivalent Rectangular Bandwidth:ERB)のようなスペクトルの知覚的分解に従うために選択され得る。代替の実施形態では、全帯域ITDは、最も関連のあるサブ帯域bに基づき推定できる。最も関連のあることにより、(例えば200Hz乃至1500Hzで)知覚的なサブ帯域bがITD認知に関連することが理解されるべきである。
【0100】
本発明の第1又は第2の態様によるITD推定の利点は、2つのスピーカが聴取者の左及び右にそれぞれ存在し、及びそれらが同時に話す場合、全てのITDの単純な平均は、ゼロに近い値を与えるが、これは正しくない。ゼロITDはスピーカが聴取者の正面にあることを意味するからである。全ITDの平均がゼロでない場合でも、それはステレオ像を狭くするだろう。また、本例では、方法200は、抽出したITDの安定性に基づき、正及び負ITDの平均から1つのITDを選択する。これは、ソース方向の点で良好な推定を与える。
【0101】
標準偏差は、パラメータの安定性を測定する方法である。標準偏差が小さい場合、推定されたパラメータは、より安定し信頼できる。正及び負ITDの標準偏差を用いる目的は、どれがより信頼できるかを調べるためである。そして、信頼できる1つを最終出力ITDとして選択する。極端な(extremism)差のような他の類似のパラメータも、ITDの安定性をチェックするために用いることができる。したがって、標準偏差はここでは任意である。
【0102】
更なる実施形態では、IPDとITDとの間の直接関係が存在するとき、正及び負の計数はIPDに対して直接実行される。次に、決定処理は、負及び正IPD平均に対して直接実行される。
【0103】
図1及び2に記載されるような方法100、200は、ITU−T G.722、G.722Annex B、G711.1及び/又はG711.1 Annex Dのステレオ拡張のエンコーダで適用できる。さらに、記載の方法は、3GPP EVS(Enhanced Voice Services)コーデックで定められるようなモバイルアプリケーションのための会話及びオーディオエンコーダにも適用できる。
【0104】
図3は、一実施形態によるITD選択アルゴリズムの概略図を示す。
【0105】
第1のステップ301で、正ITD値の数Nb
posは、負ITD値の数Nb
negに対してチェックされる。Nb
posが数Nb
negより大きい場合、ステップ303が実行される。Nb
posが数Nb
negより大きくない場合、ステップ305が実行される。
【0106】
ステップ303で、例えば(ITD
std_pos<ITD
std_neg)||(Nb
pos>=A*Nb
neg)に従って、正ITDの標準偏差ITD
std_posは負ITDの標準偏差ITD
std_negに対してチェックされ、正ITD値の数Nb
posは第1の係数Aを乗算された負ITD値の数Nb
negに対してチェックされる。ITD
std_pos<ITD
std_neg又はNb
pos>A*Nb
negの場合、ステップ307で、ITDは正ITDの平均として選択される。その他の場合、ステップ309で、正及び負ITDの間の関係は、更にチェックされる。
【0107】
ステップ309で、例えば(ITD
std_neg<B*ITD
std_pos)に従って、負ITDの標準偏差ITD
std_negは、第2の係数Bを乗算された正ITDの標準偏差ITD
std_posに対してチェックされる。ITD
std_neg<B*ITD
std_posの場合、ステップ315で、負ITD平均の反対の値は、出力ITDとして選択される。その他の場合、ステップ317で、前のフレームからのITD(Pre_itd)がチェックされる。
【0108】
ステップ317で、例えば「Pre_itd>0」に従って、前のフレームからのITDはゼロより大きいかチェックされる。Pre_itd>0の場合、ステップ323で、出力ITDは正ITDの平均として選択され、その他の場合、ステップ325で、出力ITDは負ITD平均の反対の値である。
【0109】
ステップ305で、例えば(ITD
std_neg<ITD
std_pos)||(Nb
neg>=A*Nb
pos)に従って、負ITDの標準偏差ITD
std_negは正ITDの標準偏差ITD
std_posに対してチェックされ、負ITD値の数Nb
negは第1の係数Aを乗算された正ITD値の数Nb
posに対してチェックされる。ITD
std_neg<ITD
std_pos又はNb
neg>A*Nb
posの場合、ステップ311で、ITDは負ITDの平均として選択される。その他の場合、ステップ313で、負及び正ITDの間の関係は、更にチェックされる。
【0110】
ステップ313で、例えば(ITD
std_pos<B*ITD
std_neg)に従って、正ITDの標準偏差ITD
std_posは、第2の係数Bを乗算された負ITDの標準偏差ITD
std_negに対してチェックされる。ITD
std_pos<B*ITD
std_negの場合、ステップ319で、正ITD平均の反対の値は、出力ITDとして選択される。その他の場合、ステップ321で、前のフレームからのITD(Pre_itd)がチェックされる。
【0111】
ステップ321で、例えば「Pre_itd>0」に従って、前のフレームからのITDはゼロより大きいかチェックされる。Pre_itd>0の場合、ステップ327で、出力ITDは負ITDの平均として選択され、その他の場合、ステップ329で、出力ITDは正ITD平均の反対の値である。
【0112】
図4は、一実施形態によるパラメトリックオーディオエンコーダ400のブロック図を示す。パラメトリックオーディオエンコーダ400は、マルチチャネルオーディオ信号401を入力信号として受信し、ビットストリームを出力信号403として提供する。パラメトリックエンコーダ400は、マルチチャネルオーディオ信号401に結合され符号化パラメータ415を生成するパラメータ生成器405と、マルチチャネルオーディオ信号401に結合されダウンミックス信号411又は和信号を生成するダウンミックス信号生成器407と、ダウンミックス信号生成器407に結合されダウンミックス信号411を符号化して符号化オーディオ信号413に提供するオーディオエンコーダ409と、結合器417、例えばパラメータ生成器405及びオーディオエンコーダ409に結合され符号化パラメータ415及び符号化信号413からビットストリーム403を形成するビットストリーム形成器と、を有する。
【0113】
パラメトリックオーディオエンコーダ400は、ステレオ及びマルチチャネルオーディオ信号に対してオーディオ符号化スキームを実施する。これは、単一のオーディオチャネル、例えば入力オーディオチャネルのダウンミックス表現、及びオーディオチャネルx
1、x
2、...、x
M間の「知覚関連差」を記述する追加パラメータを送信するだけである。符号化スキームは、両耳間キューがその中で重要な役割を果たすので、両耳間キュー符号化(binaural cue coding:BCC)に従う。図に示すように、入力オーディオチャネルx
1、x
2、...、x
Mは、和信号としても表される単一のオーディオチャネル411にダウンミックスされる。オーディオチャネルx
1、x
2、...、x
M間の「知覚的関連差」として、符号化パラメータ415、例えばチャネル間時間差(inter-channel time difference:ICTD)、チャネル間レベル差(inter-channel level difference:ICLD)、及び/又はチャネル間コヒーレンス(inter-channel coherence:ICC)は、周波数及び時間の関数として推定され、サイド情報として
図5に記載のデコーダ500へ送信される。
【0114】
BCCを実施するパラメータ生成器405は、特定の時間及び周波数分解能で、マルチチャネルオーディオ信号401を処理する。周波数分解能は、聴覚系の周波数分解能により大きく刺激される。心理音響学は、空間認知が音響入力信号の臨界帯域表現に基づく可能性が高いことを示唆する。この周波数分解能は、聴覚系の臨界帯域に等しい又はそれに比例する帯域幅を有するサブ帯域を有する可逆フィルタバンクを用いることにより考慮される。重要なことに、送信される和信号411は、マルチチャネルオーディオ信号401の全ての信号成分を含む。目標は、各信号成分が完全に維持されることである。マルチチャネルオーディオ信号401のオーディオ入力チャネルx
1、x
2、...、x
Mの単純な和は、信号成分の増幅又は減衰を生じる場合が多い。言い換えると、「単純な」和において信号成分のパワーは、各チャネルx
1、x
2、...、x
Mの対応する信号成分のパワーの和より大きい又は小さい場合が多い。したがって、ダウンミックス技術は、和信号411の中の信号成分のパワーがマルチチャネルオーディオ信号401の全ての入力オーディオチャネルx
1、x
2、...、x
Mの中の対応するパワーとほぼ同じになるように、和信号411を均等にするダウンミキシング装置407を適用することにより用いられる。入力オーディオチャネルx
1、x
2、...、x
Mは、多数のサブ帯域に分解される。このようなサブ帯域の1つは、X
1[b]と表される(表記を簡略化するためにサブ帯域インデックスは用いられないことに留意する)。同様の処理は、全てのサブ帯域に独立に適用され、通常、サブ帯域信号はダウンサンプリングされる。各入力チャネルの各サブ帯域の信号は加算され、次にパワー正規化係数を乗算される。
【0115】
和信号411が与えられると、パラメータ生成器405は、ステレオ又はマルチチャネルオーディオ信号415を合成し、ICTD、ICLD及び/又はICCが元のマルチチャネルオーディオ信号401の対応するキューを近似するようにする。
【0116】
1つのソースの両耳空間インパルス応答(binaural room impulse response:BRIR)を考慮するとき、聴覚イベントと聴取者包囲と両耳空間インパルス応答の前半と後半部分について推定されたICとの間には関係が存在する。しかしながら、BRIRだけでなく一般的信号についてのIC又はICCとこれらの特性との間の関係は直接的ではない。ステレオ及びマルチチャネルオーディオ信号は、通常、包囲された空間内の録音から生じる反響信号成分の重畳された又は空間的印象を人工的に生成する録音技術者により追加される同時に活性化するソース信号の複雑な混合物を含む。異なる音源信号及びそれらの反響は、時間−周波数平面内の異なる領域を占有する。これは、時間及び周波数の関数として変化するICTD、ICLD、及びICCにより反映される。この場合、瞬間的CTD、ICLD、及びICCと聴覚イベント方向及び空間的印象との間の関係は、明らかではない。パラメータ生成器405の方針は、これらのキューが元のオーディオ信号の対応するキューを近似するように、これらのキューを無分別に合成することである。
【0117】
一実施形態では、パラメトリックオーディオエンコーダ400は、等価矩形帯域幅の2倍に等しい帯域幅のサブ帯域を有するフィルタバンクを用いる。非公式な聴取は、より高い周波数分解能を選択するとき、BCCのオーディオ音質が著しく向上しないことを明らかにした。より低い周波数分解能は、デコーダへ送信する必要のあるより少ないICTD、ICLD、及びICC値をもたらし、したがってより低いビットレートをもたらすので、好ましい。時間分解能に関し、ICTD、ICLD、及びICCは、規則的時間間隔で考慮される。一実施形態では、ICTD、ICLD、及びICCは、約4−16ms毎に考慮される。留意すべきことに、キューが非常に短い時間間隔で考慮されない限り、先行音効果は直接考慮されない。
【0118】
参照信号と合成信号との間の頻繁に達成される知覚的に小さな差は、広範なオーディオ空間像属性に関連するキューが、規則的時間間隔でICTD、ICLD、及びICCを合成することにより暗黙のうちに考慮されることを意味する。これらの空間キューの送信のために必要なビットレートは僅か数kb/sであり、したがってパラメトリックオーディオエンコーダ400は、単一のオーディオチャネルのために必要なビットレートに近いビットレートでステレオ及びマルチチャネルオーディオ信号を送信できる。
図1及び2は、ICTDが符号化パラメータ415として推定される方法を示す。
【0119】
パラメトリックオーディオエンコーダ400は、ダウンミックス信号411を得るためにマルチチャネルオーディオ信号401の少なくとも2つオーディオチャネル信号を重畳するダウンミックス信号生成器407と、符号化オーディオ信号413を得るためにダウンミックス信号411を符号化するオーディオエンコーダ409、特にモノエンコーダと、符号化オーディオ信号413を対応する符号化パラメータ415と結合する結合器417と、を有する。
【0120】
パラメトリックオーディオエンコーダ400は、マルチチャネルオーディオ信号401のx
1,x
2,...,x
Mとして表される複数のオーディオチャネル信号のうちの1つのオーディオチャネル信号の符号化パラメータ415を生成する。各オーディオチャネル信号x
1,x
2,...,x
Mは、x
1[n],x
2[n],...,x
M[n]として表されるデジタルオーディオチャネル信号値を有するデジタル信号であっても良い。
【0121】
パラメトリックオーディオエンコーダ400が符号化パラメータ415を生成する例示的なオーディオチャネル信号は、信号値x
1[n]を有する第1のオーディオチャネル信号x
1である。パラメータ生成器405は、第1のオーディオ信号x1のオーディオチャネル信号値x
1[n]から及び参照オーディオ信号x
2の参照オーディオ信号値x
2[n]から符号化パラメータITDを決定する。
【0122】
参照オーディオ信号として用いられるオーディオチャネル信号は、例えば第2のオーディオチャネル信号x
2である。同様に、オーディオチャネル信号x
1,x
2,...,x
Mのうちの任意の他の1つは、参照オーディオ信号として機能しても良い。第1の態様によると、参照オーディオ信号は、符号化パラメータ415が生成されるオーディオチャネル信号x
1と等しくないオーディオチャネル信号のうちの別のオーディオチャネル信号である。
【0123】
第2の態様によると、参照オーディオ信号は、複数のマルチチャネルオーディオ信号401のうちの少なくとも2つのオーディオチャネル信号から引き出される、例えば第1のオーディオチャネル信号x
1及び第2のオーディオチャネル信号x
2から引き出されるダウンミックスオーディオ信号である。一実施形態では、参照オーディオ信号は、ダウンミキシング装置407により生成される和信号とも呼ばれるダウンミックス信号411である。一実施形態では、参照オーディオ信号は、エンコーダ409により提供される符号化信号413である。
【0124】
パラメータ生成器405により用いられる例示的な参照オーディオ信号は、信号値x
2[n]を有する第2のオーディオチャネル信号x
2である。
【0125】
パラメータ生成器405は、オーディオチャネル信号x
1のオーディオチャネル信号値x
1[n]の周波数変換、及び参照オーディオ信号x
2の参照オーディオ信号値x
2[n]の周波数変換を決定する。参照オーディオ信号は、複数のオーディオチャネル信号のうちの別のオーディオチャネル信号x
2、又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号x
1、x
2から引き出されるダウンミックスオーディオ信号である。
【0126】
パラメータ生成器405は、周波数サブ帯域のサブセットの少なくとも各周波数サブ帯域についてチャネル間差を決定する。各チャネル間差は、チャネル間差が関連付けられる個々の周波数サブ帯域内のオーディオチャネル信号の帯域の限られた信号部分と参照オーディオ信号の帯域の限られた信号部分との間の位相差IPD[b]又は時間差ITD[b]を示す。
【0127】
パラメータ生成器405は、チャネル間差IPD[b]、ITD[b]の正の値に基づき第1の平均ITD
mean_posを、及びチャネル間差IPD[b]、ITD[b]の負の値に基づき第2の平均ITD
mean_negを決定する。パラメータ生成器405は、第1の平均及び第2の平均に基づき、符号化パラメータITDを決定する。
【0128】
チャネル間位相差(inter-channel phase difference:ICPD)は、信号対の間の平均位相差である。チャネル間レベル差(inter-channel level difference:ICLD)は、両耳間レベル差(interaural level difference:ILD)、つまり左及び右耳に入る信号間のレベル差と同じであるが、より一般的には任意の信号対、例えばラウドスピーカ信号対、耳に入る信号対、等の間で定められる。チャネル間コヒーレンス又はチャネル間相関は、両耳間コヒーレンス(inter-aural coherence:IC)、つまり左及び右耳に入る信号間の類似度と同じであるが、より一般的には任意の信号対、例えばラウドスピーカ信号対、耳に入る信号対、等の間で定められる。チャネル間時間差(inter-channel time difference:ICTD)は、両耳間時間遅延としても表される場合のある両耳間時間差(interaural time difference:ITD)、つまり左及び右耳に入る信号間の時間差と同じであるが、より一般的には任意の信号対、例えばラウドスピーカ信号対、耳に入る信号対、等の間で定められる。サブ帯域チャネル間レベル差、サブ帯域チャネル間位相差、サブ帯域チャネル間コヒーレンス、及びサブ帯域チャネル間強度差は、サブ帯域帯域幅に関して以上に指定されたパラメータと関連する。
【0129】
第1のステップで、パラメータ生成器405は、時間領域入力チャネル、例えば第1の入力チャネルx
1、及び時間領域参照チャネル、例えば第2の入力チャネルx
2に時間周波数変換を適用する。ステレオの例では、これらは左及び右チャネルである。好適な実施形態では、時間周波数変換は、高速フーリエ変換(Fast Fourier Transform:FFT)又は短時間フーリエ変換(Short Term Fourier Transform)である。代替の実施形態では、時間周波数変換は、コサイン変調フィルタバンク又は複合フィルタバンクである。
【0130】
第2のステップでは、次式のように、パラメータ生成器405は、FFTの各周波数ビン[b]について相互スペクトルを計算する。
【数19】
ここで、c[b]は周波数ビン[b]の相互スペクトルであり、X
1[b]及びX
2[b]は2つのチャネルのFFT係数である。*は複素共役を表す。この例では、サブ帯域bは、1つの周波数ビン[k]に直接対応し、周波数ビン[b]及び[k]は正確に同じ周波数ビンを表す。
【0131】
代替で、パラメータ生成器405は、次式のように、サブ帯域[k]毎に相互スペクトルを計算する。
【数20】
ここで、c[b]はサブ帯域[b]の相互スペクトルであり、X
1[k]及びX
2[k]は2つのチャネル、例えばステレオの例では左及び右チャネルのFFT係数である。*は複素共役を表し、k
bはサブ帯域[b]の開始ビンである。
【0132】
相互スペクトルは、次式により計算される平滑化バージョンであり得る。
【数21】
ここで、SMW1は平滑化因子である。iはフレームインデックスである。
【0133】
チャネル間位相差(inter channel phase difference:IPD)は、次式のように相互スペクトルに基づきサブ帯域毎に計算される。
【数22】
ここで、演算子∠はc[b]の角度を計算するための偏角演算子(argument operator)である。留意すべき事に、相互スペクトルの平滑化の例では、c
sm[b,i]は、次式のようにIPD計算のために用いられる。
【数23】
第3のステップで、パラメータ生成器405は、IPDに基づき、各周波数ビン(又はサブ帯域)のITDを計算する。
【数24】
ここで、NはFFTビンの数である。
【0134】
第4のステップで、パラメータ生成器405は、ITDの正及び負値の計数を実行する。正及び負のITDの平均偏差及び標準偏差は、次式のようにITDの符号に基づく。
【数25】
ここで、Nb
pos及びNb
negは、それぞれ正及び負のITDの数である。Mは抽出されるITDの合計数である。
【0135】
第5のステップで、パラメータ生成器405は、平均及び標準偏差に基づき正及び負ITDからITDを選択する。選択アルゴリズムは、
図3に示される。
【0136】
一実施形態では、パラメータ生成器405は、以下を有する。
【0137】
オーディオチャネル信号(x
1)のオーディオチャネル信号値(x
1[n])の周波数変換(X
1[k])を決定し及び参照オーディオ信号(x
2)の参照オーディオ信号値(x
2[n])の周波数変換(X
2[k])を決定するフーリエ変換器のような周波数変換器。ここで、参照オーディオ信号は、複数のオーディオチャネル信号のうちの別のオーディオチャネル信号(x
2)、又は複数のオーディオチャネル信号のうちの少なくとも2つのオーディオチャネル信号(x
1、x
2)から引き出されるダウンミックスオーディオ信号である。
【0138】
周波数サブ帯域のサブセットのうち少なくとも各周波数サブ帯域(b)について、チャネル間差(IPD[b]、ITD[b])を決定するチャネル間差決定器。各チャネル間差は、チャネル間差の関連する個々の周波数サブ帯域(b)においてオーディオチャネル信号の帯域の限られた信号部分と参照オーディオ信号の帯域の限られた信号部分と間の位相差(IPD[b])又は時間差(ITD[b])を示す。
【0139】
チャネル間差(IPD[b]、ITD[b])の正の値に基づき第1の平均(ITD
mean_pos)を、及びチャネル間差(IPD[b]、ITD[b])の負の値に基づき第2の平均(ITD
mean_neg)を決定するパラメータ生成器。
【0140】
第1の平均及び第2の平均に基づき、符号化パラメータ(ITD)を決定する符号化パラメータ決定器。
【0141】
図5は、一実施形態によるパラメトリックオーディオデコーダ500のブロック図を示す。パラメトリックオーディオデコーダ500は、通信チャネルを介して送信されるビットストリームを入力信号として受信し、復号化マルチチャネルオーディオ信号501を出力信号として提供する。パラメトリックオーディオデコーダ500は、ビットストリーム503に結合されビットストリーム503を符号化パラメータ515及び符号化信号513に復号化するビットストリームデコーダ517と、ビットストリームデコーダ517に結合され符号化信号513から和信号511を生成するデコーダ509と、ビットストリームデコーダ517に結合され符号化パラメータ515からパラメータ521を決定するパラメータ決定器505と、パラメータ決定器505及びデコーダ509に結合されパラメータ521及び和信号511から復号化マルチチャネルオーディオ信号501を合成する合成器505と、を有する。
【0142】
パラメトリックオーディオデコーダ500は、チャネル間のICTD、ICLD、及び/又はICCが元のマルチチャネルオーディオ信号のICTD、ICLD、及び/又はICCを近似するように、マルチチャネルオーディオ信号501の出力チャネルを生成する。記載のスキームは、モノオーディオ信号を表すために必要なビットレートよりほんの僅かに高いビットレートでマルチチャネルオーディオ信号を表すことができる。したがって、チャネル対の間の推定されたICTD、ICLD、及びICCは、オーディオ波形より約2桁小さい大きさを有する。低ビットレートだけでなく、後方互換性の側面も関心がある。送信される和信号は、ステレオ又はマルチチャネル信号のモノダウンミックスに対応する。
【0143】
図6は、一実施形態によるパラメトリックステレオオーディオエンコーダ601及びデコーダ603のブロック図を示す。パラメトリックステレオオーディオエンコーダ601は
図4に関して説明したようなパラメトリックオーディオエンコーダ400に対応する。しかし、マルチチャネルオーディオ信号401は、左605及び右607のオーディオチャネルを有するステレオオーディオ信号である。
【0144】
パラメトリックオーディオエンコーダ601は、ステレオオーディオ信号605、607を入力信号として受信し、ビットストリームを出力信号609として提供する。パラメトリックオーディオエンコーダ601は、ステレオオーディオ信号605、607に結合され空間パラメータ613を生成するパラメータ生成器611と、ステレオオーディオ信号605、607に結合されダウンミックス信号617又は和信号を生成するダウンミックス信号生成器615と、ダウンミックス信号生成器615に結合され符号化オーディオ信号621を提供するためにダウンミックス信号617を符号化するモノエンコーダ619と、パラメータ生成器611及びモノエンコーダ619に結合され、出力信号609を提供するために符号化パラメータ613及び符号化オーディオ信号621うぃビットストリームに結合するビットストリーム結合器623と、を有する。パラメータ生成器611では、空間パラメータ613は、ビットストリームに多重化される前に、抽出され量子化される。
【0145】
パラメトリックオーディオデコーダ603は、ビットストリーム、つまり通信チャネルを介して送信されるパラメトリックオーディオエンコーダ601の出力信号609を入力信号として受信し、左チャネル625及び右チャネル627を有する復号化ステレオオーディオ信号を出力信号として提供する。パラメトリックステレオオーディオデコーダ603は、受信ビットストリーム609に結合されビットストリーム609を符号化パラメータ631及び符号化信号633に復号化するビットストリームデコーダ629と、ビットストリームデコーダ629に結合され符号化信号633から和信号637を生成するモノデコーダ635と、ビットストリームデコーダ629に結合され符号化パラメータ631から空間パラメータ641を決定する空間パラメータ決定器639と、空間パラメータ決定器639及びモノデコーダ635に結合され空間パラメータ641及び和信号637から復号化ステレオオーディオ信号625を合成する合成器643と、を有する。
【0146】
パラメトリックステレオオーディオデコーダ603内の処理は、空間パラメータ631、例えばチャネル間時間差(inter-channel time difference:ICTD)及びチャネル間レベル差(inter-channel level difference:ICLD)を生成するために、時間及び周波数において適応的に、遅延を導入し及びオーディオ信号のレベルを変更できる。さらに、パラメトリックステレオオーディオデコーダ603は、チャネル間コヒーレンス(inter-channel coherence:ICC)合成のために効率的に時間適応型フィルタリングを実行する。一実施形態では、パラメトリックステレオエンコーダは、計算の複雑性の低い両耳間キュー符号化(binaural cue coding:BCC)を効率的に実施するために、短時間フーリエ変換(STFT)に基づくフィルタバンクを用いる。パラメトリックステレオオーディオエンコーダ601内の処理は、計算の複雑性が低く及び遅延が小さく、パラメトリックステレオオーディオ符号化をリアルタイムアプリケーションのためのマイクロプロセッサ又はデジタル信号プロセッサ上での安価な実装に適するものにする。
【0147】
図6に示したパラメータ生成器611は、空間キューの量子化及び符号化が追加されている点を除き、
図4に関して説明した対応するパラメータ生成器405と機能的に同じである。和信号617は、従来のモノオーディオコーダ619で符号化される。一実施形態では、パラメトリックステレオオーディオエンコーダ601は、STFTに基づく時間−周波数変換を用いて、ステレオオーディオチャネル信号605、607を周波数領域に変換する。STFTは、入力信号x(n)のウインドウ化部分に離散フーリエ変換(discrete Fourier transform:DFT)を適用する。N個のサンプルの信号フレームは、N点DFTが適用される前に、長さWのウインドウを乗算される。隣接するウインドウは、重なり合い、W/2サンプルだけシフトされる。ウインドウは、重なり合うウインドウが合計で一定値1になるよう、選択される。したがって、逆変換では、追加ウインドウ化は必要ない。W/2個のサンプルの連続フレーム分の時間前進を有するサイズNの単純な逆DFTは、デコーダ603で用いられる。スペクトルが変更されない場合、重なり合い/追加により完全な再構成が達成される。
【0148】
STFTの均一なスペクトル分解能は人間の知覚に良好に適応しないので、STFTの均等に空間の空けられたスペクトル係数出力は、知覚により良好に適応された帯域幅を有するB個の重なり合わない区画にグループ化される。1つの区画は、
図4に関連する説明に従って、1つの「サブ帯域」に概念的に対応する。代替の実施形態では、パラメトリックステレオオーディオエンコーダ601は、不均一フィルタバンクを用いて、ステレオオーディオチャネル信号605、607を周波数領域に変換する。
【0149】
一実施形態では、ダウンミキサ315は、次式により、等化和信号Sm(k)617の1つの区画bの又は1つのサブ帯域bのスペクトル係数を決定する。
【数26】
ここで、Xc,m(k)は入力オーディオチャネル605、607のスペクトルであり、eb(k)は次式により計算される利得係数である。
【数27】
ここで、区画パワー推定は、次式の通りである。
【数28】
サブ帯域信号の和の減衰が顕著なとき、大きな利得係数から生じるアーティファクトを防ぐために、利得係数eb(k)は6dBまでに制限される。つまり、eb(k)≦2である。
【0150】
以上から、当業者には、種々の方法、システム、記録媒体上のコンピュータプログラム、等が提供されることが明らかであろう。
【0151】
本開示は、実行されると少なくとも1つのコンピュータに本願明細書に記載のステップを実行及び計算ステップを実行させるコンピュータ実行可能コード又はコンピュータ実行可能命令を含むコンピュータプログラム製品もサポートする。
【0152】
本開示は、本願明細書に記載のステップを実行及び計算ステップを実行するよう構成されるシステムもサポートする。
【0153】
多くの代替、変更及び変形が、上述の教示を踏まえて当業者に明らかであろう。勿論、当業者は、本願明細書の記載以外に本発明の多数の適用が存在することを直ちに理解する。本発明は1又は複数の特定の実施形態を参照して説明されたが、当業者は、本発明の精神及び範囲から逸脱することなく、それらに多くの変更が行われ得ることを理解する。したがって、添付の請求の範囲及びそれらの等価物の範囲内で本発明は実施され得ること又は特に本願明細書に記載されたように実施され得ることが理解されるべきである。