(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-17
(54)【発明の名称】マルチチャンネル音声符号化
(51)【国際特許分類】
G10L 19/008 20130101AFI20221109BHJP
【FI】
G10L19/008 100
(21)【出願番号】P 2020571588
(86)(22)【出願日】2019-06-19
(86)【国際出願番号】 EP2019066228
(87)【国際公開番号】W WO2019243434
(87)【国際公開日】2019-12-26
【審査請求日】2021-02-22
(32)【優先日】2018-06-22
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ビューテ ヤン
(72)【発明者】
【氏名】フォトポウロウ エレニ
(72)【発明者】
【氏名】コルセ スリカンス
(72)【発明者】
【氏名】マベン パラヴィ
(72)【発明者】
【氏名】ムルトゥルス マルクス
(72)【発明者】
【氏名】ロイテルフーバー フランツ
【審査官】梅本 達雄
(56)【参考文献】
【文献】国際公開第2017/125562(WO,A1)
【文献】国際公開第2017/153466(WO,A1)
【文献】国際公開第2018/086947(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 - 13/10
G10L 19/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
【請求項2】
前記少なくとも1つのITDパラメータ(ITD
t)を抽出するために、前記分析ウインドウ(w(τ))内の前記少なくとも一対の前記チャンネルの前記音声信号の周波数変換(L
t,k;R
t,k)を用いるようにさらに構成される、請求項1に記載の比較装置。
【請求項3】
【請求項4】
【請求項5】
ルックアップテーブルに記憶された前記分析ウインドウの前記自己相関関数の前記正規化バージョンの補間によって前記関数を得るようにさらに構成される、請求項4に記載の比較装置。
【請求項6】
【請求項7】
【請求項8】
前記少なくとも1つのサイドゲイン及び前記少なくとも1つの残差ゲインを、前記エネルギーと前記少なくとも一対のITD補償された周波数変換 (L
t,k,comp;R
t,k,comp)の内積とを用いて計算するようにさらに構成される、請求項7に記載の比較装置。
【請求項9】
【請求項10】
【請求項11】
【請求項12】
前記少なくとも1つの前記ダウンミックス信号を、少なくとも一対のITD補償された周波数変換に基づいて生成するようにさらに構成される、請求項1ないし11のいずれか1項に記載の比較装置。
【請求項13】
前記少なくとも1つのダウンミックス信号、前記少なくとも1つのITDパラメータ、及び前記少なくとも1つの比較パラメータを符号化して、デコーダに送信するようにさらに構成される請求項11または請求項12に記載の前記比較装置を備える、マルチチャンネルエンコーダ。
【請求項14】
【請求項15】
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、パラメトリックマルチチャンネル音声符号化に関する。
【背景技術】
【0002】
低ビットレートでのステレオ信号の損失性パラメトリック符号化についての最新の方法は、MPEG-4パート3[1]で規格化されたパラメトリックステレオに基づいている。一般的な考えは、デコーダにサイド情報として送られるステレオ/空間パラメータを抽出した後に2つの入力チャンネルからダウンミックス信号を計算することによって、マルチチャンネルシステムのチャンネル数を削減することである。これらのステレオ/空間パラメータは、一般に、チャンネル間レベル差ILD、チャンネル間位相差IPD、及びチャンネル間コヒーレンスICCから構成されてもよく、これらはサブバンドで計算されてもよく、特定の拡張のための空間像をある程度捉えることができる。
【0003】
しかしながら、この方法は、例えば、ABマイク設定で録音された音声をダウンミックスまたは再生するためにあるいはバイノーラルにレンダリングされたシーンを合成するために望ましいチャンネル間時間差(ITD(複数))を補償したり合成したりすることはできない。ITD合成は、バイノーラルキュー符号化(BCC)[2]で対処されており、一般に、パラメータILD及びICCが使用されるがITD(複数)は推定され、チャンネル調整は周波数領域で実行される。
【0004】
時間領域ITD推定量は存在するが、通常ITD推定にとって、時間-周波数変換を適用することが好ましく、これは、相互相関関数のスペクトルフィルタリングを可能にし、また、計算量も効率的でもある。複雑であるという理由から、ステレオ/空間パラメータの抽出や可能ならばチャンネルのダウンミックスにも使用される同じ変換を使用することは、望ましいが、これはBCCアプローチ内でも行われている。
【0005】
しかしながら、これには欠点がある:ステレオパラメータの正確な推定は、調整されたチャンネル上で実行されるのが理想的である。しかし、チャンネルが、例えば周波数領域内での循環シフトによって、周波数領域で調整されている場合、これは、分析ウインドウ内でのオフセットを引き起こす可能性があり、パラメータ推定に悪影響を及ぼす可能性がある。BCCの場合、これは、主に、ICCの測定に影響を及ぼし、たとえ入力信号が実際には全体的にコヒーレントであっても、ウインドウオフセットの増加は、最終的にICC値をゼロに向けて押し上げる。
【発明の概要】
【発明が解決しようとする課題】
【0006】
このように、本願発明は、空間パラメータ推定に対する悪影響を回避しつつ、チャンネル間時間差を補償することを可能にする、マルチチャンネル音声符号化でのパラメータ計算の概念を提供することを目的とする。
【0007】
この目的は、同封された独立請求項の主題によって達成される。
【課題を解決するための手段】
【0008】
本願発明は、マルチチャンネル音声符号化においてパラメトリック音声エンコーダによって使用される周波数領域内の任意の2つのチャンネル間のITD補償についての少なくとも1つの比較パラメータを計算することによって、改善された計算効率が達成される可能性があるという知見に基づいている。少なくとも前記1つの比較パラメータは、空間パラメータ推定での上述の悪影響を軽減するために、パラメトリックエンコーダによって使用されてもよい。
【0009】
実施の形態は、少なくとも1つのダウンミックス信号と追加のステレオまたは空間パラメータによって、ステレオまたは一般的な空間コンテンツを表現することを目的とするパラメトリック音声エンコーダを備えていてもよい。これらステレオ/空間パラメータには、残りのステレオ/空間パラメータを計算する前に、周波数領域で推定され補償されたITD(複数)が含まれてもよい。この手順では、他のステレオ/空間パラメータに偏りが生じる可能性があり、そうでなければ、コストがかかる方法で解決しなければならない問題は、周波数-時間変換を再計算することになる。前述の実施の形態では、この問題は、むしろ、ITDの値及び基本的な変換の特定のデータを使用できる計算量の少ない補正スキームを適用することによって、むしろ軽減できるかもしれない。
【0010】
実施の形態は、重み付けられた、ミッド/サイド変換アプローチに基づいていてもよく、ステレオ/空間パラメータIPD、ITD、ならびに、2つのゲイン係数を用いてもよく、周波数領域で動作してもよい、非可逆パラメトリック音声エンコーダに関する。他の実施形態では、異なる変換を用いてもよく、適宜異なる空間パラメータを用いてもよい。
【0011】
実施の形態では、パラメトリック音声エンコーダは、周波数領域内のITD(複数)の補償及び合成の両方が可能であってもよい。それは、前述のウインドウオフセットの悪影響を軽減する計算効率の高いゲイン補正スキームを特徴としていてもよい。また、BCCコーダについての補正スキームも、提案されている。
【0012】
本願発明の有利な実施例は、従属項の主題である。本願発明の好ましい実施の形態は、図面に関して以下に説明される。
【図面の簡単な説明】
【0013】
【
図1】
図1は、本願発明の実施の形態に従った、パラメトリックエンコーダ用の比較装置のブロック図を示す。
【
図2】
図2は、本願発明の実施の形態に従った、パラメトリックエンコーダのブロック図を示す。
【
図3】
図3は、本願発明の実施の形態に従った、パラメトリックデコーダのブロック図を示す。
【発明を実施するための形態】
【0014】
図1は、マルチチャンネル音声信号用の比較装置100を示す。図示の通り、それは、一対のステレオチャンネルについての音声信号、すなわち、左音声チャンネル信号l(τ)及び右音声チャンネル信号r(τ)についての入力を備えていてもよい。他の実施の形態は、もちろん、音源の空間特性を捕捉するために複数のチャンネルを備えていてもよい。
【0015】
時間領域音声信号l(τ)、r(τ)を周波数領域に変換する前に、同一の重複するウインドウ関数11、21、w(τ)は、左、及び右入力チャンネル信号l(τ)、r(τ)にそれぞれ適用されてもよい。さらに、実施の形態では、一定量のゼロパディング(zero padding)が、周波数領域内でのシフトを可能にするために加えられてもよい。その後、ウインドウ処理された音声信号は、対応する離散フーリエ変換(DFT)ブロック12、22に提供されて時間-周波数変換を実行されてもよい。これらは、一対のチャンネルの音声信号の周波数変換として時間-周波数ビンLt,k及びRt,k、k=0,・・・,k-1を生じさせてもよい。
【0016】
前記周波数変換Lt,k及びRt,kは、ITD検出及び補償ブロック20に提供されてもよい。後者は、前記分析ウインドウw(τ)内の一対のチャンネルの音声信号の周波数変換Lt,k及びRt,kを用いて、一対のチャンネルについての音声信号間のITDを表すITDパラメータ、ここでは、ITDτを導出するように構成されていてもよい。他の実施の形態では、時間領域内のDFTブロックの前に決定されてもよいITDパラメータを導出するために異なるアプローチを使用してもよい。
【0017】
ITDを計算するためのITDパラメータの導出は、可能な限り重み付けられた、自己相関、または相互相関関数の計算を含んでいてもよい。従来は、これは、逆離散フーリエ変換(IDFT)を項(Lt,kR*
t,kωt,k)kに適用することにより、時間-周波数ビンLt,k、及びRt,kから計算することができる。
【0018】
【0019】
実施の形態では、ITDt/2サンプルによって、これは遅延チャンネルを進めてもよく、または、遅延チャンネルを遅らせてもよい。しかしながら、別の実施の形態では、遅れが重要である場合、システムの遅れを増加させないITDtサンプルだけ遅延チャンネルを進めることは有益であるかもしれない。
【0020】
その結果、ITD検出及び補償ブロック20は、ITDパラメータITDtを用いて周波数領域内の一対のチャンネルについてのITDを循環シフト[複数]によって補償して、一対のITD補償された周波数変換Lt,k,comp、Rt,k,compをその出力で生じさせてもよい。さらに、ITD検出及び補償ブロック20は、例えば、パラメトリックエンコーダによる送信のために、導出されたITDパラメータ、すなわちITDtを出力してもよい。
【0021】
図1に示すように、比較及び空間パラメータ計算ブロック30は、ITDパラメータITD
t、及び一対のITD補償周波数変換L
t,k,comp、R
t,k,compをその入力信号として受信してもよい。比較及び空間パラメータ計算ブロック30は、入力信号の一部または全部を使用して、位相間差分IPD等のマルチチャンネル音声信号のステレオ/空間パラメータを抽出してもよい。
【0022】
さらに、比較及び空間パラメータ計算ブロック30は、ITDパラメータITDt、及び一対のITD補償周波数変換Lt,k,comp,Rt,k,compに基づいて、少なくとも1つの比較パラメータ、ここでは2つのゲイン係数gt,b及びrt,b,corrをパラメトリックエンコーダのために生成してもよい。他の実施の形態では、少なくとも1つの比較パラメータを生成するために、周波数変換Lt,k、Rt,k、および/または、比較及び空間パラメータ計算ブロック30で抽出された、空間/ステレオパラメータを追加的にまたは代替的に使用してもよい。
【0023】
少なくとも1つの比較パラメータは、パラメトリックエンコーダの空間/ステレオパラメータ推定での分析ウインドウw(τ)での前述のオフセットの悪影響を軽減する計算効率の良い補正スキームの一部として役立てることが可能であり、前記オフセットは、ITD検出及び補償ブロック20のDFT領域内の循環シフトによってチャンネルが調整されることによって引き起こされる。実施の形態では、少なくとも1つの比較パラメータは、デコーダで一対のチャンネルの音声信号を復元するために、例えば、ダウンミックス信号から計算されてもよい。
【0024】
図2は、
図1の比較装置100が、ITDパラメータITD
t、一対のITD補償周波数変換L
t,k,comp,R
t,k,comp、及び比較パラメータr
t,b,corr及びg
t,bを提供するために使用されてもよいステレオ音声信号のためのこのようなパラメトリックエンコーダ200の実施の形態を示す。
【0025】
パラメトリックエンコーダ200は、ITD補償周波数変換Lt,k,comp、Rt,k,compを入力として使用して、左右の入力チャンネル信号l(τ)、r(τ)についてダウンミックスブロック40でダウンミックス信号DMXt,kを生成してもよい。他の実施の形態では、周波数変換Lt,k、Rt,kを追加的にまたは代替的に使用して、ダウンミックス信号DMXt,kを生成してもよい。
【0026】
パラメトリックエンコーダ200は、比較及び空間パラメータ計算ブロック30においてフレームベースで、ステレオパラメータ、例えば、IPD等、を計算してもよい。他の実施の形態では、異なるまたはさらなるステレオ/空間パラメータを決定してもよい。
図2のパラメトリックエンコーダ200の実施の形態の符号化手順は、以下に詳細に記述された、以下のステップに大まかに従ってもよい。
1.ウインドウにおけるウインドウ処理されたDFTとDFTブロック11、12、21、22とを使用する、入力信号の時間-周波数変換
2.ITD検出及び補償ブロック20の周波数領域内のITD推定及び補償
3.比較及び空間パラメータ計算ブロック30のステレオパラメータ抽出及び比較パラメータ計算
4.ダウンミックスブロック40のダウンミキシング
5.IDFTブロック50における周波数-時間変換に続くウインドウ処理及びオーバーラップの追加
【0027】
図2のパラメトリック音声エンコーダ200の実施の形態は、ITD補償周波数変換L
t,k,comp、R
t,k,compならびにITDを入力として使用して、周波数領域内の入力チャンネルの重み付けられたミッド/サイド変換に基づいていてもよい。それは、さらに、IPDなどの、ステレオ/空間パラメータ、ならびに、ステレオ画像をキャプチャする2つのゲイン係数をさらに計算してもよい。それは、前述のウインドウオフセットの悪影響を軽減するかもしれない。
【0028】
【0029】
【0030】
【0031】
【0032】
【0033】
【0034】
他の実施の形態では、他のアプローチおよび/または式が、サイドゲイン係数gt,b及び残差ゲイン係数rt,bおよび/または異なる比較パラメータを適切に計算するために使用されてもよい。
【0035】
【0036】
【0037】
【0038】
このような周波数領域のチャンネル調整は、主に、残差予測ゲイン係数r
t,bに影響を与え、ITD
tの増加とともにより大きくなることが観測されている。さらなる対策がなければ、周波数領域でのチャンネル調整は、このように、
図3に示された、追加のアンビエンスをデコーダでの出力音声信号に加える。特に符号化される音声信号がクリーンなスピーチを含む場合には、人工的なアンビエンスがスピーチの明瞭性を損なうので、このような追加のアンビエンスは、望ましくない。
【0039】
従って、上述の効果は、更なる比較パラメータを使用して、ノンゼロITD(複数)が存在するときには、(予測)残差ゲイン係数rt,bを補正することによって緩和される可能性がある。
【0040】
【0041】
【0042】
【0043】
【0044】
【0045】
【0046】
【0047】
それゆえに、さらなる実施の形態は、ウインドウ処理されたDFTと、式(3)に従ったパラメータIPD[のサブセット]、式(11)に従ったサイドゲインgt,b、式(12)に従った残差ゲインrt,b、及びITD(複数)とを使用したパラメトリックオーディオ符号化に関連し、残差ゲインrt,bは、式(25)に従って調整される。
【0048】
【0049】
【0050】
【0051】
【0052】
【0053】
定義上、ICCは、ITD(複数)を補償した後に測定される。しかしながら、マッチしていないウインドウ関数wは、ICC測定を偏らせるかもしれない。式(13)によって示された上述のクリーンな無反響音声の設定では、適切に調整された入力チャンネルで計算された場合、ICCは1となるであろう。
【0054】
【0055】
【0056】
このように、更なる実施の形態は、ウインドウ処理されたDFTおよび式(3)に従ったパラメータIPD[のサブセット]、式(26)に従ったICC、及びITC(複数)を用いるパラメトリック音声コーディングに関し、ICCは式(28)に従って調整される。
【0057】
【0058】
式(29)では、βは、ステレオ/空間パラメータから計算された実際の絶対位相調整パラメータであってもよい。他の実施の形態では、
図2に示された符号化スキームは、また、他のどのようなダウンミックス方法で動作してもよい。他の実施の形態は、周波数変換L
t,k、及びR
t,k、及び任意の更なるパラメータを用いてダウンミックス信号DMX
t,kを決定してもよい。
【0059】
図2の実施の形態のエンコーダでは、逆離散フーリエ変換(IDFT)ブロック50は、ダウンミックスブロック40から周波数領域ダウンミックス信号DMX
t,kを受信してもよい。IDFTブロック50は、周波数領域から時間領域まで、ダウンミックス時間-周波数ビンDMX
t,k、k=0,・・・,k-1を変換して時間領域ダウンミックス信号dmx(τ)を生じさせてもよい。実施の形態では、合成ウインドウw
s(τ)を適用して、時間領域ダウンミックス信号dmx(τ)に加えてもよい。
【0060】
さらに、
図2の実施の形態のように、コアエンコーダ60は、MPEG-4パート3[1]、または、必要に応じて他の任意の適当な音声符号化アルゴリズムにも従って、単独チャンネル音声信号をエンコードするためにドメインダウンミックス信号dmx(τ)を受信してもよい。
図2の実施の形態では、コアエンコードされた時間領域ダウンミックス信号dmx(τ)は、ITDパラメータITD
t、サイドゲインg
t,b及び補正された残差ゲインr
t,b,corrと組み合わせてデコーダへの送信のために適切に処理され、および/またはエンコードされてもよい。
【0061】
図3は、マルチチャンネルデコーダの実施形態を示す。デコーダは、時間領域内のモノラル/ダウンミックス入力信号dmx(τ)と、フレームベースのサイド情報としての比較および/または空間パラメータからなる複合信号を受信してもよい。
図3に示すデコーダは、以下に詳細に記述される、以下のステップを実行してもよい。
1.DFTブロック80のウインドウ処理されたDFT(複数)を用いる時間周波数変換
2.アップミキシング及び空間復元ブロック90における周波数領域の消失残差の予測
3.アップミキシング及び空間復元ブロック90における周波数領域でのアップミキシング
4.ITD合成ブロック100での周波数領域のITD合成
5.IDFTブロック112、122、及びウインドウブロック111、121での周波数-時間領域変換、ウインドウ処理及び重複の追加
【0062】
モノラル/ダウンミックス信号入力信号dmx(τ)の時間-周波数変換は、
図2のエンコーダの入力音声信号に関しては、類似した方法で行われてもよい。特定の実施の形態では、適切な量のゼロパディングが、周波数領域内のITD復元に対して加えられてもよい。この手順は、時間-周波数ビンDMX
t,k、k=0,・・・,k-1の形式で、ダウンミックス信号の周波数変換を生じさせてもよい。
【0063】
【0064】
【0065】
【0066】
【0067】
上述の実施の形態は、単に、本発明の原則を説明したにすぎない。ここに記述された配置及び詳細の修正及び変更は、他の当業者にとって明らかであると理解される。したがって、差し迫った特許請求の範囲のみに限定され、そして、明細書中の実施の形態の記述及び説明によって表された特定の詳細によっては制限されないことを意味する。
【0068】
参考文献
[1] MPEG-4 High Efficiency Advanced Audio Coding (HE-AAC) v2
[2] Juergen Herre, FROM JOINT STEREO TO SPATIAL AUDIO CODING - RECENT PROGRESS AND STANDARDIZATION, Proc. of the 7th Int. Conference on digital Audio Effects (DAFX-04), Naples, Italy, October 5-8, 2004
[3] Christoph Tourney and Christof Faller, Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding, AES Convention Paper 6753, 2006
[4] Christof Faller and Frank Baumgarte, Binaural Cue Coding Part II: Schemes and Applications, IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003